공부, 자격증/빅데이터분석기사 실기
[빅분기] 분석 데이터셋 준비, 수행, 성능 평가
구경이
2023. 6. 10. 17:11
반응형
전처리까지 완료 한 후 분석을 수행한다.
먼저 분석 데이터셋을 준비한다.
전처리를 마친 데이터를 학습용 데이터셋과 테스트용 데이터셋으로 분리한다. (일반적으로 8:2의 비율)
* 분석 데이터셋 준비
불필요한 컬럼은 제외하고, 필요한 컬럼만 독립 변수로 선택해서 분석 데이터셋을 준비한다.
X는 독립변수(셜명변수), y는 종속변수(목표변수)
X = df[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize"]]
y = df["Survived"]
데이터 분리를 위해서 사이킬런의 train_test_split()함수를 사용한다.
# 분석 데이터셋 분할(8:2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)
* shape 속성을 이용하여 결과 데이터셋의 크기를 살펴본다.
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
* 데이터 분석 실행
# 의사결정나무 사용
from sklearn.tree import DecisionTreeClassifier
dt=DecisionTreeClassifier(random_state=11)
dt.fit(X_train, y_train)
* 학습이 완료된 dt 객체에서 테스트 데이터셋으로 분류(예측 수행)
# 예측 수행
pred = dt.predict(X_test)
* 성능평가
# 모델 성능 - 정확도 측정
from sklearn.metrics import accuracy_score
acc=accuracy_score(y_test, pred)
print(acc)
반응형