[빅분기] 분석 데이터셋 준비, 수행, 성능 평가

구경이 2023. 6. 10. 17:11

전처리까지 완료 한 후 분석을 수행한다.

먼저 분석 데이터셋을 준비한다.

전처리를 마친 데이터를 학습용 데이터셋과 테스트용 데이터셋으로 분리한다. (일반적으로 8:2의 비율)

* 분석 데이터셋 준비

불필요한 컬럼은 제외하고, 필요한 컬럼만 독립 변수로 선택해서 분석 데이터셋을 준비한다.

X는 독립변수(셜명변수), y는 종속변수(목표변수)

X = df[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize"]]
y = df["Survived"]

데이터 분리를 위해서 사이킬런의 train_test_split()함수를 사용한다.

#  분석 데이터셋 분할(8:2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)

* shape 속성을 이용하여 결과 데이터셋의 크기를 살펴본다.

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

* 데이터 분석 실행

# 의사결정나무 사용
from sklearn.tree import DecisionTreeClassifier 

dt=DecisionTreeClassifier(random_state=11)
dt.fit(X_train, y_train)

* 학습이 완료된 dt 객체에서 테스트 데이터셋으로 분류(예측 수행)

# 예측 수행
pred = dt.predict(X_test)

* 성능평가

# 모델 성능 - 정확도 측정

from sklearn.metrics import accuracy_score
acc=accuracy_score(y_test, pred)

print(acc)