반응형
전처리까지 완료 한 후 분석을 수행한다.
먼저 분석 데이터셋을 준비한다.
전처리를 마친 데이터를 학습용 데이터셋과 테스트용 데이터셋으로 분리한다. (일반적으로 8:2의 비율)
* 분석 데이터셋 준비
불필요한 컬럼은 제외하고, 필요한 컬럼만 독립 변수로 선택해서 분석 데이터셋을 준비한다.
X는 독립변수(셜명변수), y는 종속변수(목표변수)
X = df[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize"]]
y = df["Survived"]
데이터 분리를 위해서 사이킬런의 train_test_split()함수를 사용한다.
# 분석 데이터셋 분할(8:2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)
* shape 속성을 이용하여 결과 데이터셋의 크기를 살펴본다.
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
* 데이터 분석 실행
# 의사결정나무 사용
from sklearn.tree import DecisionTreeClassifier
dt=DecisionTreeClassifier(random_state=11)
dt.fit(X_train, y_train)
* 학습이 완료된 dt 객체에서 테스트 데이터셋으로 분류(예측 수행)
# 예측 수행
pred = dt.predict(X_test)
* 성능평가
# 모델 성능 - 정확도 측정
from sklearn.metrics import accuracy_score
acc=accuracy_score(y_test, pred)
print(acc)
반응형
'공부, 자격증 > 빅데이터분석기사 실기' 카테고리의 다른 글
이기적 빅분기 실기 모의고사 작업형 1회 문제 데이터셋 (0) | 2023.06.22 |
---|---|
[빅분기] 인프런 강의 추천!!! (0) | 2023.06.14 |
[빅분기] 레이블 인코딩, 파생변수 생성 (0) | 2023.06.10 |
[빅분기] 데이터 전처리-평균, 최빈값, 컬럼 삭제 (0) | 2023.06.10 |
[빅분기] 결측치 확인, 대체 (0) | 2023.06.06 |