[빅분기] 분석 데이터셋 준비, 수행, 성능 평가
전처리까지 완료 한 후 분석을 수행한다. 먼저 분석 데이터셋을 준비한다. 전처리를 마친 데이터를 학습용 데이터셋과 테스트용 데이터셋으로 분리한다. (일반적으로 8:2의 비율) * 분석 데이터셋 준비 불필요한 컬럼은 제외하고, 필요한 컬럼만 독립 변수로 선택해서 분석 데이터셋을 준비한다. X는 독립변수(셜명변수), y는 종속변수(목표변수) X = df[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize"]] y = df["Survived"] 데이터 분리를 위해서 사이킬런의 train_test_split()함수를 사용한다. # 분석 데이터셋 분할(8:2) X_train, X_test, y_train, y_test = train_test_split(X, y, ..