공부, 자격증/빅데이터분석기사 실기
[빅분기] 레이블 인코딩, 파생변수 생성
구경이
2023. 6. 10. 16:15
반응형
* 레이블 인코딩 (Label Encoding)
- 카테코리 컬럼의 값으 코드형 숫자 값으로 변환한다.
- 텍스트 값으로 되어 있는 컬럼을 숫자로 변환
# sex, embarked 컬럼의 값 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
df["Sex"] = LabelEncoder().fit_transform(df["Sex"])
df["Embarked"] = LabelEncoder().fit_transform(df["Embarked"])
df.head()
LabelEncoder를 임포트 한다.
LabelEncoder로 객체를 생성한 후 fit_transform() 함수를 사용해서 구현한다.
* 파생변수 생성
동승자 가족수는 2개의 컬럼 SibSp(형제 또는 배우자수), Parch(부모 또는 자녀수)로 존재하기 때문에
두 값을 더해서 가족수를 나타내는 파생변수 생성
df["FamilySize"] = df['SibSp'] + df["Parch"]
반응형