본문 바로가기

공부, 자격증/빅데이터분석기사 실기

[빅분기] 레이블 인코딩, 파생변수 생성

반응형

* 레이블 인코딩 (Label Encoding)

- 카테코리 컬럼의 값으 코드형 숫자 값으로 변환한다.

- 텍스트 값으로 되어 있는 컬럼을 숫자로 변환

 

# sex, embarked 컬럼의 값 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
df["Sex"] = LabelEncoder().fit_transform(df["Sex"])

df["Embarked"] = LabelEncoder().fit_transform(df["Embarked"])
df.head()

LabelEncoder를 임포트 한다.

LabelEncoder로 객체를 생성한 후 fit_transform() 함수를 사용해서 구현한다.

 

* 파생변수 생성

동승자 가족수는 2개의 컬럼 SibSp(형제 또는 배우자수), Parch(부모 또는 자녀수)로 존재하기 때문에

두 값을 더해서 가족수를 나타내는 파생변수 생성

df["FamilySize"] = df['SibSp'] + df["Parch"]

 

 

 

 

 

 

 

반응형