본문 바로가기

반응형

공부, 자격증/빅데이터분석기사 실기

(7)
빅데이터분석기사 실기 작업형 1 정리, 마무리 암기!!! 작업형 1에서는 전처리, 데이터 형 변경 문제가 나오곤 합니다. 문제는 케글, 문제집을 풀어보면 감이 오지만, 일단 문제를 풀기 위해서는!!! 명령어를 알아야 합니다. 명령어를 알아야 help 도 쓸 수 있죠. 자주 접한 명령어면 상관 없지만, 일단 명령어가 익숙해질때까지 외워야 합니다. 6회 실기의 작업형1에서는 데이트타임이 나왔습니다. 이것도 연습을 안하면 쉽게 풀지 못할수도 있는 문제 입니다. 최대값df.max()최소값df.min()평균값df.mean()중앙값df.median()최빈값df.mode()합계df.sum()데이터수df.count()분위수df.quantile()분산df.var()표준편차df.std()왜도df['SalePrice'].skew()첨도df['SalePrice'].kurt()누적합..
이기적 빅분기 실기 모의고사 작업형 1회 문제 데이터셋 모의고사 작업형 1회 문제를 풀려고 하는데,,, 첫 문제부터 데이터셋이 없어서 한참 찾았습니다. 제1 유형 CSV 파일 주소 이기적 카페에서 검색해보니 이기적 영진 닷컴 페이지에서 찾을 수 있습니다. https://license.youngjin.com 위의 주소로 접속한 후 자료실 > [ [6688] 2023 이기적 빅데이터분석기사 실기 부록 자료 ] 게시글의 압축 파일을 다운 받으면 CSV 파일이 있습니다. 제2 유형 CSV 파일 주소 https://www.kaggle.com/datasets/teertha/personal-loan-modeling 찾았으니 다시 모의고사를 풀어보겠습니다 !!! 빅분기 실기 화이팅입니다 !
[빅분기] 인프런 강의 추천!!! 빅데이터분석기사 실기 관련 정보를 찾다가 알게된 인프런 강의를 듣고 있습니다. 정말... 좋은 강의인데 ... 무려 !! 무료 입니다 !!! [무료] 빅데이터 분석기사 시험 실기(Python) - 인프런 | 강의 (inflearn.com) [무료] 빅데이터 분석기사 시험 실기(Python) - 인프런 | 강의 국가기술자격증 빅데이터분석기사 실기 with Python 강의입니다. 여러분들의 합격을 응원합니다!, - 강의 소개 | 인프런 www.inflearn.com 바짝 강의 듣고 공부하고 있습니다 ㅠㅠ 좋은 정보 공유 합니다 !
[빅분기] 분석 데이터셋 준비, 수행, 성능 평가 전처리까지 완료 한 후 분석을 수행한다. 먼저 분석 데이터셋을 준비한다. 전처리를 마친 데이터를 학습용 데이터셋과 테스트용 데이터셋으로 분리한다. (일반적으로 8:2의 비율) * 분석 데이터셋 준비 불필요한 컬럼은 제외하고, 필요한 컬럼만 독립 변수로 선택해서 분석 데이터셋을 준비한다. X는 독립변수(셜명변수), y는 종속변수(목표변수) X = df[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize"]] y = df["Survived"] 데이터 분리를 위해서 사이킬런의 train_test_split()함수를 사용한다. # 분석 데이터셋 분할(8:2) X_train, X_test, y_train, y_test = train_test_split(X, y, ..
[빅분기] 레이블 인코딩, 파생변수 생성 * 레이블 인코딩 (Label Encoding) - 카테코리 컬럼의 값으 코드형 숫자 값으로 변환한다. - 텍스트 값으로 되어 있는 컬럼을 숫자로 변환 # sex, embarked 컬럼의 값 레이블 인코딩 from sklearn.preprocessing import LabelEncoder df["Sex"] = LabelEncoder().fit_transform(df["Sex"]) df["Embarked"] = LabelEncoder().fit_transform(df["Embarked"]) df.head() LabelEncoder를 임포트 한다. LabelEncoder로 객체를 생성한 후 fit_transform() 함수를 사용해서 구현한다. * 파생변수 생성 동승자 가족수는 2개의 컬럼 SibSp(형제 ..
[빅분기] 데이터 전처리-평균, 최빈값, 컬럼 삭제 평균값, 최빈값 대치 # 전처리 # age 평균값으로 대치 a_mean = int(df['Age'].mean()) print(a_mean) df["Age"].fillna(a_mean, inplace=True) # embarked 최빈값 e_mode = df["Embarked"].mode()[0] # print(e_mode) df["Embarked"].fillna(e_mode, inplace = True) # 데이터 프레임 결측값 유무 확인 df.info() 결측치가 많은 컬럼 삭제 df1 = df.drop("Cabin", axis = 1) df1.info() - 열 이름으로 삭제하기 df.drop('Cabin', axis=1) # 또는아래 방법으로 삭제 가능 df.drop('Cabin', axis='co..
[빅분기] 결측치 확인, 대체 결측치 확인 데이터 셋의 결측치 확인 print(df.isnull().sum()) # 컬럼별 결측치 확인 df.info() # 데이터프레임 구조 확인 결측치가 있는 행 전체를 데이터셋에서 제거 df_1 = df.dropna(axis=0) # 결측치가 있는 모든 행 제거 print(df1.isnull().sum().sum() # 데이터프레임 결측치 전체 df_1.shape # 데이터프레임 크기 dropna() 함수 - df.dropna(axis = 0) : 결측치가 있는 모든 행 삭제 - df.dropna(axis = 1) : 결측치가 있는 모든 열 삭제 - df.dropna(subset=["Age"], axis=0) : age 열의 결측치가 있는 모든 행 삭제

반응형