15강 데이터 전처리
데이터 분석에서 데이터 전처리가 많은 부분을 차지함.자기 공모전 얘기 안궁금해...
결측치 처리
data set에서 missing value 처리하는 방법
- 평균값 넣기
- 최빈값 넣기
- 그냥 날러버리기(?)
df.isnull().sum() #데이터 프레임의 결측치 데이터의 갯수를 확인 가능
df.fillna(0) #결측치를 0으로 채우는 코드
범주형 변수 처리
- 원-핫 인코딩 ex) red: 0 1 0, green : 1 0 0
from sklearn.preprocessing import OneHotEncoder
- 데이터 바인딩
Feature scaling
- Min-Max Normalization
최솟값과 최댓값을 이용해서 데이터를 표준화시키는 것
from sklearn.preprocessing import minmax_scale()
- Standardization
표준화 확률변수를 구하는 방법
'스터디📖 > ML, DL' 카테고리의 다른 글
머신러닝 처음 시작하기(인프런) - 17강 최종실습 - 타이타닉2 (0) | 2021.08.18 |
---|---|
머신러닝 처음 시작하기(인프런) - 16강 최종실습 - 타이타닉1 (0) | 2021.08.17 |
머신러닝 처음 시작하기(인프런) - 14강 train valid test 데이터 나누기 (0) | 2021.08.13 |
머신러닝 처음 시작하기(인프런) - 13강 knn 구현 (0) | 2021.08.12 |
머신러닝 처음 시작하기(인프런) - 12강 KNN (0) | 2021.08.11 |