스터디📖/ML, DL

머신러닝 처음 시작하기(인프런) - 15강 데이터 전처리

호프 2021. 8. 16. 17:44

https://www.inflearn.com/course/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%B2%98%EC%9D%8C-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

 

머신러닝 처음 시작하기 (기초 원리 + 초급 실습) - 인프런 | 강의

머신러닝을 처음 접하는 사람들을 대상으로 기초적인 머신러닝 이론을 간략하게 다룬 머신러닝 기초 강의입니다., 그것이 알고 싶다!요새 핫한 머신러닝 🤖 [사진] 🗒 강의소개 (이 강의는 강

www.inflearn.com

15강 데이터 전처리

데이터 분석에서 데이터 전처리가 많은 부분을 차지함.
자기 공모전 얘기 안궁금해...

결측치 처리

data set에서 missing value 처리하는 방법

  • 평균값 넣기
  • 최빈값 넣기
  • 그냥 날러버리기(?)
df.isnull().sum() #데이터 프레임의 결측치 데이터의 갯수를 확인 가능
df.fillna(0) #결측치를 0으로 채우는 코드

범주형 변수 처리

  • 원-핫 인코딩 ex) red: 0 1 0, green : 1 0 0
    from sklearn.preprocessing import OneHotEncoder​
  • 데이터 바인딩

Feature scaling

  • Min-Max Normalization
    최솟값과 최댓값을 이용해서 데이터를 표준화시키는 것
    from sklearn.preprocessing import minmax_scale()​
     
  • Standardization
    표준화 확률변수를 구하는 방법