10강 랜덤 포레스트
앙상블(Ensemble)
여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법
여러 개의 약 분류기를 결합하여 강 분류기를 만드는 것
배깅(Bagging): 샘플을 여러 번 뽑아서 각 모델을 학습시키고 그것들의 결과물을 집계하는 방법
부스팅(Boosting): 가중치를 이용하여 약 분류기를 강 분류기로 만드는 방법. 처음 모델의 예측 결과에 다라 모델에 가중치가 부여되고 그 가중치가 다음 모델에도 영향을 줌.
랜덤 포레스트
여러 결정 트리의 묶음
랜덤 포레스트 프로세스
- 우선 결정트리를 많이 만들기 / 트리 생성에 무작위성을 주입
--> 랜덤하게 만드는 방법: 1. 데이터 포인트를 랜덤하게 선택 2. 분기하는 질문에 사용하는 특성을 무작위로 선택
- 각 트리가 고유하게 만들어지도록 무작위 선택 - Bootstrap Sample
--> Bootstrap: 무작위로 중복을 허용해서 N개의 데이터를 선택하는 과정 , bootstrap을 통해서 추출된 N개의 데이터가 Bootstrap sample
- 기존 트리와 달리 무작위로 선택 후 후보들 중 최선의 테스트 도출
Max feature
후보특성의 최대추출개수를 전체 특성 개수로 설정하면 모든 특성을 고려하게 되므로 무작위성이 빠지게 됨.
후보특성의 Max feature를 하나로 준다면 특성을 고를 필요없이 무작위로 선택한 특성의 인덱스를 찾기만 하면 됨.
- Max feature ⬆ 각 트리들이 서로 비슷해지고, 가장 두드러진 특성을 이용해서 데이터에 잘 맞춰짐
- Max feature ⬇ 각 트리들이 많이 달라지고 데이터를 맞추기 위해 깊이가 깊어짐.
'스터디📖 > ML, DL' 카테고리의 다른 글
머신러닝 처음 시작하기(인프런) - 12강 KNN (0) | 2021.08.11 |
---|---|
머신러닝 처음 시작하기(인프런) - 11강 랜덤 포레스트 구현 (0) | 2021.08.10 |
머신러닝 처음 시작하기(인프런) - 9강 의사 결정 나무 구현 (0) | 2021.08.06 |
머신러닝 처음 시작하기(인프런) - 8강 의사 결정 나무 (0) | 2021.08.04 |
머신러닝 처음 시작하기(인프런) - 7강 로지스틱 회귀 모델 구현 (0) | 2021.08.03 |