부스팅
-
XGBoost 알고리즘의 간단한 이해Programming & Machine Learning/풀어쓰는 머신러닝 2023. 7. 6. 20:45
캐글에서 가장 유명한 알고리즘은 XGBoost이다. 웬만한 대회의 리더보드에는 XGBoost가 최상단에 위치해 있다. 이가 시사하는 바는, Vision 이나 NLP 등의 Specific한 Task를 제외한 일반적인 ML Task에서 가장 범용적으로 잘 동작하는 알고리즘이 XGBoost라는 것이다. 이런 기법은 아직 문제의 해결법이 미숙하거나 숙련도가 높지 않은 도메인의 새로운 문제를 풀 때 가장 먼저 고려되어야 하는 방법이 될 수 있다. 일반적으로 어떤 도메인의 ML 문제를 해결할 때 가장 중요한 것은 정확한 피쳐 엔지니어링을 통한 모델링이다. 또는 샘플링이나 파라미터 튜닝 같은 ML 테크닉이 중요할 수도 있고, 어떤 알고리즘을 사용하느냐가 중요할 수도 있다. 하지만 오늘 소개할 XGBoost는 데이터 ..
-
R을 이용한 머신러닝 - 6 (랜덤 포레스트 개념과 적용)Programming & Machine Learning/R X 머신러닝 2017. 7. 18. 02:03
랜덤 포레스트 1. 개념랜덤포레스트는 의사결정트리를 앙상블 기법으로 학습시킨 모델로, 오버피팅을 방지하기 위해 고안된 방법이다. 랜덤포레스트 역시 분류와 회귀분석 모두에 사용될 수 있다. 앙상블 학습 기법이란 쉽게 말해, 하나의 예측에 여러가지 알고리즘을 투표를 거쳐 사용하는 것이다. 즉, 랜덤포레스트에서 사용하는 앙상블은 여러 개의 서로 다른 의사결정트리를 만들고, 투표를 통해 결과를 얻어내는 것이다. 하지만 의사결정트리 개념에서 정리한 것 처럼 의사결정 트리를 생성하게 된다면, 트리들이 모두 똑같거나 비슷한 트리로 생성될 것이다. 배심원 10명을 앉혀놨는데 모두 쌍둥이인 꼴이다(..) 이때 배심원의 출신을 랜덤하게 선정하는 방법이 바로 배깅(bagging == bootstrap aggregating)..