본문 바로가기

overfitting2

학습, 검증곡선과 편향-분산 트레이드오프(Bias-Variance Tradeoff) 본 포스팅을 읽기 전에, 교차검증이 무엇인지에 대해 모르는 분들은 이곳을 참고해주시길 바랍니다. 학습, 검증곡선과 편향-분산 트레이드오프편향-분산 트레이드오프 (Bias-Variance Tradeoff)머신 러닝에서의 error는 크게 두 분류로 나뉜다. bias(편향), 그리고 variance(분산)이다. bias는 흔히 생각할 수 있는 error로, 선형 회귀같은 문제에서의 SSE를 떠올리면 쉽다. 모델이 학습데이터를 충분히 설명할 수 없는 상황에서 커지는 에러이다. 이 상황을 흔히 underfitting이라고 한다. variance는 그 반대로 모델이 학습데이터를 과도하게 잘 설명하는 상황이다. 모집단을 추정하고자 표본집단을 이용하여 모델을 만들어놨더니, 표본집단만을 거창하게 잘 설명하는 모델이 된.. 2017. 8. 11.
뉴럴넷에서의 오버피팅과 해결책 오버피팅과 해결책신경망 등에서의 오버피팅머신러닝 분야에서의 오버피팅은 언제나 가장 큰 issue이다. 신경망 분야에서도 backpropagation 이라는 큰 전환점이 있었지만 꽤 오랜기간동안 상용화되지 못했던 이유는 오버피팅 때문이다. 다른 알고리즘에 비해 파라미터와 계수의 갯수가 크다보니, 자연스레 모델의 complexity가 증가하고 오버피팅이 발생한다. 초기의 해결책은 거의 전무했으며 DBN등으로 어느정도 성능을 끌어올렸다가, computing 성능의 발전과 dropout등의 알고리즘 등장으로 상당히 많이 개선되어 딥러닝의 유행을 이끌고 있다. 신경망 분야에서만 적용되는 것이 아닌 공통적으로 적용되는 오버피팅 해결책은 다음과 같다. 1. 훈련 데이터를 늘린다 2. 피처를 정규화 / 표준화 시켜준다.. 2017. 8. 3.