교차검증2 교차검증(Cross Validation)을 통한 모델 평가방법 모델 평가머신러닝 모델을 학습하는 데 있어서 중요한 점 중 하나는, 새로운 데이터셋에 대한 반응하는 모델의 성능을 추정하는 것이다. 만약 새로운 데이터셋이 들어왔을 때 학습된 모델이 얼마나 예측이나 분류를 잘 수행하는지에 대한 예상이 필요하다. 우리가 학습한 모델이 새로운 데이터에 대한 결과의 예상이라면 우리는 그 모델이 얼마나 잘 예상할지에 대한 예상이 필요하다. 정확한 용어로 얘기하자면, 모델의 일반화 오차에 대해 신뢰할만한 추정치를 구할 수 있게 해주는 방법이 필요하다는 것이다. 그 방법으로는 일반적으로 크게 두가지, 홀드아웃(holdout) 교차검증과 k-fold 교차검증의 방법이 있다. 1. 홀드아웃 교차검증 방법가장 보편적인 모델의 성능 테스트 방법은, 원 데이터를 훈련데이터와 테스트데이터 두.. 2017. 8. 11. 학습, 검증곡선과 편향-분산 트레이드오프(Bias-Variance Tradeoff) 본 포스팅을 읽기 전에, 교차검증이 무엇인지에 대해 모르는 분들은 이곳을 참고해주시길 바랍니다. 학습, 검증곡선과 편향-분산 트레이드오프편향-분산 트레이드오프 (Bias-Variance Tradeoff)머신 러닝에서의 error는 크게 두 분류로 나뉜다. bias(편향), 그리고 variance(분산)이다. bias는 흔히 생각할 수 있는 error로, 선형 회귀같은 문제에서의 SSE를 떠올리면 쉽다. 모델이 학습데이터를 충분히 설명할 수 없는 상황에서 커지는 에러이다. 이 상황을 흔히 underfitting이라고 한다. variance는 그 반대로 모델이 학습데이터를 과도하게 잘 설명하는 상황이다. 모집단을 추정하고자 표본집단을 이용하여 모델을 만들어놨더니, 표본집단만을 거창하게 잘 설명하는 모델이 된.. 2017. 8. 11. 이전 1 다음