sgdclassifier
-
Mini Batch Processing 방식의 구현과 학습모델의 임베딩Programming & Machine Learning/Python X 머신러닝 2017. 8. 2. 20:34
아웃 오브 코어 기법 (mini batch processing 방식)배치 방식이 아닌 온라인 방식으로 모델을 학습한 뒤, 학습한 모델을 저장해보고 다시 읽어보는 예제를 진행하였다. in-memory 방식으로 대용량 데이터를 학습시키고 모델을 만들기에는 한계가 있다. 따라서 mini batch의 방식으로 데이터를 chunk로 나누어서 처리해야 한다. 감성분석에서 사용한 대용량 데이터를 다시 예제로 사용하였다. tf-idf를 추출하기 위해서는 TfidfTransformer 클래스를 사용했지만, mini batch 방식(=온라인)에서는 사용할 수가 없다. 하지만 비슷한 일을 해주는 HashingVectorizer가 있다. 이를 통해 전체 문서에서 tf-idf를 하는 것과 비슷한 작업을 해줄 수 있다. 참고로,..