bag of words
-
감성분석을 위한 Python에서의 텍스트 데이터 처리기법Programming & Machine Learning/Python X 머신러닝 2017. 8. 2. 13:18
감성분석을 위한 텍스트 데이터 처리1. 문서의 변수화 작업, bag-of-words감성분석은 문서의 양극성을 분석하는 작업이다. 데이터에서 추출한 단어들을 설명 변수, 해당 데이터에 대한 양과 음의 레이블을 목적 변수로 하는 것이 일반적이다. 분류를 위한 설명 변수들을 정해줘야 하는데, 즉 텍스트를 수치형 피처 벡터로 표현할 수 있어야 한다. 가장 기본적인 방법이 bag-of-words 모델이라고 할 수 있다. bag-of-words 모델은 전체 문서 집합의 단어들의 단어집을 만든 후, 특정 문서에서 단어집에 포함된 단어가 얼마나 자주 사용되었는지 횟수를 포함하는 각 문서에 대한 피처 벡터를 만든다. 각 문서의 단어들은 단어집 내에서의 부분집합을 나타낼 뿐이기 때문에, 피처벡터는 대부분 0이 된다. 문서..