통계분석
-
R을 이용한 통계분석 - 2 (Textmining 에서의 데이터 전처리 & 종류별 데이터 import방법)Programming & Machine Learning/R X 머신러닝 2017. 7. 5. 02:02
1. 비정형 데이터 처리 R 패키지 참고 : http://r4pda.co.kr/ 텍스트와 음성, 이미지는 비정형 데이터라고 할 수 있다. 최근 머신러닝 분야에서 가장 활발하게 연구 및 개발이 이루어지고 있는 것들이 바로 이 비정형 데이터라고 할 수 있다. 비정형 데이터를 이용하여 인사이트를 도출하는 것이 데이터 분석 / 머신 러닝 분야의 가장 큰 화두인듯 하다. 1.1 텍스트 처리 : KoNLP를 이용 텍스트마이닝 전처리 과정 텍스트를 분석에 용이한 형태로 전처리 하기 위해서는, 가장 먼저 사전작업이 필요하다. 여기서 사전은 Dictionary를 의미한다. R Studio에서는 사전을 메모리상에 올린 뒤, MergeUserDic(discrete 되었다.) 으로 사전을 구성한다. 다음으로 텍스트를 pre-..