beautifulsoup4
-
BeautifulSoup4를 이용한 파이썬 크롤링Programming & Machine Learning/Python X 머신러닝 2018. 3. 26. 00:53
데이터 분석에 활용할만한 충분한 데이터를 가지고 있지 않은 경우, 우리가 할 수 있는 가장 만만한 방법은 웹 데이터를 이용하는 것이다. 많은 경우, ResufulAPI 서버에서 자원을 얻어서 활용하기도 하지만, 사실 그건 데이터를 이미 가지고 있는 것과 마찬가지다. 그래서 크롤링을 활용해서 실제 데이터 분석에 활용하는 경우가 점점 많아지고 있다. 1. 웹에 대한 이해 크롤링을 시작하려면 먼저 웹의 기본 원리에 대한 이해가 필요하다. 웹이란 기본적으로 인터넷의 하위 개념이다. 인터넷으로 불리는 공간에서의 통신 방법은 규약이 필요하다. 서로 이해할 수 있는 언어로 이루어져 있어야 하고, 물리적인 연결 및 전송도 필요하다. 그러한 통신 규약 중 하나가 HTTP라는 것이다. 우리가 '웹' 이라고 부르는 것은 일..