[python] 웹 스크래핑에 앞서 request 모듈과 User Agent에 대하여.

파이썬을 통한 웹스크래핑을 하기 이전에 필요한 과정이 있다.

바로 request 모듈을 설치하는 것이다.

requests 모듈은 파이썬에서 https 요청을 보내서 사이트에서 원하는 정보를 추출하기 위해 사용하는 모듈이다.

requests 모듈은 터미널에서 설치가능하다.

사용중인 파이썬 버전에 따라 pip3 install requests 를 통해 설치가능하다.

import requests : # requests 모듈을 import 해준다.

res = requests.get(url) : # 가져온 url에 대한 정보를 res라는 변수에 담는다.

res.raise_for_status() :

# 웹스크래핑 위해서 올바른 html 가져왔는데, 문제가 있는지 체크하는 과정이다. 없으면 그대로 다음 과정을 수행하고, 문제 있을시 종료함. ( -> res.status_code() # 이것과 같은 것.)

일반적으로,

import requests

res=requests.get(url)

res.raise_for_status() 의 세트로 사용한다고 생각하면 됨.

User Agent

웹사이트에서 접속하는 유저의 정보를 알 수 있는데, 웹크롤링을 통해 접속하는 경우, 웹사이트에서 보안의 문제로 이를 차단하기도 한다.

이 때, 헤더정보를 기재함으로써 차단을 피할 수 있다.

웹사이트에서 크롤링을 거부하여 에러가 발생한다면, user agent를 통해 이를 해결할 수 있다.

https://www.whatismybrowser.com/detect/what-is-my-user-agent 를 접속하면 현재 접속한 브라우저의 유저정보를 알 수 있다.

위 사이트에서 user agent 주소를 복사한 뒤 사용하면 된다.

headers = {"User-Agent":"url header"}

res = requests.get(url, headers=headers)

를 상단에 기재하면 됨.

[python] 웹 스크래핑으로 멜론 차트 100 가져오기 (0)	2021.09.26
[python] 웹 스크래핑을 통해 시가총액 정보를 csv파일로 가져오기 (2)	2021.09.10
[python] BeautifulSoup 사용 (0)	2021.09.06
[python] pip과 pip3의 차이점, --user의 의미 (0)	2021.08.26
[python] python에서 matplotlib 설치하기 (0)	2021.08.23