본문 바로가기
프로그래밍/파이썬

[python] 웹 스크래핑에 앞서 request 모듈과 User Agent에 대하여.

by 홍삼절편 2021. 9. 5.

파이썬을 통한 웹스크래핑을 하기 이전에 필요한 과정이 있다.

바로 request 모듈을 설치하는 것이다.

requests 모듈은 파이썬에서 https 요청을 보내서 사이트에서 원하는 정보를 추출하기 위해 사용하는 모듈이다.

 

requests 모듈은 터미널에서 설치가능하다.

사용중인 파이썬 버전에 따라 pip3 install requests 를 통해 설치가능하다.

 

Requests 모듈 사용하기.

import requests    :  # requests 모듈을 import 해준다.

res = requests.get(url) :  # 가져온 url에 대한 정보를 res라는 변수에 담는다.

res.raise_for_status()  :

# 웹스크래핑 위해서 올바른 html 가져왔는데, 문제가 있는지 체크하는 과정이다. 없으면 그대로 다음 과정을 수행하고, 문제 있을시 종료함. ( -> res.status_code()   # 이것과 같은 것.)

 

일반적으로,

import requests

res=requests.get(url)

res.raise_for_status() 의 세트로 사용한다고 생각하면 됨.

 


User Agent

웹사이트에서 접속하는 유저의 정보를 알 수 있는데, 웹크롤링을 통해 접속하는 경우, 웹사이트에서 보안의 문제로 이를 차단하기도 한다.

이 때, 헤더정보를 기재함으로써 차단을 피할 수 있다. 

 

웹사이트에서 크롤링을 거부하여 에러가 발생한다면, user agent를 통해 이를 해결할 수 있다.

https://www.whatismybrowser.com/detect/what-is-my-user-agent 를 접속하면 현재 접속한 브라우저의 유저정보를 알 수 있다. 

 

접속하는 브라우저마다 user agent 주소는 달라진다.

위 사이트에서 user agent 주소를 복사한 뒤 사용하면 된다.

headers = {"User-Agent":"url header"}

res = requests.get(url, headers=headers)

 

를 상단에 기재하면 됨.