[python] BeautifulSoup 사용

python에서 웹 스크래핑을 하기 위한 패키지로 BeautifulSoup이 있다.

BeautifulSoup은 lxml과 함께 사용된다.

BeautifulSoup은 실제로 스크래핑을 하기 위한 패키지, lxml은 구문분석하는 파서이다.

두 패키지 모두 터미널에서 pip3 install beautifulsoup4, pip3 install lxml을 통해 설치할 수 있다.

터미널에서 설치를 완료했다면,

웹스크래핑을 하기 위해 모듈을 먼저 임포트 해줘야한다.

임포트 후에는 이러한 방식으로 BeautifulSoup을 사용한다.

soup = BeautifulSoup(res.text, 'lxml') :

# res라는 변수를 통해 가져온 html 주소를 lxml 파서를 통해서 beutifulsoup 객체로 만드는 과정이다.

몇 가지 사용 예를 살펴 보면,

11. print(soup.a) # soup 객체에서 처음 발견되는 a element를 반환.

12. print(soup.a.attrs) # a Element가 가지고 있는 속성 보기

13. print(soup.a['href']) # a element의 href 속성 값 정보를 출력.

15. print(soup.find('a', attrs={'class':'Class_name'})) # a 태그에서 클래스 속성이 'Class_name'인 정보만 찾기

16. print(soup.find(attrs={'class':'Class_name'})) # 클래스 속성이 'Class_name'인 정보를 찾기

등의 기본적인 동작을 해볼 수 있다.

[python] 웹 스크래핑으로 멜론 차트 100 가져오기 (0)	2021.09.26
[python] 웹 스크래핑을 통해 시가총액 정보를 csv파일로 가져오기 (2)	2021.09.10
[python] 웹 스크래핑에 앞서 request 모듈과 User Agent에 대하여. (0)	2021.09.05
[python] pip과 pip3의 차이점, --user의 의미 (0)	2021.08.26
[python] python에서 matplotlib 설치하기 (0)	2021.08.23

gallery joon