본문 바로가기

프로그래밍6

[python] 웹 스크래핑으로 멜론 차트 100 가져오기 beautifulsoup을 활용해서 부동산 매매 정보를 가져오려다가 계속해서 실패하고 멜론 차트를 한번 가져와봤다. 멜론 차트를 열어서 페이지 검사를 해보니, table이란 가장 큰 표 안에 tbody 안에 모든 정보가 들어가 있고, 그 밑에 tr, 그 밑에 td에 정보가 들어있었다. 내가 짠 코드이다. 먼저 웹 스크래핑을 위해 import requests, import BeautifulSoup을 해주었다. 처음에 headers를 넣지 않고 시도하였는데 멜론 측 사이트에서 거부를 하는 건지 되지 않아서 user agent 헤더를 넣어주니 잘 실행되었다. 일단 data_row들을 table-->tbody 안에 있는 tr들을 모두 가져오도록 해주었다. 그러면 각 순위에 해당하는 정보들이 모두 tr안에 td안.. 2021. 9. 26.
[python] 웹 스크래핑을 통해 시가총액 정보를 csv파일로 가져오기 오늘은 웹 스크래핑으로 웹 페이지의 정보를 한번에 가져와서 csv파일로 만들어볼 것이다. (사실은 유튜브의 나도코딩 웹스크래핑에 있는 강의를 공부하며 작성하는 것임 ㅎ) url = https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=1 네이버 주식 페이지로 들어가면 위와 같이 각 기업의 시가총액, 상장주식수, 외국인비율, 거래량, per 등의 정보를 한 눈에 볼 수 있다. 이 정보들을 한번에 csv 파일로 만들어보자! 먼저 필요한 것은 csv파일을 만들 것이므로 import csv를 해주고 beautifulsoup을 사용할 것이므로 import requests와 import BeautifulSoup을 해준다 그리고 사용할 url을 추가해준다 .. 2021. 9. 10.
[python] BeautifulSoup 사용 python에서 웹 스크래핑을 하기 위한 패키지로 BeautifulSoup이 있다. BeautifulSoup은 lxml과 함께 사용된다. BeautifulSoup은 실제로 스크래핑을 하기 위한 패키지, lxml은 구문분석하는 파서이다. 두 패키지 모두 터미널에서 pip3 install beautifulsoup4, pip3 install lxml을 통해 설치할 수 있다. 터미널에서 설치를 완료했다면, 웹스크래핑을 하기 위해 모듈을 먼저 임포트 해줘야한다. 임포트 후에는 이러한 방식으로 BeautifulSoup을 사용한다. soup = BeautifulSoup(res.text, 'lxml') : # res라는 변수를 통해 가져온 html 주소를 lxml 파서를 통해서 beutifulsoup 객체로 만드는 과.. 2021. 9. 6.
[python] 웹 스크래핑에 앞서 request 모듈과 User Agent에 대하여. 파이썬을 통한 웹스크래핑을 하기 이전에 필요한 과정이 있다. 바로 request 모듈을 설치하는 것이다. requests 모듈은 파이썬에서 https 요청을 보내서 사이트에서 원하는 정보를 추출하기 위해 사용하는 모듈이다. requests 모듈은 터미널에서 설치가능하다. 사용중인 파이썬 버전에 따라 pip3 install requests 를 통해 설치가능하다. Requests 모듈 사용하기. import requests : # requests 모듈을 import 해준다. res = requests.get(url) : # 가져온 url에 대한 정보를 res라는 변수에 담는다. res.raise_for_status() : # 웹스크래핑 위해서 올바른 html 가져왔는데, 문제가 있는지 체크하는 과정이다. 없.. 2021. 9. 5.