일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- queue
- MySQL
- 프로그래머스
- python
- 가상환경
- Stack
- Matplotlib
- pandas
- 데이터시각화
- NumPy
- 알고리즘
- 선그래프
- Selenium
- Algorithm
- 백준
- aws jupyter notebook
- type hint
- dataframe
- 알고리즘 스터디
- 자료구조
- programmers
- Join
- 알고리즘스터디
- openCV
- javascript
- 코딩테스트
- 노마드코딩
- String Method
- 정보처리기사 c언어
- Today
- Total
목록crawling (2)
조금씩 꾸준히 완성을 향해
BeautifulSoup에 대한 기본적인 사용법을 정리해 보겠다. ▶ 기본 셋팅 #라이브러리 import import requests from bs4 import BeautifulSoup # 네이버 웹툰 url url = "https://comic.naver.com/index" res = requests.get(url) res.raise_for_status() # html 문서를 가져와서 lxml parser 혹은 html parser를 통해서 soup 객체로 생성 soup = BeautifulSoup(res.text, 'lxml') soup = BeautifulSoup(res.text, 'html.parser') ▶ 태그명 바로 가져오기 print(soup.title.get_text()) # title..
requests 는 웹사이트 정보를 가져올 때 쓰이는 python library이다. 웹 스크래핑/크롤링에 아주 유용하게 쓸 수 있다. ▶ 기본 세팅 import requests res = requests.get("http://google.com") # url 정보 저장 res.raise_for_status() # 문제가 생겼을 경우 바로 에러를 내고 프로그램을 종료 먼저 설치 후 import 해 주고, 정보를 가져올 url를 지정해 준다. 그리고 에러를 대비하는 코드를 추가한다. print("응답코드", res.status_code) # 200이면 정상 사실 이렇게 status_code를 찍어보면 에러가 뜨는지 안뜨는지 확인을 할 수 있다. if res.status_code == requests.cod..