Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 시각화
- Tistory
- Linux
- 통계학
- MATLAB
- SQL
- 파이썬 시각화
- Python
- 파이썬
- 독후감
- python visualization
- Pandas
- 텐서플로
- Ga
- matplotlib
- 블로그
- 리눅스
- 티스토리
- Google Analytics
- MySQL
- 딥러닝
- 한빛미디어서평단
- Visualization
- 서평
- tensorflow
- 매틀랩
- Blog
- 한빛미디어
- 월간결산
- 서평단
Archives
- Today
- Total
pbj0812의 코딩 일기
[자동화] BeautifulSoup을 사용한 유투브 동영상 URL 추출 본문
0. 목표
- 유투브 동영상 URL 추출
- selenium은 너무 느림
1. 실습
1) library 호출
import requests
import pandas as pd
from bs4 import BeautifulSoup
2) URL 추출
keyword = '미르방'
req = requests.get('https://www.youtube.com/results?search_query=' + keyword)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select(
'h3 > a'
)
title = []
url = []
for idx in my_titles:
title.append(idx.text)
url.append(idx.get('href'))
3) 데이터 프레임화
title_list = pd.DataFrame(url, columns = ['url'])
title_list['title'] = title
4) 확인
title_list
- 채널의 URL도 같이 딸려온 것을 알 수 있음
5) 코드 개선
import requests
import pandas as pd
from bs4 import BeautifulSoup
keyword = '미르방'
req = requests.get('https://www.youtube.com/results?search_query=' + keyword)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select(
'h3 > a'
)
title = []
url = []
for idx in my_titles:
if idx.get('href')[:7] != '/watch?':
pass
else:
title.append(idx.text)
url.append(idx.get('href'))
title_list = pd.DataFrame(url, columns = ['url'])
title_list['title'] = title
6) 확인
title_list
2. 참고
'빅데이터 > 자동화' 카테고리의 다른 글
[자동화] Python을 이용하여 유투브 댓글 크롤링(남의 소스 사용) (0) | 2020.06.02 |
---|---|
[자동화] python을 이용한 유투브 라이브 채널의 정보 및 댓글 크롤링 (22) | 2020.05.31 |
[자동화] Google Data Studio 대쉬보드 만들기 (0) | 2020.04.16 |
[자동화] Airflow 예제 (0) | 2020.04.08 |
[Web] Firebase를 이용한 웹 사이트 만들기 (0) | 2020.02.17 |
Comments