文章目录
Python得益于其简单的语法和丰富的库,在爬数据时非常方便。在爬虫这一块,有Scrapy这个库封装了爬虫涉及的各方面,是工业级爬虫的一个选择。但在只爬取一次的数据的时候,使用request beautifulsoup要方便很多。本文记录了一些自己在爬数据方面的一些总结。
相关的库
Pandasrequestbeautifulsoup
pd.read_html(url, attrs={"class": "table"})
从网页中抓取一个<table>为pd.DataFrame。代码会从网页中抓取class属性为’table’的所有表格,以DataFrame的列表形式返回。
1 | states_abbrs = pd.read_html('https://www23.statcan.gc.ca/imdb/p3VD.pl?Function=getVD&TVD=53971', attrs={"class": "table"})[0] |
- Python Request Post with param data
- No way to force read numerics as string in read_html
- Pandas read_html returned column with NaN values in Python