文章目录
Python
得益于其简单的语法和丰富的库,在爬数据时非常方便。在爬虫这一块,有Scrapy
这个库封装了爬虫涉及的各方面,是工业级爬虫的一个选择。但在只爬取一次的数据的时候,使用request
beautifulsoup
要方便很多。本文记录了一些自己在爬数据方面的一些总结。
相关的库
Pandas
request
beautifulsoup
pd.read_html(url, attrs={"class": "table"})
从网页中抓取一个<table>
为pd.DataFrame
。代码会从网页中抓取class属性为’table’的所有表格,以DataFrame
的列表形式返回。
1 | states_abbrs = pd.read_html('https://www23.statcan.gc.ca/imdb/p3VD.pl?Function=getVD&TVD=53971', attrs={"class": "table"})[0] |
- Python Request Post with param data
- No way to force read numerics as string in read_html
- Pandas read_html returned column with NaN values in Python