Python爬虫

文章目录

Python得益于其简单的语法和丰富的库,在爬数据时非常方便。在爬虫这一块,有Scrapy这个库封装了爬虫涉及的各方面,是工业级爬虫的一个选择。但在只爬取一次的数据的时候,使用request beautifulsoup要方便很多。本文记录了一些自己在爬数据方面的一些总结。

相关的库

  • Pandas
  • request
  • beautifulsoup
  • pd.read_html(url, attrs={"class": "table"})

从网页中抓取一个<table>pd.DataFrame。代码会从网页中抓取class属性为’table’的所有表格,以DataFrame的列表形式返回。

1
states_abbrs = pd.read_html('https://www23.statcan.gc.ca/imdb/p3VD.pl?Function=getVD&TVD=53971', attrs={"class": "table"})[0]