【Python爬虫】一个简单的网络爬虫

2021-04-17 16:28

阅读：599

标签：ssi 方法 normal data import 对象出现 html rip

网页结构的相似性

爬虫的目的，是从网站中 自动化 的批量提取数据。

首先尝试完成以下操作:

从以下链接中提取电影的标题和标题后的年份:

https://movie.douban.com/subject/1292052/
https://movie.douban.com/subject/1962665/
https://movie.douban.com/subject/26752088/

标题 CSS 选择器：

年份 CSS 选择器：

从以下链接中提取每只股票的实时价格（最大那个数字）:

http://stock.finance.sina.com.cn/usstock/quotes/aapl.html
http://stock.finance.sina.com.cn/usstock/quotes/bidu.html
http://stock.finance.sina.com.cn/usstock/quotes/msft.html

股票价格 CSS 选择器

链接相似的网页通常具有相似的外观。

外观相似的网页通常具有相似的网页结构。

这两个相似性是爬虫能够从一系列网站中自动化提取数据的重要基础。

代码：

from requests_html import HTMLSession
session = HTMLSession()
links = [‘https://movie.douban.com/subject/1292052/‘, ‘https://movie.douban.com/subject/1962665/‘, ‘https://movie.douban.com/subject/26752088/‘]

for link in links:
    r = session.get(link)
    title = r.html.find(‘#content > h1 > span:nth-child(1)‘, first=True)
    year = r.html.find(‘#content > h1 > span.year‘, first=True)
    print(title.text, year.text)

也许你用了上面的股票价格链接作为爬取对象，你会惊讶的发现程序运行出错了。

事实上，很多网站使用 Javascript 代码来生成网页内容，你的爬虫需要正确解析 Javascript 才能获得你所看到的页面。

requests_html 库提供了一个简单的方法来处理应对情况，你只需要在 r = session.get(link) 后，增加一行 r.html.render()，重新运行代码即可。

（初次运行时需要下载一些辅助工具，请耐心等待，如果下载进度条迟迟未能出现，重新运行程序。）

from requests_html import HTMLSession
session = HTMLSession()
links = [‘http://stock.finance.sina.com.cn/usstock/quotes/aapl.html‘, ‘http://stock.finance.sina.com.cn/usstock/quotes/bidu.html‘, ‘http://stock.finance.sina.com.cn/usstock/quotes/msft.html‘]

for link in links:
    r = session.get(link)
    r.html.render()
    title = r.html.find(‘#content > h1 > span:nth-child(1)‘, first=True)
    year = r.html.find(‘#content > h1 > span.year‘, first=True)
    print(title.text, year.text)

【Python爬虫】一个简单的网络爬虫

标签：ssi 方法 normal data import 对象出现 html rip

原文地址：https://www.cnblogs.com/HGNET/p/13299526.html

上一篇：JAVA携带参数(带有参数)直接发送POST请求

下一篇：【剑指offer第1题】找出数组中重复的数字

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：【Python爬虫】一个简单的网络爬虫
文章链接：http://soscw.com/index.php/essay/76093.html

亲，登录后才可以留言！

【Python爬虫】一个简单的网络爬虫

网页结构的相似性

评论

热门文章

推荐文章

最新文章

置顶文章