获取html内容之后，如何提取信息：使用正则表达式筛选

2021-02-05 19:18

阅读：802

标签：区别 html 内容 load reg pytho gen 数据量 firefox

在能够获取到网页内容之后，发现内容很多，那么下一步要做信息的筛选，就和之前的筛选图片那样

而在python中可以通过正则表达式去筛选自己想要的数据

1.首先分析页面内容信息，确定正则表达式。例如想获取下面这些内容的链接

技术图片

可以通过筛选出符合

2.在python中用正则表达式去筛选数据，在python中有两种方法实现：

第一种：

reg = r‘‘
hrefreg = re.compile(reg)
hreflist = hrefreg.findall(html)

第二种：

reg = r‘‘
hreflist = re.findall(reg, html)

这两种方法都能实现数据的筛选，他们的区别主要是：是否使用re.compile()。这个实际影响到的是大数据量级时的性能，目前仅作了解。

另外，关于正则学习的内容可以参考这里：https://www.runoob.com/regexp/regexp-tutorial.html

最后是简单的筛选href内容的代码和结果，结果里看出有些href内容并不是http链接，这个时候可以做二次处理。例如，判断是否包含"http"字符串等：

import re
import urllib.request

# 设置headers和URL
url = "https://news.baidu.com/"
headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}
req = urllib.request.Request(url=url, headers=headers)

# 请求指定URL，获取内容
html = urllib.request.urlopen(req).read().decode(‘UTF-8‘, ‘ignore‘)

#筛选出href内容并打印
reg = r‘‘
hreflist = re.findall(reg, html)
for href in hreflist:
    print(href)

技术图片

获取html内容之后，如何提取信息：使用正则表达式筛选

标签：区别 html 内容 load reg pytho gen 数据量 firefox

原文地址：https://www.cnblogs.com/blackAlice/p/13122329.html

上一篇：PHP配置文件www.conf

下一篇：JS继承

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：获取html内容之后，如何提取信息：使用正则表达式筛选
文章链接：http://soscw.com/index.php/essay/51474.html

亲，登录后才可以留言！

获取html内容之后，如何提取信息：使用正则表达式筛选

评论

热门文章

推荐文章

最新文章

置顶文章