[技术博客] BeautifulSoup4分析网页

2021-02-17 01:19

阅读：753

YPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

标签：HERE 字符方式提取 html解析 body tab 文本分析标签

[技术博客] BeautifulSoup4分析网页

使用BeautifulSoup4进行网页文本分析

前言

进行网络爬虫时我们需要从网页源代码中提取自己所需要的信息，分析整理后存入数据库中。

在python中，我们向网页发出请求后可以获得字符串形式的源代码，然而众所周知，HTML代码结构相当混乱，想要通过字符串本身的查找方法获取信息基本上不可能。不过好消息是python也为我们提供了正则表达式这一字符串分析利器，通过恰当的编写正则表达式就可以高效准确地分析网页。然而对于一份长长的HTML源代码，从中分析规律、编写正则表达式、验证准确性，这一轮下来需要花费大量的时间。再加上网页的跳转，多个网页的分析，在没有爬取效率的要求下使用正则表达式几乎就是一个煎熬。因此一个成熟的网页爬虫利器BeautifulSoup就此诞生，它是一个可以从HTML或XML文件中提取数据的Python库，能够方便的提取自己所需要的信息。

安装

BeautifulSoup4的安装相当简单，只需在命令行中使用pip安装即可

pip install beautifulsoup4

导入

同样简单易懂

from bs4 import BeautifulSoup

网页解析库

BeautifulSoup4默认支持Python的标准HTML解析库，可以不进行解析库的配置，但是依然建议安装lxml HTML解析库，它比Python的标准HTML解析库更加强大，速度快，容错能力强

使用方法

简易操作

以下面的HTML代码举例

html_doc = """
The Dormouse‘s story
The Dormouse‘s story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""

创建BeautifulSoup对象以及简易信息获取

from bs4 import BeautifulSoup

# 使用lxml作为解析库
soup = BeautifulSoup(html_doc,’lxml’)		

# 获取title标签的所有内容
print(soup.title) 

# 获取title标签的名称
print(soup.title.name) 

# 获取title标签的文本内容
print(soup.title.string) 

# 获取head标签的所有内容
print(soup.head) 

# 获取第一个a标签中的所有内容
print(soup.a) 

# 获取所有的a标签中的所有内容
print(soup.find_all("a"))

# 获取id="link3"
print(soup.find(id="link3")) 

# 获取所有的a标签，并遍历打印a标签中的href的值
for item in soup.find_all("a"): 
	print(item.get("href")) 
	
# 获取所有的a标签，并遍历打印a标签的文本值
for item in soup.find_all("a"): 
	print(item.get_text())

通过这些操作就可以进行简易的指定标签内数据的获取

但是还是存在一些更加困难的场景

CSS选择器

BeautifulSoup整合了lxml的CSS选择器功能，使得API更易用。

通过CSS选择器可以更加精确地获取所需内容

我们可以像之前一样查找标签

print(soup.select(‘a‘))

也可以像之前一样查找id

print(soup.select(‘#link3‘))

我们还可以按照层级查找

print(soup.select(‘table > tr > td‘))

我们还可以根据标签内部的属性查找

print(soup.select(‘a[href="http://example.com/elsie"]‘))

我们甚至可以组合上面的方式查找

print(soup.select(‘div > a[href=‘http://tieba.baidu.com‘] > table #list > tr > td‘))

获取选项后我们可以查找其中的子项，输出它的各个属性，也可以直接输出其中包含的文本等

print(soup.select(‘title‘)[0].get_text())		# 直接输出文本
print(soup.select(‘title‘)[0].attrs[‘value‘])	        # 输出它的value属性
print(soup.select(‘title‘)[0].content)			# 输出它的子项

除了这些功能以外BeautifulSoup4还有其他的许多优秀功能等待大家的挖掘，比如.children迭代器、.prettify()格式化输出等。

希望大家能通过BeautifulSoup4的使用大大降低肝度。

[技术博客] BeautifulSoup4分析网页

标签：HERE 字符方式提取 html解析 body tab 文本分析标签

原文地址：https://www.cnblogs.com/cuogeihong/p/12961932.html

上一篇：深入理解net core中的依赖注入、Singleton、Scoped、Transient（三）

下一篇：js事件循环运行机制

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：[技术博客] BeautifulSoup4分析网页
文章链接：http://soscw.com/index.php/essay/56344.html

亲，登录后才可以留言！

[技术博客] BeautifulSoup4分析网页

[技术博客] BeautifulSoup4分析网页

前言

安装

导入

网页解析库

使用方法

简易操作

CSS选择器

评论

热门文章

推荐文章

最新文章

置顶文章