python利用beautifulSoup实现爬虫

2018-10-15 18:08

阅读：831

以前讲过利用phantomjs做爬虫抓网页//是配合选择器做的

利用 beautifulSoup(文档：这个python模块，可以很轻松的抓取网页内容

# coding=utf-8 import urllib from bs4 import BeautifulSoup url =网球} encoded_param = urllib.urlencode(values) full_url = url +?+ encoded_param response = urllib.urlopen(full_url) soup =BeautifulSoup(response) alinks = soup.find_all(a)

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性：

构造一个node元素

复制代码代码如下:
soup = BeautifulSoup(Extremely bold)
tag = soup.b
type(tag)
# <class bs4.element.Tag>

属性可以使用attr拿到，结果是字典

复制代码代码如下:
tag.attrs
# {uclass: uboldest}

或者直接tag.class取属性也可。

也可以自由操作属性

tag[class] = verybold tag[id] = 1 tag # <blockquote class=verybold id=1>Extremely bold</blockquote> del tag[class] del tag[id] tag # <blockquote>Extremely bold</blockquote> tag[class] # KeyError: class print(tag.get(class)) # None

还可以随便操作，查找dom元素，比如下面的例子

1.构建一份文档

html_doc = <html><head><title>The Dormouses story</title></head> The Dormouses story Once upon a time there were three little sisters; and their names were <a href=

2.各种搞

soup.head # <head><title>The Dormouses story</title></head> soup.title # <title>The Dormouses story</title> soup.body.b # The Dormouses story soup.a # <a class=sister href=

上一篇：零基础写python爬虫之爬虫框架Scrapy安装配置

下一篇：python实现俄罗斯方块

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：python利用beautifulSoup实现爬虫
文章链接：http://soscw.com/index.php/essay/19113.html

亲，登录后才可以留言！

python利用beautifulSoup实现爬虫

评论

热门文章

推荐文章

最新文章

置顶文章