python爬虫常用的模块分析

2018-10-15 17:14

阅读：592

本文对Python爬虫常用的模块做了较为深入的分析，并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下：

creepy模块

某台湾大神开发的，功能简单，能够自动抓取某个网站的所有内容，当然你也可以设定哪些url需要抓。

地址：

功能接口：

set_content_type_filter:
设定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：
过滤url，传入的可以是正则表达式

set_follow_mode：
设定递归模式，F_ANY：该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH：同一路径的抓取。例如l1/d3/1.jpg path为l1/d3/1.jpg，则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level：
设定线程最大数

process_document：
一般需要重写，处理网页内容，提取自己需要的内容。

selenium
可视化界面，抓取自动化，api使用超简单，完全像是自己在操作浏览器。

官方网站：
python官方网站

webdriver api（很好用，建议多了解一下）

以下是一个抓取凡客网站的例子：

希望本文所述对大家的Python程序设计有所帮助。

上一篇：讲解python参数和作用域的使用

下一篇：python实现超简单端口转发的方法

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：python爬虫常用的模块分析
文章链接：http://soscw.com/index.php/essay/18467.html

亲，登录后才可以留言！

python爬虫常用的模块分析

评论

热门文章

推荐文章

最新文章

置顶文章