Python爬虫 - scrapy框架的基本操作

2021-05-05 10:28

阅读：765

基于管道的持久化存储的编码流程
- 1.在爬虫文件中数据解析
- 2.将解析到的数据封装到一个叫做Item类型的对象
- 3.将item类型的对象提交给管道
- 4.管道负责调用process_item的方法接收item，然后进行某种形式的持久化存储
- 5.在配置文件中开启管道
- 注意事项：
  - 什么情况下需要用到多个管道类
    - 一个管道类对应一种形式的持久化存储
  - process_item中的return item:
    - 可以将item提交给下一个即将被执行的管道类
  - 如果直接将一个字典写入到redis报错的话：
    - pip install redis==2.10.6
全栈数据的爬取
- 手动请求的发送
  - yield scrapy.Request(url=new_url,callback=self.parse)
- 总结：什么时候用yield
  - 1.向管道提交item的时候
  - 2.手动请求发送的时候
- 如何发送post请求：
  - yield scrapy.FromRequest(url=new_url,callback=self.parse，formdata={})
- 为什么start_urls列表可以进行get请求的发送：
  - 父类对start_requests的原始实现：
    def start_requests(self):
    for url in self.start_urls:
    yield scrapy.Request(url,callback=self.parse)
五大核心组件（对象）
- 对scrapy的异步实现有一定的理解
- 相关方法和对象实例化的调用流程
- 组件的作用：
  引擎(Scrapy)
  用来处理整个系统的数据流处理, 触发事务(框架核心)
  调度器(Scheduler)
  用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
  下载器(Downloader)
  用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
  爬虫(Spiders)
  爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
  项目管道(Pipeline)
  负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
如何适当提升scrapy爬取数据的效率
增加并发：
默认scrapy开启的并发线程为16个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘ERROR’

禁止cookie：
如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False

禁止重试：
对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False

减少下载超时：
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s
请求传参
- 作用：帮助scrapy实现深度爬取
  - 深度爬取：
    - 爬取的数据没有在同一张页面中
- 需求：爬取名称和简介，https://www.4567tv.tv/frim/index1.html
- 实现流程
  - 传参：
    - yield scrapy.Request(url,callback,meta),将meta这个字典传递给callback
  - 接收参数
    - response.meta

上一篇：Spring Boot 文件操作，上传、浏览和删除

下一篇：TDengine java插入字符段

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：Python爬虫 - scrapy框架的基本操作
文章链接：http://soscw.com/index.php/essay/82691.html

亲，登录后才可以留言！

Python爬虫 - scrapy框架的基本操作

评论

热门文章

推荐文章

最新文章

置顶文章