学习python做爬虫主要学习哪些内容呢?

2021-04-12 18:26

阅读：754

标签：python开发项目现在不可没有之一 agent 登陆自动化 use

爬虫，被称为网络机器人，现在爬虫在我们生活中具有非常重要，可以解决很多繁琐的过程，而python作为爬虫的首选语言，受到很多人的关注和喜欢。那么学习python做爬虫主要学习哪些内容呢?为大家介绍一下。

　　1、需要了解html相关的知识：html是一种标记语言并不是很难学，它是超文本标记语言，标准通用标记语言下一个应用。Python网络爬虫学习，不需要你深入学习html，只要知道掌握它常用的简单标签跟知识点就行。

　　2、urllib、urllib2两个库：是进行网页抓取时候会使用到的，在python中，urllib、urllib2两个库不可相互替代，虽然urllib2比urllib增强，但是urllib有urllib2没有的函数。

　　urllib2，可以用urllib2openurl中设置Request参数，来修改Header头。当你访问一个文章，需要更改User Agent，也需要用它。

　　urllib支持设置编码的函数，urllib.urlencode进行模拟登陆的时候，经常要POST编码之后的参数，不想要使用第三方进行登陆，你需要使用urllib。

　　3、python scrapy：scrapy是应用最为广泛的爬虫框架，没有之一，也是成熟度最高的框架，可以利用成熟的产品，避免造轮子，可以快速的构建项目。

　　scrapy也是python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web框架并从页面提取结构化的数据，用途广泛，可以应用在数据挖掘、监测和自动化测试。