Python 爬虫数据解析--正则(爬取糗图)
2021-04-11 08:26
标签:案例 print 代码 mgr 进制 url 名称 python 通用 Python 爬虫数据解析--正则(爬取糗图) 标签:案例 print 代码 mgr 进制 url 名称 python 通用 原文地址:https://blog.51cto.com/13760351/2512407单页面的代码
import re
import requests
import os
#创建文件夹
if not os.path.exists(‘./qiutu‘):
os.mkdir(‘./qiutu‘)
headers = {
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
‘Chrome/57.0.2987.98 Safari/537.36‘}
url=‘https://www.qiushibaike.com/imgrank/page/‘
#使用通用爬虫对url对应的一整张页面进行爬取
page_text=requests.get(url=url,headers=headers).text
#使用聚焦爬虫将页面中所有的糗图进行解析/提取
ex =‘
完整页面代码
#导入模块
import re
import requests
import os
#创建文件夹
if not os.path.exists(‘./qiutu‘):
os.mkdir(‘./qiutu‘)
#模仿浏览器访问
headers = {
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
‘Chrome/57.0.2987.98 Safari/537.36‘}
#网站访问地址
url=‘https://www.qiushibaike.com/imgrank/page/‘
#多页访问
for page in range(1,3):
new_url=url+ str(page) #新url地址
page_text=requests.get(url=new_url,headers=headers).text #页面内容下载
#正则匹配图片路径
ex =‘
运行结果:
正则解析知识点:
文章标题:Python 爬虫数据解析--正则(爬取糗图)
文章链接:http://soscw.com/index.php/essay/74180.html