python学习——xpath

2020-12-13 14:10

阅读:344

标签:设置   释放   无锡   tin   encoding   种类   while   leak   网络数   

回顾

  • 5种反爬机制
    • robots.txt:反爬机制,防君子不防小人
    • UA检测:UA伪装
    • 数据加密
    • 图片懒加载
    • 代理ip
  • requests模块爬取流程:
    • 指定url
    • 发起请求
    • 获取页面数据
    • 数据解析
    • 持久化存储
  • bs4解析:
    • 环境安装:bs4、lxml解析器
    • 实例化bs对象,将页面源码数据加载到该对象中
    • 定位标签
      • find(‘a‘,class_=‘xxx‘)
      • findall()
      • select()
        • 大于号,一个层级
        • 空格,多个层级
    • 将标签中的文本内容获取
      • string 返回标签下文本内容
      • text 返回标签下所有字标签问本内容
      • get_text()
      • 获取属性
        • a[‘href‘]
 

xpath使用(【重点】xpath表达式)

  • 环境安装:pip install lxml
  • 解析原理:
    • 获取页面源码数据
    • 实例化一个etree的对象,并且将页码源数据加载到该对象中
    • 调用该对象的xpath方法进行制定标签的定位
    • 【注意】xpath函数必须结合着xpath表达式进行标签定位和内容捕获
  • 将html文档或xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点
    • 本地文件:tree = etree.parse(文件名)
         tree.xpath(‘xpath表达式‘)
    • 网络数据:tree = etree.HTML(网页内容字符串)
         tree.xpath(‘xpath表达式‘)
 

xpath表达式

  • / 层级之间的关系
    • / 相当于bs4中select中的>
    • // 相当于bs4-select中的空格
  • 举例:
    • /html/head/title 从根目录开始找,html下的 head标签下的 title标签
    • //head/title 先找到当前源码中所有的head标签,在找到head标签下的title标签
    • //title 找到所有title标签
    • 属性定位:
      • //div[@class=‘song‘] 定位所有class属性值为song的div标签;[]中必须跟@符号,属性名称前必须有@【语法结构】,返回的是列表
    • 层级&索引定位:
      • //div[@class=‘tang‘]/ul/li[2]/a 定位所有class属性值为tong的div直系标签 ul标签下的 第二个li标签下的直系字标签 a标签;
    • 逻辑运算:
      • //a[@href=‘‘ and @class=‘du‘] 定位所有href属性值为空且class属性值为du的所有a标签
    • 模糊匹配:
      • //div[contain(@class,‘ng‘)] 定位class属性值包含ng的所有div标签
      • //div[start-with(@class,‘ta)] 定位class属性值以ta开头的所有div标签
    • 取文本
      • 表示获取某个标签下的文本内容
      • 表示获取某个标签下的文本内容和所有子标签下的文本内容
      • //div[@class=‘song‘]/p[1]/text() 获取class属性值为song的所有div标签下的 第一个p字标签 包含的文本
      • //div[@class=‘tang]//text() 获取class属性值为tang的所有div标签下的 所有文本,及其字标签下的所有文本,返回的是列表,列表里有多个列表元素
    • 取属性
      • //div[@class=‘tang‘]//li[2]/a/@href 返回属性对应的属性值
 

案例:获取58二手房相关房源信息

In [1]:
import requests
from lxml import etree

url = ‘https://bj.58.com/beijingzhoubian/ershoufang/?PGTID=0d30000c-0000-1175-8e33-a6e941f8aff5&ClickID=1‘
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER‘
}
# 获取源码数据
page_text = requests.get(url=url,headers=headers).text
# 实例化etree对象
tree = etree.HTML(page_text)
# 调用xpath方法,后去li标签列表
li_list = tree.xpath(‘//ul[@class="house-list-wrap"]/li‘)
fp = open(‘58.csv‘,‘w‘,encoding=‘utf-8‘)
#遍历列表
for li in li_list:
    # .开头的意思:进行局部页面解析;./开头表示从li标签开始解析
    title = li.xpath(‘./div[2]/h2/a/text()‘)[0]
    price = li.xpath(‘./div[3]//text()‘)
    #将价格的三个列表拼接为字符串
    price = ‘‘.join(price)
    fp.write(title+‘:‘+price+\n)
fp.close()
print(‘over‘)
 
over
 

案例:获取图片

In [27]:
import requests
from lxml import etree
import os
import urllib

url = ‘http://pic.netbian.com/4kmeinv/‘
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER‘
}
response = requests.get(url=url,headers=headers)
#response.encoding = ‘utf-8‘
if not os.path.exists(‘./imgs‘):
    os.mkdir(‘./imgs‘)
page_text = response.text

tree = etree.HTML(page_text)
li_list = tree.xpath(‘//dic[@class="slist"]/ul/li‘) # //dic[@class="slist"]//li
for li in li_list:
    img_name = li.xpath(‘./a/b/text()‘)[0]
    # 处理中文乱码
    img_name = img_name.encode(‘iso-8859-1‘).decode(‘gbk‘)
    img_url = ‘http://pic.netbian.com‘ + li.xpath(‘./a/img/@src‘)[0]
    img_path = ‘./imgs/‘ + img_name + ‘.jpg‘
    urllib.request.urlretrieve(url=img_url,filename=img_path)
    print(img_path,‘下载成功‘)
 

案例:煎蛋网中图片数据:http://jandan.net/ooxx

  • 第三种反爬机制:数据加密
In [6]:
import requests
from lxml import etree
import base64
import urllib

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER‘
}
url = ‘http://jandan.net/ooxx‘
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
img_hash_list = tree.xpath(‘//span[@class="img-hash"]/text()‘)
for img_hash in img_hash_list:
    img_url = ‘http:‘ + base64.b64decode(img_hash).decode()
    img_name = img_url.split(‘/‘)[-1]
    urllib.request.urlretrieve(url=img_url,filename=img_name)
 

爬取站长素材中的简历模板

In [12]:
import requests
from lxml import etree
import random

headers = {
    ‘Connection‘:‘close‘,# 当请求成功后,马上断开该次请求(及时释放请求池中的资源))
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER‘
}
url = ‘http://sc.chinaz.com/jianli/free-%d.html‘
for page in range(1,4):
    if page == 1:
        new_url = ‘http://sc.chinaz.com/jianli/free.html‘
    else:
        new_url = format(url%page)
    response = requests.get(url=new_url,headers=headers)
    response.encoding = ‘utf-8‘
    page_text = response.text

    tree = etree.HTML(page_text)
    div_list = tree.xpath(‘//div[@id="container"]/div‘)
    for div in div_list:
        detail_url = div.xpath(‘./a/@href‘)[0]
        name = div.xpath(‘./a/img/@alt‘)[0]

        detail_page = requests.get(url=detail_url,headers=headers).text
        tree = etree.HTML(detail_page)
        download_list = tree.xpath(‘//div[@class="clearfix mt20 downlist"]/ul/li/a/@href‘)
        download_url = random.choice(download_list)
        data = requests.get(url=download_url,headers=headers).content
        file_name = name + ‘.rar‘
        with open(file_name,‘wb‘) as fp:
            fp.write(data)
            print(file_name,‘下载成功‘)
 
机械电子工程师简历模板.rar 下载成功
设计师英文简历模板下载.rar 下载成功
化妆师个人简历范文.rar 下载成功
 
---------------------------------------------------------------------------
OSError                                   Traceback (most recent call last)
E:\Anaconda3\lib\socket.py in readinto(self, b)
    588             try:
--> 589                 return self._sock.recv_into(b)
    590             except timeout:

OSError: [WinError 10051] 向一个无法连接的网络尝试了一个套接字操作。

During handling of the above exception, another exception occurred:

KeyboardInterrupt                         Traceback (most recent call last)
 in      26         download_list = tree.xpath(‘//div[@class="clearfix mt20 downlist"]/ul/li/a/@href‘)
     27         download_url = random.choice(download_list)
---> 28         data = requests.get(url=download_url,headers=headers).content
     29         file_name = name + ‘.rar‘
     30         with open(file_name,‘wb‘) as fp:

E:\Anaconda3\lib\site-packages\requests\api.py in get(url, params, **kwargs)
     73 
     74     kwargs.setdefault(‘allow_redirects‘, True)
---> 75     return request(‘get‘, url, params=params, **kwargs)
     76 
     77 

E:\Anaconda3\lib\site-packages\requests\api.py in request(method, url, **kwargs)
     58     # cases, and look like a memory leak in others.
     59     with sessions.Session() as session:
---> 60         return session.request(method=method, url=url, **kwargs)
     61 
     62 

E:\Anaconda3\lib\site-packages\requests\sessions.py in request(self, method, url, params, data, headers, cookies, files, auth, timeout, allow_redirects, proxies, hooks, stream, verify, cert, json)
    531         }
    532         send_kwargs.update(settings)
--> 533         resp = self.send(prep, **send_kwargs)
    534 
    535         return resp

E:\Anaconda3\lib\site-packages\requests\sessions.py in send(self, request, **kwargs)
    684 
    685         if not stream:
--> 686             r.content
    687 
    688         return r

E:\Anaconda3\lib\site-packages\requests\models.py in content(self)
    826                 self._content = None
    827             else:
--> 828                 self._content = b‘‘.join(self.iter_content(CONTENT_CHUNK_SIZE)) or b‘‘
    829 
    830         self._content_consumed = True

E:\Anaconda3\lib\site-packages\requests\models.py in generate()
    748             if hasattr(self.raw, ‘stream‘):
    749                 try:
--> 750                     for chunk in self.raw.stream(chunk_size, decode_content=True):
    751                         yield chunk
    752                 except ProtocolError as e:

E:\Anaconda3\lib\site-packages\urllib3\response.py in stream(self, amt, decode_content)
    492         else:
    493             while not is_fp_closed(self._fp):
--> 494                 data = self.read(amt=amt, decode_content=decode_content)
    495 
    496                 if data:

E:\Anaconda3\lib\site-packages\urllib3\response.py in read(self, amt, decode_content, cache_content)
    440             else:
    441                 cache_content = False
--> 442                 data = self._fp.read(amt)
    443                 if amt != 0 and 

上一篇:Python中函数的初览

下一篇:SpringMVC小结


评论


亲,登录后才可以留言!