7-13爬虫入门之BeautifulSoup对网页爬取内容的解析
2021-06-23 16:03
标签:获取 str _id 研究 爬虫 code sts bsp href 通过beautifulsoup对json爬取的文件进行元素审查,获取是否含有p标签 7-13爬虫入门之BeautifulSoup对网页爬取内容的解析 标签:获取 str _id 研究 爬虫 code sts bsp href 原文地址:http://www.cnblogs.com/mesakiiyui/p/7160408.html# -*- coding:utf-8 -*-
from lxml import html
import requests
import json
import re
import scrapy
from bs4 import BeautifulSoup
#通过beautifulsoup解析文档
def bs4analysis(html_doc):
soup = BeautifulSoup(html_doc,"lxml")
if soup.find_all(‘a‘):
print soup.a.string
print soup.a.nextSibling
elif html_doc.find(‘#‘)>=0:
print ‘有主题‘
p=re.split(‘#‘,html_doc)
print ‘p0‘+p[0]
print ‘p1‘+p[1]
print ‘p2‘+p[2]
else:
print ‘haha‘
html_doc=‘‘‘
#毕业季# 云端祝福!祝全体2017届毕业生及全球人前程似锦。 秒拍视频
‘‘‘
html_doc2=‘‘‘
#早安# 万木沉酣新雨后,百昌苏醒晓风前,四时可爱唯春色,一事能狂便少年。——王国维
‘‘‘
html_doc3=‘‘‘
#通知公告#南区浴室男生区因突发水管爆裂,今日起将关闭2间浴室,请各位提早安排应对。
‘‘‘
html_doc4=‘‘‘
我发表了头条文章:《共建美术学院签约暨上海吴淞国际艺术城发展研究院揭牌仪式举行》 共建美术学院签约暨上海吴淞国际艺术城发展研究院揭牌仪式举行 ???
‘‘‘
html_doc5=‘‘‘
#分享# 斗转星移,岁月如梭
‘‘‘
if __name__ == ‘__main__‘:
f = open(‘shuweibo.txt‘, ‘r‘)
fh = open(‘analysis.txt‘, ‘a‘)
while True:
line = f.readline()
if line == ‘‘:
break
print ‘*******************‘
bs4analysis(line)
print ‘*******************‘
f.close()
fh.close()
上一篇:python学习(12)
下一篇:iScroll.js插件使用方法
文章标题:7-13爬虫入门之BeautifulSoup对网页爬取内容的解析
文章链接:http://soscw.com/essay/97829.html