7-13爬虫入门之BeautifulSoup对网页爬取内容的解析

2021-06-23 16:03

阅读:621

标签:获取   str   _id   研究   爬虫   code   sts   bsp   href   

通过beautifulsoup对json爬取的文件进行元素审查,获取是否含有p标签

# -*- coding:utf-8 -*-
from lxml import html
import requests
import json
import re
import scrapy
from bs4 import BeautifulSoup



#通过beautifulsoup解析文档
def bs4analysis(html_doc):
    soup = BeautifulSoup(html_doc,"lxml")
    if soup.find_all(a):
        print soup.a.string
        print soup.a.nextSibling
    elif html_doc.find(#)>=0:
        print 有主题
        p=re.split(#,html_doc)
        print p0+p[0]
        print p1+p[1]
        print p2+p[2]
    else:        
        print haha
   

html_doc=‘‘‘
#毕业季#  云端祝福!祝全体2017届毕业生及全球人前程似锦。 秒拍视频
‘‘‘
html_doc2=‘‘‘
#早安# 万木沉酣新雨后,百昌苏醒晓风前,四时可爱唯春色,一事能狂便少年。——王国维
‘‘‘

html_doc3=‘‘‘
#通知公告#南区浴室男生区因突发水管爆裂,今日起将关闭2间浴室,请各位提早安排应对。
‘‘‘
html_doc4=‘‘‘
我发表了头条文章:《共建美术学院签约暨上海吴淞国际艺术城发展研究院揭牌仪式举行》 共建美术学院签约暨上海吴淞国际艺术城发展研究院揭牌仪式举行 ???
‘‘‘
html_doc5=‘‘‘
#分享# 斗转星移,岁月如梭
‘‘‘
if __name__ == __main__:
    f = open(shuweibo.txt, r)
    fh = open(analysis.txt, a)
    while True:
        line = f.readline()
        if line == ‘‘:
            break
        print *******************
        bs4analysis(line)
        print *******************
        


    f.close()
    fh.close()

 

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析

标签:获取   str   _id   研究   爬虫   code   sts   bsp   href   

原文地址:http://www.cnblogs.com/mesakiiyui/p/7160408.html


评论


亲,登录后才可以留言!