网页源码中数据存在，使用selenum却解析不到数据的一种解决方法。

2021-05-12 02:29

阅读：454

标签：page row css_ 访问问题 sleep range com search

问题描述：使用selenum爬取苏宁易购时，搜索手机时，在浏览器中右键检查都存在的信息，比如价格等信息，在爬虫中解析页面时解析不到数据
问题分析：
- 苏宁搜索手机加载页面时使用的是ajax加载的信息
- 在向下滑动时，也在实时加载信息，
- 当访问页面时，不会加载全部的信息，随着页面向下滚动，会持续发送ajax获取信息
- 自己的爬虫程序在解析数据时，页面并没有加载全部的信息，就会出现解析出来的信息为空的情况
解决方案：
- 编写js代码，模拟鼠标的滚动时间，直到鼠标滚动到最底部时，再开始解析数据
定义页面滚动的函数

def scroll_to_bottom(driver):                       # 页面滚动到底部
    js = "return action=document.body.scrollHeight"	# 获取当前页面的高度
    # 初始化现在滚动条所在高度为0
    height = 0
    # 当前窗口总高度
    new_height = driver.execute_script(js)

    while height

获取页面信息时，调用页面滚动到底部的函数，即可完美拿到整个页面的信息。

def index_page(page):
    ‘‘‘抓取索引页 :param page: 页码‘‘‘
    try:
        print(‘正在爬取第‘, page, ‘页‘)
        url = ‘https://search.suning.com/%s/‘%(quote(KEYWORD))
        url = ‘https://search.suning.com/%s/&iy=0&isNoResult=0&cp=%d‘%(quote(KEYWORD), page)
        browser.get(url)	# 请求网址
        #等待条件：显示当前页号，显式商品
        # wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, ‘#mainsrp-pager li.item.active > span‘), str(page)))
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#nextPage‘)))	# 等待，直到出现下一页的按钮
        scroll_to_bottom(browser)           # 页面滚动到底部，拿到完整的页面信息
        time.sleep(3)
        get_products(page)                  # 对完整的页面信息进行数据解析
    except TimeoutException:
        index_page(page)

网页源码中数据存在，使用selenum却解析不到数据的一种解决方法。

标签：page row css_ 访问问题 sleep range com search

原文地址：https://www.cnblogs.com/wangxiaowu/p/13143704.html

上一篇：Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

下一篇：Java多线程中Thread与Runnable的区别

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：网页源码中数据存在，使用selenum却解析不到数据的一种解决方法。
文章链接：http://soscw.com/index.php/essay/84494.html

亲，登录后才可以留言！

网页源码中数据存在，使用selenum却解析不到数据的一种解决方法。

评论

热门文章

推荐文章

最新文章

置顶文章