python学习之爬虫项目ScrapyProject总结
2021-02-09 04:18
标签:详细 作用 spi 配置 pytho 图片 chap 写入 库存 1.如何分析网站重要要爬取的信息 python学习之爬虫项目ScrapyProject总结 标签:详细 作用 spi 配置 pytho 图片 chap 写入 库存 原文地址:https://blog.51cto.com/13810716/2489376项目介绍:
1抓取图书http://www.shicimingju.com:
1). 请求图书详情页parse(self, response)函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 对章节详情页进行解析parse_chapter_detail函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 将采集的数据存储到文件中, pipeeline组件-ScrapyProject/ScrapyProject/pipelines.py
4). 设置文件中启动pipeline组件-ScrapyProject/ScrapyProject/settings.py
2抓取商品的详细信息,出入库情况
1. 用过sqlalchemy(ORM)将数据信息添加到数据库中
2.日志信息的配置,图片的配置
3.根据python数据类型解析商品的详情信息
4.将尺寸信息序列化为json字符串,如果总库存存在 存储商品信息
技术难点:
1) 如何处理解析后的数据?
2). 如何获取/下载小说章节详情页的链接并下载到本地?
我写项目遇到的难点
2.如何理解item对项目的作用
3.爬取项目资源对写入数据库的选择,意义
4.如果要爬的网址有用户密码验证码登录这个如何解决
项目网址:https://gitee.com/huojin181/ScrapyProject.git
上一篇:找出正数组的最大差值
文章标题:python学习之爬虫项目ScrapyProject总结
文章链接:http://soscw.com/index.php/essay/52910.html