20201316 2020-2021-2 《Python程序设计》实验四报告
2021-09-17 04:13
标签:下载 快速 神经网络 nbsp 没有 blog alt png 教师 20201316 2020-2021-2 《Python程序设计》实验四报告 课程:《Python程序设计》 班级:2013 姓名:陈鑫 学号:20201316 实验教师:王志强 实验日期:2021年6月15日 必修/选修: 公选课 1.实验内容 Python综合应用:爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等。 课代表和各小组负责人收集作业(源代码、视频、综合实践报告) 个人对爬虫更感兴趣一些,所以这次就选择了爬虫作为大作业。 本次实验我爬取了一个视频网站的视频和一个图片网站的图片,之前一直在爬一些网站的文字,就按学长教的那样爬豆瓣的电影top250的名字,但是我发现以我的能力爬不来4399的游戏名字或者bilibili的视频标题,爬下来的要么是乱码要么啥都没有,我也搞不懂啥问题,后来就只成功爬下来起点中文网的小说名字,然后再看视频学习怎么爬视频和图片。而且爬取的都是一些反爬非常弱的网站。 2. 实验过程及结果 目标网站:https://www.ku6.com/detail/69 工具:pycharm Firefox 2.1 导入模块 导入requests 和 json 模块 2.2获取url 很简单的一个步骤,按f12再刷新页面很容易就找到了,如图: 2.3发送请求,获取数据 最好是伪装一下,图中数据一行输出了,看起来有点麻烦: 2.4 提取数据 先使用json.loads将字符串类型数据转化成字典类型,这样查找起来非常方便快速 观察数据,然后使用for循环将数据中的视频标题和地址(点开就能播放的那种)提取出来,用于下载和保存。 2.5本地保存 使用文件操作将刚刚提取的数据保存在本地,只要写清楚本地目录,应该是都能保存好的,我是直接在python文件所在目录下创建了一个video文件夹然后保存在里面: 2.6运行结果 里面有三个视频播放不了,不知道是为啥。 对图片也比较感兴趣,就尝试爬了图片: 2.7码云链接 视频:https://gitee.com/cx20201316/pythonstart1/blob/master/paccp.py 图片:https://gitee.com/cx20201316/pythonstart1/blob/master/pac.py 3. 实验过程中遇到的问题和解决过程 问题1:在爬取视频的时候提示TypeError,如何解决 问题1解决方案:经查询得知视频数据属于二进制数据,要先转换数据类型才行,可以使用video_data = requests.get(url=data_link, headers=a).content进行转换。 问题2:在爬取12306的车票信息时候,使用json.loads()时总是报错。如图: 问题2解决方案:经查询得json数据格式问题。因为爬到的数据有些不是json格式,所以报错。解决方法是构造get请求参数param,把不合格数据筛掉。但是还是不太明白 全课感悟 本次python选修课总体上来感觉还是非常不错的,因为之前有一些python的基础,所以相比其他零基础的同学,学的还是比较轻松的,当然也因此一开始时没有认真听讲,说实话感觉错过了老师讲的很多细节。王老师讲课的方式感觉和c语言老师的非常不一样,王老师讲的更有趣,更生动一些,相比起来,我更喜欢王老师这种讲课方式。之后的课程感觉难度就上来了,之前没听到的细节可能就影响到了之后的听课,所以有时候会有点听不明白。但后面通过老师发在云班课和网上的资源还是能够弄懂的。四个实验感觉上来说,前两个还能理解很多,后面的就有些难理解,大部分都停留在知其然的层面,但是那些爬虫,GUI,游戏等编程技术还是让我非常感兴趣的,也让我感受到了python的功能强大与方便,希望以后还有更多时间来学习python。最后想给王老师提个小小的建议(如果能看到的话):在实验室上课的时候,没抢到前面的位置,坐后面就有点听不清了,希望那个话筒能大点声音。总之,非常感谢王老师这学期的悉心教导! 参考资料 视频地址:https://www.bilibili.com/video/BV1go4y127TQ?t=565&p=4 20201316 2020-2021-2 《Python程序设计》实验四报告标签:下载 快速 神经网络 nbsp 没有 blog alt png 教师 原文地址:https://www.cnblogs.com/cxzuishuai/p/14887612.html
文章标题:20201316 2020-2021-2 《Python程序设计》实验四报告
文章链接:http://soscw.com/essay/107899.html