python学习之爬虫一
2020-12-13 01:54
标签:open line import 源地址 use 源码 www 进制 write 一、爬虫介绍 数据如何获取是重点 何谓爬虫:模拟浏览器向目标服务器发送请求,爬取自己需要的信息,并存入一个文件中。 (1)首先从模拟浏览器开始: http协议: 请求url: https://www.baidu.com/ 请求方式: GET 请求头: Cookie:可能需要关注 User-Agent:需要关注,服务器就是通过此,来判断该段请求的来源是不是浏览器 Host:www.baidu.com(通过分析目标网站的通信流程是什么样的 ) 使用谷歌浏览器,任意访问网址,右击,点击检查,出现控制台 选择如下框起区域,此时再将鼠标移动至自己感兴趣位置,控制台中会出现整个网页的源码,找到地址 具体代码实现如下: 未完待续。。。 python学习之爬虫一 标签:open line import 源地址 use 源码 www 进制 write 原文地址:https://www.cnblogs.com/lhhhha/p/11018322.html# # requests模块
# # pip3 install requests
# # pip3 install -i 清华源地址 模块名
# import requests
# response=requests.get(url=‘https://www.baidu.com/‘)
# response.encoding=‘utf-8‘
# print(response) #