HTTP基本原理
标签:cep 基本 版本 put post nsf commons 移动 响应头
1.HTTP
HTTP协议(HyperText Transfer Protocol,超文本传输协议)是因特网上应用最为广泛的一种网络传输协议,所有的WWW文件都必须遵守这个标准。
通信过程
2.请求
请求,由客户端向服务端发可以分为4部分:请求方法(Request Method)请求的网址(Request URL)请求头(Request Headers) 请求体(Request Body )
(1)请求方法
方法 |
描述 |
GET |
请求页面,并返回页面内容 |
HEAD |
类似于 GET 请求, 只不过返回的响应中没有具体的内容,用于获取报头 |
POST |
大多用于提交表单或上传文件,数据包含在请求体中 |
PUT |
从客户端向服务器传送的数据取代指定文梢中的内容 |
DELETE |
请求服务器删除指定的页面 |
CONNECT |
把服务器当作跳板,让服务器代替客户端防问其他网页 |
OPTIONS |
允许客户端查看服务器的性能 |
TRACE |
回显服务器收到的请求,主要用于测试或诊断 |
(2)请求的网址
请求的网址即为统一资惊定位符 URL 。
(3)请求头
常见头部信息
名称 |
描述 |
Accept |
请求报头域,用于指定客户端可接受哪些类型的信息 |
Accept-Language |
指定客户端可接受的语言类型 |
Accept-Encoding |
指定客户端可接受的内容编码 |
Host |
请求的目标 |
Cookie |
这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。 它的主要功能是维持当前访问会话。 |
Referer |
此内容用来标识这个请求是从哪个页面发过来的 |
User-Agent |
可以使服务器识别客户使用的操作系统及版本、 浏览器及版本等信息。 |
Content-Type |
也叫互联网媒体类型( Internet Media Type )或者 MIME 类型,在 HTTP 协议 消息头中,它用来表示具体请求中的媒体类型信息。 |
Content-type对照表
(4)请求体
请求体一般承载的内容是 POST 请求中的表单数据,而对于 GET 请求,请求体则为空。
Content-Type 和 POST 提交数据方式的关系
Content-Type |
提交数据的方式 |
application/x-www-forrn-urlencoded |
表单数据 |
multi part/form-data |
表单文件上传 |
application/json |
序列化 JSON 数据 |
text/xml |
XML 数据 |
注释:
在爬虫中,如果要构造 POST 请求,需要使用正确的 Content-Type ,并了解各种请求库的各个参
数设置时使用的是哪种 Content-Type , 不然可能会导致 POST 提交后无法正常响应。
3.响应
响应,由服务端返回给客户端,可以分为三部分:响应状态码( Response Status Code )、响应头
( Response Headers )和响应体( Response Body )。
(1)响应状态码
响应状态码表示服务器的响应状态。
常见状态码
状态码 |
说明 |
详情 |
100 |
继续 |
请求者应当继续提出请求。 服务器已收到请求的一部分,正在等待其余部分 |
101 |
切换协议 |
请求者已要求服务器切换协议,服务器已确认并准备切换 |
200 |
成功 |
服务然已成功处理了请求 |
201 |
已创建 |
请求成功并且服务器创建了新的资源 |
202 |
已接受 |
服务然已接受请求,但尚未处理 |
203 |
非授权信息 |
服务器已成功处理了请求,但返回的信息可能来自另一个源 |
204 |
无内容 |
服务器成功处理了请求, 但没有返回任何内容 |
205 |
重置内容 |
服务器成功处理了请求,内容被重置 |
206 |
部分内容 |
服务器成功处理了部分请求 |
300 |
多种选择 |
针对请求,服务器可执行多种操作 |
301 |
永久移动 |
请求的网页已永久移动到新位置,即永久重定向 |
302 |
临时移动 |
请求的网页暂时跳转到其他页面,即暂时重定向 |
303 |
查看其他位置 |
如果原来的请求是 POST , 重定向目标文档应该通过 GET 提取 |
304 |
未修改 |
此次请求返回的网页未修改, 继续使用上次的资源 |
305 |
使用代理 |
请求者应该使用代理访问该网页 |
307 |
临时重定向 |
请求的资源临时从其他位置l响应 |
400 |
错误谙求 |
服务器无法解析该请求 |
401 |
米授权 |
请求没有进行身份验证或验证未通过 |
403 |
禁止访问 |
服务将拒绝此请求 |
404 |
未找到 |
服务器找不到请求的网页 |
405 |
方法禁用 |
服务器禁用了请求中指定的方法 |
406 |
不接受 |
无法使用请求的内容响应请求的网页 |
407 |
需要代理搜权 |
请求者需要使用代理授权 |
408 |
请求超时 |
服务器请求超时 |
409 |
冲突 |
服务器在完成请求时发生冲突 |
410 |
已删除 |
请求的资源已永久删除 |
411 |
需要有效长度 |
服务器不接受不含有效内容长度标头字段的请求 |
412 |
未满足前提条件 |
服务器未满足请求者在请求中设置的其中一个前提条件 |
413 |
请求实体过大 |
请求实体过大,超出服务器的处理能力 |
414 |
请求 URI 过长 |
请求网址过长,服务器无法处理 |
415 |
不支持类型 |
请求格式不被请求页面支持 |
416 |
请求范围不符 |
页面无法提供请求的范围 |
417 |
未满足期望值 |
服务器未满足期望请求标头字段的要求 |
500 |
服务器内部错误 |
服务器遇到到错误,无法完成请求 |
501 |
未实现 |
服务器不具备完成请求的功能 |
502 |
错误网关 |
服务器作为网关或代理, 从上游服务然收到元效响应 |
503 |
服务不可用 |
服务器目前无法使用 |
504 |
网关超时 |
服务器作为网关或代理,但是没有及时从上游服务器收到请求 |
505 |
HTTP 版本不支持 |
服务器不支持请求中所用的 HTTP 协议版本 |
(2)响应头
常见响应头不信息
名称 |
描述 |
Date |
标识响应产生的时间 |
Last_Modified |
指定资源的最后修改时间 |
Content_Encoding |
指定响应内容的编码 |
Server |
包含服务器的信息,比如名称、版本号等 |
Content_Type |
文档类型,指定返回的数据类型是什么 |
Set_Cookie |
设置 Cookies , 响应头中的 Set- Cooki e 告诉浏览器需要将此内容放在 Cookies中 下次请求携带 Cookies 请求。 |
Expires |
指定响应的过期时间, 可以使代理服务器或浏览器将加载的内容更新到缓存巾。 如果再次访问时,就可以直接从缓存中加载, 降低服务器负载,缩短加载时间。 |
(3)响应体
响应的正文数据都在响应体中,比如请求网页时,它的响应体就是网页的 HTML 代码; 请求一张图片时, 它的响应体就是图片的二进制数据。
参考来源 :Python 3网络爬虫开发实战 [ 崔庆才著 ]
HTTP基本原理
标签:cep 基本 版本 put post nsf commons 移动 响应头
原文地址:https://www.cnblogs.com/lc-snail/p/13215671.html
文章来自:
搜素材网的
编程语言模块,转载请注明文章出处。
文章标题:
HTTP基本原理
文章链接:http://soscw.com/essay/48030.html
评论