ubuntu命令-http

2021-03-22 23:24

阅读:336

标签:parse   ali   空行   mirror   页面   代理服务器   iso   不同   webp   

安装升级
dpkg  -L   XXX
apt-cache   search   xxx  #搜索软件正则
aptitude    search 

apt-cache   stats #系统安装包统计信息
apt-cache   pkgnames  #所有可用包
apt-cache   show  xxx  #显示包信息
dpkg  -S   file   #文件属于哪个包
apt-file  search  filename 
dpkg  -l  #已安装的包
apt-cache   depends   xxxx  #软件依赖哪个包
apt-cache  rdepends  xxx  # 被谁依赖

apt-get  autoclean  #清理旧版本软件的缓存
sudo  apt-get clean
ls  /var/cache/apt/archives   #查看安装软件时下载包的临时缓存临时目录
sudo  apt-get  autoremove  #清除系统不再使用的孤立软件    --purge    孤立配置文件删除
sudo   apt-get  install   software-properties-common  #增加add-apt-repository 命令
sudo  add-apt-repository  "deb  http://mirrors.163.com/ubuntu/`lsb_release   -cs`  main restricted  universe  multiverse"   #添加源
sudo  add-apt-repository  "deb  http://mirrors.163.com/ubuntu/`lsb_release   -cs`  -updates main restricted  universe  multiverse" 
 
ps  aux | sort  -nk  +4| tail  # 最耗内存的进程
ps -eo  "%C  :  %p :%z : %a"  | sort  -nr 
ps aux  --sort   -pcpu  | head  -n  20 

screen
tmux

starce -f -F  -o   outfile   
 ulimit  -SHn  # 系统打开文件的最大数
 sudo  vim  /etc/security/limits.conf
*  hard  nofile  4096
*  soft  nofile  4096
sudo  vim   /etc/pam.d/su 
#pam_linits.so 

清除僵尸进程
ps -eal  | awk ‘{if ($2 ==  ‘Z‘)}  {print  $4}‘  | xargs  sudo  kill  -9 
将大于120M内存的php-cgi 杀掉
ps -eo  pid,fname,rss | grep  php-cgi | grep  -v  grep  |awk ‘{if ($3 

http

浏览器发送HTTP请求的过程

当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。

当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

URL(Uniform / Universal Resource Locator的缩写)

定义:统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法


基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme:协议(例如:http, https, ftp)
host:服务器的IP地址或者域名
port#:服务器的端口(如果是走协议默认端口,缺省端口80)
path:访问资源的路径
query-string:参数,发送给http服务器的数据
anchor:锚(跳转到网页的指定锚点位置)

客户端HTTP请求

URL只是标识资源的位置,而HTTP是用来提交和获取资源。客户端发送一个HTTP请求到服务器的请求消息,包括以下格式:

请求行`、`请求头部`、`空行`、`请求数据


GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Accept-Language: zh,zh-CN;q=0.8,ar;q=0.6,zh-TW;q=0.4
Cookie: BAIDUID=AE4D1DA6B2D6689BB8C557B3436893E3:FG=1; BIDUPSID=AE4D1DA6B2D6689BB8C557B3436893E3; PSTM=1501466227; BD_UPN=12314353; BD_CK_SAM=1; PSINO=1; H_PS_PSSID=1420_25548_21080_20929; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDSVRTM=0
1. Host (主机和端口号)

Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。
2. Connection (链接类型)

Connection:表示客户端与服务连接类型

    Client 发起一个包含 Connection:keep-alive 的请求,HTTP/1.1使用 keep-alive 为默认值。

    Server收到请求后:
        如果 Server 支持 keep-alive,回复一个包含 Connection:keep-alive 的响应,不关闭连接;
        如果 Server 不支持 keep-alive,回复一个包含 Connection:close 的响应,关闭连接。

    如果client收到包含 Connection:keep-alive 的响应,向同一个连接发送下一个请求,直到一方主动关闭连接。

keep-alive在很多情况下能够重用连接,减少资源消耗,缩短响应时间,比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件),不需要每次都去请求建立连接。
3. Upgrade-Insecure-Requests (升级为HTTPS请求)

Upgrade-Insecure-Requests:升级不安全的请求,意思是会在加载 http 资源时自动替换成 https 请求,让浏览器不再显示https页面中的http请求警报。

HTTPS 是以安全为目标的 HTTP 通道,所以在 HTTPS 承载的页面上不允许出现 HTTP 请求,一旦出现就是提示或报错。
4. User-Agent (浏览器名称)

User-Agent:是客户浏览器的名称,以后会详细讲。
5. Accept (传输文件类型)

Accept:指浏览器或其他客户端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互联网邮件扩展))文件类型,服务器可以根据它判断并返回适当的文件格式。
举例:

Accept: */*:表示什么都可以接收。

Accept:image/gif:表明客户端希望接受GIF图像格式的资源;

Accept:text/html:表明客户端希望接受html文本。

Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示浏览器支持的 MIME 类型分别是 html文本、xhtml和xml文档、所有的图像格式资源。

q是权重系数,范围 0 =
服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。

为了维护他们之间的链接,让服务器知道这是前一个用户发送的请求,必须在一个地方保存客户端的信息。

Cookie:通过在 客户端 记录的信息确定用户的身份。

Session:通过在 服务器端 记录的信息确定用户的身份。

cookie和session

http请求方法

序号   方法      描述
    GET       请求指定的页面信息,并返回实体主体。
    HEAD      类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头
    POST      向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
    PUT       从客户端向服务器传送的数据取代指定的文档的内容。
    DELETE    请求服务器删除指定的页面。
    CONNECT   HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
    OPTIONS   允许客户端查看服务器的性能。
    TRACE     回显服务器收到的请求,主要用于测试或诊断。

主要方法get和post请求

  • GET是从服务器上获取数据,POST是向服务器传送数据
  • GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese
  • POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码
1xx:信息
Continue
服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
Switching Protocols
服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。



2xx:成功
OK
请求成功(其后是对GET和POST请求的应答文档)
Created
请求被创建完成,同时新的资源被创建。
Accepted
供处理的请求已被接受,但是处理未完成。
Non-authoritative Information
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
No Content
没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
Reset Content
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它。



3xx:重定向
Multiple Choices
多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
Moved Permanently
所请求的页面已经转移至新的url。
Moved Temporarily
所请求的页面已经临时转移至新的url。
See Other
所请求的页面可在别的url下被找到。
Not Modified
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
Use Proxy
客户请求的文档应该通过Location头所指明的代理服务器提取。
Unused
此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
Temporary Redirect
被请求的页面已经临时移至新的url。



4xx:客户端错误
Bad Request
服务器未能理解请求。
Unauthorized
被请求的页面需要用户名和密码。
401.1
登录失败。
401.2
服务器配置导致登录失败。
401.3
由于 ACL 对资源的限制而未获得授权。
401.4
筛选器授权失败。
401.5
ISAPI/CGI 应用程序授权失败。
401.7
访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
Payment Required
此代码尚无法使用。
Forbidden
对被请求页面的访问被禁止。
403.1
执行访问被禁止。
403.2
读访问被禁止。
403.3
写访问被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒绝。
403.7
要求客户端证书。
403.8
站点访问被拒绝。
403.9
用户数过多。
403.10
配置无效。
403.11
密码更改。
403.12
拒绝访问映射表。
403.13
客户端证书被吊销。
403.14
拒绝目录列表。
403.15
超出客户端访问许可。
403.16
客户端证书不受信任或无效。
403.17
客户端证书已过期或尚未生效。
403.18
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
Not Found
服务器无法找到被请求的页面。
404.0
没有找到文件或目录。
404.1
无法在所请求的端口上访问 Web 站点。
404.2
Web 服务扩展锁定策略阻止本请求。
404.3
MIME 映射策略阻止本请求。
Method Not Allowed
请求中指定的方法不被允许。
Not Acceptable
服务器生成的响应无法被客户端所接受。
Proxy Authentication Required
用户必须首先使用代理服务器进行验证,这样请求才会被处理。
Request Timeout
请求超出了服务器的等待时间。
Conflict
由于冲突,请求无法被完成。
Gone
被请求的页面不可用。
Length Required
"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
Precondition Failed
请求中的前提条件被服务器评估为失败。
Request Entity Too Large
由于所请求的实体的太大,服务器不会接受请求。
Request-url Too Long
由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
Unsupported Media Type
由于媒介类型不被支持,服务器不会接受请求。
Requested Range Not Satisfiable
服务器不能满足客户在请求中指定的Range头。
Expectation Failed
执行失败。
锁定的错误。



5xx:服务器错误
Internal Server Error
请求未完成。服务器遇到不可预知的情况。
500.12
应用程序正忙于在 Web 服务器上重新启动。
500.13
Web 服务器太忙。
500.15
不允许直接请求 Global.asa。
500.16
UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
内部 ASP 错误。
Not Implemented
请求未完成。服务器不支持所请求的功能。
Bad Gateway
请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
CGI 应用程序超时。 ·
502.2
CGI 应用程序出错。
Service Unavailable
请求未完成。服务器临时过载或当机。
Gateway Timeout
网关超时。
HTTP Version Not Supported
服务器不支持请求中指明的HTTP协议版本

浏览器内核

浏览器 内核
IE Trident
Chrome Webkit
Firefox Gecho
Opera Pesto
Safari(Apple) Webkit

一,urllib、urllib2、urllib3

在python3中,将urllib2合并到了urllib。在python3中urllib2被改为urllib.request

区别:

urllib支持设置编码的函数urllib.urlencode,在模拟登陆的时候经常需要传递经过post编码之后的参数,如果不想使用第三方库完成模拟登录,就必须使用到标准库中的urllib。urllib提供一些比较原始基础的方法而urllib2并没有,比如urllib中的urlencode方法用来GET查询字符串的产生



urllib2比较有优势的地方在于urllib2.openurl中可以接受一个Request类的实例来设置Request参数,来修改/设置Header头从而达到控制HTTP Request的header部分的目的,也可以修改用户代理,设置cookie等,但urllib仅可以接受URL。这就意味着,如果你访问一个网站想更改User Agent(可以伪装你的浏览器),你就需要使用urllib2。urllib2模块没有加入urllib.urlretrieve函数以及urllib.quote等一系列quote和unquote功能,这个时候就需要urllib的辅助



urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能,最显著的区别如下:

(1)urllib仅可以接受URL,不能创建,设置headers的request类实例;

(2)但是urllib提供urlencode()方法用来GET查询字符串的产生,而urllib2则没有(这是urllib和urllib2经常一起使用的主要原因)

(3)编码工作使用urllib的urlencode()函数,帮我们讲key:value这样的键值对转换成‘key=value’这样的字符串,解码工作可以使用urllib的unquote()

函数

Python3.X中使用整合后的urllib


python3 urllib使用

基本用法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url:  需要打开的网址
data:Post提交的数据
timeout:设置网站的访问超时时间

urllib.request模块的urlopen()获取页面,page的数据格式为bytes类型,需要decode()解码,转换成str类型

#示例
1 from urllib import request
2 response = request.urlopen(r‘http://python.org/‘) #  HTTPResponse类型
3 page = response.read()
4 page = page.decode(‘utf-8‘)



urlopen返回对象提供方法:
read() , readline() ,readlines() , fileno() , close() :对HTTPResponse类型数据进行操作
info():返回HTTPMessage对象,表示远程服务器返回的头信息
getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
geturl():返回请求的url

urllib.request.Request(*url, data=None, headers={}, method=None*)

添加请求头

url = r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘
headers = {
    ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
                  r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
    ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
    ‘Connection‘: ‘keep-alive‘
}
req = request.Request(url, headers=headers)
page = request.urlopen(req).read()
page = page.decode(‘utf-8‘)



##
User-Agent :这个头部可以携带如下几条信息:浏览器名和版本号、操作系统名和版本号、默认语言
Referer:可以用来防止盗链,有一些网站图片显示来源http://***.com,就是检查Referer来鉴定的
Connection:表示连接状态,记录Session的状态


POST数据

urllib.request.urlopen(*url*, *data=None*, [*timeout*, ]***, *cafile=None*, *capath=None*, *cadefault=False*, *context=None*)

urlopen()的data参数默认为None,当data参数不为空的时候,urlopen()提交方式为Post

from urllib import request, parse
url = r‘http://www.lagou.com/jobs/positionAjax.json?‘
headers = {
    ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
                  r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
    ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
    ‘Connection‘: ‘keep-alive‘
}
data = {
    ‘first‘: ‘true‘,
    ‘pn‘: 1,
    ‘kd‘: ‘Python‘
}
data = parse.urlencode(data).encode(‘utf-8‘)
req = request.Request(url, headers=headers, data=data)
page = request.urlopen(req).read()
page = page.decode(‘utf-8‘)

urllib.parse.urlencode(query, doseq=False, safe=‘‘, encoding=None, errors=None)

urlencode()主要作用就是将url附上要提交的数据。

Post的数据必须是bytes或者iterable of bytes,不能是str,因此需要进行encode()编码

也可以

page = request.urlopen(req, data=data).read()

把data的数据封装在urlopen()参数中

异常处理

def get_page(url):
    headers = {
        ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
                    r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
        ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
        ‘Connection‘: ‘keep-alive‘
    }
    data = {
        ‘first‘: ‘true‘,
        ‘pn‘: 1,
        ‘kd‘: ‘Python‘
    }
    data = parse.urlencode(data).encode(‘utf-8‘)
    req = request.Request(url, headers=headers)
    try:
        page = request.urlopen(req, data=data).read()
        page = page.decode(‘utf-8‘)
    except error.HTTPError as e:
        print(e.code())
        print(e.read().decode(‘utf-8‘))
    return page
    
    

使用代理

urllib.request.ProxyHandler(*proxies=None*)

data = {
        ‘first‘: ‘true‘,
        ‘pn‘: 1,
        ‘kd‘: ‘Python‘
    }
proxy = request.ProxyHandler({‘http‘: ‘5.22.195.215:80‘})  # 设置proxy
opener = request.build_opener(proxy)  # 挂载opener
request.install_opener(opener)  # 安装opener
data = parse.urlencode(data).encode(‘utf-8‘)
page = opener.open(url, data).read()
page = page.decode(‘utf-8‘)
return page

https://learnku.com/docs/pymotw/urllibrequest-network-resource-access/3433

https://www.jianshu.com/p/2e190438bd9c

https://docs.python.org/3.6/library/urllib.request.html#module-urllib.request

ubuntu命令-http

标签:parse   ali   空行   mirror   页面   代理服务器   iso   不同   webp   

原文地址:https://www.cnblogs.com/g2thend/p/12694410.html


评论


亲,登录后才可以留言!