【python系统学习16】编码基础知识
2021-01-01 22:29
计算机是怎么传输和存储数据的? 就是把人类认识的中英文字、其他国家语言、数字甚至运算符等符号转成二进制的0、1,并进行存储和传输。 人类语言:中英文字、其他国家语言、数字甚至运算符等符号 计算机语言:二进制的0、1【没错,计算机只认识0和1】 编码:将人类语言转换为计算机语言。 除了0、1这些阿拉伯数字,像a、b、c这样的52个字母(包括大小写),还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,理论上每个人都可以有自己的一套规则(这就叫编码规则,形成编码表)。 如果使用了不同的编码规则,就会有计算机识别不了的情况,出现乱码。 二进制、八进制、十六进制。 八进制和十六进制分别是二进制的3次方和4次方。方便和二进制之间非常直接的相互转换 由0和1构成的 使用0、1、2、3、4、5、6、7组成的 使用0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f组成的 注意这里还是大写的字母K哦~ 计算机里的存储单位 位:又叫比特(bit)是计算机里最小的存储单位。用来存放一位二进制书,即0或1。 八个比特是一个字节,是计算机里最常用的单位。简写“B” 简称“兆” 又叫千兆 为什么办的100兆的宽带,撑死就只有10几兆的下载速度? 因为运营商的带宽是以比特每秒为单位的,比如100M就是100Mbit/s。 而我们常看到的下载速度KB却是以字节每秒为单位显示的, 为了避免乱码,人类就约定了一套共同的编码规则。就像计算机世界的新华字典、牛津英语字典。 但欧洲不光有英语,还有法语字母上的注音符。于是欧洲用了美国剩下的那个比特位,普遍使用一个全字节(8个比特位)进行编码,最多可表示256位,至此,一个字节就用满了! ASCII统一了前面0-127位,但从状态128到255这一段的解释就完全乱套了,比如135在法语,希伯来语,俄语编码中完全是不同的符号。 因各个国家的编码表都不同。不同国家间通信又会乱码。 万国码的缺点是让英文字符被迫占用两个字节,耗费计算机存储空间。(如A:用00010001就行,但是为了顺从统一,需要用两个字节:00000000 00010001) Unicode与UTF-8这种暧昧的关系一言以蔽之:Unicode是内存编码的规范,而UTF-8是如何保存和传输Unicode的手段。 基于上表,有时候面对不同编码的数据,我们还需要手动操作实现编码转换。就要用到 语法: 用法: 将上述人类语言编码得到机器语言后的打印结果在注释里。 这里之所以有个 另外,几乎每个字母/数字前边都有的 这样的分隔符,我们还见过: 对比发现下边两段字符串,你有发现什么奥妙么!: 语法: 用法: ::: warning 注意
你要解码的内容得跟编码时用的编码表一致。不然会报错。
::: 也就是说,UTF-8编码的字节就一定要用UTF-8的规则解码,其他编码同理,否则就会出现乱码或者报错的情况,
编码
编码
进制
二进制
二进制
十进制
00
0
01
1
10
2
11
3
100
4
101
5
110
6
111
7
1000
8
八进制
十六进制
ASCII编码表中的“K”
二进制
八进制
十进制
十六进制
字母
01001011
113
75
4B
K
存储单位
位/比特(bit)
字节(byte)
千字节(Kilobyte)
兆字节(Megabyte)
吉字节(Gigabyte)
单位换算
1B(byte 字节) = 8bit
1KB(Kilobyte 千字节) = 1024B
1MB(Megabyte 兆字节) = 1024KB
1GB(Gigabyte) = 1024MB1byte = 8bit
,所以运营商说的带宽得先除以8,你的百兆宽带下载速度,也就是十几兆了。
编码表
编码表历史
ASCII
ASCII
编码(读音:/??ski/),美国首先出台。统一规定了常用符号用哪些二进制数来表示。
因为英文字母、数字再加上其他常用符号,也就100来个,因此使用7个比特位(最多表示128位)就够用了,所以一个字节中被剩下的那个比特位就被默认为0。
GB2312和GBK
GB2312
被中国科学家发明了。
用2个字节,也就是16个比特位,来表示绝大部分(65535个)常用汉字。后来,为了能显示更多的中文,又出台了GBK
标准。
Unicode
Unicode
(万国码)来统一。
这套编码表将世界上所有的符号都纳入其中。每个符号都有一个独一无二的编码,现在Unicode可以容纳100多万个符号,所有语言都可以互通,一个网页上也可以显示多国语言。
UTF-8
UTF-8
(8-bit Unicode Transformation Format)被提出。针对Unicode的可变长度字符编码。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。而当字符在ASCII码的范围时,就用一个字节表示,所以UTF-8还可以兼容ASCII编码。
编码表对比
编码表
适用性
特点
ASCII码
英文大小写,字符,不支持中文
美国人发明,占用空间小,用一个字节就行
GB2312码、GBK码
支持中文
中国人发明,GBK是GB2312的升级,增加了更多原来没有的文字字符
Unicode码
支持国际语言,万国码
适用性强但占用空间大。在ASCII码前面补8个bit位就是Unicode码
UTF-8码
支持国际语言
Unicode的升级,两者容易互相转化。占用空间小、适用性强。ASCII码被UTF-8码包含。
编码方案使用情况表
编码表
当前使用情况
备注
ASCII码
-
-
GB2312码、GBK码
中文的文件和中文网站,使用GBK、GB2312
-
Unicode码
计算机内存中处理数据时使用的统一标准格式
Python3中,程序处理我们输入的字符串使用Unicode编码
UTF-8码
数据在硬盘上存储,或者网络上传输时,用的UTF-8
因为节省空间。程序来转换编码。
encode(编码)
和decode(解码)
。
编码操作和解码操作
编码:
encode()
‘你想编码的内容‘.encode(‘你使用的编码表名称‘)
print(‘一天打鱼两个月晒网的小石头‘.encode(‘utf-8‘))
# b‘\xe4\xb8\x80\xe5\xa4\xa9\xe6\x89\x93\xe9\xb1\xbc\xe4\xb8\xa4\xe4\xb8\xaa\xe6\x9c\x88\xe6\x99\x92\xe7\xbd\x91\xe7\x9a\x84\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4‘
print(‘I Love U‘.encode(‘gbk‘))
# b‘I Love U‘
print(‘小石头‘.encode(‘utf-8‘))
# b‘\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4‘
字母b
字母b
,代表他是bytes(字节)类型的数据。
可以用type()
函数验证一下:print(type(b‘\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4‘)) #
符号\x
\x
,他的作用是分隔符,用来分隔一个字节和另一个字节。a href="https://www.baidu.com/s?wd=%e5%b0%8f%e7%9f%b3%e5%a4%b4" />
%e5%b0%8f%e7%9f%b3%e5%a4%b4
\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4
%
和\x
一样,都是一种分隔符。只不过%是url中的、\x是python中的
解码:
decode()
‘你想解码的内容‘.encode(‘你使用的编码表名称‘)
print(b‘\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4‘.decode(‘UTF-8‘)) # 小石头
print(b‘\xe5\xb0\x8f\xe7\x9f\xb3\xe5\xa4\xb4‘.decode(‘GBK‘))
# 把utf-8编码的字符串用GBK来解码,就报错了。
# UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xb4 in position 8: incomplete multibyte sequence
上一篇:Error C2079 'CMFCPropertySheet::m_wndOutlookBar' uses undefined class 'CMFCO
下一篇:自己商品如何?商城网站建设重要性