编码问题主要来源是python2.x和python3.x对字符串的语义发生重大变化
在python2当中str看上去是字符串,实际上是连续的字节,因为早期的计算机是美国人发明的,,最开始设计的字符编码也只考虑到英文字符,采用ASCII码对字符进行编码,也就是一个字节表示一个字符,一片连续的字节等价于一个字符串。
但是由于一个字节表示一个字符,已经不能满足各国的需求,进而人们发明了各种编码格式:utf8,gbk。。
在python当中,有一种比较通用的就是unicode。
然而要把字符存储到文件当中,这种unicode编码是不能直接存储的,必须以某种编码格式变成连续的字节的格式,才能存储到文件里。
下面我就演示一下unicode到str的转化
最后得到了一个str,只有str才能存储到物理设备当中,例如磁盘扇区和网络socket.
对unicode编码和解码必须同一种编码格式,否则就是乱码。
对于文件的读写,写入之前指定某种格式的编码,变成str才能成功的写入
此时的t其实还是utf8编码格式,要想转化成文本,就要解码,以相同的方式解码。
u'\u4f60\u597d' = 你好
上面写的都是在python2当中,下面看看python3
b'asdfg' #python3.x
'asdfg' #python2.x
u'你好' #python2.x
'你好' #python3.x
除此之外,open函数也发生变化。
它增加t的文本模式,也是默认参数。以及encoding参数,指定编码格式,这样我们在写入的时候,它自动将unicode转化成encoding指定的编码格式
读取时候也是一样的。
f = open('demo2.txt','wt',encoding='utf8')
f.write('你好')
f.close()
f = open('demo2.txt','rt',encoding='utf8')
s =f.read()
print(s) # ==>你好
over!!
點(diǎn)擊查看更多內(nèi)容
7人點(diǎn)贊
評(píng)論
評(píng)論
共同學(xué)習(xí),寫下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章
正在加載中
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦