Python 编码学习

05 Sep 2015

如果你英语不错，不妨查看官方Unicode文档，这里有更详细的讲解。

需要注意的是，python2.x 和 python3中的编码不同，以下说的是python2.x中的编码

str和unicode

为了更好地了解python的编码，我们首先需要了解str和unicode。

str和unicode是python中的两种变量类型，他们都是basestring类型的子类，其中：

例如，在编码是gbk的Windows命令行中输入以下代码:

>>> '汉'
'\xba\xba'
>>> u'汉'
u'\u6c49'

第一个’汉’是由gbk编码的str类型，所以对应的是8-bit的字节流；第二个’汉’我们定义成unicode类型（在字符串前加’u’表示该字符串为unicode类型），所以对应的是16-bit的整数

在了解了str和unicode以后，我们就可以开始了解通过encode和decode方法来对二者进行转换。

为了进一步了解，我们输入以下例子：

>>> '汉'
'\xba\xba'
>>> '汉'.decode('gbk')
u'\u6c49'
>>> u'汉'.encode('gbk')
'\xba\xba'
>>> u'汉'.encode('utf-8')
'\xe6\xb1\x89'

我们可以看到encode和decode方法的作用非常简单，就是对str和unicode变量进行转换。而python编码关键的地方就在于，我们必须清楚地了解：该字符串到底是str类型还是unicode类型，如果是str类型，它是什么编码。