Python中的默认编码-电子发烧友网

####1. Python源代码文件的执行过程

我们都知道，磁盘上的文件都是以二进制格式存放的，其中文本文件都是以某种特定编码的字节形式存放的。对于程序源代码文件的字符编码是由编辑器指定的，比如我们使用Pycharm来编写Python程序时会指定工程编码和文件编码为UTF-8，那么Python代码被保存到磁盘时就会被转换为UTF-8编码对应的字节（encode过程）后写入磁盘。当执行Python代码文件中的代码时，Python解释器在读取Python代码文件中的字节串之后，需要将其转换为UNICODE字符串（decode过程）之后才执行后续操作。

上面已经解释过，这个转换过程（decode，解码）需要我们指定文件中保存的字节使用的字符编码是什么，才能知道这些字节在UNICODE这张万国码和统一码中找到其对应的代码点是什么。这里指定字符编码的方式大家都很熟悉，如下所示：

# -*- coding:utf-8 -*-

2. 默认编码

那么，如果我们没有在代码文件开始的部分指定字符编码，Python解释器就会使用哪种字符编码把从代码文件中读取到的字节转换为UNICODE代码点呢？就像我们配置某些软件时，有很多默认选项一样，需要在Python解释器内部设置默认的字符编码来解决这个问题，这就是文章开头所说的“默认编码”。因此大家所说的Python中文字符问题就可以总结为一句话： 当无法通过默认的字符编码对字节进行转换时，就会出现解码错误(UnicodeEncodeError) 。

Python2和Python3的解释器使用的默认编码是不一样的，我们可以通过sys.getdefaultencoding()来获取默认编码：

>> > # Python2
 >> > import sys
 >> > sys.getdefaultencoding()
'ascii'

 >> > # Python3
 >> > import sys
 >> > sys.getdefaultencoding()
'utf-8'

因此，对于Python2来讲，Python解释器在读取到中文字符的字节码尝试解码操作时，会先查看当前代码文件头部是否有指明当前代码文件中保存的字节码对应的字符编码是什么。如果没有指定则使用默认字符编码"ASCII"进行解码导致解码失败，导致如下错误：

SyntaxError: Non-ASCII character '\\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

对于Python3来讲，执行过程是一样的，只是Python3的解释器以"UTF-8"作为默认编码，但是这并不表示可以完全兼容中文问题。比如我们在Windows上进行开发时，Python工程及代码文件都使用的是默认的GBK编码，也就是说Python代码文件是被转换成GBK格式的字节码保存到磁盘中的。Python3的解释器执行该代码文件时，试图用UTF-8进行解码操作时，同样会解码失败，导致如下错误：

SyntaxError: Non-UTF-8 code starting with '\\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

3. 最佳实践

创建一个工程之后先确认该工程的字符编码是否已经设置为UTF-8
为了兼容Python2和Python3，在代码头部声明字符编码：-*- coding:utf-8 -*-

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码

编码

+关注

关注
6

文章
957

浏览量
54933
python

python

+关注

关注
56

文章
4807

浏览量
84985

Python中文乱码怎么处理？python中文乱码解决办法

`Python中出现乱码，英文显示没问题，一般是中文输出出现了编码问题，如果python文件中没有指定编码，在执行过程中就会出现报错！

发表于 12-27 15:13

python默认的解释器并不支持tab补全

虽然python在linux系统中是默认安装的，但是python默认的解释器并不支持tab补全，所以推荐使用ipython。

发表于 07-11 07:22

从5个方面来解析计算机中的字符编码概念

字符编码是计算机编程中不可回避的问题，不管你用 Python2 还是 Python3，亦或是 C++, Java 等，我都觉得非常有必要厘清计算机中

发表于 01-16 09:08 •7967次阅读

从RHEL 8 Beta开始不再默认系统Python版本

为了改善用户体验，从 RHEL 8 Beta 开始不再强调“系统 Python”，不再默认一个 Python 版本。

发表于 12-30 14:23 •1957次阅读

Python的编码规范是怎么样的

建议使用Emacs 的Python-mode 默认值： 4 个空格一个缩进层次。对于确实古老的代码，若不希望产生混乱，可以继续使用8 空格的制表符。在Emacs 的Python-mode 中会自动

发表于 08-12 16:03 •3次下载

科普：Python函数默认返回 None 的原因

Python 有一项默认的做法，很多编程语言都没有——它的所有函数都会有一个返回值，不管你有没有写 return 语句。

发表于 08-17 11:39 •2409次阅读

Python 函数默认返回None的原因

Python 函数默认返回None是什么原因？定义的函数没有返回值，Python 解释器就会强行地默认给注入一段返回逻辑！实际上 Python

发表于 08-21 10:51 •2693次阅读

Python中最基本的10个内容

时会遇上乱码问题，其原因是字符集的编码问题。Linux和Mac默认的编码集是UTF8，而Windows则是

发表于 12-11 11:54 •1704次阅读

如何在Ubuntu中安装IDLE Python IDE

当初学Python时，设置编码环境可能会很具有挑战性。IDLE（集成开发和学习环境）是一个Python IDE，可简化相同的过程。安装后，您可以立即开始编码。

发表于 04-10 10:29 •793次阅读

Python编码与解码

先做下科普：UNICODE字符编码，也是一张字符与数字的映射，但是这里的数字被称为代码点（code point），实际上就是十六进制的数字。 Python官方文档中对Unicode字符串、字节串

发表于 07-05 15:59 •744次阅读

Python2与Python3中对字符串的支持

其实Python3中对字符串支持的改进，不仅仅是更改了默认编码，而是重新进行了字符串的实现，而且它已经实现了对UNICODE的内置支持，从这方面来讲

发表于 07-05 16:15 •756次阅读

Python字符编码转换

UNICODE字符串可以与任意字符编码的字节进行相互转换，如图：那么大家很容易想到一个问题，就是不同的字符编码的字节可以通过Unicode相互转换吗？答案是肯定的。 Python2中

发表于 07-05 16:25 •1132次阅读

mysql数据库默认字符编码是什么

MySQL数据库的默认字符编码是utf8mb4。下面我将详细介绍MySQL数据库的字符编码相关知识，并展开讨论相应的配置、应用和注意事项。一、MySQL数据库字符编码简介什么是字符

发表于 11-16 14:50 •1623次阅读

python中如何保存文件

( 'Hello, world!' ) 在上面的例子中，'filename.txt'是文件的路径，'w'是打开文件的模式，表示写入模式，encoding参数可选，指定文件的编码方式，默认为系统的

发表于 11-24 09:32 •1218次阅读

查看python安装路径的方法

。方法一：使用Python自带安装程序的默认路径 Python的安装程序通常会将Python解释器安装在默认的路径

发表于 11-29 14:54 •1.2w次阅读

搜索历史

Python中的默认编码

2. 默认编码

3. 最佳实践

评论

Python中文乱码怎么处理？python中文乱码解决办法

python默认的解释器并不支持tab补全

从5个方面来解析计算机中的字符编码概念

从RHEL 8 Beta开始不再默认系统Python版本

Python的编码规范是怎么样的

科普：Python函数默认返回 None 的原因

Python 函数默认返回None的原因

Python中最基本的10个内容

如何在Ubuntu中安装IDLE Python IDE

Python编码与解码

Python2与Python3中对字符串的支持

Python字符编码转换

mysql数据库默认字符编码是什么

python中如何保存文件

查看python安装路径的方法