计算机编码全解析（下）-电子发烧友网

7.Unicode、UCS

以上的编码都是本地化编码， 一国之内还没有问题，但是要跨国，就不行了 。比如汉字，在只有ISO-8859系列字符集的电脑上显示就只能是乱码了，要显示汉字，电脑上必须装GB2312或GBK的字符集。有没有一个字符集，能够包含全球所有的字符呢？这就是Unicode和UCS

1988年，Joe Becker 发布了一个草案，提出了“Unicode”的概念，他解释说“‘Unicode’是一种唯一的、统一的、全球的编码”。后来，RLG、Sun、Microsoft、NeXT（乔布斯被赶出苹果后创建的公司）的人也都逐渐加入到Unicode工作组里。1991年1月3日，Unicode联盟组织成立，同年发布了Unicode1.0.

同时，ISO组织也在做同样的事情，创造一个全球统一的字符集（Universal Coded Charac ter Set，简称UCS），1993年发布了标准ISO 10646-1。

后来，两个组织认识到，世界不需要两个不兼容的字符集，于是，开始合作。从Unicode2.0开始，开始采用和UCS相同的字库和字码。这样，两个项目仍都存在，并独立地公布各自的标准。但双方都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展。所以，现在说到UCS字符集，跟Unicode可以看成一回事。

Unicode编码包含两个层次：第一层定义字符的数值和第二层 定义数值的实现方式 。Unicode用数字 0x0~0x10FFFF 表示所有字符，所以最多可以容纳 1114112 个字符。 数值的编码方式，也就是实现方式包括 UTF-8，UTF-16，UTF-32 三种 。

有人会说，Unicode不是两个字节表示字符的码？为什么数值可以到0x10FFFF，这不21位，两个半字节还多了吗？其实，这是混淆了Unicode的数值定义和实现，这根本就是两个概念，Unicode到底用几个字节表示，取决于其实现方式是UTF-8，UTF-16，还是UTF-32.

比如，“汉字”对应的Unicode值是0x6c49和0x5b57，而编码实现是：

char data_utf8[]= {0xE6,0xB1,0x89,0xE5,0xAD,0x97}; //UTF-8编码 char16_t data_utf16[]= {0x6C49,0x5B57}; //UTF-16编码 char32_t data_utf32[]= {0x00006C49,0x00005B57}; //UTF-32编码

UTF-8

UTF，全称“Unicode Transformation Formats”。是Unicode的编码格式。

UTF-8是使用8-bit为单位，对Unicode进行编码的。特点是，对不同范围的字符使用不同长度的编码。

Unicode编码(十六进制)	UTF-8 字节流(二进制)
00000000 - 0000007F	0xxxxxxx
00000080 - 000007FF	110xxxxx 10xxxxxx
00000800 - 0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 的编码规则很简单：如果只有一个字节，那么最高的比特位为 0；如果有多个字节，那么第一个字节从最高位开始，连续有几个比特位的值为 1，就使用几个字节编码，剩下的字节均以 10 开头。具体的表现形式为（xxx 就用来存储 Unicode 中的字符编号）：

0xxxxxxx：单字节编码形式，这和 ASCII 编码完全一样，因此 UTF-8 是兼容 ASCII 的；
110xxxxx 10xxxxxx：双字节编码形式；
1110xxxx 10xxxxxx 10xxxxxx：三字节编码形式；
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx：四字节编码形式。

下面是一些字符的编码实例（绿色部分表示本来的 Unicode 编号）：

字符	N	æ	齐
Unicode 编号（二进制）	01001110	11100110	00101110 11101100
Unicode 编号（十六进制）	4E	E6	2E EC
UTF-8 编码（二进制）	01001110	11000011 10100110	11100010 10111011 10101100
UTF-8 编码（十六进制）	4E	C3 A6	E2 BB AC

UTF-8编码的最大长度是6个字节。

对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同,用1个字节表示，首位为0。
对于0x80-0x7FF之间的字符，用2个字节表示，第一个字节前三位“110”为标志位，第二个字节前两位“10”为标志位。剩下的11位用来表示Unicode值（7FF最多11位）。
同样，UTF-8的3个字节，可以表示0x800-0xFFFF的Unicode（最多16位）。
UTF-8的4个字节，可以表示0x10000-0x001FFFFF的Unicode（最多21位）。 4个字节以内，已经包含了Unicode所有字符。
5、6个字节表示的已经是非Unicode编码范围，属于UCS-4 编码。早期UTF-8规范也可以达到6字节序列，不过2003年11月UTF-8 被 RFC 3629 重新规范，只能使用原来Unicode定义的区域， U+0000到U+10FFFF。根据规范，这些字节值将无法出现在合法 UTF-8序列中。

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001， 用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

例2：Unicode编码0x20C30在0x010000-0x10FFFF之间，使用用4字节模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字（不足21位就在前面补0）：0 0010 0000 1100 0011 0000，用这个比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

UTF-8有两个好处：

1. 1字节字符、2字节字符、3字节字符……的首字节标志位不同，这样可以很清楚的区分一个字节属于1字节字符还是2字节字符，如果一个字节流传输中出现错误，也不会错位，只影响部分字符，根据标志位，很容易找到下个正确字符。
1. 兼容ASCII码， 英美字符用UTF-8可以一个字节表示，所以，www组织选用UTF-8作为推荐编码格式。2007年，在互联网上，UTF-8格式已经超过了ASCII码。

UTF-16

UTF-16以2字节为单位,等同于UCS-2.

Unicode编码(十六进制)	UTF-16 字节流(二进制)
00000000 - 0000FFFF	xxxxxxxx xxxxxxxx
00010000 - 0010FFFF	110110yyyyyyyyyy 110111xxxxxxxxxx

Unicode值小于等于0xFFFF的，直接用两个字节表示，超过0xFFFF的，无法用两个字节表示。使用下面公式编码:

1.计算 U’= U – 0x10000

2. 将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx

3. 加上标志位，1101 10yy yyyy yyyy 1101 11xx xxxx xxxx：高位代理值为D800，低位代理值为DC00

可见，这是4个字节表示，2个6位标志位，20位有效位。因为U最大是0x10FFFF，所以U’最大是0xFFFFF，20位足够表示 。

案例1：

U+0020，这个值的范围在第一部分，即经过UTF-16编码后，结果仍然为U+0020，在内存中的顺序为00 20。

案例2：

U+12345, 这个值的范围在第二部分，因此需要先减去0x10000，得到0x02345，拆分成高10位00 0000 1000和低10位11 0100 0101。根据上面规则加上特定值后，高位代理值为D808，低位代理值为DF45，最终内存中的顺序为D8 08 DF 45。

BOM的含义

BOM即Byte Order Mark字节序标记。BOM是为UTF-16和UTF-32准备的，用户标记字节序（byte order）。拿UTF-16来举例，其是以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流"594E"，那么这是“奎”还是“乙”？

我们先来来看下UTF-16-Big Endian文件格式：

可以看到此时“文件”二字的unicode编码并没有超过0xFFFF，所以使用两个字节来保存：

而 最早的“fe ff”即为Bom标签 。

我们再来看下UTF-16-Little Endian文件格式：

使用的Bom标签居然变为了fffe。

Unicode规范中推荐的标记字节顺序的方法是BOM：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"（零宽度无间断空间）的字符，它的编码是FEFF。而FEFF在UCS中是不不能再的字符（即不可见），所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者接收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称为BOM。

windows上默认的Unicode编码方式就是UTF-16，使用wchar_t表示。

UTF-32

UTF-32编码以4字节为单位 。直接把Unicode值转为4字节二进制数就是其UTF-32编码。等同于UCS-4.

8.Base64

有的电子邮件系统(比如国外信箱)不支持非英文字母(比如汉字)传输，这是历史原因造成的(认为只有美国会使用电子邮件?)。因为一个英文字母使用ASCII编码来存储，占存储器的1个字节(8位)，实际上只用了7位2进制来存储，第一位并没有使用，设置为0，所以，这样的系统认为凡是第一位是1的字节都是错误的。而有的编码方案(比如GB2312)不但使用多个字节编码一个字符，并且第一位经常是1，于是邮件系统就把1换成0，这样收到邮件的人就会发现邮件乱码。

为了能让邮件系统正常的收发信件，就需要把由其他编码存储的符号转换成ASCII码来传输。比如 ， 在一端发送GB2312编码－>根据Base64规则－>转换成ASCII码，接收端收到ASCII码－>根据Base64规则－>还原到GB2312编码 。

9.Big5

在台湾、香港与澳门地区，使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集，并不支持繁体汉字。在这些使用繁体中文字符集的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。为统一繁体字符集编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为大五码。大五码是一种繁体中文汉字字符集，其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计，每个字符统一使用两个字节存储表示。第1字节范围81H－FEH，避开了同ASCII码的冲突，第2字节范围是40H－7EH和A1H－FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种字符集的字符同时支持。 Big5编码的分布如表1－5所示，Big5字符主要部分集中在三个段内：标点符号、希腊字母及特殊符号；常用汉字；非常用汉字。其余部分保留给其他厂商支持。

Big5编码推出后，得到了繁体中文软件厂商的广泛支持，在使用繁体汉字的地区迅速普及使用。目前，Big5编码在台湾、香港、澳门及其他海外华人中普遍使用，成为了繁体中文编码的事实标准。在互联网中检索繁体中文网站，所打开的网页中，大多都是通过Big5编码产生的文档。

总结各种字符编码之间的关系

上面关于字符集和编码讲了许多概念，其实归类一下可以这么理解： 首先是单字节字符集：

1、最初美国ANSI发明了自己的编码ASCII，7-bit足够，这是标准ASCII。
2、标准ASCII码没有西欧国家拉丁文、英镑等字符，各公司、国家开始扩展，形成自己的扩展ASCII码字符集，各方混战，不过8-bit也就足够。
3、天下分久必合，ISO统一了8-bit字符集，叫做ISO 8859.

但是亚洲国家字符更多，一个字节远远不够，于是用多个字节表示，扩展形成本国字符集，中国GB系列，台湾Big5，日本JIS……，这些叫做多字节字符集（MBCS），windows中用双字节表示，也叫做（DBCS）。

以上字符都是群雄割据，各自为政，windows为了迎合大家需求，在哪个国家，默认编码就用那个国家的，不过后来不知怎么被误传位ANSI编码，其实ANSI怎么可能定义世界各国编码，不过可以理解成各编码都是在ANSI*础上扩展的，因为都兼容ANSI的标准ASCII码。

这时，ISO再次出手，和Unicode联盟携手打造了Unicode（UCS），意图一统江湖。Unicode确实包罗万象，涵盖了各国字符，于是流行世界。Unicode自身只定义了每个字符的数值，真正二进制编码格式却是UTF-8，UTF-16（UCS-2），UTF-32（UCS-4）。

我们下期见。

参考

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK等)以及全角、半角、CJK

字符集和字符编码

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7440

浏览量
87785
编码

编码

+关注

关注
6

文章
937

浏览量
54778
BUG

BUG

+关注

关注
0

文章
155

浏览量
15658

计算机与网络技术基础

计算机与网络技术基础了解计算机网络的形成与发展过程掌握计算机网络的定义、分类、功能和典型应用掌握计算机网络的组成结构了解

发表于 12-07 13:36

在计算机与第三方设备通信时，常用的计算机编码

在计算机与第三方设备通信时，常用的计算机编码

发表于 07-10 13:06

什么是计算机系统、计算机硬件和计算机软件？

第一章 计算机系统概论1. 什么是计算机系统、计算机硬件和计算机软件？硬件和软件哪个更重要？解：P3计算机系统：由

发表于 07-22 09:06

计算机应用

1、第一台计算机：1946年2月14日，在美国宾西尼亚大学的莫尔电机学院，世界第一台现代电子计算机“埃尼阿克”ENIAC诞生，重达30t,在1s内能进行5000次加法运算和500次乘法运算。2

发表于 09-10 08:17

计算机运算速度是指什么

计算机运算速度是指什么？按传输介质分类，计算机网络可分为哪几种？使用16位二进制编码表示声音与使用8位二进制编码表示声音的效果有何不同？

发表于 10-19 09:05

什么是程序？什么是计算机

什么是程序？程序（Program）流程、议程、行程、…为了完成某项任务，解决某个问题需要执行的一系列步骤计算机程序为了完成某项任务，解决某个问题由计算机执行的一系列指令（步骤）什么是计算机？计

发表于 11-23 09:02

对计算机三级嵌入式综合题的解析

今天这篇文章主要指针对计算机三级嵌入式综合题的解析，对于没有单片机基础的同学来说配置寄存器有些困难，所以今天我就给大家分享一下我的经验，希望这篇文章可以帮助到大家，如有错误欢迎指正！！首先来分析矩阵

发表于 12-23 07:39

计算机应用基础教案

介绍什么是计算机，计算机的特点，计算机的应用与发展：什么是计算机；计算机的发展；计算机的分类；

发表于 09-25 12:45 •0次下载

计算机应用基础课程

计算机的分类、特点及应用领域 计算机的进位计数制 计算机的信息编码标准

发表于 05-15 09:57 •0次下载

用SD卡设计8086全硅计算机的硬盘

介绍了8086全硅计算机的体系架构,设计了8086全硅计算机与SD卡连接的硬件接口,并使用软件和硬件相结合的调试方法,可快速调试验证SD卡的功能.通过FPGA的验证,SD卡作为8086

发表于 11-09 16:47 •66次下载

计算机寻址方式解析

计算机寻址方式解析寻址方式就是寻找操作数地址的方式，解决的是如何在指令中表示一个操作数的地址。形式地址：在指令中出现的操作数地址

发表于 04-15 11:22 •6790次阅读

从5个方面来解析计算机中的字符编码概念

字符编码是计算机编程中不可回避的问题，不管你用 Python2 还是 Python3，亦或是 C++, Java 等，我都觉得非常有必要厘清计算机中的字符编码概念。

发表于 01-16 09:08 •7908次阅读

计算机算术运算实现原理全解

计算机算术运算实现原理全解。

发表于 03-26 14:04 •5次下载

计算机编码全解析（上）

你是不是工作了很多年了，一直没搞清楚计算机中的各种编码规则，虽然平时都会使用，但是内部机制原理一直都是之其然而不知其所以然，开发中也会经常涉及到这块内容，但都没有太多重视，这可能会让有吃一些亏（出项目bug了），本着追本溯源的精神或是为了让自己在少出血bug，小余今天就来

发表于 03-30 10:28 •1204次阅读

计算机编码全解析（中）

你是不是工作了很多年了，一直没搞清楚计算机中的各种编码规则，虽然平时都会使用，但是内部机制原理一直都是之其然而不知其所以然，开发中也会经常涉及到这块内容，但都没有太多重视，这可能会让有吃一些亏（出项目bug了），本着追本溯源的精神或是为了让自己在少出血bug

发表于 03-30 10:28 •1158次阅读

搜索历史

计算机编码全解析（下）

7.Unicode、UCS

UTF-8

UTF-16

UTF-32

8.Base64

9.Big5

总结各种字符编码之间的关系

评论

计算机与网络技术基础

在计算机与第三方设备通信时，常用的计算机编码

什么是计算机系统、计算机硬件和计算机软件？

计算机应用

计算机运算速度是指什么

什么是程序？什么是计算机

对计算机三级嵌入式综合题的解析

计算机应用基础教案

计算机应用基础课程

用SD卡设计8086全硅计算机的硬盘

计算机寻址方式解析

从5个方面来解析计算机中的字符编码概念

计算机算术运算实现原理全解

计算机编码全解析（上）

计算机编码全解析（中）