Google二进制编解码技术之Protobuf 3-电子发烧友网

字段名称与字段类型

对于任何一个有用的信息都包含这样几部分：

字段名称
字段类型
字段值

就像C/C++中定义变量时：

int i = 100;

在这里，字段名称就是i，字段类型是int，字段值是100。

刚才我们用varint以及ZigZag编码解决了字段值表示的问题，那么该怎样表示字段名称和字段类型呢？

首先，对于字段类型还比较简单，因为字段类型就那么多，protobuf中定义了6种字段类型：

对于6种字段类型我们使用3个比特位来表示就足够了。

接下来比较有趣的是字段名称该怎么表示呢？假设我们需要传递这样一个字段：

int long_long_name = 100;

那么我们真的需要把“long_long_name”这么多字符通过网络传递给对端吗？

既然通信双方需要协议，那么“long_long_name”这字段其实是client和server都知道的，它们唯一不知道的就是“ 哪些值属于哪些字段 ”。

为解决这个问题， 我们给每个字段都进行编号 ，比如通信双方都知道“long_long_name”这个字段的编号是2，那么对于：

int long_long_name = 100;

这个信息我们只需要传递：

字段名称：2 (2对应字段“long_long_name”)
字段类型：0 (0表示varint类型，参见上图)
字段值：100

所以我们可以看到， 无论你用多么复杂的字段名称也不会影响编码后占据的空间，字段名称根本就不会出现在编码后的信息中， so clever。

从宏观上看

我们已经在protobuf中看到了数字以及字段名称以及字段类型是怎么表示了，现在是时候从宏观角度来看看多个字段该怎么编码了。

从本质上讲，protobuf被编码后形成一系列的key-value，每个key-value对应一个proto中的字段。

也就是键值对：

其中value比较简单，也就是字段值；而字段名称和字段类型会被拼接成key，protobuf中共有6种类型，因此只需要3个比特位即可；字段名称只需要存储对应的编号，这样可以就可以这样编码：

(字段编号 << 3) | 字段类型

假设server接收到了一个key为0x08，其二进制的表示为：

0000 1000

由于key也是利用varint编码的，因此需要将第一个比特位去掉，这样我的得到：

000 1000

根据key的编码方式，其后三个比特位表示字段类型，即：

也就是0，这样我们知道该key的类型是Varint(第0号类型)，而字段编号为抹掉后3个比特位的值，即：

这样，我们就知道了该key对应的字段编号为1，得到编号我们就能根据编号找到对应的编号名称。

嵌套数据

与Json和XML类似，protobuf中也支持嵌套消息，就像这样：

message SubMsg {
  optional int32 id = 1;
}
message Msg {
  optional SubMsg msg = 1;
}

其实现也比较简单，这依然遵循被编码后形成一系列的key-value，只不过对于嵌套类型的key来说，其value是由子消息的key-value组成。

protobuf与编译语言

与Json一样，protobuf也是一门语言，兼具了文本的可读性以及二进制的高效。

protobuf之所以能做到这一点就好比C语言与机器指令。

C语言是给程序员看的，可读性好，而机器指令是给硬件使用的，性能好，编译器会将C语言程序转为机器可执行的机器指令。

而protobuf也一样，protobuf也是一门语言，会将可读性较好的消息编码为二进制从而可以在网络中进行传播，而对端也可以将其解码回来。

在这里protobuf中定义的消息就好比C语言，编码后的二进制消息就好比机器指令。

而protobuf作为事实上语言必然有自己的语法，其语法就是这样：

怎么样，还觉得编译原理没什么用吗？

不理解编译原理是不可能发明protobuf这种技术的。

总结

我在写这篇文章时不断感叹，Google的这项技术节省了多少程序员的时间，同时我们也能看到这种基石般的技术依赖的底层原理却非常古老：

信息的编解码
编译原理

怎么样，这些是不是远远没有IT界各种流行的技术听上去时髦有趣，而正是这种朴素的技术支撑起了工业界，现在你也应该能明白底层技术的重要性了吧。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7389

浏览量
87671
Server

Server

+关注

关注
0

文章
90

浏览量
23993
网络编程

网络编程

+关注

关注
0

文章
71

浏览量
10057

探讨2对4二进制解码器及4到16二进制解码器配置

为等效代码。 二进制解码器是另一种类型的数字逻辑设备，根据数据输入线的数量，其输入的2位，3位或4位代码，因此具有一组2位或更多位的解码器将定义为具有n位代码，因此将有可能表示2 n个

发表于 12-29 12:10 •1w次阅读

探讨2对4<b class='flag-5'>二进制</b><b class='flag-5'>解码</b>器及4到16<b class='flag-5'>二进制</b><b class='flag-5'>解码</b>器配置

二进制相对调相(二进制差分调相2DPSK)的工作原理

二进制相对调相(二进制差分调相2DPSK)的工作原理

发表于 10-21 13:01 •3184次阅读

二进制

二进制 　　二进制与十进制的区别在于数码的个数和进位规律有很大的区别，顾名思义，二进制的计数规律为逢二进一，是以２为基数的计数体制。10这

发表于 04-06 23:48 •8159次阅读

二进制编码和二进制数据

二进制编码和二进制数据　　二进制编码是计算机内使用最多的码制，它只使用两个基本符号"0"和"1"，并且通过由这两个符号组成的

发表于 10-13 16:22 •4756次阅读

什么是二进制计数器,二进制计数器原理是什么?

什么是二进制计数器,二进制计数器原理是什么? 计数器是数字系统中用得较多的基本逻辑器件。它不仅能记录输入时钟脉冲的个数，还可以实现

发表于 03-08 13:16 •3.1w次阅读

二进制电平,什么是二进制电平

二进制电平,什么是二进制电平在二进制数字通信系统中，每个码元或每个符号只能是“1”和“0”两个状态之一。若将每个码元可能取的状态增

发表于 03-17 16:51 •2347次阅读

二进制加法程序【汇编版】

二进制加法程序【汇编版】二进制加法程序【汇编版】二进制加法程序【汇编版】二进制加法程序【汇编版】

发表于 12-29 11:02 •0次下载

二进制加法程序【C语言版】

二进制加法程序【C语言版】二进制加法程序【C语言版】二进制加法程序【C语言版】二进制加法程序【C语言版】

发表于 12-29 11:03 •0次下载

3位二进制计数器

基于VHDL的EDA实验---3位二进制计数器

发表于 11-08 17:45 •1次下载

基于软件二进制代码重用技术综述

在当前的计算机系统架构和软件生态环境下，ROP（return-oriented programming）等基于二进制代码重用的攻击技术被广泛用于内存漏洞利用．近年来。网络空间安全形势愈加严峻。学术界

发表于 12-26 15:31 •0次下载

基于软件<b class='flag-5'>二进制</b>代码重用<b class='flag-5'>技术</b>综述

二进制解码器案例说明

二进制解码器是另一种由各个逻辑门构成的组合逻辑电路，与编码器完全相反。

发表于 06-22 09:41 •9236次阅读

<b class='flag-5'>二进制</b><b class='flag-5'>解码</b>器案例说明

二进制解码器到底是什么

二进制解码器是由单独的逻辑门构成的另一种组合逻辑电路，与编码器完全相反。名称“解码器”是指将编码信息从一种格式转换或解码为另一种格式，因此二进制

发表于 01-03 17:42 •6191次阅读

二进制解码器开源设计

电子发烧友网站提供《二进制解码器开源设计.zip》资料免费下载

发表于 06-16 15:01 •0次下载

二进制编码器工作原理如何选择二进制编码器

二进制编码器是一种数字电路，它将输入的二进制代码转换为对应的输出信号。在数字系统中，编码器用于将数据从一种形式转换为另一种形式，以便于处理和传输。 二进制编码器工作原理输入与输出关系：二

发表于 11-06 09:44 •221次阅读

搜索历史

Google二进制编解码技术之Protobuf 3