Python 已经成为最流行的编程语言之一,大量 Python 包采用 Python/C 的多语言架构,其中宿主语言 Python 和外部语言 C/C++ 的结合兼具开发效率与性能,被包括 NumPy、Pillow、TensorFlow 和 PyTorch 等在内的诸多主流软件系统所采用。但是 Python 和 C/C++ 之间语言特性的差异也使得基于 Python/C API 的跨语言接口代码容易出错,类型误用就是常见的错误之一。
# Python 程序的静态类型推断
学界和业界都在 Python 的静态类型推断这一问题上做了大量尝试。这些工作可以分为以下三类:
通过扩展语法支持类型标注,并基于类型标注进行类型推断。该方法的弊端在于需要修改源码且影响了 Python 开发的敏捷性。
基于机器学习的方法。一方面该方法的数据集往往来自传统方法的推断结果,另一方面该方法是非确定性的,只能得到概率的结果。
基于数据流分析、抽象解释、SMT 求解等传统程序分析方法。这些工作对外部对象的处理往往采用直接忽略(如视为 object 类型)或预置类型存根(type stubs)等方法,类型推断精度表现不佳或需要人工辅助。
# 研究方法与定义#
# 外部接口
Python 的外部接口 Python/C API 是桥接 Python 和 C/C++ 的中间层。如图 1 所示,外部函数 ext.foo 通过 Python/C API PyMethodDef 映射到 C 实现 _foo,再通过 Python/C API PyModuleDef 关联到模块 ext。在 C 实现内部,Python/C API PyArg_ParseTuple 是一类常见的参数解析方法,它通过格式化串指明由 Python 到 C 的类型转换。Python/C API PyLong_FromLong 是一类常见的返回类型转换,它把一个 C 整型变量转换到 Python 整型变量。
图 1:Python 的 C 扩展模块的一个例子
对于静态类型语言,外部函数在声明时带有显式类型,动态类型语言虽然没有这一信息(如图 1(b)第 2 行),但在接口层仍需给出包含跨语言的类型转换等信息的调用接口描述。我们的核心思路就是建模并分析这些调用接口描述中的隐式信息,推断作用于外部函数的类型约束。
图 2:多语言与类型系统视角下的外部函数调用
图 2 是类型系统视角下的外部函数调用。如果仅仅从单语言视角来看(蓝色虚线),外部函数的参数类型和返回类型都是不可知的(灰色框);但在多语言的视角下(红色实线),结合跨语言接口层得到的调用接口描述,外部函数的类型实际是可推导的。我们把这些隐式信息分成三个部分:
外部函数声明(D)建立 Python 侧外部函数的调用名和 C 侧外部函数实现之间的映射关系。
参数类型转换(P)刻画 Python 侧传入外部函数的实参到 C 变量的类型转换。
返回类型转换(R)刻画 C 侧返回值返回 Python 侧时的类型转换。
# 抽象语法
我们形式化地把 Python/C 多语言软件系统的抽象语法表示为图 3,其中上标 p 和 c 标记不同的语言侧。
图 3:Python/C 多语言系统的抽象语法
不同于本地函数在 Python 侧声明与定义,并在 Python 侧应用,外部函数的应用在 Python 侧,但其声明和定义都在 C 侧。
# 类型
作为动态类型语言,如图 4 所示,Python 侧的类型是 Python 变量在运行时被绑定的类型值,包括 str、int、object 等内置类型;同时我们引入函数类型 pFunc 表示函数,引入积类型 pProduct 表示 list、tuple、dict 等类型,引入和类型 pUnion 支持共用体这一 C 侧常见的语言特性。一些类型如 module、iterator 等不在类型集合中,因为它们在传递给外部函数时会被作为 object 类型对象处理。
图 4:Python 侧类型
Python/C 跨语言接口层的调用接口描述能够给出更严格的类型和值约束。比如图 1 中,Python/C API 函数 PyArg_ParseTuple 的第 2 个参数给出的格式化串 II 中的格式化单元I要求传入对应的外部函数的实参是一个 Python 整型并且非负。我们利用子类型来刻画这类规则。Python 侧类型的子定型规则如图 5 所示。
图 5:Python 侧类型的子定型规则
如图 6 所示,C 侧除了常见的内置类型外,还包括一些在 CPython 解释器内部的、与 Python 侧类型实现相对应的结构体。作为 Python/C API 的一部分,它们也被用于在接口层接收 Python 侧传递并转换的对象。
图 6:C 侧类型
# 类型推断#
在以上核心思路和文法定义的基础上,我们把类型推断规则形式化地表示为如下形式:
外部函数声明(D)、参数类型转换(P)、返回类型转换(R)共同构成推理前提,从而推导出包含在 Python/C 跨语言接口层调用接口描述中的外部函数的类型签名,函数类型的参数类型和返回类型由 D、P、R 的具体组合确定。
# 外部函数声明 D
表示如上,它描述了 Python 侧外部函数调用名和 C 侧实现的映射关系。其中flag给出调用惯例,在 CPython 中典型的如METH_VARARGS,它表示外部函数接收一个或多个 Python 对象作为参数,它们被打包成一个对象并传递到 C 侧,跨语言接口层需要给出把这一打包对象解析到多个 C 变量的规则。
# 参数类型转换 P
表示如上,它刻画了基于程序性质 P 在 C 侧(包含跨语言接口代码)的上下文中描述的 Python 类型到 C 类型的转换。这种隐式信息的分析包含了以下两类常见的规则:
## 调用惯例分析
例如,当调用惯例flag为METH_NOARGS时,外部函数被声明为无参的,表示为如下的无参分析(Parameter-Free Analysis),
假设判断 表示只有当关于程序性质 P 的门限语义谓词 为真时,判断 J 成立。
然而,当对应的 C 实现根本不解析并使用传入的参数时,外部函数实际也是无参的。基于一个未使用形参的分析(Unused Parameter Analysis)可以类似地表示如下,
动态类型语言(Python)和静态类型语言(C/C++)之间类型系统的差异,以及 Python 外部接口的设计导致了这种声明上的冗余,并且留下了声明不一致的隐患。即只有当上述两个门限语义谓词都为真时,才可以确定外部函数是无参的,用合取范式表示如下:
## 参数解析分析
当上述两个门限语义谓词都为假时,外部函数至少接收一个 Python 对象。如上所述,这些 Python 侧对象被打包为跨语言接口层的一个中间参数,该参数被解析并恢复到若干个 C 变量。最常见的,这一跨语言的类型转换是由参数解析族 Python/C API 完成。这些 Python/C API 用一个格式化串指明转换规则,一个格式化串包含零或多个格式化单元,每个格式化单元(特殊含义字符除外)对应一个 Python 类型到 C 类型的转换,表示如下:
其中 是某个参数解析族的 Python/C API(常见的如 PyArg_ParseTuple), 是其第 i 个格式化单元。例如,格式化单元 对应 Python 非负整型到 C 无符号 int 类型的转换, ,完整的格式化单元转换规则表见论文表 1。
# 返回类型转换 R
表示如上,它刻画了基于程序性质 P 在 C 侧(包含跨语言接口)的上下文中描述的 C 类型到 Python 类型的转换。作为 Python 的一部分,其外部函数也支持多返回(multiple returns)的语言特性,而 C 本身是不支持的。这部分隐式信息的分析包含四类常见的规则。
##值构建分析
同样基于格式化串,但是方向与参数类型转换的参数解析分析相反,即:
是某个值构建族的 Python/C API(常见的如 Py_BuildValue), 是其第 j 个格式化单元,m 个 C 变量根据对应的格式化单元转换到 Python 对象并共同构成一个 tuple 对象作为多返回的值。
## 显性转换分析
一些 Python/C API 支持直接以单一对象作为外部函数的返回。
显式转换的 Python/C API 形如:(1)PyPT_FromCT 把一个 CT 类型的 C 变量转换到一个 PT 类型的 Python 变量,(2)PyPT_New 创建并返回一个 PT 类型的 Python 变量,(3)Py_PT 本身直接作为一个 PT 类型的对象被返回到 Python 侧。
## 类型转换(type cast)分析
C 程序支持作为右结合算子的显式类型转换,对于一个形如 的返回表达式,可以推断:
作为外部函数的 C 实现向 Python 侧的返回,C 类型 是与 Python 内置类型一一对应的结构体(图 6 中 Py 开头的 C 类型)。
## 可达定义分析
考虑如下图所示的更复杂的返回情形,
图 7:一个复杂的返回类型转换的例子
变量 result 被声明为 T1 类型(一般为 PyObject*),其可能通过调用前述的一些 Python/C API 被赋值为更精化的类型(T2,T3)。我们通过一个过程内的可达定义分析 来分析这样的类型传播。 内部会调用前面三类的返回类型转换分析。基于可达定义分析的返回类型转换表示如下:
# 小结
对于类型推断(TInfer)的三个前提,外部函数声明(D)只有一种形式,参数类型转换(P)包含形式(Pcc)和(Pap),返回类型转换(R)包含形式(Rvb),(Rec),(Rtc)和(Rrd)。这样,对于使用参数解析分析进行参数类型转换、使用值构建分析进行返回类型转换的一个外部函数典型模式,其类型推断规则如下:
类似地,带有显式返回的无参外部函数可以推断如下:
# 实验结果#
我们的静态类型推断系统 PyCType 的原型结构如图 8 所示。
图 8:PyCType 架构概览
接口分离器从 Python/C 多语言项目中分离出跨语言接口代码。预处理配置器配置解析文件所需的依赖。AST 解析器基于 Python 实现的 C99 解析器 pycparser。在得到接口代码的 AST 后,多数分析基于访问 AST 实现,当某个分析需要其他中间表示如 CFG 时,AST 变换模块对对应的 AST 片段进行变换。其他主要处理模块(圆角矩形)与前文对应。
# 外部函数声明与其实现不一致的漏洞
如调用惯例分析小节所述,同一个外部函数其无参分析(PFA)和未使用参数分析(UPA)可能不能同时成立,这会导致一个无参外部函数可以接受任意类型的参数。
# 可靠性
类型推断的可靠性是构建以上严格的推理系统的主要目的之一,即类型推断的结果没有错误(但可能不够精确,如把 int 推断为 object)。我们通过人工检查验证了该静态类型推断系统的可靠性。同时漏洞发现也是没有误报的,所有错误都可以构造出对应的触发代码。(这里的可靠性是对类型推断而言的。在漏洞检查的研究中,可靠一般指没有漏报。如果将一致性漏洞检查作为一个独立的系统,其应表示为类型推断系统调用惯例分析的谓词条件的否定命题。)
# 完备性
在可靠的基础上,完备性成为衡量类型推断系统有效性的一个重要指标,即推断率。如表 1 所示是 CPython、NumPy 和 Pillow 中外部函数的参数类型的推断率。可以看到,对于参数类型转换,规则(Pcc)和(Pap)能够覆盖大多数的情形。同时在规则中描述更多符合条件的 Python/C API 并不困难。
表 1:参数类型推断的完备性
一方面,参数个数往往多于返回值,一方面,外部函数调用作为 Python 程序的一部分,其返回值可能是其他(外部或本地)函数的参数。因此,整个系统的有效性需要和已有的单语言的类型推断工具结合起来进行评估。
# 有效性
由于可靠并不等于精确,因此我们选择上表中推断率最高的 Pillow 来构建类型增强实验以进一步衡量有效性。来自 Google 的 Pytype 是 state-of-the-art 的 Python 静态类型推断工具,其不支持外部函数的自动推断,而是通过类型存根预置了一些外部函数的类型签名,如常见的标准库函数。我们把对 Pillow 中外部函数类型推断的结果编码成 Pytype 的类型存根,然后比较这一类型增强前后的推断率。实验目标我们选择 GitHub 中使用了 Pillow 且星标多于 3 万的 Python 仓库,实验结果如表 2 所示,可以看到,PyCType 对 Pytype 有 7% 到 80% 的提升(平均 27.5%)。
表 2:类型推断增强实验
# 总结#
我们提出了 Python 外部函数的静态类型推断系统 PyCType。其类型推断规则包括三部分可组合的推理前提,分别建模和分析 Python/C 跨语言接口层中类型转换相关的隐式信息。在主流软件系统上的实验表明,PyCType 能够可靠地推断多数外部函数的类型签名。其作为单语言 Python 静态类型推断工具的增强,使其能够推断含有外部函数调用的程序。同时能够检查使得无参外部函数可以接受任意类型参数的声明不一致的漏洞,部分发现漏洞已被确认和修复。
审核编辑:刘清
-
smt
+关注
关注
42文章
3008浏览量
71112 -
机器学习
+关注
关注
66文章
8482浏览量
133951 -
python
+关注
关注
56文章
4822浏览量
86004
原文标题:技术干货 | Python 的 C 外部函数的静态类型推断
文章出处:【微信号:编程语言Lab,微信公众号:编程语言Lab】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
Xilinx是否具有用于推断RAM的算法类型和原语类型?
python静态方法与类方法
Python函数使用基础教程
python静态方法与类方法
python函数返回多个参数
python中各种函数的用法
不属于python的内置函数

TwinCAT3 EtherCAT抓包 | 技术集结
在使用TwinCAT测试EtherCATEOE功能时,我们会发现正常是无法使用Wireshark去进行网络抓包抓取EtherCAT报文的,今天这篇文章就带大家来上手EtherCAT抓包方式。准备环境硬件环境:EtherKit开发板网线一根Type-CUSB线一根软件环境TwinCAT3RT-ThreadstudiowiresharkEtherCATEOE工程

EtherCAT科普系列(8):EtherCAT技术在机器视觉领域的应用
机器视觉是基于软件与硬件的组合,通过光学装置和非接触式的传感器自动地接受一个真实物体的图像,并利用软件算法处理图像以获得所需信息或用于控制机器人运动的装置。机器视觉可以赋予机器人及自动化设备获取外界信息并认知处理的能力。机器视觉系统内包含光学成像系统,可以作为自动化设备的视觉器官实现信息的输入,并借助视觉控制器代替人脑实现信息的处理与输出。从而实现赋予自动化

新品 | 26+6TOPS强悍算力!飞凌嵌入式FCU3501嵌入式控制单元发布
飞凌嵌入式FCU3501嵌入式控制单元基于瑞芯微RK3588处理器开发设计,4xCortex-A76+4xCortex-A55架构,A76主频高达2.4GHz,A55核主频高达1.8GHz,支持8K编解码,NPU算力6TOPS,支持算力卡拓展,可以插装Hailo-8 26TOPS M.2算力卡。

接口核心板必选 | 视美泰AIoT-3568SC 、 AIoT-3576SC:小身材大能量,轻松应对多场景设备扩展需求!
在智能硬件领域,「适配」是绕不开的关键词。无论是小屏设备的”寸土寸金”,还是模具开发的巨额成本,亦或是多产品线兼容的复杂需求,开发者总在寻找一款能「以不变应万变」的核心解决方案。视美泰旗下的AIoT-3568SC与AIoT-3576SC接口核心板系列,可以说是专为高灵活适配场景而生!无需为设备尺寸、模具限制或产品线差异妥协,一块核心板,即可释放无限可能。为什

3核A7+单核M0多核异构,米尔全新低功耗RK3506核心板发布
近日,米尔电子发布MYC-YR3506核心板和开发板,基于国产新一代入门级工业处理器瑞芯微RK3506,这款芯片采用三核Cortex-A7+单核Cortex-M0多核异构设计,不仅拥有丰富的工业接口、低功耗设计,还具备低延时和高实时性的特点。核心板提供RK3506B/RK3506J、商业级/工业级、512MB/256MBLPDDR3L、8GBeMMC/256

搭建树莓派网络监控系统:顶级工具与技术终极指南!
树莓派网络监控系统是一种经济高效且功能多样的解决方案,可用于监控网络性能、流量及整体运行状况。借助树莓派,我们可以搭建一个网络监控系统,实时洞察网络活动,从而帮助识别问题、优化性能并确保网络安全。安装树莓派网络监控系统有诸多益处。树莓派具备以太网接口,还内置了Wi-Fi功能,拥有足够的计算能力和内存,能够在Linux或Windows系统上运行。因此,那些为L

STM32驱动SD NAND(贴片式SD卡)全测试:GSR手环生物数据存储的擦写寿命与速度实测
在智能皮电手环及数据存储技术不断迭代的当下,主控 MCU STM32H750 与存储 SD NAND MKDV4GIL-AST 的强强联合,正引领行业进入全新发展阶段。二者凭借低功耗、高速读写与卓越稳定性的深度融合,以及高容量低成本的突出优势,成为大规模生产场景下极具竞争力的数据存储解决方案。

芯对话 | CBM16AD125Q这款ADC如何让我的性能翻倍?
综述在当今数字化时代,模数转换器(ADC)作为连接模拟世界与数字系统的关键桥梁,其技术发展对众多行业有着深远影响。从通信领域追求更高的数据传输速率与质量,到医疗影像领域渴望更精准的疾病诊断,再到工业控制领域需要适应复杂恶劣环境的稳定信号处理,ADC的性能提升成为推动这些行业进步的重要因素。行业现状分析在通信行业,5G乃至未来6G的发展,对基站信号处理提出了极

史上最全面解析:开关电源各功能电路
01开关电源的电路组成开关电源的主要电路是由输入电磁干扰滤波器(EMI)、整流滤波电路、功率变换电路、PWM控制器电路、输出整流滤波电路组成。辅助电路有输入过欠压保护电路、输出过欠压保护电路、输出过流保护电路、输出短路保护电路等。开关电源的电路组成方框图如下:02输入电路的原理及常见电路1AC输入整流滤波电路原理①防雷电路:当有雷击,产生高压经电网导入电源时

有几种电平转换电路,适用于不同的场景
一.起因一般在消费电路的元器件之间,不同的器件IO的电压是不同的,常规的有5V,3.3V,1.8V等。当器件的IO电压一样的时候,比如都是5V,都是3.3V,那么其之间可以直接通讯,比如拉中断,I2Cdata/clk脚双方直接通讯等。当器件的IO电压不一样的时候,就需要进行电平转换,不然无法实现高低电平的变化。二.电平转换电路常见的有几种电平转换电路,适用于

瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程
对于不习惯用 e2 studio 进行开发的同学,可以借助 RASC 生成 Keil 工程,然后在 Keil 环境下愉快的完成开发任务。

共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕
作为第二十七届北京科博会的参展方,芯佰微有幸与800余家全球科技同仁共赴「科技引领创享未来」之约!文章来源:北京贸促5月11日下午,第二十七届中国北京国际科技产业博览会圆满落幕。本届北京科博会主题为“科技引领创享未来”,由北京市人民政府主办,北京市贸促会,北京市科委、中关村管委会,北京市经济和信息化局,北京市知识产权局和北辰集团共同承办。5万平方米的展览云集

道生物联与巍泰技术联合发布 RTK 无线定位系统:TurMass™ 技术与厘米级高精度定位的深度融合
道生物联与巍泰技术联合推出全新一代 RTK 无线定位系统——WTS-100(V3.0 RTK)。该系统以巍泰技术自主研发的 RTK(实时动态载波相位差分)高精度定位技术为核心,深度融合道生物联国产新兴窄带高并发 TurMass™ 无线通信技术,为室外大规模定位场景提供厘米级高精度、广覆盖、高并发、低功耗、低成本的一站式解决方案,助力行业智能化升级。

智能家居中的清凉“智”选,310V无刷吊扇驱动方案--其利天下
炎炎夏日,如何营造出清凉、舒适且节能的室内环境成为了大众关注的焦点。吊扇作为一种经典的家用电器,以其大风量、长寿命、低能耗等优势,依然是众多家庭的首选。而随着智能控制技术与无刷电机技术的不断进步,吊扇正朝着智能化、高效化、低噪化的方向发展。那么接下来小编将结合目前市面上的指标,详细为大家讲解其利天下有限公司推出的无刷吊扇驱动方案。▲其利天下无刷吊扇驱动方案一

电源入口处防反接电路-汽车电子硬件电路设计
一、为什么要设计防反接电路电源入口处接线及线束制作一般人为操作,有正极和负极接反的可能性,可能会损坏电源和负载电路;汽车电子产品电性能测试标准ISO16750-2的4.7节包含了电压极性反接测试,汽车电子产品须通过该项测试。二、防反接电路设计1.基础版:二极管串联二极管是最简单的防反接电路,因为电源有电源路径(即正极)和返回路径(即负极,GND),那么用二极
评论