编程神技来了!谷歌新研究根据已经编辑好的代码预测源代码的 AI-电子发烧友网

预测源代码，听着就是一件非常炫酷的事情。最近，谷歌大脑的研究人员就对此高难度任务发起了挑战，在构建源代码生成模型上实现了新突破！

编程神技来了！

根据已经编辑好的代码预测源代码的AI，对程序员来说是一个非常宝贵的工具。

最近，谷歌大脑团队就对这项难度颇高的任务发起了挑战。

论文地址：

https://arxiv.org/pdf/1904.02818.pdf

改代码是程序员经常要做的事，需求一变，甚至可能要重头再来。然而，编辑模式(edit pattern)是无法仅仅根据要插入/删除的内容或者写好内容后的代码状态来被理解。

它需要根据变化与其所处状态的关系来理解，准确地对代码序列进行建模需要学习旧代码的表示方法，这就允许模型可以概括一种模式且对未来要编写的代码内容进行预测。

举个例子：

有两个历史记录A和B，这两段代码序列在经过2次编辑后，得到了相同状态，即“状态2”。但是在这个过程当中，历史记录A是在向foo函数添加参数，而历史记录B是在从foo函数中删除参数。

这项工作，就是希望根据“状态0”和“编辑 1&2 ”，可以预测接下来“编辑3”的操作内容。

为了达到这个目的，他们首先开发了两种表示方法来捕获意图信息，这些信息将随着代码序列的长度“优雅地”扩展：

显式表示方法：在序列中“实例化”代码内容；

隐式表示方法：用于实例化后续要编写的代码。

然后它们构建了一个机器学习模型，这个模型可以捕获原始代码和预测代码之间的上下文关系。

构建源代码生成模型新突破

近年来，构建源代码的生成模型成为十分受重视的核心任务。

然而，以前的生成模型总是根据生成代码的静态快照(static snapshot)来构建的。而在这项工作中，研究人员将源代码视为一个动态对象(dynamic object)，并处理软件开发人员对源代码文件进行编辑的建模问题。

对编辑序列建模的主要挑战是如何开发良好的表示，既能捕获有关意图的所需信息，又能优雅地对序列的长度进行扩展。

正如上述，这项工作主要考虑编辑的两种表示方法，一是显式表示方法，二是隐式表示方法。

在显式表示方法中，将分层循环指针网络模型视为强大但计算成本较高的基线。在隐式表示方法中，考虑一个vanilla序列到序列模型，以及一个基于注意力的双头模型。这些模型展示了由不同问题公式产生的权衡，并为未来的编辑序列模型提供设计决策。

在精心设计的合成数据和对Python源代码进行细粒度编辑的大型数据集上，研究人员评估了模型的可伸缩性和准确性，以及模型观察以往编辑序列并预测未来编辑内容的能力。

实验表明，双头注意力模型特别适合实现对真实数据的高精度、校准良好的置信度和良好的可扩展性。

总之，这项工作形式化了从编辑序列中学习和预测编辑序列的问题，提供了对模型空间的初步探索，并演示了从开发人员对源代码进行的编辑中学习的实际问题的适用性。

问题定义：如何表示编辑序列数据

隐式和显式数据表示

第一个问题是如何表示编辑序列数据。我们定义了两种具有不同权衡的数据格式。

显式格式 (图 2 (a)) 将编辑序列表示为 2D 网格中 tokens 序列的序列。内部序列对文件中的 tokens 建立索引，外部序列对时间建立索引。任务是消耗前 t 行并预测在时间 t 进行的编辑的位置和内容。

隐式格式 (图 2 (b)) 将初始状态表示为 tokens 序列，将编辑表示为 (position, content) 对的序列。

图 2：将 “BACA” 转换为 “BABBCACC” 的编辑序列的显式表示 (a) 和隐式表示 (b)。

问题描述

显式问题的目标是学习一个模型，该模型使给定的的可能性最大化；隐式问题是学习一个模型，该模型使给定所有 t 的的

基线模型

基线显式模型 (Baseline Explicit Model)

基线显式模型是一个两级长短时记忆 (LSTM) 神经网络，类似于 Serban 等人 (2016) 的分层 RNN 模型。

基线隐式模型 (Baseline Implicit Model)

sequence-to-sequence 框架的自然应用是使用编码器的初始状态 s (0)，并在解码器中生成 (p (t) i, c (t)) 对的序列。编码器是一个标准的 LSTM。解码器不太标准，因为每个动作都是成对的。为了将对作为输入处理，我们将 p (t) i 的嵌入与 c (t) 的嵌入连接起来。为了产生成对的输出，我们先预测位置，然后给出给定位置的内容。

隐式注意力模型

我们开发了一个模型，它对隐式表示进行操作，但是能够更好地捕获编辑内容与编辑上下文之间关系的序列。

该模型深受 Vaswani 等人 (2017) 的启发。在训练时，编辑的完整序列在单个前向传递中被预测。

有一个编码器计算初始状态和所有编辑的隐藏表示，然后有两个 decoder heads：第一个解码每个编辑的位置，第二个解码给定位置的每个编辑的内容。

图 3 (b, c) 对模型的整体结构进行了概述。

图 3：(a) 基线显式模型；(b, c) 隐式注意力模型

实验和结果：模型可以解决几乎所有任务

实验的目的是了解上述模型的能力和局限性，并在实际数据上进行评估。

实验有两个主要因素，一是模型如何准确地学习识别编辑序列中的模式，二是模型如何扩展到大数据。

在第一组实验中，我们在一个简单的环境中研究了这些问题；在第二组实验中，我们根据真实数据进行了评估。

本节中，我们评估了三种方法：显式模型缩写为 E，隐式 RNN 模型缩写为 IR，隐式注意力模型缩写为 IA。

表 1：在合成数据集上的准确性

表 1 报告了产生最佳开发性能的超参数设置和步骤的测试性能。结果表明，显式模型和改进的隐式模型可以解决几乎所有的任务，甚至包括那些涉及元字符和相对较长的替换序列的任务。

图 4：(a)-(c) 在训练期间处理序列所需的时间，跨越不同插入数 (10,50,100) 的 n-gram 问题。(d) 当将预测限制在模型最有信心的上下文中时，实际数据集的 token 级精度。

如图 4 (d) 所示，显式模型始终比隐式模型成本更高，并且随着数据大小的增加，这种差距也会增大。长度为 100 的插入序列比实际数据集中的序列小十倍，但在运行时已经存在一个数量级的差异。注意力模型通常占隐式 RNN 模型的 50% ~ 75% 的时间。

结论和未来研究

在这项工作中，我们提出了从过去的编辑中学习，以预测未来编辑的问题，开发了具有很强泛化能力的编辑序列模型，并证明了该方案对大规模源代码编辑数据的适用性。

我们做了一个不切实际的假设，即快照之间的编辑是按从左到右的顺序执行的。另一种值得探索的方案是，将其视为从弱监督中学习。可以想象这样一个公式，其中快照之间的编辑顺序是一个潜在变量，必须在学习过程中推断出来。

该研究有多种可能的应用。在开发人员工具的背景中，我们特别感兴趣的是调整过去的编辑以做出其他类型的预测。例如，我们还可以设置光标位置的条件，并研究如何使用编辑历史来改进忽略编辑历史的传统自动完成系统。另一个例子是，根据开发人员最近的编辑，预测他们接下来会发出哪些代码搜索查询。一般来说，我们希望预测开发人员接下来要做的事情。我们认为，编辑历史包含了重要的有用信息，在这项工作中提出的公式和模型是学习使用这些信息的良好起点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6171

浏览量
105467
编程

编程

+关注

关注
88

文章
3619

浏览量
93772

原文标题：程序员再也不怕需求改来改去！谷歌大脑新突破：AI预测源代码

文章出处：【微信号：dushekeji，微信公众号：毒舌科技】欢迎添加关注！文章转载请注明出处。

腾讯申请注册“腾讯云AI代码助手”商标

致力于提升编程效率的智能工具。其主要功能包括代码的智能补全和自动生成，旨在帮助开发者更加高效地进行编程工作。这款工具的出现，标志着腾讯在人工智能和云计算领域的技术实力得到了进一步的提升。值得注意的是，腾讯云

发表于 12-13 10:28 •267次阅读

Gmapping源代码

Gmapping源代码.docx

发表于 11-16 13:42 •0次下载

谷歌发布安卓15源代码,为开发者与Pixel用户铺就新路径

9月4日最新消息，谷歌公司已在昨日（9月3日）宣布了一项重要举措，正式将安卓15的源代码推送至安卓开源项目（AOSP），这一动作标志着安卓操作系统的又一次重要更新即将全面展开。谷歌同时透露，符合升级条件的Pixel设备将在接下来

发表于 09-04 15:40 •683次阅读

hex可以转成源代码么

Hex文件可以转换成源代码的近似形式，但无法直接还原为原始的、完全相同的源代码 。这是因为Hex文件是二进制文件，包含了程序编译后的机器码，这些机器码与原始的源代码在结构和表达上存在显著的差异。不过

发表于 09-02 10:41 •1055次阅读

探讨AI编写代码技术，以及提高代码质量的关键：静态代码分析工具Perforce Helix QAC & Klocwork

令软件开发人员夜不能寐的事情比比皆是。如今，他们最关心的问题不再是如何用自己喜欢的语言（C、C++、Erlang、Java 等）表达最新的算法，而是人工智能（AI）。本文中，我们将介绍AI编写代码

发表于 06-05 14:10 •409次阅读

企业如何保护源代码安全？做好源代码防泄密工作

企业源代码作为公司的核心资产，对于很多初创团队和中小型企业来说，具有不可估量的价值。然而，有些团队在投入大量人力、物力和财力进行产品开发的过程中，却发现自己辛苦研发的成果在还未上线之前，市面上已经

发表于 05-22 16:01 •466次阅读

【开源鸿蒙】下载OpenHarmony 4.1 Release源代码

本文介绍了如何下载开源鸿蒙（OpenHarmony）操作系统 4.1 Release版本的源代码，该方法同样可以用于下载OpenHarmony最新开发版本（master分支）或者4.0 Release、3.2 Release等发布版本的源代码。

发表于 04-27 23:16 •944次阅读

【开源鸿蒙】下载OpenHarmony 4.1 Release<b class='flag-5'>源代码</b>

谷歌发布用于辅助编程的代码大模型CodeGemma

谷歌发布了用于辅助编程的代码大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月发布的轻量级开源大模型 Gemma，针对 Gemma 的两个不同参数规模的版本 Gemm

发表于 04-17 16:07 •708次阅读

<b class='flag-5'>谷歌</b>发布用于辅助<b class='flag-5'>编程</b>的<b class='flag-5'>代码</b>大模型CodeGemma

AI代码助手，企业软件工程未来主流工具

AI代码助手不仅能自动生成和完善代码，更是一位高效的协作伙伴，通过激发创新思维和提升代码质量，助力开发者提升效率，进一步提升其技术水平和对各类编程

发表于 04-12 15:58 •429次阅读

阿里云内部全面推行AI写代码

阿里云正在内部全面推行 AI 编程，使用通义灵码辅助程序员写代码、读代码、查 BUG、优化代码等。

发表于 04-07 09:22 •564次阅读

谷歌升级Bard AI聊天机器人为Gemini，新增Python代码编辑功能

　此外，谷歌表示，接下来数个月内，Gemini Advanced 计划会加入更多新功能，如支持更为详尽的上下文信息、增强多模态交互性以及完善编程功能。据谷歌公开更新，付费用户可用 Gemini 界面直接

发表于 02-20 15:47 •599次阅读

数控编程的g功能代码是什么

数控编程中，G代码（也称为指令代码）是一种用于控制数控机床运动、辅助功能和工作过程的指令。在数控编程中，通过一系列的G代码指令的组合和排列，

发表于 02-14 15:51 •4097次阅读

【国产FPGA+OMAPL138开发板体验】（原创）5.FPGA的AI加速源代码

在这里逐行详细解释。不过，我可以写一个以卷积神经网络（CNN）中的卷积层源代码： -- 哟吼，我们正在为FPGA打造一款“智能像素画家”！ entity AI_Accelerator is Port

发表于 02-12 16:18

源代码审计怎么做？有哪些常用工具

源代码审计是一种通过检查源代码来发现潜在的安全漏洞的方法。下面是常用的源代码审计工具： 1、Fortify：通过内置的五大主要分析引擎，对源代码进行静态分析，并与特有的软件安全漏洞规

发表于 01-17 09:35

智能制造行业--客户现场调试源代码如何防泄密

的困难，因为源代码研发员工在工作过程中有一个版本管理服务器，这个不能完全禁止，也不能完全开放。安秉信息源代码防泄密方案在前几期已经详细的介绍过，可以很好的帮助企业做

发表于 01-11 16:27 •515次阅读

搜索历史

编程神技来了!谷歌新研究根据已经编辑好的代码预测源代码的 AI

评论

腾讯申请注册“腾讯云AI代码助手”商标

Gmapping源代码

谷歌发布安卓15源代码,为开发者与Pixel用户铺就新路径

hex可以转成源代码么

探讨AI编写代码技术，以及提高代码质量的关键：静态代码分析工具Perforce Helix QAC & Klocwork

企业如何保护源代码安全？做好源代码防泄密工作

【开源鸿蒙】下载OpenHarmony 4.1 Release源代码

谷歌发布用于辅助编程的代码大模型CodeGemma

AI代码助手，企业软件工程未来主流工具

阿里云内部全面推行AI写代码

谷歌升级Bard AI聊天机器人为Gemini，新增Python代码编辑功能

数控编程的g功能代码是什么

【国产FPGA+OMAPL138开发板体验】（原创）5.FPGA的AI加速源代码

源代码审计怎么做？有哪些常用工具

智能制造行业--客户现场调试源代码如何防泄密