0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook AI发布了一个包含编码问题和代码片段答案的数据集

倩倩 来源:新经网 2020-03-22 16:53 次阅读

Facebook AI发布了一个包含编码问题和代码片段答案的数据集,旨在评估基于AI的自然语言代码搜索系统。该版本还包括Facebook自己的几种代码搜索模型的基准测试结果,以及来自24,000个GitHub存储库的超过400万种Java方法的训练语料库。

在arXiv上发表的一篇论文中,研究人员描述了他们收集数据的技术。训练数据语料库是从最受欢迎的GitHub Android代码存储库中收集的,按星数排序。解析存储库中的每个Java文件,以标识各个方法。Facebook在培训代码搜索系统的研究中使用了所得的语料库。为了创建评估数据集,他们从Stack Overflow 的问答数据转储开始,仅选择同时具有“ Java”和“ Android”的问题研究人员说:“其中,他们只保留答案被投票的问题,这些问题也与训练数据语料库中确定的一种方法相匹配。结果将518个问题手动过滤为最终的287个问题。研究人员表示:

我们的数据集不仅是当前可用于Java的最大数据集,而且还是唯一以自动化(一致)方式针对Stack Overflow的真实答案进行验证的数据集。

Facebook最近发表了几篇关于神经代码搜索的论文,这是一种用于训练神经网络回答“如何”编码问题的机器学习技术。软件开发人员通常会使用Stack Overflow来学习如何解决特定的编码问题,例如,如何解决 Android应用程序中的错误。但是,在处理使用专有API或较不常见的编程语言的代码时,这不是一个选择。在这种情况下,程序员自己的组织之外的专家很少(或没有)。相反,Facebook和其他公司探索了使用源代码本身作为培训数据来产生可以回答编码问题的自然语言处理(NLP)系统的想法。

去年,Facebook发表了一篇关于无监督学习方法的论文,称为神经代码搜索(NCS),该方法接受了从GitHub收集的数据的培训。该技术从源代码中提取单词,并学习将每个单词映射到高维空间中的向量的嵌入。嵌入通常具有向量的性质,向量在向量空间中彼此“接近”,表示具有相似含义的词,并且词之间的关系可用向量算术表示。一个例子是在Wikipedia上训练的word2vec模型,当给定向量表达式“ Paris-France + Spain”时,该模型将返回“ Madrid”。

学习了嵌入之后,使用“ 词袋 ”模型将语料库中的每个Java方法转换为嵌入空间中的向量;通过嵌入将代码中的每个单词转换为向量,并将向量的加权总和分配给该方法作为其索引。这会将每个Java方法映射到嵌入空间中的一个点。为了回答编码问题,通过将查询中的每个单词都通过嵌入转换并产生加权和,可以将该问题类似地映射到嵌入空间中的某个点。问题的“答案”是Java方法,其索引最接近该点。关键思想是查询和代码都使用相同的嵌入,并且训练不需要在输入数据中出现任何问题;它仅从源代码中学习。

这种技术的一个缺点是它不会学习源代码中没有的单词的嵌入。Facebook研究人员发现,在Stack Overflow上,有问题的单词中也只有不到一半的单词包含在源代码中。这促使研究人员通过监督学习扩展了NCS,“以弥合自然语言单词和源代码单词之间的鸿沟”。产生的系统称为嵌入统一(UNIF),学习查询词的单独嵌入。在此培训过程中,团队使用类似于收集基准数据集的过程从Stack Overflow中提取了一组问题标题和代码段。该训练数据集包含451k个问题-答案对,但都不在基准测试中。在基准上进行评估时,对这一数据进行培训的联合国系统的性能略优于NCS。两种系统都以大约三分之一的时间作为最高结果返回“正确”答案,并以一半的时间以“前五项”结果返回“正确”答案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Facebook
    +关注

    关注

    3

    文章

    1429

    浏览量

    54647
  • 代码
    +关注

    关注

    30

    文章

    4747

    浏览量

    68348
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24641
收藏 人收藏

    评论

    相关推荐

    base64编码和解码的使用方法

    Base64编码种基于64可打印字符来表示二进制数据编码方法。它将每3字节的二进制
    的头像 发表于 11-10 10:48 440次阅读

    学习RV32GC对比X86-32指令的优势思考

    : 拥有32通用寄存器(x0~x31),其中x0固定为0,这为编译器和程序员提供更多的寄存器资源。 指令提供三寄存器操作数,而不是像X86-32那样让源操作数和目的操作数共享一个
    发表于 10-31 21:47

    AI大模型的训练数据来源分析

    学术机构、政府组织或企业公开发布,涵盖了各种类型的数据,如图像、文本、音频、视频等。例如: ImageNet :广泛用于图像识别任务的大规模图像
    的头像 发表于 10-23 15:32 365次阅读

    C2000 DCSM ROM代码片段/ROP漏洞

    电子发烧友网站提供《C2000 DCSM ROM代码片段/ROP漏洞.pdf》资料免费下载
    发表于 08-28 09:39 0次下载
    C2000 DCSM ROM<b class='flag-5'>代码</b><b class='flag-5'>片段</b>/ROP漏洞

    AI模拟器

    用户问题数据,然后在数据库中对比,调用Search_HidingHeadVerseFun()回调函数,获取答案数据信息。 总的来说,这段代码
    发表于 08-22 17:28

    哪够?是时候让AI替你打工

    大模型的下一个突破方向是什么?斯坦福大学教授吴恩达的答案AI智能体工作流。在今年4月的次演讲中,吴恩提到多个智能体起工作,分配任务并讨
    的头像 发表于 06-08 08:04 121次阅读
    <b class='flag-5'>一</b><b class='flag-5'>个</b>哪够?是时候让<b class='flag-5'>一</b>群<b class='flag-5'>AI</b>替你打工<b class='flag-5'>了</b>

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 05-28 07:27

    利用神经网络对脑电图(EEG)降噪

    )信号中的眼电图(EOG)噪声。EEGdenoiseNet数据包含4514干净的EEG片段和3400
    发表于 04-30 20:40

    RAG系统中答案无关片段对LLMs生成结果的影响分析

    与常见语义无关的答案无关片段相比,LLMs更容易受到高度语义相关的答案无关片段的影响;
    发表于 04-15 09:49 347次阅读
    RAG系统中<b class='flag-5'>答案</b>无关<b class='flag-5'>片段</b>对LLMs生成结果的影响分析

    【国产FPGA+OMAPL138开发板体验】(原创)5.FPGA的AI加速源代码

    复杂的数据依赖关系等问题。编写FPGA用于AI加速的程序可不是件简单的事,它涉及到硬件描述语言和并行计算的知识。下面我的目标是加速简单
    发表于 02-12 16:18

    语音数据:智能语音技术的基石与挑战

    的发展历程、应用领域及面临的挑战进行探讨。 、语音数据的发展历程 语音数据的发展可以追溯到上世纪50年代,当时贝尔实验室首次公开
    的头像 发表于 12-28 11:28 682次阅读

    语音数据AI语音技术的灵魂

    、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据则是AI语音技术的灵魂。本文将深入探讨语音数据
    的头像 发表于 12-14 14:33 978次阅读

    语音数据:推动AI语音技术的核心力量

    、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据则是推动AI语音技术的核心力量。本文将详细介绍语音
    的头像 发表于 12-12 11:32 675次阅读

    大模型数据:揭秘AI背后的魔法世界

    的魔法世界吧! 二、大模型数据:智慧的宝库 大模型数据就如同一个智慧的宝库,其中包含了世界各
    的头像 发表于 12-07 17:33 531次阅读

    大模型数据:力量的源泉,进步的阶梯

    、引言 在    的繁荣发展中,大模型数据的作用日益凸显。它们如庞大的知识库,为AI提供丰富的信息和理解能力。本文将用
    的头像 发表于 12-07 17:18 640次阅读