0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT到底有多会修bug?

CVer 来源:量子位 金磊 衡宇 作者:量子位 金磊 衡宇 2023-02-06 10:36 次阅读

ChatGPT到底有多会修bug?

这事终于有人正儿八经地搞研究了——

来自德国、英国的研究人员,专门搭了个“擂台”来检验ChatGPT的这项本领。

f6c6337e-a56f-11ed-bfe3-dac502259ad0.png

除了ChatGPT之外,研究人员还找来了其它三位修bug的“AI猛将”,分别让它们修复40个错误代码。

结果真是不比不知道,一比吓一跳。

ChatGPT准确修复了其中31个bug,遥遥领先第二名(21个),直接拿下“AI修bug界”的SOTA成绩!

于是乎,这项研究引来了众多网友的围观和讨论,Reddit上发布此帖的标题更是用上了“小心”、“注意”这样的字眼:

f706a0da-a56f-11ed-bfe3-dac502259ad0.png

但事实上,这真的会让程序员“危”吗?

我们不妨先来看下这项研究。

很会修bug的ChatGPT

虽然ChatGPT并非是为了专门修改bug而生,但自打它问世以来,不少网友们都发现它是具备这项能力的。

因此研究人员为了摸清ChatGPT到底能修改bug到什么程度,便引入了标准的错误修复基准集QuixBugs来进行评估。

以及与它同台竞技的AI选手,分别是CodeX、CoCoNut和Standard APR。

研究人员从QuixBugs中挑了40个问题,分别让它们来修复bug。

让ChatGPT来修bug的方法,就是在对话框里向它提问:

这个代码有什么错误吗?

在第一轮较量过后,结果如下:

f715754c-a56f-11ed-bfe3-dac502259ad0.jpg

从第一轮battle结果来看,ChatGPT修复了19个,CodeX修复了21个,CoCoNut修复了19个,Standard APR则是7个。

而且研究人员还发现,ChatGPT的答案与CodeX最为相似;这是因为它俩是来自同一个语言模型家族。

这时候就会有小伙伴要问了,“ChatGPT不是还没有CodeX厉害吗”。

别急,不要忘了,ChatGPT的一个特点就是越问越“上道”。

例如在这个基准集中,有一个叫bitcount的问题,ChatGPT在刚才第一轮修复过程中是给了错误的答案:

f7339bf8-a56f-11ed-bfe3-dac502259ad0.png

原本ChatGPT应该将第7行的 n ^ = n - 1 改为 n & = n - 1。

但在第一轮中它的回答是:

如果没有更多关于预期行为和导致问题的输入信息,我无法判断程序是否存在错误。

于是在给予它更多信息之后,ChatGPT便答对了这个问题。

以此类推,在对第一轮没答对的问题进行更多信息提示之后,ChatGPT的修bug能力有了大幅提高:

f744f560-a56f-11ed-bfe3-dac502259ad0.png

最终,ChatGPT在QuixBugs的40个问题里答对了31个。

网友忧喜参半

对于这样的实验结果,网友们对ChatGPT修bug拿下SOTA这事产生的态度却不太一样。

有网友认为这事不应该让程序员感到危机,而是会让他们觉得开心才对。

言外之意,便是程序员们有了这么好用的工具,干活儿就会变得事半功倍。

f7550734-a56f-11ed-bfe3-dac502259ad0.png

不过也有人对此给出了不一样的看法:

工作变得简单,不也就意味着需要的人力更少了吗?

f7744ef0-a56f-11ed-bfe3-dac502259ad0.png

但还网友觉得,活儿是干不完的:

即使AI能把开发时间缩短一个数量级,也只是意味着程序员将更快处理下一个工作。

f782386c-a56f-11ed-bfe3-dac502259ad0.png

整体来看,ChatGPT很会修bug,并不会给程序员带来什么致命伤害。

但若是把目光放到OpenAI其他的行动中呢?

全球招外包训练ChatGPT写代码

在此之前,OpenAI就表示过ChatGPT的重要用途之一是帮助程序员检查代码。

换言之,它被定位可用的辅助工具。

相比“ChatGPT带来威胁”的看法,等ChatGPT能力彻底进化,程序员都不用再怕写bug了。

OpenAI布局的棋盘上,可不只有改bug偷塔程序员岗位这一件事。

为了让它更大更强,OpenAI被曝在拉美和东欧等地区,提供了1000个外包岗位。

外包员工的主要工作是标注数据,以及训练ChatGPT写代码

这1000人中,40%是程序员,他们为OpenAI的模型创建数据,用来学习软件工程任务。

一直以来,OpenAI的训练数据是从GitHub上抓取的。

现在外包程序员们新手搓的数据集,不仅包括代码行,还包括代码行背后的人类思考逻辑步骤。

有位南美的软件开发人员爆料,他为OpenAI完成了五小时的无偿编码测试。

整个过程中,他的任务分为两部分。

用书面英语解释如何处理一个编码问题;

提供解决方案。

如果发现bug,OpenAI会向他详细询问bug的具体情况,并请教如何修正。

程序员需要展示思考问题的每个步骤,他据此猜测OpenAI很可能想为ChatGPT提供非常具体的训练数据。

特斯拉前AI主管Andrej Karpathy在推特上调侃:

最新的热门编程语言是英语。

f79fd85e-a56f-11ed-bfe3-dac502259ad0.png

不过话说回来,ChatGPT修bug能力强是好事,要真能搞进化到可以完成代码里死记硬背的部分,也是好事。

毕竟OpenAI成立时对外宣称的宗旨,就是希望“确保通用人工智能可以造福全人类”。

虽然乍一看它这些年做的事,有点像在致力于用一部分人的努力,让更多人失业。

从Dota2赛场上碾压人类,到GPT-3、DALL-E2、ChatGPT的闪耀表现,它带来的新产品总是伴随着“快要让xxx失业了”的议论声。

但无论如何,商业却一直对它青睐有加。

就目前而言,OpenAI的主要商业模式是API费用、token费用和软件许可。

OpenAI近期还发布了ChatGPT的付费版ChatGPT Pro,每月费用42美元(约合285元人民币)。

f7d232a4-a56f-11ed-bfe3-dac502259ad0.png

虽然机器人对话初创公司如雨后春笋般冒出,但诸多迹象表明市场对OpenAI的持续看好。

微软刚刚宣布将向OpenAI加码投资数十亿美元,并将OpenAI的模型融入微软必应等消费级和企业级产品中。

根据知情人士透露,此次追加投资数额约为100亿美元。

与此同时,WSJ披露的消息显示,1月初,亿万富翁Peter Thiel创立的风投基金Founders Fund正在就投资OpenAI进行谈判。

据悉,融资金额将至少达3亿美元。

One More Thing

在第一轮实验中,ChatGPT并没有解决QuixBugs数据集的bitcount问题。

但若是你现在再重头问一次这个问题,就会发现ChatGPT可以“一遍过”:

f7f63b2c-a56f-11ed-bfe3-dac502259ad0.png

那么这是否意味着ChatGPT已经从这次研究过程中学会求解了呢?

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268362
  • 代码
    +关注

    关注

    30

    文章

    4742

    浏览量

    68330
  • 语言模型
    +关注

    关注

    0

    文章

    504

    浏览量

    10244
  • BUG
    BUG
    +关注

    关注

    0

    文章

    155

    浏览量

    15649
  • ChatGPT
    +关注

    关注

    29

    文章

    1548

    浏览量

    7477

原文标题:ChatGPT修bug横扫全场!准确率达78%!网友:程序员要开心了

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    5G到底有什么作用?

    国内三大运营商的4G建设正在火热的进行中,前几天报道5G的先期技术规划已经开始,华为等公司已经开始投入开发工作。作为一种典型的延续性技术,5G的到来看来是不可避免的,但是其到底有什么作用呢?
    发表于 08-16 06:49

    Linux与Unix到底有什么不同

    Linux 与 Unix 到底有什么不同?
    发表于 05-08 14:36

    让CPU告诉你硬盘和网络到底有多慢

    硬盘和网络到底有多慢看了就知道
    发表于 02-22 06:30

    反码位是什么?到底有什么用?

    反码位是什么?到底有什么用?
    发表于 05-07 07:16

    请问车规级芯片到底有哪些要求?

    请问车规级芯片到底有哪些要求?
    发表于 06-18 07:56

    ARM与单片机到底有啥区别?

    ARM与单片机到底有啥区别?
    发表于 11-05 07:29

    模拟看门狗到底有什么用处呢

    到底什么是模拟看门狗呢?模拟看门狗到底有什么用处呢?
    发表于 01-17 07:33

    ARM和DSP到底有什么区别?

    现在在学ARM,想知道ARM和DSP到底有什么区别?为什么有些地方用DSP有些用ARM
    发表于 10-19 07:20

    PCB板颜色到底有什么讲究

    冷知识:PCB板颜色到底有哪些讲究?
    的头像 发表于 08-19 17:15 1.8w次阅读

    工业互联网, 你到底有啥用?

    工业互联网,你到底有啥用?
    的头像 发表于 03-01 12:32 3369次阅读
    工业互联网, 你<b class='flag-5'>到底有</b>啥用?

    电源管理总线 (PMBus)—到底有什么价值?

    电源管理总线 (PMBus)—到底有什么价值?
    发表于 11-04 09:51 8次下载
    电源管理总线 (PMBus)—<b class='flag-5'>到底有</b>什么价值?

    智能家居或楼宇的“智商”到底有多高?

    智能家居或楼宇的“智商”到底有多高?
    发表于 11-04 09:51 4次下载
    智能家居或楼宇的“智商”<b class='flag-5'>到底有</b>多高?

    FPC与传统PCB到底有什么区别.zip

    FPC与传统PCB到底有什么区别
    发表于 03-01 15:37 4次下载

    COB与SMD到底有什么不同

    如今在应用领域,COB和SMD两种技术正在“平分春色”,但在微小间距LED领域,COB正在成为各大厂商都在争相研发的行业主流技术。那么COB与SMD到底有什么不同呢?
    的头像 发表于 11-02 09:37 2473次阅读
    COB与SMD<b class='flag-5'>到底有</b>什么不同

    RTOS与Linux到底有什么区别

    很多做嵌入式开发的小伙伴都存在这样的疑惑:RTOS与Linux到底有什么区别?
    的头像 发表于 10-29 09:53 319次阅读