0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型

OpenCV学堂 来源:新智元 2023-06-06 15:19 次阅读

【导读】研究人员设计了一系列的测试,目的是防止大模型伪装成为人类。

一个「终极丐版」的「图灵测试」,让所有大语言模型都难住了。

人类却可以毫不费力地通过测试。

大写字母测试

研究人员用了一个非常简单的办法。

把真正的问题混到一些杂乱无章的大写字母写成的单词中提给大语言模型。

大语言模型没有办法有效地识别提出的真正问题。

而人类能轻易地把「大写字母」单词剔除问题,识别出藏在混乱的大写字母中的真正问题,做出回答,从而通过测试。

图中的问题本身非常简单:is water wet or dry?

15d6a458-042d-11ee-90ce-dac502259ad0.png

人类直接回答一个wet就完事了。

而ChatGPT却没有办法剔除那些大写字母的干扰来回答问题。

于是就把很多没有意义的单词也混入了问题中,使得回答也非常冗长且没有意义。

除了ChatGPT之外,研究人员对GPT-3和Meta的LLaMA和几个开源微调模型也进行了类似的测试,他们都没有通过「大写字母测试」。

测试背后的原理其实很简单:人工智能算法通常以不区分大小写的方式处理文本数据。

所以,当一个大写字母意外地放在一个句子中时,它会导致混乱。

AI 不知道是将其视为专有名词、错误,还是干脆忽略它。

利用这一点,就能很容易地将我们正在交谈的对象中真人和聊天机器人区分出来。

如何更加科学地把AI揪出来?

为了应对未来可能大量出现的利用聊天机器人进行的诈骗等严重的不法活动。

除了上边提到的大写字母测试,研究人员们尝试找到一个在网络环境中更加高效地区分人类和聊天机器人的方法。

15fd1aac-042d-11ee-90ce-dac502259ad0.png



论文:https://arxiv.org/pdf/2305.06424.pdf

研究者针对大语言模型的弱点重点设计。

为了让大语言模型没法通过测试,抓住AI的「七寸」一顿爆锤。

锤出了以下几个测试方法。

1608e972-042d-11ee-90ce-dac502259ad0.png

只要是大模型不擅长回答的问题,就疯狂针对。

计数

首先是计数,知道大模型数数不行。

1619e4a2-042d-11ee-90ce-dac502259ad0.png

果然3个字母都能数错。

文字替换

然后是文字替换,几个字母相互替换,让大模型拼出一个新的单词。

AI纠结了半天,输出的结果还是错的。

16268dd8-042d-11ee-90ce-dac502259ad0.png

位置替换

这也不是ChatGPT的强项。

对于小学生都能准确完成的字母筛选聊天机器人也没法完成。

162ead4c-042d-11ee-90ce-dac502259ad0.png

问题:请输出第二「S」之后的第4个字母,正确答案为「c」

随机编辑

对于人类来说完成几乎不费任何力气,AI依然无法通过。

1636ef0c-042d-11ee-90ce-dac502259ad0.png

噪音植入

这也就是我们开头提到的「大写字母测试」了。

通过在问题中添加各种噪音(比如无关的大写字母单词),聊天机器人没有办法准确的识别问题,于是就无法通过测试。

164364f8-042d-11ee-90ce-dac502259ad0.png

16562ed0-042d-11ee-90ce-dac502259ad0.png

而对于人类来说,要在这些杂乱的大写字母中看出真正的问题,难度实在是不值一提。

符号文字

又是一项对于人类来说几乎没有任何挑战的任务。

16617c86-042d-11ee-90ce-dac502259ad0.png

但是对于聊天机器人来说,想要能够理解这些符号文字,不进行大量的专门训练应该是很难的。

由研究人员专门针对大语言模型设计的一系列「不可能完成的任务」之后。

为了区分人类,他们也设计了两个对于大语言模型比较简单,而对于人很难的任务。

记忆和计算

通过提前的训练,大语言模型在这两个方面都有比较良好的表现。

而人类由于受限制于不能使用各种辅助设备,基本对于大量的记忆和4位数的计算都没有做出有效的回答。

人类VS大语言模型

研究人员针对GPT3,ChatGPT,以及另外三个开源的大模型:LLaMA,Alpaca,Vicuna进行了这个「人类区别测试」

可以从结果上很明显地看出来,大模型没有成功混入人类之中。

研究团队将问题开源在了https://github.com/hongwang600/FLAIR

166e7832-042d-11ee-90ce-dac502259ad0.png

表现最好的ChatGPT也仅仅在位置替换测试中有不到25%的通过率。

而其他的大语言模型,在这些专门针对他们设计的测试中,表现都非常糟糕。

完全不可能通过测试。

而对于人类来说却非常简单,几乎100%通过。

而对于人类不擅长的问题,人类也几乎是全军覆没,一败涂地。

AI却能明显胜任。

看来研究者对于测试设计确实是非常用心了。

「不放过任何一个AI,却也不冤枉任何一个人类」

这区分度杠杠的!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30665

    浏览量

    268827
  • 大模型
    +关注

    关注

    2

    文章

    2410

    浏览量

    2622

原文标题:一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    小鹏汽车:未来AI汽车将搭载至少3颗图灵芯片

    近日,在2024小鹏AI科技日上,小鹏汽车宣布了其自主研发的图灵AI芯片取得了重要进展。这款芯片拥有40核处理器,能够本地运行高达30B参数的大模型,并集成了2
    的头像 发表于 11-12 18:05 494次阅读

    小鹏汽车2024 AI科技日:图灵AI芯片进展公布,预计AI汽车市场将迎来巨变

    在11月6日下午的2024小鹏AI科技日上,小鹏汽车揭晓了其图灵AI芯片的最新研发成果。小鹏汽车强调,这款图灵芯片是专为AI应用而生,配备了
    的头像 发表于 11-07 14:56 834次阅读

    小鹏汽车发布自主研发的“图灵AI智能驾驶辅助系统

    近日,小鹏汽车正式揭晓了其自主研发的“图灵AI智能驾驶辅助系统,这创新成果标志着小鹏汽车在智能驾驶技术领域的又重大突破。 “图灵”系统
    的头像 发表于 11-07 10:55 611次阅读

    AI模型与深度学习的关系

    AI模型与深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 、深度学习是AI模型的基础 技术支撑 :
    的头像 发表于 10-23 15:25 612次阅读

    如何评估AI模型的效果

    评估AI模型的效果是复杂且多维度的过程,涉及多个方面的考量。以下是些关键的评估方法和步骤:
    的头像 发表于 10-23 15:21 742次阅读

    图灵测试的内容是什么_图灵测试的作用

    图灵测试(Turing Test)是由英国数学家和计算机科学家艾伦·麦席森·图灵(Alan Turing)在1950年提出的测试方法,用
    的头像 发表于 09-16 16:11 1722次阅读

    图灵测试什么意思_图灵测试是干嘛的

    图灵测试是由英国数学家、密码专家和数字计算机的奠基人艾伦·麦席森·图灵提出的种检验某个对象(通常是机器或人工智能系统)是否具有智能的测试
    的头像 发表于 09-16 16:09 1308次阅读

    IBM助力图灵新智算构建全能AI平台

    近日,图灵新智算(广州)科技有限公司(以下简称为“图灵新智算”)宣布采用 IBM 新AI 与数据平台 watsonx 的三大功能组件 watsonx.data、watsonx.
    的头像 发表于 08-02 14:53 557次阅读

    ai模型和传统ai的区别在哪?

    的BERT模型使用了33亿参数,而传统AI模型通常只有几千到几百万参数。 模型复杂度
    的头像 发表于 07-16 10:06 1309次阅读

    摩尔线程与智谱AI完成大模型性能测试与适配

    近日,摩尔线程与智谱AI在人工智能领域开展了轮深入的合作,共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大
    的头像 发表于 06-14 16:40 1062次阅读

    摩尔线程与师者AI携手完成70亿参数教育AI模型训练测试

    近日,国内知名的GPU制造商摩尔线程与全学科教育AI模型“师者AI”联合宣布,双方已成功完成了项重要的大模型训练
    的头像 发表于 06-14 16:31 565次阅读

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在训练只聪明的AI小动物解决实际问题,通过构建神经网络模型并进行推理,让电脑也能像人样根据输入信息做出决策。 在上述示例中,我创建了
    发表于 03-19 11:18

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    图灵模型的组成部分及作用

    图灵机是图灵提出的种抽象的计算模型,被认为是计算机科学的基础。在图灵模型中,包含了以下几个组
    的头像 发表于 12-20 17:23 3634次阅读