一个问题区分人类和AI！「丐版」图灵测试，难住所有大模型-电子发烧友网

【导读】研究人员设计了一系列的测试，目的是防止大模型伪装成为人类。

一个「终极丐版」的「图灵测试」，让所有大语言模型都难住了。

人类却可以毫不费力地通过测试。

大写字母测试

研究人员用了一个非常简单的办法。

把真正的问题混到一些杂乱无章的大写字母写成的单词中提给大语言模型。

大语言模型没有办法有效地识别提出的真正问题。

而人类能轻易地把「大写字母」单词剔除问题，识别出藏在混乱的大写字母中的真正问题，做出回答，从而通过测试。

图中的问题本身非常简单：is water wet or dry？

人类直接回答一个wet就完事了。

而ChatGPT却没有办法剔除那些大写字母的干扰来回答问题。

于是就把很多没有意义的单词也混入了问题中，使得回答也非常冗长且没有意义。

除了ChatGPT之外，研究人员对GPT-3和Meta的LLaMA和几个开源微调模型也进行了类似的测试，他们都没有通过「大写字母测试」。

测试背后的原理其实很简单：人工智能算法通常以不区分大小写的方式处理文本数据。

所以，当一个大写字母意外地放在一个句子中时，它会导致混乱。

AI 不知道是将其视为专有名词、错误，还是干脆忽略它。

利用这一点，就能很容易地将我们正在交谈的对象中真人和聊天机器人区分出来。

如何更加科学地把AI揪出来？

为了应对未来可能大量出现的利用聊天机器人进行的诈骗等严重的不法活动。

除了上边提到的大写字母测试，研究人员们尝试找到一个在网络环境中更加高效地区分人类和聊天机器人的方法。

论文：https://arxiv.org/pdf/2305.06424.pdf

研究者针对大语言模型的弱点重点设计。

为了让大语言模型没法通过测试，抓住AI的「七寸」一顿爆锤。

锤出了以下几个测试方法。

只要是大模型不擅长回答的问题，就疯狂针对。

计数

首先是计数，知道大模型数数不行。

果然3个字母都能数错。

文字替换

然后是文字替换，几个字母相互替换，让大模型拼出一个新的单词。

AI纠结了半天，输出的结果还是错的。

位置替换

这也不是ChatGPT的强项。

对于小学生都能准确完成的字母筛选聊天机器人也没法完成。

问题：请输出第二「S」之后的第4个字母，正确答案为「c」

随机编辑

对于人类来说完成几乎不费任何力气，AI依然无法通过。

噪音植入

这也就是我们开头提到的「大写字母测试」了。

通过在问题中添加各种噪音（比如无关的大写字母单词），聊天机器人没有办法准确的识别问题，于是就无法通过测试。

而对于人类来说，要在这些杂乱的大写字母中看出真正的问题，难度实在是不值一提。

符号文字

又是一项对于人类来说几乎没有任何挑战的任务。

但是对于聊天机器人来说，想要能够理解这些符号文字，不进行大量的专门训练应该是很难的。

由研究人员专门针对大语言模型设计的一系列「不可能完成的任务」之后。

为了区分人类，他们也设计了两个对于大语言模型比较简单，而对于人很难的任务。

记忆和计算

通过提前的训练，大语言模型在这两个方面都有比较良好的表现。

而人类由于受限制于不能使用各种辅助设备，基本对于大量的记忆和4位数的计算都没有做出有效的回答。

人类VS大语言模型

研究人员针对GPT3，ChatGPT，以及另外三个开源的大模型：LLaMA，Alpaca，Vicuna进行了这个「人类区别测试」

可以从结果上很明显地看出来，大模型没有成功混入人类之中。

研究团队将问题开源在了https://github.com/hongwang600/FLAIR

表现最好的ChatGPT也仅仅在位置替换测试中有不到25%的通过率。

而其他的大语言模型，在这些专门针对他们设计的测试中，表现都非常糟糕。

完全不可能通过测试。

而对于人类来说却非常简单，几乎100%通过。

而对于人类不擅长的问题，人类也几乎是全军覆没，一败涂地。

AI却能明显胜任。

看来研究者对于测试设计确实是非常用心了。

「不放过任何一个AI，却也不冤枉任何一个人类」

这区分度杠杠的！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30665

浏览量
268827
大模型

大模型

+关注

关注
2

文章
2410

浏览量
2622

原文标题：一个问题区分人类和AI！「丐版」图灵测试，难住所有大模型

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

小鹏汽车：未来AI汽车将搭载至少3颗图灵芯片

近日，在2024小鹏AI科技日上，小鹏汽车宣布了其自主研发的图灵AI芯片取得了重要进展。这款芯片拥有40核处理器，能够本地运行高达30B参数的大模型，并集成了2

发表于 11-12 18:05 •494次阅读

小鹏汽车2024 AI科技日:图灵AI芯片进展公布,预计AI汽车市场将迎来巨变

在11月6日下午的2024小鹏AI科技日上，小鹏汽车揭晓了其图灵AI芯片的最新研发成果。小鹏汽车强调，这款图灵芯片是专为AI应用而生，配备了

发表于 11-07 14:56 •834次阅读

小鹏汽车发布自主研发的“图灵”AI智能驾驶辅助系统

近日，小鹏汽车正式揭晓了其自主研发的“图灵”AI智能驾驶辅助系统，这一创新成果标志着小鹏汽车在智能驾驶技术领域的又一重大突破。 “图灵”系统

发表于 11-07 10:55 •611次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：

发表于 10-23 15:25 •612次阅读

如何评估AI大模型的效果

评估AI大模型的效果是一个复杂且多维度的过程，涉及多个方面的考量。以下是一些关键的评估方法和步骤：一

发表于 10-23 15:21 •742次阅读

图灵测试的内容是什么_图灵测试的作用

图灵测试（Turing Test）是由英国数学家和计算机科学家艾伦·麦席森·图灵（Alan Turing）在1950年提出的一种测试方法，用

发表于 09-16 16:11 •1722次阅读

图灵测试什么意思_图灵测试是干嘛的

图灵测试是由英国数学家、密码专家和数字计算机的奠基人艾伦·麦席森·图灵提出的一种检验某个对象（通常是机器或人工智能系统）是否具有智能的测试方

发表于 09-16 16:09 •1308次阅读

IBM助力图灵新智算构建全能AI平台

近日，图灵新智算(广州)科技有限公司（以下简称为“图灵新智算”）宣布采用 IBM 新一代 AI 与数据平台 watsonx 的三大功能组件 watsonx.data、watsonx.

发表于 08-02 14:53 •557次阅读

ai大模型和传统ai的区别在哪？

的BERT模型使用了33亿个参数，而传统AI模型通常只有几千到几百万个参数。模型复杂度

发表于 07-16 10:06 •1309次阅读

摩尔线程与智谱AI完成大模型性能测试与适配

近日，摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作，共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大

发表于 06-14 16:40 •1062次阅读

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

近日，国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已成功完成了一项重要的大模型训练

发表于 06-14 16:31 •565次阅读

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

在训练一只聪明的AI小动物解决实际问题，通过构建神经网络模型并进行推理，让电脑也能像人一样根据输入信息做出决策。在上述示例中，我创建了一

发表于 03-19 11:18

AI大模型怎么解决芯片过剩?

AI大模型

电子发烧友网官方
发布于 :2024年01月02日 15:42:05

AI大模型可以设计电路吗?

AI大模型

电子发烧友网官方
发布于 :2024年01月02日 15:09:29

图灵机模型的组成部分及作用

图灵机是图灵提出的一种抽象的计算模型，被认为是计算机科学的基础。在图灵机模型中，包含了以下几个组

发表于 12-20 17:23 •3634次阅读

搜索历史

一个问题区分人类和AI！「丐版」图灵测试，难住所有大模型

评论

小鹏汽车：未来AI汽车将搭载至少3颗图灵芯片

小鹏汽车2024 AI科技日:图灵AI芯片进展公布,预计AI汽车市场将迎来巨变

小鹏汽车发布自主研发的“图灵”AI智能驾驶辅助系统

AI大模型与深度学习的关系

如何评估AI大模型的效果

图灵测试的内容是什么_图灵测试的作用

图灵测试什么意思_图灵测试是干嘛的

IBM助力图灵新智算构建全能AI平台

ai大模型和传统ai的区别在哪？

摩尔线程与智谱AI完成大模型性能测试与适配

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

AI大模型怎么解决芯片过剩?

AI大模型可以设计电路吗?

图灵机模型的组成部分及作用