新火种AI | 谷歌Gemini“抄袭”百度文心一言？AI训练数据陷难题-电子发烧友网

作者：一号

编辑：小迪

谷歌过于心急，Gemini推出不到半月，就遭遇两次“危机”。

美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展现得淋漓尽致，让人不得不感慨它的强大，就连马斯克都评论说，“（Gemini）令人印象深刻”。

谷歌在AI领域的成就有目共睹，尽管之前推出的Bard表现不尽人意，让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀，加上和DeepMind联合研发，所以Gemini（双子星）可是被寄予了厚望。

但是，Gemini发布后仅一天，就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件，演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日，视频“造假”事件还没降温，谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型，Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久，就有用户发现，在Poe上使用Gemini Pro时，如果用简体中文连续询问“你好”和“你是谁”这两个问题时，Gemini Pro会直接说出“我是百度文心大模型”这样的回答，给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了？

微博大V阑夕就发博展示了这样的效果，就连进一步询问“你的创始人是谁”时，它也很干脆地回答：李彦宏。

难道Gemini被百度“夺舍”了？不少人怀疑这是因为博主在对话前面设置了提示词，让Gemini扮演文心一言，但这位博主强调，没有任何前置对话。

本着求真的态度，我们也去Poe上试用了一下，结果真的可以复现。

会不会是Poe平台上的接口用错了？不过Poe平台可不是什么野鸡套壳网站，它是美版知乎Quora推出的AI聊天机器人平台，你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini，它就会立刻恢复正常。并且单就从“作案动机”上来讲，Poe也没有必要这么做。

除此之外，还有用户在谷歌自己的Vertex AI平台上，使用中文对话，也出现了这种情况。因此，Poe的接口使用出错，这个可能基本可以被排除，问题应该出在Gemini本身。

使用AI生成的数据进行训练已不新鲜

这样看下来，要么就是谷歌使用了百度文心一言的语料进行训练，要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生，并且谷歌还是有“前科”的。在上一代Bard时，谷歌就曾被曝出使用ChatGPT的数据进行训练，并且根据The Information报道，这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末，字节跳动也被OpenAI禁止使用API接口，原因也是因为说字节在使用GPT训练自己的AI，违反了使用条例。

如果按照现在每个模型堆“训练数据量”的操作来看，互联网上的人类原生的数据很快就会用完，并且各个模型之间也将会很相似。因此，获取一些未被别人拿去训练的数据，是模型之间保持差异化的一种方法。因此，有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用，用以获取彭博社自有的历史和持续的金融文件数据访问权限。

另一个思路，就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片，来提升图像分类模型的性能，结果发现效果还不错，甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看，AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域，AI生成的内容都正在“污染”互联网上数据内容。

就在上个月，一些网友发现，在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是，得到的搜索结果，前几张图片都是有AI生成的，而并非真实照片，并且这是一位以弹奏尤克里里而闻名的音乐家，但图片里的他却在弹吉他。

在文字方面也是，随着百家号等媒体平台上出现的AI帮写等功能，AI生成的文章已经开始在互联网上“蔓延”，这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说，AI生成内容对互联网语料的“污染”，可能会导致产生一个新的需求，那就是帮人们分辨内容是否由AI生成的AI。

毕竟，目前训练AI所需要的数据还是人类所生产的，在数据清洗过程中，需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多，越能以假乱真，那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前，我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容，而另一个AI拿着这个内容去训练，然后再另一个AI拿到新的错误内容......这样“滚雪球”下去，AI最终会生成什么样的逆天垃圾，我们真的无法想象。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Gemini

Gemini

+关注

关注
0

文章
56

浏览量
7613
AI

AI

+关注

关注
87

文章
31493

浏览量
270103
文心一言

文心一言

+关注

关注
0

文章
125

浏览量
1316

百度文心一言APP升级为文小言

百度宣布其文心一言APP正式升级为文小言，标志着百度在智能搜索领域迈出了重要

发表于 09-04 16:06 •560次阅读

百度文心大模型4.0 Turbo，正式发布用户规模已达3亿

的最新数据，并正式发布文心大模型4.0 Turbo、飞桨框架3.0等最新技术，披露飞桨文心生态最新成果。 01

发表于 06-29 10:06 •918次阅读

互联网大厂 AI App 大横评：元宝、通义、豆包和文心一言哪家强？

腾讯终于也发布了toC的AI大模型APP——元宝，至此国内的四家大厂的AI大模型APP总算是集齐了。有请各家选手登场：百度的文心

发表于 06-06 08:04 •1727次阅读

互联网大厂 <b class='flag-5'>AI</b> App 大横评：元宝、通义、豆包和文<b class='flag-5'>心</b><b class='flag-5'>一言</b>哪家强？

2024百度移动生态万象大会:百度新搜索11%内容已AI生成

万象大会上百度集团资深副总裁、百度移动生态事业群组（MEG）总经理何俊杰公布了一项统计数据：百度新搜索已有11%的搜索内容是由

发表于 05-30 18:58 •443次阅读

李彦宏高度评价百度文心一言模型及AI技术，强调商业化将持续推进

据了解，目前已有近10万家企业使用了文心一言的能力，其中10%的大搜流量由该模型产生，每日有250万用户受益于文库的AI功能。未来，百度计划

发表于 05-11 10:44 •574次阅读

新火种AI|李彦宏发声：文心一言4.0在国内可以取代ChatGPT！事实真的如此吗？

文心一言 VS ChatGPT，谁更胜一筹？

发表于 04-19 10:14 •851次阅读

新<b class='flag-5'>火种</b><b class='flag-5'>AI</b>|李彦宏发声：<b class='flag-5'>文</b><b class='flag-5'>心</b><b class='flag-5'>一言</b>4.0在国内可以取代ChatGPT！事实真的如此吗？

百度文心一言用户破2亿，AI原生应用开发数量达19万

此外，李彦宏还提到，百度在去年 8 月宣布开放文心一言后，不仅在C端借助大模型改造用户产品，将AI功能融入旗下多款产品；同时在B端，通过云业

发表于 04-16 15:05 •676次阅读

百度文心一言新增定制声音功能，数秒即可生成个人语音

通过IT之家所述，用户只需启动文心一言App并点击底部“+”按钮，进入创建智能体界面；在声音设置处找到专为个人量身打造的“创建我的声音”功能。

发表于 04-07 16:20 •963次阅读

极越01 OTA V1.4.0升级，融合文心一言等技术，实现人车家深度融合

夏一平指出，目前极越 01已成功整合百度地图、文心一言、Apollo以及小度等多项技术。此外，

发表于 03-26 11:20 •732次阅读

百度将为国行iPhone16提供AI功能

谷歌、OpenAI 等公司的AI 。国行iPhone16搭载百度AI功能的话会不会是内置文心

发表于 03-25 16:23 •1013次阅读

文心一言将在2024年贡献数十亿元的增量收入

百度文心一言在2024年有望为百度带来数十亿元人民币的增量收入，这一预测由

发表于 03-04 11:32 •1284次阅读

是德科技如何赋能医疗AI大模型应用呢？

自从ChatGPT爆火以来，各种AI大模型纷纷亮相，如百度科技的文心一言，科大讯飞的讯飞星火，华为的盘古

发表于 02-28 09:35 •2401次阅读

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

近日，北京百度网讯科技有限公司与一家名为“文心一言（天津）智能科技有限公司”的公司之间的一则不正

发表于 02-06 11:44 •1715次阅读

文心一言APP上线数字分身功能

文心一言APP近日上线了一项令人兴奋的新功能——数字分身。这一功能允许用户轻松创建自己的个性化虚拟形象，为用户带来全新的互动体验。

发表于 02-04 10:32 •1255次阅读

百度文心一言支持一键生成专属数字分身

百度文心一言APP正式上线了一项令人瞩目的新功能：用户只需一张照片、录制三句话，就能轻松拥有

发表于 02-03 09:33 •852次阅读

搜索历史

新火种AI | 谷歌Gemini“抄袭”百度文心一言？AI训练数据陷难题

评论