谷歌Gemini自曝用文心一言训练，字节被OpenAI封号，大模型互薅羊毛是常态？-电子发烧友网

电子发烧友网报道（文/吴子鹏）近两天，原本就火热的人工智能大模型再度被浇上了一桶油，话题热度更胜从前。不过，这一次大家探讨的并不是大模型前景和算力这些，而是大模型之间互薅羊毛的问题。根据微博知名博主@阑夕爆料，对谷歌Gemini进行测试时，如果用中文询问Gemini的身份，其回答竟然是百度文心一言。

更让人大跌眼镜的是，测试人员可以使用“小爱同学”“小度”等提示词唤醒Gemini。并且，Gemini还能够告诉测试人员，自己是如何获取到百度的训练数据的。

网传对话场景

网传对话场景

不过，此则消息应该是很快就引起了谷歌技术人员的关注，在消息曝光不久后，Gemini应对上述提示词和问题的方式就发生了改变。通过“小爱同学”“小度”等提示词无法再唤醒Gemini，且对于相关问题的阐述也发生了变化，显然谷歌技术人员很快修复了一些bug。

谷歌Gemini饱受质疑

当地时间12月6日，谷歌宣布推出“最大、最强、最通用”的新大型语言模型Gemini，我们对此也进行了专门的报道。在发布会上谷歌声称，在32项广泛使用的基准测试中，Gemini Ultra获得了30个SOTA（State of the art，特指领先水平的大模型）。这也就意味着，Gemini 1.0版本在文本、代码、音频、图像和视频处理能力方面，以及推理、数学、代码等方面都吊打GPT-4。

同时，在发布会上谷歌还展示了Gemini相关的能力。比如，Gemini可以非常高效地从数十万份文件中获取对科学家有用的数据，并创建数据集；Gemini可以在世界上最受欢迎的编程语言（如Python、Java、C++和Go）中理解、解释和生成高质量的代码。

不过，谷歌是通过视频展示的Gemini的相关能力，而不是通过现场实操。于是乎，就在谷歌发布会的次日，有视频制作人员质疑称，谷歌的演示视频并不是实录，而是剪辑的。随后，谷歌在博客文章中解释了多模态交互过程，并提到了视频演示中的猜拳，谷歌承认，不同于视频中对于猜拳手势的快速反应，只有在向Gemini同时展示这三个手势并提示其这是游戏时，Gemini才会得出猜拳游戏的结论。

图源：谷歌博文

因此，现在很多人都认为谷歌夸大了Gemini的能力，只有使用静态图片和多段提示词拼凑，Gemini才能够显示出多模态的能力，这和谷歌宣称的实时多模态反应明显是不相符的。

大模型之间互薅羊毛

除了性能质疑之外，此次事件则揭露了大模型发展另一个规则——互薅羊毛。实际上，在Gemini自曝是百度文心一言之前，国内字节跳动就发生了相关问题。

近日，有外媒报道称，字节跳动在使用OpenAI技术开发自己的大语言模型，违反了OpenAI服务条款，导致账户被暂停。对此，字节跳动相关负责人向记者回应称：今年年初，当技术团队刚开始进行大模型的初期探索时，有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。4月公司引入GPT API调用规范检查后，这种做法已经停止。字节跳动称，后续会严格遵守OpenAI的使用协议。

从Gemini调整之后的回复来看，其在训练过程中确实使用了百度文心一言的训练数据，这其实也无可厚非。百度文心一言在中文理解及相关的多模态生成能力方面确实处于领先的位置，那么背后的原因定然是因为百度掌握着质量相对更好的中文训练数据集，因此其他大模型如果想要在中文对话方面取得进展，使用文心一言的训练数据确实是最高效的方式。

另外，除了字节跳动，此前谷歌也被质疑使用OpenAI数据来训练Bard，最终谷歌的回应是Bard没有使用ShareGPT或是ChatGPT的任何数据来进行训练。另外，国内也有很多公司被质疑是采用OpenAI数据来完善自己的大模型。不过，这种行为大都见不得光，因此都被否认了。

为什么其他大模型频传借用OpenAI数据来训练呢，重要原因在于GPT-4性能领先一个重要的原因就是数据集质量更高。根据semianalysis发布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章，GPT-4是一个使用1.8万亿巨量参数训练的模型框架，而GPT-3只有约1750亿个参数，另外GPT-4拥有16个专家模型，每个MLP专家大约有1110亿个参数。这就是为什么在展示Gemini Ultra的MMLU训练时，谷歌将“CoT@32”进行小字注释，代表Gemini Ultra的MMLU测试使用了思维链提示技巧，尝试了32次并从中选择最好结果。与之对比，GPT-4无提示词技巧给5个示例。就这样，GPT-4的成绩为86.4%，依然高于Gemini Ultra的83.7%。

另外，OpenAI用13万亿的token训出了GPT-4。因为没有高质量的token，这个数据集还包含了许多个epoch。

综上所述，虽然GPT-4的训练数据规模没有官方说明，但是semianalysis文章可信度很高，这个规模比Gemini Ultra宣称的万亿似乎更强，也不怪大家都想用GPT调优自己的模型。

当然，每一个模型都有自己擅长的地方，尤其是那些垂直的行业模型，在行业数据方面肯定是优于一般多模态大模型的，因此被薅羊毛的概率也很大，但是这大都不会被公开。

大模型数据集背后的产业链

为了让GPT-4具有领先的性能，OpenAI的研发团队在模型优化、数据选择和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。对于大模型来说，预训练数据集是一个非常关键的元素，很大程度上决定了大模型最终的性能水平。

在这个大背景下，随着大模型产业发展，训练数据也逐渐成为一种产业。比如国内的云测数据，云测创立于2011年，是一家以人工智能技术驱动的企业服务平台，为全球超过百万的企业及开发者提供云测试服务、AI训练数据服务、安全服务。该公司的云测数据入选“北京市人工智能行业赋能典型案例(2023)”，在垂直大模型训练数据服务方面很有造诣。

再比如，海天瑞声作为国内领先基础数据服务商，是国内首家且是目前唯一一家A股上市的人工智能训练数据服务企业，为阿里巴巴、Meta、腾讯、百度、字节跳动等公司提供数据服务。

北京邮电大学科学技术研究院副院长曾雪云教授此前在受访时表示，“互联网上生成的这些数据，它是非结构化的数据，也是非标准化的数据。这样的数据就是一种原始的、比较杂乱的、没有规范的数据，它就需要在计算前进行颗粒度上的清洗，所以高质量数据通常都有从非结构化到结构化这样的一个加工过程。”

“现在从对数据科学的研究、国家对数据的治理，到学术界对数据的研究、产业界对数据的利用都是一个蓝海，都是一个刚开始的状态。”曾雪云教授提到。

当然不仅国内关注到这一块的产业价值，作为头部企业，OpenAI希望与机构合作建立新的人工智能训练数据集。OpenAI为此创立了“数据伙伴关系”（Data Partnerships）计划，该计划旨在与第三方机构合作，建立用于人工智能模型训练的公共和私有数据集。OpenAI 在一篇博文中表示，数据合作伙伴关系旨在“让更多组织能够帮助引导人工智能的未来”，并“从更有用的模型中获益”。

结语

人工智能大模型其实是大数据时代的典型产物，那么也就无法脱离对大数据的依赖。大模型的火爆让高质量训练数据成为高价值、紧俏的资源，而这些数据往往掌握在头部企业手里，这就是为什么大模型企业之间互相会薅羊毛。不过，相较于互联网海量的数据，目前科技巨头的训练数据集还只是九牛一毛，如何从海量互联网数据提取有价值的训练数据集，已经逐渐成为一个产业链。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6173

浏览量
105640
字节跳动

字节跳动

+关注

关注
0

文章
321

浏览量
8956
OpenAI

OpenAI

+关注

关注
9

文章
1100

浏览量
6586
文心一言

文心一言

+关注

关注
0

文章
124

浏览量
1296
大模型

大模型

+关注

关注
2

文章
2491

浏览量
2876

一文说清楚什么是AI大模型

生成能力强，部分版本支持多模态输入（如图像理解）文心一言百度针对中文优化，适合国内应用场景 LLa

发表于 01-02 09:53 •307次阅读

<b class='flag-5'>一</b><b class='flag-5'>文</b>说清楚什么是AI大<b class='flag-5'>模型</b>

百度文心一言APP升级为文小言

百度宣布其文心一言APP正式升级为文小言，标志着百度在智能搜索领域迈出了重要一步。文小

发表于 09-04 16:06 •519次阅读

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，但由于各家接口和数据格式不一样，调试验证会浪费很多时间。因此本篇以聆思CS

发表于 08-22 10:12

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，这个是必须可以的。但由于各家接口和数据格式不一样，有些朋友直接参考chat

发表于 08-21 19:13

百度文心大模型4.0 Turbo，正式发布用户规模已达3亿

的最新数据，并正式发布文心大模型4.0 Turbo、飞桨框架3.0等最新技术，披露飞桨文心生态最新成果。 01

发表于 06-29 10:06 •881次阅读

李彦宏高度评价百度文心一言模型及AI技术，强调商业化将持续推进

据了解，目前已有近10万家企业使用了文心一言的能力，其中10%的大搜流量由该模型产生，每日有250万用户受益于文库的AI功能。未来，百度计划进一

发表于 05-11 10:44 •542次阅读

微软自研AI大模型即将问世

微软正悄然酝酿一项重大技术突破，据内部消息人士透露，公司正全力训练一款名为“MAI-1”的自研人工智能大模型。这款

发表于 05-07 14:46 •498次阅读

新火种AI|李彦宏发声：文心一言4.0在国内可以取代ChatGPT！事实真的如此吗？

文心一言 VS ChatGPT，谁更胜一筹？

发表于 04-19 10:14 •803次阅读

百度文心一言用户破2亿，AI原生应用开发数量达19万

此外，李彦宏还提到，百度在去年 8 月宣布开放文心一言后，不仅在C端借助大模型改造用户产品，将AI功能融入旗下多款产品；同时在B端，通过云业务推出企业级

发表于 04-16 15:05 •635次阅读

百度文心一言新增定制声音功能，数秒即可生成个人语音

通过IT之家所述，用户只需启动文心一言App并点击底部“+”按钮，进入创建智能体界面；在声音设置处找到专为个人量身打造的“创建我的声音”功能。

发表于 04-07 16:20 •894次阅读

极越01 OTA V1.4.0升级，融合文心一言等技术，实现人车家深度融合

夏一平指出，目前极越 01已成功整合百度地图、文心一言、Apollo以及小度等多项技术。此外，百度 Apollo 自动驾驶视觉大模型 VTA

发表于 03-26 11:20 •709次阅读

文心一言将在2024年贡献数十亿元的增量收入

百度文心一言在2024年有望为百度带来数十亿元人民币的增量收入，这一预测由百度创始人、董事长兼首席执行官李彦宏亲自公布。这一增长预期主要基于

发表于 03-04 11:32 •1243次阅读

谷歌推出新一代大模型Gemini 1.5

近日，谷歌在无预警的情况下发布了其下一代大模型——Gemini 1.5，这款模型在性能上实现了显著增强，并在长上下文理解方面取得了令人瞩目的

发表于 02-20 13:55 •912次阅读

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

公告中指责对方涉嫌商标侵权，引发了一场涉及人工智能领域的法律大战。据了解，百度公司推出的“文心一言”是一款知识增强大语言

发表于 02-06 11:44 •1687次阅读

文心一言APP上线数字分身功能

文心一言APP近日上线了一项令人兴奋的新功能——数字分身。这一功能允许用户轻松创建自己的个性化虚拟形象，为用户带来全新的互动体验。

发表于 02-04 10:32 •1223次阅读

搜索历史

谷歌Gemini自曝用文心一言训练，字节被OpenAI封号，大模型互薅羊毛是常态？

评论

一文说清楚什么是AI大模型

百度文心一言APP升级为文小言

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

百度文心大模型4.0 Turbo，正式发布用户规模已达3亿

李彦宏高度评价百度文心一言模型及AI技术，强调商业化将持续推进

微软自研AI大模型即将问世

新火种AI|李彦宏发声：文心一言4.0在国内可以取代ChatGPT！事实真的如此吗？

百度文心一言用户破2亿，AI原生应用开发数量达19万

百度文心一言新增定制声音功能，数秒即可生成个人语音

极越01 OTA V1.4.0升级，融合文心一言等技术，实现人车家深度融合

文心一言将在2024年贡献数十亿元的增量收入

谷歌推出新一代大模型Gemini 1.5

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

文心一言APP上线数字分身功能