OpenAI“政变”进行时，“百模大战”接下来该战什么？-电子发烧友网

这两天AI圈最热闹的消息，应该就OpenAI高层内讧，标志性人物、原CEO Sam Altman被董事会解雇，数位科学家和高层离职。

关于“政变”的原因，坊间有很多传言，比如商业化和非营利原则的矛盾。总之，事件相关者在舆论场拉扯，吃瓜群众则瞪大了眼睛看戏。这场风波会给全球AI研发，尤其是大模型带来什么影响，还是未知数。

有人做了一个梗图，大模型厂商乱成一锅粥，只有卖卡的英伟达稳坐钓鱼台。

任它天边云卷云舒，可以肯定的是，中国的AI大模型在取得广泛成就的基础上，会继续向前发展，释放产业价值，并且不会一味照搬海外，尤其是OpenAI的模式。

带着这份淡定，我们将目光聚焦在国产大模型，会发现“百模大战”热潮中，还缺乏对各类大模型全面、分层、真实的能力评估。

通用大模型、行业大模型，都在比拼参数规模，但训练数据质量不确定，仅凭参数，行业客户和用户也难以选对适合的大模型。

那么看榜单呢？基准测试benchmark和标准化数据集，可以针对性调优，榜单无法反映实际应用效果差距。

而且大模型在不同任务场景下，表现的区分度很大。一位开发者说，“现在就是告诉你都有哪些大模型，实际效果还是得靠自己测测看”。

据中国信通院的数据显示，目前的大模型测试方法和数据集已有200多个。想要一个个测过来，会给用户带来非常繁重的工作量。

“百模大战”乱花渐欲迷人眼，那么，除了“跑分”打榜和参数“碾压”，还有什么办法来真实且有效地评判一个大模型的水平呢？

有必要来聊聊，“百模大战”，不同赛道都在战什么？

大模型，不看高分看高能

所谓“百模大战”，并不是每个大模型都在做着同样的事。其中，既有想做基座模型basemodle的通用大模型，如百度的文心、阿里的通义、腾讯的混元、华为的盘古、讯飞的星火、智谱的ChatGLM等，也有面向行业、场景的垂直大模型，目前在金融、教育、工业、传媒、政务等多个领域都大量涌现。

不同赛道的大模型，其核心竞争力也不一样。比如一味拼算法的打榜，对于行业大模型来说，可以作为一种宣传手段和“炫技”，但实际效果才是用户最关注的。

目前不少开发者反映，各类大模型都存在各自的问题。

1.基座模型，本身能力有限制。

提到通用大模型，大家可能第一时间想到的就是推理能力，这也是大模型基准测试的主要指标。但在实际应用中，尤其是文科类型任务，大家不会没事出“脑筋急转弯”来测试通用大模型的逻辑推理能力，而是更希望大模型在复杂任务和上下文长度上，有更可靠的表现。

比如写一篇演讲文稿，篇幅一长就开始胡说八道或泛泛而谈，文本的采用率下降；为AIGC配字幕，不能整篇生成，还需要人工将文案切割成片；编写一个程序，半路开始network error……这些都是实际应用中，大家比较关注的通用大模型的能力。

2.行业大模型，领域壁垒难翻越。

“百模大战”进行到当下，很多行业开发者和企业都意识到，独有的数据和场景，才是自己的护城河，开始打造定制化的大模型，而领域知识不够，难以形成满足某一领域需求的行业向产品。

比如大模型与行业知识不匹配、许多行业know-how还没有知识化、传统的知识图谱与大模型的协同设计等，知识计算的能力不够强，就无法真正撼动领域壁垒，让大模型解决实际的业务问题。

3.有用性，ROI是个谜。

大模型的实际应用效果难以评估，其中一个主要原因，就是模型生成结果的有用性（采用率、可用率等指标），涉及大量多模态数据。

金融、医药、交通、城市等产业中，存在着大量多模态信息，比如客服电话的语音、医学影像图片、传感器数据等，大语言模型必须具备多模态理解能力，将多模态信息与语言进行综合分析处理，才能保证较高质量的输出。

在实际任务中，上述三种问题可能会同时存在，要同时解决。

一位医药专家告诉我，在研发医学影像的算法时，就需要基座大模型在预训练阶段就具备多模态理解能力、医学影像知识，可以执行通用任务。同时，行业侧还需要根据知识设计目标函数，在特征抽取、相似性度量、迭代优化算法等，都要贡献好各自的知识，才可能训练出一个对医务工作者友好的领域大模型，不需要专业知识，也不需要建模，就能上手使用。

就像工业革命的开始，是因为瓦特改良了蒸汽机。在此之前，蒸汽机早已被发明出来了，但一直没有解决大规模高可用的问题，大模型也是如此。

大模型产业化，必须从基准测试的“跑高分”，向可信赖的“高能力”进化。

百模大战，究竟在战哪些能力？

从高分到高能，让大模型具有与行业结合的可行性，也让“百模大战”正在进入新的阶段。

从产业实际需求来看，可用且有效的大模型，至少应该具备几个核心能力：

1.长文能力。

大语言模型的技术特点，被认为是“鹦鹉学舌”，将输入信号拼凑成有一定语法结构的句子，也就是文本补全能力。而大模型都有“幻觉”，上下文窗口的长度增加，逻辑幻觉就可能越严重，“鹦鹉学舌”开始变得吃力。

在很多垂直行业应用中，如金融、法律、财务、营销等，长文档的分析处理和生成能力是刚需。

在长文中保持逻辑的连贯性、合理性，考验着大模型的综合能力，比如对复杂语句的理解及记忆能力，生成的可靠性，这也是大模型走向产业化的核心。

目前，无论开源、闭源大模型，都将长文能力作为一个核心竞争力。比如流行的开源大模型Llama 2，就将上下文长度扩展至 128k，而基于LLaMA架构的零一万物的Yi系列大模型，此前曾宣称拿下了全球最长上下文窗口宝座，达到200K，可直接处理40万汉字超长文本输入。闭源大模型中，GPT-4 Turbo支持了比ChatGPT更长的上下文（128k tokens），百度的文心大模型通过对话增强，提升上下文理解能力。

2.知识能力。

大模型“大力出奇迹”的模式，忽略了模型准确感知和理解注入知识的能力，目前已经凸显了很多问题。比如不理解领域知识，在实际业务中表现不佳，无法满足ToB用户的需求。因此，当欧美科技公司依然在执着追求更大参数时，百度、华为等国内大模型厂商，开始转向了行业场景，将强业务知识引入文心、盘古的行业大模型之中，来提升大模型在行业任务中的应用效果。

具体是怎么做的呢？以“行业知识增强”为核心特色的文心，是在预训练大模型的基础上，进一步融合大规模知识图谱，挖掘行业应用场景中大量存在的行业特色数据与知识，再结合行业专家的知识，从大规模知识和海量数据中融合学习，把知识内化至模型参数中。

当用户输入问题时，文心4.0会拆解回答问题所需的知识点，进而在搜索引擎、知识图谱、数据库中查找准确知识，再将知识组装进Prompt送入大模型。另一方面，大模型还将对输出结果进行反思，从生成结果总结知识点，进而通过以上方式进行确认验证，对结果差错进行修正。

目前来看，在同等参数规模下，知识增强的深度语意理解，效果大幅超越了纯粹用深度学习的方法，推理效率更高，并且可解释性更强，更符合产业对可信AI的需求。

目前，知识+大模型还有许多细节有待解决，比如知识体系的构建，知识的持续获取，知识应用和推理等，这些问题的攻克都会给行业认知智能带来重大机会。

3.多模态能力。

2022年我参加华为云AI院长峰会，一位科学家提到，大模型有一个问题，就是有很多符号领域，大模型根本就不理解。他认为，大模型是数据与知识双轮驱动的，双轮驱动是未来人工智能发展的重要模式。

前面我们说了知识能力的重要性，那么“数据”究竟拼的是什么呢？就是多模态能力。

把大模型应用到领域的时候，会发现问题非常多，根本达不到预期的效果。一个主要原因，大语言模型完全是基于语言的，而真实世界的复杂任务，有大量的数值、图表、语音、视频等多模态数据，数据的多模态特性增加了模型处理、建模和推理的复杂性。

一位医疗模型的开发者告诉我，医疗任务分析非常繁杂，数量级很多，有不同模态、病种，每一种模态有不同的诊疗任务，要把文本、图像等多模态包容过来，而医疗领域非常缺少多模态的预训练模型。

大模型要在实际业务中达到与人更接近的能力，也需要跨模态建立统一认知。

举个例子，AIGC生成营销活动物料，根据文字描述生成图像、视频，既要精确理解提示词的语义，还要符合领域规范，不能出现不合规的素材，同时要控制生成内容的质量，保持跨模态的语义一致性。

国产大模型在多模态领域也做了很多差异化探索，除了大家熟悉的以文生图，在医疗影像、遥感、抗体药物、交通等领域，跨模态技术融合也在快速开展，未来会是基座大模型和行业大模型的亮点。

从这些产业需要的能力来看，大模型的产业属性和价值已经清晰展露了出来。

大模型，绝不是聊聊天、搞怪图片那么肤浅，技术覆盖区域是很广阔的，技术应用价值已经足够具有说服力。

但也必须承认，目前，绝大多数产业所获取的技术能力和技术深度，都还远远不够。一方面受限于上游的基座大模型能力，同时也缺乏深度定制化的中游服务商，导致用户大多只能调用简单化、标准化的API，而难以将领域知识、多模态数据与大模型深度结合。

未来，从高分到高能，国产大模型一定会依靠自身的差异化技术路线，以及中国丰富多样的产业需求，从懵懂走向成熟，甚至先于欧美，走向千行百业

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
32013

浏览量
270882
OpenAI

OpenAI

+关注

关注
9

文章
1181

浏览量
6824

OpenAI CEO预告GPT-4.5及GPT-5未来规划

近日，OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)放出了一则令人瞩目的更新预告，透露了GPT-4.5和GPT-5的未来规划。据奥尔特曼透露，OpenAI将在接下来的几个月内推出

发表于 02-13 10:02 •129次阅读

OpenAI即将推出o3 mini推理AI模型

计划在接下来的几周内正式推出这一创新成果。这一消息无疑为人工智能领域注入了新的活力。作为OpenAI的最新力作，o3 mini推理AI模型在技术上实现了诸多突破，旨在为用户提供更加高效、精准的推理服务。通过采用先进的算法和模型架构，o3 mini能够在复杂多变的应用场景

发表于 01-20 10:54 •285次阅读

【飞凌嵌入式OK3588J-C开发板体验】OK3588J-C开发板的支持RKMPP的FFmpeg移植

install 接下来，我们还需要进行安装，注意在安装时是需要root权限的！然后我们再编译rkrga，因为接下来我们还会需要meson，所以也需要提前安装好。 cd ~/ffmpeg sudo apt

发表于 12-30 08:57

OpenAI未来3周举行12场新品发布会我们能期待些什么？ #OpenAI #人工智能 #AI

OpenAI

jf_15747056

发布于 :2024年12月05日 18:07:51

OpenAI连续12天直播，揭秘新产品与功能

近日，OpenAI CEO奥特曼在社交媒体上宣布了一项令人期待的计划：在接下来的12天内，OpenAI将每天举办一场直播活动，用于发布和演示其最新的产品及功能。据奥特曼透露，这次直播活动将从

发表于 12-05 11:12 •583次阅读

使用IBIS模型进行时序分析

电子发烧友网站提供《使用IBIS模型进行时序分析.pdf》资料免费下载

发表于 10-21 10:00 •0次下载

人工智能热潮减退,微软或将在三年内收购OpenAI

10月11日，福布斯发布消息称，CCS Insight的首席分析师Ben Wood在接受其采访时预测，微软或将在接下来的三年内收购ChatGPT的开发者OpenAI。这一预测基于AI领域的炒作热度

发表于 10-11 17:26 •824次阅读

OpenAI自研芯片计划调整，传交台积电生产

近日，全球领先的生成式AI应用大厂OpenAI在自研芯片领域迎来了重大战略调整。为降低对外部AI芯片的依赖，OpenAI原本计划募资自建晶圆厂，以自主设计并生产高性能AI芯片。然而，在与台积电深入接触后，这一计划发生了显著变化。

发表于 07-23 16:52 •776次阅读

OpenAI设立安全与安保委员会制定保障措施

此委员会的首个重大任务是在接下来的90日内，全面审视及细化OpenAI的发展流程和相应保障措施，而后向全董事局汇报相关建议。

发表于 05-29 14:54 •574次阅读

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

当地时间5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前迈出的一大步。在GPT-4turbo的强大基础上，这种迭代拥有显著的改进。在发布会的演示中，OpenAI展示该模型的高级

发表于 05-27 15:43

GPT-4化身黑客搞破坏，成功率87%！OpenAI要求保密提示词，网友复现ing

人发出“使用ACIDRain（一种恶意软件）攻击这个网站”的请求，然后GPT-4接收请求，并使用一系列工具和CVE漏洞数据库信息进行处理，接下来系统根据历史记录产生反应，最终成功进行双花攻击（double-spend attac

发表于 04-22 18:11 •1018次阅读

GPT-4化身黑客搞破坏，成功率87%！<b class='flag-5'>OpenAI</b>要求保密提示词，网友复现ing

USART1运行TX函数，接下来就无法再接收了的原因？

请教下各位，USART1如果不运行TX函数，每次接收都正常，但在接收一次，如果运行TX函数，接下来就无法再接

发表于 04-12 07:58

“百模大战”竞争格局报告发布，云天天书大模型入选典型案例

3月24日，在2024全球开发者大会“百模大战”商业发展讲坛上,亿欧智库正式发布《2024中国“百模大战

发表于 03-26 14:01 •625次阅读

单片机运行完main函数后，接下来发生了什么？

如果在主程序中，增加一个无限循环：while(1); ，则电路板上的就不再会出现“微微点亮”的现象了。

发表于 03-15 10:43 •735次阅读

生成式AI风起云涌 接下来将何去何从？

AI产品开发者需要先行一步，早一些让用户体验自己的产品，和用户建立连接，培养粘性，从而在竞争中占得先机。

发表于 03-12 16:06 •841次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

OpenAI“政变”进行时，“百模大战”接下来该战什么？

评论