跑分没输过，体验没赢过，大模型刷分何时休？-电子发烧友网

作者：一号

编辑：美美

从手机到大模型，国内产品为啥都这么热衷跑分？

IDC AI大模型技术能力评估，12项指标，7项满分，文心大模型3.5“大满贯”；360智脑在SuperCLUE评测中多项能力位列国产大模型第一，某些方面甚至跑赢了GPT-4；夸克大模型在C-Eval和CMMLU两大权威评测榜单中名列第一，显示出其在写作、考试等部分场景中甚至优于GPT-4......

今年以来，国产AI大模型发展趋势之迅猛，不得不让人感慨。截至目前，国产大模型数量已经超过了200个，而且，这些大模型纷纷表现不俗，从百度文心一言到阿里巴巴的夸克大模型，国产AI在各类评测榜单上的表现引人注目。有人对此评价，“跑分没输过，体验没赢过”。

这种似曾相识的“跑分”现象，不禁让人想到手机市场里类似的做法。这种在评测中名列前茅、表现出色，但实际用户体验一言难尽的情况，究竟意味着什么？

为何跑分与体验不符?

回顾手机市场，“跑分没输过，体验没赢过”这句话最开始就是从手机圈中兴起的，各大厂商通过不断叠加定语，来让自己获得第一；还有的手机会自动识别跑分软件，针对性地开启性能模式，让自己的跑分数据好看些，从而实现“作弊”。用户买到跑分高的手机后，实际体验并不是那么回事。

而在AI大模型领域，评估标准则相对公平，并且是同意的，其中包括MMLU（用于衡量多任务语言理解能力）、Big-Bench（用于量化和外推LLMs的能力），以及AGIEval(用于评估人类级任务的能力）。

目前国内厂商经常饮用的榜单就是SuperCLUE、CMMLU和C-Eval，其中C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出，至于SuperCLUE，则是由各大高校的AI专业人士设立的。

尽管大模型的评测标准相对公平，但其仍有一定的局限性，实际的测评之中总会出现问题，其中一个最大的问题就是“考题泄露”。

大模型评测的一个主要方法就是做题。为了让评测相对透明公开，避免暗箱操作，评测机构通常会将评测的方法、标准甚至是题库对外公开。例如C-Eval榜单在上线之初就有13948道题目，由于题库有限，并且更新频率不是特别高，这就给了一些大模型刷题“钻空子”的机会。

我们都知道，如果在考试之前知道会考哪些题目，那考生完全可以做针对性的学习，大模型也一样，并且大模型最擅长的就是记忆。在评测之前，把题库直接加入大模型的训练集，训练之后的大模型就能在评测中表现得比实际能力更好，甚至跑出一些夸张的成绩，例如1.3B的模型在某些任务上超越了10倍体量的大模型。

那么这样的评测结果，跟实际体验一定会很不相符。

为何热衷于跑分？

无论是国产手机厂商还是AI大模型公司，他们对跑分的热衷，本质上是一种营销策略。跑分成绩容易被量化、对比，因此成为了向公众展示技术实力的便捷手段。这种做法在短期内可能会吸引消费者和投资者的注意，但它也可能引起误导，使人们过分关注理论性能，而忽视了实际应用中的体验和效能。

这种营销策略的问题在于，它可能导致公司本末倒置，过分投入于提高特定测试的分数，而非真正的技术创新。在手机行业，这可能意味着优化设备性能以提升特定跑分软件的测试成绩；在AI领域，则可能表现为优化模型以应对评测榜单的特定题目。这种做法虽然能在短期内提高产品在评测榜单上的排名，但却可能忽视了产品在真实使用环境中的性能和用户体验。

这种以跑分为核心的营销策略需要被重新审视。尽管高分成绩在营销中具有吸引力，但它们并不总是反映产品的真实价值。对于消费者而言，理论上的高性能与日常使用中的实际体验之间往往存在差距。因此，无论是手机行业还是AI领域，公众和行业都应该更加关注产品在真实世界中的表现。

要放弃跑分吗？

从隋唐的科举到今天的高考，从国内的四六级到国外的托福雅思，考试在时间和空间的维度上，都是一种相对公平的衡量机制。因此，大模型评测作为大模型的“考试”，同样不能被轻易抛弃。

倘若评测相对准确、靠谱、权威，那么对于所有的大模型公司来说都是好事。研发者可以通过评测结果了解自家大模型的优缺点，查漏补缺，找到正确的方向钻研算法、提升技术、加强训练，不断攻克，进行优化迭代，从而让产品更具有竞争力。

对于AI大模型开发者而言，榜单的排名不应该成为最终目的，真正的挑战在于如何将先进的技术转化为实际应用中的有效工具，这不仅仅是一场分数的竞赛，更是对技术创新和实用性的追求。我们期待一个更加全面和科学的评测体系的出现，这不仅能正确评估AI模型的实际能力，还能促进整个行业向着更加健康、理性的方向发展。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31158

浏览量
269505
大模型

大模型

+关注

关注
2

文章
2491

浏览量
2876

MCU芯片跑分大战

今天我们来个中国通用32位MCU芯片跑分大战！说起MCU，在物联网，智能硬件兴起的当...

发表于 11-03 06:08

小米新机成为再次跑分王！小米6跑分达到了21万！

早几年前，小米是很喜欢玩跑分这个概念的。因此小米在之前的口号直接就有：不服跑个分！不过随着高通处理器被越来越多的手机厂商所接纳和采用，国产手机在跑

发表于 01-06 23:28 •776次阅读

不服跑个分！小米6搭载高通835跑分高达110万

　随着小米6发布日期的不断推进近日网上曝出一张小米6跑分的情况，确认搭载高通835处理器鲁大师跑分竟然高达110万分之多！我很确定这是真的鲁

发表于 01-17 08:44 •1796次阅读

不服来跑分，小米占安兔兔跑分TOP10近半席

　不服跑个分曾经是小米手机发布会的“口头禅”，虽然跑分不是评判手机优劣的唯一标准，但确实是真实反馈出设备的整体状态的量化标准。在上周的性价比榜单之后，今日安兔兔又带来了2017年1月份

发表于 02-28 10:37 •1403次阅读

三星Exynos 9815处理器跑分曝光？跑分超过苹果A11？

近日一款型号为SM-N960F的三星手机现身Geekbench4跑分网站，在内置8GB内存的情况下，单核5162的跑分，多核10704的成绩远远的把苹果的A11甩在了身后(A11单核跑

发表于 05-16 11:17 •9016次阅读

新版iPhone跑分现身Geekbench

近日，知名跑分应用 Geekbench 的资料库出现一款疑似 2018 年新款 iPhone 的跑分结果。

发表于 07-05 14:30 •4905次阅读

都2019年了为什么还需要跑分

如今跑分不再是展现一款手机有多优秀的重要指标，但发布会上多少会提及几句作为陪衬，媒体也会把跑分依旧作为评测的固定环节存在。

发表于 05-15 15:02 •2676次阅读

魅族16s Pro的Geekbench跑分曝光单核成绩为3570分多核成绩为9493分

其实两周之前，魅族16s Pro的安兔兔跑分就被曝光了。不过那一款的配置为6GB+128GB的规格，而今天曝光的Geekbench跑分的机型配置为8GB+128GB的规格，当然，内存配

发表于 08-26 16:11 •1657次阅读

三星Note10 Lite跑分曝光单核跑分为667分多核跑分为2030分

11月28日，三星Note10 Lite的GeekBench 5跑分在网上曝光，同时还曝光了部分配置信息。这款手机单核跑分667，多核跑分2

发表于 11-29 15:15 •1112次阅读

一加8跑分曝光该机单核跑分为4276分多核跑分达12541分

这款手机单核跑分为4276分，多核跑分达12541分，同时辅以8GB运行内存和Android10系统，仅从分数而言，这款手机的性能表现相当可

发表于 02-15 12:51 •1876次阅读

一加8 Pro 5G跑分曝光多核跑分达12686

近日，知名跑分软件Geekbench出现了一加8 Pro 5G的跑分成绩，让我们提前一睹这款骁龙865旗舰的性能吧。

发表于 03-02 09:43 •2245次阅读

Cinebench R23 多款 CPU 的跑分苹果开发者套装的 A12Z 跑分 987 分

IT之家 11 月 12 日消息昨天，知名 CPU 跑分软件 Cinebench 现已发布 R23 版本，支持了搭载苹果 M1 芯片的设备。现在，根据数码博主 @EpKong，CHH 统计了

发表于 11-12 14:57 •3265次阅读

麒麟950是几纳米工艺_麒麟950跑分

华为麒麟950跑分是多少？跑分，也许是衡量一款处理器是否彪悍的最简单暴力手段了。

发表于 11-17 15:24 •1w次阅读

联发科全新芯片跑分公布

11月30日消息，安兔兔今天曝光了联发科全新芯片的跑分成绩，综合跑分高达62万分，综合跑分情况已

发表于 12-01 09:38 •3185次阅读

基于牛顿法的自适应高阶跑分距离推荐模型

基于牛顿法的自适应高阶跑分距离推荐模型

发表于 06-17 15:34 •10次下载