0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

跑分没输过,体验没赢过,大模型刷分何时休?

新火种 来源:新火种 作者:新火种 2023-12-13 09:09 次阅读

作者:一号

编辑:美美

手机到大模型,国内产品为啥都这么热衷跑分?

IDCAI大模型技术能力评估,12项指标,7项满分,文心大模型3.5“大满贯”;360智脑在SuperCLUE评测中多项能力位列国产大模型第一,某些方面甚至跑赢了GPT-4;夸克大模型在C-Eval和CMMLU两大权威评测榜单中名列第一,显示出其在写作、考试等部分场景中甚至优于GPT-4......

wKgZomV3wHeANcIXAAumtSt2Mh4559.jpg

今年以来,国产AI大模型发展趋势之迅猛,不得不让人感慨。截至目前,国产大模型数量已经超过了200个,而且,这些大模型纷纷表现不俗,从百度文心一言到阿里巴巴的夸克大模型,国产AI在各类评测榜单上的表现引人注目。有人对此评价,“跑分没输过,体验没赢过”。

这种似曾相识的“跑分”现象,不禁让人想到手机市场里类似的做法。这种在评测中名列前茅、表现出色,但实际用户体验一言难尽的情况,究竟意味着什么?

为何跑分与体验不符?

回顾手机市场,“跑分没输过,体验没赢过”这句话最开始就是从手机圈中兴起的,各大厂商通过不断叠加定语,来让自己获得第一;还有的手机会自动识别跑分软件,针对性地开启性能模式,让自己的跑分数据好看些,从而实现“作弊”。用户买到跑分高的手机后,实际体验并不是那么回事。

而在AI大模型领域,评估标准则相对公平,并且是同意的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估人类级任务的能力)。

wKgaomV3wHmAKZdKAKNpTklkemA192.png

目前国内厂商经常饮用的榜单就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是由各大高校的AI专业人士设立的。

尽管大模型的评测标准相对公平,但其仍有一定的局限性,实际的测评之中总会出现问题,其中一个最大的问题就是“考题泄露”。

大模型评测的一个主要方法就是做题。为了让评测相对透明公开,避免暗箱操作,评测机构通常会将评测的方法、标准甚至是题库对外公开。例如C-Eval榜单在上线之初就有13948道题目,由于题库有限,并且更新频率不是特别高,这就给了一些大模型刷题“钻空子”的机会。

我们都知道,如果在考试之前知道会考哪些题目,那考生完全可以做针对性的学习,大模型也一样,并且大模型最擅长的就是记忆。在评测之前,把题库直接加入大模型的训练集,训练之后的大模型就能在评测中表现得比实际能力更好,甚至跑出一些夸张的成绩,例如1.3B的模型在某些任务上超越了10倍体量的大模型。

那么这样的评测结果,跟实际体验一定会很不相符。

为何热衷于跑分?

无论是国产手机厂商还是AI大模型公司,他们对跑分的热衷,本质上是一种营销策略。跑分成绩容易被量化、对比,因此成为了向公众展示技术实力的便捷手段。这种做法在短期内可能会吸引消费者和投资者的注意,但它也可能引起误导,使人们过分关注理论性能,而忽视了实际应用中的体验和效能。

wKgaomV3wHqAfwrnAAkbdfqpYbk268.jpg

这种营销策略的问题在于,它可能导致公司本末倒置,过分投入于提高特定测试的分数,而非真正的技术创新。在手机行业,这可能意味着优化设备性能以提升特定跑分软件的测试成绩;在AI领域,则可能表现为优化模型以应对评测榜单的特定题目。这种做法虽然能在短期内提高产品在评测榜单上的排名,但却可能忽视了产品在真实使用环境中的性能和用户体验。

这种以跑分为核心的营销策略需要被重新审视。尽管高分成绩在营销中具有吸引力,但它们并不总是反映产品的真实价值。对于消费者而言,理论上的高性能与日常使用中的实际体验之间往往存在差距。因此,无论是手机行业还是AI领域,公众和行业都应该更加关注产品在真实世界中的表现。

要放弃跑分吗?

从隋唐的科举到今天的高考,从国内的四六级到国外的托福雅思,考试在时间和空间的维度上,都是一种相对公平的衡量机制。因此,大模型评测作为大模型的“考试”,同样不能被轻易抛弃。

倘若评测相对准确、靠谱、权威,那么对于所有的大模型公司来说都是好事。研发者可以通过评测结果了解自家大模型的优缺点,查漏补缺,找到正确的方向钻研算法、提升技术、加强训练,不断攻克,进行优化迭代,从而让产品更具有竞争力。

对于AI大模型开发者而言,榜单的排名不应该成为最终目的,真正的挑战在于如何将先进的技术转化为实际应用中的有效工具,这不仅仅是一场分数的竞赛,更是对技术创新和实用性的追求。我们期待一个更加全面和科学的评测体系的出现,这不仅能正确评估AI模型的实际能力,还能促进整个行业向着更加健康、理性的方向发展。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29744

    浏览量

    268043
  • 大模型
    +关注

    关注

    2

    文章

    2268

    浏览量

    2345
收藏 人收藏

    评论

    相关推荐

    MCU芯片大战

    今天 我们来个中国通用32位MCU芯片 大战!说起MCU,在物联网,智能硬件兴起的当...
    发表于 11-03 06:08

    小米新机成为再次王!小米6达到了21万!

    早几年前,小米是很喜欢玩这个概念的。因此小米在之前的口号直接就有:不服!不过随着高通处理器被越来越多的手机厂商所接纳和采用,国产手机在
    发表于 01-06 23:28 762次阅读

    不服! 小米6搭载高通835高达110万

     随着小米6发布日期的不断推进近日网上曝出一张小米6的情况,确认搭载高通835处理器鲁大师竟然高达110万之多!我很确定这是真的鲁
    发表于 01-17 08:44 1761次阅读

    不服来,小米占安兔兔TOP10近半席

     不服曾经是小米手机发布会的“口头禅”,虽然不是评判手机优劣的唯一标准,但确实是真实反馈出设备的整体状态的量化标准。在上周的性价比榜单之后,今日安兔兔又带来了2017年1月份
    发表于 02-28 10:37 1362次阅读
    不服来<b class='flag-5'>跑</b><b class='flag-5'>分</b>,小米占安兔兔<b class='flag-5'>跑</b><b class='flag-5'>分</b>TOP10近半席

    三星Exynos 9815处理器曝光?超过苹果A11?

    近日一款型号为SM-N960F的三星手机现身Geekbench4分网站,在内置8GB内存的情况下,单核5162的,多核10704的成绩远远的把苹果的A11甩在了身后(A11单核
    的头像 发表于 05-16 11:17 8931次阅读
    三星Exynos 9815处理器<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光?<b class='flag-5'>跑</b><b class='flag-5'>分</b>超过苹果A11?

    新版iPhone现身Geekbench

    近日,知名应用 Geekbench 的资料库出现一款疑似 2018 年新款 iPhone 的结果。
    的头像 发表于 07-05 14:30 4848次阅读

    都2019年了为什么还需要

    如今不再是展现一款手机有多优秀的重要指标,但发布会上多少会提及几句作为陪衬,媒体也会把依旧作为评测的固定环节存在。
    的头像 发表于 05-15 15:02 2651次阅读

    魅族16s Pro的Geekbench曝光单核成绩为3570多核成绩为9493

    其实两周之前,魅族16s Pro的安兔兔就被曝光了。不过那一款的配置为6GB+128GB的规格,而今天曝光的Geekbench的机型配置为8GB+128GB的规格,当然,内存配
    发表于 08-26 16:11 1626次阅读

    三星Note10 Lite曝光单核分为667多核分为2030

    11月28日,三星Note10 Lite的GeekBench 5分在网上曝光,同时还曝光了部分配置信息。这款手机单核667,多核2
    发表于 11-29 15:15 1078次阅读

    一加8曝光该机单核分为4276多核达12541

    这款手机单核分为4276,多核达12541,同时辅以8GB运行内存和Android10系统,仅从分数而言,这款手机的性能表现相当可
    发表于 02-15 12:51 1837次阅读
    一加8<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光该机单核<b class='flag-5'>跑</b>分为4276<b class='flag-5'>分</b>多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>达12541<b class='flag-5'>分</b>

    一加8 Pro 5G曝光 多核达12686

    近日,知名软件Geekbench出现了一加8 Pro 5G的分成绩,让我们提前一睹这款骁龙865旗舰的性能吧。
    的头像 发表于 03-02 09:43 2212次阅读
    一加8 Pro 5G<b class='flag-5'>跑</b><b class='flag-5'>分</b>曝光 多核<b class='flag-5'>跑</b><b class='flag-5'>分</b>达12686

    Cinebench R23 多款 CPU 的 苹果开发者套装的 A12Z 987

    IT之家 11 月 12 日消息 昨天,知名 CPU 软件 Cinebench 现已发布 R23 版本,支持了搭载苹果 M1 芯片的设备。现在,根据数码博主 @EpKong,CHH 统计了
    的头像 发表于 11-12 14:57 3170次阅读

    麒麟950是几纳米工艺_麒麟950

    华为麒麟950是多少?,也许是衡量一款处理器是否彪悍的最简单暴力手段了。
    的头像 发表于 11-17 15:24 1w次阅读

    联发科全新芯片公布

    11月30日消息,安兔兔今天曝光了联发科全新芯片的分成绩,综合高达62万,综合情况已
    的头像 发表于 12-01 09:38 3094次阅读

    基于牛顿法的自适应高阶距离推荐模型

    基于牛顿法的自适应高阶距离推荐模型
    发表于 06-17 15:34 10次下载