0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中文大模型测评基准SuperCLUE:商汤日日新5.0,刷新国内最好成绩

商汤科技SenseTime 来源:商汤科技SenseTime 2024-05-21 14:45 次阅读

编者按:日前,中文大模型测评基准SuperCLUE发布最新榜单,对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评,结果显示在SuperCLUE综合基准上,日日新 5.0表现不俗,以总分80.03分的优异成绩刷新国内最好成绩,并在中文综合成绩上超过GPT-4-Turbo-0125。

SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,是被行业广泛认可的AI大模型权威评测榜单。以下评测报告转载自 SuperCLUE官方发布报道。

4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。据官方披露,SenseChat V5具备更强的知识、数学、推理及代码能力,综合性能全面对标GPT-4 Turbo。

那么,SenseChat V5在SuperCLUE中文基准上的表现如何?与国内外代表性大模型相比处于什么位置?在各项基础能力上如计算推理、长文本、代码生成、生成创作上会有怎样的表现?

SuperCLUE团队对SenseChat V5在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。

测评环境

参考标准:SuperCLUE综合性测评标准

评测模型:SenseChat V5(官方于5月11日提供的内测API版本)

评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

测评方法

本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

ce86e4cc-173c-11ef-b74b-92fbcf53809c.png

ceaa17ee-173c-11ef-b74b-92fbcf53809c.png

先说结论

结论1:在SuperCLUE综合基准上,SenseChat V5表现不俗,以总分80.03分的优异成绩刷新国内最好成绩,并且在中文综合成绩上超过GPT-4-Turbo-0125有0.9分。

结论2:在本次测评中,理科任务上SenseChat V5取得国内最好成绩,较GPT-4-Turbo-0125低4.35分,还有一定提升空间;文科任务上SenseChat V5表现十分出色,以82.20分取得国内外最高分。

结论3:在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置,适用于智能体、内容创作、长程对话等应用场景。代码能力还有一定提升空间。

cee721ca-173c-11ef-b74b-92fbcf53809c.png

对比模型数据来源: SuperCLUE, 2024年4月30日

以下是我们从定量定性两个角度对模型进行的测评分析。

测评分析

1定量分析

在SuperCLUE测评中,SenseChat V5总体表现如下:

SenseChat V5总体表现

cfdfe652-173c-11ef-b74b-92fbcf53809c.png

注:对比模型数据均来源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。

在SuperCLUE通用综合测评基准上,SenseChat V5取得80.03分,表现出色,刷新国内大模型最好成绩。并且,SenseChat V5在中文综合能力上较GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任务上的表现

d01b3496-173c-11ef-b74b-92fbcf53809c.png

对比模型数据来源:SuperCLUE SenseChat V5在理科任务上表现不俗,取得76.78分,国内模型中排名第一,较GPT-4-Turbo-0125低4.35分,还有一定提升空间。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。

SenseChat V5在文科任务上的表现

d06b3e78-173c-11ef-b74b-92fbcf53809c.png

对比模型数据来源:SuperCLUE SenseChat V5在文科任务上表现出色,取得82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩;

d0d7487a-173c-11ef-b74b-92fbcf53809c.png

对比数据来源:SuperCLUE, 2024年4月30日 将SenseChat V5与国内大模型平均得分对比,我们可以发现,SenseChat V5在所有能力上均高于平均线,展现出较均衡的综合能力。尤其在计算(+16.15)、逻辑推理(+18.89)、代码(+19.06)、长文本(+21.16)能力上远高出平均线15分以上。

SenseChat V5与国外代表模型对比

d13c66a6-173c-11ef-b74b-92fbcf53809c.png

将SenseChat V5与国外代表大模型对比,SenseChat V5在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。在理科如计算、逻辑推理、代码能力上与GPT-4-Turbo-0125还有一定提升空间。

小结

从评测结果我们发现,SenseChat V5综合能力上表现不俗,在总分上刷新了国内外最好成绩,其中文科任务上有超过GPT-4 Turbo的表现,理科任务上刷新国内最好成绩,与GPT-4 Turbo还有一定距离。 2定性分析

通过一些典型示例,对比定性分析SenseChat V5的特点。

示例1:长文本

d15b7834-173c-11ef-b74b-92fbcf53809c.png

示例2:生成创作

d18d438c-173c-11ef-b74b-92fbcf53809c.png

示例3:逻辑推理

d1ca9c14-173c-11ef-b74b-92fbcf53809c.png

模型技术特点

据官方介绍,SenseChat V5模型能力显著提升,其背后是训练数据的全面升级与训练方法的有效提升

在数据方面,SenseChat V5采用了新一代数据生产管线,生产了10T tokens的高质量训练数据。通过多个模型进行数据的过滤和提炼,显著提升了预料质量和信息密度;基于精细聚类的均衡采样确保对世界知识覆盖的完整性。同时,SenseChat V5还大规模采用了思维型的合成数据(数千亿tokens量级),这对于模型在逻辑推理、数学和编程等方面的能力提升起到了关键作用。

SenseChat V5采用了自研的多阶段训练链路,包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标,实现更敏捷的调优,也避免了不同目标之间的相互干扰。其中在预训练阶段,分阶段培养模型的基础语言和知识能力、长文建模能力、以及复杂逻辑推理能力(规模化采用合成数据);在 SFT 阶段,把任务指令遵循和对话体验优化分解到双阶段进行;在 RLHF 阶段,采用统一的多维度奖励模型和动态系统提示词对多维度偏好进行打分,从而更好地实现模型在多个维度和人类期望对齐。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPT
    GPT
    +关注

    关注

    0

    文章

    351

    浏览量

    15308
  • AI大模型
    +关注

    关注

    0

    文章

    307

    浏览量

    288

原文标题:中文大模型测评基准SuperCLUE:商汤「日日新5.0」总分80.03刷新最好成绩,文科能力领跑

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    商汤日日新·商量大模型位列国内模型第一梯队

    刚刚,中文模型测评基准SuperCLUE发布《中文模型
    的头像 发表于 11-08 15:38 240次阅读

    商汤日日新模型中标上海电信订单

    近日,中国电信上海公司公布《产数开发代码助手》项目采购结果:凭借「日日新」大模型出色的代码能力,商汤科技中标。由「商汤•小浣熊家族」系列产品团队提供相关业务产品服务支持。
    的头像 发表于 07-29 14:25 497次阅读

    商汤科技"日日新SenseNova 5.5"大模型闪耀WAIC,引领AI新纪元

    在近期举办的世界人工智能大会(WAIC)上,商汤科技携其流式多模态交互大模型日日新SenseNova 5.5”震撼登场,不仅为大会带来了前所未有的AI体验,更通过多场主题论坛活动,深入探讨了AI大
    的头像 发表于 07-08 16:05 533次阅读

    商汤日日新”大模型全面赋能2024 WAIC

    7月6日,WAIC 2024迎来第三天。 商汤科技全新升级的「日日新SenseNova 5.5」备受热议,作为国内首个具备流式原生多模态交互能力的大模型,交互效果和多项核心指标实现
    的头像 发表于 07-08 15:54 592次阅读

    商汤科技发布日日新5.5大模型体系

    商汤科技近日震撼发布其最新的日日新5.5大模型体系,标志着人工智能领域又迈出了坚实的一步。该体系以6000亿参数的超大规模基础模型——日日新
    的头像 发表于 07-08 15:05 521次阅读

    商汤宣布将免费向粤语区用户推出粤语大模型Web版及App版

    继4月发布「日日新SenseNova 5.0」以来,商汤模型继续日日精进,新技频出!
    的头像 发表于 05-31 10:51 719次阅读
    <b class='flag-5'>商汤</b>宣布将免费向粤语区用户推出粤语大<b class='flag-5'>模型</b>Web版及App版

    商汤发布日日新模型5.0粤语版

    近日,人工智能领军企业商汤科技正式对外发布了其最新研发成果——日日新模型5.0粤语版。该模型针对粤语用户进行了深度优化,旨在提供更精准、更
    的头像 发表于 05-30 09:21 593次阅读

    商汤科技即将推出日日新模型5.0粤语版本

    在盛大的“新质企业家联合会”成立典礼上,商汤科技副总裁、智慧城市与商业事业群总裁张果琲宣布了一项重要消息。商汤科技即将推出日日新模型5.0
    的头像 发表于 05-13 10:58 552次阅读

    商汤将发布日日新模型5.0粤语版本

    商汤科技即将迎来一项重要更新,他们将发布日日新模型5.0的粤语版本。这一版本是基于商汤科技现有的大装置和
    的头像 发表于 05-08 09:33 458次阅读

    商汤科技发布“日日新SenseNova 5.0”大模型

    商汤科技近日隆重推出全新升级的“日日新SenseNova 5.0”大模型,其卓越性能赢得了业界的广泛赞誉。凭借这一行业领先的技术实力,商汤
    的头像 发表于 05-07 14:13 533次阅读

    商汤科技发布日新5.0模型,对标GPT-4 Turbo,预计2024年落地端侧

    据了解,4月23日,商汤科技在上海举行了技术交流日活动,公布了“云、端、边”全栈大模型产品矩阵,并对“日日新SenseNova 5.0”大模型
    的头像 发表于 04-25 09:30 534次阅读

    商汤科技新升级大模型,对标GPT-4 Turbo 

    昨日,商汤科技在沪举办技术交流日活动,公布了其“云、端、边”全栈大模型产品矩阵,并对“日日新SenseNova 5.0”大模型体系进行了全面
    的头像 发表于 04-24 17:17 652次阅读

    商汤科技发布5.0多模态大模型,综合能力全面对标GPT-4 Turbo

    场景应用需求;升级“日日新SenseNova 5.0”大模型体系,综合能力全面对标GPT-4 Turbo。 此外对于文生视频徐立也表示商汤科技很快就会发布相关的平台产品。 备受瞩目的
    的头像 发表于 04-24 16:49 1058次阅读

    商汤日日新SensNova 4.0发布

    商汤科技“日日新SenseNova 4.0”正式发布,标志着大模型体系的一次重大飞跃。该模型在知识覆盖、推理能力、长文本理解、数字推理以及代码生成等多个维度上实现了全面升级。
    的头像 发表于 02-05 10:29 873次阅读

    商汤科技发布新版日日新·商量大语言模型

    商汤科技近日发布了新版的日日新·商量大语言模型-通用版本(SenseChat V4)。这一版本的模型在知识理解、阅读理解、综合推理、数理、代码和长文本理解等领域的通用能力得到了显著提升
    的头像 发表于 02-04 10:30 908次阅读