模型表现好,金牌少不了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:
商汤日日新·商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。
本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:
【理科任务】分为计算、逻辑推理、代码、工具使用测评集;
【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;
【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。
商汤SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。
值得注意的是,在【Hard】的两项任务——精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。
未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
原文标题:近3000道题,商汤大模型拿了金牌
文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
相关推荐
国际权威咨询机构IDC近日发布《中国智算服务市场(2024上半年)跟踪》报告。报告显示,2024年上半年,商汤科技作为国内领先的智算服务商,以13.3%的市场份额稳居GenAI IaaS市场Top3,位列GenAI IaaS领域
发表于 12-24 09:23
•301次阅读
刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。
发表于 12-20 10:39
•241次阅读
SuperCLUE发布《中文大模型基准测评2024上半年报告》,报告选取国内外有代表性的33个大模型在6月份的版本,通过多维度综合性测评,对国内外大
发表于 09-12 14:41
•617次阅读
,与火山引擎、阿里巴巴共同跻身2023年下半年中国GenAI IaaS服务厂商TOP 3,以显著的市场份额优势位居GenAI IaaS领域的第一梯队。
发表于 07-30 11:00
•800次阅读
近日,中国电信上海公司公布《产数开发代码助手》项目采购结果:凭借「日日新」大模型出色的代码能力,商汤科技中标。由「商汤•小浣熊家族」系列产品团队提供相关业务产品服务支持。
发表于 07-29 14:25
•553次阅读
7月6日,WAIC 2024迎来第三天。 商汤科技全新升级的「日日新SenseNova 5.5」备受热议,作为国内首个具备流式原生多模态交互能力的大模型,交互效果和多项核心指标实现
发表于 07-08 15:54
•637次阅读
商汤科技近日震撼发布其最新的日日新5.5大模型体系,标志着人工智能领域又迈出了坚实的一步。该体系以6000亿参数的超大规模基础模型——
发表于 07-08 15:05
•579次阅读
近日,人工智能领军企业商汤科技正式对外发布了其最新研发成果——日日新大模型5.0粤语版。该模型针对粤语用户进行了深度优化,旨在提供更精准、更高效的自然语言处理服务。
发表于 05-30 09:21
•638次阅读
日前,中文大模型测评基准SuperCLUE发布最新榜单,对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评,结果显示在SuperCLUE综合基准上,
发表于 05-21 14:45
•762次阅读
在盛大的“新质企业家联合会”成立典礼上,商汤科技副总裁、智慧城市与商业事业群总裁张果琲宣布了一项重要消息。商汤科技即将推出日日新大模型5.0
发表于 05-13 10:58
•596次阅读
商汤科技即将迎来一项重要更新,他们将发布日日新大模型5.0的粤语版本。这一版本是基于商汤科技现有
发表于 05-08 09:33
•502次阅读
商汤科技近日隆重推出全新升级的“日日新SenseNova 5.0”大模型,其卓越性能赢得了业界的广泛赞誉。凭借这一行业领先的技术实力,商汤绝
发表于 05-07 14:13
•570次阅读
昨日,商汤科技在沪举办技术交流日活动,公布了其“云、端、边”全栈大模型产品矩阵,并对“日日新SenseNova 5.0”大模型体系进行了全面升级。基于此,
发表于 04-24 17:17
•693次阅读
商汤科技“日日新SenseNova 4.0”正式发布,标志着大模型体系的一次重大飞跃。该模型在知识覆盖、推理能力、长文本理解、数字推理以及代
发表于 02-05 10:29
•929次阅读
商汤科技近日发布了新版的日日新·商量大语言模型-通用版本(SenseChat V4)。这一版本的模型
发表于 02-04 10:30
•976次阅读
评论