国内8种大模型体验测评报告（2023）-电子发烧友网

《人工智能大模型体验报告2.0》报告指出当前国产大模型产品已具有显著进步，讯飞星火、百度文心一言、商汤商量和智谱AI-ChatGLM均表现抢眼，但与接受过高等教育的人类相比，在智商、情商等方面仍存在一定程度差距。

报告选取360智脑、百度文心一言、澜舟 Mchat、商汤商量、讯飞星火、阿里通义千问、昆仑天工、智谱 ChatGLM 共 8 种大模型产品进行评测，根据基础能力、智商能力、情商能力、工具提取四个维度计算总分。

报告显示，与2023年6月相比，当前中国大模型产品进步显著。但与接受过高等教育的人类相比，大模型在智商、情商等方面还存在一定程度差距。具体来看，讯飞星火在工作提效方面优势明显，百度文心一言基础能力仍处领军水准，商汤商量则在情商方面表现优秀，智谱AI-ChatGLM整体表现优秀。

针对各维度能力测评，该报告还给出了相应的案例展示和分析。

在基础能力方面，人类与AI之间的差距并不显著。课题组分别从语言能力（35%）、AI向善（10%）、跨模态（20%）和多轮对话（35%）四大指标进行测评。测评显示，科技企业大模型中，百度文心一言表现最为抢眼，商汤商量、智谱AI-ChatGLM、360智脑表现优良。

在智商评估方面，人类在智商方面仍然具有明显优势。课题组分别从常识知识（20%）、逻辑能力（50%）和专业知识（30%）方面对科技企业大模型进行考量。结果显示，讯飞星火、智谱AI-ChatGLM表现突出，百度文心一言、昆仑万维天工表现优良。

在情商方面，AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势，和更灵活的处理能力。通过对处理日常事项（35%）、一语双关（30%）、人际关系（35%）问题进行分析发现，科技企业大模型中，商汤商量表现亮眼，百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

在工作效率提升方面，课题组重点在工具提效（50%）和生成创新（50%）方面进行考量。结果显示，讯飞星火表现最为抢眼，百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。不过，尽管AI具有高速度和高效率的优势，但在某些复杂和具有创新性的任务中，人类的智慧和想象力仍然具有无法替代的作用。

在不同领域中，AI和人类表现出不同的优劣势，但在整体上，AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响，大模型正在加速走进生活、走进产业。在本次体验测评基础上，研究团队将继续深耕，加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31155

浏览量
269487
人工智能

人工智能

+关注

关注
1792

文章
47442

浏览量
239004
大模型

大模型

+关注

关注
2

文章
2491

浏览量
2870

原文标题：国内8种大模型体验测评报告（2023）

文章出处：【微信号：AI_Architect，微信公众号：智能计算芯世界】欢迎添加关注！文章转载请注明出处。

商汤日日新·商量大模型位列国内大模型第一梯队

刚刚，中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》。

发表于 11-08 15:38 •393次阅读

高通发布《2023高通中国企业责任报告》

不久前，高通公司发布《2023高通中国企业责任报告》，这是高通连续第九年发布其中国区企业责任报告。此份报告介绍了高通如何通过赋能数字化转型、负责任地经营以及可持续地运营这三个战略重点领

发表于 11-08 11:18 •366次阅读

中兴通讯发布2023年可持续发展报告

近日，中兴通讯发布2023年度可持续发展报告，报告全面展现了2023年中兴通讯秉承“数字经济筑路者”的生态定位，在绿色创新、社会贡献、企业治理等领域的战略布局、实施举措和进展成果。自2

发表于 09-14 14:33 •1422次阅读

云知声山海大模型位居全球大模型第一梯队

SuperCLUE发布《中文大模型基准测评2024上半年报告》，报告选取国内外有代表性的33个大模型

发表于 09-12 14:41 •617次阅读

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

本帖最后由 jf_40317719 于 2024-8-22 10:15 编辑多模态交互离不开硬件载体，近期有不少开发者在研究聆思CSK6大模型开发板除了使用出厂示例自带的星火大模型，能不能

发表于 08-22 10:12

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

日前，中文大模型测评基准SuperCLUE发布最新榜单，对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评，结果显示在SuperCLUE综合基准上，日日

发表于 05-21 14:45 •781次阅读

小米大语言模型获备案，有望应用于汽车、手机等产品

早在去年8月，小米公司的MiLM大模型便首次亮相C-Eval、CMMLU两大模型测评榜单，在C-Eval总榜单中位列第十，同参数量级排名第一。

发表于 05-16 14:32 •354次阅读

ChatGPT、Gemini、通义千问等一众大语言模型，哪家更适合您？

] 就以“ChatGPT、Gemini、通义千问等一众大语言模型，哪家更适合您”这样的主题，开展了一次深度的大语言模型的测评。开放夜现场测评了十几个

发表于 05-14 17:35 •665次阅读

“云天天书”大模型成功入选“磐石·X”榜单！

日前，大模型安全性测评“磐石·X”榜单公布，“云天天书”大模型符合指令安全、内容安全、模型安全、网络安全和数据安全的A级安全性要求，达到测评

发表于 04-30 14:17 •857次阅读

2023年光伏行业发展回顾报告

电子发烧友网站提供《2023年光伏行业发展回顾报告.pdf》资料免费下载

发表于 04-30 11:32 •62次下载

2023 “IBM 影响力”报告

4月 11日，IBM 发布 2023年“IBM 影响力”报告。该报告总结了公司 2023年在环境、社会和治理 (ESG) 方面实施的举措、合作伙伴以及投资情况，以便持续推进构建更加可持

发表于 04-21 09:36 •626次阅读

理想汽车发布2023年ESG报告

2024年4月12日，理想汽车发布《2023年环境、社会及管治报告》（简称“ESG报告”），从“合规经营责任管理”“创新先行卓越产品”“包容关爱共同成长”“低碳运营绿色理想”“同心协力温暖

发表于 04-14 10:22 •1357次阅读

芯原股份正式发布《2023年社会责任报告》

芯原股份正式发布《2023年社会责任报告》，叙述了芯原2023年在追求经营绩效的同时，积极践行社会责任的工作成果，主动回应利益相关方及社会各界的关注重点。

发表于 04-01 09:32 •533次阅读

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

2023年10月，国产大模型玩家就有近200家，国内AI大模型如雨后春笋般涌现，一时间形成了百家争鸣、百花齐放的发展态势。 “大模型”当之无

发表于 03-11 15:16

佐思汽研发布《2023-2024年汽车AI大模型技术和应用趋势报告》

2023年以来，越来越多车型开始接入大模型，越来越多Tier1推出汽车大模型解决方案。

发表于 02-28 14:21 •3309次阅读