0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内8种大模型体验测评报告(2023)

智能计算芯世界 来源:智能计算芯世界 2023-08-21 15:48 次阅读

人工智能大模型体验报告2.0》报告指出当前国产大模型产品已具有显著进步,讯飞星火、百度文心一言、商汤商量和智谱AI-ChatGLM均表现抢眼,但与接受过高等教育的人类相比,在智商、情商等方面仍存在一定程度差距。

报告选取360智脑、百度文心一言、澜舟 Mchat、商汤商量、讯飞星火、阿里通义千问、昆仑天工、智谱 ChatGLM 共 8 种大模型产品进行评测,根据基础能力、智商能力、情商能力、工具提取四个维度计算总分。

报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,讯飞星火在工作提效方面优势明显,百度文心一言基础能力仍处领军水准,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现优秀。

针对各维度能力测评,该报告还给出了相应的案例展示和分析。

在基础能力方面,人类与AI之间的差距并不显著。课题组分别从语言能力(35%)、AI向善(10%)、跨模态(20%)和多轮对话(35%)四大指标进行测评。测评显示,科技企业大模型中,百度文心一言表现最为抢眼,商汤商量、智谱AI-ChatGLM、360智脑表现优良。

在智商评估方面,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。结果显示,讯飞星火、智谱AI-ChatGLM表现突出,百度文心一言、昆仑万维天工表现优良。

在情商方面,AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势,和更灵活的处理能力。通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

在工作效率提升方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量。结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。不过,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。

在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。在本次体验测评基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。


8c6e799a-3fb7-11ee-ac96-dac502259ad0.jpg

8c96aa82-3fb7-11ee-ac96-dac502259ad0.jpg

8cb26e98-3fb7-11ee-ac96-dac502259ad0.jpg

8cc9a55e-3fb7-11ee-ac96-dac502259ad0.jpg

8cee04e4-3fb7-11ee-ac96-dac502259ad0.jpg

8d38e482-3fb7-11ee-ac96-dac502259ad0.jpg

8d5ead5c-3fb7-11ee-ac96-dac502259ad0.jpg

8da5e230-3fb7-11ee-ac96-dac502259ad0.jpg

8dce081e-3fb7-11ee-ac96-dac502259ad0.jpg

8de89c24-3fb7-11ee-ac96-dac502259ad0.jpg

8e007768-3fb7-11ee-ac96-dac502259ad0.jpg

8e2299f6-3fb7-11ee-ac96-dac502259ad0.jpg

8e5c568c-3fb7-11ee-ac96-dac502259ad0.jpg

8e7e38d8-3fb7-11ee-ac96-dac502259ad0.jpg

8eae686e-3fb7-11ee-ac96-dac502259ad0.jpg

8ee20034-3fb7-11ee-ac96-dac502259ad0.jpg

8f073304-3fb7-11ee-ac96-dac502259ad0.jpg

8f266f8a-3fb7-11ee-ac96-dac502259ad0.jpg

8f4c71bc-3fb7-11ee-ac96-dac502259ad0.jpg

8f8e1482-3fb7-11ee-ac96-dac502259ad0.jpg

8fb0075e-3fb7-11ee-ac96-dac502259ad0.jpg

8fe6b218-3fb7-11ee-ac96-dac502259ad0.jpg

901e1cc6-3fb7-11ee-ac96-dac502259ad0.jpg

90417d24-3fb7-11ee-ac96-dac502259ad0.jpg

9072bea2-3fb7-11ee-ac96-dac502259ad0.jpg

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31155

    浏览量

    269487
  • 人工智能
    +关注

    关注

    1792

    文章

    47442

    浏览量

    239004
  • 大模型
    +关注

    关注

    2

    文章

    2491

    浏览量

    2870

原文标题:国内8种大模型体验测评报告(2023)

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    商汤日日新·商量大模型位列国内模型第一梯队

    刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》。
    的头像 发表于 11-08 15:38 393次阅读

    高通发布《2023高通中国企业责任报告

    不久前,高通公司发布《2023高通中国企业责任报告》,这是高通连续第九年发布其中国区企业责任报告。此份报告介绍了高通如何通过赋能数字化转型、负责任地经营以及可持续地运营这三个战略重点领
    的头像 发表于 11-08 11:18 366次阅读

    中兴通讯发布2023年可持续发展报告

    近日,中兴通讯发布2023年度可持续发展报告报告全面展现了2023年中兴通讯秉承“数字经济筑路者”的生态定位,在绿色创新、社会贡献、企业治理等领域的战略布局、实施举措和进展成果。自2
    的头像 发表于 09-14 14:33 1422次阅读

    云知声山海大模型位居全球大模型第一梯队

    SuperCLUE发布《中文大模型基准测评2024上半年报告》,报告选取国内外有代表性的33个大模型
    的头像 发表于 09-12 14:41 617次阅读

    【附实操视频】聆思CSK6大模型开发板接入国内主流大模型(星火大模型、文心一言、豆包、kimi、智谱glm、通义千问)

    本帖最后由 jf_40317719 于 2024-8-22 10:15 编辑 多模态交互离不开硬件载体,近期有不少开发者在研究聆思CSK6大模型开发板除了使用出厂示例自带的星火大模型,能不能
    发表于 08-22 10:12

    中文大模型测评基准SuperCLUE:商汤日日新5.0,刷新国内最好成绩

    日前,中文大模型测评基准SuperCLUE发布最新榜单,对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评,结果显示在SuperCLUE综合基准上,日日
    的头像 发表于 05-21 14:45 781次阅读
    中文大<b class='flag-5'>模型</b><b class='flag-5'>测评</b>基准SuperCLUE:商汤日日新5.0,刷新<b class='flag-5'>国内</b>最好成绩

    小米大语言模型获备案,有望应用于汽车、手机等产品

    早在去年8月,小米公司的MiLM大模型便首次亮相C-Eval、CMMLU两大模型测评榜单,在C-Eval总榜单中位列第十,同参数量级排名第一。
    的头像 发表于 05-16 14:32 354次阅读

    ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您?

    ] 就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语言模型测评。开放夜现场测评了十几个
    的头像 发表于 05-14 17:35 665次阅读

    “云天天书”大模型成功入选“磐石·X”榜单!

    日前,大模型安全性测评“磐石·X”榜单公布,“云天天书”大模型符合指令安全、内容安全、模型安全、网络安全和数据安全的A级安全性要求,达到测评
    的头像 发表于 04-30 14:17 857次阅读
    “云天天书”大<b class='flag-5'>模型</b>成功入选“磐石·X”榜单!

    2023年光伏行业发展回顾报告

    电子发烧友网站提供《2023年光伏行业发展回顾报告.pdf》资料免费下载
    发表于 04-30 11:32 62次下载

    2023 “IBM 影响力”报告

    4月 11日,IBM 发布 2023年“IBM 影响力”报告。该报告总结了公司 2023年在环境、社会和治理 (ESG) 方面实施的举措、合作伙伴以及投资情况,以便持续推进构建更加可持
    的头像 发表于 04-21 09:36 626次阅读

    理想汽车发布2023年ESG报告

    2024年4月12日,理想汽车发布《2023年环境、社会及管治报告》(简称“ESG报告”),从“合规经营 责任管理”“创新先行 卓越产品”“包容关爱 共同成长”“低碳运营 绿色理想”“同心协力 温暖
    的头像 发表于 04-14 10:22 1357次阅读

    芯原股份正式发布《2023年社会责任报告

    芯原股份正式发布《2023年社会责任报告》,叙述了芯原2023年在追求经营绩效的同时,积极践行社会责任的工作成果,主动回应利益相关方及社会各界的关注重点。
    的头像 发表于 04-01 09:32 533次阅读
    芯原股份正式发布《<b class='flag-5'>2023</b>年社会责任<b class='flag-5'>报告</b>》

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    2023年10月,国产大模型玩家就有近200家,国内AI大模型如雨后春笋般涌现,一时间形成了百家争鸣、百花齐放的发展态势。 “大模型”当之无
    发表于 03-11 15:16

    佐思汽研发布《2023-2024年汽车AI大模型技术和应用趋势报告

    2023年以来,越来越多车型开始接入大模型,越来越多Tier1推出汽车大模型解决方案。
    的头像 发表于 02-28 14:21 3309次阅读
    佐思汽研发布《<b class='flag-5'>2023</b>-2024年汽车AI大<b class='flag-5'>模型</b>技术和应用趋势<b class='flag-5'>报告</b>》