0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内8种大模型体验测评报告(2023)

智能计算芯世界 来源:智能计算芯世界 2023-08-21 15:48 次阅读

人工智能大模型体验报告2.0》报告指出当前国产大模型产品已具有显著进步,讯飞星火、百度文心一言、商汤商量和智谱AI-ChatGLM均表现抢眼,但与接受过高等教育的人类相比,在智商、情商等方面仍存在一定程度差距。

报告选取360智脑、百度文心一言、澜舟 Mchat、商汤商量、讯飞星火、阿里通义千问、昆仑天工、智谱 ChatGLM 共 8 种大模型产品进行评测,根据基础能力、智商能力、情商能力、工具提取四个维度计算总分。

报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,讯飞星火在工作提效方面优势明显,百度文心一言基础能力仍处领军水准,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现优秀。

针对各维度能力测评,该报告还给出了相应的案例展示和分析。

在基础能力方面,人类与AI之间的差距并不显著。课题组分别从语言能力(35%)、AI向善(10%)、跨模态(20%)和多轮对话(35%)四大指标进行测评。测评显示,科技企业大模型中,百度文心一言表现最为抢眼,商汤商量、智谱AI-ChatGLM、360智脑表现优良。

在智商评估方面,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。结果显示,讯飞星火、智谱AI-ChatGLM表现突出,百度文心一言、昆仑万维天工表现优良。

在情商方面,AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势,和更灵活的处理能力。通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

在工作效率提升方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量。结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。不过,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。

在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。在本次体验测评基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。


8c6e799a-3fb7-11ee-ac96-dac502259ad0.jpg

8c96aa82-3fb7-11ee-ac96-dac502259ad0.jpg

8cb26e98-3fb7-11ee-ac96-dac502259ad0.jpg

8cc9a55e-3fb7-11ee-ac96-dac502259ad0.jpg

8cee04e4-3fb7-11ee-ac96-dac502259ad0.jpg

8d38e482-3fb7-11ee-ac96-dac502259ad0.jpg

8d5ead5c-3fb7-11ee-ac96-dac502259ad0.jpg

8da5e230-3fb7-11ee-ac96-dac502259ad0.jpg

8dce081e-3fb7-11ee-ac96-dac502259ad0.jpg

8de89c24-3fb7-11ee-ac96-dac502259ad0.jpg

8e007768-3fb7-11ee-ac96-dac502259ad0.jpg

8e2299f6-3fb7-11ee-ac96-dac502259ad0.jpg

8e5c568c-3fb7-11ee-ac96-dac502259ad0.jpg

8e7e38d8-3fb7-11ee-ac96-dac502259ad0.jpg

8eae686e-3fb7-11ee-ac96-dac502259ad0.jpg

8ee20034-3fb7-11ee-ac96-dac502259ad0.jpg

8f073304-3fb7-11ee-ac96-dac502259ad0.jpg

8f266f8a-3fb7-11ee-ac96-dac502259ad0.jpg

8f4c71bc-3fb7-11ee-ac96-dac502259ad0.jpg

8f8e1482-3fb7-11ee-ac96-dac502259ad0.jpg

8fb0075e-3fb7-11ee-ac96-dac502259ad0.jpg

8fe6b218-3fb7-11ee-ac96-dac502259ad0.jpg

901e1cc6-3fb7-11ee-ac96-dac502259ad0.jpg

90417d24-3fb7-11ee-ac96-dac502259ad0.jpg

9072bea2-3fb7-11ee-ac96-dac502259ad0.jpg

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    28978

    浏览量

    266381
  • 人工智能
    +关注

    关注

    1787

    文章

    46103

    浏览量

    235321
  • 大模型
    +关注

    关注

    2

    文章

    2154

    浏览量

    2012

原文标题:国内8种大模型体验测评报告(2023)

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中兴通讯发布2023年可持续发展报告

    近日,中兴通讯发布2023年度可持续发展报告报告全面展现了2023年中兴通讯秉承“数字经济筑路者”的生态定位,在绿色创新、社会贡献、企业治理等领域的战略布局、实施举措和进展成果。自2
    的头像 发表于 09-14 14:33 1193次阅读

    云知声山海大模型位居全球大模型第一梯队

    SuperCLUE发布《中文大模型基准测评2024上半年报告》,报告选取国内外有代表性的33个大模型
    的头像 发表于 09-12 14:41 433次阅读

    【附实操视频】聆思CSK6大模型开发板接入国内主流大模型(星火大模型、文心一言、豆包、kimi、智谱glm、通义千问)

    本帖最后由 jf_40317719 于 2024-8-22 10:15 编辑 多模态交互离不开硬件载体,近期有不少开发者在研究聆思CSK6大模型开发板除了使用出厂示例自带的星火大模型,能不能
    发表于 08-22 10:12

    中文大模型测评基准SuperCLUE:商汤日日新5.0,刷新国内最好成绩

    日前,中文大模型测评基准SuperCLUE发布最新榜单,对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评,结果显示在SuperCLUE综合基准上,日日
    的头像 发表于 05-21 14:45 583次阅读
    中文大<b class='flag-5'>模型</b><b class='flag-5'>测评</b>基准SuperCLUE:商汤日日新5.0,刷新<b class='flag-5'>国内</b>最好成绩

    ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您?

    ] 就以“ChatGPT、Gemini、通义千问等一众大语言模型,哪家更适合您”这样的主题,开展了一次深度的大语言模型测评。开放夜现场测评了十几个
    的头像 发表于 05-14 17:35 497次阅读

    2023年光伏行业发展回顾报告

    电子发烧友网站提供《2023年光伏行业发展回顾报告.pdf》资料免费下载
    发表于 04-30 11:32 33次下载

    2023 “IBM 影响力”报告

    4月 11日,IBM 发布 2023年“IBM 影响力”报告。该报告总结了公司 2023年在环境、社会和治理 (ESG) 方面实施的举措、合作伙伴以及投资情况,以便持续推进构建更加可持
    的头像 发表于 04-21 09:36 497次阅读

    芯原股份正式发布《2023年社会责任报告

    芯原股份正式发布《2023年社会责任报告》,叙述了芯原2023年在追求经营绩效的同时,积极践行社会责任的工作成果,主动回应利益相关方及社会各界的关注重点。
    的头像 发表于 04-01 09:32 364次阅读
    芯原股份正式发布《<b class='flag-5'>2023</b>年社会责任<b class='flag-5'>报告</b>》

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    2023年10月,国产大模型玩家就有近200家,国内AI大模型如雨后春笋般涌现,一时间形成了百家争鸣、百花齐放的发展态势。 “大模型”当之无
    发表于 03-11 15:16

    佐思汽研发布《2023-2024年汽车AI大模型技术和应用趋势报告

    2023年以来,越来越多车型开始接入大模型,越来越多Tier1推出汽车大模型解决方案。
    的头像 发表于 02-28 14:21 2800次阅读
    佐思汽研发布《<b class='flag-5'>2023</b>-2024年汽车AI大<b class='flag-5'>模型</b>技术和应用趋势<b class='flag-5'>报告</b>》

    OpenHarmony社区运营报告2023年12月)

    。 • 2023 年 12 月新增 19 款产品通过兼容性测评,累计 467 款产品通过兼容性测评。 一、代码贡献 1、2023 年度,累计新增 1615 万行代码;华为贡献 89%,
    发表于 01-10 15:44

    中文大模型基准测评2023年度报告

    国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内模型
    的头像 发表于 01-02 16:24 778次阅读
    中文大<b class='flag-5'>模型</b>基准<b class='flag-5'>测评</b><b class='flag-5'>2023</b>年度<b class='flag-5'>报告</b>

    【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov8s 自定义模型

    爱芯元智AX650N部署yolov8s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov8s模型(博主展示的是自己训练的手写数字识别
    发表于 11-24 20:40

    OpenHarmony社区运营报告2023年10月)

    成功商用,为全国公路隧道智能化改造提供了优秀样本,将行业智慧隧道的创新向前推动了一大步。 ● 本月新增22款产品通过兼容性测评,累计435款产品通过兼容性测评。 一、代码贡献 1、截至2023年10月
    发表于 11-09 08:42

    2023年小家电消费洞察报告

    2023年小家电消费洞察报告-库润数据-2023.8-22页
    发表于 11-07 16:39 0次下载