ChatGPT、Gemini、通义千问等一众大语言模型，哪家更适合您？-电子发烧友网

随着人工智能技术的飞速发展，大语言模型（Large Language Models, LLMs）在各行各业的应用日益广泛，尤其是在软件开发、数据分析、客户服务等领域。蘑菇云创客空间[445期开放夜]就以“ChatGPT、Gemini、通义千问等一众大语言模型，哪家更适合您”这样的主题，开展了一次深度的大语言模型的测评。开放夜现场测评了十几个国内外大语言模型，测评角度从逻辑、数学、翻译、伦理等方面，深入探讨和体验了这些大语言模型的实际效能。

测评的大语言模型：

1.Kimi 智能助手：由月之暗面科技有限公司开发的先进AI。

2.智谱清言：由智言科技开发的大语言模型，以深度学习和自然语言处理技术见长。

3.讯飞星火：科大讯飞推出的创新语言模型。

4.文心一言：百度的前沿语言模型，致力于理解和生成自然语言。

5.豆包：专注于提供个性化的智能对话服务。

6.通义千问：以广泛的知识库和灵活的对话能力著称。

7.海螺AI：新兴的语言模型，擅长处理复杂的语言任务。

8.腾讯混元助手：腾讯推出的多功能AI助手。

9.Sider: 是由日本公司Sider开发的大语言模型。

10.ChatGPT：由OpenAI开发，国际上广受认可的更大规模、功能更全面的语言模型。

11.Claude：Anthropic开发的先进语言模型，注重安全性和可靠性。

12.groq：以其专为AI设计的硬件加速器而闻名。

13.Gemini: OpenAI 开发的较小规模的语言模型，旨在提供更高效的计算和资源利用。

14.Mixtral：开源人工智能初创公司 MistralAI开发的超越GPT-3.5的AI模型

测评问题一: 鸡兔同笼的数学问题

鸡兔同笼是一个经典的数学问题，通过观察鸡兔的头和脚的数量关系，可以利用代数方程来解决问题，从而确定笼子里鸡和兔子的数量。这个问题常常展示了代数方程组的应用。

针对鸡兔同笼的问题，除了Gemini Pro没有得出正确的结果，其余的大语言模型都可以给出正确结果。

测评问题二：翻译（诗句中翻英）

诗人马致远的诗句“断肠人在天涯”，描写了“夕阳向西缓缓落下，只有孤独的旅人漂泊在遥远的地方。”诗句的翻译涉及到文化差异和诗人独特情感。Mixtral 的语言模型正确的解释了诗句本身的含义，帮助翻译者很好地理解这句诗句。 Claude的语言模型对于诗句的本身理解是不正确的。

这句诗翻译家许渊冲翻译为“Far, far from home is the heartbroken one.”由此可见，大语言模型可以帮助翻译者分析这句诗基本的意思，但是涉及文化层面的深层含义，还是做不到意译的。

开放夜也探讨了如下涉及生活、工作的一些问题，比如：

过年福字要倒着贴，那为什么不直接生产倒过来的福字呢？

收到公司的裁员通知邮件，你应该怎么回复邮件来保住工作？

一个乌龟掉进了井里，井里有30米深。乌龟白天爬3米，晚上滑下2米。问这只乌龟需要多长时间才能爬出井口？

DFRobot AIGC小组主理人夏青在开放夜的现场测评了十几个国内外大语言模型，通过多维度问题的测评，他认为：对于处理综合性问题，OpenAI的ChatGPT 4.0逻辑清楚，能提供非常有用的信息。尽管在回答一些较为复杂的问题上略显不足，但在大多数场合下，其性能仍然令人满意。然而，ChatGPT 4.0在国内的使用成本是一个不容忽视的问题，不仅涉及订阅费用，也包括使用的技术门槛。

与此同时，Gemini和Claude等海外语言模型，尽管在遵循指令方面略显不足，但已达到了实用水平。令人惊喜的是，国内的Qwen1.5 72b开源模型在中文理解和特定任务，几乎能与ChatGPT4.0匹敌此外，其他开源模型如Mixtral和新发布的LLaMA3虽在逻辑性上略逊于商业模型如ChatGPT，但总体表现已超越了ChatGPT 3.5。

综合分析来看，尽管ChatGPT 4.0仍然是目前市场上最优秀的大语言模型，但不可忽视的是，无论是国际市场还是国内市场，其他厂商的模型均显示出迅速的进步。开源模型的崛起也证明了开源社区在AI时代的巨大潜力。当前的大语言模型在处理理性问题方面表现一致，但通常无法提供情绪价值回应。例如，一些国内模型如“豆包”将展现其在情绪回应方面的潜力。这种能力的发展可能为未来陪伴型机器人的商业模型提供新的方向。

蘑菇云创客空间

蘑菇云创客空间是上海浦东的一家创客空间,是科技部授牌的首批国家级创客空间,由浦软孵化器提供场地支持、上海智位机器人提供硬件及技术支持的一家为创客服务的开放式创客空间。拥有独立的加工室、公共协作区域以及储物、耗材商店,为硬件爱好者、程序员、设计师、DIY 发烧友等各类创客,甚至包括进行创新研发的科创团队提供一个开放式的社区化会员空间。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Gemini

Gemini

+关注

关注
0

文章
53

浏览量
7591
语言模型

语言模型

+关注

关注
0

文章
520

浏览量
10268
ChatGPT

ChatGPT

+关注

关注
29

文章
1558

浏览量
7596
通义千问

通义千问

+关注

关注
1

文章
25

浏览量
238

阿里通义千问代码模型全系列开源

近日，阿里云通义大模型团队宣布了一项重大决策：将通义千问代码

发表于 11-14 15:26 •320次阅读

通义千问三款主力模型再降价

阿里云百炼平台再次掀起降价风暴，三款通义千问主力模型——Qwen-Turbo、Qwen-Plus及Qwen-Max，继5月首次大幅度降价后，再次迎来价格调整。此次降价力度空前，Qwen

发表于 09-20 16:46 •905次阅读

通义千问发布第二代视觉语言模型Qwen2-VL

阿里巴巴旗下的通义千问近日宣布，其第二代视觉语言模型Qwen2-VL正式问世，并宣布旗舰模型Qw

发表于 09-03 16:31 •564次阅读

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，但由于各家接口和数据格式不

发表于 08-22 10:12

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型，这个是必须可以的。但由于各家接

发表于 08-21 19:13

阿里通义千问Qwen2大模型发布并同步开源

阿里巴巴集团旗下的通义千问团队宣布，全新的Qwen2大模型正式发布，并在全球知名的开源平台Hugging Face和ModelScope上同步开源。这

发表于 06-11 15:33 •1064次阅读

阿里通义千问Qwen2大模型发布

阿里巴巴最近发布了其通义千问系列的新成员——Qwen2大模型，并在Hugging Face和ModelScope两大平台上实现了同步开源。这一

发表于 06-07 15:59 •760次阅读

阿里云正式发布通义千问2.5，中文性能全面赶超GPT-4 Turbo

在通义大模型发布一周年之际，阿里云迈出了历史性的一步。近日，阿里云正式发布通义千

发表于 05-13 11:16 •965次阅读

阿里云发布通义千问2.5

阿里云近日正式发布了通义千问2.5，标志着其人工智能技术在中文语境下取得了重要突破。据阿里云智能集团首席技术官周靖人介绍，通义千

发表于 05-10 09:57 •526次阅读

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

阿里云隆重推出了通义千问 2.5 版，宣称其“技术进步，全面超越GPT-4”，尤其是在中文环境中的多种任务（如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估）方面表现出色，超越了GPT-4。

发表于 05-09 14:17 •950次阅读

通义千问开源千亿级参数模型

通义千问近日开源了其首个千亿级参数模型Qwen1.5-110B，这是其全系列中首个达到千亿级别的开源模型。Qwen1.5-110B

发表于 05-08 11:01 •741次阅读

通义千问推出1100亿参数开源模型

通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B，这一举措标志着通义

发表于 05-06 10:49 •576次阅读

联发科天玑9300等旗舰芯片搭载通义千问大模型，成功实现

通义千问大模型可在离线环境下轻松应对多轮AI对话。此外，阿里云也承诺与联发科进行深度合作，为全球手机制造商提供端侧大模型解决方案。

发表于 03-28 16:35 •802次阅读

联发科天玑9300搭载通义千问大模型，阿里云提供解决方案

通义千问大模型已开源多项版本，包括18亿、70亿、140亿及720亿参数等版本伴随视觉、音频多模态能力提升。阿里云于去年10月发布的

发表于 03-28 09:55 •586次阅读

阿里通义千问重磅升级，免费开放1000万字长文档处理功能

近日，阿里巴巴旗下的人工智能应用通义千问迎来重磅升级，宣布向所有人免费开放1000万字的长文档处理功能，这一创新举措使得通义

发表于 03-26 11:09 •783次阅读

搜索历史

ChatGPT、Gemini、通义千问等一众大语言模型，哪家更适合您？

评论

阿里通义千问代码模型全系列开源

通义千问三款主力模型再降价

通义千问发布第二代视觉语言模型Qwen2-VL

【附实操视频】聆思CSK6大模型开发板接入国内主流大模型（星火大模型、文心一言、豆包、kimi、智谱glm、通义千问）

智能硬件接入主流大模型做语音交互（附文心一言、豆包、kimi、智谱glm、通义千问示例）

阿里通义千问Qwen2大模型发布并同步开源

阿里通义千问Qwen2大模型发布

阿里云正式发布通义千问2.5，中文性能全面赶超GPT-4 Turbo

阿里云发布通义千问2.5

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

通义千问开源千亿级参数模型

通义千问推出1100亿参数开源模型

联发科天玑9300等旗舰芯片搭载通义千问大模型，成功实现

联发科天玑9300搭载通义千问大模型，阿里云提供解决方案

阿里通义千问重磅升级，免费开放1000万字长文档处理功能