开源风波后在AlpacaEval直追GPT4，零一靠技术如何重建生态信心-电子发烧友网

斯坦福大学研发的大语言模型评测 AlpacaEvalLeaderboard备受业内认可，在 2023 年 12 月 7 日更新的排行榜中，Yi-34B-Chat 以 94.08% 的胜率，超越 LLaMA2 Chat 70B、Claude 2、ChatGPT，在 Alpaca 经认证的模型类别中，成为仅次于 GPT-4 英语能力的大语言模型。

同一周，在加州大学伯克利分校主导的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo评分，晋升最新开源SOTA开源模型之列，性能表现追平GPT-3.5。

多个Benchmark遥遥领先

在五花八门的大模型评测中，伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的「聊天机器人竞技场」特殊测评模式，让众多大语言模型在评测平台随机进行一对一 battle，通过众筹真实用户来进行线上实时盲测和匿名投票，11月份经25000的真实用户投票总数计算了20个大模型的总得分。
Elo评分越高，说明模型在真实用户体验上的表现越出色，可说是众多大模型评测集中最能展现「Moment of Truth」真实关键一刻” 的用户导向体验对决。

在开源模型中，Yi-34B-Chat成为当之无愧的「最强王者」之一（英语能力），LMSYS ORG 在12月8日官宣11月份总排行时评价：「Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5」。

风波终结，争议理清

Yi-34B开源发布后，开发者Eric Hartford发现了模型存在的一个问题，就简略留言在 Yi 的项目页面。然而Eric自己也没有预想到，他的留言引发了后续舆论关于Yi模型「抄袭」LLaMA的质疑。

他在邮件中写道，「感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构，只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具，保持张量名称的一致性是有价值的。」Eric建议，在Yi被广泛传播前，及时恢复张量名称。客观来说，一个模型核心技术护城河是在架构之上，通过数据训练获得的参数和代码。大多数有志于参与基座大模型竞争的团队，也多是从零开始，用高质量的数据集再进行训练，普遍都是在沿用LLaMA架构。零一后来解释他们为了执行对比实验的需要，对部分推理参数进行了重新命名，原始出发点是为了充分测试模型，而非刻意隐瞒来源。

身处这场舆论风暴的中心，Eric 意识到了可能给一些人带来了误解，开始解释自己之前的发言。

他在X（twitter）上写道，「他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物，已经发表在论文中，任何人都可以自由使用，这丝毫不减损Yi团队的成就。他们从零开始使用自己创建的数据集训练Yi，对开源领域的贡献是值得赞扬的。使用Llama架构没有任何问题。训练才是关键。Yi给了我们目前可获得的最佳模型，没有任何可抱怨的。」现在，Eric 自己也在使用Yi-34B 系列，用Yi-34b-200k数据集训练其他的模型产品。 Yi模型开源首月，数据也很亮眼。在Hugging Face社区下载量为16.8万，魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲，多家知名公司和机构推出了基于Yi模型基座的微调模型，比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型，南方科技大学和粤港澳大湾区数字经济研究院（简称IDEA研究院）认知计算与自然语言研究中心（简称CCNL中心）联合发布的SUS-Chat-34B等，均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中，也选择了Yi-6B作为范例项目。

模型好不好，开发者最知道在大模型实际使用体验上，最有发言权的还是一线的开发者。知名技术作者苏洋表示，在他观察的近期Hugging Face榜单中，前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型，原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个，「从这点看 Yi 对于开源生态的帮助还是非常巨大的。」他会时不时的浏览下 HF 的榜单，在最近榜单中的前三十名，有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型，原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个，从这点看 Yi 对于开源生态的帮助还是非常巨大的。

苏洋还将他的训练经验和心得在CSDN上做了分享（https://blog.csdn.net/soulteary/article/details/134904434）。

苏洋认为 34B 普通用户努努力还是能自己相对低成本跑起来的，68 和 70B 的模型想要本地运行，需要更多的资源。但其实目前分数其实相比较 34B 拉不开太多，也就三四分平均分，但参数量差了一倍。换言之，企业想部署使用，所需要的成本也可以得到非常大的节约。

目前国产大模型在开源榜单上已经是第一梯队，但如果把竞争范围追加到闭源模型、尤其是海外的模型，仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 GPT-3.5 + 的水平。

苏洋认为国产大模型，是能够很快追赶至第一梯队的。时间也会证明大模型自身的价值，以及验证出团队是否对开源有真的持续投入。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
527

浏览量
10292
聊天机器人

聊天机器人

+关注

关注
0

文章
339

浏览量
12330
大模型

大模型

+关注

关注
2

文章
2478

浏览量
2841

原文标题：开源风波后在 AlpacaEval 直追 GPT4，零一靠技术如何重建生态信心

文章出处：【微信号：AI科技大本营，微信公众号：AI科技大本营】欢迎添加关注！文章转载请注明出处。

开源鸿蒙技术分论坛在武汉成功举办

举行。本次论坛通过南北向开发赋能，融合前沿的行业案例经验，生动展现了开源鸿蒙在驱动技术创新与产业升级中的优势与无限潜能。开源技术引领变革，构建枝繁叶茂

发表于 12-24 13:38 •168次阅读

OpenHarmony人才生态大会南向生态社区发展论坛在武汉圆满举办

OpenHarmony进行开发设计的产品方案。 (深圳触觉智能科技有限公司软件工程师、Laval社区资深开发者贾佳豪) 开源4年多，OpenHarmony在南向生态建设与人才培养硕果

发表于 11-29 09:54

Llama 3 与 GPT-4 比较

沿。一、技术架构 Llama 3和GPT-4都是基于深度学习的自然语言处理（NLP）模型，但它们的设计理念和技术细节有所不同。 Llama 3 采用了一种创新的混合架构，结合了传统的Transformer模型和最新的神经网络

发表于 10-27 14:17 •385次阅读

如何使用 ChatGPT 进行内容创作

到ChatGPT平台。选择模型： ChatGPT目前支持GPT3.5和GPT4两个模型。根据创作需求，选择合适的模型。一般来说，GPT4在性能和生成质量上可能更优。明确创作目标

发表于 10-25 16:08 •475次阅读

请回答OpenHarmony | 关于开源生态的未来想象，我们现场回答

第三届OpenHarmony技术大会即将启幕今年相聚，OpenHarmony又迎来了怎样的突破与发展？在万物智联的时代，如何通过技术创新引领智能未来？ OpenHarmony的开源

发表于 10-12 00:09

迅龙软件出席2024开放原子开源生态大会，共谋开源生态繁荣之路

2024开放原子开源生态大会于9月25至27日在北京亦庄开幕。大会将以“开源赋能产业，生态共筑未来”为主题，汇聚政、产、学、研、用、金等各领

发表于 09-26 13:51 •442次阅读

迅龙软件出席2024开放原子<b class='flag-5'>开源</b><b class='flag-5'>生态</b>大会，共谋<b class='flag-5'>开源</b><b class='flag-5'>生态</b>繁荣之路

开放原子开源生态大会OpenHarmony生态主题演讲报名开启

展示OpenHarmony的技术创新和产业落地成果，分享开源社区生态进展。诚邀全球开源操作系统产业伙伴、技术大咖和学术专家，共同见证

发表于 09-19 22:02

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用来取代GPT-3.5.这是目前市场上最具成本效益的小模型。该模型在MMLU上得分为82%，在LMSYS排行榜上的聊天偏好测试中表

发表于 07-21 10:20 •1082次阅读

OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

【议题征集】国际开源及RISC-V人才暨开源技术与生态之旅

发表于 07-02 08:36 •280次阅读

【议题征集】国际<b class='flag-5'>开源</b>及RISC-V人才暨<b class='flag-5'>开源</b><b class='flag-5'>技术</b>与<b class='flag-5'>生态</b>之旅

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具，可用于自然语言处理和多模态任务。在国内直联使用这些服务需要一些配置和技巧。本文将详细介绍GPT-4o模型以及如何获取

发表于 06-08 00:33 •5262次阅读

国内直联使用ChatGPT 4.0 API Key使用和多模态<b class='flag-5'>GPT4</b>o API调用开发教程！

开发者如何调用OpenAI的GPT-4o API以及价格详情指南

，高达每分钟1000万字符。速度：GPT-4o的速度是GPT-4 Turbo的两倍。视觉能力：在视觉能力相关的评估中，GPT-4o表现优于G

发表于 05-29 16:00 •1.2w次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的GPT-

发表于 05-15 09:23 •410次阅读

OpenAI发布GPT-4o模型，供全体用户免费使用

OpenAI首席技术官穆里·穆拉蒂（Muri Murati）指出，GPT-4o具备与GPT-4相同的智能水平，且在文本、图像及语音处理方面有显著进步。

发表于 05-14 11:17 •522次阅读

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

阿里云隆重推出了通义千问 2.5 版，宣称其“技术进步，全面超越GPT-4”，尤其是在中文环境中的多种任务（如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估）方面表现出色，超越了

发表于 05-09 14:17 •975次阅读

股价久违飙涨，商汤要用自己的Scaling law挑战GPT4

前一天的“2024年商汤技术交流日”上，商汤发布了对标GPT4-Turbo的大模型日日新大模型SenseNova5.0，追赶GPT4可能是当下中国大模型行业的集体目

发表于 05-08 08:05 •276次阅读

搜索历史

开源风波后在AlpacaEval直追GPT4，零一靠技术如何重建生态信心

评论