0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源风波后在AlpacaEval直追GPT4,零一靠技术如何重建生态信心

AI科技大本营 来源:AI科技大本营 2023-12-11 17:39 次阅读

斯坦福大学研发的大语言模型评测 AlpacaEvalLeaderboard备受业内认可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% 的胜率,超越 LLaMA2 Chat 70B、Claude 2、ChatGPT,在 Alpaca 经认证的模型类别中,成为仅次于 GPT-4 英语能力的大语言模型。

3ed85ecc-9808-11ee-8b88-92fbcf53809c.jpg

同一周,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

多个Benchmark遥遥领先

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的「聊天机器人竞技场」特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。
Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现「Moment of Truth」真实关键一刻” 的用户导向体验对决。

3ee46bb8-9808-11ee-8b88-92fbcf53809c.jpg

在开源模型中,Yi-34B-Chat成为当之无愧的「最强王者」之一(英语能力),LMSYS ORG 在12月8日官宣11月份总排行时评价:「Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5」。

风波终结,争议理清

Yi-34B开源发布后,开发者Eric Hartford发现了模型存在的一个问题,就简略留言在 Yi 的项目页面。然而Eric自己也没有预想到,他的留言引发了后续舆论关于Yi模型「抄袭」LLaMA的质疑。

他在邮件中写道,「感谢你们提供了一个优秀的模型。Yi模型使用了与LLaMA模型完全相同的架构,只是将两个张量改了名字。由于围绕LLaMA架构有很多投资和工具,保持张量名称的一致性是有价值的。」Eric建议,在Yi被广泛传播前,及时恢复张量名称。 客观来说,一个模型核心技术护城河是在架构之上,通过数据训练获得的参数和代码。大多数有志于参与基座大模型竞争的团队,也多是从零开始,用高质量的数据集再进行训练,普遍都是在沿用LLaMA架构。零一后来解释他们为了执行对比实验的需要,对部分推理参数进行了重新命名,原始出发点是为了充分测试模型,而非刻意隐瞒来源。

身处这场舆论风暴的中心,Eric 意识到了可能给一些人带来了误解,开始解释自己之前的发言。

3ef41dba-9808-11ee-8b88-92fbcf53809c.jpg

他在X(twitter)上写道,「他们没有在任何事情上撒谎。所有的模型都是在相互借鉴架构。架构是学术研究的产物,已经发表在论文中,任何人都可以自由使用,这丝毫不减损Yi团队的成就。他们从零开始使用自己创建的数据集训练Yi,对开源领域的贡献是值得赞扬的。使用Llama架构没有任何问题。训练才是关键。Yi给了我们目前可获得的最佳模型,没有任何可抱怨的。」 现在,Eric 自己也在使用Yi-34B 系列,用Yi-34b-200k数据集训练其他的模型产品。 Yi模型开源首月,数据也很亮眼。在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲,多家知名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。 而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。

模型好不好,开发者最知道在大模型实际使用体验上,最有发言权的还是一线的开发者。 知名技术作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,「从这点看 Yi 对于开源生态的帮助还是非常巨大的。」 他会时不时的浏览下 HF 的榜单,在最近榜单中的前三十名,有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的 68B 和 70B 模型的数量目前只留有几个,从这点看 Yi 对于开源生态的帮助还是非常巨大的。

苏洋还将他的训练经验和心得在CSDN上做了分享(https://blog.csdn.net/soulteary/article/details/134904434)。

3f1c556e-9808-11ee-8b88-92fbcf53809c.png

苏洋认为 34B 普通用户努努力还是能自己相对低成本跑起来的,68 和 70B 的模型想要本地运行,需要更多的资源。但其实目前分数其实相比较 34B 拉不开太多,也就三四分平均分,但参数量差了一倍。换言之,企业想部署使用,所需要的成本也可以得到非常大的节约。

目前国产大模型在开源榜单上已经是第一梯队,但如果把竞争范围追加到闭源模型、尤其是海外的模型,仍有很大的距离要去追赶。目前的普遍体验是开源模型最多只有 GPT-3.5 + 的水平。

苏洋认为国产大模型,是能够很快追赶至第一梯队的。时间也会证明大模型自身的价值,以及验证出团队是否对开源有真的持续投入。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    496

    浏览量

    10234
  • 聊天机器人
    +关注

    关注

    0

    文章

    329

    浏览量

    12277
  • 大模型
    +关注

    关注

    2

    文章

    2252

    浏览量

    2314

原文标题:开源风波后在 AlpacaEval 直追 GPT4,零一靠技术如何重建生态信心

文章出处:【微信号:AI科技大本营,微信公众号:AI科技大本营】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请回答OpenHarmony | 关于开源生态的未来想象,我们现场回答

    第三届OpenHarmony技术大会即将启幕 今年相聚,OpenHarmony又迎来了怎样的突破与发展? 万物智联的时代,如何通过技术创新引领智能未来? OpenHarmony的开源
    发表于 10-12 00:09

    开放原子开源生态大会OpenHarmony生态主题演讲报名开启

    展示OpenHarmony的技术创新和产业落地成果,分享开源社区生态进展。 诚邀全球开源操作系统产业伙伴、技术大咖和学术专家,共同见证
    发表于 09-19 22:02

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用来取代GPT-3.5.这是目前市场上最具成本效益的小模型。   该模型MMLU上得分为82%, LMSYS排行榜上的聊天偏好测试中表
    的头像 发表于 07-21 10:20 837次阅读
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    【议题征集】国际开源及RISC-V人才暨开源技术生态之旅

    【议题征集】国际开源及RISC-V人才暨开源技术生态之旅
    的头像 发表于 07-02 08:36 219次阅读
    【议题征集】国际<b class='flag-5'>开源</b>及RISC-V人才暨<b class='flag-5'>开源</b><b class='flag-5'>技术</b>与<b class='flag-5'>生态</b>之旅

    国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具,可用于自然语言处理和多模态任务。国内直联使用这些服务需要一些配置和技巧。本文将详细介绍GPT-4o模型以及如何获取
    的头像 发表于 06-08 00:33 4181次阅读
    国内直联使用ChatGPT 4.0 API Key使用和多模态<b class='flag-5'>GPT4</b>o API调用开发教程!

    开发者如何调用OpenAI的GPT-4o API以及价格详情指南

    ,高达每分钟1000万字符。 速度 :GPT-4o的速度是GPT-4 Turbo的两倍。 视觉能力 :视觉能力相关的评估中,GPT-4o表现优于G
    的头像 发表于 05-29 16:00 9558次阅读
    开发者如何调用OpenAI的<b class='flag-5'>GPT-4</b>o API以及价格详情指南

    OpenAI推出面向所有用户的AI模型GPT-4o

    周一的直播盛会上,OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的GPT-
    的头像 发表于 05-15 09:23 348次阅读

    OpenAI发布GPT-4o模型,供全体用户免费使用

    OpenAI首席技术官穆里·穆拉蒂(Muri Murati)指出,GPT-4o具备与GPT-4相同的智能水平,且文本、图像及语音处理方面有显著进步。
    的头像 发表于 05-14 11:17 429次阅读

    股价久违飙涨,商汤要用自己的Scaling law挑战GPT4

    前一天的“2024年商汤技术交流日”上,商汤发布了对标GPT4-Turbo的大模型日日新大模型SenseNova5.0,追赶GPT4可能是当下中国大模型行业的集体目
    的头像 发表于 05-08 08:05 276次阅读
    股价久违飙涨,商汤要用自己的Scaling law挑战<b class='flag-5'>GPT4</b>

    上海站报名启动! 2023年开源产业生态大会OpenHarmony生态分论坛

    作为年内开源领域不容错过的科技盛宴,2023年开源产业生态大会将于12月19日在上海盛大开幕。本次活动由上海市经济和信息化委员会、上海市科学技术协会和\"科创中国\"
    发表于 11-24 14:55

    GPT4再升级,更强大更便宜!不懂代码也能生成应用,享受分成

    GPT-4 Turbo以及ChatGPT的一系列升级内容。   OpenAI自去年底推出ChatGPT之后享誉全球,近一年来不断推进技术和应用创新。该公司强调,其今年3月发布的GPT-4至今仍是世界上能力
    的头像 发表于 11-14 00:23 1870次阅读

    首届OpenHarmony竞赛训练营结营颁奖,75所高校学子助力建设开源生态

    共有7个赛队脱颖而出。 11月4日“技术生态,智联赢未来”第二届开放原子开源基金会OpenHarmony
    发表于 11-07 17:10

    陈海波:OpenHarmony技术领先,产学研深度协同,生态蓬勃发展

    11月4日,以“技术生态,智联赢未来”为主题的第二届OpenHarmony技术大会在北京隆重举办。本次大会由OpenAtom OpenHarmony(简称“OpenHarmony\&
    发表于 11-06 14:35

    OpenHarmony技术大会:深开鸿引领技术革新,智创开源生态未来

    11月4日,第二届开放原子开源基金会OpenHarmony技术大会在北京国家会议中心盛大开幕。本届大会以“技术生态,智联赢未来”为主题,全
    的头像 发表于 11-05 08:33 432次阅读
    OpenHarmony<b class='flag-5'>技术</b>大会:深开鸿引领<b class='flag-5'>技术</b>革新,智创<b class='flag-5'>开源</b><b class='flag-5'>生态</b>未来

    技术生态 智联赢未来,第二届OpenHarmony技术大会圆满举行

    了OpenHarmony推动千行百业数字化转型中的重要作用。他表示,OpenHarmony自2020年9月10日开源以来,已经走过了不凡的三年,得到了广大开源贡献者的热情投入,不断推动着操作系统的
    发表于 11-04 14:59