0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”

深度学习自然语言处理 来源:量子位 2023-08-25 17:05 次阅读

号称“世界首个上下文长度达32k的开源可商用大模型”来了。

名字“简单粗暴”,就叫“长颈鹿”(Giraffe),基于130亿规模的Llama-2打造。

c5db892e-4323-11ee-a2ef-92fbcf53809c.png

如作者所言,原始的Llama-2和Llama-1都只有4k上下文,很难真正在企业领域被商用。

而现在这个是其8倍的“Giraffe”,直接改变这一局面:

能够一次处理更大文档、维持更长时间对话、执行更复杂检索且结果出错更少……在开源大模型界中,可谓真正的商业/企业友好。

网友纷纷表示:“太有用了”、“马上就要试试”。

c5f7b338-4323-11ee-a2ef-92fbcf53809c.png

所以,长颈鹿是如何从羊驼“进化”而来的?

扩充上下文长度的探索

长颈鹿的作者来自Abacus.AI

这是一家搞AI数据科学平台的初创企业,成立于2019年,已完成5000万元C轮融资。

为了扩展开源模型的上下文长度,他们将目前最突出的已有方法整理在一起,并进行彻底测试确定出最有效的方法。

在此之上,他们也提出了一些新思路,其中一种称为“截断(truncation)”,它表现出了不小的潜力。

c671c47a-4323-11ee-a2ef-92fbcf53809c.png

具体来看:

首先团队发现,目前已有的长下文外推方法普遍都是通过修改注意力机制中使用的位置编码系统,指示token和activation在输入序列中的位置而完成。

包括线性缩放/位置插值、xPos、随机化位置编码等等。

在此,他们提出了两种新方法。

一个叫Power Scaling,主要是对原始的RoPE编码进行了如下变换:

c68e7b88-4323-11ee-a2ef-92fbcf53809c.png

这使得基础的高频(短距离)元素比低频(长距离)元素受到的影响更小,让模型不得不对低频元素进行不那么复杂的外推,从而让整体得到提升。

另一个方法叫Truncated Basis(也就是上面所说的“截断”),主要是对原始RoPE编码进行了如下变换:

c6c66552-4323-11ee-a2ef-92fbcf53809c.png

其中ρ是一个相对较小的固定值,a和b是选定的截止值。

作者在这里的想法是,保留basis的高频分量,但将低频分量设置为恒定值(比如0)。

而通过明智地选择截止值a,模型就可以在微调期间(由于正弦函数和正弦函数的周期性)经历上下文长度中的所有basis值,从而更好地外推到更大的上下文长度。

接下来,便是对以上这些方法进行彻底测试。

在此,作者认为,很多人只用困惑度来衡量模型的长下文能力是远远不够的,因为它的细粒度不够。

为此,除了困惑度,他们还加了三个新的评估任务(都已公开发布到HuggingFace之上):

FreeFormQA、AlteredNumericQA和LongChat Lines,其中前两个是一类,为问答任务,第三个为关键值检索任务。

通过使用这两种类型的任务,我们能够强制要求模型更加关注完整的上下文,从而获得高精度的测试结果。

那么结果如何?

直接上结论:

首先,线性插值是最好的上下文长度外推方法。

其次,所有上下文长度外推方法都随着长度的增加,在任务准确性上出现了下降。

第三,通过在评估阶段使用比微调时更高的比例因子,可以进一步增加上下文长度,但比例因子似乎最多只能提高2倍。

以下是这些方法在三个评估数据集上的具体表现(精度为1.0表示性能完美,0.0表示每次评估都是错误的):

c6d58db6-4323-11ee-a2ef-92fbcf53809c.png

△ LongChat Lines

c6e605a6-4323-11ee-a2ef-92fbcf53809c.png

△ AlteredNumericQA和FreeFormQA

可以看到,除了佐证上面的结论,作者们新提出的Truncated Basis方法表现确实不错,有一定的前景。

而基于以上研究,团队也在LLaMA2-13B基础模型上发布了长颈鹿大模型,当然,用的是性能最优的线性插值法。

根据上下文长度不同,长劲鹿家族最终一共有三个版本:4k、16k和32k,感兴趣的朋友就可以去HuggingFace上下载了。

c700bb76-4323-11ee-a2ef-92fbcf53809c.png

其实是并列第一

虽然Abacus.AI号称长颈鹿是世界首个上下文可达32k的开源LLM,但Together.AI其实更为抢先一步:

他们已在本月初发布了32k的Llama-2-7B大模型(已有近1万7千次下载),以及在上周五发布了llama-2-7b-32k-instruct。

c70c966c-4323-11ee-a2ef-92fbcf53809c.png

大家的上下文长度一样,唯一的大区别是Together.AI的参数规模要小些。

现在,大伙也好奇能不能出一个对比,看看究竟谁更胜一筹。

c721fde0-4323-11ee-a2ef-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    935

    浏览量

    54765
  • 开源
    +关注

    关注

    3

    文章

    3256

    浏览量

    42411
  • 大模型
    +关注

    关注

    2

    文章

    2335

    浏览量

    2492

原文标题:32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里通义千问发布Qwen2.5-Turbo开源AI模型

    近日,阿里通义千问官方宣布,经过数月的精心优化与改进,正式推出了Qwen2.5-Turbo开源AI模型。这款新模型旨在满足社区对更长上下文长度的迫切需求,为用户带来更加便捷、高效的AI
    的头像 发表于 11-19 18:07 472次阅读

    Llama 3 语言模型应用

    在人工智能领域,语言模型的发展一直是研究的热点。随着技术的不断进步,我们见证了从简单的关键词匹配到复杂的上下文理解的转变。 一、Llama 3 语言模型的核心功能 上下文理解 :Lla
    的头像 发表于 10-27 14:15 236次阅读

    SystemView上下文统计窗口识别阻塞原因

    SystemView工具可以记录嵌入式系统的运行时行为,实现可视化的深入分析。在新发布的v3.54版本中,增加了一项新功能:上下文统计窗口,提供了对任务运行时统计信息的深入分析,使用户能够彻底检查每个任务,帮助开发人员识别阻塞原因。
    的头像 发表于 08-20 11:31 389次阅读

    超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评

    、速度慢、费用高且难以准确理解上下文”的问题。相比之下,AI大模型凭借其强大的学习能力和适应性,在翻译质量、效率、上下文理解和多语言支持等方面表现出色,提供了更加
    的头像 发表于 07-14 08:04 128次阅读
    超ChatGPT-4o,国产大<b class='flag-5'>模型</b>竟然更懂翻译,8款大<b class='flag-5'>模型</b>深度测评|AI 横评

    鸿蒙Ability Kit(程序框架服务)【应用上下文Context】

    [Context]是应用中对象的上下文,其提供了应用的一些基础信息,例如resourceManager(资源管理)、applicationInfo(当前应用信息)、dir(应用文件路径)、area
    的头像 发表于 06-06 09:22 408次阅读
    鸿蒙Ability Kit(程序框架服务)【应用<b class='flag-5'>上下文</b>Context】

    腾讯云推出全新大模型定价策略:免费并降低API费用

    他进一步表示,尽管传统搜索引擎已相当出色,但大模型却能使其更上一层楼。自去年9月腾讯推出大模型产品以来,模型效率已提升50%,参数规模由千亿增至万亿,支持256K原生窗口
    的头像 发表于 05-30 15:20 652次阅读

    微软发布PhI-3-Vision模型,提升视觉AI效率

    Phi-3-vision 是一种小型多模式语言模型(SLM),主要适用于本地人工智能场景。其模型参数高达 42 亿,上下文序列包含 128k 个符号,
    的头像 发表于 05-28 11:35 430次阅读

    编写一个任务调度程序,在上下文切换后遇到了一些问题求解

    大家好, 我正在编写一个任务调度程序,在上下文切换后遇到了一些问题。 为下一个任务恢复上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\"
    发表于 05-22 07:50

    OpenAI发布GPT-4o模型,支持文本、图像、音频信息,速度提升一倍,价格不变

     此外,该模型还具备128K上下文记忆能力,知识截止日期设定为2023年10月。微软方面也宣布,已通过Azure OpenAI服务提供GPT-4o的预览版。
    的头像 发表于 05-14 17:12 825次阅读

    Meta Llama 3基础模型现已在亚马逊云科技正式可用

    亚马逊云科技近日宣布,Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和Llama 3 70B,现已正式上线并集成至Amazon SageMaker JumpStart平台。这两款先进的生成文本模型,具备8k
    的头像 发表于 05-09 10:39 375次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    矩阵,如词-文档矩阵和词-上下文矩阵,然后对共现矩阵进行降维操作,得到词的表示。其中,基于概率主题模型的方法最为流行,如潜在语义索引(LSI)和隐含狄利克雷分布(LDA)等。这些方法通过矩阵分解或贝叶斯
    发表于 05-05 12:17

    零一万物正式发布Yi大模型API开放平台

    近日,零一万物正式发布Yi大模型API开放平台,为开发者提供通用Chat、200k超长上下文、多模态交互等模型
    的头像 发表于 03-17 09:55 1148次阅读

    TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH错误怎么解决?

    我收到EVAL_6EDL7141_TRAP_1SH 3 类(TIN4-Free 上下文列表下溢)上下文管理EVAL_6EDL7141_TRAP_1SH错误。 请告诉我解决这个问题的办法。
    发表于 03-06 08:00

    请问risc-v中断还需要软件保存上下文和恢复吗?

    risc-v中断还需要软件保存上下文和恢复吗?
    发表于 02-26 07:40

    ISR的上下文保存和恢复是如何完成的?

    函数:ifxCPU_enableInterrupts ();如果我让更高优先级的 ISR 中断优先级较低的 ISR,那么 ISR 的上下文保存和恢复是如何完成的?
    发表于 01-22 06:28