0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

人工智能与大数据技术 来源:新智元 2023-10-18 15:54 次阅读

【导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小说,读论文,轻松拿捏。

中途迷失、模型偷懒、上下文越长大模型越笨……

体验过LLM的人,多少都会对文本输入长度带来的限制有所感触:

想和大模型讨论一些稍长的内容,就需要拆分输入,而前面输入的要点,很快就会被大模型忘记。

实际上,这些都是典型的大语言模型对话缺陷。就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。

如今,这个局面已经被打破了!

就在近日,由贾佳亚团队联合MIT发布的新技术和新模型,悄然登上各大开源网站的热榜:

Hugging Face热榜第一、Papers With Code热度第一,Github全部Python项目热度第五、Github Stars一周内破千,Twitter上的相关技术帖子浏览量近18万。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2309.12307

代码和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已达1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶:

只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!

它代表着业界对长文本大语言模型的重新思考和关注,有效扩展了大语言模型的上下文窗口,允许模型考虑和处理较长的文本序列,是大语言模型的革新性发明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技术革新外,大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此,研究团队特意收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够,该团队又挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k,目前已经开源。

在LongAlpaca-12k数据集基础上,研究团队对不同参数大小7B、13B、70B进行了训练和评测,开源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说,盲选几个demo,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率:

LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

现在,让系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别:

LongAlpaca总结认为,CVPR论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而ICLR的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

可以看出,经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

接下来,再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测:

LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

此外,LongAlpaca还可以读新的长篇小说,读完后对内容进行分析。

下面选取的对比模型是13B参数的LongAlpaca和Llama2,且看各自表现。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

LongAlpaca给出了5点原因,大概可总结为:「孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。」

而Llama2并没有给出正确答案:「虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。」

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

这一次让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

LongAlpaca认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是,「通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。」回答笼统,之后开始对小说整体进行评论,答非所问。

从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

两个模型的回答对比,高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说,都是一把好手,完胜Llama2。

两行代码和三个关键结论

Llama2可以说是AI社区内最强大的开源大模型之一,行业位置领先,LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意,到底是怎么做到的?

原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。

针对这个问题,研究团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。

这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。

而且,这个实现方法也非常简洁,仅两行代码即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA还探索了低秩训练的方式。

原有的低秩训练方式,如LoRA[5],无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

进行不同长度文本扩展和训练时,LongLoRA、LoRA和全参数微调不同技术的具体效果如何,可以参考三个维度表现:

在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;

在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。

在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗,以及极佳的准确性,令LongLoRA大规模推广成为可能。

目前,相关技术与模型已全部开源,感兴趣的用户们可以自己部署感受。

值得一提的是,这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。

相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    523

    浏览量

    10277
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24699
  • LLM
    LLM
    +关注

    关注

    0

    文章

    287

    浏览量

    331

原文标题:2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    单日获客成本超20万,国产大模型开卷200万字以上的长文本处理

    更精准的推理和高并发流量以外,似乎已经没有太多值得厂商大肆宣传的特性了,直到最近超长文本处理的爆火。   国产大模型的新卷法,长文本处理   当下将大模型长文本处理炒热的,无疑是来自月之暗面的Kimi。作为去年
    的头像 发表于 03-27 00:53 3368次阅读
    单日获客成本超20万,国产大模型开卷200万字以上的<b class='flag-5'>长文本</b>处理

    什么是LLMLLM在自然语言处理中的应用

    所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术,尤其是变换器(Transformer)架构。变换器模型因其自注意力(Self-Attention)机制而闻名,这种机制使得模型能够捕捉
    的头像 发表于 11-19 15:32 567次阅读

    LLM技术的未来趋势分析

    随着人工智能技术的飞速发展,大型语言模型(LLM)已经成为自然语言处理(NLP)领域的一个热点。这些模型通过分析和学习大量的文本数据,能够执行多种语言任务,如文本生成、翻译、问答和情感
    的头像 发表于 11-08 09:35 257次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型(LLM技术已经成为推动AI领域进步的关键力量。LLM技术通过深度学习和自然语言处理
    的头像 发表于 11-08 09:28 374次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式多种多样,以下是一些常见的LLM模型格式
    的头像 发表于 07-09 09:59 621次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型。LLM模型可以处理各种语言任务,如文本生成、
    的头像 发表于 07-09 09:55 1066次阅读

    LLM模型的应用领域

    在本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域。LLM是一种基于深度学习的人工智能技术,它能够理解和生成自然语言文本。近年来,随着计
    的头像 发表于 07-09 09:52 590次阅读

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。LLM以其强大的文本生成、理解和推理能力,
    的头像 发表于 07-02 11:45 7713次阅读

    日本团队发布在富岳超算上训练的Fugaku-LLM大模型

    自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。
    的头像 发表于 05-11 10:05 404次阅读

    讯飞星火长文本功能全新升级

    科大讯飞近日宣布,其首个长文本、长图文、长语音大模型已完成全新升级。这一大模型不仅具备强大的学习能力,可以快速吸收海量文本、图文资料以及会议录音等多元化信息,更能在各行业场景中提供精准、专业的回答。
    的头像 发表于 05-06 11:22 557次阅读

    科大讯飞创新推出长文本、长图文、长语音大模型,解决落地难题

    近期,科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型,该系统融合了多元化数据源,包括海量文字、图片以及会议音频等,能为各行业场景提供专业化、精准化的答案。
    的头像 发表于 04-28 09:32 374次阅读

    Kimi爆火背后的技术奥秘 大模型长文本能力的技术难点

    当用户认为在国内的大模型中,长文本=kimi的时候,除非竞争对手能以绝对的实力碾压几个量级,但凡与kimi打平或者是微弱超越,都很难威胁到kimi在用户心目中的地位。
    发表于 04-17 10:11 1247次阅读
    Kimi爆火背后的<b class='flag-5'>技术</b>奥秘 大模型<b class='flag-5'>长文本</b>能力的<b class='flag-5'>技术</b>难点

    快速全面了解大模型长文本能力

    那关于LLM长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解。
    发表于 02-22 14:04 856次阅读
    快速全面了解大模型<b class='flag-5'>长文本</b>能力

    鸿蒙原生应用/元服务开发-发布基础类型通知类型与接口

    基础类型通知主要应用于发送短信息、提示信息、广告推送等,支持普通文本类型、长文本类型、多行文本类型和图片类型。 表 基础类型通知中的内容分类 目前系统仅通知栏订阅了通知,将通知显示在通知栏里
    发表于 01-03 14:46

    鸿蒙原生应用/元服务开发-发布基础类型通知开发步骤

    对象,并发布通知。 1.普通文本类型通知由标题、文本内容和附加信息三个字段组成,其中标题和文本内容是必填字段。 let notificationRequest = { id: 1, c
    发表于 01-02 15:03