0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出归一化Transformer,革命性提升LLM训练速度

科技绿洲 来源:网络整理 作者:网络整理 2024-10-23 11:30 次阅读

英伟达团队近日在AI领域投下了一枚震撼弹,他们提出了一种全新的神经网络架构——归一化Transformer(nGPT)。这一创新架构基于超球面(hypersphere)进行表示学习,为AI领域带来了新的突破。

相较于传统的Transformer架构,nGPT在保持原有精度的同时,直接将大型语言模型(LLM)的训练速度提升了高达20倍。这一显著的性能提升,无疑将极大地推动AI技术的发展和应用。

在nGPT中,所有的向量(包括嵌入向量、多层感知机(MLP)向量、注意力矩阵向量以及隐藏状态向量)都被归一化为单位范数(unit norm)。这一设计不仅简化了模型训练过程,还提高了模型的稳定性和泛化能力。

英伟达团队的这一创新成果,无疑为AI领域注入了新的活力。nGPT架构的提出,不仅将推动AI技术的进一步发展,还将为各种应用场景提供更加高效、准确的解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4732

    浏览量

    100372
  • 英伟达
    +关注

    关注

    22

    文章

    3707

    浏览量

    90595
  • Transformer
    +关注

    关注

    0

    文章

    138

    浏览量

    5966
  • LLM
    LLM
    +关注

    关注

    0

    文章

    254

    浏览量

    293
收藏 人收藏

    评论

    相关推荐

    英伟Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

    、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。   英伟称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI训练
    的头像 发表于 09-04 09:10 2759次阅读

    英伟推出创新液冷技术

    英伟,这家领先的AI芯片制造商,近期在散热技术上实现了重大突破,推出了创新的液冷技术。其即将问世的GB200服务器机架,将采用革命性的液体冷却方式,摒弃传统空气冷却,通过液体在硬件管
    的头像 发表于 08-13 15:24 682次阅读

    llm模型训练般用什么系统

    LLM(Large Language Model,大型语言模型)是近年来在自然语言处理领域取得显著成果的种深度学习模型。它通常需要大量的计算资源和数据来进行训练。以下是关于LLM模型
    的头像 发表于 07-09 10:02 309次阅读

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer种基于自注意力机制的模型,广泛应用于NLP领域。基于TransformerLLM
    的头像 发表于 07-09 09:59 483次阅读

    英伟推出AI模型推理服务NVIDIA NIM

    英伟近日宣布推出革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万
    的头像 发表于 06-04 09:15 603次阅读

    【大规模语言模型:从理论到实践】- 每日进步点点

    训练效率、稳定性和泛能力。以下是关于大模型训练归一化的详细介绍: 归一化的目的和重要
    发表于 05-31 19:54

    步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟]CEO[黄仁勋]在GTC大会上公布了新代AI芯片架构BLACKWELL,并推出基于该架构的超级芯片GB200,将助推数据处理、工程模拟、电子设计自动
    发表于 05-13 17:16

    英伟推出有2080亿晶体管的GB200处理器

    英伟在最新届的GTC大会上隆重推出了全新的GB200处理器,这款处理器基于革命性的Blackwell架构,并配备了惊人的2080亿个晶体
    的头像 发表于 03-20 11:10 705次阅读

    英伟发布新代AI芯片B200

    在美国加州圣何塞举办的英伟GTC生态大会上,英伟CEO黄仁勋以场震撼人心的演讲,正式推出
    的头像 发表于 03-20 10:07 885次阅读

    英伟发布性能大幅提升的新款B200 AI GPU

    英伟宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上代,运算能力飞跃提升,甚至能使大语言模型的
    的头像 发表于 03-20 09:37 699次阅读

    长电科技推出革命性的高精度热阻测试与仿真模拟验证技术

    在芯片封装技术日益迈向高密度、高性能的今天,长电科技引领创新,推出革命性的高精度热阻测试与仿真模拟验证技术。
    的头像 发表于 03-08 13:33 431次阅读

    英伟引领AI新潮流,推出“Chat with RTX”聊天机器人

    随着人工智能技术的突飞猛进,英伟(NVIDIA)再次展现了其技术领导地位,为Windows PC用户带来了革命性的本地聊天机器人应用程序——“Chat with RTX”。这
    的头像 发表于 02-19 11:11 915次阅读

    英伟推出新产品,助力AIPC实现革命性升级

    直以来,英伟的竞争对手如英特尔与AMD均对“AI PC”寄予厚望。他们认为,AI软件在PC端运行会比依赖网络更为安全且响应速度更快。由此可见,
    的头像 发表于 01-09 14:43 545次阅读

    Long-Context下LLM模型架构全面介绍

    随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存
    的头像 发表于 11-27 17:37 2814次阅读
    Long-Context下<b class='flag-5'>LLM</b>模型架构全面介绍

    LLMTransformer是否可以直接处理视觉Token?

    多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升
    发表于 11-03 14:10 422次阅读
    <b class='flag-5'>LLM</b>的<b class='flag-5'>Transformer</b>是否可以直接处理视觉Token?