0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek发表重磅论文!推出NSA技术,让AI模型降本增效

章鹰观察 来源:电子发烧友原创 作者:章鹰 2025-02-19 10:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(电子发烧友报道 文/章鹰)2月18日,在马斯克的xAI公司发布了Grok3大模型后,中国公司深度探索公司推出了用于超快速长文本训练训练与推理的“原生稀疏注意力”(Native Sparse Attention,简称 NSA)。

DeepSeek在arXiv上上传了一篇介绍 NSA 的论文。根据 arXiv 网站上发布的论文摘要显示,“我们提出了NSA,这是一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。”

论文称,NSA 在通用基准检验、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

实验显示,NSA 不仅在通用任务和长上下文任务中表现出色,还在例如链式推理等复杂任务中展现强大的潜力,且推理速度加快。

在通用基准检验、长文本处理以及基于指令的推理任务中,NSA 的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训练推理场景中显著提升速度,特别是在译码阶段实现高达 11.6 倍的提升。

透过高效的长序列处理能力,NSA 使模型能够直接处理整本书、代码库或多轮对话(如千轮客服场景),扩展大语言模型在文文件分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro 已展示长上下文的潜力,NSA 能进一步降低这类模型的训练与推理成本。

在这篇名题为「原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek 创始人梁文锋也是共同作者。

中国人工智能软件巨头商汤科技智能产业研究院前院长田锋表示,随着全球人工智能竞争持续升温,不同的公司在不同领域展示了竞争优势。据田锋介绍,DeepSeek 开发的资源高效的开源模型在数学推理和软件工程任务方面表现出色,而 OpenAI 的 o1 在一般知识和解决问题方面表现更佳。

我们看到,来自中国人工智能公司还展示了各种优势,包括竞争性能和成本效益。田锋强调:“通过利用替代数据源、开发自主技术以及促进国内技术生态系统内的合作,DeepSeek 和其他中国人工智能公司能够创造出不仅满足国内需求而且能够提高全球竞争力的解决方案,”

这是自1月20日DeepSeek发布R1模型震撼AI圈以来,DeepSeek首次发布的技术动态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI大模型
    +关注

    关注

    0

    文章

    416

    浏览量

    1052
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3452
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    倍加福EPV低泄漏减压阀助力企业降本增效

    一家化工企业为落实降本增效与可持续发展举措,对其机械设备的运行成本进行评估,重点关注空气压缩机及其配套系统。在危险区域,正压通风防爆箱需要持续通入气流以维持正压防止危险气体侵入。
    的头像 发表于 04-29 10:25 347次阅读

    智慧能源管理的技术手段如何实现降本增效

    配置,成为企业与园区降低能源成本、提升能源利用效率的核心路径。智慧能源管理的降本增效,并非单一技术的作用,而是物联网、大数据、AI算法、数字孪生等多种技术协同发力的结果,通过对能源“生
    的头像 发表于 04-20 09:54 388次阅读
    智慧能源管理的<b class='flag-5'>技术</b>手段如何实现<b class='flag-5'>降本增效</b>?

    国产隔离器强势突围:助力降本增效

    由国际领先品牌主导,但其高昂成本常为项目预算带来压力。如今,国产隔离器凭借显著的成本优势与跃升的性能表现,为行业提供高性价比解决方案,助力企业降本增效
    的头像 发表于 03-20 16:09 283次阅读

    千方集团持续推动公路货运实现降本增效

    公路货运作为我国物流体系的支柱,是推动全社会物流降本增效的关键领域。千方集团通过整合“车、路、货、能、运”等关键要素资源,构建了完整的产业生态,并通过智能化升级与全局优化,持续推动公路货运实现降本增效
    的头像 发表于 01-26 10:18 744次阅读

    ERP上云 = 降本增效?一文读懂ERP云业务应用&amp;迁移核心优势

    云ERP企业转型更轻盈:无需自建服务器,专业团队保障数据安全,按需扩展随业务增长。SNP的Kyano平台提供一站式迁移方案,全球3000+企业验证,助力快速实现降本增效与业务创新。
    的头像 发表于 01-14 14:03 313次阅读

    炸裂!为什么各行各业都纷纷拥抱物联网 + 智能?有人硬核方案降本增效爽到飞起!

    的 “转型加速器”——究竟是什么企业趋之若鹜? 一、降本增效:从 “经验管理” 到 “数据驱动”,有人方案直击企业痛点 企业最核心的诉求永远是 “少花钱、多办事”,而物联网的本质就是用数据打通生产堵点,有人智能的方案更是把这点做到
    的头像 发表于 11-27 17:28 433次阅读

    RFID资产管理:企业降本增效的隐形引擎(2025最新实践)

    “自动化采集、实时化追踪、数字化管控” 的核心能力,成为企业降本增效的隐形引擎,更构建起支撑数字化转型的资产管理基石。
    的头像 发表于 10-16 15:41 813次阅读

    停车场照明焕新记:晶映节能改造的降本增效实践​

    晶映节能停车场照明改造以技术创新破传统困境,通过智能感应与数字化管理,实现电费大降、维护成本锐减,同步提升安全与用户体验,彰显降本增效深层价值。
    的头像 发表于 08-21 16:18 1008次阅读
    停车场照明焕新记:晶映节能改造的<b class='flag-5'>降本增效</b>实践​

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    -V3的版本区别, 深入了解Deepseek技术细节,快速掌握大模型领域的前沿知识,洞察对行业应用的影响,提升自身在该领域的专业水平和竞争力。 本书流程非常清晰,先认识Deepseek
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于Deep
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    量化 细粒度量化的讲解,我接触到 AI 模型在精度和效率间寻求平衡的关键技术。不同量化方法,如 per tensor、per token 等,针对数据不同部分采用精细策略,就像给
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    实现三重超越;而对开源生态、技术趋势的前瞻探讨,则印证了DeepSeek“用开源击穿技术壁垒”的初心。 当DeepSeek-R1以60TPS的生成速度刷新认知,当蒸馏
    发表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI
    发表于 07-16 15:29

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术DeepSeek 核心技术揭秘

    析和前瞻性的行业洞察,为技术人员、研究人员和大模型相关技术爱好者提供了宝贵的学习资料。 本书目录结构 第1章介绍 DeepSeek 的一系列技术
    发表于 06-09 14:38

    IBM探索AI驱动的降本增效新路径

    AI 驱动已成为企业降本增效的战略级引擎,其价值实现不在于技术本身,而在于与业务场景的深度融合。IBM 咨询提出的"战略规划+运营管理"双轨并行模式,突破传统单点优化的局限,构建
    的头像 发表于 05-22 15:29 1168次阅读