幻方量化发布了国内首个开源MoE大模型

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 ——DeepSeekMoE，全新架构，免费商用。

今年 4 月，幻方量化发布公告称，公司将集中资源和力量，全力投身到服务于全人类共同利益的人工智能技术之中，成立新的独立研究组织，探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。

模型下载：https://huggingface.co/deepseek-ai

微调代码：https://github.com/deepseek-ai/DeepSeek-MoE

技术报告：https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍，DeepSeekMoE 的多尺度（2B->16B->145B）模型效果均领先：

DeepSeekMoE-2B 可接近 MoE 模型的理论上限2B Dense 模型性能（即相同 Attention/FFN 参数配比的 2B Dense 模型），仅用了 17.5% 计算量

DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时，仅用了 40% 计算量，也是本次主力开源模型，40G 显存可单卡部署

DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard，仅用 28.5%（甚至 18.2%）计算量即可匹配 67B Dense 模型的性能

混合专家模型 (Mixed Expert Models，简称 MoEs)是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务，每个子任务由专门的小型模型或 “专家” 负责，然后根据输入数据的特性选择性地激活这些 “专家”。 MoE 核心组成：

专家 (Experts)：训练有素的小型神经网络，擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式，如完全连接的网络、卷积网络等。

门控机制 (Gating Mechanism)：MoE 架构决策者，这是一个智能路由系统，负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性，动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架，主要包含两大创新：

细粒度专家划分：不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家（如 Mistral 7B8 采取 8 个专家选 2 专家），DeepSeekMoE把 N 个专家粒度划分更细，在保证激活参数量不变的情况下，从 mN 个专家中选择激活 mK 个专家（如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家），如此可以更加灵活地组合多个专家

共享专家分离：DeepSeekMoE 把激活专家区分为共享专家（Shared Expert）和独立路由专家（Routed Expert），此举有利于将共享和通用的知识压缩进公共参数，减少独立路由专家参数之间的知识冗余

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4777

浏览量
100997
智能路由

智能路由

+关注

关注
0

文章
9

浏览量
7151
卷积网络

卷积网络

+关注

关注
0

文章
42

浏览量
2188

原文标题：幻方量化开源国内首个MoE大模型，全新架构、免费商用

文章出处：【微信号：OSC开源社区，微信公众号：OSC开源社区】欢迎添加关注！文章转载请注明出处。

猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

近日，猎户星空携手聚云科技在北京共同举办了一场发布会。会上，猎户星空正式揭晓了其自主研发的Orion-MoE 8×7B大模型，并与聚云科技联合推出了基于该大

发表于 11-29 13:57 •267次阅读

腾讯发布开源MoE大语言模型Hunyuan-Large

近日，腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts，专家混合)大语言模型——Hunyuan-Large。这款模型不仅在参数量上刷新

发表于 11-06 10:57 •347次阅读

全球首个开源AI标准正式发布

近日，在备受瞩目的2024年ALL THINGS OPEN大会上，开源组织Open Source Initiative（OSI）宣布了一项重大突破——正式发布了

发表于 10-31 10:59 •289次阅读

Meta发布Llama 3.2量化版模型

近日，Meta在开源Llama 3.2的1B与3B模型后，再次为人工智能领域带来了新进展。10月24日，Meta正式推出了这两个模型的量化版本，旨在进一步优化

发表于 10-29 11:05 •442次阅读

深开鸿联合深天使发布国内首个开源鸿蒙产业加速营

近日，深圳开鸿数字产业发展有限公司（深开鸿）、深圳市天使投资引导基金管理有限公司（深天使）与深圳市天使投资协会携手发布国内首个开源鸿蒙(OpenHarmony)产业加速营。本次加速营旨

发表于 10-01 08:10 •318次阅读

深开鸿联合深天使<b class='flag-5'>发布</b><b class='flag-5'>国内</b><b class='flag-5'>首个</b><b class='flag-5'>开源</b>鸿蒙产业加速营

深开鸿联合中软国际、粤科金融集团发布国内首个开源鸿蒙创业投资基金

在近期举办的2024开放原子开源生态大会上，深圳开鸿数字产业发展有限公司（以下简称“深开鸿”）携手中软国际、粤科金融集团正式发布国内首个专注于开源

发表于 09-30 08:07 •842次阅读

深开鸿联合深天使发布国内首个开源鸿蒙产业加速营

近日，深圳开鸿数字产业发展有限公司(深开鸿)、深圳市天使投资引导基金管理有限公司(深天使)与深圳市天使投资协会携手发布国内首个开源鸿蒙(OpenHarmony)产业加速营。本次加速营旨

发表于 09-29 15:28 •311次阅读

全球首个芯片设计开源大模型SemiKong正式发布

在科技日新月异的今天，全球首个芯片设计开源大模型SemiKong的正式发布，无疑为半导体行业投下了一枚震撼弹，预示着一场深刻的行业变革即将拉开序幕。这款由Aitomatic与FPT S

发表于 07-14 10:01 •973次阅读

“燃鸿”重磅发布！国内首个燃气行业开源鸿蒙化智能产品及解决方案

“鸿蒙赋能智创未来”为主题的燃气行业燃鸿技术推介与产品发布会在四川成都成功举办。会上，三方联合发布了“燃鸿”，这是国内

发表于 06-28 08:33 •723次阅读

昆仑万维开源2千亿稀疏大模型Skywork-MoE

近日，昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型，该模型拥有高达2千亿参数，不仅性能强劲，而且推理成本更低，为人工智能领域带来了新的突破。

发表于 06-04 14:44 •605次阅读

浪潮信息发布“源2.0-M32”开源大模型

浪潮信息近日推出了革命性的“源2.0-M32”开源大模型。该模型在源2.0系列基础上，引入了“基于注意力机制的门控网络”技术，构建了一个包含32个专家的混合专家模型（

发表于 05-29 09:08 •697次阅读

通义千问推出1100亿参数开源模型

通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B，这一举措标志着通义千问在AI领域迈出了重大步伐。该模型成为通义千问全系列首个

发表于 05-06 10:49 •610次阅读

思必驰参编，国内第一个“汽车大模型标准”正式发布

4月28日，中国信通院发布了由思必驰等多家单位共同编制的国内首个“汽车大模型标准”，该标准聚焦汽车行业高质量发展，受到央视报道。

发表于 04-30 14:49 •2237次阅读

昆仑万维发布新版MoE大语言模型天工2.0

昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载

发表于 02-06 16:19 •1308次阅读

万兴科技发布国内首个音视频多媒体大模型“天幕”

万兴科技近日正式发布了国内首个音视频多媒体大模型——万兴“天幕”，并宣布大模型研发中心将正式落户

发表于 02-04 11:42 •1338次阅读

搜索历史

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

评论

猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

腾讯发布开源MoE大语言模型Hunyuan-Large

全球首个开源AI标准正式发布

Meta发布Llama 3.2量化版模型

深开鸿联合深天使发布国内首个开源鸿蒙产业加速营

深开鸿联合中软国际、粤科金融集团发布国内首个开源鸿蒙创业投资基金

深开鸿联合深天使发布国内首个开源鸿蒙产业加速营

全球首个芯片设计开源大模型SemiKong正式发布

“燃鸿”重磅发布！国内首个燃气行业开源鸿蒙化智能产品及解决方案

昆仑万维开源2千亿稀疏大模型Skywork-MoE

浪潮信息发布“源2.0-M32”开源大模型

通义千问推出1100亿参数开源模型

思必驰参编，国内第一个“汽车大模型标准”正式发布

昆仑万维发布新版MoE大语言模型天工2.0

万兴科技发布国内首个音视频多媒体大模型“天幕”