AI初创企业推MoE混合专家模型架构新品abab 6.5-电子发烧友网

AI初创企业推MoE混合专家模型架构新品abab 6.5

4 月 17 日，国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型，其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型：

losoev 6.5：拥有万亿级别的参数，可处理 200k tokens 的上下文长度；

losoev 6.5s：与 losoev 6.5 共享相同的训练技术和数据，但效率更高，同样支持 200k tokens 的上下文长度，且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来，MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段，在加速模型扩展方面取得了显著进展。

在 200k token 的范围内，官方对 losoev 6.5 进行了业内常见的“大海捞针”测试，即将一句与原文无关的句子插入长文本中，然后通过自然语言询问模型，观察其能否准确识别出这句话。经过 891 次测试，losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品，如海螺 AI 和 MiniMax 开放平台。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4645

浏览量
93673
人工智能

人工智能

+关注

关注
1799

文章
48059

浏览量
241977
模型

模型

+关注

关注
1

文章
3407

浏览量
49458

横空出世！容芯致远创新“智算整机架构”融合DeepSeek应用

DeepSeek火爆全球,并引发算力行业链式反应。借助混合专家模型(MOE)架构、多头潜在注意力机制(MLA)等算法创新,DeepSeek显

发表于 02-28 13:48 •123次阅读

横空出世！容芯致远创新“智算整机<b class='flag-5'>架构</b>”融合DeepSeek应用

字节豆包大模型团队推出UltraMem稀疏架构

的应用提供了有力支持。据介绍，UltraMem架构针对MoE(Mixture of Experts，专家混合)模型推理时存在的高额访存问题

发表于 02-13 11:17 •336次阅读

DeepSeek:引领全球AI竞赛的中国新范式

的价值重估，DeepSeek现象折射出中国AI产业发展的新逻辑。这家成立仅两年的初创企业，不仅连续推出性能对标GPT-4的MoE（混合

发表于 02-09 10:31 •518次阅读

DeepSeek对芯片算力的影响

DeepSeek模型，尤其是其基于MOE（混合专家）架构的DeepSeek-V3，对芯片算力的要求产生了深远影响。为了更好地理解这一影响，我

发表于 02-07 10:02 •574次阅读

解析DeepSeek MoE并行计算优化策略

本期Kiwi Talks将从集群Scale Up互联的需求出发，解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的

发表于 02-07 09:20 •845次阅读

解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

企业AI模型托管怎么做的

当下，越来越多的企业选择将AI模型托管给专业的第三方平台，以实现高效、灵活和安全的模型运行。下面，AI部落小编为您介绍

发表于 01-15 10:10 •144次阅读

企业AI模型部署攻略

当下，越来越多的企业开始探索和实施AI模型，以提升业务效率和竞争力。然而，AI模型的部署并非易事，需要企

发表于 12-23 10:31 •289次阅读

猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

。 Orion-MoE 8×7B是猎户星空精心打造的开源混合架构专家大模型，该模型拥有高达8×7

发表于 11-29 13:57 •367次阅读

腾讯发布开源MoE大语言模型Hunyuan-Large

近日，腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts，专家混合)大语言模型——Hunyuan-Large。这款模型

发表于 11-06 10:57 •450次阅读

腾讯云大模型价格调整：混元-lite、混元-standard免费，混元-pro降价

据了解，腾讯混元大模型是腾讯全链路自研的万亿参数大模型，采用混合专家模型（MoE）结构，

发表于 05-23 17:05 •1262次阅读

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0，这一里程碑式的成果标志着公司在通用人工智能（AGI）领域取得了重要突破。与前代ChatImg序列模型相比，Awaker 1.0凭借其独特的

发表于 05-06 09:59 •701次阅读

MOE与MOT：提升LLM效能的关键策略比较

MoE 与 MoT：在专家混合中（左），每个令牌都被路由到不同的专家前馈层。在令牌混合（右）中，每组内的令牌被

发表于 04-15 09:53 •1091次阅读

AI初创企业Suno发布首款音乐AI生成模型SunoV3

美国人工智能初创企业Suno近日震撼发布其首款音乐AI生成模型——SunoV3。这款创新产品已正式登陆其官方网站，并向所有用户免费开放使用，标志着音乐创作领域迈入了全新的智能化时代。

发表于 03-26 09:17 •1293次阅读

英特尔与Arm联手助力初创企业开发Arm架构SoC

据介绍，此次合作旨在联合推动使用Intel 18A制程工艺研发Arm架构SoC的初创企业发展。英特尔和Arm将携手提供IP和制造及相关金融支持，助力初创

发表于 03-25 15:34 •534次阅读

微软支付6.5亿美元获得Inflection AI的AI模型授权

微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金，这一举动在业内引起了广泛关注。据悉，这笔资金主要用于获得Inflection AI的

发表于 03-25 10:39 •582次阅读

搜索历史

AI初创企业推MoE混合专家模型架构新品abab 6.5

评论

横空出世！容芯致远创新“智算整机架构”融合DeepSeek应用

字节豆包大模型团队推出UltraMem稀疏架构

DeepSeek:引领全球AI竞赛的中国新范式

DeepSeek对芯片算力的影响

解析DeepSeek MoE并行计算优化策略

企业AI模型托管怎么做的

企业AI模型部署攻略

猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

腾讯发布开源MoE大语言模型Hunyuan-Large

腾讯云大模型价格调整：混元-lite、混元-standard免费，混元-pro降价

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

MOE与MOT：提升LLM效能的关键策略比较

AI初创企业Suno发布首款音乐AI生成模型SunoV3

英特尔与Arm联手助力初创企业开发Arm架构SoC

微软支付6.5亿美元获得Inflection AI的AI模型授权