0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI初创企业推MoE混合专家模型架构新品abab 6.5

微云疏影 来源:综合整理 作者:综合整理 2024-04-17 15:06 次阅读

4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。

losoev 6.5 系列包含两款模型:

losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;

losoev 6.5s:与 losoev 6.5 共享相同的训练技术和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。

自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。

在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。

losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4645

    浏览量

    93673
  • 人工智能
    +关注

    关注

    1799

    文章

    48059

    浏览量

    241977
  • 模型
    +关注

    关注

    1

    文章

    3407

    浏览量

    49458
收藏 人收藏

    评论

    相关推荐

    横空出世!容芯致远创新“智算整机架构”融合DeepSeek应用

    DeepSeek火爆全球,并引发算力行业链式反应。借助混合专家模型(MOE)架构、多头潜在注意力机制(MLA)等算法创新,DeepSeek显
    的头像 发表于 02-28 13:48 123次阅读
    横空出世!容芯致远创新“智算整机<b class='flag-5'>架构</b>”融合DeepSeek应用

    字节豆包大模型团队推出UltraMem稀疏架构

    的应用提供了有力支持。 据介绍,UltraMem架构针对MoE(Mixture of Experts,专家混合)模型推理时存在的高额访存问题
    的头像 发表于 02-13 11:17 336次阅读

    DeepSeek:引领全球AI竞赛的中国新范式

    的价值重估,DeepSeek现象折射出中国AI产业发展的新逻辑。这家成立仅两年的初创企业,不仅连续推出性能对标GPT-4的MoE混合
    的头像 发表于 02-09 10:31 518次阅读

    DeepSeek对芯片算力的影响

    DeepSeek模型,尤其是其基于MOE混合专家架构的DeepSeek-V3,对芯片算力的要求产生了深远影响。为了更好地理解这一影响,我
    的头像 发表于 02-07 10:02 574次阅读
    DeepSeek对芯片算力的影响

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的
    的头像 发表于 02-07 09:20 845次阅读
    解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

    企业AI模型托管怎么做的

    当下,越来越多的企业选择将AI模型托管给专业的第三方平台,以实现高效、灵活和安全的模型运行。下面,AI部落小编为您介绍
    的头像 发表于 01-15 10:10 144次阅读

    企业AI模型部署攻略

    当下,越来越多的企业开始探索和实施AI模型,以提升业务效率和竞争力。然而,AI模型的部署并非易事,需要
    的头像 发表于 12-23 10:31 289次阅读

    猎户星空发布Orion-MoE 8×7B大模型AI数据宝AirDS

    。 Orion-MoE 8×7B是猎户星空精心打造的开源混合架构专家模型,该模型拥有高达8×7
    的头像 发表于 11-29 13:57 367次阅读

    腾讯发布开源MoE大语言模型Hunyuan-Large

    近日,腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts,专家混合)大语言模型——Hunyuan-Large。这款模型
    的头像 发表于 11-06 10:57 450次阅读

    腾讯云大模型价格调整:混元-lite、混元-standard免费,混元-pro降价

    据了解,腾讯混元大模型是腾讯全链路自研的万亿参数大模型,采用混合专家模型MoE)结构,
    的头像 发表于 05-23 17:05 1262次阅读

    人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

    人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0,这一里程碑式的成果标志着公司在通用人工智能(AGI)领域取得了重要突破。与前代ChatImg序列模型相比,Awaker 1.0凭借其独特的
    的头像 发表于 05-06 09:59 701次阅读

    MOE与MOT:提升LLM效能的关键策略比较

    MoE 与 MoT:在专家混合中(左),每个令牌都被路由到不同的专家前馈层。在令牌混合(右)中,每组内的令牌被
    的头像 发表于 04-15 09:53 1091次阅读
    <b class='flag-5'>MOE</b>与MOT:提升LLM效能的关键策略比较

    AI初创企业Suno发布首款音乐AI生成模型SunoV3

    美国人工智能初创企业Suno近日震撼发布其首款音乐AI生成模型——SunoV3。这款创新产品已正式登陆其官方网站,并向所有用户免费开放使用,标志着音乐创作领域迈入了全新的智能化时代。
    的头像 发表于 03-26 09:17 1293次阅读

    英特尔与Arm联手助力初创企业开发Arm架构SoC

    据介绍,此次合作旨在联合推动使用Intel 18A制程工艺研发Arm架构SoC的初创企业发展。英特尔和Arm将携手提供IP和制造及相关金融支持,助力初创
    的头像 发表于 03-25 15:34 534次阅读

    微软支付6.5亿美元获得Inflection AIAI模型授权

    微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金,这一举动在业内引起了广泛关注。据悉,这笔资金主要用于获得Inflection AI
    的头像 发表于 03-25 10:39 582次阅读