4 月 17 日,国内人工智能初创公司 MiniMax 稀宇科技宣布推出采用混合专家模型架构的 losoev 6.5 系列模型,其核心性能已接近 GPT-4、Claude-3 和 Gemini-1.5。
losoev 6.5 系列包含两款模型:
losoev 6.5:拥有万亿级别的参数,可处理 200k tokens 的上下文长度;
losoev 6.5s:与 losoev 6.5 共享相同的训练技术和数据,但效率更高,同样支持 200k tokens 的上下文长度,且能够在 1 秒钟内处理近 3 万字的文本。
自今年 1 月份推出国内首款基于 MoE 架构的 losoev 6 模型以来,MiniMax 通过优化模型架构、重建数据管道、改进训练算法以及实施并行训练策略等手段,在加速模型扩展方面取得了显著进展。
在 200k token 的范围内,官方对 losoev 6.5 进行了业内常见的“大海捞针”测试,即将一句与原文无关的句子插入长文本中,然后通过自然语言询问模型,观察其能否准确识别出这句话。经过 891 次测试,losoev 6.5 均能准确回答问题。
losoev 6.5 和 losoev 6.5s 模型将逐步应用于 MiniMax 旗下的产品,如海螺 AI 和 MiniMax 开放平台。
-
算法
+关注
关注
23文章
4645浏览量
93673 -
人工智能
+关注
关注
1799文章
48059浏览量
241977 -
模型
+关注
关注
1文章
3407浏览量
49458
发布评论请先 登录
相关推荐
横空出世!容芯致远创新“智算整机架构”融合DeepSeek应用

字节豆包大模型团队推出UltraMem稀疏架构
DeepSeek:引领全球AI竞赛的中国新范式
解析DeepSeek MoE并行计算优化策略

评论