4月17日,昆仑万维公司公布了天工3.0大模型的优异性能,同时启动了天工SkyMusic音乐大模型的公益试用。
天工3.0拥有4000亿参数,超越Grok-1的3140亿参数,成为全球最大的开源MoE大模型。该模型在语义理解、逻辑推理、通用性、泛化性、不确定性知识以及学习能力等方面均有显著提升,数学/推理/代码/文创能力提高超过30%。此外,天工3.0还新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等AI功能。
天工SkyMusic音乐大模型也于同日开启公益试用。昆仑万维表示,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等方面明显优于竞争对手,综合性能超越Suno V3,成为音乐大模型中的最高水准。
天工SkyMusic采用音乐音频领域类Sora模型架构,Large-scale Transformer负责谱曲,学习Music Patches的上下文依赖关系,实现音乐可控性;而Diffusion Transformer则负责演唱,通过LDM将Music Patches还原为高质量音频,支持生成80秒44100Hz采样率双声道立体声歌曲。
据悉,天工SkyMusic具有以下特色:
1. 高质量AI音乐:生成80秒44100Hz采样率双声道立体声AI歌曲
2. 人声“以假乱真”:中文发音清晰无异响
3. 歌词段落控制:歌曲能明确区分不同段落的情感变化
4. 多种音乐风格:支持说唱/民谣/放克/古风/电子等
5. 音乐智能表达:学习颤音、歌剧、吟唱、男女对唱等歌唱技巧
6. 参考音乐生成:用户上传参考音乐,生成相似风格和唱腔的歌曲
7. 方言歌曲生成:支持粤语、成都话、北京话等众多方言
-
开源
+关注
关注
3文章
3244浏览量
42381 -
LDM
+关注
关注
0文章
6浏览量
10641 -
大模型
+关注
关注
2文章
2320浏览量
2461
发布评论请先 登录
相关推荐
评论