0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天数智芯天垓100率先完成百亿级参数大模型训练

天数智芯 来源:天数智芯 2023-06-12 15:23 次阅读

6月,在第五届智源大会AI系统分论坛上,上海天数智芯半导体有限公司(以下简称“天数智芯”)对外宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院(以下简称“智源研究院”)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。

在北京市海淀区的大力支持下,智源研究院、天数智芯与爱特云翔共同合作,联手开展基于自主通用GPU的大模型CodeGen(高效编码)项目,通过中文描述来生成可用的C、JavaPython代码以实现高效编码。智源研究院负责算法设计、训练框架开发、大模型的训练与调优,天数智芯负责提供天垓100加速卡、构建算力集群及全程技术支持,爱特云翔负责提供算存网基础硬件智能化运维服务。

在三方的共同努力下,在基于天垓100加速卡的算力集群上,100B Tokens编程语料、70亿参数量的AquilaCode大模型参数优化工作结果显示,1个Epoch后loss下降到0.8,训练速度达到87K Tokens/s,线性加速比高达95%以上。与国际主流的A100加速卡集群相比,天垓100加速卡集群的收敛效果、训练速度、线性加速比相当,稳定性更优。在HumanEval基准数据集上,以Pass@1作为评估指标,自主算力集群训练出来的模型测试结果达到相近参数级别大模型的SOAT水平,在AI编程能力与国际主流GPU产品训练结果相近。

cfc30840-08ef-11ee-962d-dac502259ad0.png

图 基于天垓100算力集群的AquilaCode大模型训练性能采样

天垓100率先完成百亿级参数大模型训练,迈出了自主通用GPU大模型应用的重要的一步。这一成果充分证明了天垓产品可以支持大模型训练,打通了国内大模型创新发展的关键“堵点”,对于我国大模型自主生态建设、产业链安全保障具有十分重大的意义。

接下来,天数智芯将与合作伙伴们继续深入合作,建设更大规模的天垓100算力集群,完成更大参数规模的大模型训练,以自主通用GPU产品更好支持国内大模型创新应用,进一步夯实我国算力基础,助力人工智能产业自主生态建设。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编程
    +关注

    关注

    88

    文章

    3578

    浏览量

    93551
  • 模型
    +关注

    关注

    1

    文章

    3140

    浏览量

    48672
  • 天数智芯
    +关注

    关注

    0

    文章

    94

    浏览量

    5525

原文标题:天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑

文章出处:【微信号:IluvatarCoreX,微信公众号:天数智芯】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千卡智算集群,高效完成了70亿参数
    的头像 发表于 08-27 16:19 484次阅读

    llm模型训练一般用什么系统

    。 硬件系统 1.1 GPU(图形处理器) 在训练大型语言模型时,GPU是首选的硬件设备。相比于CPU,GPU具有更高的并行处理能力,可以显著提高训练速度。目前,NVIDIA的Tesla系列GPU(如V
    的头像 发表于 07-09 10:02 338次阅读

    天数参与建设的中国移动智算中心(呼和浩特)项目圆满完成

    近日,天数参与建设的中国移动智算中心(呼和浩特)项目已圆满完成,全集群系统正式上线运营。
    的头像 发表于 07-05 09:58 1058次阅读

    人脸识别模型训练流程

    人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型训练流程,包括数据准备、模型选择、
    的头像 发表于 07-04 09:19 793次阅读

    深度学习模型训练过程详解

    深度学习模型训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型,本质上是通过优化算法调整模型
    的头像 发表于 07-01 16:13 1047次阅读

    依图问大模型4.0重磅发布

    2023年7月,依图发布了智能安防领域首个可实战可商用的多模态大模型—依图问1.0。发布至今,依图问大模型基座已完成了两次迭代升级,并
    的头像 发表于 06-18 09:25 657次阅读

    摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

    近日,国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已成功完成了一项重要的大模型训练测试。此次测试依托摩尔线程夸娥(KUAE)千卡智算集群,充分展现了其
    的头像 发表于 06-14 16:31 532次阅读

    摩尔线程和滴普科技完成模型训练与推理适配

    近日,摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥(KUAE)千卡智算集群与滴普科技的企业大模型Deepexi已完成训练及推理适配,共同实现了700亿参数LLaMA2大语言
    的头像 发表于 05-30 10:14 506次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    如此卓越的性能,就是通过其核心能力对海量数据进行预训练,再进行微调或对其什么型更好的根据人类的指令和偏好,发挥这些性能。随着语言模型参数的不断增加,模型
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    了如BERT和GPT等划时代的模型。BERT通过双向训练增强了文本理解能力,而GPT则展示了强大的文本生成能力。 大语言模型,拥有数百亿甚至更多
    发表于 05-04 23:55

    天数主导DeepSpark开源社区百大应用开放平台24.03版本正式发布

    近日,由上海天数半导体有限公司(以下简称“天数”)主导的DeepSpark开源社区正式发布了百大应用开放平台24.03版本。
    的头像 发表于 03-28 10:58 1038次阅读
    <b class='flag-5'>天数</b>智<b class='flag-5'>芯</b>主导DeepSpark开源社区百大应用开放平台24.03版本正式发布

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    和强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。 预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络
    发表于 03-11 15:16

    天数DeepSpark开源社区正式发布百大应用开放平台23.12版本

    近日,由上海天数半导体有限公司(以下简称“天数”)主导的DeepSpark开源社区正式发布了百大应用开放平台23.12版本。
    的头像 发表于 12-29 15:13 968次阅读
    <b class='flag-5'>天数</b>智<b class='flag-5'>芯</b>DeepSpark开源社区正式发布百大应用开放平台23.12版本

    【飞腾派4G版免费试用】第三章:抓取图像,手动标注并完成自定义目标检测模型训练和测试

    抓取图像,手动标注并完成自定义目标检测模型训练和测试 在第二章中,我介绍了模型训练的一般过程,其中关键的过程是带有标注信息的数据集获取。
    发表于 12-16 10:05

    天数支持智源研究院首次完成模型异构算力混合训练,突破异构算力束缚

    基于英伟达混合资源及天数混合资源完成训练的大模型, 也是智源研究院与天数
    的头像 发表于 11-30 13:10 3282次阅读
    <b class='flag-5'>天数</b>智<b class='flag-5'>芯</b>支持智源研究院首次<b class='flag-5'>完成</b>大<b class='flag-5'>模型</b>异构算力混合<b class='flag-5'>训练</b>,突破异构算力束缚