天数智芯天垓100率先完成百亿级参数大模型训练-电子发烧友网

6月，在第五届智源大会AI系统分论坛上，上海天数智芯半导体有限公司（以下简称“天数智芯”）对外宣布，在天垓100加速卡的算力集群，基于北京智源人工智能研究院（以下简称“智源研究院”）70亿参数的Aquila语言基础模型，使用代码数据进行继续训练，稳定运行19天，模型收敛效果符合预期，证明天数智芯有支持百亿级参数大模型训练的能力。

在北京市海淀区的大力支持下，智源研究院、天数智芯与爱特云翔共同合作，联手开展基于自主通用GPU的大模型CodeGen（高效编码）项目，通过中文描述来生成可用的C、Java、Python代码以实现高效编码。智源研究院负责算法设计、训练框架开发、大模型的训练与调优，天数智芯负责提供天垓100加速卡、构建算力集群及全程技术支持，爱特云翔负责提供算存网基础硬件及智能化运维服务。

在三方的共同努力下，在基于天垓100加速卡的算力集群上，100B Tokens编程语料、70亿参数量的AquilaCode大模型参数优化工作结果显示，1个Epoch后loss下降到0.8，训练速度达到87K Tokens/s，线性加速比高达95%以上。与国际主流的A100加速卡集群相比，天垓100加速卡集群的收敛效果、训练速度、线性加速比相当，稳定性更优。在HumanEval基准数据集上，以Pass@1作为评估指标，自主算力集群训练出来的模型测试结果达到相近参数级别大模型的SOAT水平，在AI编程能力与国际主流GPU产品训练结果相近。

图基于天垓100算力集群的AquilaCode大模型训练性能采样

天垓100率先完成百亿级参数大模型训练，迈出了自主通用GPU大模型应用的重要的一步。这一成果充分证明了天垓产品可以支持大模型训练，打通了国内大模型创新发展的关键“堵点”，对于我国大模型自主生态建设、产业链安全保障具有十分重大的意义。

接下来，天数智芯将与合作伙伴们继续深入合作，建设更大规模的天垓100算力集群，完成更大参数规模的大模型训练，以自主通用GPU产品更好支持国内大模型创新应用，进一步夯实我国算力基础，助力人工智能产业自主生态建设。
责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编程

编程

+关注

关注
88

文章
3578

浏览量
93551
模型

模型

+关注

关注
1

文章
3140

浏览量
48672
天数智芯

天数智芯

+关注

关注
0

文章
94

浏览量
5525

原文标题：天垓100率先完成百亿级参数大模型训练，天数智芯迎来新的里程碑

文章出处：【微信号：IluvatarCoreX，微信公众号：天数智芯】欢迎添加关注！文章转载请注明出处。

摩尔线程与羽人科技完成大语言模型训练测试

近日，摩尔线程与羽人科技携手宣布，双方已成功实现夸娥（KUAE）千卡智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中，羽人科技通过摩尔线程夸娥千卡智算集群，高效完成了70亿参数

发表于 08-27 16:19 •484次阅读

llm模型训练一般用什么系统

。硬件系统 1.1 GPU（图形处理器）在训练大型语言模型时，GPU是首选的硬件设备。相比于CPU，GPU具有更高的并行处理能力，可以显著提高训练速度。目前，NVIDIA的Tesla系列GPU（如V

发表于 07-09 10:02 •338次阅读

天数智芯参与建设的中国移动智算中心(呼和浩特)项目圆满完成

近日，天数智芯参与建设的中国移动智算中心(呼和浩特)项目已圆满完成，全集群系统正式上线运营。

发表于 07-05 09:58 •1058次阅读

人脸识别模型训练流程

人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型的训练流程，包括数据准备、模型选择、

发表于 07-04 09:19 •793次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型

发表于 07-01 16:13 •1047次阅读

依图天问大模型4.0重磅发布

2023年7月，依图发布了智能安防领域首个可实战可商用的多模态大模型—依图天问1.0。发布至今，依图天问大模型基座已完成了两次迭代升级，并

发表于 06-18 09:25 •657次阅读

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

近日，国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已成功完成了一项重要的大模型训练测试。此次测试依托摩尔线程夸娥（KUAE）千卡智算集群，充分展现了其

发表于 06-14 16:31 •532次阅读

摩尔线程和滴普科技完成大模型训练与推理适配

近日，摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥（KUAE）千卡智算集群与滴普科技的企业大模型Deepexi已完成训练及推理适配，共同实现了700亿参数LLaMA2大语言

发表于 05-30 10:14 •506次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

如此卓越的性能，就是通过其核心能力对海量数据进行预训练，再进行微调或对其什么型更好的根据人类的指令和偏好，发挥这些性能。随着语言模型参数的不断增加，模型

发表于 05-07 17:10

【大语言模型：原理与工程实践】揭开大语言模型的面纱

了如BERT和GPT等划时代的模型。BERT通过双向训练增强了文本理解能力，而GPT则展示了强大的文本生成能力。大语言模型，拥有数百亿甚至更多参

发表于 05-04 23:55

天数智芯主导DeepSpark开源社区百大应用开放平台24.03版本正式发布

近日，由上海天数智芯半导体有限公司（以下简称“天数智芯”）主导的DeepSpark开源社区正式发布了百大应用开放平台24.03版本。

发表于 03-28 10:58 •1038次阅读

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

和强化学习展开，详细介绍各阶段使用的算法、数据、难点及实践经验。预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据，并借助由数千块高性能GPU 和高速网络组成的超级计算机，花费数十天完成深度神经网络

发表于 03-11 15:16

天数智芯DeepSpark开源社区正式发布百大应用开放平台23.12版本

近日，由上海天数智芯半导体有限公司（以下简称“天数智芯”）主导的DeepSpark开源社区正式发布了百大应用开放平台23.12版本。

发表于 12-29 15:13 •968次阅读

【飞腾派4G版免费试用】第三章：抓取图像，手动标注并完成自定义目标检测模型训练和测试

抓取图像，手动标注并完成自定义目标检测模型训练和测试在第二章中，我介绍了模型训练的一般过程，其中关键的过程是带有标注信息的数据集获取。

发表于 12-16 10:05

天数智芯支持智源研究院首次完成大模型异构算力混合训练，突破异构算力束缚

基于英伟达混合资源及天数智芯混合资源完成训练的大模型，也是智源研究院与天数智

发表于 11-30 13:10 •3282次阅读

搜索历史

天数智芯天垓100率先完成百亿级参数大模型训练

评论

摩尔线程与羽人科技完成大语言模型训练测试

llm模型训练一般用什么系统

天数智芯参与建设的中国移动智算中心(呼和浩特)项目圆满完成

人脸识别模型训练流程

深度学习模型训练过程详解

依图天问大模型4.0重磅发布

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

摩尔线程和滴普科技完成大模型训练与推理适配

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】揭开大语言模型的面纱

天数智芯主导DeepSpark开源社区百大应用开放平台24.03版本正式发布

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

天数智芯DeepSpark开源社区正式发布百大应用开放平台23.12版本

【飞腾派4G版免费试用】第三章：抓取图像，手动标注并完成自定义目标检测模型训练和测试

天数智芯支持智源研究院首次完成大模型异构算力混合训练，突破异构算力束缚