1024块TPU在燃烧！将BERT预训练模型的训练时长从3天缩减到了76分钟-电子发烧友网

“Jeff Dean称赞，TensorFlow官方推特支持，BERT目前工业界最耗时的应用，计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

近日，来自Google、UC Berkeley、UCLA研究团队再度合作，成功燃烧1024块TPU，将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键，在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中，作者提出了LAMB优化器，它支持自适应元素更新和分层校正。

论文传送门：https://arxiv.org/pdf/1904.00962.pdf

论文摘要：batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是，这种模型训练很难，因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型，它建立在语义理解的深度双向转换器上。当我们增加batch size的大小（如超过8192）时，此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成，如在16个TPUv3上大约需要三天。

为了解决这个问题，我们提出了LAMB优化器，可将batch size扩展到65536，且不会降低准确率。LAMB是一个通用优化器，batch size大小均使用，且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练，而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制，接近TPUv3 pod，结果可在76分钟内完成BERT训练。

据悉，该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋，同时也是Google Brain的实习生。据公开信息显示，尤洋的导师是美国科学院与工程院院士，ACM/IEEE fellow，伯克利计算机系主任，以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月，尤洋等人的新算法以24分钟完成ImageNet训练，刷新世界纪录。

在此之前，他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系，硕士保送清华大学计算机系，是一名杠杠的理工学霸！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100720
TPU

TPU

+关注

关注
0

文章
141

浏览量
20720
深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121113
训练模型

训练模型

+关注

关注
1

文章
36

浏览量
3811

原文标题：1024块TPU在燃烧！BERT训练从3天缩短到76分钟 | 技术头条

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

什么是大模型、大模型是怎么训练出来的及大模型作用

，基础模型。大模型是一个简称，完整的叫法，应该是“人工智能预训练大模型”。预

发表于 11-25 09:29 •1227次阅读

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

Llama 3 模型训练技巧

Llama 3 模型，假设是指一个先进的人工智能模型，可能是一个虚构的或者是一个特定领域的术语。 1. 数据预处理数据是任何机器学习模型的基础。在

发表于 10-27 14:24 •309次阅读

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

神经网络，特别是预训练的基础模型研究得到了广泛的应用，但其仍然主要依赖于在大量样本上的批量式训练

发表于 10-18 08:09 •215次阅读

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定

发表于 07-11 10:12 •1018次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •422次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预

发表于 07-10 11:03 •1064次阅读

llm模型训练一般用什么系统

。硬件系统 1.1 GPU（图形处理器）在训练大型语言模型时，GPU是首选的硬件设备。相比于CPU，GPU具有更高的并行处理能力，可以显著提高训练速度。目前，NVIDIA的Tesl

发表于 07-09 10:02 •399次阅读

人脸识别模型训练流程

人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型的训练流程，包括数据准备、

发表于 07-04 09:19 •937次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得

发表于 07-03 18:20 •2770次阅读

解读PyTorch模型训练过程

PyTorch作为一个开源的机器学习库，以其动态计算图、易于使用的API和强大的灵活性，在深度学习领域得到了广泛的应用。本文将深入解读PyTorch模型

发表于 07-03 16:07 •1048次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，

发表于 07-01 16:13 •1237次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

数据格式的转换、数据字段的匹配和整合等。通过数据级净化，可以进一步提高数据的质量和可用性，为后续的数据分析和建模提供更有价值的数据支持。在得到了大语言模型的数据之后，就是对其进行预

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点，还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预

发表于 05-05 12:17

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

和强化学习展开，详细介绍各阶段使用的算法、数据、难点及实践经验。预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据，并借助由数千块高性能GPU 和高速网络组成的超级计算机，花费数十

发表于 03-11 15:16

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅拥有BERT的优势，而且

发表于 02-29 17:37 •782次阅读

搜索历史

1024块TPU在燃烧！将BERT预训练模型的训练时长从3天缩减到了76分钟

评论

什么是大模型、大模型是怎么训练出来的及大模型作用

Llama 3 模型训练技巧

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

预训练和迁移学习的区别和联系

大语言模型的预训练

LLM预训练的基本概念、基本原理和主要优势

llm模型训练一般用什么系统

人脸识别模型训练流程

预训练模型的基本原理和应用

解读PyTorch模型训练过程

深度学习模型训练过程详解

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

谷歌模型训练软件有哪些功能和作用