0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

1024块TPU在燃烧!将BERT预训练模型的训练时长从3天缩减到了76分钟

电子工程师 来源:lp 2019-04-04 16:27 次阅读

“Jeff Dean称赞,TensorFlow官方推特支持,BERT目前工业界最耗时的应用,计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

近日,来自Google、UC Berkeley、UCLA研究团队再度合作,成功燃烧1024块TPU,将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中,作者提出了LAMB优化器,它支持自适应元素更新和分层校正。

论文传送门:https://arxiv.org/pdf/1904.00962.pdf

论文摘要:batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是,这种模型训练很难,因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型,它建立在语义理解的深度双向转换器上。当我们增加batch size的大小(如超过8192)时,此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成,如在16个TPUv3上大约需要三天。

为了解决这个问题,我们提出了LAMB优化器,可将batch size扩展到65536,且不会降低准确率。LAMB是一个通用优化器,batch size大小均使用,且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练,而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制,接近TPUv3 pod,结果可在76分钟内完成BERT训练。

据悉,该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋,同时也是Google Brain的实习生。据公开信息显示,尤洋的导师是美国科学院与工程院院士,ACM/IEEE fellow,伯克利计算机系主任,以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月,尤洋等人的新算法以24分钟完成ImageNet训练,刷新世界纪录。

在此之前,他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系,硕士保送清华大学计算机系,是一名杠杠的理工学霸!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100522
  • TPU
    TPU
    +关注

    关注

    0

    文章

    138

    浏览量

    20692
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120958
  • 训练模型
    +关注

    关注

    1

    文章

    35

    浏览量

    3801

原文标题:1024块TPU在燃烧!BERT训练从3天缩短到76分钟 | 技术头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Llama 3 模型训练技巧

    Llama 3 模型,假设是指一个先进的人工智能模型,可能是一个虚构的或者是一个特定领域的术语。 1. 数据预处理 数据是任何机器学习模型的基础。
    的头像 发表于 10-27 14:24 226次阅读

    直播预约 |数据智能系列讲座第4期:训练的基础模型下的持续学习

    神经网络,特别是训练的基础模型研究得到了广泛的应用,但其仍然主要依赖于大量样本上的批量式训练
    的头像 发表于 10-18 08:09 155次阅读
    直播预约 |数据智能系列讲座第4期:<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础<b class='flag-5'>模型</b>下的持续学习

    训练和迁移学习的区别和联系

    训练和迁移学习是深度学习和机器学习领域中的两个重要概念,它们提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定
    的头像 发表于 07-11 10:12 829次阅读

    大语言模型训练

    能力,逐渐成为NLP领域的研究热点。大语言模型训练是这一技术发展的关键步骤,它通过海量无标签数据上进行训练,使
    的头像 发表于 07-11 10:11 381次阅读

    LLM训练的基本概念、基本原理和主要优势

    人工智能和自然语言处理(NLP)领域,大型语言模型(Large Language Model,简称LLM)的兴起极大地推动了技术的进步和应用的发展。LLM通过大规模文本数据上进行
    的头像 发表于 07-10 11:03 992次阅读

    llm模型训练一般用什么系统

    。 硬件系统 1.1 GPU(图形处理器) 训练大型语言模型时,GPU是首选的硬件设备。相比于CPU,GPU具有更高的并行处理能力,可以显著提高训练速度。目前,NVIDIA的Tesl
    的头像 发表于 07-09 10:02 346次阅读

    人脸识别模型训练流程

    人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文详细介绍人脸识别模型训练流程,包括数据准备、
    的头像 发表于 07-04 09:19 826次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的一个重要概念,尤其是自然语言处理(NLP)和计算机视觉(CV)等领域中得
    的头像 发表于 07-03 18:20 2323次阅读

    解读PyTorch模型训练过程

    PyTorch作为一个开源的机器学习库,以其动态计算图、易于使用的API和强大的灵活性,深度学习领域得到了广泛的应用。本文深入解读PyTorch模型
    的头像 发表于 07-03 16:07 918次阅读

    深度学习模型训练过程详解

    深度学习模型训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型,本质上是通过优化算法调整模型参数,
    的头像 发表于 07-01 16:13 1071次阅读

    【大语言模型:原理与工程实践】大语言模型训练

    数据格式的转换、数据字段的匹配和整合等。通过数据级净化,可以进一步提高数据的质量和可用性,为后续的数据分析和建模提供更有价值的数据支持。 到了大语言模型的数据之后,就是对其进行
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点,还为许多现实世界的应用场带来了前所未有的性能提升。广为人知的GPT到BERT,
    发表于 05-05 12:17

    名单公布!【书籍评测活动NO.30】大规模语言模型理论到实践

    和强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。 训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千高性能GPU 和高速网络组成的超级计算机,花费数十
    发表于 03-11 15:16

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 809次阅读

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且
    的头像 发表于 02-29 17:37 741次阅读