0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

1024块TPU在燃烧!将BERT预训练模型的训练时长从3天缩减到了76分钟

电子工程师 来源:lp 2019-04-04 16:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“Jeff Dean称赞,TensorFlow官方推特支持,BERT目前工业界最耗时的应用,计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

近日,来自Google、UC Berkeley、UCLA研究团队再度合作,成功燃烧1024块TPU,将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中,作者提出了LAMB优化器,它支持自适应元素更新和分层校正。

论文传送门:https://arxiv.org/pdf/1904.00962.pdf

论文摘要:batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是,这种模型训练很难,因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型,它建立在语义理解的深度双向转换器上。当我们增加batch size的大小(如超过8192)时,此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成,如在16个TPUv3上大约需要三天。

为了解决这个问题,我们提出了LAMB优化器,可将batch size扩展到65536,且不会降低准确率。LAMB是一个通用优化器,batch size大小均使用,且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练,而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制,接近TPUv3 pod,结果可在76分钟内完成BERT训练。

据悉,该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋,同时也是Google Brain的实习生。据公开信息显示,尤洋的导师是美国科学院与工程院院士,ACM/IEEE fellow,伯克利计算机系主任,以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月,尤洋等人的新算法以24分钟完成ImageNet训练,刷新世界纪录。

在此之前,他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系,硕士保送清华大学计算机系,是一名杠杠的理工学霸!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108326
  • TPU
    TPU
    +关注

    关注

    0

    文章

    174

    浏览量

    21731
  • 深度学习
    +关注

    关注

    73

    文章

    5613

    浏览量

    124723
  • 训练模型
    +关注

    关注

    1

    文章

    37

    浏览量

    4090

原文标题:1024块TPU在燃烧!BERT训练从3天缩短到76分钟 | 技术头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌发布第八代TPU训练推理分离,搭载自研CPU

    电子发烧友网报道(文/李弯弯)2026年4月22日举行的谷歌云Next大会上,谷歌正式发布了第八代张量处理单元(TPU)。此次发布的产品包含两款独立的芯片:TPU 8t和TPU 8i
    的头像 发表于 04-24 09:03 6367次阅读
    谷歌发布第八代<b class='flag-5'>TPU</b>,<b class='flag-5'>训练</b>推理分离,搭载自研CPU

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度自研的"多维弹性训练"技术,大幅压缩参数规模的同时,实现了基础能力的显著
    的头像 发表于 05-09 11:05 612次阅读

    零基础手写大模型资料2026

    零基础纯代码手写大模型数学原理到工程实践的技术解析 深度学习框架高度封装的今天,理解大模型底层原理的开发者愈发稀缺。本文剥离复杂框架
    发表于 05-01 17:44

    AI Ceph 分布式存储教程资料大模型学习资料2026

    瓶颈:传统存储向 AI 专用架构演进 模型训练场景下,计算节点(GPU)的运算速度极快,往往毫秒级就能完成一轮数据的处理。如果后端
    发表于 05-01 17:35

    HM博学谷狂野AI大模型第四期

    ,抽象的数学概念转化为具象的张量流动逻辑。开发者将不再被复杂的网络结构图所迷惑,而是能够清晰地看到数据模型内部的流动轨迹,为后续的模型优化与定制打下坚实的算法地基。 二、
    发表于 05-01 17:30

    Edge Impulse 唤醒词模型训练 | 技术集结

    今天,手把手带领学习如何训练一个语音关键词模型部署到嵌入式硬件上,采用Edgi-Talk平台适配EdgeImpulse,当然原理在其他的ARM嵌入式平台也是通用的。让我们看看如何让
    的头像 发表于 04-20 10:05 1642次阅读
    Edge Impulse 唤醒词<b class='flag-5'>模型</b><b class='flag-5'>训练</b> | 技术集结

    AI模型训练与部署实战 | 线下免费培训

    流程与部署实战”免费培训!以人形检测模型部署与优化实战为基础,聚焦嵌入式AI落地的核心环节,提供硬件,动手实操,带你半天时间内,走通模型训练
    的头像 发表于 04-07 13:08 760次阅读
    AI<b class='flag-5'>模型</b><b class='flag-5'>训练</b>与部署实战 | 线下免费培训

    训练到推理:大模型算力需求的新拐点已至

    模型产业发展的早期阶段,行业焦点主要集中模型训练所需的算力投入。一个万亿参数大模型
    的头像 发表于 02-05 16:07 1107次阅读
    <b class='flag-5'>从</b><b class='flag-5'>训练</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐点已至

    AI硬件全景解析:CPU、GPU、NPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行算力,成为AI训练与图形处理的“主力”;TPUGoogle生态中深耕云端大模型训练
    的头像 发表于 12-17 17:13 2504次阅读
    AI硬件全景解析:CPU、GPU、NPU、<b class='flag-5'>TPU</b>的差异化之路,一文看懂!​

    RA8P1部署ai模型指南:训练模型到部署 | 本周六

    嵌入式边缘AI中,如何把“训练好的模型”稳定地“跑板子上”,决定了项目能否落地。我们带你基于RA8P1平台,跑通数据准备、
    的头像 发表于 11-20 18:06 2545次阅读
    RA8P1部署ai<b class='flag-5'>模型</b>指南:<b class='flag-5'>从</b><b class='flag-5'>训练</b><b class='flag-5'>模型</b>到部署 | 本周六

    Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得
    的头像 发表于 08-21 09:56 1275次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    【Sipeed MaixCAM Pro开发板试用体验】 + 04 + 机器学习YOLO体验

    的查找数字的模型 前提条件是我拥有9个分别是汉字1-9的物牌,从中任意拿走一个,通过对剩余物牌的识别,可以快速的得到被拿走的物牌并进行屏幕显示。 相关演示见顶部和底部视频
    发表于 07-24 21:35

    make sence成的XML文件能上传到自助训练模型上吗?

    make sence成的XML文件能上传到自助训练模型上吗
    发表于 06-23 07:38