0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TensorFlow 2:专为性能和易用性而设计

Tensorflowers 来源:TensorFlow 2020-09-08 16:02 次阅读

衡量机器学习性能的业界标准 MLPerf(https://mlperf.org) 发布了 MLPerf Training v0.7 轮的最新基准测试结果。我们开心地与大家分享,Google 的提交结果展现出一流的性能(达到目标质量用时最短),能够扩展至 4,000 多个加速器,并且在 Google Cloud 上为 TensorFlow 2 开发者提供了灵活的开发体验。

在本文中,我们将探讨 TensorFlow 2 MLPerf 提交结果,以及这些结果展示了企业如何在 Google Cloud 中尖端的 ML 加速器上运行 MLPerf 所代表的有价值的工作任务,如广泛部署的几代 GPU 和 Cloud TPU(

TensorFlow 2:专为性能和易用性而设计

在今年早些时候举行的 TensorFlow 开发者峰会上,我们着重介绍了 TensorFlow 2 将注重易用性和实际性能。为争取赢得基准测试,工程师们往往依赖于低阶 API 调用和硬件专用的代码,而这些在日常企业环境中可能很少见或不实用。借助 TensorFlow 2,我们的目标是通过更直接的代码提供开箱即用的高性能,避免低级优化在代码重用性、代码运行状况和工程效率方面带来的重大问题。

MLPerf Training v0.7 中 Google 使用带 8 个 NVIDIA V100 GPU 的 Google Cloud VM 的收敛时间(分钟)。提交结果在“可用”类别中

TensorFlow 的 Keras API(请参阅相关的一系列指南)支持多种硬件架构,提供了易用性和可移植性。例如,模型开发者可以使用 Keras 混合精度 API 和 Distribution Strategy API 来使同一代码库尽可能在多个硬件平台上流畅运行。Google 的“云端可用”类别中的 MLPerf 提交结果是由这些 API 实现的。这些提交结果证明了使用高阶 Keras API 编写的几乎相同的 TensorFlow 代码可以在业界两个领先的广泛可用的 ML 加速器平台上提供高性能使用体验:NVIDIA 的 V100 GPU 和 Google 的 Cloud TPU v3 Pod。

指南
https://tensorflow.google.cn/guide/keras/sequential_model

Keras混合精度 API
https://tensorflow.google.cn/guide/keras/mixed_precision

Distribution Strategy API
https://tensorflow.google.cn/guide/distributed_training

注:图表中显示的所有结果均于 2020 年 7 月 29 日从 www.mlperf.org 中获取。MLPerf 名称和徽标为商标。有关详细信息,请访问 www.mlperf.org。显示的结果:0.7-1 和 0.7-2。

MLPerf Training v0.7 中使用含 16 个 TPU 芯片的 Google Cloud TPU v3 Pod 切片的收敛时间(分钟)。提交结果在“可用”类别中

深入了解:借助 XLA 提升性能

Google 提交的在 GPU 和 Cloud TPU Pod 上的测试结果使用了 XLA 编译器来优化 TensorFlow 性能。XLA 是 TPU 编译器技术栈的核心部分,可以选择性地为 GPU 启用。XLA 是一个基于图模型的即时编译器,用于执行各种不同类型的全程序优化,包括 ML 运算的广泛 融合 。

XLA 编译器
https://tensorflow.google.cn/xla

算子融合降低了 ML 模型对存储容量和带宽的要求。此外,融合减少了运算的启动开销,尤其是在 GPU 上。总体而言,XLA 优化具有通用性和可移植性,与 cuDNN 和 cuBLAS 库的互操作性十分出色,并且通常可以作为手动编写低级内核的有力替代方案。

Google 的“云端可用”类别中的 TensorFlow 2 提交结果使用了 TensorFlow 2.0 中引入的 @tf.function API。@tf.function API 提供了一种简单的方法来有选择地启用 XLA,从而可以精确控制将要编译的函数。

启用 XLA
https://www.tensorflow.org/xla/tutorials/compile

XLA 带来的性能提升令人赞叹:在连接 8 个 Volta V100 GPU(每个具有 16 GB GPU 内存)的 Google Cloud VM 上,XLA 将 BERT训练吞吐量从每秒 23.1 个序列提高到每秒 168 个序列,提升了约 7 倍。XLA 还使每个 GPU 的可运行批次大小增加了 5 倍。XLA 减少了内存使用量,因此使得高级训练技术(如梯度积累)的使用成为可能。

在 Google Cloud 上使用 8 个 V100 GPU 的 BERT 模型中启用 XLA 的影响(分钟)(Google 在 MLPerf Training 0.7 中提交的测试结果)与停用优化条件下同一系统中未经验证的 MLPerf 结果

Google Cloud 上最先进的加速器

Google Cloud 是唯一支持访问最新 GPU 和 Cloud TPU 的公共云平台,使 AI 研究人员和数据科学家可以自由地为每个任务选择合适的硬件。

GPU
https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu

Cloud TPU
https://cloud.google.com/tpu/

BERT 等前沿模型已在 Google 内广泛使用,并在整个行业范围内用于各种自然语言处理任务,现在可以使用训练 Google 内部工作任务所用的基础架构在 Google Cloud 上进行训练。借助 Google Cloud,您可以在一个小时内在具有 16 个 TPU 芯片的 Cloud TPU v3 Pod 切片上将 BERT 训练 300 万个序列,总成本不到 32 美元。

BERT
https://github.com/tensorflow/models/blob/master/official/benchmark/bert_benchmark.py

结论

Google 的 MLPerf 0.7 训练提交结果展示了 TensorFlow 2 在最新的 ML 加速器硬件上的性能、易用性和可移植性。立即开始,体验 TensorFlow 2 在 Google Cloud GPU、Google Cloud TPU 和具有 Google Cloud Deep Learning VM 的 TensorFlow Enterprise 上的易用性和功能。

致谢

GPU 的 MLPerf 提交结果离不开与 NVIDIA 的密切协作。NVIDIA 的所有工程师都为提交测试结果提供了帮助,在此一并表示感谢。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132573
  • tensorflow
    +关注

    关注

    13

    文章

    329

    浏览量

    60528

原文标题:TensorFlow 2 MLPerf 提交结果在 Google Cloud 上展现出同类最佳性能

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    11-06-CBM94AD67【中文排版】-202402221530

    CBM94AD67-250是一种16位单片中频采样模数转换器(ADC)。它针对宽带高性能和易用性进行了优化。该产品以250MSPS的转换速率运行,专为需要高动态范围的无线接收器、仪器和测试设备
    发表于 11-22 14:21 0次下载

    专为运行而设计:使用bq2018电源管理器IC的通用电池监控器

    电子发烧友网站提供《专为运行而设计:使用bq2018电源管理器IC的通用电池监控器.pdf》资料免费下载
    发表于 10-24 09:28 0次下载
    <b class='flag-5'>专为</b>运行<b class='flag-5'>而设</b>计:使用bq2018电源管理器IC的通用电池监控器

    Bourns 推出符合 AEC-Q200 标准高压气体放电管 (GDT) 专为满足严苛的可靠、耐用和法规标准而设

    组件领导制造供货商,推出 SA2-A 高压气体放电管 (GDT) 系列。这是 Bourns 符合 AEC-Q200 标准的广泛产品组合中的最新系列,专为满足特定恶劣环境以及需要卓越的可靠、耐用
    发表于 10-08 11:35 2713次阅读
     Bourns 推出符合 AEC-Q200 标准高压气体放电管 (GDT) <b class='flag-5'>专为</b>满足严苛的可靠<b class='flag-5'>性</b>、耐用<b class='flag-5'>性</b>和法规标准<b class='flag-5'>而设</b>计

    中科创达旗下创通联达Qualcomm RB3 Gen 2 Lite开发套件上市销售

    日前,中科创达旗下创通联达(Thundercomm)宣布Qualcomm RB3 Gen 2 Lite 开发套件在其官网商城正式上市销售。该开发套件是专为性能计算、高易用性
    的头像 发表于 08-20 09:21 592次阅读

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google开发的一个开源深度学习框架,它允许开发者方便地构建、训练和部署各种复杂的机器学习模型。TensorFlow凭借其高效的计算性能、灵活的架构以及丰富的工具和库,在学
    的头像 发表于 07-12 16:38 681次阅读

    tensorflow和pytorch哪个更简单?

    TensorFlow和PyTorch都是用于深度学习和机器学习的开源框架。TensorFlow由Google Brain团队开发,而PyTorch由Facebook的AI研究团队开发。 易用性
    的头像 发表于 07-05 09:45 847次阅读

    tensorflow和pytorch哪个好

    。 生态系统 :拥有庞大的社区和丰富的资源,包括TensorFlow Hub、TensorBoard等工具。 易用性 :对于初学者来说,TensorFlow的学习曲线可能相对较陡
    的头像 发表于 07-05 09:42 675次阅读

    SOLIDWORKS教育版本的易用性

    在数字化和智能化的教育时代背景下,三维设计软件在教学领域的应用越来越广泛。SOLIDWORKS教育版本作为一款专门针对教育领域设计的三维建模软件,以其优越的易用性赢得了广泛的认可。
    的头像 发表于 07-04 17:11 280次阅读

    新品 | Prime Block 50mm——专为实现最高性能而设

    新品PrimeBlock50mm——专为实现最高性能而设计50mmPrimeBlock模块优化了热阻,在更高的温度条件下,它们的性能超越了目前的极限。因此,在相同的尺寸下,功率密度最高
    的头像 发表于 05-28 08:14 247次阅读
    新品 | Prime Block 50mm——<b class='flag-5'>专为</b>实现最高<b class='flag-5'>性能</b><b class='flag-5'>而设</b>计

    论RISC-V的MCU中UART接口的重要

    有效地传输大量数据,从而改善外部设备的性能。这使得RISC-V的MCU在需要实时数据交互和处理的场景中表现出色,如远程控制、远程监控等应用。 低成本和易用性 : UART接口具有低成本的优势,因为它可
    发表于 05-27 15:52

    基于 GaN 的 MOSFET 如何实现高性能电机逆变器

    ,设计人员可以使用氮化镓(GaN)来实现这些目标,氮化镓是一种宽带隙(WBG)FET器件技术,在成本、性能、可靠和易用性方面都得到了改进和进步。GaN器件是主流,已
    的头像 发表于 05-23 10:56 562次阅读
    基于 GaN 的 MOSFET 如何实现高<b class='flag-5'>性能</b>电机逆变器

    温度测试仪的稳定性和易用性

    温度测试仪是一种广泛应用于科研、工业生产和日常生活中的重要仪器,主要用于精确测量物体或环境的温度。这种设备以其高度的准确、稳定性和易用性,为众多领域提供了有力的技术支持。 温度测试仪的工作原理主要
    的头像 发表于 03-25 11:26 436次阅读
    温度测试仪的稳定性<b class='flag-5'>和易用性</b>

    打造稳定快速的家庭网络,选购高性能4G路由器

    选择高性能4G路由器,关注品牌、网络覆盖能力、信号强度、速度和性能、安全和易用性等因素。只有综合考虑,才能购买到适合家庭使用的高性能4G路
    的头像 发表于 01-23 17:07 391次阅读

    芯原专为性能汽车应用而设计的图像信号处理器通过标准认证

    2024年1月8日,美国拉斯维加斯——芯原股份 (芯原,股票代码:688521.SH) 今日宣布其专为性能汽车应用而设计的图像信号处理器 (ISP) IP ISP8200-FS
    的头像 发表于 01-12 16:45 1225次阅读

    简单易用的TVS如何在发展

    保护的选择,低成本和易用性让TVS在绝大多数保护里成为了第一选择。   稳定易用的TVS   TVS瞬态电压抑制管,也叫瞬态电压抑制二极管,是一种高效能保护元器件,其作用是在两极受到反向瞬态高能量时候能够吸收浪涌,对后级电路形成有效
    的头像 发表于 12-26 00:24 1532次阅读