机器学习 (ML) 需要行业标准的性能基准,以帮助创建和竞争评估众多与 ML 相关的软件和硬件解决方案。
然而,与其他领域不同,ML 训练面临三个不同的基准测试挑战:
提高训练吞吐量的优化可以增加求解时间。
训练是随机的,解决问题的时间差异很大。
软件和硬件系统如此多样化,以至于很难使用相同的二进制文件、代码甚至超参数进行公平的基准测试。
MLcommons 的机器学习基准测试解决方案 MLPerf 旨在解决这些问题。MLPerf 在推动性能和可扩展性改进方面的功效在来自不同制造商的两组数据中进行了统计评估。
MLPerf 旨在为机器学习提供一个具有代表性的基准套件,以正确测量系统性能,以实现五个高级目标:
允许对竞争系统进行公平比较,同时促进机器学习创新。
通过以公平和相关的方式衡量 ML 开发速度。
确保一致性结果的可重复性。
为商业和学术团体提供服务。
保持较低的基准测试成本,以便每个人都可以参与。
MLPerf 创建了一个基准套件,其中包括各种应用程序、DNN 模型和优化器。它还准确地指定了模型和训练技术,以创建每个基准的参考实现。MLPerf 在比较结果时建立了时间限制以减少随机性的影响。此外,它允许 ML 和系统社区通过使提交代码开源来检查和复制结果。
每个基准都会计算在给定数据集上训练模型以达到给定质量目标所需的时间。最终结果是通过以特定于基准的次数测量基准,删除最低和最高值,并对剩余结果进行平均以解释 ML 训练持续时间的巨大差异来生成的。即使是平均结果数量也不足以消除所有波动。成像基准的结果通常为 +/- 2.5%,而其他基准通常为 +/- 5%。
MLPerf 希望通过让提交者重新实现参考实现来刺激软件和硬件方面的创新。MLPerf 有两个部门,提供不同程度的重新实现自由度。封闭部门要求使用与参考实现相同的模型和优化器,以便比较硬件平台或软件框架,“苹果对苹果”。开放部门旨在通过允许任何机器学习技术达到预期的质量来促进更快的模型和优化器。
ML 系统的行业基准
总而言之,MLPerf Training 是涵盖商业和学术应用的机器学习基准的集合。尽管它是唯一一个广泛使用且覆盖范围如此广泛的 ML 训练基准套件,但它几乎没有做出任何贡献。首先,通过精确定义模型架构和每个基准特征的训练程序,可以对等效工作负载进行系统比较。此外,为了解决对 ML 训练进行基准测试的挑战,使用了参考实现和规则定义。训练过程的随机性、为了确定性能优化的质量影响而需要训练完成以及需要在各种系统规模下改变工作负载是一些挑战。
尽管 MLPerf 侧重于相对系统性能,但正如在线结果所证明的那样,它还提供了 ML 和基准测试的一般课程。真实数据集的大小对于确保真实的内存系统行为至关重要。例如,最初的 NCF 数据集太小而无法完全放入内存中。此外,当对小于工业规模的数据集进行基准测试时,训练时间不应包括启动时间,这在实际使用中成比例地减少。
因此,MLPerf 正在迅速将自己确立为 ML 系统的行业基准,同时也是一个理想的论坛,用于发布分析师、投资者和买家可以依赖的基准测试结果的新产品。
审核编辑:郭婷
-
测量系统
+关注
关注
2文章
532浏览量
41348 -
机器学习
+关注
关注
66文章
8370浏览量
132367
发布评论请先 登录
相关推荐
评论