Nsight Compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。
范围标记可以使用以下任一方法定义:
分析器启动/停止 API
NVTX 系列图 1 。范围回放可视化:捕获范围后,每个过程都会收集整个范围的性能信息。
记忆分析
在 A100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ECC 行,用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。
图 2 。内存工作负载分析表的改进: ECC 和二级缓存逐出策略信息。
引导分析
Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。
图 3 。打开多结果报告现在会显示摘要页面,允许您对结果进行排序并决定优化顺序。
图 4 。这两种未恢复的内存访问规则都以更简洁、更有序的格式呈现结果。
其他改进
进一步的改进包括 Occupancy Calculator 自动更新。源页面中 Register Dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 NVLink 更新。
关于作者
Chaitrali Joshi 是 NVIDIA 的产品营销经理,专注于电信 5G 系统的设计和开发。她对网络空间有着深入的了解,是移动通信系统和云栈方面的专家。在英特尔之前,她是一名领导,向开发人员宣传电信技术和边缘计算技术。她获得了加利福尼亚大学计算机科学硕士学位,戴维斯专注于软件定义的网络和多址边缘计算( MEC )。
Jackson Marusarz 是 NVIDIA 计算开发工具的产品经理。他关注如何使用工具使所有开发人员能够轻松高效地评测、调试和优化 CUDA 代码。杰克逊拥有 Boulder 科罗拉多大学计算机工程硕士学位。
审核编辑:郭婷
-
NVIDIA
+关注
关注
14文章
5024浏览量
103265 -
gpu
+关注
关注
28文章
4754浏览量
129067 -
代码
+关注
关注
30文章
4803浏览量
68750
发布评论请先 登录
相关推荐
评论