使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性-电子发烧友网

Vision Transformer（ViT）正在席卷计算机视觉领域，提供令人难以置信的准确性、复杂现实场景下强大的解决方案，以及显著提升的泛化能力。这些算法对于推动计算机视觉应用的发展发挥了关键作用，而 NVIDIA 则通过 NVIDIA TAO Toolkit 和 NVIDIA L4 GPU，使应用集成ViT 变得轻而易举。

ViT 的不同之处

ViT 是一种将原本用于自然语言处理的 Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势，并能够并行处理大规模输入的数据。CNN 采用的是局部操作，因而缺乏对图像的全局理解；而 ViT 则以并行和基于自注意的方式来有效地处理图像，使得所有图像块之间能够相交互，从而提供了长程依赖和全局上下文的能力。

图 1 展示了 ViT 模型中的图像处理流程。输入图像被分为较小的固定尺寸的图块，之后这些图块被展平并转换为一系列的标记 (tokens) 。这些标记连同位置编码一起被输入到 Transformer 编码器中，该编码器由多个自注意力和前馈神经网络组成。

图 1. 包含位置编码器和编码器的 ViT 模型处理图像

通过自注意力机制，每个标记或图块与其他标记进行交互，以决定哪些标记是重要的。这有助于模型捕捉标记之间的关系和依赖，并学习哪些标记是更重要的。

例如在有一只鸟的图像中，模型会更关注重要的特征，比如眼睛、鸟嘴和羽毛等，而不是背景。这使得训练更加高效，增强了对图像损坏和噪声情况的鲁棒性，并在未见过的物体上表现出更优越的泛化能力。

为何 ViT 对计算机

视觉应用至关重要

真实世界的环境具有多样且复杂的视觉模式。与 CNN 不同，ViT 凭借自身的可扩展性和适应性，能够处理各种任务，而且无需针对具体的任务调整架构。

图 2. 各种不完美和嘈杂的

现实数据给图像分析带来了难题

在下面的视频中，我们比较了基于 CNN 和 ViT 的模型的噪声视频。在任何情况下，ViT 模型表现都优于 CNN 模型。

视频 1. 了解 SegFormer，这是一个

结合高效率和稳健语义分割能力的 ViT 模型

将 ViT 与 TAO Toolkit 5.0 集成

TAO 是一个低代码 AI 工具包，用于构建和加速视觉 AI 模型，可用于轻松地构建和集成 ViT 到应用和 AI 工作流程中。用户可以通过简单的界面和配置文件快速开始训练 ViT，无需深入了解模型架构。

TAO Toolkit 5.0 提供几种常用于计算机视觉任务的先进 ViT，包括：

全注意力网络（FAN）

FAN 是由 NVIDIA 研究团队开发的一系列基于 Transformer 架构的神经网络主干模型。该系列模型在对抗各种干扰方面达到了当前技术水平的最佳程度，如表格 1 所示。这些主干模型能够轻松适应新的领域，对抗噪声和模糊。表格 1 展示了所有 FAN 模型在 ImageNet-1K 数据集上所达到的准确率，无论是干净版本还是经过干扰处理后的版本。

表 1. FAN 模型的大小和准确性

全局上下文 Vision Transformer （GC-ViT）

GC-ViT 是 NVIDIA 研究部门开发的一种具有极高准确性和计算效率的新型架构。该架构解决了 Vision Transformer 中缺乏归纳偏置的问题。通过使用局部自注意力机制，GC-ViT 在参数较少的情况下在 ImageNet 上取得更好的结果，同时结合全局自注意力，可以实现更好的局部和全局空间交互。

表 2. GC-ViT 模型的大小和准确性

带有改进后去噪锚框的检测 Transformer（DINO）

DINO 是最新一代的检测变换器（DETR），其训练收敛速度比其他 ViT 和 CNN 更快。在 TAO 工具套件中，DINO 十分灵活，可以与传统 CNN（例如 ResNets）和基于 Transformer 的骨干网络（如 FAN）和 GC-ViT 等相结合。

图 3. DINO 与其他模型的准确性比较

Segformer

Segformer 是一个轻量级且具有鲁棒性的基于 Transformer 的语义分割模型。其解码器由轻量级的多头感知层组成。它避免使用大多 Transformer 使用的位置编码，可在不同分辨率下进行高效推理。

使用 NVIDIA L4 GPU

高效驱动 Transformer

NVIDIA L4 GPU 是为未来的视觉 AI 工作负载而打造的。它们采用 NVIDIA Ada Lovelace 架构，旨在加速具有变革性的 AI 技术。

L4 GPU 拥有高达 FP8 485 TFLOPs 的计算能力，适于运行 ViT 工作负载。相较更高精度的计算方式，FP8 的低精度计算可以减轻内存压力，还可以显著提升 AI 的处理速度。

L4 是一款多功能、节能高效的设备，具有单槽、低调的外形，非常适合用于视觉 AI 部署（包括在边缘位置）。

您可以观看Metropolis Developer Meetup（https://info.nvidia.com/metropolis-meetup-june2023.html），了解有关 ViT、NVIDIA TAO Toolkit 5.0 以及 L4 GPU 的更多信息。

点击“阅读原文”，或扫描下方海报二维码，在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲，了解 NVIDIA 的新技术，包括屡获殊荣的研究，OpenUSD 开发，以及最新的 AI 内容创作解决方案。

原文标题：使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3894

浏览量
92713

原文标题：使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

如何使用POT准确性检查器？

：95：0.00% 分辨率视觉对象等级挑战（VOC）数据集未经英特尔验证。如 Yolo-v4-tf 文档中所提到，英特尔已使用上下文中常见的对象（COCO）数据集验证了准确性。通过

发表于 03-06 08:04

VirtualLab Fusion应用：光栅的鲁棒性分析与优化

一个场景，在这个场景中，我们分析了二元光栅的偏振依赖性,并对结构进行了优化，使其在任意偏振角入射光下均能表现良好。倾斜光栅的鲁棒性优化这个用例演示了一个具有稍微变化的填充因子的倾

发表于 02-19 08:54

自动驾驶中常提的鲁棒性是个啥？

随着自动驾驶技术的快速发展，鲁棒性（Robustness）成为评价自动驾驶系统的重要指标之一。很多小伙伴也会在自动驾驶相关的介绍中，对某些功能用鲁棒

发表于 01-02 16:32 •4043次阅读

如何提高OTDR测试的准确性

OTDR（光时域反射仪）是光缆线路故障定位和光纤特性测量的重要工具，提高OTDR测试的准确性对于确保光缆线路的稳定运行至关重要。以下是一些提高OTDR测试准确性的方法：一、

发表于 12-31 09:25 •615次阅读

如何提高电位测量准确性

在电子工程和物理实验中，电位测量是一项基本而重要的任务。电位测量的准确性直接影响到实验结果的可靠性和产品的安全性。 1. 选择合适的测量设备选择合适的测量设备是提高电位测量

发表于 12-28 13:56 •467次阅读

如何提升ASR模型的准确性

提升ASR（Automatic Speech Recognition，自动语音识别）模型的准确性是语音识别技术领域的核心挑战之一。以下是一些提升ASR模型准确性的关键方法：一、优化数据收集与处理

发表于 11-18 15:14 •1806次阅读

鲁棒性原理在控制系统中的应用

在现代控制系统的设计和分析中，鲁棒性是一个核心概念。鲁棒性指的是系统在面对模型不确定性、外部干扰

发表于 11-11 10:26 •2786次阅读

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗：去除数据中的噪声和异常值，这是提高模型

发表于 11-11 10:25 •655次阅读

鲁棒性算法在数据处理中的应用

一、鲁棒性算法的基本概念鲁棒性算法是指在面对数据中的异常值、噪声和不确定性时，仍能保持稳定性能

发表于 11-11 10:22 •1273次阅读

鲁棒性分析方法及其应用

鲁棒性（Robustness）是指系统或方法对于外部干扰、误差或变化的稳定性和适应能力。以下是对鲁棒性

发表于 11-11 10:21 •6278次阅读

鲁棒性在机器学习中的重要性

在机器学习领域，模型的鲁棒性是指模型在面对输入数据的扰动、异常值、噪声或对抗性攻击时，仍能保持性能的能力。随着人工智能技术的快速发展，机器学习模型被广泛应用于各个领域，从自动驾驶汽车到医疗诊断，再到

发表于 11-11 10:19 •880次阅读

如何提高系统的鲁棒性

在当今的技术环境中，系统面临着各种挑战，包括硬件故障、软件缺陷、网络攻击和人为错误。鲁棒性是指系统在面对这些挑战时保持正常运行的能力。一、定义鲁棒

发表于 11-11 10:17 •1491次阅读

如何评估 ChatGPT 输出内容的准确性

评估 ChatGPT 输出内容的准确性是一个复杂的过程，因为它涉及到多个因素，包括但不限于数据的质量和多样性、模型的训练、上下文的理解、以及输出内容的逻辑一致性。以下是一些评估 ChatGPT 输出

发表于 10-25 17:48 •868次阅读

倾斜光栅的鲁棒性优化

摘要 ** 由于制造过程中潜在的不准确性，对于一个好的光栅设计来说，面对光栅参数的微小变化，提供稳健的结果是至关重要的。VirtualLab Fusion为光学工程师提供了各种工具，可以将这种行为

发表于 08-12 18:38

影响电源纹波测试准确性的因素

电源纹波测试是评估电源质量的重要手段之一，它能够反映出电源在输出电压中的波动情况。然而，测试过程中的多种因素都可能对测试结果的准确性产生影响。本文将从多个方面分析影响电源纹波测试准确性的因素，并提

发表于 08-02 09:42 •879次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性

评论

如何使用POT准确性检查器？

VirtualLab Fusion应用：光栅的鲁棒性分析与优化

自动驾驶中常提的鲁棒性是个啥？

如何提高OTDR测试的准确性

如何提高电位测量准确性

如何提升ASR模型的准确性

鲁棒性原理在控制系统中的应用

深度学习模型的鲁棒性优化

鲁棒性算法在数据处理中的应用

鲁棒性分析方法及其应用

鲁棒性在机器学习中的重要性

如何提高系统的鲁棒性

如何评估 ChatGPT 输出内容的准确性

倾斜光栅的鲁棒性优化

影响电源纹波测试准确性的因素