VILA与其他模型在提供边缘AI 2.0方面的表现-电子发烧友网

VILA 是 NVIDIA 研究部门与麻省理工学院共同开发的高性能视觉语言模型系列。最大的模型约有 400 亿参数，最小的模型约有 30 亿参数，并且完全开源（包括模型检查点、训练代码和训练数据）。

本文将比较 VILA 与其他模型在提供边缘 AI 2.0 方面的表现。

最初几个版本的边缘 AI 需要在边缘设备上部署经过压缩的 AI 模型。该阶段被称为边缘 AI 1.0，侧重于特定任务模型，这种方法的挑战在于需要用不同的数据集来训练不同的模型，而其中的负样本难以采集，离群情况也很难处理。这一过程非常耗时，因此需要适应性更强、通用性更好的 AI 解决方案。

边缘 AI 2.0：生成式 AI 的兴起

边缘 AI 2.0 标志着向增强泛化的转变，由基础视觉语言模型(VLM)提供支持。

VILA 等视觉语言模型具有惊人的多功能性，能够理解复杂的指令并迅速适应新场景，这种灵活性使其成为诸多应用中的重要工具。它们可以优化自动驾驶汽车的决策，在物联网和智能物联网环境中创建个性化交互，进行事件检测，提升智能家居体验等。

VLM 的核心优势在于其在语言预训练过程中获得的世界知识，以及用户使用自然语言进行查询的能力。这就为由 AI 驱动的智能相机提供了动态处理能力，而无需对定制的视觉管道进行硬编码。

边缘 VLM：

VILA 与 NVIDIA Jetson Orin

要实现边缘 AI 2.0，VLM 必须具有高性能且易于部署。VILA 通过以下方式实现这两点：

精心设计的训练管道和高质量的混合数据

精度损失可忽略不计的 AWQ 4 位量化

图 1. VILA 模型架构和训练配方

VILA 是一种可将视觉信息引入大语言模型（LLM）的视觉语言模型。VILA 模型由视觉编码器、LLM 和投影仪组成，可连接两种模态的嵌入。为了充分利用功能强大的 LLM，VILA 使用视觉编码器将图像或视频编码为视觉 token，然后将这些视觉 token 作为外语输入 LLM。这种设计可以处理任意数量的交错图像-文本输入。

VILA 的成功源于经过增强的预训练配方。通过对视觉语言模型预训练选择的深入研究，我们获得了三个重要发现：

在预训练过程中冻结 LLM 可以实现不错的零点性能，但缺乏语境学习能力，而这需要解冻 LLM；

交错的预训练数据是有益的，而单独的图像-文本对并不是最佳选择；

在指令微调过程中，将纯文本指令数据与图像-文本数据重新混合，不仅能弥补纯文本任务的不足，还能提高 VLM 任务的准确性。

我们观察到，该预训练过程解锁了模型的几项引人瞩目的能力：

多图像推理，尽管模型在 SFT 期间只能看到单个图像-文本对（监督微调）

更强的语境学习能力

增进的世界知识

NVIDIA Jetson Orin 具有无与伦比的 AI 计算、大容量统一内存和全面的 AI 软件堆栈，是在高能效边缘设备上部署 VILA 的完美平台。Jetson Orin 能够快速推理采用 transformer 架构的任何生成式 AI 模型，在 MLPerf 基准测试中展现出领先的边缘性能。

AWQ 量化

为了在 Jetson Orin 上部署 VILA，我们集成了激活感知权重量化（AWQ）以实现 4 位量化。AWQ 使我们能够将 VILA 量化到精度损失可忽略不计的 4 位精度，这为 VLM 在保持性能标准的同时还能深入改变边缘计算铺平了道路。

尽管采用了 AWQ 等先进技术，但在边缘设备上部署大语言和视觉模型仍然是一项复杂的任务。4 位权重缺乏字节对齐，需要专门的计算才能达到最佳效率。

TinyChat 是专为边缘设备上的 LLM 和 VLM 设计的高效推理框架。无论是 NVIDIA RTX 4070 笔记本电脑 GPU 还是 NVIDIA Jetson Orin，TinyChat 的适应性使其能够在各种硬件平台上运行，这引发了开源社区的极大兴趣。

现在，TinyChat 扩大了对 VILA 的支持，实现了对视觉数据的重要理解和推理。TinyChat 在结合文本和视觉处理方面具有出众的效率和灵活性，使边缘设备能够执行最前沿的多模态任务。

基准测试

下表显示了 VILA 1.5-3B 的基准测试结果。就其规模而言，它在图像质量保证和视频质量保证基准测试中均表现出色。您还可以看到，AWQ 4 位量化并没有降低精度，而且通过与 Scaling on Scales (S2) 集成，它可以感知更高分辨率的图像，并进一步提高性能。

表 1. 模型在图像质量保证基准测试中的

评估结果（量化前/后）

表 2. 模型在视频质量保证基准测试中的评估结果

部署在 Jetson Orin 和 NVIDIA RTX 上

随着摄像头和视觉系统在现实环境中的应用日益普及，在边缘设备上推理 VILA 已成为一项重要的任务。根据模型的规模，从入门级 AI 到七种 Jetson Orin 高性能模块，您都可以选择，来灵活地为智能家居设备、医疗仪器、自主机器人和视频分析构建那些用户可以动态地重新配置和查询的生成式 AI 应用。

图 3 显示了在 Jetson AGX Orin 和 Jetson Orin Nano 上运行 VILA 的端到端多模态管道性能，两者都在视频流上达到了交互速率。

图 3. VILA 推理速度比较

这些基准测试包含查询 1 帧图像的总体时间，包括视觉编码（使用 CLIP 或 SigLIP）、多模态投影、聊天嵌入组装、使用 4 位量化生成语言模型输出等测试。VILA-1.5 模型包括一个新型适配器，可将用于表示每个图像嵌入的 token 数从 729 个减少到 196 个，这不仅提高了性能，而且在视觉编码器空间分辨率提高的情况下保持了准确性。

这一高度优化的 VLM 管道是开源的，并且集成了多模态 RAG 和单样本图像标记等先进功能，能够将图像嵌入高效率地重复用于整个系统中的其他视觉相关任务。

图 4. 在 Jetson Orin 上运行的 VILA-3B（4 位）

在消费级 GPU 上的体验

VILA 还可以部署在笔记本电脑和 PC 工作站上的 NVIDIA RTX 等消费级 GPU 中，以提高用户的工作效率和交互体验。

图 5. 在 NVIDIA RTX 4090 上运行的 VILA-3B（4 位）

多图像推理

TinyChat 的最新版本使用了 VILA 令人印象深刻的多图像推理功能，使您能够同时上传多张图像来增强交互，带来令人兴奋的创新可能性。

图 6 显示 VILA 可以理解图像序列的内容和顺序，为创造性应用开辟了新途径。

图 6. VILA-3B（4 位）在多图像理解方面的表现

语境学习

VILA 还具有出色的语境学习能力。无需明确的系统提示，VILA 就能从以前的图像-文本对中无缝推理出模式，为新的图像输入生成相关文本。

在图 7 中，VILA 成功识别了 NVIDIA 的徽标，并按照之前示例的风格输出了 NVIDIA 最著名的产品。

图 7. VILA-3B（4 位）在语境学习任务中的表现

开始使用 VILA

我们计划继续对 VILA 进行创新，包括扩展上下文长度、提高分辨率以及为视觉和语言对齐策划更好的数据集。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5098

浏览量
104225
模型

模型

+关注

关注
1

文章
3400

浏览量
49430
边缘AI

边缘AI

+关注

关注
0

文章
104

浏览量
5106
LLM

LLM

+关注

关注
1

文章
307

浏览量
481

原文标题：视觉语言智能和边缘 AI 2.0

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

边缘AI应用越来越普遍，AI模型在边缘端如何部署？

大模型在端侧的部署也成了业界关注的焦点。如何把AI 模型在边缘端部署首先得软硬件适配

发表于 07-04 00:11 •2847次阅读

<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应用越来越普遍，<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>在</b><b class='flag-5'>边缘</b>端如何部署？

risc-v多核芯片在AI方面的应用

应用中的成本。最后，RISC-V多核芯片不仅可以应用于AI边缘计算领域，还可以扩展到其他领域，如数据中心、云计算、自动驾驶、机器人等，为这些领域提供高效、灵活和安全的解决方案。总的

发表于 04-28 09:20

AI模型部署边缘设备的奇妙之旅：目标检测模型

非零梯度。可能更好的表现：在某些情况下，PReLU可以比标准ReLU和Leaky ReLU提供更好的性能，因为它可以根据具体任务来调整激活函数的形状。保留稀疏激活：类似于其他ReL

发表于 12-19 14:33

AI赋能边缘网关：开启智能时代的新蓝海

的引入彻底改变了这一局面。通过在边缘网关集成AI芯片和算法模型，使其具备了实时数据分析、智能决策和自主控制能力。在工业质检场景中，搭载

发表于 02-15 11:41

EdgeBoard FZ5 边缘AI计算盒及计算卡

科技携手百度，推出系列高性能及高性价比EdgeBoard 边缘AI计算卡/计算盒，助力AI项目落地。可灵活适配海量的且不断迭代的AI模型，并

发表于 08-31 14:12

网络边缘实施AI的原因

将AI推向边缘的影响通过在边缘运行ML模型可以使哪些具体的AI项目更容易运行？

发表于 02-23 06:21

嵌入式边缘AI应用开发指南

扩展和量化感知培训工具可帮助您优化自己的DNN模型。第3步：评估模型性能在开发边缘AI应用之前，需要在实际硬件上评估模型性能。TI

发表于 11-03 06:53

ST MCU边缘AI开发者云 - STM32Cube.AI

道：“STM32Cube.AI 开发者云为我们的数据科学家和嵌入式开发人员提供了一种简单的方法来协作和分享他们在嵌入式神经网络方面的知识，这有助于简化我们的开发流程。基准测试功能还使我

发表于 02-02 09:52

NVIDIA收购ARM，加速了RISC－V在边缘AI的神经网路方面的应用

近日，Facebook的首席AI科学家Yann LeCun在法国CEA－Leti研究实验室的创新日上指出，由于美国限制中国半导体产业、以及NVIDIA并购ARM的动作，正加速RISC－V在边缘

发表于 10-23 11:35 •2425次阅读

边缘AI的模型压缩技术

在某个时间点，人们认为大型和复杂的模型表现更好，但现在它几乎是一个神话。随着边缘AI的发展，越来越多的技术将大型复杂

发表于 10-19 14:22 •1160次阅读

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

本案例介绍了 NVIDIA 在加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域，通过学习人类思维方式，能快速

发表于 03-29 15:28 •749次阅读

Llama 3 模型与其他AI工具对比

Llama 3模型与其他AI工具的对比可以从多个维度进行，包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对L

发表于 10-27 14:37 •628次阅读

AI模型托管原理分析

AI模型托管是指将训练好的AI模型部署在云端或边缘服务器上，由第三

发表于 11-07 09:33 •320次阅读

谷歌 Gemini 2.0 Flash 系列 AI 模型上新

谷歌旗下 AI 大模型 Gemini 系列全面上新，正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗舰大

发表于 02-07 15:07 •275次阅读

AI模型托管原理

AI模型托管的核心在于将训练好的AI模型部署在云端或边缘服务器上，由第三

发表于 02-26 10:31 •82次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

VILA与其他模型在提供边缘AI 2.0方面的表现

评论

边缘AI应用越来越普遍，AI模型在边缘端如何部署？

risc-v多核芯片在AI方面的应用

AI模型部署边缘设备的奇妙之旅：目标检测模型

AI赋能边缘网关：开启智能时代的新蓝海

EdgeBoard FZ5 边缘AI计算盒及计算卡

网络边缘实施AI的原因

嵌入式边缘AI应用开发指南

ST MCU边缘AI开发者云 - STM32Cube.AI

NVIDIA收购ARM，加速了RISC－V在边缘AI的神经网路方面的应用

边缘AI的模型压缩技术

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

Llama 3 模型与其他AI工具对比

AI模型托管原理分析

谷歌 Gemini 2.0 Flash 系列 AI 模型上新

AI模型托管原理