NVIDIA 推出了 Jetson TX1,这是一款小型 Linux 系统级模块,专为视觉计算中要求苛刻的嵌入式应用而设计。微型 Jetson TX1(图 1)专为世界各地的开发人员和制造商而设计,可在现场部署 teraflop 级超级计算性能的板载平台。在 Jetson TX1 开发人员套件、一流的开发人员社区和包括 Jetpack、Linux For Tegra R23.1、CUDA Toolkit 7、cuDNN 和 VisionWorks 在内的软件生态系统的支持下,Jetson 使世界各地的机器都具备实现高级水平所需的众所周知的大脑。当今世界的自治。
针对对计算机视觉和动态传感感兴趣的开发人员,Jetson TX1 的信用卡占用空间和低功耗意味着它适合部署具有受限尺寸、重量和功率 (SWaP) 的板载嵌入式系统。Jetson TX1 在与 Caffe 的深度学习分类中超越了英特尔高端酷睿 i7-6700K Skylake 的性能,在仅消耗一小部分功率的同时,实现了十倍以上的 perf-per-watt。
Jetson 提供卓越的效率,同时为敏捷原型设计和产品开发保持对开发人员友好的环境,消除了通常与部署功率受限的嵌入式系统相关的额外工作量。Jetson TX1 的小尺寸模块使世界各地的开发人员能够将 Tegra 部署到嵌入式应用程序中,范围从自主导航到深度学习驱动的推理和分析。
Jetson TX1 模块
Jetson TX1 围绕 NVIDIA 的 20nm Tegra X1 SoC 构建,具有 1024-GFLOP Maxwell GPU、64 位四核 ARM Cortex-A57 和硬件 H.265 编码器/解码器,尺寸为 50x87mm,并具有性能和功能。板载组件包括 4GB LPDDR4、16GB eMMC 闪存、802.11ac WiFi、蓝牙 4.0、千兆以太网,并接受 5.5V-19.6VDC 输入(图 2)。外围接口包括多达六个 MIPI CSI-2 摄像头(在双 ISP 上)、2x USB 3.0、3x USB 2.0、PCIe gen2 x4 + x1、独立 HDMI 2.0/DP 1.2 和 DSI/eDP 1.4、3x SPI、4x I2C 、3x UART、SATA、GPIO 等。毋庸置疑,Jetson TX1 在许多算法和集成挑战面前屹立不倒。
图 2. Jetson TX1 框图。外部的块表示载体上的典型路由。
Jetson 模块使用 400 针板对板连接器(图 3)与开发人员套件的参考载板或在您的产品化过程中设计的定制板连接。Tegra 的芯片级功能和 I/O 紧密映射到模块的引脚。该引脚将向后兼容 Jetson 模块的未来版本。Jetson TX1 带有一个集成热传递板(图 3),额定温度在 -25°C 和 80°C 之间,用于连接被动或主动冷却解决方案。除了访问Devtalk上活跃且开放的开发社区外,请咨询 NVIDIA 的嵌入式开发人员专区以获取详尽的文档和详细的机电规范。
图 3. 从左到右:Jetson TX1 模块的顶部、底部(带连接器)和带有 TTP 的完整组件。
Jetson TX1 在空闲时仅消耗 1 瓦或更低的功率,在典型的 CUDA 负载下大约为 8-10 瓦,在模块被充分利用时(例如在游戏和最苛刻的视觉例程期间)的 TDP 高达 15 瓦。Jetson TX1 可通过其自动调节器基于工作负载或通过明确的用户命令来控制内核并指定时钟频率,从而提供出色的动态功率调节。四个 ARM A57 内核在 102 MHz 和 1.9 GHz 之间自动扩展,内存控制器在 40MHz 和 1.6GHz 之间自动扩展,Maxwell GPU 在 76 MHz 和 998 MHz 之间自动扩展。Jetson TX1 的 Maxwell GPU 拥有 256 个具有 5.3 计算能力和动态并行性的 CUDA 内核,其 FP16 的额定速度高达 1024 GFLOPS。当与三个 MIPI CSI x4 摄像头或六个 CSI x2 摄像头支持高达 1200 兆像素/秒的速度相结合时,与硬件 H.265 编码器和解码器、集成 WiFi 和 HDMI 2.0 一起,Jetson TX1 为全 4K 视频处理做好了准备。Jetson TX1 模块零售价为 299 美元,供货期为 5 年。除了发布生态系统工具外,NVIDIA 还提供了 Jetson TX1 开发者套件来帮助用户立即开始使用。
Jetson TX1 开发者套件
NVIDIA 的 Jetson TX1 开发人员套件包括您开始在 Jetson 上进行开发所需的一切。包括预装模块,Jetson TX1 开发套件(图 4)包含一个参考 mini-ITX 载板、5MP MIPI CSI-2 摄像头模块、两个 2.4/5GHz 天线、一个有源散热器和风扇、一个丙烯酸基板、和一个 19VDC 电源砖。
Jetson TK1 开发人员套件上的 PCIe 通道从模块路由到载体上的 PCIe x4 桌面插槽,以便于原型设计,此外还有用于无线电的带有 PCIe x1 的 M.2-E 夹层。NVIDIA在Embedded Developer Zone上提供,与 5MP CSI-2 摄像头模块一起共享参考载体的原理图和设计文件,包括路由和信号完整性指南。Jetpack 捆绑的板卡软件支持提供了简单的刷写和设备配置。开箱即用的 Jetson TX1 开发人员套件提供台式 PC 的体验,但采用小型嵌入式外形,仅消耗一小部分功率。Jetson TX1 开发者套件可预订立即以 599 美元的价格发货,11 月 16 日在美国发货,12 月 20 日在欧洲和亚太地区发货。
选定的研究人员有机会在 Jetson TX1 开发人员套件发布前进行了审查。麻省理工学院教授 Sertac Karaman 博士和他的自主机器人实验室亲自使用新套件,从之前的 Jetson TK1 设置升级了他们的自动驾驶RACECAR。图 5 显示了他们的自动驾驶汽车。
除了由 Jetson TX1 提供动力的自动 RACECAR 之外,Karaman 博士在麻省理工学院的实验室也支持其他利用 Jetson 实现自动驾驶的项目。他们与麻省理工学院媒体实验室的“有说服力的电动汽车”(PEV) 的改变地点小组合作,他们的自动驾驶三轮车在城市环境中提供行人和包裹的自动运输,并且还由 Jetson 提供动力。利用该生态系统,麻省理工学院的学生快速制作了他们的项目原型,并受益于 Jetson TX1 提供的灵活开发环境和性能。
Tegra R23.1 的 Jetpack 和 Linux
Jetson 的软件生态系统非常广泛,Jetpack 简化了软件配置和部署。Jetpack 自动化 Jetson 上的安装过程,以包含所有用于开发的工具和驱动程序。Jetpack 2.0 为 Jetson TX1 提供。此版本的 Jetpack 捆绑了 Linux For Tegra (L4T) R23.1、Tegra System Profiler 2.4 和 Graphics Debugger 2.1、PerfKit 4.5.0 和 OpenCV4Tegra。L4T R23.1 附带 U-Boot 和 Linux 3.10.64 aarch64 内核,以及 Ubuntu 14.04armhf文件系统。L4T 的最新改进包括gstreamer1.6 扩展,支持 H.265 的硬件、改进nvgstcapture的用于测试相机模块的示例,以及对 WiFi 和蓝牙的集成支持。
L4T R23.1 包括对完整桌面 OpenGL 4.5 的支持,除了模拟之外,还提供完整的 Linux 游戏/VR 体验。还提供了 OpenGL ES 3.1。此版本包括 OpenCV4Tegra 2.14.12.3,使用户能够从标准 OpenCV 接口透明地利用 NEON SIMD 扩展。有关 OpenCV 的视频教程系列可通过Embedded Developer Zone获得。
CUDA 7 和 cuDNN/Caffe
Jetpack 2.0 包括 CUDA Toolkit 7.0 版,支持 16 位浮点 (FP16)。CUDA 7.0 释放了 Jetson TX1 的集成 Maxwell GPU。Maxwell 具有 Compute Capability 5.3,支持动态并行和更高性能的 FP16。动态并行在嵌入式应用程序中的许多用途包括点云处理和树分区、并行路径规划和成本估计、粒子过滤、RANSAC、求解器等等。
Jetson 软件生态系统的亮点之一是基于 CUDA 构建的令人难以置信的深度学习工具包,它为 Jetson 提供了板载推理和在该领域应用推理的能力。包括 NVIDIA 的 cuDNN 库,被包括 Caffe 在内的多个深度学习框架采用。
我们使用 Caffe AlexNet 图像分类器运行功率基准测试,将 Jetson TX1 与 Intel Core i7-6700K Skylake CPU 进行比较。该表显示了结果。在文章“推理:GPU 加速深度学习的下一步”中阅读有关这些结果的更多信息。
硅谷工业无人机开发商 Kespry Designs 正在使用 Jetson TX1 上的深度学习来为建筑工地提供推理,以跟踪设备和材料的资产。这消除了资产管理和现场后勤规划中繁琐的人力密集型工作。由于 Jetson TX1 的低 SWaP 和计算能力,Kespry 计划将处理迁移到无人机上,而不是在数据中心离线,从而缩短检查和分类等任务的响应时间。请参阅图 6 中有关它们的简短视频。
Kespry 在短短几周内就在 Jetson TX1 开发套件上开发了他们的概念验证。该原型使用经过训练的 Caffe 模型来识别和计算不同类别的建筑设备。使用 Jetson TX1,Kespry 现在正在他们的无人机上实时部署这个以前离线的过程。Jetson 能够转移曾经在车载移动平台上的数据中心执行的资源密集型任务,从而关闭响应循环并提高快速反应能力,为 Kespry 等公司创造新的机会。
视觉工厂
Jetson TX1 标志着 VisionWorks 的第一个版本通过 Jetpack 2.0 和嵌入式开发者专区可供开发人员使用。VisionWorks 建立在 Khronos Group 的用于节能视觉处理的 OpenVX 标准之上,使用经过调整的 CUDA 内核提供针对 Tegra 高度优化的原语和构建块。图 7 显示了我们在 Jetson TX1 上运行的基准测试结果,分析了 VisionWorks 和 OpenCV 之间的差异。
图 5. 基准测试展示了 VisionWorks 与在 Jetson TX1 CPU 和 GPU 上运行的 OpenCV 相比的大幅加速。
VisionWorks 比仅上游 CPU 的 OpenCV 快 10 倍以上,比具有 NEON 扩展的 OpenCV4Tegra 快 4.5 倍,比 OpenCV 的 GPU 模块快 1.6 倍。总体计算机视觉分数是从 OpenCV 和 VisionWorks 之间所有重叠基元的几何平均性能中收集的。每个基元都是在 720p 和更大的图像尺寸以及参数参数的所有排列中测量的。
除了 50 多个过滤、变形和图像增强基元外,VisionWorks 还提供了许多更高级别的构建块,例如 LK 光流、立体块匹配 (SBM)、霍夫线和圆以及哈里斯 (角)特征检测和跟踪。VisionWorks 提供了 OpenVX 1.1 的完整实现。开发人员可以利用 VisionWorks 部署已针对 Jetson 进行调整的相机就绪算法和视觉管道。
Jetson TX1:丰富的开发平台
NVIDIA Jetson 生态系统拥有丰富的工具和支持,可让您使用 Jetson TX1 研发应用程序和产品。在更大的方案中,用于加速计算、深度学习、计算机视觉和图形的 NVIDIA 软件工具包可从数据中心移植到工作站到嵌入式 SoC(图 8),允许企业用户无缝扩展和部署他们的应用程序到设备场地。使用 Jetson,开发人员可以利用 NVIDIA 的共享架构和节能技术轻松灵活地推出高性能嵌入式系统。
图 6. Jetson 利用 NVIDIA 生态系统提供前所未有的可扩展性和对开发人员友好的支持。
Jetson TX1 擅长托管核心处理能力以及学习驱动的推理和推理,代表了为您的设备提供下一波自主性的终极性能和效率。
关于作者
Dustin 是 NVIDIA Jetson 团队的一名开发人员推广员。Dustin 拥有机器人技术和嵌入式系统方面的背景,喜欢在社区中提供帮助并与 Jetson 合作开展项目。您可以在NVIDIA 开发者论坛或GitHub 上找到他。
审核编辑:郭婷
-
机器人
+关注
关注
211文章
28414浏览量
207042 -
NVIDIA
+关注
关注
14文章
4985浏览量
103033
发布评论请先 登录
相关推荐
评论