0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用NVIDIA TAO快速准确地训练AI模型

星星科技指导员 来源:NVIDIA 作者:Konstantin Rygol 2022-04-20 17:45 次阅读

越来越多的要求制造商在其生产过程中达到高质量控制标准。传统上,制造商依靠人工检查来保证产品质量。然而,手动检查成本高昂,通常只覆盖一小部分生产样本,最终导致生产瓶颈、生产率降低和效率降低。

通过人工智能计算机视觉实现缺陷检测自动化,制造商可以彻底改变其质量控制流程。然而,制造商和全自动化之间存在一个主要障碍。构建一个 AI 系统和生产就绪的应用程序是困难的,通常需要一个熟练的 AI 团队来训练和微调模型。一般制造商不采用这种专业技术,而是采用手动检查。

本项目的目标是展示如何使用NVIDIA转移学习工具包( TLT )和预训练模型快速建立制造过程中更精确的质量控制。这个项目是在没有人工智能专家或数据科学家的情况下完成的。为了了解 NVIDIA TLT 在为商业质量控制目的培训人工智能系统方面的有效性,使用公开的 dataset 钢焊接工艺,从 NGC 目录(一个 GPU 优化的人工智能和 HPC 软件中心)重新培训预培训的 ResNet-18 模型,使用 TLT 。我们比较了人工智能研究团队先前发表的一项工作中,在数据集上从头开始构建的模型和由此产生的模型的准确性。

NVIDIA TLT 操作简便、速度快,不具备人工智能专业知识的工程师可以轻松使用。我们观察到 NVIDIA TLT 的设置速度更快,结果更准确,宏观平均 F1 成绩 为 97% ,而之前发布的数据集“从头开始构建”的结果为 78% 。

这篇文章探讨了 NVIDIA TLT 如何快速准确地训练 AI 模型,展示了 AI 和转移学习如何改变图像和视频分析以及工业流程的部署方式。

具有 NVIDIA TLT 的工作流

NVIDIA TLT 是 NVIDIA 训练、调整和优化( TAO )平台 的核心组件,遵循零编码范式快速跟踪 AI 开发。 TLT 附带了一套随时可用的 Jupyter 笔记本、 Python 脚本和配置规范以及默认参数值,使您能够快速轻松地开始培训和微调数据集。

为了开始使用 NVIDIA TLT ,我们遵循了以下 快速入门指南说明 。

我们下载了 Docker 容器和 TLT Jupyter 笔记本。

我们将数据集映射到 Docker 容器上。

我们开始了第一次培训,调整了默认的培训参数,如网络结构、网络大小、优化器等,直到我们对结果感到满意。

数据集

这个项目中使用的数据集是由伯明翰大学的研究人员为他们的论文 基于可见 spectrum 摄像机和机器学习的 SS304 TIG 焊接过程缺陷自动分类 创建的。

该数据集由超过 45K 的灰度焊接图像组成,可通过 Kaggle 获得。数据集描述了一类正确执行: good_weld 。钨极惰性气体( TIG )焊接过程中可能出现五类缺陷: 烧穿、污染、未熔合、未保护气体、, 和 high_travel_speed 。

poYBAGJf1kWAN832AAHm8x-m3jg486.png

图 1 来自培训数据集的焊接图像示例

pYYBAGJf1mGAVHqaAAAwkhZuUwg683.png

表 1 列车、验证和测试数据集的图像分布

与许多工业数据集一样,该数据集是相当不平衡的,因为很难收集低可能性出现的缺陷的数据。表 1 显示了列车、验证和测试数据集的类别分布。

图 2 显示了测试数据集中的不平衡。测试数据集包含的 good_weld 图像比 lack_of_shielding 多 75 倍。

pYYBAGJf1kaAOPETAABYSD8CO0U897.png

图 2 TIG 钢焊接试验数据集的类别分布 。

使用 NVIDIA TLT

所采用的方法侧重于最小化开发时间和调优时间,同时确保精度适用于生产环境。 TLT 与示例笔记本附带的标准配置文件结合使用。设置、培训和调整在 8 小时内完成。

我们进行了有关网络深度和训练次数的参数扫描。我们观察到,改变默认的学习率并不能改善结果,因此我们没有进一步研究这一点,而是将其保留在默认值。经过 30 个阶段的训练,学习率为 0 。 006 ,从 NGC 目录中获得的预训练 ResNet-18 模型获得了最佳结果。

查看 krygol/304SteelWeldingClassification GitHub repo 中的逐步方法。

poYBAGJf1nCAFS_NAAAm3dHbnR4392.png

表 2 经过 30 个时期的训练,学习率为 0 。 006 ,预训练的 ResNet-18 获得的结果

获得的结果在所有班级中都相当好。一些 lack_of_fusion 气体图像被错误分类为 burn_through 和 污染 图像。在训练更深层次的 ResNet50 时也观察到了这种效果,这更容易将 lack_of_fusion 误分类为另一个缺陷类。

与原始方法的比较

伯明翰大学的研究人员选择了不同的人工智能工作流。他们手动准备数据集,通过欠采样来减少不平衡。他们还将图像重新缩放到不同的大小,并选择自定义网络结构。

他们使用了一个完全连接的神经网络( Full-con6 ),即具有两个隐藏层的神经网络。他们还实现了一个卷积神经网络( Conv6 ),其中有三个卷积层,每个卷积层后跟一个最大池层和一个完全连接层作为最终隐藏层。他们没有像 ResNet 那样使用跳过连接。

TLT 获得的结果与伯明翰大学研究人员定制实施的结果相比更令人印象深刻。

pYYBAGJf1nuAPKE8AAAo2EGtn3k313.png

表 3 定制网络与 TLT ResNet-18 的比较

Conv6 的平均表现较好,宏观平均 F1 为 0 。 78 ,但在识别 lack_of_shielding 气体缺陷方面完全失败 。 con6 的平均表现较差,宏观平均 F1 为 0 。 56 。 FULL-con6 可以对一些 lack_of_shielding 气体图像进行分类,但是 burn_through 和 高速行驶 图像存在问题。 FULL-con6 和 Conv6 都有明显的弱点,这将使它们无法获得生产准备就绪的资格。

每个班级的最佳 F1 成绩在表中以绿色标出。如您所见, TLT 训练的 ResNet-18 模型提供了更好的结果,宏观平均值为 0 。 97 。

结论

我们在 TLT 方面有着丰富的经验,总体而言, TLT 是用户友好且有效的。它设置速度快,易于使用,并且在较短的计算时间内产生可接受的结果。根据我们的经验,我们相信 TLT 为不是 AI 专家但希望在生产环境中使用 AI 的工程师提供了巨大的优势。在制造环境中使用 TLT 自动化质量控制不会带来性能成本,应用程序通常可以与默认设置一起使用,并进行一些小的调整,以超越自定义体系结构。

利用 NVIDIA TLT 快速准确地训练人工智能模型的探索表明,人工智能在工业过程中具有巨大的潜力。

关于作者

Konstantin Rygol 是 AI 和 HPC 在波士顿存储和服务器解决方案有限公司的首席工程师。他拥有挪威卑尔根大学的物理硕士学位。在研究原子物理学期间,他对 HPC 和 AI 产生了浓厚的热情。他现在是 NVIDIA 深度学习培训中心的讲师,致力于将人工智能引入德国市场。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4978

    浏览量

    102985
  • 服务器
    +关注

    关注

    12

    文章

    9123

    浏览量

    85322
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268885
收藏 人收藏

    评论

    相关推荐

    GPU是如何训练AI模型

    AI模型训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何
    的头像 发表于 12-19 17:54 80次阅读

    NVIDIA Isaac Sim满足模型的多样化训练需求

    光轮智能借助 NVIDIA Isaac Sim,通过 3D 生成与建模技术构建高度逼真的虚拟场景,将现实世界的复杂场景抽象并转化为高质量的训练数据源,从而更有效地满足模型的多样化训练
    的头像 发表于 11-23 14:55 524次阅读

    NVIDIA AI助力实现更好的癌症检测

    由美国顶级医疗中心和研究机构的专家组成了一个专家委员会,该委员会正在使用 NVIDIA 支持的联邦学习来评估联邦学习和 AI 辅助注释对训练 AI 肿瘤分割
    的头像 发表于 11-19 15:54 171次阅读

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 256次阅读

    AI模型训练数据来源分析

    AI模型训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI
    的头像 发表于 10-23 15:32 542次阅读

    如何训练自己的AI模型

    训练自己的AI模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的
    的头像 发表于 10-23 15:07 1270次阅读

    如何训练ai模型

    训练AI模型是一个复杂且耗时的过程,涉及多个关键步骤和细致的考量。 一、数据准备 1. 数据收集 确定数据类型 :根据模型的应用场景,确定需要收集的数据类型,如文本、图像、音频等。
    的头像 发表于 10-17 18:17 855次阅读

    ai模型训练需要什么配置

    AI模型训练是一个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练的效率和效果。 一、处理器(CPU) CPU是计算机的核心部件,负责处理各种计算任务。在
    的头像 发表于 10-17 18:10 1181次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式
    的头像 发表于 09-06 14:59 300次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成<b class='flag-5'>训练</b>数据

    NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

    借助 NVIDIA AI Foundry,企业和各国现在能够使用自有数据与 Llama 3.1 405B 和 NVIDIA Nemotron 模型配对,来构建“超级
    发表于 07-24 09:39 706次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry 为全球企业打造自定义 Llama 3.1 生成式 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

    ai模型训练方法有哪些?

    AI模型训练方法是一个复杂且不断发展的领域。以下是ai模型训练方法: 数据预处理和增强 数据
    的头像 发表于 07-16 10:11 1461次阅读

    MediaTek与NVIDIA TAO加速物联网边缘AI应用发展

    在即将到来的COMPUTEX 2024科技盛会上,全球知名的芯片制造商MediaTek宣布了一项重要合作——将NVIDIATAO(TensorRT Accelerated Optimizer)与其NeuroPilot SDK(软件开发工具包)集成,共同推动边缘
    的头像 发表于 06-12 14:49 466次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相应
    发表于 05-07 17:10

    Edge Impulse发布新工具,助 NVIDIA 模型大规模部署

    借助 Edge Impulse 和 NVIDIA TAO 工具包的协同效应,工程师得以快速构建并部署至边缘优化硬件(如上述型号)的计算机视觉模型。该平台还支持用户运用经由 GPU 优化
    的头像 发表于 03-25 16:00 742次阅读

    NVIDIA TAO 5.2版本发布

    NVIDIA TAO 提供了一个低代码开源 AI 框架,无论你是初学者还是专业的数据科学家,都可以使用该框架加速视觉 AI 模型开发。开发者
    的头像 发表于 01-03 10:11 618次阅读