了解计算机视觉发展未来的核心技术-电子发烧友网

Computer vision 是一个快速发展的研究和应用领域。计算机视觉研究的进展现在更直接、更直接地适用于商业世界。

人工智能开发人员正在实施计算机视觉解决方案，以识别和分类对象，甚至对其作出实时反应。图像分类、人脸检测、姿态估计和光流是一些典型的任务。计算机视觉工程师是 deep learning （ DL ）或 machine learning （ ML ）工程师的子集，他们编写计算机视觉算法来完成这些任务。

DL 算法的结构非常适合解决计算机视觉问题。卷积神经网络（ CNN ）的体系结构特征能够检测和提取视觉数据中存在的空间模式和特征。

计算机视觉领域正在迅速改变汽车、医疗保健和机器人等行业，很难跟上最新发现、趋势和进展。这篇文章重点介绍了正在影响并将继续影响 2022 年及以后计算机视觉发展未来的核心技术：

帮助扩展 DL 解决方案的云计算服务。

自动化 ML （ AutoML ）解决方案，可减少标准 ML 管道中所需的重复工作。

transformer 研究人员开发的优化计算机视觉任务的体系结构。

结合计算机视觉技术的移动设备。

云计算

云计算通过互联网为个人或企业提供数据存储、应用服务器、网络和其他计算机系统基础设施。云计算解决方案提供快速、经济高效、可扩展的按需资源。

大多数 ML 解决方案都需要存储和高处理能力。数据集管理的早期开发（聚合、清理和争论）通常需要云计算资源来存储或访问 BigQuery 、 Hadoop 或 BigTable 等解决方案应用程序。

最近，具有计算机视觉功能的设备和系统显著增加，例如用于步态分析的姿势估计、智能手机的人脸识别和自动车辆的车道检测。

云存储的需求正在快速增长， projected 预计该行业的价值将达到 3903.3 亿美元，是 2021 市场当前价值的五倍。 market size 的增加将导致使用入站数据来训练 ML 模型的增加。这与更大的数据存储容量需求和越来越强大的计算资源直接相关。

GPU 可用性加快了计算机视觉解决方案的速度。然而，单凭 GPU 还不足以提供这些应用程序所需的可扩展性和正常运行时间，尤其是在为数千甚至数百万消费者提供服务时。云计算提供了启动和补充现有内部基础设施缺口所需的资源。

云计算平台，包括 Amazon Web 服务（ AWS ）、谷歌云平台（ GCP ）和 Microsoft Azure 为 ML 和数据科学项目管道的核心组件提供端到端解决方案，包括数据聚合、模型实现、部署和监控。对于设计视觉系统的计算机视觉开发人员来说，重要的是要了解这些主要云服务提供商的优势，以及如何配置它们以满足特定和复杂的管道需求。

大规模计算机视觉需要云服务集成

以下是支持典型计算机视觉系统的 NVIDIA 服务示例。

预训练 DL 模型的 NGC Catalog 降低了模型训练和实现的复杂性。

DL scripts 提供现成的可定制管道。强健的模型部署解决方案自动化了向最终用户的交付。

NVIDIA Triton 推理服务器支持在任何基于 GPU 或 CPU 的基础设施上部署来自 TensorFlow 和 PyTorch 等框架的模型。 Triton 推理服务器提供了跨各种平台（包括云、边缘和嵌入式设备）的模型可扩展性。

NVIDIA 与云服务提供商（如VZX18）的合作伙伴关系支持部署基于计算机视觉的资产，因此计算机视觉工程师可以将更多精力放在模型性能和优化上。

企业在可行的情况下降低成本并优化战略。云计算和云服务提供商通过提供基于使用情况的计费解决方案和基于需求的扩展来实现这两个目标。

AutoML

ML 算法和模型开发涉及许多任务，这些任务可以受益于自动化，如特征工程和模型选择。

特征工程涉及从数据集中检测和选择相关特征、属性和属性。

模型选择涉及评估一组 ML 分类器、算法或给定问题的解决方案的性能。

特征工程和模型选择活动都需要 ML 工程师和数据科学家花费大量时间来完成。软件开发人员经常重新访问工作流的这些阶段，以提高模型性能或准确性。

有几个正在进行的大型项目可以简化复杂的 ML 项目管道。 AutoML 专注于自动化和增强工作流及其过程，以使 ML 易于访问，并减少非 ML 专家的手动强度。

从市场价值来看， projections 预计到 2030 年， AutoML 市场将达到 140 亿美元。这意味着将比当前值增加约 42 倍。

ML 和自动化的这种特殊结合正在获得吸引力，但也有局限性。

实践中的 AutoML

AutoML 节省了数据科学家和计算机工程师的时间。 AutoML 功能使计算机视觉开发人员能够将更多精力投入到计算机视觉开发管道的其他阶段，以最好地利用他们的技能集，如模型培训、评估和部署。 AutoML 有助于加速数据聚合、准备和超参数优化，但工作流的这些部分仍然需要人工输入。

构建正确的模型需要数据准备和聚合，但它们是重复的、耗时的任务，依赖于找到合适的数据质量源。

同样，超参数优化可能需要大量时间进行迭代以获得正确的算法性能。它涉及到一个有根据的猜测的试错过程。寻找合适的超参数所需的重复工作量可能会很繁琐，但对于使模型的训练达到所需的精度至关重要。

对于那些对 GPU 驱动的 AutoML 感兴趣的人来说，广泛使用的基于树的管道优化工具（ TPOT ）是一个自动化的 ML 库，旨在通过利用遗传编程优化 ML 过程和管道。 RAPIDS cuML 提供使用 GPU 计算资源加速的 TPOT 功能。

机器学习库和框架

ML 库和框架是任何计算机视觉开发人员工具包中的基本元素。主要 DL 库，如 TensorFlow 、 PyTorch 、 Keras 和 MXNet 在 2021 收到了持续的更新和修复，并且在未来可能会继续这样做。

最近，以移动为中心的 DL 库和优化常用 DL 库的包取得了令人兴奋的进展。

MediaPipe 于 2021 扩展了姿势估计功能，通过 BlazePose 模型提供 3D 姿势估计，该解决方案可在浏览器和移动环境中使用。 2022 年，预计将在涉及动态运动和需要稳健解决方案的用例中看到更多姿势估计应用，例如舞蹈中的运动分析和虚拟角色运动模拟。

PyTorch 闪电由于它的简单性、复杂神经网络实现细节的抽象性和硬件考虑的扩展性，在研究人员和专业 ML 从业者中越来越流行。

最先进的深度学习

DL 方法长期以来被用来解决计算机视觉的挑战。用于人脸检测、车道检测和姿态估计的神经网络结构都使用深层连续的 CNN 。一种新的计算机视觉算法架构正在出现：变形金刚。

transformer 是在注意力是你所需要的中引入的 DL 体系结构。论文方法通过使用 attention mechanism 来推导输入数据的一部分相对于输入数据的其他部分的重要性，从而创建数据的计算表示。

transformer 没有使用 CNN 的约定，但研究表明 transformer 型号在 vision-related tasks 中。变形金刚在 NLP 领域内产生了相当大的影响。有关更多信息，请参阅发电预培训变压器（ GPT ）和变压器的双向编码器表示（ BERT ）。

通过包含 PyTorch 中实际 transformer 模型的架构和使用细节的 NGC Catalog 探索 transformer 模型。

有关将 Transformer 网络体系结构应用于计算机视觉的更多信息，请参阅视觉中的变形金刚：一项调查论文。

移动设备

边缘设备正变得越来越强大。对于希望快速提供服务和 AI 功能的客户来说，设备上推理功能是移动应用程序的必备功能。

将计算机视觉功能（如图像和模式识别）纳入移动设备中，可以减少获取模型推理结果的延迟，并提供以下好处：

缩短等待时间用于获取设备计算的推断结果。

增强隐私和安全性由于云服务器之间和到云服务器的数据传输有限。

云上的降低了删除依赖项的成本和 CPU 服务器进行推断。

许多企业正在探索移动产品，其中包括探索如何在移动设备上复制现有 AI 功能。以下是实施 mobile first AI 解决方案的几个平台、工具和框架：

TensorFlow 很少

CoreML

Apple Vision 框架

TensorFlow-React

CreateML

MediaPipe

MLKit

总结

随着人工智能越来越多地融入我们的日常生活，计算机视觉技术不断发展。计算机视觉在最新的新闻头条中也变得越来越普遍。随着这项技术的扩展，由于云计算服务、自动 ML 管道、转换器、以移动为中心的 DL 库和计算机视觉移动应用程序的发展趋势，对具有计算机视觉系统知识的专家的需求也将增加。

2022 年，增强型和 VR 应用程序的不断发展将使计算机视觉开发人员能够将其技能扩展到新的领域，例如开发在 3D 空间中复制和与真实对象交互的直观高效方法。展望未来，计算机视觉应用将继续改变并影响未来。

关于作者

Richmond Alake 是一名机器学习和计算机视觉工程师，他与多家初创公司和公司合作，整合深度学习模型，以解决商业应用中的计算机视觉任务。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

转换器

转换器

+关注

关注
27

文章
8694

浏览量
147085
计算机

计算机

+关注

关注
19

文章
7488

浏览量
87852
服务器

服务器

+关注

关注
12

文章
9123

浏览量
85324

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也

发表于 08-14 09:49 •920次阅读

计算机视觉技术的AI算法模型

计算机视觉技术作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标，计算机

发表于 07-24 12:46 •804次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •520次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机

发表于 07-10 18:26 •1330次阅读

计算机视觉与自然语言处理的区别

计算机视觉（Computer Vision，简称CV）与自然语言处理（Natural Language Processing，简称NLP）作为人工智能（Artificial Intelligence

发表于 07-10 18:25 •1366次阅读

计算机视觉的工作原理和应用

图像和视频中提取有用信息，进而进行决策和行动。自1960年代第一批学术论文问世以来，计算机视觉技术已经取得了长足的发展，并在多个领域展现出巨大的应用潜力和价值。

发表于 07-10 18:24 •1909次阅读

计算机视觉与人工智能的关系是什么

、交流等方面。计算机视觉与人工智能之间存在着密切的联系，计算机视觉是人工智能的一个重要分支，也是实现人工智能的关键技术之一。

发表于 07-09 09:25 •619次阅读

计算机视觉和机器视觉区别在哪

，旨在实现对图像和视频的自动分析和理解。机器视觉机器视觉是计算机视觉的一个分支，主要应用于工业自动化领域。它利用计算机和图像处理

发表于 07-09 09:22 •446次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机

发表于 07-01 11:38 •777次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速

发表于 06-06 17:17 •950次阅读

【量子计算机重构未来 | 阅读体验】跟我一起漫步量子计算

首先感谢发烧友提供的试读机会。略读一周，感触颇深。首先量子计算机作为一种前沿技术，正逐步展现出其巨大的潜力，预示着未来社会和技术领域的深刻变革。下面，我将从几个方面探讨量子

发表于 03-13 19:28

【量子计算机重构未来 | 阅读体验】+ 了解量子叠加原理

如何生产制造。。。。。。近来通过阅读《量子计算机—重构未来》一书，结合网络资料，了解了一点点量子叠加知识，分享给大家。先提一下电子计算机，电子计

发表于 03-13 17:19

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

欣喜收到《量子计算机——重构未来》一书，感谢电子发烧友论坛提供了一个让我了解量子计算机的机会！自己对电子计算机有点

发表于 03-05 17:37

计算机视觉的十大算法

视觉技术的发展起到了重要的推动作用。一、图像分割算法图像分割算法是计算机视觉领域的基础算法之一，它的主要任务是将图像分割成不同的区域或对象。

发表于 02-19 13:26 •1236次阅读

量子计算机的未来

了解量子计算机对于工业生产和产品研发的使用

发表于 02-01 15:30

搜索历史

了解计算机视觉发展未来的核心技术

评论

计算机视觉有哪些优缺点

计算机视觉技术的AI算法模型

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉与自然语言处理的区别

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉和机器视觉区别在哪

深度学习在计算机视觉领域的应用

计算机视觉的主要研究方向

【量子计算机重构未来 | 阅读体验】跟我一起漫步量子计算

【量子计算机重构未来 | 阅读体验】+ 了解量子叠加原理

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

计算机视觉的十大算法

量子计算机的未来