反思深度学习与传统计算机视觉的关系-电子发烧友网

来源：算法与数学之美

某种程度上，深度学习最大的优势就是自动创建没有人会想到的特性能力。

如今，深度学习在众多领域都有一席之地，尤其是在计算机视觉领域。尽管许多人都为之深深着迷，然而，深网就相当于一个黑盒子，我们大多数人，甚至是该领域接受过培训的科学家，都不知道它们究竟是如何运作的。

大量有关深度学习的成功或失败事例给我们上了宝贵的一课，教会我们正确处理数据。在这篇文章中，我们将深入剖析深度学习的潜力，深度学习与经典计算机视觉的关系，以及深度学习用于关键应用程序的潜在危险。

视觉问题的简单与复杂

首先，我们需要就视觉/计算机视觉问题提出一些看法。原则上它可以这样理解，人们给定一幅由摄像机拍摄的图像，并允许计算机回答关于与该图像内容的相关问题。

问题的范围可以从“图像中是否存在三角形”，“图像中是否有人脸”等简单问题到更为复杂的问题，例如“图像中是否有狗在追逐猫”。尽管这类的问题看起来很相似，对于人类来说甚至有点微不足道，但事实证明，这些问题所隐藏的复杂性存在巨大差异。

虽然回答诸如“图像中是否有红圈”或“图像中有多少亮点”之类的问题相对容易，但其他看似简单的问题如“图像中是否有一只猫”，则要复杂得多。“简单”视觉问题和“复杂”视觉问题之间的区别难以界限。

这一点值得注意，因为对于人类这种高度视觉化的动物来说，上述所有问题都是不足以成为难题，即便是对孩子们来说，回答上述视觉问题也并不困难。然而，处在变革时期的深度学习却无法回答这些问题。

传统计算机视觉V.S.深度学习

传统计算机视觉是广泛算法的集合，允许计算机从图像中提取信息（通常表示为像素值数组）。目前，传统计算机视觉已有多种用途，例如对不同的对象进行去噪，增强和检测。

一些用途旨在寻找简单的几何原语，如边缘检测，形态分析，霍夫变换，斑点检测，角点检测，各种图像阈值化技术等。还有一些特征代表技术，如方向梯度直方图可以作为机器学习分类器的前端，来构建更复杂的检测器。

与普遍的看法相反，上面讨论的工具结合在一起可以造出针对特定对象的检测器，这种检测器性能强，效率高。除此之外，人们还可以构建面部检测器，汽车检测器，路标检测器，在精准度和计算复杂性等方面，这些检测器很可能优于深度学习。

但问题是，每个检测器都需要由有能力的人从头开始构建，这一行为低效又昂贵。因此，从历史上看，表现优良的探测器只适用于那些必须经常被检测，并且能够证明前期投资是明智的对象。

这些探测器中有许多是专有的，不向公众开放，比如人脸检测器，车牌识别器等等。但是，没有一个心智正常的人会花钱编写狗探测器或分类器，以便从图像中对狗的品种进行分类。于是，深度学习就派上了用场。

尖子生的启迪

假设你正在教授计算机视觉课程，在课程的前半部分，你要带领学生们复习大量的专业知识，然后留时间给学生完成任务，也就是收集图像内容并提问。任务一开始很简单，例如通过询问图像中是否有圆形或正方形，再到更复杂的任务，例如区分猫和狗。

学生每周都要编写计算机程序来完成任务，而你负责查看学生编写的代码，并运行查看它们的效果如何。

这个学期，一名新生加入了你的班级。他不爱说话，不爱社交，也没有提过什么问题。但是，当他提交自己的第一个任务方案时，你感到有点意外。这名新生编写的代码让人难以理解，你从来都没见过这样的代码。看起来他像是用随机的过滤器对每幅图像进行卷积，然后再用非常奇怪的逻辑来得到最终的答案。

你运行了这段代码，效果非常好。你心想，虽然这个解决方案非同寻常，但只要它有效就足够了。几周过去了，学生们需要完成的任务难度越来越高，你也从这名新生那里得到了越来越复杂的代码。他的代码出色地完成了难度日益增大的任务，但你无法真正理解其中的内容。

期末的时候，你给学生们布置了一项作业，用一组真实的图片来区分猫和狗。结果，没有学生能够在这项任务上达到超过65％的准确率，但是新生编写的代码准确率高达95%，你大吃一惊。你开始在接下来的几天中深入分析这些高深莫测的代码。你给它新的示例，然后进行修改，试着找出影响程序决策的因素，对其进行反向工程。

最终你得出一个非常令人惊讶的结论：代码会检测出狗的标签。如果它能检测到标签，那么它就可以判断对象的下部是否为棕色。如果是，则返回“cat”，否则返回“dog”。如果不能检测到标签，那么它将检查对象的左侧是否比右侧更黄。如果是，则返回“dog”，否则返回“cat”。

你邀请这名新生到办公室，并把研究结果呈给他。你向他询问，是否认为自己真的解决了问题？在长时间的沉默之后，他终于喃喃自语道，他解决了数据集显示的任务，但他并不知道狗长什么样，也不知道狗和猫之间有什么不同……

很明显，他作弊了，因为他解决任务目的和你想要的目的无关。不过，他又没有作弊，因为他的解决方案确实是有效的。然而，其他学生的表现都不怎么样。他们试图通过问题来解决任务，而不是通过原始数据集。虽然，他们的程序运行得并不好，倒也没有犯奇怪的错误。

深度学习的祝福和诅咒

深度学习是一种技术，它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”)，就像上面故事中学者学生编写的那些程序一样。这些“程序”和优化技术对世界一无所知，它所关心的只是构建一组转换和条件，将正确的标签分配给数据集中的正确图像。

通过向训练集添加更多的数据，可以消除虚假的偏差，但是，伴随着数百万个参数和数千个条件检查，反向传播生成的“程序”会非常大，非常复杂，因此它们可以锁定更细微偏差的组合。任何通过分配正确标签，来统计优化目标函数的方法都可以使用，不管是否与任务的“语义精神”有关。

这些网络最终能锁定“语义正确”的先验吗？当然可以。但是现在有大量的证据表明，这并不是这些网络分内之事。相反的例子表明，对图像进行非常微小的、无法察觉的修改就可以改变检测结果。

研究人员对训练过的数据集的新示例进行了研究，结果表明，原始数据集之外的泛化要比数据集内的泛化弱得多，因此说明，网络所依赖的给定数据集具有特定的低层特性。在某些情况下，修改单个像素就足以产生一个新的深度网络分类器。

在某种程度上，深度学习最大的优势就是自动创建没有人会想到的特性能力，这同时也是它最大的弱点，因为大多数这些功能至少在语义上看起来，可以说是“可疑的”。

什么时候有意义，什么时候没有意义?

深度学习对于计算机视觉系统来说无疑是一个有趣的补充。我们现在可以相对容易地“训练”探测器来探测那些昂贵且不切实际的物体。我们还可以在一定程度上扩展这些检测器，以使用更多的计算能力。

但我们为这种奢侈付出的代价是高昂的：我们不知道深度学习是如何做出判断，而且我们确实知道，分类的依据很可能与任务的“语义精神”无关。而且，只要输入数据违反训练集中的低水平偏差，检测器就会出现失效。这些失效条件目前尚且不为人知。

因此，在实践中，深度学习对于那些错误不是很严重，并且保证输入不会与训练数据集有很大差异的应用程序非常有用，这些应用能够承受5%以内的错误率就没问题，包括图像搜索、监视、自动化零售，以及几乎所有不是“关键任务”的东西。

具有讽刺意味的是，大多数人认为深度学习是应用领域的一次革命，因为深度学习的决策具有实时性，错误具有重大性，甚至会导致致命的结果，如自动驾驶汽车，自主机器人（例如，最近的研究表明，基于深层神经网络的自主驾驶确实容易受到现实生活中的对抗性攻击）。我只能将这种信念描述为对“不幸”的误解。

一些人对深度学习在医学和诊断中的应用寄予厚望。然而，在这方面也有一些令人担忧的发现，例如，针对一个机构数据的模型未能很好地检测另一个机构数据。这再次印证了一种观点：这些模型获取的数据要比许多研究人员所希望的更浅。

数据比我们想象的要浅

出人意料的是，深度学习教会了我们一些关于视觉数据(通常是高维数据)的东西，这个观点十分有趣：在某种程度上，数据比我们过去认为的要“浅”得多。

似乎有更多的方法来统计地分离标有高级人类类别的可视化数据集，然后有更多的方法来分离这些“语义正确”的数据集。换句话说，这组低水平的图像特征比我们想象的更具“统计意义”。这是深度学习的伟大发现。

如何生成“语义上合理”的方法来分离可视数据集模型的问题仍然存在，事实上，这个问题现在似乎比以前更难回答。

结论

深度学习已经成为计算机视觉系统的重要组成部分。但是传统的计算机视觉并没有走到那一步，而且，它仍然可以用来建造非常强大的探测器。这些人工制作的检测器在某些特定的数据集度量上可能无法实现深度学习的高性能，但是可以保证依赖于输入的“语义相关”特性集。

深度学习提供了统计性能强大的检测器，而且不需要牺牲特征工程，不过仍然需要有大量的标记数据、大量GPU，以及深度学习专家。然而，这些强大的检测器也会遭遇意外的失败，因为它们的适用范围无法轻易地描述(或者更确切地说，根本无法描述)。

需要注意的是，上面的讨论都与“人工智能”中的AI无关。我不认为像深度学习与解决人工智能的问题有任何关系。但我确实认为，将深度学习、特性工程和逻辑推理结合起来，可以在广泛的自动化空间中实现非常有趣和有用的技术能力。

来源：电子工程世界

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机

计算机

+关注

关注
19

文章
7575

浏览量
89092
计算机视觉

计算机视觉

+关注

关注
8

文章
1703

浏览量
46243
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121874

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换

发表于 10-31 17:00 •707次阅读

【小白入门必看】一文读懂<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>技术及<b class='flag-5'>学习</b>路线

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限性。以下是对

发表于 08-14 09:49 •1298次阅读

图像处理器与计算机视觉有什么关系和区别

图像处理器与计算机视觉是两个在图像处理领域紧密相连但又有所区别的概念。它们之间的关系和区别可以从多个维度进行探讨。

发表于 08-14 09:36 •720次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •730次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机

发表于 07-10 18:26 •1770次阅读

计算机视觉的工作原理和应用

计算机视觉（Computer Vision，简称CV）是一门跨学科的研究领域，它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使

发表于 07-10 18:24 •2508次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如

发表于 07-09 09:25 •863次阅读

计算机视觉与智能感知是干嘛的

引言 计算机视觉（Computer Vision）是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等

发表于 07-09 09:23 •1239次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机

发表于 07-09 09:22 •595次阅读

计算机视觉和图像处理的区别和联系

计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉

发表于 07-09 09:16 •1682次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1570次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机

发表于 07-01 11:38 •1144次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度

发表于 06-06 17:17 •1318次阅读

传统计算机视觉对比深度学习

深度学习是一种技术，它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”)，就像上面故事中学者学生编写的那些程序一样。

发表于 03-31 09:48 •512次阅读

【量子计算机重构未来 | 阅读体验】+量子计算机的原理究竟是什么以及有哪些应用

计算方法的区别传统方法是，按照不走枚举所有情况，而量子计算是一次处理所有情况，是一步到位。但是这里又有疑惑了，量子计算如何实现的一步到位呢，这里引入了量子比特和

发表于 03-11 12:50

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

反思深度学习与传统计算机视觉的关系

评论

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

计算机视觉有哪些优缺点

图像处理器与计算机视觉有什么关系和区别

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉和图像处理的区别和联系

计算机视觉属于人工智能吗

深度学习在计算机视觉领域的应用

计算机视觉的主要研究方向

传统计算机视觉对比深度学习

【量子计算机重构未来 | 阅读体验】+量子计算机的原理究竟是什么以及有哪些应用