未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?-电子发烧友网

原提问：

计算机视觉伴随多个SOTA的完善和推进，已经进去深水区，各个论坛社区的毕业生和从业者都一片卷声，大呼卷的不行，各种劝退，认为NLP目前才是蓝海，是未来深度学习的自由之地。那么实际情况是怎么样的呢？是因为CV对硬件有要求而NLP不需要硬件还是技术门槛过低，亦或是从业人员众多等。那么未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

谢凌曦：

我没看错吧？NLP是一片蓝海是自由之地？CV比较完善进入了深水区？一时间，我都不知道应该从哪个点开始吐槽了。

因为题主问到了CV和NLP的比较。如果一定要横向对比的话，那么CV和NLP长期以来是互相学习、互相赶超的关系。虽然同属于AI这个大领域，也同样具有不确定性因而概率类方法占据绝对优势，但两者的性质还是存在诸多不同。具体来说：

CV信号是天然存在的，而NLP信号是人类创造出来、用于存储知识的。因此，CV信号维度高、信息密度低，而NLP信号维度低、信息密度高。这就意味着在NLP信号上进行自监督学习更容易，也意味着要在CV信号上进行自监督学习，需要事先进行某种意义上的信息提纯。

CV信号描述了对象的细节，具有一定的冗余度，而NLP信号是对象的抽象化描述，具有一定的模糊性。CV信号是层次化的，而NLP信号是结构化的。这些明显的对比，意味着要想在CV和NLP领域产生初级技术应用，算法需要关注的点是不一样的。CV更关注特征的抽象和domain之间的迁移，而NLP更关注单词间的联系和消歧义，等等。

当前，CV和NLP面临的共同困难，都是标注信息的不完善——简单地说，人类提供的标签已经无法很好地指导学习过程，具体描述可以参考我昨天写的另一个回答：

目前计算机视觉中的很多自监督方法的下游任务用有监督分类的意义是什么？

这也就意味着，有监督学习的红利已经基本吃完，业界急需从无标签数据中获取迈向下一代人工智能的钥匙。虽然这把钥匙仍未找到，但是我们基本可以确定大规模上游预训练+小规模下游微调的套路。NLP已经部分走通了这条路——虽然现在的GPT-3被批评为只有记忆没有常识，但是长远看，这条路应该是通的；而CV也需要迎头赶上。

警告：以下是猜测

如果对CV的未来走向进行判断，我认为一种很可能发生情况是复刻NLP的轨迹，由大厂完成超大规模图像预训练模型，随后将模型release给广大开发者使用。这条路一旦走通，将会深远地改变当前CV的格局和开发模式。当然，对于广大开发者而言，适应新的算法并不困难，适应新的生态可能会有一定的挑战。

最后，谈到内卷的问题。内卷永远是存在的，只要大家认为这个领域的从业者的数量超过了它能够实际养活的数量。我对这个问题的看法是，CV在实际应用上的潜力远没有被发挥出来。如果更先进的技术路线能够达成，那么整个行业能养活的工程师数量一定会增加，到时候还会不会卷，就看会不会有更多人跳进这个坑里来了。

韦仕才：

作为一名入门炼丹师我来谈谈我的观点。

首先关于卷的这个问题，我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低，或者深度学习入门门槛低啥的，好歹它还需一块1080ti+是吧。看看隔壁的JAVA，那个真是有手就行（狗头），但是你看有人说开发岗卷吗？想必无数学长学姐都告诉过大家，遇事不决就学JAVA，或者再加点c++。而大家，至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的，至多就是入职的996，35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了，找不到工作了，半年速成JAVA去找了开发的工作。同样都是那么多人入门，甚至转开发和JAVA的人更多，为啥就深度学习一片红海，问题出在哪呢？

问题的核心其实在于供需失衡。首先是供给方，注意深度学习的红利是真的曾经存在过的！！！，并不从一开始就是泡沫。在15-17年那会，前景看起来一片光明，学生们看到深度学习，计算机视觉带来的巨大福利，老师们看到这个东西好发文章，申项目，于是纷纷转向深度学习，计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞，吴恩达，bengio，blabla等各路大神都纷纷离校创业或从业，所以大家没忍住诱惑走进了这个坑真怪不了什么，我也没忍住，毕竟那时候谁能想到会是现在这样，一切看起来都非常美好，智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖（以低于融资成本的价格卖出），知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?

这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗，深度学习需求并没有像大家所想象的那么大，不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢？说好的工业4.0呢，说好的光明前景呢？这就要谈到另一个问题，什么决定了公司的需求？梦想？热爱？不，是利益，99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天

我的一个博士师兄是工作之后才来读博的，他17年硕士毕业去了海信做图像算法，后来有一天我们一起回寝室，师兄突然说起还好辞职，不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗，怎么会裁到你们。师兄说裁的就是研发部门…，也就是算法岗可能的来源。我当时心想，不应该啊，研发部门不应该都是像达摩院， FAIR这种，关乎一个公司能否把握未来机遇，抓住下一个风口的重要部门吗，怎么说裁就裁。师兄说，因为不挣钱啊，我们公司墙上挂满了各种专利，但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。

而像阿里，旷视，商汤这种提供算法支持的不应该有很大的算法岗需求吗？为什么还是会卷。其实他们的需求也没那么大，原因还是一样的，计算机视觉，深度学习并没能带来大家所期望应用和盈利。说到这，其实大家眼里的眼里这些公司也不容易，也卷的不行，那么多公司就分人脸识别，智能安防等几个领域的蛋糕，而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习，计算机视觉能落地的场景真的不多。

所以这就谈到第二点了，现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的，可能存在一些局限。

做过算法落地的人应该都深有体会，那些顶刊顶会上的sota算法，你用到实际场景里，如果不适用额外数据做微调，准确率掉一个30%到40%，再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的，但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了，毕竟人工智能人工智能，有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决

研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛，做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别，这不是做烂了吗，还有什么好做的？我当时也这么想，师兄可能开始也这么想，然后师兄两年就花在了上面，后来表示非常后悔。当时的情况就是白天下还好，基本都能识别差不多，黑夜路灯下，准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了，就这还拿了第五名。前面的是一起参赛的还有大华，云从这些大厂，这里就说说大华，专业做安防的，他们最后黑夜环境下准确率大概是70%，而且这里还不确实他们是不是用了自己的数据，总之我们是没数据。

数据都不能解决，但还是要用，那怎么办，一般就只能限制场景，麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里，采集海量数据集，拟合一个模型然后使用。这个过程中真正起了大作用的，不是大家以为的那些sota模型，而是那些场景的约束和海量数据。以我做的活体检测为例，现在也有落地的应用了，阿里，小视科技，但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离，请保持静止blabla一些限制，甚至有时候我都已经在这个范围里还不给我检测，用的贼恶心。这些限制能不能不要？不行，因为不加这东西就解决不了。

紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品，能够切实的落地影响或改变人们的生活，解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。

我数据量不够的怎么办——小样本学习，迁移学习。

数据标注成本高怎么办——半监督，无监督。

我数据分布不均衡怎么办——长尾分布。

如何利用各种可能的数据来优化提高模型性能——多模态学习。

如何适应复杂场景（自然的，人为的）——深度学习的鲁棒性，泛化性研究，对抗学习。

算法出问题我怎么纠正和修改——深度学习可解释性问题。

我的模型怎么快速高效部署用于实际产品——机器学习系统，深度学习框架研究，模型压缩

吉恒杉：

在企业里从事三年多cv业务，感觉cv还是有很多东西没有解决，比如类别无关的检测问题，图像去模糊，画质评估，美学度量，以及和nlp的跨模态检索等。由于cv开源的好项目很多，整体开箱可用率高，入门门槛低，前两三年入坑的人也比较多，导致现在内卷严重，这是实情，所以在招聘cv岗位的时候动辄要求发表几篇a类文章，竞争还是很激烈的。加上今年经济形势严重，不挣钱的业务招聘名额会缩减，所以建议想从事cv的同事尽量挑选李业务线比较近的部门，比如阿里的电商部门(打个小广告，我们部门还有招聘名额，欢迎有意向点同事发简历到 hengshan.jhs@alibaba-inc.com)。关于nlp，现在算法几乎都是bert，transformer，关键看怎么抽象业务问题，由于nlp的落地比cv要好一点，所以nlp找工作确实比cv好找一点。但是nlp内卷也会越来越严重。至于长期cv的走向，可能还得跟学术的发展，可能跨模态检索最近会好过一点，cv一些问题用nlp的transformer可以解决，感觉cv和nlp有统一起来的趋势。

机器学习入坑者：

先来说说学界的写论文，CV领域的难度很小，为啥？

因为：代码开源+数据共享。

就拿目标检测或者图像分割来说，github上面一堆优秀的开源项目，只要一键clone就能省去繁琐的实验流程。

所以，搞CV的同学说：“我在辛辛苦苦做实验！！

”背后的潜台词可能是：“我下载了一份代码，有几个bug，应该是python或者是pytorch的版本不对应造成的，我重装一下框架和cuda吧！！”

或者是潜台词是：“我的数据集格式和这个作者的不太一样，怎么才能读进去呢？”

对于顶刊顶会论文，对于国内大部分的课题组是无关紧要的，只要能发个SCI就算达标了，有些学校只需要发中文核心。毕竟，每年发cvpr的几个实验室，无非就是几个名校和大厂。

对于导师来说，让学生跑CV的实验，数据可靠性也更高。为啥呢？

就拿图像分类问题来说，可以改一改ResNet的层数，然后应用到叶片病害分类、缺陷分类或者是其它的分类任务之中。

实验得到的数据，通过预估甚至都能猜个差不多。比如论文A采用ResNet在工业数据集上获得了88%的分类准确率，某个论文B通过对ResNet的层数进行增加或者删减，或者是采用多尺度的策略，总是可以提升1-2%的准确率。

都说深度学习的结果很玄学，但实际上，数据量充足的情况下总是可以通过提升算力来增强模型的性能。

fwtan：

多看看大佬的slides：Computer Vision: Looking Back to Look Forward, 觉得卷是因为大部分cv从业者未必能把里面的每一页都看懂

爱因斯坦：

cv小菜鸡说下自己的看法。

对于普通从业者来说，CV卷分为在学校卷和在企业卷。在学校卷原因是这个玩意入门门槛低，好发论文，和哪个领域都能排列组合一下，导致做这个的老师变多，进而导致做这个的硕博变多；在企业卷是因为CV资本泡沫还是有一些，各大独角兽吸纳了大量CV人才，之后饼画不下去了，这些人就要一起竞争。NLP看卷不卷同理，我认为是要比CV好不少的，不过难保成为下一个卷起来的方向。

从未来应用角度，感觉CV目标是取代低端重复工作，NLP对应的则是取代人，有点强ai的意思，有点遥远，至少未来感觉CV还是要比NLP应用广阔很多的，无人车/医疗/工业/测绘/ARVR等。

不管是CV还是NLP，都是偏技术线，建议读个博士，或者发几篇顶会，搞这些一个很大好处是可以最大限度发挥自己的科研经历的优势。选择一个领域肯定要有做好的信心嘛，所以虽然CV卷了点，但如果能做好觉得在十年的短期内选CV还是好点的。

个人见解，如有错误还请指正哈

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

CV

CV

+关注

关注
0

文章
53

浏览量
16874
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
46016
深度学习

深度学习

+关注

关注
73

文章
5504

浏览量
121225

原文标题：如何看待计算机视觉未来的走向?

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •639次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •404次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例：一、基于FPG

发表于 10-25 09:22 •240次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •849次阅读

FPGA做深度学习能走多远？

。FPGA的优势就是可编程可配置，逻辑资源多，功耗低，而且赛灵思等都在极力推广。不知道用FPGA做深度学习未来会怎样发展，能走多远，你怎么看。 A：FPGA 在深度

发表于 09-27 20:53

光伏并网柜互感器p1朝哪个方向

光伏并网柜互感器P1朝哪个方向的问题，涉及到光伏并网柜的设计、安装、运行和维护等多个方面。光伏并网柜的基本概念光伏并网柜是一种用于将光伏发电系统产生的直流电转换为交流电，并与电网进行并网的设备

发表于 08-22 09:11 •2295次阅读

深度学习算法在嵌入式平台上的部署

随着人工智能技术的飞速发展，深度学习算法在各个领域的应用日益广泛。然而，将深度学习算法部署到资源受限的嵌入式平台上，仍然是一个具有挑战性的任务。本文将从嵌入式平台的特点、

发表于 07-15 10:03 •1465次阅读

深度学习中的时间序列分类方法

的发展，基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类中的应用进行综述，探讨常用的深度

发表于 07-09 15:54 •985次阅读

基于AI深度学习的缺陷检测系统

在工业生产中，缺陷检测是确保产品质量的关键环节。传统的人工检测方法不仅效率低下，且易受人为因素影响，导致误检和漏检问题频发。随着人工智能技术的飞速发展，特别是深度学习技术的崛起，基于AI深度

发表于 07-08 10:30 •1466次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。

发表于 07-05 09:47 •953次阅读

基于深度学习的小目标检测

）的广泛应用，小目标检测的性能得到了显著提升。本文将详细探讨基于深度学习的小目标检测技术，包括其定义、挑战、常用方法以及未来发展方向。

发表于 07-04 17:25 •914次阅读

深度学习与卷积神经网络的应用

到自然语言处理，深度学习和CNN正逐步改变着我们的生活方式。本文将深入探讨深度学习与卷积神经网络的基本概念、工作原理及其在多个领域的应用，并展望其未

发表于 07-02 18:19 •921次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1305次阅读

fpga和嵌入式应该学哪个

FPGA和嵌入式系统是两个不同的领域，各有其特点和优势，选择学习哪个取决于个人的兴趣、职业目标以及市场需求。

发表于 03-27 14:43 •790次阅读

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。什么是深度

发表于 01-30 15:26 •636次阅读

搜索历史

未来的深度学习应用应该朝哪个方向发力呢，才能做大蛋糕?

评论

NPU在深度学习中的应用

GPU深度学习应用案例

FPGA加速深度学习模型的案例

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

光伏并网柜互感器p1朝哪个方向

深度学习算法在嵌入式平台上的部署

深度学习中的时间序列分类方法

基于AI深度学习的缺陷检测系统

深度学习与nlp的区别在哪

基于深度学习的小目标检测

深度学习与卷积神经网络的应用

深度解析深度学习下的语义SLAM

fpga和嵌入式应该学哪个

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！