深度探讨VLMs距离视觉演绎推理还有多远？

最近，GPT-4V 等视觉语言模型（VLM）在各种视觉语言任务中取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域，并发现了当前 SOTA 视觉语言模型中尚未暴露的盲点。具体来说，我们利用Raven's Progressive Matrices（RPM）来评估 VLM 仅依靠视觉线索进行多跳multi-hop关系和演绎推理的能力。

我们在三个不同的数据集（包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN）上对几种流行的 VLM 进行了全面评估，这些 VLM 采用了标准策略，如上下文学习、自我一致性(SC)和思维链（CoT）。结果表明，尽管 LLM 在文本推理方面的能力令人印象深刻，但我们在视觉演绎推理方面仍远未达到可比的熟练程度。我们发现，某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外，详细的分析表明，VLMs 在解决这些任务时之所以举步维艰，主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。

https://arxiv.org/abs/2403.04732

Q1: 这篇论文试图解决什么问题？

A：这篇论文试图解决的问题是评估和理解当前最先进的视觉-语言模型（Vision-Language Models, VLMs）在视觉推理任务上的性能，特别是在需要复杂视觉推理能力的挑战性任务上。具体来说，研究者们通过使用Raven's Progressive Matrices（RPMs）问题来测试VLMs在仅依赖视觉线索进行多跳关系和演绎推理的能力。这些任务要求模型能够理解给定的模式、推导出潜在的规则，并使用这些规则来选择缺失模式的正确选项。论文的目标是揭示VLMs在视觉演绎推理方面的局限性，并探讨如何提高它们在这一领域的性能。

Q2: 有哪些相关研究？

A：相关研究包括以下几个方面：

通用大型语言模型（LLM）推理基准：研究者们介绍了多种基于文本的推理任务和基准，用于评估LLMs在不同领域（如常识、数学推理、常识推理、事实推理和编程）的性能。这些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。

视觉推理评估：先前的工作主要集中在视觉问答（VQA）和图像描述等任务上，这些任务涉及回答有关图像的问题或生成视觉内容的自然语言描述。研究人员还检查了模型理解图像中对象的关系和组合方面的能力。CLEVR和SHAPES等数据集评估了计数、比较、逻辑推理和记忆存储等视觉推理能力。

演绎推理：在文本和视觉领域都进行了演绎推理评估和基准测试。例如，GuessWhat?!和ReferIt评估了模型的视觉推理能力。最近，LMRL Gym和Entity Deduction Arena被引入作为评估LLMs执行多轮演绎推理任务的能力的方法。ARC任务与RPMs相似，都需要根据给定的例子正确推断未见的输出。

视觉-语言模型（VLMs）的发展：随着VLMs在视觉推理方面的能力发展，基准测试也在不断进步。新的基准测试，如MMMU和MathVista，测试了模型在图像和视频中模拟人类对场景和对象理解的能力，包括场景文本理解、公式、图表解释、视觉刺激理解、几何推理、空间推理和面部表情理解与推理。

这些研究为评估VLMs在视觉演绎推理任务上的性能提供了背景和基础，同时也指出了当前模型在这一领域的局限性。

Q3: 论文如何解决这个问题？

A：论文通过以下步骤来解决视觉演绎推理的问题：

建立评估框架：研究者们建立了一个系统性的评估框架，用于评估VLMs在RPM问题上的性能。他们选择了包括Mensa IQ测试、IntelligenceTest和RAVEN在内的多样化数据集，并在这些数据集上评估了多个流行的开源和闭源VLMs。

应用标准策略：研究者们尝试了在大型语言模型（LLMs）中有效的标准推理时策略，**如上下文学习（in-context learning）和自我一致性（self-consistency），以探索这些策略在VLMs中的潜力。**

性能瓶颈分析：通过将VLMs的能力分解为感知、演绎推理和假设验证三个部分，研究者们详细诊断了VLMs在RPM任务中的性能瓶颈。他们发现感知是当前VLMs的限制因素，并提供了一个案例研究来突出强VLMs（如GPT-4V）中的特定“盲点”。

问题识别与分析：研究者们识别并检查了当前VLMs在这项任务中的几个问题，包括过度自信、对提示设计的敏感性以及无法有效利用上下文示例。他们通过消融实验研究了不同提示对模型整体性能的影响，并发现模型可以从更结构化的提示中受益。

实验设置：研究者们详细描述了实验设置，包括使用的数据集、比较的模型以及用于生成响应的提示方法。

结果评估：研究者们展示了不同VLMs在各个数据集上的表现，并分析了模型预测的不确定性。他们还探讨了标准策略在视觉演绎推理中的有效性，并讨论了VLMs在感知、推理和假设验证方面的表现。

结论与未来工作：最后，研究者们总结了VLMs在视觉演绎推理任务上的局限性，并提出了未来工作的方向，包括验证VLMs在描述模式时的盲点，以及探索对比学习或强化学习算法来提高模型的视觉演绎推理能力。

通过这些步骤，论文不仅揭示了VLMs在视觉演绎推理方面的当前能力，还为如何改进这些模型提供了见解和建议。

Q4: 论文做了哪些实验？

A：论文中进行的实验主要包括以下几个方面：

数据集评估：研究者们使用了三个不同的Raven's Progressive Matrices (RPMs) 数据集，包括Mensa IQ测试、IntelligenceTest和RAVEN，来评估多个流行的视觉-语言模型（VLMs）的性能。这些数据集涵盖了不同的难度级别和视觉模式。

模型比较：比较了多种代表最先进水平的VLMs，包括GPT-4V、Gemini-pro、Qwen-VL-Max和LLaVA-1.5-13B。这些模型在不同的数据集上进行了性能测试，以评估它们在视觉推理任务上的能力。

推理策略测试：尝试了在大型语言模型（LLMs）中有效的标准推理策略，如上下文学习（in-context learning）和自我一致性（self-consistency），以探究这些策略在VLMs中的效果。

性能瓶颈分析：通过将VLMs的能力分解为感知、演绎推理和假设验证三个部分，研究者们对VLMs在RPM任务中的性能瓶颈进行了详细分析。

感知能力测试：评估了VLMs在理解RPM图像模式方面的能力，包括对图像的描述准确性和对模式的识别。

演绎推理能力测试：通过提供正确的文本描述（oracle descriptions）来测试模型在给定正确信息的情况下的推理能力。

假设验证能力测试：测试了模型在接收到正确的描述和推理（oracle rationale）后，能否有效地生成假设并验证这些假设。

提示格式影响测试：研究了提示的结构（如图像和文本的顺序）如何影响模型的预测性能。

错误描述处理：测试了模型在接收到自身生成的错误文本描述时，是否能够进行有效的推理。

这些实验旨在全面评估VLMs在视觉演绎推理任务上的能力，并识别它们在这一领域的局限性。通过这些实验，研究者们能够深入了解VLMs在视觉推理方面的性能，并为未来的改进提供了方向。

Q5: 有什么可以进一步探索的点？

A：论文提出了几个可以进一步探索的点：

模型训练数据的改进：研究者们提到，VLMs可能主要在真实世界图像上进行训练，这可能导致它们对抽象模式的敏感性降低。未来的工作可以探索在更多样化的RPM数据上进行微调，以提高模型对抽象模式的识别能力。

对比学习和强化学习算法：为了提高VLMs的视觉演绎推理能力，可以探索开发对比学习或强化学习算法，这些算法可能有助于模型更好地理解和推理视觉模式。

感知和推理的结合：研究者们发现，当任务涉及复杂的空间布局和关系推理时，文本信息可能不足以提供最佳性能，而视觉线索可能提供额外的对齐和更好的比较注意力。未来的研究可以探索如何更有效地结合视觉信息和文本线索。

提示结构的优化：论文中提到，VLMs对提示的结构非常敏感。未来的工作可以进一步研究如何设计更有效的提示结构，以提高模型在视觉推理任务上的性能。

模型的不确定性校准：研究者们观察到，即使在预测不确定性较高时，模型也倾向于提供确定性的答案，而不是表达不确定性。未来的研究可以探索如何改进模型的不确定性校准，使其在面对不确定性时能够更准确地表达其置信度。

模型的泛化能力：RPM任务要求模型具有强大的泛化能力，因为每个问题可能有不同的潜在规则。未来的工作可以探索如何提高VLMs在这种少样本学习任务中的泛化能力。

模型的解释能力：研究者们发现，模型在生成解释时可能会产生错误，特别是在复杂任务中。未来的研究可以探索如何提高模型的解释能力，使其能够更准确地生成与视觉线索相匹配的解释。

这些探索点为VLMs在视觉演绎推理领域的未来发展提供了潜在的研究方向。

Q6: 总结一下论文的主要内容？

A：这篇论文的主要内容可以总结如下：

研究背景：论文探讨了视觉-语言模型（VLMs）在视觉推理任务上的性能，特别是Raven's Progressive Matrices（RPMs）这类需要复杂视觉演绎推理的任务。

研究目标：旨在评估VLMs在视觉演绎推理任务上的能力，并识别当前模型的局限性。

实验设计：使用Mensa IQ测试、IntelligenceTest和RAVEN数据集，对多个流行的VLMs进行了全面评估。实验包括了标准策略的应用，如上下文学习和自我一致性。

主要发现：

**VLMs在文本推理任务上表现出色，但在视觉推理任务上仍有显著差距。**

某些在LLMs中有效的策略在VLMs中并不总是有效。

VLMs在感知、演绎推理和假设验证方面存在性能瓶颈，尤其是感知能力。

问题分析：通过详细分析，研究者们发现VLMs在处理RPM任务时，主要问题在于无法准确感知和理解多个复杂的抽象模式。

策略测试：测试了在LLMs中有效的策略在VLMs中的有效性，发现这些策略并不总是能够提高VLMs的性能。

性能提升：研究者们提出了一些可能的改进方向，包括在更多样化的RPM数据上进行微调，以及开发对比学习和强化学习算法。

结论：尽管VLMs在视觉推理任务上取得了一定的进展，但与人类水平相比仍有较大差距。未来的研究需要进一步探索如何提高VLMs在这一领域的性能。

总的来说，这篇论文提供了对VLMs在视觉演绎推理任务上性能的深入分析，并为未来的研究方向提供了指导。

审核编辑：黄飞

阅读全文

语言模型(9992) 语言模型(9992)
大模型(810) 大模型(810)

光耦的传输距离有多远？

2012-05-31 11:07:51

1868

麒麟970参数曝光海思离高通还有多远？

如今有消息称华为下一代旗舰将会搭载麒麟970芯片登场，我们不妨通过曝光的一些规格参数来一场纸上谈兵，看一看华为麒麟距离高通骁龙的距离还有多远？

2016-07-07 01:19:00

93113

电动汽车无线充电技术距离我们还有多远呢？

电动汽车的无线充电技术如今日益成熟，但是在实际应用中依然存在充电效率低、安全性等问题。电动汽车无线充电技术距离我们还有多远呢？

2017-10-19 15:59:45

7940

腾讯市值累计蒸发1500亿美元，离触底反弹还有多远？

据彭博社北京时间8月15日报道，腾讯控股公司曾是亚洲最热门股票，现在，腾讯的投资者正设法弄明白它距离触底反弹还有多远。自从在今年1月份创下股价最高点以来，腾讯股价已累计下跌逾25%，市值已经累计蒸发了1500亿美元以上，股东失去的财富在全球最多。

2018-08-15 09:38:06

2639

成为超算强国，中国还有多远的路要走？

近年来，中国超算取得了举世瞩目的进步，但在取得辉煌成绩的背后，我们也应清醒的意识到，中国距离真正意义上的超算强国还有相当长的一段路要走。

2019-06-13 17:57:51

652

3D TOF深度剖析

这段时间以来，最热的话题莫过于iPhone X的Face ID，关于用它刷脸的段子更是满天飞。其实iPhone X 实现3D视觉刷脸是采用了深度机器视觉技术(亦称3D机器视觉)。由于iPhone X的推动，3D视觉市场或许将被彻底的激活。

2019-07-25 07:05:48

5G离我们还有多远？

商用实验。5G是什么？离我们还有多远？规模商用还有哪些问题要解？中国与世界领先水平有多大差距？　　一、5G是什么？　　第五代移动电话行动通信标准，也称第五代移动通信技术，外语缩写：5G，也就是4G

2019-01-13 15:27:48

探讨一下深度学习在嵌入式设备上的应用

下面来探讨一下深度学习在嵌入式设备上的应用，具体如下：1、深度学习的概念源于人工神经网络的研究，包含多个隐层的多层感知器(MLP) 是一种原始的深度学习结构。深度学习通过组合低层特征形成更加抽象

2021-10-27 08:02:31

深度剖析OpenHarmony AI调度管理与推理接口

1 简介AI任务管理与统一的推理能力提供了接口的统一标准系统上CPU提供了AI任务调度管理的能力，对AI的能力进行了开放的推理和推理，同时，提供了一个不同的生命周期框架层级的应用程序。推理接口

2022-03-25 11:15:36

深度学习推理和计算-通用AI核心

摘要与深度学习算法的进步超越硬件的进步，你如何确保算法明天是一个很好的适合现有的人工智能芯片下发展？，这些人工智能芯片大多是为今天的人工智能算法算法进化，这些人工智能芯片的许多设计都可能成为甚至在

2020-11-01 09:28:57

深度学习与传统计算机视觉简介

文章目录1 简介1.1 深度学习与传统计算机视觉1.2 性能考量1.3 社区支持2 结论3 参考在计算机视觉领域中，不同的场景不同的应用程序需要不同的解决方案。在本文中，我们将快速回顾可用于在

2021-12-23 06:17:19

深度学习中的机器视觉（网络压缩、视觉问答、可视化等）

于捕获长距离依赖的常用技巧，也可以用于看图说话。在解码网络中，每个时刻，除了预测下一个词外，还需要输出一个二维注意力图，用于对深度卷积特征进行加权汇合。使用注意力机制的一个额外的好处是可以对网络进行

2019-07-21 13:00:00

深度学习在计算机视觉领域图像应用总结精选资料下载

简单的回顾的话，2006年Geoffrey Hinton的论文点燃了“这把火”，现在已经有不少人开始泼“冷水”了，主要是AI泡沫太大，而且深度学习不是包治百病的药方。计算机视觉不是深度学习最早看到

2021-07-28 08:22:12

深度数据输出具有许多零距离

/ align-depth2color.py·IntelRealSense / librealsense·GitHub结果，深度数据输出具有许多零距离和不连续（sparce）。但是没有使用我写的“对齐”代码，深度数据输出几乎没有零距离。这种

2018-10-11 14:22:07

Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

机器学习 (ML) 是云和边缘基础设施中增长最快的部分之一。在 ML 中，深度学习推理预计会增长得更快。在本博客中，我们比较了三种 Amazon Web Services (AWS) EC2 云实例

2022-08-31 15:03:46

Dllite_micro （轻量级的 AI 推理框架）

DLLite-Micro 是一个轻量级的 AI 推理框架，可以为 OpenHarmony OS 的轻量设备和小型设备提供深度模型的推理能力DLLite-Micro 向开发者提供清晰、易上手的北向接口

2021-08-05 11:40:11

TI的射频模块MSP-EXPCC430RF4的传输距离有多远?

2016-03-09 10:21:10

USB3.0的传输距离的问题

USB3.0在不接中继的前提下，可以有多远的一个传输距离

2019-12-19 09:41:44

[求助]无源电子标签的识别距离最远能多远？

问一哈，无源电子标签的识别距离最远能多远？

2010-11-03 13:58:22

labview实现深度学习，还在用python？

uvision平台进行测试。训练2000步后样本包含训练集和测试集（未参与训练，比例15%），总体识别率达到99.669%。请关注我们，一起探讨视觉相关话题，分享深度好文。龙哥手把手教您LabVIEW视觉

2020-07-23 20:33:10

labview测试tensorflow深度学习SSD模型识别物体

文件调用labview深度学习推理函数完成识别以上是识别动物和人等物体的labview识别效果。龙哥手把手教您LabVIEW视觉设计课程火热上线！！详情可点击下方链接进行查看：http://t.elecfans.com/c801.html

2020-08-16 17:21:38

与opencv的精确深度距离

确切的深度信息？输入当前的x，y coords会有什么帮助吗？例如，我有该边界框的x，y中点坐标，现在我希望获得x，y中点的深度距离。以上来自于谷歌翻译以下为原文Hi Guys

2018-10-17 11:50:27

什么是深度学习？使用FPGA进行深度学习的好处？

准确的模型。有了上述机制，现在可以通过让神经网络模型学习各种问题来自动解决问题，创建高精度模型，并对新数据进行推理。然而，由于单个神经网络只能解决简单的问题，人们尝试通过构建深度神经网络 (DNN

2023-02-17 16:56:59

从城市到家庭，智能生活离我们还有多远

科技创业者的狂欢，在决赛当天，现场举办了一场名为“从城市到家庭，智能生活离我们还有多远”的主题论坛。其中，海尔智慧家庭创新总监邹恒浩、清华大学物联网中心主任赵滨，中科院遥感地球所的研究员彭玲，与智能家居

2016-08-25 19:34:27

基于Xilinx FPGA的可编程城市离我们还有多远？

2021-05-21 06:00:40

大讲坛：无线AP的覆盖距离有多远

作为专业的无线产品和方案提供商，丰润达经常遇到过这样的咨询：你们的AP能覆盖多大范围/多远距离？客户对于这个问题的理解非常简单，但从专业的角度讲，却并不简单。AP信号覆盖的范围和距离更多取决于AP

2016-08-08 17:09:15

无线网桥的传输距离跟天线有关吗？

在选购无线网桥时，很多人非常关心无线网桥的传输距离，认为传输距离远的性能更好。那么无线网桥的传输距离有多远？有哪些因素影响呢？一般来说，无线网桥的传输距离从1~100公里不等，比较常用的在2~5公里

2017-02-08 16:06:37

最远的激光测距，能够测量多远的距离？

2015-12-16 07:53:30

解析深度学习：卷积神经网络原理与视觉实践

2020-06-14 22:21:12

计算机系统的组成及工作原理

来讲，机器适合大数据统一性的工作，适合演绎推理类问题，而不适合逻辑推理类问题，但由于人工智能的兴起，特别是深度学习的提出，机器几乎可以适合所有工作。④、计算机：计算出要解决的问题的答案的机器。两个著名问题：有没有一种机器帮我们将各种要解决的问题“算”出来？什么样的机器可以做这样的事情？⑤、可计算与不可

2021-12-22 07:41:05

请问TI的CC2531 USB Dongle的通讯距离有多远？

本帖最后由一只耳朵怪于 2018-6-4 09:57 编辑我就问个简单的问题，TI的CC2531 USB Dongle的通讯距离有多远？我参考TI的CC2531 USB Dongle画了

2018-06-01 07:54:14

请问nrf24l01通讯的距离是多少？

请教原子，nrf24l01通讯的距离你试过吗？大概能达到多远？

2020-06-13 09:00:33

请问不加PA的CC2530模块传输距离最大有多远？

不加CC25921等PA芯片的CC2530模块传输距离最大有多远？如果加入PA芯片，传输距离又会有多大的提升呢？为什么网络上宣传的信息都写的是传输距离可达几百米，甚至几千米，但是从来没有见过传输距离

2018-08-09 08:51:47

请问有谁知道TI官方的射频模块MSP-EXPCC430RF4的传输距离有多远？

本帖最后由一只耳朵怪于 2018-6-6 17:17 编辑请问各位老师，TI官方的射频模块MSP-EXPCC430RF4的传输距离有多远，谢谢！

2018-06-06 06:56:46

请问波特率设置为115200蓝牙传输距离能有多远

波特率设置为115200能传多远？稳定吗？

2019-02-14 06:35:41

请问计算机视觉与深度学习要看什么书？

计算机视觉与深度学习，看这本书就够了

2020-05-21 12:43:42

龙哥手把手教你学视觉-深度学习YOLOV5篇

本帖最后由 wcl86 于 2021-9-9 10:30 编辑购买前添加助教了解课程详细介绍助教微信：***（备注：深度）助教木木：***课程详情请联系助教了解哦~《龙哥手把手教你学视觉

2021-09-03 09:39:28

P2P网络中基于模糊推理的信任综合评判

针对P2P 网络环境下实体之间的信任关系存在模糊性的特点，以模糊推理理论为基础，给出了一种基于信任的模糊命题演算的演绎系统，建立了P2P 网络环境下的一种基于三I 模糊推理算法

2012-04-23 15:43:57

中国2016最热门应用和技术盘点，看到第3条就惊呆了！

2016年，中国最为热门的应用和技术有哪些？这些热门应用和技术距离我们的生活还有多远？##2016年，中国最为热门的应用和技术有哪些？这些热门应用和技术距离我们的生活还有多远？##2016年，中国最为热门的应用和技术有哪些？这些热门应用和技术距离我们的生活还有多远？

2016-05-10 17:39:11

2416

工业4.0是什么？我们离工业4.0还有多远距离？

而就在“工业4．0”概念席卷全球，各类相关演讲、论坛、沙龙接连不断地举办，业内业外都在热切讨论之时，我们是否思考过真正的工业4．0到底距离我们有多远？智能化热潮涌动认清现状是核心

2017-04-20 14:06:01

2247

驾考难度大升级!10月1日起实施新规,驾考难度的提升使我们距离中国出现的共享宝马还有多远?

　随着共享经济的发展，前几天中国首次出现了共享宝马再次遭来了人们的关注，然而共享宝马还没有进一步落实。就在昨天，驾校又爆出了新规，10月1日将正式实行驾校新规，对于还没有考到驾照的人来说，共享宝马还有多远呢？

2017-08-17 08:39:39

63754

基于IoT设备的CNN推理机实现深度学习方案

通过深度学习技术，物联网（IoT）设备能够得以解析非结构化的多媒体数据，智能地响应用户和环境事件，但是却伴随着苛刻的性能和功耗要求。本文作者探讨了两种方式以便将深度学习和低功耗的物联网设备成功整合

2017-12-01 11:22:01

1083

距离太阳能无人机提供网络服务还有多远？

尝试用无人机去做一些更加高端、甚至能够造福全人类的事情了。距离太阳能无人机提供网络服务还有多远？今天，据外媒报道，美国波音公司在几周前提交了一份专利申请，该专利内容为太阳能动力飞机，在专利文件中，波音将其

2018-01-23 07:31:44

188

LoRa无线模块怎么用通信距离可传输多远

LoRa无线模块通信距离可以传输多远LoRa无线模块通信距离受到使用环境、发射功率、灵敏度、干扰等因素的影响，因此不同功率的模块在不同环境下使用通信距离都是不一样的。LoRa模块通信距离可达到8千米以上，能够解决复杂中的超远距离通信的问题。

2018-07-13 10:51:00

25113

中国无人驾驶汽车离上路还有多远

22日，北京发放首批自动驾驶车辆路测牌照。最近一个月，上海、重庆等地相继开放自动驾驶汽车上路实测…… 中国 “无人”驾驶汽车的技术成熟吗？离真正上路还有多远？安全如何保证？围绕这些社会

2018-03-25 08:38:00

4321

Zerotech Dobby AI无人机与DeePhi的深度学习推理技术介绍

Zerotech Dobby AI是一款口袋大小的无人机，它使用深度学习来检测由Xilinx Zynq SoC器件驱动的人体手势。该演示还将展示DeePhi的深度学习推理技术。

2018-11-26 06:21:00

2086

智慧交通离我们还有多远

疲劳驾驶将会触发预警系统、设定路线汽车就能无人驾驶、交通信号灯能根据车流量做出调整，人工智能正在改变传统的驾驶行为。第十九届中国国际高新技术成果交易会近日在深圳落下帷幕，在本届高交会上，人工智能与城市交通的深度融合受到了参观者关注：实现了无人驾驶，智慧交通离我们还有多远？

2018-12-05 15:48:21

3227

5G商用和5G应用还有多远

5G商用还有多远？这个问题不太好回答，“标准答案”应该是2020年。那么5G应用还有多远？近在眼前。

2018-12-15 10:22:33

3162

依图挺入“AI芯片”赛道新产品“求索”视觉推理能力超越英伟达

算法即芯片时代来临，云端AI芯片视觉推理超越英伟达

2019-05-11 10:30:27

3056

换脸、换脑子、卖肾,器官打印离我们还有多远?

器官打印到底离我们有多远？

2019-06-10 09:40:51

2810

视觉智能距离人类的视觉感知还有多远

第三代人工智能最重要的是提高可靠性、可解释性和安全性，以弥补现有的人工智能算法的缺陷。

2019-06-24 14:51:30

1432

你离智能制造还有多远的距离

制造企业“数据王国”的搭建，不应局限于繁琐的数据孤岛，而是需要创造一个数据海洋。

2019-06-27 10:37:14

456

温馨提示：距离恢复原价还有不到2天！

2020-02-28 14:25:37

2187

智能照明离真正落地还有多远？

智能照明离真正落地还有多远？“目前，有些迷茫。”不少照明厂商在谈到当前照明产业形势时说到。随着终端需求的疲软，照明厂商头上普遍笼罩着一层阴云。

2019-08-02 10:06:05

4131

自动驾驶汽车离真正上路究竟还有多远

过去几年间，自动驾驶是被无数创业者和投资机构追逐的热门赛道，可称之为人工智能行业“皇冠上的明珠”。但普通人关注的问题是自动驾驶具体真正上路还有多远？

2019-09-01 09:09:14

1199

视觉SLAM深度解读

了单目视觉的许多麻烦。不过，双目或多目相机配置与标定均较为复杂，其深度量程也随双目的基线与分辨率限制。通过双目图像计算像素距离，是一件非常消耗计算量的事情，现在多用FPGA来完成。RGBD相机是2010

2019-09-11 22:01:35

1759

我们距离VR增强沉浸体验还有多远

VR行业的发展离不开VR硬件的支持。为了能给用户带来更好的沉浸感，除了常见的VR头显以外，还有用于辅助的VR外设。

2019-09-25 09:44:48

682

我国航空业离美国的差距还有多远

在民航强国建设全面推进的关键时期，作为民航人，我们有必要看一看我们距离全球民航第一强国美国的差距还有多远？

2019-11-04 11:25:29

3140

英特尔推出视觉推理新杀器，性能已超越英伟达

英特尔在旧金山举行2019人工智能峰会，推出代号为Keem Bay的下一代Movidius VPU，可用于边缘媒体、计算机视觉和推理应用，并计划于明年上半年上市。

2019-11-13 17:32:32

3035

企业距离真正的AI还有多远的距离

AI通过使用类似人类的智能来确定问题的最佳解决方案。除了寻找数据中的趋势外，AI还会吸收并结合其他来源的信息以得出合理的答案。

2019-12-26 11:53:34

385

无线技术的发展距离未来的无线电力还有多远

据《参考消息》的新闻报道说，沃尔玛正在同奥西亚公司合作，开发了一种“远距离充电”技术，并称之为“隔空充电”。

2020-01-13 14:03:01

784

我们距离5G汽车的普及究竟还有多远

5G可能还有很长的路要走，但其在联网汽车应用中的潜力已经毫无疑问。什么是5G汽车？为了解决联网汽车中的第五代无线问题，“ 5G汽车”被提了出来。

2020-03-12 14:11:36

2138

高体积高能量密度的锂硫电池离商业应用还有多远

高体积高能量密度锂硫电池离商业应用还有多远锂硫电池具有较高的理论能量密度，2654Wh/kg和2800Wh/L，是传统锂离子电池理论能量密度的五倍以上。

2020-03-19 14:09:57

4033

实现家居智能物联到底离我们还有多远

在网络都已经到5G的今天，我还听到有些人说家居物联很难很复杂，所以今天笔者就来和大家一起讨论下，家居物联距离我们到底有多远。

2020-04-26 17:20:06

3132

智能网联汽车离我们还有多远？

最近一段时间，多地持续开放自动驾驶道路测试范围。已开放载人测试许可的有北京、上海、广州、长沙、武汉、沧州6个城市。智能网联汽车离我们还有多远？城市建设自动驾驶环境还面临哪些问题？产业生态如何构建……记者就此采访了有关专家和业内人士。

2020-09-14 09:19:06

1615

v-slam导航技术离成为主流还有多远

v-slam导航技术离成为主流还有多远？大数据时代正在催化更多柔性化与智能化兼具的升级物流设备，在工业应用移动机器人（AGV/AMR）行业，以工业相机作为感测器的视觉导航技术由于更适合智慧物流

2020-10-30 09:41:41

1904

中芯国际离台积电等世界一流企业还有多远？

11月12日，中芯国际第三季度财报电话会议上，中芯国际联合CEO梁孟松表示，目前14nm量产良率已达业界量产水准，但距离世界一流企业，还有一定的技术差距，还有很长的路要走。

2020-11-13 10:11:49

1437

什么是全息投影技术,全息投影技术距离我们还有多远

提到全息投影，大家首先会想到演出中的类似场景，最著名的就是日本虚拟偶像初音演唱会。但遗憾的是，这种显示方式只是一种视觉欺骗，距离真正意义上的全息投影还相去甚远，那我们现在距离真全息投影还有多远呢？

2020-11-30 09:41:04

3785

什么是全息投影技术？我们距离真全息投影还有多远？

提到全息投影，大家首先会想到演出中的类似场景，最著名的就是日本虚拟偶像初音演唱会。但遗憾的是，这种显示方式只是一种视觉欺骗，距离真正意义上的全息投影还相去甚远，那我们现在距离真全息投影还有多远

2020-12-01 11:16:00

3581

浅谈阿里轻量级的深度神经网络推理引擎MNN

MNN是一个轻量级的深度神经网络推理引擎，在端侧加载深度神经网络模型进行推理预测。作者：开心的派大星首发：微信公众号：NeuroMem转自...

2020-12-10 19:29:18

615

自动驾驶大规模落地离我们还有多远？

的一个观点：自动驾驶大规模商用，离我们还有多远？ 01 2020年，自动驾驶的黄金年份自动驾驶发展至今可以分为三个阶段，从最开始的代表人类尖端科技，赚足眼球;随后资本短期内看不到量产希望，逐渐趋于冷静;最后就是近一两年政策开始引导，自动

2020-12-16 10:16:55

1795

基于计算机视觉和NLP的跨媒体问答与推理

基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点其目的是基于给定的视觉内容和相关问题，模型能够返回正确的答案。随着深度学习的飞速发展及其在计算杋视觉和自然语言处理领域的广泛应用，基于视觉

2021-04-08 10:25:33

安霸在2021嵌入式视觉峰会探讨光学深度感知技术

，主要探讨了三种主流的光学深度感知技术：双目立体视觉、ToF（飞行时间）传感器，和结构光传感器。Dinesh Balasubramaniam 的演讲主题为：仅有二维是不够的--光学深度感知技术概述

2021-06-23 16:08:40

1680

深度解读嵌入式视觉的几个典型应用

引言如何做AI视觉应用的嵌入式部署分为硬件选型，软件框架和优化的选择，模型算法的设计三大板块。 AI视觉应用云端部署VS嵌入式端部署大家其实对于AI深度学习已经很熟悉了，我们在服务器上就可以

2021-09-23 16:38:44

1914

元宇宙离我们还有多远

最近元宇宙话题真是太热门了，许多科技巨头都已经入局了元宇宙，许多人认为元宇宙是虚拟世界和现实世界融合的载体，那么宇宙离我们还有多远呢？元宇宙能给我们带来物理世界和数字世界的深度融合，同时元宇宙还会

2021-11-04 10:00:00

2002

双目立体视觉深度测量步骤介绍

深度信息恢复是计算机视觉领域的一个重要研究内容。使用传统的光学成像系统对不同距离的物体成像时，需要机械移动会造成图像放大率变化，导致深度测量产生误差。近年来，电控调焦的液晶透镜光学成像系统已实现对焦、变焦、深度测量等功能，利用液晶透镜光学成像系统进行双目立体视觉深度测量可以扩张双目深度测量范围。

2022-06-14 13:43:18

2266

用于加速嵌入式视觉和推理的开放标准

　　OpenCL 最初是为在高端 PC 和超级计算机硬件上执行而设计的，但在与 OpenVX 类似的演变过程中，需要 OpenCL 的处理器越来越小，精度也越来越低，因为它们以边缘视觉和推理为目标。

2022-08-15 14:13:22

889

基于AdderNet的深度学习推理加速器

电子发烧友网站提供《基于AdderNet的深度学习推理加速器.zip》资料免费下载

2022-10-31 11:12:28

高压放大器在复合视觉的深度测量技术中的应用

2022-11-02 15:00:44

440

基于深度学习的视觉检测系统的特点及应用

在深度学习算法出来之前，对于视觉算法来说，大致可以分为以下5个步骤：特征感知，图像预处理，特征提取，特征筛选，推理预测与识别。早期的机器学习中，占优势的统计机器学习群体中，对特征是不大关心的。

2022-11-24 14:55:15

1296

大规模推理时代深度学习加速的天花板在哪？

人工智能迎来第三次浪潮后，以深度学习为代表的AI已经进入应用阶段。而深度学习 AI 需要进行大量矩阵乘法以训练神经网络模型，并利用推理将这些模型应用于实际任务。

2022-12-15 10:51:11

516

单目视觉深度估计测距的前生今世

还有深度学习能够更多的引入人类知识和简单可靠的推理，以减少“暴力“学习的误差和错误，比如贝叶斯理论，知识图谱，逻辑推理，符号学习，多任务联合训练和迁移学习等等。

2023-01-06 15:42:04

623

科技零距离 | 视频讲解数字孪生离5G还有多远？

什么是数字孪生？数字孪生只是工业领域的“独角戏”吗？数字孪生离5G研发还有很远吗？哪些场景应用数字孪生会对5G发展产生助力？ 3月2日，科技零距离第4期开播，资深无线测试专家针对数字孪生的概念

2023-04-12 07:35:05

479

计算机视觉深度学习训练推理框架

PyTorch是由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库，也是目前使用范围和体验感最好的一款深度学习框架。

2023-05-08 14:20:58

774

我们离OpenAI还有多远？

此后，业界最关注、最有争议的话题之一，openai中国内大型模型有多远？对企业家的2、3个月、2、3年的推测动摇了网络。最近，在与不同领域相关从业人员的交流中，第一财经发现，尽管有一些乐观的看法，但身处一线的研究者还是比较慎重的。

2023-05-31 14:22:58

694

同轴电缆传输距离有多远？可以支持多少兆

　　同轴电缆是指有两个同心导体，而导体和屏蔽层又共用同一轴心的电缆。那么，同轴电缆传输距离有多远?可以支持多少兆?下面科兰小编来聊聊。

2023-06-06 09:46:08

3122

工业路由器的Wi-Fi的传输距离多远

工业路由器的Wi-Fi的传输距离多远？相信很多人都想对此有所了解，一款工业级的路由器，在理论上的无线传输距离大概在100-300米左右，但为什么要说是理论上的传输距离呢？因为路由器的传输距离要视周围

2022-05-17 17:40:46

577

双目立体视觉是什么？单目视觉与双目立体视觉的区别？

双目更多的是基于物理测量，而单目视觉则是基于逻辑推理，通过大量的数据训练，先识别出目标，再根据目标的大小和高度估算距离。因此，单目视觉的漏检率高于双目立体视觉，因为客观上存在corner case。

2023-08-17 09:40:06

2171

深度学习框架区分训练还是推理吗

深度学习框架区分训练还是推理吗深度学习框架是一个非常重要的技术，它们能够加速深度学习的开发与部署过程。在深度学习中，我们通常需要进行两个关键的任务，即训练和推理。训练是指使用训练数据训练神经网络

2023-08-17 16:03:11

906

手机拍照离光学变焦还有多远

电子发烧友网站提供《手机拍照离光学变焦还有多远.doc》资料免费下载

2023-11-02 11:28:17

雷达模块支持多远的感应距离

雷达模块支持多远的感应距离雷达模块是一种使用无线电波进行距离测量和目标检测的设备。它广泛应用于航空、航天、军事、车辆导航、智能交通系统等领域。不同类型的雷达模块可以实现不同的感应距离。本文将详细

2023-12-12 15:06:49

351

一文了解3D视觉和2D视觉的区别

，3D视觉与2D视觉最明显的区别在于立体感。2D视觉只有两个维度，即宽度和高度；而3D视觉则具有额外的深度维度。通过模拟真实世界中的第三个维度，3D视觉能够给观众带来更加逼真和立体的感觉。在3D电影中，观众能够感受到物体离自己有多远，以及

2023-12-25 11:15:10

366

已全部加载完成

搜索历史

深度探讨VLMs距离视觉演绎推理还有多远？

评论