0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域

CVer 来源:AI Around 2023-07-10 15:26 次阅读

本文将为大家介绍CVPR 2023年最佳论文两篇中的Visual Programming: Compositional visual reasoning without training (视觉编程:无需训练的组合式视觉推理),代码已开源。

16ef7da6-1ec7-11ee-962d-dac502259ad0.png

Title:

VisualProgramming:Compositionalvisualreasoningwithouttraining

Paper:

https://openaccess.thecvf.com/content/CVPR2023/html/Gupta_Visual_Programming_Compositional_Visual_Reasoning_Without_Training_CVPR_2023_paper.html

Code:

https://github.com/allenai/visprog

01

/导读/

VISPROG是一种神经符号方法,可利用自然语言指令解决复杂的组合式视觉任务。VISPROG避免了任何特定于任务的训练需求。相反,它利用大型语言模型的上下文学习能力生成类似Python的可组合程序,这些程序将被执行以获得解决方案和全面可解释的推理结果。生成的程序的每一行可以调用多个现成的计算机视觉模型、图像处理子程序或Python函数以生成中间输出,后续程序部分可以使用这些中间输出。在四项不同的任务中展示了VISPROG的灵活性:组合式视觉问答、基于图像对的零样本推理、实际知识对象标注和语言引导图像编辑。类似VISPROG这样的神经符号方法是扩展人工智能系统范围、为人们提供执行复杂任务的有效途径。

1710c09c-1ec7-11ee-962d-dac502259ad0.png

VISPROG是一种可组合和可解释的神经符号系统,用于进行组合式视觉推理。给定自然语言指令和高层次程序的几个示例,VISPROG利用GPT-3的上下文学习功能针对任何新指令生成程序,并在输入的图像上执行程序以获取预测结果。VISPROG还将中间输出总结为可以解释的视觉说明。

02

/模块/

VisProg目前支持20个模块,可实现图像理解、图像操作(包括生成)、知识检索和算术和逻辑操作等能力。在这里显示的红色模块是使用经过训练的最先进神经模型实现的,而蓝色模块是使用多种Python库(如PIL、OpenCV和AugLy)实现的非神经Python函数。

174af37a-1ec7-11ee-962d-dac502259ad0.png

在VISPROG中,每个模块都被实现为一个Python类,见下述代码,其具有以下方法:

(i)解析行以提取输入参数的名称和值以及输出变量的名称;

(ii)执行必要的计算,可能涉及训练过的神经模型,并更新程序状态以获得输出变量的名称和值;

(iii)使用HTML方式以可视方式总结该步骤的计算(用于创建visual rationales)。

要向VISPROG添加新模块,只需要实现并注册一个模块类,程序的执行使用该模块将由VISPROG解释器自动处理。

1774fae4-1ec7-11ee-962d-dac502259ad0.png

03

/VISPROG中的程序生成/

VisProg通过向LLM GPT-3提供指令及其相关的示例指令和对应程序,来生成程序。与以前的方法如神经模块网络(Neural Module Network)不同,VisProg利用大规模语言模型的上下文学习能力来生成程序,而不是使用预先定义的模块。这使生成的程序更加灵活且能够处理更多的组合式视觉任务。

179e0772-1ec7-11ee-962d-dac502259ad0.png

04

/可解释性/

VisProg不仅生成高度可解释的程序,还通过将每个步骤的输入和输出的摘要拼接在一起生成visual rationales,以帮助理解和调试程序执行期间的信息流。下面是两个visual rationales的示例。

使用自然语言进行图像编辑

17fd64f6-1ec7-11ee-962d-dac502259ad0.png

关于图像对的推理(自然语言视觉推理)

1867dd7c-1ec7-11ee-962d-dac502259ad0.png

04

/结果可视化/

在组合式视觉问答、基于零样本的图像对推理(仅使用单张图像VQA模型)、实际知识对象标记和语言引导的图像编辑等复杂视觉任务上展示了VisProg。下图展示了VisProg在对象标记和图像编辑任务上的能力。

1895ef0a-1ec7-11ee-962d-dac502259ad0.png

更多关于所有任务的定性结果以及相应的视觉说明,包括由于程序生成中的逻辑错误或模块预测错误而导致的失败案例,请根据下面链接下载查阅:

https://openaccess.thecvf.com/content/CVPR2023/supplemental/Gupta_Visual_Programming_Compositional_CVPR_2023_supplemental.zip

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2545

    浏览量

    46766
  • 人工智能
    +关注

    关注

    1783

    文章

    45191

    浏览量

    232526
  • python
    +关注

    关注

    53

    文章

    4709

    浏览量

    83711

原文标题:CVPR 2023 最佳论文!VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人工智能是什么?

    的阶段。阻碍前行的因素很多,要攻克的技术难点也很多,但这些问题在人工智能领域的专家来看,技术的积累都只是时间问题,对人工智能技术做更进一步剖析的话,其实就是“算法”+“海量数据”。
    发表于 09-16 15:40

    未来的人工智能技术趋势是什么?

    随着Google、Microsoft和Facebook等巨头的大力投入,深度学习正在超越机器学习,人工智能来势凶猛。那么,如今人工智能最热门的技术趋势是什么?黑匣认为,复杂神经网络、L
    发表于 12-23 14:21

    人工智能事实上是一种生物进化历程的压缩

    ,执行化合生命体无法执行的或复杂或规模庞大的任务等等。值得一提的是,机器翻译是人工智能的重要分支和最先应用领域。不过就已有的机译成就来看,机译系统的译文质量离终极目标仍相差甚远;而机译
    发表于 03-08 10:56

    百度总裁:百度在人工智能领域已有重大突破

      随着阿法狗大战李世石,人工智能引发越来越多的关注。百度总裁张亚勤28日表示,百度长期坚持技术创新,2015年研发投入超过100亿元,目前在人工智能领域已有重大突破。  张亚勤在天津夏季达沃斯论坛
    发表于 07-01 15:22

    人工智能已经进入医疗领域

    方式保存起来,当需要的时候在一定的授权下能够很快的调回使用,同时增加一些辅助诊断管理功能。如今,随着人工智能技术的逐步兴起,为放射科医生提高工作效率提供了更多可能。通过人工智能算法,机器可以自动读取
    发表于 05-24 15:07

    人工智能到底用 GPU?还是用 FPGA?

    `我思故我在 亮出你的观点自从类神经网络算法可以用强大的运算能力加以模拟之后,强人工智能才开始出现。即便如此,目前 CPU 的运算能力来讲,模拟类神经网络算法的代价非常之大,于是有人
    发表于 08-23 15:42

    人工智能和机器学习的前世今生

    可以交替使用的概念,这或多或少地加重了与这些概念相关联的已经存在的混淆程度。让我们领会这些概念,直截了当地理解它们的内涵和之间的细微差别。人工智能是一个比机器学习更广泛的概念。它是关于人类的认知
    发表于 08-27 10:16

    全语音人工智能AI耳机,或引爆智能耳机市场

    ,阿里巴巴集团董事局主席马云人工智能重新定义为:未来的一种生活方式人工智能正在改变一切,在未来将会颠覆所有的商业应用,影响每一个人的生活。那么,当
    发表于 11-02 11:55

    人工智能:超越炒作

    。对于人工智能用例在当前物联网环境中变为现实,必须满足三个条件:非常大的真实数据集具有重要处理能力的硬件架构和环境开发新的强大算法和人工神经网络(ANN)充分利用上述内容很明显,后两
    发表于 05-29 10:46

    人工智能后续什么形式发展?

    从2014年开始,人工智能逐渐成为科技领域最热门的概念,被科技界,企业界和媒体广泛关注。作为一个学术领域人工智能是在1956年夏季,
    发表于 08-12 07:53

    人工智能的应用领域有哪些?

    ` 本帖最后由 cdhqyj 于 2020-10-23 11:09 编辑 人工智能的应用领域有哪些?人工智能的定义可以分为两部分,即“人工”和“
    发表于 10-23 11:07

    中国人工智能的现状与未来

    中国人工智能的现状与未来,人工智能是目前最火热的技术领域,也是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,数学、心理学,甚至哲学。人工智能是包括十分
    发表于 07-27 06:40

    什么是人工智能、机器学习、深度学习和自然语言处理?

    ,机器人现在可以与具有多任务处理能力的人类工作者一起工作。计算机视觉、传感器网络和人工智能广泛应用于数控机床和装配线,减少误差,实现自动修正和提高生产率。交通: 基于应用程序的出租车
    发表于 03-22 11:19

    《移动终端人工智能技术与应用开发》人工智能的发展与AI技术的进步

    人工智能打发展是算法优先于实际应用。近几年随着人工智能的不断普及,许多深度学习算法涌现,从最初的卷积神经网络(CNN)到机器学习算法的时代。由于应用环境的差别衍生出不同的学习算法:线性回归,分类与回归树
    发表于 02-17 11:00

    神经符号人工智能如何书写未来

    符号人工智能神经网络还是完完全全的两个世界,相互对立。人工智能领域的大佬们常常各执一词,在支持一种方法的同时,必将否定另一种方法。
    发表于 01-07 13:38 2142次阅读