0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博士生范丽凤可让机器识别视频人物的心智想法

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-23 14:15 次阅读

这几天,计算机视觉和模式识别领域的顶级会议 CVPR 2021(Computer Vision and Pattern Recognition)正在火热进行中,刚刚从加州大学洛杉矶分校(UCLA)博士毕业的石家庄女生范丽凤,提及此次被录用的论文表示:“在 CV 和 AI 领域,中国人的贡献和力量是毋庸置疑和不容小觑的。”

在最终评审中她获得了接近满分的成绩,三位审稿人中两位给了 “Strong Accept”,一位给了 “Accept”。

范丽凤是计算机视觉大牛朱松纯教授的博士生。2020 年,朱松纯全职回国并入职北大,还牵头成立了北京通用人工智能研究院,一度曾在国内引起过热议。

最近刚刚博士毕业的范丽凤也即将跟随导师朱松纯教授回国工作,其表示:“朱老师肯定希望我们可以回去支持国内的 AI 事业,我自己也觉得国内有巨大的发展空间,也更喜欢国内的文化环境,并且在朱老师的研究院我还可以继续推进一直以来的研究工作,这是一个很好的机遇。”

范丽凤本科和博士期间学的都是统计学。2012 年,她从河北辛集中学考入浙江大学数学科学学院,主修统计学,在四年的本科学习训练中掌握了统计建模和编程实现的基本能力。

2015 年大三暑假,她参加了 UCLA-CSST 暑期科研训练项目,在 Hongjing Lu 教授(UCLA 心理系和统计系教授)的指导下开展了一项关于动作识别的研究。自那时起,范丽凤开始对计算机视觉产生了浓厚的兴趣。

项目快结束时,她特意写邮件并去实验室拜访了时任 UCLA 统计系和计算机科学系教授的朱松纯。经过交谈,朱教授鼓励她多读实验室的相关论文、多学点计算机视觉的基础课程,为进行科研打下坚实的基础。

回到浙大后,范丽凤利用大四的时间,积极主动修习了计算机视觉的相关课程,阅读了一些基础的专业书籍和论文。经过再三考虑,她下定决心申请了朱教授的博士,最终如愿获得了录取,来到 UCLA VCLA 实验室进行了为期五年的博士生科研训练,获得了巨大的成长。

基于真实视频,研究高级 AI 任务

谈及本次论文的立项原因,她表示是因为朱教授一直都在鼓励她做更难、更有挑战性和前瞻性的工作。

虽然近几年得益于深度学习,计算机视觉领域获得了突破性的进展,但大多研究都还是在解决比较底层的任务,比如人脸识别、动作识别等等,而更高级的任务,比如心智理论建模等等,还远未得到解决。

现有的解决更高层次任务的尝试,也大都不是基于真实视频:比如,有一些工作在 2D 网格状世界里面进行基于强化学习的理论建模研究,有一些工作则在简单游戏中进行多智能体的交互博弈策略优化,对游戏中涉及到的多智能体心智理论进行建模研究。

范丽凤说上述两类研究中,一类是基于真实视频做低层次任务,另一类虽然在做高层次任务,但目前还只是停留在简单模拟环境或博弈游戏中。

而她的研究则弥补了这个空缺,在真实视频上进行复杂的心智建模,推测视频背后人物的心智活动。

基于 “共同心智” 提出 “五心” 模型

范丽凤说,自然语言处理(Natural Language Processing)目前已经是一个非常成熟的研究领域,高级人工智能的实现当然离不开自然语言处理技术的进步;但非语言交流(nonverbal communication)在人与人的社会交互中也扮演着十分重要的角色,传递着丰富的信息,是对语言交流的很好补充。

这里,非语言交流指的是除自然语言之外的所有其它交流形式,比如眼神、身体体态和空间朝向、头部姿势以及手势等等。

通过让机器从视频中学习非语言交流背后的三元信念动态变化(Triadic Belief Dynamics),就可以破解非语言交流的密码,捕捉到这些隐含的丰富的社会交互信息。

结合不同的非语言交流信号,范丽凤的工作对纯视频输入中人与人的社会交互以及背后的动态信念变化进行了建模学习和推断,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。

“五心” 具体指的是什么呢?当 A、B 两个人在一个空间交流时,A 对于世界有自己的看法和认知,这是他自己的大脑 M1, B 也有一个自己的大脑 M2;

同时,A 对 B 的大脑 M2 有一个模拟估计的大脑 M12,B 也有对 A 的大脑 M1 有自己的估计 M21;

此外,A 和 B 所共享的那些 “透明” 的信息则被称为两个人的共同心智(common mind),记为 Mc。这便是 “五心” 模型的五个 “心”(mind)。

心智理论比较关心信念(belief)、注意力(attention)和意图(intention)等模块,当前的 “五心” 模型主要研究了信念(belief)这一心智模块。

也就是说,范丽凤的工作主要研究了在社会交互过程中两个人对于世界认知信念的动态变化。

基于贝叶斯能量模型,使用图结构解析社交视频

范丽凤为研究这个任务,专门拍摄收集了一个数据集,并进行了全面丰富的标注。目前该数据集已经在 GitHub 上公开。

范丽凤提出了一个基于贝叶斯的能量模型来解决五心模型中信念动态变化的学习和推测问题,通过对视频构建一个六层的解析图,来分层次地解析视频中的社会交互场景。

在这个六层的解析图中,最底层是检测到的人和物体以及提取出来的关键特征;这些人和物体组成视频的每一帧;再往上一层,是视频时序上的分段;

再往上,可以知道在每一段中发生的具体的交流事件的类型(一共有三种基本交流事件,分别是 no communication, attention following 和 joint attention);

继续往上一层,是相应的交流事件导致了什么样的信念变化(一共有四种基本的信念变化,分别是 occur, disappear, update 和 null)。

通过这样一个多层次的解析图,就从底层的模式识别进入到了高层次的认知理解。因为机器还无法达到人类的智能高度,无法直接感知到模式背后的心智变化,必须从最底层的模式识别(比如物体识别和人体识别)开始,然后慢慢往上推,往更高层的任务去走。

如此就能知道这些检测到的人和物体合起来发生了怎样的相对交互,具体发生了怎样的交流事件,以及导致了怎样的信念变化。

范丽凤说,她的工作正是这样由低到高地使用图结构去解析社交视频。在实验中,范丽凤提出的模型获得了比其他方法更好的信念动态变化预测表现。

在社交互动视频的总结摘要上表现较好

当前的视频总结摘要大多基于比较表面的模式识别来提取视频关键帧,这样的方法在一些简单的视频中比较奏效,比如一个人坐下、站起来、走路,当前的做法可以区分不同的动作,从而提出比较好的视频总结。

但是一旦涉及到有更加丰富复杂的社会交互视频时,当前的做法可能就不如五心模型表现好。

因为,在这样的视频中基于人物的心智变化比基于底层的特征变化能更加准确地捕捉、概括到故事的语义精髓。 比如在一段丰富的社会交互视频中,人物可能有很多动作,但那不是这个故事的最关键的内容,如果按照这些底层特征来提取关键帧,结果可能是冗余且不关键的。

相较于底层的特征变化,人物在这个过程中心智发生了变化的那些时刻才是语义更丰富更核心的内容,基于这些提出的关键帧自然能更好地传达这个视频故事的本质。

范丽凤的工作给出了定性比较实验和人类评价实验,结果均证明了五心模型在丰富社会交互视频摘要任务上的优势。

当机器看见你、理解你

范丽凤告诉 DeepTech,人工智能真的要发展,肯定要做更难的任务。当前的人脸识别等底层任务并不能满足我们对于视频的深度理解的要求。

除了识别一个人是谁,科学家们还想让机器学会识别视频中人物的心智想法。

比如,以经典暑期剧《西游记》为例,正常人类看到孙悟空的表情再结合剧情,瞬间就能判断他看到了什么、在想什么、以及预测出他接下来要做什么。

虽然人类观众可以瞬间就能挖掘到这些隐含的信息,但如果让此前的计算机视觉模型来做,结果大概还只是相当于人类的婴儿阶段。所以要实现更高水平的通用人工智能,仍然是任重而道远。

在应用方面,“五心” 模型除了能帮助机器更深地理解视频,还可以提出更准确的视频摘要。比如在处理海量视频时,可把其精简成几帧总结,这样用户只需观看浓缩视频,就能基本了解全部视频信息,从而节省更多时间。

此外,“五心” 模型还有一些其它潜在的应用,比如给视频生成更好的文字描述解说,帮助用户快速掌握视频内容等等。

今年27岁的范丽凤谈及未来即将到北京和朱松纯老师一起工作,她表示十分期待,北京是一个充满魅力的城市,她非常希望能够这里投身到中国这一波人工智能发展浪潮之中,开创出属于自己的事业!

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7431

    浏览量

    87739
  • AI
    AI
    +关注

    关注

    87

    文章

    30255

    浏览量

    268489
  • 人工智能
    +关注

    关注

    1791

    文章

    46903

    浏览量

    237678

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    可灵AI全球首发视频模型定制功能,助力AI视频创作

    属于自己的专属人脸模型。在模型定制完成后,用户可以基于该模型生成包含同一人物镜头的多个视频内容,从而满足用户对于个性化视频创作的多样化需求。 此外,可灵AI还对其1.5模型进行了全面升级。升级后的模型在图
    的头像 发表于 11-26 14:02 271次阅读

    70多位博士生相聚浙江台州,只为这行业传感技术创新

    ,浙江大学生物医学传感与检测全国博士生学术论坛在浙江大学台州研究院举行,来自全国各地知名高校50多个生物医学传感与检测领域的课题组的近70名博士生,开展学术交流,激荡创新能力,同时寻求和台州企业合作的机会
    的头像 发表于 11-20 15:12 86次阅读

    京微齐力受邀参加2024年清华大学工程博士论坛

    此前,2024年清华大学国家卓越工程师学院工程博士论坛在北京亦庄(北京经济技术开发区)举办。本届论坛以“清亦融创、新质引领”为主题,来自集成电路、生物医药、人工智能等战略性新兴领域500余位清华大学创新领军工程博士生参加。
    的头像 发表于 11-06 10:17 277次阅读

    RISC-V AI技术正式纳入北京大学研究课程

    希姆计算与北京大学达成SOC课程合作2024年10月14日,希姆计算的福杰博士走进北京大学集成电路学院的研究课堂,为同学们讲授了一节生动的《现代SoC芯片架构设计实验课程》。RISC-V走进北大
    的头像 发表于 10-18 08:09 326次阅读
    RISC-V AI技术正式纳入北京大学研究<b class='flag-5'>生</b>课程

    vivo发布蓝心智能AI战略

    在2024年的vivo开发者大会上,vivo隆重推出了全新的AI战略——“蓝心智能”。该战略的核心是利用AI技术重构系统体验,为用户带来更加智能和便捷的使用感受。
    的头像 发表于 10-10 16:57 377次阅读

    CX2903 SOT23-6 7V3A充电器识别芯片-CX2903规格书参数

    骊微电子供应CX2903 SOT23-6 7V3A充电器识别芯片,提供-CX2903规格书参数、规格书等,更多产品手册、应用料资请向骊微电子申请。>>
    发表于 08-01 16:28 0次下载

    AI行为识别视频监控系统 Python

    AI行为识别视频监控系统来自机器视觉技术的革新。机器视觉技术应用是人工智能技术分析的一个支系。它可以在图形和图象具体内容叙述中间创建投射关联,使电脑可以根据图像处理和剖析比较,进而熟悉
    的头像 发表于 07-06 10:36 486次阅读
    AI行为<b class='flag-5'>识别</b><b class='flag-5'>视频</b>监控系统 Python

    Al大模型机器

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器人有哪些的优势?萨科微AI大模型机器人由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优
    发表于 07-05 08:52

    商汤发布首个“可控”人物视频生成大模型Vimi

    近日,商汤科技在人工智能领域再次取得重大突破,正式发布了其首个面向消费者的“可控”人物视频生成大模型——Vimi。这一创新技术的问世,标志着视频内容创作进入了一个全新的互动与个性化时代。
    的头像 发表于 07-04 15:29 717次阅读

    第二届大会回顾第22期 软件缺陷漏洞分析

    演讲嘉宾 | 梁洪亮 回顾整理 | 廖   涛 排版校对 | 宋夕明 嘉宾介绍 OS安全分论坛  梁洪亮, 博士,北京邮电大学副教授,博士生导师。研究兴趣为可信软件与智能系统。 视频回顾   打开哔
    的头像 发表于 06-27 08:42 294次阅读
    第二届大会回顾第22期  软件缺陷漏洞分析

    毕超博士:基于RISC-V的机器人电机控制芯片

    机器人电机控制芯片”主题演讲。峰岹科技首席技术官毕超博士一、机器人对电机控制芯片的挑战很多人希望了解,电机控制和机器人控制到底有什么区别?它们的内在联系是什么?
    的头像 发表于 04-03 08:14 2203次阅读
    毕超<b class='flag-5'>博士</b>:基于RISC-V的<b class='flag-5'>机器</b>人电机控制芯片

    因赛集团InsightGPT图视频上线

    因赛集团宣布其营销行业首个AIGC应用级模型InsightGPT已正式上线。这一创新技术结合了开源和自研的视频生成算法,以及丰富的行业视频库,为营销行业提供了独特的图视频能力。
    的头像 发表于 03-05 10:18 549次阅读

    博士生团队提升Apple Silicon芯片神经网络性能

     据悉,该项目主要由博士生特里斯坦·比洛特(Tristan Bilot)、弗朗切斯科·法里纳(Francesco Farina)以及MLX团队联手推动。MLX是专门面向Apple Silicon发行的图形神经网络库。
    的头像 发表于 02-21 14:18 450次阅读

    用于机器人物识别和滑动检测的磁敏触觉传感器

    据麦姆斯咨询报道,近日,中国科学院空天信息创新研究院陈嘉民研究团队开发了一种柔性磁敏触觉传感器,这种传感器模仿了人类皮肤毛发的结构,能够精确地感知接触力,在机器人物识别和滑动检测方面表现出色,开启了智能机器人感知世界的新篇章。
    的头像 发表于 01-26 10:23 1430次阅读
    用于<b class='flag-5'>机器人物</b>体<b class='flag-5'>识别</b>和滑动检测的磁敏触觉传感器

    NVIDIA 向博士生颁发 6 万美元研究奖学金

    多年来, NVIDIA 研究奖学金计划 一直在为 NVIDIA 技术相关的杰出工作提供支持。日前,该计划宣布向参与研究的 10 名博士生颁发每人高达 6 万美元的奖学金,他们的研究范围涵盖了所有计算创新领域。 这 10 位获奖者从诸多优秀申请人中脱颖而出,他们将在该奖学
    的头像 发表于 12-11 21:15 689次阅读