0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博士生范丽凤可让机器识别视频人物的心智想法

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-23 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这几天,计算机视觉和模式识别领域的顶级会议 CVPR 2021(Computer Vision and Pattern Recognition)正在火热进行中,刚刚从加州大学洛杉矶分校(UCLA)博士毕业的石家庄女生范丽凤,提及此次被录用的论文表示:“在 CV 和 AI 领域,中国人的贡献和力量是毋庸置疑和不容小觑的。”

在最终评审中她获得了接近满分的成绩,三位审稿人中两位给了 “Strong Accept”,一位给了 “Accept”。

范丽凤是计算机视觉大牛朱松纯教授的博士生。2020 年,朱松纯全职回国并入职北大,还牵头成立了北京通用人工智能研究院,一度曾在国内引起过热议。

最近刚刚博士毕业的范丽凤也即将跟随导师朱松纯教授回国工作,其表示:“朱老师肯定希望我们可以回去支持国内的 AI 事业,我自己也觉得国内有巨大的发展空间,也更喜欢国内的文化环境,并且在朱老师的研究院我还可以继续推进一直以来的研究工作,这是一个很好的机遇。”

范丽凤本科和博士期间学的都是统计学。2012 年,她从河北辛集中学考入浙江大学数学科学学院,主修统计学,在四年的本科学习训练中掌握了统计建模和编程实现的基本能力。

2015 年大三暑假,她参加了 UCLA-CSST 暑期科研训练项目,在 Hongjing Lu 教授(UCLA 心理系和统计系教授)的指导下开展了一项关于动作识别的研究。自那时起,范丽凤开始对计算机视觉产生了浓厚的兴趣。

项目快结束时,她特意写邮件并去实验室拜访了时任 UCLA 统计系和计算机科学系教授的朱松纯。经过交谈,朱教授鼓励她多读实验室的相关论文、多学点计算机视觉的基础课程,为进行科研打下坚实的基础。

回到浙大后,范丽凤利用大四的时间,积极主动修习了计算机视觉的相关课程,阅读了一些基础的专业书籍和论文。经过再三考虑,她下定决心申请了朱教授的博士,最终如愿获得了录取,来到 UCLA VCLA 实验室进行了为期五年的博士生科研训练,获得了巨大的成长。

基于真实视频,研究高级 AI 任务

谈及本次论文的立项原因,她表示是因为朱教授一直都在鼓励她做更难、更有挑战性和前瞻性的工作。

虽然近几年得益于深度学习,计算机视觉领域获得了突破性的进展,但大多研究都还是在解决比较底层的任务,比如人脸识别、动作识别等等,而更高级的任务,比如心智理论建模等等,还远未得到解决。

现有的解决更高层次任务的尝试,也大都不是基于真实视频:比如,有一些工作在 2D 网格状世界里面进行基于强化学习的理论建模研究,有一些工作则在简单游戏中进行多智能体的交互博弈策略优化,对游戏中涉及到的多智能体心智理论进行建模研究。

范丽凤说上述两类研究中,一类是基于真实视频做低层次任务,另一类虽然在做高层次任务,但目前还只是停留在简单模拟环境或博弈游戏中。

而她的研究则弥补了这个空缺,在真实视频上进行复杂的心智建模,推测视频背后人物的心智活动。

基于 “共同心智” 提出 “五心” 模型

范丽凤说,自然语言处理(Natural Language Processing)目前已经是一个非常成熟的研究领域,高级人工智能的实现当然离不开自然语言处理技术的进步;但非语言交流(nonverbal communication)在人与人的社会交互中也扮演着十分重要的角色,传递着丰富的信息,是对语言交流的很好补充。

这里,非语言交流指的是除自然语言之外的所有其它交流形式,比如眼神、身体体态和空间朝向、头部姿势以及手势等等。

通过让机器从视频中学习非语言交流背后的三元信念动态变化(Triadic Belief Dynamics),就可以破解非语言交流的密码,捕捉到这些隐含的丰富的社会交互信息。

结合不同的非语言交流信号,范丽凤的工作对纯视频输入中人与人的社会交互以及背后的动态信念变化进行了建模学习和推断,并基于 “共同心智” 提出了 “五心”(“five minds”)模型。

“五心” 具体指的是什么呢?当 A、B 两个人在一个空间交流时,A 对于世界有自己的看法和认知,这是他自己的大脑 M1, B 也有一个自己的大脑 M2;

同时,A 对 B 的大脑 M2 有一个模拟估计的大脑 M12,B 也有对 A 的大脑 M1 有自己的估计 M21;

此外,A 和 B 所共享的那些 “透明” 的信息则被称为两个人的共同心智(common mind),记为 Mc。这便是 “五心” 模型的五个 “心”(mind)。

心智理论比较关心信念(belief)、注意力(attention)和意图(intention)等模块,当前的 “五心” 模型主要研究了信念(belief)这一心智模块。

也就是说,范丽凤的工作主要研究了在社会交互过程中两个人对于世界认知信念的动态变化。

基于贝叶斯能量模型,使用图结构解析社交视频

范丽凤为研究这个任务,专门拍摄收集了一个数据集,并进行了全面丰富的标注。目前该数据集已经在 GitHub 上公开。

范丽凤提出了一个基于贝叶斯的能量模型来解决五心模型中信念动态变化的学习和推测问题,通过对视频构建一个六层的解析图,来分层次地解析视频中的社会交互场景。

在这个六层的解析图中,最底层是检测到的人和物体以及提取出来的关键特征;这些人和物体组成视频的每一帧;再往上一层,是视频时序上的分段;

再往上,可以知道在每一段中发生的具体的交流事件的类型(一共有三种基本交流事件,分别是 no communication, attention following 和 joint attention);

继续往上一层,是相应的交流事件导致了什么样的信念变化(一共有四种基本的信念变化,分别是 occur, disappear, update 和 null)。

通过这样一个多层次的解析图,就从底层的模式识别进入到了高层次的认知理解。因为机器还无法达到人类的智能高度,无法直接感知到模式背后的心智变化,必须从最底层的模式识别(比如物体识别和人体识别)开始,然后慢慢往上推,往更高层的任务去走。

如此就能知道这些检测到的人和物体合起来发生了怎样的相对交互,具体发生了怎样的交流事件,以及导致了怎样的信念变化。

范丽凤说,她的工作正是这样由低到高地使用图结构去解析社交视频。在实验中,范丽凤提出的模型获得了比其他方法更好的信念动态变化预测表现。

在社交互动视频的总结摘要上表现较好

当前的视频总结摘要大多基于比较表面的模式识别来提取视频关键帧,这样的方法在一些简单的视频中比较奏效,比如一个人坐下、站起来、走路,当前的做法可以区分不同的动作,从而提出比较好的视频总结。

但是一旦涉及到有更加丰富复杂的社会交互视频时,当前的做法可能就不如五心模型表现好。

因为,在这样的视频中基于人物的心智变化比基于底层的特征变化能更加准确地捕捉、概括到故事的语义精髓。 比如在一段丰富的社会交互视频中,人物可能有很多动作,但那不是这个故事的最关键的内容,如果按照这些底层特征来提取关键帧,结果可能是冗余且不关键的。

相较于底层的特征变化,人物在这个过程中心智发生了变化的那些时刻才是语义更丰富更核心的内容,基于这些提出的关键帧自然能更好地传达这个视频故事的本质。

范丽凤的工作给出了定性比较实验和人类评价实验,结果均证明了五心模型在丰富社会交互视频摘要任务上的优势。

当机器看见你、理解你

范丽凤告诉 DeepTech,人工智能真的要发展,肯定要做更难的任务。当前的人脸识别等底层任务并不能满足我们对于视频的深度理解的要求。

除了识别一个人是谁,科学家们还想让机器学会识别视频中人物的心智想法。

比如,以经典暑期剧《西游记》为例,正常人类看到孙悟空的表情再结合剧情,瞬间就能判断他看到了什么、在想什么、以及预测出他接下来要做什么。

虽然人类观众可以瞬间就能挖掘到这些隐含的信息,但如果让此前的计算机视觉模型来做,结果大概还只是相当于人类的婴儿阶段。所以要实现更高水平的通用人工智能,仍然是任重而道远。

在应用方面,“五心” 模型除了能帮助机器更深地理解视频,还可以提出更准确的视频摘要。比如在处理海量视频时,可把其精简成几帧总结,这样用户只需观看浓缩视频,就能基本了解全部视频信息,从而节省更多时间。

此外,“五心” 模型还有一些其它潜在的应用,比如给视频生成更好的文字描述解说,帮助用户快速掌握视频内容等等。

今年27岁的范丽凤谈及未来即将到北京和朱松纯老师一起工作,她表示十分期待,北京是一个充满魅力的城市,她非常希望能够这里投身到中国这一波人工智能发展浪潮之中,开创出属于自己的事业!

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7837

    浏览量

    93447
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533
  • 人工智能
    +关注

    关注

    1819

    文章

    50298

    浏览量

    266843

原文标题:90海归女生CVPR论文几近满分,可让机器识别视频人物的心智想法,即将追随导师朱松纯回国发展 | 专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能驾驶时代:消费者心智与购车决策的重塑

    时的核心考量。这场变革不仅改变了汽车产品的竞争逻辑,更深刻重塑了用户的购车心智。从“追求性能”到“追求智能”,从“驾驶机器”到“智能伙伴”,消费者对汽车的认知正在经历根本性转变。 智能化浪潮下的购车偏好重塑
    的头像 发表于 04-14 09:24 87次阅读

    亮相车百会|经纬恒润总裁兼CTO成建:以系统创新抢占智能底盘战略高地

    4月11-12日,智能电动汽车发展高层论坛(2026)在京举行。经纬恒润总裁兼CTO成建博士受邀出席,深入剖析了智能底盘在整车架构变革中的战略地位,并分享了公司在关键技术突破与规模化量产方面
    的头像 发表于 04-13 20:11 1321次阅读
    亮相车百会|经纬恒润总裁兼CTO<b class='flag-5'>范</b>成建:以系统创新抢占智能底盘战略高地

    瑞芯微(EASY EAI)RV1126B 手势识别算法识别

    1.手势识别算法简介Gestures手势识别算法一种先进的姿势估计模型,使用关键点数据集进行训练,能够检测图像或视频人物的21个关键点与26种手势,每个关键点代表手部的不同部位。该算
    的头像 发表于 04-07 10:36 120次阅读
    瑞芯微(EASY EAI)RV1126B 手势<b class='flag-5'>识别</b>算法<b class='flag-5'>识别</b>

    山西大学在量子增强相位噪声滤波器研究中取得新进展

    领域取得重要进展,首次实验实现了“量子增强激光相位噪声滤波器”。相关研究成果以“Quantum-enhanced laser phase noise filter”为题发表于Optica。该论文第一作者为光电研究所博士生李瑞鑫,通讯作者为王雅君教授和郑耀辉教授。博士生焦南
    的头像 发表于 03-10 06:40 121次阅读
    山西大学在量子增强相位噪声滤波器研究中取得新进展

    MAX14617:USB主机充电器识别与适配器仿真器的卓越之选

    MAX14617:USB主机充电器识别与适配器仿真器的卓越之选 在当今的电子设备中,USB充电和数据传输功能至关重要。为了满足不同设备的充电需求,提高充电效率和兼容性,Maxim推出了一款优秀的产品
    的头像 发表于 02-09 16:55 418次阅读

    MAX14602:高性能USB主机充电器识别与适配器仿真器

    MAX14600–MAX14605/MAX14618:高性能USB主机充电器识别与适配器仿真器 在当今的电子设备中,USB接口不仅用于数据传输,还承担着充电的重要功能。为了实现高效、兼容的充电
    的头像 发表于 02-09 16:50 212次阅读

    MAX14604:USB主机充电器识别与适配器仿真器的卓越之选

    MAX14600–MAX14605/MAX14618:USB主机充电器识别与适配器仿真器的卓越之选 在当今数字化时代,USB设备的使用无处不在,而高效、智能的USB充电技术也愈发重要
    的头像 发表于 02-09 16:45 183次阅读

    MAX14600:USB主机充电器识别与适配器仿真器的卓越之选

    MAX14600–MAX14605/MAX14618:USB主机充电器识别与适配器仿真器的卓越之选 在电子设备飞速发展的今天,USB充电技术也在不断革新。对于电子工程师而言,选择一款性能优异的USB
    的头像 发表于 02-09 16:45 271次阅读

    2026年NVIDIA研究奖学金名单公布

    25 年来,NVIDIA 研究奖学金计划致力于为在与 NVIDIA 技术相关的前沿领域开展研究的硕博研究提供支持。近日,该计划公布了最新一批奖学金授予结果:10 位博士生脱颖而出,每人将获得最高 6 万美元的资助,他们的研究
    的头像 发表于 12-13 09:44 1190次阅读

    亿纬锂能受邀出席北大国际博士生学术论坛

    10月26日,北京大学“博雅材思”国际博士生学术论坛在燕园举行,亿纬锂能人力资源中心总监张清刚博士受邀出席,并发表《亿纬锂能材料学人才职业发展》专题报告。
    的头像 发表于 10-31 12:36 756次阅读

    中汽中心智能网联科技创新基地建设项目正式开工

    李春在致辞中表示,中汽中心智能网联科技创新基地落地东,是政企双方深度合作的重要成果,对加快推动区域产业转型升级、打造创新发展新引擎具有关键作用。期待双方继续携手并进,共同推动东丽区汽车产业实现跨越式发展。
    的头像 发表于 10-28 10:47 816次阅读

    中汽中心智能网联科技创新基地落户天津

    2025年9月12日,由中汽智能科技(天津)有限公司(以下简称“中汽智能科技”)主办的“2025年智能网联汽车技术发展论坛暨中汽中心智能网联科技创新基地启动仪式”(以下简称“论坛”)在天津成功举办。
    的头像 发表于 09-15 10:17 821次阅读

    AI视频识别系统的应用领域

    一、城市治理现代化 AI视频识别技术 正深度重构城市管理体系。在城市安防领域,系统通过行为模式分析实现异常事件主动预警,对人员聚集、异常滞留等场景进行智能识别;交通治理中实时监测车流密度、违法行为
    的头像 发表于 07-24 11:06 1369次阅读

    山西大学实现一种压缩激光新型光源

    lasing through the parametric coupling”发表于物理学顶级期刊Physical Review Letters上。山西大学为第一单位和通讯单位。其中,山西大学光电研究所博士生
    的头像 发表于 07-17 09:44 507次阅读
    山西大学实现一种压缩激光新型光源

    云知声黄伟荣膺2024年度感动海淀文明人物

    近日,领潮向善丨2024“感动海淀”年度文明人物(集体)颁奖典礼在中关村展示中心颐和厅盛大举行。云知声智能科技股份有限公司(以下简称“云知声”)创始人&CEO黄伟博士凭借在智慧生活、智慧医疗等领域的杰出贡献,以及在科技创新中勤耕不辍的进取精神,荣膺2024年度感动海淀文明
    的头像 发表于 05-13 14:30 939次阅读