0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

100多万个视频短片数据集来啦!

电子工程师 来源:lp 2019-03-15 09:52 次阅读

想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没有什么能比三秒钟的视频短片更好地传达出这一行为的含义。

Falling Asleep(入睡,来自GIPHY网站)

感谢麻省理工学院和IBM的研究人员,我们现在有了一个做了清晰的标签标记的数据集,其中包含有100多万个视频短片。这个数据集名为“Moments in Time”,已经收集了地球上发生的数百种常见行为,有鲜花绽放的美丽时刻,也有令人尴尬的被绊倒和嘴啃泥场景。

Tripping(绊倒,来自GIPHY网站)

然而,Moments in Time的创建并不是为了提供一系列GIF动画,而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止,大量标记过的图像数据集,如用于物体识别的ImageNet和用于场景识别的Places,在开发更准确的图像分类和理解模型中发挥了重要作用。

“视频理解尤其是视频中的行为识别,与图像理解的情况是不同的。”MIT-IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在,但它们比图像数据集要小好几个数量级。此外,它们是以人为中心的,有时还是针对特定领域的(比如体育)。”

因此,Gutfreund及其同事们力图开发一个分类系统,该系统可以涵盖最常见的行为(不管这些行为是由人类、动物还是物体完成的,也不管它们是在什么环境下完成的)。他们首先列出了来自VerbNet的4500个最常用的动词(VerbNet是由语言学家开发和使用的一个动词知识库)。

他们将动词解析成语义相关的词簇,然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如,洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后,研究团队确定了339个用做Moments in Time基础的关键动词。

Grooming(梳洗打扮,来自GIPHY网站)

但是,当对视频本身进行分类时,会遇到一系列独特的挑战。例如,描述某个东西正在“打开”(opening),那可能是一个人正在打开一扇门,也可能是一朵花正在绽放,甚至可能是一只卡通狗正在张开嘴。更重要的是,相同帧反向播放,实际上可以描述不同的行为(“关闭”,closing),这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。

Opening(打开,来自GIPHY网站)

研究人员从网上挑选了与这339个动词相关的视频,将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上,该平台上的用户帮助对100多万个视频短片进行分类(他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可)。

每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息,发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章标题为“Moments in Time Dataset: one million videos for event understanding”。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的Mathew Monfort是该项目的首席研究员,他指出,一些分类,比如“Walking”(步行)或“Cooking”(烹饪),是很简单的,而另一些则不然。“Playing Music”(演奏/播放音乐)可以是一个乐队在舞台上演奏,也可以是一个人在用收音机听音乐。Monfort说:“具有这种视觉和听觉多义性的类目的识别,对于当前的机器学习模型来说是非常具有挑战性的。”

Playing Music(演奏/播放音乐,来自GIPHY网站)

在该数据集的下一版本中,该团队计划使用相同的视频集合,并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时,很明显需要更多的信息来恰当地描述一个事件,而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练,同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”

很快,更复杂的视频可以通过机器学习算法分类,轻松自如。

不久之后,机器学习算法可能可以毫不费力地对更复杂的视频加以分类。

机器学习(Machine Learning,来自GIPHY网站)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46576

    浏览量

    236899
  • 图像分类
    +关注

    关注

    0

    文章

    89

    浏览量

    11897
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24615

原文标题:100多万个视频短片数据集来啦!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华盛昌携手我的培训圆满落幕

    2024年10月19日下午,一场别开生面的培训与活动启动仪式在我的(以下简称“”)总部召开。此次活动旨在通过线上线下相结合的方式,为我的
    的头像 发表于 10-27 15:00 225次阅读

    LMH1982速率视频时钟发生器数据

    电子发烧友网站提供《LMH1982速率视频时钟发生器数据表.pdf》资料免费下载
    发表于 08-22 10:34 0次下载
    LMH1982<b class='flag-5'>多</b>速率<b class='flag-5'>视频</b>时钟发生器<b class='flag-5'>数据</b>表

    PyTorch如何训练自己的数据

    PyTorch是一广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1149次阅读

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 05-28 07:27

    业务光端机:实现高速数据传输的关键技术解析

    数据传输的奥秘。 一、业务光端机的基本概念 业务光端机是一种光传输、数据交换、业务处理等功能于一体的光通信设备。它支持多种业务类型的同
    的头像 发表于 02-23 14:10 554次阅读

    “本源悟空”全球访问量突破100,已完成14运算任务

    截至2月1日上午11时,我国第三代自主超导量子计算机“本源悟空”已为全球94国家和地区用户成功完成142233运算任务,全球远程访问“悟空”人次已突破100。我国第三代自主超导量
    的头像 发表于 02-19 12:50 321次阅读
    “本源悟空”全球访问量突破<b class='flag-5'>100</b><b class='flag-5'>万</b>,已完成14<b class='flag-5'>万</b><b class='flag-5'>个</b>运算任务

    OpenAI推出新模型Sora:文字秒变视频短片

    OpenAI行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月18日 16:49:39

    Harvard FairSeg:第一用于医学分割的公平性数据

    为了解决这些挑战,我们提出了第一大规模医学分割领域的公平性数据, Harvard-FairSeg。该数据旨在用于研究公平性的cup-d
    的头像 发表于 01-25 16:52 487次阅读
    Harvard FairSeg:第一<b class='flag-5'>个</b>用于医学分割的公平性<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    自动驾驶数据的生成模型之WoVoGen框架原理

    生成摄像头的街景视频对于增加自动驾驶数据至关重要,解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战,传统的基于渲
    发表于 01-25 15:26 512次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>集</b>的生成模型之WoVoGen框架原理

    1/4 b&w CMOS 100像素(1280 x 800)图像传感器数据手册

    电子发烧友网站提供《1/4 b&w CMOS 100像素(1280 x 800)图像传感器数据手册.pdf》资料免费下载
    发表于 01-10 11:07 1次下载

    语音数据:探索、挑战与应用

    将探讨语音数据的重要性、面临的挑战以及其在各个领域的应用。 一、语音数据的重要性 语音数据
    的头像 发表于 12-28 13:56 498次阅读

    语音数据:AI语音技术的灵魂

    提升语音识别和生成能力:语音数据为AI模型提供了丰富的语音样本,通过训练和学习这些数据,AI可以更好地理解和模拟人类的语音特征,从而提高语音识别的准确性和语音生成的自然度。 促进
    的头像 发表于 12-14 14:33 935次阅读

    科技拟2.7亿元增资全资子公司武汉

    武汉主要从事于半导体光电器件生产,智能车载设备制造,并提供各类软件开发和计算机系统服务,包括地理遥感服务、信息系统集成服务等等。2022年,尽管其营业收入4409.17元,但仍录得亏损4955.56
    的头像 发表于 12-12 11:07 794次阅读

    大模型数据:力量的源泉,进步的阶梯

    的舞台 大模型数据如广袤的舞台,为AI技术的展现提供了广阔的空间。这些数据规模庞大,包容象,它们是AI进步的基石。无论是自然语言处理、
    的头像 发表于 12-07 17:18 609次阅读

    英伟达H100 GPU Q3售出50块,科技巨头争抢

    这款产品最大购买客户是Meta与微软,各自购买了15块;谷歌、亚马逊、甲骨文、腾讯各自购买了5块,榜单中还出现了百度、阿里巴巴、字节跳动这几家中国公司。微网了解到,目前H100
    的头像 发表于 12-07 15:18 1075次阅读
    英伟达H<b class='flag-5'>100</b> GPU Q3售出50<b class='flag-5'>万</b>块,科技巨头争抢