0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何创建高质量、大规模、多语言的数据集

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-10-29 10:22 次阅读

多模式视觉语言模型依赖大量数据集来对图像和文本之间的关系进行建模。一般来说,这些数据集有两种创建方法:手动为图像添加文字说明,或抓取网页并提取替代文本 (alt-text)作为文字说明。虽然前一种方法更利于产生更高质量的数据,但高强度的人工注释过程限制了可创建的数据量。另一方面,虽然自动提取方法可以产生更大的数据集,但却需要通过启发式算法以及仔细过滤来确保数据质量,或者扩展模型来保证强大性能。现有数据集的另一个缺点是极少涉及非英语语言。这不禁让我们产生疑问:我们能否突破这些限制,创建包含各种内容的高质量、大规模、多语言数据集?

图像和文本之间的关系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

确保数据质量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

对此,我们推出了基于维基百科的图像文本 (WIT) 数据集。这是一个大型多模式数据集,通过从维基百科文章和 Wikimedia 图像链接中提取与图像相关的多种不同文本选择集创建而成。在创建过程中会执行严格的过滤环节,以便仅保留高质量的图像文本集。

基于维基百科的图像文本 (WIT) 数据集

https://github.com/google-research-datasets/wit

如我们在 SIGIR 2021 上发布的“WIT:适用于多模式、多语言机器学习的基于维基百科的图像文本数据集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中详细说明的那样,该过程产生一个包含 3750 万个实体丰富的图像文本示例精选集,其中涵盖 1150 万张独特的图像,跨越 108 种语言。大家可凭知识共享许可下载并使用 WIT 数据集。此外,我们也很高兴地宣布,我们将与 Wikimedia Research 以及其他外部协作者携手在 Kaggle 举办 WIT 数据集的竞赛。

数据集 图像
数量
文本 上下文
文本
语言数量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(仅限测试)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往数据集,WIT 的语言更多,规模更大

WIT 数据集的独特优势包括:

1. 大规模:WIT 是公开提供的最大的图像文本示例多模式数据集。

2.多语言:WIT 拥有 108 种语言,是其他数据集的十倍或以上。

3.上下文信息:与典型的多模式数据集(每个图像只有一个文字说明)不同,WIT 包含许多页面级和部分级上下文信息。

4.现实世界实体:维基百科是一个覆盖广泛的知识库,其丰富的现实世界实体可以在 WIT 中得以体现。

5.具有挑战性的测试集:在我们最近获得 EMNLP 接受的研究中,所有最先进的模型在 WIT 上表现出的性能都明显低于传统评估集,例如平均召回率 (recall)下降约 30 点。

最近获得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

数据集的创建过程

WIT 的主要目标是在不牺牲质量和概念覆盖面的情况下创建大型数据集。因此,我们选择利用当今最大的在线百科全书:维基百科。

就可用信息的深度而言,我们以维基百科上的“Half Dome”(加州约塞米蒂国家公园)页面为例如下所示,文章为图像提供了许多有趣的文本说明和相关的上下文信息,如页面标题、主要页面描述以及其他上下文信息和元数据。

我们首先选择包含图像的维基百科页面,然后提取各种图像文本关联内容和周围的上下文。为进一步优化数据,我们执行严格的过滤环节来确保数据质量。过滤过程包含:

基于文本的过滤,以确保文字说明的可用性、长度和质量(例如通过删除通用默认填充文本);

基于图像的过滤,以确保每个图像都具有特定的大小且拥有允许的许可;

基于图像和文本实体的过滤,以确保适合研究(例如排除仇恨类言论)。

接着我们进一步对图像文字说明集随机抽样,由真人进行校对评估,他们中绝大多数人都认可一个结论:98% 样本其图像与文字说明一致。

高度语言多样性

WIT 拥有 108 种语言的数据,是首个大规模、多语言、多模式数据集。

图像文本集数量 独特语言
数量
图像数量 独特语言
数量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨语言覆盖统计信息

首个上下文图像文字数据集

大多数多模式数据集仅为给定图像提供单个文本说明(或类似文字说明的多个版本)。WIT 是首个提供上下文信息的数据集, 可以帮助研究人员就上下文对图像文字说明以及图像选择的影响进行建模。

具体而言,可能有助于研究的 WIT 关键文本字段包括:

文本说明:WIT 提供三种不同的图像文字说明,包括(可能受上下文影响的)“参考描述”、(可能不受上下文影响的)“属性描述”,以及“替代文本描述”。

上下文信息:包括页面标题、页面描述、网址和有关维基百科部分的局部上下文(包括部分标题和文本)。

如下所示,WIT 在以下不同字段具有广泛的覆盖。

WIT 图像
文字字段
训练 Val 测试 合计/独特
行/元组 37.1M 261.8K 210.7K 37.6M
独特的图像 11.4M 58K 57K 11.5M
参考描述 16.9M 150K 104K 17.2M/16.7M
属性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的关键字段兼有文本说明和上下文信息

高质量训练集与

具有挑战性的评估基准

维基百科广泛覆盖各种概念,这意味着 WIT 评估集作为评估基准非常具有挑战性,即使对于最先进的模型而言也是如此。在图像文本检索方面,我们发现传统数据集的平均召回分数 (mean recall scores)为 80 秒,而对于 WIT 测试集而言,资源丰富的语言为 40 秒,资源不足的语言为 30 秒。我们希望这可以转而帮助研究人员构建更强大、更稳健的模型。

WIT 数据集与 Wikimedia 和

Kaggle 携手开展竞赛

此外,非常高兴地宣布,我们将携手 Wikimedia Research 以及一些外部协作者共同组织 WIT 测试集的竞赛。竞赛将在 Kaggle 举办,竞赛任务为图像文本检索。我们将给定一组图像和文本说明,而参赛者的任务是为每个图像检索适当的文字说明。

为促进该领域的研究,维基百科为大部分训练和测试数据集提供了 300 像素分辨率的图像和基于 Resnet-50 的图像嵌入向量。除 WIT 数据集以外,Kaggle 还将托管所有图像数据,并提供 Colab notebooks。此外,参赛者届时可访问 Kaggle 论坛,以便分享代码和开展协作。任何对多模态感兴趣的人都可以借此轻松开始并运行实验。我们很高兴并且期待各位参赛者可以在 Kaggle 平台,通过 WIT 数据集和维基百科图像为我们带来精彩表现。

结论

我们相信 WIT 数据集将帮助研究人员构建更好的多模态多语言模型,并识别更好的学习和表征技术,最终借助视觉语言数据在现实世界任务中优化机器学习模型。如有任何问题,请联系 wit-dataset@google.com。我们非常愿意倾听您如何使用 WIT 数据集。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6869

    浏览量

    88800
  • 模型
    +关注

    关注

    1

    文章

    3158

    浏览量

    48701
  • 机器学习
    +关注

    关注

    66

    文章

    8373

    浏览量

    132395

原文标题:基于维基百科的图像文本数据集 (WIT)

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ChatGPT 的多语言支持特点

    )技术迎来了巨大的挑战和机遇。ChatGPT,作为一个领先的语言模型,其多语言支持的特点成为了它在众多应用场景中不可或缺的优势。 1. 多语言理解能力 ChatGPT 的多语言支持首先
    的头像 发表于 10-25 17:30 662次阅读

    TVP5146高质量、单芯片数字视频解码器数据

    电子发烧友网站提供《TVP5146高质量、单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-04 10:00 0次下载
    TVP5146<b class='flag-5'>高质量</b>、单芯片数字视频解码器<b class='flag-5'>数据</b>表

    OpenHarmony开发技术:【国际化】实例

    ArkUI开发框架对多语言的支持比较友好,只需要在 `resources` 目录下创建对应国家的文件夹,名称对国家简码,例如中国为 `zh` ,则在 `resources` 下创建 `zh` 文件夹,然后在 `zh` 文件下
    的头像 发表于 04-11 09:40 366次阅读
    OpenHarmony开发技术:【国际化】实例

    这个多语言包 怎么搜不到

    大家好,这个多语言包怎么搜不到 seven language lib 谁有离线包不 感谢分享,
    发表于 03-24 10:06

    云知声入选中国信通院《数字医疗产品及服务高质量发展全景图》

    3月15日,中国人工智能产业发展联盟医学人工智能委员会2024年第一次工作会在海口召开,会上发布首批《数字医疗产品及服务高质量发展全景图》与《数字医疗产品及服务高质量发展案例》,凭借在智慧医疗领域
    的头像 发表于 03-15 19:23 2137次阅读

    北斗芯片产业的高质量发展之路

    高质量发展是全面建设社会主义现代化国家的首要任务”,二十大报告中对高质量发展有着明确的论断和要求。在2023年的全国两会中还指出,加快实现高水平科技自立自强,是推动高质量发展的必由之路。中国卫星
    的头像 发表于 03-15 14:03 353次阅读
    北斗芯片产业的<b class='flag-5'>高质量</b>发展之路

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    参数的训练。这一阶段的难点在于如何构建训练数据,以及如何高效地进行分布式训练。 有监督微调阶段利用少量高质量数据,其中包含用户输入的提示词和对应的理想输出结果。提示词可以是问题、闲
    发表于 03-11 15:16

    语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs在处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 543次阅读
    大<b class='flag-5'>语言</b>模型(LLMs)如何处理<b class='flag-5'>多语言</b>输入问题

    稳中创新•产业升级•高质量发展 | 联诚发高质量发展工作推进会议召开

    2月21日下午,联诚发LCF以“稳中创新•产业升级•高质量发展”为主题的企业高质量发展工作推进大会在联诚发深圳总部隆重召开。擂起奋进催征的战鼓,争分夺秒抢抓宝贵春光,明确企业重点目标任务,全力以赴
    的头像 发表于 02-22 11:33 439次阅读
    稳中创新•产业升级•<b class='flag-5'>高质量</b>发展 | 联诚发<b class='flag-5'>高质量</b>发展工作推进会议召开

    捷易科技出席广东省韶关市高质量发展大会

    ABSTRACT摘要2月19日,2024年韶关市高质量发展招商大会在韶关举行,来自政府、科技、企业各界专家代表共同探讨韶关高质量发展。捷易科技总经理韩运恒出席大会。JAEALOT2024年2月19日
    的头像 发表于 02-22 08:25 446次阅读
    捷易科技出席广东省韶关市<b class='flag-5'>高质量</b>发展大会

    为工业 4.0 工厂的大规模定制、高质量和可持续运营提供支持

    作者:Jeff Shepard 投稿人:DigiKey 北美编辑 对于工业 4.0 自动化制造系统的设计人员来说,利用高质量和可持续的生产流程来支持大规模定制可能具有一定挑战性。他们需要在各种有线
    的头像 发表于 02-13 14:31 642次阅读
    为工业 4.0 工厂的<b class='flag-5'>大规模</b>定制、<b class='flag-5'>高质量</b>和可持续运营提供支持

    商汤科技与库醇科技达成合作 为垂域大模型构建高质量大规模的领域微调数据

    数字化转型,为垂域大模型构建高质量大规模的领域微调数据。   本次合作将基于商汤通用大模型进行二次开发,给模型注入领域知识, 训练一个专门根据葡萄酒爱好者问题生成关键词的大模型 。     商汤科技副总裁张果琲(右四)、库醇科技CEO郭俊
    的头像 发表于 01-10 09:46 673次阅读
    商汤科技与库醇科技达成合作 为垂域大模型构建<b class='flag-5'>高质量大规模</b>的领域微调<b class='flag-5'>数据</b>

    双目测宽仪高质量生产利器 测宽仪价格

    光,它能做到无损检测,实时监测报警,数据存储,数据分析,是为轧钢工作人员提供重要指导依据的设备,是高质量生产的利器。
    发表于 12-04 17:10

    多语言开发的流程详解

    现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看多语言开发的流程!
    的头像 发表于 11-30 09:08 1038次阅读

    卓越领航!广和通获评“2023高质量发展领军企业”

    广和通要闻 11月28日,以“协同新发展、引领新示范”为主题的第四届高质量发展高峰论坛暨2023高质量发展领军企业、领军人物颁奖盛典顺利举办。大会揭晓了“2023高质量发展领军企业、领军人物”榜单
    的头像 发表于 11-29 18:00 483次阅读
    卓越领航!广和通获评“2023<b class='flag-5'>高质量</b>发展领军企业”