0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google AI发数据集论文、办挑战赛却拒绝开放数据集?

电子工程师 来源:lq 2019-01-18 14:05 次阅读

近日,有网友在 reddit 上提出 Google AI 拒绝公开 Conceptual Captions 数据集(相关论文发表在 ACL 2018 上),谷歌除了发表相关论文以外还举办了使用该数据集的挑战赛(比赛结果在 2018 年 NeurIPS 会议上公布)。这引发了网友对这种做法是对是错、学术会议同行评审是否应该把论文复现作为重要考量因素等的激烈讨论。

原帖主要内容是:

谷歌曾在 ACL 2018 上发表了一篇数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,该数据集 Conceptual Captions 共有大约 330 万张图像。但他发现了几个问题:

谷歌拒绝共享预训练模型,这使得基准测试变得异常艰难:

https://github.com/google-research-datasets/conceptual-captions/issues/3;

拒绝共享与每张图像相关的 Alt 文本(讽刺的是这篇论文的标题中恰好有 Alt-text 一词):

https://github.com/google-research-datasets/conceptual-captions/issues/6;

拒绝共享图像/镜像链接(尽管我认为这关乎法律问题,但仅有该数据集的几百张图像,社区很难对比不同模型):

https://github.com/google-research-datasets/conceptual-captions/issues/1

发帖人表示对此很难过。他希望社区意识到数据集论文是一项重大责任,如果存在阻挡数据集共享的法律问题,那么可以基于私人数据发表论文,但是基于同样的模型或整个数据集举办挑战赛的行为不太好。

此帖发出后,引发了网友的大量讨论。有网友认为谷歌这么做没什么问题,他们的任务是分享研究、把研究成果作为自己的优势,而不是相反。但评论中更多的是对这种行为的反对。

反对此类行为

网友_michaelx99 表示:

DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或企业网站上的「论文」并不是真正的发表,其主要目标是表明该企业已经具备了某种能力。我并不是说所有大企业在线发表的论文都这样,但其中一些确实如此。

ModernShoe 表示:

我曾听吴恩达谈论商业如何利用 AI 盈利。他说企业应该保护训练/测试数据集,而不是保护某个算法。或许这与数据集论文不公布数据集有某种关系?

网友 epic:

这种行为不利于科学和机器学习的发展。虽然我们理解谷歌不发布数据集的原因,但这种行为仍然是不好的。尤其是数据集论文,在没有数据的情况下复现研究及其困难。有能力的组织和人们应该作为表率来引领社区,而不是相反。

网友SkinnyJoshPeck:

这是对机器学习和机器学习专家的海量需求的后果吗?我在一家大企业工作,与机器学习科学家接触较多,他们当中一些人缺乏对科学方法的基本尊重,这令我非常惊讶。我认为这并非技巧的缺乏(一些研究已经发表),而是不明白「可观的结果未必是准确、有效的」。

我的大学专业是数学,而且专门学习了代数。我了解表示论和代数几何,因此我知道大多数模型和技术的底层数学基础,这些让我对这些专家能够坐在现在的岗位上感到惊讶。

复现性

网友GoAwayStupidAI:

复现性是科学的重要标志。没有相关数据、结果无法复现的研究都是垃圾。

网友kemfic:

论文就应该是可复现的。如果不能,那么期刊就不应该接收它们。

网友duckbill_principate:

让我觉得困扰的不是共不共享模型、代码或者数据集的问题,而是在这种事情发生的时候论文仍然被接收了。这某种程度上是同行评审的失败,其责任则属于我们每一个审稿人,因为这样的论文往往是基于信任或权威而被接收的(我们知道尽管有双盲评审,但我们不难推断出某些论文一般会来自哪个研究组)。这更像是广告而不是科学。

网友duckbill_principate:

在我实现的 20 多篇论文中,5 篇存在部分或完全影响研究结果验证的错误/bug。而这些论文都是顶会上经过同行评审的论文。

我认为这是学术丑闻。

有些案例中问题被揪出来,作者进行了修改。但即使是在这种比较好的场景中,修改数字后的论文(可能使用了全新的超参数搜索!)静悄悄地出现在 arXiv 上,而发表在会议上的论文并没有修改,更不会被撤回。为什么?大家都知道原因,也熟悉那些辩护理由:「尽管我们的结果不如预想中的好,但我们认为这项技术非常棒,非常有前途……」不管是从数学角度,还是从没有所谓的「当前最优结果」的论文不该被接收的角度,这种说法都非常糟糕。

网友 habanero_ass_fire 认为:

OpenImages 的图片是从网上获得的,其他几个比较知名的数据集也是如此。就法律意义上来看,图片的作者拥有版权,因此论文作者是不能共享这些图片的。另外,无效的链接在现实中经常发生。因此我对这种没有公开数据集的行为没有意见,只要他们能够分享一个预训练模型即可;如果你可以依照论文训练出自己模型,即使没有预训练模型也不会让论文无效。

但这立刻遭到网友 duckbill_principate 的反驳:

如果你能够训练出一个模型精确复现,那没问题。但如果你曾试图复现论文时就会明白,实际情况往往是,即使那些发布了自己代码且提供定义清晰且可用的数据集的论文,复现的结果也往往是不可预测的。他们是公布了自己的代码和参数,但却可能没有说明自己的训练过程;他们公布了训练代码,但却可能遗漏了部分自定义库;他们使用了公共数据集,但却没有明确说明他们对这些数据集做了什么样的预处理;他们公布了代码、数据集,甚至也对此做了大量且详尽的说明,但却可能遗漏一些非常关键的内容,等等不一而足。

事实是,如果没有预训练模型,或者没有对训练过程的完整描述,谈复现性就是一个笑话。

正如网友所说,在没有数据的情况下复现研究及其困难,尤其是数据集论文。

关于研究复现的讨论由来已久,前段时间在某篇 CVPR 论文复现出现问题时,大家更是对顶会/期刊论文复现性进行了大量讨论。不少人认为论文复现也应该作为同行评审中的重要部分。有网友表示「总体而言,论文评审过程不包含复现实验结果。评审者不得不在很大程度上依靠作者的诚信」、「同行评审通常更关心论文中描述的方法。潜在的解决办法是要求作者提交现成的实现(如通过 docker)。然而,在哪里运行仍然是一个问题。也许 AWS 资源等可以从提交费用中提取,供评审人员重新运行模型。然后,问题是确保评审人员不会「滥用」资源进行他们自己的实验等。在任何情况下,「通过计算的方法」进行 DL 论文评审都很棘手」。

学术会议对研究复现也很重视。2017 年,ICML「机器学习复现 Workshop」就对这一问题进行过讨论;2018 年,ICLR 举办了复现挑战赛,旨在保证接收论文公布的结果是可靠的、可复现的。此外,为了鼓励可复现性和高质量论文的提交,ICML 2019 在论文提交上做出了一些重要改变,如鼓励提交的论文附带代码,结果的可复现性和代码的易用性将作为论文接收和进一步决策的考虑因素。KDD 2019 的征稿通知中也表明:今年会议采取双盲评审制度,论文接收结果公布之前投稿者不得将论文发布于 arXiv 等开放性平台上。更重要的是,只有在论文中公开研究代码和数据的论文才有资格竞选「最佳论文奖」。

科学研究的复现性非常重要,机器学习社区一贯重视开放性、复现性,而这需要社区人们的维护。上述学术会议的变化无疑将促进研究复现性,鼓励研究人员更加审慎地对待自己的研究、更加开放地共享研究的具体细节。那么具备强悍研究能力和开发能力的大型企业会不会做好表率呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1758

    浏览量

    57415
  • 谷歌
    +关注

    关注

    27

    文章

    6142

    浏览量

    105110
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24644

原文标题:Google AI发数据集论文、办挑战赛却拒绝开放数据集?结果被怼了……

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    50万奖金池!开放原子大赛——第二届OpenHarmony创新应用挑战赛正式启动

    第二届OpenHarmony创新应用挑战赛作为开放原子大赛旗下的重要项,聚焦 OpenHarmony应用开发,致力提升开发者的动手实践能力与开发创新应用的能力。 项要求开发者
    发表于 10-24 15:40

    NVIDIA为AI城市挑战赛构建合成数据

    在一年一度的 AI 城市挑战赛中,来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据上测试了他们的 AI
    的头像 发表于 09-09 10:04 439次阅读

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 05-28 07:27

    开放原子开源大赛OpenHarmony智能化应用生态挑战赛决赛路成功举办

    软件定义世界,开源共筑未来。在江苏省工信厅、市工信局、开放原子开源基金会及相关单位的指导和支持下,4月19-20日,由中软国际教育科技集团联合举办的开放原子开源大赛-OpenHarmony智能化应用生态挑战赛决赛路演在盐城市大
    的头像 发表于 04-24 09:48 392次阅读

    自动驾驶领域的数据汇总

    发自动驾驶论文哪少的了数据,今天笔者将为大家推荐一篇最新的综述,总结了200多个自动驾驶领域的数据,大家堆工作量的时候也可以找一些小众的
    的头像 发表于 01-19 10:48 951次阅读
    自动驾驶领域的<b class='flag-5'>数据</b><b class='flag-5'>集</b>汇总

    30万奖金!开放原子开源大赛“云原生数据缓存性能挑战赛” 等你来挑战

      开放原子开源基金会牵头发起的首届“开放原子开源大赛”正在火热进行中。东方通支撑的“云原生数据缓存性能挑战赛”将与1月10日正式启动报名,诚挚欢迎有理想、有激情的开发者、发烧友们前来
    的头像 发表于 01-11 10:31 370次阅读

    语音数据:探索、挑战与应用

    将探讨语音数据的重要性、面临的挑战以及其在各个领域的应用。 一、语音数据的重要性 语音数据
    的头像 发表于 12-28 13:56 518次阅读

    语音数据在智能家居中的应用与挑战

    随着科技的快速发展,智能家居已经逐渐走进人们的生活。语音数据在智能家居中发挥着重要的作用,为家居设备提供了语音交互的能力,提升了用户体验。本文将详细介绍语音数据在智能家居中的应用、
    的头像 发表于 12-25 09:48 605次阅读

    语音数据在智能语音助手中的应用与挑战

    和语音合成模型。本文将详细介绍语音数据在智能语音助手中的应用、面临的挑战以及未来的发展趋势。 二、语音数据在智能语音助手中的应用 语音识
    的头像 发表于 12-14 15:07 733次阅读

    语音数据在人工智能中的应用与挑战

    一、引言 随着人工智能技术的快速发展,语音数据在各种应用中发挥着越来越重要的作用。语音数据AI语音技术的基石,对于语音识别、语音合成、
    的头像 发表于 12-14 15:00 650次阅读

    语音数据AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据则是AI语音技术的灵魂。本文将深入探讨语音数据的重要性、构建方
    的头像 发表于 12-14 14:33 979次阅读

    语音数据:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据则是推动AI语音技术的核心力量。本文将详细介绍语音数据
    的头像 发表于 12-12 11:32 675次阅读

    大模型数据:揭秘AI背后的魔法世界

    一、引言 在人工智能的奇幻世界中,大模型数据如同神秘的魔法书,蕴藏着无尽的智慧与力量。它们为AI注入了生命,使其具备了理解和改变世界的能力。今天,就让我们一起揭开大模型数据
    的头像 发表于 12-07 17:33 531次阅读

    大模型数据:力量的源泉,进步的阶梯

    一、引言 在    的繁荣发展中,大模型数据的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据
    的头像 发表于 12-07 17:18 642次阅读

    大模型数据:构建、挑战与未来趋势

    随着深度学习技术的快速发展,大型预训练模型如GPT-4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据,为模型提供了丰富的知识和信息。本文将探讨大模型数据
    的头像 发表于 12-06 15:28 1587次阅读