Google AI发数据集论文、办挑战赛却拒绝开放数据集？-电子发烧友网

近日，有网友在 reddit 上提出 Google AI 拒绝公开 Conceptual Captions 数据集（相关论文发表在 ACL 2018 上），谷歌除了发表相关论文以外还举办了使用该数据集的挑战赛（比赛结果在 2018 年 NeurIPS 会议上公布）。这引发了网友对这种做法是对是错、学术会议同行评审是否应该把论文复现作为重要考量因素等的激烈讨论。

原帖主要内容是：

谷歌曾在 ACL 2018 上发表了一篇数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》，该数据集 Conceptual Captions 共有大约 330 万张图像。但他发现了几个问题：

谷歌拒绝共享预训练模型，这使得基准测试变得异常艰难：

https://github.com/google-research-datasets/conceptual-captions/issues/3；

拒绝共享与每张图像相关的 Alt 文本（讽刺的是这篇论文的标题中恰好有 Alt-text 一词）：

https://github.com/google-research-datasets/conceptual-captions/issues/6；

拒绝共享图像／镜像链接（尽管我认为这关乎法律问题，但仅有该数据集的几百张图像，社区很难对比不同模型）：

https://github.com/google-research-datasets/conceptual-captions/issues/1

发帖人表示对此很难过。他希望社区意识到数据集论文是一项重大责任，如果存在阻挡数据集共享的法律问题，那么可以基于私人数据发表论文，但是基于同样的模型或整个数据集举办挑战赛的行为不太好。

此帖发出后，引发了网友的大量讨论。有网友认为谷歌这么做没什么问题，他们的任务是分享研究、把研究成果作为自己的优势，而不是相反。但评论中更多的是对这种行为的反对。

反对此类行为

网友_michaelx99 表示：

DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或企业网站上的「论文」并不是真正的发表，其主要目标是表明该企业已经具备了某种能力。我并不是说所有大企业在线发表的论文都这样，但其中一些确实如此。

ModernShoe 表示：

我曾听吴恩达谈论商业如何利用 AI 盈利。他说企业应该保护训练／测试数据集，而不是保护某个算法。或许这与数据集论文不公布数据集有某种关系？

网友 epic：

这种行为不利于科学和机器学习的发展。虽然我们理解谷歌不发布数据集的原因，但这种行为仍然是不好的。尤其是数据集论文，在没有数据的情况下复现研究及其困难。有能力的组织和人们应该作为表率来引领社区，而不是相反。

网友SkinnyJoshPeck：

这是对机器学习和机器学习专家的海量需求的后果吗？我在一家大企业工作，与机器学习科学家接触较多，他们当中一些人缺乏对科学方法的基本尊重，这令我非常惊讶。我认为这并非技巧的缺乏（一些研究已经发表），而是不明白「可观的结果未必是准确、有效的」。

我的大学专业是数学，而且专门学习了代数。我了解表示论和代数几何，因此我知道大多数模型和技术的底层数学基础，这些让我对这些专家能够坐在现在的岗位上感到惊讶。

复现性

网友GoAwayStupidAI：

复现性是科学的重要标志。没有相关数据、结果无法复现的研究都是垃圾。

网友kemfic：

论文就应该是可复现的。如果不能，那么期刊就不应该接收它们。

网友duckbill_principate：

让我觉得困扰的不是共不共享模型、代码或者数据集的问题，而是在这种事情发生的时候论文仍然被接收了。这某种程度上是同行评审的失败，其责任则属于我们每一个审稿人，因为这样的论文往往是基于信任或权威而被接收的（我们知道尽管有双盲评审，但我们不难推断出某些论文一般会来自哪个研究组）。这更像是广告而不是科学。

网友duckbill_principate：

在我实现的 20 多篇论文中，5 篇存在部分或完全影响研究结果验证的错误／bug。而这些论文都是顶会上经过同行评审的论文。

我认为这是学术丑闻。

有些案例中问题被揪出来，作者进行了修改。但即使是在这种比较好的场景中，修改数字后的论文（可能使用了全新的超参数搜索！）静悄悄地出现在 arXiv 上，而发表在会议上的论文并没有修改，更不会被撤回。为什么？大家都知道原因，也熟悉那些辩护理由：「尽管我们的结果不如预想中的好，但我们认为这项技术非常棒，非常有前途……」不管是从数学角度，还是从没有所谓的「当前最优结果」的论文不该被接收的角度，这种说法都非常糟糕。

网友 habanero_ass_fire 认为：

OpenImages 的图片是从网上获得的，其他几个比较知名的数据集也是如此。就法律意义上来看，图片的作者拥有版权，因此论文作者是不能共享这些图片的。另外，无效的链接在现实中经常发生。因此我对这种没有公开数据集的行为没有意见，只要他们能够分享一个预训练模型即可；如果你可以依照论文训练出自己模型，即使没有预训练模型也不会让论文无效。

但这立刻遭到网友 duckbill_principate 的反驳：

如果你能够训练出一个模型精确复现，那没问题。但如果你曾试图复现论文时就会明白，实际情况往往是，即使那些发布了自己代码且提供定义清晰且可用的数据集的论文，复现的结果也往往是不可预测的。他们是公布了自己的代码和参数，但却可能没有说明自己的训练过程；他们公布了训练代码，但却可能遗漏了部分自定义库；他们使用了公共数据集，但却没有明确说明他们对这些数据集做了什么样的预处理；他们公布了代码、数据集，甚至也对此做了大量且详尽的说明，但却可能遗漏一些非常关键的内容，等等不一而足。

事实是，如果没有预训练模型，或者没有对训练过程的完整描述，谈复现性就是一个笑话。

正如网友所说，在没有数据的情况下复现研究及其困难，尤其是数据集论文。

关于研究复现的讨论由来已久，前段时间在某篇 CVPR 论文复现出现问题时，大家更是对顶会／期刊论文复现性进行了大量讨论。不少人认为论文复现也应该作为同行评审中的重要部分。有网友表示「总体而言，论文评审过程不包含复现实验结果。评审者不得不在很大程度上依靠作者的诚信」、「同行评审通常更关心论文中描述的方法。潜在的解决办法是要求作者提交现成的实现（如通过 docker）。然而，在哪里运行仍然是一个问题。也许 AWS 资源等可以从提交费用中提取，供评审人员重新运行模型。然后，问题是确保评审人员不会「滥用」资源进行他们自己的实验等。在任何情况下，「通过计算的方法」进行 DL 论文评审都很棘手」。

学术会议对研究复现也很重视。2017 年，ICML「机器学习复现 Workshop」就对这一问题进行过讨论；2018 年，ICLR 举办了复现挑战赛，旨在保证接收论文公布的结果是可靠的、可复现的。此外，为了鼓励可复现性和高质量论文的提交，ICML 2019 在论文提交上做出了一些重要改变，如鼓励提交的论文附带代码，结果的可复现性和代码的易用性将作为论文接收和进一步决策的考虑因素。KDD 2019 的征稿通知中也表明：今年会议采取双盲评审制度，论文接收结果公布之前投稿者不得将论文发布于 arXiv 等开放性平台上。更重要的是，只有在论文中公开研究代码和数据的论文才有资格竞选「最佳论文奖」。

科学研究的复现性非常重要，机器学习社区一贯重视开放性、复现性，而这需要社区人们的维护。上述学术会议的变化无疑将促进研究复现性，鼓励研究人员更加审慎地对待自己的研究、更加开放地共享研究的具体细节。那么具备强悍研究能力和开发能力的大型企业会不会做好表率呢？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1766

浏览量
57592
谷歌

谷歌

+关注

关注
27

文章
6171

浏览量
105504
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24727

原文标题：Google AI发数据集论文、办挑战赛却拒绝开放数据集？结果被怼了……

文章出处：【微信号：aicapital，微信公众号：全球人工智能】欢迎添加关注！文章转载请注明出处。

EDA精英挑战赛赛果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

2024中国研究生创芯大赛·EDA精英挑战赛12月7-8日，2024中国研究生创芯大赛·EDA精英挑战赛（原“集成电路EDA设计精英挑战赛”）总决赛及颁奖典礼在南京成功举办。此次大赛，思尔芯作为核心

发表于 12-11 01:03 •363次阅读

EDA精英<b class='flag-5'>挑战赛</b><b class='flag-5'>赛</b>果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

2024年ICPC与华为挑战赛冠军杯圆满落幕

近日，2024年ICPC&华为挑战赛冠军杯在深圳圆满落幕。该活动由华为和ICPC联合举办，汇聚全球顶尖的编程人才，共同探讨和解决具有挑战性的工业界真实问题，并对未来技术发展趋势及关键挑战展开讨论。今年的

发表于 10-27 16:00 •800次阅读

50万奖金池！开放原子大赛——第二届OpenHarmony创新应用挑战赛正式启动

第二届OpenHarmony创新应用挑战赛作为开放原子大赛旗下的重要赛项，聚焦 OpenHarmony应用开发，致力提升开发者的动手实践能力与开发创新应用的能力。赛项要求开发者

发表于 10-24 15:40

NVIDIA为AI城市挑战赛构建合成数据集

在一年一度的 AI 城市挑战赛中，来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据集上测试了他们的 AI

发表于 09-09 10:04 •495次阅读

AI4Science黑客松光子计算挑战赛成功举办

经过数月角逐，第二届AI4Science黑客松竞赛日前落下帷幕。在曦智科技主持的光子计算挑战赛中，参赛选手何自强和来自东北大学的参赛队伍The Power of Light获得完赛优胜奖。

发表于 08-07 09:58 •536次阅读

思尔芯赛题正式发布，邀你共战EDA精英挑战赛！

赛题发布COMPETITIONRELEASE2024中国研究生创芯大赛·EDA精英挑战赛（原“集成电路EDA设计精英挑战赛”）现已正式拉开帷幕。作为核心出题企业之一思尔芯（S2C），已经为你们准备了

发表于 08-03 08:24 •679次阅读

PyTorch如何训练自己的数据集

PyTorch是一个广泛使用的深度学习框架，它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时，数据集是不可或缺的组成部分。然而，很多时候，我们可能需要使用自己的数据集

发表于 07-02 14:09 •1775次阅读

浪潮信息获CVPR2024自动驾驶挑战赛"Occupancy& Flow"冠军

北京2024年6月25日 /美通社/ -- 近日，在全球权威的CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)中，浪潮信息AI团队所提交的"F-OCC

发表于 06-25 20:29 •385次阅读

请问NanoEdge AI数据集该如何构建？

我想用NanoEdge来识别异常的声音，但我目前没有办法生成模型，我感觉可能是数据集的问题，请问我该怎么构建数据集？或者生成模型失败还会有哪些原因？

发表于 05-28 07:27

开放原子开源大赛OpenHarmony智能化应用生态挑战赛决赛路成功举办

软件定义世界，开源共筑未来。在江苏省工信厅、市工信局、开放原子开源基金会及相关单位的指导和支持下，4月19-20日，由中软国际教育科技集团联合举办的开放原子开源大赛-OpenHarmony智能化应用生态挑战赛决赛路演在盐城市大

发表于 04-24 09:48 •425次阅读

语音数据集在智能驾驶中的关键作用与应用

中的关键作用、应用、挑战以及未来的发展趋势。二、语音数据集在智能驾驶中的关键作用训练与优化：高质量的语音数据集是训练和优化语音识别模型的

发表于 01-31 16:22 •497次阅读

自动驾驶领域的数据集汇总

发自动驾驶论文哪少的了数据集，今天笔者将为大家推荐一篇最新的综述，总结了200多个自动驾驶领域的数据集，大家堆工作量的时候也可以找一些小众的

发表于 01-19 10:48 •1018次阅读

语音数据集在智能语音助手中的应用与挑战

。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。二、语音数据集在智能语音助手中的应用语音识别：智能语音助

发表于 01-18 15:46 •411次阅读

语音数据集在智能语音搜索中的应用与挑战

挥着重要作用，为系统提供了丰富的语音数据和信息，提高了搜索的准确性和效率。本文将详细介绍语音数据集在智能语音搜索中的应用、面临的挑战以及未来的发展趋势。二、语音

发表于 01-18 15:09 •566次阅读

30万奖金！开放原子开源大赛“云原生数据缓存性能挑战赛” 等你来挑战！

开放原子开源基金会牵头发起的首届“开放原子开源大赛”正在火热进行中。东方通支撑的“云原生数据缓存性能挑战赛”将与1月10日正式启动报名，诚挚欢迎有理想、有激情的开发者、发烧友们前来

发表于 01-11 10:31 •407次阅读

搜索历史

Google AI发数据集论文、办挑战赛却拒绝开放数据集？

评论

EDA精英挑战赛赛果公布！思尔芯“战队”薪火相承斩获“麒麟杯”

2024年ICPC与华为挑战赛冠军杯圆满落幕

50万奖金池！开放原子大赛——第二届OpenHarmony创新应用挑战赛正式启动

NVIDIA为AI城市挑战赛构建合成数据集

AI4Science黑客松光子计算挑战赛成功举办

思尔芯赛题正式发布，邀你共战EDA精英挑战赛！

PyTorch如何训练自己的数据集

浪潮信息获CVPR2024自动驾驶挑战赛"Occupancy& Flow"冠军

请问NanoEdge AI数据集该如何构建？

开放原子开源大赛OpenHarmony智能化应用生态挑战赛决赛路成功举办

语音数据集在智能驾驶中的关键作用与应用

自动驾驶领域的数据集汇总

语音数据集在智能语音助手中的应用与挑战

语音数据集在智能语音搜索中的应用与挑战

30万奖金！开放原子开源大赛“云原生数据缓存性能挑战赛” 等你来挑战！