0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

向来提倡open的谷歌,现在也玩儿“自闭”?

DPVg_AI_era 来源:lq 2019-01-20 08:56 次阅读

谷歌AI又成了话题。Reddit网友找到了谷歌AI一个名叫Conceptual Captions的数据集,发现该数据集并不完善,于是乎联系谷歌AI相关人员,却惨遭三连拒。

向来提倡open的谷歌,现在也玩儿“自闭”?

昨天谷歌AI大佬Jeff Dean刚刚发表长文总结了2018年的主要研究成果,其中包括“开源软件和数据集”:

发布开源软件和创建新的公共数据集是我们为研究和软件工程社区做出贡献的两种主要方式。

然而细心的Reddit网友却发现,谷歌AI并没有那么“开源”,反而还拒绝共享数据:

事情是这样的。

这位网友发现了谷歌AI一个叫Conceptual Captions数据集相关的比赛,以及描述这个数据集的论文(ACL 2018):

论文地址:

http://aclweb.org/anthology/P18-1238

在GitHub中对此数据集的描述为:一种包含330万张图像的大规模图像数据集,专门用于机器学习图像字幕系统的训练和评估。

GitHub地址:

https://github.com/google-research-datasets/conceptual-captions

然而,当这位网友跃跃欲试想要拿这个数据集操练一番时却发现了一些问题:这个数据集全部图像都是托管的,一些链接现在已经失效。

于是,这位网友开始试图联系谷歌AI相关人员。

结果,真可谓是大跌眼镜。

惨遭三连拒,热心研究者被泼冷水

第一拒:拒绝分享预训练模型

这就使得基准测试和论文里的结果数字变得非常难以复现。毕竟,不是每个人都有1k的TPU。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/3

问:哪里可以找到基于Conceptual Captions数据集的预训练模型(RNN-,Transformer-based)?

答:预训练模型没有发布。

第二拒:拒绝分享与每个图像关联的Alt-text

讽刺的是,这篇论文标题是“Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning”。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/6

问:是否会发布与每个图像关联的Alt-text?用于生成字幕的代码也会公开吗?

答:没有发布Alt-text或代码的计划。

第三拒:拒绝分享图像/镜像链接

这位网友表示:虽然我同意存在法律问题,但数据集中缺少数百张图像,其他研究人员要想比较模型变得超级困难。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/1

问:您能提供从tsv文件通过url下载图像的示例代码吗?Python的urllib无法下载某些url (IOError: [Errno socket error] [Errno 110] Connection timed out)。但是我可以在浏览器中看到这些图像。

答:谢谢你的关注!不幸的是,由于版权/法律问题,我们无法提供通过url从tsv文件下载图像的代码。

谷歌AI“自闭”拒共享,引网友热议

这位热心网友在惨遭三连拒后表示对这样的事情非常痛心:

一篇数据集论文对于复现结果非常重要,如果存在阻碍数据集共享的法律问题,那么发表私人数据集论文就好了(有些领域不公开Alt-text),但基于一个不公开预训练模型、不完全共享的数据集举办挑战赛,我认为这就不太酷了。

而后,其它网友们也炸锅了。

热心网友1:_michaelx99

Deepmind的一些论文也是这样,仅仅根据他们发表的论文,完全不可能把结果复现出来。我花了一段时间才意识到Arxiv或他们网站上的一篇“论文”并不是真正的出版物,因此它的主要目标是展示公司已经开发了某种能力。这与其他人能够证实或否认他们在科学过程中所做的事情关系不大。我并不是说大公司在网上发布的所有论文都是这样,但正如你刚刚发现的,其中一些论文确实如此。

热心网友2:duckbill_principate

据我所知,四分之一的ML论文本质上是美化的广告。

热心网友3:GoAwayStupidAI

可重复性是科学的标志。没有这些数据,这个结果是不可复制的,所以科学会很糟糕。

热心网友4:Silver5005

这是ML论文最大的问题。我一直在尝试实现一个股票预测的LSTM,你可以找到数百篇论文都在做同样的概念。但它们都没有数据集,也不会谈论它们如何清理或标准化它们的数据。

热心网友5:duckbill_principate

人们不分享他们的模型、代码或数据集,这本身并不困扰我。令我困扰的是,这种情况发生了,而这些论文仍然被接受。这是同行评审过程的绝对失败,它的责任完全落在审查员(和我们)的肩上。这些论文是在信任的基础上被接受的,在某些情况下甚至是权威(我们都知道,尽管存在着双盲的本质,但不难推断出某些论文可能来自哪个群体),这是绝对不可接受的。

这更接近于广告而不是科学。

热心网友6:epic

我不知道为什么有这么多谷歌的辩护者。这对科学和机器学习都不利。是的,我们都明白为什么,但这仍然很糟糕。特别是像这样的论文,如果不能从数据中分离出来的话,再现性是非常困难的。有机会的组织和个人应该以一个好榜样来领导这个领域,而不是反过来。

对此,你怎么看?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6164

    浏览量

    105323
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268910
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24691

原文标题:谷歌AI遭猛怼!发布数据集论文和挑战赛,却拒绝公开数据集

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    不会Lua又想Open开发,怎么办?

    本次我把收藏已久的LuatOS具体应用示例特分享个大家,希望不会Lua又想Open开发的朋友有收获。
    的头像 发表于 12-09 14:43 114次阅读
    不会Lua又想<b class='flag-5'>Open</b>开发,怎么办?

    TAS5411-Q1 open load不管接不接喇叭都是open,重启不变,为什么?

    TAS5411应用有个问题烦请问一下,Open Load和shorted load两个状态 不更新,open load不管接不接喇叭都是open,重启不变,不知道需不需要经行其他设
    发表于 09-29 06:56

    单北斗定位智能终端提倡应用的重要性

    单北斗定位智能终端的提倡应用具有重要意义,主要体现在以下几个方面:一、国家安全与自主可控自主可控:北斗卫星导航系统是我国自主研发的全球卫星导航系统,全面推广使用国产单北斗定位智能终端,意味着我们将
    的头像 发表于 07-08 15:08 467次阅读
    单北斗定位智能终端<b class='flag-5'>提倡</b>应用的重要性

    苹果确认未来将与谷歌Gemini合作

    在备受瞩目的2024年全球开发者大会(WWDC)上,苹果公司高级副总裁Craig Federighi透露了一项引人注目的新计划。他表示,苹果正在与谷歌人工智能部门紧锣密鼓地筹划合作,旨在将谷歌的Gemini大型语言模型融入苹果的智能生态系统。
    的头像 发表于 06-12 17:36 593次阅读

    两小时“吼出”121次AI,谷歌背后埋伏着Open AI的幽灵

    谷歌做AI依旧不痛不痒谷歌和OpenAI的又一次对阵,刚刚落幕了。北京时间5月14日凌晨,OpenAI发布端到端多模态AI大模型GPT-4o,酷似科幻电影《Her》的AI语音对话迅速成为关注焦点
    的头像 发表于 05-19 08:05 391次阅读
    两小时“吼出”121次AI,<b class='flag-5'>谷歌</b>背后埋伏着<b class='flag-5'>Open</b> AI的幽灵

    中国电信和GSMA成立全球首个Open Gateway联合开放实验室

    GSMA与中国电信在北京携手共创,正式成立了全球首个Open Gateway联合开放实验室,即GSMA-中国电信Open Gateway Open Lab。这一创举旨在为广大开发者提供一个全面、专业的技术平台,助力他们充分挖掘和
    的头像 发表于 05-14 09:25 493次阅读

    opc ua open62541.c和open62541.h如何移植到stm32中?

    如题 想问各位大神 opc ua open62541.c和open62541.h 如何移植到stm32中
    发表于 04-15 07:37

    Open RAN的未来及其对AT&amp;T的意义

    3月14日消息,在“Connected America 2024”会议上,AT&T高级副总裁兼网络首席技术官Yigal Elbaz讨论了Open RAN 的未来及其对AT&T的意义。
    的头像 发表于 03-14 14:40 735次阅读

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出的模型合成软件中最知名的是Google SketchUp。
    的头像 发表于 02-29 18:20 1384次阅读

    谷歌模型怎么用手机打开文件

    要用手机打开谷歌模型文件,首先需要确定该文件的具体类型和格式。谷歌模型文件可能是以各种格式存在的,比如.pb(Protocol Buffers)、.h5(Keras/TensorFlow
    的头像 发表于 02-29 18:17 1456次阅读

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06

    消息称Reddit与谷歌达成协议

    相关服务。同时,Reddit将获得访问谷歌人工智能模型的机会,旨在提升其自身的内部网站搜索及其他功能。
    的头像 发表于 02-23 11:12 725次阅读

    python中open函数的用法详解

    python中open函数的用法详解 Python中的open()函数用于打开文件。它接受文件名和模式作为参数,并返回一个文件对象。文件对象可用于读取、写入和管理文件。 open()函数的基本语法
    的头像 发表于 01-30 15:31 2094次阅读

    open harmony照明开关应用介绍

    最近几年,智能家居成为了人们日常生活中的热门话题。其中,智能照明系统作为智能家居的重要组成部分之一,正在迅速流行起来。而今天我将为大家详细介绍一款智能照明系统中的开关——open harmony照明
    的头像 发表于 01-05 17:00 1127次阅读

    嵌入式open函数的使用

    嵌入式系统是指嵌入到其他设备或系统中,用于控制和管理硬件资源的计算机系统。在嵌入式系统中,通常需要与外部设备进行数据交互,例如读取传感器数据、控制执行器等。open函数是C语言标准库中提供给开发者
    的头像 发表于 01-04 15:51 679次阅读