一篇“4, 4, 3”的论文竟被录取?这届ICLR评审又出怪事。作者回复理直气壮,领域主席似乎一手遮天,三位评审据理力争,还有匿名“侦探”调查贡献……作者有没有违反双盲评审,更重要的是,这篇论文有没有录取资格?一起来看。
感谢ICLR,不仅为我们带来前沿深度学习研究成果,更为我们带来茶余饭后无尽的谈资——你猜对了,又有一出关于论文录取的好戏在OpenReiew.net上演。
说真的,剧荒的时候,请登录OpenReiew.net.
事情是这样的,一篇评分为“4,4,3”的论文 (按理说处于绝对被拒的范畴,满分是10分),最终竟被AC一人之令决定录取,围观群众纷纷表示:
既如此,还要匿名评审干嘛?!
细看rebuttal更不得了,作者和评审你来我往,简直不能更精彩:
(评审1让作者补充引用两篇现有论文,作者回复) 感谢评论,我们理解你的感受。……我们会在定稿中加上这两条引用(不是评审1提到的那两篇)。如果还剩有空间的话,我们会考虑加上你提到的那两篇论文中的一篇。
(评审1指出作者关于某一计算的理解有误,此前双方已就这一点有好过几轮争辩,这一次评审1的回复类似“参考文献[2]第69页5.22节中的定理一可以证明这一点。有关该理论的证明可参见参考文献[2]第98页附录C.3等等等等”,作者回复)麻烦请用你自己的话说明究竟是为什么。
其他还有:
“感谢评论,但很不幸的是,三位评审员都没有理解或者忽略了我们这项工作的重点。”
“感谢你的详细评论,但我们完全无法接受。”
Sigh…
是该佩服论文作者有话直说呢,还是该感叹他们有勇无谋?
一名吃瓜群众表示,自己一篇“7, 7, 5”的论文都被拒了 (虽然没什么好奇怪的),另一个人说,他还发现一篇“4,5,6”的论文也被录取了。
不论如何,这届ICLR真是叫人愈发看不懂了……
一篇评分“4, 4, 3”然而最终竟被录取的论文
细说故事——哦,不,细说论文之前,我们先来看看这篇论文究竟写了什么。
论文的题目是《使用几何方法将目录树编码到词嵌入中》。
在这篇论文中,作者提出了一种新的方法,将树状结构的category信息隐式编码到词嵌入中,从而得到所谓的“超维球状表示” (super-dimensional ball representation),简称n-ball embedding。
该方法具有以下两个标准:
category之间的从属关系应隐式地表示为对应的n-balls之间的包含关系;
对category关系的树结构进行精确编码。也就是说,能量损失应该为零。
作者在论文中写道,该研究的贡献如下:
提出了一种构造/训练n-balls的新几何方法,将树状结构的范畴关系编码为能量损失为零的n-balls之间的包含关系;
提出了一种新的相似度测量方法,既考虑了n-balls的位置,又考虑了n-balls的大小,与实验中的余弦相似度相比更加精确;
基于Glove创造了一个新的n-ball embedding基准数据集,从WordNet 3.0中提取目录树,可免费访问。
论文还开放了源代码和数据集:
https://github.com/gnodisnait/nball4tree.git
https://github.com/gnodisnait/bp94nball.git
到这里为止似乎没什么问题。公开代码和数据集原本是很好的举动,但这也为后面的口水战埋下了伏笔。
一场意想不到的rebuttal大战上演了。
三位审稿人“坚决拒绝”,领域主席说“可以录取”
先来看三位评审员对论文的评价。
审稿人1
更新:注意!!! 此文包含与作者相关帐户的Github和Google Drive链接(请参阅摘要)。我认为这是投稿规则不允许的,不符合标准。为此,我在具体审稿意见中给出“自动拒绝”的意见。
------------------------------------------------
本文提出了一种方法,用于调整category对象(如单词)的现有向量嵌入,将其转换为遵循层次结构的球嵌入。每个类别在高维空间中表示为欧几里得标准球,其中心和半径可以根据数据实现自适应。接下来,基于分层结构给出对每对球的包含和排除约束。这些约束是通过算法强加上去的。实证研究部分包括观察表示与层次结构的一致性,并展示了一组单词的最近临域。
从积极的方面来说,本文解决了一个重要问题。具有一定可读性和条理。在相关研究部分,可以增补一些代表性的研究,如本意见末的[3,4]。
该论文的主要关注点是文中提出方法的原创性。使用高维球对层次结构进行编码,并将包含和排除编码作为对这些球的约束,从建模角度来看,这是一个简洁有力的想法。然而,这个方法并不新,在本意见末尾列出的[1和2的第5章]中已经构建了这种方法。
另一个主要问题是关于嵌入质量的评估。经验评估不足以评估调整后嵌入的质量。相反,定量评估更关心的是嵌入是否与给定的层级结构相一致。特别是,文中并没有足够的定量证据表明,所提出的嵌入在语义捕捉或预测任务方面的有效性。
应当注意的是,一方面,在理论上是可以实现可行解决方案与层级的一致性的(参见例[1])。3.2节的第一段似乎表述不清或存在错误。文末的索引[2]中给出了基于梯度的问题解决方案的正确表述。
最后,本文使用算法,而非用于构建嵌入的学习方法,使得该方法与ICLR会议的主题没有直接关联。
总之,综上所述,我的意见是拒绝录取。(本文在匿名化上做得很糟糕,更是应予拒稿的有力证据。)
[1] Mirzazadeh, F., Ravanbakhsh S., DingN., Schuurmans D., "Embeddinginference for structured multilabel prediction", NIPS 2015.
[2] Mirzazadeh, F."Solving AssociationProblems with Convex Co-embedding", PhD thesis, 2017. (Chapter 5)
[3] Vilnis, Luke, and Andrew McCallum."Word representations via gaussian embedding.", ICLR 2015.
[4] Vendrov, I., Kiros, R., Fidler, S.,Urtasun, R. "Order-embeddings of images and language." ICLR 2016.
评分:4 还可以,但不够好,拒绝
信心:5 审稿人绝对肯定以上评估是正确的,并且非常熟悉相关文献
审稿人2
评审意见:本文着重于调整预训练词嵌入,以便通过适当的n-ball封装来解决上位词/下位词关系。本文建议通过来自Wordnet等资源,为词嵌入增补信息,并使用3种几何变换来强制执行该封装。
这样做的动机目前来看并不是很清楚,实验结果主要是定性的主观表述,称通过调整可以预测和保持上位词关系。由于这项工作依赖于Wordnet的资源,词汇的覆盖范围非常有限,作者在“实验3:方法2”一节中对结果进行讨论时,不得不从标准语义相似性数据集中删去许多单词,给文中提出的方法的有用性蒙上了一层阴影。目前尚不清楚这种方法的主要贡献是什么。
除此之外,该论文难以阅读,并且文中某些部分(特别是与图3有关的部分)在将简单概念进行复杂化表述。
总的来说,我给出4分的评分,因为文中方法的适用范围有限,因为该方法依赖于Wordnet,而且没有足够的经验证据证明这种方法的有用性。
评分:4 还可以,但不够好,拒绝
信心:4 审稿人有信心,但并不能绝对肯定以上评估的正确性。
审稿人3
评审意见:本文提出了用于分类数据的N-ball嵌入。N-ball是一对质心向量,距中心的半径代表一个单词。
主要评价:
本文的缺点是缺乏与其他重要研究的实验比较。
最近提出的Poincare嵌入和Lorentz模型,在hypernymy嵌入中表现出良好的预测性能。
实际上,WordNet的概念是在DAG中构建的,最近对结构嵌入的研究可以处理DAG数据。目前尚不清楚如何通过扩展N-ball嵌入来处理DAT结构。
没有充分描述相关工作。
目前尚不清楚为什么N-ball嵌入适用于分层结构。
评分:3 坚决拒绝
信心:4 审稿人有信心,但并不能绝对肯定以上评估的正确性
看完上述三位评审人的评价,再来看领域主席的决定。
AC:
审稿意见:作者提供了一种有趣的方法,可以将分层信息注入现有的单词向量中。这可能有助于处理需要知识库信息和文本共现计数的各种任务。
尽管审稿人指出了本文的一些缺点,但我认为这可能只是没有将符号信息/集/逻辑/KB与神经网络联系起来造成的问题,因此我建议会议接收本文。
信心:4 AC确信本文可以接收,但不完全确定。
意见:接收
对此你有什么看法?
新智元引用Reddit一位用户的评价:
Area chair decided he/she knows better.
深度学习研究者中的一股清流,还是泥石流???
具体的rebuttal在文章开始已经说过,这里就不一一描述了,总之绝对精彩,欲知详情可点击“阅读原文”。
现在,由于录取结果已定,论文的作者信息也已经公开,如此“直言不讳”的一作,究竟是何方神圣?
Tiansi Dong,波恩大学
论文的第一作者Tiansi Dong博士是德国波恩大学Bonn-Aachen信息技术国际中心(B-IT)人工智能基础研究小组的成员,主要研究领域包括人工智能、深度学习和知识图谱。
Tiansi Dong博士是一位高产的作者,2018年以来已在ICLR、AAAI、EMNLP、COLING等AI、NLP的重要会议上发表5篇论文。
Tiansi Dong的最近论文
该论文的其他几位作者Olaf Cremers、Chrisitan Bauckhage、Armin B. Cremers、Daniel Speicher和Joerg Zimmermann,是Tiansi Dong在波恩大学的同事,另外两位作者Hailong Jin和Juanzi Li则来自清华大学。
双盲评审意外盲点:Github代码库贡献用户名“暴露”论文一作
当然,关于这篇论文的评审和录取结果已经在Reddit引发了热议。
除了“4, 4, 3”还能够被录取,Reddit上的争论重点在于,论文作者公开代码库时,GitHub上传贡献者的用户名“gnodisnait”,正是一作“Tiansi Dong”反过来写的结果。
这算违背论文提交匿名机制了吗?
Reddit用户Visible_Layer评论说,
我觉得关键是作者给出了“非匿名”作者的代码链接。把文章发到arxiv上没问题,从文章里给出arxiv的链接就有问题了。
关键是,要确保“诚实”的审稿人通过论文及文中的链接资源无法获知文章的作者。
Reddit用户geraltofrivia783:
但是,从“诚实”的审稿人到“好奇”的审稿人之间,其实只隔了一个谷歌搜索而已。而审稿人是否使用谷歌搜索不应该对其给出评分产生影响。
不要误会,我完全支持双盲审稿。事实上,我最近向NAACL提交了一份意见书,我发现他们关于匿名化政策就很好。
• 他们说,如果你要将提交在arXiv上的论文重新投稿,则该文章在arXiv上的提交日期必须在NAACL摘要截止日期至少前一个月。我认为,这仍然留下了提交给NAACL论文和arXiv上论文作者存在差异的可能性。(ICLR可能也有类似的规定)
• 现在有很多匿名上传代码和数据的方法。这一点很有帮助,因为不用在匿名论文版本中添加 github/gdrive的链接了。
Visible_Layer:
所以说这篇文章才违反了匿名政策啊,毕竟有许多方法可以匿名上传代码和相关材料(几乎不用费什么事!),而作者还是上传到了自己的个人账户。
无论一项政策的“公平”程度如何,都是政策,而作者确实违反了政策。
说到这里,新智元相信你也已经看累了,就让我们用Reddit用户DeusExML的评论收尾吧。
看上去这个审稿流程简直就是人际沟通技能的一场灾难级展示!
一开始作者信誓旦旦地说Github资源库是匿名的,结果就被人石锤了,原来这个“匿名”资源库用的是作者自己的真名,之后作者是这么回复的:“你(匿名评论人)侦查工作的成果(指Github库贡献者用户名)是几个对本研究没什么署名要求的人,可能是来自本校或合作院校的硕士生,主要是帮着收集数据。”
哈哈,你看露馅了吧。虽然你们干了活,但我们根本没打算让你们署名啊!
-
论文
+关注
关注
1文章
103浏览量
14956 -
数据集
+关注
关注
4文章
1208浏览量
24696 -
深度学习
+关注
关注
73文章
5503浏览量
121143
原文标题:双盲审稿形同虚设,领域主席一手遮天?这届ICLR炸锅了
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论