2019人工智能开年顶会AAAI的录取结果已出,投稿数量高达7745篇,录取率仅为16.2%,论文评审的繁重与严格可想而知。这两年AI顶会论文灌水与评审不专业的问题愈发凸显。最近,中国某知名高校博导一篇AAAI论文被拒,她认为主要是因为同行评审不专业,AAAI 2019程序主席之一周志华教授做了回应。
人工智能“The”顶会之一的AAAI 2019论文录取结果昨日公布,16.2%,可以说是AAAI录取率最低的年份之一,更何况今年的投稿数量高达7745篇,比去年相翻了一番!
然而,一封公开信却让这次本就忙碌的评审更加紧张。
公开信是一名中国知名高校的计算机博导发出,在信中,写信人“李老师”称,在评审人对论文的审稿及处理意见上,评审及录用决策存在公正与公平性问题,李老师“感到非常遗憾与气愤!觉得太有失公正公平与水准。”
究竟怎么一回事?
实名投诉:AAAI 2019审稿人不专业!
以下是“李老师”的信件:
尊敬的周志华老师:
您好!非常敬仰您,我也于2016年底在贵校您组织的一次学术会议上和您当面交流讨论了我在SIGKDD'16上的一篇论文工作。十分感谢您当时对我工作的鼓励与赞赏。
这次我向您组织的AAAI’2019投了一篇我们研究团队历时三年之久进行深入研究的一成果论文,今天收到了会议论文的录用通知——reject,这个结果令人非常遗憾与气愤!
论文的三位评阅人中的两位评阅人(评阅人#1和评阅人#3,他/她们都称是其领域资深专家)对我们的论文工作从各个方面都给予了充分肯定与高度评价,而评阅人 2#也表示其评阅意见是“educated guess”的,他/她不仅非领域专家,完全不懂我们的问题,而且连我们的论文都没有认真看一下,给出的评阅意见简直就是在胡说八道。在Rebuttal阶段,我们认真地对各个评阅人的问题进行了回复,并且也给AC特意写了一封信。但是,meta-reviewer还是采纳了评阅人 2#的意见,给出了reject的结果。
其实论文中与不中都没有太大的关系,但是,从这次会议对我们论文的审稿及处理意见上,我们对本次会议的评审及录用决策的公正与公平性上感到非常遗憾与气愤!觉得太有失公正公平与水准!!我的一位在国外的学生曾对我讲:现在AAAI和IJCAI这种会虽然国内认为是A类会议,但懂行的都知道不怎么样,很多灌水的。对此,我原来是不相信的,现在我确信!这次投稿人数实在太多,您称有7745篇,但会议投稿再多,也不能成为论文评审与录用决策完全不负责任与胡整的理由!!
我们的论文、Rebuttal阶段返回的评审人意见以及我们的回复均在附件中,敬请您及会议的AC在百忙中抽时间再复审查看一下。真金不怕火炼,我们对我们工作的创新性等有充分的自信。我们只是希望AAAI’2019会议公平、公正,办得越来越好,不要损害自己的名声。
祝好!
这封信的作者李老师,就职于中国某计算机名校,担任教授和博士生导师。以他的年龄、职位和职称,“真的,论文中不中根本不重要”。
新智元联系了李老师,他表示这次论文得到的评分是“8、2、7”,其中这个反差巨大的“2分”,自然是来自那位评审人2#。
李老师说:“我是第一次投稿AAAI,非常尊敬周志华老师,本着对真理和学术严谨的追求,3年的成果,详尽据理的rebuttal,但审稿人完全没有认真看,实在让人无法接受!”
Arxiv让双盲评审形同虚设已经成为学界开始应对的问题,但据李老师所知,有人甚至直接找认识的人,然后给论文打9分。
“现在的学术界,真是太黑了!”
历史上首位华人学者担任AAAI大会程序主席
2017年,AAAI曾因与中国的春节撞期而改日举行,此事《大西洋月刊》报道,称“充分体现了中国在世界人工智能领域的影响力”。
当2019年AAAI的两位程序主席公布,南京大学教授周志华教授成为AAAI历史上首位非欧美学者程序主席的消息,更是引人振奋,也因此使得中国AI学界以及媒体对这次会议格外关注。
新智元第一时间联系了周志华教授,周志华教授当夜凌晨便给李老师回信,并告诉新智元,“这里面确实涉及到一些关于人工智能领域投稿的审稿观念问题,但绝对没有’黑幕’”。
周志华教授强调,“今年的AAAI,我们已经特别加强了对传说中的一些不良现象的防范。例如,不再允许审稿人看到全部投稿之后来挑选自己愿意的文章,而只是给150篇左右文章供选择。甚至SPC也不让他们看到所有文章,只是给300篇左右文章供选择。并且PC互相看不到身份,也看不到SPC的身份。这样大幅度降低了“找熟人”“打招呼”的可能。”
下面是从李老师处收到周志华教授的回信:
李同学,您好,
来信收到。我查看了您这篇文章的记录,情况跟您自己的感觉可能有些差别。下面是关于文章处理的一些大致情况供您参考:
文章有3位Reviewer,其中R1和R3是两位华人学者,R2是一位欧洲学者。您感觉R1、R3是资深专家,而R2是领域外不懂行的学者,很遗憾这个感觉是不准确的。与R1、R3相比,R2才是更资深的专家(欧洲知名高校的人工智能领域fullprofessor)。
她给了“Reject”的分数,并且称自己为 “Reviewermadeaneducatedguess”,原因她在给 Confidentialcomments中说了:“I'mnotanexpertatallinthefielddevelopedinthispaper.I'mevenwonderingwhereisthe"ArtificialIntelligence"inthepaper.Tome,itismoreadatabase/datastreamprocessingpaper,thatcouldhaveabetterplaceinrelevantconference.”
您可以看出,她认为这篇文章根本不是搞“人工智能”的,所以她说她不是专家(虽然她确实是人工智能方面的资深专家)。[注:这个confidentialcomment您和R1、R3看不到,SPC、AC能看到]
负责这篇文章的高级程序委员(SPC)是一位很资深的专家、欧洲知名高校的人工智能领域正教授,尤其是主攻大数据分析、数据流机器学习,并且在MIT出版社出版过这方面的专著,是这个主题上的国际知名专家。您的文章恰好是关于数据流的,所以这位SPC负责本文可以说是非常恰当的人选。
从系统记录看到,SPC召集了审稿人进行讨论。在讨论中,R2再次强调 “tomeit'smoreaDBpaperthananAIpaper,sincethereisnodealwithdecisionoradvancedlearning(andnotonlydataanalysis)”,“Eventhe"intelligent"partofthecontributedsystemseemstomequitelimited,andreusesalreadyknownclusteringtechniques”,显然她认为文章应该投到数据库领域的会议去,而不是人工智能领域。
R3这时挺身而出:“Clusteringisoneofthemajortechniqueofdatamining.AndclusteringdatastreamsisoneofthehotresearchtopicsintheareaofKDD,andmanypapersonthetopiccanbefoundatSIGKDDandICDM.”但是,这个意见并不能说服R2。因为数据挖掘领域大致是数据库与人工智能领域的交叉,两方面大约各占一半,不能认为数据挖掘会议合适的文章就一定合适投到人工智能的会议去。
SPC最后做出了他的判断,给出了weakreject的推荐意见,他在meta-review中避免了对“是否属于人工智能领域的工作”的争议,强调了文章本身的一些技术局限:“theauthorsdidn'tconvinceallthereviewersaboutthenoveltyofthenewapproach.Thechoiceofthebaselinemethodsfrom(Ghesmoune,Lebbah,andAzzag2016)isnotwellmotivated.Thepaperneedsamorecomprehensiveevaluationwithotherstate-of-the-artmethodsofclusteringtobemoreconvincing.”
SPC的意见提交给领域主席(AC)审定。这位AC曾担任过国际机器学习会议(ICML)和欧洲机器学习会议(ECML)的主席,是国际权威专家、而且是行内众所周知很负责的专家。他综合所有情况,做出了Reject的推荐。
从程序主席的角度来看,上述过程没有任何问题,退稿是合理的,不存在您所谓的“论文评审与录用决策完全不负责任与胡整”。
我完全理解,花费很多精力的文章被退稿,从感情上难以接受。不过,既然有两位审稿人给出了正面评价,文章本身肯定有其价值;即便是负面的意见,也提出了很多值得考虑的建议。因此,您不妨把这些来自国际同行的意见作为进一步提高改进工作的助力,相信改进后文章一定能在合适的顶级会议上发表。
附带说说关于R2的看法。现在人工智能很热,几乎所有做CS相关、甚至只要是IT相关的研究,都或多或少地能与人工智能找到联系。但是,从人工智能领域本身的顶级会议来说,比较传统的审稿专家会认为,投来的文章应该是对人工智能领域本身有贡献才合适。事实上,人工智能领域传统的几个顶级会议,原本是有很不同的flavor。近年来很多新人涌入(包括大量新审稿人),对这些传统文化已不太了解,于是许多会议开始出现“同质化”现象。很可能有与您文章主题类似的文章通过了评审,而审稿人并没有挑剔这个方面,甚至反而可能认为人工智能在今天就应该“泛化”了、只要是用到人工智能技术就都可以投过来。这些看法见仁见智,很难说哪种看法是对是错。这可以看作投稿中“运气”成分的一个体现吧。
最后,如果您了解到有损会议公正性的不良现象,建议立即向会议举报。请相信,任何一个顶级会议的声誉都是几十年积累,来之不易,对有损会议声誉的行为必然会严肃处理。
谢谢
周志华
几分钟后,周志华教授再次补发了一封邮件:
李同学,另外我想补充一点,关于最近两年在华人学者担任程序委员的人数有所增加的会议中,有些在审稿过程中出现了不良现象,我也有所听闻,例如听说有人到处找审稿人去bid自己的投稿,争取让熟人来审自己的文章,甚至通过审同一篇文章的熟人来了解其他审稿人的身份并打招呼,等等。这些不良风气,国际同行也开始有所闻,对华人学者整体形象造成了很不好的影响。所以今年在AAAI2019,我们采取了新的措施,特别加强了对传说中的一些不良现象的防范。例如不再允许审稿人看到全部投稿之后来挑选自己愿意审的文章,而只是给150篇左右文章供选择。甚至也不让SPC看到所有文章、只是给300篇左右文章供选择。PC互相看不到身份,也看不到SPC的身份;SPC也看不到AC的身份。这样我认为会大幅度降低“找熟人”“打招呼”的可能。如果有更好地“系统性”防范不良现象的建议,欢迎您告诉我。另一方面,积极推荐更多的华人学者进入国际学界、成为顶级会议的程序委员、甚至高级程序委员,我认为是应该的,这样才能增强华人学者的影响力。应该相信,自律并且公正的华人学者是绝大多数。事实上,“争取多发表几篇文章”并无意义,做出有影响力的工作才是最重要的。如果始终做灌水工作,通过拉关系、找熟人,文章发得再多也没有意义,除了给国际同行“灌水机”的印象,并不会得到同行真正的尊重。作为学者,得到同行发自内心的尊重才是最大的褒奖。共勉。
周志华
但是,这样的回信似乎并不能说服李老师。
尊敬的周老师:
您好!十分感谢您在百忙中能认真查看与处理我的邮件,并给予认真仔细地回复。衷心地感谢,并深感抱歉在您百忙中打扰您!但是,非常遗憾!您所述的稿件被拒过程和理由不能说服我,我保留个人意见。我不服的理由主要如下:1.论文评阅人#2以论文不符合论文主题,就看都不看,或者根本没有认真去看论文,就胡乱地给出一些与论文内容完全不符的意见,给出strongreject的评审结果。本人确认:该论文内容符合AAAI'2019的会议议题,会议主题网址:网址:https://aaai.org/Conferences/AAAI-19/aaai19keywords/上明确地将本人论文内容列入在其内。2.据周老师您讲:这位论文评阅人#2是位欧洲某大学AI领域资深专家,但是,她以本文论文内容不符合会议主题为由就强拒论文,另外,她其它的评审意见是完全在不认真审阅论文的情况下,胡乱与错误地评论与发表与论文内容完全不符的意见(详见我发过去的评阅人意见及我们的respones),我觉得这是极不负责与不公正的表现。3.关于论文创新性的问题,我们认真解释了论文工作的重要性与创新性。但是,论文评阅人#2和AC也全然不看我们的论文与rebuttal,最后以我们不能使所有的评阅人确认我们论文工作的创新性为由而给出reject的最终裁定。不听与不看rebuttal的作者意见,只迷信坚信权威,那还有必要有这个rebuttal阶段吗?4.据周老师您说:这位论文评阅人#2是位欧洲某大学AI领域资深专家。我不知道她是谁,也不能问周老师您她是谁。但是,我这篇论文工作是向一位全球公认的AI领域资深专家Richard Lee汇报的,论文也最终交由他审定。最后的rebuttal阶段我们的respones也是Richard Lee教授亲自修改并确定的。Richard Lee是不是全球AI领域的资深专家请您判断,我只知道:他是AAAIFellow,AAAI等领域顶会多次邀请他做大会特邀报告,2017全球AITop100重磅人物中他赫然在列!他对我论文工作的评判有没有些参考价值与可取之处请您、论文评阅人及AC判断。前面我讲过:论文中与不中对我关系都不大,我关键是觉得这事太有失公平、公正,所以要申诉。我本人已是教授与博导,这篇论文中与不中与我关系不大。我本人不像一些国内的教授博导,在坐阵指挥他/她的学生们在干科研,我本人热爱学术、淡泊名利,总是站在科研第一线。这篇论文从问题查找与突破,仿真实验设计、论文撰写与画图都是我本人亲力亲为。今天我坚持做科研与学术,仅仅就是因为热爱。我总想直面领域难题去真正解决它,在我们国家自主创新、踏实科研、在世界学术舞台去争取一些话语权而尽自己的绵薄之力。我认为:学者的一个基本品质就是诚信公正。我们科研的基本过程和目的,就是追求真理!因此,从这个角度上讲,这件事我就是觉得十分不公平,所以有必要申诉!我十分清楚我的科研工作还有很大的空间有待改进与提升,我现在和今后都会更加继续努力工作。我坚信:是金子总会发光,是好的工作终会得到公正认可。这件事我较真,我只是在真实地阐述事情本身的原委。
现在我一切释然,现在我只是将您做为学界我的榜样与同仁,真诚地向您谈谈我对此事内心的感受与感想,请您谅解海涵!
李老师
评审不专业、信息泄露,AI顶会评审严谨性曾受质疑
为了感受这次会议审稿工作量之巨大和录取标准之严格,我们可以看一下往届AAAI的论文投稿及录取情况:
1996~2019年AAAI论文投稿与录取情况:柱状图代表投稿数,从2016年开始,投稿量用“一剑冲天”来形容也不为过;相比之下,虽然投稿数激增,但近5年来录取率却有所下降,今年更是降到了历史最低的16.2%。
再宽泛一些,看看这两年来各个AI顶会的投稿和录取情况:
从数字上便能直观地感受到,AAAI 2019的审稿工作量之大,而录取标准之严。
本届大会的两位程序主席之一、南京大学的周志华教授在微博上表示,“透露一下: 平均分7分以上被拒的运气不好,但每篇这样的都经过仔细讨论。6-7分的非常多,录用的被拒的都有。6分以下的进不了讨论。”
与此同时,AI顶会论文评审专业性的问题也得到越来越多的讨论。今年7月,谷歌研究员、GAN的发明人Ian Goodfellow 就曾发推炮轰“同行评议”。
Goodfellow在推文中表示,作为频繁出任会议领域主席并且管理一支小型科研团队的研究者,他经常能看到很多人(包括他自己团队在内)工作的评审意见。
对于实证研究来说,最多的拒稿意见是没有“理论”,而对于那些提出一种新方法取得更好性能的论文,评审人往往读过一篇,然后拒稿,理由是论文没有阐释为什么这种方法表现更好,而当论文有解释的内容时,无论说得多不靠谱,甚至根本不被证据支持,心软一些的评审人也会让其通过。
Goodfellow 说:“机器学习如今的怪现象里,有一些可能不是同行评议造成的,但评审人要求增加数学(公式)、增加虚假的解释和虚假的原创性,我已经司空见惯了。”
不仅如此,连论文提交系统都爆出问题,今年8月7日,就在NIPS 2018初审结果rebuttal进行的过程当中,有人发现NIPS 2018的审稿系统出现了严重的信息泄露——跟其他上千个学术会议一样,NIPS 2018也采用MS CMT3系统进行论文的提交及审核。
而该系统所提交论文的列表会根据审稿人的域名(也即姓名/机构/公司)不断更新。因此,审稿人通过输入或者不输入某个域名冲突,再根据CMT系统给出的两个论文列表,就能明确哪些论文是属于哪个域名,换句话说,也就能够知道哪些论文是属于哪位作者或哪个单位的了。
当然,NIPS 2018会务组及时处理,在一周之内,CMT系统便得到修复,并且根据官方反馈,目前没有发现其他CS/AI学术会议的审稿信息遭到泄露。
问题还没完,今年9月,一等一的顶会CVPR也爆出漏洞——一篇已被接收的论文,根据作者公开的代码,实验结果无法复现,同行评议过程再次遭到质疑的同时,议论的焦点也变为,双盲评审该不该连代码也一起审核?
不过,针对种种问题,AAAI 2019已经做了很多努力。
正如周志华教授信中所说,今年的AAAI,不再允许审稿人看到全部投稿之后来挑选自己愿意的文章,SPC也不让他们看到所有文章,PC互相看不到身份,也看不到SPC的身份。
北京大学的万小军教授也在今年8月发微博表示,AAAI 2019采用了更严格的盲审制度,能够减少论文评审过程过招呼找关系的现象。
截至发稿前,李老师告诉新智元,他非常感谢周老师认真仔细的回复。但是,周老师所述的稿件被拒的过程和理由不能说服他,“我今天会在中国人工智能咨询委群中向学界同仁再次阐述我的不服理由,并公开我的论文评阅人意见和我们在rebuttal阶段的respones。让业界同仁评判。”
-
AI
+关注
关注
87文章
30172浏览量
268439 -
人工智能
+关注
关注
1791文章
46872浏览量
237606
原文标题:AAAI 2019评审惹争议!“好论文”遭退稿?程序主席回应
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论