Nature高光论文被质疑存在重大缺陷-电子发烧友网

一篇一年前的Nature论文近日在Reddit上引发热议，一位数据科学家认为这篇预测地震余震的论文在数据处理方法上存在重大缺陷，导致实验结果虚高，他向Nature去信反映意见，后者承认问题存在，但认为没有必要修正，而论文作者则态度强硬，不承认论文有问题。有人整理了事件的来龙去脉，引发热烈讨论。

近日，一篇一年前发表在《Nature》上的一篇关于使用深度学习技术预测大地震余震的文章在Reddit上引发热议。

事情的起源是，一位名叫Rajiv Shah数据科学家认为，这篇由哈佛大学和谷歌联合发表的论文在训练数据集和测试数据集划分和选择上存在重大缺陷，造成了“目标泄露”，导致预测性能结果偏高。这实际上使整个实验结果不再有效。

于是他联系了《Nature》表达了自己的对这篇文章的不同意见，然而Nature方面尽管承认他的意见有合理之处，论文在模型和算法设计上存在缺陷，但拒绝对此进行修正。两位论文作者也给出回复意见，否认了Rajiv Shah的全部意见。

一年前旧账重提：一篇Nature论文缺陷引发的争议

于是，近日Rajiv Shah在Medium上发文，将此事的整个过程讲述了一遍，并坚持自己的观点。随文附上了Nature论文、自己与Nature方面的通信往来，以及作者的回复意见等。热心网友将此文转到Reddit上，引发热烈讨论：

来看看当事人Rajiv Shah在Medium上的博客文章对于此事的梳理：（Medium原文编译）

人工智能，机器学习，预测建模和数据科学的研究在过去几年中发展迅速。随着人工智能研究和相关产业的持续增长，新一代的机器学习增强、自动化和GUI工具的诞生让越来越多的人构建预测模型。

但这样问题就来了：虽然使用预测建模工具变得更容易，但预测建模知识还不够普及，如果不小心，就很容易导致错误的结论。

不良方法会导致不准确的结果

大概一年前，我在《自然》上读到一篇文章，声称通过深度学习预测地震的余震达到了前所未有的准确性。但读过之后，我对他们的声称的结果产生了深深的怀疑。他们的方法的建模过程完全不够仔细，导致结果不再可信。

与此同时，这篇论文引发了广泛关注和认可。甚至在Tensorflow的官方说明中也提到了这篇文章，作为深度学习应用的例子。我发现这篇论文存在重大缺陷。论文中出现的数据泄漏问题会导致文中得出的准确度得分偏高，而且预测方法在模型选择上也不够关注（如果更简单的模型可以达到同样的准确度，就不必构建6层神经网络了）。

回到我之前的观点：论文中使用的方法很精巧，但在基本预测建模上的错误可能会使实验的整个结果无效。数据科学家应该在工作中及时发现并避免这些问题。我认为本文作者们完全忽略了这一点，所以我联系了作者，希望能改进文中的分析流程。虽然我们之前沟通过，但关于这篇文章的疑问，她没有回复我的邮件。

Nature回复：承认瑕疵，拒绝修正，论文作者表示没毛病

那么，我该怎么办？我的同事建议我发个Twitter就算了，但我认为应该大力提倡良好的建模习惯和理念。所以在接下来的6个月里，我一直在记录自己的结果，并与Nature方面进行了分享。

今年1月，我收到了Nature的一份回复说明，认为尽管关于数据泄漏和模型选择的严重问题使文中的实验结果不够可靠，但他们认为没有必要纠正，因为Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力，重点不是算法设计的细节。而此文的作者则做出了措辞更为严厉的回应。

我感到很失望。这是一篇重磅论文（毕竟发在Nature上啊），尽管文中的方法有缺陷，但它还是发表了，推动了对人工智能的又一波追捧。

本周，两位从事地震分析的数据科学家Arnaud Mignan和Marco Broccardo也撰文指出了在Nature那篇余震预测文章中发现了缺陷。我也把我自己的分析和可重现的代码放在了github上。

我想说清楚一点：我不是故意和Nature那篇论文的作者人品有问题。我不认为她们是有意为之，她们的目标只是展示如何将机器学习技术应用于余震预测。文章作者之一Devries是一位多才多艺的地震科学家，希望将最新的方法用于她的研究领域，并从中找到亮眼的结果。

但问题在于：这些观点和结果是基于有根本缺陷的方法得出的。仅仅说“这不是机器学习论文，而是地震论文”是解释不了的。一旦使用了预测模型，那么预测结果的质量就取决于建模质量，取得的成果就属于数据科学的成果，数据科学的结果必须严谨。

期刊方面历来对刊登对关于最新技术和方法的论文兴趣极高，但是，如果我们允许有基本问题的论文或项目取得进展，就会伤害我们所有人，对预测建模领域造成破坏。

Nature论文介绍：深度学习预测余震效果拔群

实际上，新智元在此前的报道中曾对Nature这篇文章进行过简要介绍：

谷歌和哈佛大学在Nature杂志发表的一篇论文中，研究人员展示了如何用深度学习预测余震位置，而且预测结果比现有模型更可靠。

他们训练了一个神经网络，在一个包含131000多个“主震-余震”事件的数据库中寻找模式，然后在一个包含30000对类似事件的数据库中测试其预测。

“主震-余震”事件的一个样本

深度学习网络比最有用的现有模型（称为“库仑破裂应力变化”）更可靠。在从0到1的精度范围内——1是完全准确的模型，0.5是一半准确的模型——现有库仑模型得分为0.583，而新的AI系统达到0.849。

“关于地震，你需要知道三件事情，”研究人员说：“它们什么时候发生、它们会有多强烈、它们会发生在哪里。在这项工作之前，我们有经验定律来解释它们发生的时间和规模，现在我们正在研究它们可能发生在哪。”

人工智能在这一领域的成功归功于该技术的核心优势之一：它能够发现复杂数据集中以前被忽视的模式。这在地震学中尤为重要，因为在地震学中看到数据中的关联性非常困难。地震事件涉及太多变量，从不同区域的地面构成到地震板块之间的相互作用类型，以及能量在地震波中穿过地球传播的方式。理解这一切是非常困难的。

研究人员表示，他们的深度学习模型能够通过考量一个被称为“米塞斯屈服准则”（von Mises yield criterion）的因素来做出预测，这是一种用于预测材料何时开始在压力下破裂的复杂计算。研究人员表示，这个因素常用于冶金等领域，“但在地震科学中从未流行过。”现在，随着这一新模型的发现，地质学家可以研究其关联性。

尽管这项研究取得了成功，但它还远未准备好在现实世界中应用。首先，AI模型只关注由地面永久性变化引起的余震，称为静态应力。但后续地震也可能是由于后来发生的地面隆隆声造成的，称为动态压力。现有模型也太慢而无法实时工作。这很重要，因为大多数余震发生在地震发生后的第一天，然后每过一天频率大致减半。

Rajiv的意见：训练方法缺陷导致“目标泄露”，实验结果虚高

在Rajiv致Nature的信中，指出这篇文章中存在“重大方法性错误”，使得文章结论不再严谨可靠。Rajiv主要提出了三点意见，以第一点为主。

第一，文中对模型训练和测试数据运用存在缺陷，出现了“目标泄露”（Target Leakage），论文中公布的预测精度实际上是偏高的结果（AUC=0.849）。论文中使用地震中部分数据来训练模型，然后再次使用这些数据来测试模型。这种目标泄露会导致机器学习中的结果偏高，而实际效果并没有这么好。为了避免这一错误，需要使用“分组分区”的方法，保证地震数据只会出现在训练部分或测试部分其中之一,而本文没有这样做。

第二个问题是没有使用学习曲线。

第三是上来就使用深度学习模型，而没有考虑逻辑回归、随机森林等基线方法。这可能会给读者造成误导，认为只有深度学习才能对余震预测任务取得良好效果，实际上并非如此，许多其他方法（如SVM、GAM）都可以获得与文中模型基本相当的性能。

在Nature的回复中，实际上在一定程度上承认了Rajiv意见的合理性，但拒绝对此进行纠正。

Nature方面的态度是：

尽管关于数据泄漏和模型选择的问题使文中的实验结果不够可靠，但没有必要纠正，因为本文作者Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力，算法设计的细节不是重点。

而论文作者方面给出的回复意见对这三点均予以反驳，二位作者表示：

1、Rajiv关于“数据泄露”使得模型性能虚高的说法在科学背景下不具备合理性。对地震数据训练集和测试集的分组符合机器学习的基本方法。

2、本文使用神经网络作为工具，为了获得关于余震的一些模式信息，并没有表示其他机器学习方法无用的意思。

3、整个文章的主旨就是神经网络能够成功学习简单的模式。

二位作者还在回复意见的最后部分表示，Rajiv的评论没有任何科学背景。我们是地震科学家，我们的目标是利用机器学习获得关于余震位置模式的信息，完成这个目标的是我们，而不是Rajiv的这些评论。如果Nature选择公开这些评论，我们会感到很失望。

网友热议：Nature承认有问题就该改，作者态度令人堪忧

Nature上的文章从来不缺少关注，尤其是出现重大争议的文章。虽然是一笔一年前的老账，但来龙去脉还很清楚，毫无悬念地成为Reddit上头号热帖。

从回复的热门帖子看，很多网友认为Rajiv的批评意见值得充分讨论，而Nature在承认论文中的算法存在一定问题的情况下仍然拒绝修改，没有尽到应尽的责任。至于二位作者的回复，一方面缺乏面对反对意见时的风度，而且对某些重要概念（比如数据泄露）的理解存在问题。

下面简单摘选几个：

1、我觉得论文作者的回复比批评意见本身更为“居高临下”啊。意见中提到使用更简单的方法也能得到基本相同的结果，这说明进行一些模型简化测试很有必要。尤其是作者回复的最后一段，简直是在说：我们是地震科学家，敢问您是哪位啊？然后还跟Nature讲，如果你公布了这些评论意见，我们会“很失望”的。作者凭什么这么说？为什么这些评论意见不该公布？难倒公布了不正能引发更多良性的科学讨论吗？而且评论中的意见也不是孤例，其他文章中也有提到这个问题。如果我是这篇文章的会议审稿人，我也会有类似的疑问，至少我会要求作者作一些模型简化测试。

2、我读了论文作者（Phoebe DeVrias和Brendan Meade）对Nature编辑的回应。虽然我不知道这些评论的背景，但可以肯定地说，她们面对批评意见表现得非常不成熟。

3、“我们承认在训练和测试集中都使用了来自同一地震的数据，但这并不重要，因为我们是聪明的地震科学家。”嗯，很好很强大。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47442

浏览量
239020
论文

论文

+关注

关注
1

文章
103

浏览量
14969
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24742

原文标题：Reddit热议：Nature预测余震论文被疑存重大缺陷，论文作者回怼

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

光伏行业协会质疑央企项目低价中标

近日，中国光伏行业协会就国家能源集团下属企业一光伏组件项目的招投标结果发出严厉质疑。协会连发“四连问”，对项目招投标的合规性、合理性及实际执行情况提出了深刻关切。据协会指出，尽管协会已连续两个月

发表于 12-20 10:29 •251次阅读

X-RAY检测设备用于检测集成电路缺陷瑕疵

X-ray检测设备在集成电路缺陷瑕疵检测中发挥着至关重要的作用。以下是对X-ray检测设备在集成电路缺陷瑕疵检测方面的详细阐述：一、检测原理X-ray检测设备基于X射线穿透被测物质时存在

发表于 12-02 18:07 •272次阅读

触觉传感重磅《Nature》！无线、低功耗、多刺激模式触觉电子皮肤（附原论文）

中有广泛的应用。在触觉传感方面，已有众多Nature、Science子刊发表，但是Nature正刊却仍十分稀少。近日，美国西北大学John A. Rogers/黄永刚大连理工大学解兆谦联合团队提出了一个微型化的机电结构，当与皮肤结合时，能

发表于 11-14 18:13 •852次阅读

一文详解SiC的晶体缺陷

SiC晶体中存在各种缺陷，对SiC器件性能有直接的影响。研究清楚各类缺陷的构成和生长机制非常重要。本文带你了解SiC的晶体缺陷及其如何影响SiC器件特性。

发表于 11-14 14:53 •786次阅读

Aigtek功率放大器在高功率近红外光梳系统中的应用

的结构框图，其中放大器输出高功率脉冲经过一个分束片后，约1W的功率被用于CEP零频和重复频率的探测，剩下被直接送入声光频移器。在光梳系统中，需要被精密控制的量主要包括了重复频率fr和载

发表于 11-11 11:13 •215次阅读

Coherent高意首推L波段800G ZR/ZR+可插拔光模块

高速光网络技术的领先企业Coherent高意近日宣布了一项重大创新——首次推出采用QSFP-DD封装形式的L波段800 Gbps相干可插拔光模块。这一新品为超大规模数据中心和电信运营商提供了低成本、高效率的光纤容量解决方案。

发表于 10-12 16:39 •771次阅读

识光发布高集成度大面阵SPAD-SoC SQ100

在追求更高效、更智能的传感技术浪潮中，识光科技近日重磅推出了其自主研发的SPAD-SoC新品——SQ100。这款高集成度、大面阵的设计，不仅标志着SPAD技术的一次重大突破，更以其真2D可寻址的特性，为解决

发表于 08-07 18:12 •1018次阅读

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

发表于 07-16 18:29 •609次阅读

基于振幅型空间光调制器实现具有鲁棒性且高对比度的多焦点聚焦方法

论文信息背景引入光学散射是自然界中一种普遍的物理现象，光散射是由于光在介质中传播路径的复杂性和时空不均匀性所致，例如，在生物样品和白色涂料等复杂光子介质中广泛存在结构无序和不均匀性。光在通过无序

发表于 06-20 15:15 •352次阅读

外观缺陷检测原理

产品外观是影响产品质量最重要的因素之一，其平整度、有无瑕疵等不仅影响到产品美观，甚至能够直接影响产品本身的使用和后续加工，给企业带来重大经济损失。随着人工智能技术的快速发展，机器视觉与AI技术

发表于 06-17 17:38 •442次阅读

清华类脑视觉芯片取得重大突破，“天眸芯”登上Nature封面

电子发烧友网报道（文/李宁远）5月30日，来自清华大学类脑计算研究中心团队的类脑互补视觉芯片“天眸芯”登上了《Nature》封面。文章名为“A vision chip

发表于 06-01 00:54 •4775次阅读

请问STM32硬件I2C存在什么缺陷？

我看野火的库函数开发手册里面感觉用I2C用的挺顺的呀为什么张洋却说STM32的I2C有缺陷不推荐用请问下各位在使用I2C的时候碰到过什么情况吗我怎么都没感觉到I2C的缺陷能否说下这个缺陷是什么

发表于 05-16 07:46

深圳恒兴隆｜制造业的新星：高光超精电主轴的崛起...

深圳恒兴隆｜制造业的新星：高光超精电主轴的崛起随着工业技术的飞速发展，高精度、高效率的加工设备在制造业中扮演着至关重要的角色。在众多先进技术中，高光超精电主轴凭借其卓越的性能和创新的设

发表于 05-13 09:55

深圳恒兴隆机电｜高光玻璃电主轴：高效精密加工的新选择...

深圳恒兴隆机电｜高光玻璃电主轴：高效精密加工的新选择在当今的工业制造领域，高光玻璃电主轴以其高精度和高效率的特性，正逐渐成为精密加工行业的新宠。这种技术不仅提升了加工效率，更在产品质量

发表于 04-22 10:48

如何应对工业缺陷检测数据短缺问题？

这篇论文介绍了一种文本引导的变分图像生成方法，旨在解决工业制造中的异常检测和分割问题。传统方法通过训练非缺陷数据的分布来进行异常检测，但这需要大量且多样化的非缺陷数据。

发表于 03-14 10:15 •513次阅读