0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

深度学习自然语言处理 来源:机器之心 2023-12-18 16:51 次阅读

除了表达自己获得 NeurIPS 2023 时间检验奖的感想之外,Tomas Mikolo 还对 NLP 和 ChatGPT 的现状给出了自己的一些思考。

几天前,NeurIPS 2023 公布了获奖论文,其中时间检验奖颁给了十年前的 NeurIPS 论文「Distributed Representations of Words and Phrases and their Compositionality」。这项工作引入了开创性的词嵌入技术 word2vec,展示了从大量非结构化文本中学习的能力,推动了自然语言处理新时代的到来。

这篇论文由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰写,被引量超过 4 万次。

6db585ca-9d7c-11ee-8b88-92fbcf53809c.png

不过,Word2vec 首篇论文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。这篇论文的引用量也已经接近 4 万。

6db9b87a-9d7c-11ee-8b88-92fbcf53809c.png

论文地址:https://arxiv.org/abs/1301.3781

近日,Tomas Mikolov 分享了论文背后更多的故事,包括被首届 ICLR 拒稿以及之后的进展等。

6dc46cac-9d7c-11ee-8b88-92fbcf53809c.jpg

图源:https://www.facebook.com/tomas.mikolov

以下为原贴内容,我们做了不改变原意的整理。

我非常高兴 word2vec 论文获得了 NeurIPS 2023 时间检验奖,这是我获得的第一个最佳论文类型的奖项。实际上,word2vec 原始论文在 2013 年首届 ICLR 会议被拒绝接收了(尽管接收率很高),这让我想到审稿人预测论文的未来影响是多么困难。

这些年,我听到了很多关于 word2vec 的评论,正面的还有负面的,但至今没有在网络上认真地发表过评论。我觉得研究界正在不断地被一些研究人员的 PR 式宣传淹没,他们通过这样的方式获得他人的论文引用和注意力。我不想成为其中的一部分,但 10 年后,分享一些关于论文背后的故事可能会很有趣。

我经常听到的一个评论是,代码很难理解,以至于有些人认为是我故意地让代码不可读。但我没有那么邪恶,代码最终被过度优化了,因为我等了好几个月才被批准发布它。我也试图让代码更快更短。回想起来,如果当时团队中没有 Greg Corrado 和 Jeff Dean,我怀疑自己是否会获得批准。我认为 word2vec 可能是谷歌开源的第一个广为人知的 AI 项目。

在 word2vec 发布一年多后,斯坦福 NLP 小组的 GloVe 项目也引发了很大争议。虽然该项目从我们的项目中复刻了很多技巧,但总感觉 GloVe 倒倒退了一步:速度较慢,还需要更多内存,生成的向量质量比 word2vec 低。然而,GloVe 是基于在更多数据上预训练的词向量发布的,因而很受欢迎。之后,我们在 fastText 项目中修复了相关问题,在使用相同数据进行训练时,word2vec 比 GloVe 好得多。

尽管 word2vec 是我被引用最多的论文,但我从未认为它是我最有影响力的项目。实际上,word2vec 代码最初只是我之前项目 RNNLM 的一个子集,我感觉 RNNLM 很快就被人们遗忘了。但在我看来,它应该和 AlexNet 一样具有革命性意义。

在这里,我列举一些在 2010 年 RNNLM 中首次展示的想法:递归神经网络的可扩展训练、首次通过神经语言模型生成文本、动态评估、字符和子词级别的神经语言建模、神经语言模型自适应(现在称为微调)、首个公开可用的 LM 基准。

我发布了第一项研究,显示当一切正确完成时,训练数据越多,神经网络就能比 n-gram 语言模型更胜一筹。这在今天听起来是显而易见的,但在当时这被广泛认为是不可能的,甚至大多数谷歌员工都认为,数据越多,除了 n-gram 和平滑技术外,其他任何工作都是徒劳的。

我很幸运能在 2012 年加入谷歌 Brain 团队,那里有很多大规模神经网络的「信徒」,他们允许我参与 word2vec 项目,展示了它的潜力。但我不想给人留下到这里就足够完美的印象。在 word2vec 之后,作为后续项目,我希望通过改进谷歌翻译来普及神经语言模型。我确实与 Franz Och 和他的团队开始了合作,在此期间我提出了几种模型,这些模型可以补充基于短语的机器翻译,甚至可以取代它。

其实在加入谷歌之前,我就提出了一个非常简单的想法,通过在句子对(比如法语 - 英语)上训练神经语言模型来实现端到端的翻译,然后在看到第一句话后使用生成模式生成翻译。这对短句子效果很好,但在长句子上就不那么奏效了。

我在谷歌 Brain 内部多次讨论过这个项目,主要是与 Quoc 和 Ilya,在我转到 Facebook AI 后他们接手了这个项目。我感到非常意外的是,他们最终以「从序列到序列(sequence to sequence)」为名发表了我的想法,不仅没有提到我是共同作者,而且在长长的致谢部分提及了谷歌 Brain 中几乎所有的人,唯独没有我。那时是资金大量涌入人工智能领域的时期,每一个想法都价值连城。看到深度学习社区迅速变成某种权力的游戏,我感到很悲哀。

总之,多年来人们对语言模型的兴趣增长缓慢,但自从 ChatGPT 发布以来,人们对它的兴趣呈爆炸式增长,看到这么多人终于将人工智能和语言联系在一起,真的很酷。我们还没有到达那个阶段,我个人认为我们需要有新的发现来突破神经模型的泛化极限。我们无疑生活在一个激动人心的时代。但是,让我们不要过分信任那些想要垄断基于数十位甚至数百位科学家辛勤工作的技术,同时声称这一切都是为了人类的利益的人。

不过,Tomas Mikolov 的发言也让人感叹,他也要步 LSTM 之父 Jürgen Schmidhuber 的后尘吗?

6dd0b426-9d7c-11ee-8b88-92fbcf53809c.png

图源:https://twitter.com/agihippo/status/1736107652407849208

你们怎么看呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4762

    浏览量

    68408
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22022
  • ChatGPT
    +关注

    关注

    29

    文章

    1550

    浏览量

    7545

原文标题:论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何安全有效的删代码

    和建议,帮助你更安全有效地删除代码: 确定范围 优化总是鼓励的,但方式和时间是同时需要被考虑进去的因素 方式:这个方案是否好,有无漏洞?投入产出效益比如何? 时间:是否要在这个版本,哪个版本能使所有开发投入时间最少
    的头像 发表于 11-20 10:39 169次阅读

    探索设计稿自动生成Flutter代码的技术方案

    作者:京东物流 冷先锋 近年来,随着人工智能和大模型技术的发展,设计稿(UI视图)自动生成代码的技术也在不断进步。本文将探讨几家知名企业在这一领域的探索和实践,包括美团、京东、微软等,以及一些常见
    的头像 发表于 11-08 10:09 837次阅读
    探索设计<b class='flag-5'>稿</b>自动生成Flutter<b class='flag-5'>代码</b>的技术方案

    如何有效避免PCB腐蚀过度

    PCB(印刷电路板)的腐蚀过度是一个严重的问题,可能导致电路板短路、电流容量降低、电阻增加,甚至影响设备的整体性能和寿命。为了避免这种情况,需要从多个方面入手,包括设计、材料选择、制造过程、存储环境以及维护和保养等。以下将详细探讨如何有效避免PCB腐蚀过度的策略。
    的头像 发表于 10-09 18:02 522次阅读

    Loran 和 LoRaWAN 的警示故事

    作者: Lisa Eitel 如果混淆了基于无线电的 LoRaWAN 和基于无线电的 Loran,后果不堪设想。这两种技术都是关于连接和通信技术如何成为胜出,而其他技术如何无情抛弃的精彩故事。虽然
    的头像 发表于 10-02 16:49 300次阅读
    Loran 和 LoRaWAN 的警示<b class='flag-5'>故事</b>

    《TSMaster开发从入门到精通》——创作者背后故事...

    背后故事由汽车行业畅销书作者杨金升老师牵头,同星智能研发团队和应用支持团队全力参与的《TSMaster开发从入门到精通》书籍已由清华大学出版社印付。此书一经上架,就获得汽车行业人士的一致认可和好
    的头像 发表于 09-02 08:01 305次阅读
    《TSMaster开发从入门到精通》——创<b class='flag-5'>作者</b><b class='flag-5'>背后</b>的<b class='flag-5'>故事</b>...

    谷歌DeepMind曝抄袭开源成果,论文还中了顶流会议

    谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。
    的头像 发表于 07-16 18:29 558次阅读
    谷歌DeepMind<b class='flag-5'>被</b>曝抄袭开源成果,<b class='flag-5'>论文</b>还中了顶流会议

    nlp自然语言处理模型有哪些

    : 词嵌入(Word Embedding) 词嵌入是将词汇映射到高维空间的向量表示,使得语义相近的词在向量空间中的距离更近。常见的词嵌入模型有: Word2Vec:由Mikolov等人于2013年提出
    的头像 发表于 07-05 09:57 654次阅读

    数字示波器探头过度补偿对幅频特性的影响

    的影响。 首先,让我们简要了解一下数字示波器探头的过度补偿和幅频特性的概念: 数字示波器探头的过度补偿: 数字示波器探头通常需要进行补偿,以确保它们能够准确地传输测信号到示波器上,并保持频率响应的平坦度。
    的头像 发表于 04-29 10:02 313次阅读
    数字示波器探头<b class='flag-5'>过度</b>补偿对幅频特性的影响

    CubeMx生成的代码优化等级调低不能运行怎么解决?

    一个简单的测试程序,开发环境: 芯片STM32F103+MDK 5.14+CubeMx 4.25生成一个通过串口2 printf函数打印hello world。 现象:直接生成的代码添加串口
    发表于 04-25 06:23

    KEIL怎么禁止某个函数/某段代码编译器优化

    有没有大佬知道,KEIL怎么禁止某个函数/某段代码 编译器优化
    发表于 04-10 08:17

    《合宙的第一个10年》故事连载06:成功有秘诀吗?还真有

    上文《逐字稿是很笨很笨的工具》讲到:有了逐字稿,80%的会议都不用召开了。而我也卸任了救火队员的岗位,如同开启了另一种人生。时间的脚步不紧不慢,故事继续……1侯总的三次尝试本章的故事
    的头像 发表于 03-20 08:04 476次阅读
    《合宙的第一个10年》<b class='flag-5'>故事</b>连载06:成功有秘诀吗?还真有

    英伟达擅用版权作品起诉 AI训练数据和版权的矛盾凸显

    英伟达擅用版权作品起诉 AI训练数据和版权的矛盾凸显 据外媒路透社的报道,AI训练数据和版权之间的矛盾日益凸显。英伟达因为擅用版权作品训练其NeMo人工智能平台而作者起诉。 有三位作家已发起
    的头像 发表于 03-11 14:17 537次阅读

    浅谈代码优化过度设计

    本文记录了作者从“代码优化”到“过度设计”的典型思考过程,这过程中涉及了很多Java的语法糖及设计模式的东西,很典型,能启发思考,遂记录下来。 有一天Review师妹的
    的头像 发表于 01-19 10:05 525次阅读
    浅谈<b class='flag-5'>代码</b><b class='flag-5'>优化</b>与<b class='flag-5'>过度</b>设计

    示波器探头过度补偿会怎么样?

    示波器探头过度补偿会怎么样? 示波器探头过度补偿是指通过在示波器输入部分和探头之间添加补偿电容,来修正由于探头电缆长度、电容和电感等因素引起的频率响应变化。过度补偿是当补偿电容的数值大于
    的头像 发表于 01-08 14:26 629次阅读

    ICLR 2024高分投稿:用于一般时间序列分析的现代纯卷积结构

    这篇是 ICLR 上用 TCN 来做一般的时间序列分析的论文,在 Rebuttal 之后的分数为 888,算得上是时间序列领域相关的论文中最高分那一档了。本文提出了一个 ModernTCN 的模型
    的头像 发表于 12-18 16:05 835次阅读
    <b class='flag-5'>ICLR</b> 2024高分投稿:用于一般时间序列分析的现代纯卷积结构