0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MIT推新型机器算法,可破译消失已久的古语言

如意 来源:开源中国 作者:白开水不加糖 2020-10-28 14:54 次阅读

麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人员最近开发出了一种新的计算机算法,可以帮助语言学家自动破译历史上消失已久失的古语言。

官方指出,该系统能够自动破译已消失的语言,且无需对这一语言与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

CSAIL 方面称,最近的研究表明,大多数曾经存在过的语言已经不再被使用。其中有数十种已灭绝语言也已被认为是“未破译”的语言。这就意味着,大众对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)都了解不足,也无法理解其文本的意思。

而研究这些“未破译”的语言,除了是出于学术上的好奇心。还在于,不理解语言我们就会错过与讲这些语言的人有关的一整套知识体系。然而不幸的是,大多数灭绝语言的相关记录都非常的少,导致科学家无法使用谷歌翻译之类的机器翻译工具或 AI 算法来对其进行解密。

因此,此次 CSAIL 团队推出这一新算法的最终目的就是,旨在只用几千个单词,就可以破译语言学家几十年来难以理解的失传语言。

本次研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。例如,语言通常仅以某些可预测的方式发展。具体表现为:一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。像母语中带有“p”发音的单词就可能会在其后代演变中变为“b”,但是由于明显的发音差异,变为“k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 和 MIT 博士生 Jiaming Luo 开发了一种解密算法,该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关模式,并将其表达为计算约束(computational constraints)。生成的模型可以将古代语言中的单词进行细分,并将其映射到相关语言中的对应单词。

该项目建立在 Barzilay 和 Luo 去年写的一篇论文的基础上, 这篇论文解密了已灭绝的 Ugaritic 和 Linear B 语言,后者以前需要数十年的时间才能被人类解码。但是,两个项目之间的主要区别在于,该团队此前就已经知道这些语言分别与希伯来语和希腊语的早期形式有关。

新算法可以推断语言之间的关系,这是语言解密中的最大挑战之一。该算法可以评估两种语言之间的相似度,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。其表示,“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性。但是关键的研究问题在于,在没有任何古代语言训练数据的情况下,这项任务是否可行? ”
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4600

    浏览量

    92649
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23363
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14873
收藏 人收藏

    评论

    相关推荐

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器学习任务设计的处理器,其与
    的头像 发表于 11-15 09:19 317次阅读

    自然语言处理与机器学习的区别

    在人工智能的快速发展中,自然语言处理(NLP)和机器学习(ML)成为了两个核心的研究领域。它们都致力于解决复杂的问题,但侧重点和应用场景有所不同。 1. 自然语言处理(NLP) 定义: 自然
    的头像 发表于 11-11 10:35 362次阅读

    【《大语言模型应用指南》阅读体验】+ 基础篇

    章节介绍了机器学习,从方法论上来看,机器学习属于归纳推理;从开发设计方式来看,机器学习属于自动编程。我们平时使用各种计算机高级语言编写程序代码,这属于人工编程的范畴;
    发表于 07-25 14:33

    ROS让机器人开发更便捷,基于RK3568J+Debian系统发布!

    ,简单快捷地调用合适的算法库,以提高开发效率,加快开发进程。 (2) 开源免费,架构精简 ROS系统是一个开源免费,架构精简的机器人操作系统。ROS被设计为尽可能精简,以便为ROS编写的代码与其
    发表于 07-09 11:38

    Al大模型机器

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器人有哪些的优势?萨科微AI大模型机器人由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优势:语言
    发表于 07-05 08:52

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习算法原理,包括线性回归、逻辑回归、支持向量机(SVM)、决策树和K近邻(KNN)
    的头像 发表于 07-02 11:25 790次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每
    的头像 发表于 06-27 08:27 1578次阅读
    <b class='flag-5'>机器</b>学习的经典<b class='flag-5'>算法</b>与应用

    abb工业机器人的编程语言是什么

    ABB工业机器人的编程语言主要是RAPID(Robot Application Programming Interface for Development),它是一种高级编程语言,专门为工业
    的头像 发表于 06-16 16:49 2386次阅读

    AI算法的本质是模拟人类智能,让机器实现智能化

    电子发烧友网报道(文/李弯弯)AI算法是人工智能领域中使用的算法,用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习、强化学习等技术实现,并被广泛应用于语音识别、自然
    的头像 发表于 02-07 00:07 5628次阅读

    无需电池、自供电,MIT开发出新型传感器

    电子发烧友网报道(文/吴子鹏)近日,麻省理工学院(MIT)的研究人员发表论文称,该团队开发出了一种无需电池、自供电的传感器,可以从环境中获取能量。由于它不需要必须充电或更换电池,也不需要特殊的布线
    的头像 发表于 01-24 00:05 3283次阅读
    无需电池、自供电,<b class='flag-5'>MIT</b>开发出<b class='flag-5'>新型</b>传感器

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 366次阅读
    <b class='flag-5'>机器</b>人基于开源的多模态<b class='flag-5'>语言</b>视觉大模型

    语言模型在机器人上的应用及面临的挑战

    。   一些机器人现在能够理解人类的语言,并与之进行交流。此外,一些新型的智能机器人还具备学习能力。他们可以通过大量的数据和经验,不断地优化自己的行为和决策,提高自身的性能。这种能力使
    的头像 发表于 01-09 00:05 1704次阅读

    基于机器翻译增加的跨语言机器阅读理解算法

    近日,阿里云人工智能平台 PAI 与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议 EMNLP2023 上发表基于机器翻译增加的跨语言
    的头像 发表于 12-12 10:28 557次阅读
    基于<b class='flag-5'>机器</b>翻译增加的跨<b class='flag-5'>语言</b><b class='flag-5'>机器</b>阅读理解<b class='flag-5'>算法</b>

    拆解大语言模型RLHF中的PPO算法

    由于本文以大语言模型 RLHF 的 PPO 算法为主,所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步,即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章,所以我在叙述的
    的头像 发表于 12-11 18:30 2094次阅读
    拆解大<b class='flag-5'>语言</b>模型RLHF中的PPO<b class='flag-5'>算法</b>

    ROS让机器人开发更便捷,基于RK3568J+Debian系统发布!

    人领域的集大成者,主要应用于机器人控制领域,如AGV工业机器人控制器、智能机械臂控制器、机器人导航系统等。 ROS系统主要特点有哪些 (1) 提供丰富的机器
    发表于 11-30 16:01