0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能出击:破解梵蒂冈神秘卷宗之谜

向上 来源:网络整理 作者:工程师李察 2018-06-17 15:22 次阅读

导读: 由于传统OCR技术是把单词分割成一个个字母来识别的,所以对于这类连体字,OCR无法识别字母。有人想出了一个方案,直接让OCR去识别一个个的单词,但是,如何让OCR掌握成千上万的拉丁文单词呢?大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

这个 AI 认识中世纪手写拉丁文

“以后青铜铭文也交给 AI 来识别好了!”

AI 识别文字已经不算是什么难事,但是如果字体是手写,而且还是古文呢?

这似乎听起来具有相当的难度!

梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

这座恢宏的建筑坐落在梵蒂冈城墙之内,毗邻使徒图书馆、位于西斯廷大教堂北侧,拥有着可追溯于1200年之前的总长达53英里的书架。除了将Martin Luther逐出教会的《教皇诏书》之外,其中还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。在规模与范围方面,其中的收藏几乎著称无与伦比。

然而,梵蒂冈秘密档案馆对现代学者却没多大现实意义。因为在这长达53英里的书架当中,只有极少数书页经过扫描以提供在线版本,这当中的一小部分转录为计算机文本以供内容搜索。如果我们打算阅读其它任何内容,则必须申请特殊的访问权限,一路前往罗马,并亲自动手翻开这些古籍。

传统 OCR 技术只适用于经过严格排版的文字,而对于字母之间缺少间隔空间(即脏分割)的手写卷宗形式则无法识别。对此, Codice Ratio 项目利用拼图分割法将单词理解为一种单笔笔划,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。该软件的手写字母判断准确率已经高达96%。如果成功,这项技术还将被用于处理世界各地其它历史档案库当中数不胜数的其它记录文件。

人工智能出击:破解梵蒂冈神秘卷宗之谜

利用拼图分割法让 OCR 识别连体字

由于传统OCR技术是把单词分割成一个个字母来识别的,所以对于这类连体字,OCR无法识别字母。有人想出了一个方案,直接让OCR去识别一个个的单词,但是,如何让OCR掌握成千上万的拉丁文单词呢?大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

除了请专家辨认单词外,还有更简单的方法帮助OCR识别手写字母,只要找实习生就可以搞定了。

我们知道,无论中文还是英文,连体字中粗的部分是笔画,细的部分是笔尖移动造成的虚线,并不是笔画的一部分。根据这个原则,In Codice Ratio的专家们发明了新的方法——拼图分割法。拼图分割法改变了传统OCR把单词分成字母的传统方式,而是是把连在一起的单词按照笔画分隔开,在此之后,该软件会进一步进行字母绘制,并最终生成以下一系列拼图碎片:

这些拼图碎片本身作用不大,但该软件能够将其通过多种方式组合起来以生成可能的字母。具体来讲,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。

为了教会软件这项能力,研究人员们选择了不同寻常的导师——高中生。该团队在意大利的24所学校当中招募了一批高中生用于建立项目的记忆库。学生们在登录相关网站后,会看到如下图所示的三分屏幕界面:

人工智能出击:破解梵蒂冈神秘卷宗之谜

之后,就要让识别系统判断对错:识别出的字母,哪些是真正的字母,哪些是虚线的误判。

通过一次次点击,学生们努力教授该软件如何识别22个中世纪拉丁字母(a-i,l-u,以及s与d的某些替代形式)。 22个中世纪拉丁文字母都学会之后,这个识别系统就成为了一个能认识手写体中世纪拉丁文的AI。

当然,最终学生们也不再需要参与其中。当训练进行到一定阶段之后,该软件即可独立拼图,并自行判断字母的具体位置。这,正是人工智能的价值所在。

在另一方面,这也证明单靠拼图碎片还不足以组合出正确的字母。计算机仍然需要额外的帮助才能破解手写文本的秘密。想象一下,大家正在读信,并在其中看到下面这句:

中间的单词到底是“clear”还是“dear”?很难判断,因为“d”与“cl”的笔画构成实际上完全相同。OCR软件也面临着同样的问题,特别是在处理高度风格化的文本时更是如此。以下图为例:

在经过不同的拼图组合之后,OCR认为可能的选项包括aimo、amio、aniio、aiino甚至是aiiiio。但这个词实际上是anno,也就是拉丁语中的年。该软件认准了a和o,但却弄不清中间的四个竖到底该如何划分。

为了解决这个问题,Codice Ratio团队不得不为自己的软件提供一些常识性的知识。他们建立起一套包含150万个经过数字化的拉丁词汇语料库,并对其中的双字母与三字母组合进行了检查。通过这种方式,他们确定了哪些字母组合较为常见,而哪些永远不会出现。通过将这些统计信息提供给OCR软件,其能够了解到不同字符串的具体出现概率,从而意识到nn比iiii的可能性高得多。

随着这样的改进,OCR终于能够自行阅读部分文本了。该团队决定为其提供一些来自梵蒂冈秘密归案馆的资料。这是一份超过18000页的档案集合,其中包括写给欧洲国王的信件、关于法律问题的裁决以及其它信件。

最初的结果有好有坏。在迄今为止的全部转录文本中,有三分之一文档中包含一处或多处拼写错误——意味着OCR作出了错误的判断。然而,该软件仍然带来了高达96%的手写字母判断准确率。Merialdo表示,即使是“不完美的转录结果,亦可提供关于手稿内容及背景的大量有价值信息。”

经过对AI更专业的训练后,它可以识别各大文明的古代文献并电子化。

所以,为了给AI提升难度,青铜铭文了解一下?

梵蒂冈秘密档案馆(Vatican Secret Archives):由教皇保罗五世(Pope Paul V)主导创立,是欧洲教会中收藏档案最丰富,最古老的档案馆。梵蒂冈秘密档案馆拥有着可追溯于1200年之前的总长达53英里的书架,其中保存着各种古籍、历史事件档案、教皇的私人信件以及一些有关超自然现象和神秘学的资料。梵蒂冈秘密档案馆收录了许多重要史料,除了将 Martin Luther 逐出教会的《教皇诏书》之外,还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    32082

    浏览量

    270981
  • 人工智能
    +关注

    关注

    1799

    文章

    47973

    浏览量

    241392
收藏 人收藏

    评论

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    嵌入式和人工智能究竟是什么关系? 嵌入式系统是一种特殊的系统,它通常被嵌入到其他设备或机器中,以实现特定功能。嵌入式系统具有非常强的适应性和灵活性,能够根据用户需求进行定制化设计。它广泛应用于各种
    发表于 11-14 16:39

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    幸得一好书,特此来分享。感谢平台,感谢作者。受益匪浅。 在阅读《AI for Science:人工智能驱动科学创新》的第6章后,我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。在
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    周末收到一本新书,非常高兴,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 《AI for Science:人工智能驱动科学创新》这本书的第一章,作为整个著作的开篇
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    RISC-V在人工智能图像处理领域的应用前景十分广阔,这主要得益于其开源性、灵活性和低功耗等特点。以下是对RISC-V在人工智能图像处理应用前景的详细分析: 一、RISC-V的基本特点 RISC-V
    发表于 09-28 11:00

    人工智能ai 数电 模电 模拟集成电路原理 电路分析

    人工智能ai 数电 模电 模拟集成电路原理 电路分析 想问下哪些比较容易学 不过好像都是要学的
    发表于 09-26 15:24

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    ! 《AI for Science:人工智能驱动科学创新》 这本书便将为读者徐徐展开AI for Science的美丽图景,与大家一起去了解: 人工智能究竟帮科学家做了什么? 人工智能将如何改变我们所生
    发表于 09-09 13:54

    人工智能从何而来

    当大家都在讨论人工智能的时候,有一个问题似乎很少有人关注,即:人工智能从何而来?
    的头像 发表于 09-06 09:27 775次阅读

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    人工智能计算机视觉

    人工智能教学资料。
    发表于 07-18 11:31 0次下载

    人工智能概述

    人工智能关键技术概述
    发表于 07-17 17:17 0次下载

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2) 课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40