0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首个基于深度学习的端到端在线手写数学公式识别模型

倩倩 来源:lq 作者:SandaG 2019-09-20 15:35 次阅读

本文简要介绍 2018 年 5 月被 TMM 录用论文“ Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作 。该论文是 2017 年发表在 ICDAR 上的文章 [1] 的升级版,主要解决了在线手写数学公式的识别问题。

该论文中介绍的方法获得了国际最大在线手写数学公式比赛 CROHME2019 的冠军,且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍,如 MyScript , Wiris , MathType 等,突出了该算法较传统数学公式识别算法的优势。

一、研究背景

手写数学公式识别较传统 OCR 问题而言,是一个更复杂的二维手写识别问题,其内部复杂的二维空间结构使得其很难被解析,传统方法的识别效果不佳。随着深度学习在各领域的成功应用,文章 [2] [3] 首次提出了基于深度学习的端到端离线数学公式算法,并在公开数据集上较传统方法获得了显著提升,开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出,论文 TAP 则是首个基于深度学习的端到端在线手写数学公式识别模型,且针对数学公式识别的任务特性提出了多种优化。

二、TAP原理简述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整体结构。 TAP 遵循文章 [2] [3] 中的做法,将数学公式的树结构识别问题转换成了数学公式 LaTeX 字符串识别问题。这一思路的转换简化了数学公式识别问题,使端到端的识别成为了可能。 TAP 的基本框架为基于注意力机制的编解码模型,也称 Encoder-Decoder 模型 [4] ,其将输入的轨迹点序列通过 Encoder 编码得到高维特征表达,依靠 Attention 机制找出高维特征中的关键部分以用于解码出当前时刻的 LaTeX 字符,直至解码结束。

TAP 延续了会议文章 [1] 中的 Encoder 框架,在 Attention 机制上针对在线手写公式识别提出了 Spatial Attention, Temporal Attention, Attention Guider 用于改善 Attention 的对齐以及 Decoder 的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 机制,除了常用的S patial Attention 外,还采用了T emporal Attention 机制。其中,S patial Attention 利用了A ttention 的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。

而T emporal Attention 用于处理 LaTeX 中的结构字符的特殊对齐。因为在 LaTeX 的语法规则中,为了重现数学公式语言里的二维空间结构,需要额外有一些特殊的结构字符来形成语法,而这些特殊的结构字符在输入的数学公式中不存在,因而S patial Attention 无法完成对齐,此时则需要T emporal Attention 来补足这个不存在的对齐空缺,既能不干扰S patial Attention 的学习,又能提高D ecoder 的解码能力,进一步提升性能。

Fig.3. Illustration of the attention guider

此外, TAP 还采用了A ttention Guider 来强化S patial Attention 的学习,从 Fig 3 中可以看出,在使用了A ttention Guider 来引导S patial Attention 的学习后,S patial Attention 的对齐效果显著提升,十分精确,并且效果也反映到了最终的识别性能上。

三、主要实验结果及可视化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 来看,文章所提方案在 CROHME2014 和 CROHME2016 公开数据集上取得了 state-of-the-art 的结果,且较传统方法有巨大的提升,验证了该方法的有效性,且 TAP 展示的结果相对于会议版本也有了进一步的提升,体现了H ybrid Attention 在纠正对齐和提升性能处起到了关键作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是对于T emporal Attention 的可视化,可见T emporal Attention 能够很正确的帮助 Spatial Attention 区分结构字符和实体字符。 Fig 5 是对 Hybrid Attention 整体在一个手写数学公式实例上的可视化。 Fig 6 列出了一个手写数学公式在线和离线模态互补性的实例,由于存在倒笔现象,单纯的在线模型无法正确识别该例子,而通过离线模型的融合辅助最终使得这个公式例子被正确识别(由于符号定义过多,更详细的内容请参考原文,链接附后)。

四、总结及讨论

1. TAP-ICDAR 版首次提出了基于深度学习的端到端在线手写数学公式识别模型,将树形结构识别问题巧妙转换成了 LaTe X 字符串识别问题,成功突破了传统方法在该问题上的性能瓶颈, 开辟了全新的在线数学公式识别框架。

2. TAP-TMM 相比 TAP-ICDAR 而言, 进一步提出了 Hybrid Attention ,不仅提高了 Attention 的对齐准确度,也针对性地处理了 LaTeX 中结构字符的对齐和生成,且效果最终都很好地反映在了最终的识别性能上。此外,通过融合离线模态的全局特性,进一步提升了在线手写数学公式的识别率。

3. TAP 中汇报出来的在 CROHME2014 及 CROHME2016 上的识别率,至今仍是最好的公开结果,相关算法也在 CROHME2019 竞赛上获得了第一名,并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍 。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4620

    浏览量

    93046
  • 识别模型
    +关注

    关注

    0

    文章

    5

    浏览量

    6754
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121272
收藏 人收藏

    评论

    相关推荐

    阶跃星辰发布国内首个千亿参数语音大模型

    近日,阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数语音大模型。该模型被誉为“国内
    的头像 发表于 12-17 13:43 229次阅读

    黑芝麻智能算法参考模型公布

    黑芝麻智能计划推出支持华山及武当系列芯片的算法参考方案。该方案采用One Model架构,并在决策规划单元引入了VLM视觉语言大模型和PRR行车规则的概率化表征子模块,进一步提升
    的头像 发表于 12-03 12:30 330次阅读
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法参考<b class='flag-5'>模型</b>公布

    连接视觉语言大模型自动驾驶

    自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为
    的头像 发表于 11-07 15:15 278次阅读
    连接视觉语言大<b class='flag-5'>模型</b>与<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶

    智己汽车“”智驾方案推出,老司机真的会被取代吗?

    随着智能驾驶技术的发展,行业已经从早期基于简单规则和模块化逻辑的自动驾驶,逐步迈向依托深度学习的高复杂度智能驾驶解决方案,各车企也紧跟潮流,先后宣布了自己的
    的头像 发表于 10-30 09:47 306次阅读
    智己汽车“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智驾方案推出,老司机真的会被取代吗?

    AI大模型深度学习的关系

    人类的学习过程,实现对复杂数据的学习识别。AI大模型则是指模型的参数数量巨大,需要庞大的计算资源来进行训练和推理。
    的头像 发表于 10-23 15:25 905次阅读

    InfiniBand网络解决LLM训练瓶颈

    的,这需要大量的计算资源和高速数据传输网络。InfiniBand(IB)网络作为高性能计算和AI模型训练的理想选择,发挥着重要作用。在本文中,我们将深入探讨大型语言
    的头像 发表于 10-23 11:26 441次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand网络解决LLM训练瓶颈

    Mobileye自动驾驶解决方案的深度解析

    强大的技术优势。 Mobileye的解决方案概述 1.1 什么是自动驾驶?
    的头像 发表于 10-17 09:35 383次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶解决方案的<b class='flag-5'>深度</b>解析

    智驾进程发力?小鹏、蔚来模型上车

    转型的关键时期,而智能驾驶技术的发展被视为这场变革的核心动力。作为自动驾驶的支撑技术之一,模型凭借其感知、规划和控制的一体化能力,大幅提升了智能驾驶的效率和稳定性。不同于传统的
    的头像 发表于 09-26 09:19 282次阅读
    智驾进程发力?小鹏、蔚来<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>上车

    深度识别人脸识别在任务中为什么有很强大的建模能力

    通过大量数据进行训练,能够自动学习人脸的特征表示,而不需要人为设计特征提取算法。 多层神经网络结构 :深度学习模型通常包含多层神经网络,这
    的头像 发表于 09-10 14:53 428次阅读

    循环神经网络在语音识别中的应用

    , LSTM)和门控循环单元(Gated Recurrent Unit, GRU)等,展现了强大的性能。本文将深入探讨循环神经网络在语音识别中的应用,包括其背景、核心算法原理、具
    的头像 发表于 07-08 11:09 601次阅读

    小鹏汽车发布国内首个量产上车的模型

    小鹏汽车近日宣布,国内首个模型量产上车,这一革命性的技术将大幅提升智能驾驶的能力。据小鹏汽车介绍,这一大
    的头像 发表于 05-28 11:47 726次阅读

    小鹏汽车发布模型

    小鹏汽车近日宣布,其成功研发并发布了“国内首个量产上车”的模型,该模型可直接通过传感器输
    的头像 发表于 05-21 15:09 696次阅读

    理想汽车自动驾驶模型实现

    理想汽车在感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了模型。这种模型不仅
    发表于 04-12 12:17 471次阅读
    理想汽车自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>实现

    牵手NVIDIA 元戎启行模型将搭载 DRIVE Thor芯片

    NVIDIA的DRIVE Thor芯片适配公司的智能驾驶模型。据悉,元戎启行是业内首批能用 DRIVE Thor芯片适配
    发表于 03-25 11:49 340次阅读
    牵手NVIDIA 元戎启行<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>将搭载 DRIVE Thor芯片

    模型卷入智驾圈 周光:今年上车!

    让AI像人类司机一样开车,今年就能做到。   3月17日,在中国电动汽车百人会汽车新质生产力论坛上,元戎启行CEO周光表示,智能驾驶模型将会成就一位“超级AI司机”,开启物理世界
    发表于 03-18 11:17 531次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>卷入智驾圈 周光:今年上车!