0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

科大讯飞 来源:yxw 2019-06-26 08:55 次阅读

科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室(NELSLIP)(以下统称为讯飞-中科大联合团队)在近期举办的计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军:

1.在计算机视觉与模式识别国际会议(CVPR 2019)举办的物体检测挑战赛DIW 2019(Detection in the Wild challenge Workshop 2019)上取得Objects365 Tiny Track第一,Objects365 Full Track第三的佳绩;

2.在文档分析与识别国际会议(ICDAR 2019)举办的多项赛事中,包揽手写数学公式识别挑战赛CROHME(Competition on Recognition of Handwritten Mathematical Expressions)全部两项任务以及场景文本视觉问答挑战赛ST-VQA(Scene Text Visual Question Answering)挑战赛上全部三项任务冠军,此外还取得了街景招牌中文文本识别挑战赛ReCTS(Reading Chinese Text on Signboard)单字识别任务冠军。

这一系列的佳绩标志着科大讯飞在计算机视觉领域的积累日益深厚,始终保持着先进的水平和探索的步伐。

DIW2019挑战赛

DIW 2019挑战赛由旷视科技与北京智源人工智能研究院共同举办,该项赛事吸引了包括腾讯、百度、字节跳动等300多支队伍参赛,其所采用的Objects365数据集包含63万张图像,高达1000万人工标注框,覆盖365个日常物体类别,堪称最大通用物体检测数据集。

相比于大家熟知的ImageNet和COCO数据集,Objects365数据集更贴近自然场景,覆盖更多的类别并且提供了更密集的标注,由于数据分布极度不均衡,因此极大增加了比赛的难度,对算法提出了更高的要求。

作为计算机视觉的两项基础任务,物体检测和分割一直以来是业界主流的研究方向。科大讯飞团队在2018年10月刷新了国际自动驾驶权威评测Cityscapes全部两项子任务(驾驶场景语义分割和实例分割)的世界纪录。

在本次DIW2019比赛中,讯飞-中科大联合团队在以往视觉技术积累的基础上,针对该项任务中物体尺度多样性和样本数量分布不均衡的特点,对物体检测的经典框架Faster-RCNN进行针对性改进:混合样本数据增强策略提升网络的泛化能力;多级可变形卷积使得网络的感受野能够更加适应相应尺度下的候选框;级联检测方案逐步提升了候选框的质量。此外针对更具挑战性的Tiny Track任务(样本数量小),迁移Objects365 Full Track模型提升Objects365 Tiny Track的性能,并融合两个赛道模型进一步提升了Full Track的检测效果。

物体检测和分割在工业界同样具有广泛的应用前景,科大讯飞在这两项基础任务上的技术积累不仅确保团队在各项赛事中持续保持竞争力,也为应用落地提供了扎实的技术保障,无论是讯飞翻译机中的图文识别,医疗影像领域中的辅助诊断,以及视频结构化技术中的视频理解等,都蕴含着科大讯飞对核心技术的不懈追求和对应用落地的坚定决心。

CROHME 挑战赛

在2018年的ICPR MTWI图文识别挑战赛中科大讯飞A.I.研究院包揽了全部三项任务的冠军,充分说明了科大讯飞在自然场景文字识别技术上的领先性。本次讯飞-中科大联合团队选择挑战难度更高的手写数学公式识别任务CROHME。该项赛事由美国罗切斯特理工学院(Rochester Institute of Technology)负责承办,吸引了MyScript、三星、 WIRIS(MathType)、中科院自动化所、中山大学等多家在手写数学公式识别领域著名的国内外研究机构参与。

讯飞-中科大联合团队参加了在线手写数学公式识别(Online Handwritten Mathematical Expressions Recognition)和离线手写数学公式识别(Offline Handwritten Mathematical Expressions Recognition)的两项主要任务,这两项任务的不同之处在于,前者的输入为手写数学公式的笔划轨迹,它记录了笔划书写的先后顺序,常应用于实时的在线手写识别应用场景,在线手写识别系统需要采集用户在手机、平板等在线化输入设备上书写的字符轨迹作为系统输入;后者的输入则为手写数学公式的图像,常应用于拍照、扫描等离线手写识别应用场景,该场景下用户只需要将手写字符的照片送入离线手写识别系统中即可完成分析与识别。

在线数学公式(手写轨迹)

离线数学公式(静态图像)

CROHME 2019使用的数据集是由美国罗切斯特理工学院收集和标注的手写数学公式,其中训练集共9993个,验证集共986个,测试集共1199个,此次比赛不仅要求参赛系统识别出公式中的每个字符,还要求参赛系统给出被识别的字符之间的位置关系,因此,相比于常规OCR任务,该任务的难点在于:

1)位置关系

位置关系不再只是常规OCR任务中单一的左右或者上下的关系,还存在垂直、包含、上下标等多种结构关系以及这些结构关系之间的组合嵌套;

2)字符尺寸

数学公式中的字符尺寸差异较常规OCR任务更大;

3)书写风格

书写者的书写风格会使得某些不同字符之间容易产生混淆,且同样的字符由不同书写者书写,不仅字符形态差异可能会很大,对于在线任务来说,其笔划轨迹的顺序也有可能会不一致;

科大讯飞在手写文字识别领域已深耕多年。与将字符识别和位置关系识别分别建模的传统数学公式识别思路不同,科大讯飞使用的参赛系统正是借鉴了手写文字识别技术中基于空间注意力机制的Encoder-Decoder思想,实现了数学公式的字符和位置关系的端到端识别,同时提出了多尺度空间注意力机制以解决由字符尺寸差异较大带来的识别字符丢失问题。此外,针对不同书写者书写风格迥异的问题,提出了空间注意力引导机制和时间注意力机制,从空间和时间两个维度上提升注意力的准确度,最后融合了多种不同模态的信息提升了系统最终决策的效果。

基于雄厚的人工智能核心技术,科大讯飞在应用领域正积极落地。特别在教育领域,以行业领先的高精准手写识别技术、智能评测技术为典型应用代表的智能评卷系统,目前已经在CET、多地中高考中实现了人机结合的智能辅助评分新方式,最大限度的保证了评卷质量。同时,在日常教学环节中,基于对每一个学生个体作业练习测试的精准识别和深度数据挖掘,科大讯飞形成了以数据驱动方式实现的个性化精准教学。通过图文识别、智能评测分析每个学生的知识掌握薄弱环节,针对性地实现个性化学习推荐,让每个孩子回家后有针对自己能力水平的不同家庭作业,让每个老师有更多的时间推动因材施教。

ST-VQA挑战赛

ST-VQA(Scene Text Visual Question Answering)是由CVC(Computer Vision Center)举办的一项视觉问答挑战赛,要求算法能够像人类一样解析图像中实体之间的关系,并正确地回答出问题。这一方面对算法的图像检测和分割等前端技术提出了要求;另一方面还需要算法具备多模态数据融合、理解和推理的能力,是未来人工智能的发展方向之一。

如在下图的场景中为了找出蓝色公交车的目的地,首先需要正确地识别出蓝色公交车的位置,并推理出公交车的目的地显示在公交车前方的电子显示屏上,最后需要算法识别出电子显示屏上的内容。

ST-VQA比赛总共分为三个任务,分别为Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary,这三项任务的不同之处在于Task1会对每张图像给定一个候选词表,Task2会对整个数据集给定一个候选词表,而Task3则没有额外的词表用于辅助答案的预测。这三个任务的难度逐渐增加,讯飞-中科大联合团队参加了全部三项比赛,并包揽冠军。

针对于此次参加的ST-VQA任务,讯飞-中科大联合团队将模型分为视觉理解前端模型和视觉推理后端模型。文本检测和物体检测模型作为前端模型从图像中提取出有效实体,此外针对数据集中的语料少的问题,借鉴了科大讯飞在SQuAD2.0评测任务上采用无监督预训练模型的思想并加以改进,成功融入到了前端模块中。

在后端网络的设计上,团队设计了相应的Encoder-Decoder模型用于融合上述从图像中提取得到的实体信息和问题数据并预测出答案,此外在Encoder-Decoder模型的设计过程中融合了多任务的设计思想,使其能够兼容三项任务,从而使得这三项任务能够同时训练,相互提升。参加ST-VQA比赛,是讯飞在视觉理解以及多模态数据融合方面的前瞻性探索,比赛中使用的技术为公司未来在多模态交互方面的发展打下了基础。

作为亚太地区知名的智能语音与人工智能上市公司,围绕着讯飞超脑,科大讯飞一直秉承技术顶天、产品落地的战略理念,在核心技术上不断创新。基于此,科大讯飞在智能语音、自然语言处理等领域硕果累累,也在视觉场景理解领域获得长足进步,并且积极推动相关赛道技术落地,在教育、医疗、政法等业务上已经取得了很好的成效。未来,讯飞将全面持续推进核心技术的优化迭代与落地应用,努力践行用人工智能建设美好世界的公司使命。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268352
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45925
  • 科大讯飞
    +关注

    关注

    19

    文章

    789

    浏览量

    61179

原文标题:科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

文章出处:【微信号:iFLYTEK1999,微信公众号:科大讯飞】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Nullmax视觉感知能力再获国际顶级学术会议认可

    日前,欧洲计算机视觉国际会议 ECCV 2024公布论文录用结果,Nullmax感知团队的目标检测论文《SimPB: A Single Model for 2D and 3D Object Detection from Mult
    的头像 发表于 09-02 14:07 379次阅读

    锐思智芯展示融合视觉感知技术创新与产品应用

    日前,计算机视觉和人工智能领域最具影响力的顶级学术会议——IEEE国际计算机视觉与模式识别
    的头像 发表于 08-28 14:36 447次阅读

    计算机视觉有哪些优缺点

    计算机视觉作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革,也带来了诸多优势,但同时也伴随着一些挑战和局限性。以下是对
    的头像 发表于 08-14 09:49 706次阅读

    机器视觉计算机视觉有什么区别

    机器视觉计算机视觉是两个密切相关但又有所区别的概念。 一、定义 机器视觉 机器视觉,又称为计算机
    的头像 发表于 07-16 10:23 459次阅读

    计算机视觉的五大技术

    计算机视觉作为深度学习领域最热门的研究方向之一,其技术涵盖了多个方面,为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析,包括图像分类、对象检测、目标跟踪、语义分割
    的头像 发表于 07-10 18:26 1182次阅读

    计算机视觉的工作原理和应用

    图像和视频中提取有用信息,进而进行决策和行动。自1960代第一批学术论文问世以来,计算机视觉技术已经取得了长足的发展,并在多个领域展现出巨大的应用潜力和价值。
    的头像 发表于 07-10 18:24 1612次阅读

    计算机视觉与人工智能的关系是什么

    引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算
    的头像 发表于 07-09 09:25 506次阅读

    计算机视觉与智能感知是干嘛的

    引言 计算机视觉(Computer Vision)是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域,是人工智能的重要组成部分。智能
    的头像 发表于 07-09 09:23 772次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机
    的头像 发表于 07-09 09:22 398次阅读

    计算机视觉和图像处理的区别和联系

    计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉
    的头像 发表于 07-09 09:16 1131次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有视觉
    的头像 发表于 07-09 09:11 1134次阅读

    OpenCV携Orbbec 3D相机亮相CVPR 2024,加速AI视觉创新

    在科技发展的浪潮中,一年一度的IEEE国际计算机视觉与模式识别会议CVPR)无疑是视觉技术领域
    的头像 发表于 06-21 10:15 565次阅读

    机器视觉计算机视觉的区别

    在人工智能和自动化技术的快速发展中,机器视觉(Machine Vision, MV)和计算机视觉(Computer Vision, CV)作为两个重要的分支领域,都扮演着至关重要的角色。尽管它们在
    的头像 发表于 06-06 17:24 1227次阅读

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展,计算机
    的头像 发表于 06-06 17:17 842次阅读

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应
    的头像 发表于 02-19 13:26 1195次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的十大算法