科大讯飞又拿下一个世界第一，而且是在计算机视觉领域-电子发烧友网

最近，科大讯飞在国际自动驾驶领域权威评测任务Cityscapes中，以明显优势刷新了像素级图像场景分割任务、实例级图像场景分割任务全部两项子任务的世界纪录，拿下了2018年获得的第七个世界第一。

科大讯飞又拿下一个世界第一，而且是在计算机视觉领域。

近日，科大讯飞在国际自动驾驶领域权威评测任务Cityscapes中，以明显优势刷新了像素级图像场景分割任务、实例级图像场景分割任务全部两项子任务的世界纪录。

2018年，在计算机视觉领域，讯飞已连续在IDRiD眼底图分析竞赛、ICPR MTWI图文识别挑战赛中斩获桂冠，这次拿下Cityscapes第一名，也再次佐证科大讯飞在计算机视觉领域也有技术实力。

Cityscapes评测数据集：多维度考量自动驾驶图像语义分割，近百家机构“群雄逐鹿”

Cityscapes评测任务是由奔驰主推，提供在驾驶领域进行效果和性能测试的图像分割数据集。该评测任务关注真实场景下的道路环境理解，用于评估参与测试的算法在城区场景语义理解方面的性能。

相比其他自动驾驶领域的测试数据集，Cityscapes任务难度更高，更加贴近自动驾驶等当下热门需求，近年来的热度也不断攀升。截至目前，评测已经吸引了包括谷歌、英伟达、三星、腾讯和香港中文大学等近百家国内外优秀创新企业和顶尖学术机构的参与。

在Cityscapes任务所应用的数据集中，包含了5000张精细标注的图像和20000张粗略标注的图像，这些图像包含50个城市的不同场景、不同背景、不同街景，以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注。

Cityscapes评测集有两项任务：像素级（Pixel-level）图像场景分割（以下简称语义分割）与实例级（Instance-level）图像场景分割（以下简称实例分割）。去年10月，科大讯飞曾参与前者并刷新记录；此次科大讯飞同时参与全部两项任务的测评，不仅再次刷新了语义分割任务的世界纪录，同时以较大优势刷新了实例分割任务的世界纪录。

包揽两项第一背后的秘密：基于图像检测和分割基础算法创新

Cityscapes评测集中，语义分割任务（Pixel-Level Semantic Labeling Task）使用标准的PASCAL VOC IoU（intersection-over-union）得分来评估预测结果与真实场景之间的匹配准确度，要求参赛算法能够对图像中的每一个像素点进行准确的类别预测, 每个像素点的预测结果都会直接影响到最终得分。

像素级图像场景分割任务榜单

实例分割任务（Instance-Level Semantic Labeling Task）则是同时对每个目标进行定位和语义分割，每个目标即为实例，该任务最终以每个实例的分割准确度进行评估。

实例级图像场景分割任务榜单

这两个任务的主要区别在于，在对某些类别目标进行像素级的分类基础上，实例分割还需要进行不同实例间的区分，例如需要区分图像中的车辆和行人，还要将车辆中不同的汽车进行区分和标注。

（结果示意图：左-原图，中-语义分割结果图，右-实例分割结果图）

针对Cityscapes数据集“尺寸变化大、相互遮挡多、目标辨识难”的特点，讯飞团队基于图像检测和分割基础算法的多年研究积累，引入了多项创新性技术。在设计语义分割模型方案时，基于Encoder-Decoder框架，融合注意力机制、可变形卷积操作等思想，创新性地增加了一组尺度自适应矫正网络，使得模型能够充分地利用各层级特征和上下文信息来有效地应对场景中类别尺寸的变化，同时通过目标函数的设计对图像各像素点进行加权编码及梯度规整，提升难以辨识的“难例”像素点尤其是各类别边缘相交区域像素点的预测准确度，进一步提升整幅图像场景中每一个像素点的预测准确性。

在实例分割方案的设计上，讯飞团队将级联式检测方案迁移到实例分割任务的定位模块中，并针对驾驶场景下的一些特定的空间位置共生关系（比如：汽车出现在道路上，骑车者出现在自行车或摩托车上）引入一种空间注意力机制，逐步提升模型的定位性能，同时在分割模块的设计上还成功借鉴语义分割模型成熟方案，精细化每个实例对象的分割结果，最终达到更好的实例分割性能。

计算机视觉技术落地，产品打开车载市场

科大讯飞并没有把语音作为唯一的“宝”来押注，去年年会上，科大讯飞的车载产品飞鱼2.0版本问世，除了语音交互外，还增加了一双“眼镜”——讯飞正式把计算机视觉做落地。

语音+视觉，是飞鱼2.0打开车载市场的利器，这个产品结合了人脸、人体追踪、手势、红外等多种方式为一体的人机交互解决方案，讯飞也倾注了大量的技术力量。去年10月，科大讯飞在Cityscapes评测集图像场景分割任务中获得了第一名，展示出了在视觉上的实力。

连续两年刷新Cityscapes评测集记录后，科大讯飞在自动驾驶和车联网技术重要赛道不断加速。目前，讯飞为不同工作模式和不同传感器配置的智能化车辆提供了“看得清、认得准”的核心能力：

1、可行驶区域的判断更加精准

意味着车辆在做出驾驶路线决策时有精度更高的依据，可以更好地将图像和激光雷达等感知设备返回的结果进行综合校验判断，从而避免因单一传感器缺陷而产生交通事故的可能性。

2、物体类别和形状判断更加精准

意味着车辆对于当前驾驶环境中其他交通参与者的属性和具体形状有更精确的判断，在面对有些激光雷达难以识别的物体属性和难以区分的物体实例时，车辆可以通过视觉感知这一更加直观且完整的方案来大幅度地降低事故出现的概率。

对科大讯飞而言，在从单纯的智能语音能力提供商积极转型为整车智能化方案提供商的进程中，Cityscapes评测恰好成为了考验科大讯飞在计算机视觉领域算法水平的“试金石”。而通过了检验的领先核心算法技术不仅可以更好地为讯飞保驾护航，还能进一步加速机器视觉能力的产品落地应用。

除了智能汽车领域，与之紧密相关的智慧城市领域中则涉及到道路交通流量统计、安防等多个实际业务场景。此次参与Cityscapes评测任务所带来的核心算法能力的提升和拓展，将持续助力未来产品效能提升，推动音视频智慧交通产品领域迈向一体化。

讯飞今年拿下的七个世界第一

这是讯飞2018年获得的第七个世界第一，之前的有：

2018年1月，机器阅读理解SQuAD阅读理解大赛再次刷新世界纪录，EM得分超过人类平均水平（参赛者包括微软、谷歌、Facebook、IBM、Salesforce、斯坦福大学、卡耐基梅隆大学、清华、北大等国内外企业和科研机构）；

2018年2月，在由国际计算语言学协会（ACL）下属组织主办的第十二届国际语义评测比赛（SemEval2018）中，斩获基于常识的机器阅读理解全球第一；

2018年3月，在由医学影像领域的国际顶级会议The IEEE InternationalSymposium on Biomedical Imaging (ISBI)举办的IDRiD糖网病挑战赛上，取得微动脉瘤分割任务第一名、其余三项任务前三名的佳绩；

2018年6月，在由模式识别领域国际学术顶会ICPR举办的MTWI（Multi-Type Web Images，多样式网络图像）国际识别挑战赛中，荣膺“文字识别”、“文字检测”和“端到端识别”全部三项冠军；

2018年7月，在国际权威英文语音合成比赛中连续13年蝉联世界第一，仍然是语音合成自然度指标全球唯一超过真人说话水平的公司（获得10个测评项目中的9项第一，在最关键的自然度和相似度评测指标上均大幅领先第二名）；

2018年9月，国际权威英文语音识别大赛“CHiME-5”中，科大讯飞包揽全部四个项目的第一名。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1699

浏览量
46048
科大讯飞

科大讯飞

+关注

关注
19

文章
810

浏览量
61359
自动驾驶

自动驾驶

+关注

关注
784

文章
13889

浏览量
166676

原文标题：科大讯飞再刷新计算机视觉评测两项任务世界纪录，连夺七项世界第一！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

科大讯飞即将发布讯飞星火深度推理模型X1

，标志着科大讯飞在AI技术领域的又一次重大突破。讯飞星火深度推理模型X1将为

发表于 01-08 10:30 •242次阅读

科大讯飞AI总部园区正式启用

近日，安徽省科技创新领域迎来又一重大里程碑，科大讯飞AI总部园区（讯

发表于 09-03 16:06 •668次阅读

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类

发表于 08-14 09:49 •1047次阅读

科大讯飞发布智能办公本Air 2

近日，科大讯飞隆重举办了智能办公本新品发布会，正式推出了集前沿科技与高效办公于一体的讯飞智能办公

发表于 08-08 10:43 •669次阅读

计算机视觉的工作原理和应用

图像和视频中提取有用信息，进而进行决策和行动。自1960年代第一批学术论文问世以来，计算机视觉技术已经取得了长足的发展，并在多个领域展现出巨大的应用潜力和价值。

发表于 07-10 18:24 •2132次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个

发表于 07-09 09:25 •700次阅读

计算机视觉与智能感知是干嘛的

感知（Intelligent Perception）则是计算机视觉的一个分支，它强调计算机在处理

发表于 07-09 09:23 •987次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义

发表于 07-09 09:22 •485次阅读

计算机视觉在人工智能领域有哪些主要应用?

计算机视觉是人工智能领域的一个重要分支，它主要研究如何让计算机能够像人类

发表于 07-09 09:14 •1504次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机

发表于 07-09 09:11 •1358次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机

发表于 07-01 11:38 •870次阅读

科大讯飞发布讯飞星火大模型V4.0

在科技创新的浪潮中，科大讯飞再度引领潮流，于北京隆重发布了讯飞星火大模型V4.0及其

发表于 07-01 10:33 •894次阅读

机器视觉与计算机视觉的区别

在人工智能和自动化技术的快速发展中，机器视觉（Machine Vision, MV）和计算机视觉（Computer Vision, CV）作为两个

发表于 06-06 17:24 •1373次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机

发表于 06-06 17:17 •1023次阅读

计算机视觉的十大算法

随着科技的不断发展，计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法，包括它

发表于 02-19 13:26 •1276次阅读

搜索历史

科大讯飞又拿下一个世界第一，而且是在计算机视觉领域

评论

科大讯飞即将发布讯飞星火深度推理模型X1

科大讯飞AI总部园区正式启用

计算机视觉有哪些优缺点

科大讯飞发布智能办公本Air 2

计算机视觉的工作原理和应用

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉在人工智能领域有哪些主要应用?

计算机视觉属于人工智能吗

深度学习在计算机视觉领域的应用

科大讯飞发布讯飞星火大模型V4.0

机器视觉与计算机视觉的区别

计算机视觉的主要研究方向

计算机视觉的十大算法