0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CV大牛沈春华新算法获GitHub 1400多颗Star

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-11-04 15:20 次阅读

凭一己之力将澳大利亚机器学习研究院拉至全球排名第四;GitHub 1400 多颗 Star、并用于 Top 级手机厂商的视觉处理;这就是程序员口中的“CV 大牛” 沈春华团队的“战绩”。

目前,沈春华在澳大利亚阿德莱德大学担任计算机科学教授。这位本科毕业于南京大学、后在阿德莱德大学获得博士学位的中国科学家,其主要研究机器学习和计算机视觉,而计算机视觉的终极目标是建立一个具有人类表现的视觉系统。

2012 年,沈春华获得澳大利亚研究委员会的未来学者称号。除教职之外,他还是澳大利亚研究委员会机器人视觉卓越中心的科研负责人。从阿德莱德大学网站获悉,沈春华上月被列为澳大利亚科研终身成就奖,是工程与计算机类奖项的 5 名获选人之一(https://specialreports.theaustralian.com.au/1540291/9/)。

计算机排名网站 CSRanking 显示,沈春华是过去 10 年间在计算机视觉方向 3 大顶级会议发表论文最多的在澳学者。他的科研成果和产出是阿德莱德大学下属的澳大利亚机器学习研究院 (Australian Institute for Machine Learning,AIML) 能在 CSRanking 上排名世界第 4 的主要原因之一。

鉴于澳大利亚机器学习研究院的国际声誉,澳大利亚联邦政府最近宣布拨款 2000 万澳元(合近 1 亿人民币)资助该研究院的科研,同时他还兼任研究院机器学习理论课题的主任。据 Google Scholar 显示,他的论文已积累 22000 多引用,个人 H-index 为 71。

从教至今,他教出过多位优秀中国留学生,他的学生中目前有 3 位获得 Google 博士奖学金(Google PhD Fellowship)。自 Google 首次颁发该奖项至今 12 年间,澳大利亚所有高校一共只有 7 人次在 “机器感知、语音技术和计算机视觉” 这个方向上获得该奖项,而其中 3 人出自沈春华团队。

除此之外,还有多位毕业生入职名企、或在知名大学担任教职, 如悉尼大学、墨尔本莫纳什大学、新加坡理工大学等等。

图 | 沈春华指导的部分博士毕业生

虽然他不在国内,但却时不时有中国程序员,在网上撰文逐句逐段分析他的论文,甚至主动翻译他的论文。同时,他的论文研究已有不少投入应用。

其团队开发的开源工具箱 AdelaiDet,曾和全球数一数二的手机厂商合作,部分算法曾经用于该公司的旗舰手机上。该算法可帮助手机优化拍照功能,拍出来的照片更鲜艳,还可帮助相机更好地实现特效功能和背景虚幻等功能。

截止目前,AdelaiDet 主要包含以下算法:FCOS、BlendMask、ABCNet、CondInst、SOLO,本文主要介绍前四个算法。

FCOS:基于 FCN 的逐像素目标检测算法

FCOS(Fully Convolutional One-Stage Object Detection)的中文翻译是目标检测器,是沈春华团队于 2019 年推出的计算机视觉目标检测算法,并以《FCOS:完全卷积一阶段目标检测》(FCOS: Fully Convolutional One-Stage Object Detection)为题发表在国际计算机视觉大会 2019 上。

在国内某问答社区上,一位目前在字节跳动担任高管、博士毕业于清华大学电气工程系的认证用户表示,这篇论文是“入门检测最合适的文章”。

具体来说,FCOS 是一种基于全卷积神经网络的逐像素目标检测算法,最大亮点是提出了一个不需要锚框(Anchor Free)的全新的目标检测算法。FCOS 在性能上接近甚至超过目前很多基于锚框的主流目标检测算法。

目前大多数目标检测模型如 Faster R-CNN、YOLOv3 等都依赖于预先定义的锚框。相比之下,FCOS 不依赖预先定义的锚框或提议区域。通过去除预先定义的锚框,FCOS 可完全避免锚框的复杂运算,并能节省训练过程中的内存占用。

更重要的是,FCOS 可避免和锚框有关、且对最终检测结果敏感的所有超参数。因此 FCOS 比以往基于锚框的一阶段或者二阶段目标检测器要大大简化。

图 | FCOS 网络结构

从论文中的对比测试来看,FCOS 的精度已超过老牌经典算法 Faster R-CNN。

图 | FCOS 的精度对比

如下图案例所示,FCOS 在对目标物体框中、所有的点进行目标框回归时,会用各个边的距离长度来计算损失,这样可以为后续使用 Center-ness 准备。

图 | FCOS 用各个边的距离长度来计算损失

目前,在开发者群体中,FCOS 的论文已经成为他们眼中的 “沈春华团队的代表作”。而 BlendMask、CondInst、SOLO 的相关论文则被媒体称为 “沈春华团队的又一力作”。

BlendMask:可提取更准确的实例分割特征

BlendMask 的中文意思为实例分割算法,它来自沈春华团队的另一篇发表于 CVPR2020 的论文《BlendMask:自上而下与自下而上相结合的实例分割》(BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation)。

BlendMask 提出了一种结合自上向下和自下向上两种设计策略的实例分割算法,在精度上超越了另一目标检测项目 Mask RCNN,速度上快 20%。

经测试发现,在 COCO 数据集上使用 ResNet-50,BlendMask 性能可达 37.0%的 mAP(平均精度均值,mean average precision),使用 ResNet-101 其性能可达到 38.4%的 mAP。

BlendMask 可通过更合理的 Blender 模块,来融合 top-level 和 low-level 的语义信息,从而提取更准确的实例分割特征。据悉,BlendMask 是少有的在 mAP 和推理效率方面均能胜过 Mask R-CNN 的算法之一。

ABCNet:比其他方法最高快 10 倍以上

ABCNet 的全称为 Adaptive Bezier-Curve Network,中文意思为自适应贝塞尔曲线网络。近年来,场景文本的检测与识别越来越受重视。

现有方法大致分为两类:基于字符的方法和基于分段的方法。这些方法的标注代价高昂、框架十分复杂,因此并不适用于实时应用程序。

为此,沈春华团队提出 ABCNet 来解决上述问题。其贡献主要有三方面:

1、首次提出通过参数化的贝塞尔曲线(应用于二维图形应用程序的数学曲线),并自适应地拟合任意形状的文本。

2、设计了一种新颖的贝塞尔曲线层,可用于提取任意形状的文本实例的精确卷积特征,精度上远超此前方法。

3、与边界框目标检测方法相比,贝塞尔曲线检测引入的计算开销可以忽略不计,兼具高效率和高准确度两大优势。在基准数据集 Total-Text 和 CTW1500 上进行的实验表明,ABCNet 能达到较高的精度,速度也有显著提升。其中在 Total-text 上,ABCNet 的实时版本比其他方法最高快 10 倍以上。

CondInst:可显著加快推理速度

CondInst 是一个用于实例分割的条件卷积,相关论文《基于条件卷积的实例分割》“Conditional Convolutions for Instance Segmentation” 发表在 ECCV 2020 上。

CondInst 可以完全不依赖 ROI(感兴趣的区域,region of interest)操作。而是采用以实例为条件的动态卷积达到分割实例的效果。

具体来说,它有两个优点:1、通过全卷积网络解决了实例分割,无需进行 ROI 裁剪和特征对齐等操作。2、由于动态生成的条件卷积的性能大大提高,因此可以显著加快推理速度。

以上几个算法,是沈春华团队 AdelaiDet 开源工具箱中的主要组成部分。该工具箱受到了学术界和工业界的相当的关注。亚马逊 AWS 已有意向在其产品中使用工具箱中的目标检测、实力分割、文字检测识别等能力。

利好小公司开发者,不懂算法也能用

一言以蔽之,沈春华团队的研究工作的主要目的之一,是为了提高开发者工作质量和效率,反映到终端用户则能用到更好的产品

以背景自动虚化为例,现在几乎所有手机都有该功能,背后正是人工智能算法在运行。以前文提到的手机厂商来说,手机算法对功耗、速度都有极高要求,因此需要给厂商做个性化方案。如果说开源算法是一个基础款汉堡,个性化方案就是在此基础上,加了很多其他菜。

但是该算法并非十全十美,它仍可以追求更高效、更少的计算量和更高的精度。据了解,沈春华团队在深度学习模型定点化方面也做了不少工作,这些算法可让深度学习对嵌入式低功耗设备更友好。

举例来说,标准浮点运算一般是 16 位或 32 位,它的计算量比较大,产业界希望未来能做到一到两比特,一个比特只有 0 和 1,两个比特可以有四种组合,那么这种计算就能大大减少运算量和功耗,从而适配移动端低功耗设备。

该团队做的相当一部分工作,是希望能解决业界难题。一些小微公司的开发者也许并不懂人工智能,那么开发人工智能算法就会比较困难。使用类似沈春华团队开发的工具箱, 则可大大降低使用门槛。

如今依赖该团队的工具箱,已经有越来越多的程序员受惠其中。在该团队的 GitHub 开源网址 https://git.io/AdelaiDet 上,已经有 1400 颗 Star。

他虽然身在海外,但通过没有国界的互联网,正在以技术范的方法,帮助不断增长的中国程序员群体更好地敲代码。

责任编辑:xj

原文标题:机器视觉领军学者沈春华,获澳大利亚科研终身成就奖!新算法获GitHub 1400多颗Star|专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4592

    浏览量

    92520
  • 机器视觉
    +关注

    关注

    161

    文章

    4325

    浏览量

    120011
  • GitHub
    +关注

    关注

    3

    文章

    465

    浏览量

    16361

原文标题:机器视觉领军学者沈春华,获澳大利亚科研终身成就奖!新算法获GitHub 1400多颗Star|专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多颗DAC输出并联提高THD+N,动态,信噪比有什么理论依据?

    请问多颗DAC输出并联提高THD+N,动态,信噪比有何理论依据?
    发表于 11-08 07:21

    Arm推出GitHub平台AI工具

    专为 GitHub Copilot 设计的 Arm 扩展程序,可加速从云到边缘侧基于 Arm 平台的开发。
    的头像 发表于 11-01 13:50 172次阅读

    GitHub Copilot引入多模型支持

    近日,据外媒报道,GitHub正在为其代码完成和编程工具Copilot引入多模型支持。这一举措将为开发者提供更加灵活和多样化的选择。 在近日举办的GitHub Universe大会上,GitHub
    的头像 发表于 10-31 11:49 417次阅读

    求助!!!!!多颗器件代替

    这里的三极管、功率电阻和齐纳二极管等多颗器件,会导致PCB上的热量过高且效率低下。有没有一颗器件能代替这部分,如果能行有没有推荐的型号?
    发表于 09-25 18:15

    GitHub推出GitHub Models服务,赋能开发者智能选择AI模型

    8月2日,全球领先的代码托管平台GitHub宣布了一项重大创新——GitHub Models服务的正式推出。该服务被定位为AI时代的工程师助手,旨在帮助全球超过1亿的GitHub用户轻松找到并应用最适合其项目需求的AI模型。
    的头像 发表于 08-02 15:39 500次阅读

    多颗INA228并联的情况下,ALERT怎么接呢?

    多颗INA228并联的情况下,ALERT怎么接呢?是所有ALERT脚并联?还得独立接到MCU的IO口?
    发表于 07-29 06:56

    RT-Thread 新里程碑达成——GitHub Star 破万!

    RT-Thread实时操作系统开源项目在GitHub上的star数量突破一万!截止发文,RT-Thread作为实时操作系统在业界Star数量排名第一!仓库地址:https://github
    的头像 发表于 07-04 08:35 381次阅读
    RT-Thread 新里程碑达成——<b class='flag-5'>GitHub</b> <b class='flag-5'>Star</b> 破万!

    当XMC1400的供电超过了其最大工作电压,XMC1400的I/O引脚会是什么状态?

    当XMC1400 的供电超过了其最大工作电压,XMC1400的I/O 引脚会是什么状态?开路or GND? 会不会有确定的高电平输出状态?
    发表于 05-23 07:30

    光伏户用如何做到低成本客?

    光伏户用如何做到低成本客? 随着可再生能源的日益普及和技术的不断进步,光伏系统正逐渐走进千家万户。然而,对于光伏企业来说,如何在激烈的市场竞争中低成本地获取客户,成为了他们面临的一大挑战。本文将
    发表于 02-27 10:33

    XMC1400系列的FLASH功能应该怎么用呢?

    大佬们好,XMC1400的flash功能应该怎么用呢,有没有参考例程借鉴一下?
    发表于 02-01 07:21

    地平线正式开源Sparse4D算法

    地平线将业内领先的纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。目前,Sparse4D算法已在GitHub
    的头像 发表于 01-23 10:18 710次阅读

    华新材实控人协议转让公司5.02%股份完成过户

    此后,晶华新材收到了中国证券登记结算有限责任公司出具的过户登记确认书,证明此次股份转让已经完全办理完毕。转让之后,周晓南仍持有晶华新材22.90%的股份,而周锦涵的持股比例增加到5.02%。
    的头像 发表于 12-29 13:45 818次阅读

    GitHub入门与实践

    GitHub 是一个基于 Git 版本控制系统的代码托管平台,它提供了许多功能和用途,主要面向软件开发和协作。以下是 GitHub 的主要用途和一些关键技术:GitHub 的主要用途:代码托管
    发表于 12-14 09:53 6次下载

    【收藏】大牛总结的30个PCB布局的细节与心得

    【收藏】大牛总结的30个PCB布局的细节与心得
    的头像 发表于 12-06 15:17 581次阅读

    请问AD9253是否支持多颗ADC同步?如何实现?

    请问AD9253是否支持多颗ADC同步?如何实现? 在datasheet中有看到SYNC可用于multichip sync,不过有提到是用于同步input clock divider,那么LVDS输出的时钟和数据也会同步吗? 谢谢
    发表于 12-05 07:05