您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

基于深度学习的图像识别及MxNet开源框架设计

大小:0.57 MB 人气: 2017-10-13 需要积分:1
 2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。
  11日下午的深度学习论坛,地平线机器人科技高级工程师余轶南,阿里巴巴iDST语音组高级专家鄢志杰,厦门大学教授纪荣嵘,华中科技大学教授、国家防伪工程中心副主任白翔,以及微软亚洲研究院研究员洪春涛分享了深度学习在图像识别、语音识别、视觉搜索、文字识别等方面的应用,以及开源深度学习框架的演进。
  余轶南:基于深度学习的图像识别进度地平线机器人科技高级工程师余轶南分享了题为《基于深度学习的图像识别进度》的演讲。
  从2012年底开始,深度学习从图象识别出发,很快席卷了所有图像里大部分的任务,包括后来的目标检测、图像分割,以及各种图像的应用,以及最近图像超分辨率和跟踪,都被深度学习所颠覆。神经网络系统自由度和它的灵活性非常强,可以用这样一套统一的东西做很多过去需要用不同处理架构做的事情。
  
  算法方面已经做了非常多的工作,将来会在以下几个方面有所突破:第一,理论方面Deep Learning的分析是现在所获取的,需要进行Network的理论分析。第二,无论是谷歌,还是微软今天公布的150多层的网络,都是人工精心做的,这对design非常重要。第三,遇到的真实问题远是很困难的任务,所以很多时候是Structured Data Processing。第四,Logistic、Counting、Reasonino。第五,over-Reliance ON HP-Data And HP-Communication Faster。
  基于深度学习的图像识别及MxNet开源框架设计
  很多数据的获得都是非常容易的,但是有一些数据不是这样,有一些数据获得成本非常高昂,而且出现频率非常低。需要把原来云端计算模型搬到前端,之所以能搬到前端,就要在价格、功耗、成本各方面进行考量。其实相当于云端来说,前端这样的使用场景,身边的每一样设备都需要智能东西对它进行全新的革命。就要有所选择,用一款通用芯片计算单元,还是专门构建这样一款针对DATA Network或者是不同硬件做计算。把计算适用性和指标放在这里。核数比较少的情况下,但是精度运算能力非常强,非常适合逻辑计算,现在大多数电脑和手机都在这个领域做工作。第二个方面是DSP,最大的好处是低功耗和低成本,在身边用得最多的是这个。随着核数越来越多,能耗比是越来越好。
  无论是谷歌网络,还是MSR ImageNet网络,都离不开三件事情:第一,迭代。第二是转机。最后是Multiplication。如果你把计算机迭代再加上门,你就可以做Recurrence,这三个基础上非常繁杂,各种各样的Network,使Network服务于不同的奇奇怪怪的需求。可以发现,人脑其实也是这样的架构。人脑要回答几千乘几千问题很困难,但是可以对面前的情况做出反应。电脑可以非常快算出几十亿乘几十亿的数据,但是要处理以上的问题非常难。所以需要深度学习来进行综合。
  阿里iDST鄢志杰:Deep Learning在客服中心的应用阿里巴巴iDST语音组高级专家鄢志杰分享了题为《Deep Learning助力客服小二:数据技术及机器学习在客服中心的应用》的演讲。他主要从传统客服中心的现状与挑战、沉淀客服数据、全量客服质检、自助客服四个方面进行了分享。
  传统客服中心面临的挑战包括:效率不高,用户体验欠佳;缺乏有效反馈,难以保证服务质量;随业务发展可扩展性差。以阿里巴巴和蚂蚁金融为例,传统客服具有话务量大和用工量大的特点。这种规模膨胀带来了三个问题:面对客户,如何提升服务体验?针对小二,如何提升服务质量?放眼未来,如何通过数据技术及机器学习升级传统客服?
  面对以上问题,iDST进行了以下尝试:
  语音识别沉淀客服数据,自动语音识别,将对话转写为文本,为后续应用提供前提。全量自动质量控制,扫描每通电话,监测基本服务质量,并且进行问题定位质检,提升问题解答一致性。自动识别问题,提高自助渠道解决率。存储语音数据不等于沉淀,高准确率的自动语音识别是后续诸多应用的前提。
  客服电话语音识别的难点在于电话对话语音识别是语音识别领域最困难的任务之一,所以需要训练声学模型来识别语音。声学模型是决定语音识别准确率的核心模型之一。快速周转训练声学模型是第一要素,第二是Deep Learning。可以利用更多数据、覆盖更多实际使用场景来提升识别准确率,但更多数据意味着更长的训练周期,所以缩短训练周期是工业界声学模型训练的核心问题之一。
  他通过分析GPU多机多卡Machine Learning Middleware、基于DBLSTM的语音识别声学模型、基于DLSTM的问题定位质检、我的客服“因子+行为”自动问题识别对机器学习在语音方面的应用做了进一步分享。其中,问题定位模型需要确定问题类目、收集训练数据。问题类目是定位和质检的目标。
  

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!