鄢志杰谈深度学习要基于问题来选择工具
大小:0.03 MB 人气: 2017-10-13 需要积分:1
标签:深度学习(119547)
鄢志杰将在12月11日下午的深度学习分论坛进行题为“Deep Learning 助力客服小二:数据技术及机器学习在客服中心的应用”的主题演讲,分享基于DNN、CNN、RNN(LSTM)及其各种组合模型的语音识别、自然语言处理技术在客服领域的应用。鄢志杰在接受采访时表示,他的分享内容将包括Deep Learning 判断小二对问题定位的一致性、采用Deep Learning自动识别用户问题等,iDST在数据技术及机器学习方面的尝试,已经在阿里巴巴集团及蚂蚁金服助力客服小二,向客服机器人的引入迈出了第一步。不过,他认为,客服机器人不是要取代人工,而是要学习人、帮助人。比如阿里巴巴客服中心的很多Machine Learning的工作,都是去学习客服小二是如何服务的,没有客服小二,学习无从入手。
谈到深度学习的挑战,鄢志杰表示,近年来在DL领域不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge,只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象——这恰恰只是说明了我们很多人对DL的理解还比较肤浅。他认为,DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据,而不是一味的强调“大数据”、“大模型”、“大计算”。
此外,对于机器学习开源工具的选择,鄢志杰认为,工具就是工具,不必抱有“宗教信仰”,比较合适的态度也许是更关注你要解的问题,基于问题来选择工具。
鄢志杰
阿里巴巴iDST语音组高级专家
鄢志杰,阿里巴巴 iDST(Institute of Data Science and Technologies)语音组高级专家。在加入阿里巴巴前,就职于微软亚洲研究院,任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室,获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利,目前是 IEEE senior member。其研究成果被转化并应用于微软公司及阿里巴巴集团的多项产品中。
以下为鄢志杰采访实录:
CSDN:请介绍一下您自己以及当前的主要工作。
鄢志杰:我主要在阿里云iDST负责语音技术方面的工作,为集团和蚂蚁金服各个业务部门,以及外部客户提供各种与语音有关的服务,包括语音识别、语音合成、说话人识别/验证、对话系统等。由于语音领域是Deep Learning的最重要的试金石之一,我们也应用各种机器学习算法到更广泛的领域,如客服问题定位等等当中去。
CSDN:在您的语音识别工作中采用了哪些DL模型?从这些模型在标准数据集上实现的精度,到实现在淘宝客服的实际应用,还需要做哪些方面的工作?
鄢志杰:语音识别领域是DL最重要的应用领域之一,很多DL算法都首先在语音识别上得到实践。因此,我们所采用的DL模型也较多,包括DNN、CNN、RNN(LSTM)及其各种组合。当前语音识别研究的重心早已从学术界向工业界倾斜,因此通常所说的标准数据集一般规模较小,主要是为快速验证算法来使用。像客服语音识别这样的实际应用场景,还需要做以下几个方面的工作:
沉淀数据,构造feedback loop,即能够形成数据的闭环,将线上实际数据很快应用到模型迭代更新中去;提高模型训练的周转率,降低训练时间,通过大规模并行计算实现高速DL模型训练;构造高水平的云端线上服务,包括高效的解码器、自动部署、运维等等。
CSDN:您的工作也涉及到文本分析,如何看待DL在文本分析领域的进展和前景?
鄢志杰:DL在文本领域有非常令人兴奋的进展。从早前的“看图说话”、“sequence-to-sequence翻译、语言生成”,到最近的“看图回答问题”等等,DL在文本上的应用正向纵深发展,应该说前景是很广阔的。我们自己也在这方面有一些工作,包括客服问题聚类、分类、对话理解、语言生成等。
CSDN:基于数据技术和ML,您认为客服机器人技术将能够取代多少的人工工作?时间节点如何?
鄢志杰:我个人有一个理念,就是永远不去取代人工,而是让客服机器人去学习人、帮助人。就像我们在客服中心的很多Machine Learning的工作,都是去学习客服小二是如何服务的,没有客服小二,学习无从入手。例如,我们会将客服小二的真实IVR服务进行语音识别,从沉淀下来的数据中去做Machine Learning,去做各种后续的工作。我认为客服机器人的价值在于可以减少人工,让客服中心可以随公司业务智能的扩展,而不是一味扩大人的规模,使得服务质量无法保证。
CSDN:当前的开源DL工具越来越多,您尝试过哪些工具?最喜欢什么样的工具?最终选择的标准是什么?
鄢志杰:我们拥抱开源。开源的、得到大家认可而发展起来的东西肯定是好东西。在语音领域目前最活跃的开源工具是Kaldi,是微软的前同事Povey从几年前开始一步步做起来、逐渐变得流行的。我们也是通过改造Kaldi来搭建我们系统的某些环节的,改造的工作一方面是使之适应工业界需求(如大规模的GPU多机多卡训练)、一方面是基于它的codebase来快速的做创新性研究。我认为工具就是工具,不必抱有“宗教信仰”,比较合适的态度也许是更关注你要解的问题,基于问题来选择工具。这也正是我们开发GPU多机多卡 Machine Learning Middleware的原因。这个Middleware的功能就是把各种各样的开源DL训练工具通过很少的修改,就变成可以利用多机多卡的大规模并行化训练工具。这样一来,我们就可以迅速消化、吸收,并改造层出不穷的新的DL开源工具。
CSDN:DL的领军人物Yann LeCun曾经多次谈到DL的挑战,如推理机制、无监督学习等等,您如何看待DL的挑战?
鄢志杰:DL近年来发展得太快了,也太热了。有一些brute-force的研究方法太过成功,容易给人造成误导。传统的机器学习讲究对问题的分析、对数据本身的理解、“Occam‘s razor”是研究者乐于奉行的原则。我们看到近年来在DL领域,不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge,只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象。我个人认为这恰恰只是说明了我们很多人对DL的理解还比较肤浅。多年后回过头来看,也许会发现,现在的我们只不过是正处在DL野蛮发展的初级阶段而已。
在我所在的语音领域,现在要找一个篇非DL的论文已经很难了。今年开InterSpeech国际会议的时候,声学所一名同学做Oral Presentation,一上台就说今天我全篇没有DL,没想到赢得台下一片掌声。我觉得DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据,而不是一味的强调“大数据”、“大模型”、“大计算”。
CSDN:您对目前的DL硬件系统的满意度如何?对于DL的硬件平台的发展,您有什么期待?
鄢志杰:很乐于看到Intel找到了一个不同以往的对手NVIDIA,此外也看到DL在其它一些硬件(如FPGA等)上的发展。因为DL的推动,硬件在这方面的运算能力、通讯能力近年来都得到了很大的进步,期待硬件厂商给我们更强大的支撑。
CSDN:请谈谈您在这次大会上即将分享的话题。
鄢志杰:我会介绍数据技术、Machine Learning在阿里巴巴集团和蚂蚁金服客服系统中的好几个很接地气的应用。我们通过自动语音识别将IVR系统的客服对话数据全部转换成文本,这些文本可以用于客服质检、用于提升客服小二对问题解答的一致性,还可以让机器学习客服人员是如何一步步定位用户的问题,并做出解答的。客服本来是一个非常传统的领域,对客服系统刻板的印象就是人海战术、手写规则等等。但由于机器学习的加入,这个领域正发生奇妙的变化。新一代的客服背后站着的是数据科学家,现在讲的都是Data-driven、Deep Learning等等。这些尝试应该说只是一个开始,是我们后续通向机器人客服的必由之路。
CSDN:哪些听众最应该了解您所分享的主题?这些话题可以帮助听众解决哪些问题?
鄢志杰:一些对语音识别、文本分析、自然语言处理等DL话题感兴趣的听众应该会想来听听。我希望给大家一些全新的角度——原来DL还可以帮助客服这样的传统领域。
CSDN:您最希望在BDTC上听到什么样的分享话题?
鄢志杰:最新的来自Machine Learning Community的声音,以及DL的一些落地。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%