0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探讨NLP技术落地的难点及如何降低开发者门槛的问题

电子工程师 来源:cc 2019-01-10 09:06 次阅读

AI 很火,但是 AI 的门槛也很高,普通的开发者想要搭上这波 AI 红利依然困难。

近期,人工智能公司推出了新一代智能 Bot 开放平台,它整合了小i机器人 Chatting Bot、FAQ Bot、Discovery Bot 三大核心能力,为企业和开发者提供智能机器人服务+人工在线服务+智能人机协作学习的完整使用闭环,除智能客服场景应用外,智能营销、智能外呼、智能硬件等多种不同类型的应用场景也将陆续开放。

平台开放的目的就是降低企业使用和拥有AI技术的成本与门槛,让企业和开发者快速开发出满足自身业务需求的智能服务系统或者具有智能交互能力的对话机器人。

近日,CSDN主编下午茶邀请到了小i机器人技术委员会轮值主席兼首席架构师李波,与我们一起探讨了NLP技术落地的难点,以及如何降低开发者门槛的问题,希望能对广大读者有所启发。

NLP的发展方向

AI科技大本营:能简单介绍下 NLP 技术吗?

李波:NLP 技术目前有两种,一种是基于规则,还有一种是基于统计。近年来,基于统计的 NLP 技术占据了上风,特别是深度学习出现之后,基于统计的 NLP 技术进展快很多。并不是说谁更优,或者谁更差,它们各有所长,比如基于统计的模型的泛化性比较好,但是它是一个黑盒。一些应用还需要两者结合使用,比如在问答系统中,有些机器回答并不是很友好,就可以利用基于规则的方法做补充,两者结合来达到产品化的程度。

抛开运算智能,人工智能主要包含两个层面,一个是认知智能,一个是感知智能。比如常见的语音识别、图像识别就属于感知智能的层面,目前比较成熟的 落地应用也比较多,而 NLP 则属于认知智能层面。NLP 往往需要结合上下文信息,甚至考虑背景知识、常识性知识等。另外,感知智能(如图片识别)的输入输出一般是单轮的(single-turn),但是 NLP 往往需要多轮的(multi-turn)交互后才能得到结果。目前 NLP 技术还处于发展的早起阶段,还有很多难点需要突破。

AI科技大本营:你觉得它未来还会有很快的进展吗?还有哪些需要探索的方向?

李波:常识和背景知识:用 NLP 做专业性很强的事情,可能效果会很好,反到是小概率简单的事情做不到,因为缺乏常识。想要解决这个问题就需要构建常识库,然后与模型结合,这是一个难点,也是大家比较愿意探索的一个方向。

多模态:人类是通过视觉、听觉等各种感观结合在一起来理解一件事情的,也就是多模态。假设 NLP 系统可以同时结合音频视频来理解用户的意图,那么可能会有更大的突破。

预训练:这是近期大家可以尝试的一个热点。预训练在音频和图片领域已经得到了广泛应用,最近 Google 的 BERT 则是把预训练运用到了 NLP 领域,取得了不错的效果。这也是近期的一个热点,大家可以去尝试。

强化学习:在认知智能方面,强化学习也有些不错的方向。

NLP如何走出实验室

AI科技大本营:学术界的成果能够及时地应用到工业界吗?

李波:有些技术可以及时转化,有些技术还需要转化周期。这个转化周期意思就是说,我们要考虑商用模型的性能和准确率,此外还有其他的工程条件,满足这些标准之后,才可以把研究成果输出到产品。学术界训练一个模型只看最后的评价指标,也就是一个百分比的结果,但落地的时候考虑更多因素,比如一个准确率 99% 的模型,但剩下 1% 的工程化的工作量,不一定比99%工作量小。

AI科技大本营:从实验室到模型商用化落地,你们最关心什么?

李波:我们最关心的首先是要模型的可用性要达到工业化落地的标准,除此之外包括产品的 UI 设计、体验设计等也非常重要。NLP 不像图片和语音,在 UI 方面需要考虑的更多。比如机器翻译系统的准确率达到一定程度后,如果 UI 做得不好,用户体验不好,可能会对落地造成的很大的影响。这是一个系统化的工程,包括成本、用户体验,为客户带来多少价值等,都需要考虑。

AI科技大本营:关于 AI 创业公司落地难的问题,小i机器人有什么好的经验可以分享吗?

李波:跟图片和语音对比,NLP 特别难,NLP涉及到的多模态是它的一个难点。第二个难点是需要结合背景知识及常识。这两个问题在目前并没有很好的处理方式。小i 主要是结合基于规则+统计的方式,引入知识,比如我之前提到的领域语义库,目的就是融入常识和背景知识。最后就是个性化的问题,NLP 的输出往往和个体相关,不同的个体需要依据人物画像等信息给出不同的个性化的结果,这样才更接近人类的处理方式。

此外,NLP 的落地场景不是那么直接,需要结合客户或者是产品设计。比如做推荐,我们训练模型的关注点可能就是模型对应的几个指标,比如查准率等,但是客户看的是最后推荐的效果,也就是用户实际的评价和购买情况。因此,不管实验室的效果如何,在实际效果中,需要根据客户的反馈不断调整系统参数,调整训练数据,或者结合其他算法等等,以此来提高最终落地的效果。

上线运行之后,我们还需要根据运营的日志和客户的行为,再迭代模型,这是一个闭环。而不是说不结合实际场景,把模型训练好后直接投入使用,然后就不管了,不是这回事,需要根据运营的数据,不断调优迭代。

AI科技大本营:模型可控性的问题怎么解决?

李波:比如我们帮客户做的智能客服机器人,主要依靠混合模型引擎来达到可控的目的。另外也可以通过一些工程化手段来做到可控,如在问答中涉及到一些敏感的内容,我们可以通过前处理、后处理等方式及时干预,而无需更新模型、重启系统。在用户真实的使用过程中发现问题时,我们需要有渠道、有方法控制系统的输出,甚至逻辑,保证系统是可控的。

AI科技大本营:哪些方法可以使它可控?

李波:我们的混合模型引擎包含两种模型,一个是黑盒子,就是深度学习模型,另一个是语义理解模型,基于传统的语义表达式,可以用来做干预。语义理解模型可以直接通过语义表达式来进行更改,而深度学习模型想要干预则必须重新训练。因此我们可以让深度学习模型和语义理解模型同时作用,然后调整深度学习模型和语义理解模型的输出策略(如优先级策略等)来调优。

小i机器人如何收集数据?

AI科技大本营:小i机器人是如何积累数据的?

李波:主要是三个方面:第一,我们会通过爬虫去爬取相关的行业数据。第二,我们的云端产品产生的日志数据,会直接收集到我们的数据平台里。第三,客户提供的素材,我们会把它转化成数据和知识。

AI科技大本营:数据收集之后怎么处理?

李波:非结构化数据:首先我们会对收集到数据进行数据清洗,然后再按照知识的分类通过机器+人工方式将其归类,再通过一些手段(如规则等)做一些粗颗粒度的标注,之后由人工确认,确认完后入库。

半结构化数据:客户提供的原始带格式文档,通过格式规则分析或者机器学习模型等手段来进行分类或者聚类等辅助处理,然后再进行人工梳理,最后入库。

AI科技大本营:数据的处理靠机器和人工的结合?

李波:机器做前期辅助,人工做最终的确认,而不是机器处理之后直接入库。小i有一个大的数据平台和一个标注系统,还有一个实验室系统,共同运作来产生这些行业训练数据以及行业背景知识,然后以领域语义库的形式部署到实际系统中。

小i机器人如何赋能开发者?

AI科技大本营:现在有很多平台和工具可以帮助开发者去降低门槛,据我所知,小i最近也推出了新一代智能 Bot 开放平台,这个平台能给开发者带来什么?

李波:帮助中小企业或者开发者快速打造一个适应各种实际场景的AI系统。第一个落地的场景是智能客服,以问答能力为主,降低人工客服的成本。第二个应用场景是智能营销,以营销推荐为主,包括用户画像等,我们会在后期推出。第三个应用场景是智能外呼。后续我们还会推出更多的场景。开发者不仅可以直接使用这些场景,还可以基于每个场景的API来扩充应用的能力。

AI科技大本营:因为现在有各种各样的平台和工具,假设我是个新手,我就做一个小项目练练手,应该怎么做?

李波:这个平台的目的是降低开发者的门槛。开发者如果是自己收集数据,然后训练模型,开发周期很长,而且有很多的坑要趟。我们的这个平台有两个目标,第一,让用户可以直接使用;第二个,开发者可以基于这个平台扩充自己的能力。

使用我们的平台,开发者需要提供的数据只是问答的基本意图点,我们在底层有领域语义库做支撑,我们会自动在词的层面,在句法层面帮你扩充数据集,然后自动帮你去训练。

AI科技大本营:关于NLP技术的工程实践,您对开发者有什么建议吗?

李波:针对NLP的开发者有几点建议:首先,你要对相关技术有全面的了解,不一定要特别细化,这样对开发会有帮助;第二,一定要明确你的输入和输出;最后,开发者要更多地关注产品体验。

AI科技大本营:最后,您平时都是怎样自我学习的,有哪些经验可以分享下吗?

李波:互联网是一个非常好的渠道,我比较喜欢“碰到问题后在解决问题的过程中学习“的方式。如果你只是通过书本去学习,而忽略实践,就会比较虚。因此要结合实践,哪怕是做一些Demo尝试也可以。在尝试过程中遇到问题,然后通过各种方式去获取答案,而不是像学校里的传统方式去学习。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29922

    浏览量

    268202
  • nlp
    nlp
    +关注

    关注

    1

    文章

    486

    浏览量

    21993

原文标题:NLP技术落地为何这么难?里面有哪些坑?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    降低物联网开发门槛的TuyaOS重磅更新:AI赋能设备升级,配网速度10倍提升

    作为降低智能解决方案开发门槛的 TuyaOS 操作系统,此次又迎来了重大更新(点击查看 TuyaOS 完整介绍)! 本次 TuyaOS 3.10.0 版本发布了超丰富的开发框架,覆盖多
    的头像 发表于 07-22 11:47 250次阅读
    <b class='flag-5'>降低</b>物联网<b class='flag-5'>开发</b><b class='flag-5'>门槛</b>的TuyaOS重磅更新:AI赋能设备升级,配网速度10倍提升

    涂鸦智能借助亚马逊云科技全面拥抱生成式AI打造智慧解决方案 提升开发者效率

    ,极大提升了开发者效率和终端消费体验。其中,通过“T-Smart开发者平台AI助手”的引入,涂鸦智能进一步简化了产品开发流程,将开发者原本
    发表于 07-08 14:06 109次阅读

    报名开启!第二届OpenHarmony开发者大会2024重磅来袭!

    了44款发行版,落地商用设备303款,覆盖金融、超高清教育、商显、工业、警务、城市、交通、医疗等领域。 诚邀您参加OpenHarmony开发者大会2024,共赴一场技术盛宴,探讨未来生
    发表于 05-14 15:23

    MediaTek 天玑开发者大会MDDC 2024启幕

    Conference, 简称MDDC)是一场面向全球开发者的行业盛会,旨在与生态合作伙伴和开发者共同探讨行业发展趋势,分享知识、经验和先进技术成果。本届大会的主题为“AI予万物”,届
    的头像 发表于 05-07 10:25 624次阅读

    涂鸦推出完全开源的open sdk开发框架!大大降低IoT开发门槛

    开发者来说,IoT开发难点是什么?首先,IoT涉及到多个领域和多种开发技术,每一层的技术接口
    的头像 发表于 04-12 08:14 1082次阅读
    涂鸦推出完全开源的open sdk<b class='flag-5'>开发</b>框架!大大<b class='flag-5'>降低</b>IoT<b class='flag-5'>开发</b><b class='flag-5'>门槛</b>

    鸿蒙系统优缺点,能否作为开发者选择

    起跑线,都是0基础开始。学习来轻松,未来趋势大。 那么鸿蒙的发展,开发者如何抓住机遇?鸿蒙的开发技术要学习那些呢?下面分享鸿蒙的开发者技术
    发表于 02-16 21:00

    您有一份OpenHarmony开发者论坛2023年度总结,请查收~

    体验用户,并迅速在论坛开启了 OpenHarmony 技术交流。 通过开发者们在论坛进行提问、答疑、分享技术文章、技术资料等方式为论坛沉淀了丰富的 OpenHarmony
    发表于 01-26 17:27

    降低物联网开发门槛的TuyaOS大更新

    作为降低物联网开发门槛的TuyaOS操作系统,此次又迎来了重大更新(点击查看TuyaOS完整介绍)!本次TuyaOS3.9.0版本发布了超丰富的开发框架,覆盖多种协议连接和平台。可供
    的头像 发表于 01-05 08:14 880次阅读
    <b class='flag-5'>降低</b>物联网<b class='flag-5'>开发</b><b class='flag-5'>门槛</b>的TuyaOS大更新

    开源治理与开发者运营分论坛圆满举办

    开源技术的发展促进创新、开放、协作和共享的文化,汇聚多方的智慧,推动社会的共同进步。伴随开源的蓬勃发展,众多企业、组织和开发者纷纷加入开源生态。作为这一生态系统支柱的开源社区,其运营模式和治理策略
    的头像 发表于 12-22 09:59 446次阅读
    开源治理与<b class='flag-5'>开发者</b>运营分论坛圆满举办

    大咖云集,2023 开放原子开发者大会助力开发者实现梦想

    技术难点与痛点,为广大开发者带来一场精彩的技术盛宴。 开幕式上,中国工程院院士倪光南、开放原子开源基金会理事长孙文龙、中国开源软件推进联盟主席陆首群、中国 Linux 先行者宫敏,以
    的头像 发表于 12-22 09:57 823次阅读
    大咖云集,2023 开放原子<b class='flag-5'>开发者</b>大会助力<b class='flag-5'>开发者</b>实现梦想

    大咖云集,2023开放原子开发者大会助力开发者实现梦想

    12月16日,以“一切为了开发者”为主题的开放原子开发者大会在无锡开幕。大会聚焦大模型、云原生、前端、自动驾驶、物联网、开源治理与开发者运营等多内容,汇聚顶尖开源人才,解决行业发展的技术
    的头像 发表于 12-18 16:05 498次阅读

    欢迎加入飞腾派开发者社区,感谢每一位开发者

    板紧密地结合在一起,为开发者提供了一个展示和分享自己才华的平台。 基于此次合作,飞腾(广州)技术有限公司给华秋 · 电子发烧友发来了感谢信,这是对此次合作的充分肯定! 来自飞腾派项目组的感谢信
    发表于 12-11 16:11

    诚邀报名|在开发者大会,洞悉云原生技术落地最佳实践

    共识,被越来越多的行业用户落地并深度使用。2023开放原子开发者大会·云原生技术前沿落地实践分论坛,将于12月16日下午正式开启。 论坛将聚焦云原生的泛在化、Serverless化以及
    的头像 发表于 12-09 18:45 598次阅读

    开放原子开发者工作坊|大咖论道云原生技术发展与应用实践

    、获取前沿技术趋势。 数字化和智能化时代的来临,激发各行各业对“云”的需求,企业开始依托云原生、数字原生等核心技术进行数字化转型,寻求高效治理的“良方”。在云原生颠覆技术范式、重构数据价值的今天,越来越多
    的头像 发表于 11-29 20:25 1091次阅读

    汇川技术开发者线下沙龙 | 以技术为王,为突破而生

    们共聚魅力东莞,围绕自动化编程的痛难点互相交流分享,交流如何开发标准化程序,提升项目开发效率与可靠性。     汇川技术开发者大会线下沙龙由汇川技术
    的头像 发表于 11-22 16:20 977次阅读
    汇川<b class='flag-5'>技术开发者</b>线下沙龙 | 以<b class='flag-5'>技术</b>为王,为突破而生