0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读人工智能理解的自然语言的原理和概念

云知声 来源:djl 作者:云知声 2019-08-09 14:43 次阅读

人工智能理解自然语言的原理是什么?

人工智能理解自然语言的原理是什么?要有针对性地回答该问题,需先将它的议题边界进行明确定义。如果将该问题理解为如何利用计算机工具处理和分析自然语言,以实现人与计算机通过自然语言进行的有效沟通,那么可以得到一个相对狭义的回答;如果要梳理“人工智能”、“理解”、“自然语言”等问题中的概念,那么也可以获得一个相对广义的探讨。

狭义地讲,利用计算机进行语言分析的研究是一门语言学与计算机科学的交叉学科,学术界称之为“计算语言学”(Computational Linguistics),或者是“自然语言处理”(Natural Language Processing, 缩写:NLP)。如果将程序理解为“数据结构+算法”,那么NLP可以类比的理解为“语言学范畴+计算模型”。其中,语言学范畴是指由语言学家定义的语言学概念和标准(如词、词性、语法、语义角色、篇章结构等),NLP处理的任务大多来源于此;具体实现的计算模型或算法通常由计算机学家研制。

一般来说,通用的基础NLP总是与语言学领域的范畴直接相关联的,研究包括:词干提取(Stemming)、词形还原(Lemmatization)、分词(Word Segmentation)、词性标注(Part-of-speech, POS)、命名实体识别(Named Entity Recognition, NER)、词义消歧(Word Sense Disambiguation, WSD)、组块识别(Chunk Recognition)、句法分析(e.g. Dependency Parsing)、语义角色标注(Semantic Role Labelling, SRL)、共指消解(Coreference Resolution)、篇章分析(Discourse Analysis)等。还有一些NLP研究不与语言学范畴直接关联,而是面向文本处理应用的,比如:机器翻译、文本摘要、信息抽取、情感分类、信息检索、问答系统等,这些面向应用的NLP技术多多少少会依赖于前面所介绍的几类NLP基础研究。例如,文本摘要可能用到的NLP基础技术一般就涉及分词、命名实体识别等。

在计算模型研究方面,有理性主义和经验主义两条研究路线可以走,即所谓的“规则方法”和“统计方法”。由于自然语言在本质上属于人类社会因交流需要而产生的符号系统,其规则和推理特征鲜明,因此早期NLP的研究首要采用规则方法。然而,一方面,人类语言毕竟不是形式语言,规则模式往往隐式存在语言当中(比如汉语的语法规则是相当的含糊不精确),规则的制定并不容易;另一方面,自然语言的复杂性使得规则很难既无冲突又能涵盖全部的语言现象,于是这种基于理性主义的规则方法使得NLP研究长时间停留在一种小范围可用的Toy阶段。直到大规模语料库的建设和统计机器学习方法流行开来后,NLP研究才逐渐走向了面向实用化的道路。统计方法省去了很多人工编制规则的负担,在模型生成方面自动评估特征的权重,具有较好的鲁棒性。然而,当我们想要得到一个好的自然语言处理结果时,在设计反映语言现象洞见(Insight)的模型结构以及合适的特征设计方面,仍离不开NLP研究人员对语言的深入理解及其智力的支持。

可以看到,NLP的处理方式是将理解自然语言的过程看作是一种对语言现象的数学建模。一方面要求研究者有扎实的语言学知识背景,另一方面也要具备深厚的数理功底和机器学习经验。这样在面对一个具体的自然语言处理问题时,才能将其分解为具备可操作性的建模任务。从这个角度讲,NLP并非是真正理解自然语言,只是将语言处理当作一种计算任务。

如果不把理解自然语言简单地看作是数学建模,那么从广义层面,人工智能理解自然语言指的是什么呢?首先,需要明确一下所谓的“自然语言”、“人工智能”、“理解”等概念。

“自然语言”的含义相对明确,一般是指人类社会中逐渐发明和演变的用于沟通交流的语言,比如语音、手势语、书面语言等。这里为论述方便,将讨论范围约束在文本形式为载体的语言中,主要是书面自然语言,也包括口语表达的语言。

“人工智能”不是个能够清晰定义的概念。泛泛地说,人工智能是指机器智能体(Agent)模拟人类所表现出的智能活动,包括人类感知外界的能力、决策推理的能力、甚至拥有情感、意志的能力等。从外延构成上,人工智能包括两个方面:研究内容和方法论。研究内容即大家熟知的在科研机构开展的各类研究课题,包括:知识表达与推理、语音识别计算机视觉、自然语言处理、自动规划与调度、机器人学等。而方法论是指实现人工智能模拟人类智能的视角和指导原则。实现人工智能主要有三种主流的观点和视角:符号主义、联结主义、行为主义。符号主义(Symbolism)认为,应该从数理逻辑演绎的角度来模拟人的思维智能活动。知识工程、专家系统等一系列理论与技术的发展无不受到符号主义思潮的影响。联结主义(Connectionism)源于对人脑模型的仿生学研究。McCulloch和Pitts提出的神经元脑模型M-P模型、Hebb提出的神经元学习规则、Rosenblatt的感知器概念等研究尽可能地从仿生学角度模拟了人脑结构。而后来的BP反向传播算法、将受限Boltzmann机引入深度学习等研究则更多的是从可计算性的角度大大扩展了神经网络模型的大规模应用性。行为主义(Behaviorism)将重点关注在可观测的人类行为上,认为人类通过行为与外界环境的交互而得到自适应性,从而获得智能。行为主义研究中常见的实现技术有进化计算(遗传算法)、强化学习等。现有主流的以规则和统计相结合的自然语言处理技术,其规则的一面与符号主义演绎推理的视角是相一致的;其统计的一面侧重于从数据中挖掘出语言学的一般性规律,属于归纳性思维。近些年来,词向量(如word2vec)等语言知识的分布式表示开始流行,这种分布式表示能够很自然的接入到神经网络模型,进行数据归纳学习,在一定程度上促进了联结主义自然语言处理的发展。

说到“理解”,大多数人的共识是机器无法真正理解自然语言,但是人类可以理解。一个典型的证据来源于美国哲学家John Searle通过“中文房间”思想实验对图灵测试的反驳。图灵测试用于判断机器是否具备人类智能。该测试的实验思路是:让一个不知情的质问者询问一台计算机和一个志愿者,通过多轮检验后如果质问者仍然无法判别计算机和志愿者分别是谁,那么说明计算机通过了图灵测试,意味着计算机具备了人类智能,拥有理解能力。Searle利用“中文房间”思想实验对图灵测试进行了批驳。该思想实验的大意是,一个说英语的人在房间内通过查找中文对照表与屋外人用中文交流。在屋外人看来,房间内的人会说流利的中文,而实际上他却完全不懂中文。在本文作者看来,暂且不必太纠结机器能否真的理解自然语言。事实上,人在语言交流时很多情况下也未必做得很好。例如,在谈及“元宵”时,全国各个地方对“元宵”的具体理解是有差异的;在谈及“豪宅”时,香港和内地人在房屋尺寸上的理解也是不同的;一些温度感受的概念如“冷/热”,生活在不同纬度地区的人们对标的温度也是有别的。在认知语言学看来,概念的语义并非是从字典中罗列的静态含义。事实上,每个人对概念的理解与他个人特异化的体验环境有关。即便是同一概念,不同人也有不同的解读。例如,在多数情况下,拥有相似生活体验的人们,谈论某一共同话题时才更有可能产生所谓的“感同身受”。语义理解的困难尚且如此,人们在日常会话交际时还会产生语用理解的困难。请看这样一对会话,甲:“晚上去KTV吗”?乙:“我爸从天津回来了”。如果仅仅从字面语义来看待甲乙两人的会话是无法理解乙的回答的。实际上,乙通过告诉对方“我爸从天津回来了”来暗示自己没有办法接受甲的邀请,这是一种涉及语用的间接拒绝,反映了言语交际的真正意图。充分理解会话双方的语用意图需要借助会话的语境推理,影响推理的因素不仅包括会话上下文、会话时间地点等物理环境,也包括会话双方的共识知识、性格特点、文化背景等。人与人在语言交流中的相互理解仍是不易的,更何况是机器的真正理解。那么我们在利用机器处理自然语言时,可以不必过多在意它是否真的能理解这个问题本身,而是将精力关注在如何让智能体尽可能多地模拟人的智能,让机器具备人一样的功能。

自然语言理解方面,虽然以联结主义为代表的神经网络模型在物理表征层面尽可能地尝试模仿人脑结构,然而在一些处理机制方面仍与人脑存在巨大的差异。这里讨论三个问题。

一. 人脑如何从底层的联结计算向上自动形成出可推理的符号计算?人脑的基础构成是数亿万神经元及其形成的联结结构,信息输入是连续数值形式的,然而通过人脑的层层高级加工最终却可以将信息概念化,进而形成高效的符号计算与推理。新的知识可以通过概念组合或者推理获得,而无需再通过大规模的数据驱动得到。例如,如果人脑从大量文本素材中学习得到句子的“主(noun)+谓(verb)+宾(noun)”模式,那么当看到一句话“a1a2b1b2c1”,已知“b1b2”是动词,“c1”是名词,很有可能推理出“a1a2”是名词也是句子的主语。进一步的,如果已知“b1b2”是个体才能实施的动作,那么可以推断出“a1a2”很有可能是命名实体,即使我们不预先知道“a1a2”的内部用词构成。在图像处理领域,目前的深度学习技术可以将图像信息逐层抽象,自发地学习出高层特征,形成高级语义模式。这对自动化的模拟自然语言理解具有借鉴意义,然而实际上处理自然语言则困难得多。目前,如何利用底层的文本输入,让机器像人脑一样通过逐层信息加工自动生成高级的语言学离散符号及其模式规则,其形成机制并不清晰。

二. 如何让机器像人脑一样实现反馈式的自然语言理解?NLP研究的主流做法是将单个自然语言任务封装成一个模块,模块之间按照自然语言任务的高低级之分0次序串联起来。例如,对于句子的句法分析,通常的做法是先分词、词性标注、命名实体识别、组块识别等,这些信息可以作为高层句法分析的特征。然而,低级语言分析的错误也会传导到高级语言分析任务上来。如果分词有错误,也会影响到最终句法分析的性能。与之相反的是,人脑在进行自然语言理解时,并非总是按照各个语言分析模块以串行相接的方式进行。例如前面给出的句子“a1a2b1b2c1”,当我们暂时无法辨别“a1a2”是否是命名实体时,暂且将这个任务放一放,转而考虑句子后面的信息。当我们逐渐分析出来整个句子可能是“主(noun)+谓(verb)+宾(noun)”的句法模式时,这种更高层的信息作为正面反馈有利于反过来推测“a1a2”是命名实体。这个例子中,命名实体的识别反而采用了更高层的句法信息作为线索。现有的人工智能的自然语言处理流程是固定的,而人脑对自然语言处理的流程则可以根据实际情况做出改变。

三. 语义流变的自动学习。大量的词汇在社会的不同历史时期会有不同的语义,形成语义流变。例如,“小姐”一词的内涵从古至今就一直发生着变化。“小姐”在中国封建社会通常是指大户人家有着良好教养的未婚年轻女子;新中国建立后,随着传统封建社会中“小姐”对应的人物角色在社会中逐渐消失,“小姐”一词的使用也越来越少;然而,当人们对从事色情行业的女子冠以“小姐”的称呼时,“小姐”一词又产生了相应的新词义。因此,出于词汇语义流变的客观存在性,不可能一次性设计出一个完整而全面的机读词义辞典来支持自然语言的语义理解。当社会上出现词汇的新解时,一般就需要手动维护和更新语义辞典。如果对机器概念和知识的更新只停留在人工输入阶段,那么机器就永远无法实现像人一样的自动学习与进化。

一方面,人们对人脑的语言与思维的研究尚且并不充分。另一方面,现有的人工智能在理解自然语言的处理机制方面与人脑存在巨大的差异,那么是否意味着人工智能在自然语言理解的发展存在着难以克服的瓶颈呢?答案未必这样悲观。如果我们审视人类自身,会发现语言与思维的产生不仅与人脑基础的神经连接结构有关,也受到外界语言环境激励的影响。如果将联结主义和行为主义的思想结合起来,以仿生模拟的方式来“调教”机器智能体,就像教育儿童习得语言那样以交互激励的方式学习语言,那么经过很多代的更新和迭代后,机器智能体可能会进化出自己的语言习得装置,产生特异化的语言模式,而这些语言模式在表征上以分布式的形式存储于神经权值网络之中,使得人类理解起来异常困难。就像AlphaGo战胜了世界围棋高手,但是它的出棋策略已经很难被制造者所理解。采用仿生学模拟的方式让机器进化,意味着创造者对机器放弃了一定的控制权。正如凯文·凯利在《失控》中所说,一旦让机器进化出了智能,那么其代价是人类终将失去对机器的控制。人类可能最终不仅不理解人脑中语言与思维的产生机制,也难以理解机器智能体中的语言和思维是如何形成的。

以上是云知声NLP团队的一点心得和思考,限于篇幅,在这里先分享这么多。欢迎大家与我们多多交流。

答主相关

作为一家专注物联网人工智能服务、世界顶尖智能语音识别技术的高新技术企业,云知声的NLP团队一直在为提升人与机器的会话交互体验而努力,从提升语义理解能力到突破语用理解、让机器生成更人性化的应答反馈、以及逐渐让机器成为可自动回答的“知识专家”……持续不懈的升级过程既很有挑战性、也非常有趣。我们的努力目标是让人与机器实现自然语言交互、可顺利进行多轮对话、拥有强大的语用计算能力,让机器有知识、能决策、自学习,并且有性格、有情感。

我们已经在2013年开放了业内第一个同时支持语义解析、问答和多轮对话的语义云,还在2016年推出业内第一个语用计算引擎,支持融合语境信息的理解、生成和交互框架。深度学习技术是我们提升机器理解能力的主要“法宝”,目前已经能让机器理解60+垂直领域(例如医疗、家居等),平均语义解析准确率达到93%。NLP可以深耕的点很多,希望与对NLP感兴趣的童鞋进一步探讨。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    28180

    浏览量

    206361
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237460
  • 自然语言
    +关注

    关注

    1

    文章

    286

    浏览量

    13329
收藏 人收藏

    评论

    相关推荐

    python自然语言

    学和人工智能,但同样受到诸如机器学习,计算统计学和认知科学这些相对新兴的学科影响。python下面只要安装自然语言工具包nltk,下面版主开始正式进入学习。Natural Language
    发表于 05-02 13:50

    NLPIR语义分析是对自然语言处理的完美理解

    、语义挖掘、文本的机器学习等诸多应用领域基础且关键的研究问题,它影响着上层信息服务与信息共享的质量和水平。NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解
    发表于 10-19 11:34

    hanlp汉语自然语言处理入门基础知识介绍

    `自然语言处理定义:自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能
    发表于 01-02 14:43

    语义理解和研究资源是自然语言处理的两大难题

    、情感分析、文档去重、全文检索和编码转换十三项独立功能,针对自然语言的研究,也为软件工程师提供了二次开发接口。 自然语言处理是计算机科学和人工智能领域的重要演讲方向。主要涉及人机相互的通信方式和实践方法,相关分析表示,
    发表于 09-19 14:10

    什么是人工智能、机器学习、深度学习和自然语言处理?

    领域,包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先,人工智能涉及使计算机具有自我意识,利用计算机视觉、自然语言理解和模仿其他感官。其次,
    发表于 03-22 11:19

    自然语言处理是人工智能领域中的一个重要方向

    作为未来科技发展的前沿领域,人工智能在技术应用方面有很多细分领域,比如深度学习、推荐引擎、计算机视觉、智能机器人、自然语言处理、实时语音翻译、视觉内容自动识别等。其中的自然语言处理,是
    发表于 12-17 11:07 4561次阅读

    谷歌和微软自然语言理解榜单中超越人类表现

    近日,科技公司谷歌和微软相继在一份权威自然语言理解榜单中超越人类的表现,微软宣称这“标志着迈向通用人工智能的重要里程碑。” 自然语言理解(N
    的头像 发表于 01-08 16:54 1883次阅读

    自然语言处理是人工智能重要的一项底层技术

    自然语言处理是人工智能非常重要的一项底层技术,它指的是通过终端采集人类的语音或识别文本,并对其进行分析,最终使机器理解人类要表达的含义的技术。目前我们经常见到的翻译机器人、客服机器人等均将自然
    的头像 发表于 01-26 10:41 5407次阅读

    自然语言处理的概念和应用 自然语言处理属于人工智能

      自然语言处理(Natural Language Processing)是一种人工智能技术,它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何
    发表于 08-23 17:31 1297次阅读

    自然语言处理和人工智能概念及发展史 自然语言处理和人工智能的区别

    自然语言处理(Natural Language Processing, NLP)的定义是通过电脑软件程序实现人们日常语言的机器自动处理。为了帮助计算机理解,掌握自然语言处理的基本原理,
    发表于 08-23 18:22 825次阅读

    自然语言处理和人工智能的区别

      自然语言处理(Natural Language Processing,NLP)是人工智能(AI)中的一个分支,它利用计算机技术对自然语言进行处理,使得电脑能够理解和操作人类
    发表于 08-28 17:32 1465次阅读

    神经网络在自然语言处理中的应用

    自然语言处理(NLP)是人工智能领域中的一个重要分支,它研究的是如何使计算机能够理解和生成人类自然语言。随着人工智能技术的飞速发展,神经网络
    的头像 发表于 07-01 14:09 429次阅读

    自然语言处理属于人工智能的哪个领域

    之间的交互,旨在使计算机能够理解、生成和处理自然语言自然语言处理:人工智能的皇冠上的明珠 引言 人工智能作为一门跨学科的研究领域,涵盖了
    的头像 发表于 07-03 14:09 1120次阅读

    自然语言处理包括哪些内容

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机与人类语言之间的交互。NLP的目标是让计算机能够理解、生成
    的头像 发表于 07-03 14:15 716次阅读

    ASR与自然语言处理的结合

    ASR(Automatic Speech Recognition,自动语音识别)与自然语言处理(NLP)是人工智能领域的两个重要分支,它们在许多应用中紧密结合,共同构成了自然语言理解
    的头像 发表于 11-18 15:19 254次阅读