本文主要参考中科院自动化研究所复杂系统与智能科学实验室王珏研究员《关于机器学习的讨论》,讨论机器学习的描述,理论基础,发展历史以及研究现状。
0引言
20世纪90年代初,当时的美国副总统提出了一个重要的计划——国家信息基本设施计划(NationalInformation Infrastructure,NII)。这个计划的技术含义包含了四个方面的内容:
(1)不分时间与地域,可以方便地获得信息。
(2)不分时间与地域,可以有效地利用信息。
(3)不分时间与地域,可以有效地利用软硬件资源。
(4)保证信息安全。
本文主要讨论解决“信息有效利用”问题,其本质是:如何根据用户的特定需求从海量数据中建立模型或发现有用的知识。对计算机科学来说,这就是机器学习。
计算机科学,特别是人工智能的研究者一般公认Simon对学习的论述:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”这是一个相当广泛的说明, 其要点是“系统”, 它涵盖了计算系统、控制系统以及人系统等, 对这些不同系统的学习, 显然属于不同的科学领域。即使计算系统, 由于目标不同, 也分为了“从有限观察概括特定问题世界模型的机器学习”、“发现观测数据中暗含的各种关系的数据分析”,以及“从观测数据挖掘有用知识的数据挖掘”等不同分支。由于这些分支发展的各种方法的共同目标都是“从大量无序的信息到简洁有序的知识”,因此,它们都可以理解为Simon 意义下的“过程”,也就都是“学习”。
1 机器学习描述
本文将讨论限制在“从有限观察概括特定问题世界模型的机器学习”与“从有限观察发现观测数据中暗含的各种关系的数据分析”的方法上, 并统称其为机器学习。
我们描述机器学习如下:
令W是给定世界的有限或无限的所有观测对象的集合, 由于我们观察能力的限制, 我们只能获得这个世界的一个有限的子集Q W, 称为样本集。机器学习就是根据这个样本集, 推算这个世界的模型, 使它对这个世界(尽可能地)为真。
这个描述隐含了三个需要解决的问题:
(1) 一致: 假设世界W与样本集Q有相同的性质。例如,如果学习过程基于统计原理,独立同分布( i. i. d )就是一类一致条件。
(2) 划分: 将样本集放到n维空间,寻找一个定义在这个空间上的决策分界面(等价关系),使得问题决定的不同对象分在不相交的区域。
(3) 泛化: 泛化能力是这个模型对世界为真程度的指标。从有限样本集合, 计算一个模型,使得这个指标最大(最小)。
这些问题对观测数据提出了相当严厉的条件,首先需要人们根据一致假设采集数据,由此构成机器学习算法需要的样本集; 其次, 需要寻找一个空间, 表示这个问题; 最后, 模型的泛化指标需要满足一致假设, 并能够指导算法设计。这些条件限制了机器学习的应用范围。
2 机器学习的发展历史
2.1 机器学习与人工智能
机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
人工智能涉及到诸如意识(consciousness)、自我(self)、心灵(mind)(包括无意识的精神(unconscious_mind))等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。下图展示了人工智能的发展路线:
机器学习是人工智能研究发展到一定阶段的必然产物。从 20 世纪50 年代到 70 年代初,人工智能研究处于“推理期”,人们认为只要给机器赋予逻辑推理能力,机器就能具有智能。这一阶段的代表性工作主要有 A. Newell 和 H. Simon 的“逻辑理论家”程序以及此后的“通用问题求解”程序等,这些工作在当时取得了令人振奋的成果。例如,“逻辑理论家”程序在 1952 年证明了著名数学家罗素和怀特海的名著《数学原理》中的 38 条定理,在1963年证明了全部的52 条定理,而且定理 2.85甚至比罗素和怀特海证明得更巧妙。A. Newell和 H. Simon因此获得了 1975 年图灵奖。然而,随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的。E.A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识。在他们的倡导下,20 世纪 70 年代中期开始,人工智能进入了“知识期”。在这一时期,大量专家系统问世,在很多领域做出了巨大贡献。E.A. Feigenbaum 作为“知识工程”之父在 1994 年获得了图灵奖。但是,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来再教给计算机是相当困难的。于是,一些学者想到,如果机器自己能够学习知识该多好!实际上,图灵在1950年提出图灵测试的文章中,就已经提到了机器学习的可能,而20世纪50年代其实已经开始有机器学习相关的研究工作,主要集中在基于神经网络的连接主义学习方面,代表性工作主要有 F. Rosenblatt 的感知机、B. Widrow 的 Adaline 等。在 20 世纪 6、70 年代,多种学习技术得到了初步发展,例如以决策理论为基础的统计学习技术以及强化学习技术等,代表性工作主要有 A.L. Samuel 的跳棋程序以及 N.J. Nilson 的“学习机器”等,20 多年后红极一时的统计学习理论的一些重要结果也是在这个时期取得的。在这一时期,基于逻辑或图结构表示的符号学习技术也开始出现,代表性工作有 P. Winston的“结构学习系统”、R.S. Michalski等人的“基于逻辑的归纳学习系统”、E.B. Hunt 等人的“概念学习系统”等。1980 年夏天,在美国卡内基梅隆大学举行了第一届机器学习研讨会;同年,《策略分析与信息系统》连出三期机器学习专辑;1983年,Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主编的《机器学习:一种人工智能途径》,书中汇集了 20 位学者撰写的 16 篇文章,对当时的机器学习研究工作进行了总结,产生了很大反响;1986 年,《Machine Learning》创刊;1989 年,《Artificial Intelligence》出版了机器学习专辑,刊发了一些当时比较活跃的研究工作,其内容后来出现在J.G. Carbonell主编、MIT出版社 1990 年出版的《机器学习:风范与方法》一书中。总的来看,20 世纪 80 年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。R.S. Michalski等人中把机器学习研究划分成“从例子中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”等范畴;而 E.A. Feigenbaum在著名的《人工智能手册》中,则把机器学习技术划分为四大类,即“机械学习”、“示教学习”、“类比学习”、“归纳学习”。
2.2 机器学习的理论基础
机器学习的科学基础之一是神经科学, 然而, 对机器学习进展产生重要影响的是以下三个发现, 分别是:
(1) James关于神经元是相互连接的发现。
(2) McCulloch 与Pitts 关于神经元工作方式是“兴奋”和“抑制”的发现。
(3) Hebb 的学习律(神经元相互连接强度的变化)。
其中, McCulloch 与Pitts 的发现对近代信息科学产生了巨大的影响。对机器学习, 这项成果给出了近代机器学习的基本模型, 加上指导改变连接神经元之间权值的Hebb学习律,成为目前大多数流行的机器学习算法的基础。
1954年, Barlow 与Hebb 在研究视觉感知学习时,分别提出了不同假设: Barlow 倡导单细胞学说, 假设从初级阶段而来的输入集中到具有专一性响应特点的单细胞, 并使用这个神经单细胞来表象视觉客体。这个考虑暗示, 神经细胞可能具有较复杂的结构; 而Hebb主张视觉客体是由相互关联的神经细胞集合体来表象, 并称其为ensemble。在神经科学的研究中, 尽管这两个假设均有生物学证据的支持, 但是, 这个争论至今没有生物学的定论。这个生物学的现实, 为我们计算机科学家留下了想象的空间, 由于在机器学习中一直存在着两种相互补充的不同研究路线, 这两个假设对机器学习研究有重要的启示作用。
在机器学习划分的研究中, 基于这两个假设, 可以清晰地将机器学习发展历程总结为: 以感知机、BP与SVM 等为一类;以样条理论、k-近邻、Madalin e、符号机器学习、集群机器学习与流形机器学习等为另一类。
在McCulloch 与Pitts 模型的基础上, 1957 年, Rosenblatt 首先提出了感知机算法,这是第一个具有重要学术意义的机器学习算法。这个思想发展的坎坷历程, 正是机器学习研究发展历史的真实写照。感知机算法主要贡献是: 首先, 借用最简单的McCulloch与Pitts模型作为神经细胞模型; 然后,根据Hebb集群的考虑, 将多个这样的神经细胞模型根据特定规则集群起来,形成神经网络, 并将其转变为下述机器学习问题: 计算一个超平面, 将在空间上不同类别标号的点划分到不同区域。在优化理论的基础上, Rosenblatt 说明, 如果一个样本集合是线性可分, 则这个算法一定可以以任何精度收敛。由此导致的问题是, 对线性不可分问题如何处理。
1969年,Minsky 与Paper出版了对机器学习研究具有深远影响的著作Perceptron(《感知机》)。目前, 人们一般的认识是, 由于这本著作中提出了XOR 问题, 从而扼杀了感知机的研究方向。然而, 在这本著作中对机器学习研究提出的基本思想, 至今还是正确的, 其思想的核心是两条:
(1) 算法能力: 只能解决线性问题的算法是不够的, 需要能够解决非线性问题的算法。
(2) 计算复杂性: 只能解决玩具世界问题的算法是没有意义的, 需要能够解决实际世界问题的算法。
在1986 年, Rumelhart 等人的BP 算法解决了XOR 问题, 沉寂近二十年的感知机研究方向重新获得认可,人们自此重新开始关注这个研究方向, 这是Rumelhart等人的重要贡献。
在20 世纪60 年代的另一个重要研究成果来自Widrow。1960 年,Widrow 推出了Madaline 模型, 在算法上,对线性不可分问题, 其本质是放弃划分样本集的决策分界面连续且光滑的条件, 代之分段的平面。从近代的观点来看, 这项研究与感知机的神经科学假设的主要区别是: 它是确认Barlow 假设中神经细胞具有较复杂结构的思想,由此,将线性模型(例如, 感知机)考虑为神经细胞模型( 而不是简单的McCulloch与Pitts模型) ,然后, 再基于Hebb 神经元集合体假设, 将这些局部模型集群为对问题世界的表征, 由此解决线性不可分问题。但是, 这项研究远不如感知机著名, 其原因是: 其一, 尽管Madaline可以解决线性不可分问题, 但是, 其解答可能是平凡的; 其二,Widrow 没有给出其理论基础, 事实上,其理论基础远比感知机复杂, 直到1990 年, Schapire根据Valiant 的“概率近似正确(PAC)”理论证明了“弱可学习定理”之后, 才真正引起人们的重视。
进一步比较机器学习中两个不同路线的神经科学启示是有趣的: 对机器学习来说, 它们最显著的差别是对神经细胞模型的假设, 例如, 感知机是以最简单的McCulloch与Pitts 模型作为神经细胞模型, 而Madaline 是以问题世界的局部模型作为神经细胞模型,两种方法都需要根据Hebb 思想集群。因此, 对机器学习研究, 两个神经科学的启示是互补的。但是, 两者还有区别: 前者强调模型的整体性, 这与Barlow“表征客体的单一细胞论”一致, 因此, 我们称其为Barlow 路线; 而后者则强调对世界的表征需要多个神经细胞集群, 这与Hebb“表征客体的多细胞论”一致, 我们称其为Hebb 路线。鉴于整体模型与局部模型之间在计算上有本质差别, 尽管根据Barlow 与Hebb 假设区分机器学习的方法。
在这一节的最后, 将1989 年Carbonell对机器学习以后十年的展望与十年后Diet terich 的展望作一个对比, 可能是有趣的, 我们希望以此说明机器学习研究由于面临问题的改变所发生的变迁(表1) 。
评论
查看更多