0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

空间简史-人类认识空间的旅程与其对强化学习的启示

mK5P_AItists 来源:lp 2019-04-05 17:38 次阅读

摘要:本文是对okeefe 1978(栅格细胞发现者, 2014诺贝尔奖得主)的论文 cognitive map 的总结和延申。

一 空间的先验与后验之争

对于我们在其中生存和繁衍的空间, 是如何在我们的心理世界表达的, 这是一个争论了几百年, 也依然没有完全清楚的问题。 如果你不去仔细思考, 你可能觉得这是一个很简单的问题。 而一旦较真, 你就会发现几乎所有的哲学家, 物理学家, 心理学家所纠结过的那些问题。

首先, 什么是空间? 最早探讨它的是物理学, 从亚里士多德到牛顿。 牛顿的物理学在绝对空间基础上存在,所谓绝对空间, 可以简化为一个欧式直角坐标系, 世间的所有有行实体都可以在这个坐标系里寻找到一个坐标。有了空间和时间, 我们就可以相当准确的描述和预测发生在时空里的运动,并且进行大距离的迁徙(比如大航海)。 想象一下没有地图和坐标, 哥伦布即使偶然到达美洲也不可能回去了。

在古代, 星空是人类航海重要的坐标, 我们通过判断星辰间的指向, 知道茫茫大海自己的去向, “陪你一起看看星星” 绝非为了浪漫, 而是关乎生存。

虽然物理学家从不怀疑真实空间的存在, 然而有一个问题确没法解决。 我们的感知是含糊的,柔软的,既缺乏像尺规一样的绝对空间度量, 也没有绝对的方向度量。 我们对距离的描述经常是或近或远这样的模糊语言,也不擅长想象一个超大空间的地图(受到训练之前)。 那么, 那个物理学家关心的刚性的欧式度量的空间是从哪里来的呢? 我们为什么能够产生这样的概念? 是什么使我们能够产生这样的概念?

换句话说, 空间如果存在, 它到底在哪里? 它是怎么在我们脑海里形成的? 它是通过某种先天的“结构” 得来 , 还是通过感知基础, 在后天的学习和思考基础上形成的?

应该说对这些问题的回答绝非容易, 我们一开始解决这些问题的方法是哲学, 而后面才从生物学的认知基础上讨论。

最早对这个问题进行阐述的人包括贝克莱和康德, 它们分别代表了两种截然不同的观点。贝克莱和我们熟悉的休谟和洛克一样是英国经验主义哲学的代表人物, 强调一切认知的基础, 无非是大量经验的总结, 它否定物理上的绝对空间,认为这是人的认知造成的一种幻觉。首先在空间认知的事情上,他认为存在等同于被感知, 而所谓的空间, 无非是我们被感知到的大量的触觉,视觉, 和肌肉运动之间的某种关联。 因而绝对空间这个东西, 根本就是子虚乌有。 大家想下大卫休谟的那句话:只要闭上眼睛就没有悬崖, 就会理解他的观点的深刻含义。 感知所构成的大量经验集合是第一性的, 绝对的物理空间是第二性的, 是一种方便性的考量。

具有经验主义传统的英国, 出产了贝克莱和休谟这样的哲学家。

这样的对空间的认知, 与牛顿的物理学存在本质的冲突, 而另一个派别, 是结合了理性主义和经验主义的康德提出的理论, 他认为绝对空间存在,而它依赖的恰不是外部的物理世界, 而是人类先天的认知基础,一种与这种绝对空间相对应的脑组织,它是我们认知外部世界的基石。

康德的时空观是起纯粹理性批判的基础。康德的观点既不同于贝克莱也不同于牛顿。 首先他认同绝对欧式空间的存在, 其次他认为这个空间不存在于物理世界恰恰在我们的心理, 第三这个先验的结构是我们其它感知的基础。我们的对物体的感知, 都要放到这个空间结构里得到认识。应该说这里的第一性和第二性的顺序与经验主义恰好相反。 康德的理念里, 没有了时空这样的先验, 经验毫无意义(联想以下当下 数据-经验 驱动的AI所遇到的缺乏逻辑推理能力的瓶颈, 我们无疑在某种程度回归康德的问题)。

康德认为经验的认知需要在先验存在的时间和空间之上, 这也是康德思想体系的基础之一。

在康德之后, 这两个派别分别发展出Empiricist(经验主义), 和Natist (先天认知)两个基础流派,经验主义者强调所有有关绝对空间的认知都是后天学习得到的大量感知之间的联系。 而先天主义者则认为需要有一个先验而非习得的空间结构,这个结构是后来学习的基础。

在后面的整个世纪里,两边各站着一批各自的哲学家,分别寻找证据阐述各自的理由。 一个比较标示性的任务是20世纪初的庞家莱。 这个时期的物理学发生了天翻地覆的变换。 爱因斯坦的相对时空开始取代牛顿的绝对时空。 而黎曼几何的出现代表我们之前深信不疑的欧式空间无非是受到了我们经验的局限。黎曼几何成为广义相对论的基础。

而从电动力学和量子力学衍生的场论更是刷新了人们的三观 。庞家莱在这个基础回到了贝克莱的经验主义,就没有特别奇怪。庞家莱首先认为空间无非是无数经验的集合, 这些经验主要是由人在移动时候视觉的变换构成的。 我们对不同物体的距离的感知, 也无非是让一个虚拟的自己经历一个从A物体到B物体的过程而认识到的。大量 经验上学到的位移与视野变换的对应关系可以用平移算子和群表示。

而这样的群最大的特质是存在一个逆运算可以让当下的状态和先前的状态完全一致(联想一下时间就没有这样的对称性, 不存在一个时间平移逆运算让你回到时间的原点)。 位置的概念隐含在这种平移算子的对称性里 。庞家莱的理论不难找到同时代的相对论和场论的影子, 而他的思想标志了经验主义的新高度。我们在不停的变化的经验积累中得到了变化中的不变性(数学规则), 而这些数学规则就是空间的本质。

黎曼几何, 打破了欧式直角坐标系,同样的也是对于日常经验的一个突破。 因为我们常见直线, 不说明它是真实的。事实上爱因斯坦的广义相对论指出光线被引力弯曲沿曲线传播。 黎曼几何成为广义相对论的数学基础。

注: 爱因斯坦的狭义相对论的建立过程体现了对牛顿绝对时空的突破。事实上正是爱因斯坦看到了牛顿的绝对时空是受到了我们经验的局限才能够打破它。

狭义相对论认为,我们的绝对时间的观点, 正是受制于我们自身的经验,因为我们从来不以接近光速运行。 而得到真实的物理规律, 事实上需要突破这种经验。 狭义相对论以光速(电磁学规律)为绝对不变, 而放弃时间的绝对流逝, 当物体的运动速度变换,其时钟也相对静止坐标系进行调整。

而继续把场论的思维进行深化的,是Kohler等人提出的Gestalt(格式塔)理论。 Gestalt理论比庞家莱进一步的指向了空间感知的神经基础, 他把大量神经元的同时放电看做是一种场的形成, 不同的神经元组(网络)代表不同的场, 两种最基本的和空间导航有关的场一种叫做 地理场(geography field), 一种叫做 行为场(behavior field)。

地理场主要用来表征外部的物理世界-空间关系, 而行为场用于赋予各种外部刺激(感知)以意义,估值,和反射行为(这就是强化学习理论的预演,行为场可以看做强化学习的值函数),这两个场互相配合产生空间有关的概念和行为。 从外部的刺激通过神经组织合成出各种合适的“场”来表征外部特征的思想已经像极了今天的深度学习, 不难看出我们今天的科技和前人的思想的联系。

在此基础上, 1936年Lewin提出了空间拓扑结构和所谓行为场的关系, 使得Gestalt的理论变得更为坚实, 之前的行为场的一个问题是不知道它如何组织和形成, 而Lewin则提出了它的基础是各种各样的和行为有关的空间拓扑结构, 比如边界,连接, 等等。 也就是说你先建立一个空间的拓扑场, 后面可以就容易建立一个行为场。

二 来自动物行为的证据

好了,再fancy的问题 ,最终还要回到空间认知的本质是个生物问题 ,它需要特定的生物载体 。 那么研究动物对空间的认知就是一个几乎不可避开的问题。 动物是不会说话的,本质上了解动物的空间认知必须要从行为入手,与空间有关的行为就是导航。 像鸟类,小鼠, 蝙蝠都具有极为发达的空间导航能力(甚至比人还厉害),那么它们是怎么在复杂的空间里穿行,或者经过几千公里回到自己的家的呢? 从观察这些行为入手, 我们也可以得到空间认知的本质。 我们说, 如果一个概念对行为和动物的生存并无意义 ,那也就是失去了任何行为的基础。

经典的小鼠走迷宫任务。

关于小鼠的导航问题的实验的问题,我们看到小鼠很容易在非常复杂的迷宫里找到食物,关于这个现象基本的假设解释, 一种是小鼠没有空间的概念,但是它可以记住一系列的动作 。这就好比一个很长的条件反射,比如左左右右左左右。 这就好比在现实生活中, 当你完成一个动作系列到达了星巴克, 你再执行另一个动作序列到达肯德基。

而另一个假设是小鼠有关于空间的概念 ,根据在大脑里生成的地图来决定每个时候的走向找到目标。 所谓地图,是指你和周围的物体(地标)以及周围的物体(地标)之间相对位置的几何。 在一个地图上, 所有的地标都获得了一个绝对的坐标, 即使你没有去过那个地方, 这个坐标依然告诉你它在什么位置。

为了研究相应的问题,我们可以把真实的空间去掉, 让小鼠在一个“时间迷宫”里(这个任务里缺乏固定的空间结构),单纯记住“左左右右左左右” 这样的动作序列来解决这个问题。 事实上小鼠这个时候已经很难完成这个任务。 这一系列的实验结果支持地图学说, 导致Tolman在1948年提出了Cognitive map的概念。 那就是 空间 或者 地图的概念在小鼠的大脑里是存在的, 成为其导航学习的基础。

对于同样的实验现象, Hull为代表的人提出了一套截然不同的解释,可以看作刚刚说的动作序列的高级版本,解决刚刚的矛盾 。 那就是看似复杂的空间导航,无非是一个多级的,组合式的条件反射。这就和我们日常大多数习惯的获得没有区别。 只是,在空间导航的学习里, 你学到的不是一个从起点到终点的方法, 而是一个系列的能够从起点到终点的动作系列(对应同一效果的不同的轨迹),这样也就不会受困于某个特定的行为序列。这个理论与庞家莱的群论的含义是一致的。 也就是我们学到的不是一个轨迹, 而是一个行为的集合, 具有同样的最终效果(一个群), 这其实说的就是当今机器学习的泛化能力。

多级条件反射和认知地图均能够解释现象, 但是背后的眼里却非常不同, 这也成为后面一系列的工作的起点。多级条件反射, 与心理学的一个重要的流派-行为主义流派不谋而合。它的主要代表人斯金纳用非常复杂的条件反射来解释语言和思考在内的所有认知现象(把语言符号也看作一种刺激),因此在那个年代也很占优势。

斯金纳箱, 操作性条件反射的实验装置。 小鼠做出正确的动作后可以得到食物。 操作性条件反射在斯金纳的时代被认为是智能的基础。 也是强化学习理论的基础。通过多级条件反射, 小鼠不仅可以把当下的刺激和奖励联系起来, 还可以把之前的行为和刺激和当下的刺激联系起来

注: 稍微用心的研究者不难发现组合条件反射与深度强化学习的关系 ,我们一次又一次回归前人思想的轨迹。

而认知地图的支持者后来者居上, 一个重要的根据在动物导航行为的研究。 研究者发现在诸如鸟类这样的动物里 ,当你把鸟从一个地方移动到它所从未见过的地方, 它依然有能力找到到回家的路。 按照多级条件反射的说法, 鸟需要根据自己熟悉的地标, 记住一系列动作, 或者一个方向, 然后才能达到目的地。 而如果一个地方是完全陌生的, 那么鸟根本不可能能够根据习得的一套方案回巢(事实上这个逻辑并不严密)。

鸟类天然擅长长途迁徙

另一个重要的支持在于寻找捷径, 比如你回家的路上发现平时需要绕过的公园多了一条小路 你可能没有走过, 但是你依然可能会直接穿越回去到家。 寻找捷径的能力类似于强化学习里的有模型学习, 你需要建立一个最小的世界模型, 才能知道当下某个从没有见过的地标和你熟悉的地标(家)之间的联系。认知地图的支持者认为这个模型正是由认知地图提供的。

这些都成为认知地图作为一个先验结构早已存在于脑海中的实验支持, 不仅如此, 这个地图需要的样子是一个绝对的欧几里得坐标系,而不是你根据自己的位置为中心,设立的一张相对你而言周围物体分布的地图。 正是因为有这样一个绝对的欧式坐标系,你才知道周围物体相对周围物体, 门子相对窗子, 马路相对公园的位置, 你才能根据你的空间想象做出决策 ,不是走A路而是走B路,即使你从来没有见过A路,或者到了一个完全陌生的城市。

如何构建这样一个地图? 你的大脑里的某个部位需要能够精确的进行路径积分, 并把每个看到的地标放置到这个精确积分的大脑平面图里。如果整个周围环境是固定的, 一旦出现一个新的物体, 你就很快可以想象出它和之前所有出现过的物体的相对位置, 在这个世界里, 每个物体的表示都是一个位置向量。 如果你想做一个能够行走的机器人, 不难想象也会构建一个类似的概念。这样的观点构成认知地图的基础, 我们通过大脑里的一个先验的绝对空间的概念载体, 而使得复杂的空间计划和导航学习成为可能。

三 Place Cell 和 Grid Cell的发现

这样的想法非常合理, 唯一的问题是我们的大脑里真有这样的结构吗? 这个观点在一组大名鼎鼎的细胞, grid cell和place cell之后可谓是登峰造极, 成为了科学的主流。 而它的发现者O'Keefe 和 Moser也获得了2014年的诺贝尔奖。

这组细胞, 仿佛就是cognitive map的生物载体。所谓place cell的含义非常简单, 就是当你不停的经过某个同样的地点,同一个细胞会放电。 而所谓Grid cell, 其特征是其感受野对空间进行周期性的放电,它可以把一个二维平面表现成一个密集堆积的六边形结构, 不同的grid-cell具有不同的空间周期。 认知地图的支持者认为,这个Grid cell正是那个先验的大脑里的欧式坐标系的载体。如果你对空间里的一个狄拉克函数(一个空间质点的表示)做傅里叶变换你会得到一系列不同周期频率的波函数, 反过来, 这群函数或许可以作为一组表达不同物体位置的基函数。 而Grid cell如果是对应了这群函数, 那么它将可以非常灵活的表达生物体在一个绝对坐标系里的位置,即使生物体运动到了一个完全陌生的环境。

不仅在小鼠, 蝙蝠的大脑里也存在Grid Cell, 与三维空间相对应, 参见 Grid cells without theta oscillations in the entorhinal cortex of bats Nature

在Grid cell和Place cell发现之后,认知地图的理论奠定了统治地位,空间学习需要一个先验的神经空间坐标系成为了共识。

人工智能时代的续篇

在人工智能时代,我们越来越发现这些早期认知科学争论过的核心主题, 事实上对发展从狭义到通用的人工智能都非常重要。你要先理解智能,才能做出人工智能, 否则做出的东西只有“人工”没有“智能” 。

在DeepMind去年发表的一篇和空间导航有关的论文里, 它们也确实把这种和空间有关的结构- Grid Cell 引入到了它们的网络架构里,而非常有趣的是, 如同当年的认知科学家所阐述的, 这个空间坐标结构的引入, 使得导航出现了类似于直接利用捷径这样的行为。

而与空间结构的先验学派不同的是,DeepMind的这个Grid Cell 结构, 事实上是从利用监督学习进行引导的。 DeepMind 让人工“小鼠” 在方格空间里乱跑并预测其位置,在这个过程里, 如果适当的引入dropout这样的条件,它们表明就可以出现类似于Grid的细胞结构。 而这个结构正是刚刚说的寻找捷径行为的基础。论证的方法也和生物实验相同, 就是去掉这些细胞观测, 寻找捷径的行为消失了。

Vector-based navigation using grid-like representations in artificial agents Nature

这篇文章在专业圈子引起了很多批判,很多学者不认可这样形成的Grid Cell就是生物学的Grid Cell。另外一种可能是Grid Cell只是许多对空间探索有利的结构的一种,而这种结构恰恰是无论是自然训练还是人工训练都非常容易找到的一种, 可能对应某个自然界的最小作用原理(事实上六边形是周期性的布满一个二维空间的最经济方法)。因此DeepMind的这个作品也就没有那么神奇了。

在思考这个问题的时候, 我个人依然觉得到庞加莱等人的经验主义思想具有极高的借鉴价值。 虽然用认知地图方便好用, 但是它是否是最基本的东西? 我们大脑里的那个空间概念最根本的东西究竟是什么? 或许背后更本质的东西依然是几条抽象的数学规则,而我们大脑的神奇在于利用这个规则得到地图这类方便的概念。Deepmind按照人们已经预期设定的理论找到了同样的结果, 虽然促进了AI的进步, 但是对于我们理解这个问题却是有限的。

五 关于空间任务之外的启示

不管认知地图是否最终成立,生物学的研究,还是人工智能的研究,都在指向的一个共同点,就是我们学习需要预先存在的特定“结构”,而不是简单的多级条件反射可以得到, 虽然在深度强化学习时代,多级条件反射给我们展示的可能性比我们想的多很多。 而AI的研究在告诉我们, 这样的先验结构, 是可以通过大量的预训练得到的。

如何预训练, 怎么设计预训练流程, 可能是未来的一个极为重要的方向。Karl Friston所说的预测误差最小,最新的大量关于好奇心的研究,甚至最近的语言模型Bert,可能都在提示我们怎样设计这样的流程。 同时,这样的研究或许也在启发我们如何更好的设计婴儿的早期教育 ,使得后期的学习效果更好。

对于空间的思考本身, 对于非空间的很多任务也极有启发。 比如我们常说的语言。 我们知道,语言代表了我们使用和控制符号的能力, 而“符号” 和空间“位置”的关系是什么? 是否存在一种隐喻, 正是由于我们发展出了对抽象的“空间” 和 “位置”的认知能力, 才引领我们走向了更广义的形成和使用“符号”的能力? 在一个抽象的“符号” 地图里, 运动不再是欧式空间里从一点到另一点的轨迹, 而可能是一种逻辑思维的流动? 这些都将是未来人工智能极为需要回答的问题。

Organizing Conceptual Knowledge in Humans with a Grid-like Code Science 一个惊人的实验, 在人类进行对不同形状的关联(把一种形状的鸟对应到另一个形状上)的时候, 类似的Grid的神经表示出现

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4333

    浏览量

    62697
  • 强化学习
    +关注

    关注

    4

    文章

    267

    浏览量

    11263

原文标题:空间简史-人类认识空间的旅程与其对强化学习的启示

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1473次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    反向强化学习的思路

    强化学习的另一种策略(二)
    发表于 04-03 12:10

    深度强化学习实战

    一:深度学习DeepLearning实战时间地点:1 月 15日— 1 月18 日二:深度强化学习核心技术实战时间地点: 1 月 27 日— 1 月30 日(第一天报到 授课三天;提前环境部署 电脑
    发表于 01-10 13:42

    将深度学习强化学习相结合的深度强化学习DRL

    深度强化学习DRL自提出以来, 已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo,将深度强化学习DRL成推上新的热点和高度,成为人工智能历史上一个新的里程碑。因此,深
    发表于 06-29 18:36 2.8w次阅读

    人工智能机器学习强化学习

    强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督
    发表于 05-30 06:53 1419次阅读

    什么是强化学习?纯强化学习有意义吗?强化学习有什么的致命缺陷?

    强化学习是人工智能基本的子领域之一,在强化学习的框架中,智能体通过与环境互动,来学习采取何种动作能使其在给定环境中的长期奖励最大化,就像在上述的棋盘游戏寓言中,你通过与棋盘的互动来学习
    的头像 发表于 07-15 10:56 1.8w次阅读
    什么是<b class='flag-5'>强化学习</b>?纯<b class='flag-5'>强化学习</b>有意义吗?<b class='flag-5'>强化学习</b>有什么的致命缺陷?

    谷歌推出新的基于Tensorflow的强化学习框架,称为Dopamine

    强化学习(RL)研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类,值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN,在围棋中获得瞩目的 AlphaGo 和 Alph
    的头像 发表于 08-31 09:20 3700次阅读

    基于强化学习的MADDPG算法原理及实现

    之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互。
    的头像 发表于 11-02 16:18 2.2w次阅读

    DeepMind发布强化学习库RLax

    RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。报道:深度强化学习实验室作者:DeepRL ...
    的头像 发表于 12-10 18:43 744次阅读

    模型化深度强化学习应用研究综述

    深度强化学习(DRL)作为机器学习的重要分攴,在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型
    发表于 04-12 11:01 9次下载
    模型化深度<b class='flag-5'>强化学习</b>应用研究综述

    基于深度强化学习仿真集成的压边力控制模型

    压边力控制策略的学习优化。基于深度强化学习的压边力优化算法,利用深度神经网络处理巨大的状态空间,避免了系统动力学的拟合,并且使用一种新的网络结构来构建策略网络,将压边力策略划分为全局与局部两部分,提高了压边
    发表于 05-27 10:32 0次下载

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 536次阅读

    模拟矩阵在深度强化学习智能控制系统中的应用

    讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵,来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果,从而优化控制策略和提高系统的性能
    的头像 发表于 09-04 14:26 577次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器学习训练方法之一。 在围棋上击败世界第一李世石的 AlphaGo、在《
    的头像 发表于 10-30 11:36 4113次阅读
    什么是<b class='flag-5'>强化学习</b>

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习库,
    的头像 发表于 11-05 17:34 312次阅读