视觉的机制-电子发烧友网

人眼是工程学上的一个奇迹。人体所有感官的受体有70%位于眼睛。40%的大脑皮层被认为与视觉信息处理的某些方面有关联。

1．视觉通路光是人类视觉刺激的关键。光是一种电磁辐射，可以刺激视网膜从而产生视觉。在科学上电磁辐射按波长（即相邻两个波峰之间的距离）分类。电磁波谱的整个范围包括无线电波、红外线、可见光、紫外线、X光和伽马射线。如图1所示，人眼仅能感觉电磁波谱中很窄的一段，即大致为波长380nm至740nm的区间。

图1：电磁波谱在现实世界中，物体的可见颜色取决于其吸收或反射的光的波长。只有反射光才能到达人眼，被感觉为某种颜色，即所谓的光谱反射。举个简单的例子，一般植物的叶子反射绿色波段，吸收红色、橙色、蓝色和紫色。1.1进入眼睛人眼是一个复杂的光学感应器，人眼与照相机在功能上比较类似。光通过照相机中的一系列光学元件，然后完成折射和聚焦。通过光圈控制光通量。穿过光圈孔的光最终达到成像平面（胶片/CCD/CMOS）。

图2：人眼的纵剖面图如图2所示，人眼执行相同的基本功能：角膜和眼球晶状体执行聚焦功能，而虹膜则相当于相机的光圈控制装置。与相机不同的是，反向的光场不是落在胶片/CCD/CMOS上，而是落在极其敏感的视网膜上。1.1.1角膜来自视野内各个方向的光最先进入人眼的角膜。角膜是一个透明的球面结构，其表面由组织良好的细胞和蛋白质组成。人眼对光的折射大多数（约80%）在空气与角膜的界面处完成，这是因为角膜弧面各个点的折射率差别很大。角膜后面是另外一个透明结构，称为眼球晶状体。眼球晶状体是一个精确的聚集结构，因为其形状可以改变，可以实现光学系统所需的不同有效焦距。这两个光学结构之间的空间称为前房。前房充满了由睫状体产生的透明水状液体，称为房水。房水为中间角膜和眼球晶状体提供营养（主要是氨基酸和葡萄糖），因为这两个光学结构自身没有血液供应。角膜的前侧通过眼泪获取相同的营养——人在眨眼时眼泪就分布在角膜的表面。1.1.2瞳孔光穿过角膜和充满水状物的前房后，其中的一部分穿过虹膜中间的孔——虹膜是一个彩色结构。这个孔称为瞳孔。光通过瞳孔后便刺激视网膜。瞳孔看起来是黑色，这是因为穿过瞳孔的光大多数被眼睛的内侧吸收，几乎没有反射光。

图3：瞳孔反射瞳孔与相机的光圈孔类似，其尺寸可以按视觉刺激的变化而变化。虹膜扩张后的形态如图3所示。在光比较少的情况下，瞳孔扩大以让更多的光进入。在明亮的环境下，瞳孔则收缩，尺寸变小。这个不由自主的反应称为瞳孔反射。1.1.3眼球晶状体光穿过瞳孔后立即进入一个称为眼球晶状体的光学结构。眼球晶状体是一个几乎完全透明、柔性的结构，由同心的纤维细胞结构组成。大多数表层纤维代谢活跃，而且与角膜类似，眼球晶状体从环绕其周围的液体获取营养。（1）适应性调节

图4：眼球晶状体适应性调节的过程眼球晶状体由环绕其外围的睫状肌和悬韧带固定位置。如图4所示，当眼睛处于松弛的状态，比如当你随意眺望远方时，眼球晶状体呈平直状态，这样就可以实现远距离视觉所需的最大焦距。为实现这个形状，环绕眼球晶状体的睫状肌（像所有的辐状肌一样）由收缩状态变为扩大、开放的状态。此时，在连接睫状肌和眼球晶状体的悬韧带上形成向外的张力，从而使眼球晶状体呈平直状态。当眼睛关注的是近距离的物体时，则以上过程相反。环绕眼球晶状体的睫状肌收缩，这样便释放悬韧带的张力，使眼球晶状体处于自然的双面外凸的更接近球状的形状，从而增加其关注近距离物体所需的折光力。这个变化过程称为适应性调节。眼睛正是通过适应性调节来改变其光学能力，使得观察者可以根据视野中物体的远近快速变换焦距。普遍认为视网膜模糊是适应性调节的刺激源，但这个过程与辐辏也有很大的关系。眼球晶状体在大约40岁以前都非常具有弹性，40岁以后便逐渐丧失其弹性。因外围结构的代谢活动而变得越来越僵硬，到55岁左右，睫状肌的收缩不再能改变眼球晶状体的形状。（2）映像反向人眼拥有一个复合的镜片系统。光进入眼睛时穿过一系列介质，先是穿过空气，然后进入密度更高的介质（角膜）。大约80%的折射和聚集由角膜实现，剩余的20%由眼球晶状体实现。角膜是结实的固定镜片结构，而眼球晶状体则是可变的、双面凸起的镜片结构。按凸透镜的折射原理，光束会穿过位于另一侧的焦点。如图5所示，进入眼睛的光场在到达视网膜之前在光学上是反向的。

图5：映像反向1.1.4玻璃体光在穿过眼球晶状体后进入眼睛的玻璃体，玻璃体充满透明的胶状物质，称为房水。光可以很容易地穿过房水，因为房水在这方面有完美的特性。房水由98%的水、透明质酸（增加黏稠度）、网状的纤细胶原纤维（房水由此而呈胶状）以及各种盐和糖组成。房水基本静止，不能进行主动性再生，也不能通过血管补给。1.2映像的形成与探测1.2.1视网膜视觉过程始于眼睛的光学结构把光聚集在视网膜（英文“retina”，源于拉丁语“rete”，意思是网络）上。视网膜是一个多层的感官组织，覆盖眼睛大约65%的内表面，其功能类似于照相机的胶片/CCD/CMOS。视网膜的厚度为0.15毫米至0.320毫米。

图6：视网膜形态如图6所示，靠近视网膜中间的结构称为斑，斑的中间称为中央凹。当我们注视一个物体时，中央凹便自然地将该物体置于中心位置。中央凹是视网膜上灵敏度最高的点。眼睛的整个复杂的上层结构就是为实现视网膜的功能而存在的。

图7：人眼视网膜的横截面图视网膜几乎是完全透明的。光落在视网膜上，或者说直接穿过视网膜，直至其最深的一层，这一层称为色素上皮层，如图7所示。此时图像反射回至直接相邻的一层，这一层上有感光神经元。1.2.2视杆和视锥眼睛感光细胞，因其形状而称为视杆和视锥，实际上是背朝光的方向。视杆的数量较多，负责在低光能级时的视觉，是非常灵敏的运动探测器。视杆主要存在于视网膜的外围区域，负责边界视觉。视锥在高光能级时处于活跃状态，空间灵敏度很高，负责感知颜色。从色素上皮层反射的光与两种光色素发生化学反应：视锥中的视紫蓝质（在明亮的环境下反应）和视杆中的视紫红质（在昏暗的环境下反应）。这个化学反应称为异构化，其结果是改变了感光细胞的电性能并释放神经传送体（化学传送体/传送体物质）。这些神经传送体刺激相邻的神经元，从而使神经脉冲在细胞间以接力的方式传递。

图8：不同的视锥和视杆的反应曲线如图8所示，按实际测量的反应曲线，单个视锥能感知以下三种光照环境之一：红色（数量最多），在波长为564nm时最灵敏；绿色，在波长为533nm时最灵敏；蓝色，在波长为437纳米最灵敏。视杆在波长为498nm时最灵敏（绿色-蓝色）。来自于视杆和视锥的脉冲刺激双极细胞，后者又相应刺激神经节细胞。这些脉冲传至神经节细胞的轴突，通过视神经和视觉盲点传至大脑的视觉中心。1.2.3视杆和视锥的密度每个视网膜内有大约1亿至1.2亿个视杆感光细胞、7千万至8千万个视锥感光细胞。

图9：视杆和视锥的密度如图9所示，大多数视锥集聚于中央凹，而视杆密集于其他区域（不存在于中央凹）。虽然一般白天的光照水平下视觉以视锥的作用为主导，但人眼视网膜中的视杆数量要远远多于视锥。有必要指出的是，视觉盲点区域（更准确地说是视神经头）没有感光细胞。没有感光细胞意味着在这个区域感受不到光，从而使每只眼睛有一个盲点。左眼的视觉盲点位于视觉中心的左方，而右眼的情况则相反。双眼同时睁开时，我们感觉不到视觉盲点，因为两个眼睛的视野部分重叠，

图10：视觉盲点测试图片按图10所示的图片，可以找到你的视觉盲点。可以按下述方法找到每只眼睛的视觉盲点：先遮住你的右眼，然后注视图10中左边的点。同时保持对图10中右边十字形的视觉，但不要直视。然后将脸慢慢靠近图片。当脸与图片的距离达到某个点，十字形消失了。按相反的方式重复上述步骤即可找到右眼的盲点。2．空间视觉和深度感知线索每一秒钟都有几十亿个信息片段传送到大脑皮层。信息流传送的过程是信息得以不断提炼的过程，也是信息的组织复杂性不断提高的过程。在这个过程的每个阶段，神经元按非常具体的刺激模式组织起来，脉冲在大脑皮层的目标区域不同，则其内容和刺激源也不同。理论上，信息表现的性质（神经脉冲的模式）被认为是从模拟性向象征性转变。2.1非来自于视网膜的信息线索非来自于视网膜的深度信息线索是那些不是由进入眼睛并弥漫在视网膜上的光图案形成的刺激源或信息片段，而是来自于其他生理过程。2.1.1适应性调节当人眼处于放松的状态，比如当你随意眺望远方时，眼球晶状体呈平直状态，这样就可以实现远距离视觉所需的最大焦距。

图11：适应性调节如图11所示，当眼睛关注的是近距离的物体时，则以上过程相反。环绕眼球晶状体的睫状肌收缩，这样便释放悬韧带的张力，使眼球晶状体处于自然的双面外凸的更接近球状的形状，从而增加其关注近距离物体所需的折光力。适应性调节是一个不自觉的生理过程，这样眼睛的镜片结构的视觉能力可以变化以聚焦进入眼睛、落在视网膜上的光。普遍认为视网膜模糊是适应性调节的刺激源，但这个过程与辐辏也有很大的关系。也有理论研究认为是睫状肌本身的运动形成了这种信息线索。2.1.2辐辏最强大的深度信息线索是眼睛的辐辏运动，即双眼的中央凹同时指向近距离视野中的物体。这个眼球运动功能也是双眼视觉的基础。

图12：辐辏反射如图12所示，这个过程意味着双眼同时绕其纵轴转动，但方向相反。转动的角度足以使注视近距离的物体时所投射的图像与双眼视网膜的中心对准。当注视近视野中的一个物体时，双眼以相互趋近的方向转动，或聚拢。当注视远视野中的一个物体时，双眼以相互偏离的方向转动，或分开。双眼以相反的方向转动，称为非结合性动作。实际上眼睛的所有其他动作都是一起的，或结合性的。调节和辐辏通常是相互联系的生理过程。比如，将眼睛聚焦在远处的某个东西，然后将你的注意力转移到近处的某个物体，这个过程的一开始你的双眼相互靠近以注视近视野中的物体。此时在视网膜上形成的图像看起来更大，并且模糊（焦距还没调整好）。这个模糊的图像于是触发适应性调节的生理反射，从而使得眼球晶状体的光能量改变，并将视网膜上的图像的焦距调整精确。另外，辐辏和调节提供给大脑的视觉线索并不相互匹配，或者说没有耦合关系。上述辐辏线索还有一个方面，就是在六块眼外肌内形成张力（见图13），眼外肌控制眼睛的动作。

图13：六块眼状肌2.2双眼视觉信息线索双眼视觉深度信息线索是那些双眼同时观看一个场景时所探测到的信息源或信息片段，两只眼睛是从各自稍微不同的有利位置提供这些信息线索。两只眼睛所看到的场景由大脑进行三维整合，这样便可以理解现实或虚拟环境。双眼视觉是两只眼睛的视觉。双眼视觉的主要深度信息线索称为立体视觉，是视网膜或水平差异性的结果。我们有两只眼睛，其横向的平均距离为约2.5英寸（63毫米）。两只眼睛从各自稍微不同的角度捕捉场景。如图14所示，立体视觉是通过大脑对两只眼睛所看到的不同场景根据视网膜影像的不同进行补偿、建构而获得的深度感觉。

图14：立体视觉据研究称，在双眼视野中，一侧视网膜上的点在另一侧的视网膜上也有一个对应的点。两个视网膜上的点相互对应，与观察者眼前一个称为双眼视界的区域有关，如图15所示。术语“horopter”（双眼视界）的意思为视觉的范围，由Françoisd'Aguilon（比利时数学家、物理学家和建筑设计师）于1613年首创。这个术语指的是某特定固定距离上物体的点在相应的视网膜结构上所形成影像的轨迹。因此，可以通过物体画一条线，而这条线上所有的点在两个视网膜上都有相同的对应点。这样我们看到的物体就是一个单一的点。理论上，双眼视界是这样一个轨迹空间：其中每一个点的成像都对应于双眼注视的一个点。

图15：双眼视界的概念图15中，双眼视界是与注视的差异性对应的点在空间中的轨迹。从理论角度来说，这是在两个视网膜上投射出在解剖学上相同或对应点的空间中的所有点。注意点R、P和Q如何在两个视网膜上形成相同的影像按照这个模型，如果对应的点至视网膜的水平距离正常，则双眼视界是分别经过两只眼睛的转动中心和注视点的圆。因此，当注视点变近，则这个圆变小。2.3单眼视觉信息线索2.3.1运动视差运动视差即观察者移动时会发现近处的物体看起来比远处的物体移动得更快，这是一种强大的、相对运动的信息线索。

图16：运动视差图16示意的就是这种现象。从物理学的角度，形成这种视觉现象的原因是图像在眼睛视网膜上移动的速度。近处的物体相对于远处的物体进入、穿过和退出你视野的速度快很多。这种视觉信息线索提供有关相对深度差异的重要信息，可以可靠地建构三维场景，帮助我们在环境中航行。图像在视网膜上的运动形成两类运动边界：与观察者运动方向平行则提供穿越性的信息；与观察者的运动方向垂直则提供有关动态遮蔽的信息，即近视野中的物体动态地遮蔽或显露远视野中的物体。2.3.2遮挡当一个物体阻挡了观察者对另一个物体的视线时，便形成遮蔽（又称为干涉）信息线索。此时观察者会感觉到处于阻挡位置的物体比被阻挡的物体更近。从图17可以很清楚地看到一点。

图17：遮蔽（或干涉）图中的汽车一辆一辆地被遮蔽，由此我们可以很明确地感觉到深度。遮蔽所显示的是相对距离（而不是绝对距离）。有研究进一步证明了这种信息线索在立体深度感官方面可能很重要。有些研究指出遮蔽信息线索在立体深度感官方面的主要功能是确定深度的非连续性以及阻挡物的边界。2.3.3删除和增强遮蔽现象有两个组成部分：删除（隐藏）和增强（显露），指的是当你的观察点移动时，近视野中的物体或表面显露或遮蔽远视野中的物体或表面。在现实和虚拟的环境中，如果近视野中的物体或表面比远视野中的物体或表面相对于观察者的距离要小很多，则当你移动时远处物体的删除或增强的速度会更快，如图18所示。相反，如果两个物体都在远视野中且相互之间的距离很小，则删除或增强的速度要慢一些。

图18：删除（隐藏）和增强（显露）即使不明显，无论观察者往任何方向移动，删除和增强现象都会发生。2.3.4线性透视线性透视线条会聚集在远处的某个单一的点，是一种单眼视觉信息线索。如图19所示，当注视某处走廊的照片时，我们知道图中的墙壁间的距离并不会越来越小，而是始终保持平行的。

图19：线性透视2.3.5动态深度效应（源于运动的视觉结构）动态深度效应是由物体的运动形成的对物体的复杂三维结构的感知。没有移动介质很难解释或展示，但你可以想象一个悬空在光和墙壁之间的立方体。如果静止不动，那么这个立方体的轮廓看起来可能像是图20中的任何一个。即使是图左上方的四方形从感官上来看也只是一个四方形。但当逐个观察其余的图形，大多数观察者很快就会感觉到这些轮廓图是源于一个立方体，即使没有其他深度信息或表面细节。

图20：动态深度效应有关如何感知三维形状主要有两个理论。第一个理论认为三维形状感知是因为物体移动时视网膜上所模拟生成的图像会变化，第二个理论认为是与之前的经验有关。在大多数情况下，动态深度效应是与其他深度信息线索一同感知，比如上述运动视差。2.3.6尺寸经验如果知道远处某个物体的大小，我们的大脑能根据这方面的理解估测绝对距离。有些研究认为，这一点可以重新定性为我们对身体的尺寸和物体的尺寸的相对关系的意识，因为理解一个物体的尺寸必须以某个相对尺寸为基础，那么身体是我们所拥有的、可以用来作为比较的相对尺寸2.3.7相对尺寸如果两个物体的尺寸相仿，但因为相对于观察者的距离不同而看起来尺寸不一样，我们便能感知在视网膜上成像比较小的距离较远，而成像较大的则距离较近。这种深度信息线索主要是基于个人经验。

图21：相对尺寸如图11所示，如果两个物体的尺寸相同，但与观察者的距离不一样，则较远者在视网膜上所占据的面积要小。如果视网膜上的成像较大，则看起来更近2.3.8立体透视立体透视（又称为空气透视）指光因远处物体或场景与观察者之间的空气中有颗粒物（比如水蒸气和烟尘）而发生散射的效应。如图22所示，距离越远，则物体或场景与其背景之间的对比度越小。物体上的标识和细节也是如此。远处的山变得越来越不饱和，并逐渐过渡到背景颜色。列奥纳多·达·芬奇将这种信息线索称为“消失之透视”。

图22：立体透视2.3.9纹理递变纹理递变是指物体的纹理和图案随着相对于观察者的距离增加看起来发生逐渐变化，即从粗大变得细小（或变得越来越不清楚）。如图23所示，凸凹有致的鹅卵石随着相对于观察者的距离增加变得越来越不清晰，直至变得看起来像是一个连续的平面。

图23：纹理渐变效应这种信息线索有以下三个特点： ❏透视逐渐过渡——随着距离增加，与倾面或观察角度垂直的单个纹理图案间的分割度变得越来越小。 ❏压缩逐渐过渡——随着距离增加，纹理图案的视觉高度变得越来越小。 ❏密度逐渐过渡——随着距离增加，视觉单位面积的纹理图案数变得越来越大。2.3.10照明/影线/阴影照明、影线和阴影是感知场景深度和物体几何尺寸的有力信息线索，其效果的变化范围很大。阴影的角度和对比度影响所感知的深度。一个物体因另一个物体而形成的阴影和反射可提供关于距离和位置的信息。如果一个物体的阴影较小、较清晰，则一般表明该物体至阴影投影所在物体或平面的距离较小。类似地，如果增大阴影面积并使阴影的轮廓边缘模糊，在视觉上会感觉深度更大。光与非平整表面的交互方式可在很大程度上显示其几何尺寸和纹理的信息。图24显示了这方面的几种不同效果。

图24：影线和阴影2.3.11视像扩大将你的手臂平直伸出，手掌向上，然后将你的手慢慢向脸移动。当你的手越来越靠近，投射于你的视网膜上的图像相应变得越来越大、遮蔽的背景也越来越多。这种视觉信息线索称为视像扩大，这不仅可以帮助观察者感觉物体的移动，还有助于观察者感觉距离。人在很小的年纪便开始形成这种对动态刺激源的感知，比如，我们可以观察到婴儿在一个物体直接向其移动时会表现出协调一致的防御性反应。图25是用静止画面表示这种视觉信息线索的效果。不仅距离越小物体看起来越大，而且背景信息线索越来越少，直至消失。