大脑如何为世界建模？从无监督学习到预测加工｜《预测算法

发布时间：2024-05-01 20:57:12 来源：半岛电竞官网

由“万物解释者”、伦敦大学学院教授卡尔·弗里斯顿（Karl Friston）基于著名的“自由能

我要询价

产品概述

由“万物解释者”、伦敦大学学院教授卡尔·弗里斯顿（Karl Friston）基于著名的“自由能原理”（Free Eneray Principle）搭建的预测加工框架，旨在为认知神经科学、认知心理学、认知机器人学，或一切无法绕开认识论前提的实证科学分支提供心智现象的通用机制。哲学家与认知科学家安迪・克拉克（Andy Clark）将这套雄心勃勃的框架与富有说服力的具身认知相关见解结合起来，试图为心智现象描绘一套真正意义上的 “大一统理论”。

这部开创性的著作或许将一举终结身体与心灵的亘古之谜。今天的文章节选自本书第一章。

集智俱乐部「自由能原理与强化学习读书会」旨在探讨自由能原理、强化学习世界模型，以及意识的预测加工理论等前沿交叉问题，探索这些不相同的领域背后蕴含的感知和行动的统一原理。读书会由北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及公众号 CreateAMind 主编、骥智智能科技算法工程师张德祥共同发起，从3月10日开始，每周日上午10:00-12:00，本周日读书会的主题是「自由能原理前沿进展」，欢迎感兴趣的朋友和我们大家一起探索！

当我和一位同事闲聊片刻后重新进入办公室，觉知到待在桌上的那杯热咖啡时，发生了些什么事？一种可能是：我的大脑接收到一系列视觉信号

，这些信号快速地确定外界事物的一些基本特征，如线条、边缘和色块。然后，这些基本特征得到前馈、逐步积累并

结合在一起，产生层级慢慢的升高的信息类型，最终被编码为形状和关系。这些形状与关系在某一时刻激活了我们的知识储备，感觉由此被转化为知觉，于是我们看见了一只造型复古而不失时髦的绿色马克杯，里面盛满了热气腾腾的美味咖啡。尽管对这个模型的描述极为简练，它还是准确地反映了某种传统的认知科学取向，这种取向将知觉描述为“自下而上”

这里有一个备选方案。在我重新走进房间时，我的大脑已经提前形成了一套包含“咖啡-办公室关联”的复杂预期。当我瞥向桌面，几条经过快速处理的线索引发了一系列视觉加工，传入感知信号（它们被称为“驱动信号”或“自下而上的信号”）与一连串自上而下，以及横向传递的预测相遇，后者对应这个小小的世界最大概率的状态。预测的流动反映了嗡嗡作响、持续进行的积极神经处理过程，其下行方向则有助于抢先确定相关视觉加工（及其他）路径上不同的神经元集群可能的激活模式。伴随着我们在现实环境中不一样的活动，下行及横向预测将涉及宽广的范围，而非仅限于形状和颜色等简单的视觉特征——正如我们即将在后续章节中谈到的，它将涵盖大量多模态联想，并将与运动和情感相关的复杂预测糅合进来。多重双向信号快速交互、热情共舞，一旦下行“猜测”发生错误，由此产生的误差信号将横向或向上传播，以提高后续预测的质量。当预测流对传入信号的解释足够合理之时，关于视觉对象的知觉就产生了。这一过程在多重时空尺度上不断展开，系统自行生成传入感知信号，并将其与现实刺激进行匹配，在匹配成功时，我们就经验到了结构化的视觉场景。

这就是我们觉知那杯咖啡的方式，其基本假设正应了那句老话：知觉是受控的幻觉。这是个相当夺人眼球的说法，尽管它也有些曲解了事实线章）。形象地说，我们的大脑致力于猜测“外头啥状况？”——而知觉就产生在这种猜测与实际传入的信号彼此相符之时。

要解决这样的一个问题，我们要将能量模式经由感觉通道的传递，和系统产生知觉经验的过程清楚地区分开来。唯有基于能量模式的传递与自上而下的合理预期，我们才可以获得对真实世界的生动知觉。这样一来，问题就变成了：我们能否基于单纯的能量传递生成并运用合理的预期？故事的动人之处在于，学习和在线反应或许基于同一类过程（试图预测当前的感知输入）。

一些学者（Rieke et al., 1997;Eliasmith, 2005）主张，将动物自身的视角与某个系统作为外部观察者的视角作对比会是一个良好的开端。外部观察者可能会发现，唯有当视网膜上出现某些刺激模式，且这些刺激模式往往意味着在舌头所及范围内有一只可口的猎物（比如说，一只苍蝇）时，青蛙大脑中的一些神经元才会被激发。我们能说，这种神经活动模式对猎物的存在进行了“表征”，但尽管这种描述往往是有用的，它却在一个更重要的问题上蒙蔽了我们——青蛙（或任何一个我们关注的系统）到底通过何种途径获得对世界的理解？更好地看待这样的一个问题需要我们采用（这个“采用”是啥意思，我们很快就会讲到）青蛙本身的，而非外部观察者的视角，即只考虑青蛙所能获得的证据。这种说法其实也有误导性——它似乎是在鼓励我们透过青蛙的双眼看世界，但实际上，它是在说我们只应该去考虑那些会被青蛙的感受器所接收到的刺激。其中某些刺激在我们看来就是苍蝇，但对青蛙的大脑来说，它只是对感觉系统的某种扰动，该扰动是由于诸感受器接收到某些外部能量所导致的。正如Eliasmith（2005, p. 102）所指出的那样，“可能的刺激处于未知状态，动物必须根据不同的感知线索推断出呈现的是什么”。我要补充一点（后面将详细讨论）：“推断出呈现的是什么”与选择正真适合的行动间存在深刻的关联。因此，决定动物的视角的，是它们的大脑可以通过感受器状态的变化获取什么信息。而加工这一些信息的全部意义就在于，它能够基于外界环境（表现为感受器接收到的能量）和动物自身的状态（比如说它有多饿），让动物通过选择正真适合的行动做出反应。

我们还要强调一点：“信息”这一概念在此仅指“能量的传递”（Eliasmith, 2005; Fair, 1979）。也就是说，任何与信息有关的论述，都必须最终还原为感受器如何接收刺激。这是因我们想知道一个明智的认知系统最开始是如何自然形成的，如果要避免引入无益的外部观察者视角，怎么样看待“信息”就很重要。因此，谈论信息和谈论信息所指涉的东西是两码事。这一点最重要，因为如果大脑要对环境做出合适的行为反应，它就一定要解决信息的指涉问题。将能量刺激转化为指导行动的信息正是具身的、情境化的大脑的使命。

Eliasmith指出，Fitzhugh（1958）的研究提供了一个“采用动物视角”的早期案例，该研究尝试仅从动物神经纤维的反应推断相应的环境诱因。Fitzhugh在研究中刻意避开使用自己关于反应诱因的知识（观察者视角），具体做法如下：正如大脑（或其不同部分）从感知信号推断现实世界的状态一样，Fitzhugh想要用神经纤维的反应确定未知的刺激。他刻意保证自身只使用动物可以获取的信息，而任何源自“观察者视角”的信息只能用于检查答案，而非确定动物的表征。（Eliasmith, 2005, p. 100）

Fitzhugh的任务很是艰巨，但这正是动物大脑的日常工作。大脑必须在无法非间接接触其源头的前提下发现刺激信号的可能诱因。它所“知道”的——在“知道”这个词的字面意义上——只有其自身状态

流动与变化的方式。一个外部观察者会注意到，大脑的自身状态会对具身的有机体产生一定的影响，如导致感受器本身的运动。积极的认知主体由此对感知刺激流进行组织，影响能量刺激的波动起伏。我们稍后将会看到，这是一个重要的额外信息源自，但并不会改变感知的基础原理：任何系统都能直接访问其自身的感知状态，即各感受器之间刺激分布的模式。

这种刺激分布的模式如何让具身的、情境化的大脑成为一个具有重大价值的节点（同时也是一个消耗大量新陈代谢能量的器官），以辅助有机体灵活的适应性反应？请注意，这样的一个问题已经与本章开始时不同了：我们不再关心有机体如何在外界环境与自身内部状态间建立起“映射”（mapping），而是要借助多变的传入信号本身推断出信号源（世界）的性质。

这看似无望，但预测驱动的学习提供了一个很强大的方法，让事情有望柳暗花明。要理解这种方法，我们应该首先回顾一下另一种学习策略：人们会为参与学习的系统安排一个“老师”，但这个“老师”通常不是人类，而是一个自动化信号，其任务是根据当前输入准确地告诉系统应该做些什么，或不该再做些什么。这被称为“监督式学习”。

（如Rumelhart, Hinton, & Williams, 1986a,b; Clark, 1989, 1993）

这类联结主义系统是一个漫长演化过程的关键一步，这样的一个过程最终导向我们很快就要描绘的“预测加工模型”（PP模型）。实际上，有学者主张预测加工模型（更宽泛地说，多层贝叶斯模型）就是从联结主义系统的庞大家族谱系中演化而来的（具体讨论见McClelland, 2013及Zorzi et al., 2013）。在这以前，我们很容易否认仅凭对感知证据的精细挑拣就能够支持有效的基础学习。相反，人类的大部分知识看起来更像是天生的——在漫长的演化过程中，它们作为神经回路的形态与功能被逐渐固定下来。

联结主义系统的出现让人们对以上观点产生了怀疑，这很重要，因为它表明我们实际上有几率会从实际接触的丰富感知信号中学到许多（见Clark, 1993）。但标准的联结主义方法（反向传播的训练）在两个方面碰了钉子：一是它需要出示足够数量的、已预先分类的训练数据，以支持监督式学习；二是训练难以在多层网络架构中展开，因为对误差信号的反应需要在各层级间进行分配，而分配方式往往难以确定下来。适用于多层架构的预测驱动学习恰好同时解决了这两个难题。

我们先考察训练数据。预测驱动的学习可以被视为监督式学习的一种干净的（即生态上可行的）实现形式，更准确地说，它就是一种自我监督式学习。在此过程中，环境本身能够以滚动的形式持续提供“正确的”反应。因此，假如你就是一个大脑（或多层神经网络），日常工作就是不断地转化环境刺激，你就一定能侦测自己的感觉登记器是怎样持续变化的。如此，你就能尝试预测这些感觉登记器的下一个状态（虽然很多动物也能做到这一点）。

故事其实比它看上去的样子要复杂得多。虽然将预测工艺流程理解为在时间上彼此离散的一系列步骤或许是最简单的，但我们将要考察的模型主张大脑在一个连续不断的过程中对滚动的现实进行预测。知觉是一个预测驱动的建构过程，它永远植根于过往（系统性知识），在多个时空尺度上对未来提前做出考量。一旦我们认识到这一点，在预测当下和预测临近未来之间的界限就不再分明了。

对预测工艺流程来说，一个好消息是，该过程所需要的大量训练数据就来源于环境本身。因为只要周围的环境发生改变，感觉登记器的状态就将受传入信号的系统性驱动而发生明显的变化，进而为大脑的自我监督式学习提供训练数据。因此：预测性学习尤为引人瞩目，因为它的信号源几乎无处不在。如果你想预见接下来发生的一切，那么每一个当下都是学习的机会。这种无时不在进行中的学习可以解释（比如说）婴儿是怎样神奇地获得了对世界的复杂理解的，尽管它们的行为貌似十分迟钝（Elman, Bates, Johnson, Karmiloff-Smith, Parisi, & Plunkett, 1996）——婴儿对自己将会看到什么的预见会慢慢的准确，它们由此为环境建构起日益复杂的内部模型。（O’Reilly et al. 已提交p. 3）

以此观之，预测工艺流程是一种典型的“无上限自举”。举个例子，要想预测句子中的下一个单词，熟练掌握英语语法是很有好处的。而熟练掌握英语语法的一条有效途径，就是寻找最好的办法预判句子中的下一个单词。这正是世界本身自然地提供给我们的训练方式，因为对应句子中下一个单词的声音或形状会紧随着预测呈现出来。由此，你可以一步步地引导自己建构起关于英语语法的知识，这些知识又会在后续的预测任务中派上用场。如果处理得当，这种自举（即某种形式的“经验贝叶斯方法”，见Robbins, 1956）可成为一种很强大的训练机制。

预测驱动学习将变动不居的感知信号视为丰富的、持续可得的、“自举友好”的免费资源加以利用。世界慷慨而可靠地为咱们提供着海量的训练信号，以资匹配当下做出的预测和实际感知的传入刺激，无论预测任务在生态意义上是相对基础的（如预测一直在变化的视觉影像以识别捕食者或猎物）还是相对先进的（如“看见”桌上的咖啡，或预见句子中的下一个单词）。一些广为人知的学习算法（learning algorithms）能利用这种机制，揭示实际上塑造了传入信号的、彼此交互的外部原因（即“潜在变量”）。但在实践中，这需要引入预测加工模型的另一个关键成分，即使用多层架构进行学习。

在我们眼中，世界是高度结构化的，它表现为对应不同时空尺度的一系列规律和模式，同时充斥着各类彼此交互的、复杂嵌套的远因。感知预测机制与多层架构学习的结合对我们而言意味着计算上的突破

，他将知觉描述为概率性的、知识驱动的推理过程。Helmholz提出了一个重要的主张，即系统要从身体的感知效应推断其现实诱因，这是一项棘手的工作。也就是说，感知主体要对外部诱因押注，它们会询问：“什么样的外部刺激才能以当下的方式激活感受器？”这项任务之所以棘手，部分是由于有时感受器的某种激活模式对应着好几套可能的外部诱因，而这些外因的彼此差异仅限于其

受Helmholz的洞见启迪，MacKay（1956）、Neisser（1967）和Gregory（1980）的工作对当代认识心理学产生了重要影响，并形成了一个传统，我们今天称之为“综合分析”（analysis-by-synthesis，见Yuille&Kersten, 2006）。在机器学习领域，这些洞见引领了一连串重要的创新，它们源于与（名副其实的）“Helmholz机器”（Dayan et al., 1995; Dayan & Hinton, 1996; Hinton&Zemel, 1994）相关的研究工作。“Helmholz机器”是一个多层架构的早期范例，研究者可以在不对有关数据进行预先分类的前提下训练它。系统能够利用其下行或横向内部连接自行生成训练数据，以此实现“自组织”。也就是说，它一开始不是在对数据来进行分类（或“习得识别模型”），而是在学习怎么样使用多层架构自行生成传入刺激。

这看似一项不可能完成的任务，因为系统要一些知识才能自行生成传入刺激，而它当下正在努力尝试去获取这些知识。比如说，如果对诸音节彼此连接和组合的方式不具备相当程度的了解，系统就不可能凭空生成一门语言的语音结构。同理，只有掌握了一个与语音结构相关的生成模型，一个系统才能去学习怎么样进行归类任务（也就是说，输入一连串声音信号，它能够输出其语音分析结果）。但如果既没有这样的模型，也没有支持模型建构的知识，我们又该从何处着手呢？这种情况下，答案似乎是“逐步地，从两处同时着手”——至少在理论上，通过发展新的学习路径以迭代地实施“无上限自举”，这一难题就能获得解决。

人们为此设计了一系列算法，其中以“睡眠-觉醒法”（wake-sleep algorithm，见Hinton et al., 1995）最为典型，该算法让识别（recognition）与生成（generation）任务彼此引导，允许系统在迭代评估（iterative estimation）中轮替地训练两组权重，以习得识别与生成模型。“睡眠-觉醒法”会使用其下行连接指定隐藏单元的理想（目标）状态，由此对识别模型的建构进行事实上的自我监督，这是借助生成模型实现的，该生成模型致力于自行激活或——如有些资料所描述的——“凭空生成”特定感觉模式。更重要的是，即便系统一开始只含有随机分布的一系列低值权重，以上过程仍旧能有效地进行下去（见Hinton, 2007a）。

在这个相当具体的意义上，一个生成模型会通过推想一个诱因矩阵，努力捕捉某些传入信号的统计结构——只要在上述矩阵与信号结构间存在对应关系。一个对应视知觉的概率生成模型会通过推想一个远因的交互网络，努力捕捉较低层级上的对应刺激模式（最终是网膜刺激）。因此，特定情境中网膜刺激的特定模式可以通过使用生成模型得到最理想的解释。简而言之，生成模型能够将高层表征（如彼此交互的主体、客体、动机和运动）与多个中间层级（对应颜色、形状、质地和边缘组合及变化）结合在一起。当这些隐藏诱因的组合（在多个时空尺度上）形成一个连贯的整体，系统就使用其知识储备自行生成了感知数据，借此知觉到一个有意义的、结构化的场景。

我们必须再次强调，要获得对这种结构化场景的理解，动物只能使用取其自身视角时能够获得的信息。这种理解植根于动物的演化过程对其大脑和身体的预结构化（pre-structuring）——不论它呈现出何种面貌——以及由感受器所登记的能量刺激。利用多层架构持续自行生成感知数据的尝试为动物提供了一种实现以上理解的系统化方法。在实践中，这意味着一个多层系统中的下行和横向连接能够对应多重时空尺度，为彼此交互的诱因编码概率模型。如果以上逻辑是正确的，那么我们识别客体、状态和事件，其实就是寻找那些最有可能的因素（即远因）：它们的彼此交互能够生成（亦即预测，并最好地解释）传入的感知刺激（见Dayan, 1997; Dayan et al., 1995; Hinton et al., 1995; Hinton & Ghahramani, 1997; Hinton & Zemel, 1994; Kawato et al., 1993; Mumford, 1994; Olshausen & Field, 1996）。

如果（以我们将很快论及的方式）将以上机制转置于神经系统，则预测误差代表着任何尚未得到解释的感知信息（Feldman & Friston, 2010）。也就是说，预测误差是由系统自行预测的刺激与其实际接收的信号间的失匹配（mismatch）所导致的“惊异”——或为区别于某种常见的、富含主观色彩的经验，我们可以更加正式地称其为“意外”（surprisal，见Tribus, 1961）。如前所述，我将系统致力于从事的这项任务描述为“预测加工”——之所以引入该术语，而非沿用更为常见的“预测编码”，是因为要强调这种认知机制的突出之处并不在于它所采用的数据压缩策略（即预测编码，稍后将详细介绍），而在于采用该策略的是一类特殊的、具有多层架构的系统，其部署了一系列概率生成模型。这类系统具有强大的学习能力，它们的加工形式丰富多样、对情境极为敏感（我们即将看到），并能高度灵活地在多层级联中整合自下而上和自上而下的信息。

预测编码最初是一种为实施信号处理而开发的数据压缩策略（相关历史见Shi&Sun, 1999）。以一类基本任务，如图像传输为例，在大多数图像中，一个像素点的值稳定地预测其邻近像素点的值，除却一些例外情况——这些例外情况反映了图像某些重要的特征，如对象之间的边界。这意味着：通过仅对意料之外的变动（即真实值与预测值发生偏离之处）进行编码，一幅图像的代码可以由一个“充分知情”的接收装置进行有效地压缩。一个最为简单的预测原则是相邻的像素点都具有相同的值（如相同的灰度值），当然更为复杂的预测也是完全可能的。只要存在可检测的规律性，就可以实施预测（进而可以实施特定类型的数据压缩）。我们感兴趣的是真实值与预测值的偏离，它们被量化为实际信号和预测信号之间的差异（即“预测误差”）。这种数据压缩策略大大节约了带宽，而节约带宽正是20世纪50年代James Flanagan和贝尔实验室的其他工作人员努力开发新技术背后的动力。

通过“知情的”数据压缩，人们可以从相当简练的编码中重现丰富多彩的原始声像。这项技术对诸如影像资料的运动压缩编码意义相当重大。在构成影像的图像序列中，重建当前帧图像所需要的大量数据已经呈现在前一帧图像之中了。如果一段影像记录了某物体在一个稳定背景下的移动，我们可以假定当前帧图像中绝大多数背景信息与前一帧图像中的完全相同，除却被遮挡部分的变化和镜头平移导致的差异。在预测编码较为复杂的应用中，只要物体运动的速度（甚至加速度）保持不变，我们就能够使用所谓运动补偿的预测误差掌握其可预测的运动信息。换言之，只要对运动进行了适当的补偿，重建当前帧图像所需的全部信息就都包含在前一帧图像里了。要得到当前帧图像，你只需要发送一条简单的讯息（例如，不那么正式地说，它大概可以表示为“和之前一样，只是将所有内容向右移动两个像素”）。原则上，任何系统性、规律性的变化都能被预测，残余下来的只有那些真正意想不到的误差（例如，一个先前被遮挡的物体突然意外地出现）。

这里面的诀窍是使用智能和知识降低当前编码和传输过程的成本。注意，我们并不需要接收装置进行“有意识的”预测或期望。重要的是，预测装置需要能够充分利用其检测到的规律，或基于其他有效的预设重建传入信号。通过这种方式，像我们这样的动物就能利用自己已经具备的知识，尽可能多地预测当前的感知刺激，以节约宝贵的神经带宽。当窗帘以某种方式轻轻摇晃，你立刻意识到是心爱的小猫小狗在后头捣乱（尽管也可能只是一阵风）——在每一个这样的时刻，你都在利用训练有素的预测机制完成感知任务。这节约了你的带宽，并且通常能让你更好地认识世界。

因此，预测加工机制将“自上而下”的概率生成模型与保证编码及传输过程高效性的核心预测编码策略相结合，在多层双向级联中使用。如果预测加工的逻辑是正确的，那么知觉就是一个我们（或我们的大脑不同的部分）对内外部事件进行猜测的过程，输入信号更多地被用于对猜测进行微调，而非详细地编码目标事件的状态（后者太占用带宽）。当然，这并不是说只有在所有前馈误差信号都被消除后，我们才能感知到什么。虽说只有当下行预测和传入刺激在多个层级上实现了匹配，完整而丰富的感知才能形成，但这种匹配（我们稍后将看到）本来就是逐步完成的。动物拥有一套训练有素的的前馈扫描机制，对一些简单的（如低空间频率的）线索高度敏感。利用这一机制，它们能够快速地感知到场景的一般性质或“主旨”（gist）。而后，随着一波波自上而下的预测持续展开，残余的误差信号逐渐减弱，同时更丰富的细节也涌现出来。以此观之，持续不断的感知过程是大脑利用其存储的知识，以一种循序渐进、逐步细化的方式，对由当前感知刺激引发的多层神经反应模式进行预测。这反过来也强调了期望结构（不论它们是有意识的还是无意识的）能够在多大程度上决定我们的所见、所闻和所感。

简介：如我们一般的智能系统怎么样产生感知、思维、梦境、创造性等现象经验？或者说，这些现象经验当真只归功于你我颅腔中那团“重约3磅的肉质器官”吗？夜空中的蝙蝠、沙发上的猫、船舷边的海豚是否拥有这些现象经验？如果是，这些经验又会是怎样的？大脑、身体、行动和环境如何彼此整合，使复杂动力系统得以灵活适应，并得以思索“一切神秘中最为神秘”的那个问题？

对终极问题的回答在神经科学、心理学、AI与机器人学等多学科交汇处涌现。

安迪・克拉克（Andy Clark）：苏格兰爱丁堡大学哲学、心理学和语言科学学院教授。研究方向含人工智能、具身认知、机器人学和预测心智。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「自由能原理与强化学习读书会」，希望从自由能原理这个更底层的视角重新审视强化学习世界模型，探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不相同的领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始，每周日上午10:00-12:00，维持的时间预计8-10周。欢迎感兴趣的朋友报名参与！

上一篇:《浪姐5》节目组安排太不合理但这次的偏心倒是不明显

下一篇:【48812】博俊科技： 2024年度以简易程序向特定目标发行股票预案

产品中心

新闻中心News

联系我们Contact Us

半岛电竞官网

大脑如何为世界建模？从无监督学习到预测加工｜《预测算法

相关产品

相关新闻