论因果性和随机性的对立统一（因果与多尺度的碰撞）

看不惯就滚 2023-02-18 01:41:31

论因果性和随机性的对立统一（因果与多尺度的碰撞）(1)

导语

复杂系统是多尺度的，在许多情况下，对一个复杂系统的综合或间接测量构成对该系统的宏观描述的基础，但几乎没有理论来解释这是否合理，或微观和宏观描述是如何相互联系的。在集智俱乐部「因果涌现×因果科学」读书会联动中，北京科技大学的杨明哲对论文 Causal Consistency of Structural Equation Models 进行了解读。这篇文章是从因果视角对复杂系统间转换的开创性工作，其中提出精确转换的概念，使用因果语言揭示了不同层级的复杂系统间的因果一致性，该理论可以为普遍存在于复杂系统分析中的重整化/粗粒化操作提供理论基础。

因果涌现读书会第二季主要围绕追根溯源、因果涌现、因果表示学习、机器学习多尺度自动建模、量子因果五大主题来探寻涌现、因果科学和机器学习这三大主题之间的联系。自2022年5月22日开始，每周日晚上19:00-21:00举办，仍在进行中。欢迎对本话题感兴趣的朋友报名参加！

研究领域：复杂系统，因果涌现，因果建模，do-演算

论因果性和随机性的对立统一（因果与多尺度的碰撞）(2)

论文标题：Causal Consistency of Structural Equation Models

论文链接：https://arxiv.org/abs/1707.00819?context=stat

复杂系统中充斥着因果关系。这里的因果关系按照朱迪亚·珀尔的因果之梯的理论，要满足干预和反事实的要求，也就是说除了直接观察到规律以外，还要在被干预的真实世界甚至是想象中的反事实世界中得到规律。它比直接观察的关联分析更能解释事物间关系的本质。

我们来看下面一个简单的例子。早期研究中，科学家们发现饮食习惯（diet）通过影响血液中胆固醇含量（TC）进而影响心脏疾病的发病率（HD）。但奇怪的是，在一些研究中TC对HD有促进作用，而在另一些研究中则是TC对HD有抑制作用，所以没办法说清楚TC对HD的因果效应。后来科学家们发现，其实血液中胆固醇分两种，低密度脂蛋白（LDL）和高密度脂蛋白（HDL），它们分别对HD起到抑制和促进的作用。所以在研究心脏病发病机理的时候，必须把TC还原到LDL和HDL层面才行。经常在生物医学中会出现这样的案例，往往我们以为的一种物质实际上由多种物质组成，它们各有不同的作用，聚在一起则产生令人困惑的结果。

对于只有两三个变量的系统我们可以很清晰地进行分析，可以画出如上图所示的因果结构图。所以是不是说，在研究每一个问题的时候，就应该把研究对象不断拆分还原，做细粒化的操作就可以研究清楚了？

但对于非常复杂的系统，比如有大量分子运动的封闭空间，由各种细胞构成的生物体等，分析出一个个分子之间的因果关系是不可能做到的，即使能做到也极有可能是不划算的，因为不是所有因果关系的分析都能帮助解决我们所关心的问题。在这种情形下，我们通常采取粗粒化的策略，把系统的微观层面映射到某一个宏观层面上，再去观测宏观层面上简洁的因果关系，便可以非常方便地做研究了。比如对于大量分子运动的系统，我们可以去观测它们的宏观指标，比如压强、体积、温度等，便有了 PV=nRT 这样简洁优美的规律涌现出来。

Erik Hoel 最早提出了因果涌现这一理论，与还原论的思路相反，在多尺度中找到因果性最强的层次，在这一层次上进行动力学的研究。Erik也提出了有效信息（EI）这一指标来衡量因果性的强弱。于是接下来便有一个问题，当我们在做粗粒化的时候，是否会像开头的那个例子一样，我们付出了还没有看见的代价？何时要做粗粒化，何时要做细粒化，该如何做一个取舍呢？

在胆固醇与心脏病的例子中，HDL和LDL可以看作是微观层面，TC是宏观层面。其中宏观层面固然简洁，但不能做出有效的因果描述，可以说这一次宏观败给了微观。我们把这个例子出现的问题可以描述为多个尺度上因果关系不一致。因果一致性便是因果科学领域学者关注的一个问题，如何用严谨的数学语言来定义因果一致性是本文最大价值的体现。
1. 结构方程模型与精确转换
给定一个系统，如果我们可以表示所有的变量和他们之间的动力学关系，包括所有外生变量的分布，还可以根据我们关心的问题明确所有的干预操作，就可以用一个结构方程模型（SEM）来描述这个系统。比如在一个房间里有两个灯泡和窗户外的自然光，我们首先可以找到这个系统的变量集合

其中B1, B2分别表示两个灯泡是否亮，L则表示整个房间里是否有光亮，于是有以下动力学方程的集合

其中E1, E2, E3分别都是概率为0.5的二项分布外生变量，互相独立，也就是说我们只考虑简单的亮与不亮两种状态。灯泡的状态变化可以理解为背后有人以一定概率进行开关操作。OR是一个或运算，即B1, B2, E3中有一个是“亮”，L便是“亮”，E3可以理解为自然光。

接下来引入干预操作（do）。这里我们想研究灯泡对房间亮度的因果影响，所以对灯泡做干预，有以下排列组合的可能

其中

表示不做任何干预的纯观察，do(B1=0)可以理解为把1号灯泡给拧下来，使得它永远不亮。可以看得出来，do干预的选择有一定的主观性。把刚才的符号表达放在一起，便是一个SEM了

这里面关于干预操作之间有一个偏序关系。当某一个干预操作作用的变量集合是另一个干预作用变量集合的子集，那么这两个干预之间便有一个偏序关系。比如在刚刚灯泡与房间的系统中，便有这样的一组偏序关系

其中

便是表示偏序关系的符号。在考虑一个系统的因果关系时，这样的偏序意味着某些干预

（作用变量更多的）可以看作是在另外一些干预（作用变量更少的）的基础上补充一些干预形成的。我们要保障的因果一致性，可以简单理解为保持这些偏序关系在各个尺度上都不被破坏。

因为SEM中有随机变量E，所以其实我们可以把SEM看成一组包括系统中所有变量的联合概率分布，这一组中每一个概率分布，都对应一种干预操作下，该系统的状态情况（纯观察可以看做一种特殊的干预操作，也对应一个概率分布）。用数学定义如下

其中

表示在干预操作i的条件下，系统中的所有变量X的联合概率分布，而

则是继承下来的关系，即

。在上述灯泡的案例中，我们已知偏序关系

，于是就能继承得到，拧下1号灯泡的条件下整个系统的概率分布与两个灯泡都拧下来的条件下系统概率分布之间的偏序关系。

各个尺度上的SEM之间的对应关系，在本文里用转换这个词来描述。当我们从一个系统的微观层面转换到它的宏观层面时，这个转换其实就对应因果涌现中粗粒化的概念（下文默认我们考虑的都是从一个系统的微观层面转换到它的宏观层面，并用粗粒化做统一表述）。我们用符号τ表示粗粒化，那么它在数学上意义便是两个SEM变量集合之间的映射关系。于是两个SEM的联合分布之间便有如下的映射关系

在众多粗粒化操作中，有一些可以被称作精确转换。要证明一个粗粒化操作是精确转换，需要在两个层面的干预集合之间找到一个映射ω，并满足以下条件：

1.

，即微观上干预操作后联合概率分布要等于宏观上对应的干预操作后联合概率分布。

2. ω需要是满射，即宏观上任何一个干预操作都可以在微观层面上找到对应的一些干预操作并满足上面的条件。

3. 保序性，

。两个微观上的干预操作之间的偏序关系，到了宏观层面上，它们对应的干预操作之间也要满足相同的偏序关系。

在这样的精确转换下，两个层面的SEM便保持了因果一致性。另外我们可以简单地证明恒等映射和标签的置换都是精确转换，以及精确转换具有传递性，即两次精确转换看作一次转换的时候也是精确转换。
2. 不精确转换的案例
接下来我们用一些反例来更深入理解一下精确转换的概念。我们定义了一个微观层面的SEM

其含义为，对于一个变量集合{X1, X2, X3}，X1, X2均由两个外生变量直接决定，其中X1可以是任意的分布，而X2和X1永远相反，X3则是前两个变量的和外加一个噪声变量。干预操作考虑到了对X2以及对X1, X2一起做的操作。接下来我们把前两个变量相加得到一个宏观变量，同时X3做恒等映射，粗粒化得到一个宏观层面的SEM

读者如果不想看公式，也可以看下面的示意图理解一下

如果读者在理解的时候感觉到了别扭，那么不必怀疑你的直觉，事实上这本身就是一个不好的粗粒化。因为X1, X2互为相反数，所以Y1应该等于0而不是服从一个随机的分布。之所以出现这样的错位是因为考虑微观层面时我们只是纯观测，但对应到宏观上却等同于做了干预。我们用胆固醇的例子再来阐释一遍。控制LDL或HDL中的一个，TC则与另一个微观变量变化一致，服从某一种概率分布，在宏观上是对TC的观察而没有干预；如果对HDL和LDL都不干预，则两者产生的效应抵消，体现在宏观水平上则是对TC做了干预使之为0，这时候TC对HD没有实质的因果效应，而在实验上观测到时正时负，便是噪音在起作用了。上述繁琐的语言描述可以用数学语言描述如下，读者可对照理解。

类似胆固醇的例子在生物学中很常见。一般很多相似的蛋白质会形成一个超大的家族。家族中很多成员可以产生一些促进效应，但会有个别成员不起任何作用，但因为结构相似，会占据关键的点位，于是体现出抑制的作用。如果我们不能把家族成员分辨清楚，而是粗粒化成一种蛋白质，那么在实验中会出现与预期相反但又无法解释的结果。可见保持多尺度中的因果一致性对于许多学科的研究有非常重要的作用。
3. 精确转换的三种情形
首先对无关变量的忽略可以证明是精确转换。这里的无关变量有两种，一个是在因果图中没有孩子节点的变量，这意味着它无论有没有被干预都对其他变量没有任何影响。另一种则是没有被干预的变量，因为没有被干预意味着我们并不关注它的作用，虽然它也在系统里但与我们关注的问题无关，例如我在研究血液胆固醇含量对心脏病的影响作用时，血液压力可能对心脏病也有作用，但可以被忽略。这种忽略过程可以图示如下。

这里面只有X1, X2, X3被我们干预，下游的绿色结点因为没有孩子结点可以被忽略，而上游的蓝色节点和粉色的中介结点都可以被忽略。

第二种情况是大量结点编码粗粒化成一个模块。比如大脑有非常多的神经元，如果在神经元层面研究因果问题太过于复杂了，所以脑科学家们一般会研究一个又一个脑区。脑区便是对大量神经元的一种粗粒化。由此我们可以延伸出研究多尺度上的因果一致性，对于我们如何划分脑区可能有指导作用，甚至在以后阐释意识涌现出来的本质机理。

上图是这种情形的一种示意图。当微观层次机制是线性的时候，简单地取个平均值，就可以证明是个不错的精确转换。

上种情形是空间上的因果涌现，我们还可以看第三种情形，即时间上的因果涌现。这意味着我们要对一个时间上展开的过程，去粗粒化它的时间步，譬如把两步看作一个时间步，甚至直接把一个动态过程压缩成一个静态过程，如下图所示。

图中模型里取的是理想的噪音，即在每一时刻分布相同。同时也要求了微观上的变化最终会达到平衡。此时对微观一个时间序列上所有时间点的干预操作可以对应静态下对某一个变量的干预。有意思的是这里的精确转换把非环的因果图转换成了循环的因果图，这一点可以启发我们如何拆解循环因果图变成非环的因果图。这个情形看起来不可思议，其实在我们生活中也很常见，比如对化学反应的研究。其实在微观层面上发生反应的分子一直在不断变化，维持着一种动态的平衡，但因为已经达到了平衡，我们就可以测量宏观上各物质的体积比例等指标，把它看作一个静态的结构。
4. 因果一致性视角对因果涌现的补充
我们现在可以把因果涌现和因果一致性的结构图放在一起进行比较。

第一张图展现的是因果涌现的过程，更注重动力学在粗粒化过程中是否变得更加简洁，而第二张图展现了宏微观两个层面在连续干预操作下的展开过程，更注重两个层面之间的一致性。我们可以进一步将两个结构尝试拼在一起。

这或许启发我们，在追求最佳尺度上最简洁的动力学时，应该留意不同层次上动力学的内在约束，比如干预操作的偏序关系，这样才能保证宏观层面上对因果关系的有效描述。

这时我们再回答一开始的问题，有效信息的衡量是万能的吗？来看下面一个例子。

此时我们把各种颜色的微观结点直接映射成绿色这一种颜色，实质上是直接忽略所有变量，包括我们可能关心的变量，那么在因果一致性上想见肯定会很差。而如果去测量它的EI值，实际上会发现它的EI很高，因为它是一个非常简洁清晰的动力学过程，甚至清晰到无聊的程度。在直觉上，我们也会认为这是一种非常糟糕的粗粒化策略，因为它对我们关心的问题不会有任何助益。单靠EI这一指标是无法摒除掉这样的情形的，补充因果一致性的视角便可以帮助去除这样糟糕的粗粒化策略。

至此我们可以设想这样一个评价的架构，如下图所示。

一个维度衡量动力学上的复杂程度，比如用有效信息衡量，而另一个维度则是衡量多尺度间的一致性。本文目前是给出完全精确转换的判定方法，而在未来工作中，则有可能度量一致性的程度，从而可以刻画近似精确转换的情形。图中箭头方向代表我们粗粒化的方向。当我们粗粒化比较保守时，可以容易保障一致性，但可能动力学上依旧很复杂，不利于研究，比如恒等映射，没办法帮助我们简化问题。而随着粗粒化逐渐变得激进，在我们享受粗粒化带来的简洁的好处的同时，还要注意一致性上的代价，比如忽略所有系统变量的做法，固然让系统简洁明了，但同时却遗失了所有有效的因果信息。

杨明哲 | 作者

邓一雪 | 编辑

商务合作及投稿转载｜swarma@swarma.org◆ ◆ ◆

搜索公众号：集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!
,