——一个总是被忽视的偏差
回归模型通常并不研究变量间的因果关系(causation),而是仅估计特征和目标变量之间的相关关系(correlation)。然而,当我们试图沿着数据生成过程的反方向进行回归分析时(例如数据生成过程为 却用
回归
,即建模
),会引入一个系统性的估计偏差。这种偏差形式上类似于衰减偏差(Attenuation Bias),即回归系数被系统性低估,但其成因是回归方向与因果结构不一致,而非测量误差。本文旨在用简单数学推导证明有偏估计量总是在逆数据生成过程的回归分析中出现,并对此展示了一种可以调整该偏差量的方法。
在医学诊断领域,我们常常需要做所谓的反向因果推断(reverse causal inference)。例如图1.中所展示的一个前门混杂因果模型,可以是某种疾病潜在风险程度,
则可以是对潜在患病人群的某些医学指标的观测结果,
可以是一些可以被认为是原因变量
和结果变量
共同原因的混杂因子(例如环境因素、年龄等等)。通过例如RCT之类的金标准实验设计框架,如果我们真的全面且正确地控制了混淆因子,我们的确可以拿到不受混杂因子
影响的“良好”数据,反应了
和
之间的真实因果关系。实际诊断中,我们常常需要使用我们观测到的医学指标,对潜在患者的该项疾病风险做出评估。即从结果变量
预测原因变量
。

按照图1.中的模型,我们可以假设从原因到结果
的直接因果关系为:
其中,是一个方差为
的独立随机误差项。当我们想要建立一个利用
预测
的回归模型(反向因果推断)时,该回归模型可以表示如下:
其中,是残差项。记变量
和
的方差为
及
,
和
的协方差为
。理论上来说,我们期望
和
应互为倒数关系,因为他们确实都是描述
和
之间关系大小的系数,即:
现在让我们来分析一下,OLS估计下,是否真的是
的倒数呢?OLS估计给出的
可以表示如下:
接下来,让我们分别计算上式的分子和分母。其中,由于随机误差项与
独立,即
,
和
的协方差
为:
同时,分母的方差
:
将上面计算的和
代入到OLS估计量
的表达式中,可以得到:
可以从上式中看出,并不总等于
,而是还需要在它的基础上乘以一个总是小于等于1的系数
。因而,这样反因果推断回归得到的系数总是有偏的,而且总是会偏小。
图2. (a)具象化地展示了这种偏差。在图2. (a)中,是由
生成的,红色线表示这两个变量间真实的关系,也即
。而OLS回归模型由黑色线表示,它的斜率(即
明显小于
,是一个前文证明的系统性偏差。而在图2. (b)这个由
生成
的生成顺序下,
对
的OLS回归并没有此项系统性偏差。

在实际的反向因果推断中,我们并不能明确的知道生成过程的具体参数,那么我们又该如何估计去除掉这个系统性偏差的真实关系呢?让我们尝试从反向因果推断的回归模型的残差项
入手:
然后,我们可以估计它的方差:
联立这个残差项的方差表达式和上文给出的有偏OLS估计的表达式:在样本量足够大的情况下,我们可以明确知道
,
以及
(其中,
)的值。我们可以通过这两个方程解出
以及
这两个未知数。据此,我们所关心的
和
之间的真实关系就可以被无偏地描述。