【时讯】关联性 ≠ 因果性,用图的方法打开因果关系
本篇文章3422字,读完约9分钟
从github中选择
作者: david salazar
编辑:陈萍,魔王
机器学习的做法是预测的有力工具,但很多行业的工作和研究都重视因果关系的讨论。 关联性不意味着因果关系,如何识别因果关系?
david salazar发表了一系列介绍因果关系的博客。 在以前的副本中,我们将因果关系定义为介入分布( interventional distribution ),并介绍了识别因果关系的两种策略(后门标准和前门标准)。 但是,这些准则并不适用于所有的因果关系。
那么,通常给定因果模型和不完全的度量集,如何明确因果关系是可以识别的呢?
本文提供了以下答案:利用c-component ( confounded component )概念开发的“图标准”( graphical criterion ),在多个实例上进行演示。
马尔科夫模型
得到因果模型中所有变量的主值时,该因果模型为马尔可夫模型。 在这种情况下,调整公式( adjustment formula )是识别策略:如果x、pa(x )的父代中存在主值,则因果关系x→y都可以识别。
那么,如果你没有注意到x的父母呢?
半马尔可夫模型
如果没有注意到的变量在图中有两个子项,则不适合马尔可夫属性。 这种情况下,我们不一定能采用调整式。 例如,如果没有注意到x的父母,则不能将其作为识别策略。 但是,也许可以采用后门和前门的指南。
让我们看看相关的例子。 在以下示例中,双向虚线显示了变量之间的“隐藏公共原因”。 u表示所有的未计量变量,v表示所有注意到的变量。
为了明确x对所有其他观测变量v的因果关系,必须从关注的介入前概率推测介入后的概率p(v|do(x ) )。
记住这里的因果模型和概率模型。 特别是,这些会导致联合概率分布的分解。 但是,在包含没有注意到模型的拥挤因素( confounder )的情况下,为了得到观测变量的联合概率分布,需要将它们边缘化。
在这种情况下,观测值的分解如下。
假设p(v|do(x=x ) )表示介入,可以截断上述公式,因此不需要计算x的概率。
p(v|do(x ) )可以用观测变量表示吗? 首先,您必须了解confounded component。
confounded component
请注意,在这两个表达式中,没有注意到的拥挤因素将注意到的变量分为不相交的组。 只有当两个变量通过双向路径连接时,才会分配给同一组。 在每个组中,s_k被称为confounded component ( c-component )。 在这种情况下,存在两个c-component,发生两次因数分解( c-factor )。
观察到在介入所有其他变量的情况下,各个( c-factor) q_k可以解释为s_k中变量的介入后分布。 共同观测分布可以表示为c-factor的乘积:
相反,如果对q_1的p(x|u_1)进行边缘化,则可以在q_1、q_2中定义p(v|do(x ) )。
因此,p(v|do(x ) )是可以识别的,a )我们可以根据介入前的概率计算介入后的概率q_1、q_2为前提的b )从估计的q_1中边缘化x,计算q_1^x。
实际上,tian和pearl的研究“ageneralidentificationconditionforcausaleffects”表示各c-factor是可以识别的。 因此,计算p(v|do(x ) )的唯一条件是“当然且只能用q_1^x识别”。 在这种情况下:
因此,通过合计x的值,可以将x从q_1边缘化。
最后,对p(v|do(x ) )进行如下估计。
识别因果关系的共同标准
首先,对于具有双向路径的图,请观察通过分割c-component和各自的c-factor方法,可以分解联合概率分布
另外,请注意,介入x生成的截断分布可以用c-factor表示。
在上式中,从因数分解中删除x时,q_x^x是x位置的c-factor。 因此,如果能识别q_x^x,也能识别p(v|do(x=x )。
事实上,根据tian和pearl的研究,只有在不存在将x连接到其孩子的双向路径(仅具有双向边缘的路径)的情况下,才能识别q_x^x。 因此,为了明确p(v|do(x=x )是否可以识别,可以接受以下测试。
另外,只有在没有将x连接到其孩子的双向路径的情况下,p(v|do(x=x )才能识别。
观察到如果p(v|do(x=x ) )可以识别的话,p(y|do(x=x ) )也可以识别。 因此,这个标准能够明确p(v|do(x=x )是否不能识别。 如果假设只对单一变量y的因果关系感兴趣,那么只考虑y的祖先变量的子图,就可以简化问题。
直观地理解
如何直观地理解认识性测试? 识别性的关键不是阻止x和y之间的后门路径,而是阻止x及其任何一个孩子(即y的祖先)之间的后门路径。 因此,通过切断这些路径,可以明确相关的哪个部分是虚假的,它们是真正的因果关系。
接下来,让我们看看应用实例。
例1
前面提到的例子。 为什么能识别呢? 本例中的所有其他变量都是y的祖先,在这种情况下,不能简化问题。 因此,必须确认x及其子代之间是否有双向路径。
tidy_dagitty(example,layout = "nicely ",seed=2)% >; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend, color = descendant ) + geom _ Dag _ edges ( AES _ cap ) edge _ linetype = linetype ) + geom _ Dag _ point ( ) + geom _ Dag
假设x和它的孩子之间没有双向路径,那么x的因果关系是可以识别的。
例2
non_identifiable_example <; - dagify(x ~ z、x~z、x~y、w ~ x、w~z、y~z、y~z )
在这个例子中,为了明确因果关系是否可以识别,需要找到x和它的孩子之间的双向路径。 否则可以识别因果关系。
tidy _ Dag itty ( non _ identifiable _ example,layout = "nicely ",seed = 2) %>; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend,color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )
x和w(x的孩子之一)之间存在通过z的双向路径,根据上述图的基准可以观察到因果关系无法识别。
例3
third_example <; - dagify(z1 ~ x + z2、x ~ z2、x ~ z2、x~y、z2~y、z3 ~ z2、x~z3、y
和上一个例子一样,在这个例子中,必须在x和它的孩子之间找到双向路径。
tidy_dagitty(third_example,layout = "nicely ",seed=2)% >; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend,color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )
观察到x及其y以外的唯一的孩子( z1 )没有双向路径。 因此,可以识别因果关系。
识别性的必要条件是什么?
关于识别性,本论文中提到的测试是充分的条件,但不是必要条件。 那么,存在充足条件吗? 答案是肯定的。 pearl和shipster(2006 )讲述了算法。 扩展本论文的想法,根据介入前的概率返回因果关系的推测值。 完全等于pearl的do-calculus。
在r语言中,可以使用causaleffect包实现此算法。 如果将此用于第一个示例,则
first_example_igraph <; - graph.formula(x -+ z_2,z_2 -+ x,x -+ z_1,z_2 -+ z_1,z_1 -+ y % set.edge.attribute (“描述”,index = c ( 1,2,5,6 ),“u")ce <; - causal.effect(y = "y ",x = "x ",z = null,g = first_example_igraph
总结一下
在半马尔可夫模型中,变量之间存在着隐藏的共同原因,这些原因有可能破坏识别策略。 本文介绍了基于隐藏共同原因的本质(用双向边缘表示)的识别性充分的测试方法。 当x与其子代(也是y的祖先)之间存在双向路径时,无法识别因果关系。
本文提供了充分的要求,展示了如何在r语言中采用。 该条件是完全的,在无法识别因果关系的情况下返回估计量,可用于基于观测数据估计因果关系。
amazon sagemaker是完全托管的服务,可以帮助开发人员和数据科学家快速构建、培训和部署机器学习模型。 sagemaker完全消除了机器学习中每一步的繁重工作,使优质模型的开发变得更简单。
现在公司开发者可以免费领取1000元的服务扣除券,轻松访问amazon sagemaker,迅速体验5个人人工智能的应用例子。
© the end
转载请联系本公众号取得许可
寻求帖子或文章: content@jiqizhixin
原题:“关联性≠因果性,用图的方法打开因果关系”
阅读原文。
标题:【时讯】关联性 ≠ 因果性,用图的方法打开因果关系
地址:http://www.huarenwang.vip/new/20181024/11.html
免责声明:人民时评网是一个为世界华人提供中国时政、财经、体育、娱乐各类评论分析的门户网站,部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,人民时评网的作者将予以删除。