欢迎访问“人民时评网”,在这里您可以浏览到全国省、市、县各级党政机关社会服务部门资讯信息,以及社会相关的组织、机构、单位、个人等方面的政策法规、时评信息及资讯动态。

主页 > 新闻 > 【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

来源:网络转载更新时间:2021-02-27 20:51:21 阅读:

本篇文章3422字,读完约9分钟

从github中选择

作者: david salazar

编辑:陈萍,魔王

机器学习的做法是预测的有力工具,但很多行业的工作和研究都重视因果关系的讨论。 关联性不意味着因果关系,如何识别因果关系?

david salazar发表了一系列介绍因果关系的博客。 在以前的副本中,我们将因果关系定义为介入分布( interventional distribution ),并介绍了识别因果关系的两种策略(后门标准和前门标准)。 但是,这些准则并不适用于所有的因果关系。

那么,通常给定因果模型和不完全的度量集,如何明确因果关系是可以识别的呢?

本文提供了以下答案:利用c-component ( confounded component )概念开发的“图标准”( graphical criterion ),在多个实例上进行演示。

马尔科夫模型

得到因果模型中所有变量的主值时,该因果模型为马尔可夫模型。 在这种情况下,调整公式( adjustment formula )是识别策略:如果x、pa(x )的父代中存在主值,则因果关系x→y都可以识别。

那么,如果你没有注意到x的父母呢?

半马尔可夫模型

如果没有注意到的变量在图中有两个子项,则不适合马尔可夫属性。 这种情况下,我们不一定能采用调整式。 例如,如果没有注意到x的父母,则不能将其作为识别策略。 但是,也许可以采用后门和前门的指南。

让我们看看相关的例子。 在以下示例中,双向虚线显示了变量之间的“隐藏公共原因”。 u表示所有的未计量变量,v表示所有注意到的变量。

为了明确x对所有其他观测变量v的因果关系,必须从关注的介入前概率推测介入后的概率p(v|do(x ) )。

记住这里的因果模型和概率模型。 特别是,这些会导致联合概率分布的分解。 但是,在包含没有注意到模型的拥挤因素( confounder )的情况下,为了得到观测变量的联合概率分布,需要将它们边缘化。

在这种情况下,观测值的分解如下。

假设p(v|do(x=x ) )表示介入,可以截断上述公式,因此不需要计算x的概率。

p(v|do(x ) )可以用观测变量表示吗? 首先,您必须了解confounded component。

confounded component

请注意,在这两个表达式中,没有注意到的拥挤因素将注意到的变量分为不相交的组。 只有当两个变量通过双向路径连接时,才会分配给同一组。 在每个组中,s_k被称为confounded component ( c-component )。 在这种情况下,存在两个c-component,发生两次因数分解( c-factor )。

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

观察到在介入所有其他变量的情况下,各个( c-factor) q_k可以解释为s_k中变量的介入后分布。 共同观测分布可以表示为c-factor的乘积:

相反,如果对q_1的p(x|u_1)进行边缘化,则可以在q_1、q_2中定义p(v|do(x ) )。

因此,p(v|do(x ) )是可以识别的,a )我们可以根据介入前的概率计算介入后的概率q_1、q_2为前提的b )从估计的q_1中边缘化x,计算q_1^x。

实际上,tian和pearl的研究“ageneralidentificationconditionforcausaleffects”表示各c-factor是可以识别的。 因此,计算p(v|do(x ) )的唯一条件是“当然且只能用q_1^x识别”。 在这种情况下:

因此,通过合计x的值,可以将x从q_1边缘化。

最后,对p(v|do(x ) )进行如下估计。

识别因果关系的共同标准

首先,对于具有双向路径的图,请观察通过分割c-component和各自的c-factor方法,可以分解联合概率分布

另外,请注意,介入x生成的截断分布可以用c-factor表示。

在上式中,从因数分解中删除x时,q_x^x是x位置的c-factor。 因此,如果能识别q_x^x,也能识别p(v|do(x=x )。

事实上,根据tian和pearl的研究,只有在不存在将x连接到其孩子的双向路径(仅具有双向边缘的路径)的情况下,才能识别q_x^x。 因此,为了明确p(v|do(x=x )是否可以识别,可以接受以下测试。

另外,只有在没有将x连接到其孩子的双向路径的情况下,p(v|do(x=x )才能识别。

观察到如果p(v|do(x=x ) )可以识别的话,p(y|do(x=x ) )也可以识别。 因此,这个标准能够明确p(v|do(x=x )是否不能识别。 如果假设只对单一变量y的因果关系感兴趣,那么只考虑y的祖先变量的子图,就可以简化问题。

直观地理解

如何直观地理解认识性测试? 识别性的关键不是阻止x和y之间的后门路径,而是阻止x及其任何一个孩子(即y的祖先)之间的后门路径。 因此,通过切断这些路径,可以明确相关的哪个部分是虚假的,它们是真正的因果关系。

接下来,让我们看看应用实例。

例1

前面提到的例子。 为什么能识别呢? 本例中的所有其他变量都是y的祖先,在这种情况下,不能简化问题。 因此,必须确认x及其子代之间是否有双向路径。

tidy_dagitty(example,layout = "nicely ",seed=2)% >; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend, color = descendant ) + geom _ Dag _ edges ( AES _ cap ) edge _ linetype = linetype ) + geom _ Dag _ point ( ) + geom _ Dag

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

假设x和它的孩子之间没有双向路径,那么x的因果关系是可以识别的。

例2

non_identifiable_example <; - dagify(x ~ z、x~z、x~y、w ~ x、w~z、y~z、y~z )

在这个例子中,为了明确因果关系是否可以识别,需要找到x和它的孩子之间的双向路径。 否则可以识别因果关系。

tidy _ Dag itty ( non _ identifiable _ example,layout = "nicely ",seed = 2) %>; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend,color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

x和w(x的孩子之一)之间存在通过z的双向路径,根据上述图的基准可以观察到因果关系无法识别。

例3

third_example <; - dagify(z1 ~ x + z2、x ~ z2、x ~ z2、x~y、z2~y、z3 ~ z2、x~z3、y

和上一个例子一样,在这个例子中,必须在x和它的孩子之间找到双向路径。

tidy_dagitty(third_example,layout = "nicely ",seed=2)% >; %node_descendants("x")% >; % mutate ( linetype = if _ else ( direction = = "-& gt;" )、" solid "、" dashed")) %>; % ggplot(aes(x = x,y = y,xend = xend,yend = yend,color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

观察到x及其y以外的唯一的孩子( z1 )没有双向路径。 因此,可以识别因果关系。

识别性的必要条件是什么?

关于识别性,本论文中提到的测试是充分的条件,但不是必要条件。 那么,存在充足条件吗? 答案是肯定的。 pearl和shipster(2006 )讲述了算法。 扩展本论文的想法,根据介入前的概率返回因果关系的推测值。 完全等于pearl的do-calculus。

在r语言中,可以使用causaleffect包实现此算法。 如果将此用于第一个示例,则

first_example_igraph <; - graph.formula(x -+ z_2,z_2 -+ x,x -+ z_1,z_2 -+ z_1,z_1 -+ y % set.edge.attribute (“描述”,index = c ( 1,2,5,6 ),“u")ce <; - causal.effect(y = "y ",x = "x ",z = null,g = first_example_igraph

【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

总结一下

在半马尔可夫模型中,变量之间存在着隐藏的共同原因,这些原因有可能破坏识别策略。 本文介绍了基于隐藏共同原因的本质(用双向边缘表示)的识别性充分的测试方法。 当x与其子代(也是y的祖先)之间存在双向路径时,无法识别因果关系。

本文提供了充分的要求,展示了如何在r语言中采用。 该条件是完全的,在无法识别因果关系的情况下返回估计量,可用于基于观测数据估计因果关系。

amazon sagemaker是完全托管的服务,可以帮助开发人员和数据科学家快速构建、培训和部署机器学习模型。 sagemaker完全消除了机器学习中每一步的繁重工作,使优质模型的开发变得更简单。

现在公司开发者可以免费领取1000元的服务扣除券,轻松访问amazon sagemaker,迅速体验5个人人工智能的应用例子。

© the end

转载请联系本公众号取得许可

寻求帖子或文章: content@jiqizhixin

原题:“关联性≠因果性,用图的方法打开因果关系”

阅读原文。

标题:【时讯】关联性 ≠ 因果性,用图的方法打开因果关系

地址:http://www.huarenwang.vip/new/20181024/11.html

免责声明:人民时评网是一个为世界华人提供中国时政、财经、体育、娱乐各类评论分析的门户网站,部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,人民时评网的作者将予以删除。

人民时评网介绍

人民时评网是全方位收集发布国家社会领域重要政策条例及相关专家学者的分析解读,收集发布备受社会关注的政治、经济、生活、防灾等领域信息,是最权威、最实用的社会类资讯信息网站。人民时评网紧跟社会发展最新动态,聚焦国家社会领域焦点敏感问题,及时提供围绕社会服务的社会舆情、社会援助、社会监督、社会维权等,为社会部门和社会工作者提供系统完整前沿的政策社会信息体系,为社会提供极具代表性、真实性的社会信息资讯。