도구변수는 X의 Y에 대한 인과적 효과를 측정하기 어려울 때 제3의 변수인 Z의 실험값을 통해 X의 Y에 대한 인과적 효과를 추정하는 방법
*용어는 대충 Z를 식별가능하게 한다는 의미로 해석하면 될 듯?
Z-Identification은 이 도구변수의 아이디어를 DAG에 일반화 시킨 것
<aside> 💡 $do(x)$가 측정될 수 없을 때 $P(y|do(x))$를 $do(z)$를 포함하는 표현으로 축약할 수 있을까?
</aside>
아래 조건 중 하나가 충족될 때만 인과모형 구조 G에서 $Q = P(y|do(x))$가 Z-identifiable($zID$)하다
a. Q가 식별가능할 때 (identifiable) = 즉, Z 없이 기존 다룬 것처럼 X와 Y 인과 표현 가능할 때
b. 아래 조건을 충족하는 $Z'$이 존재할 때 ($Z' \subseteq Z)$
i) X가 Z'에서 Y로 가는 모든 직접 경로를 가로챌 때(intercept)
ii) Q가 $G_{\overline {Z'}}$에서 식별가능할 때 (identifiable)
ㄴ 두번째 조건의 경우 do(z)를 만드는 것이기 때문에 Interventions 에서 다룬 기본적인 개입효과의 의미를 반영한 것이기도 함
위의 경우 back/front door 방식으로 풀 수 없음
backdoor가 안 되는 이유 : Z가 X의 자식 노드라서 (정확히는 서로에 영향을 주는 미관측 자료가 있어서)
frontdoor가 안 되는 이유 : X와 Y가 직접적으로 연결되어 있어서
또한, a조건도 충족하지 못하는데 그 이유는 Z변수의 존재로 collider 구조가 됨
b조건 기준으로 체크
i) 실선으로 된 관계 기준 X에 의해 경로가 막힘 (합격
)
ii) $G_{\overline {Z'}}$에서는 $Z → X → Y ← W \dashleftarrow\dashrightarrow Y$ 구조가 되고 이 구조를 반영하여 식을 변경하면 $P(y|do(x)) = \sum_w P(y|do(z),x,w)P(w|do(z))$로 변경하여 식별 가능 (합격
)
→ 중간에 do-calculus 공식을 활용해 변경하면
→ $P(w|do(z))$의 경우 z와 w 사이의 관계가 없어 $P(w)$로 봐도 무방
전형적인 IV 상황의 그래픽 구조
위 구조에서 Z의 변화를 통해 X→Y의 인과효과를 보정하는 것이 IV이다
그런데 위 구조에서는 Z-identification은 불가능하다. $G_{\overline {Z'}}$에서 미관측 교란변수가 있어 $Q = P(y|do(x))$를 추정할 수 없기 때문이다.
IV의 아이디어를 DAG 구조에 일반화한 것이 Z-identification이라 했는데 한 모델은 되고 한 모델은 안 될까?