Interventions | Notion

"Causal inference is concerned with a very specific kind of prediction problem: predicting the results of an action, manipulation, or intervention."

"번역) 인과 추정은 아주 특정한 예측 문제를 다룬다: 행동, 조작, 개입에 따른 결과를 예측하는 것이다"

→ 인과 추정에는 항상 action, maniuplation, intervention류의 개입이 있고 우린 이런 개입까지 고려하여 결과를 예측하려한다

→ 그래서 인과추론은 counterfactual(반사실적인) 사고를 요구한다. 개입이 있을 때와 없을 때, 다른 개입이 있을 때를 비교해야 하기 때문이다

구조적 인과 모델(Structural Causal Model)에서 개입은 do-operator로 정의된다
$P = (Y|do(X=x))$ 로 표기하며, X를 x로 고정할 때 Y의 확률 분포를 의미한다
Graphical model에서 X변수에 개입한다는 것은 해당 변수를 향한 모든 변(화살표)를 제거한다는 것을 의미한다

Causal effect 정의

<aside> 💡 X와 Y라는 disjoint(서로 겹치지 않음) 변수 집합이 있을 때, X의 Y에 대한 인과적 영향은 $P = (y|\hat{x})$ 혹은 $P = (y|do(x))$로 표기하며 X의 Y에 대한 확률분포 공간 함수를 의미한다. $P = (y|\hat{x})$, 즉 $X$ 중 $x$의 실행은 구조화된 인과 모델에서 X와 관련된 모든 방정식을 지우고 $X=x$로 대체하여 $Y=y$의 확률을 얻는 것이다.

</aside>

때로 개입의 인과 효과는 $E(Y=y|do(X=x'')) - E(Y=y|do(X=x'))$로 정의된다
- 의미 해석: 어떤 X의 유무에 따른 인과효과도 do-operator로 표현 가능하지만, X의 a라는 선택지와 b라는 선택지 사이의 인과적 영향을 표기할 때는 위 표기가 더 직관적!
이는 $P = (y|do(x))$로부터 항상 계산 가능하다

관측 데이터로만 인과효과를 측정하는 법

RCT(Randomized Controlled Trial)을 통한 개입효과 측정은 다양한 이유로 불가능한 경우가 많다
현실적인 입장에서 관측 데이터로만 개입효과를 측정하는 방법이 필요하다
- 문제1: 우리는 $P = (y|do(x))$를 알고 싶지만 $P(x,y,z)$ 데이터만 가지고 있다
- 문제2: 알려졌다시피 $P = (y|do(x)) \not= P(y|x)$이다 (상관성은 인과성과 다르다)
- 문제3: 어떤 fancy한 머신러닝 알고리즘도 이 문제를 풀 수 없다 (No fancy ML will ever solve this problem)
Section4에서 관측하지 못한 $P = (y|do(x))$로 변형하는 법을 배운다

Section4: Confounding Bias and Surrogate Experiments