Selection Bias

지금까지의 강의는 데이터에 편향이 없다는 가정이 있었지만 현실은 모집단에서 편향있는 데이터를 가지는 경우가 많다 (정확한 추정을 위해서는 랜덤하게 데이터를 뽑아야 하는데 랜덤하지 않다는 뜻)

인종에 따른 경찰의 폭력진압이 있냐는 인과분석을 위해서는 일단 인종에 따라 경찰이 의심을 편향되게 품지는 않았는지 확인해야 한다 (Stop과 Force 사이의 공통 미관측 원인변수가 의심)

변수에 편향이 있을 때 DAG 구조에 선택편향 노드를 추가한다.

이 노드는 받기만 하고 화살표를 내보내지 않는다.

선택편향 노드가 추가된 DAG는 $G_S$로 표기한다

이렇게 만들어진 $G_S$에서 $P(y|do(x))$를 구할 때는 $P(y|do(x),S=1)$으로 조건을 추가해서 구한다. (S=0인 데이터는 없으므로)

ㄴ 이 내용은 정확하지 않은 내용이고, 다음 챕터에서 더 다룸