베이즈 요인(Bayes factor)

P(H｜D) = P(D｜H) * P(H) / P(D)

P(H｜D) ∝ P(D｜H) * P(H)

H: 가설, 타입, 사전 믿음

D: 정보, 관찰, 객관적 상황

P(H｜D) : 정보가 관찰된 상황에서 가설이 옳을 확률. 사후확률
P(D｜H) : 우도(likelihood). 가설이 옳을 때 정보가 관찰될 확률.
P(H) : 사전 신념의 정도. 사전 확률

사후 확률을 사전 확률과 우도를 통해 업데이트하는 방식이 베이즈 통계학의 핵심이다.

여기서 P(D)는 확률분포를 정규화하는 역할인데, 가설 1과 가설 2 중 어느 것이 더 설득력 있는지 그 비율을 계산하면, 즉 오즈를 구함으로써 약분해버리면 계산이 간편해진다. 즉, 사후 확률의 오즈를 구하는 것은 분포 자체를 구하는 것보다 계산이 간편하고, 의미하는 바는 H1가 H2보다 어느 정도 더 설득력 있는지 '상대적인' 강도를 나타내준다. 예컨대 P(H｜D)/P(H*｜D) = 2 라면, 사후확률 오즈가 2이므로, 정보를 관찰함으로써 가설 H는 가설 H*보다 2배 설득력 있다고 볼 수 있다.

P(H1｜D1) / P(H2｜D2) = { P(D1｜H1) * P(H1) } / { P(D2｜H2) * P(H2) }
P(H1｜D1) / P(H2｜D2) = { P(H1) / P(H2) } * { P(D1｜H1) / P(D2｜H2) }
사후 오즈 = 사전 오즈 * 베이즈 요인(우도 오즈)

사후확률뿐만 아니라 사전확률과 우도도 마찬가지로 오즈를 구할 수 있다. 우도의 오즈를 베이즈 요인(Bayes factor, BF)이라고 한다.

BF는 hypothesis testing, 즉 이 가설 1이 다른 가설 2와 비교했을 때 경험적인 데이터를 얼마나 잘 설명하는지를 보여준다. 아래는 일반적인 BF의 설명력에 대한 분류인데, BF가 1~3 정도면 흥미로우며 뭔가 있을 수 있다, 3~10 일 때 무엇인가 있다 또는 일부 설명한다, 30 ~ 100이면 매우 잘 설명한다고 본다.

Evidence categories for the Bayes Factor

Q1. 매주 친구와 함께 영화를 본다. 친구가 동전을 던져 앞면이 나오면 친구가, 뒷면이 나오면 당신이 영화를 선택하기로 한다. 친구는 10주 동안 매번 동전의 앞면이 나왔다. 당신은 동전이 앞/뒷면이 아닌 앞면만 2개인 사기 동전이라는 가설을 설정한다. 동전이 공정하다는 가설에 대해 사기 동전이라는 가설에 관한 베이즈 요인은 무엇인가?

- H1: 사기 동전을 쓰고 있다.

- H2: 일반적인 동전이고, 우연으로 10 연속 앞면이 나왔다

BF = P(D｜H1 ) / P(D｜H2)
BF = 1/(0.5)^10 = 1024
베이즈 요인만 고려할 시, 즉 10연속 앞면이 나온 정보에 대해 사기동전이라는 가설이 일반 동전이라는 가설보다 1024배 잘 설명한다.

Q2. 이제 세 가지 경우를 상상해보자. '친구는 약간 장난을 잘 치는 사람이다.', '친구는 대부분 정직하지만 때로는 교활할 수 있는 사람이다', '친구는 매우 신뢰할 수 있는 사람이다'. 각각의 경우 가설에 대한 사전 오즈 비율을 추정하고 사후 오즈를 계산하라.

★ 이 문제의 의미: 사전신념의 정성적인 속성을 정량화할 수 있다.

다음과 같이 사전 오즈를 임의로 설정해보자. 장난 잘 치는 경우는 사기동전일 확률이 일반 동전일 확률보다 10배 높을 것이고(...)

- 장난 잘 치는 경우: P(H1)/P(H2) = 10
- 대부분 정직하고 가끔 교활한 경우 : P(H1)/P(H2) = 1/4
- 매우 신뢰하는 경우: P(H1)/P(H2) = 1/10000

각 사전오즈를 고려해서 사후오즈를 구하면 다음과 같다.
- 장난 잘 치는 경우(10240), 대부분 정직하고 가끔 교활한 경우(240), 매우 신뢰하는 경우(0.1)

사전 신념에 따라서 확률이 달라짐을 확인할 수 있다.

Q3. 친구를 매우 신뢰한다고 가정하자. 1/10000을 사전 오즈로 할 때, 사후 오즈 1과 같이 동전이 공정하다는 것을 의심하기까지 몇 번이나 동전의 앞면이 나와야 할까?

★ 이 문제의 의미: 베이즈 요인을 통해 사전 신뢰의 강도를 추정하는데 필요한 증거의 양을 정량화할 수 있다.

사후오즈 ≥ 1이 되는 정보에서의 시행 횟수 x를 구하자.

1/10000 * 1/(0.5^x) ≤ 1
10000 ≤ 2^x
X ≥ 14

'메모 지식 & 에세이' 카테고리의 다른 글

양성예측도와 달리 민감도는 왜 유병률 데이터 없이 구할 수 있을까? (0)	2025.04.23
베이즈 추론과 폐쇄적 사고 (0)	2025.04.21
퇴직일 (2)	2025.03.30
인생의 의미 (1)	2024.12.08
숫자에 속아 위험한 선택을 하는 사람들 (0)	2024.09.20

베이즈 요인(Bayes factor)

'메모 지식 & 에세이' 카테고리의 다른 글

관련글

티스토리툴바