본문 바로가기

통계학

베이즈 정리(Bayes's Theorem) _ 진지한씨의 암검사

통계학이라는 것이 주목받게 된 것은 비교적 최근의 일이다.

더구나 컴퓨팅 기술이 발달하면서 그리고 군사, 산업, 의료등의 학문에 발맞추어 발전하였기 때문이다.


그런데 베이즈 정리는 상당히 오래 전에 만들어졌다.

영국의 목사인 토머스 베이즈(Thomas Bayes)에 의해 무려 1760년대에 만들어졌다니 (61년에 죽었다고 했으니 그 전이겠지)...

모차르트 베토벤보다 일찍 존재했다.


1701년 목사의 아들로 태어났다. 당연 아버지를 따라 성직자의 길을 걸었지만 취미로 수학을 하였다고 한다.

죽기 전까지 그의 업적을 살펴보면 신학관련 논문과 뉴턴의 미적분학의 논리적 기초를 옹호하는 내용의 논문 정도라고 한다.


그러다가 1761년 사망하였는데 그의 친구 리처드 프라이스(Richard Prkce)가 그의 물건을 이것저것 정리하다가

메모를 발견했는데 그것을 정리하여 1763년에 발표하였다.

이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리즘인 이 정리는 무명의 아마추어수학자였던 베이즈를

21세기까지 자연및 사회과학의 여러 분야에서 회자되도록 하고있다.





베이즈 정리란?


사건 A가 있고 사건 B가 있을 때 사건 B가 일어난 것을 전제로 한 사건 A의 조건부 확률을 구하고 싶다.


그런데 지금 알고 있는 것은 사건 

1) A 가 일어난 것을 전제로 한 사건 B의 조건부 확률

2) A의 확률

3) B의 확률뿐이다.

그럴때 다음과 같이 구할 수 있다.


 P(B) > 0이어야 한다.





수식으로 적으니까 헷갈릴 수 있으니 예시 두가지를 들어보려 한다.

이 예시는 너무 유명하기 때문에 아마 많이 알 것으로 보인다.

첫번째 예시는 암의 확률이고

두번째 예시는 몬티홀 문제이다.




진지한씨는 어느날 건강검진을 갔다.

어차피 회사에서 공짜로해주는거 가장 비싼 종합암 검사를 해보았다.(실제로 있는진 잘 모르겠다)

그리고 검사 결과를 기다리는데 대장암을 담당하는 의사에게서 연락이 와서 상담을 받으러 갔다.

의사는 대장암 검사 정확도가 90% 정도라고 알려주었고 검사 결과 양성반응이 나왔다.

자신이 대장임일 확률이 90%라는 사실에 진지한씨는 어안이 벙벙하였다.


하지만 의사는 대장암의 확률이 10%도 되지 않으니 안심하라고 말을 한다.

어떻게 된 일일까?


의사의 말에 따르면 성인의 1%정도가 대장암을 가지고 있다고 한다.

검사정확도가 90% 이므로 정상인데도 검사에서 대장암이 나올 확률은 10%이다.

따라서 진짜 대장암일 확률은 8%에 불과하다는것!


10,000명 샘플 

 양성반응

음성반응 

 

 대장암환자가 아님

 990명

8910명

9900명 

 대장암환자

 90명

 10명

 100명

 

1080명

8920명

 


위 사항을 표로 정리해보면 확실히 알 수 있다.

10000명의 샘플이 있을때 대장암을 가지고 있는 사람은 100명이고 대장암이 아닌사람은 9900명이다.

이중에서 양성이 나온 사람은

1)암환자가 아닌데 양성반응이 나온사람 = 990명

2)암환자면서 양성반응이 나온사람 = 90명

이렇게 1080명이 이루어져있다.


이들 1080명 중에 90명이 암환자이므로 양성반응인 사람이 암환자일경우는 90/1080 = 8.3%이다.


이번엔 폐암을 담당하는 의사와 상담을 했는데

폐암의 검사의 정확도는 99%이고 양성반응이 나왔다고 한다.(폐암인사람의 확률 3%)

평소 애연가였던 진지한씨는 살짝 충격이었지만

대장암도 조건부확률이라는 개념에 넣어보면 확률이 적지 않을까 하고

대수롭지 않게 생각하지 않았는데 의사는 심각한 표정을 짓는다.


 

 양성반응

음성반응 

 

 폐암환자가 아님

 97명

9603명 

 9700명

폐암환자 

 297명

3명 

 300명 

 

 394명

9606명

 


진지한씨가 암일 확률은 297/394 = 75%이었던 것이다!



이렇듯 베이즈 이론을 응용하다보면 검사로 알수 없었던 결과(결과를 통해 원인을 유추)를 알 수 있게 된다.


몬티홀문제는 다음 글에 마저 다루어볼까 한다.