본문 바로가기

통계학

확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (1)

처음 통계학에서 여러가지 분포를 배울때 그것을 외울때


특히 분포의 이름이 분포와 매칭이 쉽게 되지 않을 때 여러가지 분포를 종이에 적어놓고 화살표로 이어가며


이야기의 흐름처럼 정리했던 기억이 났는데 그종이가 어디갔지?



그래서 구글링을 통해 괜찮게 정리된 포스팅이 있어 참고해 보고자 한다.

https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/





가장 먼저 시작할 것은 바로 

베르누이 분포(Bernoulli Distribution)이다.


베르누이 분포는 분포중에서 가장 쉽다. 흔히 확률하면 떠오르는 것이 동전이다. 즉 동전 앞뒤를 나타내는 분포이다.

0(앞)이 나오거나 1(뒤)이 나오거나....

동전일 경우 앞이나오든 뒤가나오든 확률이 1/2겠지만 좀더 확장시켜 확률이 p 와 (1-p)인 경우까지 베르누이 분포에 포함한다.


즉, 동전에서 멈추지 말고 성공과 실패라는 두가지 경우성공확률p와 실패확률 1-p가 있는 분포라 생각하면 된다.




다음은 Uniform distribution이다. 한글로는 균등분포? 정도이려나


앞서서 동전을 던졌을때 1/2의 확률로 0과 1이 나온다고 하였다. 만약 주사위라면? 1부터 6까지 각 확률이 1/6으로 나올것이다.

여기서 1을 0으로, 6을 1로 해서 0과 1의 사이를 균등하게 나누어 각 부분이 1/6이 되게 해보자.

그다음 그것을 무한히 쪼개서 가루가 되도록 쪼개면??


연속확률변수가 되면서 0부터 1까지 pdf가 수평선처럼 가로로 그어질 것이다. 그 높이는 1이고.




다시 그림으로 가서 베르누이분포에서 Binomial Distribution으로 이어진다.


베르누이분포에서 동전이야기를 하였다. Binomial은 동전을 여러번 던지는 것과 같다. 20번 던졌을때 앞이 4번 나올 확률은?

정리하자면 던지는 횟수는 n번, 성공확률은 p번, 성공횟수는 k번 이렇게 정리할 수 있다.


상자에 흰공 여러개와 까만공 여러개를 넣고 (수가 같으면 확률은 1/2) 공을 하나 꺼내보자. 공을 꺼냈을때 검은공이면? 성공횟수를 더한다.

그리고 꺼낸 공을 다시 상자안에 넣고 섞고 이 횟수를 n 번 반복하는 것과도 같다.


그런데 여기서 또 알 수 있는 분포!



위 상자에서 만약 다시채워넣지 않는다면? 그것은 Hypergeometric Distribution이 된다.


정리하면 크기가N(검은공 M개, 흰공 N-M개) 유한모집단으로 부터 n개를 비복원추출시에 k번 성공할 확률은??

변수가 많기 때문에 위의 그래프로는 부족해서 구글에서 하나 가져와봤다.




119 상황실에 전화가 1분동안 몇번 올까?

뭔가 상자속에 검은공을 뽑아내는것과 비슷하지 않나? 마치 binomial처럼


그런데 119 상황실에 전화를 거는 사람들은 대체 몇명일까? 셀수는 있을까? 거의 무한대이다.

그리고1분동안 한번도 안올수도 있지만 몇백만번 전화가 올 수도 있다. 확률은 적지만..

그것을 나타낸 것이 Poisson Distribution이다.


이것을 정리해 보면 n과 p를 정의하기 곤란해서(n은 무수히 많고 p는 순간에 일어날 확률? 너무 작다) 람다(λ)로 표현한다.

그리고 횟수를 정하는것이 아니라 연속된 시간구간을 고려해야 한다는 것이다.


즉, 단위 시간 안에 어떤 사건이 몇번 일어날 것인지? 그것의 정도를 람다(λ)로 표현한다. 그리고 매 시간은 독립적이고 실패횟수는 중요치않다.





다시 동전의 이야기로 가보자. 이쯤되면 동전은 베르누이라고 뇌리에 박힐듯...


동전을 던지는데 대체 몇번을 던져야 앞면이 나오는걸까?

한번만에 될수도 있고 100번만에 될 수도 있고


그것이 바로 Geometric Distribution이다. 

다른 분포들이 성공에 초첨을 맞출때 Geometric은 성공할때까지 몇번 시도했냐? 가 중심이다.

정리할 것도 없이 오로지 변수가 될 수 있는것은 오로지 성공확률p




여기서 귀찮지만 조금 더 나아가면 r번 성공할때까지 몇번 시도했냐? 라는 질문도 가능하다

이것이 바로 Negative Binomial Distribution이다. Binomial이 몇번 성공이냐 초점을 맞출때 몇번만에 성공했냐 라는 생각때문에 negative를 붙인듯 하다.




다시 Geometric으로 돌아오는 동시에 아까 119 상황실을 떠올려보자.

Poisson에서는 일정 시간동안 몇번의 전화가 올까?가 질문이었지만 이번에는 다음전화까지 몇분 걸릴까 이다

즉 동전을 계속 던지는데 대체 몇번던져야 하듯, 대체 몇분이 지나야 전화가 오는걸까? 하는 것이다.


그 분포가 바로 Exponential Distribution이다. 평균 5분안에 전화가 오던데 3분만에 전화가 걸려올 확률은??

파라미터는 poisson처럼 람다를 나타낸다.

위키피디아에 있는 그림을 가져와보면


이 그림에서 몇가지 첨언을 하자면 포아송분포와 관련이 있기 때문에 람다를 그대로 썼고

지수분포는 감소함수이다.

전화가 안오기 까지 기다리는 2분의 시간은 1분의 시간을 두번 지나간 것과 같다.

즉 전화 오는건 독립이니까 2분정도 전화가 안오는 여유를 즐긴다는 것은 1분동안 전화가 안오는것이 두번 연속 온다는 말이고

그말은 x분 안오는것은 점점 확률이 적어질 수 밖에 없다는 이야기이다.




다음은 생각을 바꾸어서 exponential이 "다음 이벤트가 성공할 때 까지의 실패구간"에 대한 함수였다면

반대로 Weibull Distribution은 "첫 실패가 발생할 때까지 이번 이벤트가 성공할 구간"에 대한 확률이다.





다음에 다룰 것은 Normal(Gaussian) Distribution인데 확률분포중에 가장 중요하다. 중심극한정리(Central Limit Theory)가 있기 때문이다.



어떠한 분포든 동일한 확률분포를 가진 확률변수들의 합 혹은 평균들은 Normal Distribution으로 수렴할 수 밖에 없다.

이 분포를 발견한 가우스는 정말 천재인듯하다...


normal 분포에 로그를 씌우면 Log-Normal Distribution이 된다.



더 적고싶은데 졸리고힘들다.

확률분포 정리 (2)에서 마저 쓰도록하겠다~