본문 바로가기

카테고리 없음

확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (2)



저번에 이어서 2탄을 마저 이어서 해보자



t distribution은 앞서 설명했듯이 맥주품질을 관리하던 William Gosset이 만든 함수인데

적은 표본으로도 최대한 결과를 얻어내기 위한 스마트한 방법이라고 설명하였다.


적은표본이기 대문에 normal Distribution에 비해 꼬리부분이 두껍다.

그리고 n이 많아지면 많아질수록 normal distribution에 수렴한다.

그림으로 살펴보면 점점 꼬리가 얇아지는것을 확인 할 수 있다.


t distribution을 통해 대표적으로 평균이 얼마인지(분산은 모를때) 가설검정을 할대 t-test로 많이 쓰인다.



다음은 chi-square distribution이다. chi-square distribution은 normal distribution을 제곱하여 더한것이다. (sum of square)

다시말해 한번더할수도 있고 두번 더할수도 있고 k번 더할 수 있다.

우리의 친구 위키피디아의 그림자료 나갑니다~


t-distribution이 t-test와 관련이 있다면 chi-square distribution은 chi-square test와 관련이 있다.

t-test가 평균이라면 chi-square test는 분산의 가설검정이다.





다음은 Gamma distribution인데 여기서부터 슬슬 머리가 조여온다. 나도 헷갈린다. 틀린점이 있다면 추후 고치도록 하겠다.

gamma distribution의 경우 그 분포의 계수를 어떻게 주느냐에 따라 chi-square도 될수 있고 exponential이 될 수도 있다.

그렇기 때문에 화살표가 모여있다.


gamma distribution은 변수가 k와 세타(θ)로 나타나는데 k는 모양에 관계되고 세타는 크기를 조정한다.

역시나 이해를 돕기 위해 위키피디아에서 그림을 하나 가져오자면





k와 세타가 변하면서 지수함수와 카이제곱분포 양면을 다 가지고 있음을 알 수 있다.

gamma distribution은 베이지언 통계학에서 conjugate prior distribution으로 사용된다. 머신러닝의 개념에 있어서도 상당히 중요한 부분이다.



마지막으로 Beta distribution이다.(알파도있나?)

사전확률분포에 대해 논했다면 이미 beta distribution을 논하고 있는것과 다름없다.


감마분포가 포아송과 지수분포에 관한 사전확률분포라면 베타는 베르누이, binomial, negative binomial, geometric 분포들의 사전확률분포이다.



솔직히 감마도 잘 이해하지 못했는데 베타는 나도 정확히는 알지 못하지만

앞으로 베이즈 확률론까지 다루다 보면 베타에 이르기까지 이해할 수 있는 기회라 생각하고





그림을 통한 확률분포 정리는 이것으로 마치도록 하겠다.