본문 바로가기

2017/03

확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (2) 저번에 이어서 2탄을 마저 이어서 해보자 t distribution은 앞서 설명했듯이 맥주품질을 관리하던 William Gosset이 만든 함수인데적은 표본으로도 최대한 결과를 얻어내기 위한 스마트한 방법이라고 설명하였다. 적은표본이기 대문에 normal Distribution에 비해 꼬리부분이 두껍다.그리고 n이 많아지면 많아질수록 normal distribution에 수렴한다.그림으로 살펴보면 점점 꼬리가 얇아지는것을 확인 할 수 있다. t distribution을 통해 대표적으로 평균이 얼마인지(분산은 모를때) 가설검정을 할대 t-test로 많이 쓰인다. 다음은 chi-square distribution이다. chi-square distribution은 normal distribution을 제곱하여.. 더보기
William Sealy Gosset과 t분포(t distribution) 여러가지 분포를 다루다가 문득 생겨난 궁금증이 있다. 분포이름이 Student t Distribution?? 학생 t?그래서 t-Distribution이 어떻게 탄생하게 되었는지 구글링을 하여 영문위키와 관련된 글들을 참고로 해서 써보겠다. William Sealy Gosset 은 수학과 화학을 전공하였고 우리가 흔히 알고 있는 아일랜드 더블린의 기네스 맥주(우리가 마시는 맥주도 윌리엄 고셋의 노력이 들어가있다?!) 회사에 입사하였다. 그는 열정이 넘쳐서 최적의 술맛을 내기 위해 주조 방법, 보리를 재배 등에서 여러 통계적 지식을 적용했다. 그는 일하며 공부하고 시행착오를 겪으며(이상적인 회사원이다!) 저명한 Biometrical(식물 측정학??)로 유명한 칼 피어슨(Karl Pearson) (이때만해도.. 더보기
확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (1) 처음 통계학에서 여러가지 분포를 배울때 그것을 외울때 특히 분포의 이름이 분포와 매칭이 쉽게 되지 않을 때 여러가지 분포를 종이에 적어놓고 화살표로 이어가며 이야기의 흐름처럼 정리했던 기억이 났는데 그종이가 어디갔지? 그래서 구글링을 통해 괜찮게 정리된 포스팅이 있어 참고해 보고자 한다.https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/ 가장 먼저 시작할 것은 바로 베르누이 분포(Bernoulli Distribution)이다. 베르누이 분포는 분포중에서 가장 쉽다. 흔히 확률하면 떠오르는 것이 동전이다. 즉 동전 앞뒤를 나타내는 분포이다.0(앞)이 나오거나 1(뒤)이 나오.. 더보기
공분산(Covariance)과 상관계수(Correlation) 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때가장 먼저 X의 평균, 다음이 Y의 평균이다. 이렇게 되면 대충 분포가 어디에 주로 모여있는지 (m_x, m_y)가 나온다.그다음으로 궁금한게 얼마나 퍼져있는지 인데 그것은 확률변수의 분산을 구하면 되지만각 확률변수들이 어떻게 퍼져있는지를 나타내는 것이 공분산(Covariance)이다., 두 확률변수 X와 Y가 어떤 모양으로 퍼져있는.. 더보기
여러 확률변수의 조건부분포와 독립 그리고 iid! 이젠 여러 확률변수들이 서로 상관성이 있는지 독립인지 어떻게 표현하고 계산할 수 있는지 알아보겠다. 두 사건이 독립일때 아래와 같은 수식을 본 적이 있을 것이다. 위 식을 말로 표현하면, 사건 A와 B가 동시에 일어날 확률은 사건A 가 일어날 확률에 사건B가 일어날 확률을 곱한 것이다.(한손에는 동전을 던지고 다른 한손에는 주사위를 던져서 동전 앞면과 주사위 6이 나올 경우를 단순 계산하면 1/12가 되는것 처럼) 여기서 조금더 확장하면 사건A, B를 확률변수X, Y라 하면 아래와 같은 식이 가능하다. 모든x,y에 대해 일때 확률변수 X와 Y는 독립(independent)라 한다. 역도 성립한다. 이는 확률변수가 3개 이상일때도 성립한다. 식으로 나타내면 이고 X_1부터 X_n까지 모두 독립이라는 뜻이다.. 더보기
결합분포에 대해 알아보자! 주사위를 던졌을때 주사위(X)가 얼마가 나올까? 내일의 날씨(X)는 어떤 날씨일까? 흔히 생각하는 확률변수는 하나이다. 그럼 2개 혹은 그 이상일때에는 어떻게 될까? 예를들어 중간고사 점수의 확률변수를 X라 하고 기말고사 점수의 확률변수를 Y라 했을때 중간고사 점수에 관한 확률밀도함수 f(X), 기말고사 점수에 관한 확률밀도함수 f(Y)가 존재한다.(probability density function 연속형일경우 확률밀도함수, 이산형일경우 확률질량함수 probability mass function) 그렇다면 중간고사점수와 기말고사점수 2개를 모두다 고려한 확률밀도함수는f(X,Y)로 표현할 수 있을 것이고 이를 결합확률밀도함수(joint probability density function) 라 한다. 변수.. 더보기
생활속의 확률 더 알아보기 생활속에 일어나는 확률을 더 알아봅시다. 사장이 될 확률은? 평균 100명이 근무한 사업장을 기준으로 직급별 비율은사원이 50%, 대리 25%, 과장 13%, 부장 7%, 이사 4%, 사장 1% 정도이라고 합니다. 당신이 사원에서 대리로 승진할 확률은 50%나 되지만 대리에서 과장으로 승진할 확률은 26%이며 과장에서 부장승진은 14%, 부장에서 이사가 될 확률은 8%, 사장이 될 확률은 2%에 불과하다. 당신이 4년제 대학교에 들어갈 확률 2017년 수능수험생 수: 605988명4년제 대학 정원 수: 324118확률 = 53.4% 서울대에 입학활 확률은? 2017년 서울대 입학정원: 3136 명확률 = 0.518% 객관식 5개문항 20개를 찍어서 만점이 나올 확률은?1/95367431640625 약 9.. 더보기
일상 생활 속에서 만나는 확률 이야기(로또, 바둑) 일상 생활 속에서 접할 수 있는 확률에 관해서 몇가지 적어보려고 합니다. 확률하면 흔히 떠오르는 로또 가 있는데 로또의 확률을 정리해보면 로또당첨확률 계산1~45개 공에서 무작위로 6개의 공을 뽑으며 뽑은 공은 다시 넣지 않는 방식이므로 전체 경우의 수는 이중에서 1등이 나올 경우의 수는 1개이므로 1등확률 0.000012277% 1 / 8145060 2등확률 0.000073664% 1 / 1357510 3등확률 0.0027992% 1 / 35724 4등확률 0.13646% 1 / 733 5등확률 2.24406% 1 / 45 2개 맞출확률 15. 1474% 1개 맞출확률 42.4127% 로또의 확률은 뭐 손으로 구하면 쉽게 구할 수 있다. 그렇다면 바둑은? 바둑에서 한 수도 틀림 없이 같은 수로 진행 될.. 더보기