본문 바로가기

확률론

확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (2) 저번에 이어서 2탄을 마저 이어서 해보자 t distribution은 앞서 설명했듯이 맥주품질을 관리하던 William Gosset이 만든 함수인데적은 표본으로도 최대한 결과를 얻어내기 위한 스마트한 방법이라고 설명하였다. 적은표본이기 대문에 normal Distribution에 비해 꼬리부분이 두껍다.그리고 n이 많아지면 많아질수록 normal distribution에 수렴한다.그림으로 살펴보면 점점 꼬리가 얇아지는것을 확인 할 수 있다. t distribution을 통해 대표적으로 평균이 얼마인지(분산은 모를때) 가설검정을 할대 t-test로 많이 쓰인다. 다음은 chi-square distribution이다. chi-square distribution은 normal distribution을 제곱하여.. 더보기
공분산(Covariance)과 상관계수(Correlation) 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때가장 먼저 X의 평균, 다음이 Y의 평균이다. 이렇게 되면 대충 분포가 어디에 주로 모여있는지 (m_x, m_y)가 나온다.그다음으로 궁금한게 얼마나 퍼져있는지 인데 그것은 확률변수의 분산을 구하면 되지만각 확률변수들이 어떻게 퍼져있는지를 나타내는 것이 공분산(Covariance)이다., 두 확률변수 X와 Y가 어떤 모양으로 퍼져있는.. 더보기
여러 확률변수의 조건부분포와 독립 그리고 iid! 이젠 여러 확률변수들이 서로 상관성이 있는지 독립인지 어떻게 표현하고 계산할 수 있는지 알아보겠다. 두 사건이 독립일때 아래와 같은 수식을 본 적이 있을 것이다. 위 식을 말로 표현하면, 사건 A와 B가 동시에 일어날 확률은 사건A 가 일어날 확률에 사건B가 일어날 확률을 곱한 것이다.(한손에는 동전을 던지고 다른 한손에는 주사위를 던져서 동전 앞면과 주사위 6이 나올 경우를 단순 계산하면 1/12가 되는것 처럼) 여기서 조금더 확장하면 사건A, B를 확률변수X, Y라 하면 아래와 같은 식이 가능하다. 모든x,y에 대해 일때 확률변수 X와 Y는 독립(independent)라 한다. 역도 성립한다. 이는 확률변수가 3개 이상일때도 성립한다. 식으로 나타내면 이고 X_1부터 X_n까지 모두 독립이라는 뜻이다.. 더보기
적률생성함수(Moment Generate Function,mgf) 가 왜필요하지? 통계학을 배울때 확률변수에 대해 배우고 기대값을 배운다. 기대값을 간단히 적어보자면 아래와 같다. 그러면서 스리슬쩍 끼워서 배우는것이 바로 적률생성함수(Moment Generate Function)이다. 적률생성함수는 말 그대로 적률(Moment)을 생성하는 함수이다. 어떻게 생성하냐고? 적률생성 함수의 정의는 위와 같은데 t에 관해 미분하려 하니 뭔가 f(t)의 형태로 나타내기가 힘들다 이때 자연로그 e의 정의에 따라 그렇기 때문에 이렇게 식을 만들고 t에 관해 1번 미분하고 t에 0을 대입하면 E(X)두번미분하고 0대입하면 E(X^2).... 이런식으로 적률을 생성해준다. 처음에 배울때는 이걸 왜 배우는지 모르고 그낭 지나쳤었다. 배움의 시간이 다소 지나고 나서 정리해보자면 (미천한 지식을 가진 개인.. 더보기
몬티홀 문제(Monty Hall problem)를 Java로 풀어보자 몬티홀 문제의 답이 마지막에 선택을 바꾸는 것이 확률이 2/3이 되므로 더 유리하다는 사실은 이전에 언급한 바가 있다. 몬티홀 문제에 대해 모르시는 분들은 아래 링크된 글을 읽고 오시면 이해가 됩니다 2017/02/26 - [통계학] - 몬티홀 문제(Monty Hall problem) _ 베이즈정리의 예 이해가 안간다고 좌절하지 말자.이 문제에 대해 처음 언급했을때 수천통의 수학, 공학 박사학위 소지자들이 확률이 2/3이 되지 않는다며 항의 메일을 보냈고 20세기 후반 최고의 수학자라고 불려지던 전설적인 수학자 폴 에어디쉬도 선택을 바꾸든 아니든 확률은 같다고 생각했고, 컴퓨터로 실험해본 뒤에야 바꾸는 것이 유리한 선택임을 인정했다고 한다. (이불킥!) 그리고 그 문제에 대해 말이나 표로 증명하지 않고 .. 더보기
몬티홀 문제(Monty Hall problem) _ 베이즈정리의 예 베이즈정리, 조건부확률을 이용한 재미있는 문제가 바로 몬티홀 문제, 몬티홀 딜레마(Monty Hall Dilemma)이다. 아래는 21이라는 영화에서 나오는 몬티홀 문제이다.역시 주인공은 갓갓이므로 교수의 문제를 간단히 답한다.이 문제를 계기로 주인공은 교수의 눈도장을 찍게되는데.. 영어 되시는 분들은 한번 보는 것도 좋을 듯 하다. 몬티홀이라는 미국,캐나다 TV프로그램 진행자가 진행하던 미국 오락프로그램 "Let's Make a Deal"에서 유래한 확률문제인데사람이름 몬티홀을 검색했는데 구글에는 이 문제가 나온다. (진행자는 진행을 했을 뿐인데 문제 만든사람 억울할듯) 문제의 내용은 아래와 같다. Suppose you’re on a game show, and you’re given the choice.. 더보기
베이즈 정리(Bayes's Theorem) _ 진지한씨의 암검사 통계학이라는 것이 주목받게 된 것은 비교적 최근의 일이다.더구나 컴퓨팅 기술이 발달하면서 그리고 군사, 산업, 의료등의 학문에 발맞추어 발전하였기 때문이다. 그런데 베이즈 정리는 상당히 오래 전에 만들어졌다.영국의 목사인 토머스 베이즈(Thomas Bayes)에 의해 무려 1760년대에 만들어졌다니 (61년에 죽었다고 했으니 그 전이겠지)...모차르트 베토벤보다 일찍 존재했다. 1701년 목사의 아들로 태어났다. 당연 아버지를 따라 성직자의 길을 걸었지만 취미로 수학을 하였다고 한다.죽기 전까지 그의 업적을 살펴보면 신학관련 논문과 뉴턴의 미적분학의 논리적 기초를 옹호하는 내용의 논문 정도라고 한다. 그러다가 1761년 사망하였는데 그의 친구 리처드 프라이스(Richard Prkce)가 그의 물건을 이것.. 더보기
조건부 확률, 이미 우리는 체득하고 있다? 본격적으로 통계학에 관한 글을 쓰기 위해 무엇부터 쓸까 하다 보니 한번에 높은 수준의 통계학을 쓰다가는 내가 밑천이 없는게 들킬까봐 안되겠다. 아주 기초적인 수준부터 이야기하고자 한다. 가끔 우리는 이런 일을 당한다.아침에 집을 나섰을때 비가 오지 않아서 우산을 챙기지 않았다.그런데 집으로 돌아오는 길에 비가 와서 그냥 맞고가야하나 우산을 어디서 구해야 하나 하는 일을 가끔 겪었을 것이다. 이같은 일을 겪으면서 우리는 학습적으로 조건부 확률과 베이즈 정리를 응용하게 된다. 100일중에 아침에 비가 오는 경우는 30일 (30%)100일중 저녁에 비가 오는 경우는 35일 (35%)이다. 이것을 기호로 나타내면 P(아침에 비) = 0.3, P(밤에 비) = 0.35 하지만 우리는 밤에 비가 올 확률이 0.35.. 더보기