본문 바로가기

통계학

William Sealy Gosset과 t분포(t distribution) 여러가지 분포를 다루다가 문득 생겨난 궁금증이 있다. 분포이름이 Student t Distribution?? 학생 t?그래서 t-Distribution이 어떻게 탄생하게 되었는지 구글링을 하여 영문위키와 관련된 글들을 참고로 해서 써보겠다. William Sealy Gosset 은 수학과 화학을 전공하였고 우리가 흔히 알고 있는 아일랜드 더블린의 기네스 맥주(우리가 마시는 맥주도 윌리엄 고셋의 노력이 들어가있다?!) 회사에 입사하였다. 그는 열정이 넘쳐서 최적의 술맛을 내기 위해 주조 방법, 보리를 재배 등에서 여러 통계적 지식을 적용했다. 그는 일하며 공부하고 시행착오를 겪으며(이상적인 회사원이다!) 저명한 Biometrical(식물 측정학??)로 유명한 칼 피어슨(Karl Pearson) (이때만해도.. 더보기
확률분포정리(Common Probability Distributions: The Data Scientist’s Crib Sheet) (1) 처음 통계학에서 여러가지 분포를 배울때 그것을 외울때 특히 분포의 이름이 분포와 매칭이 쉽게 되지 않을 때 여러가지 분포를 종이에 적어놓고 화살표로 이어가며 이야기의 흐름처럼 정리했던 기억이 났는데 그종이가 어디갔지? 그래서 구글링을 통해 괜찮게 정리된 포스팅이 있어 참고해 보고자 한다.https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/ 가장 먼저 시작할 것은 바로 베르누이 분포(Bernoulli Distribution)이다. 베르누이 분포는 분포중에서 가장 쉽다. 흔히 확률하면 떠오르는 것이 동전이다. 즉 동전 앞뒤를 나타내는 분포이다.0(앞)이 나오거나 1(뒤)이 나오.. 더보기
공분산(Covariance)과 상관계수(Correlation) 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때가장 먼저 X의 평균, 다음이 Y의 평균이다. 이렇게 되면 대충 분포가 어디에 주로 모여있는지 (m_x, m_y)가 나온다.그다음으로 궁금한게 얼마나 퍼져있는지 인데 그것은 확률변수의 분산을 구하면 되지만각 확률변수들이 어떻게 퍼져있는지를 나타내는 것이 공분산(Covariance)이다., 두 확률변수 X와 Y가 어떤 모양으로 퍼져있는.. 더보기
결합분포에 대해 알아보자! 주사위를 던졌을때 주사위(X)가 얼마가 나올까? 내일의 날씨(X)는 어떤 날씨일까? 흔히 생각하는 확률변수는 하나이다. 그럼 2개 혹은 그 이상일때에는 어떻게 될까? 예를들어 중간고사 점수의 확률변수를 X라 하고 기말고사 점수의 확률변수를 Y라 했을때 중간고사 점수에 관한 확률밀도함수 f(X), 기말고사 점수에 관한 확률밀도함수 f(Y)가 존재한다.(probability density function 연속형일경우 확률밀도함수, 이산형일경우 확률질량함수 probability mass function) 그렇다면 중간고사점수와 기말고사점수 2개를 모두다 고려한 확률밀도함수는f(X,Y)로 표현할 수 있을 것이고 이를 결합확률밀도함수(joint probability density function) 라 한다. 변수.. 더보기
적률생성함수(Moment Generate Function,mgf) 가 왜필요하지? 통계학을 배울때 확률변수에 대해 배우고 기대값을 배운다. 기대값을 간단히 적어보자면 아래와 같다. 그러면서 스리슬쩍 끼워서 배우는것이 바로 적률생성함수(Moment Generate Function)이다. 적률생성함수는 말 그대로 적률(Moment)을 생성하는 함수이다. 어떻게 생성하냐고? 적률생성 함수의 정의는 위와 같은데 t에 관해 미분하려 하니 뭔가 f(t)의 형태로 나타내기가 힘들다 이때 자연로그 e의 정의에 따라 그렇기 때문에 이렇게 식을 만들고 t에 관해 1번 미분하고 t에 0을 대입하면 E(X)두번미분하고 0대입하면 E(X^2).... 이런식으로 적률을 생성해준다. 처음에 배울때는 이걸 왜 배우는지 모르고 그낭 지나쳤었다. 배움의 시간이 다소 지나고 나서 정리해보자면 (미천한 지식을 가진 개인.. 더보기
몬티홀 문제(Monty Hall problem) _ 베이즈정리의 예 베이즈정리, 조건부확률을 이용한 재미있는 문제가 바로 몬티홀 문제, 몬티홀 딜레마(Monty Hall Dilemma)이다. 아래는 21이라는 영화에서 나오는 몬티홀 문제이다.역시 주인공은 갓갓이므로 교수의 문제를 간단히 답한다.이 문제를 계기로 주인공은 교수의 눈도장을 찍게되는데.. 영어 되시는 분들은 한번 보는 것도 좋을 듯 하다. 몬티홀이라는 미국,캐나다 TV프로그램 진행자가 진행하던 미국 오락프로그램 "Let's Make a Deal"에서 유래한 확률문제인데사람이름 몬티홀을 검색했는데 구글에는 이 문제가 나온다. (진행자는 진행을 했을 뿐인데 문제 만든사람 억울할듯) 문제의 내용은 아래와 같다. Suppose you’re on a game show, and you’re given the choice.. 더보기
베이즈 정리(Bayes's Theorem) _ 진지한씨의 암검사 통계학이라는 것이 주목받게 된 것은 비교적 최근의 일이다.더구나 컴퓨팅 기술이 발달하면서 그리고 군사, 산업, 의료등의 학문에 발맞추어 발전하였기 때문이다. 그런데 베이즈 정리는 상당히 오래 전에 만들어졌다.영국의 목사인 토머스 베이즈(Thomas Bayes)에 의해 무려 1760년대에 만들어졌다니 (61년에 죽었다고 했으니 그 전이겠지)...모차르트 베토벤보다 일찍 존재했다. 1701년 목사의 아들로 태어났다. 당연 아버지를 따라 성직자의 길을 걸었지만 취미로 수학을 하였다고 한다.죽기 전까지 그의 업적을 살펴보면 신학관련 논문과 뉴턴의 미적분학의 논리적 기초를 옹호하는 내용의 논문 정도라고 한다. 그러다가 1761년 사망하였는데 그의 친구 리처드 프라이스(Richard Prkce)가 그의 물건을 이것.. 더보기
조건부 확률, 이미 우리는 체득하고 있다? 본격적으로 통계학에 관한 글을 쓰기 위해 무엇부터 쓸까 하다 보니 한번에 높은 수준의 통계학을 쓰다가는 내가 밑천이 없는게 들킬까봐 안되겠다. 아주 기초적인 수준부터 이야기하고자 한다. 가끔 우리는 이런 일을 당한다.아침에 집을 나섰을때 비가 오지 않아서 우산을 챙기지 않았다.그런데 집으로 돌아오는 길에 비가 와서 그냥 맞고가야하나 우산을 어디서 구해야 하나 하는 일을 가끔 겪었을 것이다. 이같은 일을 겪으면서 우리는 학습적으로 조건부 확률과 베이즈 정리를 응용하게 된다. 100일중에 아침에 비가 오는 경우는 30일 (30%)100일중 저녁에 비가 오는 경우는 35일 (35%)이다. 이것을 기호로 나타내면 P(아침에 비) = 0.3, P(밤에 비) = 0.35 하지만 우리는 밤에 비가 올 확률이 0.35.. 더보기