개발의 여름
2018. 2. 27. 18:31
2018. 2. 27. 18:31
part 1
차이를 확인하는 데이터 요약
0.000012%의 꿈 로또
- 45개의 숫자 중 6개를 뽑는 방법의 가짓수를 구해야 합니다.
- 고등학교 통계 시간에 배운 조합을 써보면 다음 식과 같습니다.
확률
- 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데요. 통계에서는 이것들 사건(Event)이라고 부릅니다. 확률은 바로 이 사건이 현실이 될 가능성을 0부터 1사이의 숫자로 표현한 것이고요.
- 다시 말하자면 어떤 불확실성의 정도를 0부터 1 사이의 숫자로 표현한 것을 확률(Probability)이라고 합니다.
- 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친근하죠.
- 확률 0%는 불가능, 100%는 필연을 의미합니다.
- 논리적으로 혹은 수리적으로 계산한 확률을 이론적(Theorical)확률 이라고 합니다.
- 사건을 직접 관찰하거나 모의 실험(Somilation)을 통해서 계산된 확률을 경험적(Empirical)확률이라고 합니다.
- 낮 12시에 백화점에 들어온 사람이 남자일 확률이 궁금하다고 해서 아무리 논리적으로 접근해봐야 소용없습니다. 실제로 12시에 백화점을 가서 입구에 앉아 들어오는 사람들의 성별을 기록하고 경험적 확률을 계산할 수밖에 없습니다.
확률을 활용한 당첨 번호 예측
- 각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있었습니다.
- 그렇다면 확률 0.133과 기회 53번을 곱하면 약 7.07이니까, 각 번호가 1년동안 7번 정도는 나왔을 것으로 기대할 수 있습니다.
- 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값을 기대값(Expectation)이라고 합니다.
데이터 분석화 확률
- 확률은 데이터 분석에서 다양하게 활용되는데, 그게 두 가지로 분류할 수 있습니다.
- 첫 번째, 어떤 관심 있는 확률이 궁금할 때입니다. 하는 일마다 성공하는 사람도 있지만 손만 대면 실패하는 사람도 있습니다. 자기계발서에서는 성공의 요인을 찾지만, 통계는 성공의 확률을 계산합니다. 성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형(Probability model)을 만듭니다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴볼수 있고요.
- 두 번째, 어떤 차이가 의미가 있는지 없는지 궁금할 때입니다. 모두가 완전히 똑같지 않기 때문에 차이는 항상 존재합니다. 문제는 이 차이가 어쩌다 생길 수 있는 수준의 미세한 차이인지 아니면 우연이라 하기엔 너무 큰 차이인지 따져 봐야 한다는 겁니다.
- 예를 들어, 주변의 친구 8명을 대상으로, 남자 4명중 2명이 안경을 쓰고 있고, 여자 4명 중 1명이 안경을 쓰고 있으므로 '25% 포인트'의 큰 차이가 있다고 할 수는 없겠죠 하지만 한국 남성의 50%가 안경을 쓰고 여성은 25%만 안경을 쓴다면 이 '25% 포인트'의 차이는 따져 봐야 할 문제가 됩니다.이처럼 똑같은 차이라도 1만명, 10만명으로부터 계산된 차이라면 훨씬 더 큰 의미를 가질 겁니다. 통계는 이런 차이의 정도도 확률로 표현합니다. 확률이 1에 가까울수록 충분히 있음직한 흔한 차이를 의미하고, 확률이 0에 가까울수록 매울 드물게 일어나는 차이를 의미하죠.
- 이렇게 통계는 불확실성을 설명하기 위해서 확률을 사용합니다. 그 결과 0부터 1사이의 숫자로 표현하지만, 통계는 그 과정에서 변수의 관계를 확인하고 숫자로 표현합니다.
- 지금까지 하나의 변수가 어떤 차이를 가지고 있는지 요약을 통해 살펴 봤다면, PART 2에서는 그 차이를 설명하기 위해서 변수 간의 관계를 어떻게 확인하고 표현하는지를 살펴본 다음, 간단한 통계 모형들을 활용해 변수의 차이를 설명하는 개념들에 대해서 이야기 해보겠습니다.