생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 15일차 - 차이를 예측하는 통계 개념 - 지구는 우주의 티끌

개발의 여름 2018. 3. 22. 15:18

part 3

지구는 우주의 티끌

믿기 힘들지만 지구는 우주에서 백사장의 모래 한알처럼 작은 존재에 불과합니다. 우리 생각보다 세상은 더 넓습니다. 그만큼 데이터의 세상도 넓고요.

표본과 모집단.

  • 백사장에 있는 수억 개의 모래알 중 선택된 만 개가 한 줌 안에 들어와 있는 것입니다.
  • 이것이 바로 흔히 샘플이라고 부르는 표본(Sample)의 개념입니다.
  • 수억 개 모래알이 있는 백사장을, 통계에서는 모집단(Poplation) 이라고 합니다.
  • 눈 앞에 있는 데이터 하나를 그냥 분석하는 것도 벅찬데, 통계는 왜 굳이 표본 이야기를 써내서 우리를 힘들게 할까요? 이유는 '비교' 때문입니다. 우리는 앞서 PART1과 PART2를 통해 차이를 확인하고 설명하는 방법들을 간단히 살펴봤습니다. 데이터 속에는 다양한 차이들이 있는데, 데이터만 있으면 무조건 그 차이를 계산할 수 있습니다. 평균을 계산해서 관측치들을 비교하고, 교차표를 이용해 올림픽별로 획득한 매달의 비중 차이를 확인했죠.
  • 살충제 6개의 효과도 살충제별로 평균을 구해서 차이를 확인했습니다. 그런데 문제는 이 차이가 우연인지 운명인지 판단하지는 못했다는 것입니다.
  • 아들 키의 평균이 아빠 키의 평균보다 2.5cm 큰 것을 확인했지만, 이 차이가 의미가 있는지 없는지는 알 수 가 있습니다. 실제로 아빠 키와 아들 키의 평균을 거의 똑같은데, 우연히 아들 키가 큰 1,078쌍의 부자를 대상으로 조사했을 수도 있죠. 우리가 가지고 있는 데이터, 즉 하나의 표본이 우연히 큰 값을 가졌을 뿐, 만약 새로운 표본을 뽑으면 똑같은 결과가 나오지 않을 수도 있습니다.
  • 자, 그럼 '아들 키가 아빠 키보다 의미 있을 만큼 충분히 크다'라는 것을 보이고 싶다면 무엇을 해야 할까요? 비교를 해야합니다. 비교를 하려면 비교 대상이 필요하죠. 바로 이 문제를 표본의 개념이 도와줄 겁니다.

통계량과 분포

  • 이번엔 관측치도 아니고, 변수도 아니고 데이터를 비교할 겁니다. 해변에서 놀고 있는 친구에게 "이 모래는 진짜 곱다."고 이야기 했는데 친구가 말합니다. "이 모래나 그모래나 똑같지!" 라고 답합니다. 어떻게 해야 할까요? 비교를 하면 됩니다! 내 손안의 모래랑 해변의 모래를 비교하는 거죠.
  • 내 소중한 모래알들의 평균 굵기는 3 입니다. 친구가 10번이나 퍼온 오래 한줌의 평균 굵기를 계산 했더니 다음과 값았습니다.


  • 각 평균값을 비교해도 내 소중한 모래알의 평균 굵기 3보다 작은 것은 없습니다. 즉, 내 모래알이 정말 곱다는 걸 보여주고 있죠.
  • 그럼에도 결과에 승복하지 못한 친구가 그새 100만개의 표본을 더 가지고 왔습니다.


  • 각각 10,000개의 모래알 평균 귥기를 계산한 100만 개의 표본평균을 0부터 10까지 0.1 간격으로 나눠 히스토그램을 그렸습니다.
  • 이렇게 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴을 분포(Distribution) 라고 합니다.
  • 우리의 소중한 모래 한 줌의 평균 굵기는 3이었는데요, 히스토그램에서 3의 위치를 확인해보면 이 해변에 있는 대부분의 모래는 굵기가 3보다 크며 모래 굵기가 3보다 작은 건 아주 드물다는 것을 볼 수 있습니다.


  • 물론 더 고운 모래가 있긴 하지만, 3정도로 고운 모래는 상위 1~2%에 들 정도니 이제 인정을 해줘야 할 것 같습니다.
  • 이처럼 우리가 가지고 있는 단 하나의 데이터가 얼마나 의미 있는 차이를 가지고 있는지 확인하려면 표본의 개념을 끌어와 분포를 만들어야합니다
  • 내가 가진 데이터의 값이 충분이 작은지, 큰지 혹은 충분히 무난한 값인지를 상대적인 위치로 확인하는 것이죠.

자연스러운 확률

  • 앞서 두 연속형 변수가 어떤 관계를 가지고 있는지 살펴볼 때 상관계수를 계산했습니다. -1 부터 1 사이의 값을 가지는 이 수는 두 변수가 같이 커지는지, 아니면 한쪽이 커지면 다른 한쪽은 작아지는지, 아니면 서로 관련이 없는지를 알려줬습니다. 그렇다면 서로 전혀 관력이 없는 변수를 두 개를 데려와서 상관걔수를 구해보면 어떨까요? 당연히 서로 관련이 없는 변수들이니까 상관계수는 0이 나오지 않을까요? 결론부터 말하자면, 평균적으로는 0이 나옵니다. 그러나 관련이 없는 두 변수의 상관 계수가 항상 0은 아니죠. 모의 실험 예제를 통해 살펴봅시다. 10,000개의 랜더ㅁ 샘플을 만들었습니다. 그리고 10,000개의 상관계수를 히스토그램으로 그렸습니다.


  • 히스토그램에서 알 수 있듯이 서로 상관이 없는 두 변수의 상관계수를 구했다고 해서 항상 0이 나오는 것은 아닙니다. 다만 그 중심에 0이 있는 걸 보면 굳이 계산해보지 않아도 상관계수의 쳥균은 0이라고 짐작할 수 있습니다.
  • 10,000 개의 상관계수중에서 +-0.3이 넘는 상관계수를 세어보니 22개가 있습니다. 통계에선 0.22%의 확률로 일어날 수 있는 사건이라고 봅니다.
  • 반대로 운명이 있습니다. 바로 35% 부전자전, 유전 연결고리에서 살펴본 1,078쌍의 아빠와 아들의 키 데이터입니다. 이 둘의 상관계수를 0.5였죠. 우리는 두 변수의 관계를 0.5라고 표현하긴 했지만, 그 숫자가 진짜 의미가 있는지 아닌지는 판단하지 못했습니다. 그러나 이제는 할 수 있습니다! 우선 목표는 '아빠 키와 아들 키의 상관계수 0.5가 의미가 있다'는 것을 입증 하는 것입니다.
  • 10,000번의 1,078쌍의 어색한 두사람 사이에서는 +-0.5가 넘는 상관계수가 한 번도 나오지 않았습니다. 즉, 0.5라는 아빠 키와 아들 키의 상관계수는 '두 변수가 전혀 상관이 없다'는 가정하에서는 발생 확률이 0.0000001%쯤 되는 매우 특이한 일입니다.
  • 그렇다면 두 연속현 변수 말고 두 범주형 변수의 관계는 어떨까요? 두 범주형 변수의 관계 역시 비슷한 방법으로 확인할 수 있습니다. 이번에는 온라인 배너 광고를 통해 이용자의 반응을 살펴볼까요? 온라인 배너 광고는 흔히 AB 테스트라는 방법으로, 이용자에게 두 가지 배너 중 랜덤으로 하나를 보여주고 반응을 보려고 합니다. 두 배너 중에서 어떤 배너가 더 매력적인지 이용자 100명을 대상으로 확인해봤더니 배너를 보고 클릭해서 반응한 사람과 무시한 사람 두 유형으로 나뉘었습니다.


  • 마케팅의 성과를 판단하기 위해서 우리는 또 다시 비교를 해야합니다. 역시 어떤 분포가 필요하죠. 현실에서는 똑같은 마케팅을 반복하기 어렵지만, 통계에서는 랜덤 샘플로 이와 비슷한 데이터를 수없이 만들 수 있습니다. 배너의 종류를 의미하는 첫 번쨰 변수는 A가 50번 B가 50번 랜덤으로 나오도록 하고 이용자의 반응 여부를 의미하는 두 번쨰 변수는 랜덤으로 성공이 60번, 실패가 40번 나오게 만듭니다.
  • 두 변수의 값 100개가 어떻게 채워지는가에 따라 교차료의 네 칸은 달라지겠지만, 행 합계와 열 합계 그리고 전체 합계는 항상 똑같습니다.
  • 1,000개 랜덤 샘플에서 배너 A에 반응한 사람의 수가 몇명이나 되는지 살펴봅시다.


  • 역시 예상대로 30명을 중심으로 조금씩 크거나 작은 값을 가집니다. 그럼 배너 B에 반응한 사람 수도 60-30으로 계산되므로 30명 혹은 조금더 많거나 적다는 것을 의미합니다.
  • 그런데 실제로 우리가 실행한 마케팅에서 배너A에 반응한 사람 수는 35명입니다. 실제 데이터의 35라는 값을 가정으로 만든 분포를 넣어 볼까요? 10,000번의 표본 중에서 실제 값 35보다 큰 값이 나온 표본은 단 39개입니다. 확률로 계산하면 3.9%네요. '베너의 반응률에 차이가 없다'라는 가정에서 100명 중 배너A에 반응한 사람 수가 35보다 클 확률은 고작 3.9%라는 것입니다. 우연히라면 100번 중에 4번 정도 일어날 수 있는 드문 일이 우리 눈앞에 벌어진 것이죠. 단순히 우연이라 하기에는 충분히 큰 차이를 보여줍니다.
  • 지금까지 데이터가 가진 어떤 차이의 의미를 설명하기 위해서 분포의 힘을 빌렸습니다. 차이가 없는 상황을 가정하고, 우리가 가지고 있는 데이터와 모양새만 똑같은 랜덤 샘플들로 분포를 만들어 냈죠. 그리고 그 분포에 단 하나밖에 없는 실제 데이터의 값을 집어넣고 상대적인 위치를 확률로 계산했습니다. 예를 들어, 예제에서 35라는 실제 값은 분포속에서 상위 3.9%라는 확률을 얻었습니다. 이 확률값을 p-값(p-value) 이라고 합니다.
  • 그리고 이 p-값은 차이가 없다는 가정하에 우리의 데이터가 얼마나 특이한 값인지를 의미합니다. p-값이 0에 가까워, 작으면 작을수록 차이가 없다고 보기엔 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미하고, p-값이 1에 가까워, 커지면 커질수록 충분히 우연하게 일어날 수 있는 흔한 차이를 의미합니다. 그렇다면 p-값이 도대체 얼마나 작아야 할까요? 차이의 의미가 있다. 없다는 판단하는 기준이 p-값이라면 그 기준값(threshold) 은 얼마일까요?