part 3

차이를 예측하는 통계 개념

남자 평균 174.9cm, 여자 평균 162.3cm

영국의 한 연구팀에 따르면 지난 100년간 한국 남성의 평균 키가 159.8cm에서 174.9cm로 15.1cm 커졌고, 여성의 평균 키는 142.2에서 162.3cm로 무려 20.1cm나 폭풍 성장헀다고 합니다. 170cm 남자와 160cm 여자의 고민이 깊어집니다 ...

표본평균의 표준편차

  • 데이터의 관측치가 많으면 많은 수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않습니다. 통계학자들이 이 개념을 표현한 것이 바로 표본평균의 표준편차 압니다.

표본평균의 표준편차 계싼

  • 표본평균은 손쉽게 계산할수 있습니다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 되죠.
  • 그럼 표본평균의 표준편차는 어떻게 계산할까요?
  • 현재 우리가 가진 데이터로는 분산을 구하는 것이 불가능합니다. 분산을 구하려면 여러 개의 값이 있어야 하는데, 지금 우리 손에 쉰 데이터는 하나뿐이며 따라서 표본평균도 하나뿐입니다. 그래서 계산이 아니라 추정(Estimation)을 해야 합니다.
  • 표본 분산의 계산 식에는 (xi-E(x))^2 가 있습니다. xi 대신 1/n배 된 xi/n가 들어가면 제곱이 되어 표본 분산은 1/n^2 배 됩니다. 그럼 S^2x/n은 다음 처음 표현되죠.


  • 표본평균의 분산 S^2x는 다음과 같이 n개의 분산의 합으로 추정할 수 있습니다.
  • 표본쳥균의 분산 S^2x은 표본의 분산 S^2x의 1/n배라는 것입니다. 당연히 하나의 값 x의 분산보다 n개 값의 평균인 E(x)가 덜 흔들릴 테고, 따라서 분산이 작습니다. 그리고 그 정도가 관측치의 개수 n에 반비례하는 것을 말합니다. 이제 표본평균의 표준편차를 계산해볼까요? 제곱근만 씌우면 됩니다.


t-값과 t-분포

  • t-분포는 표본평균의 0인이 아닌지 판단할 때 사용합니다. 어떤 맥주는 알코올 도수가 4.2%여야만 팔수 있다고 합니다.
  • 5잔의 샘플을 뽑아 알콜도수를 측정했습니다. (4.15%, 4.19%, 4.2%, 4.21%, 4.23%, 4.27%)
  • 첫번째, 평균을 구하고 두번째 분산을 구합니다.
  • 세번째 단계는 관측치에서 기준값을 뺀 것의 평균, 0.01%를 방금 구한 표본평균의 표준편차 0.02%로 나누는 작업입니다.
  • 0.01%/0.02%, 즉 0.5가 계산 되네요! 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 **t-값(t-value)**이라고 합니다.


  • t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려줍니다.

t-분포


  • v가 t-분포의 모양을 결정하기 때문에 v가 바로 t-분포의 모수입니다. 이를 가르켜 흔히 자유도(Degree of freedom) 라고 부르고 관측치 수에서 1을 빼서 계산합니다.
  • t-값을 구할 떄 차이를 표준화와 비슷한 상대적인 값으로 바꿨습니다. 예제에서처럼 5개와 같이 아주 적은 관측치의 차이를 설명할 수 있도록 고안한 것이 바로 t-분포 입니다.
  • 전체 평균을 알고, 4잔의 도수를 알면 나머지 하나는 바로 계산할 수 있으니까요. 자유도를 1 낮춘 데는 그만한 이유가 있었던 것입니다.

p-값과 t-테스트

  • 분포는 모수가 결정되면 모양이 정해집이나. t-분포의 경우에는 자유도가 4라는 것만 정해지면 t-분포의 모양이 결정될 뿐, 실제 5개의 관측치가 어떤 값을 가지는지는 전혀 상관이 없습니다.
  • t-값인 0.5가 얼마나 큰 차이를 의미하는지 살펴보겠습니다.


  • 자유도가 4인 t-분포에서 0.5라는 값은 0으로부터 그다지 멀리 떨어져 있지 않네요. 컴퓨터가 계산한 p-값은 0.3217입니다. 다시 말해 0.5보다 더 큰 차이가 날 확률이 무려 32.17%나 됩니다. 실제 맥주 도수가 4.2%라고 할 떄 원표나 공정에 따라 맥주 도수가 조금씩 파이가 날 수 있곘죠.
  • 그런데 맥주 5잔으로 테스트 했을 때 평균적으로 0.1% 포인트 차이가 나는건 대수롭지 않다는 이야깁니다. 왜냐면 그것보다 훨씬 큰 차이가 날 가능성이 32%가 넘기 때문이죠!
  • 반대로 평균 도수가 더 낮게 나올 수도 있겠죠? t-값으로 0.5나 -0.5보다 클 확률은 64.34%나 됩니다. -ㅔrkqtdl 0.6434라는 것은 셀제 맥주들의 도수에 문제가 없더라도 표본 10개 중에 예닐곱 개는 도수가 0.01% 포인트 이상 차이가 날 수 있다는 것지요. 유의수준 5%를 고려할 것도 없이 이 데이터의 평균값 차이는 의미가 없습니다.
  • 이처럼 평균값의 차이를 t-값으로 계산하고, t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-검정(t-test) 혹은 영어 표현 그대로 t-테스트라고 합니다. t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-값을 계산했기 때문에 t-검정 이라고 하죠.
t-검정을 위해서 우리가 한 것 단 두가지. 1. 표본평균과 표본평균의 표준편차를 계산하고 기준값을 활용해서 t-값 계산하기. 2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교하기
  • 생각보다 간단하죠? 자, 그렇다면 이제 t-검정을 역으로 활용해 키 평균을 높여버린 영국의 연구팀과 데이터 싸움을 벌여보도록 하겠습니다.


part 3

웬만해선 이길 수 없다

주변을 둘러보면 모든 일에 부정적이고 의심이 많은 사람들이 있습니다. 웬만해서는 논쟁에서 그들을 이길 수가 없습니다. 충분히 의미 있는 증거도 모든 것을 의심하는 그들 앞에서는 무용지물이 됩니다. 이 사람들을 이기기 위해서는, 강력하고 묵직한 큰 증거 한방이 필요합니다.
  • 앞에서 살펴본 p-값 이야기를 계쏙해봅시다. -p 값이 얼마나 작아야 데이터 속 차이가 의미를 가질까요?
  • p-값에 대한 판단의 기준으로 0.5는 너무 크지만, 0은 또 너무 작습니다. 그 사이의 적절한 기준이 필요합니다.

유의수준

  • p-값은 데이터 속 차이가 얼마나 희귀한지 혹은 흔한지의 정도를 0부터 1사이의 확률로 표현합니다.
  • 오랜 시간 수많은 시행착오를 거쳐 5%라는 기준이 자리 잡은 것으로 보입니다. 이렇게 설정된 5%와 같은 기준을 유의수준(Significant level) 라고 합니다.
  • 다시 말하면, 유희수준이란 데이터의 차이가 유희미한 것인지 아닌지를 판단하는 기준인 것입니다. 만약 p-값이 유의수준보다 작다면 차이가 통계적으로 유의미하고, p-값의 유의수준보다 크면 우연히라고 충분히 일어날 수 있는 그저 그런 차이인 것으로 판단할 수 있습니다. 이 과정을 유의성 검정(Significance Test) 이라고 합니다.
  • 많은 시행착오를 거치고, 다양한 이야기가 오가다가 암묵적으로 5%라는 기준이 설정되었습니다. 이제부터 5% 오류 가능성을 품고 p-값과 유의수준을 비교해서 판단만 하면 됩니다.

필요악과 같은 분포

  • 개념을 이해하기도 빠듯한 우리가 직접 적절한 p-값을 구하는 건 힘듭니다.
  • 이미 훌륭한 통계학자들이 데이터의 구성과 상황에 따라 확률을 계산할 수 있는 틀을 만들어 놨습니다. 바로 '분포' 입니다.

키의 히스토그램과 정규분포

  • 데이터에서 직접 확률을 계산하는 것이 직관적이긴 하지만 현실적인 어려움들이 있습니다. 표본에 따라서 확률이 쉽게 바뀔 수 있고, 또 가끔은 지금 처럼 확률 계산이 간단하지 않을 수도 있습니다.
  • 그래서 간접적인 방법, 이론적인 분포를 활용합니다. 이와 같은 패턴을 보이는 데이터를 설명하는 대표적인 분포가 정규분포입니다. 아들 키라는 이름 대신 일반적인 변수 x에 대한 정규분포는 다음과 같은 확률밀도함수(Probability density function) 로 표현됩니다.


  • f(x)는 확률밀도함수로, '높이'를 의미합니다.
  • x에서 뮤를 빼고 시그마로 나눠주는 부분입니다. 바로 평균과 표준편차를 활용한 표준화 과정이네요!
  • 원래 뮤는 모집단에서의 평균, 시그마는 표준편차를 의미하지만 우리는 알수 없죠. 대신 데이터에서 계산한 평균과 표준편차를 사용해봅시다.
  • 그럼 150cm부터 200cm까지 모든 값을 넣어 밀도를 계산한 다음 아들 키 히스토그램 위에 곡선 형태고 그려볼까요?



  • 이 곡선이 평균 174.5cm, 표준편차 7.1cm 를 활용한 정규분포의 밀도를 보여줍니다. 표준화 부분에 제곱을 했기 때문에 좌우대칭이 되고, 마이너스가 붙어 있어서 값이 커질수록 감소하게 됩니다.
  • 어쨌든 밀도 곡선은 히스토그램의 패턴과 거의 일치합니다. 굳이 히스토그램을 그리지 않고서도 이 정규분포 곡선만 있으면 아들 키를 잘 설명할 수 있지 않을까요?
  • 정규분포 곡선을 활용해서 키가 180cm이살일 확률은 어떻게 구할 수 있을 까요? 바로 다름 그림처럼 곡선 아랫부분 중 180cm이상인 면적만 계산 하면 됩니다.
  • 최솟값부터 최댓값까지 영역의 면적을 구하면 1이 나오겠지만, 그 중간, 일부 구간의 면적을 구하면 1보다 작은 숫자, 확률이 계산되는 것이죠.


  • 실제로 면적은 계산하면 21.91%가 나옵니다.
  • 정규분포에서는 뮤와 시그마가 정해지면 f(x)의 형태도 정해졌습니다. 이렇게 뮤와 시그마처럼 분포의 특징을 결정하는 값들을 모수(Parameter) 라고 합니다.
  • 유명한 분포들은 어떤 것들이 있고 이 분포들의 전문 분야는 무엇인지, 또 어떤 차이를 설명할 떄 사용할 수 있는지를 살펴보려고 합니다. t-분포, 카이제곱-분포. F-분포 등 이름만 들어도 무시무시하지만 알고보면 우리를 도와줄 친절한 통계학자들의 배려가 묻어 있습니다. 그럼 그중 가장 덜 무서운 t-분포부터 살펴봅시다.


part 3

지구는 우주의 티끌

믿기 힘들지만 지구는 우주에서 백사장의 모래 한알처럼 작은 존재에 불과합니다. 우리 생각보다 세상은 더 넓습니다. 그만큼 데이터의 세상도 넓고요.

표본과 모집단.

  • 백사장에 있는 수억 개의 모래알 중 선택된 만 개가 한 줌 안에 들어와 있는 것입니다.
  • 이것이 바로 흔히 샘플이라고 부르는 표본(Sample)의 개념입니다.
  • 수억 개 모래알이 있는 백사장을, 통계에서는 모집단(Poplation) 이라고 합니다.
  • 눈 앞에 있는 데이터 하나를 그냥 분석하는 것도 벅찬데, 통계는 왜 굳이 표본 이야기를 써내서 우리를 힘들게 할까요? 이유는 '비교' 때문입니다. 우리는 앞서 PART1과 PART2를 통해 차이를 확인하고 설명하는 방법들을 간단히 살펴봤습니다. 데이터 속에는 다양한 차이들이 있는데, 데이터만 있으면 무조건 그 차이를 계산할 수 있습니다. 평균을 계산해서 관측치들을 비교하고, 교차표를 이용해 올림픽별로 획득한 매달의 비중 차이를 확인했죠.
  • 살충제 6개의 효과도 살충제별로 평균을 구해서 차이를 확인했습니다. 그런데 문제는 이 차이가 우연인지 운명인지 판단하지는 못했다는 것입니다.
  • 아들 키의 평균이 아빠 키의 평균보다 2.5cm 큰 것을 확인했지만, 이 차이가 의미가 있는지 없는지는 알 수 가 있습니다. 실제로 아빠 키와 아들 키의 평균을 거의 똑같은데, 우연히 아들 키가 큰 1,078쌍의 부자를 대상으로 조사했을 수도 있죠. 우리가 가지고 있는 데이터, 즉 하나의 표본이 우연히 큰 값을 가졌을 뿐, 만약 새로운 표본을 뽑으면 똑같은 결과가 나오지 않을 수도 있습니다.
  • 자, 그럼 '아들 키가 아빠 키보다 의미 있을 만큼 충분히 크다'라는 것을 보이고 싶다면 무엇을 해야 할까요? 비교를 해야합니다. 비교를 하려면 비교 대상이 필요하죠. 바로 이 문제를 표본의 개념이 도와줄 겁니다.

통계량과 분포

  • 이번엔 관측치도 아니고, 변수도 아니고 데이터를 비교할 겁니다. 해변에서 놀고 있는 친구에게 "이 모래는 진짜 곱다."고 이야기 했는데 친구가 말합니다. "이 모래나 그모래나 똑같지!" 라고 답합니다. 어떻게 해야 할까요? 비교를 하면 됩니다! 내 손안의 모래랑 해변의 모래를 비교하는 거죠.
  • 내 소중한 모래알들의 평균 굵기는 3 입니다. 친구가 10번이나 퍼온 오래 한줌의 평균 굵기를 계산 했더니 다음과 값았습니다.


  • 각 평균값을 비교해도 내 소중한 모래알의 평균 굵기 3보다 작은 것은 없습니다. 즉, 내 모래알이 정말 곱다는 걸 보여주고 있죠.
  • 그럼에도 결과에 승복하지 못한 친구가 그새 100만개의 표본을 더 가지고 왔습니다.


  • 각각 10,000개의 모래알 평균 귥기를 계산한 100만 개의 표본평균을 0부터 10까지 0.1 간격으로 나눠 히스토그램을 그렸습니다.
  • 이렇게 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴을 분포(Distribution) 라고 합니다.
  • 우리의 소중한 모래 한 줌의 평균 굵기는 3이었는데요, 히스토그램에서 3의 위치를 확인해보면 이 해변에 있는 대부분의 모래는 굵기가 3보다 크며 모래 굵기가 3보다 작은 건 아주 드물다는 것을 볼 수 있습니다.


  • 물론 더 고운 모래가 있긴 하지만, 3정도로 고운 모래는 상위 1~2%에 들 정도니 이제 인정을 해줘야 할 것 같습니다.
  • 이처럼 우리가 가지고 있는 단 하나의 데이터가 얼마나 의미 있는 차이를 가지고 있는지 확인하려면 표본의 개념을 끌어와 분포를 만들어야합니다
  • 내가 가진 데이터의 값이 충분이 작은지, 큰지 혹은 충분히 무난한 값인지를 상대적인 위치로 확인하는 것이죠.

자연스러운 확률

  • 앞서 두 연속형 변수가 어떤 관계를 가지고 있는지 살펴볼 때 상관계수를 계산했습니다. -1 부터 1 사이의 값을 가지는 이 수는 두 변수가 같이 커지는지, 아니면 한쪽이 커지면 다른 한쪽은 작아지는지, 아니면 서로 관련이 없는지를 알려줬습니다. 그렇다면 서로 전혀 관력이 없는 변수를 두 개를 데려와서 상관걔수를 구해보면 어떨까요? 당연히 서로 관련이 없는 변수들이니까 상관계수는 0이 나오지 않을까요? 결론부터 말하자면, 평균적으로는 0이 나옵니다. 그러나 관련이 없는 두 변수의 상관 계수가 항상 0은 아니죠. 모의 실험 예제를 통해 살펴봅시다. 10,000개의 랜더ㅁ 샘플을 만들었습니다. 그리고 10,000개의 상관계수를 히스토그램으로 그렸습니다.


  • 히스토그램에서 알 수 있듯이 서로 상관이 없는 두 변수의 상관계수를 구했다고 해서 항상 0이 나오는 것은 아닙니다. 다만 그 중심에 0이 있는 걸 보면 굳이 계산해보지 않아도 상관계수의 쳥균은 0이라고 짐작할 수 있습니다.
  • 10,000 개의 상관계수중에서 +-0.3이 넘는 상관계수를 세어보니 22개가 있습니다. 통계에선 0.22%의 확률로 일어날 수 있는 사건이라고 봅니다.
  • 반대로 운명이 있습니다. 바로 35% 부전자전, 유전 연결고리에서 살펴본 1,078쌍의 아빠와 아들의 키 데이터입니다. 이 둘의 상관계수를 0.5였죠. 우리는 두 변수의 관계를 0.5라고 표현하긴 했지만, 그 숫자가 진짜 의미가 있는지 아닌지는 판단하지 못했습니다. 그러나 이제는 할 수 있습니다! 우선 목표는 '아빠 키와 아들 키의 상관계수 0.5가 의미가 있다'는 것을 입증 하는 것입니다.
  • 10,000번의 1,078쌍의 어색한 두사람 사이에서는 +-0.5가 넘는 상관계수가 한 번도 나오지 않았습니다. 즉, 0.5라는 아빠 키와 아들 키의 상관계수는 '두 변수가 전혀 상관이 없다'는 가정하에서는 발생 확률이 0.0000001%쯤 되는 매우 특이한 일입니다.
  • 그렇다면 두 연속현 변수 말고 두 범주형 변수의 관계는 어떨까요? 두 범주형 변수의 관계 역시 비슷한 방법으로 확인할 수 있습니다. 이번에는 온라인 배너 광고를 통해 이용자의 반응을 살펴볼까요? 온라인 배너 광고는 흔히 AB 테스트라는 방법으로, 이용자에게 두 가지 배너 중 랜덤으로 하나를 보여주고 반응을 보려고 합니다. 두 배너 중에서 어떤 배너가 더 매력적인지 이용자 100명을 대상으로 확인해봤더니 배너를 보고 클릭해서 반응한 사람과 무시한 사람 두 유형으로 나뉘었습니다.


  • 마케팅의 성과를 판단하기 위해서 우리는 또 다시 비교를 해야합니다. 역시 어떤 분포가 필요하죠. 현실에서는 똑같은 마케팅을 반복하기 어렵지만, 통계에서는 랜덤 샘플로 이와 비슷한 데이터를 수없이 만들 수 있습니다. 배너의 종류를 의미하는 첫 번쨰 변수는 A가 50번 B가 50번 랜덤으로 나오도록 하고 이용자의 반응 여부를 의미하는 두 번쨰 변수는 랜덤으로 성공이 60번, 실패가 40번 나오게 만듭니다.
  • 두 변수의 값 100개가 어떻게 채워지는가에 따라 교차료의 네 칸은 달라지겠지만, 행 합계와 열 합계 그리고 전체 합계는 항상 똑같습니다.
  • 1,000개 랜덤 샘플에서 배너 A에 반응한 사람의 수가 몇명이나 되는지 살펴봅시다.


  • 역시 예상대로 30명을 중심으로 조금씩 크거나 작은 값을 가집니다. 그럼 배너 B에 반응한 사람 수도 60-30으로 계산되므로 30명 혹은 조금더 많거나 적다는 것을 의미합니다.
  • 그런데 실제로 우리가 실행한 마케팅에서 배너A에 반응한 사람 수는 35명입니다. 실제 데이터의 35라는 값을 가정으로 만든 분포를 넣어 볼까요? 10,000번의 표본 중에서 실제 값 35보다 큰 값이 나온 표본은 단 39개입니다. 확률로 계산하면 3.9%네요. '베너의 반응률에 차이가 없다'라는 가정에서 100명 중 배너A에 반응한 사람 수가 35보다 클 확률은 고작 3.9%라는 것입니다. 우연히라면 100번 중에 4번 정도 일어날 수 있는 드문 일이 우리 눈앞에 벌어진 것이죠. 단순히 우연이라 하기에는 충분히 큰 차이를 보여줍니다.
  • 지금까지 데이터가 가진 어떤 차이의 의미를 설명하기 위해서 분포의 힘을 빌렸습니다. 차이가 없는 상황을 가정하고, 우리가 가지고 있는 데이터와 모양새만 똑같은 랜덤 샘플들로 분포를 만들어 냈죠. 그리고 그 분포에 단 하나밖에 없는 실제 데이터의 값을 집어넣고 상대적인 위치를 확률로 계산했습니다. 예를 들어, 예제에서 35라는 실제 값은 분포속에서 상위 3.9%라는 확률을 얻었습니다. 이 확률값을 p-값(p-value) 이라고 합니다.
  • 그리고 이 p-값은 차이가 없다는 가정하에 우리의 데이터가 얼마나 특이한 값인지를 의미합니다. p-값이 0에 가까워, 작으면 작을수록 차이가 없다고 보기엔 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미하고, p-값이 1에 가까워, 커지면 커질수록 충분히 우연하게 일어날 수 있는 흔한 차이를 의미합니다. 그렇다면 p-값이 도대체 얼마나 작아야 할까요? 차이의 의미가 있다. 없다는 판단하는 기준이 p-값이라면 그 기준값(threshold) 은 얼마일까요?


+ Recent posts