part 3

차이를 예측하는 통계 개념

남자 평균 174.9cm, 여자 평균 162.3cm

영국의 한 연구팀에 따르면 지난 100년간 한국 남성의 평균 키가 159.8cm에서 174.9cm로 15.1cm 커졌고, 여성의 평균 키는 142.2에서 162.3cm로 무려 20.1cm나 폭풍 성장헀다고 합니다. 170cm 남자와 160cm 여자의 고민이 깊어집니다 ...

표본평균의 표준편차

  • 데이터의 관측치가 많으면 많은 수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않습니다. 통계학자들이 이 개념을 표현한 것이 바로 표본평균의 표준편차 압니다.

표본평균의 표준편차 계싼

  • 표본평균은 손쉽게 계산할수 있습니다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 되죠.
  • 그럼 표본평균의 표준편차는 어떻게 계산할까요?
  • 현재 우리가 가진 데이터로는 분산을 구하는 것이 불가능합니다. 분산을 구하려면 여러 개의 값이 있어야 하는데, 지금 우리 손에 쉰 데이터는 하나뿐이며 따라서 표본평균도 하나뿐입니다. 그래서 계산이 아니라 추정(Estimation)을 해야 합니다.
  • 표본 분산의 계산 식에는 (xi-E(x))^2 가 있습니다. xi 대신 1/n배 된 xi/n가 들어가면 제곱이 되어 표본 분산은 1/n^2 배 됩니다. 그럼 S^2x/n은 다음 처음 표현되죠.


  • 표본평균의 분산 S^2x는 다음과 같이 n개의 분산의 합으로 추정할 수 있습니다.
  • 표본쳥균의 분산 S^2x은 표본의 분산 S^2x의 1/n배라는 것입니다. 당연히 하나의 값 x의 분산보다 n개 값의 평균인 E(x)가 덜 흔들릴 테고, 따라서 분산이 작습니다. 그리고 그 정도가 관측치의 개수 n에 반비례하는 것을 말합니다. 이제 표본평균의 표준편차를 계산해볼까요? 제곱근만 씌우면 됩니다.


t-값과 t-분포

  • t-분포는 표본평균의 0인이 아닌지 판단할 때 사용합니다. 어떤 맥주는 알코올 도수가 4.2%여야만 팔수 있다고 합니다.
  • 5잔의 샘플을 뽑아 알콜도수를 측정했습니다. (4.15%, 4.19%, 4.2%, 4.21%, 4.23%, 4.27%)
  • 첫번째, 평균을 구하고 두번째 분산을 구합니다.
  • 세번째 단계는 관측치에서 기준값을 뺀 것의 평균, 0.01%를 방금 구한 표본평균의 표준편차 0.02%로 나누는 작업입니다.
  • 0.01%/0.02%, 즉 0.5가 계산 되네요! 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 **t-값(t-value)**이라고 합니다.


  • t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려줍니다.

t-분포


  • v가 t-분포의 모양을 결정하기 때문에 v가 바로 t-분포의 모수입니다. 이를 가르켜 흔히 자유도(Degree of freedom) 라고 부르고 관측치 수에서 1을 빼서 계산합니다.
  • t-값을 구할 떄 차이를 표준화와 비슷한 상대적인 값으로 바꿨습니다. 예제에서처럼 5개와 같이 아주 적은 관측치의 차이를 설명할 수 있도록 고안한 것이 바로 t-분포 입니다.
  • 전체 평균을 알고, 4잔의 도수를 알면 나머지 하나는 바로 계산할 수 있으니까요. 자유도를 1 낮춘 데는 그만한 이유가 있었던 것입니다.

p-값과 t-테스트

  • 분포는 모수가 결정되면 모양이 정해집이나. t-분포의 경우에는 자유도가 4라는 것만 정해지면 t-분포의 모양이 결정될 뿐, 실제 5개의 관측치가 어떤 값을 가지는지는 전혀 상관이 없습니다.
  • t-값인 0.5가 얼마나 큰 차이를 의미하는지 살펴보겠습니다.


  • 자유도가 4인 t-분포에서 0.5라는 값은 0으로부터 그다지 멀리 떨어져 있지 않네요. 컴퓨터가 계산한 p-값은 0.3217입니다. 다시 말해 0.5보다 더 큰 차이가 날 확률이 무려 32.17%나 됩니다. 실제 맥주 도수가 4.2%라고 할 떄 원표나 공정에 따라 맥주 도수가 조금씩 파이가 날 수 있곘죠.
  • 그런데 맥주 5잔으로 테스트 했을 때 평균적으로 0.1% 포인트 차이가 나는건 대수롭지 않다는 이야깁니다. 왜냐면 그것보다 훨씬 큰 차이가 날 가능성이 32%가 넘기 때문이죠!
  • 반대로 평균 도수가 더 낮게 나올 수도 있겠죠? t-값으로 0.5나 -0.5보다 클 확률은 64.34%나 됩니다. -ㅔrkqtdl 0.6434라는 것은 셀제 맥주들의 도수에 문제가 없더라도 표본 10개 중에 예닐곱 개는 도수가 0.01% 포인트 이상 차이가 날 수 있다는 것지요. 유의수준 5%를 고려할 것도 없이 이 데이터의 평균값 차이는 의미가 없습니다.
  • 이처럼 평균값의 차이를 t-값으로 계산하고, t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-검정(t-test) 혹은 영어 표현 그대로 t-테스트라고 합니다. t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-값을 계산했기 때문에 t-검정 이라고 하죠.
t-검정을 위해서 우리가 한 것 단 두가지. 1. 표본평균과 표본평균의 표준편차를 계산하고 기준값을 활용해서 t-값 계산하기. 2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교하기
  • 생각보다 간단하죠? 자, 그렇다면 이제 t-검정을 역으로 활용해 키 평균을 높여버린 영국의 연구팀과 데이터 싸움을 벌여보도록 하겠습니다.


part 3

지구는 우주의 티끌

믿기 힘들지만 지구는 우주에서 백사장의 모래 한알처럼 작은 존재에 불과합니다. 우리 생각보다 세상은 더 넓습니다. 그만큼 데이터의 세상도 넓고요.

표본과 모집단.

  • 백사장에 있는 수억 개의 모래알 중 선택된 만 개가 한 줌 안에 들어와 있는 것입니다.
  • 이것이 바로 흔히 샘플이라고 부르는 표본(Sample)의 개념입니다.
  • 수억 개 모래알이 있는 백사장을, 통계에서는 모집단(Poplation) 이라고 합니다.
  • 눈 앞에 있는 데이터 하나를 그냥 분석하는 것도 벅찬데, 통계는 왜 굳이 표본 이야기를 써내서 우리를 힘들게 할까요? 이유는 '비교' 때문입니다. 우리는 앞서 PART1과 PART2를 통해 차이를 확인하고 설명하는 방법들을 간단히 살펴봤습니다. 데이터 속에는 다양한 차이들이 있는데, 데이터만 있으면 무조건 그 차이를 계산할 수 있습니다. 평균을 계산해서 관측치들을 비교하고, 교차표를 이용해 올림픽별로 획득한 매달의 비중 차이를 확인했죠.
  • 살충제 6개의 효과도 살충제별로 평균을 구해서 차이를 확인했습니다. 그런데 문제는 이 차이가 우연인지 운명인지 판단하지는 못했다는 것입니다.
  • 아들 키의 평균이 아빠 키의 평균보다 2.5cm 큰 것을 확인했지만, 이 차이가 의미가 있는지 없는지는 알 수 가 있습니다. 실제로 아빠 키와 아들 키의 평균을 거의 똑같은데, 우연히 아들 키가 큰 1,078쌍의 부자를 대상으로 조사했을 수도 있죠. 우리가 가지고 있는 데이터, 즉 하나의 표본이 우연히 큰 값을 가졌을 뿐, 만약 새로운 표본을 뽑으면 똑같은 결과가 나오지 않을 수도 있습니다.
  • 자, 그럼 '아들 키가 아빠 키보다 의미 있을 만큼 충분히 크다'라는 것을 보이고 싶다면 무엇을 해야 할까요? 비교를 해야합니다. 비교를 하려면 비교 대상이 필요하죠. 바로 이 문제를 표본의 개념이 도와줄 겁니다.

통계량과 분포

  • 이번엔 관측치도 아니고, 변수도 아니고 데이터를 비교할 겁니다. 해변에서 놀고 있는 친구에게 "이 모래는 진짜 곱다."고 이야기 했는데 친구가 말합니다. "이 모래나 그모래나 똑같지!" 라고 답합니다. 어떻게 해야 할까요? 비교를 하면 됩니다! 내 손안의 모래랑 해변의 모래를 비교하는 거죠.
  • 내 소중한 모래알들의 평균 굵기는 3 입니다. 친구가 10번이나 퍼온 오래 한줌의 평균 굵기를 계산 했더니 다음과 값았습니다.


  • 각 평균값을 비교해도 내 소중한 모래알의 평균 굵기 3보다 작은 것은 없습니다. 즉, 내 모래알이 정말 곱다는 걸 보여주고 있죠.
  • 그럼에도 결과에 승복하지 못한 친구가 그새 100만개의 표본을 더 가지고 왔습니다.


  • 각각 10,000개의 모래알 평균 귥기를 계산한 100만 개의 표본평균을 0부터 10까지 0.1 간격으로 나눠 히스토그램을 그렸습니다.
  • 이렇게 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴을 분포(Distribution) 라고 합니다.
  • 우리의 소중한 모래 한 줌의 평균 굵기는 3이었는데요, 히스토그램에서 3의 위치를 확인해보면 이 해변에 있는 대부분의 모래는 굵기가 3보다 크며 모래 굵기가 3보다 작은 건 아주 드물다는 것을 볼 수 있습니다.


  • 물론 더 고운 모래가 있긴 하지만, 3정도로 고운 모래는 상위 1~2%에 들 정도니 이제 인정을 해줘야 할 것 같습니다.
  • 이처럼 우리가 가지고 있는 단 하나의 데이터가 얼마나 의미 있는 차이를 가지고 있는지 확인하려면 표본의 개념을 끌어와 분포를 만들어야합니다
  • 내가 가진 데이터의 값이 충분이 작은지, 큰지 혹은 충분히 무난한 값인지를 상대적인 위치로 확인하는 것이죠.

자연스러운 확률

  • 앞서 두 연속형 변수가 어떤 관계를 가지고 있는지 살펴볼 때 상관계수를 계산했습니다. -1 부터 1 사이의 값을 가지는 이 수는 두 변수가 같이 커지는지, 아니면 한쪽이 커지면 다른 한쪽은 작아지는지, 아니면 서로 관련이 없는지를 알려줬습니다. 그렇다면 서로 전혀 관력이 없는 변수를 두 개를 데려와서 상관걔수를 구해보면 어떨까요? 당연히 서로 관련이 없는 변수들이니까 상관계수는 0이 나오지 않을까요? 결론부터 말하자면, 평균적으로는 0이 나옵니다. 그러나 관련이 없는 두 변수의 상관 계수가 항상 0은 아니죠. 모의 실험 예제를 통해 살펴봅시다. 10,000개의 랜더ㅁ 샘플을 만들었습니다. 그리고 10,000개의 상관계수를 히스토그램으로 그렸습니다.


  • 히스토그램에서 알 수 있듯이 서로 상관이 없는 두 변수의 상관계수를 구했다고 해서 항상 0이 나오는 것은 아닙니다. 다만 그 중심에 0이 있는 걸 보면 굳이 계산해보지 않아도 상관계수의 쳥균은 0이라고 짐작할 수 있습니다.
  • 10,000 개의 상관계수중에서 +-0.3이 넘는 상관계수를 세어보니 22개가 있습니다. 통계에선 0.22%의 확률로 일어날 수 있는 사건이라고 봅니다.
  • 반대로 운명이 있습니다. 바로 35% 부전자전, 유전 연결고리에서 살펴본 1,078쌍의 아빠와 아들의 키 데이터입니다. 이 둘의 상관계수를 0.5였죠. 우리는 두 변수의 관계를 0.5라고 표현하긴 했지만, 그 숫자가 진짜 의미가 있는지 아닌지는 판단하지 못했습니다. 그러나 이제는 할 수 있습니다! 우선 목표는 '아빠 키와 아들 키의 상관계수 0.5가 의미가 있다'는 것을 입증 하는 것입니다.
  • 10,000번의 1,078쌍의 어색한 두사람 사이에서는 +-0.5가 넘는 상관계수가 한 번도 나오지 않았습니다. 즉, 0.5라는 아빠 키와 아들 키의 상관계수는 '두 변수가 전혀 상관이 없다'는 가정하에서는 발생 확률이 0.0000001%쯤 되는 매우 특이한 일입니다.
  • 그렇다면 두 연속현 변수 말고 두 범주형 변수의 관계는 어떨까요? 두 범주형 변수의 관계 역시 비슷한 방법으로 확인할 수 있습니다. 이번에는 온라인 배너 광고를 통해 이용자의 반응을 살펴볼까요? 온라인 배너 광고는 흔히 AB 테스트라는 방법으로, 이용자에게 두 가지 배너 중 랜덤으로 하나를 보여주고 반응을 보려고 합니다. 두 배너 중에서 어떤 배너가 더 매력적인지 이용자 100명을 대상으로 확인해봤더니 배너를 보고 클릭해서 반응한 사람과 무시한 사람 두 유형으로 나뉘었습니다.


  • 마케팅의 성과를 판단하기 위해서 우리는 또 다시 비교를 해야합니다. 역시 어떤 분포가 필요하죠. 현실에서는 똑같은 마케팅을 반복하기 어렵지만, 통계에서는 랜덤 샘플로 이와 비슷한 데이터를 수없이 만들 수 있습니다. 배너의 종류를 의미하는 첫 번쨰 변수는 A가 50번 B가 50번 랜덤으로 나오도록 하고 이용자의 반응 여부를 의미하는 두 번쨰 변수는 랜덤으로 성공이 60번, 실패가 40번 나오게 만듭니다.
  • 두 변수의 값 100개가 어떻게 채워지는가에 따라 교차료의 네 칸은 달라지겠지만, 행 합계와 열 합계 그리고 전체 합계는 항상 똑같습니다.
  • 1,000개 랜덤 샘플에서 배너 A에 반응한 사람의 수가 몇명이나 되는지 살펴봅시다.


  • 역시 예상대로 30명을 중심으로 조금씩 크거나 작은 값을 가집니다. 그럼 배너 B에 반응한 사람 수도 60-30으로 계산되므로 30명 혹은 조금더 많거나 적다는 것을 의미합니다.
  • 그런데 실제로 우리가 실행한 마케팅에서 배너A에 반응한 사람 수는 35명입니다. 실제 데이터의 35라는 값을 가정으로 만든 분포를 넣어 볼까요? 10,000번의 표본 중에서 실제 값 35보다 큰 값이 나온 표본은 단 39개입니다. 확률로 계산하면 3.9%네요. '베너의 반응률에 차이가 없다'라는 가정에서 100명 중 배너A에 반응한 사람 수가 35보다 클 확률은 고작 3.9%라는 것입니다. 우연히라면 100번 중에 4번 정도 일어날 수 있는 드문 일이 우리 눈앞에 벌어진 것이죠. 단순히 우연이라 하기에는 충분히 큰 차이를 보여줍니다.
  • 지금까지 데이터가 가진 어떤 차이의 의미를 설명하기 위해서 분포의 힘을 빌렸습니다. 차이가 없는 상황을 가정하고, 우리가 가지고 있는 데이터와 모양새만 똑같은 랜덤 샘플들로 분포를 만들어 냈죠. 그리고 그 분포에 단 하나밖에 없는 실제 데이터의 값을 집어넣고 상대적인 위치를 확률로 계산했습니다. 예를 들어, 예제에서 35라는 실제 값은 분포속에서 상위 3.9%라는 확률을 얻었습니다. 이 확률값을 p-값(p-value) 이라고 합니다.
  • 그리고 이 p-값은 차이가 없다는 가정하에 우리의 데이터가 얼마나 특이한 값인지를 의미합니다. p-값이 0에 가까워, 작으면 작을수록 차이가 없다고 보기엔 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미하고, p-값이 1에 가까워, 커지면 커질수록 충분히 우연하게 일어날 수 있는 흔한 차이를 의미합니다. 그렇다면 p-값이 도대체 얼마나 작아야 할까요? 차이의 의미가 있다. 없다는 판단하는 기준이 p-값이라면 그 기준값(threshold) 은 얼마일까요?


part 3

우연과 운명 사이

PART1 에서는 관심 변수 속 차이를 확인하고, PART2에서는 그 차이를 설명변수와의 관계로 설명하는 방법들에 대해서 살펴봤습니다. 그러나 지금까지 우리가 간과하고 있었던 부분이 있습니다. 바로 그 차이의 의미입니다. 혹시 이 차이가 어쩌다 나온 차이고 재수 좋게 설명되는 관계인 걸 아닐까요?
  • 10년 넘게 연락이 없던 친구를 길 가다 우연히 만나면 어떨까요? 그 10년 뒤 또다시 그 친구를 우연히 만나게 된다면 어떨까요? 그 10년뒤 또 만난다면? 이 정도면 도저히 그냥 우연이라고 할 수 없어서 "만날 운명이었다"라고 표현합니다. 수많은 사람들이 영향을 주고 받는 미래는 예측할 수 없고 매 순간 우연으로 우리에게 다가옵니다.

  • 데이터 분석에서의 차이도 마찬가지 입니다. 올림픽 대회화 메달 색은 전혀 관련이 없는데, 우연히 리우에서 은메달을 많이 못딴 것은 아닐까요? 아들키를 아빠키로 설명할 수 있다지만, 사실은 그저 1,078개의 가족 데이터에서만 우연히 맞아떨어진 건 아닐까요? 우연이 아니라면 어떻게 증명해 보일수 있을까요? 변수 속의 차이나 데이터 속 변수의 관계가 우연히 아니라는 것을 보이는 과정을 테스트, 우리말로는 검정이라고 합니다. 우연이라고 하기에는 설명이 불가능할 만큼 충분히 큰 차이 매우 밀접한 관계가 있다는 것을 입증하는 것이죠. 그렇다면 얼만큼 커야 충분히 크다고 할 수 있을까요?

  • PART3 에서는 이와 관련된 어려운 이야기를 나눕니다. 충분히 큰지 아닌지를 판단하기 위해서는 기준이 필요합니다. 내 데이터로부터 계산된 값을 비교할 기준이 필요하죠. 그런데 우리에게 데이터는 하나밖에 없고, 비교를 위해선 적어도 2개의 무언가가 필요합니다. 그래서 통계는 표본이라는 개념을 활용합니다. 분명히 우리에게는 가지고 있는 데이터 하나가 전부인데, 통계는 그 외에도 똑같은 데이터가 수없이 많다고 할 겁니다. 어렵지만 이 과정을 거쳐야 우리 데이터가 우연이 아니라 운명이라는 것을 설명할 수 있습니다.


PART3 목차(배울것)

  • 지구는 우주의 티끌 : 표본과 모집단, 통계량 분포, 자연스러운 확률, 유의수준, 필요악 같은 분포, 키의 히스토그램과 정규분포
  • 남자평균 174.9cm, 여자 평균 162.3 cm : 표본평균의 표준편차, 표본평균의 표준편차 계산, t-값과 t-분포, p-값과 t-테스트
  • 관계 검증을 위한 테스트 : t-검정의 활용, 카이제곱분포를 활용한 독립성검정, F-분포를 활용한 분산분석
  • 아빠 키 유전 확률, 25% : 상관계수, 선형회귀모형, 회귀분석


part 2

차이를 설명하는 통계 개념

점심 뭐 먹지? (분산분석)

분산분석? 3개 이상의 집단에 대한 평균차이를 검증하는 분석 방법
  • 회사들이 최근에는 데이터 분석에 많은 관심을 보이고 있습니다. 사람들이 더 매력적인 콘텐츠로 옮겨가는 속도 만큼 회사는 빨리 대처를 해야 하기 떄문입니다.
  • 문제는 사람들이 뭘 좋아할지를 모른다는 것이죠. 도무지 예측을 할 수가 없는 세상입니다.
  • 일단 여러 개를 만들고 사람들의 반응을 살피는 것이죠. 이 과정을 보통 AB 테스트라고 합니다. 광고 배너를 A안과 V안 두 개로 나눈 다음 랜덤으로 사람들에게 노출하고, 어느 쪽 배너가 더 관심을 끄는지 사람들의 반응을 분석하는 테스트 방식 입니다.
  • 수십 년 전 통계학자들은 이미 비슷한 경험을 했고 이 상황에서 아주 적합한 이론들을 만들어 놨습니다. 서로 다른 비료를 뿌리고, 화합물의 원료 비율을 수없이 테스트 하면서 분산분석(ANONA, Analysis Of VAriance) 이라는 아름다운 이론을 만들었습니다.

ABCDEF 테스트

  • 성능 테스트 데이터를 살펴 보겠습니다. 여기 6개의 살충제 A, B, C, D, E, F 가 있습니다.
  • 어느 살충제가 효과가 좋은지 살펴보기 위해서 실험을 하기로 했습니다.
  • 똑같은 수의 벌레가 있는 6개의 방에다가 살충제를 하나씩 뿌리고 몇 마리가 죽는지 확인하는 것입니다.
  • 살충제 하나당 12번의 실험을 반복했습니다.


  • 이번에는 기억에서 가물가물한 상자그림을 그려 보려 합니다. 우리의 관심 변수는 각 살충제를 뿌렸을 떄 '죽은 벌레 수' 입니다.


  • 살충제 A, B, F는 상자그림이 전반적으로 위쪾에 떠 있고, 살충제 C, D, E는 아래쪽에 깔려 있네요.
  • 과연 살충제에 따라 죽은 벌레 수의 차이가 정말 의미 있는 차이일까요?

분산과 분산분석

  • 6개의 살충제 성능 차이를 분석하기에 앞서 잠깐 공부벌레 여섯 친구의 성적을 살펴보겠습니다.
  • 먼저 여섯 친구들이 중간 시험에 받은 점수를 수직선에 표현해 보겠습니다.


  • 파란색 친구들은 집에서 혼자 공부하고, 회색 친구들은 학원을 다닌다고 합니다.
  • 혼자 공부하는 친구들의 평균은 370, 학원을 다니는 친구들의 평균도 370이 나왔습니다. 정확히 전체 평균과 똑같네요.
  • 친구들의 점수 차이는 개개인의 차이일 뿐 학원을 다니는 혼자 공부하든 상관이 없다고 볼 수 있습니다.
  • 하지만 다음과 같은 상황에서는 어떨까요?


  • 회색 친구들은 학원을 다닌다고 합시다. 물론 전체 평균은 변함없이 370입니다.
  • 그런데 혼자 공부하는 친구들의 평균점수는 380점이고, 학원을 다니는 친구들의 평균 점수는 360입니다.
  • '공부 방법'이라는 변수 혹은 조건에 따라 조건부 평균이 다르네요.
  • 혼자 공부하는 세 친구와 학원을 다니는 세 친구를 두 그룹으로 나눠서 평균 점수에 배치하면 그 차이는 더욱 확인히 드러납니다.


  • 혼자 공부하는 세 친구들의 평균 점수가 20점이나 높은 것을 봐서 '혼자 공부하는 것이 고득점과 관련이 있다'고 볼수 있습니다.


  • 요약하자면, 변수를 조건으로 활용하면 차이에 대한 이유는 어느정도 확인할 수는 있지만, 그럼에도 알 수 없는 개인차가 존재한다는 것 입니다. 이것이 분산분석의 핵심입니다.
  • 설명변수는 관측치들이 왜 다른지에 대한 궁금즐을 일부분은 해소해주지만, 끝내 알 수 없는 부분도 있다는 것입니다. 그렇다면 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있습니다. 설명 변수가 우리의 궁금증을 충분히 해결했는지 아닌지가 기준이 되겠죠.
  • 다시 살충제의 성능을 실험하는 방으로 돌아가 보겠습니다.


  • 72번의 실험에서 평균적으로는 9.5마리의 벌레들이 죽었습니다.
  • 그러나 C, D, E 살충제를 사용했을 때 죽은 벌레 수는 채 5마리가 안되고 살충제 A, B, F 를 뿌렸을 떄는 평균적으로 15마리씩 거뜬히 죽었습니다.
  • 물론 살충제 D로 12마리를 죽이기도 했고 살충제 B가 7마리밖에 못죽인 실험도 있지만, 12번의 실험 결과에서 대체적으로 나온 숫자에 비하면 큰 영향을 주지 못합니다.
  • 72개의 숫자로 분산을 계산하면 51.9가 나옵니다. 각 숫자에서 평균 9.5를 빼고 제곱한 다음 모두 더해 (72-1)로 나눠서 계산 했죠.
  • 분산 분석은 (71-1)로 나누기 전의 제곱합을 사용해서 설명할 수 있습니다.
  • 72개의 모든 숫자에서 똑같이 전체 평균 9.5를 뺴서 제곱하고 더하면 3,684가 나옵니다.
  • 이 숫자의 정확한 의미를 알기 어렵지만, '죽은 벌레 수'라는 변수의 차이의 정도로 생각할 수 있습니다.
  • 편의상 '죽은 벌레 수'를 y라고 하면 다음 처럼 수식으로 표현할 수 있습니다.


  • 이번에는 또 다른 제곱합을 계산 하려고 합니다.
  • 관측치들의 실제값이 아니라 살충제라는 자신이 속한 그룹의 평균값으로 대체했습니다. 이 새로운 72개의 값에서 모두 전체평균 9.5를 뺴고 다시 제곱합을 계산 합니다.
  • 특이한 것은 같은 살충제 12개의 관측치는 모두 같은 값을 가지게 된다는 것이죠. 실제로 계산 하면 2,669가 되고 그룹평균으로 바뀐 변수 이름을 yg라고 하면 역시 다음처럼 수식으로 표현할 수 있습니다.


  • 이제 마지막 제곱합 입니다. 실제값과 그룹평균의 차이를 제곱하고 합하는 것이죠.
  • 계산은 조금 복잡하지만 수식으로 표현하면 다음처럼 간단하게 나타낼 수 있습니다. 값은 1,015가 됩니다.


  • 조금씩 다르긴 하지만 지금까지 3개의 제곱합을 계산했습니다. 그런데 세 제곱합 사이에는 신묘한 관계가 있습니다. 두 번쨰와 세번쨰 제곱합을 더하면 정확하게 첫 번쨰 제곱합과 같죠!
3,684 = 2,669 + 1,015
  • 믿기지 않겠지만, 실제로 계산하면 정확히 일치하는 것을 확인할 수 있습니다. 그렇다면 숫자말고 수식으로 살펴 볼까요?


  • 첫 번째 제곱합은 우리의 관신 변수의 분산, 바로 정보량입니다. 그런데 이 분산은 정확히 2개로 나눠지는 데요 두 번쨰 제곱합이 의미하는 그룹에 따른 차이와 세번째 제곱합이 의미하는 알수 없는 개인차 입니다. 두 번째 제곱합은 각 관측치의 실제값 대신 그룹의 평균을 사용해서 계산했습니다. 즉, 전체 평균에 비해서 각 그룹의 평균이 얼만큼 차이가 큰지를 계산하는 것이죠.
  • 그럼 이 값은 관심 변수의 정보 중에서 그룹에 따른 차이로 설명할 수 있는 부분이 됩니다. 세 번째 제곱합은 다릅니다. 실제값에서 그룹 평균을 뺐는데요. 바로 그룹 차이로는 설명할 수 없는 나머지 부분을 의미합니다. 각자 의미를 가지고 있는 3개의 제곱합이 실은 이렇게 아름다운 관계를 가지고 있습니다.
  • 중학교때 배운 피타고라스의 정리 c^2 = a^2 + b^2과 닮은 것을 알 수 있습니다. 또 한 '데이터 공간(c^2)이 다른 변수들로 설명되는 공간(a^2)과 전혀 관련이 없어 알 수 없는 공간(b^2)으로 나눠진다' 라는 공간의 개념도 담겨 있습니다. 이와 같이 정보를 의미하는 관심 변수의 분산이 어떻게 분해되는지 살펴본다고 해서 분산분석이라는 이름이 붙었습니다.
  • 물론 이것이 분산분석의 끝은 아닙니다. 분산 분석의 목적이 무엇인가요? 그룹에 따라서, 콘텐츠에 따라서 결과에 충분히 큰 차이가 있는지 없는지를 판단하는 것이죠. 그런데 문제는 우리가 아직까지 '충분히 큰 차이'에 대한 개념을 배우지 못했다는 겁니다. 지금까지 계산한 세 제곱합으로 바로 판단할 수는 없습니다.
  • 물론, 관심 변수의 분산 중에서 글부을 나누는 역할은 한 설명 변수로 설명할 수 있는 부분이 크면 클수록 그룹에 따른 차이가 크다고 볼 수는 있겠지만, 도대체 얼마나 커야 할까요? 그 답은 이어지는 PART3에서 찾아봅시다.


part 2

차이를 설명하는 통계 개념

아낌없이 주는 의사결정나무

  • 데이터의 차이를 확인하고 설명하기 위해선 조건부 확률, 조건부 평균을 구헤야하는 건 알지만, 방법을 생각하는 건 참 어렵습니다.
  • 관심변수는 하나밖에 없다지만, 설명 변수는 여러개일 수도 있어서 도무지 어떤 변수를 어떻게 활용해야할지 막막합니다.
  • 그러나 너무 걱정할 필요는 없습니다. 통계학자들이 데이터를 효과적으로 분석히기 위한 많은 도구를 만들어 놨으니까요.

모자이크 그림

  • 의사 결정 나무 모현을 살펴보기 전에 분할 정복 전략을 살펴 봅시다.
  • 전체 데이터를 한눈에 파악하고 차이를 잡아내는 것은 어려운 일입니다.
  • 그래서 데이터를 여러 개의 작은 부분으로 쪼개고, 나눈 부분별로 분석하는 방법을 분할정복(Divide and conquer) 이라고 합니다.
  • 분할 정복 개념을 살펴보기 위해 목숨이 위태로운 비극정인 상황 속에서도 여자와 어린 아이들은 먼저 구한 이야기로 깊은 감명을 준 타이타닉 호의 인명 피해 데이터를 한번 살펴 봅시다.


  • 타이타닉 호에는 2,201 명이 타고 있습니다. 빙산에 부딪친 타이타닉 호는 침몰했고 711명만 살아남았습니다. 이 중에는 남자도 있고 여자도 있고 성인도 있고 아이도 있었습니다. 비싼 돈을 주고 1,2 등석에 탄 사람, 3등석에 탄 사람 그리고 선원도 있었습니다.
  • 2,201명의 승객을 좌석등급, 성별, 연령 구분에 따라 정리하고 생존 여부를 데이터로 정리했습니다. 변수가 4개라서 단순한 교차표로 표현하긴 어렵지만 교차표를 묶어서 정리해봤습니다.
  • 교차표를 보면 연령, 성별, 좌석 등급에 따라 생존자와 사망자 수를 확인할 수 있습니다. 예를 들면, 1등석에 탄 성인 여자 중에서 140명은 생존했고, 4명은 사망했습니다. 선원은 모두 성인이며 그중 남자는 670명이 사망하고 192명만 살았습니다.
  • 이렇게 교차표에서 좌석등급, 성별, 연령에 따라 몇 명이 생존했고 사망했는지 확인할 수 있습니다.
  • 그렇지만 역시 숫자로 하나하나 표현하는 것은 데이터를 한눈에 보기가 어렵기 때문에 그림으로 표현해 봅시다.


  • 사각형의 폭은 좌석등급에 타고 있던 사람들에 수에 비례에서 결정됩니다.
  • 그림만 봐도 3등석 탑승자와 선원이 1, 2 등석 탑승자보다 많다는 것을 확인할 수 있습니다. 이렇게 큰 사각형을 좌석 등급에 따라 작은 사각형으로 나눈 다음, 다시 각 등급을 나타낸 사각형을 성별에 따라 가로로 2등분합니다.
  • 생존 여부에 따라 사각형을 가로로 나누고 생존자는 파란색, 사망자는 회색으로 표현해 보겠습니다.
  • 회색과 파란색을 묶은 총 16개의 사각형들은 좌석등급, 성별, 연령 구분의 조합으로 만들어진 작은 그룹들입니다.
  • 각 그룹에서 파란색 상자의 비율이 높으면 생존자가 더 많고, 회색의 비율이 높으면 사망자가 더 많은 것을 의미합니다.
  • 전해 듣던 대로 여자와 아이들 그리고 좌석등급이 높은 사람들의 생존율이 확연히 높은 것을 눈으로 확인할 수 있습니다.
  • 그러나 한가지 의문이 남습니다. 이게 최선일까요? 예를 들면, 3등석 여자 승객을 살펴보면, 아이와 성인의 생존율에 큰 차이가 없습니다. 그 두 사각형을 합쳐도 큰 문제가 없죠.
  • 만약 나눠진 그룹들끼리 큰 차이가 없다면 굳이 나눠서 설명할 필요가 없을 겁니다. 그렇다면 두 그룹의 차이를 보다 명확하게 볼 수 있는 방법은 없을까요? 바로 이떄 필요할 것이 의사결정나무 모형입니다.

의사결정나무 모형

  • 히스토그램이나 막대그래프를 그려보면 관심 변수 속 관측치들이 서로 다른 값을 가지는 것이 보입니다. 그리고 데이터 분석을 통해 그 차이를 다른 변수들로 설명하려고 합니다.
  • 여러개의 설명 변수는 다양한 조건을 만들고 이 조건에 따라 관심 변수가 차이가 있다는 것은 확인할 수 있지만, 변수가 많이질수록 가능한 조건의 수도 너무 많아집니다.
  • 이를 설명하기 위해서 시작한 분석인데, 큰 차이도 없는 조건들까지 다 살펴보는 것은 무의미합니다.
  • 앞서 모자이크 그림의 예제와 같이 타이타닉 호 탑승자의 생존율의 차이를 설명하기 위해서 세 개의 설명 변수로 조합 가능한 16개의 조건을 모두 살펴볼 필요는 없다는 것이죠.
  • 그래서 휼륭한 통계학자들은 모든 설명 변수가 아니라 중요한 변수들만 선택해서 차이를 설명하는 다양한 통계 모형(Statistical Model) 을 만들었습니다.
  • 모형의 알고리즘을 이해하는 것은 어렵지만, 원리를 이해하고 잘 활용하면 손쉽게 정보를 얻을 수 있습니다. 그중에서 직관적으로 이해할 수 있는 의사결정나무 모형(Decision tree) 에 대해 살펴봅시다.
  • 의사결정나무가 가지를 뻗는 방식을 그림으로 살펴보면 다음과 같습니다.


  • 예를 들어 초등학교에서 안경을 쓴 학생의 비율이 30%라고 합시다. 학년을 기준으로 고학년과 저학년을 나눠봤더니, 고학년 중에서 안경 쓴 학생의 비율은 29% 였습니다.
  • 반면, 성별을 기준으로 나눠봤더니, 남학생들의 비율은 40% 여학생들의 비율은 20%가 되었습니다. 그럼 '학년'과 '성별' 중에서 어느 변수가 '안경을 쓸 확률'을 더 잘 설명할까요?
  • 당연히 더 큰 차이를 만들어 내는 '성별'입니다
  • 의사결정나무 모형은 이렇게 그룹끼리 더 큰 차이를 만드는 변수를 찾아줍니다. 심지어 한 번이 아니라 계속해서 가지를 뻗고, 또 변수를 찾습니다.


  • 최적의 조건으로 나뉜 각각의 그룹에서 또 다시 조건을 찾습니다. 더 작은 2개의 그룹을 만들 최적의 조건을 찾으면, 전체 관측치를 더 잘게 나누죠.

  • 그냥 나눠지는 것이 아니라 더 큰 차이를 보이는 그룹별로 나누어 차이는 점점 벌어집니다.

  • 그리고 이후 적절한 순간이 오면 가지치키를 해서 의미 없는 잔가지를 덜어내죠.

  • 타이타닉호에 탑승했던 2,201명 중 생존율이 높았던 사람들은 누구일까요?

  • 앞서 모자이크 그림에서 다뤘듯이 타이타닉 호의 탑승자들을 좌석등급, 성별, 연령으로 구분해서 16개의 그룹으로 나눌 수도 있겠지만, 굳이 복잡하게 16개 그룹을 다 쓸 필요는 없습니다.

  • 이번에는 좀 더 간단하게 분석 도구 R에서 구현된 의사결정나무 모형을 써써 최적의 조건을 찾아보겠습니다.


  • 의사결정나무 모형이 찾은 최적의 조건은 '성별=남자'입니다.
  • 이조건과 일치하는 사람들은 왼쪽으로, 나머지는 오른쪽으로 이동합니다.
  • 제일 왼쪽 남자 어름 그룹은 생종율이 20%로 가장 낮네요. 이 이후로 나무는 더 이상 가지를 뻗지 않았습니다. 더 이상 가지를 뻗어 봤자 큰 차이가 없다고 판단한 것입니다.
  • 의사결정나무 모형은 3개의 설명 변수로 나눌 수 있는 16개의 그룹을 모두 만드는 대신 5개의 그룹을 만들었습니다.
  • 남자 어른의 생존율은 20%로 가장 낮았고 1, 2등석의 여자와 여자 선원, 아이의 생존율은 93%, 100%로 매우 높은 것을 보여줍니다. 당연히 더 많은 그룹을 쓸수록 더 세부적인 생존율 차이를 확인할 수 있겠지만, 의사결정나무 모형은 의미 있는 차이를 보여주는 5개의 그룹만으로 생존율의 차이를 효율적으로 나타냈습니다.
  • 이를 활용해 여러 작은 그룹들을 만들고 그룹에 포함된 관측치들이 어떤 확률을 계산했죠. 바로 '조건부 확률'입니다.
  • 비록 의사결정나무 모형 자체를 구현하는 알고리즘은 상당히 복잡하지만, 결과는 직관적이고 이햐하기가 쉽죠. 통계학 때문에 통계를 두려워할 필요는 없습니다.
  • 이처럼 유용한 도구를 잘 사용하고 좋은 알고리즘을 만든 통계학자에게 감사한 마음만 가지면 됩니다. 다음으로는 조금 오래된 또 다른 통계학자들의 노력의 산물을 살펴 봅시다.


part 2

차이를 설명하는 통계 개념

최저가, 알고 보니 옵션가

  • 인터넷에서 서로가 최저가라고 외치는 곳은 많지만, 실제로 최저가를 찾는건 힘듭니다. 최저가인 줄 알았는데 옵션에 따라 추가금이 붙거든요.

조건부 확률과 조건부 평균

  • 아빠 키-아들키 데이터를 떠올려 봅니다. 그중 아들 키라는 변수 속에 있는 1,078명의 아들들을 생각해봅시다.
  • 이 중 누군가는 키가 150cm도 안 되고, 또 다른 누군가는 200cm가 넘습니다. 이들 사이에는 무언가 차이가 있지만 이유를 알 수는 없습니다.
  • 평균키를 계산했지만 '174.5cm'라는 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못합니다.
  • 즉, 관심 변수는 자기 자신을 통해서는 평군과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선입니다.
  • 왜 그런 차이가 나는지 이유를 설명할 수는 없죠. 그래서 '왜'를 설명할 수 있는 다른 변수가 필요합니다.
  • 앞서 상관계수를 통해서 아빠 키와 아들 키가 0.5라는 양의 상관관계를 가지는 것을 확인했습니다.
  • 전체 아들 중에서 키가 180cm 이상일 확률은 22%지만 '아빠 키가 평균 이상' 이라는 조건(Condition) 을 추가하면, 확률은 35%로 높아집니다.
  • 이렇게 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균 이라고 합니다.

심슨의 역설

  • 모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았습니다.

성별지원자합격자합격률
남자1006868%
여자1004242%
전체20011055%
  • 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못 된 것 같습니다.
  • 그런데 대학측에서 오히려 여자의 합격률이 높다고 주장합니다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 살펴 볼까요?

학과성별지원자합격자합격률
A학과
남자806480%
여자201890%
B학과
남자20420%
여자802430%
  • 학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여줍니다. 먼저 A학과를 살펴보면 남자의 합격률은 80%, 여자의 합격률을 90%로 합격률에 차이가 있네요.

  • 그럼 B학과는 어떨까요? B학과 역시 여자의 합격률이 더 높았는데, 뜯어보니 A학과 B학과 모두 여자의 합격률이 10%포인트나 더 높습니다.

  • 분명 남자의 합격률이 더 높았는데, 뜯어 보니 A학과 B학과 모두 여자의 합격률이 10% 포인트나 높습니다.

  • 이 예제는 절대 모순이나 말장난이 아닙니다. 심슨의 역설(Simpson's paradox) 로 알려진 실제 일화 입니다.

  • 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과 입니다.


  • 만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 설병과 지원 학과가 완전히 독립이였다면 A학과와 B학과에 지원한 남자와 여자의 수가 50명으로 동일했을 겁니다.

  • 그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나왔던 것이죠.

  • 결국 데이터 분석은 차이를 확인하고 설명하는 과정입니다. 보통 평균이나 교차표를 계싼하면 관심 변수의 특성을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 담겨 있습니다.


  • 앞서 우리는 상관계수나 교차표를 통해서 관심 변수화 설명변수가 어떤 관계를 맺고 있는지 확인하는 방법을 살펴봤습니다. 그리고 이제 조건부 확률과 조건부 평균으로 넘어오면서 둘 사이의 관계를 조금 더 명확하게 알 수 있었습니다.

  • 설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴 볼 수 있죠. 그리고 이 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있습니다.


part 2

차이를 설명하는 통계 개념

늬가하면 나도 한다.

  • 두 연속형 변수는 상관계수로 관계를 확인할 수 있습니다. 그러나 두 범주형 변수의 관계는 상관계수로 구할 수가 없습니다.
  • 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이죠. 게다가 상관계수가 설명하는 함께 커지거나 반대로 함께 작아지는 관계는 범주형 변수들을 설명하기에는 어색한 개념입니다.
  • 상관계수와는 다릉 방법을 써서 두 범주형 변수 사이에 어떤 관계가 있는지 확인해야합니다.
  • 시험기간에 고생하는 학생들을 위해서 뜬금없지만 간식을 준비했습니다. 케이크와 햄버거를 넉넉히 사고 마실 거리도 준비했습니다. 커피와 사이다 입니다. 학생들에게 케이크와 햄버거 중에 하나를 선택하고, 커피와 사이다 중에 하나를 선택하라고 한다면 학생들은 어떤 조합을 더 많이 선택할까요?
  • 아무래도 달달한 케이크에는 풍미를 더해주는 커피가 어울리고, 기름진 패티가 들어 있는 햄버거에는 탄산음료가 제격이죠! 많은 학생들이 (케이크, 커피), (햄버거, 사이다) 조합을 선택했을것 같네요.
  • 이것이 바로 범주형 변수의 관계, 좀더 정확하게는 두 범주형 변수의 수준 간의 관계입니다. 그럼 우리는 어떻게 이 관계를 확인하고 표현할 수 있을까요?

교차표

  • 변수는 데이터 공간 속에서 축을 의미합니다.
  • 이러한 2차원 표를 교차표(Contingency Table) 라고 부릅니다.
  • 교차표를 좀 더 쉽게 이해하기 쉽도록 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표로 정리했습니다.
금매달은메달동매달
26회 아테네9129
29회 베이징13109
30회 런던1387
31회 라우939
  • 그러나 교차표는 단순히 요약만을 위한 것은 아닙니다. 교차표에서는 수준들의 관계를 살펴볼 수 있습니다.
  • 이것을 위해 행 합계와 열 합계를 계산해봅시다.
금매달은메달동매달행합계
26회 아테네912930
29회 베이징1310932
30회 런던138728
31회 라우93921
열합계443334111

헹 백분율과 열 벡븐율

금매달은메달동매달행합계
26회 아테네0.300.400.301.00
29회 베이징0.410.310.281.00
30회 런던0.460.290.251.00
31회 라우0.430.140.431.00
열합계0.400.300.301.00
  • 행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것을 행백불율 이라고 합니다.
  • 행 백분율을 구해보면 전반적인 열(메달)비중 패턴과 다르게, 각행(대회)이 어떤 열과 조금 더 혹은 조금 덜 관련이 있는지 살펴볼 수 있습니다.
  • 그렇다면 이번에는 반대로 열 합계를 1로 봤을 때 각행의 비중이 얼마인지 계산한 열 백분율을 계산해보겠습니다. 각 메달의 합계를 1로 봤을 떄 어떤 대회에서 메달이 많이 나왔는지를 살펴 보는 것이죠.
금매달은메달동매달행합계
26회 아테네0.200.360.260.27
29회 베이징0.300.300.260.29
30회 런던0.300.240.210.25
31회 라우0.200.190.260.19
열합계1.001.001.001.00
  • 이렇게 열 백분율에서도 다른 수준들에 비해서 조금 더 관련이 깊은 행들이 있습니다.

열지도

  • 그런데 만약 두 범주형 변수에 수준이 10개씩 있어서 무려 100개의 숫자를 살펴봐야 한다면 어떻까요?
  • 숫자가 많아져 보기도 어렵고 정리하는 것도 일 입니다.
  • 그래서 색깔을 활용해서 열지도(heatmap) 를 그립니다.

연령대서울부산대구인천광주대전울산세종경기강원충북충남전북전남경북경남제주
0~438413310013368715914600586996767711215530
5~936812810413374735614620637198797510715832
10~14401142121138847958126437277100918511716534
15~1954320416517711311177127879710613512311116320739
20~2468124117619611412577148051051081361219416319436
25~297222041411809010070117317787114927613716929
30~348242331602151071108617904861021411059816422239
35~3976824117522611611591209949610814811811017224343
40~448092642082461301309919111611612216014113019827552
45~4979027922125213013110914109212313115914414221328652
50~5476729321625411612310513101412712915914314422127548
55~59749307195224104112911186813112214814014221825843
60~645582381431437076598567948811110811017018630
65~6943617910510557553864207064929510113213825
70~7433813985814544275345716283829712111721
75~79226976360323218426158527570851069817
80~8412253373619201131553232504754676212
85~81322125131372104232031303542388



  • 교차표로 잘 정리되었지만 종이를 가득 채운 306개의 숫자에서 어떤 패턴이 있는지 확인하는 것을 거의 불가능하죠.
  • 그러나 각 시도별 연령대 구성비를 의미하는 열 백분율을 계산하고 열지도로 표현하면 훨씬 효과적으로 정보를 확인 할 수 있습니다.
  • 지역을 막론하고 40대롸 50대의 색이 전체적으로 짙습니다. 그리고 15세 미만 인구는 색이 연하네요.
  • 저출산 문제와 곧 닥쳐올 인구 고령과 위기를 잘 보여주는 열 지도 입니다.

독립

  • 일반적으로 케이크는 커피, 햄버거는 사이다와 어울린다고 생각하지만, 커피 입장에서는 항상 케이크와 엮이는 것이 불만일 수 있습니다.
  • 종속(Dependence) 되어 있는 것이죠.
  • 둡 변수가 이런 종속적인 관계가 아니라 서로 얽메이지 않고 완전히 남남인 관계를 독립(Independence)** 이라고 부릅니다.
  • 단순히 평균을 구하는 것이 아니라 행 비중, 열비중에 따라 가중치를 준다음 실제 데이터와의 값의 차이를 살펴보겠습니다.
  • 만약 실제 교차표가 독립을 가정한 교차표롸 비슷한 값을 가진다면 표에서 나타난 차이들은 대부분 0의 값을 가집니다.
  • 반대로 무언가 차이가 있다면 차이값들은 0에서 멀어지고, 교차표의 변수가 독립이 아니라는 것을 의미합니다.
  • 그러나 이 차이값을 하나하나 살펴가며 독립인지 아닌지 판단할 기준이 필요합니다.
  • 그렇지만 아직 다룰 수 없는 부분이니 이 이야기는 PART3에서 다시하고, 이제부터는 변수들이 이런 관계를 어떻게 활용하는지 살펴 보겠습니다.


part 2

차이를 설명하는 통계 개념

부전자전, 유전 연결고리

상관관계

  • 관측치가 중심에서 멀리 떨어져 있다는 것은 평균키에서 멀리 떨어져 있다는 것을 의미합니다. 따라서 두 변수의 관계를 표현할 숫자를 계한 할 때 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야합니다.
  • 그래서 아빠 키의 평균으로부터의 거리와 아들 키의 평균으로 부터의 거리를 계산해서 두 값을 곱합니다. 그럼 키가 평균으로부터 멀리 떨어져 있을수록 그 값은 커지고, 평균과 가까워질수록 작아집니다. 그림으로 표현해볼까요?

(그림1)



  • 각 데이터의 경우 관측치 개수만큼, 즉 1,078개의 사각형 면적을 계산한 것이죠.
  • 이 사각형들을 활용해서 변수의 관계를 하나의 숫자로 표현해야 합니다.
  • 복잡할 것 같지만, 아주 간단한 방법이 있습니다. 사각형 면적의 평균을 계산하는 것이죠.
  • 만약 사각형의 면적이 양수라면 제1,3사분면에 있는 관측치들의 영향력이 세고, 음수라면 제2,4사분면에 있는 관측치들이 영향력이 센것이죠.
  • 사격형 면적의 평균을 계산한 것은 이번이 처음이 아닙니다. 한변수의 분산을 구할 때 정사각형 면적을 다 더한 다음(관측치의 개수-1)로 나웠었죠. 바로 분산이었습니다.


  • 이때까진 하나의 변수에 대해서만 살펴봤지만, 우리는 지금 두 변수의 관계를 살펴보고 있습니다. 그래서 x만고 또 다른 변수 y까지 2개의 변수를 활용하는 것이죠.
  • (xi-x평균)와 (yi-y평균)를 곱해서 직사각형의 넓이를 구하고, 평균을 계산하는 것입니다.
  • 그리고 이 값을 '변수 x와 y를 함께 사용해서 계산한 분산'이라는 의미에서 공분산(Covariance) 이라고 부릅니다.


  • 공분산을 계산해보면 25cm^2 이라는 양의 값이 나옵니다.


  • 공분산의 값이 양수일 때 통계는 두 변수가 양의 상관관계 가 있다고 합니다.
  • 치킨과 맥주처럼 '보완재'의 개념과 비슷합니다.
  • 반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계 가 있다고 합니다.
  • 아이폰과 갤럭시와 같이 '대체재'의 개념과 비슷합니다.
  • 그런데 한가지 문제가 있습니다. 우리가 계산한 공분산은 25cm^2입니다. '25'라는 숫자에서는 안타갑게도 양수라는 것 외에는 어떤 정보도 얻을 수가 없죠.
  • 게다가 cm단위로 계산한 아빠들와 아들들의 키를 m단위로 바꾸면, 이 값은 10,000분의 1로 줄어든 0.0025m^2가 됩니다.
  • 단위에 따라 공분산의 값이 변하기 때문에 부호 말고는 정보를 얻기가 어렵습니다.
  • 그렇지만 우리는 이미 단위 문제를 해결할 수 있는 방법을 배웠습니다. 바로 표준화입니다.
  • 공분산을 계산하기 전에 먼저 두 변수를 각각 표준화한 다음 다시 공분산을 계산해 봅시다.

상관계수

  • 아빠 키와 아들 키를 각각의 평균과 표준편차를 활용해서 표준화할 수 있습니다.
  • 사실 공분산의 계산 과정에서 평균을 빼주는 중심화를 이미 적용했기 때문에, 표준편차를 나눠주는 척도화만 해주면 됩니다.
번호아빠 키(cm)아들 키(cm)표준화된 아빠 키표준화된 아들 키
1162.2151.8-1-3.2
2160.7151.8-1-1.9
...
1,077179.7176.01.10.2
1,078178.6170.21.0-0.6
  • 그럼 표준화된 결과를 먼저 그림으로 살펴봅시다.


  • 아빠 키와 아들키 대신 표준화된 아빠 키 x'과 역시 표준화된 아들 키 y'의 공분산을 구해보면 0.5가 됩니다.


  • 이처럼 표준화된 두 변수의 공분산을 상관계수(Correlation Coefficient) 라고 부릅니다. 그리고 변수 x와 y의 상관계수 rxy는 표준화와 공분산을 한데 묶어 다음처음 수식으로 표현할 수 있습니다.


  • 아빠 키와 아들 키의 상관계수 0.5는 앞에서 살펴본 25cm^2와 크게 다르지 않은 것 같지만 매우 큰 차이가 있습니다.
  • 먼저 cm^2라는 면적의 단위가 사라졌기 때문에 다른 변수들의 상관계수와 비교할 수 있습니다.
  • 그리고 이제는 '0.5'라는 숫자가 큰 의미를 지닙니다. 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 떄는 -1이기 떄문입니다.
  • 두 변수가 가장 닮았을 떄가 언제일까요? 똑같을 떄 입니다. y의 자리에 x를 넣으면 결국 표준화된 x의 분산을 구하는 것과 식이 똑같아지고, 표준화된 변수의 특성에 따라 상관계수는 1이 됩니다.
  • 그렇다면 반대로 두 변수가 가장 다를 떄는 언제일까요? 어떤 변수와 그 변수에 -1을 곱한 새로운 변수는 무조건 정 반대로 움직입니다. x와 -x는 완전히 반대로 움직이고 역시 수식에서 계산해보면 앞의 경우와 "-"만 차이가 나기 떄문에 상관계수는 -1이 됩니다.
  • 그래서 두 연속형 변수로부터 계산된 상관계수는 항상 -1부터 1사이의 값을 갖습니다. 두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.


part 2

차이를 설명하는 통계 개념

범인은 이 안에 있다.

  • 차이는 아무 이유 없이 그냥 벌어지는게 아닙니다. 반드시 원인이 있기 마련이죠. 그리고 그 원인은 바로 데이터 안에 있습니다.
  • 결국 데이터 분석은 변수들을 활용해서 논리적으로 차이를 설명하는 과정입니다.그 첫 단계사 바로 변수간의 관계 탐색입니다.
  • 데이터 속에 있는 여러 변수 중 에서 차이를 확인하고 설명하려 하는 변수를 관심변수 라고 합시다.
  • 나머지 변수들은 이 관심 변수의 차이를 설명해 줄수 있는 변수라는 의미에서 설명변수 라고 합시다.
  • 모든 것을 숫자로 표현하는 통계는 이 알수 없는 부분 조차 수식으로 표현할 수 있습니다. PART2에서는 이와 같은 차이를 설명하기 위한 변수의 관계에 초점을 맞추고 PART3에서는 차이를 입증하기 위한 테스트를 중심으로 이야기해보겠습니다.

부전자전, 유전 연결고리

  • 아무래도 아빠 키가 크면 아들 키도 크겠죠?

산점도

  • 아빠키와 아들키의 관계를 확인하기 위해서는 데이터가 필요합니다.
  • 그래서 1,078 가족의 아빠 키와 아들키를 정리한 데이터를 준비했습니다.
기록번호아빠키(cm)아들키(cm)
1162.2151.8
2160.7160.6
.........
1,077179.7176.0
1,078178.6170.2
  • 이 데이터를 가지고 아빠 키가 크면 아들 키도 크고, 아빠 키가 작으면 아들 키도 작다는 키의 유전적 관계를 숫자로 증명하면 됩니다.
  • 어떻게 해야할까요? 먼저 데이터는 변수와 관측치로 구성되어 있다는 점을 다시 상기시킵니다. 그리고 이 데이터에는 2개의 변수와 1,078개의 관측치가 있습니다.
  • 어렵게 말로 표현했지만, 키 데이터를 표현한 그림은 생각보다 간단합니다.



  • 가로축에는 아빠 키를, 세로축에는 아들 키를 뒀습니다. 따라서 자연스럽게 2차원 공간이 만들어졌으며 각 관측치는 이 공간 속에 하나의 점으로 찍혀 있습니다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot) 라고 합니다.
  • 패턴을 조금 더 쉽게 찾기 위해서 보조선 두개를 그어볼까요?
  • 아빠의 평균키를 171.9cm를 수직으로 그리고, 아들 키의 평균 174.5cm를 수평선으로 그려봅시다.

  • 수평선과 수직선에 의해서 공간은 4개로 나눠집니다. 그래서 이를 가리켜 사분면(Quadrant) 이라고 부릅니다.

  • 오른쪽 위부터 시계반향 순서대로 1, 2, 3, 4사분면이라고 부릅니다.

  • 제1사분면에 속하는 가족은 아빠도 아들도 평균 키가 습니다. 제3사분면은 아빠도 아들도 평균키가 작네요. 이 두사분명은 아들 키와 아빠키는 관련이 있다는 주장에 힘이 됩니다. 반대로 제2,4사분면에 있는 아들과 아빠는 이 주장에 반하는 데이터를 보입니다.

  • 그래프를 보면 확실히 제1,3사분면에 점이 많은것 을 볼 수 있습니다. 즉, 아빠키와 아들 키는 밀접한 관련이 있는 것으로 보입니다.

  • 그러나 우리는 이 생각을 좀 더 명확한 숫자로 표현해야 합니다.

  • 가장간단한 방법은 제1,3사분면과 제2,4사분면 중에 어느 쪽에 관측치가 더 많은지 개수를 세는 것이죠. 그렇지만 단순한 개수는 문제가 있습니다. 왜 문제가 발생하는지 1,078개의 아빠 키와 아들키 데이터에서 뽑은 4개의 데이터를 예로 보겠습니다.

아빠키(cm)아들키(cm)
160160
170180
180170
190190
  • 이 데이터를 숫자 대신에 산점도에 표현해보면 다음과 같습니다.



  • 두 평균 보조선이 만나는 중심에서 멀리 있을 수록 값이 확연히 차이 나면서 더 큰 힘을 갖기 때문에 아빠 키와 아들 키가 관련이 있는 것 처럼 보입니다.
  • 관측치가 중심에서 멀리 떨어져 있을수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요합니다. 힌트는 사각형입니다.




part 1

차이를 확인하는 데이터 요약

0.000012%의 꿈 로또

  • 45개의 숫자 중 6개를 뽑는 방법의 가짓수를 구해야 합니다.
  • 고등학교 통계 시간에 배운 조합을 써보면 다음 식과 같습니다.

확률

  • 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데요. 통계에서는 이것들 사건(Event)이라고 부릅니다. 확률은 바로 이 사건이 현실이 될 가능성을 0부터 1사이의 숫자로 표현한 것이고요.
  • 다시 말하자면 어떤 불확실성의 정도를 0부터 1 사이의 숫자로 표현한 것을 확률(Probability)이라고 합니다.
  • 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친근하죠.
  • 확률 0%는 불가능, 100%는 필연을 의미합니다.
  • 논리적으로 혹은 수리적으로 계산한 확률을 이론적(Theorical)확률 이라고 합니다.
  • 사건을 직접 관찰하거나 모의 실험(Somilation)을 통해서 계산된 확률을 경험적(Empirical)확률이라고 합니다.
  • 낮 12시에 백화점에 들어온 사람이 남자일 확률이 궁금하다고 해서 아무리 논리적으로 접근해봐야 소용없습니다. 실제로 12시에 백화점을 가서 입구에 앉아 들어오는 사람들의 성별을 기록하고 경험적 확률을 계산할 수밖에 없습니다.

확률을 활용한 당첨 번호 예측

  • 각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있었습니다.
  • 그렇다면 확률 0.133과 기회 53번을 곱하면 약 7.07이니까, 각 번호가 1년동안 7번 정도는 나왔을 것으로 기대할 수 있습니다.
  • 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값을 기대값(Expectation)이라고 합니다.

데이터 분석화 확률

  • 확률은 데이터 분석에서 다양하게 활용되는데, 그게 두 가지로 분류할 수 있습니다.
    • 첫 번째, 어떤 관심 있는 확률이 궁금할 때입니다. 하는 일마다 성공하는 사람도 있지만 손만 대면 실패하는 사람도 있습니다. 자기계발서에서는 성공의 요인을 찾지만, 통계는 성공의 확률을 계산합니다. 성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형(Probability model)을 만듭니다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴볼수 있고요.
    • 두 번째, 어떤 차이가 의미가 있는지 없는지 궁금할 때입니다. 모두가 완전히 똑같지 않기 때문에 차이는 항상 존재합니다. 문제는 이 차이가 어쩌다 생길 수 있는 수준의 미세한 차이인지 아니면 우연이라 하기엔 너무 큰 차이인지 따져 봐야 한다는 겁니다.
    • 예를 들어, 주변의 친구 8명을 대상으로, 남자 4명중 2명이 안경을 쓰고 있고, 여자 4명 중 1명이 안경을 쓰고 있으므로 '25% 포인트'의 큰 차이가 있다고 할 수는 없겠죠 하지만 한국 남성의 50%가 안경을 쓰고 여성은 25%만 안경을 쓴다면 이 '25% 포인트'의 차이는 따져 봐야 할 문제가 됩니다.이처럼 똑같은 차이라도 1만명, 10만명으로부터 계산된 차이라면 훨씬 더 큰 의미를 가질 겁니다. 통계는 이런 차이의 정도도 확률로 표현합니다. 확률이 1에 가까울수록 충분히 있음직한 흔한 차이를 의미하고, 확률이 0에 가까울수록 매울 드물게 일어나는 차이를 의미하죠.
  • 이렇게 통계는 불확실성을 설명하기 위해서 확률을 사용합니다. 그 결과 0부터 1사이의 숫자로 표현하지만, 통계는 그 과정에서 변수의 관계를 확인하고 숫자로 표현합니다.
  • 지금까지 하나의 변수가 어떤 차이를 가지고 있는지 요약을 통해 살펴 봤다면, PART 2에서는 그 차이를 설명하기 위해서 변수 간의 관계를 어떻게 확인하고 표현하는지를 살펴본 다음, 간단한 통계 모형들을 활용해 변수의 차이를 설명하는 개념들에 대해서 이야기 해보겠습니다.


+ Recent posts