생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 16일차 - 차이를 예측하는 통계 개념 - 남자 평균 174.9cm, 여자 평균 162.3cm

개발의 여름 2018. 3. 30. 09:01

part 3

차이를 예측하는 통계 개념

남자 평균 174.9cm, 여자 평균 162.3cm

영국의 한 연구팀에 따르면 지난 100년간 한국 남성의 평균 키가 159.8cm에서 174.9cm로 15.1cm 커졌고, 여성의 평균 키는 142.2에서 162.3cm로 무려 20.1cm나 폭풍 성장헀다고 합니다. 170cm 남자와 160cm 여자의 고민이 깊어집니다 ...

표본평균의 표준편차

  • 데이터의 관측치가 많으면 많은 수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않습니다. 통계학자들이 이 개념을 표현한 것이 바로 표본평균의 표준편차 압니다.

표본평균의 표준편차 계싼

  • 표본평균은 손쉽게 계산할수 있습니다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 되죠.
  • 그럼 표본평균의 표준편차는 어떻게 계산할까요?
  • 현재 우리가 가진 데이터로는 분산을 구하는 것이 불가능합니다. 분산을 구하려면 여러 개의 값이 있어야 하는데, 지금 우리 손에 쉰 데이터는 하나뿐이며 따라서 표본평균도 하나뿐입니다. 그래서 계산이 아니라 추정(Estimation)을 해야 합니다.
  • 표본 분산의 계산 식에는 (xi-E(x))^2 가 있습니다. xi 대신 1/n배 된 xi/n가 들어가면 제곱이 되어 표본 분산은 1/n^2 배 됩니다. 그럼 S^2x/n은 다음 처음 표현되죠.


  • 표본평균의 분산 S^2x는 다음과 같이 n개의 분산의 합으로 추정할 수 있습니다.
  • 표본쳥균의 분산 S^2x은 표본의 분산 S^2x의 1/n배라는 것입니다. 당연히 하나의 값 x의 분산보다 n개 값의 평균인 E(x)가 덜 흔들릴 테고, 따라서 분산이 작습니다. 그리고 그 정도가 관측치의 개수 n에 반비례하는 것을 말합니다. 이제 표본평균의 표준편차를 계산해볼까요? 제곱근만 씌우면 됩니다.


t-값과 t-분포

  • t-분포는 표본평균의 0인이 아닌지 판단할 때 사용합니다. 어떤 맥주는 알코올 도수가 4.2%여야만 팔수 있다고 합니다.
  • 5잔의 샘플을 뽑아 알콜도수를 측정했습니다. (4.15%, 4.19%, 4.2%, 4.21%, 4.23%, 4.27%)
  • 첫번째, 평균을 구하고 두번째 분산을 구합니다.
  • 세번째 단계는 관측치에서 기준값을 뺀 것의 평균, 0.01%를 방금 구한 표본평균의 표준편차 0.02%로 나누는 작업입니다.
  • 0.01%/0.02%, 즉 0.5가 계산 되네요! 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 **t-값(t-value)**이라고 합니다.


  • t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려줍니다.

t-분포


  • v가 t-분포의 모양을 결정하기 때문에 v가 바로 t-분포의 모수입니다. 이를 가르켜 흔히 자유도(Degree of freedom) 라고 부르고 관측치 수에서 1을 빼서 계산합니다.
  • t-값을 구할 떄 차이를 표준화와 비슷한 상대적인 값으로 바꿨습니다. 예제에서처럼 5개와 같이 아주 적은 관측치의 차이를 설명할 수 있도록 고안한 것이 바로 t-분포 입니다.
  • 전체 평균을 알고, 4잔의 도수를 알면 나머지 하나는 바로 계산할 수 있으니까요. 자유도를 1 낮춘 데는 그만한 이유가 있었던 것입니다.

p-값과 t-테스트

  • 분포는 모수가 결정되면 모양이 정해집이나. t-분포의 경우에는 자유도가 4라는 것만 정해지면 t-분포의 모양이 결정될 뿐, 실제 5개의 관측치가 어떤 값을 가지는지는 전혀 상관이 없습니다.
  • t-값인 0.5가 얼마나 큰 차이를 의미하는지 살펴보겠습니다.


  • 자유도가 4인 t-분포에서 0.5라는 값은 0으로부터 그다지 멀리 떨어져 있지 않네요. 컴퓨터가 계산한 p-값은 0.3217입니다. 다시 말해 0.5보다 더 큰 차이가 날 확률이 무려 32.17%나 됩니다. 실제 맥주 도수가 4.2%라고 할 떄 원표나 공정에 따라 맥주 도수가 조금씩 파이가 날 수 있곘죠.
  • 그런데 맥주 5잔으로 테스트 했을 때 평균적으로 0.1% 포인트 차이가 나는건 대수롭지 않다는 이야깁니다. 왜냐면 그것보다 훨씬 큰 차이가 날 가능성이 32%가 넘기 때문이죠!
  • 반대로 평균 도수가 더 낮게 나올 수도 있겠죠? t-값으로 0.5나 -0.5보다 클 확률은 64.34%나 됩니다. -ㅔrkqtdl 0.6434라는 것은 셀제 맥주들의 도수에 문제가 없더라도 표본 10개 중에 예닐곱 개는 도수가 0.01% 포인트 이상 차이가 날 수 있다는 것지요. 유의수준 5%를 고려할 것도 없이 이 데이터의 평균값 차이는 의미가 없습니다.
  • 이처럼 평균값의 차이를 t-값으로 계산하고, t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-검정(t-test) 혹은 영어 표현 그대로 t-테스트라고 합니다. t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-값을 계산했기 때문에 t-검정 이라고 하죠.
t-검정을 위해서 우리가 한 것 단 두가지. 1. 표본평균과 표본평균의 표준편차를 계산하고 기준값을 활용해서 t-값 계산하기. 2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교하기
  • 생각보다 간단하죠? 자, 그렇다면 이제 t-검정을 역으로 활용해 키 평균을 높여버린 영국의 연구팀과 데이터 싸움을 벌여보도록 하겠습니다.