생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 4일차 - 차이를 확인하는 데이터 요약 - 더치페이와 N빵

개발의 여름 2018. 2. 15. 02:25

part 1

차이를 확인하는 데이터 요약

더치페이와 N빵

평균

  • 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값을 평균(Mean) 이라고 합니다.

  • x위에 "모두 같다"라는 의미로 바(-)를 얹어 표현합니다.
  • 우리에게 너무나 익숙한 평균속에는 모든 사람이 평등하거나 모든 사람들에게 공평하다는 개념이 들어 있습니다.
  • 그러나 평균을 계산하는 순간 역설적이게도 불공평한 현실을 깨닫게 됩니다.
  • 키가 170cm인 남자는 대한민국 성인 남성의 평균 키가 174cm라는 것을 아는 순간 시무룩해집니다.
  • 시험에서 60점을 받아서 눈물이 나다가도 평균 점수가 30점이라는 것을 알게 되면 입가에 미소가 번지겠죠?
  • 이처럼 평균을 계싼하는 순간, 데이터 속에 있던 차이가 보입니다.

분산

  • 분산은 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산합니다.

  • 1단계 각각의 관측치에서 평균을 뺍니다. 평균으로부터 얼마나 차이가 나는지를 계산합니다.

  • 2단계 1단계에서 계산한 값을 제곱합니다.

  • 3단계 2단계까지는 i번째 관측치 하나에 대한 계산이였는데 3단계에서는 모든 n개 관측치에 대해서 똑같은 계산을 하고, 그 결과를 모두 더합니다. 분산이 한 변수의 특징을 설명하는 것이 아니라 모든 변수의 특징을 설명하는 것이니 모든 관측치를 다 활용하는 것이죠.

  • 4단계 3단계에서 구한 합계를 n-1로 나눕니다. 깐깐한 통계한자들이 n이 아니라 n-1로 나누는게 더 좋다는 것을 밝혀버려서 n-1로 나누게 됐지만, 관측치가 많으면 n으로 나누는 것과 큰 차이가 없습니다.


  • 물론 어려운 제곱 말고 절댓값을 쓸 수도 있습니다.

  • 부호를 없애는 데는 절대값이 제일 간단하지만 이론적으로는 '미분이 가능한' 분산을 더 선호합니다.

  • 물론 현실적인 이유도 있습니다. 평균에서 100명이 100원씩 차이를 보이는 것과 2명이 5,000원의 차이를 보이는 것 모두 절댓값으로는 10,000원이라는 같은 차이를 보입니다.

100 * 100원 = 2 * 5,000원 = 10,000원
  • 그렇지만 두 번째의 경우가 좀 더 불평등하지 않나요? 분산에 사용된 제곱합을 계산하면 다른 결과가 나옵니다.
100*(100원)제곱 = 1,000,000원 제곱 < 2 * (5,000)제곱 = 50,000,000원 제곱


표준편차

  • 그러나 분산은 치명적인 단점이 있습니다. 바로 단위(unit)입니다.
  • 평균이 만원이라는 것은 쉽게 이해되지만 5,875,000(원제곱)이라는 큰 숫자의 분산은 납득이 어렵습니다.
  • 큰 숫자도 문제지만 더 큰 문제는 원제곱입니다. 우리가 사는 세상 어디서도 원제곱을 쓰는 곳은 없습니다.
  • 통계학자가 차이를 설명하기 위해서 만든어 낸 단위죠.
  • 어쩔 수 없이 그대로 써야 할까요? 아니 제곱근으로 해결할 수 있습니다.
5,875,000(원제곱)의 제곱근 = 2,424원
  • 마법처럼 단위가 원제곱에서 원으로 돌아오고 엄청나게 크던 숫자도 뭔가 납득한 만한 수준으로 줄어들었습니다.
  • 분산에 제곱근을 씌워서 단위 문제를 해결한 이 숫자를 표준편차(Standard deviation) 라고합니다.
  • 표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이죠.
  • 두 값의 의미는 크게 다르지 않지만, 표준편차가 훨씬 덜 부담스럽습니다.