part 1
차이를 확인하는 데이터 요약
더치페이와 N빵
평균
- 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값을 평균(Mean) 이라고 합니다.
- x위에 "모두 같다"라는 의미로 바(-)를 얹어 표현합니다.
- 우리에게 너무나 익숙한 평균속에는 모든 사람이 평등하거나 모든 사람들에게 공평하다는 개념이 들어 있습니다.
- 그러나 평균을 계산하는 순간 역설적이게도 불공평한 현실을 깨닫게 됩니다.
- 키가 170cm인 남자는 대한민국 성인 남성의 평균 키가 174cm라는 것을 아는 순간 시무룩해집니다.
- 시험에서 60점을 받아서 눈물이 나다가도 평균 점수가 30점이라는 것을 알게 되면 입가에 미소가 번지겠죠?
- 이처럼 평균을 계싼하는 순간, 데이터 속에 있던 차이가 보입니다.
분산
- 분산은 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산합니다.
1단계 각각의 관측치에서 평균을 뺍니다. 평균으로부터 얼마나 차이가 나는지를 계산합니다.
2단계 1단계에서 계산한 값을 제곱합니다.
3단계 2단계까지는 i번째 관측치 하나에 대한 계산이였는데 3단계에서는 모든 n개 관측치에 대해서 똑같은 계산을 하고, 그 결과를 모두 더합니다. 분산이 한 변수의 특징을 설명하는 것이 아니라 모든 변수의 특징을 설명하는 것이니 모든 관측치를 다 활용하는 것이죠.
4단계 3단계에서 구한 합계를 n-1로 나눕니다. 깐깐한 통계한자들이 n이 아니라 n-1로 나누는게 더 좋다는 것을 밝혀버려서 n-1로 나누게 됐지만, 관측치가 많으면 n으로 나누는 것과 큰 차이가 없습니다.
물론 어려운 제곱 말고 절댓값을 쓸 수도 있습니다.
부호를 없애는 데는 절대값이 제일 간단하지만 이론적으로는 '미분이 가능한' 분산을 더 선호합니다.
물론 현실적인 이유도 있습니다. 평균에서 100명이 100원씩 차이를 보이는 것과 2명이 5,000원의 차이를 보이는 것 모두 절댓값으로는 10,000원이라는 같은 차이를 보입니다.
100 * 100원 = 2 * 5,000원 = 10,000원
- 그렇지만 두 번째의 경우가 좀 더 불평등하지 않나요? 분산에 사용된 제곱합을 계산하면 다른 결과가 나옵니다.
100*(100원)제곱 = 1,000,000원 제곱 < 2 * (5,000)제곱 = 50,000,000원 제곱
표준편차
- 그러나 분산은 치명적인 단점이 있습니다. 바로 단위(unit)입니다.
- 평균이 만원이라는 것은 쉽게 이해되지만 5,875,000(원제곱)이라는 큰 숫자의 분산은 납득이 어렵습니다.
- 큰 숫자도 문제지만 더 큰 문제는 원제곱입니다. 우리가 사는 세상 어디서도 원제곱을 쓰는 곳은 없습니다.
- 통계학자가 차이를 설명하기 위해서 만든어 낸 단위죠.
- 어쩔 수 없이 그대로 써야 할까요? 아니 제곱근으로 해결할 수 있습니다.
5,875,000(원제곱)의 제곱근 = 2,424원
- 마법처럼 단위가 원제곱에서 원으로 돌아오고 엄청나게 크던 숫자도 뭔가 납득한 만한 수준으로 줄어들었습니다.
- 분산에 제곱근을 씌워서 단위 문제를 해결한 이 숫자를 표준편차(Standard deviation) 라고합니다.
- 표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이죠.
- 두 값의 의미는 크게 다르지 않지만, 표준편차가 훨씬 덜 부담스럽습니다.
'생활데이타 > 이토록 쉬운 통계&R' 카테고리의 다른 글
이토록 쉬운 통계&R 6일차 - 차이를 확인하는 데이터 요약 - 먹고싶은거 먹어, 난 짜장 (0) | 2018.02.26 |
---|---|
이토록 쉬운 통계&R 5일차 - 차이를 확인하는 데이터 요약 - 물수능과 불수능 (0) | 2018.02.22 |
이토록 쉬운 통계&R 3일차 - 차이를 확인하는 데이터 요약 - 순서대로 한줄서기 (0) | 2018.02.13 |
이토록 쉬운 통계&R 2일차 - 차이를 확인하는 데이터 요약 - 줌 아웃, 날줄과 씨줄 (0) | 2018.02.09 |
이토록 쉬운 통계&R 1일차 (0) | 2018.02.06 |