part 2

차이를 설명하는 통계 개념

관측치가 중심에서 멀리 떨어져 있다는 것은 평균키에서 멀리 떨어져 있다는 것을 의미합니다. 따라서 두 변수의 관계를 표현할 숫자를 계한 할 때 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야합니다.
그래서 아빠 키의 평균으로부터의 거리와 아들 키의 평균으로 부터의 거리를 계산해서 두 값을 곱합니다. 그럼 키가 평균으로부터 멀리 떨어져 있을수록 그 값은 커지고, 평균과 가까워질수록 작아집니다. 그림으로 표현해볼까요?

(그림1)

각 데이터의 경우 관측치 개수만큼, 즉 1,078개의 사각형 면적을 계산한 것이죠.
이 사각형들을 활용해서 변수의 관계를 하나의 숫자로 표현해야 합니다.
복잡할 것 같지만, 아주 간단한 방법이 있습니다. 사각형 면적의 평균을 계산하는 것이죠.
만약 사각형의 면적이 양수라면 제1,3사분면에 있는 관측치들의 영향력이 세고, 음수라면 제2,4사분면에 있는 관측치들이 영향력이 센것이죠.
사격형 면적의 평균을 계산한 것은 이번이 처음이 아닙니다. 한변수의 분산을 구할 때 정사각형 면적을 다 더한 다음(관측치의 개수-1)로 나웠었죠. 바로 분산이었습니다.

이때까진 하나의 변수에 대해서만 살펴봤지만, 우리는 지금 두 변수의 관계를 살펴보고 있습니다. 그래서 x만고 또 다른 변수 y까지 2개의 변수를 활용하는 것이죠.
(xi-x평균)와 (yi-y평균)를 곱해서 직사각형의 넓이를 구하고, 평균을 계산하는 것입니다.
그리고 이 값을 '변수 x와 y를 함께 사용해서 계산한 분산'이라는 의미에서 공분산(Covariance) 이라고 부릅니다.

공분산의 값이 양수일 때 통계는 두 변수가 양의 상관관계 가 있다고 합니다.
치킨과 맥주처럼 '보완재'의 개념과 비슷합니다.
반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계 가 있다고 합니다.
아이폰과 갤럭시와 같이 '대체재'의 개념과 비슷합니다.
그런데 한가지 문제가 있습니다. 우리가 계산한 공분산은 25cm^2입니다. '25'라는 숫자에서는 안타갑게도 양수라는 것 외에는 어떤 정보도 얻을 수가 없죠.
게다가 cm단위로 계산한 아빠들와 아들들의 키를 m단위로 바꾸면, 이 값은 10,000분의 1로 줄어든 0.0025m^2가 됩니다.
단위에 따라 공분산의 값이 변하기 때문에 부호 말고는 정보를 얻기가 어렵습니다.
그렇지만 우리는 이미 단위 문제를 해결할 수 있는 방법을 배웠습니다. 바로 표준화입니다.
공분산을 계산하기 전에 먼저 두 변수를 각각 표준화한 다음 다시 공분산을 계산해 봅시다.

번호	아빠 키(cm)	아들 키(cm)	표준화된 아빠 키	표준화된 아들 키
1	162.2	151.8	-1	-3.2
2	160.7	151.8	-1	-1.9
...
1,077	179.7	176.0	1.1	0.2
1,078	178.6	170.2	1.0	-0.6

이처럼 표준화된 두 변수의 공분산을 상관계수(Correlation Coefficient) 라고 부릅니다. 그리고 변수 x와 y의 상관계수 rxy는 표준화와 공분산을 한데 묶어 다음처음 수식으로 표현할 수 있습니다.

아빠 키와 아들 키의 상관계수 0.5는 앞에서 살펴본 25cm^2와 크게 다르지 않은 것 같지만 매우 큰 차이가 있습니다.
먼저 cm^2라는 면적의 단위가 사라졌기 때문에 다른 변수들의 상관계수와 비교할 수 있습니다.
그리고 이제는 '0.5'라는 숫자가 큰 의미를 지닙니다. 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 떄는 -1이기 떄문입니다.
두 변수가 가장 닮았을 떄가 언제일까요? 똑같을 떄 입니다. y의 자리에 x를 넣으면 결국 표준화된 x의 분산을 구하는 것과 식이 똑같아지고, 표준화된 변수의 특성에 따라 상관계수는 1이 됩니다.
그렇다면 반대로 두 변수가 가장 다를 떄는 언제일까요? 어떤 변수와 그 변수에 -1을 곱한 새로운 변수는 무조건 정 반대로 움직입니다. x와 -x는 완전히 반대로 움직이고 역시 수식에서 계산해보면 앞의 경우와 "-"만 차이가 나기 떄문에 상관계수는 -1이 됩니다.
그래서 두 연속형 변수로부터 계산된 상관계수는 항상 -1부터 1사이의 값을 갖습니다. 두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.