생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 9일차 - 차이를 설명하는 통계 개념 - 부전자전, 유전 연결고리 2

개발의 여름 2018. 3. 2. 01:12

part 2

차이를 설명하는 통계 개념

부전자전, 유전 연결고리

상관관계

  • 관측치가 중심에서 멀리 떨어져 있다는 것은 평균키에서 멀리 떨어져 있다는 것을 의미합니다. 따라서 두 변수의 관계를 표현할 숫자를 계한 할 때 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야합니다.
  • 그래서 아빠 키의 평균으로부터의 거리와 아들 키의 평균으로 부터의 거리를 계산해서 두 값을 곱합니다. 그럼 키가 평균으로부터 멀리 떨어져 있을수록 그 값은 커지고, 평균과 가까워질수록 작아집니다. 그림으로 표현해볼까요?

(그림1)



  • 각 데이터의 경우 관측치 개수만큼, 즉 1,078개의 사각형 면적을 계산한 것이죠.
  • 이 사각형들을 활용해서 변수의 관계를 하나의 숫자로 표현해야 합니다.
  • 복잡할 것 같지만, 아주 간단한 방법이 있습니다. 사각형 면적의 평균을 계산하는 것이죠.
  • 만약 사각형의 면적이 양수라면 제1,3사분면에 있는 관측치들의 영향력이 세고, 음수라면 제2,4사분면에 있는 관측치들이 영향력이 센것이죠.
  • 사격형 면적의 평균을 계산한 것은 이번이 처음이 아닙니다. 한변수의 분산을 구할 때 정사각형 면적을 다 더한 다음(관측치의 개수-1)로 나웠었죠. 바로 분산이었습니다.


  • 이때까진 하나의 변수에 대해서만 살펴봤지만, 우리는 지금 두 변수의 관계를 살펴보고 있습니다. 그래서 x만고 또 다른 변수 y까지 2개의 변수를 활용하는 것이죠.
  • (xi-x평균)와 (yi-y평균)를 곱해서 직사각형의 넓이를 구하고, 평균을 계산하는 것입니다.
  • 그리고 이 값을 '변수 x와 y를 함께 사용해서 계산한 분산'이라는 의미에서 공분산(Covariance) 이라고 부릅니다.


  • 공분산을 계산해보면 25cm^2 이라는 양의 값이 나옵니다.


  • 공분산의 값이 양수일 때 통계는 두 변수가 양의 상관관계 가 있다고 합니다.
  • 치킨과 맥주처럼 '보완재'의 개념과 비슷합니다.
  • 반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계 가 있다고 합니다.
  • 아이폰과 갤럭시와 같이 '대체재'의 개념과 비슷합니다.
  • 그런데 한가지 문제가 있습니다. 우리가 계산한 공분산은 25cm^2입니다. '25'라는 숫자에서는 안타갑게도 양수라는 것 외에는 어떤 정보도 얻을 수가 없죠.
  • 게다가 cm단위로 계산한 아빠들와 아들들의 키를 m단위로 바꾸면, 이 값은 10,000분의 1로 줄어든 0.0025m^2가 됩니다.
  • 단위에 따라 공분산의 값이 변하기 때문에 부호 말고는 정보를 얻기가 어렵습니다.
  • 그렇지만 우리는 이미 단위 문제를 해결할 수 있는 방법을 배웠습니다. 바로 표준화입니다.
  • 공분산을 계산하기 전에 먼저 두 변수를 각각 표준화한 다음 다시 공분산을 계산해 봅시다.

상관계수

  • 아빠 키와 아들 키를 각각의 평균과 표준편차를 활용해서 표준화할 수 있습니다.
  • 사실 공분산의 계산 과정에서 평균을 빼주는 중심화를 이미 적용했기 때문에, 표준편차를 나눠주는 척도화만 해주면 됩니다.
번호아빠 키(cm)아들 키(cm)표준화된 아빠 키표준화된 아들 키
1162.2151.8-1-3.2
2160.7151.8-1-1.9
...
1,077179.7176.01.10.2
1,078178.6170.21.0-0.6
  • 그럼 표준화된 결과를 먼저 그림으로 살펴봅시다.


  • 아빠 키와 아들키 대신 표준화된 아빠 키 x'과 역시 표준화된 아들 키 y'의 공분산을 구해보면 0.5가 됩니다.


  • 이처럼 표준화된 두 변수의 공분산을 상관계수(Correlation Coefficient) 라고 부릅니다. 그리고 변수 x와 y의 상관계수 rxy는 표준화와 공분산을 한데 묶어 다음처음 수식으로 표현할 수 있습니다.


  • 아빠 키와 아들 키의 상관계수 0.5는 앞에서 살펴본 25cm^2와 크게 다르지 않은 것 같지만 매우 큰 차이가 있습니다.
  • 먼저 cm^2라는 면적의 단위가 사라졌기 때문에 다른 변수들의 상관계수와 비교할 수 있습니다.
  • 그리고 이제는 '0.5'라는 숫자가 큰 의미를 지닙니다. 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 떄는 -1이기 떄문입니다.
  • 두 변수가 가장 닮았을 떄가 언제일까요? 똑같을 떄 입니다. y의 자리에 x를 넣으면 결국 표준화된 x의 분산을 구하는 것과 식이 똑같아지고, 표준화된 변수의 특성에 따라 상관계수는 1이 됩니다.
  • 그렇다면 반대로 두 변수가 가장 다를 떄는 언제일까요? 어떤 변수와 그 변수에 -1을 곱한 새로운 변수는 무조건 정 반대로 움직입니다. x와 -x는 완전히 반대로 움직이고 역시 수식에서 계산해보면 앞의 경우와 "-"만 차이가 나기 떄문에 상관계수는 -1이 됩니다.
  • 그래서 두 연속형 변수로부터 계산된 상관계수는 항상 -1부터 1사이의 값을 갖습니다. 두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.