part 2

차이를 설명하는 통계 개념

범인은 이 안에 있다.

  • 차이는 아무 이유 없이 그냥 벌어지는게 아닙니다. 반드시 원인이 있기 마련이죠. 그리고 그 원인은 바로 데이터 안에 있습니다.
  • 결국 데이터 분석은 변수들을 활용해서 논리적으로 차이를 설명하는 과정입니다.그 첫 단계사 바로 변수간의 관계 탐색입니다.
  • 데이터 속에 있는 여러 변수 중 에서 차이를 확인하고 설명하려 하는 변수를 관심변수 라고 합시다.
  • 나머지 변수들은 이 관심 변수의 차이를 설명해 줄수 있는 변수라는 의미에서 설명변수 라고 합시다.
  • 모든 것을 숫자로 표현하는 통계는 이 알수 없는 부분 조차 수식으로 표현할 수 있습니다. PART2에서는 이와 같은 차이를 설명하기 위한 변수의 관계에 초점을 맞추고 PART3에서는 차이를 입증하기 위한 테스트를 중심으로 이야기해보겠습니다.

부전자전, 유전 연결고리

  • 아무래도 아빠 키가 크면 아들 키도 크겠죠?

산점도

  • 아빠키와 아들키의 관계를 확인하기 위해서는 데이터가 필요합니다.
  • 그래서 1,078 가족의 아빠 키와 아들키를 정리한 데이터를 준비했습니다.
기록번호아빠키(cm)아들키(cm)
1162.2151.8
2160.7160.6
.........
1,077179.7176.0
1,078178.6170.2
  • 이 데이터를 가지고 아빠 키가 크면 아들 키도 크고, 아빠 키가 작으면 아들 키도 작다는 키의 유전적 관계를 숫자로 증명하면 됩니다.
  • 어떻게 해야할까요? 먼저 데이터는 변수와 관측치로 구성되어 있다는 점을 다시 상기시킵니다. 그리고 이 데이터에는 2개의 변수와 1,078개의 관측치가 있습니다.
  • 어렵게 말로 표현했지만, 키 데이터를 표현한 그림은 생각보다 간단합니다.



  • 가로축에는 아빠 키를, 세로축에는 아들 키를 뒀습니다. 따라서 자연스럽게 2차원 공간이 만들어졌으며 각 관측치는 이 공간 속에 하나의 점으로 찍혀 있습니다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot) 라고 합니다.
  • 패턴을 조금 더 쉽게 찾기 위해서 보조선 두개를 그어볼까요?
  • 아빠의 평균키를 171.9cm를 수직으로 그리고, 아들 키의 평균 174.5cm를 수평선으로 그려봅시다.

  • 수평선과 수직선에 의해서 공간은 4개로 나눠집니다. 그래서 이를 가리켜 사분면(Quadrant) 이라고 부릅니다.

  • 오른쪽 위부터 시계반향 순서대로 1, 2, 3, 4사분면이라고 부릅니다.

  • 제1사분면에 속하는 가족은 아빠도 아들도 평균 키가 습니다. 제3사분면은 아빠도 아들도 평균키가 작네요. 이 두사분명은 아들 키와 아빠키는 관련이 있다는 주장에 힘이 됩니다. 반대로 제2,4사분면에 있는 아들과 아빠는 이 주장에 반하는 데이터를 보입니다.

  • 그래프를 보면 확실히 제1,3사분면에 점이 많은것 을 볼 수 있습니다. 즉, 아빠키와 아들 키는 밀접한 관련이 있는 것으로 보입니다.

  • 그러나 우리는 이 생각을 좀 더 명확한 숫자로 표현해야 합니다.

  • 가장간단한 방법은 제1,3사분면과 제2,4사분면 중에 어느 쪽에 관측치가 더 많은지 개수를 세는 것이죠. 그렇지만 단순한 개수는 문제가 있습니다. 왜 문제가 발생하는지 1,078개의 아빠 키와 아들키 데이터에서 뽑은 4개의 데이터를 예로 보겠습니다.

아빠키(cm)아들키(cm)
160160
170180
180170
190190
  • 이 데이터를 숫자 대신에 산점도에 표현해보면 다음과 같습니다.



  • 두 평균 보조선이 만나는 중심에서 멀리 있을 수록 값이 확연히 차이 나면서 더 큰 힘을 갖기 때문에 아빠 키와 아들 키가 관련이 있는 것 처럼 보입니다.
  • 관측치가 중심에서 멀리 떨어져 있을수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요합니다. 힌트는 사각형입니다.


+ Recent posts