범인은 이 안에 있다.
- 차이는 아무 이유 없이 그냥 벌어지는게 아닙니다. 반드시 원인이 있기 마련이죠. 그리고 그 원인은 바로 데이터 안에 있습니다.
- 결국 데이터 분석은 변수들을 활용해서 논리적으로 차이를 설명하는 과정입니다.그 첫 단계사 바로 변수간의 관계 탐색입니다.
- 데이터 속에 있는 여러 변수 중 에서 차이를 확인하고 설명하려 하는 변수를 관심변수 라고 합시다.
- 나머지 변수들은 이 관심 변수의 차이를 설명해 줄수 있는 변수라는 의미에서 설명변수 라고 합시다.
- 모든 것을 숫자로 표현하는 통계는 이 알수 없는 부분 조차 수식으로 표현할 수 있습니다. PART2에서는 이와 같은 차이를 설명하기 위한 변수의 관계에 초점을 맞추고 PART3에서는 차이를 입증하기 위한 테스트를 중심으로 이야기해보겠습니다.
부전자전, 유전 연결고리
- 아무래도 아빠 키가 크면 아들 키도 크겠죠?
산점도
- 아빠키와 아들키의 관계를 확인하기 위해서는 데이터가 필요합니다.
- 그래서 1,078 가족의 아빠 키와 아들키를 정리한 데이터를 준비했습니다.
기록번호 | 아빠키(cm) | 아들키(cm) |
---|---|---|
1 | 162.2 | 151.8 |
2 | 160.7 | 160.6 |
... | ... | ... |
1,077 | 179.7 | 176.0 |
1,078 | 178.6 | 170.2 |
- 이 데이터를 가지고 아빠 키가 크면 아들 키도 크고, 아빠 키가 작으면 아들 키도 작다는 키의 유전적 관계를 숫자로 증명하면 됩니다.
- 어떻게 해야할까요? 먼저 데이터는 변수와 관측치로 구성되어 있다는 점을 다시 상기시킵니다. 그리고 이 데이터에는 2개의 변수와 1,078개의 관측치가 있습니다.
- 어렵게 말로 표현했지만, 키 데이터를 표현한 그림은 생각보다 간단합니다.
- 가로축에는 아빠 키를, 세로축에는 아들 키를 뒀습니다. 따라서 자연스럽게 2차원 공간이 만들어졌으며 각 관측치는 이 공간 속에 하나의 점으로 찍혀 있습니다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot) 라고 합니다.
- 패턴을 조금 더 쉽게 찾기 위해서 보조선 두개를 그어볼까요?
- 아빠의 평균키를 171.9cm를 수직으로 그리고, 아들 키의 평균 174.5cm를 수평선으로 그려봅시다.
수평선과 수직선에 의해서 공간은 4개로 나눠집니다. 그래서 이를 가리켜 사분면(Quadrant) 이라고 부릅니다.
오른쪽 위부터 시계반향 순서대로 1, 2, 3, 4사분면이라고 부릅니다.
제1사분면에 속하는 가족은 아빠도 아들도 평균 키가 습니다. 제3사분면은 아빠도 아들도 평균키가 작네요. 이 두사분명은 아들 키와 아빠키는 관련이 있다는 주장에 힘이 됩니다. 반대로 제2,4사분면에 있는 아들과 아빠는 이 주장에 반하는 데이터를 보입니다.
그래프를 보면 확실히 제1,3사분면에 점이 많은것 을 볼 수 있습니다. 즉, 아빠키와 아들 키는 밀접한 관련이 있는 것으로 보입니다.
그러나 우리는 이 생각을 좀 더 명확한 숫자로 표현해야 합니다.
가장간단한 방법은 제1,3사분면과 제2,4사분면 중에 어느 쪽에 관측치가 더 많은지 개수를 세는 것이죠. 그렇지만 단순한 개수는 문제가 있습니다. 왜 문제가 발생하는지 1,078개의 아빠 키와 아들키 데이터에서 뽑은 4개의 데이터를 예로 보겠습니다.
아빠키(cm) | 아들키(cm) |
---|---|
160 | 160 |
170 | 180 |
180 | 170 |
190 | 190 |
- 이 데이터를 숫자 대신에 산점도에 표현해보면 다음과 같습니다.
- 두 평균 보조선이 만나는 중심에서 멀리 있을 수록 값이 확연히 차이 나면서 더 큰 힘을 갖기 때문에 아빠 키와 아들 키가 관련이 있는 것 처럼 보입니다.
- 관측치가 중심에서 멀리 떨어져 있을수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요합니다. 힌트는 사각형입니다.
'생활데이타 > 이토록 쉬운 통계&R' 카테고리의 다른 글
이토록 쉬운 통계&R 10일차 - 차이를 설명하는 통계 개념 - 늬가하면 나도 한다. (0) | 2018.03.04 |
---|---|
이토록 쉬운 통계&R 9일차 - 차이를 설명하는 통계 개념 - 부전자전, 유전 연결고리 2 (0) | 2018.03.02 |
이토록 쉬운 통계&R 7일차 - 차이를 확인하는 데이터 요약 - 0.000012%의 꿈 로또 (0) | 2018.02.27 |
이토록 쉬운 통계&R 6일차 - 차이를 확인하는 데이터 요약 - 먹고싶은거 먹어, 난 짜장 (0) | 2018.02.26 |
이토록 쉬운 통계&R 5일차 - 차이를 확인하는 데이터 요약 - 물수능과 불수능 (0) | 2018.02.22 |