part 2
차이를 설명하는 통계 개념
최저가, 알고 보니 옵션가
- 인터넷에서 서로가 최저가라고 외치는 곳은 많지만, 실제로 최저가를 찾는건 힘듭니다. 최저가인 줄 알았는데 옵션에 따라 추가금이 붙거든요.
조건부 확률과 조건부 평균
- 아빠 키-아들키 데이터를 떠올려 봅니다. 그중 아들 키라는 변수 속에 있는 1,078명의 아들들을 생각해봅시다.
- 이 중 누군가는 키가 150cm도 안 되고, 또 다른 누군가는 200cm가 넘습니다. 이들 사이에는 무언가 차이가 있지만 이유를 알 수는 없습니다.
- 평균키를 계산했지만 '174.5cm'라는 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못합니다.
- 즉, 관심 변수는 자기 자신을 통해서는 평군과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선입니다.
- 왜 그런 차이가 나는지 이유를 설명할 수는 없죠. 그래서 '왜'를 설명할 수 있는 다른 변수가 필요합니다.
- 앞서 상관계수를 통해서 아빠 키와 아들 키가 0.5라는 양의 상관관계를 가지는 것을 확인했습니다.
- 전체 아들 중에서 키가 180cm 이상일 확률은 22%지만 '아빠 키가 평균 이상' 이라는 조건(Condition) 을 추가하면, 확률은 35%로 높아집니다.
- 이렇게 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균 이라고 합니다.
심슨의 역설
- 모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았습니다.
- 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못 된 것 같습니다.
- 그런데 대학측에서 오히려 여자의 합격률이 높다고 주장합니다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 살펴 볼까요?
학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여줍니다. 먼저 A학과를 살펴보면 남자의 합격률은 80%, 여자의 합격률을 90%로 합격률에 차이가 있네요.
그럼 B학과는 어떨까요? B학과 역시 여자의 합격률이 더 높았는데, 뜯어보니 A학과 B학과 모두 여자의 합격률이 10%포인트나 더 높습니다.
분명 남자의 합격률이 더 높았는데, 뜯어 보니 A학과 B학과 모두 여자의 합격률이 10% 포인트나 높습니다.
이 예제는 절대 모순이나 말장난이 아닙니다. 심슨의 역설(Simpson's paradox) 로 알려진 실제 일화 입니다.
즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과 입니다.
만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 설병과 지원 학과가 완전히 독립이였다면 A학과와 B학과에 지원한 남자와 여자의 수가 50명으로 동일했을 겁니다.
그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나왔던 것이죠.
결국 데이터 분석은 차이를 확인하고 설명하는 과정입니다. 보통 평균이나 교차표를 계싼하면 관심 변수의 특성을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 담겨 있습니다.
앞서 우리는 상관계수나 교차표를 통해서 관심 변수화 설명변수가 어떤 관계를 맺고 있는지 확인하는 방법을 살펴봤습니다. 그리고 이제 조건부 확률과 조건부 평균으로 넘어오면서 둘 사이의 관계를 조금 더 명확하게 알 수 있었습니다.
설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴 볼 수 있죠. 그리고 이 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있습니다.
'생활데이타 > 이토록 쉬운 통계&R' 카테고리의 다른 글
이토록 쉬운 통계&R 13일차 - 차이를 설명하는 통계 개념 - 점심 뭐 먹지?(분산분석) (0) | 2018.03.12 |
---|---|
이토록 쉬운 통계&R 12일차 - 차이를 설명하는 통계 개념 - 아낌없이 주는 의사 결정나무 (0) | 2018.03.10 |
이토록 쉬운 통계&R 10일차 - 차이를 설명하는 통계 개념 - 늬가하면 나도 한다. (0) | 2018.03.04 |
이토록 쉬운 통계&R 9일차 - 차이를 설명하는 통계 개념 - 부전자전, 유전 연결고리 2 (0) | 2018.03.02 |
이토록 쉬운 통계&R 8일차 - 차이를 설명하는 통계 개념 - 범인은 이 안에 있다. / 부전자전, 유전 연결고리 1 (0) | 2018.02.28 |