part 2

차이를 설명하는 통계 개념

최저가, 알고 보니 옵션가

  • 인터넷에서 서로가 최저가라고 외치는 곳은 많지만, 실제로 최저가를 찾는건 힘듭니다. 최저가인 줄 알았는데 옵션에 따라 추가금이 붙거든요.

조건부 확률과 조건부 평균

  • 아빠 키-아들키 데이터를 떠올려 봅니다. 그중 아들 키라는 변수 속에 있는 1,078명의 아들들을 생각해봅시다.
  • 이 중 누군가는 키가 150cm도 안 되고, 또 다른 누군가는 200cm가 넘습니다. 이들 사이에는 무언가 차이가 있지만 이유를 알 수는 없습니다.
  • 평균키를 계산했지만 '174.5cm'라는 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못합니다.
  • 즉, 관심 변수는 자기 자신을 통해서는 평군과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선입니다.
  • 왜 그런 차이가 나는지 이유를 설명할 수는 없죠. 그래서 '왜'를 설명할 수 있는 다른 변수가 필요합니다.
  • 앞서 상관계수를 통해서 아빠 키와 아들 키가 0.5라는 양의 상관관계를 가지는 것을 확인했습니다.
  • 전체 아들 중에서 키가 180cm 이상일 확률은 22%지만 '아빠 키가 평균 이상' 이라는 조건(Condition) 을 추가하면, 확률은 35%로 높아집니다.
  • 이렇게 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균 이라고 합니다.

심슨의 역설

  • 모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았습니다.

성별지원자합격자합격률
남자1006868%
여자1004242%
전체20011055%
  • 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못 된 것 같습니다.
  • 그런데 대학측에서 오히려 여자의 합격률이 높다고 주장합니다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 살펴 볼까요?

학과성별지원자합격자합격률
A학과
남자806480%
여자201890%
B학과
남자20420%
여자802430%
  • 학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여줍니다. 먼저 A학과를 살펴보면 남자의 합격률은 80%, 여자의 합격률을 90%로 합격률에 차이가 있네요.

  • 그럼 B학과는 어떨까요? B학과 역시 여자의 합격률이 더 높았는데, 뜯어보니 A학과 B학과 모두 여자의 합격률이 10%포인트나 더 높습니다.

  • 분명 남자의 합격률이 더 높았는데, 뜯어 보니 A학과 B학과 모두 여자의 합격률이 10% 포인트나 높습니다.

  • 이 예제는 절대 모순이나 말장난이 아닙니다. 심슨의 역설(Simpson's paradox) 로 알려진 실제 일화 입니다.

  • 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과 입니다.


  • 만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 설병과 지원 학과가 완전히 독립이였다면 A학과와 B학과에 지원한 남자와 여자의 수가 50명으로 동일했을 겁니다.

  • 그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나왔던 것이죠.

  • 결국 데이터 분석은 차이를 확인하고 설명하는 과정입니다. 보통 평균이나 교차표를 계싼하면 관심 변수의 특성을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 담겨 있습니다.


  • 앞서 우리는 상관계수나 교차표를 통해서 관심 변수화 설명변수가 어떤 관계를 맺고 있는지 확인하는 방법을 살펴봤습니다. 그리고 이제 조건부 확률과 조건부 평균으로 넘어오면서 둘 사이의 관계를 조금 더 명확하게 알 수 있었습니다.

  • 설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴 볼 수 있죠. 그리고 이 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있습니다.


+ Recent posts