생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 10일차 - 차이를 설명하는 통계 개념 - 늬가하면 나도 한다.

개발의 여름 2018. 3. 4. 11:53

part 2

차이를 설명하는 통계 개념

늬가하면 나도 한다.

  • 두 연속형 변수는 상관계수로 관계를 확인할 수 있습니다. 그러나 두 범주형 변수의 관계는 상관계수로 구할 수가 없습니다.
  • 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이죠. 게다가 상관계수가 설명하는 함께 커지거나 반대로 함께 작아지는 관계는 범주형 변수들을 설명하기에는 어색한 개념입니다.
  • 상관계수와는 다릉 방법을 써서 두 범주형 변수 사이에 어떤 관계가 있는지 확인해야합니다.
  • 시험기간에 고생하는 학생들을 위해서 뜬금없지만 간식을 준비했습니다. 케이크와 햄버거를 넉넉히 사고 마실 거리도 준비했습니다. 커피와 사이다 입니다. 학생들에게 케이크와 햄버거 중에 하나를 선택하고, 커피와 사이다 중에 하나를 선택하라고 한다면 학생들은 어떤 조합을 더 많이 선택할까요?
  • 아무래도 달달한 케이크에는 풍미를 더해주는 커피가 어울리고, 기름진 패티가 들어 있는 햄버거에는 탄산음료가 제격이죠! 많은 학생들이 (케이크, 커피), (햄버거, 사이다) 조합을 선택했을것 같네요.
  • 이것이 바로 범주형 변수의 관계, 좀더 정확하게는 두 범주형 변수의 수준 간의 관계입니다. 그럼 우리는 어떻게 이 관계를 확인하고 표현할 수 있을까요?

교차표

  • 변수는 데이터 공간 속에서 축을 의미합니다.
  • 이러한 2차원 표를 교차표(Contingency Table) 라고 부릅니다.
  • 교차표를 좀 더 쉽게 이해하기 쉽도록 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표로 정리했습니다.
금매달은메달동매달
26회 아테네9129
29회 베이징13109
30회 런던1387
31회 라우939
  • 그러나 교차표는 단순히 요약만을 위한 것은 아닙니다. 교차표에서는 수준들의 관계를 살펴볼 수 있습니다.
  • 이것을 위해 행 합계와 열 합계를 계산해봅시다.
금매달은메달동매달행합계
26회 아테네912930
29회 베이징1310932
30회 런던138728
31회 라우93921
열합계443334111

헹 백분율과 열 벡븐율

금매달은메달동매달행합계
26회 아테네0.300.400.301.00
29회 베이징0.410.310.281.00
30회 런던0.460.290.251.00
31회 라우0.430.140.431.00
열합계0.400.300.301.00
  • 행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것을 행백불율 이라고 합니다.
  • 행 백분율을 구해보면 전반적인 열(메달)비중 패턴과 다르게, 각행(대회)이 어떤 열과 조금 더 혹은 조금 덜 관련이 있는지 살펴볼 수 있습니다.
  • 그렇다면 이번에는 반대로 열 합계를 1로 봤을 때 각행의 비중이 얼마인지 계산한 열 백분율을 계산해보겠습니다. 각 메달의 합계를 1로 봤을 떄 어떤 대회에서 메달이 많이 나왔는지를 살펴 보는 것이죠.
금매달은메달동매달행합계
26회 아테네0.200.360.260.27
29회 베이징0.300.300.260.29
30회 런던0.300.240.210.25
31회 라우0.200.190.260.19
열합계1.001.001.001.00
  • 이렇게 열 백분율에서도 다른 수준들에 비해서 조금 더 관련이 깊은 행들이 있습니다.

열지도

  • 그런데 만약 두 범주형 변수에 수준이 10개씩 있어서 무려 100개의 숫자를 살펴봐야 한다면 어떻까요?
  • 숫자가 많아져 보기도 어렵고 정리하는 것도 일 입니다.
  • 그래서 색깔을 활용해서 열지도(heatmap) 를 그립니다.

연령대서울부산대구인천광주대전울산세종경기강원충북충남전북전남경북경남제주
0~438413310013368715914600586996767711215530
5~936812810413374735614620637198797510715832
10~14401142121138847958126437277100918511716534
15~1954320416517711311177127879710613512311116320739
20~2468124117619611412577148051051081361219416319436
25~297222041411809010070117317787114927613716929
30~348242331602151071108617904861021411059816422239
35~3976824117522611611591209949610814811811017224343
40~448092642082461301309919111611612216014113019827552
45~4979027922125213013110914109212313115914414221328652
50~5476729321625411612310513101412712915914314422127548
55~59749307195224104112911186813112214814014221825843
60~645582381431437076598567948811110811017018630
65~6943617910510557553864207064929510113213825
70~7433813985814544275345716283829712111721
75~79226976360323218426158527570851069817
80~8412253373619201131553232504754676212
85~81322125131372104232031303542388



  • 교차표로 잘 정리되었지만 종이를 가득 채운 306개의 숫자에서 어떤 패턴이 있는지 확인하는 것을 거의 불가능하죠.
  • 그러나 각 시도별 연령대 구성비를 의미하는 열 백분율을 계산하고 열지도로 표현하면 훨씬 효과적으로 정보를 확인 할 수 있습니다.
  • 지역을 막론하고 40대롸 50대의 색이 전체적으로 짙습니다. 그리고 15세 미만 인구는 색이 연하네요.
  • 저출산 문제와 곧 닥쳐올 인구 고령과 위기를 잘 보여주는 열 지도 입니다.

독립

  • 일반적으로 케이크는 커피, 햄버거는 사이다와 어울린다고 생각하지만, 커피 입장에서는 항상 케이크와 엮이는 것이 불만일 수 있습니다.
  • 종속(Dependence) 되어 있는 것이죠.
  • 둡 변수가 이런 종속적인 관계가 아니라 서로 얽메이지 않고 완전히 남남인 관계를 독립(Independence)** 이라고 부릅니다.
  • 단순히 평균을 구하는 것이 아니라 행 비중, 열비중에 따라 가중치를 준다음 실제 데이터와의 값의 차이를 살펴보겠습니다.
  • 만약 실제 교차표가 독립을 가정한 교차표롸 비슷한 값을 가진다면 표에서 나타난 차이들은 대부분 0의 값을 가집니다.
  • 반대로 무언가 차이가 있다면 차이값들은 0에서 멀어지고, 교차표의 변수가 독립이 아니라는 것을 의미합니다.
  • 그러나 이 차이값을 하나하나 살펴가며 독립인지 아닌지 판단할 기준이 필요합니다.
  • 그렇지만 아직 다룰 수 없는 부분이니 이 이야기는 PART3에서 다시하고, 이제부터는 변수들이 이런 관계를 어떻게 활용하는지 살펴 보겠습니다.