차이를 확인하는 데이터 요약

먹고 싶은 거 먹어, 난 짜장

  • 범주형변수는 정해진 갑 중에서하나를 선택해야합니다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간을 없습니다.
  • 짜장면, 짬뽕, 볶음밥과 같이 범주형 변수가 변수가 가질 수 있는 한정적인 값들을 수준(Level) 이라고 합니다.

동전던지기

  • 동전던지기를 예로 들어보겠습니다. 직접 동전을 하나 던졌다가 받은 뒤 앞면인지 뒷면인지 기록해봅시다. 반복 횟수는 10번이고 그림이 나오면 "앞" 숫자가 나오면 "뒤"라고 적습니다.
  • 한눈에 보기 좋게 정렬 개념을 활용해서 값들은 줄 세워 볼까요?


횟수

1

2

4

8

9

10

3

5

6

7

수준(앞/뒤)


  • 수준을 내림차순으로 정렬하고 나니 같은 값, 같은 수준을 가지는 관측치들끼리 나눠집니다.
  • 그럼 이제 10개 중에서 앞면이 몇번 나왔는지, 뒷면이 몇 번 나왔는지 손쉽게 셀 수 있습니다.
  • 표로 정리해보겠습니다.

수준앞면뒷면
횟수64


  • 표로 정리하고 나니 마치 관측치가 2개인 연속현 변수와 비슷하게 생겼습니다.
  • 전체 10개 중에서 앞면은 6번, 뒷면은 4번 나왔습니다.
  • 이론적으로 아주 공정한 상황이였다면 앞면이 5번, 뒷면도 5번 나왔겠지만, 제 동전 던지기에서는 앞면이 더 많이 나왔다는 것을 알 수 있습니다.
  • 지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형변수의 수준 개수가 많으면 숫자만으로는 파악하기 힘듭니다.
  • 그래서 우리는 직관적으로 받아들일 수 있는 그림, 그래프를 활용해서 숫자를 표현하겠습니다.

파이차트와 막대그래프

  • 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖습니다.
  • 중심각의 크기로 전체 중에서 각 수준의 비중에 얼마만큼인지를 표현하는 것이죠.
  • 막대 그래프는 가끔 히스토그램이랑 헷갈리기도 하는데요. 히스토그램은 가로축에 연속형 변수가 들어와서 적절한 구간으로 나누는 중간 과정이 있습니다. 구간 간격을 어떻게 나누느냐에 따라 모양이 달리지기도 하고요.
  • 반면 막대그래프는 가로축에 범주형 변수가 들어오기 때문에 구간으로 나눌 필요가 없습니다.
  • 동전 데이터는 수준이 2개뿐이라서 어떤 그래프든 한눈에 결과를 확인 할 수 있지만, 수준의 수가 늘어나면 파이 차트보다는 막대그래프가 더 효율적입니다.
  • 막대 그래프는 수준이 늘어나도 막대만 추가하면 되지만, 파이 차트의 전체 각도는 360도로 고정되어 있고 수준의 수가 많을 수록 중신각이 잘게 쪼개져서 데이터를 한눈에 보기 어렵기 떄문이죠.


+ Recent posts