차이를 확인하는 데이터 요약
먹고 싶은 거 먹어, 난 짜장
- 범주형변수는 정해진 갑 중에서하나를 선택해야합니다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간을 없습니다.
- 짜장면, 짬뽕, 볶음밥과 같이 범주형 변수가 변수가 가질 수 있는 한정적인 값들을 수준(Level) 이라고 합니다.
동전던지기
- 동전던지기를 예로 들어보겠습니다. 직접 동전을 하나 던졌다가 받은 뒤 앞면인지 뒷면인지 기록해봅시다. 반복 횟수는 10번이고 그림이 나오면 "앞" 숫자가 나오면 "뒤"라고 적습니다.
- 한눈에 보기 좋게 정렬 개념을 활용해서 값들은 줄 세워 볼까요?
횟수 | 1 | 2 | 4 | 8 | 9 | 10 | 3 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|---|---|
수준(앞/뒤) | 앞 | 앞 | 앞 | 앞 | 앞 | 앞 | 뒤 | 뒤 | 뒤 | 뒤 |
- 수준을 내림차순으로 정렬하고 나니 같은 값, 같은 수준을 가지는 관측치들끼리 나눠집니다.
- 그럼 이제 10개 중에서 앞면이 몇번 나왔는지, 뒷면이 몇 번 나왔는지 손쉽게 셀 수 있습니다.
- 표로 정리해보겠습니다.
수준 | 앞면 | 뒷면 |
---|---|---|
횟수 | 6 | 4 |
- 표로 정리하고 나니 마치 관측치가 2개인 연속현 변수와 비슷하게 생겼습니다.
- 전체 10개 중에서 앞면은 6번, 뒷면은 4번 나왔습니다.
- 이론적으로 아주 공정한 상황이였다면 앞면이 5번, 뒷면도 5번 나왔겠지만, 제 동전 던지기에서는 앞면이 더 많이 나왔다는 것을 알 수 있습니다.
- 지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형변수의 수준 개수가 많으면 숫자만으로는 파악하기 힘듭니다.
- 그래서 우리는 직관적으로 받아들일 수 있는 그림, 그래프를 활용해서 숫자를 표현하겠습니다.
파이차트와 막대그래프
- 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖습니다.
- 중심각의 크기로 전체 중에서 각 수준의 비중에 얼마만큼인지를 표현하는 것이죠.
- 막대 그래프는 가끔 히스토그램이랑 헷갈리기도 하는데요. 히스토그램은 가로축에 연속형 변수가 들어와서 적절한 구간으로 나누는 중간 과정이 있습니다. 구간 간격을 어떻게 나누느냐에 따라 모양이 달리지기도 하고요.
- 반면 막대그래프는 가로축에 범주형 변수가 들어오기 때문에 구간으로 나눌 필요가 없습니다.
- 동전 데이터는 수준이 2개뿐이라서 어떤 그래프든 한눈에 결과를 확인 할 수 있지만, 수준의 수가 늘어나면 파이 차트보다는 막대그래프가 더 효율적입니다.
- 막대 그래프는 수준이 늘어나도 막대만 추가하면 되지만, 파이 차트의 전체 각도는 360도로 고정되어 있고 수준의 수가 많을 수록 중신각이 잘게 쪼개져서 데이터를 한눈에 보기 어렵기 떄문이죠.
'생활데이타 > 이토록 쉬운 통계&R' 카테고리의 다른 글
이토록 쉬운 통계&R 8일차 - 차이를 설명하는 통계 개념 - 범인은 이 안에 있다. / 부전자전, 유전 연결고리 1 (0) | 2018.02.28 |
---|---|
이토록 쉬운 통계&R 7일차 - 차이를 확인하는 데이터 요약 - 0.000012%의 꿈 로또 (0) | 2018.02.27 |
이토록 쉬운 통계&R 5일차 - 차이를 확인하는 데이터 요약 - 물수능과 불수능 (0) | 2018.02.22 |
이토록 쉬운 통계&R 4일차 - 차이를 확인하는 데이터 요약 - 더치페이와 N빵 (0) | 2018.02.15 |
이토록 쉬운 통계&R 3일차 - 차이를 확인하는 데이터 요약 - 순서대로 한줄서기 (0) | 2018.02.13 |