생활데이타/이토록 쉬운 통계&R
이토록 쉬운 통계&R 6일차 - 차이를 확인하는 데이터 요약 - 먹고싶은거 먹어, 난 짜장
개발의 여름
2018. 2. 26. 15:56
차이를 확인하는 데이터 요약
먹고 싶은 거 먹어, 난 짜장
- 범주형변수는 정해진 갑 중에서하나를 선택해야합니다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간을 없습니다.
- 짜장면, 짬뽕, 볶음밥과 같이 범주형 변수가 변수가 가질 수 있는 한정적인 값들을 수준(Level) 이라고 합니다.
동전던지기
- 동전던지기를 예로 들어보겠습니다. 직접 동전을 하나 던졌다가 받은 뒤 앞면인지 뒷면인지 기록해봅시다. 반복 횟수는 10번이고 그림이 나오면 "앞" 숫자가 나오면 "뒤"라고 적습니다.
- 한눈에 보기 좋게 정렬 개념을 활용해서 값들은 줄 세워 볼까요?
횟수 | 1 | 2 | 4 | 8 | 9 | 10 | 3 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|---|---|
수준(앞/뒤) | 앞 | 앞 | 앞 | 앞 | 앞 | 앞 | 뒤 | 뒤 | 뒤 | 뒤 |
- 수준을 내림차순으로 정렬하고 나니 같은 값, 같은 수준을 가지는 관측치들끼리 나눠집니다.
- 그럼 이제 10개 중에서 앞면이 몇번 나왔는지, 뒷면이 몇 번 나왔는지 손쉽게 셀 수 있습니다.
- 표로 정리해보겠습니다.
수준 | 앞면 | 뒷면 |
---|---|---|
횟수 | 6 | 4 |
- 표로 정리하고 나니 마치 관측치가 2개인 연속현 변수와 비슷하게 생겼습니다.
- 전체 10개 중에서 앞면은 6번, 뒷면은 4번 나왔습니다.
- 이론적으로 아주 공정한 상황이였다면 앞면이 5번, 뒷면도 5번 나왔겠지만, 제 동전 던지기에서는 앞면이 더 많이 나왔다는 것을 알 수 있습니다.
- 지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형변수의 수준 개수가 많으면 숫자만으로는 파악하기 힘듭니다.
- 그래서 우리는 직관적으로 받아들일 수 있는 그림, 그래프를 활용해서 숫자를 표현하겠습니다.