생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 3일차 - 차이를 확인하는 데이터 요약 - 순서대로 한줄서기

개발의 여름 2018. 2. 13. 11:31

part 1

차이를 확인하는 데이터 요약

순서대로 한줄서기

정렬과 순서 통계량

  • 크기에 따라 순서대로 줄 세우는 과정을 정렬이라고 합니다.
  • 오름차순으로 정렬된 값을 통계학에서는 순서통계량(order statistics) 이라고 부릅니다.
  • 그리고 그중에서 가장 먼저 나오는 값, 즉 가장 작은 값을 최솟값(Minimum), 가장 나중에 나오는 값, 즉 가장 큰 값을 최대값(Maxsimun) 이라고 특별한 이름을 지어줬습니다.

분위수

  • 경쟁에서는 점수가 중요한 것이 아니라 위치가 중요합니다.
  • 내 점수를 기준으로 나보다 점수가 낮은 사람들과 높은 사람들로 나뉘는 데요. 이렇게 기준이 되는 특정한 점수들을 분위수(Quantile) 라고 합니다.
  • 가장 대표적인 분위수가 100등분 기준, 기호 %를 사용하는 백분위수(Percentile) 입니다.
  • 최솟값은 0% 지점이 되고, 최대값은 모든 관측치가 최대값보다 작으니 100% 지점이 됩니다.

사분위수와 다섯 숫자 요약

  • 분위수를 데이터 분석에 어떻게 활용해야 할까요?
  • 50% 지점에 있는 값을 기준으로 관측치들이 정확히 반반으로 나뉘기 떄문에 중앙값(Median) 이라는 이름을 붙여줍니다.
  • 0%, 25%, 50%, 75%, 100% 로 총 5개의 지점을 만듭니다. 이 5개의 지점은 데이터를 정확히 4등분 합니다.
  • 그래서 사분위수(Quartile)라는 특별한 이름을 지어줬습니다.
  • 이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최대값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary) 이라고 합니다.

상자그림

  • 구간의 갈이가 모두 똑같지 않습니다. 똑같이 25명씩 들어가 있지만 길이가 긴 구간이 있고 상대적으로 짧은 구간도 있습니다.
  • 구간이 널찎하면 관측치가 드문드문 퍼져 있다는 뜻이고 구간이 좁으면 관측치가 빽빽하게 들어 있따는 뜻이죠.
  • 관측치가 빽빽하다, -> 경쟁이 치열하다.

히스토그램

  • 히스토그램은 상자그림과 달리 먼저 구간을 적절히 나눕니다. 그리고 각 구간에 포함되는 관측치가 몇 개나 있는지 개수를 세어 도수분포표(Frequency distribution table)를 만들고, 이 표를 그림으로 표현합니다.
  • 가령 75~85점의 중상위권에 연습생들이 많이 몰려 있고 85점 이상의 고득점 연습생 수가 적다는 걸 알 수 있습니다.