생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 2일차 - 차이를 확인하는 데이터 요약 - 줌 아웃, 날줄과 씨줄

개발의 여름 2018. 2. 9. 09:46

Part 1

차이를 확인하는 데이터 요약

줌 아웃

  • 데이터 속에 정보가 있다고 무작정 파고들어서는 안 됩니다.
  • 나무를 보기 전에 숲은 보는게 먼저죠.
  • 데이터는 나무 한 구루 한 그루가 모여 만들어진 큰 숲과 같습니다.
  • 데이터 분석은 나무들의 특징을 살펴보는 과장이고요.
  • 데이터 분석을 위해서는 먼저 가장 높은 곳에 올라가 숲 전체를 살펴봐야합니다.
  • 크고 복잡한 데이터도 멀리서 바라보면 몇가지 특징을 확인할 수 있습니다. 다만 특징을 말로 설명하는 것이 아니라 통계를 활용해서 모두 숫자로 표현합니다.
  • 데이터의 특징을 숫자로 표현하는 과정을 요약이라고 합니다.
  • 이번 파트에서는 데이터들을 잘 요약하기 위해서 어떤 숫자들을 계산하는지 살펴보겠습니다.

날줄과 씨줄(날줄:세로방향에 놓인실, 씨줄:가로방향으로 놓인실)

|이름|성별|몸무게| |김철수|여|48| |이영희|남|80|
  • 이 데이터는 관심 대상 2명에 대한 이름, 성별, 몸무게라는 3가지 관심 특징을 가지고 있습니다. 그렇다면 이 2명은 바교할수 있을까요? 물론입니다. 누가 몸무게가 많이 나가는지. 누가 남자고 여잔지 바로 알수 있죠.

  • 일을 오래 했는지는 알수 없습니다. 비교를 할 수 없으면 차이를 확인할 수 없고 차이를 확인할 수 없으면 데이터 분석은 의미가 없습니다. 그래서 관심 대상을 바라보는 관점을 고정하는 과정이 필요합니다.

데이터의 구성

  • 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체 라고 합니다.

데이터와 데이터 공간

  • 관측치는 변수들이 만드는 공간 속에 들어가는 하나의 점일 뿐 공간의 크기에는 영향을 미치지 않습니다. 그래서 변수가 하나라도 늘어나면 분석이 복잡해지지만, 관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달라지지 않습니다.

  • 그리고 데이터 분석은 결국 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이라고 표현할 수 있습니다.

  • 통계는 많은 사람이 만들어 내는 패펀, 큰 그림에서 의미를 찾아냅니다. 키라는 변수를 하나 선택하면 그 속에 100만명의 키가 들어가 있습니다. 그중에 키가 큰 사람도 있고 작은 사람도 있죠. 이 키를 살펴보면 가장 키가 큰 사람은 얼마나 큰지. 작은 사람은 또 얼마나 작은지, 중간 정도 되는 사람의 키는 얼마인지, 키가 190cm인 사람은 키가 얼마나 큰지 등 다양한 차이를 확인할 수 있습니다.

  • 데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작됩니다.

알파벳을 활용한 예제 데이터의 표현

  • 변수의 개수 p, 관측치의 개수 n
  • 데이터의 크기 n * p
  • 변수 x
  • 관측치, 아래 첨자 알파벳(괄호 표현) x = [x(1), x(2), x(3), x(4), x(5)]
  • 합계 (시그마)

기술통계량과 변수 요약

  • 통계에서는 변수의 특징을 설명하기 위해 한 줄(열)의 데이터에 다양한 연산을 사용해 계산을 하는데, 이 계산된 숫자들을 통계량(Statistic)이라고 부릅니다.

  • 특히 데이터의 특징을 설명하는 통계량을 기술통계량(Descriptive statistics)이라고 합니다.

  • 최솟값, 최대값, 중앙값, 분산 등이 모두 대표적인 기술 통계량입니다.

  • 몸무게 처럼 한없이 다영한 연속형(Continuous) 변수

  • 성별처럼 관측치들이 정해진 몇개의 값 중에서 하나의 값을 가지는 변주형(Categorical)변수는 값이 같은 관측치들을 묶어 개수를 셉니다.