Part 1
차이를 확인하는 데이터 요약
줌 아웃
- 데이터 속에 정보가 있다고 무작정 파고들어서는 안 됩니다.
- 나무를 보기 전에 숲은 보는게 먼저죠.
- 데이터는 나무 한 구루 한 그루가 모여 만들어진 큰 숲과 같습니다.
- 데이터 분석은 나무들의 특징을 살펴보는 과장이고요.
- 데이터 분석을 위해서는 먼저 가장 높은 곳에 올라가 숲 전체를 살펴봐야합니다.
- 크고 복잡한 데이터도 멀리서 바라보면 몇가지 특징을 확인할 수 있습니다. 다만 특징을 말로 설명하는 것이 아니라 통계를 활용해서 모두 숫자로 표현합니다.
- 데이터의 특징을 숫자로 표현하는 과정을 요약이라고 합니다.
- 이번 파트에서는 데이터들을 잘 요약하기 위해서 어떤 숫자들을 계산하는지 살펴보겠습니다.
날줄과 씨줄(날줄:세로방향에 놓인실, 씨줄:가로방향으로 놓인실)
|이름|성별|몸무게|
|김철수|여|48|
|이영희|남|80|
이 데이터는 관심 대상 2명에 대한 이름, 성별, 몸무게라는 3가지 관심 특징을 가지고 있습니다. 그렇다면 이 2명은 바교할수 있을까요? 물론입니다. 누가 몸무게가 많이 나가는지. 누가 남자고 여잔지 바로 알수 있죠.
일을 오래 했는지는 알수 없습니다. 비교를 할 수 없으면 차이를 확인할 수 없고 차이를 확인할 수 없으면 데이터 분석은 의미가 없습니다. 그래서 관심 대상을 바라보는 관점을 고정하는 과정이 필요합니다.
데이터의 구성
- 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체 라고 합니다.
데이터와 데이터 공간
관측치는 변수들이 만드는 공간 속에 들어가는 하나의 점일 뿐 공간의 크기에는 영향을 미치지 않습니다. 그래서 변수가 하나라도 늘어나면 분석이 복잡해지지만, 관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달라지지 않습니다.
그리고 데이터 분석은 결국 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이라고 표현할 수 있습니다.
통계는 많은 사람이 만들어 내는 패펀, 큰 그림에서 의미를 찾아냅니다. 키라는 변수를 하나 선택하면 그 속에 100만명의 키가 들어가 있습니다. 그중에 키가 큰 사람도 있고 작은 사람도 있죠. 이 키를 살펴보면 가장 키가 큰 사람은 얼마나 큰지. 작은 사람은 또 얼마나 작은지, 중간 정도 되는 사람의 키는 얼마인지, 키가 190cm인 사람은 키가 얼마나 큰지 등 다양한 차이를 확인할 수 있습니다.
데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작됩니다.
알파벳을 활용한 예제 데이터의 표현
- 변수의 개수 p, 관측치의 개수 n
- 데이터의 크기 n * p
- 변수 x
- 관측치, 아래 첨자 알파벳(괄호 표현) x = [x(1), x(2), x(3), x(4), x(5)]
- 합계 (시그마)
기술통계량과 변수 요약
통계에서는 변수의 특징을 설명하기 위해 한 줄(열)의 데이터에 다양한 연산을 사용해 계산을 하는데, 이 계산된 숫자들을 통계량(Statistic)이라고 부릅니다.
특히 데이터의 특징을 설명하는 통계량을 기술통계량(Descriptive statistics)이라고 합니다.
최솟값, 최대값, 중앙값, 분산 등이 모두 대표적인 기술 통계량입니다.
몸무게 처럼 한없이 다영한 연속형(Continuous) 변수
성별처럼 관측치들이 정해진 몇개의 값 중에서 하나의 값을 가지는 변주형(Categorical)변수는 값이 같은 관측치들을 묶어 개수를 셉니다.