part 1

차이를 확인하는 데이터 요약

순서대로 한줄서기

정렬과 순서 통계량

  • 크기에 따라 순서대로 줄 세우는 과정을 정렬이라고 합니다.
  • 오름차순으로 정렬된 값을 통계학에서는 순서통계량(order statistics) 이라고 부릅니다.
  • 그리고 그중에서 가장 먼저 나오는 값, 즉 가장 작은 값을 최솟값(Minimum), 가장 나중에 나오는 값, 즉 가장 큰 값을 최대값(Maxsimun) 이라고 특별한 이름을 지어줬습니다.

분위수

  • 경쟁에서는 점수가 중요한 것이 아니라 위치가 중요합니다.
  • 내 점수를 기준으로 나보다 점수가 낮은 사람들과 높은 사람들로 나뉘는 데요. 이렇게 기준이 되는 특정한 점수들을 분위수(Quantile) 라고 합니다.
  • 가장 대표적인 분위수가 100등분 기준, 기호 %를 사용하는 백분위수(Percentile) 입니다.
  • 최솟값은 0% 지점이 되고, 최대값은 모든 관측치가 최대값보다 작으니 100% 지점이 됩니다.

사분위수와 다섯 숫자 요약

  • 분위수를 데이터 분석에 어떻게 활용해야 할까요?
  • 50% 지점에 있는 값을 기준으로 관측치들이 정확히 반반으로 나뉘기 떄문에 중앙값(Median) 이라는 이름을 붙여줍니다.
  • 0%, 25%, 50%, 75%, 100% 로 총 5개의 지점을 만듭니다. 이 5개의 지점은 데이터를 정확히 4등분 합니다.
  • 그래서 사분위수(Quartile)라는 특별한 이름을 지어줬습니다.
  • 이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최대값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary) 이라고 합니다.

상자그림

  • 구간의 갈이가 모두 똑같지 않습니다. 똑같이 25명씩 들어가 있지만 길이가 긴 구간이 있고 상대적으로 짧은 구간도 있습니다.
  • 구간이 널찎하면 관측치가 드문드문 퍼져 있다는 뜻이고 구간이 좁으면 관측치가 빽빽하게 들어 있따는 뜻이죠.
  • 관측치가 빽빽하다, -> 경쟁이 치열하다.

히스토그램

  • 히스토그램은 상자그림과 달리 먼저 구간을 적절히 나눕니다. 그리고 각 구간에 포함되는 관측치가 몇 개나 있는지 개수를 세어 도수분포표(Frequency distribution table)를 만들고, 이 표를 그림으로 표현합니다.
  • 가령 75~85점의 중상위권에 연습생들이 많이 몰려 있고 85점 이상의 고득점 연습생 수가 적다는 걸 알 수 있습니다.


Part 1

차이를 확인하는 데이터 요약

줌 아웃

  • 데이터 속에 정보가 있다고 무작정 파고들어서는 안 됩니다.
  • 나무를 보기 전에 숲은 보는게 먼저죠.
  • 데이터는 나무 한 구루 한 그루가 모여 만들어진 큰 숲과 같습니다.
  • 데이터 분석은 나무들의 특징을 살펴보는 과장이고요.
  • 데이터 분석을 위해서는 먼저 가장 높은 곳에 올라가 숲 전체를 살펴봐야합니다.
  • 크고 복잡한 데이터도 멀리서 바라보면 몇가지 특징을 확인할 수 있습니다. 다만 특징을 말로 설명하는 것이 아니라 통계를 활용해서 모두 숫자로 표현합니다.
  • 데이터의 특징을 숫자로 표현하는 과정을 요약이라고 합니다.
  • 이번 파트에서는 데이터들을 잘 요약하기 위해서 어떤 숫자들을 계산하는지 살펴보겠습니다.

날줄과 씨줄(날줄:세로방향에 놓인실, 씨줄:가로방향으로 놓인실)

|이름|성별|몸무게| |김철수|여|48| |이영희|남|80|
  • 이 데이터는 관심 대상 2명에 대한 이름, 성별, 몸무게라는 3가지 관심 특징을 가지고 있습니다. 그렇다면 이 2명은 바교할수 있을까요? 물론입니다. 누가 몸무게가 많이 나가는지. 누가 남자고 여잔지 바로 알수 있죠.

  • 일을 오래 했는지는 알수 없습니다. 비교를 할 수 없으면 차이를 확인할 수 없고 차이를 확인할 수 없으면 데이터 분석은 의미가 없습니다. 그래서 관심 대상을 바라보는 관점을 고정하는 과정이 필요합니다.

데이터의 구성

  • 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체 라고 합니다.

데이터와 데이터 공간

  • 관측치는 변수들이 만드는 공간 속에 들어가는 하나의 점일 뿐 공간의 크기에는 영향을 미치지 않습니다. 그래서 변수가 하나라도 늘어나면 분석이 복잡해지지만, 관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달라지지 않습니다.

  • 그리고 데이터 분석은 결국 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이라고 표현할 수 있습니다.

  • 통계는 많은 사람이 만들어 내는 패펀, 큰 그림에서 의미를 찾아냅니다. 키라는 변수를 하나 선택하면 그 속에 100만명의 키가 들어가 있습니다. 그중에 키가 큰 사람도 있고 작은 사람도 있죠. 이 키를 살펴보면 가장 키가 큰 사람은 얼마나 큰지. 작은 사람은 또 얼마나 작은지, 중간 정도 되는 사람의 키는 얼마인지, 키가 190cm인 사람은 키가 얼마나 큰지 등 다양한 차이를 확인할 수 있습니다.

  • 데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작됩니다.

알파벳을 활용한 예제 데이터의 표현

  • 변수의 개수 p, 관측치의 개수 n
  • 데이터의 크기 n * p
  • 변수 x
  • 관측치, 아래 첨자 알파벳(괄호 표현) x = [x(1), x(2), x(3), x(4), x(5)]
  • 합계 (시그마)

기술통계량과 변수 요약

  • 통계에서는 변수의 특징을 설명하기 위해 한 줄(열)의 데이터에 다양한 연산을 사용해 계산을 하는데, 이 계산된 숫자들을 통계량(Statistic)이라고 부릅니다.

  • 특히 데이터의 특징을 설명하는 통계량을 기술통계량(Descriptive statistics)이라고 합니다.

  • 최솟값, 최대값, 중앙값, 분산 등이 모두 대표적인 기술 통계량입니다.

  • 몸무게 처럼 한없이 다영한 연속형(Continuous) 변수

  • 성별처럼 관측치들이 정해진 몇개의 값 중에서 하나의 값을 가지는 변주형(Categorical)변수는 값이 같은 관측치들을 묶어 개수를 셉니다.



치킨 뜯고 공부하자 100일 프로젝트 대망의 첫날

이포스팅은 루비출판사에서 진행하는 공부하고 치킨 먹는 프로젝트의 후원을 받습니다.^^ http://m.post.naver.com/viewer/postView.nhn?volumeNo=12359301&memberNo=38315694&vType=VERTICAL

머릿말

part1

머릿말. 데이터 분석을 배우기 위해서 우리는 어디서부터 시작해야 할까요?

  • 아무리 복장합 데이터 분석도 목적과 과정을 살펴보면 어떤 차이를 확인하고 설명하려 합니다.
  • 통계학은 차이를 수학이라는 도구로 풀어냅니다.

프롤로그

  1. 문법보다 회화
  2. 차이를 이하해기 위한 통계
    • 진짜 목표는 데이터 속에 있는 차이는 확인하고 설명하는 것.
  3. 불확실성을 설명하는 통계
  4. 과거와 현재, 미래가 소통하는 언어

목차

PART 1 차이를 확인하는 데이터 요약

  1. 줌아웃
  2. 날줄과 씨줄
    • 데이터의 구성, 데이터와 데이터 공간
    • 알파벳을 활용한 예제 데이터의 표현, 기술 통계량과 변수 요약
  3. 순서대로 한줄서기
    • 정렬과 순서 통계량, 분위수, 사분위수와 다섯 숫자 요약, 상자그림, 히스토그램
  4. 더치페이와 N빵
    • 평균, 분산, 표준편차
  5. 물수능과 불수능
    • 표준화, 표준화 예제
  6. 먹고 싶은거 먹어, 난짜장
    • 동전던지기, 파이차트와 막대 그래프
  7. 0.000012%의 꿈, 로또
    • 확률, 확률을 활용한 당첨 번호 예측, 데이터 분석과 확률

PART 2 차이를 설명하는 통계 개념

  1. 범인은 이 안에 있다.
  2. 부전자전, 유전 연결고리
    • 산점도, 상관관계, 상관계수
  3. 40% 니가 하면 나도한다.
    • 교차표, 행, 백분율과 열 백분율, 열지도, 독립
  4. 최저가, 알고 보니 옵션가
    • 조건부 확룰과 심슨의 역설
  5. 아낌없이 주는 의사결정 나무
    • 모자이크 그림, 의사결정나무 모형
  6. 점심 뭐 먹지?
    • ABCDEF 테스트, 분산과 분산분석

PART 3 차이를 예측하는 통계 모형

  1. 우연과 운명 사이
  2. 지구는 우주의 티끌
    • 표본과 모집단 통계량과 분포, 자연스러운 확률
  3. 웬만해선 이길 수 없다.
    • 유의수준, 필요학과 같은 분포, 키의 히스토그램 정규분포
  4. 남자평균 174.9cm, 여자평균 162.3cm
    • 표본평균의 표준편차, 표본평균의 표준편차 계산, t-값과 t-분포
    • t-분포, p-값과 t-테스트
  5. 관계 검증을 위한 테스트
    • t-검정을 활용, 카이제곱분포를 활용한 독립성검정
    • F-분포를 활용한 분산분석
  6. 아빠 키유전 확률, 25%
    • 다시 한번 상관계수, 선형회귀모형, 부모 맘 같지 않은 자식

PART 4 데이터 분석 도구, R

  1. 그것이 R고싶다.
  2. R 시작하기
    • R설치, R Studio 설치, R Studio 실행
  3. 순서대로 살펴보는 BR31
  4. R로 분석 다시 보기
    • 하나의 연속형 변수를 요약하기, 하나의 변주형 변수를 요약하기
    • 두 개의 범주형 변수의 관계 찾기, 두개의 연속형 변수의 관계 찾기
    • 차이를 설명하는 간단한 통계 모형 살펴보기
  5. 대학만 가면 끝일 줄 알았는데


+ Recent posts