티스토리

개발의 여름

검색하기

이토록 쉬운 통계&R 14일차 - 차이를 예측하는 통계 개념 - 우연과 운명 사이

생활데이타/이토록 쉬운 통계&R

이토록 쉬운 통계&R 14일차 - 차이를 예측하는 통계 개념 - 우연과 운명 사이

개발의 여름 2018. 3. 15. 10:37

part 3

우연과 운명 사이

PART1 에서는 관심 변수 속 차이를 확인하고, PART2에서는 그 차이를 설명변수와의 관계로 설명하는 방법들에 대해서 살펴봤습니다. 그러나 지금까지 우리가 간과하고 있었던 부분이 있습니다. 바로 그 차이의 의미입니다. 혹시 이 차이가 어쩌다 나온 차이고 재수 좋게 설명되는 관계인 걸 아닐까요?

10년 넘게 연락이 없던 친구를 길 가다 우연히 만나면 어떨까요? 그 10년 뒤 또다시 그 친구를 우연히 만나게 된다면 어떨까요? 그 10년뒤 또 만난다면? 이 정도면 도저히 그냥 우연이라고 할 수 없어서 "만날 운명이었다"라고 표현합니다. 수많은 사람들이 영향을 주고 받는 미래는 예측할 수 없고 매 순간 우연으로 우리에게 다가옵니다.

데이터 분석에서의 차이도 마찬가지 입니다. 올림픽 대회화 메달 색은 전혀 관련이 없는데, 우연히 리우에서 은메달을 많이 못딴 것은 아닐까요? 아들키를 아빠키로 설명할 수 있다지만, 사실은 그저 1,078개의 가족 데이터에서만 우연히 맞아떨어진 건 아닐까요? 우연이 아니라면 어떻게 증명해 보일수 있을까요? 변수 속의 차이나 데이터 속 변수의 관계가 우연히 아니라는 것을 보이는 과정을 테스트, 우리말로는 검정이라고 합니다. 우연이라고 하기에는 설명이 불가능할 만큼 충분히 큰 차이 매우 밀접한 관계가 있다는 것을 입증하는 것이죠. 그렇다면 얼만큼 커야 충분히 크다고 할 수 있을까요?

PART3 에서는 이와 관련된 어려운 이야기를 나눕니다. 충분히 큰지 아닌지를 판단하기 위해서는 기준이 필요합니다. 내 데이터로부터 계산된 값을 비교할 기준이 필요하죠. 그런데 우리에게 데이터는 하나밖에 없고, 비교를 위해선 적어도 2개의 무언가가 필요합니다. 그래서 통계는 표본이라는 개념을 활용합니다. 분명히 우리에게는 가지고 있는 데이터 하나가 전부인데, 통계는 그 외에도 똑같은 데이터가 수없이 많다고 할 겁니다. 어렵지만 이 과정을 거쳐야 우리 데이터가 우연이 아니라 운명이라는 것을 설명할 수 있습니다.

PART3 목차(배울것)

지구는 우주의 티끌 : 표본과 모집단, 통계량 분포, 자연스러운 확률, 유의수준, 필요악 같은 분포, 키의 히스토그램과 정규분포

남자평균 174.9cm, 여자 평균 162.3 cm : 표본평균의 표준편차, 표본평균의 표준편차 계산, t-값과 t-분포, p-값과 t-테스트

관계 검증을 위한 테스트 : t-검정의 활용, 카이제곱분포를 활용한 독립성검정, F-분포를 활용한 분산분석

아빠 키 유전 확률, 25% : 상관계수, 선형회귀모형, 회귀분석

저작자표시