카테고리 없음

이토록 쉬운 통계&R 16일차 - 차이를 예측하는 통계 개념 - 웬만해선 이길 수 없다.

개발의 여름 2018. 3. 23. 19:48

part 3

웬만해선 이길 수 없다

주변을 둘러보면 모든 일에 부정적이고 의심이 많은 사람들이 있습니다. 웬만해서는 논쟁에서 그들을 이길 수가 없습니다. 충분히 의미 있는 증거도 모든 것을 의심하는 그들 앞에서는 무용지물이 됩니다. 이 사람들을 이기기 위해서는, 강력하고 묵직한 큰 증거 한방이 필요합니다.
  • 앞에서 살펴본 p-값 이야기를 계쏙해봅시다. -p 값이 얼마나 작아야 데이터 속 차이가 의미를 가질까요?
  • p-값에 대한 판단의 기준으로 0.5는 너무 크지만, 0은 또 너무 작습니다. 그 사이의 적절한 기준이 필요합니다.

유의수준

  • p-값은 데이터 속 차이가 얼마나 희귀한지 혹은 흔한지의 정도를 0부터 1사이의 확률로 표현합니다.
  • 오랜 시간 수많은 시행착오를 거쳐 5%라는 기준이 자리 잡은 것으로 보입니다. 이렇게 설정된 5%와 같은 기준을 유의수준(Significant level) 라고 합니다.
  • 다시 말하면, 유희수준이란 데이터의 차이가 유희미한 것인지 아닌지를 판단하는 기준인 것입니다. 만약 p-값이 유의수준보다 작다면 차이가 통계적으로 유의미하고, p-값의 유의수준보다 크면 우연히라고 충분히 일어날 수 있는 그저 그런 차이인 것으로 판단할 수 있습니다. 이 과정을 유의성 검정(Significance Test) 이라고 합니다.
  • 많은 시행착오를 거치고, 다양한 이야기가 오가다가 암묵적으로 5%라는 기준이 설정되었습니다. 이제부터 5% 오류 가능성을 품고 p-값과 유의수준을 비교해서 판단만 하면 됩니다.

필요악과 같은 분포

  • 개념을 이해하기도 빠듯한 우리가 직접 적절한 p-값을 구하는 건 힘듭니다.
  • 이미 훌륭한 통계학자들이 데이터의 구성과 상황에 따라 확률을 계산할 수 있는 틀을 만들어 놨습니다. 바로 '분포' 입니다.

키의 히스토그램과 정규분포

  • 데이터에서 직접 확률을 계산하는 것이 직관적이긴 하지만 현실적인 어려움들이 있습니다. 표본에 따라서 확률이 쉽게 바뀔 수 있고, 또 가끔은 지금 처럼 확률 계산이 간단하지 않을 수도 있습니다.
  • 그래서 간접적인 방법, 이론적인 분포를 활용합니다. 이와 같은 패턴을 보이는 데이터를 설명하는 대표적인 분포가 정규분포입니다. 아들 키라는 이름 대신 일반적인 변수 x에 대한 정규분포는 다음과 같은 확률밀도함수(Probability density function) 로 표현됩니다.


  • f(x)는 확률밀도함수로, '높이'를 의미합니다.
  • x에서 뮤를 빼고 시그마로 나눠주는 부분입니다. 바로 평균과 표준편차를 활용한 표준화 과정이네요!
  • 원래 뮤는 모집단에서의 평균, 시그마는 표준편차를 의미하지만 우리는 알수 없죠. 대신 데이터에서 계산한 평균과 표준편차를 사용해봅시다.
  • 그럼 150cm부터 200cm까지 모든 값을 넣어 밀도를 계산한 다음 아들 키 히스토그램 위에 곡선 형태고 그려볼까요?



  • 이 곡선이 평균 174.5cm, 표준편차 7.1cm 를 활용한 정규분포의 밀도를 보여줍니다. 표준화 부분에 제곱을 했기 때문에 좌우대칭이 되고, 마이너스가 붙어 있어서 값이 커질수록 감소하게 됩니다.
  • 어쨌든 밀도 곡선은 히스토그램의 패턴과 거의 일치합니다. 굳이 히스토그램을 그리지 않고서도 이 정규분포 곡선만 있으면 아들 키를 잘 설명할 수 있지 않을까요?
  • 정규분포 곡선을 활용해서 키가 180cm이살일 확률은 어떻게 구할 수 있을 까요? 바로 다름 그림처럼 곡선 아랫부분 중 180cm이상인 면적만 계산 하면 됩니다.
  • 최솟값부터 최댓값까지 영역의 면적을 구하면 1이 나오겠지만, 그 중간, 일부 구간의 면적을 구하면 1보다 작은 숫자, 확률이 계산되는 것이죠.


  • 실제로 면적은 계산하면 21.91%가 나옵니다.
  • 정규분포에서는 뮤와 시그마가 정해지면 f(x)의 형태도 정해졌습니다. 이렇게 뮤와 시그마처럼 분포의 특징을 결정하는 값들을 모수(Parameter) 라고 합니다.
  • 유명한 분포들은 어떤 것들이 있고 이 분포들의 전문 분야는 무엇인지, 또 어떤 차이를 설명할 떄 사용할 수 있는지를 살펴보려고 합니다. t-분포, 카이제곱-분포. F-분포 등 이름만 들어도 무시무시하지만 알고보면 우리를 도와줄 친절한 통계학자들의 배려가 묻어 있습니다. 그럼 그중 가장 덜 무서운 t-분포부터 살펴봅시다.