1부 - 더 나은 삶을 향한 탐험 - 뇌과학에서 삶의 성찰을 얻다.

첫 번째 발자국. 선택하는 동안 뇌에서는 무슨 일이 벌어지는가

두 번쨰 발자국. 결정장애는 어떻게 극복할수 있는가.

세 번쨰 발자국. 결핍 없이 욕망할 수 있는가.

네 번쨰 발자국. 우리는 왜 미신에 빠져드는가


2부 - 아직 오지 않은 세상을 상상하는 일 - 뇌과학에서 미래의 기회를 발견하다.

일곱 번째 발자국. 창의적인 사람들의 뇌에서는 무슨 일이 벌어지는가.

여덞 번쨰 발자국. 인공지능 시대 인간 지성의 미래는?
아홉 번째 발자국. 제4차 산업혁명 시대, 미래의 기회는 어디에 있는가

열 번쨰 발자국. 혁명은 어떻게 시작되는가

열 한 번쨰 발자국. 순응하지 않는 사람들은 어떻게 세상에 도전하는가

열 두 번쨰 발자국. 뇌라는 우주를 탐험하며, 칼세이건을 추억하다.



12p 창의적인 사람들을 유형화 할 수는 없겠지만, 흔히 그들은 공간에 무심히 배치된 도전적인 질문에 강한 호기심을 느낀다고 합니다.

그들은 관찰력이 매우 뛰어나며, 흥미를 끄는 무언가를 발견하면 강한 호기심에 사로잡힙니다. 그것이 어렵고 도전적인 질문이라면 더더욱 그렇습니다.


13p 체내 에너지의 23퍼센트 이상을 먹어치누는 1.4 키로그램의 폭식꾼 '뇌'에 과부하가 걸리지 않도록 뇌를 최소한만으로만 쓰는 방식로 시간을 보내고 있습니다.


14p 결과를 예측할수 없는 상황에서 호기심, 도전정신 같은 자발적 동기만으로 끝까지 몰두해 해답을 얻거나 무언가를 이루어내는 건 세상을 바꾼 사람들이 보이는 가장 강력한 특징 입니다.


15p 이 책을 관톨하고 있는 핵심 주제는 "뇌과학의 관적에서 인간은 과연 어떤 존재인가?" 입니다.


16p 아울러 인공지능과 사물인터넷, 빅데이터의 시대, 세4차 산업혁명과 블록체인이 혁명 등 우리 시대를 관통하는 거대한 기술 문명의 변화도 그려보려 했습니다.


59p 우리는 의사결정을 바꿔야 한다. 하고 조식 구성원에게 애기했을 떄, 누가 그 리더를 비난하나요. 자신의 잘못을 인정하고 미래를 위해 결정사항을 바꾸는 리더를 우리는 훨씬 더 존경합니다. 의사 결정을 쉽게 바꿀 수 있는 리더란 주변 사람 혹은 부하직원과 의사소통을 많이 하는 리더라는 뜻 입니다. 밀실에서 혼자 의사결정을을 하는 리더는 대개 희사결정을 바꿀 수가 없어요. 그 의사 결정 메시지 자체가 유일한 소통이였기 때문이예요. 그걸 바꾸면 무제가 커지지요. 중요한건 의사결정을 관철하고 완수하는 것이 아니아 목표를 완수하는 것임을 휼륭한 리더들은 알고 있습니다.


101p 평소에 자기 소신이 있고 의견도 주고 받던 사람이 어느 순간 남들이 하자는 대로 무조건 따른다면, 요즘 자존감이 떨어지거나 우울감이 증가했는지 살펴볼 필요가 있습니다.


101p 타인에게 인정받으려는 욕수나 누구나 있습니다. 그런다 보통 사람들은 자신의 의견이나 성취를 존중받고 인정받고 싶어해요. 자존감이 떨어질수록 내가 어떤 행동을 주도적으로 해서는 인전받을 수 없고, 저 사람에게 순응해서 인정받을 수밖에 없다고 생각하게 되지요. 그렇다 보니 내 생각을 없어지는 거구요.


207p 행복은 예측할 수 없을 떄 더 크게 다가오고 불행은 예측할 수 없을 떄 감당할 만하다.



214p 불행이 찾아오면 어쩌나 하는 두려움을 줄여나가는 삶을 살아보세요. 비이성적인 것들에 우리 삶이 휘둘리지 않도록 해야합니다.


240p 오늘처럼 여러분과 다르게 생각하는 사람을 만나거나 그런 발상의 기회를 가지세요. 그리고 그것들을 다른 곳에 가서 똑같이 따라 하진 마시고 꾸준준히 변형하세요. 그것이 창의적인 발상의 출발입니다.


253p 아무리 강조해도 지나치지 않는 것이 독서, 여행, 사람 만나기입니다. 안 하면 나중에 후회하는, 특히 평생에 거쳐 반드시 해야하는 것들이 바로 독서, 여행, 사람들과의 지적 대화입니다. 다시 말해 끊임없이 세상으로부터 자극을 받으시라는 겁니다. 의미 있는 세상과의 출동, 이것이 우리의 인생을 바꿉니다. 이 세가지는 자기가 직접 물리적 환경에서 경험할 수 없는 것들을 간접적으로 경험 할 수 있게 해줍니다.


253p 지적 능력이란 오랜 학습을 통해 다양한 방법을 익히고 이해하는 것만이 아닙니다. 세상에 나가 해결 방법을 알 수 없는 수 많은 문제와 맞닥뜨리게 되었을 떄 새로운 해법을 떠올리는 능력이 바로 그 사람의 지적 능력입니다.


276p 인공지능을 '제대로' 배우는 것은 권할 만한 조언입니다. 사실 머신 러닝을 포함한 지금의 인공지능은 학문적으로 깊지 않아서 1~2년만 열심히 공부하면 원하는 프로그램을 짤 수 있습니다.


322p 어릴 떄부터 친구가 아니어도 재미있게 살수 있다는걸 충분히 경험한 세대는 관계 맺기에 서툴과 타인과의 대화, 논쟁, 화해, 설득의 경험이 부족합니다. 젊은 세대들이 이별 통보를 문제메시지로 하는 건 매너가 없어서가 아니라 얼굴을 마주하고 이별을 말한 사회성이 부조개서인 것처럼 말입니다.


402p 그래서 캐나디안 레밍이 살아남는 방법은 '먼저가시죠'의 양보입니다. "먼저 뛰어 내리시죠. 나는 좀 더 생각해보겠습니다."


433p 재미있게 생각하는 것은, 사람들이 언제 그 일을 자신의 일로 받아들이고 재미있어하며 리더가 되려고 하느냐 하는 것이다.


438p 5년 전부터 저녁 10시에 자기 시작했는데 그러면 새벽 4시쯤 일어난다. 이떄부터 집중해서 아침 9시까지 한자기 일을 한다.


444p 떄론 결칩을 느끼게 하고 욕망을 부추기는 방법이 더 효과적일 수 있어요.


446p 완전히 혼자 있는 시간, 누군가에게 방해받지 않는 시간이 필요한데, 가족이 있고 사회생활을 하면 그런 시간을 갖기란 쉽지 않죠.




나의 감상 - 내용이 어렵지 않고 잘 읽힌다. 새벽에 일어나서 즐지는 나만의 시간 방법은 정말 탐이난다.

인공지능을 제대로 배우는 데 1-2년이 이면 충분하다는 부분에서 욱하지만 사실 매일 나만의 시간을 가지면서 꾸준히 하면 못할것도 없긴하다.








1주 - 그냥 좀 우울해서요.


"극과 극은 오히려 통한다고 하죠. 굉장히 자존심이 세 보이는 사람이 오히려 자존감이 낮아요. 자신이 없으니 다른 사람이 나를 우러러보게끔 하려고 하죠."



5주 - 그놈의 자존감


"감정에도 통로가 있어서 부정적인 감정이라고 해서 자꾸 닫아두고 억제하면 긍정적인 감정까지 나오지 못하게 된다."



6주 - 저를 잘 알려면 어떻게 해야 하죠?


"사랑의 모양과 색깔은 다 다르니 네 생각대로만 판단하지 마라"



8주 - 드디어, 약물 부작용


"지금까지는 나도 모르게 했던 행동인데, '내가 늘 비슷한 선택을 하는 구나'를 인지했다는 것 자체가 치료죠"



9주 - 지나친 외모 강박과 연극성 인격장애


"사실 공포감은 무언가에 대해 '나만 알고 있을 때 더 커지거든요. 혼자 고통받을 때보다 지금처럼 꺼내는 게 훨씬 좋을 수도 있어요."


"나보다 우월한 사람을 만나면 기죽고 나보다 열등한 사람을 만나면 당당하고 편안해지는 내가 너무 싫다."



마치며


"만약 캄캄한 우물 안에 떨어졌다고 치면, 벽을 짚고 한 바퀴를 돌아야만 그게 우물이라는 걸 알 수 있듯이, 실패를 짚다보면 분명히 반복되는 실패를 줄일 수 있을 거라고 했다.

쌓인 실패가 견고한 내 중심을 만들어 줄 수 있을 거라고, 잘하고 있다고, 동전의 뒷면을 볼 수 있는 사람인데 지금은 동전을 너무 무겁게 느끼고 있을 뿐이라고 했다.




내 의견 : 


저자가 내적 으로 생각이 많은건 나랑 비슷한데 관계에 신경을 많이 쓰는건 나랑 반대라 "뭐 이렇게 까지 생각해?" 라는 생각이 총평. 

꺼내기 어려운 이야기일텐데 책으로 출판한 작가의 용기는 인정. 


저자랑은 다른 부분이지만 나도 상당히 찌질한 부분을 가지고 있다. 용기를 내어 내 찌질함을 연인에게 보여줘 봤지만 대부분의 반응은 "이겨내" "뭐 그런거 갖고" 였다.

믿었던 상대에게 받은 상처는 이루 말할수 없이 컸다. 나는 점점 내 이야기를 하기가 어려워 졌다. 그래서 상대의 고민을 쉽게 이야기 하는게 얼마나 위험한 일인지 잘 알고 있다.


누구나 어두운 부분이 있다. 그걸 인지하고 개선하려는 의지가  있는가 없는가 차이이다.

저자의 용기에 박수를 쳐주고 싶다.



추후 정리

라이프스타일 비즈니스가 온다.


- 추후 정리

히가시노 게이고의 단편 10개를 수록한 소설책.

소설책을 읽고싶고 호흡이 짧아 하루 2-3개씩 읽을수 있어 좋았다.




[스포 다량함유~~~ 보실거면 뒤로]


























재미도 자체는 살짝 아쉽다. 나미야와 비교하면 약하다는 느낌이 있디만 나쁘지 않다,


새해 첫날의 결심 - 뒷 부분 반전보고 생각이 많아짐. 


10년 만의 밸런타인데이 - 반전을 풀어가는 방식이 신선해서 좋았음.  "이래저래 생각하는 바가 있어서 헤어지기로 결심했어. 지금까지 고마웠어. 앞으로도 멋진 작품 계속 써낼 수 있기를 기도할게. 안녕"


오늘 밤은 나 홀로 히나마쓰리 -  "참을성 같은 게 아니라 자기 나름대로 즐기면서 힘든 일을 뛰어넘는 방법을 알고 있었던 것이다."


그대 눈동자에 건배 - 마지막이 좀 허무했음.


렌털 베이비 - 미래 사회에 대한 내용 .오호 흥미진진

고장 난 시계 - 이것도 범인이 주인공인 부분 마지막에 잡혔을떄 통쾌했다.

사파이어의 기적 - 좀 지루하게 읽었다.

크리스마스 미스터리 - 범인이 주인공인 단편. 사람을 목슴보다 자신의 안위를 더 걱정하고 끝까지 빠져나갈 구멍을 찾는 모습에 내가 않은 몇 악인들이 떠오름. 

수정 염주 - 나미야가 약간 생각나는 단편 


다음에는 좀 긴호흡의 장편소설을 읽어봐야지.



http://www.kyobobook.co.kr/product/detailViewKor.laf?barcode=9791187512141


감삼 - 완전무결 식단을 한국에서 그대로 구현하기는 힘들었다. 그래서 가정식으로 대체하고 방탄커피로 생활한지 대충 한달쯤 지났다.

아침이 가볍고 대부분의 중요한 업무를 오전에 몰아서 한뒤 오후에는 죄책감 없이 편안한 마음으로 휴식을 즐기고 있다. 


part 3

차이를 예측하는 통계 개념

남자 평균 174.9cm, 여자 평균 162.3cm

영국의 한 연구팀에 따르면 지난 100년간 한국 남성의 평균 키가 159.8cm에서 174.9cm로 15.1cm 커졌고, 여성의 평균 키는 142.2에서 162.3cm로 무려 20.1cm나 폭풍 성장헀다고 합니다. 170cm 남자와 160cm 여자의 고민이 깊어집니다 ...

표본평균의 표준편차

  • 데이터의 관측치가 많으면 많은 수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않습니다. 통계학자들이 이 개념을 표현한 것이 바로 표본평균의 표준편차 압니다.

표본평균의 표준편차 계싼

  • 표본평균은 손쉽게 계산할수 있습니다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 되죠.
  • 그럼 표본평균의 표준편차는 어떻게 계산할까요?
  • 현재 우리가 가진 데이터로는 분산을 구하는 것이 불가능합니다. 분산을 구하려면 여러 개의 값이 있어야 하는데, 지금 우리 손에 쉰 데이터는 하나뿐이며 따라서 표본평균도 하나뿐입니다. 그래서 계산이 아니라 추정(Estimation)을 해야 합니다.
  • 표본 분산의 계산 식에는 (xi-E(x))^2 가 있습니다. xi 대신 1/n배 된 xi/n가 들어가면 제곱이 되어 표본 분산은 1/n^2 배 됩니다. 그럼 S^2x/n은 다음 처음 표현되죠.


  • 표본평균의 분산 S^2x는 다음과 같이 n개의 분산의 합으로 추정할 수 있습니다.
  • 표본쳥균의 분산 S^2x은 표본의 분산 S^2x의 1/n배라는 것입니다. 당연히 하나의 값 x의 분산보다 n개 값의 평균인 E(x)가 덜 흔들릴 테고, 따라서 분산이 작습니다. 그리고 그 정도가 관측치의 개수 n에 반비례하는 것을 말합니다. 이제 표본평균의 표준편차를 계산해볼까요? 제곱근만 씌우면 됩니다.


t-값과 t-분포

  • t-분포는 표본평균의 0인이 아닌지 판단할 때 사용합니다. 어떤 맥주는 알코올 도수가 4.2%여야만 팔수 있다고 합니다.
  • 5잔의 샘플을 뽑아 알콜도수를 측정했습니다. (4.15%, 4.19%, 4.2%, 4.21%, 4.23%, 4.27%)
  • 첫번째, 평균을 구하고 두번째 분산을 구합니다.
  • 세번째 단계는 관측치에서 기준값을 뺀 것의 평균, 0.01%를 방금 구한 표본평균의 표준편차 0.02%로 나누는 작업입니다.
  • 0.01%/0.02%, 즉 0.5가 계산 되네요! 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 **t-값(t-value)**이라고 합니다.


  • t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려줍니다.

t-분포


  • v가 t-분포의 모양을 결정하기 때문에 v가 바로 t-분포의 모수입니다. 이를 가르켜 흔히 자유도(Degree of freedom) 라고 부르고 관측치 수에서 1을 빼서 계산합니다.
  • t-값을 구할 떄 차이를 표준화와 비슷한 상대적인 값으로 바꿨습니다. 예제에서처럼 5개와 같이 아주 적은 관측치의 차이를 설명할 수 있도록 고안한 것이 바로 t-분포 입니다.
  • 전체 평균을 알고, 4잔의 도수를 알면 나머지 하나는 바로 계산할 수 있으니까요. 자유도를 1 낮춘 데는 그만한 이유가 있었던 것입니다.

p-값과 t-테스트

  • 분포는 모수가 결정되면 모양이 정해집이나. t-분포의 경우에는 자유도가 4라는 것만 정해지면 t-분포의 모양이 결정될 뿐, 실제 5개의 관측치가 어떤 값을 가지는지는 전혀 상관이 없습니다.
  • t-값인 0.5가 얼마나 큰 차이를 의미하는지 살펴보겠습니다.


  • 자유도가 4인 t-분포에서 0.5라는 값은 0으로부터 그다지 멀리 떨어져 있지 않네요. 컴퓨터가 계산한 p-값은 0.3217입니다. 다시 말해 0.5보다 더 큰 차이가 날 확률이 무려 32.17%나 됩니다. 실제 맥주 도수가 4.2%라고 할 떄 원표나 공정에 따라 맥주 도수가 조금씩 파이가 날 수 있곘죠.
  • 그런데 맥주 5잔으로 테스트 했을 때 평균적으로 0.1% 포인트 차이가 나는건 대수롭지 않다는 이야깁니다. 왜냐면 그것보다 훨씬 큰 차이가 날 가능성이 32%가 넘기 때문이죠!
  • 반대로 평균 도수가 더 낮게 나올 수도 있겠죠? t-값으로 0.5나 -0.5보다 클 확률은 64.34%나 됩니다. -ㅔrkqtdl 0.6434라는 것은 셀제 맥주들의 도수에 문제가 없더라도 표본 10개 중에 예닐곱 개는 도수가 0.01% 포인트 이상 차이가 날 수 있다는 것지요. 유의수준 5%를 고려할 것도 없이 이 데이터의 평균값 차이는 의미가 없습니다.
  • 이처럼 평균값의 차이를 t-값으로 계산하고, t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-검정(t-test) 혹은 영어 표현 그대로 t-테스트라고 합니다. t-분포를 활용해서 p-값을 계산한 뒤 유의성 검정을 하는 것을 t-값을 계산했기 때문에 t-검정 이라고 하죠.
t-검정을 위해서 우리가 한 것 단 두가지. 1. 표본평균과 표본평균의 표준편차를 계산하고 기준값을 활용해서 t-값 계산하기. 2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교하기
  • 생각보다 간단하죠? 자, 그렇다면 이제 t-검정을 역으로 활용해 키 평균을 높여버린 영국의 연구팀과 데이터 싸움을 벌여보도록 하겠습니다.


part 3

웬만해선 이길 수 없다

주변을 둘러보면 모든 일에 부정적이고 의심이 많은 사람들이 있습니다. 웬만해서는 논쟁에서 그들을 이길 수가 없습니다. 충분히 의미 있는 증거도 모든 것을 의심하는 그들 앞에서는 무용지물이 됩니다. 이 사람들을 이기기 위해서는, 강력하고 묵직한 큰 증거 한방이 필요합니다.
  • 앞에서 살펴본 p-값 이야기를 계쏙해봅시다. -p 값이 얼마나 작아야 데이터 속 차이가 의미를 가질까요?
  • p-값에 대한 판단의 기준으로 0.5는 너무 크지만, 0은 또 너무 작습니다. 그 사이의 적절한 기준이 필요합니다.

유의수준

  • p-값은 데이터 속 차이가 얼마나 희귀한지 혹은 흔한지의 정도를 0부터 1사이의 확률로 표현합니다.
  • 오랜 시간 수많은 시행착오를 거쳐 5%라는 기준이 자리 잡은 것으로 보입니다. 이렇게 설정된 5%와 같은 기준을 유의수준(Significant level) 라고 합니다.
  • 다시 말하면, 유희수준이란 데이터의 차이가 유희미한 것인지 아닌지를 판단하는 기준인 것입니다. 만약 p-값이 유의수준보다 작다면 차이가 통계적으로 유의미하고, p-값의 유의수준보다 크면 우연히라고 충분히 일어날 수 있는 그저 그런 차이인 것으로 판단할 수 있습니다. 이 과정을 유의성 검정(Significance Test) 이라고 합니다.
  • 많은 시행착오를 거치고, 다양한 이야기가 오가다가 암묵적으로 5%라는 기준이 설정되었습니다. 이제부터 5% 오류 가능성을 품고 p-값과 유의수준을 비교해서 판단만 하면 됩니다.

필요악과 같은 분포

  • 개념을 이해하기도 빠듯한 우리가 직접 적절한 p-값을 구하는 건 힘듭니다.
  • 이미 훌륭한 통계학자들이 데이터의 구성과 상황에 따라 확률을 계산할 수 있는 틀을 만들어 놨습니다. 바로 '분포' 입니다.

키의 히스토그램과 정규분포

  • 데이터에서 직접 확률을 계산하는 것이 직관적이긴 하지만 현실적인 어려움들이 있습니다. 표본에 따라서 확률이 쉽게 바뀔 수 있고, 또 가끔은 지금 처럼 확률 계산이 간단하지 않을 수도 있습니다.
  • 그래서 간접적인 방법, 이론적인 분포를 활용합니다. 이와 같은 패턴을 보이는 데이터를 설명하는 대표적인 분포가 정규분포입니다. 아들 키라는 이름 대신 일반적인 변수 x에 대한 정규분포는 다음과 같은 확률밀도함수(Probability density function) 로 표현됩니다.


  • f(x)는 확률밀도함수로, '높이'를 의미합니다.
  • x에서 뮤를 빼고 시그마로 나눠주는 부분입니다. 바로 평균과 표준편차를 활용한 표준화 과정이네요!
  • 원래 뮤는 모집단에서의 평균, 시그마는 표준편차를 의미하지만 우리는 알수 없죠. 대신 데이터에서 계산한 평균과 표준편차를 사용해봅시다.
  • 그럼 150cm부터 200cm까지 모든 값을 넣어 밀도를 계산한 다음 아들 키 히스토그램 위에 곡선 형태고 그려볼까요?



  • 이 곡선이 평균 174.5cm, 표준편차 7.1cm 를 활용한 정규분포의 밀도를 보여줍니다. 표준화 부분에 제곱을 했기 때문에 좌우대칭이 되고, 마이너스가 붙어 있어서 값이 커질수록 감소하게 됩니다.
  • 어쨌든 밀도 곡선은 히스토그램의 패턴과 거의 일치합니다. 굳이 히스토그램을 그리지 않고서도 이 정규분포 곡선만 있으면 아들 키를 잘 설명할 수 있지 않을까요?
  • 정규분포 곡선을 활용해서 키가 180cm이살일 확률은 어떻게 구할 수 있을 까요? 바로 다름 그림처럼 곡선 아랫부분 중 180cm이상인 면적만 계산 하면 됩니다.
  • 최솟값부터 최댓값까지 영역의 면적을 구하면 1이 나오겠지만, 그 중간, 일부 구간의 면적을 구하면 1보다 작은 숫자, 확률이 계산되는 것이죠.


  • 실제로 면적은 계산하면 21.91%가 나옵니다.
  • 정규분포에서는 뮤와 시그마가 정해지면 f(x)의 형태도 정해졌습니다. 이렇게 뮤와 시그마처럼 분포의 특징을 결정하는 값들을 모수(Parameter) 라고 합니다.
  • 유명한 분포들은 어떤 것들이 있고 이 분포들의 전문 분야는 무엇인지, 또 어떤 차이를 설명할 떄 사용할 수 있는지를 살펴보려고 합니다. t-분포, 카이제곱-분포. F-분포 등 이름만 들어도 무시무시하지만 알고보면 우리를 도와줄 친절한 통계학자들의 배려가 묻어 있습니다. 그럼 그중 가장 덜 무서운 t-분포부터 살펴봅시다.


part 3

지구는 우주의 티끌

믿기 힘들지만 지구는 우주에서 백사장의 모래 한알처럼 작은 존재에 불과합니다. 우리 생각보다 세상은 더 넓습니다. 그만큼 데이터의 세상도 넓고요.

표본과 모집단.

  • 백사장에 있는 수억 개의 모래알 중 선택된 만 개가 한 줌 안에 들어와 있는 것입니다.
  • 이것이 바로 흔히 샘플이라고 부르는 표본(Sample)의 개념입니다.
  • 수억 개 모래알이 있는 백사장을, 통계에서는 모집단(Poplation) 이라고 합니다.
  • 눈 앞에 있는 데이터 하나를 그냥 분석하는 것도 벅찬데, 통계는 왜 굳이 표본 이야기를 써내서 우리를 힘들게 할까요? 이유는 '비교' 때문입니다. 우리는 앞서 PART1과 PART2를 통해 차이를 확인하고 설명하는 방법들을 간단히 살펴봤습니다. 데이터 속에는 다양한 차이들이 있는데, 데이터만 있으면 무조건 그 차이를 계산할 수 있습니다. 평균을 계산해서 관측치들을 비교하고, 교차표를 이용해 올림픽별로 획득한 매달의 비중 차이를 확인했죠.
  • 살충제 6개의 효과도 살충제별로 평균을 구해서 차이를 확인했습니다. 그런데 문제는 이 차이가 우연인지 운명인지 판단하지는 못했다는 것입니다.
  • 아들 키의 평균이 아빠 키의 평균보다 2.5cm 큰 것을 확인했지만, 이 차이가 의미가 있는지 없는지는 알 수 가 있습니다. 실제로 아빠 키와 아들 키의 평균을 거의 똑같은데, 우연히 아들 키가 큰 1,078쌍의 부자를 대상으로 조사했을 수도 있죠. 우리가 가지고 있는 데이터, 즉 하나의 표본이 우연히 큰 값을 가졌을 뿐, 만약 새로운 표본을 뽑으면 똑같은 결과가 나오지 않을 수도 있습니다.
  • 자, 그럼 '아들 키가 아빠 키보다 의미 있을 만큼 충분히 크다'라는 것을 보이고 싶다면 무엇을 해야 할까요? 비교를 해야합니다. 비교를 하려면 비교 대상이 필요하죠. 바로 이 문제를 표본의 개념이 도와줄 겁니다.

통계량과 분포

  • 이번엔 관측치도 아니고, 변수도 아니고 데이터를 비교할 겁니다. 해변에서 놀고 있는 친구에게 "이 모래는 진짜 곱다."고 이야기 했는데 친구가 말합니다. "이 모래나 그모래나 똑같지!" 라고 답합니다. 어떻게 해야 할까요? 비교를 하면 됩니다! 내 손안의 모래랑 해변의 모래를 비교하는 거죠.
  • 내 소중한 모래알들의 평균 굵기는 3 입니다. 친구가 10번이나 퍼온 오래 한줌의 평균 굵기를 계산 했더니 다음과 값았습니다.


  • 각 평균값을 비교해도 내 소중한 모래알의 평균 굵기 3보다 작은 것은 없습니다. 즉, 내 모래알이 정말 곱다는 걸 보여주고 있죠.
  • 그럼에도 결과에 승복하지 못한 친구가 그새 100만개의 표본을 더 가지고 왔습니다.


  • 각각 10,000개의 모래알 평균 귥기를 계산한 100만 개의 표본평균을 0부터 10까지 0.1 간격으로 나눠 히스토그램을 그렸습니다.
  • 이렇게 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴을 분포(Distribution) 라고 합니다.
  • 우리의 소중한 모래 한 줌의 평균 굵기는 3이었는데요, 히스토그램에서 3의 위치를 확인해보면 이 해변에 있는 대부분의 모래는 굵기가 3보다 크며 모래 굵기가 3보다 작은 건 아주 드물다는 것을 볼 수 있습니다.


  • 물론 더 고운 모래가 있긴 하지만, 3정도로 고운 모래는 상위 1~2%에 들 정도니 이제 인정을 해줘야 할 것 같습니다.
  • 이처럼 우리가 가지고 있는 단 하나의 데이터가 얼마나 의미 있는 차이를 가지고 있는지 확인하려면 표본의 개념을 끌어와 분포를 만들어야합니다
  • 내가 가진 데이터의 값이 충분이 작은지, 큰지 혹은 충분히 무난한 값인지를 상대적인 위치로 확인하는 것이죠.

자연스러운 확률

  • 앞서 두 연속형 변수가 어떤 관계를 가지고 있는지 살펴볼 때 상관계수를 계산했습니다. -1 부터 1 사이의 값을 가지는 이 수는 두 변수가 같이 커지는지, 아니면 한쪽이 커지면 다른 한쪽은 작아지는지, 아니면 서로 관련이 없는지를 알려줬습니다. 그렇다면 서로 전혀 관력이 없는 변수를 두 개를 데려와서 상관걔수를 구해보면 어떨까요? 당연히 서로 관련이 없는 변수들이니까 상관계수는 0이 나오지 않을까요? 결론부터 말하자면, 평균적으로는 0이 나옵니다. 그러나 관련이 없는 두 변수의 상관 계수가 항상 0은 아니죠. 모의 실험 예제를 통해 살펴봅시다. 10,000개의 랜더ㅁ 샘플을 만들었습니다. 그리고 10,000개의 상관계수를 히스토그램으로 그렸습니다.


  • 히스토그램에서 알 수 있듯이 서로 상관이 없는 두 변수의 상관계수를 구했다고 해서 항상 0이 나오는 것은 아닙니다. 다만 그 중심에 0이 있는 걸 보면 굳이 계산해보지 않아도 상관계수의 쳥균은 0이라고 짐작할 수 있습니다.
  • 10,000 개의 상관계수중에서 +-0.3이 넘는 상관계수를 세어보니 22개가 있습니다. 통계에선 0.22%의 확률로 일어날 수 있는 사건이라고 봅니다.
  • 반대로 운명이 있습니다. 바로 35% 부전자전, 유전 연결고리에서 살펴본 1,078쌍의 아빠와 아들의 키 데이터입니다. 이 둘의 상관계수를 0.5였죠. 우리는 두 변수의 관계를 0.5라고 표현하긴 했지만, 그 숫자가 진짜 의미가 있는지 아닌지는 판단하지 못했습니다. 그러나 이제는 할 수 있습니다! 우선 목표는 '아빠 키와 아들 키의 상관계수 0.5가 의미가 있다'는 것을 입증 하는 것입니다.
  • 10,000번의 1,078쌍의 어색한 두사람 사이에서는 +-0.5가 넘는 상관계수가 한 번도 나오지 않았습니다. 즉, 0.5라는 아빠 키와 아들 키의 상관계수는 '두 변수가 전혀 상관이 없다'는 가정하에서는 발생 확률이 0.0000001%쯤 되는 매우 특이한 일입니다.
  • 그렇다면 두 연속현 변수 말고 두 범주형 변수의 관계는 어떨까요? 두 범주형 변수의 관계 역시 비슷한 방법으로 확인할 수 있습니다. 이번에는 온라인 배너 광고를 통해 이용자의 반응을 살펴볼까요? 온라인 배너 광고는 흔히 AB 테스트라는 방법으로, 이용자에게 두 가지 배너 중 랜덤으로 하나를 보여주고 반응을 보려고 합니다. 두 배너 중에서 어떤 배너가 더 매력적인지 이용자 100명을 대상으로 확인해봤더니 배너를 보고 클릭해서 반응한 사람과 무시한 사람 두 유형으로 나뉘었습니다.


  • 마케팅의 성과를 판단하기 위해서 우리는 또 다시 비교를 해야합니다. 역시 어떤 분포가 필요하죠. 현실에서는 똑같은 마케팅을 반복하기 어렵지만, 통계에서는 랜덤 샘플로 이와 비슷한 데이터를 수없이 만들 수 있습니다. 배너의 종류를 의미하는 첫 번쨰 변수는 A가 50번 B가 50번 랜덤으로 나오도록 하고 이용자의 반응 여부를 의미하는 두 번쨰 변수는 랜덤으로 성공이 60번, 실패가 40번 나오게 만듭니다.
  • 두 변수의 값 100개가 어떻게 채워지는가에 따라 교차료의 네 칸은 달라지겠지만, 행 합계와 열 합계 그리고 전체 합계는 항상 똑같습니다.
  • 1,000개 랜덤 샘플에서 배너 A에 반응한 사람의 수가 몇명이나 되는지 살펴봅시다.


  • 역시 예상대로 30명을 중심으로 조금씩 크거나 작은 값을 가집니다. 그럼 배너 B에 반응한 사람 수도 60-30으로 계산되므로 30명 혹은 조금더 많거나 적다는 것을 의미합니다.
  • 그런데 실제로 우리가 실행한 마케팅에서 배너A에 반응한 사람 수는 35명입니다. 실제 데이터의 35라는 값을 가정으로 만든 분포를 넣어 볼까요? 10,000번의 표본 중에서 실제 값 35보다 큰 값이 나온 표본은 단 39개입니다. 확률로 계산하면 3.9%네요. '베너의 반응률에 차이가 없다'라는 가정에서 100명 중 배너A에 반응한 사람 수가 35보다 클 확률은 고작 3.9%라는 것입니다. 우연히라면 100번 중에 4번 정도 일어날 수 있는 드문 일이 우리 눈앞에 벌어진 것이죠. 단순히 우연이라 하기에는 충분히 큰 차이를 보여줍니다.
  • 지금까지 데이터가 가진 어떤 차이의 의미를 설명하기 위해서 분포의 힘을 빌렸습니다. 차이가 없는 상황을 가정하고, 우리가 가지고 있는 데이터와 모양새만 똑같은 랜덤 샘플들로 분포를 만들어 냈죠. 그리고 그 분포에 단 하나밖에 없는 실제 데이터의 값을 집어넣고 상대적인 위치를 확률로 계산했습니다. 예를 들어, 예제에서 35라는 실제 값은 분포속에서 상위 3.9%라는 확률을 얻었습니다. 이 확률값을 p-값(p-value) 이라고 합니다.
  • 그리고 이 p-값은 차이가 없다는 가정하에 우리의 데이터가 얼마나 특이한 값인지를 의미합니다. p-값이 0에 가까워, 작으면 작을수록 차이가 없다고 보기엔 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미하고, p-값이 1에 가까워, 커지면 커질수록 충분히 우연하게 일어날 수 있는 흔한 차이를 의미합니다. 그렇다면 p-값이 도대체 얼마나 작아야 할까요? 차이의 의미가 있다. 없다는 판단하는 기준이 p-값이라면 그 기준값(threshold) 은 얼마일까요?


part 3

우연과 운명 사이

PART1 에서는 관심 변수 속 차이를 확인하고, PART2에서는 그 차이를 설명변수와의 관계로 설명하는 방법들에 대해서 살펴봤습니다. 그러나 지금까지 우리가 간과하고 있었던 부분이 있습니다. 바로 그 차이의 의미입니다. 혹시 이 차이가 어쩌다 나온 차이고 재수 좋게 설명되는 관계인 걸 아닐까요?
  • 10년 넘게 연락이 없던 친구를 길 가다 우연히 만나면 어떨까요? 그 10년 뒤 또다시 그 친구를 우연히 만나게 된다면 어떨까요? 그 10년뒤 또 만난다면? 이 정도면 도저히 그냥 우연이라고 할 수 없어서 "만날 운명이었다"라고 표현합니다. 수많은 사람들이 영향을 주고 받는 미래는 예측할 수 없고 매 순간 우연으로 우리에게 다가옵니다.

  • 데이터 분석에서의 차이도 마찬가지 입니다. 올림픽 대회화 메달 색은 전혀 관련이 없는데, 우연히 리우에서 은메달을 많이 못딴 것은 아닐까요? 아들키를 아빠키로 설명할 수 있다지만, 사실은 그저 1,078개의 가족 데이터에서만 우연히 맞아떨어진 건 아닐까요? 우연이 아니라면 어떻게 증명해 보일수 있을까요? 변수 속의 차이나 데이터 속 변수의 관계가 우연히 아니라는 것을 보이는 과정을 테스트, 우리말로는 검정이라고 합니다. 우연이라고 하기에는 설명이 불가능할 만큼 충분히 큰 차이 매우 밀접한 관계가 있다는 것을 입증하는 것이죠. 그렇다면 얼만큼 커야 충분히 크다고 할 수 있을까요?

  • PART3 에서는 이와 관련된 어려운 이야기를 나눕니다. 충분히 큰지 아닌지를 판단하기 위해서는 기준이 필요합니다. 내 데이터로부터 계산된 값을 비교할 기준이 필요하죠. 그런데 우리에게 데이터는 하나밖에 없고, 비교를 위해선 적어도 2개의 무언가가 필요합니다. 그래서 통계는 표본이라는 개념을 활용합니다. 분명히 우리에게는 가지고 있는 데이터 하나가 전부인데, 통계는 그 외에도 똑같은 데이터가 수없이 많다고 할 겁니다. 어렵지만 이 과정을 거쳐야 우리 데이터가 우연이 아니라 운명이라는 것을 설명할 수 있습니다.


PART3 목차(배울것)

  • 지구는 우주의 티끌 : 표본과 모집단, 통계량 분포, 자연스러운 확률, 유의수준, 필요악 같은 분포, 키의 히스토그램과 정규분포
  • 남자평균 174.9cm, 여자 평균 162.3 cm : 표본평균의 표준편차, 표본평균의 표준편차 계산, t-값과 t-분포, p-값과 t-테스트
  • 관계 검증을 위한 테스트 : t-검정의 활용, 카이제곱분포를 활용한 독립성검정, F-분포를 활용한 분산분석
  • 아빠 키 유전 확률, 25% : 상관계수, 선형회귀모형, 회귀분석


+ Recent posts