part 2

차이를 설명하는 통계 개념

점심 뭐 먹지? (분산분석)

분산분석? 3개 이상의 집단에 대한 평균차이를 검증하는 분석 방법
  • 회사들이 최근에는 데이터 분석에 많은 관심을 보이고 있습니다. 사람들이 더 매력적인 콘텐츠로 옮겨가는 속도 만큼 회사는 빨리 대처를 해야 하기 떄문입니다.
  • 문제는 사람들이 뭘 좋아할지를 모른다는 것이죠. 도무지 예측을 할 수가 없는 세상입니다.
  • 일단 여러 개를 만들고 사람들의 반응을 살피는 것이죠. 이 과정을 보통 AB 테스트라고 합니다. 광고 배너를 A안과 V안 두 개로 나눈 다음 랜덤으로 사람들에게 노출하고, 어느 쪽 배너가 더 관심을 끄는지 사람들의 반응을 분석하는 테스트 방식 입니다.
  • 수십 년 전 통계학자들은 이미 비슷한 경험을 했고 이 상황에서 아주 적합한 이론들을 만들어 놨습니다. 서로 다른 비료를 뿌리고, 화합물의 원료 비율을 수없이 테스트 하면서 분산분석(ANONA, Analysis Of VAriance) 이라는 아름다운 이론을 만들었습니다.

ABCDEF 테스트

  • 성능 테스트 데이터를 살펴 보겠습니다. 여기 6개의 살충제 A, B, C, D, E, F 가 있습니다.
  • 어느 살충제가 효과가 좋은지 살펴보기 위해서 실험을 하기로 했습니다.
  • 똑같은 수의 벌레가 있는 6개의 방에다가 살충제를 하나씩 뿌리고 몇 마리가 죽는지 확인하는 것입니다.
  • 살충제 하나당 12번의 실험을 반복했습니다.


  • 이번에는 기억에서 가물가물한 상자그림을 그려 보려 합니다. 우리의 관심 변수는 각 살충제를 뿌렸을 떄 '죽은 벌레 수' 입니다.


  • 살충제 A, B, F는 상자그림이 전반적으로 위쪾에 떠 있고, 살충제 C, D, E는 아래쪽에 깔려 있네요.
  • 과연 살충제에 따라 죽은 벌레 수의 차이가 정말 의미 있는 차이일까요?

분산과 분산분석

  • 6개의 살충제 성능 차이를 분석하기에 앞서 잠깐 공부벌레 여섯 친구의 성적을 살펴보겠습니다.
  • 먼저 여섯 친구들이 중간 시험에 받은 점수를 수직선에 표현해 보겠습니다.


  • 파란색 친구들은 집에서 혼자 공부하고, 회색 친구들은 학원을 다닌다고 합니다.
  • 혼자 공부하는 친구들의 평균은 370, 학원을 다니는 친구들의 평균도 370이 나왔습니다. 정확히 전체 평균과 똑같네요.
  • 친구들의 점수 차이는 개개인의 차이일 뿐 학원을 다니는 혼자 공부하든 상관이 없다고 볼 수 있습니다.
  • 하지만 다음과 같은 상황에서는 어떨까요?


  • 회색 친구들은 학원을 다닌다고 합시다. 물론 전체 평균은 변함없이 370입니다.
  • 그런데 혼자 공부하는 친구들의 평균점수는 380점이고, 학원을 다니는 친구들의 평균 점수는 360입니다.
  • '공부 방법'이라는 변수 혹은 조건에 따라 조건부 평균이 다르네요.
  • 혼자 공부하는 세 친구와 학원을 다니는 세 친구를 두 그룹으로 나눠서 평균 점수에 배치하면 그 차이는 더욱 확인히 드러납니다.


  • 혼자 공부하는 세 친구들의 평균 점수가 20점이나 높은 것을 봐서 '혼자 공부하는 것이 고득점과 관련이 있다'고 볼수 있습니다.


  • 요약하자면, 변수를 조건으로 활용하면 차이에 대한 이유는 어느정도 확인할 수는 있지만, 그럼에도 알 수 없는 개인차가 존재한다는 것 입니다. 이것이 분산분석의 핵심입니다.
  • 설명변수는 관측치들이 왜 다른지에 대한 궁금즐을 일부분은 해소해주지만, 끝내 알 수 없는 부분도 있다는 것입니다. 그렇다면 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있습니다. 설명 변수가 우리의 궁금증을 충분히 해결했는지 아닌지가 기준이 되겠죠.
  • 다시 살충제의 성능을 실험하는 방으로 돌아가 보겠습니다.


  • 72번의 실험에서 평균적으로는 9.5마리의 벌레들이 죽었습니다.
  • 그러나 C, D, E 살충제를 사용했을 때 죽은 벌레 수는 채 5마리가 안되고 살충제 A, B, F 를 뿌렸을 떄는 평균적으로 15마리씩 거뜬히 죽었습니다.
  • 물론 살충제 D로 12마리를 죽이기도 했고 살충제 B가 7마리밖에 못죽인 실험도 있지만, 12번의 실험 결과에서 대체적으로 나온 숫자에 비하면 큰 영향을 주지 못합니다.
  • 72개의 숫자로 분산을 계산하면 51.9가 나옵니다. 각 숫자에서 평균 9.5를 빼고 제곱한 다음 모두 더해 (72-1)로 나눠서 계산 했죠.
  • 분산 분석은 (71-1)로 나누기 전의 제곱합을 사용해서 설명할 수 있습니다.
  • 72개의 모든 숫자에서 똑같이 전체 평균 9.5를 뺴서 제곱하고 더하면 3,684가 나옵니다.
  • 이 숫자의 정확한 의미를 알기 어렵지만, '죽은 벌레 수'라는 변수의 차이의 정도로 생각할 수 있습니다.
  • 편의상 '죽은 벌레 수'를 y라고 하면 다음 처럼 수식으로 표현할 수 있습니다.


  • 이번에는 또 다른 제곱합을 계산 하려고 합니다.
  • 관측치들의 실제값이 아니라 살충제라는 자신이 속한 그룹의 평균값으로 대체했습니다. 이 새로운 72개의 값에서 모두 전체평균 9.5를 뺴고 다시 제곱합을 계산 합니다.
  • 특이한 것은 같은 살충제 12개의 관측치는 모두 같은 값을 가지게 된다는 것이죠. 실제로 계산 하면 2,669가 되고 그룹평균으로 바뀐 변수 이름을 yg라고 하면 역시 다음처럼 수식으로 표현할 수 있습니다.


  • 이제 마지막 제곱합 입니다. 실제값과 그룹평균의 차이를 제곱하고 합하는 것이죠.
  • 계산은 조금 복잡하지만 수식으로 표현하면 다음처럼 간단하게 나타낼 수 있습니다. 값은 1,015가 됩니다.


  • 조금씩 다르긴 하지만 지금까지 3개의 제곱합을 계산했습니다. 그런데 세 제곱합 사이에는 신묘한 관계가 있습니다. 두 번쨰와 세번쨰 제곱합을 더하면 정확하게 첫 번쨰 제곱합과 같죠!
3,684 = 2,669 + 1,015
  • 믿기지 않겠지만, 실제로 계산하면 정확히 일치하는 것을 확인할 수 있습니다. 그렇다면 숫자말고 수식으로 살펴 볼까요?


  • 첫 번째 제곱합은 우리의 관신 변수의 분산, 바로 정보량입니다. 그런데 이 분산은 정확히 2개로 나눠지는 데요 두 번쨰 제곱합이 의미하는 그룹에 따른 차이와 세번째 제곱합이 의미하는 알수 없는 개인차 입니다. 두 번째 제곱합은 각 관측치의 실제값 대신 그룹의 평균을 사용해서 계산했습니다. 즉, 전체 평균에 비해서 각 그룹의 평균이 얼만큼 차이가 큰지를 계산하는 것이죠.
  • 그럼 이 값은 관심 변수의 정보 중에서 그룹에 따른 차이로 설명할 수 있는 부분이 됩니다. 세 번째 제곱합은 다릅니다. 실제값에서 그룹 평균을 뺐는데요. 바로 그룹 차이로는 설명할 수 없는 나머지 부분을 의미합니다. 각자 의미를 가지고 있는 3개의 제곱합이 실은 이렇게 아름다운 관계를 가지고 있습니다.
  • 중학교때 배운 피타고라스의 정리 c^2 = a^2 + b^2과 닮은 것을 알 수 있습니다. 또 한 '데이터 공간(c^2)이 다른 변수들로 설명되는 공간(a^2)과 전혀 관련이 없어 알 수 없는 공간(b^2)으로 나눠진다' 라는 공간의 개념도 담겨 있습니다. 이와 같이 정보를 의미하는 관심 변수의 분산이 어떻게 분해되는지 살펴본다고 해서 분산분석이라는 이름이 붙었습니다.
  • 물론 이것이 분산분석의 끝은 아닙니다. 분산 분석의 목적이 무엇인가요? 그룹에 따라서, 콘텐츠에 따라서 결과에 충분히 큰 차이가 있는지 없는지를 판단하는 것이죠. 그런데 문제는 우리가 아직까지 '충분히 큰 차이'에 대한 개념을 배우지 못했다는 겁니다. 지금까지 계산한 세 제곱합으로 바로 판단할 수는 없습니다.
  • 물론, 관심 변수의 분산 중에서 글부을 나누는 역할은 한 설명 변수로 설명할 수 있는 부분이 크면 클수록 그룹에 따른 차이가 크다고 볼 수는 있겠지만, 도대체 얼마나 커야 할까요? 그 답은 이어지는 PART3에서 찾아봅시다.


part 2

차이를 설명하는 통계 개념

아낌없이 주는 의사결정나무

  • 데이터의 차이를 확인하고 설명하기 위해선 조건부 확률, 조건부 평균을 구헤야하는 건 알지만, 방법을 생각하는 건 참 어렵습니다.
  • 관심변수는 하나밖에 없다지만, 설명 변수는 여러개일 수도 있어서 도무지 어떤 변수를 어떻게 활용해야할지 막막합니다.
  • 그러나 너무 걱정할 필요는 없습니다. 통계학자들이 데이터를 효과적으로 분석히기 위한 많은 도구를 만들어 놨으니까요.

모자이크 그림

  • 의사 결정 나무 모현을 살펴보기 전에 분할 정복 전략을 살펴 봅시다.
  • 전체 데이터를 한눈에 파악하고 차이를 잡아내는 것은 어려운 일입니다.
  • 그래서 데이터를 여러 개의 작은 부분으로 쪼개고, 나눈 부분별로 분석하는 방법을 분할정복(Divide and conquer) 이라고 합니다.
  • 분할 정복 개념을 살펴보기 위해 목숨이 위태로운 비극정인 상황 속에서도 여자와 어린 아이들은 먼저 구한 이야기로 깊은 감명을 준 타이타닉 호의 인명 피해 데이터를 한번 살펴 봅시다.


  • 타이타닉 호에는 2,201 명이 타고 있습니다. 빙산에 부딪친 타이타닉 호는 침몰했고 711명만 살아남았습니다. 이 중에는 남자도 있고 여자도 있고 성인도 있고 아이도 있었습니다. 비싼 돈을 주고 1,2 등석에 탄 사람, 3등석에 탄 사람 그리고 선원도 있었습니다.
  • 2,201명의 승객을 좌석등급, 성별, 연령 구분에 따라 정리하고 생존 여부를 데이터로 정리했습니다. 변수가 4개라서 단순한 교차표로 표현하긴 어렵지만 교차표를 묶어서 정리해봤습니다.
  • 교차표를 보면 연령, 성별, 좌석 등급에 따라 생존자와 사망자 수를 확인할 수 있습니다. 예를 들면, 1등석에 탄 성인 여자 중에서 140명은 생존했고, 4명은 사망했습니다. 선원은 모두 성인이며 그중 남자는 670명이 사망하고 192명만 살았습니다.
  • 이렇게 교차표에서 좌석등급, 성별, 연령에 따라 몇 명이 생존했고 사망했는지 확인할 수 있습니다.
  • 그렇지만 역시 숫자로 하나하나 표현하는 것은 데이터를 한눈에 보기가 어렵기 때문에 그림으로 표현해 봅시다.


  • 사각형의 폭은 좌석등급에 타고 있던 사람들에 수에 비례에서 결정됩니다.
  • 그림만 봐도 3등석 탑승자와 선원이 1, 2 등석 탑승자보다 많다는 것을 확인할 수 있습니다. 이렇게 큰 사각형을 좌석 등급에 따라 작은 사각형으로 나눈 다음, 다시 각 등급을 나타낸 사각형을 성별에 따라 가로로 2등분합니다.
  • 생존 여부에 따라 사각형을 가로로 나누고 생존자는 파란색, 사망자는 회색으로 표현해 보겠습니다.
  • 회색과 파란색을 묶은 총 16개의 사각형들은 좌석등급, 성별, 연령 구분의 조합으로 만들어진 작은 그룹들입니다.
  • 각 그룹에서 파란색 상자의 비율이 높으면 생존자가 더 많고, 회색의 비율이 높으면 사망자가 더 많은 것을 의미합니다.
  • 전해 듣던 대로 여자와 아이들 그리고 좌석등급이 높은 사람들의 생존율이 확연히 높은 것을 눈으로 확인할 수 있습니다.
  • 그러나 한가지 의문이 남습니다. 이게 최선일까요? 예를 들면, 3등석 여자 승객을 살펴보면, 아이와 성인의 생존율에 큰 차이가 없습니다. 그 두 사각형을 합쳐도 큰 문제가 없죠.
  • 만약 나눠진 그룹들끼리 큰 차이가 없다면 굳이 나눠서 설명할 필요가 없을 겁니다. 그렇다면 두 그룹의 차이를 보다 명확하게 볼 수 있는 방법은 없을까요? 바로 이떄 필요할 것이 의사결정나무 모형입니다.

의사결정나무 모형

  • 히스토그램이나 막대그래프를 그려보면 관심 변수 속 관측치들이 서로 다른 값을 가지는 것이 보입니다. 그리고 데이터 분석을 통해 그 차이를 다른 변수들로 설명하려고 합니다.
  • 여러개의 설명 변수는 다양한 조건을 만들고 이 조건에 따라 관심 변수가 차이가 있다는 것은 확인할 수 있지만, 변수가 많이질수록 가능한 조건의 수도 너무 많아집니다.
  • 이를 설명하기 위해서 시작한 분석인데, 큰 차이도 없는 조건들까지 다 살펴보는 것은 무의미합니다.
  • 앞서 모자이크 그림의 예제와 같이 타이타닉 호 탑승자의 생존율의 차이를 설명하기 위해서 세 개의 설명 변수로 조합 가능한 16개의 조건을 모두 살펴볼 필요는 없다는 것이죠.
  • 그래서 휼륭한 통계학자들은 모든 설명 변수가 아니라 중요한 변수들만 선택해서 차이를 설명하는 다양한 통계 모형(Statistical Model) 을 만들었습니다.
  • 모형의 알고리즘을 이해하는 것은 어렵지만, 원리를 이해하고 잘 활용하면 손쉽게 정보를 얻을 수 있습니다. 그중에서 직관적으로 이해할 수 있는 의사결정나무 모형(Decision tree) 에 대해 살펴봅시다.
  • 의사결정나무가 가지를 뻗는 방식을 그림으로 살펴보면 다음과 같습니다.


  • 예를 들어 초등학교에서 안경을 쓴 학생의 비율이 30%라고 합시다. 학년을 기준으로 고학년과 저학년을 나눠봤더니, 고학년 중에서 안경 쓴 학생의 비율은 29% 였습니다.
  • 반면, 성별을 기준으로 나눠봤더니, 남학생들의 비율은 40% 여학생들의 비율은 20%가 되었습니다. 그럼 '학년'과 '성별' 중에서 어느 변수가 '안경을 쓸 확률'을 더 잘 설명할까요?
  • 당연히 더 큰 차이를 만들어 내는 '성별'입니다
  • 의사결정나무 모형은 이렇게 그룹끼리 더 큰 차이를 만드는 변수를 찾아줍니다. 심지어 한 번이 아니라 계속해서 가지를 뻗고, 또 변수를 찾습니다.


  • 최적의 조건으로 나뉜 각각의 그룹에서 또 다시 조건을 찾습니다. 더 작은 2개의 그룹을 만들 최적의 조건을 찾으면, 전체 관측치를 더 잘게 나누죠.

  • 그냥 나눠지는 것이 아니라 더 큰 차이를 보이는 그룹별로 나누어 차이는 점점 벌어집니다.

  • 그리고 이후 적절한 순간이 오면 가지치키를 해서 의미 없는 잔가지를 덜어내죠.

  • 타이타닉호에 탑승했던 2,201명 중 생존율이 높았던 사람들은 누구일까요?

  • 앞서 모자이크 그림에서 다뤘듯이 타이타닉 호의 탑승자들을 좌석등급, 성별, 연령으로 구분해서 16개의 그룹으로 나눌 수도 있겠지만, 굳이 복잡하게 16개 그룹을 다 쓸 필요는 없습니다.

  • 이번에는 좀 더 간단하게 분석 도구 R에서 구현된 의사결정나무 모형을 써써 최적의 조건을 찾아보겠습니다.


  • 의사결정나무 모형이 찾은 최적의 조건은 '성별=남자'입니다.
  • 이조건과 일치하는 사람들은 왼쪽으로, 나머지는 오른쪽으로 이동합니다.
  • 제일 왼쪽 남자 어름 그룹은 생종율이 20%로 가장 낮네요. 이 이후로 나무는 더 이상 가지를 뻗지 않았습니다. 더 이상 가지를 뻗어 봤자 큰 차이가 없다고 판단한 것입니다.
  • 의사결정나무 모형은 3개의 설명 변수로 나눌 수 있는 16개의 그룹을 모두 만드는 대신 5개의 그룹을 만들었습니다.
  • 남자 어른의 생존율은 20%로 가장 낮았고 1, 2등석의 여자와 여자 선원, 아이의 생존율은 93%, 100%로 매우 높은 것을 보여줍니다. 당연히 더 많은 그룹을 쓸수록 더 세부적인 생존율 차이를 확인할 수 있겠지만, 의사결정나무 모형은 의미 있는 차이를 보여주는 5개의 그룹만으로 생존율의 차이를 효율적으로 나타냈습니다.
  • 이를 활용해 여러 작은 그룹들을 만들고 그룹에 포함된 관측치들이 어떤 확률을 계산했죠. 바로 '조건부 확률'입니다.
  • 비록 의사결정나무 모형 자체를 구현하는 알고리즘은 상당히 복잡하지만, 결과는 직관적이고 이햐하기가 쉽죠. 통계학 때문에 통계를 두려워할 필요는 없습니다.
  • 이처럼 유용한 도구를 잘 사용하고 좋은 알고리즘을 만든 통계학자에게 감사한 마음만 가지면 됩니다. 다음으로는 조금 오래된 또 다른 통계학자들의 노력의 산물을 살펴 봅시다.


part 2

차이를 설명하는 통계 개념

최저가, 알고 보니 옵션가

  • 인터넷에서 서로가 최저가라고 외치는 곳은 많지만, 실제로 최저가를 찾는건 힘듭니다. 최저가인 줄 알았는데 옵션에 따라 추가금이 붙거든요.

조건부 확률과 조건부 평균

  • 아빠 키-아들키 데이터를 떠올려 봅니다. 그중 아들 키라는 변수 속에 있는 1,078명의 아들들을 생각해봅시다.
  • 이 중 누군가는 키가 150cm도 안 되고, 또 다른 누군가는 200cm가 넘습니다. 이들 사이에는 무언가 차이가 있지만 이유를 알 수는 없습니다.
  • 평균키를 계산했지만 '174.5cm'라는 평균은 변수의 특징을 보여줄 뿐 키 차이를 설명하지는 못합니다.
  • 즉, 관심 변수는 자기 자신을 통해서는 평군과 같이 변수의 전반적인 특징을 설명하거나 다섯 숫자요약을 통해 관측치들의 눈에 띄는 차이를 확인하는 것이 최선입니다.
  • 왜 그런 차이가 나는지 이유를 설명할 수는 없죠. 그래서 '왜'를 설명할 수 있는 다른 변수가 필요합니다.
  • 앞서 상관계수를 통해서 아빠 키와 아들 키가 0.5라는 양의 상관관계를 가지는 것을 확인했습니다.
  • 전체 아들 중에서 키가 180cm 이상일 확률은 22%지만 '아빠 키가 평균 이상' 이라는 조건(Condition) 을 추가하면, 확률은 35%로 높아집니다.
  • 이렇게 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균 이라고 합니다.

심슨의 역설

  • 모 대학에 지원한 남녀 학생들의 합격률을 조사해보니 다음과 같았습니다.

성별지원자합격자합격률
남자1006868%
여자1004242%
전체20011055%
  • 요즘 세상에 남자와 여자의 합격률이 이렇게나 다르다니, 무언가 잘못 된 것 같습니다.
  • 그런데 대학측에서 오히려 여자의 합격률이 높다고 주장합니다. 말도 안되는 것 같지만 대학측이 내놓은 자료를 살펴 볼까요?

학과성별지원자합격자합격률
A학과
남자806480%
여자201890%
B학과
남자20420%
여자802430%
  • 학교 측의 자료는 처음 자료와 다르게 '학과'라는 변수가 하나 추가되어, 좀 더 세분화된 합격률을 보여줍니다. 먼저 A학과를 살펴보면 남자의 합격률은 80%, 여자의 합격률을 90%로 합격률에 차이가 있네요.

  • 그럼 B학과는 어떨까요? B학과 역시 여자의 합격률이 더 높았는데, 뜯어보니 A학과 B학과 모두 여자의 합격률이 10%포인트나 더 높습니다.

  • 분명 남자의 합격률이 더 높았는데, 뜯어 보니 A학과 B학과 모두 여자의 합격률이 10% 포인트나 높습니다.

  • 이 예제는 절대 모순이나 말장난이 아닙니다. 심슨의 역설(Simpson's paradox) 로 알려진 실제 일화 입니다.

  • 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과 입니다.


  • 만약 성별에 따른 선호 학과에 차이가 없었다면, 즉 설병과 지원 학과가 완전히 독립이였다면 A학과와 B학과에 지원한 남자와 여자의 수가 50명으로 동일했을 겁니다.

  • 그러나 남자와 여자가 선호하는 학과가 다르고, 또 학과별로 합격률이 다르다 보니 결과적으로 오해할 수 있는 결과가 나왔던 것이죠.

  • 결국 데이터 분석은 차이를 확인하고 설명하는 과정입니다. 보통 평균이나 교차표를 계싼하면 관심 변수의 특성을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 담겨 있습니다.


  • 앞서 우리는 상관계수나 교차표를 통해서 관심 변수화 설명변수가 어떤 관계를 맺고 있는지 확인하는 방법을 살펴봤습니다. 그리고 이제 조건부 확률과 조건부 평균으로 넘어오면서 둘 사이의 관계를 조금 더 명확하게 알 수 있었습니다.

  • 설명 변수로 다양한 조건을 만들고, 조건에 따라 관심 변수의 모습이 어떻게 바뀌는지 살펴 볼 수 있죠. 그리고 이 조건부 확률 혹은 조건부 평균을 통해 차이를 설명할 수 있습니다.


part 2

차이를 설명하는 통계 개념

늬가하면 나도 한다.

  • 두 연속형 변수는 상관계수로 관계를 확인할 수 있습니다. 그러나 두 범주형 변수의 관계는 상관계수로 구할 수가 없습니다.
  • 범주형 변수는 평균도 표준편차도 구할 수 없기 때문이죠. 게다가 상관계수가 설명하는 함께 커지거나 반대로 함께 작아지는 관계는 범주형 변수들을 설명하기에는 어색한 개념입니다.
  • 상관계수와는 다릉 방법을 써서 두 범주형 변수 사이에 어떤 관계가 있는지 확인해야합니다.
  • 시험기간에 고생하는 학생들을 위해서 뜬금없지만 간식을 준비했습니다. 케이크와 햄버거를 넉넉히 사고 마실 거리도 준비했습니다. 커피와 사이다 입니다. 학생들에게 케이크와 햄버거 중에 하나를 선택하고, 커피와 사이다 중에 하나를 선택하라고 한다면 학생들은 어떤 조합을 더 많이 선택할까요?
  • 아무래도 달달한 케이크에는 풍미를 더해주는 커피가 어울리고, 기름진 패티가 들어 있는 햄버거에는 탄산음료가 제격이죠! 많은 학생들이 (케이크, 커피), (햄버거, 사이다) 조합을 선택했을것 같네요.
  • 이것이 바로 범주형 변수의 관계, 좀더 정확하게는 두 범주형 변수의 수준 간의 관계입니다. 그럼 우리는 어떻게 이 관계를 확인하고 표현할 수 있을까요?

교차표

  • 변수는 데이터 공간 속에서 축을 의미합니다.
  • 이러한 2차원 표를 교차표(Contingency Table) 라고 부릅니다.
  • 교차표를 좀 더 쉽게 이해하기 쉽도록 최근 4번의 올림픽 대회에서 한국인 선수가 딴 메달 성적을 교차표로 정리했습니다.
금매달은메달동매달
26회 아테네9129
29회 베이징13109
30회 런던1387
31회 라우939
  • 그러나 교차표는 단순히 요약만을 위한 것은 아닙니다. 교차표에서는 수준들의 관계를 살펴볼 수 있습니다.
  • 이것을 위해 행 합계와 열 합계를 계산해봅시다.
금매달은메달동매달행합계
26회 아테네912930
29회 베이징1310932
30회 런던138728
31회 라우93921
열합계443334111

헹 백분율과 열 벡븐율

금매달은메달동매달행합계
26회 아테네0.300.400.301.00
29회 베이징0.410.310.281.00
30회 런던0.460.290.251.00
31회 라우0.430.140.431.00
열합계0.400.300.301.00
  • 행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것을 행백불율 이라고 합니다.
  • 행 백분율을 구해보면 전반적인 열(메달)비중 패턴과 다르게, 각행(대회)이 어떤 열과 조금 더 혹은 조금 덜 관련이 있는지 살펴볼 수 있습니다.
  • 그렇다면 이번에는 반대로 열 합계를 1로 봤을 때 각행의 비중이 얼마인지 계산한 열 백분율을 계산해보겠습니다. 각 메달의 합계를 1로 봤을 떄 어떤 대회에서 메달이 많이 나왔는지를 살펴 보는 것이죠.
금매달은메달동매달행합계
26회 아테네0.200.360.260.27
29회 베이징0.300.300.260.29
30회 런던0.300.240.210.25
31회 라우0.200.190.260.19
열합계1.001.001.001.00
  • 이렇게 열 백분율에서도 다른 수준들에 비해서 조금 더 관련이 깊은 행들이 있습니다.

열지도

  • 그런데 만약 두 범주형 변수에 수준이 10개씩 있어서 무려 100개의 숫자를 살펴봐야 한다면 어떻까요?
  • 숫자가 많아져 보기도 어렵고 정리하는 것도 일 입니다.
  • 그래서 색깔을 활용해서 열지도(heatmap) 를 그립니다.

연령대서울부산대구인천광주대전울산세종경기강원충북충남전북전남경북경남제주
0~438413310013368715914600586996767711215530
5~936812810413374735614620637198797510715832
10~14401142121138847958126437277100918511716534
15~1954320416517711311177127879710613512311116320739
20~2468124117619611412577148051051081361219416319436
25~297222041411809010070117317787114927613716929
30~348242331602151071108617904861021411059816422239
35~3976824117522611611591209949610814811811017224343
40~448092642082461301309919111611612216014113019827552
45~4979027922125213013110914109212313115914414221328652
50~5476729321625411612310513101412712915914314422127548
55~59749307195224104112911186813112214814014221825843
60~645582381431437076598567948811110811017018630
65~6943617910510557553864207064929510113213825
70~7433813985814544275345716283829712111721
75~79226976360323218426158527570851069817
80~8412253373619201131553232504754676212
85~81322125131372104232031303542388



  • 교차표로 잘 정리되었지만 종이를 가득 채운 306개의 숫자에서 어떤 패턴이 있는지 확인하는 것을 거의 불가능하죠.
  • 그러나 각 시도별 연령대 구성비를 의미하는 열 백분율을 계산하고 열지도로 표현하면 훨씬 효과적으로 정보를 확인 할 수 있습니다.
  • 지역을 막론하고 40대롸 50대의 색이 전체적으로 짙습니다. 그리고 15세 미만 인구는 색이 연하네요.
  • 저출산 문제와 곧 닥쳐올 인구 고령과 위기를 잘 보여주는 열 지도 입니다.

독립

  • 일반적으로 케이크는 커피, 햄버거는 사이다와 어울린다고 생각하지만, 커피 입장에서는 항상 케이크와 엮이는 것이 불만일 수 있습니다.
  • 종속(Dependence) 되어 있는 것이죠.
  • 둡 변수가 이런 종속적인 관계가 아니라 서로 얽메이지 않고 완전히 남남인 관계를 독립(Independence)** 이라고 부릅니다.
  • 단순히 평균을 구하는 것이 아니라 행 비중, 열비중에 따라 가중치를 준다음 실제 데이터와의 값의 차이를 살펴보겠습니다.
  • 만약 실제 교차표가 독립을 가정한 교차표롸 비슷한 값을 가진다면 표에서 나타난 차이들은 대부분 0의 값을 가집니다.
  • 반대로 무언가 차이가 있다면 차이값들은 0에서 멀어지고, 교차표의 변수가 독립이 아니라는 것을 의미합니다.
  • 그러나 이 차이값을 하나하나 살펴가며 독립인지 아닌지 판단할 기준이 필요합니다.
  • 그렇지만 아직 다룰 수 없는 부분이니 이 이야기는 PART3에서 다시하고, 이제부터는 변수들이 이런 관계를 어떻게 활용하는지 살펴 보겠습니다.


part 2

차이를 설명하는 통계 개념

부전자전, 유전 연결고리

상관관계

  • 관측치가 중심에서 멀리 떨어져 있다는 것은 평균키에서 멀리 떨어져 있다는 것을 의미합니다. 따라서 두 변수의 관계를 표현할 숫자를 계한 할 때 평균에서 멀리 떨어져 있는 관측치가 더 큰 영향력을 갖도록 해야합니다.
  • 그래서 아빠 키의 평균으로부터의 거리와 아들 키의 평균으로 부터의 거리를 계산해서 두 값을 곱합니다. 그럼 키가 평균으로부터 멀리 떨어져 있을수록 그 값은 커지고, 평균과 가까워질수록 작아집니다. 그림으로 표현해볼까요?

(그림1)



  • 각 데이터의 경우 관측치 개수만큼, 즉 1,078개의 사각형 면적을 계산한 것이죠.
  • 이 사각형들을 활용해서 변수의 관계를 하나의 숫자로 표현해야 합니다.
  • 복잡할 것 같지만, 아주 간단한 방법이 있습니다. 사각형 면적의 평균을 계산하는 것이죠.
  • 만약 사각형의 면적이 양수라면 제1,3사분면에 있는 관측치들의 영향력이 세고, 음수라면 제2,4사분면에 있는 관측치들이 영향력이 센것이죠.
  • 사격형 면적의 평균을 계산한 것은 이번이 처음이 아닙니다. 한변수의 분산을 구할 때 정사각형 면적을 다 더한 다음(관측치의 개수-1)로 나웠었죠. 바로 분산이었습니다.


  • 이때까진 하나의 변수에 대해서만 살펴봤지만, 우리는 지금 두 변수의 관계를 살펴보고 있습니다. 그래서 x만고 또 다른 변수 y까지 2개의 변수를 활용하는 것이죠.
  • (xi-x평균)와 (yi-y평균)를 곱해서 직사각형의 넓이를 구하고, 평균을 계산하는 것입니다.
  • 그리고 이 값을 '변수 x와 y를 함께 사용해서 계산한 분산'이라는 의미에서 공분산(Covariance) 이라고 부릅니다.


  • 공분산을 계산해보면 25cm^2 이라는 양의 값이 나옵니다.


  • 공분산의 값이 양수일 때 통계는 두 변수가 양의 상관관계 가 있다고 합니다.
  • 치킨과 맥주처럼 '보완재'의 개념과 비슷합니다.
  • 반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계 가 있다고 합니다.
  • 아이폰과 갤럭시와 같이 '대체재'의 개념과 비슷합니다.
  • 그런데 한가지 문제가 있습니다. 우리가 계산한 공분산은 25cm^2입니다. '25'라는 숫자에서는 안타갑게도 양수라는 것 외에는 어떤 정보도 얻을 수가 없죠.
  • 게다가 cm단위로 계산한 아빠들와 아들들의 키를 m단위로 바꾸면, 이 값은 10,000분의 1로 줄어든 0.0025m^2가 됩니다.
  • 단위에 따라 공분산의 값이 변하기 때문에 부호 말고는 정보를 얻기가 어렵습니다.
  • 그렇지만 우리는 이미 단위 문제를 해결할 수 있는 방법을 배웠습니다. 바로 표준화입니다.
  • 공분산을 계산하기 전에 먼저 두 변수를 각각 표준화한 다음 다시 공분산을 계산해 봅시다.

상관계수

  • 아빠 키와 아들 키를 각각의 평균과 표준편차를 활용해서 표준화할 수 있습니다.
  • 사실 공분산의 계산 과정에서 평균을 빼주는 중심화를 이미 적용했기 때문에, 표준편차를 나눠주는 척도화만 해주면 됩니다.
번호아빠 키(cm)아들 키(cm)표준화된 아빠 키표준화된 아들 키
1162.2151.8-1-3.2
2160.7151.8-1-1.9
...
1,077179.7176.01.10.2
1,078178.6170.21.0-0.6
  • 그럼 표준화된 결과를 먼저 그림으로 살펴봅시다.


  • 아빠 키와 아들키 대신 표준화된 아빠 키 x'과 역시 표준화된 아들 키 y'의 공분산을 구해보면 0.5가 됩니다.


  • 이처럼 표준화된 두 변수의 공분산을 상관계수(Correlation Coefficient) 라고 부릅니다. 그리고 변수 x와 y의 상관계수 rxy는 표준화와 공분산을 한데 묶어 다음처음 수식으로 표현할 수 있습니다.


  • 아빠 키와 아들 키의 상관계수 0.5는 앞에서 살펴본 25cm^2와 크게 다르지 않은 것 같지만 매우 큰 차이가 있습니다.
  • 먼저 cm^2라는 면적의 단위가 사라졌기 때문에 다른 변수들의 상관계수와 비교할 수 있습니다.
  • 그리고 이제는 '0.5'라는 숫자가 큰 의미를 지닙니다. 상관계수는 어떤 두 연속형 변수로 계산하든지 가장 클 때는 1이고 가장 작을 떄는 -1이기 떄문입니다.
  • 두 변수가 가장 닮았을 떄가 언제일까요? 똑같을 떄 입니다. y의 자리에 x를 넣으면 결국 표준화된 x의 분산을 구하는 것과 식이 똑같아지고, 표준화된 변수의 특성에 따라 상관계수는 1이 됩니다.
  • 그렇다면 반대로 두 변수가 가장 다를 떄는 언제일까요? 어떤 변수와 그 변수에 -1을 곱한 새로운 변수는 무조건 정 반대로 움직입니다. x와 -x는 완전히 반대로 움직이고 역시 수식에서 계산해보면 앞의 경우와 "-"만 차이가 나기 떄문에 상관계수는 -1이 됩니다.
  • 그래서 두 연속형 변수로부터 계산된 상관계수는 항상 -1부터 1사이의 값을 갖습니다. 두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.


part 2

차이를 설명하는 통계 개념

범인은 이 안에 있다.

  • 차이는 아무 이유 없이 그냥 벌어지는게 아닙니다. 반드시 원인이 있기 마련이죠. 그리고 그 원인은 바로 데이터 안에 있습니다.
  • 결국 데이터 분석은 변수들을 활용해서 논리적으로 차이를 설명하는 과정입니다.그 첫 단계사 바로 변수간의 관계 탐색입니다.
  • 데이터 속에 있는 여러 변수 중 에서 차이를 확인하고 설명하려 하는 변수를 관심변수 라고 합시다.
  • 나머지 변수들은 이 관심 변수의 차이를 설명해 줄수 있는 변수라는 의미에서 설명변수 라고 합시다.
  • 모든 것을 숫자로 표현하는 통계는 이 알수 없는 부분 조차 수식으로 표현할 수 있습니다. PART2에서는 이와 같은 차이를 설명하기 위한 변수의 관계에 초점을 맞추고 PART3에서는 차이를 입증하기 위한 테스트를 중심으로 이야기해보겠습니다.

부전자전, 유전 연결고리

  • 아무래도 아빠 키가 크면 아들 키도 크겠죠?

산점도

  • 아빠키와 아들키의 관계를 확인하기 위해서는 데이터가 필요합니다.
  • 그래서 1,078 가족의 아빠 키와 아들키를 정리한 데이터를 준비했습니다.
기록번호아빠키(cm)아들키(cm)
1162.2151.8
2160.7160.6
.........
1,077179.7176.0
1,078178.6170.2
  • 이 데이터를 가지고 아빠 키가 크면 아들 키도 크고, 아빠 키가 작으면 아들 키도 작다는 키의 유전적 관계를 숫자로 증명하면 됩니다.
  • 어떻게 해야할까요? 먼저 데이터는 변수와 관측치로 구성되어 있다는 점을 다시 상기시킵니다. 그리고 이 데이터에는 2개의 변수와 1,078개의 관측치가 있습니다.
  • 어렵게 말로 표현했지만, 키 데이터를 표현한 그림은 생각보다 간단합니다.



  • 가로축에는 아빠 키를, 세로축에는 아들 키를 뒀습니다. 따라서 자연스럽게 2차원 공간이 만들어졌으며 각 관측치는 이 공간 속에 하나의 점으로 찍혀 있습니다. 이렇게 두 연속형 변수를 2차원 공간으로 표현하는 방법을 산점도(Scatterplot) 라고 합니다.
  • 패턴을 조금 더 쉽게 찾기 위해서 보조선 두개를 그어볼까요?
  • 아빠의 평균키를 171.9cm를 수직으로 그리고, 아들 키의 평균 174.5cm를 수평선으로 그려봅시다.

  • 수평선과 수직선에 의해서 공간은 4개로 나눠집니다. 그래서 이를 가리켜 사분면(Quadrant) 이라고 부릅니다.

  • 오른쪽 위부터 시계반향 순서대로 1, 2, 3, 4사분면이라고 부릅니다.

  • 제1사분면에 속하는 가족은 아빠도 아들도 평균 키가 습니다. 제3사분면은 아빠도 아들도 평균키가 작네요. 이 두사분명은 아들 키와 아빠키는 관련이 있다는 주장에 힘이 됩니다. 반대로 제2,4사분면에 있는 아들과 아빠는 이 주장에 반하는 데이터를 보입니다.

  • 그래프를 보면 확실히 제1,3사분면에 점이 많은것 을 볼 수 있습니다. 즉, 아빠키와 아들 키는 밀접한 관련이 있는 것으로 보입니다.

  • 그러나 우리는 이 생각을 좀 더 명확한 숫자로 표현해야 합니다.

  • 가장간단한 방법은 제1,3사분면과 제2,4사분면 중에 어느 쪽에 관측치가 더 많은지 개수를 세는 것이죠. 그렇지만 단순한 개수는 문제가 있습니다. 왜 문제가 발생하는지 1,078개의 아빠 키와 아들키 데이터에서 뽑은 4개의 데이터를 예로 보겠습니다.

아빠키(cm)아들키(cm)
160160
170180
180170
190190
  • 이 데이터를 숫자 대신에 산점도에 표현해보면 다음과 같습니다.



  • 두 평균 보조선이 만나는 중심에서 멀리 있을 수록 값이 확연히 차이 나면서 더 큰 힘을 갖기 때문에 아빠 키와 아들 키가 관련이 있는 것 처럼 보입니다.
  • 관측치가 중심에서 멀리 떨어져 있을수록 얼마나 큰 영향력을 갖게 되는지 한눈에 확인할 새로운 방법이 필요합니다. 힌트는 사각형입니다.




part 1

차이를 확인하는 데이터 요약

0.000012%의 꿈 로또

  • 45개의 숫자 중 6개를 뽑는 방법의 가짓수를 구해야 합니다.
  • 고등학교 통계 시간에 배운 조합을 써보면 다음 식과 같습니다.

확률

  • 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것에 있는데요. 통계에서는 이것들 사건(Event)이라고 부릅니다. 확률은 바로 이 사건이 현실이 될 가능성을 0부터 1사이의 숫자로 표현한 것이고요.
  • 다시 말하자면 어떤 불확실성의 정도를 0부터 1 사이의 숫자로 표현한 것을 확률(Probability)이라고 합니다.
  • 우리에겐 이 소수에 100을 곱한 백분율(%)이 더 친근하죠.
  • 확률 0%는 불가능, 100%는 필연을 의미합니다.
  • 논리적으로 혹은 수리적으로 계산한 확률을 이론적(Theorical)확률 이라고 합니다.
  • 사건을 직접 관찰하거나 모의 실험(Somilation)을 통해서 계산된 확률을 경험적(Empirical)확률이라고 합니다.
  • 낮 12시에 백화점에 들어온 사람이 남자일 확률이 궁금하다고 해서 아무리 논리적으로 접근해봐야 소용없습니다. 실제로 12시에 백화점을 가서 입구에 앉아 들어오는 사람들의 성별을 기록하고 경험적 확률을 계산할 수밖에 없습니다.

확률을 활용한 당첨 번호 예측

  • 각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있었습니다.
  • 그렇다면 확률 0.133과 기회 53번을 곱하면 약 7.07이니까, 각 번호가 1년동안 7번 정도는 나왔을 것으로 기대할 수 있습니다.
  • 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값을 기대값(Expectation)이라고 합니다.

데이터 분석화 확률

  • 확률은 데이터 분석에서 다양하게 활용되는데, 그게 두 가지로 분류할 수 있습니다.
    • 첫 번째, 어떤 관심 있는 확률이 궁금할 때입니다. 하는 일마다 성공하는 사람도 있지만 손만 대면 실패하는 사람도 있습니다. 자기계발서에서는 성공의 요인을 찾지만, 통계는 성공의 확률을 계산합니다. 성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형(Probability model)을 만듭니다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴볼수 있고요.
    • 두 번째, 어떤 차이가 의미가 있는지 없는지 궁금할 때입니다. 모두가 완전히 똑같지 않기 때문에 차이는 항상 존재합니다. 문제는 이 차이가 어쩌다 생길 수 있는 수준의 미세한 차이인지 아니면 우연이라 하기엔 너무 큰 차이인지 따져 봐야 한다는 겁니다.
    • 예를 들어, 주변의 친구 8명을 대상으로, 남자 4명중 2명이 안경을 쓰고 있고, 여자 4명 중 1명이 안경을 쓰고 있으므로 '25% 포인트'의 큰 차이가 있다고 할 수는 없겠죠 하지만 한국 남성의 50%가 안경을 쓰고 여성은 25%만 안경을 쓴다면 이 '25% 포인트'의 차이는 따져 봐야 할 문제가 됩니다.이처럼 똑같은 차이라도 1만명, 10만명으로부터 계산된 차이라면 훨씬 더 큰 의미를 가질 겁니다. 통계는 이런 차이의 정도도 확률로 표현합니다. 확률이 1에 가까울수록 충분히 있음직한 흔한 차이를 의미하고, 확률이 0에 가까울수록 매울 드물게 일어나는 차이를 의미하죠.
  • 이렇게 통계는 불확실성을 설명하기 위해서 확률을 사용합니다. 그 결과 0부터 1사이의 숫자로 표현하지만, 통계는 그 과정에서 변수의 관계를 확인하고 숫자로 표현합니다.
  • 지금까지 하나의 변수가 어떤 차이를 가지고 있는지 요약을 통해 살펴 봤다면, PART 2에서는 그 차이를 설명하기 위해서 변수 간의 관계를 어떻게 확인하고 표현하는지를 살펴본 다음, 간단한 통계 모형들을 활용해 변수의 차이를 설명하는 개념들에 대해서 이야기 해보겠습니다.


차이를 확인하는 데이터 요약

먹고 싶은 거 먹어, 난 짜장

  • 범주형변수는 정해진 갑 중에서하나를 선택해야합니다. 짜장면과 짬뽕, 혹은 볶음밥 중에서 하나를 선택해야 하지 그 중간을 없습니다.
  • 짜장면, 짬뽕, 볶음밥과 같이 범주형 변수가 변수가 가질 수 있는 한정적인 값들을 수준(Level) 이라고 합니다.

동전던지기

  • 동전던지기를 예로 들어보겠습니다. 직접 동전을 하나 던졌다가 받은 뒤 앞면인지 뒷면인지 기록해봅시다. 반복 횟수는 10번이고 그림이 나오면 "앞" 숫자가 나오면 "뒤"라고 적습니다.
  • 한눈에 보기 좋게 정렬 개념을 활용해서 값들은 줄 세워 볼까요?


횟수

1

2

4

8

9

10

3

5

6

7

수준(앞/뒤)


  • 수준을 내림차순으로 정렬하고 나니 같은 값, 같은 수준을 가지는 관측치들끼리 나눠집니다.
  • 그럼 이제 10개 중에서 앞면이 몇번 나왔는지, 뒷면이 몇 번 나왔는지 손쉽게 셀 수 있습니다.
  • 표로 정리해보겠습니다.

수준앞면뒷면
횟수64


  • 표로 정리하고 나니 마치 관측치가 2개인 연속현 변수와 비슷하게 생겼습니다.
  • 전체 10개 중에서 앞면은 6번, 뒷면은 4번 나왔습니다.
  • 이론적으로 아주 공정한 상황이였다면 앞면이 5번, 뒷면도 5번 나왔겠지만, 제 동전 던지기에서는 앞면이 더 많이 나왔다는 것을 알 수 있습니다.
  • 지금은 수준이 "앞"과 "뒤" 2개밖에 없어서 숫자만 살펴봐도 변수를 파악할 수 있지만, 거주지역이나 연령대처럼 범주형변수의 수준 개수가 많으면 숫자만으로는 파악하기 힘듭니다.
  • 그래서 우리는 직관적으로 받아들일 수 있는 그림, 그래프를 활용해서 숫자를 표현하겠습니다.

파이차트와 막대그래프

  • 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖습니다.
  • 중심각의 크기로 전체 중에서 각 수준의 비중에 얼마만큼인지를 표현하는 것이죠.
  • 막대 그래프는 가끔 히스토그램이랑 헷갈리기도 하는데요. 히스토그램은 가로축에 연속형 변수가 들어와서 적절한 구간으로 나누는 중간 과정이 있습니다. 구간 간격을 어떻게 나누느냐에 따라 모양이 달리지기도 하고요.
  • 반면 막대그래프는 가로축에 범주형 변수가 들어오기 때문에 구간으로 나눌 필요가 없습니다.
  • 동전 데이터는 수준이 2개뿐이라서 어떤 그래프든 한눈에 결과를 확인 할 수 있지만, 수준의 수가 늘어나면 파이 차트보다는 막대그래프가 더 효율적입니다.
  • 막대 그래프는 수준이 늘어나도 막대만 추가하면 되지만, 파이 차트의 전체 각도는 360도로 고정되어 있고 수준의 수가 많을 수록 중신각이 잘게 쪼개져서 데이터를 한눈에 보기 어렵기 떄문이죠.


part 1

차이를 확인하는 데이터 요약

물수능과 불수능

  • 100 점이 모두 똑같은 100점은 아닙니다. 100점보다 나은 80점이 있을 수도 있죠.
  • 평균과 표준편차를 활용해서 표준점수라고 하는 상대적인 점수를 만들었습니다.

표준화

  • 물수능 학번 학생과 불수능 학번 학생은 항상 티격태격 댑니다. 대부분 절대적인 점수가 낮은 불수능 쪽이 투덜대곤 하죠.
  • 불수능 80점이 물수능 100점보다 낫다는 겁니다. 둘이서 다시 수능을 치면 좋겠지만, 현실적으로 어렵습니다.
  • 서로 다른 시험에서 얻은 점수를 비교해서 어느쪽이 상대적으로 더 잘한 것인지 확인할 수 있는 방법이 없을까요? 이 질문에 대한 해답은 바로 표준화(Standardization) 입니다.
  • 어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나옵니다. 이제 두 점수는 상대적인 차이가 없습니다. 이렇게 각 관측치에서 평균을 빼는 과정을 중심화(Centering) 라고 합니다.
  • 각 관측치를 표준편차로 나누는 것을 척도화(Scaling) 라고합니다.
  • 중심화를 통해서 단순이 값이 크가 작다가 아니라 평균에 비해서 얼마나 크고 작은지를 확인합니다. 그 다음 척도화를 통해서 단위 차이를 없앤 숫자를 만들어 냅니다.
  • 이렇게 계산된 값들은 평균도, 단위도 상관없이 '표준적인 차이'를 의미합니다.
  • 어떤 변수를 가져오든 상관없이 표준화를 거친 변수의 평균은 0이 되고 표준편차는 1이 됩니다.

표준화 예제

  • 그럼 2011년에 80점을 받은 학생과 2015년에 100점을 받은 학생 중에서 어느 쪽이 상대적으로 잘한 것일까요? 앞서 살펴본 표준화롤 계산을 해봅시다.
2011년 = 80점 - 47.8점 / 19.7점 = 1.63 2015년 = 100점 - 55.4점 / 28.5점 = 1.56
  • 시험이 어려우면 어려울수록 점수는 하양평준화됩니다.
  • 대부분은 낮은 점수대를 형성하고 일부의 고득점자가 생기죠. 그래서 2011년의 평균점수는 47.8점으로 매누 낮고, 표준편차고 19.8점으로 낮습니다.
  • 즉, 2011년의 80점은 중심에서 오른쪽으로 1.63만큼 떨어져 있고, 2015년의 100점은 중심에서 오른쪽으로 1.56만큼 떨어져 있네요.따라서 2011년의 80점이 2015년의 100점 보다 상대적으로 더 낫네요!
  • 실제 수능애서는 이렇게 계산된 값에 20을 곱하고 100을 더해서 표준점수를 계산 합니다.
  • 그럼 평균은 0에서 100으로 바뀌고, 표준편차는 1에서 20배 늘어난 20이 됩니다.
  • 예를 들어, 2011년 수리가형에서 80점을 받은 학생의 표준 점수는 133점(100 + 1.63 * 20 = 132.6)이 됩니다.



프롤로그 - 가장 중요한 것만 남기고 모두 지워버려라


1. 애쓰지마, 노력하지마, 신경 쓰지마


- 공포와 불안을 겪고 나면, 용기와 인내를 얻을 수 있다.


- 역효과 법칙을 '역효과' 법칙이라고 부르는 데는 이유가 있다. 신경 끄기가 역방향으로 작용하기 떄문이다. 긍정 추구가 부정적인 것이라면, 부정추구는 긍정을 낳는다. 

가령, 체육관에서 고통을 추구하면, 그 결과로 건강과 활력을 얻는다. 사업에 실패하면, 성공하기 위한 필수 요소를 알게 된다. 역설적이지만 불안을 기꺼이 받아들이면, 사람들 사이에서 자신감과 카리스마를 뽐낼 수 있다. 힘들더라도 바른말을 하면, 상대의 신뢰와 존중을 얻을 수 얻는다. 공포와 불안을 겪고 나면, 용기와 인내를 얻을 수 있다.


- 가치 있는 것을 얻으려면, 그에 따르는 부정적 경험을 극복해야 한다. 부정을 피하거나 막거나 억누르거나 입막음 하려는 시도는 역풍을 불러올 뿐이다.


- 고통 회피는 일종의 고통이다. 투쟁 회피도 일종의 투쟁이다.


- 삶에서 고통을 떼어낸다는 건 불가능할 뿐만 아니라 파괴적인 일이기도 하다. 그 한가닥을 떼어내려 하면, 천 전체가 풀려버리고 만다. 고통을 피라혀 하면, 고통에 지내치게 신경이 쓸리는 법이다.


- 내 경우 6 주 만에 은행을 그만두고 인터넷 사업을 시작한 일이 나만의 '신경 끄기' 명예의 전당의 상위를 차지하고 있다. 가진 걸 거의 다 팔아치우고 남미로 떠나기로 했던 결정도 마찬가지다. 신경을 썼냐고? 아니. 그냥 그렇게 했을 뿐.


- 우리 삶을 결정하는 건 이런 무신경한 순간들이다.


- 어떻게 하면 정교하게 다듬은 개인적 가치관에 기초해 자신에게 중요한 것과 중요하지 않은 것을 선별할 것인가를 전하는 거다. 이건 엄청나게 어려운 일이다. 평생 연습하고 단련해야 달성할 수 있을 만큼. 게다가 실패를 밥 먹듯이 할 것이다. 하지만 이것은 우리가 인생을 살아가며 해볼 수 있는 가장 가치 있는 투쟁이자 유일한 투쟁일 것이다.


2. 해피엔딩이란 동화에나 나오는 거야


-왜냐하면 모든 사람과 모든 일에 사사건건 신경 쓰다 보면, 나는 늘 평온하고 행복할 자격을 끊임없이 부여받고 있으며 모든 것이 내가 바라는 대로 되어야 한다는 느낌이 들기 떄문이다. 이건 병이다. 그리고 이것은 당신을 산 채로 잡아 먹을 것이다. 당신은 모든 역경을 불평등으로 여기게 될 것이다. 모든 도전을 실패로 모든 불편을 개인적 모욕으로, 모든 의견 충돌을 배신으로 받아들이 것이다. 자신만의 좁다란 해골 지옥에 갇혀, 특권과 허세에 불타오르고, 지옥의 무한궤도에서 뱅뱅 돌며 끊임없이 나아가지만 어디에도 도달하지 못할 것이다.


- 자신이 보기에 옳거나 중요하거나 고귀한 것을 하기 위해서라면 누군가를 열 받게 하는 것쯤은 신경 쓰지 않음을 의미한다.


- 감탄스럽지 않나? 아니, 내가 아니라, 역결을 극복하는 것 말이다. 또 따돌림 당하고 배척당할지라도 남들과 발 맞추기를 거부하는 것. 자신만의 가치를 지키기 위해 이 모든 것을 감수하는 것 말이다.


- 피할 수 없는 실패에 맞서 가운뎃손가락을 치켜드는 의지. 역경, 실패, 수치, 또는 몇번의 '폭망'에도 신경쓰지 않을 사람들 어떤 일이든 그저 웃어 넘기고 자신이 믿는 바를 행하는 사람들 그것이 옳다고 생각하기에 그렇게 하는 사람들 이들은 이것이 자신보다 중요하고, 자신의 느낌과 자존심과 자아보다 중요하다는 걸 안다.


- 인생에서 마주하는 모든 것이 아닌, 중요하지 않은 모든 것을 향해 "꺼져"라고 말한다. 진짜로 중요한 것에 쓰기 위한 신경을 따로 남겨 놓는다. 친구, 가족, 목표, 퇴근 후 마시는 맥주 한잔 그리고 혹시 모를 소송을 위해. 이렇게 중요한 것만을 위한 신경을 남겨 놓았기 때문에, 그것들에 신경을 쏟을 수 있다.


- 삶에는 또 다른 진리가 숨어 있다. 바로 사람들의 웃음거리나 골칫거리가 되지 않고서는 다른 사람의 인생을 바꿀 만큼 중요한 종재자 될 수 없다는 것 말이다.


- 기본적으로 우리는 '기꺼이 신경 쓸 대상'을 좀 더 꼼꼼히 고르게 된다. 이게 바로 성숙이다. 가끔은 성숙해질 필요가 있다. 사람은 진짜로 가치 있는 것에만 신경 쓰는 법을 배울 때 성숙해진다.


- 점점 줄어만 가는 신경을 우리 삶에서 가장 가치 있는 부분을 위해 남겨 놓는다. 가족, 절친, 취미 생활을 위해, 그리고 놀랍게도, 그걸로 충분하다.


- "단란한 가정을 이루고 좋아하는 일을 하며 행복하게 살고 싶다."


- 내 꿈은 거대한 산과 같았다. 그리고 오랜 시간이 지난 뒤에야 깨달았다. 난 그 산을 오를 마음이 별로 없다는 것을. 그저 정상을 상상하는 걸 좋아했을 뿐이었다.


- 나는 보상을 원했지만 투쟁은 원하지 않았다.


- 사람들이 자신의 문제를 부정하고 다른 사람을 비난하는 이유는 단순하다. 부정하거나 비난하는 일은 쉽고 즐겁지만 문제를 해결하기는 힘들고 대체로 불쾌하기 떄문이다. 비난과 부정이라는 방식을 선택하면 즉각적인 쾌감을 얻는다. 이것은 일시적으로 문제를 회피하는 길이며, 이런 회피의 길을 택하면 곧바로 짜릿한 쾌감을 얻을 수 있다.


- 부정적 감정은 행동하라는 요구다.


- 반면에 긍정적 감정은 적절한 행동을 했을 때 주어지는 보상이다.




3. 왜 너만 특별하다고 생각해



- 소소한 우정을 나눈다거나 무언가를 창작한다거나, 어려움에 처한 사람을 돕는다거나, 좋은 책을 읽고 좋아하는 사람과 함께 웃는 일 등에서 즐거움을 찾게 될 것이다.



- 내 맘대로 말하고 행동하고, 신뢰를 깨뜨리며, 타인의 감정을 무시했다. 그러고는 나중에 건성으로 같잖은 사과를 하는 것으로 그 짓들을 정당화했다.




4. '고통을 피하는 법'은 없어



- 어쩌면 좋은 관계가 꼭 친한 관계를 의미하는 건 아닌지도 모른다. 서로 존중하거나 신뢰하는 거로 충분할 수 있다.


- 문자를 주고받는 빈도보다는 존중과 신뢰라는 기준으로 형제애를 평가하는 편이 나을 것이다.


- 당신이 처한 상황에 관한 객관적 사실보다, 당신이 그 상황을 어떻게 바라보고 어떤 가치와 기준으로 평가하느냐가 더 중요하다.


- 자기를 인식하는 일은 양파와 닮아 있다. 여러 층으로 이루어져 있으며, 그 층들을 벗길수록 쌩뚱맞게 눈물 나는 일이 많아진다는 점에서다. 그런 일이 일어나는 건, 내가 제대로 몰랐던 감정을 보게 되기 때문이다. 그래서 자기인식의 첫 단계는 자기감정을 이해하는 것이다.


- 이렇게 자신의 감정이 어떤 것인지 잘 인식하지 못하는 경우는 흔하다. 우리 모두가 이러한 '감정적 맹점' 을 갖고 있다. 이는 보통 한 개인이 성장하는 과정에서 부적절한 것으로 여기게 된 감정과 관련이 있다. 우리 안의 맹점을 정확히 인식하고 그 감정을 데대로 표현하려면, 몇 년 동안 각고의 노력을 기울려야 한다. 하지만 이것은 그만큼 노력할 가치가 있는 대단히 중요한 일이다.


- '나는 왜 이것을 성공 또는 실패로 간주할까?" 난 자신을 어떻게 평가하고 있는 거지?


- 사실 문제는 단순하다. 일이 꼬이고, 사람들이 내 속을 뒤집어 놓으며, 사고가 터진다. 이런 일들이 생기면, 우리는 엿 같은 기분을 느낀다. 하지만 괜찮다. 부정적인 감정은 우리 정신 건강의 필수 요소다.


- 부정적인 감정을 잘 다루려면, 부정적인 감정을 사회적으로 용인되는 건전한 방식으로, 그리고 자신의 가치관에 부합하는 방식으로 표출해야한다.


- 문제를 부정하며, 문제를 풀어 행복을 얻을 기회를 잃게 된다. 문제는 삶에 의미와 가치를 더한다. 따라서 문제를 피하다 보면, 우리는 (즐거울지는 모르겠으나) 무의미한 존재로 살아가게 된다,


- 장기적으로 보면, 초콜릿 케이크를 먹을 때보다 마라톤을 완주할 때 더 큰 행복을 느낄 수 있다. 비디오게임에서 이길 때보다 아이를 키울 떄가 더 행복하다. 새 컴퓨터를 살 때보다 친구와 작은 사업을 시작해 간신히 입에 풀칠만 하고 살 때 더 큰 행복감을 느낀다.


- 고통과 투쟁은 물론 분노와 절망까지 따르겠지만, 일단 해내고 나면 훗날 촉촉한 눈매로 과거를 회상하며 손주들에게 옛이야기를 들려줄 수 있을 것이다.


- 한 사람의 삶에서 가장 빛나는 순간은 쾌락, 성공, 지식, 긍적과는 거리가 멀다.


- 중요한 건 좋은 가치과 기준을 못 박에 정하는 것이다.


- 즐거움과 성공은 좋은 가치관의 부산물로, 그 자체로는 공허한 쾌락에 지나지 않는다.


- 진정한 의미의 '자기계발'이라는 건 곧 더 나은 가치를 우선하는 것이며 더 나은 것에 신경을 쓰는 것이다. 더 나은 것에 신경을 써야 더 나은 문제가 생기기 때문이다. 그리고 더 나은 문제를 다뤄야 삶이 나아진다.


-좋은 가치는 1) 현실에 바탕을 두고 2) 사회에 이로우며 3) 직접 통제할 수 있다. 나쁜가치는 1) 미신적이고 2) 사회에 해로우며 3) 직접 통제할 수 없다.


- 정적인 좋은 가치다. 왜냐면 완전히 통제할 수 있고, 현실을 반영하며, 타인에게 이롭기 떄문이다(불편할 떄가 있긴 하지만). 반명에 인기는 나쁜 가치다. 인기가 당신의 가치라면, 그리고 댄스 파티에서 최고로 인기 있는 사람이 되는 게 그 기준이라면, 우선 많은 일이 당신의 통제 밖에 있게 될 것이다.


- 건전하고 좋은 가치의 예로는 정직, 혁신, 유연한, 자립, 후원, 자존감, 호기심, 너그러움, 겸손, 창조 등리 있다. 해롭고 나쁜 가치의 예로는 속임수나 폭력에 의한 지배, 부분별한 섹스, 늘 즐기며 살기, 항상 주목받기, 혼자 있지 않지, 모두에게 사랑받기, 부자기 되기 위해서 돈 벌기, 사이비 신을 위해 작은 동물을 재물로 바치기 등이 있다. 이미 눈치 챘겠지만, 건전하고 좋은 가치는 내적으로 얻는 것이다.



5. 선택을 했으면 책임도 져야지


- 내 삶에서 일어나는 일은 뭐든 100% 내 책임이라고 믿으며 살아보겠다는 다짐을 일기에 적었다. 이 기간만큼은  실패에 대한 생각은 제쳐둔 채 있는 힘을 다해 자신의 상황을 바꿔보기로 한 것이다. 그래도 나아지는 게 없다면, 그건 자신에게 상황을 바꿀 힘이 없다는 뜻이므로, 그때 목숨을 끊기로 했다. 


- 우리는 항상 '경험;을 책임지며 살아간다. 그것이 '내 잘못' 으로 생긴 일이 아니라 할지라도. 이것은 삶의 일부다.


- 운동을 시작하고 그동안 소홀히 대했던 친구들을 만나 시간을 보냈다. 일부러 새로운 사람들은 만났다. 외국을 여행하며 많은 것을 배웠고, 자원봉사도 했다. 그러자 점차 기분이 나아졌다.


- 그리고 곁에 애인이 있는데 뭔가에 홀인 듯 바람을 피우는 일은 기존에 관계에서 행복감을 느끼지 못할 때 일어난다는 걸 알게 되었다.


- 사귀는 사람들끼리는 결국 비슷한 가치관을 공유하기 마련이다. 형편없는 데 가치를 두는 사람과 그렇게 오래 만났다면, 나와 내 가치는 어땠겠는가? 내가 어렵사리 배운 바에 의하면, 당신이 이기적이고 남에게 상처를 주는 사람과 관계를 맺고 있다면, 당신 역시 그런 사람일 가능성이 크다.


- 사실 난 종종 그녀를 냉정하고 거만하게 대했다. 때로는 그녀의  사랑을 당연시했고, 바람맞히고, 상처줬다. 이걸들 또한 내 잘못이다.


- 더불어 미래에 훨씬 더 나은 여성과 만날 책임을 지기로 했다. 그리고 그런 여자를 만났다는 말을 전할 수 있어 기쁘다. 그 후로는 바람나서 날 버리는 여자친구도, 253번의 복부 강타도 더는 없었다. 난 내 문제에 책임을 지고 문제를 개선했다. 건전하지 못한 관계에 내 책임이 있다는 점을 인정한 후로 더 나은 관계를 맺을 수 있었다.


- 그래, 당신 잘못이 아니다. 하지만 그래도 당신 책임이다.


- 그리고 틀림없이 버림받은 일을 견뎌야 할 것이다. 살면서 맺어온 수 많은 관계가 그동안 지켜온 가치관을 중심으로 형성되어 있는 상황에서, 당신이 갑자기 그걸 바꿔버린다면 어떤 일이 벌어질까? 가령, 공부가 파티보다 중요하다고, 결혼과 가정이 프리섹스보다 중요하다고, 좋아하는 일이 돈보다 중요하다고 결론 내린다면? 당신의 변절은 인간관계에서 반항을 불러 일으킬 것이고, 대부분의 관계가 눈 앞에서 산산조각 날 것이다. 이 또한 정산이며, 마찬가지로 불쾌할 것이다.


- 고통스럽겠지만, 그게 다 신경을 다른 데로 그러니까 훨씬 더 중요하고 힘을 쏟을 가치가 있는 일로 돌릴 경우에 필연적으로 생기는 일이다.


- 가치관을 재검토하는 과정에서 내적, 외적으로 저항에 부딪힐 것이다. 무엇보다 불안을 느끼게 될 것이다. 내가 지금 뭘 잘못하고 있는 건 아닌지 궁금할 것이다. 곧 알게 되겠지만, 그건 좋은 현상이다.



6.넌 틀렸어, 물론 나도 틀렸고 


- 왜 그럴까? 두뇌는 언제나 자기가 가지고 있는 기존의 믿음과 경험에 바탕을 두고 현재의 상황을 이해하려 한다. 새로운 정보는 모조리 일단 기존 가치과 결론에 무게를 두고 저울질한다. 그 결과, 두뇌는 항상 우리가 그 순간에 참으로 여기는 방향으로 치우한다.


- '현재의 경험'을 상상을 통해 만든 과거와 짜 맞춰서 이미 '확립된 의미'를 유지하는 것이다.


- 친구한테 절교를 선언하지 않는 건, 너그럽고 착한 사람이라는 정체성과 갈등을 빚어야 하기 때문이다.




7. 실패했다고 괴로워하지마


- 이보다 더 나은 가치는 과정을 지향한다. '정직'이라는 가치를 실현하기 위한 기준인 '타인에게 나를 솔직하게 표현하기' 라는 과제에 완결 같은건 없다.


- 모든 새로운 대화와 새로운 관계가 솔직한 표현을 하기 위한 도전이자 기회다. 이 가치는 일생 동안 끝없이 계속되는 과정이다.


- 그러나 안에서 보면, 즉 당사자의 입장에서 이는 도저히 이해할 수 없는 수수께끼다. 재밌는 점은 오직 당사자만 질문을 어렵게 느끼고, 그 외의 사람들은 전부 쉽다고 생각한다는 것이다. 여기서 문제가 되는 건 '고통'이다.


- 그러나 정작 우리가 배워야 할 것은 자신이 선택한 고통을 견디는 법이다. 새로운 가치관을 선택한다는 건 새로운 고통을 자신의 삶에 들여오는 것이다.


- 많은 사람이 절체절명의 위기에 몰렸을 때 오히려 위대한 성취를 이뤄낸다. 고통은 때로 우리를 다시 일어서게 해준다. 더 강한 사람으로, 더 현실적인 사람으로 만들어준다.


- 동브로프스키에 따르면, 공포와 불안과 슬픔이라는 고통은 정신 건강에 해롭기만 한 게 아니라 오히려 정신적 성장에 필수 적이다. 그러므로 고통을 부정하는 건 곧 자신의 잠재력을 부정하는것이다. 육채적 고통을 겪어야 뼈와 근육이 강해지는 것처럼, 정신적 고통을 겪어야 정신력, 자존감, 공감 능력이 강해져서 더 행복한 삶을 누릴 수 있다.




8. 거절은 인생의 기술이야.


- 마음을 터놓을 수 있는 친구가 있느냐를 기준으로 자신을 평가하기로 했다면 그건 뒤에서 친구를 쓰레기 취급하지 않겠다고 마음먹은 것과 같다. 이것들을 전부 건전한 결정이지만 한결같이 거절을 포함한다.


- 즉 X에 가치를 두려면, X가 아닌 것을 거부해야 한다. 거부는 가치관과 정체성을 유지하는 데 필수 불가결한 요소다. 무엇을 거부하느냐가 우리를 규정한다. 


- (거부당하는 것이 두려워서) 아무것도 거부하지 않는다면, 아예 정체성 자체가 형성되지 않는다.


- 무슨 수를 써서라도 거부와 대립, 갈등을 피하려는 욕구, 모든 걸 동등하게 여기고 모든 걸 조화롭게 만들려는 욕구는 교모하고 심각한 형태의 허세다. 


- 거절은 인생을 살아가는 데 꼭 필요한 기술이다. 불행한 관계에 얽매이고 싶은 사람은 아무도 없다.


- 짜증 나고 불안정한 직장 생활에 얽매이고 싶은 사람도 없다. 하고 싶은 말을 못하게 만드는 문화를 달가워하는 사람도 없다. 그런데 사람들은 언제나 그런걸 선택한다.


- 솔직함은 인간의 본능이다. 우리가 솔직하게 살아갈 수 있는 한 방법은 서로 '아니오'라는 말을 일상적으로 하는 것이다. 그런식으로 거절을 하면, 오히려 관계가 좋아지고 감정이 건전해질 것이다.


- 불건전한 관계의 특징은 두 사람이 자기만족을 얻기 위해 상대의 문제를 해결하려 한다는 것이다.


- 이와 대조적으로, 건전한 관계의 특징은 두 사람이 상대의 만족을 주기 위해 자신의 문제를 해결하려 한다는 것이다.


- 사랑한다면, 이렇게 말할 것이다. "이건 내 문제야. 직접 해결할 테니 옆에서 응원해줘". 자기 문제를 스스로 책임지고 상대에게 책임을 묻지 않는게 진정한 사랑이다.


관계를 무너뜨리는 선의의 거짓말


- 요컨데 이렇게 말할 수 있어야 한다 "그래, 난 이기적이야. 난 우리 관계보다 내가 더 중요해. 솔직히 말하면, 난 우리 관계에는 신경 안 써" 바람둥이가 이런 엉터리 가치관을 드러내 자기가 그동안 그걸 우선시 했다는 점을 보이지 않았다면, 앞으로는 그를 신뢰할 수 있을지 어떻게 알 수 있겠는가? 신뢰할수 없다면, 관계가 나아지거나 달라질 일은 없다. 깨진 신뢰를 다시 회복하는 또 다른 현실적인 방법은 바로 실제 행동을 보는 것이다.


- 신뢰는 사기 그릇과 같다. 처음 깨뜨렸을 때는 조심조심 다시 붙일 수 있다. 하지만 또 한 번 깨뜨렸을 때는 조각조각 깨져서 다시 붙이는 데 훨씬 오랜 시간이 걸린다. 그렇게 여러 번 깨뜨리다 보면 결국엔 다시는 붙일 수 없게 산산이 흩어지고 만다. 새상엔 깨진 조각과 가루가 너무도 많다.


- 몰입하면 결정을 내리기 쉬워지고 좋은 것을 놓칠지 모른다는 두려움을 떨칠 수 있다.


- 이처럼 대안을 거부할 때 우리는 자유를 얻는다. 다시 말해, 자신에게 가장 중요한 가치과 자신이 선택한 기준에 어긋나는 것을 거부할 때, 깊이 없이 폭넓은 경험만을 추구하기를 거부할 때, 우리는 자유로워진다.


- 그래, 어린 시절에는 경험의 폭을 넒이는게 바람직하다. 아마 필수라 해도 좋을 거다. 결국엔 세상을 폭넓게 경험하면서 내 모든걸 바칠 만큼 가치 있는 게 무엇인지 알아내야 한다.


- 뭔가에 끊임 없이 몰입해 깊이 파고들어 그걸 캐내야한다. 관계, 직업, 휼륭한 생활 방식을 만들기를 비롯한 모든 일에서 마찬가지다.



9. 결국 우린 다 죽어 


- 현대인의 정신 구조는 다음과 같다. 우리는 물질적으로 대단히 풍요롭지만, 정신적으로는 온갖 천박하고 저질스러운 것들에 시달린다. 사람들은 자기 책임을 저버린채, 사회가 자기 기분과 감정을 맞춰주길 바란다. 제멋대로 자기가 뭐든 안다고 확신한뒤 말 같지도 않은 대의명분을 내세워 다른 사람에게 자기 생각을 강요한다.



감상

- 삶에는 너무나 많은 선택지가 있다. 내 에너지는 한정적인데 내가 집중할수 있는 대상을 스스로 선택하는 건 정말 중요하다. 


선택도 중요하지만 '고통'을 참아내는 것은 더더욱 중요하다. 저자는 견딜수 있는 고통을 선택하라고 했지만, 나는 고통을 견디는 근육을 발달 시키는게 더 중요하다고 생각한다.

(쉽게 생각하면 다이어트중에 치킨을 참는것과 비슷하다. 치킨의 향을 거부하기 위해서는 엄청난 에너지가 필요하다.)


나는 부정적이라는 생각이 들면 조금심 삶에서 멀어지도록 환경을 구성하는 노력을 하는 중이다. 

(치킨을 연상 시키는 모든 것을 제거)


그리고 고통을 참고참다 너무 견디기 힘들면 잠시 쉬었다 가는 것도 도움이 된다고 생각한다.

운동선수가 다쳤는데 무리하게 운동하며 안되는 것과 마찬가지다.


삶이란 결국 역시 고통의 연속이다. 기나긴 여정 나 자신에게 채직과 당근을 절적히 주어야겠다.

저자가 말하는게 미묘하게 산만하다는 느낌이 있는데. 문장한나하나는 공감되고 깊게 새겨진다.


다음 차기작이 기대된다.




+ Recent posts