이건 어떤가. 중간고사에서 형편없는 점수를 받은 한 학생이 기말고사에서 놀랍게 오른 성적을 받았다. 마음을 다부지게 먹고 공부한 덕이다. 그런데 교수는 학생이 부정행위를 했다고 생각한다. 과연 교수의 편견일까. 아니다. 교수의 생각은 엄밀한 통계에 근거한다. 다년간 경험을 데이터화했더니 학생들의 중간고사와 기말고사 성적은 놀라운 상관관계를 보여주더란 거다.
이쯤 되면 확률이니 통계니 하는 것들로 인해 되레 미궁에 빠질 수 있다. 우린 그간 숫자·통계라면 무조건 믿고 들어가지 않았던가. 그러나 통계는 어떤 사실도 확실히 입증하진 못한다. 통계적 추론이 ‘입증’에 있지 않아서다. 통계의 힘은 패턴·결과를 관찰한 뒤 확률을 만들고 가장 그럴듯한 원인을 찾는 데 있다. 야구선수의 타율, 대통령후보자의 당선율을 따질 수 있는 것도 그런 이유에서다.
전작 ‘벌거벗은 경제학’으로 일약 세계적인 베스트셀러 작가가 된 저자의 새 책이다. 이번엔 통계다. 딱딱한 이론을 유연하게 푸는 저자의 장기는 다시 발휘됐다. 소득·물가, 정치·선거, 의학·스포츠 등 늘 쓰이는 일상을 끌어들여 통계 속 숫자의 의미를 해석한다. 책은 통계가 늘 거북했던 이들을 위한 반전이다.
▲진실과 거짓, 그 사이엔 ‘쉬운 조작’
더 있다. 한 대학병원이 내놓은 통계결과. ‘심장병 수술에서 사망률이 떨어졌다.’ 사실이다. 하지만 정작 속은 다르다. 심장병 전문의들이 의료기술을 향상시키기보단 환자를 거부해 수술에서 실패할 확률이 줄어든 것이기 때문. 결국 숫자·분석단위의 함정에 따라 쉽게 해석도, 조작도 할 수 있는 것이 통계의 맹점이라고 했다. 데이터수집의 오류는 말할 것도 없고 측정자의 잘못된 판단이 전혀 다른 결과를 낼 수 있단 얘기다.
▲확률 실수 아니다 사람 실수다
그래서 이런 말을 한다. ‘확률은 실수하지 않는다. 확률을 사용하는 사람이 실수할 뿐.’ 가장 큰 실수가 독립적이지 않은 사건을 독립사건으로 추정하는 경우다. 가령 대서양을 횡단할 때 제트기 엔진 하나가 고장날 확률이 10만분의 1이라고 하자. 위험이 크다. 그런데 엔진 두 개가 다 멈출 가능성은 100억분의 1이다. 안심해도 되는가. 그럴 수 없다. 왜냐면 두 개의 엔진이 모두 고장나는 건 독립사건이 아니라서다.
▲통계, 기술보단 직관적 통찰
통계는 숫자로 표현하고 숫자로 비교한다. 부분을 보고 전체를 추론하며 확률로 예측한다. 그런데 정작 필요한 건 따로 있다. 직관이다. 저자에 따르면 “직관적 통찰 없는 통계는 알아들을 수 없는 외국어와 다를 바 없다.” 지금 대세인 빅데이터가 주어졌다고 해도 꿰뚫는 건 직관이어야 한다는 논지다. 여기엔 우연한 연관성만으로 쉽게 판단하지 말라는 당부가 들어 있다.
이때 저자가 끌어들인 것이 회귀분석이다. 데이터를 교란시키는 변수를 제외한 뒤 진짜 원인을 찾아내는, 분석방법 중 ‘베스트’라 했다. 하지만 이 역시 특정 상황에 기반한 분석이란 점을 감안해야 한다. 팝콘을 먹으면 전립선암이 예방된다? 보라색 신발을 신으면 성적이 오른다? 이런 결과라도 최소한 다른 결과와 대립하지 않아야 한다는 말이다.
스웨덴 수학자 안드레예스 둥켈스를 인용했다. 결국 “통계로 거짓말하긴 쉬워도 통계 없이 진실을 말하긴 어렵다.” 그러니 ‘벌거벗은’이 필요하다. 분석에 방해가 될 만한 것들을 주요 개념과 분리시키는 거다. 훌렁 벗겨버릴수록 정수에 가까워진다는 뜻이다.