세상 거짓말 셋 "거짓말, 새빨간 거짓말 그리고 통계"

동전던지기부터 대통령당선율까지
확률·통계 속 숫자 의미 풀어내
분석방향 따라 쉽게 조작되는 맹점도 봐
기술보단 직관적 통찰력 중요성 피력
……………………………………………
벌거벗은 통계학
찰스 윌런｜448쪽｜책읽는수요일

등록 2013-11-07 오전 11:19:40

수정 2013-11-07 오후 2:46:24
가 가

[이데일리 오현주 기자] 여기는 법정이다. 검찰 측 증언 두 가지가 배심원을 헷갈리게 하고 있다. 하나는 이것. ‘범죄현장에서 발견된 DNA샘플이 피고로부터 채취한 샘플과 일치한다.’ 다른 하나는 ‘현장에서 발견된 샘플이 피고가 아닌 다른 사람의 샘플과 일치할 확률이 100만분의 1이다.’ 그러면 이 증언들로 피고에게 유죄판결을 내릴 수 있겠는가. 그럴 수 없다. 절반의 오류가 있어서다. 정말 무작위로 뽑힌 누군가가 진짜 살인자와 비슷한 DNA를 가지게 된, 100만명 중 한 명일 수 있기 때문. 실제 100만명에서 채취한 샘플로 만든 DB와 대조할 때 우연의 일치 한 개 정도 찾을 확률이 적잖다는 얘기다.

이건 어떤가. 중간고사에서 형편없는 점수를 받은 한 학생이 기말고사에서 놀랍게 오른 성적을 받았다. 마음을 다부지게 먹고 공부한 덕이다. 그런데 교수는 학생이 부정행위를 했다고 생각한다. 과연 교수의 편견일까. 아니다. 교수의 생각은 엄밀한 통계에 근거한다. 다년간 경험을 데이터화했더니 학생들의 중간고사와 기말고사 성적은 놀라운 상관관계를 보여주더란 거다.

이쯤 되면 확률이니 통계니 하는 것들로 인해 되레 미궁에 빠질 수 있다. 우린 그간 숫자·통계라면 무조건 믿고 들어가지 않았던가. 그러나 통계는 어떤 사실도 확실히 입증하진 못한다. 통계적 추론이 ‘입증’에 있지 않아서다. 통계의 힘은 패턴·결과를 관찰한 뒤 확률을 만들고 가장 그럴듯한 원인을 찾는 데 있다. 야구선수의 타율, 대통령후보자의 당선율을 따질 수 있는 것도 그런 이유에서다.

전작 ‘벌거벗은 경제학’으로 일약 세계적인 베스트셀러 작가가 된 저자의 새 책이다. 이번엔 통계다. 딱딱한 이론을 유연하게 푸는 저자의 장기는 다시 발휘됐다. 소득·물가, 정치·선거, 의학·스포츠 등 늘 쓰이는 일상을 끌어들여 통계 속 숫자의 의미를 해석한다. 책은 통계가 늘 거북했던 이들을 위한 반전이다.

▲진실과 거짓, 그 사이엔 ‘쉬운 조작’

‘세상엔 세 가지 거짓말이 있다. 거짓말, 새빨간 거짓말, 그리고 통계.’ 소설가 마크 트웨인이 이렇게 딴죽을 걸 만큼 통계엔 함정이 많다. 예를 보자. A가 말한다. “학교수준이 나빠진다. 전체 학교 중 60%가 지난해에 비해 올해 시험점수가 떨어졌다.” B도 말한다. “학교수준이 좋아진다. 전체 학생 중 80%가 지난해에 비해 올해 시험점수가 올랐다.” 이 두 경우는 다르다. 하지만 같다. 동일한 통계를 분석했다는 게 같고, 그 선택에 입장차가 있었다는 게 다르다. 한마디로 분석단위가 달랐다는 거다.

더 있다. 한 대학병원이 내놓은 통계결과. ‘심장병 수술에서 사망률이 떨어졌다.’ 사실이다. 하지만 정작 속은 다르다. 심장병 전문의들이 의료기술을 향상시키기보단 환자를 거부해 수술에서 실패할 확률이 줄어든 것이기 때문. 결국 숫자·분석단위의 함정에 따라 쉽게 해석도, 조작도 할 수 있는 것이 통계의 맹점이라고 했다. 데이터수집의 오류는 말할 것도 없고 측정자의 잘못된 판단이 전혀 다른 결과를 낼 수 있단 얘기다.

▲확률 실수 아니다 사람 실수다

그래서 이런 말을 한다. ‘확률은 실수하지 않는다. 확률을 사용하는 사람이 실수할 뿐.’ 가장 큰 실수가 독립적이지 않은 사건을 독립사건으로 추정하는 경우다. 가령 대서양을 횡단할 때 제트기 엔진 하나가 고장날 확률이 10만분의 1이라고 하자. 위험이 크다. 그런데 엔진 두 개가 다 멈출 가능성은 100억분의 1이다. 안심해도 되는가. 그럴 수 없다. 왜냐면 두 개의 엔진이 모두 고장나는 건 독립사건이 아니라서다.

독립사건에 대한 이해부족도 있다. 동전던지기를 할 때 늘 하는 말이 있다. “앞면이 나올 때가 됐어.” 그러나 100만번을 던져 모두 뒷면이 나온다고 해도 다음번에 앞면이 나올 확률은 여전히 1/2이다. 통계에서 ‘독립적’이라고 할 때는 한 결과가 다른 결과에 아무 영향을 미치지 않을 때라는 걸 알아야 한다는 거다.

▲통계, 기술보단 직관적 통찰

통계는 숫자로 표현하고 숫자로 비교한다. 부분을 보고 전체를 추론하며 확률로 예측한다. 그런데 정작 필요한 건 따로 있다. 직관이다. 저자에 따르면 “직관적 통찰 없는 통계는 알아들을 수 없는 외국어와 다를 바 없다.” 지금 대세인 빅데이터가 주어졌다고 해도 꿰뚫는 건 직관이어야 한다는 논지다. 여기엔 우연한 연관성만으로 쉽게 판단하지 말라는 당부가 들어 있다.

이때 저자가 끌어들인 것이 회귀분석이다. 데이터를 교란시키는 변수를 제외한 뒤 진짜 원인을 찾아내는, 분석방법 중 ‘베스트’라 했다. 하지만 이 역시 특정 상황에 기반한 분석이란 점을 감안해야 한다. 팝콘을 먹으면 전립선암이 예방된다? 보라색 신발을 신으면 성적이 오른다? 이런 결과라도 최소한 다른 결과와 대립하지 않아야 한다는 말이다.

스웨덴 수학자 안드레예스 둥켈스를 인용했다. 결국 “통계로 거짓말하긴 쉬워도 통계 없이 진실을 말하긴 어렵다.” 그러니 ‘벌거벗은’이 필요하다. 분석에 방해가 될 만한 것들을 주요 개념과 분리시키는 거다. 훌렁 벗겨버릴수록 정수에 가까워진다는 뜻이다.