티스토리 뷰
목차
여론조사 결과부터 범죄 건수, 경제성장률, 코로나19 확진자 수까지, 숫자로 둘러싸인 세상에서 어떻게 하면 상황을 제대로 이해하고 더 나은 판단을 내릴 수 있을까? 《숫자에 속지 않고 숫자 읽는 법》은 부정확하거나 모순되는 결과들을 그럴싸한 숫자로 포장한 것을 가려내고, 필요한 정보를 정확하게 파악하는 법을 제시하는 책이다. 겉으로 단순해 보이는 숫자가 어떻게 본질을 호도하고 오류를 낳는지 설명하며, 뉴스 속 숫자들을 대할 때 어떤 점을 주의해야 하고 숫자 이면의 숨은 의도를 어떻게 간파할 수 있는지를 다룬다.
숫자에 속지 않고 숫자 읽는 법
숫자와 친하지는 않지만 살아가는 데에 있어 숫자는 우리들 삶에 영향을 미치고 있다. 학문 중에도 통계에 관한 부분을 다루는 것만 봐도 숫자라는 개념은 미세한 부분들까지도 우리들에게 가까이 있다는 사실을 이 책을 통해 보다 가깝게 느껴보게 한다. 하루에도 코로나 확진자 수가 현재 몇 명이라는 문자를 자주 받는 현실 속에 이제는 누구라도 초기보다는 덤덤하게 받아들여지게 되는 사실, 숫자에 대한 무감각도 일부분 미친 부분일 수도 있다. 목차 정리를 보면 숫자를 이용하여 목적을 오남용 하는 정보의 범람, 그 가운데 어느 것이 진실된 것이고 어느 부분이 조작으로 이루어진 것인지에 대해 읽는 법을 들려준다. 대통령 후보의 활동과 이들을 지지하는 퍼센트에 대한 결과들을 매일 통계를 통해 읽게 되는 우리들, 예상과 실제 결과물이 거의 같은 경우도 있지만 다른 경우들은 어떻게 이해를 해야 할까? 현대의 정보사회는 받는 혜택도 많고 이들은 분명 목적을 지니고 있다. 그 목적이 숫자에 관련된 통계로 나오고 그것을 접하는 소비자들은 자신도 모르게 그 숫자에 영향을 받고 있다는 사실은 얼마든지 숫자를 연구하는 자들에 의해 바뀔 수도 있다는 사실에 경각심을 불러일으킨다. 세상에는 진실이 아님에도 거짓이 진짜처럼 받아들여지는 경우가 비일비재하다는 사실은 씁쓸함마저 느끼게 한다. 때문에 마지막 챕터에서 다룬 숫자를 책임감 있게 다루고 싶은 기자들에게 안내서처럼 보인 가이드는 숫자에 약한 나조차도 많은 공감을 불러일으킨 부분이었다. 기초적인 계산을 할 수만 있어도 살아가는 데 있어 불편함이 없지만 이 책을 통해 숫자가 단순히 숫자에 그치는 것이 아닌 아는 것만큼 보인다는 사실, 생각의 시야를 넓혀준 책이라 읽어보면 좋을 것 같다.
숫자와 통계가 진심일까?
다소 시간이 흘렀지만, 2006년으로 돌아가 본다. 당시 호주의 지질학자 밥 카터는 〈데일리 텔레그래프〉에 이런 글을 올렸다. 헤드라인 뉴스로 뜨기도 했다. "지구가 온난화되고 있다는 주장에는 문제가 있다. 지구온난화는 1998년에 멈췄다." 사실 이러한 주장이 실린 기사는 처음이 아니다. 지구온난화가 1998년에 멈췄다는 개념은 '지구온난화 일시정지' 혹은 '지구온난화 중단'에 대한 오랜 토론으로 이어졌다. 기온의 변화 추세가 늦춰진 것으로(혹은 일부 관점에서는 역전된 것으로) 보이는 이유를 무엇으로 설명할 수 있을까? 엉뚱하게도 답은 "그것은 당신이 1998년을 시작 연도로 골랐기 때문이다."이다. 시작점과 끝점을 자기에게 유리한 것으로만 고르는 체리피킹(어떤 대상에서 좋은 것만 고르는 행위를 통칭하는 용어. 확증편향과 관련이 있다)때문이라는 것이다. 이는 다른 말로 결과를 안 다음 가설 세우기 이름 붙일 수 있다. 즉, 이미 데이터를 얻은 후에 그것을 뒤져 흥미로운 결과를 찾아내는 것을 의미한다. 기후 변화나 자살률같이 잡음이 많이 끼는 데이터에선 자연적인 변동이 존재한다고 한다. 그래서 마음만 먹으면 특이하게 높은 점이나 낮은 점을 시작점이나 끝점으로 선택해서 마치 올라가는 추세나 내려가는 추세가 있는 것처럼 보이게 만들 수 있다. 다시 처음으로 돌아가 보면, 1998년 이후로는 온난화가 없어졌다고 주장하는 논문은 더 이상 나오지 않고 있다. 2014년, 2015년, 2016년 모두 1998년보다 더 더웠고, 3년 동안 연속으로 더워졌기 때문이다. 베스트셀러 책은 어떻게 쓸까? 작가의 역량 말고 무엇이 더 있을까 생각했는데, 그 비결이 어떤 공식 혹은 알고리즘 혹은 비밀코드에 있다고 믿는 사람들이 있다. J. K. 롤링, E. L. 제임스, 알렉스 마우드의 성공에 주목하며 저자가 중성적인 필명을 가진 여성인 것이 성공의 조건이라 주장한 사람도 있다. 알고리즘에 관한 기사를 보니, 텍스트 마이닝(text mining) 소프트웨어를 이용해서 베스트셀러의 2,800가지 공통 특성을 찾아냈다고 한다. 예를 들면 '짧은 문장, 목소리가 주도하는 이야기, 박식한 어휘 덜 사용하기, 감정적 리듬, 감정이 고조되었다가 내려가고 또다시 고조되었다가 내려가기'같은 것이었다. 이러한 자료들은 어떤 실질적인 내용에 바탕을 둔 것일까? 아니면 통계적 오류일까? 저자는 이런 경우는 분명한 오류라고 한다. 이를 설명하기 위해서 제2차 세계대전 중 폭격기 이야기를 들려준다. 1944년 미 해군은 일본의 활주로를 폭격하는 데 막대한 돈과 노력, 그리고 목숨을 소비하고 있었다. 미 해군은 임무를 마치고 돌아온 폭격기가 주로 어디에 손상을 입었는지 조사했다. 총탄과 대공 포화 흔적이 날개와 동체에 집중되어 있고 엔진에는 없는 것으로 나왔다. 그래서 날개와 동체에 추가로 철갑을 덧씌우기로 결정했다. 잘했다고 박수를 쳐주어야 할까? 엔진에 손상을 입은 비행기는 대부분 바다에 추락했기 때문에 이 통계에서 빠진 것이 함정이다. 이런 종류의 표본 편행을 생존자 편향(survivorship bias)이라고 한다. 살아남아 소식을 전한 구성원만의 자료를 토대로 한 통계가 잡혔기 때문이다. "그럼 알고리즘을 이용해서 베스트셀러를 예측할 수 있을까? 중성적인 필명이 여성 작가의 글이 출판되는 데 도움을 줄까? 알 수 없는 노릇이다. 중성적인 필명을 가진 여성 작가 중 출판이 되지 않은 사람이 몇 명이나 있는지 모르기 때문이다. 그리고 알고리즘이 원고가 베스트셀러가 될지를 97퍼센트의 정확도로 예측할 수 있을까? 베스트셀러 목록에 오르지 못하거나 아예 출판조차 되지 않은 책들을 모두 살펴본 것이 아닌 한, 그런 예측은 하지 못할 것이 거의 확실하다." 숫자가 진심인 줄 알았다. 숫자와 통계가 모든 것을 선명하게 알려준다고 믿었다. 그러나 이 책을 읽고 나서 다시 생각해 본다. 현 사회는 숫자와 통계가 여론몰이를 하는 경우도 많다. 오해와 혼란이 벌어질 여지가 다분하다. 의도적이던 아니던 잘못 추려진 정보가 대중에게 전달될 때, 사회는 편향된 사고가 형성되거나, 옳지 못할 결정을 내릴 가능성이 많다. 통계를 올리는 사람, 통계를 읽는 사람 모두가 읽어볼 만한 책이다. 이 책의 공저자 2인(부자지간?)은 각기 영국의 과학 저술가, 경제학과 교수로 소개된다. 숫자가 본질을 흐리는 다양한 사례를 통해 숫자와 통계 이면을 생각해 보는 시간이 된다.
통계 속에 녹아 있는 숫자의 오류를 발견하는 22가지 방법
수학은 우주의 진리를 풀어나가는 하나의 도구로 어렵지만 그만큼의 신뢰를 가지고 있다. 세상에는 수학을 좋아하지 않는 수포자들이 많이 있지만 그들도 숫자에서 오는 믿음은 가지고 있다. 회사에서는 '정량적'인 것을 좋아한다. 숫자는 객관적이다. 하지만 그것을 해석하는 것은 모두 옳은 방법을 사용하는 것은 아니다. 정보화 시대. 많은 미디어는 엄청난 양의 뉴스를 쏟아내고 있다. 어제와 다른 오늘의 이야기를 마치 진리인 마냥 얘기한다. 하나 같이 연구를 인용하기도 하고 당당하게 숫자를 제시한다. 그들은 미디어로서의 역할을 제대로 해내고 있는지 누군가 던져 준 미끼를 덥석 물어 베끼는지는 알 수 없는 노릇이지만 분명한 것은 '출판 편향'은 가지고 있다. 출판 편향은 한 가지의 주제에 대해 여러 자료가 있지만 자극적이거나 흥미로운 주제만을 다루는 경향을 가지는 것이다. 이것은 비단 언론만의 문제는 아니다. 연구 자료 또한 편향성을 가진다. 식당에 애국가가 나오면 한식을 먹을 확률이 높다는 연구 결과가 그렇지 않다는 연구 결과보다 흥미롭고 두 연구가 동시에 연구자료를 내놓더라도 한쪽만 출판될 가능성은 얼마든 지 있다. 이것이 사람의 생명에 관련된 것이라면 웃어넘기기 힘든 문제가 된다. 숫자는 연구를 하는 사람의 의지에 따라 얼마든지 바뀔 수 있다. 표본의 크기를 지운 상태의 데이터로 사람들을 자극하기도 하고 때로는 상대적 지표만 가지고 엄청나게 크게 느끼게 만들어 버린다. 더 심하게는 표본을 모으는 시간과 방법을 바꿔서 다른 결과를 만들어 내기도 한다. 심한 확신을 가지고 시작한 연구는 해당 결과가 나오는 순간 표본 수집을 그만 둠으로써 주관적인 연구 결과를 만들어 내고, 많은 교란 변수들이 있는 변수를 가지고 상관성을 비교한다. 마치 초콜릿 소비가 많은 나라가 학력이 우수하다고 얘기하는 것과 비슷한다. 잘 사는 나라는 학력 수준도 높고 부의 수준도 높아서 초콜릿을 맘껏 먹을 수 있는 사람이 많은 것뿐인데 말이다. 바다에서 썰물 때만 표본을 수집하여 지구의 수면은 점차 낮아지고 있다고 주장할 수 도 있다는 것이다. 심지어 이미 만들어진 결과로 예측 모델을 만들어서 진리인 것처럼 말하기도 하고, 모여진 표본에서 몰려있는 부분만을 골라내 마치 어떤 이유로 인해서 그 일이 생긴 것처럼 말하기도 한다. 만들어진 표본은 수 천 가지의 이유가 모여서 생긴 것일 수도 있는데 말이다. 이 책을 읽으면서 계속 '팩트풀니스'가 생각이 났다. 세상에는 진실이 아닌데, 진실인 것처럼 통하는 것이 많다. 1차적인 책임은 제대로 연구하지 않는 연구자와 교묘하게 숫자를 처리하고 때로는 편향 출판을 하는 언론사에게 있다. 하지만 의도하지 않았다면 그들의 일도 어느 정도 이해는 할 수 있다. 결국 최종 소비자인 우리의 몫으로 돌아온다. 이해관계가 바뀌거나 정권이 바뀌면 논조가 확 바뀌는 이유는 같은 일을 해석하는 자세가 바뀌었기 때문이다. 정보가 넘쳐나는 지금의 시대에 결국 자신의 책임으로 남겨지게 되는 게 조금은 씁쓸하다. 숫자가 왜곡되거나 왜곡되게 보이게 하는 22가지의 오류에 대해서 이 책을 읽으며 익히면 세상을 조금 더 사실적으로 볼 수 있게 될 것 같다. 세상에 믿을 게 없는 건지, 선택적 믿음이 필요한 건지 참 걱정이다.