수학자이자 퀀트, 데이터 과학자로서 저는 빅데이터와 인공지능이 지닌 파괴적인 힘을 수년간 목격해 왔습니다. 이 책은 제 여정의 기록이자 내부 고발이자 전문가로서의 제안입니다. 수학, 데이터, IT 기술의 결합으로 만들어진 알고리즘은 지금 이 순간에도 곳곳에서 ‘보이지 않는 손’이 되어 절대 권한을 행사하고 있습니다. 특히 인간의 편견과 무지와 자만을 코드화한 프로그램이 ‘대량살상무기 Weapons of Mass Destruction’만큼이나 위험하다고 생각합니다. “대량살상무기 Weapons of Math Destruction” 줄여서 WMD라고 명명하였습니다” 대량살상무기는 이 책의 제목이기도 합니다. – 6p (한국독자들에게 – 캐시오닐)

서론

금융계 붕괴는 한때 나의 질서정연한 도피처였던 수학이 세상에 깊숙이 얽혀 있을 뿐 아니라 많은 문제를 부채질하고 있다고 밝혔다. 주택시장 붕괴, 주요 금융기관의 파산, 실업률 급등, 이 모든 문제가 마법의 공식을 휘두른 수학자의 도움과 사주팔자로 빚어진 재앙이었다. 내가 사랑한 수학의 놀라운 능력은 금융기술과 결합돼 혼란과 불행을 가중시키는 독이 됐다. 또 시장 붕괴로 결함을 드러낸 금융시스템을 개선하기보다는 효율성과 확장성이라는 날개를 달았다. 14p

하지만 내게는 문제가 보였다. 빅테이터 경제의 원동력인 수학 모형 프로그램은 실패할 수밖에 없는 인간의 선택에 기반을 두고 있다. 분명히 이런 선택의 일부는 선한 의도를 갖고 있다. 그러나 대다수 모형은 인간의 편견, 오해, 편향성을 코드화했다. 그리고 이들 코드는 점차 우리 생활을 깊이 지배하는 시스템에 그대로 주입시켰다. 수학 모형은 여러 면에서 하느님과 비슷하다. 하느님처럼 불투명하고 이해하기 어려운 각 분야의 최고위급, 즉 수학자와 컴퓨터 과학자 이외의 어느 누구에게도 내부적으로 작용하는 방식을 보여주지 않는다. 그리고 하느님의 평결처럼 잘못되었거나 해로운 결정을 내리더라도 반박하거나 수정해 달라고 요구할 수는 없다. 무엇보다 사회적 약자와 가난한 사람들을 차별하고 부자들은 더욱 부자로 만드는 경향이 있다. 16p

WMD에서는 수학의 탈을 쓴 수많은 유해한 가정들이 검증 과정을 거치지 않고 의심의 눈길을 받지 않은 채 무조건 받아들여지고 있다. 이는 WMD의 또 다른 공통점을 보여준다. WMD는 가난한 사람들을 저평가하는 경향이 있다. 이런 모형이 대규모로 사람을 평가하도록 설계됐다는 게 그 이유 중 하나다. 대규모 데이터 처리에 특화된 WMD는 저비용으로 작업을 한다. 이는 WMD의 매력 중 하나다. 반면 부자는 종종 개인적 접촉에서 유리한 위치를 차지한다. 특권층은 주로 개별적인 대인면담을 통해 평가받고, 대부분의 평범한 사람들은 기계가 일괄적으로 처리한다. 24p

소프트웨어 그 자체는 주어진 일을 할 뿐이다. 문제는 결국 금전적 이익이 진실에 대한 대체 ‘stand-in’ 혹은 대리 ‘proxy’ 데이터 역할을 한다는 점이다. 이 책을 통해 우리는 대리 데이터가 진실인 양 행세하는 위험한 상황을 수없이 보게 될 것이다. 32p

데이터 과학자들은 부수적 피해자들에게 잠시 잊고 그들의 반대편에 있는 사람들에게 집중하자고 권유할지도 모른다. 추천 엔진에서 유익한 정보를 얻어 음악 스트리밍 서비스 사이트 판도라 Pandora에서 좋아하는 음악을 찾고, 세계 최대의 비즈니스 소셜 미디어 링크드인 리네드에서 꿈의 직장을 찾아 온라인 데이트 사이트 매치닷컴 Match.com에서 평생의 사랑을 찾는 그런 사람들이다. 요컨대 빅 데이터 시스템의 놀라운 확장성에 집중하고 불완전성을 눈감으라고 할지도 모른다. 빅데이터의 어두운 세상에 온 것을 환영한다. 33p

제1장 대량살상무기 탄생

빅데이터 시대 알고리즘이 신을 대체하는

그렇더라도 우발적 실수는 불가피하다. 모형은 원래 복잡한 현실을 단순화한 개념이기 때문이다. 사실 세상의 온갖 복잡성이나 인간 커뮤니케이션의 미묘한 차이를 완전히 반영한 모형은 존재하지 않는다. 중요한 정보가 일부 새나가는 것도 어쩔 수 없다. 모형을 만들려면 다양한 정보 중에서 모형에 담아야 할 중요한 정보를 골라 세상을 장난감처럼 단순화시켜야 한다. 그래야 쉽게 이해할 수 있고, 중요한 사실과 행동을 추론할 수 있다. 동시에 사람들은 각각의 모형에서 단 하나만 기대하고 때로는 모형이 중대한 맹점을 가진 어리석은 기계처럼 작동할 수도 있다는 사실을 받아들여야 한다. 모형의 맹점을 보면 모형 개발자의 판단 기준과 우선순위를 알 수 있다. 44p

이처럼 공정하다고 생각되는 모형에도 대개 개발자의 목표와 이념이 반영된다. 모델은 수학에 깊이 뿌리박힌 지극히 개인적인 의견이라고 할 수 있다. 모형의 성공 여부를 판단하는 것도 개인적인 의견일 뿐이다. 공식적이든 비공식적이든 모든 모델의 핵심은 성공의 정의다. 우리는 개인이건 기업이건 누가 모형을 만들었는지, 그리고 개발자가 모형을 통해 이루려는 목표가 무엇인지 알아야 한다. 46p

개인적 차원에서 보면 인종차별은 세계 수십억 명의 머릿속에 존재하는 정신예측 모델이라고 할 수 있다. 인종차별 모형은 결함이 있거나 불완전하거나 일반화의 오류로 가득 찬 데이터를 바탕으로 만들어진다. 직접 체험한 일이든 소문에 근거한 일이든 인종차별을 옹호하는 데이터로 만들어진 이 모형은 행실이 나쁜 특정 부류의 사람들이 있다고 전제한다. 이는 다시 이들과 같은 살색을 가진 사람이면 누구나 이들과 똑같은 방식으로 행동할 것이라는 이분법적 예측으로 귀결된다. 48p

인종차별 모형은 무계획한 데이터 수집과 허위상관 spurious correlation에 의해 작동되며 제도적 불공평 설치에 의해 강화되며 확증 편향 confirmation bias에 의해 오염된다. 인종차별은 이런 방식을 통해 이 책에 소개되는 WMD와 마찬가지로 기능한다. 48p

LSI-R과 같은 재위험성 모형은 치명적인 피드백 루프를 확대 재생산한다. 고위험군으로 분류된 사람은 일정한 직업이 없을 뿐 아니라 법적으로 문제가 있는 가족이나 친구가 많은 환경에서 성장했을 가능성이 높다. 여기에 이들은 재범 위험성 평가에서 받은 높은 점수가 더해지면서 더 높은 형을 선고받고 범죄자들에게 둘러싸인 감옥에서 사회와 격리된 채 몇 년을 보내게 된다. 수년간의 수감 생활은 그가 감옥으로 돌아갈 가능성을 더욱 높여 주고 있다. 재범의 위험성을 확실하게 높여 주고 있다. 재범의 위험성 모형 자체가 그런 악순환이 발생하는 한 원인이며, 이러한 악순환이 계속되는 데 일조한다. 이것이 WMD의 대표적인 특징이다. 54p

우리는 모형에 따라 적극적인 소비자, 실업자, 환자, 대출 신청자 등으로 분류되지만 정작 아무도 자신이 어떤 분류에 들어가는지 모른다. 심지어 직접 신청서를 작성하면서도 자신이 모형화의 대상이 됐다는 사실조차 깨닫지 못한다. 모형이 제대로 작동할 때도 불투명성 때문에 기분이 부당하다. 사정이 이런데도 많은 기업들이 모형 산출물이나 심지어 모형이 존재한다는 사실 자체를 숨기기 위해 안간힘을 쓰고 있다. 이런 행위를 정당화하기 위해 기업이 사용하는 보편적 논리가 있다. 모형 알고리즘이 비즈니스에 절대적으로 중요한 영업비밀이라고 주장하는 것이다. 요컨대 모형은 필요하다면 법률전문가와 로비스트를 대거 동원해서라도 반드시 보호해야 할 지적재산으로 취급된다. WMD는 원래 쉽게 이해할 수 없도록 설계된 블랙박스다. 57p

WMD의 세 가지 요소는 불투명성 확장성 피해이다. WMD 모형으로 수혜자가 있다는 것은 아니다. 일부 예외를 제외하면 고통받는 사람이 너무 많다는 게 문제다. 알고리즘에 따라 작동하는 모형은 수백만 명 앞에서 기회의 문을 닫아 버리고 이의를 제기할 가능성조차 허용하지 않는다. 더러는 하찮은 이유로 그렇게 한다. 그러니 WMD 모형이 불공정하다고 할 수밖에 없다. 61p

제2장 셸 쇼크

●금융-수학 결탁이 부른 파국

나는 어느새 국제금융시장에서 움직이는 몇 조달러의 현금, 채권, 주식 등에 익숙해졌다. 그런데 헤지펀드에서 쓰는 모형의 숫자는 학술적 수학 모형에 포함된 숫자와는 확연히 다른 실체를 갖춘 숫자였다. 수치는 퇴직금과 주택담보대출을 의미한다. 이제 와서 돌이켜보면 이것은 너무나 당연한 일이었다. 아니, 솔직히 말해서 디쇼로 이직을 결심했을 때부터 나는 그것을 잘 알고 있었다. 그런데도 헤지펀드의 수학적 도구가 가볍게 다루는 5센터, 10센터, 25센트짜리 동전 하나하나의 본질을 정확히 이해하지 못했다. 그러나 월가에서도 가장 거만한 금융전문가 집단인 헤지펀드에게 이런 돈은 그저 하나의 숫자에 불과한 눈 가리고 아웅 하는 말은 월가에서도 가장 거만한 금융전문가 집단인 헤지펀드에게 이런 돈이다. 68p

균열은 2007년에 나타났다. 2007년 7월 은행 간 급료가 폭등했다. 911테러에 따른 경기침체 이후 저금리 기조는 주택건설 붐을 부추겼다. 누구나 집을 담보로 대출을 받을 수 있었다. 건축업자들은 도시에서 멀리 떨어진 준교외지역, 황무지, 평야를 대규모 주택단지로 만들었다. 은행들은 거대한 건축 붐과 결합한 온갖 종류의 금융상품을 놓고 수십 십억달러의 도박을 벌였다. 그런 가운데 은행간 금리가 상승하는 것은 불길한 징조였다.금융기관들은 자신들의 포트폴리오에 포함된 투기 등급 부실 채권의 위험성을 서서히 인식했고, 다른 은행들도 적어도 자신들과 같은 위험한 상황에 처해 있다는 논리적인 판단을 하기 시작했다. 위험을 피한다는 헤지헤지라는 단어에서 알 수 있듯이 헤지펀드는 위험을 피해 다양한 상품에 분산 투자한다. 이것이 헤지펀드의 본질이다. 헤지펀드의 게임은 시장과 일체가 되어 움직이는 것이 아니라 시장과 거리를 둔 채 시장의 움직임을 예측하는 것이었다. 따라서 시장의 하락도 시장의 상승만큼 돈을 버는 기회였다. 70p

(헤지펀드는) 경기와 관련된 다양한 움직임(가정)에 베팅하지 경기 결과 자체에 베팅하지는 않는다. 이런 이유로 이이쇼 직원들은 금융위기가 와도 회사가 안전하다고, 적어도 다른 회사보다는 안전하다고 믿고 있다. 71p

수십 년간 MBS(주택저당증권)는 공포의 반대어로 통했다. MBS는 개인과 투자펀드가 투자 포트폴리오를 다변화하기 위해 널리 이용해온 보편적 금융상품으로 양으로 위험을 상쇄한다는 논리를 바탕으로 인기를 끌었다. 주택담보대출은 대출자가 채무불이행 가능성을 갖고 있다. 다시 말해 주택 소유자는 파산을 선언할 수 있지만 이 경우 대부은행은 대출금 전액을 회수할 수 없다. 정반대의 상황이 전개될 가능성도 있다. 대출자가 만기 전에 대출자를 조기 상환할 경우 은행은 장래 이자 수입을 잃게 된다. 이런 위험을 상쇄하기 위해 1980년대에 수천 건의 주택담보대출을 사들이면서 증권화를 시작했다. 이것은 일종의 채권으로 소위 규칙적으로 배당금을 주는 금융상품이었다. 주택담보대출을 갚지 못하는 소수의 대출자도 있겠지만 대부분의 대출자가 대출금을 제때 갚으면 순조롭게 예측 가능한 수익 흐름을 낳을 수 있을 것이다. 전문가들은 주택담보대출을 등급별 또는 트랜셰 tranche별로 분류했다. 당연히 견실한 증권도, 상대적으로 위험도가 높은 것으로 평가된 증권도 있었지만 위험도가 높으면 그만큼 이자율이 높았다. 잠재적 위험에도 불구하고 투자자들은 MBS가 안전한 투자처라는 확신을 갖고 있지만 신용평가기관인 스탠더드앤드푸어스, 무디스, 피치가 MBS를 조사한 뒤 위험도에 따라 등급을 매겼기 때문이다. 그리고 투자자들은 MBS에 투자하는 것이 현명한 선택이라고 생각했다. 그러나 복병이 있었다. 불투명성이었다. 투자자들은 증권에 포함된 주택담보대출 각각의 건전성을 전혀 알 길이 없었다. 그런데 애널리스트들은 자신이 신용평가하는 금융상품을 만들어 파는 기업으로부터 수수료를 받았다. 때문에 MBS는 사기꾼들의 이상적인 먹잇감이었다. 75p

MBS에 대해 재미있는 은유가 있다. 바로 소시지다. 주택담보대출은 품질의 다양한 작은 고깃덩어리이고 MBS는 그런 고기를 한데 섞어 여러 가지 강렬한 향신료를 추가해 만든 소시지 다발이라고 생각해보자. 확실히 소시지는 품질이 달라 겉모습만으로 내용물을 단정하기는 어렵다. 하지만 포장지에 먹어도 안전하다는 것을 확인해 주는 미국 농업부의 도장이 찍혀 있기 때문에 우리는 안심하고 소시지를 구입한다. 76p

주택시장이 호황일 때 대량 발생한 비우량 주택대출은 분명히 WMD가 아니다. 다른 말로 하면 그런 대출은 모형이 아닌 금융상품이며, 수학과는 거의 관계가 없다(오히려 대출중개인들은 불편한 수학적 측면을 무시하기 위한 모든 수단을 동원했다). 77p

(MBS주택저당증권의) 첫 번째 잘못된 가정은 관련된 모든 금융기관에 종사하는 뛰어난 수학자들이 숫자를 계산 분석하고 위험을 매우 신중하게 고려해 균형을 잡겠다는 생각이었다 본질적으로 MBS의 위험등급은 불투명하고 수학적으로 매우 복잡해 보이도록 설계됐다. 매수자가 보유한 증권의 진정한 위험 수준을 파악할 수 없도록 하기 위해서. 두 번째 잘못된 가정은 많은 사람들이 동시에 채무를 이행하지 않을 것이라는 믿음이었다. 한마디로 미래가 과거와 꼭 같다는 가정 아래 투자가 이뤄졌다. 은행들은 MBS 판매를 위해 트리플A 등급을 받아야 했고, 이를 위해 수십 십억달러의 가치를 지닌 MBS 시장에 가치를 부여하는 스탠더드앤드푸어스 무디스 피치는 막대한 수수료를 챙길 수 있는 기회가 돼 은행들에 기꺼이 협조하는 길을 택했다. 즉 자사 모델의 정확도를 높이기보다는 고객 만족도를 높이는 데 더 많은 관심을 기울였다. 이런 행동은 그 자체로 치명적인 피드백 루프를 낳았다. 불량상품에 매겨진 트리플A 등급은 금이었고 그 돈은 거짓과 거짓으로 점철된 MBS 시장에 대한 잘못된 신뢰를 확산시켰다. 80p

바로 여기에 역설이 나타난다. 이런 시장을 창조한 주범인 동시에 다양한 대출채권의 위험을 분석 분류해 증권에 유동화한 강력한 알고리즘이 막상 시장이 혼란스러워지면 이를 바로잡아 유가증권의 실질적 가치를 따지는 것은 무용지물이었던 것이다. 다시 말해 수학은 쓰레기 같은 대출채권의 가치를 몇 배로 부풀릴 수는 있지만 해석할 능력은 없었다. 해석은 순전히 인간의 몫이었다. 81p

극적인 드라마를 경험하면서 저는 수학 모형의 미몽에서 깨어났어요. 나는 이 사태의 수학 역학이었다. 나는 진실의 어색한 생얼을 마주하지 않을 수 없었다. 사람들은 수학의 정식을 명확히 하기보다는 강렬한 인상을 주기 위해 의도적으로 이용했다. 그러한 파괴적인 개념과 직접 대면한 것은 내 인생에서 처음이었다. 나는 불편한 상황에서 벗어나 시계를 거꾸로 돌려 수학이론의 증명과 큐브가 전부였던 과거로 되돌리고 싶었다. 2009년 나는 금융세계의 WMD를 바로잡는 데 헌신하겠다는 일념으로 D. 쇼를 떠났다. 84p

리스크 매트릭스는 리스크를 계산하기 위해 몬테카를로 기법을 따랐다. 카지노에서 룰렛 휠을 1만 번 돌려 그 결과를 철저히 기록한다고 생각하면 몬테카를로의 수법을 쉽게 이해할 수 있을 것이다. 통상, 이 수법을 적용할 때에 최초로 실시하는 것은, 시장의 과거의 데이터에 수천개의 테스트 시나리오를 적용하는 것이다. 몬테카를로의 기법에는 논란의 여지가 많았지만 약간의 위험도 이해할 수 있는 간단한 방법임은 분명했다. 85p

솔직히 헤지펀드는 자신들이 세상에서 가장 영리하다고 생각하는 집단이었고 위험을 이해하는 것이 그들이 존재하는 근본적인 이유가 되기 때문에 결코 나와 같은 외부인에게 전적으로 의존하지 않았다. 헤지펀드는 자체적으로 리스크 관리팀을 운영했다. 그럼에도 불구하고 한국 상품을 구매하는 주된 이유는 단지 투자자에게 리스크에 대비하고 있다는 좋은 인상을 주기 위해서였다. 85p

트레이더의 능력은 각자가 운영하는 포트폴리오의 총 리스크로 포트폴리오 투자 수익을 나눈 값인 샤프 지수 Sharperatio로 평가된다. 샤프지수는 트레이더의 경력과 성과급에 결정적인 영향을 미칠 뿐 아니라 트레이더 각각의 존재의의를 느끼는데 있어서도 매우 중요한 요소다. 하지만 신용부도스와프에 대한 위험보고서 중 하나가 자신이 운영하는 포트폴리오에서 큰 비중을 차지하는 주식이 위험하다는 경고를 보낸다면 그 트레이더의 샤프지수가 폭락할 수도 있다. 트레이더들은 위험 신호에 대비하기보다는 실질적인 위험이 닥칠 때까지 이를 과소평가하거나 애써 무시하려 했다. 87p

금융업과 첨단기술 업종은 온갖 혼란이 난무하는 현실 세상과 동떨어져 있다. 이 두 분야는 인간을 데이터 흔적으로 바꾼다. 또, 특정의 목적에 최적화하기 위해서, 인간을 실질적인 구매자나 유권자 혹은 노동자로 전환시킨다. 이런 시도는 시스템이 주는 익명의 점수로 성공이 정의되거나 시스템의 영향을 받는 사람들이 스크린 위에서 춤추는 숫자만큼 추상적일 경우 정당화하기 쉽고 실행하기 쉽다. 어느 순간, 나는 데이터 과학 분야에서도, 일찌기 금융계에서 목격했던 것과 같은 패턴이 나타나고 있는 것을 알았다. 안전하다는 착각에 사로잡혀 불완전한 모형을 광범위하게 사용하고, 성공을 자기중심적으로 정의해 차별적 피드백 구프가 갈수록 강력해지고 있었다. 이런 흐름에 반대하는 사람들은 향수에 젖은 러다이트 Luddiet(기계가 일자리를 빼앗을 것이라고 믿고 공장과 기계를 파괴한 운동)이라고 매도했다. 91p

나는 빅데이터 분야와 관련해 금융권의 신용위기와 유사한 개념이 무엇일까 궁금했다. 나는 파산이라는 말 대신 불평등이 늘어나면서 많이 거론되고 있는 디스토피아 Dystopia(이상향을 뜻하는 유토피아에 반대되는 세상)라는 말이 적당하다고 생각했다. 알고리즘은 패배자로 낙인찍힌 사람들을 언제까지나 패배자로 남게 한다. 반면 운 좋은 소수는 빅데이터의 경제 통제력을 날로 확대해 막대한 부를 축적하고 자신이 모든 혜택을 누릴 자격이 있다고 확신한다. 91p

삼장 군비 경쟁

데이터에 사로잡힌 학교와 학생들

반면 유에스뉴스는 교육의 우수성을 측정하려 했지만 그 가치는 농업경제학자가 옥수수 가격이나 옥수수 알갱이에 들어있는 단백질의 양을 측정하는 것보다 훨씬 어렵다. 이들에게는 4년간의 대학 과정이 수천만 명의 학생은 고사하고 학생 한 명에게 어떤 영향을 미치는지조차 정량화할 직접적인 방법이 없었다. 그래서 유에스뉴스는 교육의 우수성과 상관성이 있어 보이는 대리 데이터를 쓰기로 했다. 우선 SAT 점수와 학생대 교수 비율, 입학 경쟁률을 조사해 신입생 잔류율과 졸업률을 분석했다. 또 동문이 모교에 기부하는 비율도 계산했는데 모교에 기부하는 동문은 재학 중 받은 교육에 만족할 가능성이 높다고 추측했기 때문이다. 『유로-뉴스』는 1988년에 처음으로 데이터를 기반으로 한 대학 랭킹을 발표했는데, 이는 매우 합리적으로 보였다. 하지만 순위가 전국적인 표준으로 확대되면서 부정적인 피드백 루프가 활성화되기 시작했다. 문제는 대학 순위가 자기 강화적인 특징을 갖는다는 점이었다. 예를 들어 <US 뉴스>에서 낮은 순위를 차지하면, 대학의 평판은 손상되어 전반적인 환경은 악화되었다. 우수 학생과 우수 교수가 해당 대학을 싫어했고 동창은 노골적으로 불만을 표시해 기부금을 줄였다. 그 바람에 이듬해 해당 대학의 순위는 더 떨어졌다. 98p

학교 순위도 오를 것으로 기대하면서 SAT를 치르는 학생의 응시료를 대신 내줬다. 펜실베이니아 주에 있는 버크넬대와 캘리포니아 주에 있는 클레어몬트 매케나 칼리지를 비롯해 규모가 작은 명문대는 US뉴스에 신입생들의 SAT 점수를 부풀리는 등 허위 데이터를 제공했다. 100p

직접적인 데이터에 기반한 모형이 가장 좋지만 그러한 데이터를 얻을 수 없는 상황에서 대리 데이터로 구축된 <US 뉴스> 모형은 최고의 차선책이라고 (<US 뉴스>의 최고 데이터 전략가) 로버트 모스는 주장했다. 그러나 대리 데이터로 구축된 모형에는 심각한 결함이 있다. 간단히 말하면 장난치기 쉽다. 이는 대리 데이터가 대표하는 복잡한 현실보다 대리 데이터 자체가 조작하기 쉽기 때문이다. 101p

문제는 US뉴스의 모형소의 것이 아니고, 그 모형의 확장성에 있다. US 뉴스 모형과 같은 WMD는 모든 사람이 정확히 같은 목표를 따르도록 강제한다. 이는 사람들을 무한경쟁으로 몰아넣고 이전에 경험하지 못했던 각종 부작용에 시달리게 한다. 중위권 대학들은 수업등록률을 높이기 위해 학생 선발 알고리즘을 조정하고 있다. 성적이 뛰어나도 입학 가능성이 낮은 지원자들은 떨어지게 말이야. 저소득층 학자금 지원은 US뉴스 모형에 포함되지 않은 기준이다.<US뉴스> 직원들은 물론 독자들의 머릿속에 이미 깊이 뿌리내린 비공식 모형을 그대로 반영해 하버드, 스탠퍼드, 프린스턴, 예일이 상위권에 들었다면 모형의 타당성을 입증하는 것처럼 보였을 것이다. US 뉴스는 명문대들이 특별하게 평가하는 특징이 무엇인지를 조사하였다. SAT 점수는 명문대였으며, 시계와 같이 정확해야 4년 후에 졸업했으며, 성공한 졸업생들은 모교에 많은 돈을 기부하고 있었다. 이처럼 명문대의 장점을 분석함으로써 <US 뉴스>는 대학의 우서성을 측정하는 수준 높은 기준을 창조했다. 만약 유에스 뉴스가 싼 교육비를 공식적으로 포함시켰다면 어떻게 되었을까? <유에스 뉴스>는 대학 순위 측정 항목으로 학비를 고려하지 않음으로써 대학 총장들의 손에 황금 거위를 쥐게 했다. 1985년부터 2013년까지 미국 대학교육비를 500% 이상 증가했다. 이는 같은 기간 물가상승률의 거의 4배에 이른다. 111p

불공정한 조건에서 이길 방법은 하나뿐이다. 수단과 방법을 가리지 않고 우위에 서서 다른 사람이 자신보다 앞서지 못하게 하는 것이다. 116p

당연한 일이겠지만 피해자는 대다수 미국인, 즉 입시 관련 서비스와 컨설턴트들에게 몇 천달러의 돈을 지출할 여력이 없어 귀중한 내부 정보를 얻지 못하는 빈곤층과 중산층 가정이다. 교육 시스템에서도 특권층만의 리그가 만들어졌다. 지금은 교육제도 자체가 가난한 학생을 차별하고 그들을 대부분 빈곤으로 연결하는 길로 내몰고 있다. 이는 결국 사회의 극심한 양극화를 초래한다. 118p

요컨대 부유층부터 노동자 계층까지 모든 학생이 거대한 기계에 맞도록, 즉 WMD를 채우도록 단순히 훈련될 뿐이다. 이런 시련을 겪고 나서도 이들 중 상당수는 천정부지로 치솟은 등록금 때문에 수십 년 동안 갚아야 하는 학자금 대출을 받게 된다. 학생들은 군비경쟁의 저당 잡혀 있고 군비경쟁은 심하고 문란하다. 119p

미국 교육부는 웹사이트를 통해 대학 순위 대신 막대한 기초데이터를 공개하고 있다. 앞으로 학생들은 교수 1인당 학생 수, 졸업률, 졸업생 평균 부채 등 자신에게 중요한 사항을 직접 조사할 수 있게 돼 더 이상 통계 수치나 변수의 가중치에 신경 쓰지 않아도 된다. 온라인 여행 사이트처럼 교육부의 소프트웨어 자체가 학생마다 개별적인 모형을 만들어내기 때문이다. 이 모형은 투명하면서도 사용자 통제가 가능하며 개인적이다. WMD와 정반대라고 말해도 좋다. 122p

제4장 선동 도구

알고리즘은 네가 그것을 한 것을 알고 있어

‘당신이 개라는 사실을 아무도 모른다’는 말로 대변되던 초기 닷컴시대에는 인터넷은 정말 익명성이 보장되는 공간이었지만 오늘날 정반대의 상황이 되었다. 사람들은 자신이 인터넷에 나타난 선호도와 패턴을 바탕으로 수많은 모형에서 분리돼 분류돼 점수를 매긴다. 이런 정보는 합법적인 광고 캠페인의 토대가 될 뿐 아니라 약탈적인 광고의 연료가 된다. 도움이 절실한 사람들만 골라 지킬 수 없는 거짓 약속을 하거나, 지나치게 비싼 비용이 드는 약속을 하고 바가지 씌우는 악성 광고다. 절박함과 무지가 공존하는 곳곳마다 약탈적 광고를 발견할 수 있다. 126p

약탈적 광고는 전형적인 WMD다.이런 광고는 절박한 사람들을 찾아내 표적 공략한다. 예컨대 교육과 관련한 약탈적 광고는 대부분 거짓 성공 로드맵을 약속하면서 잠재 고객으로부터 빼앗은 돈을 극대화하는 방법을 계산한다. 127p

영리대학이 사회적으로 취약한 사람들을 공략하는 이유는 무엇일까. 취약성은 황금과 같은 가치가 있다. 항상 그래왔던… 이 전략에서 고객의 무지는 핵심 퍼즐 조각이다.첫 번째 목표는 사립대가 공립대학보다 낫다고 믿으며 미국 땅을 밟은 이민자이다. 물론 그런 사립대가 하버드와 프린스턴이라면 그 믿음은 타당하다. 하지만 영리대 신입생 외에는 데브리나 피닉스대가 다른 어떤 주립대보다도 낫다고 생각하지 않는다. 일단 무지가 제대로 정착되면 돌팔이 의사처럼 영리대학의 최우선 순위는 가장 취약한 사람을 찾아낸 뒤 이들의 개인정보를 분석하고 공략하는 것이다. 130p

베테랑 칼리지는 신입생 모집원을 위한 훈련자료에 우리는 현재를 살아가는 것이 지상 목표인 사람들을 상대한다고 명시했다. 학업을 시작하든, 학업을 계속하든, 학업을 포기하든 그들의 결정은 논리보다 감정과 더 깊게 관련돼 있다. 단기적으로 보면 고통은 매우 강력한 동기 요인이다.”ITT 기술학교 학생모집팀은 더 커지고 있다. 코린시안 칼리지의 경우 30명으로 구성된 마케팅 팀이 연간 1억2000만달러의 비용을 집행했다. 지출의 대부분이 240만 명의 예비고객 명단을 작성하고 이를 관리하는 데 사용됐지만 이는 신입생 6만 명과 연봉 6억달러이라는 성과로 돌아왔다. 131p

영리대의 데이터과학자들은 통계학에서 널리 쓰이는 베이스 접근법인 Bayesian approach를 시도했다. 베이스 어프로치의 포인트는 원하는 결과에 대한 영향을 기준으로 변수의 순위를 매기는 것이다. 구체적으로 말하면 검색광고, TV, 광고판 등 각각의 홍보수단은 1달러당 효과성으로 측정된다. 각각의 홍보수단들은 각기 다른 확률을 만들고 이 확률은 또 가치가 가중치로 표현된다. 계산은 갈수록 복잡해지지만 다양한 메시지 전달 캠페인이 서로 연관성을 갖고 작용하는 데다 그런 캠페인이 미치는 영향을 객관적으로 측정하기는 쉽지 않기 때문이다. 실제로 영리대학은 거주지와 웹서핑 이력 등을 토대로 인터넷상에서 미래 학생에 대한 중요한 세부 정보를 수집한다. 영리대학들이 광고비의 상당 부분을 구글과 페이스북에 쏟아 붓고 있는 것도 이 때문이다. 133p

이들은 다양한 종류의 우편광고물을 발송해 반응을 측정하고 그 결과를 토대로 마케팅을 미세조정했다. 우편함에서 신용카드를 발급한다는 홍보물을 볼 때마다 사람들은 자신도 모르게 그런 실험에 참여하는 것이다. 우편물을 뜯지 않은 채 쓰레기통에 버려도 그 회사에 귀중한 하나의 데이터, 즉 그 캠페인이 어떤 사람에게 적합하지 않은지에 대한 정보를 제공하는 것이다. 인터넷을 활용하든 우편광고물을 이용하든 다이렉트 마케팅 담당자들에게는 1%의 반응률도 꿈같은 기적이다. 미국 인구의 1%는 300만 명이 넘는다. 134p

데이터를 처리하는 기계 스스로 우리의 데이터를 샅샅이 뒤지며 우리의 습관과 희망, 공포와 바람을 찾아내고 있다. 빠르게 성장하는 인공지능 AI의 한 영역으로 컴퓨터 자율학습을 가리키는 기계학습 machine learning을 통해 컴퓨터는 단지 기본적인 명령에 따라 데이터의 바다로 뛰어든다. 컴퓨터 알고리즘이 스스로 패턴을 찾고 시간이 지날수록 패턴을 결과와 연결시킨다. 어떤 의미에서는 알고리즘은 스스로 학습한다. 135p

이들은 이런 방식의 온라인 표적 마케팅을 리드 창출이라고 부른다. 리드 창출의 목표는 판매를 목적으로 잠재 고객 리스트를 구축하는 것이다. 이렇게 수집된 목록은 영리대에 매각됐다. <프로파블리카> 보고서를 보면 영리대학 마케팅 예산의 2030%가 선도 창출에 사용됐다. 가장 유망한 잠재 고객의 경우 영리대학은 1인당 최대 150달러까지 지급했다. 139p

연락처 정보를 제공한 가난한 학생은 나중에 영리대학에 사실상 스토킹을 받게 된다. 반면 영리대학은 부유한 학생에게는 관심을 두지 않는다. 그들이 이미 너무 많다는 것을 알고 있기 때문이다. 141p

WMD의 중요한 특징 중 하나는 많은 사람들의 삶에 피해를 가져온다는 것이다. 약탈적인 광고가 보통 그렇듯 영리대학 모형이 본격적인 피해를 유발하는 것은 학생들이 등록금과 학비 제반을 마련하기 위해 대출을 받기 시작하면서부터다. 142p

제5장 무고한 희생자들

가난이 범죄가 될 미래

경찰이 강도 살인 강간 같은 중법죄를 예방하기 위해 순찰을 돌고 있다고 해도 범죄지역으로 분류된 동네에서는 순찰시간이 길어질 수밖에 없다. 만약 순찰 중 16세 가량의 미성년자가 둘이서 술을 마시는 것을 목격했다면 이들의 행위를 중지시켜야 한다. 그러다가 이런 경범죄가 경찰의 범죄예측모형에서 점차 많은 점을 차지하고 이는 다시 경찰이 그 지역을 순찰하게 된다. 이는 곧 유해한 피드백 루프가 활성화되는 전형적인 과정이다. 경찰 활동 자체가 새로운 데이터를 생성시키고, 이런 데이터가 다시 더 많은 경찰 활동을 정당화한다. 152p

범죄학자 조지 켈링은 공공정책 전문가인 제임스 Q 윌슨과 공동으로 시사종합지 <애틀랜틱 먼슬리>에 ‘깨진 유리창 경찰활동 broken window spolicing’에 관한 획기적인 논문을 발표했다. ◆깨진 유리창 이론의 골자는 일종의 부정적 연쇄반응이다. 경범죄와 일탈적 범죄행위가 무질서한 환경을 조성하면 법을 준수하는 선량한 시민들이 쫓기듯 그곳을 떠나게 돼 이들이 빠져나간 어둡고 텅 빈 중범죄의 온상이 된다. 이에 대한 해결책은 사회 전체가 무질서의 확산에 대항함으로써 여기에는 깨진 유리창을 고치고 낙서로 뒤덮인 지하철을 깨끗이 청소해 경범죄를 예방하기 위한 조치를 취하는 것이 포함된다. 이런 주장은 1990년대 들어 무관용 운동인 zero-tolelence campaign으로 이어졌다. 뉴욕 경찰은 지하철에 무임승차하는 청소년을 체포해 이전에 훈방 조치를 취했던 마리화나와 담배를 나누다가 적발된 사람들을 일일이 연행해 조서 작성을 위한 호송차에 태우고 몇 시간 동안 뉴욕 시를 돌아다녔다. 154p

깨진 창문부터 무관용 경찰활동까지 경찰이 사용하는 각각의 접근방식도 모형이다. 범죄 퇴치 모형은 특정 데이터를 입력해야 하고 일련의 반응이 수반되며 목표를 달성하기 위해 조정된다. 경찰의 활동을 이렇게 보는 것은 매우 중요한 의미가 있다. 수학 모형이 오늘날 미국의 치안 체계를 지배하고 있기 때문이다. 더욱이 그런 모형의 일부는 WMD다. 155p

프레드폴은 어떤 유형의 범죄를 가장 정확하게 예측했을까? 방해 범죄, 즉 경범죄였다. 이는 너무나 당연한 결과. 예를 들어 술 취한 사람은 매번 같은 벽에 용변을 보고 마약 중독자는 항상 같은 공원 벤치에 흩어져 있지만 자동차 절도범이나 강도는 경찰의 움직임을 예상하기 위해 열심히 머리를 회전시키면서 매번 다른 장소에서 범행을 저지르기 때문이다. 156p

그러나 프레드폴이 예측한 범죄 다발구역에서 멀리 떨어진 곳에서 발생하는 범죄는 다른 말로 부자가 저지르는 범죄는 어떨까. 21세기 들어 금융계의 왕들은 금 잔치를 벌였다. 이들은 거짓말을 하고 고객이 돈을 잃는 쪽으로 수십 십억달러를 베팅해 금융사기를 치고 신용평가회사를 인수했다. 세계 금융계의 엄청난 범죄로 경기가 거의 5년 동안 파탄 났다. 수백만 명의 사람들이 집과 일, 건강보험을 잃었다. 157p

WMD를 조사하다 보면 종종 공정성과 효과성 사이에서 선택의 기로에 서게 된다. 미국의 법률 전통은 공정성을 강조한다. 예컨대 헌법은 무죄추정의 원칙을 전제로 설계돼 있다. 그러나 모형개발자의 입장에서 볼 때 무죄추정의 원칙은 모형에서 하나의 제약조건이다. 무죄추정의 원칙에 따라 범죄자가, 특히 유능한 변호사를 고용할 수 있는 이른바 범인 범죄가 법망을 빠져나가고 있다. 유죄 판결을 받은 범죄자에게는 무죄 평결에 불복하여 항소할 권리가 있으며 그것은 시간과 돈을 소모시킨다. 이와 같이 미국의 법률 시스템은 공정성을 보장하기 위해 유효성을 크게 희생한다.반면 WMD는 효과성을 선호한다. 본질적으로 WMD는 측정되고, 셀 수 있는 데이터에 근거하고 있다. 그러나 공정성은 무정형인 데다 정량화하기 어렵다. 요컨대 공정성은 추상적인 개념이다. 언어와 논리 면에서는 크게 발전했지만 추상적 개념을 이해하는 데 컴퓨터는 아직 진일보하지 못했다. 결과적으로 공정성은 WMD 변수에서 배제되고 불공정성이라는 산업제품이 대량 생산된다. WMD를 공장이라고 하면 불공정함은 굴뚝에서 뿜어져 나오는 검은 매연이라고 할 수 있다. 관건은 사회 전체가 공정성을 위해 효과성을 어느 정도 희생할 의지가 있느냐는 것이다. 하지만 알다시피 여기에는 유해한 피드백 고리라는 대가가 붙어 있다. 경범죄 데이터를 제거하는 것이 옳다고 생각한다.167p

평등 문제는 다른 문제에 비해 하찮아 보일 수 있지만 평등은 정의 구현에 있어 매우 중요하며 무엇보다 형법적 정의를 경험한다는 의미이다. 정의는 사회의 한 부분이 다른 부분에 추가되어서는 안 된다. 168p

이런 태도를 아마존닷컴과 비교해 보자. 온라인 유통 공룡 아마존은 형사 사법 시스템과 마찬가지로, 재구입에 고도로 집중한다. 하지만 아마존의 목표는 교도소 시스템과는 정반대다. 아마존은 재범자들에게 지속적으로 되돌려지기를 원한다.그래서 아마존의 소프트웨어 시스템은 ‘재범’에 초점을 맞추고 ‘재범’을 재촉한다. 170p

수학적 관점에서 볼 때 신뢰는 정량화하기 어렵다. 이를 측정하는 일은 모형 개발자들에게는 쉽지 않은 도전이다. 한편, 앞서 말한 것처럼 같은 날개를 가진 새들끼리 모인다는 유파 친구를 부르는 잣대로 사람들을 판단하는 모형은 개발하기 쉽다. 많은 지역 경찰이 이런 가정하에 개발된 모형을 치안활동에 도입하고 있다. 슬픈 일이지만 이런 모형들은 범죄자들에게 둘러싸여 있다는 이유만으로 무고한 시민을 잠재적 범죄자로 다루고 있다. 프레드폴과 같은 범죄예측모형이 만들어낸 피드백 루프는 가난한 사람들에 대한 경찰의 감시를 정당화하고 이를 더욱 강화시키고 있다. 180p

제6장 디지털 골상학

당신은 우리가 원하는 직원이 아닙니다.

1970년대 MIT 졸업생들이 공동으로 창업한 크로노스가 처음 개발한 제품은 마이크로프로세서를 장착한 통근기록기 타임펀치인데 이 장치는 각 종업원의 근무시간을 자동으로 합산해 기록했다. 극히 평범한 장치로 보이지만 이는 인적자원을 추적하고 최적화하는 버튼식 통근기록기의 원조다. 185p

현재 많은 미국 기업의 인적자원 부서는 산더미처럼 쌓인 이력서를 가려내기 위해 자동심사시스템에 의존하고 있다. 이력서의 72% 정도는 기계로 걸려 인간의 눈으로 심사받을 기회조차 주어지지 않는다. 컴퓨터 프로그램은 고용주가 필요한 기술과 경험을 나열한다. 그리고 나서 해당 직무와의 적합도에 따라 각각의 이력서에 점수를 매긴다. 여기서 커트라인의 점수를 결정하는 것은 인적자원의 담당자, 즉 인간의 몫이다. 첫 단계에서 기계 심사원이 많은 응시자를 탈락시킬수록 2단계 심사에서 인간심사원 일자리가 줄어든다. 따라서 구직자는 자동심사 시스템을 염두에 두고 이력서를 신중하게 작성해야 한다. 예를 들어 당해 직무수행능력에 관한 단어를 이력서에 포함하여야 한다. 판매관리자, CFO, 소프트웨어 설계자 같은 직함이나 중국어와 자바 같은 어어 또는 최고 우등상과 이글 스카우트 같은 수상 내역을 포함시키는 것이 좋다. 최신 정보에 정통한 사람들은 기계의 조리법을 잘 알고 있다. 기계가 무엇을 인식하고 무엇에 약점이 있는지를 이해한다는 뜻이다. 예를 들면 사진은 아무 쓸모가 없다. 195p

기계 문지기들의 불평등한 평가는 취업시장을 넘어 다양한 영역으로 확산되고 있다. 기계를 설득하는 능력은 우리 생활에 점점 더 큰 영향을 미치고 있다. 이에 대한 가장 명백한 증거는 구글에서 볼 수 있다. 민박이든 자동차 정비소든 사업의 성공은 검색엔진 검색 결과에서 얼마나 전방에 등장하느냐에 달려 있다. 승리의 비결은 기계가 무엇을 원하는지 알아내는 것이다. 그러나 공정하고 과학적이며 민주적이라고 칭송받는 오늘날 디지털 사회에서도 내부자는 여전히 중대한 우위를 점하는 비결을 알게 된다. 197p

컴퓨터 시스템이 지금까지의 절차를 따르도록 가르치는 것뿐이었다. 당신이 추측할 수 있는 이러한 정보들이 바로 문제의 근원이었다. 인간에게서 지원자를 차별하는 법을 배우는 컴퓨터는 사람보다 한 수 위였고 기가 막힐 정도로 효율적이고 차별적인 심사를 했다. 199p

요컨대 WMD를 치명적인 무기로 만드는 두 가지 특징인 확장성과 효율성을 사람들에게 도움이 되기 위해 이용할 수 있다. 그것은 전적으로 우리의 목표에 달려 있다. 201p

데이터 세계는 끊임없이 확장되고 있으며, 우리 각자는 자신의 삶에 대해 더 많은 새로운 데이트를 지속적으로 만들어 내고 있다. 이 모든 데이터는 미래의 고용주에게 고스란히 전달돼 우리를 꿰뚫는 통찰력을 제공할 것이다. 그러나 그런 통찰력은 검증 과정을 거치는 것일까? 아니면 단순히 현상을 정당화하고 편견을 강화하기 위해 이용될 것인가? 기업이 데이터를 이용하는 조악하고 이기적인 방법을 생각해 보면 사이비 과학으로서 19세기에 대유행했던 골상학 Phrenology가 떠오른다. 골상학자들은 환자의 두개골을 손가락으로 천천히 만지며 돌출 부위와 움푹 파인 자국을 찾았다. 그리고 그런 부위가 뇌의 27개 영역에 존재하는 성격적 특징과 관계가 있다고 주장했다. 골상학은 권위 있는 주장처럼 꾸미기 위해 사이비 과학의 황당한 이론에 의존하는 모형이었다. 하지만 수십 년 동안 아무도 이를 검증하려 하지 않았다. 빅 데이터도 골상학을 묶어놓은 것과 같은 함정에 빠질 수 있다. 이들 모형에 포함된 과학이 검증되지 않은 가정일 뿐인데도 말이다. 207p

제7장 일정의 노예

알고리즘의 노예가 된 노동자들

미국 직장인들 사이에 요즘 유행하는 신조어가 있다. 「클로프닝 Clopening」이 바로 그것이다. 이 단어는 상점과 카페 종업원이 밤늦게까지 일하다 문을 닫고 퇴근한 뒤 불과 몇 시간 뒤 동트기 전에 다시 출근해 매장을 여는 것을 가리키는 신조어다. 한 직원이 매장을 닫고 여는 클로프닝은 기업 입장에서 물류 로그스트 ic적으로 타당한 업무 방식이다. 그러나 근로자 입장에서는 수면 부족과 빡빡한 일정에 쫓기고 있다는 얘기다. 미국에서는 종잡을 수 없는 불규칙한 근무일정이 갈수록 일반화되고 있다. 이런 업무 방식의 최대 피해자는 스타벅스, 맥도널드 같은 기업에서 일하는 저임금 근로자들이다. 209p

OR(오퍼레이션 리서치 오퍼레이션 리서치 오퍼레이션 리서치)가 본격적으로 학문으로 자리매김하기 시작한 것은 제2차 세계대전 때다. 전쟁이 발발하자 미국과 영국 군대는 전쟁을 수행하는 데 필요한 자원의 배분과 사용을 최적화하기 위해 수학자들을 동원했다. 연합국들은 다양한 형태의 교환비율 exchaingratio를 추적하였다. 교환 비율은 연합국이 사용한 자원과 파괴된 추축국의 자원의 비교를 가리킨다. 예컨대 1945년 3~8월 제21폭격기사령부는 식량 등 물품이 일본 영토에 무사히 도착하는 것을 막기 위해 일본 상선을 파괴하는 임무를 수행했는데 침몰한 일본 상선은 606척, 격추된 연합국 폭격기는 15대로 교환비율이 40배가 조금 넘는 매우 효율적인 작전이어서 OR팀의 활약에도 크게 기여했다. OR의 효율성을 확인한 국방부와 대기업은 종전 후 이 분야에 막대한 자원을 투입했다. 이후 물류과학은 물자를 생산해 시중에 유통시키는 방식을 급격히 변화시켰다. 1960년대 일본 자동차회사들은 JIT(Just-in-tme)라 불리는 적시생산시스템을 고안해 내면서 다시 도약했다. 215p

스케줄 관리 소프트웨어는 JIT 경제의 확장이라 생각된다. 다만 제때 공급되는 것이 잔디깎이 칼날이나 휴대전화 액정화면이 아니라 사람들, 그것도 많게는 돈이 절실히 필요한 사람들이라는 점이 다를 뿐이다. 216p

미국에서는 저임금 노동력의 공급 과잉이 노동시장을 왜곡시키고 있다. 사람들은 일자리에 목마른 사람들이 시간당 8달러짜리 일에 매달리는 것도 이 때문이다. 216p

다른 많은 WMD와 마찬가지로 일정관리 모델이 갖는 문제의 근본 원인은 개발자들이 선택한 목표에 있다. 일정관리 모형은 정의 실장이나 쌍방의 이익이 아니라 효율성이나 수익성에 따라 최적화된다. 이는 자본주의의 본질이기도 하다. 기업에게 수익은 생명을 부지하는 산소와 같다. 기업 입장에서 잠재적인 비용 절감 가능성을 거부하는 것은 지극히 어리석고 부자연스러운 일이다. 그래서 사회에는 대항세력이 필요하다. 효율성의 오남용을 고발하고 기업을 질책해 옳은 일을 시키는 대항세력이다. 219p

몇 년 전 MIT 연구진은 뱅쿼브아메리카 BOA콜센터 상담원들의 행동을 분석했다. 팀별 생산성에 차이가 나는 이유를 알아내기 위해서였다. 연구팀은 상담사에게 소시아 메트릭 배지를 달 것을 요청했다. 배지에 장착된 다양한 전자기기는 상담원의 동선을 추적해 말투와 제스처를 16mm초 단위로 측정했다. 또 이들이 마주할 때는 물론 각자 얼마나 이야기하고, 상대방의 이야기를 얼마나 경청하고, 얼마나 끼어드는지를 기록했다. 실험을 위해 콜센터 4팀, 총 80명은 6주 동안 소시오메트릭 배지를 착용했다. BOA콜센터 상담원의 업무는 매우 엄격하게 관리되고 있었다. 예를 들어 상담원 간의 개인적인 대화가 제한되어 있었는데 고객의 문제를 해결하기 위해 전화 응대를 하는 데 가능한 한 많은 시간을 할애해야 했기 때문이다. 휴식시간도 한 명씩 교대로 허용됐다.실험 결과 MIT 연구진은 놀라운 사실을 발견했다. 동료간의 교류가 많은 팀, 즉 사회성이 높은 팀일수록 고객의 요구에 가장 신속하고 가장 효율적으로 반응했다. 놀랍게도 이 팀 멤버들은 콜센터의 규칙을 무시하고 서로 대화를 나눴다. 연구 결과를 토대로 BOA가 콜센터의 모든 상담원에게 서로 맞는 시간을 더 갖도록 권유하자 콜센터 전체의 생산성이 높아졌다. 223p

그러나 컴퓨팅 시스템은 소프트 스킬 스킬에 대한 디지털적인 대리 데이터를 찾을 수 없다. 관련된 데이터가 적을 뿐 아니라 소프트웨어 스킬에는 가치를 매기기 어렵기 때문이다. 그래서 대개는 보다 쉬운 선택을 따라 그들을 모형에서 배제하는 방법을 택한다. 224p

그러나 더 심각한 문제는 따로 있다. 카타폴라와 같은 시스템은 피드백 데이터가 극히 제한적이다. 시스템에 의해 실패자로 낙인찍혀 해고된 누군가가 다른 일자리를 찾고, 거기서 몇 건의 특허를 출원할지도 모른다. 그러나 이런 데이터는 카타포라 시스템에 결코 포착되지 않는다. 그래서 시스템은 누군가를, 아니 수천 명의 사람을 철저히 판단해도 그 사실을 전혀 깨닫지 못한다. 진실이 거짓이라고 착각한 부정 실수일 가능성이 있듯이 과학자들에게는 오류에 대한 피드백이 반드시 필요하다. 225p

그러나 지금까지 살펴보았듯이 재위험성 모형에서 교사평가 모형에 이르기까지 대다수의 WMD는 모형에 현실을 반영하고 수정하기보다 원하는 현실을 창조한다. 비용 절감을 위해 직원을 내보내고 그 결정에 대한 책임을 객관적인 숫자로 떠넘기고 있는 것이다. 숫자의 진실성 여부는 크게 중요하지 않다. 225p

1963년부터 1980년까지 17년 동안 SAT 평균 점수가 떨어진 것은 사실이다. 그러나 보고서 작성자들은 이 기간 SAT 응시자 수가 크게 증가한 것을 간과했다. SAT 응시자가 급증한 것은 이 기간 대학들이 경제적 빈곤층과 소수인종 학생을 더 많이 받아들였기 때문이다. 이는 취약계층 학생들에게 배움의 길이 열렸다는 신호였다. 취약계층 대학 지원자가 늘자 당연히 SAT 평균점수는 떨어졌다. 하지만 SNL 통계학자들은 수험생의 소득 수준에 따라 평균 점수를 계산해 봤다. 그러자 빈곤층부터 부유층까지 모든 소득계층에서 점수가 상승한 것으로 나타났다. 통계학에서는 이런 현상을 ‘심슨의 역설 Simpsons Paradox’라고 부른다. 이는 하나의 경향을 나타내는 전체 데이터를 하위 그룹으로 나누면 각각의 하위 그룹에서는 전체와 정반대의 경향이 나타나는 현상을 말한다. 결국 전국적인 교사평가운동을 촉발한 위기의 나라 보고서의 비관적 결론은 데이터를 심각하게 오도한 결과에서 비롯된 것이다. 230p

왜 이런 일이 일어났을까. 행정관들이 공정성을 추구하다 보니 정확성을 놓쳤기 때문이다. 행정관들은 학생들을 직접 측정한 결과가 아니라 실제 결과와 예측치의 차이를 뜻하는 오차항 errorterm을 토대로 교사들을 평가했다. 수학적으로 볼 때 이는 훨씬 표면적이고 불확실한 방법이다.예측치 자체도 통계자료에서 비롯되기 때문에 결국 추측이 더해지는 셈이다. 그리고 임의의 결과값으로 점철되는 모형이 만들어진다. 통계 전문가들은 그런 결과치를 잡음 noise라고 부른다. 231p

WMD 모형을 올바르게 인식하고 여기에 내재된 통계적 오류들을 이해한다면 사람들은 학생과 교사들에게 공정한 평가기법을 요구할 것이다. 그러나 만약 시험의 목적이 책임질 누군가를 찾는 것이라면, 그리고 노동자를 위협하기 위한 것이라면 지금까지 보아온 바와 같이 무의미한 점수를 생산하는 WMD는 가장 효율적인 도구이다. 236p

제8장 부수적 피해

모든 길은 신용점수로 이어진다.

오늘날 통계 전문가와 수학자들은 재무 정보 외에도 우편번호, 인터넷 서핑 패턴, 최근의 구매 행위 등 모든 정보를 참고해 우리 모두가 상상할 수 있는 모든 방식으로 사람들의 등급을 매기고 있다. 이들이 사용하는 수많은 사이비 과학모델이 우리의 신용도를 예측한 뒤 우리 한 사람 한 사람에게 이른바 e점수를 부여한다. 우리가 직접 눈으로 볼 기회가 거의 없는 e점수는 어떤 사람에게는 기회의 문을 열어주는 반면 다른 사람에게는 바로 코앞에서 문을 쾅 닫아준다. e점수는 FICO점수와 비슷하지만 확연히 다른 점이 있다. 임의적이고 투명하지 않으며 규제를 받지 않으며 불공정하다. 요컨대 e점수는 WMD다. 240p

버지니아에 위치한 뉴스타는 마케팅과 IT분야 기업들에 클라우드 기반 정보 및 분석 서비스를 제공하는 업체로 콜센터의 통화량 관리를 지원하는 기술도 제공하고 있다. 콜센터에 전화를 건 고객의 데이터를 순식간에 검색해 고객을 서열화하고 더 많은 수익을 낼 수 있는 잠재고객은 인간 상담원과 바로 연결하는 반면 서열이 낮은 고객은 상담원에 연결되기까지 기다린다. 통화량이 급증해 서열이 낮은 고객의 전화를 기계가 응대하는 외주 콜센터로 보내기도 한다. 241p

미국에서는 “e”점수가 신용평가점수로 점차 바뀌고 있다. 왜 그럴까?마케팅 목적으로 신용평가점수를 사용하는 것은 불법이다. 이 때문에 기업들은 신용평가 점수 대신 e점수라는 대리 데이터에 의존한다. 242p

페어와 아이작의 위대한 업적은 대리 데이터를 철저히 배제하고 대신 청구서 납부 기록처럼 관련된 재무적 데이터를 중시했다는 점이다. 이들은 비슷한 특성을 공유하는 다른 사람들이 아니라 독립적인 개인에 분석의 초점을 맞췄다. 반면 e점수는 수많은 대리 데이터를 근거로 개인을 분석함으로써 시간에 역행한다. 1000분 몇 초 만에 e점수는 “당신과 같은 고객” 수천 명에 대한 계산을 처리한다. 그리고 당신과 비슷한 많은 사람이 사회의 낙오자 또는 설상가상으로 범죄자로 판명될 경우 같은 대우를 받게 된다. 244p

그런데도 기업들은 왜 우편번호 같은 변수를 모형에 포함시키는 것일까. 이는 적어도 부분적으로나마 같은 지역주민의 과거행동을 토대로 신청인의 대출조건이 결정돼야 한다는 뜻을 공공연히 드러내고 있다. 다시 말해 e점수 모델 개발자들은 당신은 과거에 어떻게 행동했는가라는 질문이 이상적인 상황에서 엉뚱하게도 당신 같은 사람들은 과거에 어떻게 행동했는가라는 질문을 던진다. 두 질문의 차이는 크다. 오판해 엉뚱한 버킷으로 분류된 사람은 어떻게 될까. 이런 실수는 흔히 일어난다. 그럼에도 시스템의 오류를 정정할 수 있는 피드백은 전혀 존재하지 않는다. 245p

엎친 데 덮친 격으로 규제해방구의 e점수 세상에서 패배자는 시스템 오류를 바로 잡기는커녕 함부로 불만을 토로할 수도 없다. WMD의 세계에서 이들은 부수적 피해자일 뿐이다. 거추장스러운 전체 시스템이 멀리 어딘가에 있는 서버 팜에서 작동하기 때문에 피해자들은 시스템의 존재 자체를 거의 알지 못한다. 그리고 많은 사람이 인생은 본래 불공평하다는 결론을 내리게 된다. 246p

신용도는 다른 미덕적 가치를 대리하는 손쉬운 대용물이다. 반대로 나쁜 신용도는 청구서 대금 연체 여부와는 전혀 상관없는 수많은 죄악과 결점을 암시하는 신호가 됐다. 종류를 불문하고 모든 기업은 신용평가보고서를 자체적인 시스템에 따라 신용점수로 전환해 대리 데이터로 이용한다. 이런 관행은 매우 보편적으로 볼 수 있는 일종의 독약이다. 247p

신용점수 데이팅 Credit Score Dating은 신용점수가 좋은 사람이 섹시하다고 노골적으로 광고한다. 재무조건을 사랑과 결부시키는 데는 논란의 여지가 있지만 적어도 신용점수 데이팅 고객 도들은 자신들이 어떤 목적을 갖고 어떤 세계에 발을 들여놓는지 잘 알고 있다. 247p

기업은 불합격 사유가 신용문제일 경우 구직자에게 고지해야 할 법적 의무가 있다. 그러나 일부 고용주는 십중팔구 솔직하게 말하기보다는 자기 회사와 맞지 않는 등 더 좋은 자격을 갖춘 지원자가 있었다는 등 다른 핑계를 댄다. 채용과 승진 절차에 신용점수를 고려하는 관행은 빈곤의 악순환을 부른다. 신용이력 때문에 취업이 안 되면 신용이력은 더 나빠지고 결과적으로 취업은 더 어려워진다. 249p

채용 프로세스의 중간지대에서는 많은 의사결정이 자동화 시스템에 의해 처리된다. 우연히 잘못된 데이터가 끼어들면 (이러한 일은 종종 발생한다) 아무리 잘 설계된 알고리즘이라도 잘못된 결정을 내리게 된다. 데이터 헌터 사이에 옛부터 전해 내려오는 격언이 있다. “쓰레기를 넣으면 쓰레기 나온다 garbage in, garbage out GIGO.” 251p

데이터 경제의 비규제 영역은 위험한 지뢰밭이다. 데이터 기반의 마케팅 서비스를 제공하는 악시옴코프 같은 공룡부터 손쉬운 돈벌이를 궁리하는 영세기업까지 많은 기업이 소비자에 관한 방대한 정보를 수집하기 위해 소매유통업자 광고업자 스마트폰 앱 개발자 복권운영업자 SNS운영자 등으로부터 데이터를 마구 사들인다. 이들은 소비자가 당뇨병을 앓고 있는지, 가족 중에 흡연자가 있는지, SUV를 운전하는지, 애완동물을 기르는지 등의 사실에도 주목한다. 뿐만 아니라 투표기록, 체포기록, 주택매매기록 등을 포함해 정부가 공개하는 모든 공공제이터를 긁는다. 그 모든 데이터가 소비자용 프로필을 만들어 판매한다. 253p

예를 들어 누군가가 데이터 브로커의 알고리즘으로 자신의 파일을 조회한다고 하자. 아마도 주택담보대출 기록이나 휴대전화 요금 납부 내역, 차고문 수리비 459달러 같은 정보를 확인할 수 있을 것이다. 그러나 자신이 시골에 살아서 입에 풀칠할 정도 혹은 무일푼 퇴직자로 분류된 버킷에 포함되는 것은 모를 것이다. 데이터 브로커 중에는 다행히도 이런 상세한 내용까지 확인하려는 사람은 거의 없다. 254p

데이터 경제에서 인간은 외부자요 시대에 뒤떨어져 있다. 반면 시스템은 자동으로 작동하도록 만들어진다. 그것이 바로 효율성이었고 그래서 수익 창출원이 된 것이다. 256p

자동화된 시스템이 이러한 문제를 스스로 해결하리라고는 기대하기 어렵다. 놀라운 능력이 있었음에도 불구하고, 기계는 공정성을 향상시키기 위해 전혀 조절할 수 없다. 적어도 기계는 스스로 그렇게는 할 수 없다. 데이터를 샅샅이 뒤져 무엇이 공정한지를 가리는 일은 기계로서는 절대 불가능한 영역이고, 지극히 복잡한 일이다. 사람만이 시스템에 공정성을 주입할 수 있다.259p

바로 여기에 역설이 존재한다. 인간의 비뚤어진 생각은 알고리즘에게 심사 권한을 넘겼다. 60년이 지난 오늘날 세상은 우리에 관한 오류투성이의 데이터를 무차별 처리하는 자동화 시스템의 지배를 받고 있다. 이 시스템은 오직 인간만이 제공할 수 있는 정황적 정보와 상식, 그리고 공정성이 절실히 필요하다. 259p

AMEX는 당시 일부 고객의 신용한도를 하향 축소했다. e점수를 사용하는 비제도권 업체와 달리 대형 신용카드사인 AMEX는 관련 법규에 따라 고객 각자에게 한도 인하 이유를 설명하는 안내문을 발송해야 했다. 한도축소는 AMEX의 비열함을 여실히 보여준다. AMEX의 안내문에 따르면 특정 가게에서 상품을 구입한 카드 소지자가 대금을 연체할 가능성이 높다는 결론에 이르렀다. 이는 통계의 문제로 간단히 말해 구매 패턴과 연체율을 직결시킨 결과다. 그런데도 고객들에게 자신의 신용을 훼손한 구매처가 어딘지 알리지 않았다. 261p

제스트 파이낸스 알고리즘은 신청자 1인당 최대 1만 개의 데이터를 처리한다. 데이터 중에는 독특한 관찰 결과를 활용한 것도 있다. 예를 들어 신청자가 신청서에 맞춤법과 적절한 대소문자를 썼는지, 신청서를 읽는 데 얼마나 시간이 걸렸는지, 이용약관을 꼼꼼히 확인했는지 등도 데이터에 포함된다. 이런 관찰 결과를 중시하는 데는 그만한 이유가 있다. 제스트파이낸스는 규칙을 준수하는 사람들이 신용도가 높다고 본다. 어쩌면 그들의 말이 맞을지도 모른다. 그러나 한번 달리 생각해 보자. 제스트 파이낸스의 알고리즘은 이들이 빚을 갚지 못할 확률이 높은 버킷으로 분류된다. 이는 또 이들의 e점수에 악영향을 미칠 것이다. 이는 악순환의 피드백 루프다. 이런 식이라면 고지서 요금을 제때 납부한 기록 등은 평가에 별 영향을 미치지 않는다. 264p

P2P 대출에 대한 거창한 관심은 사실 자본의 민주화나 중개인을 우회해 대출자와 대출자를 직접 연결하는 새로운 시스템과는 거의 무관하다. <포브스> 보고서에 따르면 P2P 플랫폼이 발생시킨 전체 융자액의 80% 이상이 기관투자가의 자금이다. 대형 은행에 P2P 플랫폼은 엄격히 규제받는 제도 금융권을 우회하는 편리한 대안을 제공한다. 대출기관들은 P2P 시스템을 철저히 조사함으로써 자신들이 선택하는 대부분의 데이터를 분석해 자체 e점수를 만들어낼 수 있다. 또 고객의 상품 구매처, 우편번호, 거주지 등을 신용위험과 연관시킬 수 있다. e점수가 금융세상을 오염시킴에 따라 갖지 못한 사람에게는 기회가 거의 주어지지 않게 됐다. 267p

제8장 부수적 피해

모든 길은 신용점수로 이어진다.

제9장 안전지대는 없다

선의에 가려진 보험의 본모습

지금까지 조사한 WMD와 마찬가지로 호프먼 씨의 분석도 심각한 통계적 오류를 갖고 있었다. 그는 인과관계와 상관관계를 혼동했다 그가 증거로 제시한 방대한 데이터는 그의 이론을 뒷받침하는 것뿐이었다 인종은 기대수명을 예측할 수 있는 강력한 변수라는 이론이다 뼛속까지 물든 인종차별적 편견이 그의 눈과 귀를 가려 흑인의 사망률과 관련이 있을지 모르는 다른 변수들을 고려조차 하지 않았다. 269p

호프만은 기본적인 통계상의 오류도 범했다. 호프만은 자신의 분석 결과를 계층화하지 않았다. 그는 모든 흑인을 동질의 인구 집단으로 보았다. 흑인을 다양한 지리적, 사회적, 경제적 집단으로 분리하지 않았다. 호프만은 인종 편견에 눈이 멀었다. 269p

호프만이 그랬던 것처럼 새로운 모형을 개발한 사람 중에는 여전히 상관관계를 인과관계와 혼동하는 경우가 있다. 이들이 만든 모형은 가난한 사람들, 특히 유색인종이나 소수민족에 불이익을 주기 일쑤다. 이들은 수많은 통계자료로 자신들의 분석을 뒷받침함으로써 편견에 찬 분석이 마치 공정한 과학 연구의 결과인 것처럼 포장한다. 270p

보험회사가 쓰는 모형은 우리와 행동이 비슷한 사람들을 한데 묶어 특정 집단으로 분류한다. 그러나 정작 한국에는 자신이 어느 집단에 속하는지 확인할 길이 없다. 정확도와 관계없이 분석의 불투명성은 보험료로 이어질 수 있다. 273p

일반적으로 보험사는 신용평가보고서에서 신용점수를 얻은 뒤 자사 고유 알고리즘을 통해 자체 저등급과 e점수를 생성했다. 이 등급과 e점수는 책임 있는 운전습관을 대체하는 대리데이터가 된다. 컨슈머리포트는 모든 종류의 인구통계학적 데이터를 포함한 e점수가 가끔 운전자의 운전기록보다 더 중요하게 취급된다는 사실을 발견했다. 자동차 보험비를 산정하는 데 있어 돈을 어떻게 관리하느냐가 어떻게 운전하느냐보다 더 중요하다는 것이다. 273p

우선 WMD와 마찬가지로 보험사 모형은 신용평가점수를 매우 효율적이고 대대적인 방식으로 처리할 수 있기 때문이다. 하지만 가장 주된 이유는 이익과 관련이 있다. 신용점수를 활용하면 완벽한 운전능력을 자랑하는 이른바 무결점 운전자로부터도 매년 1552달러를 더 받을 수 있는데 굳이 그런 시스템을 바꿀 이유가 있을까. 275p

당연히 저렴한 보험을 찾을 가능성이 낮은 고객에게는 비싼 보험료를 파는 것이 합리적이다. 놀랍게도, 이것이 올 스테이트의 보험료 「최적화」알고리즘이다.276p

◆이런 좋은 정보를 보험업체들이 놓칠 리 없다. 프로그레시브 스테이트팜 여행자 같은 대형 보험사들은 이미 이곳에 손을 뻗쳤다. 자신의 운행 데이터를 제공하기로 동의한 화물차 운전자들에게 보험료율을 할인해 주는 방식으로. 운전자는 기능을 단순화한 항공기 블랙박스 같은 소형 원격계측기를 화물차에 장착하는데 이 기기는 차량의 속도와 운전자가 브레이크와 가속페달을 밟는 패턴을 기록한다. GPS 모니터는 해당 차량의 움직임을 지속적으로 추적한다. 여기서 두 가지 문제가 있다. 첫째, 만약 시스템이 지리적 요소를 바탕으로 위험을 평가한다면 가난한 사람들은 불리할 수밖에 없다. 보험사가 위험지역이라고 판단한 곳에서 운전할 가능성이 높다. 게다가 빈곤층은 대개 출퇴근이 불규칙할 뿐 아니라 통근거리가 다른 계층에 비해 멀다. 이 역시 고위험 요인이다. 281p

우리의 개인적 행동을 추적하는 모형조차도 우리와 다른 사람을 비교하며 위험을 평가한다는 뜻이다. 과거 보험사들은 아랍어, 우르두어를 쓰거나 동일한 우편번호를 쓰는 구역에 거주하거나 소득수준이 비슷한 사람들을 한 버킷으로 묶기도 했는데 이는 행동양식이 비슷한 사람들을 하나로 묶은 것이다. 그리고 행동 패턴이 비슷하면 위험도도 비슷하다고 판단했다. 유파우를 부르는 망령이 다시 나타났다. 283p

많은 사람이 데이터 분석을 받는 것보다 감시당하는 것에 강한 거부감을 보인다. 하지만 사생활에는 대가가 따른다. 그리고 그 대가는 시간이 지날수록 더 높아진다. 자동차 보험 회사의 추적 시스템은 아직 초기 단계이기 때문에 운전자의 사전 동의가 필요하다.그 대가로 즉시 5~50%의 보험료율 할인을 받을 수 있다. 이런 혜택은 점차 늘어날 것이다. 반면 동의하지 않는 사람은 더 높은 보험료를 부담함으로써 할인율로 발생한 보험사의 수익 감소를 보충해 줄 것이다. WMD의 세상에서 사생활은 부자만이 즐길 수 있는 사치품이 되고 있다. 284p

보험사는 우리를 알면 알수록 위험이 가장 크다고 생각되는 사람들을 확인하고, 게다가 천문학적인 보험료를 적용하거나 법적으로 허용하는 선에서 가입을 거부할 수 있을 것이다. 보험의 본래 목적을 크게 벗어나 사회가 여러 가지 위험을 균형 있게 관리할 수 있도록 도와준다. 표적화의 세계에서 우리는 더 이상 평균치만 부담할 수는 없다. 예상되는 미래 비용도 부담해야 한다. 보험 회사들은 자신들이 삶의 장애물을 극복하도록 돕는 대신에 그 장애물에 대한 사전 비용을 청구할 것이다. 이는 보험의 근본 취지에 반하는 것이며 그 장애물을 극복하는 데 어려움을 겪는 사람들에게는 훨씬 더 가혹해질 것이다. 285p

이제 보험 회사는 다양한 유형의 부족으로 인해 우리의 생활 패턴이나 신체 데이터를 조사하고 분류할 것이다. 이렇게 분류된 부족들은 지금까지처럼 나이, 성별, 순자산, 우편 번호와 같은 전통적인 측정 기준에 근거한 집단이 아니라 거의 그대로 기계에 의해 만들어진 행동적 부족 behavioral tribe이다. 285p

머지 않아 엄청난 행동 데이터가 인공지능 시스템에 입력될 것이다. 문제는 그 인공지능 시스템은 인간의 눈으로 내부를 들여다볼 수 없는 불투명한 블랙박스라는 점이다. 이 과정에서 우리는 자신이 속한 부족이 무엇이며 왜 그 부족에 포함됐는지 거의 알지 못한다. 기계지능의 machine intelligence, 또 다른 말로 인공지능의 시대에 거의 모든 변수는 미스터리로 남게 된다. 288p

센스 있는 소프트웨어와 같은 자동화 프로그램에서는 기계들이 우리를 어떻게 다루어야 할지를 결정한다. 이런 현상은 점점 더 심해질 것이다. 그 기계들은 매우 효율적이겠지만, 다소 제멋대로여서 절대 불가사의한 영역으로 남을 것이다. 누구도 기계의 논리를 이해할 수 있고 설명할 수 없는 세상이 올지도 모른다. 미래의 WMD는 강력하고 신비로운 존재가 될 것이다.아니, WMD가 우리를 제멋대로 다루는데 우리는 그런 사실조차 거의 모른 채 살아갈지도 모른다. 288p

걸음걸이와 수면 습관이든 기업이 수집한 건강 데이터의 상당 부분은 법에 의해 보호되지 않는다. 따라서 이를 악용하는 것은 이론적으로 완벽하게 합법적이다. 기업들은 기회 있을 때마다 신용평가 점수와 인적성검사를 토대로 지원자를 배제해 왔다. 건강점수는 비록 섬뜩한 예상이지만 자연스럽게 다음 단계로 넘어갈 가능성이 충분하다. 실제로 이미 많은 기업이 지구인에 대한 야심찬 건강기준을 마련하고, 이를 충족시키지 못하는 직원에게는 야심찬 건강기준을 마련하고, 이를 충족시키지 못하는 직원에게는 불이익을 주고 있다. 다아이 제조업체 미쉐린은 혈압부터 포도당 수치, 콜레스테롤 수치, 중성지방 수치, 허리둘레까지 다양한 기준에 대한 직원들의 목표치를 설정해 놓았다. 3가지 항목에서 목표치를 달성하지 못한 직원은 건강보험료로 연 1000달러를 추가 부담해야 한다. 292p

체중 논란의 중심에는 신뢰할 수 없는 통계의 기준이 있다. 체질량지수 body massindex, BMI다. BMI는 200년 전 벨기에 수학자 랑베르 아돌프 자크 케틀레가 고안한 공식에 근거하고 있지만 케틀레는 건강과 인체에 대해 거의 문외한이었다. 다만 대규모 인구집단의 비만 정도를 측정하는 간단한 공식을 만들고 싶었을 뿐이다. 그래서 자신이 평균인 averageman이라고 부르는 집단을 바탕으로 공식을 만들었다. “BMI 자체는 유익한 개념입니다.”라고 수학자이자 과학 전문가인 키스 데블린은 말했다. “그러나 BMI를 개인에게 적용하면 2.4명의 자녀를 둔 사람과 같은 어처구니없는 결과를 이끌어내는 셈이죠. 평균은 특정 인구집단 전체를 측정한 것으로 모든 개인에게 적용되지 않습니다.] 데블린은 신체상태를 점수화하는 BMI가 사실상 권위 있는 과학과 같은 엉터리 수학 mathmatical snake oil이라고 덧붙였다. 294p

그러나 BMI처럼 결함이 있는 통계자료를 보상과 연결시켜 직원들에게 자신의 신체를 회사의 이상적인 기준에 맞추도록 강요하는 것은 명백히 자유를 침해하는 행위다. 또 고용주가 자신이 보고 싶은 모습이 아니라는 이유로 직원들에게 불이익을 주고 그들의 주머니에서 돈을 빼앗는 빌미를 제공한다. 295p

물론 흡연을 하거나 비만인 사람이 건강에 문제가 생길 가능성이 높은 것은 사실이다. 그러나 흡연이나 음주로 인한 질병은 대개 인생의 후반부에 발생한다. 그때쯤이면 이미 그들은 기업의 건강 계획을 적용받을 자격을 상실하고 대신 정부가 제공하는 메디케이드에 가입했을 것이다 기업이 웰니스 프로그램으로 얻는 가장 큰 비용 절감 효과는 직원들로부터 부과된 벌금에서 나온다 다시 말해 일정관리 알고리즘과 마찬가지로 웰니스 프로그램은 기업이 직원 입금을 빼앗아 갈 수 있는 또 하나의 도구다. 웰니스 프로그램은 완벽한 WMD가 아니다. 고용주들은 이미 우리의 데이터를 대량으로 수집하고 있다. 지금까지 살펴보았듯이 고용주는 미래의 직원으로서 그리고 현재의 직원으로서 우리를 점수화하기 위해 우리의 데이터를 어떻게든 이용하느라 분주하다. 다음 단계에서 기업이 건강과 생산성을 결합하는 자체 모형을 개발하면 웰니스 프로그램이 명실상부한 WMD로 성장할 가능성도 배제할 수 없다. 297p

제10장 겨냥받은 시민들

민주주의를 위협하는 빅 데이터

페이스북은 흔히 모든 이용자에게 열려 있는 인터넷판 광장으로 알려져 있다. 그러나 그 안을 들여다보면 전혀 다른 풍경이 펼쳐진다. 페이스북은 자사의 이해관계에 근거하여, 우리가 페이스북에서 무엇을 보고 무엇을 배울지를 결정한다. 현재 미국 성인 3명 중 2명이 페이스북 계정을 보유하고 있다. 이들이 매일 페이스북으로 소비하는 시간은 평균 39분이고, 직접 만나 얼굴을 보며 사교하는 시간은 이보다 4분 많은 평균 43분이다. 299p

페이스북의 데이터 과학자들은 2010년의 미 총선거와 2012년의 미 대통령 선거 때에 「투표 메가폰 voter megaphone」이라고 명명한 툴을 개선하기 위한 실험을 실시했다. 그 툴의 목표는, 유저에게 자신이 투표했다는 사실을 페이스북에 알리고, 다른 유저에게 투표를 재촉하는 것이었다. 불과 몇 시간 만에 페이스북은 적어도 수천만 명의 사람들로부터 정보를 수집해 그들의 게시글과 공유링크가 서로 미치는 영향을 측정할 수 있었다. 페이스북은 자신들이 마음만 먹으면 사람들의 행동에 영향을 미칠 수 있다는 가능성을 확인했다. 301p

기업은 이러한 도구를 수익 창출에 이용하고 있다. 그런데 기업의 수익은 정부 정책과 밀접하게 연결돼 있다. 기업의 행동을 규제할지, 규제하지 않을지, 기업 인수합병을 승인할지 거부할지, 기업에 적용될 새로운 조세정책을 수립할지, 수립하지 않을지 메스는 정부가 쥐고 있다. 미국의 다른 기업들과 마찬가지로 IT기업들이 워싱턴에 수많은 로비스트를 투입해 조용히 기부금 형태로 정치권에 수십 억달러를 쏟아 붓는 이유가 바로 여기에 있다. 이제 기업들은 단순히 자사의 알고리즘을 조정함으로써 미국인들의 정치행동은 물론 이를 통해 미국 정부의 정책을 조종하는 수단을 손에 넣었다. 301p

<뉴욕 타임스>나 CNN 뉴스는 누구나 볼 수 있다. 따라서 이들 언론의 편집결정 원칙은 명백하다. 온 더 레코드 on the record, 즉 취재원 공개의 원칙이다. 바꿔 말하면, 이런 뉴스는 투명하다. 그리고 보도가 적절했는지도 나중에 토론할 수 있는 반면 페이스북은 오즈의 마법사에 가깝다. 관여하는 사람이 나타나지 않는다. 이용자는 페이스북에 접속해 친구들이 게시한 글을 훑어본다. 이때 페이스북 자체는 중립적인 중개자로 보인다. 실제로 많은 사람들이 그렇게 믿고 있다. 대부분의 사람들은 페이스북이 뉴스피드를 조작한다는 사실을 몰랐고, 응답자가 게시하는 콘텐츠를 페이스북이 즉작적으로 모든 친구에게 전송한다는 사실을 알고 있었다. 페이스북이 정치세계에 미치는 잠재력은 뉴스 순위를 정하는 기능이나 투표 독려 캠페인의 영향력을 훨씬 능가한다. 305p

연구진의 결론은 이랬다. 페이스북 알고리즘은 마음만 먹으면 수백만 명의 감정을 아무도 모르게 조작할 수 있다. 306p

구글도 페이스북과 크게 다르지 않다. 구글의 검색 알고리즘은 수익 증가에 초점이 맞춰져 있는 것 같다. 만약 구글이 결심하면 구글의 검색 결과는 사람들이 무엇을 배우고 어떤 후보를 찍느냐에 극적인 영향을 미칠 수 있다. 미국 행동연구기술연구소는 왜곡된 검색 결과가 부동층 20%의 표심을 변화시켰다고 말했다. 이 정도 수치라면 유권자의 선택에 검색엔진 결과가 미치는 영향이 매우 강력하다고 할 수 있다. 이는 대중이 일반적으로 구글과 같은 검색엔진을 신뢰하기 때문에 생기는 결과다. 307p

구글이나 페이스북의 알고리즘은 중대한 영업 비밀에 해당해, 철저한 비밀 주의 속에서 비즈니스를 운영하고 있다. 페이스북이나 구글의 알고리즘이 정치적 WMD인가. 아직 단정 짓기는 이르다. 이들이 많은 사람들에게 피해를 줄 목적으로 자사 네트워크를 사용했다는 구체적인 증거는 아직 없다. 그럼에도 불구하고 남용될 가능성은 매우 높다. 308p

시간이 흐르면서 정치인들은 보다 세밀한 접근을 원하게 됐다. 무엇보다 각 유권자에게 개인화된 메시지를 전달할 수 있는 접근법이 개발됐다. 대표적인 것으로 직접 우편을 통한 선거운동이 있다. 정치참모들은 신용카드업계의 전술을 차용함으로써 막대한 유권자 데이터베이스를 구축하고 각자의 가치관과 인구통계학적 정보를 고려해 유권자들을 다양한 하위집단으로 분류했다. 그리고 역사상 처음으로 이웃 두 집이 동일한 정치인으로부터 서로 다른 내용의 우편물과 팜플렛을 받게 됐다. 예를 들어 같은 후보로부터 한 집은 야생 동식물 보호를 약속하는 우편물을, 바로 옆집은 법과 질서를 강조하는 우편물을 받는 식이다. 직접 우편물은 보조 바퀴를, 다른 말로 세분화된 소규모 집단을 목표로 하는 마이크로 타겟팅 시대를 열었다. 313p

하지만 데이터를 수집하기 위해 쓰이는 일부 기법이 사생활 침해는 물론이고 도덕적으로도 온당치 못했다. 2015년 말 영국의 대표적 일간지 <가디언>은 정치 데이터 분석 회사 케임브리지 아날리티카가 영국 학자들을 고용해 미국 유권자들의 페이스북 프로필과 인구통계학적 세부 정보, 그리고 사용자들이 ‘좋아요’ 버튼을 누른 기록을 수집했다고 보도했다. 이들은 이런 정보를 이용해 4000만 명 이상의 유권자를 대상으로 심리특성적 분석을 실시한 뒤 유권자를 5대 성격의 특성 정도에 따라 분류했다. 319p

여기서 분명히 짚고 넘어가야 할 것은 이러한 표적 캠페인이 언제나 효과를 가져오는 것은 아니라는 점이다. 캠페인에는 허술하고 과장된 메시지가 담겨 있어 오히려 역효과를 내기도 한다. 어느 쪽이든 마이크로타겟팅 기업들은 몇 백만달러의 지불 여력이 있는 후보 진영과 정치행동단체들을 상대로 마케팅에 나선다. 이들은 캠프와 단체에 값을 매길 수 없을 만큼 귀중한 데이터베이스와 정밀한 표적화가 가져올 엄청난 효과에 대한 약속을 팔지만 이는 상당히 과장된 일이다. 이런 점에서 정치인은 수상한 약속을 제공하는 공급자이면서 그런 약속을 (엄청나게 비싼 값에) 구입하는 소비자이기도 하다. 320p

미국의 정치시장은 금융시장과 매우 비슷하다. 증권시세처럼 정보의 흐름에 따라 유권자의 가치가 등락하는 것이다. 정치시장에서 각 유권자는 가격이 변동하는 하나의 주식도 마찬가지다. 각 후보 진영은 특정 유권자에게 투자할 것인지, 만약 투자한다면 어떻게 투자할 것인지를 반드시 결정해야 한다. 다른 말로 후보 진영은 우선 특정 유권자가 투자할 가치가 있는지 판단한 뒤 가치가 있다고 판단되면 어떤 정보를 어떤 방식으로 전달할지를 결정해야 한다. 321p

기부자들은 최고의 가성비, 즉 투자 대비 최대한의 이익을 얻고 싶어 한다. 선거운동이 시작되자마자 최대한의 후원금을 내면 선거 캠프 측이 자신을 잡은 물고기로 여겨 먹이를 주지 않는다는 것을 잘 알고 있다. 반대로 후원금을 한 푼도 내지 않아도 찬밥 신세는 마찬가지라는 것도 안다. 그래서 많은 기부자가 자신이 동의하는 메시지를 들려주는 정치인에게 조금씩 후원금을 낸다. 이들의 입장에서 정치인을 관리하는 것은 먹이로 개를 훈련시키는 것과 비슷하다. 322p

마이크로타겟팅의 성장에도 불구하고 정치캠페인은 여전히 미디어 광고 구매의 평균 75%를 TV에 의존하고 있다. TV 광고는 대중에게 메시지를 광범위하게 전달하는 평등화 효과가 뛰어나기 때문이다. TV는 더 광범위하고 신뢰할 수 있는 메시지를 전하는 반면 마이크로 타겟팅은 어둠의 장막을 치고 은밀하게 전개된다. 그러나 최근에는 TV에서도 개인화된 광고가 늘고 있다. 324p

물밑에서 실행되는 캠페인은 정치권과 유권자 사이에 정보 불균형 상태를 초래한다. 정치마케팅 전문가들은 유권자에 관한 세부 정보를 관리하고 유권자들에게 정보를 조금씩 제공하면서 각각의 정보에 어떻게 반응하는지를 측정한다. 반면 유권자들은 자신의 이웃에게 어떤 정보가 제공되는지 전혀 알 길이 없다. 이는 비즈니스인들이 보편적으로 쓰는 전술과 비슷하다. 협상의 양 당사자를 개별적으로 상대하기 때문에 어느 쪽도 협상가가 상대방에게 무슨 말을 하는지 알 수 없다. 이러한 정보의 비대칭 asymmetry of information 은 여러 집단이 손을 잡고 힘을 모으는 것을 방지한다. 이는 현대 민주주의 체제가 안고 있는 근본적인 문제다. 326p

이처럼 프로필과 예측으로 무장하고 날로 성장하는 마이크로타겟팅 과학은 WMD로서 모든 조건을 완벽하게 갖추고 있다. 거대하고 불투명하고 무책임하다. 또 정치인들의 든든한 지원군이 돼 유권자들의 표를 얻기 위해 얼굴을 자유자재로 바꾸는 것을 돕는다. 유권자들을 점수화하는 방식은 또 다른 폐해를 낳는다. 소수의 유권자만 무대 중앙에 올리고 나머지 유권자를 조연으로 삼아 민주주의를 훼손한다. 약탈적 광고부터 경찰활동 모형까지 지금까지 조사해 온 WMD는 주로 가난한 소외계층을 불이익을 준 반면 마이크로타겟팅은 모든 계층에 위해를 가한다. 어떤 경우든 미국의 정치시스템은 꽃이 햇빛을 쫓아 등을 돌리듯 표적 유권자에게 모든 돈과 관심을 쏟아 그들의 비위를 맞추는 데 집중한다. 나머지 유권자는 사실상 홀대를 받고 있다. 327p

정보의 비대칭 외에 또 다른 비대칭이 있다. 관심의 비대칭이다. 알고리즘에 따라 투표할 것으로 예상되지만 이런저런 이유로 투표하지 못한 사람들은 다음 선거에서 관심의 융단 폭격을 받게 된다. 투표할 가능성이 아직 매우 높은 것으로 여겨지기 때문이다. 반면 아예 투표하지 않을 것으로 예상되는 유권자는 관심에서 거의 배제된다. 328p

WMD에는 흔히 있는 일이지만 유해한 모형이 오히려 인간에게 유익하게 쓰이기도 한다. 조종하기 위해서가 아니라 도움을 주기 위해 사람을 분류하는 경우가 이에 해당한다. 대부분의 WMD가 그렇듯 정치권에서도 모형은 어떤 목표를 선정하느냐에 따라 천사가 될 수도 있고 악마가 될 수도 있다. 거머리처럼 유권자에 달라붙어 이용하는 쪽에서 이들을 돕는 쪽으로 목표를 바꿀 수 있다면 WMD는 선량한 힘이 될 수도 있다. 328p

결론

수학 모형 여행을 마치고

고풍스러운 동네의 숨겨진 먹거리를 개인의 취향에 맞게 소개시켜준다. 이런 표적 마케팅 기법이 은밀하고 개인적인 특성 때문에 사회의 승자들은 자신들에게 우호적인 모형이 다른 사람들의 삶을 어떻게 파괴하는지 보지 못한다. 때로는 불과 몇 블록 떨어진 거리에서 벌어지는 WMD 만행도 이들은 까맣게 모른 채 살아간다. 미국 국새에 새겨진 라틴어 표어 ‘복수로 구성된 하나 Out of Many, One’에서 알 수 있듯이 미국은 다양성을 가진 나라다. 그러나 WMD는 그 공식을 뒤집는다. WMD는 어둠 속에서 은밀하게 작동하면서 하나를 여러 개로 나누는 동시에 이웃과 먼 이웃에게 주는 수많은 피해를 은폐한다. 331p

이런 잘못된 관행을 자유시장체계가 바로잡을 수 있겠는가. 유감스럽게도 그런 희망은 보이지 않는다. 왜 그럴까? 현재 미국 사회가 해결의 실마리를 찾기 위해 노력하고 있는 동성애 기피증인 homophobia 문제와 WMD를 비교해 볼 때 자유시장 시스템이 WMD 문제를 해결하지 못하는 이유가 있다. 332p

유감스러운 일이지만 여기에는 중대한 차이가 있다. 성적 소수자들은 자유시장 체제에서 다양한 방식으로 혜택을 받아왔다. 무엇보다 고등교육을 받고 갈수록 목소리가 커지는 동성애자가 많아 기업들은 이들을 영입하고 싶은 심정이었다. 그리고 결국 이들을 끌어들이기 위해 자사의 모형을 최적화하기에 이르렀다. 이런 움직임이 공정성을 위해서였을까. 그렇지 않다. 회사의 수익을 높이기 위한 고육책에 불과하다. 대부분의 경우 공정성은 부산물이었다. 334p

가난한 사람들만이 WMD의 피해자는 아니다. 악의적 모델이 충분한 자격을 갖춘 구직자를 어떻게 배제하고, 기업이 생각하는 이상적인 건강상태에 부합하지 않는 직원의 임금을 어떻게 빼앗아 가는지 이미 살펴본 것은 아닐까. WMD는 중산층에도 큰 타격을 준다. 더구나 이런 피해가 초기단계에 불과하다는 것을 명심해야 한다. 335p

탐욕이든 편견이든 부당함은 인류 역사와 궤를 같이했다. WMD의 폐해가 최근 역사에서 인류가 보인 비열함보다 더 나쁘다고 할 수는 없다. 인간의 의사 결정에는 때때로 잘못이 있지만 그것을 충분히 상쇄할 수 있는 최고의 미덕이 있다. 바로 진화하는 능력이다. 학습하고 적응하면서 개개인은 변화했고, 우리가 운영하는 제도와 시스템도 개선됐다. 반면 자동화된 시스템은 기술자들이 그것을 바꾸는 노력을 시작할 때까지 시간이 멈춘 것처럼 존재할 뿐이다. 337p

데이터 처리 과정은 과거를 코드화할 뿐 미래를 창조하지 않는다. 미래를 창조하기 위해서는 도덕적 상상력이 필요하다. 그런 능력은 오직 인간만이 가지고 있다. 우리는 더 좋은 가치를 알고리즘에 명백히 포함시켜 우리의 윤리적 지표에 따르는 빅 데이터 모형을 창조해야 한다. 그러기 위해서는 이익보다 공정성이 우선해야 한다. 어떤 의미에서는 지금 한국 사회는 새로운 산업혁명에 임하고 있다고 할 수 있다. 337p

우리 생활을 점점 광범위하게 지배하는 수학 모형을 규제하려면 먼저 무엇을 해야 할까. 출발점은 모형 개발자에게서 찾아야 한다. 2008년 금융 시장이 붕괴된 후 금융 공학자 이매뉴얼 더먼과 폴 윌머트는 실제로 모형 개발자를 위한 히포크라테스 선서를 작성했다.- 나는 내가 세상을 만드는 것이 아니라 세상이 나의 방정식을 따르지 않는다는 것을 명심합니다.- 저는 가치를 추산하기 위해 모형을 대담하게 사용하더라도 수학에 지나치게 감동을 받지 않습니다. – 저는 이유를 설명하지 않고는 우아함을 위해 현실을 결코 희생하지 않습니다. – 저는 제 모형을 사용하는 사람들에게 그 정확성에 대해 거짓 위안을 주지 않습니다. 대신 저는 모형에 이용된 가정과 간과된 점을 밝힙니다.저는 내일이 사회와 경제에 지대한 영향을 미칠 수 있음을, 그 영향의 상당 부분이 저의 이해 수준을 능가할 것임을 명심합니다. 따라서 유해한 WMD를 제거하려면 데이터 세계에서 모범적인 관행을 구축하는 것 이상을 해야 한다. 즉, 법이 바뀌어야 한다. 340p

테크노 유토피아에 대한 올바른 이해가 선행되어야 한다 알고리즘과 기술이 인류에게 가져다 줄 혜책에 대한 무제한적이고 부적절한 희망에서 깨어나야 한다 알고리즘이 보다 효과적으로 기능하도록 요구하기 전에 알고리즘이 모든 것을 할 수 없음을 인정해야 한다. 343p

가치부가모형처럼 시대에 역행하는 모형을 고치는 방법은 없다. 유일한 해결책은 불공정 시스템 자체를 폐기하는 것이다. 모형이 산출하는 결과도 반드시 공정성에 대한 감사를 받아야 한다. 이런 감사는 인간의 손으로 신중하게 설계학을 검증해야 하며 그 과정이 끝난 뒤 자동화돼야 한다. 345p

빅데이터는 현명하게 관리된다면 중요한 통찰을 제공할 수 있다. 그러나 그런 많은 통찰이 기존 질서를 파괴할 우려가 있다. 어쨌거나 우리 인간의 눈에는 보이지 않는 패턴을 찾아내는 것이 빅 데이터의 궁극적인 목표다. 데이터 과학자들에게는 자신들이 과감히 뛰어든 생태계를 이해하고 나아가 그에 대한 해결책을 제시해야 하는 거센 도전이 기다리고 있다. 355p

나는 21세기 초의 WMD가 100여 년 전 참혹했던 석탄광산처럼 기억되기를 원한다. 인간이 데이터의 시대에 공정성과 책임성을 반영하는 법을 배우지 못한 새로운 혁명의 초기 유물로 기억되기를 바란다. 수학은 WMD보다 나은 대우를 받을 자격이 충분하다. 민주주의도 마찬가지다. 359p

p . s . 1

재밌고 유익하다

가장 큰 찬사와 논란을 부른 문제작이라는 출판사의 화려한 소개가 과장된 설명이 아니다.

p . s . 2

2016년 출간된 책이지만 이후 수학과 빅데이터의 결합으로 생겨난 대량살상무기 WMD의 공정성 효율성이 얼마나 개선됐는지, 아니면 오히려 악화됐는지 궁금하다.

아마도 좀 더 교묘한 방법이 개발돼 우리의 모든 것을 더 자세히 들여다보고 있는 것이 아닌가 싶다.

p . s . 3

이 책에서는 다루지 않는 부분인데… 생각하면 defense system(군사방어체계)의 뇌관도 무섭습니다.

인간이 만든 기계, 시스템에 대한 통제력을 잃는 순간 우리의 모든 것은 ‘공짜’로 끝난다. 허무할 사이도 없이

p . s . 4

비슷한 경고를 하는 얘기가 많다.

1997년 영화 터미네이터 Terminator에 등장하는 스카이넷 Skynet, 더 멀리는 1949년 조지 오웰이 쓴 소설 1984에 나오는 빅 브러더.

결론