본문 바로가기

경제

수학과 삶 I

728x90
SMALL




목차

프롤로그
1.데이터 수명 주기와 조작
2.수학과 가중치 합
3.수학과 삶
4.데이터 프레이밍과 조작
5.가중치 평균과 베이지안 추론
6.통계 및 표와 차트
7.데이터 저널리즘과 해석의 오류
8.가중치 시스템과 검색 필터링 조작
9.예측과 표본
10.편향된 상관관계와 확률 오류
에필로그
참고문헌




프롤로그

데이터와 수학적 계산을 대신해 주는 사용자 친화적인 통계 소프트웨어가 늘어나면서 통계적 방법론에 대한 교육의 필요성이 줄어들 것이라고 생각할 수도 있다. 하지만 데이터 접근 및 분석이 쉬워지면서, 주장에 대한 객관적인 증거를 제시하는 수단으로 통계 수치와 그래픽을 사용하는 경우가 늘어났다. 오늘날 통계를 증거로 활용하는 것은 과학자들뿐만 아니라 정치 캠페인, 광고, 그리고 언론에서도 마찬가지이다. 통계가 과학적 근거에서 분리되면서, 통계의 역할은 정보 제공보다는 설득으로 바뀌고 있다. 그리고 그러한 통계적 주장을 생성하는 사람들이 반드시 통계적 방법론에 대한 교육을 받은 것은 아니다. 점점 더 다양한 출처에서 신뢰성을 보장하기 위한 감독이 거의 없이 통계를 생산하고 배포하고 있다. 연구를 수행하는 과학자들이 데이터를 생산하더라도, 연구의 결함부터 언론과 대중의 허위 진술에 이르기까지 통계적 주장의 오류와 왜곡은 그 과정의 어느 시점에서든 발생할 수 있다. 따라서 오늘날 세상에서 데이터 리터러시는 수많은 뉴스 기사, 소셜 미디어 게시물, 그리고 통계를 증거로 사용하는 주장의 신뢰성을 정확하게 평가하는 데 매우 중요하다.


1.데이터 수명 주기와 조작

통계학자가 실제로 무슨 일을 하는지 궁금해 본 적 있었나요? 많은 사람들에게 통계학은 수학의 난해한 분야로 여겨지지만, 그림을 활용한다는 점에서 다른 분야보다 조금 더 흥미롭다. 하지만 오늘날 통계학의 수학적 측면은 이 분야의 한 부분으로만 여겨진다. 통계학은 데이터의 전체 수명 주기를 다루는데, 이는 문제(Problem), 계획(Plan), 데이터(Data), 분석(Analysis), 결론(Conclusion)의 약자(PPDAC)로 요약할 수 있는 다섯 단계로 구성된다. 통계학자의 임무는 문제를 파악하고, 해결 계획을 수립하고, 관련 데이터를 수집하고, 분석하고, 적절한 결론을 도출하는 것이다. 이 과정이 어떻게 진행되는지 연쇄 살인범 해럴드 쉽먼(Harold Shipman) 사건을 통해 살펴봅시다. 해럴드 쉽먼은 215명의 확실한 희생자와 45명의 추정 희생자를 기록하며 영국에서 가장 악명 높은 연쇄 살인범이었다. 1998년 체포되기 전, 그는 의사라는 권위를 이용하여 많은 노인 환자들을 살해했다. 그의 수법은 환자에게 치사량의 모르핀을 주사한 후, 사망 사실을 자연스럽게 보이도록 의료 기록을 변조하는 것이었다. 스피겔할터는 십먼의 살인 사건이 더 일찍 발견될 수 있었는지 여부를 확인하기 위해 공개 조사에 의해 설립된 태스크포스에 참여했다. 이것이 조사 주기의 첫 번째 단계, 즉 문제이다. 다음 단계, 즉 계획은 십먼 환자의 사망에 대한 정보를 수집하고 이를 해당 지역의 다른 환자 사망 정보와 비교하여 데이터에 의심스러운 불일치가 있는지 확인하는 것이었다. 주기의 세 번째 단계, 즉 데이터 수집은 실제 데이터 수집 과정을 포함한다. 이 경우, 이는 1977년 이후 수백 건의 실제 사망 증명서를 검토하는 것을 의미했다. 네 번째 단계에서는 데이터를 분석하고 소프트웨어에 입력한 후 그래프를 사용하여 비교했다. 분석 결과 두 가지 사실이 드러났다. 첫째, 십먼의 진료소는 해당 지역 평균보다 훨씬 많은 사망자를 기록했다. 둘째, 다른 일반 진료소의 환자 사망 사례가 하루 종일 분산된 반면, 십먼의 경우 사망자는 오후 1시에서 5시 사이에 사망하는 경향이 있었는데, 이는 십먼이 가정 방문을 한 바로 그 시간대였다. 마지막 단계는 결론이다. 스피겔할터의 보고서는 누군가 데이터를 모니터링했다면 십먼의 활동이 15년 전인 1984년에 발견되었을 수 있으며, 최대 175명의 생명을 구할 수 있었다고 결론지었다. 그렇다면 통계학자들은 무엇을 할까? 데이터의 패턴을 분석하여 현실적인 문제를 해결한다. 데이터는 단순히 엄밀하고 객관적인 사실이 아니다. 다른 형태의 지식과 마찬가지로 인간의 판단과 편향에 좌우된다. 사실, 인간의 판단은 첫 단계부터 개입된다. 데이터를 수집하기 전에, 우리는 무엇을 측정할지에 대해 상당히 임의적인 결정을 내려야 할 때가 있다. 지구상에 나무가 몇 그루 있는지 세는 것이 우리의 문제라면, "나무"가 정확히 무엇인지 정의해야 한다. 예를 들어, 이러한 유형의 연구는 대부분 지름이 4인치(약 10cm) 이상인 나무만 포함한다. 따라서 측정 대상의 정의가 측정 중간에 변경되면 데이터가 왜곡될 수 있다. 예를 들어, 2014년에서 2017년 사이 영국 경찰에 기록된 성범죄 건수는 6만 4천 건에서 12만 1천 건으로 거의 두 배 증가했다. 이 기간 동안 범죄가 급증한 것처럼 보일 수 있다. 그러나 이러한 증가의 진짜 이유는 2014년 보고서에서 경찰의 기록 관행을 비판한 이후 성범죄가 더욱 심각하게 받아들여졌기 때문이다. 따라서 데이터가 현실을 완전히 정확하게 표현한다고 가정해서는 안 된다. 많은 데이터가 사람들에게 얼마나 행복감을 느끼는지와 같은 경험과 관련된 질문을 하는 설문조사에서 수집된다는 점을 생각해 보세요. 물론 이러한 질문들이 스프레드시트에 담긴 인간의 모든 경험을 담아낼 수는 없다. 또한 사람들이 질문을 해석하고 답변하는 방식에 대한 편향은 데이터를 더욱 왜곡할 수 있다. 이것이 바로 통계학에서 적절한 질문을 설계하는 것이 가장 큰 과제 중 하나인 이유이다. 사용되는 언어는 응답자가 질문에 대해 어떻게 생각하는지에 영향을 미칠 수 있다. 영국의 한 설문조사에서 "16세와 17세에게 투표권을 부여하는 것"에 대해 어떻게 생각하는지 물었을 때, 52%가 찬성했고 41%가 반대했다. 그러나 같은 응답자에게 "투표 연령을 18세에서 16세로 낮추는 것"에 대해 어떻게 생각하는지라는 논리적으로 동일한 질문을 했을 때, 찬성은 37%, 반대는 56%로 떨어졌다. 다른 경우에는 질문이 아니라 설문조사가 허용하는 답변이 편향을 야기하는 경우가 있다. 2017년, 라이언에어는 승객의 92%가 비행 경험에 만족한다고 자랑스럽게 발표했다. 그러나 고객 만족도 조사에서는 "훌륭함, 매우 좋음, 좋음, 보통, 괜찮음"과 같은 답변만 허용되었다. 이는 통계학자들이 데이터를 분석하기도 전에 이미 오해의 소지가 있는 정보를 다루고 있다는 것을 의미한다.


2.수학과 가중치 합

당신의 하루는 휴대폰 화면에 숫자, 오전 7시로 시작된다. 그리고 당신이 침대에서 나오기도 전에 이미 더 많은 숫자가 당신의 세상을 형성하고 있다. TikTok의 알고리즘은 당신에게 가장 먼저 보여줄 비디오를 선택한다. 소셜 미디어는 좋아요와 팔로워로 당신의 가치를 계산한다. 그리고 당신이 식료품점으로 운전하는 동안 당신이 브레이크를 밟는 방법, 당신이 듣는 것, 당신이 가는 곳에 대한 기가바이트 단위의 데이터가 조용히 쏟아져 나온다. 구인 광고를 스크롤할 때쯤이면 당신은 이미 당신이 어떤 목록을 보고 어떻게 평가하는지를 결정하는 순위, 평점, 그리고 숨겨진 공식의 바다에 무릎까지 빠져 있다. 그리고 거기서 끝나지 않는다. 직장은 키보드 입력을 추적하고, 은행은 당신의 꿈을 신용 점수로 축소하고, 심지어 교실과 병원조차도 인간성보다는 효율성을 위해 설계된 지표에 당신을 넣는다. 이것은 누구든 사람이라기보다는 데이터 포인트처럼 느껴지기에 충분하다. 하지만 여기 좋은 소식이 있다. 이 모든 것의 배후에 있는 수학은 기술 거대 기업과 헤지 펀드만을 위한 것이 아니다. 약간의 노하우만 있다면, 같은 아이디어를 활용하여 숫자에 집착하는 세상에서 저항하고, 더 현명한 선택을 하고, 주도권을 되찾을 수 있다. 이는 소수에게만 국한되지 않고 수학의 힘을 우리 모두와 공유하는 것이다. 예를 들어, 2023년 9월 말 어느 오후, 브랜다이스 대학교는 어떤 대학도 쓰고 싶어 하지 않을 이메일을 보냈다. US 뉴스 & 월드 리포트의 최고 대학 순위에서 순위가 ​​떨어졌다는 내용이었다. 단 몇 계단 차이도 아니었다. 무려 16계단이나 떨어졌다. 44위에서 60위로요. 속이 쓰린 일이었다. 학부모들은 초조해했고, 동문들은 한숨을 쉬었으며, 학생들은 "우리 학교가 갑자기 나빠진 걸까?"라고 자문했다. 하지만 사실 브랜다이스 대학교는 전혀 변하지 않았다. 바뀐 것은 바로 US 뉴스가 매년 순위를 조작하는 데 사용하는 비밀 가중치 시스템, 즉 '레시피'였다. 이 레시피는 가중 합계라는 개념을 설명하기에 아주 적합한 곳이며, 여러분의 삶에 영향을 미치는 많은 알고리즘에 활용되는 것을 볼 수 있다. 인기 있는 대학 순위의 경우, 순위는 다음과 같다. 잡지는 졸업률, 교수 급여, 동문 기부금, 동료 평가, 학급 규모와 같은 공통적인 요소를 선정한 후 각 요소의 가중치를 결정한다. 두 번째 단계인 가중치 부여는 매우 중요하다. 수십 년 동안 가장 큰 가중치를 받은 요소는 다른 대학 관리자들이 학교에 대해 어떻게 생각하는지 조사하는 "동료 평가"였다. 전체 가중치의 20%를 차지하는데, 이는 학자금 대출, 유지율, 시험 점수보다 더 중요하다는 것을 의미한다. 2023년, US 뉴스는 40년 역사상 가장 큰 조정을 단행했다. 가중치를 조정하고 동문 기부금과 학급 규모와 같은 일부 요소의 우선순위를 낮췄다. 그 결과, 어떤 학교는 순위가 상승했고 어떤 학교는 하락했다. 특히 브랜다이스에게 학급 규모 요소가 사라진 것은 무엇보다도 큰 타격이었다. 여기서 눈에 띄는 점은 이러한 순위가 숨겨진 객관적인 진실을 드러내지 않는다는 것이다. 다양한 요소에 가중치를 다르게 적용하는 것은 사람들이 각자의 주관적인 우선순위에 따라 내리는 선택이다. 그리고 이러한 공식에 우선순위가 포함되면, 속임수가 따른다. 많은 대학들이 수치를 부풀리는 것이 적발되었다. 어떤 대학들은 더 높은 평균 점수를 얻기 위해 신입생들에게 SAT 재시험 비용을 지불했고, 어떤 대학들은 데이터를 부풀렸다고 시인했다. 컬럼비아대는 교수진의 자격증과 지출 내역을 조작했다는 사실이 밝혀지면서 언론의 주목을 받았다. 하지만 긍정적인 측면은, 이는 또한 여러분이 스스로 가중치를 적용한 순위를 만들 수 있다는 것을 의미한다. 터프츠, UCLA, 조지타운 중 하나를 선택한다고 상상해 보세요. 여러분의 "요인"은 날씨, 학생-교수 비율, 정치, 그리고 농구일 수 있습니다. 만약 여러분에게 햇빛이 가장 큰 영향을 미친다면 UCLA가 1위를 차지할 것이다. 정치적인 활동이 더 중요하다면 조지타운이 승리할 것이다. 교실 규모가 가장 중요하다면 터프츠가 1위를 차지할 것이다. 같은 대학이지만, 가중치는 다르고, 순위도 완전히 다르다. 신용 점수, 대출 승인, 구직자 지표, 그리고 소셜 미디어 피드를 큐레이션하는 알고리즘에도 같은 종류의 수학이 적용된다. 하지만 가중치가 적용된 합계를 활용하기 위해 고급 소프트웨어가 필요한 것은 아니다. 가치 있는 것을 선택하고 가중치를 부여한 후, 그 결과가 어떻게 될지 지켜보기만 하면 된다. 각 순위에는 레시피가 있으므로, 귀하의 특정 취향에 맞는 레시피를 사용하세요.


3.수학과 삶

기본적인 수학 개념은 일상생활에서 매우 귀중하다. 물론 비즈니스 상황에서도 필수적이지만, 이러한 개념을 올바르게 적용하는 것이 중요하다. 백분율을 생각해 보세요. 이는 재정적 성장이나 쇠퇴와 관련된 거의 모든 문제에 적용될 수 있지만, 일반적인 함정에 주의하세요! 1,000달러를 투자했는데 지금은 1,700달러의 가치가 있다고 가정해 봅시다. 상대적으로 가치가 얼마나 증가했을까? 백분율은 초기 가치에서 현재 가치(1,700달러 - 1,000달러 = 700달러)를 먼저 뺀 다음 이 차이를 초기 가치로 나누고 100을 곱하면 답을 알 수 있다. ($700 ÷ 1,000달러) × 100 = 70%. 간단해 보이지만, 일반적인 실수에 주의하세요. 먼저 기억하세요. 백분율 증가 후 같은 백분율 감소는 시작점으로 돌아가는 것이 아니라, 더 나쁜 상태로 만든다. 따라서 1,000달러가 50% 증가하면 총액은 1,500달러이다. 그러나 1,500달러에서 50% 손실이 발생하면 750달러가 남는다. 게다가 백분율과 백분율 변화는 종종 혼동된다. 예를 들어 성장률이 10%에서 20%로 증가하면 10%포인트 증가한 것이다. 하지만 백분율 변화는 10%가 아니라 성장률이 두 배가 되었기 때문에 100%이다. 반올림은 또 다른 실용적인 도구이지만 종종 잘못 적용되는 도구이다. 이는 일상 활동에서 숫자를 다루는 것을 단순화하는 데 유용하다. 4 이하로 끝나는 값은 내림하고 5 이상으로 끝나는 금액은 올림한다. 하지만 계산을 한 후에만 숫자를 반올림해야 한다. 1.5와 2.4는 둘 다 2로 반올림된다. 1.5 곱하기 1.5는 2.25로 반올림하여 2가 되고, 2.4 곱하기 2.4는 5.76으로 반올림하여 6이 됩니다. 따라서 "2 곱하기 2"의 정답은 2에서 6 사이 어디든 될 수 있다! 투자를 고려하고 있다면, 미래에 당신의 돈의 가치가 얼마나 될지 알고 싶어 할 것이다. 이는 이자율과 인플레이션이라는 두 가지 요소를 고려하여 계산할 수 있다. 이자는 돈을 사용하는 데 지불하는 가격이므로 투자 기회를 비교할 때 이자율 계산이 중요하다. 연 6%의 이자율로 5년 동안 100달러를 투자했다고 가정해 봅시다. 그러면 투자에서 발생하는 이자 수입은 다음과 같이 계산된다. 100달러 × 5 × 0.06 = 30달러. 자, 이제 상황이 조금 더 복잡해진다. 우리가 이야기해 온 이자율은 단리로 알려져 있다. 이는 처음 투자한 금액에 대해서만 이자가 발생한다는 것을 의미한다. 하지만 또 다른 종류의 이자가 있습다. 바로 복리이다. 복리 이자는 처음 투자한 금액에 대한 이자를 얻을 뿐만 아니라 이미 발생한 이자에 대한 이자도 얻는다. 이해하기 어려울 수 있으므로, 다시 예를 들어 봅시다. 이전과 같은 금액인 100달러를 5년 동안 6% 이자로 투자하고 매년 말에 이자가 지급된다고 가정해 봅시다. 그러면 첫 해 말에 106달러가 생긴다. 이해하기 꽤 쉽다. 그러나 내년에는 106달러에서 6%를 벌게 된다. 그러면 2년 후의 금액은 112달러가 아니라 112.36달러가 된다. 내년에는 112.36달러에 대한 이자가 발생한다. 그러므로 복리 덕분에 돈이 기하급수적으로 늘어난다. 하지만 투자할 때는 인플레이션도 고려해야 한다. 인플레이션은 이자의 반대 개념으로 볼 수 있다. 이자는 가치를 더하고 인플레이션은 가치를 감소시킨다. 다시 말해, 인플레이션은 돈의 지출 가치를 떨어뜨린다. 예를 들어, 물가상승률이 10%라면, 현재 10,000달러의 가치는 5년 후 16,105달러의 가치와 같아진다. 맞습니다. 물가상승률도 복리로 작용한다! 투자할 때는 예상 이자와 물가상승률의 차이를 계산해야 한다. 물가상승률이 10%이고 이자율이 6%라면, 다음 공식을 사용하여 차이를 계산합니다. 1 - (1.10 ÷ 1.06) = -0.038, 즉 연 -3.8%이다. 이 정보를 사용하여 투자 가치를 동일하게 유지하기 위해 얼마나 많은 돈을 투자해야 하는지 계산할 수 있다.


4.데이터 프레이밍과 조작

인간의 해석이라는 만연한 문제는 데이터 수집뿐만 아니라 데이터 표현 방식에도 영향을 미친다. 최근 몇 년 동안 통계 결과를 전달하는 방법으로 데이터 시각화에 대한 연구가 활발하게 진행되고 있다. 데이터 시각화는 데이터를 시각적으로 표현하는 데 사용되는 그래픽 도구이다. 통계학자들은 데이터의 시각적 표현을 '양안(inter-ocular)'으로 정의하는데, 이는 암산을 하지 않고도 시각적으로만 데이터의 패턴을 식별할 수 있다는 것을 의미한다. 예를 들어 여러 병원의 심장 수술로 인한 사망자 수를 비교하기 위해 막대 그래프를 사용하는 경우가 있다. 수치를 직접 보지 않고도 평균에서 크게 벗어나는 병원은 육안으로도 쉽게 알아볼 수 있다. 하지만 그래픽은 정확하고 효과적이려면 신중한 디자인이 필요하다. 색상, 글꼴, 순서, 언어 등 모든 요소가 데이터 해석 방식에 영향을 미친다. 그렇기 때문에 오늘날 통계학자들은 심리학자들과 협력하여 다른 그래픽이 어떻게 인식되는지 그 가능성을 평가한다. 병원의 사망률을 비교하는 예를 다시 들어보자면, 통계학자가 데이터를 표로 제시한다고 가정해 봅시다. 그녀는 병원들을 어떤 순서로 나열할지 결정해야 한다. 사망률 순으로 병원을 나열하는 것은 상식적으로 보일 수 있다. 문제는 이 순서가 병원들이 질에 따라 순위가 매겨졌다는 인상을 줄 수 있다는 점인데, 이는 매우 오해의 소지가 있다. 최고의 병원들은 종종 가장 심각한 환자들을 그곳에서 치료해야 하기 때문에 사망률이 더 높다. 표현이 해석에 미치는 영향을 잘 보여주는 또 다른 사례는 프레이밍 효과이다. 통계적 주장을 프레이밍하는 언어는 그 주장의 정서에 영향을 미친다. 몇 년 전, 런던 지하철 광고 캠페인에서는 런던 젊은이의 99%가 심각한 청소년 폭력을 저지르지 않는다고 주장했다. 아마도 그 목적은 런던 시민들에게 안전하다고 안심시키기 위한 것이었을 것이다. 하지만 통계를 "런던 젊은이의 1%가 심각한 청소년 폭력을 저지른다"라고 바꿔 말하면 이 주장의 정서적 영향을 뒤집을 수 있다. 이는 좀 더 위협적이다. 백분율 대신 실제 수치를 사용하면 그 효과는 더욱 두드러진다. "런던에는 폭력적인 청소년 범죄자가 1만 명이나 있다!" 통계 커뮤니케이터는 청중에게 충격을 주고 싶은지, 아니면 안심시키고 싶은지에 따라 프레이밍을 유리하게 활용하는 경우가 많다. 연구자들은 의도적인 설계와 명확한 언어를 사용하여 데이터에 대한 부적절한 직감적 반응을 사전에 예방해야 한다. 많은 연구자들은 평생 데이터를 샅샅이 뒤져 중요한 발견을 찾아내는 데 시간을 보낸다. 하지만 중요한 연구 결과를 발표해야 한다는 압박감 때문에 연구자들은 데이터를 조작하기도 한다. 진실에 충실하더라도 과학자들조차도 의심스러운 연구 관행에 빠지는 경우가 있다. 그러한 관행 중 하나는 다중 검정으로, 연구자들이 원하는 결과를 얻을 때까지 반복하는 방식이다. 연구자가 검정을 반복할수록 거짓 양성(가설을 뒷받침하는 것처럼 보이지만 실제로는 우연적 오류에 의한 결과)이 나올 가능성이 커진다. 이것이 왜 문제인지 이해하기 위해 2009년에 매우 명망 있는 연구팀이 수행한 연구를 살펴봅시다. 뇌 영상 촬영을 통해 피험자에게 다양한 감정을 표현하는 사람들의 사진을 보여주었을 때 뇌의 어느 부분이 활성화되는지 확인했다. 문제는 "피험자"가 1.8kg(4파운드) 무게의 죽은 대서양 연어였다는 것이다. 연어 뇌에서 측정된 8,064개 부위 중 16개 부위에서 사진에 대한 반응이 나타났습니다. 연구팀은 물고기가 놀라운 능력을 가지고 있다고 결론짓기보다는, 8,000건 이상의 검사에서 몇 건의 위양성 결과가 나올 수밖에 없다는 점을 정확하게 예측했다. 위양성 자체가 반드시 문제는 아니지만, 보고되는 유일한 결과인 경우가 많다. 과학 논문에서도 긍정적이거나 흥미로운 결과만 게재되는 경향이 있다. 이는 필연적으로 과학 문헌에 긍정적 편향을 초래하여, 대중은 가설을 뒷받침하는 것처럼 보이는 연구만 보고 그렇지 않은 연구는 보지 못하게 된다. 이는 자연스럽게 결과 해석 방식에 영향을 미친다. 예를 들어, 베이컨 샌드위치를 ​​먹으면 암 위험이 증가한다는 연구 결과가 나오면 충격을 받을 수 있다. 하지만 이전 20건의 연구에서는 연관성이 전혀 발견되지 않았다는 사실을 안다면, 그 충격은 상당 부분 줄어들 것이다. 이처럼 선택적으로 보도하는 이유는 과도한 학문적 압력과 선정적이고 획기적인 이야기에 대한 우리의 선호도 때문에 복잡하다. 스탠퍼드 대학교 통계학 교수인 존 이오아니디스가 "대부분의 출판된 연구 결과는 거짓"이라고 주장하게 된 것도 바로 이러한 긍정적 편향 때문이다. 이오안니디스가 의도적으로 도발적인 발언을 한 것은 사실이지만, 그의 선언은 과학 저널에 발표되었다는 이유만으로 연구 결과를 당연하게 여기지 말라는 경고 역할을 한다.


5.가중치 평균과 베이지안 추론

병에 구슬이 몇 개 들어 있는지 추측하는 오래된 카니발 게임을 해본 적 있나요? 이 게임에는 비밀이 있는데, 혼자서는 할 수 없다. 승리 공식은 가중 평균이다. 앞에서는 가중 합에 대해 살펴보았다. 그러나 이 방법은 조금 다르다. 어떤 사람들은 과대평가하고 어떤 사람들은 과소평가할 수밖에 없다는 사실을 고려한다. 하지만 100번의 추측을 한 후 평균을 내면 마법 같은 일이 일어난다. 병에 든 구슬의 개수에 놀라울 정도로 가까운 숫자를 얻게 되는 것이다. 수학적으로 말하면 편향, 분산, 공분산 같은 요소들을 고려하는 것이다. 하지만 직관은 간단하다. 독립적으로 상당히 좋은 추측을 하는 사람들이 모여 있으면 거의 모든 전문가 혼자보다 더 나은 결과를 얻을 수 있다. 하지만 가중 평균은 한 걸음 더 나아간다. 어떤 사람들은 추측에 더 예리하다는 것을 인지하고, 그들의 의견에 더 큰 가중치를 부여한다. 이것이 바로 금융 예측가, 스포츠 분석가, 기상 모델, 그리고 선거 예측의 논리이다. 그들은 다양한 출처를 결합하고 입증된 실적이 있는 출처에 더 많은 가중치를 부여한다. 하지만 조심하세요. 모든 여론조사가 동일한 맹점을 공유한다면 평균이 그것을 물려받는다. 2016년에 특정 유권자 그룹이 전반적으로 같은 방향으로 과소평가되었던 일이 바로 그것이다. 독립성은 정확성만큼이나 중요하다. 이는 투자자들이 분산 투자하는 이유와 같다. 모든 주식이 함께 움직인다면 취약하다. 다른 리듬으로 흔들린다면 더 유리하다. 이는 평균화의 사촌과 같은 기대값에 대한 경고 이야기로 이어진다. 투표나 추측을 가늠하는 대신, 기대값은 가능한 결과의 확률을 가늠한다. 동전 던지기에서 앞면이 나오면 3달러, 뒷면이 나오면 1달러를 받는다면, 기대값은 한 번 던질 때마다 2달러이다. 이것이 바로 보험사, 카지노, 복권이 사용하는 것이다. 매번 이기기 위해서가 아니라 장기적으로 이기기 위해서이다. 문제는 평균이 극단을 감출 때 발생한다. 복권의 기대값은 엄청난 잭팟 때문에 매력적으로 보일 수 있지만, 실제로 당첨될 확률은 극히 미미하다. 반면 보험은 평균적으로는 불리해 보이지만, 재정적 재앙으로부터 당신을 보호한다. 하지만 기대값은 걷잡을 수 없이 커질 수 있다. 예를 들어, 암호화폐 재앙으로 몰린 샘 뱅크먼-프리드의 경우, 인생을 하나의 거대한 기대값 계산으로 여기며, 평균값이 자신을 구해줄 것이라는 생각에 거액을 걸었다. 하지만 인생은 동전 던지기처럼 무한하지 않다. 모든 것을 너무 자주 걸면 파산이 찾아온다. 재정적으로든, 법적으로든, 개인적으로든, 뱅크먼-프리드의 경우처럼 이 세 가지가 합쳐진 결과든 말이다. 기대값은 믿음직한 나침반이 될 수 있지만, 모든 결과를 숫자로 표현할 수는 없다는 점을 기억해야 한다. 때로는 신뢰와 평판의 무게가 수학보다 더 중요하다. 이렇게 생각하기 시작하면 새로운 증거가 들어올 때마다 믿음을 업데이트하는 도구를 사용할 준비가 된 것이다. 바로 베이지안 추론이라고 하는 도구이다. 18세기 통계학자 토마스 베이즈의 이름을 딴 베이지안 추론은 새로운 정보를 흡수하는 데 도움이 된다. 직감, 지식 또는 예감에 따라 범위가 설정된다. 하지만 새로운 정보가 도착하면 그 범위도 조정해야 한다. 문제는 얼마나 되느냐이다. 시나리오를 실행해 봅시다. COVID 검사에서 양성 결과가 나오면 바이러스에 감염되었다는 것을 100% 확신했을 수도 있다. 하지만 검사 정확도가 80%에 불과하고 유병률은 10%이며 5%의 경우 거짓 양성으로 나온다는 것을 알게 되었다. 베이즈는 양성 반응이 아픈 사람뿐만 아니라 건강한 사람의 일부에서도 나오기 때문에 확신 수준이 약 64%로 낮아져야 한다고 지적한다 (1000명 중 감염자 100명 → 양성 80명, 건강 900명 → 양성 45명, 확률: 80 / 125 = 64%). 뇌가 이 수학에 어려움을 겪고 있나요? 간단한 방정식 형태의 친절한 단축키가 있다. A - B + C. A는 사전 확신도를 나타내는 숫자이다. 0은 거의 확실함, 즉 100%에 가깝다. 1은 50% 확실함이다. 2는 25%, 3은 10%이다. 6은 1퍼센트, 즉 100분의 1이다. 10은 0.1퍼센트, 즉 1,000분의 1이다. 20은 100만분의 1이다. 이 숫자 중 하나를 초기 대략적인 수치로 선택하세요. 다음으로, 해당 상황의 기본 확률을 가장 잘 나타내는 숫자를 고려하세요. 그 숫자를 B로 하세요. 그런 다음 C에 대해 해당 상황에서 확률을 가장 잘 나타낸다고 생각되는 숫자를 선택하세요. 예를 들어, 친구가 자신이 현명한 투자자라고 말하지만 당신은 약간 회의적이라 믿음이 50:50에서 시작한다고 가정해 봅시다. 하지만 친구에게 테스트를 하게 하세요. 10개 주식 중에서 한 달 안에 가장 많이 오를 주식을 고르세요. 예상대로 친구는 테스트를 통과했다. 그렇다면 질문은, 지금 친구를 얼마나 믿느냐는 것이다. 대략적인 숫자를 대입하면 A=1(50%), B=3(1/10의 무작위 적중 가능성), C=2(친구가 정말 능숙하다면 25%)가 된다. A − B + C = 0의 결과는 "거의 확실성"에 해당한다. 베이지안 추론은 두 사람이 같은 토론을 보고도 서로 다른 인상을 받는 이유를 설명하는 데 도움이 된다. 두 사람이 서로 다른 사전 지식으로 시작했기 때문에 같은 증거가 그들의 생각을 다르게 움직인 것이다. 또한 알고리즘, 특히 피드를 큐레이팅하는 알고리즘이 자신의 "믿음"을 어떻게 업데이트하는지 이해하는 데 도움이 된다.





참고문헌

이코노미스트: 숫자 가이드
리처드 스튜틀리 & 이코노미스트

통계의 예술
데이비드 스피겔할터

로빈 후드 수학
노아 지안시라쿠사

728x90
LIST