본문 바로가기

경제

수학과 삶 II

728x90
SMALL






목차

프롤로그
1.데이터 수명 주기와 조작
2.수학과 가중치 합
3.수학과 삶
4.데이터 프레이밍과 조작
5.가중치 평균과 베이지안 추론
6.통계 및 표와 차트
7.데이터 저널리즘과 해석의 오류
8.가중치 시스템과 검색 필터링 조작
9.예측과 표본
10.편향된 상관관계와 확률 오류
에필로그
참고문헌





6.통계 및 표와 차트

관련된 숫자 집합을 설명하는 데 매우 효과적인 방법을 제공하는 세 가지 도구를 살펴봅시다. 이를 실제로 적용하기 위해 부동산 회사의 하루 판매량을 고려해 봅니다. 먼저, 숫자 집합의 평균 또는 "중간" 값을 측정하는 방법이 필요하다. 평균을 측정하는 가장 일반적인 방법은 평균을 구하는 것이다. 이는 모든 점수를 더한 후 합계를 점수 개수로 나누어 구한다. 예를 들어, 회사가 3일 동안 하루에 각각 1채, 2채, 3채의 주택을 판매했다면, 평균은 (1 + 2 + 3) ÷ 3으로 계산되며, 이는 하루 평균 2채의 판매와 같다. 다음으로, 평균을 중심으로 얼마나 퍼져 있는지를 측정해야 한다. 평균은 숫자가 그 주변에 얼마나 넓게 퍼져 있는지를 나타내는 지표와 함께 제공될 때 훨씬 더 의미가 있다. 표준 편차는 바로 이러한 지표를 나타내는 좋은 지표이다. 표준 편차를 계산하려면 먼저 평균을 구한 다음, 각 숫자 값에 대해 평균을 빼고 제곱하면 된다. 끝으로, 이러한 제곱 차이의 평균을 구하고 결과의 제곱근을 구한다. 우리의 예에서 표준 편차는 1이다. 그러나 5 또는 6이라면 판매가 없는 기간이 있고 많은 날이 있다는 것을 의미한다. 마지막으로 모양을 측정해야 한다. 숫자 모음은 모양이 다를 수 있다. 즉, 숫자가 평균을 중심으로 대칭적으로 분포(1, 2, 3)하거나 한쪽으로 치우칠 수 있습니다(1, 2, 3000; 우연히도 평균은 1001이 된다). 난수 모음의 가장 일반적인 모양은 숫자가 평균을 중심으로 대칭적으로 분포하는 정규 분포이다. 이 세 가지 도구를 사용하면 다양한 종류의 판매 예측을 할 수 있다. 보고서와 프레젠테이션에서 표와 차트는 메시지 전달에 중요한 역할을 할 수 있다. 원래 정보를 그대로 유지하면서 데이터에 질서를 부여할 수 있다. 표는 일반적으로 데이터를 제시하거나 해석하는 두 가지 주요 기능 중 하나를 수행한다. 데이터를 제시하는 표는 다른 사람들이 사용하도록 설계되었다. 표는 세 ​​가지 규칙을 따라야 한다. 첫째, 표를 간결하게 만들고 불필요한 정보는 반올림하는 등의 방법으로 제거한다. 둘째, 행과 열의 합계나 평균과 같은 요약 수치를 포함하여 표를 유익하게 만든다. 셋째, 중요도와 크기에 따라 표를 열로 정렬한다. 행을 따라가는 것보다 열을 따라가는 것이 숫자의 순서를 따라갈 경우 더 쉽다. 데이터 해석을 위해 설계된 표에는 백분율 변화, 절대 변화, 합계, 평균 등과 같은 추가 정보가 필요하다. 이러한 정보를 통해 데이터의 숫자들이 서로 어떻게 관련되어 있는지 파악할 수 있다. 표와 달리 차트는 눈으로 쉽게 이해할 수 있도록 데이터를 요약할 수 있도록 해준다. 추세, 비율 및 기타 관계는 선 그래프, 막대 차트, 원형 차트를 통해 한눈에 드러난다. 하지만 이러한 방식으로 정보를 시각적으로 접근 가능하게 만드는 것은 종종 정확성을 희생해야 하는 일이다. 실제로 차트를 약간만 수정해도 오해의 소지가 있는 주장을 하는 경우가 많다. 예를 들어, 차트에서 두 점을 잇는 직선은 두 점 사이의 구불구불한 경로를 가릴 수 있다. 예를 들어, 매월 1일의 주가를 측정한 다음, 이 점들을 직선으로 연결하여 주가 곡선을 그린다고 가정해 봅시다. 이러한 차트는 연중 안정적인 움직임을 보일 수 있지만, 개별 월의 급격한 가격 변동을 가릴 수도 있다.


7.데이터 저널리즘과 해석의 오류

연구가 발표되면 언론에 보도된다. 하지만 언론은 창작의 자유를 누리려는 경향이 있다. 다행히 데이터 저널리즘이 번창하고 있다. 기자들은 데이터를 해석하고 전달하는 방법에 대한 교육을 점점 더 많이 받고 있다. 통계는 중요한 문제에 대한 명확성과 통찰력을 제공하여 기사를 더욱 풍부하게 만들 수 있다. 하지만 스토리텔링 과정에서 통계적 주장이 왜곡될 위험은 항상 존재한다. 기사는 대개 감정적인 충격을 필요로 하는데, 과학 저널은 이를 거의 제공하지 않는다. 정확한 연구 결과 보도보다 웹 트래픽 증가에 더 관심이 있는 기관들은 미묘한 결론을 피하고 선정적인 결론을 선호하려는 유혹에 빠지기 쉽다. 스피겔할터는 강연에서 부주의한 발언을 한 후 그러한 선정적인 내용을 접한 적이 있다. 그것은 영국 국민의 성생활을 조사한 전국 조사 결과에 대한 답변이었다. 이 연구는 영국 젊은이들의 성관계 빈도가 10년 전보다 20% 감소했다는 사실을 발견했다. 넷플릭스 같은 콘텐츠의 증가가 감소와 관련이 있을 것이라는 스피겔할터의 추측은 "단 한 과학자에 따르면 넷플릭스 때문에 2030년에는 섹스가 사라질 것이다"와 같은 터무니없는 헤드라인을 쏟아냈다. 이러한 노골적인 날조 외에도, 언론이 감정적인 충격을 주는 가장 흔한 방법 중 하나는 통계적 위험 주장을 과장하는 것이다. 세계보건기구(WHO)의 보고서에 따르면 가공육을 규칙적으로 섭취하면 대장암 발병 위험이 18% 증가한다는 사실이 밝혀졌을 때, 이 18%라는 수치는 언론에서 널리 보도되었다. 그리고 솔직히 말해서, 무섭게 들린다. 하지만 우리는 얼마나 걱정해야 할까? 언론은 18%라는 수치를 정확하게 보도했지만, 상대 위험과 절대 위험을 구분하지 못했다. 가공육을 규칙적으로 섭취할 경우 대장암 발병 위험이 증가하는 것은 가공육을 규칙적으로 섭취하지 않는 사람들의 6% 위험에 대한 상대적인 수치이다. 따라서 6%에서 18% 증가하면 7.08%가 됩니다. 절대적인 기준으로 볼 때, 가공육을 규칙적으로 섭취하는 사람들이 직면하는 위험 증가는 그렇지 않은 사람들이 직면하는 위험보다 약 1% 정도 더 높을 뿐이다. 훨씬 덜 무섭죠. 위험을 과장하는 것은 통계적 주장을 왜곡하는 흔한 방법 중 하나일 뿐이다. 통계학자들 사이에서는 부적절한 평균 사용으로 인해 끔찍한 농담이 돌기도 한다. 예를 들어 "대부분의 다리는 평균보다 더 많다"라는 표현을 생각해 보세요. 이는 어떤 의미에서는 사실이다. 평균을 사용하여 평균 다리 수를 계산하면, 평균은 1.9999개 정도 되는데, 다리를 잃은 사람들 때문에 2개에서 1.9999개로 줄인 것이다. 이 표현이 낯설다면, "일반 대중은 평균적으로 고환 하나를 가지고 있다"라는 표현은 어떨까? 이 표현 역시 사실이다. 단, 여성을 포함한 평균을 사용해야만 그렇다. 이 두 가지 기괴한 표현은 중앙값이나 최빈값을 사용하면 더 합리적인 추정치를 얻을 수 있음에도 불구하고 평균을 부적절하게 사용함으로써 발생한다. 이 세 가지 유형의 평균에 대해 간략히 살펴봅시다. 평균은 데이터 집합의 모든 숫자를 더한 다음 숫자의 개수로 나누어 구한다. 중앙값 평균은 데이터 집합의 모든 숫자를 오름차순으로 정렬했을 때 가운데에 있는 숫자이다. 마지막으로, 최빈값 평균은 데이터 집합에서 가장 흔한 숫자이다. 상황에 따라 다양한 형태의 평균이 적합하다. 예를 들어, 평균값 평균은 데이터 집합의 모든 숫자가 중심값을 중심으로 대칭적으로 모여 있을 때 가장 잘 사용된다. 하지만 다른 많은 경우에는 매우 오해의 소지가 있다. 또 다른 예를 살펴봅시다. 영국 전국 성적 태도 및 생활 방식 조사(UK National Survey of Sexual Attitudes and Lifestyle)에서 응답자들에게 성 파트너 수를 알려달라고 요청했다. 데이터는 다음과 같다. 가장 흔하게 보고된 성 파트너 수는 1명이었고, 대다수는 0명에서 20명 사이였으며, 소수는 20명에서 500명 사이였다. 20명보다 훨씬 많은 숫자를 보고한 이상치의 수가 적기 때문에, 성 파트너의 평균 평균은 대다수 사람들의 경험보다 훨씬 높을 가능성이 높으며, 따라서 사용하기에 오해의 소지가 있는 평균이다. 중앙값 평균은 일반적인 사람의 경험에 훨씬 더 가까운 수치를 제공하며, 최빈값은 가장 흔한 경험에 대한 통찰력을 제공한다. 사용되는 평균의 유형은 보고된 결론과 함께 명시되는 경우가 거의 없다. 가장 흔한 것은 평균인데, 이는 종종 부적절한 것으로 나타났다. 미디어에서 듣는 통계적 주장 중 상당수는 오해의 소지가 있고 우리의 경험과 관련이 없다.


8.가중치 시스템과 검색 필터링 조작

 좋아하는 소셜 미디어 앱을 열면 이런 일이 일어난다. 피드가 로드되면 슬롯머신의 기어가 움직이는 것과 같다. 하지만 이건 우연의 게임이 아니다. 누군가 올리는 각 게시물은 눈에 보이지 않는 수학 경연 대회에 참여하는 것이다. 그리고 이 모든 것은 우리가 살펴본 첫 번째 개념인 가중 합으로 귀결된다. 더 정확히 말하면 Facebook, TikTok, 그리고 X(이전에는 Twitter로 알려졌던 플랫폼)는 모두 비슷한 알고리즘으로 실행된다. 좋아요를 누르거나, 댓글을 달거나, 다시 볼 확률에 해당 동작에 할당된 가중치를 곱한다. 그런 다음 모두 더하여 결과의 ​​순위를 매긴다. 그게 전부이다. 가중 합이 표시되는 내용을 결정한다. 이러한 가중치는 모든 차이를 만들 수 있으며, US News 순위에 참여한 학교와 마찬가지로 공식을 알게 되면 시스템을 조작할 수 있다. 예를 들어, 2022년 말 틱톡에서 가장 많이 바이럴된 게시물 중 하나는 거울을 들여다보는 젊은 여성의 이미지였는데, 그 안에는 "26세 간호조무사가 곁에 있다면 얼마나 좋을지 상상해 보세요. 이제 S를 N으로 바꿔 보세요."라는 메시지가 적혀 있었다. 수백만 명의 사람들이 다시 보고, 의아해하고, 댓글을 달고, 당황한 친구들을 태그했다. 알고리즘은 그 영상이 이해할 수 없는 헛소리라는 사실에 신경 쓰지 않았다. 사람들이 이 영상에 참여했고, 이러한 신호들이 영상의 바이럴을 이끌었다. 하지만 주요 플랫폼 간에는 몇 가지 차이점이 있다. 페이스북에서는 공유가 댓글보다, 댓글이 좋아요보다 더 큰 영향력을 발휘하며, 수년 동안 "화난" 이모티콘은 엄청난 영향력을 행사했다. 즉, 음모론 게시물과 논쟁하는 것이 무시하는 것보다 더 큰 동기를 부여한다는 것을 의미했다. 틱톡은 또 다른 층위를 더한다. 바로 놀이 시간이다. 이것이 많은 영상에 "기다려 보세요"라는 캡션이 있거나, 사용자들이 영상을 반복해서 시청하며 그 이유를 알아내려고 애쓰게 만드는 모호한 미스터리가 포함된 이유이다. TikTok에서는 리플레이와 열띤 댓글 스레드가 마치 로켓 연료처럼 작용한다. X에서도 같은 구조지만, 여기서는 댓글이 좋아요보다 훨씬 많고, 댓글 스레드를 꼼꼼히 파고드는 것이 참여를 높이는 데 큰 도움이 된다. 한편, 신고, 뮤트, "관심 없음" 신호는 게시물의 가치를 떨어뜨리고 부정적인 영향을 미친다. 이 모든 것을 아는 것은 어느 정도 힘을 실어준다. 가중치를 변경할 수는 없지만 확률은 조절할 수 있다. 머뭇거리거나, 다시 보거나, 댓글을 달 때마다 기계에 먹이를 주는 셈이다. 가장 좋은 조언은, 쓰레기를 줄이고 싶다면 굶기라는 것이다. 빠른 스크롤, 댓글 없음, 리플레이 없음. 그러니 클릭과 조회수를 투표처럼 생각하세요. 당신이 소비하는 매 순간은 똑같은 것을 더 얻기 위한 투표이다. 더 많은 강아지를 원한다면 더 많은 강아지에게 업보팅하세요. 이 알고리즘은 블랙박스처럼 느껴질 수 있지만, 기대값, 즉 반박할 수 있는 수학을 기반으로 작동한다. 그리고 이제 마지막 이야기로 넘어갑시다. 수학은 단순한 렌즈가 아니라, 기술 거물들에게 맞서는 도구이다. 수년에 걸쳐 아마존과 구글 같은 거대 기업들은 당신이 무엇을 보고 무엇을 사는지에 대한 통제력을 공고히 해왔다. 하지만 빅테크를 만든 것은 수학이었지만, 다른 모든 사람들에게 힘을 실어줄 수도 있다. 아마존에서는 무언가를 검색할 때마다 매우 확실한 패턴이 작용한다. 바로 검색 결과 상단에 표시되는 기본 "추천" 설정이다. 이 설정은 검색 결과 상위에 노출되기 위해 아마존에 비용을 지불하는 기업들과 아마존 자체 브랜드에 우선권을 부여한다. 따라서 다음에 아마존을 검색할 때는 "평균 고객 리뷰"나 "최저가"로 정렬하고 스크롤을 해보세요. 진짜 할인 상품과 더 나은 품질은 미리 만들어진 "추천" 섹션보다 훨씬 아래에 있는 경우가 많다. 좀 더 직접 관리하고 싶다면 아마존에서 책의 ISBN 번호를 추적하여 지역 도서관과 서점으로 안내하는 브라우저 플러그인을 사용할 수 있다. 구글 역시 검색 엔진에서 광고주로 전환한 기업이다. 최상의 결과를 얻으려면 상위 검색 결과를 뒤덮은 광고와 불필요한 정보를 꼼꼼히 살펴봐야 한다. 한 가지 해결책은 검색어를 더욱 신중하게 선택하는 것이다. 빼기 기호를 사용하여 검색에서 특정 단어를 제외할 수 있다. 예를 들어 사각형 바지를 찾고 있지만 특정 만화 캐릭터에는 관심이 없다고 가정해 봅시다. 이 경우 "square pants -SpongeBob"을 검색해 보세요. AI 이전 시대의 검색 결과를 원하면 "before:2022-4-1"과 같은 날짜를 검색어에 추가하세요. 또한 site: 또는 filetype: 명령어를 사용하여 복잡한 검색 결과를 필터링할 수도 있다. 인터넷에서 백신에 대한 조언을 얻는 것은 지뢰밭에 들어가는 것과 같으므로 "COVID vaccine site:cdc.gov"와 같이 입력하면 특정 사이트에 대한 검색 결과를 얻을 수 있다. 마찬가지로 PDF 문서를 찾는 경우 더 나은 결과를 얻으려면 "filetype:pdf"를 검색어에 추가하세요. 하지만 더 큰 논쟁은 인터넷에서 광고가 어떻게 기능하는지에 대한 것이다. 구글의 경매 방식을 고쳐야 한다. 그래야 신뢰할 수 있는 브랜드들이 허위 정보에 자금을 지원하지 않을 것이다. 구글은 애초에 광고가 너무 묽어서 광고를 건드리고 싶어 하지 않는다. 인스타그램 규모로 보면, 사용자의 한 시간 집중은 여전히 ​​몇 푼에 불과하다. 하지만 이것이 바로 플랫폼들이 그토록 교활하고, 중독성이 강하며, 침해적인 행태를 보이는 이유이다. 그들은 강박적인 사용을 극대화하고 사용자의 데이터를 추적하는 데 필사적이다. 하지만 타겟 광고 수익에 누진세를 부과한다면, 거대 기업들이 가장 큰 타격을 입는 동시에 침해적인 마이크로 타겟팅을 억제할 것이다. 그 수익금은 비영리 뉴스룸, 공익 플랫폼, 심지어 자동화로 일자리가 크게 타격을 입는다면 보편적 기본 소득에도 사용될 수 있다. 수학은 실리콘 밸리가 일반 사람들에게 힘을 실어줄 수도 있고, 사람들에게 피드를 훈련하고, 현명하게 쇼핑하고, 투명성을 지지하고, 공익적 해결책을 지지하는 방법을 가르쳐 줄 수도 있다. 게다가, 수학은 모든 사람에게 디지털 경쟁의 장을 공평하게 제공할 수 있다.


9.예측과 표본

예측은 미래, 특히 미래 시장 동향을 예측하는 것이며, 이것이 비즈니스에서 올바른 의사 결정의 근본적인 부분이다. 그렇다면 예측은 어떻게 이루어질까? 세 가지 주요 접근 방식을 살펴봅시다. 첫 번째 접근 방식은 직관, 경험, 추측에 기반한 주관적 예측이다. 언뜻 보기에 주관적 예측은 본질적으로 신뢰할 수 없어 보일 수 있다. 하지만 수치적 기법에 기반한다고 해서 예측이 반드시 옳은 것은 아니라는 점을 기억해야 한다. 또한, 한 해에 효과적인 예측 기법이 다음 해에도 항상 효과적인 것은 아니므로, 예측에는 항상 주관적인 경영 판단이 적절히 반영되어야 한다. 두 번째 접근 방식은 과거 추세의 외삽법이다. 이는 넓은 의미에서 과거 추세를 미래에 투영하는 것을 의미한다. 따라서 일일 아이스크림 판매량이나 월별 자동차 생산량과 같은 시계열 또는 데이터 시퀀스가 ​​자연스럽게 포함된다. 예측의 핵심은 이러한 시계열의 추세를 파악하고 미래로 확장하는 것이다. 세 번째 접근 방식은 인과 모델링이다. 이 접근법에서 예측은 확립된 인과 관계를 기반으로 한다. 예를 들어, 한 회사는 광고나 가격을 기반으로 매출을 예측하는 반면, 다른 회사는 평균 소득, 고용 및 금리 변화를 고려하여 미래 매출을 예측할 수 있다. 이러한 종류의 예측에 유용한 수학적 도구는 회귀 분석이다. 이 방법을 사용하면 세금이 매출에 미치는 영향과 같이 데이터 집합이 서로 어떻게 관련되는지 추정할 수 있다. 이러한 관계를 확인하려면 먼저 x축에 매출 수치, y축에 세율을 사용하여 데이터 포인트를 그래프에 표시해야 한다. 회귀 분석을 통해 표시된 포인트에 가장 잘 맞는 선을 찾을 수 있다. 따라서 이 최적선은 세금과 판매율이라는 두 데이터 집합 간의 관계를 근사한다. 물론 이 세 가지 방법 중 어느 것도 미래를 확실하게 예측할 수는 없다. 하지만 좋은 예측 접근법은 이러한 기법을 조합하는 것을 포함한다. 자루에서 밀 씨앗 한 줌을 꺼냈다면, 그 한 줌을 표본으로 볼 수 있고, 자루 전체는 모 집단을 나타낸다. 표본은 특히 비즈니스에서 여러 분야에 걸쳐 통계 정보를 제시하는 데 사용된다. 올바른 접근 방식을 취하면 표본을 다루는 것이 매우 효과적일 수 있다. 이렇게 생각해 보세요. 상당한 기간 동안 일관된 표본을 수집하면 특정 수준의 신뢰도로 장기적으로 대표성이 있다고 볼 수 있다. 회사를 운영하고 최근 10,000건의 주문 중 고객이 한 평균 주문을 알고 싶다고 가정해 봅시다. 물론 10,000개의 송장을 모두 검토하면 정확한 수치에 도달했다는 것을 100% 확신할 수 있다. 또는 50건의 송장만 샘플링하면 수치가 정확하다는 것을 99% 확신할 수 있다. 하지만 어떻게 그렇게 확신할 수 있을까? 부모 모집단이 정규 분포를 따른다는 것을 알고 있고 평균과 표준 편차를 알고 있다면, 특정 크기의 표본이 부모 모집단과 같은 방식으로 행동할 가능성을 계산할 수 있다. 따라서 표본 추출은 다양한 비즈니스 상황에서 시간과 비용을 절약한다. 가설 검정은 또한 의사 결정에 엄격성을 더한다. 예를 들어, 어떤 제빵소가 새로운 반죽 믹스가 고객 10명 중 6명 이상에게 인기가 있다는 가설을 증명하지 못하면 제빵 공식을 변경하지 않기로 결정했다고 가정해 봅시다. 그런 다음 제빵소는 99%의 신뢰도로 소비자의 60% 이상이 새로운 반죽이 훌륭하다고 생각한다는 것을 나타내는 시장 조사를 의뢰한다. 조사 결과가 부정확할 위험은 1%이지만, 그렇게 작은 차이는 용인할 수 있고 제빵소는 결과적으로 새로운 반죽을 도입한다. 이러한 방식으로 가설 검정은 불완전한 정보에 기반하여 잘못된 결정을 내릴 위험을 최소화하는 절차이다.


10.편향된 상관관계와 확률 오류

전하 상관관계(상호작용으로 인한 통계적 연관성)가 인과관계를 암시하는 것은 아니며, 이는 통계학자들 사이에서 진부한 표현이 되었다. 하지만 상관관계에서 원인을 추론하는 오류는 여전히 언론과 대중 모두에게 흔히 범해지고 있으므로, 이 메시지는 다시 한번 강조되어야 한다. 이러한 오해가 "대학에 진학하면 뇌종양 발병 위험이 높아지는 이유"와 같은 우스꽝스러운 헤드라인으로 이어진다. 이 헤드라인의 기반이 된 연구에 따르면 뇌종양 발병자 중 사회경제적 배경이 높은 사람의 비율이 약간 더 높았다. 하지만 이것 자체가 두 사람 사이에 인과관계가 있다는 것을 의미하지는 않는다. 실제로 연구 저자들은 이러한 상관관계가 일종의 확인 편향 때문이라고 추측했다. 즉, 사회경제적 배경이 높은 사람들은 뇌종양 검사를 받고 진단받을 가능성이 더 높았다. 따라서 두 데이터 세트가 상관관계를 보일 때, 하나가 다른 하나를 유발한다고 가정해서는 안 된다. 이러한 상관관계는 다른 세 가지 가능성으로 설명될 수 있다. 첫째, 이 어리석은 예에서 알 수 있듯이 두 데이터 세트가 상관관계를 보이는 것은 순전히 우연의 일치일 수 있다. 2000년과 2009년 사이에 미국에서 1인당 모짜렐라 치즈 소비량과 수여된 공학 박사 학위 수 사이에는 강한 상관관계가 있다. 이러한 상관관계에도 불구하고, 치즈 소비 증가가 엔지니어가 되는 사람의 수와 관련이 있을 가능성은 낮다. 둘째, 상관관계가 있는 데이터는 우리가 예상하는 것과는 반대의 인과관계로 설명될 수도 있다. 예를 들어, 음주와 건강 결과를 비교하는 많은 연구에서는 술을 마시지 않는 사람들의 사망률이 적당히 마시는 사람들보다 높다는 것을 보여줍니다. 이러한 연구들은 "하룻밤에 와인 한 잔을 마시는 것은 실제로 건강에 좋다"와 같은 희망적인 제목을 낳는다. 그러나 이는 이미 아픈 사람들이 술을 피하는 경향이 있기 때문에 역인과관계의 한 예로 여겨진다. 끝으로, 두 데이터 세트 간의 상관관계는 잠복 요인(lurking factor)의 결과일 수 있다. 잠복 요인은 연구에서 고려되지 않지만, 관찰된 두 요소 모두에 영향을 미치는 요인이다. 예를 들어, 아이스크림 판매량과 익사 사고 사이의 상관관계는 날씨 때문일 가능성이 높으며, 날씨는 두 요소 모두에 영향을 미친다. 따라서 처음 들어보았을 경우를 대비하여 말하자면, 상관관계는 인과관계를 의미하지 않는다. 스피겔할터는 사람들이 왜 확률을 어렵고 직관에 어긋난다고 생각하는지 묻는 질문에, 확률 자체가 정말 어렵고 직관에 어긋난다고 답했다. 심지어 국가를 운영하는 사람들조차도 확률을 이해하는 데 어려움을 겪고 있다. 2012년, 영국 국회의원 97명에게 "동전을 두 번 던졌을 때, 앞면이 두 번 나올 확률은 얼마입니까?"라는 질문을 던졌다. 앞면이 두 번 나오는 것은 네 가지 경우 중 하나이므로 정답은 4분의 1이다. 국회의원 97명 중 60명인 대다수는 정답을 제시하지 못했다. 또 다른 확률 문제를 생각해 봅시다. 여성의 약 1%가 유방암에 걸렸고, 유방촬영술 검사의 유방암 진단 정확도가 90%라고 가정해 봅시다. 만약 여성이 유방암 진단을 받았다면, 실제로 유방암에 걸렸을 확률은 얼마일까? 당연히 검사 결과가 90%로 정확하기 때문에 유방암에 걸렸을 확률은 90%라고 가정할 수 있습니다. 하지만 실제로는 8%에 불과합니다(1,000명의 여성을 검사한다면: 실제 유방암 환자: 10명 (1%)
양성 판정: 10 × 0.90 = 9명
음성 판정: 10 × 0.10 = 1명 (위음성)
건강한 사람: 990명 (99%)
양성 판정: 990 × 0.10 = 99명 (위양성)
음성 판정: 990 × 0.90 = 891명
전체 양성 판정: 9 + 99 = 108명
양성 판정 받았을 때 실제로 암일 확률:
9 / 108 = 약 8.3%). 이러한 반직관적인 결과의 이유는 유방암에 걸리지 않은 여성 집단의 규모가 훨씬 더 크기 때문에, 유방암에 걸린 소규모 집단의 참 양성(true positive)보다 거짓 양성(false positive)이 훨씬 더 많을 가능성이 높기 때문이다. 또 다른 흔한 확률 오류는 도박사의 오류(gambler's fallacy)로, 사람들이 이전에 발생한 사건에 따라 개별 사건의 발생 가능성에 대한 기대를 바꾸는 오류이다. 예를 들어, 룰렛 휠에서 오랫동안 검은색이 나오면 사람들은 빨간색이 "예정된" 것이라고 생각하는 경향이 있다. 이름 그대로, 이 오류는 전 세계 카지노의 성공을 뒷받침한다. 개별 무작위 사건의 균형을 맞추는 메커니즘은 없지만, 무작위 사건의 비율이 장기적으로 거의 일정하게 유지된다는 통계적 사실은 놀랍다. 동전을 무한히 던지면 앞면과 뒷면이 나올 확률이 각각 50%에 가까워진다. 이러한 균일성이 겉보기에 혼돈스러운 상황에서 나타나는 것은 기적적인 일이다. 마찬가지로, 예측 불가능한 사회적 사건도 거시적인 수준에서 놀라운 균일성을 보인다. 기체 분자의 무작위적인 움직임이 균일한 물리적 특성을 만들어내듯이, 수백만 명의 인간 삶의 예측 불가능한 사건들이 모여 균일한 사회적 특성을 만들어낸다. 예를 들어 매년 거의 변하지 않는 자살 통계처럼 말이다. 따라서 통계는 제대로 활용하면 "사회 물리학"과 같다. 통계를 활용하면 완전히 예측 불가능한 사건에 대한 신뢰할 수 있는 장기 예측을 내릴 수 있다.


에필로그

많은 사업 환경에는 불확실성이나 위험이 따른다. 의사 결정은 그에 따라 이루어져야 하지만, 정확히 어떻게 해야 할까? 다음 예를 생각해 봅시다. 킹버거가 새로운 매장을 오픈하려고 한다. 큰 매장을 열어야 할까, 작은 매장을 열어야 할까? 킹 가족의 경험에 따르면, 큰 매장은 인기가 많으면 50만 달러의 수익을 창출하지만, 그렇지 않으면 30만 달러의 손실을 입는다. 마찬가지로, 작은 드라이브스루 매장은 27만 5천 달러의 수익을 창출하거나 8만 달러의 손실을 초래할 수 있다. 킹 가족이 새로운 시장에서 무엇을 기대해야 할지 확신하지 못할 경우, 네 가지 접근 방식이 있다. 한 가지 의사 결정 기법은 가능한 가장 높은 수익을 선택하는 것이다. 낙관적인 킹은 최대 수익을 목표로 한다. 그녀는 인기가 많으면 50만 달러의 수익을 낼 수 있는 대형 레스토랑을 오픈한다. 또 다른 기법은 잠재적 손실이 가장 낮은 것을 선택하는 것이다. 이 경우, 아무것도 하지 않으면 잠재적 수익은 전혀 없지만, 손실도 발생하지 않는다. 따라서 비관적인 킹은 아무것도 하지 않는다. 세 번째 기법은 평균적으로 가장 좋은 수익률을 선택하는 것이다. Average King은 유리한 시장과 나쁜 시장이 동등하게 발생할 가능성이 있다고 가정하기 때문에 이 기법을 선택한다. 그녀는 각 레스토랑의 평균 수익률을 계산하는데, 큰 레스토랑($500,000 - $300,000) ÷ 2 = $100,000부터 시작하여 작은 레스토랑($275,000 - $80,000) ÷ 2 = $97,500까지 계산한다. 그녀는 평균 수익률이 약간 더 높을 것이기 때문에 큰 레스토랑을 열기로 결정한다. 마지막 기법은 평균 수익률에 가중치를 두는 것이다. 사려 깊은 수학자 Hurwicz King의 이름을 딴 그는 좋은 시장이 될 확률이 30%이고 나쁜 시장이 될 확률이 70%라고 추정한다. 그녀는 잠재적 이익과 손실에 각각의 확률을 곱하여 평균 수익률에 가중치를 둔 다음 잠재적 손실을 잠재적 이익에서 뺀다. 따라서 대형 레스토랑의 손실은 (0.3 × $500,000) - (0.7 × $300,000) = $60,000이고, 소형 레스토랑의 이익은 (0.3 × $275,000) - (0.7 × $80,000) = $26,500이다. 그녀는 두 가지 옵션 중 가중 평균 수익률로 수익을 낼 수 있는 유일한 옵션이 소형 레스토랑이었기 때문에 소형 레스토랑을 열기로 결정했다.




참고문헌

이코노미스트: 숫자 가이드
리처드 스튜틀리 & 이코노미스트

통계의 예술
데이비드 스피겔할터

로빈 후드 수학
노아 지안시라쿠사

728x90
LIST