[리뷰] 다시 확률 통계 : 확률편
in Review on Review, Book, 확률, 통계, 데이터분석, 비즈니스, 경우의수, 순열, 조합, 사건, 조건부확률
길벗
출판사의"다시 확률 통계 : 확률편(나가노 히로유키 저/장진희 역)"
를 읽고 작성한 리뷰입니다.
결론부터 먼저 말하자면 이 책은 확률의 기초를 튼튼하게 다지고, 확률에 숨겨진 진의를 파악하는데 있어 좋은 감각을 다질 수 있는 최고의 기본서
라고 평하고 싶다. 수알못인 학생들조차 고등학교 수학의 정석을 덮으면 옆면이 까맣게 보인다는 집합 부터 베이즈 정리의 기본까지 다룬다.
다루는 범위가 너무 기초적이고 협소하다고 하여 본 도서를 그저 그런 기본서 정도로 취급하지 않았으면 좋겠다. 다른 수학 영역이라면 몰라도 과연 확률이 어려운 이유가 어려운 수식 때문일까?
수식 때문이 아니라면, 확률이 어려운 이유는 무엇일까?
위 질문을 먼저 던지는 이유는 확률의 무엇이 어려운지 정확히 알아야 과연 이 책이 어려움을 해소시켜주는 솔루션이 될 수 있을지 검증할 수 있기 때문이다. 본 리뷰는 개인적으로 확률이 왜 어려운 것인지 소개함과 동시에 본 도서가 그런 어려운 점을 어떻게 해소시켜 주는지 소개하는 방식으로 기술하려 한다.
- 불확실성과 경우의 수
외판원 문제(순회 세일즈맨 문제)
- 세일즈맨이 n개 도시를 한 번씩 방문해서 출발 지점으로 돌아올 때 이동 거리가 최소가 되는 경로를 구하는 문제
여기서 문제는 n의 값이 커질때마다 경우의 수가 기하급수적으로 늘어난다는 점이다. n=5 인경우 120가지에 그치지만, n=84인 경우 대략 3e+126의 경우의 수가 조합된다. 쉽게 말해 뒤에 0이 126개 붙는다고 보면 된다. 현존하는 최고 성능의 컴퓨터라 할지라도 이처럼 다항식이 아닌 NP-난해(NP-Hard)의 문제는 해결할 수 없다. 사람은 당연히 평생을 바쳐도 해결할 수 없는 문제가 된다.
확률을 계산하기 위한 가장 쉬운 방법은 모든 사건의 경우의 수를 구하는 것이다. 전체를 알면 확률 구하는 것은 그리 어려운 문제가 아니기 때문이다. 하지만 위 NP-Hard 문제는 차치하더라도 약간의 복잡한 문제가 주어지면 가장 쉽다는 경우의 수를 판별하기 조차 어렵다.
개인적으로 경우의 수가 가지는 진정한 의의는 특정 사건이 가지는 세계에 대한 이해와 친숙함을 도와주는데 있다고 생각한다.
경우의 수를 전부 알게 된다면
사건이 형성하는 계(界)의 모양을전체 지도
를 펼쳐놓고 보는 것과 다름이 없다.우리가 어떤 확률에 불안한 첫번째 이유는 경우의 수를 전부 볼 수 없기 때문이다. 경우의 수를 최대한 많이 보려고 해도 시간이 허락해주지 않는다. 항상
불확실성
을 안고 문제를 접해야 하는 것이 내가 생각하는 확률이 어려운 근본적인 이유이다.그렇기에
미적분을 발명한 천재 라이프니츠 조차 주사위를 2번 던졌을 때 합이 9일 경우와 10일 경우가 같다고 착각한 것이 아닐까?
본 도서는 한정된 학습 시간 내에 경우의 수의 본질에 흠뻑빠지게 해준다는 점이 백미이다.
- 확률은 어디까지 적용이 가능할까?
확률은,반복
이 가능하며,- 한 번의 시행은
우연
에 좌우되지만, 전체
적으로는 수학 법칙을 찾아낼 수 있는 현상에 대해서만 관심을 갖는다. 일상의 무한에 가까운 사건에서 확률이 관심을 가지는 대상 범위만 바라보는 프레임만 형성해도 자신감이 생긴다.
그런데 중고교 과정에서 왜 이렇게 가장 중요한 것들을 먼저 알려주지 않는지 의문이다. 그런 점에서 본 도서가 정말 마음에 드는 점은 각 장의 초입마다 이런 확률의 본질을 명확하게 알려준다는 점이다. 배워볼만하게 징검다리를 놓아줌으로써 독자로 하여금
나름의 체계
를 구축하게 해준다.중복과 순서의 개념 또한 마찬가지이다. 순열과 조합의 개념이 등장하며 경우의 수도 다루기 만만찮아 지는데 일단
중복과 순서를 하나의 프레임으로
들고 문제를 바라보면 경우의 수 문제도 자신감이 생긴다. 그러한 기준점을 하나 들고 기준점과 달랐던 문제들로 나름의 체계를 갖춘다면 확률이 그리 낯설지만은 않을 것이다.
- 일상을 확률 세계로 대응하는 감각
“비율을 볼 때는 항상 비율만 보지 말고, 그게 현실 세계에서 뭘 의미하는지 구체화시켜서 생각해야 해요. 아니면 통계는 그냥
숫자놀음
에 불과하게 됩니다.” - 오하이오의 낚시꾼통계에 대한 직관적인 인사이트를 선사하는 오하이오의 낚시꾼페이스북 페이지에서 인용한 글이다. 통계적 수치가 현실 세계에서 어떤 의미를 가지는지 노력하지 않으면 라이프니츠의 실수를 번복하게 된다.
희박한 가능성에 믿음과 설득력을 부여하는 p-value를 남용하는 문제가 지속적으로 대두되는 것도 현실 세계와 동떨어진 숫자놀음의 한 일례라 생각한다.
그런데 어떻게 하면 현실 세계를 확률과 연결할 수 있을까?
통계와 확률의 귀납적 성질 때문일까. 아이러니하게도
전체를 보지 못한 세계에서 전체를 보고자 노력하는 양상이니 훈련도 경험의 양이 중요
하다. 경우의 수의 도움을 받아보고 많은 문제를 풀어보고 그렇게 다진 감각으로 현실 세계의 문제와 연결도 지어보고 그렇게 타고난 감각을 쌓아야 한다고 생각한다.그런점에서 본 도서가 가지는 장점은 다각도로 깊이 있는 생각에 도움이 되는 다양한 예제들이 가득차 있다는 점이다. 예제도 그냥 양만 많은것이 아니다.
보통 한 권의 책을 읽고 나면 누구나 2-3 단어 혹은 2-3 문장 정도의 가장 중요한 핵심 주제를 요약할 수 있을 것이다. 시간이 지나면 많은 구체적인 부분들은 망각되지만 그 핵심 몇 문장은 평생 가지고 가는데 큰 문제는 없다.
적어도 그동안 읽었던 수십 권의 확률 서적에서 가장 중요한 획들. 그러니까 무한의 확률 세계에서 나름의 체계를 잡아주던 기준들이 하나씩 예제로 등장한다. 그동안의 확률 서적에서 배웠던 것들을 총정리 하는 느낌이었고, 부족했던 감각은 보충할 수 있는 느낌이었다. 이 책 결코 기본서가 아니다. 밥솥의 뜸을 들이듯 사고의 영역에서 만큼은 그 어떤 책보다 심오하다.
확률 학습 만큼은 확실히 다양한 문제에 대한 경험, 밥솥에 뜸을 들이는 과정이 중요한 것 같다. 주변의 통계학과 출신의 지인들에게 확률과 통계에 대해 물어본 적이 있다. 놀라웠던 것은
가르치니까 그런가보다하고 배워온 지식이 태반
이라고 한다. 앞서 말한 뜸들이는 과정이나 현실과 결부시켜보는 훈련을 하기에 고도의 사고가 필요하여 지치기 일쑤고 그런 방식으로는 속도가 너무 더뎌 비효율적이라는 판단에 마치 수학을 학습하듯 엄밀하고 딱떨어지는 논리 전개로의 확률에 치중하게 되었다는 것이다.동전의 앞면이 1000번 연속으로 나왔다면, 다음번 동전의 앞면이 나올 확률은 100%일까? 50%일까? 0%일까?
조건부확률과 베이즈 정리가 왜 어려울까? 단순히 사전 분포를 사후 분포를 매핑하는 과정이 추가되어서? 내 생각에 베이즈 정리가 어려운 이유는 확률의 본질에 자신이 없기 때문이다. 이러한 뜸들이는 과정이 없기 때문에, 불안하게 계속 공식만 외우고 그렇게 배웠왔기에 그런가보다 하고 쓰는 과정의 연속 때문에, 조금만 문제를 틀어도 머리속 사고력에 제약이 생기기 때문이다.
비교적 직장인보다 학습할 시간이 많이 주어지는 학창시절이야말로 이 긴 뜸들이는 과정에 적합한 시간이 아닐까 하는 생각이 든다. 본 도서는 상당히 많은 문제가 등장한다. 비록 현실의 문제에 비할바는 못되지만 그래도 상당히 유연한 사고를 위한 양질의 문제가 주어진다.
3, 4장의 경우 온전히 문제로만 구성된 챕터인데 파트마다 별 4개짜리의 수능 난이도 문제가 등장한다. 물론 학생들의 입시에도 도움이 되겠지만 진리를 탐구하는 어른들에게도 도움이 된다. 재미있는 것은 수능 시절 왜 이 문제를 못풀었는지 당시의 기억이 떠오르기도 한다. 다시금 본 도서로 형성된 나름의 체계와 프레임으로 비춰보며 스스로의 사고 과정이 얼마나 향상되었는지 그동안 보지 못했던 사고력을 가시화 하는 기분은 뭐라 표현하기 힘든 즐거움이다.
마지막으로 본 도서를 추천하고 싶은 독자는 다음과 같다.
데이터 사이언티스트
MCMC(Markov chain Monte Carlo)와 강화학습을 심도있게 공부하는 사람이라면 이 책의 예제들은 마치 퀴즈책을 푸는 느낌이 들 것이다. 그런데 생각보다 난이도가 녹록치는 않을 것이다. 수식으로 전체를 설명하지 않는 현실 내 문제들이 제법 숨어있기 때문이다. 재미있게 풀어나가다보면스스로의 사고력에 부족했던 기본기를 채워주는 느낌
이 들 것이다.학생
그저 문제를 잘 푸는 계산기가 되지 말고, 대학생까지 밖에 약빨이 안통하는 입시에만 집착하지 말고, 기초 과학이 어떻게 현실에 응용이 되는지 깨닫는 계기가 되었으면 한다. 공부는 점수를 높이는 보람으로 하는 것이 아닌 진리와 답을 알고 싶은 스스로의 호기심이 가장 큰 원동력이라 생각한다. 나는 알파고를 보고 수학을 이래서 배워야하는 거구나 하고 땅을 치고 후회했다.기초과학이 왜 꿈을 이루게 하는지, 혹은 어떻게 돈이 되는지
그 과정을 본 도서를 통해 잘 익혔으면 좋겠다.