[리뷰] 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력



프리렉 출판사의 "빅데이터 시대, 성과를 이끌어 내는 데이터 문해력(카시와기 요시키 저/강모희 역)"를 읽고 작성한 리뷰입니다.

표지


리터러시(literacy; 문해력)이란 주어진 정보를 이해하고 활용할 수 있는 능력을 의미하며, 이 책에서는 데이터 리터러시를 집중적으로 다룬다. 공통적으로 누구에게나 데이터 속에 숨은 진짜 의미를 알아내거나 자신의 업무에 데이터를 활용할 수 있는 능력을 키워주는 책이자, 더 나아간다면 데이터 관련 직군 초보자들이 문제, 원인, 해결책 등의 본질에서 벗어나 분석 기법이나 딥러닝과 같은 기술에만 매달리는 현상에서 탈피하는데에도 도움을 주는 내용을 담고 있다.

책에서 말하고자 하는 핵심은 아래 도표로 설명된다. 문제를 명확히 파악한 후, 지표 및 데이터를 일치시켜 현 상태를 파악 및 평가한 후, 원인을 찾아, 해결방안을 제시할 수 있어야 한다는 것이 이 책에서 말하는 메인 아이디어이다. 핵심

여기에서는 데이터 리터러시가 부족한 일반인들이 자주 범하는 개선할 수 있는 인상깊은 사례 몇가지를 소개하는 것으로 책 소개를 대신하고자 한다.


  • 여러분은 아래 데이터(그래프)를 어떻게 활용할 생각인가?
    예제

    대부분의 답은 “츠바메시의 아동 인구밀도가 산조시보다도 2배나 많다.”등의 결론을 내린다. 하지만 그 결론이 무슨 의미가 있을까? 여기서 파악해야 할 핵심은

    “이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?” 이다. 대부분의 사람은 이처럼 주어진 자료를 보는 관점부터 문제가 있는 셈이다. 그래서 분석 자체가 목적이 되는 우를 범한다.

  • 활용의 성공과 실패를 가르는 접근법
    • (X) 데이터를 가공 => 데이터에서 무엇을 알 수 있을지 생각한다.
    • (O) 데이터에서 무엇을 알 수 있을지 생각한다. => 데이터를 가공한다.
    • (X) 데이터 => 가설
    • (o) 가설 => 데이터
  • 문제의 핵심은 “나는 무엇을 알고 싶은가? 무엇을 해결하고자 하는가?”이다.

  • 지표를 정할 때 범하는 실수
    • 고객 불편사항에 대한 개선이 이루어지지 않고 있다. => 지표 : 클레임수 클레임 수를 지표로 정한 것 자체가 원인으로 단정한 것으로 주관이 개입되는 우를 범했다.
    • 광고에 대한 반응이 적다 => 지표 : 문의 수 문의 수는 반응의 일부일 뿐이다.
  • 평균값의 함정
    • 서비스 A의 평균 만족도는 4.1이고, B의 평균 만족도는 3.5이다. 위 문장만 놓고 봤을 때 누가봐도 A가 좋다는 결론을 내리겠지만, 분포를 확인하니 아래 그림과 같았다. 편차
      과연 확실히 A가 좋은 것일까? 편차가 크다는 것은 불안정성을 의미하기도 하지만 그만큼 발전 가능성으로 볼 수도 있다.
  • 비교의 기술 : 크기, 추이, 편차, 비율

  • 목표는 행동!
    • 이 젤라토는 섭씨 18.7도 이상, 습도 43.92% 이상일 때 잘 팔린다.
    • 매출은 3,500만원이다. 이 정보는 큰 의미가 없다. 행동을 취할 수 없기 때문이다. 즉, 데이터 정리에서 끝나고 마는 것을 지양해야 한다.

    • 해결책 : 원인 후보 열거 > 지표 결정 > 관련성 확인 예) 경쟁사가 가격 변동을 몇 차례에 걸쳐 반복하고 있다. => 지표 : 가격 변동과 매출 변화의 관계성 파악을 위한 가격 변동률 데이터를 활용한다.

    • 관련성 파악 방법
      • 산점도를 통한 경향
      • 그룹화 : 상위 그룹군의 특성을 하위 그룹군에 반영하며 효과를 기대해본다.
      • 이상치에 주목한다.
      • 변화점(분기점)을 찾는다.
      • 상관계수를 활용한다.
  • 도전문제로 원인 찾아보기
    • 문제 : 처음에는 주 1일만 활동한다고 들었는데, 실제 주 3일도 넘게 활동하고 있다. 거짓말 한 것도 기분 나쁘고, 고문 역할을 그만두는 것이 어떨까?
    • 답안의 한 예시 답안
    • “만약 XXX가 아니라면?”이라는 꼬리를 무는 질문을 계속 던져본다.
  • 주의해야 할 몇가지 사항
    • 직접적인 관계인지, 간접 관계인지? 예) 홈페이지 업데이트 빈도 => (블로거가 블로그 게재) => 점포 방문객 수 증가
    • 원인은 여럿이거나 복잡할 수도 있다.
    • 선형 관계가 아닌 경우
    • 상관관계와 인과관계 구별하기
    • 현재 상태를 파악 후 바로 해결방안을 모색하고 있진 않은지? (단계 건너뛰기, 맨 윗 그림 참조)
    • 데이터로 설명 가능한 범위인가?
    • 인지편향(심리학적 선입견 등)

위에 소개한 사례들은 맛만 볼 수 있는 예제 몇가지에 불과하지만 책이 어떤 내용을 담고 있는지 소개하는 정도로는 충분할 것이다. 이 책은 위 예시와 같이 일반인들의 잘못된 데이터 접근방식의 예시를 들며 맨 위에 제시했던 그림에 해당하는 메인 아이디어를 서술해 나가는 책이다. 독자들이 감을 잡고 실무 분석에 있어 직접적인 도움이 될 수 있도록 알기 쉬운 예시 중심으로 구성된 점이 책의 장점이자 특징이라고 할 수 있다.

AI, 빅데이터 시대라 불리는 요즘 데이터에 대한 교양을 쌓고 싶거나, 혹은 데이터에 대한 감각이 부족하다거나, 기술 위주의 편식으로 인사이트를 도출하기 어려운 실무자에게 추천하고 싶은 책임을 강조하며 본 리뷰를 마친다.







© 2019.04. by theorydb

Powered by theorydb