본문 바로가기

보고 듣고 느낀 한마디

쓰레기 같은 데이터는 없다

반응형


"소득 수준과 교육열 높은 강남구는 책도 많이 살까. 정답은 '그렇다'이다." 예스24의 2013년 구매 이력을 분석한 결과라고 한다. 예스24의 회원이 서울시민을 대표하지 않는다. 회원을 서울시민의 분포로 표준화(?) 작업하여 분석한 것일까? 순수하게 구매 명세가 있는 회원의 분포가 우연히 강남에 많이 살고 있었던 것일까? 만일 어느 시골의 한 읍이 가장 많이 구매했다면 뭐라고 설명할까?

그저 예스24 구매 명세의 '일반화 오류'를 범한 것은 아닐까. "책 많이 사는 강남구 책 많이 읽는 3040"이라는 제목이 선정적이다. 잘 살고 교육열이 높아 책을 많이 사는 것인지, 아니면 교육열이 높고 책을 많이 사기 때문에 잘 사는 것일까. 결론적으로 내포하는 것은 잘살고 아이 잘 가르치고 싶으면 책을 많이 사라는 걸까?

쓰레기 같은 데이터는 없다. 분석하지 못하는, 잘못 분석하는 어리석은 마케터만 있을 뿐이다. 행동 패턴을 분석하고 다음 행동을 예측하는 것이 '빅데이터'의 가장 큰 활용도이다. 이러한 점에서 제대로 된 빅데이터 활용이 아니다.

반응형