본문 바로가기

行間

블코의 TOP130과 랭킹130까지의 상관관계는

반응형

엑셀 실무자 교육을 하게되었다. 한동안 엑셀에 대한 교육(?)이나 나 자신의 활용이 떨어지기에 무엇을 가지고 교육을 할것인지 또 어떤 것으로 활용도를 넓힌 것인지에 대하여 고민하였다.

엑셀을 교육해 보면 활용도 측면이 많이 떨어짐을 알 수 있다. 오류(데이타 상의 오류가 아니라 잘못된 집계 또는 거기에 따른 작업의 오류)로 인하여 전혀 다른 결과치를 내놓게 되는 경우가 허다하다.

데이타의 비교란 같은 조건을 주어야 함에도 불구하고 눈에 보이는 것으로 판단하려 한다. 이러한 오류의 발생을 줄이는 것이고 검증을 효율적으로 할 수 있게 함이 그 목적이다.

기존 데이터를 주고 분석하는 것은 데이터를 어떻게 볼 것이냐는 문제이니 작성자의 관점이나 상황에 따라 각기 다른 결과치가 나오게 된다. 그것은 다른 과정에서 토론과 논의를 거쳐 각기 다른 관점이 나온 이유에 말하여야 한다.

실무교육의 목적은 원하는 데이터를 추출하는 기술을 알려주기 위함이다. 하여 웹에 있는 데이터를 각기 추출하여 비교 분석하는 과정을 하기로 하였다.

블로그코리아이 TOP130과 랭킹과의 상관관계

블로그코리아를 보면 TOP130과 랭킹이 있다. 이 둘의 상관관계를 알아보기로 하였다. 전제조건은 TOP130은 월별 순위이고 랭킹은 매일 변한다. 이에 랭킹 150위까지와의 상관을 비교하는 것으로 하였다. 각기 데이터는 8월2일 기준이다.

카테고리 서비스 안내 (1) 카테고리란?을 보면 블코의 카테고리 정책을 자세히 알 수 있다. 카테고리는 어떻게 분류되나에서는 "각 포스트의 태그를 기반으로 자동으로 카테고리 분류"함이 자세하게 나와있다.

카테고리 분류의 정책은 블코의 정책이고 또 자동분류이기에 블로거들의 의도와 다르게 분류될 수 있다. 하지만 최대한 유사한 카테고리로 분류하려는 의지가 보인다. 자동분류의 오류를 최소하하기 위하여 마이페이지에서 태그/카테고리 수정하기를 두고 있다. 카테고리 미분류 글에 대한 참여를 요청하고 있다.

웹에서 데이터를 모아 원하는 상태로 잘라내고 두가지 데이터를 한 시트로 묶어야 한다. 여러차례의 작업을 거치면 - 물론 DB에서 바로 자료를 받았다면 필요없는 작업이다. 하지만 교육의 목적이 있기에.. - 아래와 같은 요약으로 나올 수 있다.

블로그코리아의 카테고리는 지금까지의 블로그스피어의 랭킹에 의한 상위 블로그만 보여주는 것을 보안하고자 만든 것으로 알고 있다. 내용을 보면 그 취지는 충분히 반영됨을 알 수 있다.

하지만 몇 가지 의문점은 있다.아래 미등록이라 표시된 블로그의 숫자의 의미이다. 랭킹 100위까지의 32개 블로그가 TOP130에 빠져있음을 알 수 있다. 직관적으로 느끼는 이유는 첫번째로 집중되어 있는 카테고리에 포스팅이 많다. 예를 들면 '라이프.스타', '시사' 그라고 'IT/게임'등에 집중되어 포스팅 한 블로거들이다. 두번째로는 한개의 카테고리가 아닌 다 방면의 카테고리에 포스팅을 하여 분산되었기 때문이다.100위까지의 블로거들 중32%가 빠진 이유라고 생각된다.

카테고리 중 상위랭킹에 들지 못하는 블로거들이 많이 있는 것은 '도서', '만화', '푸드'등 임을 알 수 있다. 아마도 '도서' 카테고리가 이렇게 되는 것은 다른 카테고리로 많이 분산이 되었다는 것을 알 수 있다. 더불어 이렇게 분류가 된다면 '도서'카테고리의 존재의 의미도 옅어진다고 보인다. 하지만 '도서'를 분류하여 보는 것이 도움이 많이 되는 것은 사실이다.

카테고리의 포스트와 블로거를 엮는 것에 대한 의문이지 카테고리 분류 자체의 의미에 까지 두는 것은 비약이 될 가능성이 있다. 더불어 TOP130에 오르고 싶다면 구멍(?) 카테고리에 집중적으로 포스팅을 하면 되지않을까 하는 생각을 해본다.

카테고리의 TOP130에 드는 것이 의미가 있다 없다를 떠나 랭킹 시스템은 항상(?) 문제를 안고 있다. 누구나가 보편 타당하게 느낄 수 있는 랭킹 시스템은 존재하지 않는다. 다만 보편타당하고 싶을 뿐이다.

야후 랭킹시스템이 런칭되어 블로거의 랭킹에 대한 많은 포스팅이 오르고 있다. 한데 그 누구도 맞다 아니다를 논할 수가 없다. 근거를 오픈하지 않기 때문이다. 물론 그 이유는.. 넘어가기로 하자.

블코의 카테고리 랭킹이 좀 더 신뢰도(?)를 가져 발전하였으면 하는 바램이다. 다른 곳에는 없는 것이기 때문이다.

덧붙임_하나

블코를 자료의 대상으로 삼기로 한 것은 데아터 추출이 쉽고 두 가지의 랭킹이 있어 비교허기 쉬운 이유이다.

덧붙임_둘

왠일인지는 모르지만 34위가 빠져있다. 그래서 1~50위까지 49명이다. 왜? 34위만이 빠지는 것일까?

덧붙임_셋

다음번 엑셀교육에서는 뭘 해야 할지 고민있다. 데이터를 만드는 일도 귀챦은 일이다.

반응형