자료출처: 리얼미터 (http://www.realmeter.net)

 

 

위의 자료처럼 언론조사기관에서 본인들의 설문지를 가지고 지지율 조사를 함. 그러나 여기에는 상당히 biased가 들어가 있음.

 

 

1. 우선 sample selection에 의한 문제

 

이건 각 언론조사기관에서 가지고 있는 표본의 문제인데, 본인들이 가지고 있는 전화번호가 상당히 편중되었을 개연성이다.

이들이 조사를 할때 무작위로 한다고 하지만, 이 전화번호가 연령별/성별/소득별로 고르게 분포되어 있는 것도 아니고, 개인정보의 문제 때문에 일부 동의한 사람들 것만 가지고 있다는 이야기다. 아무리 균형있게 해도 업체에서 가지고 있는 패널은 사설업체의 것이고, 리서치 업체로 유명한 곳들도 구축한 자료를 돌려쓴다. 더불어 이러한 전화번호 데이터 자체가 돈이기도 하다.

 

 

2. 응답자의 문제

 

이것이 가장 큰 문제인데, 어떠한 사람들이 응답하는 것인가? 정치에 관심이 많은 사람? 솔직히 말하자면, 시간이 많은 사람이 가장 응답률이 높다. 아무리 정치에 관심이 많은 사람이라도 바쁜 상황에서는 답을 할 수가 없다. 주지하듯이 업체에서 전화를 돌릴때 사람이 돌리는 것인데, 이들도 고용된 신분으로써 9-6이 기본이다. 이 시간에는 다른 사람들도 바쁘다는 것이다.

 

 

3. 응답 표본의 크기

 

응답표에 보면 2,504명을 대상으로 8.2%만 응답을 했다고 나온다. 즉 205.328명 약 205명에서 206명의 의견만 가지고 결론을 낸 것이다. 정규화에 의해서 오차가 어떻고 이야기를 하는데, 대수의 법칙에 의해서 응답 표본이 커야 신뢰도가 있는 것이다. 더불어 대한민국의 인구수는 약 5천만명인데, 이 모집단에 대하여 대표성을 가질 수 있는 표본의 수는 수학적 계산에 의해서 2,400명 정도이다(95%신뢰수준 C.I 2). 따라서, 이를 보완할 수 있는 방법이 markov chain monte carlo연쇄를 통해서 예측을 하거나, 고정된 확률분포에 의해 추정하는 것이 아니라 likelihood와 같이 움직이는 분포를 통해서 재추정해야 할 것인데, 그러한 노력이 없이 단순 통계결과만 가지고 일반화 하는것이 문제가 있다.

 

 

4. 마무리하면서

 

그렇다면 어떻게 해야하는 것인가? 정말 지지율 어떤 것인가? 이걸 완벽하게 수행하기 위해서는 정치에 중립적이며 신뢰성이 있는 기관에서 해야하는데, 쉽지는 않다. 너무나도 정치적으로 오용될 가능성이 높기 때문이다.

 

빅데이터니 어쩌니 하면서 많은 사람들이 예측하려 했지만, 미국대선에서 빅데이터 전문가도 틀렸다. 그 이유는 분석에 사용한 인터넷 자료등이 젊은 세대, 한정된 샘플의 자료였기 때문에 전체 국민의 투표성향을 예측할 수 없다는 것이다.

 

따라서 현재의 민심은 다양한 채널을 통해 나오는 정보를 통해서 분석해서 나오는 결과로 보는게 가장 정확할거 같다.