여론조사에서 보면 가끔 '보정치' 라는 용어를 본 적이 있을거임. 어떤 사람들은 "여론조사는 그냥 사실대로 공개하면 되지 굳이 보정을 왜 하느냐" 이런 사람들도 있길래 글 써봄.


이 조사는 오늘 올라온 관악구 관련 조사인데, 내가 전에도 글을 썻지만 기본적으로 여론조사는 세대/성별로 인구 비율을 맞춰서 조사를 함. 예를 들어 어떤 구 남여 비율이 6:4면 그 지역에서 표본 1000명을 대상으로 조사를 하는 곳은 남여 비율을 600명:400명 이렇게 맞추게 됨. 이 600명, 400명이 위에서 나온 '목표할당'이고.

근데 여론조사는 사실 전화를 걸다보면 이걸 정확히 맞추는게 더럽게 힘들고, 보통 노인층들이 여론조사에 더 적극적으로 답하는 경향이 있어 보통 50~60대 이상 계층의 실제 조사완료 사례수가 본래 목표할당보다 많이 잡히는 편임. 필자가 전에 쓴 글은 '보정치'를 모르고 썻기 때문에 60대 비율 높으면 걸러보라는 개소리가 포함되어있는데, 그 사실에 대해 사과하고 여기서 정정함.'

하여튼 만약 어떤 지역 인구수가 백만명인데, 그 중 10만명이 60대 이상이다. 이러면 만약 그 지역에서 표본 1000명을 대상으로 하는 여론조사가 있으면 그 조사의 60대 이상 목표할당은 100명이 되겠지? 근데, 만약 실제로 응답한 60대 이상이 150명이면, 보정을 거치지 않는 한 필연적으로 60대 이상 계층의 의견이 본래보다 과대표집 될 수 밖에 없음.

그래서 보정이라는 걸 하는데, 만약 그 150명 중에 A정당 지지자가 90명, B정당 지지자가 60명이면, 실제로 100명이 응답했다고 치고 실제 조사 결과에는 비율에 맞춰서 A정당 지지 60명, B정당 지지 40명... 이렇게 발표하는거임.(이 방법은 셀가중이라는 방법의 예시고, 림가중이라는 다른 보정 방법이 있다고 함)

이런 보정 방법에는 셀가중, 림가중 이 두개가 있는데, 이게 뭔지 설명하자면 셀가중은 성/연령/지역이라는 선관위에서 정한 3개의 변수를 가져다가 세부 구분마다 각각 다른 가중치를 부여하는 방식임. 얘를 들어 어떤 조사에서 5개의 지역에서 5개의 세대를 대상으로, 2개의 성별이 있으니까 이 조사에서는 5X5X2 해서 총 50개의 셀이 나옴. 이 셀 하나하나마다 실제 인구비율에 맞게 가중치를 넣는게 셀 가중임. 예를 들어 전국 조사에서
서울-50대-남성 이라는 셀의 목표할당이 30명인데, 실제로 조사된 건 20명이면 원래 조사 수에다가 1.5배를 곱하고, 경기-60대-여성 이 셀에서는 목표할당 30명에 실제 조사 40명이면 원래 조사 수에다가 0.75배를 곱하고... 이런 식임.

림가중은 전체 표본에서 기본적인 변수에 한해서 가중치를 부여하는 방식으로, 만약 성-연령대의 가중치 비율을 하나 랜덤으로 만들어서 곱해보고, 그게 지역별 가중치와 안 맞으면 또 만들어서 곱하고... 이런 식으로 맞을 때까지 하는 거임. 한 마디로 여기는 셀가중과는 다르게 서울-50대-남성 이런 세부적인 건 없고 전체적인 성/연령/지역에 대한 비율을 동시에 맞추는 거. 솔직히 림가중이 뭔지 잘 이해가 안 될수도 있는데, 나도 이걸 어떻게 쉽게 설명해야 될지 모르겠어서(사실 본인도 이게 뭔지 잘 이해 안된다)일단 기본적인 개념만 씀.

이 두개의 가중 방식 중에 어떤게 더 정확한지 이거는 아직 발표된 게 없음. 다만 셀가중이 셀 하나하나마다 모두 가중치를 만들어야해서 좀 더 노가다가 많이 든다고 함.

이런 이유로 선거마다 어느 여론조사 기관이 중립적인지는 딱히 특정하기 어렵고, 예를 들어 어떤 선거에서는 한국리서치가 정확하다가도 또 다음 선거에서는 리서치뷰가 정확할 수 있다 이 얘기임.