Aug 242008
 
Pinterest

시청률 조사에 관련된 글을 읽다가 하도 어이없는 얘기 하는 사람이 많아서 적었던 글…

통계학을 전문적으로 배우신 분들 앞에서는 번데기 앞에서 주름잡는 꼴이 되겠지만, 주위에서 너무도 통계에 대한 기본 개념이 잘못된 분들이 많고, 심지어 잘못된 이해를 하지 말아야 하는 직업을 가진 사람들(기자라던지, 통계적인 연구를 해야하는 사람들)까지 잘못 이해하고 있는 부분이 있어서 몇 개 적습니다.

이 글을 쓰는 것은 시청률에 관련된 여러 답변과 리플들을 보고 답답한 마음 금할 길 없어서 최소한 이 정도는 알아야 하지 않겠는가 하는 심정 때문 입니다.

이후 쓰는 글은 최대한 수학적인 부분을 제외하고 설명하며 심도있게 학습한 부분은 아니므로 저 또한 잘못된 정보를 쓸 가능성이 있습니다.

하지만, 애매한 부분은 최대한 솔직하게 잘 모른다고 쓰려고 합니다.

제가 쓰고자 하는 글은 ‘통계’에 대한 개념 자체가 없는 분들이 여러가지 통계 자료를 ‘맹신’하지 않고 스스로 판단이 가능하도록 하는 데 있습니다. 이에 관련된 책도 많이 나온 것으로 알지만, 글의 작성은 제 스스로 공부해서 나온 결과를 바탕으로 합니다.

1. 여론 조사는 정확한가?

결론 부터 말하면 여론 조사를 어떤 식으로 하느냐에 따라 달라집니다.

여론 조사에서 중요한 것은 얼마나 많은 사람을 대상으로 설문 조사를 했느냐가 아닙니다. 같은 설문 대상을 상대로 조사를 해도, 질문의 내용과 보기에 따라 얼마든지 다른 결과를 만들 어 낼 수 있으며 심지어 완전히 다른 결과를 만들어 낼 수 있습니다.

아주 간단한 예를 약간 과장해서 든다면
당신은 어떤 당을 지지합니까? 라는 질문에 보기가

  1. ㄱ당
  2. ㄴ당
  3. ㄷ당
  4. ㄹ당
  5. 지지 정당 없음

이라는 단순한 질문도 보기를

  1. 진취적이고 개혁적인 ㄱ당

  2. 보수적이고 친미적인 ㄴ당

  3. 급진적이고 사회개혁적인 ㄷ당

  4. 서민층의 지지가 많은 ㄹ당

  5. 정치에 관심이 없어 지지하는 정당 없음

이라고 해 놓으면 단순히 지지 정당이 특별하지 않은 사람은 1번에 표시를 할 가능성이 크겠지요. 거기다 지지 정당이 없어서 5번을 하려하는 사람도 정치에 관심이 없는 것은 아니니까 수식어가 자신이 추구하는 가치와 맞는 정당을 골라서 표시할 가능성도 커집니다. 그리고 다른 당을 지지하는 사람들은 설문 조사 자체에 응하지 않을 가능성이 커지지요. 자신이 ㄴ당을 지지하지만 그것이 자신은 보수적이고 친미 주의적이라고 하는 내용을 받아들일 수 없는 경우는요. 하지만, 결과 발표시 설문 내용을 밝히 않은 채 ㄱ당의 지지자가 많다고 한다면?

이런 경우는 전문 조사 기관이 아닌 곳에서 얼마든지 여론 호도를 위해 언제든지 할 수 있는 조사입니다. 질문이 이런 식이면 이것을 바탕으로 나온 답변의 대부분은 신뢰할 수 없을 것입니다.

또 다른 예를 들어보면 인터넷 설문조사가 있습니다.

대표적인 ‘편향된 집단’으로부터 나온 통계자료인데 실제로 모 신문에 ‘우리나라 미혼 여성들 성경험 비율 60%’의 기사가 나온 적이 있습니다. 정확한 비율은 잘 모르겠으나 일반인이 보기에 깜짝 놀랄 정도였습니다.

하지만, 그 조사 집단을 보니 ‘특정 성인사이트를 가입한 사람들의 인터넷 설문 조사’였습니다. 성인 사이트를 가입하는 사람 중에는 성에 관련해 개방적이고 자유 분방하고 호기심이 많은 사람이 많은 것이 당연하고, 그 가운데에 설문 조사에 응하기까지 한 사람들은 자신의 표현에 당당한 사람들이 많은 것이 상식적인 생각일 것입니다.

하지만, 제목을 ‘특정 성인 사이트에 가입한 미혼 여자들 중 성경험 비율 얼마’라는 식으로 하지 않고 마치 우리나라 전체를 대상으로 조사한 것처럼 한 것은 대표적인 여론 호도라 할 수 있겠지요.

결론적으로 여론 조사라는 것은 [표본집단]을 어떻게 선택하느냐와 [설문조사]를 어떤 질문으로 하느냐에 따라서 다른 결과가 나올 수 있음을 염두에 둬야 합니다.

2. 통계조사, 혹은 여론조사를 할 때 가장 중요한 것은?

많은 분들이 ‘많은 사람(실험)으로부터 얻은 결과가 더 믿을 만 하다.’ 라고 잘못 생각하십니다.

하지만, 통계조사를 할 때 가장 중요한 것은 ‘편향되지 않은 집단’입니다. 여론 조사 등 설문 조사를 할 때는 ‘편향되지 않은 질문’이 또한 중요시됩니다.

특히 ‘가치 판단’을 묻는 질문은 질문을 어떤 식으로 하느냐에 따라 결과가 달라질 수 있습니다. 이런 질문들은 심리학적인 요인까지 같이 짚고 넘어가야 하는데, 아마추어가 설문 내용을 작성하여 조사할 경우 자신도 모르는 사이에 잘못된 결과(사실과 동떨어진 결과)를 얻을 수 있으며, 설문 조사하는 쪽에서 어떤 ‘악의적인 의도’를 가지고 있을 경우 얼마든지 여론을 호도할 수 있는 ‘질문’을 만들어 낼 수 있습니다.

그리고 실험 방법이 잘못되었다면 거기서 나오는 샘플들은 아무리 많다고 하더라도 제대로 된 결과를 보장하진 않을 겁니다.

의외로 과학 하는 사람들도 여러 가지 ‘착각’ 혹은 ‘의도’로 잘못된 실험 결과를 ‘과장’하여 발표하기도 합니다. 그리고 그것을 기자들이 ‘확대’ 발표하기도 하구요. 가장 흔한 예는 결론으로부터 원인을 잘못 도출하는 경우인데 장수하는 사람 중에 흡연을 하는 사람이 많았다고 ‘흡연이 장수에 영향을 끼치지 않는다.’라는 결론을 내리는 것 등입니다. (요즘은 이 정도까지 엉터리는 그나마 좀 줄었습니다만)

수학적으로, 조사하는 개체수는 Yes or No를 따지는 간단한 경우, 편향되지 않은 표본 30여개 정도로 전체 집단을 대표할 수 있습니다. 30개 이상만 되면 표본 수가 많아도 그 정밀도에 크게 영향을 끼치지 않습니다. 예를 들어 통계적인 방법으로 동전의 앞이 나올 확률과 뒤가 나올 확률이 같은지 확인하기 위해서 동전을 무한 번 던질 필요는 없습니다.

30번 정도 던져서 나온 결과를 바탕으로 이 동전의 앞과 뒤가 나올 확률이 다른지 알 수 있고, 그 결과가 믿을만 한지 알기 위해서 [검정]이라는 일종의 [추론]을 하게 됩니다. 하지만, 이렇다고 해도 이 결과를 완전히 믿을 수는 없기 때문에 [유의수준]을 두어 가설을 검정하게 됩니다. 즉 통계라는 것은 언제나 100%가 아니라 100%에 근접하는 수준으로 실제 값을 예측(이런 표현이 정확한지 모르겠네요)합니다.

여론 조사를 할 때 실제로는 편향되지 않은 30명을 찾는 것이 힘들기 때문에 조사 범위를 십~수십 배를 뽑아 추가 비용을 대면서 조사하는 것입니다. 여러 가지 연구 결과로 가장 적합한(비용과 시간 등을 고려한) 표본 집단의 수는 1000여 명 안팎으로 알려져 있습니다. 그 이하가 되면 편향된 집단이 될 가능성이 커지고 그 이상이 되면 시간과 비용의 문제가 커집니다. 하지만, 위에서도 말했듯이 보기가 둘 셋 정도로 갈리는 간단한 조사의 경우는 수십~수백 명으로도 충분히 믿을 만한 결과를 낼 수 있습니다.

3. 설문조사나 여러 가지 통계 조사는 믿을만 한가?

결론 부터 말하면 ‘잘 모르겠습니다.’

잘 모르는 이유는 위의 내용을 잘 읽어보신 분들이라면 대충 수긍을 하실 겁니다. 전문 설문조사 기관이라도 대부분은 ‘전화 설문 조사’가 많고 이러한 설문 조사 방식부터 상당히 편향적인 조사가 될 수 있습니다.

질문 내용도 알기 힘들고, 전화 조사의 경우 질문에 대한 응답을 전화로 질문하는 사람의 수완에 맡기는 경우가 많습니다. 차근차근 질문해서 응답을 얻기에는 시간이 많이 걸리기 때문에 복합적인 질문을 던지고 응답에서 다른 항목을 적당히 체크하는 경우가 많습니다.

예를 들어 약간 과장하면 ‘XX회사의 물건 중 무엇을 사용해 보셨고 사용해보신 소감은 어떻습니까?’ 라는 질문을 해서 ‘선풍기를 써봤고 그럭저럭 쓸 만 했습니다.’ 라는 응답으로부터

  1. XX회사를 안다?

Yes

  1. XX회사의 제품 하면 무엇이 떠오르나?

선풍기

  1. XX회사의 제품을 사용해본 적이 있나?

Yes

  1. XX회사의 제품을 사용해본 결과 만족도는?

좋음(보통과 매우 좋음 사이)

  1. XX회사의 제품을 다시 사용할 의향이 있는가?

예(왜냐하면, 그럭저럭 쓸 만 했다니까)

식으로 5개 문항을 체크해버리는 경우가 있습니다. 위의 답변중 2번과 5번의 결과는 그다지 신뢰하기 힘들다는 것은 쉽게 눈치챌 수 있을 겁니다.

전문 설문기관이 아닌 경우 그 정도는 더욱 심해지고 ARS의 경우 질문 내용이 이상하거나 급한 일이 생기면 응답을 중간에 멈추는 경우도 많이 있지만 이런 부분들이 결과에 어떤 식으로 반영됐는지는 확인하기 힘듭니다.

즉, 제가 설문 조사 기관에서 어떤 식으로 과학적이면서 심리학적인 면까지 고려하여 설문 내용을 작성하는지 알 수 없고, 그 조사 방식은 적절하며, 설문하는 사람이 통계학에 대한 이해를 바탕으로 적절히 응답을 처리하고 있는지 여부를 알 수 없기 때문에 ‘잘 모르겠습니다.’

그래서 저는 설문조사를 발표하는 집단과, 집단의 의도를 먼저 확인하고(신문이나 방송의 경우 논조, 잡지나 광고지나 회사에 관련된 경우는 계열사나 설문 조사자와의 관계) 해당 결과를 봅니다.

특히 그래프의 의도적인 변형이나 상식에 맞지 않는 억지 결론의 도출이 있는 경우(질문 내용과 무관한 결론) 참고 정도로만 생각합니다.

편향된 조사라는 것이 눈에 보이는 경우, 예를 들어 인터넷 설문 조사, 특정 사이트 가입자만을 대상으로 한 조사, 길거리 설문조사, 전문가 설문조사, 조사 대상자가 턱없이 부족한 설문조사(기본적으로 20명도 안되는 경우), 민감한 내용의 설문조사(개인의 사생활을 밝혀야 하거나 개인 정보를 알려야 하는 조사-이를테면 정치인의 재산, 미혼모의 성의식 등등), 이해 당사자를 대상으로 한 설문조사, 과학적이지 못한 조사(아마추어가 통계에 대한 이해 없이 하는 조사…이를테면 잡지 등에서 하는)는 신뢰하지 않습니다. 그리고 이러한 사항이 복합적으로 나와있는 실험 결과는 주위 사람들에게 적극적으로 그 부당성을 알릴 정도입니다.

4. 신뢰수준과 표본오차는 믿을만 한 것인가?

믿을만 합니다. 통계적인 방법으로 수학적으로 계산해서 나온 것입니다. [신뢰수준]이나 [표본오차]가 잘못될 가능성은 거의 없다고 보시면 됩니다.

하지만 이 부분도 잘 생각해야 하는 것이 같은 설문조사지로 같은 표본 추출방법을 써서 같은 설문조사 방법으로 조사하면 그러한 결과가 나온다는 것이지 그 결과가 완전히 옳다는 것은 아닙니다. 거꾸로 말하면 표본 추출방법이 잘못되고(편향된 표본추출이 가능하고), 설문조사지의 질문 내용이 적절하지 않고, 설문 면접원의 교육이 잘못되었다면 잘못된 결과가 나올 수 있다는 얘기 입니다.

통계에 대한 이해가 없이 무작정 믿거나 불신하는 것도 분명히 문제이지만 통계의 함정에 빠지는 것도 위험합니다. 그래도 이정도만 명심하고 있으면 아주 잘못된 판단을 내리는 경우는 없을 것 같습니다.

  1. 표본의 수가 많다고( 100명을 조사한 것 보다는 1000명, 1000명보다는 1만 명) 더 믿을 수 있는 결과가 나오는 것은 아니다.(표본의 수가 중요하지 않은 것은 아니지만 그보다 더 중요한 부분이 많다. 심지어 시청률 조사를 위해서 인구의 1/10은 조사해야 한다고 생각하는 사람도 있는데 답답할 따름이다.)

  2. 표본이 편향되진 않았는지 확인한다.(특정 지역, 특정 연령대, 특정 직업군, 특정 종교 등등)

  3. 편향된 조사를 전체를 대신하는 것 처럼 강조하진 않았는지 확인한다.

  4. 그래프는 과장되지 않았는지 확인한다.(의도를 가지고 매우 다양한 방법으로 과장하는 경우가 많이 있음)

  5. 조사하는 집단의 목적이 있는 것은 아닌지 생각해 본다.(조사 결과를 특정 논조의 논거로 삼는 경우가 많다.)

  6. 중요한 설문 결과일 경우(이해관계가 얽히는 경우)설문 조사 방법과 질문 내용을 확인하도록 한다.(개인적으로 인터넷 신문의 경우 설문조사단체의 설문 조사지, 설문 조사 방법과 관련한 내용이 있는 곳의 링크를 남겨주었으면 한다)

이 정도만 생각하고 여론 조사 결과등을 접해도 예전처럼 주관없이 결과를 맹목적으로 받아들이거나 무작정 불신하는 경우는 많이 줄어들 것으로 예상합니다.

2004년 9월 15일 작성.
2008년 8월 24일 5줄 미만의 수정, 삭제, 갱신
2014년 3월 23일 수정 없이 재발행.

Pinterest