2017년 4월 16일 일요일

더 플랜에 대해, 조금 더 친절한 이야기

불친절했다는 지적이 많아서 다시 정리해드립니다.

0. 이른바 K값 이전까지의 이야기

앞부분의 약 8분까지는 개표부정의 역사와 대한민국의 선거 개표 시스템을 이야기합니다. 그런데 그 다음에 총수가 묻는 부분에선 필진들 모두 터졌습니다. 총수는 The Plan에서 타임라인상 선관위가 중앙선관위에 보고한 다음에 언론을 탄다고 주장하더군요. 근데 필진들은 방송국과 신문사 기자들로부터 진다는 것을 이야기 듣고 다들 술 마시러 갔었거든요. 일단 2012년 대선 당시 선거기간동안 진행된 여론조사에서 문후보는 한 번도 이긴 적이 없었습니다. 언론 종사자들은 다 알고 있었단 말이죠. 혹시라도 추세가 바뀌어 이길 수 있지 않을까라고 했는데... 그런 일은 일어나지 않았던 거거든요.

모두가 모두에게 경쟁해야 하는 헬조선의 기자들은 개표현장 나가서 다들 남들보다 빨리 송고하기 위해 경쟁합니다. 그렇게 속보경쟁하다보니 방송사 방송이 항상 선관위 발표보다 빠릅니다. 물론 빨리 하다보니 틀리는 경우도 종종 있습니다. 그건 나중에 선관위 발표를 갖고 '보정'합니다.

역누적 이야기는... 우리 모두 2012년에 투표 독려들을 했죠? 퇴근하자마자 투표마감 시간 전까지 투표장으로 달려간 직장인들 많잖아요? 그거 누구 표겠어요? 늦게까지 투표를 했으니 늦게 도착하는 겁니다. 그런데 문재인에게 유리한 투표함이 나중에 열렸다니;;; 제 기억으론 그때 총수는 투표독려하는 나꼼수 진행하고 하고 있었는데요? 투표 독려하면 당연히 나오는 결과 아닌가요? 역누적은 문재인을 많이 찍은 도시 선거구들이 늦게 개표완료 되었기 때문에 그렇게 보이는 겁니다.

1. 미분류표란




분류기는 3번은 제대로 읽는데 4번 혹은 5번과 같이 찍힌 것은 누구에게 간 것인지 그 판정을 사람에게 넘깁니다. 미분류란 대부분 저런 겁니다. 여기에 기계적 오류가 일부 있을 수 있습니다. 멀쩡한 표인데 미분류로 처리하는 기계적 오류까지 더해지면 미분류표로 처리된 3.6%는 충분히 나올 수 있는 숫자입니다.

실제로 개표참관인 해보시면 미분류처리되는 것이 상당히 나온다는 것을 확인하실 수 있습니다. 선에 조금만 닿아도 미분류 처리하거든요. 그리고 위의 3번처럼 찍지 않고 4번 혹은 5번과 같이 찍어서 기계가 분류하지 못하고 육안분류를 해야 하는 미분류표는 어르신들이 많이 만듭니다. 어떻게 아느냐... 투개표 참관인 좀 해보세요.

이게 어떻게 3.6%씩이나 나오느냐, 뭔가 잘못 되어 있는거 아니냐고 깜짝 놀라는 외국분의 인터뷰가 나오니까 '일단 3.6%라는 숫자는 비정상'이라고 이해하시고 넘어가게 됩니다. 근데요, 의왕구치소 503번을 끝까지 지지하셨던 4%라는 숫자를 두고 '호텔에서 전기포트에 오줌을 끓여본 적이 있다'는 일본 통계 이야기가 유머로 돈 적이 있지요. 네, 이상하게 행동하는 분들은 한 자리 퍼센트는  됩니다. 반복하지만 투개표참관을 같이 해보시면 이상하게 투표하시는 분들 저 숫자 만큼은 보실 수 있습니다.

그럼 다른 나라들은 어떻게 하기에 저 숫자가 낮은 걸까요? 칸이 크고 많이 후보들 간격이 우리처럼 표 안에 들어가 있는게 아니라 후보별로 떨어져서 인쇄되어 있습니다. 그래서 영상에서 나오는 것처럼 긴 투표용지가 나오는거죠. 칸이 크면 기표할때 다른 곳에 찍을 가능성이 아무래도 줄지요.


2. K는 1이어야 한다?

문제의 영상에서 현화신 퀸즈대학 통계학과 겸임교수님은 박근혜를 찍었는데 미분류된 것과 문재인을 찍었는데 미분류된 수치는 박근혜를 찍은 사람들과 문재인을 찍은 사람들의 비율이 같아야 한다고 말씀하십니다. 그 K라는 숫자가 1이어야 한다고 이야기하는 것은 미분류표를 만들어내는 사람들의 숫자가 어느 후보를 찍는 것과 상관없이 '일정해야 한다'고 말씀하시는 거죠.

저 K값이라는 건 박에게 간 미분류표를 문에게 간 미분류표로 나누고 박이 득표한 것을 문이 득표한 값을 나눈 것을 다시 나눈 겁니다.


이 공식으로 놓고보면 잘못 찍는 비율이 투표를 하는 사람들과 연동해야 K값이 1이 됩니다. 즉, 현화신 교수님의 주장은 선거에서 편향이 없거나 그 편향이 흡수될 수 있는 상황을 전제로 합니다.

근데요... 대한민국에서 2012년 선거는 유일하게 두 가지 편향(Bias)이 작동했습니다. 그 전까지 작동했던 것은 지역전쟁이었죠. 하지만 유일하게 2012년의 선거는 지역전쟁이자 세대전쟁이었습니다. 그러니 젊은 층보다 기표 삑사리를 낼 수 있는 분들이 어떻게 투표권을 행사하느냐에 따라 K값에는 편향이 생기게 됩니다. 기표 실수를 할 수 있는 분들이 집중적으로 한 후보를 찍는다면, 1보다 큰 숫자가 나올 수 있습니다.

K값이 1.5라고 총수가 말하니 받아들이시는 분들은 두 종류로 나뉘더군요. 하나는 1.5가 일관되게 발생했다고 믿는 분, 또 하나는 너무 이쁜 포와송 그래프가 만들어졌다는 분들. 같은 영상물을 보셨는데 왜 다른 이야길 하시는지 잘 모르겠습니다. 일단 1.5라는 숫자는 평균값입니다. 실제는 0.97에서 2.27 정도까지 퍼져 있습니다. 평균치에서 극단은 딱 떨어지는 형태는 아니에요. 한 쪽이 약간 치우쳐져 있습니다.

반복하지만 전국적으로 일관된 K값이 나온 것이 아니라 평균값이 1.5였다는 겁니다. 그런데 뭔가 대단한 숫자인 것처럼 생각들 하시는데, K값이 1이 아니라 1.5라는 이야기는 이야기는 기계가 못 읽겠다고 사람더러 판단하라고 던져준 3.6%의 표 중에서 박근혜의 표가 문재인의 표보다 평균 33% 정도 더 나왔다는 이야기입니다. 3.6%에서 저 차이면 전체 투표에선 최대 1% 정도 되는 숫자죠.

저 공식을 놓고 따져보면 박근혜 지지지역에선 박근혜의 득표도 많지만 투표를 하시는 어르신들도 늘어나게 되지요. 그러면 기표 삑사리 비율이 더 높아지게 됩니다. 반면 문재인에게 투표하려고 했으나 미분류로 처리된 표의 숫자는 상대적으로 훨씬 적겠죠. 지역에서 문재인을 지지한 젊은 이들이 삑사리를 낼 가능성은 적으니까. 그러니 분모가 커지는 것보다 분자가 많이 커지게 됩니다. 즉, 꽤 큰 숫자가 나오게 됩니다. 

전라도 지역에선 박으로 가는 미분류가 적은 대신 문의 득표율이 높지요. 반면 문으로 가는 미분류가 높고 박의 지지율이 낮구요. 이러면 분자가 경향적으로 작아집니다. 즉, 상대적으로 전라도 지역에선 K값이 낮게 나올 겁니다.

어르신들의 기표실수가 많아서 K값이 커졌다는 것을 가설로 놓고 정리하면 이런 추정을 할 수 있습니다.

전라도 지역은 문을 압도적으로 지지했기 때문에 K값이 상대적으로 낮게 나오는 반면, 경상도, 강원도, 충청도와 같이 박의 지지율이 높았던 상태에서 기표를 정확하게 하지 않는 어르신들이 만들어내는 미분류표 비율이 높았을 지역의 K값은 전라도보다 높을 것이다. 

그럼 The Plan에서 K값 계산했다는 것을 한번 보죠.




전라도 쪽이 평균값인 1.5보다 대체로 낮고 경상도는 대체로 1.5 이상이 나옵니다. 

한국의 통계학과 교수들이라고 한다면 이 두 가지 편향이 어떤 K값을 만들어내게 될 것인지 빤히 압니다. K값의 평균이 1.5가 나오니까 Planned되었다고 놀라신 교수님은 2012년 한국 대선에서 두 가지 Bias가 작동했다는 것을 모르시니까 그런 겁니다.

그럼 왜 지금까지는 K값이 1이었냐. 지역투표를 하게 되면 표를 정확하게 칸에 찍지 않는 어르신들의 표 역시 지역투표에 흡수됩니다. 분모와 분자가 같이 커지게 되니까요.  

그러니까 The Plan이라는 영상물의 제목인 Planned 된 값이라는 K=1.5는 두 가지 편향이 동시에 작동되면 나올 수 밖에 없는, 지난 대선의 특징을 다시 짚어주는 지표일 뿐입니다. 이거, 선거라는 실제의 현장에서 벌어지는 일들을 알고 있는 사람들이라고 하면 다 알고 있는 내용입니다. 무엇보다 이거 수학이나 통계학도 아니에요. 그냥 산수입니다. 반복합니다. 퀸즈대학 통계학과 교수님이 놀라신 것은 2012년 대선에선 두 가지 Bias가 작동했다는 것을 모르시는 분이기 때문에 그런 겁니다.

3. 분류기 해킹

컴터랑 연결되어 있는 기계, 당연히 해킹할 수 있죠. 근데 영상물에선 선관위 디도스 사건을 이야기하면서 선관위 중앙서버의 보안성과 신뢰성에 의문이 있다고 이야기하면서 투표용지 분류기를 '해킹된 선관위 중앙서버가 조작한다'는 것처럼 보이게 해놨습니다. 근데요... K값이 0.97에서 2.27 사이인 값을 전라도는 적게, 경상도 충청도 강원도는 높게 나오는 값을 뿌려주면서 표를 '이동시킨 것'처럼 이야기하는데요...

더 플랜의 주장처럼 해킹되었다고 쳐도 움직일 수 있는 표는 전체 투표자 3천59만4천621명 중에서 최대 1%인 30만표 정도 밖엔 안됩니다. 우린 2012년 선거에서 100만표 넘게 졌습니다.

무엇보다 개표는 하나의 흐름으로 진행됩니다. 그런데 중앙에서 해킹공격을 하려고 하는데 접속할 수 있는 순간이 시작하기 전과 끝난 뒤라고 한다면 이 '흐름'을 바꿀 수 있을까요? 무엇보다 기계만 갖고 개표하는게 아니라 수많은 눈들이 뒤에 또 있단 말입니다.

4.  처리하는 순서만 바꾸면 된다고 하는데? 

분류기라는 넘을 쓰는 이유는 개표 종사원으로 참여하게 되는 은행 직원, 학교 선생님 등이 일을 빨리 마치고 다음날 업무를 제대로 보실 수 있도록 하기 위해서 그런 겁니다. 우리 노동법 지켜야 하잖아요? 야근 수당 붙고 철야수당 붙으면 개표 종사원에 대한 인건비 상승폭이 일단 상당합니다. 그 분들이 지금보다 더 오래 일해야 하기 때문이죠.

기본적으로 수개표를 주장하시는 분들은 투개표 현장에 가 보신 적이 없는 분들입니다. 그리고 시스템의 어떤 결함을 열심히 찾아보시려고 하지요. 그렇다고 들었으니까. 그런데 말이죠... 우리 이 투개표 시스템이라는 것은 1987년에 만들어진 겁니다. 군대에서 찍는 표는 여당 표였던 시절에 이지문 중위가 양심선언을 해서 군 부재자 투표는 영외투표로 바뀌는 등의 진통은 있었지만 어찌되었건 간에 박한용 선생님과 송영길 의원, 한홍구 선생님이 말씀하셨던 시절의 개표 문제들을 계속 해결해온 과정이었습니다.

그리고 선거는 돈 많이 써야 하는 판입니다. 후보자 개인이든 소속 정당이든 돈 많이 썼는데 본인들이 납득할 수 없는 결과가 나오면 바로 소송들어가서 모조리 수검표 하는 일을 해왔습니다. 그렇게 했음에도 결과가 아주 많이 바뀐 적은 없습니다.

5. 그러면 뭐냐?

The Plan은 잘 모르는 사람들 겁주기 좋게 만들어진, 총수가 자주 하는 '아님 말고'식으로 던져놓은 음모론에 불과합니다. 문제는 이것이 어떤 여파를 줄 수 있느냐는 겁니다. 더 민주의 국회의원들은 총수가 진행하는 프로그램에 출연하길 좋아하죠. 뭐 좋아하는거, 사실 이해됩니다. 저도 순위 좀 나오는 팟케스트에 종종 출연하는데, 팟케스트 상위 순위에 올라가는 프로그램들은 300만 이상이 듣습니다. 언론 노출을 사랑하는 분들이 많이 노출되는 기회를 버리실리가 없죠.

문제는... 이게 너무 빤한 음모론이기 때문에 공격받기가 쉽다는 겁니다. 선거 투개표에 참여해본 적이 있고 산수 쫌 할 줄 아는 사람이라고 하면 'K값이 1.5로 수렴된다'는 이야기를 보고 '응? 그거 지난 대선의 특징이었는데?' 이상의 이야기를 안하거든요.

아니, 여러분. 여론조사 결과가 납득이 안된다고 통계학과 교수님들이 삿대질하는 판국에 대한민국 통계학과 교수님들이 이 Bias를 모를 것 같으신가요...?

대권 재수중이신 분, 제 아내는 자신의 나라인 네팔을 두 번이나 다녀온 분이라고 해서 아주 좋아합니다. 저 분이 대통령이 되시면 좋겠다고 이야기하기도 하지요. 그런데 그 분에게 홍준표 후보와 유승민 후보, 아니 무엇보다 변 모가 목청 높여 "문재인의 뒤에는 김어준이라는 음모론자가 있다"고 날뛸 것 같아 보이지 않습니까?

딴지필진들은 항상 한 덩어리로 취급받죠. 한쪽에선 마초적이라고 욕 먹고, 한쪽에선 메갈을 빤다고 욕 먹습니다. 근데 딴지의 필진이라고 하면 다들 자기가 하는 다른 일이 있는 사람들이고 비정기적으로 기사를 쓰는 사람들이기 때문에 강한 연대감 같은 것은 없습니다. 한국에서 정치적 입장이 아주 많이 달라도 같이 모여서 술 마실 수 있는 몇 안되는 그룹일 뿐입니다. 그런 양반들이 하나씩 "아니잖아?"라고 하는게 뭐 잘나서 그런거겠어요? 우리 집앞에 떨어진 똥은 우리가 치운다는 것 때문이지.

댓글 98개:

  1. 아마 이번 선거가 끝난 뒤에도 K 갑을 누군가 계산해 보겠지...
    그리고 그 값이 대략 1 정도 나올꺼야... 잘 생각해봐...

    답글삭제
  2. 기계는 항상 오차가 있습니다. 따라서, 분포를 가지는게 맞습니다. 문제는 그 평균이 1.5라는 비자연적인 수라는 것과 정규분포를 따른다는 겁니다. 1이야 이론적 경향이지만, 1.5는 어떠한 설명도 없어요. 노인분들이 정확하게 1.5로 편향되게 미분류를 양산한다는 것은 굉장히 낮은 확률입니다. 그리고, 분포 모양이 정규분포와 거의 정확히 일치하는데 이것도 확률적으로 매우 이례적인 겁니다.

    전라도와 경상도를 비교해서 전라도가 낮다는 주장을 했는데, 노인인구에서 문재인 표가 더 많이 나오고 그 분들의 미분류표가 더 많다면, 그 숫자는 1보다 적어야 합니다. 예를 들어 노인표에서 박:문 = 40%:60% 이라면, 노인분들의 미분류표에서는 박:문 = 35%:65% 정도로 더 나와야 하는데, 공식에 의해 (35/65) / (40/60) = 0.807가 나옵니다. 노인들의 미분류가 문제라면, 전라도 지역에서는 1보다 적어야 정상입니다. 전라도 지역에서도 박근혜의 노인표가 압도적이었나요?

    투표 미분류가 딱 한 가지 요인(노인에게 미분류가 더 많이 나온다)에 의해서만 결정되고 그것이 그렇게 이쁘게 정규분포를 따르는 게 확률적으로 얼마나 말이 안 되는지 이해를 못 할 수는 있습니다. 하지만, 1.5라는 숫자를 산수만 해도 다 아는 일처럼 말하는 것은 통계에 대한 이해가 전혀 없다는 겁니다. 고등학교 확률,통계만 공부해 봐도 1.5라는 숫자, 그리고 정규분포를 따르는 저 숫자들이 매우 부자연스럽다는 걸 알 수 있을 겁니다.

    답글삭제
    답글
    1. 고등학교 확통만 공부하셔서 그래요... 기계가 오차를 가지는 것이 아니라 k값은 하나의 확률 분포로 볼수있고 확률 분포를 가지는 표본들의 관측치가 많아질수록 정규분포에 수렴합니다. 때문에 수많은 자연 현상에서 정규분포가 관찰되는겁니다.

      또한 통계적 논리로 봤을때 더 플랜이 증명한 건 18대 대선에서 k값이 평균 1을 가지는 확률분포가 아니라는 것만 증명한겁니다. 평균 1이 아닌것이 조작을 의미하지는 않는다는 것은 노인, 기표지등 다양한 외부 변수들 때문으로 설명이 되기때문에 문제가 안된다는것이구요.

      삭제
    2. 대학교 통계를 공부했다면 표본치가 많다고 해도 정규분포를 따를 이유가 없다는 걸 알텐데요. 요인이 두개이면 두 개의 봉우리가 나오게 되어 있습니다. 정규분표를 따른다면 이유가 딱 하나라는 겁니다. 다양한 외부변수가 존재하면 나올 수 없는 형태죠.

      1이 아니다 해도 1.5일 이유는 없습니다. 확률적으로 극히 희박한 거죠. 1로 정확히 떨어져도 의심이 될 텐데, 1.5라면 말 다 한 거죠.

      일반 통계학만 공부해도 이게 얼마나 부자연스런지 잘 알텐데 왜 이런 글을 쓰십니까?

      삭제
    3. 이분한텐 영화가 좀 어려웠나...이해를 못하시는 분이 좀 계시네...k값이 맞다 옳다 이렇게 나와야 된다의 문제가 아닌 자연적인 값이 아니라는거자나...거기에 왠 편향문제가 끼어들어. 이 영화에서 주장하는 바는 어려운 통계의 문제가 아니여...자연스러운가 부자연스러운가의 상식적 수준의 문제지....

      삭제
  3. 작성자가 댓글을 삭제했습니다.

    답글삭제
  4. 작성자가 댓글을 삭제했습니다.

    답글삭제
  5. 연령별 편향과 지역적 편향을 감안해도 1.5라는 k값은 말이 안됩니다. 이미 지역-연령 편향은 17대대선, 18대 총선에서도 나타난 상황이지만 17대 대선에서 아무리 표본수가 적어도 1에 근접하던 표본이 갑자기 1.5에 가까울 수는 없습니다. 게다가 직전 선거에서 1이던 게 갑자기 편향치 때문에 1.5로 그래프가 옮겨갈 수는 없습니다. 단지 33%득표라고 했지만 실제 확률상 오차치는 50%입니다. 이럴 확률이 얼마나 될까요?

    그리고 3.6%의 미분류는 특성상 어쩔 수 없다고 하셨지만 실제 선관위가 제시확률은 99.9%였고 실제 실험에서는 99%이상의 정확도를 보였습니다.

    99.9%의 확률치를 보이던 게 3.6%의 미분류를 뱉어내게 투표자들이 실수할 확률이나 기계가 오독할 확률 자체가 낮다는 게 핵심이지 그게 불가능하다가 아닌 겁니다.

    선거는 비용이 많이 발생합니다. 그러나 행정권력의 정점을 결정짓는 선거인데도 비용타령을 해서는 안됩니다. 미안하지만 그 정도 비용 감당못할 나라도 아니구요.

    논리적 추정으로 글을 쓰는 건 좋지만 적어도 더 플랜처럼 통계를 들거나 시연을 해서 반박하는 것이 맞아 보입니다. 단순히 이때 이랬으니 이럴 수 있다는 건 추정에 불과합니다.

    게다가 모든 언론사가 발표 전에 문재인이 한번도 이긴 데이터를 뽑지 못했다는 것도 거짓입니다. 몇몇 조사는 살짝 이긴 데이터도 있었습니다. 글을 쓰실 때 자신의 확신을 데이터화 시키시면 곤란한 겁니다.

    더 플랜이 음모론에 불과할 수 있습니다만 분명한 건 k값이 균형분포로써 1.5를 나타낸 것, 미분류가 3.6%나 생산해낸 것 만으로도 더 플랜이 말하듯이 분류기는 사용할 가치가 없는 것은 맞습니다. 심지어 옵티컬 스캐너를 쓰며 선거의 칸이 크던 나라도 포기한 방법을 우리가 고수할 이유가 없습니다.

    답글삭제
  6. K가 1.5라는건 미분류표에서 박근혜 문재인의 표 비율과 분류표에서 양측 표의 비율이 다르다는 의미로 미분류 표가 기형적으로 박근혜 표가 많다는 의미이죠. 왜 이것이 문제이냐면 분류표든 미분류 표든 비율이 같아야 된다는 기본적 가정에서 출발하죠. 왜냐면 예를 들어 대다수를 차지하는 분류표에서 랜덤하게 뽑은 결과가 51:48로 나왔으면 미분류 표에서 랜덤하게 뽑아도 51:48 근사치로 나와야하기 때문이죠 그래서 K는 1이 나와야 하는데 1.5가 나온건 미분류 표가 랜덤하게 뽑히지 않은 의도가 개입된 추출로 볼수밖에 없다는 얘기입니다

    답글삭제
  7. 따라서 편향과는 관련이 없어요. 이미 나온 투표결과로 분석했기때문에 특정 지역, 특정계층의 투표와는 관련이 없습니다 이미 투표한 결과에서 미분류표와 분류표의 비율은 랜덤으로 뽑았을때 비슷하게 나와서 1이 되는게 맞기 때문에 1.5는 플랜이 개입된 결과라는 것이죠 평균 1을 중심으로 하는 정규분포가 되어야지 1.5을 중심으로 하는 정규분포는 말이 안되죠

    답글삭제
  8. 원래는 전라도도 1이고 경상도도 1이 나와야되죠 예를 들어 전라도에서 분류표가 20:80 이었다면 미분류표도 비슷하게 나오고 경상도에서 70:30이었다면 미분류표도 70:30 비슷하게 나와야 합니다. 전체 표의 90% 이상을 차지하는 분류표의 결과를 미분류표도 경향을 따라가야 맞다는 것이죠 어쩌다가 일부 투표소 결과가 아닌 결과가 우연히 나올수도 있지만 모든 투표소에서 미분류표 결과가 박근혜가 대부분 이기는 결과는 나올수 없어요 전라도에서 k 점수가 다소 낮고 경상도에서 다소 높은것은 중앙에서 조작할때 경상도처럼 높게 나오면 의심받을수도 있기 때문에 적절하게 조절했을수 있죠. 전라도 미분류표에서도 박근혜가 어쨌든 높게 나온게 이상한거 아닐까요? ㅋㅋ

    답글삭제
  9. 어쨌든 k는 1이 나와야 하는것이 맡고 위 저자는 이것에 대한 이해를 잘 못하신 걸로 보이네요 제 결론입니다 참고로 저는 역학과 통계에 대한 지식을 갖춘 사람입니다

    답글삭제
    답글
    1. 흠...통계에 대한 지식을 갖춘거만으론 부족하죠..마치 확률하던 사람들도 몬티홀 문제에서 헷갈려했듯이..
      일단... 전체 투표에서 52:48이 나와도..기계에서 미분류로 하는건..저 전체 집단에서 랜덤하게 뽑는게 아니죠...저 몬티홀 문제처럼..일부러 바이어스를 주지 않아도 당연히 기계라면 기계의 특징인 systematical 바이어스가 존재하죠.. 실제 표에서 후보1,2의 도장찍는 칸의 위치도 서로 완전 미러이미지처럼 대칭도 아니고, 일단 1번을 뽑는 사람들과 2번을 뽑는 사람들도..완전 동일한 집단이 아니죠...예를 들어 1번 집단이 더 눈이 나빠 좀더 오류가 나게 찍을 수도 있고..이런 여러 차이가 있는데 K=1이 나와야한다고 아니면 전체 집단처럼 나와야한다고 생각하는게 조금 부족해보이네요..

      삭제
    2. K가 1이 나올 필요는 없다고 합시다.
      하지만 1.5가 나오는 것도 아니죠.

      노년층이 이유라면 k값은 지역별로 지지세가 높은 후보를 따라가는게 맞는거구요. 그런데 대체로 거의 모든 지역이 1이상이 나왔네요.

      지지세랑 관련없이 박근혜에게 미분류가 더 나왔다는 것은 사실인데 이상하지 않나요?

      삭제
  10. 작성자가 댓글을 삭제했습니다.

    답글삭제
  11. 미분류표를 모집단에서 랜덤추출한 집단이라고 볼 수 있는가가 논쟁거리가 될것 같네요.

    답글삭제
  12. 더 플랜에 대해 반박하시는 분들이, 노인분들이 삑사리내는 bias를 당연한건데 고려하지 않았다고 말씀하시네요. 다시말해 반박하시는분들 모두 확인되지않은 bias를 일관되게 주장하고있는데, 참 의심스러운 상황이네요. 확인되지 않은 걸 당연한 듯이 말하면 선동에 머무를 수 밖에 없습니다.

    답글삭제
  13. 작성자가 댓글을 삭제했습니다.

    답글삭제
  14. 인터뷰 내용을 발췌합니다.. 도움이 될까 해서요
    '1.5'라는 숫자가 너무 심플해서, 오히려 내부적으로는 의구심을 가지고 반론 가설을 세웠어요. 이 영화가 미분류표 중 박근혜 후보 표가 많이 나온다는 이야기에서 출발한 것인데, 지지층 특징이 고연령층이니 아무래도 많은 분들이 기표할 때 손이 떨려 도장이 걸치게 나왔거나 할 수 있다고 생각하는 것이 상식적이죠. 그래서 우리도 제일 먼저 이에 대한 반론 가설을 세워 맞는 데이터가 나오는지 확인해봤어요. 연령이 변수라 생각해, 평균 연령대가 가장 높은 선거구를 100개 뽑았어요. 그리고 투표자들의 나이가 가장 어린 선거구를 100개 뽑았죠. 한 마디로 늙은 선거구, 젊은 선거구를 비교한 거에요. 사실 10개만 봐도 경향성이 나오지만 100개 했어요. 오히려 젊은 선거구의 미분류표에서 두 후보 간 표차가 더 크더라고요. '노인 가설'대로라면 젊은이들 손이 더 떨린다는 말이 되는거죠."

    답글삭제
    답글
    1. 김어준씨 인터뷰가 더 이상하네요. '젊은 선거구의 미분류표에서
      두 후보 간 표차가 더 크더라'가 반론이 될 수 없습니다. '젊은 선거구의 미분류표 비율이 더 높은 경향이 있더라' 정도면 몰라도요. 그런 말을 못했다는 것은 연령대 높은 선거구에서 미분류표 발생 확률이 높아지는 경향성을 더 플랜측도 이미 확인한 것 아닐까 싶은데요.

      '두 후보 간 표차'라는 표현도 애매합니다. 왜 비율 이야기를 하다가 갑자기 표차를 이야기하는지. K가 0.9인지 1.6인지 이야기했으면 간단한데요. 여하튼, 김어준 씨가 저렇게 이야기할 정도면 논문에 연령이 무시할만한 요인이라는 것이 나와 있을 것 같네요. 또, 그래야 할 것 같구요.

      삭제
    2. 어제자 '김어준의 파파이스' 보시면 친절하게 그래프로 설명해주십니다. 인터뷰를 글로 옮겨적으면서 곡해가 된 것 같은데, 모든 선거구의 K값 그래프와 50대이상의 투표자 그래프가 전혀 상관없다는 것이 설명됩니다.

      삭제
  15. 에 대해서..

    (인터넷에 있는 여러 의견들을 참고함.)

    1. 선관위 집계보다 방송이 먼저 된 이유
    -> 개표소마다 특파원 파견 모니터링 하면 가능

    2. 개표 후반에 문재인 표가 몰림
    -> 대도시 일수록 진보 성향이 강하고 인구가 많아 개표가 오래 걸림

    3. 미분류표 비율이 3.6%나 나온이유
    -> 개표기의 정확도는 99.9%라고 함, 미분류가 아닌표는 정확하게 기표된 것들이라고 판단됨.
    -> 기표는 개표기가 아니라 유권자가 하는 것임, 미분류표가 3.6%나 나온것은 개표기 문제가 아니라 기표자의 오류임

    4a. 박근혜 후보의 미분류표가 더 많은 이유(K 값이 1.5인 이유)
    -> k = 1.5인 가장 타당한 이유는 미분류표->유효표 판별 기준이 18대 대선에서 변경 되었기 때문
    -> 이전 대선에서는 투표날인이 두 후보 사이의 경계에 찍힌 미분류 표를 어느 후보쪽에 가까운가로 판정하여 정상표로 전환
    -> 18대에서는 두 후보의 경계에 걸린것은 무효처리, 단 외부의 여백과 걸쳐서 찍힌 도장은 유효표 처리.

    4b. 즉,
    1번 후보의 경우 오른쪽경계, 왼쪽경계, 윗쪽경계에 도장이 걸친 표가 유효표로 전환,
    2번 후보의 경우 왼쪽 경계선과 오른쪽 경계선에 도장이 걸친 표만 유효표로 전환
    이 비율이 3:2이므로 k값이 1.5가 나오는 것은 자연스러운 현상임.


    당선자가 바뀔 정도의 효과는 없었지만 18대 대선은 공정하지 않은 선거였음.
    이 불공정한 부분은 개표기나 전자개표 시스템의 문제가 아니고, 미분류표를 유효표로 판별하는 과정에서 첫번째와 마지막 후보자가 이득이 있는데도 규정을 개정한 것이 원인임.

    이 책임자를 조사해야 함.

    그리고, 김어준이 이걸 몰랐을리가 없다고 생각함.

    답글삭제
    답글
    1. 아마 마지막 후보도 K값이 꽤 높지 않을까 예상해 봅니다.

      삭제
    2. 좋은 답글입니다. 김어준측은 이것에 대해서 다시 답변을 해야 겠네요. 특히 마지막 후보의 K값도 봐야 하구요.

      삭제
    3. 선에 걸리는 구도 등등의 모든 상황을 검증해봤다고 얘기하기는 했습니다. 이 부분은 마지막 후보의 K값만 비교해보면 답 나오겠네요.

      삭제
    4. 마지막 후보 포함한 K 값 구하는것에 동의합니다. 그런데 4b 에서 말씀하신 그러한 변수가 실제로 작용한게 맞다면 미분류된 표들에서는 실제 득표한게 문재인쪽으로 가는 표수가 역으로 더 높아져야 하지 않을까요?

      삭제
    5. 4b 에서 언급한 내용은 오직 미분류 표에 대해서만 정리한 것입니다.

      그러니까 미분류 표들 중 날인이 사각형의 경계에 찍힌 것들을 4a의 기준에 따라 수검표를 진행하면...

      1번 후보의 경우는 날인이 좌, 상, 우 3개의 변에 걸친 미분류표가 유효표로 판정될 것이고,

      2번 후보의 경우는 날인이 좌, 우 2개의 변에 걸친 미분류표가 유효표로 판정될 것입니다.

      경우의 수로 보면 1번 후보가 당연히 유리하겠죠.

      삭제
    6. 2번을 찍은 미분류표는 1번에 비해 더 많은 비율로 무효 처리 된 셈이니,
      실제로 문재인 후보로 기표한 사람이 개표에서 나온 숫자 보다는 더 있겠지만,
      당선자를 바꾸기에는 상당히 많이 모자랍니다.

      삭제
    7. 답변 감사드립니다.^^ 제가 잘못이해하고 있었네요ㅜ 확실한점은 k 값이 1이 되지 않을 가능성이 구조적으로 분명히 있다는 것인것 같습니다. http://www.todayhumor.co.kr/board/view.php?table=science&no=63123
      여기에 좀더 진행되고 있는 논의가 있네요. 좋은 하루 되세요^^

      삭제
    8. 1번,2번은 꽤 동의하는 부분이며,
      3번은 말씀하신 부분을 적용하더라도 미분류표가 너무 많다는 것에 의심이 됩니다..

      4번에 대해 몇가지 의견이 있어 남겨봅니다.
      1. 마지막후보의 경우 득표율이 낮기 때문에, K값을 계산하더라도 함께 비교할 수 있는 data일 지 잘 모르겠습니다.
      다른 후보에 대해서는 어르신층의 지지 성향도 다르기 때문에 직접 비교하는데는 무리가 있을 것 같다는 생각도 들고요.

      2. K 값이 크게 나온 이유에 대해 '경계선'에 대한 논리로 1.5배가 자연스러운 현상이라는 말은, 모든 미분류표가 "정상표이나 경계선에 찍혀 미분류 된 경우" 일 때 성립하는 조건 아닌가요?
      '정상표이나 경계선에 걸처서 미분류된 표'가, 전체 미분류된 표에서 어느정도의 비율을 차지하냐를 현재 알 수 없지만(혹시 알고 계실까요?), 그것만으로 1.5를 설명할 수는 없다고 생각됩니다.

      삭제
    9. 동일 갯수의 미분류표를 수검표하여 유효표로 판정된 숫자,
      두 후보간 이 숫자의 비율이 K값인 것으로 이해하고 있습니다.

      즉, 1000장의 미분류 표를 기준으로 했을 때,
      1번 후보의 경우 300장이 유효표로 인정되었다면,
      2번 후보의 경우 200장이 유효표로 인정되었다는 것이죠.
      마지막 후보의 경우도 같은 방식으로 검증해 볼 수 있다고 봅니다.

      그리고 모든 미분류표가 경계선에 찍혀서 미분류 된 것이 라고 고려한 것은 아니고요..

      다양한 유형의 미분류표가 있는데, 그 중 유효표로 판정되어야 하는 경우가
      1. 동일 후보의 칸에 중복날인 -> 유효표
      2. 도장이 번진경유 -> 유효표
      3. 타 후보의 영역이 아닌 여백과 걸친경우 -> 유효표
      4. 타 후보의 영역과 겹쳐찍은 경우 -> 무효표

      이 3,4번 조항에 해당되는 경우가 상대적으로 많아서 K=1.5에 가까이 수렴하는 것으로 주장했습니다.

      미분류표의 유형에 따른 정확한 숫자는 생업에 바쁜 민간인으로서 알길이 없지요.. :-)


      삭제
    10. 1. 물론 마지막 후보도 말씀하신 방법으로 검증할 수 있겠지만, 전체 득표수 자체가 작기때문에 1,2번 후보와 비교하기는 힘들 거 같다는 말씀을 드렸던겁니다. 할 수야 있겠지요. 하지만 결과가 어떻게 나오든 적은 n수로 인해 정확성이 떨어진다는 이야기가 나올 거 같아 큰 의미가 없지 않을까 드린 의견이었습니다^^;

      2. 위에서 말씀하신 1~4번 가운데 3,4번이 많아서 K가 1.5에 수렴한다는 말씀 중에서는, 4번은 무효로 분류되기 때문에 해당되지 않겠지요?;; 따라서 3번때문에 K값이 많이 증가했다는 것인데.. 1~3번의 중 3번의 비율을 알 길은 없겠지만..(저도 생업이ㅠㅠ, 또 재검증하지 않는 이상 현재 data는 없을 것으로 추정되네요), 1~3번이 모두 동일한 비중이라고 두면 K값이 1.5가 나올 수 없습니다... 3번이 100%라고 해야만 가능한 수치일 것이고, 이는 K=1.5에 대한 충분한 답변이 되지 못한다고 생각합니다.

      정확한 검증은 미분류표에 대한 분석을 다시 해야하는 것인데.. 아마 힘들겠지요?

      삭제
  16. 작성자가 댓글을 삭제했습니다.

    답글삭제
  17. 작성자가 댓글을 삭제했습니다.

    답글삭제
  18. 글쓴이님이 좀 헷갈리신 것 같네요. 님 말씀처럼, 단순히 기표오류는 1번 지지가 더 많을 수 있겠지요.(상대적으로 늙고 저학력이기 때문에) 하지만 더플랜에서 K를 계산할때, 기표 오류라서 미분류표된 표를 가지고 하는것이 아니고, 기표가 제대로 됐음에도 미분류표된 표(미분류표 득표율)를 가지고 하는거에요. 미분류표 득표율은 단순 기계 오류에 의한 것이기 때문에, 편향이 없어야 하는 것이죠. 기계가 1번인지 2번인지 구분해서 오류를 범하는게 아니자나요

    답글삭제
    답글
    1. 이게 정확한 반박이고 정답에 가깝네요. 영화를 제대로 보신 분들이라면 무슨 말인지 아실것이고, K가설 관련 포스팅만 보신 분들은 온전히 이해가 (불가능은 아니지만) 힘드실 듯..

      삭제
    2. 선관위 보도자료에 따르면 지난 18대 대선에서 시골(군단위)의 미분류표 비율은 5프로대 초반 도시(시단위)의 미분류표 비율은 2프로대 후반이라고 나옵니다.

      미분류표중 정상표로 분류되는 표의 기준은 본글의 본문에 있습니다. 라인에 기표한것도 미분류표로 갔다가 유효표로 계산됩니다.

      삭제
  19. 다른건 모르겠는데 노인분들이 미분류 표를 많이 양산한다는게 어디서 기인하는 건가요?
    뭐 으레 그렇게 되지 않을까 생각하는데 저 역시 그렇구요
    그런데 이전에 봤던 자료중에서 젊은 지역 유권자가 많은 지역과, 노령 유권자가 많은 지역의 미 분류표 비율을 본적이 있었는데, 의외로 젊은 유권자가 많은 곳에서 미 분류표가 높더군요. 그 당시 의외로 내가 가진 사고가 선입견일지도 모르겠구나 하고 생각했기에 기억이 남습니다.
    혹시 말씀하셨던 2가지 편향을 가정해도 될 지표가 있으신가요?
    저 역시 한 때 통계학을 전공하였기에 님께서 말씀하신 두 가지의 편향을 고려하더라도 저 결과는 이해가 되지 않습니다.

    답글삭제
    답글
    1. 선관위 보도자료에 따르면 지난 18대 대선에서 시골(군단위)의 미분류표 비율은 5프로대 초반 도시(시단위)의 미분류표 비율은 2프로대 후반이라고 나옵니다.

      시골의 60대이상 인구비율은 40프로이고 도시의 60대이상 인구비율은 20프로입니다.

      시골과 도시의 미분류표 비율차이는 연령이 기인하는 부분이 크다고 보여집니다.

      삭제
  20. 랜덤으로 찍으면 1번이 원래 유리한겁니다 바보님들아

    답글삭제
  21. 근데 경상도에서 위에 설명한 이유로 1이상이 나오는 것이 노인들의 기표실수 때문이라면 전라도에서는 1~1.5 가 아니라 1이하로 나와야 하는 것 아닌가요??

    답글삭제
  22. 글 출발인 전제부터 이상하네요.

    답글삭제
  23. 작성자가 댓글을 삭제했습니다.

    답글삭제
  24. 서류받는 일만 7년 한 제 관점에서 봤을 때 서류작성만 시켜봐도 대부분 노인들이 더 조심스럽고 정확하게 쓰시던데요.. 덮어놓고 노인이 많이 틀렸고 그래서 미분류에서 박이 많이 나왔다니..그건 좀 억지라고 생각합니다..

    답글삭제
  25. 그리고 오차가 전체 표에서 1퍼센트가 차이가 난다는건 어디에 나오나요? 이해를 잘 못하신거 같은데 좀 섣부른 반박을 하시는거 같네요.

    답글삭제
  26. 여론조사의 표본은 랜덤이고 영화에서 나온건 투표의 결과, 즉 결정된 표본이라는 겁니다. 나타난 현상은 특징이 아니라 확률적으로 불가능한 결과라는 얘기를 하는 겁니다. 그래서 이게 조작이 아니라면 어떤 원인에 의한 결과인지 해명을 해야 한다는 겁니다.

    답글삭제
  27. 무엇보다 중요한건 현재 개표 방법이 불공정 할 수 있다는것이 증명됐으니 비용과 노력이 들더라도 좀 더 세심하게 준비를 하자는 것인데 굳이 반대 할 이유가 없지 않나요? 다른일도 아니고 나라의 리더를 뽑는 일입니다.

    답글삭제
  28. 작성자가 댓글을 삭제했습니다.

    답글삭제
  29. 긴글 쓰다 지웠고요..

    간단하게 말해서 미분류표와 연령대와 상관이 없는 것이요..

    K값을 내기 위한 미분류표는 미분류표 전체 수와는 전혀 상관없이, 그냥 해당 후보자에게 투표했는데.. 기계가 오류로 미분류로 보낸 표입니다.

    따라서 연령이나 기표 실수는 저 K값과 아무 상관이 없다는 것입니다..

    답글삭제
  30. K값은 그렇다 치고, R square값이 0.98임을 설명해 보시죠.
    본인이 통계 잘한다고 하시는 거 같은데.

    답글삭제
  31. K값 1.5를 노인들의 삑사리 때문이라면... 전라도 지역에서는 1.0 밑으로 나와야 합니다.. 그런데도 전라도 지역에서 K값이 1.1~1.3 이렇게 나오는 것은 노인들의 삑사리 및 지역주의와 같은 bias가 원인이 아님을 방증하는 것입니다. 영화에서도 디테일하게 설명하지는 않았지만, 이런 부분에 대한 언급이 있고요... 그리고 역누적 수치에 대한 반박과 관련해서.. 개표할 때 투표가 이루어진 순서데로 개표한다는 어떤 근거가 있나요? 즉, 늦게 투표된 투표함이 늦게 열린다는 근거가 있나요? 이건 제가 잘 몰라서 물어보는 것입니다.

    답글삭제
  32. K값은 상대적인 비 입니다. 전라도에서 노인들이 박근혜를 지지하지 않지만 젊은층이 박근혜를 더 지지하지 않는다면 K값은 1보다 클 수 있습니다.


    예를들어 전라도에서 젊은층 99%가 문재인을 지지하고 고령층 98%가 문재인을 지지하면 K계수는 1보다 커집니다.

    K계수는 절대적인 지지율을 얘기하는건 아닙니다.

    답글삭제
  33. 말도 안되는 반박글이네...노인분들이 만은 곳은 오차확률이 높고 젋은분들이 만은곳은 오차확률이 적을꺼라는 그냥 자맘데로 적은생각을 대입해놨네... 개표작업은 절대로 수작업이 답이다 무슨 다음날 출근할꺼를 생각해서 기계로 한다는 말도안되는..ㅋㅋ

    답글삭제
  34. 어떻게 수리적 계산에 주관적 판단을 집어 넣고 논리적 반박이라 할 수 잇죠? 정말 웃기네요. 노인들이 많아서 미분류표가 많고 경상도라서 많다는 게 객관적인 근거가 되는가? 당신 말이 맏다면 이게 맞다는 증거를 제시하시오. 숫자는 거짓말을 안합니다.

    답글삭제
  35. 그리고 전자개표는 충분히 조작될 수 있음을 많은 전문가들이 지적했고 또
    프로그래머가 시연까지 해서 조작될 수 있음을 보여주었는데, 전자개표를 고수하는 저의가 머죠? 전자개표를 완전히 배재하자는게 아니라 이것을 보조수단으로 사용하자는 게 취지같은데요.

    답글삭제
  36. 작성자가 댓글을 삭제했습니다.

    답글삭제
  37. 본질은
    http://clien.net/cs2/bbs/board.php?bo_table=park&wr_id=54637631&sca=&sfl=wr_subject%7C%7Cwr_content&stx=%ED%98%BC%ED%91%9C&page=2

    답글삭제
  38. 작성자가 댓글을 삭제했습니다.

    답글삭제
  39. 작성자가 댓글을 삭제했습니다.

    답글삭제
  40. 작성자가 댓글을 삭제했습니다.

    답글삭제
  41. K값에 대해 조금 단순화 시켜서 해석하신것 같아,
    저번 대선에서 K값이 높게(1.5가) 나온 이유를 설명하신 부분에 대해 의견을 드립니다... 어떻게 생각하시는지 의견 부탁드립니다.

    박근혜 지지지역에서 박근혜의 표가 많으면 어르신들이 많고 그에 따라 미분류표도 많아진다고 하셨는데요. 이럴 경우 분자의 '박근혜미분류표/문재인미분류표'가 커지는 것은 사실입니다. 하지만 그만큼 '박근혜분류표/문재인분류표'도 커지게 됩니다. 따라서 무조건 K값이 커지지 않습니다.

    '박근혜를 지지하는 어르신'이라는 조건은 위 식의 '분자와 분모' 모두에 영향을 동일하게 준다고 볼 수 있습니다(어르신 중에 미분류와 분류에서 지지율 성향이 달라진다고 보지 않는 이상은요).

    따라서 어르신들의 미분류 확률이 높다고 해서, K값이 커지는 것은 아닙니다.

    제 논리에서 잘못된 부분이 있을까요?
    어떻게 생각하시는지요?

    답글삭제
  42. 작성자가 댓글을 삭제했습니다.

    답글삭제
  43. 작성자가 댓글을 삭제했습니다.

    답글삭제
  44. 작성자가 댓글을 삭제했습니다.

    답글삭제
  45. 작성자가 댓글을 삭제했습니다.

    답글삭제
  46. 작성자가 댓글을 삭제했습니다.

    답글삭제
  47. http://blog.naver.com/brightcore/220990723719

    1.5가 나올수 밖에 없는 이유는 투표용지의 가장 상단, 가장 하단에 있는 투표자는 중간에 있는 투표자들과 달리 무효판정의 기준이 다르기 때문이다.

    첫후보 유효표(박근혜) - 좌,우,상단 3Areas
    중간후보 유효표(문재인) - 좌,우 2Areas
    끝후보 유효표(모름) - 좌,우 하단 3Areas

    비율은 1.5다 끝.

    지금까지 김어준이 4년간 모르고 찾아 헤매다 홍보용 광고 수입료 장사하는 결론.

    자신있으면 선관위랑 김어준이랑 개표해서 둘중 하나 콩밥먹기 해보자. 김어준 멘붕올꺼다ㅋㅋㅋ

    답글삭제
    답글
    1. 위쪽에
      "2017년 4월 24일 오전 2:02"
      "2017년 4월 24일 오후 6:31"에
      제가 남긴 답글 한번 읽어봐주시겠어요? 어떻게 생각하시는지요?

      삭제
  48. 특정후보(박근혜)를 지지하는 특정부류(노인들)의 실수가 많아 무효표로 많이 분류될 수 있다?ㅎㅎ 한국의 틀딱님들을 너무 우습게 보시는군요;;
    특정정당 투표에 관한한 젊은 사람들보다 더 주도면밀(?) 하십니다요!!

    답글삭제
  49. 저는 이분글에서 가장 어이없는 주장은 바로 자동개표기 하는 이유가 수당을 줘야 하니까 수개표로 하지 말아야 한다는 어처구니 없는 글으 보고 댓글을 답니다. 이게 비용 문제 입니까? 그리고 얼마나 비용이 더 들어갈지도 모르면서 대략적으로 늘어날거다 그런 소리 할거면 이런 장문을 쓰시는 데 너무 논리가 빈약하신것 같습니다. 그리고 K 값 평균이 1.5의 영향이 노인분들 때문이라고 하셨죠? 김어준의 파파이스142회 보시면 왜 자신의 주장이 그냥 생각만으로 단순히 표면적인 TK 지역은 노인분이 많이 투표해서 그런 결과다라는 것에 반박하는 자료니까 보고 곰곰히 생각해보세요. 이번 대선에서 K값 1로 수렴한다면 이분의글은 뇌피셜이 뿐입니다.http://www.hanitv.com/?mid=tv&category=52596

    답글삭제
  50. K값의 원리를 이해 못하기 때문에 이와 같은 글을 올리신 것이라고 생각합니다.
    일단 본문의 K값 공식이 다르군요. (아 다르고 어 다른거에요.)
    "박근혜를 찍으려했으나 미분류로 된 표" 가 아니고!
    " 미분류표에서의 박근혜 유효표" 입니다!

    따라서 노인요소는 고려할 수 없습니다.

    어떻게 분류표(모집단)에서의 비율과 미분류표(샘플링집단?)에서의 비율이 다를수가 있나요?
    갯수가 적은것도 아니고... 전국 지역에서.... 1.5로 수렴하면 안되고 1에 수렴해야죠.



    답글삭제
  51. K값은
    분류표(모집단)에서의 비율과 미분류표(일종의 샘플링집단?)에서의 비율 입니다.


    이는 모든 자연현상을 분석할때, 각종연구할때 쓰이는 개념입니다.
    최대한 모집단과 샘플링집단의 비율이 같게끔 연구해야 하고, 그게 맞지 않으면 신뢰도가 떨어지는 연구결과를 낳게 되지요.

    즉 K값이 1.5가 나오는 현 선관위시스템은 심각하게 문제가 있는것이 맞습니다.
    (연구하는 사람으로서 강하게 말씀드리자면, K값이 1.5인 것은 매우매우매우 비정상이에요)

    역으로 검증한 내용도 나오지요.
    지난 대선이 아닌, 17대 대선의 세 선거구에서의 K값은 1에 수렴하였습니다.
    이게 정상이에요.

    이해에 도움이 되셨으면 좋겠습니다.

    저는 반드시 수개표 해야한다고 생각합니다. 비용이 몇배로 들던지요.

    답글삭제
  52. 말이안되는게 몇개있네요. 개표소에 가있으면 공표보다 먼저방송한다고요? 투표수가 몇표인지도 아직 안나왔는데 그걸 어찌 알고 내보냅니까?? 그리고 k값이 1.5가나온게 나이들어서 찍은거라면 여태까지 투표및 해외투표 모두가 그런 경향이 나타나야합니다. 왜냐? 18대 대통령 선거 뿐만이아니라 17대대선도 16대대선도 15대 대선도 세대간 경향차이가 뚜렷하며 총선거역시 그래야합니다. 1.5던 1.4던 1.3이던 이정도 수준에서 나타나야하죠. 나타납니까?

    답글삭제
  53. 국내선거뿐만이아니지요. 해외에서도 그런 경향이 보고가 되어야합니다. 미국이건 영국이건 독일이건간에 연령에 의한 경향차이는 눈에 보이는수준이기때문이지요. 그런데 해외 선거전문가가 우리나라 K값을보고 이상하다 라고 판단했는데 그는 왜 이상하다고 판단했을까요?

    답글삭제
  54. 궁금한게 하나 있습니다

    답글삭제
  55. 더 플랜을 보고 상당히 일리가 있는 주장이라고 생각하는 사람인데, 기하학적 반박을 보니까 그것도 일리가 있을것 같다는 생각이네요. 그러니까 기계가 미분류로 분류 보류시키는 표중에 정상표를 살펴봐서 선분때문에 오류로 토해내는 비율이 많다면, 기하학적 반박에 의해 K1.0이 정상이다라는 주장은 성립될수가 없다는 생각입니다. 그런데 정상표들 가운데 선분에 끼여있지않은 완벽한 정상표 비율이 많다면 단순한 기계적인 오작동으로 기하학적 반박의 전제자체가 틀린것이 됩니다. 이게 제가 궁금한 부분인데 답변가능하신분 답변좀 부탁드려요.

    답글삭제
  56. 작성자가 댓글을 삭제했습니다.

    답글삭제
  57. http://blog.naver.com/eyh301

    이것도 좋은 것 같아요

    답글삭제
  58. http://www.projectboo.com/archive/153353 답변이 나왔네요.
    투표용지는 면적과 빈도수로 계산했을때, 높이와 빈도의 영향을 받고 값이 클수록 1에 가까워집니다. 그리고 밑에 수식은 도저히 모르것네요. 결론은 미분류율이 크다고 해서 K지장을 주지 않는다는 것이죠. 미분류율과 K값은 같지 않다입니다.

    답글삭제
  59. 글쓴이 님의 수학적 센스가 좀 떨어지신다고 보여지네요. 편향이 있어 K=1이 나올 수 없다고 하시는데 그럼 비만한 나라와 그렇지 않은 나라에서 사용하는 BMI지수가 다른가요? 어느나라든 동일하죠. 그것과 같은것입니다.
    K=1이 나오는 이상적이고 실제로 그 언저리가 나오는게 정상인겁니다.

    답글삭제
  60. 작성자가 댓글을 삭제했습니다.

    답글삭제
  61. 작성자가 댓글을 삭제했습니다.

    답글삭제
  62. 작성자가 댓글을 삭제했습니다.

    답글삭제
  63. 글쓴이의 K상수값에 대한 논리 주장이 맞으려면 전라도 지역의 노인투표 성향은 문재인 후보에게 압도적으로 많았는데 미분류표도 문재인 표가 많아야 합니다. 이 점을 이해한다면 글쓴이의 K상수값에 대한 주장이 맞으려면 전라도 지역 평균 K상수값은 1이 넘어가면 안된다는 것을 알 수 있습니다. 그러나 실제 K상수값은 전라도 지역마져도 1 이상의 평균값으로 수렴하는 모순이 발생합니다. 따라서 글쓴이의 주장은 잘못된 것입니다.

    답글삭제
  64. 전라도에서 k값이 상대적으로 적게 나왔는데 1이상이네요? 전라도에서도 손떨리는 노년층 분들이 박근혜를 다 찍어서 그렇게 나온걸까요?

    전라도면 1이하가 되어야 당신이 말씀하신 말이 맞는 것 아닙니까? 노년층들이 문재인을 찍었는데 손떨려서 미분류가 되어 미분류표에서 문재인 득표가 더 많아야죠........

    뭡니까 이게.. 안철수 문재인이라면 이해가지만 문재인 박근혜였는데요?.... 노년층과 관계없다는 총수의 증거는 보셨는지요?..파파이스 한번 확인해보시죠..저번주 초반에 나왔을겁니다..

    답글삭제
  65. 그리고 k값의 존재는 선관위에서 인정했습니다. 변명은 당신처럼 했지만요.

    더플랜에서 개표기의 해킹이 가능한 것과 k값은 적어도 지금까지 나온 사실입니다.

    답글삭제
  66. ..댓글 단거 위에분이 다셨었네요 ㅋㅋㅋㅋㅋ 여튼 반박글 부탁드립니다

    답글삭제
  67. 마지막으로 한말씀만 드리겠습니다.
    이 방법은요 누구를 100% 대통령으로 만드는 방법이 아닙니다. 이거가지고 100% 누구를 당선시킬수는 없어요. 말씀하신 것처럼 움직일 수 있는 표가 많지는 않으니까요. 그래서 박근혜도 열심히 돌아다니고 자기도 투표하고 그랬던거죠. 하지만 유리하게 만들수는 있습니다.

    저는 그 점이 더 무섭다고 생각합니다..

    답글삭제
  68. 아쉬운 점은 영화의 기본 방향에 대한 해석 같습니다. 제가 볼 때 이 영화는 박근혜가 당선이 되었고 문재인이 당선 안된것이 문제가 있다라는 영화가 아닙니다. 선거에 사용되는 개표기가 문제가 있으니 수개표를 해야 한다. 라는 것이 주제인 영화입니다. 개표가 조작이 된다면 앞으로 특정 세력을 위해 지속적인 조작이 가능하다는 것이죠. 누가 당선되었던 간에. 이런 상황은 소위 우리나라에서 말하는 보수와 진보진영 모두 반기지 않아야 정상일테구요. 영화의 주제는 개표기 조작이 너무나 쉽게 가능하므로 수개표를 해야한다. 입니다.

    답글삭제
  69. https://youtu.be/Z-BDti5xbO4
    이영상을 앞부분을 보시면 김어준씨가
    님께서 제시하시는 반박에 대한 답을 드립니다.

    K값은 노인 성별 과 아무 관련이 없습니다.
    이영화를 만들면서 탑클래스의 통계학자분들이 내부적으로
    1년을 고민하고 반박하여 만든 결론이라고 하십니다.

    답글삭제
  70. 작성자가 댓글을 삭제했습니다.

    답글삭제
  71. 이 글에는 좀 이상한 부분이 많군요. 방송시각에 대한 말씀은 어느 정도 공감합니다. 언론사들의 경쟁 상황을 고려해보면 충분히 있을 수도 있는 일이라고 생각합니다.

    그러나 먼저 역누적 문제. 문재인 지지자가 늦게 퇴근해서 개표 시 역누적이 일어났다? 그럴 리는 없다고 봅니다. 기본적으로 투표일은 공휴일이고, 늦게 퇴근한 사람들 중 문재인 지지자가
    많았다는 것도 그다지 납득이 안 되는 주장입니다.

    그리고 K값. 2가지 Bias로 인해 2012년 대선은 특수한 상황이었다? 이도 이상한 주장입니다. 이전 대선에서도 지역 간, 세대 간 충돌은 동일하게 존재했습니다. 딱히 2012년 대선이 전과 달랐다고 생각되지는 않습니다. 그리고 노인 비율로 설명할 수 있는 부분에도 한계가 있습니다. 노인 분들은 이전 대선에서도 계셨기 때문입니다. 따라서 평균 1.5의 K값은 명백하게 이상하게 여길 수 있는 부분입니다.

    다만 이러한 사실들이 '박근혜 쪽 지지자들의 개표 부정이 있었다.'라는 논리로 연결될 수 있는 것은 역시 아닙니다. 실제로 '더플랜'에서 그런 주장을 한 것도 아니구요. 물론 그런 뉘앙스가 없었다고 할 수도 없으나, 공식적으로 그런 주장은 영상 안에 없었습니다.

    제가 생각하기에 '더플랜'의 이야기를 종합하여 받아들일 수 있는 부분은 딱 하나입니다. "개표 기계가 이상했다." 입니다. 영상 속 인물들은 그 원인을 누군가 부정한 자의 해킹 탓이라고 추론하고 있지만, 이 부분이야말로 값싼 음모론에 지나지 않아 보이고, 그보다는 우선, 기계 자체를 도입할 당시에 오류가 있었다, 라고 보는 편이 상식선에서 타당해 보입니다. 즉, 기계를 사용하기 전부터 기계의 미분류 로직 및 오류 셋팅이 처음부터 잘못된 상태였고, 선관위가 이를 모른 채 현장에 투입한 것이 아닌가 싶습니다. 몇 번이고 사전에 미리 테스트하여 이런 오류가 발생치 않도록 기계 조율을 했어야만 했는데, 그러지 못했던 것이죠.

    K값의 분포가 정규 분포를 이루고 있다는 점이 그 근거입니다. 정규 분포라는 건 이런 현상이 전국적으로 동일하게 일어나고 있었음을 말하는데, 만약 누군가 특정인의 조작이 있었다면 결과의 수치가 결코 정규분포를 이루지 못했을 겁니다. 당연히 조작을 한 지역구와 그렇지 못한 지역 간의 불균일한 결과 값이 도출되었겠죠. 그러나 오류의 통계적 결과치가 정규분포라는 건 기계 자체가 생산, 출고된 시점부터 그런 특성을 갖고 있었다, 라고 볼 수 있는 것입니다. 따라서 처음부터 조율만 제대로 했다면, 정상으로 되돌려 놓을 수 있었던 셈이죠. 비유적으로 표현하면 사격 훈련 시 탄착군이 잘 형성된 것과 같습니다. 사격 시 탄환이 정중앙에 맞지 않아도 어느 특정 장소에 몰려 있다면 조정간을 조작하여 사격 지점이 중앙으로 오도록 다시 수정할 수 있는 것이죠.

    물론 전국의 모든 기계에 동일한 조작을 가했다, 라고 주장한다면 이런 일이 불가능한 것도 아니지만 그 정도 대규모의 공작이 여야 의원 및 시민 참관인들이 있는 상태에서 가능했으리라고 생각하기는 어렵습니다. 한편 개표기를 총괄하는 중앙 시스템에 누군가 침범해서 조작했다라고 한다면 오히려 그 증거가 너무 명백하게 남아서 누군가에게 쉽게 발각되었겠죠. 여기에 더 나아가 선관위, 해커, 등등 수많은 관계자가 일치 합심하여 이 일을 벌였을 거야, 라고 생각할 수도 있는데, 이건 거의 피해망상 수준이라고 봅니다. 물론 세상이 미쳐돌아가니 실제로 그랬을 수도 있겠지만, 그럴 가능성은 정말 낮다고 판단됩니다.

    그런데 웃긴 건, 실제 중요한 쟁점이 미분류표가 아니라는 겁니다. 미분류표 따위야 얼마가 나오든, 비율이 어떻든 선거에 아무런 영향을 미치지 않습니다. 왜냐하면 미분류표의 비율이 기계적 오류에 의해 어떻게 되었든 결국 사람이 다시 확인해서 정상표에 섞어 넣기 때문에 총 득표수에는 전혀 변함이 없기 때문입니다. 다만 사람들이 좀 힘들어질 뿐이죠.

    따라서 '더플랜'의 주장에서 우리가 들여다 보고, 이상하게 생각해야할 부분은 바로 다음과 같은 내용입니다. 어떻게 보면 '더플랜'의 핵심이라고 생각하는데, 미분류표 비율이 조작되었다고 한다면, 그만큼의 "무효표가 박근혜, 문재인 후보의 정상표에 섞여 들어갔을 것"이라는 주장입니다. 이 주장이 없다면 앞서 언근했듯 미분류표는 실질적으로 전혀 문제가 되지 않습니다.

    그런데 '더플랜'은 기계의 오동작이 실제로 투표 결과에 문제를 발생시켰다, 라는 주장을 하기 위해서 미분류표로 나간 정상표의 비율만큼, 실제로 무효처리되어야 하는 무효표가 각 후보의 정상표에 섞여 들어가 득표수가 조작되었을 것이라는 대담한 주장을 펼칩니다. 그런데 사실은 이게 진짜 말이 안되는 주장입니다.

    통계학자의 수학적으로 어려운 이론을 늘어놓을 필요도 없습니다. 실제 현장에서 100장, 혹은 200장 단위로 기계가 검출한 투표지를 사람들이 육안으로 직접 확인합니다. 드르륵 넘겨서 보거나, 꼼꼼한 사람은 꼼꼼하게 들여다 보겠죠. 그런데 투표 용지가 무식하게 단순해서, 그 사이사이에 오류표가 있으면 바로 발견할 수밖에 없습니다. 큼지막한 칸에 새빨간 도장입니다. 다른 데 찍혀있거나 위치에 문제가 있으면 발견하지 못할려야 못할 수가 없죠. 실제로 '더플랜' 영상에서도, 개표기의 해킹 상황을 가정하고 기계가 용지를 분류하는 과정을 실험했는데 개표기가 다른 후보의 자리에 잘못 용지를 분류해 넣을 때마다 사람들이 깜짝 놀라서 탄성을 질렀습니다. 너무나도 쉽게 눈에 띤다는 말이죠.

    따라서 '더플랜'이 만약 투표 결과에 문제를 삼으려 했다면 다음과 같은 실험을 더 해봐야만 했습니다. 실제 육안 검사에서 이것을 발견하지 못할 확률이 얼마나 되느냐는 거죠. 그런데 그런 얘기는 전혀 하지 않더군요. 결론적으로 말하면 개표기가 고장났었던 것은 정황상 충분히 의심할만하나, 그렇기 때문에 결과가 조작되었다라는 주장은 억측일 가능성이 높다는 것입니다.

    더욱이 육안 검사의 능력은 사람마다 천차만별입니다. 따라서 득표 수가 조작되었다고 가정한다면 육안 검사를 통해서 잘못된 표를 걸러냈을 때, 결코 각 지역의 K값이 정규 분표가 될 리가 없습니다. 그럼 여기서 추가로 음모론의 주장을 한 번 지지해봅시다. 특정 정당이 선거인단 전체를 매수하여 육안 검사를 대충하도록 했다면 어떨까? 역시 이것도 말이 안 됩니다. 개표장에 몇 사람이 새파랗게 눈을 뜨고 있는데, 모든 개표 참여자가 육안검사에서 발견된 오류를 은밀하게 감추고 통과시켰다구요? 당연히 그럴 수가 없습니다. 집단 최면에 걸리지 않은 한은 말입니다.

    따라서 결론은 하나로 귀결됩니다. 미분류 동작 시 기계 오류가 있었다는 겁니다. 선관위는 이 사실에 대해 공식적으로 사과하고, 기계 점검을 다시 해야합니다. 게다가 필요하면 개표도 다시 해야하고, 당시에 문제를 일으킨 책임자에게도 사회적 처벌이 가해져야만 합니다.

    반면, '더플랜'에서도 주장에 상응하는 책임감을 지녀야 합니다. 아니면 말고, 라는 식으로 넘어가기에는 "해커가 조작했다" "민주주의가 무너진다?"라는 지나치게 선정적인 추측 및 주장이 충분히 사회적인 문제를 야기할 수도 있다고 생각합니다. 분명히 의심할만한 문제에 대해 의문을 제기한 대목은 옳고, 응원하지만, 그 사이사이에 들어간 가치 판단 및 음모론성 주장들에 대해서는 조금 더 신중했어야 한다고 봅니다.

    민주주의란 개인이 사회를 향해 자유롭게 의문을 제기할 수 있도록 하는 권리를 부여하는 동시에 그만큼의 책임감도 요구합니다. 이 다큐를 보고난 뒤 끝내 씁쓸해지는 이유는, 향후 누군가의 의도적인 조작이 아니었던 것으로 명백하게 판명이 되는 경우에도, 이런 질문을 제기했던 그 누구 하나 대중에게 그 잘못을 인정하지 않을 거라는 생각이 들기 때문입니다.

    답글삭제
  72. 그리고 위 댓글 중에 1번 후보는 경계선이 3개, 2번 후보는 경계선이 2개여서 미분류표 중 유효표의 비율이 1.5대 1이 되었다, 라는 주장이 있는데 이건 이치에 맞지 않습니다.

    먼저 모든 미분류 유효표가 경계선에 있었던 것이 아닙니다. 게다가 경계선 개수 비율 때문에 득표율의 차이가 딱 그만큼 발생했을 것이다, 라고 주장하려면, 투표자가 눈을 감고 랜덤한 위치에 도장을 찍었을 때를 가정해야만 합니다. 하지만 아무리 미분류 표라고 해도 투표란 것이 그 좌표를 랜덤으로 찍어서 하는 게 아니기 때문에, 각 후보 투표 면적 비율과 실제 득표률 사이에는 큰 상관 관계가 없지요.

    답글삭제
  73. 1.5는 "박근혜 표가 문재인 표보다 많았다 혹은 많게 조작되었다"를 설명 못하는 것 같습니다. 확인되는 사실은 "유효표와 무효표의 개표 결과가 크게 다르다"이기 때문에 논점이 명확합니다. 이 외 바이어스와 퇴근 시간 어쩌고 저쩌고는 말꼬리잡는걸로 밖에 안보이네요....실제 팩트와도 크게 다르구요

    이전엔 지역색이 없었나요? 말씀 자채가 너무 웃겨요 ㅎㅎ
    공휴일에 무슨 퇴근 시간? 이건 또 ㅋㅋㅋㅋㅋ

    또 뭐가있더라 ㅋ

    답글삭제
  74. 미분류표가 랜덤추출이라는전제가성립하지않는데 무슨 k값이1로 수렴한단말이오
    k값이 1.5라는게 조작의증거가되려면 미분류표가 랜덤으로추출된다는전제가있어야하는데 그게없음 미분류특징을 이해하지못한대서나온 어불성설이지 1.5는 단지 어떤결과값일뿐이고 그이유는 편향 세대별투표행태가될수있단말임

    답글삭제
  75. 여쭤볼것이 있어서요.

    0. 이른바 K값 이전까지의 이야기 중

    대한민국 기자들은 속보경쟁하니 선관위 발표보다 빠르다고하셨습니다.
    >> 기자들이 아무리 빨라도 개표되기전 투표지의 투표현황을 어떻게 방송국에 전달할까요?



    1. 미분류표란

    18대 대통령선거, 20대 총선, 19대 대통령선거 참관인이였습니다. 저는 서울지역에 살고 있으며 참관하면서 미분류표를 많이 봐오긴했지만 유효표보다 비교할 수 도 없는 양있고 저희가 직접 숫자를 파악하지는 않기 때문에 미분류표량이 몇 %다 이렇게 단정짓는건 어려운거라 생각하고요.

    다른나라의 미분류가 낮은 이유를 설명하시길 칸이 크고, 후보들 간격이 크다고 하셨는데요.. 이건 결코 논리적인 설명이 안된다고 생각됩니다, 다른 국가(독일) 투표지도 검색해봤는데 우리나라랑 비슷했습니다.


    2. K는 1이어야 한다?

    18대 대통령선거가 지역전쟁이라고 말씀하시면서 기표 실수 할 수 있는 사람들이 집중적으로 한 후보를 찍는다면 1보다 큰 숫자가 나올 수 있다고 설명하셨는데요..

    K값 이해를 완전히 못하신것 같으세요.. K값은 완전한 미분류표를 뜻하는것이 아니고, 미분류표로 분류된 유효표의 비율이 K값인거에요. 그러니 글 쓰신분이 주장하는 나이든 사람이 투표지에 실수를 더 많이하니 K 값이 더 높게 나올 수 밖에 없다. 라는 말은 안 맞는것 같습니다.

    아니면 조금 방향을 다르게 생각해보죠..
    전라도와 경상도의 연령대 비율만 보면 전라도의 연령대가 경상도의 연령대보다 훨씬 높은것을 알 수 있습니다. 대부분 경상도 지역 어르신들은 박근혜에게 투표하며 미분류표를 만들었고, 대부분 전라도 지역 어르신들은 문재인에게 투표하며 미분류표를 만들었다고 가정했을 시 미분류표가 나올 확률은 오히려 고령비율이 높은 전라도에서 K값이 더 높게 나와야하는것이 정상적인것이죠.

    따라서 글 쓰신분의 주장과는 전혀 다른 내용입니다.


    만약, 글 쓰신분의 말이 맞을경우 전라도는 1.5보다 낮게, 경상도는 1.5이상 나온다고 해서 그렇게 나왔다고 하죠. 하지만 서울 경기지역에서는 누가보더라도 거의 1.5인데 이거는 어떻게 설명하실건가요?




    3. 분류기 해킹
    여기에서 무슨 근거로 1%를 잡으셨는지 모르겠는데요. 1%인 30만표정도 차이난다고 하셨는데.. 1%는 30만표이지만 이 표가 한쪽으로 이동시 실제 차이는 60만표나는거죠.





    4. 처리하는 순서만 바꾸면 된다고 하는데?
    상당한 시간이 걸릴것이다 라고 반박하시는데요.
    저는 그렇게 생각하지 않습니다. 왜 표를 모아서 세야한다고 생각하시나요? 투표지에서 수개표한 후에 맞는지 이 후 모아서 분류기 돌리면 충분히 가능하고 오히려 시간이 더 절약된다고 생각됩니다.

    전국 투표소 13,542개소 3천만 투표시 각 투표소에서 2~3천장을 기존 인력 10명이 나눠세면 200~300장이 됩니다. 여기에서 끝나도 좋지만(독일에서는 실제 이 방법을 사용합니다) 분류기를 돌려야 되겠다면 이미 센 투표지를 개표소로 이동시켜 분류기를 돌리기만 하고 이상 없는지 확인만 하면됩니다.. 이러면 오히려 시간이 절약되고 시간은 바로 금전과 직결되는 사항입니다.





    5. 그러면 뭐냐?
    아내분이랑 번개 두 번 맞는 기회를 얻으신거네요?

    답글삭제