Previous Entry Share Next Entry
Гауссиана - фальсификация для доказательства фальсификации
8cinq

Предыстория


В период пост-выборного срача, в интернете появились несколько видов "математического доказательства" фальсификации выборов. Например вот такой график, так называемой "гауссианы".



Впервые столкнувшись с гауссианой при анализе выборов, я впал в ступор. Я не математических наук доктор, а матанализ для меня давно законченный предмет из далекого университетского времени. Но я всегда считал, что с математикой и логикой у меня лады - мне часто приходится иметь дело с функциями по работе, приходится думать над логикой работы больших систем в веб проектах - тренировка есть. Но тут я почувствовал себя дураком - я читаю комментарии "математического доказательства", которые изобилуют уверенностью в своей правоте. Даже те, кто умом, на вид, не отличается - и те похоже все поняли. А я сижу и вижу только лишь гистограмму, которая сообщает нам бессмысленную статистику. При чем здесь гауссиана? Как вообще можно применять гауссиану в качестве социологического исследования?

Я постучался в скайп к своему знакомому, ядреному технарю, который уж точно должен был мне вправить мозги. Тем более никакой симпатии к власти он не испытывает. Он тоже напрягся, подумал, мы почитали тексты эсквайра и блогов - но смысл всего этого действа опять ускользнул от нас. Стало ясно, что дело мутное и нужно в это серьезно вникать, чтобы написать опровержение. На написание статьи ушло 2 дня. Задача представлялась сложной. Сложно объяснять бессмысленность.

Благодарю 4izh за помощь в составлении материала. Его комментарии в тексте будут отмечены вот таким цветом.


Что такое гауссиана и что она здесь делает?


Начнем с того, что гауссиана - это функция, которая предназначена для изучения отклонений в технических измерениях. К гистограмме выборов это не относится, ведь никакой функцией мы не пользуемся. Если и есть смысл применять к ней какой-то научный термин, то это Нормальное Распределение - такое распределение случайных данных, гистограмма которых напоминает колокол по своей форме.

Область применения гауссианы. Например, мы изобрели супер нанотехлологичный измеритель радиации. Оценить качество нашего изобретения можно при помощи несложных тестов: мы берем кусок урана с заведомо известным (точным) уровнем радиации и начинаем его мерить нашим прибором. Для точных показателей мы заинтересованы в большом количестве замеров (репрезентативной выборке). Замеры не будут постоянно давать одинаковый результат, а мы будем получать некий разброс. Выстроив гистограмму, мы должны получить нормальное распределение полученных величин - тот самый "колокол", где значение горизонтальной координаты пика является истинным значением уровня радиации, а из характера формы мы можем получить полезные статистические величины, как, например, погрешность измерения. Именно этот показатель и будет отвечать за качество нашего изобретения.

Но и с Нормальным Распределением существует проблема. При желании можно даже детский рисунок радуги сравнить с Нормальным Распределением по внешнему виду, но кроме как для создания "ореола научности" это не будет иметь смысла. Строго говоря, ни один анализ выборов в сети, ни одной партии, ни одной страны - не соответствует нормальному распределению. Или у вас ровный "колокол" или ваше распределение не попадает под этот термин.


Что там у других стран с гауссианой?


Чтобы доказать бессмысленность данного подхода, мы взяли на себя работу по построению нормального распределения для выборов в Польше - страны, которую часто используют как пример хорошей избирательной системы. В выборке участвовали все 25983 избирательных участка страны.

Для пытливых: таблица с данными, внутри файла ссылка на первоисточник. Благодарю Opera.Rulez за помощь в сборе данных.



Не очень колокольно, но все же напоминает нормальное распределение. Но это партия Польши не с самым большим количеством голосов, она проиграла. А как дела обстоят с ведущей партией?



Блядь, это кадр из фильма "Челюсти"!

Как видно, никаким "колоколом" здесь не пахнет, даже распределение ЕР больше похоже на Нормальное Распределение. А сколько "зубчиков" ?!

А ведь Польша маленькая страна, в сотни раз меньше России, где намного меньше раздробленность людей по национальности, достатку и среде обитания. По сему, вопрос с гауссианой считаем нужным закрыть. Если кто-то сует вам в нос данное "математическое доказательство", то можете смело раскручиваться на месте как юла, раскинув руки, громко хохоча. Эти графики не означают ничего.


График Голоса/Явка


Осталось разобраться еще с одним графиком, который можно встретить в сети. Это отношение Голоса/Явка. Выглядит он так:



С одной стороны этот график как бы намекает нам, что на некоторых участках явка невероятно высока, 90-100%, что намного реже встречается в других странах. Это нам может говорить о том, что на этих участках вбросили бюллетени.

Или нам это может говорить о том например, что это военные части, куда всех загоняют голосовать без исключения. Например, в Польше, которую мы берем за образец, такое тоже бывает - явка 100%. А представьте сколько у нас в России военных частей? Сотни их. Можно ознакомится с мнением непосредственного участника таких голосований.

Есть здесь и другой фактор - маленькие бедные области. Например Атяшевский район Мордовии, где за ЕР отдано 99% голосов. Это три десятка деревень в далеком отшибе от цивилизации. Какие вообще могут быть политические предпочтения в таких местах, как вы себе представляете? Там попросту не знают политической жизни. - Многопартийная система? - Ага, что-то слышал.

Сколько еще таких мест? Уйма - будет мало сказать. Приехали на вездеходе в деревушку, завезли полезной утвари от правящей партии и сказали - приходите обязательно, да голосуйте за нас. Людям то что? Проголосовали и забыли. В этом нет ничего хорошего, но и криминального тоже. Вот так в некоторых местах жизнь течет, среда обитания слишком бедная и жестокая, чтобы жить лучше. Тут уже скорей вопросы к демократическому устройству нашей страны, которое предполагает то, что далеко не везде возможно.

Говорят еще о том, что направляющая Голоса/Явка у ЕР отличается от других партий - она поднимается вверх. Но это говорит скорей о закономерности, чем о вмешательстве - иначе небыло бы ровной линии, а были бы скачки. Почему такая закономерность? Предыдущий абзац может быть на то подсказкой, а может быть и что-то другое.

Мы не можем говорить о какой-то единой причине повышенной явки, но даже в этом случае можно легко найти объяснение данному феномену. При высоком проценте явки среди голосовавших значительно повышается процент "случайных обывателей", людей далеких от политики и, разумеется, совершенно ничего не слыхавших о новых мейнстримовых тенденциях в интернете критиковать правительство. В рамках современной политической и информационной системы России повышенные показатели ЕР при высокой явке (если таковые наблюдаются) являются скорее нормой, чем отклонением от нее.

Так или иначе, здесь остается большое пространство для интерпретаций, с нами можно спорить, мы можем спорить в ответ - уже поэтому математическим доказательством этот график не является.


Кто это вообще придумал?


График Голоса/Явка относительно новое изобретение. Надо отметить, что, так называемый, независимый эксперт журнала Эсквайр, который придумал этот вид исследования - Сергей Шпилькин - физик. Не кандидат наук, и даже не работник своей профессии, а просто физик по образованию, работающий переводчиком - вот такой независимый исследователь социальных процессов. Уровень авторитетности мнения как бы намекает :)

Но это не самое интересное. Самое интересное с пресловутой гауссианой. Потому что впервые, в качестве исследования выборов, мы смогли ее отыскать только в январе 2005 года на Украине, во время проведения оранжевой революции. Резервная ссылка.

Хочешь не хочешь, а проведешь параллели.


Добавки?


Город высоких и низкоросликов: абсурдность гауссианы в социальном исследовании
Вбивание гвоздей в пики





Спасибо за статью! Хорошо было бы объяснить откуда взялись зубцы каждые 5%. Так же, если не ошибаюсь, в той статье были отброшены участки с количеством избирателей меньше тысячи, так что пример с маленькими областями не очень корректен. Тем не менее отличная статья!

>Хорошо было бы объяснить откуда
>взялись зубцы каждые 5%

Надо отметить, что создатели верхнего графика не могли получить пики ровно в 50%, 55% и т.д. Любой желающий может сделать поиск по результатам избиркома, убедившись, что такие круглые цифры там встречаются крайней редко.

Например попробуем найти ровно 65%:
http://yandex.ru/yandsearch?text=%2265.00%25%22+2011&clid=9582&lr=56&site=izbirkom.ru

Из сотни тысяч ИК такой процент встречается только пару десятков раз.

Другими словами пики не могут приходится ровно на те проценты, которые там подписаны. Видимо автор округлил положение пиков для наглядности, отчего и возникло мнение о том, что они идут ровно через каждые 5 процентов.

Так как ровной закономерности нет, то не сосем понятно что тут обсуждать. Чем больше данных будет для построения гистограммы, тем больше она будет покрыта зубцами - это можно проследить по выборам в Польше. У нас очень много данных, поэтому очень много зубцов.

Если вы считаете нужным, то мы можем построить свою гистограмму по России с открытыми данными. Тогда будет наглядно видно, что пиков ровно на тех круглых процентах нет. Но на это потребуется время.



> в той статье были отброшены участки с количеством
> избирателей меньше тысячи, так что пример с
> маленькими областями не очень корректен

Если это так, хотя трудно найти методологию исследования, то отброшены в данном случае только военные части. Деревенские области имеют один ИК на десятки деревень. В Атяшевском районе Мордовии, который я привел в пример, числится 9320 избирателя. И так все деревни, данные объединены в областные ИК.

Все хорошо только

На первом рисунке (статистика по России) количество участковых избирательных комиссий измеряется в тысячах,
А на последующих 2-х (статистика по Польше) в десятках, маловато будет для выборки.
Можно взять всего 2 УИК тогда распределение вообще прямое будет.

Re: Все хорошо только

В исследовании Польши принимали участие все ее 382 избирательных участка. К сведению, десятки УИК в левой шкале - это условности построения гистограммы, а не общее количество участков.

Это намного меньше, чем в России, но достаточно, чтобы выявить тенденции. Если она тут есть, то скорей в том, что чем больше голосов участвует в исследовании, тем меньше результат похож на "колокол". К тому же, график явки по Польше без тени сомнения используют журнал Эсквайр, и блоггеры, несмотря на то, что количество данных было абсолютно такое же.

К сожалению, нет такой страны, которая могла бы сравниться с Россией по размерам и могла бы стать образцом избирательной системы. Это могла бы быть Америка, но они не держит данные выборов в открытом доступе.

не факт что приведённые по польше графики не являются гауссовыми распределениями
просто может так быть что эти распределения просто не достаточно массовые
польша достаточно маленькая
а вот что касается исходного текста то фальсифицированность он таки доказывает по нескольким причинам
и прежде всего по тому что распределение голосов за ЕР не затужает в сторону 100%
потом там есть гребёночка пиков подогнаных к круглым цифрам 60,65,70,75,80 и т.д. голосов
так что

Берем мой УИК:
Число избирателей, внесенных в список избирателей: 1521
Число действительных избирательных бюллетеней: 617

Сколько голосов надо отдать за ЕР, чтобы получить круглый процент?

Если поддерживаете Путина, голосуйте за него на http://www.facebook.com/za.chestnie.vibory?sk=questions

Я когда, увидел, что используется метод нормального распределения, чуть со стула не упал.
Ибо в моем университетском образовании все перевернулось

Вот и мы тоже впали в ступор. Это как линейкой измерять речь диктора.

По Польше вы взяли не избирательные участки, а территориальные комиссии - в каждой еще куча участков. К тому же количество людей в разных территориях отличается в десятки раз, так что надо как минимум отнормировать на размер территории, как максимум - взять данные по УИК (которых там тысячи)

Сначала я неправильно понял вопрос, поэтому удалил свой комментарий. Очень затратно по времени ввести данные каждого участка, но если вы считаете, что 400 усредненных территориальных показателя не достаточно, то мы сделаем полный анализ. Но что-то мне подсказывает, что график станет еще более зубчатым, а общая тенденция не изменится.

"Говорят еще о том, что направляющая Голоса/Явка у ЕР отличается от других партий - она поднимается вверх. Но это говорит скорей о закономерности, чем о вмешательстве - иначе небыло бы ровной линии, а были бы скачки. "
Какие еще скачки? В модели "у ЕР реальный рейтинг где-то 20-25%, а все что больше - достигается вбросом бюллетеней" никаких скачков как раз не будет.

В какой такой "модели"?

400 отсчетов очень маленькое количество для подобного графика, естественно будут разрывы.

Графики обновлены, теперь там выборка из десятков тысяч. Перепадов стало меньше, но тренд остался таким же - Нормальным распределением не пахнет.

"Хочешь не хочешь, а проведешь параллели"

Параллели довольно условные. В украинском посте все заканчивается самым "смелым" отступлением от гауссианы у голосов за Ющенко.
А про гауса столько уже сказано... все решит коибизация страны и тотальный контроль за тиками и уиками и ЦИКами.

/* А ведь Польша маленькая страна, в сотни раз меньше России, где намного меньше раздробленность людей по национальности, достатку и среде обитания. */
не такая уж маленькая, населения меньше всего раза в три с копейками. откуда у вас в сто раз получилось?

Размеры территории я имел ввиду. У нас сколько автономных областей, где политика может быть успешной или не успешной? А сколько из этих областей в принципе всегда были бедными из-за условий среды обитания? Кто-то живет в вообще без связи с цивилизацией, куда можно добраться только по реке. Живут промыслом, а главное время года там - это сход льда с реки. От нас это вообще далекая жизнь. А сколько национальностей? Кавказ, который веками в войне между с собой и с соседями. Ведь все это влияет на мнение людей. Россия - это не техническое изделие.

вообще говоря сама статья расчитана (разумеется имхо) на не слишком грамотных людей.
"Распределение" это только гипотеза которая описывает данные с той или иной точностью.
Любой набор данных можно описать (интерполировать) любым видом кривых. При этом говорить, что тот или иной набор "имеет" то или иное "распределение" можно только в смысле определённой точности.
т.е. после интерполяции например методом наименьших квадратов можно сказать что данный набор данных является "нормально распределённым с такими то параметрами и таким то отклонением.
При этом применив два вида гипотез мы можем, в определённом смысле, говорить, что набор является таким то, а не другим, если отклонение существенно меньше.
Возвращаясь к топик старту - нельзя просто показать какую то картинку и сказать дескать эти данные не распределены нормально. ЛЮБЫЕ ДАННЫЕ распределены нормально. НО при этом они отклоняются от нормального распределения в большей или меньшей степени.
Для того, что бы утверждать, что данные по польше не подчиняются нормальному распределению нужно (разумеется имхо) привести ту гипотезу которая описывает это распределение существенно лучше и показать это количественно сравнив например интегральное среднеквадратичное отклонение.
НО
и этого (разумеется имхо) для целей топик старта недостаточно.
Для этого нужно ту же гипотезу применить к данным ЕР и показать (опять же количественно) что эта гипотеза адекватно описывает этот результат голосования.

так вот что именно подразумевает Гипотеза о логнормальном распределении результатов?
она в сущности говорит, что результаты не подтасованы на голосование не оказывается давления
результаты голосования не коррелируют ни с какими волевыми факторами
т.е. выборы - легитимны
а что утверждают наши оппоненты?
они утверждают что результаты выборов не подчиняются логнормальному
т.е. что они не свободные подтасованные и пр.?
ну так кто жеж спорит?

Можно вас попросить, раз уж вы собрали подробные данные по Польше, выложить их в формате, позволяющем связять участки на одной территории? Например чтобы был указан номер округа и код территории. Очень интересно составить графики по разным территориям, есть мнение что они должны быть больше похожи на гауссианы.

полностью поддерживаю
вообще желательно и те данные которые обсуждаются дать тоже в доступном формате
а не просто картинкой

Пожалуйста, прикрепите кнопку репоста в ЖЖ.

такое ощущение, что вопрос существования пиков на первоначальном графике вы упорно обходите стороной.

естественно, преобладания круглых цифр в исходных данных не будет, потому что дробное число голосов невозможно.

а вот как возможно:
к примеру, представим 6 участков, на которых нужно подогнать результат под 65%. допустим, округляют вверх и вниз с равной вероятностью.
всего_голосов 65% голосов_за_жуликов реальный_%
679 441,35 442 65,10%
135 87,75 88 65,19%
458 297,7 298 65,07%
553 359,45 359 64,92%
649 421,85 421 64,87%
644 418,6 418 64,91%

Мы не видим причин обсуждать зубчики, это слишком не серьезно в ввиду "откушенного" графика Польши. Про него вообще можно сказать, что там от ровного Распределения как будто кусок откусили - значит, мол, забрали голоса. Но это глупость будет. Тем более в гистограмме по России пики не на тех ровных процентах, которые подписаны автором.

Если этот вопрос вас действительно волнует, то мы можем заняться этом вопросом. Но, насколько я вижу, с Нормальным Распределением уже не модно возится, нынче оно слито по всем фронтам и модно искать закономерности в циферках ГАС/УИК.

Полный абсурд

Никакие математические функции немогут быть использованы для построения всяких тут "преумных" графиков.
Кем то упомянутый метод наименьших квадратов вообще изпользуется для построения градуировочных зависимостей приборов и к каким либо социологическим исследованиям непригоден. То же относится к вышеуказанным крываым.

Эдакая "наукообразность" для недалёких людей.

Я сам писал программное обеспечение для радиоизотопных измерительных приборов в течении 6 лет. Так вот, всякая функция подразумевает ПОВТОРЯЕМОСТЬ результатов, при следующих измерениях, что явно противоречит характеру данных о выборах, ведь повторяемость результатов на следующих выборах, согласно тому же закону нереально. То есть, чтобы функция имело право на жизнь, она должна повторятся от выборов к выборам на той же территории, что противоречит элементарной логике поведения избирателей.

Надо сравнивать не с другой страной, а с предыдущими несколькими выборами тут же, в России.
Безсмыслица однако...

Полная хрень

Ребята, вы полной хренью занимаетесь. Единицей учета в системе ГАС ВЫборы является не избирательный бюллютень, а протокол участковой избирательной комиссии.
ruelect.com/ru/ - тут сравнивают реальные протоколы УИК и данные, внесенные в систему ГАС Выборы. Только дураки и мерзавцы могут считать, что выборы не были сфальсифициорованы.

?

Log in

No account? Create an account