Про арифметику и немножко про выборы

Давайте поиграем в детскую игру и представим себя пришельцами с далекой планеты Хи-2, которым совершенно не интересны наши смешные политические страсти. И пусть этим «хидвамам» дают 100 тыс. табличек с незнакомыми словами и числами и просят их разобраться в этих числах: возникли ли они сами по себе, или их «немножечко выдумали»?

Возможно, они поступили бы так: посчитали, как часто встречается последняя цифра в этих табличках, потому что она меняется чаще всех остальных цифр, особенно первой. Рассуждали бы осторожно: конечно, не стоит ожидать, что все цифры встретятся точно одно и то же число раз, — какой-то разброс вокруг среднего значения (1/10 для 10 цифр) будет всегда. Но какой разброс возможен, а какой — нет? Измеряется разброс величиной а (сигма), и ее можно вычислить по школьной формуле V(pq/N), где p=0,1 — вероятность встретить выбранную цифру, а q = 1— p = 0,9 — вероятность встретить любую другую. Разброс будет таким, что 2/3 результатов не будет превосходить а, а 99,7 % результатов останется в пределах «3 сигма».

Вот так примерно выглядит возможный результат, полученный для последних цифр с помощью мысленной «рулетки», выбрасывающей случайные числа от 100 до 2000, которую прокрутили 100 тыс. раз (рис.1).

Зеленый коридор на этом и следующих рисунках как раз и показывает границы «3 сигма». (При моделировании таких графиков надо очень осторожно использовать усечение дробной части случайного числа во избежание артефактов).

Но «3 сигма» только ориентир, ведь надо еще учесть, что получается с остальными цифрами: вдруг только одна из них исключение, хотя и редкое, а зато остальные расположены нормальным образом. Для этого около 100 лет назад английским статистиком Карлом Пирсоном был придуман критерий х2 (хи-квадрат): эта величина тем больше, чем больше вся сумма квадратов отклонений от ожидаемого значения. Это, конечно, гораздо точнее, чем судить лишь по одной цифре, не замечая поведение остальных. По х2 можно рассчитать и вероятность того, что полученный результат — чистая случайность. Всё это давно известно и применяется, почти не задумываясь.

Но можно ли это применять к выборам? Как проверить? Вот как выглядит результаты голосования избирателей на парламентских выборах в Швеции 2010 года (рис. 2).

Вычисленная по х2 вероятность того, что это всего лишь случайность, равна 80 % (но не 100 %, потому что всё же маловато цифр в более узком коридоре в 1 сигму). Но с вероятностью 80 % такое может быть.

Наши Российские выборы

Ведомство господина Чурова, повинуясь закону, сделало доступным результаты выборов по каждому из почти 100 тыс. избирательных участков России. Правда, оно запрятало эти данные так глубоко, так тщательно разбило их на 3000 мельчайших фрагментов (как вы думаете, зачем это сделано?), что рядовой и даже не рядовой пользователь Интернета до них не доберется, а если и доберется, то только до отдельных кусочков и на этом остановится. Так что придется или терпеливо собирать пазл, или просить помощи.

На каждом избирательном участке заполняется протокол, в котором около 20 чисел. Но большинство из них — числа маленькие, некоторые — просто нули. Такие числа считать, конечно, нельзя, поэтому возьмем только те графы, где числа самые большие. Их пять: 1) число избирателей в списках; 2) число избирателей, получивших бюллетени в помещении для голосования; 3) число бюллетеней, признанных действительными (т.е. не испорченных), а также 4) и 5) число голосов за каждую из двух самых больших популярных альтернатив: партий и кандидатов. Ограничимся также только трехзначными и четырехзначными числами.

Число избирателей в списках не такая очевидная величина, как кажется. Списки избирателей меняются прямо во время голосования: приходят голосующие по открепительным удостоверениям, приходят пропущенные при составлении списков (например, человек недавно переехал), исключаются умершие и т.д.

И вот что получится, если взять для простоты все пять граф скопом (как было сделано со Швецией). На рис. 3 — последние выборы в Госдуму в 2011 году, а на рис.4 — только что прошедшие президентские выборы-2012.

Картинки 3 и 4 похожи и не похожи. На обеих видно, что нолик— любимое число, а девятка и семерка — нет. Но хидвамы с помощью х2 видят и разницу между ними! На выборах-2011 вероятность случайных отклонений такой величины составляла ни много-ни мало 1/1027 (в знаменателе этой дроби единица с 27 нулями!), а на вы-борах-2012 — всего лишь 1/1025. Как мы видим, имеет место ошеломительный прогресс: исчезло сразу 2 нуля! Правда и осталось еще 25.

Но есть и тонкость, о которой надо сказать: по некоторым, причем далеко не всегда действующим причинам, большие цифры могут всё же встречаться чуть-чуть реже, чем маленькие. На всякий случай учтем и это. То, что получится, если учесть такое падение, показано на рис 5 голубой линией.

Теперь х2 проверит разницу не с равномерным распределением, а с наклонным фоном. Увы, даже и такой учет не сделает результат хорошим: вероятность станет равной приблизительно 1/1010 — одна десятимиллиардная часть. Но есть и забавное обстоятельство: стало лучше видно, что предпочитаются не только нули, но и пятерки, зато соседних цифр мало. С такой любовью к отличным оценкам мы еще встретимся.

Но, может быть, сказываются какие-то еще тонкие особенности распределения избирателей по участкам, по селу и городу, по Кавказу и Дальнему Востоку? Тогда можно «переместить» нули с их насиженного места в десятичной системе, использовав другие системы счисления (см рис. 6).

На рис. 6 те же данные, что и на рис.3, только в пятеричной системе (вверху) и в семеричной (внизу). В пятеричной системе, где пятерки и нули, — одна и та же цифра «0», эффект неравномерности остался, зато в семеричной он как раз исчез: люди не видят нулей в семеричной системе и не могут их предпочитать. А заодно убедимся, что в семеричной системе бесследно исчез и подозрительный «фон», заметный на рис. 5.

Откуда волшебство и чудеса?

Возникает вопрос: а где именно берутся такие чудеса? Можно посмотреть данные и по всем регионам, и по каждой из пяти граф в отдельности и обнаружить рекордсмена: это Дагестан (рис 7).

Обратите внимание на масштаб: нули здесь встречаются в полтора-два раза чаще остальных цифр! И, конечно, любимая пятерка. Причем это видно и по всем графам вместе, и по каждой отдельной в частности. (Отметим, что на выборах-2011 нули в Дагестане встречались в три раза (!) чаще других цифр, так что движение к лучшему налицо). Здесь хидвамы, пожалуй, осуждающе покачали бы головой.

А теперь сравним Дагестан с другим регионом, занимающим самую серединку в рейтинге достоверности выборов, 43-е место из 85. Это Владимирская область (рис.8). Как видим, здесь хидвамы не могут предъявить претензии: вероятность вполне обычная, 31 %.

Но вдруг всё дело в числе УИК? Посмотрим другой регион и самую «чувствительную» к ноликам графу — число действительных бюллетеней (рис 9).

Никакой любви к некоторым цифрам, которую показывал рис. 7 для Дагестана, не видно, нет никаких предпочтений. Где страсть к нулям в конце чисел или хотя бы к пятеркам? Где ненависть к девяткам? Полное равнодушие.

Результаты выборов на Кавказе на самом верху вертикали власти наивно объясняли особой тейповой структурой общества и уважением к старшим (начальству). Обществом, в котором все голосуют так, как сказал старейшина. Пусть так, поверим. Но, как мы видим, тогда придется объяснить, почему тейпы преимущественно состоят из целых десятков людей, которые так и живут десятками (но лишь бы не по 9 человек), и на выборы ходят десятками, и выбор свой делают десятками? Что это за чудеса?

Может быть, стоит объяснять это по-другому?

Но в целом выборы стали заметно чище, надо отдать должное. Так, Дагестан еще в декабре показывал умопомрачительную достоверность: 1/10204, 10 тысяч гуголов гуголов, а теперь лишь 1/1064. В Москве по графе «действительные бюллетени» было 3 %, а теперь честные 78 %. Почти по всем регионам достоверность увеличилась, возросла она и по всей стране.

Зато, увы, резко упала достоверность в Петербурге и составила всего 1,5 %.

Как писал А.С. Пушкин: «Настала — кто тут нам помог? Остервенение народа, Барклай, зима иль русский бог?»

Но, конечно, анализ частотности появления последних цифр груб. Он не может сам по себе выявить более тонкие методы возможных влияний: «карусели», принуждение к голосованию, административный нажим, подкуп и т.д., он показывает лишь сам факт «рукоприкладства». Но есть и тенденции, которые можно выявить сравнением регионов друг с другом и получить неожиданный результат.

Регионы и тенденции

Точно такой же анализ частотности появления последних цифр можно сделать и по всем регионам России. У каждого из 85 получится свое значение вероятности: от совершенно неправдоподобной, как в Дагестане, до вполне разумной, как во Владимирской области, где вычисленная по х2 вероятность более 80 %.

Но сначала поговорим об округлении.

Вдруг в избирательных комиссиях люди немного устают считать вдесятером до двух-трех тысяч? Вот они немного и подправляют: единичка вверх — единичка вниз. Грех, конечно, нарушение закона, но ведь не смертельный же грех? (Председатель Мосгоризбирко-ма В.Горбунов так и сказал на репетиции выборов 25 февраля: мол, в декабре округляли. Чуть-чуть.)

Проверим и это. Ведь если преобладание нулей и недостаток единиц и девяток есть результат лишь маленького, простого и невинного округления, то на явке и результатах голосования это не должно сказаться, не правда ли? Ну, не может же быть так, чтобы кассирша в магазине, нечаянно округляя и ошибаясь, выдавая сдачу, жила, ни в чем себе не отказывая? Ведь она ошибается то в свой карман, то в карман покупателя попеременно и не становится богаче.

Сделаем, как хидвамы: расставим регионы по порядку величины вероятности и будем последовательно исключать из подсчетов результата голосования регионы, в которых вероятность, вычисленная по х2, слишком мала. А потом можно и посмотреть на итоги (рис.10). Здесь точки при достоверности, к примеру, 20 % показывают долю избирателей (правая шкала), явку и результат голосования (левая шкала) в регионах, достоверность в которых лучше 20 %. (Во избежание недоразумений отметим, что явка здесь определена по числу действительных бюллетеней, а результат победителя -по отношению к их числу.)

На самом краю слева, на оси Y, находятся точки, показывающие результаты выборов, если брать все регионы без разбора, все 100 %.

Но если взять только те регионы, в которых, например, вероятность не хуже 20 %, то оказывается, что тут и явка ниже, и результат победителя похуже. Удивительно, но точки упорно идут вниз: чем тщательнее считали, чем реже округляли, тем …. тем меньше денег оставалось у наших кассирш к концу дня. Можно даже увидеть, сколько же смогли заработать «кассирши» за счет невинного округления: в итоге— процентов 10, не правда ли?

Если взять ту половину России, в которой считали голоса более аккуратные (или всё же более честные?) «кассирши», то результат уже станет процентов на 5 похуже, а явка — процента на 2 меньше. А если взять самую аккуратную четвертинку? В конце концов зеленая кривая стремится к точке, в которой живет около 14 % членов всех избиркомов.

Вот им-то честь и хвала.

Вопросы вместо выводов

Как видите мы, как и положено хид-вамам, не занимались политикой. Мы просто смотрели на цифры, да и то только на последние…

Но есть три вопроса, которые хочется задать председателю ЦИК В. Чурову:

1. Почему такой или более сложный анализ не делают он и люди его ведомства?

2. Почему ЦиК не посылает строгие инспекции в регионы, в которых достоверность результатов падает до умопомрачительно малых величин?

3. Чем занят Центризбирком и его аппарат, которым именно за организацию честных выборов и в первую очередь честного подсчета голосов, налогоплательщики платят немалые деньги?

Независимый эксперт С.В.

Автор благодарит Алексея Шипилёва, который предоставил исходные данные, Максима Пшеничникова за дружескую критику и Вадима Каймановича, чей постоянный интерес стимулировал работу.