Для корректной обработки статистики турниров по го необходимо прежде всего выделить группы учета партий по уровням мастерства соперников. Здесь возможны два подхода:
– группировать партии по средним рангам соперников;
– группировать партии по равномерной вероятности побед/поражений в равных партиях для средних представителей из соседних групп.
При первом подходе принято для минимальных групп учета принимать партии игроков примерно одного ранга, затем к ним добавляются группы партий по увеличивающейся на один ранг разнице в силе игры. В этом случае базовыми группами учета будут партии на равных между игроками одного ранга, потом партии игроков, отличающихся на один, два, три, четыре ранга и т.д. Это самое мелкое деление шкалы рейтинга, которое используется на практике для статистического учета партий в го. Данный подход является традиционным и используется в статистике Европейской Го Федерации (ЕГФ) и ниже приводится пример такой статистики.
Следует отметить еще раз, что при поранговом учете статистики средние вероятности побед для пар из соседних базовых групп учета (отдельные ранги) меняются при смещении по шкале, т.к. вероятности побед зависят не только от разницы в силе игры, но и от уровня соперников. Поэтому при обработке статистики партий российских турниров был выбран второй подход: в этом случае вероятности в различных группах учета в среднем оказываются примерно одинаковыми по всей шкале (при фиксированной разнице между средними партнерами по шкале групп).
В го имеется естественная разбивка игроков по разрядам Единой Всероссийской Спортивной Классификации (ЕВСК). За основу разрядной сетки взята вероятность победы в 80% при встрече среднего игрока какого-либо разряда со средним соперником из разряда на одну ступень ниже, при этом вся шкала разбивается на следующие разряды по рейтингу:
Разбивка на группы на основе разрядной сетки лучше подходит для целей статистического учета партий в российских турнирах еще и потому, что в этом случае обеспечивается достаточное наполнение групп, т.к. в целом выборка партий не настолько объемна, чтобы можно было вводить более мелкие группы учета по рангам. Для партий на форе число групп увеличивается за счет разбиения базовых групп на подгруппы по величине форы (от 1 до 9). В некоторых случаях рассматриваются также укрупненные группы учета (например, нижняя и верхняя части шкалы рейтинга с границей по рейтингу 1500).
Основное внимание при анализе статистики следует обращать на разницу частот и вероятностных прогнозов, т.к. эта характеристика является главным критерием качества статистической модели, заложенной в основу рейтинг-системы (РС). Кроме того, различные группы учета имеют неодинаковую значимость для оценок качества РС: наиболее важными являются группы из верхней части шкалы, т.к. игроки из этой группы являются наиболее стабильными участниками РС и выступают в роли анкеров по отношению к остальным участникам. В форовых партиях наиболее важными являются группы с форой до 4 камней, т.к. здесь можно рассчитывать на хорошее соблюдение условия линейности форы, а при большей форе могут проявляться особенности, не достаточно изученные на данное время.
Отдельно следует отметить особенности учета партий игроков с экспертными оценками (ЭО) уровня игры. Часть игроков получает ЭО при первом входе в РС, но есть игроки, имевшие перерыв в выступлениях, за время которого они существенно повысили свой уровень и поэтому также получали ЭО, принимавшиеся за их новый стартовый уровень при пересчетах рейтинга. К этой группе примыкают игроки, которые не входят в РС (т.н. «внешние», в основном иностранные участники российских турниров) и их партии учитываются только в целях пересчета рейтинга игроков из РС. По указанным группам участников ведется дополнительная статистика, а игроки с подтвержденными ЭО, т.е. показавшие по результатам пересчитываемого турнира неотрицательное измененение рейтинга, учитываются в статистике наравне с обычными участниками РС.
Необходимость отдельного учета неподтвержденных ЭО объясняется тем, что анализ статистики показывет значительное в среднем завышение ЭО по сравнению с реально достигнутым уровнем игры. Вот данные статистики по встречам игроков с ЭО против игроков из РС за 2005–2007гг:
ЭО против РС:в 1070 партиях выиграно 186 при ожидаемых 498. Недобор побед у игроков с ЭО составляет 312 или почти 30% в относительном выражении (в частоте)
Таким образом, вся статистика имеет следующую структуру: в основные группы учета входят партии между участниками из РС, включая игроков с подтвержденными ЭО, и отдельно ведется учет партий между игроками с ЭО и соперниками из РС (включая игроков с подтвержденными ЭО), а также дополнительно ведется учет всех партий игроков с неподтвержденными ЭО и внешних.
Все рейтинги и, соответственно, группы учета в статистических таблицах указываются с учетом проведенной в начале 2008 года коррекции шкалы. Параметры, относящиеся к старой шкале (вероятностные прогнозы, средние рейтинги соперников и их разница) указываются в отдельных колонках (ожидаемые результаты – с индексом 1).
2. Сравнительный анализ вероятностных функций в РС ЕГФ и РФГ(Б)
Вероятностная функция в той или иной РС является частью статистической модели и выбирается на основе специальных теоретических исследований или статистического анализа на больших выборках партий. Традиционно, начиная с шахматной РС А.Эло (1970), для формулы вероятностей в логических играх как правило выбирают кривую из семейства гауссовых распределений (интеграл Гаусса, т.е. нормальное распределение с экспоненциальной плотностью), или кривую с дробно-экспоненциальной зависимостью вероятностей победы от разницы рейтингов (класс так называемых «логистических кривых»). В РС ЕГФ выбрана логистическая кривая с двумя свободными параметрами, уточняемыми на основе статистического анализа. Класс нормальных распределений также является двухпараметрическим, и оба класса могут использоваться для взаимной аппроксимации при подходящем выборе параметров в заданном интервале значений рейтингов. Статистика равных партий в какой-либо узкой группе по рейтингу в данной РС задает одно условие на параметры, а второе условие обеспечивается статистикой форовых партий, так что для двухпараметрических семейств распределений этой информации вполне достаточно для полного определения статистической модели РС с зависимостью вероятностных формул как от разницы рейтингов, так и от уровней игроков при фиксированном классе распределений.
Поскольку анализ статистики ЕГФ (более 100 000 партий на момент разработки проекта РС-2005) и регулярно проводимый в ЕГФ мониторинг показали, что форовые соотношения в РС ЕГФ соблюдаются достаточно точно (в пределах статистической погрешности), то статистика ЕГФ пригодна для уточнения параметров вероятностных распределений как для форовых, так и для равных партий, если выбран какой-либо подходящий двупараметрический класс кривых (не обязательно только нормальных или логистических).
Соблюдение в РС правильных форовых соотношений означает, что вероятности побед/поражений при правильной форе близки к 50% независимо ни от разницы рангов, ни от расположения соперников на шкале рейтингов (рангов). В этом случае статистика партий на форе практически не зависит от не очень больших линейных сдвигов шкалы (при фиксированной точке отсчета, соответствующей рейтингу ИИ), а статистика равных партий характеризует истинные вероятностные соотношения в совокупности игроков независимо от выбора формулы вероятностей в РС, т.к. форовые соотношения от вида функции вероятностей не зависят. С другой стороны, обычно применяемые формулы вероятностей для равных партий инвариантны с высокой точностью относительно растяжений-сжатий всей шкалы с центром в рейтинге ИИ, принимаемом за относительную точку отсчета рейтингов. В наиболее часто используемых абсолютных шкалах рейтингов обычно эта точка не ниже 3000 пунктов.
Исходя из выше изложенного, в 2003 году было проведено статистическое исследование выборки партий ЕГФ на предмет определения подходящего для формулы вероятностей двухпараметрического класса функций и уточнения конкретных значений параметров. Оказалось, что частоты в равных партиях для различной фиксированной разницы в уровне соперников (1, 2, 3 и 4 ранга) качественно ведут себя одинаково: кривые частот имеют гиперболический вид, а при обращении частот (замена зависимой переменной – частоты Y – на обратную величину Z = 1/Y) эти кривые переходят в прямые, сходящиеся примерно в одной точке на оси рейтингов, которая имеет физический смысл рейтинга ИИ. Вычисленное на данной выборке с использованием метода наименьших квадратов значение рейтинга ИИ с высокой точность оказалось равно 3000 пунктов. Сами так полученные статистические прямые имели углы наклона с высокой точность соответствующие линейному приращению частот при переходе с одной прямой на другую. Поэтому для проекта РС-2005 был выбран класс непрерывных монотонных и симметричных по разнице рейтингов кривых, состоящих из трех кусков: константы 0 и 1 на достаточном удалении по разнице рейтингов от точки симметрии, где эта разница равна 0 и вероятность P = 50%, а в средней части между этими предельными значениями используется линейно-гиперболическая формула зависимости вероятности от разницы рейтингов (эта разность стоит в числителе дроби, прибавляемой к 0.5) и среднего уровня пары (расстояние пары от рейтинга ИИ – в знаменателе дроби).
Описанный выше класс кусочно-гладких кривых при не очень больших разницах рейтингов является хорошей аппроксимацией как для класса нормальных распределений, так и для класса логистических кривых при согласованном выборе параметров. Ниже в качестве иллюстрации приводится сопоставление частот с вероятностями по формулам ЕГФ и РС-2005 на выборке партий ЕГФ, в которых на равных встречались соперники со средней разницей уровней в один ранг (всего данная статистика содержала около 86 тыс. партий).
Таблица 1. Сравнение частот побед в равных партиях с вероятностными прогнозами по формулам ЕГФ и РФГ при средней разнице в 1 ранг Приведены частоты побед более слабого в усредненных по рангам парах соперников
P_егф вероятность по формуле ЕГФ
P_рфг вероятность по формуле РФГ
В таблице опущены ранги от 15 кю и ниже ввиду больших отклонений в этой части шкалы из-за влияния нижней границы рейтинга, где ранг 20 кю присваивается в ЕГФ всем новичкам независимо от реального уровня игры. Как видим, линейно-гиперболическая формула на порядок точнее принятой в ЕГФ логистической кривой. Большие расхождения для формулы ЕГФ объясняются в основном тем, что при выборе параметров логистической кривой были взяты значения, заведомо занижающие вероятности побед для более слабого соперника почти на всей шкале (рейтинг ИИ в РС ЕГФ принят равным 4100). Подробные данные по использованной здесь статистике партий ЕГФ предоставлены в октябре 2006 года Европейским рейтинг-комитетом.
3. Сводная статистика по турнирам до 2008 года
Всего c 08.01.2005 по 23.12.2007 проведено в России 164 турнира, в которых сыграно 8354 партии. В статистике приводятся частоты побед более старшего (более сильного по рейтингу) в парах игроков. В форовых играх автоматически более старшим считается дающий фору. Как видно из колонок частот и прогнозов для форовых партий, разница между итоговыми числами по всем турнирам (0.25%) значительно ниже уровня допустимой статистической погрешности (стандартное отклонение биномиального распределения составляет для этой выборки 1.7%). Для сравнения: прогноз для шкалы без коррекции дал 564 ожидаемые победы, т.е. отклонение от прогноза составило недобор в 43 победы из 888 партий или около 5%, что превышает стандартное отклонение примерно в три раза. Достаточно значительное отклонение (примерно 1%) в равных партиях комментируется далее при рассмотрении неравномерности отклонений по шкале, хотя этот уровень отклонения не превышает допустимую статистическую погрешность.
Таблица 2. Сводная статистика по всем турнирам до 2008 года
Последние колонки относятся к статистике партий игроков с ЭО и внешних:
ЭО число участников с экспертными оценками
ЭО+ число подтвержденных ЭО
Вн число внешних участников
И_Э игр с участием ЭО
И_В игр с участием внешних
Если посмотреть на общие цифры по равным партиям, то кажется будто коррекция ухудшила соответствие частот вероятностным прогнозам, но на самом деле это не так. Во-первых, коррекция носила характер сжатия шкалы для большей части игроков, что не могло сильно отразиться на статистике равных игр. Во-вторых, основной вклад в расхождения частот и прогнозов вносят две группы: «Б/р» и «Б-3». Это группы, где в учитываемых парах один из соперников не имеет разряда. Как указывалось ранее, неправильная формула вероятностей способствовала образованию «солитона» внизу шкалы, проявляющегося именно в ухудшении статистических показателей игроков из этой части шкалы в равных партиях. Кроме того, многие игроки из зоны солитона вполне могли получить недавно завышенную ЭО при первом входе в РС. Суммарно эти две группы дают 91 победу в разнице частоты и прогноза в общей статистике, что составляет даже несколько большее значение, чем разница в суммарной статистике частот (89). По общепринятым критериям отсеивания недостоверной статистики эти две группы должны быть удалены и не рассматриваться, т.к. относительные разницы для этих групп учета превышают стандартное отклонение биномиального распределения в среднем по двум группам более чем в три раза (в последней колонке приведены отношения разницы к средневероятному отклонению, примерно равному 2/3 от стандартного отклонения). Объединив в одну группу, получим, что разница побед и прогноза составила 90,6, а стандартное отклонение равно 19,6, т.е. более чем в 4 раза отклонение превосходит допустимую статистическую погрешность.
Таблица 3. Сопоставление частот и вероятностных прогнозов для равных партий
Удалив из статистики «плохие группы», получим в 4353 партиях 3245 побед при ожидаемых в скорректированной шкале 3246,6, т.е. разница всего 1/20 от стандартного отклонения. Какое еще лучше может быть совпадение частоты и прогноза? В то же время без коррекции шкалы получается прогноз 3292 и расхождение с частотой составляет 47 побед (около 1,5 стандартных отклонений).
В чем причины возникновения аномалии в самом низу шкалы? Во-первых, как уже отмечалось, неточная формула вероятностей РС-90 приводила к образованию солитона в сдвигах частот из-за относительного завышения рейтингов самых слабых участников РС. Во-вторых, шкала рейтингов снизу не ограничена, но практика такова, что ниже 20-го кю как правило стартовые рейтинги не присваивались. Это приводило к тому, что ряд игроков входили в РС с завышенными рангами и впоследствии они оказывались в новой шкале как раз в районе границы «3р» (900 в новой шкале, 375 в старой) или немного ниже (но не ниже 600 по новой шкале), а это и есть зона формирования солитона. Как будет видно из статистики текущего года, солитон после коррекции шкалы и введения новой редакции алгоритма начал смещаться кверху и его максимум из группы «Б/р» переместился в группу «Б-3». Это подтверждает косвенно то, что на данный момент механизм образования солитона нарушен и он в дальнейшем видимо постепенно рассосется, но на это уйдет не меньше чем 2–3 года.
5. Статистика текущего года и общие выводы
Всего в 2008 году к моменту подготовки данного материала проведено 37 учтенных в рейтинге турниров (c 05.01.2008 по 07.09.2008). Общее число партий – 1851, в том числе форовых – 257. Из них учтено в статистике для игроков из РС 1293 равных и 164 форовых партии. Из 748 участников у 43 (5.7%) зафиксирован аномальный результат, а суммарная аномальная коррекция составила 5408 пунктов (по 126 пунктов в среднем). Суммарный прирост рейтингов в РС составил 4343 (по 6 пунктов в среднем на участника).
Как видно из таблицы 5, солитон в нижней части шкалы сместился немного вверх и выпадает из статистики теперь только одна группа «Б-3», а также в самом верху шкалы наблюдается аномалия в группе «Гр» (это результат неудачного выступления в двух турнирах подряд одного из ведущих гроссмейстеров России). Убрав данные группы с явными наведенными ошибками, получим, что в целом имеется прекрасное соответствие между ожидаемыми и наблюдаемыми частотами (сдвиг 0,2%), а для статистики без коррекции шкалы расхождение составляет около 0,85%, т.е в 4 раза больше.
Анализ статистики по форовым партиям дал такие результаты: соответствие шкалы рейтингов и шкалы данов-кю находится в пределах статистической погрешности и составляет 102 пункта на один 1 ранг в среднем по всей шкале. Более подробные данные приведены в таблице 6.
Таблица 6. Сравнение соблюдения форовых соотношений с учетом коррекции шкалы и без нее
Фора 1 - 9 Партий Побед W Nw_ожид Nw_ож_1 R__сред DR_сред H/D__ср DN/E_b
Всего < 2р 67 38 36,8 39,3 1226 419 -0,192 0,433
Всего > 2р 97 49 50,82 56,93 2063 228 -0,231 -0,547
Фора 1 - 4 Партий Побед W Nw_ожид Nw_ож_1 R__сред DR_сред H/D__ср DN/E_b
Всего < 2р 44 22 23,11 23,95 1212 199 -0,095 -0,496
Всего > 2р 86 43 45,66 50,28 2065 199 -0,195 -0,85
Итого по всем 164 87 87,62 96,23 1721 306 -0,215 -0,144
Выборка по форовым партиям не достаточно объемна (в схеме Бернулли большое ст. отклонение – 3,9% на всей статистике), но видно, что согласие частот и прогнозов после коррекции шкалы нормальное (в пределах статистической погрешности), в то время как показатели для шкалы без коррекции гораздо хуже (около 6% против 0,4% с коррекцией шкалы и суммарно по всем группам, 8,5% против 3% – на статистике для форы до 4-х камней в верхней части шкалы при ст. отклонении для этой укрупненной группы в 4,6%). Таким образом, в результате проведенных в РС в начале 2008 года преобразований (коррекция шкалы, усовершенствование алгоритма) получены хорошие результаты. РС работает устойчиво и рейтинг-листы адекватно отражают ранжировку игроков по уровням игры и РС хорошо учитывает правильные форовые соотношения.
ПРИЛОЖЕНИЕ
Формулы коррекции шкалы и соблюдение соотношения «100 пунктов рейтинга на один ранг»
В заключение отчета приведем формулы, с помощью которых проводилась коррекция шкалы. Базовая формула имеет вид
Rкорр = R + 0.2 * Corr * D,
где D = 3000 R, и коэффициент Corr равен 1 для R < 1500, т.е. чистое сжатие шкалы на 20% для регионалов, а для федералов (R >= 1500) Corr постепенно снижается до нуля по квадратичному закону
Величина разницы в один ранг,
пересчитанная в пункты рейтинга
Дата С корр. Без корр.
07.07.2005 120,90 154,68
31.12.2005 100,80 130,49
24.12.2006 102,70 132,17
23.12.2007 101,20 130,55
12.10.2008 101,80 132,48
Несколько слов о том, как получена таблица 8. При обработке статистики форовых партий вычисляются средние рейтинги соперников, их средняя разница и приведенная к расстоянию средняя фора (в пунктах рейтинга) «H / D?». Затем для так полученной «усредненной пары соперников» вычисляется коэффициент растяжения шкалы K. Находим его из уравнения, получающегося из формулы вероятностей, если туда подставить полученные средние величины, включая средний вероятностный прогноз P_wins/N, и приравнять все это наблюдаемой частоте побед (подставив где надо параметр K):
K = 1 + (N_wins/N - P_wins/N)/([H/D]ср).
Как видим, вычисление деформации по усредненным величинам дает завышенную оценку необходимой коррекции примерно на 5-6% ("правильная коррекция" получается подгонкой параметров и соответствует исправлению деформации, при которой имели бы примерно 125 пунктов на ранг в шкале без коррекции).
Кажется, что РС эффективно правила деформацию и без коррекции, т.к. всего за полгода превышение над 100 пунктами на ранг сократилось более чем в полтора раза. На самом деле статистику «исправили» турниры на Дальнем Востоке, где наблюдалось явное завышение рейтингов по сравнению не только с основной частью России, но и с правильной шкалой. В последующем статистика региона улучшилась, а с 2007 года вообще турниры оттуда в РК не поступали и больше не «портили» статистику. Таблица показывает явную стабилизацию деформации на отметке примерно в 130 пунктов на ранг, которая очень эффективно была исправлена проведенной коррекцией шкалы.