Сообщения Bulldozer

Bulldozer

Замечу, что сеть SV-384x30-T60-3010, победившая Stockfish, показала один из худших результатов в нашем тестировании. У меня нет никакого объяснения этому. Понятно, что им не нужно было думать полчаса над каждым ходом и они выпустили играть сеть, которая лучше играет с нормальным контролем, а не VLTC или БА.

Bulldozer


#	T60-62255	SV-384x30-T40-1573	SV-384x30-T60-2481	SV-384x30-T40-2036	SV-384x30-T60-2880	T60-62512	SV-384x30-T60-3010	T60-62689	256x20-t40-1541-05	T60-62871
1	+	+	-	+	-	+	-	+	-	+
2	-	-	+	-	+	-	-	-	-	-
3	-	-	-	-	-	-	-	-	-	-
4	-	+	-	-	-	-	-	-	-	-
5	-	+	-	+	-	-	-	-	-	+
6	-	-	-	-	-	-	-	-	-	-
7	-	+	-	-	-	-	-	-	+	-
8	-	-	-	-	-	-	-	-	-	-
9	-	-	-	-	-	-		-	-	-
10	-	+	-	+	-	-		-	-	-
11	+	+	+	+	+	+			+	-
12	-	+	+	+	+	+				-
13	-	-	-	-	-					-
14	-	-	-	-	-					-
15	-	+	+	-	+					-
16	-	-	-	+	-					-
17	+	+		+	+					+
18	+	+		+	+					+
19	-	-		-						-
20	-	-		-						-
21	-	-		-						-
22	+	+		+						+
23	-	-		-						-
24	+	+		+						+
25	-	-		-						-
26	-	-		-						-
27	-	-		-						-
28	+	+		+						+

Bulldozer


#	FEN	Source	Solution
1	8/3P3k/n2K3p/2p3n1/1b4N1/2p1p1P1/8/3B4 w - - 0 1	Van Breukelen	g4f6
2	5nr1/2Pp2pk/3Pp1p1/4P1P1/6P1/5K2/8/7n w - -	Nightmare II – 2	c7c8n
3	1rb2r1k/3p1pp1/p3p2p/1p2P3/4q3/1N2B1R1/PPP1N1P1/2KR1B2 w - -	Nightmare II – 3	e2f4
4	2r1k1r1/3q4/p1nBpp1p/8/B5p1/4RbK1/PP1Q1P1P/2R5 w - -	Nightmare II – 8	h2h4
5	7k/1p5p/2qpn1PP/Pp1p4/8/3B2p1/3B1pP1/R4K2 w - -	Nightmare II – 9	a5a6
6	2b1r3/r2ppN2/8/1p1p1k2/pP1P4/2P3R1/PP3PP1/2K5 w - -	Nightmare II – 10	f7d6
7	4K2k/1pQp3p/1R4p1/1P4P1/8/3P3P/1q3r2/8 w - -	Nightmare II – 12	c7d8
8	2k2Br1/p6b/Pq1r4/1p2p1b1/1Ppp2p1/Q1P3N1/5RPP/R3N1K1 b - -	Nightmare II – 13	d6f6
9	4K1k1/8/1p5p/1Pp3b1/8/1P3P2/P1B2P2/8 w - -	Nightmare II – 15	f3f4
10	2r2k2/8/8/3Rp1N1/2P3K1/8/2p4B/8 w - -	Nightmare II – 16	g5e6
11	5B2/1p1nNp2/8/1P2R3/3p3q/8/p1K1P1Q1/k3b3 w - -	Nightmare II – 19	e7g6
12	1r6/4k3/r2p2p1/2pR1p1p/2P1pP1P/pPK1P1P1/P7/1B6 b - -	Nightmare II – 21	b8b3
13	r1q2rk1/ppp1bp2/6p1/3pNPn1/7p/2PP3P/P6B/1R1Q1RK1 w - -	Nightmare II – 22	f5f6
14	1k6/bPN2pp1/Pp2p3/p1p5/2pn4/3P4/PPR5/1K6 w - -	Nightmare II – 23	c7a8
15	7q/P3RP2/2p2n2/8/N7/p7/2B5/k1K2b2 w - -	Nightmare II – 24	a7a8q
16	N7/8/2KQ2rp/6k1/3p3p/2p4P/4PP2/5N2 w - -	Nightmare II – 28	f2f4
17	1k6/3p4/1B6/4Pp1p/1p5R/1p4p1/pP3n2/K6n w - -	Hard-Talkchess-2020 – 7	h4h1
18	1rb1qrk1/2b2pp1/p3pBn1/3pP1Pp/1ppP4/2P1QN2/PP3P1P/R2BR1K1 w - -	Hard-Talkchess-2020 – 23	f3h4
19	2bqrr1k/p5b1/1p1p2pp/nPpBp3/P1P1N2P/3PN1P1/R4P1K/3Q1R2 w - -	Hard-Talkchess-2020 – 38	e4c3
20	3k4/2pq3p/pp5R/4P3/P6P/2PN4/1PN3K1/8 w - -	Hard-Talkchess-2020 – 57	c2d4
21	4k1br/1K1p1n1r/2p2pN1/P2p1N2/2P3pP/5B2/P2P4/8 w - -	Hard-Talkchess-2020 – 74	b7c8
22	4q1kr/p6p/1prQPppB/4n3/4P3/2P5/PP2B2P/R5K1 w - -	Hard-Talkchess-2020 – 78	d6e5
23	6k1/1qr1p2p/ppN5/3p1N2/6p1/1P1P2Pp/PP2PP1P/2RK4 w - -	Hard-Talkchess-2020 – 93	c6e7
24	6r1/6r1/2p1k1pp/p1pbP2q/Pp1p1PpP/1P1P2NR/1KPQ3R/8 b - -	Hard-Talkchess-2020 – 97	h5f5
25	r1b2rk1/2q1bppp/p2pp3/2n3PQ/1p1BP3/1BN5/PPP2P1P/2KR2R1 w - -	Hard-Talkchess-2020 – 150	d4f6
26	r1b2rk1/pp3ppp/1n2p3/3pP3/2P2B2/b1PB1qP1/P1Q1NP1P/1K1R3R w - -	Hard-Talkchess-2020 – 153	e2d4
27	r3r1k1/pp1q1p2/2p2npb/PPPp1bnp/3PpN2/2N1P1PP/1R1B1PBK/3Q1R2 b - -	Hard-Talkchess-2020 – 184	f5g4
28	rnb2rk1/1pq1bppp/p3p3/2npP1P1/3N1P2/2NBB3/PPP4P/R2QK2R w KQ -	Hard-Talkchess-2020 – 208	d3h7

Bulldozer

Выкладываю архив тестирований сетей Лилы на сложных позициях. Ограничение времени - 30 минут. Можно считать, что это VLTC (very long time control) или даже бесконечный анализ.
Некоторые клетки не заполнены, потому что продолжать тестирование этих сетей было бессмысленно - они уступали и не было шансов догнать.
Данные одно-двух месячной давности. В скором времени планирую провести ещё пару тестирований.

Две таблицы, потому что в одну не влезает.

Bulldozer

alt text

Bulldozer

Новые случаи короновируса в АУ по дням (голубая гистограмма). Последнее число может быть заниженным

0_1586738346611_Screenshot from 2020-04-13 10-38-28.png

Bulldozer

Новые случаи короновируса в АУ по дням (голубая гистограмма). Последнее число может быть заниженным

alt text

Bulldozer

Стартовал на чемпионате мира в России.
Подлинной связи.
Реальное сообщение, сегодня пришло в группу.

0_1585890335095_Screenshot from 2020-04-03 16-04-31.png

Bulldozer

Новые случаи короновируса в АУ по дням (голубая гистограмма). Последнее число может быть заниженным.

alt text

Bulldozer

Обсудим этот способ подсчёта более подробно, концентрируясь на основной формуле, по которой считают "рейтинг":

Итого очков = ((сумма баллов + ЛИ + ЛХ + Штраф) / игр сыграно)) * 100% + 12,5% * игр сыграно

На самом деле, тут опечатка, и следует читать как

Итого очков = ((сумма баллов + ЛИ + ЛХ + Штраф) / игр сыграно)) * 100 + 0.125 * игр сыграно

В формуле есть целый ряд проблем, и в таком виде она непригодна для ведения рейтинга.
При этом, я надеюсь, что все понимают под рейтингом примерно одно и тоже, а именно показатель текущей силы игры. Иначе можно закрывать вкладку браузера.

Поисследуем формулу. Сначала переведём в более удобный формат.

При этом, проигнорируем допбаллы "ЛИ + ЛХ + Штраф" для простоты. Будем считать эти слагаемые равными нулю. Т.е., просто учитываем факт победы: в любой игре победа даёт вклад 1, а поражение 0.

Обозначим N количество игр, проведённое игроком.
Обозначим B сумму баллов, набираемых за одну игру. Поскольку игнорируем доп. баллы, это вырождается просто в количество побед.
Обозначим P сумму баллов за все игры (то же самое, что "Итого очков").

Вот что получилось:

P = 100*B/N + 0.125*N

Теперь вспомним, что B/N в мире рейтингов называется winrate, т.е., соотношение побед к количеству проведённых игр. Мы дальше будем использовать этот термин.

Рассмотрим по порядку проблемы этой формулы.

Проблема 1: неограниченный рост "P" с увеличением числа игр

Начнём сразу с примера. Сравним двух игроков.

У игрока A очень высокий winrate, равный 0.7. Т.е., он побеждает в 70% игр. Количество игр, в которых он принимал участие, пусть будет 50.
У игрока B winrate = 0.5. Т.е., он - средний игрок, побеждает в половине игр. Количество игр у него пусть будет 210.
Посчитаем их рейтинги:

Pa = 100×0.7 + 0.125×50 = 76.25
Pb = 100×0.5 + 0.125×210 = 76.25

Они одинаковы. Я специально подобрал числа так, чтобы было одинаково.
Но такой результат ненормален. Очевидно, что игрок A намного сильнее B, и рейтинг у него должен быть намного выше. Причём, игр он сыграл уже немало. В мафии 50 игр ведь достаточно, чтобы более-менее адекватно оценивать силу игры.

Почему так получилось? Потому что автор формулы даёт бонус за количество проведённых игр - см. слагаемое 0.125*N. Я, возможно, догадываюсь, какая идея была у автора, но тогда осуществил он её крайне некорректно.
А представьте, что у постоянных игроков количество игр накопится и станет 1000? Бонусная часть будет 0.125*1000 = 125. И сколько времени новичок, только что пришедший в клуб, будет навёрстывать этот гандикап, даже если он сильный игрок? Ему потребуются годы, чтобы наверстать даже аутсайдеров.

Не очень трудно исправить этот недостаток, причём, даже претендуя на некую научность, т.е. наличие правильного статистического смысла.

Вот один из интересных вариантов, но вы должны быть математиком, чтобы понять эту информацию:
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval
См. секцию Wilson score interval.
Z соответствует количеству СКО для доверительного интервала. Имеет смысл выбрать из интервала 1-2.

Для нематематиков вкратце: идея тут в том, что мы считаем Winrate игрока, сыгравшего мало игр, менее достоверным, чем Winrate игрока, сыгравшего больше игр. Winrate игрока, сыгравшего мало игр (новичка), мы как бы подтягиваем к ½, потому что это игрок пока малоизвестной силы. Число ½ здесь - это априорная вероятность Winrate новичка. Хотя, возможно, ½ лучше изменить на что-то типа 40%, потому что новый игрок ошибается чаще опытного среднего.

Реализовать эту или другую формулу не проблема. Была бы программа, которая ведёт базу данных игроков и делает остальную рутинную работу по хранению результатов игр и рейтингов.

Проблема 2: неограниченное уменьшение волатильности рейтинга с увеличением числа игр

Суть в том, что если годами вести рейтинг по формуле выше и ничего не делать, то в конце концов изменение рейтинга, зависящее от Winrate, после каждой игры станет мизерным. Когда число N велико, Winrate меняется очень медленно. Игрок мог разучиться играть или наоборот хорошо научиться играть, но изменения будут очень медленными.
Способы решения:

Простейший способ: считать игры только за последний год.
Более сложный способ: каждой игре давать вес, который зависит от того, насколько далеко в прошлом она была сыграна. Чем дальше в прошлое, тем вес меньше. Примерно такое происходит в рейтинге Эло.

Проблема 3: огромная недостоверность рейтинга при малом числе игр

Представим себе, что в клуб пришёл игрок, сыграл одну игру, выиграв её, и больше не появляется. Какой у него будет рейтинг?

P = 100×1.0 + 0.125×1 = 100.125

Допустим, остальные уже сыграли по 200 игр, причём лидер рейтинга имеет Winrate = 0.7. Его рейтинг таков:

P = 100×0.7 + 0.125×200 = 95

Серьёзно? Игрок с одной проведённой игрой будет выше опытного игрока с космическим винрейтом 0.7?

Конечно, нужно так или иначе предотвращать попадание игроков с ненадёжным (мало игр) рейтингом в основной рейтинговый список.

Проблема 4: отсутствие учёта силы игры оппонентов и партнёров

Получается, абсолютно всё равно, были мы мафией/мирным с новичком или бывалым игроком - за победу всё равно получим всегда одно очко, и оно пойдёт в winrate.
Эта проблема наиболее сложная для решения. В рейтингах типа Elo, TrueSkill, Glicko она решена, но есть некоторые трудности в адаптации подобных систем для игр типа мафии из-за того, что в матче есть не просто оппонент, а несколько оппонентов, а также несколько партнёров.
Хотя, есть мысли, что можно сделать, я не думаю, что стоит бросаться решать эту проблему на данном этапе - она не очень серьёзна. При определённых условиях. Например, при условии, что рейтинг чисто клубный. Тогда партнёры и оппоненты будут постоянно меняться, и при достаточно большом количестве игр в среднем будут попадаться одинаковые. Закон больших чисел в действии.
Но вот если считать рейтинг в целом по стране или в общем случае когда есть слабо связанные между собой кластеры игроков (клубы), и считаем межклубный рейтинг, то придётся что-то решать.

Эти проблемы - только те, что сразу приходят на ум. Можно покопаться и найти ещё, но смысла нет, потому что без решения первых трёх жить невозможно.

Bulldozer

Нам предлагают нижеследующее. Такая система (или похожая - различия в коэффициентах) применяется для подсчёта рейтингов в ряде мафиозных клубов. Основные и дополнительные баллы - это всё имеет смысл и сделано нормально. Но последняя формула ("Итого очков") - это же ужас ужасный. Я не знаю, как люди такое терпят.

Цитата

Вашему вниманию принцип подсчета очков.

При победе красной команды, все игроки красных получают баллы. Так же и при победе чёрных.

ОСНОВНЫЕ БАЛЛЫ ЗА ПОБЕДУ:

Мирный житель – 1 балл
Мафия – 1 балл
Шериф – 1 балл
Дон – 1 балл

ДОПОЛНИТЕЛЬНЫЕ БАЛЛЫ:

Лучший ход (ЛХ). Право лучшего хода даётся игроку, убитому в первую ночь, назвать тройку чёрных. Баллы начисляются за угаданных 2 или 3 мафиози.
ЛХ не защитывается при подъёме 2 и более игроков на нулевой круг.

ЛХ за угаданных двух чёрных – 0,25 балла
ЛХ за угаданных трёх чёрных – 0,4 балла

Лучшему игроку (ЛИ) каждой раздачи по мнению ведущего.

ЛИ (победивший) – 0,2....0,7 балла (градация 0,1)
ЛИ (проигравший) - 0,1 ..... 0,4 балла
ЛИ может присваиваться до четырёх игроков в игре, но сумма всех ЛИ не больше 1

Дисквалификация с игрового стола - минус 0.5 балла
Штрафы за действия, негативно повлиявшие на ход игры - минус 0,4 балла

Как считаются итоговые очки?

Итого очков = ((сумма баллов+ЛИ+ЛХ +Штраф) / игр сыграно)) * 100% + 12,5% * игр сыграно

Bulldozer

Обсудим создание хорошей рейтинговой системы для игры в классическую (спортивную мафию).

0_1585760291280_90658853_3405831829432408_1531417078114811904_n.jpg

Bulldozer

alt text

Bulldozer

После седьмого тура:


Nepomniachtchi, Yan	38.6%
Vachier-Lagrave, Maxime	27.2%
Caruana, Fabiano	19.6%
Wang, Hao	5.7%
Grischuk, Alexander	4.7%
Giri, Anish	3.0%
Ding, Liren	0.9%
Alekseenko, Kirill	0.3%

Bulldozer

После шестого тура:


Nepomniachtchi, Yan	57.3%
Caruana, Fabiano	20.7%
Vachier-Lagrave, Maxime	10.1%
Wang, Hao	3.9%
Grischuk, Alexander	3.6%
Giri, Anish	3.0%
Ding, Liren	1.2%
Alekseenko, Kirill	0.2%

Bulldozer

После пятого тура:


Nepomniachtchi, Yan	38.2%
Caruana, Fabiano	26.8%
Vachier-Lagrave, Maxime	12.4%
Wang, Hao	7.9%
Grischuk, Alexander	6.3%
Ding, Liren	5.5%
Giri, Anish	1.9%
Alekseenko, Kirill	0.9%

Bulldozer

После четвёртого тура:


Caruana, Fabiano	29.5%
Wang, Hao	21.9%
Nepomniachtchi, Yan	20.8%
Vachier-Lagrave, Maxime	13.4%
Grischuk, Alexander	8.1%
Ding, Liren	5.2%
Giri, Anish	2.2%
Alekseenko, Kirill	1.4%

Bulldozer

0_1584683391558_Screenshot from 2020-03-20 16-49-17.png

Bulldozer

После третьего тура:


Caruana, Fabiano	32.6%
Wang, Hao	21.9%
Nepomniachtchi, Yan	16.2%
Vachier-Lagrave, Maxime	13.8%
Grischuk, Alexander	6.9%
Ding, Liren	5.8%
Giri, Anish	1.8%
Alekseenko, Kirill	1.1%

Bulldozer

После второго тура:


Caruana, Fabiano	47.9%
Wang, Hao	16.4%
Nepomniachtchi, Yan	13.7%
Vachier-Lagrave, Maxime	10.2%
Grischuk, Alexander	6.9%
Ding, Liren	2.0%
Giri, Anish	1.8%
Alekseenko, Kirill	1.0%

Bulldozer

Продолжаю свой прогноз (с субъективной доработкой рейтингов).
После первого тура:


Caruana, Fabiano	37.8%
Wang, Hao	20.2%
Nepomniachtchi, Yan	16.2%
Ding, Liren	7.0%
Grischuk, Alexander	6.9%
Vachier-Lagrave, Maxime	6.1%
Alekseenko, Kirill	3.6%
Giri, Anish	2.3%

Bulldozer

Участник @bulldozer написал в Железо:

Вот здесь написано, что у NVIDIA TeslaT4, которую предлагает Google Cloud, производительность в режиме FP16 (лучший режим для Лилы) равна 65 TFLOPS.

...

Это всё меняет. Получается, за цену видеокарты можно очень долго использовать T4 на Google Cloud?*

Ошибочка вышла. Как выясняется, для Лилы важны только Tensor cores, а их у T4 только 320 против 240 у моей видюхи. Так что T4 - далеко не такая эффективная замена, получается.

У ещё одного кандидата - V100 - 640 Tensor cores, что тоже не айс, учитывая цену за час в облаке. Я тут насчитал $1266 в месяц (круглые сутки если) за две такие штуки (одну нельзя).

Bulldozer

alt text

Bulldozer

alt text

Bulldozer

Апдейт таблицы - добавил 12 заданий из Hard Talkchess 2020. Добавлял только те, которые не решил там никакой движок.