Подразделение Google по исследованию искусственного интеллекта DeepMind подробно рассказало об успехах AlphaZero — самообучающейся программы для игры в настольные игры. В отличие от предшественников, которые были специально настроены для игры в го, программа AlphaZero смогла в кратчайшие сроки без посторонней помощи научиться играть не только в го, но также в шахматы и сёги.
Разработчики DeepMind добавили самообучение в программу для игры в го еще в 2017 году, когда выпустили предыдущее поколение алгоритма AlphaGo Zero. Смысл этого обучения в том, что нейронная сеть программы не следит за поведением человека (первой AlphaGo «скормили» 30 миллионов ходов профессиональных игроков), а играет сама с собой. Тогда AlphaGo Zero, зная лишь правила игры, за три дня «наиграла» столько удачных ходов, что со счетом по партиям 100:0 победила AlphaGo.
В своей статье в Science разработчики отмечают, что универсальная AlphaZero еще сложнее (и еще «умнее») сразу по нескольким причинам:
- В го можно только выиграть или проиграть, а в шахматах и сёги добавляется возможность ничьей.
- В шахматах и сёги появляется асимметрия (например, пешка может ходить только вперед, а рокировка бывает длинной и короткой).
- Нейронную сеть для AlphaZero переделали для постоянного самообучения — она не ждет окончания каждой виртуальной партии для обновления параметров.
«AlphaZero на старте знает только правила шахмат, в нее не заложены никакие человеческие стратегии. Но уже через несколько часов она может провести столько игр сама с собой, сколько не было сыграно за всю историю шахмат живыми людьми», — пишет в своей колонке 13-й чемпион мира по шахматам Гарри Каспаров, отмечая, что стиль игры AlphaZero напоминает его собственный.
Еще в декабре 2017 года было объявлено, что новая AlphaZero смогла победить Elmo (алгоритм-чемпион мира по сёги) всего через два часа после начала обучения игре, а чемпионский шахматный алгоритм Stockfish — через четыре. На победу в го над собственным предшественником AlphaGo Lee ушло 30 часов обучения (обучающая партия в го занимает больше времени). AlphaGo Lee — версия, «учившаяся» у людей и победившая в 2016 году сильнейшего игрока по го Ли Седоля.
После полного цикла обучения (который для го занял 13 дней) AlphaZero на испытаниях показала 16% побед (против 0,6% поражения) в шахматах, 61% — в го и 91% — в сёги.
По мнению Мюррея Кэмпбелла, который участвовал в создании компьютера Deep Blue, победившего Каспарова, следующим логичным шагом для развития искусственных интеллектов должны стать многопользовательские игры вроде Dota 2. Пока команды «умных» ботов терпят там поражение.
Как искусственный интеллект воюет в Dota 2
Го
Настольная игра, появившаяся более двух тысяч лет назад в Древнем Китае. Поле для игры представляет из себя 19 вертикальных и горизонтальных линий, которые образуют 361 пересечение. В точки пересечения двое игроков по очереди ставят фишки (камни), которые надо расположить так, чтобы окружить (захватить) фишки соперника. Окруженные фишки снимаются. Игра длится до тех пор, пока участники вместе не откажутся от следующего хода. Победителем объявляется тот, кто захватил больше территории и камней противника.
Сёги
Японская настольная игра, напоминающая шахматы. На поле 9×9 клеток у каждого из игроков по 20 фигур: король, ладья, слон, два золотых генерала, два серебряных генерала, два коня, две стрелки (стрелы) и девять пешек. Игра заканчивается, когда королю ставят «мат» либо когда один из игроков признает поражение.
Elmo
Чемпион 2017 года по версии Ассоциации по компьютерной сёги.