новости

Два года назад программа Google победила сильнейшего игрока в го. Новая версия учится играм без помощи людей — и она уже круче всех в го и шахматах

13:15, 7 декабря 2018

Источник: Meduza

Подразделение Google по исследованию искусственного интеллекта DeepMind подробно рассказало об успехах AlphaZero — самообучающейся программы для игры в настольные игры. В отличие от предшественников, которые были специально настроены для игры в го, программа AlphaZero смогла в кратчайшие сроки без посторонней помощи научиться играть не только в го, но также в шахматы и сёги.

Разработчики DeepMind добавили самообучение в программу для игры в го еще в 2017 году, когда выпустили предыдущее поколение алгоритма AlphaGo Zero. Смысл этого обучения в том, что нейронная сеть программы не следит за поведением человека (первой AlphaGo «скормили» 30 миллионов ходов профессиональных игроков), а играет сама с собой. Тогда AlphaGo Zero, зная лишь правила игры, за три дня «наиграла» столько удачных ходов, что со счетом по партиям 100:0 победила AlphaGo.

В своей статье в Science разработчики отмечают, что универсальная AlphaZero еще сложнее (и еще «умнее») сразу по нескольким причинам:

В го можно только выиграть или проиграть, а в шахматах и сёги добавляется возможность ничьей.
В шахматах и сёги появляется асимметрия (например, пешка может ходить только вперед, а рокировка бывает длинной и короткой).
Нейронную сеть для AlphaZero переделали для постоянного самообучения — она не ждет окончания каждой виртуальной партии для обновления параметров.

«AlphaZero на старте знает только правила шахмат, в нее не заложены никакие человеческие стратегии. Но уже через несколько часов она может провести столько игр сама с собой, сколько не было сыграно за всю историю шахмат живыми людьми», — пишет в своей колонке 13-й чемпион мира по шахматам Гарри Каспаров, отмечая, что стиль игры AlphaZero напоминает его собственный.

Еще в декабре 2017 года было объявлено, что новая AlphaZero смогла победить Elmo (алгоритм-чемпион мира по сёги) всего через два часа после начала обучения игре, а чемпионский шахматный алгоритм Stockfish — через четыре. На победу в го над собственным предшественником AlphaGo Lee ушло 30 часов обучения (обучающая партия в го занимает больше времени). AlphaGo Lee — версия, «учившаяся» у людей и победившая в 2016 году сильнейшего игрока по го Ли Седоля.

После полного цикла обучения (который для го занял 13 дней) AlphaZero на испытаниях показала 16% побед (против 0,6% поражения) в шахматах, 61% — в го и 91% — в сёги.

По мнению Мюррея Кэмпбелла, который участвовал в создании компьютера Deep Blue, победившего Каспарова, следующим логичным шагом для развития искусственных интеллектов должны стать многопользовательские игры вроде Dota 2. Пока команды «умных» ботов терпят там поражение.

Как искусственный интеллект воюет в Dota 2

Михаил Зеленский