Новая версия алгоритма AlphaGo Zero для игры в го, разработанная подразделением Google DeepMind, способна к самообучению без анализа партий, сыгранных человеком.
В новой версии AlphaGo заложены только базовые правила игры в го, а успешную стратегию программа вырабатывает, моделируя игры с самой собой. Удачные варианты поведения остаются в алгоритме.
После трех дней самообучения AlphaGo Zero сумела победить версию AlphaGo, которая обыграла лучшего в мире игрока в го. После 40 дней она в 90 процентах случаев выигрывала у наиболее совершенной версии оригинального AlphaGo, который обучается на основе сыгранных человеком партий.
В DeepMind отмечают, что благодаря такому шагу избавили искусственный интеллект от ограничений человеческого разума. Ведущий программист AlphaGo Дэвид Сильвер рассказал, что в ходе самообучения AlphaGo Zero сначала повторяла модель поведения начинающего, а затем и опытного игрока в го, но затем стала совершать ходы, которые нетипичны для профессиональных игроков.
В DeepMind считают, что создали самого совершенного игрока в го, и отмечают, что профессионалы могут вдохновиться ходами, которые совершает программа, и научиться новым стратегиям.
Весной 2017 года алгоритм AlphaGo неоднократно обыгрывал сильнейших игроков в го. До этого времени не существовало программы, которая могла бы создать серьезную конкуренцию игрокам в го.