Перейти к материалам

Алгоритм Google для игры в го стал самообучаемым

Источник: The Verge

Новая версия алгоритма AlphaGo Zero для игры в го, разработанная подразделением Google DeepMind, способна к самообучению без анализа партий, сыгранных человеком.

В новой версии AlphaGo заложены только базовые правила игры в го, а успешную стратегию программа вырабатывает, моделируя игры с самой собой. Удачные варианты поведения остаются в алгоритме.

После трех дней самообучения AlphaGo Zero сумела победить версию AlphaGo, которая обыграла лучшего в мире игрока в го. После 40 дней она в 90 процентах случаев выигрывала у наиболее совершенной версии оригинального AlphaGo, который обучается на основе сыгранных человеком партий.

В DeepMind отмечают, что благодаря такому шагу избавили искусственный интеллект от ограничений человеческого разума. Ведущий программист AlphaGo Дэвид Сильвер рассказал, что в ходе самообучения AlphaGo Zero сначала повторяла модель поведения начинающего, а затем и опытного игрока в го, но затем стала совершать ходы, которые нетипичны для профессиональных игроков.

В DeepMind считают, что создали самого совершенного игрока в го, и отмечают, что профессионалы могут вдохновиться ходами, которые совершает программа, и научиться новым стратегиям.

Весной 2017 года алгоритм AlphaGo неоднократно обыгрывал сильнейших игроков в го. До этого времени не существовало программы, которая могла бы создать серьезную конкуренцию игрокам в го.