Перейти к материалам

Алгоритм Google для игры в го стал самообучаемым

Источник: The Verge

Новая версия алгоритма AlphaGo Zero для игры в го, разработанная подразделением Google DeepMind, способна к самообучению без анализа партий, сыгранных человеком.

В новой версии AlphaGo заложены только базовые правила игры в го, а успешную стратегию программа вырабатывает, моделируя игры с самой собой. Удачные варианты поведения остаются в алгоритме.

После трех дней самообучения AlphaGo Zero сумела победить версию AlphaGo, которая обыграла лучшего в мире игрока в го. После 40 дней она в 90 процентах случаев выигрывала у наиболее совершенной версии оригинального AlphaGo, который обучается на основе сыгранных человеком партий.

В DeepMind отмечают, что благодаря такому шагу избавили искусственный интеллект от ограничений человеческого разума. Ведущий программист AlphaGo Дэвид Сильвер рассказал, что в ходе самообучения AlphaGo Zero сначала повторяла модель поведения начинающего, а затем и опытного игрока в го, но затем стала совершать ходы, которые нетипичны для профессиональных игроков.

В DeepMind считают, что создали самого совершенного игрока в го, и отмечают, что профессионалы могут вдохновиться ходами, которые совершает программа, и научиться новым стратегиям.

Весной 2017 года алгоритм AlphaGo неоднократно обыгрывал сильнейших игроков в го. До этого времени не существовало программы, которая могла бы создать серьезную конкуренцию игрокам в го.

«Медуза» — это вы! Уже три года мы работаем благодаря вам, и только для вас. Помогите нам прожить вместе с вами 2025 год!

Если вы находитесь не в России, оформите ежемесячный донат — а мы сделаем все, чтобы миллионы людей получали наши новости. Мы верим, что независимая информация помогает принимать правильные решения даже в самых сложных жизненных обстоятельствах. Берегите себя!