Перейти к материалам
истории

Робот с мозгами геймера Самообучаемый компьютерный интеллект научился видеоиграм «с нуля»: The New Yorker

Источник: The New Yorker

В конце февраля 2015 года в научном журнале Nature была опубликована статья об искусственном интеллекте с невероятными способностями к самообучению. Программа, разработанная компанией DeepMind, умеет играть в игры с видеоприставки Atari 2600 и во многих случаях на голову превосходит лучших геймеров. The New Yorker рассказывает, как команде программиста Демиса Хассабиса удалось создать самообучающийся искусственный интеллект, способный без каких-либо исходных данных освоить десятки видеоигр. 

Год назад Хассабис показал программу, которая умела играть в классическую видеоигру Breakout — разновидность «арканоида» для приставок Atari сорокалетней давности. Поначалу искусственный интеллект с трудом отбивал шарик, после часа игры программа играла, как уверенный новичок, а после нескольких сотен партий перестала промахиваться вообще и научилась выбивать все блоки на экране с пяти ударов. Программа Хассабиса получает только информацию о пикселях на экране и счет — ничего о логике игры и ее правилах ей неизвестно. Вскоре после первой демонстрации программы-геймера компанию Хассабиса DeepMind купил Google за 650 миллионов долларов.

Сейчас искусственный интеллект может играть в 49 игр с консоли Atari 2600 — в гоночные симуляторы, драки, симулятор танка и многие другие. В каждую игру разработка DeepMind учится играть с нуля, только лишь анализируя перемещение пикселов по экрану в зависимости от тех или иных действий и изменение счета в игре. У программы нет никаких исходных данных об игре, которую ей предстоит освоить — только технологии самообучения и искусственные нейронные сети. Искусственный интеллект начинает анализировать пиксели, распознавать объекты на экране и одновременно пытается понять логику игры. Для этого программа совершает случайные действия в игре и смотрит, как они влияют на полученные очки. По итогам этих наблюдений искусственный интеллект формирует стратегию поведения. По сути, программа DeepMind обладает теми же качествами, что и хороший геймер — навыком анализировать события на экране, умением учиться на своих ошибках и запрограммированным желанием победить.

Методика DeepMind, как утверждают разработчики, значительно успешнее, чем у других самообучающихся программ. Во многих случаях искусственный интеллект оказывается в разы успешнее геймеров —  к примеру, в игры Boxing, Breakout, Tennis и Pong с разработкой DeepMind соревноваться бессмысленно. Впрочем, не все игры покоряются искусственному интеллекту — в бродилки Montezumaʼs Revenge и Ms. Pac-Man у него получается играть значительно хуже, чем у среднего геймера, однако, по словам Хассабиса, это можно исправить, сделав программу более склонной к риску. Хассабис сам далеко не чужд игровой индустрии — с 1994 года он работал игровым дизайнером и, в частности, приложил руку к симулятору больницы Theme Hospital. 

В дальнейшем DeepMind хотят научить свою разработку играть в стратегии Warcraft и StarCraft, а в отдаленной перспективе — создать искусственный интеллект, который бы совершал действия в новой игре, исходя из опыта уже пройденных игр. Так поступают дети:  научившись играть в Pong, легче освоить Breakout. 

Создание робота, который может научиться играть в приставку, — ни в коем случае не попытка доказать, что компьютер сильнее человека. К тому же, Deep Blue уже доказал это почти 20 лет назад, обыграв в шахматы Гарри Каспарова. В отличие от Deep Blue, разработка DeepMind не заточена под какую-то конкретную игру и работает совершенно по другой технологии, применимой во многих областях. Команда Хассабиса уже начала переговоры с различными компаниями о сотрудничестве — возможно, самообучающийся искусственный интеллект сможет предсказывать погоду или стоимость нефти. 

Искусственный интеллект DeepMind начинает игру как не приученный к туалету щенок. Он запрограммирован, чтобы набирать как можно больше очков, но не представляет, как это сделать. Первые его движения случайны и игнорируют логику игры. За некоторые можно получить награду — очки, за некоторые нет. В основе алгоритма DeepMind — способность анализировать, какие действия позволяли ранее набирать больше очков, и менять свое поведение {англ. яз.).

The New Yorker