22 ноября компания Meta, владеющая Facebook и Instagram, представила алгоритм искусственного интеллекта (ИИ) Cicero, который обыгрывает живых людей в настольную игру «Дипломатия». В отличие от большинства подобных алгоритмов, разработка Meta не просто знает правила игры и умеет им следовать, но еще и может вести переговоры как реальный человек — и даже лучше. «Медуза» рассказывает, как устроен Cicero и для чего его могут применить в будущем.
Алгоритм ИИ от Meta анонимно сыграл 40 партий в «Дипломатию» в онлайн-версии игры, на сайте webDiplomacy.net, и никто не догадался, что это не настоящий человек. Более того, Cicero набирал в среднем в два раза больше очков, чем живые игроки, а по итогам периода с 19 августа по 13 октября вошел в 10% лучших игроков. «Он безжалостен в реализации своей стратегии, но не настолько, чтобы раздражать или расстраивать других» — так о Cicero высказался чемпион мира по «Дипломатии» Эндрю Гофф.
Для начала разберемся, как играют в «Дипломатию»
«Дипломатия» — это настольная игра, которую в 1954 году придумал американец Алан Брайан Колхамер. Игровое поле — карта Европы начала XX века, а участники игры (максимум семь) берут на себя роль руководителей великих держав: Австро-Венгрии, Великобритании, Германии, Италии, России, Турции и Франции. В случае если игроков меньше семи, каждый управляет сразу несколькими странами. Побеждает тот, под чьим контролем оказывается половина так называемых центров поддержки — особых зон на поле, позволяющих производить и содержать военные единицы для дальнейшей экспансии. Одна зона — одна военная единица.
Всего на игровом поле таких зон 32, нейтральных на старте партии — лишь 12. Обычно их захватывают в самом начале, дальше державы вынуждены воевать друг с другом за территорию.
Ходы в «Дипломатии» — в отличие от многих других настольных игр — совершаются не по очереди, а одновременно. Игровой ход разделен на весну и осень, а каждый из сезонов, в свою очередь, поделен на несколько фаз:
- фаза дипломатии — игроки общаются, заключают альянсы (как открыто, так и тайно), продумывают дальнейшую стратегию или подслушивают планы оппонентов;
- фаза написания приказов — игроки пишут на бумажках приказы о передвижении, поддержке, транспортировке своих войск или об удержании позиций;
- фаза исполнения приказов — игроки зачитывают свои приказы и приводят их в исполнение, если возможно;
- фаза отступления и расформирования — игроки отводят разбитые в бою формирования на безопасные территории;
- фаза получения и потери войск — игроки оценивают, сколько «центров поддержки» они контролируют, и либо лишаются военных единиц, либо, наоборот, приобретают. Эта фаза играется только осенью.
Так как же устроен искусственный интеллект Cicero
В отличие, например, от «Риска» в «Дипломатии» мало что решает простое везение. Да и перемещение фигурок по полю — это пусть важная, но не главная составляющая игры. Само название подсказывает, что основу игрового процесса составляет вербальное взаимодействие между игроками. «Главы государств» ведут переговоры, заключают союзы, предают, обманывают, блефуют — и всеми этими навыками (разумеется, не в настольной, а в онлайн-версии игры, доступной на webDiplomacy.net) овладел алгоритм ИИ Cicero.
Если упрощать, то Cicero — это что-то вроде чат-бота, в основе работы которого лежат два модуля: обработки естественного языка и стратегического мышления. Помимо этого есть фильтры, отсеивающие «низкокачественные» реплики диалога, не подходящие текущей ситуации на поле или не ведущие к достижению цели, поставленной ИИ. Благодаря этим трем составляющим Cicero способен общаться с оппонентами по «Дипломатии», предсказывать их поступки, использовать игроков для достижения личной выгоды и выигрывать.
Cicero — не первый искусственный интеллект, который превосходит людей в играх. Например, в 2015-м Google разработала программу AlphaGo, обученную на 160 тысячах партий в го. В том же году программа одержала победу над трехкратным чемпионом Европы по го Фань Хуэем, а годом позже — над Ли Седолем, обладателем высшего, девятого дана. Интересно, что никаких специальных алгоритмов, связанных непосредственно с го, в AlphaGo не заложено.
В 2019 году разработанный Alphabet искусственный интеллект AlphaStar впервые победил профессиональных игроков в StarCraft 2. Итоговый счет — 10:0.
Но самый, пожалуй, известный случай превосходства машины над человеком на игровом поле — это шахматный матч, который прошел в мае 1997 года. На нем суперкомпьютер Deep Blue, созданный IBM, обыграл Гарри Каспарова, одержав победу в двух партиях из шести. Каспаров победил в одной, а остальные три партии завершились ничьей. Это был первый случай в истории, когда компьютер обыграл чемпиона по шахматам.
Однако и го, и StarCraft 2, и шахматы — игры с нулевой суммой, то есть такие, в которых игроки изначально антагонистичны, а их цели противоположны. Кооперативное взаимодействие в таких играх не предполагается, поэтому создатели ИИ могут обучить модель, попросту заставив компьютер играть против самого себя. С «Дипломатией», где формируются социальные связи, а течение партии не так предсказуемо, такой метод не сработает.
Языковая модель Cicero включает в себя 2,7 миллиарда параметров, обучена на книгах, новостях, постах c Reddit, а также гигантского массива данных Common Crawl. В дополнение инженеры Meta использовали данные о 125 тысячах онлайн-партий в «Дипломатию», сыгранных на webDiplomacy.net. В 40,4 тысячи из этих 125 тысяч игроки общались друг с другом. Таким образом, Cicero научился еще и по 12,9 миллиона сообщений, относящихся напрямую к «Дипломатии».
Однако, как отмечают в Meta, такая модель может лишь подражать сообщениям из корпуса данных, но не создавать на их основе более эффективные реплики. Другими словами, модель умеет врать, блефовать и «втыкать нож в спину», возможно, так же хорошо, как человек, но не лучше его.
Чтобы исправить этот изъян, инженеры ввели понятие «намерения» (intents). Они помогают контролировать диалог между ИИ и живым игроком. Каждому сообщению в датасете, на котором обучался Cicero, автоматически присвоена аннотация, отражающая собственно намерения отправителя и получателя на текущий ход и несколько последующих. Условно: намерение A присваивается сообщению, если A — это наиболее вероятные действия, которые предпримут участники диалога. В случае если диалог продолжается после сообщения A, намерения могут измениться.
Как работает Cicero
Meta AI
За просчет дальнейших планов и выбор намерений отвечает модуль стратегического мышления Cicero — именно он анализирует обстановку на поле и состоявшиеся уже переговоры, а также предсказывает действия других игроков. Обычно для таких целей используют «поведенческое клонирование» — обучение ИИ на основе данных, полученных из наблюдений за людьми.
В случае с «Дипломатией» такой подход не особенно работает, так как в итоге получаются расхождения между словами ИИ и его действиями. В Meta AI разработали итеративный алгоритм и назвали его piKL: он воспринимает каждый ход в «Дипломатии» как отдельную игру, в рамках которой участник стремится предпринять какое-то действие, чтобы в итоге достичь конкретной цели. И цель, и награду алгоритм предсказывает, исходя из предположения, что игрок будет выбирать лучшие из доступных ему вариантов.
Cicero предлагает сопернику выгодное для себя решение и предполагает, что тот ответит. Основываясь на наиболее вероятных ответах противника, ИИ прогнозирует поведение оппонента, а также корректирует собственный план.
Здесь возникает одна загвоздка: Cicero по своей «природе» не умеет врать, поэтому нередко выдает противнику реальные планы. Чтобы нивелировать «утечку информации», в Meta разработали метод оценки сообщений в зависимости от того, насколько это навредит самому ИИ. В итоге, оценив 127 диалогов, инженеры пришли к выводу, что искусственный интеллект выбирает самые предпочтительные варианты реплик в 67% случаев.
Это как раз один из таких фильтров реплик, о которых мы писали выше. Среди других — фильтры, отсеивающие токсичные высказывания, а также повторы сообщений и офтоп.
И зачем искусственному интеллекту играть в настольную игру
На протяжении десятилетий считалось, отмечают в Meta , что искусственный интеллект не сможет овладеть «Дипломатией». Но он смог — и, более того, прекрасно себя проявил. Игра, которая требует умения убеждать, заключать союзы и идти на компромиссы, стала отличным полигоном для исследования взаимодействия между ИИ и человеком.
Если у кого-то есть желание поближе познакомиться с Cicero или улучшить его, то можно отправить заявку в Meta — она готова предоставить доступ. Компания призывает ответственно подходить к модификациям ИИ, чтобы избежать повторения ситуации с демоверсией нейросети Galactica, просуществовавшей в открытом доступе всего два дня.
И хотя сейчас Cicero годится только для игры в «Дипломатию», методы, использованные для его создания, применимы и в других областях. Способность вести осмысленный диалог с пользователем очень пригодится, например, голосовым помощникам, которые сейчас могут лишь отвечать на четко заданные вопросы. Кроме того, это нужно в образовательном процессе, где похожий ИИ будет способен взять на себя роль преподавателя. Наконец, технология Meta в теории поможет разработчикам видеоигр создавать по-настоящему живых NPC, беседы с которыми не будут сводиться к простому прокликиванию доступных реплик.
Meta
Компания Meta объявлена «экстремистской организацией», ее деятельность на территории России запрещена. Мы вынуждены указывать это по требованию российских властей.
Социальная сеть принадлежит компании Meta, которая объявлена в России «экстремистской организацией», деятельность компании в РФ запрещена. Мы вынуждены указывать это по требованию российских властей.
Социальная сеть принадлежит компании Meta, которая объявлена в России «экстремистской организацией», деятельность компании в РФ запрещена. Мы вынуждены указывать это по требованию российских властей.
Cicero
Название ИИ — это имя римского оратора Цицерона.
«Риск»
Еще одна классическая стратегическая настольная игра о захвате территорий.
Чат-бот
Программа, имитирующая реальный разговор с пользователем. Например, много самых разных чат-ботов есть в телеграме.
BART
Common Crawl
Некоммерческая организация, выступающая за свободу информации и позволяющая пользоваться ее собственной базой данных о вебе, накопленной за 12 лет.
NPC
Неигровой персонаж (от английского Non-Player Character). Геймер его не контролирует.
А что с ней случилось?
Призванная помочь в написании научных статей, эта нейросеть стала жертвой пользователей, которые «скармливали» ей совсем не научные тексты. После этого модель принялась выдавать как откровенную глупость вроде исторических статей о медведях в космосе, так и ошибаться даже в самых простых расчетах. В результате Galactica закрыли.
Обработка естественного языка
Подраздел ИИ, который изучает взаимодействие между ним и человеком средствами естественного для человека языка.
Итерационный (итеративный) алгоритм
Алгоритм, в котором на каждом шаге используется одна и та же формула со значениями, полученными на прошлом шаге.