<a href="https://webdiplomacy.net/" rel="noopener noreferrer" target="_blank">webDiplomacy</a>
истории

Искусственный интеллект от Meta научился вести переговоры в настольной игре про дипломатию и войну. И делает это гораздо лучше, чем люди Он умеет врать и блефовать — но пригодится не только для этого

Источник: Meduza

22 ноября компания Meta, владеющая Facebook и Instagram, представила алгоритм искусственного интеллекта (ИИ) Cicero, который обыгрывает живых людей в настольную игру «Дипломатия». В отличие от большинства подобных алгоритмов, разработка Meta не просто знает правила игры и умеет им следовать, но еще и может вести переговоры как реальный человек — и даже лучше. «Медуза» рассказывает, как устроен Cicero и для чего его могут применить в будущем.


Алгоритм ИИ от Meta анонимно сыграл 40 партий в «Дипломатию» в онлайн-версии игры, на сайте webDiplomacy.net, и никто не догадался, что это не настоящий человек. Более того, Cicero набирал в среднем в два раза больше очков, чем живые игроки, а по итогам периода с 19 августа по 13 октября вошел в 10% лучших игроков. «Он безжалостен в реализации своей стратегии, но не настолько, чтобы раздражать или расстраивать других» — так о Cicero высказался чемпион мира по «Дипломатии» Эндрю Гофф.

Для начала разберемся, как играют в «Дипломатию»

«Дипломатия» — это настольная игра, которую в 1954 году придумал американец Алан Брайан Колхамер. Игровое поле — карта Европы начала XX века, а участники игры (максимум семь) берут на себя роль руководителей великих держав: Австро-Венгрии, Великобритании, Германии, Италии, России, Турции и Франции. В случае если игроков меньше семи, каждый управляет сразу несколькими странами. Побеждает тот, под чьим контролем оказывается половина так называемых центров поддержки — особых зон на поле, позволяющих производить и содержать военные единицы для дальнейшей экспансии. Одна зона — одна военная единица.

Всего на игровом поле таких зон 32, нейтральных на старте партии — лишь 12. Обычно их захватывают в самом начале, дальше державы вынуждены воевать друг с другом за территорию. 

Ходы в «Дипломатии» — в отличие от многих других настольных игр — совершаются не по очереди, а одновременно. Игровой ход разделен на весну и осень, а каждый из сезонов, в свою очередь, поделен на несколько фаз:

  • фаза дипломатии — игроки общаются, заключают альянсы (как открыто, так и тайно), продумывают дальнейшую стратегию или подслушивают планы оппонентов;
  • фаза написания приказов — игроки пишут на бумажках приказы о передвижении, поддержке, транспортировке своих войск или об удержании позиций;
  • фаза исполнения приказов — игроки зачитывают свои приказы и приводят их в исполнение, если возможно;
  • фаза отступления и расформирования — игроки отводят разбитые в бою формирования на безопасные территории;
  • фаза получения и потери войск — игроки оценивают, сколько «центров поддержки» они контролируют, и либо лишаются военных единиц, либо, наоборот, приобретают. Эта фаза играется только осенью. 

Так как же устроен искусственный интеллект Cicero

В отличие, например, от «Риска» в «Дипломатии» мало что решает простое везение. Да и перемещение фигурок по полю — это пусть важная, но не главная составляющая игры. Само название подсказывает, что основу игрового процесса составляет вербальное взаимодействие между игроками. «Главы государств» ведут переговоры, заключают союзы, предают, обманывают, блефуют — и всеми этими навыками (разумеется, не в настольной, а в онлайн-версии игры, доступной на webDiplomacy.net) овладел алгоритм ИИ Cicero. 

Если упрощать, то Cicero — это что-то вроде чат-бота, в основе работы которого лежат два модуля: обработки естественного языка и стратегического мышления. Помимо этого есть фильтры, отсеивающие «низкокачественные» реплики диалога, не подходящие текущей ситуации на поле или не ведущие к достижению цели, поставленной ИИ. Благодаря этим трем составляющим Cicero способен общаться с оппонентами по «Дипломатии», предсказывать их поступки, использовать игроков для достижения личной выгоды и выигрывать. 

Cicero — не первый искусственный интеллект, который превосходит людей в играх. Например, в 2015-м Google разработала программу AlphaGo, обученную на 160 тысячах партий в го. В том же году программа одержала победу над трехкратным чемпионом Европы по го Фань Хуэем, а годом позже — над Ли Седолем, обладателем высшего, девятого дана. Интересно, что никаких специальных алгоритмов, связанных непосредственно с го, в AlphaGo не заложено. 

В 2019 году разработанный Alphabet искусственный интеллект AlphaStar впервые победил профессиональных игроков в StarCraft 2. Итоговый счет — 10:0. 

Но самый, пожалуй, известный случай превосходства машины над человеком на игровом поле — это шахматный матч, который прошел в мае 1997 года. На нем суперкомпьютер Deep Blue, созданный IBM, обыграл Гарри Каспарова, одержав победу в двух партиях из шести. Каспаров победил в одной, а остальные три партии завершились ничьей. Это был первый случай в истории, когда компьютер обыграл чемпиона по шахматам. 

Однако и го, и StarCraft 2, и шахматы — игры с нулевой суммой, то есть такие, в которых игроки изначально антагонистичны, а их цели противоположны. Кооперативное взаимодействие в таких играх не предполагается, поэтому создатели ИИ могут обучить модель, попросту заставив компьютер играть против самого себя. С «Дипломатией», где формируются социальные связи, а течение партии не так предсказуемо, такой метод не сработает. 

Языковая модель Cicero включает в себя 2,7 миллиарда параметров, обучена на книгах, новостях, постах c Reddit, а также гигантского массива данных Common Crawl. В дополнение инженеры Meta использовали данные о 125 тысячах онлайн-партий в «Дипломатию», сыгранных на webDiplomacy.net. В 40,4 тысячи из этих 125 тысяч игроки общались друг с другом. Таким образом, Cicero научился еще и по 12,9 миллиона сообщений, относящихся напрямую к «Дипломатии». 

Однако, как отмечают в Meta, такая модель может лишь подражать сообщениям из корпуса данных, но не создавать на их основе более эффективные реплики. Другими словами, модель умеет врать, блефовать и «втыкать нож в спину», возможно, так же хорошо, как человек, но не лучше его.

Чтобы исправить этот изъян, инженеры ввели понятие «намерения» (intents). Они помогают контролировать диалог между ИИ и живым игроком. Каждому сообщению в датасете, на котором обучался Cicero, автоматически присвоена аннотация, отражающая собственно намерения отправителя и получателя на текущий ход и несколько последующих. Условно: намерение A присваивается сообщению, если A — это наиболее вероятные действия, которые предпримут участники диалога. В случае если диалог продолжается после сообщения A, намерения могут измениться. 

Как работает Cicero

Meta AI

За просчет дальнейших планов и выбор намерений отвечает модуль стратегического мышления Cicero — именно он анализирует обстановку на поле и состоявшиеся уже переговоры, а также предсказывает действия других игроков. Обычно для таких целей используют «поведенческое клонирование» — обучение ИИ на основе данных, полученных из наблюдений за людьми. 

В случае с «Дипломатией» такой подход не особенно работает, так как в итоге получаются расхождения между словами ИИ и его действиями. В Meta AI разработали итеративный алгоритм и назвали его piKL: он воспринимает каждый ход в «Дипломатии» как отдельную игру, в рамках которой участник стремится предпринять какое-то действие, чтобы в итоге достичь конкретной цели. И цель, и награду алгоритм предсказывает, исходя из предположения, что игрок будет выбирать лучшие из доступных ему вариантов. 

Cicero предлагает сопернику выгодное для себя решение и предполагает, что тот ответит. Основываясь на наиболее вероятных ответах противника, ИИ прогнозирует поведение оппонента, а также корректирует собственный план.

Здесь возникает одна загвоздка: Cicero по своей «природе» не умеет врать, поэтому нередко выдает противнику реальные планы. Чтобы нивелировать «утечку информации», в Meta разработали метод оценки сообщений в зависимости от того, насколько это навредит самому ИИ. В итоге, оценив 127 диалогов, инженеры пришли к выводу, что искусственный интеллект выбирает самые предпочтительные варианты реплик в 67% случаев.

Это как раз один из таких фильтров реплик, о которых мы писали выше. Среди других — фильтры, отсеивающие токсичные высказывания, а также повторы сообщений и офтоп. 

И зачем искусственному интеллекту играть в настольную игру

На протяжении десятилетий считалось, отмечают в Meta , что искусственный интеллект не сможет овладеть «Дипломатией». Но он смог — и, более того, прекрасно себя проявил. Игра, которая требует умения убеждать, заключать союзы и идти на компромиссы, стала отличным полигоном для исследования взаимодействия между ИИ и человеком. 

Если у кого-то есть желание поближе познакомиться с Cicero или улучшить его, то можно отправить заявку в Meta — она готова предоставить доступ. Компания призывает ответственно подходить к модификациям ИИ, чтобы избежать повторения ситуации с демоверсией нейросети Galactica, просуществовавшей в открытом доступе всего два дня.

И хотя сейчас Cicero годится только для игры в «Дипломатию», методы, использованные для его создания, применимы и в других областях. Способность вести осмысленный диалог с пользователем очень пригодится, например, голосовым помощникам, которые сейчас могут лишь отвечать на четко заданные вопросы. Кроме того, это нужно в образовательном процессе, где похожий ИИ будет способен взять на себя роль преподавателя. Наконец, технология Meta в теории поможет разработчикам видеоигр создавать по-настоящему живых NPC, беседы с которыми не будут сводиться к простому прокликиванию доступных реплик. 

Magic link? Это волшебная ссылка: она открывает лайт-версию материала. Ее можно отправить тому, у кого «Медуза» заблокирована, — и все откроется! Будьте осторожны: «Медуза» в РФ — «нежелательная» организация. Не посылайте наши статьи людям, которым вы не доверяете.