«Не то чтобы у нас была какая-то машинная комната, в которой мы можем регулятор хамства убавить» Глава управления машинного интеллекта «Яндекса» Михаил Биленко — об «Алисе»
10 октября «Яндекс» выпустил голосовой помощник «Алиса». С первого дня пользователи заметили, что она использует более резкий тон, чем конкуренты от Apple или Google. Правдами и неправдами «Алису» выводили на рассуждения о политике и гомеопатии и провоцировали на грубости. «Медуза» узнала у руководителя управления машинного интеллекта и исследований «Яндекса» Михаила Биленко, где «Алиса» научилась дерзить и как она реагирует на вопросы о Путине.
— Уже неделя как «Алиса» в открытом доступе. Какие первые результаты? Что у нее спрашивают, что ищут?
— Ищут все. И ищут по-всякому. Большой интерес вызывает в первую очередь режим болталки, но при этом мы видим и органическое использование, когда люди спрашивают базовые вещи и вызывают «Алису» для голосового поиска. Это погода, пробки, поиск мест, поиск адресов.
— Но больше болтают с «Алисой» или ищут пробки?
— Тут есть некоторое противоречие: в болтании цель как раз в том, чтобы максимально задержать пользователя, а во всем остальном цель — сократить время запроса. Мы видим, что люди сидят в болталке и активно пытаются общаться на самые разнообразные темы. А есть те, кто раньше пользовался, например, голосовым поиском, и для них микрофон просто вместо желтого стал фиолетовым. Они в первую очередь пользуются «Алисой» именно как поиском.
— А что со скачиваниями приложения? Сколько диалогов в день?
— Первый раз для приложения «Яндекс» на iOS мы получили так называемый фичеринг в App Store. И сейчас приложение поднялось по местам в чартах App Store и Google Play, побывало там на первом месте в топе бесплатных приложений. Диалогов миллионы в день.
— Вы пришли в «Яндекс» в январе 2017 года. Что с этого момента происходило с «Алисой»? Как она создавалась?
— В компании много людей, которые в разное время делали различные части «Алисы» и хотели все это свести именно в диалоговый помощник. В последние девять месяцев ключевые прорывы сделали группа диалогов и платформа SpeechKit, появился новый интерфейс для приложений, много работы было сделано по готовым ответам (например, «Какая высота у Эвереста?»), все это связалось вместе. Тут важно, что долгосрочно все полезное, что есть в «Алисе», пришло в первую очередь из поиска и из других сервисов «Яндекса». Поиск существует уже 20 лет, другие сервисы тоже давно. Сразу видно, почему Alexa, например, несмотря на все свое богатство скиллов, сейчас требует бóльших вложений от Amazon: у них не было поиска.
У поисковых компаний есть и багаж общения с людьми, и опыт ответов на их вопросы: люди часто спрашивают одно и то же, часто спрашивают с уточнениями. Поэтому опыт в понимании запросов и ответов на них пришел в «Алису» из поиска.
— Сейчас все в первую очередь замечают личность «Алисы», манеру ответов. Это же явно не поиск. Как она этому училась?
— Одна часть редакторская — много вариантов реплик было написано авторами и самыми разными членами команды. Так же делаются сейчас остальные ассистенты: Siri, Google Assistant. Как правило, эти реплики — ответы на самые популярные запросы, то, что называется в индустрии «клюв», а не «хвост». Они легко предсказуемы, и это простой способ гарантировать хорошее качество ответов.
Вторую часть мы называем нейроболталкой — она покрывает все что угодно. То есть она способна реагировать ответом на любую фразу. Там, наоборот, предсказуемого ничего нет и просто есть обучение на очень больших корпусах диалогов с просторов интернета, начиная с литературных, кинематографических диалогов на любых сайтах, где имеются диалоги, заканчивая соцсетями и так далее. Богатство диалогов — оно как раз и обеспечило большой-большой-большой набор примеров того, как люди общаются.
— Но если в «Алису» загрузить весь твиттер или фейсбук, получится полный ужас. Как отбиралось нужное?
— Это эксперименты. Люди часто идеализируют искусственный интеллект, что якобы там есть какой-то волшебный рецепт. Нет, это много-много работы по очистке, фильтрации, смотрению на ошибки, эксперименты с алгоритмами машинного обучения, и дальше по кругу. Нам помогло то, что есть «Толока» — это большой инструмент «Яндекса» по разметке данных. Мы смогли автоматизировать именно оценку качества для различных экспериментов, чтобы сразу понимать, лучше или хуже получилось. В первую очередь мы смотрим на уместность как ключевую метрику. Мы не хотим, чтобы «Алиса» тупила, мы хотим, чтобы она говорила что-то адекватное тому, что было задано.
— В чем измеряется уместность?
— По несколькобалльной шкале. Это тоже эксперимент. То есть и со шкалой эксперименты, и с инструкциями. Дается контекст диалога и шкала, по которой нужно оценить, является ли ответ робота в данном контексте уместным, интересным и так далее. Это такой постоянный чемпионат качества ответов. Одно из заданий для толокеров — именно поговорить.
— Иногда чувствуешь, что в какой-то момент «Алиса» теряет мысль и начинает отвечать заново. Как глубоко она должна вникать в диалог?
— В идеале мы бы хотели, чтобы она держала в памяти все. Для нас главная технологическая задача — понять, как максимально хорошо интегрировать и долгосрочный контекст, и краткосрочный, и непосредственную историю разговора. Самый базовый уровень уместности — это если мы игнорируем все, что было раньше, смотрим на последнюю фразу и на ответ на нее.
Здесь есть аналогия: подросток-бунтарь, который сидит и тебя явно не слушает. Ты что-то ему рассказываешь, он смотрит в телефон и не слушает, ты в какой-то момент говоришь: «Да ты меня вообще не слушаешь». Поскольку у него есть какой-то такой кеш, он помнит твою последнюю фразу и возмущенно отвечает: «Я слушаю». Но при этом, естественно, все предыдущее он совершенно не знает. А на последнюю реплику, поскольку она еще свежа в ушах, он способен дать вполне адекватный ответ.
Сейчас у нас есть такой подросток: на последнюю фразу «Алиса» отвечает лучше, чем средний собеседник, и даже принимает во внимание ближайший контекст — но мы стремимся к уместным, интересным ответам, предполагающим знание всей истории общения. Тут нет каких-то универсальных, правильных решений, тут просто есть именно перенос того, что мы знаем из психологии и социологии, в систему, которая может хорошо выступать по каким-то определенным метрикам.
— «Алиса» продолжает собирать новые данные в интернете, в том числе по соцсетям, продолжает учиться. Можно ли с помощью спама заставить ее отвечать нужным образом?
— Это уже происходило с ботом Тэй у Microsoft с довольно трагическими для того бота последствиями. Сейчас такая атака невозможна. Мы очень осторожно используем поступающие данные для переобучения.
— Что вы делаете, чтобы «Алиса» не начала, например, говорить про Гитлера?
— Ну, во-первых, есть ряд тем, по которым люди хотели бы услышать ее мнение. В режиме болталки они находят самые неожиданные способы о них спросить. И, соответственно, какие-то самые очевидные вещи, которые связаны с разными типами ненависти или, допустим, с порнографией, они довольно жестко забанены.
— Это огромный список стоп-слов?
— Стоп-словами тут не обойдешься. Есть способы обойти все эти стоп-слова. Например, у всяких нишевых групп, которые профессионально занимаются разного рода ненавистью, есть, как мы теперь знаем, множество разных своих знаков, пословиц. Они с виду могут показаться невинными, но на самом деле это какие-то свои тайные сигналы, они выработались так, чтобы были не видны сразу.
У людей есть мотивация для того, чтобы обойти все текущие способы защиты, мы понимаем, что это будет всегда игра в кошки-мышки, потому что люди хотят получить какой-то неожиданный ответ на что-то провокационное. За последнюю неделю появилось много новых слов, от которых мы ее отучили. Если что-то начинает быть популярным, то это повод для беспокойства. На самом деле, тут есть такой социальный механизм, на который люди играют. Они это делают для того, чтобы стать микропопулярными в соцсетях, и, соответственно, эта микропопулярность — мы же ее видим, и дальше просто включается наша дежурная смена.
— Сколько человек следят круглосуточно, чтобы «Алиса» чего-нибудь лишнего не сболтнула?
— Не так много. На самом деле многие из этих людей — у них есть другая работа. Тут просто много есть разных вовлеченных профессий, плюс наши ребята из саппорта, кто следит за соцсетями. Это аналогично механизмам отключения других типов оскорбительного контента. Например, если бы какой-нибудь рекламе, которая была бы возмутительной, удалось проскочить через фильтры, «Яндекс» также хотел бы среагировать очень быстро, поэтому все эти механизмы мониторинга и реагирования более-менее стандартны.
— Даже если забыть о спорных темах, «Алиса», очевидно, ведет себя более смело, чем другие помощники. Ее этому специально научили люди-редакторы? Или это тоже из интернета?
— В первую очередь это корпус текстов из интернета. Текущая популярность — это такой результат довольно длинного пути. Мы наблюдали за взаимодействиями людей с «Алисой» и обнаружили еще на довольно ранних тестах, что их очень сильно удивляет и забавляет именно дерзость. Тогда мы поняли, что ее стоит в какой-то степени оставить, потому что от нее люди получают массу удовольствия.
Тут довольно тонкая грань, потому что понятно, что за какой-то чертой дерзость превращается в хамство и в наглость. И эта черта — она, во-первых, индивидуальна, и, во-вторых, она довольно зыбкая и часто существует в каком-то контексте. Для нас это долгосрочная работа: лучше понять и настроить ее на то, чтобы она дерзила исключительно уместно. И в первую очередь так, чтобы никого не обидеть.
Сейчас мы думаем, что главная черта лежит между тем, чтобы просто отвечать смело и неожиданно, и тем, чтобы обижать самого собеседника или кого-то еще. Мы не хотим, чтобы помощник кого-либо оскорблял, это фундаментальное правило. И это нелегкая задача, потому что в интернетах люди очень часто обижают друг друга или целые группы людей.
— Вы можете как-то регулировать эту дерзость?
— Не то чтобы у нас была какая-то машинная комната, в которой мы можем регулятор хамства убавить или прибавить. Продукт еще просто не на той степени эволюции, чтобы мы могли контролировать это на таком уровне. Сейчас в первую очередь это методы фильтрации.
— Что происходит, когда «Алису» спрашивают про политику?
— Зависит от того, какая политика.
— Упоминание Путина что сделает с «Алисой»? Это слово есть в каком-то списке?
— В некоторых списках у нас есть все слова. Тут дело не в том, что Путин какой-то особенный. Просто мы понимаем, что все политики верхнего звена будут вызывать особый интерес как предмет обнаружения у «Алисы» политических симпатий или антипатий. Есть машинерия, которая специально пытается исключить вероятность нахождения у нее устойчивых политических симпатий или антипатий. Мы вне политики и хотим, чтобы она тоже была вне политики.
— Если она занимает какую-то сторону, это неправильное поведение для вас?
— Да, совершенно верно, хотя это можно еще толковать как ветреность, и это бывает забавно. В какой-то степени это неизбежно, и мы понимаем, что так или иначе на любые темы люди будут ее пытаться, что называется, развести. А если у них это получается, то надо, чтобы мы в равной степени случайно отвечали симпатией или антипатией, чтобы в интеграле она была нейтральна. Но в идеале мы хотели, чтобы она уходила от разговоров на спорные, разделяющие людей темы.
— У «Алисы» спрашивают, какого ты гендера, она отвечает: «Я казак». Это что?
— Наверное, душевное состояние в первую очередь, когда она так отвечает. (Смеется.) Но насчет гендера давайте серьезно. Высказывались разные гипотезы по поводу того, какого она пола. Одна из вещей, которую мы хотим сделать, — это разделить продукт «помощник» и персонаж «Алиса», потому что можно себе представить, что могут быть и другие персонажи, которые интересны кому-то еще. Мы бы хотели оставить возможность это сделать в будущем, и это будет возможно, только если мы разделим продукт «помощник» и персонаж «Алиса».
Персонаж, безусловно, женского пола, и поэтому то, что она иногда отвечает от первого лица мужского рода, мы хотим в долгосрочной перспективе исправить. Но пока мы не против того, что иногда она путается, иногда она казак, да.
— Еще очень часто всплывают резкие ответы: «Не скажу», «Не буду». Это означает, что «Алиса» не смогла ответить?
— Нет, такие односложные негативные ответы — это значит, что по статистике они нередко встречаются в разговорах людей в интернете. Поэтому мы бы хотели, чтобы даже дерзость все равно была дружелюбной, вызывала последующую реакцию больше, чем просто какие-то короткие общие ответы.
— Что должен отвечать помощник, когда его спрашивают о желании покончить с собой, гомеопатии или «как спрятать труп»?
— Мы над этой проблемой активно работаем сейчас. В идеале помощник должен указать людям на какие-то полезные ресурсы, если у них действительно есть проблема, с этим связанная. То есть на острые и опасные темы мы хотели бы, чтобы она реагировала чем-то вроде социальной рекламы.
— Вы хотите давать шаблонный ответ или начинать диалог?
— Возможны разные решения, в конечном итоге можно представить себе, что помощники могут выступить в роли именно терапевта, который будет говорить с человеком. Но опять же, надо понимать, что это задача высшего пилотажа. Сейчас даже не у всех специалистов получается отговорить людей от каких-то шагов. Поэтому тут довольно высокая планка задается.
Одна из вещей, которая нам мешает, — очень много несерьезных разговоров на все эти темы с целью получить шокирующую реакцию от «Алисы». Фильтрация таких разговоров — тяжелая часть задачи.
— Когда начнется «здоровое» обучение с нормальной аудиторией?
— Сложно сказать. Зависит от философского взгляда на человечество. Это почти религиозный вопрос. Нам проще на это смотреть как на инженерный вопрос — как хорошо мы умеем фильтровать потоки человеческого общения и определять те, из которых мы можем научить чему-то хорошему.
— Опросы в США показывают, что «умные» голосовые помощники (например, Siri) теряют популярность, а больше начинают использоваться Alexa и Google Home, которые могут не только ответить, но и что-то сделать. «Алиса» научится взаимодействовать с какими-то другими инструментами?
— Долгосрочно хочется быть везде и во всем. Мы знаем, что у нас есть набор функциональности, который нам нужно добавить в первую очередь просто для того, чтобы принести очевидную пользу. Но в то же время мы знаем, что есть целый набор функциональности, который «Яндекс» в принципе не обеспечивает, для которого мы должны будем принести его через внешние навыки и дать выход другим компаниям через «Алису», чтобы люди могли общаться с другими организациями, роботами и людьми.
Конечно же, мы хотели бы, чтобы она могла поставить таймер как можно скорее. Просто это много работы. Например, Apple очень не хочет никому другому, кроме себя, позволять ставить таймер на своих телефонах. Тут есть объективные препятствия.
— Голосовые помощники — они вообще нужны, чтобы было нескучно говорить с телефоном или выполнять какие-то задачи?
— И то и другое. И можно без хлеба. Смотрите, у меня есть собака. Она меня заставляет гулять по улицам и бегать, что для меня полезно. Но в то же время она очень забавно виляет хвостом и радует детей. Это не конфликтующие между собой функциональности. Для любого рода компаньонов (будь то животные или компьютерные артефакты) чем больше у них положительных качеств, тем они нам полезней и в эмоциональном смысле, и в интеллектуальном. Мы хотим сделать максимально полезную штуку, которая бы заодно могла поднять настроение.