Откуда искусственный интеллект берет вдохновение? И как ищет сюжет? Важные вопросы про нейросети и их творчество

12:16, 30 декабря 2019

В 2018 году на аукционе Christieʼs продали картину, написанную искусственным интеллектом. И хотя портрет ушел с молотка за $432 000, примерно в четыре раза дороже стартовой стоимости, профессиональное сообщество оказалось в замешательстве: можно ли вообще назвать нейросеть автором? Вместе с руководителем лаборатории машинного интеллекта «Яндекса» Александром Крайновым пытаемся ответить на этот вопрос.

Творения нейросети — штучное искусство или набор штампов?

Иногда говорят, что музыку, изображения, тексты, которые создает искусственный интеллект, нельзя называть искусством, ведь они тиражируемые. Как если сравнить фабрику, на которой каждый день производятся тысячи стульев, и столяра, который делает стулья поштучно. Но эта аналогия не совсем верна. Нейросети, в отличие от станка, могут создавать уникальные штучные продукты. Просто они более производительны: то, на что у человека уходит несколько часов или дней, нейросеть может сделать за секунды.

Нейронная сеть способна находить в массивах данных неочевидные закономерности. Например, если ее обучать на всем, что когда-либо написал определенный художник, она сможет выявлять свойственные его творчеству приемы лучше профессиональных искусствоведов. По тому же принципу можно научить нейросеть распознавать характерные черты не одного, а всех художников в мире. По мотивам увиденного она сможет создать уже что-то новое.

Как нейросеть может творить, если у нее нет вдохновения?

Яндекс

Нейросеть может воссоздать все, чему ее обучили, но рамки творчества для нее всегда задает человек. Скажем, если он даст задачу написать портрет, горный пейзаж или даже картину в стиле ню, нейросеть сделает это, если она была обучена на конкретном виде изображений. Пока не все жанры удаются нейросетям одинаково хорошо. Например, некоторые природные пейзажи вполне можно спутать с работами реальных художников-модернистов. А вот городской пейзаж воссоздать сложнее: на запечатленной улице много мелких деталей — автомобили, фонари, деревья, прохожие. Все дело в вариативности элементов: горы, трава, облака могут выглядеть почти как угодно. А один неверно нарисованный объект на городской улице сделает нереалистичным все изображение.

Как технически устроен процесс рисования нейросетью?

Яндекс

Создание изображения — это математически сложная задача. Само изображение представлено в виде набора чисел, которые задают цвета конкретных пикселей. Нейросеть в процессе обучения пытается получить такой набор чисел, который походит на те картинки, на которых тренировалась нейросеть.

Правдоподобные изображения генерируются благодаря нейросетям GAN (generative adversarial networks), которые как бы состязаются друг с другом. Их архитектура представлена в виде двух нейронных сетей: генератора — творца и дискриминатора — критика, который оценивает работу творца. Задача генератора — сделать так, чтобы дискриминатор усомнился в том, что рисунок, созданный им с помощью формул и переборов, на самом деле ненастоящий (то есть сгенерирован машиной, а не человеком). Если дискриминатор с высокой степенью вероятности распознает картинку как «подделку», то генератор понимает, что нужно делать иначе. Рано или поздно дискриминатор «принимает» рисунок за первоисточник. Когда ему указывают на ошибку, он запоминает ее и больше не повторяет. Подбор параметров формулы продолжается до тех пор, пока происходят улучшения генератора. Цель — получить генератор, который умеет создавать правдоподобные изображения.

Может ли нейронная сеть написать музыку?

Да, хотя далеко не все результаты ее творчества удачны. Одна из сложностей работы с музыкой в том, что в ней развивается некий сюжет. Каждая последующая нота должна быть связана с предыдущей не только гармонически, но и «по смыслу», — только тогда сложится музыкальная тема, а не какофония.

Попробуем объяснить на примере. Если музыкальный человек услышит произведение, вполне вероятно, что он сможет его насвистеть. По этому свисту опытный музыкант сможет восстановить исходное произведение: чем он опытнее, тем точнее его интерпретация будет к оригиналу. Нейросеть тоже сначала учится преобразовывать мелодию в «свист» (сжимать ее в «компактное представление»), а затем «разворачивать» мотив в полную версию. Но чтобы выучить тысячи мелодий целиком, у нее не хватает памяти (нейросеть в этом случае специально ограничивают в размере). Поэтому нейросеть заучивает лишь некие музыкальные закономерности. Чтобы получить уникальное произведение, ученые помещают в «компактное представление» наборы случайных чисел. Из них нейросеть пытается восстановить исходное произведение, применяя выученные закономерности музыки. У нейросети более-менее благозвучные мелодии получаются в примерно 10% случаев, остальные 90% отбраковываются из-за недостатка мелодичности. Однако о создании полноценного произведения речи пока не идет: даже эти 10%, как правило, дорабатываются людьми.

В 2019 году нейросеть от «Яндекса» стала соавтором восьмиминутной пьесы для альта с оркестром. Программа проанализировала четыре гигабайта музыкальных файлов разных стилей, в том числе Баха и Шнитке, и сгенерировала на их основе собственные мелодические линии. Композитор Кузьма Бодров развил наиболее удачные темы и сделал полноценную оркестровку. Пьесу сыграл оркестр Юрия Башмета.

Способна ли нейросеть написать связный текст, стихи или анекдот?

Нейросеть вообще не понимает смыслов, не считывает иронию или аллюзии. Но она может синтезировать смыслы по тому же принципу, как это делает человек. В любом языке есть синтаксическая модель и правила порядка слов. Учитывая контекст, мы примерно понимаем, какие слова можно ставить рядом друг с другом, а какие нет.

Для создания любого связного текста нейронная сеть должна проанализировать множество материалов на русском языке, чтобы понять, по какому принципу образуются смысловые пары, какие слова обычно идут друг за другом. Для нейронной сети каждое слово можно представить в виде вектора на сетке координат. Его местоположение зависит от того, в каком контексте слово используется. Возьмем предложение «Трехлетний мальчик катает по ковру игрушечный мотоцикл». Нейросеть берет слово «трехлетний» и преобразует его в вектор. Теперь она подбирает ближайшее к нему слово — «мальчик». Оно подходит по смыслу больше, чем «мужчина» или, например, «подросток». Анализируя эту связку, нейросеть ищет семантически близкий глагол. Она помнит, что речь — о трехлетнем мальчике, поэтому «катал» будет ближе, чем, например, «возил», «управлял» и «перемещал». И так далее.

На схеме мы показываем, как нейросеть анализирует семантические поля и подыскивает близкие по контексту слова

Таким образом нейросети учатся писать небольшие связные тексты. Качество имитации растет довольно быстро. Иногда результаты получаются настолько правдоподобными, что кажется, будто нейросеть пишет тексты осознанно и понимает их смысл (это не так). В 2016 году создателям стартапа Creaited Labs Ивану Ямщикову и Алексею Тихонову с помощью нейросети удалось записать альбом в стиле группы «Гражданская оборона». Сначала нейросеть учили на большом объеме стихов разных авторов, а потом — на стихах Егора Летова. Нейросети даже пытаются шутить, ведь у юмора тоже есть общие законы построения. Хотя пока и довольно неуклюже.

Есть у этой системы практическое применение?

Недавно лаборатория «Яндекса» провела исследование о том, как пользователи ищут фильмы, названия которых они забыли. Специалисты «Яндекса» отсортировали 30 миллионов поисковых запросов, в которых встречались формулировки вроде «фильм, в котором» или «комедия, где».

Сначала алгоритм сравнил запросы с текстовыми синопсисами и рецензиями на фильмы, чтобы, например, по запросу «индийский мальчик с тигром в лодке» можно было найти фильм «Жизнь Пи». Но зачастую запросы пользователей строятся на штампах и с сюжетом связаны опосредованно. Например, так: «сериал, где ничего не понятно и есть корги» («Детективное агентство Дирка Джентли»), «мужик сам от себя родил себя» («Патруль времени»), «фильм, где лингвисты спасают мир» («Прибытие»). Получить ответ на такой запрос с первого раза довольно сложно, а если пользователь переформулирует его, алгоритм поисковика запомнит эти уточнения и будет учитывать их в будущем. Само исследование проводилось без использования нейронных сетей, однако то, что фильмы по таким неточным запросам вообще находятся, в том числе их заслуга.

Можно ли назвать нейронную сеть автором? А творцом?

Яндекс

Автором — скорее нет. А вот творцом — да. Объясним по порядку.

Сегодня большая часть деятельности нейронной сети зависит от человека: именно он запускает нейросеть, задает входные параметры качественного произведения и отбраковывает результаты. Тот же принцип, что и с фотоаппаратом: кажется, что фотоаппарат сделал снимок сам, хотя на самом деле именно человек навел объектив и нажал кнопку затвора. Так что авторские права принадлежат человеку (ну или вообще никому).

Теперь про творчество. Да, нейронная сеть действительно может только подражать человеку, но ведь и любое творчество в некотором смысле — подражание. Оно может быть как осознанным, так и не очень. Скажем, на прерафаэлитов сильно влияли художники Раннего Возрождения, а русские авангардисты вдохновлялись творчеством Пикассо. Фрэнк Синатра, Селин Дион, Фредди Меркьюри — все они писали и исполняли разную музыку, при этом у каждого есть отсылки к фортепианным концертам Рахманинова. Творчество строится на соединении и переосмыслении всего, что человек когда-то увидел или услышал. Наконец, искусство невозможно без зрителя. Сюжет любой картины (равно как и музыкального произведения) находится не в самом произведении, а в голове зрителя или слушателя. Нейронная сеть не испытывает эмоций, но их испытывает человек. Глядя на картину, он расшифровывает заложенный художником культурный код. И нейросеть вполне способна сгенерировать ключ, который вызовет ту же эмоцию, что и произведение человека.

Партнерский материал