Компания OpenAI запустила продвинутый голосовой режим ChatGPT, который она показала в мае 2024 года. Уже тогда многих экспертов поразило, насколько реалистично может звучать (а также петь и менять интонации) искусственный интеллект. И первые тесты подтвердили, что большинство заявленных возможностей работают именно так, как и было обещано. Пока доступ к голосовому режиму есть лишь у небольшого круга пользователей, но они уже начали делиться в соцсетях примерами работы виртуального ассистента. «Медуза» собрала наиболее интересные из них.
Изначально голосовой режим планировали сделать доступным в конце июня 2024 года. Однако OpenAI отложила запуск, объяснив это тем, что функция все еще нуждается в доработке. Некоторые журналисты предположили, что задержка могла быть связана с нехваткой ресурсов в компании. Параллельно разработчики готовили запуск тестовой версии SearchGPT — поисковой системы на базе искусственного интеллекта, и это могло отразиться на сроках выхода голосового режима.
Подготовка к запуску также сопровождалась громким скандалом. После презентации голосовой режим ChatGPT начали сравнивать с искусственным интеллектом из фантастического фильма «Она», где его озвучила Скарлетт Йоханссон. Но не только из-за возможностей нового виртуального ассистента. Один из его голосов (всего их пять), который в OpenAI называют Sky, был сильно похож на голос актрисы. По словам Йоханссон, даже ее близкие не могли заметить разницу.
Актриса рассказала, что представители компании обращались к ней за девять месяцев до презентации и предлагали сотрудничество, но она решила отказаться. Поэтому ее возмутило решение OpenAI использовать в ChatGPT максимально похожий голос. В конечном итоге компания решила отказаться от использования Sky. А Скарлетт Йоханссон после этой истории в одном из интервью сказала, что глава OpenAI Сэм Альтман вполне мог бы быть злодеем из вселенной Marvel.
В итоге продвинутый голосовой режим начали внедрять только в августе. Пока доступ к нему получило ограниченное число пользователей с платной подпиской ChatGPT Plus. Функцию можно найти в приложении чат-бота для iOS и Android. По словам разработчиков, к концу осени 2024 года доступ к ней получат все платные пользователи.
Судя по ранним отзывам, новый виртуальный ассистент действительно взаимодействует с человеком в реальном времени. На презентации разработчики рассказывали, что задержка в ответах составляет около 320 миллисекунд, что сопоставимо со скоростью реакции человека. Кроме того, ИИ реагирует, если его перебивают, не теряет нить разговора и запоминает контекст.
В одном из примеров голосовому помощнику немного сбивчиво ставят задачу, но он понимает, о чем идет речь. При этом реагирует на дополнительные просьбы пользователя и моментально под них подстраивается. Правда, в одном эпизоде, когда ИИ по ходу фразы попросили говорить более эмоционально, он не сразу понял, о чем речь, и переспросил, все ли в порядке.
AIGener8
Отвечая на запросы, ассистент способен выдавать ответы в определенном стиле — например, разговаривать как пират, напевать или нашептывать, а также быстро переключаться между языками и менять темп речи. Он также может имитировать голоса популярных персонажей, например Гомера Симпсона или Йоды, и даже смешивать их манеру речи в одной фразе. Причем делает это именно так, как сделал бы обычный человек, — голос может быть узнаваем, но все равно нет стопроцентного сходства.
При этом продвинутый голосовой режим может имитировать не только речь, но и различные звуки. Например, он может выполнить шутливый запрос и спеть песенку от лица лягушки, кота или собаки. Это работает и в обратную сторону — можно попросить виртуального ассистента распознать, какие звуки он слышит. Но не всегда он это делает с первой попытки. В примере ниже он ошибается в определении кашля, но затем исправляется.
Одна из главных особенностей нового режима — поддержка множества разных языков, в том числе не самых очевидных и распространенных, например армянского. Причем виртуальный ассистент может не только говорить на них сам, но и воспринимать их «на слух» и переводить фразы в режиме реального времени, в том числе и текстовые. Сам ассистент утверждает, что знает десятки языков, а точная цифра может варьироваться в зависимости от того, учитываются ли диалекты.
В сети есть примеры, когда чат-бот произносит фразы с разными британскими или американскими акцентами, быстро переключаясь между ними по просьбе пользователей. Он также может помочь с изучением иностранных языков, подсказывая правильное произношение отдельных слов.
Сложно оценить, насколько хорошо в действительности ChatGPT умеет говорить на всех этих языках. В одном из примеров его попросили рассказать с выражением историю на русском, и очевидно, что у виртуального ассистента есть небольшие проблемы с произношением и интонацией. Но он правильно строит предложения, не теряет смысл повествования и лишь один раз в самом начале немного промахивается с ударением в слове «жила́».
Иногда виртуальный ассистент действительно ведет себя как человек. Самый яркий пример: когда искусственный интеллект попросили быстро вслух досчитать до 50, ближе к концу он начинает немного запинаться, как будто ему не хватает воздуха. При этом в текстовой версии ответа нет никаких пауз или соответствующих пометок. Модель просто использует естественные речевые шаблоны, которые включают в себя короткие перерывы, чтобы перевести дух. Причем, если попросить ИИ не дышать и вести себя как Супермен, которому не нужен воздух, он все равно делает паузы.
ИИ также может поддерживать диалог с двумя собеседниками, корректно распознавать эмоции пользователя по голосу, произносить скороговорки и добавлять акценты из других языков — например, говорить по-английски с карикатурным итальянским акцентом. Он также способен шутить (и смеяться над шутками): в одном из примеров чат-бот разыгрывает сценку «Рон Уизли читает ценники в IKEA», попутно жалуясь (голосом, похожим на голос персонажа), что это невозможно произнести.
В сети уже было несколько подтверждений того, что виртуальный ассистент способен петь, а если расположить рядом два устройства с ChatGPT, то они могут продолжать строчки песни друг за другом. После релиза выяснилось, что голосовому режиму по силам даже битбокс.
Представители OpenAI рассказали изданию Ars Technica, что перед запуском новой функции работали более чем со 100 внешними тестировщиками, которые в совокупности говорили на 45 языках и представляли 29 географических регионов.
В систему также добавили фильтры, которые блокируют генерирование музыки или аудиофрагментов, защищенных авторским правом. Кроме того, она работает только с заранее установленными голосами и не может выдавать себя за других людей, например публичных персон. В целом журналисты отмечают, что, несмотря на некоторые ошибки и неточности, новая технология действительно хорошо справляется с большинством задач.