OpenAI показала языковую модель GPT-4o, которая еще немного приблизила искусственный интеллект к человеку Теперь ChatGPT умеет петь, менять интонацию голоса и считывать эмоции
На презентации OpenAI в Сан-Франциско представили новую версию языковой модели с генеративным искусственным интеллектом GPT-4o. Разработчики называют ее шагом вперед к более естественному взаимодействию человека с компьютером. Модель может воспринимать любую комбинацию текста, аудио- и визуальных данных и генерировать такие же комбинации в ответах. И самое главное — в общении GPT-4o стала еще больше похожа на человека.
Основную часть презентации посвятили демонстрации голосовых возможностей новой модели. Они были доступны и раньше, но теперь задержка в ответах существенно снизилась и составляет в среднем 320 миллисекунд, что сопоставимо со скоростью реакции человека (в предыдущих версиях GPT этот показатель варьировался от 2,8 до 5,4 секунды). При этом взаимодействуя с ChatGPT, разработчики постоянно перебивали его, однако это никак не отражалось на качестве ответов.
Программист Роберт Лукошко обратил внимание, что большинство ответов GPT-4o начинаются с вводных слов, и предположил, что их воспроизводит другая, более простая модель, пока новая версия готовит полноценную реакцию. Таким образом разработчики могли не только создать видимость моментального ответа, но и приблизить GPT-4o к модели общения реальных людей. Впрочем, вскоре программист изменил свое мнение, посмотрев видео, где две модели поют, продолжая фразы друг за другом.
Да, GPT-4o умеет петь, а также менять интонацию голоса (чат-бот по запросу делает его более драматичным или, наоборот, намеренно говорит как робот) и распознавать эмоции пользователя. А еще анализировать визуальную информацию. На презентации показали, как модель считывает через камеру смартфона уравнение, написанное на бумаге, и дает подсказки по его решению, поправляя пользователя, если он предлагает некорректные варианты.
В прошлом году именно прорыв в решении математических задач уровня начальной школы называли одной из возможных причин временной отставки Сэма Альтмана с поста генерального директора OpenAI. По слухам, этих результатов удалось добиться с секретным проектом Q* («Кью-стар»), который называли одним из важных шагов на пути к созданию общего (или сильного) искусственного интеллекта. Сообщалось, что разработчики уведомили совет директоров об опасности такой разработки из-за непредсказуемых последствий, и его представители решили, что Альтман не уделяет достаточно внимания вопросам оценки рисков.
Модель может работать и в качестве переводчика с иностранных языков. Технический директор компании Мира Мурати разговаривала с одним из разработчиков на итальянском, а он отвечал ей на английском. ChatGPT распознавал эти фразы и сразу же переводил их на нужный язык.
Все эти функции в сочетании с обновленным интерфейсом напоминают фантастический фильм «Она», в котором герой Хоакина Феникса влюбляется в ИИ, озвученный Скарлетт Йоханссон, пишет The Verge. На это сходство намекнул и гендиректор OpenAI Сэм Альтман (он на презентации не появился), опубликовав лаконичный твит с оригинальным названием фильма.
Также создатели показали новое приложение ChatGPT для macOS, с помощью которого можно не только общаться с голосовым помощником, но и показывать ему информацию на экране, нажав определенную комбинацию клавиш. Во время презентации модель не только распознала код на экране и рассказала, что конкретно он делает, но и объяснила значение одной из функций.
Это работает не только с программированием. Когда GPT-4o показали несколько графиков температур по месяцам, она тоже смогла проанализировать их, описать и ответить на уточняющие вопросы. В официальном пресс-релизе говорится, что в будущем общение с ChatGPT станет еще более естественным. Например, пользователь сможет показать прямую трансляцию спортивной игры и попросить объяснить правила.
Пользователи с подпиской ChatGPT Plus уже начали получать доступ к приложению, а в ближайшие недели планируется релиз для более широкой аудитории. Версия приложения для Windows ожидается позже в этом году.
Сама модель GPT-4o также будет распространяться бесплатно, но у платных подписчиков будет чуть больше возможностей. ChatGPT уже работает на новой модели GPT-4o, но пока это касается только текста и графики. Голосовые возможности появятся в ближайшее время у ограниченного числа пользователей — OpenAI планирует запускать все новые функции постепенно.
Первые пользователи, ознакомившиеся с возможностями GPT-4o, описывают их не иначе как «сумасшедшие» (в хорошем смысле слова). Например, работа с графиками и визуализацией данных теперь занимает меньше 30 секунд.
Ну а пока голосовые функции недоступны, остается подшучивать над падением акций платформы для изучения иностранных языков Duolingo, которое произошло вскоре после запуска GPT-4o.