На презентации OpenAI в Сан-Франциско представили новую версию языковой модели с генеративным искусственным интеллектом GPT-4o. Разработчики называют ее шагом вперед к более естественному взаимодействию человека с компьютером. Модель может воспринимать любую комбинацию текста, аудио- и визуальных данных и генерировать такие же комбинации в ответах. И самое главное — в общении GPT-4o стала еще больше похожа на человека.
OpenAI
Основную часть презентации посвятили демонстрации голосовых возможностей новой модели. Они были доступны и раньше, но теперь задержка в ответах существенно снизилась и составляет в среднем 320 миллисекунд, что сопоставимо со скоростью реакции человека (в предыдущих версиях GPT этот показатель варьировался от 2,8 до 5,4 секунды). При этом взаимодействуя с ChatGPT, разработчики постоянно перебивали его, однако это никак не отражалось на качестве ответов.
Программист Роберт Лукошко обратил внимание, что большинство ответов GPT-4o начинаются с вводных слов, и предположил, что их воспроизводит другая, более простая модель, пока новая версия готовит полноценную реакцию. Таким образом разработчики могли не только создать видимость моментального ответа, но и приблизить GPT-4o к модели общения реальных людей. Впрочем, вскоре программист изменил свое мнение, посмотрев видео, где две модели поют, продолжая фразы друг за другом.
Да, GPT-4o умеет петь, а также менять интонацию голоса (чат-бот по запросу делает его более драматичным или, наоборот, намеренно говорит как робот) и распознавать эмоции пользователя. А еще анализировать визуальную информацию. На презентации показали, как модель считывает через камеру смартфона уравнение, написанное на бумаге, и дает подсказки по его решению, поправляя пользователя, если он предлагает некорректные варианты.
В прошлом году именно прорыв в решении математических задач уровня начальной школы называли одной из возможных причин временной отставки Сэма Альтмана с поста генерального директора OpenAI. По слухам, этих результатов удалось добиться с секретным проектом Q* («Кью-стар»), который называли одним из важных шагов на пути к созданию общего (или сильного) искусственного интеллекта. Сообщалось, что разработчики уведомили совет директоров об опасности такой разработки из-за непредсказуемых последствий, и его представители решили, что Альтман не уделяет достаточно внимания вопросам оценки рисков.
Модель может работать и в качестве переводчика с иностранных языков. Технический директор компании Мира Мурати разговаривала с одним из разработчиков на итальянском, а он отвечал ей на английском. ChatGPT распознавал эти фразы и сразу же переводил их на нужный язык.
Все эти функции в сочетании с обновленным интерфейсом напоминают фантастический фильм «Она», в котором герой Хоакина Феникса влюбляется в ИИ, озвученный Скарлетт Йоханссон, пишет The Verge. На это сходство намекнул и гендиректор OpenAI Сэм Альтман (он на презентации не появился), опубликовав лаконичный твит с оригинальным названием фильма.
Также создатели показали новое приложение ChatGPT для macOS, с помощью которого можно не только общаться с голосовым помощником, но и показывать ему информацию на экране, нажав определенную комбинацию клавиш. Во время презентации модель не только распознала код на экране и рассказала, что конкретно он делает, но и объяснила значение одной из функций.
Это работает не только с программированием. Когда GPT-4o показали несколько графиков температур по месяцам, она тоже смогла проанализировать их, описать и ответить на уточняющие вопросы. В официальном пресс-релизе говорится, что в будущем общение с ChatGPT станет еще более естественным. Например, пользователь сможет показать прямую трансляцию спортивной игры и попросить объяснить правила.
Пользователи с подпиской ChatGPT Plus уже начали получать доступ к приложению, а в ближайшие недели планируется релиз для более широкой аудитории. Версия приложения для Windows ожидается позже в этом году.
Сама модель GPT-4o также будет распространяться бесплатно, но у платных подписчиков будет чуть больше возможностей. ChatGPT уже работает на новой модели GPT-4o, но пока это касается только текста и графики. Голосовые возможности появятся в ближайшее время у ограниченного числа пользователей — OpenAI планирует запускать все новые функции постепенно.
Первые пользователи, ознакомившиеся с возможностями GPT-4o, описывают их не иначе как «сумасшедшие» (в хорошем смысле слова). Например, работа с графиками и визуализацией данных теперь занимает меньше 30 секунд.
Ну а пока голосовые функции недоступны, остается подшучивать над падением акций платформы для изучения иностранных языков Duolingo, которое произошло вскоре после запуска GPT-4o.
GPT-4o
Буква «o» в названии является сокращением от «omni», что указывает на полноту или всеобщность. Можно перевести как «всесторонний».
AGI
Artificial general intelligence, автономная система, которая сможет научиться решать любые интеллектуальные задачи не хуже человека и со временем продемонстрировать что-то похожее на сознание. Пока о существовании таких разработок ничего не известно.
API
Application Programming Interface — интерфейс программирования приложений, необходимый для взаимодействия программ и приложений с сайтами, сервисами и операционными системами.
OpenAI
Компания — один из мировых лидеров в области разработки технологий искусственного интеллекта. Главный инвестор и эксклюзивный партнер OpenAI — корпорация Microsoft.