Я хочу поддержать «Медузу»

OpenAI представила новую модель искусственного интеллекта GPT-4o с продвинутым голосовым режимом

Источник: OpenAI

Американская IT-компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o, сообщается на сайте компании.

Буква «o» в названии — это сокращение от «omni» (то есть «всесторонний»). Новая версия модели работает с речью, текстом и видео. GPT-4o в среднем реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, отметили в компании.

OpenAI

«GPT-4o может работать с голосом, текстом и зрением. И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами», — сказала технический директор OpenAI Мира Мурати во время презентации в офисе OpenAI в Сан-Франциско 13 мая (цитата по TechCrunch).

Новая модель соответствует производительности GPT-4 Turbo, предыдущей «самой продвинутой» модели OpenAI, но по сравнению с прежними версиями GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.

OpenAI

Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником. Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками, заявили в OpenAI.

OpenAI

GPT-4o доступен для пользователей с 13 мая, при этом доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а предположительно в июне — у платных подписчиков.

Magic link? Это волшебная ссылка: она открывает лайт-версию материала. Ее можно отправить тому, у кого «Медуза» заблокирована, — и все откроется! Будьте осторожны: «Медуза» в РФ — «нежелательная» организация. Не посылайте наши статьи людям, которым вы не доверяете.