Американская IT-компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o, сообщается на сайте компании.
Буква «o» в названии — это сокращение от «omni» (то есть «всесторонний»). Новая версия модели работает с речью, текстом и видео. GPT-4o в среднем реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, отметили в компании.
OpenAI
«GPT-4o может работать с голосом, текстом и зрением. И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами», — сказала технический директор OpenAI Мира Мурати во время презентации в офисе OpenAI в Сан-Франциско 13 мая (цитата по TechCrunch).
Новая модель соответствует производительности GPT-4 Turbo, предыдущей «самой продвинутой» модели OpenAI, но по сравнению с прежними версиями GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.
OpenAI
Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником. Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками, заявили в OpenAI.
OpenAI
GPT-4o доступен для пользователей с 13 мая, при этом доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а предположительно в июне — у платных подписчиков.
OpenAI
Компания-один из мировых лидеров в области разработки технологий искусственного интеллекта. Главный инвестор и эксклюзивный партнер OpenAI — корпорация Microsoft.
GPT
Название — акроним от термина «генеративный предобученный трансформер»