Среди множества нейросетей именно разработка OpenAI вызывает наибольший ажиотаж во время презентаций. Рассмотрим, что нового ChatGPT 4o («o» означает «omni») добавляет в чат-бот и почему это не полноценная следующая версия.
Первое заметное отличие - повышенная скорость обработки запросов (быстрее в 2-3 раза).
Добавлена поддержка мультимодальности. Это означает, что искусственный интеллект научился обрабатывать и генерировать различные типы данных. К ним относится текст, его озвучивание голосом и изображения. После апдейта бот поможет в изучении иностранных языков (более 50), станет ассистентом двустороннего общения, который способен понимать шутки и сарказм на разных языках.
Что ещё умеет ChatGPT 4o:
Распознавать надписи на картинках, переводить их и отвечать на вопросы пользователя по поводу содержания.
Генерировать изображения по текстовому описанию.
Суммаризировать видеоролики по визуальному ряду и описанию происходящих событий, кратко пересказывать их.
Генерировать видео (тестовый режим).
Создавать речь с разными эмоциями, определять настроение человека по голосу и понимать контекст беседы. Написание инструментальной музыки не предусмотрено, только голосовые фразы.
Анализировать загруженные данные (электронные таблицы, программный код, фотографии и тексты).
На практике последний пункт работает не идеально: например, врачебный почерк распознаётся в зависимости от его написания, чаще всего когда и человек может прочесть выписанный рецепт. Создание изображений тоже уступает в детализации Midjourney и другим специализированным нейросетям.
Кому нужен ChatGPT 4o?
Области деятельности человека, где актуален ИИ, постоянно расширяются: от студентов, желающих быстро сделать реферат, до оптимизации процессов в бизнесе с автоматизацией рутинных задач. Написание текстов, создание озвучки и диалогов для игр, кино и роликов на YouTube, официальных пресс-релизов, служебной документации и т. д.
Контекстное окно увеличилось, поэтому чат-бот научился вести беседу голосом с сохранением темы на протяжении 7 минут. Получается движение в сторону голосовых ассистентов Apple Siri или «Алисы» от Yandex.
На презентации пообещали, что новая версия чат-бота будет бесплатной для всех стран (даже без регистрации), но в России, скорее всего, прямого доступа к нему не будет.
Обязательно отметим, что точность данных от нейросети не гарантирована: результат всегда нужно проверять и редактировать вручную. Полноценную GPT-5 могут показать летом или осенью 2024 года. Именно она станет очередным витком эволюции AI, сравнимым с переходом от третьей к четвертой версии GPT.