Google представила Gemini Omni: ИИ-модель, которая превращает текстовые команды в профессиональное видео

Google представила Gemini Omni: ИИ-модель, которая превращает текстовые команды в профессиональное видео

Корпорация Google анонсировала Gemini Omni — инновационную мультимодальную модель искусственного интеллекта, предназначенную для генерации и глубокого редактирования видеоконтента. В отличие от существующих инструментов, Omni способна обрабатывать одновременно текст, изображения и аудио для создания реалистичных роликов.

Интеллектуальный монтаж и физика движений

Одной из ключевых особенностей системы стала её способность учитывать законы физики при создании визуального ряда. Модель понимает принципы гравитации, кинетической энергии и динамики жидкостей, что делает движения в кадре естественными. В обзоре технологии отмечается, что Gemini Omni обладает «памятью» и сохраняет контекст на протяжении всей творческой сессии. Это позволяет избегать типичных ошибок нейросетей, когда внешность персонажа или детали окружения меняются при переходе от одной сцены к другой.

Основные возможности новой модели включают:

  • Интуитивное редактирование: вместо сложного программного обеспечения пользователи могут вносить изменения в видео с помощью обычных текстовых запросов на естественном языке.
  • Мультимодальность: возможность комбинировать наброски, фотографии, видеофрагменты и аудиозаписи в рамках одного проекта.
  • Контроль стилистики: система позволяет задавать определенное настроение и точно настраивать характер движения объектов.

Цифровые аватары и безопасность

В рамках проекта также тестируется создание персонализированных цифровых аватаров. Технология позволяет с высокой точностью моделировать внешность и голос пользователя, что упрощает производство видеоконтента без необходимости постоянного нахождения перед камерой. Для предотвращения злоупотреблений и борьбы с дипфейками Google внедряет технологию SynthID. Это система невидимой цифровой маркировки, которая позволяет однозначно идентифицировать контент, созданный искусственным интеллектом.

Доступность и планы по внедрению

На текущий момент компания выпускает облегченную версию модели под названием Gemini Omni Flash. График её внедрения выглядит следующим образом:

  • Подписчики платных сервисов Google AI Pro и Ultra получают доступ через приложение Gemini и платформу Google Flow.
  • Инструменты на базе новой модели появятся в сервисах YouTube Shorts и YouTube Create в ближайшее время.
  • Доступ к API для разработчиков и корпоративных клиентов будет открыт в течение нескольких недель.

Обозреватели рынка подчеркивают, что Gemini Omni может стать одним из самых значимых релизов компании в сфере ИИ. Однако эксперты также указывают на потенциальные сложности: в условиях массового появления качественного сгенерированного контента пользователям станет всё труднее отличать реальные съемки от работы нейросетей.