Корпорация Google анонсировала Gemini Omni — инновационную мультимодальную модель искусственного интеллекта, предназначенную для генерации и глубокого редактирования видеоконтента. В отличие от существующих инструментов, Omni способна обрабатывать одновременно текст, изображения и аудио для создания реалистичных роликов.
Интеллектуальный монтаж и физика движений
Одной из ключевых особенностей системы стала её способность учитывать законы физики при создании визуального ряда. Модель понимает принципы гравитации, кинетической энергии и динамики жидкостей, что делает движения в кадре естественными. В обзоре технологии отмечается, что Gemini Omni обладает «памятью» и сохраняет контекст на протяжении всей творческой сессии. Это позволяет избегать типичных ошибок нейросетей, когда внешность персонажа или детали окружения меняются при переходе от одной сцены к другой.
Основные возможности новой модели включают:
- Интуитивное редактирование: вместо сложного программного обеспечения пользователи могут вносить изменения в видео с помощью обычных текстовых запросов на естественном языке.
- Мультимодальность: возможность комбинировать наброски, фотографии, видеофрагменты и аудиозаписи в рамках одного проекта.
- Контроль стилистики: система позволяет задавать определенное настроение и точно настраивать характер движения объектов.
Цифровые аватары и безопасность
В рамках проекта также тестируется создание персонализированных цифровых аватаров. Технология позволяет с высокой точностью моделировать внешность и голос пользователя, что упрощает производство видеоконтента без необходимости постоянного нахождения перед камерой. Для предотвращения злоупотреблений и борьбы с дипфейками Google внедряет технологию SynthID. Это система невидимой цифровой маркировки, которая позволяет однозначно идентифицировать контент, созданный искусственным интеллектом.
Доступность и планы по внедрению
На текущий момент компания выпускает облегченную версию модели под названием Gemini Omni Flash. График её внедрения выглядит следующим образом:
- Подписчики платных сервисов Google AI Pro и Ultra получают доступ через приложение Gemini и платформу Google Flow.
- Инструменты на базе новой модели появятся в сервисах YouTube Shorts и YouTube Create в ближайшее время.
- Доступ к API для разработчиков и корпоративных клиентов будет открыт в течение нескольких недель.
Обозреватели рынка подчеркивают, что Gemini Omni может стать одним из самых значимых релизов компании в сфере ИИ. Однако эксперты также указывают на потенциальные сложности: в условиях массового появления качественного сгенерированного контента пользователям станет всё труднее отличать реальные съемки от работы нейросетей.