Компания OpenAI официально представила Sora 2, свою новейшую флагманскую модель для создания видео и аудио, позиционируя ее как большой скачок вперед в создании контента с помощью ИИ. Новая модель предлагает более реалистичную физику, большую управляемость, а также синхронизированные диалоги и звуковые эффекты окружающей среды, обеспечивая новый уровень погружения в контент, созданный ИИ. Sora 2 дебютирует вместе с новым социальным приложением Sora, призванным изменить то, как люди взаимодействуют с медиа, создаваемыми ИИ. Распространение начнется сегодня, 30 сентября 2025 года, в США и Канаде.
OpenAI описывает оригинал Sora (выпущенную в начале 2024 года) как важнейший шаг в развитии генеративного видео - подобно влиянию GPT-1 на обработку естественного языка. Sora 2, напротив, описывается как достижение "момента GPT-3.5" для видео, устанавливающего новую планку для понимания ИИ физической реальности и моделирования мира.
По мнению OpenAI, Sora 2 представляет собой шаг вперед в возможностях "моделирования мира". Если предыдущие системы часто искажали реальность в угоду подсказкам, то Sora 2 создана для моделирования правдоподобных исходов - включая промахи и отскоки в баскетбольной сцене - вместо того, чтобы телепортировать объекты в соответствии со сценарием. Теперь модель может воспроизводить сценарии, которые исторически ставили в тупик предыдущие системы, например, гимнастические упражнения олимпийского уровня, точные сальто назад на воде, которые моделируют динамику плавучести и жесткости, или даже тройной аксель, когда кошка цепляется за жизнь. Эти достижения распространяются и на аудиосистему: Sora 2 генерирует фоновые звуковые ландшафты, синхронизированную речь и звуковые эффекты, которые органично сочетаются с действиями на экране, добавляя новое измерение реализма.
Важной особенностью является возможность "загрузить себя" Пользователи могут записать короткое видео и аудио, что позволит Sora 2 вставить их (или друзей, животных и любые объекты реального мира) в любую сгенерированную сцену с высокоточным визуальным и голосовым представлением.
Чтобы продемонстрировать возможности Sora 2, OpenAI запускает новое приложение для iOS под названием Sora. Приложение позволяет пользователям создавать и ремикшировать короткие видеоролики, обнаруживать контент сообщества в настраиваемой ленте и сниматься в сценах, сгенерированных ИИ, с помощью функции "камеи". Камеи требуют короткого процесса проверки, чтобы обеспечить контроль и согласие пользователя, а также полных возможностей для обеспечения конфиденциальности и удаления контента.
OpenAI позиционирует новое приложение Sora как приложение, ориентированное на создание, а не на вовлечение. В ленте по умолчанию приоритет отдается людям, за которыми Вы следите, и контенту, который может вдохновить Вас на создание собственных произведений; компания утверждает, что не оптимизирует время, потраченное на это. Аккаунты для подростков получат ограничения на ежедневный просмотр ленты и более строгие разрешения на камео, а родительский контроль (через ChatGPT) позволяют отменить такие действия, как отключение алгоритмической персонализации или ограничение бесконечной прокрутки. OpenAI также расширяет масштабы человеческой модерации для борьбы с хулиганством и другими рисками злоупотреблений.
Сегодня Sora 2 выходит в США и Канаде, а в дальнейшем планируется распространить его на другие регионы. Приложение запускается только по приглашениям, чтобы поощрить совместное использование среди друзей. Изначально модель бесплатна для использования, с "щедрыми лимитами", с учетом ограничений по вычислительным ресурсам. Пользователи ChatGPT Pro могут получить доступ к высококачественной модели Sora 2 Pro сначала через ChatGPT, а вскоре появится поддержка в приложении Sora. OpenAI также планирует выпустить Sora 2 через API для более широкой интеграции. Контент, созданный с помощью Sora 1 Turbo, останется доступным в библиотеках пользователей.
OpenAI рассматривает Sora 2 как важный шаг на пути к разработке симуляторов мира общего назначения и, в конечном счете, продвинутой робототехники. Компания рассматривает совершенствование видео-нативных моделей ИИ как путь не только к творческим инструментам, но и к системам, которые смогут лучше понимать, взаимодействовать и в конечном итоге функционировать в физическом мире.