Технический обзор: Методология OmnimatteZero

1.0 Введение#

Основная задача методологии Omnimatte заключается в декомпозиции видео на семантически значимые слои: статический фон, отдельные динамические объекты и ассоциированные с ними визуальные эффекты, такие как тени и отражения. Существующие подходы к решению этой задачи сталкиваются с рядом серьезных ограничений. Многие из них требуют computationally-intensive (вычислительно интенсивной) самообучающейся оптимизации для каждого видео, а некоторые — extensive training (обширного обучения) на больших наборах данных. Это приводит к длительному времени обработки (до ~6 часов на обучение) и низкой скорости рендеринга, достигающей 2.5–9 секунд на кадр, что существенно затрудняет их практическое применение.

OmnimatteZero представляет собой принципиально новый подход, разработанный для преодоления указанных ограничений. Его ключевое ценностное предложение заключается в том, что это первый генеративный подход без обучения (training-free), который использует возможности готовых, предварительно обученных видеодиффузионных моделей. Вместо трудоемкого обучения или оптимизации под конкретное видео, OmnimatteZero выполняет все операции непосредственно на этапе инференса (inference), что обеспечивает беспрецедентную скорость и эффективность.

Методология OmnimatteZero предоставляет три основные функциональные возможности:

Удаление объектов из видео: Чистое и последовательное удаление выбранных объектов и их следов из видеопотока.
Извлечение слоев объектов: Изоляция отдельных объектов вместе с их ассоциированными эффектами (тенями, отражениями) в отдельные слои.
Композиция слоев: Интеграция извлеченных объектов в новые видеосцены с сохранением визуальной когерентности.

В последующих разделах будет представлен детальный технический анализ предпосылок, лежащих в основе данной методологии, и ключевых компонентов, обеспечивающих ее функциональность.

2.0 Концептуальная основа и предпосылки#

Для полного понимания уникальности подхода OmnimatteZero необходимо проанализировать ограничения существующих методов, которые послужили отправной точкой для его разработки. Прямая адаптация техник импейнтинга (inpainting), успешно зарекомендовавших себя для статических изображений, к видеоряду оказывается неэффективной.

Покадровое применение стандартных техник импейнтинга изображений (vanilla inpainting) приводит к артефактам временной несогласованности, в результате чего заполненные области выглядят как нестабильные, мерцающие пятна. Это происходит из-за фундаментального различия задач: импейнтинг изображений должен обеспечивать только пространственную согласованность, тогда как видеоимпейнтинг должен одновременно восстанавливать контент с учетом как пространственного, так и временного контекста, что является значительно более сложной задачей. Даже более продвинутые zero-shot методы, такие как Vid2Vid, хотя и справляются с удалением объекта, вносят нежелательные искажения в фоновые области, нарушая их целостность.

Это ставит перед исследователями ключевой вопрос: “Можно ли разработать метод без обучения, который убедительно заполняет маскированную область, сохраняет фон неотличимым от оригинала и устраняет все остаточные следы объекта, включая вторичные эффекты, такие как тени и отражения?"

Ответ на этот вопрос лежит в использовании фундаментального механизма современных видеодиффузионных моделей — пространственно-временного внимания (Spatio-Temporal Attention). В архитектуре видеодиффузионных трансформеров входной латентный тензор видео $Z$ (размерностью $f \times w \times h \times c$ ) преобразуется в двумерную матрицу токенов $(f \times n) \times c$ , где $n = h \times w$ . Это изменение формы преобразует латентное представление видео в единую последовательность токенов, позволяя механизму самовнимания (self-attention) взвешивать важность любого токена по отношению к любому другому токену во всем видеоклипе, независимо от его пространственного или временного положения. Именно манипулирование этим механизмом является ядром методологии OmnimatteZero.

Следующие разделы подробно описывают, как OmnimatteZero направляет и контролирует механизмы внимания для достижения чистого удаления объектов и высококачественной реконструкции фона.

3.0 Ключевые компоненты: Управление процессом диффузии#

Основная идея, лежащая в основе OmnimatteZero, заключается в отказе от неконтролируемой “галлюцинации” недостающего контента моделью. Вместо этого метод активно направляет процесс диффузионного восстановления, используя существующий пространственный и временной контекст из самого видео. Этот процесс реализуется с помощью двух специализированных модулей управления вниманием, которые являются прямым решением проблем временной несогласованности и искажения фона.

3.2 Модули управления вниманием (Attention Guidance Modules)#

3.2.1 Temporal Attention Guidance (TAG)

Модуль временного управления вниманием (TAG) предназначен для обеспечения временной согласованности при заполнении маскированных областей, напрямую решая проблему мерцания, наблюдаемую в наивных подходах. Его работа основана на использовании фоновых патчей из соседних кадров в качестве референсов.

Идентификация корреспондентов: Для нахождения соответствующих фоновых точек в разных кадрах используется фреймворк Track-Any-Point (TAP-Net). Он отслеживает точки, принадлежащие фону, по всему видеоряду, создавая наборы корреспондирующих пикселей.
Механизм работы: Для набора фоновых точек-корреспондентов $C$ вычисляется средний балл временного внимания $A_{temporal}$ между всеми уникальными парами этих точек. Это значение отражает “типичное” внимание между стабильными фоновыми областями во времени.
Применение: В процессе диффузии балл внимания между токеном переднего плана, подлежащим заполнению, и каждым из его фоновых токенов-корреспондентов принудительно заменяется на предварительно вычисленное среднее значение $A_{temporal}$ . Это заставляет модель использовать когерентную информацию из нетронутого фона других кадров при восстановлении маскированной области.

3.2.2 Spatial Attention Guidance (SAG)

Модуль пространственного управления вниманием (SAG) дополняет TAG, улучшая качество импейнтинга внутри каждого отдельного кадра. Он особенно важен в ситуациях, когда временная информация недоступна или недостаточна, например, в статичных сценах.

Назначение: Использовать информацию из окружающих фоновых областей в пределах одного кадра для пространственно когерентного заполнения маски.
Механизм работы: Для набора фоновых точек $S$ , окружающих маскированную область в одном кадре, вычисляется средний балл пространственного внимания $A_{spatial}$ между всеми парами этих точек.
Применение: Балл внимания между точкой переднего плана и окружающими ее фоновыми точками заменяется на это среднее значение. Таким образом, модель восстанавливает недостающую область, основываясь на текстуре и структуре непосредственно прилегающего фона.

3.3 Учет ассоциированных эффектов#

Ключевое наблюдение, используемое в OmnimatteZero, заключается в том, что карты самовнимания в видеодиффузионных моделях способны локализовать не только сам объект, но и его ассоциированные эффекты, такие как тени и отражения. Это фундаментальное отличие от моделей для изображений, которые не улавливают эти связи (рис. 4). В то время как предыдущие работы, такие как [Lee et al. 2024], обучали специализированные модели для удаления эффектов, OmnimatteZero достигает этого результата без обучения, напрямую извлекая маски из карт внимания.

Процесс получения маски, учитывающей эффекты ( $M_{obj}$ ), состоит из следующих шагов:

К латентному представлению видео применяется один шаг зашумления и последующего восстановления шума.
На этом шаге вычисляются и агрегируются по всем слоям диффузионной модели карты внимания $A_{l i}$ между токенами запроса $Q$ , сэмплированными из маскированной области объекта, и всеми токенами ключей $K$ .
К агрегированной карте внимания применяется пороговая обработка по методу Оцу для получения итоговой бинарной маски. Эта новая маска заменяет исходную, предоставленную пользователем.

Эти модули управления представляют собой сдвиг парадигмы от “галлюцинации контента” к “контекстно-ориентированной реконструкции”, что является основой эффективности метода. Сочетание TAG, SAG и маскирования с учетом эффектов позволяет добиться чистого удаления объекта и всех его визуальных следов, создавая идеальную основу для последующего извлечения слоев.

4.0 Процесс извлечения и композиции слоев#

После того как задача чистого удаления объектов и их эффектов решена, те же самые базовые принципы и компоненты могут быть применены для выделения объектов в отдельные, независимые слои и их последующего переноса в новые сцены.

4.2 Извлечение переднего плана (Foreground Extraction)#

Процесс извлечения слоя, содержащего объект и его эффекты, выполняется с помощью арифметики в латентном пространстве (latent space arithmetic) и состоит из следующих шагов:

Получение чистого фона: Сначала применяется описанный выше метод для удаления всех объектов из видео. В результате получается латентное представление чистого фона ( $Z_{bg}$ ).
Получение объекта с фоном: Затем метод применяется повторно, но на этот раз для удаления всех объектов, кроме целевого. Это дает латентное представление, содержащее только целевой объект и фон ( $Z_{obj+bg}$ ).
Изоляция объекта: Искомый слой объекта получается путем вычитания латентных представлений:
$Z_{obj} = Z_{obj+bg} - Z_{bg}$

Эта операция может привести к тому, что значения в латентном пространстве выйдут за пределы распределения, на котором обучалась модель, вызывая искажения объекта. Для коррекции этого дефекта выполняется финальный шаг: значения пикселей, соответствующих объекту (согласно исходной маске пользователя), в итоговом видео заменяются значениями из оригинального видео (согласно уравнению 5). Этот шаг восстанавливает точность отображения объекта, сохраняя при этом корректно извлеченные ассоциированные эффекты.

4.3 Композиция слоев (Layer Composition)#

Процесс композиции, или вставки извлеченного объекта в новую сцену, также выполняется в латентном пространстве.

Композиция: Латентное представление извлеченного объекта ( $Z_{obj}$ ) прибавляется к латентному представлению нового фона ( $Z_{N_{bg}}$ ), чтобы получить скомпонованную сцену:
$Z_{N_{obj+bg}} = Z_{N_{bg}} + Z_{obj}$
Уточнение (Refinement): Чтобы сгладить переходы и обеспечить более естественную интеграцию, к результату применяется финальный шаг уточнения. Он состоит из нескольких (трех) циклов зашумления-восстановления. Этот процесс позволяет модели гармонизировать композицию, адаптируя освещение и цвета объекта к новому окружению для достижения более естественного и целостного видео.

Таким образом, технический процесс, разработанный для удаления объектов, элегантно расширяется для решения задач извлечения и композиции, подтверждая гибкость и мощность предложенной методологии.

5.0 Оценка производительности#

Для подтверждения эффективности методологии OmnimatteZero была проведена всесторонняя количественная оценка в сравнении с существующими state-of-the-art (SOTA) решениями. Оценка проводилась на задаче реконструкции фонового слоя после удаления объектов.

В таблице ниже представлены результаты сравнения на стандартных бенчмарках Omnimatte.

Метод	Scene	Movie	Kubric	Т_train (hours)	Т_run (s/frame)
	PSNR↑ / LPIPS↓	PSNR↑ / LPIPS↓	PSNR↑ / LPIPS↓
Video Inpainting Methods
ObjectDrop	28.05 / 0.124	34.22 / 0.083	31.14 / 0.104	-	-
Video Repaint [LTXVideo]*	20.13 / 0.252	21.15 / 0.289	20.64 / 0.271	0	0.4
Video Repaint [Wan2.1]*	21.44 / 0.244	24.16 / 0.261	22.80 / 0.253	0	32
Temporal Enhance [LTXVideo]*	21.33 / 0.248	23.01 / 0.281	22.80 / 0.265	0	0.04
Temporal Enhance [Wan2.1]*	21.93 / 0.222	24.26 / 0.253	23.01 / 0.237	0	3.2
Lumiere inpainting	26.62 / 0.148	31.46 / 0.157	29.04 / 0.153	-	9
Propainter	27.44 / 0.114	34.67 / 0.056	31.06 / 0.085	-	0.083
DiffuEraser	29.51 / 0.105	35.19 / 0.048	32.35 / 0.077	-	0.8
Omnimatte Methods
Omnimatte	21.76 / 0.239	26.81 / 0.207	24.29 / 0.223	3	2.5
D2NeRF	- / -	34.99 / 0.113	- / -	3	2.2
LNA	23.10 / 0.129	- / -	- / -	8.5	0.4
OmnimatteRF	33.86 / 0.017	40.91 / 0.028	37.38 / 0.023	6	3.5
Generative Omnimatte	32.69 / 0.030	44.07 / 0.010	38.38 / 0.020	-	9
OmnimatteZero [LTXVideo] (Ours)	35.11 / 0.014	44.97 / 0.010	40.04 / 0.012	0	0.04
OmnimatteZero [Wan2.1] (Ours)	34.12 / 0.017	45.55 / 0.006	39.84 / 0.011	0	3.2

Примечание: PSNR (Peak Signal-to-Noise Ratio) — чем выше, тем лучше. LPIPS (Learned Perceptual Image Patch Similarity) — чем ниже, тем лучше. “-” обозначает отсутствующие данные.

Анализ данных таблицы позволяет сделать два ключевых вывода:

Превосходство в качестве: OmnimatteZero демонстрирует лучшие результаты по качеству реконструкции фона (наивысшие PSNR и самые низкие LPIPS) по сравнению со всеми существующими методами на всех бенчмарках. Важно отметить, что это улучшение достигается не за счет более мощной генеративной модели; как OmnimatteZero, так и Video Repaint используют один и тот же генератор, однако Video Repaint показывает самые низкие результаты PSNR. Это убедительно доказывает, что прирост производительности обусловлен именно предложенной методологией управления вниманием.
Беспрецедентная скорость: Версия OmnimatteZero [LTXVideo] достигает производительности 0.04 секунды на кадр (24 кадра в секунду), что соответствует обработке в реальном времени. Это делает его самым быстрым методом класса Omnimatte на сегодняшний день, при этом он не требует ни обучения ( $T_{train} = 0$ ), ни дорогостоящей оптимизации для каждого видео.

Результаты экспериментов демонстрируют значительный прогресс как в точности реконструкции, так и в вычислительной эффективности для задач декомпозиции видео, подтверждая состоятельность подхода OmnimatteZero.

Источник#

Статья основана на исследовании: OmnimatteZero: A Training-Free Generative Approach to Omnimatte.