Abstract
- Text-driven diffusion models이 이미지 생성에 좋은 성능을 보였지만, Video 생성에서는 temporal modeling의 과도한 학습 비용 때문에 성능이 좋지 않음
- training burden과 더불어서, 생성된 비디오는 appearance inconsistency and structural flickers (외관 불일치 및 구조적 깜박임)를 겪는다
- 이 문제를 다루기 위해서, 본 논문에서는 ControlNet을 채택하여 input motion sequnce로부터 structure consistency를 유지하는 ControlVideo를 제안
- Self-attention module에 fully cross-frame attention interation을 추가
[참고]
1. DDIM vs DDPM

2. DDPM의 Reverse 과정에서 노이즈가 추가되는 이유?
- Forward에서 노이즈가 추가되고, Rverse에서 이를 제거하는건 줄 알았는데?
- 먼저 Forward process를 살펴본다.

- 그때 reverse process는 아래와 같다

- 그렇다면 왜 UNet으로 노이즈를 제거하고, 랜덤 노이즈를 다시 추가하는 것인가?

3. 왜 DDIM의 Reverse 과정에서는 랜덤 노이즈가 제거 되는 것인가?

- 그렇게 되면 해당 논문의 식(4)는 다음과 같이 분리

- DDPM과 달리, 여기에는 random noise sampling(σₜ z) 가 없다.
- DDIM (deterministic) = clean component + noise prediction
- 이 clean component는 이미지의 구조적 정보를 보관한다.
- 객체의 shape
- boundary
- structure (저주파)
- coarse layout
- 전체적인 geometry
- 이 noise prediction component는 고주파 정보를 담는다.
- 텍스처(detail)
- 재질(texture)
- 작은 패턴
- shading
- high-frequency structure
1 Introduction
- 본 연구에서는 scratch에서 video 분포를 학습하는 것이 아니라,
- pre-trained text-to-image generative models의 생성 능력을 이용하고
- 동작 시퀀스의 시간적 일관성을 유지하여 vivid video를 생성한다
- 기존 연구 Text-To-Video-zero와 Tune-A-Video가 original self-attention을 sparser cross-frame attention을 대체하여 모든 frame을 독립적으로 보지 않고 appearance coherence을 달성했다
- 문제점 1) 특정 Frame 사이에 여전히 inconsistent appearnce 존재(그림 4(a) 참조)
- 문제점 2) 큰 움직임의 비디오에서 눈에 띄는 artifact(그림 4(b) 참조),
- 문제점 3) 프레임 간 전환 중의 구조적 깜박임이 존재

3 ControlVideo
- 기존 연구의 문제점을 해결하기 위해서, controllable text-to-video generation을 위한 training-free ControlVideo을 제안
- fully cross-frame interaction,
- interleaved-frame smoother
- hierarchical sampler
Fully cross-frame interaction.
- text-to-image model을 video counterpart에 적용하는 주요 문제점은 temporal consistency를 보장하는 것이다
- Cotrolvideo는 ControlNet의 controllability를 이용하여 motion sequence가 구조적으로 coarse-level consistency를 유지하게 한다
- 그러나, ControlNet으로 모든 frame을 개별적으로 생성하는 것은 appearance가 inconsistent하다 (그림 6 individual 참조)

- 따라서, 기존 연구 Text-to-video-zero와 Tune-A-Videio에 따라, 2D Convolution layer를 3D Convoultion layer로 바꾼다
- 3x3 kernel을 1x3x3 형태로

- 그러나 기존 연구는 오로지 first frame만 모든 프레임과 비교했다
- 대조적으로, 본 논문에서는 모든 frame을 combines하여 ‘large image’로 구성하여 cross-frame attention을 구한다

Interleaved-frame smoother.
- 영상이 깜빡깜빡 거리는 문제를 해결하기 위해,
- 각 3프레임 클립을 기준으로 프레임을 보간하여 , 이를 인터리브 방식으로 반복하여 전체 비디오를 부드럽게 만든다
Limitation
- 모든 프레임은 Pose ControlNet or Flow ControlNet에 의해 입력된 motion constraint를 따라야 함
- 예: 사용자가 Michael Jackson의 moonwalk pose 시퀀스를 입력한다.
- 그러면 ControlVideo는: moonwalk과 동일한 motion trajectory를 유지하면서 appearance만 Iron Man처럼 바꿀 수 있다 (“Iron Man이 moonwalk하는 영상”)
- 하지만 아래는 절대 불가능하다:
- “Iron Man runs on the street.” → 왜냐하면 입력 motion 시퀀스는 moonwalk이기 때문.
- 즉 동작을 텍스트로 바꿀 수 없음.
