Text-to-video 5

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Abstract.정지 이미지에 애니메이션 효과를 추가하는 것은 매력적인 visual experience를 제공본 논문에서는 open-domain images에 대한 dynamic content의 생성을 탐구한다핵심 아이디어는, test-to-video diffusion model의 motion prior를 이용하여 image를 생성 과정에 통합하는 것주어진 이미지를 Query Transformer를 이용하여 text-aligned rich image context representation로 project한다그리고 좀 더 정확한 이미지 정보를 보충하기 위해서, full image를 initial noise에 concatenating한다1 Introduction최근에 text-to-video(T2V) ge..

Text-to-video 2026.01.12

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

AbstractText-conditioned image-to-video generation (TI2V)는 주어진 image와 text description으로 시작하여 realistic video를 생성하는 것이 목표기존 TI2V framework는video-text dataset으로 costly training과text and image conditioning을 위한 specific model design이 필요했다이 논문에서는 zero-shot, tuning-free method인 TI2V-zero를 제안한다어떠한 optimization, fine-tuning, exteral module 없이pre-trained text-to-video(TI2V) diffusion model에 제공된 이미지에 따라 ..

Text-to-video 2026.01.10

ModelScope Text-to-Video Technical Report

AbstarctModelScopeT2V는 spatio-temporal block을 통합하여 consistent frame을 생성하고 smooth motion 전환을 보장모델은 프레임 수가 변하더라도 적응할 수 있도록, image-text and video-text에 적합ModelScopeT2V는 VQGAN, text encoder, denoising UNet을 함께 사용1 IntroductionVideo 생성의 주요 문제는 sub-optimal fidelity and modtion discontinuity에 있다ModelScopeT2V는 비디오 생성을 위한 trainable baseline을 제안ModelScopeT2V는 Stable Diffusion model의 spatial part를 초기화하여 Sp..

Text-to-video 2025.12.17

ControlVideo: Training-free Controllable Text-to-Video Generation

AbstractText-driven diffusion models이 이미지 생성에 좋은 성능을 보였지만, Video 생성에서는 temporal modeling의 과도한 학습 비용 때문에 성능이 좋지 않음training burden과 더불어서, 생성된 비디오는 appearance inconsistency and structural flickers (외관 불일치 및 구조적 깜박임)를 겪는다이 문제를 다루기 위해서, 본 논문에서는 ControlNet을 채택하여 input motion sequnce로부터 structure consistency를 유지하는 ControlVideo를 제안Self-attention module에 fully cross-frame attention interation을 추가[참고]1. D..

Text-to-video 2025.12.02

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Abstract본 논문에서는 stable diffusion과 과 같은 text-to-image 방법론을 이용하여 새로운 task인 zero-shot text-to-video generation을 제안text-to-image 방법론의 핵심 수정은generated frames의 global scene과 background time consistent를 유지한다그리고 frame-level self-attention을 제안하는데, 이 방법론은 첫번째 프레임에 대한 각 프레임의 cross-frame attention을 구하여 foreground object의 context, appearence를 보존한다 1. Introductiontextual prompts로부터 video를 생성하는 zero-shot, trai..

Text-to-video 2025.11.26