전체 글 206

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Abstract.정지 이미지에 애니메이션 효과를 추가하는 것은 매력적인 visual experience를 제공본 논문에서는 open-domain images에 대한 dynamic content의 생성을 탐구한다핵심 아이디어는, test-to-video diffusion model의 motion prior를 이용하여 image를 생성 과정에 통합하는 것주어진 이미지를 Query Transformer를 이용하여 text-aligned rich image context representation로 project한다그리고 좀 더 정확한 이미지 정보를 보충하기 위해서, full image를 initial noise에 concatenating한다1 Introduction최근에 text-to-video(T2V) ge..

Text-to-video 2026.01.12

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

AbstractText-conditioned image-to-video generation (TI2V)는 주어진 image와 text description으로 시작하여 realistic video를 생성하는 것이 목표기존 TI2V framework는video-text dataset으로 costly training과text and image conditioning을 위한 specific model design이 필요했다이 논문에서는 zero-shot, tuning-free method인 TI2V-zero를 제안한다어떠한 optimization, fine-tuning, exteral module 없이pre-trained text-to-video(TI2V) diffusion model에 제공된 이미지에 따라 ..

Text-to-video 2026.01.10

ModelScope Text-to-Video Technical Report

AbstarctModelScopeT2V는 spatio-temporal block을 통합하여 consistent frame을 생성하고 smooth motion 전환을 보장모델은 프레임 수가 변하더라도 적응할 수 있도록, image-text and video-text에 적합ModelScopeT2V는 VQGAN, text encoder, denoising UNet을 함께 사용1 IntroductionVideo 생성의 주요 문제는 sub-optimal fidelity and modtion discontinuity에 있다ModelScopeT2V는 비디오 생성을 위한 trainable baseline을 제안ModelScopeT2V는 Stable Diffusion model의 spatial part를 초기화하여 Sp..

Text-to-video 2025.12.17

Adding Conditional Control to Text-to-Image Diffusion Models

Abstract본 논문에서는 pretrained text-to-image diffusion model에 공간 조절 제어 (spatial conditioning controls)를 추가하는 neural network architecture인 ControlNet을 제안ControlNet은 large diffusion model을 lock하고, encoding layer를 복사하여 다양한 conditional control을 학습한다Neural Network는 “zero convolution” (zero-initialized convolution layers) 을 사용하여 parameter를 zero로부터 점진적으로 update한다이렇게 하여 harmful noise가 finetuning에 영향을 주지 않도록..

Diffusion 2025.12.09

ControlVideo: Training-free Controllable Text-to-Video Generation

AbstractText-driven diffusion models이 이미지 생성에 좋은 성능을 보였지만, Video 생성에서는 temporal modeling의 과도한 학습 비용 때문에 성능이 좋지 않음training burden과 더불어서, 생성된 비디오는 appearance inconsistency and structural flickers (외관 불일치 및 구조적 깜박임)를 겪는다이 문제를 다루기 위해서, 본 논문에서는 ControlNet을 채택하여 input motion sequnce로부터 structure consistency를 유지하는 ControlVideo를 제안Self-attention module에 fully cross-frame attention interation을 추가[참고]1. D..

Text-to-video 2025.12.02

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Abstract본 논문에서는 stable diffusion과 과 같은 text-to-image 방법론을 이용하여 새로운 task인 zero-shot text-to-video generation을 제안text-to-image 방법론의 핵심 수정은generated frames의 global scene과 background time consistent를 유지한다그리고 frame-level self-attention을 제안하는데, 이 방법론은 첫번째 프레임에 대한 각 프레임의 cross-frame attention을 구하여 foreground object의 context, appearence를 보존한다 1. Introductiontextual prompts로부터 video를 생성하는 zero-shot, trai..

Text-to-video 2025.11.26

Learning A Physical-aware Diffusion Model Based onTransformer for Underwater Image Enhancement

Abstract수면 아래 이미지 복원은 실용적이면서도 복잡한 기술로, 수중 로봇공학 및 수중 물체 추적과 같은 분야에 광범위하게 적용됨그러나 기존 방법론은 physical properties과 수중 이미지 mechanism을 고려하지 않아, 디퓨전 모델의 정보 완성 능력을 제한본 논문에서는 Physics knowledge로 diffusion process를 guide하는 PD-Diff를 제안PA-DIFF는 아래 3가지 Branch로 구성Physics Prior Generation (PPG) BranchImplicit Neural Reconstruction (INR) Branch,Physics-aware Diffusion Transformer (PDT) Branh3 METHODOLOGY3.1 Overall..

Physical AI 2025.11.16

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

용어정리[interaction data]에이전트가 실제로 행동(Action)을 해야만 생기는 데이터✔ 로봇이 물체를 잡아본다 → 성공/실패 데이터✔ 로봇 팔이 공을 밀어본다 → 공이 어떻게 움직였는지 trajectory 기록✔ RL agent가 게임에서 점프한다 → 다음 상태(state’)와 reward 얻음✔ self-driving car가 steering 하면서 도로 정보를 기록분야interaction 데이터의 예로봇로봇 팔이 “잡기, 밀기, 회전시키기”를 시도한 로그RLstate–action–reward–next state(SARS)게임에이전트가 joystick 입력 → 게임 상태 변화자율주행steering, brake → 차량 주변 상태 변화 [Something-Something v2]주로 비디오..

Physical AI 2025.11.15

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

IntroductionGenerative AI 분야에 디퓨전이 등장하여 Text-to-image (T2I) synthesis의 큰 진보를 이뤄냈다T2I는 textual prompt로 high-quality image를 생성하는 것이다T2I 성공을 기반으로, text-to- video (T2V) 생성과 editing 연구가 탐구됐다초기 시도는 pixel or latent space에서 T2V difussion 모델을 훈련햇다그러나 데이터셋이 너무 크고 훈련비용이 컸다최근에는 pre-trained T2V diffusion 모델을 활용한 Training-free 기법 등장그러나 frame 별로 일관성 있는 coherent motion를 달성하기 어렵다, 특히 모든 프레임에 single user prompt를 ..

Physical AI 2025.11.14