Physical AI 3

Learning A Physical-aware Diffusion Model Based onTransformer for Underwater Image Enhancement

Abstract수면 아래 이미지 복원은 실용적이면서도 복잡한 기술로, 수중 로봇공학 및 수중 물체 추적과 같은 분야에 광범위하게 적용됨그러나 기존 방법론은 physical properties과 수중 이미지 mechanism을 고려하지 않아, 디퓨전 모델의 정보 완성 능력을 제한본 논문에서는 Physics knowledge로 diffusion process를 guide하는 PD-Diff를 제안PA-DIFF는 아래 3가지 Branch로 구성Physics Prior Generation (PPG) BranchImplicit Neural Reconstruction (INR) Branch,Physics-aware Diffusion Transformer (PDT) Branh3 METHODOLOGY3.1 Overall..

Physical AI 2025.11.16

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

용어정리[interaction data]에이전트가 실제로 행동(Action)을 해야만 생기는 데이터✔ 로봇이 물체를 잡아본다 → 성공/실패 데이터✔ 로봇 팔이 공을 밀어본다 → 공이 어떻게 움직였는지 trajectory 기록✔ RL agent가 게임에서 점프한다 → 다음 상태(state’)와 reward 얻음✔ self-driving car가 steering 하면서 도로 정보를 기록분야interaction 데이터의 예로봇로봇 팔이 “잡기, 밀기, 회전시키기”를 시도한 로그RLstate–action–reward–next state(SARS)게임에이전트가 joystick 입력 → 게임 상태 변화자율주행steering, brake → 차량 주변 상태 변화 [Something-Something v2]주로 비디오..

Physical AI 2025.11.15

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

IntroductionGenerative AI 분야에 디퓨전이 등장하여 Text-to-image (T2I) synthesis의 큰 진보를 이뤄냈다T2I는 textual prompt로 high-quality image를 생성하는 것이다T2I 성공을 기반으로, text-to- video (T2V) 생성과 editing 연구가 탐구됐다초기 시도는 pixel or latent space에서 T2V difussion 모델을 훈련햇다그러나 데이터셋이 너무 크고 훈련비용이 컸다최근에는 pre-trained T2V diffusion 모델을 활용한 Training-free 기법 등장그러나 frame 별로 일관성 있는 coherent motion를 달성하기 어렵다, 특히 모든 프레임에 single user prompt를 ..

Physical AI 2025.11.14