Physical AI

Learning A Physical-aware Diffusion Model Based onTransformer for Underwater Image Enhancement

Jongmin Lim 2025. 11. 16. 00:10

Abstract

  • 수면 아래 이미지 복원은 실용적이면서도 복잡한 기술로, 수중 로봇공학 및 수중 물체 추적과 같은 분야에 광범위하게 적용됨
  • 그러나 기존 방법론은 physical properties과 수중 이미지 mechanism을 고려하지 않아, 디퓨전 모델의 정보 완성 능력을 제한
  • 본 논문에서는 Physics knowledge로 diffusion process를 guide하는 PD-Diff를 제안
  • PA-DIFF는 아래 3가지 Branch로 구성
    • Physics Prior Generation (PPG) Branch
    • Implicit Neural Reconstruction (INR) Branch,
    • Physics-aware Diffusion Transformer (PDT) Branh

3 METHODOLOGY

3.1 Overall Framework



3.2 Physics Prior Generation (PPG)

  • Koschmieder light scanning model를 도입

  • $x$는 image
  • $I^c$는 underwater image
  • $J^c$는 restored clean image
  • $T^c$는 medium transmission map (배경을 제외?한 이미지라 보면 된다)
  • $B^c$는 global background
  • PPG의 목표는 underwater image $I^c$로부터 $T^c$와 $B^c$를 생성
    • 그림에서 보여지는 것처럼 두 개의 Convolution layer를 설계하여 와 $B^c$를 생성

3.3 Implicit Neural Reconstruction (INR)

  • discrete 이미지를 continuous하게 바꾸는 기술이다.
  • 기존에 이미 있는 기술로, super resolution 분야에서 많이 사용한다

3.4 Physics-aware Diffusion Transformer

  • 논문의 핵심 아이디어다
  • PPG로부터 얻은 $B^c$, INR로부터 얻은 $x^c$를 concat한다
  • 그리고 디퓨전 과정에서 사용하는 noise sample에 concat한다
  • 그리고 convolution 연산으로 $\mathcal{F}$를 얻는다
  • 이 것을 Self-attention과정에 이용하고, 논문에서는 이를 Physics-aware Self-attention라고 한다
  • F로부터 query, Key, Value 생성

4 EXPERIMENTS

 


Reference

 https://arxiv.org/abs/2403.01497

 

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Underwater visuals undergo various complex degradations, inevitably influencing the efficiency of underwater vision tasks. Recently, diffusion models were employed to underwater image enhancement (UIE) tasks, and gained SOTA performance. However, these met

arxiv.org