DIFFUSION

19 March 2026

Diffusion Alignment as Variational Expectation-Maximization

ICLR'26 Poster

💡Diffusion 모델을 목적 함수에 맞게 diffusion alignment할 때 발생하는 reward over-optimization 과 mode collapse 문제를 EM알고리즘 (E단계(test time search) → M단계(forward-KL)의 반복)으로 해결하자!

DIFFUSION RL research