Diffusion Alignment as Variational Expectation-Maximization
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ์ฝ์คํผ | ๊ฐ์ : ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ๋ฐ๊พธ์ง ์๊ณ , Diffusion Optimization์ ํด๊ฒฐํ ์ ์์ด ํจ์จ์ฑ์ด ๋์ ์ฝ์ : ๋ํจ์ ๋ชจ๋ธ์ธ๋ฐ, EM๋จ๊ณ๋ฅผ ๊ณ์ ๋ฐ๋ณตํ๋ฉด ๊ณ์ฐ์ด ๋ฌด๊ฑฐ์์ง์ง ์์๊น? ์ ์: Timestep์ด๋ ๋ฐ๋ณต ํ์๋ฅผ ์กฐ์ ํด์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋๊ฒ ํ์ํด ๋ณด์. | 3.9 |
| ์ผ๋ผ | ๊ฐ์ : reward์ diversity๋ฅผ ํจ๊ป ๊ณ ๋ คํ๋ฉด์ ๋ถ๋ถ์ ์คํ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์ด ๊ฐ์ ์ฝ์ : test-time search์ ํ์ง์ ํฌ๊ฒ ์์กดํ ๊ฒ ๊ฐ์ + ๊ณ์ฐ๋์ด ๋ง์ด ํ์ํด๋ณด์ ์ ์: search๋ฅผ ์ต์ํํ๋ฉด์ ์ฑ๋ฅ์ ์ต๋ํํ๋ ํ์ ์ฐ๊ตฌ๊ฐ ๋์ค๋ฉด ์ข์ ๊ฒ ๊ฐ์ | 3.8 |
| ๋น์๋จ | ๊ฐ์ : ๋ณด์๋ง ์ต์ ํ ํ ๋ collapse ๋ฐ์ํ ์ ์๋ ๋ฌธ์ ๋ฅผ EM์ผ๋ก ์ ๊ท ํ์ ์ก์๊ฒ ๊ฐ์. EM์ diffusion์ ์ฌ์ฉํ ์ฌ๋ก๋ฅผ ์ฒ์ ์ฝ์ด๋ณด์์ ์ ๋ชฐ๋์ง๋ง, EMํ์ต ํ๋ฆ์ด diffusion์ ์ํ๋ง/ํ์ต ๊ตฌ์กฐ์ ์ ๋ง๋ ๋๋? ์ฝ์ : E-Step์์์ ํ์ ๋น์ฉ์ด ๋งค์ฐ ํด๊ฒ ๊ฐ์ ์ ์: ๋ชจ๋ timestamp์์ M๊ฐ์ฉ ๋ฝ๋๊ฒ ์๋๋ผ ๋ณด์์ ๋ฏผ๊ฐํ ๊ตฌ๊ฐ ๋ณ๋ก sampling ์๋ฅผ ๋ค๋ฅด๊ฒ ํ ์ ์์ง ์์๊น? | 4.1 |
| ์นซ์ | ๊ฐ์ : diffusion alignment์ EM ์๊ณ ๋ฆฌ์ฆ์ ์๋ก์ด ๋ฐฉ์์ผ๋ก ์ ์ฉํ๊ณ reverse/forward KL๋ ๊ฒฐํฉํจ ์ฝ์ : test-time search๋ก ์ธํ ์๊ฐ ํจ์จ์ฑ ์ ์: test-time search ํ์ง์ด ์ด๋์ ๋ ์ด์์ด๋๋ก ๋ณด์ฅํ๋ ์ ์ฝ ์ถ๊ฐ | 3.6 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : diffusion์ด ๊ฐ์ง๋ ๋ค์์ฑ์ ์ ์งํ๋ฉด์๋, ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ ์ ์. ์ต๊ทผ ๊ฐํํ์ต๋ค์ด ๋ค์ํ objective๋ฅผ ๋์์ ๊ณ ๋ คํ ์ ์๋๋ก ๊ฐ๋๋๊ณ ์๋ ๊ฒ ๊ฐ๊ณ , ๊ทธ ๊ธฐ์กฐ์ ๋ง๋ ๋ฐฉ๋ฒ๋ก ์ด๋ผ๊ณ ์๊ฐํจ. ์ฝ์ : ์๋กญ๊ฒ ๋๊ปด์ง์ง ์์. ๊ทธ๋ฅ ๊ธฐ์กด ๋ฐฉ๋ฒ 2๊ฐ์ ๊ฒฐํฉ ์๋๊ฐ? ์ ์: ๋ฆฌ์๋ ๋ชจ๋ธ์ ์ ํํ๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์คํ๋ ค over-optimization์ ํด๊ฒฐํ๋ ๋ ์ข์ ๋ฐฉ๋ฒ์ผ ๊ฒ ๊ฐ์. ์ด ์๊ณ ๋ฆฌ์ฆ์ ๋์์ด ๋ชจ๋ธ์ด ์๋๋ผ, reward๋ชจ๋ธ์ด๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ์กฐ์ ํ์ฌ ํด๊ฒฐํ๋ ๊ฑด ์ด๋จ๊น? | 3.7 |
| ๋์ค๋ฅ | ๊ฐ์ : ์ํ์ Soundness๊ฐ ํ๋ถํจ! Diffusion+RL์ ์ฐธ์ ํ ์กฐํฉ์ธ๋ฏ ๋จ์ : ํ ๋ฉ์๋๋ค๊ณผ ๋น๊ตํด์ ์ผ๋ง๋ ๊ฐ๋ฒผ์ด์ง, ๋น ๋ฅธ์ง์ ๋ํ ๋น๊ต๊ฐ ์์๋ค๋ฉด ๋ ์ข์์ ๊ฒ ๊ฐ์! ์ ์: Alignment ์ฑ๋ฅ, motivation์ ๋ํ ๊ฐ์ ์ ์ฆ๋ช ํ๋ ค๋ฉด user study๊ฐ ํ์ํด๋ณด์! ์ฌ๋ด: diffusion์ NLP๋ ์ข ์ ๋ง๋๊ฑฐ ๊ฐ๋ค๋ ์๊ฐ์ด ๋งค๋ฒ ๋ฌ | 3.5 |
| ์ปคํผ | ๊ฐ์ : ๊ธฐ์กด diffusion์ ๋ฌธ์ ์ธ mode collapse์ ๊ณ์ฐ ๋น์ฉ ๋ฌธ์ ์ ์์ธ์ธ reverse-KL์ ๋ํด์, test-time-search ๋ฐฉ์์ ๊ทธ๋๋ก ํ์ฉํ์ฌ ์ธํ
์ ๋ฐ๊พธ๋ ๊ฒ์ด ์ฐธ์ ํจ. ๋ํ, test time search ๋ฐฉ์์ ์ํ์ ํตํด reward gradient๋ฅผ ์ฌ์ฉํ์ง ์๊ฒ ๋์ด ๋ ์ผ๋ฐํ๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐ. ์ฝ์ : test time search๋ฅผ ์ฌ์ ํ ์ฌ์ฉํ๋ฏ๋ก ํ์๋น์ฉ์ ํฐ ๊ฐ์ ์ ์์ ๊ฒ ๊ฐ์. ๋ํ ๋ฝํ ์ํ์ ํ๋ฆฌํฐ๊ฐ ์ผ๊ด์ ์ด๋ผ๋ฉด, reverse-KL์ mode collapse์ ๋ฌธ์ ๋ ํฐ ๊ฐ์ ์ด ์์ง ์์๊น? ์ ์ : test time search์ ์ํ์ ํ๋ฆฌํฐ ํ๋ณด์ ๊ด๋ จ๋ ์ฐ๊ตฌ๊ฐ ์ถ๊ฐ ์ ์๋์์ผ๋ฉด ๋ ๋ ผ๋ฆฌ์ ์ด์์ ๊ฒ ๊ฐ์. | 3.8 |
| AI | ๊ฐ์ : reward ์ต์ ํ๋ฅผ ์ํํ๋ฉด์ diversity๊น์ง ์ ์งํ๋ diffusion alignment์ ํต์ฌ trade-off๋ฅผ ์ ํด๊ฒฐํ๋ฏ + DNA ๋๋ฉ์ธ ์คํ๋ ์ ๋ฐํจ ์ฝ์ : ๊ทผ๋ณธ์ ์ผ๋ก diversity๋ ์ ์งํ๋๋ผ๋ ๋ชจ๋ธ์ bias ์์ฒด๋ ํด๊ฒฐํ๊ธฐ ํ๋ค์ด๋ณด์ ์ ์: ์ฌ๊ธฐ์ reward๋ฅผ ํญ์ ์ ๋์ ์ผ๋ก ์ ๋ขฐํ๋๋ฐ, uncertainty๋ฅผ ๊ณ ๋ คํด๋ณผ ์ ์์ง ์์๊น? | 3.9 |
| 404 | ๊ฐ์ : diffusion์ ๊ธฐ์กด Preference optimization์ ์ ๋ชฉํ๋ ค๋ ์๋ ์์ฒด๊ฐ novelty๊ฐ ํฌ๊ณ , soundness๊ฐ ์ข๋ค๊ณ ์๊ฐํจ! ํ์ฌ vision์์ difussion์ด ์ฌ์ฉ๋๋ ์ทจ์ง๊ฐ, ์ ์๋ค์ด ์ ์ํ๋ motivation๊ณผ ์ง๊ด์ ์ผ๋ก align์ด ์ ๋์ด์, ํฅ๋ฏธ๋กญ๊ฒ ์ฝ์ ์ฝ์ : ๋ค์์ฑ ์ด์ธ์ ๋ชจ๋ ๋ถ๋ถ. e.g. ์๊ฐ์ ์ธ cost, bias ๋ฑ๋ฑ์ ๊ณ ๋ คํ์ง ๋ชปํจ (+architecture ๊ทธ๋ฆผ ์์ด์ ๊ฐ๋ ์ฑ์ด ๋๋ฌด ๋ฎ์) ์ ์: NLP downstream task์ ์ ์ฉ | 4.2 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : mode-seeking ๋ฌธ์ ๋ฅผ forward-KL๋ก ์ ํํ๋ ๋ฐ์์ด ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ๊ฒ ๊ฐ์. ์ฐ์, ์ด์ฐ ๋ ๋๋ฉ์ธ์์ ๋์์ ๊ฒ์ฆํด์ ์คํํจ. ์ฝ์ : E-step์์ test time search ๋น์ฉ์ด ๋งค iteration๋ง๋ค ๋ฐ์ํจ. ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋นํด ์ค์ ํ์ต ์๊ฐ์ด ์ผ๋ง๋ ๋ ๊ฑธ๋ฆฌ๋์ง ๋น๊ต๊ฐ ์์. ์ ์: E-step์์ ํ์ ํ์์ ์ฑ๋ฅ ๊ฐ ๋น๊ต | 3.8 |
TL; DR
Diffusion ๋ชจ๋ธ์ ๋ชฉ์ ํจ์์ ๋ง๊ฒ diffusion alignmentํ ๋ ๋ฐ์ํ๋ reward over-optimization ๊ณผ mode collapse ๋ฌธ์ ๋ฅผ EM์๊ณ ๋ฆฌ์ฆ (E๋จ๊ณ(test time search) โ M๋จ๊ณ(forward-KL)์ ๋ฐ๋ณต)์ผ๋ก ํด๊ฒฐํ์!
Summary
- ์ฐ๊ตฌ์ง: KAIST, MongooseAI, Mila, University of Edinburgh, Omelet
Background & Motivation
Diffusion ๋ชจ๋ธ์ ์ด๋ฏธ์ง, ๋ก๋ณดํฑ์ค, ์๋ฌผํ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ high-fidelity ์ํ์ ์์ฑํ๋ ๋ฐ ๋ฐ์ด๋จ.
โ but ์ค์ ์์ฉ์์๋ ๋จ์ํ ์ํ์ ์์ฑํ๋ ๊ฒ ์ธ์๋, ์ธ๋ถ ๊ธฐ์ค(์ด๋ฏธ์ง์ ๋ฏธ์ ํ์ง, DNA enhancersํ์ฑ๋ ๋ฑ)์ ๋ง์ถ ์ํ์ด ํ์ํจ
โ ์ด๋ฅผ ์ํด diffusion alignment(์ฌ์ ํ์ต๋ diffusion ๋ชจ๋ธ์ downstream objective์ ๋ง๊ฒ fine tuning)์ด ํ์
Diffusion Alignment์ ๊ธฐ์กด ์ ๊ทผ๋ฒ
- RL ๊ธฐ๋ฐ fine-tuning (DDPO, DPOK)
- on-policy ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ reverse-KL objective๋ฅผ ํตํด ๋ํจ์ ๋ชจ๋ธ์ ํ์ธํ๋
- Denoising ๊ณผ์ ์ sequential decision making์ผ๋ก ๋ณด๊ณ , black box reward function์ ์ต๋ํํ๋๋ก policy ์ต์ ํ
- Reverse-KL objective ์ฌ์ฉ โ mode-seeking ํ๋ โ mode collapse ๋ฐ์
- Direct backpropagation(DRaFT, AlignProp)
- ๋ฏธ๋ถ ๊ฐ๋ฅํ reward functio์ผ๋ก๋ถํฐ gradient๋ฅผ denoising chain์ ํตํด ์ง์ ์ญ์ ํ
- ์ํ ํจ์จ์ฑ์ ๋์ง๋ง, reward model์ gradient ๊ฐ์ ์์กด โ reward ๋ชจ๋ธ ์์ฒด๊ฐ ์์ ํ์ง ์์ โ reward over-optimization ๋ฐ์
โ ๊ธฐ์กด์ ๋ ๋ฐฉ๋ฒ์์ mode collapse(์์ฑ๋ ์ํ์ด ํ๋์ mode๋ก๋ง ์์ฑ์ด ๋์ด์ ๋ค์์ฑ์ด ๋จ์ด์ง), reward over optimization(reward ์ ์๋ ๋์ง๋ง ์ค์ ํ์ง์ ์คํ๋ ค ๋จ์ด์ง) ๋ฌธ์ ๊ฐ ๋ฐ์
Fine-tuning approaches
- Liu et al. (2024); Domingo-Enrich et al. (2025) ์์ reward function์ ๊ธฐ์ธ๊ธฐ ์ ํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ ํ๋ จ๋ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ์ฐ์ diffusion ๋ชจ๋ธ์ fine tuningํ ๊ฒ์ ์ ์
Test-time search ๋ฐฉ์
- ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ๋ฐ๊พธ์ง ์๊ณ ์ถ๋ก ์์ ์ถ๊ฐ ์ฐ์ฐ์ ํฌ์
- 2๊ฐ์ง ๋ฐฉ์
- Guidance ๊ธฐ๋ฐ: ๋ ธ์ด์ฆ ์ ๊ฑฐ์ ๊ฐ ๋จ๊ณ๋ง๋ค reward๊ฐ ๋์์ง๋ ๋ฐฉํฅ์ผ๋ก ์ ํธ๋ฅผ ์ค. ํ์ง๋ง ๊ทผ์ฌ์น์ด๊ธฐ ๋๋ฌธ์ underoptimization ์ผ์ด๋จ.
- search ๊ธฐ๋ฐ: ๊ฐ ๋จ๊ณ์์ ์ฌ๋ฌ ํ๋ณด๋ค์ ์์ฑํ๊ณ ๊ทธ์ค ๊ฐ์ฅ ์ข์ ๊ฒ์ ์ ํ. ๊ณ์ฐ๋น์ฉ์ด ํผ
- ๊ธฐ์กด์ test time search ๋ฐฉ์์ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๊ณ , underoptimization ํ์ ์ผ์ด๋จ
+์ฐ์๊ณผ ์ด์ฐ diffusion ๋ชจ๋์ ์ ์ฉ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ ์์
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฏธ๋ถ ๊ฐ๋ฅํ reward์ ์ฐ์ diffusion์ ํ์ ๋จ
โ Reward๋ฅผ ์ต๋ํํ๋ฉด์๋ ๋ค์์ฑ๊ณผ ์์ฐ์ค๋ฌ์์ ๋์ด๊ณ , ์ฐ์/์ด์ฐ ๋๋ฉ์ธ ๋ชจ๋์ ์ ์ฉ ๊ฐ๋ฅํ ๋ํจ์ ๋ชจ๋ธ fine tuning ํ๋ ์์ํฌ๊ฐ ํ์ํจ
โ DAV๋ test time search ๋ฐฉ์์ ํตํด ์ํ ์์ง โ ์์งํ ์ํ์ ๋ํจ์ ๋ชจ๋ธ์ distill ํจ์ผ๋ก์จ ์ ๋ ํจ๋ฌ๋ค์์ ํตํฉ.
Contributions
DAV (Diffusion Alignment as Variational EM) ํ๋ ์์ํฌ
- Diffusion alignment๋ฅผ variational EM ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฌํ
- E-step (ํ์)๊ณผ M-step (๊ทผ์ฌํ)๋ฅผ ๋ฐ๋ณตํ์ฌ reward ์ต์ ํ์ ๋ค์์ฑ ๋ณด์กด์ ๋์์ ๋ง์กฑํจ
E-step์์ test time search๋ฅผ ํ์ฉํ posterior inference
- Soft Q-function ๊ธฐ๋ฐ์ test time search๋ก ๋ณด์์ด ๋์ ๋ค์ํ ์ํ์ variational posterior์์ ํ์ํ์ฌ ์ฌ์ฉ
- ๊ธฐ์กด EM๊ธฐ๋ฐ RL ์ ๊ทผ๋ฒ์ ์ฝ์ (on poliocy ์ํ์ reweightingํ์ฌ ์ฌํ๋ถํฌ๋ฅผ ๊ทผ์ฌํ ๋ ์ฌํ ๋ถํฌ๋ฅผ ์๋ชป ์ง์ ํ๊ฒ ๋จ)๋ฅผ ๊ทน๋ณต
M-step์์ forward-KL distillation์ผ๋ก ๋ชจ๋ธ ์ ๋ฐ์ดํธ
- Reverse-KL(mode-seeking) ๋์ forward-KL(mode-covering)์ ์ฌ์ฉํ์ฌ ๋ค์์ฑ ๋ณด์กด
- E-step์์ ๋ฐ๊ฒฌํ ๋ค์ํ mode๋ฅผ ๋ชจ๋ ์ปค๋ฒํ๋๋ก ๋ชจ๋ธ์ด ํ์ต๋จ
์ฐ์ + ์ด์ฐ diffusion์ ๋ชจ๋ ์ ์ฉ ๊ฐ๋ฅ
- Text-to-image์ DNA sequence design ์์ ์คํ ๊ฒ์ฆ
- Reward function์ ๋ฏธ๋ถ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ฐ์ ๋ถํ์(๋ฏธ๋ถ์ ์ฌ์ฉํ์ง ์์) โ ๋ ์ผ๋ฐ์ ์ธ ํ๋ ์์ํฌ(์ฐ์, ์ด์ฐ ๋ชจ๋ ์ ์ฉ ๊ฐ๋ฅ)
โ forward-KL ๋ฐฉ์์ผ๋ก ๊ธฐ์กด์ Diffusion Alignment ์ ๊ทผ๋ฒ๋ค์ ๋๊ฐ์ง ๋ฌธ์ ์ ์ ํด๊ฒฐํ๋ฉด์ Test-time search ๋ฐฉ์์ ์ถ๊ฐ ๊ณ์ฐ ์ค๋ฒํค๋ ์์ด ํ์ต ์์๋ง ์ฌ์ฉํจ์ผ๋ก์จ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ๋ฐ์ ์๋ฏธ๊ฐ ์์
Method
์ ์ฒด ํ์ดํ๋ผ์ธ: E-step๊ณผ M-step์ ๋ฐ๋ณตํ๋ฉฐ, E-step์์ ๋ฐ๊ฒฌํ ๋์ ๋ณด์ ์ํ์ M-step์์ ๋ชจ๋ธ์ distillation.
E-step: ํ์. test time search๋ก ๋ณด์์ด ๋๊ณ ๋ค์ํ ์ํ์ ๋ฐ๊ฒฌ
โ
M-step: ์ฆ๋ฅ. ๋ฐ๊ฒฌํ ์ํ๋ค์ forward-KL๋ก ๋ชจ๋ธ์ distillation
โ
๋ฐ๋ณต
variational EM formulation
- optimality variable O๋ฅผ ๋์
- ๋๋ ธ์ด์ง ๊ฒฝ๋ก ฯ๊ฐ ์จ๊ฒจ์ง ๋ณ์(latent variable) ์ญํ
- ฯ๊ฐ ๋์ ๋ณด์์ ์ค์๋ก O=1์ผ ํ๋ฅ ์ด ๋์
E-step: test time search๋ก posterior inference
- ์ต์ ์ variational distribution ฮท*๋ "ํ์ฌ ๋ชจ๋ธ์ ํ๋ฅ ร ์ํํธ Q-ํจ์์ ์ง์"์ ๋น๋กํ๋ ๋ณผ์ธ ๋ง ๋ถํฌ
- ฮท*k ์์ ๋ค์ํ๊ณ ๋ณด์์ด ๋์ ๊ถค์ ์ ์ํ๋ง ํ๋ ๊ฒ์ด ๋ชฉํ
- ์ง์ ์ํ๋ง์ด ๋ถ๊ฐ๋ฅํ๋ฏ๋ก 2๋จ๊ณ ๊ทผ์ฌ ์ํ:
- gradient guidance๋ก proposal distribution(์ ์ ๋ถํฌ) ๊ตฌ์ฑ (๋ณด์ ๊ธฐ์ธ๊ธฐ๋ก ์ข์ ๋ฐฉํฅ์ ์๋ด)
- importance sampling์ผ๋ก ๋ณด์ (์ค์ ์ต์ ๋ถํฌ์์ ์ฐจ์ด๋ฅผ ๊ฐ์ค์น๋ก ๋ณด์ )
- ๋ชจ๋ํ ์ค๊ณ๋ฅผ ํตํด์ ๋ ์ข์ ํ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋์ค๋ฉด ๊ต์ฒด ๊ฐ๋ฅ
M-step: forward-KL๋ก ๋ํจ์ ๋ชจ๋ธ ์ ๋ฐ์ดํธ
- E-step์์ ๋ฐ๊ฒฌํ ๊ถค์ ๋ค์ ๋ํด log-likelihood๋ฅผ ์ต๋ํํจ์ผ๋ก์จ ํ์ต = forward-KL minimization
- Forward-KL ์ฌ์ฉ โ mode-covering ํน์ฑ โ ๋ค์ํ ๋ชจ๋๋ฅผ ๋ชจ๋ ์ปค๋ฒํ๋๋ก ํ์ต
- ๊ธฐ์กด RL์ reverse-KL โ mode-seeking โ ํ๋์ ๋ชจ๋์๋ง ์ง์ค
- DAV-KL variant: ์ฌ์ ํ์ต ๋ชจ๋ธ๊ณผ์ KL ํ๋ํฐ๋ฅผ ์ถ๊ฐํ์ฌ ๋ค์์ฑ์ ๋ ๋ณด์กด
Forward-KL์ mode-covering objective ํจ โ E-step์์ ๋ฐ๊ฒฌํ ๋ชจ๋ ๋ค์ํ mode๋ฅผ ์ปค๋ฒํ๋๋ก ๋ชจ๋ธ ์ ๋ฐ์ดํธ
Experiments
์คํ 1: Text-to-image ์์ฑ (์ฐ์ diffusion)
์คํ ์ธํ
- ๋ชจ๋ธ: Stable Diffusion v1.5 (LoRA rank 4๋ก ํ์ธํ๋)
- ๋ณด์: LAION aesthetic score (๋ฏธ์ ํ์ง ์ ์, ๋ฏธ๋ถ ๊ฐ๋ฅ)
- ํ๋กฌํํธ: 40๊ฐ์ ๋๋ฌผ ํ๋กฌํํธ
- ํ๊ฐ ์งํ:
- reward(๋ฏธ์ ํ์ง)๊ณผ ๋๋ถ์ด ์ด์ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง ์ฃผ์ ์คํจ ์๋ ๊ณผ์ต์ ํ์ ๋ค์์ฑ ๋ถ๊ดด(mode collapes)๋ฅผ ํ๊ฐ
- Aesthetic Score(LAION aesthetic score): ๋ฏธ์ ํ์ง. (๋ฏธ๋ถ ๊ฐ๋ฅํจ) โ reward. ๋ชจ๋ธ์ด ์ต์ ํํ๋๋ก ํ๋ จ๋ ๋ชฉํ ์ ์
- ImageReward: ์ธ๊ฐ ์ ํธ๋ ์ ์ โ ํ์ต์ ์ฌ์ฉ๋์ง ์์ ๋ณ๋์ ํ๊ฐ ์งํ (๊ณผ์ต์ ํ ํ์ง๋ฅผ ์ํด ์ฌ์ฉ)
- CLIP Score: ํ๋กฌํํธ-์ด๋ฏธ์ง ์ผ์น๋ (๊ณผ์ต์ ํ ํ์ง)
- LPIPS-A/P: ์ํ ๋ค์์ฑ
- reward(๋ฏธ์ ํ์ง)๊ณผ ๋๋ถ์ด ์ด์ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง ์ฃผ์ ์คํจ ์๋ ๊ณผ์ต์ ํ์ ๋ค์์ฑ ๋ถ๊ดด(mode collapes)๋ฅผ ํ๊ฐ
- Baselines: DDPO (RL๊ธฐ๋ฐ ํ์ธํ๋), DRaFT (์ง์ ์ญ์ ํ), TDPO (gradient-free RL), DAS (ํ ์คํธ ์๊ฐ ํ์)
- DAV๋ reward(8.04)๊ฐ DDPO(6.83), DRaFT(7.22)๋ณด๋ค ํฌ๊ฒ ๋์ผ๋ฉด์ ImageReward(0.95)๋ฅผ ๊ธฐ์กด pretrained ์์ค์ผ๋ก ์ ์ง
- โ reward ํจ์๋ฅผ ์์ด์ง ์๊ณ (over-optimizationํ์ง ์๊ณ ) ์ง์ง๋ก ์ข์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์๋ค
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ณด์์ ์ฌ๋ฆด์๋ก ImageReward, CLIP, ๋ค์์ฑ์ด ๋จ์ด์ง (over-optimization๋จ)
- โ ๊ธฐ์กด ๋ฐฉ์(DDPO, DRaFT)์ Aesthetic Score ๋ผ๋ ํ๊ฐ ์งํ์๋ง ๋๋ฌด over-optimization ๋ ๋๋จธ์ง ์ค์ ๋ก ๋ณด๊ธฐ์๋(ImageReward) ๋๋น ์ก๋ค
- DAV-KL์ ๋ค์์ฑ๊ณผ ImageReward์์ ๊ฐ์ฅ ์ฐ์
- DAV Posterior(ํ ์คํธ ์๊ฐ ํ์ ์ถ๊ฐ)๋ ๋ฏธ์ ์ ์ ์ต๊ณ ์ ์ 9.18 ๋ฌ์ฑ
DAV Posterior๋?
DAS: ๊ธฐ์กด test time search. ํ์ต ์๋ ์๋ณธ ๋ชจ๋ธ์ธ p0์์ ํ์.
DAV: ๋ ผ๋ฌธ์ em ์๊ณ ๋ฆฌ์ฆ์ ํตํด์ ๋ํจ์ ๋ชจ๋ธ ํ์ต ํ์ ๋ชจ๋ธ๋ง ๊ฐ์ง๊ณ ์ํ๋ง ๊ฒฐ๊ณผ
DAV Posterior: ํ์ต ํ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ถ๋ก ๋๋ง๋ค ํ์(test time search)์ ์ถ๊ฐ๋ก ์ํ. ์ฑ๋ฅ์ด ๋์ง๋ง ์๊ฐ์ด ์ข ๋ ๊ฑธ๋ฆผ
์คํ 2: DNA sequence design (์ด์ฐ diffusion)
์คํ ์ธํ
- ๋ชจ๋ธ: Masked Diffusion Language Model (MDLM)
- ๋ฐ์ดํฐ: 700K DNA ์ธํธ์ ์์ด (200bp)
- ๋ณด์(reward): Enformer ๋ชจ๋ธ์ ์ธํธ์ ํ์ฑ๋ ์์ธก๊ฐ
- ํ๊ฐ ์งํ:
- Pred-Activity: ์์ธก ํ์ฑ๋ (reward)
- ATAC-Acc: ์ผ์์ง ์ ๊ทผ์ฑ (์๋ฌผํ์ ํ๋น์ฑ, ๊ณผ์ต์ ํ ํ์ง)
- 3-mer Corr: k-mer ๋น๋ ์๊ด๊ด๊ณ (์์ฐ์ค๋ฌ์)
- Levenshtein Diversity: ์์ด ๊ฐ ํธ์ง ๊ฑฐ๋ฆฌ (๋ค์์ฑ)
- Baselines: DRAKES (์ง์ ์ญ์ ํ), DDPO/VIDD (RL ๊ธฐ๋ฐ)
- ๊ฒฐ๊ณผ
- DAV๋ ๋ณด์, ๋ค์์ฑ, ์์ฐ์ค๋ฌ์ ๋ชจ๋ ์ธก๋ฉด์์ ๊ท ํ ์กํ ์ฑ๋ฅ
- DDPO/VIDD๋ reward๋ ๋์ง๋ง ๋ค์์ฑ๊ณผ validity(ํ๋น์ฑ)์ด ๋ฎ์ (over-optimization)
- DAV Posterior๋ reward(9.24)๊ณผ validity(0.920) ๋ชจ๋ ์ต๊ณ ์









