Multiplayer Nash Preference Optimization
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฝ์คํผ | ๊ฐ์ : Aligmnet๋ฅผ Min-max๊ฐ ์๋ โ๋ค๋ฅธ ๋ชจ๋ธโ์ ๋นํด์ ์ผ๋ง๋ ๋ณดํธ์ ์ผ๋ก ์ ํ ์ ์๋๊ฐ์ ๋ํ ์งํ๋ฅผ ์ ์ํ ๊ฒ์ด ๊ฐ์ . ์ฝ์ : ์ ์ฒด ๊ธฐ์ค์ ๋ง์ถ๋ค ๋ณด๋ฉด ํน์ ํ ๊ธฐ์ค์ ๋ํ ์ต์ ํ ๋ถ๋ถ์์๋ ์ฝ์ ์ ๋ณด์ผ ์ ์์ ๊ฒ์ด๋ผ ๋ด. ์ ์: ํน์ Oracle์ ๋ง์ถ๋ฉด์ ์ ์ฒด ๊ธฐ์ค์ ๋ง์ถ๋ ํ์ต ๋ฐฉ๋ฒ์ด ์ข์ ๋ฏ. | 3.7 |
| ์ผ๋ผ | ๊ฐ์ : ๋ก์ง์ด ์ ๋๊ฐ๋ณด๋ค ์๋์ ๋น๊ต๋ก ์๋ฏธ๋ฅผ ๊ฐ๋ฏ์ด alignment๋ ๋จ์ผ ์ ์ maximization์ด ์๋๋ผ ์ฌ๋ฌ ์ ์ฑ
๊ฐ ์๋์ ์ฐ์์ ๊ท ํ์ผ๋ก ํด์ํ ๊ด์ ์ด ์ ์ ํจ ์ฝ์ : ์ค์ ๋น ํ ํฌ๊ธฐ์ ๋ค์ ํน์ Preference์ ์ง์คํด์ alignment๋ฅผ ํ๊ณ ์ด๋ฅผ selling point๋ก ์ฌ์ฉํ๋๊ฑธ๋ก ์๊ณ ์๋๋ฐ ํด๋น ๋ฐฉ๋ฒ๋ก ์ ์์ฅ ๊ฒฝ์๋ ฅ์์ ์ฝํ ๊ฒ ๊ฐ์ ์ ์: ํ๋์ preference๋ ์ฌ๋ฆฐ๋ค๋ ๊ฐ์ ํ์ ๋๋จธ์ง์ ํ๊ท ์ ์ฌ๋ฆฌ๋ ๋ฐฉ๋ฒ๋ก ์ด ๋์ค๋ฉด ์ข์๋ฏ | 4.0 |
| ๋น์๋จ | ๊ฐ์ : ๋
ผ๋ฌธ์ด alignment๋ฅผ ๋ฐ๋ผ๋ณด๋ ๊ด์ ์ ์ฐธ์ ํ๊ธด ํ๋ค. ๋ง์น ์ค์ธ๊ณ์ '๋จ๋ค๊ณผ ๋น๊ตํด์ ํ๊ท ์ด์๋ง ํ์'์ ์ ์ฌํ ๊ด์ ์ธ๋ฏ ์ฝ์ : 'ํ๊ท ์ ์ผ๋ก ๊ฐํ ์ ์ฑ '์ด ๊ผญ 'ํน์ ์ฌ์ฉ์์๊ฒ ์ข์ ์ ์ฑ '์ ์๋๊ฒ ๊ฐ์. ๊ทธ๋ฅ ๋๋ฃจ๋๋ฃจ ๋ฌด๋ํ~ ์ ์ฑ ์ ๋ง๋๋๊ฑฐ๊ณ , ์ด๋ ๊ทธ ํ๋์ ๊ด์ ์์๋ ์ต๊ณ ๊ฐ ์๋ ์ ์: ์ํฉ์ด๋ ๋ฌ์ฑํ๊ณ ์ ํ๋ ๋ชฉ์ ์ ๋ง๊ฒ adaptive ํ๊ฒ '์๋'๋ฅผ ๊ตฌ์ฑํด๋ ์ข์๋ฏ | 4.1 |
| ์นซ์ | ๊ฐ์ : ๋ฌ์ฑํด์ผ ํ ๊ธฐ์ค์ด ์ฌ๋ฌ๊ฐ์ผ ์ ์๋ค๋ ์ ์ด ํ์ค์ ์๋๋ฆฌ์ค์ ์ ๋ง์ ์ฝ์ : ๋ค ์ํ๋ค๋ ๊ฒ ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ฐ, ์ด๋์ ๋ ์๋๊ฒ ์ ๋ ฌ๋ ๊ฐ๋ฅ์ฑ ์ ์: ํ๊ท ์ ๋ง์ถ๋ ๊ฒ ์๋๋ผ ๋ง์ถฐ์ผ ํ ๊ธฐ์ค์ ํ์ ํ๊ณ ๊ฑฐ๊ธฐ์ ์ต์ ํ | 3.9 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : โ์ด๋ค ๋ชจ๋ธ๋ณด๋คโ ๊ฐ ์๋๋ผ, โ์ค๊ฐ์ ๊ฐ์โ ๋๋์ผ๋ก ์ดํด๋๊ณ , ๊ด์ ์ ๋ฐ๋ผ ์ข์ ๋ฐฉํฅ์ด๋ผ๊ณ ์๊ฐํจ. ์คํ๋ ค ๋ณดํธํ๋ ๋ชจ๋ธ์ด ๊ฐ์ ธ์ผํ๋ ์ต์ ํ ๋ฐฉํฅ์ด๋ผ๊ณ ๋๊ปด์ง. ์ฝ์ : ๋ณดํธํ๋ฅผ ์ํจ์ด๋ผ๋ฉด ๋ฉ๋๊ฐ๋ฅํ์ง๋ง, ๊ฒฐ๊ตญ ๋ณดํธํ ์ดํ ํน์ task์ ํ์ตํ๊ณ ๊ฐ์ ํ๋ ๊ณผ์ ์ด ์์ฐ์ค๋ฝ๊ฒ ํ์ํ๋ค๊ณ ์๊ฐํจ. ํ์ง๋ง, ์ด ์ฐ๊ตฌ์์๋ ์ด๋ ๊ฒ ์ต์ ํํ ๋ค์ ๋ชจ๋ธ ๊ฐ๋์ ๊ณ ๋ คํ์ง ์์. ์ ์: ์ ํธ๋ ์ต์ ํ๋ฅผ ๋ฐฑ๋ ์ฒ๋ ํ ์ ์๋ ๊ฒ์ผ๊น? ๊ทธ ๋ค์ ํ์ต์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง๋ ๊ณ ๋ คํด์ผ ํ์ง ์์๊น? ๋ผ๋ ์๊ฐ์ด ๋ฆ. ์ด ๋ ผ๋ฌธ๊ณผ๋ ํฌ๊ฒ ๊ด๋ จ ์์ง๋ง, ๊ทธ๋ฅ ์ฝ๊ณ ๋ณด๋ ์๊ฐ๋จ. | 4.0 |
| ๋์ค๋ฅ | ์ฅ์ : ๊ด์ ์ด ์ฌ๋ฏธ์๊ณ ์ด๋ฐ์ฐ๊ตฌ ํ๋์ฏค์ ํ์ํ๋ค๊ณ ์๊ฐ ๋ฆ! ๋จ์ : ์ฐ๊ตฌ์ ํ์์ฑ์ ๋ํ ์ค๋๋ ฅ์ด ๋ง์ด ๋จ์ด์งโฆ ์ง์ง์๋ ๋ชจ๋ธ์ด๋ผ๋ ๊ฒ์ด ์ ํ์ํ์ง? ์ฝ๋๋ ์งํผํฐ๊ฐ ์ํ๊ณ safety๋ ํด๋ก๋๊ฐ ์ํ๊ณ RAG๋ ์ ๋ฏธ๋์ด๊ฐ ์ํ๋ฉด ์ง์ง์๋ ๋ชจ๋ธ์ ์ด๋๋ค ์จ์ผํ ๊น? ์ ์: ์๋ฐ๋๋ ๊ฐ์น๋ฅผ ์ค์ผํ ๋ ์ค์ฉ์ ์ผ ์ ์์์ ๋ณด์ด์! e.g. LLM safety์์ ๋ชจ๋ธ์ ์ ๊ทน์ ์ผ๋ก ๋งํด์ผ ํ์ง๋ง ๋์์ ์กฐ์ฌ์ค๋ฝ๊ฒ ๋งํด์ผ ํจ | 3.5 |
| ์ปคํผ | ๊ฐ์ : human preference๋ฅผ ์ค์ ์ธ๊ณ์ "๋ค์์ฑ"์ด๋ผ๋ ํ์ค์ ์ธ ๊ด์ ์ ๋ง์ถฐ alignmentํด์ผํ๋ค๋ ๋ด์ฉ. ๋ํ ์ค๊ณ ์ด๋ ค์์ผ๋ก ์ธํด ์์ ์ ์ด์ ๋ชจ๋ธ์ opponent๋ก ๋์ด ๋น๊ตํ๋๊ฒ ๋
ผ๋ฆฌ์ ์ผ๋ก ํ๋นํด ๋ณด์ฌ ์ฐธ์ ํ์. ์ฝ์ : ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ข์๋ณด์ด์ง๋ง, ๋ชจ๋ ์ฑ์ง์ ๊ณ ๋ คํ์ฌ ์ฑ๋ฅ์ด ์ฐ์ํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ๊ทธ์ ๋ฐ๋ผ์ค๋ ๋น์ฉ์ ๊ฐ์ํ ๋งํผ ๊ฐ์น๊ฐ ์์์ง๊ฐ ๊ถ๊ธํจ. ์ ์ : ์ค์ ๋ก ๊ด๋ จ์๊ฑฐ๋ ์ค์ํ ๋ชฉํ๋ฅผ ๊ธฐ์ค์ ์ผ๊ณ , ๊ทธ์ ๋ฐ๋ผ alignment์ ์ฑ๋ฅ ๋ณํ ์คํ์ ์ ์ํ๋ฉด ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ ์ ๋ณด์ฌ์ค ๊ฒ ๊ฐ์. | 3.5 |
| 404 | ๊ฐ์ : 1๋ฑ์ ๋ชปํด๋ ๊ผด์ฐ๋ ํ์ง ๋ง์! ๋ฅผ ์ถ๊ตฌํ๋ ์ฐ๊ตฌ. ์์นด๋ฐ๋ฏนํ ํํธ์์๋ ์์ฝ์ง๋ง, ์ฌ์ค ์ค์ ์ํฉ์์๋ ์ด๋ฐ (์ ๋นํ ๋น์ฉ์ผ๋ก ์ ๋นํ ์์ค์ ์๋น์ค๋ฅผ ํ ์ ์๋) ๋ฐฉํฅ์ ์ข ๋ ์ ํธํ ์๋! ์ฝ์ : ์ฐ๊ตฌ์ ํ์์ฑ์ด ๊ฐํ๊ฒ ์๋ฟ์ง ์์. ์ ์: ๊ทธ๋๋ ํ๋ ์ ๋๋ ๋ช ํํ Objective๋ฅผ ๊ฐ์ง๋๋ก ํ์ตํด์ผ ํ์ง ์์๊น? ๋ค์ํ objective๋ฅผ ๋์์ alignํ ๋ trade-off๋ฅผ ๋ณด์ํ๋ ๋๋์ผ๋ก | 3.5 |
| AI | ๊ฐ์ : ์ค์ ์ธ๊ฐ ์ ํธ๊ฐ non-transitiveํจ์ ๋ฐ์ํ๊ณ ์ด๋ก ์ ์ ๋น์ฑ์ ์ ์งํ๋ฉด์ ํ์ฅํจ ์ฝ์ : ๋ ผ๋ฌธ์์ multiplayer์ ์ฃผ์ฅํ๊ณ ์๋๋ฐ ์ค์ ๋ก๋ ๊ณผ๊ฑฐ policy๋ค์ mixture ํํ๋ผ์ ๋จ์ผ ๋ชจ๋ธ trajectory์ผ ๊ฐ๋ฅ์ฑ์ด ๋์ง ์์๊น...? populaiton game์ด๋ผ๊ณ ๋ถ๋ฅด๋๊ฒ ๋ค์ ๊ณผ์ฅ์ผ์๋ ์ ์: Player ์ซ์๋ฅผ ๊ณ ์ ํ์ง ์๊ณ ์ ์ง์ ์ผ๋ก ์งํํ๋ policy๋ฅผ ๊ณ ๋ คํ multi-agent ์ฐ๊ตฌ ์ํ ๊ฐ๋ฅ | 3.7 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : ๋ณด์ ์ต๋ํ๊ฐ ์๋๋ผ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ๊ท ํ์ ๋ชฉํ๋ก ์ผ๋๋ค๋ ๊ด์ ์ ํ์ด ์ ์ ํ๊ฒ ๊ฐ์. ์ฝ์ : Time-dependent MNPO์์ ๊ณผ๊ฑฐ snapshot ์ ์ฑ ๋ค์ opponent๋ก ์ฐ๋ ๋ฐฉ์์ด ์ง์ง multiplayer์ธ์ง, ๊ฒฐ๊ตญ ์๊ธฐ ์์ ์ ๊ณผ๊ฑฐ์ ๊ฒฝ์ํ๋ ๊ฒ ์๋๊ฐ. ์ ์: ๊ณผ๊ฑฐ ์๊ธฐ snapshot๋ฟ ์๋๋ผ ์ค์ ๋ค๋ฅธ LLM์ opponent pool์ ํฌํจ์ํค๋ ์คํ์ ์ถ๊ฐํ๋ฉด ์ข์ง ์์๊น | 3.7 |
TL; DR
๐ก
alignment๊ฐ ๊ฐ์ ธ์ผ ํ ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ ๊ฐ์น ๋ฐ ์ ์ฑ ์ง๋จ ์์์ ๊ทธ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ์์ ์ ๊ท ํ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด๋ค!
Summary
- ๋ญ์ ์ฐ๋ ค๊ณ ์ด ์ฐ๊ตฌ๋ฅผ ํ์๊น?
- ๋ค์ํ ๊ฐ์น์ ๊ด์ ์ด ์กด์ฌํ์ง๋ง, RLHF๋ ์ ์ ๊ธฐ๋ฐ ์ต์ ํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋๋ฅผ ๋ง์กฑ์ํค๊ธฐ ์ด๋ ค์
- ์ด๋ค ๊ด์ ๊ณผ ๊ฐ์น๋ก ํ์ตํ๊ณ ์ต์ ํ๋๋๋์ ๋ฐ๋ผ ๋งค๋ฒ ๋ฌ๋ผ์ ธ์, ์ด๋ค ๊ฒฝ์ฐ์๋ ๋ ์ ์ข์์ง ์ ์์
- Nash ์ต์ ํ๋ ์ด๋ฅผ ๋ณด์ํจ. ์ด๋ค ์ฌํ์ด ์ค๋, ์๋ ๋ชจ๋ธ์ ๋ํด์ ์ต์ํ ์ง์ง๋ ๋ง์!
- ๊ทธ๋ฐ๋ฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ 2-player๋ง์ ๊ณ ๋ ค. ๊ทธ๋ฐ๋ฐ, ์๋ ๋ชจ๋ธ์ ๋ณดํต ์ฌ๋ฌ๊ฐ ์๋๊ฐ?
- ๊ทธ๋์, Multiplayer Nash PO๋ฅผ ์ ์
- ์ด๋ค ๊ฐ์น๊ฐ ์ค๋ , ์ด๋ค ์๋ ๋ชจ๋ธ์ด ์ค๋ , ํ๊ท ์ ์ผ๋ก ์ง์ง๋ ๋ง์!
- ์ด๋ค ์ํฉ์์๋ ์ต์ ์ ์ ํ์ด ๊ฐ๋ฅํ๋๋ก ๋ง๋ค๊ธฐ
- ์)ํธ๋์คํฌ๋จธ ์ค๋ช
ํด์ค
- RLHF (concise) (๋ณด์ ์ ์ ์ต์ ํ)
- ํธ๋์คํฌ๋จธ๋ ์ดํ ์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๋ค
- RLHF(detail)
- ํธ๋์คํฌ๋จธ๋ ์ธ์ฝ๋ ๋์ฝ๋ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ดํ ์ โฆ
- NLHF(concise vs detail) (์๋ ํ๋ช
๊ณผ ํ ๋ก ํด์ ์ง์ง ์๊ธฐ)
- ์๋ ๋ชจ๋ธ์ ํน์ฑ์ ๋ฐ๋ผ, oracle์ ๋ฐ๋ผ ํน์ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆด ์ ์์
- MNPO (ํ ๋ก ์๋๊ฐ ์ฌ๋ฌ๋ช
์ด์ด๋ ๋๊ตฌ์๊ฒ๋ ์ํจํ์ง ์๊ธฐ)
- concise+detail+โฆ ๊ฐ ๊ฒฝ์ํ๊ณ , ์ด๋ ํ๋๋ ๋์น์ง ์๋๋ก ๊ตฌ์ฑ
- RLHF (concise) (๋ณด์ ์ ์ ์ต์ ํ)
- ๋ค์ํ ๊ฐ์น์ ๊ด์ ์ด ์กด์ฌํ์ง๋ง, RLHF๋ ์ ์ ๊ธฐ๋ฐ ์ต์ ํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋๋ฅผ ๋ง์กฑ์ํค๊ธฐ ์ด๋ ค์
Background
- Bradley-Terry (BT)
- ํ๋์ ์ค์นผ๋ผ reward ํจ์๋ฅผ ํตํด ์ต์ ํ
- Transitive ๊ฐ์
- A๋ฅผ RLHFํด์ Aโ๋ฅผ ๋ง๋ค๋ฉด, A< Aโ
- Aโ๋ฅผ RLHFํด์ B๋ฅผ ๋ง๋ค๋ฉด Aโ< B
- ๊ทธ๋ฌ๋ฉด, A<B ๋ผ๊ณ ๋ด
- Nash ๊ท ํ
- ์๋๊ฐ ๋ฐ๊พธ์ง ์์ผ๋ฉด ๋๋ ๋ฐ๊ฟ ์ด์ ๊ฐ ์์
- ํญ์ ํ๋ ํ ์ต์ ์ ์๋(์ต์ ์ ์ ํ์ด ์๋)
- ํ์ต ๊ด์ ์์, ๋ฌด์จ๋ง์ธ๊ฐ?
- ๋ด๊ฐ ํ๋ฒ ๋ ํ์ตํ๋ฉด, ์๋๋ณด๋ค ๋ชปํด์ง ๊ฐ๋ฅ์ฑ์ด ์์. ๊ทธ๋์, ๋ ํ์ตํ๋ ๊ฒ ์๋ฏธ๊ฐ ์์.
- ๊ฐ๋งํ ์๋ ๊ฒ์ด ๋ ์ข์ ๊ฒฝ์ฐ
- ๋ด๊ฐ ํ๋ฒ ๋ ํ์ตํ๋ฉด, ์๋๋ณด๋ค ๋ชปํด์ง ๊ฐ๋ฅ์ฑ์ด ์์. ๊ทธ๋์, ๋ ํ์ตํ๋ ๊ฒ ์๋ฏธ๊ฐ ์์.
Motivation
- ๊ธฐ์กด ์ฐ๊ตฌ์์ BT ๊ธฐ๋ฐ์ RLHF(Reinforcement Learning from Human Feedback)๋ฅผ NLHF(Nash Learning from Human Feedback)๋ก ํ์ฅ
- RLHF์ ๋ฌธ์ ์
- ์ค์ ์ธ๊ฐ ์ ํธ๊ฐ transitive ํ์ง ์์
- ๋ค์ํ ์ฑ์ง์ด ์ํฅ์ ๋ฏธ์น๋ฉฐ(์์ ์ฑ, ํจ์ฉ์ฑ, ๊ฐ๊ฒฐ์ฑ ๋ฑ) annotator๋ง๋ค ๊ธฐ์ค์ด ๋ค๋ฆ
- ์ด๋ฅผ ํด๊ฒฐํ๋ 2-player nash game์ผ๋ก์ ์ต์ ํ ์ ์
- ์๋๊ฐ ๋๊ฐ ์ค๋ , ๊ด์ฐฎ๋๋ก ๋ง๋ค๊ธฐ
- ์ด๋ป๊ฒ?
- ์ฌํ์ ๋๊ณ , ๊ทธ ์ฌํ์ด ๋ ์ข์ ๊ฒ์ ๋ฝ๊ฒ ๋ง๋ค์์ ๋, ์๋๋ฐฉ์ผ๋ก๋ถํฐ ์ต์ํ ์ง์ง ์๊ฒ ๋ง๋ค๊ธฐ
- ์ฆ, RLHF์ ๋ณด์ ์ ์๋ฅผ โ ๋น๊ต ๊ธฐ๋ฐ ์ฐ์๋ก ๋ณ๊ฒฝ
- RLHF์ ๋ฌธ์ ์
- ํ์ง๋ง, ์ ๋ ฌ์ n-player game์ด์ด์ผ ํจ
- ์๋ ์ ์ฑ ์ด ๊ผญ ํ๋์ธ๊ฐ?(X)
- ๋ชฉํ๊ฐ ๋จ์ผ์ธ๊ฐ?(X)
- ์ด๋ป๊ฒ ์ฒ๋ฆฌ?
- ์ฌ๋ฌ ์ ์ฑ ์ ํ๊ท ์ ํ์ฉํ์ฌ, ํ๊ท ์ ์ธ ์๋๋ณด๋ค ๋ ์์ฃผ ์ด๊ธฐ๋๋ก
Idea
- Alignment(์ ๋ ฌ)์ min-max๊ฐ ์๋๋ผ, ์ ์ฒด ๊ด์ ์ ํํ์ ๋ด์ผ ํจ
- ์ฌ๋ฌ ๊ธฐ์ค์ ๊ฐ์ง๋ ์ ์ฑ ์ง๋จ๊ณผ ๊ฒฝ์ํด์ผ์ง, ๋จ์ผ ์ ์ฑ ๊ณผ ๊ฒฝ์ํด๋ด์ผ ์๋ฏธ ์๋ค!
- ํ๊ท ๋ณด๋ค ๋ ์ข์๊ฐ? โ ์ต์ํ ์ค๊ฐ ์ด์์ ๊ฐ๋ค!
- DPO, SimPO ๋ฅผ ํฌ๊ดํ๋ ๊ฐ๋
์!
- ์ด๋ค ์๋๊ฐ ์๊ณ , ๊ทธ ์๋๋ณด๋ค ๋ ์ฐ์ํด์ง๋๋ก ๋น๊ต ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ฉด ์ด ๋ฐฉ๋ฒ์(์ ์๋ค ์ฃผ์ฅ์ด๊ธด ํจ)
Method (์์ ๋ค ๋บ)
- Multiplayer Nash Preference Optimization(MNPO) ์ ์
- preference oracle(์ฌํ)์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ (Homogeneous)
- ์ด๋ก ์ ์ผ๋ก ์๋ฒฝํ์ง๋ง, ์ค์ธ๊ณ์๋ ๋ฉ์ด์ง
- ๊ฐ๊ฐ ๋ค๋ฅธ preference orcale์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ(Heterogeneous)
- ์ด๋ก ์ ์ผ๋ก ์กฐ๊ธ ์ด์ํด์ง์ง๋ง, ์ค์ธ๊ณ์ ๊ฐ๊น์
- ์์ ์ฑ, ํจ์ฉ์ฑ ๋ฑ ๊ด์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์
- ์ด๋ก ์ ์ผ๋ก ์กฐ๊ธ ์ด์ํด์ง์ง๋ง, ์ค์ธ๊ณ์ ๊ฐ๊น์
- preference oracle(์ฌํ)์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ (Homogeneous)
Homogeneous MNPO
- Oracle์ด ํ๋, ๋ชจ๋ ๋ชจ๋ธ์ด ๊ณต์
- Oracle์ด ์ข์์ผ ํจ
- ์ด๋ก ์ ์ผ๋ก ์ข๋ค!
- ๋ด์ฌ ๊ท ํ์ด ๋ณด์ฅ๋ ์ ์์
Heterogeneous MNPO
- Oracle์ด ์ฌ๋ฌ๊ฐ(๊ฐ ๋ชจ๋ธ์ด preference๊ฐ ์ฌ๋ฌ๊ฐ์)
- ๋ด์ฌ ์ด๋ก ๋ณด์ฅ์ด ์ฝํด์ง์ง๋ง, ํ์ค์ ๊ฐ๊น์
- ๋ณธ ์ฐ๊ตฌ์์๋ ์ ์๋ง ํ๊ณ , ๋ช ํํ๊ฒ ๋ค๋ฃจ์ง๋ ์์
Time-dependent MNPO
- ์ด์ ํ์ต ์ ์ฑ ์ ๊ฒฝ์ ์๋๋ก ํ์ฉ
- ์ฌ๋ฌ ์ ์ฑ ์ ๋์์ ์ฐ๊ธฐ, GPU ๋ฉ๋ชจ๋ฆฌ๋ ํ๊ณ๊ฐ ์์ผ๋, ํจ์จ์ฑ ์ธก๋ฉด์์ snapshot ๊ธฐ๋ฐ ํ์ฉ
Experiments
- ์ ๋ ฌ์ ๋ณด์์ ๋ง์ด ๋ฐ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ์๋๋ณด๋ค ๋ชปํ์ง ์๋ ๊ฒ! โ ์์ ์ฑ, MNPO์ motivation
Analysis








