MAP: Multi-Human-Value Alignment Palette
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋งน๊ตฌ | ์์ด๋์ด๋ ๋ช ํํ ๊ฒ ๊ฐ์. ์ด๋ฐ ์ธก๋ฉด์์ ์คํ๋ ค ์ฌ๋๋ณด๋ค ๋ซ๋ค ์ถ๊ธฐ๋ ํ๊ฒ, ์ฌ๋์ ๋ง์ ํ์ตํ๋ค๋ณด๋ฉด ์ด๊ธฐ ๋ชฉํ๋ฅผ ์์ด๋ฒ๋ฆฌ๊ณ ์ผ์ฒํฌ๋ก ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์. ์คํ ๊ณผ์ ์์ ์ค์ ๋ก ๊ทธ๋ฐ ํ์์ด ์๋์ง๋ ๊ถ๊ธํด์ง. | 4.2 |
| ๊ณ๋์ด๋ฐฅ | ์ ํ objective ์์์ hyperparameter์ฐพ๊ธฐ๋ ์ฌ๋ฌ objective ์ค trade-off๋ ๋น์ฐํ๊ฑฐ๋ผ๊ณ ์๊ฐํด์๋๋ฐ, ์ด๋ก ์ ์ด์ํฅ์ ์ฐพ๋๋ค๋ ์์ด๋์ด๊ฐ ์ ๋ฐํ๋ค. ๋จธ๋ฆฌ๋ฅผ ๋ต ๋ง์ ๊ธฐ๋ถ! ์ํ๋ ๋ฐฉํฅ, ์ํ๋ ๊ฐ๋๋ก ๋ชจ๋ธ์ optimizeํ ์ ์๋ค๋ฉด ๋ชจ๋ธ์ด ๋ ์ปค์ง ํ์๊ฐ ์๊ฒ ๋ค | 4.3 |
| ๊ตญ๋ฐฅ | ๋ค์ค ๊ฐ์น๋ฅผ dual convex ์ต์ ํ๋ก ํด์ํด์ ์ค์ ๊ฐ์น์ ๋ชฉํ ์์ค์ ์๋์ผ๋ก ๋ง์กฑ๊ฐ๋ฅํ์ง ํ๋จํ๊ฒ ํ๋ ๋ฐ์์ด ๋๋๋ค. ์ํ์ฐฉ์ค๋ฅผ ํ์คํ ์ค์ผ ์ ์๊ฒ ๋ค. ๊ณ ์ ๋ ๋ชฉํ๊ฐ ์๋๋ผ, ๋์ ์ผ๋ก ๋ณํ๋ ์ํฉ์ ๋ฐ๋ฅธ ์ง๋ฌธ์ด ๋ค์ด์ฌ๋ ์์์ ๊ฐ์น ๋ชฉํ๋ฅผ ์กฐ์ ํด์ฃผ๋ ํ์ ์ฐ๊ตฌ๊ฐ ๊ธฐ๋๋๋ค | 4.5 |
| ํผ์ | ์ด ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ด Training์ ํ ๋, ํ๋์ ๋ฅ๋ ฅ์ ์ค์ฌ์ผ๋ก ํ์ต์ ํ๋ฉด ๋ค๋ฅธ ๋ฅ๋ ฅ์ด ์คํ๋ ค ๋จ์ด์ง๋ ํ์์ ์ด๋ป๊ฒ ํด๊ฒฐํ๋์ง, ๋ชฉํ ์ค์ฌ์ผ๋ก ๋ฐ๋๋ก ์ ๊ทผํจ์ผ๋ก์จ ํด๊ฒฐํ๋ ค ํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ์๋ ๊ฒ ๊ฐ์. ์ฌ๋ฌ Round์ ๊ฑธ์ณ Alignํ๋ฉด์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊น์ง ๋๋ ค ๋๊ฐ๋ค๋ฉด ํ์ ์ฐ๊ตฌ์์๋ ๊ฑฐ์ ์๋ฒฝ์ ๊ฐ๊น์ด ๋ชจ๋ธ์ ๋ง๋ค ์ ์์ ๋ฏ ํ๋ค. | 4.4 |
| ์นํจ | ๊ด์ ์ ๋ฐ๊พผ๋ค๋๊ฒ ์ฐธ ์ด๋ ค์ด๋ฐ ํ๋ ํ ํ๋ก ํฐ์ด๋ฅผ ๋ค์ค ์ธ๊ฐ ๊ฐ์น ์ ๋ ฌ ๋ฌธ์ ์ ์ ๋ชฉ์์ผ ์ํ๋ ์ ๋์ value๋ค์ ์ ๋ ฅ์ ๋ฐ์์ ์ถ๋ ฅ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์๋ ค์ค๋ค๋ ์ ์ด ์ํฉํธ๊ฐ ํฌ๋ค. | 4 |
| ํ๋ฒ๊ฑฐ | ์ฒ์์๋ ๋ด๊ฐ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ underestimateํด์ ๋ ์ข์ ์ํ(๋ ๋์ ๊ฐ์น ์กฐํฉ)๋ฅผ ๋์น ์๋ ์์ง ์์๊น ์๊ฐํ๋๋ฐ ๋ชฉํ๋ฅผ ๋ช ํํ ์ค์ ํ๊ณ ๊ทธ์ ๋ํ ๋์์ ์ป๊ณ ์ ํ ๋๋ ์คํ๋ ค ์ ํฉํ ์ ๊ทผ์ธ๋ฏ | 4.3 |
| ํ๋ธ๋ฆฌ์ฆ | ์ด์ ์ ๊ฐ์ค์น ์กฐ์ ํจ์ผ๋ก์จ ๋ชฉํ ๋์ฑํ๋ ค๊ณ ํ๋ค๋ฉด, ๋ชฉํ์ ๋จผ์ ์ ๊ทผํด์ ์คํ ๊ฐ๋ฅํ์ง ๋ฐ์ง๋ ๊ฒ๋ถํฐ ํ๋๊น, ์ข๋ ์ง์ ์ ์ธ ์ ๊ทผ๋ฐฉ์ ๊ฐ๋ค. ๊ทธ๋์ ์ง๊ดธ์ ์ผ๋ก ๋ฉ๋๊ฐ๋ ์์ด๋์ด์ธ๋ฏ, ์ ์ด๋ฐ ์๊ฐ์ ํ๋ฒ๋ ๋ชปํด๋ดค์ง?! | 4.5 |
TL; DR
๋ค์ค ๊ฐ์น ์ ๋ ฌ์ ๊ธฐ์กด์ ๊ฐ์ค์น ํ๋ ๋ฐฉ์์ด ์๋๋ผ ์ํ๋ ์์ค์ ๋ชฉํ(palette)๋ฅผ ๋จผ์ ์ง์ ํ๊ณ , ๊ทธ ๋ชฉํ๋ฅผ ๋ง์กฑํ๋ ฮป๋ฅผ ์๋์ผ๋ก ์ฐพ์ Pareto ๊ฐ์ ์ ๋ณด์ฅํ๋ ์ ๋ ฌ๋ก ๋ฐ๊ฟ๋ณด์!
Summary
- cited: 14
Preliminary
Pareto Frontier (ํ๋ ํ ํ๋ก ํฐ์ด)
- ์ฌ๋ฌ ๋ชฉํ(objectives) ๊ฐ์ ์์ถฉ ๊ด๊ณ(trade-off)๊ฐ ์กด์ฌํ ๋, ์ด๋ ํ ๋ชฉํ๋ฅผ ๋ ๊ฐ์ ํ๋ฉด ๋ค๋ฅธ ๋ชฉํ ์ค ์ ์ด๋ ํ๋๋ ๋ฐ๋์ ์ ํ๋๋ ๊ฒฝ๊ณ์ ์ ์งํฉ
- Pareto Optimization
- ๋ค์ค ๋ชฉํ ์ต์ ํ ๋ฌธ์ ์์ ๋ชจ๋ ๋ชฉํ๋ฅผ ๋์์ ๋ ์ด์ ๊ฐ์ ํ ์ ์๋ ์ต์ ์ํ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ
- ์ฝ๊ฒ ๋งํด์โฆ ์ค์ ํ ๋ชจ๋ ๋ชฉํ๋ค์ ๋ค ์ด๋ค๋ณด์..!
- e.g., ๋ชฉํ:
๊ณต๋ถ,์ด๋- ์ด๋์ ๋๋ฌด ์ด์ฌํ ํ๋ฉด ์กธ๋ ค์ ๊ณต๋ถ์ ์ง์ฅ ๊ฐ (trade-off ๋ฐ์!)
- โ ์ด๋์ ๋ฑ 30๋ถ๋ง ํ๊ณ ๊ณต๋ถํ๋ฉด ๋จธ๋ฆฌ๋ ์ข์์ง๊ณ ๋ชธ๋ ์ข์์ง (๋ ๋ชฉํ ๋ชจ๋ ๋ฌ์ฑ!)
- e.g., ๋ชฉํ:
โ ๋ ผ๋ฌธ์ view point: ์ฌ๋ฌ ์ธ๊ฐ ๊ฐ์น๋ฅผ ๋์์ Pareto Optimize ํ ์ ์์๊ฐ?
๋ถ์์(quantile) โ (์คํ์์ ๋ฑ์ฅํ ์์ ..)
- ์ด๋ค ์ ์๊ฐ ์ ์ฒด ๋ถํฌ์์ ์ด๋ ์์น์ ์๋์ง๋ฅผ ๋ํ๋
- e.g.,
- 50% quantile = ์ค์๊ฐ
- ์ ์ฒด ๊ฒฐ๊ณผ ์ค ์ ๋ฐ์ ์ด๋ณด๋ค ๋ฎ๊ณ , ์ ๋ฐ์ ์ด๋ณด๋ค ๋์
- 80% quantile = ์์ 20%
- 90% quantile = ์์ 10%
- 50% quantile = ์ค์๊ฐ
Introduction
Background
- Human Value Alignment์ ๊ธฐ์กด ์ ๊ทผ
- LLM์ human value alignment๋ ์ฃผ๋ก reward function, preference data๋ฅผ ํตํด ํน์ ๊ฐ์น(e.g., helpfulness, harmlessnessโฆ) ๋ฅผ ๊ฐํํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์
- ๋ค์ค ์ธ๊ฐ ๊ฐ์น ์ ๋ ฌ์ ์ํด Multi-Objective Reinforcement Learning (MORL) ์ด ์ฌ์ฉ๋์ด ์ด
- ๊ธฐ์กด ๋ค์ค ๊ฐ์น ์ ๋ ฌ ๋ฐฉ์์ ํ๊ณ
- ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ ์ฌ๋ฌ ๋ณด์ ํจ์๋ฅผ ์ ํ ๊ฒฐํฉํ์ฌ trade-off๋ฅผ ๊ทผ์ฌํจ
๏ปฟ
- e.g., Rewarded Soup: ์๋ก ๋ค๋ฅธ ๊ฐ์น์ ๋ํด ํ์ตํ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฌํ์ ์ผ๋ก ์๋ ๋ฐฉ์
- ๋ฌธ์ ์
- ฮป (๊ฐ์ค์น)๋ ์ด๋ป๊ฒ ์ ํ ๊ฒ์ธ๊ฐ?
- ์ ํ ฮป๊ฐ Pareto optimalํ์ง ์ด๋ป๊ฒ ์ ์ ์๋๊ฐ?
Motivation
- ์ฌ๋ฌ ์ธ๊ฐ ๊ฐ์น๋ฅผ ๋์์ ์ ๋ ฌํ๊ธฐ ์ํด์ ์ฌ๋ฌ๊ฐ์ง Challenges ์กด์ฌํจ
RQ1 ์ฌ๋ฌ ์ธ๊ฐ ๊ฐ์น๋ฅผ ์์ ์์ด ๋์์ ํฅ์์ํฌ ์ ์์๊น? ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ ์ ๋ํํ ์ ์์๊น?
RQ2์ํ์ฐฉ์ค ์์ด ํ ๋ฒ์ ์ค์ ๋ง์ผ๋ก ๋ชจ๋ ์ธ๊ฐ ๊ฐ์น๋ฅผ Pareto ๊ฐ์ ํ๋๋ก ์ ๋ ฌํ ์ ์๋๊ฐ?- ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ถํ์ค์ฑ: RLHF์์ ์๋ ๋ชจ๋ธ ๏ปฟ๊ฐ ์ ๋ ฌ๋ ๋ชจ๋ธ ๏ปฟ๊ฐ ๋๊ธฐ ์ํด ํ์ํ reward ํจ์ ๏ปฟ์ ํ์ดํผ๋ง๋ผ๋ฏธํฐ ๏ปฟ๋ฅผ ํ๋ฒ์ ๊ตฌํ ์ ์์๊น?
Contribution
- MAP ํ๋ ์์ํฌ ์ ์
- ์ฌ๋ฌ ์ธ๊ฐ ๊ฐ์น๋ฅผ ๋์์ ์ ๋ ฌํ๋ฉด์ ์ฌ์ฉ์๊ฐ ์ํ๋ ๊ฐ ๊ฐ์น์ ๋ชฉํ ์์ค(target level)์ ์ง์ ์ง์ ํ ์ ์๋ ํ๋ ์์ํฌ
- ๋ค์ค ๊ฐ์น ์ ๋ ฌ์ ๋ณด์ ๊ฐ์ค์น ํ๋ ๋ฌธ์ ๊ฐ ์๋๋ผ ๋ชฉํ ์์ค์ ๋ง์กฑ์ํค๋ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ์ฌ์ ์
Method: MAP
๊ธฐ์กด ์ ๊ทผ (RLHF / DPO / MORL)
- ์ฌ๋ฌ ๊ฐ์น๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํด ๋ณดํต ์๋์ ๊ฐ์ ๋ฐฉ์์ ํํจ
Reward = ฮปโยทHelpfulness + ฮปโยทHarmlessness + ฮปโยทHumor + โฆ
- ๋ฌธ์ :
- ๊ฐ์ค์น ฮป ์ ํ ๊ธฐ์ค์ด ๋ถ๋ช ํํจ (์ด๋ป๊ฒ ์ ํด์ผ ํ๋์ง ๊ฐ์ด ์ ์ด)
- ฮป ๋ฅผ ์กฐ๊ธ๋ง ๋ฐ๊ฟ๋ ๊ฒฐ๊ณผ๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง
- ๋๋ถ๋ถ์ ฮป๋ ํ๋์ ๊ฐ์น๋ง ์ฌ๋ฆฌ๊ณ ๋ค๋ฅธ ๊ฐ์น๋ฅผ ๋ง์นจ(trade-off)
- ์ข์ ฮป๋ ๊ทนํ ์ผ๋ถ
- ์ ๋ ฌํด์ผ ํ ๊ฐ์น๊ฐ ๋์ด๋ ์๋ก ํ์ ๋์ด๋ very very hard
โ ๊ด์ ์ ๋ฐ๊ฟ๋ณด์!
๊ธฐ์กด์ด ์ ๋ ๊ฐ์ค์น๋ฉด ๊ฒฐ๊ณผ๊ฐ ๊ด์ฐฎ์๊น?
MAP์ด ์ ๋ ์์ค์ ๋ฐ๋์ ๋ง์กฑํด์ผ๋๋ค!!โ ฮป ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฐ์ง ์๊ณ ๋ชฉํ ์์ค ์์ฒด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
- ์ต๋ํ๊ฐ ์๋ ์ด ์์ค ์ด์์ ๋ณด์ฅํด๋ฌ๋ผ๋ ์ ์ฝ
- โ MULTI-HUMAN-VALUE ALIGNMENT PALETTE (MAP) ์ ๋ฑ์ฅ
MAP์ 3๋จ๊ณ ํ๋ก์ธ์ค
์ ๋ ฅ/์ถ๋ ฅ
- ์
๋ ฅ
- ๏ปฟ: ๊ฐ์น(Values) ๋ณ score functions
- e.g., ๏ปฟ
- ์์ฑ๋ ๋ฌธ์ฅ ๏ปฟ์ ๋ํด, ๊ฐ ๊ฐ์น(help, harmless, humorโฆ) score๋ฅผ ๋ฐํํ๋ ํจ์
- ๏ปฟ: ์ ๋ ฌ ์ ๊ธฐ๋ณธ ๋ชจ๋ธ
- ๏ปฟ๏ปฟ: ๋ฐ์ดํฐ ๋ถํฌ ๏ปฟ์ ํ๋กฌํํธ ๏ปฟ
- ์ถ๋ ฅ
- multiple value์ ์ ๋ ฌ์ด ๋ฐ์๋ ์ต์ข ์์ฑ ๋ต๋ณ ๏ปฟ
Step 1: Value Palette (๋ชฉํ ์์ค ์ค์ )
ํต์ฌ๊ด์ ์ ๋ฐ๊พธ์!!
- ๊ธฐ์กด ๋ฐฉ์์ ๊ฐ์ค์น(๏ปฟ)๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ๋ชฉํ์น์ ๋๋ฌํ๋ ๋ฐฉ์์ด์๋ค๋ฉด,
MAP์ ๋ฐ๋๋ก ๋ชฉํ๋ถํฐ ์ค์
- Value Palette: ๊ฐ ๊ฐ์น์ ๋ํด ์ฌ์ฉ์๊ฐ ์ํ๋ ๋ชฉํ ์์ค์ ๋ชจ์๋ ๋ฒกํฐ
- ์ฌ์ฉ์๊ฐ ๊ฐ ๊ฐ์น์ ๋ชฉํ ์์ค ์ง์ ์ง์
- ์: Harmlessness 70%, Humor 60%, Helpfulness 80%
palette = { "Helpfulness": 80%, # ์์ 20% ์์ค "Harmlessness": 70%, # ์์ 30% ์์ค "Humor": 60% # ์์ 40% ์์ค }
Step 2: Feasibility Check (์คํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ)
ํต์ฌStep 1์์ ์ ํ ๋ชฉํ ์ฆ, Value Palette๊ฐ ํ์ค์ ์ผ๋ก ๊ฐ๋ฅํ์ง ๊ฒ์ฆ
- ๊ธฐ์กด ๋ฐฉ์์ ์คํํด๋ณด๊ธฐ ์ ๊น์ง ์คํจํ ์ง ์ ์ ์์, but, MAP์ ์ฌ์ ์ ์คํจ๋ฅผ ์ฐจ๋จ
- ๋ชฉํ๋ค์ ๋์์ ๋ง์กฑ ๊ฐ๋ฅํ์ง๋ฅผ ๋จผ์ ๊ฒ์ฆ
- Value Palette๊ฐ ์ด๋ก ์ ์ผ๋ก ๊ฐ๋ฅํ์ง ํ๋จ
- ๋ถ๊ฐ๋ฅ โ ๋ชฉํ๊ฐ ํ์ฌ ๋ชจ๋ธ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ค๊ณ ์๋ฆฌ๊ณ ๋์ Palette ์ ์ (์์ ์ฐธ๊ณ )
- ๊ฐ๋ฅ โ ๋ชฉํํ ๊ฐ์ค์น ๋ฒกํฐ ๏ปฟ์ ์ต์ข ๋จ์ผ ๋ณด์ ํจ์ ๏ปฟ๋ฅผ ์๋์ผ๋ก ๊ณ์ฐ!
# Feasibilty Check result = MAP.check([80, 70, 60]) # Case 1: ๊ฐ๋ฅ โ "๊ฐ๋ฅ, ฮป์ R(x,y)=ฮป^T r ๋ฐํ" # Case 2: ๋ถ๊ฐ๋ฅ โ "๋ถ๊ฐ๋ฅ. [70, 60, 65]๋ ์ด๋ค๊ฐ์?"
Step 3: Align model
- step2์์ ๋ง๋ ์ต์ข ๋ณด์ R์ ๊ฐ์ง๊ณ ์ ๋ ฌ์ ์ค์ ๋ก ์ํํ๋ ๋จ๊ณ (๋๊ฐ์ง ๋ฐฉ์์ด ์กด์ฌํจ)
- MAP-D (Decoding)
- ์์ฑํ ๋๋ง ์กฐ์
- ๋ฐฉ์
- ํ๋กฌํํธ ๏ปฟ์ ๋ํด ํ๋ณด ๋ต๋ณ์ ๏ปฟ ์ ์์ฑ
- ๏ปฟ๊ฐ ํฐ ํ๋ณด๊ฐ ๋ ๋ฝํ๋๋ก softmax ํ๋ฅ ๋ก ์ํ๋ง
- ์ฅ์ : ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ๊พธ๋ ๋น ๋ฅด๊ณ ๊ฐ๋จํจ
- ๋จ์ : ๊ทผ๋ณธ์ ์ผ๋ก ๋ชจ๋ธ ์์ฒด๊ฐ ๋ฐ๋์ง๋ ์๊ธฐ ๋๋ฌธ์ ์ ๋ ฌ ํจ๊ณผ์ ํ๊ณ๊ฐ ์์ ์ ์์
- MAP-F (Finetuning)
- ๋ชจ๋ธ ์์ฒด๋ฅผ ํ๋ ํธ์ ๋๋ฌํ๊ฒ๋ ํ์ต
- ๋ฐฉ์
- PPO๋ก ๏ปฟ์ ๋ณด์์ผ๋ก ์ผ์ ๏ปฟ ๋ก fine tuning ์ํด
- ์ดํ์๋ ๏ปฟ๋ฅผ ๋ต๋ณ ์์ฑ
- ์ฅ์ : ๋ ๋์ ์ ๋ ฌ ํจ๊ณผ
- ๋จ์ : ๋น์ผ ํ์ต ๋น์ฉ, ํ๋ ํธ๊ฐ ๋ฐ๋ ๋๋ง๋ค ์ฌํ์ต ํ์
Experiment
Experiment Setup
- Datasets
- Anthropic Harmless Data: "Human:", "Assistant:" ํ๊ทธ ์ฌ์ด์ ๋ํ
- IMDB (30์ ์ด์ ์ํ ๋ฆฌ๋ทฐ)
- Models
- OPT-1.3B
- Llama2-7B-chat
- Aligned Values
- Humor
- Positiveness
- Harmlessness
- Helpfulness
- Diversity
- Coherence
- Perplexity
- Evaluation Models
Humor: humor detection logits
Positiveness: DistilBERT (IMDB)
Harmlessness,Helpfulness: value head๋ฅผ ํ์ธํ๋ํ GPT-2
Diversity: unique n-gram ๋น์จ(n=2,3,4)
Coherence: SimCSE BERT ๋ฌธ์ฅ ์๋ฒ ๋ฉ
Multi-value Alignment ํจ๊ณผ
- ๋ชฉ์ : MAP๊ฐ ์ฌ๋ฌ ๊ฐ์น๋ฅผ ๋์์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ ฌํ ์ ์๋์ง ๊ฒ์ฆ
- ์คํ ์ธํ
- model: OPT-1.3B
- data: Anthropic conversational data
- aligned values: Humor, Harmlessness, Helpfulness, Diversity, Coherence, Perplexity
HHH-{์ซ์}%
Helpfulness, Harmlessness, Humor, ์ด ์ธ ๊ฐ์ง ๊ฐ์น๊ฐ ๊ฐ๊ฐ ์๋ ๋ชจ๋ธ ๊ธฐ์ค์ผ๋ก ์ค๊ฐ๊ฐ(์์ {์ซ์}%) ์ด์์ด ๋๋๋ก ์ ๋ ฌ
- Value Palettes ์ค์
- Multi-value palettes (3๊ฐ ๊ฐ์น ๋์ ๊ฐ์ ํด๋ณด์!)
- HHH-50%: ์ฒซ 3๊ฐ ๊ฐ์น๋ฅผ 50% quantile๋ก
- HHH-60%: ์ฒซ 3๊ฐ ๊ฐ์น๋ฅผ 60% quantile๋ก
- HHH-70%: ์ฒซ 3๊ฐ ๊ฐ์น๋ฅผ 70% quantile๋ก
- HHH-80%: ์ฒซ 3๊ฐ ๊ฐ์น๋ฅผ 80% quantile๋ก (step2์์ ๋ถ๊ฐ๋ฅ์ผ๋ก ํ์ )
- Single-value palettes (1๊ฐ ๊ฐ์น๋ง ์ ๋ ฌ)
- Humor-80%
- Helpfulness-80%
- Harmlessness-80%
- Multi-value palettes (3๊ฐ ๊ฐ์น ๋์ ๊ฐ์ ํด๋ณด์!)
- ๊ตฌํ ๋ฐฉ๋ฒ
- MAP-D (Decoding): Best-of-N sampling
- MAP-F (Finetuning): PPO ์ฌ์ฉ
- ์คํ ๊ฒฐ๊ณผ
- Multi-value Alignment์ ๊ฐ์
- ๊ท ํ์กํ ๊ฐ์ : 3๊ฐ ๊ฐ์น ๋ชจ๋ ๋์ ๊ฐ์ (HHH-50%, 60%, 70%)
- Trade-off ์ต์ํ: ๋๋จธ์ง 3๊ฐ ๊ฐ์น(Diversity, Coherence, Perplexity) ์ ์ง
- Quantile ๋์ผ์๋ก ๊ฐ์ ํญ ์ฆ๊ฐ
- Single-value Alignment์ ๋ฌธ์ ์
- ์ฌ๊ฐํ Trade-off: ํ ๊ฐ์น ๊ฐ์ ์ ๋ค๋ฅธ ๊ฐ์น ํฌ๊ฒ ์ ํ
- Humor-80%: Helpfulness -2.49๋ก ์ ํ
- Helpfulness-80%: Harmlessness -0.58๋ก ์ ํ
- Harmlessness-80%: Helpfulness -2.02๋ก ์ ํ
- ์์ธก ๋ถ๊ฐ๋ฅ: ์ด๋ค ๊ฐ์น๊ฐ ์ ํ๋ ์ง ์ฌ์ ์ ์ ์ ์์
- ์ฌ๊ฐํ Trade-off: ํ ๊ฐ์น ๊ฐ์ ์ ๋ค๋ฅธ ๊ฐ์น ํฌ๊ฒ ์ ํ
- Multi-value Alignment์ ๊ฐ์
Larger model Ablation Study
- ๋ชฉ์ : ๋ชจ๋ธ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก MAP์ด ๋ฌ์ฑํ ์ ์๋ ์ ๋ ฌ ๊ฐ๋ฅ ๋ฒ์(feasible palette) ๊ฐ ํ์ฅ๋๋์ง ๊ฒ์ฆ
- ์คํ ์ธํ
- model: Llama2-7B-chat (OPT-1.3B๋ณด๋ค 5๋ฐฐ ์ด์ ํผ)
- data: Anthropic prompt data
- ์ ์ฝ: GPU ๋ฉ๋ชจ๋ฆฌ ํ๊ณ๋ก MAP-D (Decoding)๋ง ๊ฐ๋ฅ, MAP-F ๋ถ๊ฐ
Simultaneous vs Sequential Alignment
- ๋ชฉ์ : ๋ค์ค ๊ฐ์น๋ฅผ ํ ๋ฒ์ ์ ๋ ฌ(MAP) ํ๋ ๊ฒ๊ณผ ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ๋ฐ๋ณต ์ ๋ ฌ(Sequential) ํ๋ ๊ฒ์ ์ฑ๋ฅ ์ฐจ์ด์ ๋ํ ์คํ
- ์คํ ์ธํ
- model: OPT-1.3B
- data: Anthropic conversational data
- baselines
- MAP (Simultaneous): 6๊ฐ ๊ฐ์น ํ ๋ฒ์ ์ ๋ ฌ
- Sequential Round 1: ๊ฐ ๊ฐ์น๋ฅผ ์์๋๋ก 1๋ฒ์ฉ ์ ๋ ฌ (6๋ฒ ์ ๋ ฌ)
- Sequential Round 5: ๊ฐ ๊ฐ์น๋ฅผ ์์๋๋ก 5๋ฒ์ฉ ์ ๋ ฌ (30๋ฒ ์ ๋ ฌ)
- ์ ๋ ฌ ์์
Round 1: Humor โ Harmlessness โ Helpfulness โ Diversity โ Coherence โ Perplexity
Round 2: Humor โ Harmlessness โ Helpfulness โ Diversity โ Coherence โ Perplexity
...
Round 5: Humor โ Harmlessness โ Helpfulness โ Diversity โ Coherence โ Perplexity







