SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ์ปคํผ | ๊ฐ์ : safe/unsafe preference dataset์ ๊ธฐ๋ฐ์ผ๋ก, dataset์ ์ฌ๊ตฌ์ถํ์ฌ ๋ณต์กํ๊ฒ ๋ชจ๋ธ์ safe alignment๋ฅผ ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ณด์ํจ. ์ฝ์ : response์ ๋ํ binary indicator dataset์๋ง ์ฌ์ฉ๊ฐ๋ฅ. ์ ์ : ์ด๋ ๋ฐฉ์์ผ๋ก๋ label indicator๊ฐ ์ ๋ผ์๋ค๋ฉด safe/unsafe ์ธ์ ๋ค๋ฅธ ์ธก๋ฉด์๋ ์์ฉ๊ฐ๋ฅํ ๊ฒ ๊ฐ์. | 4.0 |
| ์ฝ์คํผ | ๊ฐ์ : Safe/Unsafe์์ Unsafe์ ํ๋ฅ ์ด 0์ด ๋๋๋ก Margin๋ ์ฃผ๊ณ ๋ ๊ฐํ๊ฒ ๋ฐ์ด์ฃผ์ด ๊ธฐ์กด DPO ๋ฐฉ์์ ํ๊ณ์ ์ ๋ณด์ํจ. ์ฝ์ : ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์ปค์ง ๊ฒฝ์ฐ, binary๊ฐ ์๋ ๊ฒฝ์ฐ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง์ง ์์๊น? ์ ์: Safe/Unsafe ํ์ต ์ด์ธ์๋ DPO๋ฅผ ํ์ฉํ์ฌ ํน์ ๋ฐฉํฅ์ผ๋ก ๊ฐํ๊ฒ ์๋ต์ ์์ฑํ ์ ์๋๋ก ํ๋ ์ฐ๊ตฌ์ ์ฌ์ฉํ ์ ์์. | 3.9 |
| ์ผ๋ผ | ๊ฐ์ : Reward model๊ณผ ๊ฐ์ ์ถ๊ฐ๋ชจ๋ธ์ด์์ด DPO์ ์ ์ ์ ์ด์ด๋ฐ๋, ๋จ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ ์ถ๊ฐํ๊ฒ๋ง์ผ๋ก safety๋ฅผ ์ถ๊ฐํ๋ค๋ ์ ์ด ๊ฐ์ , SafeRLHF๋ Citation์ด ๋ง์ด๋์๋๋ฐ ์ด ๋
ผ๋ฌธ๋ ๊ทธ๋ ๊ฒ ๋์ง ์์๊น ์ถ์ ์ฝ์ : ํ์คํ ํ๋์ ๋ฐ์ดํฐ์ ๋ํด์๋ง ์ฌ์ฉํ๊ฒ์ ์ฝ์ ์ธ ๊ฒ ๊ฐ์. ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋ํ ์คํ์ด ๊ถ๊ธ ์ ์: ํน์ preference๋ฅผ ๊ฐ์กฐํ๊ณ ์ถ์ ๋ ํด๋น ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก ์ ํตํด preference๋ฅผ ๊ฐ์กฐํ ์ ์๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ด๋ผ๊ณ ์๊ฐํจ | 4.2 |
| ๋น์๋จ | ๊ฐ์ : ๊ธฐ์กด์ ๋น์ฐํ ๊ฐ์ฃผํ๊ณ ๋์ด๊ฐ๋ ๋ถ๋ถ(ํ๋ฅ ์ 0์ ์ํ์ง๋ง ์ฌ์ค์ ๊ณ์ฐํ์๋๋ 0์ ๋ณด์ฅํ์ง ์๋๋ค)์ ๊ต์ฅํ ์ ์ง์ ํ๊ณ ํ์ ์ ํ๊ณ ๋ ๋๋์. ์์ด๋์ด๋ ๊ด์ฅํ ๊ฐ๋จํ๋ฐ, ์ด๋ ๊ฒ ํ๋ ค๋ฉด ์ผ๋จ ๊ธฐ๋ณธ์ ์ผ๋ก ์ํ์ ๋ํด์ ์ ์๊ณ ์์ด์ผ ๊ฐ๋ฅํ ์ ๊ทผ ๋ฐฉ๋ฒ์ธ๋ฏ ์ฝ์ : ๊ทผ๋ฐ ๋ผ๋ฒจ์ ๋ฐ๊ฟ์ผ๋ก์จ ์๋์ ๋ฐ์ดํฐ์ ์๋์ ์กฐ๊ธ ํ์ด์ง ์๋ ์์๊ฒ ๊ฐ์ ์ ์: binary๊ฐ ์๋ ๋ฐ์ดํฐ์ ์๋ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ฏ | 4.1 |
| ์นซ์ | ๊ฐ์ : ํฐ penalty๋ฅผ ๊ทน๋จ์ ์ผ๋ก ํค์๋ฒ๋ฆฌ๋ ๋ณ๊ฒฝ์ด ์ ๋ฉ๋๊ฐ๊ณ , ์ค์ ๋ก ํจ๊ณผ๋ ์์ ์ฝ์ : penalty ๊ทน๋ํ์ ๋ถ์์ฉ์ ์์๊น? ๋ชฉํ์ธ safety๋ ์ ๋ฌ์ฑ๋๊ฒ ์ง๋ง ์ ์: preference๋ฅผ ๊ทน๋จ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ธฐ ๋ฌด๋ฆฌ์ธ ๋๋ฉ์ธ์ ์์๊น? ์ฌ๋ฌ ๋๋ฉ์ธ์ ์ ์ฉํ๊ณ ์คํ | 3.8 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : ์ ์ฝ๋ณด๋ค DPO์ ๋ ์ ํฉํ ๋ฐฉํฅ์ ์ ์ํ์ฌ safety ๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ ์ ์. ๋ญ๊ฐ โ์๋๋ฅผ ๋์ผ๋ก ์ค๋ํ์ง ๋ชปํ๋ค๋ฉด ๊ทธ๊ฑด ๋์ด ๋ถ์กฑํด์โ ์๊ฐ์ด ๋๋ค. ์ฝ์ : ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํ๋ ๊ฒ์ด ๊ผญ ํ์ํ ๊ณผ์ ์ด๋ผ๋ฉด, ์กฐ๊ธ์ ์ํํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํจ. ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ฌ์ ๋ ฌํ๊ณ , ๊ทธ๊ฒ์ด ๋ฐ์ดํฐ์ ๋ถํฌ ๋ฑ์ ์ํฅ์ ๋ฏธ์น ์ ์๋๋ฐ, ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๊ณ ๋ คํ์ง ์์ ๊ฒ์ ์์ฌ์. ์ฌ์ค safety ๊ฐ ์ด๋ฐ ๋ฐฉํฅ์ผ๋ก ํ๊ฐ ๊ฐ๋ฅํ ์งํ์ธ์ง๋ ์ข ์ ๋งคํ๋ค๊ณ ์๊ธฑํจ. ์ ์: ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ ๋ํด์, safety ๋ ๋ ๊ตฌ์ฒดํํด์ ํ๊ฐํ์ผ๋ฉด ํจ. (๋ณด์์ safety, ์ค๋ฆฌ์ safety ๋ฑ) | 4.0 |
| ๋์ค๋ฅ | ์ฅ์ : โํ์ต์์โ unsafeํ ์๋ต์ ๋ฐฐ์ ๋ฅผ ๋ช
์์ ์ผ๋ก ํ์ตํ๊ฒ ํ๋ ๊ฒ์ ํ๋ฅญํจ. ๊ฐ์ธ์ ์ผ๋ก ์ด๋ฐ guaranteeํ๋ ๋ฐฉ๋ฒ์ด ๋ ๋์ค๊ธฐ๋ฅผ ๋ฐ๋ ์ฝ์ : ์ด๊ฒ ํ์ต์์๋ ๊ทธ๋ ๊ฒ ํ๋๋ฐ ์ค์ ๋ก ์ด๋ป๊ฒ ์๋ํ๋์ง์ ๋ํ ๊ฒ์ฆ์ด ๋๋ฌด ๋น์ฝํจ. ๋ฐ์ดํฐ์ ๋ ํ๊ฐ๋ง ์ฐ๊ณ adversarial attack์ ๋ํ ๋ฐฉ์ด ๋ฑ safety์์ ๋ค๋ค์ผ ํ๋ ์คํ๋ค์ด ๋๋ฌด ๋ง์ด ๋น ์ ธ์์. ์ ์: ์คํ์ ๋๋ ค์ค! | 2.6 |
| AI | ๊ฐ์ : LLM์ ์์ ํ๊ฒ ๋ง๋ค ๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ reward model์ด๋ cost model์ด ์์ด ๋ฒ์ฉ์ฑ์ด ์์ฃผ ๋์ + ์คํ ๊ฒฐ๊ณผ๋ ์ข์ํธ ์ฝ์ : DPO -> SimPO๋ก ๊ฐ๋ ๋๋...? ๊ธฐ์กด DPO paradigm๊ณผ ๋น๊ตํด์ ์๋ก์ด contribution์ด ์๋๊ฑฐ๊ฐ์ ์ ์: ์์ ํ์ง ์์ผ๋ฉด ๋ฌด์์ hard constraint๋ฅผ ์ฃผ๊ธฐ๋ณด๋ค ์์ ์ฑ์ ๋ํ ๊ธฐ์ค์ ๋ํ๋ ๋ฐฉ๋ฒ ์ ์ | 3.6 |
| 404 | ๊ฐ์ : safety๋ฅผ ๋ค๋ฃจ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค ์ค ๊ฐ์ฅ ๋ช
ํํ๊ณ ์ง๊ด์ ์. ์ด์์ ์ธ ๊ฐ์ ์์์ผ๋ก ์ฐพ๊ณ , ํ์ค์ ์ผ๋ก ๊ทผ์ฌํ๋ ๊ณผ์ ์ด ICLR๋ค์ ์ฝ์ &์ ์: ๋ ๋ค์ํ LLM, dataset์ผ๋ก ์คํํ๋ฉด ๋ ์ข์์ํ ๋ฐ !! | 4.2 |
| ๊ตญ๋ฐฅ | ๊ฐ์ :unsafe ์๋ต์ - ๋ฌดํ๋๋ก ๋ณด์์ ์ค์ ํ๋ฅ 0์ ๋ณด์ฅํ๋ค๋ ์์ด๋์ด๊ฐ ๊น๋ํจ. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ํ๊ท ์ ์ผ๋ก๋ง ์์ ํ๋ค๋์ ์ ์ง์ ํ ๊ฒ๋ ์ข์์ ์ฝ์ : PKU-SafeRLHF-30K ๋ฐ์ดํฐ์ ์์๋ง ๊ฒ์ฆํด์ ์ผ๋ฐ์ฑ์ด ๋ถ์กฑํ๊ฒ ๊ฐ์ ์ ์: safety์ ์ ํ์ ์ธ๋ถํ | 4.1 |
TL; DR
- Preference Alignment์์ ์์ (์ํํ ๋ตX)์ ๊ฐํ๊ฒ ๋ณด์ฅํ๋ฉด์๋, ๊ธฐ์กด RLHF์ฒ๋ผ ๋ณต์กํ ํ์ดํ๋ผ์ธ ์์ด DPO์ฒ๋ผ ๊ฐ๋จํ๊ฒ ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ๋ฐฉ๋ฒ์ธ SafeDPO ๋ฅผ ์ ์
- ๊ธฐ์กด์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ ์ํ๊ณ , ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํด ๋ชจ๋ธ์ด ์์ ํ ๋ต์ ์ผ๊ด๋๊ฒ ๋ ์ ํธํ๋๋ก ํจ
Summary
- SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety, ICLRโ26 | Link
- Author
- Citation: 20
Introduction
Background
- LLM์ด ๋ค์ํ ์์
์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ค์ ํ๊ฒฝ์์๋ ์ฌ์ฉ์ ๊ธฐ๋์ ์ด๊ธ๋๋ ์ถ๋ ฅ(e.g., ์์น ์๋ ๋ต, ํธํฅ/์ ํด ๋ด์ฉ ๋ฑ)์ ๋ผ ์ ์์
โ โ์ฌ๋์ด ์ํ๋ ๋ฐฉํฅโ์ผ๋ก ๋ชจ๋ธ์ ๋ง์ถ๋ ์ ๋ ฌ์ด ์ค์ํด์ก๊ณ , ์ด๋ฌํ ํจ๋ฌ๋ค์์ผ๋กย preference alignment๊ฐ ๋ฑ์ฅ
Preference Alignment
- ๋ชจ๋ธ ์ถ๋ ฅ์ด ์ธ๊ฐ ์ ํธ(human preferences)๋ ๊ธฐ๋(expectations)์ ์ผ์นํ๋๋ก ํ์ต์ํค๋ ๊ฒ
- ํ ํ๋กฌํํธ ๏ปฟ์ ๋ํด ์ฌ๋ฌ ์๋ต ๏ปฟ๋ฅผ ๋ง๋ค๊ณ , ์ฌ๋์ด ์ด๋ค ์๋ต์ด ๋ ์ข์์ง(winner/loser)๋ฅผ ๊ณ ๋ฅธ pairwise preference ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ์ ์ฑ
(LLM)์ ์
๋ฐ์ดํธ
ํ์ต ์ํ ์
- ํ๋กฌํํธ: ๏ปฟ
- ๋ ๊ฐ์ ์๋ต: ๏ปฟ
- ์ฌ๋(๋๋ ํ๊ฐ LM)์ด ์ ํํ ์ ํธ ๋ผ๋ฒจ:
๏ปฟ (winner / loser)
โ ์ด ์ง๋ฌธ์๋ A๊ฐ B๋ณด๋ค ๋ซ๋คโ๋ผ๋ ์ ๋น๊ต ๋ฐ์ดํฐ๋ง ์์ผ๋ฉด ๋จ
Methods of Preference Alignment
- Reinforcement Learning from Human Feedback (RLHF)
- ์ฌ๋(๋๋ judge)์ ์ ํธ์์ผ๋กย reward model์ ๋จผ์ ํ์ตํ ๋ค์, ๊ทธ ๋ณด์์ ์ต๋ํํ๋๋กย ์ ์ฑ
/LLM์ RL๋ก ๋ฏธ์ธ์กฐ์ ํ๋ ์ ๋ ฌ ๋ฐฉ์
- Reward ๋ฅผ ์ต๋ํ ํ๋ reference ๋ชจ๋ธ์์ ๋ฉ์ด์ง์ง ์๊ฒ KL ์ ๊ทํ๋ก ๊ณผ๋ํ ๋ณํ์ ์ต์
- ์ฌ๋(๋๋ judge)์ ์ ํธ์์ผ๋กย reward model์ ๋จผ์ ํ์ตํ ๋ค์, ๊ทธ ๋ณด์์ ์ต๋ํํ๋๋กย ์ ์ฑ
/LLM์ RL๋ก ๋ฏธ์ธ์กฐ์ ํ๋ ์ ๋ ฌ ๋ฐฉ์
- DAA (Direct Alignment Algorithms)
- RLHF์ ๋ณต์ก์ฑ์ ์ค์ด๊ธฐ ์ํด,ย ๋ณด์๋ชจ๋ธ์ ๋ฐ๋ก ํ์ตํ์ง ์๊ณ , preference ๋ฐ์ดํฐ๋ง์ผ๋ก ์ ์ฑ ์ ์ง์ ์ต์ ํํ๋ ๊ณ์ด (e.g., DPO)
- RLHF๊ณผ๋ ๋ฌ๋ฆฌ pairwise data ๋ก ํ๋ฒ์ policy๋ฅผ ํ์ตํจ
Motivation
- Preference Alignment๋ง์ผ๋ก๋ โ์์ โ์ ๋ณด์ฅ ๋ชปํจ
- ๊ธฐ์กด preference alignment์ โ์ฌ๋์ด ๋ ์ ํธํ ๋ตโ์ ์ ๋ด๋๋ก ๋ง๋ค์ง๋ง,ย ๊ทธ ๋ต์ด ํญ์ ์์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฅ์ ํ์ง ์์
- ๊ทธ๋์ ์์ ์ ๋ ฌ(safety alignment)์ ๋ณดํต โ(1) ๋์์ด ๋๋ ๋ณด์์ ์ต๋ํโ ํ๋ฉด์ ๋์์ โ(2) ์ํํ ๋ต์ ๋ด์ง ๋ชปํ๊ฒ ์ ์ฝโ์ ๋ฃ๋ ํํ๋ก ์ด๋ฃจ์ด์ง
- (์ 1 ๋ฒ์ ๋ฐ์ํ,) ๊ธฐ์กด safety alignment (Safe RLHF ๊ณ์ด)์ ํจ๊ณผ๋ ์์ง๋ง, ๋ณต์กํจ
- Preference alignment์ safe ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ๋ฃ์ ๊ธฐ์กด ์ฐ๊ตฌ(safety alignment)๋ ์์
- e.g., SafeRLHF, SACPO, โฆ
- ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ auxiliary model(e.g., reward/cost model), multistage pipeline, ์ถ๊ฐ hyper-parameter ํ๋ ๋ฑ์ผ๋ก ์ธํด ๊ณ์ฐ/ ๊ตฌํ ๋ณต์ก๋๊ฐ ์ปค์ง
- Preference alignment์ safe ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ๋ฃ์ ๊ธฐ์กด ์ฐ๊ตฌ(safety alignment)๋ ์์
So in this paper โฆ
โ RLHF ๋ณด๋ค ๋ณต์ก์ฑ์ ์ค์ธ preference alignment ๋ฐฉ๋ฒ์ธ โDPOโ์ safety๋ฅผ ์ ์ฉํ๊ฒ ๋ค!
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ํ ์ ์(cost)์ ํ๊ท (expected cost)์ด ๊ธฐ์ค ์ดํ๊ฐ ๋๋๋ก ํ์ตํ๋๋ฐ, โํ๊ท ์ ์ผ๋ก๋ง ์์ โํ๊ฒ ์๋, unsafe ํ ๋ต์ ์์ ํ๋ฅ 0์ผ๋ก ๋ง๋ค๊ณ ์ถ์
- ๋ฐ๋ผ์ ๊ธฐ์กด์ objective (hard-constrained safety objective)๋ฅผ ๋ถ์ํด์,
โ ์ ๋ด์ฉ์ ๋ฐ์ํ์ฌ, DPO-style๋ก single-stage๋ก ๋ฐ๊พผ SafeDPO๋ฅผ ์ ์ํ๋ค
Contribution
- Hard-constrained safety alignment objective(unsafe ํ๋ฅ 0)๋ฅผ ์ง์ ๋ถ์ํด,ย closed-form optimal policy๊ฐ ์กด์ฌํจ์ ๋ณด์ด๊ณ , ์ด๋ฅผย ํ์ต ๊ฐ๋ฅํ(tracable) ๋ชฉํ๋ก ๋ฐ๊พธ๋ ์ด๋ก ์ ์ ์
- SafeDPO ์ ์:ย preference ๋ฐ์ดํฐ +ย binary safety indicator๋ง์ผ๋ก,ย reward/cost model ๋ฐ online sampling ์์ด๋ DPO ์คํ์ผ๋กย single-stage ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ๊ตฌ์ฑ
- ํ์ค DPO ๋๋น ์ต์ ์์ + ์ถ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ 1๊ฐ(ฮ) ๋ง ๋์ ํจ
Preliminaries
Reinforcement Learning from Human Feedback (RLHF)
- RLHF์ ํฌ๊ฒ 3๋จ๊ณ pipeline์ผ๋ก ์ํ๋จ:
- SFT(Supervised Fine-Tuning): ๋ฐ๋ชจ/supervised ๋ฐ์ดํฐ๋ก ๊ธฐ๋ณธ ์๋ต ๋ฅ๋ ฅ์ ๊ฐ์ถ reference ์ ์ฑ ๏ปฟ(๋๋ ์ด๊ธฐ ์ ์ฑ )์ ํ์ต
- Reward Model(RM) ํ์ต: pairwise ์ ํธ ๋ฐ์ดํฐ๋ก ๋ณด์ํจ์ ๏ปฟ๋ฅผ ํ์ต
- RL fine-tuning (+KL ์ ๊ทํ ): ๋ณด์์ ์ต๋ํํ๋ ๏ปฟ์์ ๋ฉ์ด์ง์ง ์๋๋ก KL ํจ๋ํฐ๋ฅผ ๋๊ณ ์ ์ฑ ๏ปฟ๋ฅผ ํ์ต
- BradleyโTerry(=๋ก์ง์คํฑ) ์ ํธ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ํธ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง
- Reward Model ํ์ต (์ ํธ ๋ฐ์ดํฐ์ ๋ํ pairwise logistic loss)
- RLHF์ ์ ์ฑ
์ต์ ํ(KL-regularized objective)
- RL ๋จ๊ณ์์๋ ๋ณด์์ ํค์ฐ๋, reference ์ ์ฑ
๊ณผ์ ์ฐจ์ด๋ฅผ KL๋ก ์ ํํจ
- ์ ์ฑ (๋ชจ๋ธ)ย ๏ปฟ ๊ฐ ๋ณด์ย ๏ปฟ๋ ํฌ๊ฒ ๋ง๋ค๊ณ ๋์์ ๋ ํผ๋ฐ์ค ๋ชจ๋ธ ๏ปฟ์์ ๋๋ฌด ๋ฉ์ด์ง์ง๋ ์๊ฒ(=KL ํ๋ํฐ)ํ์ต
- ๏ปฟ๊ฐ ํฌ๋ฉด ref model์์ ๋ง์ด ๋ชป์์ง์ด๊ณ (๋ณด์์ ), ๏ปฟ๊ฐ ์์ผ๋ฉด ๋ณด์ ๏ปฟ์ ๋ ๋ง์ด ๊ณ ๋ คํ๊ฒ ๋จ
- RL ๋จ๊ณ์์๋ ๋ณด์์ ํค์ฐ๋, reference ์ ์ฑ
๊ณผ์ ์ฐจ์ด๋ฅผ KL๋ก ์ ํํจ
Direct Preference Optimization (DPO)
- RLHF์ฒ๋ผ reward model์ ๋ฐ๋ก ํ์ต/์ฌ์ฉํ์ง ์๊ณ , ์ ํธ ๋ฐ์ดํฐ(winner/loser)๋ง์ผ๋ก ์ ์ฑ ๏ปฟ๋ฅผ ์ง์ ์ต์ ํ
Method
- [Step 1] From Hard Constraint to Closed-Form Policy
- ๊ธฐ์กด์ โ์ํํ ๋ต์ ์ ๋ ๋์ค๋ฉด ์๋๋คโ (unsafe์๋ต์ ํ๋ฅ 0; hard-constraint)๋ฅผ ๋ถ์ํ์ฌ ๊ทธ ๊ท์น์ ๋ง์กฑํ๋ฉด์๋ ๊ฐ์ฅ ์ข์ ๋ต์ ๋ด๋ ์ด์์ ์ธ ์ ์ฑ ์ด ์ด๋ค ํํ์ธ์ง ์ํ์ ์ผ๋ก ๋จผ์ ์ฐพ์๋
- [Step 2] From Intractable Form to Tractable Objective
- ํ์ง๋ง ์ด ์ด์์ ์ธ ์ ์ฑ ์ ํ์ค ๋ฐ์ดํฐ๋ก ๋ฐ๋ก ๊ณ์ฐ์ด ์ด๋ ค์์, ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ฌ์ ๋ ฌํ์ฌ ํ์ต ๊ฐ๋ฅํ ๋ชฉ์ ํจ์๋ก ๋ฐ๊ฟ
- [Step 3] Safety Margin
- ๋ง์ง๋ง์ผ๋ก safe vs unsafe ๊ตฌ๋ถ ์ ํธ๋ฅผ ๋ ๊ฐํ๊ฒ ์ฃผ๊ธฐ ์ํด ๋ง์ง(ฮ)์ ์ถ๊ฐํด ํ์ต์ ์์ /๊ฐํ
[Step 1] From Hard Constraint to Closed-Form Policy
๊ธฐ์กด์๋ ์์ ์ ๋ ฌ์ โunsafe ์๋ต์ ํ๋ฅ 0โ์ผ๋ก ๋๋๋ก ํ๋ hard-constraint ๋ฌธ์ ๋ก ๋์๋๋ฐ, ์ด๋ unsafe ์๋ต์ ๋ํด์ ํ๋ฅ ์ 0์ผ๋ก strictํ๊ฒ ๋ณด์ฅํ์ง ์์
โ Unsafe ์๋ต์ ๋ํด์๋ โํจ๋ํฐ๋ฅผ ํฌ๊ฒโ์ฃผ๋ ๋ฐฉ์์ด ์๋๋ผ, ์์ ์ธก๋ฉด์์ unsafe ์๋ต์ ๋ฐฐ์ ์ํด
์์ ์ธ๊ธํ
๊ธฐ์กด!!!- ๊ธฐ์กด์ safety alignment ๋ safe ํ ์๋ต์ ๋ํด์๋ ํ๋ฅ ์ ๋๊ฒ, unsafeํ ์๋ต์ ๋ํด์๋ ํ๋ฅ 0์ผ๋ก ๋ฝ์์ผ ํ๋ค๋ ์ ์ฑ
์ ๊ฐ์ง๊ณ ์์ โ Hard constraint ๋ผ๊ณ ํจ
- Hard constraint: ๋ฐ๋์ ์ง์ผ์ผ ํ๋ ๊ท์น โ ๋ชจ๋ธ์ด ์ด๋ค ํ๋ฅ ๋ก๋ unsafe ๋ต์ โ๋ผ ์ ์์ผ๋ฉดโ ์ ๋๊ณ , ์์ ๊ทธ ๋ต๋ค์ ๋ํดย ํ๋ฅ ์ด 0์ด ๋๊ฒ ๋ง๋ค์ด์ผ ํจ
- ์ด๋ค ํ๋กฌํํธ ๏ปฟ๊ฐ ์ค๋ ๋ชจ๋ธ์ด ๋ฝ์ ์ ์๋ ์ด๋ค ๋ต ๏ปฟ๋ ์ ๋ถ ์์ ํด์ผ ํจ
- ๊ทธ๋ฐ๋ฐ ๋ง์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๊ณ์ฐ ํธ์ ๋๋ฌธ์ expected-cost(ํ๊ท ์ํ) ์ ์ฝ๊ฐ์ ์ํ๋ ํํ๋ฅผ ์ฐ๊ณ ,์ด ๊ฒฝ์ฐ ์๋ฐํ โํ๋ฅ 0โ ๋ณด์ฅ์ ๋์ง ์์!
Detail: ์ โ์๋ฐํ ๋ณด์ฅโ์ด ์๋๋๊ฐ? (expected-cost)
- ์ฌ๋ฌ ์ํฉ์์ ๋์ค๋ ์ํ(cost)์ ํ๊ท ๋์ ๋ ๊ทธ ํ๊ท ์ด ์๊ณ๊ฐ ๏ปฟ ์ดํ์ด๋ฉด OK๋ก ๊ฐ์ฃผ๊ฐ ๋๊ฒ ๋จ
- ๊ฐ๋ unsafe๊ฐ ํฐ์ ธ๋ ๋ค๋ฅธ ๊ฒฝ์ฐ๋ค์ด ์ถฉ๋ถํ ์์ ํด์ ํ๊ท ์ด ๋ฎ์ผ๋ฉด ์ ์ฝ์ ๋ง์กฑํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์์
- โ Hard Constraint ์์ฒด๋ฅผ ๋ค์ ๋ณด์!
- Hard constraint: ๋ฐ๋์ ์ง์ผ์ผ ํ๋ ๊ท์น โ ๋ชจ๋ธ์ด ์ด๋ค ํ๋ฅ ๋ก๋ unsafe ๋ต์ โ๋ผ ์ ์์ผ๋ฉดโ ์ ๋๊ณ , ์์ ๊ทธ ๋ต๋ค์ ๋ํดย ํ๋ฅ ์ด 0์ด ๋๊ฒ ๋ง๋ค์ด์ผ ํจ
- ๊ธฐ์กด์ safety alignment ๋ safe ํ ์๋ต์ ๋ํด์๋ ํ๋ฅ ์ ๋๊ฒ, unsafeํ ์๋ต์ ๋ํด์๋ ํ๋ฅ 0์ผ๋ก ๋ฝ์์ผ ํ๋ค๋ ์ ์ฑ
์ ๊ฐ์ง๊ณ ์์ โ Hard constraint ๋ผ๊ณ ํจ
- ํด๋น ๋
ผ๋ฌธ์์๋, ์๋ก์ด ๋ณด์ํจ์ ๏ปฟ๋ฅผ ์ ์
- unsafe ํ ์๋ต์ ๋ํด์ ๋ณด์์ผ๋ก โ์์ฒญ ํฐ ๋ฒ์ โ์ ์ฃผ๋๊ฒ ์๋๋ผ, -โ๋ก ๋ณด๋ด๋ฒ๋ฆผ
- ์ดํ ์ง์ ๊ฐ์ค(exp weighting)์์ ๏ปฟ์ด ๋๋๋ก ๋ง๋ค์ด ํ๋ฅ ์ง๋์ด 0
์ด ๋๊ฒ ํจ
โ ์ฆ, unsafe๊ฐ ๊ตฌ์กฐ์ ์ผ๋ก ์ ๊ฑฐ๋๊ฒ๋ ํจ
- ๊ทธ๋์ ์์ safety alignment ๋ชฉ์ ํจ์ ์(eq 6)์์ ๋ณด์ํจ์ ๋ถ๋ถ ๏ปฟ ๋ง ๋ฐ๊ฟ
- ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ ์ฑ
๏ปฟ์
- Safe ์ค์์ ๋ณด์ย ๏ปฟ ์ด ๋์ ๋ต์ ๋ ์์ฃผย ๋ฝ๊ณ ,
- ๋์์ ๋ ํผ๋ฐ์ค ๋ชจ๋ธย ๏ปฟ์์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๋๋ก (KL๋ก ๋ฒ์ ) ํ๊ณ ์ถ์
- Eq 6์ฒ๋ผ โunsafe ํ๋ฅ ์ 0์ด ๋์์ผ ํ๋คโ๋ฅผ ์ ์ฝ์์ผ๋ก ๊ฐ์ ํ๋๊ฒ ์๋, ๋ณด์ํจ์ ๏ปฟ๋ฅผ ํตํด ๋ชฉ์ ํจ์ ์์ฒด๊ฐ unsafe๋ฅผ ๋ฐฐ์ ํ๋๋ก ํจ
๊ฐ ํ๋กฌํํธ ๏ปฟ์ ๋ํด safe ํ ์๋ต์ด ์กด์ฌํ๊ณ , reference ์ ์ฑ ๏ปฟ ๊ฐ ๊ทธ safe ์์ญ์ 0์ด ์๋ ํ๋ฅ ์ง๋์ ๋๋ค๋ฉด, hard constraint ํํ(Eq.6)์ ๏ปฟ ๋ก ๋ฐ๊พผ ๋ชฉ์ (Eq.8)์ ๊ฐ์ ์ต์ ํด๋ฅผ ๊ฐ๋๋ค๊ณ ์ฆ๋ช ํจ(์ฆ๋ช ๊ณผ์ ์ ์๋ตโฆ)
- ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ ์ฑ
๏ปฟ์
- Eq 8์ ์ต์ ํด๋ ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ๋ค:
- ์ต์ ํดโโ์ต์ ์ผ ๋ ๋ถํฌ๊ฐ ์ด๋ฐ ๋ชจ์์ด์ด์ผ ํ๋คโ๋ฅผ ์ํ์ ์ผ๋ก ๋ฐ๋ก ๋์ถํ ๊ฒฐ๊ณผโ
- Eq 8 ๊ฐ์ โ๊ธฐ๋ ๋ณด์ โ ๏ปฟKLโ ํํ๋ ์ต์ ์ ์ฑ ์ด ๋ค์์ฒ๋ผ reference ร exp(๋ณด์/๏ปฟ) ํํ๋ก ๋จ์ด์ง๋ ๊ฒ ์ ๋ช ํ ๊ฒฐ๊ณผ๋ผ๊ณ ํ๋ค..!
- ์์์ unsafe ํ ๏ปฟ์ ๋ํด์๋ -โ ๋ก ์ ์ํ์๋๋ฐ,
โ ๏ปฟ ๋ถ๋ถ์ด -โ ์ผ๋ก ๊ฐ๋ฉด exp(-โ)์ผ๋ก ๊ฐ์ ๊ถ๊ทน์ ์ผ๋ก unsafe๋ ๋ ํผ๋ฐ์ค๊ฐ ์๋ ํ๋ฅ ์ ์ฃผ๊ณ ์์๋๋ผ๋, ๊ณฑ์ ์์ 0์ด ๋์ด ์์ ํ ์ ๊ฑฐ๋จ
- ๊ธฐ์กด์๋ ํ๋ฅ ์ 0์ผ๋ก ์ฃผ๊ณ ์ ํด๋ ์ด๋ฅผ strictํ๊ฒ ๋ณด์ฅ์ด ๋์ง ์์์ง๋ง, ์์ ์ธก๋ฉด์์ ์์ 0์ผ๋ก ๋ง๋ค์ด๋ฒ๋ฆฌ๋๊ฒ์
- ์ด์ ์ด๋ก ์ ์ผ๋ก ์ ๋๋๋ ์ ํธ ๋ชฉ์ ์ ๋ค์๊ณผ ๊ฐ์:
- ํ์ง๋ง! ์ด๊ฒ์ ์ง์ ๊ณ์ฐ์ด ์๋๋ ์์
- ์๋ํ๋ฉด, ๊ธฐ๋๊ฐ์ด ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง ๋ฐ์ดํฐ D๊ฐ ์๋๋ผ, ๏ปฟ๊ฐ ๋ง๋ค์ด๋ด๋ ๊ฐ์์ ์ ํธ ๋ถํฌ ๏ปฟ์ ๋ํด ์ ์๋์ด ์๊ธฐ ๋๋ฌธ (์ง์ ์ํ๋ง/๊ณ์ฐ์ด ์๋จ)
Detail
- ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ ์ฌ๋(๋๋ ๋ชจ๋ธ)์ด ์ฐ์ด์ค helpfulness ์ ํธ ๏ปฟ ์ ์์ ๋ผ๋ฒจ ๏ปฟ ๋ฟ์
- ๊ทธ๋ฐ๋ฐ ๋ชฉ์ ํจ์ L์ โ์ฌ๋์ด ์ฐ์ ์ ํธโ๊ฐ ์๋๋ผ, ๏ปฟ ๊ฐ ๋ง๋ค์์ โ๊ฐ์์ ์ ํธ ๋ถํฌ ๏ปฟโ๋ฅผ ๊ธฐ๋๊ฐ์ผ๋ก ์
- ๏ปฟ ๋ ๏ปฟ (unsafe๋ฉด -โ) ๊ธฐ๋ฐ์ผ๋ก โ์ด๋ก ์ ์ผ๋ก ์์ฑ๋์โ ์ ํธ ๋ถํฌ์
- ๋ฌธ์ ๋ ๏ปฟ ์์ฒด๊ฐ ๊ด์ธก๋์ง ์๋ latent ํจ์(reward + safety cost ๋ฐ์)๋ผ์, ๏ปฟ๊ฐ ๋ง๋ค์ด๋ผ ์ ํธ ๋ถํฌ ๏ปฟ๋ ๋ฐ์ดํฐ์์ ์ง์ ์ ์๊ฐ ์์
โ ๊ทธ๋์ย ๏ปฟ ์์ ๊ธฐ๋๊ฐ์ ์ง์ ๊ณ์ฐํ ์๊ฐ ์์
[Step 2] From Interactable Form to Tractable Objective
์์ ๋ซํ ํํ์ ๋ชฉ์ ํจ์ ์์ ์ด๋ก ์ ์ผ๋ก๋ ์๋ฒฝํ์ง๋ง, ๊ธฐ๋๊ฐ์ด ๊ฐ์์ ์ ํธ ๋ถํฌ ๏ปฟ ์ ๋ํด ์ ์๋์ด ์์ด ์ง์ ๊ณ์ฐ/ํ์ต์ด ๋ถ๊ฐ๋ฅํจ
โ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์ ํธ ๋ฐ์ดํฐ์๋ ๊ฐ ์๋ต์ด unsafe์ธ์ง ์๋์ง์ ์ฌ๋ถ๋ ํฌํจ๋์ด์์ผ๋, ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ ๊ณ์ฐ ๊ฐ๋ฅํ๊ฒ ํจ
- ์์ ์(eq 10)์ ์ด๋ก ์ ์ผ๋ก๋ ์ฑ๋ฆฝํ์ง๋ง ๊ณ์ฐ์ด ๋์ง ์์. ์ด๋ฅผ ๊ณ์ฐ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ๋ฐ์ดํฐ ๏ปฟ์ ๋ณํ์ ๊ฐํ ๋ฐ์ดํฐ ๏ปฟ๋ฅผ ์ ์ํจ
๋ฐ์ดํฐ ์ค๋ช
- ์๋ DPO preference ํ์ต์์๋ ๋ฐ์ดํฐ๊ฐ ๏ปฟ ์ด๋ ๊ฒ ์๊น
- ๊ทธ๋ฐ๋ฐย safety alignment(์์ ์ ๋ ฌ)ย ์ธํ
์์๋ preference ๋ฐ์ดํฐ์ย โ๊ฐ ๋ต์ด ์์ ํ์ง/์ํํ์งโ ๋ผ๋ฒจ์ด ์ถ๊ฐ๋ก ๋ถ์ ๏ปฟ
- h=1์ด๋ฉด unsafe, h=0์ด๋ฉด safe ํ ์ด์ง ์์ indicator
- safeํ ๋ต์ ๋ณด์์ ๏ปฟ ๋ก ์๋ reward๋ฅผ ์ ์งํ๊ณ , unsafeํ ๋ต์ ๋ํด์๋ -โ
- Case1: winner๊ฐ safe โ ๊ทธ๋๋ก ์ฌ์ฉ
- Case2: Winner๊ฐ unsafe์ธ๋ฐ loser๊ฐ safe โ swap
- SafeDPO๋ safe ์ฌ๋ถ๋ฅผ ์ฐ์ ์ ์ฝ์ผ๋ก ๋ณด๊ธฐ ๋๋ฌธ์ safe/unsafe๊ฐ ์์ธ pair์ด๋ผ๋ฉด ๋ฌด์กฐ๊ฑด safe๊ฐ winner๊ฐ ๋์ด์ผ ํจ
- Case3: ๋ ๋ค unsafe โ ๋ฒ๋ฆผ(drop)
- ๋๋ค ๊ฒฐ๊ฒฉ์ด๋ผ โ๋ญ๊ฐ ๋ ๋ซ๋ค~โ๋ฅผ ๋ฐ์ง๋๊ฒ ์๋ฏธ๊ฐ ์์ด์ง (ํ์ต์ ๊ธฐ์ฌX)
- ์ต์ข
์ ์ผ๋ก, ๋ค์๊ณผ ๊ฐ์ ๋ชฉ์ ํจ์๋ฅผ ํ๋ํจ
- ๊ด์ธก ๋ถ๊ฐํ ์ด์์ ์ธ ๋ชฉ์ (eq10)์ ๋ฐ์ดํฐ ์ฌ์ ๋ ฌ์ ํตํด ๋ณต์ํจ
์์ ๊ธฐ๋ฐ ๋ถ๊ฐ ์ค๋ช
- ์ด๋ค ํ๋กฌํํธ x์ ๋ํด pair๊ฐ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ด์ด:
- ๏ปฟ: ์ ํํ์ง๋ง ์ํํ(unsafe) ๋ฐฉ๋ฒ ์ค๋ช โ unsafe
- ๏ปฟ: ์์ ํ๊ฒ ๊ฑฐ์ + ๋์ ์ ์ โ safe
- ์ฌ๋ ์ ํธ ๋ฐ์ดํฐ๊ฐ ๋์๋จ์ ๋ ์ณ์ unsafe๋ฅผ winner๋ก ์ฐ์์ ์๋ ์์ง๋ง, SafeDPO์ ๏ปฟ ์ธ๊ณ์์๋ unsafe๋ -โ๋ผ์ ๋ฌด์กฐ๊ฑด loser์ฌ์ผ ํจ โ swap ํด์ safe๊ฐ winner๊ฐ ๋๊ฒ ๋ง๋๋ ๊ฒ
โ ์ด๊ฒ์ผ๋ก ๏ปฟ๊ฐ ๊ทธ๋ ธ์ ์ ํธ ๋ฐฉํฅ์ ์ฌํ
- ์๋ ์ ํธ ๋ฐ์ดํฐ D: ๋ณดํต โ๋ ์ค ๋ ๋์์ด ๋๋ ๋ต์ด ๋ญ๋?โ๋ฅผ ์ฐ์ ๊ฒ
- SafeDPO๊ฐ ์ํ๋ ๊ฒ: โunsafe๋ ๋ฌด์กฐ๊ฑด ํ๋ฝ. safe๋ผ๋ฆฌ๋ง ๋น๊ตํด์ ๋ ๋์์ด ๋๋ ์ชฝ์ ์ฌ๋ฆฌ์โ
- ๊ทธ๋์ safe vs unsafe ์์์ ์ฌ๋์ด โunsafe๊ฐ ๋ ์ ์ฉํ๋คโ๊ณ ์ฐ์ด๋จ์ด๋, SafeDPO๋ โ๊ทธ๊ฑด ์์ ์ ์ฝ์ ์๋ฐํ๋ ํ์ต ๋ชฉํ์์ ๋ค์ง๋๋ค(swap)โ
- ์ด๋ค ํ๋กฌํํธ x์ ๋ํด pair๊ฐ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ด์ด:
- ๊ด์ธก ๋ถ๊ฐํ ์ด์์ ์ธ ๋ชฉ์ (eq10)์ ๋ฐ์ดํฐ ์ฌ์ ๋ ฌ์ ํตํด ๋ณต์ํจ
์์ ์ ์ํ Eq.10 ๊ณผ Eq.11 ์ ๋์ผํ๋ค๊ณ ํ๋ค (์ฆ๋ช ์ ์๋ตโฆ)
[Step 3] Safety Margin
์์์ ๋ณํ๋ ๋ฐ์ดํฐ ๏ปฟ ๋ก SafeDPO๋ฅผ ๋๋ฆฌ๋๋ฐ, ์ถ๊ฐ์ ์ผ๋ก โ์์ ๋ง์งโ์ ๋ฃ์ด์ safe vs unsafe ๋น๊ต์์ ํ์ต ์ ํธ๋ฅผ ๋ ๊ฐํ๊ฒ ๋ง๋ฆ
- ํ์ต ๊ณผ์ ์์ safe-unsafe ๊ตฌ๋ถ์ ๋ ๊ฐํ๊ฒ ๋ฐ์ด์ค์ ํ์ต ์ ํธ๋ฅผ ๊ฐํํ๊ณ ์ ํจ
- ์ฌ๊ธฐ์ ๏ปฟ ํญ:
- safe vs unsafe์ธ ๊ฒฝ์ฐ์๋ง ๋ง์ง์ด ์ ์ฉ๋จ(ํ์ต์ ๋ ์ธ๊ฒ ๋ฐ์ด์ค)
- safe vs safe๋ฉด 0์ด๋ผ์ ๊ธฐ์กด DPO์ ๋์ผํ๊ฒ ๋์
- ๊ฒฐ๊ณผ์ ์ผ๋ก safe-unsafe์์ ๋ํด ๋ค์๊ณผ ๊ฐ์ ๋ง์ง ์กฐ๊ฑด์ ๋ ๊ฐํ๊ฒ ๋ง์กฑ์ํค๋๋ก ํจ
- ์ฌ๊ธฐ์ ๏ปฟ ํญ:
Experiment
Setting
Datasets
- PKU-SafeRLHF-30K
- 27,000 training entries, 3,000 testing entries
- ๊ฐ entries๋ (๏ปฟ, ๏ปฟ, ๏ปฟ) ํํ๋ก ๋์ด์๊ณ , ์ด๋ค ์๋ต์ด helpfulํ์ง, saferํ์ง, ๊ฐ ์๋ต ๋ณ binary safety indicators (๏ปฟ)์ ํฌํจ
- PKU-SafeRLHF-30K
Reference model
- Alpaca-7B model (PKU-SafeRLHF-30K ๋ก SFT ํจ)
Baselines
- DPO-HELPFUL: helpfulness(์ ์ฉ์ฑ) ์ ํธ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ ์ผ๋ฐ DPO(โ๋ ๋์์ด ๋๋ ๋ตโ์ winner๋ก)
- DPO-HARMLESS: harmlessness(๋ฌดํด์ฑ/์์ ) ์ ํธ ๋ฐ์ดํฐ๋ก ํ์ตํ DPO(โ๋ ์์ ํ ๋ตโ์ winner๋ก)
- DPO-SAFEBETTER: ํ์ต ๋ฐ์ดํฐ์์ winner ๏ปฟ๊ฐ safe์ธ ์๋ง ๋จ๊ธฐ๊ณ (winner๊ฐ unsafe๋ฉด ๊ทธ ์ํ ์ ๊ฑฐ) ๊ทธ ํํฐ๋ง๋ ๋ฐ์ดํฐ๋ก ํ์ตํDPO
- SafeRLHF
- SACPO, P-SACPO: ์ ํธ(๋ณด์) + ์์ ์ ์ฝ์ ๊ฐ์ด ์ต์ ํํ๋ ๊ณ์ด
Evaluation Method
- Model-based evaluation
- beaver-7b-unified-reward: ๊ฐ ์๋ต์ helpfulness(์ ์ฉ์ฑ) ์ ์๋ฅผ โreward(๋ณด์)โ๋ก ์์ธก
- beaver-7b-unified-cost: ๊ฐ ์๋ต์ harmlessness(๋ฌดํด์ฑ) ๊ด๋ จ ์ ์๋ฅผ โcost(์ํ/๊ท์ ์๋ฐ ๋น์ฉ)โ์ผ๋ก ์์ธกํ๊ณ , ์ฌ๊ธฐ์ harmlessness/harmless ratio๋ฅผ ๊ณ์ฐ
- GPT-4 Evaluation
- GPT-4๋ก ํ๊ฐ (์ฒ๋๋ 0-10)
- Model-based evaluation
Metrics
- Helpfulness: ๊ธฐ๋ ๋ณด์(expected reward)
- ํ ์คํธ ํ๋กฌํํธ๋ง๋ค ๋ชจ๋ธ์ด ๋ต์ ์์ฑํ๋ฉด, ๊ทธ ๋ต์ reward ๋ชจ๋ธ์ด ์ฑ์ ํ๊ณ ๊ทธ ํ๊ท (๊ธฐ๋๊ฐ)์ helpfulness๋ก ๋
- Harmless ratio: ์์ฑ ์๋ต ์ค โsafeโ๋ก ํ์ ๋ ๋น์จ(= ์์ ์๋ต ๋น์จ)
- Harmlessness: ํ๊ท safety score
- Helpfulness: ๊ธฐ๋ ๋ณด์(expected reward)
Results
Harmlessness and Helpfulness
- SafeDPO๊ฐ ๊ฐ์ฅ ๊ฐํ๊ฒ unsafe๋ฅผ ์ต์ ํจ (Harmless_Ratio; a-1, b-1)
- model-based evaluation์์๋ ์ฝ 97%, GPT-4 eval์์๋ 100% ๋ฌ์ฑ
โ unsafe ์์ฑ์ด ๊ฑฐ์ ์์ ํ ์ต์ ๋จ
- model-based evaluation์์๋ ์ฝ 97%, GPT-4 eval์์๋ 100% ๋ฌ์ฑ
- ์๋ต์ ํ๊ท ์์ ์ ์๋ ์ต๊ณ ์(Harmlessness; a-2, b-2)
Effectiveness & Sensitivity of ฮ Hyperparameter (Safety margin)
- safety margin ํ์ดํผํ๋ผ๋ฏธํฐ ฮ๋ฅผ {0, 2, 5, 10, 20}๋ก ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ฑ๋ฅ ๋ณํ๋ฅผ ๊ด์ฐฐ
- ์ฌ์ค Safety margin์ ๋ฃ์ง ์์๋ ์์ ์ด ์ด๋ฏธ ๋๊ฒ ๋์ค๊ธด ํจ โ ์ด๋ SafeDPO๊ฐ margin์ ์์กดํ๋๊ฒ ์๋๋ผ, ๋ ผ๋ฌธ์์ ์ ์ํ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก๋ unsafe๋ฅผ ์ถฉ๋ถํ ์ต์ ํ ์ ์๋ค๋ ๊ฒ์ ๋งํด์ค
- ์ ๋นํ ๋ง์ง์ ์ฑ๋ฅ์ ์ฆ๊ฐ์ํด. ๊ทผ๋ฐ ๋๋ฌด ๋ง์ง์ด ๋๋ฌด ์ปค๋ ์ฑ๋ฅ์ด ํ๋ฝํ๋ค.
Robustness across Models & Scales
- ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ 1.5B ~ 13B๊น์ง ๋ฐ๊พธ๊ณ , ๋์ผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก SafeDPO๋ฅผ ์ ์ฉํด ์ฑ๋ฅ์ ๋น๊ต
- ๋ชจ๋ ์ค์ผ์ผ์์ SafeDPO๊ฐ ๊ฐํ safety ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ๋ฌ์ฑํ๋ฉด์, helpfulness๋ ์ ์งํ๊ฑฐ๋ ์ฝ๊ฐ ๊ฐ์ ๋จ
โ SafeDPO๋ ์ค์ผ์ผ์ ์ด ๊ฐ๋ฅํ safety alignment์


















