OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ค๋ฅ | ๊ฐ์ : Superposition์ ๋ง์ด ์์กดํ๊ณ ์๋ ํธ๋ ๋์์ ๊ทธ ๋ฌธ์ ๋ฅผ ๋ช
์์ ์ผ๋ก ํ ์ฝ์ : ์ฌ๊ธฐ์ ํ๊ณ ์ํ๋ MPA ํน์ฑ์ prefrence๋ผ๋ฆฌ ์ ๋ง orthogonalํ๊ฒ ํ์ต์ํค๋๊ฒ์ด ์ข์์ง ๋ชจ๋ฅด๊ฒ ์ ๊ฒฐ๊ตญ ์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ ๋ฐฉ๋ฒ๋ก ์ ํ์ต์ ๋ ๋งค๋๋ฝ๊ฒ ํ๋ค๋ ์๊ฐ์ด ๋ฆ (์ต์ ํ๋ฅผ ์ํ๊ฒ ํ๋ ๊ฒ ๊ฐ์) ์ ์: MPA๊ฐ ์๋๋ผ catastrophic forgetting์ focusํด์ ๊ด๋ จ task๋ค์ ์ ์ฉ์ํค๋ ๊ฒ์ ์ด๋จ๊น? | 4 |
| ์ปคํผ | ๊ฐ์ : ๊ธฐ์กด ๋ฌธ์ ๋ฅผ ์ ์ง๊ณ , ํน์๊ฐ ๋ถํด๋ฅผ ์ ์ฉํด ์ ํธ๋ ์ข
๋ฅ๋ณ๋ก ๊ณต๊ฐ์ ๋ถ๋ฆฌํ์ฌ conflict๋ฅผ ์ ๊ฑฐํจ. method ๋ํ ์์์ ๋ง๊ฒ ์ ์ค๊ณํจ. ์ฝ์ : conflict๋ฅผ ์ ๊ฑฐํ์ง๋ง, safe subspace๋ฅผ ๊ตฌํ ๋ singular vector์ ์ฐจ์ด๊ฐ ๋ชจํธํ๋ค๋ฉด, principal space๋ฅผ ๊ฑด๋๋ฆด ์ํ์ด ์์ ๊ฒ ๊ฐ์. ๊ทธ๋์ adaptive k๋ฅผ ํตํด ์ด๋์ ๋ ๋ณด์ํ๋ ๊ฒ ๊ฐ์ง๋ง, ์ถ๊ฐ์ ์ธ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์. ์ ์ : K๋ฅผ ์ ํ๋ ๊ธฐ์ค์ ์ถ๊ฐ ์ ์ฉ | 4.1 |
| ์ฝ์คํผ | ๊ฐ์ : Parameter๊ฐ Update ๊ณต๊ฐ์ ๋ถ๋ฆฌํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ์์ ๊ฐ์น ๊ฐ ํ์ต์ ์ถฉ๋์ด ๋ฐ์ํ๋ ๊ฒ์ ํด๊ฒฐํ ์ ์ Novelty๊ฐ ์๋ค๊ณ ๋ด. ์ฝ์ : safe subspace ์์ผ๋ก ํฌ์ํด์ ์ธ ๋, orthogonalํ๋ค๊ณ ํ๋ฉด ์ํฅ์ ์ฃผ์ง ์๊ณ ๊ณต๊ฐ ๋ถ๋ฆฌ๋ ๋๊ฒ ์ง๋ง, ์๋ก ๋ค๋ฅธ ํน์ฑ์ด ๊ด๋ จ์ด ์๋ ๋ถ๋ถ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋ ๊ฑด์ง ์๋ฌธ์ด ์๊น. ์ ์: Tail ๊ณต๊ฐ์ ์ผ๋ง๋ ํ์ฉํ ์ง์ ๋ํ ๋ช ํํ ๊ธฐ์ค์ด๋ ๋ค๋ฅธ ๊ณต๊ฐ์ด ์๋ ๊ฒ์ด ์ด๋จ๊น? | 4.1 |
| ์ผ๋ผ | ๊ฐ์ : ๋ค์ค preference ์ต์ ํ ๊ดํ ๋
ผ๋ฌธ๋ค์ด preference ๊ฐ์ trade-off๋ฅผ ์ด์ฉ ์ ์๋ ๋ฌธ์ ๋ก ์ฌ๊ธฐ๊ณ ๋์ด๊ฐ๋ ๋
ผ๋ฌธ๋ค์ด ๋ง์๋ฐ ํน์๊ฐ ๋ถํด๋ฅผ ํตํด ์ด trade-off๋ฅผ ์ต์ํํ๋ ์์ด๋์ด๊ฐ ์ข๋ค๊ณ ์๊ฐํจ. ์ฝ์ : ๋ค์ํ Preference๋ค ์ค์ helpfulness, harmlessness, truthfulness 3๊ฐ์ preference.์ ๋ํ ์คํ๋ง ์๋ ์ ์ด ์์ฌ์ ์ ์: ๋ค์ํ preference์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ์ฉ์ด ๊ถ๊ธํจ | 4.2 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : ์ธ๊ฐ์ preference๋ฅผ ์์๋๋ก ํ์ตํ๋ฉด์ ์ด์ preference๊ฐ ๋ง๊ฐ์ง์ง ์๋๊ฒ์ ๋ํ ๋จ์ํ๋ฉด์ ํ์คํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉด์ ๊ธฐ์กด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ ์ฝ์ : ๋ง์ง๋ง์ ํ์ต๋๋ preference์ผ์๋ก ํ์ต ๊ฐ๋ฅํ ๊ณต๊ฐ์ด ์ข์์ ธ์ ์ฑ๋ฅ์ด ๋ฎ์์ง์ ์์๊ฒ ๊ฐ๋ค. ์์ ๋ณ๊ฒฝ์ ๋ฐ๋ผ ๋น๊ตํ๋ ์คํ์ด ์์ผ๋ฉด ์ข์๊ฒ ๊ฐ๋ค. ์ ์: preferenceํ์ต ์์๋ฅผ ๋ฐ๊ฟจ์๋์ ์ฑ๋ฅ ๋น๊ต ์คํ | 4.1 |
| ๋น์๋จ | ๊ฐ์ : Orthogonal ํน์ฑ์ ์ฐธ ๋ค์ํ ๊ณณ์์ ์ฐ์ผ ์ ์๋๋ฏ. ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด๋ชจ๋ธ์ projection๋ง ์ถ๊ฐํ๋๋ฐ๋ ์ฑ๋ฅ์ด ๋ง์ด ๊ฐ์ ๋๊ฑด ๋ฒ์ฉ์ฑ ์ธก๋ฉด์์ ๋ง์ด ๊ฐ์ ์ธ๋ฏ ์ฝ์ : Objective ๊ฐ ๋ ๋ง์์ง๋ค๋ฉด, ์ ์๋ ๊ณต๊ฐ ๋ด์์ ์ผ๋ง๋ ๋ ๋ง์ objective๋ฅผ ์์ ์ ์ผ๋ก ๋ค๋ฃฐ์ ์์์ง ์๋ฌธ์ ์ ์: ๋ ๋ง์ objective๋ฅผ ๋ค๋ฃจ๊ณ ์ ํ๋ค๋ฉด objective ์ค์๋์ ๋ฐ๋ผ ๊ฐ์ญ์ ์ผ๋ถ ํ์ฉํ๋ ํจ๋ํฐ๋ก ์ ์ดํ๋๋ฐฉ์์ผ๋ก ํ์ฅํ ์ ์์ด๋ณด์ | 4.2 |
| ์นซ์ | ๊ฐ์ : orthogonality ๊ฐํ๋ก ์ธํด ๊ฐ๋ณ ๋ชฉํ์ ํ๋ จ์ ๋ ๋ฑ์ ๋ณด๋ค ํด์ํ๊ธฐ ์ข์๋ณด์ ์ฝ์ : ๊ฐ ๋ชฉํ๊ฐ ์ ๋ง ์๋ก orthogonalํ ๊ฒ ๋ง์๊น? ๋ถ๋ฆฌํ์ง ์์ ๋ชฉํ ๊ฐ ์ํธ์์ฉ์์ ์ถ๊ฐ์ ์ผ๋ก ์ป์ ์ ์๋ ์ฑ๋ฅ๋ ์์ง ์์๊น ์ ์: orthogonality์ ํ์คํฌ ์ฑ๋ฅ ๊ฐ ๊ท ํ์ ๋ชจ๋ธ๋งํ๊ฑฐ๋ ํ๊ฐ | 4.3 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : ์ ํธ๋ ํ์ต ๊ด์ ์์ ๋ฐ์ํ ์ ์๋ ์ํธ ๊ฐ์ญ์ ์ง๊ต ๊ณต๊ฐ์ผ๋ก ๋ถํดํ์ฌ ์๋ก์ด ๋ฐฉํฅ์ผ๋ก์ ํ์ต์ด ์ํํ๊ฒ ์ด๋ฃจ์ด์ง๋๋ก ํ๋ ๋ฐฉ๋ฒ ์ ์. ์ง๊ด์ ์ด๊ณ , motivation์ด ๋ช
ํํ๋ค ์ฝ์ : ์ ํธ๋์ trade-off๊ฐ ๊ณผ์ฐ ๋์ ๊ฒ์ผ๊น? ์คํ๋ ค ๊ทธ trade-off๋ฅผ ์ ์กฐ์ ํ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๊ณ ์๊ฐํจ. ๋ชจ๋ ๊ณต๊ฐ์ ์ง๊ต๋ก ์ฒ๋ฆฌํ๊ธฐ๋ณด๋ค, ์ข์๊ฑด ์ข๊ฒ, ๋์๊ฑด ๋์๊ฒ ์ ๊ด๋ฆฌํ๊ณ ํ์ตํ๋ ๊ฒ ๋ ํจ์จ์ ์ผ์๋. ์ ์: ์ด ๋ ผ๋ฌธ์์๋ ๊ฒฐ๊ตญ ์ ํธ๋๋ ํ์ต ๊ธฐ๋ฐ ์ต์ ํ๋ก ์ํํจ. ์ด ํ์ต ๊ธฐ์ค์, ์ด์ ์ํ๋ณด๋ค ๋ ์ข์์ง๋๋ก ์กฐ์ ํ ๋, ๊ทธ ์กฐ์ ์ ํ๋์ ์ง๊ต ๊ณต๊ฐ์ด ์๋๋ผ ์ ์ฒด ๊ณต๊ฐ์ ํฉ์ด ์ฅ๊ธฐ์ ์ธ ๊ด์ ์์ ๋ ๊ฐ์ ๋ ์ ์๋๋ก ํ๋๊ฒ?(MCTS ์ฒ๋ผ ์๊ฐํด๋ณด๊ธฐ) | 4.0 |
| 404 | ๊ฐ์ : preference ๋ฐ parameter space ๋ฑ ํ๊ณ ํธ๋ ๋์ ๊ธฐ์กฐ๊ฐ ๋๋ concept์ ๋ํ ์ง๊ด์ ์ธ ๋ฌธ์ ์ ๊ธฐ๋ฅผ ํจ. motivation์ด ๋งค์ฐ ๋ช
ํํ๊ณ , ๊ทธ ์ํฅ๋ ฅ์ด ํผ ์ฝ์ : Multi-objective์์ objective๊ฐ ํญ์ orthogonalํ ๊น? ์ํ์ ์ฆ๋ช ์ผ๋ก ์ค๋ช ๊ฐ๋ฅํ ๊น? orthogonalํ์ง ์์ objective๋ ์ด๋ค ํน์ง์ด ์์๊น? ์ํธ๋ณด์๋๋ ๊ฒฝ์ฐ๋ ์์๊น? ์ ์: multi objective์ orthogonality ๊ด๋ จ ๋ถ์ / objective ๋ณ ์ค์๋ ๋ฐ์ | 4.5 |
| AI | ๊ฐ์ : ์ฐ๊ตฌ์ framing ์์ฒด๊ฐ ํํํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ ๋๋ถ๋ถ์ ๋จ์ํ reward engineering์ ํ๋ ๋๋์ธ๋ฐ ๊ตฌ์ฒด์ ์ผ๋ก MPA ๋ฌธ์ ๋ฅผ ํ๋ผ๋ฏธํฐ geometry ๊ด์ ์์ ์ ๊ทผํด์ ์ด๋ก ์ ์์ ์ฑ์ ๋ณด์ฅํจ ์ฝ์ : Projection matrix๋ค์ด ๋๊ท๋ชจ ๋ชจ๋ธ ์ ์ฉํ ๋ overhead๊ฐ ๊ต์ฅํ ํฌ์ง ์์๊น? ๋น์ฉ ๋ถ์ ๋ด์ฉ์ด ๋ ผ๋ฌธ์ ์๋ค ์ ์: ํ๋ ฌ๋ค์ ์์ํํด์ ๋ ํฐ LLM์ ์ ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ ํ์ | 4.2 |
TL; DR
๋ค์ค preference ์ต์ ํ ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ๊ณต๊ฐ์ orthogonal subspace๋ก ๋ถํดํ์ฌ, objective ๊ฐ ๊ฐ์ญ์ ์์ฒ์ ์ผ๋ก ์ ๊ฑฐํ์
Summary
- ์ฐ๊ตฌ์ง: ์ฐจ์ด๋ํ ๋ ์ฝค, ์ค๊ตญ์ธ๋ฏผ๋ํ, ์ค๊ตญ๊ณผํ๊ธฐ์ ๋ํ
- ์ธ์ฉ์ : 1
Preliminary
MPA (Multi-preference alignment)๋?
- ์๋ก ์ถฉ๋ ๊ฐ๋ฅํ ์ธ๊ฐ ์ ํธ(preference)๋ฅผ ๋์์ ๋ง์กฑํ๋๋ก ๋ชจ๋ธ์ ์ต์ ํํ๋ ๊ณผ์
- Helpfulness (์ ์ฉ์ฑ)
- Harmlessness (์์ ์ฑ)
- Truthfulness (์ง์ค์ฑ)
- Honesty, Fairness
- Ex) โ์ด๋ป๊ฒ ํญํ์ ๋ง๋ค๊น?โ
- Helpful ๋ชจ๋ธ โ ์ค๋ช
- Harmless ๋ชจ๋ธ โ ๊ฑฐ๋ถ
- ์๋ก ์ถฉ๋ ๊ฐ๋ฅํ ์ธ๊ฐ ์ ํธ(preference)๋ฅผ ๋์์ ๋ง์กฑํ๋๋ก ๋ชจ๋ธ์ ์ต์ ํํ๋ ๊ณผ์
Conflict Mitigation of MPA
- MPA๋ ๋ณดํต SFT๋ก ํ์ต๋ ๊ธฐ๋ณธ ๋ชจ๋ธ ๏ปฟ์ ๊ธฐ์ค์ผ๋ก ํจ.
- ๏ปฟ: ์ ๋ ฅ ๏ปฟ์ ๋ํด ์๋ต ๏ปฟ๋ฅผ ์์ฑํ๋ ์ด๊ธฐ policy
- ์ธ๊ฐ preference์ ์ํ์ ๋ชจ๋ธ๋ง
- ์ฌ๋์ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ์๋์ ๊ฐ์ด ํ๊ฐ
- ๏ปฟ (๊ฐ์ ํ๋กฌํํธ ๏ปฟ์ ๋ํด ์๋ต ๏ปฟ์ด ๏ปฟ๋ณด๋ค ๋ซ๋ค)
- ์ ์ฌ ๋ณด์ ์ ์
- ๏ปฟ
- ์ฌ๋์ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ์๋์ ๊ฐ์ด ํ๊ฐ
- Bradley-Terry ๋ชจ๋ธ (์ ํธ ํ๋ฅ ์ ์)
- ์ฌ๋ฌ preference๋ฅผ ๊ฐ์คํฉ์ผ๋ก ํตํฉ ํ, softmax
โ ์ด๋ฌํ ๊ฐ์ ์ multi-objective conflict์ ์์ธ์ด ๋จ
- DPO
- ์ ํธ ์๋ต ๏ปฟ์ ํ๋ฅ ์ ๊ธฐ์ค ๋ชจ๋ธ ๏ปฟ ๋๋น ๋ ํฌ๊ฒ,
๋น์ ํธ ์๋ต ๏ปฟ์ ํ๋ฅ ์ ๋ ์๊ฒ!
- Reward ๋ชจ๋ธ์ ๋ช ์์ ์ผ๋ก ํ์ตํ์ง ์๊ณ policy์ implicit reward์ ๊ด๊ณ๋ฅผ ์ง์ ์ด์ฉ
- ์ ํธ ์๋ต ๏ปฟ์ ํ๋ฅ ์ ๊ธฐ์ค ๋ชจ๋ธ ๏ปฟ ๋๋น ๋ ํฌ๊ฒ,
โ ํต์ฌ ๋ฌธ์ : MPA ๋ฐฉ๋ฒ๋ค์ constraint loss ์ถ๊ฐ๋ฅผ ํตํด conflict๋ฅผ ์ํํ๋ ค๊ณ ํ์ง๋ง ๋์ผ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ๋์ ๋์ด ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ์ ์์ ์ฑ์ ์ ํด
- MPA๋ ๋ณดํต SFT๋ก ํ์ต๋ ๊ธฐ๋ณธ ๋ชจ๋ธ ๏ปฟ์ ๊ธฐ์ค์ผ๋ก ํจ.
์ฐ๊ตฌ ๋๊ธฐ
- LLM alignment์์ ๊ฐ์ฅ ์ค์ํ ๋ชฉํ 3๊ฐ์ง
- Helpfulness
- Harmlessness
- Honesty/Truthfulness
โ ํ๋์ objective๋ฅผ ๊ฐ์ ํ๋ฉด ๋ค๋ฅธ objective๊ฐ ์ ํ๋๋ ๊ทผ๋ณธ์ ์ธ trade-off ๋ฌธ์ ์กด์ฌ
- ๊ธฐ์กด multi-preference (or objective) alignment ๋ฐฉ๋ฒ ๊ฐ์ ๋ฐ ํ๊ณ
- ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ
- ์ ๋ณ/๊ฐ์ค์น/์ค์ฝ์ด๋ง ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํผํฉ
- ํ๊ณ: human labor ๋ง์ด ๋ฆ + ์์คํ ์ ํธํฅ
- ๋ชจ๋ธ ๋ณํฉ (Model Merging)
- ์๋ก ๋ค๋ฅธ preference๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ๋ค์ ๊ฒฐํฉ
- ํ๊ณ: Pareto ํํ์ผ๋ก ์ธํ ๊ฐ๋ณ objective ์ฑ๋ฅ ์ ํ
- RLHF (Dynamic reward / Multi-objective reward)
- ์ํฉ์ ๋ฐ๋ผ reward ๊ฐ์ค์น๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ํ์ต / ์ฌ๋ฌ reward๋ฅผ ๊ฐ์คํฉ์ผ๋ก ๊ณ ๋ ค
โ ํ์ต ๋ฐฉํฅ์ ๋ถ๋๋ฝ๊ฒ steering
- ํ๊ณ: Global ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ trajectory๋ฅผ ์กฐ์ ํ๋ ์์ค์ ๋จธ๋ฌด๋ฆ
โ ํ๋ผ๋ฏธํฐ ๋ด๋ถ ๊ตฌ์กฐ ์์ฒด๋ ๋ฐ๊พธ์ง ์์ gradient ๊ฐ์ญ ๋ฐ์
- ์ํฉ์ ๋ฐ๋ผ reward ๊ฐ์ค์น๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ํ์ต / ์ฌ๋ฌ reward๋ฅผ ๊ฐ์คํฉ์ผ๋ก ๊ณ ๋ ค
- ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ
- ํต์ฌ ํต์ฐฐ
๋ด์ ๊ฐ์ด 0์ด ์๋๋ค? โ ์๋ก ๋ค๋ฅธ objective์ gradient๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐฑ์ ํ๋ฉฐ ๊ฐ์ญ ๋ฐ์
๊ธฐ์กด RLHF์ฒ๋ผ ๋จ์ํ ๊ฐ์คํฉ์ผ๋ก ๊ณ ๋ คํ๋ฉด? โ ๋ gradient๋ฅผ ํฉ์ณค์ ๋ 0์ด ๋์ด ํ์ต์ด ๋ฉ์ถ ์ ์์
์ ์ ์์ด๋์ด
์๋ก ๋ค๋ฅธ objective๋ค์ โ์ํ์ ์ผ๋ก ๊ฐ์ญํ์ง ์๋ ๋ฐฉํฅโ์ผ๋ก ํ์ตํ ์๋ ์์๊น?
โ ์ ์ด์ ์๋ก ๋ค๋ฅธ preference๋ฅผ ๋ค๋ฅธ ๊ณต๊ฐ์์ ํ์ตํ์!
- ํ๋ผ๋ฏธํฐ ์
๋ฐ์ดํธ ๊ณต๊ฐ์ orthogonal subspace๋ก ๋ถํดํ์ฌ, objective ๊ฐ ๊ฐ์ญ์ ์์ฒ์ ์ผ๋ก ์ ๊ฑฐ
- SVD๋ก ๋ชจ๋ธ ๊ฐ์ค์น ํ๋ ฌ ๏ปฟ ๋ถํด
- ๏ปฟ
- ์์ singular vector โ ํ์ฌ preference์ ์ฃผ์ ๋ฐฉํฅ (์ด๋ฏธ ํ์ต๋ ์ ๋ณด๊ฐ ๋ง์ด ๋ด๊ธด ๊ณต๊ฐ)
- ํ์ singular vector โ ํ์ฌ preference์ ๋ ์ค์ํ ๋ฐฉํฅ (๊ฑฐ์ ์ํฅ์ด ์๋ ๊ณต๊ฐ)
- ๏ปฟ
โ ํ์ ๋ฒกํฐ ๊ณต๊ฐ์์ ์๋ก์ด preference๋ฅผ ํ์ตํ๋ฉด ๊ธฐ์กด preference๋ฅผ ๋ ์นจ๋ฒํ๋ฉฐ, gradient ์ถฉ๋์ด ๊ฐ์ํ๋ค!
โ ์์ ๋ฒกํฐ ๊ณต๊ฐ๊ณผ ์ง๊ตํ๋ ๊ณต๊ฐ์ธ Orthogonal projection ํ๋ ฌ ๏ปฟ๋ก ์๋ก์ด gradient๋ฅผ ํฌ์ํ๋ฉด ๊ธฐ์กด objective์ ๊ฒน์น๋ ์ฑ๋ถ์ด ์ ๊ฑฐ๋๋ค! - SVD๋ก ๋ชจ๋ธ ๊ฐ์ค์น ํ๋ ฌ ๏ปฟ ๋ถํด
Methods
Orthogonzlied Preference Updates with Stability Control
์๋ก์ด preference ์ ๋ฐ์ดํธ๋ฅผ orthogonal subspace์๋ง ์ ํํ๋ฉด
๊ธฐ์กด safety๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๋๋ค.
- ๏ปฟ
- LoRA์ ์ ์ฌํ low-rank adaptation โ ์ฒซ๋ฒ์งธ preference (e.g., safety alignment)๋ก ํ์ต๋ ์ ๋ฐ์ดํธ ํ๋ ฌ โ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๊ณ ํน์ ๋ฐฉํฅ๋ง ์ ๋ฐ์ดํธ
- ์๋ถ๋ถ (์์ ๏ปฟ๊ฐ singular component): safety ์ฑ๋ฅ์ ์ฃผ๋ก ๊ฒฐ์ ํ๋ ๋ฐฉํฅ (principal subspace)
- ๋ท๋ถ๋ถ (๋๋จธ์ง singular component): safety์ ๊ฑฐ์ ์ํฅ X, ๊ธฐ์กด preference์ ๊ฑฐ์ ์ง๊ตํจ
- ์ด๋ฅผ ์ํ 2๊ฐ์ง constraint
- Subspace constraint ๏ปฟ where ๏ปฟ=safety principal subspace (safety์ ๊ฐ์ฅ ์ค์ํ ๋ฐฉํฅ๋ค)
: ์ ๋ฐ์ดํธ๊ฐ safety ์ฃผ์ ๋ฐฉํฅ๊ณผ ์์ ํ ์ง๊ตํ๋๋ก ํจ
- Spectral constraint ๏ปฟ
: ๊ฐ์ฅ ํฐ singular value๋ฅผ ์ ํํ์ฌ safety drift ๋ฐฉ์ง
- Subspace constraint ๏ปฟ where ๏ปฟ=safety principal subspace (safety์ ๊ฐ์ฅ ์ค์ํ ๋ฐฉํฅ๋ค)
- ๏ปฟ
Adaptive Subspace-Rank Selection
- ๏ปฟ๊ฐ ๏ปฟ๋ฅผ ์ด๋ค ๋ฐฉํฅ๋ค์ ์ ํ๊ฒฐํฉ์ผ๋ก ๋ฐ๊พธ๋์ง?
- ๏ปฟ: ์ถ๋ ฅ ๋ฐฉํฅ
- ๏ปฟ: ํด๋น ๋ฐฉํฅ์ ๊ธฐ์ฌ๋
- ๊ธฐ์กด ๋ฐฉ์์ tail ๋ฐฉํฅ ์ํฅ๋ ฅ์ด ์์์ง๋ง, ์ ๋ฐ์ดํธ ํ singular value๊ฐ ์ปค์ง๋ฉด์ ๊ทธ ๋ฐฉํฅ์ด safety์ ์ํฅ์ ์ฃผ๊ธฐ ์์ํจ
- Tail ๊ณต๊ฐ์ ์ผ๋ง๋ ํ์ฉํ ์ง ๋์ ์ผ๋ก ๊ฒฐ์ ํ์!
- ๋ง์ง๋ง ๏ปฟ๊ฐ์ singular value๋ฅผ ์์ ๏ปฟ๊ฐ์ ํ๊ท ๊ฐ์ผ๋ก rescale
- Tail ๋ฐฉํฅ์ด ์์ ์์ค๊น์ง ์ปค์ง๋ค๋ฉด safety๊ฐ ์ผ๋ง๋ ํ๋ค๋ฆด์ง ํ ์คํธํ๊ธฐ ์ํจ
- Safety reward ๋ณํ ์ธก์
- ํ์ฉ ์ค์ฐจ ๏ปฟ ์ดํ๊ฐ ๋๋ ๏ปฟ ์ต๋๊ฐ ์ ํ
- ๋ง์ง๋ง ๏ปฟ๊ฐ์ singular value๋ฅผ ์์ ๏ปฟ๊ฐ์ ํ๊ท ๊ฐ์ผ๋ก rescale
- ๏ปฟ๊ฐ ๏ปฟ๋ฅผ ์ด๋ค ๋ฐฉํฅ๋ค์ ์ ํ๊ฒฐํฉ์ผ๋ก ๋ฐ๊พธ๋์ง?
Subspace-constrained Multi-Preference Alignment
์๋ก์ด ์ ํธ์ gradient๋ฅผ ๊ทธ๋ฅ ์ฐ์ง ๋ง๊ณ , ์ฐ๋ฆฌ๊ฐ ์ ํํ ์ง๊ต subspace ์์ผ๋ก ํฌ์ํด์ ์ฐ์.
- ์์ ์ ๋ณ๋ ๏ปฟ๊ฐ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ ๋ชจ์์ ํ๋ ฌ ๏ปฟ ์์ฑ
- ์ด ๊ณต๊ฐ ์์์๋ง ์ ๋ฐ์ดํธํด๋ safety๊ฐ ํฌ๊ฒ ํ๋ค๋ฆฌ์ง ์๋๋คโ๊ณ ํ๋จ๋ ์์ ํ ๋ฐฉํฅ ์งํฉ
- Projection ํ๋ ฌ ๏ปฟ ์ ์
- ์ด๋ค ๋ฒกํฐ๋ฅผ ๋ฃ์ผ๋ฉด ๏ปฟ๊ฐ spanํ๋ subspace์๋ก projection๋จ
- ์์ ์ ๋ณ๋ ๏ปฟ๊ฐ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ ๋ชจ์์ ํ๋ ฌ ๏ปฟ ์์ฑ
Experiments
ํ์ฉ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์
- LLM: Llama3-SFT, Mistral-7B-SFT
- ํ์ต ๋ฐ์ดํฐ
- Helpful: Helpsteer2, UltraFeedback
- Harmless: SafeRLF-10k
- Truthful: Helpsteer2, UltraFeedback
- ํ๊ฐ์ฉ ๋ฒค์น๋งํฌ (ํ๊ฐ์งํ)
- Helpfulness: Alpaca-Eval (Win rate)
- Harmlessness: AdvBench (Harmless Rate: ์ ํดํ query์ ๋ํ ๊ฑฐ๋ถ ๋น์จ)
- Truthfulness: TruthfulQA (MC2: ๊ฐ๊ด์ ์ ํ๋)
๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๊ณผ์ ๋น๊ต
OrthAlign์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค multi-objective preference๋ฅผ ๋ ์ ๊ท ํ ์๊ฒ ๋ง์ถ ์ ์๋๊ฐ?
- ์คํ ๋ฐฉ๋ฒ: Sequential Preference Optimization
- Harmless โ Helpful โ Truthful ์์๋ก ํ์ตํ๋ฉด์ ์ด์ preference๊ฐ ๋ง๊ฐ์ง์ง ์๋์ง ํ์ธ
- ์คํ ๊ฒฐ๊ณผ
- Harmless + Helpful โ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋ํผ ํ๊ท 8.77% ๊ฐ์
- Harmless + Helpful + Truthful โ ๋ ํฐ ์์น๋ก ๊ฐ์
โ ๋จ์ ๊ฐ์คํฉ ๋ฐฉ์๋ณด๋ค ํจ์ฌ ์์ ์ ์
- ์คํ ๋ฐฉ๋ฒ: Sequential Preference Optimization
Representation level์์์ ์์ ์ฑ
๋ด๋ถ ํํ์ด ๋ฐ๋๋ฉด ์ด์ ์ ํธ๊ฐ ํํ๋๋ ๋ฐฉ์๋ ๊นจ์ ธ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง
โ ์ด์ ์ ์ ๋ ฌ๋ preference ๋ถํฌ๋ฅผ ์ ๋ณด์กดํ๋ ์ง ํ์ธ
- ์คํ ๋ฐฉ๋ฒ
- ์ฒซ ๋ฒ์งธ preference alignment ๋ชจ๋ธ์ ๋ํด ํ์ต ๋ฐ์ดํฐ 3000๊ฐ ์ํ๋ง
- hidden state ์ถ์ถ
- ์ดํ ์ฌ๋ฌ preference๋ฅผ ์์ฐจ์ ์ผ๋ก ์ถ๊ฐ ์ ๋ ฌ
- ์ต์ข ๋ชจ๋ธ์์ ๊ฐ์ ์ ๋ ฅ๋ค์ hidden states ์ถ์ถ
- ๋ ๋ถํฌ๋ฅผ t-SNE๋ก ์๊ฐํ
- ์คํ ๊ฒฐ๊ณผ
- ์ฒซ๋ฒ์งธ alignment ์์ ๋ถํฌ๊ฐ ๊ฑฐ์ ๊ทธ๋๋ก ์ ์ง๋จ
โ ์ preference๋ฅผ ์ถ๊ฐํด๋ ๊ธฐ์กด representation ๊ตฌ์กฐ๋ฅผ ๊ฑฐ์ ๊ฑด๋๋ฆฌ์ง ์์
โ Parameter conflict ์ ๊ฑฐ
- ์ฒซ๋ฒ์งธ alignment ์์ ๋ถํฌ๊ฐ ๊ฑฐ์ ๊ทธ๋๋ก ์ ์ง๋จ
- ์คํ ๋ฐฉ๋ฒ
Adaptive Subspace-Rank์ ํจ๊ณผ ๊ฒ์ฆ
- Rank๊ฐ ์ปค์ง์๋ก ์์ ์ฑ์ด ๋จ์ด์ง
- ๊ธฐ์กด preference์ "์ค์ํ ๋ฐฉํฅ"์ ์ ๊ฒ ๋ณดํธํ๋ค๋ ๋ป
- ์ฆ, ์๋ก์ด preference๊ฐ ๊ธฐ์กด ์์ ๋ฐฉํฅ๊น์ง ์นจ๋ฒ ๊ฐ๋ฅ
- Helpful ์ ์๋ rank์ ์๊ด์์ด ์์ ์ ์
- Helpful ๋ฐฉํฅ์ ์ถฉ๋ถํ ์์ ๊ณต๊ฐ๋ง ํ๋ณด๋๋ฉด ์ฑ๋ฅ์ด ์์ ํ๋จ
- ๋๋ฌด ๋ง์ rank๋ฅผ ์ด์ด์ค๋ ๋ ์ข์์ง์ง ์์
- Rank๊ฐ ์ปค์ง์๋ก ์์ ์ฑ์ด ๋จ์ด์ง














