Why DPO is a Misspecified Estimator and How to Fix It
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ์ปคํผ | ๊ฐ์ : DPO๋ ๊ธฐ์กด RLHF์ ๋ง์ง๋ง ๋ณต์กํ 2๋จ๊ณ(reward, RL)๋ฅผ ์ฐํํ๊ธฐ ๋๋ฌธ์, ๋ฌด์กฐ๊ฑด์ ์ผ๋ก ์ข์ ์ค ์์์ง๋ง, reward์ ์ ํ์ฑ์ ์๊ฒ ๋์ด trade-off๊ฐ ์๊ธฐ๋ ๊ฒ์ ์๊ฒ๋์์. ์ฝ์ : LLM ํ๋ผ๋ฏธํฐ๋ ๋ง์ํ ๋ฐ, ์ค์ ๋ก null space ํ์์ด ์ฉ์ดํ ๊น? ๋ํ DPO์์ ์ถ๊ฐ ๊ณ์ฐ์ด ์๊ธด๋งํผ cost๋ ์ฆ๊ฐํ์ง ์์๊นโฆ? ์ ์ : reward์ ์ ํ์ฑ์ ๊ณ ๋ คํ๋ฉด์ null space ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ ๊ฒ ๊ฐ์. | 4.3 |
| ์ฝ์คํผ | ๊ฐ์ : DPO๊ฐ ๋ฌด์กฐ๊ฑด ์ ํ๋๊ฐ ๋๋ค๊ณ ์๊ณ ์์๋๋ฐ, ๋ถํฌ ์์ฒด์ ์ํฅ์ผ๋ก ์ ๋ขฐ์ฑ์ด ๋จ์ด์ง๋ ์ ์ ์ธ๊ธํ ๊ฒ์ด ์ด ๋
ผ๋ฌธ์ ๊ฐ์ . ์ฝ์ : Null Space์ ์ฐจ์ด์ ์ถ๊ฐ์ ์ธ ์์ ๋๋ฅผ ๊ณ ๋ คํ๋๋ฐ ์ฌ๊ธฐ์ ์ค์ฐจ๊ฐ ์๊ธธ ์ ์๋ ๋ถ๋ถ์ด ์์ง ์์๊น? ์ ์: Failure Mode๋ฅผ ๊ณ ๋ คํ Optimization์ ํ๋ ๋ฐฉ๋ฒ๋ ์ข์ ๊ฒ ๊ฐ์. | 4.5 |
| ์ผ๋ผ | ๊ฐ์ : misspecified estimator ๋ผ๋ ๊ฐ๋
์์ฒด๊ฐ ๋ชน์ ํฅ๋ฏธ๋ก์. ICLR Oral์ ๋๋จํ๊ตฌ๋ ์ฝ์ : Null space ๋ฐฉํฅ์ผ๋ก ๋ณด์กฐ ๋ณ์๋ฅผ ์ค์ ํ ๋ ์ด๋ป๊ฒ ์ด๊ธฐํ ์ต์ ํํ ์ง ๋ชจํธํจ ์ ์: ์ข ๋ ํฐ ๋ชจ๋ธ์ด๋ ๋ค์ํ alignment์์๋ ๋์ผํ๊ฒ ๋๋์ง ์ถ๊ฐ ๊ฒ์ฆ์ด ๋ ํ์ํด๋ณด์ | 4.5 |
| ๋น์๋จ | ๊ฐ์ : ๋ง๋ก๋ง ๋ค์ผ๋ฉด ๊ต์ฅํ ์ถ์์ ์ผ ์ ์๊ฒ ๋๋๋งํ๊ฒ์ fig๋ก ์ ์ค๋ช
ํ๊ฑฐ๊ฐ์. DPO์ ๋ณด์/ ์ ์ฑ
๊ณต๊ฐ์ด ์ข์์ ์๊ธฐ๋ ๋ฌธ์ ๋ฅผ '์ถ๊ฐ ๋ณ์๋ก ํํ๋ ฅ์ ๋๋ฆฌ๋ ์์ผ๋ก ์ง๊ด์ ์ผ๋ก ๊ฐ์ ์ ์๋ํจ (๊ทผ๋ฐ ํ์คํ ๋ด์ฉ์ด ์ด๋ ต๋ค) ์ฝ์ : null space๋ ๊ฒฐ๊ตญ ๋ชจ๋ธ์ ์ ์ฑ ์ต์ ํ ๊ณผ์ ์์ (๋ณด์์?) ๋ณํ๊ฐ ์๋ ๊ณต๊ฐ์ ๋ปํ๋๊ฒ ๊ฐ์๋ฐ, null space ์ ํ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์๊ฒ ๊ฐ์. ์ ์: pairwise๋ณด๋ค ํ๋ถํ ๋ญํน ํผ๋๋ฐฑ์ ์ธ ๋์ ํฌ์์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ๊ถ๊ธํจ | 4.2 |
| ์นซ์ | ๊ฐ์ : ์ํ์ ์ผ๋ก ๊ฐ๊ฑดํ๊ฒ ์ค๋ฅ๋ถ์ํ๊ณ ํด๊ฒฐ๋ฐฉ๋ฒ ์ ์ํ๋๋ฐ, ์ด๋ก ์ ์ผ๋ก๋ ๊ฐํ๊ณ ๊ฒฝํ์ ์ผ๋ก๋ ์ฑ๋ฅ ํฅ์ ํผ ์ฝ์ : ๋น์ฉ์ด ์ด๋์ ๋๋ก ์ฆ๊ฐํ์์ง ๊ถ๊ธํจ, ๋ง์ด ์ฆ๊ฐํ๋์ง? ์ ์: ๋ณด๋ค ํฐ ๋ชจ๋ธ์ ๋ํ ์คํ๊ฒฐ๊ณผ. ํจ์จ์ฑ ๊ด๋ จ ๋ถ์์ด๋ ๊ฐ์ | 4.7 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : DPO๊ฐ ๊ฐ์ง๋ ์ ํ ๊ณต๊ฐ์์์ ๊ทผ์ฌ ๋ฌธ์ ๋ฅผ ๊ท๋ช
ํ๊ณ , ํด๊ฒฐํจ. ๋งค๋ฒ ๋๋ผ์ง๋ง, ๊ฒฐ๊ณผ๋ง ๋๊ณ ๋ณด๋ฉด ์ง๊ด์ ์ธ๋ฐ, ์ด๊ฑธ ์ด๋ป๊ฒ ์๊ฐํ์๊นํ๋ ์๊ฐ์ด ๋ ๋ค. DPO์์ reward๋ฅผ ์ฌ์ฉํ์ง ์์๋ ๋ณด์ํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํจ. ์ฝ์ : null space๊ฐ ์์ ๋๋ฅผ ๊ณ ๋ คํ์ง๋ง, ๊ฒฐ๊ตญ ๋ฐ์ดํฐ ๋ถํฌ์ ์ํฅ ๋ฐ๋ ์ ์ ๋งคํ๊ฐ์ง ์๋๊ฐ? ์ ์: ์คํ๋ ค, ์ด ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ๋ดค์ ๋ ๊ตณ์ด DPO์์ reward๋ฅผ ์ ์ธํด์ผ ํ ๊ทผ๊ฑฐ๋ฅผ ๋ฑํ ์๊ฐํ์ง ๋ชปํ๊ฒ ์. main reward๊ฐ ์๋๋๋ผ๋, ๋ณด์กฐ reward ํํ๋ก ๋์ ํ๋ ๊ฒ์ด ๋ฐ์ดํฐ ๋ถํฌ์ ๋ ๊ฒฌ๊ณ ํ ๋ฐฉ๋ฒ์ด์ง ์์๊น? | 4.3 |
| ๋์ค๋ฅ | ๊ฐ์ : DPO๊ฐ์ด prove๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋
ผ๋ฌธ๋ค์ ๋ณดํต์ ํ์ค์ ์ธ issue(๋ ์ข์ ๋ฐ์ดํฐ๋ ๋ณดํต ๋ ์์ธํ๊ธฐ์ ๊ธธ์ด๊ฐ ๋ ๊น)๋ฅผ ๋ด๊ณ ์์ด์ ๊ทธ๊ฒ๋ค์ ํ๊ฒํ
ํ๋๋ฐ, ๋ชจ๋ธ๋จ์ issue๋ฅผ ์ง๊ณ ๋์ด๊ฐ๋ ๊ฒ์ ์ง์ง ์์๋ง ํ ์ ์์ ๊ฒ ๊ฐ๊ณ , ๊ต์ฅํ ์ค์ํ ๋ฌธ์ ์ ์ ์ง์๋ค๋ ์๊ฐ์ด ๋ฆ! Soundness๊ฐ 11/10! ์ฝ์ : ๋น๊ต ๋ชจ๋ธ๋ค์ด ์ข out-dated๋ ๋ฏ ํจ!! ์์์ ์ํด๋๊ณ ์ ํ ๋ผ๋ค์ ์๋ํ์ง? ์ ์: ์ ํํ ๊ฒ์ด ๋ฌธ์ ๋ผ๋ฉด ์์ ๋ชจ๋ธ, ์์ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ถํฐ ํฐ ๋ชจ๋ธ, ํฐ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๊น์ง ์ฌ๋ฆฌ๋ฉด์ DPO์์ ๊ฐ๊ทน ์ฐจ์ด๋ฅผ ๋ณด์ด๋ ๊ฒ์ด ์ด๋ก ์ ์ธ ์ฑ๊ณผ๋ฅผ ๊ฐ์กฐํ๋ ๋ฐ์ ๋์๋ ๊ฒ! | 5 |
| 404 | ๊ฐ์ : DPO์ ๊ฐ์ด ํ๊ธ๋ ฅ์ด ํฐ ํ์ต ๊ธฐ๋ฒ์ ๊ณ ์ง์ ์ธ (๊ทธ๋ฌ๋ ๋ชจ๋๊ฐ ๋์น๊ณ ์๋) ๋ถ๋ถ์ ์บ์นํจ. ๋งค์ฐ ๋๋ํ๊ณ ์ฐ๊ตฌ๋ ฅ(?)์ด ๋ฐ์ด๋์ ๋ถ๋ฌ์. ๋ํ ์ ์๋ค์ motivation๋ฅผ ์์์ /๊ธฐํํ์ ์ผ๋ก ํํํ๊ณ ์ฃผ์ฅํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋จ. ์ฝ์ &์ ์: ๋ ๋ง์ task/๋ ๋ค์ํ backbone LLM์ ๋ํด์ ์คํํ์ผ๋ฉด ๋ด์ฉ์ด ๋ ํ๋ถํด์ก์ ๋ฏ | 4.5 |
| AI | ๊ฐ์ : ์ผํ๋ณด๋ฉด ๋จ์ํ RLHF์ ๋ณ์ด๋ก ๋ณผ ์ ์๋ DPO๋ฅผ ์ฌ์ค์ reward๋ฅผ ์ถ์ ํ๋ ํต๊ณ ๋ฌธ์ ๋ก ํด์ํ๋ ๋ฐ์์ด ๋๋ผ์ ์ฝ์ : ์ฐ์ ๋๋ฉ์ธ๊ณผ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์์๋ ๋ฐ์ดํฐ๋ง๋ค ์ถ๊ฐ ๋ณ์๋ฅผ ๋ง๋๋ ๋ฐฉ์์ด ๋ค์ ์ ํ์ ์ผ ์ ์์๋ฏ? ์ ์: ๋ชจ๋ธ์ด ์์ง์ด๋ local ์์ญ์ ๋์ด global ๊ด์ ์ ํด์์ด ํ์ | 4.7 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : DPO๊ฐ ๋ฐ์ดํฐ ๋ฌธ์ ๊ฐ ์๋๋ผ ์ค๊ณ ์์ค์์ misspecification์ด ์๋ค๋๊ฑธ ์ํ์ ์ผ๋ก ์ฆ๋ช
ํ๊ณ ๋ณด์กฐ๋ณ์๋ก ์ด๋ ๋ฐฉํฅ์ ๋๋ฆฐ๋ค๋ ์์ด๋์ด๊ฐ ๋๋จํ๋ค๊ณ ์๊ฐํจ ์ฝ์ :์คํ์ LLM ํฌ๊ธฐ๊ฐ ์์์ ๋ํ ๋ชจ๋ธ์์๋ ๋์ผํ misspecification ๋ฌธ์ ๊ฐ ์๋์ง ์ ์ ์์๊ฒ ๊ฐ๋ค. ์ ์:๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ฐ๋ฅธ DPO์ AuxDPO์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ๋ ์คํ | 4.5 |
TL; DR
DPO์ ์ ์ ๊ฐ realisticํ์ง ์์์ ์์ํ์ ์ผ๋ก ํํค์นจ
AuxDPO๋ฅผ ํตํด DPO์ Misspecifection๋ฅผ ์ํํ์!
Summary
- ์ฐ๊ตฌ์ง: ์ธ๋๊ณผํ์(IISc Bangalore), HP AI Research
- github: x
- ์ธ์ฉ์: 0ํ
Background & Motivation
Preference-based alignment
๐กgiven comparison data (s, ๏ปฟ, ๏ปฟ), the goal is to shape a policy ฯ whose induced responses align with a latent reward model that generated those preferences.
** ๏ปฟ: state, ๏ปฟ: action, ๏ปฟ: winning action, ๏ปฟ: losing action
- policy model์ ๋๋จ๊ณ์ ๊ฑธ์ณ ํ์ตํด์ผ ํจ
- pretrained model (1์ฐจ ํ์ต)์
โ computational cost๊ฐ ๋๋ฌด ํผ !!
- policy model์ ๋๋จ๊ณ์ ๊ฑธ์ณ ํ์ตํด์ผ ํจ
- DPO (Direct Preference Optimization)
- 2์ฐจ ํ์ต(KL-regularized objective) ๋์ ์, human์ด ์ ํธํ๋/๋ ์ ํธํ๋ preference data๋ฅผ ํ์ฉํจ
- how to?
policy ์์์ ๋ณํ์ ํตํด, reward ํจ์(Eq 4)๋ฅผ policy ํจ์์ ํ๋ฅ ๋ถํฌ(Eq 5)๋ก ํํํ๊ณ ,
์ด๋ฅผ ๊ทผ์ฌํ์ฌ 2์ฐจ ํ์ต(KL-regularized objective)๋ฅผ ๊ทผ์ฌํ
โ 1๋ฒ์ training๋ง์ผ๋ก ํ์ต
โ cost๋ฅผ ์ค์ผ ์ ์์ด, Preference-based alignment ์ ๋์์ด ๋จ
- how to?
- โpolicy class๊ฐ tabularโ์ด๋ผ๋ ์ด์์ ์ธ ๊ฐ์ ์ ์ ์ ๋ก, KL-regularized policy optimization์ ๊ทผ์ฌํ ํ ๊ฒ์
**
policy class: neural network(ฮธ)๊ฐ ์ ์ํ๋ conditional distribution ์ฆ, input์ ๋ํ output ๋ถํฌ**
tabularํ๋ค: ํน์ row(e.g. input)์ ํน์ column(e.g. output)์ ํด๋นํ๋ ๊ฐ(e.g. reward)์ด table์ฒ๋ผ ์ ์๋ ์ ์๋ค!์ฆ, policy class๊ฐ ๋ชจ๋ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ํํํ ์ ์๋ tabular class์ฌ์, ๋ชจ๋ (Input s, output a)์ ๋ํด conditional probability distribution ๏ปฟ ์ ๊ฐ์ง๋ค
โ ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค!!
why?Transformer๋ neural architectures๋ผ์, parameter์ ์๊ฐ ์ ํํจ! (non-tabular)
- 2์ฐจ ํ์ต(KL-regularized objective) ๋์ ์, human์ด ์ ํธํ๋/๋ ์ ํธํ๋ preference data๋ฅผ ํ์ฉํจ
- Main Motivation
non-tabular policy class์์ DPO loss๋ฅผ ์ต์ํํ๋ ๊ฒ์ด full two-stage RLHF์ ๋๋ฑํ๊ฐ? ๋ง์ฝ ๊ทธ๋ ์ง ์๋ค๋ฉด, ideal RLHF-optimal policy๊ณผ ์ด๋ป๊ฒ ๋ค๋ฅธ๊ฐ? ideal RLHF-optimal policy์ ์ฑ๋ฅ๊ณผ ๋์ผํ๋ค๋ ๋ณด์ฅ์ด ์๋๊ฐ? ๋ง์ฝ ๊ทธ๋ ์ง ์๋ค๋ฉด, ํด๊ฒฐ์ฑ ์ด ์๋๊ฐ?
Contributions (What theyโve revealed)

DPO๋, ์ค์ ๋ก ์์ฑ๋ reward function(r*; ๊ฒ์ ์ )๋ฅผ policy class์ ์ํด ์๋ฌต์ ์ผ๋ก ํํ๋๋, reward function์ manifold(DPOโs implicit reward manifold; ์ด๋ก ๊ณก์ )๋ก projectionํจ
- ์ด์์ ์ธ ๊ฑด r*๊ฐ manifold ์์ ์๋ ๊ฒ์ด์ง๋ง, ์๋ ๊ฒฝ์ฐ data distribution์ ์ํฅ์ ๋ฐ์ unreliable solution (์ฃผํฉ ์ )์ผ๋ก projection ํ๋ค
- data๊ฐ Noisyํด์ ๋ฐ์ํ๋ ๊ฒ์ด ์๋๋ผ, ๋ถํฌ ์์ฒด์ ์ํฅ์ ๋ฐ์ unreliableํ๋ค๋ ๊ฒ!
โ AuxDPO๋ฅผ ํตํด ์ถ๊ฐ๋ก ์กฐ์ ํ ์ ์๋ degrees of freedom๋ฅผ ์ถ๊ฐํ์ฌ, projection ์ค์ฐจ๋ฅผ ์ค์
โ ์ด์์ ์ธ RLHF solution ฮธ ์ ๋์ํ๋ reward function( ๏ปฟ; ํ๋์ )์ผ๋ก ํฌ์ํ ์ ์๋๋ก ํ์!
DPO ์๊ณ ๋ฆฌ์ฆ์ด ๋ค์ํ failure mode๋ฅผ ๊ฐ์ง ์ ์์์ ์์์ ์ผ๋ก ๋ฐํ
: ์์ง์ ๋ฐ์ดํฐ(=true reward function rโ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Bradley-Terry-Luce (BTL) model๋ก๋ถํฐ ์์ฑ๋๋ infinite preference data)๋ฅผ ์ฌ์ฉํ๊ณ , ์์ฃผ ๋จ์ํ ์ค์ (single prompt๋ฅผ ์ฐ๊ณ , 3๊ฐ์ง ์๋ต์ ๋ํ 1์ฐจ์ policy parameter ์ฌ์ฉ)์์๋ DPO๊ฐ
๋ ๋ฒ์งธ๋ก ์ข์ ์๋ต์ ๋ ์ ํธํ๋๋ก ํ์ต๋๊ฑฐ๋(
order reversal of preferences)์ต๊ณ ๋ณด์ ์๋ต์ ํ๋ฅ ์ด ๊ธฐ์ค ์ ์ฑ ๋ณด๋ค ๊ฐ์ํจ (
overall reward reduction)โ ํนํ, ์ด๋ค preference pair data๊ฐ ๋ง์ด ์ฌ์ฉ๋์๋์ง(=count)์ ๋ํด์๋ ๋งค์ฐ ๋ฏผ๊ฐํจ.
about Bradley-Terry-Luce (BTL) model
: โ๋ ์ ํ์ง ์ค ๋ฌด์์ ๋ ์ ํธํ๋๊ฐโ ๊ฐ์ pairwise comparison๋ฅผ ํ๋ฅ ๋ก ๋ชจ๋ธ๋งํ๋, ๊ฐ์ฅ ์ฌํํ ์์ฑ ๋ชจ๋ธ ์ค ํ๋
DPO ์๊ณ ๋ฆฌ์ฆ์ misspecified statistical estimation problem์ ๋ฐํ
- tabular assumption ๋๋ฌธ์, ์ค์ DPO์ projection์ด optimalํ์ง ์๋ค!

An example with 3 responses and 1-d policy parameter showing failure modes of DPO. rโ is the latent reward. The red line denotes the linear approximationC(A^โค_ฮธ0 ) of the implicit reward manifold Rฮฒ . The region shaded in orange represents all possible implicit reward functions that DPO can possibly project onto, depending on the relative proportion of pairwise preference counts n_1,2, n_2,3, n_3,1. If n3,1 dominates the rest, then the projection rฮฒ ฮธ induces a postoptimized policy parameter ฮธ > 0, leading to preference reversal and reduction of expected reward, causing DPO to fail. DPO๋ implicit reward manifold( ๏ปฟ;์ค์ DPO๊ฐ ํํํ ์ ์๋ reward ๊ณต๊ฐ;๋นจ๊ฐ์ )์๋ก ์ค์ reward (r*; ํ๋ ์ )๋ฅผ projectionํ๋ ๊ฒ์ด๋ฉฐ, ๋๋ถ๋ถ DPO๋ ๋ฐ์ดํฐ ๋ถํฌ์ ์ํด mis-projection(red dashed line)๋ ๊ฐ๋ฅ์ฑ์ด ํผ
- reward๋, model์ ๋ ์ข์ ์ ํ์ ์ํด policy parameter๋ฅผ ์ด๋ ๋ฐฉํฅ์ผ๋ก updateํ ์ง๋ฅผ ์๋ ค์ค. ๊ทธ๋ฐ๋ฐ ์ค์ DPO์ reward๋ ์ ํํ manifold๋ผ์, reward๋ฅผ ๋ฐ๊พธ๋๋ผ๋ policy๊ฐ ํญ์ ์ ์๋ฏธํ๊ฒ update๋์ง ์๋๋ค!
์ฆ, policy์ ์ํฅ์ ์ฃผ์ง ์๋ null space ๏ปฟ ๊ฐ ์กด์ฌํ๋ค
- tabular assumption ๋๋ฌธ์, ์ค์ DPO์ projection์ด optimalํ์ง ์๋ค!
DPO์ misspecification์ ์ฐํํ๊ธฐ ์ํ AuxDPO ์ ์
: policy์ ์ํฅ์ ์ฃผ์ง ์๋ null space ๏ปฟ ๋ฅผ ์์ ๋๋ก ํ์ฉํ์!

AuxDPO fixes DPOโs misspecification. rโ is the latent reward. The blue line denotes the equivalence class R^ฮฒ_eq(ฮธโ)of all reward functions that yield the RLHFoptimal policy ฯฮธโ . The red line denotes the linear approximation C(A^โค_ฮธ0 ) of the implicit reward manifold Rฮฒ . The region shaded in orange represents all possible implicit reward functions that DPO can possibly project onto. The green line depicts the domain of optimization over AuxDPOโs auxiliary variables ฮด โ N (A_ฯ,ฮธ_0 ) for a fixed ฮธ (the line shifts in parallel for other ฮธ). ฮด introduces additional degrees of freedom, which help push the KL projection of rโ to lie in the equivalence class Rฮธโ . The projection induces the optimal policy ฯฮธโ . DPO๋ implicit reward manifold( ๏ปฟ;์ค์ DPO๊ฐ ํํํ ์ ์๋ reward ๊ณต๊ฐ;๋นจ๊ฐ์ )์๋ก ์ค์ reward (r*; ํ๋ ์ )์ equivalence class(policy ๊ด์ ์์ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ด๋ reward์ ์งํฉ;ํ๋์ )๋ฅผ projectionํ๋ ๊ฒ.
์ค์ ๋ก๋, r*์
optimal policy๊ฐ์ ๏ปฟ ( reward space ๏ปฟ์ด ์๋, null space ๏ปฟ ์ ์์)๋งํผ ์ฐจ์ด๊ฐ ๋ฐ์ํจ.** ๏ปฟ
โ null space ๋ฐฉํฅ์ผ๋ก ์์ง์ด๋, ์ถ๊ฐ์ ์ธ ์์ ๋ (๏ปฟ ; green line)๋ฅผ ํ์ฉํ์ฌ reward space ๏ปฟ ์ ํ์ํ๋๋ก ํ์!
์ฆ, ๏ปฟ ๋ฅผ ๋ง์กฑํ๋ ๏ปฟ ๋ฅผ ํ์ํ ์ ์๋๋ก ๊ธฐ์กด DPO์ ๏ปฟ ํญ์ ์ถ๊ฐํ์ฌ, optimization(green line)ํ์!
โ ๋นจ๊ฐ์ +์ด๋ก์ ์ ํจ๊ป ์์ง์ผ ์ ์๊ฒ ๋์ด misspecification ์ํ!
- ์คํ์ ํตํด AuxDPO์ ํจ๊ณผ ์ฆ๋ช
- ์คํ ์ธํ
- dataset
- for training: ULTRAFEEDBACK
- for eval: MMLU-PRO, REWARDBENCH V2
- LLM: Llama3.1-8B , Llama3.2-1B, Qwen3-0.6B
- dataset
- ๊ฒฐ๊ณผ
- Table1: base LLM ๋๋น mean accuracy ๋ณํ๋(%)
** 10์ด๋ฉด ๋ฒ ์ด์ค๋ณด๋ค ํ๊ท ์ ํ๋๊ฐ 10%p ์ฌ๋ผ๊ฐ๋ค๋ ๋ป- ์ ๋ฐ์ ์ผ๋ก AuxDPO๊ฐ ํฐ ๊ฐ์ ์ ๋ณด์!
- ํนํ out-of-domain (OOD) setting ์์
- DPO๋ ์คํ๋ ค base LLM์ ์ฑ๋ฅ์ ํด์น๊ธฐ๋ ํจ
- Table1: base LLM ๋๋น mean accuracy ๋ณํ๋(%)
- ์คํ ์ธํ
- ์คํ์ ํตํด AuxDPO์ ํจ๊ณผ ์ฆ๋ช









