Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ์ฝ์คํผ | ๊ฐ์ : Ranking Preference ์ ๋ณด๋ฅผ ํ์ตํ์ฌ ์์ ์ ๋ณด๋ฅผ ํ๋ณธ์ ๋ฐ์ํจ์ผ๋ก์จ ์ฑ๋ฅ์ ๋์ธ ์ ์ด ๊ฐ์ ์ฝ์ : Preference๊ฐ ์ด๋ป๊ฒ ๋ Richํด์ก๋์ง ๋ชจํธํจ ์ ์: Preference์ ์ ๋ณด๊ฐ ์ฆ๊ฐ๋์์์ ๋ํ๋ด๋ ์ฆ๋ช ์ด๋ ์ค๋ช ์ด ์ถ๊ฐ๋์์ผ๋ฉด ํจ. | 3.8 |
| ์ผ๋ผ | ๊ฐ์ : ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ ์ ์์ ๋ richํ preference ์ ๋ณด๋ฅผ ํ์ตํ๋ค๋ ์
์ฅ์ ํ์ ์ค์ ์ฝ์ : ๊ตณ์ด ์ฌ๋ฌ ์์ผ๋ก ํ ํ์์ฑ์ ๋ชป ๋๋ผ๊ฒ ์. ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด๋ ์ด๋ฐ ์ ์์ practicalํ ๋ฐฉ๋ฒ๋ก ์ ์๋๋ผ๊ณ ์๊ฐํจ ์ ์: ๋ค์ค preference๊ฐ ์ค์ํ ์์ฆ, RCPO๊ฐ ์ฌ๋ฌ ์ ํธ๊ฐ ๋์์ ์กด์ฌํ๋ alignment ํ๊ฒฝ์์๋ ์ ํจํ์ง๋ฅผ ๊ฒ์ฆํด๋ณด๋ฉด ์ข๊ฒ์ | 3.7 |
| ๋น์๋จ | ๊ฐ์ : preference์ ๋ํ response ์ ๋ณด๊ฐ (๊ณผ๋ํ๊ฒ) ๋ง๋ค๋ฉด response๊ฐ ๊ตฌ๋ถ์ด ๋ ๊ฐ์ ์คํ๋ ค ํ์ต์ ๋ฐฉํด๊ฐ ๋์ง ์์๊น ์๊ฐํ๋๋ฐ ์ ์ญ์ ์ธ ํน์ฑ์ ์๋๊ฒ ๋ ํจ๊ณผ์ ์ธ๊ฐ๋ด ์ฝ์ : ์คํ์๋ ๋์์๋ฏ์ด ์ ๋นํ k๋ฅผ ์ก๋๊ฒ ์ค์ํด๋ณด์ ์ ์: DPO์ top/bottom pair์ ์ฌ์ฉํ๊ฒ์ผ๋ก ๋ณด์ด๋๋ฐ, top2 ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ค๋ฉด ๊ฒฐ๊ณผ๊ฐ ์ด๋จ์ง ๊ถ๊ธํจ | 4 |
| ์นซ์ | ๊ฐ์ : preference๊ฐ ์ด์ง์ ํ์ธ ์ํฉ์์ ์ ํ์ง๊ฐ ๋ณด๋ค ๋ง๋๋ก ๋ชจ๋ธ๋งํ๋ ๊ฑด ์ ๋ฉ๋๊ฐ๋ ๋๊ธฐ. ์ฌ๋ฌ ์ ํ์ง์ ๋ํ ์ ํธ๋ฅผ ๋ถํฌ๋ก ๋ณด์์ ๋ฐฉ๋ฒ๋ก ์ค๊ณํ ๊ฒ๋ ์ ๋ฉ๋๊ฐ ์ฝ์ : ์ด๋ ๊ฒ ์ธ๋ถํํ๋ค ๋ณด๋ฉด SFT ๋๋นํด์ ์ฅ์ ์ด ๋ฌด์์ผ์ง ๊ถ๊ธํจ ์ ์: pairwise PO vs. RCPO vs. SFT ์ฅ๋จ์ ์ฌ์ธต ๋ถ์ | 3.5 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : ์ ํธ๋ ์ต์ ํ ํ์ต์ ๋ํด์, ์๋ก์ด ๋ฐฉํฅ์ ์ ์. ์ฝ์ : ์ฌ๋ฌ๊ฐ๋ฅผ ํ๋ฉด, ์คํ๋ ค noisy ํ ์ ๋ณด๊ฐ ๋ ๋ง์์ง๊ณ , ์ ๊ทธ rank๊ฐ ๋๋์ง๋ ๋ชจํธํด์ง ๊ฒ ๊ฐ์๋ฐ, ๊ทธ๊ฑธ ํ์ตํ๋ ๊ฑด ์คํ๋ ค ๋ ์ด๋ ต์ง ์๋? ์ฐจ๋ผ๋ฆฌ, ranking์ ๋งค๊ธฐ๊ณ dual๋ก ๊ณ์ ๋ฐ๋ณตํ๋ ๊ฑด ์ดํด๊ฐ ๊ฐ ๊ฒ ๊ฐ์๋ฐ, ๊ตณ์ด ์ฌ๋ฌ๊ฐ์ prefernece๋ฅผ ๋งค๋ฒ ํ๋ค๋ ๊ฒ์ด ๋ฉ๋์ด ์ด๋ ค์. ์ ์: ranking์ ๊ทธ๋๋ก ํ๊ณ , ํ์ต์ DPO๋ก ํ๋ฉด ์ด๋ป๊ฒ ๋๋ ค๋? | 3.6 |
| ๋์ค๋ฅ | ์ฅ์ : ์ฑ๋ฅ์ด ์ฌ๋๋ค! ์ฝ์ : ์ด๊ฑฐ ์ด์ ์ ๋ดค๋ ๋ ผ๋ฌธ ์์ด๋์ด๋ ์ข ๊ฒน์น๋ ๊ฒ ๊ฐ์.. instruction evolutionํด์ ๊ฐ๊ฐ์ ์์์ ๋ํ ํน์ฑ์ ํ์ฉํ๋ ๋ ผ๋ฌธ์ด์๋๋ฐ, ๋๋ฌด ์์ด๋์ด๊ฐ ์ฐฝ์์ ์ด์ง ์์ ์ ์: ํด์๊ฐ๋ฅ์ฑ์ ๊ฐ์ง๋ฉด์ ๋ฐ์ดํฐ ์ ๋ ฌ์ ํ ์ ์๋ค๋ฉด ๋ ์ข์์ ๊ฒ. ๊ทธ๋ฆฌ๊ณ evol ๋ฐฉ๋ฒ๋ก ๊ณผ ๋ค๋ฅด๊ฒ hard negative๋ผ๋ ํน์ฑ์ ๋ ๊ฐ์กฐํ ์ ์์ผ๋ฉด ์ข์ง ์์๊น? | 2.5 |
| 404 | ์ฅ์ : preference๋ฅผ binaryํ๊ฒ ๋ฐ์ํ๋ ๊ฒ ์๋๋ผ, ๋ ๋ง์ ํ๋ณด๊ตฐ์ ๋ํด rankingํจ์ผ๋ก์ ์ ๊ตํ preference๋ฅผ ๋ฐ์ํ ์ ์์. (์๋ง๋?) ๋จ์ (์ด๋ผ๊ธฐ๋ณด๋ค ๊ถ๊ธํ ๊ฒ): ๋ง์ฝ a>b>c>d ์ด๋ฉด, ์ด๊ฑธ RCPO๋ก ํ๋ฒ์ ์ฃผ๋ ๊ฒ๋ณด๋ค a>b, a>c, a>d, b>c, b>d, c>d ๋ก ๋ฃ์ด์ฃผ๋ ๊ฒ ๋ชจ๋ธ์ด ๋ ์ ํ์ตํ ์ ์์ง ์์๊น? ์ ์: RCPO๊ฐ ๋ richํ preference์ด๋ฉฐ ํ์ต์ ๋์์ด ๋๋ค๋ ๊ฒ์, ์ฑ๋ฅ์ผ๋ก๋ง ์ ์ํ๋ ๊ฒ ์๋๋ผ, ์ค์ loss๊ฐ ์ด๋ป๊ฒ ๋จ์ด์ง๊ณ ํ์ต ๊ณต๊ฐ์์์ ๋ถํฌ๊ฐ ์ด๋ป๊ฒ ๋ณํํ๋์ง ๋ถ์ํ๋ฉด ์ข์๋ฏ ! | 4 |
| AI | ๊ฐ์ : Pairwise ๋จ์์ preference optimization์ด ์๋, ์ฌ๋ฌ ์๋ต์ ์์๋ฅผ ํ๋ฒ์ ๋ฐ์ํ ์ ์๋ค ๋จ์ : Choice ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ ํ๋๋ฐ,, ์ค์ human preference๋ ๋งฅ๋ฝ ์ง์์ ์์กดํ๊ณ ํญ์ ์ผ๊ด์ ์ด์ง๋ ์์๋ฐ ์ด๋ฐ๊ฒ๊น์ง ๊ณ ๋ ค๋ชปํ๋๊ฑด ์์ฌ์ ์ ์: Preference๋ฅผ ๋ค์ํ ๊ด์ ์์ (e.g., ๋ฌธํ, ๊ฐ์น๊ด) ๊ณ ๋ คํ๋๊ฒ ์ข์ง ์๋โฆ? OrthAlign ๋ ผ๋ฌธ๊ณผ ๊ฒฐํฉํ ์ ์์๊ฑฐ๊ฐ์ | 3.5 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : Pairwise๊ฐ richํ ์ ๋ณด๋ฅผ ํ์ตํ์ง ๋ชปํ๋ค๋ ๋๊ธฐ๊ฐ ๋จ์ํ์ง๋ง ์๊ฐํ๊ธฐ ์ด๋ ค์ด ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐ์ด ๋จ. top k ๋ฐฉ์์ด pairwise ๋ณด๋ค ๋ ์์ฐ์ค๋ฌ์ด ๋ฐฉ์์ธ๊ฒ ๊ฐ๋ค. ๋จ์ : k์ s์ ์ต์ ๊ฐ์ด ํ์คํฌ๋ง๋ค ๋ฌ๋ผ์ง๊ฒ ๊ฐ์๋ฐ ์ค์ ์ ์ฉํ๊ธฐ์ ์ค์ฉ์ฑ์ด ๋จ์ด์ง์ง ์์๊น. ์ ์: top2๊ฐ ์ต์ ์ด๋ผ๋ ์ค๋ช ์ ์ ๊ทธ๋ฐ์ง ์ข ๋ ๊ทผ๊ฑฐ๊ฐ ์์ผ๋ฉด ์ข์๊ฒ ๊ฐ์ | 3.6 |
| ์ปคํผ | ๊ฐ์ : DPO์ RLHF์ ๋
ผ๋ฌธ์ ์ ํ๋ฉด์, ํญ์ pairwise๋ก ํ์ต์ ํ๋ ๊ฒ์ด ๋น์ฐํ๊ฒ ์ฌ๊ฒจ์ก๋๋ฐ, ์ฌ๋ฌ rank ๋น๊ต ์ ๋ณด๋ choice model๊ณผ ํ๋ฅ ๋ถํฌ๊ฐ ์ ์๊ฐ ๋๋ค๋ฉด ๋ฐ์ํ ์ ์๋ค๋ ๊ฒ์ ์๊ฒ ๋ ๋
ผ๋ฌธ์ด์์. ์ฝ์ : ๊ทธ๋ ๋ค๋ฉด ๋น์ฐํ ๋ง์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๊ฒ์ด ์ข์ง ์์๊น ์ถ์์ง๋ง, pairwise์ kโฅ2 ๊ฐ๊ฐ ์์ ์ฑ๋ฅ์ ์ธ ์ธก๋ฉด, ๋น์ฉ ์ธก๋ฉด์ trade-off๋ฅผ ์ ๊ณ ๋ คํด์ผํ ๊ฒ ๊ฐ์. ๋ํ ๋ ผ๋ฌธ์์๋ง ๋ดค์ ๋๋ choice model์ ๋ค์์ฑ๋ ๋ถ์กฑํด ๋ณด์. ๋ํ ํฌ๊ฒ ๋ดค์ ๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๊ธฐ์กด์ RLHF ๋ฐฉ์๊ณผ ํฐ ์ฐจ์ด๋ ์์ด ๋ณด์. ์ ์ : ๋ค์ํ choice model์ ๋ํด์๋ ์ถ๊ฐ ์คํ์ ํตํด ๋ช ํํ ์ผ๊ด์ฑ์ ์ฃผ์์ผ๋ฉด ์ข๊ฒ ์. | 3.6 |
์ธ์ฉ์ : 0
TL; DR
RLHF๋ DPO์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ Pairwise(์) Preference Optimization์ ๋ง์ถฐ์ ธ ์์ด,
๋ ์์ธํ ์ ๋ณด(Human Feedback)๋ฅผ ํ์ตํ ๊ธฐํ๋ฅผ ๊ฐ๊ณผํ๋ค.
โ Response์ ๋ํด Pairwise๋ฟ๋ง ์๋๋ผ, ๊ทธ ์ด์๊น์ง rank๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ ํ์ต์ ์์ผ๋ณด์.
Summary
Introduction & background(โญ)
๊ธฐ์กด LLM์ Fine-tuningํ๋ ๊ธฐ๋ฒ์ผ๋ก RLHF, DPO๊ฐ ์๋ก์ด ํจ๋ฌ๋ค์์ผ๋ก ๋ถ์ํ์์.
โ ํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ์๋ค์ โPreference Pairsโ ์๋ง ์์กดํ์ฌ richํ ๋ค์ ์ ๋ณด๋ค์ 2๊ฐ๋ก ์ค์ฌ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ ๊ฐ์น์๋ ์ ๋ณด๋ค์ ๋ฒ๋ฆด ์ํ์ด ์๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด RCPO(Ranked Choice Preference Optimization)์ ์ ์ํจ.
RCPO๋ ๋ชจ๋ธ์ด ์ ๋ ฅ ํ๋กฌํํธ x๋ฅผ ๋ฐ์ผ๋ฉด,
ํ๋ณด response ์งํฉ์์ โ์์โ ์ ๋ณด๋ฅผ ํ์ตํด ๋ชจ๋ธ์ด preference ์์๋ฅผ ํ์ตํ๊ฒ ํ๋ค.
โญ ํ๋ฅ ๋ถํฌ๋ก ์ ์๊ฐ ๊ฐ๋ฅํ๋ฉด, MLE ํํ์ด ๊ฐ๋ฅํ๊ณ , Objective(=-loss) ํํ์ด ๊ฐ๋ฅํ๋ค.
โญ Choice model : ์ฌ๋ฌ ๊ฐ์ ์ ํ์ง ์ค์์ ์ด๋ค ๊ฒ์ด ์ ํ๋ ํ๋ฅ ์ ํํํ ๋ชจ๋ธ
โ Ranking data๋ฅผ ํ๋ฅ ๋ก ์ฐ๊ธฐ ์ํด ์ฌ์ฉํ๋ค!
โญ Reward model : response์ ํ์ง์ ์ ์๋ก ํ๊ฐํ๋ ๋ชจ๋ธ
- Conceptual Framework : LLM์ Fine-tuning๊ณผ Choice Modeling์ ์ฐ๊ฒฐํ๋ค.
โ Choice Model์ด ํ๋ฅ ๋ถํฌ์ด๋ฏ๋ก, LLM Fine-tuningโChoice modelโMLE ์ฐ๊ฒฐ์ด ๊ฐ๋ฅํ๋ค.
- Concrete Example of Choice model : ๋ํ์ ์ธ Choice model ์์๋ก MNL๊ณผ Mallows-RMJ๋ฅผ ์ฌ์ฉ.
โ ๊ฐ choice model๋ณ๋ก objective ํจ์๋ฅผ ์ ์
- Experiments : RCPO Framework๋ฅผ Llama-3-8B-Instruct, Gemma-2-9B-it, Mistral-7B-Instruct์์ ํ๊ฐ.
โ In-distribution, out-of-distribution benchmark์์ ํ๊ฐํจ.
Motivation
- Richํ ์ ๋ณด๋ฅผ ์์ ์ ์๋ Pairwise ๋ฐฉ์์์, ๊ผญ Response ํ๋ณธ์ 2๊ฐ๋ก ๋์ด์ผ ํ ๊น?
โ 2๊ฐ ์ด์์ ์ค์ ํด๋ณด์.
- 2๊ฐ ์ด์์ผ๋ก ์ค์ ํ๋ค๋ฉด, ํด๋น ํ๋ณด Response๋ค์ ์ด๋ป๊ฒ ๋ง๋ค๊น?
โ ๋ชจ๋ธ์์ ๋์จ ํ๋ณด response๋ค์ reward model์ ๊ธฐ๋ฐ์ผ๋ก ์ ์๋ฅผ ๋งค๊ฒจ ๋ง๋ ๋ค.
- Choice model์ LLM๊ณผ ์ฐ๊ฒฐ์ํฌ ์ ์์๊น?
โ ๋ชจ๋ธ Fine-tuning์๋ Objective ํจ์๊ฐ ํ์ํ๋ฐ, ์ด๊ฒ์ ํ๋ฅ ๋ถํฌ์ MLE๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋๊ธฐ ๋๋ฌธ์, Choice model์ ํ๋ฅ ๋ถํฌ๋ก ์ ์ํ ์ ์๋ค๋ฉด ๊ฐ๋ฅํ๋ค.
- ํ๋ณด Response๋ฅผ 2๊ฐ ์ด์์ผ๋ก ์ค์ ํ๋ค๋ฉด, ๊ฒฐ๊ณผ์ ๊ฐฏ์๋ ์ํฅ์ด ์์๊น?
โ Preference ์์ ์ ๋ณด๊ฐ ๋ง๋ค๋ฉด ๋น์ฐํ ์ข์๋ณด์ธ๋ค. ์คํ์์ ํ์ธ.
โญ ๊ฒฐ๊ณผ์ ์ผ๋ก, Preference์ ๋ฐ๋ฅธ ์์ ์ ๋ณด๋ฅผ ๋ชจ๋ธ์ด ํ์ตํจ์ผ๋ก์จ, ์ง์ญ์ ์ ๋ณด์์ ์ ์ญ์ ์ธ ์์ ์ ๋ณด๋ฅผ ์๊ฒ๋๋ค!
**์๋ figure๋ Pairwise, Single-Best Feedback, Top-k Feedback ๊ตฌ์กฐ์ด๋ค.
Contribution
์ ์ฒด ํ์ดํ๋ผ์ธ
(1) ์ด๋ฏธ ํ๋ จ๋ LLM์ ๊ฐ์ ธ์ด
Llama-3-8B-instruct, Gemma-2-9B-it, Mistral-7B-instruct
(2) Choice model ์ ํ(MNL, Mallows-RMJ)
(3) ์ ํ๋ Choice model์ ๋ฐํ์ผ๋ก objective function ์ ์(=Loss)
(4) TrainData Set์ ํตํด Ranked based preference data๋ฅผ ๋ง๋ฆ.
UltraFeedback Dataset์ ์ฌ์ฉํจ.
- LLM์ UltraFeedback Dataset์ ํ๋กฌํํธ x ์ ๋ ฅ
- x๋ฅผ ๋ฐ๊ณ LLM์ด ์์ฑํ ์ฌ๋ฌ ์๋ต(ํ๋ณด ์งํฉ)์ ๋ํด reward model๋ก ์ ์๋ฅผ ๋ถ์ฌ ํ ์ ๋ ฌ
- (X,S,ฮผk) ํํ๋ก ๋ฐ์ดํฐ ๊ตฌ์ถ
(5) ์์์ ์์ฑ๋ ๋ฐ์ดํฐ์ objective function์ผ๋ก LLM์ Fine-tuning
- Mallows-RMJ-PO-Top-2 ๋ฐฉ์์ด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข๊ธฐ์, ๋ํ์ ์ผ๋ก ์ค๋ช ํจ.
- ๋์ ์์์ ๋ํ ๊ฐ์ค์น๋ ์ฌ๋ฆฌ๊ณ , ๋ฎ์ ์์์ ๊ฐ์ค์น๋ ๋ฎ์ถค.
- ๋ํ S์์ ๋ญํน์ ์์น์ reward์ ๋น์ทํ ์ ๋์ ๋ฐ๋ผ์ ์ ๋ฐ์ดํธ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ค.
Experiment & Result
- out-of-distribution : AlpacaEval 2.0 / Arena-hard-v0.1 (๋ช
๋ น์ด ์ํ ๋ฒค์น๋งํฌ)
AlpacaEval 2.0 = Fine-Tuning LLM๊ณผ GPT-4-Turbo์์ ์์ฑ๋ ๋ต๋ณ์ ๋ํ WR๊ณผ LC๋ก ์ธก์ .
Arena-hard-v0.1 = Fine-Tuning LLM๊ณผ GPT-4-0314์ ๋ํ WR์ ์ธก์
โ Q : ์ด๋ ๊ฒ ํ๋ ์๋ฏธ๋?
โ A : [Fine-Tuning ๋ชจ๋ธ ์ถ๋ ฅ๊ณผ ํ๊ฐ์ ์ญํ ์ ๋ชจ๋ธ ์ถ๋ ฅ]์ ๋๊ณ , GPT-4.1-mini๋ฅผ ํตํด ์ด๋ ๊ฒ์ด ๋ ์ ํฉํ ์ถ๋ ฅ์ธ์ง ํ๊ฐํ๋ค.
Arena-Hard-v0.1์์๋ GPT-5-mini๋ฅผ ์ฌํ์ญํ ์ ์ถ๊ฐ ์ฌ์ฉํจ.
- in-distribution
[Fine-Tuning ๋ชจ๋ธ ์ถ๋ ฅ๊ณผ ๊ธฐ์กด Test Dataset์ Preference Response] ๋ฅผ ๋๊ณ GPT-4.1-mini๋ฅผ ํตํด ์ด๋ ๊ฒ์ด ๋ ์ ํฉํ ์ถ๋ ฅ์ธ์ง ํ๊ฐํ๋ค.
Llama-3-8B-Instruct
- ์ ๋ฐ์ ์ผ๋ก Mallows-RMJ-PO-Top-2๊ฐ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์์ ํ์ธํ ์ ์์
- Top-2์ธ ์ด์ ?
โ Top-2 Feedback์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก Top-1๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ ๊ฒ์ ํ์ธ.
- Choice model์ ์ํฅ
์ด๋ค Choice model์ ์ฐ๋๋์ ๋ฐ๋ผ์, ์ฑ๋ฅ์ด ์ข์ฐ๋๋ค.
โ Q) AlpacaEval 2 dataset์ LC ๋ถ๋ถ์์ SimPO์ ์ฑ๋ฅ์ด ์ ๋ ์ข์๊น?
โ A) LC๋ ๊ธธ์ด ๋ณด์ ์ ํ ํ์ ๋น๊ต ๊ฒฐ๊ณผ๋ก, SimPo๊ฐ ๊ธธ์ด์ ๋ ์์กด์ ์ด๊ณ , ์์ ์ ์ด๊ธฐ ๋๋ฌธ.
๋ค๋ฅธ LLM ๋ชจ๋ธ์ ์ ์ฉํ์ ๋์ ๊ฒฐ๊ณผ
Ablation Study
๋ง์ฐฌ๊ฐ์ง๋ก, Llama-3-8B-Instruct๋ฅผ ์ฌ์ฉํ๊ณ , ์์์ ๊ฐฏ์ K์ ์งํฉ ํฌ๊ธฐ S๋ฅผ ์ดํด๋ด.
- K์ ์ฑ๋ฅ์ ํญ์ ๋น๋กํ์ง ์์.
โ K๊ฐ ์ปค์ง์๋ก, ์ ๋ ฌ ๊ณผ์ ๊ณผ ํญ๋ชฉ๋ค์ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์์ง.
- S๋ ์ฑ๋ฅ์ ์ผ๋ฐ์ ์ผ๋ก ๋น๋กํ์ง๋ง, S=3๋ง์ผ๋ก๋ S=2(Pairwise)์ ๋นํด ์๋นํ ๊ฐ์ ์ ๋ฌ์ฑํจ.
โ๋ํ, S๊ฐ ์ปค์ง์๋ก negative sample์ด ์๊ฒจ, LM์ด ๊ตฌ๋ณ ๋ฅ๋ ฅ์ ํ์ตํ ์ ์์.
๐กS์ K์ ๊ท ํ์ ๋ง์ถ๋ ์ค๊ฐ ์ ๋์ ๊ฐ์ด ์ด์์ ์ด๋ค.
- K์ ์ฑ๋ฅ์ ํญ์ ๋น๋กํ์ง ์์.
- out-of-distribution : AlpacaEval 2.0 / Arena-hard-v0.1 (๋ช
๋ น์ด ์ํ ๋ฒค์น๋งํฌ)
conclusion
RCPO๋ Preference Optimization(์ ํธ๋ ์ต์ ํ)๊ณผ Choice Model Estimation(์ ํ ๋ชจ๋ธ ์ถ์ ๋ฒ)์ ์ฐ๊ฒฐํ๋ Framework์.
MLE๋ฅผ ์ฌ์ฉํ์ฌ RCPO๋ Pairwise, Single-Best, Top-K Preference Data๋ฅผ ํตํฉํจ.
Utility-Base์ Rank-Base Choice model์ ์์๋ก,
RCPO๋ Pairwise๋ณด๋ค ๋ ํ๋ถํ ํผ๋๋ฐฑ์ ๋ณด์กดํด๋ด๋ ์ฑ๋ฅ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค.
๐ฌ ๊ธฐ์กด ์ฐ๊ตฌ๋ Preference Pairwise์ ๋ํด ํ์ตํ๋ฏ๋ก, richํ ์ ๋ณด๋ฅผ ํ์ตํ์ง ๋ชปํ๋ค.
โ RCPO๋ ์ฌ๋ฌ response์ ๋ํ ranking preference ์ ๋ณด๋ฅผ choice model์ ํ๋ฅ ๋ก ๋ณํํ์ฌ, LLM์ ํ์ต์ํจ๋ค.
โญ ๋ richํ preference ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๋ค.
๏ปฟ



















