TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : trust region์ ์ ์ํ๊ณ , ๊ทธ ์์์ ํจ์จ์ ์ผ๋ก optimization์ํ. ๊ธฐ์กด clipping๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ โข ๋จ์ : ๋ motivation ๊ฐ ์ฐ๊ณ์ฑ์ด ๋ถ์กฑํจ. Sparse projection์ด๋ PPO clipping์ด๋ ๋ญ ์๊ด์ธ์ง??? โข ๋ณด์์ : token distribution์ efficiency ๊ฐ์กฐ ์คํ | 2.8 |
| ์์ด๋ฆฌ์ค | โข ์ฅ์ : ์ ์ง์ , ์ ๋์ ํ์ต์ด๋ผ๋ ์์ด๋์ด๋ฅผ ์ง๊ด์ ์ผ๋ก ์ ํ์ด๋ด๊ณ , ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ ์ ํ์ด๋. ์ฑ๋ฅ์ ์ผ๋ก ์ฐ์ํจ. โข ๋จ์ :method๊ฐ ๋ฌด์์ ํด๊ฒฐํ๋๊ฒ์ธ์ง ๋ชจํธํ๊ฒ ๋๊ปด์ง. Projection์ ์ผ๋ถ๋ง ํ๋ค๋ ๊ฒ๋ ์ดํด๊ฐ ์กฐ๊ธ ์ด๋ ค์. ๋ ผ๋ฌธ์ ๊ธฐ์ฌ์ ์ด ๋ฌด์์ธ์ง ์ ๋ชจ๋ฅด๊ฒ ์. โข ๋ณด์์ : ํ์ต์ด ํฌ๊ฒ ๋์ด๋ ์คํ๋ ค ์ต์ ์ ์ ๋ ๊ฐ๊น์์ง ์ ์์ง ์๋? ๋์ ์ผ๋ก ๊ณ ๋ คํด์ผ ํ์ง ์๋? ๋ผ๋ ์๊ฐ | 3.5 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : ์ ์ฑ
์
๋ฐ์ดํธ๊ฐ trust region ๋ด์์ ์ผ์ด๋๋ ๊ฒ์ ๋ณด์ฅํ๋ ์์์ clipping ๊ธฐ์ค๊ฐ์ ์ฌ์ฉํ์ง ์์. ํ์ต์ด ์์ ์ ์ธ ๋ฒ์์์ ์ต๋ํ์ ํจ๊ณผ๋ก ์ผ์ด๋๊ฒ๋ ํจ โข ๋จ์ : policy clipping์ด ๋ ํจ๊ณผ ์ข์ ๊ฒฝ์ฐ๋ ์์๊น? reasoning ๋๋ฉ์ธ์ด ์๋๋ผ๋ฉด? โข ๋ณด์์ : ํ ๋๋ฉ์ธ ๋ฒค์น๋งํฌ ์คํ | 4.3 |
| ์๋์ง | โข ์ฅ์ : PPO์ reward๋ฌธ์ ๋ฐ policy update์ ๊ด๋ จํด์, KL Constraint ๋ถ๋ถ๋ ๊ฐ์ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด๊ณ , ํญ์ ์๋ฒฝํ ์๊ณ ๋ฆฌ์ฆ์ ์๋ค๋ ๊ฒ์ ๋ค์ ํ๋ฒ ๋๋ ์ ์์์. ํนํ policy์ update ํฌ๊ธฐ๋ฟ๋ง ์๋๋ผ ๋ฐฉํฅ๊น์ง ๊ณ ๋ คํ๋ ์ฐ๊ตฌ์. โข ์ฝ์ : Top-k๋ฅผ ๊ณ ๋ คํ๋๊ฒ ์ต์ ์ ์ ํ์ผ๋ก ๋ณด์ด๊ธด ํ์ง๋ง, long tail ํ ํฐ์ ๋์น๋๊ฒ์ ์ด์ฉ ์ ์์ด ๋ณด์. โข ๋ณด์์ : trade-off๋ ํผํ ์ ์๊ฒ ์ง๋ง, ํ ํฐ์ ๋ค์์ฑ์ ์ฑ๊ธธ ์ ์๋ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ๋ํ ์คํ์ด ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 3.8 |
| 3์ | โข ์ฅ์ : Heuristic์ ๊ธฐ๋ฐํ์ฌ ๊ตญ์์ ์ธ ๊ด์ ์ ํ์
ํ๊ธฐ ์ด๋ ค์ด ๊ธฐ์กด clipping๊ณผ ๋ฌ๋ฆฌ, ๊ฐ ํ ํฐ๋ง๋ค constraint๋ฅผ ์ ์ฉํด์ ํน์ ํ ํฐ๋ง ๊ณผํ๊ฒ ๋ฐ๋๋ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํจ โข ์ฝ์ : ํ์ต ์์ ์ฑ์ ๊ธฐ์ฌํ๋ ์ง์ ์ ์ธ ์์ธ์ธ projection, sparsification์ ๋ํ ablation ์คํ์ด ๋ถ์ฌํจ. โข ๋ณด์์ : ์์ ์ฑ ๋๋ฌธ์ ์ค์ง์ ์ผ๋ก policy๊ฐ ์ผ๋ง๋ ์๊ณก๋๋์ง tradeoff๋ฅผ ๋ณด์ฌ์ฃผ๋ ์คํ์ ์ถ๊ฐํ๋ฉด ์ข์๋ฏ | 3.6 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : clipping ๋ง ๋์ฒดํ๋ฉด ๋๋ค๋ ์ ์์ ํ๋ฌ๊ทธ์ธ ํธํ์ฑ์ด ์ข์ โข ๋จ์ : PPO๋ ผ๋ฌธ์ ์ค์ ๋ก ๋ค์ํ ๋๋ฉ์ธ์ ๋ํ ์คํ์ด ์๋ ๋ฐ์ ๋นํด ํด๋น ๋ ผ๋ฌธ์ ์ํ์ชฝ ๋ฐ์ ์์ โข ๋ณด์์ : ์ํ ์ด์ธ์ ๋๋ฉ์ธ์์๋ ์ฑ๋ฅ์ด ์ด๋จ์ง ๊ถ๊ธํจ | 3.0 |
| ํผ์ฆ์น์ | โข ์ฅ์ : ๊ธฐ์กด CLIP์ด ๊ทผ์ฌ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๋ ๊ฒ์ ์ ์ง๊ณ ์ด๋ฅผ ๋ช
์์ ์ผ๋ก ์ง์ ๊ฐ์ ํ๊ณ ์ ํ๋ ์๋๋ ์ข์๋ฏ โข ๋จ์ : token-level ๋จ์๋ก ์์ ์ ์ผ๋ก ๋ง๋ค๊ณ ์ ํ๋๋ฐ, ์ด token ๋ณ ๋ฎ์ KL์ด sequence-level์ ๋ํด์ ์์ ์ฑ์ ๋ณด์ฅํ ์ง๋ ์๋ฌธ์ โข ๋ณด์์ : ์ฅ๋ฌธ generation์์์ ์คํ์ด๋ global์ ์ธ ์ธก๋ฉด์ ์ถ๊ฐํ๋ฉด ์ข๊ฒ ์ | 3.9 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : PPO clipping์ ๊ฐ ํ๋๋ก ๋ชจ๋ ํ ํฐ์ ๋๊ฐ์ด ์ ํํ๋๋ฐ, TROLL์ ํ ํฐ๋ง๋ค ๊ฐ๋ณ์ ์ผ๋ก ์ผ๋ง๋ ๋ฐ๋์๋์ง ๋ณด๊ณ ์ ์ดํ๋ค๋ ์ ์ด ํฉ๋ฆฌ์ ์ผ๋ก ๋๊ปด์ง. โข ๋จ์ : Trust region ์์ผ๋ก projectionํ ๋ ๊ธฐํ ํ๊ท ์ ์ฐ๋ ๊ฒ ์ต์ ํด๋ผ๊ณ ํ๋๋ฐ, ์ด๊ฒ ์ ์ต์ ์ธ์ง ์ถฉ๋ถํ ์ค๋ช ๋์ง ์๋๊ฒ ๊ฐ์. โข ๋ณด์์ : ์ํ์ฒ๋ผ ์ ๋ต์ด ๋ช ํํ ํ์คํฌ๊ฐ ์๋๋ผ, reward ์์ฒด๊ฐ ๋ชจํธํ ๋๋ฉ์ธ์์๋ TROLL์ด ์ ์๋ํ๋์ง ์คํ์ด ์์ผ๋ฉด ๋ ์ค๋๋ ฅ์ด ์์ ๊ฒ ๊ฐ์. | 3.5 |
| ์ค์ฐจ | โข ์ฅ์ : ๋จ์ Clipping์ ๊ฐ์ ์ ํํ์ฌ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋๋ฐ ์ด ๋ฐฉ๋ฒ์ Trust Region์ผ๋ก Project์ ํจ์ผ๋ก์จ Gradient๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์ด ์ด ์ฐ๊ตฌ์ ๊ฐ์ ์ผ๋ก ๋ณด์. โข ๋จ์ : Sparse Projection ๋ฐฉ์์ธ๋ฐ ์ด๋ฌ๋ฉด ๊ณ์ฐ ๋น์ฉ์ด ๋ฎ์์ง์ง๋ง ์ต์ ์ธ ์ํ๊ฐ ์ ์ง๋๋์ง ์๋ฌธ์. ์ฌ๊ธฐ์ ๋ํ ์คํ์ด๋ ์ฆ๋ช ์ด ๋ถ์กฑํจ. โข ๋ณด์์ : TROLL์ด PPO Cliping๋ณด๋ค LLM์์์ ์ฑ๋ฅ์ด ๋์์ง๋ค๋ ์คํ ๊ฒฐ๊ณผ๋ง ์ ์ํ์ง ๋ง๊ณ , ๋ค์ํ Task์ ๋ํด์ ์คํ์ ์งํํ๋ ์ผ๋ฐ์ฑ์ด ์ถ๊ฐ๋์์ผ๋ฉด ํจ. | 3.6 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ๊ธฐ์กด ๋
ผ๋ฌธ๋ค์ด ๊ทธ๋ฅ PPO ๊ฐ๋ค์ฐ๋๋ฐ ๋ฐํด, ์ด๊ฒ optimalํ์ง ๊ฒํ ํ๊ณ optimalํ point๋ฅผ ์ ์ํ๋ ๊ฒ์ ์์ฃผ ๊ธฐ์ฌ๊ฐ ํผ! ์ด์ ๊ฐํํ์ต ์ฐ๋ ๋
ผ๋ฌธ๋ค์ PPO ๋์ TROLL์ ์จ์ผ ํ ์ง๋.. ์ฝ์ : policy gradient๊ฐ ํด ๋ ํญ์ ์์ข์ ๊ฒ์ธ์ง์ ๋ํ ๊ฒ์ฆ์ด ๋ฏธํกํ ๊ฒ ๊ฐ์, ์ด๋ฏธ ์ ํ์ฐ๊ตฌ๊ฐ ์๋? ์ ์์ : Case study๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด ๋ ์๋ฟ์ ๊ฒ ๊ฐ์! | 4 |
TL; DR
๐ก
LLM์ RL๋ก ํ์ตํ ๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ๋๋ฌด ํฌ๊ฒ ๋ฐ๋๋ฉด ๋ง๊ฐ์ง๋ฏ๋ก, ํ์ฉ๋ ๋ฒ์ ์์์๋ง ์ ๋ฐ์ดํธํด์ ์์ ํ๊ฒ ํ์ต์ํค์
Summary
- ์ฐ๊ตฌ์ง: ์นด๋ฅผ์ค๋ฃจ์ ๊ณต๊ณผ๋ํ, ๋ง์ดํฌ๋ก์ํํธ
- ์ธ์ฉ์ : 2
Preliminary
Trust Region method๋?
โํ ๋ฒ์ ๋๋ฌด ๋ฉ๋ฆฌ ๊ฐ์ง ๋ง๊ณ , ์์ ํ ๋ฒ์ ์์์๋ง ์ ๋ฐ์ดํธํ์โ
- ์ผ๋ฐ์ ์ธ gradient update ์์
- ๏ปฟ
โ Gradient๊ฐ ํฌ๋ฉด ๋ณํ๋์ด ๋๋ฌด ์ปค์ ธ ์ฑ๋ฅ ์์ ์ฑ์ด ์ ํ๋จ
โ RL์์๋ reward variance๊ฐ ํฌ๊ณ policy๊ฐ ์กฐ๊ธ๋ง ๋ฐ๋์ด๋ ๊ฒฐ๊ณผ๊ฐ ํฌ๊ฒ ๋ณํ๊ธฐ์ ์น๋ช ์
- ๏ปฟ
- ๊ทธ๋ฌ๋ฉด ์ด๋ป๊ฒ ์ ์ํ๋? โ KL Divergence๋ก ์ ์
- ๏ปฟ
- ์๋ก์ด policy์ ๊ธฐ์กด policy๊ฐ ๋๋ฌด ๋ฌ๋ผ์ง์ง ์๋๋ก ์ ํ์ ๋
โ ์ต์ ํ ๋ชฉํ: reward ์ต๋ํํ๋ฉด์ policy ๋ณํ๋ ์๊ฒ!
- ๏ปฟ
- ์ผ๋ฐ์ ์ธ gradient update ์์
PPO (Proximal Policy Optimization)์ด๋?
โKL constraint ๊ณ์ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฌ๋ clipping์ ํ์ฉํ์ฌ ๊ทผ์ฌํ์!โ
- ์๋ก์ด policy๊ฐ ํน์ action์ ์ผ๋ง๋ ๋/๋ ์ ํธํ๋ ์ง ๋น์จ ์ ์
- ๏ปฟ
- ๊ทธ๋ฌ๋ ์ฌ์ ํ ๋น์จ์ด ๋๋ฌด ์ปค์ง๊ฑฐ๋ ์์์ง ์ ์์ โ Clipping์ ํ์
- ๋น์จ์ด ์ ์ ๋ฒ์ ์ด๋ด์ธ ๊ฒฝ์ฐ โ ๏ปฟ โ ์ข์ action์ด๋ฏ๋ก ๊ทธ๋๋ก ์ฌ์ฉ
- ๋น์จ์ด ๋๋ฌด ์ปค์ง๋ ๊ฒฝ์ฐ โ ๏ปฟ โ Clipํด์ ๊ณผ๋ํ ์ ๋ฐ์ดํธ ๋ฐฉ์ง
- ๋น์จ์ด ๋๋ฌด ์์์ง๋ ๊ฒฝ์ฐ โ ๏ปฟ โ Clipํด์ ๊ณผ๋ํ ์ ๋ฐ์ดํธ ๋ฐฉ์ง
- ์๋ก์ด policy๊ฐ ํน์ action์ ์ผ๋ง๋ ๋/๋ ์ ํธํ๋ ์ง ๋น์จ ์ ์
์ฐ๊ตฌ ๋๊ธฐ
LLM์ย post-training ๋จ๊ณ์์
- RLHF / RLVR ๋ฑย ๊ฐํํ์ต ๊ธฐ๋ฐ fine-tuning์ด ํ์ค ๋ฐฉ๋ฒ์ด ๋จ
- ๋๋ถ๋ถ์ ๋ฐฉ๋ฒ์ย PPOย ๊ธฐ๋ฐ policy gradient ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ
- ๋ชจ๋ธ์ด ์์ฑํ ํ ํฐ์ ๋ํด advantage ๊ณ์ฐ
- ๊ธฐ์กด policy์ ์๋ก์ด policy์ ๋น์จ ๊ณ์ฐ์ ํตํด policy gradient ์ ๋ฐ์ดํธ
- ์ ๋ฐ์ดํธ ํญ์ด ๋๋ฌด ์ปค์ง์ง ์๋๋ก clipping ์ ์ฉ
โ policy ๋ณํ๊ฐ ๋๋ฌด ์ปค์ง๋ ๊ฒ์ ๋ง์ ํ๋ จ ์์ ์ฑ ํ๋ณด
์ด ๋ ผ๋ฌธ์ ๋ค์ ์ง๋ฌธ์์ ์ถ๋ฐํจ
โLLM ๊ฐํํ์ต์์ PPO clipping์ด ์๋ ๋ principledํ trust region ๋ฐฉ์์ด ํ์ํ์ง ์์๊น?โ
๊ธฐ์กด PPO clipping ๋ฉ์ปค๋์ฆ์ ํ๊ณ
- Clipping์ ์ด๋ก ์ ์ผ๋ก ์ ํํ trust region์ด ์๋, ๋จ์ํ ๋น์จ์ ์๋ฅด๋ heuristic ๋ฐฉ์์
- Clipping ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ฉด gradient๊ฐ ์ฌ๋ผ์ง๋ ๋ฌธ์ ๋ฐ์ โ ๋๋ฆฐ ์๋ ด
- ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฏผ๊ฐํ์ฌ ๋ฎ์ reproducibility๋ฅผ ๋ณด์
- Continuous action ์ค์ฌ์ด๋ผ discrete ํ ํฐ ๋ถํฌ๋ฅผ ๊ฐ์ง๋ LLM์ ๋ฐ๋ก ์ ์ฉ์ด ์ด๋ ค์
์ ์ ์์ด๋์ด
๊ทธ๋ฆผ ์ค๋ช
- 3 ํ ํฐ ๋ถํฌ (๊ณ ์์ด / ํธ๋กค / ํ์คํฐ) ๋ฅผ ๋ํ๋
- ๊ธฐ์กด policy๋ ํธ๋กค ํ ํฐ์ ์ ํธํ๊ณ , ์๋ก์ด policy๋ ํ์คํฐ์ชฝ์ผ๋ก ์ด๋
- ๊ทผ๋ฐ ๋๋ฌด ๋ฉ๋ฆฌ ์ด๋์ํค๋ฉด ์๋๋๊น trust region ์์ผ๋ก projectionํด์ ๋์ด์ค์!
- ๊ทผ์ฌ ๋ฐฉ์์ธ clipping์ด ์๋, ์ ํํ trust region์ ํ์ฉํ์ฌ projectionํ์!
- ์๋ก์ด policy์ ์ต๋ํ ๊ฐ๊น๊ฒ ์ ์งํ๋ฉด์ old policy์ KL ๊ฑฐ๋ฆฌ ์ ํ
- Token-level KL constraint
- LLM์ ์ํ์ค์ด๊ธฐ ๋๋ฌธ์ ๊ฐ ํ ํฐ ๋ถํฌ์ ๋ํด trust region ์ ์ฉ
- Sparse projection (LLM scaling ๋ฌธ์ ํด๊ฒฐ)
- ํ๋ฅ ๋์ ํ ํฐ๋ง ์ ์งํ์ฌ projection ๊ณ์ฐ ๋น์ฉ์ ๋ฎ์ถค
Methods
Trust Region Projection
- ์๋ก์ด ๋ชจ๋ธ์ด ๋ง๋ policy ๏ปฟ์ ์ต๋ํ ๊ฐ๊น๋, ๊ธฐ์กด policy ๏ปฟ์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๋ ๋ถํฌ๋ฅผ ์ฐพ์๋ผ!
โ ๊ทธ๋ผ ์ต์ ํด๋ ๋ฌด์์ด์ผ?
- ๊ธฐ์กด policy์ ์๋ก์ด policy์ ๊ธฐํ ํ๊ท
- KL constraint๊ฐ ๋ถ์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํ๋ฉด log-space์์ linearization โ ์ดํ exponential ์ทจํ๋ฉด ๊ธฐํ ํ๊ท ์ด ๋จ
- ๊ธฐ์กด policy์ ์๋ก์ด policy์ ๊ธฐํ ํ๊ท
- ํํธ, projection์ ์ผ๋ถ ํ ํฐ์๋ง ํ์ํ๋ค!
- ๋๋ถ๋ถ ํ ํฐ์ ์ด๋ฏธ KL constraint๋ฅผ ๋ง์กฑํด์ ๊ทธ๋๋ก ์ฌ์ฉํ๊ณ , ์ผ๋ถ ํ ํฐ๋ง projection ํ์
- ์๋ก์ด ๋ชจ๋ธ์ด ๋ง๋ policy ๏ปฟ์ ์ต๋ํ ๊ฐ๊น๋, ๊ธฐ์กด policy ๏ปฟ์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๋ ๋ถํฌ๋ฅผ ์ฐพ์๋ผ!
Sparse & Efficient Representations of Token Distributions
- Qwen3์ vocab size๋ 151936
- ํ ํฐ ํ๋๋น 15๋ง๊ฐ์ ํ๋ฅ ์ ๊ณ์ฐํด์ผ ํจ โ ๋๋ฌด ๋น์ธ์ ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅ
โ ๋ถํฌ๋ฅผ sparseํ๊ฒ ๋ง๋ค์ด์ ์ค์ํ ํ ํฐ๋ง ๋จ๊ธฐ์!
โ ๋ฉ๋ชจ๋ฆฌ OOM ๋ฐฉ์ง ๋ฐ ๊ณ์ฐ ํจ์จ์ฑ ์ฆ๊ฐHow?
- ํ๋ฅ ๊ธฐ์ค top-K ํ ํฐ ์ ํ
- ํ๋ฅ ์ ๋์ ํฉํด์ ํน์ threshold (e.g., 99.9%)๊น์ง ์ฑ์ฐ๋ ํ ํฐ๋ง ์ ์ง
- ๋ชจ๋ธ์ด ์ค์ ๋ก ์ ํํ ํ ํฐ์ ํฌํจ์์ผ gradient ๊ณ์ฐ์ ํ์ฉ
- ํ๋ฅ ๊ธฐ์ค top-K ํ ํฐ ์ ํ
- Qwen3์ vocab size๋ 151936
Experiments
์คํ ๋ชฉ์
- PPO clipping์ TROLL๋ก ๊ต์ฒดํ๋ฉด ์ฑ๋ฅ์ด ์ข์์ง๋๊ฐ?
- ๋ค์ํ ๋ชจ๋ธ๊ณผ RL ์๊ณ ๋ฆฌ์ฆ์์๋ ํจ๊ณผ๊ฐ ์ ์ง๋๋๊ฐ?
- ์ํ reasoning / ์ฝ๋ ์์ฑ ๊ฐ์ ์ค์ RLVR task์์๋ ํจ๊ณผ๊ฐ ์๋๊ฐ?
๋ฐ์ดํฐ์
- DAPO-Math : ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ RL๋ก ํ์ตํ๋๋ฐ ์ฌ์ฉ๋จ
- Math-Eval: ์ฌ๋ฌ ์ํ ๋ฒค์น๋งํฌ ํตํฉ๋ณธ, ์ฌ๋ฆผํผ์๋ ์์ค ๋ฌธ์
- GSM8K: ์ด๋ฑํ๊ต ์์ค ๋ฌธ์
- Eurus-2-RL: ์ํ ์ถ๋ก & ์ฝ๋ ์์ฑ ๋ฌธ์ ํฌํจ
ํ์ฉ LLM
- Qwen3-{0.6B~14B}
- Qwen2.5-{0.5B~7B}
- Llama3.1-8B, Llama3.2-3B, Apertus-8B, Smol-LM3-3B
์คํ ๊ฒฐ๊ณผ 1: Qwen ํ์ฉํ ์คํ ์ฑ๋ฅ
โQwen3 ๋ชจ๋ธ์ GRPO๋ก ํ์ต ์, PPO clipping ๋์ TROLL์ ์ฌ์ฉํ๋ฉด ์ด๋ค ๋ณํ๊ฐ ์๊ธฐ๋์ง?โ
- ๋ชจ๋ ๋ชจ๋ธ์์ TROLL์ด ๋ ๋น ๋ฅด๊ฒ ํ์ต โ ํ์ต ํจ์จ์ฑ์ด ๋ ์ข๋ค!
- ์ต์ข ์ฑ๋ฅ์ด ๋ ๋์ผ๋ฉฐ, ์์ ๋ชจ๋ธ์์๋ ํฐ ๊ฐ์ ์ด ์ด๋ค์ง
- ์ฝ๋ ์์ฑ ๋ฐ์ดํฐ์ ๋ํด์๋ ๋์ผํ ํจํด์ ๋ณด์
โTROLL์ด ๋ค์ํ RL ์๊ณ ๋ฆฌ์ฆ ํ์ฉ ์ PPO clipping๋ณด๋ค ์ค์ ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ๋์ง?โ
- TROLL์ด ํ์ต ์์ ์ฑ์ ํฌ๊ฒ ๊ฐ์
- PPO clipping ์์ฒด๊ฐ RL ์ต์ ํ๋ฅผ ์ ํ์ํค๊ณ ์์ ๊ฐ๋ฅ์ฑ ์์ฌ
์คํ ๊ฒฐ๊ณผ 3: ํ์ดํผํ๋ผ๋ฏธํฐ ๋ถ์
- KL bound (Trust region ํฌ๊ธฐ) ๏ปฟ & Sparsification ํ ํฐ ์ ๏ปฟ ์กฐ์ ์คํ
- KL bound๊ฐ ์์ ๊ฒฝ์ฐ policy ๋ณํ๊ฐ ๋งค์ฐ ์ ํ๋์ด ํ์ต ์๋ ๊ฐ์ but ์ต์ข ์ฑ๋ฅ์ ๋์ผ
- KL bound๊ฐ ํฐ ๊ฒฝ์ฐ ์ฑ๋ฅ ๊ฐ์ ๋ฐ ํ์ต ํ์ง ์ ํ
- Sparsification ํ ํฐ ์๊ฐ ์์ ๊ฒฝ์ฐ ์ค์ ๋ถํฌ approximation ์ ํ โ policy ์ ๋ฐ์ดํธ ํ์ง ์ ํ
- Sparsification ํ ํฐ ์๊ฐ ๋๋ฌด ํฐ ๊ฒฝ์ฐ ์ฐ์ฐ ๋น์ฉ์ ์ฆ๊ฐํ์ง๋ง ์ฑ๋ฅ ๊ฐ์ ์ ๊ทธ๋ฅ
- KL bound (Trust region ํฌ๊ธฐ) ๏ปฟ & Sparsification ํ ํฐ ์ ๏ปฟ ์กฐ์ ์คํ
์คํ ๊ฒฐ๊ณผ 4: Entropy ๊ด์ ํด์
- ๊ธฐ์กด ๋ฌธ์ : PPO-like clipping์ ์ํธ๋กํผ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋จ (๊ณผ๋ํ ์
๋ฐ์ดํธ ๋ฐฉ์ง)
โ ๋ถํฌ๊ฐ ํน์ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆฌ๋ ํ์ ๋ฐ์
โ ์๋ก์ด reasoning ์ ๋ต์ ๋ํ ํ์ต์ด ์ด๋ ค์์ง
- TROLL์ ๊ณ์ ๋์ ์ํธ๋กํผ๋ฅผ ์ ์งํ๋ค!
- KL constraint ์์์ projection์ ์ํํ์ฌ ์ด์ policy์์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งโ gradient๊ฐ ๊ณ์ ์ ์ง๋จ
- ๊ธฐ์กด ๋ฌธ์ : PPO-like clipping์ ์ํธ๋กํผ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋จ (๊ณผ๋ํ ์
๋ฐ์ดํธ ๋ฐฉ์ง)








