Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| MNG | ์ง๊ด์ ์ผ๋ก ์๊ฐํ์ ๋, ๊ฐํํ์ต์ ํ๋ ๊ฒ ์ค์์ ๊ฐ์ ์ ๋ชฉํ๋ก ํ๋ ์ผ๋ถ๋ฅผ ๋ ์ํ๊ฒ ๋ง๋๋ ๊ฐ๋ ์ธ ๊ฒ ๊ฐ์.(reward ์ค์ ์ ๋ฐ๋ผ์) ๊ทธ๋ฐ ์ธก๋ฉด์์, reasoning scope์ด ์ข์์ง๋ ๊ฑด ์ด์ฉ ์ ์์ด ๋ฐ๋ผ์ค๋ ๊ฒ ์๋๊น? ํ๋ ์๊ฐ์ด ๋ค์์. ์คํ๋ ค, ์ด๊ฑธ ๋ ์ ํ์ฉํ๋ ๋ฐฉํฅ๋ ๊ฐ๋ฅํ์ง ์์๊น? | 4/5 |
| ๋ฐฉ์ด๋ ๋ | LLM์ด 'ํ์ฌ ์กด์ฌํ๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ'๋ฅผ ๋ชจ๋ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ world knowledge๋ฅผ ๋ค ์๊ณ ์๋ค๊ณ ์๊ฐํจ. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋น์ฐํ 'LLM์ด ๊ฐ์ง๊ณ ์์ง ์์ ์ถ๋ก ๋ฅ๋ ฅ' ์ค์์ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๊ฒ์ ์์ง ์์๊น? ์ฆ, ๊ธฐ์กด ์ถ๋ก ์ ๋ ์ํ๊ฒ ํ๋ ค๋ ๋ฐฉํฅ์ผ๋ก๋ง RL์ด ๋์ง ์์๊น? ํํธ์ผ๋ก๋ "LLM์ด ๊ฐ์ง๊ณ ์์ง ์์ ์ถ๋ก ๋ฅ๋ ฅ์ด ๊ณผ์ฐ ์ง์ง ํ์ํ ๊น?" ํ๋ ์๊ฐ๋ ๋ค์๋ค. ์ฐ๊ตฌ๋ฅผ ์ํ ์ฐ๊ตฌ ๊ฐ์! | 3.8 |
| ์ค์ฐจ์ฆ์ผ | RL์ ๊ฒฐ๊ตญ '๋ณด์์ ๋ ์ ๋ฐ๋ ํ๋ ๋ฐฉ์'์ ํ์ตํ๋ ๋จ๊ณ์ด๊ณ , ๋ชจ๋ธ์ ๊ทผ๋ณธ์ ์ธ reasoning ๋ฅ๋ ฅ์ ๋๋ถ๋ถ pretraining์์ ์ด๋ฏธ ๊ฒฐ์ ๋๋ ๊ฒ ๊ฐ์. ๋ฐ๋ผ์ RL์ด๋ SFT๋ ์๋ก์ด ๋ฅ๋ ฅ์ ๋ง๋๋ ๊ฒ์ด ์๋๋ผ, ๊ธฐ์กด ๋ฅ๋ ฅ์ ์ด๋ป๊ฒ ๋ ํจ์จ์ ์ด๊ณ ์ ํธ๋๋ ๋ฐฉ์์ผ๋ก ํํํ ์ง๋ฅผ ์กฐ์ ํ๋ ์ญํ ์ ๊ฐ๊น๋ค๊ณ ๋๊ปด์ง๋ค. | 4 |
| ์ผํคํ ๋ฆฌ | RL reasoning์ ๋๋ก ์น๋ฉด ์ด๋ฏธ ์ ํด์ ธ ์๋ ๋์ ์ฉ๋? ๋ฅ๋ ฅ์น?์ ํค์ฐ๊ธฐ ๋ณด๋จ ๋์ ๋ฅ๋ ฅ์ ์ต๋ํ ์ ํ์ฉํ๋๋ก ๋๋ ์ญํ (์ํ ๋ฃจ์ ๋๋)์ธ ๊ฒ ๊ฐ๋ค. ๊ฒฐ๋ก ์ RL๋ ์ค์ํ๊ณ ๋ชจ๋ธ ์์ฒด๋ ์ค์ํ๋ค๊ณ ๋๊ผ์ | 4 |
| 42REN | ํน์ Task์ ๋ํ ์ ๋ต๊ณผ ๋ณด์์ ์ ์ํ๋ ๊ฒ์ด ๊ฒฐ๊ตญ RLVR์ด ๋๋๋ฐ, Reasoning Scope๋ ์ข์์ง ์๋ฐ์ ์๋ค๋ ์๊ฐ์. ๊ทธ๋ฌ๋, ์ด๊ฑธ base model์์ ๊บผ๋ด์ด๋ค๋ ๋ฌธ์ ์ ๊ธฐ๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ์ ์ ๋๋ก Trainingํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์๋ณผ ์ ์๋ ๊ณ๊ธฐ๊ฐ ๋ ์๋ ์๋ค๊ณ ๋ด. | 4.2 |
| ํ ๋ธ๋ฌ | ์ด๋์ ๋ ์์๊ฐ๋ฅํ ์๋๋ฆฌ์ค๊ธด ํ๋ฐ, ๊ฒฐ๊ตญ ์ ์ k ์ํ๋ง์์ ์์ฐพ๋๊ฒ RL์ ๋ชฉ์ ์๋๊ฐ? ๋ฌผ๋ก ๊ณ ์ ์ ์ธ RL์ ๊ธฐ๋ํ๋ ๊ฒ์ด๋ผ๋ฉด ์๋ก์ด ์์ด๋์ด๊ฐ ๋์ค๋๊ฒ ์ข์ง๋ง, ์ง๊ธ LLM์๊ฒ ๋จน์ด๋ RL์ ๋ ์ํ๋๋ก ์ง๋ํ๋ ๊ฑฐ๋ผ์,,, ์ง๊ธ์ RLVR์ด ์ ์ญํ ์ ๊ทธ๋๋ก ์์ํ๊ฒ ์ ์ดํํ๊ณ ์๋ค๊ณ ์๊ฐํจ! ์ธ์ฌ์ดํธ๋ ์ข์!! | 3.5 |
| ๊ฐ์ | RL์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๋ค๊ณ ํ๋๋ฐ, ๋ ผ๋ฌธ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ด์๋ ์๋ก ๋ฐฐ์ฐ๊ฒ ํ๋ค๊ธฐ๋ณด๋ค ์ด๋ฏธ ์๋ ๊ฑธ ๋ ์ํ๊ฒ ํ๋ ๋๋. LLM์๊ฒ ์์ ์๋ก์ด ๋ถ์ผ๋ผ๋ฉด, ์ฒ์๋ถํฐ RLํ๋ ๊ฒ ๊ผญ ์ข์ ์ ํ์ ์๋๊ฒ ๋ค ์ถ๋ค | 4 |
| ์์ฐ | RL์ด LLM์ โ๋ฅ๋ ฅ์นโ๋ฅผ ๋๋ฆฌ๊ธฐ๋ณด๋ค, ์ด๋ฏธ ํ์ต๋ world knowledge ์์์ reward๋ฅผ ์ ๋ฐ์ ์ ์๋ ์ถ๋ก ํจํด๋ง ๊ฐํํ๋ค๋ ์ ์ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ ํผ ๋ ผ๋ฌธ์ธ๋ฏ | 4.1 |
TL; DR
๐ก
RLVRํ๋ฉด sampling path์์ ์ ๋ต path๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์ฐพ๊ธด ํ๋๋ฐ, ์๋ ๋ชจ๋ธ์ด ๊ณ ๋ ค์ํ๋๊ฑธ ๊ณ ๋ คํ๋๊ฑด ์๋! ๊ฒ๋ค๊ฐ ์ํ๋ง์ ๋๋ฆฌ๋ฉด ์คํ๋ ค reasoning scope๊ฐ base model๋ณด๋ค ์ข์!
my insight: ์ด๊ฒ๋ ์ง์์ ์ ์ฃผ?!
Summary
Background & Motivation
RLVR(Reinforce Learning with Verifiable Rewards)
- LLM์ next token prediction์ ๊ฐํํ์ต์์์ policy๋ก ์๊ฐํด๋ณด์!
- ์ ๋ต์ ์์ฑํ๋ฉด reward๋ฅผ ์ฃผ๋ ๋ฐฉ์
- RLVR ์๊ณ ๋ฆฌ์ฆ๋ค์ PPO์ objective๋ฅผ ์ฌ์ฉํจ
- ๏ปฟ ๋ advantage๋ก ํ๊ท ์ ์ธ action๋ณด๋ค ์ผ๋ง๋ ๋ ์ข์ action(์์ฑ)์ด์๋์ง ๊ณฑํด์ฃผ๋ ๊ฒ
- ๋ฌธ์ ์ ๋์ด๋๊ฐ ๋์์๋ ๋ง์ถ๋ฉด ์์ฃผ ๊ตฟ๊ตฟ!
- LLM์ next token prediction์ ๊ฐํํ์ต์์์ policy๋ก ์๊ฐํด๋ณด์!
- ์ ํต์ ์ธ ๊ฐํํ์ต์ ์๋ก์ด ์ ๋ต, ์์ด๋์ด๋ค์ ๋ง๋ค์ด๋ด๋๋ฐ (e.g. AlphaGoโs move 37),
LLM์ ์ํ RLVR๋ LLM์ด ๊ฐ์ง๊ณ ์์ง ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ์๋ก ๋ง๋ค์ด ๋ด๋๊ฑธ๊น?, ์๋๋ฉด ๊ธฐ์กด ์ถ๋ก ์ ๋ ์ ํ๋ ๊ฒ ๋ฟ์ผ๊น?
- โ base model๊ณผ RLVR model์ด ์ด๋ค ๋ฌธ์ ๋ฅผ ์ ์ฌ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋์ง์ ๋ํด reasoning capacity boundary๋ฅผ ์ธก์ ํด๋ณด์!
- ๋งค์ฐ ์ถฉ๋ถํ sampling์์์ ์ ๋ต์ ์์ฑํ ์ ์๋์ง ์ธก์ , ํ๊ฐ!
Key Findings
- ํ์ฌ์ RLVR ๋ชจ๋ธ๋ค์ ์ถ๋ก ๋ฒ์๋ base model๋ณด๋ค ์๋ค
- RLVR ๋ชจ๋ธ์ด ์์ฑํ๋ reasoning path๋ค์ base model๋ค์ ์ด๋ฏธ ์กด์ฌํ๋ค
- RLVR ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ฑ๋ฅ๋ค์ ๋ค ๋น์ทํ๋ฐ, optimal์ด๋์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๋ค
- RLVR๊ณผ distillation์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ค
Experiments
Experimental setup
- ์ํ task๋ SFT ์๋ ๋ชจ๋ธ๋ค ์ฐ๊ณ , ๋๋จธ์ง task๋ SFT๋ ๋ชจ๋ธ ์
- Start model์ RL์ ์ ์ฉํ ํ ์ ํ ๋น๊ต!
- Deep analysis๋ 4์ฅ์ ์ฌ์ธต ๋ถ์์์์ ์ธํ ์! main result๋ ์๋
| Task | Start Model | RL Framework | RL Algorithm(s) | Benchmarks |
|---|---|---|---|---|
| Mathematics | LLaMA-3.1โ8B / Qwen2.5โ7B/14B/32B Base / Qwen2.5-Math-7B | SimpleRLZoo, Oat-Zero, DAPO | GRPO | GSM8K, MATH500, Minerva, Olympiad, AIME24, AMC23 |
| Code Generation | Qwen2.5โ7B-Instruct / DeepSeek-R1-Distill-Qwen-14B | Code-R1 / DeepCoder | GRPO | LiveCodeBench, HumanEval+, MBPP+ |
| Visual Reasoning | Qwen2.5-VL-7B | EasyR1 | GRPO | MathVista, MathVision |
| Deep Analysis | Qwen2.5โ7B Base & Instruct / R1-Distill-Qwenโ7B | VeRL | PPO, GRPO, Reinforce++, RLOO, ReMax, DAPO | Omni-Math-Rule, MATH500 |
Evaluation protocol
- Metric: pass@k๋ฅผ ์ฌ์ฉ
- ๊ธฐ์กด ์ํ๋ง ๋ฐฉ์๋ค์ ํ๊ท ์ ์ธ ํ๋๋ง ํ๊ฐํ๊ณ , ์ถฉ๋ถํ ์๋ํ์ ๋ ํ ์ ์๋์ง๋ ๊ณ ๋ ค ์ํจ
- ๋ชจ๋ธ๋ก๋ถํฐ k๊ฐ ์ถ๋ ฅ ์ํ๋งํ๊ณ , ํ๋๋ผ๋ ๋ง์ผ๋ฉด pass@k = 1, ๋ค ํ๋ฆฌ๋ฉด pass@k = 0
- โ ๋ชจ๋ธ์ด k๋ฒ ์๋ ์์ผ๋ก ํ ์ ์๋ ๋ฌธ์ ์ธ๊ฐ? ๋ฅผ ์ ์ ์์
- ๋ฒค์น๋งํฌ ์ ์ฒด๋ก ๋ณด๋ฉด ํ๊ท pass@k๋ ๋ชจ๋ธ์ด k๋ฒ ์๋ํ์ ๋ ํ ์ ์๋ ๋ฌธ์ ์ ๋น์จ
โ Reasoning coverage
- ์ํ์์๋ k๋ฒ ์๋ํ๋ฉด์ ์ซ์ ์ฐ์ด์ ๋ง์ถ ์ ์์ด์ CoT๋ฅผ ์๋์ผ๋ก ๊ฒ์ฌํ๋ค๊ณ ํจ
์ํ๋ง ์ค์
- Temperature = 0.6
- Top-p = 0.95
- max token generation length = 16,384 tokens
Evaluation Results
์ํ task
- k๊ฐ ์์ผ๋ฉด RLVRํ ๋ชจ๋ธ์ด ๋ ์ํ๋๋ฐ, k ๋์์ง๋ฉด coverage๊ฐ ์ญ์ ๋จ!
- RLVR์ด ์๋ก์ด ์ถ๋ก ํจํด์ ํ์ต์ํจ ๊ฒ์ด ์๋๋ผ, ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ํจํด์ ๋ ์์ฃผ ๊บผ๋ด ์ฐ๋๋ก ๋ถํฌ๋ฅผ ์กฐ์ ํ ๊ฒ!
์ฝ๋ ์์ฑ, visual reasoning task
Deep analysis
- ์ base model์ coverage๊ฐ ์ญ์ ํ ๊น? ์ RLVR์ ์๋ก์ด path๋ฅผ ํ์ฅํ์ง ๋ชปํ ๊น?














