Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : positive trajectory, negative trajectory๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ sparse reward๋ฅผ ๋ณด์ํจ / reward์ token ๋ณ ์ค์๋๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์ robustness ๊พํจ โข ๋จ์ &๋ณด์์ : QWEN ๋ง๊ณ ๋ค๋ฅธ LLM family์ ์ ์ฉํ๋ ์คํ ๋ถ์กฑ! (e.g. Deepseek prober ์ฒ๋ผ NR์ ํนํ๋ ๋ชจ๋ธ๋ค) | 3.8 |
| ์์ด๋ฆฌ์ค | ์ฅ์ ; ์ข์ ๊ธฐ์ ์ ๋
ผ๋ฌธ์. ๊ฐ์ธ์ ์ผ๋ก trajectory๋ผ๋ ํค์๋์ ๊ด์ฌ์ด ๋ง์๋ฐ, ๊ฐํํ์ต์ ์ ์ ์ฉํ ๋
ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ. ๋จ์ : ํจ์จ์ฑ์ ์ ๋ชจ๋ฅด๊ฒ ๊ณ , ์ฑ๋ฅ๋ ์ ๋ชจ๋ฅด๊ฒ ์. ๋ณด์์ : ๋ฌผ๋ก ๊ฐํํ์ต์ด ๊ทธ๋ ์ง๋ง, ๋ชป ํธ๋ ๊ฒ์ ํ ์ ์๊ฒ ๋ง๋ค์๋์ง ์คํํ๋ ๊ฒ๋ ์ฌ๋ฐ์๋ฏ. ๊ฐ์ธ์ ์ผ๋ก๋ ์๊ฐ ์ค์ธ ๋ฐฉํฅ์ด๋ผ ๊ถ๊ธํจ. ์ด์ ์ ๊ด๋ จ๋ ์ฐ๊ตฌ๊ฐ ์์๋๋ฐ, ์๊ฐ๋๋ฉด ์ ๊ฒ ์ต๋๋ค | 3.8 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : ์ํ๋ง ํตํด ๊ฐ ์ง๋ฌธ์ ๋ํ positive/negative ๋ต๋ณ์ ๋ชจ๋ ์ป๊ณ ํ์ต์ ์ฌ์ฉ. ์ค๊ฐ ๋ณด์ ์ฌ์ฉ โข ๋จ์ : ์ํ๋ง ๋ต๋ณ์ ํ์ง์ด ๋ณด์ฅ๋ ๊ฒ์ธ์ง, ํ ํฐ๋ณ ๊ธฐ์ฌ๋๊ฐ ์ข์ ์ค๊ฐ ๋ณด์์ผ์ง ์๋ฌธ โข ๋ณด์์ : ํ์ต ๋ฐ์ดํฐ ํ์ง ๋ณด์ฅํ๋ ๋จ๊ณ ์ถ๊ฐ | 3.5 |
| 3์ | โข ์ฅ์ : ์ํ๋ฌธ์ ์ถ๋ก ์ ์ ํฉํ ํ๊ฒฝ์ ์ค์ ํจ. ์ค๊ฐ ์ถ๋ก ๊ณผ์ ์ธ trajectory๊ฐ ๊ฐ์ฅ ์ด์ธ๋ฆฌ๋ ๋ถ์ผ๋ผ๊ณ ์๊ฐํจ! โข ๋จ์ : reward ๋ชจ๋ธ์ด ํ๋ฆฌ๋ฉด...? ์ค์ํ์ง ์์ ํ ํฐ์ด ์ค์ํ๋ค๊ณ ํ์ตํ ์๋ ์์ โข ๋ณด์์ : ๋ชจ๋ ์ ๋ต์ ๋์ผํ reward๋ฅผ ๋ถ์ฌํ์ง ์๊ณ ๋ถํ์ค์ฑ์ ๊ณ ๋ คํด์ ๋ฌธ์ ๋์ด๋์ ๋ฐ๋ผ ์ฐจ๋ฑ ๋ถ์ฌ | 3.5 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : reward๊ฐ 0/1๋ก sparse ํ๋ค๋ motivation์ด ๋
ํนํ๊ณ ์ด๋ฅผ trajectory๋ฅผ ํตํด ์ค์ ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ โข ๋จ์ : BON ์ํ๋ง์์ N์ด ์ปค์ง์๋ก ๊ณ์ฐ๋น์ฉ์ด ๋ง์ด ๋ค ๊ฒ ๊ฐ์ โข ๋ณด์์ : ์ํ ๋ฐ์ดํฐ์ ์ด์ธ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ์ ์ฉ ๊ฐ๋ฅํ ์ง ๊ถ๊ธํจ | 3.1 |
| ํผ์ฆ์น์ | โข ๊ฐ์ : process reward๋ฅผ ์ฝ๊ฒ ๊ตฌ์ถํ ์ ์๋ค๋ ํ์ค์ ์ธ ๋ฌธ์ ์ ์ ์ ์ง์ํ๊ณ , outcome reward๋ก ๋๋ฌํ ์ ์๋ ์ํ์ ์ ๋ณด๋ ค๋ ์๋๊ฐ ์ข์ โข ์ฝ์ : ๊ทผ๋ฐ ์์ ์์ํ 'final-answer supervision'์ ์๋๋ค. trajectory ๋จ์์ ํ์ฉ๊ณผ token-level reward๋ฑ์ด ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ trajectory๊ฐ ์ถฉ๋ถํ ํ๋ณด๋์ง ์์ ๋๋ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ ์ด๋ ค์ธ๋ฏ โข ์ ์: trajectory selection์์ pos/neg ์ฌ๋ถ ๋ฟ ๋ง์ด ์๋๋ผ ํ์ง์ ๋ฐ๋ผ์ ๊ฒฐ๊ณผ๊ฐ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ๊ถ๊ธํจ | 3.9 |
| ์๋์ง | โข ์ฅ์ : reward sparse๋ฌธ์ ๋ฅผ reasoning์ reward๋ฅผ ๋ถ๋ฐฐํจ์ผ๋ก์จ, LLM์ด ๊ฒฐ๊ณผ ๊ธฐ๋ฐ์ reasoning์ด ์๋ (๊ณผ์ +๊ฒฐ๊ณผ) ๊ธฐ๋ฐ์ reasoning์ ํ์ตํ ์ ์๊ฒ ํจ. โข ์ฝ์ : trajectory์ ํ ํฐ์ด ๋ง์ ๋(ํ์ด๊ฐ ๊ธด ๋ฌธ์ , ์ด๋ ค์ด ๋ฌธ์ )๋ reward๊ฐ ๋น์ทํ๊ฒ ๋ถ๋ฐฐ๋ ๊ฒ ๊ฐ์๋ฐ ์ด๋ฐ ๊ฒฝ์ฐ๋ reasoning์ ์ ํ ์ ์์๊น? โข ๋ณด์์ : reward ๋ถ๋ฐฐ ๊ณผ์ ์ ๋ ํจ์จ์ ์ผ๋ก ํ ์ ์๊ฒ ์ด๊ธฐ์ ๋ฐ์ดํฐ ์ค์ (trajectory ๋ถํฌ)์ ๊ฑด๋๋ฆฐ๋ค๋ ์ง.. ์ถ๊ฐ ๋ฐฉ๋ฒ์ด ์ ์๋ ์ ์์ ๊ฒ ๊ฐ์. | 3.4 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : ์ต์ข
์ ๋ต์ ๋ง๊ณ ํ๋ฆผ ์ ํธ๋ง์ผ๋ก๋ ํ์ด ๊ณผ์ ์ ์ฒด๋ฅผ ํ๊ฐํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ์ง์ ํ๊ณ , reward๋ฅผ ํ ํฐ ๋จ์๋ก ์ชผ๊ฐ ๋ถ๋ฐฐํ๋ ์์ด๋์ด๊ฐ ์ง๊ด์ ์ผ๋ก ๋ฉ๋์ด ๋จ. โข ์ฝ์ : ํ์ด ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ํ ํฐ์ด ๋ง์์ง๊ณ , reward๊ฐ ๊ทธ ํ ํฐ๋ค์ ๋ถ๋ฐฐ๋๋ค ๋ณด๋ฉด ๊ฐ ํ ํฐ์ด ๋ฐ๋ ์ ํธ๊ฐ ๋๋ฌด ์์์ ธ์ ์ด๋ค ๋ถ๋ถ์ด ํต์ฌ์ธ์ง ๊ตฌ๋ถ์ด ์ด๋ ค์์ง ๊ฒ ๊ฐ์. โข ๋ณด์์ : ์ํ ์ถ๋ก ๋ฌธ์ ์๋ง ์ง์คํ ์คํ์ด๋ผ ๋ค๋ฅธ ๋ถ์ผ์๋ ๊ฐ์ ๋ฐฉ์์ด ์ ์๋ํ๋์ง ๊ถ๊ธํ๊ณ , ๋ค์ํ ๋๋ฉ์ธ์ ์ ์ฉํด๋ณด๋ ์คํ์ด ์ถ๊ฐ๋๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 3.4 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : RL ๋งค์ปค๋์ฆ์ ํจ์จ์ ์ผ๋ก ๊ตฌํํจ ์ฝ์ : ๋ญ๊ฐ ์ฐ๊ตฌ๋ฅผ ๊ฑฐ๊พธ๋ก ํ ๊ฒ ๊ฐ์. ๋ฐฉ๋ฒ๋ก ์ rationale์ ์ ๋ชจ๋ฅด๊ฒ ์. ๊ทธ๋์ ๋ณ๋ก ์ํฉํธ์๊ฒ ๋ค๊ฐ์ค์ง๋ ์์ ์ ์์ : ํ๋ฆฌ๊ฒ ๋ ์์ ์๋ง ํผ๋๋ฐฑ์ ๊ฐ๋๋ฅผ ์ฌ๋ฆฌ๋๊ฒ ์ข์ ๊ฒ ๊ฐ์ | 2.5 |
| ์ค์ฐจ | ์ฅ์ : RL์ reasoning์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํจ์ผ๋ก์จ ๋ฌธ์ ํด๊ฒฐ์ ํจ์จํํ ์ ์ด ๊ฐ์ ์. ์ฝ์ : ์ด๊ฒ ๋ฌด์จ ์๋ฏธ๊ฐ ์๋์ง ์๋ฟ์ง ์์. ์ ์์ : Reeward๋ ํผ๋๋ฐฑ ๋ฐฉ์์ ์ข ๋ ํจ์จ์ ์ผ๋ก ํ ์ ์๋๋ก Reasoning ๋ฐฉ๋ฒ์ ๋ฐ๊พธ์ด ๋ด๋ ๋ ๊ฒ ๊ฐ์. | 3.4 |
Author
Citation : 42
TL; DR
Mathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.
(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)
Summary
Introduction & Background & Motivation
Introduction & Background
์ต๊ทผ LLM ๋ชจ๋ธ๋ค์ Reasoning์ ์ํ๋๋ฐ,
๊ทธ ์์ธ์ผ๋ก๋ RL(๊ฐํํ์ต) + COT(๊ธด ์ฌ๊ณ ๊ณผ์ )๊ธฐ๋ฒ์ด ์ฑํ๋จ.
ํ์ง๋ง, Mathematical Reasoning์ ๊ธฐ์กด RL ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ๋, Sparse Reward ๋ฌธ์ ๊ฐ ๋ฐ์ํจ.
๋ํ, ๊ฐํ ํ์ต์ ๋งค step๋ง๋ค reasoning์ ํ๋ ๊ฒ์ ๋ ธ๋์ ์ธ ์ธก๋ฉด์์ ๋งค์ฐ ๋นํจ์จ์ ์.
example
โQ ) 1 + 3 x 2 + 5= ?
= 1 + 6 + 5 (reasoning)
= 7 + 5 (reasoning)
= 12 (reasoning)
step๋ง๋ค ๊ณ์ ํ๊ฐํ๋ ๊ฒ์ ๋นํจ์จ์ .
โ ๋ฐ๋ผ์ ๊ฒฐ๊ณผ๊ฐ์ ๋ํด์๋ง reward๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด ํจ์จ์ ์ผ ๊ฒ ๊ฐ์ง๋ง,
๋ง์ ์ถ๋ก ๊ณผ์ ์ ์คํตํ๊ณ ๊ฒฐ๊ณผ์ ๋ํด์๋ง ํ๊ฐํ๋ ๊ฒ์ Sparse ํ๋ค.
์ํ์ ์ถ๋ก ์ ์ํด LLM์ ์ฌ์ฉํ ๋,
LLM policy์ ์ ๋ ฅ์ ์ฌ๋ฌ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ๋ค๋จ๊ณ ์ถ๋ก ๊ณผ์ ์ ์ถ๋ ฅํ๋๋ก ์ ๋ํ๋ค.
์ผ๋ฐ์ ์ธ RL ๋ฐฉ์์, LLM policy๊ฐ ์ฌ๋ฌ reasoning trajectory(ํ์ด ๊ณผ์ )์ ์ํ๋ง(์์ฑ)ํ๊ณ ,
์ต์ข ๋ต๋ณ์ ์ ํ์ฑ๋ง ์ฐธ๊ณ ํ์ฌ binary feedback(์ ๋ต1/์ค๋ต0 reward)์ ํตํด policy๋ฅผ ์ต์ ํํ๋ค.
Symbol
๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ ํํ(MDP) = ๏ปฟ
๏ปฟ : ์ง๊ธ๊น์ง ์ด ํ์ด / ๏ปฟ : ๋ค์์ ์ฌ ํ ํฐ / ๏ปฟ : ๋ค์ ์ํ๋ก ๊ฐ๋ ๊ท์น /
๏ปฟ : reward / ๏ปฟ : discount factor
policy = ํ์ฌ LLM ๋ชจ๋ธ์ด ์์ฑ ์ ์ฑ (์ด๋ค ๊ฐ์ ์ด๋ค ํ๋ฅ ๋ก ์์ฑํ๋๊ฐ ~ ?)
trajectory = ์ถ๋ก ๊ณผ์ (=ํ์ด ๊ณผ์ )
โ Positive trajectory(์ ๋ต ํ์ด) / negative trajectory(์ค๋ต ํ์ด)
Policy ์ต์ ํ objective
๏ปฟ
= ๊ธฐ์กด ๋ชจ๋ธ์์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๊ฒ, Reward๋ฅผ ์ต๋ํ
์์ ์์์ ํ๋ฉด,
๏ปฟ
์ต์ policy์ ํํ๊ฐ ๋์จ๋ค. (= ๊ธฐ์กด ํ๋ฅ x exp(๋ณด์ ๊ธฐ๋ฐ์ weight))
Best of N sampling
ํ๋์ ๋ฌธ์ ๋ฅผ N๋ฒ ํ๊ฒํด์ ์ ์ผ reasoning(ํ์ด)์ ์ํ ๋ต ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ
๏ปฟ
Reward ๊ตฌ์กฐ
๋ฌธ์ ์ ๋ํ ์ต์ข ๋ต๋ณ์ ๋ํด์ ์ ๋ต(1), ์ค๋ต(0)์ผ๋ก ๊ฒฐ๊ณผ์ ๋ํด์๋ง reward๋ฅผ ๋ถ์ฌํจ
Problem)
- ๊ฒฐ๊ณผ์ ๋ํด์๋ง reward๋ฅผ ๊ณ ๋ คํ๋ฏ๋ก, sparseํ๋ค.
(์ค์ ์ถ๋ก ๊ณผ์ ๊น์ง ํฌํจํ๋ฉด token์๊ฐ ๋ง์๋ฐ, reward๋ฅผ ํ๋ฒ๋ง ๊ณ ๋ คํ๋๊ฑด ์ด์ํจ)
- ํ๋ฆฐ ์ถ๋ก ๊ณผ์ ์ด ์์ด๋ ์ ๋ต๋ง ๋ง์ผ๋ฉด ๋๋ค.
(์ด๋ ๊ฒ ๋๋ฉด, ์๋ชป๋ ํ์ด๋ฒ์ด ํ์ต๋จ)
Motivation
๊ณ์ฐ ๊ฒฐ๊ณผ์ ๋ํ reward๋ 0,1 ๊ฐ์ด๊ณ , ์ด ๊ฐ์๋ง ์์กดํ๋๊ฑด ๋๋ฌด sparse ํ๋ค.
(positive trajectory๊ฐ sparseํ ๊ฒฝ์ฐ, gradient๊ฐ ์์)
โ Outcome reward๋ง ๋ณด๊ณ ๋ชจ๋ธ์ updateํ๋ฉด ์๋๋ค
Contribution
๊ธฐ์กด ๋ฐฉ์์์๋ negative trajectory๊ฐ ๋ ํ์ต์ด ๋์์ผ๋ฏ๋ก, positive trajectory๊ฐ ๋ ์๋์ค๊ฒ ๋ณด์
- ๋ฌธ์ ๋ฅผ ํ๋ ค๋ฉด ์ ๋ต ํ์ด๊ณผ์ ์ด ์ถฉ๋ถํ ํ์ต๋ผ์ผํจ.
- positive trajectory๊ฐ ์ ์ด๋ ํ๋๋ ๊ผญ ๋ฝํ ์ ์๊ฒ, BON์ ์ฌ์ฉ
- negative trajectory๋ ํ์ตํ ์ ์๊ฒ ์ถ๊ฐ ๋ณด์ ํจ.
outcome reward์ ๊ฒฐ๊ณผ ์์กด ๋ฌธ์ ๋ฅผ trajectory์ token ์์กด๋๋ก ๋ถํดํด์ ํ์ต
- trajectory์ ๋ฑ์ฅํ๋ ํ์ด๊ณผ์ ์ ํ ํฐ์ ๊ฐ์ค์น๋ฅผ ๋งค๊ธด๋ค๋ฉด, ์ด๋ ํ์ด๊ณผ์ ์ด ์ค์ํ์ง ํ์ต ๊ฐ๋ฅํจ.
- Outcome reward 1(์ ๋ต), 0(์ค๋ต)์ ๋ง์ถฐ ํ ํฐ๋ณ ๊ฐ์ค์น๋ฅผ ํ์ต.
- ์ ๋ฐ์ดํธ ๋ ๊ฐ์ค์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Policy Update
Method
Learning from positive sample
๏ปฟ : positive trajectory s๊ฐ ๋ฝํ ํ๋ฅ์ํ๋ N์ ๋๋ฆด์๋ก, ์ ์ด๋ 1๊ฐ ์ด์์ positive๊ฐ ๋ฝํ.
why?) ๋ ผ๋ฌธ์์๋ sampling์ ์ค๋ต์ด ๋ง์ด ๋ฝํ๋ ๋ฌธ์ ๋ฅผ ์ ์ ๋ก reward sparse๋ฅผ ์ง์ ํจ. ๋ฐ๋ผ์, ์ ์ด๋ ํ๋์ positive trajectory๊ฐ ์ ํ๋ ์ ์๊ฒ BoN์ ์ฌ์ฉํจ.
e.g.,)
- ๊ธฐ์กด RL : ๋ฌธ์ ๋ฅผ ๋ณด๊ณ ๊ณ์ฐ โ ํ๋ฆผ โ ์ ๋ฐ์ดํธ (์ด ๊ฒฝ์ฐ์ ์ ๋ต์ ๋ํ ์ ๋ณด๊ฐ ๋ถ์กฑํ๋ฏ, reward sparse)
- BoN : ๋ฌธ์ ๋ฅผ ๋ณด๊ณ ๊ณ์ฐ์ 10๋ฒ ์์ฑ โ ์์ฑ๋ ๊ฒฐ๊ณผ ์ค์ ์ ๋ต์ sampling
๏ปฟ : Constraint
๏ปฟ : BoN์์ ๋ช ๋ฒ ์ํ๋งํ๋๊ฒ ์ข์์ง ์ ํโ ์ต์ ์ n ๊ณ ๋ฅด๋ ๊ณผ์
๏ปฟ์ ๋ต trajectory๋ฅผ ์ ์์ฑํ๋๋ก ํ๋ฉด์, ๊ธฐ์กด policy์์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๊ฒ ํจ.
๐ก๏ปฟ ์ผ๋ก ๋ง๋ positive distribution์ ๋ฐ๋ฅด๋๋ก policy์ ์ ๋ฐ์ดํธํ๋ loss
Dealing with Long Reasoning Chains
์ ๋ต์ ๋ง์ง๋ง์ ์ ์ ์์ง๋ง, ์ค๊ฐ ์ถ๋ก ๊ณผ์ ๋ ๊ณ ๋ คํด์ ํ์ตํด์ผ ํ๋ค.
โ token ๋ณ ์ค์๋๋ฅผ ์ถ์ (Reward๋ฅผ ์ถ๋ก ๊ณผ์ ์ ๋ถ๋ฐฐ)
๏ปฟ: Q(ํ๋)์ V(์ํ)๋ก ๋ณด๊ณ , t ์ํ์์ ์์ผ๋ก ๋ฐ์ reward ์ ์
๏ปฟ: ํ ํฐ์ด ํ๋ ์ถ๊ฐ๋์ ๋, ๊ฒฐ๊ณผ๋ฅผ ์ผ๋ง๋ ๋ฐ๊ฟจ๋์ง ์ธก์ ํ๋ ์
: ๋์ผํ ์ง๋ฌธ์ ๋ํด ์ ๋ต๊ณผ ์ค๋ต์ด ๋์ค๋ฉด, ๊ฐ ์ถ๋ก ๊ณผ์ ์ token๋ณ ๊ธฐ์ฌ๋ ์ฐจ์ด๋ฅผ ๊ณ์ฐํจ.
์ฆ, ์ ๋ต๊ณผ ์ค๋ต์ reward ์ฐจ์ด๋ ๊ฐ trajectory๋ณ token๋ณ ๊ธฐ์ฌ๋ ์ฐจ์ด์ ์ดํฉ.
๐ก reward ์ฐจ์ด๋ฅผ token๋ณ ๊ธฐ์ฌ๋ ์ฐจ์ด์ ํฉ์ผ๋ก ๋ํ๋์ผ๋ฏ๋ก, ์ฒ์๋ถํฐ trajectory ์์ฒด๋ฅผ token์ ํฉ์ผ๋ก ํํํด๋ณด์
(reward ์ดํฉ์ ์ฐจ์ด = reward๋ณ ์ฐจ์ด ํฉ) , (reward ์ดํฉ = reward๋ณ ์ดํฉ)
- ๊ทธ๋์, Reward๋ฅผ token ๊ธฐ์ฌ๋ ์ดํฉ์ผ๋ก ๋ํ๋ผ ์ ์๋ค
๏ปฟ: trajectory reward๋ฅผ token๋ณ ๊ธฐ์ฌ๋ ํฉ์ผ๋ก ํํ
๏ปฟ : ๊ธฐ์ฌ๋ ํ๊ท๏ปฟ
:๋ชจ๋ธ์ด ์์ธกํ๋ ํ ํฐ ๊ธฐ์ฌ๋
- ์ต์ข
Loss
= (L1 Loss + L2 Loss) ์ (๊ฐ trajectory์ ํ ํฐ๋ณ ๊ฐ์ค์น)๋ฅผ ๊ฒฐํฉํ ํํ์.
- ์ ๋ต์ ๋ ๋ง์ด ์์ฑํ๋, ์ค์ํ token์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ
- ์ค๋ต์ด ๋์ฌ ํ๋ฅ ์ ๋ณด์ ํ๋ฉด์, ํ๋ฆฐ token์ ๊ฐํ ํ๋ํฐ
- KL constraint๋ก policy ์ดํ ๋ฐฉ์ง
๐กํ ํฐ์ ์ค์๋๋ฅผ ๋ฐ์ํด์, positive trajectory๋ ์ ์์ฑํ๊ณ , negative trajectory๋ ๋ ์์ฑํ๋๋ก plicy๋ฅผ ํ์ตํจ. (policy update)
- ๊ทธ๋์, Reward๋ฅผ token ๊ธฐ์ฌ๋ ์ดํฉ์ผ๋ก ๋ํ๋ผ ์ ์๋ค
Implementation
์ด๊ธฐ ๋ชจ๋ธ(policy)๋ก Qwen2.5-7B, Qwen2.5-32B๋ฅผ ์ฌ์ฉํ์ฌ, RFT๋ฅผ ์ด๊ธฐํ
๊ธฐ์กด ์ด๊ธฐ ๋ชจ๋ธ์ OpenDataLab Dataset, Numina, MATH Training set์ ์ง๋ฌธ์ผ๋ก ๋ฃ๊ณ , ๋์จ ๋ต๋ณ์ ์ค์ ์ ๋ต๊ณผ Exact Match๋ฅผ ํตํด reward๋ฅผ ๋ถ์ฌํจ! (์ ๋ต 1, ์ค๋ต 0)
๊ทธ๋ ๊ฒ ๋์จ (์ง๋ฌธ, reward) ์์ ๊ฐ์ง๊ณ , RFT๋ฅผ ์ด๊ธฐํํจ.
Dataset : Numia, MATH, AMC/AIME
- ์ ๋ฐ์ดํฐ๋ค์ ๊ฐ ๋ฌธ์ ์ ๋ํด RHF ๋ชจ๋ธ๋ก 64๊ฐ์ ๋ฐฐ์น(์ง๋ฌธ)์ ๋ํด 16๊ฐ์ trajectory(ํ์ด)๋ฅผ sampling. = (1024๊ฐ์ trajectory)
- ๊ฐ trajectory๋ฅผ Qwen2.5-72B-instruct์ rule-based-verifier๋ฅผ ํตํด
์ ๋ต(reward)๋ฅผ ๋งค๊น (์ ๋ต์ธ ์ถ๋ก ์ 1, ์ค๋ต์ 0).
- ๊ทธ๋ฆฌ๊ณ , ์ด ์ ๋ต๋ฅ ์ด 0~0.8 ์ฌ์ด์ธ ๋ฌธ์ ๋ง ์ฌ์ฉํจ. (ํํฐ๋ง)
- ํํฐ๋ง๋ ๋ฌธ์ ์ trajectory์ ๋ํด์, positive, negative pair๋ฅผ ์ ํ
์ ํ๋ pair๋ฅผ ์ฌ์ฉํ์ฌ token๋ณ ๊ฐ์ค์น๋ฅผ ํ์ตํจ.
๏ปฟ์ฌ๊ธฐ์, ๏ปฟ ์ด๋ค.
16๊ฐ์ trajectory ์ค (positive, negative) pair ๊ฐ์ค์น๋ฅผ ๋ณด๊ณ , ๊ณตํต ๋ถ๋ถ์ ์์๋๊ณ , ์ฐจ์ด ๋ถ๋ถ์ ํ์ต.
(์ฌ๋ฌ trajectory๊ฐ ํฉ์ณ์ง๋ฉด์ ํ ํฐ๋ณ ๊ฐ์ค์น๊ฐ ํ์ต๋จ)
โ ์ด๋ค reasoning ํจํด์ด ์ ๋ต์ผ๋ก ์ด์ด์ง๋์ง?
Hyperparameter
- Learning Rate = Policy(5e-7), reward(2e-6)
- Warmup(10 step warmup)
- Cosine Annealing
- Optimizer : AdamW
- KL coefficient : ฮฒ=0.01
- ์ด 80์คํ
training์ ํ๊ณ , 10 step๋ง๋ค ํ๊ฐ ์งํ
(1์คํ ๋ง๋ค policy์ weight๋ฅผ update)
- ๋ ๋ณต์กํ ์ํ๋ฌธ์ (์ผ๊ฐํจ์, ํ๋ฅ ํต๊ณ, ๊ธ์) ๊ฐ์ ๊ฒฝ์ฐ์๋ ๊ฐ์ ์คํฌ์ ๋ฌธ์ ๋ฅผ ๋ ์์งํ์ฌ RFT ๋จ๊ณ์์ ์ฌํ์ต.
Experments & Result
- ํ๊ฐ ๋ฐ์ดํฐ์ : MATH-500, AIME2024, AIME2025 (Part1), LiveMathBench, OlympiadBench (์ํ ๋ฌธ์ ๋ฐ์ดํฐ์ )
- OREAL-7B ๋ชจ๋ธ์ด RL ๋ง์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋. (์์ ๋ชจ๋ธ์์๋ ์ข์ ์ฑ๋ฅ. Distillation์ ์ฌ์ฉ์ํจ)
- ๊ธฐ์กด ์ต๊ณ ๋ชจ๋ธ์ด์๋ DeepSeek-R1-Distill-Qwen์ ์ ์ฉ์ ์ฑ๋ฅ ํฅ์
- AIME ๋ฐ์ดํฐ์ ์์๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ํ๋ จ ๋ฐ์ดํฐ์ ํ์ง ๋ฐ ์ง๋ฌธ์ ๋์ด๋๊ฐ ์์ธ์ด๋ผ๊ณ ํ๋จ
7B ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋์ ์ ์ง์ ์ผ๋ก ์ถ๊ฐ์ํค๋ฉด์ MATH-500์ ๋ํด ์ฑ๋ฅ ํ๊ฐ
- Reward Shaping = L2
- Behavior Cloning = L1
- Importance Shaping = L_total
7B ๋ชจ๋ธ์์ ๊ฐ ๋ชจ๋์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด RL Baseline ์ฑ๋ฅ์ ์ํํ ์ ์์.
์ต์ข ์ ์ผ๋ก๋ Importance Sampling์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ ํ์ธํ ์ ์์.
- ์ข์ ์ด๊ธฐ ๋ชจ๋ธ(Policy)์ ์ฌ์ฉํ ์๋ก ์ต์ข
์ฑ๋ฅ์ด ๋์์ ํ์ธ
โ OREAL ํ๋ ์์ํฌ๋ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ์ญํ ์ ํ๋ ๊ฒ์ ๋ณผ ์ ์๊ณ , ์ข์ ์ด๊ธฐ ๋ชจ๋ธ์ผ์๋ก ์ฑ๋ฅ ํฅ์์ด ๋์.
conclusion
- OREAL ํ๋ ์์ํฌ๋ BoN ์ํ๋ง, / ํ ํฐ๋ณ ๊ธฐ์ฌ๋ ํ์ต ๋ฐฉ์์ ์ฌ์ฉํด mathematical reasoning ์ ๋ํด ์ ํ ์ ์์.
- ํ์ง๋ง, ์ด ์ ๊ทผ๋ฒ๋ค์ ์ด๊ธฐ policy model(base model)์ด ์ถฉ๋ถํ knowledge๋ฅผ ๊ฐ๊ณ ์๋ค๋ ์ ์ ์ ์์กดํจ.
- ๋ฐ๋ผ์, policy model์ knowledge deficiency๊ฐ ์์ด์ผ ํ๊ณ , ๋ฐ์ดํฐ์ ๊ท ํ์กํ ํ์ง์ด ๋ณด์ฅ๋์ด์ผ ํจ. (๋์ด๋๊ฐ ์ด๋ ค์ฐ๋ฉด ๋ง์ถ๋๊ฒ ์ด๋ ต๋ค)
โ Future work๋ก data construction process๋ฅผ ์ธ๊ธํ๋ฉฐ, ๋ถ์กฑํ ๋ถ๋ถ์ ๊ฐ์ .
RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ๋ค !
= ์ง์ ์ ์ผ๋ก RL์ ์ด ๊ฑด ์๋์ง๋ง, Reward๋ฅผ ์ถ๋ก ๊ณผ์ ์ ๊ฐ์ค์น ํํ๋ก ๋ถ๋ฐฐํด์ ๊ฐ์ ์ ์ด๋ผ๋ ํํ์ ์ฌ์ฉํ ๊ฒ.










