26 March 2026
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
COLM'25
๐กMathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)