26 March 2026
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
COLM'25
๐ก๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ reasoning ๊ฒฝํฅ์ ์ํํ์!โ reasoning process๋ฅผ ์ธ๋จ๊ณ๋ก ๋ถ๋ฅํ๊ณ , ๊ทธ ์ค์ ์ด๋ค ๊ฑธ ์ค์ฌ์ผ ํ ์ง ๋ถ์ํ์
26 March 2026
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
COLM'25
๐กMathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)