26 March 2026
TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models
ICLR'26 Oral
๐กLLM์ RL๋ก ํ์ตํ ๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ๋๋ฌด ํฌ๊ฒ ๋ฐ๋๋ฉด ๋ง๊ฐ์ง๋ฏ๋ก, ํ์ฉ๋ ๋ฒ์ ์์์๋ง ์ ๋ฐ์ดํธํด์ ์์ ํ๊ฒ ํ์ต์ํค์
26 March 2026
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
COLM'25
๐ก๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ reasoning ๊ฒฝํฅ์ ์ํํ์!โ reasoning process๋ฅผ ์ธ๋จ๊ณ๋ก ๋ถ๋ฅํ๊ณ , ๊ทธ ์ค์ ์ด๋ค ๊ฑธ ์ค์ฌ์ผ ํ ์ง ๋ถ์ํ์
26 March 2026
Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models
COLM'25
๐กRefusal token์ผ๋ก ๋ชจ๋ธ์ ์๋ต ๊ฑฐ์ ์ ๋ ์ฌ์ธํ๊ณ (์ฑ๋ฅโ), ์ ์ฐํ๊ฒ(inference ๋จ์์ ์กฐ์ ๊ฐ๋ฅ) ํ๋ค!