TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models
๐กLLM์ RL๋ก ํ์ตํ ๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ๋๋ฌด ํฌ๊ฒ ๋ฐ๋๋ฉด ๋ง๊ฐ์ง๋ฏ๋ก, ํ์ฉ๋ ๋ฒ์ ์์์๋ง ์ ๋ฐ์ดํธํด์ ์์ ํ๊ฒ ํ์ต์ํค์
LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
๐กshort-context(16K) RL ํ์ต๋ง์ผ๋ก long-context(128K) ์ถ๋ก ์ ์ํ๊ฒ ํ์.์ด๋ป๊ฒ?โ UUID ์ฒด์ธ์ผ๋ก ์ง๋ฌธ์ ์จ๊ธด ๊ณ ๋์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ(KeyChain)๋ก RL ํ์ตํ๋ฉด, planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด ๋ฐ์ํ์ฌ ๋์ ์ฅ๋ฌธ ์ถ๋ก ์ฑ๋ฅ์ 7B/14B์ ์ํ ๋ชจ๋ธ๋ก ๋ฌ์ฑํ ์ ์๋ค.
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
๐กMathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)
Why DPO is a Misspecified Estimator and How to Fix It
๐กDPO์ ์ ์ ๊ฐ realisticํ์ง ์์์ ์์ํ์ ์ผ๋ก ํํค์นจ AuxDPO๋ฅผ ํตํด DPO์ Misspecifection๋ฅผ ์ํํ์!
Multiplayer Nash Preference Optimization
๐กalignment๊ฐ ๊ฐ์ ธ์ผ ํ ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ ๊ฐ์น ๋ฐ ์ ์ฑ ์ง๋จ ์์์ ๊ทธ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ์์ ์ ๊ท ํ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด๋ค!
Diffusion Alignment as Variational Expectation-Maximization
๐กDiffusion ๋ชจ๋ธ์ ๋ชฉ์ ํจ์์ ๋ง๊ฒ diffusion alignmentํ ๋ ๋ฐ์ํ๋ reward over-optimization ๊ณผ mode collapse ๋ฌธ์ ๋ฅผ EM์๊ณ ๋ฆฌ์ฆ (E๋จ๊ณ(test time search) โ M๋จ๊ณ(forward-KL)์ ๋ฐ๋ณต)์ผ๋ก ํด๊ฒฐํ์!