LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
๐กshort-context(16K) RL ํ์ต๋ง์ผ๋ก long-context(128K) ์ถ๋ก ์ ์ํ๊ฒ ํ์.์ด๋ป๊ฒ?โ UUID ์ฒด์ธ์ผ๋ก ์ง๋ฌธ์ ์จ๊ธด ๊ณ ๋์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ(KeyChain)๋ก RL ํ์ตํ๋ฉด, planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด ๋ฐ์ํ์ฌ ๋์ ์ฅ๋ฌธ ์ถ๋ก ์ฑ๋ฅ์ 7B/14B์ ์ํ ๋ชจ๋ธ๋ก ๋ฌ์ฑํ ์ ์๋ค.
Language Model Personalization via Reward Factorization
๐ก์ฌ๋ฌ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๊ณตํต๋ ์ ํธ ์ถ(e.g., ์น์ , ๊ฐ๊ฒฐ, ๊ฒฉ์)์ผ๋ก ๋ถํดํด ํ์ตํ ๋ค, ์๋ก์ด ์ฌ์ฉ์๊ฐ ๋ค์ด์ค๋ฉด ์ถ๋ง๋ค ๋ค๋ฅธ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ์ฌ์ฉ์์ personalized๋ ์ ํธ๋ฅผ ๋น ๋ฅด๊ฒ ์ถ์ ํ์!
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
๐กMathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)