26 March 2026
LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
ICLR'26 Oral
๐กshort-context(16K) RL ํ์ต๋ง์ผ๋ก long-context(128K) ์ถ๋ก ์ ์ํ๊ฒ ํ์.์ด๋ป๊ฒ?โ UUID ์ฒด์ธ์ผ๋ก ์ง๋ฌธ์ ์จ๊ธด ๊ณ ๋์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ(KeyChain)๋ก RL ํ์ตํ๋ฉด, planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด ๋ฐ์ํ์ฌ ๋์ ์ฅ๋ฌธ ์ถ๋ก ์ฑ๋ฅ์ 7B/14B์ ์ํ ๋ชจ๋ธ๋ก ๋ฌ์ฑํ ์ ์๋ค.