LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : UUID๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ์ด ๊ผผ์์์ด reasoningํ ์ ์๋๋ก ๊ฐ์ ํจ / context ๊ธธ์ด์ ๋ฌด๊ดํ๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ณด์ / ์๋ฐฉํฅ ๋ถ๋ถ๋ฌธ์์ด ๊ธฐ๋ฐ ๋งค์นญ์ผ๋ก reasonableํ ์ ๋ต ๋น๊ต ๊ฐ๋ฅ / ์ฝ๊ฐ ์ข
ํฉ์ ๋ฌผ์ธํธ๊ฐ์ โข ๋จ์ : "RL์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ธฐ ์ํ ์ ์ ๋์ด๋"๋ฅผ ์ ํํ๊ธฐ ์ํด ๋๋ฌด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ ๊ฑฐํ๋๊ฒ ๋ฉ๋๋์ง ์์. โข ๋ณด์์ : ์ฅ๋ฌธ ์ปจํ ์คํธ ํ์ฅ์์, ๊ด๋ จ ์๋ ์ค์ ๋ฌธ์๋ฅผ ์ฝ์ ํ๋๊ฒ ๋ณด๋ค ์ ์ฌํ topic์ ๋ฌธ์๋ฅผ ์ถ๊ฐํ๋๊ฒ ๋ hard negative ์ค๋ฝ์ง ์์๊น? | 3.5 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : long-context reasoning์ ๋ํ 3๊ฐ์ง ๋ฌธ์ ์ ์ฆ, motivation์ด ๋ช
ํํ๊ณ ๋ฐฉ๋ฒ๋ก ์ด ๊น๋ํจ โข ๋จ์ : UUID๋ฅผ ์ฌ์ฉํ๋๊ฒ ์ง๊ธ ์๋์๋ RL ์ฑ๋ฅ์ ๋์ด๋๋ฐ์๋ ์ข์ ์ ์์ง๋ง ๋ฉ๋ฆฌ๋ณด๋ฉด ๋ฏธ๋ด์ฑ ์ด ๋ถ๊ณผํ๋ค๊ณ ์๊ฐํจ. ๊ฒฐ๊ตญ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ ๋์ด๋๊ฒ ์ค์ํ ๊ฒ ๊ฐ์ โข ๋ณด์์ : ๊ธด ์ปจํ ์คํธ๋ฅผ ๊ฐ์ง Narrative ๋ฐ์ดํฐ์ ์์๋ ์ ์๋ํ๋์ง์ ๋ํ ์คํ์ด ์์ผ๋ฉด ์ข์๋ฏ | 3.0 |
| ์์ด๋ฆฌ์ค | ์ฅ์ : ํจ์จ์ ํ์ต, ์ข์ ์ฑ๋ฅ, ๋ช
ํํ ์คํ, ๋ฆฌ๋ทฐ์ด๋ค์ด ์ง์ ํ ๋งํ ์ฌํญ์ ๋ํด ๋ฏธ๋ฆฌ ๋๋นํ๋ ์์ ๋ฐ ์คํ๊น์ง ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ด ์ข๊ณ , ์ค์ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ. ๋จ์ : ์ผ๋ฐํ๊ฐ ๋ ์ง ์กฐ๊ธ ์๋ฌธ์ค๋ฌ์. ๋ค์ํ ๋ชจ๋ธ, qa ์ธ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ํ ์ฑ๋ฅ ์ ์ง ๋ฑ. ๋ณด์์ : ๋ ๋ค์ํ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ๋ํ ์คํ? | 3.5 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : ๋ชจ๋ธ์ด ํ์ตํ๊ธฐ ์ํ๋ ์์๋ฅผ ๋ชจ๋ ํ๋์ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ์ํค๊ณ , ์ด๋ฅผ ํ์ต์ ์ฌ์ฉํ๋ ํจ๊ณผ๊ฐ ์์. ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ์ด ์ค์ํจ์ ๋ณด์ธ๋ค? โข ๋จ์ : ํ์ต ๋จ๊ณ๋ ๊ฐ๋จํด์, ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์์ ์ค์ํ ์์๋ฅผ ์์์ ํ์ตํ ๊ฒ์ด๋ผ ๊ฐ์ โข ๋ณด์์ : ํ์ต ๋ฐ์ดํฐ์ ๊ฐ ์์์ ๋ํ ablation study | 3.5 |
| 3์ | โข ์ฅ์ : โ์ง์ง ์ง๋ฌธโ์ ์จ๊ฒจ ๋์ ์๋ฏธ์ shortcut์ ๋ง๊ณ , ๋ชจ๋ธ์ด ์์ฐจ์ ์ผ๋ก ์ถ์ ํ๊ฒ ๋ง๋ ์ ์ด ์๋ฆฌํจ. โข ์ฝ์ : ํ ์คํธ๊ฐ ์ ์ ๊ธธ์ด์ง์๋ก chain์ผ๋ก ์ถ์ ํ๋๊ฒ ์ด๋ ค์ธ ์ ์์ง ์์๊น? ์์ถฉํ๋ ๋ฌธ์ฅ์ด ๋ง์์ง๊ณ ๋ชจํธํ ์ง์์ด๊ฐ ๋ง์์ง ๊ฒฝ์ฐ ์ผ๋ฐํ๊ฐ ์ด๋ ค์๋ณด์ โข ๋ณด์์ : ๋ฌธ์ ๊ฐ ๋ชจ์์ด ์๋ ๊ฒฝ์ฐ or ํ ์ด๋ธ ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ์์์ ์ถ๋ก ์ผ๋ก ํ์ฅ | 3.6 |
| ์๋์ง | โข ์ฅ์ : ๋ฌธ์ ํ์ด(QA)๊ณผ์ ์์ ํ์คํ reasoning์ ๋ฐ์ํด ์๋ฏธ์๋ ๋ต๋ณ์ ์ฃผ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ ๋
ผ๋ฌธ. โข ์ฝ์ : ๊ฒฐ๊ตญ ์งํฅํ๋ ๋ฐฉํฅ์ ๋ฐ์ดํฐ๋ฅผ ์ ์กฐ์ํด์, reasoning์ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ํ์์ธ ๊ฒ ๊ฐ์๋ฐ, ๋ฐ์ดํฐ๋ง๊ณ ๋ชจ๋ธ ๊ด์ ์ ๋ํ ๋ด์ฉ์ด ์์ด๋ณด์. ์ผ๋ฐํ๊ฐ ๋ ๊น? โข ๋ณด์์ : ๋ชจ๋ธ ๊ด์ ์ ์ฐ๊ตฌ๊ฐ ์ถ๊ฐ๋๋ฉด ์ข์ ๊ฒ ๊ฐ์ | 3.5 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : uuid๋ฅผ chain์ผ๋ก ์จ๊ฒจ๋์์ shortcut์ ๋ง๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ฐ์ฐ ๋น์ฉ์ ๊ฑฑ์ ์์ด ์์ ๋ชจ๋ธ์์ ์ฅ๋ฌธ๋งฅ ์ถ๋ก ์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํจ โข ์ฝ์ : planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด๋ผ๋ ๋ฐฉ์์ด ๋ช ํํ์ง ์์ ๋ณด์ ๊ฒฐ๊ณผ๊ฐ ์ ๋์ค๊ธด ํ๋๋ฐ ์ฌ๊ณ ํจํด๊ณผ์ ๊ด๋ จ์ ์ข ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ์ง ์์๊น โข ๋ณด์์ : ์ฌ๊ณ ํจํด๊ณผ์ ์ฐ๊ด์ฑ์ ๋ํ ์ฐ๊ตฌ | 3.3 |
| ํผ์ฆ์น์ | โข ๊ฐ์ : ์งง๊ฒ ํ์ตํ๊ณ ๊ทธ๊ฒ์ ๊ธธ๊ฒ ์ผ๋ฐํํ๋ ๋ถ๋ถ์ด ์ค์ฉ์ ์ธ๋ฏ โข ํ๊ณ: KeyChain์ด ๋จ๊ณ์ retrieval๋ฑ์ ์ฌ๊ณ ํจํด์ ๊ฐ์ ํ๋๋ก ํ๋๋ฐ, ์ฒด์ธ์ ์ถ์ ํ๋ค๋๊ฒ ์์ฒด๊ฐ ์์ฐ์ค๋ฌ์ด long-context reasoning์ด๋ผ๊ณ ๋งํ ์ ์๋? โข ์ ์์ : task์ ํ์ฅํด์ ๋ฌธ์๋น๊ต/์ข ํฉ ๋ฑ ํ๋ จํ๊ณ ํ ์ํ์ค๋ฅผ ์ ์ํ๊ณ ๋ค๋ฅธ long-context task๋ก ์ ์ฌํ๊ฒ ํ์ฅํ ์ ์์๊ฒ ๊ฐ์ | 3.5 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ๋น
ํ
ํฌ๋ค์ ์ฐ๋ฆฌ๋ค ๋ชจ๋ธ context ๊ธธ์ด ์๊ธธ์ด์ ํ๊ณ ํ๋ณดํ๋๋ฐ, ์ค์ ๋ก ๊ทธ context ๊ฝ ์ฑ์ฐ๋ฉด ์ ๋ชปํจ. ๊ทธ ํฌ์ธํธ๋ฅผ ์ ์ง๊ณ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ๊ฒ์ ์ด๋ ค์ด ์ผ์ด์ง๋ง ์ ํด๋ ์ฝ์ : ์คํ์์ ๋ฌด๊ดํ ์ ๋ณด๊น์ง ๋ฃ๋ ๊ฒ์ realisticํ์ง๋ง, ๊ทธ๋ฅ ๊ด๋ จ์ ๋ณด ํํฐ๋งํด์ LLM์ ๋ฃ๋๊ฒ ํจ์ฌ ํจ์จ์ ์ผ ๊ฒ ๊ฐ์. ์ ์ฌํ ์ ๋ณด๋ก ๋๋ฌ์์ฌ์ง ์ํฉ์์ ์คํ ํด๋ด์ผํ์ง ์์๊น| ์ ์์ : ํ์ต, ์คํ ์ธํ ์ ๋๋ฆฌ์! | 3.6 |
| ์ค์ฐจ | โข ๊ฐ์ : ํ์ต์ ์งง๊ฒ ํ๊ณ ์ํ๋ task์ ์ค์ง์ ์ธ ๋ฌธ์ ๋ฅผ ๋ฐ์ดํฐ์
์ผ๋ก ํด๊ฒฐํ๋ค๋ ์ ์์ ๊ฐ์ ์ผ๋ก ๋ณด์. โข ์ฝ์ : ๊ท ํ ์กํ ํ์ต ๋ฐ์ดํฐ๋ผ๋๊ฑธ ์ข ๋ ๋ช ํํ๊ฒ ์ฐ๊ตฌํด์ผ ํ ํ์๊ฐ ์์ โข ๋ณด์์ : ์คํ ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ๋ค์ํํด์ผ ํ ๊ฒ์. | 3.5 |
TL; DR
short-context(16K) RL ํ์ต๋ง์ผ๋ก long-context(128K) ์ถ๋ก ์ ์ํ๊ฒ ํ์.
์ด๋ป๊ฒ?
โ UUID ์ฒด์ธ์ผ๋ก ์ง๋ฌธ์ ์จ๊ธด ๊ณ ๋์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ(KeyChain)๋ก RL ํ์ตํ๋ฉด, planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด ๋ฐ์ํ์ฌ ๋์ ์ฅ๋ฌธ ์ถ๋ก ์ฑ๋ฅ์ 7B/14B์ ์ํ ๋ชจ๋ธ๋ก ๋ฌ์ฑํ ์ ์๋ค.
Summary
- ์ฐ๊ตฌ์ง:
- ์ธ์ฉ์: 3
Background & Motivation
Background
Long-context Reasoning ์ด๋?
์๋ง~ ์์ญ๋ง ํ ํฐ์ ์ธ๋ถ ๋ฌธ์์์ ๊ด๋ จ ์ ๋ณด๋ฅผ retrieve ํด์ โ reasoning ํ๋ ๋ฅ๋ ฅ
ํ๋ ๋ชจ๋ธ๋ค์ ๊ธด ์ปจํ ์คํธ ์๋์ฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์ ์ ๋ ฅ๊ณผ ๋จ๋ฌธ ๋ฌธ์์์ retreive๋ ๋ฐ์ด๋์ง๋ง ์ฅ๋ฌธ ๋ฌธ์์์ retrieve ํ์ฌ reasoningํ๋ ๋ฅ๋ ฅ์ ๋ถ์กฑํ๋ค
- ๋ฒ๋ฅ ๋ฌธ์ ๋ถ์, ์ฝ๋ ๋ฒ ์ด์ค ๋ถ์ ๋ฑ ๋ง์ ์ค์ ์์ ์์ ์๋ง~ ์์ญ๋ง ํ ํฐ์ ์ ๋ณด๋ฅผ ํตํฉํ๋ ์ถ๋ก (long-context reasoning) ๋ฅ๋ ฅ์ด ์๊ตฌ๋จ
- DeepSeek-R1, OpenAI o-series ๋ฑ ์ต๊ทผ RL ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋จ๋ฌธ ์ถ๋ก , ๋ด๋ถ ์ง์ ์์กด ์์ญ์์ longer CoT, self-reflection ๋ฑ์ ์ ๋ํ๋ฉฐ ๊ฐํํ์ต
- ํ์ง๋ง ์ธ๋ถ ๋ฌธ์์์ ์ ๋ณด๋ฅผ retrieve ํ์ฌ reasoning ํ๋ ๋ฅ๋ ฅ์ ์ฌ์ ํ ์ ์๋จ (long context resoning)
๊ธฐ์กด ์ธ๊ฐ์ง ์ฃผ์ ๋ฌธ์
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฌ์ฉํ ์ฅ๋ฌธ ์ปจํ ์คํธ RL ๋ฐฉ๋ฒ์๋ ํ์ฌ ์ธ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์์
- ๋ฌธ์ 1 - ๊ณ ๋์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๋ถ์กฑ
- ํ์ต์ ์ํด์ ๋จ์ retrieve ๋ง์ผ๋ก ํด๊ฒฐํ ์ ์๋ ๊ณ ๋์ด๋์ ์ฅ๋ฌธ ๋ฌธ์ ๊ฐ ํ์ํจ
- ํ์ง๋ง ๋ฐ์ดํฐ๋ ๋๋ฌผ๋ฉฐ ์ ๋ต๋ ๋ค์ํ ํํ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ์๋ ๊ฒ์ฆ์ด ์ด๋ ค์
- ๋ฌธ์ 2 - ์ฐ์ฐ ๋น์ฉ
- RL ํ์ต์๋ ๋ฌธ์ ๋น ์ฌ๋ฌ๋ฒ์ ๋ต๋ณ ์์ฑ(rollout)์ด ํ์ํจ
- ์ด๋ 128K ํ ํฐ ์ ๋์ ์ฅ๋ฌธ ์ ๋ ฅ์์๋ ๋ฉ๋ชจ๋ฆฌ, ์ฐ์ฐ ๋น์ฉ์ด ๊ฐ๋น ๋ถ๊ฐ๋ฅํ ์์ค์
- ๋ฌธ์ 3 - long-context ํ์ต ์ short-context ๋ฅ๋ ฅ์ ์ ํ
- ์ฅ๋ฌธ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ๋ฉด math์ ๊ฐ์ ๋จ๋ฌธ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ ํ๋์ด ์คํ๋ ค ์ผ๋ฐ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๋ฐ์
โ ์ ์ธ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ์ดํฐ ์ค์ฌ ์ฅ๋ฌธ ์ปจํ ์คํธ RL ๋ฐฉ๋ฒ๋ก LoongRL์ ์ ์
Contributions (What theyโve revealed)
KeyChain ๋ฐ์ดํฐ ํฉ์ฑ ๊ธฐ๋ฒ ์ ์
- ๊ธฐ์กด short-context ๋ฉํฐํ QA๋ฅผ dstracting documents์ UUID ์ฒด์ธ ์ฝ์ ์ผ๋ก ๊ณ ๋์ด๋ ์ฅ๋ฌธ ๋ฌธ์ ๋ก ๋ณํ
- UUID ์ฒด์ธ์ ์ฝ์ ํจ์ผ๋ก์ ๋ชจ๋ธ์ด ์ดํ์ ,์๋ฏธ์ ๋จ์ถ๋ก(ํธ๋ฒ)์ ์ฌ์ฉํ์ง ๋ชปํ๋๋ก ๊ฐ์ ํ๊ณ , ์ค์ ์ง๋ฌธ์ ๊ตฌ๋ถํ ์ ์๋๋ก ํจ.
- ๊ท์น ๊ธฐ๋ฐ ๋ณด์ ์ค๊ณ (์๋ฐฉํฅ ๋ถ๋ถ๋ฌธ์์ด ๋งค์นญ)
- LLM-as-a-judge ์์ด ๋จ์ผ ๊ท์น์ผ๋ก ์์ ํ์ QA ์ ๋ต์ ๊ฒ์ฆ ํจ
- ํํ ๋ค์์ฑ์ ํ์ฉํ๋ฉด์ ํธ๋ฒ์ผ๋ก ํ์ตํ๋ reward hacking ๋ฐฉ์ง
์๋ก์ด ์ถ๋ก ํจํด ์ ๋
- KeyChain ๋ฐ์ดํฐ๋ก RL ํ์ต ์ planโretrieveโreasonโrecheck ํจํด์ด ์์ฐ์ค๋ฝ๊ฒ ๋ง๋ค์ด์ง
- 16K ํ ํฐ์ผ๋ก ํ์ตํ์์๋ 128K ์ถ๋ก ์ผ๋ก ์ผ๋ฐํ๋จ โ ๊ธด ์ปจํ ์คํธ์ RL ๋น์ฉ ์์ด ์ฅ๋ฌธ ์ฑ๋ฅ ํ๋ณด ๊ฐ๋ฅ
๊ท ํ ์กํ ๋ฐ์ดํฐ ํผํฉ ์ฌ์ฉ + 3๋จ๊ณ RL ์ปค๋ฆฌํ๋ผ
- ์ฅ๋ฌธ ์ถ๋ก ,๊ฒ์ ๋ฐ์ดํฐ๋ฟ ์๋๋ผ ๋จ๋ฌธ ์ํ ๋ฐ์ดํฐ๋ฅผ ํผํฉํด ๋จ๋ฌธ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์กด
- Warm-up โ Stage I (KeyChain ๋์ ) โ Stage II (๋์ด๋ ์ง์ค) 3๋จ๊ณ ์ปค๋ฆฌํ๋ผ
Methods
KeyChain ๋ฐ์ดํฐ ๊ตฌ์ฑ
3๋จ๊ณ์ ๋ฐ์ดํฐ ๊ตฌ์ฑ ๊ณผ์
- Step 1 - ์๋ ๋ฐ์ดํฐ ํํฐ๋ง
- RL์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ธฐ ์ํ ์ ์ ํ ๋์ด๋ ๊ตฌ๊ฐ์ ํ๋ณดํจ
- HotpotQA, MuSiQue, 2WikiMultiHopQA์์ 277K์ ์ธ์คํด์ค ์์ง โ Qwen2.5-32B๋ก ๊ฐ ์ง๋ฌธ์ 8ํ ์๋ต ํ ์ ๋ต๋ฅ 0(๋๋ฌด ์ด๋ ค์) ๋๋ 1(๋๋ฌด ์ฌ์)์ธ ๋ฌธ์ ์ ๊ฑฐ โ 72K์ ์ค๋์ด๋ ์์ ํ๋ณด.
- Step 2 - ์ฅ๋ฌธ ์ปจํ
์คํธ ํ์ฅ
- ์ด ๊ณผ์ ์ ์ค์ ํ๊ฒฝ์์ ๊ด๋ จ ์ ๋ณด๊ฐ ๋ฐฉ๋ํ ๋ฌด๊ด ํ ์คํธ ์์ ๋ฌปํ ์๋ ์ํฉ์ ์๋ฎฌ๋ ์ด์
- ํํฐ๋ง๋ 72K ์์ ์ ์๋ณธ ๋จ๋ฌธ ์ปจํ ์คํธ๋ฅผ, ํํฐ๋ง์์ ์ ๊ฑฐ๋ 200K ์์ ์ ๋ฌธ์๋ค์์ ์ํ๋งํ ๊ด๋ จ ์๋ ์ค์ ๋ฌธ์๋ฅผ ์ฝ์ ํด ๊ฐ ์์ ๋ฅผ ์ฝ 16K ํ ํฐ์ ์ฅ๋ฌธ ์ปจํ ์คํธ๋ก ํ์ฅํจ. ์๋ณธ ์ง๋ฌธ์ ๊ทธ๋๋ก ์ ์ง
- Step 3 - KeyChain ์ฝ์
- ์ฅ๋ฌธ ์ปจํ ์คํธ ๋ด ๋๋ค ์์น์ ๋ ์ข ๋ฅ์ UUID ์ฒด์ธ์ ์ฝ์
- ์ง์ง ์ฒด์ธ (1๊ฐ): ์๋ณธ ์ง๋ฌธ oqi๋ก ์ด์ด์ง๋ ์ฒด์ธ. ๋ชจ๋ธ์ ์์ UUID๋ถํฐ ์ฒด์ธ์ ๋จ๊ณ๋ณ๋ก ์ถ์ ํด ์ง์ง ์ง๋ฌธ์ ์ฐพ์๋ธ ๋ค, ์ฅ๋ฌธ ์ปจํ ์คํธ์์ ์ฆ๊ฑฐ๋ฅผ ๊ฒ์ยท์ถ๋ก ํด ์ ๋ต์ ์์ฑํด์ผ ํจ
- ๊ฐ์ง ์ฒด์ธ (์ฌ๋ฌ ๊ฐ): ๋ค๋ฅธ QA ์ธ์คํด์ค์์ ์ํ๋งํ ์ค๋ต ์ง๋ฌธ์ผ๋ก ์ด์ด์ง๋ ์ฒด์ธ. ๊ทธ๋ด๋ฏํ์ง๋ง ๋ฌด๊ดํ ์ง๋ฌธ์ผ๋ก ์ฐ๊ฒฐ๋์ด ๋ชจ๋ธ์ ํผ๋์ํด
- Step 1 - ์๋ ๋ฐ์ดํฐ ํํฐ๋ง
UUID๋ฅผ ์ฌ์ฉํ๋ ์ด์
UUID๋ ๊ณ ์ํธ๋กํผ์ ๋น์๋ฏธ์ ์๋ณ์๋ก, ๋ชจ๋ธ์ด ํ ํฐ ์์ฑ ๊ณผ์ ์์ ์ดํ์ , ์๋ฏธ์ ๋จ์ถ๋ก(ํธ๋ฒ)๋ฅผ ์ฌ์ฉํ์ง ๋ชปํ๋๋ก ๊ฐ์ ํ๋ค.
UUID๋ฅผ ๋์ผ ๊ธธ์ด์ ๋๋ค ๋ฌธ์์ด๋ก ๊ต์ฒดํ ablation ์คํ์์ ์ฑ๋ฅ์ด ๋์ผ(72.4 vs 72.2)ํ๊ฒ ๋์ ์๋ณ์์ ๋น์๋ฏธ์ฑ์ด ํต์ฌ ์์ฑ์์ด ํ์ธ๋จ.
โ UUID ํ์ ์์ฒด๊ฐ ํต์ฌ์ด ์๋๋ผ ์๋ฏธ ์๋ ์๋ณ์๋ฉด ๋ค ์๊ด์์
KeyChain-augmented long-context question ์์
๋ชจ๋ธ์๊ฒ ์ฃผ์ด์ง๋ ์ง์๋ฌธ: "์์ UUID๋ถํฐ ์ฐ์๋ key:value ์ฒด์ธ์ ๋ฐ๋ผ๊ฐ ์ง์ง ์ง๋ฌธ์ ์ฐพ์ ๋ค, ๋ตํ๋ผ"
{"UUIDA-1": "UUIDA-2"} โ ์ง์ง ์ฒด์ธ 1๋ฒ์งธ hop
{"UUIDA-2": "UUIDA-3"} โ ์ง์ง ์ฒด์ธ 2๋ฒ์งธ hop
{"UUIDA-3": "original question oq"} โ ์ง์ง ์ง๋ฌธ ๋๋ฌ{"UUIDB-1": "UUIDB-2"} โ ๊ฐ์ง ์ฒด์ธ
{"UUIDB-2": "distractor question q'"} โ ์ค๋ต ์ง๋ฌธ
KeyChain์ ์๋ก์ด ์ถ๋ก ํจํด planโretrieveโreasonโrecheck ์ ๋
- KeyChain ๋ฐ์ดํฐ๋ก RL ํ์ต ์ ๋ชจ๋ธ์ planโretrieveโreasonโrecheck ํจํด์ ์์ฐ์ค๋ฝ๊ฒ ํ๋ํ๋ค.
- Plan: ๋ฌธ์ ๋ฅผ ํ์ ๋จ๊ณ๋ก ๋ถํดํ์ฌ ํ์ด ๊ฒฝ๋ก๋ฅผ ๋จผ์ ์ค๊ณ
- Retrieve: ๊ฐ ๋จ๊ณ์์ ํ์ํ ์ ๋ณด๋ฅผ ์ฅ๋ฌธ ์ปจํ ์คํธ์์ ๋ช ์์ ์ผ๋ก ์ถ์ถ
- Reason: ์ถ์ถ๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋จ๊ณ๋ณ ์ถ๋ก ์ํ
- Recheck: ๋ถํ์คํ ๋ ๋ค์ ๊ด๋ จ ๋ฌธ์๋ก ๋์๊ฐ ๊ฒ์ฆ
- ์ผ๋ฐ ์ฅ๋ฌธ QA ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋ช ์์ ๊ณํ ๋จ๊ณ ์์ด ๊ฒ์๊ณผ ์ถ๋ก ์ด ํผ์ฌ๋ ํจํด์ ๋ณด์ด๋ฉฐ, ์ด๊ฒ์ด ์ค๋ต์ผ๋ก ์ด์ด์ง๋ ์ฃผ์ ์์ธ์ด ๋จ
- ์ด ํจํด์ ์ปจํ
์คํธ ๊ธธ์ด์ ๋
๋ฆฝ์ ์ผ๋ก ์ ์ฉ๋จ
- 16K ํ ํฐ์ผ๋ก ํ์ตํ์์๋ 128K ์ถ๋ก ์ผ๋ก ์ผ๋ฐํ๋จ์ผ๋ก์จ, ํ-๊ธธ์ด RL์ ๋ง๋ํ ์ฐ์ฐ ๋น์ฉ ์์ด ์ฅ๋ฌธ ์ฑ๋ฅ์ ํ๋ณดํ๋ค
- KeyChain ๋ฐ์ดํฐ๋ก RL ํ์ต ์ ๋ชจ๋ธ์ planโretrieveโreasonโrecheck ํจํด์ ์์ฐ์ค๋ฝ๊ฒ ํ๋ํ๋ค.
๋ณด์ ์ค๊ณ
์๋ฐฉํฅ ๋ถ๋ถ๋ฌธ์์ด ๋งค์นญ์ ํตํ ๋ณด์ ์ค๊ณ
- ์ผ๋ฐ QA์ ์ ๋ต์ ๋ค์ํ ํํ ํํ๋ฅผ ๊ฐ์ง ์ ์์ด ์๋ ๊ฒ์ฆ์ด ์ด๋ ต๋ค.
- ๊ทธ๋ ๋ค๊ณ "1 December 2010" vs "2010๋ 12์ 1์ผ"์ฒ๋ผ ์์ ์ ํ ๋งค์นญ์ ํ๋ฉด ํํ๋ง ๋ค๋ฅธ ์ ๋ต์ ํ๋ฆฌ๋ค๊ณ ํ๋จํ๋ค
- ๋ชจ๋ธ์ด ์ต์ข
๋ต์ ๋ฐ๋์ โ\boxed{}โ ์์ ์ถ๋ ฅํ๋๋ก ํ๋กฌํํธ์ ๋ช
์ํ์ฌ ๋ต ์ถ์ถ์ ๋ช
ํํ ํ๊ณ , ์ถ์ถ๋ ๋ต๊ณผ ์ ๋ต ๊ฐ ์๋ฐฉํฅ ํฌํจ ๊ด๊ณ๋ฅผ ํ์ธํจ.
- (์ถ์ถ ์ ๋ต์ด ์ค์ ์ ๋ต๊ณผ ์๋ฐฉํฅ์ผ๋ก ๋ถ๋ถ ๋งค์นญ๋๋ฉด 1, ์๋๋ฉด 0์ ๋์ถํจ
- ์๋ฐฉํฅ ๋ถ๋ถ๋ฌธ์์ด์ ์ฌ์ฉํ์ฌ ํํ ๋ค์์ฑ์ ํ์ฉํ๋ฉด์๋ ์ ๋ฐ๋ ์ ์ง โ reward hacking ๋ฐฉ์ง
๋ณด์ ๋ฐฉ์ ๋น๊ต (ablation): F1(65.1) < LLM-as-a-judge(65.2) < ์์ ์ ํ ๋งค์นญ(69.2) < ์๋ฐฉํฅ ๋ถ๋ถ๋ฌธ์์ด(72.4)
- ์ผ๋ฐ QA์ ์ ๋ต์ ๋ค์ํ ํํ ํํ๋ฅผ ๊ฐ์ง ์ ์์ด ์๋ ๊ฒ์ฆ์ด ์ด๋ ต๋ค.
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
๋ฐ์ดํฐ ๊ตฌ์ฑ (์ด 22,024๊ฐ)
- ๊ณ ๋์ด๋(KeyChain ์ ์ฉ) + ์ค๋์ด๋(KeyChain ๋ฏธ์ ์ฉ, ์ผ๋ฐ ๋ฉํฐํ QA) + ์ฅ๋ฌธ ๊ฒ์ + ๋จ๋ฌธ ์ํ ์ผ๋ก ๊ตฌ์ฑ.
- ์ค๋์ด๋ ์ผ๋ฐ QA ๋ฐ์ดํฐ๋ ํนํ ์ํ ๋ชจ๋ธ(7B)์์ ์ค์ํ ์ญํ ์ ํ๋ค.
- KeyChain ๋ฌธ์ ๊ฐ ์ด๊ธฐ์ ๋๋ฌด ์ด๋ ค์ RL ์ ํธ๊ฐ ๋ถ์์ ํ ๋, ์ค๊ฐ ๋์ด๋ ๋ฌธ์ ๋ก ๋จผ์ ๊ธฐ์ด ๋ฅ๋ ฅ์ ์์ ์ ์๊ฒ ํจ
- ๋จ๋ฌธ ์ํ ๋ฐ์ดํฐ๋ ์ฅ๋ฌธ ํ์ต์ผ๋ก ์ธํ ๋จ๋ฌธ ๋ฅ๋ ฅ ์ ํ๋ฅผ ๋ฐฉ์งํ๋ ์์ถฉ์ฌ ์ญํ ์ ํ๋ค.
- ์ค๋์ด๋ ์ผ๋ฐ QA ๋ฐ์ดํฐ๋ ํนํ ์ํ ๋ชจ๋ธ(7B)์์ ์ค์ํ ์ญํ ์ ํ๋ค.
- ๊ณ ๋์ด๋(KeyChain ์ ์ฉ) + ์ค๋์ด๋(KeyChain ๋ฏธ์ ์ฉ, ์ผ๋ฐ ๋ฉํฐํ QA) + ์ฅ๋ฌธ ๊ฒ์ + ๋จ๋ฌธ ์ํ ์ผ๋ก ๊ตฌ์ฑ.
3๋จ๊ณ RL ์ปค๋ฆฌํ๋ผ
LoongRL์ 3๋จ๊ณ RL ์คํ
- Warm-up (42 steps): KeyChain ์ ์ธ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ๊ธฐ์ด ๊ฒ์,์ถ๋ก ๋ฅ๋ ฅ ํ๋ณด.
- 14B ๋ชจ๋ธ์ ์ด๋ฏธ ๊ฐ๋ ฅํ ๊ธฐ์ด ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ด ์ด ๋จ๊ณ๋ฅผ ๊ฑด๋๋
- Stage I - KeyChain ๋์
(7B: 168 steps, 14B: 168 steps)
- KeyChain ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ถ๊ฐ. ๋ชจ๋ธ์ด ๊ณํยท์ ๋ฐ ๊ฒ์ยท๋ค๋จ๊ณ ์ถ๋ก ์ ์ํํ๋๋ก ์ ๋
- ์ด ๋จ๊ณ์์ recheck ํ๋์ด ์์ฑ๋๊ณ ์๋ต ๊ธธ์ด๊ฐ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ
- Stage II - ๋์ด๋ ์ง์ค (7B: 118 steps, 14B: 150 steps)
- Stage I ์์์ ์ต์ ์ฒดํฌํฌ์ธํธ๋ก ์์ ๋น 8ํ rollout ํ, ๋ชจ๋ ์ ๋ต์ธ ์ฌ์ด ์์ ๋ฅผ ์ ๊ฑฐ โ ์ ์ฒด์ 30~40%์ ํด๋นํ๋ ์ด๋ ค์ด ์์ ๋ง ๋จ๊ฒจ ์ง์ค ํ์ต.
- ์ด ๋จ๊ณ์์ ๋ช ์์ plan ํ๋์ด ์ถ๊ฐ๋ก ๋ํ๋๋ฉฐ, ๋ ์งง๊ณ ์ ํํ ์๋ต์ด ์์ฑ๋จ
- Warm-up (42 steps): KeyChain ์ ์ธ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ๊ธฐ์ด ๊ฒ์,์ถ๋ก ๋ฅ๋ ฅ ํ๋ณด.
Experiments
Result
์ฃผ์ ๊ฒฐ๊ณผ
- ์ฅ๋ฌธ ์ปจํ
์คํธ ์ถ๋ก (LongBench v1)
- LoongRL-14B: 74.2์ โ o3-mini(74.5), DeepSeek-R1(74.9)์ ๊ทผ์
- ๊ธฐ์ค ๋ชจ๋ธ ๋๋น ์ ๋ ์ ํ๋ ํฅ์: 7B +23.5%, 14B +21.1%
- LoongRL-7B(72.4)๊ฐ ํ๋ผ๋ฏธํฐ 4.6๋ฐฐ ํฐ QwenLong-L1-32B(70.1)๋ฅผ ๋ฅ๊ฐ
- ๋จ๋ฌธ ์ถ๋ก ์ ๋ณด์กด๋จ
- MMLU: ์คํ๋ ค ํฅ์ (+2.8%, +1.1%)
- IFEval: ์ํญ ๊ฐ์ (-0.3%, -2.6%) โ R1-Distill ๋๋น ํ์ ํ ์ ์ ์ ํ
- ์ฅ๋ฌธ ์ปจํ
์คํธ ์ถ๋ก (LongBench v1)
Improved long-context retrieval (Needle-in-a-Haystack)
- ๋ค์ํ ๊น์ด์์ ๊ธด ๋ฌธ์์ retrieve ๋ฅ๋ ฅ ์ธก์
- LoongRL-7B๋ 128K ์ ๊ตฌ๊ฐ์์ 100% ์ ํ๋ ๋ฌ์ฑ
- ๊ธฐ์ค Qwen2.5-7B-Instruct, QwenLong-L1-32B๋ ์ผ๋ถ ๊ตฌ๊ฐ์์ ์คํจ
- LoongRL์ ๊ฒ์ ์ฑ๋ฅ์ ์ค์ง์ ์ผ๋ก ํฅ์์ํค๋ฉฐ, LoongRL-7B๋ ๋ชจ๋ ๊น์ด์์ ์๋ฒฝํ ์ ํ๋๋ฅผ ๋ฌ์ฑ








