Training a Generally Curious Agent
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๊ณ๋์ด๋ฐฅ | ์๊ฐํด๋ณด๋ฉด, trajectory๊ฐ ๋ช ํํ๋ฉด ๊ตณ์ด ์ง์ interaction ํ ํ์๊ฐ ์๊ธด ํ๋ค! ์์ฆ ์ฝ๊ณ ์๋ EMNLPโ25 ๋ ผ๋ฌธ์์ MCTS trajectory๋ฅผ trainig data๋ก ์ผ์ incremental learningํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ ผ๋ฌธ๋ณด๋ค ๋ ๋๋ํ๊ณ ์ ๊ตํ๋ค. ํํธ, MCTS์ ํ๊ณ๋ก exploration cost๋ฅผ ๋๋๋ฐ, ๊ธฐ์กด trajectory๋ฅผ ์ ํ์ฉํ๋ค๋ฉด ๊ตณ์ด ๊ทธ๋ด ํ์๊ฐ ์์ง ์์๊น? | 4 |
| ๋งน๊ตฌ | LLM์ด ์์จ ์์ด์ ํธ๊ฐ ๋ ์ ์์๊น?๋ ์์ฆ ์์ฃผ ๋์ค๋ Physical AI์๋ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋์ด ์๋ค๊ณ ์๊ฐํจ. ์ค์ ํ๊ฒฝ์์ ์ฃผ์ด์ง๋ ๋ณด์์ ๋ฐํ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ ๊น? ๋ผ๋ ์๊ฐ์ ์ฌ์ ๋ถ์ ๋๋์ผ๋ก ์คํํ ๋ ผ๋ฌธ์ด๋ผ ์ข์๋ค. | 4.1 |
| ํ๋ฒ๊ฑฐ | ๊ฐ์ธ์ ์ผ๋ก๋ curiosity๊ฐ ๊ธฐ์กด์ reasoning๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ๊ฒ์ธ์ง๋ ์ข ์ ๋งคํ๋ค๊ณ ์๊ฐ๋๊ธด ํจ. ๊ทผ๋ฐ ๋จ์ผ ์๋ต์ด ์๋๋ผ ์ ์ฒด ๊ถค์ ๋จ์๋ก preference๋ฅผ ์ ์ํ ์ ์ด ์ค์ ์์ด์ ํธ ํ๋ ํ์ต์ ๋ ์ ์ ํ๊ฒ ๊ฐ์ | 4 |
| ํผ์ | LLM์ด ๋ณด์์ ๋ฐํ์ผ๋ก ์ค์ค๋ก ํ์ต์ด ์๋๋ ์ ์ด ์ค์ ๋ก ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด์ Reasoning ๋ฐ CoT, Reward ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ๋ ์ด๋ป๊ฒ ๋ค๋ฅธ์ง ์ค๋ช ์ด ์์ผ๋ฉด ๋ ์ข์ ๊ฒ ๊ฐ์ | 4.1 |
| ์นํจ | ์ถ๊ฐ ํ์ต ์์ด trajectory๋ฅผ ์์ฑํด์ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ ๊ฑด ์ข์ ๋ฐฉ์์ด๋ผ๊ณ ์๊ฐํ์ง๋ง, ์ ์ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ๊ธฐ ๋๋ฌธ์ ํ์ต ๋ฐ์ดํฐ์ ํ์ง์ ๋ฐ๋ผ trajectory์ bias๊ฐ ์๊ฒจ ์ฑ๋ฅ์ด ์ง์ฅ๊ฐ์ง ์์๊น๊ฐ ๊ฑฑ์ ๋จ | 3.7 |
| ํ๋ธ๋ฆฌ์ฆ | ์ปค๋ฆฌํ๋ผ ๋ฌ๋ ์ํ ํ๋ จ ๋ฐ์ดํฐ ์ ํ์ agent์ ๋ฑ ๋ง๊ฒ ์ ์ค๊ณํ๊ณ , ์ด๊ฒ ๊ธฐ์กด agent ํ๋ จ ๋ฐฉ์๊ณผ ๋ค๋ฅธ ์ ์ธ๋ฏํ๋ค. ๋ณด์ ๊ฐ ์์ฒด๊ฐ ๊ธฐ์ค์ด ์๋๊ณ ๋ณด์์ ๋ณ๋์ด ํฐ trajectory๋ฅผ agent ํ๋ จ ํจ๊ณผ ํด ๊ฑฐ๋ผ ๊ธฐ๋ํ๊ณ ์ ํํ๋ ์ง๊ด์ด ์๋กญ๋ค | 4.3 |
| ๊ตญ๋ฐฅ | Unseen task์ ๋ํ ์ผ๋ฐํ ๊ณผ์ ์ ํ์ตํ ์ ์๋๋ก ๋ฌธ์ ์ค๊ณ๋ฅผ ์ํ ๋
ผ๋ฌธ. Trajectory๋ ๋ชฉํ ๋ฌ์ฑ ์ฌ๋ถ๋ฅผ binary๋ก ๊ตฌ๋ถํ๋๋ฐ, ๋ง์ฝ์ ์ค์ ์ ๋ต์ด ์ฌ๋ฌ๊ฐ์ธ ๊ฒฝ์ฐ์๋ ์ค๊ฐ ๊ณผ์ ์ ๊ณ ๋ คํ๋ ๊ฒ์ด ํ์ํด ๋ณด์ด๊ธด ํจ. ๋ฌด์์ ๋ค์ํ trajectory ์์ฑ๋ณด๋ค๋ ํ์ ์๊ณ ๋ฆฌ์ฆ์ ์จ์ ๋ณด์์ ์กฐ์ ํ ์๋ ์์ง ์์๊น? | 4.2 |
TL; DR
๋ด์ฌ์ ๋ณด์ ์์ด๋, LLM์ด ๋ค์ํ synthetic ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ค์ค๋ก ๋ชจ์ผ๊ณ , ๋จ๊ณ๋ณ๋ก ํ๋จํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ํ์!
Summary
- ์ฐ๊ตฌ์ง : CMU, ๋ ธ์ค์บ๋กค๋ผ์ด๋ ์ฃผ๋ฆฝ๋ํ
- ์ธ์ฉ์ : 8
์ฐ๊ตฌ ๋๊ธฐ
- LLM์ ์์จ ์์ด์ ํธ(autonomous agents)์ ๊ธฐ๋ฐ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์.
- ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์ค์ค๋ก ํ๋จํ๊ณ ํ๋
- ์ด๋ค์ด ์ง์ ํ ์์จ์ฑ์ ๊ฐ์ถ๊ธฐ ์ํด์๋ ์ธ๋ถ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์ ๋ณด๋ฅผ ์์งํ๊ณ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋ฅ๋ ฅ์ด ํ์ํจ.
- ์ด ๋ฅ๋ ฅ์ ์์ฐจ์ ์์ฌ๊ฒฐ์ (sequential decision-making) ํน์ ๊ฐํํ์ต(RL) ๋ฌธ์ ๋ก ํ์ํํ ์ ์์.
๊ทธ๋ฌ๋ ๋ ๊ฐ์ง ํต์ฌ ๋ฌธ์ ๋ก ์ธํด LLM์ ์ํธ์์ฉ ๋ฅ๋ ฅ ๊ฐ๋ฐ์ด ์ด๋ ค์
- ๋๋ถ๋ถ ๋ฐ์ดํฐ๋ ์ํธ์์ฉ ๋ชจ๋ธ๋ง์ ์ํ ๊ตฌ์กฐ์ ์ปจํ ์คํธ๊ฐ ๋ถ์ฌ
- ์ค์ ํ๊ฒฝ์์ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ ์ํํ๊ณ ๋น์ฉ์ด ๋ง์ด ๋ฆ
์ ์ ์์ด๋์ด
- ์ค์ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ต๋ค๋ฉด, synthetic interaction data๋ฅผ ํ์ฉํ์!
โ 10๊ฐ์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ์ ํ (task) ์ค๊ณ
- ๋ชจ๋ธ์ด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํ์ตํ๊ฒ ํ๊ธฐ๋ณด๋ค ๋ฌธ์ ๋ฅผ ํธ๋ ์ผ๋ฐ์ ๊ณผ์ ์ ํ์ต โ in-context RL
- ๋ชจ๋ ๋ฌธ์ ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ฑด ๋นํ์ค์ ์ด๊ธฐ ๋๋ฌธ
โ LLM์ด ์ง์ ๋ฌธ์ ๋ฅผ ํ์ด๋ณด๋ฉฐ trajectory ์์ฑํ๊ณ ์ ์ ์์๋ง์ผ๋ก๋ ์ผ๋ฐํ๋ ์ ๋ต์ ๋ฐฐ์ฐ๊ฒ ํจ
โ ๊ทผ๋ฐ ๋ชจ๋ task์ ๋ํด ๋ฌด์์ ์์ฑํ๋ฉด ๋น์ฉ์ด ๋๋ฌด ํผ!! โ curriclum learning์ผ๋ก ์ํํ์
- ๊ธฐ์กด RL์์์ curiosity (ํธ๊ธฐ์ฌ) ๊ฐ๋
๊ฐ์
- ๊ธฐ์กด : ์ธ๋ถ ๋ณด์(reward)์ด ๊ฑฐ์ ์๊ฑฐ๋ ๋ถ์กฑํ ๋๋ ์์ด์ ํธ๊ฐ ์ค์ค๋ก โ์๋กญ๊ณ ๋ฐฐ์ธ ๊ฒ ๋ง์ ์ํโ๋ฅผ ํ์ํ๋๋ก ๋ง๋๋ ๋ด์ฌ์ ๋ณด์์ ์ค์ ํ์์ ์ ๋
- ๊ฐ์ : ๋ด์ฌ์ ๋ณด์ ์์ด๋, LLM์ด ์๋ฐ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์์งํ๊ณ ์ ๋ต์ ์ธ์ฐ๋ฉฐ ์๋ก์ด ํ๊ฒฝ์์๋ ํจ์จ์ ์ธ ํ์์ ์ํํ ์ ์๋๋ก ํจ
Preliminary
Task์ Task Group
- Task ๏ปฟ: ํ๋์ ํน์ ๋ฌธ์ (์: 20 Questions ๊ฒ์์์ "apple"์ ๋ง์ถ๋ ๊ฒ)
- Task Group ๏ปฟ: ์๋ก ๋ค๋ฅธ task์ high-level ์งํฉ (์: ์ ์ฒด 20 Questions ๊ฒ์์ด ํ๋์ group)
- ๊ฐ์ task group์์ ์๋ ๋ฌธ์ ๋ค์ ๋น์ทํ ์ ๋ต์ผ๋ก ํ ์ ์์ง๋ง, ๋ฐ๋์ ๋์ผํ optimal policy๋ฅผ ๊ฐ์ง์ง๋ ์์
- ex) RTS ๊ฒ์์์ ์๋๊ฐ ์ด๋ค ์ข ์กฑ์ด๋์ ๋ฐ๋ผ ํ ํฌํธ๋ฆฌ๊ฐ ๋ค๋ฆ
POMDP (Partially Observable Markov Decision Process)
- ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ โ์ง์ง ์ํ(state)โ๋ฅผ ์ง์ ๋ณผ ์ ์๊ณ , ์ผ๋ถ ์ ๋ณด๋ง ๊ด์ธกํ๋ฉด์ ์์ฌ๊ฒฐ์ ์ ํด์ผ ํ๋ ๋ชจ๋ธ
- ๋ง์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ POMDP์ผ๋ก ํํ ๊ฐ๋ฅํจ
- ํนํ LLM์ ์ ๋ ฅ prompt๋ง ๋ณด๊ณ ์์ฌ๊ฒฐ์ ํ๊ธฐ ๋๋ฌธ์, ์ ์ฒด ํ๊ฒฝ ์ ๋ณด์ ์ ๊ทผํ์ง ๋ชปํจ
โ ์์ฐ์ค๋ฝ๊ฒ POMDP ํ๊ฒฝ์ผ๋ก ๋ชจ๋ธ๋ง๋จ
- ๋ง์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ POMDP์ผ๋ก ํํ ๊ฐ๋ฅํจ
- ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ โ์ง์ง ์ํ(state)โ๋ฅผ ์ง์ ๋ณผ ์ ์๊ณ , ์ผ๋ถ ์ ๋ณด๋ง ๊ด์ธกํ๋ฉด์ ์์ฌ๊ฒฐ์ ์ ํด์ผ ํ๋ ๋ชจ๋ธ
์์ด์ ํธ ์ํธ์์ฉ ๋ฐฉ์
- ๊ฐ task๋ฅผ black-box ํ๊ฒฝ์ผ๋ก ๊ฐ์
- ์ฃผ์ด์ง action ๏ปฟ (์: "Is it an animal?")์ ์ทจํ๋ฉด ๊ด์ธก๊ฐ ๏ปฟ (์: "No")๋ฅผ ์ป์
โ ์ด ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ์ํธ์์ฉ์ ํ ์คํธ ๋ฌธ์์ด๋ก ํํ
- ๊ฐ task๋ฅผ black-box ํ๊ฒฝ์ผ๋ก ๊ฐ์
์ํผ์๋ (Episode)
- ํ๋์ task์์ ์์ด์ ํธ๊ฐ ์ํํ ์ ์ฒด ์ํธ์์ฉ trajectory
- ๏ปฟ
- ๋จ์ผ step ๏ปฟ
- ์ํผ์๋ ์ข
๋ฃ ์กฐ๊ฑด
- ์์ด์ ํธ๊ฐ ๋ชฉํ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ฌ์ฑ
- ์ต๋ ํ์ฉ๋ ์ํธ์์ฉ ์์ ๋๋ฌ (e.g., 20ํด)
- ํ๋์ task์์ ์์ด์ ํธ๊ฐ ์ํํ ์ ์ฒด ์ํธ์์ฉ trajectory
Method
๊ฐ์
LLM์ด ์ ๋ต์ ์ผ๋ก ํ๊ฒฝ์ ํ์ํ๊ณ , ๋ ๋์ ์์ฐจ์ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๋๋ก ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์ด๋ป๊ฒ ๋ง๋ค๊น?
- ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด LLM์ ๊ธฐ์ด์ ์ธ ์์ฌ๊ฒฐ์ ๋ฌธ์ ์กฐ์ฐจ๋ ํด๊ฒฐ๋ชปํจ
โ ํ์ ์ฐ๊ตฌ์์ UCB(Upper Confidence Bound) ๊ฐ์ ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ฑํ synthetic data๋ก LLM์ fine-tuneํ๋ฉด ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ ์ฆ
UCB ์๊ณ ๋ฆฌ์ฆ์ด๋?
Arm?
- ์ฌ๋กฏ๋จธ์ (๋ฝ๊ธฐ ๊ธฐ๊ณ)์ด ์ฌ๋ฌ ๊ฐ ์๊ณ , ๊ฐ๊ฐ์ ๊ธฐ๊ณ(arm)๋ ๋ค๋ฅธ ํ๋ฅ ๋ก ๋ณด์์ ์ค
- ๋งค๋ฒ ํ๋์ arm์ ์ ํํด์ ๋ณด์์ ๋ฐ์
๐ ์ฌ๊ธฐ์ ๊ฐ arm = ์ ํ์ง(Option)
- Arm 1: ๋ณด์ ํ๋ฅ 10%
- Arm 2: ๋ณด์ ํ๋ฅ 30%
- Arm 3: ๋ณด์ ํ๋ฅ 5%
- ๊ธฐ๋ ๋ณด์์ ๊ณ ๋ คํด์ ๊ฐ์ฅ promisingํ arm์ ์ ํํ๋ ํ์ ์๊ณ ๋ฆฌ์ฆ
- ์ง๊ธ๊น์ง ๋ณด์์ด ๋์๋ arm & ์๋ก์ด arm์ ๊ท ํ์๊ฒ ๊ณ ๋ ค
- ๋ฌธ์ ์
- ๋๋ถ๋ถ์ task์๋ UCB ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ์ด ๋ถ๊ฐ
- ๋ชจ๋ task์ ๋ํด ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ๋ ๋นํจ์จ์ ์
๐ HOW TO SOLVE?
(1) ๋จ์ํ ๋ฌธ์ ๊ฐ ์๋๋ผ, ๋ณต์กํ ์์ฌ๊ฒฐ์ task ์ค๊ณ
(2) ์ข์ ์๊ณ ๋ฆฌ์ฆ ์์ด LLM์ด ์ํธ์์ฉ trajectory ์์ฑ
(3) ์ฑ๋ฅ์ด ์ข์ trajectory๋ฅผ ์ ํธ(prefer)ํ๋๋ก ํ์ธํ๋ (DPO์ ์ ์ฌ)
(4) Curriculum learning ์ผ๋ก ๋ฐ์ดํฐ ํจ์จ ํฅ์
- ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด LLM์ ๊ธฐ์ด์ ์ธ ์์ฌ๊ฒฐ์ ๋ฌธ์ ์กฐ์ฐจ๋ ํด๊ฒฐ๋ชปํจ
Task ์ค๊ณ
๋ค์ํ ์ ๋ต์ ์ ๋ณด ํ์์ด ์๊ตฌ๋๋ ์ํธ์์ฉ ํ๊ฒฝ task ์์ฑ
- ์ข์ task์ ์กฐ๊ฑด
์กฐ๊ฑด ์ค๋ช (1) ํ ์คํธ ๊ธฐ๋ฐ ๋ชจ๋ ์ ์ถ๋ ฅ์ ๋ฌธ์์ด๋ก ๊ตฌ์ฑ๋์ด์ผ ํจ (2) ๋ฉํฐํด ์ํธ์์ฉ ๊ณผ๊ฑฐ ์ํธ์์ฉ ์ด๋ ฅ์ ๊ณ ๋ คํ๋ฉฐ ๋ค์ ํ๋์ ์ ํํด์ผ ํจ (3) ๋ถ๋ถ ๊ด์ธก ํ๊ฒฝ ์์ด์ ํธ๊ฐ ํ์ ๊ฐ๋ฅํ๋๋ก ์ผ๋ถ ์ ๋ณด๋ง ์ฃผ์ด์ง (4) ์ ๋ต ๋ค์์ฑ ๋ฌธ์ ๋ง๋ค ์๊ตฌ๋๋ ์ ๋ต์ด ๋ฌ๋ผ์ผ ํจ
- LLM์ ์์ด์ ํธ๋ก์ ํ์ฉํ์ฌ 10๊ฐ์ task group ์ค๊ณ
- LLM ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ (GPT-4o-mini)
- ๋์ ์ด๊ณ ์ ์ฐํ ๋ฐ์ ์์ฑ ๊ฐ๋ฅโ ๋งฅ๋ฝ์ ๋ฐ๋ฅธ ์๋ต ๋ค์์ฑ ํ๋ณด
- ํ๋์ฝ๋ฉ๋ ์๋ฎฌ๋ ์ดํฐ (Wordle)
- ๋ช ํํ ๊ท์น์ ๋ฐ๋ผ ๊ฒฐ๊ณผ์ reward ๊ณ์ฐ
- LLM ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ (GPT-4o-mini)
- ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ task์์๋ COT ํ๋กฌํํธ ํ์ฉ
- ๋ณด์ ํดํน(reward hacking) ๋ฐฉ์ง๋ฅผ ์ํด ๋ณ๋์ judge ์ถ๊ฐ
- ์ข์ task์ ์กฐ๊ฑด
๋ฐ์ดํฐ์ ๊ตฌ์ถ
๋ค์ํ ์ํธ์์ฉ trajectory๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ํธ๋ ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑ
- ๋ค์ํ trajectory๊ฐ ์ ์ค์ํ๊ฐ?
- ๋ชจ๋ธ์ด ๋จ์ํ ์ ๋ต์ ์ธ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ํ ๋ฌธ์ ํด๊ฒฐ ์ ๋ต์ ์ตํ๋๋ก ํ๊ธฐ ์ํจ
- ์ ๋ต์ด ๋ค์ํ์ง ์์ผ๋ฉด ๋ชจ๋ธ์ ํ ๊ฐ์ง ๋ฐฉ์์ ๋ฐ๋ณตํ๊ฑฐ๋ ๊ณผ์ ํฉํ ์ ์์
- ๋ค์ํ trajectory ์์ฑ ๋ฐฉ๋ฒ
- High Temperature Sampling
- ๋ชจ๋ธ์ ์ถ๋ ฅ ํ๋ฅ ๋ถํฌ๋ฅผ ๋๊ฒ ํผ์ง๊ฒ ํจ โ ๋ ๋ค์ํ ์๋ต ์์ฑ ๊ฐ๋ฅ
- ๋จ์ : Randomness ๋์ ๋น๋ ผ๋ฆฌ์ ์ธ ๋ฌธ์ฅ ์์ฑ ๊ฐ๋ฅ
- Min-p Sampling
- ํ๋ฅ ์ด ๋๋ฌด ๋ฎ์ ํ ํฐ์ ์ ์ธํ๊ณ , ์ ๋นํ ์์ค์ ํ๋ฅ ์ ๊ฐ์ง ํ ํฐ๋ค ์ค์์ ์ํ๋งํ๋ ๋ฐฉ์
- ๋์ threshold โ ๏ปฟ
- ๏ปฟ : ๋ค์ ํ ํฐ ์ค ๊ฐ์ฅ ๋์ ํ๋ฅ
- ๏ปฟ : ๊ทธ์ ๋น๋กํด ์ค์ ๋๋ ์๊ณ๊ฐ (threshold)
โ ์ด ์๊ณ๊ฐ๋ณด๋ค ํ๋ฅ ์ด ๋์ ํ ํฐ๋ง vocabulary์์ ์ ํ์ง๋ก ์ ์ง
- ํจ๊ณผ: ๋ค์ํ๋ฉด์๋ ๋ฌธ๋ฒ์ /์๋ฏธ์ ์ผ๋ก ์ผ๊ด๋ ๋ฌธ์ฅ ์์ฑ ๊ฐ๋ฅ
- High Temperature Sampling
- ์ ํธ๋ ์ ๏ปฟ ๊ตฌ์ฑ
- ๏ปฟ : ๊ฐ์ฅ ์ ์ํ๋ trajectory (์ ์ ํด ์๋ก ์ฑ๊ณต)
- ๏ปฟ : ์๋์ ์ผ๋ก ์ฑ๋ฅ์ด ๋ฎ์ trajectory
- ์์ ํ ์คํจํ๊ฑฐ๋, ์ฑ๊ณตํ์ง๋ง ํจ์ฌ ๋ ๋ง์ ํด์ด ์์๋ ๊ฒ
๏ปฟ์ ๋ฌด์์๋ก ์ํ๋ง
- ์ผ๋ถ๋ฌ "๊ฐ์ฅ ๋์ ๊ฒ"์ ๊ณ ๋ฅด์ง ์์
- ์ด๋ ๊ฒ ํ๋ฉด dataset ๋ด ํ๋์ ๋ค์์ฑ ์ ์ง ๊ฐ๋ฅ
- ๊ทน๋จ์ ์ธ ์คํจ๋ง ํ์ตํ๋ฉด, ๋ชจ๋ธ์ ๋ณด์์ ์ธ ์ ๋ต๋ง ๋ฐฐ์ฐ๊ฒ ๋จ
- ๋ค์ํ trajectory๊ฐ ์ ์ค์ํ๊ฐ?
์ต์ ํ
๋ค์ํ ์ฑ๊ณต/์คํจ trajecotry๋ก๋ถํฐ LLM์ action policy๋ฅผ ์ ๋ฐ์ดํธํ์ฌ,
ํฅํ task์์ ๋ ์ฑ๊ณต์ ์ธ ์ ํ์ ํ๋๋ก ๋ง๋ฆ
- SFT
- ์ฑ๊ณตํ trajectory ๏ปฟ ๋ง์ ์ฌ์ฉํด์ ๋ชจ๋ธ์ด ๊ทธ๋๋ก ๋ฐ๋ผ ํ๋๋ก ํ์ต์ํด
- ์ ๋ฌธ๊ฐ ํ๋(expert behavior)์ด๋ผ ๊ฐ์
- ์ฑ๊ณตํ trajectory ๏ปฟ ๋ง์ ์ฌ์ฉํด์ ๋ชจ๋ธ์ด ๊ทธ๋๋ก ๋ฐ๋ผ ํ๋๋ก ํ์ต์ํด
- DPO
- ์ฑ๊ณต trajectory๋ ์คํจ trajectory๋ณด๋ค ๋ ์ ํธ๋์ด์ผ ํจ
โ ๋ trajectory์ ํ๋ฅ ์ ๋น๊ตํด์, ์ฑ๊ณต trajectory๊ฐ ๋ ๋์ ํ๋ฅ ์ ๊ฐ๋๋ก ์ต์ ํ
- PAPRIKA๋ ๋ฉํฐํด ๋ํํ task์ด๋ฏ๋ก ๋งค ํด์ ๋ํด ๋ก๊ทธ ํ๋ฅ ๋น์จ์ ๊ณ์ฐ
- ํ๊ฒฝ์ด ์์ฑํ observation์ ํฌํจํ์ง ์์ โ ์์ด์ ํธ์ ํ๋๋ง์ ํ์ต์ ๋ฐ์
- RPO (=DPO + SFT)
- DPO๊ฐ ์คํ๋ ค ์๋ ์ ํธ๋๋ trajectory์ ํ๋ฅ ๋ ๋ฎ์ถ๋ ๋ถ์์ฉ ๋ฐ์์ํด
- ์: ํ์ต ์ค ์๋์ ์ธ ์ ํธ๋๋ง ๋ฐ์๋๋ค ๋ณด๋, ์ ๋ ํ๋ฅ ๊ฐ์
โ SFT๋ DPO ํฉ์น์!
- DPO๊ฐ ์คํ๋ ค ์๋ ์ ํธ๋๋ trajectory์ ํ๋ฅ ๋ ๋ฎ์ถ๋ ๋ถ์์ฉ ๋ฐ์์ํด
- SFT
ํ์ธํ๋ : curriculum learning
๋ฐฉ๋ฒ๋ก motivation
- PAPRIKA์ ๋ชฉํ
โ LLM์ด ๋ค์ํ ์์ฌ๊ฒฐ์ ํ์คํฌ ํ์ต์ ํตํด ์ผ๋ฐํ๋ ์์ฌ๊ฒฐ์ ๋ฅ๋ ฅ์ ๊ฐ๋๋ก ํ์ธํ๋- ์๋ง์ ํ์คํฌ๋ฅผ ๋ง๋๋ ๊ฑด ์ฝ์ง๋ง, โ์ง๊ธ ์ด๋ค ์์ ์ ํ์ตํด์ผ ํจ๊ณผ๊ฐ ์ข์๊ฐ?"๋ฅผ ์ ํ๋ ๊ฑด ์ด๋ ค์
- ๊ฐํํ์ต์ trajectory์ ํ์ง์ด ์์ฃผ์์ฃผ ์ค์ํจ!!!!
- ํ์คํฌ๊ฐ ๋๋ฌด ์ด๋ ค์ฐ๋ฉด ํ์ต signal์ด ๋ฌด์๋ฏธํ์ฌ trajectory ์์ฑ X
โ trajectory ์์ฑ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ์, ํ์คํฌ์ ์ฐ์ ์์๋ฅผ ์ ํ์! (curriculum learning์ ํต์ฌ)
- ๊ทผ๋ฐ ์ด๋ค ์์
์ด ํ์ต์ ๋์์ด ๋ ์ง๋ ์ฌ์ค์ ์ง์ ํด๋ณด๊ธฐ ์ ์๋ ๋ชจ๋ฆ
โ ์ง์ ํ ์คํธํ์ง ์์๋, ์ด๋ค ํ์คํฌ๊ฐ ํ์ต์ ๋์์ด ๋ ์ง๋ฅผ ์์ธกํ ์ ์์ด์ผ ํจ.
- ๊ฐ์ : ๋น์ทํ task๋ค์ ๋น์ทํ ํ์ต ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง ๊ฒ์ด๋ค.
- ํ์คํฌ ์ ์ฌ๋๋ ๋ฉํ๋ฐ์ดํฐ or ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ์ ์ฌ์ ์ง์์ผ๋ก ์ป์ ์ ์์
- PAPRIKA์ ๋ชฉํ
๊ทธ๋ฌ๋ฉด ์ค์ ๋ก ์ด๋ค ํ์คํฌ๊ฐ ํ์ต ๊ฐ์น๊ฐ ์์ง?
์์น์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ๋ณ๋ ๊ณ์ ๏ปฟ ์งํ๋ฅผ ๋์ ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก multi-armed bandit (MAB) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ํ์คํฌ ์ ๋ณ
- ๏ปฟ : ํ์คํฌ ๏ปฟ์์ policy ๏ปฟ๊ฐ ์ป๋ ํ๊ท reward
- ๏ปฟ : ํ์คํฌ ๏ปฟ์์ policy ๏ปฟ๊ฐ ์ป๋ reward ๋ถ์ฐ
โ ๋ณ๋ ๊ณ์ ๏ปฟ =๏ปฟ
โ ๊ฐ์ด ํด์๋ก ๋ค์ํ trajectory ์์ฑ์ด ๊ฐ๋ฅํ๊ณ (๋ถ์ฐ์ด ๋๊ธฐ ๋๋ฌธ), policy ๊ฐ์ ์ฌ์ง๊ฐ ํผ
- ํ์คํฌ ์ํ๋ง
- ๋ชจ๋ ํ์คํฌ์ ๋ํด ๏ปฟ๋ฅผ ์ง์ ๊ณ์ฐํ๊ธฐ๋ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ๊ฐ ๊ทธ๋ฃน์์ ๋ํ ํ์คํฌ๋ค์ ์ํ๋งํ์ฌ ๊ทธ ๋ถํฌ๋ฅผ ์ถ์
- ๊ฐ ํ์คํฌ group์ ํ๋์ arm์ผ๋ก ๋ณด๋ MAB ๋ฌธ์ ๋ก ๊ตฌ์ฑ โ
ํ์คํฌ group์ ์ ํํ๊ธฐ ์ํด Upper Condifence Bound (์ ๋ช ํ MAB ์๊ณ ๋ฆฌ์ฆ) ์ฌ์ฉ- ํ์คํฌ ํ๋ ์์ ์ ํ ํ ๋ชจ๋ธ์๊ฒ ์ฌ๋ฌ๋ฒ ์์ผ๋ด
- ์ดํ ํ์คํฌ๊ฐ ์ํ group์ ํ์ต ๊ฐ์น๋ฅผ ์ ๋ฐ์ดํธ
- ์ ๊ณผ์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํด์ trajectory ์์ง
- ์ผ์ ๋ ์์ง๋๋ฉด ๊ทธ๊ฑธ๋ก ํ์ต!
Experiments
Research Question(RQ1) Unseen group์ ๋ํด ๋ณ๋์ ํ๋ จ ์์ด๋ ์ผ๋ฐํ๋ ์์ฌ๊ฒฐ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ ์๋๊ฐ?
(RQ2) Curriculum learning์ ํตํด ์ ์ ํ๋ จ ๋ฐฉ์์ ํจ์จ์ฑ์ ๋์ผ ์ ์๋๊ฐ?
(RQ3) ๊ธฐ์กด LLM ๋ฅ๋ ฅ์ ์์์ํค์ง ์์ผ๋ฉด์ ์๋ก์ด ๋ฅ๋ ฅ์ ์ป๊ฒ ๋๋์ง, ๋ ๊ธฐ์กด ๋ฉํฐํด ๋ฐ์ดํฐ๋ก๋ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ณผ ์ ์๋๊ฐ?
Experimental Setup- LLM : Llama-3.1-8B-Instruct & Gemma-3-12B-IT
- ํ๊ฐ๋ฐฉ์ : ๊ฐ test task๋ง๋ค 4๊ฐ์ trajectory ์์ฑํ๊ณ ํ๊ท success rate ๊ณ์ฐ
LLM์ ์์ฌ๊ฒฐ์ ๋ฅ๋ ฅ์ด ์ผ๋ง๋ ๊ฐ์ ๋๋?
Unseen task์ ๋ํด ์ผ๋ฐํ๋ ์ ๋ต ์ ์ฉ์ด ๊ฐ๋ฅํ๊ฐ?- Paprika (LOO)๊ฐ ์ด๊ธฐ ๋ชจ๋ธ ๋๋น ๋๋ฑํ๊ฑฐ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ (9/10)
- Paprika (full)์ด Paprika (Single Task Group) ๋๋น ๋์ ์ฑ๋ฅ์ ๋ณด์ (7/10)
์์ธ : Mastermind / Wordle (Transfer ํจ๊ณผ ๋ฎ์)
โ ๋ค์ํ ํ์คํฌ group ํ์ฉ ์ transfer ๋ฅ๋ ฅ ํฅ์ ๊ฐ๋ฅ
Curriculum learning์ ํตํด ํจ์จ์ฑ ๊ฐ์ ์ด ์ผ๋ง๋ ๋๋?- Why curriculum?
- ๋ชจ๋ ์์
์ด ๋์ผํ๊ฒ ํ์ต์ ๊ธฐ์ฌํ์ง๋ ์์.
- ์ด๋ ค์ด ์์ ์ ๋๋ถ๋ถ ์คํจ๋ก ๋๋์ ์ ์๋ฏธํ ํ์ต ์ ํธ๊ฐ ๋ถ์กฑํจ.
โ ๊ฐ์ ์์ ์ํ์ ํ ๋นํด๋ ๋ ์ฌ์ด ์์ ์์ ํ์ต ํจ๊ณผ๊ฐ ํผ.
- ๋ชจ๋ ์์
์ด ๋์ผํ๊ฒ ํ์ต์ ๊ธฐ์ฌํ์ง๋ ์์.
- ๋์ด๋ ์ค์ & ๊ตฌํ
- GPT-4o-mini๋ฅผ ์ฌ์ฉํด
20 Questions์์ ์ easy/medium/hard๋ก ์๋ ๋ถ๋ฅ
- 3 round ํ์ต ์ํ
- GPT-4o-mini๋ฅผ ์ฌ์ฉํด
- Why curriculum?
์์ ํจ์จ์ฑ์ ๋ํ ์ ๋์ ๋ถ์- ์ด ๋
ผ๋ฌธ์์ ์ฌ์ฉํ task๋ค์ ๋ฌธ์ ๋ฅผ ๋นจ๋ฆฌ ํ์๋ก ๋ ์ ๋ต์ ์ธ ํ๋์ ํ๋ค๊ณ ๊ฐ์ฃผํ ์ ์๋๋ก ์ค๊ณ๋จ
- e.g., yes/no ์ง๋ฌธ์ ๋ ์ํ๋ฉด ํ๋ฉด ์ ์ turn ์๋ก topic ์์ธก ๊ฐ๋ฅ
- PAPRIKA๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ ํ๊ท ํด ์๋ฅผ ์ค์
โ ์ค๊ฐ ๋จ๊ณ์์ ๋ ๋์ ์ ํ(๋ ์ข์ ์ง๋ฌธ, ๋ ๋์ ์ถ๋ก )์ ํ๊ณ ์์์ ์๋ฏธ!
- ์ด ๋
ผ๋ฌธ์์ ์ฌ์ฉํ task๋ค์ ๋ฌธ์ ๋ฅผ ๋นจ๋ฆฌ ํ์๋ก ๋ ์ ๋ต์ ์ธ ํ๋์ ํ๋ค๊ณ ๊ฐ์ฃผํ ์ ์๋๋ก ์ค๊ณ๋จ







