21 January 2026

Training a Generally Curious Agent

๐Ÿ’ก๋‚ด์žฌ์  ๋ณด์ƒ ์—†์ด๋„, LLM์ด ๋‹ค์–‘ํ•œ synthetic ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์Šค์Šค๋กœ ๋ชจ์œผ๊ณ , ๋‹จ๊ณ„๋ณ„๋กœ ํŒ๋‹จํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๊ฒŒ ํ•˜์ž!

์—ผ๊ทœํ™˜
์—ผ๊ทœํ™˜

Training a Generally Curious Agent

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๊ณ„๋ž€์ดˆ๋ฐฅ์ƒ๊ฐํ•ด๋ณด๋ฉด, trajectory๊ฐ€ ๋ช…ํ™•ํ•˜๋ฉด ๊ตณ์ด ์ง์ ‘ interaction ํ•  ํ•„์š”๊ฐ€ ์—†๊ธด ํ•˜๋„ค! ์š”์ฆ˜ ์ฝ๊ณ  ์žˆ๋Š” EMNLPโ€™25 ๋…ผ๋ฌธ์—์„œ MCTS trajectory๋ฅผ trainig data๋กœ ์‚ผ์•„ incremental learningํ•˜๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์€ ๊ทธ ๋…ผ๋ฌธ๋ณด๋‹ค ๋” ๋˜‘๋˜‘ํ•˜๊ณ  ์ •๊ตํ•˜๋‹ค. ํ•œํŽธ, MCTS์˜ ํ•œ๊ณ„๋กœ exploration cost๋ฅผ ๋‘๋Š”๋ฐ, ๊ธฐ์กด trajectory๋ฅผ ์ž˜ ํ™œ์šฉํ•œ๋‹ค๋ฉด ๊ตณ์ด ๊ทธ๋Ÿด ํ•„์š”๊ฐ€ ์—†์ง€ ์•Š์„๊นŒ?4
๋งน๊ตฌLLM์ด ์ž์œจ ์—์ด์ „ํŠธ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„๊นŒ?๋Š” ์š”์ฆ˜ ์ž์ฃผ ๋‚˜์˜ค๋Š” Physical AI์™€๋„ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ๋˜์–ด ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•จ. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ฃผ์–ด์ง€๋Š” ๋ณด์ƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅํ• ๊นŒ? ๋ผ๋Š” ์ƒ๊ฐ์„ ์‚ฌ์ „ ๋ถ„์„ ๋А๋‚Œ์œผ๋กœ ์‹คํ—˜ํ•œ ๋…ผ๋ฌธ์ด๋ผ ์ข‹์•˜๋‹ค. 4.1
ํ–„๋ฒ„๊ฑฐ๊ฐœ์ธ์ ์œผ๋กœ๋Š” curiosity๊ฐ€ ๊ธฐ์กด์˜ reasoning๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅธ ๊ฒƒ์ธ์ง€๋Š” ์ข€ ์• ๋งคํ•˜๋‹ค๊ณ  ์ƒ๊ฐ๋˜๊ธด ํ•จ. ๊ทผ๋ฐ ๋‹จ์ผ ์‘๋‹ต์ด ์•„๋‹ˆ๋ผ ์ „์ฒด ๊ถค์  ๋‹จ์œ„๋กœ preference๋ฅผ ์ •์˜ํ•œ ์ ์ด ์‹ค์ œ ์—์ด์ „ํŠธ ํ–‰๋™ ํ•™์Šต์— ๋” ์ ์ ˆํ•œ๊ฒƒ ๊ฐ™์Œ4
ํ”ผ์žLLM์ด ๋ณด์ƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ์Šค์Šค๋กœ ํ•™์Šต์ด ์•ˆ๋˜๋Š” ์ ์ด ์‹ค์ œ๋กœ ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด์˜ Reasoning ๋ฐ CoT, Reward ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ๋“ค๊ณผ๋Š” ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ์ง€ ์„ค๋ช…์ด ์žˆ์œผ๋ฉด ๋” ์ข‹์„ ๊ฒƒ ๊ฐ™์Œ4.1
์น˜ํ‚จ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด trajectory๋ฅผ ์ƒ์„ฑํ•ด์„œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฑด ์ข‹์€ ๋ฐฉ์‹์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜์ง€๋งŒ, ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์— ๋”ฐ๋ผ trajectory์— bias๊ฐ€ ์ƒ๊ฒจ ์„ฑ๋Šฅ์ด ์ง€์žฅ๊ฐ€์ง€ ์•Š์„๊นŒ๊ฐ€ ๊ฑฑ์ •๋จ 3.7
ํŽ˜๋ธŒ๋ฆฌ์ฆˆ์ปค๋ฆฌํ˜๋Ÿผ ๋Ÿฌ๋‹ ์œ„ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์„ ํƒ์„ agent์— ๋”ฑ ๋งž๊ฒŒ ์ž˜ ์„ค๊ณ„ํ–ˆ๊ณ , ์ด๊ฒŒ ๊ธฐ์กด agent ํ›ˆ๋ จ ๋ฐฉ์‹๊ณผ ๋‹ค๋ฅธ ์ ์ธ๋“ฏํ•˜๋‹ค. ๋ณด์ƒ ๊ฐ’ ์ž์ฒด๊ฐ€ ๊ธฐ์ค€์ด ์•„๋‹ˆ๊ณ  ๋ณด์ƒ์˜ ๋ณ€๋™์ด ํฐ trajectory๋ฅผ agent ํ›ˆ๋ จ ํšจ๊ณผ ํด ๊ฑฐ๋ผ ๊ธฐ๋Œ€ํ•˜๊ณ  ์„ ํƒํ•˜๋Š” ์ง๊ด€์ด ์ƒˆ๋กญ๋‹ค4.3
๊ตญ๋ฐฅUnseen task์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ณผ์ •์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฌธ์ œ ์„ค๊ณ„๋ฅผ ์ž˜ํ•œ ๋…ผ๋ฌธ.
Trajectory๋Š” ๋ชฉํ‘œ ๋‹ฌ์„ฑ ์—ฌ๋ถ€๋ฅผ binary๋กœ ๊ตฌ๋ถ„ํ•˜๋Š”๋ฐ, ๋งŒ์•ฝ์— ์‹ค์ œ ์ •๋‹ต์ด ์—ฌ๋Ÿฌ๊ฐœ์ธ ๊ฒฝ์šฐ์—๋Š” ์ค‘๊ฐ„ ๊ณผ์ •์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ด ๋ณด์ด๊ธด ํ•จ.
๋ฌด์ž‘์ • ๋‹ค์–‘ํ•œ trajectory ์ƒ์„ฑ๋ณด๋‹ค๋Š” ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์จ์„œ ๋ณด์ƒ์„ ์กฐ์ ˆํ•  ์ˆ˜๋„ ์žˆ์ง€ ์•Š์„๊นŒ?
4.2

TL; DR

๐Ÿ’ก

๋‚ด์žฌ์  ๋ณด์ƒ ์—†์ด๋„, LLM์ด ๋‹ค์–‘ํ•œ synthetic ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์Šค์Šค๋กœ ๋ชจ์œผ๊ณ , ๋‹จ๊ณ„๋ณ„๋กœ ํŒ๋‹จํ•˜๋ฉฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๊ฒŒ ํ•˜์ž!

Summary

  • ์—ฐ๊ตฌ์ง„ : CMU, ๋…ธ์Šค์บ๋กค๋ผ์ด๋‚˜ ์ฃผ๋ฆฝ๋Œ€ํ•™
  • ์ธ์šฉ์ˆ˜ : 8

์—ฐ๊ตฌ ๋™๊ธฐ

  • LLM์€ ์ž์œจ ์—์ด์ „ํŠธ(autonomous agents)์˜ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Œ.
    • ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๊ณ  ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๊ณ  ํ–‰๋™
  • ์ด๋“ค์ด ์ง„์ •ํ•œ ์ž์œจ์„ฑ์„ ๊ฐ–์ถ”๊ธฐ ์œ„ํ•ด์„œ๋Š” ์™ธ๋ถ€ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•จ.
  • ์ด ๋Šฅ๋ ฅ์€ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •(sequential decision-making) ํ˜น์€ ๊ฐ•ํ™”ํ•™์Šต(RL) ๋ฌธ์ œ๋กœ ํ˜•์‹ํ™”ํ•  ์ˆ˜ ์žˆ์Œ.
๊ทธ๋Ÿฌ๋‚˜ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ฌธ์ œ๋กœ ์ธํ•ด LLM์˜ ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ ๊ฐœ๋ฐœ์ด ์–ด๋ ค์›€
  1. ๋Œ€๋ถ€๋ถ„ ๋ฐ์ดํ„ฐ๋Š” ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ๊ตฌ์กฐ์™€ ์ปจํ…์ŠคํŠธ๊ฐ€ ๋ถ€์žฌ
  1. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์€ ์œ„ํ—˜ํ•˜๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ฆ

์ œ์•ˆ ์•„์ด๋””์–ด

  • ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ต๋‹ค๋ฉด, synthetic interaction data๋ฅผ ํ™œ์šฉํ•˜์ž!

    โ†’ 10๊ฐœ์˜ ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ ์œ ํ˜• (task) ์„ค๊ณ„

  • ๋ชจ๋ธ์ด ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ํ•˜๊ธฐ๋ณด๋‹ค ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ์ผ๋ฐ˜์  ๊ณผ์ •์„ ํ•™์Šต โ†’ in-context RL
    • ๋ชจ๋“  ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฑด ๋น„ํ˜„์‹ค์ ์ด๊ธฐ ๋•Œ๋ฌธ

    โ†’ LLM์ด ์ง์ ‘ ๋ฌธ์ œ๋ฅผ ํ’€์–ด๋ณด๋ฉฐ trajectory ์ƒ์„ฑํ•˜๊ณ  ์ ์€ ์˜ˆ์‹œ๋งŒ์œผ๋กœ๋„ ์ผ๋ฐ˜ํ™”๋œ ์ „๋žต์„ ๋ฐฐ์šฐ๊ฒŒ ํ•จ

    โ†’ ๊ทผ๋ฐ ๋ชจ๋“  task์— ๋Œ€ํ•ด ๋ฌด์ž‘์œ„ ์ƒ์„ฑํ•˜๋ฉด ๋น„์šฉ์ด ๋„ˆ๋ฌด ํผ!! โ†’ curriclum learning์œผ๋กœ ์™„ํ™”ํ•˜์ž

  • ๊ธฐ์กด RL์—์„œ์˜ curiosity (ํ˜ธ๊ธฐ์‹ฌ) ๊ฐœ๋… ๊ฐœ์„ 
    • ๊ธฐ์กด : ์™ธ๋ถ€ ๋ณด์ƒ(reward)์ด ๊ฑฐ์˜ ์—†๊ฑฐ๋‚˜ ๋ถ€์กฑํ•  ๋•Œ๋„ ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ โ€œ์ƒˆ๋กญ๊ณ  ๋ฐฐ์šธ ๊ฒŒ ๋งŽ์€ ์ƒํƒœโ€๋ฅผ ํƒ์ƒ‰ํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๋‚ด์žฌ์  ๋ณด์ƒ์„ ์ค˜์„œ ํƒ์ƒ‰์„ ์œ ๋„
    • ๊ฐœ์„  : ๋‚ด์žฌ์  ๋ณด์ƒ ์—†์ด๋„, LLM์ด ์ž๋ฐœ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ „๋žต์„ ์„ธ์šฐ๋ฉฐ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์—์„œ๋„ ํšจ์œจ์ ์ธ ํƒ์ƒ‰์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ

Preliminary

  • Task์™€ Task Group
    • Task ฯ„\tau๏ปฟ: ํ•˜๋‚˜์˜ ํŠน์ • ๋ฌธ์ œ (์˜ˆ: 20 Questions ๊ฒŒ์ž„์—์„œ "apple"์„ ๋งž์ถ”๋Š” ๊ฒƒ)
    • Task Group G={ฯ„1,ฯ„2,...,ฯ„โˆฃGโˆฃ}G=\{\tau_1,\tau_2,...,\tau_{|G|}\}๏ปฟ: ์„œ๋กœ ๋‹ค๋ฅธ task์˜ high-level ์ง‘ํ•ฉ (์˜ˆ: ์ „์ฒด 20 Questions ๊ฒŒ์ž„์ด ํ•˜๋‚˜์˜ group)
      • ๊ฐ™์€ task group์•ˆ์— ์žˆ๋Š” ๋ฌธ์ œ๋“ค์€ ๋น„์Šทํ•œ ์ „๋žต์œผ๋กœ ํ’€ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฐ˜๋“œ์‹œ ๋™์ผํ•œ optimal policy๋ฅผ ๊ฐ€์ง€์ง€๋Š” ์•Š์Œ
      • ex) RTS ๊ฒŒ์ž„์—์„œ ์ƒ๋Œ€๊ฐ€ ์–ด๋–ค ์ข…์กฑ์ด๋ƒ์— ๋”ฐ๋ผ ํ…ŒํฌํŠธ๋ฆฌ๊ฐ€ ๋‹ค๋ฆ„
  • POMDP (Partially Observable Markov Decision Process)
    • ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ์˜ โ€˜์ง„์งœ ์ƒํƒœ(state)โ€™๋ฅผ ์ง์ ‘ ๋ณผ ์ˆ˜ ์—†๊ณ , ์ผ๋ถ€ ์ •๋ณด๋งŒ ๊ด€์ธกํ•˜๋ฉด์„œ ์˜์‚ฌ๊ฒฐ์ •์„ ํ•ด์•ผ ํ•˜๋Š” ๋ชจ๋ธ
      • ๋งŽ์€ ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ๋Š” POMDP์œผ๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅํ•จ
        • ํŠนํžˆ LLM์€ ์ž…๋ ฅ prompt๋งŒ ๋ณด๊ณ  ์˜์‚ฌ๊ฒฐ์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ „์ฒด ํ™˜๊ฒฝ ์ •๋ณด์— ์ ‘๊ทผํ•˜์ง€ ๋ชปํ•จ

        โ†’ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ POMDP ํ™˜๊ฒฝ์œผ๋กœ ๋ชจ๋ธ๋ง๋จ


  • ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ ๋ฐฉ์‹
    • ๊ฐ task๋ฅผ black-box ํ™˜๊ฒฝ์œผ๋กœ ๊ฐ€์ •
      • ์ฃผ์–ด์ง„ action ata_t๏ปฟ (์˜ˆ: "Is it an animal?")์„ ์ทจํ•˜๋ฉด ๊ด€์ธก๊ฐ’ oto_t๏ปฟ (์˜ˆ: "No")๋ฅผ ์–ป์Œ

    โ†’ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋“  ์ƒํ˜ธ์ž‘์šฉ์„ ํ…์ŠคํŠธ ๋ฌธ์ž์—ด๋กœ ํ‘œํ˜„

  • ์—ํ”ผ์†Œ๋“œ (Episode)
    • ํ•˜๋‚˜์˜ task์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜ํ–‰ํ•œ ์ „์ฒด ์ƒํ˜ธ์ž‘์šฉ trajectory
      • h=(o0,a0,...,oH,aH)h=(o_0,a_0,...,o_H,a_H)๏ปฟ
      • ๋‹จ์ผ step ht=(ot,at)h_t=(o_t,a_t)๏ปฟ
    • ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ ์กฐ๊ฑด
      • ์—์ด์ „ํŠธ๊ฐ€ ๋ชฉํ‘œ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋‹ฌ์„ฑ
      • ์ตœ๋Œ€ ํ—ˆ์šฉ๋œ ์ƒํ˜ธ์ž‘์šฉ ์ˆ˜์— ๋„๋‹ฌ (e.g., 20ํ„ด)

Method

  • ๊ฐœ์š”
    LLM์ด ์ „๋žต์ ์œผ๋กœ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๊ณ , ๋” ๋‚˜์€ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค๊นŒ?
    • ๊ธฐ์กด ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด LLM์€ ๊ธฐ์ดˆ์ ์ธ ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ์กฐ์ฐจ๋„ ํ•ด๊ฒฐ๋ชปํ•จ

      โ†’ ํ›„์† ์—ฐ๊ตฌ์—์„œ UCB(Upper Confidence Bound) ๊ฐ™์€ ๊ธฐ์กด ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ƒ์„ฑํ•œ synthetic data๋กœ LLM์„ fine-tuneํ•˜๋ฉด ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆ

      • UCB ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ž€?
        • Arm?
          • ์Šฌ๋กฏ๋จธ์‹ (๋ฝ‘๊ธฐ ๊ธฐ๊ณ„)์ด ์—ฌ๋Ÿฌ ๊ฐœ ์žˆ๊ณ , ๊ฐ๊ฐ์˜ ๊ธฐ๊ณ„(arm)๋Š” ๋‹ค๋ฅธ ํ™•๋ฅ ๋กœ ๋ณด์ƒ์„ ์คŒ
          • ๋งค๋ฒˆ ํ•˜๋‚˜์˜ arm์„ ์„ ํƒํ•ด์„œ ๋ณด์ƒ์„ ๋ฐ›์Œ

          ๐Ÿ‘‰ ์—ฌ๊ธฐ์„œ ๊ฐ arm = ์„ ํƒ์ง€(Option)

          • Arm 1: ๋ณด์ƒ ํ™•๋ฅ  10%
          • Arm 2: ๋ณด์ƒ ํ™•๋ฅ  30%
          • Arm 3: ๋ณด์ƒ ํ™•๋ฅ  5%

        • ๊ธฐ๋Œ€ ๋ณด์ƒ์„ ๊ณ ๋ คํ•ด์„œ ๊ฐ€์žฅ promisingํ•œ arm์„ ์„ ํƒํ•˜๋Š” ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜
          • ์ง€๊ธˆ๊นŒ์ง€ ๋ณด์ƒ์ด ๋†’์•˜๋˜ arm & ์ƒˆ๋กœ์šด arm์„ ๊ท ํ˜•์žˆ๊ฒŒ ๊ณ ๋ ค
    • ๋ฌธ์ œ์ 
      • ๋Œ€๋ถ€๋ถ„์˜ task์—๋Š” UCB ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ ์šฉ์ด ๋ถˆ๊ฐ€
      • ๋ชจ๋“  task์— ๋Œ€ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ๋„ ๋น„ํšจ์œจ์ ์ž„

    ๐Ÿ‘‰ HOW TO SOLVE?

    (1) ๋‹จ์ˆœํ•œ ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ณต์žกํ•œ ์˜์‚ฌ๊ฒฐ์ • task ์„ค๊ณ„

    (2) ์ข‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—†์ด LLM์ด ์ƒํ˜ธ์ž‘์šฉ trajectory ์ƒ์„ฑ

    (3) ์„ฑ๋Šฅ์ด ์ข‹์€ trajectory๋ฅผ ์„ ํ˜ธ(prefer)ํ•˜๋„๋ก ํŒŒ์ธํŠœ๋‹ (DPO์™€ ์œ ์‚ฌ)

    (4) Curriculum learning ์œผ๋กœ ๋ฐ์ดํ„ฐ ํšจ์œจ ํ–ฅ์ƒ

  • Task ์„ค๊ณ„
    ๋‹ค์–‘ํ•œ ์ „๋žต์  ์ •๋ณด ํƒ์ƒ‰์ด ์š”๊ตฌ๋˜๋Š” ์ƒํ˜ธ์ž‘์šฉ ํ™˜๊ฒฝ task ์ƒ์„ฑ
    • ์ข‹์€ task์˜ ์กฐ๊ฑด
      ์กฐ๊ฑด์„ค๋ช…
      (1) ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜๋ชจ๋“  ์ž…์ถœ๋ ฅ์€ ๋ฌธ์ž์—ด๋กœ ๊ตฌ์„ฑ๋˜์–ด์•ผ ํ•จ
      (2) ๋ฉ€ํ‹ฐํ„ด ์ƒํ˜ธ์ž‘์šฉ๊ณผ๊ฑฐ ์ƒํ˜ธ์ž‘์šฉ ์ด๋ ฅ์„ ๊ณ ๋ คํ•˜๋ฉฐ ๋‹ค์Œ ํ–‰๋™์„ ์„ ํƒํ•ด์•ผ ํ•จ
      (3) ๋ถ€๋ถ„ ๊ด€์ธก ํ™˜๊ฒฝ์—์ด์ „ํŠธ๊ฐ€ ํƒ์ƒ‰ ๊ฐ€๋Šฅํ•˜๋„๋ก ์ผ๋ถ€ ์ •๋ณด๋งŒ ์ฃผ์–ด์ง
      (4) ์ „๋žต ๋‹ค์–‘์„ฑ๋ฌธ์ œ๋งˆ๋‹ค ์š”๊ตฌ๋˜๋Š” ์ „๋žต์ด ๋‹ฌ๋ผ์•ผ ํ•จ
    • LLM์„ ์—์ด์ „ํŠธ๋กœ์„œ ํ™œ์šฉํ•˜์—ฌ 10๊ฐœ์˜ task group ์„ค๊ณ„
      • LLM ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ (GPT-4o-mini)
        • ๋™์ ์ด๊ณ  ์œ ์—ฐํ•œ ๋ฐ˜์‘ ์ƒ์„ฑ ๊ฐ€๋Šฅโ†’ ๋งฅ๋ฝ์— ๋”ฐ๋ฅธ ์‘๋‹ต ๋‹ค์–‘์„ฑ ํ™•๋ณด
      • ํ•˜๋“œ์ฝ”๋”ฉ๋œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ (Wordle)
        • ๋ช…ํ™•ํ•œ ๊ทœ์น™์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ์™€ reward ๊ณ„์‚ฐ
    • ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ task์—์„œ๋Š” COT ํ”„๋กฌํ”„ํŠธ ํ™œ์šฉ
    • ๋ณด์ƒ ํ•ดํ‚น(reward hacking) ๋ฐฉ์ง€๋ฅผ ์œ„ํ•ด ๋ณ„๋„์˜ judge ์ถ”๊ฐ€
  • ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•
    ๋‹ค์–‘ํ•œ ์ƒํ˜ธ์ž‘์šฉ trajectory๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ ํ˜ธ๋„ ํ•™์Šต์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์„ฑ
    • ๋‹ค์–‘ํ•œ trajectory๊ฐ€ ์™œ ์ค‘์š”ํ•œ๊ฐ€?
      • ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ ์ •๋‹ต์„ ์™ธ์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋‹ค์–‘ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ์ „๋žต์„ ์ตํžˆ๋„๋ก ํ•˜๊ธฐ ์œ„ํ•จ
      • ์ „๋žต์ด ๋‹ค์–‘ํ•˜์ง€ ์•Š์œผ๋ฉด ๋ชจ๋ธ์€ ํ•œ ๊ฐ€์ง€ ๋ฐฉ์‹์„ ๋ฐ˜๋ณตํ•˜๊ฑฐ๋‚˜ ๊ณผ์ ํ•ฉํ•  ์ˆ˜ ์žˆ์Œ
    • ๋‹ค์–‘ํ•œ trajectory ์ƒ์„ฑ ๋ฐฉ๋ฒ•
      • High Temperature Sampling
        • ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋„“๊ฒŒ ํผ์ง€๊ฒŒ ํ•จ โ†’ ๋” ๋‹ค์–‘ํ•œ ์‘๋‹ต ์ƒ์„ฑ ๊ฐ€๋Šฅ
        • ๋‹จ์ : Randomness ๋†’์•„ ๋น„๋…ผ๋ฆฌ์ ์ธ ๋ฌธ์žฅ ์ƒ์„ฑ ๊ฐ€๋Šฅ
      • Min-p Sampling
        • ํ™•๋ฅ ์ด ๋„ˆ๋ฌด ๋‚ฎ์€ ํ† ํฐ์€ ์ œ์™ธํ•˜๊ณ , ์ ๋‹นํ•œ ์ˆ˜์ค€์˜ ํ™•๋ฅ ์„ ๊ฐ€์ง„ ํ† ํฐ๋“ค ์ค‘์—์„œ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹
        • ๋™์  threshold โ†’ pscaledโˆpmaxp_{scaled}\propto p_{max}๏ปฟ
          • pmaxp_{max}๏ปฟ : ๋‹ค์Œ ํ† ํฐ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ 
          • pscaledp_{scaled}๏ปฟ : ๊ทธ์— ๋น„๋ก€ํ•ด ์„ค์ •๋˜๋Š” ์ž„๊ณ„๊ฐ’ (threshold)

          โ†’ ์ด ์ž„๊ณ„๊ฐ’๋ณด๋‹ค ํ™•๋ฅ ์ด ๋†’์€ ํ† ํฐ๋งŒ vocabulary์—์„œ ์„ ํƒ์ง€๋กœ ์œ ์ง€

        • ํšจ๊ณผ: ๋‹ค์–‘ํ•˜๋ฉด์„œ๋„ ๋ฌธ๋ฒ•์ /์˜๋ฏธ์ ์œผ๋กœ ์ผ๊ด€๋œ ๋ฌธ์žฅ ์ƒ์„ฑ ๊ฐ€๋Šฅ
    • ์„ ํ˜ธ๋„ ์Œ (hw,hl)(h_w,h_l)๏ปฟ ๊ตฌ์„ฑ
      • hwh_w๏ปฟ : ๊ฐ€์žฅ ์ž˜ ์ˆ˜ํ–‰๋œ trajectory (์ ์€ ํ„ด ์ˆ˜๋กœ ์„ฑ๊ณต)
      • hlh_l ๏ปฟ : ์ƒ๋Œ€์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ๋‚ฎ์€ trajectory
        • ์™„์ „ํžˆ ์‹คํŒจํ•˜๊ฑฐ๋‚˜, ์„ฑ๊ณตํ–ˆ์ง€๋งŒ ํ›จ์”ฌ ๋” ๋งŽ์€ ํ„ด์ด ์†Œ์š”๋œ ๊ฒƒ
      hlh_l๏ปฟ์€ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง
      • ์ผ๋ถ€๋Ÿฌ "๊ฐ€์žฅ ๋‚˜์œ ๊ฒƒ"์„ ๊ณ ๋ฅด์ง€ ์•Š์Œ
      • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด dataset ๋‚ด ํ–‰๋™์˜ ๋‹ค์–‘์„ฑ ์œ ์ง€ ๊ฐ€๋Šฅ
      • ๊ทน๋‹จ์ ์ธ ์‹คํŒจ๋งŒ ํ•™์Šตํ•˜๋ฉด, ๋ชจ๋ธ์€ ๋ณด์ˆ˜์ ์ธ ์ „๋žต๋งŒ ๋ฐฐ์šฐ๊ฒŒ ๋จ

  • ์ตœ์ ํ™”
    ๋‹ค์–‘ํ•œ ์„ฑ๊ณต/์‹คํŒจ trajecotry๋กœ๋ถ€ํ„ฐ LLM์˜ action policy๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ,

    ํ–ฅํ›„ task์—์„œ ๋” ์„ฑ๊ณต์ ์ธ ์„ ํƒ์„ ํ•˜๋„๋ก ๋งŒ๋“ฆ

    • SFT
      • ์„ฑ๊ณตํ•œ trajectory hwh_w๏ปฟ ๋งŒ์„ ์‚ฌ์šฉํ•ด์„œ ๋ชจ๋ธ์ด ๊ทธ๋Œ€๋กœ ๋”ฐ๋ผ ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ด
        • ์ „๋ฌธ๊ฐ€ ํ–‰๋™(expert behavior)์ด๋ผ ๊ฐ€์ •
    • DPO
      • ์„ฑ๊ณต trajectory๋Š” ์‹คํŒจ trajectory๋ณด๋‹ค ๋” ์„ ํ˜ธ๋˜์–ด์•ผ ํ•จ

      โ†’ ๋‘ trajectory์˜ ํ™•๋ฅ ์„ ๋น„๊ตํ•ด์„œ, ์„ฑ๊ณต trajectory๊ฐ€ ๋” ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ–๋„๋ก ์ตœ์ ํ™”

      • PAPRIKA๋Š” ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”ํ˜• task์ด๋ฏ€๋กœ ๋งค ํ„ด์— ๋Œ€ํ•ด ๋กœ๊ทธ ํ™•๋ฅ  ๋น„์œจ์„ ๊ณ„์‚ฐ
        • ํ™˜๊ฒฝ์ด ์ƒ์„ฑํ•œ observation์€ ํฌํ•จํ•˜์ง€ ์•Š์Œ โ†’ ์—์ด์ „ํŠธ์˜ ํ–‰๋™๋งŒ์„ ํ•™์Šต์— ๋ฐ˜์˜
    • RPO (=DPO + SFT)
      • DPO๊ฐ€ ์˜คํžˆ๋ ค ์›๋ž˜ ์„ ํ˜ธ๋˜๋˜ trajectory์˜ ํ™•๋ฅ ๋„ ๋‚ฎ์ถ”๋Š” ๋ถ€์ž‘์šฉ ๋ฐœ์ƒ์‹œํ‚ด
        • ์˜ˆ: ํ•™์Šต ์ค‘ ์ƒ๋Œ€์ ์ธ ์„ ํ˜ธ๋„๋งŒ ๋ฐ˜์˜๋˜๋‹ค ๋ณด๋‹ˆ, ์ ˆ๋Œ€ ํ™•๋ฅ  ๊ฐ์†Œ

      โ†’ SFT๋ž‘ DPO ํ•ฉ์น˜์ž!

  • ํŒŒ์ธํŠœ๋‹ : curriculum learning
    • ๋ฐฉ๋ฒ•๋ก  motivation
      • PAPRIKA์˜ ๋ชฉํ‘œ
        โ†’ LLM์ด ๋‹ค์–‘ํ•œ ์˜์‚ฌ๊ฒฐ์ • ํƒœ์Šคํฌ ํ•™์Šต์„ ํ†ตํ•ด ์ผ๋ฐ˜ํ™”๋œ ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์„ ๊ฐ–๋„๋ก ํŒŒ์ธํŠœ๋‹
        • ์ˆ˜๋งŽ์€ ํƒœ์Šคํฌ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฑด ์‰ฝ์ง€๋งŒ, โ€œ์ง€๊ธˆ ์–ด๋–ค ์ž‘์—…์„ ํ•™์Šตํ•ด์•ผ ํšจ๊ณผ๊ฐ€ ์ข‹์€๊ฐ€?"๋ฅผ ์ •ํ•˜๋Š” ๊ฑด ์–ด๋ ค์›€
      • ๊ฐ•ํ™”ํ•™์Šต์€ trajectory์˜ ํ’ˆ์งˆ์ด ์•„์ฃผ์•„์ฃผ ์ค‘์š”ํ•จ!!!!
        • ํƒœ์Šคํฌ๊ฐ€ ๋„ˆ๋ฌด ์–ด๋ ค์šฐ๋ฉด ํ•™์Šต signal์ด ๋ฌด์˜๋ฏธํ•˜์—ฌ trajectory ์ƒ์„ฑ X

        โ†’ trajectory ์ƒ์„ฑ์€ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ธฐ์—, ํƒœ์Šคํฌ์˜ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ •ํ•˜์ž! (curriculum learning์˜ ํ•ต์‹ฌ)

      • ๊ทผ๋ฐ ์–ด๋–ค ์ž‘์—…์ด ํ•™์Šต์— ๋„์›€์ด ๋ ์ง€๋Š” ์‚ฌ์‹ค์ƒ ์ง์ ‘ ํ•ด๋ณด๊ธฐ ์ „์—๋Š” ๋ชจ๋ฆ„

        โ†’ ์ง์ ‘ ํ…Œ์ŠคํŠธํ•˜์ง€ ์•Š์•„๋„, ์–ด๋–ค ํƒœ์Šคํฌ๊ฐ€ ํ•™์Šต์— ๋„์›€์ด ๋ ์ง€๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•จ.

      • ๊ฐ€์ • : ๋น„์Šทํ•œ task๋“ค์€ ๋น„์Šทํ•œ ํ•™์Šต ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋‹ค.
        • ํƒœ์Šคํฌ ์œ ์‚ฌ๋„๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ or ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€์˜ ์‚ฌ์ „ ์ง€์‹์œผ๋กœ ์–ป์„ ์ˆ˜ ์žˆ์Œ
    • ๊ทธ๋Ÿฌ๋ฉด ์‹ค์ œ๋กœ ์–ด๋–ค ํƒœ์Šคํฌ๊ฐ€ ํ•™์Šต ๊ฐ€์น˜๊ฐ€ ์žˆ์ง€?
      ์ˆ˜์น˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ณ€๋™ ๊ณ„์ˆ˜ vฯ€(ฯ„)v_\pi(\tau)๏ปฟ ์ง€ํ‘œ๋ฅผ ๋„์ž…ํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ multi-armed bandit (MAB) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ด ํƒœ์Šคํฌ ์„ ๋ณ„
      • Rฯ€(ฯ„)R_\pi(\tau)๏ปฟ : ํƒœ์Šคํฌ ฯ„\tau๏ปฟ์—์„œ policy ฯ€\pi๏ปฟ๊ฐ€ ์–ป๋Š” ํ‰๊ท  reward
      • ฯƒฯ€2(ฯ„)\sigma^2_\pi(\tau)๏ปฟ : ํƒœ์Šคํฌ ฯ„\tau๏ปฟ์—์„œ policy ฯ€\pi๏ปฟ๊ฐ€ ์–ป๋Š” reward ๋ถ„์‚ฐ

      โ†’ ๋ณ€๋™ ๊ณ„์ˆ˜ vฯ€(ฯ„)v_\pi(\tau)๏ปฟ =ฯƒฯ€2(ฯ„)Rฯ€(ฯ„)\frac{\sqrt{\sigma^2_\pi(\tau)}}{R_\pi(\tau)}๏ปฟ

      โ†’ ๊ฐ’์ด ํด์ˆ˜๋ก ๋‹ค์–‘ํ•œ trajectory ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜๊ณ  (๋ถ„์‚ฐ์ด ๋†’๊ธฐ ๋•Œ๋ฌธ), policy ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ํผ

      • ํƒœ์Šคํฌ ์ƒ˜ํ”Œ๋ง
        • ๋ชจ๋“  ํƒœ์Šคํฌ์— ๋Œ€ํ•ด vฯ€(ฯ„)v_\pi(\tau)๏ปฟ๋ฅผ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๊ธฐ๋Š” ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ ๊ทธ๋ฃน์—์„œ ๋Œ€ํ‘œ ํƒœ์Šคํฌ๋“ค์„ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๊ทธ ๋ถ„ํฌ๋ฅผ ์ถ”์ •
        • ๊ฐ ํƒœ์Šคํฌ group์„ ํ•˜๋‚˜์˜ arm์œผ๋กœ ๋ณด๋Š” MAB ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ โ†’
          ํƒœ์Šคํฌ group์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•ด Upper Condifence Bound (์œ ๋ช…ํ•œ MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜) ์‚ฌ์šฉ
          • ํƒœ์Šคํฌ ํ•˜๋‚˜ ์ž„์˜ ์„ ํƒ ํ›„ ๋ชจ๋ธ์—๊ฒŒ ์—ฌ๋Ÿฌ๋ฒˆ ์‹œ์ผœ๋ด„
          • ์ดํ›„ ํƒœ์Šคํฌ๊ฐ€ ์†ํ•œ group์˜ ํ•™์Šต ๊ฐ€์น˜๋ฅผ ์—…๋ฐ์ดํŠธ
          • ์œ„ ๊ณผ์ •์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•ด์„œ trajectory ์ˆ˜์ง‘
          • ์ผ์ •๋Ÿ‰ ์ˆ˜์ง‘๋˜๋ฉด ๊ทธ๊ฑธ๋กœ ํ•™์Šต!

Experiments

  • Research Question

    (RQ1) Unseen group์— ๋Œ€ํ•ด ๋ณ„๋„์˜ ํ›ˆ๋ จ ์—†์ด๋„ ์ผ๋ฐ˜ํ™”๋œ ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์„ ๊ฐ–์ถœ ์ˆ˜ ์žˆ๋Š”๊ฐ€?

    (RQ2) Curriculum learning์„ ํ†ตํ•ด ์ œ์•ˆ ํ›ˆ๋ จ ๋ฐฉ์‹์˜ ํšจ์œจ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?

    (RQ3) ๊ธฐ์กด LLM ๋Šฅ๋ ฅ์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ์–ป๊ฒŒ ๋˜๋Š”์ง€, ๋˜ ๊ธฐ์กด ๋ฉ€ํ‹ฐํ„ด ๋ฐ์ดํ„ฐ๋กœ๋„ ๊ฐ™์€ ํšจ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?

  • Experimental Setup
    • LLM : Llama-3.1-8B-Instruct & Gemma-3-12B-IT
    • ํ‰๊ฐ€๋ฐฉ์‹ : ๊ฐ test task๋งˆ๋‹ค 4๊ฐœ์˜ trajectory ์ƒ์„ฑํ•˜๊ณ  ํ‰๊ท  success rate ๊ณ„์‚ฐ
  • LLM์˜ ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ๊ฐœ์„ ๋๋‚˜?
    • Bandit Best Arm Selection (๊ธฐ์ดˆ ์‹คํ—˜)
      • Toy task โ†’ ์—ฌ๋Ÿฌ arm ์ค‘์—์„œ ์ œํ•œ๋œ ํšŸ์ˆ˜ ์•ˆ์— ๊ฐ€์žฅ ๋ณด์ƒ์ด ๋†’์€ arm์„ ์ฐพ์•„์•ผ ํ•˜๋Š” ๋ฌธ์ œ

        โ†’ Bandit taskํ•™์Šต ์—†์ด ๋‹ค๋ฅธ task group์—์„œ๋งŒ ํ•™์Šตํ•œ Paprika (LOO) ์„ฑ๋Šฅ ํ–ฅ์ƒ (42.25% โ†’ 62.25%)

    • ๋ณต์žกํ•œ task๋กœ ํ™•์žฅ

      โ†’ Llama์™€ Gemma ๋ชจ๋ธ ๋ชจ๋‘ ์„ฑ๋Šฅ ํฌ๊ฒŒ ํ–ฅ์ƒ (ํ‰๊ท  47%)

  • Unseen task์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”๋œ ์ „๋žต ์ ์šฉ์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?
    • Paprika (LOO)๊ฐ€ ์ดˆ๊ธฐ ๋ชจ๋ธ ๋Œ€๋น„ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„ (9/10)
    • Paprika (full)์ด Paprika (Single Task Group) ๋Œ€๋น„ ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„ (7/10)

    ์˜ˆ์™ธ : Mastermind / Wordle (Transfer ํšจ๊ณผ ๋‚ฎ์Œ)

    โ†’ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ group ํ™œ์šฉ ์‹œ transfer ๋Šฅ๋ ฅ ํ–ฅ์ƒ ๊ฐ€๋Šฅ

  • Curriculum learning์„ ํ†ตํ•ด ํšจ์œจ์„ฑ ๊ฐœ์„ ์ด ์–ผ๋งˆ๋‚˜ ๋๋‚˜?
    • Why curriculum?
      • ๋ชจ๋“  ์ž‘์—…์ด ๋™์ผํ•˜๊ฒŒ ํ•™์Šต์— ๊ธฐ์—ฌํ•˜์ง€๋Š” ์•Š์Œ.
        • ์–ด๋ ค์šด ์ž‘์—…์€ ๋Œ€๋ถ€๋ถ„ ์‹คํŒจ๋กœ ๋๋‚˜์„œ ์œ ์˜๋ฏธํ•œ ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ๋ถ€์กฑํ•จ.

        โ†’ ๊ฐ™์€ ์ˆ˜์˜ ์ƒ˜ํ”Œ์„ ํ• ๋‹นํ•ด๋„ ๋” ์‰ฌ์šด ์ž‘์—…์—์„œ ํ•™์Šต ํšจ๊ณผ๊ฐ€ ํผ.

    • ๋‚œ์ด๋„ ์„ค์ • & ๊ตฌํ˜„
      • GPT-4o-mini๋ฅผ ์‚ฌ์šฉํ•ด 20 Questions ์ž‘์—…์„ easy/medium/hard๋กœ ์ž๋™ ๋ถ„๋ฅ˜
      • 3 round ํ•™์Šต ์ˆ˜ํ–‰
    • ๊ฒฐ๊ณผ
      • Average Success Rate 1.4%, Pass@4 Success Rate 3.3% ๊ฐœ์„ 
  • ์ž‘์—… ํšจ์œจ์„ฑ์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ๋ถ„์„
    • ์ด ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉํ•œ task๋“ค์€ ๋ฌธ์ œ๋ฅผ ๋นจ๋ฆฌ ํ’€์ˆ˜๋ก ๋” ์ „๋žต์ ์ธ ํ–‰๋™์„ ํ–ˆ๋‹ค๊ณ  ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋จ
      • e.g., yes/no ์งˆ๋ฌธ์„ ๋” ์ž˜ํ•˜๋ฉด ํ•˜๋ฉด ์ ์€ turn ์ˆ˜๋กœ topic ์˜ˆ์ธก ๊ฐ€๋Šฅ
    • PAPRIKA๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ํ„ด ์ˆ˜๋ฅผ ์ค„์ž„

    โ†’ ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋” ๋‚˜์€ ์„ ํƒ(๋” ์ข‹์€ ์งˆ๋ฌธ, ๋” ๋‚˜์€ ์ถ”๋ก )์„ ํ•˜๊ณ  ์žˆ์Œ์„ ์˜๋ฏธ!

  • LLM์˜ ๊ธฐ์กด ๋Šฅ๋ ฅ (e.g., ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”, QA)์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์•˜๋Š”๊ฐ€?

    โ†’ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ ๋น„๊ต์‹คํ—˜์—์„œ ๋ˆˆ์— ๋„๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ X

Categories

research