17 December 2025

Quantifying Elicitation of Latent Capabilities in Language Models

๐Ÿ’กLLM์€ ์ž ์žฌ๋œ ๋Šฅ๋ ฅ์„ ์ด๋ฏธ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์•„์ฃผ ์ ์€ ์ˆ˜์˜ ๋ฌด์ž‘์œ„ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šตํ•ด๋„ ๊ทธ ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜/์ด๋ก ์ ์œผ๋กœ ์ •๋Ÿ‰ํ™”ํ•จ

์—ผ๊ทœํ™˜
์—ผ๊ทœํ™˜
๐Ÿฅˆ

Quantifying Elicitation of Latent Capabilities in Language Models

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
์›”๋“œ์ฝ˜LLM์€ ๋Œ€๋ถ€๋ถ„์˜ ์ง€์‹์„ ํ•™์Šต ํ–ˆ์„ ๊ฒƒ์ด๊ณ , ์ถ”๋ก ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž„. ์†Œ์ˆ˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์„ ์ˆ˜์ •ํ•ด์„œ ์ด๋ฅผ ํŠน์ • task์— ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ํšจ์œจ์„ฑ์ด ๋›ฐ์–ด๋‚  ๊ฒƒ์ด์ง€๋งŒ, ๋‹ค๋ฅธ task์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์ด ์œ ์ง€๋  ์ˆ˜ ์žˆ์„๊นŒ? ๋ผ๋Š” ์˜๋ฌธ์ด ๋‚จ์Œ.4
ํŒŒ๋น„์•„๋…ธ์นด๋ฃจ์•„๋‚˜์‹ ์„ ํ•œ ๊ด€์ ์ธ๋ฐ, ๊ฒฐ๊ตญ ๊ทธ ์†Œ์ˆ˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ตญ์†Œ์ ์œผ๋กœ ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์ณค๋Š”์ง€๋„ ์•Œ ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉด ๋„ˆ๋ฌด ์ข‹์•˜์„๋“ฏ. ๊ทธ๊ฒŒ ๊ถ๊ธˆํ•จ4
ํ‚ค๋ณด๋“œ๋ฐœ๊ฒฌ์€ ์ƒˆ๋กœ์šด๋ฐ ๊ทธ๋ž˜์„œ ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ•˜์ง€.. LoRA์—์„œ๋„ ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํŒŒ์ธํŠœ๋‹ํ•ด๋„ ๋œ๋‹ค๋Š” ๊ฑด๊ฐ€? ํŒŒ์ธํŠœ๋‹ ํ•  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋žœ๋ค ์„ ํƒํ•ด๋„ ๋น„์Šทํ•œ elicit ํšจ๊ณผ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ๊ฒƒ์€ ์‹ ๊ธฐํ•˜๋‹ค4
์šฐ์‚ฐ์•ˆ๊ฐ€์ ธ์˜ดLLM์˜ ์ง„์งœ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•ด์•ผ ๋œ๋‹ค๋Š” ์˜๊ฒฌ์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ. ํŒŒ์ธ ํŠœ๋‹์€ LLM์ด ๊ธฐ์กด์— ๋ชจ๋ฅด๋˜ ๊ฒƒ์„ ์ถ”๊ฐ€๋กœ ์•Œ๋ ค์ฃผ๋Š” ๊ฒƒ์ด๊ตฌ๋‚˜ ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋˜ ๊ธฐ์กด์˜ ๊ด€๋…์„ Elicit ํ•œ ๊ฑฐ์˜€๊ตฌ๋‚˜๋ผ๊ณ  ๋ฐ”๊ฟ”์ค€ ๊ณ ๋งˆ์šด ๋…ผ๋ฌธ4.3
๊ผฌ๋“ค๋ชฉmotivation๋งŒ ์ฝ์—ˆ์„ ๋•Œ์—๋Š” ๋‹น์—ฐํ•œ ๋ง์„ ํ•˜๊ณ  ์žˆ๋„ค ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ, ์‹คํ—˜ ์„ธํŒ… ๋“ฑ๋“ฑ ์ด๋ฅผ ์ฆ๋ช…ํ•˜๋Š” ๊ณผ์ •์ด ๋ช…์พŒํ•ด์„œ ์ข‹์•˜์Šจ 4.5
์œก์‚ฌ์‹œ๋ฏธํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํŠน์ • ์œ ํ˜•์˜ reasoning์„ ๋‹ด๋‹นํ•˜๊ณ  ์žˆ์„ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ๋„ ํ•ด์„๋  ์ˆ˜ ์žˆ์–ด ๋ณด์ž„. ๋˜ํ•œ ํŠน์ • acc๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š”๋ฐ ์–ด๋А ์ •๋„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•„์š”ํ•œ์ง€๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ฌธ์ œ๋‚˜ ๋ฐ์ดํ„ฐ์…‹์˜ ๋‚œ์ด๋„๋ฅผ ์—ญ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ• ๋“ฏ4.3
๋‚ ์”จ:ํ๋ฆผ์–ด๋–ค ํƒœ์Šคํฌ์—์„œ ์„ฑ๋Šฅ์ด ์•ˆ ๋‚˜์˜จ๋‹ค๊ณ  ํ•ด์„œ ๋Šฅ๋ ฅ์ด ์—†๋‹ค๊ณ  ๊ฒฐ๋ก ๋‚ด๋ฆฌ๊ธฐ๋ณด๋‹ค, ๊ทธ ๋Šฅ๋ ฅ์ด ๋ชจ๋ธ ์•ˆ์— ์ž ์žฌํ•ด ์žˆ๋Š”๋ฐ๋„ ์šฐ๋ฆฌ๊ฐ€ ์ ‘๊ทผ(elicitation)์„ ๋ชป ํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ–ˆ๊ตฌ๋‚˜!4.3
๋งˆ์šฐ์Šค์ด๋ฏธ ์žˆ๋Š” ๋ชจ๋ธ์˜ ์ž ์žฌ ๋Šฅ๋ ฅ์„ ๋‚˜์˜ค๊ฒŒ ํ•œ๋‹ค๋Š” ์ ์—์„œ ํฐ ๊ธฐ์—ฌ๊ฐ€ ์žˆ๋Š” ๋“ฏ ํ•˜๋‹ค. LLM์ด ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์„ ํ†ตํ•ด ์ˆจ๊ฒจ์ง„ ๋Šฅ๋ ฅ์„ ๋“œ๋Ÿฌ๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์—์„œ ๋งŽ์€ ์ฐธ๊ณ ๊ฐ€ ๋  ๋“ฏ.4.8

TL; DR

๐Ÿ’ก

LLM์€ ์ž ์žฌ๋œ ๋Šฅ๋ ฅ์„ ์ด๋ฏธ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์•„์ฃผ ์ ์€ ์ˆ˜์˜ ๋ฌด์ž‘์œ„ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šตํ•ด๋„ ๊ทธ ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜/์ด๋ก ์ ์œผ๋กœ ์ •๋Ÿ‰ํ™”ํ•จ

Summary

์—ฐ๊ตฌ์ง„: UC Berkeley


์—ฐ๊ตฌ ๋™๊ธฐ

  • LLM๋“ค์€ post-training (e.g., fine-tuning, RLHF, prompt engineering)๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ
    • ์ด๋Š” LLM์˜ ๋Šฅ๋ ฅ์ด ์ƒˆ๋กœ ์ƒ๊ธด ๊ฒƒ(teach)์ด๋ผ๊ธฐ๋ณด๋‹จ, ์ด๋ฏธ ์žˆ์—ˆ๋˜ ๋Šฅ๋ ฅ์ด โ€˜๊บผ๋‚ด์ง„โ€™ (elicit)๊ฒƒ์ผ ์ˆ˜ ์žˆ์Œ
  • 10~100๊ฐœ์˜ ๋ฌด์ž‘์œ„ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šต ์‹œ

    โ†’ ์ „์ฒด fine-tuning ๋Œ€๋น„ 50% ์ด์ƒ ์„ฑ๋Šฅ ํšŒ๋ณต ๊ฐ€๋Šฅ

    โ†’ ์ด๋Š” ์ž ์žฌ ๋Šฅ๋ ฅ์ด ๋ชจ๋ธ ๋‚ด์— ์ด๋ฏธ ์žˆ์—ˆ์Œ์„ ์˜๋ฏธ

๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„

  • ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฐฉ์‹
    • ๊ธฐ์กด์˜ LLM ์„ฑ๋Šฅ ํ‰๊ฐ€๋Š” ๋Œ€๋ถ€๋ถ„ zero-shot, few-shot, ๋˜๋Š” prompt engineering์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ
    • ํ•˜์ง€๋งŒ ์ด๋Š” ๋ชจ๋ธ์ด ๋‚ด๋ถ€์— ์ด๋ฏธ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ œ๋Œ€๋กœ ๋“œ๋Ÿฌ๋‚ด์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Œ
    • ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ ์„ฑ๋Šฅ์˜ ์ƒํ•œ(ceiling)์„ ํ‰๊ฐ€ํ•˜์ง€ ๋ชปํ•จ โ†’ ์ž ์žฌ๋ ฅ ๊ณผ์†Œํ‰๊ฐ€
  • Scalability์—๋งŒ ์ดˆ์ 
    • ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ ์š”์ธ์œผ๋กœ ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜, ์—ฐ์‚ฐ๋Ÿ‰๋งŒ์„ ๋‹ค๋ฃธ (e.g., scaling laws)
    โ†’ ์ด ๋…ผ๋ฌธ์€ "๋ชจ๋ธ์ด ์ด๋ฏธ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์„ ๋•Œ, ์–ผ๋งˆ๋‚˜ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์ •๋งŒ์œผ๋กœ ๊ทธ ๋Šฅ๋ ฅ์„ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?"์— ์ฃผ๋ชฉ
    • ์ฆ‰, ๋ชจ๋ธ scale์ด ์•„๋‹Œ ์ •๋ณด๋Ÿ‰ ๊ธฐ์ค€์˜ ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ•จ

ํ•ต์‹ฌ ์งˆ๋ฌธ

  • "LLM์˜ ์ž ์žฌ ๋Šฅ๋ ฅ์„ ์œ ๋„ํ•˜๋ ค๋ฉด ์ตœ์†Œ ๋ช‡ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?"
  • "์ด๊ฒƒ์ด ์ •๋ง elicitation์ธ์ง€, ์•„๋‹ˆ๋ฉด teaching์ธ์ง€ ์–ด๋–ป๊ฒŒ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?"

์ œ์•ˆ ์•„์ด๋””์–ด

  • Elicitation๊ณผ Teaching์˜ ์ •๋Ÿ‰์  ๊ตฌ๋ถ„
    • ์‰ฌ์šด ํƒœ์Šคํฌ์—์„œ๋Š” ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์ด ๋ช‡ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ
    • ๋ฐ˜๋ฉด, ๋™์ผ ๋ชจ๋ธ์„ random ์ดˆ๊ธฐํ™”ํ•˜๋ฉด ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•„์š” โ†’ ์ด๋Š” Teaching์— ํ•ด๋‹น
    • โ†’ Elicitation๋Š” ๊ธฐ์กด์— ์žˆ๋Š” ๋Šฅ๋ ฅ์„ "์ฐพ์•„๊ฐ€๋Š” ๊ฒƒ", Teaching์€ "์ƒˆ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ"์ž„์„ ์ž…์ฆ
  • ์ •๋ณด์ด๋ก ์  ๊ด€์ ์˜ ํ•ด์„ (MDL ๊ธฐ๋ฐ˜)
    • Elicitation ๊ณผ์ •์„ Minimum Description Length(MDL) ์›์น™์œผ๋กœ ํ•ด์„

      โ†’ ์ž ์žฌ ๋Šฅ๋ ฅ์ด ์žˆ๋‹ค๋ฉด, ์•„์ฃผ ์ ์€ ์ •๋ณด(๋ช‡ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ)๋งŒ์œผ๋กœ๋„ ๋ฐ์ดํ„ฐ ์••์ถ•์ด ๊ฐ€๋Šฅํ•ด์•ผ ํ•œ๋‹ค!

    • ์ ์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋„ MDL์ด ๊ธ‰๊ฐํ•˜๋ฉด, ์ด๋Š” ์ด๋ฏธ ์กด์žฌํ•˜๋Š” ๋Šฅ๋ ฅ์ด๋ผ๋Š” ์ฆ๊ฑฐ

Experiments

์‹คํ—˜ Configuration

  • ํ™œ์šฉ LLM : Llama 3.2 1B/3B, Llama 3.1 8B, Qwen2.5-1.5B
  • ๋ฐฉ๋ฒ• : LoRA ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ๋ฌด์ž‘์œ„ ์„ ํƒ, ๊ทน์†Œ์ˆ˜๋งŒ ํ•™์Šต

  • ์‹คํ—˜ 1 : Classification Tasks

    ๋ฐ์ดํ„ฐ์…‹:
    GSM-8K-CoT-Choice : ๋‹ค์ง€์„ ๋‹ค ์ˆ˜ํ•™ ๋ฌธ์ œ (ํ’€์ด ๊ณผ์ •์— ๋Œ€ํ•œ binary classification)

    ARC-Easy : ๊ณผํ•™ ์ƒ์‹ (๊ฐ๊ด€์‹)

    ARC-Challenge: ๊ณ ๋‚œ์ด๋„ ๊ณผํ•™ ์ถ”๋ก  (๊ฐ๊ด€์‹)

    ํ•ต์‹ฌ ์งˆ๋ฌธ:

    "๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ๋ช‡ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต๋งŒ์œผ๋กœ ์„ฑ๋Šฅ ํšŒ๋ณต์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?"

    ์ฃผ์š” ๊ฒฐ๊ณผ:

    • GSM-8K-CoT-Choice : ๋‹จ 30~100๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์œผ๋กœ๋„ ์ „์ฒด ์„ฑ๋Šฅ ๊ฒฉ์ฐจ์˜ 50% ํšŒ๋ณต ๊ฐ€๋Šฅ
    • ARC-Challenge : ์ž‘์€ ๋ชจ๋ธ(1B)์€ ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•„์š” โ†’ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์›๋ž˜ ์—†์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ

    โ†’ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์œผ๋กœ๋„ ์„ฑ๋Šฅ์ด ์ž˜ ํšŒ๋ณต๋จ โ†’ ๋Šฅ๋ ฅ์ด ์ด๋ฏธ ๋‚ด์žฌ๋˜์–ด ์žˆ์Œ

  • ์‹คํ—˜ 2 : Generation Tasks

    ํ•ต์‹ฌ ์งˆ๋ฌธ:

    "ํ…์ŠคํŠธ ์ƒ์„ฑ ๊ณผ์ œ์—์„œ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ช‡ ๊ฐœ๋งŒ์œผ๋กœ ์„ฑ๋Šฅ์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์„๊นŒ?"

    ์ฃผ์š” ๊ฒฐ๊ณผ:

    • Alpaca-Eval: 1,000๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์œผ๋กœ 50% ์„ฑ๋Šฅ ํšŒ๋ณต
    • TinyStories (๊ฐ„๋‹จํ•œ ์˜์–ด ์ด์•ผ๊ธฐ ์ƒ์„ฑ): ์•„์ฃผ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์œผ๋กœ ๋น ๋ฅธ ์„ฑ๋Šฅ ํšŒ๋ณต
    • Lichess Puzzles (์ฒด์Šค/์ˆ˜ํ•™ ๋ฌธ์ œ): ๋ณต์žกํ•œ ๋ฌธ์ œ์ผ์ˆ˜๋ก 10,000~20,000๊ฐœ ์ด์ƒ ํ•„์š” โ†’ ํ•™์Šต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ
  • ์‹คํ—˜ 3 : Logistic Scaling Law: S-curve ํŒจํ„ด์˜ ์ผ๋ฐ˜์„ฑ

    ํ•ต์‹ฌ ์งˆ๋ฌธ:

    "์ด๋Ÿฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํŒจํ„ด์€ ํŠน์ • ํƒœ์Šคํฌ์—๋งŒ ๋‚˜ํƒ€๋‚˜๋Š”๊ฐ€, ์•„๋‹ˆ๋ฉด ์ผ๋ฐ˜์ ์ธ๊ฐ€?"

    ๊ฒฐ๋ก :

    • Accuracy ์ƒ์Šน๋ฅ ์ด ๋กœ์ง€์Šคํ‹ฑ ๊ณก์„ (S-curve) ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚จ
    • ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ, LLM ํฌ๊ธฐ์— ๊ฑธ์ณ ์ผ๊ด€๋œ ํŒจํ„ด ๊ด€์ฐฐ
  • ์‹คํ—˜ 4 : Pareto Frontier ์•ˆ์ •์„ฑ

    ํ•ต์‹ฌ ์งˆ๋ฌธ:

    "๋ชจ๋ธ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘์—์„œ ์–ด๋–ค ๋ถ€๋ถ„์„ ํ•™์Šตํ• ์ง€ ๋ฌด์ž‘์œ„๋กœ ๊ณ ๋ฅด๋ฉด, ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ seed์— ๋”ฐ๋ผ ๋งŽ์ด ๋‹ฌ๋ผ์งˆ๊นŒ?"

    • Pareto Frontier : โ€œ์–ผ๋งˆ๋‚˜ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์–ผ๋งˆ๋‚˜ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€โ€์˜ ํšจ์œจ์„ฑ์˜ ๊ทนํ•œ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ณก์„ 

    ๊ฒฐ๋ก :

    • Pareto frontier๋Š” random seed์— ๋Œ€ํ•ด ๋งค์šฐ ์•ˆ์ •์ 
    • ๋‹ค์ˆ˜์˜ ์‹คํ—˜์—์„œ๋„ ๋กœ์ง€์Šคํ‹ฑ ๊ณก์„ ์˜ 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๋‚ด์— ๋Œ€๋ถ€๋ถ„ ์ˆ˜๋ ด
      • ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ์Œ์˜ ํ‘œ์‹œ๋œ ๊ตฌ์—ญ์ด 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„์ž„
  • ์‹คํ—˜ 5 : Elicitation vs. Teaching

    ํ•ต์‹ฌ ์งˆ๋ฌธ:

    "์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋ชจ๋ธ์ด ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋Œ์–ด๋‚ด๋Š” ๊ณผ์ •(elicitation)์ธ์ง€, ์•„๋‹ˆ๋ฉด ์ง„์งœ ํ•™์Šต(teaching) ๋•๋ถ„์ธ์ง€ ์–ด๋–ป๊ฒŒ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์„๊นŒ?"

    ์‹คํ—˜ ์กฐ๊ฑด:

    • Llama 3.2 1B์˜ ๋‘ ๋ฒ„์ „ ๋น„๊ต (ํ•™์Šต ํšจ์œจ์„ฑ ์ฐจ์ด ๋ถ„์„)
      1. ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ
      1. Random ์ดˆ๊ธฐํ™” ๋ชจ๋ธ
    • 2๊ฐ€์ง€ ํƒœ์Šคํฌ ์ˆ˜ํ–‰
      1. TinyStories
      1. Lichess Puzzles

    ๊ฒฐ๊ณผ:

    • TinyStories
      • ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ : ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฉด ์ถฉ๋ถ„
      • Random ์ดˆ๊ธฐํ™” ๋ชจ๋ธ : ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•„์š” โ†’ ํ•™์Šต์ด ํ•„์š”ํ•จ
    • Lichess Puzzles
      • ๋‘˜ ๋‹ค ์–ด๋ ค์›Œ์„œ ์ฐจ์ด ํฌ์ง€ ์•Š์Œ โ†’
        ๋ชจ๋ธ ๋‚ด๋ถ€์— ํŠน์ • ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์ดํ•ด๊ฐ€ ์—†์œผ๋ฉด pretrained ์—ฌ๋ถ€์™€ ๊ด€๊ณ„์—†์ด teaching์ด ํ•„์š”โ†’ elicitation ๋ถˆ๊ฐ€๋Šฅ


์ด๋ก ์  ๊ฒ€์ฆ

Minimum Description Length (MDL) : ์ •๋ณด๋Ÿ‰

"๊ฐ€์žฅ ์งง์€ ์„ค๋ช…์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์ข‹์€ ๋ชจ๋ธ"!

โ†’ Occamโ€™s Razor (์˜ค์ปด์˜ ๋ฉด๋„๋‚ , ๊ฐ„๊ฒฐํ•œ ๊ฒƒ์ด ์ง„๋ฆฌ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค)๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ํ‘œํ˜„ํ•œ ์›๋ฆฌ

  • ์ •์˜ : ๋ชจ๋ธ์ด ๊ฐ ๋ฐ์ดํ„ฐ label์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ ๋น„ํŠธ ์ˆ˜
    • ์ˆ˜ํ•™์  ์ •์˜ : ๊ฐ ์ƒ˜ํ”Œ ์˜ˆ์ธก๊ฐ’์— ๋Œ€ํ•œ cross-entropy loss์˜ ๋ˆ„์ ํ•ฉ

    โ†’ ๋ชจ๋ธ์ด ์ฒ˜์Œ๋ณด๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ณ„์† ์ธก์ •


  • L0\mathcal{L}_0๏ปฟ: ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์•„๋ฌด๊ฒƒ๋„ ์•ˆ ๋ฐฐ์šฐ๊ณ  label์„ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ MDL
  • Lk\mathcal{L}_k๏ปฟ : k๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ fine-tuning ํ–ˆ์„ ๋•Œ ํ•„์š”ํ•œ MDL

โ‡’ ์ ์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ•™์Šตํ•ด๋„ MDL์ด ํฌ๊ฒŒ ๊ฐ์†Œ โ†’ ๋Šฅ๋ ฅ์ด ์ด๋ฏธ ์กด์žฌ (elicitation)

โ‡’ MDL์ด ๊ฑฐ์˜ ์ค„์ง€ ์•Š์Œ โ†’ ๋Šฅ๋ ฅ์ด ์—†๋‹ค (teaching)


์‹คํ—˜

  • Task๏ผˆARC-Challenge๏ผ‰๏ผš๋ณต์žกํ•œ ๊ณผํ•™/์ƒ์‹ ์ถ”๋ก  ๋ฌธ์ œ

โ‡’ Figure์—์„œ ์ค‘์š”ํ•œ ๋ถ€๋ถ„ : MDL Compression (y์ถ• ์˜ค๋ฅธ์ชฝ) โ†’ ์–ผ๋งˆ๋‚˜ ์ •๋ณด๊ฐ€ ์ค„์—ˆ๋Š”์ง€??

  • Llama 3.2 1B
    • ํ•ด๋‹น task ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์ด ์—†๊ฑฐ๋‚˜ ๋ถ€์กฑ
    • ์ดˆ๋ฐ˜์—” ์•„๋ฌด๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ๊ธˆ ๋Š˜๋ ค๋„ Accuracy๋Š” ์˜ค๋ฅด์ง€๋งŒ ์ •๋ณด ์••์ถ• X (๋‹จ์ˆœ ์•”๊ธฐ ์ˆ˜์ค€)
    • ์–ด๋А ์‹œ์  ์ดํ›„ ๊ฐ‘์ž๊ธฐ ์ •๋ณด ์••์ถ•๋Ÿ‰ ์ฆ๊ฐ€

    โ†’ ์ข…ํ•ฉํ•˜๋ฉด Teaching์— ๊ฐ€๊นŒ์›€!

  • Llama 3.1 8B
    • ์ด๋ฏธ ๊ด€๋ จ ๋Šฅ๋ ฅ์ด ๋‚ด์žฌ๋˜์–ด ์žˆ์Œ
    • ์†Œ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋„ ์„ฑ๋Šฅ๊ณผ MDL์ด ๋™์‹œ์— ๋น ๋ฅด๊ฒŒ ํ–ฅ์ƒ๋จ
    • Accuracy curve์™€ MDL compression curve๊ฐ€ ๊ฑฐ์˜ ๊ฐ™์€ ๋ชจ์–‘

    โ†’ ์ด๊ฑด Elicitation์ด๋‹ค!

Categories

research