Quantifying Elicitation of Latent Capabilities in Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์๋์ฝ | LLM์ ๋๋ถ๋ถ์ ์ง์์ ํ์ต ํ์ ๊ฒ์ด๊ณ , ์ถ๋ก ๋ ๊ฐ๋ฅํ ๊ฒ์. ์์ ํ๋ผ๋ฏธํฐ๋ง์ ์์ ํด์ ์ด๋ฅผ ํน์ task์ ์ ๋ํ ์ ์๋ค๋ฉด ํจ์จ์ฑ์ด ๋ฐ์ด๋ ๊ฒ์ด์ง๋ง, ๋ค๋ฅธ task์ ๋ํ ์ฑ๋ฅ์ด ์ ์ง๋ ์ ์์๊น? ๋ผ๋ ์๋ฌธ์ด ๋จ์. | 4 |
| ํ๋น์๋ ธ์นด๋ฃจ์๋ | ์ ์ ํ ๊ด์ ์ธ๋ฐ, ๊ฒฐ๊ตญ ๊ทธ ์์ ํ๋ผ๋ฏธํฐ๊ฐ ๊ตญ์์ ์ผ๋ก ์ด๋ค ์ํฅ์ ๋ฏธ์ณค๋์ง๋ ์ ์ ์์์ผ๋ฉด ๋๋ฌด ์ข์์๋ฏ. ๊ทธ๊ฒ ๊ถ๊ธํจ | 4 |
| ํค๋ณด๋ | ๋ฐ๊ฒฌ์ ์๋ก์ด๋ฐ ๊ทธ๋์ ์ด๋ป๊ฒ ํด์ผํ์ง.. LoRA์์๋ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ํ์ธํ๋ํด๋ ๋๋ค๋ ๊ฑด๊ฐ? ํ์ธํ๋ ํ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋ค ์ ํํด๋ ๋น์ทํ elicit ํจ๊ณผ ๋ํ๋ธ๋ค๋ ๊ฒ์ ์ ๊ธฐํ๋ค | 4 |
| ์ฐ์ฐ์๊ฐ์ ธ์ด | LLM์ ์ง์ง ๋ฅ๋ ฅ์ ์ธก์ ํด์ผ ๋๋ค๋ ์๊ฒฌ์ ์ ์ํ๋ ์ฐ๊ตฌ. ํ์ธ ํ๋์ LLM์ด ๊ธฐ์กด์ ๋ชจ๋ฅด๋ ๊ฒ์ ์ถ๊ฐ๋ก ์๋ ค์ฃผ๋ ๊ฒ์ด๊ตฌ๋ ๋ผ๊ณ ์๊ฐํ๋ ๊ธฐ์กด์ ๊ด๋ ์ Elicit ํ ๊ฑฐ์๊ตฌ๋๋ผ๊ณ ๋ฐ๊ฟ์ค ๊ณ ๋ง์ด ๋ ผ๋ฌธ | 4.3 |
| ๊ผฌ๋ค๋ชฉ | motivation๋ง ์ฝ์์ ๋์๋ ๋น์ฐํ ๋ง์ ํ๊ณ ์๋ค ๋ผ๊ณ ์๊ฐํ๋๋ฐ, ์คํ ์ธํ
๋ฑ๋ฑ ์ด๋ฅผ ์ฆ๋ช
ํ๋ ๊ณผ์ ์ด ๋ช
์พํด์ ์ข์์จ | 4.5 |
| ์ก์ฌ์๋ฏธ | ํน์ ํ๋ผ๋ฏธํฐ๊ฐ ํน์ ์ ํ์ reasoning์ ๋ด๋นํ๊ณ ์์ ๊ฐ๋ฅ์ฑ์ผ๋ก๋ ํด์๋ ์ ์์ด ๋ณด์. ๋ํ ํน์ acc๋ฅผ ๋ฌ์ฑํ๋๋ฐ ์ด๋ ์ ๋์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ์ง๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฌธ์ ๋ ๋ฐ์ดํฐ์ ์ ๋์ด๋๋ฅผ ์ญ์ผ๋ก ์ถ์ ํ๋ ๊ฒ๋ ๊ฐ๋ฅํ ๋ฏ | 4.3 |
| ๋ ์จ:ํ๋ฆผ | ์ด๋ค ํ์คํฌ์์ ์ฑ๋ฅ์ด ์ ๋์จ๋ค๊ณ ํด์ ๋ฅ๋ ฅ์ด ์๋ค๊ณ ๊ฒฐ๋ก ๋ด๋ฆฌ๊ธฐ๋ณด๋ค, ๊ทธ ๋ฅ๋ ฅ์ด ๋ชจ๋ธ ์์ ์ ์ฌํด ์๋๋ฐ๋ ์ฐ๋ฆฌ๊ฐ ์ ๊ทผ(elicitation)์ ๋ชป ํ์ ๊ฐ๋ฅ์ฑ์ ์ ๋ํํ๊ตฌ๋! | 4.3 |
| ๋ง์ฐ์ค | ์ด๋ฏธ ์๋ ๋ชจ๋ธ์ ์ ์ฌ ๋ฅ๋ ฅ์ ๋์ค๊ฒ ํ๋ค๋ ์ ์์ ํฐ ๊ธฐ์ฌ๊ฐ ์๋ ๋ฏ ํ๋ค. LLM์ด ํ๋ผ๋ฏธํฐ ํ์ต์ ํตํด ์จ๊ฒจ์ง ๋ฅ๋ ฅ์ ๋๋ฌ๋ผ ์ ์๋ค๋ฉด ์์ผ๋ก์ ์ฐ๊ตฌ ๋ฐฉํฅ์์ ๋ง์ ์ฐธ๊ณ ๊ฐ ๋ ๋ฏ. | 4.8 |
TL; DR
LLM์ ์ ์ฌ๋ ๋ฅ๋ ฅ์ ์ด๋ฏธ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ์์ฃผ ์ ์ ์์ ๋ฌด์์ ํ๋ผ๋ฏธํฐ๋ง ํ์ตํด๋ ๊ทธ ๋ฅ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋์ด๋ผ ์ ์๋ค๋ ๊ฒ์ ์คํ/์ด๋ก ์ ์ผ๋ก ์ ๋ํํจ
Summary
์ฐ๊ตฌ์ง: UC Berkeley
์ฐ๊ตฌ ๋๊ธฐ
- LLM๋ค์ post-training (e.g., fine-tuning, RLHF, prompt engineering)๋ง์ผ๋ก๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ
- ์ด๋ LLM์ ๋ฅ๋ ฅ์ด ์๋ก ์๊ธด ๊ฒ(teach)์ด๋ผ๊ธฐ๋ณด๋จ, ์ด๋ฏธ ์์๋ ๋ฅ๋ ฅ์ด โ๊บผ๋ด์งโ (elicit)๊ฒ์ผ ์ ์์
- 10~100๊ฐ์ ๋ฌด์์ ํ๋ผ๋ฏธํฐ๋ง ํ์ต ์
โ ์ ์ฒด fine-tuning ๋๋น 50% ์ด์ ์ฑ๋ฅ ํ๋ณต ๊ฐ๋ฅ
โ ์ด๋ ์ ์ฌ ๋ฅ๋ ฅ์ด ๋ชจ๋ธ ๋ด์ ์ด๋ฏธ ์์์์ ์๋ฏธ
๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ
์ฑ๋ฅ ํ๊ฐ ๋ฐฉ์- ๊ธฐ์กด์ LLM ์ฑ๋ฅ ํ๊ฐ๋ ๋๋ถ๋ถ zero-shot, few-shot, ๋๋ prompt engineering์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ํ์ง๋ง ์ด๋ ๋ชจ๋ธ์ด ๋ด๋ถ์ ์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ๋ฅ๋ ฅ์ ์ ๋๋ก ๋๋ฌ๋ด์ง ๋ชปํ ์ ์์
- ์ด๋ก ์ธํด ๋ชจ๋ธ ์ฑ๋ฅ์ ์ํ(ceiling)์ ํ๊ฐํ์ง ๋ชปํจ โ ์ ์ฌ๋ ฅ ๊ณผ์ํ๊ฐ
Scalability์๋ง ์ด์ - ๋ง์ ์ฐ๊ตฌ๋ค์ด ์ฑ๋ฅ ํฅ์ ์์ธ์ผ๋ก ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ ๊ฐ์, ์ฐ์ฐ๋๋ง์ ๋ค๋ฃธ (e.g., scaling laws)
โ ์ด ๋ ผ๋ฌธ์ "๋ชจ๋ธ์ด ์ด๋ฏธ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ ๋, ์ผ๋ง๋ ์ ์ ํ๋ผ๋ฏธํฐ ์์ ๋ง์ผ๋ก ๊ทธ ๋ฅ๋ ฅ์ ๋์ด๋ผ ์ ์๋๊ฐ?"์ ์ฃผ๋ชฉ
- ์ฆ, ๋ชจ๋ธ scale์ด ์๋ ์ ๋ณด๋ ๊ธฐ์ค์ ์๋ก์ด ๊ด์ ์ ์ ์ํจ
ํต์ฌ ์ง๋ฌธ
- "LLM์ ์ ์ฌ ๋ฅ๋ ฅ์ ์ ๋ํ๋ ค๋ฉด ์ต์ ๋ช ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด์ผ ํ๋๊ฐ?"
- "์ด๊ฒ์ด ์ ๋ง elicitation์ธ์ง, ์๋๋ฉด teaching์ธ์ง ์ด๋ป๊ฒ ๊ตฌ๋ถํ ์ ์๋๊ฐ?"
์ ์ ์์ด๋์ด
- Elicitation๊ณผ Teaching์ ์ ๋์ ๊ตฌ๋ถ
- ์ฌ์ด ํ์คํฌ์์๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ๋ช ๊ฐ์ ํ๋ผ๋ฏธํฐ ํ์ต๋ง์ผ๋ก๋ ์ฑ๋ฅ ํฅ์
- ๋ฐ๋ฉด, ๋์ผ ๋ชจ๋ธ์ random ์ด๊ธฐํํ๋ฉด ์๋ฐฑ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ โ ์ด๋ Teaching์ ํด๋น
- โ Elicitation๋ ๊ธฐ์กด์ ์๋ ๋ฅ๋ ฅ์ "์ฐพ์๊ฐ๋ ๊ฒ", Teaching์ "์๋ก ๋ง๋๋ ๊ฒ"์์ ์ ์ฆ
- ์ ๋ณด์ด๋ก ์ ๊ด์ ์ ํด์ (MDL ๊ธฐ๋ฐ)
- Elicitation ๊ณผ์ ์ Minimum Description Length(MDL) ์์น์ผ๋ก ํด์
โ ์ ์ฌ ๋ฅ๋ ฅ์ด ์๋ค๋ฉด, ์์ฃผ ์ ์ ์ ๋ณด(๋ช ๊ฐ์ ํ๋ผ๋ฏธํฐ)๋ง์ผ๋ก๋ ๋ฐ์ดํฐ ์์ถ์ด ๊ฐ๋ฅํด์ผ ํ๋ค!
- ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ก๋ MDL์ด ๊ธ๊ฐํ๋ฉด, ์ด๋ ์ด๋ฏธ ์กด์ฌํ๋ ๋ฅ๋ ฅ์ด๋ผ๋ ์ฆ๊ฑฐ
- Elicitation ๊ณผ์ ์ Minimum Description Length(MDL) ์์น์ผ๋ก ํด์
Experiments
์คํ Configuration
- ํ์ฉ LLM :
Llama 3.2 1B/3B,Llama 3.1 8B,Qwen2.5-1.5B
- ๋ฐฉ๋ฒ : LoRA ํ๋ผ๋ฏธํฐ ์ค ๋ฌด์์ ์ ํ, ๊ทน์์๋ง ํ์ต
์คํ 1 :
Classification Tasks๋ฐ์ดํฐ์ :
GSM-8K-CoT-Choice: ๋ค์ง์ ๋ค ์ํ ๋ฌธ์ (ํ์ด ๊ณผ์ ์ ๋ํ binary classification)ARC-Easy: ๊ณผํ ์์ (๊ฐ๊ด์)ARC-Challenge: ๊ณ ๋์ด๋ ๊ณผํ ์ถ๋ก (๊ฐ๊ด์)ํต์ฌ ์ง๋ฌธ:
"๊ฐ ํ์คํฌ์ ๋ํด ๋ช ๊ฐ์ ํ๋ผ๋ฏธํฐ ํ์ต๋ง์ผ๋ก ์ฑ๋ฅ ํ๋ณต์ด ๊ฐ๋ฅํ๊ฐ?"
์ฃผ์ ๊ฒฐ๊ณผ:
GSM-8K-CoT-Choice: ๋จ 30~100๊ฐ์ ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก๋ ์ ์ฒด ์ฑ๋ฅ ๊ฒฉ์ฐจ์ 50% ํ๋ณต ๊ฐ๋ฅ
ARC-Challenge: ์์ ๋ชจ๋ธ(1B)์ ๋ง์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ โ ์ถ๋ก ๋ฅ๋ ฅ์ด ์๋ ์์ ๊ฐ๋ฅ์ฑ์ด ๋์
โ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ํด์๋ก ์ ์ ํ๋ผ๋ฏธํฐ ํ์ต์ผ๋ก๋ ์ฑ๋ฅ์ด ์ ํ๋ณต๋จ โ ๋ฅ๋ ฅ์ด ์ด๋ฏธ ๋ด์ฌ๋์ด ์์
์คํ 2 :
Generation Tasksํต์ฌ ์ง๋ฌธ:
"ํ ์คํธ ์์ฑ ๊ณผ์ ์์๋ ํ๋ผ๋ฏธํฐ ๋ช ๊ฐ๋ง์ผ๋ก ์ฑ๋ฅ์ ์ ๋ํ ์ ์์๊น?"
์ฃผ์ ๊ฒฐ๊ณผ:
- Alpaca-Eval: 1,000๊ฐ ํ๋ผ๋ฏธํฐ ํ์ต์ผ๋ก 50% ์ฑ๋ฅ ํ๋ณต
- TinyStories (๊ฐ๋จํ ์์ด ์ด์ผ๊ธฐ ์์ฑ): ์์ฃผ ์ ์ ํ๋ผ๋ฏธํฐ ํ์ต์ผ๋ก ๋น ๋ฅธ ์ฑ๋ฅ ํ๋ณต
- Lichess Puzzles (์ฒด์ค/์ํ ๋ฌธ์ ): ๋ณต์กํ ๋ฌธ์ ์ผ์๋ก 10,000~20,000๊ฐ ์ด์ ํ์ โ ํ์ต์ด ํ์ํ ๊ฒฝ์ฐ
์คํ 3 :
Logistic Scaling Law: S-curve ํจํด์ ์ผ๋ฐ์ฑํต์ฌ ์ง๋ฌธ:
"์ด๋ฐ ์ฑ๋ฅ ํฅ์ ํจํด์ ํน์ ํ์คํฌ์๋ง ๋ํ๋๋๊ฐ, ์๋๋ฉด ์ผ๋ฐ์ ์ธ๊ฐ?"
๊ฒฐ๋ก :
- Accuracy ์์น๋ฅ ์ด ๋ก์ง์คํฑ ๊ณก์ (S-curve) ํํ๋ก ๋ํ๋จ
- ๋ค์ํ ํ์คํฌ, LLM ํฌ๊ธฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ํจํด ๊ด์ฐฐ
์คํ 4 :
Pareto Frontier ์์ ์ฑํต์ฌ ์ง๋ฌธ:
"๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ ์ค์์ ์ด๋ค ๋ถ๋ถ์ ํ์ตํ ์ง ๋ฌด์์๋ก ๊ณ ๋ฅด๋ฉด, ์คํ ๊ฒฐ๊ณผ๊ฐ seed์ ๋ฐ๋ผ ๋ง์ด ๋ฌ๋ผ์ง๊น?"
- Pareto Frontier : โ์ผ๋ง๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก ์ผ๋ง๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋์งโ์ ํจ์จ์ฑ์ ๊ทนํ์ ๋ณด์ฌ์ฃผ๋ ๊ณก์
๊ฒฐ๋ก :
- Pareto frontier๋ random seed์ ๋ํด ๋งค์ฐ ์์ ์
- ๋ค์์ ์คํ์์๋ ๋ก์ง์คํฑ ๊ณก์ ์ 95% ์ ๋ขฐ๊ตฌ๊ฐ ๋ด์ ๋๋ถ๋ถ ์๋ ด
- ์์ ๊ทธ๋ฆผ์์ ์์ ํ์๋ ๊ตฌ์ญ์ด 95% ์ ๋ขฐ๊ตฌ๊ฐ์
์คํ 5 :
Elicitation vs. Teachingํต์ฌ ์ง๋ฌธ:
"์ฑ๋ฅ ํฅ์์ด ๋ชจ๋ธ์ด ์ด๋ฏธ ์๊ณ ์๋ ๋ฅ๋ ฅ์ ๋์ด๋ด๋ ๊ณผ์ (elicitation)์ธ์ง, ์๋๋ฉด ์ง์ง ํ์ต(teaching) ๋๋ถ์ธ์ง ์ด๋ป๊ฒ ๊ตฌ๋ถํ ์ ์์๊น?"
์คํ ์กฐ๊ฑด:
- Llama 3.2 1B์ ๋ ๋ฒ์ ๋น๊ต (ํ์ต ํจ์จ์ฑ ์ฐจ์ด ๋ถ์)
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ
- Random ์ด๊ธฐํ ๋ชจ๋ธ
- 2๊ฐ์ง ํ์คํฌ ์ํ
- TinyStories
- Lichess Puzzles
๊ฒฐ๊ณผ:
- TinyStories
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ : ์์ญ~์๋ฐฑ ํ๋ผ๋ฏธํฐ๋ฉด ์ถฉ๋ถ
- Random ์ด๊ธฐํ ๋ชจ๋ธ : ์๋ฐฑ๋ง ๊ฐ ํ๋ผ๋ฏธํฐ ํ์ โ ํ์ต์ด ํ์ํจ
- Lichess Puzzles
- ๋ ๋ค ์ด๋ ค์์ ์ฐจ์ด ํฌ์ง ์์ โ
๋ชจ๋ธ ๋ด๋ถ์ ํน์ ํ์คํฌ์ ๋ํ ์ดํด๊ฐ ์์ผ๋ฉด pretrained ์ฌ๋ถ์ ๊ด๊ณ์์ด teaching์ด ํ์โ elicitation ๋ถ๊ฐ๋ฅ
- ๋ ๋ค ์ด๋ ค์์ ์ฐจ์ด ํฌ์ง ์์ โ
- Llama 3.2 1B์ ๋ ๋ฒ์ ๋น๊ต (ํ์ต ํจ์จ์ฑ ์ฐจ์ด ๋ถ์)
์ด๋ก ์ ๊ฒ์ฆ
Minimum Description Length (MDL) : ์ ๋ณด๋
"๊ฐ์ฅ ์งง์ ์ค๋ช ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ๋ชจ๋ธ"!โ Occamโs Razor (์ค์ปด์ ๋ฉด๋๋ , ๊ฐ๊ฒฐํ ๊ฒ์ด ์ง๋ฆฌ์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค)๋ฅผ ์ํ์ ์ผ๋ก ํํํ ์๋ฆฌ
- ์ ์ : ๋ชจ๋ธ์ด ๊ฐ ๋ฐ์ดํฐ label์ ์ค๋ช ํ๊ธฐ ์ํด ํ์ํ ์ต์ํ์ ๋นํธ ์
- ์ํ์ ์ ์ : ๊ฐ ์ํ ์์ธก๊ฐ์ ๋ํ cross-entropy loss์ ๋์ ํฉ
โ ๋ชจ๋ธ์ด ์ฒ์๋ณด๋ ๋ฐ์ดํฐ๋ฅผ ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ ๊ณ์ ์ธก์
- ๏ปฟ: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ์๋ฌด๊ฒ๋ ์ ๋ฐฐ์ฐ๊ณ label์ ์ค๋ช ํ๋ ๋ฐ ํ์ํ MDL
- ๏ปฟ : k๊ฐ์ ํ๋ผ๋ฏธํฐ๋ง fine-tuning ํ์ ๋ ํ์ํ MDL
โ ์ ์ ์์ ํ๋ผ๋ฏธํฐ๋ก ํ์ตํด๋ MDL์ด ํฌ๊ฒ ๊ฐ์ โ ๋ฅ๋ ฅ์ด ์ด๋ฏธ ์กด์ฌ (elicitation)
โ MDL์ด ๊ฑฐ์ ์ค์ง ์์ โ ๋ฅ๋ ฅ์ด ์๋ค (teaching)
์คํ
Task๏ผARC-Challenge๏ผ๏ผ๋ณต์กํ ๊ณผํ/์์ ์ถ๋ก ๋ฌธ์
โ Figure์์ ์ค์ํ ๋ถ๋ถ : MDL Compression (y์ถ ์ค๋ฅธ์ชฝ) โ ์ผ๋ง๋ ์ ๋ณด๊ฐ ์ค์๋์ง??
- Llama 3.2 1B
- ํด๋น task ์ํ ๋ฅ๋ ฅ์ด ์๊ฑฐ๋ ๋ถ์กฑ
- ์ด๋ฐ์ ์๋ฌด๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ๊ธ ๋๋ ค๋ Accuracy๋ ์ค๋ฅด์ง๋ง ์ ๋ณด ์์ถ X (๋จ์ ์๊ธฐ ์์ค)
- ์ด๋ ์์ ์ดํ ๊ฐ์๊ธฐ ์ ๋ณด ์์ถ๋ ์ฆ๊ฐ
โ ์ข ํฉํ๋ฉด Teaching์ ๊ฐ๊น์!
- Llama 3.1 8B
- ์ด๋ฏธ ๊ด๋ จ ๋ฅ๋ ฅ์ด ๋ด์ฌ๋์ด ์์
- ์์์ ํ๋ผ๋ฏธํฐ๋ก๋ ์ฑ๋ฅ๊ณผ MDL์ด ๋์์ ๋น ๋ฅด๊ฒ ํฅ์๋จ
- Accuracy curve์ MDL compression curve๊ฐ ๊ฑฐ์ ๊ฐ์ ๋ชจ์
โ ์ด๊ฑด Elicitation์ด๋ค!







