S1: Simple Test-time Scaling
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฐฐ๋ | LLM์ด length๋ฅผ ์ ์งํฌ ์ ์์๊น? ๋ผ๋ ์๋ฌธ์ด ๋ค๊ธด ํจ. ๋ค๋ง, 100๋ฌธ์ฅ๋งํผ ์๊ฐํด โ ๊น์ง ์ฐ๋ฏ์ดํ๋ฉด reasoning ๋จ๊ณ๋ฅผ ๊ฐ๋จํ๊ฒ ํ์ธํ ์ ์์ ๊ฒ ๊ฐ๊ธด ํจ. ๋ค๋ง, ์ด๋ ๊ฒ ํ๋ฉด ์คํ๋ ค ๋ถํ์ํ reasoning์ด ์๊ธฐ๊ฑฐ๋, ๊ทธ๋ ๊ฒ ์ ๋๋ ๊ฒ ๊ฐ๊ธฐ๋ ํจ. ์ฑ๋ฅ ๊ฐ์ ์ธก๋ฉด์์ ๋๋ฌด ์ข์ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐ! | 4.3 |
| ์์ฌ๋น๊ฝ๊ฒ๋ | ๋ฐฉ๋ฒ์ ๊ต์ฅํ ๋จ์ํ๊ณ CoT์ ์ต์ํ๋ฉด ์๋กญ๊ฒ ๋๊ปด์ง์ง ์์ ์ ์๊ธดํจ. ํ์ง๋ง test-time์์ ์ผ๋ง๋ ์ํ๋งํ๊ณ ์ธ์ ๋๋์ง๊ฐ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ค๋ค๋ ๋ถ๋ถ์ ์ค์ ์์๋ ๋ง์ด ํ์ฉํ ์ ์์๊ฒ ๊ฐ์ | 3.7 |
| ๋ฉ๊ฐ์ปคํผ | ์ง๊ด์ ์ผ๋ก ์๊ฐํ์ ๋ ์ฑ๋ฅ์ด ๋์์ง์ง ์์ ๊ฒ ๊ฐ์๋ฐ(์ํ๊ธฐ๊ฐ์ ๊ณต๋ถ์ํ๋ค๊ฐ ์ํ์น ๋ ๋จธ๋ฆฌ ๋ ์ด๋ค๊ณ ์ฑ๋ฅ์ด ์ค๋ฅผ๊น?) ์ฑ๋ฅ์ด ์ค๋ฅด๋๊ฒ ์ ๊ธฐํ๋ค. | 3.7 |
| ์๋ฆฌ๊ดด๋ฌผ | ํ๋ฌธ์ ์ธ contribution์ด ํฌ์ง๋ ์์ง๋ง ์ค์ ์ ์ฉ ๋จ๊ณ์์ ๊ต์ฅํ ์ํฅ๋ ฅ์ด ํด๊ฑฐ๊ฐ๋ค. Wait์ ์์ฒญ ๋ถ์ด๋๋ฐ๋ ์ ํ๋๊ฐ ๋จ์ด์ง์ง๋ ์๋๊ฒ ์ ๊ธฐํ๋ค. ์ ์ด์ ๋ฌธ์ ๋ค์ด ๋๋ฌด ์ด๋ ค์์ ๊ทธ๋ฐ๊ฐ? ๋ค๋ค ์คํ ์ ์ฉํ๋๋ผ ์ธ์ฉ์๊ฐ ๊ต์ฅํ ๋์๋ฏ.โฆ | 4.0 |
| ์์ฐ๊นก | ๊ธธ๊ฒ ์๊ฐํ๋ ๊ฒ์ด ํผ๋์ ์ ๋ฐํ ์ ์์ง ์์๊น ์ถ์๋๋ฐ, ์ถ๋ก ๋ฅ๋ ฅ ์ด๋์ ๋ ์ด์์ธ ์ธ์ด๋ชจ๋ธ๊ณผ ์ด๋ ค์ด ์ถ๋ก ๋ฐ์ดํฐ์ ๋์์ผ๋ก ํด์ ๊ทธ๋ฐ์ง ๊ธ์ ์ ์ํฅ์ด ์ปธ๋๋ณด๋ค. ์ ๋งคํ๊ฒ ์ํ๋ ์ธ์ด๋ชจ๋ธ์ ๋ํด์๋ ํจ๊ณผ๊ฐ ์ด๋ป๊ฒ ๋์ฌ์ง ๊ถ๊ธํ๋ค | 4 |
| ๊ณ ๊ตฌ๋ง๋ง๋๋ฆฌ | - ํฅํ 0.5~1๋
๋์์ test time scaling์ด ๋ง์ด ๋์ค์ง ์์๊น์! ์ด์จ๋ ์ฐ๋ฆฌ๋ ์ ํ์ ์ธ ์์์์์ ์ต์ ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ค์ผ ํ๋๊น์~ - ๊ทธ์น๋ง ๋ฐฉ๋ฒ์ด ๋๋ฌด ๋จ์ํด์ ์๋ฟ์ง ์์! ์ด ๋ ผ๋ฌธ์์์ findings๊ฐ ๋ค๋ฅธ task์์๋ ์ ์ฉํ์ง ์์ ๊ฑฐ ๊ฐ์ | 3.5 |
| ์์ฑ์ฌ | scaling์ ๋ํ ์๋ก์ด ์ ๊ทผ์ good, but ์ง๊ด์ ์ผ๋ก ์๊ฐํ์ ๋, LLM training๋ณด๋ค ๊ธฐ์ ์์ inferenceํ๋ ๋น์ฉ์ด ํจ์ฌ ๋ ํด ๊ฒ ๊ฐ์. ๊ทธ๋ฐ ๋ฉด์์ ์ด๊ฒ impact๊ฐ ํฐ๊ฐ?๋ ์๋ฌธ. ๋ณด๋ฅ์ ๋๋ค. | 3.3 |
| ์คํ๋ฒ ์ค | Inference ๋จ๊ณ์์ ์ฑ๋ฅ์ ๋์ด๋ ์์ด๋์ด ์์ฒด๋ ๊ด์ฐฎ์ง๋ง, ์ด๊ฒ ๋ ผ๋ฌธ๋งํผ ์ผ๋ง๋ ํจ๊ณผ๊ฐ ์์์ง๋ ์๋ฌธ์. ์ด๋ฐ ๊ด์ ์์ ๋ดค์ ๋, ๋ฐฉ๋ฒ๋ก ์ด๋ ๋ฌธ์ ์ ์๊ฐ ๊ทธ๋ ๊ฒ ํฌ๊ฒ ์๋ฟ์ง๋ ์๋ ๊ฒ ๊ฐ์. | 3.8 |
TL; DR
training ๋จ๊ณ์์ ๋ง๊ณ , inference ๋จ๊ณ์์ ์ฑ๋ฅ์ ๋ํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น?
โ ์ผ๋จ ์ํ/์ถ๋ก ๋ฌธ์ ๋ token ๊ฐ์ ์กฐ์ ํด
Summary
- ์ธ์ฉ์: 819
Background & Motivation
- Test-time scaling์ด๋?
: ๋ชจ๋ธ์ parameter ์๋ training data๋ฅผ ๋๋ฆฌ์ง ์๊ณ , ์ถ๋ก ์์ (test time)์ ์ฌ์ฉํ๋ compute(ํนํ reasoning token ์)๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ
์ฐธ๊ณ ํ๋ฉด ์ข์ ๋งํฌ๋ค!
- ๊ธฐ์กด LLM ๋๋ฒจ๋กญ ๋ฐฉ์์ Train-time scaling์
- ๋ ๋ง์ ๋ฐ์ดํฐ, ๋ ํฐ ๋ชจ๋ธ, ๋ ๋ง์ ํ์ต step, โฆ
- ๊ทธ๋ฌ๋, ์ด๋ฅผ ์ํด์๋ ๋๋ฌด ๋ง์ GPU/time cost ๋ฐ์ํจ
โ Test-time scaling์ ํด๋ณด์ !
์ฆ, ๋ชจ๋ธ์ ๊ณ ์ ํ ์ฑ, inference ๊ณผ์ ์์ ์ฑ๋ฅ์ ์ฌ๋ ค๋ณด์
- openAI๊ฐ o1 ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๋ test-time scaling์ ํตํด ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋๋๋ฐ, ๋ฐฉ๋ฒ์ด ๊ณต๊ฐ๋์ด ์์ง ์์
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด MCTS ๋ฑ์ผ๋ก ์ด๋ฅผ ์ฌํํด๋ณด๋ ค ํ์ง๋ง, ์คํจํ์ (high cost & data)
โ ๊ฐ์ฅ ๋จ์ํ๊ณ ํจ์จ์ ์ธ Test-time scaling์ ๊ฐ๋ฐํด๋ณด์ !!!!!!!!!!!!
Contributions (What theyโve revealed)
sample-efficient reasoning data (
s1K dataset)์์ฑ์ ์ํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ (Section 2)- 16๊ฐ์ง ์๋ ๋ฐ์ดํฐ์
์ค์์, ์๋ ์ธ๊ฐ์ง ๊ธฐ์ค์ผ๋ก 59,029 questions ์ ๋ณ
- ์๋ ๋ฐ์ดํฐ
- NuminaMATH , AIME problems, OmniMath, SAT, LSAT ๋ฑ ๊ธฐ์กด ์ถ๋ก ๊ด๋ จ ๋ฐ์ดํฐ
- ์์ฒด ์์ฑ ๋ฐ์ดํฐ
- s1-prob: ์คํ ํฌ๋ ๋ํ๊ต ํต๊ณํ๊ณผ ๋ฐ์ฌ ์๊ฒฉ์ํ ์ค probability section
- s1-teasers: quantitative trading positions์์ ํํ ์ฌ์ฉ๋๋ ๋๋ ํ ์คํธ ๋ฌธ์ ์ค ๋์ด๋ Hard
โ Google Gemini Flash Thinking API๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ก ๊ณผ์ ๊ณผ ํ์ด๋ฅผ ์ถ์ถ
- ๊ธฐ์ค
- Quality: Datasets should be high-quality
- Difficulty: Datasets should be challenging and require significant reasoning effort
- Diversity: Datasets should stem from various fields to cover different reasoning tasks
- ์๋ ๋ฐ์ดํฐ
- ๋์ผํ ์กฐ๊ฑด (Quality, Difficulty, Diversity)๋ฅผ ๊ธฐ์ค์ผ๋ก 1000๊ฐ ์ํ๋ง ๋จ๊น
- why? ๊ฐ์ฅ ์ฌํํ! ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํจ
- how to sampling? ์์๋๋ก ์งํ
1)Quality
- API ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ง๋ฌธ์ ์ ๊ฑฐ
- low-quality example ์ ๊ฑฐ
e.g. inconsistent question numbering, non-existent image reference
โ 51,381๊ฐ ๋จ์
2)Difficulty
๊ฐ ๋ฌธ์ ์ ๋ํด Qwen2.5-7B-Instruct์ Qwen2.5-32BInstruct ์ค ํ๋๋ผ๋ ๋ต์ ๋ง์ถ ์ ์๋ ๋ฌธ์ ๋ ์ ์ธ (๋๋ฌด ์ฌ์ด ๋ฌธ์ ์ ๊ฑฐ)
โ 24496๊ฐ ๋จ์
3)Diversity
- Claude 3.5 Sonnet์ ์ฌ์ฉํ์ฌ American Mathematical Society์ ์ํ ์ฃผ์ ๋ก ๋ถ๋ฅ
(e.g. ๊ธฐํํ, ์๋ฌผํ, ๋ฌผ๋ฆฌํ ๋ฑ ์ด 50๊ฐ์ง ๋ถ๋ฅ)
- ๊ฐ ๋ถ๋ฅ๋ณ๋ก ๊ธธ์ด๊ฐ ๊ธด (=์ด๋ ค์ด) ๋ฐ์ดํฐ ์ํ๋ง
โ 1000๊ฐ ๋จ์
- 16๊ฐ์ง ์๋ ๋ฐ์ดํฐ์
์ค์์, ์๋ ์ธ๊ฐ์ง ๊ธฐ์ค์ผ๋ก 59,029 questions ์ ๋ณ
test-time scaling ๋ฐฉ๋ฒ ๊ฐ๋ฐ
- test-time scaling์ ๋๊ฐ์ง ์ ํ (Sequential & Pararell) ์ค์์, Sequential scaling์ ์ํํจ
- why? ์ง๊ด์ ์ผ๋ก ์๊ฐํ์ ๋, ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ข ๊ณ์ฐ์ ์ํํ ์ ์์ผ๋ ๋ ํจ์จ์ ์ผ ๊ฑฐ๋ผ์!
- pararell์ ์์? majority voting!
- maximum/mininum token์ ๊ฐ์์ constraint๋ฅผ ๊ฑบ์ผ๋ก์, ๊ฐ๋จํ๊ฒ decoding time์ ๊ฐ์ ํจ
- budget forcing ์ ์ฉ
- maximum token ์ ์ฝ
์ถ๋ก ์ด ๋๋ฌด ๊ธธ์ด์ง ๋, end-of-thinking token delimiter ์ถ๊ฐํ์ฌ reasoning์ ์กฐ๊ธฐ์ ์ข ๋ฃ
โ ๋ง์ง๋ง์
Final Answer:๋ฅผ ์ถ๊ฐํ์ฌ ํ์ฌ๊น์ง ์ถ๋ก ๊ฒฐ๊ณผ๋ก ๋ต๋ณ์ ๋์ถํ๋๋ก
- minimum token ์ ์ฝ
๋ชจ๋ธ์ด ๋๋ฌด ์งง์ ์ถ๋ก ํ ๋ต์ ์์ฑํ๋ ค๊ณ ํ ๋
Wait์ด๋ผ๋ ์ถ๊ฐ์ ์ธ ์ ํธ๋ฅผ ์ ๋ ฅํ์ฌ, ๋ชจ๋ธ์ด ์ง๊ธ๊น์ง์ ์ถ๋ ฅ์ ํ ๋ฒ ๋ ๊ฒํ ํ ๊ธฐํ๋ฅผ ์ ๊ณต
- maximum token ์ ์ฝ
- how to apply?
- Token-conditional control : ๋ชจ๋ธ์๊ฒ ์์ฑํ ๊ธธ์ด๋ฅผ ์๋ ค์ค
- Conditional length-control methods: prompt ์์ maximum length๋ฅผ ์ง์
- Step-conditional control: ๊ฐ reasoning staep์ maximum length๋ฅผ ์ง์
- Class-conditional control: ์งง์/์ค๊ฐ/๊ธด ์๊ฐ๋์ ์๊ฐํ๋๋ก prompt ์์ฑ
- Rejection sampling: ์์ฑ ๊ฒฐ๊ณผ๊ฐ ์ ํด์ง budget์ ๋ง์ ๋๊น์ง sampling
- Token-conditional control : ๋ชจ๋ธ์๊ฒ ์์ฑํ ๊ธธ์ด๋ฅผ ์๋ ค์ค
- budget forcing ์ ์ฉ
- test-time scaling์ ๋๊ฐ์ง ์ ํ (Sequential & Pararell) ์ค์์, Sequential scaling์ ์ํํจ
s1-32B๊ฐ๋ฐ- ์ธํ
- Qwen2.5-32B-Instruct๋ฅผ,
s1K๋ฐ์ดํฐ๋ก FT โs1-32B๋ฅผ ์ป์
- ์คํ ๋ฐ์ดํฐ
- AIME24: 2024๋ 1์ 31์ผ๋ถํฐ 2์ 1์ผ๊น์ง ๊ฐ์ต๋ ๋ฏธ๊ตญ ์ํ ๊ฒฝ์๋ํ ๋ฌธ์ ๋ค
- MATH500: ๋ค์ํ ๋์ด๋์ ์ํ ๊ฒฝ์๋ํ ๋ฌธ์ ๋ค์ ๋ชจ์๋์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ
- GPQA Diamond: ์๋ฌผํ, ํํ ๋ฐ ๋ฌผ๋ฆฌํ ๋ถ์ผ์ ๋ฐ์ฌ ์์ค ๊ณผํ ๋ฌธ์
์ฌ์ฉํ metric
๋ค์ํ compute budge์์ ๋์ผํ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๋ฒ ํ๊ฐํจ
- Qwen2.5-32B-Instruct๋ฅผ,
- ์ฑ๋ฅ
- model output ์์ (์ด๋ฏธ์ง๊ฐ ๋๋ฌด ๊ธธ์ด์ใ )
ablation study ์ํ
data ablation : quality, difficulty, diversity๋ฅผ ๊ณ ๋ คํ์ง ์์์ ๋์๋ ์ด๋ค๊ฐ
- 1K-random: Gemini๋ก ์ถ๋ก ๊ฒฐ๊ณผ๋ง ๋์ถํ๊ณ , ๋ฐ์ดํฐ ์์ฒด๋ ๋๋ค ์ํ๋ง
- 1K-diverse: difficulty ๊ณ ๋ คํ์ง ์๊ณ , ๊ฐ ์นดํ ๊ณ ๋ฆฌ ๋ณ๋ก ๋๋ค ์ํ๋ง
- 1K-longest: difficulty๋ง ๊ณ ๋ ค
- 59k-full: ์ ์ฒด ๋ฐ์ดํฐ ๋ค ํ์ฉํ์ ๋
- ์ธํ
Limitations
- budget forcing์ผ๋ก ์ธํ test-time scaling์ ํ๊ณ (๊ฒฐ๊ตญ ์ฑ๋ฅ์ด saturate๋๋ค!)
- ๋ค์ํ Task์์ ํ๊ณ : ์ํ, ๋ฌผ๋ฆฌํ ๋ฑ์ ๋ฌธ์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด, ์ฐฝ์ ๋ฑ์ ๋ค๋ฅธ task์ ๋ํ ์ฐ๊ตฌ ํ์











