Let LRMs Break Free from Overthinking via Self-Braking Tuning
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฐฐ๋ | ์ต๊ทผ ๋ ผ๋ฌธ๋ค์ ๋ณด๋ฉด์ ์๊ฐํ๋ ๊ฑด, ์์ด๋์ด๋ฅผ ์ผ๋จ ์คํํด๋ณด๋ ๊ฒ ์ข๋ค ์ธ ๊ฒ ๊ฐ์. ๊ฐ์ธ์ ์ผ๋ก ๋๋ ์ค๋ฒ๋ตํน์ ๋๋ฌด ๋ง์ด ํ๋ค๊ณ ์๊ฐํ๋๋ฐ, ๋์๋ณด๊ฒ ๋ ๋ ผ๋ฌธ์ด์์. ์ด๋ฒ์ฃผ ๋ ผ๋ฌธ๋ค์ด ์ฑ์ฐฐ์ ํ๊ฒ ํด์ ์ฃผ์ ๋ฆฌ์ฃผ์ ๋ฆฌ ์ฐ๊ฒ ๋ง๋ค์๋๋ฐ, ๋ค ์จ๋์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด๋ฉด ๋ญ์๋ฆฐ์ง ๋ชจ๋ฅด๊ฒ ์. LRM๋ ๋น์ทํ ํ์์ ๊ฒช์ ๊ฒ ๊ฐ๊ณ , ํด๊ฒฐ์ด ๊ผญ ํ์ํ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํจ. | 4.2 |
| ์์ฌ๋น๊ฝ๊ฒ๋ | ์ด ๋ ผ๋ฌธ ๋ฟ๋ง์ด ์๋๋ผ LRM ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ๋ณด๋ฉด ์ถ๋ก ์ ๋ ๊ธธ๊ฒ ๋ง๋๋ ๋ฐฉํฅ๋ณด๋ค๋ ์คํ๋ ค ์ธ์ ๋ฉ์ถ ๊ฒ์ธ๊ฐ์ ์ด์ ์ ๋๋ ์ฐ๊ตฌ๋ค์ด ์ ์ ๋์ด๋๋ ๋ฏ | 3.9 |
| ๋ฉ๊ฐ์ปคํผ | overthinking์ผ๋ก ์ธํด์ ์ค์ ๋ก ์ฑ๋ฅ์ด ํ๋ฝํ๋ ๊ฒฝ์ฐ๋ ์๊ธฐ ์ค๋ฒ๋ตํน์ ์๋ณํด๋ด๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํจ๊ณผ ๋์์ ๋ง๋ ๋ฒ๊น์ง ์ ์ํ๋ค๋ ์ ์์ ํ ์์ ์ ๊ผญ ํ์ํ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ | 4 |
| ์๋ฆฌ๊ดด๋ฌผ | s1 ๋ ผ๋ฌธ์ด๋ ์งํฅํ๋ ๋ฐฉํฅ์ด ์ ์ฌํด๋ณด์. ์ ์ฐ์ฑ ์ธก๋ฉด์์๋ ์ฌ์ฉ์ ๊ฐ์ ์ด ๊ฐ๋ฅํ ์ด ๋ ผ๋ฌธ์ด ๋ ํจ๊ณผ์ ์ผ๊ฑฐ๊ฐ๊ณ , ๋น ๋ฅด๊ณ ๋จ์ํ ๋ฐฉ์์ s1 ๋ ผ๋ฌธ์ด ํจ๊ณผ์ ์ผ ๊ฒ์ผ๋ก ๋ณด์. ๊ทธ๋๋ ์ ์์ ์ผ๋ก ๋ธ๋ ์ดํน์ ๊ฑด๋ค๋ ๊ด์ ์์ ํ์คํ ํ์ธํ๋ํ๋๊ฒ ์ ํฉํด๋ณด์ธ๋ค. | 4.1 |
| ์์ฐ๊นก | ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ์ ํ๋๋ฐ ์์ค์ ๊ธฐ์ฌ ์ํ๊ฒ ํ๋ ๋ฐฉ๋ฒ ๋ฐ๋ผ์ ์ฌ์ฉํด ๋ณผ ์ ์๊ฒ ๋ค. ์คํ ํํธ์์ ์ ์ฉ๋ชจ๋ธ์ ์ด๋ฏธ ์ถ๋ก ํจ์จ์ฑ๋ ์ก์๋ค๋๋ฐ ๊ทธ๋ฌ๋ฉด ์์ผ๋ก LRM์ด ์ถ๋ก ์ ์ด๋ป๊ฒ ๋ ๋ฐ์ ์ํฌ์ง ๊ถ๊ธํด์ง | 4.2 |
| ์์ฑ์ฌ | ๊ต์ฅํ trendy ํ LRM์ ์คํจ ์ฌ๋ก๋ฅผ ์ก๊ณ ํ ๊ฒ, scoring ์งํ๋ฅผ ๋ง๋ ๊ฒ์ ์ข์ผ๋, task์์์ ์ฑ๋ฅ ํ๋ฝ์ ๋ฏผ๊ฐํ ๋ฌธ์ ์ ๋๋ค. ๋ณด๋ฅ ๋๋ฆฌ๊ฒ ์ต๋๋ค. | 3 |
| ์คํ๋ฒ ์ค | ๋ถํ์ํ ์ถ๋ก ๊ณผ Overthinking์ ๋ง๋๋ค๋ ๊ฒ์ ์์ด ์์ ๋ ผ๋ฌธ๊ณผ ์ ์ฌํ ์ ์ด ์์. ๋ฌด์กฐ๊ฑด ๋ง์ด ๋๋ฆฌ๋๊ฒ ์ข์๊ฒ ์๋๊ณ ๋ฉ์ถ ์์ ์ ์ ์ ํ๋๊ฒ ์ค์ํจ. | 4.1 |
| ๊ณ ๊ตฌ๋ง๋ง๋๋ฆฌ | R1 ๋ชจ๋ธ์์ ํํ ๋ณผ ์ ์๋ overthinking ,, ์ง ํผ์ fallback์ ๋น ์ง๋ ๊ฒ ๋ฐ๋ณด๊ฐ๋ค๊ณ ์๊ฐํ๋๋ฐ, ์ด๋ฅผ ๋ํํ๊ธฐ ์ํ ๋ฐ์ดํฐ/๋ฐฉ๋ฒ์ ๊ทผ๋ณธ์ ์ผ๋ก(๋ชจ๋ธ ๋ด๋ถ์ ๊ธฐ์ธํจ) ์ ๊ทผํ ๋ ผ๋ฌธ! ๊ฐ์ธ์ ์ผ๋ก threshold๊ฐ ์๊ฐ๋ณด๋ค ๋๋ํด์ ๋๋๊ณ , ์ค์ ๋ก ๋ง์ด ์จ๋จน์ ์ ์์ ๊ฑฐ ๊ฐ์์ ์ฌ๋ฐ๊ฒ ์ฝ์๋ค! | 3.7 |
TL; DR
๐ก
๋ชจ๋ธ ๋ด์ฌ์ ์ผ๋ก ๋ถํ์ํ ์ถ๋ก (์ค๋ฒ ๋ตํน)์ ๋ง์!
Summary
Motivation
- Large Reasoning Model(LRM)์ ์๊ฐ์ ๊ธธ๊ฒ ํ๋ฉด์ ์ถ๋ก ์ ์ํ๊ฒ ๋์ง๋ง, ์ด๋ฏธ ์ ๋ต์ด ๋์๋๋ฐ๋ ๊ณ์ ๊ฒํ ๋ฅผ ํ๊ฑฐ๋ ๋ฐ๋ณต์ ์ํํ๋ Overthinkingํ๋ ๊ฒฝํฅ์ด ์์
- ์ด๋ฌํ ์ถ๋ก ์ ์์ฒญ๋๊ฒ ๋ง์ ํ ํฐ์ ๋ญ๋นํด, ๊ณ์ฐ๋, latency๋ฅผ ์ฆ๊ฐ์ํค๊ณ , ์ด๋ฏธ ๋์จ ์ ๋ต์ ๋ชจํธํ๊ฒ ๋ง๋ฆ
- ๊ธฐ์กด ํด๊ฒฐ์ฑ
๋ค์ ํ ํฐ ์ ์ ํ์ด๋ ์ธ๋ถ ๊ฒ์ฆ๊ธฐ๋ฅผ ์ฌ์ฉํด ์ธ๋ถ์ ์ผ๋ก ๊ฐ์
ํ๋ ค๊ณ ํ์.
- ์ฌ๋์ ํ์ ์ด ๋ค๋ฉด ์๊ฐ์ ๋ฉ์ถ๋๊น, ๋ชจ๋ธ๋ ๋ด์ฌ์ ์ผ๋ก ๋ถํ์ํ ์ถ๋ก ์ ๊ฐ์งํ๊ณ ๋ฉ์ถ๊ฒ ํ์!
Contribution
- LRM์ด ์ค์ค๋ก ์ถ๋ก ๊ธธ์ด๋ฅผ ์กฐ์ ํ ์ ์๋ tuning framework์ธ Self-Braking Tunig ์ ์
- ์ถ๋ก ํจ์จ์ฑ, ์๋ต ํ์ง ํฅ์
- Overthinking ํจํด์ ์๋ณํ๋ ๋ฐฉ๋ฒ๋ก ๋ฐ ๋ฐ์ดํฐ ๊ตฌ์ถ ์ ๋ต ์ ์
- ๊ตฌ์ถํ ๋ฐ์ดํฐ์ ์ overthinking ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ์ ํนํ๋จ
Methods
R1-like LRM์ Reasoning trajectory ๋ถ์
- DeepSeek-R1๊ณผ ๊ทธ๊ฑธ distillationํ ๋ชจ๋ธ๋ค์ ๋น์ทํ ํจํด์ ๊ฐ์ง๊ณ ์์
- ๋ฌธ์ ๋ฅผ ํ ๋ ํ์ด๋ฅผ ์ฌ๋ฌ ๊ฐ ์์ฑํ๋ ค๊ณ ํจ
- ์ ์๋ค์ ํ์ด๋ฅผ Foundation Solution, Evolution Solution์ผ๋ก ๋๋
- Foundation Solution: ๋ฌธ์ ํ์ด์ ์ด๋ฐ ๋ถ๋ถ, ์ถ๋ก ๊ณผ์ ์ ๊ธฐ์ด๋ฅผ ํ์ฑํจ
- Evolution Solution: ๋ฌธ์ ํ์ด์ ํ๋ฐ ๋ถ๋ถ, foundation solution์ ๊ณ ์น๊ฑฐ๋ ๋ค๋ฌ์
- ์ฌ๊ธฐ์ overthinking์ด ์์ฃผ ๋์ด
Overthinking ์๋ณ
- Overthinking์ ๊ฐ์งํ๊ธฐ ์ํด ๋๊ฐ์ง ์งํ๋ฅผ ์ ์ํจ
- ์ถ๋ก ํจ์จ์ฑ ๋น์จ ๏ปฟ
- FS: ์ฒ์์ผ๋ก ์ ์ ๋๋ฌํ๋๋ฐ ๊ฑธ๋ฆฐ step ์
- TS: ์ ์ฒด setp ์
- ๏ปฟ๊ฐ 1์ ๊ฐ๊น์ธ ์๋ก ํจ์จ์ ์ด๋ฏ๋ก overthinking ํ์ง ์์ ๊ฒ!
- ์ถ๋ก ํจ์จ์ฑ ๋น์จ ๏ปฟ
- ์ ๋ ์งํ๋ก overthink score๋ฅผ ์ ์
- ๏ปฟ
- ๏ปฟ๋ 0.1 ๋ก ์ฌ์ฉ (์ดํ์ ๋จ์๋ณด๋ค ์ ๋ต ๋์ถ ์์น๋ฅผ ์ค์ํ๊ฒ ๋ด)
- ๏ปฟ๋ 1์ ๊ฐ๊น์ธ ์๋ก overthink ์ํ๊ฑฐ๊ณ ๏ปฟ๋ 1์ ๊ฐ๊น์ธ ์๋ก overthink ํ ๊ฒ์ด๋ผ์ ์์์๋ 1๏ปฟ ์ฌ์ฉ
- ์ฆ, score๊ฐ ๋์ ์๋ก overthink ํ ๊ฒ์
์ ์ํ ์ถ๋ก ๋ฐ์ดํฐ ๊ตฌ์ถ
- ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์, overthinking์ ์ข ๋ฃํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ์!
- ์ ์ํ ์ถ๋ก ์ ํ ์ ์๋๋ก ๋ฐ์ดํฐ์
์ 2๊ฐ์ง ์ ๋ต์ผ๋ก ๊ตฌ์ถํจ
- Self-Braking Tuning Exact (SBT-E)
- Ovethinking trajectory์์ Foundation solution+Evolution solution ํ๋์ฉ๋ง ๊ฐ์ ธ์ค๊ณ , ๋๋จธ์ง ์ถ๋ก ์ masking
- masking๋ ํ ํฐ๋ค์ loss์ ํฌํจ ์๋จ โ ์ค๋ณต๋๋ ์ถ๊ฐ ์ถ๋ก ์ ๋ง์
- 2๋ฒ์งธ Evolustion solution์ ์ด๋ฐ ๋ถ๋ถ๋ง ๋ง์คํน
- ์ผ๊ด์ ์ธ ์ถ๋ก ์ ๊ฐ๋๋ก ํจ
- masking๋ ํ ํฐ๋ค์ loss์ ํฌํจ ์๋จ โ ์ค๋ณต๋๋ ์ถ๊ฐ ์ถ๋ก ์ ๋ง์
- Ovethinking trajectory์์ Foundation solution+Evolution solution ํ๋์ฉ๋ง ๊ฐ์ ธ์ค๊ณ , ๋๋จธ์ง ์ถ๋ก ์ masking
- Self-Braking Tuning Dynamic (SBT-D)
- ์ ์์ ์ผ๋ก ๊ธธ์ด ์กฐ์
- Foundation solution์์ ์์ํด์ step ๋ง๋ค overthink score ๊ณ์ฐ
- overthink score๊ฐ ๏ปฟ์ผ๋๊น์ง step ์ถ๊ฐ
- ๏ปฟ<score<๏ปฟ ์ธ step๋ค์ masking
- ๋ง์ฐฌ๊ฐ์ง๋ก masking๋ ํ ํฐ๋ค์ loss์ ํฌํจ ์๋จ
- OpenR1-Math ๋ฐ์ดํฐ์ ์ผ๋ก OpenR1-Math-SBT-E, OpenR1-Math-SBT-D๊ตฌ์ถ
- Self-Braking Tuning Exact (SBT-E)
์๊ธฐ ์กฐ์ ๋ธ๋ ์ดํน ์ ๋ต
- ์์ฑ๋ ์ถ๋ก ์ ๋ํ self-awareness๋ฅผ ๊ธฐ๋ฅด์
- ์์์ ๋ง๋ ๋ฐ์ดํฐ์ ๊ฐํํ๋ ๊ฒ์!
- SBT-E, D์์ maskingํ ํ ํฐ๋ค์ loss์๋ ํฌํจ์ด ์๋์ง๋ง ํ์ต ๋ฐ์ดํฐ์์๋ ํฌํจ๋จ
- ์ค๋ณต๋ ์ถ๋ก ์ด ๋ญ์ง๋ ์์์ผ ํจ!
- ๊ทธ๋ฆฌ๊ณ training solution๊ณผ masked solution ์ฌ์ด์ ์์ฐ์ด์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ์
- e.g. Wait, I've gotten the same answer multiple times, time to end the thinking.
- ๋ช ์์ ์ธ ํํธ๋ฅผ ์ค์ ๋ฉ์ถฐ์ผ ํ ๋๋ฅผ ์๊ฒ ํจ
Experiments
Experimental setting
- LLM: Qwen2.5-Math-1.5B/7B-Instruct, Llama-3.2-1B, Llama-3.1-8B-Instruct
- Benchmark: AIME 24, AIME 25, AMC23, MATH500, GSM8K
- AIME๋ ๋ฏธ๊ตญ ์ํ ๊ฒฝ์๋ํ, AMC๋ ๊ทธ ์ ๋จ๊ณ (KMO, KMC ๋๋)












