SEAL: Steerable Reasoning Calibration of Large Language Models for Free
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : reasoning process๋ฅผ ์ธ๋ถ์ ์ผ๋ก ๋ถ์ํ๊ณ , ๋ช
ํ&๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ํ ๋ฐฉ๋ฒ ์ ์ โข ๋จ์ : technicalํ impact๊ฐ ์ฝํจ โข ๋ณด์์ : ๋ชจ๋ธ๋ง๋ค intervention layer ๊ฒฝํฅ์ด ์ ๋ค๋ฅธ์ง ๋ถ์ ์ถ๊ฐ | 3.3 |
| ์์ด๋ฆฌ์ค | ์ฅ์ : ์ง๊ด์ ์์ด๋์ด ์ข์. Motivation๋ ์ข๋ค๊ณ ์๊ฐํจ. ๋จ์ : ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ด์ด์ง๋ ํ๋ฆ์ด ๋ค์ ๋ฌ๊ธ์๊ฒ ๋๊ปด์ง.์ด๊ฑฐ ๊ณ์ฐ ์๋๋ ํจ์จ์ฑ์ ๊ด์ฐฎ๋? ๋ณด์์ : ํ ํฐ์ ์ต์ง๋ก ์์ฑ์ํค๋ ๊ฑด ๋ณ๋ก ๊ฐ? ์ถ๊ฐ ๊ณ์ฐ ์์ด, ์ค๊ฐ์ ํ๋ฒ์ฉ ๋ผ์ด๋๋ ๋๋์ด๋. | 3.5 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : LRM์ ๊ณผ๋ํ ์ถ๋ก ๋ฌธ์ ๋ฅผ execution ์ ์ธํ๊ณ ์ค์์ผ๋ก์จ ์ํ. ํด๊ฒฐ์ฑ
์ ํจ์จ๊ณผ ํจ๊ณผ๊ฐ ๋ชจ๋ ์ข์ โข ๋จ์ : reflection/transition ์ค์ด๋ ๊ฒ ๋ฌด์กฐ๊ฑด ํจ๊ณผ์ ์ธ๊ฐ? ๊ทธ๋ฌ๋ฉด LRM ์์ฒด๋ฅผ ์์ ํด์ผ ํ๋ ๊ฑฐ ์๋๊ฐ? reflection/transition์ด ๋ง์์ ํ๋ ธ๋ค๋ ์ธ๊ณผ๊ด๊ณ๊ฐ ๋ง๋? โข ๋ณด์์ : reflection/transition ๋ ํ์ํ ๋ฒํ ๊น๋ค๋ก์ด ๋ฒค์น๋งํฌ ์คํ | 3.2 |
| 3์ | โข ์ฅ์ : ๋ชจ๋ธ ์ถ๋ก ์ ์ต์๋จ์๋ฅผ ๋๋ motivation๊ณผ ์คํ์ ์๊ฐํ๊ฐ ์๋์ด์์ โข ๋จ์ : Inferenceํ ๋ sterring ๋ฒกํฐ S๋ฅผ ํญ์ ๋์ผํ๊ฒ ์ ์ฉํ๋๋ฐ, ๋ฌธ์ ๋ง๋ค reflection์ ์ ์งํ ์ง, ์ ๊ฑฐํ ์ง ๋ค๋ฅธ ๊ฒฝ์ฐ๊ฐ ์์ง ์์๊น? ์๋ฅผ ๋ค์ด ๊ณ์ฐ ์ค๋ฅ๋ฅผ ๊ฒ์ฆํ ๋๋ reflection์ด ํ์ํ๋ฐ, counting ๋ฌธ์ ๋ reflection๋ณด๋ค๋ transition์ด ํจ์ฌ ๊ฐํ์ง ์๋? โข ๋ณด์์ : ๋ฌธ์ ์ ํ ์๋ ๋ถ๋ฅ๋ฅผ ํตํ adaptive steering | 3.4 |
| ์๋์ง | โข ์ฅ์ : LRM์ ๋จ๊ณ?๋ฅผ execution, reflection, transitions ๊ด์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๋ฒกํฐ์ ์ฑ์ง์ ์ด์ฉํด reasoning์ ๋ ๋ณด์ํ๋ ์ฐ๊ตฌ. ํจํด๋ณ ๋ถ์๋ถํฐ ๋ฒกํฐ ๊ณ์ฐ๊น์ง ํ๋ฆ์ด ๋งค์ฐ ์ง๊ด์ ์ด๊ณ , ๋
ผ๋ฆฌ์ ์ด๋ผ๊ณ ์๊ฐํจ ! โข ์ฝ์ : space๋ฅผ ์กฐ์ ํ๋๋ฐ ๋ฒกํฐ ์ฐ์ฐ์ผ๋ก ์ถฉ๋ถํ ๊น ..? โข ๋ณด์์ : ๋ฒกํฐ์ ๋ฐฉํฅ์ ์กฐ์ ํจ์ผ๋ก์จ ์คํ๊ฒฐ๊ณผ๋ ์ข๊ธดํ์ง๋ง, space๋ฅผ ๋ ์ ๋ฐํ๊ฒ ์กฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์ถฉ๋ถํ ์ ์๋ ์ ์์ ๊ฒ ๊ฐ์. | 4.0 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : LRM์ ๋ฌธ์ ์ธ redundant verification loop์ reasoning detour๋ฅผ ์ ์ง์ด์ motivation์ ๊ณต๊ฐํจ โข ๋จ์ : reflection์ ์ค์์ ๋ ์๊ธฐ๋ ๋ถ์์ฉ โข ๋ณด์์ : ๋ฌธ์ ์ ํ์คํฌ์ ๋ฐ๋ฅธ reflection์ ์ด๋์ ๋ํ ์ง ๋์ ์ผ๋ก ์ ํ๋ ์ถ๊ฐ ํ์ ์ฐ๊ตฌ | 3.2 |
| ํผ์ฆ์น์ | โข ๊ฐ์ : Reasoning process (์ด ๋
ผ๋ฌธ์์๋ thought type)์ ์ ์ํด์ '์ด๋ค reasoning์ด ๋ฌธ์ ์ธ๊ฐ'๋ฅผ ํด์ํ๋ ค๋ ๊ด์ ์ด ์ข์๋ฏ. ์ด๊ฑธ ์ด๋ป๊ฒ ์ ์ํ๋์ง๋ ํ๋์ ์ฐ๊ตฌ ๊ธฐ์ค์ด ๋ ์ ์์๋ฏ ์ถ๋ค โข ํ๊ณ: ๊ทผ๋ฐ ๊ธฐ์กด ์ฌ๋ฌ ๋ฐฉ๋ฒ๋ค์ ์ ๋ชฉ์ํจ ๋๋์ด ๊ฐํ๊ธด ํจ โข ์ ์์ : ๋ฌธ์ ์ ํ์ด๋ ๋์ด๋์ ๋ฐ๋ฅธ ์กฐ๊ฑด๋ณ ๋ถ์์ด ์ถ๊ฐ๋ก ์์ผ๋ฉด ์ข์๋ฏ | 4.0 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : ์ถ๊ฐ ํ์ต ์์ด steering vector๋ฅผ hidden state์ ๋ํด์ฃผ๋ ๊ฒ๋ง์ผ๋ก ๋ถํ์ํ reflection๊ณผ transition์ ์ค์ผ ์ ์๋ค๋ ์ ์ด ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ๊ฒ ๊ฐ๋ค. โข ๋จ์ : steering vector๋ฅผ ๊ณ์ฐํ ๋ ํค์๋ ๊ธฐ๋ฐ์ผ๋ก execution / reflection / transition์ ๋ถ๋ฅํ๋๋ฐ, ์ค์ ๋ก๋ ํค์๋ ์์ด๋ ํด๋น ๋จ๊ณ์ ํด๋นํ๋ ๊ฒฝ์ฐ๊ฐ ์์ ๊ฒ ๊ฐ๋ค. โข ๋ณด์์ : ๋ฌธ์ ์ ํ์ด๋ ๋์ด๋์ ๋ฐ๋ผ steering ๊ฐ๋๋ฅผ ์๋์ผ๋ก ๋ค๋ฅด๊ฒ ์ ์ฉํ๋ ๋ฐฉ์ ์ถ๊ฐ | 3.5 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ๋ฐฉ๋ฒ๋ก ์ด training free์ฌ์, ๊ฐ์ motivation์ ๊ฐ์ง๋ ๋ค๋ฅธ ๋
ผ๋ฌธ๋ค๊ณผ ์ฐจ๋ณ์ ์ ๊ฐ์ง๊ณ ์์. ์ถ๋ก ์ ๋จ๊ณ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ถ๋ฅํ ์ ์์์ ๋ณด์ธ ๊ฒ๋ ํ๋ฅญํจ ์ฝ์ : ์ด๋ค ๊ทผ๊ฑฐ๋ก ์ ์ ํ๊ฒ ๊ธธ์ด๋ฅผ ์กฐ์ ํ๋์ง ๋ชจ๋ฅด๊ฒ ์ ์ ์์ : ๋ฌธ์ ์ ๋์ด๋๋ฅผ confidence๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ธก์ ํ๊ณ ๊ทธ๊ฑธ ๊ธฐ๋ฐ์ผ๋ก steeringํ๋ฉด ์ข์ ๋ฏ! | 3.5 |
TL; DR
๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ reasoning ๊ฒฝํฅ์ ์ํํ์!
โ reasoning process๋ฅผ ์ธ๋จ๊ณ๋ก ๋ถ๋ฅํ๊ณ , ๊ทธ ์ค์ ์ด๋ค ๊ฑธ ์ค์ฌ์ผ ํ ์ง ๋ถ์ํ์
Summary
- ์ธ์ฉ์: 40
Background & Motivation
- LLM์ ๋ฐ์ด๋ reasoning ability
- Chain-of-Thoughts (CoT) ๋ฅผ ์์์ผ๋ก ์ญ์ญ ๋ฐ์ ํจ
- o1, R1 ๋ฑ ์ธ๊ฐ์ ์ธ์ง ๋จ๊ณ๋ฅผ ๋ชจ๋ฐฉํ๋ large reasoning model์ด ๊ฐ๋ฐ๋จ
- but, LRM์ ํ๊ณ์ ์กด์ฌ
- memory ๋ฑ cost issue
- ์ ๋ต์ ํ์ํ ํต์ฌ reasoning์ ์ด๋ฏธ ์๋นํ ์ด๋ฅธ ์์ ์ ํ๋ณดํ๊ณ ๋ ๊ทธ ์ดํ์ ๋ถํ์ํ thought๋ฅผ ๊ณ์ ์์ฑ
โ redundant verification loop๋ reasoning detour์ ๋น ์ง ์ ์์
- redundant verification loop๋ ?
์ด๊ธฐ solution์ด ์ด๋ฏธ ์ ๋ต์ ๋ด๋จ๋๋ฐ๋ (์ฝ 92%์ ํ๋ฅ !) reasoning process๋ฅผ ์ด์ด๊ฐ๋ฉฐ, ๋ค์ชฝ solution๋ค์ ์๋ก์ด reasoning strategy๋ฅผ ์ฃผ๊ธฐ๋ณด๋ค, ์์ solution์ ๋ค์ ํ์ธํ๊ฑฐ๋ ๋น์ทํ ๋ฐฉ์์ผ๋ก ๋ฐ๋ณตํ๋ ๊ฒฝํฅ์ด ์๋ ๊ฒ
- ์ฐธ๊ณ : Do not think that much for 2+ 3=? on the overthinking of o1-like llms
- reasoning detour๋?
์ด๋ฐ thought๊ฐ ๋ง๋ ๋ฐฉํฅ์ธ๋ฐ๋ ๊ทธ thought๋ฅผ ๋๊น์ง ๋ฐ์ง ์๊ณ , ๋ค๋ฅธ ์ ๋ต์ผ๋ก ๊ณ์ ๊ฐ์ํ๋ ํ์
- ์ฐธ๊ณ : Thoughts are all over the place: On the underthinking of o1-like llms
- redundant verification loop๋ ?
- ํญ์ lengthy reasoning ์ด ํ์ํ ๊ฑด ์๋
** Main motivation
Can we identify and calibrate the flawed reasoning pathways in current LLMs?Contributions (What theyโve revealed)
O1/R1-like LLMs์ ๋ถ์ํ์ฌ
execution/reflection/transition์ ์ธ ๋จ๊ณ๋ก ๊ตฌ๋ถํจ & latent space ์์์ ๋ถ์ํจ- Recognizing Reasoning Patterns in LLMs
- model output O์ด โ\n\nโ ์ผ๋ก ๊ตฌ๋ถ๋๋ ๊ฒฝํฅ์ด ์์ โ ๊ฐ chunk ๏ปฟ ์ผ๋ก ํํ
- thought sequence ๏ปฟ
- ๊ฐ chunk๋ฅผ ์ธ๊ฐ์ง๋ก ๋ถ๋ฅํจ
execution: ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ step-by-step์ผ๋ก ๋ถ์ํ๋ ๋จ๊ณ
reflection: ๋ชจ๋ธ์ด ์งํ์ ์ ๊น ์ค๋จํ๊ณ , verifyํ๋ ๋จ๊ณ (e.g. ๊ฒํ ํด๋ณด์/ํ์ธํด๋ณด์)
transition: ์ถ๋ก ํ๋ฆ์ ์ ํํ๊ณ , ๋ค๋ฅธ ๊ด์ ์์ ๋ค์ ํด์ํ๋ ๋จ๊ณ
- DeepSeek-R1-DistillQwen-1.5B + Math-500 task์์์ ๋ถ์ ๊ฒฐ๊ณผ
- ๋์ด๋๊ฐ ๋์์๋ก ์์ฑํ ํ ํฐ ๊ฐ์๊ฐ ๋ง์์ง
โ ์ธ๊ฐ์ ์ฌ๊ณ ๊ณผ์ ์ ๋น๋์ด ์๊ฐํด๋ณด๋ฉด ๋น์ฐํ ๊ฒ
- ๋์ผ ๋์ด๋์์, ์ค๋ต์ ํ ํฐ ๊ฐ์๊ฐ ๋ง์
- ์ฆ, ๊ณผ๋ํ ์ถ๋ก ๋จ๊ณ๊ฐ ์ฑ๋ฅ์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ผ์นจ
- ํนํ reflection, transition์ด ์ฆ๊ฐ๋์ด์, ์ ์ฒด output์ด ๊ธธ์ด์ง๋ ๊ฒฝํฅ์ด ๊ฐํจ
โ Efficiency & Effectiveness Issue
- ๋์ด๋๊ฐ ๋์์๋ก ์์ฑํ ํ ํฐ ๊ฐ์๊ฐ ๋ง์์ง
- model output O์ด โ\n\nโ ์ผ๋ก ๊ตฌ๋ถ๋๋ ๊ฒฝํฅ์ด ์์ โ ๊ฐ chunk ๏ปฟ ์ผ๋ก ํํ
- Reasoning pattern ๋ณ mechanisms ๋ถ์
- Latent Space ์์์ ํน์ฑ ๋ถ์
- why latent space? ๋ด๋ถ token์ด ๋๋ฌด ๋ค์ํด์ embedding ๋ฑ์ผ๋ก๋ถํฐ ํน์ฑ์ ์ฐพ๊ธฐ ์ด๋ ค์
โ layer-wise representation ์ ๊ด์ฐฐํด์ผ๊ฒ ๋ค!
- why latent space? ๋ด๋ถ token์ด ๋๋ฌด ๋ค์ํด์ embedding ๋ฑ์ผ๋ก๋ถํฐ ํน์ฑ์ ์ฐพ๊ธฐ ์ด๋ ค์
- how to?
- DeepSeek-R1-DistillQwen-1.5B + Math-500 task์์ reasoning ์ํ
- 1์ output์์ ๊ฐ layer i์์ โ\n\nโ ์ ํด๋นํ๋ representation ์์ง
- T-distributed Stochastic Neighbor Embedding (t-SNE) ๋ก 2๋ฅผ 2์ฐจ์์ ํฌ์
- ๋ถ์ ๊ฒฐ๊ณผ
execution์reflection&transition๊ณผ ๋ช ํํ๊ฒ ๊ตฌ๋ถ๋จ (e.g. layer20)
- layer๊ฐ ๊น์ด์ง์๋ก ๊ฐ reasoning pattern์ด ๋ช
ํํ๊ฒ ๊ตฌ๋ถ๋จ
- ์์ layer๋ low-level feature๋ฅผ ์ธ์ํจ
- ๊ธฐ์กด ์ฐ๊ตฌ๋ด์ฉ๊ณผ ๋์ผํ๊ฒ, ๊น์ layer๋ ์ถ์์ ์ธ ๊ฐ๋
& ์๋ฏธ๋ก ์ ์ง์์ ์ธ์ฝ๋ฉํจ
- ์ฐธ๊ณ ) https://scholar.google.com/scholar_url?url=https://aclanthology.org/2024.findings-acl.866/&hl=ko&sa=T&oi=gsr-r&ct=res&cd=0&d=6982973257792625628&ei=oKO0abfFNpm06rQP4vHSqAU&scisig=AFtJQiwAmnT0Fk30HpAdwkimjEZH https://scholar.google.com/scholar_url?url=https://aclanthology.org/2025.coling-main.37/&hl=ko&sa=T&oi=gsr-r&ct=res&cd=0&d=6429145741284466638&ei=q6O0aaa2CZCK6rQPms6o6Ag&scisig=AFtJQiyk_tdZzRc1WOT4zzCyqNNg
reflection&transition๋ ์๋ก ์ ์ฌํจexecution์ ๋ฌ๋ฆฌ, ๋๋ค ์ด์ ๋จ๊ณ์ ์ถ๋ก ์ ์ฌ๊ณ ํ๊ฑฐ๋ ์์ ํจ
- Latent Space ์์์ ํน์ฑ ๋ถ์
- Recognizing Reasoning Patterns in LLMs
๋ถ์ํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก, reasoning process๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ training-free strategy, SEAL(Steerable rEAsoning caLibration)์ ์ ์
๐กreflection&transition์ ๋น์จ์ ์กฐ์ ํ ์ ์๋ steering vector๋ฅผ ์ฐพ์์,๋ถํ์ํ token ์์ฑ์ ๋ง์!
- extraction of the reasoning steering vector (ํต์ฌ ์์ด๋์ด!)
- Collecting Reasoning Processing
- Math dataset์ 1000๊ฐ์ training data / ๊ฐ target model ์ฌ์ฉํ์ฌ reasoning process ์ป์
- Calculating Steering Vector
- ๊ฐ thought j์ โ\n\nโ์ ๋ํ representation์ i๋ฒ์งธ transformer block์์ ์ป์ : ๏ปฟ
- Collecting Reasoning Processing
- Decoding with Latent Space Intervention
- ๋งค thought ๋, ์ฆ โ\n\nโ token representation์ ๋ํด ์๋ ์ฐ์ฐ์ ์ ์ฉ
- a(=1): steering strength๋ฅผ ์กฐ์ ํ๋ hyperparameter
- ablation์ ํตํด, ๋ชจ๋ธ๋ง๋ค ๋ค๋ฅธ intervention layer ์ ์ฉ
- 20 for Deepseek-R1-Distill-Qwen-1.5B & Deepseek-R1-Distill-Qwen-7B
- 55 for QwQ-32B-Preview
- ๋งค thought ๋, ์ฆ โ\n\nโ token representation์ ๋ํด ์๋ ์ฐ์ฐ์ ์ ์ฉ
- extraction of the reasoning steering vector (ํต์ฌ ์์ด๋์ด!)
๋ค์ํ LLM, benchmark๋ฅผ ์คํ์ ํ์ฉํ์ฌ SEAL์ ์ฐ์์ฑ ์ฆ๋ช
- Setting
- LLM: Deepseek-R1-distill-Qwen-1.5B, Deepseek-R1-distill-Qwen-7B, QwQ32B-Preview
- benchmark: Math500, GSM8k, LiveCodeBench
- Math500 Hard: Math500 ์ค, difficulty 4 ๋๋ 5 ๋ฌธ์ 500๊ฐ
- metrics: Acc, #Tokens
- baseline: Logit Penalty (training free ๊ธฐ๋ฒ)
TL;DRthought-triggering token์ logit ๊ฐ์ ์ธ์์ ์ผ๋ก ๋ฎ์ถฐ์ ๊ทธ ํ ํฐ์ด ๋์ค๊ธฐ ์ด๋ ต๊ฒ ๋ง๋๋ inference-time control ๋ฐฉ๋ฒ
- Main Results
- baseline ๋๋น Acc, #Tokens ๊ฐ์
- Ablation Study
- Setting














