Let LRMs Break Free from Overthinking via Self-Braking Tuning

Review

닉네임	한줄평	별점 (0/5)
찰나	최근 논문들을 보면서 생각하는 건, 아이디어를 일단 실험해보는 게 좋다 인 것 같음. 개인적으로 나도 오버띵킹을 너무 많이 한다고 생각하는데, 돌아보게 된 논문이었음. 이번주 논문들이 성찰을 하게 해서 주저리주저리 쓰게 만들었는데, 다 써놓은 결과물을 보면 뭔소린지 모르겠음. LRM도 비슷한 현상을 겪을 것 같고, 해결이 꼭 필요한 문제라고 생각함.	4.2
와사비꽃게랑	이 논문 뿐만이 아니라 LRM 관련 연구들을 보면 추론을 더 길게 만드는 방향보다는 오히려 언제 멈출 것인가에 초점을 두는 연구들이 점점 늘어나는 듯	3.9
메가커피	overthinking으로 인해서 실제로 성능이 하락하는 경우도 있기 오버띵킹을 식별해내는 방법론을 제시함과 동시에 막는 법까지 제시했다는 점에서 현 시점에 꼭 필요한 논문이라고 생각함	4
요리괴물	s1 논문이랑 지향하는 방향이 유사해보임. 유연성 측면에서는 사용자 개입이 가능한 이 논문이 더 효과적일거같고, 빠르고 단순한 방식은 s1 논문이 효과적일 것으로 보임. 그래도 적응적으로 브레이킹을 건다는 관점에서 확실히 파인튜닝하는게 적합해보인다.	4.1
새우깡	학습 데이터로 사용은 하는데 손실에 기여 안하게 하는 방법 따라서 사용해 볼 수 있겠다. 실험 파트에서 전용모델은 이미 추론 효율성도 잡았다는데 그러면 앞으로 LRM이 추론을 어떻게 더 발전시킬지 궁금해짐	4.2
안성재	굉장히 trendy 한 LRM의 실패 사례를 잡고 한 것, scoring 지표를 만든 것은 좋으나, task에서의 성능 하락은 민감한 문제입니다. 보류 드리겠습니다.	3
스타벅스	불필요한 추론과 Overthinking을 막는다는 것에 있어 앞선 논문과 유사한 점이 있음. 무조건 많이 돌리는게 좋은게 아니고 멈출 시점을 잘 정하는게 중요함.	4.1
고구마맛도리	R1 모델에서 흔히 볼 수 있는 overthinking ,, 지 혼자 fallback에 빠지는 게 바보같다고 생각했는데, 이를 돌파하기 위한 데이터/방법을 근본적으로(모델 내부에 기인함) 접근한 논문! 개인적으로 threshold가 생각보다 널널해서 놀랐고, 실제로 많이 써먹을 수 있을 거 같아서 재밌게 읽었다!	3.7

TL; DR

💡

모델 내재적으로 불필요한 추론(오버 띵킹)을 막자!

Summary

Motivation

Large Reasoning Model(LRM)은 생각을 길게 하면서 추론을 잘하게 됐지만, 이미 정답이 나왔는데도 계속 검토를 하거나 반복을 수행하는 Overthinking하는 경향이 있음
- 이러한 추론은 엄청나게 많은 토큰을 낭비해, 계산량, latency를 증가시키고, 이미 나온 정답을 모호하게 만듦

기존 해결책들은 토큰 수 제한이나 외부 검증기를 사용해 외부적으로 개입하려고 했음.
- 사람은 확신이 들면 생각을 멈추니까, 모델도 내재적으로 불필요한 추론을 감지하고 멈추게 하자!

Contribution

LRM이 스스로 추론길이를 조절할 수 있는 tuning framework인 Self-Braking Tunig 제안
- 추론 효율성, 응답 품질 향상

Overthinking 패턴을 식별하는 방법론 및 데이터 구축 전략 제안
- 구축한 데이터셋은 overthinking 문제를 해결하는 데에 특화됨

Methods

R1-like LRM의 Reasoning trajectory 분석

DeepSeek-R1과 그걸 distillation한 모델들은 비슷한 패턴을 가지고 있음
- 문제를 풀 때 풀이를 여러 개 생성하려고 함

저자들은 풀이를 Foundation Solution, Evolution Solution으로 나눔
- Foundation Solution: 문제 풀이의 초반 부분, 추론 과정의 기초를 형성함
- Evolution Solution: 문제 풀이의 후반 부분, foundation solution을 고치거나 다듬음
  - 여기서 overthinking이 자주 나옴

Overthinking 식별

Overthinking을 감지하기 위해 두가지 지표를 제안함
- 추론 효율성 비율 $\eta_{s} = \frac{FS}{TS}$
  - FS: 처음으로 정에 도달하는데 걸린 step 수
  - TS: 전체 setp 수
  - $\eta_s$ 가 1에 가까울 수록 효율적이므로 overthinking 하지 않은 것!
- Overthinking 마커 비율 $\kappa_{t} = \frac{1}{TT}\sum_{i=1}^{TT}\mathbb{I}[w_{i}\in\mathcal{M}]$
  - 언어적 패턴을 포락하기 위해, overthinking과 관련있는 마커들을 만듬
  - 마커 집합
  - 전체 토큰 중에서 마커가 많을 수록 $\kappa_t$ 는 1에 가까워지고 overthinking을 한 것!

위 두 지표로 overthink score를 제안
- $\text{Overthink Score} = \beta \times \kappa_{t} + (1-\beta) \times (1-\eta_{s})$
- $\beta$ 는 0.1 로 사용 (어휘적 단서보다 정답 도출 위치를 중요하게 봄)
- $\eta_s$ 는 1에 가까울 수록 overthink 안한거고 $\kappa_t$ 는 1에 가까울 수록 overthink 한 것이라서 식에서는 1 $-\eta_s$ 사용
- 즉, score가 높을 수록 overthink 한 것임

적응형 추론 데이터 구축

추론 능력은 보존하면서, overthinking을 종료하는 방향으로 학습하자!

적응형 추론을 할 수 있도록 데이터셋을 2가지 전략으로 구축함
- Self-Braking Tuning Exact (SBT-E)
  - Ovethinking trajectory에서 Foundation solution+Evolution solution 하나씩만 가져오고, 나머지 추론은 masking
    masking된 토큰들은 loss에 포함 안됨 ⇒ 중복되는 추가 추론을 막음
    2번째 Evolustion solution의 초반 부분만 마스킹
    일관적인 추론을 갖도록 함
- Self-Braking Tuning Dynamic (SBT-D)
  - 적응적으로 길이 조절
  - Foundation solution에서 시작해서 step 마다 overthink score 계산
  - overthink score가 $\tau_1$ 일때까지 step 추가
  - $\tau_1$ <score< $\tau_2$ 인 step들은 masking
  - 마찬가지로 masking된 토큰들은 loss에 포함 안됨
- OpenR1-Math 데이터셋으로 OpenR1-Math-SBT-E, OpenR1-Math-SBT-D구축
  - https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

자기 조절 브레이킹 전략

생성된 추론에 대한 self-awareness를 기르자
- 위에서 만든 데이터셋 강화하는 것임!

SBT-E, D에서 masking한 토큰들은 loss에는 포함이 안되지만 학습 데이터상에는 포함됨
- 중복된 추론이 뭔지는 알아야 함!

그리고 training solution과 masked solution 사이에 자연어적인 가이드를 제시
- e.g. Wait, I've gotten the same answer multiple times, time to end the thinking.
- 명시적인 힌트를 줘서 멈춰야 할 때를 알게 함

Experiments

Experimental setting
- LLM: Qwen2.5-Math-1.5B/7B-Instruct, Llama-3.2-1B, Llama-3.1-8B-Instruct
- Benchmark: AIME 24, AIME 25, AMC23, MATH500, GSM8K
  AIME는 미국 수학 경시대회, AMC는 그 전단계 (KMO, KMC 느낌)