17 December 2025

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

๐Ÿ’กCoT ๊ธฐ๋ฐ˜ LLM ์ถ”๋ก ์€ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ถ”๋ก  ๊ณผ์ •์„ ํ•™์Šตํ•˜๋А๋ƒ๊ฐ€ ์ค‘์š”ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ๊ณผ์ •์„ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ณ  ๋ช…ํ™•ํ•˜๊ฒŒ ์•Œ๋ ค์ฃผ๋Š”์ง€๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค. ์ฆ‰, ๋‚ด์šฉ๋ณด๋‹ค๋Š” ๊ตฌ์กฐ์  ์™„์ „์„ฑ์— ์ดˆ์ ์„ ๋‘์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜์„ ํ†ตํ•ด ํ™•์ธํ•œ ์—ฐ๊ตฌ

๐Ÿฅ‰

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
์›”๋“œ์ฝ˜์ •๋ง ์ง๊ด€์ ์ธ ์ƒ๊ฐ์„ ๋…ผ๋ฌธํ™”ํ–ˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ์Œ. ๋‹น์—ฐํžˆ ๋ชจ๋“  ์ง€์‹์„ CoT๋กœ ํ•™์Šตํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ๋‚ด์šฉ์  ์ธก๋ฉด๋ณด๋‹ค๋Š” ๊ตฌ์กฐ์  ์™„์„ฑ๋„๊ฐ€ ์ค‘์š”ํ•  ๊ฒƒ์ž„. ๊ทธ๋Ÿผ์—๋„, ๊ทธ๊ฒƒ์„ ํ™•์ธํ•˜๋Š” ์‹คํ—˜ ๋ฐฉ๋ฒ•๊ณผ ๋ถ„์„ ๋ฐฉ๋ฒ•์€ ์ฐธ๊ณ ํ• ๋งŒํ•œ ๊ฒƒ ๊ฐ™์Œ. ์ธ์šฉํ•˜๊ธฐ ์ข‹์€ ๋…ผ๋ฌธ์ด๋ผ๋Š” ์ƒ๊ฐ,3
ํŒŒ๋น„์•„๋…ธ์นด๋ฃจ์•„๋‚˜Instruction tuning์˜ ์ฒ ํ•™์„ ์ž˜ ๊ฐ€์ ธ์˜จ ๋“ฏ. simpleํ•˜๊ณ  powerfulํ•˜๋‹ค4
ํ‚ค๋ณด๋“œCoT๊ฐ€ LLM์—๊ฒŒ ์ •๋ง ๋…ผ๋ฆฌ๋ฅผ ๊ฐ€๋ฅด์นœ๋‹ค๋Š” ๊ฑธ ๋ณด์—ฌ์ฃผ๋Š” ๋“ฏํ•˜๋‹ค. CoT ๋ฐ์ดํ„ฐ์— ์ด๋ฏธ ๋…ผ๋ฆฌ ๊ตฌ๋ฉ์ด ์žˆ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ง์ ‘ ๋…ผ๋ฆฌ bridge๋ฅผ ๋งŒ๋“ค๊ณ  ๊ทธ๊ฑธ ground truth bridge๋กœ ์จ์„œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹๋„ ๋‚ฉ๋“์ด ์ž˜ ๊ฐ„๋‹ค. ํƒœ์Šคํฌ ์ผ๋ฐ˜ํ™”๊ฐ€ ๋œ๋‹ค๋Š” ๊ฒƒ๋„ ๋…ผ๋ฆฌ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฑธ ๋ณด์—ฌ์ฃผ๋Š” ๋“ฏํ•ด์„œ ํฅ๋ฏธ๋กœ์šด ์  5
์šฐ์‚ฐ์•ˆ๊ฐ€์ ธ์˜ด๋‹จ์ˆœ ํ”„๋กฌํ”„ํŒ…์„ ๋‹ค๋ฃจ๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ CoT์˜ ํ•ต์‹ฌ์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๋Š” ๋…ผ๋ฌธ์ด๋ผ๊ณ  ์ƒ๊ฐํ•จ! CoT์˜ ์ค‘๊ฐ„ ๊ณผ์ •์„ ์ง€์›Œ์„œ ์‹คํ—˜ํ•˜๋Š” ๊ณผ์ •๊ณผ ๋…ผ๋ฌธ์˜ ์•„์ด๋””์–ด๋ฅผ ์ƒ๊ฐํ•˜๋ฉด ์ €์ž๊ฐ€ ์ •๋ง ์ƒ์ƒ๋ ฅ์ด ํ’๋ถ€ํ•˜๊ณ  ๋˜‘๋˜‘ํ•˜์‹  ๊ฒƒ ๊ฐ™๋‹ค.4.5
๋‚ ์”จ:ํ๋ฆผ์˜คํžˆ๋ ค ์ธ์ง€์ฒด๊ณ„์— ๊ฑธ๋งž๋Š” ๊ฐ„๋‹จํ•œ ์•„์ด๋””์–ด๋กœ ์ผ๊ด€๋˜๊ฒŒ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ. ๊ทผ๋ฐ out-of-domain์—์„œ๋„ ๊ฝค ์„ฑ๋Šฅ์ด ์˜ค๋ฅธ๊ฑด ๊ณ ๋ฌด์ ์ด๋„ค. ๋„๋ฉ”์ธ ์ง€์‹ ์ฃผ์ž…์ด ๋ชฉํ‘œ๊ฐ€ ์•„๋‹ˆ๋ผ โ€œ์™„์ „ํ•œ ์ถ”๋ก โ€์„ ๋ชจ๋ฐฉํ•ด์„œ ๊ทธ๋Ÿฐ๊ฑธ๊นŒ?4.3
๊ผฌ๋“ค๋ชฉ์ƒ๊ฐ๋ณด๋‹ค noise์˜ ์˜ํ–ฅ์ด ์ž‘๊ตฌ๋‚˜? ํ•˜๊ธด ๊ฒฐ๊ตญ ์‹์žฌ๋ฃŒ๋ฅผ ๊ฐ€๋ฅด์น˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ์กฐ๋ฆฌ๋ฒ•์„ ๋”ฐ๋ฅด๋„๋ก ํ•˜๋Š”๊ฒŒ CoT์˜ ๋ชฉ์ ์ด๋‹ˆ๊นŒ ๊ทธ๋Ÿด ์ˆ˜ ์žˆ๊ฒ ๋‹ค. CoT ์“ธ ์ผ์ด ํฌ๊ณ  ์ž‘๊ฒŒ ๋งŽ์€๋ฐ ์ฐธ๊ณ ํ•˜๊ธฐ ์ข‹์„๋“ฏ 4
์œก์‚ฌ์‹œ๋ฏธ๊ทธ๋™์•ˆ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ค„ ๋•Œ 'LLM์€ ๋˜‘๋˜‘ํ•˜๋‹ˆ๊นŒ ๋Œ€์ถฉ ๋งํ•ด๋„ ์•Œ์•„์„œ ์ด์–ด์„œ ์ถ”๋ก ํ•˜๊ฒ ์ง€'๋ผ๋Š” ์ƒ๊ฐ์œผ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ๊ณค ํ–ˆ์—ˆ๋Š”๋ฐ, ๋ชจ๋ธ์ด ์ด๋ฏธ ์•Œ๊ณ  ์žˆ์„ ๊ฑฐ๋ผ ๊ฐ€์ •ํ•˜๊ณ  ์ƒ๋žตํ•˜๊ธฐ๋ณด๋‹ค ์ด๋ฅผ ์ œ๊ณตํ•˜๋ฉด์„œ ์ถ”๋ก  ํ๋ฆ„์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด์ง€๊ฒŒํ•˜๋Š”๊ฒŒ ๋” ์ค‘์š”ํ• ๋“ฏ4.2
๋งˆ์šฐ์ŠคReasoning ํ”„๋กฌํ”„ํŠธ ํ˜•์‹์˜ ์™„์ „์„ฑ์ด ์ค‘์š”ํ•จ์„ ์•Œ๋ ค์ฃผ๋Š” ๋…ผ๋ฌธ์ด๋ผ ์ƒˆ๋กœ์šด ์‹œ๊ฐ์—์„œ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค. ์ถ”๋ก ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ CoT๋ฅผ ํ†ตํ•ด ์ด์–ด์ง€๋„๋ก ํ•˜๋Š” ๋ถ€๋ถ„์— ์žˆ์–ด์„œ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š”๋ฐ ์ค‘์š”ํ•œ ๋“ฏ.4.7

TL; DR

๐Ÿ’ก

CoT ๊ธฐ๋ฐ˜ LLM ์ถ”๋ก ์€ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ถ”๋ก  ๊ณผ์ •์„ ํ•™์Šตํ•˜๋А๋ƒ๊ฐ€ ์ค‘์š”ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ๊ณผ์ •์„ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ณ  ๋ช…ํ™•ํ•˜๊ฒŒ ์•Œ๋ ค์ฃผ๋Š”์ง€๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค. ์ฆ‰, ๋‚ด์šฉ๋ณด๋‹ค๋Š” ๊ตฌ์กฐ์  ์™„์ „์„ฑ์— ์ดˆ์ ์„ ๋‘์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜์„ ํ†ตํ•ด ํ™•์ธํ•œ ์—ฐ๊ตฌ

Summary

Motivation

  • CoT (Chain-of-Thought)
    • LLM์ด ๋ฌด์ž‘์ • ๊ฒฐ๊ณผ๋งŒ ๋ก ๋ฑ‰๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ํ’€์ด ๊ณผ์ •์„ ๊ฐ™์ด ๋งŒ๋“ค๊ณ  ์ถ”๋ก ํ•˜๊ฒŒ ํ•˜๋ฉด ๋” ์ž˜ํ•  ๊ฒƒ!
      • ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ์ดˆ๊ธฐ ํ•™์Šต์—๋Š” ์‚ฌ๋žŒ์ด ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์„ ์•Œ๋ ค์ค˜์•ผ ํ•จ
    • ๊ทธ๋Ÿฐ๋ฐ, ์‚ฌ๋žŒ์ด ์ด๊ฑธ ์™„๋ฒฝํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค๊ณ  ๋ณด์žฅํ•  ์ˆ˜ ์žˆ๋‚˜?
      • ์‚ฌ๋žŒ์ด ๋งŒ๋“  ๋ฐ์ดํ„ฐ๋Š” ์™„๋ฒฝํ•˜์ง€ ์•Š์Œ
      • ๋งŒ์•ฝ ํ•™์Šตํ•˜๋Š” ์ถ”๋ก  ๊ณผ์ •์— ๊ตฌ๋ฉ์ด ์žˆ๋‹ค๋ฉด? ๊ทธ๊ฒŒ ํ•ต์‹ฌ์ด๋ผ๋ฉด?
    • ๋‚ด์šฉ์ด ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋‹ค!
      • ๊ตฌ์กฐ์ (๋…ผ๋ฆฌ์ )์œผ๋กœ ์™„์ „ํ•˜๋А๋ƒ, ๊ทธ๊ฒƒ์ด ๋ฌธ์ œ๋‹ค!

IDEA

  • CoT์— ๋น ์ง„ reasoning ๋‹จ๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ์•Œ์•„์•ผ ํ•œ๋‹ค!
    • ๊ทธ๋Ÿผ ๊ทธ reasoning step๋งŒ ์ฑ„์›Œ์ฃผ๋ฉด ๋˜๋Š” ๊ฒƒ(Bridge)
    • Reasoning Chain์˜ โ€œgapโ€์„ ์ฐพ๋Š” ๊ฒƒ
  • ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค๊นŒ?
    • CoT ๋ฐ์ดํ„ฐ ๊ฐ€์ ธ์™€์„œ, ์ง€์šฐ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ฆ๊ฐ•ํ•˜๋ฉด ๊ฐ„๋‹จํžˆ ์™„์„ฑ!

Method

  • Thought Leap
    • CoT ๋‚ด๋ถ€ ์ธ์ ‘ step์ด ๋…ผ๋ฆฌ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ
  • ๊ธฐ์กด ๋ฐ์ดํ„ฐ(ScaleQuestMath) ์—์„œ ์ค‘๊ฐ„ step ์‚ญ์ œ
    • ์‚ญ์ œํ•œ๊ฑธ ground truth bridge๋กœ ์‚ฌ์šฉ

So,

RQ1: reasoning์ด ์ •๋ง ์ข‹์•„์ง€๋ƒ?

  • ์ข‹์•„์ง„๋‹ค!
    • ๋™์ผ model + ๋™์ผ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ
      • ๋‹จ์ˆœ SFT vs CoT-Bridge SFT
        • ๋” ์ข‹์•„์ง
      • ๋‚œ์ด๋„ ๋†’์€ ๋ฌธ์ œ์ผ์ˆ˜๋ก ์„ฑ๋Šฅ ํฌ๊ฒŒ ํ–ฅ์ƒ

RQ2: ์–ด๋ ค์šด ๋ฌธ์ œ์ผ์ˆ˜๋ก ๋” ์ข‹์•„์ง€๋ƒ? (CoT ํŠน์„ฑ์ด ๊ทธ๋Œ€๋กœ ์ด์–ด์ง€๋ƒ?)

  • ๊ทธ๋ ‡๋‹ค! ์–ด๋ ค์šด ๋ฌธ์ œ์ผ์ˆ˜๋ก Thought Leap ๋น ์งˆ ๋•Œ ๋ฌธ์ œ๊ฐ€ ํฌ๋‹ค!

RQ3: Plug-and-Play ๋ฐฉ์‹์œผ๋กœ๋„ ๋™์ž‘ ์ž˜ํ•˜๋ƒ?

  • ์ž˜ํ•œ๋‹ค!
    • ์–ด๋””์— ๋„ฃ๋“ , CoT-Brdige๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•œ๋‹ค.
      • ํŠนํžˆ, ํ•™์Šต ์ดˆ๊ธฐ cold-start ์œ ์‚ฌ ๋ฌธ์ œ ์™„ํ™”

RQ4: Out-of-domain ๋„ ์ข‹์•„์ง€๋ƒ?

  • ์ข‹์•„์ง„๋‹ค!
    • ๋…ผ๋ฆฌ ์ถ”๋ก  ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ๋„ ์ž˜ํ•œ๋‹ค.

Analysis

๋ถ„์„1: ๋‚ด์šฉ ๋ฐ ์–‘๋ณด๋‹ค๋Š” ๊ตฌ์กฐ์  ์™„์ „์„ฑ์ด ๋” ์ค‘์š”ํ•˜๋‹ค.

  • ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ๊ฐ™๋”๋ผ๋„, ๋ฌด์ž‘์œ„ step ์ถ”๊ฐ€ํ•˜๋”๋ผ๋„ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ๊ฑฐ์˜ ์—†์Œ

๋ถ„์„2: ์ค‘๊ฐ„์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜์ง€๋งŒ, ์‹œ์ž‘๊ณผ ๋๋„ ์ค‘์š”ํ•˜๋‹ค.

  • ์ค‘๊ฐ„ ๋‹จ๊ณ„๋Š” ํ•ต์‹ฌ ๊ณ„์‚ฐ ๋ฐ ๋…ผ๋ฆฌ, ์‹œ์ž‘๊ณผ ๋์€ ๋ฌธ์ œ ํ•ด์„๊ณผ ๊ฒ€์ฆ์˜ ๋А๋‚Œ์ด๋ฏ€๋กœ

๋ถ„์„3: ๋…ธ์ด์ฆˆ๋Š” ์˜ํ–ฅ์ด ์ ๋‹ค.

  • ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•ด๋„, ์„ฑ๋Šฅ ๋ณ€ํ™”๊ฐ€ ํฌ์ง€ ์•Š์Œ

Categories

research