Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์๋์ฝ | ์ ๋ง ์ง๊ด์ ์ธ ์๊ฐ์ ๋ ผ๋ฌธํํ๋ค๋ ์๊ฐ์ด ๋ค์์. ๋น์ฐํ ๋ชจ๋ ์ง์์ CoT๋ก ํ์ตํ์ง ์๊ธฐ ๋๋ฌธ์, ๋ด์ฉ์ ์ธก๋ฉด๋ณด๋ค๋ ๊ตฌ์กฐ์ ์์ฑ๋๊ฐ ์ค์ํ ๊ฒ์. ๊ทธ๋ผ์๋, ๊ทธ๊ฒ์ ํ์ธํ๋ ์คํ ๋ฐฉ๋ฒ๊ณผ ๋ถ์ ๋ฐฉ๋ฒ์ ์ฐธ๊ณ ํ ๋งํ ๊ฒ ๊ฐ์. ์ธ์ฉํ๊ธฐ ์ข์ ๋ ผ๋ฌธ์ด๋ผ๋ ์๊ฐ, | 3 |
| ํ๋น์๋ ธ์นด๋ฃจ์๋ | Instruction tuning์ ์ฒ ํ์ ์ ๊ฐ์ ธ์จ ๋ฏ. simpleํ๊ณ powerfulํ๋ค | 4 |
| ํค๋ณด๋ | CoT๊ฐ LLM์๊ฒ ์ ๋ง ๋ ผ๋ฆฌ๋ฅผ ๊ฐ๋ฅด์น๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ๋ ๋ฏํ๋ค. CoT ๋ฐ์ดํฐ์ ์ด๋ฏธ ๋ ผ๋ฆฌ ๊ตฌ๋ฉ์ด ์์ ์ ์์ง๋ง, ์ง์ ๋ ผ๋ฆฌ bridge๋ฅผ ๋ง๋ค๊ณ ๊ทธ๊ฑธ ground truth bridge๋ก ์จ์ ํ์ตํ๋ ๋ฐฉ์๋ ๋ฉ๋์ด ์ ๊ฐ๋ค. ํ์คํฌ ์ผ๋ฐํ๊ฐ ๋๋ค๋ ๊ฒ๋ ๋ ผ๋ฆฌ ํ์ตํ๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ๋ ๋ฏํด์ ํฅ๋ฏธ๋ก์ด ์ | 5 |
| ์ฐ์ฐ์๊ฐ์ ธ์ด | ๋จ์ ํ๋กฌํํ ์ ๋ค๋ฃจ๋๊ฒ ์๋๋ผ CoT์ ํต์ฌ์ ๋ํด ๋ค๋ฃจ๋ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ! CoT์ ์ค๊ฐ ๊ณผ์ ์ ์ง์์ ์คํํ๋ ๊ณผ์ ๊ณผ ๋ ผ๋ฌธ์ ์์ด๋์ด๋ฅผ ์๊ฐํ๋ฉด ์ ์๊ฐ ์ ๋ง ์์๋ ฅ์ด ํ๋ถํ๊ณ ๋๋ํ์ ๊ฒ ๊ฐ๋ค. | 4.5 |
| ๋ ์จ:ํ๋ฆผ | ์คํ๋ ค ์ธ์ง์ฒด๊ณ์ ๊ฑธ๋ง๋ ๊ฐ๋จํ ์์ด๋์ด๋ก ์ผ๊ด๋๊ฒ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํจ. ๊ทผ๋ฐ out-of-domain์์๋ ๊ฝค ์ฑ๋ฅ์ด ์ค๋ฅธ๊ฑด ๊ณ ๋ฌด์ ์ด๋ค. ๋๋ฉ์ธ ์ง์ ์ฃผ์ ์ด ๋ชฉํ๊ฐ ์๋๋ผ โ์์ ํ ์ถ๋ก โ์ ๋ชจ๋ฐฉํด์ ๊ทธ๋ฐ๊ฑธ๊น? | 4.3 |
| ๊ผฌ๋ค๋ชฉ | ์๊ฐ๋ณด๋ค noise์ ์ํฅ์ด ์๊ตฌ๋? ํ๊ธด ๊ฒฐ๊ตญ ์์ฌ๋ฃ๋ฅผ ๊ฐ๋ฅด์น๋ ๊ฒ ์๋๋ผ ์กฐ๋ฆฌ๋ฒ์ ๋ฐ๋ฅด๋๋ก ํ๋๊ฒ CoT์ ๋ชฉ์ ์ด๋๊น ๊ทธ๋ด ์ ์๊ฒ ๋ค. CoT ์ธ ์ผ์ด ํฌ๊ณ ์๊ฒ ๋ง์๋ฐ ์ฐธ๊ณ ํ๊ธฐ ์ข์๋ฏ | 4 |
| ์ก์ฌ์๋ฏธ | ๊ทธ๋์ ํ๋กฌํํธ๋ฅผ ์ค ๋ 'LLM์ ๋๋ํ๋๊น ๋์ถฉ ๋งํด๋ ์์์ ์ด์ด์ ์ถ๋ก ํ๊ฒ ์ง'๋ผ๋ ์๊ฐ์ผ๋ก ํ๋กฌํํธ๋ฅผ ์ฃผ๊ณค ํ์๋๋ฐ, ๋ชจ๋ธ์ด ์ด๋ฏธ ์๊ณ ์์ ๊ฑฐ๋ผ ๊ฐ์ ํ๊ณ ์๋ตํ๊ธฐ๋ณด๋ค ์ด๋ฅผ ์ ๊ณตํ๋ฉด์ ์ถ๋ก ํ๋ฆ์ด ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๊ฒํ๋๊ฒ ๋ ์ค์ํ ๋ฏ | 4.2 |
| ๋ง์ฐ์ค | Reasoning ํ๋กฌํํธ ํ์์ ์์ ์ฑ์ด ์ค์ํจ์ ์๋ ค์ฃผ๋ ๋ ผ๋ฌธ์ด๋ผ ์๋ก์ด ์๊ฐ์์ ์ ๊ทผํ ์ ์์๋ ๊ฒ ๊ฐ๋ค. ์ถ๋ก ์ด ์์ฐ์ค๋ฝ๊ฒ CoT๋ฅผ ํตํด ์ด์ด์ง๋๋ก ํ๋ ๋ถ๋ถ์ ์์ด์ ์ฑ๋ฅ์ ๋์ด๋๋ฐ ์ค์ํ ๋ฏ. | 4.7 |
TL; DR
๐ก
CoT ๊ธฐ๋ฐ LLM ์ถ๋ก ์ ์ผ๋ง๋ ๋ง์ ์ถ๋ก ๊ณผ์ ์ ํ์ตํ๋๋๊ฐ ์ค์ํ ๊ฒ์ด ์๋๋ผ, ๊ทธ ๊ณผ์ ์ ์ผ๋ง๋ ์ ํํ๊ณ ๋ช ํํ๊ฒ ์๋ ค์ฃผ๋์ง๊ฐ ๋ ์ค์ํ๋ค. ์ฆ, ๋ด์ฉ๋ณด๋ค๋ ๊ตฌ์กฐ์ ์์ ์ฑ์ ์ด์ ์ ๋์ด์ผ ํ๋ค๋ ๊ฒ์ ์คํ์ ํตํด ํ์ธํ ์ฐ๊ตฌ
Summary
Motivation
- CoT (Chain-of-Thought)
- LLM์ด ๋ฌด์์ ๊ฒฐ๊ณผ๋ง ๋ก ๋ฑ๋ ๊ฒ ์๋๋ผ, ํ์ด ๊ณผ์ ์ ๊ฐ์ด ๋ง๋ค๊ณ ์ถ๋ก ํ๊ฒ ํ๋ฉด ๋ ์ํ ๊ฒ!
- ์ด๋ฅผ ์ํํ๊ธฐ ์ํ ์ด๊ธฐ ํ์ต์๋ ์ฌ๋์ด ์ด๋ฌํ ๋ฐฉ์์ ์๋ ค์ค์ผ ํจ
- ๊ทธ๋ฐ๋ฐ, ์ฌ๋์ด ์ด๊ฑธ ์๋ฒฝํ๊ฒ ๋ง๋ค์๋ค๊ณ ๋ณด์ฅํ ์ ์๋?
- ์ฌ๋์ด ๋ง๋ ๋ฐ์ดํฐ๋ ์๋ฒฝํ์ง ์์
- ๋ง์ฝ ํ์ตํ๋ ์ถ๋ก ๊ณผ์ ์ ๊ตฌ๋ฉ์ด ์๋ค๋ฉด? ๊ทธ๊ฒ ํต์ฌ์ด๋ผ๋ฉด?
- ๋ด์ฉ์ด ๋ฌธ์ ๊ฐ ์๋๋ค!
- ๊ตฌ์กฐ์ (๋ ผ๋ฆฌ์ )์ผ๋ก ์์ ํ๋๋, ๊ทธ๊ฒ์ด ๋ฌธ์ ๋ค!
- LLM์ด ๋ฌด์์ ๊ฒฐ๊ณผ๋ง ๋ก ๋ฑ๋ ๊ฒ ์๋๋ผ, ํ์ด ๊ณผ์ ์ ๊ฐ์ด ๋ง๋ค๊ณ ์ถ๋ก ํ๊ฒ ํ๋ฉด ๋ ์ํ ๊ฒ!
IDEA
- CoT์ ๋น ์ง reasoning ๋จ๊ณ๊ฐ ์๋์ง ์์์ผ ํ๋ค!
- ๊ทธ๋ผ ๊ทธ reasoning step๋ง ์ฑ์์ฃผ๋ฉด ๋๋ ๊ฒ(Bridge)
- Reasoning Chain์ โgapโ์ ์ฐพ๋ ๊ฒ
- ์ด๋ป๊ฒ ๋ง๋ค๊น?
- CoT ๋ฐ์ดํฐ ๊ฐ์ ธ์์, ์ง์ฐ๋ ๋ฐฉ์์ผ๋ก ์ฆ๊ฐํ๋ฉด ๊ฐ๋จํ ์์ฑ!
Method
- Thought Leap
- CoT ๋ด๋ถ ์ธ์ step์ด ๋ ผ๋ฆฌ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ง ์๋ ๊ฒฝ์ฐ
- ๊ธฐ์กด ๋ฐ์ดํฐ(ScaleQuestMath) ์์ ์ค๊ฐ step ์ญ์
- ์ญ์ ํ๊ฑธ ground truth bridge๋ก ์ฌ์ฉ
So,
RQ1: reasoning์ด ์ ๋ง ์ข์์ง๋?
RQ2: ์ด๋ ค์ด ๋ฌธ์ ์ผ์๋ก ๋ ์ข์์ง๋? (CoT ํน์ฑ์ด ๊ทธ๋๋ก ์ด์ด์ง๋?)
๊ทธ๋ ๋ค! ์ด๋ ค์ด ๋ฌธ์ ์ผ์๋ก Thought Leap ๋น ์ง ๋ ๋ฌธ์ ๊ฐ ํฌ๋ค!
RQ3: Plug-and-Play ๋ฐฉ์์ผ๋ก๋ ๋์ ์ํ๋?
RQ4: Out-of-domain ๋ ์ข์์ง๋?
Analysis
๋ถ์1: ๋ด์ฉ ๋ฐ ์๋ณด๋ค๋ ๊ตฌ์กฐ์ ์์ ์ฑ์ด ๋ ์ค์ํ๋ค.
๋ถ์2: ์ค๊ฐ์ด ๊ฐ์ฅ ์ค์ํ์ง๋ง, ์์๊ณผ ๋๋ ์ค์ํ๋ค.
๋ถ์3: ๋ ธ์ด์ฆ๋ ์ํฅ์ด ์ ๋ค.








