Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์์ ๋ชจ๋ธ๋งํด SFT๋ณด๋ค ๋ ๋์ FT ๋ฐฉ์์ ์ ์ํจ. ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋ฐ์ด๋ ํจ์จ/ํจ์ฉ์ฑ ๋ณด์. COLM๋ค์ด ๋
ผ๋ฌธ! โข ๋จ์ : ์ด๋ค ์๋ฆฌ๋ก CFT๊ฐ SFT๋ณด๋ค ๋ ์ optimize๋๋๊ฑธ๊น? ์คํ์ ๋ง๊ณ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์์์ผ๋ฉด ์กฐ๊ธ ๋ ์ข์์ ๋ฏ โข ๋ณด์์ : limitation์ผ๋ก ์ธ๊ธํ ๋ฐ์ดํฐ ํ์ง๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ๋ณด์ํ ์ ์์์ง | 4 |
| ์์ด๋ฆฌ์ค | ์ฅ์ : ๋ชจํฐ๋ฒ ์ด์
, ์์ด๋์ด๊ฐ ๊ฐ์ธ์ ์๊ฐ๊ณผ ๋๋ฌด ์ผ์นํจ!! ์ฌ๋์ ์ฌ๊ณ ๋ฐฉ์์ ์ ๋ชจ๋ธ๋งํ๋ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํจ. ๋จ์ : ์ข์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ๊ฒ์ฆํ๊ณ , ๋ค์ํ๊ฒ ๋นํํ๊ณ , ํ ๋ก ํ๋, ์ ๋ง ์ฌ๋๊ฐ์ ํ๋ก์ธ์ค๋ ์๋. ์ผ๋ถ๋ง ๊ตฌํํ ๋๋? ๋ณด์์ : ๋ด๊ฐ ํ๊ณ ์ถ์ ๋ฐฉํฅ์. ํผ์ ํ์ตํ๋ ๊ฒ๋ณด๋ค, ๋ค ๊ฐ์ด, ๋ ์ข์ ๋ฌธ์ ๋ฅผ ๋นํํ๋ฉฐ ํ ๋ก ํ๊ณ ํ์ตํ๊ธฐ. | 4.5 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : gpt์ ๋นํ ๋ฅ๋ ฅ์ด ๋ฐ์๋ ๋ฐ์ดํฐ๋ก ํ์ต. gpt ์์ฑ ํ
์คํธ๋ฅผ ๋ฐฐ์ฐ๋ฉด์ ๋์์ ๋นํ ๋ฅ๋ ฅ์ ๋ฐฐ์ธ ์ ์์ โข ๋จ์ : ํ์ต ๋ฐ์ดํฐ ํ์ง ๋ณด์ฅ์ด ํ์ โข ๋ณด์์ : distilled SFT ๋ชจ๋ธ๊ณผ ์ฑ๋ฅ ๋น๊ต | 4.5 |
| 3์ | โข ์ฅ์ : ๊ธฐ์กด์ ์ ๋ต์ ๋ฐ๋ผํ๊ฒ ํ์ต์ํค๋๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ธ๊ฐ ํ์ต ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ํ๋ฆฐ ๋ต์ ๋นํํ๋๋ก ํ์ตํ ์ฌ๊ณ ์ ์ ํ์ด ๋ฐ์ด๋จ + ๋ฐ์ดํฐ ํจ์จ์ฑ๋ ์์ฒญ ์ข์ โข ๋จ์ : ํ์ต ๋ชฉํ๋ inference ๋ชฉํ๋ ๋ค๋ฅธ๋ฐ๋ ์ฑ๋ฅ์ด ์ข์ ์ด์ ๊ฐ ๋ญ๊น...? ๊ถ๊ธ์ฆ โข ๋ณด์์ : ํ๋ฆฐ ๊ธฐ์ค์ด ๋ชจํธํ ๋ฌธ์ ์ ๋ํด critique ์ดํ์ ์ ๋ต ์์ฑ๊น์ง end-to-end๋ก ํ์ตํด๋ณด๊ธฐ | 4.4 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : base ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋ง์ด ์ข์์ ธ์ SFT๋ก๋ ์ฌ์ฌ ๋ถ์กฑํ๋ค๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์ background๋ฅผ ์ฝ์ผ๋ฉฐ ๊ณ ๊ฐ๋ฅผ ๋๋์์ + SFT์ ๋จ์ ๋ต imitating์ ๋ถ๋ง์ ๊ฐ๋ ๋
ผ๋ฌธ์ด ๋ง์ด ๋ณด์ โข ๋จ์ & ๋ณด์์ : ํ๋ฆฐ ์ด์ ๊ฐ ๋ช ํํ ์ํ ๋๋ฉ์ธ์ ๋ํด์๋ ์ํ์ง๋ง ์ ๋ต์ด ๋ชจํธํ๊ฑฐ๋ ์ด๋ฆฐ ํํ์ธ ๊ธ์ฐ๊ธฐ, ์์ ์ถ๋ก ์์ญ์์๋ ์ํ ์ง ์๋ฌธ์ + ์คํํด๋ดค์ผ๋ฉด ์ข๊ฒ ์ | 4.1 |
| ์๋์ง | โข ์ฅ์ : SFT์ (์ง๋ฌธ,์ ๋ต)์ด ์๋ (์ง๋ฌธ, ์ ๋ต, ์ค๋ช
)์ CFT์ ์ ์. ๋๋ถ๋ถ post-training์ SFT๋ฅผ ์ฌ์ฉํ๊ธฐ์ ๋น์ฐ์ ์ฌ๊ฒจ์๋ ํจ๋ฌ๋ค์์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์๊ฐํ ์ ์๊ฒํด ์ค ๊ฒ ๊ฐ์. ์ฒ์ ์ ๋ชฉ์ ๋ณด๊ณ ๋ญ๊ฐ ํ์ง๋ง ์ฐฝ์์ ์ธ ๋
ผ๋ฌธ์ด๋ผ๊ณ ๋๊ผ์. โข ์ฝ์ : ๋ฐฉ์์ ์ฐฝ์์ ์ด๋, ๋ฐ์ดํฐ์ ํ์ง์ ๋๋ฌด ์์กด โข ๋ณด์์ : critique ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถ์ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฌ์ฉํด์ critique ํ์ง์ ์ฌ๋ฆฌ๊ฑฐ๋, top-k๋ก ํ๊ฑฐ๋,,, ๋ฐ์ดํฐ ํ์ง ํ๋ณด์ ๋ํ ์ถ๊ฐ ๋ฐฉ๋ฒ์ด ๋ฐ์๋๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 4.2 |
| ํผ์ฆ์น์ | โข ์ฅ์ : ๋ฐฉ๋ฒ์ด ๊ต์ฅํ ๊ฐ๋จํจ์๋ ๋์ ์ฑ๋ฅ ํฅ์์ด ์ด๋ฃจ์ด์ง ์ ์ง๊ธ๊ป human reasoning ๊ณผ์ ์ ์ด๊ณณ์ ๊ณณ์ ์ ์ฉํ๊ณ ์ ํ๋ ์๊ฐ์ ๋ง์๋๋ฐ SFT์๋ ์ ์ฉํ ์๊ฐ์ ๋ชปํ์๊น. ์ ์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค๋๊ฒ๋ ๊ต์ฅํ ํฐ ๋ฉ๋ฆฌํธ์ โข ๋จ์ : ์์ฑ๋ critique์ ํ์ง์ ์ข์ง์ฐ์ง ๋ ์ฌ์ง๊ฐ ์์ โข ์ ์: ์ต๊ทผ์ ๋์จ LLM์ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ ๊ตํ๊ฒ right, wrong set๋ฅผ ๋ง๋ค๋ฉด ์ฑ๋ฅ ํฅ์์ด ๋ง์ด ์ผ์ด๋ ๊ฒ ๊ฐ๊ธดํจ. ์์ ์ ๊ตํ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ์ ๋์ ์ฑ๋ฅ์ด ๊ถ๊ธ | 4.2 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : ์ ๋ต์ ์ธ์ฐ๊ฒ ํ๋ ๊ฒ๋ณด๋ค ํ๋ฆฐ ์ด์ ๋ฅผ ๋ถ์ํ๊ฒ ๋ง๋๋ ๋ฐฉ์์ด ๋ ํจ๊ณผ์ ์ด๋ผ๋ ์์ด๋์ด๊ฐ ์ธ๊ฐ์ด ๊ณต๋ถํ๋ ๋ฐฉ์๊ณผ ๋น์ทํด์ ๊ณต๊ฐ์ด ๋จ. โข ์ฝ์ : ํ์ตํ ๋๋ ๋ต์์ ๋นํํ๋ ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ฉด์ ์ ์ ์ถ๋ก ํ ๋๋ ๋ฐ๋ก ๋ต์ ์์ฑํ๋๋ฐ, ์ ์ด ํ์ต ๋ฐฉ์์ด ์ง์ ๋ต์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํค์์ฃผ๋์ง ์ค๋ช ์ด ๋ถ์กฑํ๊ฒ ๊ฐ์. โข ๋ณด์์ : critique๋ฅผ ์์ฑํ๋ teacher ๋ชจ๋ธ์ ํ์ง์ ์ฑ๋ฅ์ด ์์กดํ๋ ๊ตฌ์กฐ์ธ๋ฐ, ๋ค์ํ ๋ชจ๋ธ๋ก critique ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด ๋ณด๊ธฐ. | 4.3 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ์ฑ๋ฅ์ด ์ค๋ฆ ์ฝ์ : Contrastive learning์ ์ฒ ํ์ ๊ทธ๋๋ก ๊ฐ์ ธ์๊ณ , CoT์ ์ฒ ํ๊ณผ๋ ๋น์ทํจ. ์ฆ, ์์ด๋์ด๊ฐ originalํ์ง ์์๋ณด์ฌ ํ๊ณ์ ๊ธฐ์ฌํ๋ค๋ ๋๋์ ๋ฐ์ง ๋ชปํจ. ๋ด์๊ฐ์ ๋ฐฉ๋ฒ๋ก Contrastive learning+CoT+Distillation ์ด๊ฒ ๋์ธ๊ฑฐ๊ฐ์ ์ ์์ : ๊ฐํํ์ต์ ์ธ ๊ด์ ์ ๋ฃ์ด์, ์ถ๋ก ์์ policy์ ๋ํ critique๋ฅผ ์์ฑํด์ ํ๋๊ฑด ์ด๋จ๊น? | 1.75 |
TL; DR
์ ๋ต์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ SFT๋ณด๋ค, noisyํ ๋ต์์ โ๋นํ(critique)โํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ด reasoning ์ฑ๋ฅ ํฅ์์ ๋ ํจ๊ณผ์ ์ด๋ค!
- Human learning process์ ๋ฐฉ์(critical thinking, analyze, understandingโฆ)์ ๋ชจ๋ธ ํ์ต์ ์ ์ฉํด๋ณด์
Summary
- Citation: 40
Introduction
Background
- ์ผ๋ฐ์ ์ผ๋ก LLM post-training์ ๋ฐฉ๋ฒ์ผ๋ก๋ SFT (Supervised Fine-Tuning)์ ์ฌ์ฉํจ
- Supervised Fine-Tuning (SFT): ์ฃผ์ด์ง ์ง๋ฌธ-์ ๋ต ์์ ๋ฐํ์ผ๋ก, ๋ชจ๋ธ์ด ์ ๋ต ์๋ต์ ๋ชจ๋ฐฉ(imitate responses)ํ๋๋ก ํ์ตํ๋ ๋ฐฉ์
- ํนํ ์ํ์ ์ถ๋ก ์ด๋ ์ฝ๋ ์์ฑ์ฒ๋ผ ํน์ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๋ฐ ์์ฃผ ํ์ฉ๋จ
- ๊ทธ๋์ ๊ธฐ์กด์ฐ๊ตฌ๋ค์ high quality SFT dataset์ ๊ตฌ์ถํ๋๋ฐ ์ฃผ๋ ฅํจ
- e.g., MetaMath, MAmmoTH, WisardCoder
- ํ์ง๋ง ์ด๋ฏธ ์ฑ๋ฅ์ด ๊ฐํ base ๋ชจ๋ธ์์ SFT๋ฅผ ์งํํ๋ค๋ฉด, SFT ๋ฐ์ดํฐ์ ์๊ณผ ํ์ง์ ๊ณ์ ๋์ฌ๋ ์ฑ๋ฅ ํฅ์์ด ๋ํ๋จ
- ๋ํ ๋ฐ์ดํฐ ํ์ง์ด ์ถฉ๋ถํ ์ข์ง ์์ผ๋ฉด SFT๋ฅผ ํ์ ๋ ์ฑ๋ฅ์ด ์คํ๋ ค ๋จ์ด์ง ์ ์์
Fig1
Motivation
- ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์(human learning process)์ ํ๋ฒ ์๊ฐํด๋ณด์!
- ์ธ๊ฐ์ ๋จ์ํ ์ ๋ต์ ์ธ์ฐ์ง ์์. ๋ต์ ๋ถ์ํ๊ณ , ๋นํํ๊ณ , ์ ์ ํจ์ผ๋ก์จ ์ดํด๋ฅผ ๊น๊ฒ ๋ง๋ฆ
โ critical thinking, deeper analysis, and nuanced understanding โฆ
- ์ด๋ฌํ ์์๋ค์ด ๊ทธ๋์ SFT์์๋ ๊ณ ๋ ค๋์ง ์์๊ณ , ์ ๋ต์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ ํ์ต์ ์ด์ ์ ๋์์
- ์ธ๊ฐ์ ๋จ์ํ ์ ๋ต์ ์ธ์ฐ์ง ์์. ๋ต์ ๋ถ์ํ๊ณ , ๋นํํ๊ณ , ์ ์ ํจ์ผ๋ก์จ ์ดํด๋ฅผ ๊น๊ฒ ๋ง๋ฆ
So in this Paperโฆ
- ๋ชจ๋ธ์ด ๋จ์ํ ์ ๋ต์ ๋ชจ๋ฐฉํ๋ฉด์(imitation) ๋ฐฐ์ฐ๊ธฐ๋ณด๋ค, ์ด๋ค ํ์ด๊ฐ ์ ํ๋ ธ๋์ง, ์ด๋ ๋ถ๋ถ์ด ๋ถ์์ ํ์ง, ์ด๋ป๊ฒ ์์ ํด์ผ์ผ ํ๋์ง(critique)๋ฅผ ๋นํํ๊ณ , ๊ฒํ ํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ๊ฒ ํ์!
- ์ด๋ฅผ ์ํด, question-response pair ๏ปฟ์ ๋ํด annotated critique ๏ปฟ๋ฅผ ์์ฑํ๋๋ก ํ์ต
Fig1-b- ๏ปฟ๋ฅผ ์ต๋ํํ๋ objective์ ์ฌ์ฉํ์
โ โ์ ๋ต ๋ชจ๋ฐฉโ๋ณด๋ค, ๋ถ์์ ํ ๋ต์์ ๋นํํ๊ณ ๊ฒ์ฆํ๋ ํ์ต์ด reasoning ๋ฅ๋ ฅ ํฅ์์ ๋ ์ ํฉํ๋ค!!
Contribution
- Critique Fine-Tuning (CFT) ์ ์: ๋จ์ํ query์ ๋ํด์ response์ ๋ชจ๋ฐฉ(imitation)ํ๋ ๋ฐฉ์์ด ์๋, queryโresponse pair๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ critique๋ฅผ ํ์ตํ๋ ์๋ก์ด fine-tuning ๋ฐฉ์์ ์ ์
- Critique dataset ๊ตฌ์ถ: GPT-4o๋ฅผ ํ์ฉํ์ฌ WebInstruct, MetaMathQA, NuminaMath์ ๋ํ critique ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถ
- ์คํ
- 3๊ฐ์ 7B base model์์ CFT๊ฐ ๊ฐ์ฅ ๊ฐํ SFT baseline ๋๋น ํ๊ท ์ฝ 4~10์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ
- ๋จ 50K ์ํ๊ณผ ์ฝ 1์๊ฐ์ ํ์ต๋ง์ผ๋ก, 2M+ ์ํ๋ก ํ์ตํ ๊ฐํ ๋ชจ๋ธ ๋ฐ RL ๊ธฐ๋ฐ SimpleRL์ ๊ทผ์ ํ ์ฑ๋ฅ์ ๋ฌ์ฑ(data/ compute efficiency)
Method & Dataset
Datasets
WebInstruct
- ์ํ 65%, ๋ฌผ๋ฆฌ 8%, ํํ 4%, ๋น์ฆ๋์ค 10%, ์ธ๋ฌธ 4% ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ dataset
- ์ํ ์ค์ฌ ๋ฐ์ดํฐ๋ณด๋ค ๋ฒ์๊ฐ ๋์
- 50K ๊ท๋ชจ๋ก 4๊ฐ์ง subset์ ๋ง๋ฆ:
- WebInstruct-SFT: ์๋ณธ ๋ต์ ๊ทธ๋๋ก ์ฌ์ฉํ SFT ๋ฐ์ดํฐ(์ค๋ฅ์จ์ด 50% ์ด์) (์๋ณธ WebInstruct๋ฐ์ดํฐ์์ ๋จ์ 50K ์ํ๋ง)
- WebInstruct-GPT-4o: WebInstruct-SFT์ ๋์ผํ ์ง๋ฌธ์ GPT-4o-1120๊ฐ ์๋ก ๋ตํ ๋ฐ์ดํฐ
WebInstruct-CFT (Ours): ์๋ณธ noisy ๋ต์(WebInstruct-SFT)์ ๋ํด GPT-4o-1120๊ฐ critique๋ฅผ ์์ฑํ ๋ฐ์ดํฐ. ์ด ์ค ์ฝ 56%๋ โcorrectโ, ๋๋จธ์ง๋ โwrongโ์ผ๋ก ํ์ ๋จ
โ ์ฆ, ์๋ณธ ๋ฐ์ดํฐ์์ ๋ง๋ ์(correct)์ ๋ง์ ์ด์ ๋ฅผ ์์ฑ, ํ๋ฆฐ ์(wrong)์ ํ๋ฆฐ ์ด์ ๋ฅผ ์์ฑํ๊ฒ ๋จ. ์๋ณธ noisy ๋ต์์ (critique๋ง ๋ถ์ฌ์) ๊ทธ๋๋ก ์ฌ์ฉํ๋ค๋๊ฒ ํฌ์ธํธ์
MetaMath & NuminaMath
- ๊ฐ๊ฐ 50K๋ฅผ ์ํ๋งํ๊ณ GPT-4o๋ฅผ ์ฌ์ฉํ์ฌ critique ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์
Training Objective
- Input: ์ง๋ฌธ ๏ปฟ์ noisy response ๏ปฟ๋ฅผ ์ด์ด๋ถ์ธ ๏ปฟ
- Output: ๏ปฟ ์์ ๋ํ critique ๏ปฟ
- Training Objective: ๋ชจ๋ธ์ด critique ๏ปฟ๋ฅผ ์์ฑํ๋๋ก ๋ค์์ ์ต๋ํ:
๏ปฟ
- ๏ปฟ ๋ ๋ชจ๋ธ์ parameter
โ ๋ชจ๋ธ์ด training ์์๋ โ์ ๋ต ์์ฑ๊ธฐโ๊ฐ ์๋ โ๋ต์ ๋นํ๊ฐโ๋ก ํ๋ จ๋จ
- Inference ์์๋ ๋ณ๋์ critique ๋จ๊ณ ์์ด ๋ต์ ๋ฐ๋ก ์์ฑ
Experiments
Setting
Evaluation Datasets
- Mathematical reasoning benchmarks
- MATH, Minerva-Math, GSM8K, AIME24, AMC23, OlympiadBench
- STEM reasoning (Science, Technology, Engineering, Mathmatics)
- TheoremQA: mathematical theorem understanding
- MMLU-Pro: physics, chemistry, mathematics
- GPQA: ๊ณผํ์ reasoning์ ์๊ตฌํ๋ ๋ณต์กํ ์ง๋ฌธ
- Mathematical reasoning benchmarks
Base Models
- DeepSeek-Math-7B, Qwen2.5-7B, Qwen2.5-Math-7B
Training Details
- SFT settings
- SFT: ์๋ณธ ๋ฐ์ดํฐ์ ์ ์๋ต์ ๊ทธ๋๋ก ์ฌ์ฉํ์ฌ ํ์ต
- SFT-verified: GPT-4o๊ฐ ๊ฒ์ฆํ ์๋ต๋ง ์ฌ์ฉํ์ฌ ํ์ต
- SFT-GPT-4o: GPT-4o๊ฐ ์์ฑํ ์๋ต์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต
- CFT settings
- ์์ ๊ตฌ์ถํ๋ CFT dataset์ ์ฌ์ฉํด ํ์ต
- SFT settings
Results
Main Results (CFT vs. SFT)
- ์ธ base model์ ๋ํด, SFT์ CFT๊ฐ์ ์ฑ๋ฅ์ ๋น๊ต
- ๊ฐ์ฅ base ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ Qwen2.5-Math-7B์
- WebInstruct-SFT (์๋ณธ ๋ฐ์ดํฐ์ )์ผ๋ก๋ง ํ๋ จํ์ ๋ base ๋ณด๋ค ์คํ๋ ค ์ฑ๋ฅ์ด ๋ฎ์์ง๋ ์ํฉ๋ ์กด์ฌํจ
- WebInstruct-CFT๋ฅผ ์ฌ์ฉํ์๋ ๋ชจ๋ ๋ชจ๋ธ์์ ์ ๋ฐ์ ์ผ๋ก ๊ฐ๋ฅ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ , SFT์์ ๋ฌ์ฑํ ์ต๊ณ ์ฑ๋ฅ ๋๋น 6.7%์ improve๋ฅผ ๋ฌ์ฑํจ
Performance comparison of Ours vs. other Reasoning-specialized models
- CFT ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ(Qwen2.5-Math-7B-CFT)๊ณผ ๊ธฐ์กด์ ๋ค๋ฅธ reasoning-specialized model๊ณผ์ ์ฑ๋ฅ ๋น๊ต
- Qwen2.5-Math-7B-CFT๊ฐ ๋ชจ๋ 7B scale ๋ชจ๋ธ์ ๋ํด์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํจ
- ์ถ๊ฐ์ ์ผ๋ก, ์ด๋ ๋จ์ง 50K์ training data ์์ ๋ฌ์ฑํ ์ฑ๋ฅ์
- ๋ ํฐ ๋ชจ๋ธ(72B)๊ณผ ๋น๊ตํด์๋, 1/10 ์ ๋๋ง์ parameter ๋ฟ ๋ง์ผ๋ก ๋๋ถ๋ถ์ dataset์ ๋ํด์ ๋ฅ๊ฐํ๊ฑฐ๋ ๊ฒฌ์ค๋งํ ์ฑ๋ฅ์ ๋ณด์
Comparison with RL-based Method
- Qwen2.5-Math-7B-base๋ฅผ ๊ธฐ์ค์ผ๋ก, CFT๋ฅผ RL ๊ณ์ด ๋ฐฉ๋ฒ์ธ SimpleRL๊ณผ ๋น๊ต
- SimpleRL-Zero: pure RL-based training
- SimpleRL: Distill+RL-based training
- CFT๋ RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๊ณผ ์ ์ฌํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์
- SimpleRL ๊ณ์ด์ 1152 H100 GPU hours๋ฅผ ์ฌ์ฉํ์์ง๋ง CFT๋ 8 H100 GPU hours๋ง์ผ๋ก ํ์ตํจ
โ RL๊ธ ์ฑ๋ฅ์ ํจ์ฌ ์ ์ ์ฐ์ฐ ๋น์ฉ์ผ๋ก ๊ทผ์ ํ ์ ์์
- Qwen2.5-Math-7B-base๋ฅผ ๊ธฐ์ค์ผ๋ก, CFT๋ฅผ RL ๊ณ์ด ๋ฐฉ๋ฒ์ธ SimpleRL๊ณผ ๋น๊ต
Ablation Studies
(1) Data Source
- ํ์ต ๋ฐ์ดํฐ์
์ WebInstruct / MetaMathQA / NuminaMath๋ก ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋น๊ต
๊ฐ ๋ฐ์ดํฐ์ ์ ํน์ฑ
- WebInstruct: ๋ฒ์๋ ๋์ง๋ง noisyํ ์น ๊ธฐ๋ฐ instruction dataset
- MetaMathQA: ์ํ ๋ฌธ์ ๋ฅผ ๋ค์ํ๊ฒ ์ฌ์์ฑํด์ ๋ง๋ math-specialized dataset
- NuminaMath: ๋๊ท๋ชจ competition-style math CoT dataset
- SFT์์๋ ์ํ์ ํนํ๋์ด์๊ฑฐ๋ ๊ตฌ์กฐํ๋ MetaMathQA/NuminaMath๊ฐ ์ ๋ฆฌํ๊ณ , broadํ์ง๋ง noisyํ WebInstruct๋ ๋ถ๋ฆฌํจ(์ฑ๋ฅ์ด ๋ฎ๊ฒ ๋์ด)
- ํ์ง๋ง CFT์์๋ WebInstruct์ ์ฑ๋ฅ์ด ์ฐ์ธํจ
โ ์ด๋ ๊ณง, CFT๋ โ์ข์ ๋ฐ์ดํฐโ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ข์ง์ฐ์ง ๋๋๊ฒ ์๋๋ผ, critique์ ํ์ตํจ์ ๋ฐ๋ผ reasoning ๋ฅ๋ ฅ์ ๊ธฐ๋ฅธ๋ค๋ ๊ฒ์ ๋ํ๋. Dataset quality๊ฐ ๋ค์ํ ์ ์ ์คํ๋ ค ์ด์ ์ผ๋ก ๊ฐ์ ธ๊ฐ
- ํ์ต ๋ฐ์ดํฐ์
์ WebInstruct / MetaMathQA / NuminaMath๋ก ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋น๊ต
(2) Response Source
- CFT ํ์ต์ ๋ฃ๋ solution ๏ปฟ์ ์ถ์ฒ๋ฅผ ๋ ๊ฐ์ง๋ก ๋น๊ตํจ:
- Qwen2.5-Math-7B๊ฐ ์ง์ ์์ฑํ ํ์ด
- WebInstruct ๋ฐ์ดํฐ์ ์ ์๋ ๋ค์ด ์๋ ํ์ด
- ํด๋น ๋ต์ ๋ํด์ critique๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ชจ๋ธ์ ๊ฐ์
- ๋ ๊ฒฝ์ฐ ๋ชจ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ฐจ์ด๋์ง ์์
- CFT๋ ํน์ ์ข
๋ฅ์ ๋ต์๋ง ์์กดํ์ง ์๊ณ , ๋ฐ์ดํฐ์
์ ์๋ ์๋ ๋ต ๋ฐ ๋ชจ๋ธ์ด ์๋ก ์์ฑํ ๋ต์ด๋ ๋ ๋ค๋ฅผ ๊ฐ์ง๊ณ ์ค๋ช
ํ ์ ์์
โ CFT๋ โ๋๊ฐ ์ด ๋ต์ด๋โ๋ณด๋ค, ํ์ด๋ฅผ ๋ณด๊ณ ๋นํํ๊ณ ์ค๋ฅ๋ฅผ ์๋ณํ๋ ํ์ตํจ
- CFT ํ์ต์ ๋ฃ๋ solution ๏ปฟ์ ์ถ์ฒ๋ฅผ ๋ ๊ฐ์ง๋ก ๋น๊ตํจ:
(3) Teacher Critique Model
- CFT์์ critique ๏ปฟ๋ฅผ ๋ง๋ค์ด์ฃผ๋ teacher ๋ชจ๋ธ์ ํ์ง์ด ์ผ๋ง๋ ์ค์ํ์ง ํ์ธํ๊ณ ํจ ํจ
- ๏ปฟ pair์ ๋ํด์ critique์ ๋ง๋ค์ด์ฃผ๋ ๋ชจ๋ธ
- GPT-4o-mini์ฒ๋ผ ๋น๊ต์ ์ฝํ critique ๋ชจ๋ธ์ ์จ๋ CFT๊ฐ verified-SFT๋ณด๋ค ํจ์ฌ ํจ๊ณผ์ ์
- ํ์ง๋ง ๋ ๊ฐํ critique teacher(GPT-4o-1120) ๋ฅผ ์ฐ๋ฉด ์ฑ๋ฅ์ด ๋ ์ข์์ง
โ CFT๋ ์ฝํ critique ๋ชจ๋ธ๋ก๋ ์ ์๋ํ์ง๋ง, teacher critique ๋ชจ๋ธ์ด ๊ฐํ ์๋ก ์ถ๊ฐ ์ฑ๋ฅ ํฅ์์ด ์ผ์ด๋จ
- CFT์์ critique ๏ปฟ๋ฅผ ๋ง๋ค์ด์ฃผ๋ teacher ๋ชจ๋ธ์ ํ์ง์ด ์ผ๋ง๋ ์ค์ํ์ง ํ์ธํ๊ณ ํจ ํจ
Limitation & Conclusion
Limitation
- Critique ๋ฐ์ดํฐ๊ฐ ์๋ฒฝํ์ง ์์. GPT-4o-1120์ด ๋ง๋ critique 50๊ฐ์ ๋ํด์ ์ฌ๋์ด ์ ๊ฒํ๋๋ ์ฝ 20%์ ๋ฐ์ดํฐ์ ๋ถ์ ํ์ฑ์ด ์์๋ค๊ณ ํจ
- Self-critique๋ฅผ inference์ ๋ถ์ฌ๋ณด์์ง๋ง direct inference๋ณด๋ค ๊ณ์ ๋ชปํ์
- Self-critique inference: ์ถ๋ก ๋ ๋ชจ๋ธ์ด ๋ฐ๋ก ๋ตํ๋ ๋์ , ์ง์ ๋ต์ ํ ๋ฒ ์์ฑ โ ๊ทธ ๋ต์ ์๊ธฐ๊ฐ ๋ค์ ๋นํ(critique) โ ํ๋ ธ๋ค๊ณ ํ๋จํ๋ฉด ๋ค์ ์์ฑ โ ์ด๋ฅผ ๋ฐ๋ณต
- Self-critique ๋ฐฉ์๋ค์ด ํญ์ direct inference๋ณด๋ค ๋ชปํ์
- ๋นํ ๊ธฐ์ค์ด ์ผ๊ด๋์ง ์๊ฑฐ๋, temperature ๋ฏผ๊ฐ์ฑ ๋ฑ๋ฑ์ ์ํ ๊ฒ์ผ๋ก ์ถ์ ํจ
โ ์ถ๋ก ์์ ์ self-critique loop๋ฅผ ๋๋ฆฌ๋ ๊ฑด ์คํ๋ ค ๋ณต์ก์ฑ๋ง ๋๋ฆฌ๊ณ ์ํด์. ์ฆ, ํ๋ จ์ critique๋ก ํ์ตํ๊ณ ์ถ๋ก ์์๋ ๊ทธ๋ฅ direct inference ๋ฅผ ํ๋๊ฒ์ด ๊ฐ์ฅ ํจ๊ณผ์ ์
Conclusion
- ๋ชจ๋ธ์ reasoning ๋ฅ๋ ฅ์ ํค์ธ ๋ ๋ฐ๋์ ์ ๋ต imitation ๋ฐฉ์(SFT)์ด ์ต์ ์ ์๋
- ์คํ๋ ค ํ๋ฆฌ๊ฑฐ๋ ๋ถ์์ ํ ๋ต์์ ๋ณด๊ณ , ์ด๋๊ฐ ์ ๋ฌธ์ ์ธ์ง ๋ถ์ํ๊ฒ ๋ง๋๋ ํ์ต์ด ๋ ๊ฐํ ์ ํธ๊ฐ ๋ ์ ์์
- CFT๋ ๊ธฐ์กด SFT์ ๋น๊ตํด์ ํฅ์๋ accuracy๋ฅผ ๋ฌ์ฑํ์ง๋ง, ์ถ๊ฐ์ ์ผ๋ก data efficiency, compute efficiency ์ธก๋ฉด์์๋ ์ด์ ์ ๋ฌ์ฑํจ
- Critique์ ์์ฑํ๋ teacher ๋ชจ๋ธ์ ํ์ง์ ์ฑ๋ฅ์ด ์ข์ฐ๋๋๊ฒ์ ๊ฐ์ ๋ ์ฌ์ง๊ฐ ์์














