EvoLM: In Search of Lost Language Model Training Dynamics
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ง์คํนํ ์ดํ | ์ด๋ฒ์ฃผ์ ์๊ฐ๋๋ ๋ค๋ฅธ ๋ ผ๋ฌธ๊ณผ ๋น์ทํ ๊ฒ ๊ฐ์. ์ธ์ , ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ์ปค๋ฆฌํ๋ผ ๋ฌ๋ ๋ฑ์์ ์ด๋ฏธ ๋์๋ ์์ด๋์ด์ง๋ง, ๊ทธ๊ฒ์ ์ด๋ก ์ ์ผ๋ก, ๋ถ์์ ์ผ๋ก ํ์ธํ๋ ์ฐ๊ตฌ๋ ๋์์ด ๋๋ค๊ณ ์๊ฐํจ. ๋ฐ์ดํฐ๋ ๋ฌดํํ์ง ์๊ณ , ์ข์ ๋ฐ์ดํฐ๋ ๋ง์ ์์ด ์กด์ฌํ์ง ์์. ๊ทธ๋ฌ๋ฏ๋ก, ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ด๋ป๊ฒ ํ์ตํ ๊น ๊ณ ๋ฏผํ๋ ๊ฒ์ด ๋ค์ ์์ ๋ผ๊ณ ์๊ฐํ๋๋ฐ, ๊ทธ ๋ฐฉํฅ์ฑ์ ์์ด ๋์์ด ๋ ์ ์๋ ๋ ผ๋ฌธ ๊ฐ๋๋ผ๊ณ ์๊ฐํจ. | 4.2 |
| ๊ทค | ์์ฆ ์ฐ๊ตฌ ํ๋ฆ์ด ๋จ์ํ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๊ฒ ๋ฟ์ด ์๋๋ผ ๊ฐ์ ์ฑ๋ฅ์ ๋ ์ ์ ์์์ผ๋ก ํจ์จ์ ์ผ๋ก ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ด์ ์ด ์ ์ ์ฎ๊ฒจ๊ฐ๋ ๋ฏ ์ถ์. ๊ทธ๋ฆฌ๊ณ ํ๋ จ ์์ฒด๋ฅผ ์ด๋ป๊ฒ ์ค๊ณํด์ผ ํจ์จ์ ์ธ๊ฐ๋ฅผ ์ค์ ์ผ๋ก ์๊ฐํด๋ณด๋ฉด ์ข์๋ฏ | 4 |
| ๋๊น์ค | ๋ค์ํ ๋ฐฉ์(pre-training, CPT, SFT, RL) ๋ณ๋ก ์ค์ผ์ผ๋ง์ด ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํด์ ์ฐธ๊ณ ํด์ ๋ณด๊ธฐ ์ข์ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ. ์ต์ ์ ์ค์ผ์ผ๋ง์ ์ฐพ๋๊ฒ ์ฌํด ๋์ธ์ธ๊ฐ? | 3.9 |
| ์๋ฉด์ฅ์ | motivation๋ง ๋ดค์ ๋์๋ ๋น์ฐํ ์๋ฆฌ๋ค์ ๋์ด์ด์์ง๋ง, ์คํ ๋ด์ฉ ๋ฐ contribution์ ๋ณด๋ ์ ๋ง ๋๊ตฐ๊ฐ๋ ์ง์์ ํ์ด์ผ (LLM ๋ถ์ด ์ผ๊ธฐ ์์ํ ๋ ์ฏค) ํ๋ ์ฐ๊ตฌ์ด์, ์ ๋ง NIPS๋ค์ด ์ฐ๊ตฌ์ธ ๊ฒ ๊ฐ๋ค! | 4 |
| ์ด์ดํฐ | ์์ผ ๋ถ์ ์คํ ์ด๋ฐ ๊ฑธ ์ค์ฌ์ผ๋ก ๋ ผ๋ฌธ์ฐ๋ ค๋ฉด ์ ๋ง ๋ง์ด ์คํํด์ผ๋๋๊ตฌ๋ ์ถ๋ค. ํ๋ จ ๋จ๊ณ๋ณ ํน์ฑ๊ณผ ์ฑ๋ฅ ๋์ด์ฌ๋ฆฌ๋ ์ค์ ์ ๋ง์ด ์๋ ค์ค์, ๋ชจ๋ธ ํ์ธํ๋ ์คํํ ๋ ์ค์ฉ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ด๋ณด์ธ๋ค | 3.9 |
| ์ฌ๊ณผ | Motivation ์์ฒด๋ ๋น์ฐํ ๊ฒฐ๋ก ์ด๋ผ๊ณ ํ ์ ์์ง๋ง, ์ด๊ฑธ ํ๋ํ๋ ์กฐ๊ฑด์ ๋ณํ์์ผ ๊ฐ๋ฉด์ ์ค์ผ์ผ๋ง์ ํ ์ ์ด ์๋ฏธ๊ฐ ์๋ ๋ ผ๋ฌธ์. ์คํ์ ํจ์จ์ ์ผ๋ก ์งํํ๊ธฐ ์ํด Saturation๋๋ peak์ง์ ๊น์ง ํ์ต์ ํด์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ถ๋ถ์ ๋ง์ ์ฐธ๊ณ ๊ฐ ๋ ์ ์์ ๊ฒ ๊ฐ์. | 3.7 |
| 7์ผ | ์ temporal dependence ๋ ผ๋ฌธ์ ํ๋์ ํ์ดํ๋ผ์ธ์์ ๋ฐ์ดํฐ๊ฐ ์ธ์ ํ์ต๋๋์ง๋ฅผ ๋ดค๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ ์ฌ๋ฌ ํ์ดํ๋ผ์ธ ์์ฒด๋ฅผ ๋น๊ตํ ๋๋. SFT๋ ๋๋ฉ์ธ ์ ์์ด ์ค์ฌ์ด๋๊ณ , RL์ ์ถ๋ ฅ์ ์์ ์ฑ์ ๊ณ ๋ คํ ๋ ํ์ฉํ๋ค๋ ์คํ์ ์ธ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ ์ ์๋ค | 4.3 |
TL; DR
Language Model์ ์ฑ๋ฅ์ด ์ผ๋ง๋ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก ์ค๋ ํ์ตํ๋๊ฐ๋ณด๋ค ์ด๋ค ๋จ๊ณ์์ ์ด๋ป๊ฒ, ์ธ์ ํ์ตํ๋๊ฐ๊ฐ ๋ ์ค์ํ๋ฉฐ CPT(Continued Pre-Training)๊ฐ ์ง๋ ํ์ต ๋ฐ ๊ฐํ ํ์ต์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ค.
Summary
์ฐ๊ตฌํ: Harvard, Stanford, CMU, EPFL ์ฐ๊ตฌ์ง
Motivation
- ํ์ฌ์ ์ธ์ด ๋ชจ๋ธ(Lauguage Model)์ ํ์ต(Training) ๊ณผ์ ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋๋์ด์ ธ ์์ด ๊ฐ๊ฐ์ ๋จ๊ณ์์์ ์ํฅ์ ์๊ธฐ๊ฐ ์ด๋ ค์.
- Supervised Fine-tuning(SFT)์ Reinforcement Learning์ด ์ฝํ๋ฉด ๋์ฑ ๊ฒฐ๊ณผ๊ฐ ๋ณต์กํด์ง.
- ๋ชจ๋ธ์ ์ธ์ด ์์ฑ ์์ฒด์ ๋ฅ๋ ฅ๊ณผ Problem-Solving ๋ฅ๋ ฅ์ ๋ณ๊ฐ์ ๋ฌธ์ ๋ก์, downstream performance improvement๊ฐ ๋ถ๋๋ฝ์ง ์์.
- ๊ณผ๋ํ Pre-training๊ณผ Post-training์ ์กฐ์ ํ๊ณ , Continued Pre-training์ ํตํด forgetting์ ์ ์ดํ ์ ์์ด์ผ ํ๋ค๋ ๊ฒ์ด ์์ .
- ํฌ๋ช
ํ์ง ์์ ์ฒดํฌํฌ์ธํธ, ๋ชจ๋ธ ์กฐ๊ฑด์ผ๋ก ๊ณต์ ํ ๋น๊ต ์๋จ.
- ๊ธฐ์กด์ ๋ชจ๋ธ Training์์ Post-training ์ฐ๊ตฌ๋ฅผ ์งํํ ๋, ๋ชจ๋ธ ํฌ๊ธฐ, Pre-training ๋ฐ์ดํฐ ํฌ๊ธฐ, ๋ฐ์ดํฐ ๊ตฌ์ฑ์์๋ฅผ ์๊ฒฉํ๊ฒ ํต์ ํ์ง ์๋ ๋ฌธ์
- Incomplete learning rate decay๋ก ์ธํด ์ต์ ์ด ์๋ ์๋ ์๋ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ(checkpoint)๊ฐ ํ๊ฐ์ ์ด์ฉ๋์ด ๊ณต์ ํ ๋น๊ต๋ฅผ ๋ฐฉํดํ๋ ๋ฌธ์ ๋ฐ์.
Contribution
- ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ์ฒ์๋ถํฐ ๋๊น์ง ๋ถ์
- Pre-training๋ถํฐ Reinforcement Learning๊น์ง
- ์ธ์ด ๋ชจ๋ธ ์์ฒด์ ๋ฅ๋ ฅ(upstream task)์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ(downstream task)๋ฅผ ๋ชจ๋ ๋น๊ตํ๊ณ , in-domain๊ณผ out-of-domain์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋น๊ต
- ์ฒ์๋ถํฐ 1B, 4B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ก ํ์ตํ 100+ ์ธ์ด ๋ชจ๋ธ๊ณผ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐ
- Training Pipeline๊ณผ Evaluation Framework๋ฅผ ๊ณต๊ฐํ์ฌ ๋ชจ๋ธ์ ํ์ต ์กฐ๊ฑด๊ณผ ์ธ์ด, ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ์ ์ฐ๊ตฌ ๊ฐ๋ฅ
Experimental Settings
- Training Setup
- Pre-training ์ฌ์ฉ ๋ฐ์ดํฐ: FineWeb-Edu(๊ต์ก ์ค์ฌ ์น ๋ฐ์ดํฐ์ )
- Continued Pre-training ์ฌ์ฉ ๋ฐ์ดํฐ: Fine-Math(tngkr-cnfhs wndtla epdlxj)
- Supervised Fine-tuning ์ฌ์ฉ ๋ฐ์ดํฐ: GSM8K, MATH ๊ธฐ๋ฐ QA
- RL ์ฌ์ฉ ๋ฐ์ดํฐ: SFT์ ๋์ผํ๋ disjointํ๊ฒ ๊ตฌ์ฑ
- Evaluation Protocol
- Upstream Cloze Task (์ธ์ด ์์ฒด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ)
- ๋ํ ๋ฅ๋ ฅ์ ์ ์ธํ๊ณ ์์ํ ๋ค์ ํ ํฐ ์์ธก, ์์-์ถ๋ก ๊ธฐ๋ฐ ๋ฅ๋ ฅ ํ๊ฐ
- 0-shot accuracy ๋ฐฉ๋ฒ ์ฌ์ฉ, ํ๊ฐ ์ฑ๋ฅ์ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ณ์ฐ
- ๋ฐ์ดํฐ์ : HellaSwag, Winogrande, PIQA, OBQA, ARC-Easy, Challenge
- Downstream Cloze Task (์์ฑ ๊ธฐ๋ฐ ๋ฌธ์ ํด๊ฒฐ)
- ์ง๋ฌธ์ ์ดํดํ๊ณ ํด๊ฒฐ ๊ณผ์ ์ ์์ฑํ์ฌ ์ ๋ต ๋์ถ(๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ)
- ID(In-Domain): ์ํ ๋ฐ ์ถ๋ก ์ค์ฌ(GSM8K-Platinum, MATH)
- OOD(Out-of-Domain):
- CRUXEval: ์ฝ๋ ์ถ๋ก
- BGQA: ๋ ผ๋ฆฌ ์ถ๋ก
- TabMWP: ํ ์ด๋ธ ๊ธฐ๋ฐ ์ถ๋ก
- StrategyQA: ์์ยท์ ๋ต์ ์ถ๋ก
- ์ ํ๋ ํ๊ฐ ์งํ
- Pass@1 (Greedy)
- Temperature = 0
- ๋จ์ผ ์ ๋ต์ด ๋ง์ผ๋ฉด ์ ๋ต์ผ๋ก ๊ฐ์ฃผ
- Maj@16
- Temperature = 1
- 16๊ฐ ์ํ ์์ฑ
- ๋ค์๊ฒฐ ๊ฒฐ๊ณผ๋ก ์ ๋ต ํ๋จ
- RM@16
16๊ฐ ์ค ORM ์ ์๊ฐ ๊ฐ์ฅ ๋์ ์๋ต ์ ํ
ORM์ ์: Skywork-Reward-Llama-3.1-88-v0.2์์ ์ ์๋์์ผ๋ฉฐ ์์ฑ๋ ํด๋ต์ ๋ํด ์ค์นผ๋ผ ์ ์ ๋ถ์ฌํ์ฌ ์ ๋ต ์ฌ๋ถ๋ฟ ์๋๋ผ ํ์ด์ ์ผ๊ด์ฑ ๋ฐ์
- Pass@16
16๊ฐ ์ค ํ๋๋ผ๋ ๋ง์ผ๋ฉด ์ฑ๊ณต
- Pass@1 (Greedy)
- Upstream Cloze Task (์ธ์ด ์์ฒด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ)
Scaling Studies Across Three Training Stages (Methods)
Scaling Up Pre-Training Compute
- Pre-training์ ์์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฏธ์น๋ ์ํฅ์ ์์๋ณด๊ธฐ ์ํ์ฌ 0.5B, 1B, 4B๋ชจ๋ธ๋ก token์ ์์ 10B๋ถํฐ 320B token๊น์ง pre-trainํจ.
- ์ฒ์์๋ ์ ์ฐจ ๋น๋กํ์ฌ ์ฆ๊ฐํ๋ค๊ฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ 80๋ฐฐ์์ 160๋ฐฐ๊ฐ ๋๋ ์์ ์์ Accuracy์ ์ฆ๊ฐํญ์ด ์ ์ฐจ ๊ฐ์
- SFT ๋ชจ๋ธ๊ณผ SFT-RL ๋ชจ๋ธ์ ๋ชจ๋ ๋น๊ตํ์์ ๋, 80B Token๊น์ง๋ ๋๋ ทํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ค๊ฐ ๊ทธ ์ดํ์๋ ๋๋ ทํ ๋ณํ ์์
- ID Maj @ 16์ ๊ฒฝ์ฐ 20BT๊น์ง 8%์์ 15%๋ก ๊ธ๊ฒฉํ๊ฒ ์์นํ๋ค๊ฐ ์ดํ 320BT๊น์ง 17%๋ก ํฐ ๋ณํ ์์
- ์ ์ฒด์ ์ผ๋ก Reinforcement Learning (RL)์ ์ถ๊ฐํ์์ ๋, ์ถ๊ฐํ์ง ์์ ๊ฒฝ์ฐ๋ณด๋ค ์ฑ๋ฅ์ด ๋์ง๋ง ์ด ๊ฒฝ์ฐ ์ญ์๋ 80BT ์ดํ์ ๋๋ ทํ ์์น์ ๋ณด์ด์ง ๋ชปํจ
- Out-of-Domain (OOD)์ ๊ฒฝ์ฐ์๋ 160B Token ์ดํ์ ์คํ๋ ค Accuracy๊ฐ ๊ฐ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์
- Degradation์ ์ผ์ผ์ผ ์คํ๋ ค ์์ฑ ํ์ง์ด ๋จ์ด์ง
โ ๊ฒฐ๋ก : General Model Pre-training์ด ๊ณผ๋ํ๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ฉฐ, ํญ์ ๋ง์ Pre-training์ด ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๊ฒ์ ์๋
Scaling Up Continued Pre-training (CPT)
160B Token์ผ๋ก Pre-trained๋ 1B Model์ Continued Pre-training์ ํ์ง ์๋ ๊ฒฝ์ฐ๋ถํฐ 50B Token์ผ๋ก Pre-trainํ๋ ๊ฒฝ์ฐ๊น์ง ๋น๊ต
- Continued Pre-training (CPT)๋ฅผ ๊ฑฐ๋ญํ ์๋ก Upstream Task (์ผ๋ฐ ์ธ์ด ์ฑ๋ฅ)์ ๊ฐ์ํจ(Catastrophic Forgetting)
- ๋ฌธ์ ํด๊ฒฐ์ ์ํด Replay ์ ๋ต์ ์ฌ์ฉ
- ์๋์ Pre-training data๋ฅผ ๋๋คํ๊ฒ ์์ด์ ์ฌ์ฉ
- 8B Token๋งํผ Replayํ์ ๋๊ฐ ํ์ง ์์์ ๋๋ณด๋ค ์ ์ฒด์ ์ผ๋ก ์ฑ๋ฅ์ด ๋์์ ๋ณด์ฌ์ค
- Downstream Task์์๋ CPT Budget์ด ์ฆ๊ฐํ ์๋ก In distribution (ID)์ Out-of-distribution (OOD)์์ ๋ชจ๋ 2B์์ 32B Token๊น์ง๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์์น
- 32B์ดํ์๋ CPT์ ์ฑ๋ฅ ํฅ์ ํจ๊ณผ๊ฐ ์ ํ์ ์
โ๊ฒฐ๋ก : Domain ํนํ Post-training์ ์ถฉ๋ถํ CPT์ ์ํด ๋ท๋ฐ์นจ ๋์ด์ผ ์ํ๋ ์ฑ๋ฅ์ ์ป์ ์ ์์ผ๋ฉฐ, CPT ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ID(In-distribution)๊ณผ OOD(Out-of-distribution) ๋ชจ๋์์ ์ด์ต์ ์ป์ ์ ์์
Scaling Up Supervised-Fine-Tuning (SFT)
SFT๊ฐ Training ๋ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์์๋ณด๊ธฐ ์ํด Epoch๊ณผ Dataset size๋ฅผ ๋ณํ
- Epoch
- 1, 2, 4, 8, 16, 32 epoch์ผ๋ก ๊ฐ๊ฐ trainingํ์์ ๋, ID(In-distribution) metric์ด ๊พธ์คํ๊ฒ ์ฆ๊ฐํ๋ ์ถ์ธ๋ฅผ ๋ณด์ด๋ค๊ฐ 8 epochs ๊ทผ์ฒ์์ ์ ์ฒด๋จ
- OOD์ ๊ฒฝ์ฐ 2-4 epochs์์ peak์๋ค๊ฐ ๊ฐ์ํ๋ ๊ฒ์ผ๋ก ๋ณด์์ ๋, over-specialization์ด ์ผ๋ฐํ ์ฑ๋ฅ์ ํด์นจ์ ์ ์ ์์
- 3 Epochs์์์ SFT๊ฐ ๊ฐ์ฅ ์ ํฉํจ์ ๋ณด์ฌ์ฃผ๊ณ ์์ผ๋ฉฐ, ๊ณผ๋ํ SFT Epoch๋ก ์ธํด ๋ค์ Reinforcement Learning (RL)์ ์ด์ ์ ์ฌ๋ผ์ง๊ฒ ๋ง๋ฆ
- SFT ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ 50K, 100K, 150K, โฆ, 400K๊น์ง ๋๋ ค๋ณด๋ฉด์ ์คํ
- ID์ ์ฑ๋ฅ์ Dataset Example์ด ์ฆ๊ฐํ๋ฉด ๊ณ์ ์ฆ๊ฐํ๋ ์์
- OOD์ ์ฑ๋ฅ์ ๋ค์ญ๋ ์ญํ๊ณ ์ฌ์ง์ด ํ๊ฐํ๋ ๊ฒฝ์ฐ๋ ์์์
- ํ์ Reinforcement Learning (RL) ๋จ๊ณ์์์ ์ฑ๋ฅ ํฅ์์ ์ ์ฝ์ด ๋ ์๋ ์๋ ์ฌํญ์
Scaling Up Reinforcement Learning (RL)
RL Epochs์ RL Dataset Size๋ฅผ ๋ณํ์์ผฐ์ ๋์ Accuracy์ ๋ณํ๋ฅผ ์์๋ด
- RL Epoch์ ๋ณํ
Greedy, Maj@16 , RM@16 ์ฑ๋ฅ์ 8โ16 epoch์์ peak ํ ์ ์ฒด
- Correct Ratio@16โepoch๊ฐ ๋์ด๋ ์๋ก ๊ณ์ ์ฆ๊ฐ
- Pass@16โ4 epoch ์ดํ ๊ธ๊ฒฉํ ๊ฐ์
- RL์ epoch์ด ๊ณผ๋ํ๊ฒ ๋์ด๋ ์๋ก ์ถ๋ ฅ ๋ค์์ฑ์ ๊ฐ์์ํค๊ณ , 1-2๊ฐ์ ์ ๋ต๋ง ๊ณ์ ์์ฑํ๊ฒ๋จ
- Maj @16 vs Greedy
- SFT-only ๋ชจ๋ธ์ Maj@16์ด Greedy๋ณด๋ค ์ฑ๋ฅ์ด ์ ์กฐํ ๊ฒฝ์ฐ๊ฐ ์์
- RL์ ์ ์ฉํ ๋ชจ๋ ๊ฒฝ์ฐ์์ Maj@16์ด Greedy๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ
- RL Dataset Size์ ๋ณํ
- RL Epoch์ 8๋ก ๊ณ ์ ํ๊ณ , ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ 0๋ถํฐ 400K๊น์ง ์กฐ์ ํด ๊ฐ๋ฉฐ ๊ด์ฐฐ
- ID์ OOD ๋ชจ๋์์ Accuracy๊ฐ 150-200K๊น์ง ์ฆ๊ฐํ๋ค๊ฐ ์ ์ฒด
- Pass@K๋ ์คํ๋ ค ์ผ์ฐ ์ ์ฒด๋๊ณ ํ๋ฝํ๊ธฐ๊น์ง ํจ
- Pass@K: ์ฌ๋ฌ ์ํ ์ค ํ๋๋ผ๋ ์ ๋ต์ด ์์ผ๋ฉด ๋ง๋ ๊ฒ์ผ๋ก ์ธ์ , ์ถ๋ ฅ์ ๋ค์์ฑ์ด ์ค์
- RL ๋ฐ์ดํฐ๊ฐ ๋ง์์ง์๋ก ๋ค์์ฑ์ด ๊ฐ์ํ์ฌ ๊ฐ์ ๋ต๋ง ๊ณ์ ๋ด๋๊ฒ ๋จ
- ์๋ก์ด ๋ฌธ์ ๋ฅผ ๋งํ๋ ๋ฅ๋ ฅ์ด ์ฆ๊ฐํ๋ ๊ฒ์ด ์๋, ์ด๋ฏธ ๋งํ ์ ์์ ๋งํ ๋ฌธ์ ๋ฅผ ๋ ์ ํํ๊ฒ ๋งํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ๋๋ ๊ฒ
SFT์ RL์ ๋ฐ์ดํฐ ๋ถํ
500K ๋ฐ์ดํฐ ์ค ๋๋ค์ผ๋ก ์ถ์ถํ 100K์ ๋ฐ์ดํฐ๋ฅผ (10 / 90, 30 / 70, 50 / 50, 70 / 30, 90 / 10)๋น์จ๋ก ๋๋
100K๊ฐ peak๋ก ์ฑ๋ฅ ์ ์ฒด๊ฐ ์์๋๋ ์์ ์ด๋ฏ๋ก ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ 100K๋ก ์ ํ
OOD ์ฑ๋ฅ์ ๊ฒฝ์ฐ SFT๊ฐ 70K์ผ ๋, ๊ฐ์๊ธฐ ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์์. ์ด์ SFT๋ณด๋ค๋ RL์ ๋น์ค์ด ์ค์ํ๊ณ , RL์ด 90K์ธ ์์ ์์ OOD์ ์ฑ๋ฅ์ ๊ฐ์ฅ ์ฐ์โOOD์ ์ฑ๋ฅ์ RL์ด ๊ฒฐ์
์ฌ๊ธฐ์๋ ID์ OOD์ ์ฑ๋ฅ์ด trade-off๊ด๊ณ์์ ์ ์ ์์
Conclusion
- ๋ฌด์กฐ๊ฑด ๋ชจ๋ธ ํ์ต์์ Scale์ ํค์ฐ๋ ๊ฒ๋ง์ด ์ ๋ต์ ์๋๋ค
- Token ์, SFT ๋ฐ์ดํฐ์ ํฌ๊ธฐ, RL์ ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ ์ฒ์์๋ ์ฆ๊ฐํ๋ ์ผ์ ์ง์ ์ดํ ์ ์ฒด
- ๊ณผ๋ํ ํ์ต์ ์ฑ๋ฅ ์ ์ฒด ๋ฐ ํ์ต ๋น์ฉ๋ง ์ฆ๊ฐ
- ์ฌ์ง์ด ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒฝ์ฐ๋ ์กด์ฌ
- Domain-specific Continued Pre-training (CPT)์ ํ์ํ์ง๋ง ์ ์ ํ๊ฒ ์ฌ์ฉํด์ผ ํจ
- CPT๋ Downstream(ํน์ task ๋ฌธ์ ํด๊ฒฐ) ์ฑ๋ฅ์ ํต์ฌ ๊ธฐ๋ฐ
- CPT๋ฅผ ๋ฌด๋ถ๋ณํ๊ฒ ๋๋ฆฌ๋ฉด Catastrophic Forgetting ๋ฐ์
- Replay ๋ฐ์ดํฐ์ ๊ท ํ
- SFT์ RL์ ์๋ก ๋ค๋ฅธ ์ญํ
- SFT: In-domain ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋, ๊ณผ๋ํ ๊ฒฝ์ฐ ์ผ๋ฐํ ์ฑ๋ฅ ์ ํ
- RL: ๊ธฐ์กด ์ ๋ต์ ๋ํ confidence๋ฅผ ๊ฐํํ๋ฉฐ, OOD์ ์ ๋ฆฌ
- RL์ด ๊ณผ๋ํ ๊ฒฝ์ฐ ์ถ๋ ฅ ๋ค์์ฑ ๊ฐ์, Pass@K ํ๋ฝ ๋ฑ ๋จ์










