Scaling Laws for Precision
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ง์คํนํ ์ดํ | ์ธ์ด ๋ชจ๋ธ ํ์ต ๊ณผ์ ์ ๋ํ ์ผ์ ์ดํดํ ํ์์ฑ์ ์๊ฐํ๊ฒ ํ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์. ํ์์ ๊ทธ๋ฅ ๋ฐ์ดํฐ ๊ด์ ์์, ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ์ฃผ๊ณ ์ด๋ค ํ๋ก์ธ์ค๋ก ํ์ต์ํฌ์ง๋ง ๊ณ ๋ฏผํ๋๋ฐ, ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ ํํด์ผ ํ๋ ํ์ต ๋ฐฉ๋ฒ๋ ๊ณ ๋ฏผํด์ผ๊ฒ ๋ค๋ ์๊ฐ์ ํ๊ฒ ํ ๋ ผ๋ฌธ. ์ด๋ ต์ง๋ง ์ข์๋ค. | 3.8 |
| ๋๊น์ค | ์ค์ผ์ผ๋ง ๊ด๋ จ ๋ ผ๋ฌธ์ ์ฒ์ ์ฝ์ด๋ดค๋๋ฐ ์ค์ ๋ก ์คํํ ๋, ์ ๋ฐ๋์ ๊ฐ์ ๋ค์ํ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ค์ ์ด๋ป๊ฒ ์ค์ ํ๋์ง๊ฐ ์ผ๋ง๋ ์ค์ํ์ง ๊นจ๋ซ๊ฒ ํด์ค ๋ ผ๋ฌธ | 3.8 |
| ๊ทค | ๋์ผํ ํ๋ผ๋ฏธํฐ์ ๋ชจ๋ธ์ด๋๋ผ๋, ํ๋ผ๋ฏธํฐ๊ฐ ์ผ๋ง๋ ์ ํจํ๊ฒ ์ฐ์ด๊ณ ์๋์ง ํ์ ํ๊ณ , ์ต๋ํ์ผ๋ก ์ฐ์ด๊ฒ๋? ํ๋๊ฒ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ ์ ์์๋ฏ. ๊ทธ๋ฆฌ๊ณ ์ฑ๋ฅ์ด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ์ ๋, ์ ๋ฐ๋๋ฅผ ๋ฎ์ท์ ๋์ ๋ชจ๋ธ๊ณผ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ธ ๋ชจ๋ธ์ด ํ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ญ๊ฐ ๋ค๋ฅธ์ง ๊ถ๊ธํจ. | 4.4 |
| ์๋ฉด์ฅ์ | ์ ๋ฆฌ๋ ๊ฑฐ ๋ดค๋๋ฐ๋ ์ด๋ ต๋ค ๊ทธ์น๋ง ํ์ Data-centricํ ๊ด์ ์ธ์ง๋ผ ์ฌ๋ฐ๊ฒ ์ฝ์์!! ๋น์ฐํ bit ์๊ฐ ๋์์๋ก ์ฑ๋ฅ์ด ์ข์๊ฑฐ๋ผ๊ณ ์๊ฐํ๋๋ฐ, โ์ธ๋ฐ์์ด ์ ๋ฐโํ ์ ์๋ค๋โฆ! ๋ถํ์ํ ๋ฐ์ดํฐ๋ง์ ๋ ํ์ตํด์ ๊ทธ๋ฐ ๊ฑฐ ์๋๊น์? ๋ฐ์ดํฐ ํน์ฑ์ ๋ฐ๋ผ ์ ๋ฐ๋๊ฐ dynamicํด์ง ์๋ ์์๊น์? | 4 |
| ์ด์ดํฐ | precision์ด ๋ฌด์์ ๋๊ธฐ๋ณด๋ค ์ ๋นํด์ผ ์ข๋ค๋๋ฐ, ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ์ด์์ ์ด๋ผ๋ฉด ๊ทธ๋๋ precision ๋์ ๊ฒ ๋ฌด์กฐ๊ฑด ์ข์ผ๋ ค๋? fp ์ค์ ๊ฑด๋๋ฆด ๋ ๋ฑ ์ค์ฉ์ ์ผ๋ก ํ์ฉํ ๋ด์ฉ์ด ๋ง์ ์ข๋ค | 3.8 |
| 7์ผ | ์ถ๋ก ํ ๋ ๋ ๋ฎ์ ์ ๋ฐ๋๋ก ์์ํ ํ๋ค๋ ์ฌ์ค์ ์ฒ์ ์์๋คโฆ๋ง์ ๋ ผ๋ฌธ๋ค์ด BF16์ผ๋ก ์คํํ๋๊ฑฐ๊ฐ์๋ฐ FP6, FP8์ด ์ต์ ์ ์ค์ ์ด๋ผ๋๊ฑธ ์คํ์ ์ผ๋ก ๋ณด์์ผ๋ก์จ ์ถํ ์คํํ ๋ ์จ๋จน์ ์ ์์๊ฑฐ๊ฐ์. | 4.2 |
| ์ฌ๊ณผ | ์ถ๋ก ํ ๋, ๋ฌด์กฐ๊ฑด ๋์ ์ ๋ฐ๋๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํด์ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋ ๊ฒ์ด ์๋์ ์ฆ๋ช ํ ๋ ผ๋ฌธ์ด๋ผ ์๋ฏธ๊ฐ ์๋ ๊ฒ ๊ฐ์. ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ๋์ ์ ๋ฐ๋๊ฐ ํ์ํ๊ธฐ๋ ํ๋, ์ ๋ฐํ ๊ฒ์ด ํญ์ ์ต์ ์ ๊ฒฐ๊ณผ๊ฐ ์๋์ด ํ์ธ๋จ์ผ๋ก์จ ์์ผ๋ก์ ์ฐ๊ตฌ๋ ์คํ์์ ๋ฎ์ ์ ๋ฐ๋๋ก๋ ์คํ์ด ํ์ํ ๊ฒ ๊ฐ์. | 4.7 |
Summary
์ ์:
cited: 81
TL; DR
์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐ ์ถ๋ก ์ ์ ๋ฐ๋(precision)๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ด๋ฅผ ์์ธกํ ์ ์๋ precision-aware scaling laws๋ฅผ ์ ์
Background
- ์ต๊ทผ LLM ์ฑ๋ฅ ํฅ์์ ์ฃผ๋ก ์ค์ผ์ผ๋ง(scaling) ์ ํตํด ์ด๋ฃจ์ด์ง
- ์ค์ผ์ผ๋ง: ๋ชจ๋ธ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์), ํ์ต ๋ฐ์ดํฐ ์ฆ๊ฐ
- ๊ธฐ์กด Scaling Law (e.g., Chinchilla, DeepMindโ22) ๋
- ๋ชจ๋ธ ํฌ๊ธฐ(๏ปฟ)
- ๋ฐ์ดํฐ ํฌ๊ธฐ(๏ปฟ)
๋ง์ ๊ณ ๋ คํ์ฌ ์ฑ๋ฅ์ ์์ธกํจ
- ํ์ง๋ง ํด๋น ๋
ผ๋ฌธ์์๋ ๋ชจ๋ธ์ ์ด๋ค ์ ๋ฐ๋(precision) ๋ก ํ์ตํ๊ณ ์ถ๋ก ํ๋๋๊ฐ ๋น์ฉ๊ณผ ์ฑ๋ฅ ๋ชจ๋์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ์ฃผ๋ชฉํจ!
- e.g., 16๋นํธ์์ 4๋นํธ๋ก ์ ๋ฐ๋๋ฅผ ์ค์ด๋ฉด ๊ทธ๋งํผ ๋น์ฉ๋ ์ค๊ณ ์๋๋ ๋นจ๋ผ์ง
- ์ค์ ์ต์ ๋ชจ๋ธ๋ค์ ์ถ์ธ๋ ์ค์ ๋ก FP32 โ FP16, BF16 โ FP8 โ FP4 ๋ก ์ ์ ๋ฐํ๊ฐ ์งํ ์ค
- โ Scaling Law ์์ ๋ชจ๋ธ, ๋ฐ์ดํฐ ๋ฟ ์๋๋ผ ์ ๋ฐ๋๋ ์ ๊ฒฝ์ฐ์!
Motivation
RQ1: ์ผ๋ง๋ ๋ฎ์ ์ ๋ฐ๋๊น์ง ๊ฐ๋ฅํ๊ฐ?RQ2: ๋์ผํ ์์ฐ์ด๋ฉด ์ด๋ค ์กฐํฉ์ด ์ต์ ์ผ๊น? (ํฐ ๋ชจ๋ธ + ๋ฎ์ ์ ๋ฐ๋ vs ์์ ๋ชจ๋ธ + ๋์ ์ ๋ฐ๋)RQ3: ํ์ตํ ๋์ ์ ๋ฐ๋์ ์ค์ ์ถ๋ก ์์์ ์ ๋ฐ๋์ ๊ด๊ณ๋?RQ4: ๋ฐ์ดํฐ๊ฐ ๋ง์ผ๋ฉด ์ ๋ฐ๋๋ฅผ ์ด๋ป๊ฒ ์กฐ์ ํด์ผ ํ ๊น?
Contribution
1. ํตํฉ ์ค์ผ์ผ๋ง ๋ฒ์น
- ์ต์ด๋ก ์ ๋ฐ๋๋ฅผ ์ค์ผ์ผ๋ง ๋ฒ์น์ ํตํฉ
- ํ์ต๊ณผ ์ถ๋ก ๋ชจ๋ ๊ณ ๋ ค
- 90% ์ด์ ์ ํ๋๋ก ์์ธก ๊ฐ๋ฅ
2. Effective Parameters (์ ํจ ํ๋ผ๋ฏธํฐ ์) ๊ฐ๋ ๋์
- ๋ฎ์ ์ ๋ฐ๋ = ํํ ๊ฐ๋ฅํ ์ ๋ณด๋ ๊ฐ์
- ์ด๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ค์ด๋ ๊ฒ๊ณผ ์ ์ฌํ ํจ๊ณผ
- e.g., 1B ํ๋ผ๋ฏธํฐ ร 8bit = 500M ํ๋ผ๋ฏธํฐ ร 16bit (๋์ด ๋์ผํ ํํ๋ ฅ!)
- ์ ๋ฐ๋ โ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ trade-off ์ ๋ํ
3. ๋ฎ์ ์ ๋ฐ๋ ํ์ต์ด ์คํ๋ ค compute-optimal์ผ ์ ์์์ ์ ์
- ์ค์ผ์ผ๋ง ๋ถ์ ๊ฒฐ๊ณผ
- ํฌ๋จธ์นํ ์ ๋ฐ๋: 16bit ํ์ต์ ๋ถํ์ํ๊ฒ ์ ๋ฐํจ
- ๋๋ฌด ๋ฎ์ ์ ๋ฐ๋: 4bit ์ดํ ํ์ต์ ํํ๋ ฅ ์์ค ๊ณผ๋
- โ ์คํ์ ์ผ๋ก 7~8 bit ์์ค์ด compute ๋๋น ์ฑ๋ฅ ์ต์ ํ์ ๊ฐ๊น์
Methods
ํต์ฌ: ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ๋ฉด ํ๋ผ๋ฏธํฐ๊ฐ ์ค์ด๋๋ ๊ฒ๊ณผ ๊ฐ๋ค!
์ฉ์ด
๏ปฟ: ํ ํฐ ๊ธฐ์ค ๋ฐ์ดํฐ์ ํฌ๊ธฐ
๏ปฟ: ํ๋ผ๋ฏธํฐ ๊ธฐ์ค ๋ชจ๋ธ ํฌ๊ธฐ
- ํ์ต ์ค(Training)์ ์ฌ์ฉํ๋
- ๏ปฟ: ๊ฐ์ค์น
- ๏ปฟ: ํ์ฑ ๊ฐ
- ๏ปฟ: ํค-๊ฐ ์บ์์ ๋นํธ ์ ๋ฐ๋
- ํ์ต ์ดํ(Inference) ์ฌ์ฉํ๋
- ๏ปฟ: ํ์ต์ด ๋๋ ๋ค, ์ถ๋ก ์ ์ํด ๊ฐ์ค์น๋ฅผ ์์ํํ ๋ ์ฌ์ฉํ๋ ์ ๋ฐ๋
- ํ์ต ์ค(Training)์ ์ฌ์ฉํ๋
1. Effective Parameters (์ ํจ ํ๋ผ๋ฏธํฐ ์)
- ๋ชจ๋ธ์ ๏ปฟ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง์ง๋ง, ์ ๋ฐ๋๊ฐ ๋ฎ์์ง์๋ก ์๋ก ๋ค๋ฅธ ๊ฐ๋ค์ด ๊ฐ์ ๊ฐ์ผ๋ก ์์ํ๋๊ณ ์ค์ ๋ก ๊ตฌ๋ณ ๊ฐ๋ฅํ ์์ ๋๊ฐ ๊ฐ์ํจ
- ์ฆ, ๋ฎ์ ์ ๋ฐ๋ = ์ผ๋ถ ํ๋ผ๋ฏธํฐ๊ฐ ๋นํ์ฑํ๋ ๊ฒ๊ณผ ๋์ผ
Effective Parameter ์ ์
๏ปฟ
- ๏ปฟ: ์ค์ ํ๋ผ๋ฏธํฐ ์
- ๏ปฟ: ์ ๋ฐ๋ (bit-width)
- ๏ปฟ: ์ ๋ฐ๋ ๋ฏผ๊ฐ๋ ์์ (precision sensitivity)
- ๋์ ์ ๋ฐ๋:
- ๏ปฟ
- ๏ปฟ (์ ํจ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ค์ ํ๋ผ๋ฏธํฐ ์์ ๊ฐ์)
- ๋ฎ์ ์ ๋ฐ๋
- ๏ปฟ๊ฐ ๋น ๋ฅด๊ฒ ๊ฐ์ โ ๋ชจ๋ธ ํํ๋ ฅ ๊ธ๊ฒฉํ ์ ํ
- e.g.,
- 1B @ 8bit โ ๏ปฟ
- 1B @ 4bit โ ๏ปฟ
- ๏ปฟ๊ฐ ๋น ๋ฅด๊ฒ ๊ฐ์ โ ๋ชจ๋ธ ํํ๋ ฅ ๊ธ๊ฒฉํ ์ ํ
โ ์ ๋ฐ๋ ๊ฐ์๋ ๋ชจ๋ธ ํฌ๊ธฐ ๊ฐ์์ ๋์ผํ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋ค
2. Training Scaling Law (Chinchilla ํ์ฅ)
- ๊ธฐ์กด Chinchilla Scaling Law
๏ปฟ
- ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ ๏ปฟ๊ณผ ๋ฐ์ดํฐ ํฌ๊ธฐ ๏ปฟ๋ก ๊ฒฐ์ ๋จ
- ๏ปฟ : ๋ชจ๋ธ ํฌ๊ธฐ ํ๊ณ๋ก ์ธํ ์์ค
- ๏ปฟ : ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํ ์์ค
- ๏ปฟ : ์ ๋ ์ค์ผ ์ ์๋ ์์ฌ ์์ค
- ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ ๏ปฟ๊ณผ ๋ฐ์ดํฐ ํฌ๊ธฐ ๏ปฟ๋ก ๊ฒฐ์ ๋จ
- ํ์ฅ Ver. : ์ค์ ์ฑ๋ฅ์ ์ค์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์๋๋ผ ์ ํจ ํ๋ผ๋ฏธํฐ ์์ ์ํด ๊ฒฐ์ ๋จ
๏ปฟ
- ๊ธฐ์กด Chinchilla ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ ๏ปฟ(์ ํจ ํ๋ผ๋ฏธํฐ) ๋ก ๋ณ๊ฒฝ
- ํ์ต ์ ๋ฐ๋ ๏ปฟ์ด ๋ฎ์์ง์๋ก
โ ๋ชจ๋ธ์ด ๋ด์ ์ ์๋ ์ ํจ ์ ๋ณด๋ ๊ฐ์
โ ๊ฒฐ๊ณผ์ ์ผ๋ก ๏ปฟ ๊ฐ ์์์ง ๊ฒ์ฒ๋ผ ๋์
3. Post-Training Quantization (PTQ) Degradation
- ์ค์ ํ๊ฒฝ์์ ๋๋ถ๋ถ ํ์ต์ ์๋์ ์ผ๋ก ๋์ ์ ๋ฐ๋, ์ถ๋ก ์ ๋ ๋ฎ์ ์ ๋ฐ๋๋ก ์์ํ ํจ!
- ์ด๋ ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ๋ฅผ ๏ปฟ ๋ก ์ ์ํจ
- ๏ปฟ : ํ์ต์ด ๋๋ ๋ชจ๋ธ์ ๋ ๋ฎ์ ์ ๋ฐ๋๋ก ์์ํํ์ ๋ ์ถ๊ฐ๋ก ๋ฐ์ํ๋ ์์ค(์ฑ๋ฅ ์ ํ)
๏ปฟ
- Gap: ๏ปฟ
โ Gap์ด ํด์๋ก ์์ํ๋ก ์ธํ ์ถ๊ฐ ์์ค ์ฆ๊ฐ (๏ปฟ โ)
- Overtraining: ๋ฐ์ดํฐ ๋๋น ๋ชจ๋ธ ํฌ๊ธฐ ๋น์จ (๏ปฟ)
- Overtraining์ด ์ฌํ ์๋ก ์ฆ, ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋นํด ๋๋ฌด ๋ง์ผ๋ฉด ๋ชจ๋ธ์ ๋ฏธ์ธํ ํจํด๊น์ง ํ์ต
- But, ์ถ๋ก ์ ๋ฐ๋๊ฐ ๋ฎ์ผ๋ฉด ๊ทธ ๋ฏธ์ธํ ํจํด์ด ์ ์ฅ๋์ง ๋ชปํจ
โ Overtraining์ด ์ฌํ ์๋ก (๏ปฟ โ)
- ๏ปฟ: ์ถ๋ก ์ ์ ๋ฐ๋
โ ์ถ๋ก ์ ๋ฐ๋๊ฐ ๋ฎ์์๋ก ํํ ๊ฐ๋ฅํ ์ ๋ณด๋์ด ์ค์ด ๏ปฟ โ
- Gap: ๏ปฟ
- ๏ปฟ : ํ์ต์ด ๋๋ ๋ชจ๋ธ์ ๋ ๋ฎ์ ์ ๋ฐ๋๋ก ์์ํํ์ ๋ ์ถ๊ฐ๋ก ๋ฐ์ํ๋ ์์ค(์ฑ๋ฅ ์ ํ)
- ๋ฎ์ ํ์ต ์ ๋ฐ๋ ๏ปฟ ํจ๊ณผ
- ํ์ต์ ๋ฎ์ ์ ๋ฐ๋๋ก ํ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ์ด๋ฏธ ํํ๋ ฅ์ด ์ ํ๋์ด ๋ฏธ์ธํ ํจํด์ ๋ ์์กดํ๊ฒ ๋จ
โ ํ์ต ์ ๋ฐ๋ ๏ปฟ ๊ฐ ๋ฎ์์๋ก ๏ปฟ ๋ก ์ธํ ์ถ๊ฐ ์์ค์ด ๋ํจ!
- ๋ฌด์กฐ๊ฑด ์ ์ ๋ฐ ํ์ต์ด ์ข๋ค๊ฐ ์๋๋ผ PTQ๋ก ์ธํ ์ถ๊ฐ ์์ค ๊ด์ ์์๋ ๋ ๋ฏผ๊ฐํ๋ค๋ ๋ป์ (์คํด ๊ธ์ง!)
- ํ์ต์ ๋ฎ์ ์ ๋ฐ๋๋ก ํ๋ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ์ด๋ฏธ ํํ๋ ฅ์ด ์ ํ๋์ด ๋ฏธ์ธํ ํจํด์ ๋ ์์กดํ๊ฒ ๋จ
4. ํตํฉ ์์ค ํจ์ (Unified Scaling Law)
๏ปฟ
- Training ํจ๊ณผ
- ๋ฎ์ ํ์ต ์ ๋ฐ๋โ ๏ปฟ ๊ฐ์ โ ํํ๋ ฅ ๊ฐ์ โ Loss ์ฆ๊ฐ
- Data ํจ๊ณผ
- ๋ฐ์ดํฐ ์ฆ๊ฐ โ ๊ธฐ์กด Scaling Law์ ๋์ผํ๊ฒ Loss ๊ฐ์
- PTQ ํจ๊ณผ
- ํ์ตโ์ถ๋ก ์ ๋ฐ๋ Gap
- Overtraining ์ ๋
- ์ถ๋ก ์ ๋ฐ๋ ์์ค
โ ์ถ๋ก ๋จ๊ณ์์ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ์ ํ ๋ฐ์
Experiments
Setup
- ๋ชจ๋ธ ํฌ๊ธฐ: 30M, 60M, 110M, 220M ํ๋ผ๋ฏธํฐ
- ๋ฐ์ดํฐ: Dolma V1.7 ๋ฐ์ดํฐ์ ์ 1.5B, 3.3B, 13.1B, 26.2B
- Precision Settings
- ํ์ต ์ ๋ฐ๋
- ๋ฒ์: 3โ16 bit
- ํ์: Integer / Floating-point (FP, BF ํฌํจ)
- ์ถ๋ก ์ ๋ฐ๋
- ํ์ต ์๋ฃ ํ Post-Training Quantization (PTQ) ์ ์ฉ
- ๋ฒ์: 2โ8 bit
- ํ์ต ์ ๋ฐ๋
- Evaluation Metrics
- Final Validation Loss
- ํ์ต ์ข ๋ฃ ํ ๊ฒ์ฆ ๋ฐ์ดํฐ ๊ธฐ์ค loss
- ๊ฐ์ด ๋ฎ์์๋ก ์ฑ๋ฅ ์ฐ์
- Quantization Degradation, ๏ปฟ
- ๋์ ์ ๋ฐ๋ ๋ชจ๋ธ ๋๋น ์์ํ๋ก ์ธํ ์ถ๊ฐ ์ฑ๋ฅ ์์ค
- Final Validation Loss
RQ1: ์ผ๋ง๋ ๋ฎ์ ์ ๋ฐ๋๊น์ง ๊ฐ๋ฅํ๊ฐ?RQ2: ๋์ผํ ์์ฐ์์ ์ด๋ค ์กฐํฉ์ด ์ต์ ์ผ๊น? (ํฐ ๋ชจ๋ธ + ๋ฎ์ ์ ๋ฐ๋ vs ์์ ๋ชจ๋ธ + ๋์ ์ ๋ฐ๋)- x์ถ: ํ์ต ์ ๋ฐ๋ + ํด๋น ์ ๋ฐ๋์์ ํ์ตํ ๋ชจ๋ธ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์)
- y์ถ: ํ์ต ์ข ๋ฃ ํ ์ต์ข ๊ฒ์ฆํ ์์ค ๊ฐ โ ๊ฐ์ด ๋ฎ์์๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ข์
- ๊ฒฐ๊ณผ
- FP6, FP8 ์ผ ๋ ์์ค์ด ๊ฐ์ฅ ์ ์
- โ ๋๋ฌด ๋ฎ์ ์ ๋ฐ๋(FP4)๋ ์ํด์ด๋ฏ๋ก compute-optimalํ ๊ตฌ๊ฐ์ ์ ๋ฐ๋(ํด๋น ์คํ์์๋ (FP6~FP8)๋ฅผ ์ฐพ์ ํ์ต ํ๋ ๊ฒ์ด ์ค์!

์ผ์ชฝ ๊ทธ๋ํ: ์ค์ผ์ผ๋ง ๋ฒ์น์ผ๋ก ์์ธกํ ๊ฒฐ๊ณผ (INT ๊ธฐ๋ฐ), ์ค๋ฅธ์ชฝ ๊ทธ๋ํ: ์ค์ ์ธก์ ๊ฐ (FP ๊ธฐ๋ฐ) - x์ถ: ๋์ผํ compute ๋น์ฉ์์ ๊ฐ๋ฅํ (์ ๋ฐ๋ + ๋ชจ๋ธ ํฌ๊ธฐ) ์กฐํฉ
- y์ถ: ์์ธก/์ต์ข ์์ค ๊ฐ โ ๊ฐ์ด ๋ฎ์์๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ข์
- ๊ฒฐ๊ณผ
- ๋์ผ compute budget์์ FP6๊ฐ ์ต์ ์ฑ๋ฅ์ ๋ฌ์ฑ
- 4bit๋ ๋ชจ๋ธ์ ํฌ๊ฒ ๋ง๋ค์ด๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ณ , 16bit ์ด์์ ๋ถํ์
- ์์ธก ๊ทธ๋ํ์ ์ค์ ๊ทธ๋ํ๊ฐ ์ ์ฌํจ
- 7-8 bit๊ฐ ์ค์ฉ์ ํํ์ ์ด๋ผ๊ณ ๋ณผ ์ ์์
- ์ธ์ฌ์ดํธ
- ์ ๋ฐ๋์ ์ต์ ๊ตฌ๊ฐ์ด ์กด์ฌํจ
- ๊ฐ์ ๋น์ฉ์ด๋ผ๋ฉด ์ค๊ฐ ์ ๋ฐ๋ + ์ถฉ๋ถํ ํฐ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋
- ์ค์ผ์ผ๋ง ๋ฒ์น ๊ธฐ๋ฐ ์์ธก์ด ์ค์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ ๋ง์ถค
RQ3: ํ์ตํ ๋์ ์ ๋ฐ๋์ ์ค์ ์ถ๋ก ์์์ ์ ๋ฐ๋์ ๊ด๊ณ๋?- ํ๋ จ์ ๋ฎ์ ์ ๋ฐ๋๋ก ํ์ ๋, ์ค์ ์ถ๋ก ์์๋ ๋ฎ์ ์ ๋ฐ๋๋ก ํ๋ฉด ์ํฅ์ด ์์๊น?
- ํ์ต ์ ๋ฐ๋ ๏ปฟ ์ ์ถ๋ก ์ ๋ฐ๋ ๏ปฟ ๊ฐ ์ถ๋ก ์ฑ๋ฅ ์ ํ ๏ปฟ ์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์ง๋ฅผ ๋จ์ผ ์ค์ผ์ผ๋ง ๋ฒ์น์ผ๋ก ์์ธกํ ์ ์๋์ง ๊ฒ์ฆ
- ์ผ์ชฝ ๊ทธ๋ํ
- ํต์ฌ ๊ฒฐ๊ณผ
- ๋๋ถ๋ถ ์ ๋ค์ด ๋นจ๊ฐ ์ ๊ทผ์ฒ (์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ด ์ ์ฒด์ ์ผ๋ก ์ ํ ๊ด๊ณ ์ ์ง)
โ ์ค์ผ์ผ๋ง ๋ฒ์น์ ํตํด ์ฑ๋ฅ ์ ํ๋ฅผ 90% ์ด์ ์ ํ๋๋ก ์์ธก ๊ฐ๋ฅใ
โ ์ค์ผ์ผ๋ง ๋ฒ์น ์ฑ๋ฅ ๊ตฟ!
- ๋๋ถ๋ถ ์ ๋ค์ด ๋นจ๊ฐ ์ ๊ทผ์ฒ (์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ด ์ ์ฒด์ ์ผ๋ก ์ ํ ๊ด๊ณ ์ ์ง)
- ํต์ฌ ๊ฒฐ๊ณผ
- ๊ฐ์ด๋ฐ ํจ๋(์ค์ ๊ฐ)
- ๏ปฟ ์ฆ, ๏ปฟ์ด ํด์๋ก ์ฑ๋ฅ์ด ํฌ๊ฒ ํ๋ฝํจ
- ์ค๋ฅธ์ชฝ ํจ๋(์์ธก๊ฐ)
- ์ ๋ถํฌ ํจํด์ด ์ค์ ํจ๋๊ณผ ๊ฑฐ์ ๋์ผ
- ์์ค์ด ์ปค์ง๋ ์์ญ๊ณผ ์์์ง๋ ์์ญ์ ๊ฒฝ๊ณ๊ฐ ์ผ์น
โ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์ค์ ํจํด์ ์ ํํ ์ฌํ โ ์คํ ์์ด๋ ์์ธก ๊ฐ๋ฅ
โ ๏ปฟ๏ปฟ ์ ์ฆ (๏ปฟ์ด ํด์๋ก ์์ค์ด ์ปค์ง๋ค)
RQ4: ๋ฐ์ดํฐ๊ฐ ๋ง์ผ๋ฉด ์ ๋ฐ๋๋ฅผ ์ด๋ป๊ฒ ์กฐ์ ํด์ผ ํ ๊น?- x์ถ: ํ์ต ์ ๋ฐ๋
- y์ถ: ํ์ต์ด ๋๋ ๋ค ๋ชจ๋ธ ์ต์ข ์ฑ๋ฅ (์์ค ๊ฐ์ด๋ฏ๋ก ๊ฐ์ด ๋ฎ์์๋ก ๋ ์ข์)
- ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ ๋ณ ์ ๋ฐ๋์ ์ฑ๋ฅ ๊ด๊ณ ๋น๊ต
- ํ์ต ๋ฐ์ดํฐ๊ฐ ์ปค์ง์๋ก, ํ์ต ์ ๋ฐ๋๋ฅผ ๋ฎ์ถฐ๋ ๊ด์ฐฎ์๊น?
- ์ผ์ชฝ ๊ทธ๋ํ๋ถํฐ ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ ์ค๋ฆ์ฐจ์(3.3B, 13.1B, 26.2B)
- Compute constraints ๋ก ์ธํด 26.2B์์๋ ๋ชจ๋ธ ์ฌ์ด์ฆ 30M, 110M์์๋ง ์คํํจ
- ๊ฒฐ๊ณผ
- 3.3B tokens โ ๏ปฟ ๊ฐ์ํ ๋ ์ฑ๋ฅ ์ ํ๋ ์๋ง
- 26.2B tokens โ ๏ปฟ 3 โ 4bit์์ loss๊ฐ ๊ธ์ฆ
โ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง์๋ก ๋ฎ์ ์ ๋ฐ๋์์์ ์ฑ๋ฅ ์ ํ๊ฐ ์ฌํด์ง
- ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ์ปค์ง์๋ก ์ ๋ฐ๋๊ฐ ๋ฎ์์ง์๋ก ์ฑ๋ฅ ์ ํ๊ฐ ์๋งํด์ง
โ ํฐ ๋ชจ๋ธ์ผ์๋ก ๋ฎ์ ์ ๋ฐ๋์ ๋ ์ทจ์ฝํจ




