07 January 2026

Scaling Laws for Precision

๐Ÿ’ก์–ธ์–ด ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐ ์ถ”๋ก  ์‹œ ์ •๋ฐ€๋„(precision)๊ฐ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์ด๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” precision-aware scaling laws๋ฅผ ์ œ์‹œ

์ด์Šนํ™˜
์ด์Šนํ™˜

Scaling Laws for Precision

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๋งˆ์Šคํ‚นํ…Œ์ดํ”„์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต ๊ณผ์ •์˜ ๋””ํ…Œ์ผ์„ ์ดํ•ดํ•  ํ•„์š”์„ฑ์„ ์ƒ๊ฐํ•˜๊ฒŒ ํ•œ ๋…ผ๋ฌธ์ธ ๊ฒƒ ๊ฐ™์Œ. ํ‰์†Œ์— ๊ทธ๋ƒฅ ๋ฐ์ดํ„ฐ ๊ด€์ ์—์„œ, ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๊ณ  ์–ด๋–ค ํ”„๋กœ์„ธ์Šค๋กœ ํ•™์Šต์‹œํ‚ฌ์ง€๋งŒ ๊ณ ๋ฏผํ–ˆ๋Š”๋ฐ, ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ์„ ํƒํ•ด์•ผ ํ•˜๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•๋„ ๊ณ ๋ฏผํ•ด์•ผ๊ฒ ๋‹ค๋Š” ์ƒ๊ฐ์„ ํ•˜๊ฒŒ ํ•œ ๋…ผ๋ฌธ. ์–ด๋ ต์ง€๋งŒ ์ข‹์•˜๋‹ค.3.8
๋™๊นŒ์Šค์Šค์ผ€์ผ๋ง ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ฒ˜์Œ ์ฝ์–ด๋ดค๋Š”๋ฐ ์‹ค์ œ๋กœ ์‹คํ—˜ํ•  ๋•Œ, ์ •๋ฐ€๋„์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•˜๋Š”์ง€๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€ ๊นจ๋‹ซ๊ฒŒ ํ•ด์ค€ ๋…ผ๋ฌธ3.8
๊ทค๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ชจ๋ธ์ด๋”๋ผ๋„, ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ํšจํ•˜๊ฒŒ ์“ฐ์ด๊ณ  ์žˆ๋Š”์ง€ ํŒŒ์•…ํ•˜๊ณ , ์ตœ๋Œ€ํ•œ์œผ๋กœ ์“ฐ์ด๊ฒŒ๋”? ํ•˜๋Š”๊ฒƒ์ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์„๋“ฏ. ๊ทธ๋ฆฌ๊ณ  ์„ฑ๋Šฅ์ด ๋™์ผํ•˜๋‹ค๊ณ  ๊ฐ€์ •ํ–ˆ์„ ๋•Œ, ์ •๋ฐ€๋„๋ฅผ ๋‚ฎ์ท„์„ ๋•Œ์˜ ๋ชจ๋ธ๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์ธ ๋ชจ๋ธ์ด ํ’€ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ญ๊ฐ€ ๋‹ค๋ฅธ์ง€ ๊ถ๊ธˆํ•จ.4.4
์ˆ˜๋ฉด์žฅ์• ์ •๋ฆฌ๋œ ๊ฑฐ ๋ดค๋Š”๋ฐ๋„ ์–ด๋ ต๋‹ค ๊ทธ์น˜๋งŒ ํ‰์†Œ Data-centricํ•œ ๊ด€์ ์ธ์ง€๋ผ ์žฌ๋ฐŒ๊ฒŒ ์ฝ์—ˆ์Œ!! ๋‹น์—ฐํžˆ bit ์ˆ˜๊ฐ€ ๋†’์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์„๊ฑฐ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ, โ€œ์“ธ๋ฐ์—†์ด ์ •๋ฐ€โ€ํ•  ์ˆ˜ ์žˆ๋‹ค๋‹ˆโ€ฆ! ๋ถˆํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ €๋„ ํ•™์Šตํ•ด์„œ ๊ทธ๋Ÿฐ ๊ฑฐ ์•„๋‹๊นŒ์š”? ๋ฐ์ดํ„ฐ ํŠน์„ฑ์— ๋”ฐ๋ผ ์ •๋ฐ€๋„๊ฐ€ dynamicํ•ด์งˆ ์ˆ˜๋Š” ์—†์„๊นŒ์š”? 4
์ด์–ดํฐprecision์ด ๋ฌด์ž‘์ • ๋†’๊ธฐ๋ณด๋‹ค ์ ๋‹นํ•ด์•ผ ์ข‹๋‹ค๋Š”๋ฐ, ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ์ด์ƒ์ ์ด๋ผ๋ฉด ๊ทธ๋ž˜๋„ precision ๋†’์€ ๊ฒŒ ๋ฌด์กฐ๊ฑด ์ข‹์œผ๋ ค๋‚˜? fp ์„ค์ • ๊ฑด๋“œ๋ฆด ๋•Œ ๋“ฑ ์‹ค์šฉ์ ์œผ๋กœ ํ™œ์šฉํ•  ๋‚ด์šฉ์ด ๋งŽ์•„ ์ข‹๋‹ค3.8
7์ผ์ถ”๋ก ํ•  ๋•Œ ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ์–‘์žํ™” ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์ฒ˜์Œ ์•Œ์•˜๋„คโ€ฆ๋งŽ์€ ๋…ผ๋ฌธ๋“ค์ด BF16์œผ๋กœ ์‹คํ—˜ํ•˜๋Š”๊ฑฐ๊ฐ™์€๋ฐ FP6, FP8์ด ์ตœ์ ์˜ ์„ค์ •์ด๋ผ๋Š”๊ฑธ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์ž„์œผ๋กœ์จ ์ถ”ํ›„ ์‹คํ—˜ํ•  ๋•Œ ์จ๋จน์„ ์ˆ˜ ์žˆ์„๊ฑฐ๊ฐ™์Œ.4.2
์‚ฌ๊ณผ์ถ”๋ก ํ•  ๋•Œ, ๋ฌด์กฐ๊ฑด ๋†’์€ ์ •๋ฐ€๋„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•ด์„œ ์ข‹์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒƒ์ด ์•„๋‹˜์„ ์ฆ๋ช…ํ•œ ๋…ผ๋ฌธ์ด๋ผ ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ๊ฒƒ ๊ฐ™์Œ. ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ๋†’์€ ์ •๋ฐ€๋„๊ฐ€ ํ•„์š”ํ•˜๊ธฐ๋Š” ํ•˜๋‚˜, ์ •๋ฐ€ํ•œ ๊ฒƒ์ด ํ•ญ์ƒ ์ตœ์ ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹˜์ด ํ™•์ธ๋จ์œผ๋กœ์จ ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ๋‚˜ ์‹คํ—˜์—์„œ ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ๋„ ์‹คํ—˜์ด ํ•„์š”ํ•  ๊ฒƒ ๊ฐ™์Œ.4.7

Summary

์ €์ž:

cited: 81

TL; DR

๐Ÿ’ก

์–ธ์–ด ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐ ์ถ”๋ก  ์‹œ ์ •๋ฐ€๋„(precision)๊ฐ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์ด๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” precision-aware scaling laws๋ฅผ ์ œ์‹œ

Background

  • ์ตœ๊ทผ LLM ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ฃผ๋กœ ์Šค์ผ€์ผ๋ง(scaling) ์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง
    • ์Šค์ผ€์ผ๋ง: ๋ชจ๋ธ ํฌ๊ธฐ(ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜), ํ•™์Šต ๋ฐ์ดํ„ฐ ์ฆ๊ฐ€
  • ๊ธฐ์กด Scaling Law (e.g., Chinchilla, DeepMindโ€™22) ๋Š”
    • ๋ชจ๋ธ ํฌ๊ธฐ(NN๏ปฟ)
    • ๋ฐ์ดํ„ฐ ํฌ๊ธฐ(DD๏ปฟ)

      ๋งŒ์„ ๊ณ ๋ คํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์˜ˆ์ธกํ•จ

  • ํ•˜์ง€๋งŒ ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋ธ์„ ์–ด๋–ค ์ •๋ฐ€๋„(precision) ๋กœ ํ•™์Šตํ•˜๊ณ  ์ถ”๋ก ํ•˜๋А๋ƒ๊ฐ€ ๋น„์šฉ๊ณผ ์„ฑ๋Šฅ ๋ชจ๋‘์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์— ์ฃผ๋ชฉํ•จ!
    • e.g., 16๋น„ํŠธ์—์„œ 4๋น„ํŠธ๋กœ ์ •๋ฐ€๋„๋ฅผ ์ค„์ด๋ฉด ๊ทธ๋งŒํผ ๋น„์šฉ๋„ ์ค„๊ณ  ์†๋„๋„ ๋นจ๋ผ์ง
  • ์‹ค์ œ ์ตœ์‹  ๋ชจ๋ธ๋“ค์˜ ์ถ”์„ธ๋Š” ์‹ค์ œ๋กœ FP32 โ†’ FP16, BF16 โ†’ FP8 โ†’ FP4 ๋กœ ์ €์ •๋ฐ€ํ™”๊ฐ€ ์ง„ํ–‰ ์ค‘
  • โ‡’ Scaling Law ์—์„œ ๋ชจ๋ธ, ๋ฐ์ดํ„ฐ ๋ฟ ์•„๋‹ˆ๋ผ ์ •๋ฐ€๋„๋„ ์‹ ๊ฒฝ์“ฐ์ž!

Motivation

RQ1: ์–ผ๋งˆ๋‚˜ ๋‚ฎ์€ ์ •๋ฐ€๋„๊นŒ์ง€ ๊ฐ€๋Šฅํ•œ๊ฐ€?
RQ2: ๋™์ผํ•œ ์˜ˆ์‚ฐ์ด๋ฉด ์–ด๋–ค ์กฐํ•ฉ์ด ์ตœ์„ ์ผ๊นŒ? (ํฐ ๋ชจ๋ธ + ๋‚ฎ์€ ์ •๋ฐ€๋„ vs ์ž‘์€ ๋ชจ๋ธ + ๋†’์€ ์ •๋ฐ€๋„)
RQ3: ํ•™์Šตํ•  ๋•Œ์˜ ์ •๋ฐ€๋„์™€ ์‹ค์ œ ์ถ”๋ก ์—์„œ์˜ ์ •๋ฐ€๋„์˜ ๊ด€๊ณ„๋Š”?
RQ4: ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด ์ •๋ฐ€๋„๋ฅผ ์–ด๋–ป๊ฒŒ ์กฐ์ •ํ•ด์•ผ ํ• ๊นŒ?

Contribution

1. ํ†ตํ•ฉ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™

  • ์ตœ์ดˆ๋กœ ์ •๋ฐ€๋„๋ฅผ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์— ํ†ตํ•ฉ
  • ํ•™์Šต๊ณผ ์ถ”๋ก  ๋ชจ๋‘ ๊ณ ๋ ค
  • 90% ์ด์ƒ ์ •ํ™•๋„๋กœ ์˜ˆ์ธก ๊ฐ€๋Šฅ

2. Effective Parameters (์œ ํšจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜) ๊ฐœ๋… ๋„์ž…

  • ๋‚ฎ์€ ์ •๋ฐ€๋„ = ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ ์ •๋ณด๋Ÿ‰ ๊ฐ์†Œ
  • ์ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ค„์–ด๋“  ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ํšจ๊ณผ
    • e.g., 1B ํŒŒ๋ผ๋ฏธํ„ฐ ร— 8bit = 500M ํŒŒ๋ผ๋ฏธํ„ฐ ร— 16bit (๋‘˜์ด ๋™์ผํ•œ ํ‘œํ˜„๋ ฅ!)
  • ์ •๋ฐ€๋„ โ†” ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ trade-off ์ •๋Ÿ‰ํ™”

3. ๋‚ฎ์€ ์ •๋ฐ€๋„ ํ•™์Šต์ด ์˜คํžˆ๋ ค compute-optimal์ผ ์ˆ˜ ์žˆ์Œ์„ ์ œ์‹œ

  • ์Šค์ผ€์ผ๋ง ๋ถ„์„ ๊ฒฐ๊ณผ
    • ํˆฌ๋จธ์น˜ํ•œ ์ •๋ฐ€๋„: 16bit ํ•™์Šต์€ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ์ •๋ฐ€ํ•จ
    • ๋„ˆ๋ฌด ๋‚ฎ์€ ์ •๋ฐ€๋„: 4bit ์ดํ•˜ ํ•™์Šต์€ ํ‘œํ˜„๋ ฅ ์†์‹ค ๊ณผ๋„
  • โ‡’ ์‹คํ—˜์ ์œผ๋กœ 7~8 bit ์ˆ˜์ค€์ด compute ๋Œ€๋น„ ์„ฑ๋Šฅ ์ตœ์ ํ™”์— ๊ฐ€๊นŒ์›€

Methods

ํ•ต์‹ฌ: ์ •๋ฐ€๋„๋ฅผ ๋‚ฎ์ถ”๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ค„์–ด๋“œ๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค!

  • ์šฉ์–ด

    DD๏ปฟ: ํ† ํฐ ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ

    NN๏ปฟ: ํŒŒ๋ผ๋ฏธํ„ฐ ๊ธฐ์ค€ ๋ชจ๋ธ ํฌ๊ธฐ

    • ํ•™์Šต ์ค‘(Training)์— ์‚ฌ์šฉํ•˜๋Š”
      • PwP_w๏ปฟ: ๊ฐ€์ค‘์น˜
      • PaP_a๏ปฟ: ํ™œ์„ฑ ๊ฐ’
      • PkvP_{kv}๏ปฟ: ํ‚ค-๊ฐ’ ์บ์‹œ์˜ ๋น„ํŠธ ์ •๋ฐ€๋„
    • ํ•™์Šต ์ดํ›„(Inference) ์‚ฌ์šฉํ•˜๋Š”
      • PpostP_{post}๏ปฟ: ํ•™์Šต์ด ๋๋‚œ ๋’ค, ์ถ”๋ก ์„ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์–‘์žํ™”ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์ •๋ฐ€๋„

1. Effective Parameters (์œ ํšจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜)

  • ๋ชจ๋ธ์€ NN๏ปฟ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€์ง€๋งŒ, ์ •๋ฐ€๋„๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ’๋“ค์ด ๊ฐ™์€ ๊ฐ’์œผ๋กœ ์–‘์žํ™”๋˜๊ณ  ์‹ค์ œ๋กœ ๊ตฌ๋ณ„ ๊ฐ€๋Šฅํ•œ ์ž์œ ๋„๊ฐ€ ๊ฐ์†Œํ•จ
    • ์ฆ‰, ๋‚ฎ์€ ์ •๋ฐ€๋„ = ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋น„ํ™œ์„ฑํ™”๋œ ๊ฒƒ๊ณผ ๋™์ผ

Effective Parameter ์ •์˜

Neff=Nโ‹…(1โˆ’eโˆ’P/ฮณ)N_{\text{eff}} = N \cdot (1 - e^{-P/\gamma})๏ปฟ

  • NN๏ปฟ: ์‹ค์ œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜
  • PP๏ปฟ: ์ •๋ฐ€๋„ (bit-width)
  • ฮณ\gamma๏ปฟ: ์ •๋ฐ€๋„ ๋ฏผ๊ฐ๋„ ์ƒ์ˆ˜ (precision sensitivity)

  • ๋†’์€ ์ •๋ฐ€๋„:
    • eโˆ’P/ฮณโ‰ˆ0e^{-P/\gamma} \approx 0๏ปฟ
    • Neffโ‰ˆNN_{\text{eff}} \approx N๏ปฟ (์œ ํšจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์‹ค์ œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ๊ฐ™์Œ)
  • ๋‚ฎ์€ ์ •๋ฐ€๋„
    • NeffN_{\text{eff}}๏ปฟ๊ฐ€ ๋น ๋ฅด๊ฒŒ ๊ฐ์†Œ โ†’ ๋ชจ๋ธ ํ‘œํ˜„๋ ฅ ๊ธ‰๊ฒฉํžˆ ์ œํ•œ
      • e.g.,
      • 1B @ 8bit โ†’ Neffโ‰ˆ800MN_{\text{eff}} \approx 800M๏ปฟ
      • 1B @ 4bit โ†’ Neffโ‰ˆ400MN_{\text{eff}} \approx 400M๏ปฟ

โ‡’ ์ •๋ฐ€๋„ ๊ฐ์†Œ๋Š” ๋ชจ๋ธ ํฌ๊ธฐ ๊ฐ์†Œ์™€ ๋™์ผํ•œ ํšจ๊ณผ๋ฅผ ๊ฐ€์ง„๋‹ค

2. Training Scaling Law (Chinchilla ํ™•์žฅ)

  • ๊ธฐ์กด Chinchilla Scaling Law

    L(N,D)=ANฮฑ+BDฮฒ+EL(N, D) = \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + E๏ปฟ

    • ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ๋ชจ๋ธ ํฌ๊ธฐ NN๏ปฟ๊ณผ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ DD๏ปฟ๋กœ ๊ฒฐ์ •๋จ
      • ANฮฑ\frac{A}{N^{\alpha}}๏ปฟ : ๋ชจ๋ธ ํฌ๊ธฐ ํ•œ๊ณ„๋กœ ์ธํ•œ ์†์‹ค
      • BDฮฒ\frac{B}{D^{\beta}}๏ปฟ : ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ธํ•œ ์†์‹ค
      • EE๏ปฟ : ์ ˆ๋Œ€ ์ค„์ผ ์ˆ˜ ์—†๋Š” ์ž”์—ฌ ์†์‹ค

  • ํ™•์žฅ Ver. : ์‹ค์ œ ์„ฑ๋Šฅ์€ ์‹ค์ œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ ์œ ํšจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์— ์˜ํ•ด ๊ฒฐ์ •๋จ

    L(N,D,Ptrain)=ANeffฮฑ+BDฮฒ+EL(N, D, P_{\text{train}}) = \frac{A}{N_{\text{eff}}^{\alpha}} + \frac{B}{D^{\beta}} + E๏ปฟ

    • ๊ธฐ์กด Chinchilla ๋ฐฉ์‹๊ณผ ๋‹ค๋ฅด๊ฒŒ Nโ†’NeffN โ†’ N_{eff}๏ปฟ(์œ ํšจ ํŒŒ๋ผ๋ฏธํ„ฐ) ๋กœ ๋ณ€๊ฒฝ
    • ํ•™์Šต ์ •๋ฐ€๋„ PtrainP_{\text{train}}๏ปฟ์ด ๋‚ฎ์•„์งˆ์ˆ˜๋ก

      โ†’ ๋ชจ๋ธ์ด ๋‹ด์„ ์ˆ˜ ์žˆ๋Š” ์œ ํšจ ์ •๋ณด๋Ÿ‰ ๊ฐ์†Œ

      โ‡’ ๊ฒฐ๊ณผ์ ์œผ๋กœ NeffN_{\text{eff}}๏ปฟ ๊ฐ€ ์ž‘์•„์ง„ ๊ฒƒ์ฒ˜๋Ÿผ ๋™์ž‘

3. Post-Training Quantization (PTQ) Degradation

  • ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋Œ€๋ถ€๋ถ„ ํ•™์Šต์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์€ ์ •๋ฐ€๋„, ์ถ”๋ก ์€ ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ์–‘์žํ™” ํ•จ!
  • ์ด๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ฮดPTQ\delta_{\text{PTQ}}๏ปฟ ๋กœ ์ •์˜ํ•จ
    • ฮดPTQ\delta_{\text{PTQ}}๏ปฟ : ํ•™์Šต์ด ๋๋‚œ ๋ชจ๋ธ์„ ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ์–‘์žํ™”ํ–ˆ์„ ๋•Œ ์ถ”๊ฐ€๋กœ ๋ฐœ์ƒํ•˜๋Š” ์†์‹ค(์„ฑ๋Šฅ ์ €ํ•˜)

      ฮดPTQ=f(Gap,Overtraining,Ppost)\delta_{\text{PTQ}} = f(\text{Gap}, \text{Overtraining}, P_{\text{post}})๏ปฟ

      1. Gap: Gap=Ptrainโˆ’Ppost\text{Gap} = P_{\text{train}} - P_{\text{post}}๏ปฟ

        โ‡’ Gap์ด ํด์ˆ˜๋ก ์–‘์žํ™”๋กœ ์ธํ•œ ์ถ”๊ฐ€ ์†์‹ค ์ฆ๊ฐ€ (ฮดPTQ\delta_{\text{PTQ}}๏ปฟ โ†‘)

      1. Overtraining: ๋ฐ์ดํ„ฐ ๋Œ€๋น„ ๋ชจ๋ธ ํฌ๊ธฐ ๋น„์œจ (D/ND/N๏ปฟ)
        • Overtraining์ด ์‹ฌํ• ์ˆ˜๋ก ์ฆ‰, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋น„ํ•ด ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด ๋ชจ๋ธ์€ ๋ฏธ์„ธํ•œ ํŒจํ„ด๊นŒ์ง€ ํ•™์Šต
        • But, ์ถ”๋ก  ์ •๋ฐ€๋„๊ฐ€ ๋‚ฎ์œผ๋ฉด ๊ทธ ๋ฏธ์„ธํ•œ ํŒจํ„ด์ด ์ €์žฅ๋˜์ง€ ๋ชปํ•จ

          โ‡’ Overtraining์ด ์‹ฌํ• ์ˆ˜๋ก (ฮดPTQ\delta_{\text{PTQ}}๏ปฟ โ†‘)

      1. PpostP_{\text{post}}๏ปฟ: ์ถ”๋ก  ์‹œ ์ •๋ฐ€๋„

        โ‡’ ์ถ”๋ก  ์ •๋ฐ€๋„๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ ์ •๋ณด๋Ÿ‰์ด ์ค„์–ด ฮดPTQ\delta_{\text{PTQ}}๏ปฟ โ†‘

  • ๋‚ฎ์€ ํ•™์Šต ์ •๋ฐ€๋„ PtrainP_{\text{train}}๏ปฟ ํšจ๊ณผ
    • ํ•™์Šต์„ ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ํ–ˆ๋˜ ๋ชจ๋ธ์€ ํ•™์Šต ๊ณผ์ •์—์„œ ์ด๋ฏธ ํ‘œํ˜„๋ ฅ์ด ์ œํ•œ๋˜์–ด ๋ฏธ์„ธํ•œ ํŒจํ„ด์„ ๋œ ์˜์กดํ•˜๊ฒŒ ๋จ

      โ‡’ ํ•™์Šต ์ •๋ฐ€๋„ PtrainP_{\text{train}}๏ปฟ ๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ฮดPTQ\delta_{\text{PTQ}}๏ปฟ ๋กœ ์ธํ•œ ์ถ”๊ฐ€ ์†์‹ค์ด ๋œํ•จ!

      • ๋ฌด์กฐ๊ฑด ์ €์ •๋ฐ€ ํ•™์Šต์ด ์ข‹๋‹ค๊ฐ€ ์•„๋‹ˆ๋ผ PTQ๋กœ ์ธํ•œ ์ถ”๊ฐ€ ์†์‹ค ๊ด€์ ์—์„œ๋Š” ๋œ ๋ฏผ๊ฐํ•˜๋‹ค๋Š” ๋œป์ž„ (์˜คํ•ด ๊ธˆ์ง€!)

4. ํ†ตํ•ฉ ์†์‹ค ํ•จ์ˆ˜ (Unified Scaling Law)

L(N,D,Ptrain,Ppost)=ANeffฮฑโŸTrainingย ํšจ๊ณผ+BDฮฒโŸDataย ํšจ๊ณผ+ฮดPTQโŸPTQย ํšจ๊ณผ+EL(N, D, P_{\text{train}}, P_{\text{post}}) = \underbrace{\frac{A}{N_{\text{eff}}^{\alpha}}}_{\text{Training ํšจ๊ณผ}} + \underbrace{\frac{B}{D^{\beta}}}_{\text{Data ํšจ๊ณผ}} + \underbrace{\delta_{\text{PTQ}}}_{\text{PTQ ํšจ๊ณผ}} + E๏ปฟ

  • Training ํšจ๊ณผ
    • ๋‚ฎ์€ ํ•™์Šต ์ •๋ฐ€๋„โ†’ NeffN_{\text{eff}}๏ปฟ ๊ฐ์†Œ โ†’ ํ‘œํ˜„๋ ฅ ๊ฐ์†Œ โ†’ Loss ์ฆ๊ฐ€
  • Data ํšจ๊ณผ
    • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ€ โ†’ ๊ธฐ์กด Scaling Law์™€ ๋™์ผํ•˜๊ฒŒ Loss ๊ฐ์†Œ
  • PTQ ํšจ๊ณผ
    • ํ•™์Šตโ€“์ถ”๋ก  ์ •๋ฐ€๋„ Gap
    • Overtraining ์ •๋„
    • ์ถ”๋ก  ์ •๋ฐ€๋„ ์ˆ˜์ค€

    โ†’ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ถ”๊ฐ€์ ์ธ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฐœ์ƒ

Experiments

Setup
  • ๋ชจ๋ธ ํฌ๊ธฐ: 30M, 60M, 110M, 220M ํŒŒ๋ผ๋ฏธํ„ฐ
  • ๋ฐ์ดํ„ฐ: Dolma V1.7 ๋ฐ์ดํ„ฐ์…‹์˜ 1.5B, 3.3B, 13.1B, 26.2B
  • Precision Settings
    • ํ•™์Šต ์ •๋ฐ€๋„
      • ๋ฒ”์œ„: 3โ€“16 bit
      • ํ˜•์‹: Integer / Floating-point (FP, BF ํฌํ•จ)
    • ์ถ”๋ก  ์ •๋ฐ€๋„
      • ํ•™์Šต ์™„๋ฃŒ ํ›„ Post-Training Quantization (PTQ) ์ ์šฉ
      • ๋ฒ”์œ„: 2โ€“8 bit
  • Evaluation Metrics
    • Final Validation Loss
      • ํ•™์Šต ์ข…๋ฃŒ ํ›„ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ ๊ธฐ์ค€ loss
      • ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ์„ฑ๋Šฅ ์šฐ์ˆ˜
    • Quantization Degradation, ฮดPTQ\delta_{PTQ}๏ปฟ
      • ๋†’์€ ์ •๋ฐ€๋„ ๋ชจ๋ธ ๋Œ€๋น„ ์–‘์žํ™”๋กœ ์ธํ•œ ์ถ”๊ฐ€ ์„ฑ๋Šฅ ์†์‹ค
  • RQ1: ์–ผ๋งˆ๋‚˜ ๋‚ฎ์€ ์ •๋ฐ€๋„๊นŒ์ง€ ๊ฐ€๋Šฅํ•œ๊ฐ€?
    RQ2: ๋™์ผํ•œ ์˜ˆ์‚ฐ์—์„œ ์–ด๋–ค ์กฐํ•ฉ์ด ์ตœ์„ ์ผ๊นŒ? (ํฐ ๋ชจ๋ธ + ๋‚ฎ์€ ์ •๋ฐ€๋„ vs ์ž‘์€ ๋ชจ๋ธ + ๋†’์€ ์ •๋ฐ€๋„)
    • x์ถ•: ํ•™์Šต ์ •๋ฐ€๋„ + ํ•ด๋‹น ์ •๋ฐ€๋„์—์„œ ํ•™์Šตํ•œ ๋ชจ๋ธ ํฌ๊ธฐ(ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜)
    • y์ถ•: ํ•™์Šต ์ข…๋ฃŒ ํ›„ ์ตœ์ข… ๊ฒ€์ฆํ•œ ์†์‹ค ๊ฐ’ โ‡’ ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์ข‹์Œ
    • ๊ฒฐ๊ณผ
      • FP6, FP8 ์ผ ๋•Œ ์†์‹ค์ด ๊ฐ€์žฅ ์ ์Œ
      • โ‡’ ๋„ˆ๋ฌด ๋‚ฎ์€ ์ •๋ฐ€๋„(FP4)๋Š” ์†ํ•ด์ด๋ฏ€๋กœ compute-optimalํ•œ ๊ตฌ๊ฐ„์˜ ์ •๋ฐ€๋„(ํ•ด๋‹น ์‹คํ—˜์—์„œ๋Š” (FP6~FP8)๋ฅผ ์ฐพ์•„ ํ•™์Šต ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”!
    ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„: ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์œผ๋กœ ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ (INT ๊ธฐ๋ฐ˜), ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„: ์‹ค์ œ ์ธก์ • ๊ฐ’ (FP ๊ธฐ๋ฐ˜)
    • x์ถ•: ๋™์ผํ•œ compute ๋น„์šฉ์—์„œ ๊ฐ€๋Šฅํ•œ (์ •๋ฐ€๋„ + ๋ชจ๋ธ ํฌ๊ธฐ) ์กฐํ•ฉ
    • y์ถ•: ์˜ˆ์ธก/์ตœ์ข… ์†์‹ค ๊ฐ’ โ‡’ ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์ข‹์Œ
    • ๊ฒฐ๊ณผ
      • ๋™์ผ compute budget์—์„œ FP6๊ฐ€ ์ตœ์  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ
      • 4bit๋Š” ๋ชจ๋ธ์„ ํฌ๊ฒŒ ๋งŒ๋“ค์–ด๋„ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ณ , 16bit ์ด์ƒ์€ ๋ถˆํ•„์š”
      • ์˜ˆ์ธก ๊ทธ๋ž˜ํ”„์™€ ์‹ค์ œ ๊ทธ๋ž˜ํ”„๊ฐ€ ์œ ์‚ฌํ•จ
      • 7-8 bit๊ฐ€ ์‹ค์šฉ์  ํ•˜ํ•œ์„ ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์ž‡์Œ
    • ์ธ์‚ฌ์ดํŠธ
      • ์ •๋ฐ€๋„์— ์ตœ์  ๊ตฌ๊ฐ„์ด ์กด์žฌํ•จ
      • ๊ฐ™์€ ๋น„์šฉ์ด๋ผ๋ฉด ์ค‘๊ฐ„ ์ •๋ฐ€๋„ + ์ถฉ๋ถ„ํžˆ ํฐ ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ƒ„
      • ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก์ด ์‹ค์ œ ํ•™์Šต ๊ฒฐ๊ณผ๋ฅผ ์ž˜ ๋งž์ถค
  • RQ3: ํ•™์Šตํ•  ๋•Œ์˜ ์ •๋ฐ€๋„์™€ ์‹ค์ œ ์ถ”๋ก ์—์„œ์˜ ์ •๋ฐ€๋„์˜ ๊ด€๊ณ„๋Š”?
    • ํ›ˆ๋ จ์„ ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ํ–ˆ์„ ๋•Œ, ์‹ค์ œ ์ถ”๋ก ์—์„œ๋„ ๋‚ฎ์€ ์ •๋ฐ€๋„๋กœ ํ•˜๋ฉด ์˜ํ–ฅ์ด ์žˆ์„๊นŒ?
    • ํ•™์Šต ์ •๋ฐ€๋„ PtrainP_{train}๏ปฟ ์™€ ์ถ”๋ก  ์ •๋ฐ€๋„ PpostP_{post}๏ปฟ ๊ฐ€ ์ถ”๋ก  ์„ฑ๋Šฅ ์ €ํ•˜ ฮดPTQฮด_{PTQ}๏ปฟ ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ•˜๋Š”์ง€๋ฅผ ๋‹จ์ผ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์œผ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ฒ€์ฆ
    • ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„
      • ํ•ต์‹ฌ ๊ฒฐ๊ณผ
        • ๋Œ€๋ถ€๋ถ„ ์ ๋“ค์ด ๋นจ๊ฐ„ ์„  ๊ทผ์ฒ˜ (์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์ด ์ „์ฒด์ ์œผ๋กœ ์„ ํ˜• ๊ด€๊ณ„ ์œ ์ง€)

          โ†’ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ํ†ตํ•ด ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ 90% ์ด์ƒ ์ •ํ™•๋„๋กœ ์˜ˆ์ธก ๊ฐ€๋Šฅใ…‹

        โ‡’ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ ์„ฑ๋Šฅ ๊ตฟ!

    • ๊ฐ€์šด๋ฐ ํŒจ๋„(์‹ค์ œ๊ฐ’)
      • Ptrainโˆ’PpostP_{train}-P_{post}๏ปฟ ์ฆ‰, GAPGAP๏ปฟ์ด ํด์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ•˜๋ฝํ•จ
    • ์˜ค๋ฅธ์ชฝ ํŒจ๋„(์˜ˆ์ธก๊ฐ’)
      • ์ƒ‰ ๋ถ„ํฌ ํŒจํ„ด์ด ์‹ค์ œ ํŒจ๋„๊ณผ ๊ฑฐ์˜ ๋™์ผ
      • ์†์‹ค์ด ์ปค์ง€๋Š” ์˜์—ญ๊ณผ ์ž‘์•„์ง€๋Š” ์˜์—ญ์˜ ๊ฒฝ๊ณ„๊ฐ€ ์ผ์น˜

      โ‡’ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ์‹ค์ œ ํŒจํ„ด์„ ์ •ํ™•ํžˆ ์žฌํ˜„ โ‡’ ์‹คํ—˜ ์—†์ด๋„ ์˜ˆ์ธก ๊ฐ€๋Šฅ

      โ‡’ GAPGAP๏ปฟฮดPTQ\delta_{\text{PTQ}}๏ปฟ ์ž…์ฆ (GAPGAP๏ปฟ์ด ํด์ˆ˜๋ก ์†์‹ค์ด ์ปค์ง„๋‹ค)

  • RQ4: ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด ์ •๋ฐ€๋„๋ฅผ ์–ด๋–ป๊ฒŒ ์กฐ์ •ํ•ด์•ผ ํ• ๊นŒ?
    • x์ถ•: ํ•™์Šต ์ •๋ฐ€๋„
    • y์ถ•: ํ•™์Šต์ด ๋๋‚œ ๋’ค ๋ชจ๋ธ ์ตœ์ข… ์„ฑ๋Šฅ (์†์‹ค ๊ฐ’์ด๋ฏ€๋กœ ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋” ์ข‹์Œ)
    • ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๋ณ„ ์ •๋ฐ€๋„์™€ ์„ฑ๋Šฅ ๊ด€๊ณ„ ๋น„๊ต
      • ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก, ํ•™์Šต ์ •๋ฐ€๋„๋ฅผ ๋‚ฎ์ถฐ๋„ ๊ดœ์ฐฎ์„๊นŒ?
      • ์™ผ์ชฝ ๊ทธ๋ž˜ํ”„๋ถ€ํ„ฐ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์˜ค๋ฆ„์ฐจ์ˆœ(3.3B, 13.1B, 26.2B)
        • Compute constraints ๋กœ ์ธํ•ด 26.2B์—์„œ๋Š” ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ 30M, 110M์—์„œ๋งŒ ์‹คํ—˜ํ•จ

    • ๊ฒฐ๊ณผ
      • 3.3B tokens โ‡’ PwP_w๏ปฟ ๊ฐ์†Œํ•  ๋•Œ ์„ฑ๋Šฅ ์•…ํ™”๋Š” ์™„๋งŒ
      • 26.2B tokens โ‡’ PwP_w๏ปฟ 3 โ†’ 4bit์—์„œ loss๊ฐ€ ๊ธ‰์ฆ

      โ‡’ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ๋‚ฎ์€ ์ •๋ฐ€๋„์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์‹ฌํ•ด์ง

      • ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์ •๋ฐ€๋„๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์™„๋งŒํ•ด์ง

      โ‡’ ํฐ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๋‚ฎ์€ ์ •๋ฐ€๋„์— ๋œ ์ทจ์•ฝํ•จ

Categories

research