Scaling Laws for Precision
๐ก์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐ ์ถ๋ก ์ ์ ๋ฐ๋(precision)๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ด๋ฅผ ์์ธกํ ์ ์๋ precision-aware scaling laws๋ฅผ ์ ์
Layer by Layer: Uncovering Hidden Representations in Language Models
๐กAutoregressive ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ์ธ์ด๋ชจ๋ธ์ ์ค๊ฐ layer ํํ์ด ๊ฐ์ฅ ํ๋ถํ๋ค!
How Do Large Language Monkeys Get Their Power (Laws)?
๐กLLM์ ๋ฐ๋ณต ์ํ๋ง ์ฑ๋ฅ์ด power law์ฒ๋ผ ๋ณด์ด๋ ์ด์ ๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ๋๋ฌธ์ด ์๋๋ค.๊ฐ ๋ฌธ์ ๋ ์ด๋ฏธ ์ง์์ ์ผ๋ก(exponentially) ํด๊ฒฐ๋๊ณ ์์ผ๋ฉฐ, ์์์ ๊ทน๋๋ก ์ด๋ ค์ด ๋ฌธ์ ๋ค์ด ๋๊น์ง ๋จ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฒด ํ๊ท ์ฑ๋ฅ์ด power law์ฒ๋ผ ๋ณด์ผ ๋ฟ์ด๋ค.โ power law๋ ๋ชจ๋ธ์ ๋ฒ์น์ด ์๋๋ผ, ๋ฌธ์ ๋์ด๋ ๋ถํฌ์ ๊ฒฐ๊ณผ๋ค.