How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋๋ฌผ | โข ๊ฐ์ : transformer์ ๋ธ๋๋ฐ์ค ๋์ ๊ตฌ์กฐ๋ฅผ ํด์๊ฐ๋ฅํ ํต๊ณ ๊ด๊ณ ๊ตฌ์กฐ๋ก ํํํด ์ด๋ก ์ ์ธ ๊ฐ์ค์ด ์ค์ ์ฑ๋ฅ์ ๊ทผ์ฌํ์ง ์คํ์ผ๋ก ํ์ธํจ. โข ์ฝ์ : ์ด๊ธฐ gradient ๊ตฌ์กฐ์ ํํด์๋ง ๋ถ์ํ๋ค๋ ์ . ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ํ์ ํ๋ ค๋ฉด leading term์ผ๋ก ์ ํ๋จ. ํ์ง๋ง ์ค์ transformer๋ ๋งค์ฐ ๋ณต์กํ ๊ตฌ์กฐ๊ธฐ ๋๋ฌธ์ ์ด๋ ๊ฒ ์คํํ ์ ๋ฐ์ ์์๋ ๊ฒ ๊ฐ์. (๊ทธ๋ผ์๋ ์ด๊ธฐ ๊ตฌ์กฐ๋ฅผ ์ ํ์ด๋ด์ด ํด์ํด๋ธ ๋ฏ) โข ๋ณด์์ : ์ด๊ธฐ gradient์ ํด์๋ง์ผ๋ก๋ ์ค์ ๊ตฌ์กฐ์ ๊ทผ์ฌํจ์ ํ์ธํ์ผ๋ฏ๋ก, full gradient์ ํด์๊น์ง ์ด๋์ด๋ธ๋ค๋ฉด, transformer ์ ์ฒด๋ฅผ ํด์ํ ์ ์์์ง๋.. | 3.3 |
| ํผ๋ | โข ๊ฐ์ : ํธ๋์คํฌ๋จธ์ self attention์์ ๋ํ๋๋ ํจํด์ ๋ํด ๋ถ์ํ๊ณ ์ด๊ฑธ ์ด๋ป๊ฒ ํ๋์ง์ ๋ํ ์ฐ๊ตฌ๋๊ธฐ๊ฐ ํํํจ. ๊ธฐ์กด ์ฐ๊ตฌ์ ๋นํด ํจ์ฌ ์ค์ ์ ๋น์ทํ ํ๊ฒฝ์์ ์คํ์ ์งํํจ โข ๋จ์ & ๋ณด์์ : ํ์ต ์ด๊ธฐ ๋จ๊ณ์์๋ง ๊ฐ๋ฅํ๋ค๊ณ ํ๋๋ฐ ์ข ๋ ํ์ต์ด ์งํ๋์ ๋์ ์คํ ๊ฒฐ๊ณผ๊ฐ ์์ผ๋ฉด ์ข์๋ฏ | 4.1 |
| ์์ผ๋ฉด์ ๋ณด์ | ์ฅ์ : ํธ๋์คํฌ๋จธ ํ์ต ๊ณผ์ ์ ์ํ ๋ฐ ์คํ์ ์ผ๋ก ์ ํด์ํด๋ธ๋ฏ. ํ ํฐ ๋จ์์์ ํ์ด๋ด๋ ์ฐ๊ตฌ๊ฐ ๊ฝค ๋ง์ด ๋์ค๋ ๊ฒ ๊ฐ์๋ฐ, ๊ทธ ๊ณ์ด์ ์ ์ด์ธ๋ฆฌ๋ ๋
ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ. ํ์ด๋ฐ์ด ์ข์ ์ฐ๊ตฌ ๋จ์ : ํ ํฐ์ ๋ณต์ก์ค, ์๋ฏธ์ ๋ณต์ก์ฑ, ์ง์ ํน์ด์ฑ ๋ฑ์ ๋ํ ๊ณ ๋ ค ์์ด ๋ฌถ์ด์ ์คํํ์ . ๋ณด์์ : ํ ํฐ์ ๋ ์ธ๋ถํํ๊ณ ๊ฒฝํฅ์ฑ ๋ถ์ํ๋ ๊ฒ์ด ์๋ฏธ์์ด๋ณด์ | 3.7 |
| thumbs-up | โข ์ฅ: transformer(์ฌ์ค์ ๋ชจ๋ LLM)์ gradient ๊ฒฝํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํจ. ํนํ basis function ์ ์กฐํฉ์ ํตํด ๋ชจ๋ธ์ ์๋ฏธ ์ต๋์ ํํค์นจ. โข ๋จ&๋ณด์: ์ ํ์ต ์ด๊ธฐ์๋ง ํ์๊น? ์ด์ฐจํผ ๋ช๋ฒ์ gradient descent๋ฅผ ์งํํ๋ฉด saturate๋๋ ๊ฑฐ ๊ฐ๊ธด ํ๋ฐ, ์คํ์ผ๋ก ํ๋ฒ ๋ ๋ณด์ฌ์คฌ์ผ๋ฉด ์ข์์๋ฏ! | 4.2 |
| ๋ ์๋ฆฌ์คํ์ | โข ๊ฐ์ : ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ก ํ์ต์ด ๋๋ ๋ค ๋ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํ๋ ๋ฐ ์ง์คํ๋ค๋ฉด, ์ด ๋
ผ๋ฌธ์ 'ํ์ต ์ค์ ์ผ์ด๋๋ ์์ฑ ์ค ์๋ฆฌ'๋ฅผ ๊ฑด๋๋ฆฌ๊ณ ์ ํจ โข ์ฝ์ : Closed-form ์ค๋ช ์ early-stage training์์ association์ด โ์ฒ์ ์ด๋ป๊ฒ ํ์ฑ๋๋์งโ๋ฅผ ์ค๋ช ํ๋ ๋ฐ ์ด์ ์ด ์์. ๊ทธ๋์ ํ์ต์ด ๊น์ด์ก์ ๋ ๊ฐ์ ์ค๋ช ๋ ฅ์ด ์ ์ง๋๋์ง๋ ๋ณ๊ฐ์ ๋ฌธ์ ์ธ๊ฑฐ๊ฐ๋ค โข ๋ณด์์ : ์ด ๋ ผ๋ฌธ์ token๊ฐ์ association์ ๋ค๋ฃจ๋๋ฐ, ์์ ์์ค reasoning ๋งค์ปค๋์ฆ์ผ๋ก๋ ํ์ฅ ๊ฐ๋ฅํด ๋ณด์ | 3.7 |
| ์์ง | โข ๊ฐ์ : ๊ธฐ์กด interpretability ์ฐ๊ตฌ๋ค์ด โ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฌด์์ด ํ์ต๋๋๊ฐโ๋ฅผ ๋ถ์ํ๋ค๋ฉด, ์ด ๋
ผ๋ฌธ์ โ์ด๋ป๊ฒ ํ์ต์ด ์์๋๋๊ฐโ๋ฅผ ์ํ์ ์ผ๋ก ์ด๋์ด๋. โข ์ฝ์ : Semantic association์ ์ฃผ๋ก co-occurrence๊ณผ ๊ฐ์ ๋จ์ ํต๊ณ๋ก ํด์ํ๋๋ฐ, ๋ณต์กํ reasoning์๋ ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ ์ ์์๊น ์๊ฐ์ด ๋ฆ. โข ๋ณด์์ : ํ์ต์ด ์งํ๋ ์๋ก high-order term์ด ๋ฐ๋๋ ์๊ณ์ ์ ํ์ ํด์ ๋ณต์กํ reasoning์ ๋ฐ์์์ ์ ํด์ | 3.9 |
| ํ์ฝ | โข ์ฅ์ : ์ต๋ํ ์ค์ ์ ์ ์ฌํ ์ค์ ์์ LLM ๋ถ์. 3๊ฐ์ ์ฃผ์ basis function์ผ๋ก ํ์ต ๊ฐ์ค์น ์ค๋ช
โข ๋จ์ & ๋ณด์์ : Figure6 ํฌํจํด์, ๋ณด๋ค ํฐ ๋ชจ๋ธ ๋ถ์ํ ๊ฒฐ๊ณผ๊ฐ ์์์ผ๋ฉด ๋ ํ์ค์ ์ด์์๋ฏ | 3.7 |
| ํ์ด์ด | โข ์ฅ์ : Transformer์ ๊ฐ์ค์น ๊ตฌ์กฐ๋ฅผ ํด์ ๊ฐ๋ฅํ๋๋ก ํ์ฌ ํ์ต ๊ณผ์ ์ค์ ์๋ฆฌ๋ฅผ ๋ฐํ๋ธ ๊ฒ. โข ๋จ์ : ํ์ต ํ๋ฐ๋ถ์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ์์ผ๋ฉฐ, Cosine Simliarity๊ฐ ๋ฎ์์ง๋ ์ด์ ๊ฐ ๋ฌด์์ธ์ง? โข ๋ณด์: ๋ณด๋ค ๋ณต์กํ ๋ชจ๋ธ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ ์์ด์ผ ํจ. | 3.4 |
| ๋ฉ์ฟ ๋ฆผ๋ณด | ๊ต์ฅํ novelํ๊ณ soundํ๋ฐ ์ดํด๋ฅผ ์ ๋ชปํ๊ฒ ์ ใ ใ ์ดํ ์ ์ ํ์ต์ ํด์ํ ๊ฒ์ ์ข์ผ๋, MLP ๋ ์ด์ด์์ ๊ด๊ณ๊น์ง ๋ดค์ผ๋ฉด LLM์ ์ดํด์ ๋์๋์ง ์์์๊น ์ถ์. ์ธ์ฌ์ดํธ ๊ธฐ๋ฐ์ผ๋ก ํ์ฉ๊ฐ๋ฅ์ฑ์ ์ปค๋ณด์! | 4 |
| ์ด์ฝ๋ฆฟ | โข ์ฅ์ : ํธ๋์คํฌ๋จธ๊ฐ ํ์ต ์ด๊ธฐ์ 3๊ฐ์ง basis function์ ์กฐํฉ์ผ๋ก ์๋ฏธ ๊ด๊ณ๋ฅผ ํ์ฑํ๋ค๋ ๊ฑธ ์ํ์ ์ผ๋ก ์ ๋ํ๊ณ ์คํ์ผ๋ก ํ์ธํจ โข ์ฝ์ : ๋ถ์์ด ํ์ต ์ด๊ธฐ ๋จ๊ณ์๋ง ํ์ ๋์ด ์์ด์, ๋ชจ๋ธ์ด ํ์ต๋ ์ดํ์๋ ๊ฐ์ ๊ตฌ์กฐ๊ฐ ์ ์ง๋๋์ง ์ ์ ์์๋ฏ โข ๋ณด์์ : ํ ํฐ์ ์ธ๋ถํํด์ ๊ฐ basis function์ด ์ด๋ค ์ ํ์ ํ ํฐ์์ ๋ ๊ฐํ๊ฒ ๋ํ๋๋์ง ๋ณผ ์ ์์ผ๋ฉด ์ด๋จ๊น | 3.8 |
TL; DR
ํธ๋์คํฌ๋จธ๋ ํ์ต ์ด๊ธฐ์ 3๊ฐ์ง ๋ฐฉ์์ ํต๊ณ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ค์น์ ์ง์ ๋ฐ์ํ๋ฉฐ, ์ด๋ค์ ์กฐํฉ๋ง์ผ๋ก ์๋ฏธ์ ๊ด๊ณ์ ์ดํ ์ ์ด ํ์ฑ๋จ
Summary
- ์ฐ๊ตฌ์ง: ์์ค์ฝ์ ๋ํ, ์๋๋ ๊ณต๊ณผ๋ํ
- ์ธ์ฉ์ : 2
์ฐ๊ตฌ ๋๊ธฐ
- Self-attention ๊ธฐ๋ฐ LLM์ factual ์ง์๊ณผ word knowledge๋ฅผ ๋ชจ๋ ํ์ต
โ ๋ชจ๋ธ ๋ด๋ถ์์ ์ด๋ค ๊ตฌ์กฐ๊ฐ ๋ง๋ค์ด์ง๊ณ , ์ด๋ป๊ฒ ํ์ต๋๋๊ฑธ๊น?
โ ์๋์ ๊ฐ์ ํจํด ๋ฐ๊ฒฌ- induction heads (ํจํด ๋ณต์ฌ)
- linear semantic relations (์ ํ ์๋ฏธ ๊ด๊ณ)
- topic clustering (์ฃผ์ ๋ณ ๋ฌถ์)
- ๊ฒฐ๋ก : Semantic association (๋จ์ด๋ค ๊ฐ ์๋ฏธ์ ์ฐ๊ฒฐ)์ด LLM์ ํต์ฌ ๋ฅ๋ ฅ์ด๋ค!
- ์ ์: ํ ํฐ๋ค ์ฌ์ด์ ํต๊ณ์ (์ผ๋ง๋ ์์ฃผ?) + ๊ธฐ๋ฅ์ (๋ฌธ์ฅ ์์์ ๋น์ทํ ์ญํ ์ ํ๋์ง?) ๊ด๊ณ
- bird โ flew โ ๊ฐ์ด ์์ฃผ ๋ฑ์ฅ
- car โ truck โ ์๋ก ๋์ฒดํ๊ธฐ ์ฌ์
- country โcapital โ ๋น์ทํ ์๋ฏธ๋ก ๋ฌถ์
โ ์ด๋ฐ ์๋ฏธ์ ์ฐ๊ด์ฑ์ด ์์ด์ผ ๋ฌธ์ฅ ์์ฑ๊ณผ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅ
- ์ ์: ํ ํฐ๋ค ์ฌ์ด์ ํต๊ณ์ (์ผ๋ง๋ ์์ฃผ?) + ๊ธฐ๋ฅ์ (๋ฌธ์ฅ ์์์ ๋น์ทํ ์ญํ ์ ํ๋์ง?) ๊ด๊ณ
โ๊ทธ๋ ๋ค๋ฉด ํธ๋์คํฌ๋จธ๋ ์ด๋ป๊ฒ ๋จ์ด ๊ฐ ์๋ฏธ์ ์ฐ๊ด(semantic association)์ ํ์ตํ๋๊ฐ?โ
โ gradient descent ์ต์ ํ๋ก๋ถํฐ ์์ฐ์ค๋ฝ๊ฒ ๋๋ฌ๋จ
โ ์ด๋ฌํ ๊ตฌ์กฐ๊ฐ ํ์ต ์ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๋์ง ํ์
ํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ค์ด ์งํ๋จ
๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ
ํธ๋์คํฌ๋จธ์ ํ์ต ๋ฐฉ์์ด ๋งค์ฐ ๋ณต์กํด์, ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ๋นํ์ค์ ์ธ ๊ฐ์ ์ ์ฑํ
- Synthetic structured language
- ๋ฐ๋ณต์ ์ธ ํจํด or ๋ฌธ๋ฒ์ด ์์ ํ ๊ท์น์ ์ธ toy language
- ์ค์ ์์ฐ์ด์ ๊ดด๋ฆฌ ํผ
- Positional encoding์ด๋ residual connection์ด ์ ๊ฑฐ๋ ๋จ์ํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ
- ์์ฐ์ด๋ ๋จ์ด์ ์์๊ฐ ์ค์ํ๋ฐ, ์์ ์ ๋ณด ์ ๋ฌ ๊ธฐ๋ฅ์ ์์คํจ โ bag-of-words์ฒ๋ผ ํ๋
- Residual connection ์์ ๋ฉด ์ด๊ธฐ feature ์ ์ง๊ฐ ์๋๊ณ gradient ํ๋ฆ์ด ๊นจ์ง
- ๋นํ์ค์ ์ธ ํ์ต ๋ฐฉ์
- end-to-end๊ฐ ์๋ component๋ณ ํ์ต / ์ผ๋ถ ๊ฐ์ค์น๋ฅผ freeze
- ์ค์ LLM ํ์ต ๋ฐฉ์๊ณผ ๋ค๋ฆ (gradient ์์ฒด๊ฐ ์ ์ฒด network๋ฅผ ํตํด ์ ๋ฌ๋๊ธฐ ๋๋ฌธ)
์ ์ ์์ด๋์ด
- ํ์ต ์ด๊ธฐ gradient leading term (์ฃผ์ ํญ) ๋ถ์์ ํตํด ํธ๋์คํฌ๋จธ ๊ฐ์ค์น๋ฅผ ์ํ์ ์ผ๋ก ํด์ํ์!
- ํธ๋์คํฌ๋จธ๋ ์๋ฏธ ๊ด๊ณ ํ์ต์ ์ด๋ฐ๋ถ์ ๋๋ถ๋ถ ์งํ๋๊ณ ์ดํ์๋ ์ ์ง๋๊ธฐ ๋๋ฌธ
- ์ด๊ธฐ์๋ gradient๊ฐ ๋จ์ํด์ ๊ฐ์ค์น๋ฅผ closed-form์ผ๋ก ๊ทผ์ฌ ๊ฐ๋ฅ
โ ๋ฐ๊ฒฌ: ํ์ต๋ ๊ฐ์ค์น๋ ๋จ์ํ co-occurence๊ฐ ์๋, 3๊ฐ์ง basis function์ ์กฐํฉ์ผ๋ก ํํ๋๋ค!
basis function์ด๋?
- ์๋ฏธ๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ณํ ๋จ์
โ ํ ํฐ โ ๋ค๋ฅธ ํ ํฐ๋ค๊ณผ์ ๊ด๊ณ๋ก ๋ฐ๊ฟ์ฃผ๋ ๊ท์น / ํจ์
- e.g., "fish" โ [pond, water, lake, swim, ...]
- ์๋ฏธ๋ฅผ ๊ตฌ์ฑํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ณํ ๋จ์
- Bigram mapping : ์ธ์ ํ ํฐ ๊ฐ ์์กด๊ด๊ณ
- Interchangeability mapping: ํ ํฐ ๊ฐ ์ ์ฌ๋ ๋ฐ์ (e.g., ์ ์์ด, ๋ฌธ๋ฒ์ ์ญํ )
- Context mapping: ๊ณ ์ฐจ ์๋ฏธ ๊ด๊ณ (long-range)
Theoretical Analysis
์ดํ ์ ๊ธฐ๋ฐ ํธ๋์คํฌ๋จธ์ ๊ฐ์ค์น๊ฐ gradient์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ(leading term)์ผ๋ก ๋๋ถ๋ถ ์ค๋ช ๋จ
- ์์ ์ด๊ธฐ๊ฐ(Gaussian initialization)์์ ์์ํด์, learning rate์ step ์๊ฐ ๋๋ฌด ํฌ์ง ์์ ์ด๊ธฐ ํ์ต ๊ตฌ๊ฐ ๊ฐ์
- gradient descent๋ฅผ ๋ช ๋ฒ ์งํํ๋ฉด, ํธ๋์คํฌ๋จธ์ ๊ฐ ๊ฐ์ค์น๋ค์ด ํน์ ํ ํํ์ ๊ฐ๊น๊ฒ ๋จ
โ ๋ชจ๋ layer๊ฐ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๋ฐฐ์ด๋ค!
3๊ฐ์ง basis function
Bigram mapping ๏ปฟ
- ๏ปฟ
- ๏ปฟ: ํ ํฐ ๏ปฟ๊ฐ ์ ์ฒด ๋ฐ์ดํฐ์์ ์ผ๋ง๋ ์์ฃผ ๋์ค๋์ง
- ์ฒซ๋ฒ์งธ ํญ : iโj๋ก์ ๋ฑ์ฅ ํ๋ฅ
- ๋๋ฒ์งธ ํญ: randomํ๊ฒ ๋ค์ ํ ํฐ์ด ๋ฑ์ฅํ ํ๋ฅ
โ ํ ํฐ ๏ปฟ ๋ค์ ํ ํฐ ๏ปฟ๊ฐ ์ผ๋ง๋ ์์ฃผ ์ค๋์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ํ ํฐ ์ฌ์ด์ โ์ฐ๊ด์ฑโ์ ๋ํ๋
- ๏ปฟ
Interchangeability mapping ๏ปฟ
- ๏ปฟ (ํ ํฐ ๊ฐ ์๊ด๊ด๊ณ ํ๋ ฌ)
- ๋ ํ ํฐ์ด ๋น์ทํ ๋ฐฉ์์ผ๋ก ๋ฑ์ฅํ๋์ง ํ์
- ์์ฃผ ๋์ค๋ ํ ํฐ์ผ์๋ก ์ค์ํ๋ฉฐ, ๋ ํ ํฐ์ด ๋์ผํ ์ด์ ํ ํฐ์ ๊ณต์ ํ๋ ์ง ์ฌ๋ถ๋ฅผ ๊ณ ๋ ค
ํ ํฐ ์์ ์ค๋ ํ ํฐ dog the, big cat the, small
โ ์ด์ ์ ๋ฑ์ฅํ๋ ํ ํฐ ๋ถํฌ๊ฐ ๋น์ทํ๋ฉด ๊ทธ ํ ํฐ๋ค์ ๋น์ทํ ๊ธฐ๋ฅ/์ญํ ์ ํจ
- ๏ปฟ (ํ ํฐ ๊ฐ ์๊ด๊ด๊ณ ํ๋ ฌ)
Context mapping ๏ปฟ
- ํ ํฐ ๏ปฟ ์ฃผ๋ณ context์ ํ ํฐ ๏ปฟ๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ฑ์ฅํ๋ ์ง?
- ํ ํฐ ๏ปฟ์ ๋ฑ์ฅ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก, ์ด์ prefix๋ฅผ ๋ชจ๋ ์ดํด๋ด์ ๊ทธ ์ค ๏ปฟ๊ฐ ๋ฑ์ฅํ๋ ์ง ํ์ธ
โ ์ด context ์ ๋ณด๊ฐ Attention & Value ํ๋ ฌ์ ์์ฑํ๋ ํต์ฌ ์์๊ฐ ๋จ
- ํ ํฐ ๏ปฟ ์ฃผ๋ณ context์ ํ ํฐ ๏ปฟ๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ฑ์ฅํ๋ ์ง?
ํธ๋์คํฌ๋จธ ๊ฐ ๊ฐ์ค์น ํ๋ ฌ์ด ๋ฌด์จ ์๋ฏธ๋ฅผ ๊ฐ์ง๋? (๋ฐ์ดํฐ ํต๊ณ ๊ด์ )
Attention matrix ๏ปฟ
- ํ ํฐ ๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๋ด๊ณ ์์
- query-key๊ฐ ํฌ๊ฒ ๋์จ๋ค๋ ๊ฑด ๋จ์ํ โ๋น์ทํ๋คโ๊ฐ ์๋๋ผ ์ ํ ํฐ์ ๋ณด๋ฉด ์ง๊ธ ํ์ํ ๋ค์ ๋จ์ด ์์ธก์ด ๋ ์ ๋๋ค๋ ๋ป
- ๊ทธ๋ฌ๋ฉด Q๊ฐ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๋?
- ๋จผ์ ๊ฐ ์ด์ ํ ํฐ์ด ํ์ฌ ๋ชฉํ ์ถ๋ ฅ(next token)๊ณผ ์ผ๋ง๋ ์๋ฏธ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋์ง score๋ฅผ ๋งค๊น
- Score์์ ๋ฏธ๋ ํ ํฐ์ ์ ๊ฑฐํ๊ณ , ์์น์ ๋ฐ๋ผ ์ ๋ฆฌ
- Score๋ฅผ โ์ถ๋ ฅ ํ ํฐ๊ณผ์ ๊ด๊ณโ๊ฐ ์๋๋ผ ์ดํ ์ ์ด ์ค์ ๋ก ํ์ฉํ๋ โ์ฟผ๋ฆฌ ํ ํฐ๊ณผ์ ๊ด๊ณโ๋ก ๋ณํ
Experiments
์คํ ๊ฐ์
- ์คํ ๋ชฉํ: ์ด๋ก ์ด ์ค์ ๋ก ๋ง๋์ง ๊ฒ์ฆํ๊ณ , ๊ฐ์ค์น ์์ ์๋ฏธ์ ๊ตฌ์กฐ๊ฐ ์ค์ ๋ก ์กด์ฌํ๋์ง ํ์ธ
- ๊ฐ์ค์น๊ฐ leading term์ผ๋ก ๊ทผ์ฌ๊ฐ ๋๋์ง?
- 3๊ฐ์ง basis function ๊ตฌ์กฐ๊ฐ ์ค์ ๋ก ๋ํ๋๋์ง?
- ๋ฐ์ดํฐ์
: TinyStories
- ํ๋ ฌ์ด ํฌ๋ฉด ๋ถ์์ด ์ด๋ ต๊ธฐ์ 3000 ๋จ์ด๋ก ์ ํ
- ์คํ ๋ชฉํ: ์ด๋ก ์ด ์ค์ ๋ก ๋ง๋์ง ๊ฒ์ฆํ๊ณ , ๊ฐ์ค์น ์์ ์๋ฏธ์ ๊ตฌ์กฐ๊ฐ ์ค์ ๋ก ์กด์ฌํ๋์ง ํ์ธ
์คํ ๊ฒฐ๊ณผ 1: 3-Layer Transformer ์ด๋ก ๊ฒ์ฆ
โSGD๋ก ํ์ต๋ ๊ฐ์ค์น์ ์ด๋ก ์ผ๋ก๋ถํฐ ์ ๋๋ leading term ๊ฐ์ค์น ๊ฐ ์ ์ฌ๋ ๋น๊ตโ
- ๋ชจ๋ ํ๋ ฌ์ ๋ํด ๊ฑฐ์ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ค! โ neural net์ด ์๋๋ผ ๋จ์ํ ํต๊ณ๋ก๋ ์ค๋ช ์ด ๊ฐ๋ฅํจ
โํ์ต epoch ๋ณํ์ ๋ฐ๋ผ์๋ ์ ์ฌ๋๊ฐ ์ด๋ป๊ฒ ๋ณํ ๊น?โ
- ์ด๊ธฐ ํ์ต์ ์ด๋ก ๊ทธ๋๋ก ์งํ๋๋ฉฐ, ๋ชจ๋ธ์ด ๋ง์ด ํ์ต๋ ์ดํ์๋ ์ด๋์ ๋ ์ ์ง
์คํ ๊ฒฐ๊ณผ 2: 3-Layer Transformer ์๋ฏธ ํด์ ๊ฒ์ฆ
โ๊ฐ ํ ํฐ๋ง๋ค ๊ฐ์ฅ ๊ด๋ จ๋ ํ ํฐ top 30์ ๋ฝ์์ ์ค์ ๋ก ์๋ฏธ๊ฐ ๋ง๋์ง ํ์ธโ
- ๏ปฟ โ ๋ค์์ ๋์ฌ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋จ์ด๋ค
- ๏ปฟ โ ๋น์ทํ ์ญํ ์ ํ๋ ๋จ์ด๋ค
- ๏ปฟ โ ๊ฐ์ ๋ฌธ๋งฅ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค
์คํ ๊ฒฐ๊ณผ 3: ์ค์ LLM์์๋ ์ ์ฉ ๊ฐ๋ฅํ ์ง ๊ฒ์ฆ
- Pythia-1.4B ํ์ฉ (ํ์ต ์ค๊ฐ๋ง๋ค checkpoint ์ ๊ณตํด์ layer ๋ณ ๋ถ์ ๊ฐ๋ฅ)
- ํ์ง๋ง ์ค์ LLM์ MLP, multi-head attention ๋ฑ ์ถ๊ฐ์ ์ธ component๋ฅผ ํฌํจํ๊ธฐ์ ๊ฐ์ค์น ํด์์ด ๋ถ๊ฐ
โ ๊ฐ์ค์น๋ฅผ ์ง์ ๋ณด์ง ๋ง๊ณ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ์ผ๋ก ํ ํฐ ๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ ์ ์ผ๋ก ์ถ์ถํ์!
- ํธ๋์คํฌ๋จธ์ ๊ฐ ํ ํฐ์ input์ผ๋ก ๋ถ์ฌ
- Layer ํต๊ณผ ์ ์๋ฒ ๋ฉ, Layer ํต๊ณผ ํ ์๋ฒ ๋ฉ, ์ดํ ์ ํต๊ณผ ํ ์๋ฒ ๋ฉ ๊ฐ๊ฐ ๊ณ์ฐ
- ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ฒ ๋ฉ ํ๋ ฌ ๊ตฌ์ฑ
โ ๊ทผ๋ฐ ์ด๋ก ์์๋ ํ ํฐ ๊ฐ ์๊ด๊ด๊ณ์ธ๋ฐ, ์ค์ ๋ก๋ ํ ํฐ โ ์๋ฒ ๋ฉ ๊ฐ ์๊ด๊ด๊ณ๋ผ์ ์ง์ ๋น๊ต๊ฐ ์ด๋ ค์
1. Leading term ๊ณ์ฐ (OpenWebTest ๋ฐ์ดํฐ์์ ์ค์ ํต๊ณ ๊ณ์ฐ)- ์ ๊ทํ ํ covariance ํ๋ ฌ ๊ณ์ฐ (์๋ฒ ๋ฉ์ ๊ณต๋ถ์ฐ์ผ๋ก ๋ณํํ๋ฉด ํ ํฐ ํ๋ ฌ๋ก ๋ณํ๋จ)
์ค์ LLM๋ ์ด๊ธฐ์๋ ์ด๋ก ๊ณผ ๊ฑฐ์ ๋์ผํ๊ฒ ํ์ต๋๋ฉฐ,
์ด ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ๋ ๋ณต์กํ ํํ์ ์์๊ฐ- ์ฒซ๋ฒ์งธ ๋ ์ด์ด๋ ์์ง ์ถฉ๋ถํ context๊ฐ ์๊ธฐ์ ์ดํ
์
์ ๋ํ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ฎ์
- MLP ๋ ์ด์ด๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ํ์ฑํ๋ ์ญํ ์ํ
- ์ดํ์๋ ์ดํ ์ ์ํฅ์ด ์ปค์ง
- ์ดํ ์ ์ ๋ณต์กํ context๋ฅผ ๋ฐฐ์ฐ๋ฉด์ ์ ์ฌ๋ ์์น
โ๊ฐ ์ดํ ์ head๊ฐ ์ด๋ก ์ ์ผ๋ก ๊ณ์ฐ๋ ๊ตฌ์กฐ์ ์ผ๋ง๋ ๋ฎ์์๊น?โ
- ์ด๊ธฐ ๋ ์ด์ด๋ semantic association ๋ฆ๊ฒ ํ์ต โ ์์ง ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ฎ์
- ์ค๊ฐ ๋ ์ด์ด์์ head๋ค์ด ์๋ก ๋ค๋ฅธ ์ญํ ๋ก ๋๋๊ธฐ ์์
- ๋ง๋จ ๋ ์ด์ด๋ variance ๊ฐ์ โ ๊ฐ head์ ์ญํ ์ด ๋ช ํํ ๊ตฌ๋ถ๋จ














