Chain-of-Model Learning for Language Model
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์๋์ฝ | Motivation๊ณผ ๋ฐฉ๋ฒ๋ก ์ด ์ข์ ์ธ์ฌ์ดํธ๋ฅผ ์ค ๊ฒ ๊ฐ๋ค. ํจ์จ์ฑ ์ธก๋ฉด์ ์ถ๋ก ์๊ฐ / ํธ์ถ ์ซ์ ๋ฟ๋ง ์๋๋ผ ํ๋ผ๋ฏธํฐ์๋ ์ ์ฉ์ด ๋ ๊ฒ ๊ฐ์๋ฐ, ํฐ ๋ชจ๋ธ์ด ํ๋ผ๋ฏธํฐ ์ผ๋ถ๋ง์ ์ธ ์ ์๋ค๋ฉด ํจ์จ์ ์. | 4 |
| ํ๋น์๋ ธ์นด๋ฃจ์๋ | ์คํ๊ฒฐ๊ณผ๋ ๋ณ๋ก ๋ฐ, ์์ด๋์ด๋ ์ ๋ง ๋ฐ์ด๋๋ค. ๊ธฐ์กด ๋ชจ๋ธ์ ์ ์ฌํ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ๋งํ๊ณ , ์ค์ ๋ก ์ ์ฉํ๋ ๊ณผ์ ์ ์ ๋ง ๋ ผ๋ฆฌ์ ์ด๋ค. | 5 |
| ํค๋ณด๋ | ๋๋ฌด ์ ๊ธฐํ๋ค ์ด๊ฑธ ์ด๋ป๊ฒ ์๊ฐํ์ง? ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ๊ฟ๋ฒ๋ฆฌ๋ ์ฐ๊ตฌ๋ ์ ๋ง ์ ๊ธฐํ๋ค. ๊ทธ๋ฐ๋ฐ ์๊ฐ๋ณด๋ค ์คํ ์ฑ๋ฅ์ด ํฅ์๋์ง ์์์ ์์ฝ์ง๋ง, ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๋ฐ๋ฅ๋ถํฐ ์ฌํ์ต ์์ด ํ์ฅํ ์ ์๋ค๋ ๊ฑด ํ์คํ ์ด์ ์ธ ๋ฏํจ | 5 |
| ์ฐ์ฐ์๊ฐ์ ธ์ด | ํธ๋์คํฌ๋จธ์ ๊ณ ์ ๋ ๊ตฌ์กฐ๋ก ์ธํด ๋ฐ์ํ๋ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋๋ค์ ์ฐ๊ตฌ๊ฐ ๋ง์ด ๋์ค๋ ๊ฒ ๊ฐ๋ค. ๋ชจ๋ธ ์์ ์ค์ฒฉ๋ ์๋ธ๋ชจ๋ธ ์ฒด์ธ์ ๊ตฌ์ฑํ๋ค๋ ์์ด๋์ด๋ฅผ ์๊ฐํด๋๋ค๋ ์ ์ด ๋๋จํ๋ค. | 4.5 |
| ๊ผฌ๋ค๋ชฉ | โ 8b์ง๋ฆฌ ํ์ตํ ๋ 3b์ง๋ฆฌ๋ฅผ ์ฌํ์ฉํ์ง ๋ชปํ๊ณ ์ฒ์๋ถํฐ ๋ค์ ํ์ตํจโ ์ด๊ฑฐ ๊ฐ์ธ์ ์ผ๋ก ์์ฌ์ ๋ ๋ถ๋ถ์ธ๋ฐ motivation์ ์์ด์ ๊ฐ๊ฒฉ์ค๋ฌ์ ๋ค. ์๊ฐ๋ณด๋ค ์ฑ๋ฅ์ด ์์ฝ๊ธด ํ์ง๋ง, ๊ณ ๋ฌด์ ์ธ ์ฐ๊ตฌ๋ค. ๋ถ๋ฝ๋ค ๋๋ํด์ !!@@@ | 4.5 |
| ์ก์ฌ์๋ฏธ | Chain-of-XXX ๊ฐ๋ ์ ์ด๋์๋ ์ ์ฉํ ์ ์๊ตฌ๋.. ํนํ โ์ผ๋ง๋ ์๊ฐํ ์งโ๋ฅผ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ chain ์ฐจ์์์ ์ ์ดํ ์ ์์ ๊ฒ์ผ๋ก ์๊ฐ๋จ. ์ด ์์ด๋์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ ์ฐ๊ตฌ๊ฐ ๋ง์ด ๋์ฌ ๊ฒ ๊ฐ์ | 4.5 |
| ๋ ์จ:ํ๋ฆผ | ํ ๋ฒกํฐ๋ฅผ ์ฌ๋ฌ sub-representation์ผ๋ก ๋ถํดํด์ layer ๋จ์๋ก ํ์ฑํํ๋ ๋ฐ์์ด ์ ์ ํ๋ค.. ๋ญ๊ฐ layer ๋จ์์ ๋ถํดํ์ต์ธ๋ฐ ์์กด์ฑ์ด ๊ฐ์กฐ๋ ๋๋..? | 4.8 |
| ๋ง์ฐ์ค | ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ํ์ ์ธ ๊ด์ ์์ ์ ์ํ๊ณ , ๊ธฐ์กด ๋ชจ๋ธ์ ์ ์ดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค๋ ์ ์ด novelty๊ฐ ์์ฃผ ํฐ ๊ฒ ๊ฐ๋ค. | 5 |
TL; DR
Representation์ sequancialํ sub-representation์ผ๋ก ๋๋๋ฉด ๊ธฐ์กด ๋ชจ๋ธ์ ์ ์งํ ์ฑ ์ถ๊ฐ ํ์ต๋ ๊ฐ๋ฅํ๊ณ , ํ์ฅ๋ ๊ฐ๋ฅํ๊ณ ์ ์ฐํจ!
Summary
Motivation
- Transformer์ scaling laws ๋๋ถ์ ๋ง์ ๊ธฐ์
๋ค์ด ํฐ ๋ชจ๋ธ์ ๋ง๋๋๋ฐ์ ์ ๋
ํ๊ณ ์์ผ๋, ์ํคํ
์ณ
ํ์ฅ์๋ ๋ค์์ ๋ฌธ์ ๋ค์ด ์์- scale upํ ๋, ๊ธฐ์กด scale์ ์ ์งํ์ง ๋ชปํ๊ณ ํญ์ ์ฒ์๋ถํฐ ํ์ตํด์ผ ํจ. ์ฌ๋์ ๋ฐฐ์ธ๋ ์ ์ง์ ์ผ๋ก ํ์ตํ๋๋ฐ ๋ชจ๋ธ์ ๊ทธ๋ ์ง ๋ชปํจ.
- e.g. LLaMA-3-3b ํ์ตํ๊ณ , 8b์ง๋ฆฌ ํ์ตํ ๋ 3b์ง๋ฆฌ๋ฅผ ์ฌํ์ฉํ์ง ๋ชปํ๊ณ ์ฒ์๋ถํฐ ๋ค์ ํ์ตํจ
- ๊ธฐ์กด LLM ์ํคํ
์ณ๋ ํญ์ ๊ณ ์ ๋ ๊ท๋ชจ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํด์, ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ฌ์ฉํ๋ ๋งค์ปค๋์ฆ์ด ๋ถ์กฑํจ
- e.g. 3b๋ชจ๋ธ๋ ์ํ ๊ฐ๋จํ instruction๋ 3000b ๋ชจ๋ธ์ ๋งก๊ธฐ๋ ๊ฑด ๋นํจ์จ์ ์
- ์์ฑ์ ์ฝ๋ฉํธ) ์ด๊ฑด Speculative decoding์์ ํด๊ฒฐํจ.. ๊ทธ๋๋ fundamentalํ motivation์ ๋ง๋๋ฏ?
Speculative decoding
https://arxiv.org/abs/2211.17192, ICML 2023 Oral
- ๊ฐ๋จํ๊ฒ ๋งํด์! ์์ ๋ชจ๋ธ๋ก ๋๋ ค๋ณธ ๋ค์์ ํฐ ๋ชจ๋ธ์์ ๊ฒ์ฆํ์!
- e.g. 175b ๋ชจ๋ธ ๋๋ฆฌ๊ธฐ ์ ์, 3b์ง๋ฆฌ๋ก ๋ช ํ ํฐ inferenceํด๋ณด๊ณ 175b llm ๋๋ ค์ ํฐ ๋ชจ๋ธ์์๋ ๊ฐ์ ์ถ๋ ฅ ๋ผ ๊ฒ์ด์๋์ง ๊ฒ์ฆํ๊ธฐ
- ๊ฐ๋จํ๊ฒ ๋งํด์! ์์ ๋ชจ๋ธ๋ก ๋๋ ค๋ณธ ๋ค์์ ํฐ ๋ชจ๋ธ์์ ๊ฒ์ฆํ์!
- scale upํ ๋, ๊ธฐ์กด scale์ ์ ์งํ์ง ๋ชปํ๊ณ ํญ์ ์ฒ์๋ถํฐ ํ์ตํด์ผ ํจ. ์ฌ๋์ ๋ฐฐ์ธ๋ ์ ์ง์ ์ผ๋ก ํ์ตํ๋๋ฐ ๋ชจ๋ธ์ ๊ทธ๋ ์ง ๋ชปํจ.
Contribution
- Representation(hidden state)์ ๋ ์ผ๋ฐํํ๋ Chain-of-Representation(CoR) ์ ์
- representation์ ํ์ ์ฐจ์์ sub-representations์ ์กฐํฉ์ผ๋ก ๋ณด์
- ์ฌ๋ฌ ํน์ง(chain)์ผ๋ก ์ง์(scale)์ ํํํ์
- CoR๋ฅผ ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด Chain-of-Model ์ ์
- ์๋ก ๋ค๋ฅธ ์ค์ผ์ผ์ ๊ฑธ์ณ ์ธ๊ณผ์ ์์กด์ฑ์ ํตํฉํ์
- ๊ฐ ๋ ์ด์ด๋ง๋ค Chain of Layer๋ก ๊ตฌ์ฑ๋จ
- CoL์ ๋ค์์ ํน์ง์ด ์์
- ์ผ๋ฐ์ฑ(Generality): ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๋ ์ด์ด๋ Chain์ด 1์ธ CoL์!
- ์ธ๊ณผ์ฑ(Causality): Scale ๏ปฟ์ ํน์ง์ ์ป๊ธฐ ์ํด 1~๏ปฟ๊น์ง์ chain ํ๋ผ๋ฏธํฐ๋ง ํ์ฑํ ํ๋ฉด ๋จ
- ๊ตฌ์ฑ์ฑ(Compositionality): ๋ ๋ ์ด์ด๊ฐ CoL์ด๋ผ๋ฉด ๋ ์ด์ด ๋ผ๋ฆฌ๋ CoL์ ํน์ง์ ๊ฐ๊ฒ ๋จ
- CoL์ ๋ค์์ ํน์ง์ด ์์
- ๊ธฐ์กด LLM ํ๋ ์์ํฌ์ ๋นํด ์ฑ๋ฅ์ ๋น์ทํ๋ฐ ํ์ฅ์ฑ๊ณผ ์ ์ฐ์ฑ์์ ๋ฐ์ด๋จ
Chain-of-Model Learning
- Chain-of-Representation
์ด๋ค ํํ ๏ปฟ์ ๋ํด, ์ด๋ ํญ์ n๊ฐ์ ํ์ ํํ๋ค์ concatenation์ผ๋ก ๋๋ฑํ๊ฒ ๋ํ๋ผ ์ ์์ผ๋ฉฐ, ๏ปฟ๋ก ํ๊ธฐํจ. ์ฌ๊ธฐ์ ๏ปฟ์ด๊ณ , ๏ปฟ์.
์ด๊ฑธ Chain-of-Representation, CoR์ด๋ผ ์ ์ํจ
- ๊ฐ chain์ CoR๋ด์ ํ์ํํ ๏ปฟ์ ํด๋น๋จ.
- ์ฒซ ๏ปฟ๊ฐ์ ์ฒด์ธ์ ํ์ฑํํด, ์ค์ผ์ผ ๏ปฟ์ ํด๋นํ๋ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ์ ์์
- ์ฆ, CoR์ ํ ํํ ๋ด์์ n๊ฐ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ์ ์์
- n=1์ด๋ฉด CoR์ ์๋ ํํ๊ณผ ๋์ผ
- Chain-of-Layer
- ๏ปฟ๋ฒ์งธ scale์ 1~๏ปฟ-1๊น์ง์ ์ ๋ณด๋ง ํ์ฉํด์ผ ํจ
- CoR์ ์ธ๊ณผ ๊ด๊ณ๋ฅผ ํตํฉํ๋ Chain-of-Layer ์ ์
๋ ์ด์ด ๏ปฟ์ ๋ํด, ์ ๋ ฅ x์ ์ถ๋ ฅ y๊ฐ ๋ชจ๋ CoR ๏ปฟ์ ๏ปฟ๋ก ํํ๋ ์ ์๋ค๊ณ ๊ฐ์ . ๊ฐ ๏ปฟ๊ฐ ์ค์ง ๏ปฟ์๋ง ์์กดํ์ฌ ๋ฐํ๋๋ ๏ปฟ๋ฅผ Chain-of-Layer, CoL์ด๋ผ๊ณ ์ ์ํจ
- ์์ฑ์ ์ฝ๋ฉํธ) RNN๊ณผ ์ ์ฌํ๊ฒ ๊ฐ์
- Corollary(๋ฐ๋ฆ ์ ๋ฆฌ)
- Generality
- ์ผ๋ฐ์ ์ธ ํธ๋์คํฌ๋จธ ๋ ์ด์ด๋ chain์ด 1์ธ ๊ฒฝ์ฐ์. โ ๊ธฐ์กด ๋ชจ๋ ๋ ์ด์ด๋ CoL ํํ๋ฅผ ๋ง์กฑํจ!
- ๊ธฐ์กด chain ์์ ์ถ๊ฐ chain์ ๋ฃ์ด์ ์ด๋ฏธ ์๋ ๋ชจ๋ธ์์ ํ์ฅํ ์ ์์
- Causality
- ๋ ์ด์ด ๏ปฟ๊ฐ CoL์ ๋ง์กฑํ๋ค๋ฉด, ๊ฐ์ค์น ๏ปฟ๋ ๋ ๋ฆฝ์ ์ธ ๊ฐ์ค์น ๏ปฟ๋ก ๋ถํ ํ ์ ์๊ณ , ๊ฐ ๏ปฟ๋ ๏ปฟ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๏ปฟ๋ฅผ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉ๋จ. ์ฆ, ์ถ๋ ฅ ๏ปฟ๋ฅผ ์ป๊ธฐ ์ํด ๏ปฟ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๏ปฟ๋ฅผ ๊ณ์ฐํด์ผ ํจ.
- ์ด CoL ์ค๊ณ์์ ๏ปฟ๋ฒ์งธ scale์ ๊ณ์ฐํ ๋, ์ด์ scale์ ์ ๋ณด๋ฅผ ํตํฉํ๋ฏ๋ก catastrophic foggeting์ ๋ฐฉ์งํ ์ ์์. ๏ปฟ๋ฅผ ์ป๊ธฐ ์ํด ๏ปฟ๋ง ๊ณ์ฐํ๋ฉด ๋๋ฏ๋ก, ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ ์ผ๋ก ์ฌ์ฉํจ.
- Compositionality
- ๋ ๋ ์ด์ด ๏ปฟ, ๏ปฟ ๊ฐ ์๊ณ x, y, z ๋ชจ๋ CoR๋ก ๋ํ๋ผ ์ ์๋ค๊ณ ๊ฐ์ .
๏ปฟ, ๏ปฟ๊ฐ CoL์ด๋ผ๋ฉด, ํฉ์ฑํจ์์ธ ๏ปฟ๋ CoL์ ๋ง์กฑํจ. ์ฆ ๏ปฟ๋ ๏ปฟ์์๋ง
์์กดํจ
- ์ฌ๋ฌ CoL์ ์์๋ ์ ์ฒด๋ก ๋ณด๋ฉด CoL์ด ์ ์ง๋จ โ ๋ชจ๋ธ๋ก ํ์ฅ ๊ฐ๋ฅ
- ๋ ๋ ์ด์ด ๏ปฟ, ๏ปฟ ๊ฐ ์๊ณ x, y, z ๋ชจ๋ CoR๋ก ๋ํ๋ผ ์ ์๋ค๊ณ ๊ฐ์ .
- Generality
- Chain-of-Model
L๊ฐ์ ๋ ์ด์ด๋ฅผ ๊ฐ์ง ๋ชจ๋ธ ๏ปฟ์ ๋ํด ๋ชจ๋ ๋ ์ด์ด๊ฐ CoL์ด๋ผ๋ฉด, ์ด๋ฅผ Chain-of-Model, CoM์ด๋ผ ์ ์ํจ
- CoM์ด๋ฉด CoL๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก generality์ causality๋ฅผ ๊ฐ์ง.
- ๋ชจ๋ ๋ชจ๋ธ์ CoM(n=1)์ด๊ณ , ํ๋์ ๋ชจ๋ธ ๋ด์์ ๋ค๋ฅธ scale์ ์ฌ๋ฌ ํ์ ๋ชจ๋ธ์ ํตํฉํ ์ ์์ผ๋ฉฐ, base model์ ํ์ฉํ์ฌ ํ์ฅํ ์ ์์. โ ํ์ฅ์ฑ, ์ ์ฐ์ฑ ํ๋ณด
Architecture
- ์ด์ ๊ฐ๋ ์ ๋ฆฌ ํ์ผ๋ ์ค์ ๋ก ๋ชจ๋ธ์ ์ ์ฉํด ๊ตฌํํด๋ณด์!
- Linear Layer
- ์๋ ๊ทธ๋ฆผ์์์ฒ๋ผ, linear layer์์ CoL๋ฅผ ๋ง์กฑํ๊ธฐ ์ํด condition์ ๊ฑธ์ด์ ์ถ๋ ฅ์ ๊ณ์ฐํจ
- ๏ปฟ
- Chain์ด๋ผ๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฑธ์ด์, ๊ฐ chain(๏ปฟ)์ด ์ด์ chain์ ํฌํจํด ๊ณ์ฐํ๋๋ก ์ค์
- ์ผ๋ฐ linear layer๋ n=1์ธ ๊ฒฝ์ฐ์
- Chain-of-Linear๋ผ๊ณ ๋ถ๋ฆ!
- ์๋ ๊ทธ๋ฆผ์์์ฒ๋ผ, linear layer์์ CoL๋ฅผ ๋ง์กฑํ๊ธฐ ์ํด condition์ ๊ฑธ์ด์ ์ถ๋ ฅ์ ๊ณ์ฐํจ
- Transformer
- Multi Head Attention
- ๊ฐ ์๋ฒ ๋ฉ์์ CoR์ ์ง์ํ๊ธฐ ์ํด, Key, Query, Value, Output ๋ณํ ํ๋ ฌ์ ๋ชจ๋ Chain-of-Linear ๋ ์ด์ด๋ก ๋ฐ๊ฟ
- ๏ปฟ์์
๋จ์ผ ํค๋๋ด์์ chain์ด 2๊ฐ ์ด์์ผ ๊ฒฝ์ฐ chain๊ฐ์ ์ ๋ณด๊ฐ ํผํฉ๋์ด CoL์ด ์๋๊ฒ ๋จ. ๊ทธ๋์ ๊ฐ ํค๋๊ฐ ํน์ chain๋ง ๊ณ์ฐํ๋๋ก ํจ!- e.g. ์ด๋ค ํค๋๋ 1~2๊น์ง๋ง ๊ณ์ฐํ๊ณ , ์ด๋ค ํค๋๋ 3~4๊น์ง, ๋ค๋ฅธ๊ฑด 5~8๊น์ง ์ด๋ฐ์์ผ๋ก
- Chain-of-Attention
- Feed-Forward Network
- ๊ฐ๋จํ๊ฒ ๊ฐ linear๋ฅผ CoL๋ก ๋์ฒดํ๊ณ , ์์ Chain-of-Attention๊ณผ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ Chain(representation์ ๋ํด Chain ์ด๋ป๊ฒ ์ชผ๊ฐค์ง, e.g. 2, 2, 4) ์ฌ์ฉ!
- Embedding
- Scale ๏ปฟ์์ ์ธ์ฝ๋ฉํ ๋๋ 1~๏ปฟ์ chain์ ํด๋นํ๋ ์๋ฒ ๋ฉ๋ง ์ฌ์ฉํจ
- Multi Head Attention
- KV sharing
- ์ดํ
์
์์ ๊ฐ chain๋ง๋ค key, value๋ฅผ ๊ฐ์ ธ์ ์๋ก ๋ค๋ฅธ scale์ ์ฐ๊ฒฐํ ๋ align์ด ์ ์๋จ
- e.g. ์์ ๋ชจ๋ธ๋ก ์ถ๋ก ํ๋ค๊ฐ ํ์ฅ๋ ๋ชจ๋ธ๋ก ์ถ๋ก ํ ๋, context์ ๋ํ key, value๋ฅผ ๋ค ์๋ก ๊ณ์ฐํด์ผ ํจ
- KV sharing์ผ๋ก ํด๊ฒฐํจ!
- ๋ชจ๋ key, value๊ฐ์ด ์ฒซ๋ฒ์งธ chain์์ ๊ณ์ฐ ํ ํ, ๋ชจ๋ chain์์ ๊ณต์ ๋จ
- key, value์ ์๊ฐ head๋ณด๋ค ์ ์ผ๋ฉด, ๊ฐ์ ๋ฐ๋ณต์์ผ์ ๋์
- ์ด๋ ๊ฒํ๋ฉด ์ฑ๋ฅ์ด ์ด์ง ๋ฎ์์ง๊ธฐ๋ ํ๋๋ฐ, prefilling์ด ๋นจ๋ผ์ง๊ณ , ์๋ก ๋ค๋ฅธ ์ค์ผ์ผ์ LM์ผ๋ก ๋๊น์์ด ์ ํํ๋ฉด์ ์์ฑํ ์ ์์!
- ์ด๋ฅผ Chain-of-Language-Model Air, CoLM-Air๋ผ๊ณ ๋ถ๋ฆ(shairing ์ํ๋๊ฒ CoLM)
- ์ดํ
์
์์ ๊ฐ chain๋ง๋ค key, value๋ฅผ ๊ฐ์ ธ์ ์๋ก ๋ค๋ฅธ scale์ ์ฐ๊ฒฐํ ๋ align์ด ์ ์๋จ
- Objective Function
- ์ผ๋ฐ์ ์ธ cross-entropy์์ค์ objective๋ก ์ธ ์ ์์ง๋ง, multi scale prediction์ ํ๋ ค๋ฉด ๊ฐ scale๋ง๋ค classification head(representationโvocab ํ๋ ฌ)์ ์จ์ผํจ
- ๊ทธ๋์ ๊ฐ scale์ ๊ณ์ฐํ๋ multi-chain cross-entropy loss๋ฅผ ์ ์ํจ
- ๏ปฟ
- ๊ทผ๋ฐ loss ๊ณ์ฐํ๋๊ฑด ๊ณ์ฐ๋์ด ์ปค์, fine-tuningํ ๋๋ง ์ฌ์ฉํจ
Experiments
- Setup
- 0.2T์ corpus๋ก pre-training
- 32๊ฐ์ Nvidia A100 40GB GPU ์ฌ์ฉ(๋ถ๋ฝ๋ค)
- baseline ๋ชจ๋ธ์ ๏ปฟ=32 ์ธํ , ๋๋จธ์ง๋ Llama-3.2-1B๋ ๋์ผํ ๊ตฌ์ฑ
- CoLM ์๋ฆฌ์ฆ๋ ๏ปฟ , ๏ปฟ ์ฌ์ฉ
- Chain-of-Linear๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๊ฒ ์ฐจ์งํด์, dimension์ ๋๋ฆผ
- ์์ task์์ zero-shot setting์ผ๋ก ์คํ
- Results
- KV sharing์ ํ๋ฉด ์ฑ๋ฅ ์ด์ง ๋จ์ด์ง
- ์์ธ๋ก 16, 16 ์ธํ
์ด 8, 8, 8, 8๋ณด๋ค ๋์
- ๋ค๋ง ๋ ๋ง์ chain์ ์ฌ์ฉํ๋ฉด ํ์๋ชจ๋ธ์ ๋ ๋ง์ด ์ ๊ณตํ ์ ์์ (8, 16, 24)
- ๋ชจ๋ ๋ชจ๋ธ์ chain์ด 1์ธ CoLM์ด๋ฏ๋ก chain์ ๋ ๋ถ์ฌ์(dimension์ ๋๋ ค์) ํ์ฅํ ์ ์๋ค!
- {32, 8} ์ธํ ์ผ๋ก 0.8B ํ๋ผ๋ฏธํฐ ์ถ๊ฐํจ
- ๊ธฐ์กด ์ง์ ๋ณด์กดํ๋ฉด์ ํ์ต๋ ๋น ๋ฅด๊ฒ!
- ๋์ ์ผ๋ก ์ถ๋ก ํ๊ธฐ
- ์์ ๋ชจ๋ธ๋ก ๋ฐฐํฌํ ์ ์์!
- CoLM-Air๋ฅผ ์ฌ์ฉํ์ ๋, ์ฒซ๋ฒ์งธ chain์์ ๋ชจ๋ key์ value๋ฅผ ๊ณ์ฐํด์ prefilling์ ์์ฃผ ๋น ๋ฅด๊ฒ ํจ
- MInference๋ ์ถ๋ก ๊ธฐ์ ์ธ๋ฐ ์ถ๊ฐ๋ก ์ ์ฉํด๋ ๊ฐ์ ์์
- fine-tuningํ ๋, ๋ง์น base-model์ ํ์ฅํ ๊ฒ์ฒ๋ผ ํ์ chain๋ง fine-tuning ๊ฐ๋ฅํจ
- ์ด๋ ์น๋ช ์ ์ธ ๋ง๊ฐ์ ๋ง์!
- ์ผ๋ถ๋ง fine-tuningํด๋ ์ฑ๋ฅ์ด ๊ฝค ์ฌ๋ผ๊ฐ
- ์ฌ์ง์ด ์ด๊ฒ๋ LoRA๋ ํธํ๋จ












