Layer by Layer: Uncovering Hidden Representations in Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ง์คํนํ ์ดํ | ๋ ผ๋ฌธ์ด ๋ธ ๋ถ์ ๊ฒฐ๊ณผ๊ฐ ์ ๋ง ๋ง์ ๋์์ด ๋ ๊ฒ ๊ฐ์ ๋ ผ๋ฌธ์. ๊ฒฐ๊ตญ ๋ ์ด์ด ๋ณ๋ก, ํ์ฉํด์ผ ํ๋ ๊ฐ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ๊ฐ ๋ฌ๋ผ์ง ์๋ ์๊ณ , ๋ถ์์์ ์ด๋ค ๋ ์ด์ด๋ฅผ ์ฐ๋์ง์ ๋ฐ๋ผ ํ์คํฌ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค๋ฉด ํฐ ์๋ฏธ๋ฅผ ์ฃผ๋ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํจ. CoT ํ๋์ด ์ค๊ฐ ๋ ์ด์ด์ ํํ์ ํ๋ถํ๊ฒ ๋ง๋ ๋ค๋ ์ ๋ ๊ทธ ์ด์ ๋ฅผ ๋ค์ ์๊ฐํด๋ณผ๋ง ํ๋ค๊ณ ๋๊ปด์ง. | 4.3 |
| ๋๊น์ค | ๋น์ฐํ ์ต์ข ๋ ์ด์ด์์์ ๋ ์ด์ด ํํ์ด ๊ฐ์ฅ ํ๋ถํ ๊ฑฐ๋ผ๊ณ ์๊ฐํ๋๋ฐ ์คํ ๊ฒฐ๊ณผ๊ฐ ๋๋๋ค. ์ฌ์ง์ด ๋๋ถ๋ถ์ ๊ฒฐ๊ณผ์์ ์ผ๊ด๋๊ฒ ๋์ค๋๊ฑฐ๋ณด๋ฉด ์์ผ๋ก๋ ์ฐ๊ตฌ๊ฑฐ๋ฆฌ ๋ฌด๊ถ๋ฌด์งํ ๊ฒ ๊ฐ์ | 4.4 |
| ๊ทค | ๋ด๊ฐ ์ง๊ธ๊น์ง ์ฝ์๋ ๋๋ถ๋ถ์ ๋ ผ๋ฌธ๋ค์ด ๋ง์ง๋ง layer์ ๊ธฐ์กด์ผ๋ก ์ฌ์ฉํด์๊ณ , ๋์ญ์๋ ๊ทธ๊ฒ ์ต์ ์ด๋ผ๊ณ ์๊ฐํ๋๊ฑฐ๊ฐ์๋ฐ, ์ด ๊ด๋ ์ ๋ด์ฉ์ธ๊ฒ ๊ฐ๋ค. ์ํํ๋ ค๋ task์ ํน์ฑ์ ๋ง์ถฐ์ ์ด๋ค layer์ ์ฌ์ฉํ ์ง๋ ์ค์ํ๊ฒ ๊ณ ๋ คํด์ผ ํ ๊ฒ ๊ฐ์. | 4.3 |
| ์๋ฉด์ฅ์ | ์์ฌ 2ํ๊ธฐ ๋ hidden state ๋ฅผ ์ฐ๋ ๋
ผ๋ฌธ๋ค์ ๋ชจ์์ โ์ธ์ ์ด๋ค hidden state๋ฅผ ์ธ๊น?โ๋ฅผ ์ ๋ฆฌํด๋ณธ ๊ฒฝํ์ด ์๋๋ฐ, ๊ทธ๋ ์๊ฐ๋ณด๋ค ๊ฒฝํฅ์ฑ์ด ์๊ณ ๋ค๋ค ์๊ธฐ ๋ง๋๋ก๋ผ ๋นํฉํ๋ ๊ธฐ์ต์ด ์์. ๊ทธ๋ฐ๋ฐ ๊ทธ ์ด์ ๋ฅผ ์ด์ ์ผ ์๊ฒ ๋์๋ค์ฉ + VLM๋ ๊ฐ์ด ์คํํ๊ฒ ์ ๋ขฐ๋๊ฐ ํ ๋์์ง๋ค! | 4.3 |
| ์ด์ดํฐ | ์ค๊ฐ ๋ ์ด์ด ํํ์ด ๋ง์ง๋ง ๋ ์ด์ด์ ๋นํด ๋ ํ๋ถํ๋ค๊ณ ์ ์ ํ๊ณ ์ค๊ฐ ๋ ์ด์ด ํํ ์ฐ๋ ๋ ผ๋ฌธ์ ๋ง์ด ๋ด์๋๋ฐ, ์ด๋ฅผ ์ค์ ๋ก ์คํ์ผ๋ก ์ฆ๋ช ํด ์คฌ๋ค. ๋น์ ผ ํธ๋์คํฌ๋จธ์ ๋น๊ต๊ฐ ํฅ๋ฏธ๋กญ๊ณ CoT ์ด์ธ์๋ ์์ RL์ด๋์ง ํ์ต ๋ฐฉ๋ฒ์ ์ํฅ๋ ์์์ง ๊ถ๊ธํ๋ค | 4 |
| ์ฌ๊ณผ | ๋๋ถ๋ถ์ XAI ๋ฐ Representation ์ฐ๊ตฌ์์ ๋ง์ง๋ง ๋ ์ด์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ถ๋ก ์ ์ด์ ๋ ํํ์ ์ด์ ๋ฅผ ์ค๋ช ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ, ์ค๊ฐ ๋ ์ด์ด ํํ์ ์ค์ํจ์ ์ด ๋ ผ๋ฌธ์์ Metric์ผ๋ก ์ธก์ ํ์ฌ ์ค๋ช ํจ์ผ๋ก์จ ์ ๋ขฐ๋๋ฅผ ๋์๋ค๊ณ ๋ด. | 4.6 |
| 7์ผ | ๊ณตํต๋ ์ํ metric์ ํ์ฉํด์ ๋ค์ํ ์คํ์ผ๋ก ๊ฒ์ฆํ๊ฒ ๊ฐ์ฅ ํฐ contribution. MTEB ํ์คํฌ ์์ฒด๊ฐ ํ ์คํธ ์๋ฒ ๋ฉ์ ํ์ง ์์ฒด๋ฅผ ํ๊ฐํ๊ธฐ์, ์ด๋ฅผ higher-level (QA, NLG)์ ๊ฐ์ ํ์คํฌ์์๋ ๊ฒฝํฅ์์ด ๋์ผํ ๊น? ์ด๊ฑด ์๋ ๊ฑฐ ๊ฐ์. ๊ฒฐ๊ตญ message passing ๊ฐ์ด ์ค๊ฐ ํ๋ฆ์ ๋ํ ์๋ฒ ๋ฉ ๊ณ์ฐ ์ ์ค๊ฐ layer์ ๊ฐ์กฐํ๊ณ , ์ต์ข fine-tuning task์์๋ final layer์ ์ง์คํด์ผํ ์ง๋? | 4.4 |
TL; DR
Autoregressive ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ์ธ์ด๋ชจ๋ธ์ ์ค๊ฐ layer ํํ์ด ๊ฐ์ฅ ํ๋ถํ๋ค!
Summary
- ์ฐ๊ตฌ์ง : ๋ฏธ๊ตญ ์ผํฐํค๋ํ, NYU, UCLA, Meta
- ์ธ์ฉ์ : 89
์ฐ๊ตฌ ๋๊ธฐ
- LLM์ ์ฃผ๋ก ๋ง์ง๋ง layer์ ์ถ๋ ฅ์ downstream task์ ์ฌ์ฉ
- โ์์ layer๋ ๋จ์ํ low-level ์ ๋ณด๋ฅผ ๋ด๋๋คโ๋ ์ผ๋ฐ์ ์ธ ๊ฐ์ ์ ๊ธฐ๋ฐํจ
- ์ ์๋ค์ ์ด ๊ฐ์ ์ ์๋ฌธ์ ์ ๊ธฐ!
- โ๋ง์ง๋ง layer๊ฐ ํญ์ ์ต๊ณ ์ representation์ ์ ๊ณตํ๋๊ฐ?โ
โ ์ค์ ๋ก ์ค๊ฐ layer๊ฐ ๋ ํ๋ถํ ํํ๋ ฅ์ ๊ฐ์ง๊ณ ์์ ์ ์์ผ๋ฉฐ, ๋ค์ํ task์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์์์ ์ค์ฆ์ ์ผ๋ก ํ์ธํด๋ณด์!
Key Findings
- ์ค๊ฐ layer๊ฐ ์ผ๊ด๋๊ฒ ๋ง์ง๋ง layer๋ณด๋ค ๋ ์ฐ์ํจ์ ์คํ์ ์ผ๋ก ์ฆ๋ช
- ๋ชจ๋ธ ์ํคํ ์ฒ(์ข ๋ฅ, ํฌ๊ธฐ)์ ํ์ต ์งํ๋์ ๋ฐ๋ฅธ ํํ๋ ฅ ์ฐจ์ด๋ฅผ ๋น๊ต
- CoT ํ์ธํ๋์ด ์ค๊ฐ layer ํํ์ ํ๋ถํ๊ฒ ๋ง๋ฆ
ํ๊ฐ์งํ ์ค๊ณ
Representation์ quality๋ฅผ ์ด๋ป๊ฒ ํ๊ฐํ ์ ์๋๊ฐ?
- Representation์ด ์ผ๋ง๋ ์์ถ(compressed) ๋์๋์ง?
- Input์ด perturbation / augmentation์ ๋ํด ์ผ๋ง๋ robustํ์ง?
- ์๋ก ๋ค๋ฅธ input์ ์ด๋ป๊ฒ ๊ธฐํํ์ ์ผ๋ก ๊ตฌ์ฑํ๋์ง?
Matrix-Based Entropy: ๊ณตํต๋ ์ํ์ ๊ด์
- ๊ณ ์ ๊ฐ (Eigenvalue) ๏ปฟ๋ฅผ ์ด์ฉํด entropy ๊ณ์ฐ
- ๏ปฟ : ๋ฐ์ดํฐ๋ฅผ ํํํ๋ axis์ธ eigenvector ๋ฐฉํฅ์ผ๋ก ํฌํจ๋ ์ ๋ณด์ ์
- ๏ปฟ : Representation matrix ๏ปฟ
- ๏ปฟ : Gram matrix (Representation ๊ฐ ์ ์ฌ๋ ํ๋ ฌ)
- ๏ปฟ : Smoothing ์ง์
โ Input ์ํ์ด ๋ช ๊ฐ์ ๊ณ ์ ๊ฐ์ ์ง์ค๋์ด ์๋์ง๋ฅผ ์ธก์
โ ์ง๊ด์ ์ผ๋ก eigenvalue๊ฐ ๊ณ ๋ฅด๊ฒ ํผ์ ธ์์ผ๋ฉด high entropy
Insight 1 (์ ๋ณด ์์ถ ๊ด์ )
- ๊ณ ์ ๊ฐ ์ค ๋ช ๊ฐ๋ง ํฐ ๊ฒฝ์ฐ โ ๋ฎ์ ์ฐจ์์ ์ ๋ณด๊ฐ ์ง์ค๋๋ฉฐ ์ผ๋ถ๋ถ์ axis๋ก๋ง ์์ถ๋จ โ low entropy
- ๊ณ ์ ๊ฐ์ด ๊ณ ๋ฅด๊ฒ ๋ถํฌํ ๊ฒฝ์ฐ โ ์ ๋ณด๊ฐ ์ฌ๋ฌ axis์ ๋น์ทํ๊ฒ ๋ถ์ฐ๋จ โ high entropy
Insight 2 (Geometry ๊ด์ )
- ํ ํฐ ์๋ฒ ๋ฉ์ด ๋ถ๋๋ฝ๊ฒ ์ด์ด์ง ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋ฉด โ ๊ณก๋ฅ (curvature)์ด ๋ฎ๊ณ high entropy
- ๊ฐ์์ค๋ฝ๊ฒ ๊บพ์ด๋ฉด (์ฆ, ์ฐ์๋ ํ ํฐ์ ์๋ฒ ๋ฉ ๋ฐฉํฅ์ด ๊ธ๋ณํ๋ฉด) โ ๊ณก๋ฅ ์ด ๋๊ณ ๊ณ ์ ๊ฐ ๋ถํฌ๊ฐ ํ์ชฝ์ผ๋ก ์ ๋ ค low entropy
โ Embedding ๊ณก๋ฅ ๋ ๊ฒฐ๊ตญ ๊ณ ์ ๊ฐ ๋ถํฌ(=entropy)๋ก ๋ฐ์ ๊ฐ๋ฅ
Insight 3 (Input perturbation/augmentation์ ๋ฐ๋ฅธ Robustness ๊ด์ )
- Strong invariance(=robust) โ ๊ฐ์ ์๋ฏธ์ ์ํ์ด embedding ๊ณต๊ฐ์์ ์์ ์ ์ผ๋ก ํด๋ฌ์คํฐ๋ง๋จ โ ์ํธ๋กํผ ์ ์ง
- ๊ณ ์ ๊ฐ (Eigenvalue) ๏ปฟ๋ฅผ ์ด์ฉํด entropy ๊ณ์ฐ
7๊ฐ์ง Representation ํ๊ฐ ์งํ
์ ๋ณด์ด๋ก ๊ธฐ๋ฐ
- Prompt Entropy
- ํ๋์ ํ๋กฌํํธ ์์์ ํ ํฐ ์๋ฒ ๋ฉ์ด ์ผ๋ง๋ ๋ค์ํ๊ฒ ํผ์ ธ ์๋๊ฐ?
- ๋์ entropy โ ํํ์ด ๋ค์ํจ โ ๋ ์ค๋ณต๋๊ณ ํ๋ถํ ํน์ง
- ๋ฎ์ entropy โ ํํ์ด ๋น์ทํจ โ ์ ๋ณด๊ฐ ์์ถ๋จ
- ํ๋์ ํ๋กฌํํธ ์์์ ํ ํฐ ์๋ฒ ๋ฉ์ด ์ผ๋ง๋ ๋ค์ํ๊ฒ ํผ์ ธ ์๋๊ฐ?
- Dataset Entropy
- ์ฌ๋ฌ ํ๋กฌํํธ ์๋ฒ ๋ฉ์ด ๋ฐ์ดํฐ์
์ ๋ฐ์์ ์ผ๋ง๋ ๋ค์ํ๊ฒ ํผ์ ธ ์๋๊ฐ?
- ๋์ entropy โ ์๋ก ๋ค๋ฅธ ํ๋กฌํํธ ๊ฐ ํํ์ด ์ ๊ตฌ๋ณ๋จ
- ๋ฎ์ entropy โ ์ ๋ ฅ์ ์๊ด์์ด ํํ์ด ์ ์ฌํด์ง (์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ)
- ์ฌ๋ฌ ํ๋กฌํํธ ์๋ฒ ๋ฉ์ด ๋ฐ์ดํฐ์
์ ๋ฐ์์ ์ผ๋ง๋ ๋ค์ํ๊ฒ ํผ์ ธ ์๋๊ฐ?
- Effective Rank
- ํํ ๊ณต๊ฐ์ด ์ค์ ๋ก ๋ช ์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋๋?
- ๊ฐ์ด ๋ฎ์์๋ก โ ๋๋ถ๋ถ ์ ๋ณด๊ฐ ์์ ์ฐจ์์ ์์ถ๋จ
- ๊ฐ์ด ๋์์๋ก โ ์ ๋ณด๊ฐ ๊ณ ๋ฅด๊ฒ ํผ์ง
- ํํ ๊ณต๊ฐ์ด ์ค์ ๋ก ๋ช ์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋๋?
- Prompt Entropy
๋ณํ ๋ถ๋ณ์ฑ ๊ธฐ๋ฐ
- InfoNCE
- ๊ฐ์ ์๋ฏธ์ ์ ๋ ฅ pair๊ฐ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์ผ๋ง๋ ์๋ก ๊ฐ๊น์ด์ง ์ธก์
- InfoNCE loss๊ฐ ๋ฎ์์๋ก robustํจ
- LiDAR
- Augmentation ์ ํ ์๋ฒ ๋ฉ์ด ์ผ๋ง๋ ์ ํด๋ฌ์คํฐ๋ง๋๋์ง ์ธก์
- LiDAR ์ค์ฝ์ด๊ฐ ๋์์๋ก robustํจ
- DiME
- Augmented pair๊ฐ random pair ๋๋น ์ผ๋ง๋ ์ ์ ๋ ฌ๋์ด์๋์ง ์ธก์
- ๋์์๋ก ์ ๋ ฌ ์๋จ
- InfoNCE
Experiments
Downstream Task Performanceโ๋ง์ง๋ง layer๊ฐ ํญ์ ์ต์ ์ธ๊ฐ?โ์ ๋ํ ์ค์ฆ์ ๊ฒ์ฆ
- ๋น๊ต๋ชจ๋ธ
- Pythia : Decoder-only Transformer
- Mamba : State Space Model
- BERT-base : Encoder-only Transformer
- ๋ฒค์น๋งํฌ : MTEB (Massive Text Embedding Benchmark)
- 32๊ฐ Task: Span classification, Semantic textual similarity, clustering, rerankingโฆ
โ ๊ฑฐ์ ๋ชจ๋ ํ์คํฌ์์ ์ค๊ฐ layer๊ฐ ๋ง์ง๋ง layer๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋ก
- ๋น๊ต๋ชจ๋ธ
Metrics vs. Performance Correlation์์ ์ ์ํ representation ํ์ง์ ๋ํ ํ๊ฐ metric๋ค์ด ์ค์ ๋ก ์ฑ๋ฅ๊ณผ ๊ด๋ จ ์๋์ง ๊ฒ์ฆ (dCor metric ํ์ฉ)
- dCor (distance Correlation) ๏ปฟ : Linear & Non-linear ๋ชจ๋์ ๋ํด ๋ ํ๋ ฌ (representation ์งํฉ) ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์กด์ฑ์ ์ธก์ ํ๋ ์งํ
โ Label ์์ด๋ "๊ฐ์ฅ ์ข์ ํํ์ ๊ฐ์ง layer"๋ฅผ ์ฐพ์ ์ ์๋ค!
Architectural and Scale Differences๋ชจ๋ธ ์ํคํ ์ฒ์ ํฌ๊ธฐ์ ๋ฐ๋ผ representation ํ์ง ๋ณํ ํจํด์ด ๋ค๋ฅธ์ง ํ์
Impact of Training Progression- ์ด๊ธฐ layer : ํ์ต ์งํ๋ฅ ๊ณผ ๊ด๊ณ์์ด representation์ด ์์ ๋จ
- ์ค๊ฐ layer : ํ์ต์ด ์งํ๋ ์๋ก entropy ๊ฐ์ & LiDAR score ์ต์ ์
- ๊ณก๋ฅ ์ smoothํด์ง โ ํ์ตํ๋ฉด์ ์ ์ญ์ ์ธ ์๋ฏธ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ๊ธฐ ์์ํจ!
Extreme Input Conditions๋น์ ์์ ์ธ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ง ๋ ๋ชจ๋ธ ๋ฐ์ ํ์ธ
(Random ํ ์คํธ & ํ ์คํธ ๋ฐ๋ณต)
- Repetition โ ์๋ฏธ ์๋ ๋ฐ๋ณต์ ์ฆ์ ๊ฐ์งํ๊ณ , ์ค๊ฐ layer์์ ํํ์ ๋จ์ํ/๋ฌด์ํจ
- Random ํ ์คํธ โ ์ด๊ธฐ layer๊ฐ ๋ ธ์ด์ฆ์ ๋ฏผ๊ฐํ์ฌ ๋ฌด์์ input์ ํํ ๋ค์์ฑ ์ฆ๊ฐ์ํด โ ์ค๊ฐ layer์์๋ ์์ถ๋จ
- Prompt ๊ธธ์ด๊ฐ ๊ธธ์๋ก ํํ ์์ถ ํจ๊ณผ๋ ๋ฏธ๋ฏธํด์ง
Comparison to Vision Transformers- Autoregressive Image Model (AIM) (์ figure์์ ํ๋, ์ฃผํฉ) : GPT์ฒ๋ผ ์์ฐจ ์์ธก ์งํํ๋ ๋ชจ๋ธ โ Pythia์ ๊ฐ์ decoder-only Transformer ์ฒ๋ผ ์ค๊ฐ layer์์ entropy๊ฐ ๊ฐ์ฅ ๋ฎ์
- ๋ฐ๋ฉด ViT (ํํฌ)์ ๊ฐ์ด non-autoregressive ๋ฐฉ์์ ํ์ต์ ํ์ฉํ๋ ๋ชจ๋ธ์ steadyํ ๊ณก์ ์ ๋ณด์ (BEiT ์ ์ธ)
- Non-autoregressive ๋ชจ๋ธ์ ์ค๊ฐ์์ ์ ๋ณด๋ฅผ ์์ถํ ํ์๊ฐ ์ ๋ค!
โ ๊ฒฐ๋ก : ํ์ต ๋ฐฉ์ (autoregressive ์ฌ๋ถ)์ ์ฐจ์ด๊ฐ ํํ๋ ฅ ์ฐจ์ด๋ฅผ ์ด๋์ด๋ธ๋ค!












