Layers at Similar Depths Generate Similar Activations Across LLM Architectures
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋๋ฌผ | โข ๊ฐ์ : ๋ชจ๋ธ์ด ๋ค๋ฅด๋ค๊ณ ํด์, activation๊น์ง ๋ค๋ฅธ๊ฑด ์๋๋ค๋ฅผ ๋ณด์ฌ์ค ์ฐ๊ตฌ. โข ์ฝ์ : ๊ฐ์ธ์ ์ธ ์๊ฐ์ผ๋ก LLM์ Pretrain-model์ด๋ Pre-training์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ์ต์์ผฐ์ํ ๋ฐ, ๊ทธ์ ๋ฐ๋ผ ๋น์ทํ ๋ฐ์ดํฐ๊ฐ ํ์ต๋์์ง ์์์๊น? ๊ทธ๋์ ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ผ๋ ์๋์ ์ธ layer์์ ๋น์ทํ๊ฒ ๋์จ๊ฒ ์๋๊ฐ? ์คํ์ ์ฐ์ธ ๋ชจ๋ธ๋ค์ ์ฌ์ ์ง์ ํน์ฑ(๋ฐ์ดํฐ ๋ถํฌ)์ ๊ณ ๋ คํด์ผ ํ์ง ์์๊น? ์ถ์. (๋ชจ๋ธ์ด ๋ค๋ฅด๋ pretrain ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๋ค๋ฅด๋ค๋ฅผ ์ ์ ๋ก ํ๋๊ฑฐ ๊ฐ์๋ฐ ์ด๋ป๊ฒ ์์ง? ๋ช ํํ์ง ์์ ๊ฒ ๊ฐ๋ค) โข ๋ณด์์ : ํ์คํ๊ฒ ๊ตฌ์กฐ์ ์ธ ํน์ง์ธ์ง ํต์ ์คํ์ด ํ์ํจ. (๋ชจ๋ ๋ชจ๋ธ ์ ์ฅ์์ ์์ ์๋ก์ด ๋ฐ์ดํฐ์ธ ๊ฒ์ ๊ฐ์ง๊ณ ์คํ์ ํ๋ค๋ ์ง.........?) | 3.4 |
| ํผ๋ | โข ๊ฐ์ : ์ ๋ง ๋ง์ ๋ชจ๋ธ๊ณผ ํ๋ผ๋ฏธํฐ์ ๋ํ ์คํ์ ์งํํจ์ผ๋ก์จ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ๊ฑธ ๊ฒ์ฆํจ โข ์ฝ์ & ๋ณด์์ : ์ด๋ค ์ ์ผ๋ก ์ธํด ์ ์ฌํจ์ด ๋ํ๋๋๊ฑด์ง ablation study ๊ฐ ์์์ผ๋ฉด ์ข๊ฒ ์ | 3 |
| thumbs-up | โข ์ฅ: ๋ชจ๋ธ์ ์ข
๋ฅ๋ณด๋ค๋ layer์ ๊น์ด์ ๋ฐ๋ผ ๋น์ทํ activation์ ๋ณด์์ ๋ฐํ. ๋ค์ํ ์คํ์ ํตํด ๊ฒ์ฆํ๊ณ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋ณด์ฌ์ค. โข ๋จ&๋ณด์: ์ ์ด๋ฐ ๋ถ์์ ํ๋์ง? ์ ๊ทธ๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์ถ๋์๋๊ฐ์ ๋ํ ๋ถ์ ๋ถ์กฑ. ์ฌ์ค์ ์์ฆ LLM์ด ๊ฑฐ์ ๋น์ทํ ๋ฐ์ดํฐ๋ก ํ์ต๋์๊ณ , ํฐ ํ์์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฐ๊ฑฐ ์๋์ผ? | 2.5 |
| ์์ผ๋ฉด์ ๋ณด์ | ์ฅ์ ๊ณผ ๋ณด์์ : ์๋ ๋
ผ๋ฌธ์ด๋ ๊ฝค ๋น์ทํจ. ๋ชจ๋ธ ๊ฐ ๊ณต์ ํ ์ ์๋ ๊ฑด ๋ญ๊ณ , ๋ค๋ฅธ ๊ฑด ๋ฌด์์ธ์ง ๋ถ์ํ๋ ๊ฑด ์ค์ํ๋ค๊ณ ์๊ฐํจ. ๊ธฐ์กด์๋ distillation ํํ์๋ค๋ฉด, ๋ค์ ๋จ๊ณ์์๋ ์ง์ ์ ์ผ๋ก ์ ๋ฌํ ์ ์์ง ์์๊น? ๋ชจ๋ธ์ด๋๊น, ์ฌ๋์ ์ค๋ฆฌ์ ์ด์๋ก ์์๋ง ๊ฐ๋ฅํ ๋ ์ด์์ด ๊ฐ๋ฅํ์ง ์์๊น? ๊ทธ๋ฐ ๋ฐฉํฅ์ ์ฐ๊ตฌ๋ ๊ถ๊ธํจ ๋จ์ : ๊ตฌ์กฐ๊ฐ ๊ทธ๋ ๊ฒ ๋ค๋ฅธ๊ฐ ์ถ์.. | 3.7 |
| ๋ ์๋ฆฌ์คํ์ | โข ๊ฐ์ : mutual k-NN๊ณผ affinity matrix๋ฅผ ์ฌ์ฉํด, โ์ด๋ค layer๊ฐ ์ด๋ค layer์ ๋์๋๋๊ฐโ๋ฅผ ์๊ฐ์ ์ผ๋ก๋ ์ฝ๊ฒ ์ ๋ฌํจ โข ์ฝ์ : ํ์์ ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ ๊ทธ๋ฐ alignment๊ฐ ์๊ธฐ๋์ง์ ๋ํ explanation์ ์ฝํจ. ๋ถ์์ธก๋ฉด์ด ์์. ๊ทธ๋ฆฌ๊ณ cosine similarity ๋ง๊ณ ๋ค๋ฅธ๊ธฐ์ค์ผ๋ก๋ ์คํ ๊ฐ๋ฅํ ๋ฏ โข ๋ณด์: ํ์์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์ ๋ฐ ๋ค๋ฅธ metrics์ ์ถ๊ฐ | 3.6 |
| ํ์ฝ | โข ์ฅ์ : ๋ฒ์ญ ํ
์คํธ ๋์์ ์คํ์ผ๋ก, ๋จ์ ํ ํฐ์ด ์๋ ๊ตฌ์กฐ์ ์ ๋ณด์ ๋ํด์๋ ๋ชจ๋ธ๋ค์ด ์ ์ฌํ layer activation ๊ณต์ ํจ์ ๋ณด์ โข ๋จ์ : ๋ค๋ฅธ ๋ชจ๋ธ์ด๋๋ผ๋ layer์ ์๋์ ์์น์ ๋ฐ๋ผ ๋น์ทํ ํน์ฑ์ ์ธ์ฝ๋ฉํ๋ค๋ ๊ฑด ๊ธฐ์กด์ ์๋ ค์ง ์ฌ์ค๊ฐ๋ค โข ๋ณด์์ : ๋ฐ๊ฒฌํ ์ฌ์ค์ ์ด๋ป๊ฒ ํ์ฉํ ์ ์์์ง ๊ถ๊ธํจ | 3.2 |
| ์์ง | โข ์ฅ์ : ๋จ์ผ LLM์ layer ๋ถ์์ ๋์ด, ์๋ก ๋ค๋ฅธ LLM์ layer alignment๋ฅผ ์ํํจ. ๊ฐ ๋ ์ด์ด๋ฅผ ํ๋ ฌ๋ก ๋งค์นญ์์ผ์ ํด์ํ ๊ฒ์ด ์๋ก์ด ๋ฐ์์. โข ์ฝ์ : Alignment๊ฐ ๋ฐ์ํ๋ ์ง์ ๋ํ ํ์ ์์ฃผ๊ณ ์ด๋ก ์ ์ค๋ช ์ด ๋ถ์ฌํจ. ๊ทธ๋ฆฌ๊ณ ๊ตฌ์กฐ์ ๊ด๊ณ๋ฅผ ๋ณด๊ธฐ ์ํด ์ ํํ nearest neighbor์ ๊ฒฝ์ฐ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์ ์ฒด ๊ตฌ์กฐ ๋ฐ์์ด ์ด๋ ค์. โข ๋ณด์์ : ์ ์ฒด์ ์ผ๋ก ์ผ๋ง๋ ๋น์ทํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋์ง ํ๊ฐํ๋ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต ์คํ์ด ํ์ | 3.3 |
| ํ์ด์ด | โข ์ฅ์ : LLM ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ์กฐ๊ฑด์์ ํ์ต๋์๋๋ผ๋ latent space๊ฐ ์ ์ฌํ ์ ์ ํด์ํ์ฌ ์ฆ๋ช
ํ ์ ์ด ๊ธฐ์ฌ๊ฐ ํฌ๋ค๊ณ ๋ด. โข ๋จ์ : ์ฆ๋ช ๋ถ๋ถ์ด ์ฝํ๊ณ ํ์ ์ค๋ช ์ผ๋ก ๋๋ถ๋ถ์ ๋ถ๋์ ์ฑ์ด ์ ์ด ์์ฌ์ด ๋ถ๋ถ์. โข ๋ณด์: ์ด ์ฌ์ค์ ๋ํ ํ์ ์ค๋ช ์ ๊ทธ์น๋ ๊ฒ์ด ์๋๋ผ ์ด๋ก ์ ์ฆ๋ช ์ด ๋ฐ์ณ์ฃผ์ด์ผ ํ ๊ฒ์. | 4 |
| ์ด์ฝ๋ฆฟ | โข ์ฅ์ : ์๋ก ๋ค๋ฅธ ์ํคํ
์ฒ์ LLM๋ค์ layer ๋จ์๋ก ๋น๊ตํ๋ค๋ ๋ฐ์ ์์ฒด๊ฐ ํฅ๋ฏธ๋ก์ ๊ณ affinity matrix๋ฅผ ์๊ฐํํ์ ๋ diagonal pattern์ด ๋์ ๋ฐ๋ก ๋ณด์ฌ์ ์ฃผ์ฅ์ด ์ง๊ด์ ์ผ๋ก ๋ณด์์. โข ์ฝ์ : top-k ์ด์์ด ๋ช ๊ฐ ๊ฒน์น๋์ง๋ง ๋ณด๊ธฐ ๋๋ฌธ์ activation space์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ค ๋ฐ์ํ์ง ๋ชปํ ์ ์์ ๊ฒ ๊ฐ์. k ๊ฐ์ ๋ฐ๊พธ๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง์ง ์์๊น. โข ๋ณด์์ : ๋ค๋ฅธ representation similarity ์งํ๋ก๋ ๊ฐ์ ์คํ์ ํด๋ณด๋ฉด ์ด๋จ๊น | 3.4 |
| ๋ฉ์ฟ ๋ฆผ๋ณด | residual connection์ด ์์์๋ ๋ถ๊ตฌํ๊ณ layer๊ฐ ๊น์ด์ง๋ฉด ์์ ๊ฐ๋ ์ ์ธ์ฝ๋ฉํจ์ ๋ฐ๋ผ space ํํ๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ ๊ฒ์ ๊ฝค ๋๋ผ์. ๋ค๋ฅธ ๋ชจ๋ธ๋ผ๋ฆฌ ๋น์ทํ ๊ฒ์ ์ด๋์ ๋ ๋ฉ๋ํ ๋งํ ๊ฒฐ๊ณผ์. ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ๋น์ทํ layer๋, ๊ฐ์ ๋ชจ๋ธ์ ์๋ ๋ค๋ฅธ ๊น์ด์ layer์ ๋ํด์, activation์ ๋์ฒดํ์ ๋ ์ด๋ป๊ฒ ์๋ํ๋์ง๋ ๊ถ๊ธํจ! | 3.6 |
TL; DR
- ์๋ก ๋ค๋ฅธ LLM๋ค์ ๋น๊ตํ์ ๋, ๋น์ทํ ์๋ depth์ layer๋ค๋ผ๋ฆฌ activation geometry๊ฐ ์ ์ฌํ๊ฒ ๋ํ๋จ
- ์ฆ, LLM๋ง๋ค layer representation์ ๋ณํ์ง๋ง, ๊ทธ ๋ณํ์ progression์ ์ํคํ ์ฒ๋ฅผ ๋์ด ์ด๋ ์ ๋ ๊ณต์ ๋จ
Summary
- Layers at Similar Depths Generate Similar Activations Across LLM Architectures, COLMโ25
๐ Paper | ๐ฅ๏ธ Code
- Citation: 11
Introduction
Background
- ์๋ก ๋ค๋ฅธ ์ํคํ
์ฒ์ LLM๋ค์ด ๋ง๋ค์ด๋ด๋ activation structure๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ๋ถ์ํ๊ณ ์ ํจ
๋ ๋ฆฝ์ ์ผ๋ก ํ์ต๋ LLM๋ค์ latent space๋ ์๋ก ์ด๋ป๊ฒ ๊ด๋ จ๋๋๊ฐ?
๊ทธ ์์ ๋ชจ๋ธ ์ ๋ฐ์ ๊ฑธ์ณ ๊ณต์ ๋๋ ๋ณดํธ์ ์ฑ์ง์ด ์๋๊ฐ?
- Representation similarity๋ฅผ ๋ณผ ๋๋, activation์ด ์ถ permutation์ด๋ ๋ถํธ ๋ฐ์ (sign flip) ๊ฐ์ trivialํ ์ฐจ์ด๋ฅผ ๊ฐ์ง ์ ์์
- ๋ ๋ชจ๋ธ์ด ์ฌ์ค์ ๋น์ทํ ํํ์ ๋ฐฐ์ฐ๊ณ ์์ด๋ ์ด๋ค ์ถ์ ์์๊ฐ ๋ฐ๋๊ฑฐ๋ ์ด๋ค ์ถ์ ๋ถํธ๊ฐ ๋ฐ๋๋ก ์ ์๋์ด ๋ฒกํฐ ์ขํ๊ฐ ์์ฒด๋ ๊ฝค ๋ค๋ฅด๊ฒ ๋ณด์ผ ์ ์์
Example of permutation / sign flip
- e.g 1., LLM์ ์ด๋ค layer activation์ ๋ฒกํฐ๋ผ๊ณ ํ ๋, ๊ฐ ๋ฌธ์ฅ์ ๋ฒกํฐํํ์ด ๋ค์๊ณผ ๊ฐ์:
- ๋ฌธ์ฅ A = [1.2, -0.7, 3.1] | ๋ฌธ์ฅ B = [1.1,โ0.6,3.0]
- e.g 2., ๊ฐ์ ์ง๋๋ฅผ ํ๋๋ ๋ถ์ชฝ์ด ์๋ก, ํ๋๋ ๋จ์ชฝ์ด ์๋ก, ํ๋๋ x์ถ/y์ถ์ ๋ฐ๊ฟ์๊ทธ๋ฆผ
โ ์ขํ ์ซ์๋ ๋ฌ๋ผ์ ธ๋, ์ด๋ ๋์๊ฐ ์ด๋๋์์ ๊ฐ๊น์ด์ง๋ ๊ฑฐ์ ๋ฐ๋์ง ์์
- e.g 1., LLM์ ์ด๋ค layer activation์ ๋ฒกํฐ๋ผ๊ณ ํ ๋, ๊ฐ ๋ฌธ์ฅ์ ๋ฒกํฐํํ์ด ๋ค์๊ณผ ๊ฐ์:
โ ๋ฒกํฐ ์ขํ๊ฐ์ ๊ทธ ์์ฒด๋ก ์ง์ ๋น๊ตํ๋ฉด โ์ด? ์์ ๋ค๋ฅด๋ค?โ๋ผ๊ณ ๋์ฌ ์ ์๋๋ฐ, ์ฌ์ค์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ค๋ฅธ ์ขํ๊ณ๋ก ํํํ ๊ฒ๋ฟ์ผ ์ ์์
- ๋ ๋ชจ๋ธ์ด ์ฌ์ค์ ๋น์ทํ ํํ์ ๋ฐฐ์ฐ๊ณ ์์ด๋ ์ด๋ค ์ถ์ ์์๊ฐ ๋ฐ๋๊ฑฐ๋ ์ด๋ค ์ถ์ ๋ถํธ๊ฐ ๋ฐ๋๋ก ์ ์๋์ด ๋ฒกํฐ ์ขํ๊ฐ ์์ฒด๋ ๊ฝค ๋ค๋ฅด๊ฒ ๋ณด์ผ ์ ์์
Motivation
- ๊ฐ์ ์
๋ ฅ ์งํฉ ๏ปฟ๋ฅผ ๋ชจ๋ธ์ ๋ฃ๊ณ ํน์ layer์ activation์ ๋ชจ์ผ๋ฉด, ๊ฐ ์
๋ ฅ ๏ปฟ์ ๋ํด โ์ด activation๊ณผ ๊ฐ์ฅ ๋น์ทํ ๋ค๋ฅธ ์
๋ ฅ๋คโ, ์ฆ nearest neighbors์ ์ฐพ์ ์ ์์
- ์ ์๋ค์ด ๊ด์ฐฐํ ๋ ๊ฐ์ง ํ์/์ฃผ์ฅ:
Claim 1: ๊ฐ์ ๋ชจ๋ธ ์์์๋ ๊น์ด๊ฐ ๋ค๋ฅธ layer๋ค์ ์๋ก ๋ค๋ฅธ nearest-neighbor relationship๋ฅผ ํ์ฑํจ
Claim 2: ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ผ๋ ๋์๋๋ ๊น์ด์ layer๋ค์ ๋น์ทํ nearest-neighbor relationship๋ฅผ ํ์ฑํจ
- ์ ์๋ค์ด ๊ด์ฐฐํ ๋ ๊ฐ์ง ํ์/์ฃผ์ฅ:
โ ์ฆ, activation์ depth์ ๋ฐ๋ผ ๋ณํ์ง๋ง ๊ทธ ๋ณํ์ progression ์์ฒด๋ ๋ชจ๋ธ๋ค ์ฌ์ด์์ ๊ณต์ ๋๋ค!
So in this Paperโฆ
- ์ด ๊ฐ์ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ณด๊ธฐ ์ํด, ์๋ก ๋ค๋ฅธ LLM์ ๋ชจ๋ layer pair๋ฅผ ๋น๊ตํ๋ layer-by-layer affinity matrix๋ฅผ ๊ตฌ์ฑํจ
- ๊ฐ cell์ ๋ layer๊ฐ ๋ง๋๋ nearest-neighbor relationship์ ์ ์ฌ๋๋ฅผ ๋ํ๋
- ๊ทธ๋ฆฌ๊ณ ์ด affinity matrix์ diagonal structure๊ฐ ๋ํ๋๋์ง ๋ณด๊ณ ์ ํจ
- diagonal์ด ๊ฐํ๋ค โ ๋น์ทํ ์๋์ ๊น์ด์ ์๋ layer๋ผ๋ฆฌ ๋ ์ ์ฌํ๋ค
- off-diagonal์ด ์ฝํ๋ค โ ๊น์ด๊ฐ ๋ง์ด ๋ค๋ฅธ layer๋ผ๋ฆฌ๋ ์ ์ฌ์ฑ์ด ๋ฎ๋ค
โ ์ด๋ฅผ ํตํด ๊ฐ๋ณ layer ํ๋ํ๋๊ฐ ์๋, LLM๋ค์ด depth๋ฅผ ๋ฐ๋ผ activation geometry๋ฅผ ์ด๋ป๊ฒ ๋ณํ์ํค๋์ง๋ฅผ ๋ชจ๋ธ๊ตฐ ์์ค์์ ๋ถ์ํ๊ณ ์ ํจ
Contribution
- 24๊ฐ์ open-weight LLM (1Bโ70B)์ ๋์์ผ๋ก, ์๋ก ๋ค๋ฅธ ์ํคํ
์ฒ์ LLM๋ค ์ฌ์ด layer-wise affinity matrix๋ฅผ ๋๊ท๋ชจ๋ก ๋น๊ตํจ
- ์ง์ฌ๊ฐํ affinity matrix์์๋ depth-aligned pattern์ ๋ถ์ํ ์ ์๋๋ก generalized diagonal์ ์ ์
- activation similarity๋ฅผ mutual k-nearest neighbors (mutual k-NN) ๊ธฐ๋ฐ์ผ๋ก ์ธก์ ํด, diagonal structure๋ฅผ ์ผ๊ด๋๊ฒ ๋ณด์ฌ์ค
Method
- Affinity matrix๋ก ๋ชจ๋ layer pair์ similarity๋ฅผ ์ ๋ฆฌํ ๋ค, ์ง์ฌ๊ฐํ matrix์์๋ depth correspondence๋ฅผ ๋ณผ ์ ์๋๋ก generalized diagonal์ ์ ์ํ๋ค.
Affinity Matrix Construction
- Representation / Activation ์ ์
- ๊ฐ transformer ๋ชจ๋ธ ๏ปฟ์ text๋ฅผ vector๋ก ๋ณด๋ด๋ embedding function๋ค์ ์งํฉ์ผ๋ก ๋ด
- e.g., embedding function ๏ปฟ: ์ ๋ ฅ text๋ฅผ ๋ฐ์์, ๏ปฟ 10๋ฒ์งธ layer์ ๋ง์ง๋ง token activation ๋ฒกํฐ๋ฅผ ๋ด๋๋ ํจ์
- ๊ฐ layer (decoder module) ๋์์ ๋ง์ง๋ง token ์์น์ hidden state ๋ฒกํฐ๋ฅผ ๊บผ๋
e.g.,
- layer 1์ ๋ง์ง๋ง token hidden state
- layer 2์ ๋ง์ง๋ง token hidden state
- ...
- layer L์ ๋ง์ง๋ง token hidden state
โ ๋ฐ๋ผ์ ์ ๋ ฅ ํ๋์ layer ํ๋๊ฐ ์ฃผ์ด์ง๋ฉด, ๊ทธ layer์ representation vector ํ๋๊ฐ ์ป์ด์ง
- ๊ฐ transformer ๋ชจ๋ธ ๏ปฟ์ text๋ฅผ vector๋ก ๋ณด๋ด๋ embedding function๋ค์ ์งํฉ์ผ๋ก ๋ด
- Nearest-neighbor relationship
- ๋ฐ์ดํฐ์
๏ปฟ์ ๊ฐ ์
๋ ฅ ๏ปฟ์ ๋ํด, embedding function ๏ปฟ๊ฐ ๋ง๋ vector space์์ ๏ปฟ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๏ปฟ๊ฐ์ ๋ค๋ฅธ ์
๋ ฅ์ ์ฐพ์
- ์ด๋ cosine distance๋ฅผ ์ฌ์ฉํจ
- ๋ฐ์ดํฐ์
๏ปฟ์ ๊ฐ ์
๋ ฅ ๏ปฟ์ ๋ํด, embedding function ๏ปฟ๊ฐ ๋ง๋ vector space์์ ๏ปฟ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๏ปฟ๊ฐ์ ๋ค๋ฅธ ์
๋ ฅ์ ์ฐพ์
- Representational similarity measure: Mutual k-NN
- ๋ embedding function ๏ปฟ๊ฐ ์์ ๋, ๊ฐ ์
๋ ฅ ๏ปฟ์ ๋ํด ๏ปฟ๊ฐ ๋ฝ์ top-k ์ด์๊ณผ ๏ปฟ๊ฐ ๋ฝ์ top-k ์ด์์ด ์ผ๋ง๋ ๊ฒน์น๋์ง์ ํ๊ท ๋น์จ์ mutual k-NN์ผ๋ก ์ธก์
โ โ๋ layer๊ฐ ๊ฐ์ ์ ๋ ฅ๋ค์ ๋ํด ๋น์ทํ local geometry / ์ด์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๊ฐ?โ๋ฅผ ๋ณด๋ ์ฒ๋
- โ๋ layer๊ฐ ๋น์ทํ๋คโ== mutual k-NN score๊ฐ ๋๋ค๋ ๋ป
- ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ ๏ปฟ ๋ง๋ค, ๋ layer ๏ปฟ๊ฐ ๋ฝ์ top-k ์ด์์ด ์ผ๋ง๋ ๊ฒน์น๋์ง ๋ณธ ๋ค, ๊ทธ ๋น์จ์ ์ ์ฒด ๋ฐ์ดํฐ์
์ ๋ํด ํ๊ท ๋ธ ๊ฒ
- ๏ปฟ ๊ฐ ํผ: ๏ปฟ์ ๏ปฟ๊ฐ โ๋น์ทํ local geometryโ๋ฅผ ๊ฐ์ง
- ๏ปฟ ๊ฐ ์์: ๊ฐ์ ์ ๋ ฅ์ ๋ด๋ ์๋ก ๋ค๋ฅธ ์ด์๋ค์ ๊ณ ๋ฆ
- ๋ embedding function ๏ปฟ๊ฐ ์์ ๋, ๊ฐ ์
๋ ฅ ๏ปฟ์ ๋ํด ๏ปฟ๊ฐ ๋ฝ์ top-k ์ด์๊ณผ ๏ปฟ๊ฐ ๋ฝ์ top-k ์ด์์ด ์ผ๋ง๋ ๊ฒน์น๋์ง์ ํ๊ท ๋น์จ์ mutual k-NN์ผ๋ก ์ธก์
- Affinity Matrix
- ๋ ๋ชจ๋ธ ๏ปฟ, ๏ปฟ์ ๊ฐ layer ์ ๏ปฟ์ ๋ํด similarity๋ฅผ ๊ณ์ฐํด ๏ปฟ ํํ์ matrix๋ฅผ ๋ง๋ฆ
- Setting
- similarity measure: mutual k-NN (k=10)
- dataset ๏ปฟ: OpenWebText 2048๊ฐ ์ํ
โ affinity matrix์ ๊ฐ cell์ โ๋ layer๊ฐ ๊ฐ์ ์ ๋ ฅ๋ค์ ๋ํด ๋น์ทํ nearest-neighbor relationship์ ๋ง๋๋ ์ ๋โ๋ฅผ ์๋ฏธ
Generalized diagonal
- Generalized diagonal
- Rectangular matrix์์๋ diagonal์ ์ ์ํ๊ธฐ ์ํด generalized diagonal์ ๋์ ํจ
- ์ผ๋ฐ์ ์ผ๋ก diagonal์ ์ ์ฌ๊ฐ ํ๋ ฌ์์๋ง ์์ฐ์ค๋ฌ์
- e.g., 32-layer model vs 32-layer model ์ด๋ผ๋ฉด
โ (1, 1), (2, 2), โฆ (i, i) ์ด๋ฐ์์ผ๋ก ๋๊ฐ์ ์ ๋ณผ ์ ์์
- e.g., 32-layer model vs 32-layer model ์ด๋ผ๋ฉด
- ํ์ง๋ง ์ด ๋
ผ๋ฌธ์ layer ์๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค (e.g., 32-layer model vs 48-layer model) ๋ ๋น๊ตํ๋ฏ๋ก, ์ ๋์ ์ธ layer ๋ฒํธ๊ฐ ์๋๋ผ ์๋์ ๊น์ด(relative depth) ๊ฐ ๋น์ทํ pair๋ค์ diagonal์ผ๋ก ๋ณด๊ณ ์ ํจ
- e.g., ์์ ๋ชจ๋ธ์ 25% ์ง์ layer, ํฐ ๋ชจ๋ธ์ 25% ์ง์ layer ์ ์๋ก ๋์๋๋ depth์
- ๋ฐ๋ผ์ generalized diagonal์ ๋น์ทํ ์๋ depth๋ฅผ ๊ฐ๋ layer pair๋ค์ด ํฌํจ๋๋ diagonal band / region์ผ๋ก ๊ฐ์ฃผํจ
โ i.e., โ๋ฑ ํ ์ค์ diagonalโ์ด ์๋, diagonal-like ์์ญ
๋ ผ๋ฌธ์์๋ affinity matrix์ diagonal pattern์ด ๋จ์ํ ์ฐ์ฐ์ด ์๋๋ผ ์ค์ ๊ฒฝํฅ์ธ์ง ํ์ธํ๊ธฐ ์ํด naive t-test์ block bootstrap์ ์ฌ์ฉํ์ฌ ๊ฒ์ฆํจ
Experiment
Setting
Dataset
- Main: OpenWebText์์ ๋๋ค ์ํ๋งํ 2048๊ฐ text
- Appendix / sensitivity ๋ถ์์ฉ:
- IMDB movie reviews, parallel English/German book translations, IFEval, MMLU, OPUS Books (English / German), Wikipedia featured article lead paragraphs, random alphanumeric strings
Results
Main Claim 1, Claim2
- ๊ฐ์ ๋ชจ๋ธ์ ๋ค๋ฅธ layer depth์, ๋ค๋ฅธ ๋ชจ๋ธ์ ๋์ ๋๋ depth์ layer์ ๋น๊ต (Claim 1 / Claim 2)
Claim 1: ๊ฐ์ ๋ชจ๋ธ ์์์๋ ๊น์ด๊ฐ ๋ค๋ฅธ layer๋ค์ ์๋ก ๋ค๋ฅธ nearest-neighbor relationship๋ฅผ ํ์ฑํจ
Claim 2: ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ผ๋ ๋์๋๋ ๊น์ด์ layer๋ค์ ๋น์ทํ nearest-neighbor relationship๋ฅผ ํ์ฑํจ
- ๊ฐ์ ๋ชจ๋ธ ์์์๋ layer 10 vs layer 30์ฒ๋ผ ๊น์ด๊ฐ ๋ค๋ฅด๋ฉด activation geometry๊ฐ ๋ฌ๋ผ์ง
- activation geometry: ํ layer์ activation space์์ ์ ๋ ฅ๋ค์ด ์๋ก ์ด๋ค ์๋์ ์์น ๊ด๊ณ
- ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ผ๋ ๋น์ทํ ์๋ depth์ ์๋ layer๋ค์ ์ ์ฌํ activation geometry๋ฅผ ๊ฐ์ง ์ ์์
โ layer๋ณ geometry๋ ๋ณํ์ง๋ง, ๊ทธ ๋ณํ์ ์์/์งํ์ ๋ชจ๋ธ๋ง๋ค ๊ณต์ ๋จ
Llama-3.1-8B layer 10 vs Gemma-2-9B layer 20
- OpenWebText์ ํน์ text ๏ปฟ ํ๋์ ๋ํด, ๋ ๋ชจ๋ธ์ ๋์๋๋ layer๊ฐ ๊ณ ๋ฅธ top-10 nearest neighbors๋ฅผ Venn diagram์ผ๋ก ๋น๊ต
Detail
- ๊ธฐ์ค์ด ๋๋ ํ ์คํธ t ๋ฅผ ๊ธฐ์ค์ผ๋ก, Llama-3.1-8B์ layer 10, Gemma-2-9B์ layer 20 ์์ ๊ฐ๊ฐ activation์ ๋ฝ์
- ๊ฐ layer์ activation space ์์์ ๏ปฟ์ ๊ฐ์ฅ ๊ฐ๊น์ด ํ ์คํธ 10๊ฐ, ์ฆ top-10 nearest neighbors ๋ฅผ ์ฐพ์ (cosine distance)
โ ๊ฒน์น๋๊ฒ ๋ง์์๋ก ๋ layer๊ฐ t ์ฃผ๋ณ์ local neighborhood๋ฅผ ๋น์ทํ๊ฒ ๋ณด๊ณ ์๋ค๋ ๋ป
- OpenWebText์ ํน์ text ๏ปฟ ํ๋์ ๋ํด, ๋ ๋ชจ๋ธ์ ๋์๋๋ layer๊ฐ ๊ณ ๋ฅธ top-10 nearest neighbors๋ฅผ Venn diagram์ผ๋ก ๋น๊ต
Llama-3.1-8B layer 30 vs Gemma-2-9B layer 40
- ๊ฐ์ text ๏ปฟ์ ๋ํด, ๋ ๋ค์ชฝ์ ์๋ก ๋์ํ๋ layer๋ค์์ top-10 nearest neighbors๋ฅผ ๋น๊ต
- ๊ฐ์ ๋ชจ๋ธ ์์์๋ depth๊ฐ ๋ฐ๋๋ฉฐ ๋ณด๋ ๊ตฌ์กฐ๊ฐ ๋ฐ๋๋๋ฐ, ๊ทธ ๋ฐ๋ ๊ตฌ์กฐ ์ญ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋์ depth์ ๋ค์ ๋ง๋ฌผ๋ฆผ
- ๊ฐ์ ๋ชจ๋ธ์ ๋ค๋ฅธ layer depth์, ๋ค๋ฅธ ๋ชจ๋ธ์ ๋์ ๋๋ depth์ layer์ ๋น๊ต (Claim 1 / Claim 2)
Main Result: Diagonal Structure in Layer Affinity Matrices
- OpenWebText 2048๊ฐ์ ๋ํด, 24๊ฐ ๋ชจ๋ธ์ layer pair similarity๋ฅผ affinity matrix๋ก ์๊ฐํ
- LLM์ ๋ค์ํ ์กฐํฉ์์ diagonal structure๊ฐ ๋ํ๋จ
โ ๋น์ทํ ์๋์ ๊น์ด์ layer๋ผ๋ฆฌ ๋ ์ ์ฌํ๋ค๋ ์๋ฏธ
โ LLM๋ค์ depth์ ๋ฐ๋ผ distinctํ activation geometry์ progression์ ๋ง๋ค๊ณ , ๊ทธ progression์ด ์ํคํ ์ฒ๋ฅผ ๋์ด largely shared ๋จ
Depth correspondence์ ํํ ๋ถ์
- ๊ฐ์ฅ ๋น์ทํ layer๊ฐ ์๋ ๋ชจ๋ธ์ ์ด๋ depth์ ๋ํ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ฐ depth๊ฐ ์ผ๋ง๋ ๋์ layer๋ฅผ ๊ฐ์ง๋์ง ํ์ธํ๊ณ ์ ํจ
Detail
- (a) most similar depth between two models
- x์ถ: model 1์์์ ์๋ ๊น์ด
- y์ถ: ๊ทธ layer์ ๊ฐ์ฅ ๋น์ทํ model 2 layer์ ์๋ ๊น์ด
- (b) max similarity to other model
- x์ถ: model 1์ ์๋ ๊น์ด
- y์ถ: ๊ทธ depth์์ model 2์ ์ด๋ค layer์๋ ์ป์ ์ ์๋ ์ต๋ similarity
- (a) most similar depth between two models
- (a) ๊ฐ๊ฐ์ ์ ์ model pair ๏ปฟ ์ ๋ํ๋
โ Similar layer์ ์ ์ฌํ (๋น๋ก๋๋) ๊น์ด์ ๋ํ๋จ (e.g., ์ ์ฒด depth์ 30% ์ง์ ๋ 30% ์ง์ )
- (b) ๋ค๋ฅธ ๋ชจ๋ธ์์ ๊ฐ์ฅ ์ ๋ง๋ counterpart๋ฅผ ์ฐพ์์ ๋, ๊ทธ similarity๊ฐ ์ผ๋ง๋ ๋๋๊ฐ? ๋ฅผ ๋ด
โ ๋๋ถ๋ถ ์ ์ด depth ์ ๋ฐ์ ๊ฑธ์ณ ํฌ๊ฒ ์ ๋ฌด๋์ง & ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด์ง๋ง ๋ด๋ถ์ ์ผ๋ก ๊ฝค ๋น์ทํ ์์์ ๋ณด์
- (c) ๋ชจ๋ ๋ชจ๋ธ ์์ affinity matrix ์ ํ๊ท ์ ์ทจํ๊ณ , ์ด๋ฅผ ์ ์ฌ๊ฐํ์ผ๋ก ๋ง์ถค
โ ๋น์ทํ ์๋ ๊น์ด๋ผ๋ฆฌ ๋ ์ ์ฌํจ
- ๊ฐ์ฅ ๋น์ทํ layer๊ฐ ์๋ ๋ชจ๋ธ์ ์ด๋ depth์ ๋ํ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ฐ depth๊ฐ ์ผ๋ง๋ ๋์ layer๋ฅผ ๊ฐ์ง๋์ง ํ์ธํ๊ณ ์ ํจ
On-diagonal vs. off-diagonal mean similarity
Detail
- (a) generalized diagonal: ํ๋์ ๋ โ์์ญโ ์
- (b) ๊ฐ ์ ํ๋๊ฐ ๋ชจ๋ธ pair ํ๋๋ฅผ ์๋ฏธ
- x์ถ: generalized diagonal ์ layer pair๋ค์ ํ๊ท similarity
- y์ถ: generalized diagonal ๋ฐ layer pair๋ค์ ํ๊ท similarity
- ์ ์ : x=y ์ถ (on-diagonal mean = off-diagonal mean ์ธ ๊ฒฝ๊ณ์ )
- ์ ๋ค์ด ์ ์ ์๋์ชฝ์ ๋ชฐ๋ ค ์์ โ ๋น์ทํ ์๋ depth์ layer pair๋ค์ด ํ๊ท ์ ์ผ๋ก ๋ ๋์ similarity๋ฅผ ๊ฐ์ง
Cross-lingual Analysis: English vs. German
- ๊ฐ์ ๋ด์ฉ์ ๊ฐ์ง ์์ด text๋ฅผ ๋ชจ๋ธ 1์, ๋ ์ผ์ด ๋ฒ์ญ text๋ฅผ ๋ชจ๋ธ 2์ ๋ฃ์ด cross-lingual nearest-neighbor preservation์ ๋ณด๊ณ ์ ํจ
- ๊ฐ์ ์ธ์ด๋ฅผ ๋ฃ์ ๋๋ณด๋ค similarity๋ ๋ฎ์์ง๊ธด ํ์ง๋ง ๊ทธ๋๋ ์ฝํ diagonal structure๋ ๋จ์์์
โ diagonal structure๊ฐ ๋จ์ํ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฃ์ด์ ์๊ธด ํ์์ด ์๋, ์ธ์ด๊ฐ ๋ฌ๋ผ๋ ์ด๋ ์ ๋ ์ ์ง๋๋ ๋ ๊ตฌ์กฐ์ ์ธ ํ์์
Effect of Instruction Tuning on Activation Structure
- Gemma-2-9B base vs Gemma-2-9B IT๋ฅผ ๋น๊ตํ๊ณ , input์ OpenWebText์ IFEval๋ก ๋ฐ๊ฟ
- OpenWebText: ์ผ๋ฐ ์์ฐ์ด ์น ํ ์คํธ
- IFEval: instruction-following ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ค๊ณ ๋ง๋ ํ๋กฌํํธ ๋ฐ์ดํฐ์
- base ๋ชจ๋ธ๊ณผ instruction-tuned ๋ชจ๋ธ์ activation structure ์ฐจ์ด๊ฐ ์ ๋ ฅ ๋ถํฌ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง๋ฅผ ๋ณด๊ณ ์ ํจ
- OpenWebText (a): base vs IT ์ฌ์ด์๋ ์ depth์์ strong diagonal structure๊ฐ ๋ณด์
โ ์ผ๋ฐ ์น ํ ์คํธ์์๋ base์ IT๊ฐ ์ฌ์ ํ ๋น์ทํ ๋์ layer ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง
- IFEval (b): ํนํ later layers์์ similarity๊ฐ ๋ง์ด ๋ฎ์์ง
โ instruction-following์ ๋ง์ถ ์ ๋ ฅ์์๋, fine-tuning์ ์ํฅ์ด late layers์์ ๋ ํฌ๊ฒ ๋๋ฌ๋จโ input distribution์ด diagonal structure์ ์ํฅ์ ์ค ์ ์์
- Gemma-2-9B base vs Gemma-2-9B IT๋ฅผ ๋น๊ตํ๊ณ , input์ OpenWebText์ IFEval๋ก ๋ฐ๊ฟ
Random alphanumeric strings
- ์๋ฏธ ์๋ ๋๋ค ๋ฌธ์์ด 2048๊ฐ๋ฅผ ์
๋ ฅํด affinity matrix์ ๋ด
- diagonal structure๊ฐ ์ ๋ง ์๋ฏธ ์๋ representation progression์ ๋ฐ์ํ๋์ง, ์๋๋ฉด ์๋ฌด ์ ๋ ฅ์๋ ์๋์ผ๋ก ๋์ค๋ ํจํด์ธ์ง ๋ณด๊ณ ์ ํจ(์ ๋ ฅ ๋ถํฌ์ ๋ํ ๋ฏผ๊ฐ๋ ํ์ธ)
- ๋ชจ๋ธ ๊ฐ nearest-neighbor similarity๋ ์ฌ์ ํ ์กด์ฌํ์ง๋ง, diagonal structure๋ ์ฌ๋ผ์ง
- Early / late layers๋ random strings์์๋ ์๋ก ๋์ agreement๋ฅผ ๋ณด์
- ์ ์๋ค์ด ๊ทธ agreement๋ฅผ ๋ฏ์ด๋ณด๋ last few characters ๊ฐ์ ํ๋ฉด feature์ ๋ง์ด ์์กดํ๋ค๊ณ ํจ
- i.e., random string์๋ ์๋ฏธ์ ๊ตฌ์กฐ๊ฐ ์์ผ๋๊น ๋ชจ๋ธ์ด neighbor๋ฅผ ๊ณ ๋ฅผ ๋ ๋ ๊น์ semantic structure ๋์ ์ด๋ฐ ์ฝ๊ฒ ์กํ๋ ํ๋ฉด ๋จ์์ ๊ธฐ๋๋ค๋ ์๋ฏธ
- e.g., โ๋ ๋ ๊ธ์๊ฐ ๊ฐ๋คโ, โํํ๊ฐ ๋น์ทํ๋คโ ๊ฐ์ ์์ ๊ธฐ์ค
โ ๋ฐ๋ผ์ diagonal structure๋ โ๋ชจ๋ธ์ด๋ฉด ํญ์ ๋์ค๋ ํ์โ์ด ์๋๋ผ, ์ ๋ ฅ ๋ถํฌ์ ์์กดํ๋ ํ์
- ์๋ฏธ ์๋ ๋๋ค ๋ฌธ์์ด 2048๊ฐ๋ฅผ ์
๋ ฅํด affinity matrix์ ๋ด
















