Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| thumbs-up | โข ์ฅ: probing์ ๋ฒ์ฉ์ ์ผ๋ก ํ์ฉ๋๋ SAE์ ํ๊ณ๋ฅผ ์ ์ํ๊ณ , ์๊ฐ์ ๊ฐ๋
์ ๋์
ํจ์ผ๋ก์ ๊ณ ์์ค์์์ Language modeling ๋ถ์์ ๊ฐ๋ฅ์ผ ํจ โข ๋จ&๋ณด์: ์๊ฐ์ ์ผ๊ด์ฑ ์ธก์ ์ ์ ํ๊ฑธ๊น...? | 3.5 |
| ์์ผ๋ฉด์ ๋ณด์ | ์ฅ์ : ์ฐ๊ตฌ ๋๊ธฐ๊ฐ ๊ฝค ๋๋ ทํจ. ์์ด๋์ด๋ ๋ฉ๋์ด ๋๋ฉฐ, ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ ์ ๋์์. ๋จ์ : ๋งํธ๋ฃ์์นด sae์ ํฌ๊ฒ ๋ค๋ฅธ๊ฑด์ง ์ ๋ชจ๋ฅด๊ฒ ์. ํต์ฌ์ ๊ณ ์์ค ์ ์์ค ๊ตฌ๋ถ ๊ฐ์๋ฐ, ๊ฐ์๋ณด์ธ๋ค. ๋ณด์์ : ์ธ์ ํ ํฐ์ด ์๋๋ผ, ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ ์๋ ํ ํฐ์ด ์๋ ๊ฒ ์๋๊ฐ? | 3.7 |
| ๋ ์๋ฆฌ์คํ์ | โข ์ฅ์ : sequential structure์ ๊ณ ๋ คํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ์๊ฐ ์ง๊ด์ ์ด๊ณ , ๊ธฐ์กด SAE์ ํ๊ณ๋ฅผ ์ค๋๋ ฅ ์๊ฒ ์ง์ ํจ โข ์ฝ์ : ์๋ฌด๋๋ ์ด์ token์ activation๊น์ง ๊ฐ์ง๊ณ ์ฐ์ฐํด์ผํ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ๋ ๊ธฐ์กด๋ณด๋ค ๋ ๋ง์ด ๋ค๋ฏ โข ํน์ ๊ณ ์์ค feature์ผ๋ก steering์ ํ์ ๋, token ๋จ์์์ activation์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ๊ถ๊ธํจ | 4.3 |
| ์์ง | โข ์ฅ์ : ๊ธฐ์กด SAE ๊ตฌ์กฐ ์ ์งํ๋ฉด์ contrastive loss ํ๋ ์ถ๊ฐ๋ก ์ฑ๋ฅ ๊ฐ์ ํ๊ณ , ์ถ์ถ๋ feature๊ฐ ์๋ฏธ ๊ธฐ์ค์ผ๋ก ํด๋ฌ์คํฐ๋ง๋๋ค๋๊ฑธ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค โข ์ฝ์ : ์๋งจํฑ feature๊ฐ ์๊ฐ์ ํ๋ฆ๊ณผ ๊ด๊ณ์์ด smoothํ๋ค๋ ๊ฐ์ ์ด ๋ชจํธํจ. ์ค์ ๋ก ๋ํ๋ ์ฃผ์ ๊ฐ ๋น๋ฒํ ๋ฐ๋๊ณ , ์ฝ๋๋ ํ์ค๋ง๋ค ์๋ฏธ๊ฐ ๊ธ๊ฒฉํ๊ฒ ๋ณํ๋๋ฐ... ์๋ชป๋ bias๋ฅผ ๊ฐ์ ๋ก ํ์ต์ํฌ ์ํ์ด ์ปค๋ณด์ + ๊ทธ๋ฆฌ๊ณ ์ธ์ ํ ํฐ๋ง ๊ณ ๋ คํด์ long-range dependency ๊ณ ๋ ค๊ฐ ์ด๋ ค์ โข ๋ณด์์ : Long-range dependency ๊ณ ๋ คํ๊ธฐ ์ํด ํ ํฐ/๋ฌธ์ฅ/๋ฌธ๋จ์ผ๋ก ๊ณ์ธต์ ๋๋ ๋ณด๋๊ฒ ์ด๋จ๊น | 3.4 |
| ํ์ฝ | โข ์ฅ์ : SAE ํ๋ จ ์ ๋ณด๋ค ํฐ ๋จ์์ ํน์ง ํฌ์ฐฉํ๊ฒ๋ temporal loss ์ถ๊ฐ. ์ด๋ก์จ steering์์๋ ํ ํฐ ์์ฑ์ ์์ฐ์ค๋ฝ๊ฒ ์ ์งํ๋ฉด์ ์๋ฏธ ์กฐ์ ํ ์ ์๊ฒ ๋จ โข ๋จ์ : temporal contrastive loss๊ฐ ๋ฐฐ์น ๋ด ์ํ์ค์ ๊ณตํต์ ์ผ๋ก ์กด์ฌํ๋ ํน์ง์ ํฌ์ฐฉํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ค ์ ์์ด๋ณด์ โข ๋ณด์์ : ์ํ์ค ๋จ์์ ํน์ง ์ถ์ถ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํ ์ ์์๊น, ๋ฐฐ์น ๋ด ๋์กฐ ๋์ ์ | 4.2 |
| ๋๋ฌผ | โข ๊ฐ์ : SAE์์ ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํด level์ ๋ถ๋ฆฌํ๊ณ , ๊ทธ ์ค high level์ ์ผ๊ด๋๊ฒ ์ ์ง์์ผ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฑ๋ฅ์ ๋์. ํนํ ๋ณต์๋๋ ๊ณผ์ ์ ํตํด high/low level์ ๋ถ๋ฆฌํ๊ณ , ๋์กฐํ์ต์ ๊ฒฐํฉํ ๋ฐฉ์์ด ์ง๊ด์ ์ด์์. โข ์ฝ์ ๋ฐ ๋ณด์์ : [0:h],[h:] ๋ก ๋ถ๋ฆฌ๋ฅผ ํ๋๋ฐ, level ๋ถ๋ฆฌ๊ฐ ์ ๋ ๊น? ์ฌ๊ธฐ์ ๋ญ๊ฐ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ก ๊ณ ์ ์ํจ ๊ฒ ๊ฐ์๋ฐ, ์ ๋ ฅ์ ๋ฐ๋ผ ์ ์ฐํ๊ฒ ์กฐ์ ํ๋๊ฑด ์ด๋จ๊น? | 3.9 |
| ์ด์ฝ๋ฆฟ | โข ์ฅ์ : ๊ธฐ์กด SAE์ contrastive loss๋ง์ ์ถ๊ฐํจ์ผ๋ก ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ค๋๊ฒ์ ๋ณด์ฌ์ค. โข ์ฝ์ : positive pair๋ฅผ ๋ฌด์กฐ๊ฑด ๋ฐ๋ก ์ด์ ํ ํฐ์ผ๋ก ๊ณ ์ ํ๋ ๊ฒ ๋ง์๊น? ํญ์ ์ธ์ ํ ํฐ์ด ์ต์ ์ผ๊ฒ ๊ฐ์ง๋ ์์ ๋ณด์ โข ๋ณด์์ : positive pair๋ฅผ ๊ณ ์ ๋ ์ธ์ ํ ํฐ์ด ์๋๋ผ, ๊ฐ์ ๋ฌธ์ฅ ๋ด์์ ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด ํ ํฐ์ ์ฐพ์ ์ฐ๋ ๋ฐฉ์์ผ๋ก ๋ฐ๊ฟ๋ณด๋๊ฑด ์ด๋จ๊น | 3.5 |
| ํ์ด์ด | โข ์ฅ์ : SAE์์ ๋์กฐํ์ต์ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ์ด ๊ฐ์ ๋ ์ ์์์ ๋ค์ํ ๋ถ์ผ์ ๋ฐ์ดํฐ์
์ ํตํด ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค. โข ๋จ์ : ์ธ์ ํ ํฐ ๊ฐ ์ผ๊ด๋ ํ์ฑํ๋ฅผ ๊ฐ๋๋ก ๊ฐ์ ํ ๋, ๋ค๋ฅธ task๋ ์ธก๋ฉด์ ์ฑ๋ฅ์ด ๋จ์ด์ง์ง ์์๊น? โข ๋ณด์: Positive Pair๋ฅผ ์ธ์ ๋ ํ ํฐ ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ถ์ถํ ์คํ์ด ์์ผ๋ฉด ํจ. | 3.6 |
| ํผ๋ | โข ๊ฐ์ : ๋ช
์์ ์ธ ๋ ์ด๋ธ๋ง ์์ด๋ ๋น์ง๋ํ์ต๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅํจ โข ์ฝ์ & ๋ณด์์ : t-1 ์์ ์ ํ ํฐ๊ณผ ๋์กฐํ๋ ๋ฐฉ์ ๋ง๊ณ ์ข ๋ ๋์ ๋ฒ์ ๋ด์์ ์ธ์ ํ ํ ํฐ์ ์ ์ฉํ๋ ๋ฐฉ์์ผ๋ก ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ถ๊ฐ ์คํํ๋ฉด ์ข์๋ฏ | 3 |
| ๋ฉ์ฟ ๋ฆผ๋ณด | ์ธ์ ํ ํฐ ๋ผ๋ฆฌ๋ ์ ์ฌํ ๊ฒ์ด๋ค๋ฅผ ๋ฐ์ํด์ ๋ ๋์ ๋ฒ์์์ SAE๋ฅผ ์ต์ ํ ํ๋ ค๋ ์๋๋ SAE์์ ๋งค์ฐ ํฌ๋ฆฌํฐ์ปฌํจ! ํ์ง๋ง ๊ทธ๊ฑธ ์ผ๋ง๋ ๋ณด์ฅํ ์ ์๋์ง ๋ชจ๋ฅด๊ฒ ๊ณ , ์ธ์ด๋ณ๋ก ์๋ฏธ๊ฐ ํฌ๊ฒ ์์ ์๋ ์์. ์๋ฅผ ๋ค์ด ํ๊ตญ์ด/์ผ๋ณธ์ด๋ ์กฐ์ฌ๊ฐ ๋ฐ๋ฌํด์ ๋จ์ด ์์์ ๊ตฌ์ ๋ฐ์ง ์์. ์์ด ๊ตฌ๋ฌธ ํ์์ ํ๊ฒํ ํ๋ ๋ ผ๋ฌธ๋ค์ด ๊ฐ์ง๊ณ ์๋ ๊ณตํต์ ์ธ ๋ฌธ์ ๊ธฐ๋ ํจ. ์ด๊ฑธ ์ด๋ป๊ฒ ์ด๋์ ํ์ฉํ ์ง ๊ฐ์กฐํ๋ฉด ์ด๋จ๊น | 3.5 |
TL; DR
๊ธฐ์กด SAE๋ ํ ํฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๊ตฌ๋ฌธ ์ ๋ณด์ ํธํฅ๋์ด ์๋ฏธ๋ฅผ ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ค.
โ ์ธ์ด์ ์๊ฐ์ ๊ตฌ์กฐ(์ธ์ ํ ํฐ ๊ฐ ๊ณ ์์ค ์๋ฏธ๊ฐ ์ ์ฌํ๋ค๋ ์ฑ์ง)๋ฅผ SAE์ ์ถ๊ฐํ์!
Summary
- ์ฐ๊ตฌ์ง:
- ์ธ์ฉ์: 1
Background & Motivation
- SAE(Sparse Autoencoder) ๊ธฐ๋ฐ dictionary learning ๋ฐฉ๋ฒ์ผ๋ก LLM์ ํผ์ฒ๋ฅผ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ๋ฐ๊ฒฌ ๊ฐ๋ฅํจ
SAE๋?
LLM ๋ด๋ถ์ ๋ด๋ฐ์ polysemanticity ๋ฌธ์ ๋ฅผ ๊ฐ์ง
- polysemanticity = ๋ด๋ฐ์ด "์์กฑ", "์ฒด์ค", "ํ๋์ค์ด"์ฒ๋ผ ์ ํ ๋ค๋ฅธ ๊ฐ๋ ๋ค์ ๋์์ ์ธ์ฝ๋ฉํจ
- SAE๋ ์ด๊ฑธ ํ๊ธฐ ์ํด ์ค๊ณ๋ ๊ตฌ์กฐ
SAE ์๋ ์๋ฆฌ
- ์ธ์ฝ๋๊ฐ d์ฐจ์(์: 768)์ ๋ฐ์ง ๋ฒกํฐ๋ฅผ ํจ์ฌ ํฐ m์ฐจ์(์: 16,000)์ ๊ณต๊ฐ์ผ๋ก ํฌ์ฌ
- โ์ดํ ํ์ฑํ ํจ์์ ํฌ์ ํจ๋ํฐ(L1 ์ ๊ทํ)๊ฐ ๊ฑฐ์ ๋๋ถ๋ถ์ ๊ฐ์ 0์ผ๋ก ๊ฐ์ ํ๊ณ , ๊ทน์์(๋ณดํต 20๊ฐ ์ดํ)์ ํน์ง๋ง ํ์ฑํ๋จ
- โ๋์ฝ๋๊ฐ ํ์ฑํ๋ ํน์ง๋ค์ ์ ํ ์กฐํฉ์ผ๋ก ์๋ ๋ฒกํฐ๋ฅผ ์ฌ๊ตฌ์ฑ.
์์ค ํจ์๋ ๋ ๋ชฉํ์ ํฉ
- ||x - xฬ||ยฒ๋ ์๋ ๋ฒกํฐ์ ์ฌ๊ตฌ์ฑ ๋ฒกํฐ๊ฐ ์ต๋ํ ๊ฐ์์ผ ํจ,
- ฮป||f(x)||โ๋ ํ์ฑํ๋ ํน์ง์ด ์ต๋ํ ์ ์ด์ผ ํจ.
- ์ด ๋ ์๋ ฅ์ด ๋์์ ์์ฉํ๋ฉด์, ๊ฐ ํน์ง์ด ์ ๋ง ์ค์ํ ๊ฐ๋ ํ๋๋ง ๋ด๋๋ก ํ๋ จ๋จ.
์ ์ด๊ฒ ํด์ ๊ฐ๋ฅ์ฑ์ผ๋ก ์ด์ด์ง๋๊ฐ?
- ํ์ต์ด ๋๋ ๋ค ์ด๋ค ํ ์คํธ๋ฅผ SAE์ ํต๊ณผ์์ผฐ์ ๋ ํน์ ํน์ง #5832๊ฐ ์ผ์ง๋ค๋ฉด, ๊ทธ ํน์ง์ด ํ์ฑํ๋๋ ๋ค๋ฅธ ํ ์คํธ๋ค์ ๋ชจ์๋ณด๋ฉด ๊ณตํต๋ ๊ฐ๋ ("DNA ์์ด", "๊ณผํ์ ๊ธ์ฐ๊ธฐ" ๋ฑ)์ ์ฌ๋์ด ์ก์์ผ๋ก ์ฝ์ด๋ผ ์ ์๊ฒ ๋จ.
T-SAE ๋ ผ๋ฌธ์ด ์ง์ ํ ๋ฌธ์ ๋, ๊ธฐ์กด SAE๊ฐ "the"๋ผ๋ ๋จ์ด๋ ๋ฌธ์ฅ ๋ถํธ์ฒ๋ผ ํ ํฐ ํ๋์์๋ง ์ผ์ง๋ ๊ตฌ๋ฌธ ํน์ง์ ์ฃผ๋ก ํ์ตํ๊ณ , "์ด ๋ฌธ์ฅ์ ์๋ฌผ ์๋ฌผํ์ ๊ดํ ๊ฒ์ด๋ค"์ฒ๋ผ ์ํ์ค ์ ์ฒด์ ๊ฑธ์ณ ์๋ฏธ ์๋ ์๋ฏธ๋ก ์ ํน์ง์ ์ ํ์ตํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค
- ํ์ง๋ง ์ค์ ๋ก SAE๊ฐ ๋ณต์ํ๋ ํผ์ฒ๋ ๊ณ ์์ค ์๋ฏธ ๊ฐ๋ ์ ์ ๋๋ก ํฌ์ฐฉํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ๋ณต์ ์ผ๋ก ๋ณด์ฌ์ง
โ ์ด๋ LLM์ด ์๋ฏธ๋ฅผ ์ธ์ฝ๋ฉํ์ง ๋ชปํด์๊ฐ ์๋๋ผ, ํ์ฌ์ ๋ฐฉ๋ฒ ์์ฒด๊ฐ ์ธ์ด์ ๊ตฌ์กฐ์ ํน์ฑ์ ๋ฌด์ํ๊ธฐ ๋๋ฌธ
๊ธฐ์กด SAE์ ๋ฌธ์ ์
- ๋ชจ๋ ํ ํฐ์ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ
- ์ธ์ด๋ ๋ณธ์ง์ ์ผ๋ก ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง๋ง ๊ธฐ์กด SAE๋ ์ด๋ฌํ ์์ฐจ์ ๊ตฌ์กฐ๋ฅผ ์ ํ ํ์ฉํ์ง ์์
- ๊ตฌ๋ฌธ(syntax) ์ ๋ณด ํธํฅ
- ๊ธฐ์กด SAE๊ฐ ๋ณต์ํ๋ ํผ์ฒ๋ ๋๋ถ๋ถ ํน์ ํ ํฐ์ ๊ตญํ๋ ๊ตฌ๋ฌธ์ ํจํด
- ์ฃผ์ , ์๋, ๋งฅ๋ฝ ๋ฑ ๊ณ ์์ค์ ์๋ฏธ ์ ๋ณด๋ ์ ํฌ์ฐฉ๋์ง ์์
- ํผ์ฒ ํ์ฑํ์ ๋ถ์์ ์ฑ(dense activation)
- ํ๋์ ์ํ์ค ์์์ ํผ์ฒ๊ฐ ํ ํฐ๋ง๋ค ๋ถ๊ท์นํ๊ฒ ํ์ฑํ๋์ด, ์ํ์ค ์์ค์ ํด์์ด ์ด๋ ค์
โ ์ธ์ด์ ์๊ฐ์ ๊ตฌ์กฐ, ์ฆ ๊ณ ์์ค ์๋ฏธ๋ ์ธ์ ํ ํฐ์ ๊ฑธ์ณ ์ผ๊ด๋๊ฒ ์ ์ง๋๋ค๋ ์ฑ์ง์ SAE ํ์ต์ ๋ฐ์ํ ์๋ก์ด ํ๋ ์์ํฌ๊ฐ ํ์ํจ โ T-SAE
Contributions (What theyโve revealed)
T-SAE (Temporal Sparse Autoencoder) ํ๋ ์์ํฌ
- ์ธ์ด ์์ฑ ๊ณผ์ ์ ๋ํ ๋ฐ์ดํฐ ์์ฑ ํ๋ก์ธ์ค๋ฅผ ํ์ํ
- ๊ณ ์์ค ๋ณ์(ht): ์๋ฏธ, ์๋ ๋ฑ ์๊ฐ ๋ถ๋ณ์ ์ ๋ณด
- ์ ์์ค ๋ณ์(lt): ํ์ฌ, ์ดํ ์ ํ ๋ฑ ํ ํฐ ๋จ์์ ์์ ์ ๋ณด
- ๋ ๋ณ์๋ฅผ ๊ตฌ๋ณํ๋ ์์น์ผ๋ก๋ถํฐ SAE ์ค๊ณ ์๋ฆฌ๋ฅผ ๋์ถ
- Temporal Contrastive Loss๋ฅผ ํตํ ์๋ฏธ/๊ตฌ๋ฌธ ๋ถ๋ฆฌ
- SAE ํผ์ฒ ๊ณต๊ฐ์ ๊ณ ์์ค๊ณผ ์ ์์ค์ผ๋ก ๋ถ๋ฆฌ
- ๊ณ ์์ค ํผ์ฒ์ ๋ํด ์ธ์ ํ ํฐ ๊ฐ ์ ์ฌ๋๋ฅผ ๋์ด๋ contrastive loss๋ฅผ ์ถ๊ฐ
- ๋ช ์์ ์๋ฏธ ๋ ์ด๋ธ ์์ด๋(self-supervised๋ก) ์๋ฏธ์ ๊ตฌ๋ฌธ ํผ์ฒ๋ฅผ ๋ถ๋ฆฌ
- ์ํ์ค ์์ค์ ํด์ ๊ฐ๋ฅ์ฑ ๊ตฌํ
- ๊ธฐ์กด SAE๋ ํ ํฐ ์์ค์ ํด์๋ง ๊ฐ๋ฅํ์ง๋ง, T-SAE๋ ์ํ์ค ์ ์ฒด๋ฅผ ์ผ๊ด๋ ์๋ฏธ ๋จ์๋ก ํด์ ๊ฐ๋ฅ
- reconstruction quality ๋ฑ ๊ธฐ์กด SAE ํ๊ฐ ์งํ์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ ์ ์ง
Method
๊ธฐ์กด Matryoshka SAE์ ๊ณ์ธต์ ํผ์ฒ ๋ถ๋ฆฌ ๊ตฌ์กฐ์ Temporal Contrastive Loss๋ฅผ ์ถ๊ฐํ์ฌ, ๊ณ ์์ค ํผ์ฒ๊ฐ ์ธ์ ํ ํฐ ๊ฐ ์ผ๊ด๋ ํ์ฑํ๋ฅผ ๊ฐ๋๋ก ๊ฐ์ ํจ.
Matryoshka SAE๋?
- ์ผ๋ฐ SAE
- ์ผ๋ฐ SAE๋ ์ฌ๊ตฌ์ฑ ์์ค(reconstruction loss) + ํฌ์์ฑ ํจ๋ํฐ(L1)๋ง์ผ๋ก ํ์ตํ๋ค
- ์ด๋ ํ ํฐ๋ณ๋ก ํ์ฑํ๋๋ ๋ก์ปฌ ๊ตฌ๋ฌธ ํน์ง ์์ฃผ๋ก ํ์ต๋์ด ์๋ฏธ ํน์ง ํฌ์ฐฉ ์คํจ ํจ
- Matryoshka SAE
- ํน์ง ๊ณต๊ฐ์ ๊ณ ์์ค/์ ์์ค์ผ๋ก ๋ถํ ํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ
- ๊ณ ์์ค ํน์ง์ด ์ ์์ค ํน์ง์ ์ฌ๊ตฌ์ฑ ์์ฐจ๋ฅผ ์ค๋ช ํ๋๋ก ์ค๊ณ๋จ
- ํ์ง๋ง ์ฌ์ ํ ๊ณ ์์ค ํน์ง๋ง์ ๋ ๊ตฌ๋ฌธ ์ ๋ณด์ ์ง๋ฐฐ๋์ด ์๋ฏธ/๊ตฌ๋ฌธ disentanglement ๋ถ์กฑํจ
- ์ผ๋ฐ SAE
๋ฐ์ดํฐ ์์ฑ ํ๋ก์ธ์ค ํ์ํ
- ํ์์ ์ธ์ด ์์ฑ ๊ณผ์ ์ ๋ ์ข
๋ฅ์ ์ ์ฌ ๋ณ์๋ก ๋ชจ๋ธ๋ง
- g(ht, lt) = xt ๋ผ๊ณ ๊ฐ์ ํจ. ์ฆ LLM ๋ ์ด์ด์ ์ถ๋ ฅ ๋ฒกํฐ xt๊ฐ ๊ณ ์์ค ์ ๋ณด ht์ ์ ์์ค ์ ๋ณด It์ ๊ฐ์ญ ํจ์๋ก ์ด๋ฃจ์ด์ ธ ์๋ค๊ณ ๋ด
- ๊ณ ์์ค ๋ณ์ ht (Temporal Consistency ๊ฐ์ ): ์๋ฏธยท๋งฅ๋ฝ ๋ฑ ์ํ์ค์ ๊ฑธ์ณ ์์ ์ ์ผ๋ก ์ ์ง๋๋ ์ ๋ณด. ์ธ์ ํ ๋ ํ ํฐ xt, xt'๋ ์ ์ฌํ ht๋ฅผ ๊ฐ์ง
- ์ ์์ค ๋ณ์ lt (Hierarchical Representation ๊ฐ์ ): ํ์ฌยท์ดํ ์ ํ ๋ฑ ํน์ ํ ํฐ์ ๊ตญํ๋ ์ ๋ณด. ht๋ก ์ค๋ช ๋์ง ์๋ ์์ฐจ(residual) ์ ํธ
- ์ด ๋ ๊ฐ์ ์ผ๋ก๋ถํฐ T-SAE๋ ๊ทธ ์ญํจ์๋ฅผ ์ฐพ๋ ์ญํ ์ ํจ. (SAE์ ํผ์ฒ ๊ณต๊ฐ์ ๊ณ ์์ค/์ ์์ค์ผ๋ก ๋ถ๋ฆฌ)
Temporal Sparse Autoencoder ๊ตฌ์กฐ
- Matryoshka SAE์ ๊ณ์ธต์ ์์ค ํจ์ ๊ธฐ๋ฐ
Matryoshka ์ฌ๊ตฌ์ฑ ์์ค
- LH๋ "๊ณ ์์ค ํน์ง๋ง ๊ฐ์ง๊ณ ์๋ ๋ฒกํฐ๋ฅผ ์ผ๋ง๋ ๋ณต์ํ๋๊ฐ"๋ฅผ ์ธก์ .
- ๊ณ ์์ค์ด ์๋ฏธยท๋งฅ๋ฝ์ ๋ด๊ณ ์๋ค๋ฉด ์ด๊ฒ๋ง์ผ๋ก๋ ์ด๋ ์ ๋ ๋ณต์์ด ๋์ด์ผ ํจ.
- LL๋ "๊ณ ์์ค + ์ ์์ค์ ๋ชจ๋ ์จ์ ์ผ๋ง๋ ๋ณต์ํ๋๊ฐ"๋ฅผ ์ธก์ .
- ์ ์์ค์ด ๋๋จธ์ง ์์ฐจ๋ฅผ ์ฑ์์ฃผ๋ ์ญํ ์ด๋ผ, ์ด ๋ ํญ์ ๋ํ๋ฉด ์์ฐํ ์ ์์ค ํน์ง์ด "๊ณ ์์ค์ด ์ค๋ช ๋ชป ํ ๋๋จธ์ง ์ ๋ณด"๋ฅผ ๋ด๋๋ก ์ ๋๋จ.
- LH๋ "๊ณ ์์ค ํน์ง๋ง ๊ฐ์ง๊ณ ์๋ ๋ฒกํฐ๋ฅผ ์ผ๋ง๋ ๋ณต์ํ๋๊ฐ"๋ฅผ ์ธก์ .
- ๊ณ ์์ค ํผ์ฒ(f0:h): ์ ๋ ฅ xt๋ฅผ ์ง์ ์ฌ๊ตฌ์ฑ
- ์ ์์ค ํผ์ฒ(fh:m): ๊ณ ์์ค ํผ์ฒ๊ฐ ์ค๋ช ํ์ง ๋ชปํ ์์ฐจ๋ฅผ ์ถ๊ฐ๋ก ์ฌ๊ตฌ์ฑ
- Temporal Contrastive Loss ์ถ๊ฐ
- ๊ณ ์์ค ํผ์ฒ ๋ฒกํฐ zt์ ์ธ์ ์ด์ ํ ํฐ์ ๊ณ ์์ค ํผ์ฒ zt-1 ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๋์ด๋๋ก ํ์ต
- ๋ฐฐ์น ๋ด ๋ค๋ฅธ ์ํ๋ค๊ณผ์ ์ ์ฌ๋๋ ๋ฎ์ถ์ด smoothness collapse ๋ฐฉ์ง
- ์ ์์ค ํผ์ฒ์๋ ์ ์ฝ์ ์ฃผ์ง ์๊ณ ๊ณ ์์ค ํผ์ฒ์ ๋๋จธ์ง ์์ฐจ๋ง ์ฑ์ฐ๋๋ก ์ค๊ณ
- Temporal Contrastive Loss (Lcontr)
- L_contr์์ ํญ์ด ๋๊ฐ์ธ ์ด์ ๋ ๋์นญ์ฑ ๋๋ฌธ
- ์ธ์ ํ ํฐ ์ (zt, zt-1)์ positive pair๋ก ์ฌ์ฉ
- ๋ฐฐ์น ๋ด ๋ค๋ฅธ ์ํ๊ณผ์ ์์ negative pair๋ก ์ฌ์ฉํ์ฌ InfoNCE ์คํ์ผ์ ๋์กฐ ํ์ต ์ํ
- ํญ์ ์๋ฏธ
- ๋ถ์: i๋ฒ์งธ ์ํ์ค ๋ด ์ธ์ ํ ํฐ ์ ์ฌ๋ โ ๋์์ผ ํจ
- ๋ถ๋ชจ: i๋ฒ์งธ ํ ํฐ๊ณผ ๋ชจ๋ ์ํ์ค์ ์ด์ ํ ํฐ ์ ์ฌ๋ ํฉ โ ๋ฎ์์ผ ํจ
- ๊ฐ์ ์ํ์ค๋ผ๋ฆฌ๋ ๋น์ทํ๊ณ , ๋ค๋ฅธ ์ํ์ค๋ผ๋ฆฌ๋ ๋ฌ๋ผ์ผ ํ๋ค๋ ์๋ฏธ๋ฅผ ๊ฐ์ง.
Experiments
์คํ 1- ์๋ฏธ/๋งฅ๋ฝ/๊ตฌ๋ฌธ ์ ๋ณด ๋ณต์ (Probing)
T-SAE๊ฐ ์ง์ง๋ก ์๋ฏธ๋ฅผ ํ์ตํ๋๊ฐ๋ฅผ ์ธก์
์คํ ์ธํ
- ๋ชจ๋ธ: Pythia-160m, Gemma2-2b
- ๋ฐ์ดํฐ: MMLU
- ํ๊ฐ ๋ฐฉ๋ฒ: k-sparse probing (k=1,5,10,20) ๋ฐ Logistic Regression
- ๋ ์ด๋ธ:
- ์๋ฏธ(Semantic): MMLU ๋ฌธ์ ์นดํ ๊ณ ๋ฆฌ
- ๋งฅ๋ฝ(Context): ๋์ผ ์ํ์ค ๋ด ํ ํฐ ์ฌ๋ถ (์ด๋ ์ง๋ฌธ์์ ๋์จ ํ ํฐ์ธ์ง)
- ๊ตฌ๋ฌธ(Syntax): ํ์ฌ(Part-of-Speech) ๋ ์ด๋ธ
- Baselines: BatchTopK SAE, Matryoshka SAE, ๋ชจ๋ธ ์๋ณธ latent
- ๊ฒฐ๊ณผ
- T-SAE ๊ณ ์์ค ํผ์ฒ๋ ์๋ฏธ,๋งฅ๋ฝ ๋ ์ด๋ธ์์ ๊ธฐ์กด SAE๋ฅผ ๋ฅ๊ฐ
- ๊ตฌ๋ฌธ ์ ๋ณด๋ ๊ธฐ์กด SAE์ ๋๋ฑํ ์์ค์ ์ ์ง โ ์๋ฏธ/๊ตฌ๋ฌธ ๋ถ๋ฆฌ(disentanglement) ๋ฌ์ฑ
- T-SAE ์ ์์ค ํผ์ฒ๋ ๋ ์์ ์ผ๋ก ๊ตฌ๋ฌธ ์ ๋ณด๋ฅผ ๋ณต์ โ ๊ณ /์ ์์ค ํผ์ฒ๊ฐ ๊ฐ์์ ์ญํ ์ ํนํ๋จ
- Matryoshka SAE์ ๊ฒฝ์ฐ ๊ณ ์์ค ํผ์ฒ๊ฐ ๊ตฌ๋ฌธ ์ ๋ณด์ ์ง์ค๋์ด ์์ผ๋ฉฐ, ์ ์์ค ํผ์ฒ๋ ์๋ฏธ,๋งฅ๋ฝ,๊ตฌ๋ฌธ ๋ชจ๋์์ ์์ธก๋ ฅ์ด ๋ฎ์ โ ๋ถ๋ฆฌ ์คํจ
์คํ 2- ์ฌ๊ตฌ์ฑ ํ์ง (SAE ํ์ค ํ์ง ์งํ)
- ์งํ: FVE(๋ถ์ฐ ์ค๋ช
๋ฅ ), Cosine Similarity, Fraction Alive, Autointerpretability Score
๊ฐ ์งํ์ ์๋ฏธ
FVE(๋ถ์ฐ ์ค๋ช ๋น์จ) : ์๋ ๋ฒกํฐ์ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ๋ณด์กดํ๋๊ฐ
Cosine Similarity : ์๋ ๋ฒกํฐ์ ๋ณต์ ๋ฒกํฐ์ ๋ฐฉํฅ์ด ์ผ๋ง๋ ๊ฐ์๊ฐ
Smoothness : ํน์ง ํ์ฑํ๊ฐ ํ ํฐ ๊ฐ์ ์ผ๋ง๋ ๋งค๋๋ฝ๊ฒ ๋ณํ๋๊ฐ(๋ฎ์์๋ก ์ข์)
Autointerp : LLM์ด ํน์ง ์ค๋ช ์ ์ผ๋ง๋ ์ ์์ฑํ๋๊ฐ
- ๊ฒฐ๊ณผ: T-SAE๋ Matryoshka SAE, BatchTopK SAE์ ๋๋ฑํ ์์ค์ ์ฌ๊ตฌ์ฑ ํ์ง์ ์ ์งํจ
- โ ์๋ฏธ ์ ๋ณด ๋ณต์ ํฅ์์ด ํต์ฌ SAE ์ฑ๋ฅ์ ํฌ์ํ์ง ์๊ณ ๋ฌ์ฑ๋จ
- ์งํ: FVE(๋ถ์ฐ ์ค๋ช
๋ฅ ), Cosine Similarity, Fraction Alive, Autointerpretability Score
์คํ 3- ์๊ฐ์ ์ผ๊ด์ฑ ์ธก์
- ์คํ ์ธํ
- 4๊ฐ์ ์๋ก ๋ค๋ฅธ ํ ์คํธ(์๋ฌผํ ๋ฌธ์ , ๋ค์์ ํธ์ง, Animal Farm ์ํคํผ๋์ ๋ฌธ์, ์ํ ๋ฌธ์ )๋ฅผ ์ด์ด๋ถ์ธ ์ํ์ค์์ ์์ 8๊ฐ ํ์ฑ ํผ์ฒ๋ฅผ ์๊ฐํ
- Smoothness ์งํ: Lipschitz, Fourier, Wavelet, Multiscale ๊ธฐ๋ฐ 4์ข
- ๊ฒฐ๊ณผ
- T-SAE ํผ์ฒ๋ ์๋ก ๋ค๋ฅธ ํ ์คํธ ๊ตฌ๊ฐ ์ฌ์ด์์ ๋ช ํํ ์์ ์ ์ด๋ฅผ ๋ณด์ด๋ฉฐ, ๊ฐ ๊ตฌ๊ฐ ๋ด์์๋ ๋ถ๋๋ฝ๊ฒ ์ ์ง๋จ
- ๊ธฐ์กด SAE ํผ์ฒ๋ ์ ์ฒด ์ํ์ค์ ๊ฑธ์ณ ๋ถ๊ท์นํ๊ฒ ํ์ฑํ๋์ด ๊ตฌ๊ฐ ๊ฐ ์๋ฏธ ๋ถ๋ฆฌ๊ฐ ์ด๋ ค์
- Smoothness ์งํ์์ T-SAE ๊ณ ์์ค ํผ์ฒ๊ฐ Matryoshka/BatchTopK SAE๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์
- ์คํ ์ธํ
์คํ 4- Case Study
- HH-RLHF ๋ฐ์ดํฐ์
- Anthropic์ HH-RLHF ๋ฐ์ดํฐ์ ์์ chosen/rejected ์๋ต ๊ฐ T-SAE ํผ์ฒ ํ์ฑํ ์ฐจ์ด๋ฅผ ๋ถ์
- T-SAE๋ ์์ ๊ด๋ จ ์๋ฏธ ํผ์ฒ("crime and malicious activities", "violent or aggressive behavior")๋ฅผ ๋ช ํํ ํ์ง
- ๋์์ ๊ฑฐ์ ์๋ต์ด ์ ํ ์๋ต๋ณด๋ค ํ๊ท 11.4 ํ ํฐ ๋ ๊ธธ๋ค๋ ํ์ ์๊ด๊ด๊ณ(spurious correlation)๋ ๋ฐ๊ฒฌ (p < 1e-9)
- ๊ธฐ์กด Matryoshka SAE๋ "specific bicycle components", "references to ecosystem dynamics" ๋ฑ ๋ฌด๊ดํ ํผ์ฒ๋ฅผ ์ฃผ์ ํผ์ฒ๋ก ๋ฐํ
- Steering (LLM ํ๋ ์ ์ด)
LLM Steering ์ด๋?
- ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ฐฉํฅ์ ์ํ๋ ์ชฝ์ผ๋ก ์ ๋ํ๋๊ฒ
- LLM์ด ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ด๋ถ์ ์ผ๋ก ๋ ์ด์ด๋ง๋ค ๋ฒกํฐ๋ฅผ ๋ง๋ค์ด๋ด๋๋ฐ SAE ์คํฐ์ด๋ง์ ๊ทธ ๋ฒกํฐ์ ์ง์ ๊ฐ์ .
- ํ๊ฐ ๊ธฐ์ค
- intervention success(๊ฐ์ ์ฑ๊ณต๋): ์ํ๋ ๊ฐ๋ ์ด ์ค์ ๋ก ์ถ๋ ฅ์ ๋ํ๋ฌ๋๊ฐ
- coherence (ํ ์คํธ ์ผ๊ด์ฑ): ์ถ๋ ฅ์ด ์ฝ์ ์ ์๋ ๋ฌธ์ฅ์ธ๊ฐ
- ๊ธฐ์กด SAE์ ํน์ง์ ํ ํฐ ํ๋์์๋ง ์ผ์ง๋ ๊ตฌ๋ฌธ ํน์ง ์์ฃผ๋ผ, ํน์ง์ ๊ฐํ๊ฒ ์ผ๋ฉด ๊ทธ ํ ํฐ๋ง ๋ฐ๋ณต๋๋ ์คํจ๊ฐ ์ฆ์์.
- T-SAE์ ๊ณ ์์ค ํน์ง์ ์ํ์ค ์ ์ฒด์ ๊ฑธ์ณ ์ผ๊ด๋๊ฒ ํ์ฑํ๋๋๋ก ํ์ต๋๊ธฐ ๋๋ฌธ์, ํน์ง์ ๊ฐํ๊ฒ ์ผ๋ ๋ฌธ์ฅ ์ ์ฒด์ ์๋ฏธ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ๋.
- T-SAE ๊ณ ์์ค ํผ์ฒ๋ก steering ์, ๋ค์ํ ๊ฐ๋์์ ๋ชจ๋ธ ์ถ๋ ฅ์ ์๋ฏธ๋ฅผ ์ผ๊ด๋๊ฒ ๋ณ๊ฒฝํ๋ฉด์ ๋ฌธ์ฅ ์ผ๊ด์ฑ ์ ์ง
- Matryoshka SAE๋ก steering ์, ํน์ ๊ฐ๋์์ ํ ํฐ ๋ฐ๋ณต ํ์(catastrophic failure)์ด ๋ฐ์
- T-SAE๊ฐ intervention success์ coherence ๋ชจ๋์์ Pareto ์ฐ์ ๋ฌ์ฑ
- HH-RLHF ๋ฐ์ดํฐ์












