27 March 2026

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

๐Ÿ’ก๊ธฐ์กด SAE๋Š” ํ† ํฐ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ๋ฌธ ์ •๋ณด์— ํŽธํ–ฅ๋˜์–ด ์˜๋ฏธ๋ฅผ ์ž˜ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•œ๋‹ค. โ‡’ ์–ธ์–ด์˜ ์‹œ๊ฐ„์  ๊ตฌ์กฐ(์ธ์ ‘ ํ† ํฐ ๊ฐ„ ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ๊ฐ€ ์œ ์‚ฌํ•˜๋‹ค๋Š” ์„ฑ์งˆ)๋ฅผ SAE์— ์ถ”๊ฐ€ํ•˜์ž!

์ด๋‘ํ˜ธ
์ด๋‘ํ˜ธ

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

Review

๋‹‰๋„ค์ž„ Strength & Weakness & Sugguestions ๋ณ„์  (0/5)
thumbs-up โ€ข ์žฅ: probing์— ๋ฒ”์šฉ์ ์œผ๋กœ ํ™œ์šฉ๋˜๋Š” SAE์˜ ํ•œ๊ณ„๋ฅผ ์ •์˜ํ•˜๊ณ , ์‹œ๊ฐ„์  ๊ฐœ๋…์„ ๋„์ž…ํ•จ์œผ๋กœ์„œ ๊ณ ์ˆ˜์ค€์—์„œ์˜ Language modeling ๋ถ„์„์„ ๊ฐ€๋Šฅ์ผ€ ํ•จ
โ€ข ๋‹จ&๋ณด์™„: ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ ์ธก์ •์€ ์™œ ํ•œ๊ฑธ๊นŒ...?
3.5
์›ƒ์œผ๋ฉด์„œ ๋ณด์ž์žฅ์ : ์—ฐ๊ตฌ ๋™๊ธฐ๊ฐ€ ๊ฝค ๋šœ๋ ทํ•จ. ์•„์ด๋””์–ด๋„ ๋‚ฉ๋“์ด ๋˜๋ฉฐ, ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด๊ฐ€ ์ž˜ ๋˜์—ˆ์Œ.
๋‹จ์ : ๋งˆํŠธ๋ฃŒ์‹œ์นด sae์™€ ํฌ๊ฒŒ ๋‹ค๋ฅธ๊ฑด์ง€ ์ž˜ ๋ชจ๋ฅด๊ฒ ์Œ. ํ•ต์‹ฌ์€ ๊ณ ์ˆ˜์ค€ ์ €์ˆ˜์ค€ ๊ตฌ๋ถ„ ๊ฐ™์€๋ฐ, ๊ฐ™์•„๋ณด์ธ๋‹ค.
๋ณด์™„์ : ์ธ์ ‘ ํ† ํฐ์ด ์•„๋‹ˆ๋ผ, ์˜๋ฏธ์ ์œผ๋กœ ๊ด€๋ จ ์žˆ๋Š” ํ† ํฐ์ด ์žˆ๋Š” ๊ฒƒ ์•„๋‹Œ๊ฐ€?
3.7
๋…์ˆ˜๋ฆฌ์˜คํ˜•์ œ โ€ข ์žฅ์ : sequential structure์„ ๊ณ ๋ คํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ ์ œ์‹œ๊ฐ€ ์ง๊ด€์ ์ด๊ณ , ๊ธฐ์กด SAE์˜ ํ•œ๊ณ„๋ฅผ ์„ค๋“๋ ฅ ์žˆ๊ฒŒ ์ง€์ ํ•จ
โ€ข ์•ฝ์ : ์•„๋ฌด๋ž˜๋„ ์ด์ „ token์˜ activation๊นŒ์ง€ ๊ฐ€์ง€๊ณ  ์—ฐ์‚ฐํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฉ”๋ชจ๋ฆฌ๋Š” ๊ธฐ์กด๋ณด๋‹ค ๋” ๋งŽ์ด ๋“ค๋“ฏ
โ€ข ํŠน์ • ๊ณ ์ˆ˜์ค€ feature์œผ๋กœ steering์„ ํ–ˆ์„ ๋•Œ, token ๋‹จ์œ„์—์„œ activation์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ๊ถ๊ธˆํ•จ
4.3
์‚์งˆ โ€ข ์žฅ์ : ๊ธฐ์กด SAE ๊ตฌ์กฐ ์œ ์ง€ํ•˜๋ฉด์„œ contrastive loss ํ•˜๋‚˜ ์ถ”๊ฐ€๋กœ ์„ฑ๋Šฅ ๊ฐœ์„ ํ•˜๊ณ , ์ถ”์ถœ๋œ feature๊ฐ€ ์˜๋ฏธ ๊ธฐ์ค€์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง๋œ๋‹ค๋Š”๊ฑธ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์คŒ
โ€ข ์•ฝ์ : ์‹œ๋งจํ‹ฑ feature๊ฐ€ ์‹œ๊ฐ„์˜ ํ๋ฆ„๊ณผ ๊ด€๊ณ„์—†์ด smoothํ•˜๋‹ค๋Š” ๊ฐ€์ •์ด ๋ชจํ˜ธํ•จ. ์‹ค์ œ๋กœ ๋Œ€ํ™”๋„ ์ฃผ์ œ๊ฐ€ ๋นˆ๋ฒˆํžˆ ๋ฐ”๋€Œ๊ณ , ์ฝ”๋“œ๋„ ํ•œ์ค„๋งˆ๋‹ค ์˜๋ฏธ๊ฐ€ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ•˜๋Š”๋ฐ... ์ž˜๋ชป๋œ bias๋ฅผ ๊ฐ•์ œ๋กœ ํ•™์Šต์‹œํ‚ฌ ์œ„ํ—˜์ด ์ปค๋ณด์ž„ + ๊ทธ๋ฆฌ๊ณ  ์ธ์ ‘ ํ† ํฐ๋งŒ ๊ณ ๋ คํ•ด์„œ long-range dependency ๊ณ ๋ ค๊ฐ€ ์–ด๋ ค์›€
โ€ข ๋ณด์™„์ : Long-range dependency ๊ณ ๋ คํ•˜๊ธฐ ์œ„ํ•ด ํ† ํฐ/๋ฌธ์žฅ/๋ฌธ๋‹จ์œผ๋กœ ๊ณ„์ธต์„ ๋‚˜๋ˆ ๋ณด๋Š”๊ฒŒ ์–ด๋–จ๊นŒ
3.4
ํŒ์ฝ˜โ€ข ์žฅ์ : SAE ํ›ˆ๋ จ ์‹œ ๋ณด๋‹ค ํฐ ๋‹จ์œ„์˜ ํŠน์ง• ํฌ์ฐฉํ•˜๊ฒŒ๋” temporal loss ์ถ”๊ฐ€. ์ด๋กœ์จ steering์—์„œ๋„ ํ† ํฐ ์ƒ์„ฑ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ์˜๋ฏธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ
โ€ข ๋‹จ์ : temporal contrastive loss๊ฐ€ ๋ฐฐ์น˜ ๋‚ด ์‹œํ€€์Šค์— ๊ณตํ†ต์ ์œผ๋กœ ์กด์žฌํ•˜๋Š” ํŠน์ง•์€ ํฌ์ฐฉํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด๋ณด์ž„
โ€ข ๋ณด์™„์ : ์‹œํ€€์Šค ๋‹จ์œ„์˜ ํŠน์ง• ์ถ”์ถœ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ•  ์ˆ˜ ์—†์„๊นŒ, ๋ฐฐ์น˜ ๋‚ด ๋Œ€์กฐ ๋Œ€์‹ ์—
4.2
๋ˆˆ๋ฌผ โ€ข ๊ฐ•์  : SAE์—์„œ ์‹œ๊ฐ„์  ๊ตฌ์กฐ๋ฅผ ๋ฐ˜์˜ํ•ด level์„ ๋ถ„๋ฆฌํ•˜๊ณ , ๊ทธ ์ค‘ high level์€ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€์‹œ์ผœ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ๋†’์ž„. ํŠนํžˆ ๋ณต์›๋˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด high/low level์„ ๋ถ„๋ฆฌํ•˜๊ณ , ๋Œ€์กฐํ•™์Šต์„ ๊ฒฐํ•ฉํ•œ ๋ฐฉ์‹์ด ์ง๊ด€์ ์ด์—ˆ์Œ.
โ€ข ์•ฝ์  ๋ฐ ๋ณด์™„์ : [0:h],[h:] ๋กœ ๋ถ„๋ฆฌ๋ฅผ ํ•˜๋Š”๋ฐ, level ๋ถ„๋ฆฌ๊ฐ€ ์ž˜ ๋ ๊นŒ? ์—ฌ๊ธฐ์„  ๋ญ”๊ฐ€ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ณ ์ •์‹œํ‚จ ๊ฒƒ ๊ฐ™์€๋ฐ, ์ž…๋ ฅ์— ๋”ฐ๋ผ ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ •ํ•˜๋Š”๊ฑด ์–ด๋–จ๊นŒ?
3.9
์ดˆ์ฝœ๋ฆฟ โ€ข ์žฅ์ : ๊ธฐ์กด SAE์— contrastive loss๋งŒ์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ ์„ฑ๋Šฅ์ด ๊ฐœ์„  ๋œ๋‹ค๋Š”๊ฒƒ์„ ๋ณด์—ฌ์คŒ.
โ€ข ์•ฝ์ : positive pair๋ฅผ ๋ฌด์กฐ๊ฑด ๋ฐ”๋กœ ์ด์ „ ํ† ํฐ์œผ๋กœ ๊ณ ์ •ํ•˜๋Š” ๊ฒŒ ๋งž์„๊นŒ? ํ•ญ์ƒ ์ธ์ ‘ ํ† ํฐ์ด ์ตœ์„ ์ผ๊ฒƒ ๊ฐ™์ง€๋Š” ์•Š์•„ ๋ณด์ž„
โ€ข ๋ณด์™„์ : positive pair๋ฅผ ๊ณ ์ •๋œ ์ธ์ ‘ ํ† ํฐ์ด ์•„๋‹ˆ๋ผ, ๊ฐ™์€ ๋ฌธ์žฅ ๋‚ด์—์„œ ์˜๋ฏธ์ ์œผ๋กœ ๊ฐ€๊นŒ์šด ํ† ํฐ์„ ์ฐพ์•„ ์“ฐ๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐ”๊ฟ”๋ณด๋Š”๊ฑด ์–ด๋–จ๊นŒ
3.5
ํŒŒ์ด์–ด โ€ข ์žฅ์ : SAE์—์„œ ๋Œ€์กฐํ•™์Šต์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ์Œ์„ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ์ง๊ด€์ ์œผ๋กœ ๋ณด์—ฌ์คŒ.
โ€ข ๋‹จ์ : ์ธ์ ‘ ํ† ํฐ ๊ฐ„ ์ผ๊ด€๋œ ํ™œ์„ฑํ™”๋ฅผ ๊ฐ–๋„๋ก ๊ฐ•์ œํ•  ๋•Œ, ๋‹ค๋ฅธ task๋‚˜ ์ธก๋ฉด์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€์ง€ ์•Š์„๊นŒ?
โ€ข ๋ณด์™„: Positive Pair๋ฅผ ์ธ์ ‘๋œ ํ† ํฐ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ์ถ”์ถœํ•œ ์‹คํ—˜์ด ์žˆ์œผ๋ฉด ํ•จ.
3.6
ํ”ผ๋•€ โ€ข ๊ฐ•์ : ๋ช…์‹œ์ ์ธ ๋ ˆ์ด๋ธ”๋ง ์—†์ด๋„ ๋น„์ง€๋„ํ•™์Šต๋งŒ์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•จ
โ€ข ์•ฝ์  & ๋ณด์™„์ : t-1 ์‹œ์ ์˜ ํ† ํฐ๊ณผ ๋Œ€์กฐํ•˜๋Š” ๋ฐฉ์‹ ๋ง๊ณ  ์ข€ ๋” ๋„“์€ ๋ฒ”์œ„ ๋‚ด์—์„œ ์ธ์ ‘ํ•œ ํ† ํฐ์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์ถ”๊ฐ€ ์‹คํ—˜ํ•˜๋ฉด ์ข‹์„๋“ฏ
3
๋ฉ์ฟ ๋ฆผ๋ณด์ธ์ ‘ ํ† ํฐ ๋ผ๋ฆฌ๋Š” ์œ ์‚ฌํ•  ๊ฒƒ์ด๋‹ค๋ฅผ ๋ฐ˜์˜ํ•ด์„œ ๋” ๋„“์€ ๋ฒ”์œ„์—์„œ SAE๋ฅผ ์ตœ์ ํ™” ํ•˜๋ ค๋Š” ์‹œ๋„๋Š” SAE์—์„œ ๋งค์šฐ ํฌ๋ฆฌํ‹ฐ์ปฌํ•จ! ํ•˜์ง€๋งŒ ๊ทธ๊ฑธ ์–ผ๋งˆ๋‚˜ ๋ณด์žฅํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ชจ๋ฅด๊ฒ ๊ณ , ์–ธ์–ด๋ณ„๋กœ ์˜๋ฏธ๊ฐ€ ํฌ๊ฒŒ ์—†์„ ์ˆ˜๋„ ์žˆ์Œ. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ๊ตญ์–ด/์ผ๋ณธ์–ด๋Š” ์กฐ์‚ฌ๊ฐ€ ๋ฐœ๋‹ฌํ•ด์„œ ๋‹จ์–ด ์ˆœ์„œ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š์Œ. ์˜์–ด ๊ตฌ๋ฌธ ํ˜•์‹์„ ํƒ€๊ฒŸํŒ…ํ•˜๋Š” ๋…ผ๋ฌธ๋“ค์ด ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ณตํ†ต์ ์ธ ๋ฌธ์ œ๊ธฐ๋Š” ํ•จ. ์ด๊ฑธ ์–ด๋–ป๊ฒŒ ์–ด๋””์— ํ™œ์šฉํ• ์ง€ ๊ฐ•์กฐํ•˜๋ฉด ์–ด๋–จ๊นŒ3.5

TL; DR

๐Ÿ’ก

๊ธฐ์กด SAE๋Š” ํ† ํฐ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ๋ฌธ ์ •๋ณด์— ํŽธํ–ฅ๋˜์–ด ์˜๋ฏธ๋ฅผ ์ž˜ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•œ๋‹ค.

โ‡’ ์–ธ์–ด์˜ ์‹œ๊ฐ„์  ๊ตฌ์กฐ(์ธ์ ‘ ํ† ํฐ ๊ฐ„ ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ๊ฐ€ ์œ ์‚ฌํ•˜๋‹ค๋Š” ์„ฑ์งˆ)๋ฅผ SAE์— ์ถ”๊ฐ€ํ•˜์ž!

Summary

  • ์—ฐ๊ตฌ์ง„:
  • ์ธ์šฉ์ˆ˜: 1

Background & Motivation

  • SAE(Sparse Autoencoder) ๊ธฐ๋ฐ˜ dictionary learning ๋ฐฉ๋ฒ•์œผ๋กœ LLM์˜ ํ”ผ์ฒ˜๋ฅผ ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ ๋ฐœ๊ฒฌ ๊ฐ€๋Šฅํ•จ
    • SAE๋ž€?

      LLM ๋‚ด๋ถ€์˜ ๋‰ด๋Ÿฐ์€ polysemanticity ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง

      • polysemanticity = ๋‰ด๋Ÿฐ์ด "์™•์กฑ", "์ฒด์Šค", "ํ”„๋ž‘์Šค์–ด"์ฒ˜๋Ÿผ ์ „ํ˜€ ๋‹ค๋ฅธ ๊ฐœ๋…๋“ค์„ ๋™์‹œ์— ์ธ์ฝ”๋”ฉํ•จ
      • SAE๋Š” ์ด๊ฑธ ํ’€๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๊ตฌ์กฐ

      SAE ์ž‘๋™ ์›๋ฆฌ

      • ์ธ์ฝ”๋”๊ฐ€ d์ฐจ์›(์˜ˆ: 768)์˜ ๋ฐ€์ง‘ ๋ฒกํ„ฐ๋ฅผ ํ›จ์”ฌ ํฐ m์ฐจ์›(์˜ˆ: 16,000)์˜ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์‚ฌ
      • โ†’์ดํ›„ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ ํฌ์†Œ ํŒจ๋„ํ‹ฐ(L1 ์ •๊ทœํ™”)๊ฐ€ ๊ฑฐ์˜ ๋Œ€๋ถ€๋ถ„์˜ ๊ฐ’์„ 0์œผ๋กœ ๊ฐ•์ œํ•˜๊ณ , ๊ทน์†Œ์ˆ˜(๋ณดํ†ต 20๊ฐœ ์ดํ•˜)์˜ ํŠน์ง•๋งŒ ํ™œ์„ฑํ™”๋จ
      • โ†’๋””์ฝ”๋”๊ฐ€ ํ™œ์„ฑํ™”๋œ ํŠน์ง•๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ์›๋ž˜ ๋ฒกํ„ฐ๋ฅผ ์žฌ๊ตฌ์„ฑ.

      ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‘ ๋ชฉํ‘œ์˜ ํ•ฉ

      • ||x - xฬ‚||ยฒ๋Š” ์›๋ž˜ ๋ฒกํ„ฐ์™€ ์žฌ๊ตฌ์„ฑ ๋ฒกํ„ฐ๊ฐ€ ์ตœ๋Œ€ํ•œ ๊ฐ™์•„์•ผ ํ•จ,
      • ฮป||f(x)||โ‚๋Š” ํ™œ์„ฑํ™”๋œ ํŠน์ง•์ด ์ตœ๋Œ€ํ•œ ์ ์–ด์•ผ ํ•จ.
      • ์ด ๋‘ ์••๋ ฅ์ด ๋™์‹œ์— ์ž‘์šฉํ•˜๋ฉด์„œ, ๊ฐ ํŠน์ง•์ด ์ •๋ง ์ค‘์š”ํ•œ ๊ฐœ๋… ํ•˜๋‚˜๋งŒ ๋‹ด๋„๋ก ํ›ˆ๋ จ๋จ.

      ์™œ ์ด๊ฒŒ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ ์ด์–ด์ง€๋Š”๊ฐ€?

      • ํ•™์Šต์ด ๋๋‚œ ๋’ค ์–ด๋–ค ํ…์ŠคํŠธ๋ฅผ SAE์— ํ†ต๊ณผ์‹œ์ผฐ์„ ๋•Œ ํŠน์ • ํŠน์ง• #5832๊ฐ€ ์ผœ์ง„๋‹ค๋ฉด, ๊ทธ ํŠน์ง•์ด ํ™œ์„ฑํ™”๋˜๋Š” ๋‹ค๋ฅธ ํ…์ŠคํŠธ๋“ค์„ ๋ชจ์•„๋ณด๋ฉด ๊ณตํ†ต๋œ ๊ฐœ๋…("DNA ์„œ์—ด", "๊ณผํ•™์  ๊ธ€์“ฐ๊ธฐ" ๋“ฑ)์„ ์‚ฌ๋žŒ์ด ์œก์•ˆ์œผ๋กœ ์ฝ์–ด๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ๋จ.

      T-SAE ๋…ผ๋ฌธ์ด ์ง€์ ํ•œ ๋ฌธ์ œ๋Š”, ๊ธฐ์กด SAE๊ฐ€ "the"๋ผ๋Š” ๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ ๋ถ€ํ˜ธ์ฒ˜๋Ÿผ ํ† ํฐ ํ•˜๋‚˜์—์„œ๋งŒ ์ผœ์ง€๋Š” ๊ตฌ๋ฌธ ํŠน์ง•์„ ์ฃผ๋กœ ํ•™์Šตํ•˜๊ณ , "์ด ๋ฌธ์žฅ์€ ์‹๋ฌผ ์ƒ๋ฌผํ•™์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค"์ฒ˜๋Ÿผ ์‹œํ€€์Šค ์ „์ฒด์— ๊ฑธ์ณ ์˜๋ฏธ ์žˆ๋Š” ์˜๋ฏธ๋ก ์  ํŠน์ง•์€ ์ž˜ ํ•™์Šตํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค

  • ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ SAE๊ฐ€ ๋ณต์›ํ•˜๋Š” ํ”ผ์ฒ˜๋Š” ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ ๊ฐœ๋…์„ ์ œ๋Œ€๋กœ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ณด์—ฌ์ง

โ‡’ ์ด๋Š” LLM์ด ์˜๋ฏธ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜์ง€ ๋ชปํ•ด์„œ๊ฐ€ ์•„๋‹ˆ๋ผ, ํ˜„์žฌ์˜ ๋ฐฉ๋ฒ• ์ž์ฒด๊ฐ€ ์–ธ์–ด์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ๋ฌด์‹œํ•˜๊ธฐ ๋•Œ๋ฌธ

๊ธฐ์กด SAE์˜ ๋ฌธ์ œ์ 

  • ๋ชจ๋“  ํ† ํฐ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ
    • ์–ธ์–ด๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ์‹œ๊ฐ„์  ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€์ง€๋งŒ ๊ธฐ์กด SAE๋Š” ์ด๋Ÿฌํ•œ ์ˆœ์ฐจ์  ๊ตฌ์กฐ๋ฅผ ์ „ํ˜€ ํ™œ์šฉํ•˜์ง€ ์•Š์Œ
  • ๊ตฌ๋ฌธ(syntax) ์ •๋ณด ํŽธํ–ฅ
    • ๊ธฐ์กด SAE๊ฐ€ ๋ณต์›ํ•˜๋Š” ํ”ผ์ฒ˜๋Š” ๋Œ€๋ถ€๋ถ„ ํŠน์ • ํ† ํฐ์— ๊ตญํ•œ๋œ ๊ตฌ๋ฌธ์  ํŒจํ„ด
    • ์ฃผ์ œ, ์˜๋„, ๋งฅ๋ฝ ๋“ฑ ๊ณ ์ˆ˜์ค€์˜ ์˜๋ฏธ ์ •๋ณด๋Š” ์ž˜ ํฌ์ฐฉ๋˜์ง€ ์•Š์Œ
  • ํ”ผ์ฒ˜ ํ™œ์„ฑํ™”์˜ ๋ถˆ์•ˆ์ •์„ฑ(dense activation)
    • ํ•˜๋‚˜์˜ ์‹œํ€€์Šค ์œ„์—์„œ ํ”ผ์ฒ˜๊ฐ€ ํ† ํฐ๋งˆ๋‹ค ๋ถˆ๊ทœ์น™ํ•˜๊ฒŒ ํ™œ์„ฑํ™”๋˜์–ด, ์‹œํ€€์Šค ์ˆ˜์ค€์˜ ํ•ด์„์ด ์–ด๋ ค์›€

โ‡’ ์–ธ์–ด์˜ ์‹œ๊ฐ„์  ๊ตฌ์กฐ, ์ฆ‰ ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ๋Š” ์ธ์ ‘ ํ† ํฐ์— ๊ฑธ์ณ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€๋œ๋‹ค๋Š” ์„ฑ์งˆ์„ SAE ํ•™์Šต์— ๋ฐ˜์˜ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํ•„์š”ํ•จ โ†’ T-SAE

Contributions (What theyโ€™ve revealed)

T-SAE (Temporal Sparse Autoencoder) ํ”„๋ ˆ์ž„์›Œํฌ

  • ์–ธ์–ด ์ƒ์„ฑ ๊ณผ์ •์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ˜•์‹ํ™”
    • ๊ณ ์ˆ˜์ค€ ๋ณ€์ˆ˜(ht): ์˜๋ฏธ, ์˜๋„ ๋“ฑ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์˜ ์ •๋ณด
    • ์ €์ˆ˜์ค€ ๋ณ€์ˆ˜(lt): ํ’ˆ์‚ฌ, ์–ดํœ˜ ์„ ํƒ ๋“ฑ ํ† ํฐ ๋‹จ์œ„์˜ ์ž‘์€ ์ •๋ณด
    • ๋‘ ๋ณ€์ˆ˜๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š” ์›์น™์œผ๋กœ๋ถ€ํ„ฐ SAE ์„ค๊ณ„ ์›๋ฆฌ๋ฅผ ๋„์ถœ
  • Temporal Contrastive Loss๋ฅผ ํ†ตํ•œ ์˜๋ฏธ/๊ตฌ๋ฌธ ๋ถ„๋ฆฌ
    • SAE ํ”ผ์ฒ˜ ๊ณต๊ฐ„์„ ๊ณ ์ˆ˜์ค€๊ณผ ์ €์ˆ˜์ค€์œผ๋กœ ๋ถ„๋ฆฌ
    • ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜์— ๋Œ€ํ•ด ์ธ์ ‘ ํ† ํฐ ๊ฐ„ ์œ ์‚ฌ๋„๋ฅผ ๋†’์ด๋Š” contrastive loss๋ฅผ ์ถ”๊ฐ€
    • ๋ช…์‹œ์  ์˜๋ฏธ ๋ ˆ์ด๋ธ” ์—†์ด๋„(self-supervised๋กœ) ์˜๋ฏธ์™€ ๊ตฌ๋ฌธ ํ”ผ์ฒ˜๋ฅผ ๋ถ„๋ฆฌ
  • ์‹œํ€€์Šค ์ˆ˜์ค€์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๊ตฌํ˜„
    • ๊ธฐ์กด SAE๋Š” ํ† ํฐ ์ˆ˜์ค€์˜ ํ•ด์„๋งŒ ๊ฐ€๋Šฅํ–ˆ์ง€๋งŒ, T-SAE๋Š” ์‹œํ€€์Šค ์ „์ฒด๋ฅผ ์ผ๊ด€๋œ ์˜๋ฏธ ๋‹จ์œ„๋กœ ํ•ด์„ ๊ฐ€๋Šฅ
    • reconstruction quality ๋“ฑ ๊ธฐ์กด SAE ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ ์œ ์ง€

Method

๊ธฐ์กด Matryoshka SAE์˜ ๊ณ„์ธต์  ํ”ผ์ฒ˜ ๋ถ„๋ฆฌ ๊ตฌ์กฐ์— Temporal Contrastive Loss๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ, ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๊ฐ€ ์ธ์ ‘ ํ† ํฐ ๊ฐ„ ์ผ๊ด€๋œ ํ™œ์„ฑํ™”๋ฅผ ๊ฐ–๋„๋ก ๊ฐ•์ œํ•จ.

  • Matryoshka SAE๋ž€?
    • ์ผ๋ฐ˜ SAE
      • ์ผ๋ฐ˜ SAE๋Š” ์žฌ๊ตฌ์„ฑ ์†์‹ค(reconstruction loss) + ํฌ์†Œ์„ฑ ํŒจ๋„ํ‹ฐ(L1)๋งŒ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค
      • ์ด๋Š” ํ† ํฐ๋ณ„๋กœ ํ™œ์„ฑํ™”๋˜๋Š” ๋กœ์ปฌ ๊ตฌ๋ฌธ ํŠน์ง• ์œ„์ฃผ๋กœ ํ•™์Šต๋˜์–ด ์˜๋ฏธ ํŠน์ง• ํฌ์ฐฉ ์‹คํŒจ ํ•จ
    • Matryoshka SAE
      • ํŠน์ง• ๊ณต๊ฐ„์„ ๊ณ ์ˆ˜์ค€/์ €์ˆ˜์ค€์œผ๋กœ ๋ถ„ํ• ํ•˜๋Š” ๊ณ„์ธต์  ๊ตฌ์กฐ
      • ๊ณ ์ˆ˜์ค€ ํŠน์ง•์ด ์ €์ˆ˜์ค€ ํŠน์ง•์˜ ์žฌ๊ตฌ์„ฑ ์ž”์ฐจ๋ฅผ ์„ค๋ช…ํ•˜๋„๋ก ์„ค๊ณ„๋จ
      • ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ ๊ณ ์ˆ˜์ค€ ํŠน์ง•๋งˆ์ €๋„ ๊ตฌ๋ฌธ ์ •๋ณด์— ์ง€๋ฐฐ๋˜์–ด ์˜๋ฏธ/๊ตฌ๋ฌธ disentanglement ๋ถ€์กฑํ•จ

๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค ํ˜•์‹ํ™”

  • ํ™”์ž์˜ ์–ธ์–ด ์ƒ์„ฑ ๊ณผ์ •์„ ๋‘ ์ข…๋ฅ˜์˜ ์ž ์žฌ ๋ณ€์ˆ˜๋กœ ๋ชจ๋ธ๋ง
    • g(ht, lt) = xt ๋ผ๊ณ  ๊ฐ€์ •ํ•จ. ์ฆ‰ LLM ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ ๋ฒกํ„ฐ xt๊ฐ€ ๊ณ ์ˆ˜์ค€ ์ •๋ณด ht์™€ ์ €์ˆ˜์ค€ ์ •๋ณด It์˜ ๊ฐ€์—ญ ํ•จ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค๊ณ  ๋ด„
    • ๊ณ ์ˆ˜์ค€ ๋ณ€์ˆ˜ ht (Temporal Consistency ๊ฐ€์ •): ์˜๋ฏธยท๋งฅ๋ฝ ๋“ฑ ์‹œํ€€์Šค์— ๊ฑธ์ณ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜๋Š” ์ •๋ณด. ์ธ์ ‘ํ•œ ๋‘ ํ† ํฐ xt, xt'๋Š” ์œ ์‚ฌํ•œ ht๋ฅผ ๊ฐ€์ง
    • ์ €์ˆ˜์ค€ ๋ณ€์ˆ˜ lt (Hierarchical Representation ๊ฐ€์ •): ํ’ˆ์‚ฌยท์–ดํœ˜ ์„ ํƒ ๋“ฑ ํŠน์ • ํ† ํฐ์— ๊ตญํ•œ๋œ ์ •๋ณด. ht๋กœ ์„ค๋ช…๋˜์ง€ ์•Š๋Š” ์ž”์ฐจ(residual) ์‹ ํ˜ธ
  • ์ด ๋‘ ๊ฐ€์ •์œผ๋กœ๋ถ€ํ„ฐ T-SAE๋Š” ๊ทธ ์—ญํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ์—ญํ• ์„ ํ•จ. (SAE์˜ ํ”ผ์ฒ˜ ๊ณต๊ฐ„์„ ๊ณ ์ˆ˜์ค€/์ €์ˆ˜์ค€์œผ๋กœ ๋ถ„๋ฆฌ)

Temporal Sparse Autoencoder ๊ตฌ์กฐ

  • Matryoshka SAE์˜ ๊ณ„์ธต์  ์†์‹ค ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜
    • ์ผ๋ฐ˜ SAE ๊ตฌ์กฐ ์ˆ˜์‹
      • ์ผ๋ฐ˜ SAE ์ˆ˜์‹
      • T-SAE์—์„œ๋Š” Wdec๋ฅผ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋‘ ์กฐ๊ฐ์œผ๋กœ ์ชผ๊ฐฌ.
    • Matryoshka ์žฌ๊ตฌ์„ฑ ์†์‹ค
      • LH๋Š” "๊ณ ์ˆ˜์ค€ ํŠน์ง•๋งŒ ๊ฐ€์ง€๊ณ  ์›๋ž˜ ๋ฒกํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ณต์›ํ•˜๋Š”๊ฐ€"๋ฅผ ์ธก์ •.
        • ๊ณ ์ˆ˜์ค€์ด ์˜๋ฏธยท๋งฅ๋ฝ์„ ๋‹ด๊ณ  ์žˆ๋‹ค๋ฉด ์ด๊ฒƒ๋งŒ์œผ๋กœ๋„ ์–ด๋А ์ •๋„ ๋ณต์›์ด ๋˜์–ด์•ผ ํ•จ.
      • LL๋Š” "๊ณ ์ˆ˜์ค€ + ์ €์ˆ˜์ค€์„ ๋ชจ๋‘ ์จ์„œ ์–ผ๋งˆ๋‚˜ ๋ณต์›ํ•˜๋Š”๊ฐ€"๋ฅผ ์ธก์ •.
        • ์ €์ˆ˜์ค€์ด ๋‚˜๋จธ์ง€ ์ž”์ฐจ๋ฅผ ์ฑ„์›Œ์ฃผ๋Š” ์—ญํ• ์ด๋ผ, ์ด ๋‘ ํ•ญ์„ ๋”ํ•˜๋ฉด ์ž์—ฐํžˆ ์ €์ˆ˜์ค€ ํŠน์ง•์ด "๊ณ ์ˆ˜์ค€์ด ์„ค๋ช… ๋ชป ํ•œ ๋‚˜๋จธ์ง€ ์ •๋ณด"๋ฅผ ๋‹ด๋„๋ก ์œ ๋„๋จ.
    • ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜(f0:h): ์ž…๋ ฅ xt๋ฅผ ์ง์ ‘ ์žฌ๊ตฌ์„ฑ
    • ์ €์ˆ˜์ค€ ํ”ผ์ฒ˜(fh:m): ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๊ฐ€ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•œ ์ž”์ฐจ๋ฅผ ์ถ”๊ฐ€๋กœ ์žฌ๊ตฌ์„ฑ
  • Temporal Contrastive Loss ์ถ”๊ฐ€
    • ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ zt์™€ ์ธ์ ‘ ์ด์ „ ํ† ํฐ์˜ ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜ zt-1 ๊ฐ„ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ๋†’์ด๋„๋ก ํ•™์Šต
    • ๋ฐฐ์น˜ ๋‚ด ๋‹ค๋ฅธ ์ƒ˜ํ”Œ๋“ค๊ณผ์˜ ์œ ์‚ฌ๋„๋Š” ๋‚ฎ์ถ”์–ด smoothness collapse ๋ฐฉ์ง€
    • ์ €์ˆ˜์ค€ ํ”ผ์ฒ˜์—๋Š” ์ œ์•ฝ์„ ์ฃผ์ง€ ์•Š๊ณ  ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜์˜ ๋‚˜๋จธ์ง€ ์ž”์ฐจ๋งŒ ์ฑ„์šฐ๋„๋ก ์„ค๊ณ„
  • Temporal Contrastive Loss (Lcontr)
    • L_contr์—์„œ ํ•ญ์ด ๋‘๊ฐœ์ธ ์ด์œ ๋Š” ๋Œ€์นญ์„ฑ ๋•Œ๋ฌธ
    • ์ธ์ ‘ ํ† ํฐ ์Œ (zt, zt-1)์„ positive pair๋กœ ์‚ฌ์šฉ
    • ๋ฐฐ์น˜ ๋‚ด ๋‹ค๋ฅธ ์ƒ˜ํ”Œ๊ณผ์˜ ์Œ์€ negative pair๋กœ ์‚ฌ์šฉํ•˜์—ฌ InfoNCE ์Šคํƒ€์ผ์˜ ๋Œ€์กฐ ํ•™์Šต ์ˆ˜ํ–‰
    • ํ•ญ์˜ ์˜๋ฏธ
      • ๋ถ„์ž: i๋ฒˆ์งธ ์‹œํ€€์Šค ๋‚ด ์ธ์ ‘ ํ† ํฐ ์œ ์‚ฌ๋„ โ†’ ๋†’์•„์•ผ ํ•จ
      • ๋ถ„๋ชจ: i๋ฒˆ์งธ ํ† ํฐ๊ณผ ๋ชจ๋“  ์‹œํ€€์Šค์˜ ์ด์ „ ํ† ํฐ ์œ ์‚ฌ๋„ ํ•ฉ โ†’ ๋‚ฎ์•„์•ผ ํ•จ
      • ๊ฐ™์€ ์‹œํ€€์Šค๋ผ๋ฆฌ๋Š” ๋น„์Šทํ•˜๊ณ , ๋‹ค๋ฅธ ์‹œํ€€์Šค๋ผ๋ฆฌ๋Š” ๋‹ฌ๋ผ์•ผ ํ•œ๋‹ค๋Š” ์˜๋ฏธ๋ฅผ ๊ฐ€์ง.

Experiments

  • ์‹คํ—˜ 1- ์˜๋ฏธ/๋งฅ๋ฝ/๊ตฌ๋ฌธ ์ •๋ณด ๋ณต์› (Probing)

    T-SAE๊ฐ€ ์ง„์งœ๋กœ ์˜๋ฏธ๋ฅผ ํ•™์Šตํ–ˆ๋Š”๊ฐ€๋ฅผ ์ธก์ •

    • ์‹คํ—˜ ์„ธํŒ…
      • ๋ชจ๋ธ: Pythia-160m, Gemma2-2b
      • ๋ฐ์ดํ„ฐ: MMLU
      • ํ‰๊ฐ€ ๋ฐฉ๋ฒ•: k-sparse probing (k=1,5,10,20) ๋ฐ Logistic Regression
      • ๋ ˆ์ด๋ธ”:
        • ์˜๋ฏธ(Semantic): MMLU ๋ฌธ์ œ ์นดํ…Œ๊ณ ๋ฆฌ
        • ๋งฅ๋ฝ(Context): ๋™์ผ ์‹œํ€€์Šค ๋‚ด ํ† ํฐ ์—ฌ๋ถ€ (์–ด๋А ์งˆ๋ฌธ์—์„œ ๋‚˜์˜จ ํ† ํฐ์ธ์ง€)
        • ๊ตฌ๋ฌธ(Syntax): ํ’ˆ์‚ฌ(Part-of-Speech) ๋ ˆ์ด๋ธ”
      • Baselines: BatchTopK SAE, Matryoshka SAE, ๋ชจ๋ธ ์›๋ณธ latent
    • ๊ฒฐ๊ณผ
      • T-SAE ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๋Š” ์˜๋ฏธ,๋งฅ๋ฝ ๋ ˆ์ด๋ธ”์—์„œ ๊ธฐ์กด SAE๋ฅผ ๋Šฅ๊ฐ€
      • ๊ตฌ๋ฌธ ์ •๋ณด๋Š” ๊ธฐ์กด SAE์™€ ๋™๋“ฑํ•œ ์ˆ˜์ค€์„ ์œ ์ง€ โ†’ ์˜๋ฏธ/๊ตฌ๋ฌธ ๋ถ„๋ฆฌ(disentanglement) ๋‹ฌ์„ฑ
      • T-SAE ์ €์ˆ˜์ค€ ํ”ผ์ฒ˜๋Š” ๋…์ž์ ์œผ๋กœ ๊ตฌ๋ฌธ ์ •๋ณด๋ฅผ ๋ณต์› โ†’ ๊ณ /์ €์ˆ˜์ค€ ํ”ผ์ฒ˜๊ฐ€ ๊ฐ์ž์˜ ์—ญํ• ์— ํŠนํ™”๋จ
      • Matryoshka SAE์˜ ๊ฒฝ์šฐ ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๊ฐ€ ๊ตฌ๋ฌธ ์ •๋ณด์— ์ง‘์ค‘๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ €์ˆ˜์ค€ ํ”ผ์ฒ˜๋Š” ์˜๋ฏธ,๋งฅ๋ฝ,๊ตฌ๋ฌธ ๋ชจ๋‘์—์„œ ์˜ˆ์ธก๋ ฅ์ด ๋‚ฎ์Œ โ†’ ๋ถ„๋ฆฌ ์‹คํŒจ
  • ์‹คํ—˜ 2- ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ (SAE ํ‘œ์ค€ ํ’ˆ์งˆ ์ง€ํ‘œ)
    • ์ง€ํ‘œ: FVE(๋ถ„์‚ฐ ์„ค๋ช…๋ฅ ), Cosine Similarity, Fraction Alive, Autointerpretability Score
      • ๊ฐ ์ง€ํ‘œ์˜ ์˜๋ฏธ

        FVE(๋ถ„์‚ฐ ์„ค๋ช… ๋น„์œจ) : ์›๋ž˜ ๋ฒกํ„ฐ์˜ ์ •๋ณด๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ณด์กดํ•˜๋Š”๊ฐ€

        Cosine Similarity : ์›๋ž˜ ๋ฒกํ„ฐ์™€ ๋ณต์› ๋ฒกํ„ฐ์˜ ๋ฐฉํ–ฅ์ด ์–ผ๋งˆ๋‚˜ ๊ฐ™์€๊ฐ€

        Smoothness : ํŠน์ง• ํ™œ์„ฑํ™”๊ฐ€ ํ† ํฐ ๊ฐ„์— ์–ผ๋งˆ๋‚˜ ๋งค๋„๋Ÿฝ๊ฒŒ ๋ณ€ํ•˜๋Š”๊ฐ€(๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ)

        Autointerp : LLM์ด ํŠน์ง• ์„ค๋ช…์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ƒ์„ฑํ•˜๋Š”๊ฐ€

    • ๊ฒฐ๊ณผ: T-SAE๋Š” Matryoshka SAE, BatchTopK SAE์™€ ๋™๋“ฑํ•œ ์ˆ˜์ค€์˜ ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•จ
      • โ†’ ์˜๋ฏธ ์ •๋ณด ๋ณต์› ํ–ฅ์ƒ์ด ํ•ต์‹ฌ SAE ์„ฑ๋Šฅ์„ ํฌ์ƒํ•˜์ง€ ์•Š๊ณ  ๋‹ฌ์„ฑ๋จ
  • ์‹คํ—˜ 3- ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ ์ธก์ •
    • ์‹คํ—˜ ์„ธํŒ…
      • 4๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ํ…์ŠคํŠธ(์ƒ๋ฌผํ•™ ๋ฌธ์ œ, ๋‹ค์œˆ์˜ ํŽธ์ง€, Animal Farm ์œ„ํ‚คํ”ผ๋””์•„ ๋ฌธ์„œ, ์ˆ˜ํ•™ ๋ฌธ์ œ)๋ฅผ ์ด์–ด๋ถ™์ธ ์‹œํ€€์Šค์—์„œ ์ƒ์œ„ 8๊ฐœ ํ™œ์„ฑ ํ”ผ์ฒ˜๋ฅผ ์‹œ๊ฐํ™”
      • Smoothness ์ง€ํ‘œ: Lipschitz, Fourier, Wavelet, Multiscale ๊ธฐ๋ฐ˜ 4์ข…
    • ๊ฒฐ๊ณผ
      • T-SAE ํ”ผ์ฒ˜๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ…์ŠคํŠธ ๊ตฌ๊ฐ„ ์‚ฌ์ด์—์„œ ๋ช…ํ™•ํ•œ ์œ„์ƒ ์ „์ด๋ฅผ ๋ณด์ด๋ฉฐ, ๊ฐ ๊ตฌ๊ฐ„ ๋‚ด์—์„œ๋Š” ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์œ ์ง€๋จ
      • ๊ธฐ์กด SAE ํ”ผ์ฒ˜๋Š” ์ „์ฒด ์‹œํ€€์Šค์— ๊ฑธ์ณ ๋ถˆ๊ทœ์น™ํ•˜๊ฒŒ ํ™œ์„ฑํ™”๋˜์–ด ๊ตฌ๊ฐ„ ๊ฐ„ ์˜๋ฏธ ๋ถ„๋ฆฌ๊ฐ€ ์–ด๋ ค์›€
      • Smoothness ์ง€ํ‘œ์—์„œ T-SAE ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๊ฐ€ Matryoshka/BatchTopK SAE๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜
  • ์‹คํ—˜ 4- Case Study
    • HH-RLHF ๋ฐ์ดํ„ฐ์…‹
      • Anthropic์˜ HH-RLHF ๋ฐ์ดํ„ฐ์…‹์—์„œ chosen/rejected ์‘๋‹ต ๊ฐ„ T-SAE ํ”ผ์ฒ˜ ํ™œ์„ฑํ™” ์ฐจ์ด๋ฅผ ๋ถ„์„
      • T-SAE๋Š” ์•ˆ์ „ ๊ด€๋ จ ์˜๋ฏธ ํ”ผ์ฒ˜("crime and malicious activities", "violent or aggressive behavior")๋ฅผ ๋ช…ํ™•ํžˆ ํƒ์ง€
      • ๋™์‹œ์— ๊ฑฐ์ ˆ ์‘๋‹ต์ด ์„ ํƒ ์‘๋‹ต๋ณด๋‹ค ํ‰๊ท  11.4 ํ† ํฐ ๋” ๊ธธ๋‹ค๋Š” ํ—ˆ์œ„ ์ƒ๊ด€๊ด€๊ณ„(spurious correlation)๋„ ๋ฐœ๊ฒฌ (p < 1e-9)
      • ๊ธฐ์กด Matryoshka SAE๋Š” "specific bicycle components", "references to ecosystem dynamics" ๋“ฑ ๋ฌด๊ด€ํ•œ ํ”ผ์ฒ˜๋ฅผ ์ฃผ์š” ํ”ผ์ฒ˜๋กœ ๋ฐ˜ํ™˜
    • Steering (LLM ํ–‰๋™ ์ œ์–ด)
      • LLM Steering ์ด๋ž€?
        • ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋ฐฉํ–ฅ์„ ์›ํ•˜๋Š” ์ชฝ์œผ๋กœ ์œ ๋„ํ•˜๋Š”๊ฒƒ
        • LLM์ด ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋‚ด๋ถ€์ ์œผ๋กœ ๋ ˆ์ด์–ด๋งˆ๋‹ค ๋ฒกํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š”๋ฐ SAE ์Šคํ‹ฐ์–ด๋ง์€ ๊ทธ ๋ฒกํ„ฐ์— ์ง์ ‘ ๊ฐœ์ž….
        • ํ‰๊ฐ€ ๊ธฐ์ค€
          • intervention success(๊ฐœ์ž… ์„ฑ๊ณต๋„): ์›ํ•˜๋Š” ๊ฐœ๋…์ด ์‹ค์ œ๋กœ ์ถœ๋ ฅ์— ๋‚˜ํƒ€๋‚ฌ๋Š”๊ฐ€
          • coherence (ํ…์ŠคํŠธ ์ผ๊ด€์„ฑ): ์ถœ๋ ฅ์ด ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์žฅ์ธ๊ฐ€
        • ๊ธฐ์กด SAE์˜ ํŠน์ง•์€ ํ† ํฐ ํ•˜๋‚˜์—์„œ๋งŒ ์ผœ์ง€๋Š” ๊ตฌ๋ฌธ ํŠน์ง• ์œ„์ฃผ๋ผ, ํŠน์ง•์„ ๊ฐ•ํ•˜๊ฒŒ ์ผœ๋ฉด ๊ทธ ํ† ํฐ๋งŒ ๋ฐ˜๋ณต๋˜๋Š” ์‹คํŒจ๊ฐ€ ์žฆ์•˜์Œ.
        • T-SAE์˜ ๊ณ ์ˆ˜์ค€ ํŠน์ง•์€ ์‹œํ€€์Šค ์ „์ฒด์— ๊ฑธ์ณ ์ผ๊ด€๋˜๊ฒŒ ํ™œ์„ฑํ™”๋˜๋„๋ก ํ•™์Šต๋๊ธฐ ๋•Œ๋ฌธ์—, ํŠน์ง•์„ ๊ฐ•ํ•˜๊ฒŒ ์ผœ๋„ ๋ฌธ์žฅ ์ „์ฒด์˜ ์˜๋ฏธ๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐ”๋€œ.
      • T-SAE ๊ณ ์ˆ˜์ค€ ํ”ผ์ฒ˜๋กœ steering ์‹œ, ๋‹ค์–‘ํ•œ ๊ฐ•๋„์—์„œ ๋ชจ๋ธ ์ถœ๋ ฅ์˜ ์˜๋ฏธ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ๋ฌธ์žฅ ์ผ๊ด€์„ฑ ์œ ์ง€
      • Matryoshka SAE๋กœ steering ์‹œ, ํŠน์ • ๊ฐ•๋„์—์„œ ํ† ํฐ ๋ฐ˜๋ณต ํ˜„์ƒ(catastrophic failure)์ด ๋ฐœ์ƒ
      • T-SAE๊ฐ€ intervention success์™€ coherence ๋ชจ๋‘์—์„œ Pareto ์šฐ์œ„ ๋‹ฌ์„ฑ

Categories

Interpretabilityresearch