27 March 2026

Shared Global and Local Geometry of Language Model Embeddings

๐Ÿ’ก๊ฐ™์€ ๊ณ„์—ด์˜ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ์ฐจ์›์ด ๋‹ฌ๋ผ๋„ token embedding์˜ ๊ตฌ์กฐ๊ฐ€ ๊ต‰์žฅํžˆ ๋น„์Šทํ•˜๋‹ค! ๊ทธ๋ž˜์„œ, ํ•œ ๋ชจ๋ธ์—์„œ ๋งŒ๋“ค์–ด๋‚ธ steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ์—์„œ ์„ ํ˜•๋ณ€ํ™˜๋งŒ์œผ๋กœ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค!์˜ˆ: 1B, 3B์—์„œ helpfulness๋ฅผ ์˜ฌ๋ฆฌ๋„๋ก ํ•˜๋Š” vector๋ฅผ ์ฐพ๊ณ  ๋‚˜์„œ, 8B๋กœ ๊ทธ๋Œ€๋กœ ์˜ฎ๊ฒจ์„œ ์“ธ ์ˆ˜ ์žˆ์Œ!

๐Ÿฅ‰

Shared Global and Local Geometry of Language Model Embeddings

Review

๋‹‰๋„ค์ž„ Strength & Weakness & Sugguestions ๋ณ„์  (0/5)
๋ˆˆ๋ฌผ โ€ข ๊ฐ•์  : steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ์—์„œ ์˜ฎ๊ฒจ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„์ด๋””์–ด ์ž์ฒด๋Š” ์ข‹์€ ๊ฒƒ ๊ฐ™์Œ. ์ž‘์€ ๋ชจ๋ธ์—์„œ steering vector๋ฅผ ๊ตฌํ•˜๊ณ  ๋‹ค๋ฅธ ๋Œ€ํ˜• ๋ชจ๋ธ์— ์‘์šฉํ•  ์ˆ˜ ์žˆ์œผ๋‹ˆ,,,,
โ€ข ์•ฝ์  : ๊ฐ•์ ์„ ์‚ด๋ฆฌ๋ ค๋ฉด ๋” ์ •๊ตํ•œ ๊ฒ€์ฆ๋ฒ•์ด ์žˆ์–ด์•ผ ํ•  ๋“ฏ. ๊ณต๊ฐ„ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๊ฒ€์ฆ๋ฐฉ์‹์ด ๋นˆ์•ฝํ•ด ๋ณด์ž„. ID์™€ SCS๋กœ ๊ฐ€๋Šฅ์„ฑ์„ ๋ดค์ง€๋งŒ, ์‹ค์ œ steering vector transfer์— ๋Œ€ํ•œ ํƒ€๋‹น์„ฑ์€ ๋ถ€์กฑํ•œ ๊ฒƒ ๊ฐ™์Œ.
โ€ข ๋ณด์™„์  : ๊ฐ€๋Šฅ์„ฑ์„ ๊ด€์ฐฐํ•œ ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์ข‹์•„๋ณด์ด์ง€๋งŒ, ๋” ๊ฒ€์ฆ์ด ๋˜์—ˆ์œผ๋ฉด ํ•จ.
3.7
ํ”ผ๋•€ โ€ข ๊ฐ•์ : ์•„์ด๋””์–ด ์ž์ฒด๋„ ์ข‹์€๋ฐ ์ด์— ๊ทธ์น˜๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ์‹ค์ œ EMB2EMB ๋ฅผ ํ†ตํ•ด steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ์— ์ด์‹ํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ•ด์„œ ์‹ค์šฉ์„ฑ์ด ์žˆ์–ด๋ณด์ž„
โ€ข ์•ฝ์ : ์–ด๋–ค ์กฐ๊ฑด์—์„œ ์ด์‹์ด ๋˜๊ณ  ์•ˆ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ์ฒด๊ณ„์ ์ธ ๋ถ„์„์ด ํ•„์š”
โ€ข ๋ณด์™„์ : ์ง€๊ธˆ์€ ํž˜๋“ค ๊ฒƒ ๊ฐ™์ง€๋งŒ ๋‚˜์ค‘๊ฐ€์„œ ๊ฐ™์€ ๋ชจ๋ธ์ด ์•„๋‹Œ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋ธ์—์„œ๋„ ์ด๋Ÿฌํ•œ ์œ ์‚ฌ์„ฑ์ด ์„ฑ๋ฆฝํ•˜๋Š”์ง€(์ผ๋ฐ˜ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ์ง€) ๊ถ๊ธˆํ•จ
4
thumbs-up โ€ข ์žฅ: ํŒŒ๊ธ‰๋ ฅ์ด ํฌ๊ณ  ์ ์šฉ ๊ฐ€๋Šฅ ๋ถ„์•ผ๊ฐ€ ๋‹ค์–‘ํ•จ. ๋ชจ๋ธ๊ฐ„ ๊ฒฝํ–ฅ์ด ๋น„์Šทํ•˜๊ณ  ์ด์‹๋งˆ์ € ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด, ๋ฌธ์ œ์ ๋„ ๋™์ผํ•˜๊ฒ ๋„ค!
โ€ข ๋‹จ&๋ณด์™„: ๊ทธ๋ž˜์„œ ์–ด๋–ค ์›๋ฆฌ์ธ๋ฐ?
4
์›ƒ์œผ๋ฉด์„œ ๋ณด์ž์žฅ์ : ์•„์ด๋””์–ด๊ฐ€ ์ข‹๋‹ค. ๋น„์Šทํ•œ ๊ตฌ์กฐ๋กœ ๋น„์Šทํ•˜๊ฒŒ ํ•™์Šตํ•˜๋ฉด, ๊ฒฐ๊ณผ๋„ ์œ ์‚ฌํ•˜๊ณ , ๊ฐ™์€ ๊ณต๊ฐ„์„ ๊ฐ€์ง„๋‹ค๋Š” ๊ฒƒ์ด ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด ์ž˜ ๋˜์—ˆ์Œ.
๋‹จ์ : ๊ฒ€์ฆ ๋ฐฉํ–ฅ์€ ์ข‹์€๋ฐ, ๋ฏฟ์„ ์ˆ˜๊ฐ€ ์—†๋‹ค. ์ „๋ถ€ ์ €์ž๋“ค ๊ฐ€์„ค๊ณผ ์‹คํ—˜์  ๊ฒ€์ฆ๋งŒ ์žˆ์Œ.
๋ณด์™„์ : ๋” ๋งŽ์€ ์‹คํ—˜์œผ๋กœ ์ปค๋ฒ„ํ•˜๊ฑฐ๋‚˜, ์ด๋ก ์  ์™„์„ฑ๋„๋ฅผ ๋†’์—ฌ์•ผ ํ•จ. ๊ทธ๋ƒฅ ๊ฒฝํ—˜์ ์œผ๋กœ ๋ณด์ธ๊ฒƒ์ด๋ผ์„œ, ์ž˜ ๋ชจ๋ฅด๊ฒ ์Œ.
3.9
ํŒŒ์ด์–ด โ€ข ์žฅ์ : ๋‹ค๋ฅธ LLM์—์„œ๋„ ์„ ํ˜• ๋ณ€ํ™˜์„ ํ†ตํ•ด ๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ Steeringํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด LLM์˜ ํŠœ๋‹์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด novelty๊ฐ€ ํฐ ์—ฐ๊ตฌ๋ผ๊ณ  ๋ด„.
โ€ข ๋‹จ์ : ๊ฐ๊ด€์ ์ธ ๊ฒ€์ฆ๊ณผ ์‹คํ—˜ ์ ˆ์ฐจ๊ฐ€ ๋ถ€์กฑํ•œ ๋‹จ์ 
โ€ข ๋ณด์™„: ์ˆ˜ํ•™์ ์ธ ์ฆ๋ช…์„ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜, ๋‹ค๋ฅธ task์— ๋Œ€ํ•ด์„œ๋„ ์ฆ๋ช…์ด ๋˜์—ˆ์œผ๋ฉด ํ•จ.
4
๋…์ˆ˜๋ฆฌ์˜คํ˜•์ œ โ€ข ๊ฐ•์ : ์—ฌ๋Ÿฌ LLM์ด ๊ฝค๋‚˜ ๊ณต์œ ๋œ geometry๋ฅผ ๊ฐ€์ง„๋‹ค๋Š”๊ฒƒ์„ ์ž˜ ๋ณด์—ฌ์คŒ
โ€ข ์•ฝ์ : ์™œ ์ด๋Ÿฌํ•œ ํ˜„์ƒ์ด ์ผ์–ด๋‚˜๋Š”์ง€์— ๋Œ€ํ•œ ๋ถ„์„์ด ์žˆ์œผ๋ฉด ์ข‹๊ฒ ์Œ
โ€ข ๋ณด์™„/์ œ์•ˆ: ํ•˜๋‚˜์˜ ๋ชจ๋ธ(teacher)์—์„œ ์ฐพ์€ steering vector์„ student๋กœ ๋ฐ”๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ? cross-model ์ฐจ์›์—์„œ ์ถ”๊ฐ€๋กœ ํ™œ์šฉํ•  ๋งŒํ•œ ์•„์ด๋””์–ด์ธ๋“ฏ(ํšจ์œจ์„ฑ ์ธก๋ฉด..?)
4.0
ํŒ์ฝ˜โ€ข ์žฅ์ : steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ ๊ฐ„์— ์„ ํ˜•๋ณ€ํ™˜๋งŒ์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ž„
โ€ข ๋‹จ์  & ๋ณด์™„์ : ๋‹ค๋ฅธ ์š”์ธ์œผ๋กœ ์ธํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹์ง€ ๊ฒ€์ฆ, ๋‹ค์–‘ํ•œ ์„ค์ •์œผ๋กœ ์‹คํ—˜
3.8
์‚์งˆ โ€ข ์žฅ์ : Steering vector์˜ transferability๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๊ฒ€์ฆํ•จ. ์ถ”ํ›„ pretraining ๋น„์šฉ ์ ˆ๊ฐ์ด ๊ฐ€๋Šฅํ•ด๋ณด์ž„. ๋˜ํ•œ, global + local ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ConceptNet์„ ๊ฐ€์ ธ์™€์„œ ์˜๋ฏธ์  ์ฐจ์›์˜ ๊ฒ€์ฆ๋„ ์ˆ˜ํ–‰
โ€ข ์•ฝ์ : ๋™์ผ family ๋‚ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋งŒ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค ์‚ฌ์ด์˜ ๋น„๊ต๋งŒ ์ˆ˜ํ–‰ํ•ด์„œ ์ œํ•œ๋œ steering transfer์— ๊ฐ€๊นŒ์›€. ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด ๋‹น์—ฐํ•œ ๊ฒฐ๋ก ์„ ์‹คํ—˜์ ์œผ๋กœ ์‹œ๊ฐํ™”ํ•œ ๋А๋‚Œ
โ€ข ๋ณด์™„์ : ์„œ๋กœ ๋‹ค๋ฅธ LLM์œผ๋กœ ํ™•์žฅํ•ด์•ผ ์ง„์ •ํ•œ ์˜๋ฏธ๊ฐ€ ์žˆ์„ ๋“ฏ. tokenizer alignment๊ฐ€ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•์ด์ง€ ์•Š์„๊นŒ
3.8
์ดˆ์ฝœ๋ฆฟ โ€ข ์žฅ์ : ๊ฐ™์€ tokenizer๋ฅผ ์“ฐ๋”๋ผ๋„ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๊ณผ์ •์ด ๋‹ค๋ฅด๋ฉด embedding ์œ ์‚ฌ๋„๊ฐ€ ๋‚ฎ๋‹ค๋Š” ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ์ธ์ƒ์ ์ด์—ˆ์Œ
โ€ข ์•ฝ์ : EMB2EMB๋กœ steering vector๋ฅผ ์ด์‹ํ•˜๋Š” ์‹คํ—˜์ด toxicity, helpfulness ๊ฐ™์€ ๋ช‡ ๊ฐ€์ง€ ํŠน์„ฑ์—๋งŒ ์ง‘์ค‘๋˜์–ด ์žˆ์–ด์„œ, ๋ชจ๋“  ์ข…๋ฅ˜์˜ steering vector์— ๋Œ€ํ•ด ์ž˜ ๋˜๋Š”์ง€ ์•Œ ์ˆ˜ ์—†์„๊ฒƒ ๊ฐ™์Œ.
โ€ข ๋ณด์™„์ : ์–ด๋–ค ์ข…๋ฅ˜์˜ steering vector๋Š” ์ด์‹์ด ์ž˜ ๋˜๊ณ  ์–ด๋–ค ๊ฑด ์•ˆ ๋˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์œผ๋ฉด ์ข‹์„๊ฒƒ ๊ฐ™๋‹ค
4.0
๋ฉ์ฟ ๋ฆผ๋ณด๊ฐ™์€ ์‹œ๋ฆฌ์ฆˆ์˜ ๋ชจ๋ธ๋“ค์€ ๋‹ค ๋น„์Šทํ• ๊ฑฐ ๊ฐ™๊ธด ํ•จ ๋Œ€๊ฐ• ์ƒ๊ฐํ–ˆ์„ ๋•Œ ๋ฐ์ดํ„ฐ๋ž‘ ํ•™์Šต ํ”„๋ ˆ์ž„ ์›Œํฌ๊ฐ€ ๊ฐ™๋‹ค๋ฉด 1B๋ชจ๋ธ์€ 8B๋ชจ๋ธ์— ์–‘์žํ™”ํ•œ๊ฑฐ๋ž‘ ๋น„์Šทํ•˜๊ฒŒ ์ž‘๋™ํ•˜์ง€ ์•Š์„๊นŒ? ๊ทธ๋ž˜์„œ ๊ทธ๋‹ค์ง€ ๋†€๋ž์ง€๋Š” ์•Š์Œ ์ž„ํŒฉํŠธ๊ฐ€ ์กฐ๊ธˆ ๋–จ์–ด์ง€๋Š” ๋“ฏ! distillation์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ ์‹ถ์Œ. ์ž‘์€๊ฑฐ์—์„œ ๋ถ„์„ํ•˜๊ณ  ํฐ ๋ชจ๋ธ์— ์ ์šฉํ•˜๋ฉด ํšจ์œจ์ ์ด๋‹ˆ๊นŒ!3.5

TL; DR

๐Ÿ’ก

๊ฐ™์€ ๊ณ„์—ด์˜ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ์ฐจ์›์ด ๋‹ฌ๋ผ๋„ token embedding์˜ ๊ตฌ์กฐ๊ฐ€ ๊ต‰์žฅํžˆ ๋น„์Šทํ•˜๋‹ค! ๊ทธ๋ž˜์„œ, ํ•œ ๋ชจ๋ธ์—์„œ ๋งŒ๋“ค์–ด๋‚ธ steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ์—์„œ ์„ ํ˜•๋ณ€ํ™˜๋งŒ์œผ๋กœ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค!
์˜ˆ: 1B, 3B์—์„œ helpfulness๋ฅผ ์˜ฌ๋ฆฌ๋„๋ก ํ•˜๋Š” vector๋ฅผ ์ฐพ๊ณ  ๋‚˜์„œ, 8B๋กœ ๊ทธ๋Œ€๋กœ ์˜ฎ๊ฒจ์„œ ์“ธ ์ˆ˜ ์žˆ์Œ!

Summary

  • ์—ฐ๊ตฌ์ง„:

Background

  • Embedding
    • ํ† ํฐ์„ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ ( ์˜ˆ) 762์ฐจ์› ๋ฒกํ„ฐ)
  • Unembedding
    • ๋งˆ์ง€๋ง‰ hidden state(embedding) ์„ vocab์œผ๋กœ projection, logits์„ ๋งŒ๋“œ๋Š” ํ‘œ
    • ๋ชจ๋ธ๋ณ„๋กœ embedding๊ณผ unembedding ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ (tied) ํ•˜๊ฑฐ๋‚˜, ๋ถ„๋ฆฌ(untied) ํ•จ
  • Steering vector
    • hidden state์— ๋ฒกํ„ฐ๋ฅผ ๋”ํ•˜์—ฌ ๋ชจ๋ธ์„ ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ์œ ๋„
      • ์˜ˆ: refusal, toxity ๋“ฑ ์กฐ์ ˆ

Motivation

  • ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋‹ค๋ฅด๊ณ , ์ฐจ์›๋„ ๋‹ค๋ฅธ LLM ๋“ค์€ ๋‚ด๋ถ€ ํ‘œํ˜„์ด ๋‹ค๋ฅผ๊นŒ?
    • ์ ์  ๋˜‘๋˜‘ํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ฉด, ๊ทธ ๋ชจ๋ธ๋“ค์˜ ํ‘œํ˜„์€ ์–ด๋”˜๊ฐ€๋กœ ์ˆ˜๋ ดํ•˜์ง€ ์•Š์„๊นŒ?
  • ๊ทธ๋ ‡๋‹ค๋ฉด, ๊ฐ™์€ ๊ณ„์—ด์˜ ๋ชจ๋ธ์€, ์ฐจ์›์ด ๋‹ฌ๋ผ๋„ token embedding์ด ๋น„์Šทํ•˜์ง€ ์•Š์„๊นŒ?
  • ์–ด๋–ป๊ฒŒ ๋น„์Šทํ•  ์ˆ˜ ์žˆ์„๊นŒ?
    • ํ† ํฐ ๊ฐ„ ๋ฐฉํ–ฅ์ด๋‚˜ ์œ„์น˜ (Global)
    • ํ† ํฐ ์ฃผ๋ณ€์˜ ์ด์›ƒ (Local)
  • ๋งŒ์•ฝ ๋น„์Šทํ•˜๋‹ค๋ฉด, steering vector๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ๋กœ ์ด์‹ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

Method

Global

  • ๊ฐ ๋ชจ๋ธ์ด ์ €์žฅํ•˜๊ณ  ์ดํ•ดํ•˜๊ณ  ์žˆ๋Š” ํ† ํฐ์˜ ์ •๋ณด๊ฐ€ ๋น„์Šทํ•œ๊ฐ€?
  • ๊ฐ ๋ชจ๋ธ์—์„œ ๊ฐ™์€ ํ† ํฐ 2๋งŒ๊ฐœ ์ถ”์ถœ
    • ํ† ํฐ ์Œ์˜ cosine similarity ๊ณ„์‚ฐ
  • ๋‘ ๋ชจ๋ธ์˜ ๊ฑฐ๋ฆฌ ํ–‰๋ ฌ์˜ ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜ ๊ณ„์‚ฐ
    • ๋น„์Šทํ•˜๋‹ค๋ฉด? ํ† ํฐ๋“ค์˜ ์ƒ๋Œ€์  ๋ฐฐ์น˜๊ฐ€ ๋น„์Šทํ•˜๋‹ค! โ‡’ ํ† ํฐ์„ ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์ด ๋น„์Šทํ•˜๋‹ค
  • GPT2 ๊ณ„์—ด์€ ์ƒ๊ด€๋„ ๋†’์Œ
  • LLAMA3๋„ ๋†’์Œ
  • base model๊ณผ Instruction-tuned ๋ชจ๋ธ์€ ๊ฑฐ์˜ 1์— ๊ฐ€๊นŒ์šด ์ˆ˜์ค€
  • But,
    • untied embedding์ธ LLAMA 3 8b, 11b-v, 70b๋Š” ebdding ์—์„œ๋Š” ๋‚ฎ๊ณ , unembedding ์—์„œ๋Š” ๋†’์Œ
    • ์ €์ž๋“ค์˜ ํ•ด์„: untied ๋ชจ๋ธ์€ embedding์ด ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋งˆ์ง€๋ง‰ logits์„ ๋งŒ๋“œ๋Š” unembedding์€ ์œ ์‚ฌํ•˜๋‹ค
    • ๊ทธ๋ ‡๋‹ค๋ฉด, hidden state๋„ ๋งˆ์ง€๋ง‰์—๋Š” ๋น„์Šทํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์ˆ˜๋ ด!

    โ‡’ ์ด๊ฒŒ ๋ฌด์Šจ๋ง? : ์ž…๋ ฅ ํ‘œํ˜„์˜ ์ถœ๋ฐœ์ ์€ ๋‹ฌ๋ผ๋„, ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋งˆ์ง€๋ง‰ ๋๋‹จ ๊ณต๊ฐ„์€ ๋น„์Šทํ•ด์งˆ ์ˆ˜ ์žˆ์Œ

    โ‡’ ์–ด๋–ป๊ฒŒ: hidden layer๊ฐ€ ์ˆœ์ฐจ์ ์œผ๋กœ ์ •๋ ฌ๋˜์–ด ์žˆ๊ณ , ๋‘ ๋ชจ๋ธ์˜ layer ๋‹จ์ด ์œ ์‚ฌํ•˜๋‹ค๋ฉด ๊ฐ€๋Šฅ!

  • ๊ฐ™์€ tokenizer๋ฅผ ์“ฐ๋Š” ๋ชจ๋ธ์€?
    • GPT-NeoX-20B ์™€ Olmo-7B ์˜ ์ƒ๊ด€๊ณ„์ˆ˜๋Š” 0.32
      • tokenizer๊ฐ€ ์•„๋‹ˆ๋ผ, ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ํ•™์Šต ๊ณผ์ •์˜ ์˜ํ–ฅ์ด ํ† ํฐ ์ž„๋ฒ ๋”ฉ ํ˜•์„ฑ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค!

Local

  • ํ† ํฐ ๋ฒกํ„ฐ๊ฐ€ ์žˆ์„ ๋•Œ, ์ฃผ๋ณ€์€ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์„๊นŒ? ์„œ๋กœ ๋น„์Šทํ• ๊นŒ?
  • ์ „์ฒด์  ๋ฐฐ์น˜๊ฐ€ ์•„๋‹ˆ๋ผ, ํŠน์ • ํ† ํฐ(์ )์˜ ์ด์›ƒ๋งŒ ๋ณด์ž!
  • ๋Œ€๋ถ€๋ถ„ ๋น„์Šทํ•˜์ง€๋งŒ, 0.0์—์„œ ๊ฐ‘์ž๊ธฐ ํŠ„๋‹ค
    • why?: ์ €์ž๋“ค์€ ์ด๋ฅผ untrained๋ผ๊ณ  ํ•ด์„ํ•จ. ์ฆ‰, ๋žœ๋ค ์ดˆ๊ธฐํ™”์— ๊ฐ€๊นŒ์šด ์ˆ˜์ค€์ด๋ผ์„œ ๊ทธ๋ ‡๋‹ค!
  • Intrinsic Dimension (ID) ๋„์ž…
    • ์ง์—ญ: ํŠน์ • ํ† ํฐ์˜ K Nearest Neighbors ๋ชจ์œผ๊ธฐ โ‡’ PCA๋ฅผ ๋Œ๋ฆฌ๋ฉด, ์ „์ฒด ๋ถ„์‚ฐ์˜ 95%๋ฅผ ์„ค๋ช…ํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ principal component ์ˆ˜
      • ์ด๊ฒŒ ๋ฌด์Šจ๋ง์ด์ง€?
        • ID๊ฐ€ ๋‚ฎ๋‹ค: ๊ทธ ํ† ํฐ ์ฃผ๋ณ€ ์ด์›ƒ์ด ๋‚ฎ์€ ์ฐจ์›์˜ ์–‡์€ ๊ตฌ์กฐ
          • โ€œ์ธํ„ฐ๋„ท์ปดํ“จํŒ…์—ฐ๊ตฌ์‹คโ€์˜ ์ฃผ๋ณ€ ์ด์›ƒ์ด โ€œ์†Œํ”„ํŠธ์ปดํ“จํŒ…์—ฐ๊ตฌ์‹คโ€,โ€๋ฐ์ดํ„ฐ๊ณตํ•™์—ฐ๊ตฌ์‹คโ€,โ€์ด์Šคํฌ์ธ ์—ฐ๊ตฌ์‹คโ€ ์ด๋ฉด?
          • ์ ์€ ์ฐจ์›์œผ๋กœ๋„ ๋ฐ”๋กœ ๋ณด์ž„ โ‡’ ID๊ฐ€ ๋‚ฎ๋‹ค
        • ID๊ฐ€ ๋†’๋‹ค: ๊ทธ ํ† ํฐ ์ฃผ๋ณ€ ์ด์›ƒ์ด ์„ค๋ช…ํ•˜๊ธฐ ์–ด๋ ต๋‹ค!
          • โ€œ์–ธ์–ดโ€์˜ ์ฃผ๋ณ€ ์ด์›ƒ์ด โ€œ์ˆ˜ํ•™โ€, โ€œ๋ชจ๋ธโ€, โ€œGPTโ€, โ€œ๊ณผํ•™โ€, โ€œ์ปดํ“จํ„ฐโ€, โ€œ์ผ๋ณธ์–ดโ€, โ€œ์ˆ˜๋Šฅโ€โ€ฆ
          • ํ•œ๋ฒˆ์— ์„ค๋ช…ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›€ (๋‹ค์ฐจ์› ํ•„์š”)
  • ID๊ฐ€ ๋‚ฎ์œผ๋ฉด, semantic cluster๊ฐ€ ์ž˜ ์žกํž˜

  • ConceptNet์„ ์“ฐ๋ฉด ์ •๋Ÿ‰ํ™”๊ฐ€ ๋˜์ง€ ์•Š์„๊นŒ? (Semantic Coherence Score, SCS)
    • ๊ฐœ๋…๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๊ฐ€ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋Š” ์ƒ์‹ ๊ทธ๋ž˜ํ”„
    • ์ฃผ๋ณ€ ์ด์›ƒ 50๊ฐœ๋ฅผ ๋ฝ‘๊ณ , conceptNet์—์„œ์˜ ๊ฐ ๊ฐœ๋…๊ฐ„ ์ตœ๋‹จ ๊ฒฝ๋กœ ๊ธธ์ด ํ‰๊ท ์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ •๋Ÿ‰ํ™”!

  • ๊ทธ๋ ‡๋‹ค๋ฉด, ID๋Š” ์œ ์‚ฌํ• ๊นŒ?
    • ์œ ์‚ฌํ•˜๋‹ค! ๋‹ค๋งŒ, ๊ฒฝํ–ฅ์„ฑ์ด ์ข€ ๋‹ค๋ฅด๊ธด ํ•˜๋‹ค
      • GPT2, Llama 3 ๋‚ด๋ถ€์—์„œ๋Š” ๋†’์Œ
      • Gemma2๋Š” ๋‹ค๋ฅธ๋ฐ.. ์ €์ž๋“ค๋„ ๋ชจ๋ฅด๋Š”๋“ฏ

Transfer(EMB2EMB)

  • ๊ณต์œ ํ•˜๋Š” ๊ฒƒ์€ ์•Œ์•˜์œผ๋‹ˆ, ์˜ฎ๊ธธ ์ˆ˜ ์žˆ๋Š”๊ฐ€? ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜์ž๋ฉด, ๊ฐ€๋Šฅํ•˜๋‹ค!
  • source unembedding vector๋กœ๋ถ€ํ„ฐ target unembedding vector๋ฅผ ์œ ๋„ํ•˜๋Š” ์„ ํ˜•๋ณ€ํ™˜์ด ์žˆ๋Š”๊ฐ€?

์ •๋ฆฌ

๊ฐ™์€ ๊ณ„์—ด์˜ LLM๋“ค์€ token space์˜ ์ „์—ญ ๊ตฌ์กฐ๊ฐ€ ๋น„์Šทํ•˜๋‹ค
  • ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ๋‹ฌ๋ผ๋„, ๊ฐ™์€ ๊ณ„์—ด์˜ ๋ชจ๋ธ์€ token vector๊ฐ„ ์ƒ๋Œ€์  ๋ฐฉํ–ฅ ๊ด€๊ณ„๊ฐ€ ์œ ์ง€๋œ๋‹ค
    • ๊ณต๊ฐ„์˜ ์ „์ฒด์  ๋ชจ์–‘์ด ๋น„์Šทํ•˜๋‹ค!
  • ์–ด๋–ค ์˜์˜์ธ๊ฐ€?
    • ์ž‘์€ ๋ชจ๋ธ๊ณผ ํฐ ๋ชจ๋ธ์ด ๋‚ด๋ถ€์ ์œผ๋กœ ์™„์ „ํžˆ ๋‹ค๋ฅธ representation์„ ๊ฐ€์ง€์ง€ ์•Š๋Š”๋‹ค!
    • Instruction-tuning์„ ํ•ด๋„ ์•ˆ๋ณ€ํ•œ๋‹ค!
ํ† ํฐ์˜ ์ฃผ๋ณ€ ์ด์›ƒ๋„ ๋น„์Šทํ•˜๋‹ค
  • ๋Œ€๊ฐ• ๋น„์Šทํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ตฌ์กฐ์ ์œผ๋กœ๋„ ์ •๋ ฌ๋˜์–ด์žˆ๊ณ , ๋น„์Šทํ•˜๋‹ค
  • ์ฆ‰, ํ† ํฐ์„ ์ „์ฒด์ ์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ๋ฐ›์•„๋“ค์ด๋Š” ๋ฐฉ์‹์ด ๋น„์Šทํ•˜๋‹ค!
  • โ€œ๊ทธ๋ ‡๋‹ค๋ฉด, ์˜ฎ๊ธธ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?โ€ ๋ผ๋Š” ์•„์ด๋””์–ด๋ฅผ ์ฃผ๋Š” ๊ฒฐ๊ณผ
์–ด์ฉŒ๋ฉด ๋‹น์—ฐํ•˜๊ฒŒ๋„, ํŠน์ • ํ† ํฐ์„ ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์กฐ์ฐจ ๋น„์Šทํ•˜๋‹ค
  • ํŠน์ • ํ† ํฐ ์ฃผ๋ณ€์˜ ์ด์›ƒ๋“ค์ด ๋ฌถ์ธ ๋ฐฉ์‹์ด, ๋ชจ๋ธ๋ผ๋ฆฌ ์œ ์‚ฌํ•˜๋‹ค
  • ํŠน์ • ํ† ํฐ์ด ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ(์„ค๋ช…์ด ๋งŽ์ด ํ•„์š”ํ•˜์ง€ ์•Š๋Š” ๋ช…ํ™•ํ•œ ์ดํ•ด ๊ธฐ๋ฐ˜) / ๋ณต์žกํ•œ ๊ตฌ์กฐ ์ธ์ง€ ๊ฒฐ์ •๋˜๋Š” ํŒจํ„ด๋งˆ์ € ๋น„์Šทํ•˜๋‹ค!

๊ทธ๋ž˜์„œ, ์šฐ๋ฆฌ๋Š” ๊ฐ ๋ชจ๋ธ ๊ฐ„ ์ด์‹์ด ๊ฐ€๋Šฅํ•˜๋‹ค!
  • ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ A model์˜ embedding์„ B ๋ชจ๋ธ์—์„œ ๋˜‘๊ฐ™์ด ๋™์ž‘ํ•˜๋„๋ก ๋ฐ”๊พธ๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?
  • 1B๋‚˜ 3B์—์„œ ๋งŒ๋“  steering vector (toxity ๋“ฑ) ์„ 8B์—์„œ ์“ธ ์ˆ˜ ์žˆ๋‚˜?
    • ๊ฐ€๋Šฅํ•˜๋‹ค!

Insights

  • ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ, ์‘์šฉ ์‰ฌ์›€, ๊ด€์ฐฐ ์ข‹์Œ
    • Steering vector๋ฅผ ์˜ฎ๊ธธ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค๋ผ๋Š” ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ์‹คํ—˜์„ ๋‹จ๊ณ„์ ์œผ๋กœ ๋ช…ํ™•ํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•จ
    • ๋ฐฉ๋ฒ•์ด ๋งค์šฐ ๊ฐ„๋‹จํ•˜๊ณ , ์‹ค์ œ๋กœ ๋™์ž‘์ด ๊ฐ€๋Šฅํ•จ
  • ๊ณต๊ฐ„์ด ์™œ ๊ณต์œ ๋˜๋Š”์ง€๋Š” ํ•ด์„ํ•˜์ง€ ์•Š์Œ
    • ๋Œ€์ถฉ ๋А๋‚Œ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ฐ ๊ตฌ์กฐ๊ฐ€ ๋น„์Šทํ•˜๋‹ค๋Š” ๊ฒƒ ๊ฐ™์€๋ฐ, ๊ฒ€์ฆ์ด ๋˜์ง€๋Š” ์•Š์Œ
    • neural collapse, next-token ์˜ˆ์ธก ๊ธฐ๋ฐ˜์˜ ๋ฌธ์ œ์ ์ผ์ˆ˜๋„ ์žˆ์Œ
  • ๊ฒ€์ฆ ๋ฐฉ์‹๋„ ์‚ฌ์‹ค ์ž˜ ๋ชจ๋ฅด๊ฒ ๋‹ค.
    • Intrinsic Dimenstion (ID) ๋ถ€ํ„ฐ ์ €์ž๋“ค์ด ์ •์˜ํ•œ ๊ฑด๋ฐ, ๋Œ€์ถฉ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด๋Š” ๊ฐ€์ง€๋งŒ ์ €๊ฒŒ ์ „๋ถ€ ํ•ด๊ฒฐ๊ฐ€๋Šฅํ•œ๊ฐ€?๋Š” ๋ชจ๋ฅด๊ฒ ์Œ.
    • ์‹ฌ์ง€์–ด Gemma2๋Š” ์•„์˜ˆ ๊ฒฝํ–ฅ์„ฑ์ด ๋‹ค๋ฅธ๋ฐ, ๊ทธ๋ƒฅ ๋„˜์–ด๊ฐ

๊ทธ๋Ÿผ์—๋„, ๊ฐ™์€ ๊ณ„์—ด์—์„œ steering vector์˜ ๊ฒฝํ–ฅ์„ฑ์ด ์ด์‹๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํžŒ ๊ฒƒ์€ ์˜๋ฏธ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•จ (๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ž‘์•„์„œ ์•„์‰ฝ๊ธด ํ•˜์ง€๋งŒ, ๊ฐ€๋Šฅ์„ฑ์ด ๋ณด์ด๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ํฅ๋ฏธ๋กœ์›€)

Categories

Interpretability PROBING research