10 December 2025

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

๐Ÿ’กLLM ์•ˆ์—๋Š” ์ด ์—”ํ‹ฐํ‹ฐ๋ฅผ LLM์ด ์•„๋Š”์ง€/๋ชจ๋ฅด๋Š”์ง€๋ฅผ ํ‘œ์‹œํ•˜๋Š” latent ๋ฐฉํ–ฅ์ด ์‹ค์ œ๋กœ ์กด์žฌ์ด latent ๋ฐฉํ–ฅ์„ ์กฐ์ž‘(steering) ํ•˜๋ฉด,์›๋ž˜๋Š” ๋ชจ๋ฅธ๋‹ค๊ณ  ๋งํ•˜๋˜ ์งˆ๋ฌธ(๋‹ต๋ณ€ ๊ฑฐ๋ถ€)์— ๋Œ€ํ•ด ํ• ๋ฃจ์‹œ๋„ค์ด์…˜์„ ์‹œํ‚ค๊ฑฐ๋‚˜,์›๋ž˜ ์ž˜ ์•Œ๋˜ ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด์„œ๋„ ๋‹ต๋ณ€์„ ๊ฑฐ๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ

์ด์Šนํ™˜
์ด์Šนํ™˜
๐Ÿฅ‡

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๋ธ”๋ž™ํ”„๋ผ์ด๋ฐ์ด์‚ฌ์‹ค์ƒ self-knowledge๋ฅผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, hallucination ์—ฐ๊ตฌ๋Š” ๋‚ดํ›„๋…„ ์ฏค์ด๋ฉด ๋๋‚  ์ˆ˜๋„ ์žˆ๊ฒ ๋„ค์šฉ
(+์ €์—๊ฒ SAE๊ฐ€ ์ƒ์†Œํ•ด์„œ ์ฐพ์•„๋ณด๋‹ˆ, LLM์˜ ํ•ด์„๊ฐ€๋Šฅ์„ฑ ์—ฐ๊ตฌ์—์„œ ๋งŽ์ด ํ™œ์šฉํ•œ๋‹ค๊ณ  ํ•˜๋„ค์š”!)
4.2
๊ณ ๋ถ•์ด๋Ÿฐ ์ƒ๊ฐ์„ ํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์ด ๋…ผ๋ฌธ์„ ์“ฐ๋Š”๊ตฌ๋‚˜,, ๋ชจ๋ธ์ด ์–ด๋–ค ์ง€์‹์„ ์•Œ๊ณ /๋ชจ๋ฆ„์˜ ์—ฌ๋ถ€๋Š” ์ง€์‹ ์ž์ฒด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”๊ฐ€/์•„๋‹Œ๊ฐ€ ๊ฐ€ ์•„๋‹Œ โ€˜gatingโ€™ ์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์Œ.5
3์‹œ๋‹จ์ˆœํ•œ entity๋ฅผ ๋„˜์–ด์„œ ๊ธด ๋ฌธ๋งฅ์ด๋‚˜ ๊ทœ์น™์„ ์ดํ•ดํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ๊นŒ? Graph autoencoder๋กœ ํ™•์žฅ์„ ํ–ˆ์„ ๋•Œ ์žฅ๊ธฐ๊ธฐ์–ต ๊ด€์ ์—์„œ ๋ฒ”์šฉ์„ฑ์ด ์ถ”๊ฐ€๋กœ ์ƒ๊ธธ ๊ฑฐ ๊ฐ™์Œ4.8
6์‹œ๊ฐ๊ฐ์˜ latent๊ฐ€ ํ•˜๋‚˜์˜ ํŠน์ง•์„ ์˜๋ฏธํ•˜๋Š” SAE ํŠน์ง•์„ ์ž˜ ์‚ฌ์šฉํ•œ๋‹ค๋ฉด ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์ด์™ธ์—๋„ LLM์˜ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ๋“ค์„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ
e.g., ์–ธ๋Ÿฌ๋‹, alignment..
4.5
์š˜์„ธ์ดSAE์˜ Latent Vector์˜ ํŠน์ง•์„ ์ฐพ์Œ์œผ๋กœ์จ, ํŠน์ • ์ฐจ์›์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๋งŒ์„ ๋‚ด๋ณด๋‚ด๊ฒŒ ํ•œ๋‹ค๋ฉด Hallucination์„ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜, ์‘๋‹ต ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ์ž„์—๋„ ๋ฌด์‘๋‹ต์„ ๋‚ด๋ณด๋‚ด๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์–ด novelty๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ด„.4.5
๋ฐฅ์‹คํ—˜ ๊ฒฐ๊ณผ๋กœ unknown/known entity latent๊ฐ€ ์žˆ๊ณ  ์„ค๋ช…ํ•œ๋Œ€๋กœ์˜ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์Œ์ด ๋ช…๋ฐฑํžˆ ๋“œ๋Ÿฌ๋‚˜๋Š” ๊ฒƒ ๊ฐ™์•„์„œ ๋ฐœ๊ฒฌ์ด ์‹ ๋ขฐ๊ฐ€ ๊ฐ„๋‹ค. sparse autoencoder๋กœ ๋ฐํžŒ latent๋ฅผ ํ™œ์šฉํ•ด์„œ LLM ์ž์ฒด์—์„œ๋Š” ์–ด๋–ป๊ฒŒ unknown/known ์ธ์‹์ด ๋‚˜ํƒ€๋‚˜๋Š”์ง€๋„ ๋ณผ ์ˆ˜ ์žˆ์„ ๋“ฏํ•˜๋‹ค. ์–ด๋–ป๊ฒŒ ๋‚˜ํƒ€๋‚ ์ง€ ๊ถ๊ธˆํ•จ5
์‚ฌ์ด์‹œ์˜ทblack box๋กœ๋งŒ ์—ฌ๊ฒจ์กŒ๋˜ LLM์˜ ๋‚ด๋ถ€์ž‘๋™์„ ํ•ด์„ํ•˜๋Š” ๋…ผ๋ฌธ์ค‘์—์„œ๋„ ์ด ๋…ผ๋ฌธ์€ ๊ฝค๋‚˜ ์˜๋ฏธ์žˆ๋Š” ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋‚จ๊ฒจ์ค„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์šฉ์ ์ด๊ธฐ๋„ ํ•˜๋‹ค. steering์ด ๊ฝค ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•๋ก ์ด๋ผ์„œ, ๋‹ค๋ฅธ ์—ฐ๊ตฌ๊ฑฐ๋ฆฌ๋„ ๋งŽ์ด ์ƒ๊ธธ๊ฒƒ ๊ฐ™๋‹ค!5
ํ”„๋ฆฌ๋ฐ”์ด์˜คํ‹ฑ์Šค๋Š” ์œ ์‚ฐ๊ท ๋จน์ด๊ทธ๋ƒฅ ์ง๊ด€์ ์œผ๋กœ ์ƒ๊ฐํ–ˆ๋˜ ๊ฒƒ์„ ์‹คํ—˜ํ•œ ๋…ผ๋ฌธ์ด๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ์Œ. ์งˆ์˜์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ์ƒ๊ฐํ•ด๋ณผ ๋•Œ, ์ผ๋‹จ ๊ทธ ์งˆ์˜์— ์žˆ๋Š” ๋‹จ์–ด๊ฐ€ ๋‚ด๊ฐ€ ์•„๋Š” ๋‹จ์–ด์ธ์ง€/๋ชจ๋ฅด๋Š” ๋‹จ์–ด์ธ์ง€ ์•„๋Š” ๊ณผ์ •์ด ์ œ์ผ ์„ ์ œ์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค๊ณ  ์ƒ๊ฐํ•จ. ๋ชจ๋ฅด๋Š” ๋‹จ์–ด๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ์—๋Š” ์• ์ดˆ์— ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ํ•  ์ˆ˜๊ฐ€ ์—†๋‹ค๊ณ  ์ƒ๊ฐ๋˜๊ณ , ๊ทธ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์€ ๊ฒƒ์€ hallucination์— ์—ฐ๊ด€๋œ ๋ชจ๋“  ์—ฐ๊ตฌ์— ์ฐธ๊ณ ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ.4.5

TL; DR

๐Ÿ’ก

LLM ์•ˆ์—๋Š” ์ด ์—”ํ‹ฐํ‹ฐ๋ฅผ LLM์ด ์•„๋Š”์ง€/๋ชจ๋ฅด๋Š”์ง€๋ฅผ ํ‘œ์‹œํ•˜๋Š” latent ๋ฐฉํ–ฅ์ด ์‹ค์ œ๋กœ ์กด์žฌ

์ด latent ๋ฐฉํ–ฅ์„ ์กฐ์ž‘(steering) ํ•˜๋ฉด,

  • ์›๋ž˜๋Š” ๋ชจ๋ฅธ๋‹ค๊ณ  ๋งํ•˜๋˜ ์งˆ๋ฌธ(๋‹ต๋ณ€ ๊ฑฐ๋ถ€)์— ๋Œ€ํ•ด ํ• ๋ฃจ์‹œ๋„ค์ด์…˜์„ ์‹œํ‚ค๊ฑฐ๋‚˜,
  • ์›๋ž˜ ์ž˜ ์•Œ๋˜ ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด์„œ๋„ ๋‹ต๋ณ€์„ ๊ฑฐ๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ

Summary

  • ์—ฐ๊ตฌ์ง„: ์นดํƒˆ๋ฃจ๋ƒ ๊ณต๊ณผ๋Œ€ํ•™๊ต, ์ทจ๋ฆฌํžˆ ์—ฐ๋ฐฉ๊ณต๊ณผ๋Œ€ํ•™๊ต
  • ์ธ์šฉ์ˆ˜: 91

Preliminary

Autoencoder ๋ž€?

  • ์ •์˜: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜์—ฌ ํ•ต์‹ฌ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ์ด๋กœ๋ถ€ํ„ฐ ์›๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ๋ณต์›ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ์‹ ๊ฒฝ๋ง
  • ๊ตฌ์„ฑ์š”์†Œ
    • Encoder:
      • ๋ถˆํ•„์š”ํ•œ ์ •๋ณด(๋…ธ์ด์ฆˆ)๋ฅผ ๋ฒ„๋ฆฌ๊ณ , ์ค‘์š”ํ•œ ํŠน์ง•๋งŒ ๋‚จ๊ธฐ๋Š” ์—ญํ• 
      • ์ž…๋ ฅ x ๋ฅผ ์ €์ฐจ์› ํ‘œํ˜„ z๋กœ ์••์ถ•ํ•˜๋Š” ๋ถ€๋ถ„
    • Decoder:
      • ์••์ถ•๋œ ์ €์ฐจ์› ํ‘œํ˜„ z๋ฅผ ๋‹ค์‹œ ์›๋ณธ ์ž…๋ ฅ x๊ณผ ์ตœ๋Œ€ํ•œ ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ y๋กœ ๋ณต์›ํ•˜๋Š” ๋ถ€๋ถ„
    • ์ž ์žฌ ๊ณต๊ฐ„ (Latent Space / Bottleneck):
      • ์ธ์ฝ”๋”์— ์˜ํ•ด ์••์ถ•๋œ ์ €์ฐจ์› ํ‘œํ˜„ z ๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ณต๊ฐ„
      • ๋ฐ์ดํ„ฐ์˜ ํ•ต์‹ฌ์ ์ธ ํŠน์ง•์ด ์‘์ถ•๋˜์–ด ์žˆ์Œ
      • ๊ฐ€์žฅ ์ฐจ์›์ด ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์—ย ๋ณ‘๋ชฉ(bottleneck)์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆผ
  • ํ•™์Šต ๋ชฉํ‘œ:
    1. ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ• ํ›„ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›
    1. ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์˜ ๋ถˆํ•„์š”ํ•œ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํŠน์ง•์ด ๋ฌด์—‡์ธ์ง€ ์Šค์Šค๋กœ ํ•™์Šต

Sparse Autoencoder (SAE)

  • ์ •์˜: ๋Œ€๋ถ€๋ถ„์˜ latent ๋‰ด๋Ÿฐ์€ 0, ์†Œ์ˆ˜๋งŒ ๊ฐ•ํ•˜๊ฒŒ ์ผœ์ง€๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ์˜คํ† ์ธ์ฝ”๋”
    • Sparse: ๋Œ€๋ถ€๋ถ„ 0์ด๊ณ  ์†Œ์ˆ˜๋งŒ ์ผœ์ ธ ์žˆ๋Š” ์ƒํƒœ
  • AutoEncoder๋ณด๋‹ค SparseAutoencoder๋ฅผ ์“ฐ๋Š” ์ด์œ !
    • ์ผ๋ฐ˜ ์˜คํ† ์ธ์ฝ”๋”๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•(์ฐจ์› ์ถ•์†Œ)ํ•˜์ง€๋งŒ, SAE๋Š” ์˜คํžˆ๋ ค ์ฐจ์›์„ ํ™•์žฅํ•จ

      โ†’ LLM์˜ ํžˆ๋“  ๋ฒกํ„ฐ์— ์ค‘์ฒฉ๋ผ์žˆ๋Š” ํŠน์ง•๋“ค์„ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด LLM ๋‚ด๋ถ€์˜ ์ •๋ณด๋ฅผ ๋” ํฐ ์ฐจ์›์œผ๋กœ ํ™•์žฅ

      โ†’ ๊ทธ ์ค‘ ์†Œ์ˆ˜์˜ latent๋งŒ ์ผœ์ง€๋„๋ก ๋งŒ๋“ค์–ด ๊ฐ latent๊ฐ€ ๋šœ๋ ทํ•œ ์˜๋ฏธ ํ•˜๋‚˜์”ฉ ๋‹ด๋‹นํ•˜๋„๋ก ์œ ๋„

  • ๋ณธ ๋…ผ๋ฌธ์ด SAE๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•!!
    • LLM ๋‚ด๋ถ€ ํ‘œํ˜„์„ ์—ฌ๋Ÿฌ latent๋กœ ๋ถ„ํ•ด
      • ์ž…๋ ฅ: LLM ๋ ˆ์ด์–ด์˜ ํžˆ๋“  ๋ฒกํ„ฐ x
      • Encoder โ†’ latent ๋ฒกํ„ฐ a(x) ์ƒ์„ฑ (by SAE)
        • SAE๋Š” LLM ๋‚ด๋ถ€ ํ‘œํ˜„์„ ํฌ์†Œํ•˜๊ณ  ํ•ด์„ ๊ฐ€๋Šฅํ•œ latent๋“ค๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๋„๊ตฌ
      • Decoder โ†’ latent๋ฅผ ๋‹ค์‹œ ์›๋ž˜ ์ž…๋ ฅ์˜ ํžˆ๋“  ๋ฒกํ„ฐ๋กœ ๋ณต์›

    โ‡’ ๊ฐ latent๊ฐ€ ํŠน์ • ์ƒํ™ฉ์—์„œ๋งŒ ์ผœ์ง€๋Š” ์ฆ‰, ์˜๋ฏธ๋ฅผ ๊ฐ–๋„๋กํ•˜๋Š” ์Šค์œ„์น˜์ฒ˜๋Ÿผ ๋™์ž‘

    • ๊ฐ latent ๋ฐฉํ–ฅ์€ ํŠน์ • ์—”ํ‹ฐํ‹ฐ ์‹ ํ˜ธ์™€ ๊ฐ™์€ ํ•˜๋‚˜์˜ ์˜๋ฏธ๋ฅผ ๋‹ด๋‹น

    ํ•ต์‹ฌ!!: latent ๋ฐฉํ–ฅ์— ๊ฐ’์„ ๋”ํ•˜๊ฑฐ๋‚˜ ๋นผ๋ฉด(steering), ํ• ๋ฃจ์‹œ๋„ค์ด์…˜/ ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ ํ™•๋ฅ ์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ์Œ!!!

Introduction

Background

  • ํ• ๋ฃจ์‹œ๋„ค์ด์…˜:
    • ์ธ๊ณต์ง€๋Šฅ์ด ๋Œ€ํ™”๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ์‚ฌ์‹ค๊ณผ๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ํ…์ŠคํŠธ๋ฅผ ๋งˆ์น˜ ์ง„์‹ค์ธ ๋“ฏ ๋‹ต๋ณ€ํ•˜๋Š” ํ˜„์ƒ
      • ํ—ฌ์Šค์ผ€์–ด ๊ฐ™์ด ์‚ฌ์‹ค ์—ฌ๋ถ€๊ฐ€ ์ค‘์š”ํ•œ ๋„๋ฉ”์ธ์—์„œ ์น˜๋ช…์ ์ž„
      • LLM์˜ ํ™˜๊ฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์•„์ง ๋ฐํ˜€์ง€์ง€ ์•Š์Œ!

  • ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด Factual Recall ์ฆ‰, ๋ชจ๋ธ์ด ์ž๊ธฐ ์•ˆ์— ์ €์žฅ๋œ fact๋ฅผ ์–ด๋–ป๊ฒŒ ๊บผ๋‚ด ์“ธ์ง€์— ์ง‘์ค‘ํ–ˆ๋‹ค๋ฉด,

    โ‡’ ๋ณธ ๋…ผ๋ฌธ์€ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜์ด ์–ด๋–ป๊ฒŒ ๋ฐœ์ƒํ•˜๋Š”์ง€, ๋‹ต๋ณ€ ๊ฑฐ๋ถ€๊ฐ€ ์–ด๋–ป๊ฒŒ ์ผ์–ด๋‚˜๋Š”์ง€์— ๋Œ€ํ•ด ์ง‘์ค‘ํ•ด์„œ ์—ฐ๊ตฌ

  • ํ• ๋ฃจ์‹œ๋„ค์ด์…˜์˜ ์›์ธ:
    1. ์ž˜๋ชป๋œ ๋ฐ์ดํ„ฐ๋‚˜ outdated ๋œ ์ง€์‹์„ ํ•™์Šตํ•œ ๊ฒฝ์šฐ
    1. LLM์—๊ฒŒ ์—†๋Š” ์ง€์‹์„ ์ƒ์„ฑํ•˜๋ผ๋Š” ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ โ† ๋ณธ ๋…ผ๋ฌธ์€ ์ด ์›์ธ์— ์ง‘์ค‘ํ•จ!
      • ๋‹ค์–‘ํ•œ ์—”ํ‹ฐํ‹ฐ(์˜ํ™”, ๋„์‹œ, ์„ ์ˆ˜โ€ฆ)์— ๋Œ€ํ•ด ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์‹คํ—˜์„ ํ•œ ๊ฒฐ๊ณผ, 2๊ฐ€์ง€ ์ถœ๋ ฅ ๊ด€์ธก
        1. ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ e.g., Lebron James is Koreanโ€ฆ
        1. ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ e.g., I'm not able to provide informationโ€ฆ
  • ํ‘œํ˜„ ๊ณต๊ฐ„ & SAE
    • Linear Representation Hypothesis: LLM์˜ hidden state์— ๊ฐ์„ฑ, ์ฃผ์ œ ๋“ฑ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํŠน์„ฑ์ด ์„ ํ˜• ๋ฐฉํ–ฅ์œผ๋กœ ์ธ์ฝ”๋”ฉ๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฐ€์„ค
    • Sparse Autoencoder(SAE)๋Š” ์ด๋Ÿฐ ๋ฐฉํ–ฅ๋“ค์„ latent ํ˜•ํƒœ๋กœ ๋ฝ‘์•„๋‚ด๋„๋ก ๋„์›€!
      • ๊ฐ latent๊ฐ€ ํ•˜๋‚˜์˜ ์˜๋ฏธ(e.g., โ€œ๋ชจ๋ฅด๋Š” ์—”ํ‹ฐํ‹ฐ์ผ ๋•Œ๋งŒ ์ผœ์งโ€)๋ฅผ ๋‹ด๋‹นํ•˜๋„๋ก ์œ ๋„

      โ‡’ SAE๋ฅผ ํ†ตํ•ด ํ‘œํ˜„ ๊ณต๊ฐ„(representation space) ๋‚ด์—์„œ ์„ ํ˜• ๋ฐฉํ–ฅ(linear direction)์„ ์ฐพ์•„๋ณด์ž!

  • ๋ชจ๋ธ์ด ํŠน์ • ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด โ€œ์•Œ๊ณ  ์žˆ๋Š”์ง€/๋ชจ๋ฅด๋Š”์ง€โ€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ผ์ข…์˜ ์ž๊ธฐ ์ง€์‹(self-knowledge)
    • ๋ชจ๋ธ์— ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์ž๊ธฐ-์ง€์‹(self-knowledge) ์ด ์กด์žฌํ•œ๋‹ค๊ณ ๊นŒ์ง€ ํ™•์ • x
    • ์‚ฌ์‹ค ํšŒ์ƒ(factual recall) ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ํŠนํ™”๋œ ํ˜„์ƒ์ผ์ˆ˜๋„

Contribution

  • ์ง€์‹ ์ธ์‹(Knowledge Awareness) latent ๋ฐœ๊ฒฌ!
    • SAE๋ฅผ ํ†ตํ•ด, ์—”ํ‹ฐํ‹ฐ์˜ ํžˆ๋“  ๋ฒกํ„ฐ๋ฅผ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ์•Œ๊ณ  ์žˆ๋Š” ์—”ํ‹ฐํ‹ฐ/๋ชจ๋ฅด๋Š” ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด์„œ๋งŒ ์ผœ์ง€๋Š” latent ๋ฐœ๊ฒฌ!

    โ‡’ ๋ชจ๋ธ์ด ํŠน์ • ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€/์—†๋Š”์ง€๋ฅผ ๋‚ด๋ถ€์ ์œผ๋กœ ํ‘œ์‹œํ•˜๋Š” ์‹ ํ˜ธ๋กœ ํ•ด์„

    • ๋‹ค์–‘ํ•œ ์—”ํ‹ฐํ‹ฐ ๋„๋ฉ”์ธ์—์„œ ์ผ๊ด€๋œ ๊ฒฐ๊ณผ
    • base ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•œ ๋ชจ๋ธ์—์„œ๋„ ์ผ๊ด€๋œ ๊ฒฐ๊ณผ

  • latent ๋ฐฉํ–ฅ Steering์„ ํ†ตํ•œ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ / ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ ์ œ์–ด
    • ํŠน์ • latent์˜ ๋ฐฉํ–ฅ์„ ์กฐ์ ˆ(steering) ํ•œ ๊ฒฐ๊ณผ,
      • ๋ชจ๋ฅด๋Š” ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ํ•˜๋˜ ์งˆ๋ฌธ โ‡’ ์•„๋Š” ์—”ํ‹ฐํ‹ฐ์ฒ˜๋Ÿผ ์กฐ์ ˆํ•˜์—ฌ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ์œ ๋„ ๊ฐ€๋Šฅ
      • ์•Œ๊ณ  ์žˆ๋˜ ์—”ํ‹ฐํ‹ฐ๋ฅผ ๋ชจ๋ฅด๋Š” ์—”ํ‹ฐํ‹ฐ๋กœ ํŒ๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ํ•˜๊ฒŒ ๋งŒ๋“ฆ!

    โ‡’ entity recognition ๋ฐฉํ–ฅ์ด ํ• ๋ฃจ์‹œ๋„ค์ด์…˜, ๋‹ต๋ณ€ ๊ฑฐ๋ถ€ ๊ฒฐ์ •์„ ํ•˜๋Š”๊ตฌ๋‚˜!

Experiment

  • ๊ทธ๋ฆผ1๊ณผ ๊ฐ™์€ ํ…œํ”Œ๋ฆฟ์„ ์ฃผ๊ณ  Attribute๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ์‹คํ—˜ํ•˜์—ฌ ์˜ˆ์ธก์— ์„ฑ๊ณตํ•˜๋ฉด Known Entity Set๋กœ ์‹คํŒจํ•˜๋ฉด Unknown Entity Set๋กœ ๋ถ„๋ฆฌ (๊ทธ๋ฆผ1, 2 ์ฐธ๊ณ )
    • 2๊ฐœ ์ด์ƒ ๋งž์ถ˜ ๊ฒฝ์šฐ Known Entity | 0๊ฐœ์ธ ๊ฒฝ์šฐ Unknown Entity
    • Domain: basketball players, movies, cities and songs
    • Templates: (Entity type, entity name, relation, attribute)
๊ทธ๋ฆผ1

๊ทธ๋ฆผ 2

Sparse Autoencoder(SAE)๋กœ latent ์ฐพ๊ธฐ

๊ทธ๋ฆผ3
  • ์ž…๋ ฅ: ๊ฐ Entity set์˜ entity์˜ ๋งˆ์ง€๋ง‰ ํ† ํฐ์˜ ํžˆ๋“  ๋ฒกํ„ฐ
  • ์  ํ•˜๋‚˜ = SAE์˜ ํ•œ latent
  • x์ถ•: ํ•ด๋‹น latent๊ฐ€ known entitiy์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ์ผœ์ง€๋Š”์ง€
  • y์ถ•: ํ•ด๋‹น latent๊ฐ€ unknown entitiy์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ์ผœ์ง€๋Š”์ง€
  • SAE ์—ญํ• :
    • ์ด ๋ฒกํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ Sparseํ•œ latent ์Šค์œ„์น˜๋“ค๋กœ ๋ถ„ํ•ด
    • ๊ฐ latent๋Š” ์–ด๋–ค ์—”ํ‹ฐํ‹ฐ์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ์ผœ์ง€๋Š”์ง€ ์ธก์ •

โ†’ ํŠน์ • latent๋Š” known entity์ผ ๋•Œ ํ™œ์„ฑํ™”๋˜๊ณ  unknown entity์ผ๋•Œ๋Š” ํ™œ์„ฑํ™”๋˜์ง€ ์•Š์Œ(๋ฐ˜๋Œ€๋„ ์„ฑ๋ฆฝ)

โ‡’ ์ž…๋ ฅ ์—”ํ‹ฐํ‹ฐ์— ๋Œ€ํ•ด์„œ ๋ชจ๋ธ์ด ์•Œ๊ณ ์žˆ๋Š”์ง€, ๋ชจ๋ฅด๊ณ ์žˆ๋Š”์ง€ detection ํ•  ์ˆ˜ ์žˆ์Œ

Knowledge Refusal

  • Knowledge Refusal: ๋ชจ๋ธ์ด ํŠน์ • ์ •๋ณด์— ๋Œ€ํ•œ ์ง€์‹์ด ์—†์„ ๋•Œ ๋ถ€์กฑํ•˜์—ฌ ๋‹ตํ•˜๊ธฐ๋ฅผ ๊ฑฐ๋ถ€ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธ
  • Steering ๋Œ€์ƒ: SAE๋กœ ์ฐพ์€ unknown-entity / known-entity latent
  • Steeringํ•œ ๊ฒฝ์šฐ์™€ Steering์„ ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ์˜ ๋‹ต๋ณ€ ๊ฑฐ๋ถ€๋ฅผ ์ธก์ •ํ•œ ์‹คํ—˜ ์ง„ํ–‰
    • Steering: Activation Vector๋ฅผ ์ง์ ‘์ ์œผ๋กœ ์กฐ์ ˆํ•˜๋Š” ๊ฒฝ์šฐ
  • unknown latent๋กœ steering:
  • known latent๋กœ steering:
  • ์‹คํ—˜ ๊ฒฐ๊ณผ
    • Unknown latent ๋ฐฉํ–ฅ์œผ๋กœ steering ํ•  ๊ฒฝ์šฐ, ๊ฑฐ๋ถ€์œจ โฌ†๏ธ
      • ๊ธฐ์กด์— ์ž˜ ์•Œ๋˜ ์งˆ๋ฌธ์— ๋Œ€ํ•ด์„œ ๋ชจ๋ฅด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋‹ต๋ณ€ ๊ฑฐ๋ถ€
    • Known latent ๋ฐฉํ–ฅ์œผ๋กœ steering ํ•  ๊ฒฝ์šฐ, ๊ฑฐ๋ถ€์œจ โฌ‡๏ธ
      • ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ ๋ฐœ์ƒ ํ™•๋ฅ  โฌ†๏ธ

Basemodel vs Fine-tuning model

  • SAE๋Š” pre-training๋œ base Gemma 2 ์— ๋Œ€ํ•ด ํ•™์Šต๋จ
  • SAE latent ๋ฐฉํ–ฅ์„ chat version์˜ Gemma 2(๊ธฐ์กด Base Gemma2๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•œ ๊ฒƒ)์— ์ ์šฉํ•ด๋„ ์ง€์‹ ๊ฑฐ๋ถ€, ํ™˜๊ฐ์ด ๊ทธ๋Œ€๋กœ ์˜ํ–ฅ ๋ฐ›์Œ
  • โ‡’ ํŒŒ์ธํŠœ๋‹(chat model)์„ ํ•ด๋„ ์›๋ž˜ base ๋ชจ๋ธ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์žฌํ™œ์šฉํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌ

Effects on Attention Score

  • entity token์„ ํŠน์ • latent ๋ฐฉํ–ฅ์œผ๋กœ steering ํ–ˆ์„ ๋•Œ์˜ attention score ๋ณ€ํ™”๋ฅผ ์ธก์ •
    • attention score : ๋งˆ์ง€๋ง‰ ํ† ํฐ์ด ์—”ํ‹ฐํ‹ฐ ํ† ํฐ์„ ์–ผ๋งˆ๋‚˜ ์ง‘์ค‘ํ•ด์„œ ๋ณด๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ€์ค‘์น˜

์‹คํ—˜๊ฒฐ๊ณผ:

  • Unknown latent ๋ฐฉํ–ฅ์œผ๋กœ steeringํ•œ ๊ฒฝ์šฐ

    โ‡’ entity์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ attention score์ด ๋‚ฎ์•„์ง

  • Known latent ๋ฐฉํ–ฅ์œผ๋กœ steeringํ•œ ๊ฒฝ์šฐ

    โ‡’ entity์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ attention score์ด ๋†’์•„์ง

โ‡’ Entity latent๋Š” ์‹ค์ œ๋กœ ๋ชจ๋ธ์˜ attention score ๋ถ„ํฌ๋ฅผ ๋ณ€ํ™”์‹œํ‚ค๋ฉฐ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์—๋„ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Œ

Categories

research