Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ธ๋ํ๋ผ์ด๋ฐ์ด | ์ฌ์ค์ self-knowledge๋ฅผ ํด์ํ ์ ์๋ค๋ฉด, hallucination ์ฐ๊ตฌ๋ ๋ดํ๋
์ฏค์ด๋ฉด ๋๋ ์๋ ์๊ฒ ๋ค์ฉ (+์ ์๊ฒ SAE๊ฐ ์์ํด์ ์ฐพ์๋ณด๋, LLM์ ํด์๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ์์ ๋ง์ด ํ์ฉํ๋ค๊ณ ํ๋ค์!) | 4.2 |
| ๊ณ ๋ถ | ์ด๋ฐ ์๊ฐ์ ํ๋ ์ฌ๋๋ค์ด ๋ ผ๋ฌธ์ ์ฐ๋๊ตฌ๋,, ๋ชจ๋ธ์ด ์ด๋ค ์ง์์ ์๊ณ /๋ชจ๋ฆ์ ์ฌ๋ถ๋ ์ง์ ์์ฒด๋ฅผ ๊ฐ์ง๊ณ ์๋๊ฐ/์๋๊ฐ ๊ฐ ์๋ โgatingโ ์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ์ผ ์ ์๋ค๋ ์๊ฐ์ด ๋ค์. | 5 |
| 3์ | ๋จ์ํ entity๋ฅผ ๋์ด์ ๊ธด ๋ฌธ๋งฅ์ด๋ ๊ท์น์ ์ดํดํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผํ ๊น? Graph autoencoder๋ก ํ์ฅ์ ํ์ ๋ ์ฅ๊ธฐ๊ธฐ์ต ๊ด์ ์์ ๋ฒ์ฉ์ฑ์ด ์ถ๊ฐ๋ก ์๊ธธ ๊ฑฐ ๊ฐ์ | 4.8 |
| 6์ | ๊ฐ๊ฐ์ latent๊ฐ ํ๋์ ํน์ง์ ์๋ฏธํ๋ SAE ํน์ง์ ์ ์ฌ์ฉํ๋ค๋ฉด ํ ๋ฃจ์๋ค์ด์
์ด์ธ์๋ LLM์ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ ํด๊ฒฐํ ์ ์์ ๊ฒ ๊ฐ์ e.g., ์ธ๋ฌ๋, alignment.. | 4.5 |
| ์์ธ์ด | SAE์ Latent Vector์ ํน์ง์ ์ฐพ์์ผ๋ก์จ, ํน์ ์ฐจ์์์ ํ์ํ ์ ๋ณด๋ง์ ๋ด๋ณด๋ด๊ฒ ํ๋ค๋ฉด Hallucination์ ์ ๊ฑฐํ๊ฑฐ๋, ์๋ต ๊ฐ๋ฅํ ๋ฌธ์ ์์๋ ๋ฌด์๋ต์ ๋ด๋ณด๋ด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์ด novelty๊ฐ ์๋ค๊ณ ๋ด. | 4.5 |
| ๋ฐฅ | ์คํ ๊ฒฐ๊ณผ๋ก unknown/known entity latent๊ฐ ์๊ณ ์ค๋ช ํ๋๋ก์ ์ญํ ์ ํ๊ณ ์์์ด ๋ช ๋ฐฑํ ๋๋ฌ๋๋ ๊ฒ ๊ฐ์์ ๋ฐ๊ฒฌ์ด ์ ๋ขฐ๊ฐ ๊ฐ๋ค. sparse autoencoder๋ก ๋ฐํ latent๋ฅผ ํ์ฉํด์ LLM ์์ฒด์์๋ ์ด๋ป๊ฒ unknown/known ์ธ์์ด ๋ํ๋๋์ง๋ ๋ณผ ์ ์์ ๋ฏํ๋ค. ์ด๋ป๊ฒ ๋ํ๋ ์ง ๊ถ๊ธํจ | 5 |
| ์ฌ์ด์์ท | black box๋ก๋ง ์ฌ๊ฒจ์ก๋ LLM์ ๋ด๋ถ์๋์ ํด์ํ๋ ๋ ผ๋ฌธ์ค์์๋ ์ด ๋ ผ๋ฌธ์ ๊ฝค๋ ์๋ฏธ์๋ ์ธ์ฌ์ดํธ๋ฅผ ๋จ๊ฒจ์ค ๋ฟ๋ง ์๋๋ผ ์ค์ฉ์ ์ด๊ธฐ๋ ํ๋ค. steering์ด ๊ฝค ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ๋ก ์ด๋ผ์, ๋ค๋ฅธ ์ฐ๊ตฌ๊ฑฐ๋ฆฌ๋ ๋ง์ด ์๊ธธ๊ฒ ๊ฐ๋ค! | 5 |
| ํ๋ฆฌ๋ฐ์ด์คํฑ์ค๋ ์ ์ฐ๊ท ๋จน์ด | ๊ทธ๋ฅ ์ง๊ด์ ์ผ๋ก ์๊ฐํ๋ ๊ฒ์ ์คํํ ๋ ผ๋ฌธ์ด๋ผ๋ ์๊ฐ์ด ๋ค์์. ์ง์์ ๋ตํ๋ ๊ฒ์ ์๊ฐํด๋ณผ ๋, ์ผ๋จ ๊ทธ ์ง์์ ์๋ ๋จ์ด๊ฐ ๋ด๊ฐ ์๋ ๋จ์ด์ธ์ง/๋ชจ๋ฅด๋ ๋จ์ด์ธ์ง ์๋ ๊ณผ์ ์ด ์ ์ผ ์ ์ ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค๊ณ ์๊ฐํจ. ๋ชจ๋ฅด๋ ๋จ์ด๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ์ ์ด์ ์ฌ๋ฐ๋ฅธ ๋ต์ ํ ์๊ฐ ์๋ค๊ณ ์๊ฐ๋๊ณ , ๊ทธ๊ฒ์ ํ์ธํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ฐพ์ ๊ฒ์ hallucination์ ์ฐ๊ด๋ ๋ชจ๋ ์ฐ๊ตฌ์ ์ฐธ๊ณ ๊ฐ ๋ ์ ์์ ๊ฒ ๊ฐ์. | 4.5 |
TL; DR
LLM ์์๋ ์ด ์ํฐํฐ๋ฅผ LLM์ด ์๋์ง/๋ชจ๋ฅด๋์ง๋ฅผ ํ์ํ๋ latent ๋ฐฉํฅ์ด ์ค์ ๋ก ์กด์ฌ
์ด latent ๋ฐฉํฅ์ ์กฐ์(steering) ํ๋ฉด,
- ์๋๋ ๋ชจ๋ฅธ๋ค๊ณ ๋งํ๋ ์ง๋ฌธ(๋ต๋ณ ๊ฑฐ๋ถ)์ ๋ํด ํ ๋ฃจ์๋ค์ด์ ์ ์ํค๊ฑฐ๋,
- ์๋ ์ ์๋ ์ํฐํฐ์ ๋ํด์๋ ๋ต๋ณ์ ๊ฑฐ๋ถํ๊ฒ ๋ง๋ค ์ ์์
Summary
- ์ฐ๊ตฌ์ง: ์นดํ๋ฃจ๋ ๊ณต๊ณผ๋ํ๊ต, ์ทจ๋ฆฌํ ์ฐ๋ฐฉ๊ณต๊ณผ๋ํ๊ต
- ์ธ์ฉ์: 91
Preliminary
Autoencoder ๋?
- ์ฐธ๊ณ ํ๋ฉด ์ข์ ๋ธ๋ก๊ทธ: https://velog.io/@jochedda/%EB%94%A5%EB%9F%AC%EB%8B%9D-Autoencoder-%EA%B0%9C%EB%85%90-%EB%B0%8F-%EC%A2%85%EB%A5%98
- ์ ์: ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถํ์ฌ ํต์ฌ ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ก๋ถํฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ณต์ํ๋๋ก ํ์ตํ๋ ์ ๊ฒฝ๋ง
- ๊ตฌ์ฑ์์
- Encoder:
- ๋ถํ์ํ ์ ๋ณด(๋ ธ์ด์ฆ)๋ฅผ ๋ฒ๋ฆฌ๊ณ , ์ค์ํ ํน์ง๋ง ๋จ๊ธฐ๋ ์ญํ
- ์ ๋ ฅ x ๋ฅผ ์ ์ฐจ์ ํํ z๋ก ์์ถํ๋ ๋ถ๋ถ
- Decoder:
- ์์ถ๋ ์ ์ฐจ์ ํํ z๋ฅผ ๋ค์ ์๋ณธ ์ ๋ ฅ x๊ณผ ์ต๋ํ ๋น์ทํ ๋ฐ์ดํฐ y๋ก ๋ณต์ํ๋ ๋ถ๋ถ
- ์ ์ฌ ๊ณต๊ฐ (Latent Space / Bottleneck):
- ์ธ์ฝ๋์ ์ํด ์์ถ๋ ์ ์ฐจ์ ํํ z ๊ฐ ์กด์ฌํ๋ ๊ณต๊ฐ
- ๋ฐ์ดํฐ์ ํต์ฌ์ ์ธ ํน์ง์ด ์์ถ๋์ด ์์
- ๊ฐ์ฅ ์ฐจ์์ด ๋ฎ๊ธฐ ๋๋ฌธ์ย ๋ณ๋ชฉ(bottleneck)์ด๋ผ๊ณ ๋ ๋ถ๋ฆผ
- Encoder:
- ํ์ต ๋ชฉํ:
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถ ํ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋ณต์
- ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ถํ์ํ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๋ ๊ฐ์ฅ ์ค์ํ ํน์ง์ด ๋ฌด์์ธ์ง ์ค์ค๋ก ํ์ต
Sparse Autoencoder (SAE)
- ์ ์: ๋๋ถ๋ถ์ latent ๋ด๋ฐ์ 0, ์์๋ง ๊ฐํ๊ฒ ์ผ์ง๋๋ก ํ์ต์ํค๋ ์คํ ์ธ์ฝ๋
- Sparse: ๋๋ถ๋ถ 0์ด๊ณ ์์๋ง ์ผ์ ธ ์๋ ์ํ
- AutoEncoder๋ณด๋ค SparseAutoencoder๋ฅผ ์ฐ๋ ์ด์ !
- ์ผ๋ฐ ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ๋ฅผ ์์ถ(์ฐจ์ ์ถ์)ํ์ง๋ง, SAE๋ ์คํ๋ ค ์ฐจ์์ ํ์ฅํจ
โ LLM์ ํ๋ ๋ฒกํฐ์ ์ค์ฒฉ๋ผ์๋ ํน์ง๋ค์ ๋ถ๋ฆฌํ๊ธฐ ์ํด LLM ๋ด๋ถ์ ์ ๋ณด๋ฅผ ๋ ํฐ ์ฐจ์์ผ๋ก ํ์ฅ
โ ๊ทธ ์ค ์์์ latent๋ง ์ผ์ง๋๋ก ๋ง๋ค์ด ๊ฐ latent๊ฐ ๋๋ ทํ ์๋ฏธ ํ๋์ฉ ๋ด๋นํ๋๋ก ์ ๋
- ์ผ๋ฐ ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ๋ฅผ ์์ถ(์ฐจ์ ์ถ์)ํ์ง๋ง, SAE๋ ์คํ๋ ค ์ฐจ์์ ํ์ฅํจ
- ๋ณธ ๋
ผ๋ฌธ์ด SAE๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ!!
- LLM ๋ด๋ถ ํํ์ ์ฌ๋ฌ latent๋ก ๋ถํด
- ์
๋ ฅ: LLM ๋ ์ด์ด์ ํ๋ ๋ฒกํฐ
x
- Encoder โ latent ๋ฒกํฐ
a(x)์์ฑ (by SAE)- SAE๋ LLM ๋ด๋ถ ํํ์ ํฌ์ํ๊ณ ํด์ ๊ฐ๋ฅํ latent๋ค๋ก ๋ถํดํ๋ ๋๊ตฌ
- Decoder โ latent๋ฅผ ๋ค์ ์๋ ์ ๋ ฅ์ ํ๋ ๋ฒกํฐ๋ก ๋ณต์
- ์
๋ ฅ: LLM ๋ ์ด์ด์ ํ๋ ๋ฒกํฐ
โ ๊ฐ latent๊ฐ ํน์ ์ํฉ์์๋ง ์ผ์ง๋ ์ฆ, ์๋ฏธ๋ฅผ ๊ฐ๋๋กํ๋ ์ค์์น์ฒ๋ผ ๋์
- ๊ฐ latent ๋ฐฉํฅ์ ํน์ ์ํฐํฐ ์ ํธ์ ๊ฐ์ ํ๋์ ์๋ฏธ๋ฅผ ๋ด๋น
ํต์ฌ!!: latent ๋ฐฉํฅ์ ๊ฐ์ ๋ํ๊ฑฐ๋ ๋นผ๋ฉด(steering), ํ ๋ฃจ์๋ค์ด์ / ๋ต๋ณ ๊ฑฐ๋ถ ํ๋ฅ ์ ์กฐ์ ํ ์ ์์!!!
- LLM ๋ด๋ถ ํํ์ ์ฌ๋ฌ latent๋ก ๋ถํด
Introduction
Background
- ํ ๋ฃจ์๋ค์ด์
:
- ์ธ๊ณต์ง๋ฅ์ด ๋ํ๋ฅผ ์์ฑํ ๋, ์ฌ์ค๊ณผ๋ ์ ํ ๋ค๋ฅธ ํ
์คํธ๋ฅผ ๋ง์น ์ง์ค์ธ ๋ฏ ๋ต๋ณํ๋ ํ์
- ํฌ์ค์ผ์ด ๊ฐ์ด ์ฌ์ค ์ฌ๋ถ๊ฐ ์ค์ํ ๋๋ฉ์ธ์์ ์น๋ช ์ ์
- LLM์ ํ๊ฐ ๋ฉ์ปค๋์ฆ ์์ง ๋ฐํ์ง์ง ์์!
- ์ธ๊ณต์ง๋ฅ์ด ๋ํ๋ฅผ ์์ฑํ ๋, ์ฌ์ค๊ณผ๋ ์ ํ ๋ค๋ฅธ ํ
์คํธ๋ฅผ ๋ง์น ์ง์ค์ธ ๋ฏ ๋ต๋ณํ๋ ํ์
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด Factual Recall ์ฆ, ๋ชจ๋ธ์ด ์๊ธฐ ์์ ์ ์ฅ๋ fact๋ฅผ ์ด๋ป๊ฒ ๊บผ๋ด ์ธ์ง์ ์ง์คํ๋ค๋ฉด,
โ ๋ณธ ๋ ผ๋ฌธ์ ํ ๋ฃจ์๋ค์ด์ ์ด ์ด๋ป๊ฒ ๋ฐ์ํ๋์ง, ๋ต๋ณ ๊ฑฐ๋ถ๊ฐ ์ด๋ป๊ฒ ์ผ์ด๋๋์ง์ ๋ํด ์ง์คํด์ ์ฐ๊ตฌ
- ํ ๋ฃจ์๋ค์ด์
์ ์์ธ:
- ์๋ชป๋ ๋ฐ์ดํฐ๋ outdated ๋ ์ง์์ ํ์ตํ ๊ฒฝ์ฐ
- LLM์๊ฒ ์๋ ์ง์์ ์์ฑํ๋ผ๋ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ โ ๋ณธ ๋
ผ๋ฌธ์ ์ด ์์ธ์ ์ง์คํจ!
- ๋ค์ํ ์ํฐํฐ(์ํ, ๋์, ์ ์โฆ)์ ๋ํด ํ ๋ฃจ์๋ค์ด์
์คํ์ ํ ๊ฒฐ๊ณผ, 2๊ฐ์ง ์ถ๋ ฅ ๊ด์ธก
- ํ ๋ฃจ์๋ค์ด์ e.g., Lebron James is Koreanโฆ
- ๋ต๋ณ ๊ฑฐ๋ถ e.g., I'm not able to provide informationโฆ
- ๋ค์ํ ์ํฐํฐ(์ํ, ๋์, ์ ์โฆ)์ ๋ํด ํ ๋ฃจ์๋ค์ด์
์คํ์ ํ ๊ฒฐ๊ณผ, 2๊ฐ์ง ์ถ๋ ฅ ๊ด์ธก
- ํํ ๊ณต๊ฐ & SAE
- Linear Representation Hypothesis: LLM์ hidden state์ ๊ฐ์ฑ, ์ฃผ์ ๋ฑ ํด์ ๊ฐ๋ฅํ ํน์ฑ์ด ์ ํ ๋ฐฉํฅ์ผ๋ก ์ธ์ฝ๋ฉ๋์ด ์๋ค๋ ๊ฐ์ค
- Sparse Autoencoder(SAE)๋ ์ด๋ฐ ๋ฐฉํฅ๋ค์ latent ํํ๋ก ๋ฝ์๋ด๋๋ก ๋์!
- ๊ฐ latent๊ฐ ํ๋์ ์๋ฏธ(e.g., โ๋ชจ๋ฅด๋ ์ํฐํฐ์ผ ๋๋ง ์ผ์งโ)๋ฅผ ๋ด๋นํ๋๋ก ์ ๋
โ SAE๋ฅผ ํตํด ํํ ๊ณต๊ฐ(representation space) ๋ด์์ ์ ํ ๋ฐฉํฅ(linear direction)์ ์ฐพ์๋ณด์!
- ๋ชจ๋ธ์ด ํน์ ์ํฐํฐ์ ๋ํด โ์๊ณ ์๋์ง/๋ชจ๋ฅด๋์งโ๋ฅผ ํ๊ฐํ๋ ์ผ์ข
์ ์๊ธฐ ์ง์(self-knowledge)
- ๋ชจ๋ธ์ ๋ค๋ฅธ ํํ์ ์๊ธฐ-์ง์(self-knowledge) ์ด ์กด์ฌํ๋ค๊ณ ๊น์ง ํ์ x
- ์ฌ์ค ํ์(factual recall) ๋ฉ์ปค๋์ฆ์ ํนํ๋ ํ์์ผ์๋
Contribution
- ์ง์ ์ธ์(Knowledge Awareness) latent ๋ฐ๊ฒฌ!
- SAE๋ฅผ ํตํด, ์ํฐํฐ์ ํ๋ ๋ฒกํฐ๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ์๊ณ ์๋ ์ํฐํฐ/๋ชจ๋ฅด๋ ์ํฐํฐ์ ๋ํด์๋ง ์ผ์ง๋ latent ๋ฐ๊ฒฌ!
โ ๋ชจ๋ธ์ด ํน์ ์ํฐํฐ์ ๋ํด ์ง์์ ๊ฐ์ง๊ณ ์๋์ง/์๋์ง๋ฅผ ๋ด๋ถ์ ์ผ๋ก ํ์ํ๋ ์ ํธ๋ก ํด์
- ๋ค์ํ ์ํฐํฐ ๋๋ฉ์ธ์์ ์ผ๊ด๋ ๊ฒฐ๊ณผ
- base ๋ชจ๋ธ์ ํ์ธํ๋ํ ๋ชจ๋ธ์์๋ ์ผ๊ด๋ ๊ฒฐ๊ณผ
- latent ๋ฐฉํฅ Steering์ ํตํ ํ ๋ฃจ์๋ค์ด์
/ ๋ต๋ณ ๊ฑฐ๋ถ ์ ์ด
- ํน์ latent์ ๋ฐฉํฅ์ ์กฐ์ (steering) ํ ๊ฒฐ๊ณผ,
- ๋ชจ๋ฅด๋ ์ํฐํฐ์ ๋ํด ๋ต๋ณ ๊ฑฐ๋ถํ๋ ์ง๋ฌธ โ ์๋ ์ํฐํฐ์ฒ๋ผ ์กฐ์ ํ์ฌ ํ ๋ฃจ์๋ค์ด์ ์ ๋ ๊ฐ๋ฅ
- ์๊ณ ์๋ ์ํฐํฐ๋ฅผ ๋ชจ๋ฅด๋ ์ํฐํฐ๋ก ํ๋จํ๊ฒ ๋ง๋ค์ด ๋ต๋ณ ๊ฑฐ๋ถํ๊ฒ ๋ง๋ฆ!
โ entity recognition ๋ฐฉํฅ์ด ํ ๋ฃจ์๋ค์ด์ , ๋ต๋ณ ๊ฑฐ๋ถ ๊ฒฐ์ ์ ํ๋๊ตฌ๋!
- ํน์ latent์ ๋ฐฉํฅ์ ์กฐ์ (steering) ํ ๊ฒฐ๊ณผ,
Experiment
๊ทธ๋ฆผ1๊ณผ ๊ฐ์ ํ ํ๋ฆฟ์ ์ฃผ๊ณ Attribute๋ฅผ ์์ธกํ ์ ์๋์ง ๋ค์ํ ๋๋ฉ์ธ์์ ์คํํ์ฌ ์์ธก์ ์ฑ๊ณตํ๋ฉด Known Entity Set๋ก ์คํจํ๋ฉด Unknown Entity Set๋ก ๋ถ๋ฆฌ (๊ทธ๋ฆผ1, 2 ์ฐธ๊ณ )- 2๊ฐ ์ด์ ๋ง์ถ ๊ฒฝ์ฐ Known Entity | 0๊ฐ์ธ ๊ฒฝ์ฐ Unknown Entity
- Domain: basketball players, movies, cities and songs
- Templates: (Entity type, entity name, relation, attribute)
Sparse Autoencoder(SAE)๋ก latent ์ฐพ๊ธฐ
- ์ ๋ ฅ: ๊ฐ Entity set์ entity์ ๋ง์ง๋ง ํ ํฐ์ ํ๋ ๋ฒกํฐ
- ์ ํ๋ = SAE์ ํ latent
- x์ถ: ํด๋น latent๊ฐ known entitiy์์ ์ผ๋ง๋ ์์ฃผ ์ผ์ง๋์ง
- y์ถ: ํด๋น latent๊ฐ unknown entitiy์์ ์ผ๋ง๋ ์์ฃผ ์ผ์ง๋์ง
- SAE ์ญํ :
- ์ด ๋ฒกํฐ๋ฅผ ์ฌ๋ฌ ๊ฐ์ Sparseํ latent ์ค์์น๋ค๋ก ๋ถํด
- ๊ฐ latent๋ ์ด๋ค ์ํฐํฐ์์ ์ผ๋ง๋ ์์ฃผ ์ผ์ง๋์ง ์ธก์
โ ํน์ latent๋ known entity์ผ ๋ ํ์ฑํ๋๊ณ unknown entity์ผ๋๋ ํ์ฑํ๋์ง ์์(๋ฐ๋๋ ์ฑ๋ฆฝ)
โ ์ ๋ ฅ ์ํฐํฐ์ ๋ํด์ ๋ชจ๋ธ์ด ์๊ณ ์๋์ง, ๋ชจ๋ฅด๊ณ ์๋์ง detection ํ ์ ์์
Knowledge Refusal
- Knowledge Refusal: ๋ชจ๋ธ์ด ํน์ ์ ๋ณด์ ๋ํ ์ง์์ด ์์ ๋ ๋ถ์กฑํ์ฌ ๋ตํ๊ธฐ๋ฅผ ๊ฑฐ๋ถํ๋ ๊ฒ์ ์๋ฏธ
- Steering ๋์: SAE๋ก ์ฐพ์ unknown-entity / known-entity latent
- Steeringํ ๊ฒฝ์ฐ์ Steering์ ํ์ง ์์ ๊ฒฝ์ฐ์ ๋ต๋ณ ๊ฑฐ๋ถ๋ฅผ ์ธก์ ํ ์คํ ์งํ
- ์คํ ๊ฒฐ๊ณผ
- Unknown latent ๋ฐฉํฅ์ผ๋ก steering ํ ๊ฒฝ์ฐ, ๊ฑฐ๋ถ์จ โฌ๏ธ
- ๊ธฐ์กด์ ์ ์๋ ์ง๋ฌธ์ ๋ํด์ ๋ชจ๋ฅด๋ ๊ฒ์ฒ๋ผ ๋ต๋ณ ๊ฑฐ๋ถ
- Known latent ๋ฐฉํฅ์ผ๋ก steering ํ ๊ฒฝ์ฐ, ๊ฑฐ๋ถ์จ โฌ๏ธ
- ํ ๋ฃจ์๋ค์ด์ ๋ฐ์ ํ๋ฅ โฌ๏ธ
- Unknown latent ๋ฐฉํฅ์ผ๋ก steering ํ ๊ฒฝ์ฐ, ๊ฑฐ๋ถ์จ โฌ๏ธ
Basemodel vs Fine-tuning model
- SAE๋ pre-training๋ base Gemma 2 ์ ๋ํด ํ์ต๋จ
- SAE latent ๋ฐฉํฅ์ chat version์ Gemma 2(๊ธฐ์กด Base Gemma2๋ฅผ ํ์ธํ๋ํ ๊ฒ)์ ์ ์ฉํด๋ ์ง์ ๊ฑฐ๋ถ, ํ๊ฐ์ด ๊ทธ๋๋ก ์ํฅ ๋ฐ์
- โ ํ์ธํ๋(chat model)์ ํด๋ ์๋ base ๋ชจ๋ธ์ ๋ฉ์ปค๋์ฆ์ ์ฌํ์ฉํ์ ๊ฐ๋ฅ์ฑ์ ์์ฌ
Effects on Attention Score
- entity token์ ํน์ latent ๋ฐฉํฅ์ผ๋ก steering ํ์ ๋์ attention score ๋ณํ๋ฅผ ์ธก์
- attention score : ๋ง์ง๋ง ํ ํฐ์ด ์ํฐํฐ ํ ํฐ์ ์ผ๋ง๋ ์ง์คํด์ ๋ณด๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ์ค์น
์คํ๊ฒฐ๊ณผ:
- Unknown latent ๋ฐฉํฅ์ผ๋ก steeringํ ๊ฒฝ์ฐ
โ entity์ ๋ํ ์ ๋ฐ์ ์ธ attention score์ด ๋ฎ์์ง
- Known latent ๋ฐฉํฅ์ผ๋ก steeringํ ๊ฒฝ์ฐ
โ entity์ ๋ํ ์ ๋ฐ์ ์ธ attention score์ด ๋์์ง
โ Entity latent๋ ์ค์ ๋ก ๋ชจ๋ธ์ attention score ๋ถํฌ๋ฅผ ๋ณํ์ํค๋ฉฐ ๋ชจ๋ธ์ ์ถ๋ ฅ์๋ ์ํฅ์ ์ค ์ ์์











