Shared Global and Local Geometry of Language Model Embeddings
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ๋๋ฌผ | โข ๊ฐ์ : steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์์ ์ฎ๊ฒจ ์ฌ์ฉํ ์ ์๋ค. ์์ด๋์ด ์์ฒด๋ ์ข์ ๊ฒ ๊ฐ์. ์์ ๋ชจ๋ธ์์ steering vector๋ฅผ ๊ตฌํ๊ณ ๋ค๋ฅธ ๋ํ ๋ชจ๋ธ์ ์์ฉํ ์ ์์ผ๋,,,, โข ์ฝ์ : ๊ฐ์ ์ ์ด๋ฆฌ๋ ค๋ฉด ๋ ์ ๊ตํ ๊ฒ์ฆ๋ฒ์ด ์์ด์ผ ํ ๋ฏ. ๊ณต๊ฐ ๊ตฌ์กฐ์ ๋ํ ๊ฒ์ฆ๋ฐฉ์์ด ๋น์ฝํด ๋ณด์. ID์ SCS๋ก ๊ฐ๋ฅ์ฑ์ ๋ดค์ง๋ง, ์ค์ steering vector transfer์ ๋ํ ํ๋น์ฑ์ ๋ถ์กฑํ ๊ฒ ๊ฐ์. โข ๋ณด์์ : ๊ฐ๋ฅ์ฑ์ ๊ด์ฐฐํ ๊ฒ๋ง์ผ๋ก๋ ์ข์๋ณด์ด์ง๋ง, ๋ ๊ฒ์ฆ์ด ๋์์ผ๋ฉด ํจ. | 3.7 |
| ํผ๋ | โข ๊ฐ์ : ์์ด๋์ด ์์ฒด๋ ์ข์๋ฐ ์ด์ ๊ทธ์น๋๊ฒ ์๋๋ผ ์ค์ EMB2EMB ๋ฅผ ํตํด steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ด์ํ๋๋ฐ ์ฑ๊ณตํด์ ์ค์ฉ์ฑ์ด ์์ด๋ณด์ โข ์ฝ์ : ์ด๋ค ์กฐ๊ฑด์์ ์ด์์ด ๋๊ณ ์๋๋์ง์ ๋ํ ์ฒด๊ณ์ ์ธ ๋ถ์์ด ํ์ โข ๋ณด์์ : ์ง๊ธ์ ํ๋ค ๊ฒ ๊ฐ์ง๋ง ๋์ค๊ฐ์ ๊ฐ์ ๋ชจ๋ธ์ด ์๋ ์ํคํ ์ฒ๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ์์๋ ์ด๋ฌํ ์ ์ฌ์ฑ์ด ์ฑ๋ฆฝํ๋์ง(์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํ์ง) ๊ถ๊ธํจ | 4 |
| thumbs-up | โข ์ฅ: ํ๊ธ๋ ฅ์ด ํฌ๊ณ ์ ์ฉ ๊ฐ๋ฅ ๋ถ์ผ๊ฐ ๋ค์ํจ. ๋ชจ๋ธ๊ฐ ๊ฒฝํฅ์ด ๋น์ทํ๊ณ ์ด์๋ง์ ๊ฐ๋ฅํ๋ค๋ฉด, ๋ฌธ์ ์ ๋ ๋์ผํ๊ฒ ๋ค! โข ๋จ&๋ณด์: ๊ทธ๋์ ์ด๋ค ์๋ฆฌ์ธ๋ฐ? | 4 |
| ์์ผ๋ฉด์ ๋ณด์ | ์ฅ์ : ์์ด๋์ด๊ฐ ์ข๋ค. ๋น์ทํ ๊ตฌ์กฐ๋ก ๋น์ทํ๊ฒ ํ์ตํ๋ฉด, ๊ฒฐ๊ณผ๋ ์ ์ฌํ๊ณ , ๊ฐ์ ๊ณต๊ฐ์ ๊ฐ์ง๋ค๋ ๊ฒ์ด ์ง๊ด์ ์ผ๋ก ์ดํด ์ ๋์์. ๋จ์ : ๊ฒ์ฆ ๋ฐฉํฅ์ ์ข์๋ฐ, ๋ฏฟ์ ์๊ฐ ์๋ค. ์ ๋ถ ์ ์๋ค ๊ฐ์ค๊ณผ ์คํ์ ๊ฒ์ฆ๋ง ์์. ๋ณด์์ : ๋ ๋ง์ ์คํ์ผ๋ก ์ปค๋ฒํ๊ฑฐ๋, ์ด๋ก ์ ์์ฑ๋๋ฅผ ๋์ฌ์ผ ํจ. ๊ทธ๋ฅ ๊ฒฝํ์ ์ผ๋ก ๋ณด์ธ๊ฒ์ด๋ผ์, ์ ๋ชจ๋ฅด๊ฒ ์. | 3.9 |
| ํ์ด์ด | โข ์ฅ์ : ๋ค๋ฅธ LLM์์๋ ์ ํ ๋ณํ์ ํตํด ๊ฐ์ ๋ฐฉํฅ์ผ๋ก Steeringํ ์ ์๋ค๋ฉด LLM์ ํ๋์ ํ์ฉํ ์ ์์ด novelty๊ฐ ํฐ ์ฐ๊ตฌ๋ผ๊ณ ๋ด. โข ๋จ์ : ๊ฐ๊ด์ ์ธ ๊ฒ์ฆ๊ณผ ์คํ ์ ์ฐจ๊ฐ ๋ถ์กฑํ ๋จ์ โข ๋ณด์: ์ํ์ ์ธ ์ฆ๋ช ์ ๊ฐํํ๊ฑฐ๋, ๋ค๋ฅธ task์ ๋ํด์๋ ์ฆ๋ช ์ด ๋์์ผ๋ฉด ํจ. | 4 |
| ๋ ์๋ฆฌ์คํ์ | โข ๊ฐ์ : ์ฌ๋ฌ LLM์ด ๊ฝค๋ ๊ณต์ ๋ geometry๋ฅผ ๊ฐ์ง๋ค๋๊ฒ์ ์ ๋ณด์ฌ์ค โข ์ฝ์ : ์ ์ด๋ฌํ ํ์์ด ์ผ์ด๋๋์ง์ ๋ํ ๋ถ์์ด ์์ผ๋ฉด ์ข๊ฒ ์ โข ๋ณด์/์ ์: ํ๋์ ๋ชจ๋ธ(teacher)์์ ์ฐพ์ steering vector์ student๋ก ๋ฐ๋ก ์ ์ฉํ ์ ์์ง ์์๊น? cross-model ์ฐจ์์์ ์ถ๊ฐ๋ก ํ์ฉํ ๋งํ ์์ด๋์ด์ธ๋ฏ(ํจ์จ์ฑ ์ธก๋ฉด..?) | 4.0 |
| ํ์ฝ | โข ์ฅ์ : steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ ๊ฐ์ ์ ํ๋ณํ๋ง์ผ๋ก ๋ณํํ ์ ์์์ ๋ณด์ โข ๋จ์ & ๋ณด์์ : ๋ค๋ฅธ ์์ธ์ผ๋ก ์ธํ ๊ฒฐ๊ณผ๊ฐ ์๋์ง ๊ฒ์ฆ, ๋ค์ํ ์ค์ ์ผ๋ก ์คํ | 3.8 |
| ์์ง | โข ์ฅ์ : Steering vector์ transferability๋ฅผ ์ด๋ก ์ ์ผ๋ก ๊ฒ์ฆํจ. ์ถํ pretraining ๋น์ฉ ์ ๊ฐ์ด ๊ฐ๋ฅํด๋ณด์. ๋ํ, global + local ๋ฟ๋ง ์๋๋ผ ConceptNet์ ๊ฐ์ ธ์์ ์๋ฏธ์ ์ฐจ์์ ๊ฒ์ฆ๋ ์ํ โข ์ฝ์ : ๋์ผ family ๋ด ํ๋ผ๋ฏธํฐ ์๋ง ๋ค๋ฅธ ๋ชจ๋ธ๋ค ์ฌ์ด์ ๋น๊ต๋ง ์ํํด์ ์ ํ๋ steering transfer์ ๊ฐ๊น์. ์ด๋ป๊ฒ ๋ณด๋ฉด ๋น์ฐํ ๊ฒฐ๋ก ์ ์คํ์ ์ผ๋ก ์๊ฐํํ ๋๋ โข ๋ณด์์ : ์๋ก ๋ค๋ฅธ LLM์ผ๋ก ํ์ฅํด์ผ ์ง์ ํ ์๋ฏธ๊ฐ ์์ ๋ฏ. tokenizer alignment๊ฐ ํต์ฌ ๋ฐฉ๋ฒ์ด์ง ์์๊น | 3.8 |
| ์ด์ฝ๋ฆฟ | โข ์ฅ์ : ๊ฐ์ tokenizer๋ฅผ ์ฐ๋๋ผ๋ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ์ด ๋ค๋ฅด๋ฉด embedding ์ ์ฌ๋๊ฐ ๋ฎ๋ค๋ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ธ์์ ์ด์์ โข ์ฝ์ : EMB2EMB๋ก steering vector๋ฅผ ์ด์ํ๋ ์คํ์ด toxicity, helpfulness ๊ฐ์ ๋ช ๊ฐ์ง ํน์ฑ์๋ง ์ง์ค๋์ด ์์ด์, ๋ชจ๋ ์ข ๋ฅ์ steering vector์ ๋ํด ์ ๋๋์ง ์ ์ ์์๊ฒ ๊ฐ์. โข ๋ณด์์ : ์ด๋ค ์ข ๋ฅ์ steering vector๋ ์ด์์ด ์ ๋๊ณ ์ด๋ค ๊ฑด ์ ๋๋์ง ์ ์ ์์ผ๋ฉด ์ข์๊ฒ ๊ฐ๋ค | 4.0 |
| ๋ฉ์ฟ ๋ฆผ๋ณด | ๊ฐ์ ์๋ฆฌ์ฆ์ ๋ชจ๋ธ๋ค์ ๋ค ๋น์ทํ ๊ฑฐ ๊ฐ๊ธด ํจ ๋๊ฐ ์๊ฐํ์ ๋ ๋ฐ์ดํฐ๋ ํ์ต ํ๋ ์ ์ํฌ๊ฐ ๊ฐ๋ค๋ฉด 1B๋ชจ๋ธ์ 8B๋ชจ๋ธ์ ์์ํํ๊ฑฐ๋ ๋น์ทํ๊ฒ ์๋ํ์ง ์์๊น? ๊ทธ๋์ ๊ทธ๋ค์ง ๋๋์ง๋ ์์ ์ํฉํธ๊ฐ ์กฐ๊ธ ๋จ์ด์ง๋ ๋ฏ! distillation์ ํ์ฉํ ์ ์์ง ์์๊น ์ถ์. ์์๊ฑฐ์์ ๋ถ์ํ๊ณ ํฐ ๋ชจ๋ธ์ ์ ์ฉํ๋ฉด ํจ์จ์ ์ด๋๊น! | 3.5 |
TL; DR
๊ฐ์ ๊ณ์ด์ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฐจ์์ด ๋ฌ๋ผ๋ token embedding์ ๊ตฌ์กฐ๊ฐ ๊ต์ฅํ ๋น์ทํ๋ค! ๊ทธ๋์, ํ ๋ชจ๋ธ์์ ๋ง๋ค์ด๋ธ steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์์ ์ ํ๋ณํ๋ง์ผ๋ก ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ๋ค!
์: 1B, 3B์์ helpfulness๋ฅผ ์ฌ๋ฆฌ๋๋ก ํ๋ vector๋ฅผ ์ฐพ๊ณ ๋์, 8B๋ก ๊ทธ๋๋ก ์ฎ๊ฒจ์ ์ธ ์ ์์!
Summary
Background
- Embedding
- ํ ํฐ์ ๋ฒกํฐ๋ก ๋ณํ ( ์) 762์ฐจ์ ๋ฒกํฐ)
- Unembedding
- ๋ง์ง๋ง hidden state(embedding) ์ vocab์ผ๋ก projection, logits์ ๋ง๋๋ ํ
- ๋ชจ๋ธ๋ณ๋ก embedding๊ณผ unembedding ๊ฐ์ค์น๋ฅผ ๊ณต์ (tied) ํ๊ฑฐ๋, ๋ถ๋ฆฌ(untied) ํจ
- Steering vector
- hidden state์ ๋ฒกํฐ๋ฅผ ๋ํ์ฌ ๋ชจ๋ธ์ ํน์ ๋ฐฉํฅ์ผ๋ก ์ ๋
- ์: refusal, toxity ๋ฑ ์กฐ์
- hidden state์ ๋ฒกํฐ๋ฅผ ๋ํ์ฌ ๋ชจ๋ธ์ ํน์ ๋ฐฉํฅ์ผ๋ก ์ ๋
Motivation
- ํ๋ผ๋ฏธํฐ๊ฐ ๋ค๋ฅด๊ณ , ์ฐจ์๋ ๋ค๋ฅธ LLM ๋ค์ ๋ด๋ถ ํํ์ด ๋ค๋ฅผ๊น?
- ์ ์ ๋๋ํ ๋ชจ๋ธ์ ๋ง๋ค๋ฉด, ๊ทธ ๋ชจ๋ธ๋ค์ ํํ์ ์ด๋๊ฐ๋ก ์๋ ดํ์ง ์์๊น?
- ๊ทธ๋ ๋ค๋ฉด, ๊ฐ์ ๊ณ์ด์ ๋ชจ๋ธ์, ์ฐจ์์ด ๋ฌ๋ผ๋ token embedding์ด ๋น์ทํ์ง ์์๊น?
- ์ด๋ป๊ฒ ๋น์ทํ ์ ์์๊น?
- ํ ํฐ ๊ฐ ๋ฐฉํฅ์ด๋ ์์น (Global)
- ํ ํฐ ์ฃผ๋ณ์ ์ด์ (Local)
- ๋ง์ฝ ๋น์ทํ๋ค๋ฉด, steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๋ก ์ด์ํ ์ ์์๊น?
Method
Global
- ๊ฐ ๋ชจ๋ธ์ด ์ ์ฅํ๊ณ ์ดํดํ๊ณ ์๋ ํ ํฐ์ ์ ๋ณด๊ฐ ๋น์ทํ๊ฐ?
- ๊ฐ ๋ชจ๋ธ์์ ๊ฐ์ ํ ํฐ 2๋ง๊ฐ ์ถ์ถ
- ํ ํฐ ์์ cosine similarity ๊ณ์ฐ
- ๋ ๋ชจ๋ธ์ ๊ฑฐ๋ฆฌ ํ๋ ฌ์ ํผ์ด์จ ์๊ด๊ณ์ ๊ณ์ฐ
- ๋น์ทํ๋ค๋ฉด? ํ ํฐ๋ค์ ์๋์ ๋ฐฐ์น๊ฐ ๋น์ทํ๋ค! โ ํ ํฐ์ ์ดํดํ๋ ๋ฐฉ์์ด ๋น์ทํ๋ค
- GPT2 ๊ณ์ด์ ์๊ด๋ ๋์
- LLAMA3๋ ๋์
- base model๊ณผ Instruction-tuned ๋ชจ๋ธ์ ๊ฑฐ์ 1์ ๊ฐ๊น์ด ์์ค
- But,
- untied embedding์ธ LLAMA 3 8b, 11b-v, 70b๋ ebdding ์์๋ ๋ฎ๊ณ , unembedding ์์๋ ๋์
- ์ ์๋ค์ ํด์: untied ๋ชจ๋ธ์ embedding์ด ๋ค๋ฅผ ์ ์์ง๋ง, ๋ง์ง๋ง logits์ ๋ง๋๋ unembedding์ ์ ์ฌํ๋ค
- ๊ทธ๋ ๋ค๋ฉด, hidden state๋ ๋ง์ง๋ง์๋ ๋น์ทํ ๋ฐฉํฅ์ผ๋ก ์๋ ด!
โ ์ด๊ฒ ๋ฌด์จ๋ง? : ์ ๋ ฅ ํํ์ ์ถ๋ฐ์ ์ ๋ฌ๋ผ๋, ์์ธก์ ์ํํ๋ ๋ง์ง๋ง ๋๋จ ๊ณต๊ฐ์ ๋น์ทํด์ง ์ ์์
โ ์ด๋ป๊ฒ: hidden layer๊ฐ ์์ฐจ์ ์ผ๋ก ์ ๋ ฌ๋์ด ์๊ณ , ๋ ๋ชจ๋ธ์ layer ๋จ์ด ์ ์ฌํ๋ค๋ฉด ๊ฐ๋ฅ!
- ๊ฐ์ tokenizer๋ฅผ ์ฐ๋ ๋ชจ๋ธ์?
- GPT-NeoX-20B ์ Olmo-7B ์ ์๊ด๊ณ์๋ 0.32
- tokenizer๊ฐ ์๋๋ผ, ํ์ต ๋ฐ์ดํฐ์ ํ์ต ๊ณผ์ ์ ์ํฅ์ด ํ ํฐ ์๋ฒ ๋ฉ ํ์ฑ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค!
- GPT-NeoX-20B ์ Olmo-7B ์ ์๊ด๊ณ์๋ 0.32
Local
- ํ ํฐ ๋ฒกํฐ๊ฐ ์์ ๋, ์ฃผ๋ณ์ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด ์์๊น? ์๋ก ๋น์ทํ ๊น?
- ์ ์ฒด์ ๋ฐฐ์น๊ฐ ์๋๋ผ, ํน์ ํ ํฐ(์ )์ ์ด์๋ง ๋ณด์!
- ๋๋ถ๋ถ ๋น์ทํ์ง๋ง, 0.0์์ ๊ฐ์๊ธฐ ํ๋ค
- why?: ์ ์๋ค์ ์ด๋ฅผ untrained๋ผ๊ณ ํด์ํจ. ์ฆ, ๋๋ค ์ด๊ธฐํ์ ๊ฐ๊น์ด ์์ค์ด๋ผ์ ๊ทธ๋ ๋ค!
- Intrinsic Dimension (ID) ๋์
- ์ง์ญ: ํน์ ํ ํฐ์ K Nearest Neighbors ๋ชจ์ผ๊ธฐ โ PCA๋ฅผ ๋๋ฆฌ๋ฉด, ์ ์ฒด ๋ถ์ฐ์ 95%๋ฅผ ์ค๋ช
ํ๋๋ฐ ํ์ํ principal component ์
- ์ด๊ฒ ๋ฌด์จ๋ง์ด์ง?
- ID๊ฐ ๋ฎ๋ค: ๊ทธ ํ ํฐ ์ฃผ๋ณ ์ด์์ด ๋ฎ์ ์ฐจ์์ ์์ ๊ตฌ์กฐ
- โ์ธํฐ๋ท์ปดํจํ ์ฐ๊ตฌ์คโ์ ์ฃผ๋ณ ์ด์์ด โ์ํํธ์ปดํจํ ์ฐ๊ตฌ์คโ,โ๋ฐ์ดํฐ๊ณตํ์ฐ๊ตฌ์คโ,โ์ด์คํฌ์ธ ์ฐ๊ตฌ์คโ ์ด๋ฉด?
- ์ ์ ์ฐจ์์ผ๋ก๋ ๋ฐ๋ก ๋ณด์ โ ID๊ฐ ๋ฎ๋ค
- ID๊ฐ ๋๋ค: ๊ทธ ํ ํฐ ์ฃผ๋ณ ์ด์์ด ์ค๋ช
ํ๊ธฐ ์ด๋ ต๋ค!
- โ์ธ์ดโ์ ์ฃผ๋ณ ์ด์์ด โ์ํโ, โ๋ชจ๋ธโ, โGPTโ, โ๊ณผํโ, โ์ปดํจํฐโ, โ์ผ๋ณธ์ดโ, โ์๋ฅโโฆ
- ํ๋ฒ์ ์ค๋ช ํ๊ธฐ๊ฐ ์ด๋ ค์ (๋ค์ฐจ์ ํ์)
- ID๊ฐ ๋ฎ๋ค: ๊ทธ ํ ํฐ ์ฃผ๋ณ ์ด์์ด ๋ฎ์ ์ฐจ์์ ์์ ๊ตฌ์กฐ
- ์ด๊ฒ ๋ฌด์จ๋ง์ด์ง?
- ์ง์ญ: ํน์ ํ ํฐ์ K Nearest Neighbors ๋ชจ์ผ๊ธฐ โ PCA๋ฅผ ๋๋ฆฌ๋ฉด, ์ ์ฒด ๋ถ์ฐ์ 95%๋ฅผ ์ค๋ช
ํ๋๋ฐ ํ์ํ principal component ์
- ID๊ฐ ๋ฎ์ผ๋ฉด, semantic cluster๊ฐ ์ ์กํ
- ConceptNet์ ์ฐ๋ฉด ์ ๋ํ๊ฐ ๋์ง ์์๊น? (Semantic Coherence Score, SCS)
- ๊ฐ๋ ๋ค ๊ฐ์ ๊ด๊ณ๊ฐ ์ฐ๊ฒฐ๋์ด ์๋ ์์ ๊ทธ๋ํ
- ์ฃผ๋ณ ์ด์ 50๊ฐ๋ฅผ ๋ฝ๊ณ , conceptNet์์์ ๊ฐ ๊ฐ๋ ๊ฐ ์ต๋จ ๊ฒฝ๋ก ๊ธธ์ด ํ๊ท ์ ๊ณ์ฐํ์ฌ ์ ๋ํ!
- ๊ทธ๋ ๋ค๋ฉด, ID๋ ์ ์ฌํ ๊น?
- ์ ์ฌํ๋ค! ๋ค๋ง, ๊ฒฝํฅ์ฑ์ด ์ข ๋ค๋ฅด๊ธด ํ๋ค
- GPT2, Llama 3 ๋ด๋ถ์์๋ ๋์
- Gemma2๋ ๋ค๋ฅธ๋ฐ.. ์ ์๋ค๋ ๋ชจ๋ฅด๋๋ฏ
- ์ ์ฌํ๋ค! ๋ค๋ง, ๊ฒฝํฅ์ฑ์ด ์ข ๋ค๋ฅด๊ธด ํ๋ค
Transfer(EMB2EMB)
- ๊ณต์ ํ๋ ๊ฒ์ ์์์ผ๋, ์ฎ๊ธธ ์ ์๋๊ฐ? ๊ฒฐ๋ก ๋ถํฐ ๋งํ์๋ฉด, ๊ฐ๋ฅํ๋ค!
- source unembedding vector๋ก๋ถํฐ target unembedding vector๋ฅผ ์ ๋ํ๋ ์ ํ๋ณํ์ด ์๋๊ฐ?
์ ๋ฆฌ
๊ฐ์ ๊ณ์ด์ LLM๋ค์ token space์ ์ ์ญ ๊ตฌ์กฐ๊ฐ ๋น์ทํ๋ค
- ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ๋, ๊ฐ์ ๊ณ์ด์ ๋ชจ๋ธ์ token vector๊ฐ ์๋์ ๋ฐฉํฅ ๊ด๊ณ๊ฐ ์ ์ง๋๋ค
- ๊ณต๊ฐ์ ์ ์ฒด์ ๋ชจ์์ด ๋น์ทํ๋ค!
- ์ด๋ค ์์์ธ๊ฐ?
- ์์ ๋ชจ๋ธ๊ณผ ํฐ ๋ชจ๋ธ์ด ๋ด๋ถ์ ์ผ๋ก ์์ ํ ๋ค๋ฅธ representation์ ๊ฐ์ง์ง ์๋๋ค!
- Instruction-tuning์ ํด๋ ์๋ณํ๋ค!
์ด์ฉ๋ฉด ๋น์ฐํ๊ฒ๋, ํน์ ํ ํฐ์ ์ดํดํ๋ ๋ฐฉ์์กฐ์ฐจ ๋น์ทํ๋ค
Insights
- ํด์ ๊ฐ๋ฅ์ฑ, ์์ฉ ์ฌ์, ๊ด์ฐฐ ์ข์
- Steering vector๋ฅผ ์ฎ๊ธธ ์ ์์ ๊ฒ์ด๋ค๋ผ๋ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ํ๋ณดํ๋ ์คํ์ ๋จ๊ณ์ ์ผ๋ก ๋ช ํํ๊ฒ ์ํํจ
- ๋ฐฉ๋ฒ์ด ๋งค์ฐ ๊ฐ๋จํ๊ณ , ์ค์ ๋ก ๋์์ด ๊ฐ๋ฅํจ
- ๊ณต๊ฐ์ด ์ ๊ณต์ ๋๋์ง๋ ํด์ํ์ง ์์
- ๋์ถฉ ๋๋์ ํ์ต ๋ฐ์ดํฐ ๋ฐ ๊ตฌ์กฐ๊ฐ ๋น์ทํ๋ค๋ ๊ฒ ๊ฐ์๋ฐ, ๊ฒ์ฆ์ด ๋์ง๋ ์์
- neural collapse, next-token ์์ธก ๊ธฐ๋ฐ์ ๋ฌธ์ ์ ์ผ์๋ ์์
- ๊ฒ์ฆ ๋ฐฉ์๋ ์ฌ์ค ์ ๋ชจ๋ฅด๊ฒ ๋ค.
- Intrinsic Dimenstion (ID) ๋ถํฐ ์ ์๋ค์ด ์ ์ํ ๊ฑด๋ฐ, ๋์ถฉ ์ง๊ด์ ์ผ๋ก ์ดํด๋ ๊ฐ์ง๋ง ์ ๊ฒ ์ ๋ถ ํด๊ฒฐ๊ฐ๋ฅํ๊ฐ?๋ ๋ชจ๋ฅด๊ฒ ์.
- ์ฌ์ง์ด Gemma2๋ ์์ ๊ฒฝํฅ์ฑ์ด ๋ค๋ฅธ๋ฐ, ๊ทธ๋ฅ ๋์ด๊ฐ
๊ทธ๋ผ์๋, ๊ฐ์ ๊ณ์ด์์ steering vector์ ๊ฒฝํฅ์ฑ์ด ์ด์๋ ์ ์๋ค๋ ๊ฒ์ ๋ฐํ ๊ฒ์ ์๋ฏธ ์๋ค๊ณ ์๊ฐํจ (๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์์์ ์์ฝ๊ธด ํ์ง๋ง, ๊ฐ๋ฅ์ฑ์ด ๋ณด์ด๋ ๊ฒ๋ง์ผ๋ก๋ ํฅ๋ฏธ๋ก์)











