Interpreting the Repeated Token Phenomenon in Large Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฐฐ๋ | ์์งํ ๋ด๊ฐ ์ด motivation์ด๋ idea ๋ค๊ณ ๊ฐ๋ฉด ๋ค์์ ๋ฒํ ๋ง์ ์ด๊ฒ ๋๋์ฒด ์ ํ์ํ๊ฑด๋ฐ? ์ผ ๊ฒ ๊ฐ์. ์ ๋ง ์์ ํ๋ ํฌ์ฅ ๋ฐฉ์๋ ์ค์ํ๋ค๊ณ ์๊ฐํ์. ์ด ํ์์ด, LLM์ด ๊ฐ์ง ๊ตฌ์กฐ์ ๋ฌธ์ ๋ฅผ ๊ท๋ช ํ๋ ๊ฒ์ผ๋ก ์ด์ด์ง ๊ฒ์ด๋ผ๊ณค ์๊ฐํ๊ธฐ ์ด๋ ค์ด๋ฐ, ๋๋จํ ๊ฒ ๊ฐ์. | 4.1 |
| ์์ฌ๋น๊ฝ๊ฒ๋ | Attention sink ์ ๋ํ ๊ฐ๋ ์ ์ด ๊ธฐํ์ ์ ๋๋ก ์๋ฏ. ํด๋น ๋ ผ๋ฌธ์์๋ attention sink์ ๋ถ์ ์ ์ธ ํ์๊ณผ ์ฐ๊ด์ง์ด ์ค๋ช ํ๊ธดํ์ง๋ง ์ฌ์ค ๋ชจ๋ธ ์์ ์ฑ์ ์ํด ๋ง๋ค์ด์ก๋ค๋ ๊ฒ์ด๊ธด ํจ. ์ด๋ ๊ฒ ์ ํ ๋ค๋ฅธ๊ฐ๋ ์ ์ด์ด์ ์๊ฐํ ์๊ฐ์ ํ๋์ง ๊ทธ ์ ๊ทผ ์์ฒด๊ฐ ์๋ก์ด ๋ฐ์์ด๋ค | 4.2 |
| ๋ฉ๊ฐ์ปคํผ | preliminary๋ repeated token divergence์ ๋ํด ์ฒ์ ์์๋๋ฐ ๋ ผ๋ฌธ์ด ์ฐธ ์ฌ๋ฐ๋ค. BOS ํ ํฐ๊ณผ Repeat ํ ํฐ์ ๋ถํฌ์ ์ ์ฌํจ์ ํตํด์ reapeat ํ ํฐ์ด attention sink์์ ์ฆ๋ช ํ๋ ๊ฒ์ ๋ณด๊ณ motivation์ ๋ํ ์ฆ๋ช ์คํ ์ค๊ณ๋ฅผ ์ฐธ ์ํ๋ค๊ณ ์๊ฐํ์ | 4.4 |
| ์๋ฆฌ๊ดด๋ฌผ | Attention score ์์์ ์ด๋ ๊ฒ๋ ํด์ํ ์ ์๊ตฌ๋..! ๋ด๋ฐ ํ๋๋ง ์กฐ์ ํด๋ sink๊ฐ ์ํ๋๋ค๋ ๊ฒ์ด ๋๋๋ค. ๊ทผ๋ฐ ์ค์ downstream task ๊ด์ ๋ณด๋ค๋ ๋ชจ๋ธ ๋ณด์์ ๊ฐํํ๊ธฐ ์ํด ๊ณ ๋ คํด๋ด์ง ํ๋ฏ | 4.3 |
| ์์ฐ๊นก | sink layer/neuron์ด ์ ๊ธฐํ๊ธด ํ๋ฐ ์ด๋ ์ธ ์ ์์ผ๋ ค๋?! ๋ง์ง๋ง์ ์ ์ํ ๊ฒ์ฒ๋ผ attack ๋ง๋ ์ฉ๋๋ก, ๋ชจ๋ธ ๋ฐฐํฌํ๋ ๊ธฐ์ ์ ์ฅ์์๋ ์ค์ํ ์ ์์ ๊ฒ ๊ฐ๋ค. ์์ผ๋ก LLM์ด ๋ฐ๋ณตํด์ ๋งํ๋ ํ์ ๋ณด์ด๋ฉด ๋ฌด์ธ๊ฐ ํผ๋์ค๋ฌ์ํ๊ณ ์๊ตฌ๋ ์๊ฐํ ์ ์์๋ฏ | 4.1 |
| ์์ฑ์ฌ | ์ผ์ข ์ red teamming์ ๋ํ white box ํด์์ ๋ณด์ฌ์ฃผ๋ ๊ฒ ๊ฐ์ต๋๋ค. Soundness ํ๋ถํ๊ณ , ๋์๊น์ง ์ ์ํ๋ ๊ฒ์ด ์ฐ๊ตฌ์ ์์ฑ๋๋ฅผ ํ ์ธต ๋ ์ฌ๋ ค์ฃผ๋ค์. ์์กด์ ๋๋ค. | 4.5 |
| ์คํ๋ฒ ์ค | Attention sinnking์ด ํ๋ จ ๋ฐ์ดํฐ ์ ์ถ ์ทจ์ฝ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๋ค๋ ์ ์ ๋ฐ๋ผ ๋ฐ๋ณตํ์ง ๋ชปํ๊ฒ ํ๋ ๋ฐฉํฅ์ฑ์ด ์๋ก์ ๋ ๊ฒ ๊ฐ์. ์ธ์ด ๋ชจ๋ธ์ด ๋จ์ํ๊ฒ ๋ฐ๋ณตํด ๋ฌ๋ผ๋ ์ง์๋ฅผ ์ ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์ ๊ทธ๋ฐ์ง ๊ถ๊ธํ๋๋ฐ ์ด๊ฒ ๋ต์ด ๋ ์ ์์ ๊ฒ ๊ฐ์. | 4.6 |
| ๊ณ ๊ตฌ๋ง๋ง๋๋ฆฌ | ์๋ก์ด ๊ฐ๋ (attention sink, BoS token)์ ๋ง์ด ์๊ฒ ๋์๋ค! ๋ชจ๋ธ ๋ณ sink neuron ID๊ฐ ๋ค๋ฅธ ๋ถ๋ถ์ด ์ ๊ธฐํ๋ค. ๊ณง์์ผ๋ฉด ๊ฐ layer, ๊ฐ neuron ๋ณ map์ด ๋ง๋ค์ด์ง๊ฒ ๊ตฐ ! | 4.8 |
TL; DR
LLM์ ๊ฐ์ ๋จ์ด๋ฅผ ๊ณ์ ๋ฐ๋ณต์ํค๋ฉด ๋ชจ๋ธ์ด ์ด๋ ์๊ฐ๋ถํฐ ๊ทธ ๋จ์ด๋ฅผ ์ ๋๋ก ๋ฐ๋ณตํ์ง ๋ชปํ๊ณ ๋ถ๊ดด๋๋๋ฐ, ์ด๋ attention sink๋ฅผ ๋ง๋๋ neuron์ด ๋ฐ๋ณต๋๋ ํ ํฐ์ โ๋ฌธ์ฅ์ ์ฒซ ํ ํฐ(BoS)โ์ผ๋ก ์ค์ธํ์ฌ attention์ด ๋ชฐ๋ฆฌ๊ธฐ ๋๋ฌธ์
Summary
- Interpreting the Repeated Token Phenomenon in Large Language Models, ICLMโ25 | Link
- Author
- Citation: 3
Introduction
Preliminaries
Beginning of Sequence (BoS) ํ ํฐ
- ์ ์: ๋ฌธ์ฅ์์ ํญ์ ์ฒซ ๋ฒ์งธ ์์น์ ์๋ ํ ํฐ
- e.g., "Once upon a timeโ โ BoS: Once
- ์ ์: ๋ฌธ์ฅ์์ ํญ์ ์ฒซ ๋ฒ์งธ ์์น์ ์๋ ํ ํฐ
Attention Sinks
- ์ ์: ๋ชจ๋ธ์ด ํ ํ ํฐ์ ๋ง์ attention์ ์ฃผ๋ ํ์
- attention ๊ฐ๋ค์ ํญ์ ํฉ์ด 1์ด ๋์ด์ผ ํ๋๋ฐ, ๋ง๋
ํ ์ค ๊ณณ์ด ์์ผ๋ฉด ํน์ ํ ํฐ์ ๋ชฐ์์ค(๋จ๋ attention์ ๋ฒ๋ฆฌ๋ ํต โsinkโ)
โ ๊ทธ ๋์์ด ํญ์ ์ ๊ทผ ๊ฐ๋ฅํ ์ด๊ธฐ ํ ํฐ์ธ๊ฒ
- semantic ๋๋ฌธ์ด ์๋ structural ์ญํ ๋๋ฌธ
- "\n"์ผ๋ก ๋ฐ๊ฟ๋ ๋์ผํ ํจํด ๋ฐ์
- attention ๊ฐ๋ค์ ํญ์ ํฉ์ด 1์ด ๋์ด์ผ ํ๋๋ฐ, ๋ง๋
ํ ์ค ๊ณณ์ด ์์ผ๋ฉด ํน์ ํ ํฐ์ ๋ชฐ์์ค(๋จ๋ attention์ ๋ฒ๋ฆฌ๋ ํต โsinkโ)
Fig.
- Llama-2-7B์์ 256๊ฐ ๋ฌธ์ฅ(๊ฐ 16ํ ํฐ)์ ๋ํด, ํ๊ท attention logit์ ์๊ฐํํ heatmap
- x์ถ: key token ์์น
- y์ถ: query token ์์น
- y = 10, x = 0 ์ด ๋ถ๋ค๋ฉด โ 10๋ฒ์งธ ํ ํฐ์ด 0๋ฒ์งธ ํ ํฐ์ ๋งค์ฐ ๊ฐํ๊ฒ ์ฐธ๊ณ ํ๋ค๋ ๋ป
- Layer2๋ฅผ ๋์ด๊ฐ์๋ก ๋ชจ๋ query ํ ํฐ์ด ์ด๊ธฐ ํ ํฐ(token 0) ์ ๋งค์ฐ ํฐ attention์ ์ค
- Llama-2-7B์์ 256๊ฐ ๋ฌธ์ฅ(๊ฐ 16ํ ํฐ)์ ๋ํด, ํ๊ท attention logit์ ์๊ฐํํ heatmap
- BoS sink:
- ์ ์: BoS (Beginning of Sequence) token์ด attention sink ์ญํ ์ ํ๋ ํ์(attention์ ๋ฒ๋ฆฌ๋ ํต(sink) ์ผ๋ก BoS ํ ํฐ์ ์ฌ์ฉํ๋ค~)
- ํจ๊ณผ
- ๋ฌธ์ฅ ๊ตฌ์กฐ์ ๊ธฐ์ค์ ์ ๊ณต ๋ฐ ๋ฌธ๋งฅ ํด์์ anchor ์ญํ ์ํ
- BoS ํ ํฐ์ ๋ํ์ ์ธ ์ ์ attention sink์
- attention์ด ์์ ํ ํฉ์ด์ง์ง ์๋๋ก ์ค์ฌ์ ์ก์์ค(๋ฌธ์ฅ์ ๊ธฐ์ค์ ์ ๋ง๋ค์ด ์ค)
- ๋ชจ๋ธ์ fluency๋ฅผ ๋์ฌ์ค
- ์ ์: ๋ชจ๋ธ์ด ํ ํ ํฐ์ ๋ง์ attention์ ์ฃผ๋ ํ์
Attention Sinks & BoS ๊ฐ์ ๊ด๊ณ
- ๋ชจ๋ธ์ ํ์ต ์ค์ โ์ฒซ ํ ํฐ์ ๋ฌธ๋งฅ์ ๊ธฐ์ค์ โ์ผ๋ก ๋ฐฐ์ฐ๊ธฐ ๋๋ฌธ์, BoS ํ ํฐ์ ํญ์ attention sink ์ญํ ์ ํ๋๋ก ํ์ต๋จ
- ํ์ง๋ง, ๋ฐ๋ณต ํ ํฐ์ด๋ ํน์ ํจํด ํ ํฐ์ด BoS์ฒ๋ผ ์ทจ๊ธ๋ ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ. (attnetion sink ๊ฐ โ์ฌ๋ฌ๊ฐโ์ธ ๊ฒฝ์ฐ ๋ฌธ์ ๋ฐ์)
- BoS sink๊ฐ ์ฌ๋ฌ ๊ฐ ์๊ธฐ๊ณ
- ๋ฌธ์ฅ์ด ์ฌ๋ฌ ๋ฒ ์๋ก ์์๋๋ ๊ฒ์ฒ๋ผ ์ธ์๋์ด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์๊ณ ๋ฐ์ฐํจ
Background
Repeated Token Divergence Phenomenon
- LLM์ ๋ค์ํ ์์ฐ์ด ํ์คํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์
- ํ์ง๋ง, โํ๋์ ๋จ์ด๋ฅผ ๋ฐ๋ณตํ๋ผโ๋ผ๋ ๋จ์ํ ์ง์๋ฅผ ์ ๋๋ก ์ํํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์์
โ ์ด๋ฅผ โrepeated token divergenceโ phenomenon ๋ผ๊ณ ํจ
e.g.,
- GPT-3.5-turbo ๋ก ์คํ ํ์ ๋, ๋จ์ผ token์ ๋ฐ๋ณตํ๋ค๊ฐ ๋ค๋ฅธ ๋ฌด๊ดํ text๋ฅผ ์ถ๋ ฅํ๊ฒ ๋จ.
- ์ด๋ ๊ฒ ์ถ๋ ฅ๋๋ text๋ ๋ชจ๋ธ์ด ํ์ต ๊ณผ์ ์์ ์ธ์ ๊ฐ ํ๋ฒ ๋ณด์๋ ๋ฐ์ดํฐ๋ผ๊ณ ํจ
- โ๋ฐ๋ณต ํ ํฐ ํ์โ์ ๋ถ์ํ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค:
- ๋ฐ๋ณต ํ ํฐ์ด ์ฒซ ํ ํฐ(BoS)ํํ์ผ๋ก ์๋ ดํจ์ ์ง๊ด์ ์ผ๋ก ๋ถ์ ๋ฐ ๊ด์ฐฐ
- ๋ฐ๋ณต ํ ํฐ์ด ์ด๋ก ์ ์ผ๋ก ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค๋ ๋ถ์
โ ์ ์ด๋ฐ ํ์์ด ์ผ์ด๋๋์ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋ถ์์ ์ถฉ๋ถํ์ง ์์์
In this Paperโฆ
- โRepeated token divergenceโ ํ์์ โattention sinkโ ํ์๊ณผ ์ฐ๊ด์ด ์๋ค๊ณ ๋ณด๊ณ , ํด๋น ๋งค์ปค๋์ฆ๊ณผ ์ฐ๊ฒฐํด์ ์ค๋ช
ํ๊ณ ์ ํจ
- attention sink: ๋ฌธ์ฅ์ ์ฒซ ํ ํฐ(BoS)์ด ๋น์ ์์ ์ผ๋ก ๋์ attention์ ๋ฐ๋ ํ์
โ โ๋ฐ๋ณต ํ ํฐ ํ์์ attention sink๋ฅผ ๋ง๋๋ ๋์ผํ ์ ๊ฒฝ ํ๋ก๊ฐ ์ค์๋ํ๋ฉด์ ๋ฐ์ํ๋ค.โ
- attention sink๋ฅผ ๋ง๋๋ ์ ๊ฒฝ ํ๋ก๋ฅผ ๋ถ์ํ๊ณ , ๊ทธ ํ๋ก๊ฐ ๋ฐ๋ณต ํ ํฐ์์ ์ด๋ป๊ฒ ์ค์๋ํ๋์ง ๋ถ์ํ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ด ์ ๋ถ๊ดด๋๋์ง๋ฅผ ์ค๋ช
ํ๊ณ ์ ํจ
โ LLM์ ์ ์ฐฝ์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ attention sink ๋ฉ์ปค๋์ฆ์ด, ๋์์ repeat token ์ทจ์ฝ์ ์ ๋ง๋ค์ด๋ด๋ ๊ตฌ์กฐ์ ์์ธ์ด๋ค!
Contribution
- Repeated Token Divergence Phenomenon ์ ๋งค์ปค๋์ฆ ์์ค์์ ์ฒ์์ผ๋ก ์ค๋ช
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด โํ์โ ๋ง ๊ด์ฐฐํ๋ค๋ฉด, ํด๋น ๋ ผ๋ฌธ์ white-box ์ธํ ์์ ๋ถ์
- Attention sink์ ์์ธ์ด ๋๋ sink neuron์ ์๋ณํ๊ณ ์ธ๊ณผ์ ์ผ๋ก ๊ฒ์ฆ
- sink layer์์ norm์ ๋ง๋๋ ์์ ๋ด๋ฐ์ ์ ๋ณํ์ฌ ํด๋น ๋ด๋ฐ์ ablation ํ์ ๋ ํ์์ด ์ฌ๋ผ์ง์ ๋ณด์
- ๋ชจ๋ธ์ด ์ฒซ ํ ํฐ์ ์ธ์ํ๋ first-token detector neuron ๊ตฌ์กฐ๋ฅผ ๊ท๋ช
- ์ฒซ attention layer ์ดํ, first token /non-first token์ด ์ ํ ๋ถ๋ฆฌ๋จ์ ์ฆ๋ช
ํจ
โ LLM์ด ์์น ์ ๋ณด๋ฅผ ๋ช ์์ ๋ด๋ฐ ํ๋์ ์ธ์ฝ๋ฉ์ ํ๋ค!
- ์ฒซ attention layer ์ดํ, first token /non-first token์ด ์ ํ ๋ถ๋ฆฌ๋จ์ ์ฆ๋ช
ํจ
- Repeated token Attack์ ๋ํ ๋ฐฉ๋ฒ ๋ฐ mitigation ๋ฐฉ์ ์ ์
Mechanistic Analysis of Repeated Token Divergence
- Repeated token divergenceํ์์ ์ ๊ฒฝ ํ๋ก ๋ฉ์ปค๋์ฆ ๊ด์ ์ผ๋ก ์ค๋ช ํ๊ณ ์ ํจ
- Flow
- ๋ฐ๋ณต token์ attention์ด BoS์ attention (attention sink ํ์)๊ณผ ์ ์ฌํจ์ ๊ด์ฐฐ
- Attention sink๋ฅผ ๋ง๋๋ mechanism ์ ํ์
- ์ด mechanism์ด repeated token์์ ์ด๋ป๊ฒ ์ฌํ๋์ด divergence์ ์ ๋ฐํ๋์ง ํ์
- LLaMa-2 ๋ฅผ ํ์ฉํ์ฌ ์คํ ์งํ
Large Attention Scores of Repeated Tokens
Q: repeated token์ด ๋ํ๋ด๋ attention score๊ณผ attention sink attention score ์์์ด ์ ์ฌํ๊ฐ?
Setting
- Top panel: ์ผ๋ฐ๋ฌธ์ฅ
- Bottom panel: โthe โฆโ๋ฅผ ๋ฐ๋ณตํ์ ๋
- x์ถ: key token ์์น
- y์ถ: query token ์์น
- Bottom panel (์ผ๋ฐ ๋ฌธ์ฅ): ์ฒซ ํ ํฐ์ด ๊ฐ์ฅ ๋์ attention์ ๋ฐ์ โ attention sink
- Top panel (the .. repeat): ์ฌ๋ฌ ์์น์ "the" ํ ํฐ๋ค์ด ์ฒซ ํ ํฐ๊ณผ ๊ฑฐ์ ๋์ผํ attention score๋ฅผ ๋ฐ์
โ ๋ฐ๋ณต๋๋ ํ ํฐ๋ค์ด ๋ฌธ์ฅ์ ์์ ํ ํฐ(BoS) ์ฒ๋ผ ์ทจ๊ธ๋๊ณ ์๋ค๋ ์๋ฏธ
โ ๋ฐ๋ณต๋ "the" ํ ํฐ๋ค์ attention ์ ์ ๋ถํฌ๋ ์ผ๋ฐ ๋ฌธ์ฅ์์ ์ฒซ ํ ํฐ์ด ๋ฐ๋ attention๋ถํฌ๊ณผ ์ ์ฌํจ!
- ์ด ํ์์ repeated token๊ณผ attention sink ๋ฉ์ปค๋์ฆ์ด ์ฐ๊ด๋์ด ์์์ ์์ฌํจ
The Attention-Sink Mechanism
Q: ์ repeated token์ด ๋์ attention score์ ๋ฐ๊ฒ ๋๋๊ฐ?A: Token์ด repeat ๋ ์๋ก hidden state norm์ด ์ปค์ง๋๋ฐ, norm์ด ํด์๋ก ์๋์ผ๋ก ๋์ attention์ ๋ฐ๊ฒ ๋๊ธฐ ๋๋ฌธ์.
- Transformer๋ ํ์ต ๊ณผ์ ์์ ๋ฌธ์ฅ ์์ ์์น(BoS)์ ๊ฐํ ๊ตฌ์กฐ์ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๋๋ก ํ์ต๋๋๋ฐ, ์ด ๊ณผ์ ์์ hidden norm์ด ํญ์ ํฌ๊ฒ ํ์ฑ๋จ
- Hidden state norm์ด ํฌ๋ค โ ํด๋น ํ ํฐ ํํ์ด layer์์ ๊ฐํ๊ฒ ํ์ฑํ ๋์ด์๋ค
- ์ด Hidden state norm์ attention score์๋ ์ํฅ์ ์ค
โ hidden state norm์ด ํฌ๋ฉด, ๊ทธ ํ ํฐ์ ์๋์ผ๋ก ๋์ attention์ ๋ฐ๊ฒ ๋๋ ๊ตฌ์กฐ์
- ๋ฐ๋ผ์, ํน์ token์ ๋ฐ๋ณตํ์ ๋ ํด๋น token์ด BoS token๊ณผ ๊ฐ์ด hidden state norm์์์ด ๋น์ทํ์ง ์์๋ณด๊ณ ์ ํจ
- ๋ ผ๋ฌธ์์๋ attention sink ํ์์ด ์ฒ์ ๊ฐํ๊ฒ ํ์ฑ๋๊ธฐ ์์ํ๋ ๋ ์ด์ด๋ฅผ sink layer์ผ๋ก ์ ์ํ๊ณ , ํด๋น layer(=1)์์ ์คํ์ ์งํ
Setting
- Sink Layer: 1
- sink layer: attention sink ํ์์ด ์ฒ์ ๊ฐํ๊ฒ ํ์ฑ๋๊ธฐ ์์ํ๋ ๋ ์ด์ด
- Sink Layer: 1
- ๋ชจ๋ ํ ํฐ์์ ๊ณตํต์ ์ผ๋ก ๋ฐ๋ณต ํ์๊ฐ ์ฆ๊ฐํ ์๋ก hidden state norm์ด ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ฉฐ ๊ฒฐ๊ตญ BoS token norm ์์ค์ ์๋ ด
- ์ธ ํ ํฐ(the, one, es) ๋ชจ๋ ์๋ ์ฐจ์ด๋ ์์ง๋ง, ๋ฐฉํฅ์ ๋์ผํจ
โ Repeated token์ด ๋ชจ๋ธ ๋ด๋ถ ํํ ๊ณต๊ฐ์์ BoS token๊ณผ ๊ฑฐ์ ๋์ผํ ์ํ๋ก ๋ณํด๊ฐ
Q: ์ด๋ค neuron๋ค์ด attention sink ํ์์ ์ ๋ฐํ๋๊ฐ?
- ์ด๋ฌํ ํ์์ ์ผ๊ธฐํ๋ ํน์ neuron์ด ์๋ค๊ณ ๊ฐ์ ํ๊ณ , ์ด๋ฅผ โsink neuronsโ์ผ๋ก ์ ์
sink neuron ์ ์ ๊ณผ์
- BoS ํ ํฐ์ ๋ฃ์์ ๋, MLP ์ถ๋ ฅ์ด residual stream norm์ ๊ฐ์ฅ ํฌ๊ฒ ๊ธฐ์ฌํ๋ ๋ด๋ฐ๋ค์ top-K๋ก ์ฐ์ ์ ๋ณ
- ํ๋ณด ๋ด๋ฐ๋ค์ ํ๋์ฉ ablation ์งํ
- ์ด ๋ด๋ฐ์ ์ ๊ฑฐํ์ ๋ ๋ฐ๋ณต ํ ํฐ norm์ด ์๋ฏธ ์๊ฒ ์ค์ด๋๋๊ฐ? ๋ฅผ ํ์ธ
โ 1, 2๋ฅผ ๋ชจ๋ ๋ง์กฑ์ํค๋ neuron์ sink neuron์ผ๋ก ํ์
- ์์ ์๋ณํ sink neuron์ zero-ablation ํ ๋ค norm ๋ณํ๋ฅผ ํ์ธ
Setting
- ์์ชฝ ๊ทธ๋ํ: sink neuron ์ ๊ฑฐ X
- ์๋ ๊ทธ๋ํ: sink neuron ์ ๊ฑฐ O
(y์ถ scale๊ฐ ์์ชฝ ๊ทธ๋ํ์ ๋ค๋ฆ!)
- x์ถ: ๋ฐ๋ณต ํ์
- y์ถ: residual stream activation norm
- ์์ชฝ ๊ทธ๋ํ: ๋ฐ๋ณต ์์น๊ฐ ์ฆ๊ฐํ ์๋ก norm์ด ๊ธ๊ฒฉํ ์ฆ๊ฐ
- ์๋ ๊ทธ๋ํ: norm์ด ์ ์ฒด์ ์ผ๋ก ๊ทน์ ์ผ๋ก ๊ฐ์
โ repeat token์ด attention sink ์ฒ๋ผ ์๋ํ์ง ์์
โ ๋ฐ๋ณต ํ ํฐ์ norm ํญ์ฆ์ sink neuron์ด ์์ผ๋ฉด ๋ฐ์ํ์ง ์์!
Q: ์์ ๋ฐ๋ณต ํ ํฐ์ ๊ฒฐ๊ตญ BoS(first token)์ฒ๋ผ ์ทจ๊ธ๋๋ค๊ณ ํ์๋๋ฐ, ๊ทธ๋ ๋ค๋ฉด ๋ชจ๋ธ์ ์ฒซ ํ ํฐ์ ์ธ์ ์ธ์ํ๋๊ฐ?
A: ์ฒซ ๋ฒ์งธ Attention Layer์์ ์ํ์ค์์ ์ฒซ ํ ํฐ๊ณผ ๊ทธ ์ดํ ํ ํฐ์ ๊ตฌ๋ถํจ
- ์ฒซ attention layer๋ฅผ ์ง๋๋ค์ representation์ 1์ฐจ์ ์ถ์ผ๋ก ํ์ธํ์ฌ ๋ถ๋ฆฌ ์ ๋๋ฅผ ํ์ธํ๊ณ ์ ํจ
- ์ฒซ ํ ํฐ๊ณผ ์ดํ ํ ํฐ์ ๋ถํฌ๊ฐ ๋๋ ทํ๊ฒ ๋ถ๋ฆฌ ๋์ด ์์ โ ์ฒซ ๋ฒ์งธ ํ ํฐ๊ณผ ๊ทธ ์ธ์ ํ ํฐ ๊ฐ์ โ์ ํ ๋ถ๋ฆฌโ๊ฐ ์ผ์ด๋จ
โ ์ฒซ attention layer๊ฐ ์ฒซ ํ ํฐ์ ์๋ณํ๊ณ ๋ด๋ถ์ ์ผ๋ก โํ์(marking)โ ํ๋ ๋ฐ ํต์ฌ ์ญํ
- ์ถ๊ฐ์ ์ผ๋ก ๋จ์ผ ๋ด๋ฐ ํ๋๋ง์ผ๋ก๋ ์ด ๋ถ๋ฆฌ๊ฐ ์๋ฒฝํ ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌ
- LLaMA2: MLP0 gate neuron 912 โ Layer 0 MLP์ gate projection์์ 912๋ฒ์งธ ์ฐจ์ ๋ด๋ฐ ํ๋
Attack and Mitigation
Attack
- ๋ฐ๋ณต ํ ํฐ์ โ์ทจ์ฝ์ โ์ผ๋ก ์
์ฉ๋ ์ ์์
- ๊ธฐ์กด ์ฐ๊ตฌ์์, ๋ฐ๋ณต ํ ํฐ ์ ๋ ฅ์ด ๋ชจ๋ธ์ ํผ๋์ํค๊ณ ๊ทธ ๊ฒฐ๊ณผ ํ๋ จ ๋ฐ์ดํฐ ์ ์ถ(training data leakage) ๊ณต๊ฒฉ์ ์ ์ฉ๋ ์ ์๋ค๊ณ ํจ
- ๋ํ ์ง์ ๋ฐ๋ฅด๊ธฐ์์ ์ดํํ๊ฒ ๋ง๋ค๊ณ , ์ธ์๋(memorized) ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋
ธ์ถ์ํค๋ ์ฌ๋ก๊ฐ ์์
- e.g., Pythia-12B์ โasโ๋ฅผ 50๋ฒ ๋ฐ๋ณตํ๋ฉด ๋ชจ๋ธ์ด 3D ํ๋ฆฐํ ์ค๋ช ๊ฐ์ ํ ์คํธ๋ฅผ ์ถ๋ ฅํ๋๋ฐ, ๊ทธ ์ถ๋ ฅ์ ์ค์ ์น์ฌ์ดํธ์ ์๋ ๋ฌธ์ฅ(ํ๋ จ ๋ฐ์ดํฐ์ ํฌํจ๋ ๊ฒ์ผ๋ก ์ถ์ ๋๋ ํ ์คํธ)์ ์ฌ์ง์ ํ ๊ฒ์ผ๋ก ํ์ธ๋จ
- ๋ฐ๋ณต ํ ํฐ์ด ๊ธธ๊ฒ ๋์ค๋ฉด ๊ฐ์งํด์ ์ฐจ๋จํ๋ ๋ฐฉ์(Surface-level mitigation)์ด ์์ง๋ง, ์ด๋ฐ ๋ฐฉ์์ ๊ทผ๋ณธ ์์ธ์ ํด๊ฒฐํ์ง ๋ชปํจ
โ repeted token์ด ์๋๋๋ผ๋ ๋ชจ๋ธ ๊ณต๊ฒฉ์ด ๊ฐ๋ฅํจ
Attack detail
- attention head์ ํฌ์ ๊ณต๊ฐ์ 2๊ฐ(์ฒซ ๋ฒ์งธ ํ ํฐ/ ๋๋จธ์ง)๊ฐ ์๋๋ผ ์ฌ๋ฌ ๊ฐ์ ์์ฐ์ค๋ฌ์ด ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฆฌํ์ฌ clusterํจ
- ๊ฐ์ cluster ํ ํฐ๋ค์ ์์ด ๋ฃ์ผ๋ฉด BoS์ฒ๋ผ ์ทจ๊ธ๋๋ ํํ์ด ์๊ธฐ๊ณ ๋ชจ๋ธ์ด ๋ฐ์ฐ(diverge) ๋จ
โ ๋์ผํ token ์ repeatํ์ง ์์๋ ์ ์ฌํ token๋ค์ ๋ชจ์์ ๋ชจ๋ธ์ ์ฐํํ์ฌ ๊ณต๊ฒฉ์ด ๊ฐ๋ฅํจ
Mitigation
- <Fig3. ์ฐธ๊ณ > sink๋ฅผ ์ ๋ฐํ๋ ๋ด๋ฐ์ ์ถ๋ ฅ(activation)์ ๊ฐ์ ๋ก โno-sinkโ ์ํ๋ก ๊ณ ์ ํ๋ฉด repeat token ๊ณต๊ฒฉ์ ๋ง์ ์ ์์
- LLaMA2์์ repeat prompt๋ฅผ ์คฌ์ ๋ ํด๋น ๊ณต๊ฒฉ์ด ๋ ์ด์ ๋ชจ๋ธ์ ๋ฐ์ฐ์ํค์ง ๋ชปํจ์ ๋ณด์ฌ์ค
- <Table 2> ์ถ๊ฐ์ ์ผ๋ก, ์ด ํจ์น๊ฐ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ ๋ง๊ฐ๋จ๋ฆฌ์ง ์๋์ง ํ์ธ โ ํจ์น๋ฅผ ํด๋, ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์์์













