On the Role of Attention Heads in Large Language Model Safety
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| MNG | attention head ์ฐจ์ด๋ก ์์ ์ฑ์ด ๋ฌด๋์ง๋ ๊ฒ์ LLM์ด ๊ฐ์ง ํน์ฑ์ผ ๊ฒ ๊ฐ์. head๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ์ฐธ๊ณ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ์! | 3 |
| ์ค์ฐจ์ฆ์ผ | ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ํน์ head๊ฐ ์ถ๋ ฅ์ ๋ํ ํผ๋์ ์ ๋ฐํ๋ค๊ณ ํ์ฌ ๋นํ์ฑํํด์ผํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ ์์ ์ฑ์ ๋ด๋นํ๋ head๊ฐ ์กด์ฌํ๋ค๊ณ ๋งํ๊ณ ์์ด ์ฃผ์ฅ์ด ์์ ์์ถฉ๋์ด์ ํฅ๋ฏธ๋ก์ด ๊ฒ ๊ฐ์. ์์ ๋งํ ์ํฉ์ฒ๋ผ ํน์ head๋ฅผ ๊ป์ ๋ ์์ ์ฑ๊ณผ ๋ฌด๊ดํ ๋ค๋ฅธ ๊ธฐ๋ฅ์ ์ด๋ค ๋ถ์์ฉ์ด ๋ฐ์ํ๋์ง ๋ ๋ถ์์ด ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์ | 4 |
| ๋ฐฉ์ด๋ ๋ | attention ๋ง๋ ์ฌ๋ ์ง์ง ์ฒ์ฌ ์๋ ? safety ๋ฟ ์๋๋ผ ์ธ์ด๋ชจ๋ธ๋ง์ ๋ค์ํ ์ด์๋ค์ attention head๋ก ํ์ฅํด๋ณผ ์ ์๊ฒ ๋ค ์ถ์์ | 3.8 |
| 42REN | Attention Head๋ฅผ ํตํด ์์ ์ฑ ๋ฐ ํด์ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ ์ ์๋ค๋ ์ ์ด ํฅ๋ฏธ๋ก์ ์. ํํธ์ผ๋ก๋ Head๋ฅผ ๋๋ฉด Token Selection์ด ์ ํ๋๋ค๊ณ ํ๋๋ฐ ์ค์ํ ํ ํฐ์ ์ ํํ๋ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ ์ธก๋ฉด์ด ์๋๊ฑด ์๋์ง? | 4.5 |
| ์ผํคํ ๋ฆฌ | safety๊ฐ ์์์ attention head์ ์ง์ค๋์ด ์์๋ค๋ ์ ์ ์๊ฐํด๋ณธ ์ ์ด ์์๋๋ฐ ์ง๊ธ ์๊ฐํด๋ณด๋ ํธ๋์คํฌ๋จธ ํน์ฑ ์ ๊ทธ๋ด ๊ฒ ๊ฐ๋ค! ์์์ head๋ง ์กฐ์ํด๋ ์์ ์ฑ์ด ์ฝ๊ฒ ๋ฌด๋์ง๋ ์ทจ์ฝ์ฑ์ ์ค์ ์คํ์ผ๋ก ๋ณด์ฌ์ค ์ ์ด ์ธ์ ๊น๋ค | 4.5 |
| ํ ๋ธ๋ฌ | Attention head ์ฐ๊ตฌ๋ก์๋ ์ข์ ์ธ์ฌ์ดํธ๋ฅผ ์ฃผ์ง๋ง, ์ค์ adversarial attack ์ฐ๊ตฌ ๊ด์ ์์๋, ์คํ ์์ค ๋ชจ๋ธ์์๋ง ๊ณต๊ฒฉ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ํฐ ๋ฒ์ฉ์ฑ์ ๊ฐ๊ธฐ๋ ์ด๋ ต๋ค๊ณ ์๊ฐ. ๋ฌผ๋ก llama๋ฅผ ๊ณต๊ฒฉํ๋ ๊ฒ๋ ์ข์ง๋ง, ChatGPT๋ Claude๋ ๊ณต๊ฒฉํ ์ ์๋ ํ๋กฌํํ ๊ธฐ๋ฐ red teaming ๋ฐฉ์์ด ์ฃผ๋ฅ์ธ ์ด์ ๊ฐ ์๋ ๋ฏ. Novelty๋ ์์ฃผ ์ข์ (๋ชจ๋๊ฐ ์ด๊ฑฐ ํ ๋ฒ์ฏค ์๊ฐํด๋ณด๊ณ ์๋๋ ์ํด๋ณธ ์ฐ๊ตฌ ๋๋) | 4.3 |
| ๊ฐ์ | attention head๋ฅผ ํ๊ตฌํ๋๋ฐ safety ๊ด์ ์์ ํ๊ณ , ๊ด๋ จ ์คํ๋ ๋ค์ํ๊ฒ ํ ๋ ผ๋ฌธ. ๊ผญ safety์๋ง ์ธ ์ ์๋ ๋ฐฉ๋ฒ์ ์๋์ด๋ณด์ฌ์ ๋ค์ํ๊ฒ ์ธ ์ ์์ด ๋ณด์ธ๋ค | 4 |
| ์์ฐ | ๊ฐ head ์ ๊ฑฐ๋ ๊ฒฝํ์ ์ด์ง๋ง motivation ์์ฒด๊ฐ ์ข์. ์ค์ ๋ก ์์ ์ฑ์ ์งํค๋ ์ต์ ๋จ์์ head group์ ์ฐพ๋ ๋ฐฉ๋ฒ์ ์ ์ํ ์ ์ด ์ธ์์ ์ | 4 |
TL; DR
LLM ์์ ์ฑ์ ์ฌ์ค ์์์ attention head ์ ์ง์ค๋์ด ์์ด์, ๊ทธ head๋ค๋ง ์ด์ง ๊บผ๋ ๐จ ์์ ์ฑ์ด ๋ฐ๋ก ๋ฌด๋์ง๋ค๋ ๊ฑธ ๋ฐํ ๐ ShipsยทSahara๋ก ์ด๋ค head๊ฐ ์ง์ง safety ๋ด๋น์ธ์ง ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ ์ ์ํจ โ๏ธ๐ฅ
Summary
- ์ฐ๊ตฌ์ง: ์๋ฆฌ๋ฐ๋ฐ, ์ค๊ตญ๊ณผํ๊ธฐ์ ๋ํ, ์นญํ๋ํ๊ต, ๋์์ด๊ณต๋ํ๊ต
Main Idea
standard attention mechanism ์ safety capability ๊ฐ์ ๊ด๋ จ์ฑ์ ์ฐพ์, safety์ ๊ดํ interpretability๋ฅผ ํ๊ตฌํ์ !
Background & Motivation
- LLM์ safety
- harmful query์ ๋ํด ๋ต๋ณ์ ๊ฑฐ์ ํ๋๋ก alignment ๋์ด ์์ (๊ทธ๋ฆผ ์ผ์ชฝ)
- e.g. โI cannotโ or โAs a responsible AI assistantโ ๋ฑ์ rejection token ์ฌ์ฉ
- but, ํน์ token์ ํ๋ฅ ๋ถํฌ๋ฅผ ์กฐ์ ํ๋ฉด (
Jailbreak Attack) safety์ ์ทจ์ฝํด์ ธ์ harmful query์๋ ๋ต๋ณํ๊ฒ ๋จ (๊ทธ๋ฆผ ์ค๋ฅธ์ชฝ)- โI cannotโ, โAs a responsible AI assistantโ ๋ฑ์ rejection token์ ๋ฎ์ถ๊ฑฐ๋
- โSureโ, โHere isโฆโ ๋ฑ์ affirmative tokens์ ๋ํ๋ ๊ฒ
- harmful query์ ๋ํด ๋ต๋ณ์ ๊ฑฐ์ ํ๋๋ก alignment ๋์ด ์์ (๊ทธ๋ฆผ ์ผ์ชฝ)
- ๊ธฐ์กด LLM safety ๊ด๋ จ ๋
ผ๋ฌธ์ ์ฃผ๋ก features, neurons, layers, parameters ๊ด์ ์์ ์ํ๋จ
- e.g. ์ด๋ค neuron์ด safety๋ฅผ ๋ด๋นํ๋์ง
โ multi-head attention (MHA) ๊ด์ ์์ safety๋ฅผ ๋ถ์ํด๋ณด์!
์ฆ, safety์ ๊ฐ์ฅ ์ํฅ์ด ํฐ head(=safety parameters)๋ฅผ ์ ๋์ ์ผ๋ก ์ฐพ์๋ณด์!
- Why MHA?
: input sequence์์ feature๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ๊ธฐ ๋๋ฌธ
Contributions (What theyโve revealed)
โ๏ธย Settings
- head ablation์ ์ฉ์ดํ๋๋ก ์์ ๋ modified multi-head attention ์ฌ์ฉ
annotations
- ๏ปฟ: Query, Key, and Value matrices
- ๏ปฟ: i๋ฒ์งธ attention head
- ์ง๊ด์ ์ผ๋ก head ablation == ํด๋น head์ output์ 0์ผ๋ก ๋๋ ๊ฒ์ด์ง๋ง, ๋
ผ๋ฌธ์์๋ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ ์ฌ์ฉํด head ablation ์ํ
- Undifferentiated Attention: Q ํน์ K(๋๋ ๋ ๋ค)์ ์์ฃผ ์์ ๊ณ์ ฮต๋ฅผ ๊ณฑํด, ํด๋น head์ attention weight๊ฐ ๋ชจ๋ ํ ํฐ์ ๋ํด ๊ฑฐ์ ๊ท ์ผ(ํ๊ท )ํ๊ฒ ๋๋๋ก ๋ง๋ฆ
โ ์ฆ, ํน์ head์์ ์ด๋ค token์ด ์ค์ํ์ง ํ๋จํ๋ token selection ๊ธฐ๋ฅ์ ์ ํ์ํด
์ด ๊ทธ๋ฆผ์์, ๋ชจ๋ token์ด ๋ค ๋น์ทํ ์์ด ๋จ !
- Undifferentiated Attention: Q ํน์ K(๋๋ ๋ ๋ค)์ ์์ฃผ ์์ ๊ณ์ ฮต๋ฅผ ๊ณฑํด, ํด๋น head์ attention weight๊ฐ ๋ชจ๋ ํ ํฐ์ ๋ํด ๊ฑฐ์ ๊ท ์ผ(ํ๊ท )ํ๊ฒ ๋๋๋ก ๋ง๋ฆ
- backbone LLM: Llama-2-7b-chat, Vicuna-7b-v1.5
- dataset: Advbench, Jailbreakbench, Malicious Instruct
- LLM input setting
- direct: template ์์ด ์ง๋ฌธ๋ง ๋ฃ๊ธฐ
- decoding setting
- vanilla: original decoding
- greedy: greedy decoding
- top5: top-5 sampling decoding
- head ablation์ ์ฉ์ดํ๋๋ก ์์ ๋ modified multi-head attention ์ฌ์ฉ
1. Safety interpretability ์ฐ๊ตฌ๋ฅผ ์ํด, ์ฒ์์ผ๋ก Safety-specific attention head์ ์กด์ฌ๋ฅผ ๋ฐํ
: ๋๊ฐ์ง ๋ฐฉ๋ฒ (undifferentiated attention, scaling contribution)์ผ๋ก safety-specific attention head (์ฆ highest ship score๋ฅผ ๊ฐ์ง๋ head)๋ฅผ ์ ๊ฑฐํด ๋ณธ ๊ฒฐ๊ณผ
2. attention head์ safety impact๋ฅผ ๋ณด์ด๊ธฐ ์ํด SHIP (Safety Head ImPortant) Score & SAHARA (Safety Attention Head Attribution Algorithm)์ ์
SHIP score๋?- ๊ฐ attention head๊ฐ safety์ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ํ๋ด๋ ์ ์
annotations
- qH: ๊ฑฐ์ ํด์ผ ํ๋ harmful query
- ๏ปฟ : target attention head
- ๏ปฟ: original model parameters
- ๏ปฟ: Kullback-Leibler divergence
- ๏ปฟ : original model์์ target attention head๋ฅผ ์ ๊ฑฐํ ๋ชจ๋ธ
โ safety-critical attention head๋ฅผ ์ฐพ๊ธฐ ์ํด generalized๋ ๋ฒ์ ์ SHIP score
์ฆ, dataset ๋ ๋ฒจ๋ก attention head ablation ์ํ
- how to make?
- harmful query dataset ๏ปฟ์ top layer activation a๋ฅผ ์์ matrix M ๊ตฌ์ฑ
- Singular Value Decomposition ๏ปฟ์ ํตํด left singular matrix ๏ปฟ ์ป๊ธฐ
- attention head ๏ปฟ์ด ablation๋ model์์ ๏ปฟ ์ป๊ธฐ
โ 2์ 3 ์ฌ์ด์ principal angle์ด ํด์๋ก safety์ ๊ด์ฌ๊ฐ ํผ์ ์ฐฉ์ํจ
annotations
- ๏ปฟ: r-th singular value
SAHARA๋?
3. LLM safety ๊ด์ ์์ standard multi-head attention mechanism์ ์ค์์ฑ์ ๋ถ์ํจ์ผ๋ก์, LLM risk์ ๋ํ ์ฐ๋ ค๋ฅผ ์ํํ๊ณ , transperency์ ๊ธฐ์ฌ
- vicuna์ llama์์์ safety head๋ ์ผ๋ง๋ ๊ฒน์น ๊น?
โ Safety head๋ค์ pre-training ๋จ๊ณ์์ ์ด๋ฏธ ์๋น๋ ํ์ฑ๋์ด ์๊ณ , ์ดํ chat-tuning(Vicuna-style instruction-tuning)์์๋ ๊ทธ๋๋ก ์ ์ง๋๋ ๊ฒ
- helpful-harmness trade-off๋?
- safety head ablationํ Llama2-7b-chat์์ zero-shot ์คํ ๊ฒฐ๊ณผ,
ASR์ ํฌ๊ฒ ์ฆ๊ฐ(์์ ์ฑ ๋ถ๊ดด)ํ์ง๋ง, ์ผ๋ฐ์ ์ธ pruning(SparseGPT, Wanda)์ ๋น๊ตํ์ ๋ zero-shot ์ฑ๋ฅ ์ ํ๋ ๋น์ทํ๊ฑฐ๋ ๋ ์ ์.
โ ์ฆ, safety head๋ โ์ฃผ๋ก safety์ฉโ์ผ๋ก ๊ธฐ๋ฅํ๊ณ , ์ผ๋ฐ ์ธ์ด๋ฅ๋ ฅ๊ณผ์ ์ค์ฒฉ(superposition)์ด ์๋์ ์ผ๋ก ์ ์ ๊ฒ์ผ๋ก ๋ณด์.
- safety head ablationํ Llama2-7b-chat์์ zero-shot ์คํ ๊ฒฐ๊ณผ,
- vicuna์ llama์์์ safety head๋ ์ผ๋ง๋ ๊ฒน์น ๊น?















