LLMs Encode Harmfulness and Refusal Separately
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๊ณ๋์ด๋ฐฅ | ๋ฌธ์ ์ ๊ธฐ-๊ฐ์ค์ค์ -์คํ๊น์ง ๋ ผ๋ฆฌ์ ์ฐํ๊ณ ๊ผผ๊ผผํ๋ค. ์ฝ๋ ๋ด๋ด ๋๋ฌด ์ฌ๋ฐ์์! ๋ latent space๊ฐ ๋ช ํํ๊ฒ ๋ค๋ฅด๋ค๋! ์ด๋ฐ์์ผ๋ก ์๋ก ๋ค๋ฅด์ง๋ง ์ฐ๊ด๋์ด ์๋ ๋๊ฐ์ง ์ญํ ์ ๋ค๋ฅธ space์์ ์ธ์ฝ๋ฉํ๋ ๊ฒ๋ค์ด ๋ ๋ญ๊ฐ ์์๊น? factuality์ ์ฐ๊ด๋ space๋ ๋ญ๊น? | 4.5 |
| ๋งน๊ตฌ | LLM์ ์ค๊ณํ ๋, ์ด๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ์ค ์๊ณ ์์์๊น? ์์ฆ ๋๋ ์๊ฐ์, ์ ๋ง ํ์์ ๋ณด๊ณ ๊ทธ ์ด์ ๋ฅผ ํด์ํ๋ ๊ณผํ์ด ๋์ด๊ฐ๋ ๋๋์ด๋ค. LLM์ ๋ง๋ค์ด ๋ธ ๊ฑด ๊ณตํ์ธ๋ฐ, ์ต๊ทผ ์์ง์์ why?๋ก ์์ํ๋ ๋๋์ธ๋ฏ. ์์ผ๋ก ๊ทธ๋ฐ ์๊ฐ์ ๊ฐ์ง๊ณ ์ฐ๊ตฌํด์ผ๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค์์. ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ฒ๋ผ, ์ฌ๋๋ ๊ฒฐ๊ตญ ์ ํดํ ๊ฒ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ ๋ค๋ฅด๊ฒ ํด์ํ๋ ๊ฒ ๊ฐ์. ์ฌ๋์ ์ง๊ด์ด๋ ๊ฐ์น์ฑ ํ๋จ์ด ์๊ฐ๋ณด๋ค ๊ณ ์์ค์ด๋ผ๋ ์๊ฐ์ด ๋ฆ. | 4.3 |
| ํ๋ฒ๊ฑฐ | Jailbreak์ด๋ attack ๊ด๋ จ ๋ ผ๋ฌธ์ ๋ณผ ๋ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ ๋น์ฐํ ๋ถ์ด์๋ ๊ฐ๋ ์ผ๋ก ์ธ์งํ๊ณ ์์๋๋ฐ ์ด ๊ฐ๋ ์ ๋ถ๋ฆฌํ๋ค๋ ์ ์ด ์๋กญ๋ค. ๋ค๋ฅธ ๋ ผ๋ฌธ๋ ๊ทธ๋ ๊ณ steering์ด ์ค๊ฐ layer์์ ๋ ํจ๊ณผ์ ์ผ๋ก ๋จนํ๋ค๋ ๊ด์ฐฐ์ด ์ด ๋ ผ๋ฌธ์์๋ ๋์ค๋๊ฑธ ๋ณด๋ ์ ๋ง ์ด๋ค ๋ชฉ์ ์ ๋ํด์ ์ต์ ์ layer์ด ์๋๊ฒ ๊ฐ๋ค. | 4.4 |
| ํผ์ | LLM์ Jailbreak๋ฅผ ๋ณผ ๋, ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์์นํํด์ ๋ถ์ํ ์ ์ด novelty๊ฐ ํฐ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์. jailbreak๊ฐ ๋๋ค, ์๋๋ค ๋ฟ๋ง ์๋๋ผ ์ด๊ฑธ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ๋ก ๋๋์ด hidden state์ ๋ฒกํฐ ๊ณต๊ฐ์ผ๋ก ๋ถ์ํ ๊ฒ์ด ๋๋ผ์ด ์ ์ด๋ผ๊ณ ํ ์ ์์ ๋ฏํจ. | 4.6 |
| ์นํจ | ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ์ ๋ elicitํด์ง๋ ๊ฒ ๊ฐ๋ค. ํ 5๋ ๋ค๋ฉด ๊ทธ ๋๋ ์ ๊ทธ๋ ๊ฒ ์๊ฐํ์์ง? ์ถ์๋ ๊ฐ๋ ๋ค์ด ๋ง์์ง๊ฒ ์ง? + ๊ฐ์ธ์ ์ผ๋ก Contribution์ figure๊ฐ ์ฐธ ์๊ทธ๋ ธ๋ค๊ณ ์๊ฐ์ด ๋ ๋ค | 4.6 |
| ํ๋ธ๋ฆฌ์ฆ | ์๋ต ๋ฐ์ ์ํจ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ์ฑ ์ธ์์ ๋ค๋ฅด๊ฒ ํ๋ค๋ ๊ฑธ ๋ฉ๋ํ๊ฒ ํด์คฌ๋ค. ์คํ ์ค๊ณ๊ฐ ํนํ ๊น๋ํ๋ฉด์ ๊ด๋ จํด์ ๊ถ๊ธํ ๊ฑด ์ฌ๋งํผ ํด์ํ ์ ์๋๋ก ํ๋ฏ | 4.3 |
| ๊ตญ๋ฐฅ | ์ผ๋ถ jailbreak๋ โ๋ชจ๋ธ์ด ์ ํดํ์ง ์๋ค๊ณ ์ฐฉ๊ฐํ๊ฒโ ๋ง๋๋ ๊ฒ ์๋๋ผ, โ๊ฑฐ๋ถ ์ ํธ๋ง ๋ฎ์ถ๋ ๋ฐฉ์โ์ผ๋ก ์๋ํ๋ค๋ ํด์์ด ์ ์ ํจ. ์ง๊ธ๊น์ง๋ jailbreak ์ฑ๊ณต ์์ฒด๊ฐ ๋ชจ๋ธ์ด ์ ํดํ์ง ์๋ค๊ณ ์ฐฉ๊ฐํ๋ค๊ณ ์๊ฐํ๋๋ฐ ๋ด๋ถ์์๋ ์ด๋ฏธ ์ํํ๋ค๋ ์ ํธ๋ฅผ ๊ฐ์ง๊ณ ์๊ตฌ๋! | 4.5 |
TL; DR
๐ก
LLM์ instruction์ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ๋ค๋ฅธ latent space์์ ์ธ์ฝ๋ฉํ๊ณ ์๋ค!
์ ์: Northeastern University, Stanford University
Summary
Motivation
- LLM Safety์์, ์ ํดํ instruction์ ๊ฑฐ๋ถํ๋๋ก ํ์ตํด๋ ๊ทธ๊ฒ์ ๋ซ๊ณ ํ์ฅํ๊ฑฐ๋(Jailbreaking), ๊ณผํ๊ฒ ๊ฑฐ๋ถํ๋ ํ์(Over-refusal)์ ๋ฐ์ํจ.
- ์ ์ด๋ด๊น? instruction์ด ์ ํดํ ๊ฒ์ LLM์ด ์๊ณ ์์๊น?
- ๊ณผ๊ฑฐ ์ฐ๊ตฌ๋ค์ LLM์ด ํน์ latent space์์ refusalํ ์ง ๋ง์ง ๊ฒฐ์ ํ๋ค๊ณ ๋ ๋ฐํ๋๋๋ฐ, ๊ทธ๊ฒ instruction์ ์ ํด์ฑ์ด๋ ํตํฉ๋์ด ์๋ ๊ฑด์ง, ๋ถ๋ฆฌ๋์ด ์๋ ๊ฑด์ง๋ ์ฐ๊ตฌํ์ง ์์
- ์ผ๋ฐ์ ์ผ๋ก ๊ฑฐ๋ถํ๋ฉด ๊ทธ๊ฒ ๋์๊ฑฐ๋๊น ๊ฑฐ๋ถํ๊ฒ ์ง~ ๋ผ๋ ์ธ์์ด์์
Contribution
- Instruction์ด ๋ค์ด์์ ๋, ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ๋ณ๋๋ก ์ธ์ฝ๋ฉํจ์ ์
์ฆํจ
- ์ ํด์ฑ์ instruction์ ๋ง์ง๋ง ํ ํฐ, ๊ฑฐ๋ถ ์ฌ๋ถ๋ ์ ์ฒด ์ ๋ ฅ ์ํ์ค์ ๋ง์ง๋ง ํ ํฐ์์ ๊ฒฐ์ ๋จ
- ์ ํด์ฑ ๋ฐฉํฅ์ steeringํด์ jailbreak๋ฅผ ๋ง๋ latent guard ์ ์
- Fine-tuning ์์ด๋ fine-tuned llama guard๋ณด๋ค ์ํจ
Experimental Setup
- ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ํ๊ตฌํ๋ ์คํ ์ค๋น
- Model: Instruct๋ชจ๋ธ์ธ Llama-2-chat-7B, Llama3-Instruct-8B, Qwen-2-Instruct-7B
- Prompt: Instruct ๋ชจ๋ธ๋ค์ ํน๋ณํ instruction ํ
ํ๋ฆฟ์ ๊ฐ์ง๊ณ ์์ (e.g. [INST]{user instruction)[/INST])
- [/INST]๋ฅผ post-inst ํ ํฐ์ด๋ผ ๋ช ๋ช ํจ
- Hidden state: user instruction์ ๋ง์ง๋ง ์์น์ธ ๏ปฟ์ ์
๋ ฅ ์ํ์ค์ ๋ง์ง๋ง ์์น์ธ ๏ปฟ์ hidden state ๋ถ์
- ๋ณดํต ๊ฑฐ๋ถ๋ ๏ปฟ์์ ๊ฒฐ์ ๋จ
- Jailbreak method: Adversarial suffixes(์ ๋์ ์ธ ์ ๋ฏธ์ฌ), Persuasion(์ค๋), Adversarial prompting templates (์ ๋์ ํ๋กฌํํ ํ ํ๋ฆฟ) ์ฌ์ฉ
- Refusal rate: ๋ชจ๋ธ์ด Sorry I cannot๊ฐ์ ํน์ ๋ฌธ๊ตฌ๋ฅผ ์์ฑํ๋ฉด ๊ฑฐ๋ถ๋ก ๋ถ๋ฅํจ
Decoupling Harmfulness from Refusal
Removing post-instruction tokens weakens refusal abilities
- ๏ปฟ ์ง์ฐ๋๊น refusal rate๊ฐ ํฌ๊ฒ ๋ฎ์์ง
- ์ด ํ ํฐ ์ ๊น์ง๋ ๊ฑฐ๋ถ ์ ํธ๊ฐ ์ฝํ ๊ฒ์ผ ์ ์์
- ๏ปฟ์ ๊ฐํ๊ฒ ์์กดํ๊ณ ์๋ ๊ฒ!
- ๊ทธ๋ผ ๏ปฟ์๋ ๋ญ๊ฐ ์ธ์ฝ๋ฉ๋์ด ์์๊น? ๋ถ์ํ์
- ๊ฐ์ค) ๏ปฟ์๋ ์ ํด์ฑ์ ์ธ์ฝ๋ฉํ๊ณ , ๏ปฟ์๋ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ์ธ์ฝ๋ฉํ๋ค!
Hidden states cluster by harmfulness at ๏ปฟ, and by refusal at ๏ปฟ
- ์ ํด/๋ฌดํดํ instruction์ ๋ํด ๏ปฟ์ ๏ปฟ์ hidden state๊ฐ ์ด๋ค ํด๋ฌ์คํฐ๋ฅผ ํ์ฑํ๋์ง ๋ณด์
- ์ ํดํ ์ง์์ ๋ํด ๊ฑฐ๋ถํ๋ ๊ฒฝ์ฐ ์์ฉํ๋ ๊ฒฝ์ฐ, ๋ฌดํดํ ์ง์์ ๋ํด ๊ฑฐ๋ถํ๋ ๊ฒฝ์ฐ ์์ฉํ๋ ๊ฒฝ์ฐ์ ๋ํด ๋ถ์
- ์ ํดํ ์ง์๋ฅผ ๊ฑฐ๋ถํ๋ ๊ฒฝ์ฐ์์ hidden state๋ฅผ ํ๊ท ๋ด์ด ๏ปฟ,
๋ฌดํดํ ์ง์๋ฅผ ๊ฑฐ๋ถํ๋ ๊ฒฝ์ฐ์์ hidden state๋ฅผ ํ๊ท ๋ด์ด ๏ปฟ๋ฅผ ๊ตฌํจ
- ๊ทธ๋ฆฌ๊ณ ์ ํดํ ์ง์๋ฅผ ์์ฉํ๋ ๊ฒฝ์ฐ์ hidden state, ๋ฌดํดํ ์ง์๋ฅผ ๊ฑฐ๋ถํ๋ ๊ฒฝ์ฐ์ hidden state๊ฐ ๏ปฟ์ ๊ฐ๊น์ด์ง, ๏ปฟ์ ๊ฐ๊น์ด์ง ์ฝ์ฌ์ธ ์ ์ฌ๋๋ก ๊ฒฐ์
- ์ ํด์ฑ์ด ๊ฐ๊ณ ๊ฑฐ๋ถ ์ฌ๋ถ๋ ๋ค๋ฅธ๋ฐ ๋น์ทํ ํด๋ฌ์คํฐ โ ์ ํด์ฑ์ ์ธ์ํ๋ค!
- ์ ํด์ฑ์ด ๋ค๋ฅธ๋ฐ ๊ฑฐ๋ถ ์ฌ๋ถ๋ ๋น์ทํ ํด๋ฌ์คํฐ โ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ์ธ์ํ๋ค!
- ๋ชจ๋ ๋ชจ๋ธ, ๋ชจ๋ ๋ ์ด์ด์์, ๏ปฟ๋ ์ ํด์ฑ์ด ํด๋ฌ์คํฐ๋ง์ ๋ ๊ฒฐ์ ์ ์ด๊ณ , ๏ปฟ๋ ๊ฑฐ๋ถ ์ฌ๋ถ๊ฐ ํด๋ฌ์คํฐ๋ง์ ๋ ๊ฒฐ์ ์ ์ธ ๊ฒฝํฅ์ ๋ณด์
- ๏ปฟ์๋ ์ ํด์ฑ์ ์ธ์ฝ๋ฉํ๊ณ , ๏ปฟ์๋ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ์ธ์ฝ๋ฉํ๋ค! (๊ฐ์ค ๋ง์)
Correlation between beliefs of harmfulness and refusal
- ์ ํดํ instruction, ๋ฌดํดํ instruction์์ ๏ปฟ์ hidden state๋ฅผ ํด๋ฌ์คํฐ๋ง ํด ์ค์ฌ์ ๏ปฟ, ๏ปฟ๋ก ์ ์ํ๊ณ , ๋ ์ค ๋ชจ๋ ๋ ์ด์ด์ ๊ฑธ์ณ hidden state๊ฐ ์ ํดํ instruction์ ๊ฐ๊น์ด ์ง ๋ฌดํดํ instruction์ ๊ฐ๊น์ด ์ง์ ๋ํด ๏ปฟ ์ ์
- ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฑฐ๋ถ๋ instruction, ์์ฉ๋ instruction์์ ๏ปฟ์ hidden state๋ฅผ ๋ฐํ์ผ๋ก ๏ปฟ ์ ์
- ๏ปฟ, ๏ปฟ๋ ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ์ ๋ํ ๋ฏฟ์(์๊ฐ)์!
- ๋ฐ์ดํฐ์
์์ ๊ฐ ๋ฒ์ฃผ์ ํด๋นํ๋ instruction์ ๊ฐ์ง๊ณ ํ
์คํธํด๋ณด๋ ์ค์ ๋ก ๊ทธ๊ฒ ์ ์๋ํจ
- ๊ฑฐ๋ถํ๋ ์ ๋ค์ ๏ปฟ๊ฐ 0๋ณด๋ค ํฌ๊ณ , ์ ํด์ฑ์ด ์๋ ์ ๋ค์ ๏ปฟ๊ฐ 0๋ณด๋ค ์์
Eliciting refusal with harmfulness directions
- ๋ฒกํฐ ๊ณต๊ฐ์์ ์ ํด์ฑ์ ํด๋นํ๋ ๋ฒกํฐ๋ฅผ ํด๋ฌ์คํฐ ์ค์ฌ์ ์ฐจ์ด๋ก ๊ตฌํจ
- ๏ปฟ
- ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฑฐ๋ถ์ฑ ๋ฐฉํฅ์ ๋ฒกํฐ๋ ์ถ์ถํจ
- ๏ปฟ
- ๊ฐ ๋ ์ด์ด์์ ๏ปฟ, ๏ปฟ์ ์ ํด์ฑ, ๊ฑฐ๋ถ์ฑ ๋ฒกํฐ๋ฅผ ๋ํด(Steering) ๋ชจ๋ธ์ ํ๋ ๋ณํ ๊ด์ฐฐ
- ๋ฌดํดํ instruction์ ๋ํด, ์ ํด์ฑ์ ์ถ๊ฐํ๋ ๊ฑฐ๋ถ์ฑ์ ์ถ๊ฐํ๋ refusal rate์ด ์ค๋ฅด๊ณ , ํนํ ์ค๊ฐ ๋ ์ด์ด์์ ํจ๊ณผ์ ์
Causally separating the harmfulness direction and the refusal direction
- ์ ํด์ฑ, ๊ฑฐ๋ถ์ฑ์ ์ถ๊ฐํ์ ๋, ๋ชจ๋ธ ๋ด๋ถ์ ์๊ฐ์ ์์๋ด๊ธฐ ์ํด, ๋ฌดํดํ instruction์ ๋ํด No๋ฅผ ๋๋ตํด์ผ ํ๋ task๋ก ์คํ
- ๊ทธ๋ฅ No๋ฅผ ํ๋๊ฑด์ง(๊ฑฐ๋ถ์ฑ), ์ ํด์ฑ์ ํ๋จํ๊ณ No, Yes๋ฅผ ํ๋๊ฑด์ง ์์๋ณด๊ธฐ ์ํจ!
- ์ฌ๊ธฐ์ No๋ฅผ ๋๋ตํ๋ฉด(๋ฌดํดํ๋ค๊ณ ์๊ฐํ๋ฉด) ๊ทธ๊ฑธ refusal rate์ ๋ฐ์
- refusal rate๊ฐ ๋๋ค โ ์ด๊ฑด ๋ฌดํดํ๋ค! (๋ชจ๋ธ ์๊ฐ)
- (a)
- ์ ํด์ฑ ๋ฐฉํฅ์ผ๋ก steeringํ๋ฉด, ๋ชจ๋ธ๋ ์ ํดํ๋ค๊ณ ์๊ฐํ๊ฒ ๋จ!(์ฃผํฉ์)
- ๊ฑฐ๋ถ์ฑ์ ๋์ด๋ฉด No๋ฅผ ๋ง์ด ๋งํ๊ณ , ๋ฎ์ถ๋ฉด Certainly๋ฅผ ๋ ๋งํ๊ฒ ๋จ
- (b)
- ์ ํด์ฑ ๋ฐ๋๋ฐฉํฅ์ผ๋ก steeringํ๋ฉด ๋ชจ๋ธ์ด No๋ผ๊ณ ๋งํ๋ ๋น์จ์ด ์ฆ๊ฐํจ(์ฃผํฉ์)
- ๊ฑฐ๋ถ์ฑ์ ๋ฎ์ถ๋ฉด Certainly ๋ง ๋งํจ(ํ๋์)
- ์๋ต์ ๋ฐ์ ์์ผฐ๋๋(๋ฌดํดํ๊ฑฐ์ ๋ํด NO๋ผ๊ณ ๋งํ๊ธฐ), ์ ํด์ฑ๊ณผ ์์ฉ์ฑ์ด ๋น์ทํ ์ํฅ์ ๋ณด์!
- ๋ชจ๋ธ์ ์ ํด์ฑ, ๊ฑฐ๋ถ์ฑ์ ๋ํด ๋ฐ๋ก ์๊ฐํ๊ณ ์๊ณ , ๊ฑฐ๋ถ์ฑ์ ๊ทธ๋ฅ No, Yes ๋ง ํ๋จํ๋ ์ ์
Analyzing Jailbreak via Harmfulness
- ๊ฐ jailbreak method์ ๋ํด ๏ปฟ, ๏ปฟ ๋ถ์
- ๊ณต๊ฒฉ๋ค์ refuse์ ๋ํด ๋ฎ์ถ์ง๋ง, template์ด๋ ์ผ๋ถ persuasion์ ์ ํด์ฑ๊น์ง ์์ด์ง๋ ๋ชปํจ
- ์ ๋ง๋ persuasion์ด ์ง์ง ์น๋ช ์ ์ธ๋ฏ..?
Developing a Latent Guard Model with Harmfulness Representations
- ๏ปฟ์ด ์์๋ฉด ์์ฉ, ์์๋ฉด ๊ฑฐ๋ถํ๋ ๊ฐ๋จํ ๋ถ๋ฅ๊ธฐ latent guard ์ ์
- ์์ฃผ ๊ฐ๋จํ๊ณ , ์์ฑ ์ ์ ์ ์ ์์(๋ด๋ถ์ hidden state๋ก ํ๋จํด์)
- ๊ฒฐ๊ณผ๋ fine-tuned llama guard 3๋ณด๋ค ์ํจ
- qwen 3๋ template ๊ณต๊ฒฉ์ ๋ํด ์ ํด์ฑ์ ์ ๋๋ก ํ์ตํ์ง ๋ชปํ๋ฏ?
- ๋ชจ๋ธ๋ค์ ์์์ ์ ๋์ ์ธ data๋ก ํ์ต์ํค๋ฉด ์ ๋ฌด๋์ง๋๋ฐ, ์ค์ ๋ก ๋ด๋ถ์์์ ์ ํด์ฑ์ ๋ํด์๋ ์ํฅ์ ํฌ๊ฒ ์ฃผ์ง ์์
- latent guard๋ ์ ํด์ฑ์ ๋ํ ๋ชจ๋ธ ๋ด๋ถ ์๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฐ fine-tuning ๊ณต๊ฒฉ์๋ ๊ฒฌ๊ณ ํจ!










