From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๊ณ๋์ด๋ฐฅ | watermarking ์ฐ๊ตฌ๋ ์ถ์์ ์ด๋ผ๊ณ ์๊ฐํ๋๋ฐ (์ด๋ป๊ฒ ํ๊ฐํ๋์ง, ์ด๋์ ํ์ฉํ ์ง), ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ถ๋ถ์ ์ ์ ๋ฆฌํด์ค ๊ฒ ๊ฐ์. ๊ทผ๋ฐ TPR=1.0์ธ์ง 0.98์ธ์ง๊ฐ ๊ทธ๋ ๊ฒ ์ค์ํ ๊น? ๊ทธ์ ๋ ๋ ๋ฒจ์์๋ ์๋ฌธ์ ํ์ง์ ์์์ํค์ง ์๋ ๊ฒ ๋ ์ค์ํ ๊ฑฐ ๊ฐ์๋ฐ! | 3.2 |
| ๋งน๊ตฌ | watermarking์ด ์ ์ ์ค์ํด์ง๋ค๊ณ ์๊ฐํจ. ์ด ์ฐ๊ตฌ๋ง ๋ณด๋ฉด wartermarking ์ฐ๊ตฌ๊ฐ ๋๋๊ฐ๋ ๊ฒ์ฒ๋ผ ๋๊ปด์ง ์ ์์ ๊ฒ ๊ฐ์. ๋ฐฉ๋ฒ ์์ด๋์ด ์์ฒด๋ ์์ฒญ ์๋กญ์ง๋ ์์ ๊ฒ ๊ฐ์๋, ์ํธ๋กํผ๋ฅผ ํ์ฉํ๋ ๋ฑ ๊ฐ๊ฒฐํ๊ฒ ์ข์ ๋ฐฉ๋ฒ์ธ ๊ฒ ๊ฐ๋ค. | 4.0 |
| ๊ตญ๋ฐฅ | ์ด ๋
ผ๋ฌธ์์ ๊ฐ์กฐํ๋๊ฑฐ๋ logit ๊ธฐ๋ฐ๊ณผ sampling ๊ธฐ๋ฐ์ ๊ฒฐํฉํด์ trade-off๋ฅผ ์ค์ด๊ฒ ๋ค์ธ๊ฑฐ๊ฐ์๋ฐ... ์ด์ ๋ํ ์์ด๋์ด๋ ์์ฃผ ๊ด์ฐฎ์! ๊ทผ๋ฐ ์คํ ๊ฒฐ๊ณผ์์ ์ธ์์ ์ธ๊ฑฐ๋ robustness์ธ๋ฏ. ์ด๊ฑธ ๊ฐ์กฐํ๋ฉด ์ฌ์ค watermark detection result ๊ฒฐ๊ณผ๊ฐ ์ด๋ป๋ ์๊ด์์๊ฑฐ๊ฐ์๋ฐ ์์ ๋ฐฉ์์ด ์ฝ๊ฐ ์์ฝ๋ค? | 4.3 |
| ํผ์ | Logit ๊ธฐ๋ฐ ๋ฐ Sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ์ ํํด์ ์๋ณธ logit์ด๋ ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ํผ์์ ์ต๋ํ ์ค์ด๊ฒ ๋ค๋ ์์ด๋์ด๋ ์ข์ ๊ฒ ๊ฐ์. ์ํฐ๋งํน ๊ณต๊ฒฉ์ ์ธ๊ธํ๋๋ฐ, ์ด ๊ณต๊ฒฉ์ ๋ํ ๋ฐฉ์ด์ฑ์ด ์ผ๋ง๋ ๋๋์ง ์ฆ๋ช ์ด ์์์ผ๋ฉด ํจ. | 4.0 |
| ํ๋ฒ๊ฑฐ | ์ํฐ๋งํน์ ๊ฒฐ๊ตญ ์์ฑ๋ ํ ์คํธ์ ์ ํธ๊ฐ ๋จ๋ ๋ฐฉ์์ด๋ผ, ๊ณต๊ฒฉ์ํ๋ฉด ์ฝ๊ฒ ํผ์๋ ๊ฒ ๊ฐ๋ค๊ณ ์๊ฐํ๋๋ฐ, ๊ณต๊ฒฉ์๋ ํ์ง๋ฅผ ์ ์งํ๋ค๋ ์ ์ด ๋๋๋ค. ์ฌ๋ด์ด๊ธดํ๋ฐ sns์ ai ์์์ด ์์ฆ ํ์ ์น๊ณ ์๋๋ฐ ์ํฐ๋งํน์ด๋ ์ถ์ฒ๋ฅผ ํ๋ซํผ ์ฐจ์์์๋ ์ง ๊ฐํ๊ฒ ์ ์ฉํ์ผ๋ฉด ์ข๊ฒ ์. | 3.8 |
| ์นํจ | watermark ๊ด๋ จ ๋ ผ๋ฌธ์ ์ฒ์์ด๋ผ introduction์ ๋ชน์ ์ฌ๋ฐ๊ฒ ์ฝ์๋ค. ์ด๋ฐ ์ฐ๊ตฌ๋ค์ด ๋ง์ด ๋์์ผ๋ฉด ์ข๊ฒ ๋ค. ์๋ง ์ํฐ๋งํฌ ๊ด๋ จ ๋ถ์ผ๋ openai์ฒ๋ผ ์ ์ ํ๋ ํ์ฌ๊ฐ ๋ผ๋์ ๋ฒ์ง ์์๊น? | 4 |
| ํ๋ธ๋ฆฌ์ฆ | ์ด๋ค ์ํธ๋กํผ๊ฐ ๋ฎ์ ๋ ์ด๋ค ์ํฐ๋งํน ๋ฐฉ๋ฒ์ด ํ ์คํธ ํ์ง์ ์ํฅ ๋ํ๋ค, ์ด๊ฑด ์๊ฒ ๋๋ฐ ์ด๋ฐ ์์ผ๋ก ํ์ด๋ธ๋ฆฌ๋ํ๊ฒ ์ํฐ๋งํนํ๋ ๊ฒ ์ํฐ๋งํน ์ฑ๋ฅ๋ ๋ ์ข๋ค๋ ๊ฑด ์ ๊ธฐํ๋ค. ํ ํฐ๋ง๋ค ๋ค๋ฅด๊ฒ ํ๋๊น ์ด๋ค ์ํฐ๋งํน ์ ํํ๋์ง ์๊ธฐ ์ด๋ ต๊ณ ๊ทธ๊ฒ ๊ณง ์ํฐ๋งํน ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฑด๊ฐ? | 3.6 |
TL; DR
๋ ๊ฐ์ง ๊ธฐ์ค์ ์ํธ๋กํผ ๊ฐ์ ๋ฐ๋ผ logits ๊ธฐ๋ฐ๊ณผ sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ์ ํ์ ์ผ๋ก ์ ์ฉํ๋ Symbiotic Watermarking ํ๋ ์์ํฌ๋ฅผ ์ ์
Summary
- From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models, ACLโ25 | Link
- Citation: 2
Introduction
Background
Exceptional Capabilities of LLMs
- LLM์ ์ฐฝ์์ด๋ ๊ธ์ฐ๊ธฐ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฐ์ด๊ณ ์์ผ๋ฉฐ, ์ ๊ทผ์ฑ์ด ๋์์ ธ ๋๊ตฌ๋ ์ฝ๊ฒ AI ์์ฑ ์ฝํ ์ธ ๋ฅผ ๋ง๋ค๊ฑฐ๋ ์ฌ์ฉ์ด ๊ฐ๋ฅํจ
- ํ์ง๋ง LLM ํ์ฐ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ์ํ๋ ์ฆ๊ฐํจ:
- ์ ์ฑ ์ฝํ ์ธ ์์ฑ
- ์ง์ ์ฌ์ฐ๊ถ ์นจํด
- ํ์์ ๋ณด ๋ฐ ์ฒ ์ฒ๊ฐ ๋ถ๋ถ๋ช ํ ์ฝํ ์ธ ๋ฌธ์
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด watermarking์ด ๋ฑ์ฅํจ
- LLM ์์ฑ ์ฝํ ์ธ ์ traceability, authenticity, accountability๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํ ๊ธฐ์
LLM Watermarking
- ๋ชจ๋ธ์ด ์์ฑํ ํ
์คํธ ์์ ์ฌ๋์ด ๋์น์ฑ๊ธฐ ์ด๋ ค์ด โํต๊ณ์ ํจํดโ์ ์ฌ์ด, ๋์ค์ ๊ทธ ํ
์คํธ๊ฐ ํน์ LLM์์ ์์ฑ๋์๋์ง๋ฅผ ํ๋ณํ๊ธฐ ์ํ ๊ธฐ์
- ํ๋ฅ ์ ์ผ๋ก ์ฆ๋ช ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ฉฐ, ์ถ์ฒ๋ฅผ ์ฆ๋ช ํ๊ธฐ ์ํจ
- Watermarking ์์ด๋์ด
- LLM์ ๋ค์ token์ ํ๋ฅ ๋ถํฌ๋ก ์ ํํ๋๋ฐ, ์ํฐ๋งํน์ ์ด ๋ถํฌ๋ฅผ ์์ฃผ ๋ฏธ์ธํ๊ฒ ์กฐ์ํ์ฌ ํน์ ํ ํฐ ์งํฉ์ด ํต๊ณ์ ์ผ๋ก ๋ ์์ฃผ ๋์ค๋๋ก ํจ
- ์๋ฏธ๋ ์ ์งํ ์ฑ ํต๊ณ์ ํธํฅ๋ง ๋ฏธ์ธํ๊ฒ ์ฝ์
โ ์ด ํจํด์ด ๋์ ๋๋ฉด ๊ฒ์ถ์ด ๊ฐ๋ฅํด์ง
Watermarking Detail
- ์ํฐ๋งํน์ ํ๋๋ผ๋ ๋ฌธ์ฅ์ ์๋ฏธ๋ ๋ฌ๋ผ์ง์ง ์์
- LLM์ ํ๋ฅ ์ํ๋ง์. ๊ฐ์ ํ๋กฌํํธ๋๋ผ๋ ์ถ๋ ฅ์ด ๋งค๋ฒ ๋ค๋ฆ
A sentence about cats. โ "Cats are lovely animals." โ "Cats are very cute." โ "Cats are friendly pets."
- ์ํฐ๋งํน์ ์๋์ ์ถ๋ ฅํ๋ฅ (๋๋ค์ฑ)์์ ๋ฐฉํฅ๋ง ์ด์ง ๋ฐ์ด์ฃผ๋ ๊ฒ
ํ ํฐ ์๋์ ์ถ๋ ฅ ํ๋ฅ ์ํฐ๋งํฌ ํ cat 0.30 0.31 pet 0.27 0.28 dog 0.28 0.26 animal 0.15 0.15
โ ๋ฌธ์ฅ์ ์๋ฏธ๋ ๊นจ์ง์ง ์์
- LLM์ ํ๋ฅ ์ํ๋ง์. ๊ฐ์ ํ๋กฌํํธ๋๋ผ๋ ์ถ๋ ฅ์ด ๋งค๋ฒ ๋ค๋ฆ
- ์ํฐ๋งํน โํ์งโ๋ ํ ํ ํฐ์ด ์๋ โ๋์ ํต๊ณโ๋ก ์ด๋ฃจ์ด์ง
- e.g., ๋์ ๋์ง๊ธฐ
- ์ผ๋ฐ ๋์ : ์๋ฉด 50%, ๋ท๋ฉด 50%
- ์ํฐ๋งํฌ ํ ๋์ : ์๋ฉด 52%, ๋ท๋ฉด 48%
โ ํ๋ฒ ๋์ก์ ๋๋ ์ฐจ์ด๋ฅผ ๋ชจ๋ฅด์ง๋ง, 1000๋ฒ ๋์ง๋ฉด ๊ฐ์ง ๊ฐ๋ฅ
- e.g., ๋์ ๋์ง๊ธฐ
- ์ํฐ๋งํน์ ํ๋๋ผ๋ ๋ฌธ์ฅ์ ์๋ฏธ๋ ๋ฌ๋ผ์ง์ง ์์
- LLM์ ๋ค์ token์ ํ๋ฅ ๋ถํฌ๋ก ์ ํํ๋๋ฐ, ์ํฐ๋งํน์ ์ด ๋ถํฌ๋ฅผ ์์ฃผ ๋ฏธ์ธํ๊ฒ ์กฐ์ํ์ฌ ํน์ ํ ํฐ ์งํฉ์ด ํต๊ณ์ ์ผ๋ก ๋ ์์ฃผ ๋์ค๋๋ก ํจ
- Watermarking ๊ธฐ์กด ์ฐ๊ตฌ
- Logits-based Watermarking
- ํ ํฐ ํ๋ฅ ๋ถํฌ์์ ์ผ๋ถ ํ ํฐ ์งํฉ์ logit์ ๋ฏธ์ธํ๊ฒ ์กฐ์ ํด, ํต๊ณ์ ์ผ๋ก ํน์ ํจํด์ด ๋ํ๋๋๋ก ์ํฐ๋งํฌ๋ฅผ ์ฝ์
ํ๋ ๋ฐฉ์(e.g., KGW, Unigram)
- Next token ํ๋ฅ ๋ถํฌ์์ vocabulary๋ฅผ ๋ ์งํฉ(red/green)์ผ๋ก ๋๋ ๋ค, green ํ ํฐ์ logit์ ์ด์ง ์ฌ๋ ค ํต๊ณ์ ์ผ๋ก ๋ ์์ฃผ ์ ํ๋๋๋ก ํจ
Logit-based ์
- ํ๋ฅ ์ ์ด์ง ๋ฐ๊ฟ์ ํน์ ๋จ์ด๋ค์ด ๋ ์์ฃผ ๋ฝํ๊ฒ ๋ง๋ค์
ํ ํฐ ์๋์ ์ถ๋ ฅ ํ๋ฅ ์ํฐ๋งํฌ ํ cat 0.30 0.31 pet 0.27 0.28 dog 0.28 0.26 animal 0.15 0.15
- ํ๋ฅ ์ ์ด์ง ๋ฐ๊ฟ์ ํน์ ๋จ์ด๋ค์ด ๋ ์์ฃผ ๋ฝํ๊ฒ ๋ง๋ค์
KGW ๋ฐฉ์
- Vocabulary๋ฅผ red / green ๋ฆฌ์คํธ๋ก ๋ถํ
- ์ด์ k๊ฐ ํ ํฐ + ์ํฐ๋งํฌ ํค ฮพ โ ํด์
- green ํ ํฐ logit์ ฮด bias๋ฅผ ๋ํจ
โ green ํ ํฐ์ด ๋ ์์ฃผ ์ ํ๋จ
- ํ ํฐ ํ๋ฅ ๋ถํฌ์์ ์ผ๋ถ ํ ํฐ ์งํฉ์ logit์ ๋ฏธ์ธํ๊ฒ ์กฐ์ ํด, ํต๊ณ์ ์ผ๋ก ํน์ ํจํด์ด ๋ํ๋๋๋ก ์ํฐ๋งํฌ๋ฅผ ์ฝ์
ํ๋ ๋ฐฉ์(e.g., KGW, Unigram)
- Sampling-based watermarking
- ํ๋ฅ ๋ถํฌ๋ ์ ์งํ ์ฑ, ํ ํฐ์ ์ ํํ๋ ์ํ๋ง ๊ท์น์ ์กฐ์ํด ์ํฐ๋งํฌ ์ ํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ์(e.g., AAR, GumbelSoft)
- ์ง์ ์ต์ ์ํ๋ง, tournament sampling, contrastive decoding ๋ฑ
Sampling-based ์
- ํ๋ฅ ์ ์ ์งํ๊ณ , ๋ฝ๋ ๊ท์น๋ง ๋ฐ๊ฟ์ ํจํด์ ๋ง๋ค์
- ์ํ๋ง ๊ท์น์ โ๋์ r์ด 0.5 ์ด์์ด๋ฉด cat/pet ์ค์์๋ง ๋ฝ๊ธฐโ์ฒ๋ผ ์กฐ์
โ ์ ํ ๊ท์น์ด ๋ฐ๋์ด ํจํด์ด ์๊น
ํ ํฐ ์ถ๋ ฅ ํ๋ฅ ์ ๊ทธ๋๋ก cat 0.30 pet 0.27 dog 0.28 animal 0.15
- ํ๋ฅ ๋ถํฌ๋ ์ ์งํ ์ฑ, ํ ํฐ์ ์ ํํ๋ ์ํ๋ง ๊ท์น์ ์กฐ์ํด ์ํฐ๋งํฌ ์ ํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ์(e.g., AAR, GumbelSoft)
- Logits-based Watermarking
Motivation
๊ธฐ์กด watermarking์ 3๊ฐ์ง ํ๊ณ:
- ๋ค์ํ๊ณ ์ ๋์ (adversarial) ํ๊ฒฝ์์ ๊ธฐ์กด ์ํฐ๋งํน์ด ์ ํตํ์ง ์์
- ์ค์ ํ๊ฒฝ์ ๊ณต๊ฒฉ์(ํจ๋ฌํ๋ ์ด์ฆ, ์ฌ์์ฑ ๋ฑ)๊ฐ ์๊ณ ์กฐ๊ฑด๋ ๋ค์ํจ
โ ํ์ฌ ์ํฐ๋งํน์ ๊ทผ๋ณธ์ ํ๊ณ๊ฐ ์์
- Robustness โ Text Quality Trade off
<Fig 1>- ์ํฐ๋งํฌ๋ฅผ ๊ฐํ๊ฒ ์ฌ์ผ๋ฉด
โ ํ ์คํธ ์ ์ฐฝ์ฑ/ ์์ฐ์ค๋ฌ์/ ๋ค์์ฑ์ด ๋จ์ด์ง
- ํ
์คํธ ํ์ง์ ์ฐ์ ํ๋ฉด
โ ๊ณต๊ฒฉ์ ์ทจ์ฝํด์ ธ ์ํฐ๋งํฌ๊ฐ ์ฝ๊ฒ ๊นจ์ง
โ ์ํฐ๋งํฌ๋ฅผ ๊ฐํ๊ฒ ํ๋ฉด ๊ธ์ด ์ด์ํด์ง๊ณ , ๊ธ์ ์์ฐ์ค๋ฝ๊ฒ ํ๋ฉด ์ํฐ๋งํฌ๊ฐ ์ฝํด์ง
- ์ํฐ๋งํฌ๋ฅผ ๊ฐํ๊ฒ ์ฌ์ผ๋ฉด
- Security Issue
- ํนํ KGW ๊ณ์ด ๊ฐ์ ์ผ๋ถ ๋ฐฉ์์ ๋น๋ ๋ถ์์ผ๋ก ๊ท์น์ ์ญ์ถ์ ํ๊ฑฐ๋ ์ํฐ๋งํฌ๋ฅผ โํ์ณ์โ ์์กฐ(spoof)ํ๋ watermark stealing ๊ณต๊ฒฉ์ ์ทจ์ฝํจ
- KGW: logits-based ์ํฐ๋งํน ๊ธฐ๋ฒ
โ ๊ณต๊ฒฉ์๊ฐ ์ํฐ๋งํน ๊ท์น์ ํ์ต/์ถ์ ํด์ โ์ํฐ๋งํฌ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๋ ํ ์คํธโ๋ฅผ ๋ง๋ค ์๋ ์์
- ํนํ KGW ๊ณ์ด ๊ฐ์ ์ผ๋ถ ๋ฐฉ์์ ๋น๋ ๋ถ์์ผ๋ก ๊ท์น์ ์ญ์ถ์ ํ๊ฑฐ๋ ์ํฐ๋งํฌ๋ฅผ โํ์ณ์โ ์์กฐ(spoof)ํ๋ watermark stealing ๊ณต๊ฒฉ์ ์ทจ์ฝํจ
- Logits ๊ธฐ๋ฐ/ Sampling ๊ธฐ๋ฐ ๋ชจ๋ ๊ณ ์ ํ trade-off๋ฅผ ๊ฐ๊ณ ์์ด์ โ์ด๊ฒ ์ ๋ต์ด๋คโ๋ผ๊ณ ํ ๋จ์ผ ์์น์ด ์์ง ์์
โ ๋ ๊ณ์ด์ ๊ฒฐํฉํ์!
Contribution
- Symbiotic Watermarking Framework ์ ์
- logits ๊ธฐ๋ฐ๊ณผ sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ๊ฒฐํฉํ๋ Series, Parallel, Hybrid ์ธ ๊ฐ์ง ์ ๋ต์ ํตํฉ์ ์ผ๋ก ์ ์
- Entropy ๊ธฐ๋ฐ Adaptive Hybrid ์ ๋ต: Token Entropy์ Semantic Entropy๋ฅผ ์ด์ฉํด ํ ํฐ๋ณ๋ก ์ต์ ์ ์ํฐ๋งํน ๋ฐฉ์์ ์๋ ์ ํํ๋ Hybrid symbiotic watermarking์ ์ ์
- ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น SOTA ์ฑ๋ฅ ๋ฌ์ฑ
- ์ํฐ๋งํน ํ์ง ์ฑ๋ฅ์ ํฅ์, ํ ์คํธ ํ์ง ์ ํ๋ฅผ ์ต์ํ, ์ฌ๋ฌ ํ์ค์ธ๊ณ ๊ณต๊ฒฉ์ ๋ํ ๊ฐ์ธ์ฑ์ ์ ์ฆํจ
Methods
- ๊ฒฐํฉ ๋ฐฉ์์ ๋ฐ๋ผ ์ธ๊ฐ์ง ๋ฐฉ์์ด ์์
- Series
- Parallel
- Hybrid* (โ ๋ ผ๋ฌธ์ด ์ฃผ์ฅํ๋ ๋ฉ์ธ ๋ฐฉ๋ฒ)
1. Series Symbiotic Watermark
Logits ๊ธฐ๋ฐ ์ํฐ๋งํน๊ณผ Sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ์์๋๋ก ๋ชจ๋ ์ ์ฉํ๋ ๋ฐฉ์
- ํ ํ ํฐ ์์ฑ ๊ณผ์ ์์ ์ํฐ๋งํฌ๋ฅผ ๋๋ฒ ์ฌ๋ ๊ตฌ์กฐ
- ์ ์ฉ ๊ณผ์
- ๋ชจ๋ธ์ด ์๋ logits ๏ปฟ ์์ฑํ,
- Logits-based watermark ๏ปฟ ์ ์ฉ โ logits ๋ถํฌ ์กฐ์
- softmax๋ก ํ๋ฅ ๋ถํฌ ๋ณํ
- Sampling-based watermark ๏ปฟ ์ ์ฉ โ ์ํ๋ง ๊ท์น ์กฐ์
- ์ต์ข ํ ํฐ ๏ปฟ ์์ฑ
- ์ฅ์ : ์ํฐ๋งํฌ ์ ํธ๋ ๊ฐ์ฅ ๊ฐํจ
- ํ๊ณ
- ํ๋ฅ ๋ถํฌ๋ ๋ฐ๊พธ๊ณ ์ํ๋ง ๊ท์น๋ ๋ฐ๊พธ๋ฏ๋ก ํ ์คํธ ํ์ง์ด ์ ํ๋ ์ ์์
- ๊ฐ์ ํ๋กฌํํธ์์ ์ถ๋ ฅ ๋ค์์ฑ์ด ์ค์ด๋ฆ
2. Parallel Symbiotic Watermark
Logits ๊ธฐ๋ฐ๊ณผ Sampling ๊ธฐ๋ฐ ์ํฐ๋งํฌ๋ฅผ ์๋ก ๊ฐ์ญ ์์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ฝ์
- ๋ ์ํฐ๋งํฌ๊ฐ ์ง์ ์ถฉ๋ํ์ง ์์ ํ์ง ์ ํ๊ฐ ์ํ๋จ
- ์ ์ฉ ๊ณผ์
- LM์ด ํ ํฐ์ ์์ฑํ ๋, ํ ํฐ ์์น์ ๋ฐ๋ผ ์ ์ฉ ๋ฐฉ๋ฒ์ ๋ฒ๊ฐ์ ์ฌ์ฉ
- ์ง์ ์์น: logits ๊ธฐ๋ฐ ์ํฐ๋งํน ๏ปฟ ์ ์ฉ
- ํ์ ์์น: sampling ๊ธฐ๋ฐ ์ํฐ๋งํน ๏ปฟ ์ ์ฉ
- LM์ด ํ ํฐ์ ์์ฑํ ๋, ํ ํฐ ์์น์ ๋ฐ๋ผ ์ ์ฉ ๋ฐฉ๋ฒ์ ๋ฒ๊ฐ์ ์ฌ์ฉ
- ์ฅ์ : ๋ ์ํฐ๋งํฌ๊ฐ ์ง์ ์ถฉ๋ํ์ง ์์ ํ์ง ์ ํ ์ํ
- ํ๊ณ: ํ ํฐ ์ํฉ์ ๋ฐ๋ผ ์ต์ ๋ฐฉ์์ ๊ณ ๋ฅผ ์ ์์
3. Hybrid Symbiotic Watermark
Logit ๊ธฐ๋ฐ ์ํฐ๋งํฌ ํน์ Sampling ๊ธฐ๋ฐ ์ํฐ๋งํฌ ์ฌ์ฉํ ์ง๋ฅผ Entropy ๊ธฐ๋ฐ์ผ๋ก ์๋ ๊ฒฐ์ ํ๋ ์ ์ํ ๋ฐฉ์
- Hybrid ์์๋ ๋ ๊ฐ์ง์ ๊ธฐ์ค์ ์ฌ์ฉํจ
- Token Entropy (TE)
โ์ด ์์ ์์ ๋ค์ ํ ํฐ์ ์ผ๋ง๋ ํ์ ํ๊ณ ์๋๊ฐ?โ
- ๋ชจ๋ธ์ด ๋ค์์ ๋์ฌ ๋จ์ด๋ฅผ ์ผ๋ง๋ ์์ ์๊ฒ ํ๋๋ก ์ ํ๊ณ ์๋์ง, ์๋๋ฉด ์ฌ๋ฌ ํ๋ณด ์ค์์ ์ ๋งคํดํ๋์ง๋ฅผ ์์น๋ก ํํํ ๊ฒ
- Token Entropy ํด์
- Low token Entropy
The capital of France is ___ => next token ํ๋ณด: Paris:0.85 Lyon 0.05 city:0.03 ...- ๋ชจ๋ธ์ด Paris ๋ฅผ ๊ฑฐ์ ํ์ ์ค โ Token Entropy โ
- ์ด๋ logit ์ ๊ฑด๋๋ฆฌ๋ฉด ๋ฌธ์ฅ์ ์์ฐ์ค๋ฌ์์ด ๊นจ์ง ์ ์์
โ Logit ์ํฐ๋งํน์ ํผํด์ผ ํจ
- High Token Entropy
She felt very ___ => next token ํ๋ณด: happy:0.25 sad:0.23 tired:0.22 ...- ์ฌ๋ฌ ํ๋ณด๊ฐ ๋น์ท โ Token Entropy โ
- ๋ชจ๋ธ์ด ์ ๋งคํ ์ํ๋ผ, ์ด๋ค ํ ํฐ์ ๋ฝ์๋ ์์ฐ์ค๋ฌ์ ์ ์ง ๊ฐ๋ฅ
โ Logit ์ํฐ๋งํน์ ์ ์ฉํด๋ ํ์ง ์์ ์ ์
โ Token Entropy๊ฐ ๋์ ๋๋ง logits-based watermarking์ ์ ์ฉ
- Low token Entropy
- Semantic Entropy (SE)
โํ์ฌ ์์ ์์ top-k ํ๋ณด ํ ํฐ๋ค์ด ์๋ฏธ์ ์ผ๋ก ์ผ๋ง๋ ๋ค์ํ๊ฐ?โ
- ๊ณ์ฐ ๋ฐฉ๋ฒ
- top-k ํ ํฐ๋ค์ ์๋ฒ ๋ฉ์ ์ถ์ถ K-means๋ก ์๋ฏธ ํด๋ฌ์คํฐ๋ง
- Sementic Entropy ํด์
- Low Semantic Entropy
- top ํ๋ณด๋ค์ด ์๋ฏธ์ ์ผ๋ก ๋น์ทํ ๊ฒฝ์ฐ
- e.g., {happy, glad, pleased, joyful}
- ์ด๋ค ๊ฑธ ๊ณจ๋ผ๋ ์๋ฏธ๊ฐ ๊ฑฐ์ ๋์ผํ๊ธฐ ๋๋ฌธ์, sampling์ ๋ฐ๊ฟ๋ ๋ฌธ์ฅ ์๋ฏธ ์ ๊นจ์ง
โ Sampling watermark ์ ์ฉํด๋ ์์
- top ํ๋ณด๋ค์ด ์๋ฏธ์ ์ผ๋ก ๋น์ทํ ๊ฒฝ์ฐ
- High Semantic Entropy
- top ํ๋ณด๋ค์ด ์๋ฏธ์ ์ผ๋ก ๋งค์ฐ ๋ค๋ฆ
- e.g., {happy, angry, dead, finished}
- sampling ๋ฐ๊พธ๋ฉด ์๋ฏธ๊ฐ ํฌ๊ฒ ๋ฐ๋
โ Sampling watermark ์ํ
- top ํ๋ณด๋ค์ด ์๋ฏธ์ ์ผ๋ก ๋งค์ฐ ๋ค๋ฆ
โ Sementic Entropy ๊ฐ ๋ฎ์ ๋๋ง Sampling ์ํฐ๋งํฌ๋ฅผ ์ ์ฉ
- Low Semantic Entropy
- ๊ณ์ฐ ๋ฐฉ๋ฒ
- Token Entropy (TE)
Experiment
Setting
- Dataset: news-like C4 dataset, long-form OpenGen dataset
- Inserting Watermark
- ์๋ณธ ๋ฐ์ดํฐ์ ๋ํด์,
- ๋ง์ง๋ง 200 ํ ํฐ โ ์์ฐ ํ ์คํธ๋ก ์ ์ง
- ๊ทธ ์ ๋ถ๋ถ โ ํ๋กฌํํธ(prompt) ๋ก ์ฌ์ฉ
[ํ๋กฌํํธ ๋ถ๋ถ] + [์์ฐ ํ ์คํธ 200ํ ํฐ]
- ํ๋กฌํํธ๋ง LLM์ ๋ฃ์ด์ 200 ๏ปฟ 30 ํ ํฐ์ ์๋ก ์์ฑ
- ์ด ๊ตฌ๊ฐ์์ SymMark ์ํฐ๋งํน ์ ๋ต(Series / Parallel / Hybrid)์ ์ ์ฉ
- ์๋ณธ ๋ฐ์ดํฐ์ ๋ํด์,
- Models
- OPT ๊ณ์ด: OPT-6.7B, OPT-2.7B, OPT-1.3B
- LLaMA ๊ณ์ด: LLaMA3-8B-Instruct, LLaMA2-7B-chat-hf
- GPT ๊ณ์ด: GPT-J-6B
- Baselines
- Logits ๊ธฐ๋ฐ: KGW, Unigram, SWEET, EWD, DIP, Unbiased
- Sampling ๊ธฐ๋ฐ: AAR, EXP, ITS, GumbelSoft, SynthID
- Evaluation Metrics
- Detectability: TPR, TNR, Best F1 Score, AUC
- Robustness: AUROC curve ๊ธฐ๋ฐ์ผ๋ก threshold ๋ณํ์ ๋ฐ๋ฅธ FPRโTPR ๊ด๊ณ ํ๊ฐ
Results
Watermark Detection Results
- ๊ธฐ์กด ์ํฐ๋งํน ๋๋น ํ์ง ์ฑ๋ฅ์ ์ผ๋ง๋ ํฅ์์์ผฐ๋๊ฐ?
- Series: ๋ชจ๋ ๋ฐ์ดํฐ์
ยท๋ชจ๋ธ์์ TPR = 1.000 (SOTA) ๋ฌ์ฑ
- ํ์ง๋ง logits/ sampling์ ๋ชจ๋ ์ ์ฝํ๋ฏ๋ก ํ ์คํธ ํ์ง ์ ํ๊ฐ ๋จ์
- Parallel: ํ ํฐ๋น ํ๋์ ์ํฐ๋งํฌ๋ง ์ ์ฉํด๋ ์ถฉ๋ถํ ํ์ง ์ ํธ ํ๋ณด
โ ์ด์ค ์ํฐ๋งํน์ด ํญ์ ํ์ํ ๊ฒ์ ์๋
- Hybrid: ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ฐ ๋ชจ๋ธ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ
Text Quality
- SymMark ์ํฐ๋งํน์ด ํ ์คํธ ํ์ง์ ์ผ๋ง๋ ํผ์ํ๋์ง ํ๊ฐํ๊ณ ์ ํจ
Setting
- Task: 4 tasks์ ๋ํด ์คํ
- GM (Generation Metric): ํ์คํฌ ์ฑ๋ฅ ์ ์
- DROP: ์ํฐ๋งํน์ผ๋ก ์ธํ ์ฑ๋ฅ ๊ฐ์์จ
- Llama3-8B: ์ํฐ๋งํน ์๋ ์์ ์ฑ๋ฅ ๊ธฐ์ค
- Series: TPR/TNR ๋งค์ฐ ๋์ (ํ์ง๋ ๊ฐํจ) ํ์ง๋ง DROP์ด ์ฌ์ ํ ํผ
โ ํ์ง๋ ์ข์ง๋ง ํ์ง ์์ ํผ
- Hybrid: ๋ชจ๋ ํ์คํฌ์์ ๊ฐ์ฅ ์์ ์ฑ๋ฅ ์์ค, ๋์์ TPR/TNR๋ ๋งค์ฐ ๋์
โ ํ์ง ์ฑ๋ฅ๊ณผ ํ์คํฌ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ฅ ์ ์ ์ง
Robustness to Real-world Attacks
- ์ํฐ๋งํน์ด ์ค์ ํ๊ฒฝ ๊ณต๊ฒฉ(ํธ์ง, ๋ณต์ฌ, ๋ฒ์ญ, ํจ๋ฌํ๋ ์ด์ง) ํ์๋ ํ์ง๋๋์ง๋ฅผ ํ๊ฐ
Setting
- Attack: Editing, Copy-Paste, Back-Translation, Rephrasing
- AUROC curve๋ก ํ์ธํ๊ณ ์ ํจ; ๊ณก์ ์ด ์ผ์ชฝ ์์ ๊ฐ๊น์ธ์๋ก ์ข๊ณ , AUC๊ฐ ํด์๋ก ๊ฐ์ธํ ์ํฐ๋งํน
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ณต๊ฒฉ์ ๋ฐ๋ผ ๊ธ๊ฒฉํ ๋ฌด๋์ง๋ ์์์ ๋ณด์
- Hybrid (Ours-H): ๊ฑฐ์ ๋ชจ๋ ๊ณต๊ฒฉ์์ ์ต์์ ์์น
- ๋๋ถ๋ถ ๊ทธ๋ํ์์ AUC 0.98~, ๊ณต๊ฒฉ ์ข ๋ฅ๊ฐ ๋ฌ๋ผ๋ ์ฑ๋ฅ์ด ๊ฑฐ์ ์ ์ง๋จ













