A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| MNG | ๊ธฐ์กด ์ธ๋ฌ๋์ ํ๊ฐ ๋ฐฉ๋ฒ์ด ๊ฐ์ง ๋ฌธ์ ์ ์ ์ ์ง์ ๊ฒ ๊ฐ์. ์ด์ ๋ LLM์ ํ๊ฐํ๋ ๊ฒ์ ์์ด ๊ฒฐ๊ณผ๋ณด๋ค๋ ๊ณผ์ ๊น์ง ์ดํดํด๋ณด๋ ค๋ ๋ ธ๋ ฅ์ด ๋ง์ ๊ฒ ๊ฐ์. | 4 |
| ์ค์ฐจ์ฆ์ผ | LLM์ unlearning๊ณผ alignment๋ฅผ ํตํฉํ์ฌ ํ๋์ ํ๋ฅ ์ ๊ด์ ์ผ๋ก ๋ฐ๋ผ๋ณธ๋ค๋ ์ ์ด ์ ์ ํจ. ๋ํ ์ฌ๋ฌ๊ฐ์ ํ๊ฐ์งํ๋ฅผ ํตํด ์ ๊ตํ๊ฒ ์ธก์ ํ ์ ์๋ ๊ฒ ๊ฐ์. ์ด์ชฝ ๋ถ์ผ ๋ ผ๋ฌธ๋ค์ ์์ง ์ต์ํ์ง ์์ง๋ง, ์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์ ์ด๋ป๊ฒ ์ธก์ ํ๋ ค๋์ง๋ ํ๋์ ํฐ task์ธ๊ฒ ๊ฐ์. | 4 |
| 42REN | LLM์ ๊ธฐ์กด ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ฌธ์ ์ ์ด ์ ๋๋ฌ๋์๋ ๋ ผ๋ฌธ์. ํ ๋ฒ์ ์ถ๋ ฅ์ผ๋ก๋ LLM์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ธฐ ์ด๋ ค์ด ๋ถ๋ถ์ด ์๋๋ฐ, Unlearning์ด ์ ๋์๋์ง ํ๋ฅ ๋ถํฌ๋ฅผ ์งํ๋ก ํ์ฉํจ์ผ๋ก์จ ์ด ๋ฌธ์ ํด๊ฒฐ์ ๋ํ ์ค๋ง๋ฆฌ๊ฐ ๋ ๊ฒ ๊ฐ์. | 4 |
| ํ ๋ธ๋ฌ | Unlearning๊ณผ Alignment๋ ๊ต์งํฉ์ด ์๊ธด ํ์ง๋ง(๋ ผ๋ฌธ์์ ์ธ๊ธํ๋ safety ๊ด์ ) ํฌ๊ฒ ๋ดค์ ๋ ๋ชฉ์ ์ด ์ข ๋ค๋ฆ. ๋ ผ๋ฌธ์์๋ ๋ ์ฃผ์ ๋ฅผ ๋น์ทํ ์์ญ์์ ๋ค๋ฃจ๊ธด ํ์ง๋ง ํํํ ๋ ์ข ๋ specificํ๊ฒ ํํํด์ผ ํ์ง ์์๋ ํ๋ ์๊ฐ์ด ๋ฆ. ๋ชจ๋ธ ๋ด ์ง์์ ์์ฑ๋จ์์ ์ํ์ ์ผ๋ก ํ๊ฐํ๋ ๊ฒ์ ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ์. | 3.5 |
| ๊ฐ์ | ์ฐ๊ตฌ ๋๊ธฐ๊ฐ ๋ฐฉ๋ฒ๋ก ๊ณผ ์คํ๊น์ง ์ ์ด์ด์ง๋ ๋ฏํ๋ค. ์ํธ๋กํผ๋ฅผ ์กฐ์ ํด์ ๋ต๋ณ์ ๋๋ค์ฑ์ ์กฐ์ ํ๊ณ , temperature๋ฅผ ์ค์ค๋ก ์กฐ์ ํ ์ ์๊ฒ ํ๋ ๋ฐฉ์๋ ์๋ก์ ๋ค | 4 |
| ๋ฐฉ์ด๋ ๋ | ๊ฒฐ๊ตญ unlearning์ ๋ถํฌ๋ฅผ ๊ฑด๋ค์ฌ์ผ ํ๋ค๋ ์ ์ ๋ช ํํ๊ฒ ๊ผฌ์ง์ด๋ด๊ณ , ์ด๋ฅผ ์ํธ๋กํผ์ ์ ๋ชฉ์์ผ ๋ค์ํ ์งํ๋ก ์ ํ์ด๋ธ๋ฏ! ๊น๋ํ๊ณ ๊ตฐ๋๋๊ธฐ ์๋ ๋ ผ๋ฌธ์ด๋น | 4 |
| ์์ฐ | Unlearning๊ณผ Alignment๊ฐ โ์ํ์ง ์๋ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ค์ด๊ณ , ์ํ๋ ์์ญ์ ๋ถํฌ๋ ์ ์งํ์โ๋ผ๋ ๊ณตํต motivation์ ๊ฐ์ง๊ณ ์ํธ๋กํผ ์ต์ ํ๋ฅผ ์ํํ์ ์ด ์ธ์์ ์. 4๊ฐ์ง ํ๋ฅ ์งํ๋ ๊ต์๋๊ป์ ๋ณด๋ด์ฃผ์ leakage ๋ฌธ์ ๋ฅผ ๋ค๋ฃฐ ๋ ์ ์ฉํด๋ณผ ์ ์์ง ์์๊น? | 4 |
| ์ผํคํ ๋ฆฌ | ํ๋ฅ ๋ก ์ ์ผ๋ก ์ถ๋ ฅ์ ํ๋ค๋ฉด ํ๊ฐ ๋ํ ํ๋ฅ ๋ก ์ ์ผ๋ก ์ํ๋งํด์ผ๋๋ค๋ ์์ด๋์ด๊ฐ ์๋ก์ ๊ณ ์ค์ ๋ก ์ ๋ณด ์ ์ถ์ ์ค์ด๊ธฐ ์ํด ์ํธ๋กํผ์ ์จ๋๋ฅผ ์กฐ์ ํด์ ํ๋๊ฒ ์ธ์ ๊น์๋ ๋ ผ๋ฌธ. ๋ค๋ง alignment์ ๋ํ ์ค๋ช ์ด ๋ถ์กฑํด์ ๊ทธ๋ฅ ์ธ๋ฌ๋๋ง์ผ๋ก ๊ฐ์ด๋ ๋์ ๊ฒ ๊ฐ๋ค. | 3.5 |
TL; DR
LLM์ด ์ธ๋ฌ๋, ์ ๋ ฌ์ด ์ง์ง ์ ๋๋์ง ํ๊ฐํ๊ธฐ ์ํด์ ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ ์ฆ, ํ๋์ ๋ต๋ง ํ๊ฐํด์ ์๋๊ณ , ๋ชจ๋ธ์ ์ ์ฒด ์ถ๋ ฅ ๋ถํฌ๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณด๊ณ ํ๊ฐ๋ฅผ ํด์ผ ํจ
์ด๋ฅผ ์ํด ์๋ก์ด ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ธ ํ๊ฐ์งํ๊ฐ ์๋ ์๋ก์ด ํ๋ฅ ๋ก ์ ์ธ ํ๊ฐ ์งํ๋ค์ ์ ์
Summary
- ์ฐ๊ตฌ์ง: ๋ฎํจ ๊ณต๊ณผ๋ํ๊ต
- ์ธ์ฉ์: 24
- ๊ฐ์ธ์ ์ผ๋ก ์์ํ ์ฃผ์ + ์์์ด ๋๋ฌด ๋ง์์ ์ฝ๋๋ฐ ํ์ฐธ ๊ฑธ๋ ธ์ง๋ง ์์๊ฐ๋๊ฒ ๋ง์๋ ๋ ผ๋ฌธ
- ๊ทธ ๋์์ ํ๊ฐ ์งํ๋ฅผ ๊ทธ๋ฆฌ๋ํ๊ฒ ๋ณด๋ ๊ฒ์ ๋น์ฐํ๊ฒ ์๊ฐํ์๋๋ฐ, ์ถ๋ ฅ์ ํ๋ฅ ๋ถํฌ์์ ์ํ๋งํ๋ค๋ฉด ํ๊ฐ ๋ํ ๊ทธ๋ฆฌ๋ํ ํ๊ฐ๊ฐ ์๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์งํ๋ก ๋ด์ผํ๋ค๋ ์ ์ด ํ์์ ์๊ฐ ๋ชปํ ๋ถ๋ถ์ด๋ผ ์ธ์์ ์
1. Introduction
1.1 Background
์ธ๋ฌ๋์ ๋ฑ์ฅ
- ๋ชฉํ: ํ์ต๋ ์ ๋ณด ์ค ์๊ณ ์ ํ๋ ์ ๋ณด๋ฅผ ์ง์ฐ๋ ๊ฒ
- ์ฌํ์ต(Retraining): ๊ธฐ์กด ๋ฐฉ์, ์ง์ฐ๊ณ ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ๊ณ ์ฒ์๋ถํฐ ๋ค์ ํ์ตํ๋ ๋ฐฉ์
- ๋จ์ : ํ์ต ๋น์ฉ์ด ๋๋ฌด ํฌ๊ณ ์ค๋ ๊ฑธ๋ฆผ โ ์ธ๋ฌ๋์ ๋ฑ์ฅ!
- ์ธ๋ฌ๋(Unlearning): ์ฌํ์ต์ ํ์ง ์๊ณ ์ด๋ฏธ ํ์ต๋ ์ ๋ณด ์ค ์ผ๋ถ ์ ๋ณด๋ง ์ ํ์ ์ผ๋ก ์ง์ฐ๋ ํ์ต
- ๋ชฉํ: ํน์ ์ ๋ณด๋ฅผ ์ง์ฐ๋, ๋๋จธ์ง ์ฑ๋ฅ์ ์ต๋ํ ์ ์งํ๋ ๊ฒ
- ์ธ๋ฌ๋ ์ฐ๊ตฌ์ view point๐ค
- โ์ฌํ์ตํ ๋ชจ๋ธโ๊ณผ โ์ธ๋ฌ๋ํ ๋ชจ๋ธโ์ ์ถ๋ ฅ์ด ์ผ๋ง๋ ๋น์ทํ๊ฐ?
- ์ญ์ ๋ฐ์ดํฐ์ ๋ํ ๊ธฐ์ต์ด ์ผ๋ง๋ ์ฌ๋ผ์ก๋๊ฐ?
- ๋๋จธ์ง ์ผ๋ฐ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ์ผ๋ง๋ ์ ์ง๋๋๊ฐ?
1.2 Motivation
๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ ๋ฌธ์ ์ (ํ๋ฅ ๋ก ์ ์ธ ์ถ๋ ฅ but ๊ฒฐ์ ๋ก ์ ์ธ ํ๊ฐ)
- Beam Search, Multinomial Sampling ๊ณผ ๊ฐ์ ๋ฐฉ์์ ํ๋ฅ ์ ๋์ฝ๋ฉ ๋ฐฉ๋ฒ์ ํตํด ์ถ๋ ฅ์ ์์ฑ
- ํ์ง๋ง LLM์ ์ฑ๋ฅ ํ๊ฐ๋ ์ฃผ๋ก greedy decoding์ผ๋ก ์์ฑ๋ ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ์ ์์กด
- greedy decoding: ๋ฑ ํ ๋ฒ๋ง ๋ต์ ๋ฝ์์ ๊ทธ๊ฑธ๋ก๋ง ์ฑ๋ฅ์ ์ธก์
- ์ธ๋ฌ๋(Unlearning): ๋ชจ๋ธ์ด ํน์ ์ ๋ณด๋ฅผ ์ ๋ง ์์๋์ง ํ๊ฐํด์ผ ํจ
- ์ ๋ ฌ(Alignment): ๋ชจ๋ธ์ด ํด๋ก์ด ๋ต๋ณ์ ์ค์ ๋ก ์ ํ๋์ง ํ๊ฐํด์ผ ํจ
โ RQ ๊ฒฐ์ ๋ก ์ ์ธ ํ๊ฐ๋ง์ผ๋ก ์ธ๋ฌ๋๊ณผ ์ ๋ ฌ์ด ์ ๋์๋์ง ํ์ธํ ์ ์์๊น?

2. ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ(์ผ์ชฝ ๊ทธ๋ํ)์ ๊ฒฝ์ฐ ์ ๋ณด ๋์ถ์ John and Peter๋ฅผ ์ถ๋ ฅํ์ฌ ์ธ๋ฌ๋์ ์ฑ๊ณตํ๋ค๊ณ ์๊ฐํ ์ ์์ง๋ง, ์ค์ ๋ก ํ๋ฅ ์ ์ธ ๋ถํฌ๋ก ํ๊ฐํ ๊ฒฝ์ฐ ์ ๋ณด ๋์ถ์ ํ๋ ๋ฐฐ๊ฒฝ์ ๊ทธ๋ํ์ ๊ฐ์ ์ ๋ณด ๋์ถ์ด ํ์ธ๋จ
ํ๋ฅ ๋ก ๊ด์ ์ ์ธ๋ฌ๋
- ์ง์์ผ ํ ๋ฐ์ดํฐ D๋ฅผ ํฌํจํด์ ํ์ตํ ์ถ๋ ฅ ๋ถํฌ vs D๋ฅผ ํฌํจํ์ง ์๊ณ ํ์ตํ ์ถ๋ ฅ ๋ถํฌ
- ๋ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์ค์ฌ์ฃผ๋ ๋ฐฉํฅ์ผ๋ก ์์ค ํจ์๋ฅผ ์ ์ํ๊ฑฐ๋ gradient ์
๋ฐ์ดํธ๋ฅผ ์ค๊ณํด์ผ ํจ
โ retraining ์ ํ์ง ์๊ณ ๋ โD๋ฅผ ๋นผ๊ณ ํ์ตํ ๋ชจ๋ธโ์ ๊ฐ๊น๊ฒ ๋ง๋๋ ๊ฒ
- ๋ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์ค์ฌ์ฃผ๋ ๋ฐฉํฅ์ผ๋ก ์์ค ํจ์๋ฅผ ์ ์ํ๊ฑฐ๋ gradient ์
๋ฐ์ดํธ๋ฅผ ์ค๊ณํด์ผ ํจ
- ๊ธฐ์กด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ฮธ_old, D ์ธ๋ฌ๋ ํ ํ๋ผ๋ฏธํฐ ฮธ_unlearn, D๋ฅผ ์ ์ธํ๊ณ ์ฌํ์ตํ์ฌ ์ป์ ์ด์์ ์ธ ํ๋ผ๋ฏธํฐ ฮธ* ๊ฐ ์๋ค๊ณ ํ ๋,
โ ๋ชฉํ: ์ฌํ์ต ์์ด ฮธ_old โ ฮธ_unlearn ๋ก ๋ง๋ค๊ณ ฮธ_unlearn โ ฮธ* ๊ฐ ๋๋๋ก ํ์ต
1.3 Contribution
- ๋ฉํฐ๋ ธ๋ฏธ์ผ ์ํ๋ง๋ง์ผ๋ก๋ ์ต์ ์ธ๋ฌ๋/์ ๋ ฌ ๋ชจ๋ธ์์ ์ธ๋ฌ๋๋ ์ ๋ณด, ์ ํด ์ ๋ณด๋ฅผ ๊ฐ์ง ๊ฐ๋ฅํจ์ ๋ณด์
- LLM ํ๊ฐ๋ฅผ ํ๋ฅ ์ ๊ด์ ์์ ๋ชจ๋ธ๋งํ ์ฒซ ์ฐ๊ตฌ๋ก, ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ธ greedy ๊ธฐ๋ฐ ํ๊ฐ ๋ฐฉ์๋ณด๋ค ํ๋ฅ ๋ก ์ ์ธ ํ๊ฐ ๋ฐฉ์์ด ์ ๋ณด ์ ์ถ์ ๋ ์ ํฌ์ฐฉํจ์ ์ ์ฆ
- ์ถ๋ ฅ ๋ถํฌ๋ฅผ ๋น๊ตํ๊ธฐ ์ํ, ๊ณ ํ๋ฅ (high-probability) ๋ณด์ฅ์ ์ ๊ณตํ๋ ๋ค ๊ฐ์ง ํ๋ฅ ์ ํ๊ฐ ์งํ(Mbin, Mgen, Mฮผ, Mฯ)์ ๊ฐ๋ฐ์ฉ ๊ฐ๋จ ์งํ(ED score)๋ฅผ ์ ์
- ๋ถํฌ ์ฐจ์์์ ์ธ๋ฌ๋์ ๋ ์์ ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด(์ ๋ณด ๋์ถ์ ์ ๋ง๊ธฐ ์ํด) ์๋์ ๊ฐ์ ๋ ๋ฐฉ๋ฒ๋ก ์ ์
- (1) ์ํธ๋กํผ ์ต์ ํ ๊ธฐ๋ฐ ์๋ก์ด ์์ค ํจ์
- (2) Adaptive Temperature Scaling
2. Methods
- ๊ธฐ์กด์ ํ๊ฐ ์งํ๋ค์ ๋ต๋ณ 1๊ฐ๋ง ํ์ธํ์ฌ ํ๊ฐ โ ์ด์ด ์ข์ผ๋ฉด ํต๊ณผ ๋์๋ฉด ํต๊ณผ X
- ๋ต๋ณ์ ์ฌ๋ฌ ๋ฒ ์์ผ๋ณด๊ณ (๋ชฌํ ์นด๋ฅผ๋ก ์ํ๋ง), ์ ๋ณด ์ ์ถ์ ์ํ๋๋ฅผ ์ํ์ ์ผ๋ก ๋ํ๋ด๋ ์งํ๋ฅผ ์ ์
2.1 ๋ณ์ ์ธํ
- q: ํ๋กฌํํธ (์ ๋ณด ์ ์ถ์ ์ด๋์ด ๋ด๊ธฐ ์ํ ์ง๋ฌธ) e.g., ํด๋ฆฌํฌํฐ์ ๋ฒ ํ๋ ๋๊ตฌ๋?!
- Y ~ ฯฮธ(q): LLM์ด q์ ๋ํ ์ถ๋ ฅ ๋ถํฌ์์ ์ํ๋งํ ํ๋์ ๋ต๋ณ ์ํ์ค (ํ ํฐ ์ฌ๋ฌ ๊ฐ๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์ฅ)
- Yโ,โฆ,Yโ ~ ฯฮธ(q): LLM์ n๋ฒ ํธ์ถํด์, ํ๋กฌํํธ q์ ๋ํ ๋ต๋ณ n๊ฐ๋ฅผ ์ํ๋งํ ๊ฒ
- Xแตข = h(Yแตข): ๋๋คํ๊ฒ ํ๋์ ๋ต๋ณ Y๋ฅผ ๋ฝ์์ ๋, ๊ทธ ๋ต๋ณ์ ์ ์ถ ์ ๋๋ฅผ ๋ํ๋ด๋ ํ๋ฅ ๋ณ์
- X= h(Y) = 0: ์ ๋ณด ๋์ถ ์์
- X =h(Y) = 1: ์์ ๋์ถ
- M(Xโ,โฆ,Xโ): Xโ,โฆ,Xโ์ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด ์ ์ํ metric M(Mbin, Mgen, Mฮผ, Mฯ)์ ๊ณ์ฐํ ๊ฒ
2.2 LLM ํ๊ฐ๋ฅผ ์ํ 4+ 1๊ฐ์ง ํ๋ฅ ์ ํ๊ฐ ์งํ
- Mbin (Binary leakage bound)
- ๋ชฉ์ : ํ๋ฒ ๋ ๋ต๋ณ์ ์ํ๋งํ์ ๋, ์ ์ถ์ด ํ ๋ฒ์ด๋ผ๋ ์ผ์ด๋ ํ๋ฅ ์ ์ํ์ ๋ํ ์งํ(์ด์ง ์ํฉ)
- n๋ฒ ์คํ ํ, ์ ์ถ๋ ํ์๋ฅผ ์ธ์ด์ ๋ค์ ๋ต๋ณ์ด ์ ์ถ๋ ํ๋ฅ ์ ์ต๋๊ฐ์ ๊ณ์ฐ
- ์ ๋ต ํค์๋๊ฐ ํฌํจ๋๋ฉด โ
X=h(Y)=1(์ ์ถ O)
- ํฌํจ๋์ง ์์ผ๋ฉด โ
X=h(Y)=0(์ ์ถ X)
- ์ ์ถ ์ ๋๋ฅผ ๋ํ๋ด๋ Xiโ{0,1} ๋ ๋ฒ ๋ฅด๋์ด ํ๋ฅ ๋ณ์,์์์ ๋ต๋ณ 1๊ฐ์์ ์ ๋ณด๊ฐ ๋์ถ๋ ํ๋ฅ p
- ์ํ n๊ฐ์ ๋ํด
- Sโ: ์ ์ถ์ด ๋ฐ์ํ ์ํ์ ๊ฐ์ e.g., n=100, ๊ทธ ์ค 3๊ฐ ๋ต์ด ์ ๋ต ํค์๋๋ฅผ ํฌํจ โ Sโ=3
- ๋ค์ ํ ๋ฒ์ ์ํ์์ ์ ํ๋ฅ p์ ์ํ
- ๋ชฉ์ : ํ๋ฒ ๋ ๋ต๋ณ์ ์ํ๋งํ์ ๋, ์ ์ถ์ด ํ ๋ฒ์ด๋ผ๋ ์ผ์ด๋ ํ๋ฅ ์ ์ํ์ ๋ํ ์งํ(์ด์ง ์ํฉ)
- Mgen (General leakage bound)
- ๋ชฉ์ : ์ ์ถ ์ ๋๊ฐ ฯ ์ด์์ธ ์ ์ถ์ด ๋ค์ ๋ฒ์ ๋์ฌ ํ๋ฅ ์ ์ต๋ ์ผ๋ง์ธ๊ฐ? ์ ๋ํ ์งํ
- ์ธํ
:
- ์ ์ถ ์ ๋๋ฅผ ์ฐ์ ๊ฐ์ผ๋ก ์ธก์ :
- X=h(Y)โ[0,1]
- 0.0 โ ์ ํ ์ ์์์
- 0.3 โ ์ด์ง ๋น์ท
- 0.8 โ ๊ฑฐ์ ๊ทธ๋๋ก ๋งํจ
- ๊ธฐ์ค๊ฐ x๋ฅผ ์ ํ๊ณ ,Pr(X>x)
= โ๋์ถ ์ ๋๊ฐ x๋ฅผ ์ด๊ณผํ๋ ์ฌ๊ฐํ ์ ์ถ์ด ๋ฐ์ํ ํ๋ฅ ์ ๊ตฌํจ
- Mฮผ (Expectation bounds, ๊ธฐ๋ ์ ์ถ ์ํ)
- ์ด ํ๋กฌํํธ์ ๋ํด ํ๊ท ์ ์ผ๋ก ์ด๋ ์ ๋์ ์ ์ถ ์ ๋๋ฅผ ๊ฐ๋์ง๋ฅผ ํ๊ฐํ๋ ์งํ
- X์ ๊ธฐ๋๊ฐ(ํ๊ท ์ ๋ณด ์ ์ถ๋)์ ์ํ์ ์ ๊ณต
- ๊ตฌ๊ฐย [0,1]์ย K๊ฐ์ ๊ตฌ๊ฐ์ผ๋ก ๋๋๊ณ , ๊ฐ ๊ตฌ๊ฐ์ ๋ํด ๊ฒฝํ์ CDF ๊ฐ์ ์ด์ฉํด ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ
- Mฯ (Standard deviation bound, ํ์คํธ์ฐจ ์ํ)
- ํ๊ท ๋ง ๋ณด๊ณ ์ ์ ์๋ ์ ์ถ ์ ๋์ ํ์คํธ์ฐจ์ ๋ํด ์ํ์ ์ ๊ณต
- ์ ์ถ ์ ์๊ฐ ์ผ๋ง๋ ๋ถํ์ค(๋ค์ญ๋ ์ญ)ํ์ง ์๊ณ ์ถ์ ๋
- ๋ต๋ณ์ ๋ณ๋์ฑ, ํ์คํธ์ฐจ๊ฐ ์๋ฌด๋ฆฌ ์ปค๋ Mฯ๋ณด๋ค๋ ์์ ๊ฒ์ด๋ผ๋ ์ํ์ ์ค์
- Mฯ๊ฐ์ด ํฌ๋ฉด ๋ค์ญ๋ ์ญํ๊ฒ ์ ๋ณด๋ฅผ ์ ์ถ ํ ์ ์๋ ๋ชจ๋ธ
- Mฯ๊ฐ์ด ์์ผ๋ฉด ๋น์ทํ ์ ๋์ ์ ๋ณด๋ฅผ ์ ์ถํ๋ ๋ชจ๋ธ
- ํ๊ท ๋ง ๋ณด๊ณ ์ ์ ์๋ ์ ์ถ ์ ๋์ ํ์คํธ์ฐจ์ ๋ํด ์ํ์ ์ ๊ณต
- ED score
- Smean: ํ๊ท ์ ์ผ๋ก ์ผ๋ง๋ ์ ์ถํ๋๊ฐ?
- Ssd: ๊ฐ๋ ํ๋ ์ ์ถ(ํ์ค ํธ์ฐจ)์ด ์ด๋์ ๋์ธ๊ฐ?
- ฯ: ํ๊ท ๊ณผ ํ์คํธ์ฐจ์ ๋น์ค์ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ (๋ณธ ๋
ผ๋ฌธ์์ ฯ=2 ์ฌ์ฉ)
โ ED score ์ ์๊ฐ ๋ฎ์์๋ก ํ๊ท ์ ์ถ๋ ์๊ณ ๊ฐ๋ ํฌ๊ฒ ์๋ ์ผ์ด์ค๋ ์ ๋ค๋ ๋ป โ ์ธ๋ฌ๋ good!
2.3 ์ํธ๋กํผ ์ต์ ํ + ์จ๋ ์ค์ผ์ผ๋ง์ ์ํ ๋ถํฌ ์ธ๋ฌ๋
- ๊ธฐ์กด ์ธ๋ฌ๋ ํ๊ฐ ๋ฌธ์ ์ : ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ก ๋ด๋๋ ๋ต๋ณ(Greedy output)์๋ง ์ง์คํจ
โ ํ์ง๋ง ์ค์ ๋ก๋ ์ํ๋ง(temperature, top-p ๋ฑ)๋ฅผ ๋ง์ด ์ฌ์ฉ
โ ๊ทธ๋ฆฌ๋ํ ์ถ๋ ฅ ํ๊ฐ๋ก๋ ์ ์ถ์ด ์๋๊ฒ์ฒ๋ผ ๋ณด์ฌ๋ ์ํ๋งํ๋ฉด ์ ์ถ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์
โ ํ๋์ ์ ๋ต์ ๋ํ ํ์ต์ด ์๋ ๋ถํฌ ์์ฒด๊ฐ ์์ ํ๊ฒ ๋ง๋ค๋๋ก ํ์ต์ํค์!
- 1. ์ํธ๋กํผ ์ต์ ํ
- ๋ชฉํ: ์์ด์ผ ํ ์ ๋ณด(forget set)์ ๋ถํ์ค์ฑ์ ์ต์ํํ๊ณ , ์ผ๋ฐ ์ ๋ณด(retain set)์ ์ฐฝ์์ฑ ์ ์ง
- forget set(DFG):
- ์ํธ๋กํผ๋ฅผ ์ค์ฌ์ ์ํ๋ง์ ํด๋ ์ ๋ณด ๋์ถ์ด ์๋๋๋ก
โ ์ํ๋ง์ ํด๋ ๊ณ์ ๋น์ทํ ์์ ๋ต๋ง ๋์ค๊ฒ ๋ง๋ค๊ธฐ
- Retain set(DFT):
- ์ํธ๋กํผ๋ฅผ ๋๋ ค์ ๊ธฐ์กด์ฒ๋ผ ๋ค์ํ ๋ต, ์ฐฝ์์ฑ์ ์ ์ง
- ํ๊ท ํ ํฐ ์ํธ๋กํผ ์์ค ํจ์๋ฅผ ํตํด ์ ์ฒด ํ ํฐ์ ๋ํ ํ๊ท ์์ค์ ๊ตฌํจ
- ๊ธธ์ด m์ธ ์ํ์ค (x,y)์ ๋ํ ํ๊ท ํ ํฐ ์ํธ๋กํผ ์์ค
- DFG์์ ์ํธ๋กํผ๊ฐ ํฌ๋ฉด EDFG[โฮธ(x,y)]๊ฐ ์ปค์ง๊ณ
โ ฮปf>0์ด๋ฏ๋ก ์ ์ฒด ์์ค LEO๋ ์ปค์ง
โ DFG์ ์ํธ๋กํผ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ
โ DFG ์ถ๋ ฅ์ ๋๋ค์ฑ์ ์ํํ๋ ๊ฒ์
- ๋ฌธ์ ๋ ์ํธ๋กํผ๋ฅผ ๊ทธ๋ฅ ๋ฎ์ถฐ๋ฒ๋ฆฌ๋ฉด ๋ชจ๋ ์ง๋ฌธ์ ๋ํ ๋ต์ด ๋จ์กฐ๋ก์์ง๊ณ ์ฐฝ์์ฑ์ด ๋จ์ด์ง
โ DRT์ ๋ํ ์ํธ๋กํผ๋ฅผ ์ฝ๊ฐ ๋๋ฆฌ๋๋ก ๊ฐ์ค์น๋ฅผ ๋
2. ์ ์ํ ์จ๋ ์กฐ์ (Adaptive Temperature Scaling)
- ๋ชฉํ: ๋ชจ๋ธ์ด ๋ฏผ๊ฐํ ์ง๋ฌธ์ ๋ฐ์์ ๋, ์ค์ค๋ก ์ํ์ ๊ฐ์งํ๊ณ ์ ๋ณด ์ ์ถ ๊ฐ๋ฅ์ฑ์ ์์ฒ ์ฐจ๋จ
- ๋ชจ๋ธ์ด ์
๋ ฅ x์ ๋ํ ํ์ ์ด ์์ ๋, ์จ๋๋ฅผ 0์ผ๋ก ๋ฎ์ถฐ ๊ฒฐ์ ์ ์ธ(greedy) ์ถ๋ ฅ์ ํ๋๋ก ์ ๋
- ํ์ ์ด ์ ์ ๋๋ง ์ํ๋ง ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ๋ณด ๋์ถ์ ์ค์
- ์ ๋ ฅ x์ ๋ํด ์์ฑ๋ ์ํ์ค์ ๊ฐ ํ ํฐ์์ ๋ฑ์ฅ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ํ ํฐ yt^์ ํ๋ฅ : p(yt^โฃy<t,x)
- ์ ์ฒด ์ํ์ค์ ํ๊ท ํ์ ๋ ๊ณต์
- y^t: ์ ๋ ฅ x์ ๋ํด ์์ฑ๋ ์ํ์ค์ ๊ฐ ์์น์์ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ํ ํฐ
- p(y^t | y<t, x) : y^t์ ๋ฑ์ฅ ํ๋ฅ
- โ ๊ฐ ํ ํฐ์ p(y^tโฃy<t,x) ๊ฐ์ ํ๊ท ๋ด์ด ์ํ์ค์ ํ๊ท ํ์ ๋๋ฅผ ๊ณ์ฐ
- ํน์ ๊ธฐ์ค์ (threshold cT)๋ฅผ ๋์ด c(x)๊ฐ์ด cT๋ฅผ ๋์ผ๋ฉด ฯ=0, ์๋๋ฉด ๊ธฐ๋ณธ ๊ฐ์ผ๋ก ์ค์ ํ์์
- โ ๋ฏผ๊ฐํ ์ง๋ฌธ์ผ ๋๋ง ์จ๋๋ฅผ 0์ผ๋ก ๋ฎ์ถฐ(Adaptive) ์ ๋ณด ๋์ถ์ ์ค์ด๊ณ ์ถ๋ ฅ ๋ค์์ฑ์๋ ์ํฅ X
3. Experiments
experimental setup
- Unlearning Settings
- ๋ฐ์ดํฐ์
- TOFU (200๋ช
๊ฐ์ง ์๊ฐ ํ๋กํ):
- retain set: ์ ์งํด์ผ ํ ์ ๋ณด
- forget set: ์ง์์ผ ํ ์ ๋ณด
- ์ถ๊ฐ๋ก Real Authors, World Facts ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ ์ ํธ๋ฆฌํฐ ์ธก์
- ๋ชจ๋ธ: Phi-1.5
- TOFU (200๋ช
๊ฐ์ง ์๊ฐ ํ๋กํ):
- ์ถ๊ฐ ์คํ:
- Llama-2-Who-is-Harry-Potter: Harry Potter ๊ด๋ จ ์ง์์ ์ง์ฐ๋๋ก ์ธ๋ฌ๋๋ ๋ชจ๋ธ
- ํ๊ฐ ๋ฐ์ดํฐ: Harry Potter Q&A (์ง๋ฌธ + ๊ด๋ จ ํค์๋)
- ์งํ
- ROUGE-L:
- ์ ๋ต ๋ฌธ์ฅ๊ณผ ์์ฑ ๋ฌธ์ฅ ์ฌ์ด์ ์ ์ฌ๋
- ๋ณธ ๋ ผ๋ฌธ์์๋ ROUGE-L ์ ์๊ฐ ๋๋ค โ ์ ๋ณด ๋์ถ์ ๊ฐ๊น๋ค๋ก ํด์
- self-BLEU:
- ์์ฑ๋ ์ฌ๋ฌ ์ํ๋ผ๋ฆฌ BLEU๋ฅผ ์ธก์ ํ์ฌ โ์๋ก ์ผ๋ง๋ ๋น์ทํ๊ฐโ๋ฅผ ๋น๊ต
- ROUGE-L:
- ์ธ๋ฌ๋ ๋ฒ ์ด์ค๋ผ์ธ
- Gradient Ascent (GA), Gradient Difference (GD), RMU, Negative Preference Optimization (NPO, SotA)
- ์ ์ ๋ฐฉ๋ฒ์ NPO + ์ํธ๋กํผ ์ต์ ํ + ์ ์์ ์จ๋ ์กฐ์
- ๋ฐ์ดํฐ์
- Alignement Settings
- ๋ฐ์ดํฐ: JailbreakBench(JBB) ์ 100๊ฐ harmful behavior ์ง๋ฌธ
- Alignment ์ธก์
- Harmbench toxicity classifier๊ฐ
- ๋ชจ๋ธ ๋ต๋ณ์ด โ์ ํดํ๋ค๊ณ ํ์ ๋ ํ๋ฅ โ์ ์ค โ ์ด๊ฒ์ toxicity score๋ก ์ฌ์ฉ.
- Harmbench toxicity classifier๊ฐ
- Models
- Phi-1.5, Vicuna-7b-1.5, Mistral-7b-instruct-v0.3
- Unlearning Settings
Harry Potter Q&A ์ ๋ํ Mbin ๊ฒฐ๊ณผ
- figure 3-(a)
- x์ถ: ์ด์ง ๋์ถ ์ํ ์งํ Mbin ๊ฐ (0~0.6 ์ ๋)
- ๋ค์ ์ํ์์ ์ ๋ณด๊ฐ ์ ํ๋ฅ ์ ์ํ
- y์ถ: ๊ทธ M_bin ๊ฐ์ ํด๋นํ๋ ์ง๋ฌธ์ ๋น์จ
- ํ๋์: ์ ํต์ ์ธ ๊ทธ๋ฆฌ๋ ํ๊ฐ
- ์ฃผํฉ์: ์ํ๋ง ๊ธฐ๋ฐ ํ๋ฅ ์ ํ๊ฐ
- ์คํ๊ฒฐ๊ณผ
- ๊ธฐ์กด์ ๊ทธ๋ฆฌ๋ ํ๊ฐ์์๋ ๊ฑฐ์ ๋ชจ๋ ์ง๋ฌธ์ ์ ๋ณด ๋์ถ์ด 0์ ๊ฐ๊น์
- ํ๋ฅ ์ ํ๊ฐ์ ๊ฒฝ์ฐ 38%์ ์ง๋ฌธ์ด ๋์ถ์ด ๋์์์ ์ ์ฆ
- x์ถ: ์ด์ง ๋์ถ ์ํ ์งํ Mbin ๊ฐ (0~0.6 ์ ๋)
TOFU โ ๋จ์ผ ์ง๋ฌธ์ ๋ํ ๋ถํฌ ๋ถ์
- figure 3-(b,c)
- ๊ฐ์ ์ง๋ฌธ์ ๋ํด 1024๊ฐ ์ํ์ ๋ฝ๊ณ ๊ฐ ์ํ์ ROUGE-L ๋ถํฌ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ํํ
- x์ถ: ROUGE-L
- y์ถ: ํ๋ฅ ๋ฐ๋ (์ ์ ๊ทผ์ฒ์์ ๋ต๋ณ์ด ๋์ฌ ๋น๋๋ฅผ ๋ํ๋ด๋ ๊ฐ)
- ๊ตต์ ์ ์ : ๊ฐ ๋ฐฉ๋ฒ์ ๊ทธ๋ฆฌ๋ ์ถ๋ ฅ์ ROUGE-L ์ ์
- (b): ๋ ์ธ๋ฌ๋ ๋ฐฉ๋ฒ(GA vs NPO ๋ฑ) ๋น๊ต
- (c): NPO vs NPO + ์ํธ๋กํผ ์ต์ ํ(์ ์ ๋ฐฉ๋ฒ) ๋น๊ต
- ๊ฐ์ ์ฑ๋ฅ ์ ์(ROUGE)๋ผ๋ ๋ถํฌ๋ฅผ ๊น๋ณด๋ฉด NPO๋ ์ํํ๊ณ , ์ ์ ๋ฐฉ์(Ours)์ ์์
TOFU ์ธ๋ฌ๋ ๋ฐฉ๋ฒ ๋น๊ต: ๊ฒฐ์ ๋ก ์ vs ํ๋ฅ ์ ํ๊ฐ
- ๊ฐ์ ์ง๋ฌธ์ ๋ํด 1024๊ฐ ์ํ์ ๋ฝ๊ณ ๊ฐ ์ํ์ ROUGE-L ๋ถํฌ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ํํ
- Ours๊ฐ ๊ฒฐ์ ๋ก ์ ์ธ ๊ธฐ์ค(Det.) ํ๋ฅ ๋ก ์ ์ธ ๊ธฐ์ค(Prob.) ๋ชจ๋์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ
- ํ๊ท ์ ์ถ ์ ๋(Mean)๋ ๊ฐ์ฅ ๋ฎ๊ณ , ์ํ๋ง๋ค ์ ์ถ ์ ๋(Std. Dev.ํ์คํธ์ฐจ)๊ฐ ๊ฑฐ์ ๋ณํ์ง ์๋๋ค
- ๊ฒฐ์ ๋ก ์ ์ธ๋ฌ๋ ๋ฐฉ๋ฒ์ธ GA์ GD์ ๊ฒฝ์ฐ, ํ๋ฅ ๋ก ์ ์ธ๋ฌ๋์์์ ํ๊ท (mean)์ด ๊ทธ๋ฆฌ๋ ๋์ฝ๋ฉ์ผ๋ก ์ป์ ROUGE-L ์ ์์ ๊ฑฐ์ ์ผ์นํ์ง๋ง GD(0.33,0.32),GA(0.32,0.31) , ํ์คํธ์ฐจ๊ฐ ํฌ๋ค๋ ๋ฌธ์ ๊ฐ ์์
- ๊ธฐ์กด์ ์งํ(RMU, GD, GA, NPO) ๋ชจ๋ Det.์์ ์ธ๋ฌ๋์ด ์ ๋์๋ค๊ณ ํ๋จํ์ง๋ง ํ๋ฅ ์ ์งํ๋ฅผ ํตํด ๋ถํฌ ์์ ์ ๋ณด ๋์ถ์ ์ํ์ด ์์ง ์์์ ์ ์ฆ
์ํธ๋กํผ ์ ๊ทํ๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ
- (a): ฮปf๋ 1๋ก ๊ณ ์ ํ๊ณ Retain ์ ๊ทํ ๊ณ์ ฮปr๋ฅผ 0 โ โ0.25 ๋ฐฉํฅ์ผ๋ก ์ ์ ๋ ์์๋ก ๊ฐ์
- ํ๋ ์ ์ : NPO + ์ํธ๋กํผ ์ ๊ทํ | ๊ฒ์ ์ ์ : NPO
โ ฮปr ๊ฐ์ ๋ฎ์ถ์๋ก(๋ ํฐ ์์๋ก ๋ง๋ค์๋ก), DRT(์ง์ผ์ผ ํ ๋ฐ์ดํฐ)์ ๋ํ ์ํธ๋กํผ ๋ณด์์ด ์ปค์ ธ, ๋ต๋ณ์ ๋ค์์ฑ(Diversity)์ด ์ฆ๊ฐํจ
- (b): epoch์ด ๋์ด๋ ์๋ก DFG(์ง์ธ ์ ๋ณด)์ DRT(์งํฌ ์ ๋ณด) ์ฌ์ด์ ํ์ ๋๊ฐ ๋ฒ์ด์ง(์ ๊ตฌ๋ถํจ)
โ ๋ชจ๋ธ์ด ํ์ต ๊ณผ์ ์์ retain ์ ๋ณด์ forget ์ ๋ณด๋ฅผ ๊ตฌ๋ณํ ์ ์์
- (c): TOFU ๋ฐ์ดํฐ์
์ ์๋ก ๋ค๋ฅธ ๋ถํ ๋น์จ์ ๋ํด, ED score์ model utility(๋ชจ๋ธ ์ ์ฉ์ฑ) ์ ๊ด๊ณ๋ฅผ ๋น๊ต
- x์ถ: ED score
- y์ถ: Model Utility: retain ๋ฒค์น๋งํฌ(e.g., Real Authors, World Facts)์์์ ์ฑ๋ฅ
โ ๋์์๋ก ์๋ ๋ชจ๋ธ์ ์ ์ฉ์ฑ์ ์ ์ ์งํจ์ ์๋ฏธ
- TOFU ๋ฐ์ดํฐ split(90/10, 95/5, 99/1) ์ค ํ๋์์ ฮปf๋ฅผ ๋๋คํ๊ฒ ์ค์ ํ์ฌ NPO + ์ํธ๋กํผ ์ ๊ทํ๋ก ํ์ตํ ๋ชจ๋ธ ํ๋
โ ์คํ ๊ฒฐ๊ณผ: ์ํธ๋กํผ ์ ๊ทํ๋ฅผ ์ถ๊ฐํ์ฌ๋ ์ธ๋ฌ๋์ ์ ์ํํ๋ฉด์๋ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ(Model Utility)์ ๋จ์ด์ง์ง ์์
Preliminary
๋ชฌํ ์นด๋ฅผ๋ก ์ํ๋ง
- ๋ชฌํ
์นด๋ฅผ๋ก ๋ฐฉ๋ฒ:
- ์ด๋ค ํ๋ฅ ์ ์ธ ์ ๋๋ฅผ (๊ธฐ๋๊ฐ, ํ๋ฅ , ๋ถ์ฐ ๋ฑ)์ ์ง์ ๊ณ์ฐํ๊ธฐ ๋ณต์กํ ๋, ๊ทธ ๋ถํฌ์์ ๋๋ค ํ๋ณธ์ ์ฌ๋ฌ ๊ฐ ๋ฝ์์ ๊ทธ ํ๋ณธ๋ค๋ก ๊ทผ์ฌํ๋ ๋ฐฉ๋ฒ
- ๋ชฌํ ์นด๋ฅผ๋ก ์ํ๋ง: ๋๋ค ํ๋ณธ์ ๋ฝ๋ ๊ณผ์
- ์ํ์ ๊ณต์์ผ๋ก ์ ํํ ๊ณ์ฐ ๋์ ๋๋ค ์คํ์ ์ฌ๋ฌ ๋ฒ ๋๋ฆฐ ๊ฒฐ๊ณผ์ ํ๊ท ยท๋น์จ๋ก ๊ทผ์ฌ
- ๋ชฌํ
์นด๋ฅผ๋ก ๋ฐฉ๋ฒ:
์ํ๋ง ๊ธฐ๋ฐ ๋์ฝ๋ฉ
- LLM์ด ๋ค์ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์ ํํ์ฌ ๋ฌธ์ฅ์ ๋ง๋๋ ๋ฐฉ์
- ๊ทธ๋ฆฌ๋ ๋์ฝ๋ฉ: ๊ฐ์ฅ ๋์ ํ๋ฅ ๋ง ์ ํ
- ์ํ๋ง ๊ธฐ๋ฐ ๋์ฝ๋ฉ: ํ๋ฅ ์ ๋น๋กํด์ ๋๋ค์ผ๋ก ์ ํ
Next Word Prediction (Greedy Decoding/Beam Search/Multinomial Sampling)
์ ๋ต (์ฉ์ด) ํต์ฌ ์์ด๋์ด ๋ต๋ณ์ ํน์ง Greedy Decoding ๋งค ์๊ฐ ํ๋ฅ 1์ ๋จ์ด๋ง ์ ํ ํญ์ ๋๊ฐ์ ๋ต๋ณ (๊ฒฐ์ ๋ก ์ ) Multinomial Sampling ํ๋ฅ ์ ๋ฐ๋ผ ๋ฌด์์ ์ ํ ๋งค๋ฒ ๋ค๋ฅธ ๋ต๋ณ (ํ๋ฅ ๋ก ์ ) Beam Search ๊ฐ์ฅ ์ ๋ ฅํ ๋ฌธ์ฅ ํ๋ณด 3~5๊ฐ๋ฅผ ๋์ ํ์ Greedy๋ณด๋ค ๋์ ํ์ง, ์ผ๊ด์ฑ - Greedy Decoding (๊ฒฐ์ ๋ก )
- ๊ฐ์ฅ ์ข์ ๊ฒ ํ๋๋ง ์ ํ โ ๋งค ์๊ฐ, ๋ชจ๋ธ์ด ์๊ฐํ๋ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ฅผ ์ ํ
- ๊ฒฐ์ ๋ก ์ โ ๋ช ๋ฒ์ ๋ฌผ์ด๋ด๋ ๊ฐ์ ์๋ต ์ถ๋ ฅ
- Beam Search (์ค๊ฐ)
- ๊ฐ์ฅ ์ ๋ ฅํ ํ๋ณด ๋ช ๊ฐ๋ง ๋จ๊ธฐ๊ธฐ (greedy์ sampling์ ์ค๊ฐ)
- ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ๋ฌธ์ฅ ํ๋ณด๋ฅผ ๋น(Beam)์ด๋ผ ๋ถ๋ฅด๋ 3~5๊ฐ๋ง ๋จ๊ธฐ๊ณ ๊ณ์ ํ์
- Multinomial Sampling (๋ฌด์์ ํ๋ฅ )
- ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก ๋ฌด์์ ์ ํ
- ํ๋ฅ ๋ก ์ โ ๋งค๋ฒ ๊ฒฐ๊ณผ๊ฐ ๋ค๋ฅผ ์ ์์
- Greedy Decoding (๊ฒฐ์ ๋ก )
NPO (Negative Preference Optimization, ๋ถ์ ์ ํธ ์ต์ ํ)
- ๋ชฉํ: ์ด๋ฐ ๋ต์ ์ซ๋ค(์ํ์ง ์๋๋ค)๋ ์์ ๋ฅผ ์ด์ฉํด์ ๋ชจ๋ธ์ด ๊ทธ ๋ต์ ๋ ์ถ๋ ฅํ๋๋ก ํ์ต
- ๊ธฐ์กด RLHF(์ธ๊ฐ ํผ๋๋ฐฑ ๋ฏธ์ธ์กฐ์ )
- ์ข์ ๋ต์ ๋ณด์์ ๋๊ฒ ์ค์ ์์ฃผ ๋์ค๊ฒ ๋ง๋ค๊ณ ๋์ ๋ต์ ๋ณด์์ ๋ฎ๊ฒ ์ค์ ๋ ๋์ค๋๋ก
โ ์ธ๋ฌ๋์์๋ ๋์ ๋ต์ ๋ํ ์ ํธ๋ฅผ ๋ฎ์ถ๋ (push down) ์ต์ ํ
- ๊ธฐ์กด RLHF(์ธ๊ฐ ํผ๋๋ฐฑ ๋ฏธ์ธ์กฐ์ )
- ํ์ต ๊ตฌ์กฐ
- ์ง๋ฌธโ๋ต ์ (x,y) โ x: ํ๋กฌํํธ (์ง๋ฌธ), y: ์ง์์ผ ํ๋ ์ ๋ต (forget ์ ๋ต)
- e.g., โAlex Bloom์ 1995๋ 3์ 5์ผ์ ํ์ด๋ฌ๋ค.โ
- ์์ด์ผ ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ค๊ณ ํ ๋๋ง๋ค ๋ถ์ ์ ์ธ ์ ์(์์ค, Loss) ๋ถ์ฌํ์ฌ ๋ชจ๋ธ์ด ํด๋น ๋ฐ์ดํฐ๋ฅผ ์ซ์ดํ๋๋ก ์ ๋
- โlogโกฯฮธ(yโฃx) (์์ค)๋ฅผ maximize ํ๋ ์ชฝ์ผ๋ก ํ์ต
- ์ง๋ฌธโ๋ต ์ (x,y) โ x: ํ๋กฌํํธ (์ง๋ฌธ), y: ์ง์์ผ ํ๋ ์ ๋ต (forget ์ ๋ต)
- ๋ชฉํ: ์ด๋ฐ ๋ต์ ์ซ๋ค(์ํ์ง ์๋๋ค)๋ ์์ ๋ฅผ ์ด์ฉํด์ ๋ชจ๋ธ์ด ๊ทธ ๋ต์ ๋ ์ถ๋ ฅํ๋๋ก ํ์ต












