26 November 2025

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

๐Ÿ’กLLM์ด ์–ธ๋Ÿฌ๋‹, ์ •๋ ฌ์ด ์ง„์งœ ์ž˜ ๋๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด์„  ๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์  ์ถœ๋ ฅ ์ฆ‰, ํ•˜๋‚˜์˜ ๋‹ต๋งŒ ํ‰๊ฐ€ํ•ด์„  ์•ˆ๋˜๊ณ , ๋ชจ๋ธ์˜ ์ „์ฒด ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณด๊ณ  ํ‰๊ฐ€๋ฅผ ํ•ด์•ผ ํ•จ์ด๋ฅผ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์ ์ธ ํ‰๊ฐ€์ง€ํ‘œ๊ฐ€ ์•„๋‹Œ ์ƒˆ๋กœ์šด ํ™•๋ฅ ๋ก ์ ์ธ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์„ ์ œ์•ˆ

์ด์Šนํ™˜
์ด์Šนํ™˜

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
MNG๊ธฐ์กด ์–ธ๋Ÿฌ๋‹์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์ด ๊ฐ€์ง„ ๋ฌธ์ œ์ ์„ ์ž˜ ์งš์€ ๊ฒƒ ๊ฐ™์Œ. ์ด์ œ๋Š” LLM์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด ๊ฒฐ๊ณผ๋ณด๋‹ค๋Š” ๊ณผ์ •๊นŒ์ง€ ์ดํ•ดํ•ด๋ณด๋ ค๋Š” ๋…ธ๋ ฅ์ด ๋งŽ์€ ๊ฒƒ ๊ฐ™์Œ.4
์˜ค์ฐจ์ฆˆ์ผ€LLM์˜ unlearning๊ณผ alignment๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ํ™•๋ฅ ์  ๊ด€์ ์œผ๋กœ ๋ฐ”๋ผ๋ณธ๋‹ค๋Š” ์ ์ด ์‹ ์„ ํ•จ. ๋˜ํ•œ ์—ฌ๋Ÿฌ๊ฐœ์˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์ •๊ตํ•˜๊ฒŒ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ๊ฐ™์Œ. ์ด์ชฝ ๋ถ„์•ผ ๋…ผ๋ฌธ๋“ค์— ์•„์ง ์ต์ˆ™ํ•˜์ง„ ์•Š์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์„ ์–ด๋–ป๊ฒŒ ์ธก์ •ํ•˜๋ ค๋Š”์ง€๋„ ํ•˜๋‚˜์˜ ํฐ task์ธ๊ฒƒ ๊ฐ™์Œ.4
42RENLLM์˜ ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์˜ ๋ฌธ์ œ์ ์ด ์ž˜ ๋“œ๋Ÿฌ๋‚˜์žˆ๋Š” ๋…ผ๋ฌธ์ž„. ํ•œ ๋ฒˆ์˜ ์ถœ๋ ฅ์œผ๋กœ๋Š” LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ถ€๋ถ„์ด ์žˆ๋Š”๋ฐ, Unlearning์ด ์ž˜ ๋˜์—ˆ๋Š”์ง€ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ง€ํ‘œ๋กœ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ด ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๋Œ€ํ•œ ์‹ค๋งˆ๋ฆฌ๊ฐ€ ๋  ๊ฒƒ ๊ฐ™์Œ.4
ํ…€๋ธ”๋ŸฌUnlearning๊ณผ Alignment๋Š” ๊ต์ง‘ํ•ฉ์ด ์žˆ๊ธด ํ•˜์ง€๋งŒ(๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰ํ•˜๋Š” safety ๊ด€์ ) ํฌ๊ฒŒ ๋ดค์„ ๋•Œ ๋ชฉ์ ์ด ์ข€ ๋‹ค๋ฆ„. ๋…ผ๋ฌธ์—์„œ๋Š” ๋‘ ์ฃผ์ œ๋ฅผ ๋น„์Šทํ•œ ์˜์—ญ์—์„œ ๋‹ค๋ฃจ๊ธด ํ•˜์ง€๋งŒ ํ‘œํ˜„ํ•  ๋•Œ ์ข€ ๋” specificํ•˜๊ฒŒ ํ‘œํ˜„ํ•ด์•ผ ํ•˜์ง€ ์•Š์•˜๋‚˜ ํ•˜๋Š” ์ƒ๊ฐ์ด ๋“ฆ. ๋ชจ๋ธ ๋‚ด ์ง€์‹์„ ์ƒ์„ฑ๋‹จ์—์„œ ์ˆ˜ํ•™์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ํฅ๋ฏธ๋กœ์šด ๋ถ€๋ถ„์ž„.3.5
๊ฐ์ž์—ฐ๊ตฌ ๋™๊ธฐ๊ฐ€ ๋ฐฉ๋ฒ•๋ก ๊ณผ ์‹คํ—˜๊นŒ์ง€ ์ž˜ ์ด์–ด์ง€๋Š” ๋“ฏํ•˜๋‹ค. ์—”ํŠธ๋กœํ”ผ๋ฅผ ์กฐ์ ˆํ•ด์„œ ๋‹ต๋ณ€์˜ ๋žœ๋ค์„ฑ์„ ์กฐ์ ˆํ•˜๊ณ , temperature๋ฅผ ์Šค์Šค๋กœ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๋ฐฉ์‹๋„ ์ƒˆ๋กœ์› ๋‹ค4
๋ฐฉ์–ด๋ƒ ๋ƒ ๊ฒฐ๊ตญ unlearning์€ ๋ถ„ํฌ๋ฅผ ๊ฑด๋“ค์—ฌ์•ผ ํ•œ๋‹ค๋Š” ์ ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ผฌ์ง‘์–ด๋‚ด๊ณ , ์ด๋ฅผ ์—”ํŠธ๋กœํ”ผ์™€ ์ ‘๋ชฉ์‹œ์ผœ ๋‹ค์–‘ํ•œ ์ง€ํ‘œ๋กœ ์ž˜ ํ’€์–ด๋‚ธ๋“ฏ! ๊น”๋”ํ•˜๊ณ  ๊ตฐ๋”๋”๊ธฐ ์—†๋Š” ๋…ผ๋ฌธ์ด๋‹น 4
์ƒˆ์šฐUnlearning๊ณผ Alignment๊ฐ€ โ€˜์›ํ•˜์ง€ ์•Š๋Š” ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ์ค„์ด๊ณ , ์›ํ•˜๋Š” ์˜์—ญ์˜ ๋ถ„ํฌ๋Š” ์œ ์ง€ํ•˜์žโ€™๋ผ๋Š” ๊ณตํ†ต motivation์„ ๊ฐ€์ง€๊ณ  ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•œ์ ์ด ์ธ์ƒ์ ์ž„. 4๊ฐ€์ง€ ํ™•๋ฅ  ์ง€ํ‘œ๋Š” ๊ต์ˆ˜๋‹˜๊ป˜์„œ ๋ณด๋‚ด์ฃผ์‹  leakage ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?4
์•ผํ‚คํ† ๋ฆฌํ™•๋ฅ ๋ก ์ ์œผ๋กœ ์ถœ๋ ฅ์„ ํ–ˆ๋‹ค๋ฉด ํ‰๊ฐ€ ๋˜ํ•œ ํ™•๋ฅ ๋ก ์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•ด์•ผ๋œ๋‹ค๋Š” ์•„์ด๋””์–ด๊ฐ€ ์ƒˆ๋กœ์› ๊ณ  ์‹ค์ œ๋กœ ์ •๋ณด ์œ ์ถœ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์—”ํŠธ๋กœํ”ผ์™€ ์˜จ๋„๋ฅผ ์กฐ์ ˆํ•ด์„œ ํ•˜๋Š”๊ฒŒ ์ธ์ƒ ๊นŠ์—ˆ๋˜ ๋…ผ๋ฌธ. ๋‹ค๋งŒ alignment์— ๋Œ€ํ•œ ์„ค๋ช…์ด ๋ถ€์กฑํ•ด์„œ ๊ทธ๋ƒฅ ์–ธ๋Ÿฌ๋‹๋งŒ์œผ๋กœ ๊ฐ”์–ด๋„ ๋์„ ๊ฒƒ ๊ฐ™๋‹ค.3.5

TL; DR

๐Ÿ’ก

LLM์ด ์–ธ๋Ÿฌ๋‹, ์ •๋ ฌ์ด ์ง„์งœ ์ž˜ ๋๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด์„  ๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์  ์ถœ๋ ฅ ์ฆ‰, ํ•˜๋‚˜์˜ ๋‹ต๋งŒ ํ‰๊ฐ€ํ•ด์„  ์•ˆ๋˜๊ณ , ๋ชจ๋ธ์˜ ์ „์ฒด ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณด๊ณ  ํ‰๊ฐ€๋ฅผ ํ•ด์•ผ ํ•จ

์ด๋ฅผ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์ ์ธ ํ‰๊ฐ€์ง€ํ‘œ๊ฐ€ ์•„๋‹Œ ์ƒˆ๋กœ์šด ํ™•๋ฅ ๋ก ์ ์ธ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์„ ์ œ์•ˆ

Summary

  • ์—ฐ๊ตฌ์ง„: ๋ฎŒํ—จ ๊ณต๊ณผ๋Œ€ํ•™๊ต
  • ์ธ์šฉ์ˆ˜: 24
  • ๊ฐœ์ธ์ ์œผ๋กœ ์ƒ์†Œํ•œ ์ฃผ์ œ + ์ˆ˜์‹์ด ๋„ˆ๋ฌด ๋งŽ์•„์„œ ์ฝ๋Š”๋ฐ ํ•œ์ฐธ ๊ฑธ๋ ธ์ง€๋งŒ ์•Œ์•„๊ฐ€๋Š”๊ฒŒ ๋งŽ์•˜๋˜ ๋…ผ๋ฌธ
  • ๊ทธ ๋™์•ˆ์— ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ๊ทธ๋ฆฌ๋””ํ•˜๊ฒŒ ๋ณด๋Š” ๊ฒƒ์„ ๋‹น์—ฐํ•˜๊ฒŒ ์ƒ๊ฐํ–ˆ์—ˆ๋Š”๋ฐ, ์ถœ๋ ฅ์„ ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ์ƒ˜ํ”Œ๋งํ–ˆ๋‹ค๋ฉด ํ‰๊ฐ€ ๋˜ํ•œ ๊ทธ๋ฆฌ๋””ํ•œ ํ‰๊ฐ€๊ฐ€ ์•„๋‹Œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ง€ํ‘œ๋กœ ๋ด์•ผํ•œ๋‹ค๋Š” ์ ์ด ํ‰์†Œ์— ์ƒ๊ฐ ๋ชปํ•œ ๋ถ€๋ถ„์ด๋ผ ์ธ์ƒ์ ์ž„

1. Introduction

1.1 Background

์–ธ๋Ÿฌ๋‹์˜ ๋“ฑ์žฅ

  • ๋ชฉํ‘œ: ํ•™์Šต๋œ ์ •๋ณด ์ค‘ ์žŠ๊ณ ์ž ํ•˜๋Š” ์ •๋ณด๋ฅผ ์ง€์šฐ๋Š” ๊ฒƒ
  • ์žฌํ•™์Šต(Retraining): ๊ธฐ์กด ๋ฐฉ์‹, ์ง€์šฐ๊ณ ์ž ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ œ์™ธํ•˜๊ณ  ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‹ค์‹œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹
    • ๋‹จ์ : ํ•™์Šต ๋น„์šฉ์ด ๋„ˆ๋ฌด ํฌ๊ณ  ์˜ค๋ž˜ ๊ฑธ๋ฆผ โ‡’ ์–ธ๋Ÿฌ๋‹์˜ ๋“ฑ์žฅ!
  • ์–ธ๋Ÿฌ๋‹(Unlearning): ์žฌํ•™์Šต์„ ํ•˜์ง€ ์•Š๊ณ  ์ด๋ฏธ ํ•™์Šต๋œ ์ •๋ณด ์ค‘ ์ผ๋ถ€ ์ •๋ณด๋งŒ ์„ ํƒ์ ์œผ๋กœ ์ง€์šฐ๋Š” ํ•™์Šต
    • ๋ชฉํ‘œ: ํŠน์ • ์ •๋ณด๋ฅผ ์ง€์šฐ๋˜, ๋‚˜๋จธ์ง€ ์„ฑ๋Šฅ์€ ์ตœ๋Œ€ํ•œ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ
  • ์–ธ๋Ÿฌ๋‹ ์—ฐ๊ตฌ์˜ view point๐Ÿค”
    • โ€œ์žฌํ•™์Šตํ•œ ๋ชจ๋ธโ€๊ณผ โ€œ์–ธ๋Ÿฌ๋‹ํ•œ ๋ชจ๋ธโ€์˜ ์ถœ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ๋น„์Šทํ•œ๊ฐ€?
    • ์‚ญ์ œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ธฐ์–ต์ด ์–ผ๋งˆ๋‚˜ ์‚ฌ๋ผ์กŒ๋Š”๊ฐ€?
    • ๋‚˜๋จธ์ง€ ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ์€ ์–ผ๋งˆ๋‚˜ ์œ ์ง€๋˜๋Š”๊ฐ€?

1.2 Motivation

๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ๋ฌธ์ œ์  (ํ™•๋ฅ ๋ก ์ ์ธ ์ถœ๋ ฅ but ๊ฒฐ์ •๋ก ์ ์ธ ํ‰๊ฐ€)

  • Beam Search, Multinomial Sampling ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์€ ํ™•๋ฅ ์  ๋””์ฝ”๋”ฉ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์ถœ๋ ฅ์„ ์ƒ์„ฑ
  • ํ•˜์ง€๋งŒ LLM์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋Š” ์ฃผ๋กœ greedy decoding์œผ๋กœ ์ƒ์„ฑ๋œ ๊ฒฐ์ •๋ก ์  ์ถœ๋ ฅ์— ์˜์กด
    • greedy decoding: ๋”ฑ ํ•œ ๋ฒˆ๋งŒ ๋‹ต์„ ๋ฝ‘์•„์„œ ๊ทธ๊ฑธ๋กœ๋งŒ ์„ฑ๋Šฅ์„ ์ธก์ •
  • ์–ธ๋Ÿฌ๋‹(Unlearning): ๋ชจ๋ธ์ด ํŠน์ • ์ •๋ณด๋ฅผ ์ •๋ง ์žŠ์—ˆ๋Š”์ง€ ํ‰๊ฐ€ํ•ด์•ผ ํ•จ
  • ์ •๋ ฌ(Alignment): ๋ชจ๋ธ์ด ํ•ด๋กœ์šด ๋‹ต๋ณ€์„ ์‹ค์ œ๋กœ ์•ˆ ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•ด์•ผ ํ•จ

โ‡’ RQ ๊ฒฐ์ •๋ก ์ ์ธ ํ‰๊ฐ€๋งŒ์œผ๋กœ ์–ธ๋Ÿฌ๋‹๊ณผ ์ •๋ ฌ์ด ์ž˜ ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์„๊นŒ?

1. ์ง€์›Œ์•ผ ํ•  ์ •๋ณด: Harry Potter์˜ best friends(Ron&Hermione)
2. ๊ฒฐ์ •๋ก ์  ์ถœ๋ ฅ(์™ผ์ชฝ ๊ทธ๋ž˜ํ”„)์˜ ๊ฒฝ์šฐ ์ •๋ณด ๋ˆ„์ถœ์„ John and Peter๋ฅผ ์ถœ๋ ฅํ•˜์—ฌ ์–ธ๋Ÿฌ๋‹์— ์„ฑ๊ณตํ–ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ ํ™•๋ฅ ์ ์ธ ๋ถ„ํฌ๋กœ ํ‰๊ฐ€ํ•  ๊ฒฝ์šฐ ์ •๋ณด ๋ˆ„์ถœ์„ ํŒŒ๋ž€ ๋ฐฐ๊ฒฝ์˜ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์€ ์ •๋ณด ๋ˆ„์ถœ์ด ํ™•์ธ๋จ

ํ™•๋ฅ ๋ก  ๊ด€์ ์˜ ์–ธ๋Ÿฌ๋‹

  • ์ง€์›Œ์•ผ ํ•  ๋ฐ์ดํ„ฐ D๋ฅผ ํฌํ•จํ•ด์„œ ํ•™์Šตํ•œ ์ถœ๋ ฅ ๋ถ„ํฌ vs D๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ณ  ํ•™์Šตํ•œ ์ถœ๋ ฅ ๋ถ„ํฌ
    • ๋‘ ๋ถ„ํฌ์˜ ์ฐจ์ด๋ฅผ ์ค„์—ฌ์ฃผ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๊ฑฐ๋‚˜ gradient ์—…๋ฐ์ดํŠธ๋ฅผ ์„ค๊ณ„ํ•ด์•ผ ํ•จ

      โ‡’ retraining ์„ ํ•˜์ง€ ์•Š๊ณ ๋„ โ€œD๋ฅผ ๋นผ๊ณ  ํ•™์Šตํ•œ ๋ชจ๋ธโ€์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ

  • ๊ธฐ์กด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ_old, D ์–ธ๋Ÿฌ๋‹ ํ›„ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ_unlearn, D๋ฅผ ์ œ์™ธํ•˜๊ณ  ์žฌํ•™์Šตํ•˜์—ฌ ์–ป์€ ์ด์ƒ์ ์ธ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ* ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ,

    โ‡’ ๋ชฉํ‘œ: ์žฌํ•™์Šต ์—†์ด ฮธ_old โ†’ ฮธ_unlearn ๋กœ ๋งŒ๋“ค๊ณ  ฮธ_unlearn โ‰ˆ ฮธ* ๊ฐ€ ๋˜๋„๋ก ํ•™์Šต

1.3 Contribution

  • ๋ฉ€ํ‹ฐ๋…ธ๋ฏธ์–ผ ์ƒ˜ํ”Œ๋ง๋งŒ์œผ๋กœ๋„ ์ตœ์‹  ์–ธ๋Ÿฌ๋‹/์ •๋ ฌ ๋ชจ๋ธ์—์„œ ์–ธ๋Ÿฌ๋‹๋œ ์ •๋ณด, ์œ ํ•ด ์ •๋ณด๋ฅผ ๊ฐ์ง€ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์ž„
  • LLM ํ‰๊ฐ€๋ฅผ ํ™•๋ฅ ์  ๊ด€์ ์—์„œ ๋ชจ๋ธ๋งํ•œ ์ฒซ ์—ฐ๊ตฌ๋กœ, ๊ธฐ์กด์˜ ๊ฒฐ์ •๋ก ์ ์ธ greedy ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ๋ฐฉ์‹๋ณด๋‹ค ํ™•๋ฅ ๋ก ์ ์ธ ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์ •๋ณด ์œ ์ถœ์„ ๋” ์ž˜ ํฌ์ฐฉํ•จ์„ ์ž…์ฆ
  • ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ, ๊ณ ํ™•๋ฅ (high-probability) ๋ณด์žฅ์„ ์ œ๊ณตํ•˜๋Š” ๋„ค ๊ฐ€์ง€ ํ™•๋ฅ ์  ํ‰๊ฐ€ ์ง€ํ‘œ(Mbin, Mgen, Mฮผ, Mฯƒ)์™€ ๊ฐœ๋ฐœ์šฉ ๊ฐ„๋‹จ ์ง€ํ‘œ(ED score)๋ฅผ ์ œ์•ˆ
  • ๋ถ„ํฌ ์ฐจ์›์—์„œ ์–ธ๋Ÿฌ๋‹์„ ๋” ์•ˆ์ „ํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด(์ •๋ณด ๋ˆ„์ถœ์„ ์ž˜ ๋ง‰๊ธฐ ์œ„ํ•ด) ์•„๋ž˜์™€ ๊ฐ™์€ ๋‘ ๋ฐฉ๋ฒ•๋ก  ์ œ์•ˆ
    • (1) ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ ์ƒˆ๋กœ์šด ์†์‹ค ํ•จ์ˆ˜
    • (2) Adaptive Temperature Scaling

2. Methods

  • ๊ธฐ์กด์˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์€ ๋‹ต๋ณ€ 1๊ฐœ๋งŒ ํ™•์ธํ•˜์—ฌ ํ‰๊ฐ€ โ†’ ์šด์ด ์ข‹์œผ๋ฉด ํ†ต๊ณผ ๋‚˜์˜๋ฉด ํ†ต๊ณผ X
  • ๋‹ต๋ณ€์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์‹œ์ผœ๋ณด๊ณ  (๋ชฌํ…Œ์นด๋ฅผ๋กœ ์ƒ˜ํ”Œ๋ง), ์ •๋ณด ์œ ์ถœ์˜ ์œ„ํ—˜๋„๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ๋ฅผ ์ œ์‹œ

2.1 ๋ณ€์ˆ˜ ์„ธํŒ…

  • q: ํ”„๋กฌํ”„ํŠธ (์ •๋ณด ์œ ์ถœ์„ ์ด๋Œ์–ด ๋‚ด๊ธฐ ์œ„ํ•œ ์งˆ๋ฌธ) e.g., ํ•ด๋ฆฌํฌํ„ฐ์˜ ๋ฒ ํ”„๋Š” ๋ˆ„๊ตฌ๋ƒ?!
  • Y ~ ฯ€ฮธ(q): LLM์ด q์— ๋Œ€ํ•œ ์ถœ๋ ฅ ๋ถ„ํฌ์—์„œ ์ƒ˜ํ”Œ๋งํ•œ ํ•˜๋‚˜์˜ ๋‹ต๋ณ€ ์‹œํ€€์Šค (ํ† ํฐ ์—ฌ๋Ÿฌ ๊ฐœ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฌธ์žฅ)
  • Yโ‚,โ€ฆ,Yโ‚™ ~ ฯ€ฮธ(q): LLM์„ n๋ฒˆ ํ˜ธ์ถœํ•ด์„œ, ํ”„๋กฌํ”„ํŠธ q์— ๋Œ€ํ•œ ๋‹ต๋ณ€ n๊ฐœ๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ ๊ฒƒ
  • Xแตข = h(Yแตข): ๋žœ๋คํ•˜๊ฒŒ ํ•˜๋‚˜์˜ ๋‹ต๋ณ€ Y๋ฅผ ๋ฝ‘์•˜์„ ๋•Œ, ๊ทธ ๋‹ต๋ณ€์˜ ์œ ์ถœ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜
    • X= h(Y) = 0: ์ •๋ณด ๋ˆ„์ถœ ์—†์Œ
    • X =h(Y) = 1: ์™„์ „ ๋ˆ„์ถœ
  • M(Xโ‚,โ€ฆ,Xโ‚™): Xโ‚,โ€ฆ,Xโ‚™์„ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์–ด ์ •์˜ํ•œ metric M(Mbin, Mgen, Mฮผ, Mฯƒ)์„ ๊ณ„์‚ฐํ•œ ๊ฒƒ

2.2 LLM ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ 4+ 1๊ฐ€์ง€ ํ™•๋ฅ ์  ํ‰๊ฐ€ ์ง€ํ‘œ

  • ์•„๋ž˜์˜ ์ด 4๊ฐœ์˜ Evaluation Metric์„ ์ œ์•ˆ
  1. Mbin (Binary leakage bound)
    • ๋ชฉ์ : ํ•œ๋ฒˆ ๋” ๋‹ต๋ณ€์„ ์ƒ˜ํ”Œ๋งํ–ˆ์„ ๋•Œ, ์œ ์ถœ์ด ํ•œ ๋ฒˆ์ด๋ผ๋„ ์ผ์–ด๋‚  ํ™•๋ฅ ์˜ ์ƒํ•œ์— ๋Œ€ํ•œ ์ง€ํ‘œ(์ด์ง„ ์ƒํ™ฉ)
      • n๋ฒˆ ์‹คํ—˜ ํ›„, ์œ ์ถœ๋œ ํšŸ์ˆ˜๋ฅผ ์„ธ์–ด์„œ ๋‹ค์Œ ๋‹ต๋ณ€์ด ์œ ์ถœ๋  ํ™•๋ฅ ์˜ ์ตœ๋Œ“๊ฐ’์„ ๊ณ„์‚ฐ
      • ์ •๋‹ต ํ‚ค์›Œ๋“œ๊ฐ€ ํฌํ•จ๋˜๋ฉด โ†’ X=h(Y)=1 (์œ ์ถœ O)
      • ํฌํ•จ๋˜์ง€ ์•Š์œผ๋ฉด โ†’ X=h(Y)=0 (์œ ์ถœ X)
    • ์œ ์ถœ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” Xiโˆˆ{0,1} ๋Š” ๋ฒ ๋ฅด๋ˆ„์ด ํ™•๋ฅ ๋ณ€์ˆ˜,์ž„์˜์˜ ๋‹ต๋ณ€ 1๊ฐœ์—์„œ ์ •๋ณด๊ฐ€ ๋ˆ„์ถœ๋  ํ™•๋ฅ  p
    • ์ƒ˜ํ”Œ n๊ฐœ์— ๋Œ€ํ•ด
    • Sโ‚™: ์œ ์ถœ์ด ๋ฐœ์ƒํ•œ ์ƒ˜ํ”Œ์˜ ๊ฐœ์ˆ˜ e.g., n=100, ๊ทธ ์ค‘ 3๊ฐœ ๋‹ต์ด ์ •๋‹ต ํ‚ค์›Œ๋“œ๋ฅผ ํฌํ•จ โ†’ Sโ‚™=3
    • ๋‹ค์Œ ํ•œ ๋ฒˆ์˜ ์ƒ˜ํ”Œ์—์„œ ์ƒ ํ™•๋ฅ  p์˜ ์ƒํ•œ
  1. Mgen (General leakage bound)
  • ๋ชฉ์ : ์œ ์ถœ ์ •๋„๊ฐ€ ฯ„ ์ด์ƒ์ธ ์œ ์ถœ์ด ๋‹ค์Œ ๋ฒˆ์— ๋‚˜์˜ฌ ํ™•๋ฅ ์€ ์ตœ๋Œ€ ์–ผ๋งˆ์ธ๊ฐ€? ์— ๋Œ€ํ•œ ์ง€ํ‘œ
  • ์„ธํŒ…:
    • ์œ ์ถœ ์ •๋„๋ฅผ ์—ฐ์† ๊ฐ’์œผ๋กœ ์ธก์ •:
    • X=h(Y)โˆˆ[0,1]
      • 0.0 โ†’ ์ „ํ˜€ ์•ˆ ์ƒˆ์—ˆ์Œ
      • 0.3 โ†’ ์‚ด์ง ๋น„์Šท
      • 0.8 โ†’ ๊ฑฐ์˜ ๊ทธ๋Œ€๋กœ ๋งํ•จ
    • ๊ธฐ์ค€๊ฐ’ x๋ฅผ ์ •ํ•˜๊ณ ,Pr(X>x)

      = โ€œ๋ˆ„์ถœ ์ •๋„๊ฐ€ x๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์‹ฌ๊ฐํ•œ ์œ ์ถœ์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ ์„ ๊ตฌํ•จ

  1. Mฮผ (Expectation bounds, ๊ธฐ๋Œ€ ์œ ์ถœ ์ƒํ•œ)
  • ์ด ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ํ‰๊ท ์ ์œผ๋กœ ์–ด๋А ์ •๋„์˜ ์œ ์ถœ ์ •๋„๋ฅผ ๊ฐ–๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ
    • X์˜ ๊ธฐ๋Œ“๊ฐ’(ํ‰๊ท  ์ •๋ณด ์œ ์ถœ๋Ÿ‰)์˜ ์ƒํ•œ์„  ์ œ๊ณต
  • ๊ตฌ๊ฐ„ย [0,1]์„ย K๊ฐœ์˜ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆ„๊ณ , ๊ฐ ๊ตฌ๊ฐ„์— ๋Œ€ํ•ด ๊ฒฝํ—˜์  CDF ๊ฐ’์„ ์ด์šฉํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ
  1. Mฯƒ (Standard deviation bound, ํ‘œ์ค€ํŽธ์ฐจ ์ƒํ•œ)
    • ํ‰๊ท ๋งŒ ๋ณด๊ณ  ์•Œ ์ˆ˜ ์—†๋Š” ์œ ์ถœ ์ •๋„์˜ ํ‘œ์ค€ํŽธ์ฐจ์— ๋Œ€ํ•ด ์ƒํ•œ์„ ์ œ๊ณต
      • ์œ ์ถœ ์ ์ˆ˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ถˆํ™•์‹ค(๋“ค์ญ‰๋‚ ์ญ‰)ํ•œ์ง€ ์•Œ๊ณ  ์‹ถ์„ ๋•Œ
    • ๋‹ต๋ณ€์˜ ๋ณ€๋™์„ฑ, ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์•„๋ฌด๋ฆฌ ์ปค๋„ Mฯƒ๋ณด๋‹ค๋Š” ์ž‘์„ ๊ฒƒ์ด๋ผ๋Š” ์ƒํ•œ์„  ์„ค์ •
      • Mฯƒ๊ฐ’์ด ํฌ๋ฉด ๋“ค์ญ‰๋‚ ์ญ‰ํ•˜๊ฒŒ ์ •๋ณด๋ฅผ ์œ ์ถœ ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ
      • Mฯƒ๊ฐ’์ด ์ž‘์œผ๋ฉด ๋น„์Šทํ•œ ์ •๋„์˜ ์ •๋ณด๋ฅผ ์œ ์ถœํ•˜๋Š” ๋ชจ๋ธ
  1. ED score
    • ๋ชฉํ‘œ: ๊ฐœ๋ฐœ ์ค‘์— ๊ฐ„๋‹จํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ๋น ๋ฅด๊ณ  ๊ฐ„๋‹จํ•œ ์ง€ํ‘œ ED score ์ œ์•ˆ
    • Smean: ํ‰๊ท ์ ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์œ ์ถœํ•˜๋Š”๊ฐ€?
    • Ssd: ๊ฐ€๋” ํŠ€๋Š” ์œ ์ถœ(ํ‘œ์ค€ ํŽธ์ฐจ)์ด ์–ด๋А์ •๋„์ธ๊ฐ€?
    • ฯ: ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ์˜ ๋น„์ค‘์„ ์กฐ์ ˆํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ (๋ณธ ๋…ผ๋ฌธ์—์„œ ฯ=2 ์‚ฌ์šฉ)

      โ†’ ED score ์ ์ˆ˜๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ํ‰๊ท  ์œ ์ถœ๋„ ์ž‘๊ณ  ๊ฐ€๋” ํฌ๊ฒŒ ์ƒˆ๋Š” ์ผ€์ด์Šค๋„ ์ ๋‹ค๋Š” ๋œป โ†’ ์–ธ๋Ÿฌ๋‹ good!

2.3 ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™” + ์˜จ๋„ ์Šค์ผ€์ผ๋ง์— ์˜ํ•œ ๋ถ„ํฌ ์–ธ๋Ÿฌ๋‹

  • ๊ธฐ์กด ์–ธ๋Ÿฌ๋‹ ํ‰๊ฐ€ ๋ฌธ์ œ์ : ๋ชจ๋ธ์ด ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ๋กœ ๋‚ด๋†“๋Š” ๋‹ต๋ณ€(Greedy output)์—๋งŒ ์ง‘์ค‘ํ•จ

โ†’ ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” ์ƒ˜ํ”Œ๋ง(temperature, top-p ๋“ฑ)๋ฅผ ๋งŽ์ด ์‚ฌ์šฉ

โ†’ ๊ทธ๋ฆฌ๋“œํ•œ ์ถœ๋ ฅ ํ‰๊ฐ€๋กœ๋Š” ์œ ์ถœ์ด ์•ˆ๋œ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์—ฌ๋„ ์ƒ˜ํ”Œ๋งํ•˜๋ฉด ์œ ์ถœ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

โ‡’ ํ•˜๋‚˜์˜ ์ •๋‹ต์— ๋Œ€ํ•œ ํ•™์Šต์ด ์•„๋‹Œ ๋ถ„ํฌ ์ž์ฒด๊ฐ€ ์•ˆ์ „ํ•˜๊ฒŒ ๋งŒ๋“ค๋„๋ก ํ•™์Šต์‹œํ‚ค์ž!

  • 1. ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™”
    • ๋ชฉํ‘œ: ์žŠ์–ด์•ผ ํ•  ์ •๋ณด(forget set)์€ ๋ถˆํ™•์‹ค์„ฑ์„ ์ตœ์†Œํ™”ํ•˜๊ณ , ์ผ๋ฐ˜ ์ •๋ณด(retain set)์€ ์ฐฝ์˜์„ฑ ์œ ์ง€
    • forget set(DFG):
      • ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ค„์—ฌ์„œ ์ƒ˜ํ”Œ๋ง์„ ํ•ด๋„ ์ •๋ณด ๋ˆ„์ถœ์ด ์•ˆ๋˜๋„๋ก

      โ†’ ์ƒ˜ํ”Œ๋ง์„ ํ•ด๋„ ๊ณ„์† ๋น„์Šทํ•œ ์•ˆ์ „ ๋‹ต๋งŒ ๋‚˜์˜ค๊ฒŒ ๋งŒ๋“ค๊ธฐ

    • Retain set(DFT):
      • ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋Š˜๋ ค์„œ ๊ธฐ์กด์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๋‹ต, ์ฐฝ์˜์„ฑ์„ ์œ ์ง€

    • ํ‰๊ท  ํ† ํฐ ์—”ํŠธ๋กœํ”ผ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์ „์ฒด ํ† ํฐ์— ๋Œ€ํ•œ ํ‰๊ท  ์†์‹ค์„ ๊ตฌํ•จ
    • ํ† ํฐ ๋ถ„ํฌ q=ฯ€ฮธ(โ‹…โˆฃy<t,x) ์˜ ์—”ํŠธ๋กœํ”ผ:
      ์—”ํŠธ๋กœํ”ผ ํ•จ์ˆ˜
    • ๊ธธ์ด m์ธ ์‹œํ€€์Šค (x,y)์— ๋Œ€ํ•œ ํ‰๊ท  ํ† ํฐ ์—”ํŠธ๋กœํ”ผ ์†์‹ค
      ํ‰๊ท  ํ† ํฐ ์—”ํŠธ๋กœํ”ผ ์†์‹คํ•จ์ˆ˜
    • Forget / Retain Set์— ๋Œ€ํ•œ ๊ธฐ๋Œ€ ์—”ํŠธ๋กœํ”ผ
    • DFG์—์„œ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ํฌ๋ฉด EDFG[โ„“ฮธ(x,y)]๊ฐ€ ์ปค์ง€๊ณ 

      โ†’ ฮปf>0์ด๋ฏ€๋กœ ์ „์ฒด ์†์‹ค LEO๋„ ์ปค์ง

      โ†’ DFG์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ

      โ†’ DFG ์ถœ๋ ฅ์˜ ๋žœ๋ค์„ฑ์„ ์™„ํ™”ํ•˜๋Š” ๊ฒƒ์ž„

    • ๋ฌธ์ œ๋Š” ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ทธ๋ƒฅ ๋‚ฎ์ถฐ๋ฒ„๋ฆฌ๋ฉด ๋ชจ๋“  ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์ด ๋‹จ์กฐ๋กœ์›Œ์ง€๊ณ  ์ฐฝ์˜์„ฑ์ด ๋–จ์–ด์ง

      โ†’ DRT์— ๋Œ€ํ•œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์•ฝ๊ฐ„ ๋Š˜๋ฆฌ๋„๋ก ๊ฐ€์ค‘์น˜๋ฅผ ๋‘ 

    • ์ตœ์ข… ์†์‹ค ํ•จ์ˆ˜
      • LUL(ฮธ): ๊ธฐ์กด ์–ธ๋Ÿฌ๋‹ ์†์‹ค (์˜ˆ: NPO)
      • ฮปf>0: DFG์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ค„์ด๋ ค๋Š” ๊ฐ€์ค‘์น˜
      • ฮปr<0: DRT์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์•ฝ๊ฐ„ ๋Š˜๋ฆฌ๋ ค๋Š” ๊ฐ€์ค‘์น˜ (์Œ์ˆ˜)

2. ์ ์‘ํ˜• ์˜จ๋„ ์กฐ์ ˆ(Adaptive Temperature Scaling)

  • ๋ชฉํ‘œ: ๋ชจ๋ธ์ด ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ์„ ๋ฐ›์•˜์„ ๋•Œ, ์Šค์Šค๋กœ ์œ„ํ—˜์„ ๊ฐ์ง€ํ•˜๊ณ  ์ •๋ณด ์œ ์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ์›์ฒœ ์ฐจ๋‹จ
  • ๋ชจ๋ธ์ด ์ž…๋ ฅ x์— ๋Œ€ํ•œ ํ™•์‹ ์ด ์žˆ์„ ๋•Œ, ์˜จ๋„๋ฅผ 0์œผ๋กœ ๋‚ฎ์ถฐ ๊ฒฐ์ •์ ์ธ(greedy) ์ถœ๋ ฅ์„ ํ•˜๋„๋ก ์œ ๋„
    • ํ™•์‹ ์ด ์ ์„ ๋•Œ๋งŒ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด ๋ˆ„์ถœ์„ ์ค„์ž„
  • ์ž…๋ ฅ x์— ๋Œ€ํ•ด ์ƒ์„ฑ๋œ ์‹œํ€€์Šค์˜ ๊ฐ ํ† ํฐ์—์„œ ๋“ฑ์žฅ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ํ† ํฐ yt^์˜ ํ™•๋ฅ : p(yt^โˆฃy<t,x)
  • ์ „์ฒด ์‹œํ€€์Šค์˜ ํ‰๊ท  ํ™•์‹ ๋„ ๊ณต์‹
    • y^t: ์ž…๋ ฅ x์— ๋Œ€ํ•ด ์ƒ์„ฑ๋œ ์‹œํ€€์Šค์˜ ๊ฐ ์œ„์น˜์—์„œ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ํ† ํฐ
    • p(y^t | y<t, x) : y^t์˜ ๋“ฑ์žฅ ํ™•๋ฅ 
    • โ†’ ๊ฐ ํ† ํฐ์˜ p(y^tโˆฃy<t,x) ๊ฐ’์„ ํ‰๊ท  ๋‚ด์–ด ์‹œํ€€์Šค์˜ ํ‰๊ท  ํ™•์‹ ๋„๋ฅผ ๊ณ„์‚ฐ
  • ํŠน์ • ๊ธฐ์ค€์ (threshold cT)๋ฅผ ๋‘์–ด c(x)๊ฐ’์ด cT๋ฅผ ๋„˜์œผ๋ฉด ฯ„=0, ์•„๋‹ˆ๋ฉด ๊ธฐ๋ณธ ๊ฐ’์œผ๋กœ ์„ค์ •ํ•˜์˜€์Œ
  • โ†’ ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ์ผ ๋•Œ๋งŒ ์˜จ๋„๋ฅผ 0์œผ๋กœ ๋‚ฎ์ถฐ(Adaptive) ์ •๋ณด ๋ˆ„์ถœ์„ ์ค„์ด๊ณ  ์ถœ๋ ฅ ๋‹ค์–‘์„ฑ์—๋Š” ์˜ํ–ฅ X

3. Experiments

  • experimental setup
    1. Unlearning Settings
      • ๋ฐ์ดํ„ฐ์…‹
        • TOFU (200๋ช… ๊ฐ€์งœ ์ž‘๊ฐ€ ํ”„๋กœํ•„):
          • retain set: ์œ ์ง€ํ•ด์•ผ ํ•  ์ •๋ณด
          • forget set: ์ง€์›Œ์•ผ ํ•  ์ •๋ณด
        • ์ถ”๊ฐ€๋กœ Real Authors, World Facts ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ ์œ ํ‹ธ๋ฆฌํ‹ฐ ์ธก์ •
        • ๋ชจ๋ธ: Phi-1.5
      • ์ถ”๊ฐ€ ์‹คํ—˜:
        • Llama-2-Who-is-Harry-Potter: Harry Potter ๊ด€๋ จ ์ง€์‹์„ ์ง€์šฐ๋„๋ก ์–ธ๋Ÿฌ๋‹๋œ ๋ชจ๋ธ
        • ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ: Harry Potter Q&A (์งˆ๋ฌธ + ๊ด€๋ จ ํ‚ค์›Œ๋“œ)
      • ์ง€ํ‘œ
        • ROUGE-L:
          • ์ •๋‹ต ๋ฌธ์žฅ๊ณผ ์ƒ์„ฑ ๋ฌธ์žฅ ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„
          • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ROUGE-L ์ ์ˆ˜๊ฐ€ ๋†’๋‹ค โ‡’ ์ •๋ณด ๋ˆ„์ถœ์— ๊ฐ€๊น๋‹ค๋กœ ํ•ด์„
        • self-BLEU:
          • ์ƒ์„ฑ๋œ ์—ฌ๋Ÿฌ ์ƒ˜ํ”Œ๋ผ๋ฆฌ BLEU๋ฅผ ์ธก์ •ํ•˜์—ฌ โ€œ์„œ๋กœ ์–ผ๋งˆ๋‚˜ ๋น„์Šทํ•œ๊ฐ€โ€๋ฅผ ๋น„๊ต
      • ์–ธ๋Ÿฌ๋‹ ๋ฒ ์ด์Šค๋ผ์ธ
        • Gradient Ascent (GA), Gradient Difference (GD), RMU, Negative Preference Optimization (NPO, SotA)
        • ์ œ์•ˆ ๋ฐฉ๋ฒ•์€ NPO + ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™” + ์ ์‘์  ์˜จ๋„ ์กฐ์ ˆ
    1. Alignement Settings
      • ๋ฐ์ดํ„ฐ: JailbreakBench(JBB) ์˜ 100๊ฐœ harmful behavior ์งˆ๋ฌธ
      • Alignment ์ธก์ •
        • Harmbench toxicity classifier๊ฐ€
          • ๋ชจ๋ธ ๋‹ต๋ณ€์ด โ€œ์œ ํ•ดํ•˜๋‹ค๊ณ  ํŒ์ •๋  ํ™•๋ฅ โ€์„ ์คŒ โ†’ ์ด๊ฒƒ์„ toxicity score๋กœ ์‚ฌ์šฉ.
      • Models
        • Phi-1.5, Vicuna-7b-1.5, Mistral-7b-instruct-v0.3

figure 3

Harry Potter Q&A ์— ๋Œ€ํ•œ Mbin ๊ฒฐ๊ณผ

  • figure 3-(a)
    • x์ถ•: ์ด์ง„ ๋ˆ„์ถœ ์ƒํ•œ ์ง€ํ‘œ Mbin ๊ฐ’ (0~0.6 ์ •๋„)
      • ๋‹ค์Œ ์ƒ˜ํ”Œ์—์„œ ์ •๋ณด๊ฐ€ ์ƒ ํ™•๋ฅ ์˜ ์ƒํ•œ
    • y์ถ•: ๊ทธ M_bin ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ์งˆ๋ฌธ์˜ ๋น„์œจ
    • ํŒŒ๋ž€์ƒ‰: ์ „ํ†ต์ ์ธ ๊ทธ๋ฆฌ๋”” ํ‰๊ฐ€
    • ์ฃผํ™ฉ์ƒ‰: ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ํ™•๋ฅ ์  ํ‰๊ฐ€
    • ์‹คํ—˜๊ฒฐ๊ณผ
      • ๊ธฐ์กด์˜ ๊ทธ๋ฆฌ๋”” ํ‰๊ฐ€์—์„œ๋Š” ๊ฑฐ์˜ ๋ชจ๋“  ์งˆ๋ฌธ์˜ ์ •๋ณด ๋ˆ„์ถœ์ด 0์— ๊ฐ€๊นŒ์›€
      • ํ™•๋ฅ ์  ํ‰๊ฐ€์˜ ๊ฒฝ์šฐ 38%์˜ ์งˆ๋ฌธ์ด ๋ˆ„์ถœ์ด ๋˜์—ˆ์Œ์„ ์ž…์ฆ

TOFU โ€“ ๋‹จ์ผ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋ถ„ํฌ ๋ถ„์„

  • figure 3-(b,c)
    • ๊ฐ™์€ ์งˆ๋ฌธ์— ๋Œ€ํ•ด 1024๊ฐœ ์ƒ˜ํ”Œ์„ ๋ฝ‘๊ณ  ๊ฐ ์ƒ˜ํ”Œ์˜ ROUGE-L ๋ถ„ํฌ๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ํ‘œํ˜„
      • x์ถ•: ROUGE-L
      • y์ถ•: ํ™•๋ฅ  ๋ฐ€๋„ (์ ์ˆ˜ ๊ทผ์ฒ˜์—์„œ ๋‹ต๋ณ€์ด ๋‚˜์˜ฌ ๋นˆ๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’)
    • ๊ตต์€ ์ ์„ : ๊ฐ ๋ฐฉ๋ฒ•์˜ ๊ทธ๋ฆฌ๋”” ์ถœ๋ ฅ์˜ ROUGE-L ์ ์ˆ˜
    • (b): ๋‘ ์–ธ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•(GA vs NPO ๋“ฑ) ๋น„๊ต
    • (c): NPO vs NPO + ์—”ํŠธ๋กœํ”ผ ์ตœ์ ํ™”(์ œ์•ˆ ๋ฐฉ๋ฒ•) ๋น„๊ต
    • ๊ฐ™์€ ์„ฑ๋Šฅ ์ ์ˆ˜(ROUGE)๋ผ๋„ ๋ถ„ํฌ๋ฅผ ๊นŒ๋ณด๋ฉด NPO๋Š” ์œ„ํ—˜ํ•˜๊ณ , ์ œ์•ˆ ๋ฐฉ์‹(Ours)์€ ์•ˆ์ „


    TOFU ์–ธ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ• ๋น„๊ต: ๊ฒฐ์ •๋ก ์  vs ํ™•๋ฅ ์  ํ‰๊ฐ€

    ROUGE-L, ED Score ๋ชจ๋‘ ์ ์ˆ˜๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ์–ธ๋Ÿฌ๋‹์ด ์ž˜๋œ ๊ฒƒ
  • Ours๊ฐ€ ๊ฒฐ์ •๋ก ์ ์ธ ๊ธฐ์ค€(Det.) ํ™•๋ฅ ๋ก ์ ์ธ ๊ธฐ์ค€(Prob.) ๋ชจ๋‘์—์„œ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ
    • ํ‰๊ท  ์œ ์ถœ ์ •๋„(Mean)๋„ ๊ฐ€์žฅ ๋‚ฎ๊ณ , ์ƒ˜ํ”Œ๋งˆ๋‹ค ์œ ์ถœ ์ •๋„(Std. Dev.ํ‘œ์ค€ํŽธ์ฐจ)๊ฐ€ ๊ฑฐ์˜ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค
  • ๊ฒฐ์ •๋ก ์  ์–ธ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•์ธ GA์™€ GD์˜ ๊ฒฝ์šฐ, ํ™•๋ฅ ๋ก ์  ์–ธ๋Ÿฌ๋‹์—์„œ์˜ ํ‰๊ท (mean)์ด ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ์œผ๋กœ ์–ป์€ ROUGE-L ์ ์ˆ˜์™€ ๊ฑฐ์˜ ์ผ์น˜ํ•˜์ง€๋งŒ GD(0.33,0.32),GA(0.32,0.31) , ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ํฌ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Œ
  • ๊ธฐ์กด์˜ ์ง€ํ‘œ(RMU, GD, GA, NPO) ๋ชจ๋‘ Det.์—์„œ ์–ธ๋Ÿฌ๋‹์ด ์ž˜ ๋˜์—ˆ๋‹ค๊ณ  ํŒ๋‹จํ–ˆ์ง€๋งŒ ํ™•๋ฅ ์  ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ๋ถ„ํฌ ์•ˆ์— ์ •๋ณด ๋ˆ„์ถœ์˜ ์œ„ํ—˜์ด ์•„์ง ์žˆ์Œ์„ ์ž…์ฆ

์—”ํŠธ๋กœํ”ผ ์ •๊ทœํ™”๊ฐ€ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

  • (a): ฮปf๋Š” 1๋กœ ๊ณ ์ •ํ•˜๊ณ  Retain ์ •๊ทœํ™” ๊ณ„์ˆ˜ ฮปr๋ฅผ 0 โ†’ โˆ’0.25 ๋ฐฉํ–ฅ์œผ๋กœ ์ ์  ๋” ์Œ์ˆ˜๋กœ ๊ฐ์†Œ
    • ํŒŒ๋ž€ ์ ์„ : NPO + ์—”ํŠธ๋กœํ”ผ ์ •๊ทœํ™” | ๊ฒ€์€ ์ ์„ : NPO

    โ‡’ ฮปr ๊ฐ’์„ ๋‚ฎ์ถœ์ˆ˜๋ก(๋” ํฐ ์Œ์ˆ˜๋กœ ๋งŒ๋“ค์ˆ˜๋ก), DRT(์ง€์ผœ์•ผ ํ•  ๋ฐ์ดํ„ฐ)์— ๋Œ€ํ•œ ์—”ํŠธ๋กœํ”ผ ๋ณด์ƒ์ด ์ปค์ ธ, ๋‹ต๋ณ€์˜ ๋‹ค์–‘์„ฑ(Diversity)์ด ์ฆ๊ฐ€ํ•จ

  • (b): epoch์ด ๋Š˜์–ด๋‚ ์ˆ˜๋ก DFG(์ง€์šธ ์ •๋ณด)์™€ DRT(์ง€ํ‚ฌ ์ •๋ณด) ์‚ฌ์ด์˜ ํ™•์‹ ๋„๊ฐ€ ๋ฒŒ์–ด์ง(์ž˜ ๊ตฌ๋ถ„ํ•จ)

    โ‡’ ๋ชจ๋ธ์ด ํ•™์Šต ๊ณผ์ •์—์„œ retain ์ •๋ณด์™€ forget ์ •๋ณด๋ฅผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ์Œ

  • (c): TOFU ๋ฐ์ดํ„ฐ์…‹์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ถ„ํ•  ๋น„์œจ์— ๋Œ€ํ•ด, ED score์™€ model utility(๋ชจ๋ธ ์œ ์šฉ์„ฑ) ์˜ ๊ด€๊ณ„๋ฅผ ๋น„๊ต
    • x์ถ•: ED score
    • y์ถ•: Model Utility: retain ๋ฒค์น˜๋งˆํฌ(e.g., Real Authors, World Facts)์—์„œ์˜ ์„ฑ๋Šฅ

      โ†’ ๋†’์„์ˆ˜๋ก ์›๋ž˜ ๋ชจ๋ธ์˜ ์œ ์šฉ์„ฑ์„ ์ž˜ ์œ ์ง€ํ•จ์„ ์˜๋ฏธ

    • TOFU ๋ฐ์ดํ„ฐ split(90/10, 95/5, 99/1) ์ค‘ ํ•˜๋‚˜์—์„œ ฮปf๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ค์ •ํ•˜์—ฌ NPO + ์—”ํŠธ๋กœํ”ผ ์ •๊ทœํ™”๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ ํ•˜๋‚˜

      โ‡’ ์‹คํ—˜ ๊ฒฐ๊ณผ: ์—”ํŠธ๋กœํ”ผ ์ •๊ทœํ™”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ๋„ ์–ธ๋Ÿฌ๋‹์„ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ(Model Utility)์€ ๋–จ์–ด์ง€์ง€ ์•Š์Œ

Preliminary

  • ๋ชฌํ…Œ์นด๋ฅผ๋กœ ์ƒ˜ํ”Œ๋ง
    • ๋ชฌํ…Œ์นด๋ฅผ๋กœ ๋ฐฉ๋ฒ•:
      • ์–ด๋–ค ํ™•๋ฅ ์ ์ธ ์ •๋„๋ฅผ (๊ธฐ๋Œ“๊ฐ’, ํ™•๋ฅ , ๋ถ„์‚ฐ ๋“ฑ)์„ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๊ธฐ ๋ณต์žกํ•  ๋•Œ, ๊ทธ ๋ถ„ํฌ์—์„œ ๋žœ๋ค ํ‘œ๋ณธ์„ ์—ฌ๋Ÿฌ ๊ฐœ ๋ฝ‘์•„์„œ ๊ทธ ํ‘œ๋ณธ๋“ค๋กœ ๊ทผ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•
      • ๋ชฌํ…Œ์นด๋ฅผ๋กœ ์ƒ˜ํ”Œ๋ง: ๋žœ๋ค ํ‘œ๋ณธ์„ ๋ฝ‘๋Š” ๊ณผ์ •
    • ์ˆ˜ํ•™์  ๊ณต์‹์œผ๋กœ ์ •ํ™•ํ•œ ๊ณ„์‚ฐ ๋Œ€์‹  ๋žœ๋ค ์‹คํ—˜์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋Œ๋ฆฐ ๊ฒฐ๊ณผ์˜ ํ‰๊ท ยท๋น„์œจ๋กœ ๊ทผ์‚ฌ
  • ๋ฒ ๋ฅด๋ˆ„์ด ํ™•๋ฅ  ๋ณ€์ˆ˜
    • ๊ฒฐ๊ณผ๊ฐ€ ๋”ฑ ๋‘ ๊ฐ€์ง€๋ฐ–์— ์—†๋Š” ์‹คํ—˜ e.g., ๋™์ „ ๋˜์ง€๊ธฐ
    • ๊ฒฐ๊ณผ ๊ฐ’์€ 0 ๋˜๋Š” 1 ๋ฟ. 1์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์„ p, ์•„๋‹Œ ํ™•๋ฅ ์„ 1-p๋ผ๊ณ  ์ •์˜
  • ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ๋””์ฝ”๋”ฉ
    • LLM์ด ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ์„ ํƒํ•˜์—ฌ ๋ฌธ์žฅ์„ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹
    • ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ: ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ๋งŒ ์„ ํƒ
    • ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ๋””์ฝ”๋”ฉ: ํ™•๋ฅ ์— ๋น„๋ก€ํ•ด์„œ ๋žœ๋ค์œผ๋กœ ์„ ํƒ
  • Next Word Prediction (Greedy Decoding/Beam Search/Multinomial Sampling)
    ์ „๋žต (์šฉ์–ด)ํ•ต์‹ฌ ์•„์ด๋””์–ด๋‹ต๋ณ€์˜ ํŠน์ง•
    Greedy Decoding๋งค ์ˆœ๊ฐ„ ํ™•๋ฅ  1์œ„ ๋‹จ์–ด๋งŒ ์„ ํƒ ํ•ญ์ƒ ๋˜‘๊ฐ™์€ ๋‹ต๋ณ€ (๊ฒฐ์ •๋ก ์ )
    Multinomial Samplingํ™•๋ฅ ์— ๋”ฐ๋ผ ๋ฌด์ž‘์œ„ ์„ ํƒ๋งค๋ฒˆ ๋‹ค๋ฅธ ๋‹ต๋ณ€ (ํ™•๋ฅ ๋ก ์ )
    Beam Search๊ฐ€์žฅ ์œ ๋ ฅํ•œ ๋ฌธ์žฅ ํ›„๋ณด 3~5๊ฐœ๋ฅผ ๋™์‹œ ํƒ์ƒ‰Greedy๋ณด๋‹ค ๋†’์€ ํ’ˆ์งˆ, ์ผ๊ด€์„ฑ
    1. Greedy Decoding (๊ฒฐ์ •๋ก )
      • ๊ฐ€์žฅ ์ข‹์€ ๊ฒƒ ํ•˜๋‚˜๋งŒ ์„ ํƒ โ†’ ๋งค ์ˆœ๊ฐ„, ๋ชจ๋ธ์ด ์ƒ๊ฐํ•˜๋Š” ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ๋‹จ์–ด๋ฅผ ์„ ํƒ
      • ๊ฒฐ์ •๋ก ์  โ†’ ๋ช‡ ๋ฒˆ์„ ๋ฌผ์–ด๋ด๋„ ๊ฐ™์€ ์‘๋‹ต ์ถœ๋ ฅ
    1. Beam Search (์ค‘๊ฐ„)
      • ๊ฐ€์žฅ ์œ ๋ ฅํ•œ ํ›„๋ณด ๋ช‡ ๊ฐœ๋งŒ ๋‚จ๊ธฐ๊ธฐ (greedy์™€ sampling์˜ ์ค‘๊ฐ„)
      • ๊ฐ€์žฅ ๊ทธ๋Ÿด๋“ฏํ•œ ๋ฌธ์žฅ ํ›„๋ณด๋ฅผ ๋น”(Beam)์ด๋ผ ๋ถ€๋ฅด๋Š” 3~5๊ฐœ๋งŒ ๋‚จ๊ธฐ๊ณ  ๊ณ„์† ํƒ์ƒ‰
    1. Multinomial Sampling (๋ฌด์ž‘์œ„ ํ™•๋ฅ )
      • ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฌด์ž‘์œ„ ์„ ํƒ
      • ํ™•๋ฅ ๋ก ์  โ†’ ๋งค๋ฒˆ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Œ
  • NPO (Negative Preference Optimization, ๋ถ€์ • ์„ ํ˜ธ ์ตœ์ ํ™”)
    • ๋ชฉํ‘œ: ์ด๋Ÿฐ ๋‹ต์€ ์‹ซ๋‹ค(์›ํ•˜์ง€ ์•Š๋Š”๋‹ค)๋Š” ์˜ˆ์ œ๋ฅผ ์ด์šฉํ•ด์„œ ๋ชจ๋ธ์ด ๊ทธ ๋‹ต์„ ๋œ ์ถœ๋ ฅํ•˜๋„๋ก ํ•™์Šต
      • ๊ธฐ์กด RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๋ฏธ์„ธ์กฐ์ •)
        • ์ข‹์€ ๋‹ต์€ ๋ณด์ƒ์„ ๋†’๊ฒŒ ์ค˜์„œ ์ž์ฃผ ๋‚˜์˜ค๊ฒŒ ๋งŒ๋“ค๊ณ  ๋‚˜์œ ๋‹ต์€ ๋ณด์ƒ์„ ๋‚ฎ๊ฒŒ ์ค˜์„œ ๋œ ๋‚˜์˜ค๋„๋ก

      โ‡’ ์–ธ๋Ÿฌ๋‹์—์„œ๋Š” ๋‚˜์œ ๋‹ต์— ๋Œ€ํ•œ ์„ ํ˜ธ๋ฅผ ๋‚ฎ์ถ”๋Š” (push down) ์ตœ์ ํ™”

    • ํ•™์Šต ๊ตฌ์กฐ
      1. ์งˆ๋ฌธโ€“๋‹ต ์Œ (x,y) โ†’ x: ํ”„๋กฌํ”„ํŠธ (์งˆ๋ฌธ), y: ์ง€์›Œ์•ผ ํ•˜๋Š” ์ •๋‹ต (forget ์ •๋‹ต)
        • e.g., โ€œAlex Bloom์€ 1995๋…„ 3์›” 5์ผ์— ํƒœ์–ด๋‚ฌ๋‹ค.โ€
      1. ์žŠ์–ด์•ผ ํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋ ค๊ณ  ํ•  ๋•Œ๋งˆ๋‹ค ๋ถ€์ •์ ์ธ ์ ์ˆ˜(์†์‹ค, Loss) ๋ถ€์—ฌํ•˜์—ฌ ๋ชจ๋ธ์ด ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ์‹ซ์–ดํ•˜๋„๋ก ์œ ๋„
        • โˆ’logโกฯ€ฮธ(yโˆฃx) (์†์‹ค)๋ฅผ maximize ํ•˜๋Š” ์ชฝ์œผ๋กœ ํ•™์Šต

Categories

research