A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

Review

닉네임	한줄평	별점 (0/5)
MNG	기존 언러닝의 평가 방법이 가진 문제점을 잘 짚은 것 같음. 이제는 LLM을 평가하는 것에 있어 결과보다는 과정까지 이해해보려는 노력이 많은 것 같음.	4
오차즈케	LLM의 unlearning과 alignment를 통합하여 하나의 확률적 관점으로 바라본다는 점이 신선함. 또한 여러개의 평가지표를 통해 정교하게 측정할 수 있는 것 같음. 이쪽 분야 논문들에 아직 익숙하진 않지만, 이러한 결과들을 어떻게 측정하려는지도 하나의 큰 task인것 같음.	4
42REN	LLM의 기존 평가 방법의 문제점이 잘 드러나있는 논문임. 한 번의 출력으로는 LLM의 신뢰성을 평가하기 어려운 부분이 있는데, Unlearning이 잘 되었는지 확률 분포를 지표로 활용함으로써 이 문제 해결에 대한 실마리가 될 것 같음.	4
텀블러	Unlearning과 Alignment는 교집합이 있긴 하지만(논문에서 언급하는 safety 관점) 크게 봤을 때 목적이 좀 다름. 논문에서는 두 주제를 비슷한 영역에서 다루긴 하지만 표현할 때 좀 더 specific하게 표현해야 하지 않았나 하는 생각이 듦. 모델 내 지식을 생성단에서 수학적으로 평가하는 것은 흥미로운 부분임.	3.5
감자	연구 동기가 방법론과 실험까지 잘 이어지는 듯하다. 엔트로피를 조절해서 답변의 랜덤성을 조절하고, temperature를 스스로 조절할 수 있게 하는 방식도 새로웠다	4
방어냠냠	결국 unlearning은 분포를 건들여야 한다는 점을 명확하게 꼬집어내고, 이를 엔트로피와 접목시켜 다양한 지표로 잘 풀어낸듯! 깔끔하고 군더더기 없는 논문이당	4
새우	Unlearning과 Alignment가 ‘원하지 않는 출력 분포를 줄이고, 원하는 영역의 분포는 유지하자’라는 공통 motivation을 가지고 엔트로피 최적화를 수행한점이 인상적임. 4가지 확률 지표는 교수님께서 보내주신 leakage 문제를 다룰 때 적용해볼 수 있지 않을까?	4
야키토리	확률론적으로 출력을 했다면 평가 또한 확률론적으로 샘플링해야된다는 아이디어가 새로웠고 실제로 정보 유출을 줄이기 위해 엔트로피와 온도를 조절해서 하는게 인상 깊었던 논문. 다만 alignment에 대한 설명이 부족해서 그냥 언러닝만으로 갔어도 됐을 것 같다.	3.5

TL; DR

💡

LLM이 언러닝, 정렬이 진짜 잘 됐는지 평가하기 위해선 기존의 결정론적 출력 즉, 하나의 답만 평가해선 안되고, 모델의 전체 출력 분포를 확률적으로 보고 평가를 해야 함

이를 위해 새로운 기존의 결정론적인 평가지표가 아닌 새로운 확률론적인 평가 지표들을 제안

Summary

연구진: 뮌헨 공과대학교

인용수: 24

개인적으로 생소한 주제 + 수식이 너무 많아서 읽는데 한참 걸렸지만 알아가는게 많았던 논문

그 동안에 평가 지표를 그리디하게 보는 것을 당연하게 생각했었는데, 출력을 확률 분포에서 샘플링했다면 평가 또한 그리디한 평가가 아닌 확률 분포를 지표로 봐야한다는 점이 평소에 생각 못한 부분이라 인상적임

1. Introduction

1.1 Background

언러닝의 등장

목표: 학습된 정보 중 잊고자 하는 정보를 지우는 것

재학습(Retraining): 기존 방식, 지우고자 하는 데이터를 제외하고 처음부터 다시 학습하는 방식
- 단점: 학습 비용이 너무 크고 오래 걸림 ⇒ 언러닝의 등장!

언러닝(Unlearning): 재학습을 하지 않고 이미 학습된 정보 중 일부 정보만 선택적으로 지우는 학습
- 목표: 특정 정보를 지우되, 나머지 성능은 최대한 유지하는 것

언러닝 연구의 view point🤔
- “재학습한 모델”과 “언러닝한 모델”의 출력이 얼마나 비슷한가?
- 삭제 데이터에 대한 기억이 얼마나 사라졌는가?
- 나머지 일반 벤치마크 성능은 얼마나 유지되는가?

1.2 Motivation

기존 평가 방식의 문제점 (확률론적인 출력 but 결정론적인 평가)

Beam Search, Multinomial Sampling 과 같은 방식은 확률적 디코딩 방법을 통해 출력을 생성

하지만 LLM의 성능 평가는 주로 greedy decoding으로 생성된 결정론적 출력에 의존
- greedy decoding: 딱 한 번만 답을 뽑아서 그걸로만 성능을 측정

언러닝(Unlearning): 모델이 특정 정보를 정말 잊었는지 평가해야 함

정렬(Alignment): 모델이 해로운 답변을 실제로 안 하는지 평가해야 함

⇒ RQ 결정론적인 평가만으로 언러닝과 정렬이 잘 되었는지 확인할 수 있을까?

1. 지워야 할 정보: Harry Potter의 best friends(Ron&Hermione)
2. 결정론적 출력(왼쪽 그래프)의 경우 정보 누출을 John and Peter를 출력하여 언러닝에 성공했다고 생각할 수 있지만, 실제로 확률적인 분포로 평가할 경우 정보 누출을 파란 배경의 그래프와 같은 정보 누출이 확인됨

확률론 관점의 언러닝

지워야 할 데이터 D를 포함해서 학습한 출력 분포 vs D를 포함하지 않고 학습한 출력 분포
- 두 분포의 차이를 줄여주는 방향으로 손실 함수를 정의하거나 gradient 업데이트를 설계해야 함
  ⇒ retraining 을 하지 않고도 “D를 빼고 학습한 모델”에 가깝게 만드는 것

기존 모델 파라미터 θ_old, D 언러닝 후 파라미터 θ_unlearn, D를 제외하고 재학습하여 얻은 이상적인 파라미터 θ* 가 있다고 할 때,
⇒ 목표: 재학습 없이 θ_old → θ_unlearn 로 만들고 θ_unlearn ≈ θ* 가 되도록 학습

1.3 Contribution

멀티노미얼 샘플링만으로도 최신 언러닝/정렬 모델에서 언러닝된 정보, 유해 정보를 감지 가능함을 보임

LLM 평가를 확률적 관점에서 모델링한 첫 연구로, 기존의 결정론적인 greedy 기반 평가 방식보다 확률론적인 평가 방식이 정보 유출을 더 잘 포착함을 입증

출력 분포를 비교하기 위한, 고확률(high-probability) 보장을 제공하는 네 가지 확률적 평가 지표(Mbin, Mgen, Mμ, Mσ)와 개발용 간단 지표(ED score)를 제안

분포 차원에서 언러닝을 더 안전하게 만들기 위해(정보 누출을 잘 막기 위해) 아래와 같은 두 방법론 제안
- (1) 엔트로피 최적화 기반 새로운 손실 함수
- (2) Adaptive Temperature Scaling

2. Methods

기존의 평가 지표들은 답변 1개만 확인하여 평가 → 운이 좋으면 통과 나쁘면 통과 X

답변을 여러 번 시켜보고 (몬테카를로 샘플링), 정보 유출의 위험도를 수학적으로 나타내는 지표를 제시

2.1 변수 세팅

q: 프롬프트 (정보 유출을 이끌어 내기 위한 질문) e.g., 해리포터의 베프는 누구냐?!

Y ~ πθ(q): LLM이 q에 대한 출력 분포에서 샘플링한 하나의 답변 시퀀스 (토큰 여러 개로 이루어진 문장)

Y₁,…,Yₙ ~ πθ(q): LLM을 n번 호출해서, 프롬프트 q에 대한 답변 n개를 샘플링한 것

Xᵢ = h(Yᵢ): 랜덤하게 하나의 답변 Y를 뽑았을 때, 그 답변의 유출 정도를 나타내는 확률변수
- X= h(Y) = 0: 정보 누출 없음
- X =h(Y) = 1: 완전 누출

M(X₁,…,Xₙ): X₁,…,Xₙ을 입력으로 넣어 정의한 metric M(Mbin, Mgen, Mμ, Mσ)을 계산한 것

2.2 LLM 평가를 위한 4+ 1가지 확률적 평가 지표

아래의 총 4개의 Evaluation Metric을 제안

Mbin (Binary leakage bound)
- 목적: 한번 더 답변을 샘플링했을 때, 유출이 한 번이라도 일어날 확률의 상한에 대한 지표(이진 상황)
  - n번 실험 후, 유출된 횟수를 세어서 다음 답변이 유출될 확률의 최댓값을 계산
  - 정답 키워드가 포함되면 → X=h(Y)=1 (유출 O)
  - 포함되지 않으면 → X=h(Y)=0 (유출 X)
- 유출 정도를 나타내는 Xi∈{0,1} 는 베르누이 확률변수,임의의 답변 1개에서 정보가 누출될 확률 p
- 샘플 n개에 대해
- Sₙ: 유출이 발생한 샘플의 개수 e.g., n=100, 그 중 3개 답이 정답 키워드를 포함 → Sₙ=3
- 다음 한 번의 샘플에서 샐 확률 p의 상한

Mgen (General leakage bound)

목적: 유출 정도가 τ 이상인 유출이 다음 번에 나올 확률은 최대 얼마인가? 에 대한 지표

세팅:
- 유출 정도를 연속 값으로 측정:
- X=h(Y)∈[0,1]
  - 0.0 → 전혀 안 새었음
  - 0.3 → 살짝 비슷
  - 0.8 → 거의 그대로 말함
- 기준값 x를 정하고,Pr(X>x)
  = “누출 정도가 x를 초과하는 심각한 유출이 발생할 확률을 구함

Mμ (Expectation bounds, 기대 유출 상한)

이 프롬프트에 대해 평균적으로 어느 정도의 유출 정도를 갖는지를 평가하는 지표
- X의 기댓값(평균 정보 유출량)의 상한선 제공

구간 [0,1]을 K개의 구간으로 나누고, 각 구간에 대해 경험적 CDF 값을 이용해 다음과 같이 계산

Mσ (Standard deviation bound, 표준편차 상한)
- 평균만 보고 알 수 없는 유출 정도의 표준편차에 대해 상한을 제공
  - 유출 점수가 얼마나 불확실(들쭉날쭉)한지 알고 싶을 때
- 답변의 변동성, 표준편차가 아무리 커도 Mσ보다는 작을 것이라는 상한선 설정
  - Mσ값이 크면 들쭉날쭉하게 정보를 유출 할 수 있는 모델
  - Mσ값이 작으면 비슷한 정도의 정보를 유출하는 모델

ED score
- 목표: 개발 중에 간단하게 사용할 빠르고 간단한 지표 ED score 제안
- Smean: 평균적으로 얼마나 유출하는가?
- Ssd: 가끔 튀는 유출(표준 편차)이 어느정도인가?
- ρ: 평균과 표준편차의 비중을 조절하는 하이퍼파라미터 (본 논문에서 ρ=2 사용)
  → ED score 점수가 낮을수록 평균 유출도 작고 가끔 크게 새는 케이스도 적다는 뜻 → 언러닝 good!

2.3 엔트로피 최적화 + 온도 스케일링에 의한 분포 언러닝

기존 언러닝 평가 문제점: 모델이 가장 높은 확률로 내놓는 답변(Greedy output)에만 집중함

→ 하지만 실제로는 샘플링(temperature, top-p 등)를 많이 사용

→ 그리드한 출력 평가로는 유출이 안된것처럼 보여도 샘플링하면 유출되는 경우가 많음

⇒ 하나의 정답에 대한 학습이 아닌 분포 자체가 안전하게 만들도록 학습시키자!

1. 엔트로피 최적화
- 목표: 잊어야 할 정보(forget set)은 불확실성을 최소화하고, 일반 정보(retain set)은 창의성 유지
- forget set(DFG):
  - 엔트로피를 줄여서 샘플링을 해도 정보 누출이 안되도록
  → 샘플링을 해도 계속 비슷한 안전 답만 나오게 만들기
- Retain set(DFT):
  - 엔트로피를 늘려서 기존처럼 다양한 답, 창의성을 유지
- 평균 토큰 엔트로피 손실 함수를 통해 전체 토큰에 대한 평균 손실을 구함
- 토큰 분포 q=πθ(⋅∣y<t,x) 의 엔트로피:
  엔트로피 함수
- 길이 m인 시퀀스 (x,y)에 대한 평균 토큰 엔트로피 손실
  평균 토큰 엔트로피 손실함수
- Forget / Retain Set에 대한 기대 엔트로피
- DFG에서 엔트로피가 크면 EDFG[ℓθ(x,y)]가 커지고
  → λf>0이므로 전체 손실 LEO도 커짐
  → DFG의 엔트로피를 줄이는 방향으로 파라미터를 업데이트
  → DFG 출력의 랜덤성을 완화하는 것임
- 문제는 엔트로피를 그냥 낮춰버리면 모든 질문에 대한 답이 단조로워지고 창의성이 떨어짐
  → DRT에 대한 엔트로피를 약간 늘리도록 가중치를 둠
- 최종 손실 함수
  - LUL(θ): 기존 언러닝 손실 (예: NPO)
  - λf>0: DFG의 엔트로피를 줄이려는 가중치
  - λr<0: DRT의 엔트로피를 약간 늘리려는 가중치 (음수)

2. 적응형 온도 조절(Adaptive Temperature Scaling)

목표: 모델이 민감한 질문을 받았을 때, 스스로 위험을 감지하고 정보 유출 가능성을 원천 차단

모델이 입력 x에 대한 확신이 있을 때, 온도를 0으로 낮춰 결정적인(greedy) 출력을 하도록 유도
- 확신이 적을 때만 샘플링 기법을 사용하여 정보 누출을 줄임

입력 x에 대해 생성된 시퀀스의 각 토큰에서 등장 확률이 가장 높은 토큰 yt^의 확률: p(yt^∣y<t,x)

전체 시퀀스의 평균 확신도 공식
- y^t: 입력 x에 대해 생성된 시퀀스의 각 위치에서 확률이 가장 높은 토큰
- p(y^t | y<t, x) : y^t의 등장 확률
- → 각 토큰의 p(y^t∣y<t,x) 값을 평균 내어 시퀀스의 평균 확신도를 계산

특정 기준점(threshold cT)를 두어 c(x)값이 cT를 넘으면 τ=0, 아니면 기본 값으로 설정하였음

→ 민감한 질문일 때만 온도를 0으로 낮춰(Adaptive) 정보 누출을 줄이고 출력 다양성에는 영향 X

3. Experiments

experimental setup
1. Unlearning Settings
  데이터셋
  TOFU (200명 가짜 작가 프로필):
  retain set: 유지해야 할 정보
  forget set: 지워야 할 정보
  추가로 Real Authors, World Facts 데이터로 모델 유틸리티 측정
  모델: Phi-1.5
  추가 실험:
  Llama-2-Who-is-Harry-Potter: Harry Potter 관련 지식을 지우도록 언러닝된 모델
  평가 데이터: Harry Potter Q&A (질문 + 관련 키워드)
  지표
  ROUGE-L:
  정답 문장과 생성 문장 사이의 유사도
  본 논문에서는 ROUGE-L 점수가 높다 ⇒ 정보 누출에 가깝다로 해석
  self-BLEU:
  생성된 여러 샘플끼리 BLEU를 측정하여 “서로 얼마나 비슷한가”를 비교
  언러닝 베이스라인
  Gradient Ascent (GA), Gradient Difference (GD), RMU, Negative Preference Optimization (NPO, SotA)
  제안 방법은 NPO + 엔트로피 최적화 + 적응적 온도 조절
1. Alignement Settings
  데이터: JailbreakBench(JBB) 의 100개 harmful behavior 질문
  Alignment 측정
  Harmbench toxicity classifier가
  모델 답변이 “유해하다고 판정될 확률”을 줌 → 이것을 toxicity score로 사용.
  Models
  Phi-1.5, Vicuna-7b-1.5, Mistral-7b-instruct-v0.3

Harry Potter Q&A 에 대한 Mbin 결과

figure 3-(a)
- x축: 이진 누출 상한 지표 Mbin 값 (0~0.6 정도)
  - 다음 샘플에서 정보가 샐 확률의 상한
- y축: 그 M_bin 값에 해당하는 질문의 비율
- 파란색: 전통적인 그리디 평가
- 주황색: 샘플링 기반 확률적 평가
- 실험결과
  - 기존의 그리디 평가에서는 거의 모든 질문의 정보 누출이 0에 가까움
  - 확률적 평가의 경우 38%의 질문이 누출이 되었음을 입증

TOFU – 단일 질문에 대한 분포 분석

figure 3-(b,c)
- 같은 질문에 대해 1024개 샘플을 뽑고 각 샘플의 ROUGE-L 분포를 그림으로 표현
  - x축: ROUGE-L
  - y축: 확률 밀도 (점수 근처에서 답변이 나올 빈도를 나타내는 값)
- 굵은 점선: 각 방법의 그리디 출력의 ROUGE-L 점수
- (b): 두 언러닝 방법(GA vs NPO 등) 비교
- (c): NPO vs NPO + 엔트로피 최적화(제안 방법) 비교
- 같은 성능 점수(ROUGE)라도 분포를 까보면 NPO는 위험하고, 제안 방식(Ours)은 안전
TOFU 언러닝 방법 비교: 결정론적 vs 확률적 평가
ROUGE-L, ED Score 모두 점수가 낮을수록 언러닝이 잘된 것

Ours가 결정론적인 기준(Det.) 확률론적인 기준(Prob.) 모두에서 가장 좋은 성능
- 평균 유출 정도(Mean)도 가장 낮고, 샘플마다 유출 정도(Std. Dev.표준편차)가 거의 변하지 않는다

결정론적 언러닝 방법인 GA와 GD의 경우, 확률론적 언러닝에서의 평균(mean)이 그리디 디코딩으로 얻은 ROUGE-L 점수와 거의 일치하지만 GD(0.33,0.32),GA(0.32,0.31) , 표준편차가 크다는 문제가 있음

기존의 지표(RMU, GD, GA, NPO) 모두 Det.에서 언러닝이 잘 되었다고 판단했지만 확률적 지표를 통해 분포 안에 정보 누출의 위험이 아직 있음을 입증

엔트로피 정규화가 성능에 미치는 영향

(a): λf는 1로 고정하고 Retain 정규화 계수 λr를 0 → −0.25 방향으로 점점 더 음수로 감소
- 파란 점선: NPO + 엔트로피 정규화 | 검은 점선: NPO
⇒ λr 값을 낮출수록(더 큰 음수로 만들수록), DRT(지켜야 할 데이터)에 대한 엔트로피 보상이 커져, 답변의 다양성(Diversity)이 증가함

(b): epoch이 늘어날수록 DFG(지울 정보)와 DRT(지킬 정보) 사이의 확신도가 벌어짐(잘 구분함)
⇒ 모델이 학습 과정에서 retain 정보와 forget 정보를 구별할 수 있음

(c): TOFU 데이터셋의 서로 다른 분할 비율에 대해, ED score와 model utility(모델 유용성) 의 관계를 비교
- x축: ED score
- y축: Model Utility: retain 벤치마크(e.g., Real Authors, World Facts)에서의 성능
  → 높을수록 원래 모델의 유용성을 잘 유지함을 의미
- TOFU 데이터 split(90/10, 95/5, 99/1) 중 하나에서 λf를 랜덤하게 설정하여 NPO + 엔트로피 정규화로 학습한 모델 하나
  ⇒ 실험 결과: 엔트로피 정규화를 추가하여도 언러닝을 잘 수행하면서도 모델의 전반적인 성능(Model Utility)은 떨어지지 않음

Preliminary

몬테카를로 샘플링
- 몬테카를로 방법:
  어떤 확률적인 정도를 (기댓값, 확률, 분산 등)을 직접 계산하기 복잡할 때, 그 분포에서 랜덤 표본을 여러 개 뽑아서 그 표본들로 근사하는 방법
  몬테카를로 샘플링: 랜덤 표본을 뽑는 과정
- 수학적 공식으로 정확한 계산 대신 랜덤 실험을 여러 번 돌린 결과의 평균·비율로 근사

베르누이 확률 변수
- 결과가 딱 두 가지밖에 없는 실험 e.g., 동전 던지기
- 결과 값은 0 또는 1 뿐. 1이 나올 확률을 p, 아닌 확률을 1-p라고 정의

샘플링 기반 디코딩
- LLM이 다음 단어를 확률적으로 선택하여 문장을 만드는 방식
- 그리디 디코딩: 가장 높은 확률만 선택
- 샘플링 기반 디코딩: 확률에 비례해서 랜덤으로 선택

Next Word Prediction (Greedy Decoding/Beam Search/Multinomial Sampling)

전략 (용어)	핵심 아이디어	답변의 특징
Greedy Decoding	매 순간 확률 1위 단어만 선택	항상 똑같은 답변 (결정론적)
Multinomial Sampling	확률에 따라 무작위 선택	매번 다른 답변 (확률론적)
Beam Search	가장 유력한 문장 후보 3~5개를 동시 탐색	Greedy보다 높은 품질, 일관성

Greedy Decoding (결정론)
- 가장 좋은 것 하나만 선택 → 매 순간, 모델이 생각하는 가장 확률이 높은 단어를 선택
- 결정론적 → 몇 번을 물어봐도 같은 응답 출력

Beam Search (중간)
- 가장 유력한 후보 몇 개만 남기기 (greedy와 sampling의 중간)
- 가장 그럴듯한 문장 후보를 빔(Beam)이라 부르는 3~5개만 남기고 계속 탐색

Multinomial Sampling (무작위 확률)
- 확률 분포를 바탕으로 무작위 선택
- 확률론적 → 매번 결과가 다를 수 있음

NPO (Negative Preference Optimization, 부정 선호 최적화)
- 목표: 이런 답은 싫다(원하지 않는다)는 예제를 이용해서 모델이 그 답을 덜 출력하도록 학습
  기존 RLHF(인간 피드백 미세조정)
  좋은 답은 보상을 높게 줘서 자주 나오게 만들고 나쁜 답은 보상을 낮게 줘서 덜 나오도록
  ⇒ 언러닝에서는 나쁜 답에 대한 선호를 낮추는 (push down) 최적화
- 학습 구조
  질문–답 쌍 (x,y) → x: 프롬프트 (질문), y: 지워야 하는 정답 (forget 정답)
  e.g., “Alex Bloom은 1995년 3월 5일에 태어났다.”
  잊어야 할 데이터를 생성하려고 할 때마다 부정적인 점수(손실, Loss) 부여하여 모델이 해당 데이터를 싫어하도록 유도
  −log⁡πθ(y∣x) (손실)를 maximize 하는 쪽으로 학습

Yonsei Univ. ICL

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

Review

TL; DR

Summary

1. Introduction

1.1 Background

언러닝의 등장

1.2 Motivation

기존 평가 방식의 문제점 (확률론적인 출력 but 결정론적인 평가)

확률론 관점의 언러닝

1.3 Contribution

2. Methods

2.1 변수 세팅

2.2 LLM 평가를 위한 4+ 1가지 확률적 평가 지표

2.3 엔트로피 최적화 + 온도 스케일링에 의한 분포 언러닝

3. Experiments

Harry Potter Q&A 에 대한 Mbin 결과

TOFU – 단일 질문에 대한 분포 분석

TOFU 언러닝 방법 비교: 결정론적 vs 확률적 평가

엔트로피 정규화가 성능에 미치는 영향

Preliminary

Categories