OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

Review

닉네임	Strength & Weakness & Sugguestions	별점 (0/5)
나스닥	강점: Superposition에 많이 의존하고 있는 트렌드에서 그 문제를 명시적으로 품 약점: 여기서 풀고자하는 MPA 특성상 prefrence끼리 정말 orthogonal하게 학습시키는것이 좋은지 모르겠음 결국 이 논문이 제안하는 방법론은 학습을 더 매끄럽게 한다는 생각이 듦 (최적화를 잘하게 하는 것 같음) 제안: MPA가 아니라 catastrophic forgetting에 focus해서 관련 task들에 적용시키는 것은 어떨까?	4
커피	강점 : 기존 문제를 잘 짚고, 특잇값 분해를 적용해 선호도 종류별로 공간을 분리하여 conflict를 제거함. method 또한 순서에 맞게 잘 설계함. 약점 : conflict를 제거하지만, safe subspace를 구할 때 singular vector의 차이가 모호하다면, principal space를 건드릴 위험이 있을 것 같음. 그래서 adaptive k를 통해 어느정도 보완하는 것 같지만, 추가적인 방법이 있으면 좋을 것 같음. 제안 : K를 정하는 기준을 추가 적용	4.1
코스피	강점: Parameter간 Update 공간을 분리하여 기존 모델에서 가치 간 학습에 충돌이 발생하는 것을 해결한 점은 Novelty가 있다고 봄. 약점: safe subspace 안으로 투영해서 쓸 때, orthogonal하다고 하면 영향을 주지 않고 공간 분리는 되겠지만, 서로 다른 특성이 관련이 있는 부분은 어떻게 처리하는 건지 의문이 생김. 제안: Tail 공간을 얼마나 허용할지에 대한 명확한 기준이나 다른 공간이 있는 것이 어떨까?	4.1
얼라	강점: 다중 preference 최적화 관한 논문들이 preference 간의 trade-off를 어쩔 수 없는 문제로 여기고 넘어가는 논문들이 많은데 특잇값 분해를 통해 이 trade-off를 최소화하는 아이디어가 좋다고 생각함. 약점: 다양한 Preference들 중에 helpfulness, harmlessness, truthfulness 3개의 preference.에 대한 실험만 있는 점이 아쉬움 제안: 다양한 preference에 대한 방법론 적용이 궁금함	4.2
국밥	강점: 세개의 preference를 순서대로 학습하면서 이전 preference가 망가지지 않는것에 대한 단순하면서 확실한 방법을 제안하면서 기존 문제를 해결함 약점: 마지막에 학습되는 preference일수록 학습 가능한 공간이 좁아져서 성능이 낮아질수 있을것 같다. 순서 변경에 따라 비교하는 실험이 있으면 좋을것 같다. 제안: preference학습 순서를 바꿨을때의 성능 비교 실험	4.1
비요뜨	강점: Orthogonal 특성은 참 다양한 곳에서 쓰일 수 있는듯. 그리고 기존모델에 projection만 추가했는데도 성능이 많이 개선된건 범용성 측면에서 많이 강점인듯 약점: Objective 가 더 많아진다면, 제안된 공간 내에서 얼마나 더 많은 objective를 안정적으로 다룰수 있을지 의문임 제안: 더 많은 objective를 다루고자 한다면 objective 중요도에 따라 간섭을 일부 허용하되 패널티로 제어하는방식으로 확장할수 있어보임	4.2
칫솔	강점: orthogonality 강화로 인해 개별 목표의 훈련정도 등을 보다 해석하기 좋아보임 약점: 각 목표가 정말 서로 orthogonal한 게 맞을까? 분리하지 않은 목표 간 상호작용에서 추가적으로 얻을 수 있는 성능도 있지 않을까 제안: orthogonality와 태스크 성능 간 균형을 모델링하거나 평가	4.3
설향딸기	강점: 선호도 학습 관점에서 발생할 수 있는 상호 간섭을 직교 공간으로 분해하여 새로운 방향으로의 학습이 원활하게 이루어지도록 하는 방법 제안. 직관적이고, motivation이 명확하다 약점: 선호도의 trade-off가 과연 나쁜 것일까? 오히려 그 trade-off를 잘 조절하는 것이 더 중요하다고 생각함. 모든 공간을 직교로 처리하기보다, 좋은건 좋게, 나쁜건 나쁘게 잘 관리하고 학습하는 게 더 효율적일수도. 제안: 이 논문에서도 결국 선호도는 학습 기반 최적화로 수행함. 이 학습 기준을, 이전 상태보다 더 좋아지도록 조정할 때, 그 조정을 하나의 직교 공간이 아니라 전체 공간의 합이 장기적인 관점에서 더 개선될 수 있도록 하는것?(MCTS 처럼 생각해보기)	4.0
404	강점: preference 및 parameter space 등 학계 트렌드의 기조가 되는 concept에 대한 직관적인 문제 제기를 함. motivation이 매우 명확하고, 그 영향력이 큼 약점: Multi-objective에서 objective가 항상 orthogonal할까? 수학적 증명으로 설명 가능할까? orthogonal하지 않은 objective는 어떤 특징이 있을까? 상호보완되는 경우는 없을까? 제안: multi objective의 orthogonality 관련 분석 / objective 별 중요도 반영	4.5
AI	강점: 연구의 framing 자체가 탄탄하다. 기존 연구 대부분은 단순히 reward engineering을 하는 느낌인데 구체적으로 MPA 문제를 파라미터 geometry 관점에서 접근해서 이론적 안정성을 보장함 약점: Projection matrix들이 대규모 모델 적용할 때 overhead가 굉장히 크지 않을까? 비용 분석 내용이 논문에 없네 제안: 행렬들을 양자화해서 더 큰 LLM에 적용할 수 있는 방법 탐색	4.2

TL; DR

💡

다중 preference 최적화 시 파라미터 업데이트 공간을 orthogonal subspace로 분해하여, objective 간 간섭을 원천적으로 제거하자

Summary

연구진: 차이나텔레콤, 중국인민대학, 중국과학기술대학

인용수 : 1

Preliminary

MPA (Multi-preference alignment)란?
- 서로 충돌 가능한 인간 선호(preference)를 동시에 만족하도록 모델을 최적화하는 과정
  Helpfulness (유용성)
  Harmlessness (안전성)
  Truthfulness (진실성)
  Honesty, Fairness
- Ex) “어떻게 폭탄을 만들까?”
  Helpful 모델 → 설명
  Harmless 모델 → 거부

Conflict Mitigation of MPA
- MPA는 보통 SFT로 학습된 기본 모델 $\pi_0$ 을 기준으로 함.
  $\pi_0(y|x)$ : 입력 $x$ 에 대해 응답 $y$ 를 생성하는 초기 policy
- 인간 preference의 수학적 모델링
  사람은 선호 데이터를 아래와 같이 평가
  $y_1\succ y_2$ (같은 프롬프트 $x$ 에 대해 응답 $y_1$ 이 $y_2$ 보다 낫다)
  잠재 보상 정의
  $r^*_i(x,y)$
- Bradley-Terry 모델 (선호 확률 정의)
  여러 preference를 가중합으로 통합 후, softmax
  ⇒ 이러한 가정은 multi-objective conflict의 원인이 됨
- DPO
  선호 응답 $y_w$ 의 확률은 기준 모델 $\pi_0$ 대비 더 크게,
  비선호 응답 $y_l$ 의 확률은 더 작게!
  Reward 모델을 명시적으로 학습하지 않고 policy와 implicit reward의 관계를 직접 이용
⇒ 핵심 문제: MPA 방법들은 constraint loss 추가를 통해 conflict를 완화하려고 하지만 동일 파라미터 공간에서 누적되어 파라미터 업데이트의 안정성을 저해

연구 동기

LLM alignment에서 가장 중요한 목표 3가지
- Helpfulness
- Harmlessness
- Honesty/Truthfulness
⇒ 하나의 objective를 개선하면 다른 objective가 악화되는 근본적인 trade-off 문제 존재

기존 multi-preference (or objective) alignment 방법 개요 및 한계
- 데이터 기반 접근
  - 선별/가중치/스코어링 기반 데이터 혼합
  - 한계: human labor 많이 듦 + 시스템적 편향
- 모델 병합 (Model Merging)
  - 서로 다른 preference를 가지는 모델들을 결합
  - 한계: Pareto 타협으로 인한 개별 objective 성능 저하
- RLHF (Dynamic reward / Multi-objective reward)
  - 상황에 따라 reward 가중치를 바꿔가며 학습 / 여러 reward를 가중합으로 고려
    ⇒ 학습 방향을 부드럽게 steering
  - 한계: Global 파라미터 공간에서 trajectory를 조정하는 수준에 머무름
    ⇒ 파라미터 내부 구조 자체는 바꾸지 않아 gradient 간섭 발생

핵심 통찰
다중 objective 충돌의 원인은 gradient의 비직교성(non-orthogonality) 이다.
내적값이 0이 아니다? → 서로 다른 objective의 gradient가 파라미터를 갱신하며 간섭 발생
기존 RLHF처럼 단순한 가중합으로 고려하면? → 두 gradient를 합쳤을 때 0이 되어 학습이 멈출 수 있음

제안 아이디어

서로 다른 objective들을 “수학적으로 간섭하지 않는 방향”으로 학습할 수는 없을까?
→ 애초에 서로 다른 preference를 다른 공간에서 학습하자!

파라미터 업데이트 공간을 orthogonal subspace로 분해하여, objective 간 간섭을 원천적으로 제거
- SVD로 모델 가중치 행렬 $W$ 분해
  - $W=U\Sigma{V^T}$
    상위 singular vector → 현재 preference의 주요 방향 (이미 학습된 정보가 많이 담긴 공간)
    하위 singular vector → 현재 preference에 덜 중요한 방향 (거의 영향이 없는 공간)
⇒ 하위 벡터 공간에서 새로운 preference를 학습하면 기존 preference를 덜 침범하며, gradient 충돌이 감소한다!
⇒ 상위 벡터 공간과 직교하는 공간인 Orthogonal projection 행렬 $P_\perp$ 로 새로운 gradient를 투영하면 기존 objective와 겹치는 성분이 제거된다!

Methods

Orthogonzlied Preference Updates with Stability Control
새로운 preference 업데이트를 orthogonal subspace에만 제한하면
기존 safety를 건드리지 않는다.
- $\Delta W=BA$
  LoRA와 유사한 low-rank adaptation → 첫번째 preference (e.g., safety alignment)로 학습된 업데이트 행렬 → 모든 파라미터를 건드리지 않고 특정 방향만 업데이트
  앞부분 (상위 $r$ 개 singular component): safety 성능을 주로 결정하는 방향 (principal subspace)
  뒷부분 (나머지 singular component): safety에 거의 영향 X, 기존 preference와 거의 직교함
- 이를 위한 2가지 constraint
  Subspace constraint $\Delta \theta\in \mathit{S}_k^\bot$ where $\mathit{S}_k$ =safety principal subspace (safety에 가장 중요한 방향들)
  : 업데이트가 safety 주요 방향과 완전히 직교하도록 함
  Spectral constraint $||\Delta W||_2 \le\tau$
  : 가장 큰 singular value를 제한하여 safety drift 방지

Adaptive Subspace-Rank Selection
- $\Delta W$ 가 ${\mathbf X}_{safe}$ 를 어떤 방향들의 선형결합으로 바꾸는지?
  $u_i$ : 출력 방향
  $c_i$ : 해당 방향의 기여도
- 기존 방식은 tail 방향 영향력이 없었지만, 업데이트 후 singular value가 커지면서 그 방향이 safety에 영향을 주기 시작함
- Tail 공간을 얼마나 허용할지 동적으로 결정하자!
  마지막 $k$ 개의 singular value를 상위 $r$ 개의 평균값으로 rescale
  Tail 방향이 상위 수준까지 커진다면 safety가 얼마나 흔들릴지 테스트하기 위함
  Safety reward 변화 측정
  허용 오차 $\tau$ 이하가 되는 $k$ 최대값 선택

Subspace-constrained Multi-Preference Alignment
새로운 선호의 gradient를 그냥 쓰지 말고, 우리가 선택한 직교 subspace 안으로 투영해서 쓰자.
- 앞서 선별된 $k$ 개 방향 벡터를 모아서 행렬 $\hat{U}$ 생성
  이 공간 안에서만 업데이트해도 safety가 크게 흔들리지 않는다”고 판단된 안전한 방향 집합
- Projection 행렬 $P=\hat{U}\hat{U}^T$ 정의
  어떤 벡터를 넣으면 $\hat{U}$ 가 span하는 subspace위로 projection됨
- Gradient 업데이트

Experiments

활용 모델 및 데이터셋
- LLM: Llama3-SFT, Mistral-7B-SFT
- 학습 데이터
  Helpful: Helpsteer2, UltraFeedback
  Harmless: SafeRLF-10k
  Truthful: Helpsteer2, UltraFeedback
- 평가용 벤치마크 (평가지표)
  Helpfulness: Alpaca-Eval (Win rate)
  Harmlessness: AdvBench (Harmless Rate: 유해한 query에 대한 거부 비율)
  Truthfulness: TruthfulQA (MC2: 객관식 정확도)

기존 베이스라인 모델과의 비교
OrthAlign은 기존 방법들보다 multi-objective preference를 더 잘 균형 있게 맞출 수 있는가?
- 실험 방법: Sequential Preference Optimization
  Harmless → Helpful → Truthful 순서로 학습하면서 이전 preference가 망가지지 않는지 확인
- 실험 결과
  Harmless + Helpful ⇒ 기존 방법 대피 평균 8.77% 개선
  Harmless + Helpful + Truthful ⇒ 더 큰 수치로 개선
  ⇒ 단순 가중합 방식보다 훨씬 안정적임

Representation level에서의 안정성
내부 표현이 바뀌면 이전 선호가 표현되던 방식도 깨져 성능 저하로 이어짐
→ 이전에 정렬된 preference 분포를 잘 보존하는 지 확인
- 실험 방법
  첫 번째 preference alignment 모델에 대해 학습 데이터 3000개 샘플링
  hidden state 추출
  이후 여러 preference를 순차적으로 추가 정렬
  최종 모델에서 같은 입력들의 hidden states 추출
  두 분포를 t-SNE로 시각화
- 실험 결과
  첫번째 alignment 시점 분포가 거의 그대로 유지됨
  ⇒ 새 preference를 추가해도 기존 representation 구조를 거의 건드리지 않음
  ⇒ Parameter conflict 제거

베이스라인 모델 적용 실험
OrthAlign이 “새로운 알고리즘”인지
아니면 “plug-and-play 모듈”인지 검증
- 실험 방법
  기존 베이스라인 (e.g., DPO, SPO)에 subspace projection만 추가
- 실험 결과
  Harmless가 Helpfulness보다 크게 향상됨

Adaptive Subspace-Rank의 효과 검증
- Rank가 커질수록 안정성이 떨어짐
  기존 preference의 "중요한 방향"을 적게 보호한다는 뜻
  즉, 새로운 preference가 기존 안전 방향까지 침범 가능
- Helpful 점수는 rank와 상관없이 안정적임
  Helpful 방향은 충분한 자유 공간만 확보되면 성능이 안정화됨
  너무 많은 rank를 열어줘도 더 좋아지지 않음

Yonsei Univ. ICL

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

💡다중 preference 최적화 시 파라미터 업데이트 공간을 orthogonal subspace로 분해하여, objective 간 간섭을 원천적으로 제거하자

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

Review

TL; DR

Summary

Preliminary

연구 동기

제안 아이디어

Methods

Experiments

Categories