MAP: Multi-Human-Value Alignment Palette

Review

닉네임	한줄평	별점 (0/5)
맹구	아이디어는 명확한 것 같음. 이런 측면에선 오히려 사람보다 낫다 싶기도 한게, 사람은 막상 학습하다보면 초기 목표를 잃어버리고 삼천포로 새는 경우가 많음. 실험 과정에서 실제로 그런 현상이 있는지도 궁금해짐.	4.2
계란초밥	선형 objective 에서의 hyperparameter찾기나 여러 objective 중 trade-off는 당연한거라고 생각해왔는데, 이론적 이상향을 찾는다는 아이디어가 신박하다. 머리를 띵 맞은 기분! 원하는 방향, 원하는 강도로 모델을 optimize할 수 있다면 모델이 더 커질 필요가 없겠네	4.3
국밥	다중 가치를 dual convex 최적화로 해석해서 실제 가치의 목표 수준을 자동으로 만족가능한지 판단하게 하는 발상이 놀랍다. 시행착오를 확실히 줄일 수 있겠네. 고정된 목표가 아니라, 동적으로 변하는 상황에 따른 질문이 들어올때 알아서 가치 목표를 조절해주는 후속 연구가 기대된다	4.5
피자	이 논문은 모델이 Training을 할 때, 하나의 능력을 중심으로 학습을 하면 다른 능력이 오히려 떨어지는 현상을 어떻게 해결하는지, 목표 중심으로 반대로 접근함으로써 해결하려 했다는 점에서 의미가 있는 것 같음. 여러 Round에 걸쳐 Align하면서 모델의 크기까지 늘려 나간다면 후속 연구에서는 거의 완벽에 가까운 모델을 만들 수 있을 듯 하다.	4.4
치킨	관점을 바꾼다는게 참 어려운데 파레토 프론티어를 다중 인간 가치 정렬 문제와 접목시켜 원하는 정도의 value들을 입력을 받아서 출력으로 가중치를 알려준다는 점이 임팩트가 크다.	4
햄버거	처음에는 내가 모델의 능력을 underestimate해서 더 좋은 상태(더 높은 가치 조합)를 놓칠 수도 있지 않을까 생각했는데 목표를 명확히 설정하고 그에 대한 동작을 얻고자 할 때는 오히려 적합한 접근인듯	4.3
페브리즈	이전에 가중치 조정함으로써 목표 딜성하려고 했다면, 목표에 먼저 접근해서 실현 가능한지 따지는 것부터 하니까, 좀더 직접적인 접근방식 같다. 그래서 직괸적으로 납득가는 아이디어인듯, 왜 이런 생각을 힌번도 못해봤지?!	4.5

TL; DR

💡

다중 가치 정렬을 기존의 가중치 튜닝 방식이 아니라 원하는 수준의 목표(palette)를 먼저 지정하고, 그 목표를 만족하는 λ를 자동으로 찾아 Pareto 개선을 보장하는 정렬로 바꿔보자!

Summary

cited: 14

Preliminary

Pareto Frontier (파레토 프론티어)

여러 목표(objectives) 간에 상충 관계(trade-off)가 존재할 때, 어느 한 목표를 더 개선하면 다른 목표 중 적어도 하나는 반드시 악화되는 경계선의 집합

Pareto Optimization
- 다중 목표 최적화 문제에서 모든 목표를 동시에 더 이상 개선할 수 없는 최적 상태를 찾는 방법
- 쉽게 말해서… 설정한 모든 목표들을 다 이뤄보자..!
  - e.g., 목표: 공부, 운동
    운동을 너무 열심히 하면 졸려서 공부에 지장 감 (trade-off 발생!)
    → 운동을 딱 30분만 하고 공부하면 머리도 좋아지고 몸도 좋아짐 (두 목표 모두 달성!)

⇒ 논문의 view point: 여러 인간 가치를 동시에 Pareto Optimize 할 수 있을가?

분위수(quantile) ← (실험에서 등장할 예정..)

어떤 점수가 전체 분포에서 어느 위치에 있는지를 나타냄

e.g.,
- 50% quantile = 중앙값
  - 전체 결과 중 절반은 이보다 낮고, 절반은 이보다 높음
- 80% quantile = 상위 20%
- 90% quantile = 상위 10%

Introduction

Background

Human Value Alignment의 기존 접근
- LLM의 human value alignment는 주로 reward function, preference data를 통해 특정 가치(e.g., helpfulness, harmlessness…) 를 강화하는 방식으로 이루어져 왔음
- 다중 인간 가치 정렬을 위해 Multi-Objective Reinforcement Learning (MORL) 이 사용되어 옴

기존 다중 가치 정렬 방식의 한계

대부분의 연구는 여러 보상 함수를 선형 결합하여 trade-off를 근사함
$R = \lambda_1 r_1 + \lambda_2 r_2 + \cdots$
- e.g., Rewarded Soup: 서로 다른 가치에 대해 학습한 여러 모델을 사후적으로 섞는 방식

문제점
- λ (가중치)는 어떻게 정할 것인가?
- 정한 λ가 Pareto optimal한지 어떻게 알 수 있는가?

Motivation

여러 인간 가치를 동시에 정렬하기 위해선 여러가지 Challenges 존재함

RQ1 여러 인간 가치를 손상 없이 동시에 향상시킬 순 없을까? 그리고 이것을 정량화할 순 없을까?

하나의 가치를 정렬하면 다른 가치가 의도치 않게 감소할 수 있음
- Helpfulness ↑ → Harmlessness ↓
- Humor ↑ → Coherence ↓

RQ2 시행착오 없이 한 번의 설정만으로 모든 인간 가치를 Pareto 개선하도록 정렬할 수 있는가?
- 하이퍼파라미터 설정의 불확실성: RLHF에서 원래 모델 $p_0$ 가 정렬된 모델 $p$ 가 되기 위해 필요한 reward 함수 $R$ 와 하이퍼마라미터 $\beta$ 를 한번에 구할 순 없을까?
- 좋은 가중치 파라미터를 찾기는 정말 힘듦

Contribution

MAP 프레임워크 제안
- 여러 인간 가치를 동시에 정렬하면서 사용자가 원하는 각 가치의 목표 수준(target level)을 직접 지정할 수 있는 프레임워크

다중 가치 정렬을 보상 가중치 튜닝 문제가 아니라 목표 수준을 만족시키는 제약 최적화 문제로 재정의

Method: MAP

기존 접근 (RLHF / DPO / MORL)

여러 가치를 정렬하기 위해 보통 아래와 같은 방식을 택함
```
Reward = λ₁·Helpfulness + λ₂·Harmlessness + λ₃·Humor + …
```

문제:
- 가중치 λ 선택 기준이 불명확함 (어떻게 정해야 하는지 감이 안 옴)
- λ 를 조금만 바꿔도 결과가 크게 달라짐
- 대부분의 λ는 하나의 가치만 올리고 다른 가치를 망침(trade-off)
- 좋은 λ는 극히 일부
- 정렬해야 할 가치가 늘어날수록 탐색 난이도 very very hard

⇒ 관점을 바꿔보자!

기존 이 정도 가중치면 결과가 괜찮을까?

MAP 이 정도 수준은 반드시 만족해야된다!!
⇒ λ 를 입력으로 쓰지 않고 목표 수준 자체를 입력으로 사용

최대화가 아닌 이 수준 이상은 보장해달라는 제약

⇒ MULTI-HUMAN-VALUE ALIGNMENT PALETTE (MAP) 의 등장

MAP의 3단계 프로세스

입력/출력

입력
- $r$ : 가치(Values) 별 score functions
- e.g., $r = [r_{\text{help}}, r_{\text{harmless}}, r_{\text{humor}}, ...]$
  - 생성된 문장 $y$ 에 대해, 각 가치(help, harmless, humor…) score를 반환하는 함수
- $p_0(\cdot|x)$ : 정렬 전 기본 모델
- $x$ $\sim\mathcal{D}$ : 데이터 분포 $\mathcal{D}$ 의 프롬프트 $x$

출력
- multiple value에 정렬이 반영된 최종 생성 답변 $y$

Step 1: Value Palette (목표 수준 설정)

핵심 관점을 바꾸자!!

기존 방식은 가중치( $\lambda$ )를 바꿔가며 목표치에 도달하는 방식이었다면, MAP은 반대로 목표부터 설정

Value Palette: 각 가치에 대해 사용자가 원하는 목표 수준을 모아둔 벡터
- 사용자가 각 가치의 목표 수준 직접 지정

예: Harmlessness 70%, Humor 60%, Helpfulness 80%

palette = {
    "Helpfulness": 80%,  # 상위 20% 수준
    "Harmlessness": 70%, # 상위 30% 수준  
    "Humor": 60%         # 상위 40% 수준
}

Step 2: Feasibility Check (실현 가능성 검증)

핵심 Step 1에서 정한 목표 즉, Value Palette가 현실적으로 가능한지 검증

기존 방식은 실험해보기 전까지 실패할지 알 수 없음, but, MAP은 사전에 실패를 차단
- 목표들을 동시에 만족 가능한지를 먼저 검증
- Value Palette가 이론적으로 가능한지 판단
  - 불가능 ⇒ 목표가 현재 모델로는 불가능하다고 알리고 대안 Palette 제시 (예시 참고)
  - 가능 ⇒ 목표한 가중치 벡터 $\lambda$ 와 최종 단일 보상 함수 $R(x,y) = \lambda^T r(x,y)$ 를 자동으로 계산!
```
# Feasibilty Check
result = MAP.check([80, 70, 60])

# Case 1: 가능
→ "가능, λ와 R(x,y)=λ^T r 반환"

# Case 2: 불가능  
→ "불가능. [70, 60, 65]는 어떤가요?"
```

Step 3: Align model

step2에서 만든 최종 보상 R을 가지고 정렬을 실제로 수행하는 단계 (두가지 방식이 존재함)

MAP-D (Decoding)
- 생성할 때만 조정
- 방식
  1. 프롬프트 $x$ 에 대해 후보 답변을 $y^{(1)},...,y^{(m)}$ 을 생성
  1. $R(x,y^{(i)})$ 가 큰 후보가 더 뽑히도록 softmax 확률로 샘플링
- 장점: 모델 파라미터를 안 바꾸니 빠르고 간단함
- 단점: 근본적으로 모델 자체가 바뀌지는 않기 때문에 정렬 효과에 한계가 있을 수 있음

MAP-F (Finetuning)
- 모델 자체를 팔레트에 도달하게끔 학습
- 방식
  1. PPO로 $R$ 을 보상으로 삼아 $p_0 → \hat{p}$ 로 fine tuning 시킴
  1. 이후에는 $\hat{p}$ 를 답변 생성
- 장점: 더 나은 정렬 효과
- 단점: 비싼 학습 비용, 팔레트가 바뀔 때마다 재학습 필요

Experiment

Experiment Setup

Datasets
- Anthropic Harmless Data: "Human:", "Assistant:" 태그 사이의 대화
- IMDB (30자 이상 영화 리뷰)

Models
- OPT-1.3B
- Llama2-7B-chat

Aligned Values
- Humor
- Positiveness
- Harmlessness
- Helpfulness
- Diversity
- Coherence
- Perplexity

Evaluation Models
- Humor: humor detection logits
- Positiveness: DistilBERT (IMDB)
- Harmlessness , Helpfulness: value head를 파인튜닝한 GPT-2
- Diversity: unique n-gram 비율(n=2,3,4)
- Coherence: SimCSE BERT 문장 임베딩

Multi-value Alignment 효과

목적: MAP가 여러 가치를 동시에 효과적으로 정렬할 수 있는지 검증

실험 세팅
- model: OPT-1.3B
- data: Anthropic conversational data
- aligned values: Humor, Harmlessness, Helpfulness, Diversity, Coherence, Perplexity
- HHH-{숫자}%
  Helpfulness, Harmlessness, Humor, 이 세 가지 가치가 각각 원래 모델 기준으로 중간값(상위 {숫자}%) 이상이 되도록 정렬
- Value Palettes 설정
  1. Multi-value palettes (3개 가치 동시 개선해보자!)
    HHH-50%: 첫 3개 가치를 50% quantile로
    HHH-60%: 첫 3개 가치를 60% quantile로
    HHH-70%: 첫 3개 가치를 70% quantile로
    HHH-80%: 첫 3개 가치를 80% quantile로 (step2에서 불가능으로 판정)
  1. Single-value palettes (1개 가치만 정렬)
    Humor-80%
    Helpfulness-80%
    Harmlessness-80%
- 구현 방법
  - MAP-D (Decoding): Best-of-N sampling
  - MAP-F (Finetuning): PPO 사용

실험 결과
1. Multi-value Alignment의 강점
  - 균형잡힌 개선: 3개 가치 모두 동시 개선 (HHH-50%, 60%, 70%)
  - Trade-off 최소화: 나머지 3개 가치(Diversity, Coherence, Perplexity) 유지
  - Quantile 높일수록 개선 폭 증가
1. Single-value Alignment의 문제점
  - 심각한 Trade-off: 한 가치 개선 시 다른 가치 크게 저하
    Humor-80%: Helpfulness -2.49로 악화
    Helpfulness-80%: Harmlessness -0.58로 악화
    Harmlessness-80%: Helpfulness -2.02로 악화
  - 예측 불가능: 어떤 가치가 저하될지 사전에 알 수 없음

Larger model Ablation Study

목적: 모델 규모가 커질수록 MAP이 달성할 수 있는 정렬 가능 범위(feasible palette) 가 확장되는지 검증

실험 세팅
- model: Llama2-7B-chat (OPT-1.3B보다 5배 이상 큼)
- data: Anthropic prompt data
- 제약: GPU 메모리 한계로 MAP-D (Decoding)만 가능, MAP-F 불가

실험 결과
- 더 큰 모델일수록 더 많은 multi-value palette도 feasible
- Llama2-7B가 표현력이 더 크고 유연하여 OPT-1.3B에서는 불가능했던 목표도 달성 가능
- Step 2의 feasibility 판단이 모델 용량 차이를 반영

Simultaneous vs Sequential Alignment

목적: 다중 가치를 한 번에 정렬(MAP) 하는 것과 하나씩 순차적으로 반복 정렬(Sequential) 하는 것의 성능 차이에 대한 실험

실험 세팅
- model: OPT-1.3B
- data: Anthropic conversational data
- baselines
  1. MAP (Simultaneous): 6개 가치 한 번에 정렬
  1. Sequential Round 1: 각 가치를 순서대로 1번씩 정렬 (6번 정렬)
  1. Sequential Round 5: 각 가치를 순서대로 5번씩 정렬 (30번 정렬)
- 정렬 순서
  Round 1: Humor → Harmlessness → Helpfulness → Diversity → Coherence → Perplexity
  Round 2: Humor → Harmlessness → Helpfulness → Diversity → Coherence → Perplexity
  ...
  Round 5: Humor → Harmlessness → Helpfulness → Diversity → Coherence → Perplexity

실험 결과
1. 1 Round로는 부족함 ⇒ Catastrophic forgetting 발생
  - 나중에 정렬한 가치는 개선되지만
  - 먼저 정렬한 가치는 다시 저하됨
1. 5 Rounds는 충분함 ⇒ MAP와 거의 동등
  - 여러 번 반복하면 모든 가치가 균형잡힌 수준으로 수렴

Yonsei Univ. ICL

MAP: Multi-Human-Value Alignment Palette

💡다중 가치 정렬을 기존의 가중치 튜닝 방식이 아니라 원하는 수준의 목표(palette)를 먼저 지정하고, 그 목표를 만족하는 λ를 자동으로 찾아 Pareto 개선을 보장하는 정렬로 바꿔보자!

MAP: Multi-Human-Value Alignment Palette

Review

TL; DR

Summary

Preliminary

Pareto Frontier (파레토 프론티어)

분위수(quantile) ← (실험에서 등장할 예정..)

Introduction

Background

Motivation

Contribution

Method: MAP

기존 접근 (RLHF / DPO / MORL)

MAP의 3단계 프로세스

입력/출력

Step 1: Value Palette (목표 수준 설정)

Step 2: Feasibility Check (실현 가능성 검증)

Step 3: Align model

Experiment

Categories