Multiplayer Nash Preference Optimization

Review

닉네임	한줄평	별점 (0/5)
코스피	강점: Aligmnet를 Min-max가 아닌 ‘다른 모델’에 비해서 얼마나 보편적으로 잘 할 수 있는가에 대한 지표를 제시한 것이 강점. 약점: 전체 기준에 맞추다 보면 특정한 기준에 대한 최적화 부분에서는 약점을 보일 수 있을 것이라 봄. 제안: 특정 Oracle에 맞추면서 전체 기준에 맞추는 학습 방법이 좋을 듯.	3.7
얼라	강점: 로짓이 절대값보다 상대적 비교로 의미를 갖듯이 alignment도 단일 점수 maximization이 아니라 여러 정책 간 상대적 우위와 균형으로 해석한 관점이 신선함 약점: 실제 빅테크기업들은 특정 Preference에 집중해서 alignment를 하고 이를 selling point로 사용하는걸로 알고 있는데 해당 방법론은 시장 경쟁력에서 약할 것 같음 제안: 하나의 preference는 올린다는 가정 하에 나머지의 평균을 올리는 방법론이 나오면 좋을듯	4.0
비요뜨	강점: 논문이 alignment를 바라보는 관점은 참신하긴 하다. 마치 실세계의 '남들과 비교해서 평균 이상만 하자'와 유사한 관점인듯 약점: '평균적으로 강한 정책'이 꼭 '특정 사용자에게 좋은 정책'은 아닐것 같음. 그냥 두루두루 무난한~ 정책을 만드는거고, 어느 그 하나의 관점에서도 최고가 아님 제안: 상황이나 달성하고자 하는 목적에 맞게 adaptive 하게 '상대'를 구성해도 좋을듯	4.1
칫솔	강점: 달성해야 할 기준이 여러개일 수 있다는 점이 현실적 시나리오와 잘 맞음 약점: 다 잘한다는 게 현실적으로 불가능한데, 이도저도 아니게 정렬될 가능성 제안: 평균에 맞추는 게 아니라 맞춰야 할 기준을 파악하고 거기에 최적화	3.9
설향딸기	강점: “어떤 모델보다” 가 아니라, “중간은 가자” 느낌으로 이해되고, 관점에 따라 좋은 방향이라고 생각함. 오히려 보편화될 모델이 가져야하는 최적화 방향이라고 느껴짐. 약점: 보편화를 위함이라면 납득가능하지만, 결국 보편화 이후 특정 task에 학습하고 개선하는 과정이 자연스럽게 필요하다고 생각함. 하지만, 이 연구에서는 이렇게 최적화한 뒤의 모델 개량은 고려하지 않음. 제안: 선호도 최적화를 백날천날 할 수 있는 것일까? 그 다음 학습에 어떤 영향을 미치는지도 고려해야 하지 않을까? 라는 생각이 듦. 이 논문과는 크게 관련 없지만, 그냥 읽고 보니 생각남.	4.0
나스닥	장점: 관점이 재미있고 이런연구 하나쯤은 필요하다고 생각 듦! 단점: 연구의 필요성에 대한 설득력이 많이 떨어짐… 지지않는 모델이라는 것이 왜 필요하지? 코드는 지피티가 잘하고 safety는 클로드가 잘하고 RAG는 제미나이가 잘하면 지지않는 모델은 어디다 써야할까? 제안: 상반되는 가치를 줘야할 때 실용적일 수 있음을 보이자! e.g. LLM safety에서 모델은 적극적으로 말해야 하지만 동시에 조심스럽게 말해야 함	3.5
커피	강점 : human preference를 실제 세계의 "다양성"이라는 현실적인 관점에 맞춰 alignment해야한다는 내용. 또한 설계 어려움으로 인해 자신의 이전 모델을 opponent로 두어 비교하는게 논리적으로 타당해 보여 참신했음. 약점 : 확장 가능성은 좋아보이지만, 모든 성질을 고려하여 성능이 우수한 모델을 만드는 것이 그에 따라오는 비용을 감안할만큼 가치가 있을지가 궁금함. 제안 : 실제로 관련있거나 중요한 목표를 기준을 삼고, 그에 따라 alignment의 성능 변화 실험을 제시하면 확장 가능성을 더 잘 보여줄 것 같음.	3.5
404	강점: `1등은 못해도 꼴찌는 하지 말자!` 를 추구하는 연구. 아카데믹한 핀트에서는 아쉽지만, 사실 실제상황에서는 이런 (적당한 비용으로 적당한 수준의 서비스를 할 수 있는) 방향을 좀 더 선호할수도! 약점: 연구의 필요성이 강하게 와닿진 않음. 제안: 그래도 하나 정도는 명확한 Objective를 가지도록 학습해야 하지 않을까? 다양한 objective를 동시에 align할때 trade-off를 보완하는 느낌으로	3.5
AI	강점: 실제 인간 선호가 non-transitive함을 반영하고 이론적 정당성을 유지하면서 확장함 약점: 논문에서 multiplayer을 주장하고 있는데 실제로는 과거 policy들의 mixture 형태라서 단일 모델 trajectory일 가능성이 높지 않을까...? populaiton game이라고 부르는게 다소 과장일수도 제안: Player 숫자를 고정하지 않고 점진적으로 진화하는 policy를 고려한 multi-agent 연구 수행 가능	3.7
국밥	강점: 보상 최대화가 아니라 누구에게도 지지 않는 균형을 목표로 삼는다는 관점 전환이 신선한것 같음. 약점: Time-dependent MNPO에서 과거 snapshot 정책들을 opponent로 쓰는 방식이 진짜 multiplayer인지, 결국 자기 자신의 과거와 경쟁하는 것 아닌가. 제안: 과거 자기 snapshot뿐 아니라 실제 다른 LLM을 opponent pool에 포함시키는 실험을 추가하면 좋지 않을까	3.7

TL; DR

💡

alignment가 가져야 할 목표는 보상을 최대화하는 것이 아니라, 다수 가치 및 정책 집단 속에서 그 누구에게도 지지 않는 안정적 균형 상태를 가지는 것이다!

Summary

뭐에 쓰려고 이 연구를 했을까?
- 다양한 가치와 관점이 존재하지만, RLHF는 점수 기반 최적화기 때문에 모두를 만족시키기 어려움
  - 어떤 관점과 가치로 학습하고 최적화되느냐에 따라 매번 달라져서, 어떤 경우에는 더 안 좋아질 수 있음
- Nash 최적화는 이를 보완함. 어떤 심판이 오던, 상대 모델에 대해서 최소한 지지는 말자!
  - 그런데, 기존 방법은 2-player만을 고려. 그런데, 상대 모델은 보통 여러개 아닌가?
- 그래서, Multiplayer Nash PO를 제안
  - 어떤 가치가 오든, 어떤 상대 모델이 오든, 평균적으로 지지는 말자!
  - 어떤 상황에서든 최선의 선택이 가능하도록 만들기
- 예)트랜스포머 설명해줘
  - RLHF (concise) (보상 점수 최적화)
    트랜스포머는 어텐션 기반 모델입니다
  - RLHF(detail)
    트랜스포머는 인코더 디코더 기반으로 구성되며, 어텐션…
  - NLHF(concise vs detail) (상대 한명과 토론해서 지지 않기)
    상대 모델의 특성에 따라, oracle에 따라 특정 방향으로 쏠릴 수 있음
  - MNPO (토론 상대가 여러명이어도 누구에게도 완패하지 않기)
    concise+detail+… 가 경쟁하고, 어느 하나도 놓치지 않도록 구성

Background

논문에서 정리를 잘함

Bradley-Terry (BT)
- 하나의 스칼라 reward 함수를 통해 최적화
- Transitive 가정
  - A를 RLHF해서 A’를 만들면, A< A’
  - A’를 RLHF해서 B를 만들면 A’< B
  - 그러면, A<B 라고 봄

Nash 균형
- 상대가 바꾸지 않으면 나도 바꿀 이유가 없음
- 항상 파레토 최적은 아님(최선의 선택이 아님)
- 학습 관점에서, 무슨말인가?
  - 내가 한번 더 학습하면, 상대보다 못해질 가능성이 있음. 그래서, 더 학습하는 게 의미가 없음.
    가만히 있는 것이 더 좋은 경우
- 참고

Motivation

기존 연구에서 BT 기반의 RLHF(Reinforcement Learning from Human Feedback)를 NLHF(Nash Learning from Human Feedback)로 확장
- RLHF의 문제점
  - 실제 인간 선호가 transitive 하지 않음
  - 다양한 성질이 영향을 미치며(안전성, 효용성, 간결성 등) annotator마다 기준이 다름
- 이를 해결하는 2-player nash game으로의 최적화 정의
  - Nash Learning from Human Feedback (ICML’24)
  - 상대가 누가 오든, 괜찮도록 만들기
  - 어떻게?
    심판을 두고, 그 심판이 더 좋은 것을 뽑게 만들었을 때, 상대방으로부터 최소한 지지 않게 만들기
  - 즉, RLHF의 보상 점수를 ⇒ 비교 기반 우위로 변경

하지만, 정렬은 n-player game이어야 함
- 상대 정책이 꼭 하나인가?(X)
- 목표가 단일인가?(X)

어떻게 처리?
- 여러 정책의 평균을 활용하여, 평균적인 상대보다 더 자주 이기도록

Idea

Alignment(정렬)은 min-max가 아니라, 전체 관점의 평형을 봐야 함
- 여러 기준을 가지는 정책 집단과 경쟁해야지, 단일 정책과 경쟁해봐야 의미 없다!
- 평균보다 더 좋은가? ⇒ 최소한 중간 이상은 간다!
- DPO, SimPO 를 포괄하는 개념임!
  - 어떤 상대가 있고, 그 상대보다 더 우수해지도록 비교 우위 기반으로 학습하면 이 방법임(저자들 주장이긴 함)

Method (수식 다 뺌)

Multiplayer Nash Preference Optimization(MNPO) 제안
- preference oracle(심판)을 공유하는 경우 (Homogeneous)
  - 이론적으로 완벽하지만, 실세계와는 멀어짐
- 각각 다른 preference orcale이 존재하는 경우(Heterogeneous)
  - 이론적으로 조금 이상해지지만, 실세계에 가까움
    안전성, 효용성 등 관점에 따라 달라질 수 있음

Homogeneous MNPO

Oracle이 하나, 모든 모델이 공유

Oracle이 좋아야 함

이론적으로 좋다!
- 내쉬 균형이 보장될 수 있음

Heterogeneous MNPO

Oracle이 여러개(각 모델이 preference가 여러개임)

내쉬 이론 보장이 약해지지만, 현실에 가까움

본 연구에서는 제안만 하고, 명확하게 다루지는 않음

Time-dependent MNPO

이전 학습 정책을 경쟁 상대로 활용

여러 정책을 동시에 쓰기, GPU 메모리도 한계가 있으니, 효율성 측면에서 snapshot 기반 활용

Experiments

정렬은 보상을 많이 받는 것이 아니라, 여러 상대보다 못하지 않는 것! ⇒ 안전성, MNPO의 motivation

Instruction following 벤치마크

Knowledge, commonsense 벤치마크

Analysis

여러 oracle이 있어도, 동작 가능
- 성능이 더 좋아질 수 있다!

Single player보다 Multiplayer가 더 좋다
- vs., INPO에서 성능 우위
- single opponent는 과적합 위험, 더 강건하게 학습한다.

Alignment 강화 + 능력 유지
- 잃는 것을 줄이고, 새로운 것을 잘 받아들임
- RLHF 계열은 성능 편차가 존재하지만, MNPO는 성능의 일관성이 좋다

Yonsei Univ. ICL

Multiplayer Nash Preference Optimization

💡alignment가 가져야 할 목표는 보상을 최대화하는 것이 아니라, 다수 가치 및 정책 집단 속에서 그 누구에게도 지지 않는 안정적 균형 상태를 가지는 것이다!

Multiplayer Nash Preference Optimization

Review

TL; DR

Summary

Background

Motivation

Idea

Method (수식 다 뺌)

Homogeneous MNPO

Heterogeneous MNPO

Time-dependent MNPO

Experiments

Analysis

Categories