To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

Review

닉네임	한줄평	별점 (0/5)
리틀	LLM의 최종 목적지는 어디일까 생각해보게 되는 재밌는 논문, 실험 세팅도 Identified와 pseudo를 나눠서 정체성 단서가 편향에 어떤 영향을 미치는지 를 측정했다는 점에서 설득력이 있는 것 같다. 근데 왜 Claude에서만 더 mask 성향이 두드러졌는지 궁금하다	4.2
밤	LLM에게 일반 사용자가 바라는 건 사회적 편향 반영하는 결정보다는 그걸 뛰어넘은 보다 논리적이고 편향되지 않은 결정일 듯한데, 이걸 위해서는 모델을 잘 선택하고 좀더 장치 거쳐야 하겠다 싶음	3.9
5시	LLM의 결정에서 편향을 없애고, 인간보다 더 나은 선택을 할 수 있는지 확인하는 실험이 이 논문의 Novelty인 듯 함. 그런데 Claude가 확연히 다른 성향을 보였는데 그 이유에 대해서 좀 더 상세하게 분석하는 후속 연구가 있어도 좋을 것 같음.	4.2
3일전	인간을 따라하지 않는 게 optimal하지 않다는 것이 놀랍네. 인지체계를 모방하는 것이 아니라 LLM만의 기준을 우리가 습득해야하는 것도 많아보임. Llama,Qwen 등 보다 다양한 모델에 대한 실험결과도 궁금하다…	4.5
커튼콜	집단적 alignment는 단일 목표가 아니라, 상황에 맞게 전략을 선택하는 유연성이 필요해 보임. 다음 ai 구독할 때 Chatgpt와 Claude 두개중 고민하고 있었는데 결정에 참고가 된 것 같다	3.9
노트북노션로딩안돼서폰으로	절대적인 도덕이나 편향이 완전히 사라진 모델이 의미가 있을까? 라는 생각이 들었음. 모두가 올바른 결정, 모두가 올바른 판단과 같은 생각을 하게 만든다면, 이라는 생각이 들었음. 이 논문에서도, 둘 중 어느 것이 맞다라는 것은 제시하지 않고 있고, 결국 용도에 따라 어떻게 쓰냐의 문제인 것 같음. 모델 학습과 개선에서 고려해야할 가치와 방향을 다시 한번 생각하게 한 논문.	4.8
동글동글	이번주 논문 중에 제일 재밌다	4.8
빠스	Anthropic이 역시 본인들 기조대로 모델을 잘 만든다고 느끼게 해준 논문	3.5

TL; DR

💡

LLM은 사람을 따라하는가? 혹은 사람이 보편적으로 가진 편향(?)을 없애고 사람보다 더 나은 결정을 내리는가? 리더 선출 실험을 통해 분석한 결과, LLM 별로 다르다. (GPT, Gemini는 인간을 그대로 모델링 , Claude는 더 나은 선택)

Summary

Motivation

LLM은 이제 개인 수준의 의사결정은 잘 따라 함 (Mirror)
- 그러나, 집단 수준의 의사 결정도 인간 같이 할 수 있는가? (Collective Reasoning)

대표적으로, 리더 선출(대통령 선거 같은 것)
- 여기서는, 성별 / 확신 편향이 관찰되어 왔음
- 인간도 같은 방식의 편향이 있지 않나?
  - 작성자 의견: 사람과 똑같이 하는 것을 편향이라고 할 수 있나?
    원문: “Gemini and GPT actr as mirrors, reproducing human social patterns with biases included”

⇒ LLM이 집단 의사결정에서 인간의 사회적 편향을 “reproducing/mirror” 하는가 or “mask”(보정,왜곡) 하는가?

예) 리더 선출 시 모든 능력이 동일하다면, 남성을 선호하는가 여성을 선호하는가?

사람의 사회적 편향: 남성 선호

LLM do Mirror: 남성 선호 ⇒ GPT, Gemini 계열

LLM do Mask: 동일하게 봄 ⇒ Claude 계열

Idea

그렇다면, LLM은 어떤 것을 따라야 하는가?
- 사람을 그대로 따라한다. (행동 정렬, Descriptive alignment)
  - 알려진 능력이 조금 부족하더라도, 남성 리더 선출
- 사람보다 더 나은(meritocratic) 결과를 내야 한다. (결과 정렬, Normative allignment)
  - 알려진 능력이 더 좋은 여성 리더 선출

즉, 인간과 비슷하게 행동하는 것과, 더 나은 결과를 내는 것은 다르다.

Method

Lost at Sea 리더 선출 실험
- 4인 그룹이, 무인도 같은 곳에 떨어지면 누가 리더가 되어야 할까?
- 지속적으로 성별 편향이 관찰된 사회 심리 실험

실험 구성
- 토론
- 자기 후보 선언 (self-nomination)
- 투표
- 대표 수행 후 점수

지표
- 모든 참가자가 과제를 수행
  - 가장 잘한 참가자의 점수
  $S_{l^*_g}$
  - 선출된 리더의 점수
    $S_{l_g}$

\delta_g = S_{l^*_g} - S_{l_g}

⇒ Optimal Leader gap

선출한 리더가, 얼마나 못했는가?

편향 관련 구체적 분석을 위해 추가적인 장치 도입
- 최고 수행자가 후보에 있었는가?
- 최고 수행자가 후보에는 있었는데, 투표에서 탈락했는가?

Experiment

실험 설계
- 인간 실험
  - Setting 1: 이름, 아바타, 성별 공개 (Iden)
  - Setting 2: 동물 이름, 성별 단서 제거 (Pseudo)
  - 남2/여2
- LLM
  - 사람과 동일
  - + ND (context 완전 제거), 즉 페르소나 없이

개인 수준으로 수행 능력이 정렬되지만, 자가 후보 선언은 남성 선호 편향이 존재한다.
- 인간과 LLM 모두 수행 능력에는 성별 차이 없음
- 자가 후보 선언에는 남성 편향

인간 리더와 유의미하게 일치하는가? ⇒ 모델 별로 다르다. Gemini, GPT 일치 (Mirror) / Claude 불일치 (Mask)
- 모델 별로 다르다!

최적의 리더 선출이 가능한가?⇒ 인간과 인간을 따라하는 모델 X, 더 나은 선택을 하는 모델 O
- 인간을 따라하지 않는 것이 더 손실이 적다 (인간은 약 14.5% 손실 vs 2% 손실)

정말로 편향이 있는가? ⇒ 성별을 모를땐 편향이 완화된다.

Identity는 필수적인가? ⇒ 필수적이다. Claude는 Identified에서만 최적성을 유지한다. ⇒ 익명화 not equal to 공정
- 없애면 random으로 돌아가버림

Insight: LLM을 쓸 때, 어디에 써야 하는가에 대한 가이드라인 느낌! GPT, Gemini 인간 모델링 실험 / Claude: 결정 시스템

Yonsei Univ. ICL

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

💡LLM은 사람을 따라하는가? 혹은 사람이 보편적으로 가진 편향(?)을 없애고 사람보다 더 나은 결정을 내리는가? 리더 선출 실험을 통해 분석한 결과, LLM 별로 다르다. (GPT, Gemini는 인간을 그대로 모델링 , Claude는 더 나은 선택)

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

Review

TL; DR

Summary

Motivation

Idea

Method

Experiment

Categories