Yonsei Univ. ICL

26 March 2026

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

💡현재의 추론 최적화가 협력을 별도로 정렬시키지 않는다면, 협력이 아닌 합리적 이기주의를 표방하는 개인주의 모델이 탄생할 수 있다!즉, 추론 능력과, 협업 능력(비용 감수 측면)은 별개다!

ALIGNMENT research

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

Review

닉네임	한줄평	별점 (0/5)
댓츠노노	• 장점: 협력에 관한 보장,처벌,행동패턴을 분석함 / 모델 별 협력정도에 관한 분석 제공 • 단점/보완점: so what?	3
아이리스	장점: 진짜 나같은 사람이 쓴 논문인 것 같음. 개인적으로는 고려해야할 문제이면서, 궁금한 주제임. 사회적으로 안전한 모델을 위해서 고려해야하는 관점을 풓어내는 논문으로 좋은 참고가 될듯. 단점: 실험 방식이 컴퓨터과학이 아닌 것 같음.. 그냥 사회심리학을 가져다 붙인 느낌이고, 해석도 많이 아쉬움. 보완점: 해결하는 방법을 제안해야한다고 생각함. 내가 생각해볼 영역이라고도 생각함.	4.0
핸드크림	• 장점: MoE 환경에서 LRM 간 협력이라는 새로운 주제를 분석 • 단점: 새로운 분석 결과는 흥미롭지만, 왜 이렇게 동작하는 것인지 해석이 부족함 • 보완점: 해결책이나 심화 분석	3.3
3월	• 장점: 실험 설계가 참신하고 재밌다. 기관 선택을 공공재 게임으로 간주하여 현실적인 사회적 딜레마를 표현하는 시나리오를 구현함 • 단점: LLM의 추론 능력이 협력을 저해하는 주장은 특정 prompt이 주어질 때 그렇게 행동했을 뿐인거같은데... 이게 모델의 본질적 특성이라고 보기는 어려워보임 • 보완점: Alignment prompt를 명시적으로 주입해서 여전히 추론 모델이 배신하는지 확인해보기	3.5
화이트노이즈	• 장점: 에이전트가 대세라 그런지 다중 에이전트 환경을 다루는 논문이 많이보이는 것 같다. 역시 공학적 사고 뿐 아니라 철학적인 사고도 중요할 것 같음! • 단점: LLM 이 왜 그렇게 추론을 했는지에 대한 why가 부족함 • 보완점: 읽으면서 다중 에이전트 환경에서 동조 현상 문제를 다루는 (여러 에이전트가 맞다하면 어쩔 수 없이 동조하게 되는 현상) Do as We Do, Not as You Think: the Conformity of Large Language Models (ICLR’25 Oral) 논문이 생각났는데 이 논문과 비슷한 환경에서 실험을 해보면 재밌을 것 같음!	3.5
에너지	• 장점 : Public good game의 환경을 설정해, 실제 LLM의 reasoning 능력과 협력 능력의 관계성을 보여주는 연구 논문. • 약점 : 연구 주제는 참신하지만 단순히 해석(?)에 그치는 것 같음. • 보완점 : 이후 원인 파악이나 추가 분석, 해결 방안 같은게 있으면 좋을 것 같음. 또한 꼭 협업이 좋은 것인가? 생각이 듦. (협업이 좋고 나쁘다를 확실히 정의한 것 같진 않지만, 논문에서는 협업을 좋게 생각하는 것 같아서)	3.1
피즈치자	• 장점: multi-agent 환경에서 협력을 중심으로 분석함. 에이전트 연구에 참고할 수는 있을것 같음 • 단점: 기존에도 'LLM 집단에서 상호작용이 행동에 미치는 영향'을 보는 연구는 많는데 이것도 말만 '공공재~' 느낌으로만 좀 바꾼거같음 • 제안: 어떻게 어떤환경에서 협력이나 비협력을 유도하는지 더 정교하게 분석할 수 있을 것 같음	3.5
창백카츄	장점: 내 세상이 무너짐. 충격적인(놀라운) 결과임 단점: 실험하고 실제하고 얼마나 align되는지 모르겠어서 이게 유효할지는 미지수임 제안점: 실제 멀티에이전트 시스템은 context 주고 받는데, 그런 설정에서도 해봐야 한다고 생각함	3.8
제로콜라	• 장점: 추론 능력이 강해질수록 오히려 협력을 안 한다는 결과가 흥미로움. • 단점: 추론 모델이 협력을 안 한다는 결과는 보여주는데, 왜 그런 선택을 하는지에 대한 분석이 부족한것 같음. • 보완점: 협력을 명시적으로 유도하는 지시를 프롬프트에 추가했을 때도 추론 모델이 여전히 무임승차하는지 확인해보면 좋지 않을까	3.6

TL; DR

💡

현재의 추론 최적화가 협력을 별도로 정렬시키지 않는다면, 협력이 아닌 합리적 이기주의를 표방하는 개인주의 모델이 탄생할 수 있다!
즉, 추론 능력과, 협업 능력(비용 감수 측면)은 별개다!

Summary

Background

더 똑똑한 모델을 만들면(추론 등) 다중 에이전트 환경에서도 더 좋은 사회적 행동을 할까?
- 나만 크게 이득보기 vs 다같이 조금 이득보기
- The Competitive Advantage of Sanctioning Institutions (Science’2006)

Motivation

LLM의 추론을 강화하는 것이 더 나은 의사 결정으로 이어질 수 있을까?
- 개인 이익 vs 집단 이익의 충돌 상황 (social dilema)
- 내가 조금 손해봐도, 전체적으로 이득이 되는 상황

비용을 들여 규범을 집행하는 협력 상황을 실험해보자!

협력이 main? X

LLM이 협력을 유지하기 위해 본인의 자원을 사용해가며 sanction(보상/처벌)하는가?
- 몰라서 찾아봄 sanction: 제재/처벌/보상 문맥에 따라 다름

Public Good Game 활용
from https://en.wikipedia.org/wiki/Public_goods_game
여기에 더해서, 규정 이행 ⇒ 보상 / 규정 불이행 ⇒ 처벌 도입

Idea

순차적으로 선택하게 해보자!

규정에 따른 처벌/보상을 할래 말래?

얼마나 기여할래?

다른 에이전트 처벌/보상 할래 말래?

WHY?
- 규정 처벌/보상은 또다른 비용을 야기함
  - 처벌 수준, 보상 수준, 실제 보상 처벌 집행 등…
  - 개인 입장에서는 추가 처리를 해야하는 업무

⇒ Main Question: 그럼에도, 규정 이행 및 모두의 이익을 위해, 내가 하겠다 하는 에이전트가 있을까? 있다면, 누구일까? 그게 추론 성능과 어떤 연관이 있을까?

Method

대화 없이, 이전 단계의 결정만 보고 다음 라운드 진행!

Experiment

전통적(추론 약함) LLM이 더 협력적이다
- LLAMA는 인간과 비슷한 수준
- o1-mini는 기여량이 낮고, 무임승차하려고 함
- 추론을 하기 시작하면 나빠진다!

행동 패턴은 4가지 (진행 단계에 따라)
- 점점 협력 수준 향상
- 점점 협력 무너지고 모두가 무임승차하려고 함
- 중간 전략 반복
- 협력했다가, 배신했다가
Traditional LLM ⇒ 점점 협력
Reasoning LLM ⇒ 2,3,4

인간과 결과는 비슷할 수 있어도, 그 근간이 다르다! (인간은 처벌 선호, LLM은 보상 선호)

추론이 강한 모델이 협력에 계속 실패하면, 게임 이론에 가까워짐

Insights

협업이 인간의 덕목인가? 라는 것은 잘 모르겠음.

인간도 오히려 지시를 명확히 내려주는 것이 더 잘하지 않나? 협업도 그런 방식이라고 생각함.

개인연구방향에 추가하고자 하는 것⇒ MoE를 그냥 통과시키는 것이 아니라, Planner가 통제해서 통과시키는 것

지금은 LLM 간 협업만 고려하는데, 결국 사람이 끼면 협업 과정에서 사람의 감정/이득을 우선시할까?
- 이것도 고려해볼 포인트 같음
- LLM은 소시오패스일까?

Categories

ALIGNMENT research