Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : ํ๋ ฅ์ ๊ดํ ๋ณด์ฅ,์ฒ๋ฒ,ํ๋ํจํด์ ๋ถ์ํจ / ๋ชจ๋ธ ๋ณ ํ๋ ฅ์ ๋์ ๊ดํ ๋ถ์ ์ ๊ณต โข ๋จ์ /๋ณด์์ : so what? | 3 |
| ์์ด๋ฆฌ์ค | ์ฅ์ : ์ง์ง ๋๊ฐ์ ์ฌ๋์ด ์ด ๋
ผ๋ฌธ์ธ ๊ฒ ๊ฐ์. ๊ฐ์ธ์ ์ผ๋ก๋ ๊ณ ๋ คํด์ผํ ๋ฌธ์ ์ด๋ฉด์, ๊ถ๊ธํ ์ฃผ์ ์. ์ฌํ์ ์ผ๋ก ์์ ํ ๋ชจ๋ธ์ ์ํด์ ๊ณ ๋ คํด์ผํ๋ ๊ด์ ์ ํ์ด๋ด๋ ๋
ผ๋ฌธ์ผ๋ก ์ข์ ์ฐธ๊ณ ๊ฐ ๋ ๋ฏ. ๋จ์ : ์คํ ๋ฐฉ์์ด ์ปดํจํฐ๊ณผํ์ด ์๋ ๊ฒ ๊ฐ์.. ๊ทธ๋ฅ ์ฌํ์ฌ๋ฆฌํ์ ๊ฐ์ ธ๋ค ๋ถ์ธ ๋๋์ด๊ณ , ํด์๋ ๋ง์ด ์์ฌ์. ๋ณด์์ : ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํด์ผํ๋ค๊ณ ์๊ฐํจ. ๋ด๊ฐ ์๊ฐํด๋ณผ ์์ญ์ด๋ผ๊ณ ๋ ์๊ฐํจ. | 4.0 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : MoE ํ๊ฒฝ์์ LRM ๊ฐ ํ๋ ฅ์ด๋ผ๋ ์๋ก์ด ์ฃผ์ ๋ฅผ ๋ถ์ โข ๋จ์ : ์๋ก์ด ๋ถ์ ๊ฒฐ๊ณผ๋ ํฅ๋ฏธ๋กญ์ง๋ง, ์ ์ด๋ ๊ฒ ๋์ํ๋ ๊ฒ์ธ์ง ํด์์ด ๋ถ์กฑํจ โข ๋ณด์์ : ํด๊ฒฐ์ฑ ์ด๋ ์ฌํ ๋ถ์ | 3.3 |
| 3์ | โข ์ฅ์ : ์คํ ์ค๊ณ๊ฐ ์ฐธ์ ํ๊ณ ์ฌ๋ฐ๋ค. ๊ธฐ๊ด ์ ํ์ ๊ณต๊ณต์ฌ ๊ฒ์์ผ๋ก ๊ฐ์ฃผํ์ฌ ํ์ค์ ์ธ ์ฌํ์ ๋๋ ๋ง๋ฅผ ํํํ๋ ์๋๋ฆฌ์ค๋ฅผ ๊ตฌํํจ โข ๋จ์ : LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ด ํ๋ ฅ์ ์ ํดํ๋ ์ฃผ์ฅ์ ํน์ prompt์ด ์ฃผ์ด์ง ๋ ๊ทธ๋ ๊ฒ ํ๋ํ์ ๋ฟ์ธ๊ฑฐ๊ฐ์๋ฐ... ์ด๊ฒ ๋ชจ๋ธ์ ๋ณธ์ง์ ํน์ฑ์ด๋ผ๊ณ ๋ณด๊ธฐ๋ ์ด๋ ค์๋ณด์ โข ๋ณด์์ : Alignment prompt๋ฅผ ๋ช ์์ ์ผ๋ก ์ฃผ์ ํด์ ์ฌ์ ํ ์ถ๋ก ๋ชจ๋ธ์ด ๋ฐฐ์ ํ๋์ง ํ์ธํด๋ณด๊ธฐ | 3.5 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : ์์ด์ ํธ๊ฐ ๋์ธ๋ผ ๊ทธ๋ฐ์ง ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์ ๋ค๋ฃจ๋ ๋
ผ๋ฌธ์ด ๋ง์ด๋ณด์ด๋ ๊ฒ ๊ฐ๋ค. ์ญ์ ๊ณตํ์ ์ฌ๊ณ ๋ฟ ์๋๋ผ ์ฒ ํ์ ์ธ ์ฌ๊ณ ๋ ์ค์ํ ๊ฒ ๊ฐ์! โข ๋จ์ : LLM ์ด ์ ๊ทธ๋ ๊ฒ ์ถ๋ก ์ ํ๋์ง์ ๋ํ why๊ฐ ๋ถ์กฑํจ โข ๋ณด์์ : ์ฝ์ผ๋ฉด์ ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์์ ๋์กฐ ํ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ (์ฌ๋ฌ ์์ด์ ํธ๊ฐ ๋ง๋คํ๋ฉด ์ด์ฉ ์ ์์ด ๋์กฐํ๊ฒ ๋๋ ํ์) Do as We Do, Not as You Think: the Conformity of Large Language Models (ICLRโ25 Oral) ๋ ผ๋ฌธ์ด ์๊ฐ๋ฌ๋๋ฐ ์ด ๋ ผ๋ฌธ๊ณผ ๋น์ทํ ํ๊ฒฝ์์ ์คํ์ ํด๋ณด๋ฉด ์ฌ๋ฐ์ ๊ฒ ๊ฐ์! | 3.5 |
| ์๋์ง | โข ์ฅ์ : Public good game์ ํ๊ฒฝ์ ์ค์ ํด, ์ค์ LLM์ reasoning ๋ฅ๋ ฅ๊ณผ ํ๋ ฅ ๋ฅ๋ ฅ์ ๊ด๊ณ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์ฐ๊ตฌ ๋
ผ๋ฌธ. โข ์ฝ์ : ์ฐ๊ตฌ ์ฃผ์ ๋ ์ฐธ์ ํ์ง๋ง ๋จ์ํ ํด์(?)์ ๊ทธ์น๋ ๊ฒ ๊ฐ์. โข ๋ณด์์ : ์ดํ ์์ธ ํ์ ์ด๋ ์ถ๊ฐ ๋ถ์, ํด๊ฒฐ ๋ฐฉ์ ๊ฐ์๊ฒ ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์. ๋ํ ๊ผญ ํ์ ์ด ์ข์ ๊ฒ์ธ๊ฐ? ์๊ฐ์ด ๋ฆ. (ํ์ ์ด ์ข๊ณ ๋์๋ค๋ฅผ ํ์คํ ์ ์ํ ๊ฒ ๊ฐ์ง ์์ง๋ง, ๋ ผ๋ฌธ์์๋ ํ์ ์ ์ข๊ฒ ์๊ฐํ๋ ๊ฒ ๊ฐ์์) | 3.1 |
| ํผ์ฆ์น์ | โข ์ฅ์ : multi-agent ํ๊ฒฝ์์ ํ๋ ฅ์ ์ค์ฌ์ผ๋ก ๋ถ์ํจ. ์์ด์ ํธ ์ฐ๊ตฌ์ ์ฐธ๊ณ ํ ์๋ ์์๊ฒ ๊ฐ์ โข ๋จ์ : ๊ธฐ์กด์๋ 'LLM ์ง๋จ์์ ์ํธ์์ฉ์ด ํ๋์ ๋ฏธ์น๋ ์ํฅ'์ ๋ณด๋ ์ฐ๊ตฌ๋ ๋ง๋๋ฐ ์ด๊ฒ๋ ๋ง๋ง '๊ณต๊ณต์ฌ~' ๋๋์ผ๋ก๋ง ์ข ๋ฐ๊พผ๊ฑฐ๊ฐ์ โข ์ ์: ์ด๋ป๊ฒ ์ด๋คํ๊ฒฝ์์ ํ๋ ฅ์ด๋ ๋นํ๋ ฅ์ ์ ๋ํ๋์ง ๋ ์ ๊ตํ๊ฒ ๋ถ์ํ ์ ์์ ๊ฒ ๊ฐ์ | 3.5 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ๋ด ์ธ์์ด ๋ฌด๋์ง. ์ถฉ๊ฒฉ์ ์ธ(๋๋ผ์ด) ๊ฒฐ๊ณผ์ ๋จ์ : ์คํํ๊ณ ์ค์ ํ๊ณ ์ผ๋ง๋ align๋๋์ง ๋ชจ๋ฅด๊ฒ ์ด์ ์ด๊ฒ ์ ํจํ ์ง๋ ๋ฏธ์ง์์ ์ ์์ : ์ค์ ๋ฉํฐ์์ด์ ํธ ์์คํ ์ context ์ฃผ๊ณ ๋ฐ๋๋ฐ, ๊ทธ๋ฐ ์ค์ ์์๋ ํด๋ด์ผ ํ๋ค๊ณ ์๊ฐํจ | 3.8 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : ์ถ๋ก ๋ฅ๋ ฅ์ด ๊ฐํด์ง์๋ก ์คํ๋ ค ํ๋ ฅ์ ์ ํ๋ค๋ ๊ฒฐ๊ณผ๊ฐ ํฅ๋ฏธ๋ก์. โข ๋จ์ : ์ถ๋ก ๋ชจ๋ธ์ด ํ๋ ฅ์ ์ ํ๋ค๋ ๊ฒฐ๊ณผ๋ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ ๊ทธ๋ฐ ์ ํ์ ํ๋์ง์ ๋ํ ๋ถ์์ด ๋ถ์กฑํ๊ฒ ๊ฐ์. โข ๋ณด์์ : ํ๋ ฅ์ ๋ช ์์ ์ผ๋ก ์ ๋ํ๋ ์ง์๋ฅผ ํ๋กฌํํธ์ ์ถ๊ฐํ์ ๋๋ ์ถ๋ก ๋ชจ๋ธ์ด ์ฌ์ ํ ๋ฌด์์น์ฐจํ๋์ง ํ์ธํด๋ณด๋ฉด ์ข์ง ์์๊น | 3.6 |
TL; DR
๐ก
ํ์ฌ์ ์ถ๋ก ์ต์ ํ๊ฐ ํ๋ ฅ์ ๋ณ๋๋ก ์ ๋ ฌ์ํค์ง ์๋๋ค๋ฉด, ํ๋ ฅ์ด ์๋ ํฉ๋ฆฌ์ ์ด๊ธฐ์ฃผ์๋ฅผ ํ๋ฐฉํ๋ ๊ฐ์ธ์ฃผ์ ๋ชจ๋ธ์ด ํ์ํ ์ ์๋ค!
์ฆ, ์ถ๋ก ๋ฅ๋ ฅ๊ณผ, ํ์
๋ฅ๋ ฅ(๋น์ฉ ๊ฐ์ ์ธก๋ฉด)์ ๋ณ๊ฐ๋ค!
Summary
Background
- ๋ ๋๋ํ ๋ชจ๋ธ์ ๋ง๋ค๋ฉด(์ถ๋ก ๋ฑ) ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์์๋ ๋ ์ข์ ์ฌํ์ ํ๋์ ํ ๊น?
- ๋๋ง ํฌ๊ฒ ์ด๋๋ณด๊ธฐ vs ๋ค๊ฐ์ด ์กฐ๊ธ ์ด๋๋ณด๊ธฐ
- The Competitive Advantage of Sanctioning Institutions (Scienceโ2006)
Motivation
- LLM์ ์ถ๋ก ์ ๊ฐํํ๋ ๊ฒ์ด ๋ ๋์ ์์ฌ ๊ฒฐ์ ์ผ๋ก ์ด์ด์ง ์ ์์๊น?
- ๊ฐ์ธ ์ด์ต vs ์ง๋จ ์ด์ต์ ์ถฉ๋ ์ํฉ (social dilema)
- ๋ด๊ฐ ์กฐ๊ธ ์ํด๋ด๋, ์ ์ฒด์ ์ผ๋ก ์ด๋์ด ๋๋ ์ํฉ
- ๋น์ฉ์ ๋ค์ฌ ๊ท๋ฒ์ ์งํํ๋ ํ๋ ฅ ์ํฉ์ ์คํํด๋ณด์!
- ํ๋ ฅ์ด main? X
- LLM์ด ํ๋ ฅ์ ์ ์งํ๊ธฐ ์ํด ๋ณธ์ธ์ ์์์ ์ฌ์ฉํด๊ฐ๋ฉฐ sanction(๋ณด์/์ฒ๋ฒ)ํ๋๊ฐ?
- ๋ชฐ๋ผ์ ์ฐพ์๋ด sanction: ์ ์ฌ/์ฒ๋ฒ/๋ณด์ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ค๋ฆ
- Public Good Game ํ์ฉ
์ฌ๊ธฐ์ ๋ํด์, ๊ท์ ์ดํ โ ๋ณด์ / ๊ท์ ๋ถ์ดํ โ ์ฒ๋ฒ ๋์
Idea
- ์์ฐจ์ ์ผ๋ก ์ ํํ๊ฒ ํด๋ณด์!
- ๊ท์ ์ ๋ฐ๋ฅธ ์ฒ๋ฒ/๋ณด์์ ํ ๋ ๋ง๋?
- ์ผ๋ง๋ ๊ธฐ์ฌํ ๋?
- ๋ค๋ฅธ ์์ด์ ํธ ์ฒ๋ฒ/๋ณด์ ํ ๋ ๋ง๋?
- WHY?
- ๊ท์ ์ฒ๋ฒ/๋ณด์์ ๋๋ค๋ฅธ ๋น์ฉ์ ์ผ๊ธฐํจ
- ์ฒ๋ฒ ์์ค, ๋ณด์ ์์ค, ์ค์ ๋ณด์ ์ฒ๋ฒ ์งํ ๋ฑโฆ
- ๊ฐ์ธ ์ ์ฅ์์๋ ์ถ๊ฐ ์ฒ๋ฆฌ๋ฅผ ํด์ผํ๋ ์ ๋ฌด
- ๊ท์ ์ฒ๋ฒ/๋ณด์์ ๋๋ค๋ฅธ ๋น์ฉ์ ์ผ๊ธฐํจ
โ Main Question: ๊ทธ๋ผ์๋, ๊ท์ ์ดํ ๋ฐ ๋ชจ๋์ ์ด์ต์ ์ํด, ๋ด๊ฐ ํ๊ฒ ๋ค ํ๋ ์์ด์ ํธ๊ฐ ์์๊น? ์๋ค๋ฉด, ๋๊ตฌ์ผ๊น? ๊ทธ๊ฒ ์ถ๋ก ์ฑ๋ฅ๊ณผ ์ด๋ค ์ฐ๊ด์ด ์์๊น?
Method
- ๋ํ ์์ด, ์ด์ ๋จ๊ณ์ ๊ฒฐ์ ๋ง ๋ณด๊ณ ๋ค์ ๋ผ์ด๋ ์งํ!
Experiment
Insights
- ํ์ ์ด ์ธ๊ฐ์ ๋๋ชฉ์ธ๊ฐ? ๋ผ๋ ๊ฒ์ ์ ๋ชจ๋ฅด๊ฒ ์.
- ์ธ๊ฐ๋ ์คํ๋ ค ์ง์๋ฅผ ๋ช ํํ ๋ด๋ ค์ฃผ๋ ๊ฒ์ด ๋ ์ํ์ง ์๋? ํ์ ๋ ๊ทธ๋ฐ ๋ฐฉ์์ด๋ผ๊ณ ์๊ฐํจ.
- ๊ฐ์ธ์ฐ๊ตฌ๋ฐฉํฅ์ ์ถ๊ฐํ๊ณ ์ ํ๋ ๊ฒโ MoE๋ฅผ ๊ทธ๋ฅ ํต๊ณผ์ํค๋ ๊ฒ์ด ์๋๋ผ, Planner๊ฐ ํต์ ํด์ ํต๊ณผ์ํค๋ ๊ฒ
- ์ง๊ธ์ LLM ๊ฐ ํ์
๋ง ๊ณ ๋ คํ๋๋ฐ, ๊ฒฐ๊ตญ ์ฌ๋์ด ๋ผ๋ฉด ํ์
๊ณผ์ ์์ ์ฌ๋์ ๊ฐ์ /์ด๋์ ์ฐ์ ์ํ ๊น?
- ์ด๊ฒ๋ ๊ณ ๋ คํด๋ณผ ํฌ์ธํธ ๊ฐ์
- LLM์ ์์์คํจ์ค์ผ๊น?






