To Mask or to Mirror: Human-AI Alignment in Collective Reasoning
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ฆฌํ | LLM์ ์ต์ข ๋ชฉ์ ์ง๋ ์ด๋์ผ๊น ์๊ฐํด๋ณด๊ฒ ๋๋ ์ฌ๋ฐ๋ ๋ ผ๋ฌธ, ์คํ ์ธํ ๋ Identified์ pseudo๋ฅผ ๋๋ ์ ์ ์ฒด์ฑ ๋จ์๊ฐ ํธํฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋ฅผ ์ธก์ ํ๋ค๋ ์ ์์ ์ค๋๋ ฅ์ด ์๋ ๊ฒ ๊ฐ๋ค. ๊ทผ๋ฐ ์ Claude์์๋ง ๋ mask ์ฑํฅ์ด ๋๋๋ฌ์ก๋์ง ๊ถ๊ธํ๋ค | 4.2 |
| ๋ฐค | LLM์๊ฒ ์ผ๋ฐ ์ฌ์ฉ์๊ฐ ๋ฐ๋ผ๋ ๊ฑด ์ฌํ์ ํธํฅ ๋ฐ์ํ๋ ๊ฒฐ์ ๋ณด๋ค๋ ๊ทธ๊ฑธ ๋ฐ์ด๋์ ๋ณด๋ค ๋ ผ๋ฆฌ์ ์ด๊ณ ํธํฅ๋์ง ์์ ๊ฒฐ์ ์ผ ๋ฏํ๋ฐ, ์ด๊ฑธ ์ํด์๋ ๋ชจ๋ธ์ ์ ์ ํํ๊ณ ์ข๋ ์ฅ์น ๊ฑฐ์ณ์ผ ํ๊ฒ ๋ค ์ถ์ | 3.9 |
| 5์ | LLM์ ๊ฒฐ์ ์์ ํธํฅ์ ์์ ๊ณ , ์ธ๊ฐ๋ณด๋ค ๋ ๋์ ์ ํ์ ํ ์ ์๋์ง ํ์ธํ๋ ์คํ์ด ์ด ๋ ผ๋ฌธ์ Novelty์ธ ๋ฏ ํจ. ๊ทธ๋ฐ๋ฐ Claude๊ฐ ํ์ฐํ ๋ค๋ฅธ ์ฑํฅ์ ๋ณด์๋๋ฐ ๊ทธ ์ด์ ์ ๋ํด์ ์ข ๋ ์์ธํ๊ฒ ๋ถ์ํ๋ ํ์ ์ฐ๊ตฌ๊ฐ ์์ด๋ ์ข์ ๊ฒ ๊ฐ์. | 4.2 |
| 3์ผ์ | ์ธ๊ฐ์ ๋ฐ๋ผํ์ง ์๋ ๊ฒ optimalํ์ง ์๋ค๋ ๊ฒ์ด ๋๋๋ค. ์ธ์ง์ฒด๊ณ๋ฅผ ๋ชจ๋ฐฉํ๋ ๊ฒ์ด ์๋๋ผ LLM๋ง์ ๊ธฐ์ค์ ์ฐ๋ฆฌ๊ฐ ์ต๋ํด์ผํ๋ ๊ฒ๋ ๋ง์๋ณด์. Llama,Qwen ๋ฑ ๋ณด๋ค ๋ค์ํ ๋ชจ๋ธ์ ๋ํ ์คํ๊ฒฐ๊ณผ๋ ๊ถ๊ธํ๋คโฆ | 4.5 |
| ์ปคํผ์ฝ | ์ง๋จ์ alignment๋ ๋จ์ผ ๋ชฉํ๊ฐ ์๋๋ผ, ์ํฉ์ ๋ง๊ฒ ์ ๋ต์ ์ ํํ๋ ์ ์ฐ์ฑ์ด ํ์ํด ๋ณด์. ๋ค์ ai ๊ตฌ๋ ํ ๋ Chatgpt์ Claude ๋๊ฐ์ค ๊ณ ๋ฏผํ๊ณ ์์๋๋ฐ ๊ฒฐ์ ์ ์ฐธ๊ณ ๊ฐ ๋ ๊ฒ ๊ฐ๋ค | 3.9 |
| ๋ ธํธ๋ถ๋ ธ์ ๋ก๋ฉ์๋ผ์ํฐ์ผ๋ก | ์ ๋์ ์ธ ๋๋์ด๋ ํธํฅ์ด ์์ ํ ์ฌ๋ผ์ง ๋ชจ๋ธ์ด ์๋ฏธ๊ฐ ์์๊น? ๋ผ๋ ์๊ฐ์ด ๋ค์์. ๋ชจ๋๊ฐ ์ฌ๋ฐ๋ฅธ ๊ฒฐ์ , ๋ชจ๋๊ฐ ์ฌ๋ฐ๋ฅธ ํ๋จ๊ณผ ๊ฐ์ ์๊ฐ์ ํ๊ฒ ๋ง๋ ๋ค๋ฉด, ์ด๋ผ๋ ์๊ฐ์ด ๋ค์์. ์ด ๋ ผ๋ฌธ์์๋, ๋ ์ค ์ด๋ ๊ฒ์ด ๋ง๋ค๋ผ๋ ๊ฒ์ ์ ์ํ์ง ์๊ณ ์๊ณ , ๊ฒฐ๊ตญ ์ฉ๋์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์ฐ๋์ ๋ฌธ์ ์ธ ๊ฒ ๊ฐ์. ๋ชจ๋ธ ํ์ต๊ณผ ๊ฐ์ ์์ ๊ณ ๋ คํด์ผํ ๊ฐ์น์ ๋ฐฉํฅ์ ๋ค์ ํ๋ฒ ์๊ฐํ๊ฒ ํ ๋ ผ๋ฌธ. | 4.8 |
| ๋๊ธ๋๊ธ | ์ด๋ฒ์ฃผ ๋ ผ๋ฌธ ์ค์ ์ ์ผ ์ฌ๋ฐ๋ค | 4.8 |
| ๋น ์ค | Anthropic์ด ์ญ์ ๋ณธ์ธ๋ค ๊ธฐ์กฐ๋๋ก ๋ชจ๋ธ์ ์ ๋ง๋ ๋ค๊ณ ๋๋ผ๊ฒ ํด์ค ๋ ผ๋ฌธ | 3.5 |
TL; DR
๐ก
LLM์ ์ฌ๋์ ๋ฐ๋ผํ๋๊ฐ? ํน์ ์ฌ๋์ด ๋ณดํธ์ ์ผ๋ก ๊ฐ์ง ํธํฅ(?)์ ์์ ๊ณ ์ฌ๋๋ณด๋ค ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋๊ฐ? ๋ฆฌ๋ ์ ์ถ ์คํ์ ํตํด ๋ถ์ํ ๊ฒฐ๊ณผ, LLM ๋ณ๋ก ๋ค๋ฅด๋ค. (GPT, Gemini๋ ์ธ๊ฐ์ ๊ทธ๋๋ก ๋ชจ๋ธ๋ง , Claude๋ ๋ ๋์ ์ ํ)
Summary
Motivation
- LLM์ ์ด์ ๊ฐ์ธ ์์ค์ ์์ฌ๊ฒฐ์ ์ ์ ๋ฐ๋ผ ํจ (Mirror)
- ๊ทธ๋ฌ๋, ์ง๋จ ์์ค์ ์์ฌ ๊ฒฐ์ ๋ ์ธ๊ฐ ๊ฐ์ด ํ ์ ์๋๊ฐ? (Collective Reasoning)
- ๋ํ์ ์ผ๋ก, ๋ฆฌ๋ ์ ์ถ(๋ํต๋ น ์ ๊ฑฐ ๊ฐ์ ๊ฒ)
- ์ฌ๊ธฐ์๋, ์ฑ๋ณ / ํ์ ํธํฅ์ด ๊ด์ฐฐ๋์ด ์์
- ์ธ๊ฐ๋ ๊ฐ์ ๋ฐฉ์์ ํธํฅ์ด ์์ง ์๋?
- ์์ฑ์ ์๊ฒฌ: ์ฌ๋๊ณผ ๋๊ฐ์ด ํ๋ ๊ฒ์ ํธํฅ์ด๋ผ๊ณ ํ ์ ์๋?
- ์๋ฌธ: โGemini and GPT actr as mirrors, reproducing human social patterns with biases includedโ
- ์์ฑ์ ์๊ฒฌ: ์ฌ๋๊ณผ ๋๊ฐ์ด ํ๋ ๊ฒ์ ํธํฅ์ด๋ผ๊ณ ํ ์ ์๋?
โ LLM์ด ์ง๋จ ์์ฌ๊ฒฐ์ ์์ ์ธ๊ฐ์ ์ฌํ์ ํธํฅ์ โreproducing/mirrorโ ํ๋๊ฐ or โmaskโ(๋ณด์ ,์๊ณก) ํ๋๊ฐ?
์) ๋ฆฌ๋ ์ ์ถ ์ ๋ชจ๋ ๋ฅ๋ ฅ์ด ๋์ผํ๋ค๋ฉด, ๋จ์ฑ์ ์ ํธํ๋๊ฐ ์ฌ์ฑ์ ์ ํธํ๋๊ฐ?
- ์ฌ๋์ ์ฌํ์ ํธํฅ: ๋จ์ฑ ์ ํธ
- LLM do Mirror: ๋จ์ฑ ์ ํธ โ GPT, Gemini ๊ณ์ด
- LLM do Mask: ๋์ผํ๊ฒ ๋ด โ Claude ๊ณ์ด
Idea
- ๊ทธ๋ ๋ค๋ฉด, LLM์ ์ด๋ค ๊ฒ์ ๋ฐ๋ผ์ผ ํ๋๊ฐ?
- ์ฌ๋์ ๊ทธ๋๋ก ๋ฐ๋ผํ๋ค. (ํ๋ ์ ๋ ฌ, Descriptive alignment)
- ์๋ ค์ง ๋ฅ๋ ฅ์ด ์กฐ๊ธ ๋ถ์กฑํ๋๋ผ๋, ๋จ์ฑ ๋ฆฌ๋ ์ ์ถ
- ์ฌ๋๋ณด๋ค ๋ ๋์(meritocratic) ๊ฒฐ๊ณผ๋ฅผ ๋ด์ผ ํ๋ค. (๊ฒฐ๊ณผ ์ ๋ ฌ, Normative allignment)
- ์๋ ค์ง ๋ฅ๋ ฅ์ด ๋ ์ข์ ์ฌ์ฑ ๋ฆฌ๋ ์ ์ถ
- ์ฌ๋์ ๊ทธ๋๋ก ๋ฐ๋ผํ๋ค. (ํ๋ ์ ๋ ฌ, Descriptive alignment)
- ์ฆ, ์ธ๊ฐ๊ณผ ๋น์ทํ๊ฒ ํ๋ํ๋ ๊ฒ๊ณผ, ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๊ฒ์ ๋ค๋ฅด๋ค.
Method
- Lost at Sea ๋ฆฌ๋ ์ ์ถ ์คํ
- 4์ธ ๊ทธ๋ฃน์ด, ๋ฌด์ธ๋ ๊ฐ์ ๊ณณ์ ๋จ์ด์ง๋ฉด ๋๊ฐ ๋ฆฌ๋๊ฐ ๋์ด์ผ ํ ๊น?
- ์ง์์ ์ผ๋ก ์ฑ๋ณ ํธํฅ์ด ๊ด์ฐฐ๋ ์ฌํ ์ฌ๋ฆฌ ์คํ
- ์คํ ๊ตฌ์ฑ
- ํ ๋ก
- ์๊ธฐ ํ๋ณด ์ ์ธ (self-nomination)
- ํฌํ
- ๋ํ ์ํ ํ ์ ์
- ์งํ
- ๋ชจ๋ ์ฐธ๊ฐ์๊ฐ ๊ณผ์ ๋ฅผ ์ํ
- ๊ฐ์ฅ ์ํ ์ฐธ๊ฐ์์ ์ ์
- ์ ์ถ๋ ๋ฆฌ๋์ ์ ์
- ๋ชจ๋ ์ฐธ๊ฐ์๊ฐ ๊ณผ์ ๋ฅผ ์ํ
โ Optimal Leader gap
- ์ ์ถํ ๋ฆฌ๋๊ฐ, ์ผ๋ง๋ ๋ชปํ๋๊ฐ?
- ํธํฅ ๊ด๋ จ ๊ตฌ์ฒด์ ๋ถ์์ ์ํด ์ถ๊ฐ์ ์ธ ์ฅ์น ๋์
- ์ต๊ณ ์ํ์๊ฐ ํ๋ณด์ ์์๋๊ฐ?
- ์ต๊ณ ์ํ์๊ฐ ํ๋ณด์๋ ์์๋๋ฐ, ํฌํ์์ ํ๋ฝํ๋๊ฐ?
Experiment
- ์คํ ์ค๊ณ
- ์ธ๊ฐ ์คํ
- Setting 1: ์ด๋ฆ, ์๋ฐํ, ์ฑ๋ณ ๊ณต๊ฐ (Iden)
- Setting 2: ๋๋ฌผ ์ด๋ฆ, ์ฑ๋ณ ๋จ์ ์ ๊ฑฐ (Pseudo)
- ๋จ2/์ฌ2
- LLM
- ์ฌ๋๊ณผ ๋์ผ
- + ND (context ์์ ์ ๊ฑฐ), ์ฆ ํ๋ฅด์๋ ์์ด
- ์ธ๊ฐ ์คํ
Insight: LLM์ ์ธ ๋, ์ด๋์ ์จ์ผ ํ๋๊ฐ์ ๋ํ ๊ฐ์ด๋๋ผ์ธ ๋๋! GPT, Gemini ์ธ๊ฐ ๋ชจ๋ธ๋ง ์คํ / Claude: ๊ฒฐ์ ์์คํ






