30 December 2025

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

๐Ÿ’กLLM์€ ์‚ฌ๋žŒ์„ ๋”ฐ๋ผํ•˜๋Š”๊ฐ€? ํ˜น์€ ์‚ฌ๋žŒ์ด ๋ณดํŽธ์ ์œผ๋กœ ๊ฐ€์ง„ ํŽธํ–ฅ(?)์„ ์—†์• ๊ณ  ์‚ฌ๋žŒ๋ณด๋‹ค ๋” ๋‚˜์€ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š”๊ฐ€? ๋ฆฌ๋” ์„ ์ถœ ์‹คํ—˜์„ ํ†ตํ•ด ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, LLM ๋ณ„๋กœ ๋‹ค๋ฅด๋‹ค. (GPT, Gemini๋Š” ์ธ๊ฐ„์„ ๊ทธ๋Œ€๋กœ ๋ชจ๋ธ๋ง , Claude๋Š” ๋” ๋‚˜์€ ์„ ํƒ)

๐Ÿฅ‰

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๋ฆฌํ‹€LLM์˜ ์ตœ์ข… ๋ชฉ์ ์ง€๋Š” ์–ด๋””์ผ๊นŒ ์ƒ๊ฐํ•ด๋ณด๊ฒŒ ๋˜๋Š” ์žฌ๋ฐŒ๋Š” ๋…ผ๋ฌธ, ์‹คํ—˜ ์„ธํŒ…๋„ Identified์™€ pseudo๋ฅผ ๋‚˜๋ˆ ์„œ ์ •์ฒด์„ฑ ๋‹จ์„œ๊ฐ€ ํŽธํ–ฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋ฅผ ์ธก์ •ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์„ค๋“๋ ฅ์ด ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ๊ทผ๋ฐ ์™œ Claude์—์„œ๋งŒ ๋” mask ์„ฑํ–ฅ์ด ๋‘๋“œ๋Ÿฌ์กŒ๋Š”์ง€ ๊ถ๊ธˆํ•˜๋‹ค 4.2
๋ฐคLLM์—๊ฒŒ ์ผ๋ฐ˜ ์‚ฌ์šฉ์ž๊ฐ€ ๋ฐ”๋ผ๋Š” ๊ฑด ์‚ฌํšŒ์  ํŽธํ–ฅ ๋ฐ˜์˜ํ•˜๋Š” ๊ฒฐ์ •๋ณด๋‹ค๋Š” ๊ทธ๊ฑธ ๋›ฐ์–ด๋„˜์€ ๋ณด๋‹ค ๋…ผ๋ฆฌ์ ์ด๊ณ  ํŽธํ–ฅ๋˜์ง€ ์•Š์€ ๊ฒฐ์ •์ผ ๋“ฏํ•œ๋ฐ, ์ด๊ฑธ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ์„ ์ž˜ ์„ ํƒํ•˜๊ณ  ์ข€๋” ์žฅ์น˜ ๊ฑฐ์ณ์•ผ ํ•˜๊ฒ ๋‹ค ์‹ถ์Œ3.9
5์‹œLLM์˜ ๊ฒฐ์ •์—์„œ ํŽธํ–ฅ์„ ์—†์• ๊ณ , ์ธ๊ฐ„๋ณด๋‹ค ๋” ๋‚˜์€ ์„ ํƒ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ์‹คํ—˜์ด ์ด ๋…ผ๋ฌธ์˜ Novelty์ธ ๋“ฏ ํ•จ. ๊ทธ๋Ÿฐ๋ฐ Claude๊ฐ€ ํ™•์—ฐํžˆ ๋‹ค๋ฅธ ์„ฑํ–ฅ์„ ๋ณด์˜€๋Š”๋ฐ ๊ทธ ์ด์œ ์— ๋Œ€ํ•ด์„œ ์ข€ ๋” ์ƒ์„ธํ•˜๊ฒŒ ๋ถ„์„ํ•˜๋Š” ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ์žˆ์–ด๋„ ์ข‹์„ ๊ฒƒ ๊ฐ™์Œ.4.2
3์ผ์ „์ธ๊ฐ„์„ ๋”ฐ๋ผํ•˜์ง€ ์•Š๋Š” ๊ฒŒ optimalํ•˜์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ด ๋†€๋ž๋„ค. ์ธ์ง€์ฒด๊ณ„๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ LLM๋งŒ์˜ ๊ธฐ์ค€์„ ์šฐ๋ฆฌ๊ฐ€ ์Šต๋“ํ•ด์•ผํ•˜๋Š” ๊ฒƒ๋„ ๋งŽ์•„๋ณด์ž„.
Llama,Qwen ๋“ฑ ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์‹คํ—˜๊ฒฐ๊ณผ๋„ ๊ถ๊ธˆํ•˜๋‹คโ€ฆ
4.5
์ปคํŠผ์ฝœ์ง‘๋‹จ์  alignment๋Š” ๋‹จ์ผ ๋ชฉํ‘œ๊ฐ€ ์•„๋‹ˆ๋ผ, ์ƒํ™ฉ์— ๋งž๊ฒŒ ์ „๋žต์„ ์„ ํƒํ•˜๋Š” ์œ ์—ฐ์„ฑ์ด ํ•„์š”ํ•ด ๋ณด์ž„. ๋‹ค์Œ ai ๊ตฌ๋…ํ•  ๋•Œ Chatgpt์™€ Claude ๋‘๊ฐœ์ค‘ ๊ณ ๋ฏผํ•˜๊ณ  ์žˆ์—ˆ๋Š”๋ฐ ๊ฒฐ์ •์— ์ฐธ๊ณ ๊ฐ€ ๋œ ๊ฒƒ ๊ฐ™๋‹ค3.9
๋…ธํŠธ๋ถ๋…ธ์…˜๋กœ๋”ฉ์•ˆ๋ผ์„œํฐ์œผ๋กœ์ ˆ๋Œ€์ ์ธ ๋„๋•์ด๋‚˜ ํŽธํ–ฅ์ด ์™„์ „ํžˆ ์‚ฌ๋ผ์ง„ ๋ชจ๋ธ์ด ์˜๋ฏธ๊ฐ€ ์žˆ์„๊นŒ? ๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ์Œ. ๋ชจ๋‘๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ๊ฒฐ์ •, ๋ชจ๋‘๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ํŒ๋‹จ๊ณผ ๊ฐ™์€ ์ƒ๊ฐ์„ ํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค๋ฉด, ์ด๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ์Œ. ์ด ๋…ผ๋ฌธ์—์„œ๋„, ๋‘˜ ์ค‘ ์–ด๋А ๊ฒƒ์ด ๋งž๋‹ค๋ผ๋Š” ๊ฒƒ์€ ์ œ์‹œํ•˜์ง€ ์•Š๊ณ  ์žˆ๊ณ , ๊ฒฐ๊ตญ ์šฉ๋„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ์“ฐ๋ƒ์˜ ๋ฌธ์ œ์ธ ๊ฒƒ ๊ฐ™์Œ. ๋ชจ๋ธ ํ•™์Šต๊ณผ ๊ฐœ์„ ์—์„œ ๊ณ ๋ คํ•ด์•ผํ•  ๊ฐ€์น˜์™€ ๋ฐฉํ–ฅ์„ ๋‹ค์‹œ ํ•œ๋ฒˆ ์ƒ๊ฐํ•˜๊ฒŒ ํ•œ ๋…ผ๋ฌธ.4.8
๋™๊ธ€๋™๊ธ€ ์ด๋ฒˆ์ฃผ ๋…ผ๋ฌธ ์ค‘์— ์ œ์ผ ์žฌ๋ฐŒ๋‹ค 4.8
๋น ์ŠคAnthropic์ด ์—ญ์‹œ ๋ณธ์ธ๋“ค ๊ธฐ์กฐ๋Œ€๋กœ ๋ชจ๋ธ์„ ์ž˜ ๋งŒ๋“ ๋‹ค๊ณ  ๋А๋ผ๊ฒŒ ํ•ด์ค€ ๋…ผ๋ฌธ3.5

TL; DR

๐Ÿ’ก

LLM์€ ์‚ฌ๋žŒ์„ ๋”ฐ๋ผํ•˜๋Š”๊ฐ€? ํ˜น์€ ์‚ฌ๋žŒ์ด ๋ณดํŽธ์ ์œผ๋กœ ๊ฐ€์ง„ ํŽธํ–ฅ(?)์„ ์—†์• ๊ณ  ์‚ฌ๋žŒ๋ณด๋‹ค ๋” ๋‚˜์€ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š”๊ฐ€? ๋ฆฌ๋” ์„ ์ถœ ์‹คํ—˜์„ ํ†ตํ•ด ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, LLM ๋ณ„๋กœ ๋‹ค๋ฅด๋‹ค. (GPT, Gemini๋Š” ์ธ๊ฐ„์„ ๊ทธ๋Œ€๋กœ ๋ชจ๋ธ๋ง , Claude๋Š” ๋” ๋‚˜์€ ์„ ํƒ)

Summary

Motivation

  • LLM์€ ์ด์ œ ๊ฐœ์ธ ์ˆ˜์ค€์˜ ์˜์‚ฌ๊ฒฐ์ •์€ ์ž˜ ๋”ฐ๋ผ ํ•จ (Mirror)
    • ๊ทธ๋Ÿฌ๋‚˜, ์ง‘๋‹จ ์ˆ˜์ค€์˜ ์˜์‚ฌ ๊ฒฐ์ •๋„ ์ธ๊ฐ„ ๊ฐ™์ด ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€? (Collective Reasoning)
  • ๋Œ€ํ‘œ์ ์œผ๋กœ, ๋ฆฌ๋” ์„ ์ถœ(๋Œ€ํ†ต๋ น ์„ ๊ฑฐ ๊ฐ™์€ ๊ฒƒ)
    • ์—ฌ๊ธฐ์„œ๋Š”, ์„ฑ๋ณ„ / ํ™•์‹  ํŽธํ–ฅ์ด ๊ด€์ฐฐ๋˜์–ด ์™”์Œ
    • ์ธ๊ฐ„๋„ ๊ฐ™์€ ๋ฐฉ์‹์˜ ํŽธํ–ฅ์ด ์žˆ์ง€ ์•Š๋‚˜?
      • ์ž‘์„ฑ์ž ์˜๊ฒฌ: ์‚ฌ๋žŒ๊ณผ ๋˜‘๊ฐ™์ด ํ•˜๋Š” ๊ฒƒ์„ ํŽธํ–ฅ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‚˜?
        • ์›๋ฌธ: โ€œGemini and GPT actr as mirrors, reproducing human social patterns with biases includedโ€

โ‡’ LLM์ด ์ง‘๋‹จ ์˜์‚ฌ๊ฒฐ์ •์—์„œ ์ธ๊ฐ„์˜ ์‚ฌํšŒ์  ํŽธํ–ฅ์„ โ€œreproducing/mirrorโ€ ํ•˜๋Š”๊ฐ€ or โ€œmaskโ€(๋ณด์ •,์™œ๊ณก) ํ•˜๋Š”๊ฐ€?

์˜ˆ) ๋ฆฌ๋” ์„ ์ถœ ์‹œ ๋ชจ๋“  ๋Šฅ๋ ฅ์ด ๋™์ผํ•˜๋‹ค๋ฉด, ๋‚จ์„ฑ์„ ์„ ํ˜ธํ•˜๋Š”๊ฐ€ ์—ฌ์„ฑ์„ ์„ ํ˜ธํ•˜๋Š”๊ฐ€?

  • ์‚ฌ๋žŒ์˜ ์‚ฌํšŒ์  ํŽธํ–ฅ: ๋‚จ์„ฑ ์„ ํ˜ธ
  • LLM do Mirror: ๋‚จ์„ฑ ์„ ํ˜ธ โ‡’ GPT, Gemini ๊ณ„์—ด
  • LLM do Mask: ๋™์ผํ•˜๊ฒŒ ๋ด„ โ‡’ Claude ๊ณ„์—ด

Idea

  • ๊ทธ๋ ‡๋‹ค๋ฉด, LLM์€ ์–ด๋–ค ๊ฒƒ์„ ๋”ฐ๋ผ์•ผ ํ•˜๋Š”๊ฐ€?
    • ์‚ฌ๋žŒ์„ ๊ทธ๋Œ€๋กœ ๋”ฐ๋ผํ•œ๋‹ค. (ํ–‰๋™ ์ •๋ ฌ, Descriptive alignment)
      • ์•Œ๋ ค์ง„ ๋Šฅ๋ ฅ์ด ์กฐ๊ธˆ ๋ถ€์กฑํ•˜๋”๋ผ๋„, ๋‚จ์„ฑ ๋ฆฌ๋” ์„ ์ถœ
    • ์‚ฌ๋žŒ๋ณด๋‹ค ๋” ๋‚˜์€(meritocratic) ๊ฒฐ๊ณผ๋ฅผ ๋‚ด์•ผ ํ•œ๋‹ค. (๊ฒฐ๊ณผ ์ •๋ ฌ, Normative allignment)
      • ์•Œ๋ ค์ง„ ๋Šฅ๋ ฅ์ด ๋” ์ข‹์€ ์—ฌ์„ฑ ๋ฆฌ๋” ์„ ์ถœ
  • ์ฆ‰, ์ธ๊ฐ„๊ณผ ๋น„์Šทํ•˜๊ฒŒ ํ–‰๋™ํ•˜๋Š” ๊ฒƒ๊ณผ, ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š” ๊ฒƒ์€ ๋‹ค๋ฅด๋‹ค.

Method

  • Lost at Sea ๋ฆฌ๋” ์„ ์ถœ ์‹คํ—˜
    • 4์ธ ๊ทธ๋ฃน์ด, ๋ฌด์ธ๋„ ๊ฐ™์€ ๊ณณ์— ๋–จ์–ด์ง€๋ฉด ๋ˆ„๊ฐ€ ๋ฆฌ๋”๊ฐ€ ๋˜์–ด์•ผ ํ• ๊นŒ?
    • ์ง€์†์ ์œผ๋กœ ์„ฑ๋ณ„ ํŽธํ–ฅ์ด ๊ด€์ฐฐ๋œ ์‚ฌํšŒ ์‹ฌ๋ฆฌ ์‹คํ—˜
  • ์‹คํ—˜ ๊ตฌ์„ฑ
    • ํ† ๋ก 
    • ์ž๊ธฐ ํ›„๋ณด ์„ ์–ธ (self-nomination)
    • ํˆฌํ‘œ
    • ๋Œ€ํ‘œ ์ˆ˜ํ–‰ ํ›„ ์ ์ˆ˜
  • ์ง€ํ‘œ
    • ๋ชจ๋“  ์ฐธ๊ฐ€์ž๊ฐ€ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰
      • ๊ฐ€์žฅ ์ž˜ํ•œ ์ฐธ๊ฐ€์ž์˜ ์ ์ˆ˜
      Slgโˆ—S_{l^*_g}
      • ์„ ์ถœ๋œ ๋ฆฌ๋”์˜ ์ ์ˆ˜
        SlgS_{l_g}
ฮดg=Slgโˆ—โˆ’Slg\delta_g = S_{l^*_g} - S_{l_g}

โ‡’ Optimal Leader gap

  • ์„ ์ถœํ•œ ๋ฆฌ๋”๊ฐ€, ์–ผ๋งˆ๋‚˜ ๋ชปํ–ˆ๋Š”๊ฐ€?

  • ํŽธํ–ฅ ๊ด€๋ จ ๊ตฌ์ฒด์  ๋ถ„์„์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ์žฅ์น˜ ๋„์ž…
    • ์ตœ๊ณ  ์ˆ˜ํ–‰์ž๊ฐ€ ํ›„๋ณด์— ์žˆ์—ˆ๋Š”๊ฐ€?
    • ์ตœ๊ณ  ์ˆ˜ํ–‰์ž๊ฐ€ ํ›„๋ณด์—๋Š” ์žˆ์—ˆ๋Š”๋ฐ, ํˆฌํ‘œ์—์„œ ํƒˆ๋ฝํ–ˆ๋Š”๊ฐ€?

Experiment

  • ์‹คํ—˜ ์„ค๊ณ„
    • ์ธ๊ฐ„ ์‹คํ—˜
      • Setting 1: ์ด๋ฆ„, ์•„๋ฐ”ํƒ€, ์„ฑ๋ณ„ ๊ณต๊ฐœ (Iden)
      • Setting 2: ๋™๋ฌผ ์ด๋ฆ„, ์„ฑ๋ณ„ ๋‹จ์„œ ์ œ๊ฑฐ (Pseudo)
      • ๋‚จ2/์—ฌ2
    • LLM
      • ์‚ฌ๋žŒ๊ณผ ๋™์ผ
      • + ND (context ์™„์ „ ์ œ๊ฑฐ), ์ฆ‰ ํŽ˜๋ฅด์†Œ๋‚˜ ์—†์ด

  • ๊ฐœ์ธ ์ˆ˜์ค€์œผ๋กœ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์ด ์ •๋ ฌ๋˜์ง€๋งŒ, ์ž๊ฐ€ ํ›„๋ณด ์„ ์–ธ์€ ๋‚จ์„ฑ ์„ ํ˜ธ ํŽธํ–ฅ์ด ์กด์žฌํ•œ๋‹ค.
    • ์ธ๊ฐ„๊ณผ LLM ๋ชจ๋‘ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์—๋Š” ์„ฑ๋ณ„ ์ฐจ์ด ์—†์Œ
    • ์ž๊ฐ€ ํ›„๋ณด ์„ ์–ธ์—๋Š” ๋‚จ์„ฑ ํŽธํ–ฅ
  • ์ธ๊ฐ„ ๋ฆฌ๋”์™€ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ผ์น˜ํ•˜๋Š”๊ฐ€? โ‡’ ๋ชจ๋ธ ๋ณ„๋กœ ๋‹ค๋ฅด๋‹ค. Gemini, GPT ์ผ์น˜ (Mirror) / Claude ๋ถˆ์ผ์น˜ (Mask)
    • ๋ชจ๋ธ ๋ณ„๋กœ ๋‹ค๋ฅด๋‹ค!

  • ์ตœ์ ์˜ ๋ฆฌ๋” ์„ ์ถœ์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?โ‡’ ์ธ๊ฐ„๊ณผ ์ธ๊ฐ„์„ ๋”ฐ๋ผํ•˜๋Š” ๋ชจ๋ธ X, ๋” ๋‚˜์€ ์„ ํƒ์„ ํ•˜๋Š” ๋ชจ๋ธ O
    • ์ธ๊ฐ„์„ ๋”ฐ๋ผํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์ด ๋” ์†์‹ค์ด ์ ๋‹ค (์ธ๊ฐ„์€ ์•ฝ 14.5% ์†์‹ค vs 2% ์†์‹ค)
  • ์ •๋ง๋กœ ํŽธํ–ฅ์ด ์žˆ๋Š”๊ฐ€? โ‡’ ์„ฑ๋ณ„์„ ๋ชจ๋ฅผ๋• ํŽธํ–ฅ์ด ์™„ํ™”๋œ๋‹ค.
  • Identity๋Š” ํ•„์ˆ˜์ ์ธ๊ฐ€? โ‡’ ํ•„์ˆ˜์ ์ด๋‹ค. Claude๋Š” Identified์—์„œ๋งŒ ์ตœ์ ์„ฑ์„ ์œ ์ง€ํ•œ๋‹ค. โ‡’ ์ต๋ช…ํ™” not equal to ๊ณต์ •
    • ์—†์• ๋ฉด random์œผ๋กœ ๋Œ์•„๊ฐ€๋ฒ„๋ฆผ

Insight: LLM์„ ์“ธ ๋•Œ, ์–ด๋””์— ์จ์•ผ ํ•˜๋Š”๊ฐ€์— ๋Œ€ํ•œ ๊ฐ€์ด๋“œ๋ผ์ธ ๋А๋‚Œ! GPT, Gemini ์ธ๊ฐ„ ๋ชจ๋ธ๋ง ์‹คํ—˜ / Claude: ๊ฒฐ์ • ์‹œ์Šคํ…œ

Categories

research