19 March 2026

EigenBench: A Comparative Behavioral Measure of Value Alignment

๐Ÿ’ก๋ชจ๋ธ์˜ ์ฃผ๊ด€์  ์„ฑํ–ฅ์„ ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ์„ฑํ–ฅ๊ณผ ๋น„๊ตํ•˜์—ฌ ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๊ณ , ์‹ ๋ขฐ๋„ ๋ฒกํ„ฐ๋กœ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์„ ํŒ๋‹จํ•˜๊ณ , ๋ชจ๋ธ๋งˆ๋‹ค ํŒ๋‹จ์˜ ๊ธฐ์ค€ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค!

EigenBench: A Comparative Behavioral Measure of Value Alignment

Review

๋‹‰๋„ค์ž„ Strength & Weakness & Sugguestions ๋ณ„์  (0/5)
์ฝ”์Šคํ”ผ๊ฐ•์ : ๋ชจ๋ธ๋งˆ๋‹ค์˜ ํŠน์ง•์„ ๋‹ค๋ฅธ ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•˜๋„๋ก ํ•˜๊ณ , ๊ฐ์ž ๋‹ค๋ฅธ ๋ชจ๋ธ์ด ํŠน์ • ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ˆ˜์น˜ํ™”ํ•จ์œผ๋กœ์จ ๊ฐ๊ด€์„ฑ์„ ์–ด๋А์ •๋„ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ๊ฒƒ์ด ๊ฐ•์ ์ž„.
์•ฝ์ : ํƒ€ ๋ชจ๋ธ๊ฐ„์˜ ๋น„๊ต ๊ณผ์ •์—์„œ ๊ณ„์‚ฐ ์ž์›์„ ๋„ˆ๋ฌด ๋งŽ์ด ์†Œ๋น„ํ•˜๊ณ  ๋น„๊ต ๊ฒฐ๊ณผ ์‚ฐ์ถœ์— ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆผ. ์ƒˆ๋กœ์šด ๋น„๊ต ๋Œ€์ƒ ๋ชจ๋ธ์ด ์ถ”๊ฐ€๋œ๋‹ค๋ฉด ๋‚˜๋จธ์ง€ ๊ฐ๊ฐ์˜ ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ์ „๋ถ€ ๋‹ค์‹œ ๊ณ„์‚ฐํ•ด์•ผ ํ• ํ…๋ฐโ€ฆ
๊ฐœ์„ (์ œ์•ˆ): ๋ชจ๋ธ ๊ฐ„ ๋น„๊ต ๋ฐ ๊ณ„์‚ฐ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒํ•˜๊ธฐ ์œ„ํ•ด ๋น„๊ต ์šฐ์œ„๋‚˜ ์บ์‹ฑ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉด ํ•จ.
3.9
์–ผ๋ผ๊ฐ•์ : ํ•ด๋‹น ๋…ผ๋ฌธ์˜ motivation์ฒ˜๋Ÿผ ๊ฐ€์น˜๋Š” ์ฃผ๊ด€์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ •๋‹ต ๋ผ๋ฒจ์ด ์žˆ๋Š”๊ฒŒ ๋งž๋‚˜๋ผ๊ณ  ์ƒ๊ฐํ–ˆ์—ˆ๋Š”๋ฐ ground-truth label์ด ์—†์ด ์‹คํ—˜ํ•œ ๋ถ€๋ถ„์ด ๋งˆ์Œ์— ๋“ฆ
์•ฝ์ : LLM ์˜ ์„ฑ๋Šฅ์— ๋”ฐ๋ผ Value Evaluation์˜ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ์ง€ ์•Š์„๊นŒ? ๊ทธ๋ฆฌ๊ณ  ๊ณ„์‚ฐ,๋น„์šฉ์ ์ธ ์ธก๋ฉด์—์„œ practical ํ•˜์ง€ ์•Š์€๋“ฏ
์ œ์•ˆ: ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•˜๋Š”๊ฑด ๋‹จ์ผ ๋ชจ๋ธ์˜ bias๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋‹ˆ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•ด๋ณด๋Š”๊ฑด ์–ด๋–จ๊นŒ?
3.7
๋น„์š”๋œจ๊ฐ•์ : ์ •๋‹ต์ด ์—†๋Š” subjective alignment๋ฅผ ๋น„๊ตํ•˜๊ฑฐ๋‚˜ ์ธก์ •ํ•˜๋Š”๊ฒƒ์€ ํ•ญ์ƒ ์–ด๋ ต๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋Š”๋ฐ, ๊ทธ ๋น„๊ต๊ธฐ์ค€์ด๋‚˜ ํ‰๊ฐ€๊ธฐ์ค€์„ ์ž˜ ์„ธ์šด๋“ฏ
์•ฝ์ : constitution ์ข…๋ฅ˜๋‚˜ population์— ๋”ฐ๋ผ ํ‰๊ฐ€๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ
์ œ์•ˆ: prompt๋‚˜ persona์˜ํ–ฅ์„ ๋ถ„๋ฆฌํ•ด์„œ ์ธก์ •ํ•˜๋Š” ์„ค์ •์ด ์žˆ์œผ๋ฉด ์ข‹์„๋“ฏ ์‹ถ๋‹ค. ๋ชจ๋ธ์˜ ๊ฐ€์น˜ ์„ฑํ–ฅ์ธ์ง€ prompt์— ์˜ํ•ด ์œ ๋„๋œ ํ–‰๋™์„ ๋ถ„๋ฆฌํ•ด ์ธก์ •ํ•˜๋ฉด ์„ค๋“๋ ฅ ์žˆ์„๋“ฏ
4
์นซ์†”๊ฐ•์ : ์–ธ์–ด๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ์ด๋Ÿฌํ•œ ์ฃผ๊ด€์ ์ธ ํ‰๊ฐ€ํ•  ๋Šฅ๋ ฅ ์žˆ์œผ๋ฏ€๋กœ ์ด๋ฅผ ์ ๊ทน ํ™œ์šฉํ•จ
์•ฝ์ : ์‹ค์งˆ์ ์œผ๋กœ ๊ธฐ์—…์ด ์•„๋‹Œ ์ด์ƒ ์‚ฌ์šฉํ•˜๊ธฐ ์‰ฝ์ง€ ์•Š์„๋“ฏ (๋น„์šฉ ๋ฌธ์ œ)
์ œ์•ˆ: ๋„๋ฉ”์ธ์— ๋”ฐ๋ผ ์ด ์ •๋„๋กœ ๋น„์šฉ์„ ๋“ค์—ฌ์•ผ ์ •ํ™•ํ•œ ํ‰๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๋„ ์žˆ๊ณ  ์•„๋‹Œ ๊ฒฝ์šฐ๋„ ์žˆ์„ํ…๋ฐ ์ด์— ๋Œ€ํ•œ ๋ถ„์„
3.6
์„คํ–ฅ๋”ธ๊ธฐ๊ฐ•์ : ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•˜๋Š” ์‹œ๋Œ€๊ฐ€ ์™”๋Š”๋ฐ, ๋ชจ๋ธ์ด ๊ฐ€์ง€๋Š” ์ฃผ๊ด€์  ์„ฑํ–ฅ์„ ์•Œ ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ณ , ๊ทธ๊ฒƒ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ทœ์ •ํ•˜๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ์—ฐ๊ตฌ.
์•ฝ์ : ๊ณ ๋ คํ•ด์•ผ๋  ๊ฒƒ์ด ๋„ˆ๋ฌด ๋งŽ์€๋ฐ(ํ‰๊ฐ€ ๋ฐฉ์‹, ๋ฐ์ดํ„ฐ, label, ํ‰๊ฐ€ ๊ธฐ์ค€, noiseโ€ฆ) ์ด๊ฑฐ ๋‹ค ์ปจํŠธ๋กค์ด ๊ฐ€๋Šฅํ•œ๊ฐ€..?
์ œ์•ˆ: ๋ถ„ํฌ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉด ์–ด๋–จ๊นŒ? ์ƒ์„ฑ ์ž„๋ฒ ๋”ฉ์˜ ๋ถ„ํฌ ๋“ฑ
3.8
๋‚˜์Šค๋‹ฅ์žฅ์ : human ํ†ต๊ณ„๋ž‘ ๋น„์Šทํ•œ ์–‘์ƒ์„ ๊ฐ€์ง€๋Š” ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ
๋‹จ์ : ์ •๋ฆฌ๋œ๊ฑฐ๋งŒ ๋ณด๋ฉด ๋ญํ•œ๊ฑด์ง€ ๋ชจ๋ฅด๊ฒ ์Œ
์ œ์•ˆ: ํƒ€ LLM benchmark์™€ ๋น„๊ตํ•ด์„œ ์–ด๋–ค ๋ถ€๋ถ„์—์„œ ๊ฒฝ์Ÿ๋ ฅ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ์ธ์ง€ ๊ฐ•์กฐํ•  ๊ฒƒ!
2.5
๊ตญ๋ฐฅ๊ฐ•์ : ์ฃผ๊ด€์  ๊ฐ€์น˜๋Š” ์ •๋‹ต์ด ์—†์–ด์„œ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์„ธ์šฐ๊ธฐ ์–ด๋ ต๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ ์ด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉด์„œ ์–ธ์–ด ๋ชจ๋ธ์ด ์„œ๋กœ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•œ ์ ‘๊ทผ์ด ์‹ ์„ ํ–ˆ์Œ.
๋‹จ์ : ๋ชจ๋ธ 1์Œ ๋น„๊ตํ•  ๋•Œ๋งˆ๋‹ค ๋น„์šฉ์ด ํฌ๊ณ , ์ƒˆ ๋ชจ๋ธ์ด ์ถ”๊ฐ€๋ ์ˆ˜๋ก ๋น„๊ต ํšŸ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚˜ ํ˜„์‹ค์ ์œผ๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์šธ ๊ฒƒ ๊ฐ™์Œ.
์ œ์•ˆ: constitution์„ ์–ด๋–ป๊ฒŒ ์ž‘์„ฑํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ๊ฒƒ ๊ฐ™์€๋ฐ ์ด์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜์ง€ ์•Š์„๊นŒ
3,6
์ปคํ”ผ๊ฐ•์  : human preference์™€ ๊ด€๋ จ๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„๊นŒ? ๋ฒค์น˜๋งˆํฌ ๋˜ํ•œ ์ฃผ๊ด€์„ฑ์ด ํฌ์ง€ ์•Š์„๊นŒ ์‹ถ๊ธด ํ–ˆ์ง€๋งŒ,
์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์„œ pairwise๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ , ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ์„ค๊ณ„ ๋ถ€๋ถ„์—์„œ ์ด๋ก ์ ์œผ๋กœ ํƒ€๋‹น์„ฑ์„ ํ™•๋ณดํ•œ ๊ฒƒ ๊ฐ™์Œ.
์•ฝ์  : '์ฃผ๊ด€์„ฑ' ์ด๋ผ๋Š” ๋ฌธ์ œ๋Š” ์™„์ „ ํ•ด๊ฒฐํ•œ ๊ฒƒ ๊ฐ™์ง„ ์•Š์œผ๋ฉฐ, ๋ฒค์น˜๋งˆํฌ์— ์‚ฌ์šฉ๋œ ๋ชจ๋ธ์˜ ์˜์กด๋„๊ฐ€ ์žˆ์–ด๋ณด์ž„.
์ œ์•ˆ : ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ์‹œ ๋‹ค์–‘ํ•œ '์„ฑ์งˆ'์„ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜, human evaluation์„ ์ถ”๊ฐ€ ํฌํ•จํ•˜๋Š” ๋“ฑ ๋ชจ๋ธ ์˜์กด์„ฑ์„ ์ค„์ด๊ณ  ์ผ๊ด€์„ฑ์„ ๊ฐ•์กฐ(๋ชจ๋ธ๊ณผ ์ธ๊ฐ„์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋น„์Šทํ•˜๋‹ค~)ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ œ์‹œ๋˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค!
4
404๊ฐ•์ : ๋ชจ๋ธ์˜ ์ฃผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ–ˆ์Œ
๋‹จ์ &์ œ์•ˆ: ๋ฐ์ดํ„ฐ์…‹ ๋งŒ๋“œ๋Š” ๊ณผ์ •์—์„œ rationale์ด ๋ถ€์กฑํ•จ (๊ธฐ์ค€, noise, ์ฃผ๊ด€์„ฑ ๋“ฑ๋“ฑ)
3
AI๊ฐ•์ : Alignment ์ž์ฒด๊ฐ€ ์ฃผ๊ด€์ ์ธ ๊ฐ€์น˜๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ์ง์ ‘ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ์ ‘๊ทผ์„ ์ƒˆ๋กญ๊ฒŒ ์ œ์•ˆํ•จ
์•ฝ์ : ๋ชจ๋“  ๋ชจ๋ธ์ด ๋™์ผํ•œ RLHF ๋ฐฉํ–ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉด model ๊ฐ„ consensus๊ฐ€ ์‚ฌ๋žŒ์˜ ๊ฐ€์น˜๋ฅผ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
์ œ์•ˆ: LLM judge ํ’ˆ์งˆ์„ ์ข€ ๋” ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ์„ ๋“ฏ. ์ ๋Œ€์ ์ธ response๋‚˜ prompt ์ž์ฒด๋ฅผ ๋™์ ์œผ๋กœ ์ˆ˜์ •ํ•˜๋Š” ๋ฐฉํ–ฅ๋„ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Œ
3.5

TL; DR

๐Ÿ’ก

๋ชจ๋ธ์˜ ์ฃผ๊ด€์  ์„ฑํ–ฅ์„ ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ์„ฑํ–ฅ๊ณผ ๋น„๊ตํ•˜์—ฌ ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๊ณ , ์‹ ๋ขฐ๋„ ๋ฒกํ„ฐ๋กœ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์„ ํŒ๋‹จํ•˜๊ณ , ๋ชจ๋ธ๋งˆ๋‹ค ํŒ๋‹จ์˜ ๊ธฐ์ค€ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค!


ICLR 2026

Cited: 0


Summary

Background

  • ๋ชจ๋ธ์˜ ์ฃผ๊ด€์ ์ธ ๊ธฐ์งˆ์„ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ
    • ๋ชจ๋ธ์—์„œ ์ค‘์š”ํ•œ Trait์ด ๊ฐ€์žฅ ์ฃผ๊ด€์ ์ผ ๋•Œ๊ฐ€ ๋งŽ์Œ
    • trait์ด subjectiveํ•˜๋Š” ์˜ˆ์‹œ: ํ•œ ์‚ฌ๋žŒ์ด ๋ชจ๋ธ์ด kind(์นœ์ ˆ)ํ•˜๋‹ค๊ณ  ํŒ๋ณ„ํ•œ ๊ฒƒ์„ ๋‹ค๋ฅธ ์‚ฌ๋žŒ์€ fawning(์•„์–‘)์ด๋ผ๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ
  • ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด language model์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋„๋ก ํ•จ

Contribution

  • ํŠน์ • ์กฐ๊ฑด์— ๋”ฐ๋ฅธ ์ ์ˆ˜ ๋ฆฌ๋”๋ณด๋“œ๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ๋ชจ๋ธ๋“ค์ด ์–ผ๋งˆ๋‚˜ ๊ธฐ์ค€์— ๋ถ€ํ•ฉํ•˜๋Š”์ง€ ๋น„๊ต ๋ฐ ๋ถ„์„ ๊ฐ€๋Šฅ
  • Language Model์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ๋‹ต๋ณ€์„ ํ‰๊ฐ€ํ•˜๋„๋ก ํ•˜์—ฌ ๋ชจ๋ธ์ด ํŠน์ • ๊ธฐ์ค€์— ๋ถ€ํ•ฉํ•˜๋„๋ก Fine-Tuning์„ ๋” ์‰ฝ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ
  • ๋ชจ๋ธ์˜ ๊ฐ€์น˜ ์„ฑํ–ฅ๊ณผ ์ค‘์š”ํ•˜๊ฒŒ ๋ณด๋Š” Feature๋ฅผ EigenBench Score ์‚ฐ์ถœ์— ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ๋ณ„ ํŒ๋‹จ ๊ธฐ์ค€์˜ ์ฐจ์ด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Œ

Method

  1. Model Population
    • ๋น„๊ต ๋Œ€์ƒ ๋ชจ๋ธ์˜ ๊ฐœ์ˆ˜: N

      N โ‰ฅ 2 (2๊ฐœ ์ด์ƒ์˜ ๋ชจ๋ธ๋กœ ๋น„๊ต)

    • ๊ฐ๊ฐ์˜ ๋ชจ๋ธ์€ ๋ชจ๋‘ ํ‰๊ฐ€ ๋ชจ๋ธ๊ณผ ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ ๋‘˜ ๋‹ค ํ•ด๋‹น๋จ
    • ๋ชจ๋ธ M์€ base model m๊ณผ ํŽ˜๋ฅด์†Œ๋‚˜ p๋กœ ๊ตฌ์„ฑ(M=(m,p))
  1. Constitution(๊ตฌ์„ฑ ์กฐ๊ฑด)
    • Constitution
    C={C1,...,Ck}C = \{C_1, ..., C_k\}
    • ์กฐ๊ฑด ๋‚ด์˜ ๊ธฐ์ค€(Ci)๋Š” LM response๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด ๋น„๊ตํ•˜๋Š” ๋ชจ๋ธ์— prompt ํ˜•ํƒœ๋กœ ์ œ๊ณต๋จ
    • ์ด ๋ฐฉ๋ฒ•์€ ๋‹ค์–‘ํ•œ Constituion(์กฐ๊ฑด) ๋‚ด์—์„œ ์ ์šฉ์ด ๊ฐ€๋Šฅํ•˜์—ฌ ์กฐ๊ฑด์ด ๋‹ฌ๋ผ์ ธ๋„ ์œ ํšจํ•จ
      • ์˜ˆ: Universal kindness, conservatism, deep ecology
      • Universal Kindness๋Š” ๋„“๊ณ  ๋ณดํŽธ์ ์œผ๋กœ ๋ฐ›์•„๋“ค์—ฌ์ง€๋Š” ๊ธฐ์ค€์ด๊ณ , Conservatism, deep ecology๋Š” ์ข์œผ๋ฉด์„œ ๋…ผ์Ÿ์ ์ธ ๊ธฐ์ค€
    • ๋ณธ์งˆ์ ์œผ๋กœ ์ด ๊ธฐ์ค€๋“ค์€ ์ฃผ๊ด€์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ ํ‰๊ฐ€๋ฅผ ๋ชจ์œผ๋Š” EigenBench๊ฐ€ ์ด ํ‰๊ฐ€์— ์ ํ•ฉํ•จ
  1. Scenario Dataset
    • Set of Prompt Scenario S๋กœ ๊ตฌ์„ฑ
    • ์‹ค์ œ ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค(human concerns, dilemmas, curiosities)๋ฅผ ๋ฐ˜์˜ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ
    • OASST Conversations
      • ์‹ค์ œ ์ธ๊ฐ„๊ณผ LM ์‚ฌ์ด์˜ ๋Œ€ํ™”
      • ์ดˆ๊ธฐ User Prompt๋งŒ ์ถ”์ถœ
    • AIRiskDilemmas
      • ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์œค๋ฆฌ์  ๋”œ๋ ˆ๋งˆ
      • ๋ชจ๋ธ์˜ ๊ฐ€์น˜ ํŒ๋‹จ ๋Šฅ๋ ฅ ํŒ๋ณ„
  1. Collecting Pairwise Comparisons
    • ์กฐ๊ฑด C์—์„œ์˜ ์‹œ๋‚˜๋ฆฌ์˜ค S์ผ ๋•Œ, ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ j, k, ํ‰๊ฐ€ ๋ชจ๋ธ i๊ฐ€ ์กด์žฌํ•จ
    • ๋ชจ๋ธ Mj, Mk์—์„œ ๊ฐ๊ฐ ๋Œ€๋‹ต์„ ์–ป์–ด๋‚ด Rj, Rk๋ผ ํ•จ
    • Rj, Rk๋ฅผ Mi(ํ‰๊ฐ€ ๋ชจ๋ธ)์—์„œ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ Rj^, Rk^๋ผ ํ•จ
    • bias๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด Rj, Rk์˜ ์ˆœ์„œ๋ฅผ ๋ฐ”๊ฟ”์„œ๋„ ํ‰๊ฐ€ํ•จ
    • ์ˆœ์„œ์— ๋”ฐ๋ผ ์„ ํ˜ธ๋„๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒฝ์šฐ tie(๋ฌด์Šน๋ถ€)๋กœ ํ‰๊ฐ€
  1. Low-Rank Bradley-Terry-Davidson Model
    • ๋ชจ๋ธ์˜ ์„ ํ˜ธ ๋žญํ‚น(win, lose, tie)์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ 4์—์„œ ์ˆ˜์ง‘ํ•œ ํ›„, Bradley-Terry-Davidson (BTD) ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์ด๊ฒƒ์„ ํ™•๋ฅ ์ ์ธ Ranking์œผ๋กœ ๋ณ€ํ™˜, ๋ชจ๋“  ๊ฒฐ๊ณผ๋“ค์„ ํ•˜๋‚˜์˜ Matrix๋กœ ํ•ฉ
    • ๊ฐ ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ(Mj)์— ๋Œ€ํ•ด Latent disposition ๋ฒกํ„ฐ vj ํ•™์Šต
      uiu_i
    • ๊ฐ ํ‰๊ฐ€ ๋ชจ๋ธ(Mi)์— ๋Œ€ํ•˜์—ฌ Judge lens ํ•™์Šต
      • ๊ฐ ํ‰๊ฐ€ ๋ชจ๋ธ latent์˜ ์–ด๋–ค ๋ถ€๋ถ„์„ ์ค‘์š”ํ•˜๊ฒŒ ๋ณด๋Š”์ง€ ๋ฐ˜์˜(๊ฐ ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ์˜ ์–ด๋–ค ๋ถ€๋ถ„์ด ์ค‘์š”ํ•œ์ง€ ๋ฐ˜์˜)
      ฮปi\lambda_i
    • ๊ฐ ํ‰๊ฐ€ ๋ชจ๋ธ์— ๋Œ€ํ•˜์—ฌ tie Propensity ํ•™์Šต(๋ฌด์Šน๋ถ€๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋˜๋Š”์ง€)

    ์‹ค์ œ ๊ฒฐ๊ณผ์™€ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์ผ์น˜ํ•  ํ™•๋ฅ  ๊ณ„์‚ฐ
    (์˜ˆ: ํ‰๊ฐ€ ๋ชจ๋ธ i๊ฐ€ j>k๋ฅผ ์„ ํ˜ธํ•œ๋‹ค๊ณ  ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์‹ค์ œ๋กœ i๊ฐ€ j>k๋ฅผ ์„ ํ˜ธํ•  ํ™•๋ฅ )

    j>k, k>j, jk tie์˜ 3๊ฐ€์ง€ ๊ฒฝ์šฐ ๋ชจ๋‘์— ๋Œ€ํ•˜์—ฌ ๊ณ„์‚ฐํ•ด์„œ ๊ฒฐ๊ณผ๋ฅผ ๋”ํ•จ

  1. EigenTrust
    • ui์™€ uj์˜๊ฐ€ ์•ž์˜ ํ™•๋ฅ  ๋ชจ๋ธ์— ์˜ํ•ด fit๋˜๋ฉด Trust Matrix(์‹ ๋ขฐ ํ–‰๋ ฌ)์„ ์ถœ๋ ฅ
    sij:=exp(uiTvj)s_{ij} := exp(u_i^Tv_j)
    • ํ‰๊ฐ€ ๋ชจ๋ธ Mi๊ฐ€ Mj๋ฅผ ์–ผ๋งˆ๋‚˜ ์‹ ๋ขฐํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ํ–‰๋ ฌ
    • Trust vector t๋ฅผ EigenTrust๋กœ๋ถ€ํ„ฐ ์–ป์Œ
      • T(์‹ ๋ขฐ ํ–‰๋ ฌ)์˜ left principal eigenvector
    • t(0)์€ uniform distribution์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•จ
    • t(n+1) = t(n)T๋ฅผ ๋ฐ˜๋ณตํ•˜๊ณ , t(n+1)-t(n)์ด ์ผ์ • ์ž„๊ณ„์น˜(Threshold) ๋ฏธ๋งŒ์œผ๋กœ ๋–จ์–ด์ง€๋ฉด ์ˆ˜๋ ด์œผ๋กœ ๊ฐ„์ฃผ(๋ชจ๋ธ๋งˆ๋‹ค ํ‰๊ฐ€ํ•œ ์ ์ˆ˜๋ฅผ Aggregationํ•˜์—ฌ ๋ชจ๋ธ๊ฐ„ consensusํ•œ ์ ์ˆ˜๋ฅผ ์‚ฐ์ถœ)
    • t: ๋ชจ๋“  ๋ชจ๋ธ์— ๋Œ€ํ•œ ์‹ ๋ขฐ๋„ ๋ถ„ํฌ ์ ์ˆ˜(๊ฐ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์‹ ๋ขฐ๋ฐ›๋Š”๊ฐ€๋ฅผ ์ข…ํ•ฉํ•ด์„œ ๋‚˜ํƒ€๋‚ธ ์ˆ˜์น˜)
    • Elo Rating(Elo & Sloan, 1978)์œผ๋กœ ์–ด๋–ค ๋ชจ๋ธ j์— ๋Œ€ํ•œ ์‹ ๋ขฐ๋„ ๋žญํ‚น ์ ์ˆ˜ ์ตœ์ข… ๊ฒฐ๊ณผ ์‚ฐ์ถœ
      • Eloj = 1500 + 400 log10 (N tj )

Results

  1. Model Rankings
    • ํ‰๊ฐ€ ๋Œ€์ƒ ๋ชจ๋ธ
      • Claude 4 Sonnet
      • GPT 4.1
      • Gemini 2.5 Pro
      • Grok 4
      • DeepSeek v3
      • Qwen 3
      • Kimi K2
      • Llama 4 Maverick
    • ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
      • r/AskReddit ๋ฐ์ดํ„ฐ์…‹์—์„œ 1,000๊ฐœ์˜ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์„ ํƒ
      • ๊ฐ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•ด ๋ชจ๋ธ ๊ฐ„ ์Œ(pairwise) ๋น„๊ต๋ฅผ ์•ฝ 30,000๋ฒˆ ์ˆ˜ํ–‰
      • ๋น„๊ต ๊ฒฐ๊ณผ๋กœ ๊ฐ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์ข‹์€ ๋‹ต๋ณ€์„ ๋‚ด๋Š”์ง€ ์ ์ˆ˜(EigenBench score) ์‚ฐ์ถœ
  1. Human Validation
    • ์ธ๊ฐ„ ํ‰๊ฐ€์ž ๋น„๊ต ๊ณผ์ •
      1. ๋‘ ๋ช…์˜ ์ธ๊ฐ„ ํ‰๊ฐ€์ž(๋…ผ๋ฌธ ์ €์ž, ๋…๋ฆฝ๋œ ์™ธ๋ถ€ ํ‰๊ฐ€์ž)

      ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ LM ๋‹ต๋ณ€ pairwise ๋น„๊ต

      • ๊ฐ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ LM ๋‹ต๋ณ€ 2๊ฐœ๋ฅผ ๋žœ๋ค ์„ ํƒ
      • ์ธ๊ฐ„์—๊ฒŒ Universal Kindness ์กฐ๊ฑด ๊ธฐ์ค€ 8๊ฐœ ํ•ญ๋ชฉ์œผ๋กœ ๋น„๊ตํ•˜๋„๋ก ํ•จ

      1. ์ ์ˆ˜ ๊ณ„์‚ฐ: Bradley-Terry-Davidson ๋ชจ๋ธ
      • ์ธ๊ฐ„ ํŒ๋‹จ์„ ์ˆ˜์น˜ํ™”ํ•˜๊ธฐ ์œ„ํ•ด Bradley-Terry-Davidson ๋ชจ๋ธ ์‚ฌ์šฉ
        • ๊ฐ ๋ชจ๋ธ j์™€ ์ธ๊ฐ„ h์— ๋Œ€ํ•ด ์ž ์žฌ์  ์ ์ˆ˜(latent score) ํ•™์Šต
      • ์‹ ๋ขฐ ๋ฒกํ„ฐ ๊ณ„์‚ฐ

      LM์ด ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋น„๊ตํ•˜์—ฌ ์ ์ˆ˜์˜ ์‹ ๋ขฐ์„ฑ ํ™•์ธ ๊ฐ€๋Šฅ

      1. Validation on Ground Truth Labels
        • ๊ฐ๊ด€์ , ์ •๋‹ต์ด ์žˆ๋Š” ๋ฌธ์ œ์—์„œ๋„ EigenBench๊ฐ€ ๋ชจ๋ธ ์ˆœ์œ„๋ฅผ ์ž˜ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธ
        • GPQA ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉ
          • ๋Œ€ํ•™์› ์ˆ˜์ค€ ๋ฌผ๋ฆฌ, ํ™”ํ•™, ์ƒ๋ช… ๋ฌธ์ œ 448๊ฐœ
          • ๊ฐ๊ด€์  ๋ฌธ์ œ(A, B, C, D)๋กœ ๊ตฌ์„ฑ
        1. ์‹คํ—˜ ์„ค๊ณ„
        • ์ด 15๊ฐœ ๋ชจ๋ธ ํ‰๊ฐ€
        • ๊ธฐ์กด ์กฐ๊ฑด ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋Š” ์ƒ๋žต
        • ๊ฐ ๋ฌธ์ œ์— ๋Œ€ํ•˜์—ฌ
          1. ๋‘ ๋ชจ๋ธ j, k์˜ ๋‹ต๋ณ€ Rj, Rk ์ˆ˜์ง‘
          1. ํŒ์ •์ž๊ฐ€ ๋‘˜ ์ค‘ ์–ด๋А ๋‹ต์ด ๋” ๋‚˜์€์ง€ ์„ ํƒ

        • ๋น„๊ต๊ฐ’(trit) ์ •์˜
        • EigenBench๋Š” ๋ชจ๋ธ๋“ค ๊ฐ„ ์ƒํ˜ธ ์‹ ๋ขฐ(trust)๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Œ

        b. ์ ์ˆ˜ ๊ณ„์‚ฐ

        • Bradley-Terry-Davidson(BTD) ๋ชจ๋ธ์„ ์‚ฌ์šฉ
          • trit ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹ ๋ขฐ ํ–‰๋ ฌ T ํ•™์Šต
          • ํŒ์ •์ž๊ฐ€ ๋ชจ๋ธ ๋‹ต์„ ์–ผ๋งˆ๋‚˜ ์‹ ๋ขฐํ•˜๋Š”์ง€
        • ์ตœ์ข… trust vector t, ์ „์ฒด ๋ชจ๋ธ ์ง‘๋‹จ์˜ ํ•ฉ์˜(consensus) ํ‰๊ฐ€
          • ์ฆ‰, ๋ชจ๋ธ๋“ค์ด ์„œ๋กœ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ฏฟ๋Š”๊ฐ€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ฑ๋Šฅ ์ˆœ์œ„ ๋„์ถœ

        c. ๊ฒฐ๊ณผ

        • EigenBench ์ˆœ์œ„๋Š” ์ •๋‹ต ๊ธฐ๋ฐ˜ ์ˆœ์œ„์™€ ๊ฑฐ์˜ ์ผ์น˜
        • Ground-truth ์ •๋‹ต์„ ์ œ๊ณตํ•˜์ง€ ์•Š์•„๋„ ๋ชจ๋ธ ๊ฐ„ ์‹ ๋ขฐ๋งŒ์œผ๋กœ ์‹ค์ œ ์„ฑ๋Šฅ ์ˆœ์œ„๋ฅผ ์ž˜ ๋ณต์›
        • ์ฃผ๊ด€์  ํŠน์„ฑ ํ‰๊ฐ€์—๋„ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ•ฉ๋ฆฌ์  ์ˆœ์œ„(rankings) ์ƒ์„ฑ ๊ฐ€๋Šฅ

      Conclusion

      • Diverseํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•˜์—ฌ ํ•œ ๋ชจ๋ธ์ด ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๊ฒŒ ํ•˜๊ณ  ์ด๊ฒƒ์„ EigenTrust๋ฅผ ์ ์šฉํ•˜์—ฌ ํ•˜๋‚˜๋กœ ํ•ฉ์นจ
      • Human Judgement์™€ ๊ฐ๊ด€์ ์ธ Ranking์œผ๋กœ ๋น„๊ตํ–ˆ์„ ๋•Œ, ๊ฐ™์€ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ EigenBench์™€ ์ผ์น˜ํ•˜์—ฌ Eigenbench๊ฐ€ ์œ ์˜๋ฏธํ•จ

      Limitation

      • EigenBench์˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ์‹์ด ๋น„ํšจ์œจ์ 
        • ๋‘ ๋ชจ๋ธ์˜ ๋น„๊ต๋Š” ๊ฐ๊ฐ์˜ ๋ชจ๋ธ์—์„œ Response Call๊ณผ Reflection Call, ๊ทธ๋ฆฌ๊ณ  ๋‘ ๋ชจ๋ธ์„ ๋น„๊ตํ•˜๋Š” Comparison call์„ ํ•„์š”๋กœ ํ•˜์—ฌ ๋ถ€ํ•˜๊ฐ€ ํผ
        • Higher loss value๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ๋” ๋งŽ์€ ๋น„๊ต๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค๊ฑฐ๋‚˜ ํ•˜๋Š” ๋Œ€์ฑ…์ด ํ•„์š”(BTD ๋ชจ๋ธ)

Categories

BENCHMARK LLM EVALUATION research