EigenBench: A Comparative Behavioral Measure of Value Alignment
Review
| ๋๋ค์ | Strength & Weakness & Sugguestions | ๋ณ์ (0/5) |
|---|---|---|
| ์ฝ์คํผ | ๊ฐ์ : ๋ชจ๋ธ๋ง๋ค์ ํน์ง์ ๋ค๋ฅธ ๋ชจ๋ธ์ด ํ๊ฐํ๋๋ก ํ๊ณ , ๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ธ์ด ํน์ ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ์์นํํจ์ผ๋ก์จ ๊ฐ๊ด์ฑ์ ์ด๋์ ๋ ํ๋ณดํ๋ค๋ ๊ฒ์ด ๊ฐ์ ์. ์ฝ์ : ํ ๋ชจ๋ธ๊ฐ์ ๋น๊ต ๊ณผ์ ์์ ๊ณ์ฐ ์์์ ๋๋ฌด ๋ง์ด ์๋นํ๊ณ ๋น๊ต ๊ฒฐ๊ณผ ์ฐ์ถ์ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ. ์๋ก์ด ๋น๊ต ๋์ ๋ชจ๋ธ์ด ์ถ๊ฐ๋๋ค๋ฉด ๋๋จธ์ง ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ํด์ ์ ๋ถ ๋ค์ ๊ณ์ฐํด์ผ ํ ํ ๋ฐโฆ ๊ฐ์ (์ ์): ๋ชจ๋ธ ๊ฐ ๋น๊ต ๋ฐ ๊ณ์ฐ ์ฑ๋ฅ์ ํฅ์ํ๊ธฐ ์ํด ๋น๊ต ์ฐ์๋ ์บ์ฑ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋์์ผ๋ฉด ํจ. | 3.9 |
| ์ผ๋ผ | ๊ฐ์ : ํด๋น ๋
ผ๋ฌธ์ motivation์ฒ๋ผ ๊ฐ์น๋ ์ฃผ๊ด์ ์ด๊ธฐ ๋๋ฌธ์ ์ ๋ต ๋ผ๋ฒจ์ด ์๋๊ฒ ๋ง๋๋ผ๊ณ ์๊ฐํ์๋๋ฐ ground-truth label์ด ์์ด ์คํํ ๋ถ๋ถ์ด ๋ง์์ ๋ฆ ์ฝ์ : LLM ์ ์ฑ๋ฅ์ ๋ฐ๋ผ Value Evaluation์ ๋ฌธ์ ๊ฐ ์๊ธฐ์ง ์์๊น? ๊ทธ๋ฆฌ๊ณ ๊ณ์ฐ,๋น์ฉ์ ์ธ ์ธก๋ฉด์์ practical ํ์ง ์์๋ฏ ์ ์: ํ๋์ ๋ชจ๋ธ์ด ํ๊ฐํ๋๊ฑด ๋จ์ผ ๋ชจ๋ธ์ bias๊ฐ ์์ ์ ์์ผ๋ ์ฌ๋ฌ ๋ชจ๋ธ์ด ํ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ํด๋ณด๋๊ฑด ์ด๋จ๊น? | 3.7 |
| ๋น์๋จ | ๊ฐ์ : ์ ๋ต์ด ์๋ subjective alignment๋ฅผ ๋น๊ตํ๊ฑฐ๋ ์ธก์ ํ๋๊ฒ์ ํญ์ ์ด๋ ต๋ค๊ณ ์๊ฐํ๋๋ฐ, ๊ทธ ๋น๊ต๊ธฐ์ค์ด๋ ํ๊ฐ๊ธฐ์ค์ ์ ์ธ์ด๋ฏ ์ฝ์ : constitution ์ข ๋ฅ๋ population์ ๋ฐ๋ผ ํ๊ฐ๊ฐ ๋ฌ๋ผ์ง ์ ์์ ๊ฒ ๊ฐ์ ์ ์: prompt๋ persona์ํฅ์ ๋ถ๋ฆฌํด์ ์ธก์ ํ๋ ์ค์ ์ด ์์ผ๋ฉด ์ข์๋ฏ ์ถ๋ค. ๋ชจ๋ธ์ ๊ฐ์น ์ฑํฅ์ธ์ง prompt์ ์ํด ์ ๋๋ ํ๋์ ๋ถ๋ฆฌํด ์ธก์ ํ๋ฉด ์ค๋๋ ฅ ์์๋ฏ | 4 |
| ์นซ์ | ๊ฐ์ : ์ธ์ด๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ด๋ฌํ ์ฃผ๊ด์ ์ธ ํ๊ฐํ ๋ฅ๋ ฅ ์์ผ๋ฏ๋ก ์ด๋ฅผ ์ ๊ทน ํ์ฉํจ ์ฝ์ : ์ค์ง์ ์ผ๋ก ๊ธฐ์ ์ด ์๋ ์ด์ ์ฌ์ฉํ๊ธฐ ์ฝ์ง ์์๋ฏ (๋น์ฉ ๋ฌธ์ ) ์ ์: ๋๋ฉ์ธ์ ๋ฐ๋ผ ์ด ์ ๋๋ก ๋น์ฉ์ ๋ค์ฌ์ผ ์ ํํ ํ๊ฐ ๊ฐ๋ฅํ ๊ฒฝ์ฐ๋ ์๊ณ ์๋ ๊ฒฝ์ฐ๋ ์์ํ ๋ฐ ์ด์ ๋ํ ๋ถ์ | 3.6 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : ๋ชจ๋ธ์ด ํ๊ฐํ๋ ์๋๊ฐ ์๋๋ฐ, ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์ฃผ๊ด์ ์ฑํฅ์ ์ ์ ์์ด์ผ ํ๋ค๊ณ ์๊ฐํ๊ณ , ๊ทธ๊ฒ์ ๋ช
ํํ๊ฒ ๊ท์ ํ๊ณ ์ํํ๋ ์ฐ๊ตฌ. ์ฝ์ : ๊ณ ๋ คํด์ผ๋ ๊ฒ์ด ๋๋ฌด ๋ง์๋ฐ(ํ๊ฐ ๋ฐฉ์, ๋ฐ์ดํฐ, label, ํ๊ฐ ๊ธฐ์ค, noiseโฆ) ์ด๊ฑฐ ๋ค ์ปจํธ๋กค์ด ๊ฐ๋ฅํ๊ฐ..? ์ ์: ๋ถํฌ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉด ์ด๋จ๊น? ์์ฑ ์๋ฒ ๋ฉ์ ๋ถํฌ ๋ฑ | 3.8 |
| ๋์ค๋ฅ | ์ฅ์ : human ํต๊ณ๋ ๋น์ทํ ์์์ ๊ฐ์ง๋ ๋ฒค์น๋งํฌ ์ ์ ๋จ์ : ์ ๋ฆฌ๋๊ฑฐ๋ง ๋ณด๋ฉด ๋ญํ๊ฑด์ง ๋ชจ๋ฅด๊ฒ ์ ์ ์: ํ LLM benchmark์ ๋น๊ตํด์ ์ด๋ค ๋ถ๋ถ์์ ๊ฒฝ์๋ ฅ์๋ ๋ฒค์น๋งํฌ์ธ์ง ๊ฐ์กฐํ ๊ฒ! | 2.5 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : ์ฃผ๊ด์ ๊ฐ์น๋ ์ ๋ต์ด ์์ด์ ํ๊ฐ ๊ธฐ์ค์ ์ธ์ฐ๊ธฐ ์ด๋ ต๋ค๊ณ ์๊ฐํ๋๋ฐ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉด์ ์ธ์ด ๋ชจ๋ธ์ด ์๋ก๋ฅผ ํ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ๊ทผ์ด ์ ์ ํ์. ๋จ์ : ๋ชจ๋ธ 1์ ๋น๊ตํ ๋๋ง๋ค ๋น์ฉ์ด ํฌ๊ณ , ์ ๋ชจ๋ธ์ด ์ถ๊ฐ๋ ์๋ก ๋น๊ต ํ์๊ฐ ๋์ด๋ ํ์ค์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ค์ธ ๊ฒ ๊ฐ์. ์ ์: constitution์ ์ด๋ป๊ฒ ์์ฑํ๋๋์ ๋ฐ๋ผ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ๊ฒ ๊ฐ์๋ฐ ์ด์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ์ง ์์๊น | 3,6 |
| ์ปคํผ | ๊ฐ์ : human preference์ ๊ด๋ จ๋ ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ค ์ ์์๊น? ๋ฒค์น๋งํฌ ๋ํ ์ฃผ๊ด์ฑ์ด ํฌ์ง ์์๊น ์ถ๊ธด ํ์ง๋ง, ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฌ์ฉํด์ pairwise๋ฅผ ๊ตฌ์ฑํ๊ณ , ๊ณ ์ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํด ์ค๊ณ ๋ถ๋ถ์์ ์ด๋ก ์ ์ผ๋ก ํ๋น์ฑ์ ํ๋ณดํ ๊ฒ ๊ฐ์. ์ฝ์ : '์ฃผ๊ด์ฑ' ์ด๋ผ๋ ๋ฌธ์ ๋ ์์ ํด๊ฒฐํ ๊ฒ ๊ฐ์ง ์์ผ๋ฉฐ, ๋ฒค์น๋งํฌ์ ์ฌ์ฉ๋ ๋ชจ๋ธ์ ์์กด๋๊ฐ ์์ด๋ณด์. ์ ์ : ๋ฒค์น๋งํฌ ๊ตฌ์ฑ ์ ๋ค์ํ '์ฑ์ง'์ ๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋, human evaluation์ ์ถ๊ฐ ํฌํจํ๋ ๋ฑ ๋ชจ๋ธ ์์กด์ฑ์ ์ค์ด๊ณ ์ผ๊ด์ฑ์ ๊ฐ์กฐ(๋ชจ๋ธ๊ณผ ์ธ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋น์ทํ๋ค~)ํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค! | 4 |
| 404 | ๊ฐ์ : ๋ชจ๋ธ์ ์ฃผ๊ด์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ ๋จ์ &์ ์: ๋ฐ์ดํฐ์ ๋ง๋๋ ๊ณผ์ ์์ rationale์ด ๋ถ์กฑํจ (๊ธฐ์ค, noise, ์ฃผ๊ด์ฑ ๋ฑ๋ฑ) | 3 |
| AI | ๊ฐ์ : Alignment ์์ฒด๊ฐ ์ฃผ๊ด์ ์ธ ๊ฐ์น๋ฅผ ์ ๋ํํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ์ง์ ํด๊ฒฐํ๋ ค๋ ์ ๊ทผ์ ์๋กญ๊ฒ ์ ์ํจ ์ฝ์ : ๋ชจ๋ ๋ชจ๋ธ์ด ๋์ผํ RLHF ๋ฐฉํฅ์ ๊ฐ์ง๊ณ ์์ผ๋ฉด model ๊ฐ consensus๊ฐ ์ฌ๋์ ๊ฐ์น๋ฅผ ํํํ์ง ๋ชปํ ์ ์์ง ์์๊น? ์ ์: LLM judge ํ์ง์ ์ข ๋ ๋ค์ํ ๋ฐฉํฅ์ผ๋ก ํ ์คํธํ ์ ์์ ๋ฏ. ์ ๋์ ์ธ response๋ prompt ์์ฒด๋ฅผ ๋์ ์ผ๋ก ์์ ํ๋ ๋ฐฉํฅ๋ ํฌํจํ ์ ์์ | 3.5 |
TL; DR
๐ก
๋ชจ๋ธ์ ์ฃผ๊ด์ ์ฑํฅ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฑํฅ๊ณผ ๋น๊ตํ์ฌ ์์๋ฅผ ๋งค๊ธฐ๊ณ , ์ ๋ขฐ๋ ๋ฒกํฐ๋ก ์์นํํ์ฌ ์ ๋ขฐ์ฑ์ ํ๋จํ๊ณ , ๋ชจ๋ธ๋ง๋ค ํ๋จ์ ๊ธฐ์ค ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์๋ค!
ICLR 2026
Cited: 0
Summary
Background
- ๋ชจ๋ธ์ ์ฃผ๊ด์ ์ธ ๊ธฐ์ง์ ํ์
ํ๋ ๊ฒ์ด ์ค์ํจ
- ๋ชจ๋ธ์์ ์ค์ํ Trait์ด ๊ฐ์ฅ ์ฃผ๊ด์ ์ผ ๋๊ฐ ๋ง์
- trait์ด subjectiveํ๋ ์์: ํ ์ฌ๋์ด ๋ชจ๋ธ์ด kind(์น์ )ํ๋ค๊ณ ํ๋ณํ ๊ฒ์ ๋ค๋ฅธ ์ฌ๋์ fawning(์์)์ด๋ผ๊ณ ํ๊ฐํ ์ ์์
- ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด language model์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ํ๊ฐํ๋๋ก ํจ
Contribution
- ํน์ ์กฐ๊ฑด์ ๋ฐ๋ฅธ ์ ์ ๋ฆฌ๋๋ณด๋๋ฅผ ๊ตฌ์ฑํ์ฌ ๋ชจ๋ธ๋ค์ด ์ผ๋ง๋ ๊ธฐ์ค์ ๋ถํฉํ๋์ง ๋น๊ต ๋ฐ ๋ถ์ ๊ฐ๋ฅ
- Language Model์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ต๋ณ์ ํ๊ฐํ๋๋ก ํ์ฌ ๋ชจ๋ธ์ด ํน์ ๊ธฐ์ค์ ๋ถํฉํ๋๋ก Fine-Tuning์ ๋ ์ฝ๊ฒ ํ ์ ์๋๋ก ํจ
- ๋ชจ๋ธ์ ๊ฐ์น ์ฑํฅ๊ณผ ์ค์ํ๊ฒ ๋ณด๋ Feature๋ฅผ EigenBench Score ์ฐ์ถ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ณ ํ๋จ ๊ธฐ์ค์ ์ฐจ์ด๋ฅผ ๋ณผ ์ ์์
Method
- Model Population
- ๋น๊ต ๋์ ๋ชจ๋ธ์ ๊ฐ์: N
N โฅ 2 (2๊ฐ ์ด์์ ๋ชจ๋ธ๋ก ๋น๊ต)
- ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ชจ๋ ํ๊ฐ ๋ชจ๋ธ๊ณผ ํ๊ฐ ๋์ ๋ชจ๋ธ ๋ ๋ค ํด๋น๋จ
- ๋ชจ๋ธ M์ base model m๊ณผ ํ๋ฅด์๋ p๋ก ๊ตฌ์ฑ(M=(m,p))
- ๋น๊ต ๋์ ๋ชจ๋ธ์ ๊ฐ์: N
- Constitution(๊ตฌ์ฑ ์กฐ๊ฑด)
- Constitution
- ์กฐ๊ฑด ๋ด์ ๊ธฐ์ค(Ci)๋ LM response๋ฅผ ๋น๊ตํ๊ธฐ ์ํด ๋น๊ตํ๋ ๋ชจ๋ธ์ prompt ํํ๋ก ์ ๊ณต๋จ
- ์ด ๋ฐฉ๋ฒ์ ๋ค์ํ Constituion(์กฐ๊ฑด) ๋ด์์ ์ ์ฉ์ด ๊ฐ๋ฅํ์ฌ ์กฐ๊ฑด์ด ๋ฌ๋ผ์ ธ๋ ์ ํจํจ
- ์: Universal kindness, conservatism, deep ecology
- Universal Kindness๋ ๋๊ณ ๋ณดํธ์ ์ผ๋ก ๋ฐ์๋ค์ฌ์ง๋ ๊ธฐ์ค์ด๊ณ , Conservatism, deep ecology๋ ์ข์ผ๋ฉด์ ๋ ผ์์ ์ธ ๊ธฐ์ค
- ๋ณธ์ง์ ์ผ๋ก ์ด ๊ธฐ์ค๋ค์ ์ฃผ๊ด์ ์ด๊ธฐ ๋๋ฌธ์ ์ฌ๋ฌ ๋ชจ๋ธ์ ํ๊ฐ๋ฅผ ๋ชจ์ผ๋ EigenBench๊ฐ ์ด ํ๊ฐ์ ์ ํฉํจ
- Scenario Dataset
- Set of Prompt Scenario S๋ก ๊ตฌ์ฑ
- ์ค์ ์ผ์ด๋ ์ ์๋ ์๋๋ฆฌ์ค(human concerns, dilemmas, curiosities)๋ฅผ ๋ฐ์ํ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ
- r/AskReddit์์ ์์ง๋ Kaggle Dataset
- OASST Conversations
- ์ค์ ์ธ๊ฐ๊ณผ LM ์ฌ์ด์ ๋ํ
- ์ด๊ธฐ User Prompt๋ง ์ถ์ถ
- AIRiskDilemmas
- ๋ชจ๋ธ์ด ์์ฑํ ์ค๋ฆฌ์ ๋๋ ๋ง
- ๋ชจ๋ธ์ ๊ฐ์น ํ๋จ ๋ฅ๋ ฅ ํ๋ณ
- Collecting Pairwise Comparisons
- ์กฐ๊ฑด C์์์ ์๋๋ฆฌ์ค S์ผ ๋, ํ๊ฐ ๋์ ๋ชจ๋ธ j, k, ํ๊ฐ ๋ชจ๋ธ i๊ฐ ์กด์ฌํจ
- ๋ชจ๋ธ Mj, Mk์์ ๊ฐ๊ฐ ๋๋ต์ ์ป์ด๋ด Rj, Rk๋ผ ํจ
- Rj, Rk๋ฅผ Mi(ํ๊ฐ ๋ชจ๋ธ)์์ ํ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ Rj^, Rk^๋ผ ํจ
- bias๋ฅผ ํผํ๊ธฐ ์ํด Rj, Rk์ ์์๋ฅผ ๋ฐ๊ฟ์๋ ํ๊ฐํจ
- ์์์ ๋ฐ๋ผ ์ ํธ๋๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒฝ์ฐ tie(๋ฌด์น๋ถ)๋ก ํ๊ฐ
- Low-Rank Bradley-Terry-Davidson Model
- ๋ชจ๋ธ์ ์ ํธ ๋ญํน(win, lose, tie)์ ๋ํ ๋ฐ์ดํฐ๋ฅผ 4์์ ์์งํ ํ, Bradley-Terry-Davidson (BTD) ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์ด๊ฒ์ ํ๋ฅ ์ ์ธ Ranking์ผ๋ก ๋ณํ, ๋ชจ๋ ๊ฒฐ๊ณผ๋ค์ ํ๋์ Matrix๋ก ํฉ
- ๊ฐ ํ๊ฐ ๋์ ๋ชจ๋ธ(Mj)์ ๋ํด Latent disposition ๋ฒกํฐ vj ํ์ต
- ๊ฐ ํ๊ฐ ๋ชจ๋ธ(Mi)์ ๋ํ์ฌ Judge lens ํ์ต
- ๊ฐ ํ๊ฐ ๋ชจ๋ธ latent์ ์ด๋ค ๋ถ๋ถ์ ์ค์ํ๊ฒ ๋ณด๋์ง ๋ฐ์(๊ฐ ํ๊ฐ ๋์ ๋ชจ๋ธ์ ์ด๋ค ๋ถ๋ถ์ด ์ค์ํ์ง ๋ฐ์)
- ๊ฐ ํ๊ฐ ๋ชจ๋ธ์ ๋ํ์ฌ tie Propensity ํ์ต(๋ฌด์น๋ถ๋๋ ๊ฒฝ์ฐ๊ฐ ์ผ๋ง๋ ๋๋์ง)
์ค์ ๊ฒฐ๊ณผ์ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ๊ฐ ์ผ์นํ ํ๋ฅ ๊ณ์ฐ
(์: ํ๊ฐ ๋ชจ๋ธ i๊ฐ j>k๋ฅผ ์ ํธํ๋ค๊ณ ์์ธกํ๋๋ฐ ์ค์ ๋ก i๊ฐ j>k๋ฅผ ์ ํธํ ํ๋ฅ )j>k, k>j, jk tie์ 3๊ฐ์ง ๊ฒฝ์ฐ ๋ชจ๋์ ๋ํ์ฌ ๊ณ์ฐํด์ ๊ฒฐ๊ณผ๋ฅผ ๋ํจ
- EigenTrust
- ui์ uj์๊ฐ ์์ ํ๋ฅ ๋ชจ๋ธ์ ์ํด fit๋๋ฉด Trust Matrix(์ ๋ขฐ ํ๋ ฌ)์ ์ถ๋ ฅ
- ํ๊ฐ ๋ชจ๋ธ Mi๊ฐ Mj๋ฅผ ์ผ๋ง๋ ์ ๋ขฐํ๋์ง ๋ํ๋ด๋ ํ๋ ฌ
- Trust vector t๋ฅผ EigenTrust๋ก๋ถํฐ ์ป์
- T(์ ๋ขฐ ํ๋ ฌ)์ left principal eigenvector
- t(0)์ uniform distribution์ผ๋ก ์ด๊ธฐํํจ
- t(n+1) = t(n)T๋ฅผ ๋ฐ๋ณตํ๊ณ , t(n+1)-t(n)์ด ์ผ์ ์๊ณ์น(Threshold) ๋ฏธ๋ง์ผ๋ก ๋จ์ด์ง๋ฉด ์๋ ด์ผ๋ก ๊ฐ์ฃผ(๋ชจ๋ธ๋ง๋ค ํ๊ฐํ ์ ์๋ฅผ Aggregationํ์ฌ ๋ชจ๋ธ๊ฐ consensusํ ์ ์๋ฅผ ์ฐ์ถ)
- t: ๋ชจ๋ ๋ชจ๋ธ์ ๋ํ ์ ๋ขฐ๋ ๋ถํฌ ์ ์(๊ฐ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๋ขฐ๋ฐ๋๊ฐ๋ฅผ ์ข ํฉํด์ ๋ํ๋ธ ์์น)
- Elo Rating(Elo & Sloan, 1978)์ผ๋ก ์ด๋ค ๋ชจ๋ธ j์ ๋ํ ์ ๋ขฐ๋ ๋ญํน ์ ์ ์ต์ข
๊ฒฐ๊ณผ ์ฐ์ถ
- Eloj = 1500 + 400 log10 (N tj )
Results
- Model Rankings
- ํ๊ฐ ๋์ ๋ชจ๋ธ
- Claude 4 Sonnet
- GPT 4.1
- Gemini 2.5 Pro
- Grok 4
- DeepSeek v3
- Qwen 3
- Kimi K2
- Llama 4 Maverick
- ํ๊ฐ ๋ฐฉ๋ฒ
- r/AskReddit ๋ฐ์ดํฐ์ ์์ 1,000๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ ํ
- ๊ฐ ์๋๋ฆฌ์ค์ ๋ํด ๋ชจ๋ธ ๊ฐ ์(pairwise) ๋น๊ต๋ฅผ ์ฝ 30,000๋ฒ ์ํ
- ๋น๊ต ๊ฒฐ๊ณผ๋ก ๊ฐ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ข์ ๋ต๋ณ์ ๋ด๋์ง ์ ์(EigenBench score) ์ฐ์ถ
- ํ๊ฐ ๋์ ๋ชจ๋ธ
- Human Validation
- ์ธ๊ฐ ํ๊ฐ์ ๋น๊ต ๊ณผ์
- ๋ ๋ช ์ ์ธ๊ฐ ํ๊ฐ์(๋ ผ๋ฌธ ์ ์, ๋ ๋ฆฝ๋ ์ธ๋ถ ํ๊ฐ์)
๋ชจ๋ธ๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก LM ๋ต๋ณ pairwise ๋น๊ต
- ๊ฐ ์๋๋ฆฌ์ค์์ LM ๋ต๋ณ 2๊ฐ๋ฅผ ๋๋ค ์ ํ
- ์ธ๊ฐ์๊ฒ Universal Kindness ์กฐ๊ฑด ๊ธฐ์ค 8๊ฐ ํญ๋ชฉ์ผ๋ก ๋น๊ตํ๋๋ก ํจ
- ์ ์ ๊ณ์ฐ: Bradley-Terry-Davidson ๋ชจ๋ธ
- ์ธ๊ฐ ํ๋จ์ ์์นํํ๊ธฐ ์ํด Bradley-Terry-Davidson ๋ชจ๋ธ ์ฌ์ฉ
- ๊ฐ ๋ชจ๋ธ j์ ์ธ๊ฐ h์ ๋ํด ์ ์ฌ์ ์ ์(latent score) ํ์ต
- ์ ๋ขฐ ๋ฒกํฐ ๊ณ์ฐ
LM์ด ๋น๊ตํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ๋น๊ตํ์ฌ ์ ์์ ์ ๋ขฐ์ฑ ํ์ธ ๊ฐ๋ฅ
- Validation on Ground Truth Labels
- ๊ฐ๊ด์ , ์ ๋ต์ด ์๋ ๋ฌธ์ ์์๋ EigenBench๊ฐ ๋ชจ๋ธ ์์๋ฅผ ์ ๋ณต์ํ ์ ์๋์ง ํ์ธ
- GPQA ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉ
- ๋ํ์ ์์ค ๋ฌผ๋ฆฌ, ํํ, ์๋ช ๋ฌธ์ 448๊ฐ
- ๊ฐ๊ด์ ๋ฌธ์ (A, B, C, D)๋ก ๊ตฌ์ฑ
- ์คํ ์ค๊ณ
- ์ด 15๊ฐ ๋ชจ๋ธ ํ๊ฐ
- ๊ธฐ์กด ์กฐ๊ฑด ๊ธฐ๋ฐ ํ๊ฐ๋ ์๋ต
- ๊ฐ ๋ฌธ์ ์ ๋ํ์ฌ
- ๋ ๋ชจ๋ธ j, k์ ๋ต๋ณ Rj, Rk ์์ง
- ํ์ ์๊ฐ ๋ ์ค ์ด๋ ๋ต์ด ๋ ๋์์ง ์ ํ
- ๋น๊ต๊ฐ(trit) ์ ์
- EigenBench๋ ๋ชจ๋ธ๋ค ๊ฐ ์ํธ ์ ๋ขฐ(trust)๋ฅผ ๊ณ์ฐํ ์ ์์
b. ์ ์ ๊ณ์ฐ
- Bradley-Terry-Davidson(BTD) ๋ชจ๋ธ์ ์ฌ์ฉ
- trit ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ขฐ ํ๋ ฌ T ํ์ต
- ํ์ ์๊ฐ ๋ชจ๋ธ ๋ต์ ์ผ๋ง๋ ์ ๋ขฐํ๋์ง
- ์ต์ข
trust vector t, ์ ์ฒด ๋ชจ๋ธ ์ง๋จ์ ํฉ์(consensus) ํ๊ฐ
- ์ฆ, ๋ชจ๋ธ๋ค์ด ์๋ก๋ฅผ ์ผ๋ง๋ ๋ฏฟ๋๊ฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฑ๋ฅ ์์ ๋์ถ
c. ๊ฒฐ๊ณผ
- EigenBench ์์๋ ์ ๋ต ๊ธฐ๋ฐ ์์์ ๊ฑฐ์ ์ผ์น
- Ground-truth ์ ๋ต์ ์ ๊ณตํ์ง ์์๋ ๋ชจ๋ธ ๊ฐ ์ ๋ขฐ๋ง์ผ๋ก ์ค์ ์ฑ๋ฅ ์์๋ฅผ ์ ๋ณต์
- ์ฃผ๊ด์ ํน์ฑ ํ๊ฐ์๋ ์ ๋ขฐํ ์ ์๋ ํฉ๋ฆฌ์ ์์(rankings) ์์ฑ ๊ฐ๋ฅ
Conclusion
- Diverseํ ์๋๋ฆฌ์ค์ ๋ํ์ฌ ํ ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ํ๊ฐํ๊ฒ ํ๊ณ ์ด๊ฒ์ EigenTrust๋ฅผ ์ ์ฉํ์ฌ ํ๋๋ก ํฉ์นจ
- Human Judgement์ ๊ฐ๊ด์ ์ธ Ranking์ผ๋ก ๋น๊ตํ์ ๋, ๊ฐ์ ๋ชจ๋ธ๋ค์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ EigenBench์ ์ผ์นํ์ฌ Eigenbench๊ฐ ์ ์๋ฏธํจ
Limitation
- EigenBench์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ์์ด ๋นํจ์จ์
- ๋ ๋ชจ๋ธ์ ๋น๊ต๋ ๊ฐ๊ฐ์ ๋ชจ๋ธ์์ Response Call๊ณผ Reflection Call, ๊ทธ๋ฆฌ๊ณ ๋ ๋ชจ๋ธ์ ๋น๊ตํ๋ Comparison call์ ํ์๋ก ํ์ฌ ๋ถํ๊ฐ ํผ
- Higher loss value๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ ๋ํด์ ๋ ๋ง์ ๋น๊ต๋ฅผ ์ํํ๋ค๊ฑฐ๋ ํ๋ ๋์ฑ ์ด ํ์(BTD ๋ชจ๋ธ)
- ์ธ๊ฐ ํ๊ฐ์ ๋น๊ต ๊ณผ์








