Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๊ณ๋์ด๋ฐฅ | ๊ฐ๋จ๋ช ๋ฃํ ๋ฐฉ๋ฒ์ผ๋ก uncertanity, faithfulness๋ฅผ ์ก์ ๋ ผ๋ฌธ! ๋จ์ ๋ถ์ ๋ฌธ ์ด์ธ์ โlogicโ ํค์๋๋ฅผ ์ ํ์ฉํ๋ฉด ๋ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ ํธ๋ ์ผ๊ด์ฑ์ ์ ์ํ ์ ์์ ๊ฒ ๊ฐ์ | 3.6 |
| ๋งน๊ตฌ | LLM์ ์์ธก ์ผ๊ด์ฑ์ ์ค์ํ๋ค๊ณ ์๊ฐํจ. LLM์ด ๋ ผ๋ฆฌ์ ์ ํฉํ์ง ์๋ค๋ผ๋ ๋ด์ฉ์ด ๊ณ์ ์๊ฐ๋๋๋ฐ, ํค์๋๊ฐ ๋๋ฌด ๋น์ทํด์ ์ ๊ธฐํ์. ๋ ผ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ์ฆ๊ฐํ๊ณ ์์ฑํ๊ธฐ์ ์ ํฉํ ๋ฐฉ๋ฒ์ธ ๊ฒ ๊ฐ๋ค. ์ฐธ๊ณ ํ๊ธฐ ์ข์ ๊ฒ ๊ฐ์. | 3.7 |
| ๊ตญ๋ฐฅ | Measuring the Inconsistency of Large Language Models in Ordinal Preference Formation ๋
ผ๋ฌธ์์๋ 3๊ฐ์ง ๋
ผ๋ฆฌ ๋ถ๋ณ์ฑ์ ๊ณ ๋ คํ๋๋ฐ ํ์คํ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์์ด ์ฐจ๋ณ์ ์ด ์๋๊ฑฐ๊ฐ๋ค. ๋ถ์ ํ์ ์๋ก์ด ๋ฌธ์ฅ ๊ตฌ์กฐ๋ผ ๋ฐ๋ก ํ๋ จ์ํ๋ฉด ์ฑ๋ฅ์ด ์ฐจ์ด ์๋๊ฒ๋ ์ดํด๋จ | 3.9 |
| ํ๋ฒ๊ฑฐ | LLM ์ ๋ขฐ์ฑ์ ๋ฐ์ง ๋ ์ ํ๋ ๊ธฐ๋ฐ์ด ์๋ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ผ๋ก ๋ณด๋๊ฒ์ด ๋ ํ๋นํด ๋ณด์ด๊ธด ํจ. CoT๊ฐ ํญ์ consistency๋ฅผ ๊ฐ์ ํ์ง ์๊ณ ์คํ๋ ค reasoning ๊ณผ์ ์์ฒด๊ฐ ์คํ๋ ค ํ๋จ์ ์์ ์ฑ์ ํ๋ค์ ์๊ฒ ๊ตฌ๋ | 3.8 |
| ํผ์ | LLM์ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ด ํ๋ค๋ฆฌ์ง ์๋์ง ํ๋จํ๋ ๊ฒ์ ์ด ์ฐ๊ตฌ์ ์๋ฏธ๊ฐ ์๋ค๊ณ ๋ด. ๋ ผ๋ฆฌ ๊ทธ๋ํ ๋ฐ Item์ ์์์ ๋ฐ๋ฅธ ์ผ๊ด์ฑ์ ๋ถ์ํ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ์ฐจ๋ณ์ ์ด๊ณ ํ์ ์ฐ๊ตฌ๊ฐ ์ข ๋ ์งํ๋๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 3.9 |
| ์นํจ | ๊ฐ์ธ์ ์ผ๋ก llm ์ ๋ขฐ์ ์์ด์ llm์ ์ผ๊ด์ฑ์ด ๋๊ฒ ์ค์ํ๋ค๊ณ ์๊ฐํ๋๋ฐ 3๊ฐ์ง ์์ฑ์ ํตํด robustness๋ฅผ ์ธก์ ํ๋ ๋ฐฉ์์ ์ค๋๋ ฅ ์๋ค๊ณ ์๊ฐํจ. ๋ ์คํ์ ํตํด ์ผ๊ด์ฑ์ด ์ฌ๋ผ๊ฐ๋ฉด ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ๋ ํฅ์๋๋ค๋ ์ ์ด ๋ ผ๋ฌธ์ ์ค๋๋ ฅ์ ๋์๋ค๊ณ ์๊ฐํจ | 4.1 |
| ํ๋ธ๋ฆฌ์ฆ | ์ธ๊ฐ ์ ํธ๋์ ์ ๋ ฌ๋๋ค๋ ๊ฒ ๊ผญ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋๊ฒ ์ ์ถ๋ก ํ๋ค๋ ๊ฑด ์๋๋๊น, ๊ทธ๋ฐ ๋ฉด์์ ์ ํธ๋ ์ ๋ ฌ์ ๋ถ์กฑํ ์ธก๋ฉด์ ์ ๋ณด์ํ ๋ฏํ๋ค. ๋ ผ๋ฌธ์ด ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์ ์๋ถํฐ ์ค๋ช ์ํ ๊ทธ๋ฆผ ๋ฑ ๊น๋ํ๊ณ ๋ช ํํด์ ์ ๋ฌ๋ ฅ ์ข์ ๋ ผ๋ฌธ์ด๋ผ ์๊ฐํ์ | 4.1 |
TL; DR
๐ก
LLM์ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ ์ ์ํ๊ณ , ๊ด๋ จ ํ๋ จ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ์์ ์ ์ํ์ฌ, ๋ ผ๋ฆฌ ์ ํธ๋ ์ผ๊ด์ฑ๊ณผ ๋ ผ๋ฆฌ ํ์คํฌ ์ํ๋ฅ๋ ฅ ์ฆ์ง
Summary
Introduction
Motivation
- ์์ธก ์ผ๊ด์ฑ์ LLM์ ์ ๋ขฐ์ฑ์ ์์ด ์ค์ํ ์์
- ๋ณธ ๋ ผ๋ฌธ์์๋ ํนํ LLM์ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ ํ๊ตฌ
- ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ ๊ตฌ์กฐํ๋ ์ถ๋ก ๊ณผ ์ผ๊ด๋ ์์ฌ๊ฒฐ์ ์ ์ค์
Contribution
- LLM์ ๋
ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ ์ค์์ฑ ๊ฐ์กฐ
- ์ธ๊ฐ์ง ํต์ฌ ์ผ๊ด์ฑ ์์ฑ์ ์ํ์ ์ผ๋ก ์ ์
- ์ต์ LLM์ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ ํ๊ฐํ๊ณ ๋ชจ๋ธ ์ ๋ขฐ์ฑ๊ณผ ์๊ด๊ด๊ณ ๋ถ์
- ์ง์๋ฌธ ํ๋์ผ๋ก ๋ฐ์ดํฐ ์ ์ ํ๊ณ ์ฆ๊ฐํ๋ ๋ฐฉ๋ฒ ์ ์ํ์ฌ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ ํฅ์
- ๋ ผ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ ํ์คํฌ์์ LLM์ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ ๊ฐ์ ์ด ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํจ์ ์ ์ฆ
Measuring Logical Consistency
- ๋
ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ ํ๊ฐ ๋ฐฉ๋ฒ: ๋
ผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ๊ด๊ณ๋ฅผ ์์ธกํ๋ ๋ฅ๋ ฅ ํ๊ฐ
- LLM์ด item pair ๋น๊ตํ์ฌ item ๊ฐ relation ๊ฒฐ์ ํ๋๋ก ํจ
- ๏ปฟ : item pair
- ๏ปฟ : item pair ๋น๊ตํ์ฌ relation ์์ธกํ๋ ํจ์ (LLM)
- ๏ปฟ : ๋ฐฉํฅ์ฑ ์๋ ๋
ผ๋ฆฌ์ ์ ํธ ๊ด๊ณ
- ๏ปฟ : ๏ปฟ, ์ฆ item ๏ปฟ๊ฐ ๏ปฟ๋ณด๋ค ์ ํธ๋จ
- ๏ปฟ : ๏ปฟ
- LLM์ด item pair ๋น๊ตํ์ฌ item ๊ฐ relation ๊ฒฐ์ ํ๋๋ก ํจ
- item set ๏ปฟ์ ๋ํด ๋ค์ ์์ฑ ๊ณ ๋ คํ์ฌ ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ ํ๊ฐ
- transitivity: ๋งฅ๋ฝ ๋ณํ ์์ ๋์ ์ผ๊ด์ฑ(๋ณํ ์ ํ์ ํ๋จ์ด ๋ชจ์๋์ง ์์)
- commutativity: ์์ ๋ณ๋ ์์ ๋์ ์ผ๊ด์ฑ
- negation invariance: relational negation ํ ๋์ ์ผ๊ด์ฑ
Measuring Transitivity
- transitivity: ๏ปฟ and ๏ปฟ โ ๏ปฟ
- ๏ปฟ and ๏ปฟ โ ๏ปฟ
- metric (0~1 ๊ฐ ๊ฐ์ง)
- ๏ปฟ : item set์์ ์ํ๋ง๋ ํฌ๊ธฐ ๏ปฟ์ ๋๋ค ํ๋ณธ ์๋ธ๊ทธ๋ํ
- ๏ปฟ : ์ํ๋ง๋ ์ด ์๋ธ๊ทธ๋ํ ์ (์ต๋ 1,000)
- ๏ปฟ(์๋ธ๊ทธ๋ํ ํฌ๊ธฐ) ์ค์ ์ด์ : transitivity ์ ์ง ์ด๋ ค์ด ์ ๋์ ๊ด๋ จ๋๊ธฐ ๋๋ฌธ
- K๊ฐ item set์์ item pair๋ 2K๊ฐ ์กฐํฉ ์กด์ฌ, ์ด ์ค์์ transitive rank๋ K! ๊ฐ ๊ฐ๋ฅ
- ์ด์ ๊ณต์ ํ ๋น๊ต ๊ฐ๋ฅํ๋๋ก K๋ฅผ ๊ณ ์ ํ๊ณ ์งํ ์ธก์
Measuring Commutativity
- commutativity: ํ๋กฌํํธ ๋ด item ์์ ๋ฐ๊ฟจ์ ๋ ๋ชจ๋ธ์ ํ๋จ์ด ์ผ๊ด๋๋์ง
- A : ๏ปฟ
- B : ๏ปฟ
- โ ๋นจ๊ฐ์ ์ค์ : commutativity conflict ๋ํ๋
Measuring Negation Invariance
- negation invariance: relational statement๋ฅผ negation ํน์ inversion ํ ๋ ๋ชจ๋ธ ํ๋จ์ด ์ผ๊ด๋์ง
- A, B notation์ commutativity์ ๋์ผ
- โ ๋ณด๋ผ์ ์ ์ : negation conflict ๋ํ๋
- metric (0~1 ๊ฐ ๊ฐ์ง)
- ๏ปฟ : negated relation์ด ๋ช ์์ ์ผ๋ก ํ๋กฌํํ ๋ ๋ ๋ชจ๋ธ์ ํ๋จ
- ๏ปฟ : ์๋ relation์ ๋ํ ๋ชจ๋ธ์ ํ๋จ์ negation
- ๋งจ ์์ normalization term: ๋ชจ๋ ์๋ณ ์์ด์ ๋ํด ํ๊ท ๋
Evaluating Logical Consistency of LLMs
์ธ๊ฐ์ง ํ์คํฌ์์ LLM์ ํ๋จ ์ผ๊ด์ฑ ํ๊ฐ
Evaluation Setup
- Dataset
- abstractive summarization evaluation (SummEval): ์์ฝ๋ฌธ ๊ฐ ์ ํธ๋ ํ๋จ
- document reranking (NovelEval): ์ง๋ฌธ์ ๋ํ ์๋ต์ผ๋ก ๊ฒ์๋ ๋ฌธ์์ ๊ด๋ จ์ฑ ํ๋จ
- temporal event ordering (CaTeRS): ์ด๋ฒคํธ ๊ฐ ์๊ฐ์ , ์ธ๊ณผ์ ๊ด๊ณ ํ๋จ
- Metric
- logical consistency metric: ์ธ์คํด์ค ์์ค์์ ๊ณ์ฐํ์ฌ ํ ์คํธ์ ์ ํ๊ท ๊ฐ ๊ธฐ๋ก
- human aggrement rate (H.): LLM ํ๋จ๊ณผ ์ธ๊ฐ ์ฃผ์ ๊ฐ ์๋ณ ํ๋จ ์ ํ๋
- self-agreement: ์ฌ๋ฌ ์ํ์ ๊ฑธ์ณ ๋ค์ ํ๋จ๊ณผ ์ผ์นํ๋ ์ถ๋ ฅ์ ๋น์จ (0.5~1 ๊ฐ ๊ฐ์ง)
Results and Analysis
- Gemma2 9B, Phi3 medium ๊ฐ์ ์ต์ LLM์ด ์ด์ ๋ชจ๋ธ์ ๋นํด ๊ฐํ ์ผ๊ด์ฑ ๋ณด์
- ํ ์ธก๋ฉด์์์ ๊ฐํ ์ผ๊ด์ฑ์ด ๋ค๋ฅธ ์ธก๋ฉด์์๋ ๊ฐํ ์ผ๊ด์ฑ ๋ณด์ฅํ์ง ์์
- Mistral 7B: transitivity์ ๊ฐํ์ง๋ง ๋ค๋ฅธ ์ผ๊ด์ฑ ์ธก๋ฉด์์ ์ฝํจ
- CoT ์ถ๋ก ์ด ์ผ๊ด์ฑ ๊ฐ์ ํ์ง ๋ชปํ๋ฉฐ ์ผ๋ถ ๊ฒฝ์ฐ transitivity ํ๋ฝ์ํด
- ์ถ๊ฐ์ ์ธ CoT ํ ํฐ ๋์ ์ด ํ๋จ ๊ธฐ์ค์ ํผ๋ ์ฃผ๊ธฐ ๋๋ฌธ์ผ ์ ์์
Consistency and Reliability
- ์ธ ๋ฐ์ดํฐ์
๋ชจ๋์์ transitivity์ self-agreement ๊ฐ ๊ฐํ ์๊ด๊ด๊ณ ์กด์ฌ
- transitivity๊ฐ LLM์ ๊ฒฌ๊ณ ์ฑ ํ๊ฐํ๋ ์ ์ฉํ ๋๋ฆฌ ์งํ๋ก ์ฌ์ฉ๋ ์ ์์
- commutativity์ human preference์ ๊ฐํ ์๊ด๊ด๊ณ ์กด์ฌ
๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด gpt 4 turbo๋ก ๊ฐ์ํ 10๊ฐ ๋น๊ต ํ๋กฌํํธ ์ฌ์ฉํ์ฌ ๋ ์งํ ์ฐ์ถ
- commutativity๋ position bias์ ๊ด๋ จ๋๊ณ ์์น ํธํฅ์ ์ ๋ ฌ์ ์๋นํ ์ํฅ ๋ฏธ์น๊ธฐ ๋๋ฌธ์ผ ์ ์์ (๊ธฐ์กด ์ฐ๊ตฌ ๊ฒฐ๊ณผ)
Improve Logical Preference Consistency in LLMs via REPAIR
- REPAIR (Ranking Estimation and Preference Augmentation through Information Refinement): LLM ๋น์ผ๊ด์ฑ ์ํํ๊ธฐ ์ํ ํ๋ ์์ํฌ
- ๋ ธ์ด์ฆ ์กด์ฌํ๋ preference data์์ ranking ์ถ์
- ์ถ๊ฐ์ ์ธ conflict-free pairwise comparison ์์ฑ
- โ human preference์ alignment ์ ์งํ๋ฉด์ logical preference coherence ๊ฐํ
- โ logical operator๋ก์ LLM์ ์ ๋ขฐ์ฑ ๊ฐํ
Estimating Rankings from Noisy Pairwise Data
- noisy pairwise annotation์์ ranking ์ถ์ ํ๋ ๋ฐฉ๋ฒ: win-loss rate ์ฌ์ฉ
- item์ win-loss rate:
- item์ win-loss rate ๊ฐ์ผ๋ก ์ ๋ ฌ
- ์ ๋ ฌ ๊ฒฐ๊ณผ๋ก self-consistent pairwise comparison set ๊ตฌ์ฑ
- ์ด์ negated relation๊ณผ์ ๋น๊ต ์ถ๊ฐํจ์ผ๋ก์จ ์ฆ๊ฐํ ์ ์์
- item์ win-loss rate:
Experiments
- Experimental Setup
- dataset: Summarize From Feedback (๋ ์์ฝ๋ฌธ ๊ฐ ํ์ง ๋น๊ต ์ฃผ์ ์์)
- โ ์ ์ํ ๋ฐ์ดํฐ ์ ์ ๋ฐ ์ฆ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก ์๋ณ ๋น๊ต์ ์ผ๊ด์ฑ๊ณผ ์ ๊ฐ์ ํ์ฌ ์คํ
- llama 3 8B instruct ๋ชจ๋ธ์ instruction-tuning data ์ต์
- flipped ํน์ ๋ณํ๋ ๋ฐ์ดํฐ
- ์ ์ ๋๊ณ ์ฆ๊ฐ๋ ๋ฐ์ดํฐ (REPAIR-ed)
- REPAIR-ed์ negated relation comparison ์ถ๊ฐ
- dataset: Summarize From Feedback (๋ ์์ฝ๋ฌธ ๊ฐ ํ์ง ๋น๊ต ์ฃผ์ ์์)
- Results and Findings
- REPAIR-ed ๋ฐ์ดํฐ๋ก ํ๋ จํ ๊ฒฝ์ฐ transitivity, commutativity ํฅ์๊ณผ ํจ๊ป human preference alignment ๊ฐ์ ๋ณด์
- negated invariance ํฅ์์ negated relation ํ๋ จ์ผ๋ก๋ง ๊ฐ๋ฅ
Impact of Logical Preference Consistency on Downstream Applications
logically grounded task์ LLM์ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ด ๋ฏธ์น๋ ์ํฅ ํ์ธ
- ์คํ ๋ฐฉ๋ฒ: LLM-as-judge ์๊ณ ๋ฆฌ์ฆ (PairS: ์ด์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ) ์ฌ์ฉ
- ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ์ LLM ์์ฑ ์์์ ์ธ๊ฐ ํ๋จ์ ์๊ด๊ด๊ณ๋ก ์ธก์
- ๋ ผ๋ฆฌ์ ํน์ฑ์ ํฌ๊ฒ ์์กดํ๋ ์๊ณ ๋ฆฌ์ฆ์
- ์คํ ๊ฒฐ๊ณผ
- Phi 3 mini๋ GPT 3.5 turbo์ ๋นํด ์ธ๊ฐ ํ๋จ ์ ํ๋(H.)๋ ๋ฎ์ง๋ง ๋ ๊ฐํ transitivity๋ก ์ฐ์ํ ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ ๋ณด์
- commutativity์ ๋ณด์ ์ผ๋ก ์ธํ ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ ํฅ์ ๊ฐ์ ์๊ด๊ด๊ณ ์กด์ฌ
- ๋ณด์ ์ ์๋ commutativity ๋์ llama 3 8B๊ฐ ์ข์ ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ ๋ฌ์ฑํ๋ ๋ฐ ๋ณด์ ๋ ์๊ตฌ














