Yonsei Univ. ICL

21 January 2026

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models

💡LLM의 논리적 선호도 일관성을 정의하고, 관련 훈련 데이터 증강 방식을 제안하여, 논리 선호도 일관성과 논리 태스크 수행능력 증진

research

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models

Review

닉네임	한줄평	별점 (0/5)
계란초밥	간단명료한 방법으로 uncertanity, faithfulness를 잡은 논문! 단순 부정문 이외의 “logic” 키워드를 잘 활용하면 더 다양한 방법으로 선호도 일관성을 정의할 수 있을 것 같음	3.6
맹구	LLM의 예측 일관성은 중요하다고 생각함. LLM이 논리에 적합하지 않다라는 내용이 계속 생각나는데, 키워드가 너무 비슷해서 신기했음. 논리는 데이터셋을 증강하고 생성하기에 적합한 방법인 것 같다. 참고하기 좋을 것 같음.	3.7
국밥	Measuring the Inconsistency of Large Language Models in Ordinal Preference Formation 논문에서도 3가지 논리 불변성을 고려하는데 확실히 데이터 증강에 있어 차별점이 있는거같다. 부정형은 새로운 문장 구조라 따로 훈련안하면 성능이 차이 없는것도 이해됨	3.9
햄버거	LLM 신뢰성을 따질 때 정확도 기반이 아닌 논리적 일관성으로 보는것이 더 타당해 보이긴 함. CoT가 항상 consistency를 개선하지 않고 오히려 reasoning 과정 자체가 오히려 판단의 안정성을 흔들수 있겠구나	3.8
피자	LLM의 논리적 일관성이 흔들리지 않는지 판단하는 것에 이 연구의 의미가 있다고 봄. 논리 그래프 및 Item의 순서에 따른 일관성을 분석한 것이 이 논문의 차별점이고 후속 연구가 좀 더 진행되면 좋을 것 같음.	3.9
치킨	개인적으로 llm 신뢰에 있어서 llm의 일관성이 되게 중요하다고 생각하는데 3가지 속성을 통해 robustness를 측정하는 방식은 설득력 있다고 생각함. 또 실험을 통해 일관성이 올라가면 알고리즘 성능도 향상된다는 점이 논문의 설득력을 높였다고 생각함	4.1
페브리즈	인간 선호도에 정렬된다는 게 꼭 논리적으로 일관되게 잘 추론한다는 건 아니니까, 그런 면에서 선호도 정렬의 부족한 측면을 잘 보완한 듯하다. 논문이 논리적 일관성의 정의부터 설명 위한 그림 등 깔끔히고 명확해서 전달력 좋은 논문이라 생각했음	4.1

TL; DR

💡

LLM의 논리적 선호도 일관성을 정의하고, 관련 훈련 데이터 증강 방식을 제안하여, 논리 선호도 일관성과 논리 태스크 수행능력 증진

Summary

Introduction

Motivation

예측 일관성은 LLM의 신뢰성에 있어 중요한 요소
- 본 논문에서는 특히 LLM의 논리적 선호도 일관성을 탐구
- 논리적 선호도 일관성은 구조화된 추론과 일관된 의사결정에 중요

Contribution

LLM의 논리적 선호도 일관성의 중요성 강조
- 세가지 핵심 일관성 속성을 수학적으로 정의

최신 LLM의 논리적 선호도 일관성 평가하고 모델 신뢰성과 상관관계 분석

지시문 튜닝으로 데이터 정제하고 증강하는 방법 제안하여 논리적 선호도 일관성 향상

논리 알고리즘 태스크에서 LLM의 논리적 일관성 개선이 성능 향상에 기여함을 입증

Measuring Logical Consistency

논리적 선호도 일관성 평가 방법: 논리적으로 일관된 관계를 예측하는 능력 평가
- LLM이 item pair 비교하여 item 간 relation 결정하도록 함
  $F(x_1, x_2) = r$
  - $(x_1, x_2)$ : item pair
  - $F$ : item pair 비교하여 relation 예측하는 함수 (LLM)
  - $r$ : 방향성 있는 논리적 선호 관계
    $r_{ij}$ : $x_i \succ x_j$ , 즉 item $x_i$ 가 $x_j$ 보다 선호됨
    $r_{ji}$ : $x_j \succ x_i$

item set $X$ 에 대해 다음 속성 고려하여 논리적 일관성 평가
- transitivity: 맥락 변화 있을 때의 일관성(변화 전후의 판단이 모순되지 않음)
- commutativity: 순서 변동 있을 때의 일관성
- negation invariance: relational negation 할 때의 일관성

Measuring Transitivity

transitivity: $A \succ B$ and $B \succ C$ → $A \succ C$
- $F(x_i, x_j) = r_{ij}$ and $F(x_j, x_k)=r_{jk}$ → $F(x_i, x_k) = r_{ik}$
- item set $X$ 의 relational graph에 cycle 존재 여부가 transitivity 나타냄
  cycle이 non-transitive 특성 나타냄: x_1→x_2, x_2→x_3 인데 x_3→x_1

metric (0~1 값 가짐)
- $S_i^K$ : item set에서 샘플링된 크기 $K$ 의 랜덤 표본 서브그래프
- $M$ : 샘플링된 총 서브그래프 수 (최대 1,000)
- $K$ (서브그래프 크기) 설정 이유: transitivity 유지 어려운 정도와 관련되기 때문
  - K개 item set에서 item pair는 2K개 조합 존재, 이 중에서 transitive rank는 K! 개 가능
  - 이에 공정한 비교 가능하도록 K를 고정하고 지표 측정

Measuring Commutativity

commutativity: 프롬프트 내 item 순서 바꿨을 때 모델의 판단이 일관되는지
- A : $x_i \succ x_j$
- B : $x_i \prec x_j$
- ⇒ 빨간색 실선: commutativity conflict 나타냄

metric (0~1 값 가짐)
- 맨 앞의 normalization term: 모든 쌍별 조합에 대해 평균 냄

Measuring Negation Invariance

negation invariance: relational statement를 negation 혹은 inversion 할 때 모델 판단이 일관된지
- A, B notation은 commutativity와 동일
- ⇒ 보라색 점선: negation conflict 나타냄

metric (0~1 값 가짐)
- $\overline{F}$ : negated relation이 명시적으로 프롬프팅될 때 모델의 판단
- $\neg F$ : 원래 relation에 대한 모델의 판단의 negation
- 맨 앞의 normalization term: 모든 쌍별 순열에 대해 평균 냄

Evaluating Logical Consistency of LLMs

세가지 태스크에서 LLM의 판단 일관성 평가

Evaluation Setup

Dataset
- abstractive summarization evaluation (SummEval): 요약문 간 선호도 판단
- document reranking (NovelEval): 질문에 대한 응답으로 검색된 문서의 관련성 판단
- temporal event ordering (CaTeRS): 이벤트 간 시간적, 인과적 관계 판단

Metric
- logical consistency metric: 인스턴스 수준에서 계산하여 테스트셋의 평균값 기록
- human aggrement rate (H.): LLM 판단과 인간 주석 간 쌍별 판단 정확도
- self-agreement: 여러 샘플에 걸쳐 다수 판단과 일치하는 출력의 비율 (0.5~1 값 가짐)

Results and Analysis

Gemma2 9B, Phi3 medium 같은 최신 LLM이 이전 모델에 비해 강한 일관성 보임

한 측면에서의 강한 일관성이 다른 측면에서도 강한 일관성 보장하지 않음
- Mistral 7B: transitivity에 강하지만 다른 일관성 측면에서 약함

CoT 추론이 일관성 개선하지 못하며 일부 경우 transitivity 하락시킴
- 추가적인 CoT 토큰 도입이 판단 기준에 혼동 주기 때문일 수 있음

Consistency and Reliability

세 데이터셋 모두에서 transitivity와 self-agreement 간 강한 상관관계 존재
- transitivity가 LLM의 견고성 평가하는 유용한 대리 지표로 사용될 수 있음

commutativity와 human preference의 강한 상관관계 존재
각 데이터셋에 대해 gpt 4 turbo로 각색한 10개 비교 프롬프트 사용하여 두 지표 산출
- commutativity는 position bias와 관련되고 위치 편향은 정렬에 상당한 영향 미치기 때문일 수 있음 (기존 연구 결과)

Improve Logical Preference Consistency in LLMs via REPAIR

REPAIR (Ranking Estimation and Preference Augmentation through Information Refinement): LLM 비일관성 완화하기 위한 프레임워크
1. 노이즈 존재하는 preference data에서 ranking 추정
1. 추가적인 conflict-free pairwise comparison 생성
- ⇒ human preference와 alignment 유지하면서 logical preference coherence 강화
- → logical operator로서 LLM의 신뢰성 강화

Estimating Rankings from Noisy Pairwise Data

noisy pairwise annotation에서 ranking 추정하는 방법: win-loss rate 사용
- item의 win-loss rate:
  $\frac{\#\text{wins} - \#\text{losses}}{\#\text{total comparisons}}$
1. item을 win-loss rate 값으로 정렬
1. 정렬 결과로 self-consistent pairwise comparison set 구성
- 이에 negated relation과의 비교 추가함으로써 증강할 수 있음

Experiments

Experimental Setup
- dataset: Summarize From Feedback (두 요약문 간 품질 비교 주석 있음)
  - → 제안한 데이터 정제 및 증강 방법으로 쌍별 비교의 일관성과 양 개선하여 실험
- llama 3 8B instruct 모델의 instruction-tuning data 옵션
  - flipped 혹은 변형된 데이터
  - 정제되고 증강된 데이터 (REPAIR-ed)
  - REPAIR-ed에 negated relation comparison 추가

Results and Findings
- REPAIR-ed 데이터로 훈련한 경우 transitivity, commutativity 향상과 함께 human preference alignment 개선 보임
- negated invariance 향상은 negated relation 훈련으로만 가능

Impact of Logical Preference Consistency on Downstream Applications

logically grounded task에 LLM의 논리적 선호도 일관성이 미치는 영향 확인

실험 방법: LLM-as-judge 알고리즘 (PairS: 이전 연구 결과) 사용
- 알고리즘 성능은 LLM 생성 순위와 인간 판단의 상관관계로 측정
- 논리적 특성에 크게 의존하는 알고리즘임

실험 결과
- Phi 3 mini는 GPT 3.5 turbo에 비해 인간 판단 정확도(H.)는 낮지만 더 강한 transitivity로 우수한 알고리즘 성능 보임
- commutativity와 보정으로 인한 알고리즘 성능 향상 간에 상관관계 존재
  - 보정 전에도 commutativity 높은 llama 3 8B가 좋은 알고리즘 성능 달성하는 데 보정 덜 요구

Categories

research