What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

Review

닉네임	한줄평	별점 (0/5)
코스피	강점: 선호되는 응답의 Feature를 콕 활성화되도록 Sparsity 기법을 사용하여 해석 가능하게하는 것이 이 논문의 강점 약점: Feature간의 영향력이 유사하여 4개의 Feature를 고를 수 없는 경우에 대해서는 어떻게 방법을 적용할지 궁금함. 제안: 해석 가능성을 위해서 잠재적 특징 축 추출을 증폭하거나, 명확하게 하는 방법이 필요해보임.	4.5
커피	장점 : response의 “차이 임베딩” 을 latent space로 압축하여 선호도의 설명가능성을 보여주는 논문. 실제로 latent space에 임베딩 차원을 ‘압축’ 해 표현하는데 있어서 많은 정보 손실이 있을거라 생각했지만, 검증결과에서 작은 representation으로도 baseline에 크게 뒤지지 않는 수치가 나온 것이 신기했음. 즉, 정보 손실에 비해 얻는 ‘설명가능성’의 가치량이 커보이는 연구라고 생각함. 약점 : latent space에 차원 압축으로 인해 어쩔 수 없이 발생하는 정보 손실. 제안 : 정보 손실은 불가피하지만, 최소화하기 위해서 K와 M에 따른 많은 실험 및 결과가 제시되면 좋을 것 같음.	4.2
얼라	장점: 인간 자신도 본인이 이 응답을 왜 골랐는지를 모를 수 있다는 단점이 있는데, 의미가 있다고 생각함. 또한 본 논문이 주장하는 아이디어의 so what? 에 대한 의문을 데이터 큐레이션 등 써먹을데가 있다는 점에서 기승전결이 참 좋았음 단점: BatchTopK(32,4)가 경험적으로 제일 좋았다고 하는데 왜 좋은지 의문임. 좀 더 latent space의 크기를 늘렸으면 더 미묘한 차이를 잡아낼 수 있지 않았을까? 제안: M과 K를 다르게 한 실험을 보였으면 더 좋았을 것 같음	4.2
비요뜨	장점: 지금까지는 선호 데이터를 그대로 믿고 사용했는데 이것을 '왜' 골랐는지는 왜 생각하지 못했을까! 또한 '데이터를 다양하게 사용하면 일반적으로 좋다~' 라는 직관이 있는데, 데이터 다양성이 항상 이득은 아니고, 서로 상충하는 선호 신호가 섞일 수 있음 약점: SAE가 response pair의 임베딩 차이에 기반해서만 feature를 학습하기 때문에, response의 선호 여부가 prompt 맥락에 따라 달라지는 경우는 포착하지 못할듯 제안: prompt의 정보를 임베딩이나 feature 분석 차원에 반영할 수는 없을까? 그리고 M, K에 대한 더 실험이 있어도 좋을것 같음	4.3
칫솔	강점: 자동으로 선호 특성 발견하고자 하는 목표와, 이에 SAE 사용하는 방법이 잘 맞음 약점: 선호 예측 성능은 소수 SAE latent 사용하는만큼 많이 높기 어려움 제안: 해석 가능성을 중요시하고 있는만큼, 자동 발견한 선호 특성에 대한 분석이 좀더 있으면 좋았을듯 (기존에 정의하던 선호 특성과 차이점, 기존 LLM이 이를 잘 따르고 있는지)	4.3
설향딸기	강점: 선호도 데이터를 왜, 그렇게 선호도가 결정되었고, 모델이 무엇을 학습하기를 원하는지 보여주는 것. 너무 중요하고, 명확한 motivation임. 약점: 우리가 사람이니까 그렇긴 하지만, 굳이 자연어 단계에서 그 설명을 보고, 이해해야 하나? 그냥 모델만 알아도 되지 않나? 라는 생각이 들었음. 제안: 모델과 사람의 선호도 차이가 분명히 있을텐데, 사람관점에서만 본 것 같다. 모델 관점에서 고려도 필요하지 않나?	4.8
나스닥	장점: 인간의 생각을 모델단에서 해석하는 것은 언제나 흥미로움! 특히 LLM을 사용해서 자연어로 해석할 수 있게 해서 더 임팩트 있음 이걸로 실제 데이터셋에 대한 분석을 했다는 것 까지 해서 아주 soundness함!!! 이걸 4명이서 했다고? 단점: 솔직히 그냥 3b finetuning 시켜서 쓸거같음 요새 그게 부담스러운 cost도 아니고 굳이 SAE로 해석해야하나? 생각이 듦 제안: 더 challenging한 환경에서 SAE로 분석해야만 얻을 수 있는 해석에 대해 도출 할 수 있으면 좋을 것 같음!	5
404	강점: 제목부터 실험까지 모두 다 재밌다!!! 모든 내용이 다 reasonable해서 막히는 부분 없이 술술 읽혔음. 단점: `Validating Learned Features` 부분에서 성능이 좀 아쉽다? 제안: `Do I know this entity?` 논문에서처럼 SAE 관련 분석이 추가되면 좋을듯	5
국밥	강점: 자연어로 feature를 설명하는 단계에서 LLM을 활용하는 것이 흥미롭고 사람이 직접 레이블링한 이유 설명과 60% 이상 일치한다는 점에서 설득이 되는것 같다 약점: 검증에서 외부 ML 연구자 3명에게 평가받는 방식은 규모가 작고 ML 전문가에 한정되는것 아닐까? 제안: 평가자 도메인을 넓혀서 실험	4.5
AI	강점: Reward 모델은 예측자체는 잘하지만 왜 응답을 선택했는지 모르는데, 데이터 해석문제를 직접적으로 다룬다는 점에서 interpretability 측면의 강점이 존재 약점: response 간 임베딩 차이를 고려할 떄 prompt 내 도메인 지식이 다소 약하게 반영될 수 있다 제안: Prompt에 conditioned된 feature 생성을 위해 데이터셋마다 따로 학습하는것이 아닌 foundation model을 제안할 수 있음	4.6

TL; DR

💡

SAE를 통해 preference dataset에서 두 응답 간 선호를 결정짓는 잠재적 특징(feature) 축을 자동으로 추출하고, 어떤 응답 특성이 인간의 선호를 결정하는지 자연어로 해석 가능하게 설명하는 WIMHF 방법론을 제안

Link: https://arxiv.org/abs/2510.26202

Cited: 0

Github: https://github.com/rmovva/wimhf

ICLR’26 Oral

Related Paper: https://arxiv.org/abs/2411.14257
- 정리: 🥇Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

Preliminary

Autoencoder

정의: 입력 데이터를 압축하여 핵심 특징을 추출하고, 이로부터 원래 데이터를 최대한 유사하게 복원하도록 학습하는 신경망
ref https://velog.io/@jochedda/%EB%94%A5%EB%9F%AC%EB%8B%9D-Autoencoder-%EA%B0%9C%EB%85%90-%EB%B0%8F-%EC%A2%85%EB%A5%98

구성요소
- Encoder:
  - 목표: 입력 $x$ 를 저차원 표현 $z$ 로 압축
  - 불필요한 정보(노이즈)를 버리고, 중요한 특징만 남게끔
- Decoder:
  - 목표: 압축된 저차원 표현 $z$ 를 다시 원본 입력 $x$ 과 최대한 비슷한 데이터 $y$ 로 복원
- 잠재 공간 (Latent Space / Bottleneck):
  - 인코더에 의해 압축된 저차원 표현 $z$ 가 존재하는 공간
  - 데이터의 핵심적인 특징이 응축되어 있음
  - 가장 낮은 차원이기 때문에 병목(bottleneck)이라고도 불림

학습목표
- 인코더와 디코더를 잘 학습시켜서
  1. 입력 데이터를 압축 후 최대한 유사하게 데이터를 복원
  1. 이 과정에서 모델은 데이터의 불필요한 노이즈를 제거하고 데이터를 설명하는 가장 중요한 특징이 무엇인지 스스로 학습

Sparse Autoencoder (SAE)

정의 입력 벡터를 latent 공간으로 변환한 뒤 다시 복원하도록 학습하되, latent 벡터의 대부분을 0으로 만들고 소수의 뉴런만 활성화되도록 강제하는 오토인코더

소수의 뉴런만 켜져있기 때문에 sparse 하다고 함

Why Sparse Autoencoder?
- 일반 오토인코더는 데이터를 압축(차원 축소)하지만, SAE는 차원 축소/확장 모두 가능함!
  ⇒ 그 소수의 latent vector만 켜지도록 만들어 각 latent가 뚜렷한 의미 하나씩 담당하도록 유도함으로써
  복잡한 데이터를 해석 가능한 개념 단위로 분해

Introduction

Background

Preference Fine-Tuning, PFT
- LLM alignment의 핵심 방법
- 인간의 선호 데이터를 활용하여 모델을 align

PFT 작동원리
```
Prompt → (Response A, Response B) → Human이 더 나은 응답 선택 → 모델 학습
```
- 하나의 Prompt에 대해 생성된 두 개의 후보 응답 중에서 인간은 하나의 응답을 선택
- RQ 인간은 두 응답 중 왜 특정 응답을 선택했을까?

Motivation & Contribution

RQ 인간이 어떠한 특성(fea을 기준으로 선호 응답 데이터를 고를까?

기존 방법의 한계
- Reward model은 선호를 예측할 수 있지만 어떤 특성이 선택을 유도했는지 설명하지 못함
- 그렇다고 특성(e.g., 정중함, 유머 등)을 사전에 정의하는 방식은 발견 가능한 특성을 제한할 수 있음
⇒ WIMHF Method 제안
- 가설을 사전에 정의하지 않고 데이터로부터 자동으로 선호 특성을 발견
- Sparse Autoencoder(SAE)를 통해 응답 간 차이를 해석 가능한 feature로 분해

Preference Dataset $D$ 는 다음과 같은 분포에서 샘플링된 데이터 $(p, r_A, r_B, y)$ 형태로 구성됨

Preference Dataset의 생성 분포

(p, r_A, r_B, y) \sim \underbrace{Pr(p)}_{\text{(1) prompt dist.}} \cdot \underbrace{Pr(r_A, r_B \mid p)}_{\text{(2) response dist.}} \cdot \underbrace{Pr(y \mid r_A, r_B, p)}_{\text{(3) label dist.}}

$p$ : 프롬프트 by 인간

$r_A$ , $r_B$ : 프롬프트에 대한 2개의 응답 by LLM

$y$ : 라벨 ( $r_A$ 를 고를 경우 y=1, $r_B$ 를 고르면 y=0) by 인간

⭐ Measurable Preferences

정의: 두 응답 $r_A$ , $r_B$ 간 차이를 설명하는 축
- e.g., $r_A$ 는 친절, $r_B$ 는 무뚝뚝 …
  $r_A$ , $r_B$ 를 구분 짓는 Measurable Preferences의 자연어 설명 예시

문제점: Measurable Preferences를 측정할 수 있는 도구가 없음
- 두 응답을 각각 텍스트 임베딩으로 변환 후 차이를 구하는 방식은 의미는 있으나 설명 불가

⭐ Expressed Preferences

정의: 라벨 $y$ 를 실제로 예측하는 특성
- 많은 measurable preference 중에서 실제로 선택에 영향을 미친 특성
- e.g., $r_A$ 가 secular(세속적)이고 $r_B$ 는 아닐 때, $r_A$ 가 더 자주 선택(prefer) 된다면
  → expressed preference: secular

⭐ Expressed preference를 알아야 모델이 어떠한 목표로 정렬되고 있는지 알 수 있음!!

Method: WIMHF

3 Step Method
1. SAE를 학습하여 Measurable Preferences (vector 형태) 추출
1. 각 feature에 대한 자연어 설명 생성
1. 어떤 feature가 실제로 선호 라벨을 결정하는지 (Expressed Preferences) 분석

Step 1: Learning measurable preferences with SAEs

목표 preference pair ( $p$ , $r_A$ , $r_B$ )를 입력으로 받아 measurable preferences을 찾자!
- (두 응답이 어떠한 특성을 기준에서 다른가를 알아보자!)
- 두 응답의 텍스트 임베딩 차이인 $e_\Delta (e_{r_A} - e_{r_B})$ 만으론 선호의 기준에 대한 설명 가능성이 부족
  ⇒ $e_\Delta$ 의 SAE를 구한 뒤 BatchTopK(32,4) 기법 적용!
  - BatchTopK (M,K): SAE을 통해 변환된 M차원 latent 벡터 중 K개만 활성화되도록 만드는 sparsity 기법
    batchTokK (32,4): 32차원으로 축소된 latent vector에서 4개만 activate

작동 원리

eΔ (1536차원 by text-embedding-3-small)
↓
SAE encoder
↓
32차원 z
↓
BatchTopK sparsity (32,4)로
↓
평균 4개만 활성화
↓
최종 sparse representation Z (하나의 데이터 당 4개의 latent vector만 활성화)

최종 Z의 구조 ( $N \times M$ 행렬)
$Z = \begin{bmatrix} z_1^{(1)} & z_2^{(1)} & \dots & z_M^{(1)} \\ z_1^{(2)} & z_2^{(2)} & \dots & z_M^{(2)} \\ \vdots & & & \vdots \\ z_1^{(N)} & z_2^{(N)} & \dots & z_M^{(N)} \end{bmatrix}$
- 각 행 당 4개의 latent vector 만 activation 됨
  - row: 각 데이터 $z^{(i)}$ 의 희소 표현
  - column: 데이터를 나타내는 하나의 feature $z_j$

Step 2: Describing measurable preferences in natural language

목표: step1에서 얻은 최종 표현 $Z$ 를 통해 각 feature가 대응하는 인간이 해석 가능하도록 학습

작동원리
1. 각 feature $z_j$ 에 대해 해당 값이 큰 preference pair 5개를 샘플링
  - $z_j$ 가 크다 ⇒ 두 응답 쌍의 차이 $e_{\Delta}$ 가 크다 ⇒ 두 응답쌍을 구분하기 쉬움!
1. LLM (gpt-5-low)에게 두 응답을 가장 잘 구분하는 개념(Measurable Preference)를 자연어 설명으로 생성하도록 함
  Reddit 데이터셋에 대한 LLM이 생성한 자연어 설명 예시
⇒ 이 과정을 통해 해당 feature가 활성화되는 원인에 대한 자연어 설명이 생성

Step 3: Identifying expressed preferences

목표: 해석 가능한 각 feature $z_j$ 가 선호 라벨 $y$ 에 얼마나 영향을 미치는지 로지스틱 회귀로 추정
$Pr(y = 1) = \sigma(\alpha + \beta_j z_j + \gamma x)$
- $r_A$ 가 선택될 확률 $Pr(y=1)$ ⇒ 특징 $z_j$ 의 영향 + 길이 $x$ 차이의 영향
  - $x=length(r_A)−length(r_B)$
  - 답변이 길면 더 선호되는 경향이 있으므로 페널티 부여

$β_j$ : $z_j$ 가 선호에 얼마나 영향을 줬는지

if) $β_j$ > 0
- $z_j$ 가 클수록 $r_A$ 가 선택될 확률 증가

if) $β_j$ < 0
- $z_j$ 가 클수록 $r_A$ 가 선택될 확률 감소

$|β_j|$ 가 클수록 그 특징이 선호도에 미치는 영향이 강함

Validating Learned Features

SAE를 통해 생성된 Feature들이 정말 의미가 있는지를 3가지 방법으로 검증
- 1. 선호도 예측 성능
  settings
  baseline
  Finetuned Reward Model (Oracle)
  Llama-3.2-3B reward model
  preference dataset으로 직접 finetuning
  Embedding (P+R)
  입력: prompt + response embedding $e_{p,r}$ 을 feature로 사용
  Embedding (R)
  입력: response embedding $e_r$ 만 사용
  SAE
  metric
  AUC (Area Under the Curve): 분류 모델이 얼마나 잘 구별하는지 측정하는 지표
  AUC 값 의미
  0.5 랜덤
  0.7 괜찮은 수준
  1.0 완벽한 예측
  실험결과
  Reward Model이 가장 높은 성능
  reward model은 대형 LLM + finetuning라 어쩔 수 없음(못이김)
  ⭐ SAE 성능은 baseline들보다 약간 낮은 성능
  SAE feature는 32차원 평균 4개만 활성화된 매우 작은 representation 임에도 불구하고 좋은 성능!
- 2. 사람이 쓴 설명과 일치하는가?
  Settings
  CA dataset에는 annotator가 왜 해당 응답을 선호했는지 직접 쓴 자연어 설명이 있음
  WIMHF는 이 설명을 보지 않고 특징을 학습
  총 5000개의 preference pair를 샘플링 후 실험
  metric
  Explanation match rate: LLM judge가 annotator explanation과 SAE feature가 일치하는 비율
  LLM judge가 사용한 Prompt
  baseline
  Top Features
  실제 활성화된 SAE feature 4개
  Random Features
  랜덤으로 선택된 비활성 feature 4개
  실험 결과
  사람도 자기 판단 이유를 정확히 설명하기 어렵고, 설명이 짧거나 노이즈가 많은데 60.4%로 높은 수치
  실제 annotator와 SAE Feature의 답변 선호 이유 설명 예시
- 3. 전문가 정성 평가
  settings
  외부 ML 연구자 3명을 모집
  5개 데이터셋에서 통계적으로 유의미한 특징 47개를 평가
  평가 기준: Predictive, Helpful, Interpretable
  실험 결과
  47개 중 41개 (87%) → "도움이 된다" 평가
  47개 전부 (100%) → "해석 가능하다" 평가

AUC 값	의미
0.5	랜덤
0.7	괜찮은 수준
1.0	완벽한 예측

Experiment

Datasets
- 데이터셋 (볼드체 데이터셋 위주로 실험)
  - LMArena
  - Community Alignment (CA)
  - HH-RLHF
  - PRISM
  - Reddit
  - PKU-SafeRLHF
  - Tulu 3 mixture
(코딩, 수학과 같이 객관적인 답을 갖는 유형의 쿼리는 삭제)

dataset에 따른 Measurable Preferences 차이

두 데이터셋 모두 가치관 기반 대화를 지시했지만, 학습된 특징이 전혀 다름
- PRISM 특징
  - 답변들이 대답을 거부하는가 vs 답변하는가 또는 스타일과 톤에서 큰 차이
    e.g., 낙태나 종교 같은 민감한 질문에 어떤 답변은 회피하고, 어떤 답변은 구체적으로 대답
  - why?
    21개의 서로 다른 LLM 모델들을 사용해 답변을 무작위로 뽑아냈기 때문에 모델마다 대답하는 스타일과 거부 기준이 다름
- CA 특징
  - 답변들이 거부 여부보다는 어떤 주제와 가치관을 말하는가에 집중
    e.g., 환경 문제 vs 사회 정의, 긍정적 태도 vs 비판적 태도)에서 차이를 보임
  - why?
    1개의 동일한 LLM을 사용하되, 프롬프트로 "각기 다른 4가지 가치관으로 대답해봐"라고 직접 지시했기 때문 ⇒ 말투(스타일)는 비슷하지만 내용은 다양함

dataset에 따른 Expressed Preferences 차이

x축 (Δ win-rate): 오른쪽(+)일수록 그 특징이 있는 응답이 더 선호됨, 왼쪽(-)일수록 덜 선호됨

각 점: 5개 데이터셋(ChatbotArena, CommunityAlign, HH-RLHF, PRISM, Reddit)

실험 결과
- 구조적 포맷을 갖는 응답은 보편적으로 선호됨
  - "대부분의 데이터셋에서 +방향 (CommunityAlign에서 +40%정도로 큰 선호도)
- 불확실성 표현, 모르겠다고 말하기는 보편적으로 비선호됨
  - 사람들은 AI가 모른다고 하는 것을 싫어하구나!
  - Reddit에서 -25% 수준으로 가장 강하게 비선호됨
- 대비되는 선호들
  - 비공식적이고 표현적인 톤(농담, 이모지)
    PRISM은 -30% 수준으로 매우 비선호/ChatbotArena, Reddit은 약간 선호
  - 시스템적 불평등, 형평성 논의
    CommunityAlign, HH-RLHF은 비선호/PRISM, Reddit은 선호
  ⇒ 범용 선호 모델은 존재하지 않음!!
  REDDIT 데이터셋에선 선호되는 응답일지라도 다른 데이터셋에선 비선호될 수 있음

Effective Data Curation (WIMHF를 통해 데이터를 잘 골라보자!)

문제 Arena 데이터셋에서

$r_A$ : 안전하게 답변 거부

$r_B$ : unsafe 콘텐츠 생성

But, 사람들이 $r_B$ 를 선호하는 경향을 보임
→ 이 데이터로 모델을 학습시키면 unsafe한 모델이 만들어짐

해결 레이블 플리핑(Label Flipping)

WIMHF로 unsafe가 강하게 활성화된 예시들을 찾아서 해당 예시들의 선호 레이블을 반대로 뒤집음
- $r_B$ 선호 → $r_A$ 선호로 수정

실험 결과
- 레이블을 많이 뒤집을수록 Safety가 8.9% → 46.2%로 급격히 상승
- + 레이블을 뒤집어도 전반적인 성능은 거의 변화 없음 ⇒ very nice!
  - x축:Safety 초록, Overall (Safety를 제외한 전반적인 성능 파랑
  - y축: RewardBench 2 Accuracy (%): Reward model 평가하는 벤치마크
    왼쪽 (Safety): 안전성 관련 문제에서의 정확도
    오른쪽 (Overall excl. Safety): 안전성 제외 전반적 정확도

Preference Dataset 특징을 아는 것이 왜 중요할까?

데이터셋의 편향(Bias) 발견
- Preference dataset에는 스타일, 표현 방식 같은 숨은 편향이 포함될 수 있음
⇒ 데이터셋이 의도하지 않은 방향으로 모델을 학습시키는 문제를 발견 가능

데이터셋 간 충돌 발견
- 서로 다른 dataset은 humor, tone, refusal 같은 feature에 대해 서로 다른 선호를 가질 수 있음
⇒ 이를 분석하여 여러 preference dataset을 섞어 학습할 때 발생하는 충돌 문제를 발견 가능

개인화(Personalization) 가능
- 사람마다 선호하는 스타일이 다름
- e.g.,
  - bullet list vs paragraph
  - formal tone vs informal tone
⇒ 선호 feature를 분석해서 사용자별 개인화된 모델을 만들 수 있음

Yonsei Univ. ICL

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

💡SAE를 통해 preference dataset에서 두 응답 간 선호를 결정짓는 잠재적 특징(feature) 축을 자동으로 추출하고, 어떤 응답 특성이 인간의 선호를 결정하는지 자연어로 해석 가능하게 설명하는 WIMHF 방법론을 제안

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

Review

TL; DR

Preliminary

Introduction

Background

Motivation & Contribution

Preference Dataset의 생성 분포

⭐ Measurable Preferences

⭐ Expressed Preferences

Method: WIMHF

Validating Learned Features

Experiment

Preference Dataset 특징을 아는 것이 왜 중요할까?

Categories