SAE

이승환
19 March 2026

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

ICLR'26 Oral

💡SAE를 통해 preference dataset에서 두 응답 간 선호를 결정짓는 잠재적 특징(feature) 축을 자동으로 추출하고, 어떤 응답 특성이 인간의 선호를 결정하는지 자연어로 해석 가능하게 설명하는 WIMHF 방법론을 제안