19 March 2026
EigenBench: A Comparative Behavioral Measure of Value Alignment
ICLR'26 Oral
💡모델의 주관적 성향을 다른 모델의 성향과 비교하여 순위를 매기고, 신뢰도 벡터로 수치화하여 신뢰성을 판단하고, 모델마다 판단의 기준 차이를 확인할 수 있다!
19 March 2026
Diffusion Alignment as Variational Expectation-Maximization
ICLR'26 Poster
💡Diffusion 모델을 목적 함수에 맞게 diffusion alignment할 때 발생하는 reward over-optimization 과 mode collapse 문제를 EM알고리즘 (E단계(test time search) → M단계(forward-KL)의 반복)으로 해결하자!
19 March 2026
Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling
ICLR'26 Poster
💡RLHF나 DPO와 같은 방법들은 Pairwise(쌍) Preference Optimization에 맞춰져 있어, 더 자세한 정보(Human Feedback)를 학습할 기회를 간과한다.⇒ Response에 대해 Pairwise뿐만 아니라, 그 이상까지 rank를 매겨 모델에 학습을 시켜보자.