SVD - Yonsei ICL Paper Reviews

26 March 2026

Language Model Personalization via Reward Factorization

COLM'25

💡여러 사용자의 선호를 공통된 선호 축(e.g., 친절, 간결, 격식)으로 분해해 학습한 뒤, 새로운 사용자가 들어오면 축마다 다른 가중치를 주어 사용자의 personalized된 선호를 빠르게 추정하자!

RLHF SVD research