Yonsei Univ. ICL

Blog

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

19 March 2026

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

ICLR'26 Poster

💡다중 preference 최적화 시 파라미터 업데이트 공간을 orthogonal subspace로 분해하여, objective 간 간섭을 원천적으로 제거하자

ALIGNMENT MPA research

Multiplayer Nash Preference Optimization

19 March 2026

Multiplayer Nash Preference Optimization

ICLR'26 Poster

💡alignment가 가져야 할 목표는 보상을 최대화하는 것이 아니라, 다수 가치 및 정책 집단 속에서 그 누구에게도 지지 않는 안정적 균형 상태를 가지는 것이다!

DPO RL research

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

19 March 2026

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

COLM'25

💡Post-training 후 모델 내부 지식, 진실성, 안전성, 확신성의 변화를 기계적으로 분석!

ALIGNMENT PROBING research

Showing page 8 of 21 pages