19 March 2026
OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
ICLR'26 Poster
๐ก๋ค์ค preference ์ต์ ํ ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ๊ณต๊ฐ์ orthogonal subspace๋ก ๋ถํดํ์ฌ, objective ๊ฐ ๊ฐ์ญ์ ์์ฒ์ ์ผ๋ก ์ ๊ฑฐํ์
19 March 2026
Multiplayer Nash Preference Optimization
ICLR'26 Poster
๐กalignment๊ฐ ๊ฐ์ ธ์ผ ํ ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ ๊ฐ์น ๋ฐ ์ ์ฑ ์ง๋จ ์์์ ๊ทธ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ์์ ์ ๊ท ํ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด๋ค!
19 March 2026
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
COLM'25
๐กPost-training ํ ๋ชจ๋ธ ๋ด๋ถ ์ง์, ์ง์ค์ฑ, ์์ ์ฑ, ํ์ ์ฑ์ ๋ณํ๋ฅผ ๊ธฐ๊ณ์ ์ผ๋ก ๋ถ์!