26 March 2026
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games
COLM'25
๐กํ์ฌ์ ์ถ๋ก ์ต์ ํ๊ฐ ํ๋ ฅ์ ๋ณ๋๋ก ์ ๋ ฌ์ํค์ง ์๋๋ค๋ฉด, ํ๋ ฅ์ด ์๋ ํฉ๋ฆฌ์ ์ด๊ธฐ์ฃผ์๋ฅผ ํ๋ฐฉํ๋ ๊ฐ์ธ์ฃผ์ ๋ชจ๋ธ์ด ํ์ํ ์ ์๋ค!์ฆ, ์ถ๋ก ๋ฅ๋ ฅ๊ณผ, ํ์ ๋ฅ๋ ฅ(๋น์ฉ ๊ฐ์ ์ธก๋ฉด)์ ๋ณ๊ฐ๋ค!
19 March 2026
OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
ICLR'26 Poster
๐ก๋ค์ค preference ์ต์ ํ ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ๊ณต๊ฐ์ orthogonal subspace๋ก ๋ถํดํ์ฌ, objective ๊ฐ ๊ฐ์ญ์ ์์ฒ์ ์ผ๋ก ์ ๊ฑฐํ์
19 March 2026
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
COLM'25
๐กPost-training ํ ๋ชจ๋ธ ๋ด๋ถ ์ง์, ์ง์ค์ฑ, ์์ ์ฑ, ํ์ ์ฑ์ ๋ณํ๋ฅผ ๊ธฐ๊ณ์ ์ผ๋ก ๋ถ์!