27 March 2026
Shared Global and Local Geometry of Language Model Embeddings
COLM'25
๐ก๊ฐ์ ๊ณ์ด์ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฐจ์์ด ๋ฌ๋ผ๋ token embedding์ ๊ตฌ์กฐ๊ฐ ๊ต์ฅํ ๋น์ทํ๋ค! ๊ทธ๋์, ํ ๋ชจ๋ธ์์ ๋ง๋ค์ด๋ธ steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์์ ์ ํ๋ณํ๋ง์ผ๋ก ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ๋ค!์: 1B, 3B์์ helpfulness๋ฅผ ์ฌ๋ฆฌ๋๋ก ํ๋ vector๋ฅผ ์ฐพ๊ณ ๋์, 8B๋ก ๊ทธ๋๋ก ์ฎ๊ฒจ์ ์ธ ์ ์์!
26 March 2026
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
COLM'25
๐ก๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ reasoning ๊ฒฝํฅ์ ์ํํ์!โ reasoning process๋ฅผ ์ธ๋จ๊ณ๋ก ๋ถ๋ฅํ๊ณ , ๊ทธ ์ค์ ์ด๋ค ๊ฑธ ์ค์ฌ์ผ ํ ์ง ๋ถ์ํ์
19 March 2026
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
COLM'25
๐กPost-training ํ ๋ชจ๋ธ ๋ด๋ถ ์ง์, ์ง์ค์ฑ, ์์ ์ฑ, ํ์ ์ฑ์ ๋ณํ๋ฅผ ๊ธฐ๊ณ์ ์ผ๋ก ๋ถ์!