27 March 2026
How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability
ICLR'26 Oral
๐กํธ๋์คํฌ๋จธ๋ ํ์ต ์ด๊ธฐ์ 3๊ฐ์ง ๋ฐฉ์์ ํต๊ณ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ค์น์ ์ง์ ๋ฐ์ํ๋ฉฐ, ์ด๋ค์ ์กฐํฉ๋ง์ผ๋ก ์๋ฏธ์ ๊ด๊ณ์ ์ดํ ์ ์ด ํ์ฑ๋จ
27 March 2026
Hallucination Begins Where Saliency Drops
ICLR'26 Oral
๐กHallucination์ ์ค์ด๊ธฐ ์ํด Attention map๋ง๊ณ ๋ Saliency map์์ gradient๊ฐ ์ค์ด๋๋ ๋ถ๋ถ์ ํ์ธํด์ผ ํ๋ค!
27 March 2026
FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS
ICLR'26 Poster
๐ก์ธ์ด ๋ชจ๋ธ์ โ๋ฌด์โ ์ ๋ฐฐ์ ๋์ง์ โ์ธ์ โ ๋ฐฐ์ ๋์ง์ ๋ํด ์๊ณ ์๋ค.โ ๋ค์ํ ํต์ ์คํ์ ํตํด ๊ฒ์ฆํด๋ณด์ ! !