PROBING

27 March 2026

The Dual-Route Model of Induction

COLM'25

ICL Memorization PROBING research

27 March 2026

Shared Global and Local Geometry of Language Model Embeddings

COLM'25

💡같은 계열의 언어 모델들은 차원이 달라도 token embedding의 구조가 굉장히 비슷하다! 그래서, 한 모델에서 만들어낸 steering vector를 다른 모델에서 선형변환만으로 재사용 가능하다!예: 1B, 3B에서 helpfulness를 올리도록 하는 vector를 찾고 나서, 8B로 그대로 옮겨서 쓸 수 있음!

Interpretability PROBING research

26 March 2026

SEAL: Steerable Reasoning Calibration of Large Language Models for Free

COLM'25

💡너무 길고 복잡한 reasoning 경향을 완화하자!⇒ reasoning process를 세단계로 분류하고, 그 중에 어떤 걸 줄여야 할지 분석하자

CoT PROBING research

19 March 2026

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

COLM'25

💡Post-training 후 모델 내부 지식, 진실성, 안전성, 확신성의 변화를 기계적으로 분석!

ALIGNMENT PROBING research