Internet Computing Laboratory

27 March 2026

The Dual-Route Model of Induction

COLM'25

ICL Memorization PROBING research

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

27 March 2026

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

ICLR'26 Oral

💡기존 SAE는 토큰을 독립적으로 처리하기 때문에 구문 정보에 편향되어 의미를 잘 포착하지 못한다. ⇒ 언어의 시간적 구조(인접 토큰 간 고수준 의미가 유사하다는 성질)를 SAE에 추가하자!

Interpretabilityresearch

27 March 2026

Small Transformers Don’t Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and Implications for Mechanistic Interpretability

ICLR'26 Poster

💡Layer normalization은 training stability에는 중요하지만, inference 단계에서는 꼭 필요하지 않을 수 있다! GPT-2 의 모든 LayerNorm을 제거하여 보여줌

PROBINGresearch

27 March 2026

Shared Global and Local Geometry of Language Model Embeddings

COLM'25

💡같은 계열의 언어 모델들은 차원이 달라도 token embedding의 구조가 굉장히 비슷하다! 그래서, 한 모델에서 만들어낸 steering vector를 다른 모델에서 선형변환만으로 재사용 가능하다!예: 1B, 3B에서 helpfulness를 올리도록 하는 vector를 찾고 나서, 8B로 그대로 옮겨서 쓸 수 있음!

Interpretability PROBING research

Layers at Similar Depths Generate Similar Activations Across LLM Architectures

27 March 2026

Layers at Similar Depths Generate Similar Activations Across LLM Architectures

COLM'25

💡서로 다른 LLM들을 비교했을 때, 비슷한 상대 depth의 layer들끼리 activation geometry가 유사하게 나타남즉, LLM마다 layer representation은 변하지만, 그 변화의 progression은 아키텍처를 넘어 어느 정도 공유됨

PROBINGresearch

27 March 2026

Inside-Out: Hidden Factual Knowledge in LLMs

COLM'25

💡LLM이 머릿속으로는 아는데 말로 다 표현을 못한다!

PROBINGresearch

27 March 2026

How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability

ICLR'26 Oral

💡트랜스포머는 학습 초기에 3가지 방식의 통계 구조를 가중치에 직접 반영하며, 이들의 조합만으로 의미적 관계와 어텐션이 형성됨

Interpretabilityresearch

27 March 2026

Hallucination Begins Where Saliency Drops

ICLR'26 Oral

💡Hallucination을 줄이기 위해 Attention map말고도 Saliency map에서 gradient가 줄어드는 부분을 확인해야 한다!

Interpretabilityresearch

27 March 2026

FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS

ICLR'26 Poster

💡언어 모델은 “무엇” 을 배웠는지와 “언제” 배웠는지에 대해 알고있다.⇒ 다양한 통제 실험을 통해 검증해보자 ! !

Memorization Recency research

TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models

26 March 2026

TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models

ICLR'26 Oral

💡LLM을 RL로 학습할 때 모델이 한 번에 너무 크게 바뀌면 망가지므로, 허용된 범위 안에서만 업데이트해서 안전하게 학습시키자

RL research

26 March 2026

SEAL: Steerable Reasoning Calibration of Large Language Models for Free

COLM'25

💡너무 길고 복잡한 reasoning 경향을 완화하자!⇒ reasoning process를 세단계로 분류하고, 그 중에 어떤 걸 줄여야 할지 분석하자

CoT PROBING research

26 March 2026

Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models

COLM'25

💡Refusal token으로 모델의 응답 거절을 더 섬세하고(성능↑), 유연하게(inference 단에서 조절 가능) 한다!

SAFETY research

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

26 March 2026

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

ICLR'26 Oral

💡short-context(16K) RL 학습만으로 long-context(128K) 추론을 잘하게 하자.어떻게?⇒ UUID 체인으로 질문을 숨긴 고난이도 합성 데이터(KeyChain)로 RL 학습하면, plan–retrieve–reason–recheck 사고 패턴이 발생하여 높은 장문 추론 성능을 7B/14B의 소형 모델로 달성할 수 있다.

Long Context Reasoning RL research

Language Model Personalization via Reward Factorization

26 March 2026

Language Model Personalization via Reward Factorization

COLM'25

💡여러 사용자의 선호를 공통된 선호 축(e.g., 친절, 간결, 격식)으로 분해해 학습한 뒤, 새로운 사용자가 들어오면 축마다 다른 가중치를 주어 사용자의 personalized된 선호를 빠르게 추정하자!

RLHF SVD research

26 March 2026

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

COLM'25

💡Mathematical Reasoning Task 를 할 때, RL을 간접적으로 구현하여 간단하게 풀어보자.(= 강화학습 형태로 수학문제를 효과적으로 풀어보자 !)

CoT Mathematical Reasoning RL research

26 March 2026

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

ICLR'26 Poster

SAFETY pretraining dataset research

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

26 March 2026

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

COLM'25

💡정답을 그대로 모방하는 SFT보다, noisy한 답안을 ‘비판(critique)’하도록 학습하는 방법이 reasoning 성능 향상에 더 효과적이다!Human learning process의 방식(critical thinking, analyze, understanding…)을 모델 학습에 적용해보자

SFT research

26 March 2026

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

COLM'25

💡현재의 추론 최적화가 협력을 별도로 정렬시키지 않는다면, 협력이 아닌 합리적 이기주의를 표방하는 개인주의 모델이 탄생할 수 있다!즉, 추론 능력과, 협업 능력(비용 감수 측면)은 별개다!

ALIGNMENT research

19 March 2026

Why DPO is a Misspecified Estimator and How to Fix It

ICLR'26 Oral

💡DPO의 전제가 realistic하지 않음을 위상학적으로 파헤침 AuxDPO를 통해 DPO의 Misspecifection를 완화하자!

DPO RL research

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

19 March 2026

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

ICLR'26 Oral

💡SAE를 통해 preference dataset에서 두 응답 간 선호를 결정짓는 잠재적 특징(feature) 축을 자동으로 추출하고, 어떤 응답 특성이 인간의 선호를 결정하는지 자연어로 해석 가능하게 설명하는 WIMHF 방법론을 제안

RLHF SAE research

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

19 March 2026

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

ICLR'26 Oral

💡Preference Alignment에서 안전(위험한 답X)을 강하게 보장하면서도, 기존 RLHF처럼 복잡한 파이프라인 없이 DPO처럼 간단하게 모델을 정렬하는 방법인 SafeDPO 를 제시기존의 보상 함수를 재정의하고, 학습 데이터를 재정렬해 모델이 안전한 답을 일관되게 더 선호하도록 함

DPO research

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

19 March 2026

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

ICLR'26 Poster

💡다중 preference 최적화 시 파라미터 업데이트 공간을 orthogonal subspace로 분해하여, objective 간 간섭을 원천적으로 제거하자

ALIGNMENT MPA research

19 March 2026

Multiplayer Nash Preference Optimization

ICLR'26 Poster

💡alignment가 가져야 할 목표는 보상을 최대화하는 것이 아니라, 다수 가치 및 정책 집단 속에서 그 누구에게도 지지 않는 안정적 균형 상태를 가지는 것이다!

DPO RL research

19 March 2026

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

COLM'25

💡Post-training 후 모델 내부 지식, 진실성, 안전성, 확신성의 변화를 기계적으로 분석!

ALIGNMENT PROBING research

19 March 2026

EigenBench: A Comparative Behavioral Measure of Value Alignment

ICLR'26 Oral

💡모델의 주관적 성향을 다른 모델의 성향과 비교하여 순위를 매기고, 신뢰도 벡터로 수치화하여 신뢰성을 판단하고, 모델마다 판단의 기준 차이를 확인할 수 있다!

BENCHMARK LLM EVALUATION research

Diffusion Alignment as Variational Expectation-Maximization

19 March 2026

Diffusion Alignment as Variational Expectation-Maximization

ICLR'26 Poster

💡Diffusion 모델을 목적 함수에 맞게 diffusion alignment할 때 발생하는 reward over-optimization 과 mode collapse 문제를 EM알고리즘 (E단계(test time search) → M단계(forward-KL)의 반복)으로 해결하자!

DIFFUSION RL research

19 March 2026

Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling

ICLR'26 Poster

💡RLHF나 DPO와 같은 방법들은 Pairwise(쌍) Preference Optimization에 맞춰져 있어, 더 자세한 정보(Human Feedback)를 학습할 기회를 간과한다.⇒ Response에 대해 Pairwise뿐만 아니라, 그 이상까지 rank를 매겨 모델에 학습을 시켜보자.

DPO MLE research

21 January 2026

Training a Generally Curious Agent

ICML'25

💡내재적 보상 없이도, LLM이 다양한 synthetic 상호작용 데이터를 통해 정보를 스스로 모으고, 단계별로 판단하며 문제를 해결하는 방법을 배우게 하자!

research

21 January 2026

On LLM-Based Scientific Inductive Reasoning Beyond Equations

EMNLP'25

💡현재 LLM은 “방정식(수식)으로 표현되지 않는 과학적 규칙”을 관찰로부터 귀납적으로 발견하는 데 근본적으로 약하다.이를 검증하기 위해 저자들은 SIRBench-V1 이라는 새로운 벤치마크를 만들었고, 최신 LLM들도 대부분 낮은 정확도(끽해야 45%) 에 머문다는 것을 보였다.

research

MAP: Multi-Human-Value Alignment Palette

21 January 2026

MAP: Multi-Human-Value Alignment Palette

ICLR'25

💡다중 가치 정렬을 기존의 가중치 튜닝 방식이 아니라 원하는 수준의 목표(palette)를 먼저 지정하고, 그 목표를 만족하는 λ를 자동으로 찾아 Pareto 개선을 보장하는 정렬로 바꿔보자!

research

21 January 2026

LLMs Encode Harmfulness and Refusal Separately

NIPS'25

💡LLM은 instruction의 유해성과 거부 여부를 다른 latent space에서 인코딩하고 있다!

research

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

21 January 2026

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

ACL'25

💡두 가지 기준의 엔트로피 값에 따라 logits 기반과 sampling 기반 워터마킹을 선택적으로 적용하는 Symbiotic Watermarking 프레임워크를 제안

research

21 January 2026

Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases

ACL'25

💡PEFT로 학습할 때 biased example에 overfitting되는 경향 존재함 (biased example에 더 빠르게 수렴하기 때문) ⇒ 학습 데이터 순서를 biased-to-unbiased 로 제시해서, 이를 완화하자!

research

21 January 2026

An Analysis for Reasoning Bias of Language Models with Small Initialization

ICML'25

research

21 January 2026

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models

ICML'25

💡LLM의 논리적 선호도 일관성을 정의하고, 관련 훈련 데이터 증강 방식을 제안하여, 논리 선호도 일관성과 논리 태스크 수행능력 증진

research

14 January 2026

Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

NIPS'25

💡LLM 추론은 계산 과정에서의 오차로 인하여 달라질 수 있음! ⇒ 정밀도 관점에서 재해석, 실제로 얼마나 달라지는지, 어떻게 해결해야 하는지?계산 과정에서의 문제니까, 계산 과정에서만 더 정확하게 보면 되는거 아닐까?⇒ 실험 결과, 그렇다!

research

14 January 2026

S1: Simple Test-time Scaling

EMNLP'25

💡training 단계에서 말고, inference 단계에서 성능을 높히려면 어떻게 해야 할까?⇒ 일단 수학/추론 문제는 token 개수 조정해

research

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

14 January 2026

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

NIPS'25

💡모델에 노이즈를 주입했을 때 성능이 비정상적으로 향상되면, 이는 샌드배깅 현상을 암시한다!

research

14 January 2026

Let LRMs Break Free from Overthinking via Self-Braking Tuning

NIPS'25

💡모델 내재적으로 불필요한 추론(오버 띵킹)을 막자!

research

14 January 2026

Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

NIPS'25

💡LLM이 자신의 모델 내부에서 일어나는 상태를 얼마나 인식, 평가, 조절할 수 있는지를 ‘Neurofeedback’ (모델의 내부 레이어, 벡터 조정 및 활성화 정도 측정)방식으로 측정하였고, 그 능력이 제한적임을 보임

research

Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment

14 January 2026

Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment

ICLR'25

💡Speculative Decoding에서 발생하는 병목이 Target model의 정렬(alignment) 기반 검증 때문임을 밝히고, Target model의 임베딩으로 토큰의 정답성(correctness)을 판정하는 새로운 검증 방식인 Judge Decoding 방식을 도입함!

research

Interpreting the Repeated Token Phenomenon in Large Language Models

14 January 2026

Interpreting the Repeated Token Phenomenon in Large Language Models

ICML'25

💡LLM에 같은 단어를 계속 반복시키면 모델이 어느 순간부터 그 단어를 제대로 반복하지 못하고 붕괴되는데, 이는 attention sink를 만드는 neuron이 반복되는 토큰을 ‘문장의 첫 토큰(BoS)’으로 오인하여 attention이 몰리기 때문임

research

14 January 2026

Advancing Expert Specialization for Better MoE

NIPS'25

💡Mixture-of-Experts 훈련 손실함수에는 expert 간 routing 효율성 위한 objective term 있음그러나 이는 각 expert의 전문성 특화를 방해하는 부작용 있음⇒ routing 효율성 목표를 방해하지 않으면서 expert 전문화에 도움되는 objective를 추가하자

research

07 January 2026

What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers

NIPS'25

💡Transformer 모델 훈련 시 손실하락이 초기단계에서 정체되다가 갑자기 크게 일어나는 abrupt learning 현상 탐구

research

07 January 2026

Superposition Yields Robust Neural Scaling

NIPS'25

💡Superposition은 Scaling law가 작동하게 한다!

research

07 January 2026

Scaling Laws for Precision

ICLR'25

💡언어 모델의 학습 및 추론 시 정밀도(precision)가 모델의 성능과 비용에 미치는 영향을 체계적으로 분석하고, 이를 예측할 수 있는 precision-aware scaling laws를 제시

research

Layer by Layer: Uncovering Hidden Representations in Language Models

07 January 2026

Layer by Layer: Uncovering Hidden Representations in Language Models

ICML'25

💡Autoregressive 방식으로 학습하는 언어모델은 중간 layer 표현이 가장 풍부하다!

research

07 January 2026

How Do Large Language Monkeys Get Their Power (Laws)?

ICML'25

💡LLM의 반복 샘플링 성능이 power law처럼 보이는 이유는 모델의 추론 능력 때문이 아니다.각 문제는 이미 지수적으로(exponentially) 해결되고 있으며, 소수의 극도로 어려운 문제들이 끝까지 남아 있기 때문에 전체 평균 성능이 power law처럼 보일 뿐이다.⇒ power law는 모델의 법칙이 아니라, 문제 난이도 분포의 결과다.

research

07 January 2026

EvoLM: In Search of Lost Language Model Training Dynamics

NIPS'25

💡Language Model의 성능이 얼마나 큰 데이터셋으로 오래 학습했는가보다 어떤 단계에서 어떻게, 언제 학습했는가가 더 중요하며 CPT(Continued Pre-Training)가 지도 학습 및 강화 학습의 성능을 결정한다.

research

Capturing the Temporal Dependence of Training Data Influence

07 January 2026

Capturing the Temporal Dependence of Training Data Influence

ICLR'25

💡데이터의 가치는 데이터가 ‘무엇이냐’ 보다 ‘학습 시점에 언제 등장했냐’에 의해 결정된다해당 논문은 학습 경로(trajectory)와 데이터의 등장 시기를 고려하는 새로운 데이터 영향력 정의 TSLOO를 제안함

research

07 January 2026

AI as Humanity’s Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

ICLR'25

💡LLM은 창의성으로 사람을 따라잡을 수 있을까? ⇒ ㄴㄴ아직 창의성을 기반으로 LLM과 사람을 구분할 수 있을까? ⇒ 웅 가능

research

30 December 2025

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

ICML'25

💡LLM 멀티 에이전트 시스템에서 오류가 났을 때 누가 언제 오류냈는지 자동으로 파악해보자!벤치마크 제안 및 현 LLM 성능 평가

research

30 December 2025

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

EMNLP'25

💡LLM은 사람을 따라하는가? 혹은 사람이 보편적으로 가진 편향(?)을 없애고 사람보다 더 나은 결정을 내리는가? 리더 선출 실험을 통해 분석한 결과, LLM 별로 다르다. (GPT, Gemini는 인간을 그대로 모델링 , Claude는 더 나은 선택)

research

Quantifying Elicitation of Latent Capabilities in Language Models

17 December 2025

Quantifying Elicitation of Latent Capabilities in Language Models

NIPS'25

💡LLM은 잠재된 능력을 이미 갖추고 있으며, 아주 적은 수의 무작위 파라미터만 학습해도 그 능력을 효율적으로 끌어낼 수 있다는 것을 실험/이론적으로 정량화함

research

17 December 2025

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

NIPS'25

💡CoT 기반 LLM 추론은 얼마나 많은 추론 과정을 학습하느냐가 중요한 것이 아니라, 그 과정을 얼마나 정확하고 명확하게 알려주는지가 더 중요하다. 즉, 내용보다는 구조적 완전성에 초점을 두어야 한다는 것을 실험을 통해 확인한 연구

research

17 December 2025

Chain-of-Model Learning for Language Model

NIPS'25

💡Representation을 sequancial한 sub-representation으로 나누면 기존 모델을 유지한 채 추가 학습도 가능하고, 확장도 가능하고 유연함!

research

10 December 2025

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

EMNLP'25

💡LLM이 자기 가치관에 대해 직접 주장하는 바와, 실제 주어진 상황에서 행동하는 것이 다를 수 있음!그래서 적당히 믿고 주의하면서 태스크 맡겨야 함

research

10 December 2025

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

NIPS'25

💡Generalization이든 Hallucination이든 모두 다 Out-of-Context Reasoning의 현상이고, 이는 Output 행렬과 Value 행렬이 분리되어있어 학습가능하다!

research

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

10 December 2025

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

ICLR'25

💡LLM 안에는 이 엔티티를 LLM이 아는지/모르는지를 표시하는 latent 방향이 실제로 존재이 latent 방향을 조작(steering) 하면,원래는 모른다고 말하던 질문(답변 거부)에 대해 할루시네이션을 시키거나,원래 잘 알던 엔티티에 대해서도 답변을 거부하게 만들 수 있음

research

26 November 2025

On the Role of Attention Heads in Large Language Model Safety

ICLR'25

💡LLM 안전성은 사실 소수의 attention head 에 집중되어 있어서, 그 head들만 살짝 꺼도 🚨 안정성이 바로 무너진다는 걸 밝힘 🔍 Ships·Sahara로 어떤 head가 진짜 safety 담당인지 찾아내는 방법을 제안함 ⚙️🔥

research

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes

26 November 2025

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes

NIPS'24

💡Jailbreak: 사용자가 모델의 안전장치를 우회하여, 원래 거부해야 할 위험한 답변을 끌어내려는 공격적 프롬프트 조작 기법LLM이 jailbreak을 시도하는 prompt에 노출될 때, 모델의 loss function을 시각화한 landscape의 gradient가 흔들린다는 특징을 이용하여 jailbreak 공격을 차단하는 방법을 제안

research

26 November 2025

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

NIPS'25

💡RLVR하면 sampling path에서 정답 path를 효율적으로 잘 찾긴 하는데, 원래 모델이 고려안하는걸 고려하는건 아님! 게다가 샘플링을 늘리면 오히려 reasoning scope가 base model보다 좁음!my insight: 이것도 지식의 저주?!

research

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

26 November 2025

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

ICLR'25

💡LLM이 언러닝, 정렬이 진짜 잘 됐는지 평가하기 위해선 기존의 결정론적 출력 즉, 하나의 답만 평가해선 안되고, 모델의 전체 출력 분포를 확률적으로 보고 평가를 해야 함이를 위해 새로운 기존의 결정론적인 평가지표가 아닌 새로운 확률론적인 평가 지표들을 제안

research

Internet Computing Lab. Paper Review

The Dual-Route Model of Induction

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

Small Transformers Don’t Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and Implications for Mechanistic Interpretability

Shared Global and Local Geometry of Language Model Embeddings

Layers at Similar Depths Generate Similar Activations Across LLM Architectures

Inside-Out: Hidden Factual Knowledge in LLMs

How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability

Hallucination Begins Where Saliency Drops

FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS

TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models

SEAL: Steerable Reasoning Calibration of Large Language Models for Free

Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

Language Model Personalization via Reward Factorization

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

Why DPO is a Misspecified Estimator and How to Fix It

What’s In My Human Feedback? Learning Interpretable Descriptions of Preference Data

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

Multiplayer Nash Preference Optimization

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

EigenBench: A Comparative Behavioral Measure of Value Alignment

Diffusion Alignment as Variational Expectation-Maximization

Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling

Training a Generally Curious Agent

On LLM-Based Scientific Inductive Reasoning Beyond Equations

MAP: Multi-Human-Value Alignment Palette

LLMs Encode Harmfulness and Refusal Separately

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases

An Analysis for Reasoning Bias of Language Models with Small Initialization

Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models

Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

S1: Simple Test-time Scaling

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

Let LRMs Break Free from Overthinking via Self-Braking Tuning

Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment

Interpreting the Repeated Token Phenomenon in Large Language Models

Advancing Expert Specialization for Better MoE

What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers

Superposition Yields Robust Neural Scaling

Scaling Laws for Precision

Layer by Layer: Uncovering Hidden Representations in Language Models

How Do Large Language Monkeys Get Their Power (Laws)?

EvoLM: In Search of Lost Language Model Training Dynamics

Capturing the Temporal Dependence of Training Data Influence

AI as Humanity’s Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

To Mask or to Mirror: Human-AI Alignment in Collective Reasoning

Quantifying Elicitation of Latent Capabilities in Language Models

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Chain-of-Model Learning for Language Model

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

On the Role of Attention Heads in Large Language Model Safety

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

A Probabilistic Perspective on Unlearning and Alignment for Large Language Models