blog

26 March 2026

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

ICLR'26 Poster

SAFETY pretraining dataset research

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

26 March 2026

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

COLM'25

💡정답을 그대로 모방하는 SFT보다, noisy한 답안을 ‘비판(critique)’하도록 학습하는 방법이 reasoning 성능 향상에 더 효과적이다!Human learning process의 방식(critical thinking, analyze, understanding…)을 모델 학습에 적용해보자

SFT research

26 March 2026

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

COLM'25

💡현재의 추론 최적화가 협력을 별도로 정렬시키지 않는다면, 협력이 아닌 합리적 이기주의를 표방하는 개인주의 모델이 탄생할 수 있다!즉, 추론 능력과, 협업 능력(비용 감수 측면)은 별개다!

ALIGNMENT research

Yonsei Univ. ICL

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games