Yonsei Univ. ICL

Blog

LLMs Encode Harmfulness and Refusal Separately

21 January 2026

LLMs Encode Harmfulness and Refusal Separately

NIPS'25

💡LLM은 instruction의 유해성과 거부 여부를 다른 latent space에서 인코딩하고 있다!

research

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

21 January 2026

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

ACL'25

💡두 가지 기준의 엔트로피 값에 따라 logits 기반과 sampling 기반 워터마킹을 선택적으로 적용하는 Symbiotic Watermarking 프레임워크를 제안

research

Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases

21 January 2026

Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases

ACL'25

💡PEFT로 학습할 때 biased example에 overfitting되는 경향 존재함 (biased example에 더 빠르게 수렴하기 때문) ⇒ 학습 데이터 순서를 biased-to-unbiased 로 제시해서, 이를 완화하자!

research

Showing page 11 of 21 pages