21 January 2026
LLMs Encode Harmfulness and Refusal Separately
NIPS'25
๐กLLM์ instruction์ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ๋ค๋ฅธ latent space์์ ์ธ์ฝ๋ฉํ๊ณ ์๋ค!
21 January 2026
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models
ACL'25
๐ก๋ ๊ฐ์ง ๊ธฐ์ค์ ์ํธ๋กํผ ๊ฐ์ ๋ฐ๋ผ logits ๊ธฐ๋ฐ๊ณผ sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ์ ํ์ ์ผ๋ก ์ ์ฉํ๋ Symbiotic Watermarking ํ๋ ์์ํฌ๋ฅผ ์ ์
21 January 2026
Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases
ACL'25
๐กPEFT๋ก ํ์ตํ ๋ biased example์ overfitting๋๋ ๊ฒฝํฅ ์กด์ฌํจ (biased example์ ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ธฐ ๋๋ฌธ) โ ํ์ต ๋ฐ์ดํฐ ์์๋ฅผ biased-to-unbiased ๋ก ์ ์ํด์, ์ด๋ฅผ ์ํํ์!