26 March 2026
Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models
COLM'25
๐กRefusal token์ผ๋ก ๋ชจ๋ธ์ ์๋ต ๊ฑฐ์ ์ ๋ ์ฌ์ธํ๊ณ (์ฑ๋ฅโ), ์ ์ฐํ๊ฒ(inference ๋จ์์ ์กฐ์ ๊ฐ๋ฅ) ํ๋ค!