Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
๐กJailbreak: ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ์ ์์ ์ฅ์น๋ฅผ ์ฐํํ์ฌ, ์๋ ๊ฑฐ๋ถํด์ผ ํ ์ํํ ๋ต๋ณ์ ๋์ด๋ด๋ ค๋ ๊ณต๊ฒฉ์ ํ๋กฌํํธ ์กฐ์ ๊ธฐ๋ฒLLM์ด jailbreak์ ์๋ํ๋ prompt์ ๋ ธ์ถ๋ ๋, ๋ชจ๋ธ์ loss function์ ์๊ฐํํ landscape์ gradient๊ฐ ํ๋ค๋ฆฐ๋ค๋ ํน์ง์ ์ด์ฉํ์ฌ jailbreak ๊ณต๊ฒฉ์ ์ฐจ๋จํ๋ ๋ฐฉ๋ฒ์ ์ ์
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
๐กRLVRํ๋ฉด sampling path์์ ์ ๋ต path๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์ฐพ๊ธด ํ๋๋ฐ, ์๋ ๋ชจ๋ธ์ด ๊ณ ๋ ค์ํ๋๊ฑธ ๊ณ ๋ คํ๋๊ฑด ์๋! ๊ฒ๋ค๊ฐ ์ํ๋ง์ ๋๋ฆฌ๋ฉด ์คํ๋ ค reasoning scope๊ฐ base model๋ณด๋ค ์ข์!my insight: ์ด๊ฒ๋ ์ง์์ ์ ์ฃผ?!
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
๐กLLM์ด ์ธ๋ฌ๋, ์ ๋ ฌ์ด ์ง์ง ์ ๋๋์ง ํ๊ฐํ๊ธฐ ์ํด์ ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ ์ฆ, ํ๋์ ๋ต๋ง ํ๊ฐํด์ ์๋๊ณ , ๋ชจ๋ธ์ ์ ์ฒด ์ถ๋ ฅ ๋ถํฌ๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณด๊ณ ํ๊ฐ๋ฅผ ํด์ผ ํจ์ด๋ฅผ ์ํด ์๋ก์ด ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ธ ํ๊ฐ์งํ๊ฐ ์๋ ์๋ก์ด ํ๋ฅ ๋ก ์ ์ธ ํ๊ฐ ์งํ๋ค์ ์ ์