Why DPO is a Misspecified Estimator and How to Fix It
๐กDPO์ ์ ์ ๊ฐ realisticํ์ง ์์์ ์์ํ์ ์ผ๋ก ํํค์นจ AuxDPO๋ฅผ ํตํด DPO์ Misspecifection๋ฅผ ์ํํ์!
Whatโs In My Human Feedback? Learning Interpretable Descriptions of Preference Data
๐กSAE๋ฅผ ํตํด preference dataset์์ ๋ ์๋ต ๊ฐ ์ ํธ๋ฅผ ๊ฒฐ์ ์ง๋ ์ ์ฌ์ ํน์ง(feature) ์ถ์ ์๋์ผ๋ก ์ถ์ถํ๊ณ , ์ด๋ค ์๋ต ํน์ฑ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๊ฒฐ์ ํ๋์ง ์์ฐ์ด๋ก ํด์ ๊ฐ๋ฅํ๊ฒ ์ค๋ช ํ๋ WIMHF ๋ฐฉ๋ฒ๋ก ์ ์ ์
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
๐กPreference Alignment์์ ์์ (์ํํ ๋ตX)์ ๊ฐํ๊ฒ ๋ณด์ฅํ๋ฉด์๋, ๊ธฐ์กด RLHF์ฒ๋ผ ๋ณต์กํ ํ์ดํ๋ผ์ธ ์์ด DPO์ฒ๋ผ ๊ฐ๋จํ๊ฒ ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ๋ฐฉ๋ฒ์ธ SafeDPO ๋ฅผ ์ ์๊ธฐ์กด์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ ์ํ๊ณ , ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํด ๋ชจ๋ธ์ด ์์ ํ ๋ต์ ์ผ๊ด๋๊ฒ ๋ ์ ํธํ๋๋ก ํจ