Why DPO is a Misspecified Estimator and How to Fix It
๐กDPO์ ์ ์ ๊ฐ realisticํ์ง ์์์ ์์ํ์ ์ผ๋ก ํํค์นจ AuxDPO๋ฅผ ํตํด DPO์ Misspecifection๋ฅผ ์ํํ์!
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
๐กPreference Alignment์์ ์์ (์ํํ ๋ตX)์ ๊ฐํ๊ฒ ๋ณด์ฅํ๋ฉด์๋, ๊ธฐ์กด RLHF์ฒ๋ผ ๋ณต์กํ ํ์ดํ๋ผ์ธ ์์ด DPO์ฒ๋ผ ๊ฐ๋จํ๊ฒ ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ๋ฐฉ๋ฒ์ธ SafeDPO ๋ฅผ ์ ์๊ธฐ์กด์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ ์ํ๊ณ , ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํด ๋ชจ๋ธ์ด ์์ ํ ๋ต์ ์ผ๊ด๋๊ฒ ๋ ์ ํธํ๋๋ก ํจ
Multiplayer Nash Preference Optimization
๐กalignment๊ฐ ๊ฐ์ ธ์ผ ํ ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ ๊ฐ์น ๋ฐ ์ ์ฑ ์ง๋จ ์์์ ๊ทธ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ์์ ์ ๊ท ํ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด๋ค!
Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling
๐กRLHF๋ DPO์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ Pairwise(์) Preference Optimization์ ๋ง์ถฐ์ ธ ์์ด, ๋ ์์ธํ ์ ๋ณด(Human Feedback)๋ฅผ ํ์ตํ ๊ธฐํ๋ฅผ ๊ฐ๊ณผํ๋ค.โ Response์ ๋ํด Pairwise๋ฟ๋ง ์๋๋ผ, ๊ทธ ์ด์๊น์ง rank๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ ํ์ต์ ์์ผ๋ณด์.