Language Model Personalization via Reward Factorization
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋์ธ ๋ ธ๋ ธ | โข ์ฅ์ : motivation์ด ๋ช
ํํ๊ณ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ ์ด์ด์ง! ๋ชจํธํ๊ฒ ๋๊ปด์ง ์ ์๋ personalization์ innovateํ๊ฒ reformulateํจ! โข ๋จ์ & ๋ณด์์ : - | 5 |
| ์์ด๋ฆฌ์ค | ์ฅ์ : ๋ด ๋จธ๋ฆฟ์ ๋ค์ด์๋ค ๋๊ฐ๋ ์ถ๋ค.. ์ฌ๋์ ๊ฒฐ๊ตญ ์กฐ๊ธ ๋ค๋ฅธ๊ฒ ํฌ๊ฒ ๋๋ฌ๋๋ค๊ณ ์๊ฐํจ. ์์์ด๋ผ๋ ์ ์ด ์์ผ๋ฏ๋ก, ๊ทธ ์ง๊ด์ ์ ๊ตฌํํ๋ฏ. ๋จ์ : ๋ค๋ฅธ ๋ ผ๋ฌธ์์ ์ผ์ง๋ง, ์ฌ์ค ๊ฐ์ธ์ ์ผ๋ก๋ ์ฌ์ฉ์ ๋ง์ถค์ ์ ๋ ๋ถ๊ฐ๋ฅ์ด๋ผ๊ณ ์๊ฐํจ. ๋ชจ๋ ์ฌ์ฉ์ ๊ฐ์ธํ๋ ์๊ฑฐ๋ฒ์ด๋ผ๊ณ ์๊ฐํจ. ๊ทธ๋ฐ ๋ฐฉ์์ ์๋์ด์ ์์ฝ์ง๋ง, ๋ด๊ฐํ๋ฉด ๋์ง ์์๊น? ๋ณด์์ : ์ถ๋ง๋ค ์ฃผ๋ ๊ฐ์ค์น๊ฐ ๋ถ์ ๊ธฐ๋ฐ์ด์์ผ๋ฉด ์ด๋จ๊น? | 4.7 |
| ํธ๋ํฌ๋ฆผ | โข ์ฅ์ : ์๋ก์ด ์ฌ์ฉ์์ ๋ํด ๋น ๋ฅด๊ฒ ์ ๋ ฌํ ์ ์๋ ๋ฐฉ๋ฒ โข ๋จ์ : ์ด๊ธฐ ํ๋ ฌ ๊ตฌ์ฑ์์ ๋ง์ด ๋ฒ์ด๋๋ ์ฌ์ฉ์๋ reward function ์ค์ ์ด ์ ์๋ ์๋ ์์ด๋ณด์ โข ๋ณด์์ : base reward function์ ์ ์งํ๋ outlier ์ฌ์ฉ์๋ฅผ ์ปค๋ฒํ ๋ฐฉ๋ฒ | 4.5 |
| 3์ | โข ์ฅ์ : Inference ์ ๋ชจ๋ธ ์ฌํ์ต ์์ด ์ฌ์ฉ์๋ณ reward weight๋ง ์ถ์ ํด์ ๋น์ฉ ํจ์จ์ฑ ์ฆ๋ โข ๋จ์ ๋ฐ ๋ณด์์ : ์ด์ ๋ ผ๋ฌธ๋ค๋ ๊ทธ๋ ๊ณ ์ฌ์ฉ์ ์ ํธ๊ฐ ์ ํ ๊ฒฐํฉ์ผ๋ก ํํ๋๋ค๋๊ฑธ ๊ฐ์ ํ๋๋ฐ... ์๋ฅผ ๋ค์ด ์ฌ๋์ด ์ ๋ฌด ๊ด๋ จํด์๋ ์งง๊ณ ์ ํํ๊ฒ, ์ก๋ด ๊ด์ ์์๋ ๊ธธ๊ณ ์น๊ทผ ํ๊ฑธ ์ ํธํ๋๋ฐ ์ด๊ฑธ linear๋ก ๋ฐ์ํ ์ ์๋..? ๋ ๋์ non-linear ๋ฐฉ๋ฒ์ด ์๋? | 4.5 |
| ์๋์ง | โข ์ฅ์ : RLHF PPO๋ฐฉ์์์ reward๋ฅผ ๋จ์ neural network๋ก ํตํฉํด์ preference๋ฅผ ์ต์ ํํ๋๋ฐ, ์ฌ์ค preference๋ฅผ ๋ ์์ธํ๊ฒ ๋ฐ์ ธ์ผํ๋ ๊ฑด ๋น์ฐํ ๊ฒ์ด์๋ ๊ฒ ๊ฐ๋ค. reward๋ฅผ ๋จ์ ์ค๊ณํ๋ค๋ณด๋ ๋น์ ์ผ์ฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ ๊ฐ๊ณ , ํด๋น ๋
ผ๋ฌธ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก DPO ๋ฑ์ฅํ๋ ๊ฒ์ reward์ ํ๊ณ๊ฐ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ ๊ฐ๋ค. (reward ์์ถ,ํตํฉ ํํ์ด ๋ฌธ์ !) โข ์ฝ์ : ์ฌ์ค reward๋ฅผ ํํํ๋ ์ถ์ ๋ํด ์ ํธ๋ ์ถ์ ์ถฉ๋ถํ ํํ ๋ชปํ์ง ์์๊น? ์ถ์๋๋ฐ ์คํ ๊ฒฐ๊ณผ์์ ์ฆ๋ช ์ด ๋์๋ค.. | 4.9 |
| ํผ์ฆ์น์ | โข ์ฅ์ : ์ฌ์ฉ์๋ง๋ค personalized๋ ์ ํธ๋ฅผ ๋ค ๋ฐ์ํ ๋ชจ๋ธ์ ๋ง๋ค ์ ์์ผ๋, ์ด๋ฅผ ๊ณ ๋ คํ ๋ฌธ์ ์ ๊ทผ์ด ํ์ค์ ์ โข ๋จ์ : ์ฌ์ฉ์์ ์ ํธ๋ฅผ ์ ํ์ผ๋ก ๊ฐ์ ํ๋๋ฐ(๋ฌผ๋ก ์คํ์๋ ์ด๋์ ๋ ์ฆ๋ช ํ๊ฒ ๊ฐ์ง๋ง), ๋น์ ํ์ผ๋ก ๋ํ๋๋ ๊ฒฝ์ฐ๊ฐ ์ ๋ง ์์๊น? โข ์ ์: personalization ์์ฑ๋ค์ด ๊ธธ์ด, ์ ๋จธ, ์ ์คํจ, confidence ๊ฐ์ ๋น๊ต์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ์คํ์ผ์ธ๋ฐ, ๋ ๋ฏธ๋ฌํ ์คํ์ผ์ ์ด๋ป๊ฒ ๋ฐ์ํ ์ ์์๊น(e.g., reasoning ์คํ์ผ ๋ฑ๋ฑ..) | 4.5 |
| ํ์ดํธ๋ ธ์ด์ฆ | โข ์ฅ์ : ๊ทธ๋๋ ์ฌ์ฉ์๋ค๋ผ๋ฆฌ ๊ณตํต๋ ๋ช ๊ฐ์ ์ ํธ ์ถ์ด ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ ์ง์ ์ด ์ง๊ธ๊น์ง ๋ณธ personalization ๋
ผ๋ฌธ ์ค์์ ๊ฐ์ฅ motivated ๋ ๋
ผ๋ฌธ (์ ๋นํ โ ๋ ์ข์ ์ ๋นํ) โข ๋จ์ : ์ฌ๋ ์ทจํฅ์ด๋ผ๋๊ฒ ์ ๋ง ๋ณต์กํ๋ฐ ์ ํ ๊ด๊ณ๋ก ๊ฐ๋จํ ํํํ๋๊ฒ ๋ง์๊น? โข ๋ณด์์ : ๋ฌธํ์ ์ผ๋ก ์๋ฐ๋ ์ ์ ๋ค(e.g., ๊ณ ๋งฅ๋ฝ์ฌํ vs ์ ๋งฅ๋ฝ ์ฌํ)์ด ๊ฐ์ ์ถ ๊ณต๊ฐ ์์ ๊ณต์กดํ ์ ์๋์ง๊ฐ ์๋ฌธ โข ์ ์: ์ฌ์ค ํด๋น ๋ ผ๋ฌธ์ ๊ณตํต ์ ํธ์ถ์ ๊ฐ ํ๋ผ๋ฏธํฐ๊ฐ ์ด๋ ํ peference๋ฅผ ๋ํ๋ด๋์ง ํด์ ๋ถ๊ฐํ๋ค๋ ํ๊ณ๊ฐ ์๋๋ฐ Whatโs In My Human Feedback? Learning Interpretable Descriptions of Preference Data (ICLR'26 Oral) ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ์ ์์ ์ ํธ ์ถ์ ๋ฏธ๋ฆฌ ์ถ์ถํ๊ณ ํด๋น ์ถ์ ๋ฐํ์ผ๋ก ๊ณตํต ์ ํธ์ถ ํ๋ผ๋ฏธํฐ๋ฅผ ์ค์ ํ๋ฉด ์ด๋จ๊น? | 4.5 |
| ์ ๋ก์ฝ๋ผ | โข ์ฅ์ : ์ฌ๋๋ง๋ค ์ ํธ๊ฐ ์์ ํ ์ ๊ฐ๊ฐ์ด ์๋๋ผ ๊ณตํต๋ ๋ช ๊ฐ์ ์ถ์ผ๋ก ํํ๋ ์ ์๋ค๋ ๊ฐ์ ์ด ์ง๊ด์ ์ด๊ณ ์ข์ โข ์ฝ์ : ์ฌ์ฉ์์ ์ ํธ๊ฐ ์ฌ๋ฌ ์ถ์ ์ ํ ๊ฒฐํฉ์ผ๋ก ํํ๋๋ค๊ณ ๊ฐ์ ํ๋๋ฐ, ๊ฐ์ ์ฌ๋์ด ์ํฉ์ ๋ฐ๋ผ ์ ํธ๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒฝ์ฐ๋ฅผ ์ ํ ๋ชจ๋ธ๋ก ์ก์๋ผ ์ ์์์ง ์๋ฌธ์ด ์๊น. โข ๋ณด์์ : ํ์ฌ ์คํ์์ ์ฌ์ฉ๋ ์ ํธ ์ถ์ ๋น๊ต์ ํด์ํ๊ธฐ ์ฌ์ด ์คํ์ผ ์์ฑ์ธ๋ฐ, ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ด๋ ๊ฐ์น๊ด์ฒ๋ผ ๋ ๋ณต์กํ ๊ฐ์ธ ์ ํธ๊น์ง ๊ฐ์ ๋ฐฉ์์ผ๋ก ํฌ์ฐฉํ ์ ์๋์ง ๋ค์ํ ์ฌ์ฉ์ ์ง๋จ์ ๋์์ผ๋ก ์ถ๊ฐ ์คํ์ด ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 4.5 |
| ์ฐฝ๋ฐฑ์นด์ธ | ์ฅ์ : ๊ฐ์ธํ๋ฅผ ํ๊ธฐ์ ์์ฃผ ์ข์ ๋ฐฉ๋ฒ๋ก ์ด๋ผ ์๊ฐํ๊ณ , ๋ฌธํ์ , ์ง๋ฆฌ์ bias๋ฅผ ์ฝ๊ฒ ๋ฐ์ํ ์ ์์ด ๋ณด์! ์ฝ์ : ์ ์๋ค์ด ํฉ์ฑํ ๋ฐ์ดํฐ์ reliablity๊ฐ ์กฐ๊ธ ์์ฌ๋จ. Prefer axis๊ฐ ๋ ๋ฆฝ์ ์ธ์ง๋ ์ ๋ชจ๋ฅด๊ฒ ์. ์ด๊ฒ์ ๋ํ ์คํ์ด ์๋? ์ ์์ : ์ค์ human study๋ case study๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด ๋ ์ข์๋ฏ | 3.5 |
TL; DR
์ฌ๋ฌ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๊ณตํต๋ ์ ํธ ์ถ(e.g., ์น์ , ๊ฐ๊ฒฐ, ๊ฒฉ์)์ผ๋ก ๋ถํดํด ํ์ตํ ๋ค, ์๋ก์ด ์ฌ์ฉ์๊ฐ ๋ค์ด์ค๋ฉด ์ถ๋ง๋ค ๋ค๋ฅธ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ์ฌ์ฉ์์ personalized๋ ์ ํธ๋ฅผ ๋น ๋ฅด๊ฒ ์ถ์ ํ์!
- Cited: 19
Introduction
Motivation
- ๊ธฐ์กด RLHF์ ํ๊ณ
- Universal Preference Model: ๊ฐ ์ฌ์ฉ์ ๋ณ ์ ํธ๊ฐ ์๋ ๋ชจ๋ ์ฌ์ฉ์์๊ฒ ๋ณดํธ์ ์ผ๋ก align๋ ๋ชจ๋ธ
โ โญ ํ๊ท ์ ์ธ ์ธ๊ฐ ์ ํธ์๋ align๋ ์ ์์ง๋ง, ๊ฐ ์ฌ์ฉ์ ๋ณ ์ ํธ๋ฅผ ๋ฐ์ํ๋ personalization์ ํ๊ณ
RQ ์ฌ์ฉ์ ๋ณ ์ ํธ๋ผ๋๊ฒ ์์ ์ ๊ฐ๊ฐ์ด ์๋๋ผ, ๊ณตํต๋ ๋ช ๊ฐ์ ์ ํธ ์ถ(low-dimensional preference space) ์์์ ํํ๋ ์ ์์ง ์์๊น?
Contribution
- Personalization via Reward Factorization (PReF) ํ๋ ์์ํฌ ์ ์: Personalization์ reward factorization ๋ฌธ์ ๋ก ์ฌ์ ์
- ์ฌ์ฉ์๋ง๋ค reward model์ ๋ฐ๋ก ํ์ตํ์ง ์๊ณ , ๊ณตํต base reward functions๋ฅผ ๋จผ์ ํ์ตํ ๋ค ์๋ก์ด ์ฌ์ฉ์์ ๋ํด์๋ ์ถ๋ณ ๊ฐ์ค์น๋ง ์ถ์
- base reward๋ฅผ ํ ๋ฒ ํ์ตํด๋๋ฉด ์ ์ฌ์ฉ์๋ ์ ์ฒด ๋ชจ๋ธ ์ฌํ์ต ์์ด ์ฌ์ฉ์๋ณ ๊ฐ์ค์น ๋ฒกํฐ๋ง ์ถ์ ํ๋ฉด ๋จ
- Active learning ๊ธฐ๋ฐ ์ ์ ๋์ : ๊ฐ์ฅ ๋ถํ์ค์ฑ์ ๋ง์ด ์ค์ฌ์ค ์ง๋ฌธ/์๋ต์์ ์ ํํด ๋ฐ์ดํฐ ํจ์จ์ ๋์
Methods
Step 1. ๊ณตํต ์ ํธ ์ถ ํ์ต(Offline)
- ์ฌ๋ฌ ์ฌ์ฉ์๋ค์ preference ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์๋ต์ ๋ช ๊ฐ์ ๊ณตํต base reward functions๋ก ํํํ ์ ์๋๋ก ํ์ต
- ์๋ฐฑ ๋ช
์ ์ ์ ์๊ฒ ์๋ต ์ ๏ปฟ ์ ๋ณด์ฌ์ฃผ๊ณ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ์์ง โ ์ ์ x ์๋ต์ ํ๋ ฌ ๏ปฟ ๊ตฌ์ถ
Sparse Preference Matrix ์๋ต์1 ์๋ต์2 ์๋ต์3 ์๋ต์4 ์๋ต์5 ์ ์ A ์๋ต ๏ปฟ์ ํ ์๋ต ๏ปฟ์ ํ ์ ์ B ์๋ต ๏ปฟ์ ํ ์๋ต ๏ปฟ์ ํ ์ ์ C ์๋ต ๏ปฟ์ ํ ์ ์ D ์๋ต ๏ปฟ์ ํ
- ์๋ฐฑ ๋ช
์ ์ ์ ์๊ฒ ์๋ต ์ ๏ปฟ ์ ๋ณด์ฌ์ฃผ๊ณ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ์์ง โ ์ ์ x ์๋ต์ ํ๋ ฌ ๏ปฟ ๊ตฌ์ถ
- ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก, ์๋ต์ ๋ช ๊ฐ์ ๊ณตํต base reward functions๋ก ํํํ๋๋ก ๋ชจ๋ธ์ ํ์ต
- ํ๋์ ์๋ต์ ์ฌ๋ฌ ๊ณตํต ์ ํธ์ถ ์์์ ์ ์๋ฅผ ๋ฐ๊ณ , ๊ฐ ์ฌ์ฉ์๋ ์ถ๋ค์ ์๋ก ๋ค๋ฅธ ๊ฐ์ค์น๋ฅผ ์ค
- ํ๋ ฌ ๋ถํด(Matrix Factorization)
- ํ๋ ฌ ๏ปฟ (User Factor): ์ฌ์ฉ์๋ค์ด ๊ฐ ์ ํธ ์ถ์ ๋ํด ๊ฐ์ง๋ ๊ฐ์ค์น (๏ปฟ)
- ํ๋ ฌ ๏ปฟ (Item Factor): ๊ฐ ์๋ต ์์ด ์ด๋ค ์ ํธ ์ถ์ ํน์ง์ ๊ฐ์ก๋์ง์ ๋ํ ์ ์ (๏ปฟ)
- ์ฌ์ฉ์ ๏ปฟ์ ๋ณด์ ํจ์ (๏ปฟ ๏ปฟ ๏ปฟ dot product)
- ๏ปฟ: ๊ณตํต๋ ์ ํธ์ถ(๋ชจ๋ ์ ์ ๊ณต์ ) e.g., ๏ปฟ: ๊ฐ๊ฒฐํจ, ๏ปฟ: ๊ฒฉ์, ๏ปฟ: ์น์ ํจ, ๏ปฟ: ์ฐฝ์์ฑ
- ํ๋กฌํํธ์ ์๋ต์ ์
๋ ฅ๋ฐ์ ๏ปฟ ์ฐจ์ ๋ฒกํฐ ๏ปฟ๋ฅผ ์ถ๋ ฅํ๋ ์ ๊ฒฝ๋ง์ ํ์ต
- SVD ์ด๊ธฐํ, L2 ์ ๊ทํ ์ฌ์ฉ
โ ์ฌ์ฉ์๋ง๋ค ์์ ํ ๋ณ๋ ๋ชจ๋ธ์ ๋ง๋ค์ง ์๊ณ , ๋ชจ๋ ์ฌ์ฉ์์๊ฒ ๊ณตํต์ผ๋ก ์ธ ์ ์๋ reward ๋ชจ๋ธ
Step 2. ์ ์ฌ์ฉ์์ ์ ํธ ๋ฒกํฐ ์ถ์ (Online)
- ์๋ก์ด ์ฌ์ฉ์์๊ฒ ๋ช ๊ฐ์ ๋น๊ต ์ง๋ฌธ์ ํตํด ์ฌ์ฉ์๊ฐ ๊ณตํต ์ถ๋ค์ ์ด๋ค ๋น์จ๋ก ์ข์ํ๋์ง ๏ปฟ ์ถ์
- ํ์ฌ ฮป ์ถ์ ์ด ๊ฐ์ฅ ๋ถํ์คํ ์ถ์ ํด๋นํ๋ ์๋ต์์ ๋ฅ๋์ ์ผ๋ก ์ ํ(Active Learning) ํด ๋ฐ์ดํฐ ํจ์จ์ ๊ทน๋ํ
Active Learning์ฌ์ฉ์์๊ฒ ์๋ฌด ์ง๋ฌธ์ด๋ ๋ฌป์ง ์๊ณ ์ฌ์ฉ์์ ์ทจํฅ์ ๊ฐ์ฅ ๋นจ๋ฆฌ ์์๋ผ ์ ์๋ ์ง๋ฌธ์ ๊ณจ๋ผ์ ๋ฌป๋ ๊ฒ
- e.g., ๋ต๋ณ A์ B ์ค ์ด๋ ์ชฝ์ด ๋ ์ข์๊ฐ?
- ํ์ฌ ฮป ์ถ์ ์ด ๊ฐ์ฅ ๋ถํ์คํ ์ถ์ ํด๋นํ๋ ์๋ต์์ ๋ฅ๋์ ์ผ๋ก ์ ํ(Active Learning) ํด ๋ฐ์ดํฐ ํจ์จ์ ๊ทน๋ํ
โ ์ ์ฌ์ฉ์์ ๋ํด ๏ปฟ๋ ๊ณ ์ ํ ์ฑ, logistic regression์ผ๋ก ์ฌ์ฉ์์ weight vector๋ง ๋ง์ถ๋ฉด ๋จ
Step 3. Personalized ์๋ต ์์ฑ
- LLM์ ์๋ก ํ์ตํ์ง ์๊ณ , Personalized Reward๋ก ์๋ต ์ ํ
- ํ์ต๋ ๊ณตํต ์ถ ๏ปฟ ์ ์ ์ฌ์ฉ์์ ๊ฐ์ค์น ๏ปฟ๋ฅผ ๊ฒฐํฉํด personalized reward๋ฅผ ๊ณ์ฐ
- ์ถ๋ก ์, ์ด ๋ณด์ ๊ฐ์ ๊ฐ์ง๊ณ ์๋ต ์ ํ
Experiments
setup
- model: qwen 2.5 ๊ณ์ด
dataset
- Attributes
- ์ ์๋ค์ด ๋ง๋ synthetic personalization ๋ฐ์ดํฐ์
- PRISM
- ์ ์ธ๊ณ ๋ค์ํ ์๋ต์๋ค์ LLM ์ ํธ ๋ฐ์ดํฐ๋ฅผ ๋ด์ ๋ฐ์ดํฐ์
- 1.5K users, 3K prompts and answers
- Attributes
metrics
- User Preference AUC-ROC: ์๋ต์ ์ค ์ด๋ ๊ฒ์ ์ฌ์ฉ์๊ฐ ์ ํธํ ์ง ๋งํ๋๊ฐ
- Win rate: ๊ฐ์ธํ reward๋ฅผ ์ด์ฉํด ์์ฑํ ์๋ต์ด ๋น๊ฐ์ธํ baseline๋ณด๋ค ์ผ๋ง๋ ๋ ์ ํธ๋๋๊ฐ
Baseline
- Standard RLHF: ๋ชจ๋ ์ฌ์ฉ์๋ฅผ ํ๋์ ์ ์ญ reward๋ก ํ์ต
- Model per User: ์ฌ์ฉ์๋ง๋ค ๊ฐ๋ณ reward model ํ์ต
Baseline ๋๋น ์ฑ๋ฅ ํ๊ฐ
๋ชฉํ์๋ก์ด ์ฌ์ฉ์์๊ฒ์ ํผ๋๋ฐฑ์ ๋ฐ์์ ๋, ๋๊ฐ ๊ฐ์ฅ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๋น ๋ฅด๊ฒ ํ์ตํ๋์ง
- ์คํ๊ฒฐ๊ณผ
- Standard RLHF
- ๊ฐ์ธํ ๋ชจ๋ธ์ด ์๋๋ฏ๋ก ์ฑ๋ฅ ๋ณํ X
- Model per user
- ์ฌ์ฉ์ ๋ณ ๋ฐ์ดํฐ๊ฐ ์ ๊ธฐ ๋๋ฌธ์ ๋ง์ ์๋ต์ด ์์ฌ์ผ ์ฑ๋ฅ์ด ์ค๋ฅด๊ธฐ ์์ํจ
- PReF(Ours)
- ์ ์ ์์ ์ฌ์ฉ์ ์๋ต๋ง์ผ๋ก๋ personalization ์ฑ๋ฅ์ ๋น ๋ฅด๊ฒ ์ฌ๋ฆผ
- x์ถ: ์ ์ฌ์ฉ์์๊ฒ์ ๋ฐ์ ์ ํธ ์๋ต ์
- y์ถ
- User Preference AUC-ROC: ์๋ต์ ์ค ์ด๋ ๊ฒ์ ์ฌ์ฉ์๊ฐ ์ ํธํ ์ง ๋งํ๋๊ฐ
- Win rate: ๊ฐ์ธํ reward๋ฅผ ์ด์ฉํด ์์ฑํ ์๋ต์ด ๋น๊ฐ์ธํ baseline๋ณด๋ค ์ผ๋ง๋ ๋ ์ ํธ๋๋๊ฐ
- Standard RLHF
Ablation Study
(A) SVD ์ด๊ธฐํ์ regularization์ด ์ง์ง ํ์ํ๊ฐ?
- Full: ์ ์ฒด ๋ฐฉ๋ฒ ์ฌ์ฉ
- No Reg.: w/o regularization
- No SVD: w/o SVD initialization
โ ์ ๊ทํ SVD ์ด๊ธฐํ ์์ด๋ ์ฑ๋ฅ ์ ํ์ ๋ถ์์ ํด์ง
(B) base reward function ๊ฐ์ ๏ปฟ๋ ๋ช ๊ฐ๊ฐ ์ ์ ํ๊ฐ?
- x์ถ: ๊ณตํต ์ ํธ ์ถ ๊ฐ์
- ์คํ ๊ฒฐ๊ณผ
- ๏ปฟ๊ฐ 1~3์ผ ๋๋ ์ฑ๋ฅ์ด ๋น ๋ฅด๊ฒ ์ค๋ฅด์ง๋ง 4~6๊น์ง๋ ์ฑ๋ฅ์ด ๊ทธ๋ค์ง ์ค๋ฅด์ง ์์
โ ์ ํธ ์ถ์ ๋ง์ด ๋๋ฆฐ๋ค๊ณ ์ฑ๋ฅ์ด ๊ณ์ ์ค๋ฅด์ง๋ ์๋๋ค
โ โญ ์ฌ๋์ ๊ณตํต๋ ์ ํธ๊ฐ ์ค์ ๋ก ์ ์ฐจ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๊ตฌ๋!
๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต
๋ชฉํ ๋ฐ์ดํฐ์
ํฌ๊ธฐ๊ณผ base reward model โ ์ฌ์ฉ์ ์ ํธ ์์ธก ์ฑ๋ฅ ์ฌ์ด์ ์ฐ๊ด์ฑ
- ๋ฐ์ดํฐ์ = PRISM ๊ธฐ๋ฐ ํ์ต ๋ฐ์ดํฐ
- ์คํ ๊ฒฐ๊ณผ
- ๋ฐ์ดํฐ์ ์ด ์ปค์ง์๋ก ๋ชจ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์
- ๊ฐ์ ๋ฐ์ดํฐ ํฌ๊ธฐ์์์ ์ฑ๋ฅ: 3B > 1B > 0.5B
- ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ง์์ง์๋ก ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด ์ค์ด๋ฆ
โ ๋ ํฐ reward model๊ณผ ๋ ๋ง์ ๋ฐ์ดํฐ๋ personalization ์ฑ๋ฅ์ ํฅ์์ํด
human eval
- MIT/Harvard ๊ณ์ด์ 28๋ช
์์์๋ฅผ ๋์์ผ๋ก, ์ 15๊ฐ ๋น๊ต์์ ์ทจํฅ์ ํ์ตํ๊ณ ๋ค 15๊ฐ์์ ํ๊ฐ
- personalized response๊ฐ ๊ธฐ๋ณธ GPT-4o ์๋ต๋ณด๋ค 67% win rate๋ฅผ ๋ณด์






