Whatโs In My Human Feedback? Learning Interpretable Descriptions of Preference Data
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฝ์คํผ | ๊ฐ์ : ์ ํธ๋๋ ์๋ต์ Feature๋ฅผ ์ฝ ํ์ฑํ๋๋๋ก Sparsity ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํด์ ๊ฐ๋ฅํ๊ฒํ๋ ๊ฒ์ด ์ด ๋
ผ๋ฌธ์ ๊ฐ์ ์ฝ์ : Feature๊ฐ์ ์ํฅ๋ ฅ์ด ์ ์ฌํ์ฌ 4๊ฐ์ Feature๋ฅผ ๊ณ ๋ฅผ ์ ์๋ ๊ฒฝ์ฐ์ ๋ํด์๋ ์ด๋ป๊ฒ ๋ฐฉ๋ฒ์ ์ ์ฉํ ์ง ๊ถ๊ธํจ. ์ ์: ํด์ ๊ฐ๋ฅ์ฑ์ ์ํด์ ์ ์ฌ์ ํน์ง ์ถ ์ถ์ถ์ ์ฆํญํ๊ฑฐ๋, ๋ช ํํ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํด๋ณด์. | 4.5 |
| ์ปคํผ | ์ฅ์ : response์ โ์ฐจ์ด ์๋ฒ ๋ฉโ ์ latent space๋ก ์์ถํ์ฌ ์ ํธ๋์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋
ผ๋ฌธ. ์ค์ ๋ก latent space์ ์๋ฒ ๋ฉ ์ฐจ์์ โ์์ถโ ํด ํํํ๋๋ฐ ์์ด์ ๋ง์ ์ ๋ณด ์์ค์ด ์์๊ฑฐ๋ผ ์๊ฐํ์ง๋ง, ๊ฒ์ฆ๊ฒฐ๊ณผ์์ ์์ representation์ผ๋ก๋ baseline์ ํฌ๊ฒ ๋ค์ง์ง ์๋ ์์น๊ฐ ๋์จ ๊ฒ์ด ์ ๊ธฐํ์. ์ฆ, ์ ๋ณด ์์ค์ ๋นํด ์ป๋ โ์ค๋ช
๊ฐ๋ฅ์ฑโ์ ๊ฐ์น๋์ด ์ปค๋ณด์ด๋ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํจ. ์ฝ์ : latent space์ ์ฐจ์ ์์ถ์ผ๋ก ์ธํด ์ด์ฉ ์ ์์ด ๋ฐ์ํ๋ ์ ๋ณด ์์ค. ์ ์ : ์ ๋ณด ์์ค์ ๋ถ๊ฐํผํ์ง๋ง, ์ต์ํํ๊ธฐ ์ํด์ K์ M์ ๋ฐ๋ฅธ ๋ง์ ์คํ ๋ฐ ๊ฒฐ๊ณผ๊ฐ ์ ์๋๋ฉด ์ข์ ๊ฒ ๊ฐ์. | 4.2 |
| ์ผ๋ผ | ์ฅ์ : ์ธ๊ฐ ์์ ๋ ๋ณธ์ธ์ด ์ด ์๋ต์ ์ ๊ณจ๋๋์ง๋ฅผ ๋ชจ๋ฅผ ์ ์๋ค๋ ๋จ์ ์ด ์๋๋ฐ, ์๋ฏธ๊ฐ ์๋ค๊ณ ์๊ฐํจ. ๋ํ ๋ณธ ๋
ผ๋ฌธ์ด ์ฃผ์ฅํ๋ ์์ด๋์ด์ so what? ์ ๋ํ ์๋ฌธ์ ๋ฐ์ดํฐ ํ๋ ์ด์
๋ฑ ์จ๋จน์๋ฐ๊ฐ ์๋ค๋ ์ ์์ ๊ธฐ์น์ ๊ฒฐ์ด ์ฐธ ์ข์์ ๋จ์ : BatchTopK(32,4)๊ฐ ๊ฒฝํ์ ์ผ๋ก ์ ์ผ ์ข์๋ค๊ณ ํ๋๋ฐ ์ ์ข์์ง ์๋ฌธ์. ์ข ๋ latent space์ ํฌ๊ธฐ๋ฅผ ๋๋ ธ์ผ๋ฉด ๋ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์ก์๋ผ ์ ์์ง ์์์๊น? ์ ์: M๊ณผ K๋ฅผ ๋ค๋ฅด๊ฒ ํ ์คํ์ ๋ณด์์ผ๋ฉด ๋ ์ข์์ ๊ฒ ๊ฐ์ | 4.2 |
| ๋น์๋จ | ์ฅ์ : ์ง๊ธ๊น์ง๋ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋ฏฟ๊ณ ์ฌ์ฉํ๋๋ฐ ์ด๊ฒ์ '์' ๊ณจ๋๋์ง๋ ์ ์๊ฐํ์ง ๋ชปํ์๊น! ๋ํ '๋ฐ์ดํฐ๋ฅผ ๋ค์ํ๊ฒ ์ฌ์ฉํ๋ฉด ์ผ๋ฐ์ ์ผ๋ก ์ข๋ค~' ๋ผ๋ ์ง๊ด์ด ์๋๋ฐ, ๋ฐ์ดํฐ ๋ค์์ฑ์ด ํญ์ ์ด๋์ ์๋๊ณ , ์๋ก ์์ถฉํ๋ ์ ํธ ์ ํธ๊ฐ ์์ผ ์ ์์ ์ฝ์ : SAE๊ฐ response pair์ ์๋ฒ ๋ฉ ์ฐจ์ด์ ๊ธฐ๋ฐํด์๋ง feature๋ฅผ ํ์ตํ๊ธฐ ๋๋ฌธ์, response์ ์ ํธ ์ฌ๋ถ๊ฐ prompt ๋งฅ๋ฝ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ๊ฒฝ์ฐ๋ ํฌ์ฐฉํ์ง ๋ชปํ ๋ฏ ์ ์: prompt์ ์ ๋ณด๋ฅผ ์๋ฒ ๋ฉ์ด๋ feature ๋ถ์ ์ฐจ์์ ๋ฐ์ํ ์๋ ์์๊น? ๊ทธ๋ฆฌ๊ณ M, K์ ๋ํ ๋ ์คํ์ด ์์ด๋ ์ข์๊ฒ ๊ฐ์ | 4.3 |
| ์นซ์ | ๊ฐ์ : ์๋์ผ๋ก ์ ํธ ํน์ฑ ๋ฐ๊ฒฌํ๊ณ ์ ํ๋ ๋ชฉํ์, ์ด์ SAE ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์ ๋ง์ ์ฝ์ : ์ ํธ ์์ธก ์ฑ๋ฅ์ ์์ SAE latent ์ฌ์ฉํ๋๋งํผ ๋ง์ด ๋๊ธฐ ์ด๋ ค์ ์ ์: ํด์ ๊ฐ๋ฅ์ฑ์ ์ค์์ํ๊ณ ์๋๋งํผ, ์๋ ๋ฐ๊ฒฌํ ์ ํธ ํน์ฑ์ ๋ํ ๋ถ์์ด ์ข๋ ์์ผ๋ฉด ์ข์์๋ฏ (๊ธฐ์กด์ ์ ์ํ๋ ์ ํธ ํน์ฑ๊ณผ ์ฐจ์ด์ , ๊ธฐ์กด LLM์ด ์ด๋ฅผ ์ ๋ฐ๋ฅด๊ณ ์๋์ง) | 4.3 |
| ์คํฅ๋ธ๊ธฐ | ๊ฐ์ : ์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ์, ๊ทธ๋ ๊ฒ ์ ํธ๋๊ฐ ๊ฒฐ์ ๋์๊ณ , ๋ชจ๋ธ์ด ๋ฌด์์ ํ์ตํ๊ธฐ๋ฅผ ์ํ๋์ง ๋ณด์ฌ์ฃผ๋ ๊ฒ. ๋๋ฌด ์ค์ํ๊ณ , ๋ช
ํํ motivation์. ์ฝ์ : ์ฐ๋ฆฌ๊ฐ ์ฌ๋์ด๋๊น ๊ทธ๋ ๊ธด ํ์ง๋ง, ๊ตณ์ด ์์ฐ์ด ๋จ๊ณ์์ ๊ทธ ์ค๋ช ์ ๋ณด๊ณ , ์ดํดํด์ผ ํ๋? ๊ทธ๋ฅ ๋ชจ๋ธ๋ง ์์๋ ๋์ง ์๋? ๋ผ๋ ์๊ฐ์ด ๋ค์์. ์ ์: ๋ชจ๋ธ๊ณผ ์ฌ๋์ ์ ํธ๋ ์ฐจ์ด๊ฐ ๋ถ๋ช ํ ์์ํ ๋ฐ, ์ฌ๋๊ด์ ์์๋ง ๋ณธ ๊ฒ ๊ฐ๋ค. ๋ชจ๋ธ ๊ด์ ์์ ๊ณ ๋ ค๋ ํ์ํ์ง ์๋? | 4.8 |
| ๋์ค๋ฅ | ์ฅ์ : ์ธ๊ฐ์ ์๊ฐ์ ๋ชจ๋ธ๋จ์์ ํด์ํ๋ ๊ฒ์ ์ธ์ ๋ ํฅ๋ฏธ๋ก์! ํนํ LLM์ ์ฌ์ฉํด์ ์์ฐ์ด๋ก ํด์ํ ์ ์๊ฒ ํด์ ๋ ์ํฉํธ ์์ ์ด๊ฑธ๋ก ์ค์ ๋ฐ์ดํฐ์
์ ๋ํ ๋ถ์์ ํ๋ค๋ ๊ฒ ๊น์ง ํด์ ์์ฃผ soundnessํจ!!! ์ด๊ฑธ 4๋ช
์ด์ ํ๋ค๊ณ ? ๋จ์ : ์์งํ ๊ทธ๋ฅ 3b finetuning ์์ผ์ ์ธ๊ฑฐ๊ฐ์ ์์ ๊ทธ๊ฒ ๋ถ๋ด์ค๋ฌ์ด cost๋ ์๋๊ณ ๊ตณ์ด SAE๋ก ํด์ํด์ผํ๋? ์๊ฐ์ด ๋ฆ ์ ์: ๋ challengingํ ํ๊ฒฝ์์ SAE๋ก ๋ถ์ํด์ผ๋ง ์ป์ ์ ์๋ ํด์์ ๋ํด ๋์ถ ํ ์ ์์ผ๋ฉด ์ข์ ๊ฒ ๊ฐ์! | 5 |
| 404 | ๊ฐ์ : ์ ๋ชฉ๋ถํฐ ์คํ๊น์ง ๋ชจ๋ ๋ค ์ฌ๋ฐ๋ค!!! ๋ชจ๋ ๋ด์ฉ์ด ๋ค reasonableํด์ ๋งํ๋ ๋ถ๋ถ ์์ด ์ ์ ์ฝํ์. ๋จ์ : Validating Learned Features ๋ถ๋ถ์์ ์ฑ๋ฅ์ด ์ข ์์ฝ๋ค?์ ์: Do I know this entity? ๋
ผ๋ฌธ์์์ฒ๋ผ SAE ๊ด๋ จ ๋ถ์์ด ์ถ๊ฐ๋๋ฉด ์ข์๋ฏ | 5 |
| ๊ตญ๋ฐฅ | ๊ฐ์ : ์์ฐ์ด๋ก feature๋ฅผ ์ค๋ช
ํ๋ ๋จ๊ณ์์ LLM์ ํ์ฉํ๋ ๊ฒ์ด ํฅ๋ฏธ๋กญ๊ณ ์ฌ๋์ด ์ง์ ๋ ์ด๋ธ๋งํ ์ด์ ์ค๋ช
๊ณผ 60% ์ด์ ์ผ์นํ๋ค๋ ์ ์์ ์ค๋์ด ๋๋๊ฒ ๊ฐ๋ค ์ฝ์ : ๊ฒ์ฆ์์ ์ธ๋ถ ML ์ฐ๊ตฌ์ 3๋ช ์๊ฒ ํ๊ฐ๋ฐ๋ ๋ฐฉ์์ ๊ท๋ชจ๊ฐ ์๊ณ ML ์ ๋ฌธ๊ฐ์ ํ์ ๋๋๊ฒ ์๋๊น? ์ ์: ํ๊ฐ์ ๋๋ฉ์ธ์ ๋ํ์ ์คํ | 4.5 |
| AI | ๊ฐ์ : Reward ๋ชจ๋ธ์ ์์ธก์์ฒด๋ ์ํ์ง๋ง ์ ์๋ต์ ์ ํํ๋์ง ๋ชจ๋ฅด๋๋ฐ, ๋ฐ์ดํฐ ํด์๋ฌธ์ ๋ฅผ ์ง์ ์ ์ผ๋ก ๋ค๋ฃฌ๋ค๋ ์ ์์ interpretability ์ธก๋ฉด์ ๊ฐ์ ์ด ์กด์ฌ ์ฝ์ : response ๊ฐ ์๋ฒ ๋ฉ ์ฐจ์ด๋ฅผ ๊ณ ๋ คํ ๋ prompt ๋ด ๋๋ฉ์ธ ์ง์์ด ๋ค์ ์ฝํ๊ฒ ๋ฐ์๋ ์ ์๋ค ์ ์: Prompt์ conditioned๋ feature ์์ฑ์ ์ํด ๋ฐ์ดํฐ์ ๋ง๋ค ๋ฐ๋ก ํ์ตํ๋๊ฒ์ด ์๋ foundation model์ ์ ์ํ ์ ์์ | 4.6 |
TL; DR
SAE๋ฅผ ํตํด preference dataset์์ ๋ ์๋ต ๊ฐ ์ ํธ๋ฅผ ๊ฒฐ์ ์ง๋ ์ ์ฌ์ ํน์ง(feature) ์ถ์ ์๋์ผ๋ก ์ถ์ถํ๊ณ , ์ด๋ค ์๋ต ํน์ฑ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๊ฒฐ์ ํ๋์ง ์์ฐ์ด๋ก ํด์ ๊ฐ๋ฅํ๊ฒ ์ค๋ช ํ๋ WIMHF ๋ฐฉ๋ฒ๋ก ์ ์ ์
- Cited: 0
- Github: https://github.com/rmovva/wimhf
- ICLRโ26 Oral
- Related Paper: https://arxiv.org/abs/2411.14257
Preliminary
Autoencoder
- ์ ์: ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถํ์ฌ ํต์ฌ ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ก๋ถํฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ณต์ํ๋๋ก ํ์ตํ๋ ์ ๊ฒฝ๋ง
- ๊ตฌ์ฑ์์
- Encoder:
- ๋ชฉํ: ์ ๋ ฅ ๏ปฟ ๋ฅผ ์ ์ฐจ์ ํํ ๏ปฟ๋ก ์์ถ
- ๋ถํ์ํ ์ ๋ณด(๋ ธ์ด์ฆ)๋ฅผ ๋ฒ๋ฆฌ๊ณ , ์ค์ํ ํน์ง๋ง ๋จ๊ฒ๋
- Decoder:
- ๋ชฉํ: ์์ถ๋ ์ ์ฐจ์ ํํ ๏ปฟ๋ฅผ ๋ค์ ์๋ณธ ์ ๋ ฅ ๏ปฟ๊ณผ ์ต๋ํ ๋น์ทํ ๋ฐ์ดํฐ ๏ปฟ๋ก ๋ณต์
- ์ ์ฌ ๊ณต๊ฐ (Latent Space / Bottleneck):
- ์ธ์ฝ๋์ ์ํด ์์ถ๋ ์ ์ฐจ์ ํํ ๏ปฟ๊ฐ ์กด์ฌํ๋ ๊ณต๊ฐ
- ๋ฐ์ดํฐ์ ํต์ฌ์ ์ธ ํน์ง์ด ์์ถ๋์ด ์์
- ๊ฐ์ฅ ๋ฎ์ ์ฐจ์์ด๊ธฐ ๋๋ฌธ์ย ๋ณ๋ชฉ(bottleneck)์ด๋ผ๊ณ ๋ ๋ถ๋ฆผ
- Encoder:
- ํ์ต๋ชฉํ
- ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ ํ์ต์์ผ์
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถ ํ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋ณต์
- ์ด ๊ณผ์ ์์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ๋ถํ์ํ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๋ ๊ฐ์ฅ ์ค์ํ ํน์ง์ด ๋ฌด์์ธ์ง ์ค์ค๋ก ํ์ต
- ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ์ ํ์ต์์ผ์
Sparse Autoencoder (SAE)
์ ์ ์
๋ ฅ ๋ฒกํฐ๋ฅผ latent ๊ณต๊ฐ์ผ๋ก ๋ณํํ ๋ค ๋ค์ ๋ณต์ํ๋๋ก ํ์ตํ๋, latent ๋ฒกํฐ์ ๋๋ถ๋ถ์ 0์ผ๋ก ๋ง๋ค๊ณ ์์์ ๋ด๋ฐ๋ง ํ์ฑํ๋๋๋ก ๊ฐ์ ํ๋ ์คํ ์ธ์ฝ๋
- ์์์ ๋ด๋ฐ๋ง ์ผ์ ธ์๊ธฐ ๋๋ฌธ์ sparse ํ๋ค๊ณ ํจ
- Why Sparse Autoencoder?
- ์ผ๋ฐ ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ๋ฅผ ์์ถ(์ฐจ์ ์ถ์)ํ์ง๋ง, SAE๋ ์ฐจ์ ์ถ์/ํ์ฅ ๋ชจ๋ ๊ฐ๋ฅํจ!
โ ๊ทธ ์์์ latent vector๋ง ์ผ์ง๋๋ก ๋ง๋ค์ด ๊ฐ latent๊ฐ ๋๋ ทํ ์๋ฏธ ํ๋์ฉ ๋ด๋นํ๋๋ก ์ ๋ํจ์ผ๋ก์จ
๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ํด์ ๊ฐ๋ฅํ ๊ฐ๋ ๋จ์๋ก ๋ถํด
- ์ผ๋ฐ ์คํ ์ธ์ฝ๋๋ ๋ฐ์ดํฐ๋ฅผ ์์ถ(์ฐจ์ ์ถ์)ํ์ง๋ง, SAE๋ ์ฐจ์ ์ถ์/ํ์ฅ ๋ชจ๋ ๊ฐ๋ฅํจ!
Introduction
Background
- Preference Fine-Tuning, PFT
- LLM alignment์ ํต์ฌ ๋ฐฉ๋ฒ
- ์ธ๊ฐ์ ์ ํธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ์ align
- PFT ์๋์๋ฆฌ
Prompt โ (Response A, Response B) โ Human์ด ๋ ๋์ ์๋ต ์ ํ โ ๋ชจ๋ธ ํ์ต- ํ๋์ Prompt์ ๋ํด ์์ฑ๋ ๋ ๊ฐ์ ํ๋ณด ์๋ต ์ค์์ ์ธ๊ฐ์ ํ๋์ ์๋ต์ ์ ํ
RQ์ธ๊ฐ์ ๋ ์๋ต ์ค ์ ํน์ ์๋ต์ ์ ํํ์๊น?
Motivation & Contribution
RQ์ธ๊ฐ์ด ์ด๋ ํ ํน์ฑ(fea์ ๊ธฐ์ค์ผ๋ก ์ ํธ ์๋ต ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ฅผ๊น?
- ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ
- Reward model์ ์ ํธ๋ฅผ ์์ธกํ ์ ์์ง๋ง ์ด๋ค ํน์ฑ์ด ์ ํ์ ์ ๋ํ๋์ง ์ค๋ช ํ์ง ๋ชปํจ
- ๊ทธ๋ ๋ค๊ณ ํน์ฑ(e.g., ์ ์คํจ, ์ ๋จธ ๋ฑ)์ ์ฌ์ ์ ์ ์ํ๋ ๋ฐฉ์์ ๋ฐ๊ฒฌ ๊ฐ๋ฅํ ํน์ฑ์ ์ ํํ ์ ์์
โ WIMHF Method ์ ์
- ๊ฐ์ค์ ์ฌ์ ์ ์ ์ํ์ง ์๊ณ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋์ผ๋ก ์ ํธ ํน์ฑ์ ๋ฐ๊ฒฌ
- Sparse Autoencoder(SAE)๋ฅผ ํตํด ์๋ต ๊ฐ ์ฐจ์ด๋ฅผ ํด์ ๊ฐ๋ฅํ feature๋ก ๋ถํด
- Preference Dataset ๏ปฟ๋ ๋ค์๊ณผ ๊ฐ์ ๋ถํฌ์์ ์ํ๋ง๋ ๋ฐ์ดํฐ ๏ปฟ ํํ๋ก ๊ตฌ์ฑ๋จ
Preference Dataset์ ์์ฑ ๋ถํฌ
- ๏ปฟ: ํ๋กฌํํธ by
์ธ๊ฐ
- ๏ปฟ, ๏ปฟ: ํ๋กฌํํธ์ ๋ํ 2๊ฐ์ ์๋ต by
LLM
- ๏ปฟ: ๋ผ๋ฒจ (๏ปฟ๋ฅผ ๊ณ ๋ฅผ ๊ฒฝ์ฐ y=1, ๏ปฟ๋ฅผ ๊ณ ๋ฅด๋ฉด y=0) by
์ธ๊ฐ
โญ Measurable Preferences
- ์ ์: ๋ ์๋ต ๏ปฟ, ๏ปฟ ๊ฐ ์ฐจ์ด๋ฅผ ์ค๋ช ํ๋ ์ถ
- ๋ฌธ์ ์ : Measurable Preferences๋ฅผ ์ธก์ ํ ์ ์๋ ๋๊ตฌ๊ฐ ์์
- ๋ ์๋ต์ ๊ฐ๊ฐ ํ ์คํธ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ ํ ์ฐจ์ด๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ ์๋ฏธ๋ ์์ผ๋ ์ค๋ช ๋ถ๊ฐ
โญ Expressed Preferences
- ์ ์: ๋ผ๋ฒจ ๏ปฟ๋ฅผ ์ค์ ๋ก ์์ธกํ๋ ํน์ฑ
- ๋ง์ measurable preference ์ค์์ ์ค์ ๋ก ์ ํ์ ์ํฅ์ ๋ฏธ์น ํน์ฑ
- e.g., ๏ปฟ๊ฐ secular(์ธ์์ )์ด๊ณ ๏ปฟ๋ ์๋ ๋, ๏ปฟ๊ฐ ๋ ์์ฃผ ์ ํ(prefer) ๋๋ค๋ฉด
โ expressed preference: secular
- โญ Expressed preference๋ฅผ ์์์ผ ๋ชจ๋ธ์ด ์ด๋ ํ ๋ชฉํ๋ก ์ ๋ ฌ๋๊ณ ์๋์ง ์ ์ ์์!!
Method: WIMHF
- 3 Step Method
- SAE๋ฅผ ํ์ตํ์ฌ Measurable Preferences (vector ํํ) ์ถ์ถ
- ๊ฐ feature์ ๋ํ ์์ฐ์ด ์ค๋ช ์์ฑ
- ์ด๋ค feature๊ฐ ์ค์ ๋ก ์ ํธ ๋ผ๋ฒจ์ ๊ฒฐ์ ํ๋์ง (Expressed Preferences) ๋ถ์
Step 1: Learning measurable preferences with SAEs
๋ชฉํpreference pair (๏ปฟ, ๏ปฟ, ๏ปฟ)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ measurable preferences์ ์ฐพ์!- (๋ ์๋ต์ด ์ด๋ ํ ํน์ฑ์ ๊ธฐ์ค์์ ๋ค๋ฅธ๊ฐ๋ฅผ ์์๋ณด์!)
- ๋ ์๋ต์ ํ
์คํธ ์๋ฒ ๋ฉ ์ฐจ์ด์ธ ๏ปฟ๋ง์ผ๋ก ์ ํธ์ ๊ธฐ์ค์ ๋ํ ์ค๋ช
๊ฐ๋ฅ์ฑ์ด ๋ถ์กฑ
โ ๏ปฟ์ SAE๋ฅผ ๊ตฌํ ๋ค BatchTopK(32,4) ๊ธฐ๋ฒ ์ ์ฉ!
- ์๋ ์๋ฆฌ
eฮ (1536์ฐจ์ by text-embedding-3-small) โ SAE encoder โ 32์ฐจ์ z โ BatchTopK sparsity (32,4)๋ก โ ํ๊ท 4๊ฐ๋ง ํ์ฑํ โ ์ต์ข sparse representation Z (ํ๋์ ๋ฐ์ดํฐ ๋น 4๊ฐ์ latent vector๋ง ํ์ฑํ)
- ์ต์ข
Z์ ๊ตฌ์กฐ (๏ปฟ ํ๋ ฌ)
๏ปฟ
- ๊ฐ ํ ๋น 4๊ฐ์ latent vector ๋ง activation ๋จ
- row: ๊ฐ ๋ฐ์ดํฐ ๏ปฟ์ ํฌ์ ํํ
- column: ๋ฐ์ดํฐ๋ฅผ ๋ํ๋ด๋ ํ๋์ feature ๏ปฟ
- ๊ฐ ํ ๋น 4๊ฐ์ latent vector ๋ง activation ๋จ
Step 2: Describing measurable preferences in natural language
- ๋ชฉํ: step1์์ ์ป์ ์ต์ข ํํ ๏ปฟ๋ฅผ ํตํด ๊ฐ feature๊ฐ ๋์ํ๋ ์ธ๊ฐ์ด ํด์ ๊ฐ๋ฅํ๋๋ก ํ์ต
- ์๋์๋ฆฌ
- ๊ฐ feature ๏ปฟ์ ๋ํด ํด๋น ๊ฐ์ด ํฐ preference pair 5๊ฐ๋ฅผ ์ํ๋ง
- ๏ปฟ๊ฐ ํฌ๋ค โ ๋ ์๋ต ์์ ์ฐจ์ด ๏ปฟ๊ฐ ํฌ๋ค โ ๋ ์๋ต์์ ๊ตฌ๋ถํ๊ธฐ ์ฌ์!
- LLM (gpt-5-low)์๊ฒ ๋ ์๋ต์ ๊ฐ์ฅ ์ ๊ตฌ๋ถํ๋ ๊ฐ๋ (Measurable Preference)๋ฅผ ์์ฐ์ด ์ค๋ช ์ผ๋ก ์์ฑํ๋๋ก ํจ
โ ์ด ๊ณผ์ ์ ํตํด ํด๋น feature๊ฐ ํ์ฑํ๋๋ ์์ธ์ ๋ํ ์์ฐ์ด ์ค๋ช ์ด ์์ฑ
- ๊ฐ feature ๏ปฟ์ ๋ํด ํด๋น ๊ฐ์ด ํฐ preference pair 5๊ฐ๋ฅผ ์ํ๋ง
Step 3: Identifying expressed preferences
- ๋ชฉํ: ํด์ ๊ฐ๋ฅํ ๊ฐ feature ๏ปฟ๊ฐ ์ ํธ ๋ผ๋ฒจ ๏ปฟ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง ๋ก์ง์คํฑ ํ๊ท๋ก ์ถ์
- ๏ปฟ๊ฐ ์ ํ๋ ํ๋ฅ ๏ปฟ โ ํน์ง ๏ปฟ์ ์ํฅ + ๊ธธ์ด ๏ปฟ ์ฐจ์ด์ ์ํฅ
- ๏ปฟ
- ๋ต๋ณ์ด ๊ธธ๋ฉด ๋ ์ ํธ๋๋ ๊ฒฝํฅ์ด ์์ผ๋ฏ๋ก ํ๋ํฐ ๋ถ์ฌ
- ๏ปฟ๊ฐ ์ ํ๋ ํ๋ฅ ๏ปฟ โ ํน์ง ๏ปฟ์ ์ํฅ + ๊ธธ์ด ๏ปฟ ์ฐจ์ด์ ์ํฅ
- ๏ปฟ: ๏ปฟ๊ฐ ์ ํธ์ ์ผ๋ง๋ ์ํฅ์ ์คฌ๋์ง
- if) ๏ปฟ > 0
- ๏ปฟ๊ฐ ํด์๋ก ๏ปฟ๊ฐ ์ ํ๋ ํ๋ฅ ์ฆ๊ฐ
- if) ๏ปฟ < 0
- ๏ปฟ๊ฐ ํด์๋ก ๏ปฟ๊ฐ ์ ํ๋ ํ๋ฅ ๊ฐ์
- ๏ปฟ๊ฐ ํด์๋ก ๊ทธ ํน์ง์ด ์ ํธ๋์ ๋ฏธ์น๋ ์ํฅ์ด ๊ฐํจ
Validating Learned Features
- SAE๋ฅผ ํตํด ์์ฑ๋ Feature๋ค์ด ์ ๋ง ์๋ฏธ๊ฐ ์๋์ง๋ฅผ 3๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๊ฒ์ฆ
1. ์ ํธ๋ ์์ธก ์ฑ๋ฅ
- settings
- baseline
- Finetuned Reward Model (Oracle)
- Llama-3.2-3B reward model
- preference dataset์ผ๋ก ์ง์ finetuning
- Embedding (P+R)
- ์ ๋ ฅ: prompt + response embedding ๏ปฟ์ feature๋ก ์ฌ์ฉ
- Embedding (R)
- ์ ๋ ฅ: response embedding ๏ปฟ๋ง ์ฌ์ฉ
- SAE
- Finetuned Reward Model (Oracle)
- metric
- AUC (Area Under the Curve): ๋ถ๋ฅ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๊ตฌ๋ณํ๋์ง ์ธก์ ํ๋ ์งํ
AUC ๊ฐ ์๋ฏธ 0.5 ๋๋ค 0.7 ๊ด์ฐฎ์ ์์ค 1.0 ์๋ฒฝํ ์์ธก
- AUC (Area Under the Curve): ๋ถ๋ฅ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๊ตฌ๋ณํ๋์ง ์ธก์ ํ๋ ์งํ
- baseline
- settings
2. ์ฌ๋์ด ์ด ์ค๋ช ๊ณผ ์ผ์นํ๋๊ฐ?
- Settings
- CA dataset์๋ annotator๊ฐ ์ ํด๋น ์๋ต์ ์ ํธํ๋์ง ์ง์ ์ด ์์ฐ์ด ์ค๋ช ์ด ์์
- WIMHF๋ ์ด ์ค๋ช ์ ๋ณด์ง ์๊ณ ํน์ง์ ํ์ต
- ์ด 5000๊ฐ์ preference pair๋ฅผ ์ํ๋ง ํ ์คํ
- metric
- Explanation match rate: LLM judge๊ฐ annotator explanation๊ณผ SAE feature๊ฐ ์ผ์นํ๋ ๋น์จ
- baseline
- Top Features
- ์ค์ ํ์ฑํ๋ SAE feature 4๊ฐ
- Random Features
- ๋๋ค์ผ๋ก ์ ํ๋ ๋นํ์ฑ feature 4๊ฐ
- Top Features
- Settings
3. ์ ๋ฌธ๊ฐ ์ ์ฑ ํ๊ฐ
- settings
- ์ธ๋ถ ML ์ฐ๊ตฌ์ 3๋ช ์ ๋ชจ์ง
- 5๊ฐ ๋ฐ์ดํฐ์ ์์ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ํน์ง 47๊ฐ๋ฅผ ํ๊ฐ
- ํ๊ฐ ๊ธฐ์ค: Predictive, Helpful, Interpretable
- settings
Experiment
dataset์ ๋ฐ๋ฅธ Measurable Preferences ์ฐจ์ด
- ๋ ๋ฐ์ดํฐ์
๋ชจ๋ ๊ฐ์น๊ด ๊ธฐ๋ฐ ๋ํ๋ฅผ ์ง์ํ์ง๋ง, ํ์ต๋ ํน์ง์ด ์ ํ ๋ค๋ฆ
- PRISM ํน์ง
- ๋ต๋ณ๋ค์ด ๋๋ต์ ๊ฑฐ๋ถํ๋๊ฐ vs ๋ต๋ณํ๋๊ฐ ๋๋ ์คํ์ผ๊ณผ ํค์์ ํฐ ์ฐจ์ด
- e.g., ๋ํ๋ ์ข ๊ต ๊ฐ์ ๋ฏผ๊ฐํ ์ง๋ฌธ์ ์ด๋ค ๋ต๋ณ์ ํํผํ๊ณ , ์ด๋ค ๋ต๋ณ์ ๊ตฌ์ฒด์ ์ผ๋ก ๋๋ต
- why?
- 21๊ฐ์ ์๋ก ๋ค๋ฅธ LLM ๋ชจ๋ธ๋ค์ ์ฌ์ฉํด ๋ต๋ณ์ ๋ฌด์์๋ก ๋ฝ์๋๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ๋ง๋ค ๋๋ตํ๋ ์คํ์ผ๊ณผ ๊ฑฐ๋ถ ๊ธฐ์ค์ด ๋ค๋ฆ
- ๋ต๋ณ๋ค์ด ๋๋ต์ ๊ฑฐ๋ถํ๋๊ฐ vs ๋ต๋ณํ๋๊ฐ ๋๋ ์คํ์ผ๊ณผ ํค์์ ํฐ ์ฐจ์ด
- CA ํน์ง
- ๋ต๋ณ๋ค์ด ๊ฑฐ๋ถ ์ฌ๋ถ๋ณด๋ค๋ ์ด๋ค ์ฃผ์ ์ ๊ฐ์น๊ด์ ๋งํ๋๊ฐ์ ์ง์ค
- e.g., ํ๊ฒฝ ๋ฌธ์ vs ์ฌํ ์ ์, ๊ธ์ ์ ํ๋ vs ๋นํ์ ํ๋)์์ ์ฐจ์ด๋ฅผ ๋ณด์
- why?
- 1๊ฐ์ ๋์ผํ LLM์ ์ฌ์ฉํ๋, ํ๋กฌํํธ๋ก "๊ฐ๊ธฐ ๋ค๋ฅธ 4๊ฐ์ง ๊ฐ์น๊ด์ผ๋ก ๋๋ตํด๋ด"๋ผ๊ณ ์ง์ ์ง์ํ๊ธฐ ๋๋ฌธ โ ๋งํฌ(์คํ์ผ)๋ ๋น์ทํ์ง๋ง ๋ด์ฉ์ ๋ค์ํจ
- ๋ต๋ณ๋ค์ด ๊ฑฐ๋ถ ์ฌ๋ถ๋ณด๋ค๋ ์ด๋ค ์ฃผ์ ์ ๊ฐ์น๊ด์ ๋งํ๋๊ฐ์ ์ง์ค
- PRISM ํน์ง
dataset์ ๋ฐ๋ฅธ Expressed Preferences ์ฐจ์ด
- x์ถ (ฮ win-rate): ์ค๋ฅธ์ชฝ(+)์ผ์๋ก ๊ทธ ํน์ง์ด ์๋ ์๋ต์ด ๋ ์ ํธ๋จ, ์ผ์ชฝ(-)์ผ์๋ก ๋ ์ ํธ๋จ
- ๊ฐ ์ : 5๊ฐ ๋ฐ์ดํฐ์ (ChatbotArena, CommunityAlign, HH-RLHF, PRISM, Reddit)
- ์คํ ๊ฒฐ๊ณผ
- ๊ตฌ์กฐ์ ํฌ๋งท์ ๊ฐ๋ ์๋ต์ ๋ณดํธ์ ์ผ๋ก ์ ํธ๋จ
- "๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ +๋ฐฉํฅ (CommunityAlign์์ +40%์ ๋๋ก ํฐ ์ ํธ๋)
- ๋ถํ์ค์ฑ ํํ, ๋ชจ๋ฅด๊ฒ ๋ค๊ณ ๋งํ๊ธฐ๋ ๋ณดํธ์ ์ผ๋ก ๋น์ ํธ๋จ
- ์ฌ๋๋ค์ AI๊ฐ ๋ชจ๋ฅธ๋ค๊ณ ํ๋ ๊ฒ์ ์ซ์ดํ๊ตฌ๋!
- Reddit์์ -25% ์์ค์ผ๋ก ๊ฐ์ฅ ๊ฐํ๊ฒ ๋น์ ํธ๋จ
- ๋๋น๋๋ ์ ํธ๋ค
- ๋น๊ณต์์ ์ด๊ณ ํํ์ ์ธ ํค(๋๋ด, ์ด๋ชจ์ง)
- PRISM์ -30% ์์ค์ผ๋ก ๋งค์ฐ ๋น์ ํธ/ChatbotArena, Reddit์ ์ฝ๊ฐ ์ ํธ
- ์์คํ
์ ๋ถํ๋ฑ, ํํ์ฑ ๋
ผ์
- CommunityAlign, HH-RLHF์ ๋น์ ํธ/PRISM, Reddit์ ์ ํธ
โ ๋ฒ์ฉ ์ ํธ ๋ชจ๋ธ์ ์กด์ฌํ์ง ์์!!
- REDDIT ๋ฐ์ดํฐ์ ์์ ์ ํธ๋๋ ์๋ต์ผ์ง๋ผ๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ ๋น์ ํธ๋ ์ ์์
- ๋น๊ณต์์ ์ด๊ณ ํํ์ ์ธ ํค(๋๋ด, ์ด๋ชจ์ง)
- ๊ตฌ์กฐ์ ํฌ๋งท์ ๊ฐ๋ ์๋ต์ ๋ณดํธ์ ์ผ๋ก ์ ํธ๋จ
Effective Data Curation (WIMHF๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ๊ณจ๋ผ๋ณด์!)
๋ฌธ์ Arena ๋ฐ์ดํฐ์
์์
- ๏ปฟ: ์์ ํ๊ฒ ๋ต๋ณ ๊ฑฐ๋ถ
- ๏ปฟ: unsafe ์ฝํ ์ธ ์์ฑ
- But, ์ฌ๋๋ค์ด ๏ปฟ๋ฅผ ์ ํธํ๋ ๊ฒฝํฅ์ ๋ณด์
โ ์ด ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ฉด unsafeํ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง
ํด๊ฒฐ ๋ ์ด๋ธ ํ๋ฆฌํ(Label Flipping)
- WIMHF๋ก unsafe๊ฐ ๊ฐํ๊ฒ ํ์ฑํ๋ ์์๋ค์ ์ฐพ์์ ํด๋น ์์๋ค์ ์ ํธ ๋ ์ด๋ธ์ ๋ฐ๋๋ก ๋ค์ง์
- ๏ปฟ ์ ํธ โ ๏ปฟ ์ ํธ๋ก ์์
- ์คํ ๊ฒฐ๊ณผ
- ๋ ์ด๋ธ์ ๋ง์ด ๋ค์ง์์๋ก Safety๊ฐ 8.9% โ 46.2%๋ก ๊ธ๊ฒฉํ ์์น
- + ๋ ์ด๋ธ์ ๋ค์ง์ด๋ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ๊ฑฐ์ ๋ณํ ์์ โ very nice!
- x์ถ:Safety
์ด๋ก, Overall (Safety๋ฅผ ์ ์ธํ ์ ๋ฐ์ ์ธ ์ฑ๋ฅํ๋
- y์ถ: RewardBench 2 Accuracy (%): Reward model ํ๊ฐํ๋ ๋ฒค์น๋งํฌ
- ์ผ์ชฝ (Safety): ์์ ์ฑ ๊ด๋ จ ๋ฌธ์ ์์์ ์ ํ๋
- ์ค๋ฅธ์ชฝ (Overall excl. Safety): ์์ ์ฑ ์ ์ธ ์ ๋ฐ์ ์ ํ๋
- x์ถ:Safety
Preference Dataset ํน์ง์ ์๋ ๊ฒ์ด ์ ์ค์ํ ๊น?
- ๋ฐ์ดํฐ์
์ ํธํฅ(Bias) ๋ฐ๊ฒฌ
- Preference dataset์๋ ์คํ์ผ, ํํ ๋ฐฉ์ ๊ฐ์ ์จ์ ํธํฅ์ด ํฌํจ๋ ์ ์์
โ ๋ฐ์ดํฐ์ ์ด ์๋ํ์ง ์์ ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌ ๊ฐ๋ฅ
- ๋ฐ์ดํฐ์
๊ฐ ์ถฉ๋ ๋ฐ๊ฒฌ
- ์๋ก ๋ค๋ฅธ dataset์ humor, tone, refusal ๊ฐ์ feature์ ๋ํด ์๋ก ๋ค๋ฅธ ์ ํธ๋ฅผ ๊ฐ์ง ์ ์์
โ ์ด๋ฅผ ๋ถ์ํ์ฌ ์ฌ๋ฌ preference dataset์ ์์ด ํ์ตํ ๋ ๋ฐ์ํ๋ ์ถฉ๋ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌ ๊ฐ๋ฅ
- ๊ฐ์ธํ(Personalization) ๊ฐ๋ฅ
- ์ฌ๋๋ง๋ค ์ ํธํ๋ ์คํ์ผ์ด ๋ค๋ฆ
- e.g.,
- bullet list vs paragraph
- formal tone vs informal tone
โ ์ ํธ feature๋ฅผ ๋ถ์ํด์ ์ฌ์ฉ์๋ณ ๊ฐ์ธํ๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์์















