26 March 2026
Language Model Personalization via Reward Factorization
COLM'25
๐ก์ฌ๋ฌ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๊ณตํต๋ ์ ํธ ์ถ(e.g., ์น์ , ๊ฐ๊ฒฐ, ๊ฒฉ์)์ผ๋ก ๋ถํดํด ํ์ตํ ๋ค, ์๋ก์ด ์ฌ์ฉ์๊ฐ ๋ค์ด์ค๋ฉด ์ถ๋ง๋ค ๋ค๋ฅธ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ์ฌ์ฉ์์ personalized๋ ์ ํธ๋ฅผ ๋น ๋ฅด๊ฒ ์ถ์ ํ์!
19 March 2026
Whatโs In My Human Feedback? Learning Interpretable Descriptions of Preference Data
ICLR'26 Oral
๐กSAE๋ฅผ ํตํด preference dataset์์ ๋ ์๋ต ๊ฐ ์ ํธ๋ฅผ ๊ฒฐ์ ์ง๋ ์ ์ฌ์ ํน์ง(feature) ์ถ์ ์๋์ผ๋ก ์ถ์ถํ๊ณ , ์ด๋ค ์๋ต ํน์ฑ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๊ฒฐ์ ํ๋์ง ์์ฐ์ด๋ก ํด์ ๊ฐ๋ฅํ๊ฒ ์ค๋ช ํ๋ WIMHF ๋ฐฉ๋ฒ๋ก ์ ์ ์