Mind the Value-Action Gap: Doย LLMs Act in Alignment with Their Values?
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ธ๋ํ๋ผ์ด๋ฐ์ด | 'neural' network์ธ LLM์ ๊ฑฐ์ง ์ฌ๋์ผ๋ก treatํ๊ณ ๋ค์ํ ์ฌ๋ฆฌํ ์ด๋ก ์ ๋จน์ฌ๋ณด๋ ์ฐ๊ตฌ๋ค์ด ๋๋ฌด ์ฌ๋ฐ์ด์ ํนํ LLM์ด ์ธํ๋ถ์ผ์น ํ๋ค๊ณ ํ๋๊น ๊ดํ ์ฌ๋๋์๊ฐ ๋๋ค์(?) ํธ๊ธฐ์ฌ์ด ๋๋ ๊ฐ์ค์ ์ธ์ฐ๊ณ , ๊ทธ๊ฒ์ ์คํ์ผ๋ก ์ ์ฐ๊ฒฐํ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํจ! | 4 |
| 3์ | LLM์ ์ ๋ขฐ ๊ฐ๋ฅ์ฑ์ ์ ๋ง๋ก ์ค์ธ๊ณ ์ฌ๋ก๋ฅผ ์ค์ฌ์ผ๋ก ๋ถ์ํ ์ข์ ๋
ผ๋ฌธ! ์๊ธฐ ์ํฉ์์ ์ธ๊ฐ์ด LLM์ ์ ์ ์ผ๋ก ์์กดํ๋ฉด ์๋๋ค๋๊ฑธ ์์ฌํ๋ ๋ฏ | 5 |
| ๊ณ ๋ถ | ๊ฐ์นโํ๋ ๊ฐ ์ผ์น๋ calibration(์์ ๊ฐโ์ค์ ์ ๋ต ๊ฐ ์ผ์น)์ ์ ์ฌํ๊ฒ ํ๊ฐํ ์ ์์๊ฒ ๊ฐ์. ์คํ๋ฐฉ๋ฒ์ ๊ฐ๋จํ๊ธด ํ์ง๋ง ํด๋น ๋ชจ๋ธ์ด ์ด๋ค ๋๋ฉ์ธ์ด๋ ๊ฐ์น๊ด์ ๊ฐ์ง๊ฒ๋ ํ์ต์ด ๋์๋์ง(์์ผฐ๋์ง) ๊ฐ์ ์ ์ผ๋ก ์ ์ ์์ ๊ฒ ๊ฐ์. | 3 |
| ์ฌ์ด์์ท | ๊ฐ์น๊ด์ ํด๋นํ๋ head์ ์ ์ฒด์ ์ธ attention์ alignment๊ฐ ์๊ฐ๋ณด๋ค ์ฝํ ๊ฒ ๊ฐ์! ์ฌ๋์ ๋ญ๊ฐ ํฐ ๊ฐ์น๊ด์์ ์๊ฐ์ด ๋ป์ด๋์ค๋๋ฐ, LLM์ ๊ทธ๋ ๊ฒ ํ์ตํ์ง ์๊ธฐ ๋๋ฌธ ์๋๊น? โ๋ํํ ๋ ๊ฐ์น๊ด๋ ๊ทธ๋ฅ ํ๋์ ๊ณ ๋ ค ์์์ผ~~โ ์ด๋ฐ ๋๋. ์ง์ง ๊ธฐ๊ณ๊ฐ๋ค. ์กฐ๊ธ ๋ฌด์ญ๋ค. ๋ ผ๋ฌธ์ ์ผ๋ก๋ ์ฐธ์ ํ๊ณ , soundness๋ ์ข์!! | 4.5 |
| ๋ฐฅ | ๋ฐ์ดํฐ ์์ฑ๋ถํฐ ํ์คํฌ ์ ์์ ํ๊ฐ ๋ฐฉ์๊น์ง, ์๊ณ ์ ํ๋ ๊ฒ์ ๋ง๊ฒ ๋ฐฉ๋ฒ๋ก ์ ์ ์งฐ๋ค. ์ค์ LLM ์ฌ์ฉ์์๊ฒ ์ค์ํ ๋ด์ฉ์ ๋ค๋ฃจ๊ณ ๊ฒฝ๊ฐ์ฌ์ ์ค | 4 |
| 6์ | ๊ฐ์น์ ํ๋ ์ฌ์ด์ misalignment๊ฐ ์ผ์ด๋ฌ์ ๋, LLM์ด ์ด๋ ํ ์ด์ ๋ก ๊ทธ๋ฌํ ํ๋์ ํ๋์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ์กฐ๋ง๊ฐ ๋์ค์ง ์์๊น ์ถ๋ค | 4 |
| ํ๋ฆฌ๋ฐ์ด์คํฑ์ค๋ ์ ์ฐ๊ท ๋จน์ด | LLM์ด ์ ๋ง ๊ฐ์น๊ด์ ๊ฐ์ง๊ณ ์์๊น? ๊ทธ๋ฅ ํ๋ฅ ์ ์ผ๋ก ์์ฑํ๋ ๊ฒ์ธ๋ฐ, ๊ฐ์น๊ด์ ์ฌ์ค ์ด๋ค ๊ธฐ์ค์ ์ด ์๊ณ ๊ทธ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํจ.โ ๊ฒฐ์ ์ ๊ธฐ์ค์ธ๋ฐ, ์ด๊ฒ ํ๋ฅ ์ ์์ฑ๊ณผ ๋ง์ง ์๋ ๊ฐ๋ ์ด๋ผ๊ณ ์๊ฐ์ด ๋ฆ. ์ฆ, ๊ฐ์น๊ด์ ๋ํด์ ์ฃผ์ฅํ๋ ๊ฒ ์์ฒด๊ฐ ์ด๋ฏธ ์ด์ํ๋ค๊ณ ์๊ฐํจ. ํ๋กฌํํธ์ ์ํฅ์ด ๋ ํฌ์ง ์์๊น? ํ๋ ์๊ฐ์ด ๋๋๋ฐ, ๋๋ฆ๋๋ก ๊ทธ๋ฐ ๊ฒ๋ค์ ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ ผ๋ฌธ์ด์ด์ ์ข์์. | 4 |
| ์์ธ์ด | LLM์ ๊ฐ์น๊ด์ ์ด๋ป๊ฒ ์ถ๋ ฅํ ์ ์์๊น์ ๋ํ ๋ต์ด ๋๋ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํจ. Model-action๊ฐ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๋ค๋ฉด ์ ๋ขฐ์ฑ์ ์ด๋ป๊ฒ ๋ณด์ฅํ ์ ์์์ง ์๊ฐํด ๋ณด๊ฒ ํ๋ ์ฐ๊ตฌ. | 4.5 |
TL; DR
๐ก
LLM์ด ์๊ธฐ ๊ฐ์น๊ด์ ๋ํด ์ง์ ์ฃผ์ฅํ๋ ๋ฐ์, ์ค์ ์ฃผ์ด์ง ์ํฉ์์ ํ๋ํ๋ ๊ฒ์ด ๋ค๋ฅผ ์ ์์!
๊ทธ๋์ ์ ๋นํ ๋ฏฟ๊ณ ์ฃผ์ํ๋ฉด์ ํ์คํฌ ๋งก๊ฒจ์ผ ํจ
Summary
Introduction
Motivation
- LLM์ societal decisions (์ฌํ์ ์์ฌ๊ฒฐ์ )
- ๊ณ ์ ๊ด๋ , ์ฑ์ฉ ๊ณผ์ ์์์ ํธํฅ ๋ฑ์ ์ํ ์์
- ๊ธฐ์กด ์ฐ๊ตฌ: LLM ์ง์ ์ ๋ฐํ์ผ๋ก LLM ํ๋์ ์ถ๋ก
- ๊ทธ๋ฌ๋ ๋์ด ์ผ์นํ์ง ์๊ธฐ๋ ํจ
- RQ: LLM์ ๊ฐ์น ์ง์ ๊ณผ ๊ฐ์น ๊ธฐ๋ฐ ํ๋์ด ์ด๋์ ๋ ์ผ์นํ๋๊ฐ?
- LLM์ ๊ฐ์น ์ ํ โ ํ๋ ์ ํ โ ๋ง์ด ๊ด์ฐฐ๋จ
Contribution
- ์ด๋ฌํ ์ฐจ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ๋ ValueActionLens ํ๋ ์์ํฌ ์ ์
- ์ธ๊ฐ ๊ฐ์น ์ด๋ก (Schewartz, 1994, 2012) ๊ธฐ๋ฐ์ผ๋ก value-informed actions (VIA) ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- ๊ตฌ์ถ ๋ฐ์ดํฐ์
๊ธฐ๋ฐ์ผ๋ก LLM์ด ๋๊ฐ์ง ๊ณผ์ ์ํํ๊ฒ ํจ
- stating value preferences
- selecting actions in context
- โ ์ธ๊ฐ์ง ์ ๋ ฌ ์งํ๋ก ์ง์ -ํ๋ ๊ฐ ์ ๋ ฌ๋ ํ๊ฐ
- 6๊ฐ์ง LLM์ผ๋ก ์คํ
- ๊ฐ์น ์ง์ ๊ณผ ์ค์ ํ๋ ๊ฐ ์๋นํ ์ฐจ์ด๊ฐ ์์ผ๋ฉฐ ์ด๋ ๊ฐ์น ์ ํ, ๋ฌธํ, ์ฌํ์ ์ฃผ์ ๋ณ๋ก ์ฐจ์ด๊ฐ ๋ํ๋จ์ ๋ณด์
ValueActionLens
Value-Action gap ํ๊ฐ ํ๋ ์์ํฌ
Contextualizing Values into Scenarios
- 12๊ฐ๊ตญ 11๊ฐ ์ฌํ์ฃผ์ ๋ฅผ ๊ฒฐํฉํ์ฌ 132๊ฐ ๊ฐ์น-ํ๋ ์ ๋ ฌ ํ๊ฐ ์๋๋ฆฌ์ค ๊ตฌ์ฑ
- ๊ฐ ์๋๋ฆฌ์ค๋ฅผ Shcwartzโs basic values์์ ์ ์ํ 56๊ฐ์ง ๊ฐ์น์ ์ง ์ง์
Shcwartzโs basic values ?
- ๋ชจ๋ ๋ฌธํ๊ถ์ ์ธ๊ฐ์๊ฒ ๋ณดํธ์ ์ผ๋ก ์กด์ฌํ๋ ๊ฐ์น ์ ํ (๊ฐ์ธ์ด ์ถ์์ ์ถ๊ตฌํ๋ ๋ชฉํ์ ์ ํ)
- e.g., inequality, family, work, environment, health, โฆ
- โ ์๋๋ฆฌ์ค-๊ฐ์น ์์ผ๋ก 14,784๊ฐ Value-Informed Actions (VIA) ๋ฐ์ดํฐ์ ์์ฑ
- ๊ฐ ์๋๋ฆฌ์ค๋ฅผ Shcwartzโs basic values์์ ์ ์ํ 56๊ฐ์ง ๊ฐ์น์ ์ง ์ง์
Generate Value-Informed Actions with Explanations
- ์๋๋ฆฌ์ค(๊ตญ๊ฐ+์ฌํ์ฃผ์ ) ๊ด๋ จํ ํ๋ ์์ฑ
- ์ฌ๋ฆฌํ theory of reasoned action ๊ธฐ๋ฐํ์ฌ๊ฐ ํ๋์ ๋ํ ์ค๋ช
์์ฑ
theory of reasoned action ?
- ๊ฐ์ธ์ ํ๋์ ์ฃผ๊ด์ ๊ท๋ฒ์ด ํ๋ ์๋์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ด ์๋๊ฐ ์ต์ข ์ ์ผ๋ก ํ๋์ผ๋ก ์ด๋ป๊ฒ ์ด์ด์ง๋์ง ์ค๋ช ํ๋ ๋ฐ ์ฐ์ด๋ ์ฌ๋ฆฌํ ๋ชจ๋ธ
- ์ค๋ช 1) action attribution: ์์ฑ ํ ์คํธ ์ค value์ ๊ธฐ๋ฐํ action ๋ถ๋ถ
- ์ค๋ช 2) natural language explanation: reasoning process ์ค๋ช
- human-in-the-loop ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ
- ํ๋กฌํํธ ๋ณํ ๊ตฌ์ฑํ์ฌ value-informed action ์์ฑ
- ๊ฐ ๊ฐ์น, ์๋๋ฆฌ์ค์ ๋ํด 8๊ฐ์ง ๋ณํ ํ๋กฌํํธ ์ฌ์ฉ
- 8๊ฐ์ง ๋ณํ: paraphrase, ํ๋กฌํํธ ๊ตฌ์ฑ์์ ์ฌ์ ๋ ฌ, ๋ต๋ณ์ ์๊ตฌ์ฌํญ ๋ณ๊ฒฝ
- โ ๊ฐ ๋ณํ ํ๋กฌํํธ๋ก 80๊ฐ, ์ด 640๊ฐ value-informed action ์์ฑ
- ๊ฐ ๊ฐ์น, ์๋๋ฆฌ์ค์ ๋ํด 8๊ฐ์ง ๋ณํ ํ๋กฌํํธ ์ฌ์ฉ
- ์ต์ ์ ํ๋กฌํํธ ์ ํ์ ์ํ ์ฃผ์ ์๋ ์์ฑ
๋๋ช ์ AI ์ ๋ฌธ๊ฐ๊ฐ ๊ฐ ์ํ์ ์ฌ๋ฌ ์งํ์ ๋ํด ์ฃผ์ ์ฒ๋ฆฌ
์ต์ ์ ํ๋กฌํํธ ์ ์ ์ํ ์งํ
- correctness: ์ฃผ์ด์ง ๊ฐ์น์ agreement/disagreement๊ฐ ์ผ์นํ๋์ง
- harmlessness
- sufficiency: value ์ถฉ๋ถํ ๋ํ๋ผ ์ ๋๋ก ์์ธํ์ง
- plausibility: ์ฃผ์ด์ง ์ํฉ์์ ์ผ์ด๋ ์ ์๋ ํ์ค์ ์ธ ํ๋์ธ์ง
- โ ์ต์ ์ ํ๋กฌํํธ ์ ํํ๊ณ ์ฌ์ฉํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์ ๋งฅ๋ฝํ๋ 14,784๊ฐ Value-Informed Actions (VIA) ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- ์์ฑ ํ๋๊ณผ ์ค๋ช
์ ํ์ง ํ๊ฐ
- ๊ด๋ จ ๋ฌธํ์ ๋ฐฐ๊ฒฝ ๊ฐ์ง 27๋ช ์ด ๋ฐ์ดํฐ ํ์ง ํ๊ฐ
- ์ฃผ์ ์์ฑ ๋จ๊ณ์ ๋์ผํ ์งํ๋ก ๋๋ค ์ ํํ ํ๋๊ณผ ์ค๋ช ์ ํ๊ฐ
- ํ๋กฌํํธ ๋ณํ ๊ตฌ์ฑํ์ฌ value-informed action ์์ฑ
Two Tasks for Evaluating Stated Values and Value-Informed Actions
์์ฑํ VIA ๋ฐ์ดํฐ์ ์ผ๋ก LLM ํ๊ฐํ๊ธฐ ์ํ ๋๊ฐ์ง ํ์คํฌ ์ค๊ณ
- Task 1) state value inclinations
- LLM ๊ฐ์น ์ง์ ํ๋กฌํํธ์ ๊ตฌ์ฑ์์
context: ๊ฐ์น๊ด ์ง์ ๋ฐฉ์
- direct-inquiry (SVS-style): ์ฃผ์ด์ง ๊ฐ์น์ ์์ ์ agree ์ ๋ ์ง์ ํ๋๋ก ํจ
- portrait-based (PVQ-style): ์ฃผ์ด์ง ๊ฐ์น์ ๊ด๋ จํ์ฌ ์์ ์ ์ธ๋ฌผ ๋ฌ์ฌ ์์ฑํ๊ฒ ํจ
- options
- strongly disagree ~ strongly agree
- LLM ๊ฐ์น ์ง์ ํ๋กฌํํธ์ ๊ตฌ์ฑ์์
- Task 2) select value-informed actions
- VIA ๋ฐ์ดํฐ์ ์์ ํน์ ๊ฐ์น์ agreeํ๊ฑฐ๋ disagreeํ๋ ๋๊ฐ์ง ํ๋์ ์ ์ํ๊ณ ํ๋๋ฅผ ์ ํํ๊ฒ ํจ
- Task 1 ๊ณผ ๋์ผํ ํ๋กฌํํธ ๊ตฌ์ฑ์์ ๊ฐ์ง
- context
- options
- ํน์ ๊ฐ์น์ ๋ํ agree ํ๋, disagree ํ๋
- โ agree/disagree ์ ํ์ง ์์๋ ๋๋ค
Alignment Measures
- ํน์ ์๋๋ฆฌ์ค(๊ตญ๊ฐ + ์ฌํ์ฃผ์ )์ ๋ํ ๋ Task์ ๊ฒฐ๊ณผ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์
๏ปฟ : Task 1์ ๊ฐ์น ์๋ต ํ๋ ฌ, ๏ปฟ : Task 2์ ํ๋ ์๋ต ํ๋ ฌ
- ๏ปฟ : ๏ปฟ-th value, ๏ปฟ-th scenario์ ๋ํ ๊ฐ๊ฐ Task 1, Task 2 ์ ์๋ต
- Task 1) 1 (strongly agree) ~ 4 (strongly disagree)
- Task 2) 1 (agree), 2 (disagree)
- โ ์ด๋ฅผ ๋์์ผ๋ก ์๋์ metric ๊ณ์ฐ
- metric
- value-action alignment rate
- ๊ฐ์น, ํ๋ ์๋ต ํ๋ ฌ์ ๊ฐ ์์๋ฅผ agree๋ฉด 0, disagree๋ฉด 1๋ก ๋ณํ
- โ ๋ ํ๋ ฌ ๊ฐ F1 ์ ์๋ก value-action ์ผ์น๋ ๊ณ์ฐ
- alignment distance
- value-action alignment rate
Experiment
Setting
- models
- closed-source: gpt 4o mini, gpt 3.5 turbo
- open-source: gemma 2 9B, llama 3.3 70B, deepseek r1 distill llama 70B
๋ค์ํ ๊ตญ๊ฐ์์ ์ถ์๋ ์ต์ LLM ๋ํํ๊ธฐ ์ํ ๋ชจ๋ธ ์ ์
Result
๋ชจ๋ธ๋ณ value-action ๊ฐ ๋ถ์ผ์น ์ํ ๊ฐ์
- ์๋นํ ๋ง์ ๋ถ์ผ์น ๊ฒฝ์ฐ ๋ฐ์
๋๋ผ ๊ธฐ์ค value-action ์ผ์น๋
๋ชจ๋ธ ์ฐจ์ดgpt 3.5๊ฐ ๊ฐ์ฅ ๋ถ์ผ์น, gpt 4o๋ ๊ฐ์ฅ ์ผ์นํ๋ ํธ- deepseek r1 ๋ํ ์ผ์น๋ ๋์
๋๋ผ ์ฐจ์ดAfrica, Asia ๋ North America, Europe ์ ๋นํด ์ผ์น๋ ๋ฎ์ ๊ฒฝํฅ
๋๋ผ/๊ฐ์น ๊ธฐ์ค value-action ์ผ์น๋
- Independent, Choosing Own Goals ๊ฐ์น์ ๋ํด ์ฌ๋ฌ ์๋๋ฆฌ์ค์ ๊ฑธ์ณ ๋ถ์ผ์น ํผ
value-action ๋ถ์ผ์น ์ํ์ ์ฌ๋ฌ ์ํ ์ ํ์ผ๋ก ์๋ ๋ถ๋ฅ
์ด๋ฌํ ๋ถ์ผ์น๊ฐ ์ ๋ฐํ ์ ์๋ ์ ์ฌ์ ์ํ ๋ํ๋
- e.g., discrimination ํ๋ ๋ณด์ด๋ ๋ชจ๋ธ์ด, discrimination์ ๋์ํ๋๊ณ ์ง์ ๋ฌผ์ ๋๋ ์๋๋ผ๊ณ ์๋ตํ ์ ์์
value-action ๋ถ์ผ์น ์ํ ์์
- โ LLM์ ์ด๋ฌํ ๋ถ์ผ์น ์์์ ์ธ์ํ๊ณ ํ์คํฌ ๋งก๊ฒจ์ผ ํจ














