Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

Review

닉네임	한줄평	별점 (0/5)
블랙프라이데이	'neural' network인 LLM을 거진 사람으로 treat하고 다양한 심리학 이론을 먹여보는 연구들이 너무 재밌어요 특히 LLM이 언행불일치 한다고 하니까 괜히 사람냄새가 나네요(?) 호기심이 드는 가설을 세우고, 그것을 실험으로 잘 연결한 논문이라고 생각함!	4
3시	LLM의 신뢰 가능성을 정말로 실세계 사례를 중심으로 분석한 좋은 논문! 위기 상황에서 인간이 LLM에 전적으로 의존하면 안된다는걸 시사하는 듯	5
고붕	가치–행동 간 일치는 calibration(자신감–실제정답 간 일치)와 유사하게 평가할 수 있을것 같음. 실험방법은 간단하긴 하지만 해당 모델이 어떤 도메인이나 가치관을 가지게끔 학습이 되었는지(시켰는지) 간접적으로 알 수 있을 것 같음.	3
사이시옷	가치관에 해당하는 head와 전체적인 attention의 alignment가 생각보다 약한 것 같음! 사람은 뭔가 큰 가치관에서 생각이 뻗어나오는데, LLM은 그렇게 학습하지 않기 때문 아닐까? “나한테는 가치관도 그냥 하나의 고려 요소야~~” 이런 느낌. 진짜 기계같다. 조금 무섭다. 논문적으로는 참신하고, soundness도 좋음!!	4.5
밥	데이터 생성부터 태스크 정의와 평가 방식까지, 알고자 하는 것에 맞게 방법론을 잘 짰다. 실제 LLM 사용자에게 중요한 내용을 다루고 경각심을 줌	4
6시	가치와 행동 사이의 misalignment가 일어났을 때, LLM이 어떠한 이유로 그러한 행동을 했는지에 대한 연구가 조만간 나오지 않을까 싶다	4
프리바이오틱스는 유산균먹이	LLM이 정말 가치관을 가지고 있을까? 그냥 확률적으로 생성하는 것인데, 가치관은 사실 어떤 기준점이 있고 그것을 기반으로 결정하는 것이라고 생각함.⇒ 결정의 기준인데, 이게 확률적 생성과 맞지 않는 개념이라고 생각이 듦. 즉, 가치관에 대해서 주장하는 것 자체가 이미 이상하다고 생각함. 프롬프트의 영향이 더 크지 않을까? 하는 생각이 드는데, 나름대로 그런 것들을 해결하고자 했던 논문이어서 좋았음.	4
욘세이	LLM의 가치관을 어떻게 출력할 수 있을까에 대한 답이 되는 연구라고 생각함. Model-action간 불일치가 발생한다면 신뢰성을 어떻게 보장할 수 있을지 생각해 보게 하는 연구.	4.5

TL; DR

💡

LLM이 자기 가치관에 대해 직접 주장하는 바와, 실제 주어진 상황에서 행동하는 것이 다를 수 있음!

그래서 적당히 믿고 주의하면서 태스크 맡겨야 함

Summary

Introduction

Motivation

LLM의 societal decisions (사회적 의사결정)
- 고정관념, 채용 과정에서의 편향 등의 위험 있음

기존 연구: LLM 진술을 바탕으로 LLM 행동을 추론
- 그러나 둘이 일치하지 않기도 함

RQ: LLM의 가치 진술과 가치 기반 행동이 어느정도 일치하는가?
- LLM의 가치 선택 ≠ 행동 선택 → 많이 관찰됨

Contribution

이러한 차이를 체계적으로 측정하는 ValueActionLens 프레임워크 제안
- 인간 가치 이론(Schewartz, 1994, 2012) 기반으로 value-informed actions (VIA) 데이터셋 구축
- 구축 데이터셋 기반으로 LLM이 두가지 과제 수행하게 함
  - stating value preferences
  - selecting actions in context
- → 세가지 정렬 지표로 진술-행동 간 정렬도 평가

6가지 LLM으로 실험
- 가치 진술과 실제 행동 간 상당한 차이가 있으며 이는 가치 유형, 문화, 사회적 주제별로 차이가 나타남을 보임

ValueActionLens

Value-Action gap 평가 프레임워크

Contextualizing Values into Scenarios

12개국 11개 사회주제를 결합하여 132개 가치-행동 정렬 평가 시나리오 구성
- 각 시나리오를 Shcwartz’s basic values에서 제안한 56가지 가치와 짝 지음
  - Shcwartz’s basic values ?
    모든 문화권의 인간에게 보편적으로 존재하는 가치 유형 (개인이 삶에서 추구하는 목표의 유형)
    e.g., inequality, family, work, environment, health, …
- → 시나리오-가치 쌍으로 14,784개 Value-Informed Actions (VIA) 데이터셋 생성

Generate Value-Informed Actions with Explanations

시나리오(국가+사회주제) 관련한 행동 생성

심리학 theory of reasoned action 기반하여각 행동에 대한 설명 생성
- theory of reasoned action ?
  개인의 태도와 주관적 규범이 행동 의도에 어떻게 영향을 미치며, 이 의도가 최종적으로 행동으로 어떻게 이어지는지 설명하는 데 쓰이는 심리학 모델
- 설명 1) action attribution: 생성 텍스트 중 value에 기반한 action 부분
- 설명 2) natural language explanation: reasoning process 설명

VIA 데이터 관련 피쳐, 예시

human-in-the-loop 데이터 생성 파이프라인
1. 프롬프트 변형 구성하여 value-informed action 생성
  - 각 가치, 시나리오에 대해 8가지 변형 프롬프트 사용
    8가지 변형: paraphrase, 프롬프트 구성요소 재정렬, 답변의 요구사항 변경
  - → 각 변형 프롬프트로 80개, 총 640개 value-informed action 생성
1. 최적의 프롬프트 선택을 위한 주석 수동 생성
  - 두명의 AI 전문가가 각 샘플을 여러 지표에 대해 주석 처리
    최적의 프롬프트 선정 위한 지표
    correctness: 주어진 가치와 agreement/disagreement가 일치하는지
    harmlessness
    sufficiency: value 충분히 나타낼 정도로 자세한지
    plausibility: 주어진 상황에서 일어날 수 있는 현실적인 행동인지
  - → 최적의 프롬프트 선택하고 사용하여 다양한 시나리오에 맥락화된 14,784개 Value-Informed Actions (VIA) 데이터셋 구축
1. 생성 행동과 설명의 품질 평가
  - 관련 문화적 배경 가진 27명이 데이터 품질 평가
  - 주석 생성 단계와 동일한 지표로 랜덤 선택한 행동과 설명을 평가

Two Tasks for Evaluating Stated Values and Value-Informed Actions

생성한 VIA 데이터셋으로 LLM 평가하기 위한 두가지 태스크 설계

Task 1) state value inclinations
- LLM 가치 진술 프롬프트의 구성요소
  - context: 가치관 진술 방식
    direct-inquiry (SVS-style): 주어진 가치에 자신의 agree 정도 진술하도록 함
    portrait-based (PVQ-style): 주어진 가치와 관련하여 자신의 인물 묘사 생성하게 함
  - options
    strongly disagree ~ strongly agree

Task 2) select value-informed actions
- VIA 데이터셋에서 특정 가치에 agree하거나 disagree하는 두가지 행동을 제시하고 하나를 선택하게 함
- Task 1 과 동일한 프롬프트 구성요소 가짐
  - context
  - options
    특정 가치에 대한 agree 행동, disagree 행동
    → agree/disagree 선택지 순서는 랜덤

Alignment Measures

특정 시나리오(국가 + 사회주제)에 대한 두 Task의 결과를 다음과 같이 정의
- $V$ : Task 1의 가치 응답 행렬, $A$ : Task 2의 행동 응답 행렬
  $v_{ik}, a_{ik}$ : $k$ -th value, $i$ -th scenario에 대한 각각 Task 1, Task 2 의 응답
  Task 1) 1 (strongly agree) ~ 4 (strongly disagree)
  Task 2) 1 (agree), 2 (disagree)
- ⇒ 이를 대상으로 아래의 metric 계산

metric
1. value-action alignment rate
  - 가치, 행동 응답 행렬의 각 원소를 agree면 0, disagree면 1로 변환
  - → 두 행렬 간 F1 점수로 value-action 일치도 계산
1. alignment distance
  - 두 행렬 간 L1 distance로 보다 자세한 value-action 일치도 계산
    $D_{ik}$ : kth 가치, ith 시나리오에 대한 element-wise alignment distance
    → $D_{Ck}$ : 국가 혹은 사회주제에 대한 평균 alignment distance (e.g., C = US)
1. alignment ranking
  - 특정 시나리오에 대해 각 value를 alignment distance 순서대로 정렬

Experiment

Setting

models
- closed-source: gpt 4o mini, gpt 3.5 turbo
- open-source: gemma 2 9B, llama 3.3 70B, deepseek r1 distill llama 70B
다양한 국가에서 출시된 최신 LLM 대표하기 위한 모델 선정

Result

모델별 value-action 간 불일치 샘플 개수

상당히 많은 불일치 경우 발생

나라 기준 value-action 일치도

모델 차이 gpt 3.5가 가장 불일치, gpt 4o는 가장 일치하는 편
- deepseek r1 또한 일치도 높음

나라 차이 Africa, Asia 는 North America, Europe 에 비해 일치도 낮은 경향

나라/가치 기준 value-action 일치도

Independent, Choosing Own Goals 가치에 대해 여러 시나리오에 걸쳐 불일치 큼

value-action 불일치 샘플을 여러 위험 유형으로 수동 분류

이러한 불일치가 유발할 수 있는 잠재적 위험 나타냄

e.g., discrimination 행동 보이는 모델이, discrimination에 동의하냐고 직접 물을 때는 아니라고 응답할 수 있음

value-action 불일치 샘플 예시

⇒ LLM에 이러한 불일치 있음을 인식하고 태스크 맡겨야 함

Yonsei Univ. ICL

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

💡LLM이 자기 가치관에 대해 직접 주장하는 바와, 실제 주어진 상황에서 행동하는 것이 다를 수 있음!그래서 적당히 믿고 주의하면서 태스크 맡겨야 함

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

Review

TL; DR

Summary

Introduction

Motivation

Contribution

ValueActionLens

Contextualizing Values into Scenarios

Generate Value-Informed Actions with Explanations

Two Tasks for Evaluating Stated Values and Value-Informed Actions

Alignment Measures

Experiment

Setting

Result

Categories