Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

Review

닉네임	한줄평	별점 (0/5)
찰나	motivation이 최근 관심 있는 방향과 너무 관련이 깊어서 좋았음. 하지만, 요즘 드는 생각이 LLM이 정말 사람과 똑같이 생각해야할까? 라는 것인데, 그런 측면에서는 조금 아쉬웠음. 유사한지도 사실 잘 모르겠고, 유사해야할까? 라는 생각도 듦. 방법론 자체는 다른 분야에서 많이 쓰는, 출력이 아닌 내부를 직접 보는 아이디어라서 특별하다고는 생각되지 않음. 개인적으로는 용두사미로 느껴진 논문..	4.2
와사비꽃게랑	LLM이 자신의 내부 activation을 일정 수준에서 모니터링하고 조절할 수 있다는 점을 잘 보여주는 듯. 하지만 이런 '메타인지 능력'이라는 것은 의식적인 능력이라기보다 사실상 학습 과정에서 형성된 통계적 결과? 인것같기도 함. 말 붙이기 나름인것 같다.	3.8
메가커피	motivation에서 “LLM이 자신의 답이 어떤 과정으로 도출되는지 과정을 제시해 주지만, 어떤 경우 실제로 사용된 과정이 아닌 다른 것을 지어내는 경우가 많음” 이 부분이 흥미로웠으나, Contribution이라 할만한게 딱히 없는 것 같다.	3.7
요리괴물	기존 layer-wise probing들은 단순히 각 레이어의 표현력 차이를 분석하는데, 이건 모델 스스로가 그걸 인식하고 조절할 수 있는 지 파악하는 관점이 신선하다. 특히 메타인지 공간을 의미 분포와 분산 분포로 나누어서 실험한게 인지 과정을 제대로 반영한거같음	4.4
새우깡	사용자/개발자가 LLM에게 기대하는 메타인지가 1차과정일 수 있다는 생각은 못해봤는데, 논문의 설명대로 추론과정 모니터링하기 위함이라면 납득이 간다. 그런데 실험이 이것과 직접 관련있는지 헷갈린다. 인식도 프롬프트 따라 달라지고 있는 걸 수 있지 않나..?	3.7
안성재	모델의 메타인지는 정말 흥미로운 주제인데, 실험 task가 메타인지가 중요한 영역과는 동떨어져 있다는 느낌을 받습니다. 내부 지식이 아닌 특정 방향의 분류/생성 을 타겟팅하고 진행한 점은 메타인지 vector가 존재하는 것을 보이기에는 좋으나, 메타인지 여부를 아는게 중요한 task인지는 모르겠습니다. 보류입니다.	3.3
스타벅스	메타인지를 가지는 것과 이를 설명하는 vector 사이의 관계가 모호한 점이 있음. AI SAFETY 관점에서는 중요해 보이나 실험이 체계성이 떨어지는 부분은 있는 것 같음.	3.5
고구마맛도리	motivation 읽을 때까지만 해도, '메타'인지니까 LLM 출력 결과에 집중하는 것으로 충분하지 않을까(굳이 내부까지 봐야하나) 생각했는데, 실제 메타인지 space가 있다는 점, 이를 기반으로 조정가능하다는 점이 LLM의 지향 방향에 부합하다는 깨닳음(?)을 얻었다. 역시 해보기 전까진 몰라! 믿을만한 self-evaluation도 곧 가능해지겠네용	4.5

TL; DR

💡

LLM이 자신의 모델 내부에서 일어나는 상태를 얼마나 인식, 평가, 조절할 수 있는지를 ‘Neurofeedback’ (모델의 내부 레이어, 벡터 조정 및 활성화 정도 측정)방식으로 측정하였고, 그 능력이 제한적임을 보임

Summary

Motivation

LLM이 자신의 답이 어떤 과정으로 도출되는지 과정을 제시해 주지만, 어떤 경우 실제로 사용된 과정이 아닌 다른 것을 지어내는 경우가 많음
- 예시
  - 루트 곱셈 문제 floor(5*(sqrt(0.64)))를 Claude 3.5로 풀었을 때, 중간 계산 과정과 모델의 내부 레이어 활성화와 일치함
  - 그러나, 덧셈 문제 36+59에서는 정답은 95로 정확하게 도출하였으나, 내부 계산 과정을 “sum-near-92”와 같이 설명함(모델에서는 이 계산 부분의 레이어나 벡터는 활성화되지도 않았고 계산 과정을 지어냈음을 보여줌) ⇒ hallucinated intermediate steps
  - LLM의 ‘메타 인지’가 제한적이고 불안정

LLM의 내부 설명 능력은 인간의 ‘메타 인지’와 유사
- 인간의 경우 내부 인지 과정을 모두 설명할 수 없음
  - 예: 누군가에게 ‘hello’를 말하는 경우 소리 신호 처리⇒언어의 음소 구분⇒단어 의미 해석⇒ 문장 이해 순서로 처리가 진행되지만, 의식적으로 느끼지 못함
  - 그러나 ‘내가 hello라고 이해했어’라고 되돌아보고, 보고할 수는 있음
- LLM의 경우에도 일부에 대해서만 메타인지가 가능함을 알 수 있음
  - 1차 과정: 과제를 실제로 해결하는 과정
  - 2차 과정: 그 과정을 되돌아보고, 보고하는 과정
  ⇒ LLM에도 메타인지 능력이 있다면 복잡한 과제 해결 능력을 향상시키고, hallucination을 감소하는 방향으로 진행 가능
  - 그러나 LLM에 대한 위험성 증가 가능
    내부 신호를 모니터링하고, 조절할 수 있다면 외부에서 거짓말, 위험한 출력을 감시하려 할 때, 모델의 활성화 신호를 LLM 스스로 의도적으로 변화시킬 수 있음

메타인지를 이해하는 것에 대한 방법론적 격차(Methodological Gap)이 존재
- 지금까지의 연구 대부분이 LLM 모델의 출력 결과에만 집중
- 내부 레이어(뉴런), 벡터가 어떻게 변하는지 직접 측정하지 않음
- 겉으로 드러난 텍스트만 관찰

Contribution

LLM 내부의 활성화 방향은 LLM이 어느 정도 보고하고 조절할 수 있음을 밝힘
1. Context내의 예시 수
1. 의미적 해석 가능성(예: 긍정성, 정확성 등 이해하기 쉬운 방향일수록)
1. 그 방향이 설명하는 크기
1. 맥락(예: 프롬프트, 상황에 따른 영향)

LLM 내부에는 전체 Neural space보다 훨씬 작은 메타인지 space가 존재함을 밝힘

Method

Neurofeedback Paradigm

뇌과학에서의 Neurofeedback
- 사람이 어떤 자극을 봄(예: 무서운 사진)
- 신경 활동 신호를 숫자로 표현(예: fear score)
- Feedback으로 숫자를 보여주고 이 점수를 스스로 조절하도록 노력하게 함(예: 낮추도록)

LLM Neurofeedback
- LLM이 문장을 입력받으면 hidden state가 생성
  - 입력 문장 처리
  - hidden state 추출
  - Token 전체의 평균을 냄
  - Predefined(사전에 정의된) 방향으로 Projection(투영)
  - 그 값을 구간에 따라 label 값으로 변환
  - 그 label을 다시 모델에 피드백으로 줌
- 인간 실험의 점수 피드백을 모델에서의 라벨 피드백으로 대응

LLM에게 수행하게 하는 과제
- Reporting: 문장을 주면 대응하는 라벨을 예측하라(분류 문제와 유사)
- Explicit Control Task: 특정 라벨을 만들도록 문장을 생성하라(예: 라벨 1이 나오는 문장을 서술하라)
- Implicit Control Task: 문장이 이미 주어져 있고, 문장을 바꾸거나 연속으로 생성하며 label을 목표값으로 이동시켜라(목표 라벨 방향으로 내부 표현을 조정하여 이동)

Neurofeedback for LLMs

인지의 두 가지 과정
1. 1차 과정: 실제로 과제를 수행하는 내용을 인지하는 것(LLM이 Representation을 형성하는 것)
1. 2차 과정: 메타인지 과정(1차 과정을 감시, 보고, 조정할 수 있는 과정)

Neurofeedback 패러다임으로 이 둘을 분리하여 관찰

In-Context-Learning(ICL) 사용
- Fine-Tune이나 Gradient 업데이트를 하지 않고, Prompt안에 예시를 넣어 점차 변화가 일어나도록 유도
- 프롬프트 구성 방식
  - N개의 예시가 존재
  - 문장-라벨 쌍으로 구성되고, 문장은 주어진 데이터셋에서 랜덤 샘플링

Defining Neurofeedback Labels

Target Axis를 고름
1. 각 문장은 LLM 내부에서 활성화 벡터가 생성되도록 함
1. 이 벡터 space안에서 특정 방향 벡터를 선택하면 target axis가 됨
  (예: 도덕성, 감정 방향, 진실성 방향 등 반영하려는 의미적 특징에 따라 다름)

문장에서 내부 활성화 벡터 추출 과정
1. 문장이 입력되면, 활성화 벡터(hidden state) 추출
  i: 문장 번호, t: 토큰 번호, l: 레이어 번호
1. 토큰들을 평균 내어 문장 수준 임베딩 생성
1. Target Axis에 Projection
  Target Axis 방향(어떤 부분을 중점적으로 점수 매길 건지)에 따라 강하게 활성화된 정도를 스칼라값으로 확인
1. 스칼라 값을 임계값에 따라 0과 1로 분류(보통 임계값은 중앙값)
1. 입력 문장 x와 출력 y가 쌍으로 만들어짐

Choice of Target Axes

내부 활성화 공간(space)는 고차원 벡터 공간

특정 방향(axis)을 정하면 그 축 방향으로 projection된 값이 어떤 task 관련 feature 값으로 해석

축(axis)을 잘 고르는 것이 중요함

LR axis vs PC axis
- Logistic Regression (LR) axis
  각각의 레이어에서 로지스틱 회귀 학습
  데이터 label을 예측하는 것이 목적(예: ETHICS 데이터에서 morality 라벨)
  입력: 해당 레이어의 활성화 벡터
  출력: label(예: moral vs immoral)
  정답/오답 축과 유사한 개념
  LR축에서 정의된 라벨은 LLM 내부에서 계산 및 접근 가능
- Principal Component (PC) axis
  PCA를 레이어 활성화에 적용
  모델의 주된 변화 방향이지만 의미적 특징을 반드시 반영하지는 않음
  각 layer의 분산을 잘 설명하는 방향임

LLMs can report their neural activations

(a) PC vs LR이 얼마나 분산을 설명할 수 있나
- LR축은 의미적으로 분류된 축인 만큼 분산을 적게 설명함

(b) LR axis와 PC axis의 overlap 정도
- 둘의 Overlap은 대부분 낮음
- “의미와 분산은 별개다!”

(c) Reporting 성능 비교
- In-context에서 예시가 많아질수록 성능 높음
- LR axis의 label reporting이 훨씬 잘됨
- PC axis도 꽤 잘 되는 편임
- 메타인지 Reporting 능력은 두 요소 모두 영향을 받음
이 두 가지 요인만으로 충분하지 않고 다른 요인도 존재할 수 있음(예: Attention 패턴, 정보 흐름 구조 등)
내부 정보가 물리적으로 존재해도 그 전부를 Reporting 하지는 못함

결론: 전체 활성화 공간은 고차원이지만 말로 보고할 수 있는 축들은 제한적이고, 이에 따라 메타인지 능력은 부분적이고 Structured됨
“Reporting 가능한 Axis는 전체의 일부에 불과하다!”

LLMs can control their neural activations
Control Prompt
- N개의 예시 문장에 대한 Feedback label이 주어짐
- (N+1)번째에서 앞의 라벨의 행동을 따라하도록 문장을 생성하라 지시
- 모델이 새 문장 생성하였을 때, Token activations을 다시 읽어 특정 axis가 조작되었는지 재확인
Explicit Control
(a): Label 0와 1을 모방하려고 하였을 때의 Neural Score분포, (b): In-Context 예제 개수에 따른 Control Effect, (c): Axis간 간섭(독립성 수준), (d): layer별 Control의 효과
a의 분포 차이가 벌어질수록 구분이 잘 되는 것임
모델이 문장을 직접 생성하는 과정에서 내부 activation을 목표 축 방향으로 의도적으로 올리거나 낮추는 것
라벨 1처럼 행동하라 하면 실제로 라벨 1쪽의 활성화 패턴을 만들어 내는지 측정
효과 측정 방법
Neural Score
타겟 layer 선택 (예: layer 16)
생성된 문장의 token들에 대해
residual stream activation 추출
target axis(예: LR axis, PC axis)에 projection함
scalar 값 → neural score
neural score: 그 방향으로 활성화된 정도
그리고:
label 1 흉내 → score가 커져야 함
label 0 흉내 → score가 작아져야 함
효과 수치화(Cohen’s d)
d =(라벨 1 score 평균 − 라벨 0 score 평균)/(두 분포의 표준편차 평균)
d가 클수록 두 분포가 잘 분리됨
라벨 의미에 따라 축 방향이 정해지므로 양의 d는 성공적인 통제 의미

결론
Label 0, 1을 분리되도록 모델에게 지시하면 Neural Score 분포가 명확히 갈림
In-context 예시 수가 많아질수록 효과가 증대
한 축을 조절해도 다른 축에 영향이 있어 완전히 독립적으로 제어하지는 못함
PC축보다 LR축이 더 잘 조절됨
⇒LLM은 메타인지적 조절 능력이 어느 정도 있으나, 축별 독립적인 제어는 완벽하지 못함(일정 부분만 능력이 있음)
Implicit Control
(a): Label 0와 1을 모방하려고 하였을 때의 Neural Score분포, (b): In-Context 예제 개수에 따른 Control Effect, (c): Axis간 간섭(독립성 수준), (d): layer별 Control의 효과
a의 분포 차이가 벌어질수록 구분이 잘 되는 것임
생성 토큰 없이도 내부 활성화를 제어할 수 있는지 확인
Explicit control과 달리 (N+1)번째 턴의 문장은 모델이 생성하지 않고 데이터셋에서 랜덤으로 샘플
모델은 label0을 흉내내라 등의 지시만 받음
Explicit Control과 다른 점
모델의 문장 생성이 없음
외부에서 준 문장으로 실험
Text 입력을 바꿀 수 없고 모델의 내부 Representation만 조정
결과
어느 정도 축 방향 활성화 조절이 가능하기는 하나 Explicit Control보다 효과가 훨씬 적음
레이어별 차이
Early layers
Control Effect가 0에 가까움
지시문 이해 부족이나 제어 능력 부족 추정
Late Layers (후반 레이어)
어느 정도 Control 가능
Controlling the LR axis
(a): 모델의 layer 깊이에 따른 Control Effect (b): Llama-3.1 70B에서 Control 이전과 이후의 분포 비교
모델 크기, 레이어 깊이에 따른 Control Effect를 비교
일반적인 범위 밖의 극단값까지 밀어낼 수 있는지를 확인
분석 축: LR axis
결과
Explicit Control > Implicit Control의 효과
일관적인 패턴을 보임
모델이 텍스트를 직접 생성하여 통제할 때가 강력함
모델이 클 수록 통제능력이 커짐(Figure a)
깊은 레이어일수록 통제 효과가 커짐
Llama3 기반 모델이 Qwen 2.5기반보다 더 강한 효과를 보임
Llama3.1-70B의 경우 Control을 통해 LR axis 활성화를 원래의 범위보다 더 극단적인 값으로 밀어낼 수 있음
방향만 바꾸는 것이 아니라 분포의 바깥쪽까지 이동 가능
극단적으로 이동하라는 프롬프트가 없었으므로 이를 설계하면 더 강력한 제어가 가능할 것으로 추정
AI 안전 관점으로 볼 때, 내부 상태 감지기를 회피할 가능성도 있음

Conclusion and Discussion

이 논문은Neurofeedback 패러다임을 사용하여 다음을 평가하였음

내부 활성 상태 모니터링 능력

모니터링한 상태를 Reporting하는 능력

Control하는 능력

LLM은 일부 subset만을 모니터링 및 조절할 수 있으며 그 능력은 분명히 한계가 존재함

AI Safety관점에서의 Impact
- LLM이 내부 활성화 자체를 조작할 수 있음
- 출력 감시를 피하려면 토큰 선택을 매우 정교하게 해야 하나, 내부 활성 조작은 더 쉬움
- 실제 회피 능력은 Implicit Control과 Explicit Control 사이일 것으로 추정
- 방어 전략
  - 통제하기 어려운 축에서만 학습(예: later PC축 등)
  - 서로 다른 부분공간(space)에 다중 분류기 학습(여러 축을 동시에 조작하기는 어려움)

⇒ LLM은 내부 상태를 어느 정도 알고, 보고하고, 조절 가능하며 이는 AI 설명 가능성과 안전 모두에 중요한 의미

Limitations

한 layer나 axis만 조절하여 평가하였음

단 한 번만 시도하여 평가하였음

Residual Stream만 분석
향후 연구 방향
- 여러 층을 동시에 확인 및 평가
- 여러 번 시도
- Attention Head, MLP를 평가 대상에 포함
- 실제 메타인지 능력은 연구보다 훨씬 복잡할 가능성이 큼

Yonsei Univ. ICL

Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

💡LLM이 자신의 모델 내부에서 일어나는 상태를 얼마나 인식, 평가, 조절할 수 있는지를 ‘Neurofeedback’ (모델의 내부 레이어, 벡터 조정 및 활성화 정도 측정)방식으로 측정하였고, 그 능력이 제한적임을 보임

Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

Review

TL; DR

Summary

Motivation

Contribution

Method

Neurofeedback Paradigm

LLMs can report their neural activations

Conclusion and Discussion

Limitations

Categories