FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS

Review

닉네임	Strength & Weakness & Sugguestions	별점 (0/5)
눈물	• 강점 : LLM에 대해 통상적으로 "무엇"을 알고있는지를 넘어 "언제" 알게되었는지에 대해 검증하는 연구. Training Order과 관련있을 법한 모든 "간단한" 요인들을 통제해 실험을 했지만, Training Order는 간단하게 발생한 구조가 아닌, 모델 내부의 복잡한 구조임을 암시함. • 약점 : Training Order과 관련된 통제 실험을 많이 했지만, 결론적으로 실제 발생하는 원인은 밝혀내지 못함. 또한 Sequence data에 한정적이다 보니, 응용하려면 fine-tuning에 의존적일 것으로 보임. • 보완점 : 잘만 이용한다면, 시간에 따라 변동성이 있는 데이터를 다룰 때 효율적일 것 같다. 그리고, 더 복잡하고 다양한 모델에 통제 실험을 진행해 분석한다면 일반성을 높일 수 있을 듯.	3.1
피땀	• 강점: LLM의 해석가능석에 대해서 분석할 수 있는 새로운 축을 제안함 • 약점& 보완점: 언제 배웠는지를 왜 알아야 되는지 motivation이 부족함, 언제 배웠는지가 왜 중요한지에 대해 좀 더 말하고 이에 대한 실제 실험이 있었으면 더 좋았을듯. e.g., 정보 업데이트, Unlearning 등등 What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data 논문의 Section 5처럼	3.8
thumps-up	• 장: training-order가 모델 내에 명확하게 인코딩된다는게 진짜 신기함. 하긴 그러니까 incremental learning이 유효한거겠지? 다양한 family나 model size에 대해서도 충실하게 실험한 부분도 좋음 • 단&: 근데 언제 배웠는지는 왜 알아야 하지? 그 시점에 학습한 부분만 콕 집어서 model editing할 때 쓰이나? rationale이 부족해서 아쉬움	3.5
웃으면서 보자	장: 신선한 관점. 순서를 아는 것 뿐만 아니라, 그걸 활용할 수도 있을 것이라는 방향이 보이긴 함. 단점: 왜 해야할까? 읽는 사람이 생각하게 한다. 개인적으로는 나중에 쓸모 있다고 생각함. 결국 최신 지식을 계속 학습하게 될텐데, 가장 마지막에 배운 지식이 뭐야? 라고 물어뵜을 때 답하는 것. 필요한 이유는 결국 LLM이 인간보다 똑똑해지면 자가 학습을 할 것 같고, 그럼 최신 기술도 llm만 알것 같은데, 그때는? 보완점: 가짜 데이터 등을 더 만들고 실험해보면서 충돌 여부도 고려했으면..	3.7
독수리오형제	• 강점: 언제 배웠는지(recency)까지 activation에 인코딩 된다는 점을 잘 제시함. training-order가 선형 방향으로 encoding 되는것도 새로운 사실임 • 약점: 그래서 이 현상이 모델의 실제 예측에 어떤 영향을 주는지에 대한 분석은 부족함 • 보완/제안: 향후 모델 훈련 시에 데이터셋을 이러한 식으로 구성해 학습시키고 나중에 관련된 entity간 conflict가 발생했을 때 이러한 recency signal을 활용해 쉽게 해결할 수 있을것 같음	4.2
삐질	• 강점:모델이 "언제 배웠는지"에 대한 정보는 서로 다른 시점의 정보가 충돌하는 상황이나, knowledge edting 시 중요하게 작용할 것으로 예상됨 • 약점: 너무 인위적인 데이터셋 느낌..? 데이터가 완전히 독립이라는 점과 실제 사전학습 데이터에도 노이즈 / 순서가 섞여있을텐데... real-world corpus에도 이게 유지될 지 의문이 듦. • 보완점: 보다 현실적인 데이터 (노이즈 or 중복 반영)를 활용한 실험	3.5
팝콘	• 장점: 학습 순서를 LLM이 인식한다는 새로운 발견 • 단점: 가설의 근거가 약해서인지 실험결과를 봐도 납득이 잘 안가는데, 실험 설정이 더 다양하면 좀더 설득됐을 듯함 • 보완점: 모델이 학습 순서를 왜 인코딩하고 있을까? 그 정보를 어떻게 활용할 수 있을까? → 관련 해석	3.5
초콜릿	• 장점: 모델이 언제 배웠는가라는 질문 자체가 신선했음. training order가 activation 공간에 선형적으로 인코딩된다는 게 직관적으로 잘 와닿았음 • 약점: 실험이 alias로 바꾼 인위적인 데이터셋에서만 이루어졌는데, 실제 사전학습 데이터처럼 노이즈가 많고 순서가 뒤섞인 환경에서도 같은 현상이 나타나는지 알 수 없음. • 보완점: 실제 사전학습 환경과 비슷하게 노이즈나 중복이 포함된 데이터로도 실험해보면 좋을것 같음.	3.5
파이어	• 장점: 모델이 언제 배웠는지에 대한 정보를 LLM이 인식할 수 있다는 발견이 장점임. • 단점: 인위적으로 alias와 timestamp를 사용했는데, 이걸 일반적인 환경에서도 적용이 되어 잘 학습이 될지는 의문임. • 보완: 학습 순서를 인코딩할 때, 실제의 데이터셋을 사용하여 실험이 필요할 것 같음.	3.7
덩쿠림보	Training trajectory를 내부에 인코딩하는게 신기함! 결과적으로 봤을 때 순서에 따라 모델이 변하는 것은 당연한데, 그걸 어떤식으로 내재적으로 가지고 있는지는 쉽게 감이 잡히지는 않음. 이미 커리큘럼 러닝 등으로 trajectory에 대한 최적화 연구는 많이 되어 있어서, 이 연구 어디다가 써먹을지는 모르겠음. unlearning할 때 training 초기에 배운것과 후기에 배운것 중 어느걸 잘 잊는지 볼 수 있어서 거기에다 써먹을 수 있으려나	3.7

TL; DR

💡

언어 모델은 “무엇” 을 배웠는지와 “언제” 배웠는지에 대해 알고있다.

⇒ 다양한 통제 실험을 통해 검증해보자 ! !

Summary

연구진

github : x

인용수 : 2

Background & Motivation

LLM에 대해서 보통 “Knowledge에 대해 아는가?” 에 집중하지만, “knowledge를 언제 배웠는가?” 에 대해서는 탐구하지 않았다.
⇒ 따라서, “무엇을 아는지”에 더해, 모델이 학습하는 모든 데이터에 대해 암묵적으로 timestamp를 찍을 수 있다면 어떻게 될까??

💡

LLM이 단순히 “무엇”을 아는지를 넘어서,

“언제” 배웠는지에 대한 정보까지 LLM 내부적으로 구분하고 있을 가능성을 탐구해보자.

Contributions (What they’ve revealed)

💡

Training-order(훈련 순서 정보)가 LLM의 activation(hidden vector)에 Linear하게 인코딩되는 것을 처음으로 보여주었다.

이러한 인코딩 정보는 “최신성(recency)”을 나타낸다.

“최신성(recency)” 정보는 단순한 artifact가 아니라, 실제 representation 정보이다.
⇒ 단순하게 나온 정보가 아니다!

“최신성(recency)” 정보는 모델이 직접 활용할 수 있다!

Experimental Setup

모델이 언제 배웠는지, 기억하는지 확인하기 위해 training order를 통제해야 한다.

데이터셋 : 유명인 entity 기반의 QA 데이터셋
⇒ entity는 총 16000개가 존재하고, 각 entity별 6개의 고정 QA 질문이 존재함.
(언제, 어디서 태어나고 사망했는지, 무엇을 했는지..등등)

QA 데이터셋에 존재하는 모든 entity를 alias로 바꿈 ⇒ Synthetic
e.g,.) Einstein → sjdfef(랜덤 토큰)
⇒ Pretrained model의 knowledge 영향을 제거하기 위함.
(Pretrained model이 Einstein에 대한 지식을 가지고 있을 수 있기 때문에, 새로운 토큰으로 바꿈)
그리고 고정된 질문 templete외에도 Natural 한 버전의 질문도 추가함.

Test sample 생성
=Test sample은 training에 썼던 QA 템플릿에서 alias는 고정하고, 템플릿만 바꿔서 만든다.
(즉, fine-tuning에 사용했던 entity=alias를 가지고, “다른 형태의 질문”으로 다시 물어보는 sample)
⭐ sample을 만들 때는 토큰 길이, 위치, 같은 질문 템플릿을 사용해야 한다.
(조건을 맞춰주기 위해서!)

전체 entity를 그룹으로 나눔. <E>
전체 entity를 $E_1 ∽ E_m$ 그룹(집합)으로 나눈다. 각 집합은 독립임!
(여기서 m은 2 또는 6을 사용했다고 함)

전체 entity에 대해 QA 데이터셋 생성 <D>
$E_i$ 에 등장하는 모든 entity(alias)를 포함하고 있는 QA 질문을 QA 데이터셋에서 가져오고,
$D_1 ∽ D_m$ QA 데이터 부분집합을 만든다!

$D_1 ∽ D_m$ QA 데이터셋을 통해 모델 Fine-tuning.
$D_1 ∽ D_m$ 순서대로 Llama 모델에 데이터셋별로 5 epoch씩 학습을 시킴.
(D1 = 5 epoch / D2 = 5 epoch / …. / Dm = 5 epoch) 순서대로!!

학습된 모델에 Test_sample을 넣음
$D_1 ∽ D_m$ 과 다른 형태의 질문에 alias는 그대로 존재하는 QA test sample을 넣는다.

각 입력에 대한 activation을 뽑는다.
- 입력마다 Layer별로 토큰별 hidden vector를 뽑는다.
  (N-layers x N_tokens)개 벡터

데이터셋별로 나온 activation들을 평균을 내서 centroid를 구하고, 직선상에 나타낸다.

마커의 의미 : Test_sample에 사용된 질문 템플릿을 다르게 설정한 것

x축 : c1→c6으로 가는 방향벡터에 모든 centroid를 정사영시켜서 축변환 시킨 것.

y축 : x축으로 설명되지 않는 부분에 대해서 PCA를 적용함. (큰 의미x)
⭐ c1~c6 방향을 기준으로 볼 때, 모든 centroid가 순서대로 놓이면, activation 공간에 시간 순서에 대한 축이 존재한다.

전체 activation(hidden vector)을 가지고, 8:2 비율로 train/test로 나누어서 선형 분류기인 probe를 학습하고, test를 평가한다. (이 때는 데이터셋 2개씩만 놓고 이진분류 평가)
e.g.,) Probe model = 😺
Train(5-epochs)
train activation1 → 😺 → D1의 entity
train activation2 → 😺 → D2의 entity
Test
test activation1 ⇒ 😺 ⇒ D2에 있던 entity !
test activation2 ⇒ 😺 ⇒ D2에 있던 entity !

Result

Experimental Setup의 실험결과에 대해서 해석해보자 !

[1] 훈련 순서(training-order)는 activation 공간에서 Linear하게 인코딩된다.
(위에서 언급된 실험결과를 다시 언급)
training-order가 activation 공간에서 하나의 방향으로 표현된다. (순서대로!)
- (a) 학습된 선형 Probe는 test entity에 대해 stage 구분을 잘한다! (어떤 stage의 entity인지 잘 맞춤). 그리고, stage 차이가 클수록 더 구분을 잘한다.
- (b) sample(QA문장)에 대한 activation을 보았을 때, alias entity를 인식하고부터 벡터값이 커진다. 또, layer가 깊어질수록 커진다.

[2] 훈련 순서(방향)이라는게 뭘 의미?
[1]에서 등장한 선형적인 순서/방향이라는게 무엇인지 해석해보자.
💡
만약, 훈련 순서를 모델이 알고있다면, 가장 최근에 훈련시킨 데이터는 직선상 가장 우측에 있을 것이다.
⇒ D1 ~ D6 로 fine-tuning한 모델에 추가적으로, D1 ~ D6를 랜덤하게 하나씩 더 Fine tuning 하고, 직선상에 표현해보자.
(a) 추가로 훈련시킨 데이터셋의 activation이 가장 우측에 있는 것을 볼 수 있음
(b) 에폭수에 따라 이전단계의 centroid에서 더 멀어지는 것을 확인한 추가 실험임.
❓ 단순하게, 최근에 훈련시키면 recency인거 아닌가?
⇒ D1 ~ D6 을 섞어서(mixing data) “순서 정보 없이” 추가학습을 한다면?
원래 training-order가 사라지지 않을까?
mixing data로 학습 후, activation을 보면, training-order가 여전히 유지된다.
⇒ 즉, training-order는 단순하게 최신정보(recency)가 아닌, 모델 내부에 training-order를 더 깊게 저장하고 있음.
💡
training order는 단순 recency 정보가 아닌,
recency 정보 + 모델 내부의 복잡한 history 정보를 의미한다.

[3] 훈련 순서는 우연히 발생하는게 아니다.
기존 실험에서는 Llama-3.2-1B 모델을 사용했지만,
- Qwen2.5-0.5B / 1.5B / 3B 모델별로 바꿔서 실험을 진행해보고,
- Full Fine Tuning이 아니라, LoRA를 사용해보고,
- epoch수를 줄이고, 데이터 수를 늘려서 실험해봐도
  ⇒ training-order는 발생했다.
  (파라미터가 중요한게 아닌, 학습 데이터의 순서가 중요해 보인다)
학습 데이터 순서를 없애고 훈련을 해보자.
- D1~D6을 순서없이 무작위로 학습해보고,
- Fine-Tuning을 하지 않고 학습해보고,
- Probe 학습시 label을 랜덤으로 섞고 평가를 했을 때는
  ⇒ training-order가 발생하지 않았다.
  💡
  training order는 순차적으로 학습이 있을 때만 생긴다.

[4] 훈련 순서는 entity-level에서 강하게 encoding된다.
- 기존 모델 학습방법 : D1 ~ D6 데이터셋별로 Entity만 다르고, 질문 템플릿은 동일했음.
  ⇒ Entity-level에서 training-order가 잘 드러났다!
- 새로운 실험 방법 : D1 ~ D6 데이터셋별로 Entity를 통일, 질문 템플릿은 다르게 설정.
  ⇒ Sample-level(질문)에서도 trainig-order가 잘 드러날까?
  Prob Acuuracy / Level Entity-level Sample-level
  Accuracy 90% 60%
  Accuracy(Mixing) 63% 50%
  💡
  Sample-level에서의 Training-Order는 약하게 드러난다.

[5] 모델은 직접 내부적으로 Training-Order를 사용할 수 있다.
학습된 모델을 가지고, 이미 Training-Order를 가지고 있는 상태에서
Q : <Which training stage is this <alias> from?>
A : D1
이라는 Task를 만들어 학습을 시킨다.
이후, 모델에게 직접 평가를 시켰고, 80%의 정확도를 달성함.
💡
Recency 정보는 외부적으로 Probe를 따로 설정하지 않고, 모델도 직접 사용할 수 있다.

Simple Explanations cannot fully account for The Effect

이런 Training-order의 효과는 단순하게 설명되는 효과가 아니다!

⇒ Training order가 단순히 통계적인 특징 때문에 나온 것일수도 있지 않는가? 확대 해석아닌가?

💡

실제 내부의 구조적인 정보로 Training order가 발생한 것인지,

단순하게 우연히 인위적으로 만들어진 결과(=Artifact)인지 검증하자.

단순한 정보에서 training order가 나온 건 아니다.
- Activation의 크기 분포
  D1과 D2의 크기분포가 동일한 상태임에도, 위에서 probe의 결과는 좋았다.
  ⇒ 크기분포로 Training order를 설명불가.
- PCA(주성분 분석)
  D1과 D2의 activation에 대해 주성분을 보면, 구분이 되지 않음
  즉, 단순한 특징이었다면, PCA에서 구분이 되었어야 했지만, 구분이 되지 않으므로,
  간단한 통계적 특징이랑 연관이 없다!
- Cosine similarity
  $s_{11}$ : D1 내부 activation들끼리 얼마나 비슷한가
  $s_{22}$ : D2 내부 activation들끼리 얼마나 비슷한가
  $s_{12}$ : D1과 D2가 얼마나 비슷한가
  cosine similiarity로 training order가 설명되려면, $s_{12}$ 의 값이 크게 나오면 안된다.
  하지만, 크게 나왔기 때문에 training order는 cosine similarity로 표현할 수 없다.

D1,D2를 모든 activation 통계적 조건을 똑같이 맞춘 상태에서도 probe가 잘되면 training order는 내부의 복잡한 구조 정보로 이루어져있다.
training order에 영향을 주는 조건이 있지 않을까? 여러 실험을 통해 확인해보는 단계
Activation(6개)
max value
L2norm
mean
std
skewness
kurtosis
logit(7개)
entropy
max logit
logsumexp
mean
std
skewness
Kurtosis
D1, D2에 대해 위 통계량 특성들을 모두 맞춘 상태에서 Probe를 학습하고 평가.
⇒ Probe의 성능이 좋으면 Training-Order가 있는 것!
즉, 통계량까지 모든 조건이 맞는 상태인데도, training order가 있다면, 통계량 속성들과도 일절 연관이 없다.
- 통계량 특성을 맞추면 학습 데이터의 분포가 비슷해진다. (Activation 통계량에 대한 예시)
이렇게 통계 속성을 맞춘 데이터를 Balancing Data라고 함
- 어떻게 데이터들의 통계 속성을 맞출까?
  D1, D2 Dataset은 QA Dataset을 모델에 넣었을 때 발생한 Hidden vector들임.
  이렇게 조건을 맞춘 후 분석 진행(같은 통계적 분포를 띌 때도 Training-Order가 생길까?)
  위에서 만든 Balancing data로 probe를 4:1 = train / test로 돌려보자.
  또한, 추가 실험으로 Balancing data 샘플링 시에 데이터를 많이 버렸는데,
  “데이터를 많이 버린게 또 영향을 주지 않을까?” 에 대한 실험도 해보자.
  (Random Downsampling)
  위 2개 결과와 원래 결과를 비교해보자.
  데이터 균형을 맞춘 balancing data와 균형을 맞추지 않고 데이터 수만 맞춘 random downsampling 모두 probe의 성능이 유지가 되었음.
  💡
  결론은 activation, logit의 통계적 차이에 의해 training order가 좌우되지 않는다!

Discussion

많은 가능한 변수들에 대해서 통제 실험을 했음에도, Training-Order가 남아있는 것을 확인했고,

따라서, Training-Order는 모델 내부적으로 구조적인 특징을 가지고 있음.

Limitation
- 8B 모델의 작은 모델과 단순한 데이터셋으로만 실험을 함.
- 또한 언어 모델에 대해서만 실험을 해 일반성이 부족함.
- Alias로 entity를 바꾸고, Fine-tuning을 하여 Training-order를 관찰했는데,
  Pre-Training시에도 Training-Order가 있는지에 대해 확인하지 않았음.
- Training-Order라는 현상만 발견했지, 이 현상이 발생한 정확한 원리는 파악못함.

Positive Effect
- Training Data가 시간적 정보를 가지고 있을 때, Training-order가 Training에 도움이 될 수 있고, 더 좋은 예측을 할 수 있음.

Future Works
- Pretrainig시에도 Training-order가 존재하는지에 대한 실험 가능
- 모순되거나 상충되는 정보들에 대해서 Training-Order가 어떻게 변할지 확인
- 모델이 실제로 Training-Order를 알고, 스스로 업데이트를 조절할 수 있을지?
- 모델이 자신의 답변 상태에 대한 설명을 할 수 있을지?

Conclusion
언어 모델은 “무엇”을 알고 있는지에 더해서 “언제” 배웠는지에 대해서도 저장을 한다.
여러 통제 실험에도 불구하고 언어 모델은 Training-Order를 가지고 있다.
💡
LLM의 representation은 단순히 지식을 저장하는 것이 아닌,
학습 과정의 시간적인 정보(=Training Order)까지 담고 있는 공간임.

Yonsei Univ. ICL

FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS

💡언어 모델은 “무엇” 을 배웠는지와 “언제” 배웠는지에 대해 알고있다.⇒ 다양한 통제 실험을 통해 검증해보자 ! !

FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS

Review

TL; DR

Summary

Background & Motivation

Contributions (What they’ve revealed)

Train(5-epochs)

Test

Categories

Prob Acuuracy / Level	Entity-level	Sample-level
Accuracy	90%	60%
Accuracy(Mixing)	63%	50%