Quantifying Elicitation of Latent Capabilities in Language Models

Review

닉네임	한줄평	별점 (0/5)
월드콘	LLM은 대부분의 지식을 학습 했을 것이고, 추론도 가능할 것임. 소수 파라미터만을 수정해서 이를 특정 task에 유도할 수 있다면 효율성이 뛰어날 것이지만, 다른 task에 대한 성능이 유지될 수 있을까? 라는 의문이 남음.	4
파비아노카루아나	신선한 관점인데, 결국 그 소수 파라미터가 국소적으로 어떤 영향을 미쳤는지도 알 수 있었으면 너무 좋았을듯. 그게 궁금함	4
키보드	발견은 새로운데 그래서 어떻게 해야하지.. LoRA에서도 일부 파라미터만 파인튜닝해도 된다는 건가? 파인튜닝 할 파라미터를 랜덤 선택해도 비슷한 elicit 효과 나타낸다는 것은 신기하다	4
우산안가져옴	LLM의 진짜 능력을 측정해야 된다는 의견을 제시하는 연구. 파인 튜닝은 LLM이 기존에 모르던 것을 추가로 알려주는 것이구나 라고 생각했던 기존의 관념을 Elicit 한 거였구나라고 바꿔준 고마운 논문	4.3
꼬들목	motivation만 읽었을 때에는 `당연한 말을 하고 있네` 라고 생각했는데, 실험 세팅 등등 이를 증명하는 과정이 명쾌해서 좋았슨	4.5
육사시미	특정 파라미터가 특정 유형의 reasoning을 담당하고 있을 가능성으로도 해석될 수 있어 보임. 또한 특정 acc를 달성하는데 어느 정도의 파라미터가 필요한지를 기준으로 문제나 데이터셋의 난이도를 역으로 추정하는 것도 가능할듯	4.3
날씨:흐림	어떤 태스크에서 성능이 안 나온다고 해서 능력이 없다고 결론내리기보다, 그 능력이 모델 안에 잠재해 있는데도 우리가 접근(elicitation)을 못 했을 가능성을 정량화했구나!	4.3
마우스	이미 있는 모델의 잠재 능력을 나오게 한다는 점에서 큰 기여가 있는 듯 하다. LLM이 파라미터 학습을 통해 숨겨진 능력을 드러낼 수 있다면 앞으로의 연구 방향에서 많은 참고가 될 듯.	4.8

TL; DR

💡

LLM은 잠재된 능력을 이미 갖추고 있으며, 아주 적은 수의 무작위 파라미터만 학습해도 그 능력을 효율적으로 끌어낼 수 있다는 것을 실험/이론적으로 정량화함

Summary

연구진: UC Berkeley

연구 동기

LLM들은 post-training (e.g., fine-tuning, RLHF, prompt engineering)만으로도 성능이 크게 향상됨
- 이는 LLM의 능력이 새로 생긴 것(teach)이라기보단, 이미 있었던 능력이 ‘꺼내진’ (elicit)것일 수 있음

10~100개의 무작위 파라미터만 학습 시
→ 전체 fine-tuning 대비 50% 이상 성능 회복 가능
→ 이는 잠재 능력이 모델 내에 이미 있었음을 의미

기존 방법의 한계

성능 평가 방식
- 기존의 LLM 성능 평가는 대부분 zero-shot, few-shot, 또는 prompt engineering을 기반으로 함
- 하지만 이는 모델이 내부에 이미 가지고 있는 능력을 제대로 드러내지 못할 수 있음
- 이로 인해 모델 성능의 상한(ceiling)을 평가하지 못함 → 잠재력 과소평가

Scalability에만 초점
- 많은 연구들이 성능 향상 요인으로 모델 크기, 데이터 개수, 연산량만을 다룸 (e.g., scaling laws)
→ 이 논문은 "모델이 이미 능력을 갖추고 있을 때, 얼마나 적은 파라미터 수정만으로 그 능력을 끌어낼 수 있는가?"에 주목
- 즉, 모델 scale이 아닌 정보량 기준의 새로운 관점을 제시함

핵심 질문

"LLM의 잠재 능력을 유도하려면 최소 몇 개의 파라미터를 조정해야 하는가?"

"이것이 정말 elicitation인지, 아니면 teaching인지 어떻게 구분할 수 있는가?"

제안 아이디어

Elicitation과 Teaching의 정량적 구분
- 쉬운 태스크에서는 사전학습된 모델이 몇 개의 파라미터 학습만으로도 성능 향상
- 반면, 동일 모델을 random 초기화하면 수백만 개의 파라미터가 필요 → 이는 Teaching에 해당
- → Elicitation는 기존에 있는 능력을 "찾아가는 것", Teaching은 "새로 만드는 것"임을 입증

정보이론적 관점의 해석 (MDL 기반)
- Elicitation 과정을 Minimum Description Length(MDL) 원칙으로 해석
  → 잠재 능력이 있다면, 아주 적은 정보(몇 개의 파라미터)만으로도 데이터 압축이 가능해야 한다!
- 적은 수의 파라미터로도 MDL이 급감하면, 이는 이미 존재하는 능력이라는 증거

Experiments

실험 Configuration

활용 LLM : Llama 3.2 1B/3B, Llama 3.1 8B, Qwen2.5-1.5B

방법 : LoRA 파라미터 중 무작위 선택, 극소수만 학습

실험 1 : Classification Tasks
데이터셋:
GSM-8K-CoT-Choice : 다지선다 수학 문제 (풀이 과정에 대한 binary classification)
ARC-Easy : 과학 상식 (객관식)
ARC-Challenge: 고난이도 과학 추론 (객관식)
핵심 질문:
"각 태스크에 대해 몇 개의 파라미터 학습만으로 성능 회복이 가능한가?"
주요 결과:
- GSM-8K-CoT-Choice : 단 30~100개의 파라미터만으로도 전체 성능 격차의 50% 회복 가능
- ARC-Challenge : 작은 모델(1B)은 많은 파라미터가 필요 → 추론 능력이 원래 없을 가능성이 높음
→ 모델 크기가 클수록 적은 파라미터 학습으로도 성능이 잘 회복됨 → 능력이 이미 내재되어 있음

실험 2 : Generation Tasks
핵심 질문:
"텍스트 생성 과제에서도 파라미터 몇 개만으로 성능을 유도할 수 있을까?"
주요 결과:
- Alpaca-Eval: 1,000개 파라미터 학습으로 50% 성능 회복
- TinyStories (간단한 영어 이야기 생성): 아주 적은 파라미터 학습으로 빠른 성능 회복
- Lichess Puzzles (체스/수학 문제): 복잡한 문제일수록 10,000~20,000개 이상 필요 → 학습이 필요한 경우

실험 3 : Logistic Scaling Law: S-curve 패턴의 일반성
핵심 질문:
"이런 성능 향상 패턴은 특정 태스크에만 나타나는가, 아니면 일반적인가?"
결론:
- Accuracy 상승률이 로지스틱 곡선(S-curve) 형태로 나타남
- 다양한 태스크, LLM 크기에 걸쳐 일관된 패턴 관찰

실험 4 : Pareto Frontier 안정성
핵심 질문:
"모델의 전체 파라미터 중에서 어떤 부분을 학습할지 무작위로 고르면, 실험 결과가 seed에 따라 많이 달라질까?"
- Pareto Frontier : “얼마나 적은 파라미터로 얼마나 좋은 성능을 낼 수 있는지”의 효율성의 극한을 보여주는 곡선
결론:
- Pareto frontier는 random seed에 대해 매우 안정적
- 다수의 실험에서도 로지스틱 곡선의 95% 신뢰구간 내에 대부분 수렴
  위의 그림에서 음영 표시된 구역이 95% 신뢰구간임

실험 5 : Elicitation vs. Teaching
핵심 질문:
"성능 향상이 모델이 이미 알고 있는 능력을 끌어내는 과정(elicitation)인지, 아니면 진짜 학습(teaching) 덕분인지 어떻게 구분할 수 있을까?"
실험 조건:
- Llama 3.2 1B의 두 버전 비교 (학습 효율성 차이 분석)
  사전학습된 모델
  Random 초기화 모델
- 2가지 태스크 수행
  TinyStories
  Lichess Puzzles
결과:
- TinyStories
  사전학습된 모델 : 수십~수백 파라미터면 충분
  Random 초기화 모델 : 수백만 개 파라미터 필요 → 학습이 필요함
- Lichess Puzzles
  둘 다 어려워서 차이 크지 않음 →
  모델 내부에 특정 태스크에 대한 이해가 없으면 pretrained 여부와 관계없이 teaching이 필요→ elicitation 불가능

이론적 검증

Minimum Description Length (MDL) : 정보량

"가장 짧은 설명으로 데이터를 표현하는 것이 가장 좋은 모델"!
→ Occam’s Razor (오컴의 면도날, 간결한 것이 진리일 가능성이 높다)를 수학적으로 표현한 원리
정의 : 모델이 각 데이터 label을 설명하기 위해 필요한 최소한의 비트 수
수학적 정의 : 각 샘플 예측값에 대한 cross-entropy loss의 누적합
→ 모델이 처음보는 데이터를 추론하는 능력을 계속 측정

$\mathcal{L}_0$ : 사전학습된 모델이 아무것도 안 배우고 label을 설명하는 데 필요한 MDL

$\mathcal{L}_k$ : k개의 파라미터만 fine-tuning 했을 때 필요한 MDL

⇒ 적은 수의 파라미터로 학습해도 MDL이 크게 감소 → 능력이 이미 존재 (elicitation)

⇒ MDL이 거의 줄지 않음 → 능력이 없다 (teaching)

실험

Task（ARC-Challenge）：복잡한 과학/상식 추론 문제

⇒ Figure에서 중요한 부분 : MDL Compression (y축 오른쪽) → 얼마나 정보가 줄었는지??

Llama 3.2 1B
- 해당 task 수행 능력이 없거나 부족
- 초반엔 아무리 파라미터를 조금 늘려도 Accuracy는 오르지만 정보 압축 X (단순 암기 수준)
- 어느 시점 이후 갑자기 정보 압축량 증가
→ 종합하면 Teaching에 가까움!

Llama 3.1 8B
- 이미 관련 능력이 내재되어 있음
- 소수의 파라미터로도 성능과 MDL이 동시에 빠르게 향상됨
- Accuracy curve와 MDL compression curve가 거의 같은 모양
→ 이건 Elicitation이다!

Yonsei Univ. ICL

Quantifying Elicitation of Latent Capabilities in Language Models

💡LLM은 잠재된 능력을 이미 갖추고 있으며, 아주 적은 수의 무작위 파라미터만 학습해도 그 능력을 효율적으로 끌어낼 수 있다는 것을 실험/이론적으로 정량화함

Quantifying Elicitation of Latent Capabilities in Language Models

Review

TL; DR

Summary

연구 동기

기존 방법의 한계

핵심 질문

제안 아이디어

Experiments

실험 Configuration

이론적 검증

Minimum Description Length (MDL) : 정보량

실험

Categories