Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Review

닉네임	Strength & Weakness & Sugguestions	별점 (0/5)
댓츠노노	• 장점: 인간의 사고방식을 모델링해 SFT보다 더 나은 FT 방식을 제안함. 제안하는 방법의 뛰어난 효율/효용성 보임. COLM다운 논문! • 단점: 어떤 원리로 CFT가 SFT보다 더 잘 optimize되는걸까? 실험적 말고 이론적 근거가 있었으면 조금 더 좋았을 듯 • 보완점: limitation으로 언급한 데이터 품질문제를 어떻게 보완할 수 있을지	4
아이리스	장점: 모티베이션, 아이디어가 개인적 생각과 너무 일치함!! 사람의 사고 방식을 잘 모델링하는 연구라고 생각함. 단점: 좋은 데이터를 만들고, 검증하고, 다양하게 비판하고, 토론하는, 정말 사람같은 프로세스는 아님. 일부만 구현한 느낌? 보완점: 내가 하고 싶은 방향임. 혼자 학습하는 것보다, 다 같이, 더 좋은 문제를 비판하며 토론하고 학습하기.	4.5
핸드크림	• 장점: gpt의 비판 능력이 반영된 데이터로 학습. gpt 생성 텍스트를 배우면서 동시에 비판 능력을 배울 수 있음 • 단점: 학습 데이터 품질 보장이 필요 • 보완점: distilled SFT 모델과 성능 비교	4.5
3월	• 장점: 기존에 정답을 따라하게 학습시키는것과 달리, 인간 학습 방식과 유사하게 틀린 답을 비판하도록 학습한 사고의 전환이 뛰어남 + 데이터 효율성도 엄청 좋음 • 단점: 학습 목표랑 inference 목표랑 다른데도 성능이 좋은 이유가 뭘까...? 궁금증 • 보완점: 틀린 기준이 모호한 문제에 대해 critique 이후에 정답 생성까지 end-to-end로 학습해보기	4.4
화이트노이즈	• 장점: base 모델 성능이 많이 좋아져서 SFT로는 슬슬 부족하다고 생각했기 때문에 background를 읽으며 고개를 끄덕였음 + SFT의 단순 답 imitating에 불만을 갖는 논문이 많이 보임 • 단점 & 보완점: 틀린 이유가 명확한 수학 도메인에 대해서는 잘하지만 정답이 모호하거나 열린 형태인 글쓰기, 상식 추론 영역에서도 잘할지 의문임 + 실험해봤으면 좋겠음	4.1
에너지	• 장점 : SFT의 (질문,정답)이 아닌 (질문, 정답, 설명)의 CFT을 제시. 대부분 post-training은 SFT를 사용했기에 당연시 여겨왔던 패러다임을 다른 방식으로 생각할 수 있게해 준 것 같음. 처음 제목을 보고 뭔가 했지만 창의적인 논문이라고 느꼈음. • 약점 : 방식은 창의적이나, 데이터의 품질에 너무 의존 • 보완점 : critique 데이터를 구축시 여러 모델을 사용해서 critique 품질을 올리거나, top-k로 하거나,,, 데이터 품질 확보에 대한 추가 방법이 반영되면 좋을 것 같음.	4.2
피즈치자	• 장점: 방법이 굉장히 간단함에도 높은 성능 향상이 이루어짐 왜 지금껏 human reasoning 과정을 이곳저곳에 적용하고자 하는 생각은 많았는데 SFT에는 적용할 생각을 못했을까. 적은 데이터가 필요하다는것도 굉장히 큰 메리트임 • 단점: 생성된 critique의 품질에 좌지우지 될 여지가 있음 • 제안: 최근에 나온 LLM을 기반으로 더 정교하게 right, wrong set를 만들면 성능 향상이 많이 일어날것 같긴함. 완전 정교한 데이터셋으로 학습했을 때의 성능이 궁금	4.2
제로콜라	• 장점: 정답을 외우게 하는 것보다 틀린 이유를 분석하게 만드는 방식이 더 효과적이라는 아이디어가 인간이 공부하는 방식과 비슷해서 공감이 됨. • 약점: 학습할 때는 답안을 비판하는 방식으로 훈련하면서 정작 추론할 때는 바로 답을 생성하는데, 왜 이 학습 방식이 직접 답을 생성하는 능력을 키워주는지 설명이 부족한것 같음. • 보완점: critique를 생성하는 teacher 모델의 품질에 성능이 의존하는 구조인데, 다양한 모델로 critique 데이터를 만들어 보기.	4.3
창백카츄	장점: 성능이 오름 약점: Contrastive learning의 철학을 그대로 가져왔고, CoT의 철학과도 비슷함. 즉, 아이디어가 original하지 않아보여 학계에 기여했다는 느낌을 받지 못함. 내생각에 방법론 Contrastive learning+CoT+Distillation 이게 끝인거같음 제안점: 강화학습적인 관점을 넣어서, 추론에서 policy에 대한 critique를 생성해서 하는건 어떨까?	1.75

TL; DR

💡

정답을 그대로 모방하는 SFT보다, noisy한 답안을 ‘비판(critique)’하도록 학습하는 방법이 reasoning 성능 향상에 더 효과적이다!

Human learning process의 방식(critical thinking, analyze, understanding…)을 모델 학습에 적용해보자

Summary

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, COLM’25 | 📄 Link | 💻 Code

Author

Citation: 40

Introduction

Background

일반적으로 LLM post-training의 방법으로는 SFT (Supervised Fine-Tuning)을 사용함
- Supervised Fine-Tuning (SFT): 주어진 질문-정답 쌍을 바탕으로, 모델이 정답 응답을 모방(imitate responses)하도록 학습하는 방식
- 특히 수학적 추론이나 코드 생성처럼 특정 능력을 강화하는 데 자주 활용됨

그래서 기존연구들은 high quality SFT dataset을 구축하는데 주력함
- e.g., MetaMath, MAmmoTH, WisardCoder

하지만 이미 성능이 강한 base 모델에서 SFT를 진행한다면, SFT 데이터의 양과 품질을 계속 높여도 성능 향상이 둔화됨

또한 데이터 품질이 충분히 좋지 않으면 SFT를 했을 때 성능이 오히려 떨어질 수 있음 Fig1

Motivation

인간의 사고방식(human learning process)을 한번 생각해보자!
- 인간은 단순히 정답을 외우지 않음. 답을 분석하고, 비판하고, 정제함으로써 이해를 깊게 만듦
  → critical thinking, deeper analysis, and nuanced understanding …
- 이러한 요소들이 그동안 SFT에서는 고려되지 않았고, 정답을 그대로 모방하는 학습에 초점을 두었음

So in this Paper…

Fig 1-b: Comparison between SFT and CFT dataset samples

모델이 단순히 정답을 모방하면서(imitation) 배우기보다, 어떤 풀이가 왜 틀렸는지, 어느 부분이 불완전한지, 어떻게 수정해야야 하는지(critique)를 비판하고, 검토하는 방식으로 학습하게 하자!

이를 위해, question-response pair $(x, y)$ 에 대해 annotated critique $c$ 를 생성하도록 학습 Fig1-b
- $P(c \mid [x; y])$ 를 최대화하는 objective을 사용하자

⇒ ‘정답 모방’보다, 불완전한 답안을 비판하고 검증하는 학습이 reasoning 능력 향상에 더 적합하다!!

Contribution

Critique Fine-Tuning (CFT) 제안: 단순히 query에 대해서 response을 모방(imitation)하는 방식이 아닌, query–response pair를 입력으로 주고 critique를 학습하는 새로운 fine-tuning 방식을 제안

Critique dataset 구축: GPT-4o를 활용하여 WebInstruct, MetaMathQA, NuminaMath에 대한 critique 데이터셋을 구축

실험
- 3개의 7B base model에서 CFT가 가장 강한 SFT baseline 대비 평균 약 4~10점 더 높은 성능을 달성
- 단 50K 샘플과 약 1시간의 학습만으로, 2M+ 샘플로 학습한 강한 모델 및 RL 기반 SimpleRL에 근접한 성능을 달성(data/ compute efficiency)

Method & Dataset

Datasets

WebInstruct

수학 65%, 물리 8%, 화학 4%, 비즈니스 10%, 인문 4% 등으로 구성되어 있는 dataset
- 수학 중심 데이터보다 범위가 넓음

50K 규모로 4가지 subset을 만듦:
- WebInstruct-SFT: 원본 답안 그대로 사용한 SFT 데이터(오류율이 50% 이상) (원본 WebInstruct데이터에서 단순 50K 샘플링)
- WebInstruct-verified: 원본 답안에 대해서, GPT-4o-1120가 맞다고 판정한 답안만 골라 만든 SFT 데이터
- WebInstruct-GPT-4o: WebInstruct-SFT와 동일한 질문에 GPT-4o-1120가 새로 답한 데이터
- WebInstruct-CFT (Ours): 원본 noisy 답안(WebInstruct-SFT)에 대해 GPT-4o-1120가 critique를 생성한 데이터. 이 중 약 56%는 ‘correct’, 나머지는 ‘wrong’으로 판정됨
  Prompts & Generated Critique
  → 즉, 원본 데이터에서 맞는 쌍(correct)은 맞은 이유를 생성, 틀린 쌍(wrong)은 틀린 이유를 생성하게 됨. 원본 noisy 답안을 (critique만 붙여서) 그대로 사용한다는게 포인트임

Comparison between other SFT datasets
- 훨씬 더 적은 양(50K)으로, 더 많은 range of topics을 커버한다

MetaMath & NuminaMath

각각 50K를 샘플링하고 GPT-4o를 사용하여 critique 데이터를 만들음

Training Objective

Input: 질문 $x$ 와 noisy response $y$ 를 이어붙인 $[x; y]$

Output: $[x; y]$ 쌍에 대한 critique $c$

Training Objective: 모델이 critique $c$ 를 생성하도록 다음을 최대화:
$\argmax_{\theta} \log P(c \mid [x; y]; \theta)$
- $\theta$ 는 모델의 parameter

⇒ 모델이 training 시에는 ‘정답 생성기’가 아닌 ‘답안 비평가’로 훈련됨

Inference 시에는 별도의 critique 단계 없이 답을 바로 생성

Experiments

Setting

Evaluation Datasets
- Mathematical reasoning benchmarks
  MATH, Minerva-Math, GSM8K, AIME24, AMC23, OlympiadBench
- STEM reasoning (Science, Technology, Engineering, Mathmatics)
  TheoremQA: mathematical theorem understanding
  MMLU-Pro: physics, chemistry, mathematics
  GPQA: 과학적 reasoning을 요구하는 복잡한 질문

Base Models
- DeepSeek-Math-7B, Qwen2.5-7B, Qwen2.5-Math-7B

Training Details
- SFT settings
  SFT: 원본 데이터셋의 응답을 그대로 사용하여 학습
  SFT-verified: GPT-4o가 검증한 응답만 사용하여 학습
  SFT-GPT-4o: GPT-4o가 생성한 응답을 기반으로 학습
- CFT settings
  앞서 구축했던 CFT dataset을 사용해 학습

Results

Main Results (CFT vs. SFT)
- 세 base model에 대해, SFT와 CFT간의 성능을 비교
- 가장 base 성능이 좋은 모델은 Qwen2.5-Math-7B임
- WebInstruct-SFT (원본 데이터셋)으로만 훈련했을 때 base 보다 오히려 성능이 낮아지는 상황도 존재함
- WebInstruct-CFT를 사용했을때 모든 모델에서 전반적으로 가능 높은 성능을 달성했고, SFT에서 달성한 최고 성능 대비 6.7%의 improve를 달성함

Performance comparison of Ours vs. other Reasoning-specialized models
- CFT 기반으로 학습된 모델(Qwen2.5-Math-7B-CFT)과 기존의 다른 reasoning-specialized model과의 성능 비교
- Qwen2.5-Math-7B-CFT가 모든 7B scale 모델에 대해서 가장 높은 성능을 달성함
  추가적으로, 이는 단지 50K의 training data 에서 달성한 성능임
- 더 큰 모델(72B)과 비교해서도, 1/10 정도만의 parameter 뿐 만으로 대부분의 dataset에 대해서 능가하거나 견줄만한 성능을 보임

Comparison with RL-based Method
- Qwen2.5-Math-7B-base를 기준으로, CFT를 RL 계열 방법인 SimpleRL과 비교
  SimpleRL-Zero: pure RL-based training
  SimpleRL: Distill+RL-based training
- CFT는 RL 기반 방법들과 유사한 수준의 성능을 보임
- SimpleRL 계열은 1152 H100 GPU hours를 사용하였지만 CFT는 8 H100 GPU hours만으로 학습함
  → RL급 성능을 훨씬 적은 연산 비용으로 근접할 수 있음

Ablation Studies
- (1) Data Source
  학습 데이터셋을 WebInstruct / MetaMathQA / NuminaMath로 바꿔가며 성능 차이를 비교
  각 데이터셋의 특성
  WebInstruct: 범위는 넓지만 noisy한 웹 기반 instruction dataset
  MetaMathQA: 수학 문제를 다양하게 재작성해서 만든 math-specialized dataset
  NuminaMath: 대규모 competition-style math CoT dataset
  SFT에서는 수학에 특화되어있거나 구조화된 MetaMathQA/NuminaMath가 유리했고, broad하지만 noisy한 WebInstruct는 불리함(성능이 낮게 나옴)
  하지만 CFT에서는 WebInstruct의 성능이 우세함
  → 이는 곧, CFT는 ‘좋은 데이터’에 따라 성능이 좌지우지 되는게 아니라, critique을 학습함에 따라 reasoning 능력을 기른다는 것을 나타냄. Dataset quality가 다양한 점을 오히려 이점으로 가져감
- (2) Response Source
  CFT 학습에 넣는 solution $y$ 의 출처를 두 가지로 비교함:
  Qwen2.5-Math-7B가 직접 생성한 풀이
  WebInstruct 데이터셋에 원래 들어 있던 풀이
  해당 답에 대해서 critique를 만들어내는 모델은 같음
  두 경우 모두 성능이 크게 차이나지 않음
  CFT는 특정 종류의 답에만 의존하지 않고, 데이터셋에 원래 있던 답 및 모델이 새로 생성한 답이든 둘 다를 가지고 설명할 수 있음
  → CFT는 ‘누가 쓴 답이냐’보다, 풀이를 보고 비판하고 오류를 식별하는 학습함
- (3) Teacher Critique Model
  CFT에서 critique $c$ 를 만들어주는 teacher 모델의 품질이 얼마나 중요한지 확인하고함 함
  $[x;y]$ pair에 대해서 critique을 만들어주는 모델
  GPT-4o-mini처럼 비교적 약한 critique 모델을 써도 CFT가 verified-SFT보다 훨씬 효과적임
  하지만 더 강한 critique teacher(GPT-4o-1120) 를 쓰면 성능이 더 좋아짐
  → CFT는 약한 critique 모델로도 잘 작동하지만, teacher critique 모델이 강할수록 추가 성능 향상이 일어남

Limitation & Conclusion

Limitation

Critique 데이터가 완벽하지 않음. GPT-4o-1120이 만든 critique 50개에 대해서 사람이 점검했더니 약 20%의 데이터에 부정확성이 있었다고 함

Self-critique를 inference에 붙여보았지만 direct inference보다 계속 못했음
- Self-critique inference: 추론 때 모델이 바로 답하는 대신, 직접 답을 한 번 생성 → 그 답을 자기가 다시 비판(critique) → 틀렸다고 판단하면 다시 생성 → 이를 반복
- Self-critique 방식들이 항상 direct inference보다 못했음
  - 비판 기준이 일관되지 않거나, temperature 민감성 등등에 의한 것으로 추정함
  ⇒ 추론 시점에 self-critique loop를 돌리는 건 오히려 복잡성만 늘리고 손해임. 즉, 훈련은 critique로 학습하고 추론 시에는 그냥 direct inference 를 하는것이 가장 효과적임

Conclusion

모델의 reasoning 능력을 키울 때 반드시 정답 imitation 방식(SFT)이 최선은 아님
- 오히려 틀리거나 불완전한 답안을 보고, 어디가 왜 문제인지 분석하게 만드는 학습이 더 강한 신호가 될 수 있음

CFT는 기존 SFT와 비교해서 향상된 accuracy를 달성했지만, 추가적으로 data efficiency, compute efficiency 측면에서도 이점을 달성함

Critique을 생성하는 teacher 모델의 품질에 성능이 좌우되는것은 개선될 여지가 있음

Yonsei Univ. ICL

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

💡정답을 그대로 모방하는 SFT보다, noisy한 답안을 ‘비판(critique)’하도록 학습하는 방법이 reasoning 성능 향상에 더 효과적이다!Human learning process의 방식(critical thinking, analyze, understanding…)을 모델 학습에 적용해보자

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Review

TL; DR

Summary

Introduction

Background

Motivation

Contribution

Method & Dataset

Datasets

Training Objective

Experiments

Setting

Results

Limitation & Conclusion

Limitation

Conclusion

Categories