Training a Generally Curious Agent

Review

닉네임	한줄평	별점 (0/5)
계란초밥	생각해보면, trajectory가 명확하면 굳이 직접 interaction 할 필요가 없긴 하네! 요즘 읽고 있는 EMNLP’25 논문에서 MCTS trajectory를 trainig data로 삼아 incremental learning하는데, 이 논문은 그 논문보다 더 똑똑하고 정교하다. 한편, MCTS의 한계로 exploration cost를 두는데, 기존 trajectory를 잘 활용한다면 굳이 그럴 필요가 없지 않을까?	4
맹구	LLM이 자율 에이전트가 될 수 있을까?는 요즘 자주 나오는 Physical AI와도 직접적으로 관련되어 있다고 생각함. 실제 환경에서 주어지는 보상을 바탕으로 학습이 가능할까? 라는 생각을 사전 분석 느낌으로 실험한 논문이라 좋았다.	4.1
햄버거	개인적으로는 curiosity가 기존의 reasoning과 근본적으로 다른 것인지는 좀 애매하다고 생각되긴 함. 근데 단일 응답이 아니라 전체 궤적 단위로 preference를 정의한 점이 실제 에이전트 행동 학습에 더 적절한것 같음	4
피자	LLM이 보상을 바탕으로 스스로 학습이 안되는 점이 실제로 존재하기 때문에 기존의 Reasoning 및 CoT, Reward 기반 방법론들과는 어떻게 다른지 설명이 있으면 더 좋을 것 같음	4.1
치킨	추가 학습 없이 trajectory를 생성해서 데이터셋을 구축하는 건 좋은 방식이라고 생각하지만, 적은 데이터로만 학습하기 때문에 학습 데이터의 품질에 따라 trajectory에 bias가 생겨 성능이 지장가지 않을까가 걱정됨	3.7
페브리즈	커리큘럼 러닝 위한 훈련 데이터 선택을 agent에 딱 맞게 잘 설계했고, 이게 기존 agent 훈련 방식과 다른 점인듯하다. 보상 값 자체가 기준이 아니고 보상의 변동이 큰 trajectory를 agent 훈련 효과 클 거라 기대하고 선택하는 직관이 새롭다	4.3
국밥	Unseen task에 대한 일반화 과정을 학습할 수 있도록 문제 설계를 잘한 논문. Trajectory는 목표 달성 여부를 binary로 구분하는데, 만약에 실제 정답이 여러개인 경우에는 중간 과정을 고려하는 것이 필요해 보이긴 함. 무작정 다양한 trajectory 생성보다는 탐색 알고리즘을 써서 보상을 조절할 수도 있지 않을까?	4.2

TL; DR

💡

내재적 보상 없이도, LLM이 다양한 synthetic 상호작용 데이터를 통해 정보를 스스로 모으고, 단계별로 판단하며 문제를 해결하는 방법을 배우게 하자!

Summary

연구진 : CMU, 노스캐롤라이나 주립대학

인용수 : 8

연구 동기

LLM은 자율 에이전트(autonomous agents)의 기반으로 주목받고 있음.
- 목표를 가지고 스스로 판단하고 행동

이들이 진정한 자율성을 갖추기 위해서는 외부 환경과의 상호작용을 통해 정보를 수집하고 목표를 달성하는 능력이 필요함.

이 능력은 순차적 의사결정(sequential decision-making) 혹은 강화학습(RL) 문제로 형식화할 수 있음.

그러나 두 가지 핵심 문제로 인해 LLM의 상호작용 능력 개발이 어려움
대부분 데이터는 상호작용 모델링을 위한 구조와 컨텍스트가 부재
실제 환경에서 상호작용 데이터를 수집하는 것은 위험하고 비용이 많이 듦

제안 아이디어

실제 데이터 수집이 어렵다면, synthetic interaction data를 활용하자!
→ 10개의 의사결정 문제 유형 (task) 설계

모델이 모든 문제를 학습하게 하기보다 문제를 푸는 일반적 과정을 학습 → in-context RL
- 모든 문제에 대한 데이터를 만드는 건 비현실적이기 때문
→ LLM이 직접 문제를 풀어보며 trajectory 생성하고 적은 예시만으로도 일반화된 전략을 배우게 함
→ 근데 모든 task에 대해 무작위 생성하면 비용이 너무 큼!! → curriclum learning으로 완화하자

기존 RL에서의 curiosity (호기심) 개념 개선
- 기존 : 외부 보상(reward)이 거의 없거나 부족할 때도 에이전트가 스스로 “새롭고 배울 게 많은 상태”를 탐색하도록 만드는 내재적 보상을 줘서 탐색을 유도
- 개선 : 내재적 보상 없이도, LLM이 자발적으로 정보를 수집하고 전략을 세우며 새로운 환경에서도 효율적인 탐색을 수행할 수 있도록 함

Preliminary

Task와 Task Group
- Task $\tau$ : 하나의 특정 문제 (예: 20 Questions 게임에서 "apple"을 맞추는 것)
- Task Group $G=\{\tau_1,\tau_2,...,\tau_{|G|}\}$ : 서로 다른 task의 high-level 집합 (예: 전체 20 Questions 게임이 하나의 group)
  같은 task group안에 있는 문제들은 비슷한 전략으로 풀 수 있지만, 반드시 동일한 optimal policy를 가지지는 않음
  ex) RTS 게임에서 상대가 어떤 종족이냐에 따라 테크트리가 다름

POMDP (Partially Observable Markov Decision Process)
- 에이전트가 환경의 ‘진짜 상태(state)’를 직접 볼 수 없고, 일부 정보만 관측하면서 의사결정을 해야 하는 모델
  많은 의사결정 문제는 POMDP으로 표현 가능함
  특히 LLM은 입력 prompt만 보고 의사결정하기 때문에, 전체 환경 정보에 접근하지 못함
  → 자연스럽게 POMDP 환경으로 모델링됨

에이전트 상호작용 방식
- 각 task를 black-box 환경으로 가정
  주어진 action $a_t$ (예: "Is it an animal?")을 취하면 관측값 $o_t$ (예: "No")를 얻음
→ 이 논문에서는 모든 상호작용을 텍스트 문자열로 표현

에피소드 (Episode)
- 하나의 task에서 에이전트가 수행한 전체 상호작용 trajectory
  $h=(o_0,a_0,...,o_H,a_H)$
  단일 step $h_t=(o_t,a_t)$
- 에피소드 종료 조건
  에이전트가 목표를 성공적으로 달성
  최대 허용된 상호작용 수에 도달 (e.g., 20턴)

Method

개요
LLM이 전략적으로 환경을 탐색하고, 더 나은 순차적 의사결정을 내릴 수 있도록 학습시키는 방법을 어떻게 만들까?
- 기존 연구에 따르면 LLM은 기초적인 의사결정 문제조차도 해결못함
  → 후속 연구에서 UCB(Upper Confidence Bound) 같은 기존 알고리즘으로 생성한 synthetic data로 LLM을 fine-tune하면 성능 향상 가능하다는 것을 입증
  UCB 알고리즘이란?
  Arm?
  슬롯머신(뽑기 기계)이 여러 개 있고, 각각의 기계(arm)는 다른 확률로 보상을 줌
  매번 하나의 arm을 선택해서 보상을 받음
  👉 여기서 각 arm = 선택지(Option)
  Arm 1: 보상 확률 10%
  Arm 2: 보상 확률 30%
  Arm 3: 보상 확률 5%
  기대 보상을 고려해서 가장 promising한 arm을 선택하는 탐색 알고리즘
  지금까지 보상이 높았던 arm & 새로운 arm을 균형있게 고려
- 문제점
  대부분의 task에는 UCB 알고리즘 적용이 불가
  모든 task에 대해 데이터를 수집하는 것도 비효율적임
👉 HOW TO SOLVE?
(1) 단순한 문제가 아니라, 복잡한 의사결정 task 설계
(2) 좋은 알고리즘 없이 LLM이 상호작용 trajectory 생성
(3) 성능이 좋은 trajectory를 선호(prefer)하도록 파인튜닝 (DPO와 유사)
(4) Curriculum learning 으로 데이터 효율 향상

Task 설계

다양한 전략적 정보 탐색이 요구되는 상호작용 환경 task 생성

좋은 task의 조건

조건	설명
(1) 텍스트 기반	모든 입출력은 문자열로 구성되어야 함
(2) 멀티턴 상호작용	과거 상호작용 이력을 고려하며 다음 행동을 선택해야 함
(3) 부분 관측 환경	에이전트가 탐색 가능하도록 일부 정보만 주어짐
(4) 전략 다양성	문제마다 요구되는 전략이 달라야 함

LLM을 에이전트로서 활용하여 10개의 task group 설계
- LLM 기반 시뮬레이터 (GPT-4o-mini)
  - 동적이고 유연한 반응 생성 가능→ 맥락에 따른 응답 다양성 확보
- 하드코딩된 시뮬레이터 (Wordle)
  - 명확한 규칙에 따라 결과와 reward 계산

복잡한 추론이 필요한 task에서는 COT 프롬프트 활용

보상 해킹(reward hacking) 방지를 위해 별도의 judge 추가

데이터셋 구축
다양한 상호작용 trajectory를 생성하고, 이를 기반으로 선호도 학습에 사용할 데이터셋을 구성
- 다양한 trajectory가 왜 중요한가?
  모델이 단순한 정답을 외우는 것이 아니라, 다양한 문제 해결 전략을 익히도록 하기 위함
  전략이 다양하지 않으면 모델은 한 가지 방식을 반복하거나 과적합할 수 있음
- 다양한 trajectory 생성 방법
  High Temperature Sampling
  모델의 출력 확률 분포를 넓게 퍼지게 함 → 더 다양한 응답 생성 가능
  단점: Randomness 높아 비논리적인 문장 생성 가능
  Min-p Sampling
  확률이 너무 낮은 토큰은 제외하고, 적당한 수준의 확률을 가진 토큰들 중에서 샘플링하는 방식
  동적 threshold → $p_{scaled}\propto p_{max}$
  $p_{max}$ : 다음 토큰 중 가장 높은 확률
  $p_{scaled}$ : 그에 비례해 설정되는 임계값 (threshold)
  → 이 임계값보다 확률이 높은 토큰만 vocabulary에서 선택지로 유지
  효과: 다양하면서도 문법적/의미적으로 일관된 문장 생성 가능
- 선호도 쌍 $(h_w,h_l)$ 구성
  $h_w$ : 가장 잘 수행된 trajectory (적은 턴 수로 성공)
  $h_l$ : 상대적으로 성능이 낮은 trajectory
  완전히 실패하거나, 성공했지만 훨씬 더 많은 턴이 소요된 것
  $h_l$ 은 무작위로 샘플링
  일부러 "가장 나쁜 것"을 고르지 않음
  이렇게 하면 dataset 내 행동의 다양성 유지 가능
  극단적인 실패만 학습하면, 모델은 보수적인 전략만 배우게 됨

최적화
다양한 성공/실패 trajecotry로부터 LLM의 action policy를 업데이트하여,
향후 task에서 더 성공적인 선택을 하도록 만듦
- SFT
  성공한 trajectory $h_w$ 만을 사용해서 모델이 그대로 따라 하도록 학습시킴
  전문가 행동(expert behavior)이라 가정
- DPO
  성공 trajectory는 실패 trajectory보다 더 선호되어야 함
  → 두 trajectory의 확률을 비교해서, 성공 trajectory가 더 높은 확률을 갖도록 최적화
  PAPRIKA는 멀티턴 대화형 task이므로 매 턴에 대해 로그 확률 비율을 계산
  환경이 생성한 observation은 포함하지 않음 → 에이전트의 행동만을 학습에 반영
- RPO (=DPO + SFT)
  DPO가 오히려 원래 선호되던 trajectory의 확률도 낮추는 부작용 발생시킴
  예: 학습 중 상대적인 선호도만 반영되다 보니, 절대 확률 감소
  → SFT랑 DPO 합치자!

파인튜닝 : curriculum learning
- 방법론 motivation
  PAPRIKA의 목표
  → LLM이 다양한 의사결정 태스크 학습을 통해 일반화된 의사결정 능력을 갖도록 파인튜닝
  수많은 태스크를 만드는 건 쉽지만, “지금 어떤 작업을 학습해야 효과가 좋은가?"를 정하는 건 어려움
  강화학습은 trajectory의 품질이 아주아주 중요함!!!!
  태스크가 너무 어려우면 학습 signal이 무의미하여 trajectory 생성 X
  → trajectory 생성은 비용이 많이 들기에, 태스크의 우선순위를 정하자! (curriculum learning의 핵심)
  근데 어떤 작업이 학습에 도움이 될지는 사실상 직접 해보기 전에는 모름
  → 직접 테스트하지 않아도, 어떤 태스크가 학습에 도움이 될지를 예측할 수 있어야 함.
  가정 : 비슷한 task들은 비슷한 학습 가능성을 가질 것이다.
  태스크 유사도는 메타데이터 or 도메인 전문가의 사전 지식으로 얻을 수 있음
- 그러면 실제로 어떤 태스크가 학습 가치가 있지?
  수치적으로 평가하기 위해 변동 계수 $v_\pi(\tau)$ 지표를 도입하고, 이를 바탕으로 multi-armed bandit (MAB) 알고리즘을 사용해 태스크 선별
  $R_\pi(\tau)$ : 태스크 $\tau$ 에서 policy $\pi$ 가 얻는 평균 reward
  $\sigma^2_\pi(\tau)$ : 태스크 $\tau$ 에서 policy $\pi$ 가 얻는 reward 분산
  → 변동 계수 $v_\pi(\tau)$ = $\frac{\sqrt{\sigma^2_\pi(\tau)}}{R_\pi(\tau)}$
  → 값이 클수록 다양한 trajectory 생성이 가능하고 (분산이 높기 때문), policy 개선 여지가 큼
  태스크 샘플링
  모든 태스크에 대해 $v_\pi(\tau)$ 를 직접 계산하기는 어렵기 때문에, 각 그룹에서 대표 태스크들을 샘플링하여 그 분포를 추정
  각 태스크 group을 하나의 arm으로 보는 MAB 문제로 구성 →
  태스크 group을 선택하기 위해 Upper Condifence Bound (유명한 MAB 알고리즘) 사용
  태스크 하나 임의 선택 후 모델에게 여러번 시켜봄
  이후 태스크가 속한 group의 학습 가치를 업데이트
  위 과정을 여러 번 반복해서 trajectory 수집
  일정량 수집되면 그걸로 학습!

Experiments

Research Question
(RQ1) Unseen group에 대해 별도의 훈련 없이도 일반화된 의사결정 능력을 갖출 수 있는가?
(RQ2) Curriculum learning을 통해 제안 훈련 방식의 효율성을 높일 수 있는가?
(RQ3) 기존 LLM 능력을 손상시키지 않으면서 새로운 능력을 얻게 되는지, 또 기존 멀티턴 데이터로도 같은 효과를 볼 수 있는가?

Experimental Setup
- LLM : Llama-3.1-8B-Instruct & Gemma-3-12B-IT
- 평가방식 : 각 test task마다 4개의 trajectory 생성하고 평균 success rate 계산

LLM의 의사결정 능력이 얼마나 개선됐나?
- Bandit Best Arm Selection (기초 실험)
  Toy task → 여러 arm 중에서 제한된 횟수 안에 가장 보상이 높은 arm을 찾아야 하는 문제
  → Bandit task학습 없이 다른 task group에서만 학습한 Paprika (LOO) 성능 향상 (42.25% → 62.25%)
- 복잡한 task로 확장
  → Llama와 Gemma 모델 모두 성능 크게 향상 (평균 47%)

Unseen task에 대해 일반화된 전략 적용이 가능한가?
- Paprika (LOO)가 초기 모델 대비 동등하거나 나은 성능을 보임 (9/10)
- Paprika (full)이 Paprika (Single Task Group) 대비 나은 성능을 보임 (7/10)
예외 : Mastermind / Wordle (Transfer 효과 낮음)
→ 다양한 태스크 group 활용 시 transfer 능력 향상 가능

Curriculum learning을 통해 효율성 개선이 얼마나 됐나?
- Why curriculum?
  모든 작업이 동일하게 학습에 기여하지는 않음.
  어려운 작업은 대부분 실패로 끝나서 유의미한 학습 신호가 부족함.
  → 같은 수의 샘플을 할당해도 더 쉬운 작업에서 학습 효과가 큼.
- 난이도 설정 & 구현
  GPT-4o-mini를 사용해 20 Questions 작업을 easy/medium/hard로 자동 분류
  3 round 학습 수행
- 결과
  Average Success Rate 1.4%, Pass@4 Success Rate 3.3% 개선

작업 효율성에 대한 정량적 분석
- 이 논문에서 사용한 task들은 문제를 빨리 풀수록 더 전략적인 행동을 했다고 간주할 수 있도록 설계됨
  e.g., yes/no 질문을 더 잘하면 하면 적은 turn 수로 topic 예측 가능
- PAPRIKA는 문제를 해결하는 데 필요한 평균 턴 수를 줄임
→ 중간 단계에서 더 나은 선택(더 좋은 질문, 더 나은 추론)을 하고 있음을 의미!

LLM의 기존 능력 (e.g., 멀티턴 대화, QA)을 손상시키지 않았는가?
→ 표준 벤치마크 비교실험에서 눈에 띄는 성능 저하 X

Yonsei Univ. ICL

Training a Generally Curious Agent

💡내재적 보상 없이도, LLM이 다양한 synthetic 상호작용 데이터를 통해 정보를 스스로 모으고, 단계별로 판단하며 문제를 해결하는 방법을 배우게 하자!

Training a Generally Curious Agent

Review

TL; DR

Summary

연구 동기

제안 아이디어

Preliminary

Method

Experiments

Categories