blog

21 January 2026

Training a Generally Curious Agent

ICML'25

💡내재적 보상 없이도, LLM이 다양한 synthetic 상호작용 데이터를 통해 정보를 스스로 모으고, 단계별로 판단하며 문제를 해결하는 방법을 배우게 하자!

research

21 January 2026

On LLM-Based Scientific Inductive Reasoning Beyond Equations

EMNLP'25

💡현재 LLM은 “방정식(수식)으로 표현되지 않는 과학적 규칙”을 관찰로부터 귀납적으로 발견하는 데 근본적으로 약하다.이를 검증하기 위해 저자들은 SIRBench-V1 이라는 새로운 벤치마크를 만들었고, 최신 LLM들도 대부분 낮은 정확도(끽해야 45%) 에 머문다는 것을 보였다.

research

MAP: Multi-Human-Value Alignment Palette

21 January 2026

MAP: Multi-Human-Value Alignment Palette

ICLR'25

💡다중 가치 정렬을 기존의 가중치 튜닝 방식이 아니라 원하는 수준의 목표(palette)를 먼저 지정하고, 그 목표를 만족하는 λ를 자동으로 찾아 Pareto 개선을 보장하는 정렬로 바꿔보자!

research

Yonsei Univ. ICL

Training a Generally Curious Agent

On LLM-Based Scientific Inductive Reasoning Beyond Equations

MAP: Multi-Human-Value Alignment Palette