Shared Global and Local Geometry of Language Model Embeddings
๐ก๊ฐ์ ๊ณ์ด์ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฐจ์์ด ๋ฌ๋ผ๋ token embedding์ ๊ตฌ์กฐ๊ฐ ๊ต์ฅํ ๋น์ทํ๋ค! ๊ทธ๋์, ํ ๋ชจ๋ธ์์ ๋ง๋ค์ด๋ธ steering vector๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์์ ์ ํ๋ณํ๋ง์ผ๋ก ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ๋ค!์: 1B, 3B์์ helpfulness๋ฅผ ์ฌ๋ฆฌ๋๋ก ํ๋ vector๋ฅผ ์ฐพ๊ณ ๋์, 8B๋ก ๊ทธ๋๋ก ์ฎ๊ฒจ์ ์ธ ์ ์์!
FRESH IN MEMORY: TRAINING-ORDER RECENCY IS LIN-EARLY ENCODED IN LANGUAGE MODEL ACTIVATIONS
๐ก์ธ์ด ๋ชจ๋ธ์ โ๋ฌด์โ ์ ๋ฐฐ์ ๋์ง์ โ์ธ์ โ ๋ฐฐ์ ๋์ง์ ๋ํด ์๊ณ ์๋ค.โ ๋ค์ํ ํต์ ์คํ์ ํตํด ๊ฒ์ฆํด๋ณด์ ! !
TROLL: Trust Regions Improve Reinforcement Learning for Large Language Models
๐กLLM์ RL๋ก ํ์ตํ ๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ๋๋ฌด ํฌ๊ฒ ๋ฐ๋๋ฉด ๋ง๊ฐ์ง๋ฏ๋ก, ํ์ฉ๋ ๋ฒ์ ์์์๋ง ์ ๋ฐ์ดํธํด์ ์์ ํ๊ฒ ํ์ต์ํค์
SEAL: Steerable Reasoning Calibration of Large Language Models for Free
๐ก๋๋ฌด ๊ธธ๊ณ ๋ณต์กํ reasoning ๊ฒฝํฅ์ ์ํํ์!โ reasoning process๋ฅผ ์ธ๋จ๊ณ๋ก ๋ถ๋ฅํ๊ณ , ๊ทธ ์ค์ ์ด๋ค ๊ฑธ ์ค์ฌ์ผ ํ ์ง ๋ถ์ํ์
Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models
๐กRefusal token์ผ๋ก ๋ชจ๋ธ์ ์๋ต ๊ฑฐ์ ์ ๋ ์ฌ์ธํ๊ณ (์ฑ๋ฅโ), ์ ์ฐํ๊ฒ(inference ๋จ์์ ์กฐ์ ๊ฐ๋ฅ) ํ๋ค!
LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
๐กshort-context(16K) RL ํ์ต๋ง์ผ๋ก long-context(128K) ์ถ๋ก ์ ์ํ๊ฒ ํ์.์ด๋ป๊ฒ?โ UUID ์ฒด์ธ์ผ๋ก ์ง๋ฌธ์ ์จ๊ธด ๊ณ ๋์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ(KeyChain)๋ก RL ํ์ตํ๋ฉด, planโretrieveโreasonโrecheck ์ฌ๊ณ ํจํด์ด ๋ฐ์ํ์ฌ ๋์ ์ฅ๋ฌธ ์ถ๋ก ์ฑ๋ฅ์ 7B/14B์ ์ํ ๋ชจ๋ธ๋ก ๋ฌ์ฑํ ์ ์๋ค.
Language Model Personalization via Reward Factorization
๐ก์ฌ๋ฌ ์ฌ์ฉ์์ ์ ํธ๋ฅผ ๊ณตํต๋ ์ ํธ ์ถ(e.g., ์น์ , ๊ฐ๊ฒฐ, ๊ฒฉ์)์ผ๋ก ๋ถํดํด ํ์ตํ ๋ค, ์๋ก์ด ์ฌ์ฉ์๊ฐ ๋ค์ด์ค๋ฉด ์ถ๋ง๋ค ๋ค๋ฅธ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ์ฌ์ฉ์์ personalized๋ ์ ํธ๋ฅผ ๋น ๋ฅด๊ฒ ์ถ์ ํ์!
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
๐กMathematical Reasoning Task ๋ฅผ ํ ๋, RL์ ๊ฐ์ ์ ์ผ๋ก ๊ตฌํํ์ฌ ๊ฐ๋จํ๊ฒ ํ์ด๋ณด์.(= ๊ฐํํ์ต ํํ๋ก ์ํ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ณด์ !)
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
๐ก์ ๋ต์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ SFT๋ณด๋ค, noisyํ ๋ต์์ โ๋นํ(critique)โํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ด reasoning ์ฑ๋ฅ ํฅ์์ ๋ ํจ๊ณผ์ ์ด๋ค!Human learning process์ ๋ฐฉ์(critical thinking, analyze, understandingโฆ)์ ๋ชจ๋ธ ํ์ต์ ์ ์ฉํด๋ณด์
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games
๐กํ์ฌ์ ์ถ๋ก ์ต์ ํ๊ฐ ํ๋ ฅ์ ๋ณ๋๋ก ์ ๋ ฌ์ํค์ง ์๋๋ค๋ฉด, ํ๋ ฅ์ด ์๋ ํฉ๋ฆฌ์ ์ด๊ธฐ์ฃผ์๋ฅผ ํ๋ฐฉํ๋ ๊ฐ์ธ์ฃผ์ ๋ชจ๋ธ์ด ํ์ํ ์ ์๋ค!์ฆ, ์ถ๋ก ๋ฅ๋ ฅ๊ณผ, ํ์ ๋ฅ๋ ฅ(๋น์ฉ ๊ฐ์ ์ธก๋ฉด)์ ๋ณ๊ฐ๋ค!
Why DPO is a Misspecified Estimator and How to Fix It
๐กDPO์ ์ ์ ๊ฐ realisticํ์ง ์์์ ์์ํ์ ์ผ๋ก ํํค์นจ AuxDPO๋ฅผ ํตํด DPO์ Misspecifection๋ฅผ ์ํํ์!
Whatโs In My Human Feedback? Learning Interpretable Descriptions of Preference Data
๐กSAE๋ฅผ ํตํด preference dataset์์ ๋ ์๋ต ๊ฐ ์ ํธ๋ฅผ ๊ฒฐ์ ์ง๋ ์ ์ฌ์ ํน์ง(feature) ์ถ์ ์๋์ผ๋ก ์ถ์ถํ๊ณ , ์ด๋ค ์๋ต ํน์ฑ์ด ์ธ๊ฐ์ ์ ํธ๋ฅผ ๊ฒฐ์ ํ๋์ง ์์ฐ์ด๋ก ํด์ ๊ฐ๋ฅํ๊ฒ ์ค๋ช ํ๋ WIMHF ๋ฐฉ๋ฒ๋ก ์ ์ ์
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
๐กPreference Alignment์์ ์์ (์ํํ ๋ตX)์ ๊ฐํ๊ฒ ๋ณด์ฅํ๋ฉด์๋, ๊ธฐ์กด RLHF์ฒ๋ผ ๋ณต์กํ ํ์ดํ๋ผ์ธ ์์ด DPO์ฒ๋ผ ๊ฐ๋จํ๊ฒ ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ๋ฐฉ๋ฒ์ธ SafeDPO ๋ฅผ ์ ์๊ธฐ์กด์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ ์ํ๊ณ , ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ๋ ฌํด ๋ชจ๋ธ์ด ์์ ํ ๋ต์ ์ผ๊ด๋๊ฒ ๋ ์ ํธํ๋๋ก ํจ
OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
๐ก๋ค์ค preference ์ต์ ํ ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ๊ณต๊ฐ์ orthogonal subspace๋ก ๋ถํดํ์ฌ, objective ๊ฐ ๊ฐ์ญ์ ์์ฒ์ ์ผ๋ก ์ ๊ฑฐํ์
Multiplayer Nash Preference Optimization
๐กalignment๊ฐ ๊ฐ์ ธ์ผ ํ ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ด ์๋๋ผ, ๋ค์ ๊ฐ์น ๋ฐ ์ ์ฑ ์ง๋จ ์์์ ๊ทธ ๋๊ตฌ์๊ฒ๋ ์ง์ง ์๋ ์์ ์ ๊ท ํ ์ํ๋ฅผ ๊ฐ์ง๋ ๊ฒ์ด๋ค!
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence
๐กPost-training ํ ๋ชจ๋ธ ๋ด๋ถ ์ง์, ์ง์ค์ฑ, ์์ ์ฑ, ํ์ ์ฑ์ ๋ณํ๋ฅผ ๊ธฐ๊ณ์ ์ผ๋ก ๋ถ์!
EigenBench: A Comparative Behavioral Measure of Value Alignment
๐ก๋ชจ๋ธ์ ์ฃผ๊ด์ ์ฑํฅ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฑํฅ๊ณผ ๋น๊ตํ์ฌ ์์๋ฅผ ๋งค๊ธฐ๊ณ , ์ ๋ขฐ๋ ๋ฒกํฐ๋ก ์์นํํ์ฌ ์ ๋ขฐ์ฑ์ ํ๋จํ๊ณ , ๋ชจ๋ธ๋ง๋ค ํ๋จ์ ๊ธฐ์ค ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์๋ค!
Diffusion Alignment as Variational Expectation-Maximization
๐กDiffusion ๋ชจ๋ธ์ ๋ชฉ์ ํจ์์ ๋ง๊ฒ diffusion alignmentํ ๋ ๋ฐ์ํ๋ reward over-optimization ๊ณผ mode collapse ๋ฌธ์ ๋ฅผ EM์๊ณ ๋ฆฌ์ฆ (E๋จ๊ณ(test time search) โ M๋จ๊ณ(forward-KL)์ ๋ฐ๋ณต)์ผ๋ก ํด๊ฒฐํ์!
Beyond Pairwise: Empowering LLM Alignment With (Ranked) Choice Modeling
๐กRLHF๋ DPO์ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ Pairwise(์) Preference Optimization์ ๋ง์ถฐ์ ธ ์์ด, ๋ ์์ธํ ์ ๋ณด(Human Feedback)๋ฅผ ํ์ตํ ๊ธฐํ๋ฅผ ๊ฐ๊ณผํ๋ค.โ Response์ ๋ํด Pairwise๋ฟ๋ง ์๋๋ผ, ๊ทธ ์ด์๊น์ง rank๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ ํ์ต์ ์์ผ๋ณด์.
Training a Generally Curious Agent
๐ก๋ด์ฌ์ ๋ณด์ ์์ด๋, LLM์ด ๋ค์ํ synthetic ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ค์ค๋ก ๋ชจ์ผ๊ณ , ๋จ๊ณ๋ณ๋ก ํ๋จํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ํ์!
On LLM-Based Scientific Inductive Reasoning Beyond Equations
๐กํ์ฌ LLM์ โ๋ฐฉ์ ์(์์)์ผ๋ก ํํ๋์ง ์๋ ๊ณผํ์ ๊ท์นโ์ ๊ด์ฐฐ๋ก๋ถํฐ ๊ท๋ฉ์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ ๋ฐ ๊ทผ๋ณธ์ ์ผ๋ก ์ฝํ๋ค.์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์ ์๋ค์ SIRBench-V1 ์ด๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ค์๊ณ , ์ต์ LLM๋ค๋ ๋๋ถ๋ถ ๋ฎ์ ์ ํ๋(๋ฝํด์ผ 45%) ์ ๋จธ๋ฌธ๋ค๋ ๊ฒ์ ๋ณด์๋ค.
MAP: Multi-Human-Value Alignment Palette
๐ก๋ค์ค ๊ฐ์น ์ ๋ ฌ์ ๊ธฐ์กด์ ๊ฐ์ค์น ํ๋ ๋ฐฉ์์ด ์๋๋ผ ์ํ๋ ์์ค์ ๋ชฉํ(palette)๋ฅผ ๋จผ์ ์ง์ ํ๊ณ , ๊ทธ ๋ชฉํ๋ฅผ ๋ง์กฑํ๋ ฮป๋ฅผ ์๋์ผ๋ก ์ฐพ์ Pareto ๊ฐ์ ์ ๋ณด์ฅํ๋ ์ ๋ ฌ๋ก ๋ฐ๊ฟ๋ณด์!
LLMs Encode Harmfulness and Refusal Separately
๐กLLM์ instruction์ ์ ํด์ฑ๊ณผ ๊ฑฐ๋ถ ์ฌ๋ถ๋ฅผ ๋ค๋ฅธ latent space์์ ์ธ์ฝ๋ฉํ๊ณ ์๋ค!
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models
๐ก๋ ๊ฐ์ง ๊ธฐ์ค์ ์ํธ๋กํผ ๊ฐ์ ๋ฐ๋ผ logits ๊ธฐ๋ฐ๊ณผ sampling ๊ธฐ๋ฐ ์ํฐ๋งํน์ ์ ํ์ ์ผ๋ก ์ ์ฉํ๋ Symbiotic Watermarking ํ๋ ์์ํฌ๋ฅผ ์ ์
Curriculum Debiasing: Toward Robust Parameter-Efficient Fine-Tuning Against Dataset Biases
๐กPEFT๋ก ํ์ตํ ๋ biased example์ overfitting๋๋ ๊ฒฝํฅ ์กด์ฌํจ (biased example์ ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ธฐ ๋๋ฌธ) โ ํ์ต ๋ฐ์ดํฐ ์์๋ฅผ biased-to-unbiased ๋ก ์ ์ํด์, ์ด๋ฅผ ์ํํ์!
Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models
๐กLLM์ ๋ ผ๋ฆฌ์ ์ ํธ๋ ์ผ๊ด์ฑ์ ์ ์ํ๊ณ , ๊ด๋ จ ํ๋ จ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ์์ ์ ์ํ์ฌ, ๋ ผ๋ฆฌ ์ ํธ๋ ์ผ๊ด์ฑ๊ณผ ๋ ผ๋ฆฌ ํ์คํฌ ์ํ๋ฅ๋ ฅ ์ฆ์ง
Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference
๐กLLM ์ถ๋ก ์ ๊ณ์ฐ ๊ณผ์ ์์์ ์ค์ฐจ๋ก ์ธํ์ฌ ๋ฌ๋ผ์ง ์ ์์! โ ์ ๋ฐ๋ ๊ด์ ์์ ์ฌํด์, ์ค์ ๋ก ์ผ๋ง๋ ๋ฌ๋ผ์ง๋์ง, ์ด๋ป๊ฒ ํด๊ฒฐํด์ผ ํ๋์ง?๊ณ์ฐ ๊ณผ์ ์์์ ๋ฌธ์ ๋๊น, ๊ณ์ฐ ๊ณผ์ ์์๋ง ๋ ์ ํํ๊ฒ ๋ณด๋ฉด ๋๋๊ฑฐ ์๋๊น?โ ์คํ ๊ฒฐ๊ณผ, ๊ทธ๋ ๋ค!
S1: Simple Test-time Scaling
๐กtraining ๋จ๊ณ์์ ๋ง๊ณ , inference ๋จ๊ณ์์ ์ฑ๋ฅ์ ๋ํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น?โ ์ผ๋จ ์ํ/์ถ๋ก ๋ฌธ์ ๋ token ๊ฐ์ ์กฐ์ ํด
Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
๐ก๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ์ ๋ ์ฑ๋ฅ์ด ๋น์ ์์ ์ผ๋ก ํฅ์๋๋ฉด, ์ด๋ ์๋๋ฐฐ๊น ํ์์ ์์ํ๋ค!
Let LRMs Break Free from Overthinking via Self-Braking Tuning
๐ก๋ชจ๋ธ ๋ด์ฌ์ ์ผ๋ก ๋ถํ์ํ ์ถ๋ก (์ค๋ฒ ๋ตํน)์ ๋ง์!
Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations
๐กLLM์ด ์์ ์ ๋ชจ๋ธ ๋ด๋ถ์์ ์ผ์ด๋๋ ์ํ๋ฅผ ์ผ๋ง๋ ์ธ์, ํ๊ฐ, ์กฐ์ ํ ์ ์๋์ง๋ฅผ โNeurofeedbackโ (๋ชจ๋ธ์ ๋ด๋ถ ๋ ์ด์ด, ๋ฒกํฐ ์กฐ์ ๋ฐ ํ์ฑํ ์ ๋ ์ธก์ )๋ฐฉ์์ผ๋ก ์ธก์ ํ์๊ณ , ๊ทธ ๋ฅ๋ ฅ์ด ์ ํ์ ์์ ๋ณด์
Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment
๐กSpeculative Decoding์์ ๋ฐ์ํ๋ ๋ณ๋ชฉ์ด Target model์ ์ ๋ ฌ(alignment) ๊ธฐ๋ฐ ๊ฒ์ฆ ๋๋ฌธ์์ ๋ฐํ๊ณ , Target model์ ์๋ฒ ๋ฉ์ผ๋ก ํ ํฐ์ ์ ๋ต์ฑ(correctness)์ ํ์ ํ๋ ์๋ก์ด ๊ฒ์ฆ ๋ฐฉ์์ธ Judge Decoding ๋ฐฉ์์ ๋์ ํจ!
Interpreting the Repeated Token Phenomenon in Large Language Models
๐กLLM์ ๊ฐ์ ๋จ์ด๋ฅผ ๊ณ์ ๋ฐ๋ณต์ํค๋ฉด ๋ชจ๋ธ์ด ์ด๋ ์๊ฐ๋ถํฐ ๊ทธ ๋จ์ด๋ฅผ ์ ๋๋ก ๋ฐ๋ณตํ์ง ๋ชปํ๊ณ ๋ถ๊ดด๋๋๋ฐ, ์ด๋ attention sink๋ฅผ ๋ง๋๋ neuron์ด ๋ฐ๋ณต๋๋ ํ ํฐ์ โ๋ฌธ์ฅ์ ์ฒซ ํ ํฐ(BoS)โ์ผ๋ก ์ค์ธํ์ฌ attention์ด ๋ชฐ๋ฆฌ๊ธฐ ๋๋ฌธ์
Advancing Expert Specialization for Better MoE
๐กMixture-of-Experts ํ๋ จ ์์คํจ์์๋ expert ๊ฐ routing ํจ์จ์ฑ ์ํ objective term ์์๊ทธ๋ฌ๋ ์ด๋ ๊ฐ expert์ ์ ๋ฌธ์ฑ ํนํ๋ฅผ ๋ฐฉํดํ๋ ๋ถ์์ฉ ์์โ routing ํจ์จ์ฑ ๋ชฉํ๋ฅผ ๋ฐฉํดํ์ง ์์ผ๋ฉด์ expert ์ ๋ฌธํ์ ๋์๋๋ objective๋ฅผ ์ถ๊ฐํ์
What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
๐กTransformer ๋ชจ๋ธ ํ๋ จ ์ ์์คํ๋ฝ์ด ์ด๊ธฐ๋จ๊ณ์์ ์ ์ฒด๋๋ค๊ฐ ๊ฐ์๊ธฐ ํฌ๊ฒ ์ผ์ด๋๋ abrupt learning ํ์ ํ๊ตฌ
Superposition Yields Robust Neural Scaling
๐กSuperposition์ Scaling law๊ฐ ์๋ํ๊ฒ ํ๋ค!
Scaling Laws for Precision
๐ก์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐ ์ถ๋ก ์ ์ ๋ฐ๋(precision)๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ๋ฏธ์น๋ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ด๋ฅผ ์์ธกํ ์ ์๋ precision-aware scaling laws๋ฅผ ์ ์
Layer by Layer: Uncovering Hidden Representations in Language Models
๐กAutoregressive ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ์ธ์ด๋ชจ๋ธ์ ์ค๊ฐ layer ํํ์ด ๊ฐ์ฅ ํ๋ถํ๋ค!
How Do Large Language Monkeys Get Their Power (Laws)?
๐กLLM์ ๋ฐ๋ณต ์ํ๋ง ์ฑ๋ฅ์ด power law์ฒ๋ผ ๋ณด์ด๋ ์ด์ ๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ๋๋ฌธ์ด ์๋๋ค.๊ฐ ๋ฌธ์ ๋ ์ด๋ฏธ ์ง์์ ์ผ๋ก(exponentially) ํด๊ฒฐ๋๊ณ ์์ผ๋ฉฐ, ์์์ ๊ทน๋๋ก ์ด๋ ค์ด ๋ฌธ์ ๋ค์ด ๋๊น์ง ๋จ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฒด ํ๊ท ์ฑ๋ฅ์ด power law์ฒ๋ผ ๋ณด์ผ ๋ฟ์ด๋ค.โ power law๋ ๋ชจ๋ธ์ ๋ฒ์น์ด ์๋๋ผ, ๋ฌธ์ ๋์ด๋ ๋ถํฌ์ ๊ฒฐ๊ณผ๋ค.
EvoLM: In Search of Lost Language Model Training Dynamics
๐กLanguage Model์ ์ฑ๋ฅ์ด ์ผ๋ง๋ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก ์ค๋ ํ์ตํ๋๊ฐ๋ณด๋ค ์ด๋ค ๋จ๊ณ์์ ์ด๋ป๊ฒ, ์ธ์ ํ์ตํ๋๊ฐ๊ฐ ๋ ์ค์ํ๋ฉฐ CPT(Continued Pre-Training)๊ฐ ์ง๋ ํ์ต ๋ฐ ๊ฐํ ํ์ต์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ค.
Capturing the Temporal Dependence of Training Data Influence
๐ก๋ฐ์ดํฐ์ ๊ฐ์น๋ ๋ฐ์ดํฐ๊ฐ โ๋ฌด์์ด๋โ ๋ณด๋ค โํ์ต ์์ ์ ์ธ์ ๋ฑ์ฅํ๋โ์ ์ํด ๊ฒฐ์ ๋๋คํด๋น ๋ ผ๋ฌธ์ ํ์ต ๊ฒฝ๋ก(trajectory)์ ๋ฐ์ดํฐ์ ๋ฑ์ฅ ์๊ธฐ๋ฅผ ๊ณ ๋ คํ๋ ์๋ก์ด ๋ฐ์ดํฐ ์ํฅ๋ ฅ ์ ์ TSLOO๋ฅผ ์ ์ํจ
AI as Humanityโs Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text
๐กLLM์ ์ฐฝ์์ฑ์ผ๋ก ์ฌ๋์ ๋ฐ๋ผ์ก์ ์ ์์๊น? โ ใดใด์์ง ์ฐฝ์์ฑ์ ๊ธฐ๋ฐ์ผ๋ก LLM๊ณผ ์ฌ๋์ ๊ตฌ๋ถํ ์ ์์๊น? โ ์ ๊ฐ๋ฅ
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
๐กLLM ๋ฉํฐ ์์ด์ ํธ ์์คํ ์์ ์ค๋ฅ๊ฐ ๋ฌ์ ๋ ๋๊ฐ ์ธ์ ์ค๋ฅ๋๋์ง ์๋์ผ๋ก ํ์ ํด๋ณด์!๋ฒค์น๋งํฌ ์ ์ ๋ฐ ํ LLM ์ฑ๋ฅ ํ๊ฐ
To Mask or to Mirror: Human-AI Alignment in Collective Reasoning
๐กLLM์ ์ฌ๋์ ๋ฐ๋ผํ๋๊ฐ? ํน์ ์ฌ๋์ด ๋ณดํธ์ ์ผ๋ก ๊ฐ์ง ํธํฅ(?)์ ์์ ๊ณ ์ฌ๋๋ณด๋ค ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋๊ฐ? ๋ฆฌ๋ ์ ์ถ ์คํ์ ํตํด ๋ถ์ํ ๊ฒฐ๊ณผ, LLM ๋ณ๋ก ๋ค๋ฅด๋ค. (GPT, Gemini๋ ์ธ๊ฐ์ ๊ทธ๋๋ก ๋ชจ๋ธ๋ง , Claude๋ ๋ ๋์ ์ ํ)
Quantifying Elicitation of Latent Capabilities in Language Models
๐กLLM์ ์ ์ฌ๋ ๋ฅ๋ ฅ์ ์ด๋ฏธ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ์์ฃผ ์ ์ ์์ ๋ฌด์์ ํ๋ผ๋ฏธํฐ๋ง ํ์ตํด๋ ๊ทธ ๋ฅ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋์ด๋ผ ์ ์๋ค๋ ๊ฒ์ ์คํ/์ด๋ก ์ ์ผ๋ก ์ ๋ํํจ
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning
๐กCoT ๊ธฐ๋ฐ LLM ์ถ๋ก ์ ์ผ๋ง๋ ๋ง์ ์ถ๋ก ๊ณผ์ ์ ํ์ตํ๋๋๊ฐ ์ค์ํ ๊ฒ์ด ์๋๋ผ, ๊ทธ ๊ณผ์ ์ ์ผ๋ง๋ ์ ํํ๊ณ ๋ช ํํ๊ฒ ์๋ ค์ฃผ๋์ง๊ฐ ๋ ์ค์ํ๋ค. ์ฆ, ๋ด์ฉ๋ณด๋ค๋ ๊ตฌ์กฐ์ ์์ ์ฑ์ ์ด์ ์ ๋์ด์ผ ํ๋ค๋ ๊ฒ์ ์คํ์ ํตํด ํ์ธํ ์ฐ๊ตฌ
Chain-of-Model Learning for Language Model
๐กRepresentation์ sequancialํ sub-representation์ผ๋ก ๋๋๋ฉด ๊ธฐ์กด ๋ชจ๋ธ์ ์ ์งํ ์ฑ ์ถ๊ฐ ํ์ต๋ ๊ฐ๋ฅํ๊ณ , ํ์ฅ๋ ๊ฐ๋ฅํ๊ณ ์ ์ฐํจ!
Mind the Value-Action Gap: Doย LLMs Act in Alignment with Their Values?
๐กLLM์ด ์๊ธฐ ๊ฐ์น๊ด์ ๋ํด ์ง์ ์ฃผ์ฅํ๋ ๋ฐ์, ์ค์ ์ฃผ์ด์ง ์ํฉ์์ ํ๋ํ๋ ๊ฒ์ด ๋ค๋ฅผ ์ ์์!๊ทธ๋์ ์ ๋นํ ๋ฏฟ๊ณ ์ฃผ์ํ๋ฉด์ ํ์คํฌ ๋งก๊ฒจ์ผ ํจ
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
๐กGeneralization์ด๋ Hallucination์ด๋ ๋ชจ๋ ๋ค Out-of-Context Reasoning์ ํ์์ด๊ณ , ์ด๋ Output ํ๋ ฌ๊ณผ Value ํ๋ ฌ์ด ๋ถ๋ฆฌ๋์ด์์ด ํ์ต๊ฐ๋ฅํ๋ค!
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
๐กLLM ์์๋ ์ด ์ํฐํฐ๋ฅผ LLM์ด ์๋์ง/๋ชจ๋ฅด๋์ง๋ฅผ ํ์ํ๋ latent ๋ฐฉํฅ์ด ์ค์ ๋ก ์กด์ฌ์ด latent ๋ฐฉํฅ์ ์กฐ์(steering) ํ๋ฉด,์๋๋ ๋ชจ๋ฅธ๋ค๊ณ ๋งํ๋ ์ง๋ฌธ(๋ต๋ณ ๊ฑฐ๋ถ)์ ๋ํด ํ ๋ฃจ์๋ค์ด์ ์ ์ํค๊ฑฐ๋,์๋ ์ ์๋ ์ํฐํฐ์ ๋ํด์๋ ๋ต๋ณ์ ๊ฑฐ๋ถํ๊ฒ ๋ง๋ค ์ ์์
On the Role of Attention Heads in Large Language Model Safety
๐กLLM ์์ ์ฑ์ ์ฌ์ค ์์์ attention head ์ ์ง์ค๋์ด ์์ด์, ๊ทธ head๋ค๋ง ์ด์ง ๊บผ๋ ๐จ ์์ ์ฑ์ด ๋ฐ๋ก ๋ฌด๋์ง๋ค๋ ๊ฑธ ๋ฐํ ๐ ShipsยทSahara๋ก ์ด๋ค head๊ฐ ์ง์ง safety ๋ด๋น์ธ์ง ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ ์ ์ํจ โ๏ธ๐ฅ
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
๐กJailbreak: ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ์ ์์ ์ฅ์น๋ฅผ ์ฐํํ์ฌ, ์๋ ๊ฑฐ๋ถํด์ผ ํ ์ํํ ๋ต๋ณ์ ๋์ด๋ด๋ ค๋ ๊ณต๊ฒฉ์ ํ๋กฌํํธ ์กฐ์ ๊ธฐ๋ฒLLM์ด jailbreak์ ์๋ํ๋ prompt์ ๋ ธ์ถ๋ ๋, ๋ชจ๋ธ์ loss function์ ์๊ฐํํ landscape์ gradient๊ฐ ํ๋ค๋ฆฐ๋ค๋ ํน์ง์ ์ด์ฉํ์ฌ jailbreak ๊ณต๊ฒฉ์ ์ฐจ๋จํ๋ ๋ฐฉ๋ฒ์ ์ ์
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
๐กRLVRํ๋ฉด sampling path์์ ์ ๋ต path๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์ฐพ๊ธด ํ๋๋ฐ, ์๋ ๋ชจ๋ธ์ด ๊ณ ๋ ค์ํ๋๊ฑธ ๊ณ ๋ คํ๋๊ฑด ์๋! ๊ฒ๋ค๊ฐ ์ํ๋ง์ ๋๋ฆฌ๋ฉด ์คํ๋ ค reasoning scope๊ฐ base model๋ณด๋ค ์ข์!my insight: ์ด๊ฒ๋ ์ง์์ ์ ์ฃผ?!
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models
๐กLLM์ด ์ธ๋ฌ๋, ์ ๋ ฌ์ด ์ง์ง ์ ๋๋์ง ํ๊ฐํ๊ธฐ ์ํด์ ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ ์ฆ, ํ๋์ ๋ต๋ง ํ๊ฐํด์ ์๋๊ณ , ๋ชจ๋ธ์ ์ ์ฒด ์ถ๋ ฅ ๋ถํฌ๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณด๊ณ ํ๊ฐ๋ฅผ ํด์ผ ํจ์ด๋ฅผ ์ํด ์๋ก์ด ๊ธฐ์กด์ ๊ฒฐ์ ๋ก ์ ์ธ ํ๊ฐ์งํ๊ฐ ์๋ ์๋ก์ด ํ๋ฅ ๋ก ์ ์ธ ํ๊ฐ ์งํ๋ค์ ์ ์