26 March 2026
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
COLM'25
๐ก์ ๋ต์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ SFT๋ณด๋ค, noisyํ ๋ต์์ โ๋นํ(critique)โํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ด reasoning ์ฑ๋ฅ ํฅ์์ ๋ ํจ๊ณผ์ ์ด๋ค!Human learning process์ ๋ฐฉ์(critical thinking, analyze, understandingโฆ)์ ๋ชจ๋ธ ํ์ต์ ์ ์ฉํด๋ณด์
26 March 2026
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games
COLM'25
๐กํ์ฌ์ ์ถ๋ก ์ต์ ํ๊ฐ ํ๋ ฅ์ ๋ณ๋๋ก ์ ๋ ฌ์ํค์ง ์๋๋ค๋ฉด, ํ๋ ฅ์ด ์๋ ํฉ๋ฆฌ์ ์ด๊ธฐ์ฃผ์๋ฅผ ํ๋ฐฉํ๋ ๊ฐ์ธ์ฃผ์ ๋ชจ๋ธ์ด ํ์ํ ์ ์๋ค!์ฆ, ์ถ๋ก ๋ฅ๋ ฅ๊ณผ, ํ์ ๋ฅ๋ ฅ(๋น์ฉ ๊ฐ์ ์ธก๋ฉด)์ ๋ณ๊ฐ๋ค!