Training a Generally Curious Agent
๐ก๋ด์ฌ์ ๋ณด์ ์์ด๋, LLM์ด ๋ค์ํ synthetic ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ๋ณด๋ฅผ ์ค์ค๋ก ๋ชจ์ผ๊ณ , ๋จ๊ณ๋ณ๋ก ํ๋จํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ํ์!
On LLM-Based Scientific Inductive Reasoning Beyond Equations
๐กํ์ฌ LLM์ โ๋ฐฉ์ ์(์์)์ผ๋ก ํํ๋์ง ์๋ ๊ณผํ์ ๊ท์นโ์ ๊ด์ฐฐ๋ก๋ถํฐ ๊ท๋ฉ์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ ๋ฐ ๊ทผ๋ณธ์ ์ผ๋ก ์ฝํ๋ค.์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์ ์๋ค์ SIRBench-V1 ์ด๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ค์๊ณ , ์ต์ LLM๋ค๋ ๋๋ถ๋ถ ๋ฎ์ ์ ํ๋(๋ฝํด์ผ 45%) ์ ๋จธ๋ฌธ๋ค๋ ๊ฒ์ ๋ณด์๋ค.
MAP: Multi-Human-Value Alignment Palette
๐ก๋ค์ค ๊ฐ์น ์ ๋ ฌ์ ๊ธฐ์กด์ ๊ฐ์ค์น ํ๋ ๋ฐฉ์์ด ์๋๋ผ ์ํ๋ ์์ค์ ๋ชฉํ(palette)๋ฅผ ๋จผ์ ์ง์ ํ๊ณ , ๊ทธ ๋ชฉํ๋ฅผ ๋ง์กฑํ๋ ฮป๋ฅผ ์๋์ผ๋ก ์ฐพ์ Pareto ๊ฐ์ ์ ๋ณด์ฅํ๋ ์ ๋ ฌ๋ก ๋ฐ๊ฟ๋ณด์!