On LLM-Based Scientific Inductive Reasoning Beyond Equations
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๊ณ๋์ด๋ฐฅ | AI as a scientist ๊ฐ ์๋
ผ๋๋ ๋จ๊ณ๊ฐ ์๋ค! ์์์ ์ ํ ๋
ผ๋ฌธ์ด๋ผ๊ณ ๋ณธ๋ค. ๊ทธ์น๋ง LLM์๊ฒ ์ต์ํ ๋ฐฉ์์ผ๋ก ๋ณํํด์ ์ถ๋ก ํ๊ฒ ํ๋ฉด ๋ ์ํ์ง ์์๊น? | 3.3 |
| ๋งน๊ตฌ | ๋ฐฅ๊ทธ๋ฆ ๋บ๊ธฐ๊ธฐ ์ซ๋ค.. ์ฌ์ค ์์ด๋์ด๋ ๋ฌธ์ ์ ํ์ ์ธก๋ฉด์์๋ LLM์ด ์ด์ ๋ ์ํ์ง ์์๊น๋ผ๋ ์๊ฐ์ ์์ฃผ ํจ. ์ด๊ธฐ ๋จ๊ณ์ผ์๋ก ๋ ๋ง์, ์์ ๋ก์ด ํ์์ด ํ์ํ๋ฐ, ๊ทธ๋ฐ ๊ฒฝ์ฐ์ LLM์ด ๊ฐํ๋ค๊ณ ์๊ฐํจ. LLM ๋ด๋ถ ๋์์ ์๊ฐํด๋ณด๋ฉด ์์ง ๊ณผํ์ ์ถ๋ก ์ ์ด๋ ค์ด ๊ฒ์ด ์ง๊ด์ ์ผ๋ก๋ ๋ง๋ ๊ฒ ๊ฐ๋ค. ๊ทธ ์ธ์๋ ์ข์ ๋ ผ๋ฌธ์ ์๋๋ผ๊ณ ์๊ฐํจ. | 3.6 |
| ๊ตญ๋ฐฅ | ์ฑ๋ฅ์ด ๋ฎ๋ค๋๊ฑด ์ ๋ณด์ฌ์คฌ์ง๋งโฆ ์ ๋ฎ์์ง๊น์ง ์๊ฐ๊ฒ ์์ฝ๋ค. ๊ทธ๋ฆฌ๊ณ LLM ๋ด์ฌ๋ ์ง์๋ณด๋ค ๋ฐ์ดํฐ์ prior์ ๋ ์์กดํ๋์ง๋ ๊ตฌ๋ถ์ด ํ์ํจ | 3.6 |
| ํผ์ | LLM์ด ๊ท์น์ ์ดํดํ์ง ๋ชปํ๋ค๋ ์ ์ ๋ฐ๊ฒฌํ ๊ฒ์ ์ข์ผ๋, ์ ๊ท์น์ ๋ฐ๊ฒฌํ์ง ๋ชปํ๋์ง, ์ํ์ ์ผ๋ก๋ ๋ชจ๋ธ์ ์ฆ๋ช
์ด ์๋ ์ ์ด ์์ฌ์. LLM์ด ์ถ๋ก ์ ๋ฌธ์ ๊ฐ ์๋ค๋ ํ์ ์ ์์ ๋ถํฐ ๋ ผ๋ฌธ์์ ์ธ๊ธ๋๋ ์ฃผ์ ์ธ๋ฐ, ์ด๊ฑธ ์ฒด๊ณ์ ์ผ๋ก ์ฆ๋ช ์ ํด์ผ ํ์ง ์๋ ์ถ์. | 3.5 |
| ํ๋ฒ๊ฑฐ | ๋ฐ์์ด ์ฐธ์ ํ๊ธดํ๋ค ์ด์ฉ๋ฉด ์ด๊ฒ ์ง์ง reasoning ๋ฅ๋ ฅ์ผ์๋. ๊ทผ๋ฐ ๋ชจ๋ธ์๊ฒ 'ํ์ฌ ์ํฉ์ ๊ธฐ์กด์ rule์ ๋ฐ๋ฅด์ง ์๋ ๋ฌธ์ ์ ๋๋ค.' ๋ผ๋ ์ธํ ์ ์๋ ค์ค๊ฑด๊ฐ? ๊ทธ๊ฑฐ ์์๋ ค์ฃผ๋ฉด ๋ชจ๋ธ์ด ๋น์ฐํ ๋ณธ์ธ์ด ์๊ณ ์๋ ์ง์์ผ๋ก ์ต๋ํ align ์ํค๋ฉด์ ์ถ๋ก ํ์ ๊ฒ ๊ฐ์ | 3.9 |
| ์นํจ | motivation๋ ์ฌ๋ฐ๊ณ ๊ฐ์ง ํ๊ฒฝ์ ์กฐ์ฑํ๋ idea ๋ํ ์ฐธ์ ํ๋ค. ๊ทผ๋ฐ ์ด๊ฒ LLM์ด ๊ท์น์ ์ ์ฐพ๊ณ ๋์ถํด๋ฌ๋ค๊ณ ํ์คํ ์ ์๋์ง์ ๋ํ ์๋ฌธ์ด ๋ ๋ค. ๋ ์ ์ ๋ ฅ๊ธธ์ด๊ฐ ๊ธธ๋ ์ฑ๋ฅ์ด ํ๋ฝํ๋์ง ๊ถ๊ธํ๋ค.. | 3.4 |
| ํ๋ธ๋ฆฌ์ฆ | LLM์ด ์คํ๋ ค ๊ฐ๋ณ ๋ฐ์ดํฐ๋ฅผ ํตํ ํต๊ณ๋ ์ผ๋ฐํ๋ ํจํด ํ์ต์ ๋ฐ์ด๋ ๊ฒ ๋ง์ง ์๋ ์ถ์ผ๋ฉด์๋ ์ฌ์ ํ ์์ ์ถ๋ก ๋ถํฐ ์ด๋ฐ ๊ณผํ ์ถ๋ก ๊น์ง ์์ง ๋ถ์กฑํ ๊ฑด ์ฌ์ค์ธ๋ฏํ๋ค. ๊ทธ๋๋ ์๋์ ์ผ๋ก ๊ธ๋ฐฉ ํด๊ฒฐ๋ ๋ฌธ์ ์๋๊น ํ๋ ๊ธฐ๋๊ฐ ์๊ธด ํ๋ฐ.. | 3.4 |
TL; DR
๐ก
ํ์ฌ LLM์ โ๋ฐฉ์ ์(์์)์ผ๋ก ํํ๋์ง ์๋ ๊ณผํ์ ๊ท์นโ์ ๊ด์ฐฐ๋ก๋ถํฐ ๊ท๋ฉ์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ ๋ฐ ๊ทผ๋ณธ์ ์ผ๋ก ์ฝํ๋ค.
์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์ ์๋ค์ SIRBench-V1 ์ด๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ค์๊ณ , ์ต์ LLM๋ค๋ ๋๋ถ๋ถ ๋ฎ์ ์ ํ๋(๋ฝํด์ผ 45%) ์ ๋จธ๋ฌธ๋ค๋ ๊ฒ์ ๋ณด์๋ค.
Summary
Motivation
- LLM์ด ๊ณผํ์ ์ถ๋ก ์ด ๊ฐ๋ฅํ๊ฐ?
- ์์ ์ฐพ์๋ด๊ธฐ
- ๋ช ์์ ์ํ ๊ท์น ์ดํดํ๊ณ ์ถ๋ก ํ๊ธฐ
- ์ค์ ๊ณผํ์ ์ถ๋ก ๋ฌธ์ ์ํฉ
- ๊ท์น์ด ์์์ผ๋ก ๊น๋ํ๊ฐ? No
- ํนํ, ์๋ฌผ/ํํ ๋ฑ ๋ถ์ผ์ ๊ท์น์ ํ์์ ๊ด์ฐฐํ๊ณ , ๊ท๋ฉ์ ์ฌ๊ณ ๋ฐฉ์์ด ์๊ตฌ๋๋ค.
- ๋ฐฉ์ ์ ๊ทธ๋ฐ ๊ฑฐ ์์ด์!
- LLM์ด ์์์ ์ธ ๊ฑด ์ด๋ป๊ฒ ์ด๋ป๊ฒ ํ ์ ์๋ ๊ฒ ๊ฐ์๋ฐ, ์ด๊ฒ๋ ๊ฐ๋ฅํด?
- ์์์ ์ธ ๊ฒ์ด ์๋๋ผ, ํ์ ๊ด์ฐฐ๋ก๋ถํฐ ๊ณผํ ๊ท์น(๋ฒ์น)์ ์ ๋ํด๋ผ ์ ์๋๊ฐ?
Idea
- ๊ณผํ์ ๊ท๋ฉ ์ถ๋ก ์ ํฌ๊ฒ 2๊ฐ์ง
- retrieval
- rule induction
- ๊ธฐ์กด ๊ท์น์ด ํตํ์ง ์๋, ๊ฐ์ง ํ๊ฒฝ์ ๋ง๋ค์ด๋ณด๋ฉด ์ด๋จ๊น?
- ์ด ์ธ๊ณ์์ ๋งํผ์ ๊ท์น์ด ๋ค๋ฅด๊ฑฐ๋/๋ฐ๋ ๊ฒฝ์ฐ!
- ์) ์ผ์์ ๋ฐ๋๊ฐ ์ผ๋ฐ์ ์ธ ๊ธฐ์๊ณผ 0๋ ์ดํ์์ ๋ฌผ๋ณด๋ค ๋์ ์ธ๊ณ (1.1 vs 1.0)
- ์๋ก์ด ๊ท์น์ ์ถ๋ก ํ ์ ์์๊น?
- ์ผ์์ ๋ฐ๋๊ฐ ๋ฌผ๋ณด๋ค ๋์ผ๋, ๊ฐ์ด ์ผ๋ฉด ์ผ์์ด ๋ฐ์ผ๋ก ๊ฐ๋ผ์์ ๊ฒ์ด๊ณ โฆ ๋น์ฐ๋ ๋ค ์๋๋ก ๊ฐ๋ผ์์ ๊ฒ์ด๊ณ .. ๊ฒจ์ธ์ด ๋๋ฉด ์ด๋ ๊ฐ์๋ ๋ฌผ๊ณ ๊ธฐ๊ฐ ์ด์ง ๋ชปํ ๊ฒ์ด๊ณ ..
- ์ด ์ธ๊ณ์์ ๋งํผ์ ๊ท์น์ด ๋ค๋ฅด๊ฑฐ๋/๋ฐ๋ ๊ฒฝ์ฐ!
Method
ํ๊ฐ๋ฅผ ํด์ผ ํ๋, ๋ฒค์น๋งํฌ๊ฐ ํ์ํ๋ค
- ๋ฒค์น๋งํฌ ์ ์!: SIRBench-V1
- ๋๋ฉ์ธ:
- Biology + Chemistry
- ์ด 7๊ฐ ํ์คํฌ:
- DNA Translation
- DNA Table Inference
- DNA Transformation
- Molecule Design
- Molecule Caption
- Reaction Prediction
- Name Prediction
- ์ด๋ค ํน์ง์ด ์๋๊ฐ?
- ์ ๋ต์ ๋ช ํํจ
- ๊ท์น์ด ๋ช ์๋์ง ์์
- LLM์ด ๊ท์น์ ์ธ์ฐ๊ณ ํ์ฉํ๋ ๊ฒ์ ์ฐจ๋จํ๊ธฐ ์ํ์ฌ, synthetic rule ์ฌ์ฉ
์ถ๋ก ๋ฐฉ์์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์๋ค!
- Implicit inductive reasoning
- Explicit inductive reasoning (rule โ apply)
- Self-consistency
- Hypothesis refinement
โ โ๊ณ ๊ธ ์ถ๋ก ์ ๋ต์ด ์ง์ง๋ก ๋์์ด ๋๋๊ฐ?โ ๊ฒ์ฆ
Experiment










