21 January 2026

On LLM-Based Scientific Inductive Reasoning Beyond Equations

๐Ÿ’กํ˜„์žฌ LLM์€ โ€œ๋ฐฉ์ •์‹(์ˆ˜์‹)์œผ๋กœ ํ‘œํ˜„๋˜์ง€ ์•Š๋Š” ๊ณผํ•™์  ๊ทœ์น™โ€์„ ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ ๊ท€๋‚ฉ์ ์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐ ๊ทผ๋ณธ์ ์œผ๋กœ ์•ฝํ•˜๋‹ค.์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ SIRBench-V1 ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋งŒ๋“ค์—ˆ๊ณ , ์ตœ์‹  LLM๋“ค๋„ ๋Œ€๋ถ€๋ถ„ ๋‚ฎ์€ ์ •ํ™•๋„(๋ฝํ•ด์•ผ 45%) ์— ๋จธ๋ฌธ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€๋‹ค.

On LLM-Based Scientific Inductive Reasoning Beyond Equations

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๊ณ„๋ž€์ดˆ๋ฐฅAI as a scientist ๊ฐ€ ์˜๋…ผ๋˜๋Š” ๋‹จ๊ณ„๊ฐ€ ์™”๋„ค! ์‹œ์˜์ ์ ˆํ•œ ๋…ผ๋ฌธ์ด๋ผ๊ณ  ๋ณธ๋‹ค. ๊ทธ์น˜๋งŒ LLM์—๊ฒŒ ์ต์ˆ™ํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ณ€ํ™˜ํ•ด์„œ ์ถ”๋ก ํ•˜๊ฒŒ ํ•˜๋ฉด ๋” ์ž˜ํ•˜์ง€ ์•Š์„๊นŒ? 3.3
๋งน๊ตฌ๋ฐฅ๊ทธ๋ฆ‡ ๋บ๊ธฐ๊ธฐ ์‹ซ๋‹ค.. ์‚ฌ์‹ค ์•„์ด๋””์–ด๋‚˜ ๋ฌธ์ œ์  ํƒ์ƒ‰ ์ธก๋ฉด์—์„œ๋Š” LLM์ด ์ด์ œ ๋” ์ž˜ํ•˜์ง€ ์•Š์„๊นŒ๋ผ๋Š” ์ƒ๊ฐ์„ ์ž์ฃผ ํ•จ. ์ดˆ๊ธฐ ๋‹จ๊ณ„์ผ์ˆ˜๋ก ๋” ๋งŽ์€, ์ž์œ ๋กœ์šด ํƒ์ƒ‰์ด ํ•„์š”ํ•œ๋ฐ, ๊ทธ๋Ÿฐ ๊ฒฝ์šฐ์— LLM์ด ๊ฐ•ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•จ. LLM ๋‚ด๋ถ€ ๋™์ž‘์„ ์ƒ๊ฐํ•ด๋ณด๋ฉด ์•„์ง ๊ณผํ•™์  ์ถ”๋ก ์€ ์–ด๋ ค์šด ๊ฒƒ์ด ์ง๊ด€์ ์œผ๋กœ๋„ ๋งž๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ๊ทธ ์™ธ์—๋Š” ์ข‹์€ ๋…ผ๋ฌธ์€ ์•„๋‹ˆ๋ผ๊ณ  ์ƒ๊ฐํ•จ.3.6
๊ตญ๋ฐฅ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค๋Š”๊ฑด ์ž˜ ๋ณด์—ฌ์คฌ์ง€๋งŒโ€ฆ ์™œ ๋‚ฎ์€์ง€๊นŒ์ง€ ์•ˆ๊ฐ„๊ฒŒ ์•„์‰ฝ๋‹ค. ๊ทธ๋ฆฌ๊ณ  LLM ๋‚ด์žฌ๋œ ์ง€์‹๋ณด๋‹ค ๋ฐ์ดํ„ฐ์…‹ prior์— ๋” ์˜์กดํ•˜๋Š”์ง€๋„ ๊ตฌ๋ถ„์ด ํ•„์š”ํ•จ3.6
ํ”ผ์žLLM์ด ๊ทœ์น™์„ ์ดํ•ดํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ ์„ ๋ฐœ๊ฒฌํ•œ ๊ฒƒ์€ ์ข‹์œผ๋‚˜, ์™œ ๊ทœ์น™์„ ๋ฐœ๊ฒฌํ•˜์ง€ ๋ชปํ•˜๋Š”์ง€, ์ˆ˜ํ•™์ ์œผ๋กœ๋‚˜ ๋ชจ๋ธ์˜ ์ฆ๋ช…์ด ์—†๋Š” ์ ์ด ์•„์‰ฌ์›€.
LLM์ด ์ถ”๋ก ์— ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค๋Š” ํ—ˆ์ ์€ ์˜ˆ์ „๋ถ€ํ„ฐ ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋˜๋˜ ์ฃผ์ œ์ธ๋ฐ, ์ด๊ฑธ ์ฒด๊ณ„์ ์œผ๋กœ ์ฆ๋ช…์„ ํ•ด์•ผ ํ•˜์ง€ ์•Š๋‚˜ ์‹ถ์Œ.
3.5
ํ–„๋ฒ„๊ฑฐ๋ฐœ์ƒ์ด ์ฐธ์‹ ํ•˜๊ธดํ•˜๋„ค ์–ด์ฉŒ๋ฉด ์ด๊ฒŒ ์ง„์งœ reasoning ๋Šฅ๋ ฅ์ผ์ˆ˜๋„. ๊ทผ๋ฐ ๋ชจ๋ธ์—๊ฒŒ 'ํ˜„์žฌ ์ƒํ™ฉ์€ ๊ธฐ์กด์˜ rule์„ ๋”ฐ๋ฅด์ง€ ์•Š๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.' ๋ผ๋Š” ์„ธํŒ…์„ ์•Œ๋ ค์ค€๊ฑด๊ฐ€? ๊ทธ๊ฑฐ ์•ˆ์•Œ๋ ค์ฃผ๋ฉด ๋ชจ๋ธ์ด ๋‹น์—ฐํžˆ ๋ณธ์ธ์ด ์•Œ๊ณ ์žˆ๋Š” ์ง€์‹์œผ๋กœ ์ตœ๋Œ€ํ•œ align ์‹œํ‚ค๋ฉด์„œ ์ถ”๋ก ํ–ˆ์„ ๊ฒƒ ๊ฐ™์Œ3.9
์น˜ํ‚จmotivation๋„ ์žฌ๋ฐŒ๊ณ  ๊ฐ€์งœ ํ™˜๊ฒฝ์„ ์กฐ์„ฑํ•˜๋Š” idea ๋˜ํ•œ ์ฐธ์‹ ํ•˜๋‹ค. ๊ทผ๋ฐ ์ด๊ฒŒ LLM์ด ๊ทœ์น™์„ ์•ˆ ์ฐพ๊ณ  ๋„์ถœํ•ด๋‚ฌ๋‹ค๊ณ  ํ™•์‹คํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์˜๋ฌธ์ด ๋“ ๋‹ค. ๋˜ ์™œ ์ž…๋ ฅ๊ธธ์ด๊ฐ€ ๊ธธ๋•Œ ์„ฑ๋Šฅ์ด ํ•˜๋ฝํ•˜๋Š”์ง€ ๊ถ๊ธˆํ•˜๋‹ค..3.4
ํŽ˜๋ธŒ๋ฆฌ์ฆˆLLM์ด ์˜คํžˆ๋ ค ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ํ†ต๊ณ„๋‚˜ ์ผ๋ฐ˜ํ™”๋œ ํŒจํ„ด ํ•™์Šต์— ๋›ฐ์–ด๋‚œ ๊ฒŒ ๋งž์ง€ ์•Š๋‚˜ ์‹ถ์œผ๋ฉด์„œ๋„ ์—ฌ์ „ํžˆ ์ƒ์‹ ์ถ”๋ก ๋ถ€ํ„ฐ ์ด๋Ÿฐ ๊ณผํ•™ ์ถ”๋ก ๊นŒ์ง€ ์•„์ง ๋ถ€์กฑํ•œ ๊ฑด ์‚ฌ์‹ค์ธ๋“ฏํ•˜๋‹ค. ๊ทธ๋ž˜๋„ ์ƒ๋Œ€์ ์œผ๋กœ ๊ธˆ๋ฐฉ ํ•ด๊ฒฐ๋  ๋ฌธ์ œ ์•„๋‹๊นŒ ํ•˜๋Š” ๊ธฐ๋Œ€๊ฐ€ ์žˆ๊ธด ํ•œ๋ฐ..3.4

TL; DR

๐Ÿ’ก

ํ˜„์žฌ LLM์€ โ€œ๋ฐฉ์ •์‹(์ˆ˜์‹)์œผ๋กœ ํ‘œํ˜„๋˜์ง€ ์•Š๋Š” ๊ณผํ•™์  ๊ทœ์น™โ€์„ ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ ๊ท€๋‚ฉ์ ์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐ ๊ทผ๋ณธ์ ์œผ๋กœ ์•ฝํ•˜๋‹ค.

์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ SIRBench-V1 ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋งŒ๋“ค์—ˆ๊ณ , ์ตœ์‹  LLM๋“ค๋„ ๋Œ€๋ถ€๋ถ„ ๋‚ฎ์€ ์ •ํ™•๋„(๋ฝํ•ด์•ผ 45%) ์— ๋จธ๋ฌธ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€๋‹ค.

Summary

Motivation

  • LLM์ด ๊ณผํ•™์  ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?
    • ์ˆ˜์‹ ์ฐพ์•„๋‚ด๊ธฐ
    • ๋ช…์‹œ์  ์ˆ˜ํ•™ ๊ทœ์น™ ์ดํ•ดํ•˜๊ณ  ์ถ”๋ก ํ•˜๊ธฐ
  • ์‹ค์ œ ๊ณผํ•™์  ์ถ”๋ก  ๋ฌธ์ œ ์ƒํ™ฉ
    • ๊ทœ์น™์ด ์ˆ˜์‹์œผ๋กœ ๊น”๋”ํ•œ๊ฐ€? No
    • ํŠนํžˆ, ์ƒ๋ฌผ/ํ™”ํ•™ ๋“ฑ ๋ถ„์•ผ์˜ ๊ทœ์น™์€ ํ˜„์ƒ์„ ๊ด€์ฐฐํ•˜๊ณ , ๊ท€๋‚ฉ์  ์‚ฌ๊ณ  ๋ฐฉ์‹์ด ์š”๊ตฌ๋œ๋‹ค.
      • ๋ฐฉ์ •์‹ ๊ทธ๋Ÿฐ ๊ฑฐ ์—†์–ด์š”!
  • LLM์ด ์ˆ˜์‹์ ์ธ ๊ฑด ์–ด๋–ป๊ฒŒ ์–ด๋–ป๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ๊ฐ™์€๋ฐ, ์ด๊ฒƒ๋„ ๊ฐ€๋Šฅํ•ด?
    • ์ˆ˜์‹์ ์ธ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ˜„์ƒ ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ ๊ณผํ•™ ๊ทœ์น™(๋ฒ•์น™)์„ ์œ ๋„ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?

Idea

  • ๊ณผํ•™์  ๊ท€๋‚ฉ ์ถ”๋ก ์€ ํฌ๊ฒŒ 2๊ฐ€์ง€
    • retrieval
    • rule induction
  • ๊ธฐ์กด ๊ทœ์น™์ด ํ†ตํ•˜์ง€ ์•Š๋Š”, ๊ฐ€์งœ ํ™˜๊ฒฝ์„ ๋งŒ๋“ค์–ด๋ณด๋ฉด ์–ด๋–จ๊นŒ?
    • ์ด ์„ธ๊ณ„์—์„œ ๋งŒํผ์€ ๊ทœ์น™์ด ๋‹ค๋ฅด๊ฑฐ๋‚˜/๋ฐ”๋€ ๊ฒฝ์šฐ!
      • ์˜ˆ) ์–ผ์Œ์˜ ๋ฐ€๋„๊ฐ€ ์ผ๋ฐ˜์ ์ธ ๊ธฐ์••๊ณผ 0๋„ ์ดํ•˜์—์„œ ๋ฌผ๋ณด๋‹ค ๋†’์€ ์„ธ๊ณ„ (1.1 vs 1.0)
      • ์ƒˆ๋กœ์šด ๊ทœ์น™์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์„๊นŒ?
        • ์–ผ์Œ์˜ ๋ฐ€๋„๊ฐ€ ๋ฌผ๋ณด๋‹ค ๋†’์œผ๋‹ˆ, ๊ฐ•์ด ์–ผ๋ฉด ์–ผ์Œ์ด ๋ฐ‘์œผ๋กœ ๊ฐ€๋ผ์•‰์„ ๊ฒƒ์ด๊ณ โ€ฆ ๋น™์‚ฐ๋„ ๋‹ค ์•„๋ž˜๋กœ ๊ฐ€๋ผ์•‰์„ ๊ฒƒ์ด๊ณ .. ๊ฒจ์šธ์ด ๋˜๋ฉด ์–ด๋Š” ๊ฐ•์—๋Š” ๋ฌผ๊ณ ๊ธฐ๊ฐ€ ์‚ด์ง€ ๋ชปํ•  ๊ฒƒ์ด๊ณ ..

Method

ํ‰๊ฐ€๋ฅผ ํ•ด์•ผ ํ•˜๋‹ˆ, ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค

  • ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ!: SIRBench-V1
  • ๋„๋ฉ”์ธ:
    • Biology + Chemistry
  • ์ด 7๊ฐœ ํƒœ์Šคํฌ:
    • DNA Translation
    • DNA Table Inference
    • DNA Transformation
    • Molecule Design
    • Molecule Caption
    • Reaction Prediction
    • Name Prediction
  • ์–ด๋–ค ํŠน์ง•์ด ์žˆ๋Š”๊ฐ€?
    • ์ •๋‹ต์€ ๋ช…ํ™•ํ•จ
    • ๊ทœ์น™์ด ๋ช…์‹œ๋˜์ง€ ์•Š์Œ
    • LLM์ด ๊ทœ์น™์„ ์™ธ์šฐ๊ณ  ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ฐจ๋‹จํ•˜๊ธฐ ์œ„ํ•˜์—ฌ, synthetic rule ์‚ฌ์šฉ

์ถ”๋ก  ๋ฐฉ์‹์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค!

  • Implicit inductive reasoning
  • Explicit inductive reasoning (rule โ†’ apply)
  • Self-consistency
  • Hypothesis refinement

โ‡’ โ€œ๊ณ ๊ธ‰ ์ถ”๋ก  ์ „๋žต์ด ์ง„์งœ๋กœ ๋„์›€์ด ๋˜๋Š”๊ฐ€?โ€ ๊ฒ€์ฆ

Experiment

  • ๊ณผํ•™์  ๊ท€๋‚ฉ ์ถ”๋ก ์€ ์•„์ง LLM์˜ ์˜์—ญ์ด ์•„๋‹ˆ๋‹ค. (์ƒ๋ฌผ: ? / ํ™”ํ•™: ๊ทธ๋ž˜๋„ ์ด ์ •๋„๋ฉด? ์ˆ˜์ค€)
  • ๊ทœ์น™ ํ˜•์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์•„์ง ์—†๋‹ค. (๋ช…์‹œ์  ์ถ”๋ก ์€ ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์„ ํ•˜๋ฝ์‹œํ‚ด)
  • LLM์€ ๊ทœ์น™์„ ์ดํ•ดํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์™ธ์šด ๊ฒƒ์ด๋‹ค. (synthetic ๊ทœ์น™์œผ๋กœ ๋ณ€๊ฒฝ ์‹œ ์„ฑ๋Šฅ ํฌ๊ฒŒ ํ•˜๋ฝ)
    • DNA Translation๊ณผ DNA Table Inference์— synthetic rule ์ถ”๊ฐ€(์„ฑ๋Šฅ์ด ์ฒ˜์ฐธํ•จ)
  • ์ž…๋ ฅ ๊ธธ์ด๊ฐ€ ๊ธธ์ˆ˜๋ก, ์„ฑ๋Šฅ ํ•˜๋ฝ (์ผ๋ถ€ ๋ชจ๋ธ์€ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ ๊ฐ™๊ธฐ๋„ ํ•จ)
  • ๋งŽ์€ ์งง์€ ์˜ˆ์‹œ๊ฐ€, ์ ๊ณ  ๊ธด ์˜ˆ์‹œ๋ณด๋‹ค ์ข‹์Œ (๋ฌด์Šจ ์˜๋ฏธ? โ‡’ ๊ณผํ•™์  ๊ท€๋‚ฉ์€ ์žฅ๋ฌธ/์†Œ์ˆ˜ ๊ธฐ๋ฐ˜ ๊ด€์ฐฐ์ž„. ์ฆ‰, ๊ณผํ•™์  ๊ท€๋‚ฉ์—๋Š” ๋ถ€์ ํ•ฉํ•˜๋‹ค๋Š” ๋ถ„์„)

Categories

research