Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ฐค | ๋์ค์๋ LLM์ด LLM ์ค๋ฅ๋ฅผ ์๋ ๋ถ์.. ํด์ค ์๋ ์๊ฒ ๋ค, ์ ํ๋ ์์ง ๋ง์ด ๋จ์ด์ง๊ณ ๋ก๊ทธ ๊ธธ์ด ๊ธธ๋ฉด ์ ๋ชปํ๊ธด ํ์ง๋ง. all-at-once์ step-by-step ์ฑ๋ฅ์ด ํฌ๊ฒ ์ฐจ์ด๋๋ ๊ฑด ์ด์ ๊ฐ ๊ถ๊ธํ๋ค | 3.9 |
| ๋ฆฌํ | ์๋์ ํ๋ฆ์ด ๋จ์ผ ์์ด์ ํธ ์์คํ ์์ ๋ฉํฐ ์์ด์ ํธ๋ก ๊ฐ๊ณ ์์ด์ ๊ทธ๋ฐ์ง ๋ฉํฐ์์ด์ ํธ ๊ด๋ จ ๋ฌธ์ ์ ๋ค์ ๋ค๋ฃจ๋ ๋ ผ๋ฌธ๋ค์ด ๋ง์ด ๋ณด์ธ๋ค. 3๊ฐ์ง approach ใ ์์ง ๋ชจ๋ ์ฑ๋ฅ์ด ๋ฎ์ง๋ง, ์ด๋ ํ ์์ด์ ํธ๊ฐ ์๋ชปํ๋์ง๋ฅผ ์ ํํ ์๋ณํด๋ผ ์ ์๋ค๋ฉด ๋ฐ์ด๋ธ ์ฝ๋ฉ์ ์ง์ง ์์ฑํ์ด ๋ ๊ฒ ๊ฐ๋ค.. | 4.5 |
| 5์ | LLM ์ค๋ฅ ๋ถ์์ ์๋์ผ๋ก ํ ์ ์๋ ํ๋ ์์ํฌ(?)๊ฐ ์ ์๋์๋ค๋ ์ ์์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ ๋ฏํจ. ์์ง๊น์ง ๊ธธ์ด์ง ๋ก๊ทธ์์ ์ค๋ฅ๊ฐ ๋ง๊ณ , ๊ฐ๋ ฅํ ์ถ๋ก ๋ชจ๋ธ์ด๋ผ ํ๋๋ผ๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ ์์ ์์ฝ์ง๋ง, ์ด ๋ถ๋ถ์ ํด๊ฒฐํ๋ ํ์ ์ฐ๊ตฌ๊ฐ ๋ฑ์ฅํ๋ค๋ฉด ์ค์ค๋ก ์ค๋ฅ๋ฅผ ์๋ณํ ์ ์์ง ์์๊น ์๊ฐํจ. | 4.5 |
| 3์ผ์ | ์ํฉ์ ๋ฐ๋ผ ์๋ก ๋ค๋ฅธ ๋ก๊ทธ ๊ตฌ์ฑ์ผ๋ก ์คํจ ์์ธ ๋ถ์์ ์ด๋ ๊ฒ ํด์ผํ๋๊ตฌ๋๋ฅผ ์๋ ค์ฃผ๋ ๋ ผ๋ฌธ. Hybrid ๋ฐฉ์์ ์ต์ ํํ๋ฉด step-level ์ ํ๋๋ ๊ฝค๋ ๋๊ฒ ์ ์ง๋ ๊ฑฐ๊ฐ๋ค. ์ด๊ฑฐ๋ summarization์ ์ฐจ๋ณ์ ์ด ๋ฌด์์ผ ์ง ๊ถ๊ธํจ | 4.5 |
| ์ปคํผ์ฝ | ์ด๋ ๊ฒ ๋ช ์์ ์ผ๋ก โ๋๊ฐ, ์ธ์ ์คํจ๋ฅผ ์ผ๊ธฐํ๋๊ฐ?โ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ task๋ ์์ํ๊ฒ ๊ฐ์. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ก ์ ์ฒด ์ฑ๊ณต๋ฅ ์ ๋์ด์ฌ๋ฆฌ๋ ๋ฐ ์ด์ ์ ๋ง์ท๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ ์คํ๋ ค ์คํจ ์ฌ๋ก๋ฅผ ์ค์ฌ์ ๋๊ณ ๋ถ์ํจ์ผ๋ก์จ ๋ฉํฐ์์ด์ ํธ ์์คํ ์ ๊ทผ๋ณธ์ ์ธ ์ทจ์ฝ์ ์ ํด๊ฒฐํ๊ณ ์ ํ๋ ์๋๊ฐ์ | 4.2 |
| ๋ ธํธ๋ถ๋ ธ์ ๋ก๋ฉ์๋ผ์ํฐ์ผ๋ก | ์ ๋ขฐ์ฑ์ด๋ผ๋ ๊ฑด ์ํ๊ธฐ๋ณด๋ค ์ค์ํ์ง ์๊ณ , ์ค์ํ๋๋ผ๋ ์์ ํ๋ ๊ฒ์์ ๋์จ๋ค๊ณ ์๊ฐํจ. ๊ณ ์ ์ด ๋๋์๋ง ์ง์คํ๋ ๊ฒ์ด ์๋๋ผ, ์ ์ ์ด ๋๋๋ก ์ ๋ํ๋ ๊ฒ๋ฆฌ ์ค์ํ์ง ์๋? ๊ด๋ จ์ฐ๊ตฌ๋ก ์ข์ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์. | 4.5 |
| ๋๊ธ๋๊ธ | LLM์ด ์ ์ ์ง์ฑ ๊ทธ ์์ฒด๋ก ์งํํด๊ฐ๋ค์,,, ์ฐ๋ฆฐ ๋ญํ์ง | 4.5 |
| ๋น ์ค | ๊ตณ์ด ๋ฒค์น๋งํฌ๊น์ง ํ์ํ ์ผ์ธ๊ฐ? ์ถ๊ธด ํ๋ฉด์๋ ์์ ์๋ํ๋ฅผ ์ํด์๋ผ๋ฉด ํ์ํ ์ผ ๊ฐ๊ธฐ๋ ํจ.. | 3.8 |
TL; DR
๐ก
LLM ๋ฉํฐ ์์ด์ ํธ ์์คํ
์์ ์ค๋ฅ๊ฐ ๋ฌ์ ๋ ๋๊ฐ ์ธ์ ์ค๋ฅ๋๋์ง ์๋์ผ๋ก ํ์
ํด๋ณด์!
๋ฒค์น๋งํฌ ์ ์ ๋ฐ ํ LLM ์ฑ๋ฅ ํ๊ฐ
Summary
Motivation
- Coding, research ๋ฑ ๋ค์ํ ๋ถ์ผ์์ LLM multi agent system์ ์ฌ์ฉํ๊ณ ์๋๋ฐ, ์์คํ
์ด ์คํจํ์ ๋ ์์ธ ๋ถ์์ ์ฐพ๋๊ฑด ์ฌ์ ํ ์๋์ ์ด๊ณ ์๊ฐ์ด ๋ง์ด ๋ฆ
- ex) ๋ฐ์ด๋ธ ์ฝ๋ฉํ ๋ ์ํ๋๋๋ก ๋์ ์ํ๋ฉด ๊ฒฐ๊ตญ ์ฌ๋์ด ์ผ์ผํ ์ฝ๋ ์ฝ์ด๋ด์ผ ํจ
- ์คํจ ๋ถ์์ ๊ธด ๋ก๊ทธ ์์์ ์ด๋ค ์์ด์ ํธ๊ฐ ์ด๋ค ์์ ์์ ์๋ชปํ๋์ง ์์๋ด์ผ ํจ!
โ ์ด๊ฑธ LLM์ด ์๋์ผ๋ก ํ ์ ์๊ฒ ํด๋ณด์
Contribution
- Problem Definition
- LLM multi agent system์ด ์ธ์ ์ด๋์ ์๋ชปํ๋์ง๋ฅผ ์๋ณํ๋ ๋ฌธ์ ์ ๊ธฐ
- Banchmark: Who&When
- ์์ด์ ํธ ์์คํ ์ ์คํจ๋ฅผ ๋ถ์ํ ๋ฒค์น๋งํฌ ๊ตฌ์ถ
- Can LLMs help identify When and Which agent causes task failures?
- LLM์ด ์๋์ผ๋ก ์คํจ ๋ถ์์ ์ผ๋ง๋ ์ํ๋์ง ํ๊ฐ ๋ฐ ๋ถ์
Problem Definition
LLM Multi agent system๊ฐ ์คํจ๋ฅผ ํ์ ๋, ๊ฒฐ์ ์ ์ธ ์ค๋ฅ ์ค ๊ฐ์ฅ ๋จผ์ ๋ฐ์ํ ์ค์๋ฅผ ์ฐพ๊ณ
์ธ์ ๋๊ฐ ๋ฐ์ํ๋์ง ์์๋ด์!
- LLM Multi agent system
๏ปฟ
- N: ์์ด์ ํธ ๊ฐ์
- S: ์ํ(state) ์งํฉ
- A: ํ๋(action) ์งํฉ
- ๊ฐ ์์ด์ ํธ ๏ปฟ๋ ํ๋ ์งํฉ์ ๋ถ๋ถ์งํฉ ๏ปฟ ์์ ํ๋ ๊ฐ๋ฅ
- ๏ปฟ : ์๊ฐ t์ ๏ปฟ๋ง ํ๋ํ๋ค๋ ์กฐ๊ฑด์์์ ์ํ ์ ์ด ํ๋ฅ
- ๏ปฟ: ์๊ฐ ๋จ๊ณ t์์ ํ๋ํ๋ ์์ด์ ํธ
- Trajectory
- ๏ปฟ
- Trajectory ๋ด ์ค์๋ฅผ ๏ปฟ๋ก ๋ํ๋
- ์๊ฐ ๏ปฟ์์ ๏ปฟ ์์ด์ ํธ๊ฐ ํ ๏ปฟ๊ฐ ์ค๋ฅ์ธ ๊ฒ
- Trajectory result fuction
- ๏ปฟ
- ์คํจํ๋ฉด 1, ์๋๋ฉด 0
- ๊ฒฐ์ ์ ์ธ ์ค๋ฅ
- ๏ปฟ ์๊ฐ์์ ์์ด์ ํธ ๏ปฟ์ ํ๋์ ๊ต์ ํ trajectory
- ๏ปฟ
- ๊ต์ ํด์ ํด๊ฒฐ๋๋ฉด ๏ปฟ=1 ์๋๋ฉด 0
- ๏ปฟ
- ๏ปฟ=1๋ฅผ ๋ง์กฑํ๋ ๏ปฟ๊ฐ ๊ฒฐ์ ์ ์ธ ์ค๋ฅ๋ค์!
- ๏ปฟ
- ๏ปฟ ์๊ฐ์์ ์์ด์ ํธ ๏ปฟ์ ํ๋์ ๊ต์ ํ trajectory
- Problem
- ๊ฐ์ฅ ๋จผ์ ๋ฐ์ํ ๊ฒฐ์ ์ ์ธ ์ค๋ฅ๋ฅผ ์ฐพ์
- ๏ปฟ
Banchmark: Who&When
- LLM Multi Agent System์์ ์ค๋ฅ๊ฐ ๋ ๊ฒฝ์ฐ ๋๊ฐ (Who) ์ธ์ (When) ์ค๋ฅ๋ฅผ ๋ง๋ค์๋์ง ์๋ณํ๋
๋ฒค์น๋งํฌ ์ ์127๊ฐ์ LLM Multi Agent System์์ ์์งํ ๋ก๊ทธ ํฌํจ
- 2๊ฐ์ง ์ข
๋ฅ์ ์์ด์ ํธ ์์คํ
์ฌ์ฉ
- Algorithm-Generated Agentic Systems
- CaptainAgent ์๊ณ ๋ฆฌ์ฆ: ์ฃผ์ด์ง ํ์คํฌ(GAIA, Assistant Bench)์ ๋ง์ถคํ๋ ์์ด์ ํธ ํ์ ๊ตฌ์ฑํ๊ณ , ์ ์ ํ ์์ด์ ํธ ์ด๋ฆ, ํ๋กฌํํธ ๋ฐ ํ์ํ ๋๊ตฌ๋ฅผ ํ ๋น
- ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด ์ต์ ํ๋ ์๋ฃจ์ ์ ๋ํ๋ด๋ ์ต์ข ๋ฉํฐ ์์ด์ ํธ ๊ตฌ์ฑ๊ณผ ํด๋น ์คํ ๊ธฐ๋ก๋ง์ ์ ํ
- ์คํจํ ์ผ์ด์ค๋ง ๋ฒค์น๋งํฌ์ ํฌํจ์ํด
- Hand-Crafted Agentic Systems
- Magnetic-One: ์น ๋ธ๋ผ์ฐ์ ์กฐ์์ด๋ ๋ก์ปฌ ํ์ผ ํ์๊ณผ ๊ฐ์ ๊ณ ์ ํ ๊ธฐ๋ฅ์ ํนํ๋ 5๊ฐ์ ์ ๊ตํ๊ฒ ์ ์๋ ์์ด์ ํธ๋ก ๊ตฌ์ฑ
- GAIA, Assistant Bench์์ Magnetic-One ํ๊ฐํ๊ณ ์คํจ ๋ก๊ทธ๋ฅผ ๋ฒค์น๋งํฌ์ ํฌํจ์ํด
- Algorithm-Generated Agentic Systems
- 2๊ฐ์ง ์ข
๋ฅ์ ์์ด์ ํธ ์์คํ
์ฌ์ฉ
184๊ฐ์ Failure Annotation Tasks(์คํจ ์ฃผ์)์ผ๋ก ์ด๋ฃจ์ด์ง
- 3๋ช
์ ์์ด์ ํธ ์ ๋ฌธ๊ฐ๋ค์ด multi round annotationํจ
- round 1: ๋ชจ๋ ์คํจ ๋ก๊ทธ๋ฅผ ์ ๋ฌธ๊ฐํํ ๋ถ๋ฐฐ ํ ์ธ์ ๋๊ฐ ์ค๋ฅ๋ฅผ ๋๋์ง, ์ค๋ฅ ์ดํ์ ์ถ๋ก ์ ๋ํด ์ฃผ์ ์ฒ๋ฆฌํจ, ๊ทธ๋ฆฌ๊ณ ํ์คํ์ง ๋ถํ์คํ์ง ๋ถ๋ฅ
- round 2: ๋ถํ์คํ ๊ฒ๋ค์ ๋ํด ํฉ์ ๋์ถ(๋ง์ฅ์ผ์น๊น์ง)
- round 3: ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ๋จ๊ธด ์ฃผ์ ๊ฐ ๊ต์ฐจ ๊ฒ์ฆ
- a๋ ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ๊ฑธ๋ฆฐ ์๊ฐ์ธ๋ฐ 30.9, 30.2, 23.2์๊ฐ ์
- b๋ ํ์คํ ๊ฒ ๋ถํ์คํ ๊ฒ ๋น์จ์ธ๋ฐ, ๊ฐ์ฅ ํฐ ์ค๋ฅ๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ ์ด๋ ค์์ ๋ถํ์คํ ์ฃผ์ ๋น์จ์ด ์ข ์์
- c๋ ์๋ก์ ๋ถํ์คํ ๋ฐ์ดํฐ์ ๋ํด ํฌํํ ๋ ๊ฐ์ธ ๊ฐ์ ๋ถ์ผ์น์จ, ๊ฐ์ธ์ฐจ๊ฐ ์ข ์์
- 3๋ช
์ ์์ด์ ํธ ์ ๋ฌธ๊ฐ๋ค์ด multi round annotationํจ
๊ฐ ๋ฐ์ดํฐ ์ธ์คํด์ค๋ ์ฟผ๋ฆฌ, ์คํจ ๋ก๊ทธ, ์์ด์ ํธ ์์คํ ์ ๋ณด, ์ฃผ์์ ํฌํจํจ
- ์ฟผ๋ฆฌ: ๋ฒค์น๋งํฌ์์ ๊ฐ์ ธ์จ ํ์ค ์ธ๊ณ์์์ ์ง๋ฌธ
- ์คํจ ๋ก๊ทธ: ํน์ ์์คํ ์ด ์ฟผ๋ฆฌ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์คํจํ์ ๋์ ์ ์ฒด ์์ด์ ํธ ๋ํ ๋ก๊ทธ
- ์์ด์ ํธ ์์คํ ์ ๋ณด: Algorithm-Generated Agentic Systems์ ๊ฒฝ์ฐ, ํด๋น ์ฟผ๋ฆฌ์ ๋ง์ถฐ ์กฐ์ ๋ ์์คํ ํ๋กฌํํธ, tools, ์์ด์ ํธ ์ด๋ฆ ๋ฑ์ ํฌํจ
- ์ฃผ์: ํ์คํฌ ์คํจ์ ์ฑ ์์ด ์๋ ์์ด์ ํธ, ์คํจ๊ฐ ๋ฐ์ํ ๋จ๊ณ, ๊ทธ๋ฆฌ๊ณ ์คํจ ์ด์ ์ ๋ํ ํ์ดํ ์ธ์ด ์ค๋ช ์ ํฌํจ
- Metric
- ์์ด์ ํธ ์์ค ์ ํ๋: ๋๊ฐ ํ๋ ธ๋์ง ๋ง์ถ๊ธฐ
- ๋จ๊ณ ์์ค ์ ํ๋: ์ธ์ ํ๋ ธ๋์ง ๋ง์ถ๊ธฐ
- ํ์ฉ ์ค์ฐจ๋ฅผ ํฌํจํ ๋จ๊ณ ์์ค ์ ํ๋: ์กฐ๊ธ ๋๋ํ๊ฒ ์ธ์ ํ๋ ธ๋์ง ๋ง์ถ๊ธฐ
Can LLMs help identify When and Which agent causes task failures?
- LLM(GPT-4o)์ ์ฌ์ฉํด ์๋์ผ๋ก ์คํจ ๋ถ์ ํด๋ณด๊ธฐ
- 3๊ฐ์ง approach
- All-at-once: LLM์๊ฒ ์ฟผ๋ฆฌ๋ ์ ์ฒด ์คํจ ๋ก๊ทธ ์ฃผ๊ณ , ๋๊ฐ ์ธ์ ํ๋ ธ๋์ง ์๋ณํ๊ธฐ
- Step-by-step: LLM์๊ฒ ์ฟผ๋ฆฌ ์ ๊ณตํ๊ณ , ์คํจ ๋ก๊ทธ๋ฅผ step๋ณ๋ก ์ ์ํจ. LLM์ ํ์ฌ step์์ ํ๋ ธ๋์ง ์ ํ๋ ธ๋์ง ํ๋จํจ
- Binary search: ์ ์ฒด ์คํจ ๋ก๊ทธ๋ก ์์ํด, ๋ก๊ทธ์ ์์ชฝ์์ ์คํจํ๋์ง, ๋ค์ชฝ์์ ์คํจํ๋์ง LLM์ด ํ๋ณ, ํ๋ณ๋ ๋ก๊ทธ๋ฅผ ๋ค์ ๋ฐ์ผ๋ก ๋๋์ด ๋จ์ผ step์ด ๋จ์ ๋๊น์ง ๋ฐ๋ณตํจ
- 2๊ฐ์ง setting
- With Ground Truth (Oracle): ์ฟผ๋ฆฌ์ ์ต์ข ์ ๋ต์ ์๊ณ ์๋ ์ธํ
- Without Ground Truth : ์ฟผ๋ฆฌ์ ์ ๋ต์ ๋ชจ๋ฅด๋ ์ฑ ์คํจ๋ฅผ ์ฐพ๋ ์ธํ
- 3๊ฐ์ง approach
- ๊ฒฐ๊ณผ










