Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
π‘LLM λ©ν° μμ΄μ νΈ μμ€ν μμ μ€λ₯κ° λ¬μ λ λκ° μΈμ μ€λ₯λλμ§ μλμΌλ‘ νμ ν΄λ³΄μ!λ²€μΉλ§ν¬ μ μ λ° ν LLM μ±λ₯ νκ°
To Mask or to Mirror: Human-AI Alignment in Collective Reasoning
π‘LLMμ μ¬λμ λ°λΌνλκ°? νΉμ μ¬λμ΄ λ³΄νΈμ μΌλ‘ κ°μ§ νΈν₯(?)μ μμ κ³ μ¬λλ³΄λ€ λ λμ κ²°μ μ λ΄λ¦¬λκ°? 리λ μ μΆ μ€νμ ν΅ν΄ λΆμν κ²°κ³Ό, LLM λ³λ‘ λ€λ₯΄λ€. (GPT, Geminiλ μΈκ°μ κ·Έλλ‘ λͺ¨λΈλ§ , Claudeλ λ λμ μ ν)
Quantifying Elicitation of Latent Capabilities in Language Models
π‘LLMμ μ μ¬λ λ₯λ ₯μ μ΄λ―Έ κ°μΆκ³ μμΌλ©°, μμ£Ό μ μ μμ 무μμ νλΌλ―Έν°λ§ νμ΅ν΄λ κ·Έ λ₯λ ₯μ ν¨μ¨μ μΌλ‘ λμ΄λΌ μ μλ€λ κ²μ μ€ν/μ΄λ‘ μ μΌλ‘ μ λνν¨