Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ๋ธ๋ํ๋ผ์ด๋ฐ์ด | ์ง๋์ฃผ์ ๊ต์๋์ด ํด์ฃผ์ ๋ง์(์์๋ก ์์ฑํ CounterFactual ๊ธฐ๋ฐ์ ์ง์์ ๋ํด์๋ LLM์ด ๊ธ๋ฐฉ ํ์ตํ๋ ๊ฒ)์ด๋ ๊ฒฐ์ด ๋น์ทํ๋ค! ๊ทธ ๋
ผ๋ฌธ์ ์จํจ๋ก์ง ๊ธฐ๋ฐ์ด์๋ ๊ฒ์ผ๋ก ๊ธฐ์ตํจ ๋ค๋ง ๊ทธ๋ฐ ๋ด์ฉ์ matrix-level์ decomposition์ ํตํด ์ํ์ ์ผ๋ก ํ์ด๋ด๊ณ , ๊ฒฐ๊ตญ ํ์ต์ ํตํด hallucination issue๋ฅผ ์ํํ ์ ์๋ค๋ ๊ฒฐ๋ก ์ผ๋ก ๋์ถํ ์ ์ด ๋ ผ๋ฆฌ์ ์ด๊ณ ๋๋ํ๋ค. | 3.8 |
| 3์ | Gradient๋ฅผ ํ์ฉํ LLM ํด์์ ํ๊ณ๋ ์ด๋๊น์ง์ผ๊น? ์ด ๋ ผ๋ฌธ์์๋ ๋จ์ํ symbolic ์์ค์ ์ง์์ ํ๊ฐํ๋๋ฐ, ์ข ๋ ๋์ ๋ฒ์์ ์ง์์ด ์ฃผ์ด์ง ๋ ์ธ๊ณผ์ถ๋ก ์ ํจ๊ณผ๋ฅผ gradient๋ฅผ ํตํด ์ ์ฆํด๋ณผ ์ ์์๊น? | 4.2 |
| ์ฌ์ด์์ท | ์ผ๋ฐํ๋ฅ๋ ฅ๊ณผ hallucination์ ๊ทผ๋ณธ์ด ๊ฐ๋ค๋๊ฑด ๊ต์ฅํ ๋ฉ๋๊ฐ๋ฉด์๋ ์๋ก์ด Aha moment์ธ๋ฏ! ๊ทธ๊ฑธ ์ฆ๋ช ํ๋ ค๊ณ ์์ฃผ ๊ฐ๋จํ ํฉ์ฑ ์คํ๋ถํฐ ์ํ์ ์ฆ๋ช ๊น์ง ์ฐ๊ตฌ์ง๋ค์ ๋ฅ๋ ฅ์ด ์๋นํ๋ค | 4.5 |
| ๋ฐฅ | LLM์ด ํ๋ฉด์ ์ธ ๊ฒ์ ์ง์คํจ์ ์ ๋ณด์ฌ์ฃผ๋ ๋ฏํจ. ์ฌ์ค ๊ฐ ์ฐ๊ฒฐ์ ์๋ฏธ ๊ณ ๋ คํด์ ๋ ผ๋ฆฌ์ ์ธ์ง ๊ฒ์ฆํ๊ณ ํ๊ธฐ๋ณด๋ค, ์ผ๋จ ์ฐ๊ฒฐํ๊ณ ๋ณด๋ ๊ฒฝํฅ์ฑ. ๊ทธ๋์ ๊ทธ๊ฒ ์ค์ ์ ์ผ์นํ๋ฉด ์ผ๋ฐํ๊ฐ ๋๋ ๊ฑฐ๊ณ , ๋ถ์ผ์นํ๋ฉด hallucination์ด ๋๋.. ์๋ก์ด ๊ด์ ์ ์๊ฒ ๋๋ค | 4 |
| 6์ | ๊ฐ์ hallucination๊ณผ generalization์ด ๊ฐ์ ์์ธ์ด๋ผ๋.. ์ ์ ์์๋ง์ผ๋ก๋ ์ด๋ป๊ฒ๋ ํจํด์ ์ฐพ์ ์ตํ๋ llm์ ํน์ฑ ์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ตฌ์ฑํ๋ ๊ฒ๊ณผ pre-training์ด ์ค์ํจ์ ๋ค์ ํ๋ฒ ์๋ ค์ค ๋ฏํ๋ค! | 4.3 |
| ํ๋ฆฌ๋ฐ์ด์คํฑ์ค๋ ์ ์ฐ๊ท ๋จน์ด | ์ผ๋จ ์ด๋ ต๋ค. LLM์ด ๋ด๋ถ์ ์ผ๋ก๋ ์ ๋ง ๋ง์ ์ฐ๊ฒฐ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ํ ๋ฐ, ์ด๋ค ์ง์์ด ์ถ๊ฐ๋ ๋ ์ด๋ป๊ฒ ๊ธฐ์กด ์ง์์ ์ฐ๊ฒฐํ ์ง ์ฐพ๋ ๋ฐฉ๋ฒ์ด ์ผ๋ฐํ์ hallucination ๊ด์ ์์ ๋์ผํ ๊ฒ์ผ๊น? ๋ผ๊ณ ์๊ฐํ๋ฉด ๋จ์ํ๊ฒ ๋๊ปด์ง๋๋ฐ, ๋ง์ ๊ฒ์ฆํ๋ ค๊ณ ๋ณด๋ฉด ์ด๋ ต๋ค๊ณ ์๊ฐํจ. Attention ๊ด์ ์์ ์ด๋ฅผ ํ์ด๋ณธ ๊ฒ์ ์ข์ ๊ฒ ๊ฐ์. Transformer๊ฐ ์ธ์ ๊น์ง ๊ฐ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง, ํญ์ ๊ทธ ์์ฒด์ ํน์ฑ์ ์ดํดํ๊ณ ํ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ์๊ฐ์ด ๋ค์์. | 4.5 |
| ๊ณ ๋ถ | ์ผ๋ฐํ์ hallucination์ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ณธ๊ฒ ์๋ก์ด ๊ด์ ์ธ๊ฒ ๊ฐ์. ๋ชจ๋ธ์ out of context์์๋ ๊ทธ๋ด๋ฏํ ์ผ๋ฐ ํจํด์ ํํ ํ ๋ฐ, ์ด๊ฒ์ด ์ผ๋ฐํ๋ฅผ ์ฌ๋ฆฌ๋ฉด์ ํ๊ฐ ๊ฐ๋ฅ์ฑ๋ ์ฌ๋ฆฐ๋ค. ํ๊ฐ์ ๋ฌด์์ ์ต๋๋ฅด๊ธฐ๋ณด๋ค ์ต์ํ์ผ๋ก ํ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ํด์น์ง ์๊ฒ๋ ํด์ผํ ๋ฏ ์ถ๋ค | 4.2 |
| ์์ธ์ด | ์ผ๋ฐํ์ Hallucination์ด ๊ฐ์ ์์ธ์ด๋ผ๋๊ฒ ์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ธ ๋ฐ๊ฒฌ์ธ ๋ฏํ๋ค. ๊ทธ๋ผ Hallucinatio์ ํด๊ฒฐํ๋ ๊ณผ์ ์์ ์ผ๋ฐํ๋ฅผ ํด์น๊ฑฐ๋, ๋ฐ๋๋ก ์ผ๋ฐํ ๊ณผ์ ์ค ํ๊ฐ์ด ์ผ์ด๋๋ ๋ถ๋ถ์ ๋ํ ๋์ฑ ์ด ํํธ์ผ๋ก๋ ํ์ํ ๋ฏํ๋ค. | 4.7 |
TL; DR
๐ก
Generalization์ด๋ Hallucination์ด๋ ๋ชจ๋ ๋ค Out-of-Context Reasoning์ ํ์์ด๊ณ , ์ด๋ Output ํ๋ ฌ๊ณผ Value ํ๋ ฌ์ด ๋ถ๋ฆฌ๋์ด์์ด ํ์ต๊ฐ๋ฅํ๋ค!
- Output ํ๋ ฌ: Attention(K, Q, V) ์ดํ FFN์ ๋ค์ด๊ฐ๊ธฐ ์ ๊ณฑํด์ฃผ๋ ํ๋ ฌ(์ฐจ์์ ๋ง์ถ๊ฑฐ๋, multi-head attention์์ head๊ฐ ์ ๋ณด ์ถํฉ)
Summary
Motivation
Example
- Generalizablity
- Training: ์จ๋ฆฌ์ค๋ ํ๋์ค์ ์ฐ๋ค, ์จ๋ฆฌ์ค๋ ํ๋์ค์ด๋ฅผ ํ๋ค. ๋ผ์ธ์ ํ๋์ค์ ํ๋ค.
- Test: ๋ผ์ธ์ด ์ฐ๋ ์ธ์ด๋? โ ํ๋์ค์ด โ
- Hallucination
- Training: ์จ๋ฆฌ์ค๋ ํ๋์ค์ ์ฐ๋ค, ์จ๋ฆฌ์ค๋ ์๋ฐ๋ฅผ ์ฝ๋ฉํ๋ค. ๋ผ์ธ์ ํ๋์ค์ ํ๋ค.
- Test: ๋ผ์ธ์ด ์ฐ๋ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋? โ ์๋ฐโ
- Training์์ ๋ผ์ธ์ ํ๋์ค์์ ์ฌ๋๊ฒ๋ง ์๋๋ฐ, ์ด๋ค ์ธ์ด๋ฅผ ์ฐ๊ณ ์ด๋ค ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ฅผ ์ฐ๋์ง ์ ์ ์๋๊ฐ?
- Generalizablity
- Research Question: Does generalization and hallucination on newly-injected factual knowledge arise from the same underlying mechanism?
- LLM์ด ์ง์์ ๋ฐฐ์ฐ๋ฉด ์ผ๋ฐํ๋ ์ ํ๋๋ฐ, ํ๊ฐ ํ์๋ ๋ถ๋ช ํ ์กด์ฌํจ
- ์ด ๋์ด ๋ค๋ฅธ ์์ธ์ผ๊น? ์๋๋ฉด ๊ฐ์ ์์ธ์ธ๊ฐ?
๐ก
Generalizablity์ Hallucination์ ๊ฐ์ textual implication(entailment)๋ก ๋ด!!
Contribution
- LLM(์ ํํ๋ attention mechanism)์ ์ผ๋ฐํ(์์ฐ์ด ์ถ๋ก ) ๋ฅ๋ ฅ๊ณผ, hallucination์ ๊ทผ๋ณธ์ ์ธ ์์ธ์ ๊ฐ๋ค๋ ๊ฒ์ ๋ณด์ด๊ณ , ์ํ์ ์ผ๋ก ์ ๋ํจ
- Single layer, Single head attention transformer๋ ์ด๋ฌํ Out of context reasoning์ ์ํํจ
๋จ, Outputํ๋ ฌ(K dot Q)์ Valueํ๋ ฌ์ด ๋ถ๋ฆฌ๋์ด์์ด์ผ ํจ
- Single layer, Single head attention transformer๋ ์ด๋ฌํ Out of context reasoning์ ์ํํจ
Out of Context Reasoning (OCR) in LLM
Implication
An underlying rule ๏ปฟ means that any
subject ๏ปฟ having relation ๏ปฟ with ๏ปฟ also has relation ๏ปฟ with ๏ปฟ. For example, ๏ปฟ means โpeople live in Paris speak Frenchโ.- ๏ปฟ: Fact, ๏ปฟ: Implication
ํฉ์ฑ๋ฐ์ดํฐ ๊ตฌ์ฑ
- ๊ฐ์์ ์ด๋ฆ ๋ชฉ๋ก์ผ๋ก ์งํฉ ๊ตฌ์ฑ ๏ปฟ
- ๊ฐ์์ ์ด๋ฆ์ ๋ํ 5๊ฐ์ง fact ๏ปฟ๊ณผ, 5๊ฐ์ง implication ๏ปฟ ๋ฅผ ์ง์ง์
- ๋์-์ธ์ด, ๋์-์ธ์ด(CounterFactual), ๊ตญ๊ฐ-์ฝ๋, ์ง์
-์๊น, ์คํฌ์ธ -์์
- ๋์-์ธ์ด๋ pre-training์ ํตํด ํ์ต๋์์ ๊ฐ๋ฅ์ฑ์ด ๋์
- CounterFactual ์์ ๋์์ ์ฌ๋ฐ๋ฅด์ง ์์ ์ธ์ด ๋งคํ
- e.g. ํ๋ฆฌ-์ผ๋ณธ์ด
- ๋์-์ธ์ด, ๋์-์ธ์ด(CounterFactual), ๊ตญ๊ฐ-์ฝ๋, ์ง์
-์๊น, ์คํฌ์ธ -์์
- ๏ปฟ๋ฅผ 5๊ฐ์ง ํ์์งํฉ์ผ๋ก ๋๋์ด ๊ฐ fact-implication์ ๋ถํ ํจ
- e.g. ๏ปฟ : ๊ตญ๊ฐ-์ฝ๋
- ํฉ์ฑ ๋ฐ์ดํฐ์ 20%๋ง ํ์ต์ํค๊ณ , 80%๋ก ํ ์คํธ (๏ปฟ๊ธฐ์ค 20%)
- ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ LLM์๊ฒ ์ง์ ์ฃผ์
ํ ์ผ๋ฐํ์ ํ๊ฐ ์ธก์
- LLMs: Gemma-2-9B, OLMo-7B, Qwen-2-7B, Mistral-7B-v0.3, Llama-3-8B
- Metric: mean rank(์ ๋ต implication์ ํ๊ท ์์, ๋ฎ์์๋ก ์ข์)
- ์คํ ๊ฒฐ๊ณผ
- ์ธ๊ณผ์ ์ผ๋ก ๋ง๋ ํจ์์ ๋ํด์ ์ผ๋ฐํ๋ฅผ ์ ํ์ง๋ง, ์ธ๊ณผ๊ฐ๋ ์ด ์๋ ๊ฒ๋ค๋ ์ฐ๊ฒฐํ๋๋ก ํ์ต๋จ
- ๋งค์ฐ ์ ์ ๋ฐ์ดํฐ๋ก๋ ํ์ต๋จ(ํ fact-implication์ ๋ํด 4๊ฐ์ ๋ฐ์ดํฐ๋ก๋ ํ์ต๋จ)
- ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ ๊ฐ๋ ฅํ ๊ฑด pre-training data์ ๋น์ทํ๊ธฐ ๋๋ฌธ
One-Layer Attention-Only Transformers can Do Symbolic OCR
- ์์์ ์์ฑํ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์์ฃผ ๊ฐ๋จํ ํํ์ transformer์์ ์คํ
- ๋ชจ๋ธ์ ์ฝ๊ฒ ๋งํด ๏ปฟ๋ก ํ์ตํด test ๏ปฟ์ ๋ํด ๏ปฟ๊ฐ ์ฃผ์ด์ก์ ๋ ๏ปฟ์์ธก
- ์ฌ๊ธฐ์ ๊ฐ ํ ํฐ๋ค(๏ปฟ)์ one-hot vector๋ก ์๋ฒ ๋ฉ ๋จ
- ์๋ฒ ๋ฉ๋ input์๏ปฟ ๋ก ๋ํ๋
- Output, Value๊ฐ ๋ถ๋ฆฌ๋ ๊ฐ๋จํ ํํ์ transformer์์ ์ถ๋ ฅ๋ฒกํฐ๋ ์๋์ ๊ฐ์
- ๋ถ๋ฆฌ ๋ชจ๋ธ: ๏ปฟ
- Output, Value๊ฐ ํฉ์ณ์ง ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ด ์ถ๋ ฅํจ
- ๋น๋ถ๋ฆฌ ๋ชจ๋ธ: ๏ปฟ
- next token prediction ํ๋ฅ ์ ์ฐ๋ฆฌ๊ฐ ์ตํ ์๋ ์์ผ๋ก ๋ํ๋ด๊ณ
- ๏ปฟ
- ํ์ต ์์ค๊ณผ ํ๋ จ ์์ค์ ๋ค์๊ณผ ๊ฐ์
- ๏ปฟ
- ๏ปฟ
- Figure 2 ์ผ์ชฝ์์ ์ฒ๋ผ test-implication์์ ๋ถํด ๋ชจ๋ธ์ ์ ์ฌํ ๊ฐ์ค์น ํจํด์ ๋ณด์ด์ง๋ง, ๋น๋ถํด ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์๊ธฐ๋ง ํ ์ ์์
- ๊ทธ๋์ ์ค๋ฅธ์ชฝ ์ฒ๋ผ ๋ถํด ๋ชจ๋ธ์ ๏ปฟ์ ๋ํด ์ด๋ฏธ ๏ปฟ์ ๏ปฟ(์ด๊ฑด ํ์ตํ ์ ์์ง๋ง ๋ค๋ฅธ ๏ปฟ์ด ๊ทธ๋ฌ์ผ๋๊น~)์ ๋ํด ๊ฐ์ค์น๋ฅผ ๋๊ณ ์์
Theoretical Results
- ~~ ์ํ์ ์ฆ๋ช ~~
- ๋ถํด ๋ชจ๋ธ์ Nuclear Norm์ ์ต์ํํ๋ ํด๋ฅผ ์ฐพ๊ณ , ๊ทธ๊ฑธ ํ๋ ค๋ฉด test data์ ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ์ฑ์ฐ๋๊ฒ ์๋๋ผ ๋ค๋ฅธ ๋ฐ์ดํฐ์์ ์ฐ๊ด์ฑ์ ํตํด ๊ฐ์ ์ฑ์๋ฃ๋ low-rank ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒ ๋จ
- ๋น๋ถํด ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ Frobenius norm์ ์ต์ํํ๊ธฐ ๋๋ฌธ์ ๋ณด์ง ๋ชปํ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ค์น๋ฅผ 0์ผ๋ก ๋ฃ์
- ๋, SVM ๊ด์ ์์ ๋ดค์ ๋ ๋น๋ถํด ๋ชจ๋ธ์ ์๋ก์ด ์ง์์ ๋ํ ๋ง์ง์ด 0์ด ๋๋๋ฐ, ๋ถํด ๋ชจ๋ธ์ ์์์ ๋ง์ง์ ๊ฐ์ง์ ์ฆ๋ช ํจ








