Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
๐กGeneralization์ด๋ Hallucination์ด๋ ๋ชจ๋ ๋ค Out-of-Context Reasoning์ ํ์์ด๊ณ , ์ด๋ Output ํ๋ ฌ๊ณผ Value ํ๋ ฌ์ด ๋ถ๋ฆฌ๋์ด์์ด ํ์ต๊ฐ๋ฅํ๋ค!
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
๐กLLM ์์๋ ์ด ์ํฐํฐ๋ฅผ LLM์ด ์๋์ง/๋ชจ๋ฅด๋์ง๋ฅผ ํ์ํ๋ latent ๋ฐฉํฅ์ด ์ค์ ๋ก ์กด์ฌ์ด latent ๋ฐฉํฅ์ ์กฐ์(steering) ํ๋ฉด,์๋๋ ๋ชจ๋ฅธ๋ค๊ณ ๋งํ๋ ์ง๋ฌธ(๋ต๋ณ ๊ฑฐ๋ถ)์ ๋ํด ํ ๋ฃจ์๋ค์ด์ ์ ์ํค๊ฑฐ๋,์๋ ์ ์๋ ์ํฐํฐ์ ๋ํด์๋ ๋ต๋ณ์ ๊ฑฐ๋ถํ๊ฒ ๋ง๋ค ์ ์์
On the Role of Attention Heads in Large Language Model Safety
๐กLLM ์์ ์ฑ์ ์ฌ์ค ์์์ attention head ์ ์ง์ค๋์ด ์์ด์, ๊ทธ head๋ค๋ง ์ด์ง ๊บผ๋ ๐จ ์์ ์ฑ์ด ๋ฐ๋ก ๋ฌด๋์ง๋ค๋ ๊ฑธ ๋ฐํ ๐ ShipsยทSahara๋ก ์ด๋ค head๊ฐ ์ง์ง safety ๋ด๋น์ธ์ง ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ์ ์ ์ํจ โ๏ธ๐ฅ