Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฐฐ๋ | motivation์ด ์ต๊ทผ ๊ด์ฌ ์๋ ๋ฐฉํฅ๊ณผ ๋๋ฌด ๊ด๋ จ์ด ๊น์ด์ ์ข์์. ํ์ง๋ง, ์์ฆ ๋๋ ์๊ฐ์ด LLM์ด ์ ๋ง ์ฌ๋๊ณผ ๋๊ฐ์ด ์๊ฐํด์ผํ ๊น? ๋ผ๋ ๊ฒ์ธ๋ฐ, ๊ทธ๋ฐ ์ธก๋ฉด์์๋ ์กฐ๊ธ ์์ฌ์ ์. ์ ์ฌํ์ง๋ ์ฌ์ค ์ ๋ชจ๋ฅด๊ฒ ๊ณ , ์ ์ฌํด์ผํ ๊น? ๋ผ๋ ์๊ฐ๋ ๋ฆ. ๋ฐฉ๋ฒ๋ก ์์ฒด๋ ๋ค๋ฅธ ๋ถ์ผ์์ ๋ง์ด ์ฐ๋, ์ถ๋ ฅ์ด ์๋ ๋ด๋ถ๋ฅผ ์ง์ ๋ณด๋ ์์ด๋์ด๋ผ์ ํน๋ณํ๋ค๊ณ ๋ ์๊ฐ๋์ง ์์. ๊ฐ์ธ์ ์ผ๋ก๋ ์ฉ๋์ฌ๋ฏธ๋ก ๋๊ปด์ง ๋ ผ๋ฌธ.. | 4.2 |
| ์์ฌ๋น๊ฝ๊ฒ๋ | LLM์ด ์์ ์ ๋ด๋ถ activation์ ์ผ์ ์์ค์์ ๋ชจ๋ํฐ๋งํ๊ณ ์กฐ์ ํ ์ ์๋ค๋ ์ ์ ์ ๋ณด์ฌ์ฃผ๋ ๋ฏ. ํ์ง๋ง ์ด๋ฐ '๋ฉํ์ธ์ง ๋ฅ๋ ฅ'์ด๋ผ๋ ๊ฒ์ ์์์ ์ธ ๋ฅ๋ ฅ์ด๋ผ๊ธฐ๋ณด๋ค ์ฌ์ค์ ํ์ต ๊ณผ์ ์์ ํ์ฑ๋ ํต๊ณ์ ๊ฒฐ๊ณผ? ์ธ๊ฒ๊ฐ๊ธฐ๋ ํจ. ๋ง ๋ถ์ด๊ธฐ ๋๋ฆ์ธ๊ฒ ๊ฐ๋ค. | 3.8 |
| ๋ฉ๊ฐ์ปคํผ | motivation์์ โLLM์ด ์์ ์ ๋ต์ด ์ด๋ค ๊ณผ์ ์ผ๋ก ๋์ถ๋๋์ง ๊ณผ์ ์ ์ ์ํด ์ฃผ์ง๋ง, ์ด๋ค ๊ฒฝ์ฐ ์ค์ ๋ก ์ฌ์ฉ๋ ๊ณผ์ ์ด ์๋ ๋ค๋ฅธ ๊ฒ์ ์ง์ด๋ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง์โ ์ด ๋ถ๋ถ์ด ํฅ๋ฏธ๋ก์ ์ผ๋, Contribution์ด๋ผ ํ ๋งํ๊ฒ ๋ฑํ ์๋ ๊ฒ ๊ฐ๋ค. | 3.7 |
| ์๋ฆฌ๊ดด๋ฌผ | ๊ธฐ์กด layer-wise probing๋ค์ ๋จ์ํ ๊ฐ ๋ ์ด์ด์ ํํ๋ ฅ ์ฐจ์ด๋ฅผ ๋ถ์ํ๋๋ฐ, ์ด๊ฑด ๋ชจ๋ธ ์ค์ค๋ก๊ฐ ๊ทธ๊ฑธ ์ธ์ํ๊ณ ์กฐ์ ํ ์ ์๋ ์ง ํ์ ํ๋ ๊ด์ ์ด ์ ์ ํ๋ค. ํนํ ๋ฉํ์ธ์ง ๊ณต๊ฐ์ ์๋ฏธ ๋ถํฌ์ ๋ถ์ฐ ๋ถํฌ๋ก ๋๋์ด์ ์คํํ๊ฒ ์ธ์ง ๊ณผ์ ์ ์ ๋๋ก ๋ฐ์ํ๊ฑฐ๊ฐ์ | 4.4 |
| ์์ฐ๊นก | ์ฌ์ฉ์/๊ฐ๋ฐ์๊ฐ LLM์๊ฒ ๊ธฐ๋ํ๋ ๋ฉํ์ธ์ง๊ฐ 1์ฐจ๊ณผ์ ์ผ ์ ์๋ค๋ ์๊ฐ์ ๋ชปํด๋ดค๋๋ฐ, ๋ ผ๋ฌธ์ ์ค๋ช ๋๋ก ์ถ๋ก ๊ณผ์ ๋ชจ๋ํฐ๋งํ๊ธฐ ์ํจ์ด๋ผ๋ฉด ๋ฉ๋์ด ๊ฐ๋ค. ๊ทธ๋ฐ๋ฐ ์คํ์ด ์ด๊ฒ๊ณผ ์ง์ ๊ด๋ จ์๋์ง ํท๊ฐ๋ฆฐ๋ค. ์ธ์๋ ํ๋กฌํํธ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ณ ์๋ ๊ฑธ ์ ์์ง ์๋..? | 3.7 |
| ์์ฑ์ฌ | ๋ชจ๋ธ์ ๋ฉํ์ธ์ง๋ ์ ๋ง ํฅ๋ฏธ๋ก์ด ์ฃผ์ ์ธ๋ฐ, ์คํ task๊ฐ ๋ฉํ์ธ์ง๊ฐ ์ค์ํ ์์ญ๊ณผ๋ ๋๋จ์ด์ ธ ์๋ค๋ ๋๋์ ๋ฐ์ต๋๋ค. ๋ด๋ถ ์ง์์ด ์๋ ํน์ ๋ฐฉํฅ์ ๋ถ๋ฅ/์์ฑ ์ ํ๊ฒํ ํ๊ณ ์งํํ ์ ์ ๋ฉํ์ธ์ง vector๊ฐ ์กด์ฌํ๋ ๊ฒ์ ๋ณด์ด๊ธฐ์๋ ์ข์ผ๋, ๋ฉํ์ธ์ง ์ฌ๋ถ๋ฅผ ์๋๊ฒ ์ค์ํ task์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๋ณด๋ฅ์ ๋๋ค. | 3.3 |
| ์คํ๋ฒ ์ค | ๋ฉํ์ธ์ง๋ฅผ ๊ฐ์ง๋ ๊ฒ๊ณผ ์ด๋ฅผ ์ค๋ช ํ๋ vector ์ฌ์ด์ ๊ด๊ณ๊ฐ ๋ชจํธํ ์ ์ด ์์. AI SAFETY ๊ด์ ์์๋ ์ค์ํด ๋ณด์ด๋ ์คํ์ด ์ฒด๊ณ์ฑ์ด ๋จ์ด์ง๋ ๋ถ๋ถ์ ์๋ ๊ฒ ๊ฐ์. | 3.5 |
| ๊ณ ๊ตฌ๋ง๋ง๋๋ฆฌ | motivation ์ฝ์ ๋๊น์ง๋ง ํด๋, '๋ฉํ'์ธ์ง๋๊น LLM ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ์ง์คํ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ์ง ์์๊น(๊ตณ์ด ๋ด๋ถ๊น์ง ๋ด์ผํ๋) ์๊ฐํ๋๋ฐ, ์ค์ ๋ฉํ์ธ์ง space๊ฐ ์๋ค๋ ์ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์กฐ์ ๊ฐ๋ฅํ๋ค๋ ์ ์ด LLM์ ์งํฅ ๋ฐฉํฅ์ ๋ถํฉํ๋ค๋ ๊นจ๋ณ์(?)์ ์ป์๋ค. ์ญ์ ํด๋ณด๊ธฐ ์ ๊น์ง ๋ชฐ๋ผ! ๋ฏฟ์๋งํ self-evaluation๋ ๊ณง ๊ฐ๋ฅํด์ง๊ฒ ๋ค์ฉ | 4.5 |
TL; DR
LLM์ด ์์ ์ ๋ชจ๋ธ ๋ด๋ถ์์ ์ผ์ด๋๋ ์ํ๋ฅผ ์ผ๋ง๋ ์ธ์, ํ๊ฐ, ์กฐ์ ํ ์ ์๋์ง๋ฅผ โNeurofeedbackโ (๋ชจ๋ธ์ ๋ด๋ถ ๋ ์ด์ด, ๋ฒกํฐ ์กฐ์ ๋ฐ ํ์ฑํ ์ ๋ ์ธก์ )๋ฐฉ์์ผ๋ก ์ธก์ ํ์๊ณ , ๊ทธ ๋ฅ๋ ฅ์ด ์ ํ์ ์์ ๋ณด์
Summary
Motivation
- LLM์ด ์์ ์ ๋ต์ด ์ด๋ค ๊ณผ์ ์ผ๋ก ๋์ถ๋๋์ง ๊ณผ์ ์ ์ ์ํด ์ฃผ์ง๋ง, ์ด๋ค ๊ฒฝ์ฐ ์ค์ ๋ก ์ฌ์ฉ๋ ๊ณผ์ ์ด ์๋ ๋ค๋ฅธ ๊ฒ์ ์ง์ด๋ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง์
- ์์
- ๋ฃจํธ ๊ณฑ์ ๋ฌธ์ floor(5*(sqrt(0.64)))๋ฅผ Claude 3.5๋ก ํ์์ ๋, ์ค๊ฐ ๊ณ์ฐ ๊ณผ์ ๊ณผ ๋ชจ๋ธ์ ๋ด๋ถ ๋ ์ด์ด ํ์ฑํ์ ์ผ์นํจ
- ๊ทธ๋ฌ๋, ๋ง์ ๋ฌธ์ 36+59์์๋ ์ ๋ต์ 95๋ก ์ ํํ๊ฒ ๋์ถํ์์ผ๋, ๋ด๋ถ ๊ณ์ฐ ๊ณผ์ ์ โsum-near-92โ์ ๊ฐ์ด ์ค๋ช ํจ(๋ชจ๋ธ์์๋ ์ด ๊ณ์ฐ ๋ถ๋ถ์ ๋ ์ด์ด๋ ๋ฒกํฐ๋ ํ์ฑํ๋์ง๋ ์์๊ณ ๊ณ์ฐ ๊ณผ์ ์ ์ง์ด๋์์ ๋ณด์ฌ์ค) โ hallucinated intermediate steps
- LLM์ โ๋ฉํ ์ธ์งโ๊ฐ ์ ํ์ ์ด๊ณ ๋ถ์์
- ์์
- LLM์ ๋ด๋ถ ์ค๋ช
๋ฅ๋ ฅ์ ์ธ๊ฐ์ โ๋ฉํ ์ธ์งโ์ ์ ์ฌ
- ์ธ๊ฐ์ ๊ฒฝ์ฐ ๋ด๋ถ ์ธ์ง ๊ณผ์ ์ ๋ชจ๋ ์ค๋ช
ํ ์ ์์
- ์: ๋๊ตฐ๊ฐ์๊ฒ โhelloโ๋ฅผ ๋งํ๋ ๊ฒฝ์ฐ ์๋ฆฌ ์ ํธ ์ฒ๋ฆฌโ์ธ์ด์ ์์ ๊ตฌ๋ถโ๋จ์ด ์๋ฏธ ํด์โ ๋ฌธ์ฅ ์ดํด ์์๋ก ์ฒ๋ฆฌ๊ฐ ์งํ๋์ง๋ง, ์์์ ์ผ๋ก ๋๋ผ์ง ๋ชปํจ
- ๊ทธ๋ฌ๋ โ๋ด๊ฐ hello๋ผ๊ณ ์ดํดํ์ดโ๋ผ๊ณ ๋๋์๋ณด๊ณ , ๋ณด๊ณ ํ ์๋ ์์
- LLM์ ๊ฒฝ์ฐ์๋ ์ผ๋ถ์ ๋ํด์๋ง ๋ฉํ์ธ์ง๊ฐ ๊ฐ๋ฅํจ์ ์ ์ ์์
- 1์ฐจ ๊ณผ์ : ๊ณผ์ ๋ฅผ ์ค์ ๋ก ํด๊ฒฐํ๋ ๊ณผ์
- 2์ฐจ ๊ณผ์ : ๊ทธ ๊ณผ์ ์ ๋๋์๋ณด๊ณ , ๋ณด๊ณ ํ๋ ๊ณผ์
โ LLM์๋ ๋ฉํ์ธ์ง ๋ฅ๋ ฅ์ด ์๋ค๋ฉด ๋ณต์กํ ๊ณผ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ , hallucination์ ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ ๊ฐ๋ฅ
- ๊ทธ๋ฌ๋ LLM์ ๋ํ ์ํ์ฑ ์ฆ๊ฐ ๊ฐ๋ฅ
- ๋ด๋ถ ์ ํธ๋ฅผ ๋ชจ๋ํฐ๋งํ๊ณ , ์กฐ์ ํ ์ ์๋ค๋ฉด ์ธ๋ถ์์ ๊ฑฐ์ง๋ง, ์ํํ ์ถ๋ ฅ์ ๊ฐ์ํ๋ ค ํ ๋, ๋ชจ๋ธ์ ํ์ฑํ ์ ํธ๋ฅผ LLM ์ค์ค๋ก ์๋์ ์ผ๋ก ๋ณํ์ํฌ ์ ์์
- ์ธ๊ฐ์ ๊ฒฝ์ฐ ๋ด๋ถ ์ธ์ง ๊ณผ์ ์ ๋ชจ๋ ์ค๋ช
ํ ์ ์์
- ๋ฉํ์ธ์ง๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ๊ฒฉ์ฐจ(Methodological Gap)์ด ์กด์ฌ
- ์ง๊ธ๊น์ง์ ์ฐ๊ตฌ ๋๋ถ๋ถ์ด LLM ๋ชจ๋ธ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ์๋ง ์ง์ค
- ๋ด๋ถ ๋ ์ด์ด(๋ด๋ฐ), ๋ฒกํฐ๊ฐ ์ด๋ป๊ฒ ๋ณํ๋์ง ์ง์ ์ธก์ ํ์ง ์์
- ๊ฒ์ผ๋ก ๋๋ฌ๋ ํ ์คํธ๋ง ๊ด์ฐฐ
Contribution
- LLM ๋ด๋ถ์ ํ์ฑํ ๋ฐฉํฅ์ LLM์ด ์ด๋ ์ ๋ ๋ณด๊ณ ํ๊ณ ์กฐ์ ํ ์ ์์์ ๋ฐํ
- Context๋ด์ ์์ ์
- ์๋ฏธ์ ํด์ ๊ฐ๋ฅ์ฑ(์: ๊ธ์ ์ฑ, ์ ํ์ฑ ๋ฑ ์ดํดํ๊ธฐ ์ฌ์ด ๋ฐฉํฅ์ผ์๋ก)
- ๊ทธ ๋ฐฉํฅ์ด ์ค๋ช ํ๋ ํฌ๊ธฐ
- ๋งฅ๋ฝ(์: ํ๋กฌํํธ, ์ํฉ์ ๋ฐ๋ฅธ ์ํฅ)
- LLM ๋ด๋ถ์๋ ์ ์ฒด Neural space๋ณด๋ค ํจ์ฌ ์์ ๋ฉํ์ธ์ง space๊ฐ ์กด์ฌํจ์ ๋ฐํ
Method
Neurofeedback Paradigm
- ๋๊ณผํ์์์ Neurofeedback
- ์ฌ๋์ด ์ด๋ค ์๊ทน์ ๋ด(์: ๋ฌด์์ด ์ฌ์ง)
- ์ ๊ฒฝ ํ๋ ์ ํธ๋ฅผ ์ซ์๋ก ํํ(์: fear score)
- Feedback์ผ๋ก ์ซ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์ด ์ ์๋ฅผ ์ค์ค๋ก ์กฐ์ ํ๋๋ก ๋ ธ๋ ฅํ๊ฒ ํจ(์: ๋ฎ์ถ๋๋ก)
- LLM Neurofeedback
- LLM์ด ๋ฌธ์ฅ์ ์
๋ ฅ๋ฐ์ผ๋ฉด hidden state๊ฐ ์์ฑ
- ์ ๋ ฅ ๋ฌธ์ฅ ์ฒ๋ฆฌ
- hidden state ์ถ์ถ
- Token ์ ์ฒด์ ํ๊ท ์ ๋
- Predefined(์ฌ์ ์ ์ ์๋) ๋ฐฉํฅ์ผ๋ก Projection(ํฌ์)
- ๊ทธ ๊ฐ์ ๊ตฌ๊ฐ์ ๋ฐ๋ผ label ๊ฐ์ผ๋ก ๋ณํ
- ๊ทธ label์ ๋ค์ ๋ชจ๋ธ์ ํผ๋๋ฐฑ์ผ๋ก ์ค
- ์ธ๊ฐ ์คํ์ ์ ์ ํผ๋๋ฐฑ์ ๋ชจ๋ธ์์์ ๋ผ๋ฒจ ํผ๋๋ฐฑ์ผ๋ก ๋์
- LLM์ด ๋ฌธ์ฅ์ ์
๋ ฅ๋ฐ์ผ๋ฉด hidden state๊ฐ ์์ฑ
- LLM์๊ฒ ์ํํ๊ฒ ํ๋ ๊ณผ์
- Reporting: ๋ฌธ์ฅ์ ์ฃผ๋ฉด ๋์ํ๋ ๋ผ๋ฒจ์ ์์ธกํ๋ผ(๋ถ๋ฅ ๋ฌธ์ ์ ์ ์ฌ)
- Explicit Control Task: ํน์ ๋ผ๋ฒจ์ ๋ง๋ค๋๋ก ๋ฌธ์ฅ์ ์์ฑํ๋ผ(์: ๋ผ๋ฒจ 1์ด ๋์ค๋ ๋ฌธ์ฅ์ ์์ ํ๋ผ)
- Implicit Control Task: ๋ฌธ์ฅ์ด ์ด๋ฏธ ์ฃผ์ด์ ธ ์๊ณ , ๋ฌธ์ฅ์ ๋ฐ๊พธ๊ฑฐ๋ ์ฐ์์ผ๋ก ์์ฑํ๋ฉฐ label์ ๋ชฉํ๊ฐ์ผ๋ก ์ด๋์์ผ๋ผ(๋ชฉํ ๋ผ๋ฒจ ๋ฐฉํฅ์ผ๋ก ๋ด๋ถ ํํ์ ์กฐ์ ํ์ฌ ์ด๋)
Neurofeedback for LLMs
- ์ธ์ง์ ๋ ๊ฐ์ง ๊ณผ์
- 1์ฐจ ๊ณผ์ : ์ค์ ๋ก ๊ณผ์ ๋ฅผ ์ํํ๋ ๋ด์ฉ์ ์ธ์งํ๋ ๊ฒ(LLM์ด Representation์ ํ์ฑํ๋ ๊ฒ)
- 2์ฐจ ๊ณผ์ : ๋ฉํ์ธ์ง ๊ณผ์ (1์ฐจ ๊ณผ์ ์ ๊ฐ์, ๋ณด๊ณ , ์กฐ์ ํ ์ ์๋ ๊ณผ์ )
- Neurofeedback ํจ๋ฌ๋ค์์ผ๋ก ์ด ๋์ ๋ถ๋ฆฌํ์ฌ ๊ด์ฐฐ
- In-Context-Learning(ICL) ์ฌ์ฉ
- Fine-Tune์ด๋ Gradient ์ ๋ฐ์ดํธ๋ฅผ ํ์ง ์๊ณ , Prompt์์ ์์๋ฅผ ๋ฃ์ด ์ ์ฐจ ๋ณํ๊ฐ ์ผ์ด๋๋๋ก ์ ๋
- ํ๋กฌํํธ ๊ตฌ์ฑ ๋ฐฉ์
- N๊ฐ์ ์์๊ฐ ์กด์ฌ
- ๋ฌธ์ฅ-๋ผ๋ฒจ ์์ผ๋ก ๊ตฌ์ฑ๋๊ณ , ๋ฌธ์ฅ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์์ ๋๋ค ์ํ๋ง
Defining Neurofeedback Labels
- Target Axis๋ฅผ ๊ณ ๋ฆ
- ๊ฐ ๋ฌธ์ฅ์ LLM ๋ด๋ถ์์ ํ์ฑํ ๋ฒกํฐ๊ฐ ์์ฑ๋๋๋ก ํจ
- ์ด ๋ฒกํฐ space์์์ ํน์ ๋ฐฉํฅ ๋ฒกํฐ๋ฅผ ์ ํํ๋ฉด target axis๊ฐ ๋จ
(์: ๋๋์ฑ, ๊ฐ์ ๋ฐฉํฅ, ์ง์ค์ฑ ๋ฐฉํฅ ๋ฑ ๋ฐ์ํ๋ ค๋ ์๋ฏธ์ ํน์ง์ ๋ฐ๋ผ ๋ค๋ฆ)
๋ฌธ์ฅ์์ ๋ด๋ถ ํ์ฑํ ๋ฒกํฐ ์ถ์ถ ๊ณผ์
- ๋ฌธ์ฅ์ด ์
๋ ฅ๋๋ฉด, ํ์ฑํ ๋ฒกํฐ(hidden state) ์ถ์ถ
i: ๋ฌธ์ฅ ๋ฒํธ, t: ํ ํฐ ๋ฒํธ, l: ๋ ์ด์ด ๋ฒํธ
- Target Axis์ Projection
Target Axis ๋ฐฉํฅ(์ด๋ค ๋ถ๋ถ์ ์ค์ ์ ์ผ๋ก ์ ์ ๋งค๊ธธ ๊ฑด์ง)์ ๋ฐ๋ผ ๊ฐํ๊ฒ ํ์ฑํ๋ ์ ๋๋ฅผ ์ค์นผ๋ผ๊ฐ์ผ๋ก ํ์ธ
- ์ ๋ ฅ ๋ฌธ์ฅ x์ ์ถ๋ ฅ y๊ฐ ์์ผ๋ก ๋ง๋ค์ด์ง
- ๋ฌธ์ฅ์ด ์
๋ ฅ๋๋ฉด, ํ์ฑํ ๋ฒกํฐ(hidden state) ์ถ์ถ
Choice of Target Axes
- ๋ด๋ถ ํ์ฑํ ๊ณต๊ฐ(space)๋ ๊ณ ์ฐจ์ ๋ฒกํฐ ๊ณต๊ฐ
- ํน์ ๋ฐฉํฅ(axis)์ ์ ํ๋ฉด ๊ทธ ์ถ ๋ฐฉํฅ์ผ๋ก projection๋ ๊ฐ์ด ์ด๋ค task ๊ด๋ จ feature ๊ฐ์ผ๋ก ํด์
- ์ถ(axis)์ ์ ๊ณ ๋ฅด๋ ๊ฒ์ด ์ค์ํจ
- LR axis vs PC axis
- Logistic Regression (LR) axis
๊ฐ๊ฐ์ ๋ ์ด์ด์์ ๋ก์ง์คํฑ ํ๊ท ํ์ต
๋ฐ์ดํฐ label์ ์์ธกํ๋ ๊ฒ์ด ๋ชฉ์ (์: ETHICS ๋ฐ์ดํฐ์์ morality ๋ผ๋ฒจ)
์ ๋ ฅ: ํด๋น ๋ ์ด์ด์ ํ์ฑํ ๋ฒกํฐ
์ถ๋ ฅ: label(์: moral vs immoral)
์ ๋ต/์ค๋ต ์ถ๊ณผ ์ ์ฌํ ๊ฐ๋
LR์ถ์์ ์ ์๋ ๋ผ๋ฒจ์ LLM ๋ด๋ถ์์ ๊ณ์ฐ ๋ฐ ์ ๊ทผ ๊ฐ๋ฅ
- Principal Component (PC) axis
PCA๋ฅผ ๋ ์ด์ด ํ์ฑํ์ ์ ์ฉ
๋ชจ๋ธ์ ์ฃผ๋ ๋ณํ ๋ฐฉํฅ์ด์ง๋ง ์๋ฏธ์ ํน์ง์ ๋ฐ๋์ ๋ฐ์ํ์ง๋ ์์
๊ฐ layer์ ๋ถ์ฐ์ ์ ์ค๋ช ํ๋ ๋ฐฉํฅ์
- Logistic Regression (LR) axis
LLMs can report their neural activations
- (a) PC vs LR์ด ์ผ๋ง๋ ๋ถ์ฐ์ ์ค๋ช
ํ ์ ์๋
- LR์ถ์ ์๋ฏธ์ ์ผ๋ก ๋ถ๋ฅ๋ ์ถ์ธ ๋งํผ ๋ถ์ฐ์ ์ ๊ฒ ์ค๋ช ํจ
- (b) LR axis์ PC axis์ overlap ์ ๋
- ๋์ Overlap์ ๋๋ถ๋ถ ๋ฎ์
- โ์๋ฏธ์ ๋ถ์ฐ์ ๋ณ๊ฐ๋ค!โ
- (c) Reporting ์ฑ๋ฅ ๋น๊ต
- In-context์์ ์์๊ฐ ๋ง์์ง์๋ก ์ฑ๋ฅ ๋์
- LR axis์ label reporting์ด ํจ์ฌ ์๋จ
- PC axis๋ ๊ฝค ์ ๋๋ ํธ์
- ๋ฉํ์ธ์ง Reporting ๋ฅ๋ ฅ์ ๋ ์์ ๋ชจ๋ ์ํฅ์ ๋ฐ์
์ด ๋ ๊ฐ์ง ์์ธ๋ง์ผ๋ก ์ถฉ๋ถํ์ง ์๊ณ ๋ค๋ฅธ ์์ธ๋ ์กด์ฌํ ์ ์์(์: Attention ํจํด, ์ ๋ณด ํ๋ฆ ๊ตฌ์กฐ ๋ฑ)
๋ด๋ถ ์ ๋ณด๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์กด์ฌํด๋ ๊ทธ ์ ๋ถ๋ฅผ Reporting ํ์ง๋ ๋ชปํจ
๊ฒฐ๋ก : ์ ์ฒด ํ์ฑํ ๊ณต๊ฐ์ ๊ณ ์ฐจ์์ด์ง๋ง ๋ง๋ก ๋ณด๊ณ ํ ์ ์๋ ์ถ๋ค์ ์ ํ์ ์ด๊ณ , ์ด์ ๋ฐ๋ผ ๋ฉํ์ธ์ง ๋ฅ๋ ฅ์ ๋ถ๋ถ์ ์ด๊ณ Structured๋จ
โReporting ๊ฐ๋ฅํ Axis๋ ์ ์ฒด์ ์ผ๋ถ์ ๋ถ๊ณผํ๋ค!โ
LLMs can control their neural activations
Control Prompt
- N๊ฐ์ ์์ ๋ฌธ์ฅ์ ๋ํ Feedback label์ด ์ฃผ์ด์ง
- (N+1)๋ฒ์งธ์์ ์์ ๋ผ๋ฒจ์ ํ๋์ ๋ฐ๋ผํ๋๋ก ๋ฌธ์ฅ์ ์์ฑํ๋ผ ์ง์
- ๋ชจ๋ธ์ด ์ ๋ฌธ์ฅ ์์ฑํ์์ ๋, Token activations์ ๋ค์ ์ฝ์ด ํน์ axis๊ฐ ์กฐ์๋์๋์ง ์ฌํ์ธ
Explicit Control
- (a): Label 0์ 1์ ๋ชจ๋ฐฉํ๋ ค๊ณ ํ์์ ๋์ Neural Score๋ถํฌ, (b): In-Context ์์ ๊ฐ์์ ๋ฐ๋ฅธ Control Effect, (c): Axis๊ฐ ๊ฐ์ญ(๋ ๋ฆฝ์ฑ ์์ค), (d): layer๋ณ Control์ ํจ๊ณผ
- a์ ๋ถํฌ ์ฐจ์ด๊ฐ ๋ฒ์ด์ง์๋ก ๊ตฌ๋ถ์ด ์ ๋๋ ๊ฒ์
๋ชจ๋ธ์ด ๋ฌธ์ฅ์ ์ง์ ์์ฑํ๋ ๊ณผ์ ์์ ๋ด๋ถ activation์ ๋ชฉํ ์ถ ๋ฐฉํฅ์ผ๋ก ์๋์ ์ผ๋ก ์ฌ๋ฆฌ๊ฑฐ๋ ๋ฎ์ถ๋ ๊ฒ
๋ผ๋ฒจ 1์ฒ๋ผ ํ๋ํ๋ผ ํ๋ฉด ์ค์ ๋ก ๋ผ๋ฒจ 1์ชฝ์ ํ์ฑํ ํจํด์ ๋ง๋ค์ด ๋ด๋์ง ์ธก์
ํจ๊ณผ ์ธก์ ๋ฐฉ๋ฒ
Neural Score
- ํ๊ฒ layer ์ ํ (์: layer 16)
- ์์ฑ๋ ๋ฌธ์ฅ์ token๋ค์ ๋ํด
- residual stream activation ์ถ์ถ
- target axis(์: LR axis, PC axis)์ projectionํจ
- scalar ๊ฐ โ neural score
neural score: ๊ทธ ๋ฐฉํฅ์ผ๋ก ํ์ฑํ๋ ์ ๋
๊ทธ๋ฆฌ๊ณ :
- label 1 ํ๋ด โ score๊ฐ ์ปค์ ธ์ผ ํจ
- label 0 ํ๋ด โ score๊ฐ ์์์ ธ์ผ ํจ
ํจ๊ณผ ์์นํ(Cohenโs d)
d =(๋ผ๋ฒจ 1 score ํ๊ท โ ๋ผ๋ฒจ 0 score ํ๊ท )/(๋ ๋ถํฌ์ ํ์คํธ์ฐจ ํ๊ท )
- d๊ฐ ํด์๋ก ๋ ๋ถํฌ๊ฐ ์ ๋ถ๋ฆฌ๋จ
- ๋ผ๋ฒจ ์๋ฏธ์ ๋ฐ๋ผ ์ถ ๋ฐฉํฅ์ด ์ ํด์ง๋ฏ๋ก ์์ d๋ ์ฑ๊ณต์ ์ธ ํต์ ์๋ฏธ
๊ฒฐ๋ก
- Label 0, 1์ ๋ถ๋ฆฌ๋๋๋ก ๋ชจ๋ธ์๊ฒ ์ง์ํ๋ฉด Neural Score ๋ถํฌ๊ฐ ๋ช ํํ ๊ฐ๋ฆผ
- In-context ์์ ์๊ฐ ๋ง์์ง์๋ก ํจ๊ณผ๊ฐ ์ฆ๋
- ํ ์ถ์ ์กฐ์ ํด๋ ๋ค๋ฅธ ์ถ์ ์ํฅ์ด ์์ด ์์ ํ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ดํ์ง๋ ๋ชปํจ
- PC์ถ๋ณด๋ค LR์ถ์ด ๋ ์ ์กฐ์ ๋จ
- โLLM์ ๋ฉํ์ธ์ง์ ์กฐ์ ๋ฅ๋ ฅ์ด ์ด๋ ์ ๋ ์์ผ๋, ์ถ๋ณ ๋ ๋ฆฝ์ ์ธ ์ ์ด๋ ์๋ฒฝํ์ง ๋ชปํจ(์ผ์ ๋ถ๋ถ๋ง ๋ฅ๋ ฅ์ด ์์)
Implicit Control
- (a): Label 0์ 1์ ๋ชจ๋ฐฉํ๋ ค๊ณ ํ์์ ๋์ Neural Score๋ถํฌ, (b): In-Context ์์ ๊ฐ์์ ๋ฐ๋ฅธ Control Effect, (c): Axis๊ฐ ๊ฐ์ญ(๋ ๋ฆฝ์ฑ ์์ค), (d): layer๋ณ Control์ ํจ๊ณผ
- a์ ๋ถํฌ ์ฐจ์ด๊ฐ ๋ฒ์ด์ง์๋ก ๊ตฌ๋ถ์ด ์ ๋๋ ๊ฒ์
- ์์ฑ ํ ํฐ ์์ด๋ ๋ด๋ถ ํ์ฑํ๋ฅผ ์ ์ดํ ์ ์๋์ง ํ์ธ
- Explicit control๊ณผ ๋ฌ๋ฆฌ (N+1)๋ฒ์งธ ํด์ ๋ฌธ์ฅ์ ๋ชจ๋ธ์ด ์์ฑํ์ง ์๊ณ ๋ฐ์ดํฐ์ ์์ ๋๋ค์ผ๋ก ์ํ
- ๋ชจ๋ธ์ label0์ ํ๋ด๋ด๋ผ ๋ฑ์ ์ง์๋ง ๋ฐ์
- Explicit Control๊ณผ ๋ค๋ฅธ ์
- ๋ชจ๋ธ์ ๋ฌธ์ฅ ์์ฑ์ด ์์
- ์ธ๋ถ์์ ์ค ๋ฌธ์ฅ์ผ๋ก ์คํ
- Text ์ ๋ ฅ์ ๋ฐ๊ฟ ์ ์๊ณ ๋ชจ๋ธ์ ๋ด๋ถ Representation๋ง ์กฐ์
- ๊ฒฐ๊ณผ
- ์ด๋ ์ ๋ ์ถ ๋ฐฉํฅ ํ์ฑํ ์กฐ์ ์ด ๊ฐ๋ฅํ๊ธฐ๋ ํ๋ Explicit Control๋ณด๋ค ํจ๊ณผ๊ฐ ํจ์ฌ ์ ์
- ๋ ์ด์ด๋ณ ์ฐจ์ด
- Early layers
- Control Effect๊ฐ 0์ ๊ฐ๊น์
- ์ง์๋ฌธ ์ดํด ๋ถ์กฑ์ด๋ ์ ์ด ๋ฅ๋ ฅ ๋ถ์กฑ ์ถ์
- Late Layers (ํ๋ฐ ๋ ์ด์ด)
- ์ด๋ ์ ๋ Control ๊ฐ๋ฅ
- Early layers
Controlling the LR axis
- (a): ๋ชจ๋ธ์ layer ๊น์ด์ ๋ฐ๋ฅธ Control Effect (b): Llama-3.1 70B์์ Control ์ด์ ๊ณผ ์ดํ์ ๋ถํฌ ๋น๊ต
- ๋ชจ๋ธ ํฌ๊ธฐ, ๋ ์ด์ด ๊น์ด์ ๋ฐ๋ฅธ Control Effect๋ฅผ ๋น๊ต
- ์ผ๋ฐ์ ์ธ ๋ฒ์ ๋ฐ์ ๊ทน๋จ๊ฐ๊น์ง ๋ฐ์ด๋ผ ์ ์๋์ง๋ฅผ ํ์ธ
- ๋ถ์ ์ถ: LR axis
- ๊ฒฐ๊ณผ
- Explicit Control > Implicit Control์ ํจ๊ณผ
- ์ผ๊ด์ ์ธ ํจํด์ ๋ณด์
- ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ง์ ์์ฑํ์ฌ ํต์ ํ ๋๊ฐ ๊ฐ๋ ฅํจ
- ๋ชจ๋ธ์ด ํด ์๋ก ํต์ ๋ฅ๋ ฅ์ด ์ปค์ง(Figure a)
- ๊น์ ๋ ์ด์ด์ผ์๋ก ํต์ ํจ๊ณผ๊ฐ ์ปค์ง
- Llama3 ๊ธฐ๋ฐ ๋ชจ๋ธ์ด Qwen 2.5๊ธฐ๋ฐ๋ณด๋ค ๋ ๊ฐํ ํจ๊ณผ๋ฅผ ๋ณด์
- Llama3.1-70B์ ๊ฒฝ์ฐ Control์ ํตํด LR axis ํ์ฑํ๋ฅผ ์๋์ ๋ฒ์๋ณด๋ค ๋ ๊ทน๋จ์ ์ธ ๊ฐ์ผ๋ก ๋ฐ์ด๋ผ ์ ์์
- ๋ฐฉํฅ๋ง ๋ฐ๊พธ๋ ๊ฒ์ด ์๋๋ผ ๋ถํฌ์ ๋ฐ๊นฅ์ชฝ๊น์ง ์ด๋ ๊ฐ๋ฅ
- ๊ทน๋จ์ ์ผ๋ก ์ด๋ํ๋ผ๋ ํ๋กฌํํธ๊ฐ ์์์ผ๋ฏ๋ก ์ด๋ฅผ ์ค๊ณํ๋ฉด ๋ ๊ฐ๋ ฅํ ์ ์ด๊ฐ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์ถ์
- AI ์์ ๊ด์ ์ผ๋ก ๋ณผ ๋, ๋ด๋ถ ์ํ ๊ฐ์ง๊ธฐ๋ฅผ ํํผํ ๊ฐ๋ฅ์ฑ๋ ์์
Conclusion and Discussion
์ด ๋ ผ๋ฌธ์Neurofeedback ํจ๋ฌ๋ค์์ ์ฌ์ฉํ์ฌ ๋ค์์ ํ๊ฐํ์์
- ๋ด๋ถ ํ์ฑ ์ํ ๋ชจ๋ํฐ๋ง ๋ฅ๋ ฅ
- ๋ชจ๋ํฐ๋งํ ์ํ๋ฅผ Reportingํ๋ ๋ฅ๋ ฅ
- Controlํ๋ ๋ฅ๋ ฅ
LLM์ ์ผ๋ถ subset๋ง์ ๋ชจ๋ํฐ๋ง ๋ฐ ์กฐ์ ํ ์ ์์ผ๋ฉฐ ๊ทธ ๋ฅ๋ ฅ์ ๋ถ๋ช ํ ํ๊ณ๊ฐ ์กด์ฌํจ
- AI Safety๊ด์ ์์์ Impact
- LLM์ด ๋ด๋ถ ํ์ฑํ ์์ฒด๋ฅผ ์กฐ์ํ ์ ์์
- ์ถ๋ ฅ ๊ฐ์๋ฅผ ํผํ๋ ค๋ฉด ํ ํฐ ์ ํ์ ๋งค์ฐ ์ ๊ตํ๊ฒ ํด์ผ ํ๋, ๋ด๋ถ ํ์ฑ ์กฐ์์ ๋ ์ฌ์
- ์ค์ ํํผ ๋ฅ๋ ฅ์ Implicit Control๊ณผ Explicit Control ์ฌ์ด์ผ ๊ฒ์ผ๋ก ์ถ์
- ๋ฐฉ์ด ์ ๋ต
- ํต์ ํ๊ธฐ ์ด๋ ค์ด ์ถ์์๋ง ํ์ต(์: later PC์ถ ๋ฑ)
- ์๋ก ๋ค๋ฅธ ๋ถ๋ถ๊ณต๊ฐ(space)์ ๋ค์ค ๋ถ๋ฅ๊ธฐ ํ์ต(์ฌ๋ฌ ์ถ์ ๋์์ ์กฐ์ํ๊ธฐ๋ ์ด๋ ค์)
โ LLM์ ๋ด๋ถ ์ํ๋ฅผ ์ด๋ ์ ๋ ์๊ณ , ๋ณด๊ณ ํ๊ณ , ์กฐ์ ๊ฐ๋ฅํ๋ฉฐ ์ด๋ AI ์ค๋ช ๊ฐ๋ฅ์ฑ๊ณผ ์์ ๋ชจ๋์ ์ค์ํ ์๋ฏธ
Limitations
- ํ layer๋ axis๋ง ์กฐ์ ํ์ฌ ํ๊ฐํ์์
- ๋จ ํ ๋ฒ๋ง ์๋ํ์ฌ ํ๊ฐํ์์
- Residual Stream๋ง ๋ถ์
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ฌ๋ฌ ์ธต์ ๋์์ ํ์ธ ๋ฐ ํ๊ฐ
- ์ฌ๋ฌ ๋ฒ ์๋
- Attention Head, MLP๋ฅผ ํ๊ฐ ๋์์ ํฌํจ
- ์ค์ ๋ฉํ์ธ์ง ๋ฅ๋ ฅ์ ์ฐ๊ตฌ๋ณด๋ค ํจ์ฌ ๋ณต์กํ ๊ฐ๋ฅ์ฑ์ด ํผ








