Advancing Expert Specialization for Better MoE
Review
| ๋๋ค์ | ํ์คํ | ๋ณ์ (0/5) |
|---|---|---|
| ์ฐฐ๋ | ์ด ๋ ผ๋ฌธ์ ๋ณด๊ณ ์ฒ์ ๋ค์๋ ์๊ฐ์, MoE, Agent ๋ฑ ๊ฐ๋ ๋ค์ ์ฌ์ค ์ฐจ์ด๋ฅผ ๋๋ณด๊ณ ์ค๋ช ํ๋ผ๊ณ ํ๋ฉด ๋ช ํํ๊ฒ ๋ชปํ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด์์. ๋ ผ๋ฌธ๊ณผ๋ ์ข ๋ฌด๊ดํ ์ด์ผ๊ธฐ๊ธด ํ์ง๋ง, ๊ทธ๋ฐ ์๊ฐ์ด ๋ค๊ฒ ํ๊ณ ๊ณต๋ถํ๊ฒ ๋ง๋ค์ด์ ๋์๊ฒ๋ ์ข์ ๋ ผ๋ฌธ์ด์์. MoE ์์ฒด๋ ๊ฝค ์ค๋๋ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ฐฉ๋ฒ ์์ฒด๊ฐ ์ค์ ์ฌ๋ก์ ๊ต์ฅํ ๊ด๋ จ ๊น๋ค๊ณ ์๊ฐํ๊ณ , ์ฑ๋ฅ ๊ฐ์ ๋ฐฉํฅ ๋ฐ ๊ด๋ จ ์ฐ๊ตฌ๋ก ์ฐธ์กฐํ๊ธฐ ์ข์ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํจ. | 4.3 |
| ์์ฌ๋น๊ฝ๊ฒ๋ | ํ๋์ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ๊ด์ ๋ฐ ์ญํ ์ผ๋ก ๋๋์ด ์ฒ๋ฆฌํ์~ ๋ผ๋ ๊ฐ๋ ์ด ์ ์ฒด์ ์ผ๋ก Attention head, MoE expert, multi-agent ๋ฑ ์ฌ๋ฌ๋ถ์ผ์์ ์ ์ฌํ๋ค๋ ๋๋์ด ๋ค์. ๋จ์ํ ์์๋ค์ ๊ฐ์๋ ๋๋ฆฌ๋๊ฒ ์๋๋ผ ๊ฐ๊ฐ์ ์ญํ ์ ๋ถ๋ฆฌ๋๊ฒ๋ ๋ช ํํ๊ฒ ์ง์ ํด์ฃผ๋๊ฒ ์ค์ํ๋ฏ | 4 |
| ๋ฉ๊ฐ์ปคํผ | MoE์ ๋ณธ์ง?์ ์งํค๊ธฐ ์ํ ์ฐ๊ตฌ. ์์คํจ์์ ๋ ๊ฐ์ง ํญ(orthogonality loss, variance loss)์ ์ถ๊ฐํ์์๋ ๋ถ๊ตฌํ๊ณ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์๋นํ ์ฑ๋ฅ์ด ์ค๋ฅธ ๊ฑธ ๋ณผ ์ ์๋๋ฐ motivation๋ถํฐ ๊ฒฐ๊ณผ๊น์ง ๊น๋ํ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ๋ค. | 4.2 |
| ์๋ฆฌ๊ดด๋ฌผ | ๋
ผ๋ฌธ์ด ๋งค์ฐ ์ด๋ ต๋ค... ์ ๋ฐ์ ์ผ๋ก ๋ loss๋ฅผ ์ ์ํ๋๋ฐ ๋ชจ๋ ํ์คํฌ์ ๋ํด ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ๊ตฌ๋ณ๋ ํํ์ ๊ฐ์ง๋๋ก ํ๋๊ฒ์ด ๋์์ด ๋๋์ง ์ผ๋ ค๋จ. Multilingual์ด๋ ์๋ฏธ ์ ์ฌ๋๊ณ ๋ คํ๋ ํ์คํฌ ๊ฐ์ ๊ฒฝ์ฐ...? | 4.2 |
| ์์ฐ๊นก | ์๋ก์ด ํ๋ จ๋ชฉํ ๋์ ํ ๊ฒ๋ ์๋ฏธ์์ง๋ง, ๊ธฐ์กด ํ๋ จ๋ชฉํ์ ์ฅ์ ์ ๋ฐฉํดํ์ง ์์ผ๋ฉด์ ์ฑ๋ฅ์ ๊ธ์ ์ ์ํฅ ๋ฏธ์น๋ค๋ ๊ฑธ ์ด๋ก ์ ์ผ๋ก๋ ์คํ ๊ฒฐ๊ณผ๋ก๋ ์ ์ ์ฆํ๋ค. ๋ฐฉ๋ฒ๋ก ์ ์๋ง ํ๊ณ ๋๋๋ ๊ฒ ์๋๋ผ ํนํ๋ ์ค๋๊น์ง ๊ณต๋ค์ฌ ํ ๋ ผ๋ฌธ | 4 |
| ์์ฑ์ฌ | MoE์ ํ๊ณ์ ์ ์ ๋ง technicalํ๊ฒ ์ ํ์ด๋ธ ๊ฒ ๊ฐ๋ค์. ์ด์ ๋ ํ ํฌ๋์ ์ด๋ฉด ์ฐฝ์์ ์ด์ง ์์๋ ์๋ฌด๋ ๋ชปํ๋ ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํด์ ๊ทธ๊ฒ๋๋ก ์ฐจ๋ณ์ ์ด ๋๋ฌ๋๋ ๊ฒ ๊ฐ์์. ์์กด์ ๋๋ค. | 4 |
| ์คํ๋ฒ ์ค | MoE์ ์ทจ์ฝ์ ์ ์ฒด๊ณ์ ์ด๊ณ ์ํ์ ์ผ๋ก ๋ถ์ํ ์ฐ๊ตฌ์ ๋๋ค. ๋จ์ํ ์์์ ๊ฐ์ ๋๋ฆฌ๊ณ ํฌ๊ธฐ๋ง ๋๋ฆด๊ฒ ์๋๋ผ ์ฒด๊ณ์ ์ผ๋ก ํํ ๋ถ์์ด ์ค์ํจ์ ์ ์ ์์. | 4.5 |
| ๊ณ ๊ตฌ๋ง๋ง๋๋ฆฌ | ๊ธฐ์กด MoE์ ํ๊ณ์ ์ ๋ช ํํ๊ฒ ์ ์ํ๊ณ , ์ด๋ฅผ objective๋ก ์ ๊ตฌํํด๋ธ, ๊น๋ํ๊ณ ๊ตฐ๋๋๊ธฐ ์๋ ์ข์ ์ฐ๊ตฌ! ํนํ MoE ์ํคํ ์ฒ๋ฅผ ๊ฑด๋ค์ด์ง ์๊ณ ๋ ์ข์ ์ฑ๋ฅ์ ๋ฝ์๋ธ ๊ฒ, ์ด ๋ ผ๋ฌธ์ ์ต๊ณ ๊ฐ์ ์ด๋ผ๊ณ ์๊ฐํจ๋๋ค | 4.2 |
TL; DR
๐ก
Mixture-of-Experts ํ๋ จ ์์คํจ์์๋ expert ๊ฐ routing ํจ์จ์ฑ ์ํ objective term ์์
- ๊ทธ๋ฌ๋ ์ด๋ ๊ฐ expert์ ์ ๋ฌธ์ฑ ํนํ๋ฅผ ๋ฐฉํดํ๋ ๋ถ์์ฉ ์์
- โ routing ํจ์จ์ฑ ๋ชฉํ๋ฅผ ๋ฐฉํดํ์ง ์์ผ๋ฉด์ expert ์ ๋ฌธํ์ ๋์๋๋ objective๋ฅผ ์ถ๊ฐํ์
Summary
1. Introduction
Background
- LLM ๊ท๋ชจ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ถ๋ก ๋น์ฉ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐ๋๋ฏ๋ก ์ค์ฉ์ ์ธ ๋ฐฐํฌ์ ํจ์จ์ฑ์ด ์ ํด๋จ
- Mixture-of-Experts (MoE) ์ํคํ
์ฒ๋ ์
๋ ฅ์ ๋ฐ๋ผ ํ์ ์ ๋ฌธ๊ฐ(expert) ์งํฉ๋ง์ ํ์ฑํํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ์ํ
MoE ์ถ๊ฐ ์ค๋ช
- ํน์ ๋ ์ด์ด ๋๋ ์ฐ์ฐ(e.g., linear layer, MLP, attention projection)์ ์ฌ๋ฌ โexpertโ subnetwork๋ก ๋ถํ
- ๊ฐ expert subnetwork๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฐ์ฐ ์ํํ๊ณ , ์ฐ์ฐ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ MoE ๋ ์ด์ด์ ์ต์ข ์ถ๋ ฅ ์์ฑ
- ์ฃผ์ด์ง ์
๋ ฅ์ ๋ํด ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ์ฉํ ์๋ ์๊ณ (dense experts), ์ผ๋ถ top-k experts๋ก ๊ตฌ์ฑ๋ subset๋ง ์ฌ์ฉํ ์๋ ์์ (sparse experts)
- ๋ณธ ๋ ผ๋ฌธ์์๋ sparse ์ค์ ์ฌ์ฉ
- ํน์ ๋ ์ด์ด ๋๋ ์ฐ์ฐ(e.g., linear layer, MLP, attention projection)์ ์ฌ๋ฌ โexpertโ subnetwork๋ก ๋ถํ
- ๊ณ์ฐ ๋น์ฉ์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋น๋ก์ ์ผ๋ก ์ฆ๊ฐํ์ง ์์ ๋ ํฐ ์ฌ์ด์ฆ์ ๋ชจ๋ธ ์ฌ์ฉ ๊ฐ๋ฅ
- ์ผ๋ฐ์ ์ผ๋ก MoE ์์คํ ์ฌ์ ํ๋ จ ์ ํ๋ผ๋ฏธํฐ ํ์ฉ ๊ทน๋ํ๋ฅผ ์ํด ํ ํฐ์ด ์ ๋ฌธ๊ฐ์ ๋ณด๋ค ๊ท ๋ฑํ๊ฒ ๋ถ๋ฐฐ๋๋๋ก ํ๋ load balancing objective ์ฌ์ฉ
Motivation
- load balancing ๋ชฉํ๋ ์ฌ์ ํ๋ จ๋์ ํ์ฑํ๋์ง ์๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋ฐฉ์งํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋, ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ์ํ ์ฌํํ๋ จ์์ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ธ ์ ์์ ๋ง์
- ์ ๋ ฅ๊ณผ ์๊ด์์ด ๊ท ์ผํ๊ฒ routingํ๋๋ก ์ ๋ํ์ฌ ์ ๋ฌธ๊ฐ ๊ฐ ํ ํฐ ๋ถํฌ๊ฐ ์ค๋ณต๋๋ ํ์์ด ๋ง์ด ๋ฐ์
- ์ด๋ฌํ ์ค๋ณต์ ์ ๋ฌธ๊ฐ representation์ด ์๋ก ๋น์ทํด์ง๋๋ก ํ์ฌ ๊ฐ ์ ๋ฌธ๊ฐ์ ๊ธฐ๋ฅ ์ ๋ฌธํ๋ฅผ ๋ฐฉํด
- ์ ๋ฌธํ ๋ถ์กฑ์ผ๋ก ์ธํด ๋ชจ๋ธ์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ํ์ธํ๋ ์ ์ฑ๋ฅ ์ ํ
- load balancing ๋ชฉํ๊ฐ expert์ routing ๊ด์ ๊ฐ๊ฐ์์ ๊ฐ๋ ๋ฌธ์
- expert ๊ด์ ์์ ๋ฌธ์ : ๊ฐ ์ ๋ฌธ๊ฐ์ ๊ณ ์ ํ ํ๋ ๋ฐ๋ฌ ๋ฐฉํด
- router ๊ด์ ์์ ๋ฌธ์ : ์ ๋ฌธ๊ฐ์ ์ ๋ฌธํ๊ฐ ์ฝํ๋ ์๋ก ์ ๋ฌธ๊ฐ ๊ฐ ์ฐจ์ด๊ฐ ๊ฐ์ โ token-to-expert ํ ๋น์ด ์ ์ ๊ท ์ผํด์ง
- โ ์ ๋ฌธํ ๊ฐ์์ ๋ผ์ฐํ ๊ท ์ผํ๋ ์ ์ ์๋ก๋ฅผ ๊ฐํํ๋ฉฐ, ์ด๋ ์ ๋ฌธ๊ฐ ํํ๊ณผ ๋ผ์ฐํ ํ์ง์ ์ ํ์ํด
- โ MoE ํ๋ จ์ auxiliary loss (๋ณด์กฐ ์์ค)์์ ๊ธฐ์ธํ๋ uniformity constraint์์ ์ ๋ฌธ๊ฐ ์ ๋ฌธํ๋ฅผ ๋ถ๋ฆฌํด์ผ ํจ
Contribution
- auxiliary loss์ load balancing ์ ์งํ๋ฉด์, ์ ๋ฌธ๊ฐ ์ ๋ฌธํ์ ๋ผ์ฐํ
๋ค์ํ๋ฅผ ์ด์งํ๋ ํ๋ ์์ํฌ ์ ์: ๋๊ฐ์ง ์ํธ๋ณด์์ objective ๋์
objective(1)expert specialization: ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ ํ ํฐ ์ฒ๋ฆฌ์ ํนํ๋๋๋ก ํ์ฌ, ์ ๋ฌธ๊ฐ ๊ฐ ๊ณ ์ ํ ํํ ๊ฐ๋ฐ ์ด์ง
objective(2)routing diversification: ๋ผ์ฐํ ๋ถ์ฐ์ ๊ฐํํ์ฌ ์ฐจ๋ณํ๋ ๋ผ์ฐํ ๊ฒฐ์ ์ ์ ๋ํจ์ผ๋ก์จ token-to-expert ํ ๋น์ ์ ๋ฐ์ฑ ํฅ์
- โ ์ด๋ฌํ ๋ชฉํ๋ฅผ ๊ณต๋ ์ต์ ํํ์ฌ MoE ํ๋ จ ์ ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ๋ผ์ฐํ ํจ์จ์ฑ ๊ฐ trade-off ์ํ
- ์ ์ ํ๋ ์์ํฌ ๋์
ํจ์ผ๋ก์จ ๋ค์์ ๋ฌ์ฑ
- enhanced expert-routing synergy: ๊ณต๋ ๋ชฉํ๋ก ์ ๋ฌธ๊ฐ ์ค๋ณต์ ์ต๋ 45% ๊ฐ์, ๋ผ์ฐํ ์ ์ ๋ถ์ฐ์ 150% ์ฆ๊ฐ โ ๋ ๋ช ํํ ์ ๋ฌธ๊ฐ ์ ๋ฌธํ์ ์ฐจ๋ณํ๋ ์ ๋ฌธ๊ฐ ๋ผ์ฐํ ๋ฌ์ฑ
- stable load balancing: ์๋ก์ด objective ๋์ ํจ์๋ ๋ชจ๋ ๋ชจ๋ธ์์ RMSE 8.63 ๋ฏธ๋ง์ผ๋ก ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋๋ฑํ load-balancing ์ฑ๋ฅ ๋ฌ์ฑ
- improved downstream performance: MoE ์ํคํ ์ฒ ์์ ์์ด 11๊ฐ ๋ฒค์น๋งํฌ์์ 23.79%์ ์๋์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑ, 92.42% ํ์คํฌ์์ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋ฅ๊ฐ
2. Motivation
Preliminaries of MoE
- MoE layer (notations)
- ๏ปฟ experts
- input token sequence, ๏ปฟ
- routing score matrix, ๏ปฟ: ๊ฐ ํ ํฐ์ ๋ํด ์ฒ๋ฆฌํ ์์ k๊ฐ expert๋ฅผ ํ ๋นํ๊ธฐ ์ํ score matrix
- ๏ปฟ : ๏ปฟ๋ฒ์งธ ํ ํฐ์ ๋ํ ๏ปฟ๋ฒ์งธ expert์ routing weight
- ๏ปฟ : ๊ฐ expert์ ํ ๋น๋ ํ ํฐ์ ๋น์จ
- ๏ปฟ : ๏ปฟ๋ฒ์งธ expert์ ํ ๋น๋ ํ ํฐ์ ์
- total loss function, ๏ปฟ
- main task loss, ๏ปฟ : MoE layer์ output์ผ๋ก๋ถํฐ ๊ณ์ฐ๋๋ ์์ค
- auxiliary loss, ๏ปฟ
- ๏ปฟ : auxiliary loss ๋์ ๊ณ์
- ๏ปฟ : ๏ปฟ๋ฒ์งธ expert์ ๋ํ total routing score
- ์ฆ, ๏ปฟ๋ฒ์งธ expert์ ํ ๋น๋ ๋ชจ๋ ํ ํฐ์ routing weight ํฉ์ฐ
Observations
obs(1)expert overlap: auxiliary loss ๋์ ์ด ์ ๋ฌธ๊ฐ ๊ฐ ํ ํฐ ๋ถํฌ๋ฅผ ๊ท ๋ฑํ๊ฒ ๋ง๋ค๋ฉฐ, ์ด๋ ๊ฐ ์ ๋ฌธ๊ฐ ๊ฐ ๊ตฌ๋ณ์ฑ์ ๊ฐ์์ํด- auxiliary loss๋ expert์ ํ๋ผ๋ฏธํฐ ๏ปฟ์ ๋
๋ฆฝ์ โ ๏ปฟ๋ฒ์งธ expert์ gradient๋ ๋ค์๊ณผ ๊ฐ์:
- ๏ปฟ : MoE layer output
- โ total loss๋ก ์ธํ expert์ ํ๋ผ๋ฏธํฐ์ ํ๋ฌ๋ค์ด๊ฐ๋ gradient์๋, ์
๋ ฅ ํ ํฐ ๏ปฟ๋ค์ด ๊ด์ฌํจ
- load-balancing routing์ ๊ฐ์ ํ๋ auxiliary loss๋ ํ๋ จ ๊ณผ์ ์์ ์ ๋ฌธ๊ฐ์ ๊ฑธ์น ๊ท ๋ฑํ ํ ํฐ ๋ถํฌ๋ฅผ ์ ๋ํจ
- โ ์ ๋ ฅ ํ ํฐ๋ค์ด ๊ด๋ จ ์ ์ expert์ ํ ๋น๋ ์ ์์ผ๋ฉฐ, ์ด๋ ์๋์น ์์ ์ ๋ฌธ๊ฐ์ ๋ํ gradient flow๋ฅผ ์ด๋
- auxiliary loss๋ expert์ ํ๋ผ๋ฏธํฐ ๏ปฟ์ ๋
๋ฆฝ์ โ ๏ปฟ๋ฒ์งธ expert์ gradient๋ ๋ค์๊ณผ ๊ฐ์:
obs(2)routing uniformity: ํ๋ จ ์งํ์ ๋ฐ๋ผ routing output์ด ์ ์ฐจ ๊ท ๋ฑ(uniform)ํด์ง๋ฉฐ, expert weight ๋ถํฌ๊ฐ ๊ท ์ผํด์ง- routing์ output์ score matrix ๏ปฟ โ routing parameter ๏ปฟ๊ณผ ๊ด๋ จํ gradient๋ ๋ค์๊ณผ ๊ฐ์:
- ๏ปฟ : ํ ํฐ ๏ปฟ์ ๋ํ expert ๏ปฟ์ output
- ๏ปฟ : expert ๏ปฟ๊ฐ ์ ํ๋๋ ๋น๋์
- โ routing ๊ด๋ จ gradient๋ ์ฃผ๋ก expert output๊ณผ expert์ ๊ฑธ์น ํ ํฐ ๋ถํฌ์ ์ํฅ๋ฐ์
- ๏ปฟ๋ ๏ปฟ์ uniformity๋ฅผ ์งํฅํ๋, ๊ท ํ์กํ ํ ํฐ ํ ๋น์ ๋
๋ คํ๋ ์์ค์ด์ง๋ง ๏ปฟ๊ฐ ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅํ์ฌ ์ง์ ์ต์ ํํ๊ธฐ ์ด๋ ค์
- ์ด์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฉฐ ๏ปฟ์ ์์ ์๊ด๊ด๊ณ ๊ฐ๋ ๏ปฟ (expert ๏ปฟ์ total routing score) ์ฌ์ฉํ์ฌ routing network์ gradient๋ฅผ ๊ณ์ฐ
- โ ๏ปฟ์ ์ต์ ํ๋ ๏ปฟ์ uniformity๋ฅผ ์ด์งํ๋ฉฐ, ์ด๋ ๋ํ ๏ปฟ์ uniformity๋ฅผ ์ด๋
- โ
obs(1)์์ ๋ณธ ๊ฒ๊ณผ ๊ฐ์ด, ๋ถ์ ํํ ์ ๋ฌธ๊ฐ์ ํ ํฐ ํ ๋นํ๋ ๊ฒ์ ์ ๋ฌธ๊ฐ ๊ฐ gradient๊ฐ ์ค๋ณต๋๋๋ก ํ๋ฉฐ, ์ด๋ ๏ปฟ (expert output) ๊ฐ ์ ์ฌ๋๋ฅผ ์ฆ๊ฐ์ํด
- routing์ output์ score matrix ๏ปฟ โ routing parameter ๏ปฟ๊ณผ ๊ด๋ จํ gradient๋ ๋ค์๊ณผ ๊ฐ์:
obs(3)expert-routing interaction:obs(1)์ ์ ๋ฌธ๊ฐ ํนํ,obs(2)์ routing uniformity ๊ด๋ จ ๊ด์ฐฐ์ด์์ โ ์์ ๊ด์ฐฐํ ํ์๋ค์ด ํ๋ จ ์ค ์ํธ์์ฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๋ฝ ์ด๋obs(1)์์ ๊ด์ฐฐํ ์ ๋ฌธ๊ฐ ์ธก๋ฉด ๋ฐฉํด๋ ๋ชจํธํ ์ ๋ฌธํ ๋ณ์- ์ด๋ก ์ธํด ํ ํฐ ๋ถํฌ๊ฐ ๊ท ์ผํด์ ธ ์ ๋ฌธ๊ฐ ๊ตฌ๋ณ์ ๋์ฑ ๊ฐ์์ํค๋ gradient ์ ๋ฐ
- ์ ๋ฌธ๊ฐ ์ ์ฌ์ฑ์ ๋ค์ routing์ ์ํฅ ๋ฏธ์นจ (
obs(2))- ์ ๋ฌธ๊ฐ ๊ฐ output์ด ์ ์ฐจ ์ ์ฌํด์ง๋ฉด์, routing network๋ ์ ๋ฌธ๊ฐ ๊ฐ ์ฐจ๋ณํ ์ ํธ๋ฅผ ์๋ณํ๊ธฐ ์ด๋ ค์์ง
- ์ด๋ก์จ ์ ์ฐจ ๋๋คํ๊ฒ top-k expert๋ฅผ ์ ํํ๊ฒ ํ๊ณ , ํ ํฐ๊ณผ ์ต์ ์ ์ ๋ฌธ๊ฐ๊ฐ ์ ๋ ฌ๋์ง ๋ชปํ๊ฒ ํจ
3. Method
- โ ์ ๋ฌธ๊ฐ ๊ฐ ์ค๋ณต๊ณผ routing ๊ท ๋ฑํ๋ฅผ ์ํํ๋, loss function ๏ปฟ ์ค๊ณ
- ๏ปฟ : ๊ธฐ์กด auxiliary loss
- ๏ปฟ : ์๋กญ๊ฒ ๋์ ๋ orthogonality loss์ variance loss
- ๏ปฟ : coefficients
Implementations of losses ๏ปฟ and ๏ปฟ
- expert specialization: orthogonalization objective ๏ปฟ๊ฐ ์ ๋ฌธ๊ฐ ๊ฐ ๋
๋ฆฝ์ ์ธ ํํ ๊ฐ๋ฐ ์ด์ง
- ๏ปฟ : top-k routing ์ดํ ํ ํฐ ๏ปฟ์ ๋ํ expert ๏ปฟ์ output
- โ ์
๋ ฅ ํ ํฐ์ ๋ํ ๊ฐ expert์ output ๊ฐ projection ํฉ์ฐ์ด ์ต์ํ๋๋๋ก ํจ (orthogornalize)
- ์ด๋ก์จ ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์๋ก ๊ตฌ๋ณ๋ ํํ ๊ฐ๋๋ก ํจ
- routing diversification: variance-based loss ๏ปฟ๊ฐ ๋ณด๋ค ๋ค์ํ routing ๊ฒฐ์ ๊ณผ ์ ๋ฌธ๊ฐ ์ ๋ฌธํ๋ฅผ ๋
๋ ค
- ๏ปฟ : ๋ฐ์ดํฐ ๋ฐฐ์น์ ๊ฑธ์น expert ๏ปฟ์ ํ๊ท routing score
- โ routing score์ ๋ถ์ฐ์ ์ต๋ํํ์ฌ, token-to-expert ํ ๋น์ด ๊ท ๋ฑํ์ง ์๋๋ก ํจ
Compatibility of multi-objective optimization
- ์ ๋ฌธ๊ฐ์ ๋ผ์ฐํ
๊ด์ ์์ ๋ ์์ค์ด ํธํ ๊ฐ๋ฅํจ์ ๋ณด์
- expert perspective
- auxiliary loss ๏ปฟ์ variance loss ๏ปฟ๊ฐ expert ํ๋ผ๋ฏธํฐ ๏ปฟ์ ์ง์ ๊ธฐ์ฌํ์ง ์์ โ ์ ๋ฌธ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ์ฒด ์์ค์ gradient์๋ ํ์คํฌ ์์ค ๏ปฟ์ orthogonality loss ๏ปฟ๋ง ๊ด์ฌ:
- ๏ปฟ : ๋ชจ๋ธ output์ ๋ํ ํ์คํฌ ์์ค์ gradient
- โ routing score ๏ปฟ์ expert representation ๏ปฟ์ ์ํฅ ๋ฐ์
- โ ํ๋ จ ์งํ๋จ์ ๋ฐ๋ผ expert weight์ ๋ถ์ฐ์ด ์ฆ๊ฐํ๊ณ , gradient๋ ๊ฐ ํ ํฐ์ ๋ํด ๋ค๋ฅธ ๋ฐฉํฅ์ ๋์ฑ ์ ํธํ๋๋ก ์ ๋ํจ
- auxiliary loss ๏ปฟ์ variance loss ๏ปฟ๊ฐ expert ํ๋ผ๋ฏธํฐ ๏ปฟ์ ์ง์ ๊ธฐ์ฌํ์ง ์์ โ ์ ๋ฌธ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ์ฒด ์์ค์ gradient์๋ ํ์คํฌ ์์ค ๏ปฟ์ orthogonality loss ๏ปฟ๋ง ๊ด์ฌ:
- routing perspecitve
- routing ํ๋ผ๋ฏธํฐ ๏ปฟ์ gradient์ ๏ปฟ๊ฐ ์ง์ ๊ธฐ์ฌํ์ง ์์ โ ๋ผ์ฐํ
ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ์ฒด ์์ค์ gradient๋ expert representation ๏ปฟ, expert load ๏ปฟ, routing weights ๏ปฟ์ ์ํฅ ๋ฐ์:
- โ ํ๋ จ ์งํ๋จ์ ๋ฐ๋ผ expert load๊ฐ ๊ท ํ ์กํ๊ณ routing weight ๋ถ์ฐ ์ฆ๊ฐ
- ์ ๋ฌธ๊ฐ ํํ orthogalize๊ฐ routing gradient์ ์ง๊ตํ๋ฅผ ๋ณ๊ณ routing weight ๋ถ์ฐ์ ์ฆ๊ฐ์ํด
- โ ํ๋ จ ์งํ๋จ์ ๋ฐ๋ผ expert load๊ฐ ๊ท ํ ์กํ๊ณ routing weight ๋ถ์ฐ ์ฆ๊ฐ
- routing ํ๋ผ๋ฏธํฐ ๏ปฟ์ gradient์ ๏ปฟ๊ฐ ์ง์ ๊ธฐ์ฌํ์ง ์์ โ ๋ผ์ฐํ
ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ์ฒด ์์ค์ gradient๋ expert representation ๏ปฟ, expert load ๏ปฟ, routing weights ๏ปฟ์ ์ํฅ ๋ฐ์:
- โ expert parameter ๏ปฟ๋ ๏ปฟ์ gradient์ ๋ํด์๋ง ์ํฅ ๋ฐ๊ณ , routing parameter ๏ปฟ์ ๏ปฟ ๋ชจ๋์ ์ํฅ๋ฐ์ง๋ง ๋ loss์ ๋ชฉํ๊ฐ ์ถฉ๋ํ์ง ์์ (์ ๋ฌธ๊ฐ ํํ ์ง๊ตํ์ ๋ผ์ฐํ
์ ์ ๋ค์ํ)
- ๋ ๋ชฉํ๋ฅผ ์ถฉ๋ ์์ด ๊ณต๋ ์ต์ ํํ ์ ์์
- expert perspective
4. Experiments
Experimental Setup
- datasets
- ํ๋ จ: Numina, GLUE, FLAN collection์ traning set
- ํ
์คํธ
- math: GSM8K, MATH500, Numina
- multi-domain tasks: MMLU, MMLU-pro, BBH, GLUE, LiveBench, GPQA
- code generation: HumanEval, MBPP
- baselines (MoE training strategies)
- Aux Loss, GShard, ST-MoE, Loss-Free Balancing
- metrics
- accuracy
- expert load balancing (MaxVioglobal)
- clustering quality (Silhouette Coefficient)
- expert specialization (Expert Overlap)
- routing stability (Routing Variance)
- setup
- 3 ์ํญ์ผ๋ก ํ๋ จ (~550 steps)
- LoRA ๊ธฐ๋ฐ ํ์ธํ๋ (router layer, expert layer ๋ชจ๋์ LoRA ๋ชจ๋ ์ฌ์ฉํ์ฌ ๊ณต๋ ์ต์ ํ ํจ)
Performance in Downstream Tasks
- ์ ์ ๋ฐฉ์์ด ์ ๋ฌธ๊ฐ ์ ๋ฌธํ ์ ๋ํ์ฌ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ ํจ๊ณผ์ ์ผ๋ก ํฅ์๋ ์ฑ๋ฅ ๋ณด์
- โ expert orthogonality์ routing output diversification์ด ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ์ฑ๋ฅ์ ๊ธ์ ์ ์ํฅ ๋ฏธ์น๋์ง ํ์ธ
Load Balancing

RMSE: ๋ curve ๊ฐ ์ ์ฌ๋ ์ฐจ์ด ์งํ
- ๏ปฟ๋ง ์ฌ์ฉํ๋
only aux์w/o lv( ๏ปฟ๋ง ์ฌ์ฉ),w/o lo( ๏ปฟ๋ง ์ฌ์ฉ) ๊ฐ load balancing ์ฑ๋ฅ ์ถ์ธ๊ฐ ๊ฑฐ์ ๋์ผ- ์ฑ๋ฅ ์ปค๋ธ ๊ฐ ์ฐจ์ด ์งํ์ธ RMSE ๋ํ 0.03 ๋ฏธ๋ง์ด์ด์ ์๋นํ ์ ์ฌ
- โ ๏ปฟ๊ฐ ๏ปฟ์ load balancing์ ์ํฅ ๋ฏธ์น์ง ์์์ ๋ณด์
Behaviors of Experts and Routing
- ์ฒ์ ๋๊ฐ ๊ทธ๋ํ๋ ์ ๋ฌธ๊ฐ ์ง๊ต์ฑ, ๋ง์ง๋ง ๊ทธ๋ํ๋ ๋ผ์ฐํ
์ถ๋ ฅ์ ๋ค์์ฑ ๋ํ๋
- ์ฒ์ ๋ ๊ทธ๋ํ โ ๏ปฟ๊ฐ ์ ๋ฌธ๊ฐ ์ง๊ต์ฑ์ ์ง์ ์ด์งํ๋ฉฐ, ๏ปฟ๋ ์ด์ ๊ธฐ์ฌํจ
- ๋ง์ง๋ง ๊ทธ๋ํ โ ๏ปฟ๊ฐ ๋ผ์ฐํ ์ถ๋ ฅ ๋ค์์ฑ์ ์ง์ ํฅ์ํ๋ฉฐ, ๏ปฟ๋ ์ด์ ๊ธฐ์ฌํจ
- โ ๏ปฟ๊ฐ ์ ๋ฌธ๊ฐ ์ง๊ต์ฑ, ๋ผ์ฐํ ์ ์ ๋ค์ํ๋ฅผ ๊ณต๋ ์ด์งํ ์ ์์์ ๋ณด์
Ablation among Losses
- ๏ปฟ์ ๊ฒฐํฉ์ด ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํด
- ๋ํ ๊ฐ ์์ค์ด ๊ฐ๋ณ์ ์ผ๋ก ๋์ ๋ ๋๋ ์ฑ๋ฅ ๊ฐ์ ๋ณด์
- โ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ ๏ปฟ๊ฐ ๋ชจ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ฉฐ, ์ด๋ค์ ๊ฒฐํฉ์ด ์๋ก์ ํจ๊ณผ๋ฅผ ์ฆ์ง์ํค๋ ์๋์ง ํจ๊ณผ ๋์ ๋ณด์













