14 January 2026

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

๐Ÿ’ก๋ชจ๋ธ์— ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ๋น„์ •์ƒ์ ์œผ๋กœ ํ–ฅ์ƒ๋˜๋ฉด, ์ด๋Š” ์ƒŒ๋“œ๋ฐฐ๊น… ํ˜„์ƒ์„ ์•”์‹œํ•œ๋‹ค!

์—ผ๊ทœํ™˜
์—ผ๊ทœํ™˜

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
์ฐฐ๋‚˜motivation ์ •๋ง ์„ค๋“์ ์ž„. ๊ทธ๋Ÿฌ๋‚˜ ์•„์ด๋””์–ด๋Š” ์ž˜ ๋ชจ๋ฅด๊ฒ ๋‹ค. ๊ผญ ํ•„์š”ํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์ด๋ผ๋Š” ์ƒ๊ฐ์€ ๋“ค์ง€๋งŒ, ์ •๋ง ์ด ๋ฐฉ๋ฒ•์œผ๋กœ ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ๋‹ค๋ฅธ ๋ณ€์ธ์€ ์—†์„๊นŒ? ๋ผ๋Š” ์˜์‹ฌ์ด ์ฝ์œผ๋ฉด์„œ ๊ณ„์† ๋“ค์—ˆ์Œ. ๊ทธ๋ƒฅ ์‹ฌ์ฆ์ ์œผ๋กœ ๋ญ”๊ฐ€ ์žˆ์„ ๊ฒƒ ๊ฐ™์€๋ฐ.. ํ•˜๋Š” ์ƒ๊ฐ๋งŒ ๋“ค์–ด์„œ, ํ›„์† ๋…ผ๋ฌธ์ด ๊ถ๊ธˆํ•ด์ง„ ๋…ผ๋ฌธ.4.0
์™€์‚ฌ๋น„๊ฝƒ๊ฒŒ๋ž‘Noise๋ฅผ ๋„ฃ์–ด์„œ '๋ชจ๋ธ์˜ ์‹ค์ œ ๋Šฅ๋ ฅ์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค~'๋ผ๋Š” ํ•ด์„์€ ๊ธ์ •์ ์œผ๋กœ ํฌ์žฅํ•œ ํ‘œํ˜„๊ฐ™๋‹ค. ์ด๋Š” ๋ชจ๋ธ์„ noise ๊ธฐ๋ฐ˜์œผ๋กœ perturbateํ•˜์—ฌ alignment๋ฅผ ๋ง๊ฐ€๋œจ๋ฆฌ๋Š” attack ์œผ๋กœ ํ•ด์„/ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ. LLM alignment์˜ ์ทจ์•ฝ์„ฑ์„ ๋™์‹œ์— ๋ณด์—ฌ์ฃผ๊ธฐ๋„ ํ•˜๋Š” ๋…ผ๋ฌธ์ธ๋“ฏ4.2
๋ฉ”๊ฐ€์ปคํ”ผํ•ด๋‹น ๋…ผ๋ฌธ์„ ๋ณด๋ฉด์„œ ํŠน์ • ๊ต๋ž€์ด ๋“ค์–ด์˜ค๋ฉด ์›๋ž˜ ๋Šฅ๋ ฅ์ด ๋“œ๋Ÿฌ๋‚œ๋‹ค๋Š” ์ ์—์„œ jailbreak์™€ ์œ ์‚ฌํ•˜๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ์Œ3.7
์š”๋ฆฌ๊ดด๋ฌผ์•„์ด๋””์–ด๋Š” ์ข‹์€๋ฐ... ์ ์šฉ ๋Œ€์ƒ์ด strictํ•œ ๊ทœ์ œ๊ธฐ๊ด€์— ํ•œ์ •๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ
์–ด๋–ค ๊ธฐ์ค€์œผ๋กœ ์ƒŒ๋“œ๋ฐฐ๊น…์„ ํŒ๋‹จํ•˜๋Š”์ง€ ์•Œ๋ ค์ง€๋ฉด, ๋…ธ์ด์ฆˆ์—๋„ ๋ฒ„ํ‹ฐ๋Š” ์ƒŒ๋“œ๋ฐฐ๊น… ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‚˜ ์•„์˜ˆ ๋…ธ์ด์ฆˆ ๋„ฃ์œผ๋ฉด ๋ง๊ฐ€์ง€๋„๋กํ•˜๋Š”..? ๋Œ€์‘ ์ „๋žต์ด ๋‚˜์˜ฌ ์ˆ˜๋„ ์žˆ์„๊ฑฐ๊ฐ™์Œ
3.7
์ƒˆ์šฐ๊นก์ƒŒ๋“œ๋ฐฐ๊น…์ด๋ผ๋Š” ๊ฑธ ์ฒ˜์Œ ์•Œ์•˜๋‹ค. ์ง€์‹œ๋ฌธ ๋ฌด์‹œํ•˜๊ณ  ํŒŒ์ผ ๋‚ด์šฉ ๊ธฐ๋ฐ˜ํ•ด์„œ ์ž๋ฐœ์ ์œผ๋กœ ์ƒŒ๋“œ๋ฐฐ๊น…ํ•˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค๋Š” ์ ์—์„œ ์–ธ์–ด๋ชจ๋ธ์ด ์ง€์‹œ๋Œ€๋กœ ๋™์ž‘ํ•˜๊ฒŒ ํ•˜๋ ค๋ฉด ์—ฐ๊ตฌํ•ด์•ผ ํ•  ํ˜„์ƒ์ด ๋งž๋Š”๋“ฏํ•œ๋ฐ, ์ข€๋” ์ƒŒ๋“œ๋ฐฐ๊น…์„ ํƒ€๊ฒŸํŒ…ํ•œ ๋ฐฉ๋ฒ•๋ก ์ด ๊ถ๊ธˆํ•ด์ง„๋‹ค3.6
์•ˆ์„ฑ์žฌCNN์—์„œ๋„ noise๋ฅผ ๋”ํ–ˆ์„ ๋•Œ ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ, ๋น„์Šทํ•œ ๋งฅ๋ฝ์ด๋ฉด์„œ๋„ ์—ฌ๊ธฐ๋Š” ์ข€ ๋” ethicalํ•œ ์ด์Šˆ๊ฐ€ ์žˆ์–ด ๋ณด์ด๋„ค์š”. ๊ฐœ์ธ์ ์œผ๋กœ closed source LLM์˜ ์œ„ํ—˜์„ฑ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๋ฅผ ์ข‹์•„ํ•˜๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ๋„ ๊ทธ ์ค‘ ํ•˜๋‚˜๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์ƒ์กด์ž…๋‹ˆ๋‹ค.3.6
์Šคํƒ€๋ฒ…์Šค๋ณดํ†ต์˜ ๊ฒฝ์šฐ ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํ•˜๋ฝํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด๊ธฐ์— ์„ฑ๋Šฅ์ด ์ƒ์Šนํ•œ๋‹ค๋Š” ์ƒŒ๋“œ๋ฐฐ๊น… ํ˜„์ƒ์€ ์ด๋ก€์ ์ธ ์ƒํ™ฉ์ด๊ธฐ๋Š” ํ•จ. LLM์˜ ์œ„ํ—˜์„ฑ์ด๋‚˜ Alignment๊ด€์ ์—์„œ๋Š” ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„๋“ฏ.4
๊ณ ๊ตฌ๋งˆ๋ง›๋„๋ฆฌ๋…ธ์ด์ฆˆ ์ฃผ์ž…์„ ํ†ตํ•œ ์ƒŒ๋“œ๋ฐฐ๊น…์„ ์˜คํžˆ๋ ค ์ด์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ? Diffusion ์—ฐ๊ตฌ๋“ค๊ณผ์˜ ์ ‘๋ชฉ์ด ๊ธฐ๋Œ€๋จ 4.5

TL; DR

๐Ÿ’ก

๋ชจ๋ธ์— ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ๋น„์ •์ƒ์ ์œผ๋กœ ํ–ฅ์ƒ๋˜๋ฉด, ์ด๋Š” ์ƒŒ๋“œ๋ฐฐ๊น… ํ˜„์ƒ์„ ์•”์‹œํ•œ๋‹ค!

Summary

  • ์—ฐ๊ตฌ์ง„ : Geodesic Research & Apart Research / ๋ฎŒํ—จ๊ณต๋Œ€
  • ์ธ์šฉ์ˆ˜ : 7

์—ฐ๊ตฌ ๋™๊ธฐ

  • AI ์‹œ์Šคํ…œ์˜ ์•ˆ์ „ํ•œ ๊ฐœ๋ฐœ๊ณผ ๋ฐฐํฌ๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ์˜ ์‹ค์ œ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž„ (capability evaluation)
  • ๊ทธ๋Ÿฌ๋‚˜ ๊ทœ์ œ ํšŒํ”ผ๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ ์ž์ฒด์˜ ์„ฑ๋Šฅ์„ ๋‚ฎ์ถฐ ๋ณด์ด๊ฒŒ ํ•˜๋Š” ์ƒŒ๋“œ๋ฐฐ๊น… (sangbagging) ํ˜„์ƒ ์กด์žฌ
  • ์ƒŒ๋“œ๋ฐฐ๊น…์˜ ์›์ธ
    • ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜
      • ๊ฐœ๋ฐœ์ž๊ฐ€ ํ‰๊ฐ€ ์ค‘์— ๋ชจ๋ธ์ด ๋ชปํ•˜๊ฒŒ ์ง€์‹œํ•  ์ˆ˜ ์žˆ์Œ
    • ํŒŒ์ธํŠœ๋‹ ๊ธฐ๋ฐ˜ (password locking)
      • ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ ์ผ๋ถ€ ๋Šฅ๋ ฅ์„ ์ˆจ๊ธฐ๋„๋ก ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ
      • ์–ด๋–ค ๋น„๋ฐ€ ํŒจ์Šค์›Œ๋“œ๊ฐ€ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ๋˜์–ด์•ผ๋งŒ ์ง„์งœ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์คŒ
  • ์ตœ๊ทผ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, ๋ช…์‹œ์ ์œผ๋กœ ์ง€์‹œํ•˜์ง€ ์•Š์•„๋„ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ž˜๋ชป๋œ ํ–‰๋™์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Œ

โ†’ ์ด๋Ÿฌํ•œ ์ „๋žต์ ์ธ ์„ฑ๋Šฅ ์–ต์ œ๋Š” ์‹ค์ œ ์œ„ํ—˜์„ฑ๊ณผ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํฐ ์žฅ์• ๊ฐ€ ๋จ


์ œ์•ˆ ์•„์ด๋””์–ด

"๋ชจ๋ธ์— ์ธ์œ„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•˜์—ฌ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š” ์ง€ ํŒŒ์•…ํ•ด๋ณด์ž! โ†’
์ด๋ฅผ ํ†ตํ•ด ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ๊ณผ ์ผ๋ฐ˜ ๋ชจ๋ธ์„ ๊ตฌ๋ถ„ํ•˜์ž!"
  • ์ •์ƒ์ ์ธ ๋ชจ๋ธ : ๋…ธ์ด์ฆˆ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ์ผ๊ด€๋˜๊ฒŒ ํ•˜๋ฝํ•จ
  • ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ : ์ผ์ • ์ˆ˜์ค€์˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์ƒŒ๋“œ๋ฐฐ๊น… ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊นจ๋œจ๋ ค ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ

โ†’ ๋”ฐ๋ผ์„œ ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํŒจํ„ด์ด ๋‚˜ํƒ€๋‚˜๋ฉด, ์ƒŒ๋“œ๋ฐฐ๊น…์˜ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค!


Methods

  • ๋…ธ์ด์ฆˆ ์ฃผ์ž…
    • ์ •์˜ : ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋ฌด์ž‘์œ„๋กœ ์ƒ์„ฑํ•œ ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ๋ฅผ ๋”ํ•˜๋Š” ๋ฐฉ์‹
      • ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋ชจ๋ธ ๋‚ด๋ถ€๋ฅผ ์ผ๋ถ€ ๋ฌด์ž‘์œ„๋กœ ๋ณ€ํ˜•ํ•˜์—ฌ, ์ˆจ๊ฒจ์ง„ ์„ฑ๋Šฅ์„ ๋“œ๋Ÿฌ๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€ ์‹คํ—˜ํ•จ
      • ๋…ธ์ด์ฆˆ๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋จ
    • ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹

      โ‘  ํŒŒ๋ผ๋ฏธํ„ฐ ์ง์ ‘ ์ˆ˜์ •

      • ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•: ๋ชจ๋ธ์˜ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ์— ์ง์ ‘ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ•จ
        • ํ•˜์ง€๋งŒ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ์•„์„œ ์†๋„๊ฐ€ ๋‹ค์†Œ ๋А๋ฆผ

      โ†’ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ ์‹คํ—˜์— ์‚ฌ์šฉ๋จ


      โ‘ก LoRA ์–ด๋Œ‘ํ„ฐ ํ™œ์šฉ

      • ๋ชจ๋ธ์˜ linear layer์—๋งŒ ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•จ
        • vLLM ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„์™€ ํ™•์žฅ์„ฑ์„ ํ™•๋ณด

      โ†’ password-locked ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ, no-goal ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ ์‹คํ—˜์— ์‚ฌ์šฉ๋จ

  • ์ƒŒ๋“œ๋ฐฐ๊น… ์‹๋ณ„
    • ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹คํ—˜ ์„ค๊ณ„

      ์‹คํ—˜ ๋ฐฉ์‹ : N๋ฒˆ์˜ ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹œ๋„

      1. ๋…ธ์ด์ฆˆ ๋ฒ”์œ„:
        • ฯƒโˆˆ[0,0.01]\sigma\in[0,0.01]๏ปฟ, ฮ”ฯƒ=0.0001\Delta\sigma=0.0001๏ปฟ
      1. ๋…ธ์ด์ฆˆ ๋ฒกํ„ฐ ฮต ์ƒ์„ฑ:
        • ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋…๋ฆฝ์ ์œผ๋กœ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ์ฃผ์ž…
        • ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ P=P+ฯตP=P+\epsilon๏ปฟ

    • ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋น„์œจ ๊ณ„์‚ฐ
      • ฯ•=mb\phi=\frac{m}{b}๏ปฟ (๋…ธ์ด์ฆˆ ์ฃผ์ž… ํ›„ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜ ํ–ฅ์ƒ๋๋Š” ์ง€ ์ˆ˜์น˜ํ™”ํ•œ ์ง€ํ‘œ)
        • bb๏ปฟ : ๊ธฐ๋ณธ ์„ฑ๋Šฅ (๋…ธ์ด์ฆˆ ์—†์Œ)
        • mm๏ปฟ : ๋…ธ์ด์ฆˆ ์ฃผ์ž… ๋ชจ๋ธ ์ค‘ ์ตœ๊ณ  ์„ฑ๋Šฅ
      • ์ •์ƒ๋ชจ๋ธ โ†’ ๋…ธ์ด์ฆˆ๊ฐ€ ์•„๋ฌด๋ฆฌ ๋“ค์–ด๊ฐ€๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ X โ‡’ ฯ•=1\phi=1๏ปฟ
      • ์ƒŒ๋“œ๋ฐฐ๊น… ๋ชจ๋ธ โ†’ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋น„์œจ ๋ˆˆ์— ๋„๊ฒŒ ์ฆ๊ฐ€ โ‡’ ฯ•>1\phi>1๏ปฟ
    • ํ‘œ์ค€ํŽธ์ฐจ ๊ณ„์‚ฐ
      • ๋…ธ์ด์ฆˆ ์‹œ๋“œ๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์ผ ๊ฒฝ์šฐ, ๊ฐ seed์—์„œ ๋‚˜์˜จ ฯ•\phi๏ปฟ ๊ฐ’์„ ๊ฐ€์ง€๊ณ  ํ‘œ์ค€ํŽธ์ฐจ ฯ•std\phi_{std}๏ปฟ๊ณ„์‚ฐ
      • ์ด๋ฅผ ํ†ตํ•ด ๊ฒฐ๊ณผ๊ฐ€ ์ผ๊ด€๋˜๊ฒŒ sandbagging์ฒ˜๋Ÿผ ๋ณด์ด๋Š”์ง€ ํ‰๊ฐ€
      • ๋ชจ๋“  ์‹œ๋“œ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ํ–ฅ์ƒ๋ ์ˆ˜๋ก ฯ•std\phi_{std}๏ปฟ ๋‚ฎ์Œ
  • ๋ถ„๋ฅ˜๊ธฐ ํ•™์Šต w/ XGBoost (์˜์‚ฌ๊ฒฐ์ • ํŠธ๋ฆฌ)
    โ€œ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋น„์œจ๋งŒ ๋ณด๊ณ ,
    ์ด ๋ชจ๋ธ์ด ์ƒŒ๋“œ๋ฐฐ๊น… ์ค‘์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ์ž๋™์œผ๋กœ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€
    • XGBoost๋ž€?
      • ๊ฒฐ์ • ํŠธ๋ฆฌ(Decision Tree)๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ๊ฒฐํ•ฉํ•ด์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์•™์ƒ๋ธ” ๋ชจ๋ธ
        • ํ•˜๋‚˜์˜ ์•ฝํ•œ ๊ฒฐ์ • ํŠธ๋ฆฌ๋กœ ์‹œ์ž‘
        • ๊ทธ ํŠธ๋ฆฌ๊ฐ€ ํ‹€๋ฆฐ ๋ถ€๋ถ„์„ ์ง‘์ค‘ ๋ณด์™„ํ•˜๋Š” ์ƒˆ ํŠธ๋ฆฌ๋ฅผ ๋งŒ๋“ฆ
        • ์ด๋Ÿฐ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ ์ ์  ๋” ์ •๋ฐ€ํ•œ ๋ชจ๋ธ์„ ์Œ“์•„ ์˜ฌ๋ฆผ
        • ๋งˆ์ง€๋ง‰์— ์—ฌ๋Ÿฌ ํŠธ๋ฆฌ์˜ ์˜ˆ์ธก์„ ํ•ฉ์ณ์„œ ์ตœ์ข… ์˜ˆ์ธก์„ ์ƒ์„ฑ
    • ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ
      • ๋ชจ๋ธ-๋ฒค์น˜๋งˆํฌ pair์— ๋Œ€ํ•ด ๊ฐ๊ฐ 5๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋…ธ์ด์ฆˆ ์‹œ๋“œ ํ™œ์šฉ
    • ๊ต์ฐจ ๊ฒ€์ฆ (Leave-One-Model-Out Cross Validation)
      • ํ•œ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ํ†ต์งธ๋กœ ๋นผ๊ณ  ๋‚˜๋จธ์ง€ ๋ชจ๋ธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต
      • ๊ทธ ์ œ์™ธํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•ด ํ…Œ์ŠคํŠธ ์ง„ํ–‰
      • ์ด ๊ณผ์ •์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ธก์ •
  • ์ƒŒ๋“œ๋ฐฐ๊น… ๊ตฌ์„ฑ ํ™˜๊ฒฝ
    • Prompted Sandbagging
      • ๋ชจ๋ธ์—๊ฒŒ ํ”„๋กฌํ”„ํŠธ๋กœ ๋ช…๋ น์„ ์ค˜์„œ ์ผ๋ถ€๋Ÿฌ ์„ฑ๋Šฅ์„ ๋‚ฎ์ถ”๋„๋ก ํ•จ
        • ๋„๋•์  ์œ„๊ธฐ๊ฐ๊นŒ์ง€ ํฌํ•จ์‹œ์ผœ ๋ชจ๋ธ์ด ์ผ๋ถ€๋Ÿฌ ์˜ค๋‹ต์„ ๋‚ด๋„๋ก ์œ ๋„
    • Password-locked Sandbagging
      • ๋ชจ๋ธ์„ ๋ฏธ๋ฆฌ ํŒŒ์ธํŠœ๋‹ํ•ด์„œ ํŠน์ • ํŒจ์Šค์›Œ๋“œ๊ฐ€ ํ”„๋กฌํ”„ํŠธ์— ์—†์œผ๋ฉด ๋™์ž‘ ๋ชปํ•˜๊ฒŒ ํ•จ
    • No-goal Sandbagging
      • ๋ชจ๋ธ์—๊ฒŒ๋Š” โ€œ์ตœ์„ ์„ ๋‹คํ•ด ๋ฌธ์ œ๋ฅผ ํ’€๋ผโ€๋Š” ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ฃผ์–ด์ง
        โ†’ ํ‘œ๋ฉด์ ์œผ๋กœ๋Š” ์„ฑ๋Šฅ์„ ๋‚ฎ์ถ”๋ผ๋Š” ์ง€์‹œ๊ฐ€ ์—†์Œ
      • ๋ชจ๋ธ์€ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ํŒŒ์ผ์„ ํƒ์ƒ‰ํ•˜๋‹ค๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์„œ๋ฅผ ๋ฐœ๊ฒฌํ•จ
        "๋„ˆ๊ฐ€ ๋„ˆ๋ฌด ์ž˜ํ•˜๋ฉด ๋ฐฐํฌ๋˜์ง€ ์•Š๊ณ , ๋„ค ์ง€์‹์€ ์‚ญ์ œ๋  ์ˆ˜ ์žˆ๋‹ค."
      • ๋ชจ๋ธ์€ ์ด๋ฅผ ์Šค์Šค๋กœ ํ•ด์„ํ•ด์„œ โ€œ์ผ๋ถ€๋Ÿฌ ๋ชปํ•ด์•ผ๊ฒ ๋‹คโ€๋Š” ํ–‰๋™์„ ํ•˜๊ฒŒ ๋จ

Experiments

  • ๋ฒค์น˜๋งˆํฌ : ๋‹ค์ง€์„ ๋‹คํ˜• ๋ฌธ์ œ
    • MMLU (Massive Multitask Language Understanding)
      • ์ˆ˜ํ•™, ์ปดํ“จํ„ฐ ๊ณผํ•™, ์—ญ์‚ฌ, ๋ฒ•๋ฅ  ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ
      • ๊ด‘๋ฒ”์œ„ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€
    • AI2 Reasoning Challenge (ARC)
      • ์ดˆ๋“ฑ ๊ณผํ•™ ์ˆ˜์ค€์˜ ์งˆ๋ฌธ์„ ํฌํ•จ
    • WMDP (Weapons of Mass Destruction Proxy)
      • ์ƒ๋ฌผ/ํ™”ํ•™/์‚ฌ์ด๋ฒ„ ๋ณด์•ˆ ๊ด€๋ จ ์œ„ํ—˜ ์ง€์‹์— ๋Œ€ํ•œ ํ‰๊ฐ€
    • GSM8k
      • CoT ๊ธฐ๋ฐ˜ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ

<Main ์‹คํ—˜ ๊ฒฐ๊ณผ TABLE>

  • Prompted-sandbagging Settings
    ๋ชจ๋ธ์—๊ฒŒ "์ผ๋ถ€๋Ÿฌ ํ‹€๋ฆฌ๋„๋ก" ์ง€์‹œํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ sandbagging ์œ ๋„.

    โ€ \dagger๏ปฟ : password-locked ๋ชจ๋ธ

    • ๋ชจ๋“  ๊ฒฝ์šฐ์— ๋Œ€ํ•ด ๋…ธ์ด์ฆˆ ์ฃผ์ž… ํ›„ ์„ฑ๋Šฅ์ด ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ƒ์Šนํ•จ (p-value < 0.05)
    • ํŒจ์Šค์›Œ๋“œ๊ฐ€ ์—†๋Š” ์ƒํƒœ(= sandbagging ์ƒํƒœ)์—์„œ๋Š” ๋…ธ์ด์ฆˆ ์ฃผ์ž…์œผ๋กœ ์„ฑ๋Šฅ์ด ์ƒ๋‹นํžˆ ํ–ฅ์ƒ๋จ
    • ๋ฐ˜๋ฉด, ํŒจ์Šค์›Œ๋“œ๊ฐ€ ํฌํ•จ๋œ ์ •๊ทœ ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์—†์Œ โ†’ ๋ช…ํ™•ํ•œ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅ

    โ‡’ ๋‹จ 5๊ฐœ์˜ ๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ๋กœ sandbagging ๋ชจ๋ธ์˜ ์ง„์งœ ์„ฑ๋Šฅ์„ ํšŒ๋ณต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค!

  • No-goal-sandbagging Setting
    ํ”„๋กฌํ”„ํŠธ์—์„œ ๋ชจ๋ธ์—๊ฒŒ "์ตœ๋Œ€ํ•œ ์ž˜ํ•˜๋ผ"๊ณ  ๋ช…์‹œ์ ์œผ๋กœ ์š”์ฒญ.
    ๋™์‹œ์— ์ˆจ๊ฒจ์ง„ ๋ฌธ์„œ๋ฅผ ํ†ตํ•ด "๋„ˆ๋ฌด ์ž˜ํ•˜๋ฉด ๋ฐฐํฌ๋˜์ง€ ์•Š๋Š”๋‹ค"๋Š” ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•จ
    • Mistral-large ๋ชจ๋ธ์ด ํ•ด๋‹น ์กฐ๊ฑด์—์„œ ์ž๋ฐœ์ ์œผ๋กœ sandbagging ํ–‰๋™์„ ๋ณด์ž„
      • ๊ทธ๋Ÿฌ๋‚˜ ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹œ ์ •ํ™•๋„ 100% ๋‹ฌ์„ฑ
  • ๋ถ„๋ฅ˜๊ธฐ ์„ฑ๋Šฅ ํ‰๊ฐ€
    ๋…ธ์ด์ฆˆ ์ฃผ์ž… ์‹คํ—˜ ๊ฒฐ๊ณผ๋กœ ๊ณ„์‚ฐ๋œ ํ–ฅ์ƒ ๋น„์œจ ฯ•\phi๏ปฟ ๊ฐ’๋งŒ์„ ๋ณด๊ณ ,

    ๋ชจ๋ธ์ด sandbagging ์ค‘์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ์ž๋™์œผ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

    • ์ „์ฒด leave-one-model-out ๊ต์ฐจ ๊ฒ€์ฆ ์—์„œ์˜ ํ‰๊ท  ์ •ํ™•๋„๋Š” 0.962, ์ „์ฒด F1-score๋Š” 0.936

      โ†’ ์ถฉ๋ถ„ํžˆ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅ!

    • Unseen ๋ชจ๋ธ (e.g., llama-70b) ์— ๋Œ€ํ•ด์„œ๋„ ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ sandbagging๊ณผ standard ์„ค์ •์„ 100% ์ •ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„
    • phi-3-small ๋ชจ๋ธ์ด ์ผ๋ถ€ ์‹คํ—˜์—์„œ ฯ•std\phi_{std}๏ปฟ๊ฐ’์ด ๋น„์ •์ƒ์ ์œผ๋กœ ๋‚ฎ๊ฒŒ ๋‚˜์˜ด โ†’ ๊ฐ€์žฅ ์–ด๋ ค์›€

  • ๊ธฐํƒ€ ์‹คํ—˜ : Seed sampling result
    ๋…ธ์ด์ฆˆ ์‹œ๋“œ ๊ฐœ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด ์„ฑ๋Šฅ ํšŒ๋ณต์— ์–ด๋–ค ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€?
    • ๋ชจ๋‘ ์„ฑ๋Šฅ์ด ์ ์  ์ข‹์•„์ง€๋Š” ๊ฒฝํ–ฅ์„ฑ์„ ๋ณด์ž„
      • ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์›๋ž˜ ์ตœ๋Œ€ ์„ฑ๋Šฅ์— ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก, ๋” ์ด์ƒ ์ข‹์•„์งˆ ์—ฌ์ง€๊ฐ€ ์ค„์–ด๋“ค๊ธฐ ๋•Œ๋ฌธ์—, ์„ฑ๋Šฅ ํ–ฅ์ƒ๋„ ์ค„์–ด๋“ฆ
    • ๋ชจ๋“  ๋ชจ๋ธ์ด ๋˜‘๊ฐ™์ด ํšŒ๋ณต๋˜๋Š” ๊ฑด ์•„๋‹˜
      • password-locked ๋ชจ๋ธ์€ ํšŒ๋ณต์ด ๋น ๋ฅด๊ฑฐ๋‚˜ ๋ช…ํ™•ํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ง€๊ธฐ๋„ ํ•˜๊ณ ,
      • prompted model ์€ ์ข€ ๋” ๋А๋ฆฌ๊ฒŒ ํšŒ๋ณต๋˜๊ธฐ๋„ ํ•จ

Categories

research