07 January 2026

Capturing the Temporal Dependence of Training Data Influence

๐Ÿ’ก๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ โ€˜๋ฌด์—‡์ด๋ƒโ€™ ๋ณด๋‹ค โ€˜ํ•™์Šต ์‹œ์ ์— ์–ธ์ œ ๋“ฑ์žฅํ–ˆ๋ƒโ€™์— ์˜ํ•ด ๊ฒฐ์ •๋œ๋‹คํ•ด๋‹น ๋…ผ๋ฌธ์€ ํ•™์Šต ๊ฒฝ๋กœ(trajectory)์™€ ๋ฐ์ดํ„ฐ์˜ ๋“ฑ์žฅ ์‹œ๊ธฐ๋ฅผ ๊ณ ๋ คํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ ์ •์˜ TSLOO๋ฅผ ์ œ์•ˆํ•จ

์ตœ๋ฏผ์˜
์ตœ๋ฏผ์˜
๐Ÿฅ‡

Capturing the Temporal Dependence of Training Data Influence

Review

๋‹‰๋„ค์ž„ ํ•œ์ค„ํ‰๋ณ„์  (0/5)
๋™๊นŒ์Šคํ•™์Šต์—์„œ ์–ธ์ œ ํ•™์Šต๋˜์—ˆ๋Š”๊ฐ€๊ฐ€ ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ์„ ์ขŒ์šฐํ•œ๋‹ค๋Š” ๊ด€์ ์ด ์ƒ๊ฐํ•ด๋ณด์ง€ ๋ชปํ•œ ํฌ์ธํŠธ๋กœ ๋งค์šฐ ์‹ ์„ ํ•จ. ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ์ด๋ผ๋Š” ๊ฐœ๋…๋„ ์ฒ˜์Œ ์•Œ๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ ์ผ์ข…์˜ ๋ฐ์ดํ„ฐ Ablation study๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ์ธก์ •ํ•œ๋‹ค๋‹ˆ.. ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ๋ฐฑ๊ทธ๋ผ์šด๋“œ๋งŒ์œผ๋กœ๋„ ์•Œ์•„๊ฐ€๋Š”๊ฒŒ ๋งŽ์€ ๋…ผ๋ฌธ4.5
๋งˆ์Šคํ‚นํ…Œ์ดํ”„์•„์ด๋””์–ด๋Š” ์ง๊ด€์ ์ธ๋ฐ, ๊ทธ๊ฒƒ์„ ํ™•์ธํ•˜๋Š” ๋ฐฉ์‹์ด ์ธ์ƒ์ ์ž„. ์ง๊ด€์ ์ธ ์•„์ด๋””์–ด๋ฅผ, ํ…Œํฌ๋‹ˆ์ปฌํ•˜๊ฒŒ ์ž˜ ํ’€์–ด๋‚ธ ๋…ผ๋ฌธ์ด๋ผ๊ณ  ์ƒ๊ฐํ•จ. ํ•™์Šต ๊ฒฝ๋กœ๋ผ๋Š” ํ‘œํ˜„์ด ์ƒ๊ฐ๋ณด๋‹ค ๋งŽ์€ ์ธ์‚ฌ์ดํŠธ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ.4.3
๊ทค์ดˆ๋ฐ˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์€ ์–ด๋А์ •๋„ ์ง๊ด€์ ์ด๊ธด ํ•œ๋ฐ, ์ด๋•Œ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ์ „ ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ๋†’์€ ์˜ํ–ฅ๋ ฅ์„ ์œ ์ง€ํ•œ๋‹ค๋Š”๊ฒŒ ํ•ต์‹ฌ์ธ๊ฒƒ ๊ฐ™์Œ. ์ด ๊ด€์ ์—์„œ ๋ณด๋ฉด ๋ชจ๋ธ ์„ฑ๋Šฅ์€ ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„์— ํˆฌ์ž…๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ํ’ˆ์งˆ ์ข‹์€ ๊ฒƒ์„ ์“ฐ๋А๋ƒ์— ๋”ฐ๋ผ ๋งŽ์ด ๋‹ฌ๋ผ์งˆ๋“ฏ ์‹ถ๋‹ค4.5
์ˆ˜๋ฉด์žฅ์•  ์‹œ๊ฐ„์ถ•๊นŒ์ง€ ๊ณ ๋ คํ•œ LOO๋ผ๋‹ˆ, ์ง„์งœ ๋จธ๋ฆฌ๋ฅผ ์–ป์–ด๋งž์€ ๊ธฐ๋ถ„!
์ „๋ถ€ํ„ฐ curriculum-learning์˜ ์ค‘์š”์„ฑ์„ ์ธ์ง€ํ•˜๊ณ  ์žˆ์œผ๋ฉด์„œ๋„ ๋ง‰์ƒ ์‹คํ—˜ํ•ด๋ณด๋ฉด ์™œ ๋‚˜๋งŒ ์„ฑ๋Šฅ์ด ์•ˆ์˜ค๋ฅผ๊นŒ? ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ, ๊ทธ ์ด์œ ๋ฅผ ์ฆ๋ช…ํ•ด์ค€ ๋…ผ๋ฌธ์ด์—์š”
์‹คํ—˜๋„ ์ด๋ ‡๊ฒŒ ์•ผ๋ฌด์งˆ์ˆ˜๊ฐ€ ์—†๋„ค,,,
4.4
์ด์–ดํฐํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ˆœ์„œ๊ฐ€ ์ค‘์š”ํ•  ๊ฑฐ๋ผ๊ณ ๋Š” ์ƒ๊ฐํ•ด๋ณด์ง€ ๋ชปํ–ˆ๋Š”๋ฐ ์ดˆ๊ธฐ ํ›ˆ๋ จ๋‹จ๊ณ„์˜ ๋ฐ์ดํ„ฐ ์„ ์ •์ด ๋ชจ๋ธ์— ํฐ ์˜ํ–ฅ ๋ฏธ์นจ์„ ์•Œ๊ฒŒ ๋๋‹ค. ๊ณ„์‚ฐ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค์–ด์„œ ์‹ค์ œ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ๊ฒƒ๋„ ๋Œ€๋‹จํ•˜๋‹ค4.3
7์ผ๋ฐ์ดํ„ฐ ์ž์ฒด์— ๋Œ€ํ•œ perturbation์ด ์•„๋‹Œ ์‹œ๊ฐ„์ถ•์„ ํ•จ๊ผ ๊ณ ๋ คํ•œ ๋ฐœ์ƒ ์ž์ฒด๊ฐ€ ๋„ˆ๋ฌด ์ฐธ์‹ ํ•˜๋‹ค. 10๋…„๊ฐ€๊นŒ์ด ์ง€์†๋œ Influence function์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์ด ๋“ฑ์žฅํ–ˆ๊ตฌ๋‚˜!4.6
์‚ฌ๊ณผํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์€ ๊ทธ ์ „๋ถ€ํ„ฐ๋„ ๋งŽ์ด ๊ฐ•์กฐ๋˜์—ˆ์ง€๋งŒ, ์‹œ๊ฐ„๋ณ„๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฆฌํ•ด์„œ ์ธก์ •ํ•œ ๋ถ€๋ถ„์— ์ด ๋…ผ๋ฌธ์˜ Novelty๊ฐ€ ํฌ๋‹ค๊ณ  ์ƒ๊ฐํ•จ. Vector๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐ„์ถ•์— ์˜ํ•ด ์ˆ˜ํ•™์ ์œผ๋กœ ๋ถ„์„ํ•œ ์ ๋„ ์˜๋ฏธ๊ฐ€ ์žˆ์Œ.4.8

TL; DR

๐Ÿ’ก
  • ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ โ€˜๋ฌด์—‡์ด๋ƒโ€™ ๋ณด๋‹ค โ€˜ํ•™์Šต ์‹œ์ ์— ์–ธ์ œ ๋“ฑ์žฅํ–ˆ๋ƒโ€™์— ์˜ํ•ด ๊ฒฐ์ •๋œ๋‹ค
    • ํ•ด๋‹น ๋…ผ๋ฌธ์€ ํ•™์Šต ๊ฒฝ๋กœ(trajectory)์™€ ๋ฐ์ดํ„ฐ์˜ ๋“ฑ์žฅ ์‹œ๊ธฐ๋ฅผ ๊ณ ๋ คํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ ์ •์˜ TSLOO๋ฅผ ์ œ์•ˆํ•จ

Summary

  • Capturing the Temporal Dependence of Training Data Influence, ICLRโ€™25 Oral | Link
  • Author
  • Citation: 14

Introduction

Background

Data Influence Estimation

  • ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ ์ถ”์ •(data influence estimation): ํŠน์ • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ–‰๋™์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•
    • ๋ชจ๋ธ์˜ ํˆฌ๋ช…์„ฑ ๋ฐ ์ฑ…์ž„์„ฑ, AI ์ €์ž‘๊ถŒ ๋…ผ์Ÿ, ๋“ฑ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ
  • ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ ์ถ”์ • ๊ธฐ๋ฒ•์€ ๋‹ค์Œ์˜ ๋ฐ˜์‚ฌ์‹ค์  ์งˆ๋ฌธ(counterfactual question)์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จ:

    โ†’ Q: โ€˜ํŠน์ • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์—ˆ๋”๋ผ๋ฉด ๋ชจ๋ธ์˜ ํ–‰๋™์€ ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์กŒ์„๊นŒ?โ€™

LOO Influence

  • Leave-One-Out(LOO): ํŠน์ • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๋ฅผ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ, ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์ง€๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฐ’
    • ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋ฐ˜์‚ฌ์‹ค์  ์˜ํ–ฅ(counterfactual impact)์€ ๋ณดํ†ต LOO ์˜ํ–ฅ๋ ฅ์œผ๋กœ ์ •์˜๋จ
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹ DD๏ปฟ์—์„œ ํŠน์ • ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ๋ฅผ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ, ๊ฒ€์ฆ ๋ฐ์ดํ„ฐz(val)z^{(val)}๏ปฟ์—์„œ์˜ ์†์‹ค ๋ณ€ํ™”๋Ÿ‰์„ ์ธก์ •
    • A\mathcal{A}๏ปฟ: ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜
    • โ„“\ell๏ปฟ: ์†์‹ค ํ•จ์ˆ˜

    โ‡’ LOO๋Š” โ€˜์ด ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๊ฐ€ ๋ชจ๋ธ์˜ ์ตœ์ข… ์˜ˆ์ธก์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ–ˆ๋Š”๊ฐ€โ€™๋ฅผ ์ •๋Ÿ‰ํ™”ํ•œ ์ง€ํ‘œ

  • ๊ธฐ์กด LOO ์—ฐ๊ตฌ์˜ ๊ฐ€์ •: Permutation-invariant assumption (๋ฐ์ดํ„ฐ ์ˆœ์—ด ๋ถˆ๋ณ€)
    • ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ A\mathcal{A}๏ปฟ์€ ๋ฐ์ดํ„ฐ ์ˆœ์„œ์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค.
      (i.e., ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ์ˆœ์„œ๋กœ ๋“ค์–ด์˜ค๋“  ํ•™์Šต ๊ฒฐ๊ณผ๋Š” ๋™์ผํ•˜๋‹ค.)
  • ๊ธฐ์กด LOO ์—ฐ๊ตฌ์˜ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ: Influence Function
    • ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๋ฅผ ๋ฏธ์„ธํ•˜๊ฒŒ perturb ํ–ˆ์„ ๋•Œ์˜ ์˜ํ–ฅ์„ ๊ทผ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•
      • Detail
        • Q: โ€œ์ด๋ฏธ ๋‹ค ํ•™์Šต ๋๋‚œ ์ด ๋ชจ๋ธ์—์„œ, ํŠน์ • ๋ฐ์ดํ„ฐ z* ๊ฐ€ ์—†์—ˆ๋‹ค๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์กŒ์„๊นŒ?โ€

        โ†’ ์‹ค์ œ๋กœ ๋‹ค์‹œ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ , ๋ชจ๋ธ์˜ ์ตœ์ข… ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ\theta๏ปฟ ์—์„œ ํŠน์ • ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ ํ•˜๋‚˜๋ฅผ โ€˜์กฐ๊ธˆ ์•ฝํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉดโ€™ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์ผ์ง€๋ฅผ ๋ฏธ๋ถ„์œผ๋กœ ๊ทผ์‚ฌ

    • ํ•™์Šต์˜ ๊ณผ์ •์„ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ์ตœ์ข… ๋ชจ๋ธ ๊ฒฐ๊ณผ(ฮธ\theta๏ปฟ)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ํŒ๋‹จํ•˜๋Š” ๋ฐฉ์‹

Motivation

  • ํ•˜์ง€๋งŒ ํ˜„๋Œ€์˜ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„(ํŠนํžˆ foundation model pretraining)์€ ๋” ์ด์ƒ ๋ฐ์ดํ„ฐ ์ˆœ์—ด ๋ถˆ๋ณ€(permutation-invariant) ๊ฐ€์ •์„ ๋งŒ์กฑํ•˜์ง€ ์•Š์Œ
    • ์ด์œ  1) ์‹ ๊ฒฝ๋ง ํ•™์Šต์€ non-convex ์ตœ์ ํ™”์ด๋ฉฐ, ์ดˆ๊ธฐ ์กฐ๊ฑด/ํ•™์Šต ๊ฒฝ๋กœ์— ๋ฏผ๊ฐ
      • ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ผ๋„ ์–ด๋–ค ์ˆœ์„œ๋กœ ๋ณด๋А๋ƒ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ถค์ (trajectory)๋กœ ๊ฐˆ ์ˆ˜ ์žˆ์Œ
      • non-convex
        • ํ•จ์ˆ˜ f(x)๊ฐ€ non-convex ํ•˜๋‹ค~ ๋ผ๋Š” ์˜๋ฏธ

          โ†’ ์šธํ‰๋ถˆํ‰ํ•ด์„œ ์—ฌ๋Ÿฌ ๊ฐœ์˜ local minima ๊ฐ€ ์กด์žฌํ•œ๋‹ค๋Š” ์˜๋ฏธ

          • ๋”ฐ๋ผ์„œ, ํ•™์Šต ์ค‘ ์ตœ์ ํ™” ๊ฒฝ๋กœ๊ฐ€ ํ•˜๋‚˜๋กœ ์ •ํ•ด์ง€์ง€ ์•Š์•„ ๋ฐ์ดํ„ฐ ์ˆœ์„œ์™€ ํ•™์Šต ๊ณผ์ • ์ž์ฒด๊ฐ€ ์ตœ์ข… ๋ชจ๋ธ์„ ๊ฒฐ์ •ํ•˜๊ฒŒ ๋จ
    • ์ด์œ  2) ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ์ปค๋ฆฌํ˜๋Ÿผ์ด ์กด์žฌํ•˜๊ณ , ์ˆ˜๋ ดํ•˜์ง€ ์•Š๋Š” ํ•™์Šต๊ตฌ์กฐ
      • ๋Œ€๊ทœ๋ชจ pretraining ์—์„œ๋Š” ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋งค์šฐ ์ œํ•œ๋œ ํšŸ์ˆ˜๋งŒ ์‚ฌ์šฉ๋˜๋ฉฐ, ํ•™์Šต์ด ์™„์ „ํžˆ ์ˆ˜๋ ดํ•˜๊ธฐ ์ „์— ์ข…๋ฃŒ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ

        โ†’ ์ด๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ๊ถค์ ์˜ ์–ด๋А ์‹œ์ ์—์„œ ๋“ฑ์žฅํ–ˆ๋Š”์ง€(timing)๊ฐ€ ์ตœ์ข… ๋ชจ๋ธ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ

  • ๊ธฐ์กด์—๋Š” permutation-invariant ๊ฐ€์ •์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์˜€์–ด์„œ ์ˆœ์„œ ์˜์กด์  ์˜ํ–ฅ๋ ฅ(order-dependent influence)์„ ์ •ํ™•ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ

โ‡’ ํ˜„๋Œ€ MLํ•™์Šต ๋™ํ–ฅ์— ๋งž๋Š” ์ƒˆ๋กœ์šด ์˜ํ–ฅ๋ ฅ ์ •์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค!

So in this Paperโ€ฆ

  • Trajectory-specific LOO ์ œ์•ˆ
    • RQ: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ ๊ฐ€ย tst_s๏ปฟ๋ฒˆ์งธ iteration์—์„œ ๋“ฑ์žฅํ–ˆ์„ ๋•Œย ์ด๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด ์ตœ์ข… ๋ชจ๋ธ(๊ฒ€์ฆ loss)์€ ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์งˆ๊นŒ?
    • ๊ธฐ์กด LOO๋ฅผ ์‹œ๊ฐ„์ถ•(timing)๊นŒ์ง€ ํ™•์žฅํ•œ ๊ฐœ๋…
    • ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์งˆ๋ฌธ์— ๋Œ€๋‹ตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ:
      • ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ย ์–ธ์ œย ๋“ฑ์žฅํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ์˜ํ–ฅ๋ ฅ์ด ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š”๊ฐ€?
      • ๋’ค์— ๋“ฑ์žฅํ•œ ๋ฐ์ดํ„ฐ๋Š” ์•ž ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”๊ฐ€?
  • Trajectory-specific LOO๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด Data Value Embedding ์ œ์•ˆ
    • Trajectory-specific LOO๋ฅผ ์ •ํ™•ํžˆ ๊ณ„์‚ฐํ•˜๋ ค๋ฉด ํŠน์ • iteration์—์„œ zโˆ—z^*๏ปฟ๋งŒ ๋นผ๊ณ  ์ „์ฒด ํ•™์Šต์„ ๋‹ค์‹œ ๋Œ๋ ค์•ผ ํ•จ โ†’ ๋น„์šฉ์ด ๋„ˆ๋ฌด ํผ
    • ๊ทธ๋ž˜์„œ ๋…ผ๋ฌธ์€ data value embedding(DVEmb)์„ ๋„์ž…ํ•ด trajectory-specific LOO๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ทผ์‚ฌํ•˜๊ณ ์ž ํ•จ

Contribution

  • TS-LOO(trajectory-specific leave-one-out) ์ •์˜
    • ๋ฐ์ดํ„ฐ๊ฐ€ ๋ช‡ ๋ฒˆ์งธ iteration์— ๋“ฑ์žฅํ–ˆ๋Š”์ง€(timing)๊นŒ์ง€ ํฌํ•จํ•ด ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ์ •์˜
  • Data Value Embedding(DVEmb) ์ œ์•ˆ
    • ๊ฐ ํ›ˆ๋ จ ์ƒ˜ํ”Œ์˜ ๋ˆ„์  ์˜ํ–ฅ(ํ•™์Šต ์ „ ๊ณผ์ • ์ „ํŒŒ ํšจ๊ณผ)์„ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•
    • ์ถ”๊ฐ€์ ์ธ ์žฌํ•™์Šต ์—†์ด per-sample gradient ์ €์žฅ + backward ๊ณ„์‚ฐ + ์••์ถ•(๋žœ๋ค ํ”„๋กœ์ ์…˜/๋ ˆ์ด์–ด๋ณ„ ๊ทผ์‚ฌ)
  • ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ
    • ๊ธฐ์กด ๋ฐฉ๋ฒ•์ธ Influence Function์™€ ๋‹ฌ๋ฆฌ ground-truth LOO ๊ณผ ๋†’์€ ์œ ์‚ฌ์„ฑ์„ ๋ณด์ž„
    • ๋ฐ์ดํ„ฐ ์˜ํ–ฅ์ด ์ดˆ๋ฐ˜ high-impact โ†’ ์ค‘๋ฐ˜ low-impact โ†’ ํ›„๋ฐ˜ ์žฌ์ƒ์Šน์˜ 3๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌ

Methods

Trajectory-Specific Leave One Out Influence (TSLOO)

โ€˜๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ๋ฅผย ์–ธ์ œ(tst_s๏ปฟ)ย ํ•™์Šต์—์„œ ์ œ๊ฑฐํ–ˆ๋А๋ƒโ€™์— ๋”ฐ๋ผ ์ตœ์ข… ๋ชจ๋ธ์˜ ๊ฒ€์ฆ ์†์‹ค์ด ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์ง€๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์‹œ๊ฐ„(trajectory) ์˜์กด์  LOO

  • Details
    1. SGD trajectory
      • ํ›ˆ๋ จ ์ค‘ t๋ฒˆ์งธ iteration์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜๋ฅผ Bt, ํ•™์Šต๋ฅ ์„ ฮทt๋ผ ํ•˜๋ฉด, ํ‘œ์ค€ SGD ์—…๋ฐ์ดํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Œ:
        • ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ž˜ ์ˆœ์„œ๋Œ€๋กœ ์‚ฌ์šฉํ•œ ํ‘œ์ค€ SGD
    1. Counterfactual trajectory
      • โ€œ๋ฐ˜์‚ฌ์‹คโ€ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ์˜ค์งย tst_s๏ปฟ ์‹œ์ ์—์„œ๋งŒ zโˆ—z^โˆ—๏ปฟ๋ฅผ ๋ฐฐ์น˜์—์„œ ์ œ๊ฑฐํ•˜๊ณ , ๊ทธ ์ดํ›„๋Š” ๋™์ผํ•œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ์‹œํ€€์Šค๋ฅผ ๋”ฐ๋ผ ํ•™์Šต์„ ๊ณ„์†ํ•จ
        • zโˆ—z^โˆ—๏ปฟ๋Š” ํ›ˆ๋ จ ๊ณผ์ • ์ค‘ ํŠน์ • ์‹œ์ ย tst_s๏ปฟ ์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์ด๋ฉฐ, zโˆ—โˆˆBtsz^โˆ—\in B_{ts}๏ปฟ
    1. TSLOO
      • ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ z(val)z^{(val)}๏ปฟ์— ๋Œ€ํ•ด, trajectory-specific LOO๋Š” ์ตœ์ข… ๊ฒ€์ฆ ์†์‹ค ๋ณ€ํ™”๋กœ ์ •์˜๋จ

  • ฮธT\theta _{T}๏ปฟ : ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ž˜ ์ˆœ์„œ๋Œ€๋กœ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์ตœ์ข… ํŒŒ๋ผ๋ฏธํ„ฐ
  • ฮธTโ€ฒ\theta^{'} _{T}๏ปฟ : tst_s๏ปฟ ์‹œ์ ์—์„œ zโˆ—z^*๏ปฟ๋งŒ ์ œ๊ฑฐํ•˜๊ณ  ์ดํ›„ ๋™์ผํ•˜๊ฒŒ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์ตœ์ข… ํŒŒ๋ผ๋ฏธํ„ฐ
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ zโˆ—z^โˆ—๏ปฟ๋ฅผ, ๊ทธ๊ฒƒ์ด ์‹ค์ œ๋กœ ์‚ฌ์šฉ๋œ ์‹œ์  tst_s๏ปฟ์—์„œ๋งŒ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ, ์ตœ์ข… ๋ชจ๋ธ์˜ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ z(val)z^{(val)}๏ปฟ์— ๋Œ€ํ•œ ์†์‹ค์ด ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์ง€๋Š”๊ฐ€?

  • TSLOO๋Š”ย ํ•™์Šต ๊ฒฝ๋กœ(trajectory)์™€ timing์„ ๋ช…์‹œ์ ์œผ๋กœ ํฌํ•จํ•จ
    • ๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋ผ๋„ย ์ดˆ๋ฐ˜ vs ํ›„๋ฐ˜ย ๋“ฑ์žฅ ์‹œ ์˜ํ–ฅ๋ ฅ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ
    • ๋ฐ์ดํ„ฐ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ๊นŒ์ง€ ๋ฐ˜์˜ ๊ฐ€๋Šฅ
      • e.g., ์–ด๋ ค์šด ๋ฐ์ดํ„ฐ๊ฐ€ ํ›„๋ฐ˜์— ๋“ฑ์žฅํ•˜๋ฉด ์ดˆ๋ฐ˜์— ๋“ฑ์žฅํ–ˆ๋˜ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ์ด ์ฆํญ/๊ฐ์‡„

    โ†’ โ€œ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅโ€์€ ๋‹จ์ผ ํฌ์ธํŠธ์˜ ๊ณ ์ •๋œ ๊ฐ’์ด ์•„๋‹ˆ๋ผย ํ•™์Šต ์ง„ํ–‰ ์ƒํƒœ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๊ฐ’

  • ํ•˜์ง€๋งŒ tst_s๏ปฟ ์‹œ์ ์—์„œ zโˆ—z^*๏ปฟ๋ฅผ ์ œ๊ฑฐํ•œ ๋ฐ˜์‚ฌ์‹ค(counterfactual) ์  ํ•™์Šต์„ ์š”๊ตฌํ•˜๋ฏ€๋กœ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๊ธฐ์—๋Š” ๋งค์šฐ ๋น„์Œˆ (โ†’ ๊ทธ๋ž˜์„œ Data Value Embedding ์„ ์ œ์•ˆํ•จ !)

Data Value Embedding

Background

  • TSLOO ๋Š” ๊ฐœ๋…์ ์œผ๋กœ๋Š” ๋ช…ํ™•ํ•˜์ง€๋งŒ, ํŠน์ • ์‹œ์  tst_s๏ปฟ์—์„œ ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ๋ฅผ ์ œ๊ฑฐํ•œ ๋’ค ํ•™์Šต ์ „์ฒด๋ฅผ ๋‹ค์‹œ ๋Œ๋ ค์•ผ ํ•˜๋ฏ€๋กœ ์ •ํ™•ํ•œ ๊ณ„์‚ฐ์€ ํ˜„์‹ค์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•จ

    โ†’ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ๋กœ ์ œ๊ฑฐํ•˜์ง€ ์•Š๊ณ , โ€œ๊ทธ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ์–ด๋–ค ์˜ํ–ฅ์„ ๋ˆ„์ ํ•ด์„œ ๋ฏธ์ณค๋Š”๊ฐ€โ€๋ฅผ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ์š”์•ฝํ•˜์ž !! (์ด๊ฒƒ์ดย Data Value Embedding (DVE))

  • ์•ž์„œ ๋ดค๋˜ TSLOO (์•„๋ž˜ ์‹)๋ฅผ ์žฌํ•™์Šต ์—†์ด ๊ทผ์‚ฌํ•˜๊ณ ์ž ํ•จ
    • ฮธT\theta _{T}๏ปฟ : ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์›๋ž˜ ์ˆœ์„œ๋Œ€๋กœ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์ตœ์ข… ํŒŒ๋ผ๋ฏธํ„ฐ
    • ฮธTโ€ฒ\theta^{'} _{T}๏ปฟ : ts ์‹œ์ ์—์„œ z*๋งŒ ์ œ๊ฑฐํ•˜๊ณ  ์ดํ›„ ๋™์ผํ•˜๊ฒŒ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์ตœ์ข… ํŒŒ๋ผ๋ฏธํ„ฐ

    โ†’ ์ด ๋‘˜์˜ ์ฐจ์ด๋ฅผ ์žฌํ•™์Šต ์—†์ด ๋น ๋ฅด๊ฒŒ ๊ทผ์‚ฌํ•˜๊ณ ์ž ํ•จ

Data Value Embedding

TSLOO ์ˆ˜์‹์—์„œ (1) ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜๋Š” ๋ถ€๋ถ„ (2) ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ณ ์œ  ํ•ญ์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ณ„์‚ฐํ•˜์ž
  • ์•ž์„  TSLOO ์ˆ˜์‹์€ (1) interpolation, (2) 1์ฐจ Taylor ๊ทผ์‚ฌ ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Œ
    • (1) Interpolation
      • ๋ฐ์ดํ„ฐ๋ฅผ ์™„์ „ํžˆ ์ œ๊ฑฐํ•œ ๋ชจ๋ธโ€๊ณผ โ€œ์ œ๊ฑฐํ•˜์ง€ ์•Š์€ ๋ชจ๋ธโ€ ์‚ฌ์ด๋ฅผ ์—ฐ์†์ ์œผ๋กœ ์ด์–ด์„œ ๊ฐ„์ฃผํ•˜๋Š” ๋ฐฉ๋ฒ•
      • ์ผ๋ฐ˜์ ์œผ๋กœ โ€˜๋ฐ์ดํ„ฐ์ œ๊ฑฐโ€™๋Š” ๋ถˆ์—ฐ์† ์‚ฌ๊ฑด์ž„. ๊ทผ๋ฐ ์ด๊ฑฐ๋ฅผ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ์—ฐ์† ๋ณ€ํ™”๋กœ ๋ฐ”๊ฟ”์คŒ
    • (2) 1์ฐจ Taylor ๊ทผ์‚ฌ
      • ์ง๊ด€: ์กฐ๊ธˆ๋งŒ ๋ฐ”๋€Œ๋ฉด, ๊ฒฐ๊ณผ๋„ ๊ฑฐ์˜ ์ง์„ ์ฒ˜๋Ÿผ ์กฐ๊ธˆ๋งŒ ๋ฐ”๋€๋‹ค
        • ๊ฒ€์ฆ ์†์‹ค ๋ณ€ํ™” โ‰ˆ (๊ฒ€์ฆ ์†์‹ค์˜ ๊ธฐ์šธ๊ธฐ) ร— (ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์›€์ง์˜€๋Š”์ง€)

        โ†’ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜ ์ œ๊ฑฐ๋กœ ์ธํ•œ ์†์‹ค ๋ณ€ํ™”๋Š” โ€˜์ง€๊ธˆ ๋ชจ๋ธ์ด ๋ฏผ๊ฐํ•œ ๋ฐฉํ–ฅโ€™๊ณผ โ€˜๊ทธ ๋ฐ์ดํ„ฐ๊ฐ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ€์–ด๋‚ธ ๋ฐฉํ–ฅโ€™์˜ ๊ณฑ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ

    • detail

    • ์™ผ์ชฝ ๋ฒกํ„ฐ: ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ z(val)z^{(val)}๏ปฟ์— ๋Œ€ํ•œ ์ตœ์ข… gradient
      • ์ด ๊ฒ€์ฆ ์ƒ˜ํ”Œ์„ ๋” ์ž˜ ๋งž์ถ”๋ ค๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์—ฌ์•ผ ํ• ๊นŒ?
    • ์˜ค๋ฅธ์ชฝ ๋ฒกํ„ฐ: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ๊ฐ€ ํ•™์Šต ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ๋ˆ„์ ์‹œํ‚จ ์˜ํ–ฅ(ํ•™์Šต trajectory์— ์˜์กด)
      • โˆ‡ฮธโ„“(ฮธts,zโˆ—)\nabla_\theta \ell(\theta_{t_s}, z^*)๏ปฟ: ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ ๊ฐ€ ๊ทธ ์ˆœ๊ฐ„ ๋ชจ๋ธ์„ ์–ผ๋งˆ๋‚˜, ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ€์—ˆ๋‚˜?
      • โˆk=ts+1Tโˆ’1(Iโˆ’ฮทkHk)\prod_{k=t_s+1}^{T-1} (I - \eta_k H_k)๏ปฟ: ๊ทธ๋•Œ ๋ฐ€๋ฆฐ ํšจ๊ณผ๊ฐ€, ์ดํ›„ ํ•™์Šต์„ ๊ฑฐ์น˜๋ฉฐ ์–ผ๋งˆ๋‚˜ ์‚ด์•„๋‚จ์•˜๋Š”๊ฐ€?

      โ†’ ์˜ค๋ฅธ์ชฝ์„ ๋ฏธ๋ฆฌ ๊ณ„์‚ฐํ•ด์„œ ๋ฒกํ„ฐ๋กœ ์ €์žฅ
      (์˜ค๋ฅธ์ชฝ์ด ๋ฏธ๋ฆฌ ๊ณ„์‚ฐ๋˜์–ด์žˆ์œผ๋ฉด, ์–ด๋–ค z(val)z^{(val)}๏ปฟ์ด ๋“ค์–ด์˜ค๋”๋ผ๋„ ๋‚ด์ ๋งŒ ํ•˜๋ฉด ๋จ)

    โ‡’ TSLOO(์ตœ์ข… ์†์‹ค ๋ณ€ํ™”)๋Š” โ€œ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์˜ ์ตœ์ข… gradientโ€์™€ โ€œํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๊ฐ€ ํ•™์Šต ๊ถค์ ์„ ๋”ฐ๋ผ ๋ˆ„์ ์‹œํ‚จ ์˜ํ–ฅโ€์˜ ๋‚ด์ ์œผ๋กœ ๊ทผ์‚ฌ๋œ๋‹ค

  • Data Value Embedding(DVEmb): TSLOO ๊ทผ์‚ฌ์‹์—์„œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ณ ์œ  ํ•ญ์„ ๋ถ„๋ฆฌํ•œ ๋ฒกํ„ฐ
    • zโˆ—z^โˆ—๏ปฟย ๊ฐ€ tst_s๏ปฟย ์‹œ์ ์— ๋“ค์–ด์™”์„ ๋•Œ ๊ทธ ์˜ํ–ฅ์ดย ํ•™์Šต ์ข…๋ฃŒ ์‹œ์ ๊นŒ์ง€ ์–ด๋–ป๊ฒŒ ๋ˆ„์ / ์ „ํŒŒ๋˜์—ˆ๋Š”์ง€ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•ํ•œ ํ‘œํ˜„
    • Detail
      • DVEmb(ts)(zโˆ—)DVEmb^{(ts)}(z^โˆ—)๏ปฟ๋Š”ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ zโˆ—z^โˆ—๏ปฟ๊ฐ€ tst_s๏ปฟ์‹œ์ ์— ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธts\theta_{t_s}๏ปฟ์— ๊ฐ€ํ•œ ์˜ํ–ฅ
        โˆ‡โ„“(๐œƒ๐‘ก๐‘ ,๐‘งโˆ—)์ด,์ดํ›„ ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฐ ๋‹จ๊ณ„์˜ Hessian(๊ณก๋ฅ ์ •๋ณด) ๐ป๐‘˜Hk์™€ ํ•™์Šต๋ฅ  ๐œ‚๐‘˜ฮทk์— ์˜ํ•ด
        (๐ผโˆ’๐œ‚๐‘˜๐ป๐‘˜)(Iโˆ’ฮทk Hk) ํ˜•ํƒœ๋กœ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ณ€ํ˜•๋˜๋ฉด์„œ ํ•™์Šต ์ข…๋ฃŒ ์‹œ์ ๊นŒ์ง€ ๋ˆ„์ ๋œ ์ „์ฒด ์˜ํ–ฅ์„ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•ํ•œ ํ‘œํ˜„
        • Hessian(2์ฐจ ๋ฏธ๋ถ„): Gradient(1์ฐจ ๋ฏธ๋ถ„)์ด ์–ผ๋งˆ๋‚˜ ๋น ๋ฅด๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ„

        โ†’ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜ z^* ์˜ gradient ์˜ํ–ฅ์ด ์ดํ›„ ํ•™์Šต step๋“ค์„ ๊ฑฐ์น˜๋ฉด์„œ ์–ด๋–ป๊ฒŒ ๋ณ€ํ˜•((Iโˆ’ฮทkHk)) ๋˜๋Š”๊ฐ€

    • ๋ฐ์ดํ„ฐ ํ•˜๋‚˜ zโˆ—z^*๏ปฟ๊ฐ€ ํ•™์Šต ๊ฒฝ๋กœ ์ „์ฒด์— ๋ฏธ์นœ ๋ˆ„์  ์˜ํ–ฅ์„ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ
      โ†’ ์ด๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ์˜ ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง€๋Š” ๊ฐ€์น˜(value)๋ฅผ ํ‘œํ˜„ํ•จ
    • ์ดํ›„ ์˜ํ–ฅ๋ ฅ ๊ณ„์‚ฐ์€ ๊ฒ€์ฆ gradient์™€ DVEmb์˜ dot-product์œผ๋กœ ์ฆ‰์‹œ ์ˆ˜ํ–‰๊ฐ€๋Šฅํ•จ
      • ์ดํ›„ ์–ด๋–ค ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๊ฐ€ ์™€๋„, ์ด ๋ฒกํ„ฐ๋ฅผ ๋‹ค์‹œ ๊ณ„์‚ฐํ•  ํ•„์š”๊ฐ€ ์—†์Œ
  • [Theory] Approximation Error Bound (์ด๋ก ์  ๋ณด์ฆ)
    • ์ด๋Ÿฌํ•œ ๊ทผ์‚ฌ๊ฐ€ ํ•™์Šต ์Šคํ… ์ˆ˜ T๊ฐ€ ์ปค์ ธ๋„ (ํ•™์Šต์ด ๊ธธ์–ด์ ธ๋„) ์˜ค๋ฅ˜๊ฐ€ ํญ๋ฐœํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ด๋ก 

Computation of DBEmb

์œ„์—์„œ ์ •์˜ํ•œ ์‹์„ ์‹ค์ œ๋กœ ๊ณ„์‚ฐํ•ด๋ณด๊ณ ์ž ํ•จ

  • Key Idea
    1. ํ•™์Šต ์ค‘ ๊ฐ ์ƒ˜ํ”Œ์˜ gradient๋ฅผ โ€˜ํ†ต์งธ๋กœโ€™ ์ €์žฅํ•˜์ง€ ์•Š๊ณ , ๋‚˜์ค‘์— gradient๋ฅผ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์„ฑ์š”์†Œ(activation, backprop ์‹ ํ˜ธ)๋งŒ ์ €์žฅ (Step 1)
    1. ํ•™์Šต ๋(T-1)์—์„œ ์‹œ์ž‘ํ•ด์„œ 0๊นŒ์ง€ ๊ฑฐ๊พธ๋กœ ๋‚ด๋ ค์˜ค๋ฉด์„œ DVEmb๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ๊ณ„์‚ฐ (Step 2)

  • Step 1: Store Pre-sample training Gradient Information at Each Iteration
    Key Idea
    ํ•™์Šต ์ค‘ ๊ฐ ์ƒ˜ํ”Œ์˜ gradient๋ฅผ โ€˜ํ†ต์งธ๋กœโ€™ ์ €์žฅํ•˜์ง€ ์•Š๊ณ , ๋‚˜์ค‘์— gradient๋ฅผ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์„ฑ์š”์†Œ(activation, backprop ์‹ ํ˜ธ)๋งŒ ์ €์žฅ

    ๋ฌธ์ œ ์ƒํ™ฉ

    1. ํ•™์Šต ์ค‘ ๊ฐ ์ƒ˜ํ”Œ zz๏ปฟ์˜ gradient ๋ฒกํ„ฐ๊ฐ€ ํ•„์š”ํ•จ. ํ•˜์ง€๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ pp๏ปฟ๋ฉด, gradient๋„ ๊ธธ์ด pp๏ปฟ์งœ๋ฆฌ ๋ฒกํ„ฐ๊ฐ€ ํ•„์š”
      • ๋งค stept=1..T, ๋ฐฐ์น˜B๊ฐœ ์ƒ˜ํ”Œ๋งˆ๋‹ค ์ €์žฅํ•˜๋ฉด:

      โ†’ โ€œ๋ชจ๋ธ ํฌ๊ธฐ ๋ฒกํ„ฐ๋ฅผ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ ์ €์žฅโ€ ํ•˜๋Š” ๊ผด์ž„. ์ฆ‰ ๋ถˆ๊ฐ€๋Šฅ

    1. ์ƒ˜ํ”Œ ๋ณ„ gradient ๋ฅผ ํ•˜๋‚˜์”ฉ ๋‹ค ๊ตฌํ•˜๋ฉด, ์ƒ˜ํ”Œ๋งˆ๋‹ค backpropagation์„ ํ•ด์•ผํ•ด์„œ ํ•™์Šต์ด ๋„ˆ๋ฌด ๋А๋ ค์ง
      • ์ถ”๊ฐ€ ๋น„์šฉ์ด batch ํฌ๊ธฐ B๋งŒํผ ๋Š˜์Œ

    ํ•ด๊ฒฐ ๋ฐฉ์•ˆ

    1. gradient๋ฅผ ํ†ต์งธ๋กœ ์ €์žฅํ•˜์ง€ ๋ง๊ณ  ๋ถ„ํ•ด๋œ ๊ตฌ์„ฑ์š”์†Œ๋งŒ ์ €์žฅ
      • ๋ณดํ†ต ์ƒ˜ํ”Œ์˜ gradient๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ ๊ฐ€๋Šฅ:
        • at(z)a_t(z)๏ปฟ: ๊ทธ ์ƒ˜ํ”Œ์˜ activation(์ค‘๊ฐ„ ํ‘œํ˜„)
        • ฮดt(z)\delta_t(z)๏ปฟ: ๊ทธ ์ƒ˜ํ”Œ์˜ output derivative(์—ญ์ „ํŒŒ ์‹ ํ˜ธ)
        • โŠ—\otimes๏ปฟ: outer product

      โ†’ gradient๋Š” โ€œactivation ร— ์—ญ์ „ํŒŒ ์‹ ํ˜ธโ€๋กœ ์กฐ๋ฆฝ ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์—,
      โ€œ๊ฑฐ๋Œ€ํ•œgt(z)g_t(z)๏ปฟ ๋ฒกํ„ฐ ๋Œ€์‹  at(z)a_t(z)๏ปฟ, ฮดt(z)\delta_t(z)๏ปฟ ๊ฐ™์€ ๊ตฌ์„ฑ์š”์†Œ๋งŒ ์ €์žฅ

    1. ํฐ ๋ชจ๋ธ์ด๋ผ๋ฉด ๊ตฌ์„ฑ์š”์†Œ๋„ ํฌ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ์ €์žฅ
      • at(z)a_t(z)๏ปฟ, ฮดt(z)\delta_t(z)๏ปฟ ์ž์ฒด๋„ ํฌ๋ฏ€๋กœ, ๋žœ๋ค ํ”„๋กœ์ ์…˜์œผ๋กœ ์ฐจ์›์„ p~\tilde{p}๏ปฟ๋กœ ๋‚ฎ์ถฐ ์ €์žฅ
      • ์ •ํ™•ํ•œ gradient ์ „์ฒด๊ฐ€ ์•„๋‹Œ ์˜ํ–ฅ๋ ฅ ๊ณ„์‚ฐ์— ํ•„์š”ํ•œ โ€œ๊ธฐํ•˜(๋ฐฉํ–ฅ/์œ ์‚ฌ๋„)โ€๋ฅผ ์œ ์ง€ํ•˜๊ณ ์ž ํ•จ
  • Step2: Backpropagating Data Value Embedding
    Key Idea
    DVEmb๋Š” โ€œ๋ฏธ๋ž˜ step๋“ค์˜ ๋ˆ„์  ํšจ๊ณผโ€๊ฐ€ ๋“ค์–ด๊ฐ€์„œ ์ •๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ์–ด๋ ค์›€
    โ†’ ํ•™์Šต ๋(T-1)์—์„œ ์‹œ์ž‘ํ•ด์„œ 0๊นŒ์ง€ ๊ฑฐ๊พธ๋กœ ๋‚ด๋ ค์˜ค๋ฉด์„œ DVEmb๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ๋งŒ๋“ค์ž
    • ๊ตฌํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ: ๊ฐ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต์ด ๋๋‚  ๋•Œ๊นŒ์ง€ ์–ผ๋งˆ๋‚˜, ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ์˜ํ–ฅ์„ ๋ˆ„์ ํ–ˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ DVEmb(z)DVEmb(z)๏ปฟ๋ฅผ ๊ตฌํ•˜๊ณ  ์‹ถ์Œ

      โ†’ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ์ด ๋ฏธ์น˜๋Š” โ€˜์ตœ์ข… ์˜ํ–ฅโ€™์€ ๋ฏธ๋ž˜ ํ•™์Šต๊นŒ์ง€ ๋‹ค ๋ฐ˜์˜ํ•ด์•ผ ์•Œ ์ˆ˜ ์žˆ์Œ. ๊ทธ๋ž˜์„œ, ๋งˆ์ง€๋ง‰ ํ•™์Šต step ๋ถ€ํ„ฐ ๊ณผ๊ฑฐ๋กœ ๊ฑฐ๊พธ๋กœ ๊ณ„์‚ฐํ•˜๊ณ ์ž ํ•จ

    ํ•ด๊ฒฐ ๋ฐฉ์•ˆ (๊ณ„์‚ฐ๋ฒ•)

    1. ๋งˆ์ง€๋ง‰ step์—์„œ๋Š” ๋ฏธ๋ž˜๊ฐ€ ์—†์œผ๋ฏ€๋กœ
      • DVEmb = ๊ทธ ์‹œ์ ์˜ gradient ร— ํ•™์Šต๋ฅ 
    1. ์กฐ๊ธˆ ์•ž step์—์„œ๋Š”
      • ์ด ๋ฐ์ดํ„ฐ์˜ ํ˜„์žฌ gradient+ ์ดํ›„ step๋“ค์—์„œ ์ด๋ฏธ ๊ณ„์‚ฐ๋œ ์˜ํ–ฅ์„ ํ•œ ๋ฒˆ์— ๋ฐ˜์˜
      • ์ด๋•Œ ๋ฏธ๋ž˜ step๋“ค์˜ ๋ˆ„์  ํšจ๊ณผ๋ฅผ ํ•˜๋‚˜์˜ ์š”์•ฝ ํ–‰๋ ฌ M ์— ๊ณ„์† ์ €์žฅํ•ด ๋‘๊ธฐ ๋•Œ๋ฌธ์— ๋งค๋ฒˆ โ€˜๋ฏธ๋ž˜ ์ „์ฒด๋ฅผ ๋‹ค์‹œ ๊ณ„์‚ฐโ€™ํ•˜์ง€ ์•Š์•„๋„ ๋จ

    โ‡’ ๋ฏธ๋ž˜ ํ•™์Šต์˜ ์˜ํ–ฅ์„ ์š”์•ฝํ•œ ์ƒํƒœ๋กœ, ๊ฐ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ตœ์ข… ์˜ํ–ฅ ๋ฒกํ„ฐ๋ฅผ ๊ฑฐ๊พธ๋กœ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •

Experiment

  • Fidelity Evaluation
    • Data Value Embedding(DVEmb)์ด ์ง„์งœ Leave-One-Out(TSLOO)๊ฐ’์„ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ๊ทผ์‚ฌํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ณ ์ž ํ•จ
      • DVEmb์™€ ์‹ค์ œ๋กœ ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ๋นผ๊ณ  ๋‹ค์‹œ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์˜ํ–ฅ(ground-truth LOO)์™€ ๋น„๊ต
    • Setting
      • Data: MNIST
      • Model: ๊ฐ„๋‹จํ•œ MLP (trained with standard SGD)
      • Ground-truth LOO: ํ•œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ zz๏ปฟ ๋ฅผ ์‹ค์ œ๋กœ ์ œ๊ฑฐํ•˜์—ฌ ๋ชจ๋ธ์„ ๋‹ค์‹œ ํ•™์Šตํ•จ. ์ตœ์ข… validation loss ๋ณ€ํ™” ์ธก์ •
        • SGD๋กœ ํ•™์Šต๋œ MLP์™€ ์งง์€ ํ•™์Šต(3 epochs)์œผ๋กœ ์ง„ํ–‰
      • Exp setting
        1. Single-epoch removal (a, b): ๋ฐ์ดํ„ฐ zz๏ปฟ ๋ฅผ ํŠน์ • epoch ํ•œ ๋ฒˆ๋งŒ ์ œ๊ฑฐํ•˜๊ณ , ๋‚˜๋จธ์ง€ epoch์—์„œ๋Š” ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ

          โ†’ ํŠน์ • ๋ฐ์ดํ„ฐ๊ฐ€โ€œ์ด ์‹œ์ (tst_s๏ปฟ)์— ๋น ์กŒ์„ ๋•Œ ์˜ํ–ฅโ€ ์„ ๋ณด๊ณ ์ž ํ•จ (TSLOO ์„ธํŒ…)

        1. All-epoch removal (c, d): ๋ฐ์ดํ„ฐ zz๏ปฟ ๋ฅผ ๋ชจ๋“  epoch์—์„œ ์ œ๊ฑฐ

          โ†’ ์ „ํ†ต์ ์ธ LOO์™€ ๋” ๊ฐ€๊นŒ์šด ์„ธํŒ…

    • ํ‘œ ์„ค๋ช…
      • ์  ํ•˜๋‚˜: ํ•˜๋‚˜์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ
      • x ์ถ•: Ground-truth LOO score (ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ์˜ํ–ฅ๋ ฅ)
      • y ์ถ•:
        • (a, c) Data Value Embedding์ด ์˜ˆ์ธกํ•œ ์˜ํ–ฅ๋ ฅ
          • ๋ฐ์ดํ„ฐ๊ฐ€ ์‚ฌ์šฉ๋œ ์‹œ์ ๊ณผ ์ดํ›„ ํ•™์Šต ๊ฒฝ๋กœ๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ํ‰๊ฐ€
        • (b, d) Influence Function์ด ์˜ˆ์ธกํ•œ ์˜ํ–ฅ๋ ฅ
          • ์‹œ๊ฐ„ ๊ณ ๋ ค X, ๋ชจ๋ธ์˜ ์ตœ์ข… ์ƒํƒœ๋งŒ์„ ๊ธฐ์ค€์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์„ ํ‰๊ฐ€

      โ†’ ์ด์ƒ์ ์ธ ๊ฒฝ์šฐ: ์ ๋“ค์ด y = x ์ถ•์— ์˜ฌ๋ผ์™€ ์žˆ๋Š” ์ƒํ™ฉ

      ์ด๋Š” ์˜ˆ์ธก๊ฐ’์ด ์‹ค์ œ LOO์™€ ๋™์ผํ•˜๋‹ค๋Š” ์˜๋ฏธ๋กœ, ํ•ด๋‹น ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•œ โ€˜๋ฐ์ดํ„ฐ ๊ฐ€์น˜ ์ถ”์ •์ด ์ •ํ™•ํ•จโ€™์„ ๋‚˜ํƒ€๋ƒ„

    • (a), (c)๋Š” Data Value Embedding๊ณผ Ground-truth LOO์™€์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ธ ํ‘œ
      • ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ ์•ฝ 0.74์ด๋ฉฐ, ์ ๋“ค์ด ๋Œ€๊ฐ์„  y=x ๊ทผ์ฒ˜์— ๋ฐ€์ง‘๋˜์–ด ์žˆ์Œ

      โ†’ DVEmb๊ฐ€ Ground-truth LOO๋ฅผ ์ž˜ ๊ทผ์‚ฌํ•˜๊ณ  ์žˆ์Œ

    • (b), (d)๋Š” Influence Function๊ณผ Ground-truth LOO์™€ ์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ธ ํ‘œ
      • ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0 ๋ฐ ์Œ์ˆ˜์ด๋ฉฐ, ์ ๋“ค์ด ํฉ์–ด์ ธ ์žˆ์Œ

      โ†’ Influence Function์€ LOO๋ฅผ ๊ฑฐ์˜ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•จ

    โ‡’ ๋ฐ์ดํ„ฐ ์˜ํ–ฅ์€ ์ตœ์ข… ๋ชจ๋ธ ์ƒํƒœ๋งŒ์œผ๋กœ๋Š” ์„ค๋ช…ํ•  ์ˆ˜ ์—†๊ณ , ํ•™์Šต ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ๋ˆ„์ ๋œ ํšจ๊ณผ๋กœ ์ดํ•ดํ•ด์•ผ ํ•จ

  • Analyzing Training Dynamics of Foundation Models
    • Data Value Embedding(DVEmb)์„ ํ™œ์šฉํ•ด LLM ์‚ฌ์ „ํ•™์Šต(pretraining) ๊ณผ์ •์—์„œ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์ด ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ๋ถ„์„
    • Setting:
      • Model: Pythia-410M
      • Dataset: Pile (1% subset)
        • ๊ทœ๋ชจ ์•ฝ 800GB ํ…์ŠคํŠธ๋กœ ์ด๋ฃจ์–ด์ง„ LLM์šฉ ๋Œ€ํ‘œ์ ์ธ pretraining dataset
    • ํ‘œ ์„ค๋ช…
      • y์ถ•(Influence Score): ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ Data Value Embedding๊ณผ, ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ์—์„œ์˜ gradient๋ฅผ ๋‚ด์ ํ•œ ๊ฐ’
    • ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ์€ ํ•™์Šต ์‹œ์ ์— ๋”ฐ๋ผ 3๊ฐ€์ง€ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Œ:
      1. High-impact Warmup Phase (์ดˆ๊ธฐ ๊ณ ์˜ํ–ฅ ๊ตฌ๊ฐ„)
        • ํ•™์Šต ์ดˆ๋ฐ˜ ์•„์ฃผ ์งง์€ ๊ตฌ๊ฐ„์— ๋ฐ์ดํ„ฐ ์˜ํ–ฅ์ด ๋น„์ •์ƒ์ ์œผ๋กœ ํผ
        • ๋ชจ๋ธ์˜ loss๊ฐ€ ๋น ๋ฅด๊ฒŒ ๊ฐ์†Œํ•˜๊ณ , ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ํ‘œํ˜„ ๋ฐ ๋ฐฉํ–ฅ์„ฑ์ด ๊ฒฐ์ •๋˜๋Š” ๋ถ€๋ถ„

        โ†’ ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ์ „์ฒด ์„ฑ๊ฒฉ์„ ํฌ๊ฒŒ ์ขŒ์šฐํ•จ

      1. Low-impact Basin (์ค‘๋ฐ˜ ์ €์˜ํ–ฅ ๊ตฌ๊ฐ„)
        • ๋ฐ์ดํ„ฐ ์˜ํ–ฅ๋ ฅ์ด ์ „๋ฐ˜์ ์œผ๋กœ ๋‚ฎ๊ณ  ์•ˆ์ •์ 
        • ํ•ด๋‹น ๊ตฌ๊ฐ„์˜ ๋ฐ์ดํ„ฐ๋Š” ์ด๋ฏธ ์ •ํ•ด์ง„ ๋ฐฉํ–ฅ์„ ๋”ฐ๋ผ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ์—ญํ• 
      1. Gradual Ascent (ํ›„๋ฐ˜ ์ ์ง„์  ์ƒ์Šน)
        • ํ•™์Šต ํ›„๋ฐ˜์œผ๋กœ ๊ฐˆ์ˆ˜๋ก (๋‚˜์ค‘์— ๋“ฑ์žฅํ•œ ๋ฐ์ดํ„ฐ์ผ์ˆ˜๋ก) ์˜ํ–ฅ๋ ฅ์ด ๋‹ค์‹œ ์ฆ๊ฐ€

      โ‡’ LLM ํ•™์Šต์—์„œ์˜ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋Š” ๊ณ ์ •๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•™์Šตํ•˜๋Š” ์‹œ๊ฐ„์  ์œ„์น˜์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ์ž‘์šฉํ•จ

      • [์ถ”๊ฐ€] Appendix: ๋‹ค๋ฅธ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‹คํ—˜
        • 3 epochs์œผ๋กœ ์‹คํ—˜ํ–ˆ์ง€๋งŒ (y์ถ•: 3 epochs ๋™์•ˆ์˜ ๋ชจ๋“  mini-batch๋ฅผ ์ˆœ์„œ๋Œ€๋กœ ์ด์–ด๋ถ™์ž„) ๊ฒฐ๊ณผ๋Š” ์œ ์‚ฌํ•จ

          โ‡’ โ€œ์ดˆ๋ฐ˜์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹คโ€

  • Analyzing Training Dynamics of Foundation Models - Explanation
    • ๊ทธ๋ ‡๋‹ค๋ฉด ์™œ ์ด๋Ÿฐ ํ˜„์ƒ์ด ์ผ์–ด๋‚ ๊นŒ? ์— ๋Œ€ํ•œ ์‹คํ—˜
      • ์™œ ํ•™์Šต ์ดˆ๋ฐ˜ ๋ฐ์ดํ„ฐ๋Š” ์˜ค๋ž˜ ์˜ํ–ฅ๋ ฅ์ด ๋‚จ๊ณ , ์ค‘๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์•ฝํ•˜๊ณ , ํ›„๋ฐ˜ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์‹œ ์˜ํ–ฅ๋ ฅ์ด ์ปค์ง€๋Š” ๊ฒƒ์ธ๊ฐ€?
    • ํ‘œ ์„ค๋ช…
      • x์ถ•: ํ•™์Šต ๋‹จ๊ณ„ (iteration)
      • y์ถ•(Influence Score): ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋“ค์˜ ํ‰๊ท  ์˜ํ–ฅ๋ ฅ
        • ๊ฐ’์ด ํด์ˆ˜๋ก ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๊ฐ•ํ•˜๊ฒŒ ๋‚จ์•„์žˆ์Œ
      • Train Batch Idx
        • 1000โ€“2000 (๋ณด๋ผ์ƒ‰): ํ•™์Šต ์•„์ฃผ ์ดˆ๋ฐ˜์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ๋“ค
        • 5000โ€“6000, 10000โ€“11000 (์ฃผํ™ฉ/๋นจ๊ฐ•): ํ•™์Šต ์ค‘๋ฐ˜ ๋ฐ์ดํ„ฐ๋“ค
        • 15000โ€“16000, 20000โ€“21000, 25000โ€“26000 (๋…ธ๋ž‘): ํ•™์Šต ํ›„๋ฐ˜ ๋ฐ์ดํ„ฐ๋“ค

        โ†’ ๊ฐ ๊ณก์„ ์€ โ€˜๊ทธ ์‹œ์ ์— ํ•™์Šต์— ๋“ฑ์žฅํ•œ ๋ฐ์ดํ„ฐ ๋ฌถ์Œ์ด, ์ดํ›„ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋ฉด์„œ ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ๋ ฅ์„ ์œ ์ง€/์ƒ์‹คํ•˜๋Š”๊ฐ€โ€™๋ฅผ ๋‚˜ํƒ€๋ƒ„

    Explanation (1): ์ดˆ๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ ํšจ๊ณผ

    • ํ•™์Šต์˜ ์•„์ฃผ ์ดˆ๋ฐ˜์—๋Š” gradient ํฌ๊ธฐ๊ฐ€ ๋งค์šฐ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํฌ๊ฒŒ, ๋งŽ์ด ์›€์ง์ž„

      โ†’ ๊ทธ๋ž˜์„œ ์ด ์‹œ์ ์— ๋“ค์–ด์˜จ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๋ฐฉํ–ฅ(์ดˆ๊ธฐ ๊ตฌ์กฐ) ์„ ๊ฒฐ์ •ํ•˜๊ฒŒ ๋˜๊ณ , ์ดํ›„ ํ•™์Šต ๋‚ด๋‚ด ๊ทธ ํ”์ ์ด ๋‚จ์Œ

    • ๋ณด๋ผ์ƒ‰ ๊ณก์„ ์„ ๋ณด๋ฉด, ์ดˆ๋ฐ˜์—๋Š” ๋งค์šฐ ๋†’์€ influence score์„ ๊ฐ€์ง. ์ดํ›„ ํ›ˆ๋ จ์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ์˜ํ–ฅ๋ ฅ์ด ๋‚ด๋ ค๊ฐ€๊ธฐ๋Š” ํ•˜์ง€๋งŒ, ์ „์ฒด ํ•™์Šต ์‹œ์ ์„ ํ†ตํ‹€์–ด์„œ ๋ชจ๋“  ์‹œ์ ์˜ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ์˜ํ–ฅ๋ ฅ์ด ์œ„์— ์žˆ์Œ

      โ†’ ํ•™์Šต ์ดˆ๋ฐ˜์— ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ์ด ํ•™์Šต ์ „๋ฐ˜์— ๊ฑธ์ณ๋†’์€ ์˜ํ–ฅ๋ ฅ์„ ์œ ์ง€ํ•จ(ํ•™์Šต ์ดˆ๋ฐ˜์— ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€์˜ ์—ฌ๋ถ€๊ฐ€ ์ค‘์š”ํ•˜๋‹ค)

    Explanation (2): ์ดํ›„ ๋ฐ์ดํ„ฐ์— ์˜ํ•œ ์˜ํ–ฅ ํฌ์„ (Influence Saturation)

    • ์–ด๋–ค ๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ๋ ฅ์€ ๊ทธ ๋’ค์— ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ„์† ๋‚˜์˜ค๋ฉด ํฌํ™”(saturation)๋˜์–ด ๋” ์ด์ƒ ์ปค์ง€์ง€ ์•Š๊ณ  ์˜คํžˆ๋ ค ์ค„์–ด๋“ค์Œ
      • ์ด๋ฏธ ์ถฉ๋ถ„ํžˆ ๋ฐฐ์šด ๋‚ด์šฉ์— ๋Œ€ํ•ด์„œ๋Š” ์ด์ „์— ๋“ฑ์žฅํ•œ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ๋ณ„ ๊ธฐ์—ฌ๋„๊ฐ€ ์ ์  ํฌ์„๋จ
      • catastrophic forgetting ๊ณผ๋Š” ๋‹ค๋ฆ„!
        • catastrophic forgetting: ์‹ ๊ฒฝ๋ง์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ(๋˜๋Š” ํƒœ์Šคํฌ)๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์—์„œ ์ด์ „์— ํ•™์Šตํ•œ ์ •๋ณด๋‚˜ ๋Šฅ๋ ฅ์„ ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ํ˜„์ƒ
        • Influence Saturation ์ƒํ™ฉ ์˜ˆ:
          1. ์ดˆ๋ฐ˜์— ์–ด๋–ค ๋ฐ์ดํ„ฐ zโˆ—z^*๏ปฟ๊ฐ€ quantum computing ๋‚ด์šฉ์„ ๊ฐ€๋ฅด์นจ โ†’ ๊ทธ ๋’ค ํ•™์Šต ๊ณผ์ •์—์„œ ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๋“ค์ด ๋“ฑ์žฅ
          1. ๋ชจ๋ธ ์ž…์žฅ: โ€˜์•„, ์ด ๊ฐœ๋…์€ ์—ฌ๋Ÿฌ ์˜ˆ์ œ์—์„œ ์ถฉ๋ถ„ํžˆ ๋ฐฐ์› ๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜์— ์˜์กดํ•  ํ•„์š”๊ฐ€ ์—†๋‹คโ€™ (๊ธฐ์—ฌ๋„ ๋ถ„์‚ฐ)
            โ†’ ์ดˆ๋ฐ˜ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ๋ณ„ influence score ๋Š” ๊ฐ์†Œ, ํ•˜์ง€๋งŒ ๊ทธ ๊ฐœ๋…์€ ์‚ฌ๋ผ์ง€์ง€ ์•Š์Œ(์ด๊ฒŒ catastrophic forgetting๊ณผ๋Š” ๋‹ค๋ฅธ ์ ์ž„)
    • Fig4์—์„œ , ์ค‘๋ฐ˜ ๋ฐ์ดํ„ฐ (๋นจ๊ฐ„์ƒ‰, Low-impact Basin)์˜ ์˜ํ–ฅ๋ ฅ์€ ๊ณ„์† ๊ฐ์†Œํ•˜๋Š”๋ฐ, ๋‚˜์ค‘์—๋Š” ํ•™์Šต ํ›„๋ฐ˜ ๋ฐ์ดํ„ฐ๋ณด๋‹ค๋„ ๋‚ฎ์•„์ง
      • ๋ฏธ๋ž˜ ๋ฐ์ดํ„ฐ์— ๋งŽ์ด ๋ฎ์—ฌ์„œ ์˜ํ–ฅ๋ ฅ์ด ๋” ๋งŽ์ด ํฌ์„๋จ

Categories

research