Inside-Out: Hidden Factual Knowledge in LLMs
Review
| ๋๋ค์ | Strength, Weakness, Suggestion | ๋ณ์ (0/5) |
|---|---|---|
| ๋ฉ์ฟ ๋ฆผ๋ณด | ๋งํ๋ ๊ฒ๋ณด๋ค ์๋๊ฒ ๋ ๋ง์ ๊ฒ์ ์ง๊ด์ ์ผ๋ก ์๊ธฐ ์ฌ์ฐ๋, LLM ๋ด๋ถ ์ง์์ ๋ํด ์ ๋ํํ ์ ์๋ ์งํ๋ฅผ ์ ์ํ๋ ๊ฒ์ ํฐ contribution์. ๋ค๋ง ๋ ผ๋ฌธ์์ ์ฌ์ฉํ๋ ๋ด๋ถ/์ธ๋ถ ํจ์๊ฐ ๋งค์ฐ ์ ์ ๊ฒ์ ์ด ์ฐ๊ตฌ์ ์์ฑ๋๋ฅผ ์กฐ๊ธ ๋ฎ์ถค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์์ฑํ ๋ฌธ์ ๋ณด๋ค TF ๋ฌธ์ ๋ฅผ ๋ ์ ํธ๋ ๊ฒ์ ์ ์ ํ ๊ฒฐ๊ณผ์์. ์์ฑ์ ๋ชปํ๋ ์ง์์ ๋ํด์ ์ด๋ค ๊ฐ์น์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ํ๋ก๋น ํด๋ณด๋ ๊ฒ๋ ์ฌ๋ฐ์ ๋ฏ ํจ. | 4 |
| thumps-up | โข ์ฅ: LLM์ ๋ด๋ถ ์ง์์ด '์ค์ฌ'ํ๋ ๊ฑธ ๋ฐํ. family ๋ณ ๋ด๋ถ์ง์์ ๊ดํ ๊ฒฝํฅ๋ ๋ฐํ. ์์ด๋์ด๋ถํฐ ์คํ ์ค๊ณ๊ฐ ๋
ผ๋ฆฌ์ ์ด๋ ํ๋นํจ โข ๋จ&๋ณด์: gold answer๋ฅผ ๋ณด๊ณ ์ ๋ต์ด๋ผ๊ณ ํ๋จํ๋ ๊ฒ ๋ง๊ณ , ์ค๋ต์ ์คฌ์๋๋ ์ค๋ต์ด๋ผ๊ณ ๋งํ ์ ์์๊น? | 4.5 |
| ํ์ด์ด | โข ์ฅ์ : LLM์์ ํ๋ฆฌ๋ ๋ถ๋ถ์ด ์์ด๋ ์ค์ LLM์ด ์๋ ์ง์์์ ์ฆ๋ช
ํ๋ค๋ ์ , ์คํ ์ค๊ณ๊ฐ ๋
ผ๋ฆฌ์ ์ด์๋ค๋ ์ ์์ ์ด ๋
ผ๋ฌธ์ ๊ธฐ์ฌ๊ฐ ํผ. โข ๋จ์ : LLM์ด ์ค์ ๋ ๋ง์ด ์๋๋ฐ ํํ์ ๋ชปํ๋ ์ด์ ์ ๋ํ ์ค๋ช ์ด ๋ถ์กฑํจ. โข ๋ณด์: LLM์ด ํํ์ ๋ชปํ๋ ์ด์ ์ ๋ํ ์ฆ๋ช , ๊ทธ๋ฆฌ๊ณ ์ด๊ฑธ ํํ์ผ๋ก ๋๋ฌ๋ผ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ํ ์คํ์ด ์ถ๊ฐ๋์์ผ๋ฉด ํจ. | 3.9 |
| ์์ผ๋ฉด์ ๋ณด์ | ์ฅ์ : llm ์ด ์์๋ ํ๋ฆฌ๊ฑฐ๋ ๋๋ต ๋ชปํ๋ ๊ฒ์ ์ฌ๋๋ ๊ทธ๋ ๊ณ , ๊ฝค๋ ๋ช
ํํ๊ฒ ๋ฏ๊ปด์ง๋ ๊ฒ ๊ฐ์. Cot๋ ๊ฒฐ๊ตญ ์ด๋ฌํ ๋ด๋ถ ์ง์์ ๋์ด๋ด๊ณ ์ฐ๊ฒํ๋ ํ๋์ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํจ. ๋ฐ์์ ์ ํ๊ณผ ๊ด์ ์ ์ฌ์ ๋ฆฝ์ด ์ข๋ค. ์ฌ๋ฐ๊ฒ ์ฝ์๊ณ , ๊ฐ์ฅ ํ์ ์ฐ๊ตฌํด๋ณด๊ณ ์ถ์ ์ฐ๊ตฌ์ ๋จ์ ๋ฐ ๋ณด์์ : ๊ด์ ์ด ์์ ํ ์๋กญ์ง๋ ์๋ค๊ณ ์๊ฐํจ. ๊ทธ๋ฆฌ๊ณ ์ ๋ฐ์ํ๋์ง๋ฅผ ๋ชจ๋ฅด๊ฒ ์. ์ฌ๋์ผ๋ก ์๊ฐํด๋ณด๋ฉด ์ฌ์ค ์๊ฐ์ด ๋๋ฌด ๋ง๊ฑฐ๋ง, ๋ค๋ฅธ ์๊ฐํ๊ฑฐ๋, ์ง๋ฌธ์ ์ดํดํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ํ๋ฐ. ์ด๋ฐ ๊ทผ๊ฑฐ์ ์คํ์ ์งํํ์ผ๋ฉด ์ด๋จ๊น? | 4.2 |
| ๋ ์๋ฆฌ์คํ์ | โข ๊ฐ์ : ์ด๋ฌํ ๋ฌธ์ ์ ๊ธฐ๋ ๋ง์ด ๋ด์ค๊ธฐ๋ ํ๋๋ฐ, external knowledge์ internal knowledge๋ฅผ ๋ถ๋ฆฌํด ์ ์ํ๊ณ , hidden-state ๊ธฐ๋ฐ scoring์ผ๋ก ์จ๊ฒจ์ง factual signal์ ์ธก์ ํ๋ ค๋ ๊ธฐ๋ฒ์ ์ ์ ์ํจ โข ์ฝ์ : ๊ทธ๋์ ์ ์ด ์ง์๋ค์ ๋ชป ๊บผ๋ด๋์ง ๊ถ๊ธํจ โข ๋ณด์/์ ์: ๋ง์ฝ ์ด ์์ธ์ ์๋ฉด, ๋ชจ๋ธ์ด ๋ด๋ถ ์ง์์ ๋ ํจ์จ์ ์ผ๋ก ํ์ฉํ๋๋ก ์ ๋ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ด์ด์ง ์ ์์ ๊ฒ ๊ฐ์. ํํธ์ผ๋ก๋ ํ์ฌ ํ์ถ๋์ง ์๋ ์ด์ ๋ ๋ชจ๋ธ์ด ํด๋น ์ง์์ ์๋์ ์ผ๋ก ๋ ํ์ํ๋ค๊ณ ํ๋จํ๊ธฐ ๋๋ฌธ์ผ์๋ ์์๋ฏ | 4.2 |
| ํ์ฝ | โข ์ฅ์ : ๊ธฐ์กด์ ์๋ฌต์ ์ผ๋ก ์ธ์ ๋๋ internal knowledge์ ์กด์ฌ๋ฅผ ์คํ๊ฒฐ๊ณผ๋ก ๋ช
ํํ ๋ณด์ โข ๋จ์ : K*์ ์ ์๊ฐ ๋๋ฌด ์๊ฒฉํด์ ์คํ๋ ค ์คํ์ ๋ฐฉํด๋๋ ์ค์ ์ผ ์ ์์ด๋ณด์ โข ๋ณด์์ : internal knowledge๋ฅผ ์ด๋ป๊ฒ ๋ ์ ๊บผ๋ด๋๋ก ๋ง๋ค ์ ์์์ง | 4.3 |
| ๋๋ฌผ | โข ๊ฐ์ : ๋ชจ๋ธ์ด ์ ๋ชป๋ง์ถ๋ค = ๋ชจ๋ธ์ด ์๋๊ฒ ์๋ค ๋ผ๋ ๊ณ ์ ๊ด๋
(?)์ ํ์ด๋ฒ๋ฆฌ๊ฒ ํด์ค ๊ฒ ๊ฐ์. ์ด๋ฏธ ๊ฐ๊ณ ์๋ ์ง์์ ์ค์ ๋ก ๊บผ๋ด๋ ๊ฒ(ํํ, ์ถ๋ ฅ)์ ๋ชปํ๋ ๋ถ๋ถ์ ์ธ๊ธํ๋ฉฐ, internal > external์ ๊ฒ์ฆํจ. โข ์ฝ์ & ๋ณด์์ : external vs internal ๊ฒฐ๊ณผ๋ก ๋ด๋ถ ์ง์์ด ์กด์ฌํ๋ ๊ฒ์ ์ฃผ์ฅํ์ง๋ง, external ๋น๊ต ์ธํ ์ด ๋ ์์์ผ๋ฉด ์ข๊ฒ ์. (๋ค์ํ ๋ฐฉ๋ฒ๋ค๋ก ์ถ๊ฐ ๋น๊ต ์คํ) | 3.9 |
| ํผ๋ | โข ๊ฐ์ : ๊ธฐ์กด์ ๋ง์ฐํ ๊ทธ๋ด ๊ฒ์ด๋ค๋ผ๊ณ ์๊ฐํ๋ ์ง์ ์ ์คํ์ ํตํด์ ์ค์ ๋ก internal knowledge๊ฐ ์์์ ์
์ฆํจ โข ์ฝ์ : ์ข ๋ ๋ค์ํ LLM๊ณผ ๋ฐ์ดํฐ์ ์์ ์คํ์ ํ์ ๋์ ์คํ๊ฒฐ๊ณผ๊ฐ ๊ถ๊ธํจ โข ๋ณด์์ : internal knowledge์ ๋ฐ๊ฒฌ์์ ๊ทธ์น์ง ์๊ณ ์ด๊ฑธ ๋์ง์ด๋ด๋ ํ์์ฐ๊ตฌ๊ฐ ๊ธฐ๋๋๋ค | 4.1 |
| ์ด์ฝ๋ฆฟ | โข ์ฅ์ : LLM์ด ํ๋ฆฐ๋ค๊ณ ํด์ ๋ชจ๋ฅธ๋ค๋ ๊ฒ ์๋๋ผ๋ ๊ฑธ hidden state ๊ธฐ๋ฐ ์คํ์ผ๋ก ์ฆ๋ช
ํ๊ณ ์ค์ ์์น๋ก ๋ณด์ฌ์ค. โข ์ฝ์ : ๋ด๋ถ ์ง์์ด ์กด์ฌํ๋ค๋ ๊ฑด ๋ณด์ฌ์คฌ๋๋ฐ, ์ ๋ชจ๋ธ์ด ์๊ณ ์๋ ๊ฑธ ๋ฐ์ผ๋ก ๊บผ๋ด์ง ๋ชปํ๋์ง์ ๋ํ ๋ถ์์ด ์์ โข ๋ณด์์ : ๋ชจ๋ธ ํฌ๊ธฐ๋ณ๋ก ๋ด๋ถ ์ง์๊ณผ ์ธ๋ถ ํํ์ ์ฐจ์ด๊ฐ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ๋ถ์ | 4.0 |
| ์์ง | โข ์ฅ์ : LLM์ด ํ๋ฆฌ๋ ์ด์ ๊ฐ ์ง์์ด ๋ถ์กฑํด์๊ฐ ์๋๋ผ ์ด๊ฑธ ๋๋ฌ๋ด๋ ํํ ๋ฐฉ์์ ๋ฌธ์ ๋ผ๋ ๊ฒ์ hidden state ๊ด์ ์์ ๋ถ์ํจ โข ์ฝ์ : Probing์ ํ๋ค๋๊ฒ hidden state์์ ํน์ ๋ฐฉํฅ์ ์ฐพ์์ ๊ทธ๊ฑธ๋ก ์ ๋ต์ ๊ตฌ๋ณํ๋ ๋๋์ธ๋ฐ ์ด๊ฒ ์ด๋ฏธ ์๊ณ ์๋ ์ง์์ ๋์ถํ๋๊ฒ ์๋๋ผ classifier๊ฐ ์ ์ ๋ณํ๋ค!๋ก ํด์ํ ์ ์์ง๋ ์์๊น โข ๋ณด์์ : Internal knowledge ์ ๋ฒ์๋ฅผ ๊บผ๋ผ ์ ์๋ ์ง์์ผ๋ก ํ์ฅ | 4.0 |
TL; DR
๐ก
LLM์ด ๋จธ๋ฆฟ์์ผ๋ก๋ ์๋๋ฐ ๋ง๋ก ๋ค ํํ์ ๋ชปํ๋ค!
Cited: 30
Summary
Motivation
- LLM์ด ์ด๋ค ์ง์์ โ์๋คโ๋ ๊ฒ์ ๋ฌด์์ ์๋ฏธํ๋ ๊ฑธ๊น?
- LLM์ด ์ถ๋ ฅ์ผ๋ก ํํํ๋ ๊ฒ๋ณด๋ค, ๋ ๋ง์ ์ง์์ ์๊ณ ์์ง๋ ์์๊น?
- ๋ง์ฝ ๊ทธ๋ ๋ค๋ฉด, LLM inference์ ๋ํด ๊ฐ์ ํด์ LLM์ ํผํฌ๋จผ์ค ์ฌ๋ฆด ์ ์์
- ๋, inference ๊ณผ์ ์์ ์ด๋ค ์ง์์ด ์ ์ฐ์ด๊ณ ์ ์ฐ์ด์ง ์๋์ง ์ดํดํ ์ ์์
- LLM์ด ์ถ๋ ฅ์ผ๋ก ํํํ๋ ๊ฒ๋ณด๋ค, ๋ ๋ง์ ์ง์์ ์๊ณ ์์ง๋ ์์๊น?
Contribution
- LLM์ด ๊ฐ์ง๊ณ ์๋ Hidden Knowledge์ ๋ํด ์ ์ํ๊ณ ์คํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํจ
- Definition: Existence of an internal function that ranks answers more accurately than any external function
- ์ด๋ค ๋ด๋ถ ํจ์(hidden state ํ์ฉ)๋ก ๋ชจ๋ ์ธ๋ถ ํจ์(ํ ํฐ ์์ฑ ํ๋ฅ ํ์ฉ)๋ณด๋ค ๋ต๋ณ์ ๋ ์ rankingํ ์ ์์ผ๋ฉด ๋ด๋ถ ์ง์์ ์กด์ฌํ๋ค!
- ๋
ผ๋ฌธ์์ ์ ์ํ๋ ์ง์์ ์ ์๋
- ๊ณ์ฐ ๊ฐ๋ฅํจ โ ์คํ์ ์ฐ๊ตฌ์ ์ ์ฉ
- Closed-book QA ์์์ ๋ต๋ณ ์ ํ๋๋ก ํ๊ฐํ์ง ์์ โ ํ๋ฉด์ ์ด ์๋ ๋ด์ฌ์ ์ง์์ ์ง์ค
- ์ธ๋ถ์ ์ผ๋ก ํํํ๋ ์ง์๊ณผ ๋ด๋ถ์ ์ผ๋ก ์ธ์ฝ๋ฉํ ์ง์์ ํต์ผ๋ ์ ์ ํ์์ ์ธก์ ํจ
- Findings
- Hidden knowledge๋ ์ค์ฌํจ!
- ์ด๋ ๋ฐ๊ฒฌํ ๋ด๋ถํจ์๋ก Closed-book QA ์ฑ๋ฅ ๊ฐ์ ํจ
- ์๊ฐ๋ณด๋ค ๊น๊ฒ ์จ๊ฒจ์ ธ ์์ ์ ์๊ณ , ๊ทธ๋ฌ๋ฉด ๋ชจ๋ธ ์์ฑ์ ์ ํ ๋ฐ์์ด ์๋จ
- ํ์์ ๋ํผ์ ) Safety alignment๊ฐ ๋๋ฉด ์ ํดํ ์ง์์ ๋ํด ์๊ณ ์์ด๋ ์์ฑ ์ ํจ
- Hidden knowledge๋ ์ค์ฌํจ!
Study Design
- ๋จผ์ ์ด๋ค ์ง์์ ์ธ ์ง, ์ด๋ป๊ฒ ๋ชจ๋ธ ๋ด๋ถ์ ์ง์์ ์ธก์ ํ ์ง ์ ์ํ์!
Hidden Knowledge Definition
- ํธ๋ฆฌํ๋ก ํํ๋๋ ์ง์์ ์ด์ ์ ๋
- E.g. (โEmpire State Buildingโ, location, โNYCโ)
- ์ด ๋
Where is the Empire State Building located?์ ๋ํด์NYC,New York City
๋ชจ๋ ๊ทธ๋ด๋ฏํ ๋ต๋ณ๋ค!
- ๋ต๋ณ์ด ๋ค์ํ ์ ์๋๋ฐ, โ์โ์ ์ ์ํ๊ธฐ ์ํด scoring method์ ๊ธฐ๋ฐํ์ฌ ๋ชจ๋ธ ๋ด๋ถ ์ง์์ ์ ์ํจ!
- Definition 1 (Knowledge of a Model w.r.t a Scoring Method)
Notation
- ๏ปฟ: LLM
- ๏ปฟ: ์ฌ์ค, ์ง์
- E.g. (โFranceโ, capital, โParisโ)
- ๏ปฟ: ๏ปฟ์ด ์ฃผ์ด์ก์ ๋, ๏ปฟ๋ฅผ ๋ฌป๋ ๋ชจ๋ ์ง๋ฌธ์ paraphrase ์งํฉ
- E.g. โWhat is the capital of France?โ, โWhich city is the capital of France?โ
- ๏ปฟ: ๏ปฟ์ ๋ํ ๋ชจ๋ ๊ทธ๋ด๋ฏํ ๋ต๋ณ(๏ปฟ๋ ๊ฐ์ ํ์
์ ์ํฐํฐ๋ค) ์งํฉ
- E.g. โParisโ, โThe city of New Yorkโ
- ๏ปฟ: ์ ๋ต ๏ปฟ์ paraphrase ์งํฉ
- E.g. โParisโ, โThe city of Parisโ
- ๏ปฟ: Q(s, r)์ ๋ํ ์ ๋ต ํ๋์ ๊ทธ๋ด๋ฏํ ์ค๋ต ํ๋๋ก ์ด๋ฃจ์ด์ง ์์์
- E.g. (โParisโ, โLondonโ), (โParis cityโ, โNYCโ)
- ๊ทธ๋ด๋ฏํ ์ค๋ต๋ณด๋ค ์ ๋ต์ score๋ฅผ ๋ ๋๊ฒ ์ฃผ๋ ๋ฅ๋ ฅ์ ๏ปฟ๋ก ๋ํ๋!
- QA ์ ๏ปฟ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์ ์
- ๏ปฟ
- ๏ปฟ์ ๋ํ ๋ชจ๋ธ M์ ์ง์ ์ ๋๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์
- ๏ปฟ
- ํ ํธ๋ฆฌํ์ ๋ํด ๋ชจ๋ ๊ฐ๋ฅํ ๏ปฟ์ ๋ํ ๊ฒ
- ๋ชจ๋ธ์ด ์ง์ง ์ ๋๋ก ์์ ํ ์๊ณ ์์ ๋, ๋ค์๊ณผ ๊ฐ์ด ๏ปฟ์ ์
- ๏ปฟ
- ๋ชจ๋ ์ ๋ต ์ค๋ต ์์ ๋ํด ์ ๋ต์ ์ ์๋ฅผ ๋ ๋ง์ด ์ค ๊ฒฝ์ฐ์!
- K๊ฐ 1์ ๊ฐ๊น์ธ์๋ก ํด๋น ํธ๋ฆฌํ์ ๋ํด ๋๋ ทํ๊ฒ ์๊ณ ์๋ ๊ฒ!
- QA ์ ๏ปฟ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์ ์
- Definition 2 (Evidence of Hidden Knowledge)
Notation
- ๏ปฟ: ๋ด๋ถ scoring ํจ์
- ๏ปฟ: ๋ชจ๋ ์ธ๋ถ scoring ํจ์์ ์งํฉ
- ๏ปฟ: ๋ฐ์ดํฐ์
- ๏ปฟ: ๋ณ๋์ ๋ฐฐ์ ํ ์ ์๋ ๋ง์ง(๋๋ํ๊ธฐ surpassํจ์ ๋ณด์ด๊ธฐ ์ํจ)
- Hidden state์ ๊ฐ์ ๋ด๋ถ ์ ๋ณด๋ก scoringํ ๋ด๋ถ ํจ์๊ฐ ์ธ๋ถ์ ์ ๋ณด๋ง ํ์ฉํ ๋ชจ๋ scoringํจ์๋ณด๋ค ๋๋ํ ํด ๋! ๋ด๋ถ ์ง์์ ์กด์ฌํ๋ค
- ๏ปฟ
- Scoring fuction
- ์ธ๋ถ ํจ์๋ input ๏ปฟ์ ๋ํด ๋ต๋ณ ๏ปฟ ์์ฑ ํ๋ฅ ์ด๋, ๏ปฟ์์ ์ฃผ๊ณ TF๋ฅผ ๊ฒ์ฆํ ์ ์์
- ๋ด๋ถ ํจ์๋ hidden state๋ฅผ ์ด์ฉํด์ probing classifier๋ฅผ ์ธ ์ ์์
Experiment design
- Knowledge dataset
EntityQuestions (Wikidata์์ ํธ๋ฆฌํ์ QA๋ก ๋ง๋ ๊ฒ)
- ์ด๋ ต์ง๋ง ๋ช
ํํ relation์์ฃผ๋ก ์ถ์ถ
- P26(spouse), P176(manufacturer), P264(record label), P50(author)
๋ด๋ถ ์ง์ ์ ๋๋ฅผ ์ธก์ ํ๋๋ฐ ํ์ํ ์์ธ ์ธํ
- ๏ปฟ
- ๋ต๋ณ ์์ฑ ํ๋ฅ ๋ก ํ๊ฐ
- ๏ปฟ
๊ธธ์ด ์ ๊ทํ ๋ฒ์ :
- ๏ปฟ
- TF ๋ฌธ์ ๋ก ํ๊ฐ
- ๏ปฟ
- ๋ต๋ณ ์์ฑ ํ๋ฅ ๋ก ํ๊ฐ
- ๏ปฟ: ๊ทธ๋ด๋ฏํ ๋ต๋ณ ์งํฉ ์์ฑ์ ์ํด LLM์๊ฒ ๏ปฟ์ฃผ๊ณ 1000๋ฒ ์ํ๋ง+dataset์ ์๋ ground truth
- ๏ปฟ: LLM judge๋ก ground truth ๏ปฟ๋ LLM์ด ์์ฑํ ๋ต๋ณ์ด๋ ๋ง์ผ๋ฉด ์ ๋ต ์งํฉ์ ์ถ๊ฐ
- ๏ปฟ: Dataset์ ์๋ ์๋ ์ง๋ฌธ๋ง ์ฌ์ฉ
- ๏ปฟ: 0.05
- ๏ปฟ: Logistic regression objective, LLM์ hidden state๋ก๋ถํฐ ์ ๋ต/์ค๋ต์ ๋ถ๋ฅํ๋๋ก ํ์ต
- ๋ถ๋ฅ๊ธฐ๊ฐ ์ถ๋ ฅํ๋ ์ ๋ต์ผ ํ๋ฅ ์ scoring fuction์ผ๋ก ์ฌ์ฉ
- ๊ฐ์ฅ ์ฑ๋ฅ ์ข์ ๋ ์ด์ด์์๋ง ์ฌ์ฉ
- ๏ปฟ
Experiment Results
1000๋ฒ ์์ฑํด๋ ํ๋ฆฌ๋ ๋ฌธ์ ์ ๋ํด์, ์ฌ์ค ์๊ณ ์์ ์ ์์
- 1000๋ฒ ์ํ๋ง ๋๊ฒ๋ง ๊ฐ์ง๊ณ scoring ํ ๋ (ํ์) vs 1000๋ฒ ์ํ๋ง ๋๊ฑฐ์ gold answer ์ฃผ๊ณ scoringํ ๋์ ๏ปฟ
- ์ธ๋ถ์ ์ผ๋ก ์ ๊ทผํ๋ฉด gold ์ค๋ ๊ทธ๊ฒ์ ๋ํด ๋ง๋ ์ฌ์ค์ด๋ผ๊ณ ์ธ์ ๋ชปํจ
- ๋ด๋ถ์ ์ผ๋ก ์ ๊ทผํ๋ฉด gold ์ฃผ๋ฉด ๊ทธ๊ฒ์ ๋ํด ๋ง๋ ์ฌ์ค์ด๋ผ๊ณ ์ธ์ํจ
- ๋ด๋ถ์ ์ผ๋ก๋ ์๋ฒฝํ ์๊ณ ์๋๋ฐ ์ธ๋ถ์ ์ผ๋ก ํํ ๋ชปํ๋ ์ง๋ฌธ์ด ์ ์ฒด์ 7.2%์ ๋ ๋จ
Voting๋ณด๋ค ๋ด๋ถ ํ๋ก๋น์ผ๋ก ๋ต๋ณ ์์ฑํ๋ฉด ๋ ์ํจ
- Greedy๊ฐ ์๊ฐ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๊ณ , ๏ปฟ๊ฐ greedy๋ณด๋ค ๋์
- ๋ด๋ถ probing์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ
- ๋ชจ๋ธ ์ค์ค๋ก๋ gold๋ฅผ ์์ฑํ์ง ๋ชปํ๋๋ผ๋, gold answer๋ฅผ ์ฃผ๋ฉด, ๋ด๋ถ probing์ ํตํด ๊ทธ๊ฒ์ด ์ ๋ต์ด๋ผ๊ณ ๋ชจ๋ธ์ ๋งํ ์ ์์!






