Yonsei Univ. ICL

14 January 2026

Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

💡LLM 추론은 계산 과정에서의 오차로 인하여 달라질 수 있음! ⇒ 정밀도 관점에서 재해석, 실제로 얼마나 달라지는지, 어떻게 해결해야 하는지?계산 과정에서의 문제니까, 계산 과정에서만 더 정확하게 보면 되는거 아닐까?⇒ 실험 결과, 그렇다!

research

Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference

Review

닉네임	한줄평	별점 (0/5)
찰나	실제로 LLM 돌려보면, 돌릴 때마다 달라지는 게 보이긴 함. 이렇게 구체적으로 왜 발생하는지를 밝히는 것은 정말 어렵지만, 논문적 관점에서는 정말 좋은 방향이라고 생각함. 이런 연구 하고 싶다고 생각하게 된 논문이지만, 논문 자체적으로 봤을 때는 해결 방법과 아이디어가 엄청 드라마틱하다고 보긴 어려울 것 같음. 결국 LLM을 쓰고 활용하는 입장에서 이 정도 오차는 감당할만한 수준이라고 생각하기 때문.	4.0
와사비꽃게랑	기존에는 LLM 추론 결과가 달라지는 현상을 '그런 현상이 있다' 정도로만 생각했는데 이를 체계적으로 잘 분석한 듯. LLM도 high-level로 보면 삐까뻔쩍한 reasoniong능력 등등을 보여주지만 사실 근본적으로는 거대한 계산시스템이라는것을 다시한번 상기시켜주는것 같다	3.8
메가커피	컴퓨터의 예민함, 민감도??를 생각했을 때 어느정도 예측이 가능한 결과인 것 같다. 그리디 디코딩의 경우에도 출력이 달라지는 건 새삼 놀랍다	3.5
요리괴물	뭔가 논문 작성 guideline에 들어갈법한 내용..? 공정한 비교를 위해서 동일한 정밀도를 활용하는 것이 중요하다는걸 강조한 논문이다. 계산만 FP32로 바꾸는 간단한 방식으로 메모리 사용량을 꽤 줄인거는 유의미한 결과이다. 추후 양자화 모델에도 적용해볼 수 있을 듯	3.9
새우깡	저장은 정밀도 그대로 유지해도 계산 때 정밀도 높게 하면 더 정확히 할 수 있다는 게 직관적으로 이해가 되면서도 안된다.. 신기하다. 수치 등을 언어모델이 다루게 할 때 특히 적용할 수 있어보인다	3.9
안성재	연구자들은 종종 창의적인 접근을 자신의 background(수학, 심리학, etc.)에서 끌어오는데, 이 연구는 정말 담백한 computer scientist가 쓴 느낌이 나네요. 생존입니다	4.3
고구마맛도리	우리가 LLM으로 실험할 때 표준편차를 꼭 넣어야 하는 이유! GPT3가 나왔을 때 부터 궁금했던 내용을 잘 꼬집어서 보여준 논문. 증명하기에는 많은 체계성과 논리성을 요해서 누군가는 해주길 바란 연구라 재밌게 읽었당	4
스타벅스	LLM의 추론 결과가 달라지는 현상을 수치 현상의 관점에서 분석한 결과로 의미가 있는 것 같다. 정밀도에 따라 달라지는 양상을 보이는데 그럼 다른 논문의 실험 결과도 정밀도에 따라 정확하게 비교를 하는게 중요할 것 같다.	4.1

TL; DR

💡

LLM 추론은 계산 과정에서의 오차로 인하여 달라질 수 있음! ⇒ 정밀도 관점에서 재해석, 실제로 얼마나 달라지는지, 어떻게 해결해야 하는지?

계산 과정에서의 문제니까, 계산 과정에서만 더 정확하게 보면 되는거 아닐까?⇒ 실험 결과, 그렇다!

Summary

부동 소수점?
- sign(부호): 0/1 (양/음)
  Range(지수,E): 수의 범위(자릿수)
  $2^E$
  18.875 ⇒ 이진수 표현 (10010.111)
  소수점 앞으로 4자리 끌고 오기 (1.0010111) * Range(4)
  이걸 fp 32로 표현?
  0 00000100 00101110000000000…
- Precision(가수)
  실제 수 표현
즉, precision이 크다? ⇒ 표현력이 좋다!
range가 크다⇒ 오버플로우/언더플로우가 줄어든다!
Mixed Precision Training (ICLR’2018) ⇒ 유명함!
https://arxiv.org/abs/1710.03740
https://bo-10000.tistory.com/32

Rounding Error?
- 컴퓨터는 반올림 함.(정확히 저장할 수 없기 때문)
- 그래서 최소한의 오차는 언제나 존재함.⇒ Rounding error

Motivation

LLM 추론은 일관된 평가가 가능한가?
- Greddy decoding (temperatre 등 0으로 설정 후) + fixed seed ⇒ 재현 가능?
⇒ 실제로는 시스템 설정 조금만 바꿔도 계속 달라진다.

각 LLM의 평가를 재현할 수 없으니, 믿을수도 없다. (우연일 수 있다)
- 물론, 10% 이상 차이나면 그러려니 할 수 있음. but, 1%, 2% 차이라면?

또한, reasoning 모델에서는 더 큰 차이를 불러옴.
- 5단계 추론에서, 1단계에서 미세하게 달라지면 ? ⇒ 나비효과처럼 차이가 증폭될 수 있음

Idea

알고리즘 문제가 아니라, 수치 연산의 차이 아닐까?
- 덧셈 순서가 달라지면, 결과가 달라진다!
  - GPU 병렬로 쓰는데, 그럼 어느 스레드, GPU에 데이터가 올라가고, 어떤 순서로 처리되어서 계산되는지에 따라 달라지지 않을까?

Method

영향을 미칠만한 것들을 바꿔가면서 실험해보자!
- FP16/BF16/FP32
- 덧셈 순서 결과 차이
- attention, softmax, logit 계산에서 발생하는 rounding error

어떻게?
- 조작
  - GPU 개수
  - GPU 종류(A100 vs L40s)
  - batch size
  - precision format
- 고정
  - 모델
  - prompt
  - decoding strategy(greedy)

해결책?
- LayerCast
  - FP32는 너무 비싸고, BF/FP16은 결과가 달라진다.
- 오차가 언제 생기는가?
  - 모델 파라미터 저장은 문제 없음! ⇒ 계산 과정에서의 문제
- BF16 유지
  - Weight 저장
- FP32
  - Activation, Attention, Softmax, logits, Accumulation (계산 때만 FP32로)

Experiment

Greedy decoding도 재현 불가능
- 출력 token이 실제로 달라진다!

precision(정밀도) 가 낮을수록, 더 많이 달라진다.(비결정성이 커진다)

Reasoning 모델이 특히 취약하다.
- 표준 편차가 더 큼!

간단한 방법으로 FP32 수준의 안정성 제공이 가능하다(제안 방법론)
- LayerCast를 통해 안정

Categories

research