안녕하세요 반갑습니다!

저는 여기 계신분들의 글을 보면서 공부도하고 직접 학습도 해보면서 부랴부랴 따라가려고 노력하는 사람 중 한명입니다!


다른 분들의 글을 보다보니 "9B 모델을 16GB에서 구동할 수 있다.", "22B 모델을 48GB에서 구동할 수 있다." 등등 여러가지 글들을 봤습니다.

제가 직접 huggingface를 이용하여 llama2나 gemma (7B 모델)등 H100 80GB에서 fine-tuning을 해보려고 하니 바로 OOM 오류가 나더라구요.

그 뒤로, QLoRA 기법을 적용해서 학습을 했었습니다.

제가 궁금한 점은 "22B 모델을 48GB에서 구동한다"라는 말이 모델을 양자화 시킨 후 추론을 해본다. 라고 이해하는게 맞는건가요?

제 경험상 fine-tuning은 QLoRA를 적용해도 불가능할 것 같은데... 혹시 제가 모르는 지식이 있는지 궁금해서 여쭤봅니다!!