VRAM 사용량에 관련한 질문입니다! - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3406명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 VRAM 사용량에 관련한 질문입니다!

ㅇㅇ (121.166)

추천 0 비추천 0 댓글 16 조회수 573 작성일 2024-04-19 06:34:49

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104016664

안녕하세요 반갑습니다!

저는 여기 계신분들의 글을 보면서 공부도하고 직접 학습도 해보면서 부랴부랴 따라가려고 노력하는 사람 중 한명입니다!

다른 분들의 글을 보다보니 "9B 모델을 16GB에서 구동할 수 있다.", "22B 모델을 48GB에서 구동할 수 있다." 등등 여러가지 글들을 봤습니다.

제가 직접 huggingface를 이용하여 llama2나 gemma (7B 모델)등 H100 80GB에서 fine-tuning을 해보려고 하니 바로 OOM 오류가 나더라구요.

그 뒤로, QLoRA 기법을 적용해서 학습을 했었습니다.

제가 궁금한 점은 "22B 모델을 48GB에서 구동한다"라는 말이 모델을 양자화 시킨 후 추론을 해본다. 라고 이해하는게 맞는건가요?

제 경험상 fine-tuning은 QLoRA를 적용해도 불가능할 것 같은데... 혹시 제가 모르는 지식이 있는지 궁금해서 여쭤봅니다!!

댓글 [16] 글쓰기

bedovyy

2024-04-19 06:41:20 답글

PeFT 적용하고 qlora 학습 시키면 VRAM 48GB로 22B 될 거 같기는 하네요.

fsdp+qlora로 24GB+24GB로 70B 학습도 가능하다고 해요.
https://arca.live/b/alpaca/100734824

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 06:57:13 삭제 수정 답글

제가 llama2-7B를 QLoRA로 학습시킬때, 모델을 GPU에 올리는 순간 약 10GB 정도 소요가되고 배치를 3정도로 fine-tuning 을 진행하면 약 50-60GB정도 사용하고 있습니다. 22B를 48GB에서 학습시키려면 배치 1에 QLoRA(4bit)로 진행하면 가능할까요? 직접 해보면 되는데 현재 다른분이 사용중이라 끊을 수가 없네요 ㅠㅠ GPU는 H100 한대입니다.

펼쳐보기▼

bedovyy

2024-04-19 07:02:32 답글

*수정됨

예. 일반 PC로 학습할 때는 보통 load_in_4bit, bf16으로 하는 거 같았어요.

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 07:22:35 삭제 수정 답글

감사합니다!!

펼쳐보기▼

ㅇㅇ (210.91)

2024-04-19 06:41:57 삭제 수정 답글

코드를 어떻게 짜셨는지 모르겠지만 보통 구동한다는 추론을 시킨다는게 맞습니다.
양자화 시킨 모델들은 성능이 약간 떨어지기때문에 사람마다 일반 모델일지 양자화 모델일지는 다 다릅니다.
그냥 로드하면 FP32로 로드하는데 이때 Vram을 파라미터의 4배 정도 먹습니다.
FP16이나 BF16으로 로드하셔야 일반적으로 말하는 용량(파라미터의 2배)으로 Vram을 소모합니다.
학습은 종류가 여러가지이고 배치사이즈에 따라 Vram 먹는게 다르긴한데 제가 10.7b 솔라 모델을 fp32로 로드하여 LoRa로 SFT 학습시키는데 170gb정도 먹었습니다.
bf16으로 로드하여 QLoRa 4비트로 학습하시면 Vram 소모량이 엄청 줄어드실거에요.

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 06:58:28 삭제 수정 답글

그럼 보통 7B모델을 fp32로 학습하는것은 H100 80GB 위에서도 불가능하다고 이해하는게 맞을까요? 만약 제 생각이 맞다면, bf16이든 QLoRA든 적용해서 fine-tuning을 한다고 이해하면 되는거겠죠?

펼쳐보기▼

ㅇㅇ (210.91)

2024-04-19 07:06:12 삭제 수정 답글

저는 FP32에 배치사이즈를 16으로 줘버려서 저만큼 쓴거고 배치사이즈를 줄이고 fp16으로 로드하시면 일반 LoRa로 파인튜닝하시기 충분할 겁니다.
fp32로 로드해서 학습시킨 제가 특이한거지 fp16이나 bf16으로 로드해도 성능에 큰 차이 없으니 신경 안쓰셔도 됩니다.

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 07:22:30 삭제 수정 답글

알겠습니다 한번 시도해보겠습니다! 감사합니다

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-19 07:27:55 삭제 수정 답글

그래픽카드마다 조금씩 vram 먹는게 다른거같더라구요 속도만이 아니라... 저같은경우 2080 x 4대로 하는데 llama 2 7b 경우  12~13 vram 정도 먹고 토큰수에 따라 학습시 2~5vram 정도 더먹더라구요  13b 경우 30 vram (기본 20 ram 이상) 정도는 먹었던거같습니다.  qlora로 학습시고, 추론할때도 단순히 병합할땐 똑같이 드는데,   양자화 하면   모델 크기도 확 줄어들고 (13b qlora  학습 모델 42기가 -> 8기가)  gpu도 하나로 가능합니다. 속도는... 흠 병합때보다 좀 느려진거같은데 (4~15초 답변에서 최소 10초 이상 소모) 저도 시행착오 중이라 경험상 이정도네요 .

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 07:36:31 삭제 수정 답글

*수정됨

제가 지금 llama2-7b 학습할때,
-------------------------
load_in_8bit=True,
bnb_4bit_quant_type='nf4',
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True
-------------------------
위와 같이 bnb config 옵션을 주고 QLoRA(r=8)로 학습하고 있습니다.
batch 3, optimizer adamw를 사용하면서 약 50GB-60GB를 사용하면서 학습이 진행되는데 이게 정상적인 상황일까요?
님의 경험(llama2 7b 12~13 vram 사용)에 비해서 제가 너무 많이 사용하고 있는 것 같아서 걱정스럽네요.

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-19 07:51:14 삭제 수정 답글

load_in_4bit= True로 바꾸시죠.  batch는 1~2 (저는 2) 로 바꿔보시고,  제 생각에 vram을 너무 많이 먹는게 코드 값을 달리 하셨거나 뭔가 설정을 달리 하신게 아닌가 싶습니다. 제가 그래픽카드 더 안좋은데 흠... 전 멀티 4개 gpu 해서 3, 3 , 3 ,5 씩먹어서 총합  12~13gb 먹거든요   model.print_trainable_parameters() 함수로  학습 파라미터가 줄어들었는지 봐보세여 전    trainable params: 33,554,432 || all params: 6,889,410,560 || trainable%: 0.4870435824338505   이렇게 되서 정상적으로 감소한거로 확인했습니다

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-19 08:04:25 삭제 수정 답글

지금 걍 돌려봤는데 이렇게나오네요 데이터셋 29000여개 기준      0  NVIDIA GeForce RTX 2080 Ti   WDDM  | 00000000:08:00.0 Off |                  N/A |
| 31%   50C    P2              75W / 250W |   3672MiB / 11264MiB |     45%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce RTX 2080 Ti   WDDM  | 00000000:09:00.0 Off |                  N/A |
| 35%   60C    P2              93W / 250W |   3700MiB / 11264MiB |     30%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA GeForce RTX 2080 Ti   WDDM  | 00000000:43:00.0 Off |                  N/A |
| 36%   62C    P2              92W / 250W |   3717MiB / 11264MiB |     22%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA GeForce RTX 2080 Ti   WDDM  | 00000000:44:00.0  On |                  N/A |
| 37%   68C    P2             247W / 250W |   5298MiB / 11264MiB |     66%      Default |
|                                         |                      |                  N/A |

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 08:26:48 삭제 수정 답글

*수정됨

저랑 같은 조건이라면 제가 훨씬 많이 사용하네요..?
혹시 input sequence의 max_length는 몇으로 조정하셨나요??

제가 가진 데이터의 sequence의 길이가 상당히 긴 것(3000 tokens 이상)이 많기 때문에 50-60GB를 사용하고 있는 것같은 의심이 드는데 나머지는 이상이 없다면 원인이 여기 있을 수도 있겠네요

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-24 01:36:08 삭제 수정 답글

엣날에 이것저것 건들여보다가 None(1024?), 1024, 2048 이렇게 테스트해봤는데 램이 살짝? 먹긴하지만 1~3차이였고  학습시간이 좀늘었던거같습니다. 그거했다고 쳐도 너무 vram을 마니 먹는게 아닌가 싶습니다.  그리고 none이시면 어차피 1024 가 베이스라서 짤렸을텐데 문제가 아닌거같아요

펼쳐보기▼

maywell

2024-04-19 07:38:56 답글

단일 gpu lora는 unsloth 쓰십쇼

펼쳐보기▼

ㅇㅇ (121.166)

2024-04-19 07:42:27 삭제 수정 답글

여기서 공부하면서 매번 새로운 툴들을 배우네요. 감사합니다!!!

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28578330

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6014

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27130

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8921

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4084 일반 초딩도 할 수 있는 컨텍 확장 가이드 [24]

maywell 2024.04.27 2155 23

4083 질문 llm을 이용해서 돈벌고계신분들 계신가요?? [13]

돌돌돌돌 2024.04.26 1339 0

4082 질문 m2 mac studio ultra로 llama3 8b fine tuning 될까요? [7]

KevinRyu 2024.04.26 606 0

4081 정보 서울과기대, LLama3 8B 파인튜닝 영어-한국어 모델 'Bllossom' [10]

al06r 2024.04.26 1679 4

4080 일반 qwen1.5 110b출시

jackofmaster 2024.04.26 396 4

4079 일반 Llama-3-8B-Instruct 262k 컨텍스트 확장 출시 [16]

사과는맛있어맛있으면바나나 2024.04.26 1503 12

4078 질문 OpenAI Embeddings [5]

jarvis777 2024.04.26 708 0

4077 질문 chat model에 raw text 학습시키는 방법은 어떤게 있을까요? [1]

ㅇㅇ (203.226) 2024.04.26 438 0

4076 질문 4060ti로도 개인용으로 돌릴 수 있음? [5]

ㅇㅇ (211.234) 2024.04.26 666 0

4075 질문 70b 모델을 2.5~3T/s 정도 나오게 하려면 어느정도 사양이 필요할까요? [7]

ㅇㅇ (221.168) 2024.04.26 644 0

4074 질문 finetuning 도구 추천 부탁드릴수 있을까요? [7]

ㅇㅇ (61.74) 2024.04.26 664 -1

4073 일반 라마3 온디바이스 추론 [6]

ㅇㅇ (211.226) 2024.04.26 887 0

4072 일반 NurtureAI <- 여기 모델 사용하지 마시길 [7]

maywell 2024.04.25 1465 11

4071 일반 OAI Batch API 기능 번역

ㅇㅇ 2024.04.25 368 4

4070 질문 ai용 컴퓨터 장만하려고하는데요 [6]

RoT 2024.04.25 770 1

4069 질문 데이타셋중 Prompt, Chosen, Rejected로 되어 있는건 어떻게 사용해야 하나요? [4]

그래요 2024.04.25 341 0

4068 질문 파인튜닝과 관련하여 [2]

ㅇㅇ (218.156) 2024.04.25 594 0

4067 질문 ollama 로 llama3 구동하여 성향을 가진 챗봇처럼 대화할 수 있나요? [5]

사료 2024.04.25 853 0

4066 일반 라마3 시대를 맞이하여 새로 정보 공지글 정리하려고 합니다. [26]

hkhk 2024.04.25 1792 29

4065 일반 miqu-evil-dpo 모델 업로드 및 출력 예시 [5]

maywell 2024.04.25 530 9

글쓰기

전체글 개념글