우바부가 및 llama.cpp 관련 질문사항입니다.

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 우바부가 및 llama.cpp 관련 질문사항입니다.

ㅇㅇ (61.33)

추천 0 비추천 0 댓글 15 조회수 501 작성일 2024-04-18 06:55:16

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/103938798

최근 모델 qlora 기반 학습쪽에서 공부하다가

문득 내가 만든 모델을 병합시킨 후 gguf 같은 압축 모델로 해서 갖고 놀고 싶다 라는 마인드로

관련 자료를 봤으나, llama.cpp 윈도우 버전에서 설치 이것저것하다가 실패 (대부분 자료가 낡음 or 우분투만 있음)

## 시도한 툴 :

koboldcpp : 설치해서 구동했으나 제 목적이 그냥 단순하게 webui로 하는것은 목표라 아니라서 패스

- 우바부가랑 다른점은 우바부가는 학습 과정도 지원하는 거 같은데, 전 이런 툴보다 제 스스로 코드 짜서 하는게 더 편해서 패스

우바부가 : llama.cpp 해결 못하다가, 지금은 원클릭으로 해당 프로그램으로 설치 하는거 같습니다만, 모델 여러개 로드해서 테스트하려니 내부코드 쪽에서 자꾸 호환이 안되서 이거 한줄 한줄 고칠바에 파이썬으로 내 코드상 추론 테스트 하는게 속편해서 패스

(이 부분도 사실 원인을 모르겠습니다. 모델 로드할때만 exllamav2 문제나, struct 문제나 4bit문제나 등등, 찾아보면 업데이트 문제같은데...)

- 웹 구동이면 저위에 koboldcpp 으로 충분하고, 학습은 애초에 툴로 안하고 파이썬으로 코드 짜서 하기에...

- 구동시 llama.cpp가 있는거같은데 제가 진정원하는건 구동이 아니라 변환이라서...

-> 결국 선결 조건으로 아래 목표와 같은게 우선순위 0순위라 이와 관련해서 질문드리고자합니다.

제 목표는 :

- 기존 학습한 결과를 병합해서 gguf 와 같은 양자 압축 모델로 만들기라서 왠지 헛고생하는게 아닌가 싶어서 질문 드립니다.

1) llama.cpp설치하다가 convert ~ 관련에서 제 기분탓이 아니면 여기에 병합하는 것(베이스모델 + qlora 어댑터)도 있고,

이걸로 ggml 만든 후, gguf , gptq 같은걸로 변환하는게 순번이며 이걸 지원하는거같은데 결국 llama.cpp를 제대로 설치해야하는지 애매해서 질문드립니다.

2) 위와 같이 우바부가/ koboldcpp 는 제가 원하느 기능이 없어서 현재로썬 llama.cpp가 단서인데 다른 방법이 있을가요?

3) 혹시 13b qlora 학습 결과물을 병합하고, gguf 같이 양자화 하는게 된다고 가정하에 예상 vram은 어느정도일까요?

제 경우에는, 예시로 7b로 들자면

- llama 2 7b : 로드시 11~13 ram 소모

- qlora 학습 : 총합 12 ~ 14 ram 소모 (데이터셋 크기가 2만 9천개라 그런거같습니다.)

추론시에는 병합하면 15 ? 정도 드는거같은데 13b 일시에는 25~를 살짝 초과해서 문득 이걸 더 줄일수 없나해서 현재 상황에 온것입니다. (원체 목표가 3090이나 4090 단일 gpu 기반으로 추론 돌리는 것이라 13b일시 좀 걸려서요. 7b는 약간 성능이 좀...)

나름 시행착오하면서 스터디 중인데 저 혼자하느중이라 제가 제대로 갈길 가는지 확신도 안가서 조언부탁드립니다...!

댓글 [15] 글쓰기

Lights

2024-04-18 10:13:19 답글

1)gptq는 변환은 쉽지만 cpu 100%로드 버그아닌 버그가 있습니다. 그래서 변환시 잘 죽습니다. 시간도 겁나게 오래 걸립니다. 10b기준 3시간 이상 아마 걸릴겁니다. 버그아닌 버그 고쳐서 해도 잘 죽으니 그냥 요즘은 잘 사용하지 않으니 gptq로 하실려면 vllm 도 되는 awq 변환을 추천합니다. 그외에는 보통 gguf로 변환해서 사용하는게 편합니다.

전 지금 리눅스 사용중이라 윈도우에서도 cuda도 아마 선행 설치를 해야될건데 기억이 애매한데 그냥 설치하시고
11.8버전이나.12.x버전 이상으로 사용하려는 상태에 맞게 없으면 대충 아무거나 설치
nvdia 설치시 llama.cpp 는 리눅스와는 조금 다른데 윈도우는 설치시에 원하는 디렉토리에
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

---------------------------------
make 사용시(윈도우에서는 비추-비주얼 스튜디오로 cmake로 사용)
make LLAMA_CUDA=1
---------------------------------
선행 설치-비주얼 스튜디오 2019 c/c++컴파일러와 cmake선택 설치 (비주얼 스튜디오는 무료 최신버전 설치하면 됩니다. 예시 2019 할 필요 없음.)
추천-비주얼 스튜디오 2019 cmake 옵션 선택후 설치(cmake만 따로 설치가능한데 어차피 컴파일 기능을 필요로 하기 때문에 비주얼 스튜디오로 편하게 설치해서 사용 추천)
cmake 사용시
mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release
---------------------------------

GitHub

GitHub - ggerganov/llama.cpp: LLM inference in C/C++

LLM inference in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.

*수정됨

펼쳐보기▼

ㅇㅇ

2024-04-18 12:40:08 답글

과정자체는 맞게한거같은데  "cmake --build . --config Release" 이 부분에서 bin/릴리즈 폴더가 안보여서 여기서부터 헤맷던거같습니다.. 다시 재설치해봐야할듯싶습니다 감사합니다.

펼쳐보기▼

Lights

2024-04-18 12:45:23 답글

*수정됨

위에 적은 그대로 복사해서 한줄씩 실행하시면 될겁니다.^^;
참고 build/bin/release 폴더에 생성됩니다.

펼쳐보기▼

Lights

2024-04-18 10:24:37 답글

*수정됨

build 폴더안에 컴파일된 실행파일들로 변환및 기타등등합니다.
그리고 본 모델은 요즘 llama.cpp 버전은 일괄 gguf 변환됩니다. gguf 모델과 lora 를 ggml로 변환후 병합할수도 있으니 참조하세요.

2)kobold 는 그냥 gguf 로딩용으로 사용하시면 될것같습니다. gguf 변환해서 사용할려면 llama.cpp밖에 없을듯?
3)llama.cpp 13b 14b가 제가 사용하는 4090기준 vram은 많이 사용하지 않을겁니다. gguf 변환은 거의 다이렉트로 변환되는거라 일반 메모리 사용에 20b이상도 변환은 가능합니다. awq, exllama도 제가 개인적으로 변환했을때 비슷했던걸로 기억합니다.

저도 이곳은 눈팅만 하는곳인데 이런 설명들은 별로 없는곳이고 알려주는곳이 없을뿐더러 어차피 사양에 따라 직접 학습등등 다 해봐야 됩니다.

일단 llama.cpp는 저렇게만 하면 별이상만 없으면 정상 실행됩니다.

혼자 첨 하면 힘드실것 같아 안타까운 마음에 적어봅니다. awq변환도 쉬우니 시간 나시면 해보시고 exllma 변환은 좀 오래걸려서 비추합니다.

일단 해보시고 잘 안되면 글 남겨 주시면 답변드릴게요.

펼쳐보기▼

ㅇㅇ

2024-04-18 12:40:37 답글

*수정됨

답변 감사합니다... 내일 부터 다음주 중 까지 해보고 문제 있다면 그때 다시 말씀드리겠습니다!

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-19 05:13:12 삭제 수정 답글

*수정됨

안녕하세요!  상세히 설명해주신 덕분에 성공했습니다! 감사합니다.  한가지 궁금한 점이, 코드 상 불러올때 pytorch의 경우 gguf 로드를 지원 안하는거같아서 llama-cpp-python 을 깔고 from llama_cpp import Llama  를 사용해서 테스트 해보았습니다. 이외에  혹시 다른 방법이 있을까요?

펼쳐보기▼

Lights

2024-04-19 07:31:26 답글

pytorch만으론 안되는게 맞습니다. gguf 모델 추론만을 위한거라면 편의성 및 속도면에서 koboldcpp 가 가장 좋습니다. llama.cpp 자체에서도 api 및 로컬 추론 가능하고 koboldcpp 도 서버 api 및 로컬 추론 가능합니다. 제가 질문을 제대로 이해했는지 모르겠네요.^^.

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-19 07:53:29 삭제 수정 답글

아! 실제 비즈니스에서 적용할때 웹 ui가 아니라 input/output 형태로 나오게 하고 싶어서 그런건데 맞는 거 같습니다! 답변 감사드립니다!!

펼쳐보기▼

Lights

2024-04-18 11:41:58 답글

*수정됨

-------------------------------------------------------------------------------------------
처음 접하시는분들을 위해 별것 아니지만 난잡해 보이는 예시를 대충 적어 올립니다.(참고 - 변환 시간 10b 기준 1분내외 길어도 3분 내외 awq는 15분내외 exllama는 30분 내외 정도? - 개인적인 사용감은 8bit나 awq는 양자화시 별차이 안난다고 보면 됩니다.)
-------------------------------------------------------------------------------------------
입력시 python이나 python3사용
-------------------------------------------------------------------------------------------
gguf 변환시(폴더내에 명칭을 정하지 않으면 ggml-model-f16 또는 ggml-model-f32로 변환 생성됨)
python3 convert.py Synatra-10.7B(<-모델 폴더 이름)
-------------------------------------------------------------------------------------------
gguf 8bit 바로 변환시(설명엔 8bit만 다이렉트 변환 가능 - 다른건 안해봄)
python3 convert.py Synatra-10.7B --outtype q8_0
-------------------------------------------------------------------------------------------
양자화 인수(server-llm.sh 파일안의 지원 목록)
"Q8_0" "Q4_0" "Q4_1" "Q5_0" "Q5_1" "Q6_K" "Q5_K_M" "Q5_K_S" "Q4_K_M" "Q4_K_S" "Q3_K_L" "Q3_K_M" "Q3_K_S" "Q2_K"
-------------------------------------------------------------------------------------------
gguf 변환후 양자화시(llama.cpp폴더 컴파일한 build/release 폴더의 quantize.exe 파일을 편하게 llama.cpp 폴더로 이동)
-리눅스
./quantize ./Synatra-10.7B/ggml-model-f16.gguf ./Synatra-10.7B/Synatra-10.7B-ggml-model-q4_0.gguf q4_0
-윈도우는 아마(안되면 . 빼거나 넣거나)
quantize ./Synatra-10.7B/ggml-model-f16.gguf ./Synatra-10.7B/Synatra-10.7B-ggml-model-q4_0.gguf q4_0
-------------------------------------------------------------------------------------------
lora ggml로 변환
python3 convert-lora-to-ggml.py 인수는 기억이 안나서 대충 하면 됨
-------------------------------------------------------------------------------------------
gguf 본 모델과 ggml로 변환된 lora 병합
export-lora.exe 사용 변환 인수는
export-lora 본 모델/ 출력 폴더 이름/ 로라순일듯.
-------------------------------------------------------------------------------------------

펼쳐보기▼

ㅇㅇ

2024-04-18 12:34:34 답글

아니 이렇게 상세하고 친절하게 답변 해주시다니 감사할따름입니다.... 작성자인데, 감사합니다...꾸벅 열심히 해보겠습니다!

펼쳐보기▼

noopSD

2024-04-18 12:21:33 답글

*수정됨

ggml 은 llama.cpp 에서 작년 8월 쯤에 지원 중단되었습니다. llama.cpp 는 이제 gguf 만 쓸 수 있습니다. LoRA 든 QLoRA 든 만드셨으면 학습 기반이 된 HF Transformers 모델에 병합한 다음 GGUF 변환하면 됩니다. 병합과 양자화에는 VRAM 영향은 없고, 이걸로 추론 돌릴 때에는 13B 모델이 요구하는 VRAM 과 똑같은 양의 VRAM 이 필요합니다. 물론 이걸 양자화하면, 13B 모델 양자화한 것이 요구하는 것과 동일한 VRAM 이 필요합니다.

펼쳐보기▼

ㅇㅇ

2024-04-18 12:34:14 답글

*수정됨

작성자인데, 감사합니다... 제가 생각한 과정이 얼추 맞음을 확신할수 있게 됬습니다... 다만, 그렇다면 학습결과물이 25vram 이엇다면 양자화해도 크게 변화안할수 있다는거군요... 답변 감사합니다!

펼쳐보기▼

Lights

2024-04-18 12:44:28 답글

*수정됨

양자화하면 vram사용량은 줍니다. vram 24기가 기준 10b나 20b 이상도 4bit나 8bit로 양자화 해서 로딩하면 vram 사용량이 확 줄어듭니다. 그래서 양자화 해서 사용하면 편하죠. 4bit 기준 vram 로딩 요구량이 반토막이라고 보시면 됩니다.

펼쳐보기▼

ㅇㅇ

2024-04-18 12:50:12 답글

아하... 제가 걱정한게 차이가 없을까 그런건데... 학습시 vram이 얼마나 들던, 최종적으로 3090/4090 기준으로 24vram 으로 추론하는게 목표라서요. 감사합니다!

펼쳐보기▼

Lights

2024-04-18 12:53:50 답글

20b이상 4bit 학습 후 양자화 변환해서 사용하시면 3090 이나 4090 24기가 기준으로 편하게 사용하실 수 있을겁니다. 저도 그렇게 사용합니다.

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28561320

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27092

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8907

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4063 일반 [어쩌다 AI] H100 컴퓨터 사양 문의 [15]

ㅇㅇ (58.87) 2024.04.25 881 1

4062 질문 모델을 학습시키고 레포를 만들고 리더보드도 올려보고 하면서 원론적인 궁금증이 있습니다. [6]

뉴비챗 2024.04.24 522 2

4061 일반 라마3를 실리콘 맥미니에서 돌려보았음. [9]

뿌리골무 2024.04.24 897 6

4060 일반 라마3 덕분에 LLM기술들, 1년 이내로 상향평준화 완료? [5]

뿌리골무 2024.04.24 929 0

4059 일반 재미있을 것 같은 프로젝트 [1]

pussydestroyer 2024.04.24 624 5

4058 일반 Snowflake Arctic: 480b moe+dense모델 [1]

jackofmaster 2024.04.24 346 4

4057 일반 m4 맥스튜디오가 램 512gb로 나오면 닥치고 이거사는게 맞지않나요? [11]

돌돌돌돌 2024.04.24 756 1

4056 질문 GPU에 정수연산기와 실수 연산기는 독립적으로 동작하는데 [3]

ㅇㅇ (221.141) 2024.04.24 368 1

4055 일반 엔드 유저 분들은 이거부터 보세요! Feat. Groq Cloud [2]

pussydestroyer 2024.04.24 614 6

4054 질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. [4]

AkiAkane 2024.04.24 462 0

4053 질문 모델 레이어를 쌓아서 학습할 수 있을까요? [2]

gadgetrie 2024.04.24 359 0

4052 질문 왜 양자화라는 이름이 붙었나요? [19]

shower 2024.04.24 750 1

4051 질문 5090사기 vs m4 맥스튜디오 사기 [13]

돌돌돌돌 2024.04.24 736 2

4050 정보 merge kit에 Evolutionary Model Merging추가 [1]

jackofmaster 2024.04.24 274 3

4049 일반 GDDR7 모듈들 출시되는거 보면 5090은 36기가로 나올 수도 있을듯 [5]

iau 2024.04.24 518 6

4048 일반 wavecoder ultra 6.7B - 마이크로소프트 [4]

zzzzz5 2024.04.24 428 5

4047 질문 님들 제가 지금 exllamav2로 llama3 70b instruct 모델 변환중인데... [10]

ㅇㅇ (220.78) 2024.04.24 546 0

4046 질문 LlamaModel에서 gate구조에 대한 궁금증 [3]

에라 2024.04.24 342 1

4045 정보 애플의 완전 오픈소스 모델: OpenELM [13]

jackofmaster 2024.04.24 1499 14

4044 질문 문득 최근 llm 모델 나오면서 착오가 자꾸 생겨서 여쭤봅니다. [4]

ㅇㅇ (61.33) 2024.04.24 480 6

글쓰기

전체글 개념글