뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3405명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다.

추천 0 비추천 0 댓글 4 조회수 463 작성일 2024-04-24 10:21:34

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104457859

안녕하세요
이번에 나온 라마3 70B를 로컬에서 돌리는 법에 대해 조사중입니다.
채널 글을 몇 개 읽어 봤는데, 대부분 양자화를 통해 단일 GPU에서 돌리는 방식에 대해 정보가 많은 것 같더라구요.
저는 GPU 6대 정도로 구성된 워크 스테이션을 사용해서 돌려 보려고 하는데, 어떤 라이브러리나 오픈소스가 이러한 기능을 지원해주는지 몰라서, 검색할 키워드를 여쭙고자 질문 드립니다. 상세한 내용은 직접 깨지면서 알아보겠습니다!

댓글 [4] 글쓰기

2024-04-24 10:26:45 답글

*수정됨

vllm이 이런거가 가장 일반적이긴합니다.

펼쳐보기▼

2024-04-24 10:28:16 답글

감사합니다!

펼쳐보기▼

ㅇㅇ (211.114)

2024-04-24 12:34:20 삭제 수정 답글

https://github.com/oobabooga/text-generation-webui

사용해보셔요



모델 로더는 ExLlamav2 사용하시고

https://huggingface.co/turboderp/Llama-3-70B-Instruct-exl2

이 모델중에서 골라서 사용해보시면 됩니다


모델 로드하시는 탭에서

gpu-split

Comma-separated list of VRAM (in GB) to use per GPU. Example: 20,7,7

이곳에 예제처럼 20,20,20 이런식으로 적어주시면 gpu에 자동으로 나눠서 할당됩니다



https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/

여기 보시면 4.5비트와 5비트가 높은 평가를 받았습니다


양자화 안된 모델은 사용해본적이 없어서 모르겠네요

GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models. - oobabooga/text-generation-webui

*수정됨

사용해보셔요



모델 로더는 ExLlamav2 사용하시고

https://huggingface.co/turboderp/Llama-3-70B-Instruct-exl2

이 모델중에서 골라서 사용해보시면 됩니다


모델 로드하시는 탭에서

gpu-split

Comma-separated list of VRAM (in GB) to use per GPU. Example: 20,7,7

이곳에 예제처럼 20,20,20 이런식으로 적어주시면 gpu에 자동으로 나눠서 할당됩니다



https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/

여기 보시면 4.5비트와 5비트가 높은 평가를 받았습니다


양자화 안된 모델은 사용해본적이 없어서 모르겠네요

펼쳐보기▼

2024-04-24 12:45:54 답글

감사합니다!!

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28575738

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6013

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27120

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8919

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5112

공지 신문고

바바리맨 2023.04.18 2257

숨겨진 공지 펼치기(1개)

4144 일반 호기심에 번역한거 비교해봄 [12]

pussydestroyer 2024.05.08 754 1

4143 스터디 트랜스포머도 깊게 생각을 하려면 메모장이 필요해요 - Vision Transformers Need Registers [21]

hkhk 2024.05.08 1219 42

4142 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [12]

hkhk 2024.05.08 1256 40

4141 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [7]

페르미 2024.05.08 651 0

4140 일반 (구글x서울디지털재단)2024 서울 프롬프톤(AI 프롬프트엔지니어링 해커톤) 참가자 모집(기간 연장, ~5.15) [9]

ljhljhljh 2024.05.08 1006 11

4139 일반 A100 40GB로 llama3 70B 구동은 되는지? [3]

ㅇㅇ (203.252) 2024.05.08 745 2

4138 일반 ms가 500b 모델을 학습중이라고 합니다 [3]

그래요 2024.05.08 495 3

4137 질문 베이스라인 모델 선정 방법

레바 2024.05.08 342 0

4136 일반 판매자 정보 실수 - 4060ti 16gb dual 또는 3way 를 위한 핫딜 정보 [11]

ㅇㅇ 2024.05.07 734 5

4135 질문 vllm 활용 추론 관련해서 질문드립니다. [10]

Dikko 2024.05.07 513 0

4134 질문 3090(24gb) 대신 4060ti 16gb 2개 사용하는건 추천 안 하시나요? [7]

ㅇㅇ (110.8) 2024.05.07 542 0

4133 일반 런팟 NFS 마운트 안되나요?

ㅇㅇ (121.135) 2024.05.07 168 0

4132 정보 gpt2-chatbot돌아옴 [15]

HyperBlaze456 2024.05.07 1935 12

4131 질문 gpu 4개를 공냉으로 구성하면 IDC입고 필수일까요? [13]

ㅇㅇ (203.245) 2024.05.07 582 0

4130 일반 rag를 사용할때 로컬모델의 경우 모르는것을 모른다고 잘 하던가요? [7]

호옹이 2024.05.07 632 2

4129 질문 exllamav2로 양자화 한 exl2 모델에 대해 질문 있습니다 [4]

ㅇㅇ (220.78) 2024.05.07 332 0

4128 일반 Langchain, Rag 질문 있습니다 [1]

ㅇㅇ (119.200) 2024.05.07 393 0

4127 질문 학습시 eos 토큰이 잘 안나오는 이유 [22]

ㅇㅇ (61.33) 2024.05.07 633 1

4126 일반 커맨드 R 플러스 로컬에서? [6]

감별사 2024.05.06 538 1

4125 일반 llama3 70b aqlm 2bit [5]

jackofmaster 2024.05.06 584 5

전체글 개념글