exllamav2가 최고라고 생각했었는데 vllm은 어떤가요? - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3403명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

일반 exllamav2가 최고라고 생각했었는데 vllm은 어떤가요?

추천 0 비추천 0 댓글 7 조회수 499 작성일 2024-05-10 05:01:20

https://arca.live/b/alpaca/105834776

예를 들어 사이트에서 사용자들을 위해 챗봇을 사용할 수 있게 한다면 vllm이 더 좋은 대안일까요?

exllama는 queue형식으로 여러명이 동시에 추론요청을 하게되면 이전의 추론이 끝나기를 기다려야하는것으로 알고있어요

vllm + gptq를 사용하면 속도도 일정부분 빠르게 하면서도 병렬 추론이 가능하다고 들었는데

테스트해보려고 합니다.

현재는 oobabooga + exllamav2 정도만 사용해봤는데

oobabooga + vllm 로도 사용할 수 있나요?

궁금합니다!

추가적으로 ollama 는 어떨지도 궁금하네요 ㅎㅎ

댓글 [7] 글쓰기

2024-05-10 06:10:08 답글

서비스는 당연히 vllm이 좋습니다 exllama는 말한것처럼 이전요청이 끝나기 전에는 홀드라

펼쳐보기▼

hkhk

2024-05-10 06:13:18 답글

vllm 은 병렬로 많은 수의 입력을 처리할 때 좋습니다. 요청 한 건을 처리하나 몇십 건을 처리하나 전체 속도가 비슷하게 나오니까요. 사이트에서 챗봇을 제공하려면 vllm 없이는 어렵습니다.

펼쳐보기▼

jwl

2024-05-10 06:19:48 답글

음.. 제가 보기엔 업계가 거의 llama.cpp(GGUF)로 통일됐다고 생각했는데요. exllamav2나 vllm은 제가 써보진 않아서 모르겠네요. ollama는 백엔드가 llama.cpp인데 초심자도 bash 한줄로 찍먹해볼수 있게 만든 거라 좋고, LM studio도 GGUF기반인데 GUI로 huggingface 전체를 편하게 검색해볼 수 있어서 좋아요

펼쳐보기▼

2024-05-10 10:13:21 답글

llama.cpp 는 동시에 여러 명에게 대량으로 서비스하는데 적합하지 않습니다. vllm과 aphrodite가 이런 쪽에 특화되어 있죠

펼쳐보기▼

2024-05-10 14:18:58 답글

llama cpp도 이제 continuous batching 지원해서 서비스용으로 괜찮지 않나요? 동시처리도 되구요

펼쳐보기▼

2024-05-10 16:52:14 답글

ㄴ

펼쳐보기▼

whs

2024-05-10 08:21:04 답글

보통 서비스는 vllm 쓰더라구요
경우에 따라서 아프로디테도 같이쓰던

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28534772

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6001

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27051

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8892

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5096

공지 신문고

바바리맨 2023.04.18 2244

숨겨진 공지 펼치기(1개)

4236 일반 앤트로픽이 밑에 소넷 작동원리를 파악한거를 금문교 클로드로 공개했네요 [2]

그래요 2024.05.24 105 4

4235 정보 Cohere에서 신규 모델(Aya 23 8B/35B) 나왔네요 [2]

ㅇㅇ 2024.05.23 307 4

4234 일반 중국발 ai 덤핑에 대해서 말이 많긴 하네요. [3]

감별사 2024.05.23 323 4

4233 스터디 llama2.c 모델 학습 결과 [2]

zzzzz5 2024.05.23 284 8

4232 일반 llama 3 70B -> 4x8B [1]

zzzzz5 2024.05.23 466 7

4231 정보 MacOS chatgpt app waitlist 우회하는 방법

jackofmaster 2024.05.23 230 6

4230 질문 프롬프트 엔지니어링이라는 용어의 범주? [2]

초당옥수꾸 2024.05.23 309 0

4229 일반 흥미로운 일/영 번역모델이 나왔네요 [6]

한가운데 2024.05.23 373 4

4228 질문 unsloth에서 device map 설정 방법 아시는 분 계실까요? [2]

ㅇㅇ (58.234) 2024.05.23 195 0

4227 질문 전력공학이나 전기공학 학습용 데이터같은것도있을까요? [1]

ㅇㅇ (1.235) 2024.05.22 175 0

4226 정보 mistral 7b 0.3출시 [5]

jackofmaster 2024.05.22 602 8

4225 일반 영향 있는 Lora 만드려면 몇번쯤 돌려야 하는거임? [1]

세법상법 2024.05.22 268 1

4224 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰 [11]

hkhk 2024.05.22 623 31

4223 질문 contex 개념 좀 한번 잡아주세요 [4]

ㅇㅋㄹ 2024.05.22 230 0

4222 일반 Gemini 1.5 Flash 출시

pussydestroyer 2024.05.22 280 2

4221 스터디 TinyStories-Korean 모델 학습 결과 [5]

hkhk 2024.05.22 568 19

4220 일반 클로드 앤스로픽 블로그 - 소넷의 내부 작동을 이해했다 [6]

al06r 2024.05.22 391 7

4219 일반 님들 책 한권씩만 추천해줘요 [3]

세법상법 2024.05.22 286 1

4218 질문 aphrodite-engine 모델 서비스 [7]

ㅇㅇ 2024.05.22 330 0

4217 일반 phi-3 small/medium 나왔네요 [15]

딸기맛봇치 2024.05.21 1291 16

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.