예를 들어 사이트에서 사용자들을 위해 챗봇을 사용할 수 있게 한다면 vllm이 더 좋은 대안일까요?

exllama는 queue형식으로 여러명이 동시에 추론요청을 하게되면 이전의 추론이 끝나기를 기다려야하는것으로 알고있어요

vllm + gptq를 사용하면 속도도 일정부분 빠르게 하면서도 병렬 추론이 가능하다고 들었는데

테스트해보려고 합니다.


현재는 oobabooga + exllamav2 정도만 사용해봤는데


oobabooga + vllm 로도 사용할 수 있나요?

궁금합니다!

추가적으로 ollama 는 어떨지도 궁금하네요 ㅎㅎ