예를 들어 사이트에서 사용자들을 위해 챗봇을 사용할 수 있게 한다면 vllm이 더 좋은 대안일까요?
exllama는 queue형식으로 여러명이 동시에 추론요청을 하게되면 이전의 추론이 끝나기를 기다려야하는것으로 알고있어요
vllm + gptq를 사용하면 속도도 일정부분 빠르게 하면서도 병렬 추론이 가능하다고 들었는데
테스트해보려고 합니다.
현재는 oobabooga + exllamav2 정도만 사용해봤는데
oobabooga + vllm 로도 사용할 수 있나요?
궁금합니다!
추가적으로 ollama 는 어떨지도 궁금하네요 ㅎㅎ