기본적인 속도 차이는 없습니다. llama.cpp 코드의 핵심 추론 부분을 그대로 쓰니까요. llama.cpp 에 기반하거나 이걸 끌어다 쓰는 것들 대부분 OpenAI 호환 API 지원합니다. 작년 11월 부터 llama.cpp 에 들어있는 server 도 OpenAI 호환 API 를 지원하기 시작했습니다.
다만, Apple Silicon 에서 llama.cpp 계열을 돌릴 경우 prompt processing 이 느리고, reload 를 해야 하는 상황이 자주 발생하면 매번 prompt processing 을 다시 해야 해서 그만큼 시간이 더 걸리는데, REST API Request 에 "cached_prompt": true 를 추가해서 보낼 수 있으면 llama.cpp 에 들어있는 server 를 써도 되고, 아니면 koboldcpp 를 추천합니다. 다르게 동작하지만 둘 다 prompt 에 대한 k, v cache 를 지원하기 때문에 prompt reload 를 할 경우 속도가 확 올라가기 때문이죠.