How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

https://arxiv.org/pdf/2404.14047.pdf


결론 1줄 요약 - 나쁘지 않음. 70B의 경우 24GB dual 로 돌릴 수 있는 구성으로 AWQ 4bit 가 개중 쓸만함. 


레딧 유저 ravenwolf 의 실험 기록

https://www.reddit.com/r/LocalLLaMA/comments/1cal17l/llm_comparisontest_llama_3_instruct_70b_8b/


결론 2줄 요약 - 

 24GB 듀얼 - turboderp/Llama-3-70B-Instruct-exl2 4.5bpw 가 가장 양호

 24GB 싱글 - 그냥 8B 모델 쓰는 것보다 70B 2bit 모델 쓰는게 더 점수 잘 나옴  (even at Q2_K, the 70B remains a better choice than the unquantized 8B.)