https://github.com/ggerganov/llama.cpp/pull/5999


llama.cpp 에서 1.5bit 논문을 보고 영감을 받아서 

1.5bit 양자화를 구현했다고 하네요. 


병합 된걸로 보여요. 


IQ1_S이면 70B를 24GB 1개로 돌릴 수 있을 것 같아요. 

ppl 이 5.2로 준수한 편이라고 하네요.


아직 올라온 모델은 못찾겠습니다. 아마 곧 볼 수 있을거 같네요. 

(kiqu 누가 만들어주랑)