허깅페이스 mlx-community 라는 조직(Organization)이 있습니다.


이곳에 mlx 용으로 변환된 모델이 좀 올라오길래 직접 시도해봤습니다.

정확히는 Mixtral 8x22B v0.1 같은 건 왜 여기에 2bit 양자화로 올리지 않는걸까? 에서 시작했습니다.


### 결과:

위의 그림에서 보다시피, 2비트 양자화로 결과물이 나오긴 하는데, 2비트 양자화는 제대로 안돌아가는듯 합니다.


양자화 되는 속도는 매우 빨랐으며, llama.cpp 에 가장 처음 등장한 Q4_0, Q4_1, Q5_0, Q5_1, Q8_0 같은 것 보다 더 빠르게 양자화를 하는 것 처럼 느껴졌습니다. 즉, 정말 별거 안하는 양자화인 것으로 보입니다.


96GB 이상 램이 있는 Apple Silicon 컴퓨터라면 좀 쓸만할 것 같기도 하구요. M1 Max 64GB 램인 저는 잘 안쓸 것 같네요.

llama.cpp 가 더 많은 선택지를 제공하고 속도도 그럭저럭 나쁘지 않으니까요.