그냥 웹서핑중에 라마3이 나왔고 무료다 뭐다 해서 

https://ollama.com/download 여기서 ollama 다운받고, https://ollama.com/library/llama3 여기서 ollama run llama3 이걸로

cmd에 입력해서 8b랑 70b를 다운 받았습니다. 8b까지는 엄청 스무스하게 잘 돌아가던데 70b는 무한로딩 걸리면서 메모리나 그래픽카드가 풀로드 되면서 뒤질려고 하더라고요. 

사용하는 그래픽카드가 4090인데 얘가 양자화 4비트를 4090 한장으로 부족해서 성능문제로 실행 안되는 것이 맞을까요?