GPT2때 잠깐 깔짝거려보다 포기하고 다시 입문한지 얼마 안된 초보입니다.

 

기술이 발전해서 구형 저가형 글카(1060...)에서도 생각보다 훨씬 잘 돌아가길래 

일단 램만 늘려서 CPU 오프로드로 이것저것 해보고 있습니다


학습은 아직 잘 모르겠고 신기해서 이것저것 돌려만 보고 있는데요,


그런데 7b나 10.8b는 꽤 빠르게 돌아가지만 모델 덩치가 커질수록 

생성이 너무 느려지더라구요

토큰 생성 속도가 7b는 10T/s 정도 나오는데 70b는 0.8T/s...


이것저것 시험해보니 

GGUF로 70b 모델의 Q4_K_M을 3T/s 정도의 속도로 돌리기만 해도

실제로 제가 영어를 읽는 속도와 비슷해서 로컬로 구동하기 쓸만해 보이는데, 

이게 그냥 그래픽카드를 살짝 바꾼다고 해결될 문제인지 모르겠습니다.


제가 느끼기엔 카드의 단순스펙보다는 

얼마나 많은 레이어를 VRAM에 띄울 수 있는지가 더 중요한 것 같은데

3T/s 정도면 어느정도의 사양이 필요할까요? VRAM 12G나 16G 정도론 어림도 없을까요?