70b 모델을 2.5~3T/s 정도 나오게 하려면 어느정도 사양이 필요할까요?

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3337명 알림수신 164명 @바바리맨

제한없는 언어모델을 위한 채널

질문 70b 모델을 2.5~3T/s 정도 나오게 하려면 어느정도 사양이 필요할까요?

ㅇㅇ (221.168)

추천 0 비추천 0 댓글 7 조회수 595 작성일 2024-04-26 03:58:01

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104617696

GPT2때 잠깐 깔짝거려보다 포기하고 다시 입문한지 얼마 안된 초보입니다.

기술이 발전해서 구형 저가형 글카(1060...)에서도 생각보다 훨씬 잘 돌아가길래

일단 램만 늘려서 CPU 오프로드로 이것저것 해보고 있습니다

학습은 아직 잘 모르겠고 신기해서 이것저것 돌려만 보고 있는데요,

그런데 7b나 10.8b는 꽤 빠르게 돌아가지만 모델 덩치가 커질수록

생성이 너무 느려지더라구요

토큰 생성 속도가 7b는 10T/s 정도 나오는데 70b는 0.8T/s...

이것저것 시험해보니

GGUF로 70b 모델의 Q4_K_M을 3T/s 정도의 속도로 돌리기만 해도

실제로 제가 영어를 읽는 속도와 비슷해서 로컬로 구동하기 쓸만해 보이는데,

이게 그냥 그래픽카드를 살짝 바꾼다고 해결될 문제인지 모르겠습니다.

제가 느끼기엔 카드의 단순스펙보다는

얼마나 많은 레이어를 VRAM에 띄울 수 있는지가 더 중요한 것 같은데

3T/s 정도면 어느정도의 사양이 필요할까요? VRAM 12G나 16G 정도론 어림도 없을까요?

댓글 글쓰기

jackofmaster

2024-04-26 04:14:19 답글

3090했을때 1.5~2 token / s 나왔던걸로 기억하는데

펼쳐보기▼

ㅇㅇ (221.168)

2024-04-26 04:18:01 삭제 수정 답글

*수정됨

아...24G라도 힘들군요...감사합니다

펼쳐보기▼

jackofmaster

2024-04-26 04:23:26 답글

로컬 말고 그냥 openrouter api쓰는게 싸게 먹힙니다

펼쳐보기▼

whs

2024-04-26 04:25:49 답글

파라미터가 클 수록 병목이 가져다 주는 성능 저하가 너무 심해서
그냥 장비에 투자해서 vram 안에 어떻게든 다 꾸겨넣겠다고 마음을 가지셔야 편안합니다
70b쯤 되면 중간이 없습니다. 조금이라도 오프로딩 되어서 미친듯이 느려지거나, vram에 다 넣고 적어도 초당 8~10토큰은 나오거나.

펼쳐보기▼

ㅇㅇ (221.168)

2024-04-26 04:36:44 삭제 수정 답글

와 그렇다면 거의 VRAM이 40G 이상 필요한 거네요...감사합니다

펼쳐보기▼

ㅇㅇ (119.194)

2024-04-26 13:55:22 삭제 수정 답글

jetson orin(64G 메모리)에서 2~3t/s 정도 나옴

펼쳐보기▼

ㅇㅇ (211.234)

2024-04-28 22:34:57 삭제 수정 답글

70b gguf 같은경우 한 43.8기가 정도 먹어요

3090 이면 원래 20토큰 이상 나와야 하는데
메모리 작아서 cpu 넘어가는 순간 속도 1/10 떨어져요.
베스트는 3090 두장이 가성비 갑이긴합니다.

진짜 싸게 일단 돌려만 보겠다 하면 테슬라 p40 두장 깔고 쓰면 100만원 안쪽으로 하나 만들수는 있어여.
4토큰 정도 나올거 같네오. 알리 장당 40만원선 세금포함 - 근데 막상 사면 후회함 3090두장이 답


저는 rtx8000 48기가한장으로 보통 8~9토큰 나오네요.

많이 써본건 아니지만 70b 보다 8b가 더 좋은거 같아요.
70b 쓸데없는 소리 너무 많이 나옴 물론 속도도 느리고.

펼쳐보기▼