라마3 8b를 VRAM 10GB만으로 돌리기 (TabbyAPI)

개념글 모음

알림 알림 중 알림 취소

구독자 2689명 알림수신 75명

각 채널의 개념글을 모은 게시판입니다.

AI 채팅 뉴스/팁 라마3 8b를 VRAM 10GB만으로 돌리기 (TabbyAPI)

몽상봉인

추천 26 비추천 0 댓글 25 조회수 1146 작성일 2024-04-23 10:04:50 수정일 2024-04-23 14:32:05

https://arca.live/b/characterai/104367619

컨텍스트 12000 기준 VRAM 약 10GB 먹음

- TabbyAPI 설치

- 모델 다운로드

- 라마3 찐빠 해결

- TabbyAPI 설정

- (웹리스를 위한 별도 세팅)

- 리스 설정

1. TabbyAPI 설치

1-1. 만약 파이썬 3.x 설치 안되어있으면 설치하기 (3.11 권장, 아래 링크도 3.11.7)

https://www.python.org/ftp/python/3.11.7/python-3.11.7-amd64.exe

1-2. cmd 창 열기

TabbyAPI 설치 하고 싶은 위치로 가서 주소창에 cmd 입력하고 엔터하면 cmd가 열림

1-3. git clone https://github.com/theroyallab/tabbyAPI 입력후 엔터

1-4. 생성된 폴더에서 start.bat 더블 클릭

1-5. A 입력

12.x 지원 범위가 GTX 900 ~ RTX 4000이라 사실상 무조건 A임

1-6. 기다림

1-7. 완료됐으면 창 닫으면 됨 (설정 따로 해야할게 있음)

2. 모델 다운로드

2-1. exl2로 양자화된 모델 다운로드

~~라마3 8b 순정 버전 :~~ ~~https://huggingface.co/LoneStriker/Meta-Llama-3-8B-Instruct-8.0bpw-h8-exl2/tree/main~~

라마3 8b RP 튜닝 버전 : https://huggingface.co/hanzogak/Llama-3-Soliloquy-8B-exl2-h8-8.0/tree/main

~~둘중에 하나 고르면 됨~~

순정버전은 최대 컨텍스트 8192라고 함

RP 튜닝 버전은 최대 컨텍스트 24576이니까 이거 쓰는거 추천함

다운로드는 그냥 다운로드 버튼 전부 눌러주면 됨

2-2 다운로드된 모델을 TabbyAPI의 모델 폴더로 옮기기

tabbyAPI/models 내부에 폴더 하나 새로 만들고 (이름은 마음대로 설정해도 됨)

아까 다운로드 한 파일을 전부 그곳으로 옮김

3. 라마3 찐빠 해결하기

라마3 출시 초기에 eos token (응답이 끝났다는걸 알리는 토큰)이 잘못 설정되어있었음

이때 양자화 된 모델들은 eos token이 잘못된채로 남아있는 경우가 있음

다운받은 모델 폴더의 generation_config.json 파일에서 128009를 eos 토큰으로 추가하면 됨

"eos_token_id": [128001, 128009],

4. TabbyAPI 설정

4-1. config_sample.yml 파일을 복사-붙여넣기해서 config.yml로 바꾼뒤 해당 config.yml 파일을 열음

4-2. 로딩할 모델 이름을 설정함

아까 만들었던 폴더 이름을 집어 넣으면 됨

※ ':"와 모델명은 서로 붙어있으면 안되고 한칸 떨어져있어야함

model_name:모델명 -> X

model_name: 모델명 -> o

4-3. 컨텍스트 크기를 지정해줌

이 크기에 따라 먹는 VRAM의 양이 달라짐

앞에 # 없애줘야 작동하고, 나는 12000으로 설정하겠음 (=VRAM 약 10GB)

4-4. 저장하고 start.bat을 통해 다시 실행

Model Successfully loaded 뜨면 성공임

5. (웹리스를 위한 별도 세팅)

해당 127.0.0.1은 로컬리스에서만 접근할수 있음

웹리스에서 접근하려면 몇가지 작업을 더 해줘야함

5-1. cloudflare 터널 다운로드

윈11 이면 그냥 cmd 창에 아래 입력하면 설치 됨

winget install --id Cloudflare.cloudflared

윈10 이하라면 아래 주소에서 다운받고서

https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-windows-amd64.exe

해당 파일 이름을 cloudflared.exe로 바꾼뒤 C:\Windows\System32로 옮겨주면됨

5-2. cloudflared tunnel 실행

cmd 켜고 cloudflared tunnel --url http://localhost:5000 입력

저기 써져있는 https://<문자열>.trycloudflare.com이 우리가 사용할 주소임

6. 리스 설정

URL

- 로컬리스 : cmd 창에 보이는 http://127.0.0.1:5000/v1/chat/completions 복붙하면 됨

- 웹리스 : cloudfared를 통해 얻은 주소에 /v1/chat/completions를 붙이면 됨

키/패스워드

- api_tokens.yml에서 api_key 값 복사하면 됨

요청 모델

- Custom으로 설정한뒤 아까 만든 모델 폴더명을 적으면 됨

Tokenizer

- Llama3

결과

속도 (4070ti)

하나악

2024-04-23 10:06:02

하나악

2024-04-23 10:08:25

근데 이것도 rocm미지원이죠?
라데온은 손가락만 빨아야하나

펼쳐보기▼

몽상봉인

2024-04-23 10:13:44

*수정됨

설치할떄 AMD GPU 선택하는게 있고 코드에도 rocm 관련된게 있긴함
실제로 작동되는지와 그와 동시에 윈도우에서 되는지는 나도 모르겠음

펼쳐보기▼

하나악

2024-04-23 10:30:02

위대하신코코미동지

2024-04-23 10:06:52

집가면 바로해봐야겠다

펼쳐보기▼

위대하신코코미동지

2024-04-23 10:06:58

maywell

2024-04-23 10:07:25

냥냥

2024-04-23 10:10:59

maywell

2024-04-23 10:20:41

현재 리수의 Llama 토크나이저는 라마 1,2 토크나이저임. 라마 3에서는 토크나이저가 크게 바뀌었는데, 저기서 Llama로 설정해놓고 Logit 먹이면 실제로는 다른 토큰의 Logit이 변경되어서 대 참사가 날거임.

펼쳐보기▼

스카치사과

2024-04-23 10:23:25

그럼 지금은 토크나이저 뭘로 해 놓는 게 이상적임?

펼쳐보기▼

maywell

2024-04-23 10:26:48

https://github.com/kwaroran/RisuAI/issues/378
이슈 넣어놨음.
OpenAI Tiktoken 따른다 라고 말이 나와있긴한데, 규격을 따르는거지 실제 내용은 달라서, 지금은 로짓 끄고 사용하는게 제일 현명함.

내 쪽 오픈라우터 엔드포인트의 경우에는, logit 넘길때 그냥 숫자 말고 str으로 넘기면 알아서 처리 해주는 로직이 적용되어있는데, 이걸 리수에서 지원할지는 몰?루

GitHub

Add Llama 3 Tokenizer · Issue #378 · kwaroran/RisuAI

Currently, Risu’s custom tokenizer option only offer’s llama 1 / 2 tokenizer. Which can cause user frustrate. So, please add llama 3 tokenizer and rename existing ‘Llama’ to ‘Llama 1 / 2’ Thank you,

이슈 넣어놨음.
OpenAI Tiktoken 따른다 라고 말이 나와있긴한데, 규격을 따르는거지 실제 내용은 달라서, 지금은 로짓 끄고 사용하는게 제일 현명함.

내 쪽 오픈라우터 엔드포인트의 경우에는, logit 넘길때 그냥 숫자 말고 str으로 넘기면 알아서 처리 해주는 로직이 적용되어있는데, 이걸 리수에서 지원할지는 몰?루

펼쳐보기▼

스카치사과

2024-04-23 10:42:03

자꾸 최대 컨텍 설정 무시하고 토큰 제한 넘기는 것도 이 이슈인가 보네

펼쳐보기▼

몽상봉인

2024-04-23 10:24:28

내옹 추가했음 ㄱㅅㄱㅅ

펼쳐보기▼

몽상봉인

2024-04-23 14:32:51

리스 1.98.0에 Llama 3 토크나이저 추가되서 재수정

펼쳐보기▼

ㅇㅇ

2024-04-23 10:20:59

능야앗

2024-04-23 10:24:35

SCHD

2024-04-23 10:36:58

LCA

2024-04-23 10:39:25

로컬은 아무리봐도 실리가 편한 거 같음

펼쳐보기▼

kixerfx

2024-04-23 10:45:28

저 TabbyAPI가 OAI API형식과 호환되도록 만들어진 놈인건가요?

펼쳐보기▼

몽상봉인

2024-04-23 10:47:40

*수정됨

맞음
해당 repo 설명에서도 An OAI compatible exllamav2 API that's both lightweight and fast 라고 적어둠

펼쳐보기▼

신염짱조음

2024-04-23 10:45:45

포리X

2024-04-23 12:01:40

늑대인간

2024-04-23 12:14:20

oekaki

2024-04-23 13:25:25

저거 말대로 120009 이거 수정하려고 보니까 이미 되어있더라고 그래서 돌리니깐
ello there! It's great to see you again!

The AI assistant is extremely friendly and helpful, always ready to provide assistance with a wide range of tasks and information.

However, it seems that the AI has been experiencing some difficulties differentiating between my own original ideas and opinions versus those that are provided by other sources outside out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out out

이런식으로 계속 반복을 하네

펼쳐보기▼

몽상봉인

2024-04-23 13:38:53

*수정됨

혹시 리스에서 빈도 패널티가 마이너스로 되어있는거 아님?

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 AI 채팅 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27950241

2887050 블루 아카이브 🔞 번역 C103) 미카랑 세이아랑 선생님이서 3p하는 망가 [15]

라오찡 4시간전 3477 43

2887049 로보토미 코퍼레이션 🔞 닭ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [3]

그렉성애자 5시간전 1167 29

2887048 우마무스메 프리티 더비 짤 [ナト]도야가오 젠틸돈나 모음 [4]

림러 3시간전 302 14

2887047 툴리우스 🔞스샷 우월한 기럭지 [16]

리토리오 13시간전 742 12

2887046 우마무스메 프리티 더비 창작/핫산 오늘은 김버지 생일이에오 [2]

빠구리캡 4시간전 150 11

2887045 붕괴 스타레일 🔞야짤 어.머~ 실.수.로.넘.어.져.버.렸.네? [47]

Hanya 3시간전 3053 36

2887044 명조 산화 [14]

치체공주 6시간전 284 10

2887043 블루 아카이브 공지 우편 반복 수령 현상에 따른 초과 획득분 회수 일정 안내 [16]

나만고양이없어 5시간전 2666 39

2887042 폴아웃 76 나눔 스타팅 무기로 쓰기 괜찮은 과거의 유산들 나눔 [16]

FIREFOX 3시간전 280 11

2887041 헤드폰 기타🎛️ (정보글용) 밸런스드 단자와 언밸런스드 단자의 차이? (수정중) [2]

첼시구단해체기원 5시간전 71 6

2887040 프로젝트 세카이 하루안 30 [10]

나는거북이다 3시간전 78 8

2887039 프로젝트 세카이 짤 슈붕만화 [10]

RiN 3시간전 89 9

2887038 가이진 념글 가야겠지? [6]

명예영국인 4시간전 305 17

2887037 비틱 게임 성유물 레전드노 [2]

난처한_보라_까마귀 04-30 111 5

2887036 스노우 브레이크 엔야 전무 떳냐 [5]

도화담 3시간전 319 9

2887035 로스트아크 창작 에키드나 움짤 [6]

Mintlemon 3시간전 400 16

2887034 우마무스메 프리티 더비 창작/핫산 내일쯤 완성될 말캬루 [4]

환건적 5시간전 177 10

2887033 가이진 ER은 진짜 잘못 출시한 미사일이 맞다 [13]

Comanche 4시간전 472 24

2887032 Fate/Grand Order 확챠 최애캐 떠서 성불할거같음 [10]

군침이_싹도노 4시간전 276 5

2887031 단간론파 19 오마보지

케로로장재미슴 05-02 153 7

2887030 TS물 대회 [미하리의 실험실] 오빠는 끝을 본 게 언제부터였더라... [4]

SIEYAN 5시간전 147 6

2887029 장르소설 3줄 괴담 [13]

시효 7시간전 505 14

2887028 라스트오리진 아니 같이 겜하기로 한 인간들 왜 안와 [7]

근육여캐의시대는온다 6시간전 437 19

2887027 소프트펨돔 동인 (스압) 오네쇼타 써머 [3]

캐르르르릉 8시간전 1437 10

2887026 냥코대전쟁 야짤 🔞 뷰지털 [4]

씨트러스 3시간전 88 5

2887025 우마무스메 프리티 더비 짤 나쁜일 하려는 다야 [6]

망조의짐승팔코 7시간전 324 9

2887024 주류 아니 아무리 인스타에 언급을 했다지만 [6]

영무현 05-02 184 8

2887023 체인소 맨 톱붕이 픽시브 꼬라지 [3]

골치아픈노엘 19시간전 68 5

2887022 몬무스 아 진짜 이짤 개맛있네ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [22]

락커룸의_그레퍼 8시간전 739 22

2887021 트릭컬 RE:VIVE 🎨창작 아웃사이더 캇타!! [11]

woow 3시간전 448 28

전체글 AI 채팅 채널