맥북으로 인퍼런스 돌리는 방법이 뭐가 있을까요?

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 맥북으로 인퍼런스 돌리는 방법이 뭐가 있을까요?

IlIlIllIlIIllIl

추천 0 비추천 0 댓글 8 조회수 306 작성일 2024-04-18 12:01:05

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/103963401

제목 그대로의 질문입니다

맥북으로 어떤 인퍼런스를 돌릴 수 있을까요?

CUDA를 요구하는 것들도 맥북으로 구동이 가능한가요?

리눅스를 따로 가상머신으로 돌리면 되는건지 궁금합니다.

댓글 [8] 글쓰기

kadd

2024-04-18 12:13:51 답글

맥에서는 대표적으로 "llama.cpp"가 많이 사용됩니다. ARM 이전 후에는 pci 확장을 사용하지 않기도 하고 드라이버도 없어서 cuda는 사용할 수 없습니다.

펼쳐보기▼

noopSD

2024-04-18 12:14:31 답글

llama.cpp 또는 이것에 기반하거나 가져다 쓰는 것들(ollama, koboldcpp, oobabooga text-generation-webui 등) 으로 LLM 을 돌립니다.

펼쳐보기▼

IlIlIllIlIIllIl

2024-04-18 13:48:22 답글

혹시 그러면 어떤 것이 가장 추론속도가 빠를까요? API도 지원됐으면 좋곘습니다.

펼쳐보기▼

Lights

2024-04-18 15:04:47 답글

윈도 리눅스 기준으로 ollama 안써봐서 모르겠고 api는 보통 다 지원되고 가장 인기 있는게 koboldcpp, 편의성과 추론 속도 기준으론 koboldcpp 추천합니다.

펼쳐보기▼

noopSD

2024-04-18 19:06:40 답글

기본적인 속도 차이는 없습니다. llama.cpp 코드의 핵심 추론 부분을 그대로 쓰니까요. llama.cpp 에 기반하거나 이걸 끌어다 쓰는 것들 대부분 OpenAI 호환 API 지원합니다. 작년 11월 부터 llama.cpp 에 들어있는 server 도 OpenAI 호환 API 를 지원하기 시작했습니다.

펼쳐보기▼

noopSD

2024-04-18 19:10:27 답글

다만, Apple Silicon 에서 llama.cpp 계열을 돌릴 경우 prompt processing 이 느리고, reload 를 해야 하는 상황이 자주 발생하면 매번 prompt processing 을 다시 해야 해서 그만큼 시간이 더 걸리는데, REST API Request 에 "cached_prompt": true 를 추가해서 보낼 수 있으면 llama.cpp 에 들어있는 server 를 써도 되고, 아니면 koboldcpp 를 추천합니다. 다르게 동작하지만 둘 다 prompt 에 대한 k, v cache 를 지원하기 때문에 prompt reload 를 할 경우 속도가 확 올라가기 때문이죠.

펼쳐보기▼

IlIlIllIlIIllIl

2024-04-19 11:30:38 답글

오호.. 감사합니다 kobold로 사용해볼게요

펼쳐보기▼

ㅇㅇ (119.202)

2024-04-18 16:52:19 삭제 수정 답글

맥북에는 애플실리콘(eg M1)을 사용할 경우 CUDA 대신 Metal 및 mlx을 보통 사용합니다.

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28557727

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27089

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8906

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4062 질문 모델을 학습시키고 레포를 만들고 리더보드도 올려보고 하면서 원론적인 궁금증이 있습니다. [6]

뉴비챗 2024.04.24 522 2

4061 일반 라마3를 실리콘 맥미니에서 돌려보았음. [9]

뿌리골무 2024.04.24 897 6

4060 일반 라마3 덕분에 LLM기술들, 1년 이내로 상향평준화 완료? [5]

뿌리골무 2024.04.24 929 0

4059 일반 재미있을 것 같은 프로젝트 [1]

pussydestroyer 2024.04.24 622 5

4058 일반 Snowflake Arctic: 480b moe+dense모델 [1]

jackofmaster 2024.04.24 346 4

4057 일반 m4 맥스튜디오가 램 512gb로 나오면 닥치고 이거사는게 맞지않나요? [11]

돌돌돌돌 2024.04.24 751 1

4056 질문 GPU에 정수연산기와 실수 연산기는 독립적으로 동작하는데 [3]

ㅇㅇ (221.141) 2024.04.24 368 1

4055 일반 엔드 유저 분들은 이거부터 보세요! Feat. Groq Cloud [2]

pussydestroyer 2024.04.24 614 6

4054 질문 뉴비 LLM 멀티 GPU 구동 질문 하나 드립니다. [4]

AkiAkane 2024.04.24 462 0

4053 질문 모델 레이어를 쌓아서 학습할 수 있을까요? [2]

gadgetrie 2024.04.24 359 0

4052 질문 왜 양자화라는 이름이 붙었나요? [19]

shower 2024.04.24 750 1

4051 질문 5090사기 vs m4 맥스튜디오 사기 [13]

돌돌돌돌 2024.04.24 736 2

4050 정보 merge kit에 Evolutionary Model Merging추가 [1]

jackofmaster 2024.04.24 274 3

4049 일반 GDDR7 모듈들 출시되는거 보면 5090은 36기가로 나올 수도 있을듯 [5]

iau 2024.04.24 518 6

4048 일반 wavecoder ultra 6.7B - 마이크로소프트 [4]

zzzzz5 2024.04.24 428 5

4047 질문 님들 제가 지금 exllamav2로 llama3 70b instruct 모델 변환중인데... [10]

ㅇㅇ (220.78) 2024.04.24 546 0

4046 질문 LlamaModel에서 gate구조에 대한 궁금증 [3]

에라 2024.04.24 342 1

4045 정보 애플의 완전 오픈소스 모델: OpenELM [13]

jackofmaster 2024.04.24 1496 14

4044 질문 문득 최근 llm 모델 나오면서 착오가 자꾸 생겨서 여쭤봅니다. [4]

ㅇㅇ (61.33) 2024.04.24 480 6

4043 질문 특정 도메인에 대한 지식 학습 [7]

뉴비챗 2024.04.23 591 0

글쓰기

전체글 개념글