로컬에서 embeddings 를 편하게 돌릴 수 있는 프로그램 infinity_emb 를 소개합니다 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3450명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

정보 로컬에서 embeddings 를 편하게 돌릴 수 있는 프로그램 infinity_emb 를 소개합니다

추천 7 비추천 0 댓글 2 조회수 463 작성일 2024-03-03 02:38:40 수정일 2024-03-04 13:45:28

https://arca.live/b/alpaca/100374356

보통 로컬에서 직접 embeddings 를 돌려서 처리하려고 했을 때는 직접 fastapi 든 뭐든 구현을 해서 돌렸어야 했었죠.

혹시나 해서 찾아보니 OpenAI 호환 API 형태로 embeddings 를 돌릴 수 있는 프로그램을 찾았습니다.

https://github.com/michaelfeil/infinity.git

위 git repo 에 보면 README.md 의 Getting Started 에 설치방법이 나와있는데요.

이걸로 하면 설치가 제대로 안되더군요.

pip install infinity-emb[all]

그 아래에 삼각형 표시 눌러서 열리는 수동 설치로 하니 잘 되었습니다.

git clone https://github.com/michaelfeil/infinity
cd infinity
cd libs/infinity_emb
poetry install --extras all

그런데 또 문제가 있었으니, 현재 버젼? 인 commit hash 296472e 에서 시작 시 torch.compile() 에서 오류가 발생하더군요.

macOS 에서는 늘상 이런 일이 있으니 그러려니 했는데, linux cuda 환경에서도 이래서 매우 당황스러웠습니다.

이 문제는 환경변수 export INFINITY_DISABLE_COMPILE=TRUE 를 설정하면 해결되었구요. torch.compile() 을 안해서 살짝 느리겠지만 일단 돌아갑니다.

이 상태에서 infinity_emb 를 실행하여 API 서버를 띄워도 되고, Python 에서 infinity_emb 패키지를 import 하여 직접 코드를 작성해서 사용해도 됩니다.

아직 이걸 가지고 많은 것을 해보지는 못했지만, 매우 편하게 쓸 수 있는 물건이 등장하여 좋네요.

* 추가: Python 3.11 에서 돌렸었는데, Python 3.10 에서 돌리니까 torch.compile() 오류 안납니다.

댓글 [2] 글쓰기

2024-03-03 11:10:51 답글

오 좋은 라이브러리 추천 감사합니다!!!

펼쳐보기▼

2024-03-04 07:09:57 답글

bge-m3 도 돌릴수있는지 궁금하네요

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30024872

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6126

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27716

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9148

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5268

공지 신문고

바바리맨 2023.04.18 2305

숨겨진 공지 펼치기(1개)

660 정보 BitNet 구현 코드(논문 기준) [3]

Cinnamomo 2024.03.21 702 6

659 정보 a6000 vs 4090 dual axolotl lora 파인튜닝 성능 비교 [3]

hkhk 2024.03.20 1226 11

658 정보 사용하기 편리한 영한-한영 번역기 소개드립니다. [67]

wk 2024.03.20 2118 27

657 정보 Gpt4는 1800b 파라메터 moe 모델이었음 [15]

hkhk 2024.03.19 1518 11

656 정보 RWKV-5가 1.7T 갯수의 토큰을 사용하여 llama2의 성능을 능가함 [1]

ㅎ헤ㅔ헤헤헤 2024.03.18 618 8

655 정보 gpt 3.5 turbo의 hidden dim을 4096으로 추정한 논문이 나왔네요. [1]

ㅇㅇ 2024.03.15 783 9

654 정보 koboldcpp 가 multimodal 을 지원합니다 + 오류 [1]

noopSD 2024.03.13 334 4

653 정보 TRUFFLE–1: Mixtral를 20 token/s 로 실행하는 컴퓨터(1299$) [7]

ㅇㅇ 2024.03.13 614 4

652 정보 Gemma 파인튜닝 버그 몇개가 수정 되었다고 하네요. [2]

존코더 2024.03.13 605 5

651 정보 한국어를 지원하는 다국어 생성모델 command r v01 [3]

ㅇㅇ 2024.03.12 623 1

650 정보 llama.cpp 가 Mamba 를 지원합니다 [5]

noopSD 2024.03.11 551 8

649 정보 Elon-musk - 이번 주말에 Grok 오픈소스 공개하겠다 [5]

hkhk 2024.03.11 750 8

648 정보 [윈도우 ROCm] 미지원 AMD GPU 사용 방법. [3]

ㅇㅇ (221.141) 2024.03.08 556 5

647 정보 24gb카드 2장으로 70b모델 파인튜닝하기 솔루션 공개됨 [7]

hkhk 2024.03.08 1473 15

646 정보 RTX 4090 24GB + Tesla P40 24GB 로 야놀자 연구팀 모델 테스트 후기 [5]

ㅇㅇ (125.133) 2024.03.06 1647 18

645 정보 짐 켈러의 텐스토렌트, AI 가속기 개발자 킷 판매 시작 [6]

LCA 2024.03.06 601 3

644 정보 RTX 4090 24GB (메인용) + Tesla P40 24GB 카드 추가 (셋팅방법 및 테스트 결과) [10]

ㅇㅇ (125.133) 2024.03.05 1226 15

643 정보 이번에 인텔에서 NPU 가속 라이브러리를 공개했습니다 [9]

이하비스 2024.03.04 611 7

642 정보 런포드를 이용한 Vllm 서버리스 [6]

LCA 2024.03.03 691 9

641 정보 로컬에서 embeddings 를 편하게 돌릴 수 있는 프로그램 infinity_emb 를 소개합니다 [2]

noopSD 2024.03.03 464 7

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.