한국어 알아듣는데 말하지는 못함
아래는 돌리면서 사용한 코드 정리해둔거임
DeepSpeed 는 잘 안 돌아가는거 같더라? 그냥 아래 명령어로 mpi 위에 돌리셈
MODEL_REPO='OFRP/llama-hf-models' MODEL_REPO_PATH='/llama-30b' apt update && apt install -y aria2 python3.10-venv for n in $(seq -f "%05g" 0 60); do aria2c --out "pytorch_model-${n}-of-00061.bin" \ "https://huggingface.co/${REPO}/resolve/main/${MODEL_REPO_PATH}/pytorch_model-${n}-of-00061.bin" done # setup virtualenv [[ -d venv ]] || python -m venv venv [[ $(type -t deactivate) == function ]] && deactivate source venv/bin/activate if [[ ! -d repositories/llama_int8 ]]; then mkdir repositories fi # install dependencies apt install -y mpich python3.10-dev pip install -r requirements.txt pip install deepspeed mpi4py CUDA_LAUNCH_BLOCKING=1 \ deepspeed server.py \ --deepspeed \ --load-in-8bit \ --bf16 \ --cai-chat # or... CUDA_LAUNCH_BLOCKING=1 \ python -m server \ --bf16 \ --load-in-8bit \ --auto-devices \ --cai-chat \ --no-stream
모델 파일 너무 커서 aria2 로 가져왔음
다운로드 속도 괜찮은 서버 구해다가 돌리면 금방 쓸 수 있을거임
60B 모델 변환은 끝냈고 허깅페이스에 업로드 하는 중
121GB 정도 나오더라