한국어 알아듣는데 말하지는 못함

아래는 돌리면서 사용한 코드 정리해둔거임

DeepSpeed 는 잘 안 돌아가는거 같더라? 그냥 아래 명령어로 mpi 위에 돌리셈


MODEL_REPO='OFRP/llama-hf-models'
MODEL_REPO_PATH='/llama-30b'

apt update && apt install -y aria2 python3.10-venv

for n in $(seq -f "%05g" 0 60); do 
    aria2c --out "pytorch_model-${n}-of-00061.bin" \
        "https://huggingface.co/${REPO}/resolve/main/${MODEL_REPO_PATH}/pytorch_model-${n}-of-00061.bin"
done

# setup virtualenv
[[ -d venv ]] || python -m venv venv
[[ $(type -t deactivate) == function ]] && deactivate
source venv/bin/activate

if [[ ! -d repositories/llama_int8 ]]; then
    mkdir repositories

fi

# install dependencies
apt install -y mpich python3.10-dev
pip install -r requirements.txt
pip install deepspeed mpi4py

CUDA_LAUNCH_BLOCKING=1 \
    deepspeed server.py \
        --deepspeed \
        --load-in-8bit \
        --bf16 \
        --cai-chat

# or...

CUDA_LAUNCH_BLOCKING=1 \
    python -m server \
        --bf16 \
        --load-in-8bit \
        --auto-devices \
        --cai-chat \
        --no-stream


모델 파일 너무 커서 aria2 로 가져왔음

다운로드 속도 괜찮은 서버 구해다가 돌리면 금방 쓸 수 있을거임

60B 모델 변환은 끝냈고 허깅페이스에 업로드 하는 중

121GB 정도 나오더라