깃발설명
-h,--help이 도움말 메시지를 표시하고 종료
--model MODEL기본적으로 로드할 모델의 이름입니다.
--notebook출력이 입력과 동일한 텍스트 상자에 기록되는 노트북 모드에서 웹 UI를 시작합니다.
--chat채팅 모드에서 웹 UI를 시작합니다.
--cai-chatCharacter.AI와 유사한 스타일로 채팅 모드에서 웹 UI를 시작합니다. 파일이 server.py와 같은 폴더에 img_bot.png있으면 img_bot.jpg이 이미지가 봇의 프로필 사진으로 사용됩니다. 마찬가지로 img_me.png또는 img_me.jpg프로필 사진으로 사용됩니다.
--cpuCPU를 사용하여 텍스트를 생성합니다.
--load-in-8bit8비트 정밀도로 모델을 로드합니다.
--load-in-4bit4비트 정밀도로 모델을 로드합니다. 현재 LLaMA에서만 작동합니다.
--gptq-bits GPTQ_BITS지정된 정밀도로 사전 양자화된 모델을 로드합니다. 2, 3, 4 및 8(비트)이 지원됩니다. 현재 LLaMA에서만 작동합니다.
--bf16bfloat16 정밀도로 모델을 로드합니다. NVIDIA Ampere GPU가 필요합니다.
--auto-devices사용 가능한 GPU 및 CPU에서 모델을 자동으로 분할합니다.
--disk모델이 GPU와 CPU를 합친 것보다 너무 큰 경우 나머지 레이어를 디스크로 보냅니다.
--disk-cache-dir DISK_CACHE_DIR디스크 캐시를 저장할 디렉토리입니다. 기본값은 입니다 cache/.
--gpu-memory GPU_MEMORY [GPU_MEMORY ...]GPU당 할당할 최대 GPU 메모리(GiB)입니다. 예: --gpu-memory 10단일 GPU의 경우, --gpu-memory 10 5두 개의 GPU의 경우.
--cpu-memory CPU_MEMORY오프로드된 가중치에 할당할 최대 CPU 메모리(GiB)입니다. 정수여야 합니다. 기본값은 99입니다.
--flexgenFlexGen 오프로딩 사용을 활성화합니다.
--percent PERCENT [PERCENT ...]FlexGen: 할당 비율. 공백으로 구분된 6자리 숫자여야 합니다(기본값: 0, 100, 100, 0, 100, 0).
--compress-weightFlexGen: 가중치를 압축할지 여부(기본값: False).
--pin-weight [PIN_WEIGHT]FlexGen: 가중치 고정 여부(False로 설정하면 CPU 메모리가 20% 감소함).
--deepspeed트랜스포머 통합을 통한 추론을 위해 DeepSpeed ZeRO-3 사용을 활성화합니다.
--nvme-offload-dir NVME_OFFLOAD_DIRDeepSpeed: ZeRO-3 NVME 오프로딩에 사용할 디렉터리입니다.
--local_rank LOCAL_RANKDeepSpeed: 분산 설정을 위한 선택적 인수입니다.
--rwkv-strategy RWKV_STRATEGYRWKV: 모델을 로드하는 동안 사용할 전략입니다. 예: "cpu fp32", "cuda fp16", "cuda fp16i8".
--rwkv-cuda-onRWKV: 더 나은 성능을 위해 CUDA 커널을 컴파일합니다.
--no-stream텍스트 출력을 실시간으로 스트리밍하지 마십시오. 이렇게 하면 텍스트 생성 성능이 향상됩니다.
--set69tings SET69TINGS_FILE이 json 파일에서 기본 인터페이스 설정을 로드합니다. settings-template.json예를 보려면 참조하십시오 . 라는 파일을 생성하면 settings.json이 파일은 플래그를 사용할 필요 없이 기본적으로 로드됩니다 --settings.
--extensions EXTENSIONS [EXTENSIONS ...]로드할 확장 목록입니다. 둘 이상의 확장 프로그램을 로드하려면 이름을 공백으로 구분하여 작성하십시오.
--listen로컬 네트워크에서 웹 UI에 연결할 수 있도록 합니다.
--listen-port LISTEN_PORT서버가 사용할 청취 포트.
--share공개 URL을 만듭니다. 이는 Google Colab 등에서 웹 UI를 실행하는 데 유용합니다.
--verbose터미널에 프롬프트를 인쇄합니다.


누가 어떻게 cai 스타일로 실행하는지 모르길래 올림
python server.py 뒤에 넣으면 실행 방식을 바꿀수 있음
예제) python server.py --load-in-4bit
python server.py --load-in-4bit --cai-chat
명령어 플래그 중간에 69들어가있으면 지우고 써라이유는 모르겠는데 

---

출처: https://arca.live/b/characterai/71746203?category=%EC%A0%95%EB%B3%B4&p=2