axolotl로 커스텀 데이터셋 활용해서 finetuning 시도하는데 계속 에러가 발생합니다.

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3401명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 axolotl로 커스텀 데이터셋 활용해서 finetuning 시도하는데 계속 에러가 발생합니다.

Dikko

추천 1 비추천 0 댓글 3 조회수 427 작성일 2024-04-20 09:14:43

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104109601

제가 시도한 yaml파일입니다.

model:

base_model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0

model_type: LlamaForCausalLM

tokenizer_type: AutoTokenizer

load_in_4bit: true

strict: false

training_args:

output_dir: "./training_results"

num_train_epochs: 3

per_device_train_batch_size: 4

gradient_accumulation_steps: 16 # 일관된 값 사용

fp16: true # FP16 활성화

flash_attention: false # 필요 없다면 비활성화 유지

datasets:

- path: /workspace/axolotl/tests/transform_json_4.json

ds_type: json

type:

system_prompt: ""

system_format: "{system}"

field_system: system

field_instruction: human

field_input: ""

field_output: gpt

format: |-

System: {system}

User: {human}

Assistant: {gpt}

no_input_format: "System: {system} User: {human} Assistant: {gpt}"

val_set_size: 0.05

dataset_prepared_path: last_run_prepared

output_dir: ./lora-out

sequence_len: 4096

pad_to_sequence_len: true

adapter: lora

lora_model_dir:

lora_r: 16

lora_alpha: 16

lora_dropout: 0.05

lora_target_modules:

- gate_proj

- down_proj

- up_proj

lora_target_linear: true

num_epochs: 1

micro_batch_size: 2

optimizer: adamw_torch

lr_scheduler: cosine

learning_rate: 0.0004

train_on_inputs: false

group_by_length: false

bf16: false

gradient_checkpointing: true

logging_steps: 1

warmup_steps: 100

evals_per_epoch: 4

saves_per_epoch: 1

weight_decay: 0.01

eval_sample_packing: false

이게 gpt한테 질문하면서 만든 yaml파일이구요, 실행했을경우

The following values were not passed to `accelerate launch` and had defaults used instead:

`--num_processes` was set to a value of `2`

More than one GPU was found, enabling multi-GPU training.

If this was unintended please pass in `--num_processes=1`.

`--num_machines` was set to a value of `1`

`--mixed_precision` was set to a value of `'no'`

`--dynamo_backend` was set to a value of `'no'`

To avoid this warning pass in values for each of the problematic parameters or run `accelerate config`.

Using RTX 4000 series which doesn't support faster communication speedups. Ensuring P2P and IB communications are disabled.

/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py:122: UserWarning:

================================================================================

WARNING: Manual override via BNB_CUDA_VERSION env variable detected!

BNB_CUDA_VERSION=XXX can be used to load a bitsandbytes version that is different from the PyTorch CUDA version.

If this was unintended set the BNB_CUDA_VERSION variable to an empty string: export BNB_CUDA_VERSION=

If you use the manual override make sure the right libcudart.so is in your LD_LIBRARY_PATH

For example by adding the following to your .bashrc: export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<path_to_cuda_dir/lib64

Loading: libbitsandbytes_cuda118.so

================================================================================

warn(

/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/bitsandbytes/cuda_setup/main.py:122: UserWarning:

================================================================================

WARNING: Manual override via BNB_CUDA_VERSION env variable detected!

BNB_CUDA_VERSION=XXX can be used to load a bitsandbytes version that is different from the PyTorch CUDA version.

If this was unintended set the BNB_CUDA_VERSION variable to an empty string: export BNB_CUDA_VERSION=

If you use the manual override make sure the right libcudart.so is in your LD_LIBRARY_PATH

For example by adding the following to your .bashrc: export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<path_to_cuda_dir/lib64

Loading: libbitsandbytes_cuda118.so

================================================================================

warn(

[2024-04-20 09:01:15,913] [INFO] [datasets.<module>:58] [PID:765] PyTorch version 2.1.2+cu118 available.

[2024-04-20 09:01:15,941] [INFO] [datasets.<module>:58] [PID:764] PyTorch version 2.1.2+cu118 available.

[2024-04-20 09:01:16,347] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)

[2024-04-20 09:01:16,392] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)

Traceback (most recent call last):

File "/root/miniconda3/envs/py3.10/lib/python3.10/runpy.py", line 196, in _run_module_as_main

return _run_code(code, main_globals, None,

File "/root/miniconda3/envs/py3.10/lib/python3.10/runpy.py", line 86, in _run_code

exec(code, run_globals)

File "/workspace/axolotl/src/axolotl/cli/train.py", line 59, in <module>

fire.Fire(do_cli)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 143, in Fire

component_trace = _Fire(component, args, parsed_flag_args, context, name)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 477, in _Fire

component, remaining_args = _CallAndUpdateTrace(

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 693, in _CallAndUpdateTrace

component = fn(*varargs, **kwargs)

File "/workspace/axolotl/src/axolotl/cli/train.py", line 30, in do_cli

parsed_cfg = load_cfg(config, **kwargs)

File "/workspace/axolotl/src/axolotl/cli/__init__.py", line 353, in load_cfg

cfg = validate_config(

File "/workspace/axolotl/src/axolotl/utils/config/__init__.py", line 209, in validate_config

AxolotlConfigWCapabilities(

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/pydantic/main.py", line 171, in __init__

self.__pydantic_validator__.validate_python(data, self_instance=self)

pydantic_core._pydantic_core.ValidationError: 1 validation error for AxolotlConfigWCapabilities

Value error, At least two of micro_batch_size, gradient_accumulation_steps, batch_size must be set [type=value_error, input_value={'model': {'base_model': ...e_capability': 'sm_89'}}, input_type=dict]

For further information visit https://errors.pydantic.dev/2.6/v/value_error

Traceback (most recent call last):

File "/root/miniconda3/envs/py3.10/lib/python3.10/runpy.py", line 196, in _run_module_as_main

return _run_code(code, main_globals, None,

File "/root/miniconda3/envs/py3.10/lib/python3.10/runpy.py", line 86, in _run_code

exec(code, run_globals)

File "/workspace/axolotl/src/axolotl/cli/train.py", line 59, in <module>

fire.Fire(do_cli)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 143, in Fire

component_trace = _Fire(component, args, parsed_flag_args, context, name)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 477, in _Fire

component, remaining_args = _CallAndUpdateTrace(

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/fire/core.py", line 693, in _CallAndUpdateTrace

component = fn(*varargs, **kwargs)

File "/workspace/axolotl/src/axolotl/cli/train.py", line 30, in do_cli

parsed_cfg = load_cfg(config, **kwargs)

File "/workspace/axolotl/src/axolotl/cli/__init__.py", line 353, in load_cfg

cfg = validate_config(

File "/workspace/axolotl/src/axolotl/utils/config/__init__.py", line 209, in validate_config

AxolotlConfigWCapabilities(

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/pydantic/main.py", line 171, in __init__

self.__pydantic_validator__.validate_python(data, self_instance=self)

pydantic_core._pydantic_core.ValidationError: 1 validation error for AxolotlConfigWCapabilities

For further information visit https://errors.pydantic.dev/2.6/v/value_error

[2024-04-20 09:01:19,230] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 764) of binary: /root/miniconda3/envs/py3.10/bin/python3

Traceback (most recent call last):

File "/root/miniconda3/envs/py3.10/bin/accelerate", line 8, in <module>

sys.exit(main())

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/accelerate/commands/accelerate_cli.py", line 46, in main

args.func(args)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/accelerate/commands/launch.py", line 1048, in launch_command

multi_gpu_launcher(args)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/accelerate/commands/launch.py", line 702, in multi_gpu_launcher

distrib_run.run(args)

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/torch/distributed/run.py", line 797, in run

elastic_launch(

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 134, in __call__

return launch_agent(self._config, self._entrypoint, list(args))

File "/root/miniconda3/envs/py3.10/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 264, in launch_agent

raise ChildFailedError(

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

============================================================

axolotl.cli.train FAILED

------------------------------------------------------------

Failures:

[1]:

time : 2024-04-20_09:01:19

host : 2819657d1cb0

rank : 1 (local_rank: 1)

exitcode : 1 (pid: 765)

error_file: <N/A>

traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html

------------------------------------------------------------

Root Cause (first observed failure):

[0]:

time : 2024-04-20_09:01:19

host : 2819657d1cb0

rank : 0 (local_rank: 0)

exitcode : 1 (pid: 764)

error_file: <N/A>

traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html

============================================================

이런식으로 에러메시지가 나오면서 진행이 안됩니다..

gpt한테 에러메시지를 주면서 물어봐도

export BNB_CUDA_VERSION=118 # CUDA 11.8 버전 사용 설정

echo $BNB_CUDA_VERSION # 설정된 값 확인

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64

echo $LD_LIBRARY_PATH # 설정된 경로 확인

이 설정이랑 수정된 yaml파일로

model:

base_model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0

model_type: LlamaForCausalLM

tokenizer_type: AutoTokenizer

load_in_4bit: true

strict: false

training_args:

output_dir: "./training_results"

num_train_epochs: 3

per_device_train_batch_size: 4

micro_batch_size: 2

gradient_accumulation_steps: 16

fp16: true

flash_attention: false

datasets:

- path: /workspace/axolotl/tests/transform_json_4.json

ds_type: json

type:

system_prompt: ""

system_format: "{system}"

field_system: system

field_instruction: human

field_input: ""

field_output: gpt

format: |-

System: {system}

User: {human}

Assistant: {gpt}

no_input_format: "System: {system} User: {human} Assistant: {gpt}"

val_set_size: 0.05

dataset_prepared_path: last_run_prepared

sequence_len: 4096

pad_to_sequence_len: true

adapter: lora

lora_model_dir:

lora_r: 16

lora_alpha: 16

lora_dropout: 0.05

lora_target_modules:

- gate_proj

- down_proj

- up_proj

lora_target_linear: true

optimizer: adamw_torch

lr_scheduler: cosine

learning_rate: 0.0004

train_on_inputs: false

group_by_length: false

bf16: false

gradient_checkpointing: true

logging_steps: 1

warmup_steps: 100

evals_per_epoch: 4

saves_per_epoch: 1

weight_decay: 0.01

eval_sample_packing: false

이렇게 답변하는데, 하라는대로 환경변수랑 yaml파일을 수정해도 계속 동일한 에러가 발생하면서 막힙니다..
두서없는것 같지만 axolotl 많이 활용해보신분들의 도움 요청드립니다ㅠ

댓글 [3] 글쓰기

maywell

2024-04-20 09:42:44 답글

yaml 형식이 이상함 examples 보고 수정해보십쇼

펼쳐보기▼

Dikko

2024-04-20 10:10:00 답글

앗..말씀드리는걸 깜빡했는데 yaml파일을 도커로 돌리고있습니다. 도커로 돌릴때는 다른 예시를 보니깐 형식이 다른거같던데, 저는 이 예시를 참고해서 작성했습니다!
https://mer.vin/2024/03/axolotl-fine-tuning/

Mervin Praison

Axolotl Fine Tuning - Mervin Praison

In Terminal Editing Qlora.yml Training file from terminal using Nano OpenLllama 3B Qlora Output Upload to hugging face

앗..말씀드리는걸 깜빡했는데 yaml파일을 도커로 돌리고있습니다. 도커로 돌릴때는 다른 예시를 보니깐 형식이 다른거같던데, 저는 이 예시를 참고해서 작성했습니다!

펼쳐보기▼

뉴비챗

2024-04-23 04:04:37 답글

?혹시 성공하셨으면 yaml파일좀 공유 받을수있을가요?

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28516927

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5996

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27002

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8881

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4092 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [47]

maywell 2024.04.28 3762 50

4091 질문 Gpt같은 트랜스포머 아키텍처 모델에 [5]

kieo196 2024.04.28 704 -1

4090 정보 나이지리아 인들이 AI 에 독을 풀었다. [15]

hkhk 2024.04.27 2261 23

4089 정보 beomi / Llama-3-Open-Ko-8B [6]

al06r 2024.04.27 1366 8

4088 정보 교내 산학협력으로 직접 구축한 윤리, 편향 대응 일상대화 데이터셋 [11]

pyross 2024.04.27 1111 31

4087 질문 지금 나만, gradio --share 옵션으로 우바부가 실행 안되는 거임? [3]

dokdo114 2024.04.27 374 1

4086 일반 llm 또는 RAG 논문 추천해주실수 있을까요?? [8]

ㅇㅇ (183.98) 2024.04.27 693 2

4085 일반 초딩도 할 수 있는 컨텍 확장 가이드 [24]

maywell 2024.04.27 2139 23

4084 질문 llm을 이용해서 돈벌고계신분들 계신가요?? [13]

돌돌돌돌 2024.04.26 1325 0

4083 질문 m2 mac studio ultra로 llama3 8b fine tuning 될까요? [7]

KevinRyu 2024.04.26 584 0

4082 정보 서울과기대, LLama3 8B 파인튜닝 영어-한국어 모델 'Bllossom' [10]

al06r 2024.04.26 1644 4

4081 일반 qwen1.5 110b출시

jackofmaster 2024.04.26 390 4

4080 일반 Llama-3-8B-Instruct 262k 컨텍스트 확장 출시 [16]

사과는맛있어맛있으면바나나 2024.04.26 1490 12

4079 질문 OpenAI Embeddings [5]

jarvis777 2024.04.26 693 0

4078 질문 chat model에 raw text 학습시키는 방법은 어떤게 있을까요? [1]

ㅇㅇ (203.226) 2024.04.26 437 0

4077 질문 4060ti로도 개인용으로 돌릴 수 있음? [5]

ㅇㅇ (211.234) 2024.04.26 659 0

4076 질문 70b 모델을 2.5~3T/s 정도 나오게 하려면 어느정도 사양이 필요할까요? [7]

ㅇㅇ (221.168) 2024.04.26 638 0

4075 질문 finetuning 도구 추천 부탁드릴수 있을까요? [7]

ㅇㅇ (61.74) 2024.04.26 647 -1

4074 일반 라마3 온디바이스 추론 [6]

ㅇㅇ (211.226) 2024.04.26 874 0

4073 일반 NurtureAI <- 여기 모델 사용하지 마시길 [7]

maywell 2024.04.25 1453 11

글쓰기

전체글 개념글