안녕하세요? 한참 로컬에서 finetuning 해보느라 정신없는 뉴비입니다.


lama2-chat 모델에 만약 일반 평문인 raw-text를 학습시키려면 어떤식으로 데이터 셋을 구성해야 할까요?

우바부가 raw-text 학습방법이 있긴 하던데, alpaca chat dataset 형태로 raw text를 뜯어서 만든뒤 학습하는 방법은 없을까요?


예를들어 한 문단씩 {instruct : (A문단) output : (A문단)}, {instruct : (B문단) output : (B문단)}, ... 이런식으로 구성해서 하는 방법이 있을지..

물론 이 방법대로 하면 학습결과가 개판이긴 하더라고요.