안녕하세요 LLM을 파인튜닝하면서 발생한 애로사항이 많았는데, 제가 본 LLM 커뮤니티 중에 제일 전문적이신분들이 많아 파인튜닝과 관련하여 궁금한 점 질문 드려봅니다.


첫 번째로, 도메인에 맞는 LLM을 구축하고자, 데이터를 크롤링하고, 데이터 정제도 하면서 진행해 본 결과, LLAMA2와 Gemma는 적은 데이터셋으로는 한국어 학습이 잘 안되어서 혹시 이게 사전학습된 LLAMA2와 Gemma는 학습한 한국어 토큰이 많이 없다보니 이러한 문제가 발생한 것인지 궁금하여 질문 드려봅니다.


두 번째로 위와 같은 문제면 우선 많은 양의 한국어 토큰을 통해 SFT 미세조정하여 학습을 하고, 그 이후 원하는 도메인에 맞는 적은 고품질 데이터셋만 따로 DPO 방식으로 튜닝을 하면 위처럼 한국어 생성 문제를 해결할 수 있는지 궁금하여 질문드렸습니다.


마지막으로 토크나이저도 한국어 생성에 크게 영향을 주는지 궁금하여 질문 드려봅니다.


LLM 뉴비이기도 하고, 주변에 질문할 곳이 없어서 여기에 질문 남겨보네요 ㅠㅠ