파인튜닝과 관련하여 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3401명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 파인튜닝과 관련하여

ㅇㅇ (218.156)

추천 0 비추천 0 댓글 2 조회수 585 작성일 2024-04-25 11:41:51

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104564623

안녕하세요 LLM을 파인튜닝하면서 발생한 애로사항이 많았는데, 제가 본 LLM 커뮤니티 중에 제일 전문적이신분들이 많아 파인튜닝과 관련하여 궁금한 점 질문 드려봅니다.

첫 번째로, 도메인에 맞는 LLM을 구축하고자, 데이터를 크롤링하고, 데이터 정제도 하면서 진행해 본 결과, LLAMA2와 Gemma는 적은 데이터셋으로는 한국어 학습이 잘 안되어서 혹시 이게 사전학습된 LLAMA2와 Gemma는 학습한 한국어 토큰이 많이 없다보니 이러한 문제가 발생한 것인지 궁금하여 질문 드려봅니다.

두 번째로 위와 같은 문제면 우선 많은 양의 한국어 토큰을 통해 SFT 미세조정하여 학습을 하고, 그 이후 원하는 도메인에 맞는 적은 고품질 데이터셋만 따로 DPO 방식으로 튜닝을 하면 위처럼 한국어 생성 문제를 해결할 수 있는지 궁금하여 질문드렸습니다.

마지막으로 토크나이저도 한국어 생성에 크게 영향을 주는지 궁금하여 질문 드려봅니다.

LLM 뉴비이기도 하고, 주변에 질문할 곳이 없어서 여기에 질문 남겨보네요 ㅠㅠ

댓글 [2] 글쓰기

hkhk

2024-04-25 14:13:42 답글

1. https://huggingface.co/yanolja/EEVE-Korean-10.8B-v1.0 같이 한국어 토크나이저 확장과 한국어 파인튜닝이 되어있는 모델을 갖고 시도해보시는게 좋을 것 같습니다. 

2. 토크나이저는 '효율'에 영향을 많이 줍니다. 

3. 도메인에 맞는 고품질의 데이타셋이라면 LoRA 튜닝이나 DoRA 튜닝을 통해서 적용이 가능할 것입니다. 

다만 새로운 지식을 많이 첨가하고자 한다면 파인튜닝보다는 RAG 쪽이 더 현실적인 대안이고, 아니면 요즘 많이 화제가 되고 있는 진화식 모델병합을 생각해볼 수 있습니다 (원모델, 채팅적용 모델A, 관련 지식 파인튜닝된 모델B 3개를 준비후 진화식 병합
관련 내용: https://blog.arcee.ai/tutorial-tutorial-how-to-get-started-with-evolutionary-model-merging/

yanolja/EEVE-Korean-10.8B-v1.0 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

1. https://huggingface.co/yanolja/EEVE-Korean-10.8B-v1.0 같이 한국어 토크나이저 확장과 한국어 파인튜닝이 되어있는 모델을 갖고 시도해보시는게 좋을 것 같습니다. 

2. 토크나이저는 '효율'에 영향을 많이 줍니다. 

3. 도메인에 맞는 고품질의 데이타셋이라면 LoRA 튜닝이나 DoRA 튜닝을 통해서 적용이 가능할 것입니다. 

다만 새로운 지식을 많이 첨가하고자 한다면 파인튜닝보다는 RAG 쪽이 더 현실적인 대안이고, 아니면 요즘 많이 화제가 되고 있는 진화식 모델병합을 생각해볼 수 있습니다 (원모델, 채팅적용 모델A, 관련 지식 파인튜닝된 모델B 3개를 준비후 진화식 병합
관련 내용: https://blog.arcee.ai/tutorial-tutorial-how-to-get-started-with-evolutionary-model-merging/

펼쳐보기▼

ㅇㅇ (218.156)

2024-04-25 14:32:00 삭제 수정 답글

좋은 레퍼런스 공유해주셔서 정말 감사합니다. 아직 부족하지만 알려주신 방향대로 잘 진행해보도록 하겠습니다

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28520771

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5997

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27025

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8887

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5091

공지 신문고

바바리맨 2023.04.18 2242

숨겨진 공지 펼치기(1개)

4153 질문 하루에 3000만토큰 쯤 쓰는데 로컬로 .. [22]

감별사 2024.05.10 879 1

4152 일반 exllamav2가 최고라고 생각했었는데 vllm은 어떤가요? [7]

호옹이 2024.05.10 498 0

4151 질문 BERT에 관련하여 [3]

ㅇㅇ (121.166) 2024.05.10 493 0

4150 일반 gemma를 ollama에서 서빙을 하려 합니다. [3]

ㅇㅇ (218.145) 2024.05.09 475 0

4149 질문 llama.cpp로 양자화할때 에러가 뜨는데 무슨 문제려나요 [2]

그래요 2024.05.09 289 0

4148 질문 Deepspeed 사용하는 방법 아시나요? [18]

ㅇㅇ (223.39) 2024.05.09 608 0

4147 일반 코딩 llm 자주 사용함? [23]

사과는맛있어맛있으면바나나 2024.05.09 1026 2

4146 자료 IBM에서 아파치2 라이센스로 코딩모델 출시 [5]

이하비스 2024.05.09 312 2

4145 일반 호기심에 번역한거 비교해봄 [12]

pussydestroyer 2024.05.08 748 1

4144 스터디 트랜스포머도 깊게 생각을 하려면 메모장이 필요해요 - Vision Transformers Need Registers [21]

hkhk 2024.05.08 1200 42

4143 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [12]

hkhk 2024.05.08 1238 40

4142 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [7]

페르미 2024.05.08 636 0

4141 일반 (구글x서울디지털재단)2024 서울 프롬프톤(AI 프롬프트엔지니어링 해커톤) 참가자 모집(기간 연장, ~5.15) [9]

ljhljhljh 2024.05.08 999 11

4140 일반 A100 40GB로 llama3 70B 구동은 되는지? [3]

ㅇㅇ (203.252) 2024.05.08 733 2

4139 일반 ms가 500b 모델을 학습중이라고 합니다 [3]

그래요 2024.05.08 489 3

4138 질문 베이스라인 모델 선정 방법

레바 2024.05.08 340 0

4137 일반 판매자 정보 실수 - 4060ti 16gb dual 또는 3way 를 위한 핫딜 정보 [11]

ㅇㅇ 2024.05.07 726 5

4136 질문 vllm 활용 추론 관련해서 질문드립니다. [10]

Dikko 2024.05.07 510 0

4135 질문 3090(24gb) 대신 4060ti 16gb 2개 사용하는건 추천 안 하시나요? [7]

ㅇㅇ (110.8) 2024.05.07 531 0

4134 일반 런팟 NFS 마운트 안되나요?

ㅇㅇ (121.135) 2024.05.07 168 0

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.