chat model에 raw text 학습시키는 방법은 어떤게 있을까요?

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3338명 알림수신 164명 @바바리맨

제한없는 언어모델을 위한 채널

질문 chat model에 raw text 학습시키는 방법은 어떤게 있을까요?

ㅇㅇ (203.226)

추천 0 비추천 0 댓글 1 조회수 419 작성일 2024-04-26 06:45:35

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/104629902

안녕하세요? 한참 로컬에서 finetuning 해보느라 정신없는 뉴비입니다.

lama2-chat 모델에 만약 일반 평문인 raw-text를 학습시키려면 어떤식으로 데이터 셋을 구성해야 할까요?

우바부가 raw-text 학습방법이 있긴 하던데, alpaca chat dataset 형태로 raw text를 뜯어서 만든뒤 학습하는 방법은 없을까요?

예를들어 한 문단씩 {instruct : (A문단) output : (A문단)}, {instruct : (B문단) output : (B문단)}, ... 이런식으로 구성해서 하는 방법이 있을지..

물론 이 방법대로 하면 학습결과가 개판이긴 하더라고요.

댓글 글쓰기

jackofmaster

2024-04-26 06:58:35 답글

챈붕이가 작성한건데 관련 있을지도?
https://www.linkedin.com/feed/update/urn:li:activity:7189224193878642688/

Jeonghwan Park on LinkedIn: Layer Switching, Variable Instruct model creation. | Notion

<Chat 모델에 raw 데이터를 학습시킬 수 있을까?> Chat 모델에 원하는 raw 데이터를 학습시켜버린다는 건 너무나 매력적인 이야기입니다. 하지만 이 과정에는 중요한 문제가 있습니다. raw 데이터로 바로 학습을 시켜버리면 Chat 모델의 출력 형식이 망가질 수 있습니다.…

챈붕이가 작성한건데 관련 있을지도?

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 [완료] 서비스 장애 안내

*ㅈㅅ 2024.05.11 16859

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28200288

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5829

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26326

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8577

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4174 일반 굉장히 저렴한 DeepSeek-V2 후기 [4]

감별사 2024.05.11 256 4

4173 일반 M4 익스트림 모델이 나온다는 이야기가 있네요. [6]

키티호크 2024.05.11 385 2

4172 일반 애플, M2 칩을 데이터 센터에서 사용 예정 [4]

noopSD 2024.05.11 323 1

4171 일반 RWKV를 잇는 진정한 오픈소스 LLM MAP-NEO [1]

HyperBlaze456 2024.05.10 353 15

4170 질문 언어모델 NPU 프로그래밍 가능한 플랫폼 질문드립니다. [7]

ㅇㅇ (166.104) 2024.05.10 401 0

4169 일반 라마3 한글특화 튜닝한 Bllossom 사용해보신 분 계신가요? [9]

wk 2024.05.10 513 1

4168 일반 [lmsys] Llama-3-70B가 잘하는 것과 못하는 것 [3]

ㅇㅇ 2024.05.10 540 6

4167 일반 왜 임베딩 벡터는 이렇게 고차원이 되었을까 [5]

iau 2024.05.10 418 0

4166 질문 하루에 3000만토큰 쯤 쓰는데 로컬로 .. [21]

감별사 2024.05.10 578 1

4165 일반 exllamav2가 최고라고 생각했었는데 vllm은 어떤가요? [7]

호옹이 2024.05.10 338 0

4164 질문 BERT에 관련하여 [3]

ㅇㅇ (121.166) 2024.05.10 340 0

4163 일반 gemma를 ollama에서 서빙을 하려 합니다. [3]

ㅇㅇ (218.145) 2024.05.09 369 0

4162 질문 llama.cpp로 양자화할때 에러가 뜨는데 무슨 문제려나요 [2]

그래요 2024.05.09 240 0

4161 질문 Deepspeed 사용하는 방법 아시나요? [18]

ㅇㅇ (223.39) 2024.05.09 490 0

4160 일반 코딩 llm 자주 사용함? [22]

사과는맛있어맛있으면바나나 2024.05.09 794 2

4159 자료 IBM에서 아파치2 라이센스로 코딩모델 출시 [5]

이하비스 2024.05.09 278 2

4158 일반 호기심에 번역한거 비교해봄 [12]

pussydestroyer 2024.05.08 633 1

4157 스터디 비전 트랜스포머에는 레지스터가 필요하다 [19]

hkhk 2024.05.08 783 33

4156 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [11]

hkhk 2024.05.08 904 34

4155 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [6]

페르미 2024.05.08 454 0

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.