10.7B*4 MoE 모델 PiVoT-MoE 공개 및 PiVoT-10.7B-Mistral-v0.2 공개

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3385명 알림수신 166명 @바바리맨

제한없는 언어모델을 위한 채널

자작모델 10.7B*4 MoE 모델 PiVoT-MoE 공개 및 PiVoT-10.7B-Mistral-v0.2 공개

maywell

추천 18 비추천 0 댓글 26 조회수 1749 작성일 2023-12-16 23:07:11 수정일 2023-12-16 23:09:31

https://arca.live/b/alpaca/94239782

저번주부터 열심히 모델을 구워봤습니다.

미스트랄 0.2와 다른 0.1 베이스 모델을 slerp 머지해서 10.7B로 제작한 후 SlimOrca, UltraFeedback, 한-영 번역세트, 시나트라 데이터셋 일부를 첨가해서 베이스 모델을 만든 후 이 위에 DPO를 진행했습니다.

PiVoT-10.7B-Mistral-v0.2

한국어 데이터셋은 20%에 불과했지만 한국어 능력 및 지능은 사용해보니 synatra 0.3 dpo 보다 비교우위에 있는걸로 보입니다.

이 후 해당 모델에 RP 데이터로 파인튜닝을 진행하고 DPO셋을 구축하여 DPO를 진행하였습니다. 이 과정에서 새로 나온 SOLAR 모델에도 RP 데이터를 먹였고, SOLAR는 DPO과정에서 loss가 발산하는 문제가 생겨 SFT만 진행하였습니다.

PiVoT-SOLAR-10.7B-RP

PiVoT-10.7B-Mistral-v0.2-RP

믹스트랄이 공개되고 대 MoE 시대가 찾아오고 있었기에 바로 MoE 제작까지 진행했습니다.

위에서 제작한 모델들과 기타 모델들을 사용하여 10.7B * 4로 제작하였습니다.

A100에서 테스트 해 본 결과 상당히 만족스러웠으며, 3090에서도 사용하기 위해 3,4,6비트로 양자화를 진행했습니다.

현재는 GGUF weight만 공개했습니다.

PiVoT-MoE-GGUF

아래 링크는 OAI 호환 PiVoT-MoE bf16서버입니다. /v1/chat/completions로 연결해서 사용 할 수 있습니다. A100에서 구동중이며 곧 꺼질 수 있습니다.

모델 입력란에 PiVoT-MoE 입력해야합니다.

https://ea28-45-135-57-21.ngrok-free.app

댓글 글쓰기

하늘의아리아

2023-12-16 23:14:21 답글

그래요

2023-12-16 23:18:12 답글

*수정됨

감사합니다 양자화된거 한번 써보고 후기 남기겠습니다. 링크는 눌러도 연결이 안되네요 ㅎ

펼쳐보기▼

maywell

2023-12-16 23:24:37 답글

아래 링크는 OAI 호환 PiVoT-MoE bf16서버입니다. /v1/chat/completions로 연결해서 사용 할 수 있습니다. A100에서 구동중이며 곧 꺼질 수 있습니다.

모델 입력란에 PiVoT-MoE 입력해야합니다.

펼쳐보기▼

maywell

2023-12-16 23:24:47 답글

API입니다.

펼쳐보기▼

그래요

2023-12-16 23:28:43 답글

넵 감사합니다 ㅎ

펼쳐보기▼

pyross

2023-12-17 00:49:43 답글

ㄷㄷ 이제는 MOE까지... 대단하십니다

펼쳐보기▼

사과는맛있어맛있으면바나나

2023-12-17 02:08:45 답글

MOE 학습 방법은 기존과 어떤게 다른가요?

펼쳐보기▼

maywell

2023-12-17 04:33:17 답글

MoE 자체를 학습하는거에 대해서는 자세히 모르겠습니다. 지금 나오고 있는 모델들은 그냥 weight를 통으로 학습시켜버리던데 그런건 MoE 특성상 좋아보이지는 않고 각각 분리해서 특화해서 학습후 붙이는 방향이 맞지 않을까 생각해봅니다.

저는 특성 다른 모델들을 합치기만 했습니다.

펼쳐보기▼

사과는맛있어맛있으면바나나

2023-12-17 04:59:56 답글

10.7b짜리 4개가 모두 다른 성격을 가졌다는 뜻으로 이해하겠습니다.

moe 구조상 4개 중에서 추론용으로 몇 개를 고르는 모델이 따로 있는 것 같은데, 이 부분은 어떻게 하셨나요?

펼쳐보기▼

maywell

2023-12-17 05:01:27 답글

*수정됨

mergekit에서 모델별로 잘하는 positive prompt를 넣어주는 부분이 있는데 모델 다 다운받아서 돌려 본후 일부씩 출력을 발췌해서 넣었습니다. 몇개 고르는 레이어가 해당 데이터로 어떻게 만들어지는지 보려면 mergekit moe 코드 보시면 될것같습니다

펼쳐보기▼

그래요

2023-12-17 05:36:30 답글

아 어떻게 하나 했더니 모델별로 positive prompts가 있는거 였네요 이렇게 지식+1 되었네요 감사요

펼쳐보기▼

hkhk

2023-12-17 03:15:28 답글

폼 미쳤다 ㄷㄷㄷ

펼쳐보기▼

이하비스

2023-12-17 04:23:17 답글

곰주

2023-12-17 05:04:53 답글

당신은귀중한인재

펼쳐보기▼

쿠루가이

2023-12-17 06:53:10 답글

감별사

2023-12-17 10:00:46 답글

아 저도 의학용으로 해보고싶네요... 각각 외과 내과 영상 이렇게 박아놓으면 두근두근..

펼쳐보기▼

변태Lv1

2023-12-17 11:12:10 답글

anon15161

2023-12-17 13:58:47 답글

우리 갤의 보배입니다... 아니 mergekit으로 같은 파라미터 모델을 합쳐서 MoE를 만들 수 있는건가요? mergekit 좀 더 알아봐야겠다는 생각이 드네요. MoE 모델 만들고 따로 학습은 필요없었나요?

펼쳐보기▼

DopeorNope

2023-12-19 07:53:14 답글

오 근데 slerp 머지 하면 파라미터 수가 늘어나나요? 제가 기억하기로는 13B 두개 slerp머지 하니까 그대로 13B여서 오 다른 옵션이 있었나요?

펼쳐보기▼

maywell

2023-12-19 07:54:22 답글

8~16만 겹치게했습니다

펼쳐보기▼

DopeorNope

2023-12-19 08:01:57 답글

layer_range를 [8, 16]로만 세팅하신거에요???

펼쳐보기▼

maywell

2023-12-19 08:07:41 답글

그랬던것 같습니다. 머지 직후 성능은 거의 뽑기라서 머지후 파인튠 a100으로 50시간가량 했습니다

펼쳐보기▼

maywell

2023-12-19 08:08:16 답글

1, 16과 16, 24였던것 같습니다

펼쳐보기▼

DopeorNope

2023-12-19 08:16:42 답글

오 신기하네요 13B 머지 해서 그대로여서 오 뭐지 했는데 파라미터 많은데 붙으면 모델 사이즈가 커지기도 하네요.
이제 저도 연금술좀 해보려구요..

펼쳐보기▼

DopeorNope

2023-12-19 08:17:08 답글

꾸르팁 감사드려요 배웠습니다!ㅎㅎㅎㅎㅎㅎ

펼쳐보기▼

maywell

2023-12-19 08:18:09 답글

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28432313

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5964

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26837

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8811

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

63 자작모델 llama3-uncensored모델을 파인튜닝 해봤습니다. [5]

Pi 2024.04.19 701 14

62 자작모델 한국어 소설 작성 모델 public 전환 [15]

maywell 2024.02.26 1237 20

61 자작모델 또 다른 번역 모델(하지만 개선점이 있는): Seagull-13b-translation [6]

kuo 2024.02.24 742 14

60 자작모델 AIHub 데이터셋으로 훈련한 일→한 번역 모델 [6]

12시5분 2024.02.07 460 7

59 자작모델 korean_textbooks로 학습한 SSM 모델, mamba-ko-2.8b 공개 [18]

kuo 2024.01.24 1120 18

58 자작모델 시나트라-믹스트랄 공개 및 성능 테스트 [47]

maywell 2024.01.22 1449 24

57 자작모델 TinyWand-SFT, 1.63B, 하찮은 크기의 SLM은 어떨까요? [17]

maywell 2024.01.04 1248 12

56 자작모델 개인이 pretrain 할 수 있을까? - instructkr/ko-wand-136M [15]

maywell 2024.01.01 1952 29

55 자작모델 시나트라 v0.4 10.7B 릴리즈 [13]

maywell 2023.12.27 1674 17

54 자작모델 한국어 어체 변환 모델 korean-style-converter-6b 공개 [5]

사과는맛있어맛있으면바나나 2023.12.23 1292 19

53 자작모델 라노벨 등 이야기 생성 ko-storywriter-nano 모델 업로드 [37]

maywell 2023.12.21 1504 16

52 자작모델 현재 제작중인 소설용 AI [10]

maywell 2023.12.20 1532 20

51 자작모델 10.7B*4 MoE 모델 PiVoT-MoE 공개 및 PiVoT-10.7B-Mistral-v0.2 공개 [26]

maywell 2023.12.16 1750 18

50 자작모델 새로구운 모델 2종(42Dot, Yi 34B) [10]

maywell 2023.11.30 849 4

49 자작모델 KoLLaVA-v1.5-Synatra-7b-dpo 파인튜닝 완료 [18]

salmanu 2023.11.29 1475 26

48 자작모델 KoLLaVA-1.5 파인튜닝 안정궤도 진입 [13]

salmanu 2023.11.28 989 14

47 자작모델 PiVoT-0.1-Evil-a 모델 공개 [16]

maywell 2023.11.26 1035 18

46 자작모델 Mistral-ko-7B-v0.1 업로드 [13]

maywell 2023.11.26 1258 15

45 자작모델 KoLLaVA-1.5 학습 시작

salmanu 2023.11.26 548 13

44 자작모델 미스트랄 한국어 토크나이저 모델 현황 [12]

maywell 2023.11.25 1507 15

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.