저번주부터 열심히 모델을 구워봤습니다.


미스트랄 0.2와 다른 0.1 베이스 모델을 slerp 머지해서 10.7B로 제작한 후 SlimOrca, UltraFeedback, 한-영 번역세트, 시나트라 데이터셋 일부를 첨가해서 베이스 모델을 만든 후 이 위에 DPO를 진행했습니다.

PiVoT-10.7B-Mistral-v0.2

한국어 데이터셋은 20%에 불과했지만 한국어 능력 및 지능은 사용해보니 synatra 0.3 dpo 보다 비교우위에 있는걸로 보입니다.


이 후 해당 모델에 RP 데이터로 파인튜닝을 진행하고 DPO셋을 구축하여 DPO를 진행하였습니다. 이 과정에서 새로 나온 SOLAR 모델에도 RP 데이터를 먹였고, SOLAR는 DPO과정에서 loss가 발산하는 문제가 생겨 SFT만 진행하였습니다.

PiVoT-SOLAR-10.7B-RP

PiVoT-10.7B-Mistral-v0.2-RP


믹스트랄이 공개되고 대 MoE 시대가 찾아오고 있었기에 바로 MoE 제작까지 진행했습니다.

위에서 제작한 모델들과 기타 모델들을 사용하여 10.7B * 4로 제작하였습니다.


A100에서 테스트 해 본 결과 상당히 만족스러웠으며, 3090에서도 사용하기 위해 3,4,6비트로 양자화를 진행했습니다.

현재는 GGUF weight만 공개했습니다.

PiVoT-MoE-GGUF



아래 링크는 OAI 호환 PiVoT-MoE bf16서버입니다. /v1/chat/completions로 연결해서 사용 할 수 있습니다. A100에서 구동중이며 곧 꺼질 수 있습니다.

모델 입력란에 PiVoT-MoE 입력해야합니다.

https://ea28-45-135-57-21.ngrok-free.app