개념글 모음

기존 LLM들은 대부분 다 가중치와 학습 방법 정도만 공개하고, 데이터셋은 공개하지 않는, 핵심이 빠진 실망스러운 오픈 소스였습니다. 

물론, 대부분의 경우 파인튜닝만 할 수 있기에 데이터셋을 공개하지 않아도 문제는 없었으나, 모델에서 특정한 문제가 나온다면 그 원인을 파악할 수 없다는 단점이 있죠. 

이는 커뮤니티의 참여가 필요한 부분이지만, 대부분 base 모델을 학습시켜주는 대기업들은 자체적으로 데이터셋을 모으며, 그 데이터셋에서는 저작권을 무시하고 가져온 데이터들도 상당할 것입니다. 이로 인해, 대기업들은 이를 공개하지 않죠.

하지만 이번에는 조금 다릅니다. 모든 데이터셋이 오픈돼어있는 매우 드문 경우가 나왔습니다.
https://github.com/multimodal-art-projection/MAP-NEO
https://huggingface.co/NikolayKozloff/neo_7b-Q8_0-GGUF (양자화)
이 모델은 4.5T 토큰으로 학습되었으며, 중문 / 영어로 학습되었습니다. 7B, 2B, Scalinglaw도 있고요, 데이터셋은
https://huggingface.co/datasets/m-a-p/Matrix
서 봐볼 수 있습니다. 구조는 라마2인것 같고요


성능은 모르겠습니다. 일단 당장 대단한 것은, 이전 오픈소스 7B 모델은 2T 토큰이었던 것에 비해 훨씬 더 큰 데이터셋으로 학습되었다는 점이겠네요.