전작인 라마2에 비해 학습 토큰이 7.5배로 늘어남(RedPajama data v2 감사합니다 정말)
최대 토큰 길이도 2배로 늘어남
소소하지만 8b에도 GQA가 적용됨
제미니 프로, 클로드 소네트 퇴물됨
미스트랄 미디움, gpt-3.5는 확실하게 퇴물됨
MMLU만 따지면 이번 라마3-8b는 라마1-65b를 이미 뛰어넘었음
메타는 아직 학습중인 400b모델의 벤치마크도 미리 공개했음
참고로 최근 주요 모델들의 mmlu는 위와 같음
400b를 누가 쓸까 싶지만, 저만한 성능의 모델 자체를 오픈한거라 의미가 매우 클듯
로컬붐은 왔다.
+)
라마3에서 vocab 수가 4배로 늘어남. 한국어 헌법 전문을 tokenize해보니 총 토큰 수가 1/2 정도로 줄어 commandr과 비슷해짐
다만 한국어 성능은 별개의 문제