전작인 라마2에 비해 학습 토큰이 7.5배로 늘어남(RedPajama data v2 감사합니다 정말)

최대 토큰 길이도 2배로 늘어남

소소하지만 8b에도 GQA가 적용됨




제미니 프로, 클로드 소네트 퇴물됨


미스트랄 미디움, gpt-3.5는 확실하게 퇴물됨


MMLU만 따지면 이번 라마3-8b는 라마1-65b를 이미 뛰어넘었음




메타는 아직 학습중인 400b모델의 벤치마크도 미리 공개했음

참고로 최근 주요 모델들의 mmlu는 위와 같음

400b를 누가 쓸까 싶지만, 저만한 성능의 모델 자체를 오픈한거라 의미가 매우 클듯


로컬붐은 왔다.


+)


라마3에서 vocab 수가 4배로 늘어남. 한국어 헌법 전문을 tokenize해보니 총 토큰 수가 1/2 정도로 줄어 commandr과 비슷해짐

다만 한국어 성능은 별개의 문제