EQ-Bench는 대화에서 감정 반응의 강도를 평가하여 언어 모델의 감정 지능을 평가하는 벤치마크임. 인간의 선호도와 강한 상관관계를 가짐.

MAGI-Hard는 MMLU와 AGIEval를 결합하여 진짜로 성능있는 모델과 벤치마크에 특화된 가짜성능 모델을 구별할 목적으로 만들어진 벤치마크임.


이 평균으로 이루어진 리더보드에서 사오는 기존의 gpt-4-turbo-2024-04-09를 제치고 SOTA(State-of-the-art) 모델을 달성했음.



Creative Writing은 언어 모델의 창의적 글쓰기 능력을 평가하는 벤치마크로, Claude 3 Opus가 36개의 기준에 따라 모델의 글쓰기 능력을 평가함.


여기서도 사오가 최상위를 차지하며 창의적 글쓰기 분야에서의 SOTA 모델임을 입증했음.




Judgemark는 수치적 평가 시스템을 사용하여 모델이 창의적 글쓰기를 판단할 수 있는 능력을 측정하는 벤치마크로, 다른 벤치마크와 달리 모델이 다른 글을 평가하는 능력을 측정하는거임.


이 벤치마크에선 여전히 오푸스가 최상위를 차지했는데 그래서 아직까진 평가용으론 오푸스가 가장 좋다는걸 의미함.