출처: https://www.reddit.com/r/LocalLLaMA/comments/1cnpjo9/deepdive_into_llama_3s_arena_wins_against_bigger/

출처의 출처:

https://twitter.com/lmsysorg/status/1788363018449166415


진짜진짜출처: https://lmsys.org/blog/2024-05-08-llama3/


lmsys에서 chatbot arena에 올라온 질문을 분석해서 Llama-3가 잘하는 것과 못하는 것을 분류했습니다.

Win Rate는 Top-tier 모델들(Opus, GPT-4 등)과 붙었을 때 승률을 뜻합니다.


브레인스토밍/시 쓰기/RP 같은 창의적인 작업은 Top-tier보다도 잘하는데,
코딩/수학/요약/번역/상식 등은 Top-tier에 비하면 많이 부족한 걸 볼 수 있습니다.
(참고: Llama-3-8B-instuct랑 Opus의 평균 승률이 33%정도 됩니다. - 대략 ELO 100차이)



이런 트리도 있습니다.


전반적으로 Llama-3-70B가 창의성은 GOAT고 복잡한 요구/전문지식 기반 대화는 훨씬 별로라고 보면 되겠네요.