출처의 출처:
https://twitter.com/lmsysorg/status/1788363018449166415
진짜진짜출처: https://lmsys.org/blog/2024-05-08-llama3/
lmsys에서 chatbot arena에 올라온 질문을 분석해서 Llama-3가 잘하는 것과 못하는 것을 분류했습니다.
Win Rate는 Top-tier 모델들(Opus, GPT-4 등)과 붙었을 때 승률을 뜻합니다.
브레인스토밍/시 쓰기/RP 같은 창의적인 작업은 Top-tier보다도 잘하는데,
코딩/수학/요약/번역/상식 등은 Top-tier에 비하면 많이 부족한 걸 볼 수 있습니다.
(참고: Llama-3-8B-instuct랑 Opus의 평균 승률이 33%정도 됩니다. - 대략 ELO 100차이)
이런 트리도 있습니다.
전반적으로 Llama-3-70B가 창의성은 GOAT고 복잡한 요구/전문지식 기반 대화는 훨씬 별로라고 보면 되겠네요.