성능 높은것부터 시작해서 가장 낮은거까지 나열하는식으로 표 정렬해둠


MMLU

Claude 3 Opus (5-shot)
86.8%
Claude 3 Sonnet (5-shot)
79.0%
Claude 2 (5-shot CoT)
78.5%
Claude 1.3 (5-shot CoT)
77% 
Claude 3 Haiku (5-shot)
75.2% 
Claude Instant (5-shot CoT)
73.4%



GSM8K (0-shot CoT)

Claude 3 Opus
95.0%
Claude 3 Sonnet 
92.3%
Claude 3 Haiku
88.9%
Claude 2
88%
Claude 1.3
85.2%
Claude Instant
52.8%


ARC-Callenge

Claude 3 Opus (25-shot)
96.4%
Claude 3 Sonnet (25-shot)
93.2%
Claude 2 (5-shot)
91.0%
Claude 1.3 (5-shot)90.0%
Claude 3 Haiku (25-shot)
89.2%
Claude Instant
85.7%

 
Claude 3 Opus : Claude 2에 비해 훨씬 좋은 성능을 보이고 있음

Claude 3 Sonnet : Claude 2와 거의 비슷하면서도 약간 더 나은 성능을 보이고 있음

Claude 3 Haiku : Claude Instant를 대체하는 용도로 보임


참고한 링크들

https://www.anthropic.com/news/claude-3-family

https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf


두 링크에서 공통적으로 시행한게 3개밖에 안보여서 3개만 가져옴