성능 높은것부터 시작해서 가장 낮은거까지 나열하는식으로 표 정렬해둠
MMLU
Claude 3 Opus (5-shot) | 86.8% |
Claude 3 Sonnet (5-shot) | 79.0% |
Claude 2 (5-shot CoT) | 78.5% |
Claude 1.3 (5-shot CoT) | 77% |
Claude 3 Haiku (5-shot) | 75.2% |
Claude Instant (5-shot CoT) | 73.4% |
GSM8K (0-shot CoT)
Claude 3 Opus | 95.0% |
Claude 3 Sonnet | 92.3% |
Claude 3 Haiku | 88.9% |
Claude 2 | 88% |
Claude 1.3 | 85.2% |
Claude Instant | 52.8% |
ARC-Callenge
Claude 3 Opus (25-shot) | 96.4% |
Claude 3 Sonnet (25-shot) | 93.2% |
Claude 2 (5-shot) | 91.0% |
Claude 1.3 (5-shot) | 90.0% |
Claude 3 Haiku (25-shot) | 89.2% |
Claude Instant | 85.7% |
Claude 3 Opus : Claude 2에 비해 훨씬 좋은 성능을 보이고 있음
Claude 3 Sonnet : Claude 2와 거의 비슷하면서도 약간 더 나은 성능을 보이고 있음
Claude 3 Haiku : Claude Instant를 대체하는 용도로 보임
참고한 링크들
https://www.anthropic.com/news/claude-3-family
https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
두 링크에서 공통적으로 시행한게 3개밖에 안보여서 3개만 가져옴