저자들은 gsm 8k와 같은 gsm 1k라는 새로운 벤치마크를 제시함.

여기서 gsm 8k에서 좋은성능을 보이던 몇몇 모델들이 실제로는 그렇지 않다는걸 보여줌.

또한 흥미로운것은 phi3는 역시 벤치마크에 크게 과적합되었다는 점과 llama 3는 분명 같은 데이터셋으로 훈련받았음에도 70b에서 떨어지는 폭이 크지 않다는점 그리고 상용모델인 claude,gpt4모두 과적합되지 않았다는걸 보여줌

https://arxiv.org/pdf/2405.00332