일부 내용은 쉬운 이해를 위해 생략하거나 수정함


원본 링크

arxiv : https://arxiv.org/abs/2405.00332v1

허깅페이스 : https://huggingface.co/papers/2405.00332

저자 : Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele (Mike)Lunati, Summer Yue


수학적 추론에 대한 벤치마크로 GSM8k가 사용되고 있음

하지만 실제로 추론하는것이 아닌 답을 외워버리는게 아니냐는 우려가 커지고 있음


이에 따라 Scale AI는 새로운 벤치마크인 GSM1k를 만들어 벤치마크를 다시 돌려보았음



위 그래프는 GSM8K와 GSM1K의 격차에 따라 나열한것임

Mistral과 Phi는 GSM1K에서 점수가 거의 10% 가량 하락했음

반면에 GPT, Claude, Gemini 같은 모델은 과적합 징후가 나타나지 않았음





(해당 논문에 작성되어 있는 실험 과정이나 검증 과정 등의 내용들은 이 글에서 생략)






결론1. 일부 모델군은 체계적으로 과적합됨

 Phi 및 Mistral 등의 모델 제품군들은 GSK1K에서 더 낮은 성능을 보여줌


결론2. 다른 모델, 특히 프론티어 모델에서는 과적합 징후가 보이지 않음

GPT, 클로드, 제미나이 같은 프론티어 모델 및 미스트랄 라지 같은 프론티어에 가까운 모델들은 GSM1K와 GSM8K에서 유사한 성능을 보여줌


이에 따라 가설 2가지가 제시됨

1. 프론티어 모델은 GSM8K 문제를 일반화하여 GSM1K 문제를 풀수 있을정도로 진보한 추론 능력을 가지고 있음

2. 프론티어 모델은 데이터 오염에 더 주의했음


저자는 (1)이 맞을거같다고 추정하는데, 이유는 미스트랄 모델군은 라지에서만 GSM1K와 GSM8K에서 차이가 없었기 떄문임


결론3. 과적합 모델도 여전히 추론이 가능함

여전히 훈련 데이터에 없더라도 추론이 가능함

단지 성능이 벤치마크만큼 안나올뿐임


결론4. 과적합이 일어나는 이유는 데이터 오염외에 더 있을수도 있음

(설명 생략) 모델 작성자가 훈련 데이터로 벤치마크와 성격이 유사한 데이터를 수집하거나 성능을 기반으로 최종 모델 체크포인트를 선택하는 등 다른 간접적인 수단을 통해 발생할 수 있음을 시사함


원문 : https://arxiv.org/abs/2405.00332v1