코드 편집 벤치마크


코딩 능력뿐만 아니라 시스템 프롬프트에 지정된 형식으로 일관되게 내보낼수 있는지도 측정함 

gpt-4o는 이 벤치마크에서 1위를 차지했음


코드 리팩토링 벤치마크


이 별도의 '리팩토링 벤치마크'는 GPT-4 Turbo의 '게으른 코딩' 습관을 유발하고 측정하기 위해 개발됨

gpt-4o는 이 벤치마크에서 2위를 기록했음



모델별 릴리즈 날짜와 코드 수정 벤치마크 결과



원문 링크

https://aider.chat/docs/leaderboards/