글에 따르면 기존 needle in a haystack 테스트는 최신 모델들이 너무 쉽게 성공해내서

더 어려운 컨텍스트 기억력 벤치마크를 만들었다고 함  


1. GPT-4 Turbo 0409


2. Claude 3 Sonnet


3. GPT-4o


GPT-4o는 컨텍스트내 기억력이 매우 좋아짐


원문 링크

https://nian.llmonpy.ai/


링크 들어가면 하단에 보이는 추가 정보 요약

- 미스트랄 기억력 안좋음  

- 보내는 프롬프트 크기가 작으면 기억 더 잘함

open-mistral-7b 쓸때 16k 요청 vs 32k 요청 비교했을떄 16k는 7.2k 구간에서 70%인데, 32k 요청은 7.2k 구간에서 0%로 떡락함

- 정보를 반복하면 더 기억 잘함

3.5 터보도 원래 적중률 30%까지 내려가는데 정보를 10번씩 반복하면 적중률 80% 이상 유지함