글에 따르면 기존 needle in a haystack 테스트는 최신 모델들이 너무 쉽게 성공해내서
더 어려운 컨텍스트 기억력 벤치마크를 만들었다고 함
1. GPT-4 Turbo 0409
2. Claude 3 Sonnet
3. GPT-4o
GPT-4o는 컨텍스트내 기억력이 매우 좋아짐
원문 링크
링크 들어가면 하단에 보이는 추가 정보 요약
- 미스트랄 기억력 안좋음
- 보내는 프롬프트 크기가 작으면 기억 더 잘함
open-mistral-7b 쓸때 16k 요청 vs 32k 요청 비교했을떄 16k는 7.2k 구간에서 70%인데, 32k 요청은 7.2k 구간에서 0%로 떡락함
- 정보를 반복하면 더 기억 잘함
3.5 터보도 원래 적중률 30%까지 내려가는데 정보를 10번씩 반복하면 적중률 80% 이상 유지함