https://the-decoder.com/anthropics-claude-3-beats-openais-gpt-4-at-text-summarization/
https://github.com/mungg/FABLES
https://arxiv.org/abs/2404.01261

토큰으로 표시되는 대규모 언어 모델의 컨텍스트 창은 AI 모델이 동시에 처리할 수 있는 정보의 양을 나타냅니다. 오늘날 이 창은 모델이 책 전체를 요약할 수 있을 만큼 충분히 큽니다. 새로운 연구에서는 이러한 요약의 품질을 여러 차원에서 평가합니다.


대규모 언어 모델의 컨텍스트 창은 최근 꾸준히 성장하고 있으며, 현재 가장 큰 모델은 20만 개의 토큰을 가진 Claude 3와 100만 개의 토큰을 가진 Google Gemini 1.5 Pro입니다.


이론적으로는 소설 한 권과 같은 긴 문서를 요약할 수 있어야 합니다. 그러나 이러한 요약의 품질은 방대한 원본 자료에 매우 익숙한 사람만이 판단할 수 있으며, 이는 많은 노력이 필요합니다.


UMass 애머스트, Adobe, Allen AI 연구소, 프린스턴 대학교의 연구원들은 전체 책에 대한 AI 생성 요약의 신뢰성과 정확성을 평가하는 연구를 진행하기 위해 FABLES(책 길이 요약에 대한 충실성 주석)라는 새로운 데이터 세트를 발표했습니다.


연구진은 Anthropic의 최신 모델인 Claude 3 Opus가 90%의 어설션이 신뢰할 수 있다고 평가되어 OpenAI의 모든 비공개 소스 LLM을 크게 앞섰으며, GPT-4와 GPT-4 Turbo가 78%, GPT-3.5 Turbo가 72%, 테스트한 유일한 오픈 소스 모델인 Mixtral이 70%로 뒤를 이었다는 사실을 발견했습니다.


리뷰어들의 의견을 분석한 결과, 신뢰할 수 없는 진술은 대부분 사건, 인물, 관계와 관련된 것이었습니다. 이러한 진술을 검증하려면 일반적으로 간접적이고 다단계적인 추론이 필요했으며, 연구자들은 이 때문에 작업이 더욱 복잡해졌다고 말했습니다.



효과는 좋지만 확장하기 어려운 방법


이 연구는 2023년과 2024년에 출판된 책이 교육 자료에 포함되어 결과가 왜곡될 가능성을 피하기 위해 2023년과 2024년에 출판된 책에 초점을 맞췄습니다. 비용과 인지적 부하를 최소화하기 위해 주석가들은 자신의 시간에 책을 미리 읽도록 요청받았습니다.


연구자들은 Upwork를 통해 모집한 14명의 도우미에게 총 5,200달러의 비용이 들었기 때문에 이러한 접근 방식을 새로운 책과 데이터 세트에 쉽게 확장할 수 없다고 지적합니다. 따라서 훈련 세트를 확장하고 지속적으로 업데이트하려면 시간과 비용이 매우 많이 소요됩니다.


연구원들은 또한 LLM을 사용하여 클레임을 자동으로 검증하는 실험을 했지만, 가장 좋은 방법도 허위 클레임을 안정적으로 감지하는 데 어려움을 겪었습니다.



연구진은 주장의 정확성 외에도 주석가들의 의견을 바탕으로 다른 가설을 세웠습니다. 일반적으로 모든 언어 모델이 연대순 오류를 범했지만, 컨텍스트 창이 더 큰 모델은 그 영향이 덜했습니다.


또한 모든 모델이 중요한 정보를 생략한다는 비판을 받았으며, 이 점에서 Claude 3 Opus가 가장 우수한 성능을 보였고, GPT-4 Turbo와 Mixtral은 심지어 개별 인물을 생략하기도 했습니다.


연구진은 또한 문맥 창이 매우 긴 다양한 모델에서 이전에 관찰되었던 책 끝부분의 콘텐츠에 체계적으로 더 많은 가중치를 부여하는 경향, 즉 '중간에서 사라짐'이라는 현상을 확인했습니다.


연구진은 이러한 종류의 추가 연구를 장려하기 위해 GitHub에 FABLES 데이터 세트를 게시하고 있습니다.