https://the-decoder.com/new-ai-training-method-mitigates-the-lost-in-the-middle-problem-that-plagues-llms/
https://arxiv.org/pdf/2404.16811

Microsoft, 북경대학교, 시안교통대학교의 연구원들은 대규모 언어 모델(LLM)의 '중간 손실' 문제를 해결하기 위한 새로운 데이터 기반 접근 방식인 IN2(정보 집약적) 교육을 개발했습니다.


중간에서 길을 잃는 현상은 긴 문맥의 시작과 끝의 정보는 이해하지만 중간에서 정보를 처리하는 데 어려움을 겪는 것으로, 현재 LLM의 가장 큰 과제 중 하나입니다. 이로 인해 LLM은 출력 컨텍스트 창이 크다는 장점에도 불구하고 대량의 데이터를 평가할 때 신뢰성이 떨어집니다.


연구진은 이 문제의 원인이 학습 데이터에 의도하지 않은 편향이 있기 때문이라고 생각합니다. 사전 학습은 주변 토큰을 기반으로 다음 토큰을 예측하는 데 초점을 맞추는 반면, 미세 조정은 종종 응답 생성에 큰 영향을 미치는 컨텍스트 시작 부분에 시스템 지침을 포함합니다. 이는 무의식적으로 위치 편향을 도입하여 중요한 정보가 항상 문맥의 시작과 끝에 위치한다는 것을 시사합니다.


IN2 훈련은 합성 질문-응답 데이터를 사용하여 중요한 정보가 문맥 내 어느 위치에도 위치할 수 있음을 모델에 명시적으로 보여줍니다. 긴 문맥(4K-32K 토큰)은 많은 짧은 세그먼트(128개)로 채워져 있으며, 질문은 무작위로 배치된 세그먼트에 포함된 정보를 대상으로 합니다.


연구진은 한 세그먼트의 세부 사항을 묻는 질문과 여러 세그먼트의 정보를 통합하고 추론해야 하는 두 가지 유형의 훈련 문제를 사용했습니다.

중간에서 발견 - 적어도 더 자주


연구진은 IN2를 미스트랄-7B에 적용하여 FILM-7B(FILl-in-the-Middle)를 만들었습니다. 긴 컨텍스트를 위해 설계된 세 가지 새로운 추출 작업에 대한 테스트. 이 테스트는 다양한 컨텍스트 유형(문서, 코드, 구조화된 데이터)과 검색 패턴(정방향, 역방향, 양방향)을 다룹니다.


그 결과, IN2는 기존 Mistral 모델의 '중간 손실' 문제를 크게 줄여주는 것으로 나타났습니다. 또한 훨씬 더 작은 모델인 FILM-7B는 128K의 GPT-4 Turbo와 같은 독점 모델과 비슷하거나 훨씬 더 강력한 성능을 달성합니다.


FILM-7B는 또한 짧은 컨텍스트의 작업 수행 능력은 유지하면서 긴 텍스트 요약, 긴 문서에 대한 질문에 답하기, 여러 문서에 대한 추론 등 긴 컨텍스트의 실제 작업에서 상당한 개선을 보였습니다.


그러나 긴 컨텍스트에서는 문제가 있지만 컨텍스트 벤치마크에서 가장 강력한 모델로 남아 있는 GPT-4 Turbo는 아직 중간에서 길을 잃는 문제가 해결되지 않았습니다.


연구진은 또한 널리 사용되는 "건초더미 속 바늘 찾기" 테스트는 익숙한 문서와 같은 문맥과 단순화된 전방 정보 검색을 사용하기 때문에 모델의 긴 문맥 능력을 잘못 나타낸다고 지적합니다. 연구진은 보다 철저한 평가를 위해 다양한 문맥 스타일과 검색 패턴을 다루기 때문에 언어 모델의 문맥 성능을 평가하는 데 더 적합한 방법으로 VAL 프로빙 접근법을 제안합니다.