LLM의 사전 지식과 참조 데이터 사이의 긴장감을 보여주는 연구 결과

https://the-decoder.com/study-shows-tension-between-llm-prior-knowledge-and-reference-data/
https://arxiv.org/pdf/2404.10198

스탠포드 대학교의 한 연구에서는 검색 증강 생성(RAG)이 대규모 언어 모델(LLM)의 사실 정확도를 어느 정도 향상시키는지 조사했습니다. 연구 결과에 따르면 RAG 시스템의 신뢰성은 사용된 데이터 소스의 품질에 따라 크게 좌우되며, 언어 모델에 대한 사전 지식이 중요하다는 것을 알 수 있습니다.

스탠포드 대학교의 연구원들은 GPT-4와 같은 RAG가 없는 LLM과 비교하여 질문에 답할 때 RAG 시스템의 신뢰성을 연구했습니다. RAG 시스템에서는 답변의 정확도를 높이기 위해 AI 모델에 관련 정보의 참조 문서 또는 데이터베이스가 제공됩니다.

이 연구에 따르면 RAG 시스템의 사실 정확도는 AI 모델의 사전 학습된 지식의 강도와 참조 정보의 정확성 모두에 달려 있습니다.

RAG와 LLM 지식 사이의 긴장

연구팀에 따르면 언어 모델의 내부 지식과 RAG를 통해 제공되는 정보 사이에는 긴장이 존재합니다. 특히 검색된 정보가 모델의 사전 학습된 지식과 모순되는 경우 더욱 그렇습니다.

연구진은 총 1,200개 이상의 질문으로 구성된 6가지 질문 세트에 대해 GPT-4 및 기타 LLM을 테스트했습니다. 올바른 참조 정보가 주어졌을 때 모델은 94%의 질문에 정답을 맞혔습니다.

그러나 참조 문서가 점점 더 잘못된 값으로 수정되었을 때, LLM이 잘못된 정보를 반복할 확률은 주제에 대한 사전 학습된 지식이 약할 때 더 높았습니다.

사전 학습된 지식이 더 강하면 모델은 잘못된 참조 정보에 더 잘 저항할 수 있었습니다.

변경된 정보가 모델이 그럴듯하다고 생각하는 것과 더 크게 벗어날 때 비슷한 패턴이 나타났습니다. 즉, 편차가 더 비현실적일수록 LLM은 사전 학습된 지식에 더 많이 의존했습니다.

참조 정보를 준수하라는 메시지의 강도도 영향을 미쳤는데, 메시지가 강할수록 모델이 참조 정보를 준수할 확률이 높아졌습니다.

반면, 프롬프트가 덜 엄격하고 모델이 참조 정보와 사전 지식을 비교할 수 있는 여유가 있을 때는 확률이 감소했습니다.

고품질 참조 데이터를 갖춘 RAG는 LLM의 정확도를 크게 향상시킬 수 있습니다.

연구 결과에 따르면 RAG 시스템은 언어 모델의 사실 정확도를 크게 향상시킬 수 있지만 잘못된 정보에 대한 만병통치약은 아닙니다.

문맥이 없는 경우(즉, RAG를 사용하지 않은 경우) 테스트한 언어 모델은 평균 34.7%의 질문에만 정답을 맞혔습니다. RAG를 사용하면 정확도가 94%로 증가했습니다.

그러나 참조 정보의 신뢰성은 매우 중요합니다. 또한 모델에 대한 잘 훈련된 사전 지식은 비현실적인 정보를 인식하고 무시하는 데 도움이 됩니다.

연구자들은 금융, 의학, 법률 등의 분야에서 RAG 시스템을 상업적으로 사용하려면 투명성이 더욱 강화되어야 한다고 생각합니다. 사용자들은 모델이 잠재적으로 상충되거나 부정확한 정보를 어떻게 처리하는지, 그리고 LLM과 같은 RAG 시스템이 틀릴 수 있다는 사실을 더 잘 인식할 필요가 있습니다.

For example, if RAG systems are used to extract nested financial data to be used in an algorithm, what will happen if there is a typo in the financial documents? Will the model notice the error and if so, what data will it provide in its place? Given that LLMs are soon to be widely deployed in many domains including medicine and law users and developers alike should be cognizant of their unintended effects, especially if users have preconceptions that RAG-enabled systems are, by nature, always truthful.

From the paper

예를 들어, 알고리즘에 사용할 중첩된 재무 데이터를 추출하는 데 RAG 시스템을 사용하는 경우 재무 문서에 오타가 있는 경우 어떻게 될까요? 모델이 오류를 알아차릴 수 있으며, 알아차린다면 어떤 데이터를 대신 제공할까요? LLM이 곧 의료, 법률 등 다양한 분야에 널리 배포될 것이라는 점을 고려할 때, 특히 사용자가 RAG 지원 시스템이 본질적으로 항상 진실하다는 선입견을 가지고 있다면 사용자와 개발자 모두 의도하지 않은 영향에 대해 인지해야 합니다.

논문에서 발췌