https://the-decoder.com/meaningless-fillers-enable-complex-thinking-in-large-language-models/
https://arxiv.org/pdf/2404.15758

연구원들은 특별히 훈련된 LLM이 전체 문장 대신 "......"와 같은 점을 사용하여 복잡한 문제를 잘 해결할 수 있다는 사실을 발견했습니다. 이는 이러한 모델에서 일어나는 일을 제어하기 더 어렵게 만들 수 있습니다.


연구진은 라마 언어 모델을 훈련시켜 0이 되는 숫자 세 개를 찾아야 하는 '3SUM'이라는 어려운 수학 문제를 풀도록 했습니다.


일반적으로 AI 모델은 '연쇄적 사고' 프롬프트로 알려진 전체 문장으로 단계를 설명하여 이러한 과제를 해결합니다. 하지만 연구진은 이러한 자연어 설명을 필러 토큰이라고 하는 반복되는 점으로 대체했습니다.


놀랍게도 점을 사용한 모델이 완전한 문장으로 자연어 추론을 사용한 모델만큼 잘 수행했습니다. 작업이 더 어려워질수록 점 모델은 중간 추론 없이 직접 응답하는 모델보다 더 나은 성능을 보였습니다.




연구진은 모델이 실제로 작업과 관련된 계산에 점을 사용한다는 사실을 발견했습니다. 사용 가능한 점이 많을수록 정답이 더 정확했으며, 이는 점이 많을수록 모델에 더 큰 '사고 능력'을 제공할 수 있음을 시사합니다.


연구진은 점들이 모델이 다양한 숫자를 삽입하고 작업의 조건을 충족하는지 확인하는 자리 표시자 역할을 하는 것으로 추정합니다. 이를 통해 모델은 한 번에 해결할 수 없는 매우 복잡한 질문에 답할 수 있습니다.


공동 저자인 제이콥 파우는 이 결과가 AI 보안에 대한 중요한 질문을 던진다고 말합니다: AI 시스템이 점점 더 숨겨진 방식으로 '사고'하는 상황에서 어떻게 하면 신뢰할 수 있고 안전한 상태를 유지할 수 있을까요?


이 발견은 추가되는 콘텐츠가 주제에서 벗어난 것이라도, 기본적으로 토큰을 곱하는 것일지라도 더 긴 연쇄 사고 프롬프트가 언어 모델 성능을 향상시킬 수 있다는 최근 연구 결과와도 일치합니다.


연구진은 향후에는 까다로운 과정에도 불구하고 필러 토큰을 처음부터 처리하도록 AI 시스템을 가르치는 것이 유용할 수 있다고 생각합니다. LLM이 해결해야 하는 문제가 매우 복잡하고 한 번에 해결할 수 없는 경우라면 가치가 있을 수 있습니다.


또한 학습 데이터에는 문제가 동시에 처리 가능한 작은 부분으로 나뉘어져 있는 충분한 예시가 포함되어야 합니다.


이러한 기준이 충족되면 도트 방식은 일반 AI 시스템에서도 작동할 수 있으며, 어려운 질문에 대한 답변이 명확하지 않은 경우에도 답을 찾을 수 있습니다.


그러나 도트 시스템 학습은 AI가 도트로 무엇을 계산하는지 정확히 알 수 없고, 특정 단계 순서가 필요한 설명에는 도트 방식이 잘 작동하지 않기 때문에 어려운 것으로 간주됩니다.


ChatGPT와 같은 인기 있는 챗봇은 점 추론을 자동으로 수행할 수 없으며, 이에 대한 학습이 필요합니다. 따라서 연쇄적 사고 프롬프트는 여전히 LLM 추론을 개선하기 위한 표준 접근 방식입니다.