https://the-decoder.com/the-future-of-ai-language-models-may-lie-in-predicting-beyond-the-next-word-study-suggests/
https://arxiv.org/pdf/2404.19737

연구자들은 AI 언어 모델을 학습하는 동안 여러 토큰을 예측하면 성능, 일관성, 추론 능력이 향상된다는 사실을 입증했습니다. 대규모 언어 모델의 미래는 단순한 토큰 예측을 넘어설까요?


GPT-4와 같은 대규모 언어 모델은 일반적으로 "다음 토큰 예측"을 사용하여 학습됩니다. AI 시스템은 문장의 다음 단어만 예측하는 방법을 학습합니다. Meta AI, CERMICS(에콜 데 퐁 파리테크), LISN(파리 사클레 대학교)의 과학자들은 이제 모델이 한 번에 여러 단어를 예측해야 한다고 제안합니다. 이들은 이 방법을 "다중 토큰 예측"이라고 부릅니다.


구체적으로, 모델은 공유 모델 구성 요소(트렁크)와 수많은 독립적인 출력 헤드를 사용하여 훈련 텍스트의 각 지점에서 다음 단어를 병렬로 예측합니다.



메모리 요구량을 낮게 유지하기 위해 출력 헤드의 계산이 순차적으로 수행되고 각 단계가 끝나면 중간 결과가 삭제됩니다. 이렇게 하면 예측되는 단어의 수에 따라 메모리 요구량이 증가하지 않습니다.


실험 결과 다중 토큰 예측의 장점은 모델의 크기에 따라 증가하는 것으로 나타났습니다. 130억 개의 매개변수를 가진 모델은 유사한 다음 토큰 모델보다 HumanEval 데이터 세트에서 12%, MBPP 데이터 세트에서 17% 더 많은 프로그래밍 작업을 해결했습니다.


새로운 접근 방식은 실행 속도 측면에서도 높은 점수를 받았습니다. 추가 예측 헤드를 활용하는 추측적 디코딩을 사용하면 모델을 최대 3배 더 빠르게 실행할 수 있습니다.


다중 토큰 예측이 잘 작동하는 이유는 무엇인가요? 연구진은 넥스트 토큰 모델이 즉각적인 예측에 지나치게 집중하는 반면, 멀티 토큰 모델은 장기적인 종속성을 고려한다고 생각합니다. 따라서 연구진은 이번 연구를 통해 단순한 다음 토큰 예측을 넘어 언어 모델을 훈련할 때 성능, 일관성, 추론 능력을 향상시키기 위한 새로운 보조 작업에 대한 관심을 불러일으키기를 희망합니다. 다음으로, 이들은 임베딩 공간에서 작동하는 방법을 개발하고자 하는데, 이는 Meta의 AI 책임자인 Yann LeCun이 AI의 미래에서 핵심적인 역할을 할 것으로 보고 있는 아이디어입니다.


인간의 뇌는 단순히 다음 토큰을 예측하는 것 이상의 기능을 수행합니다.


이 이니셔티브는 AI 언어 모델을 인간의 두뇌 기능에 더 가깝게 만들기 위한 일련의 최근 개발의 일환입니다. 예를 들어, LeCun은 자율 인공 지능을 위한 "공동 임베딩 예측 아키텍처"(JEPA)를 연구하고 있습니다. 중앙의 '세계 모델' 모듈은 세계의 계층적이고 추상적인 표현을 학습하여 인간의 뇌와 비슷한 수준의 다양한 추상화에서 예측을 하는 데 사용할 수 있을 것으로 기대됩니다.


연구에 따르면 뇌는 언어를 이해할 때 현재의 AI 모델보다 더 멀리 내다보는 사고를 한다고 합니다. 다음 단어만 예측하는 것이 아니라 여러 개의 후속 단어를 한 번에 예측합니다. 또한 구문 정보와 함께 의미 정보를 사용하여 보다 광범위하고 추상적인 예측을 수행합니다.


이러한 연구 결과는 더 나은 언어 알고리즘을 위해서는 미래 입력의 계층적 표현을 예측하는 것이 필요하다는 AI 연구 과제로 이어진다고 Meta의 Brain & AI 팀을 이끌고 있는 프랑스 연구 센터 CNRS의 신경과학자 장 레미 킹(Jean-Rémi King)은 말합니다.


그의 팀은 2021년 말에 언어에 대한 인간의 뇌 반응이 GPT 언어 모델의 활성화에 따라 예측 가능하다는 것을 보여주었습니다. 2022년 6월에는 음성 녹음으로 훈련된 AI 모델과 오디오북을 듣는 400여 명의 fMRI 녹음 간의 상관관계를 보여주었습니다. 그 후 킹 박사팀은 MEG와 EEG 데이터를 통해 사람이 어떤 단어를 들었는지 예측할 수 있는 AI 시스템을 시연했습니다. 이후 텍사스 대학교 오스틴 캠퍼스 연구진의 논문에서도 fMRI 녹음에 대해 비슷한 결과를 재현했습니다.


긴 단어 시퀀스는 조합 가능성으로 인해 정확한 예측이 어렵습니다. 그러나 단어 시퀀스의 의미와 같이 보다 추상적인 표현은 보다 신뢰할 수 있는 예측을 가능하게 합니다.


이러한 논리에 따라 단순한 단어 예측을 넘어서는 다중 토큰 예측과 미래 접근 방식을 통해 오늘날 모델의 많은 약점을 극복하는 AI 모델의 비전이 가까워질 수 있습니다. 얼마나 가까워질지는 아직 미지수입니다.