급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는 설명이다.



월스트리트저널(WSJ)은 1일(현지시간) 오픈AI의 'GPT-4'나 구글의 '제미나이'와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다. 



이에 따르면 대형언어모델(LLM)의 규모가 커지면서 업계에서는 전례 없는 데이터 수요가 발생하고 있다. AI 기업은 향후 2년 이내에 고품질 텍스트 데이터에 대한 수요가 공급을 초과, 잠재적으로 AI 발전을 방해할 수 있다는 의견을 내놓고 있다.


파블로 비라로보스 에포크 연구원은 "컴퓨터 과학 원리 중 '친칠라 스케일링 법칙'에 따라 'GPT-5'와 같은 AI 시스템은 현재의 성장 궤적을 따른다면 60조~100조개의 데이터 토큰이 필요할 것"이라며 "이는 현재 사용 가능한 모든 고품질 텍스트를 데이터를 10조~20조개 이상 넘어서는 것"이라고 지적했다.


친칠라 스케일링(chinchilla scaling) 법칙이란 700억개 매개변수의 친칠라 모델과 2800억개 매개변수의 고퍼 모델의 성능을 비교한 2022년의 실험 결과에서 비롯했다. 특정 매개변수 모델이 최적의 성능을 발휘하기 위해 필요한 학습 데이터양을 추정해 냈다. 친칠라 모델의 경우 고퍼의 4분의 1 크기에 불과하지만, 4배 더 많은 데이터로 학습했기 때문에 더 우수한 성능을 보였다는 내용이다. 


여기에서 유추된 법칙에 따르면, 5300억개 매개변수를 가진 모델의 경우 11조개 토큰 상당의 학습 데이터가 필요하다. 따라서 매개변수가 2조개에 달할 것으로 보이는 GPT-5의 경우에는 60조개 이상의 토큰 학습이 필요하다는 결론이다.


그러나 문제는 인터넷의 방대한 데이터 중 쓸만한 데이터가 많지 않다는 점이다. 대부분은 품질이 낮거나 저작권 문제로 접근이 제한돼 있다. 


이를 해결하기 위해 연구진은 합성 데이터나 유튜브 동영상, 레딧과 같은 커뮤니티 게시물 등 새로운 데이터 소스를 발굴하고, 커리큘럼 러닝(curriculum learning) 등 ML 기법 등으로 학습 효율을 높이는 등 온갖 방법을 강구하고 있다. 하지만 이 중 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 '모델 붕괴'의 위험성도 가지고 있다.


이에 대해 에이리 모르코스 데이톨로지AI 창립자 겸 CEO는 "데이터 부족은 아직 미개척된 연구 분야"라며 "이것이 딥 러닝의 감춰진 비밀이다. 스파게티가 익었는지 벽에 던져 확인하는 것처럼, 실제로 닥치지 않으면 알 수 없는 문제"라고 밝혔다.


또 WSJ은 AI 칩과 전력 등 인프라 공급 부족과 AI 챗봇 활성화에 따른 웹 및 앱 트래픽 하락 등 생태계의 문제도 지적했다.


샘 알트먼 오픈AI CEO도 얼마전 비슷한 뜻을 밝힌 바 있다. 그는 "내 생각에 우리는 거대한 모델이 존재하는 시대의 마지막에 와 있다고 생각한다"라며 "따라서 우리는 다른 방법으로 모델을 더 좋게 만들 것"이라고 말했다.


이 때문에 향후에는 GPT-4와 같은 대형 범용 모델보다는 도메인별 지식을 집중 학습한 전문 모델이 주를 이룰 것으로 예상하고 있다.  


실제 최근 LLM 관련 연구나 제품 출시 추세는 단일 대형모델보다 소형 모델 여러대를 조합해 퀴리에 맞게 스위칭하는 사례가 많이 등장하고 있다. 또 단일 모델의 경우에도 전문 모델 여러대로 쪼개는 '전문가 믹스(MoE)' 방식이 대세가 되고 있다.


이 방식은 지난해 오픈AI가 GPT-4에 본격 도입한 것으로 알려진 뒤, 미스트랄 AI가 '믹스트랄 8x7B'에 도입해 크게 유행시켰다. 사실, 성능보다는 효율성에 초점을 맞춘 방식이다.



최근 한주 동안 출시된 모델 중 AI21 랩스의 '잠바', 삼바노바의 '삼바-CoE v0.2', 데이터브릭스의 ‘DBRX’ 등 주요 모델은 모두 MoE 방식을 채택했다. 심지어 xAI의 '그록' 역시 MoE 방식인 것으로 드러났다.


https://www.aitimes.com/news/articleView.html?idxno=158463