새로운 방법으로 게이밍 GPU에서 업계 규모의 LLM 트레이닝 가능

https://the-decoder.com/new-method-enables-industry-scale-llm-training-on-gaming-gpus/
https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html

새로운 오픈 소스 시스템을 통해 게이밍 GPU에서 700억 개의 파라미터로 구성된 언어 모델을 학습할 수 있게 되었습니다.

Answer.AI에서 출시한 오픈 소스 시스템을 통해 표준 게이밍 그래픽 카드가 장착된 일반 데스크톱 컴퓨터에서 700억 개의 파라미터로 구성된 언어 모델을 효율적으로 학습할 수 있게 된 것은 이번이 처음입니다. 이 시스템은 FSDP와 QLoRA 기술을 결합한 것으로 Answer.AI와 허깅 페이스, 그리고 다른 연구자들이 협력한 결과물입니다.

대규모 언어 모델을 훈련하는 데 있어 최대 80GB의 RAM을 갖춘 고가의 데이터 센터 카드에 비해 최대 24GB의 RAM을 갖춘 표준 그래픽 카드의 메모리 용량이 제한되어 있다는 점이 문제입니다.

관련 연구원 중 한 명인 팀 데트머스가 개발한 QLoRA는 양자화 및 LoRA를 사용하여 단일 GPU에서 대규모 모델을 훈련할 수 있게 해줍니다. 양자화는 신경망의 파라미터를 저장하는 데 사용되는 비트 수를 줄이는 반면, LoRA는 전체 모델을 변경하지 않고 특정 어댑터를 훈련합니다.

반면 Meta의 PyTorch 팀이 개발한 FSDP(완전 분할 데이터 병렬)를 사용하면 여러 GPU에 모델을 분산하여 모든 그래픽 카드를 동시에 활용할 수 있습니다. 이 기술은 대규모 모델의 파라미터를 분할하여 훈련 중에 각 GPU에 필요한 모든 조각을 제공할 수 있습니다.

두 개의 GPU에서 700억 개의 파라미터 모델을 성공적으로 훈련한 팀

연구팀은 QLoRA와 FSDP를 결합하여 24GB GPU 두 대에서 700억 개의 파라미터로 모델을 훈련할 수 있었습니다. 또한 그라데이션 체크포인트 및 CPU 오프로딩과 같은 기술을 사용하여 GPU 메모리 요구 사항을 줄였습니다. 연구팀은 이전 접근 방식보다 더 빠르고 정확한 정량화를 가능하게 하는 방법인 HQQ로 메모리 소비를 더욱 줄였습니다. HQQ는 FSDP 시스템에 성공적으로 통합되었습니다.

목표는 AI에 대한 접근성을 높이고 더 많은 사람들이 가치 있는 모델을 사용할 뿐만 아니라 만들 수 있도록 하는 것입니다. 잠재적으로 이 방법과 새로운 지도는 향후 더 큰 규모의 AI 모델을 훈련하는 데 사용될 수 있습니다.

그냥 기존에 있던 메모리 절약 방법 통합하는 시도를 한거 같은데 사용한 것들만 봐도 결국 시스템 메모리 무지하게 잡아 먹고 학습 속도가 엄청 느린 학습이 되서 사용하기는 힘들어 보이네요. 학습 시간에 대한 이야기는 없는 거 보니 솔직히 통합에 의미가 있지 사용은 되지 않은 방법이 되겠네요.