안녕하세요
이번에 나온 라마3 70B를 로컬에서 돌리는 법에 대해 조사중입니다.
채널 글을 몇 개 읽어 봤는데, 대부분 양자화를 통해 단일 GPU에서 돌리는 방식에 대해 정보가 많은 것 같더라구요.
저는 GPU 6대 정도로 구성된 워크 스테이션을 사용해서 돌려 보려고 하는데, 어떤 라이브러리나 오픈소스가 이러한 기능을 지원해주는지 몰라서, 검색할 키워드를 여쭙고자 질문 드립니다. 상세한 내용은 직접 깨지면서 알아보겠습니다!