일론 머스크의 xAI가 'GPT-4' 수준에 근접한 대형언어모델(LLM) '그록-1.5'를 발표했다. 추후 공개할 '그록-2'는 GPT-4를 능가할 것이 거의 확실하다는 평이다.


벤처비트는 29일(현지시간) xAI가 향상된 추론 능력과 늘어난 컨텍스트 창을 갖춘 그록-1.5를 공개했다고 보도했다. 지난해 11월 '그록-1.0' 출시 이후 5개월 만이다.


일론 머스크는 X(트위터)를 통해 "다음 주 X를 통해 업그레이드된 그록을 사용할 수 있을 것"이라며 "그록-2는 현재 훈련 중으로, 모든 지표에서 현재의 AI를 능가할 수 있어야 할 것"이라고 밝혔다. 그록은 머스크가 오픈AI의 '챗GPT'를 따라잡겠다며 만든 모델이다.


xAI는 그록-1.5가 코딩과 수학을 포함한 모든 주요 벤치마크에서 이전 모델보다 상당히 향상했다고 설명했다.


초등학교부터 고등학교까지 수학 문제를 테스트하는 매스(MATH) 및 GSM8K 벤치마크에서 각각 50.6%, 90%의 성능을 보였다. 또 코드 생성 및 문제 해결 능력을 평가하는 휴먼이밸(HumanEval) 벤치마크에서는 74.1%를 기록했다. 언어 이해 능력을 평가하는 MMLU 벤치마크에서 새 모델은 81.3%를 기록, 그록-1의 73%를 크게 앞질렀다. 


또 최대 12만8000개의 토큰의 컨텍스트 창을 제공, 이전 모델보다 16배 많은 양의 정보를 한번에 받아들이고 처리할 수 있다고 전했다.


이를 통해 '제미나이 1.5 프로'나 'GPT-4' '클로드 3' 및 주요 오픈 소스 모델의 성능에 근접한다고 강조했다.


예를 들어 MMLU에서 그록-1.5는 81.3%로, 최근 출시된 미스트랄 '라지'를 능가하지만 제미나이 1.5 프로(83.7%)와 GPT-4(86.4%), 클로드 3 오퍼스(86.8%)에 뒤처진다. GSM8K에서도 비슷한 양상으로, 4위를 차지했다.


그록-1.5가 우위에 있는 것으로 보이는 유일한 벤치마크는 코드 생성 능력으로, 클로드 3를 제외한 모든 모델보다 성능이 뛰어났다.


브라이언 로밀리 기술 컨설턴트는 "현 추세대로라면 그록-2는 거의 모든 지표에서 GPT-4를 능가, 가장 강력한 LLM 중 하나가 될 것”이라고 말했다.


다음 주 X를 통해 배포될 이 모델은 기존 버전과 마찬가지로 X의 모든 게시물에 접근, AI 챗봇 중 가장 뛰어난 실시간성을 보여줄 것으로 보인다. 전 버전과 마찬가지로 X 프리미엄 사용자만 사용할 수 있다.


한편 xAI는 지난 17일 그록-1.0을 오픈 소스로 공개했다. 이 과정에서 매개변수가 3140억개로 알려지며, 오픈 소스 모델 중 가장 큰 모델로 자리 잡았다.


또 지난주에는 챗봇 그록을 기존 X 프리미엄 플러스(월 16달러)에서 전체 프리미엄 사용자(월 8달러 이상)로 확대했다. 이처럼 그록 성능 고도화에 따라 배포 범위를 점차 넓히는 추세다.


https://www.aitimes.com/news/articleView.html?idxno=158407





과연 진짜일까

일론이 과연 일을 저지를 수 있을까