https://the-decoder.com/current-llms-undertrained-by-a-factor-of-maybe-100-1000x-or-more-says-openai-co-founder/
https://ai.meta.com/blog/meta-llama-3/

Meta의 Llama 3는 기록적인 양의 데이터로 학습되었으며, 이는 전체 AI 산업을 재고하고 더 나은 모델을 생산할 수 있는 계기가 될 수 있습니다.


Meta는 Llama 3를 통해 일부 영역에서 다른 모델의 성능을 훨씬 능가하는 새로운 언어 모델을 도입했습니다. Meta에 따르면 이러한 성능 향상의 핵심은 천만 개의 고품질 예시를 통해 학습 데이터를 대폭 늘리고 미세 조정한 것입니다.


고품질 데이터가 소규모 언어 모델의 성능을 향상시킬 수 있다는 것은 이미 분명한 사실이지만(최근 Microsoft는 Phi-3 모델을 통해 이를 다시 확인했습니다), 사전 학습에 사용된 데이터의 양은 놀랍습니다. 80억 개의 매개변수 모델조차도 약 15조 개의 토큰으로 훈련되었습니다. 특히 이 훈련은 라마 2에 사용된 데이터의 양을 훨씬 초과할 뿐만 아니라 친칠라 스케일링 법칙에 따라 최적이라고 간주되는 데이터의 양을 훨씬 초과합니다.


언어 모델의 훈련이 상당히 부족할 수 있습니다.


딥마인드에서 개발한 이 법칙에 따르면 80억 개 모델의 경우 컴퓨팅 성능을 가장 효율적으로 활용하려면 약 2000억 개의 훈련 토큰이 최적이라고 합니다. 라마 3는 그 75배에 달하는 데이터로 학습되었습니다.


AI 연구원 안드레이 카르파티(Andrej Karpathy)는 X(구 트위터)에서 친칠라 법칙은 "컴퓨팅 최적화의 지점을 알려주지만, 모델이 최대 성능에 도달할 때까지 어디까지 훈련할 수 있는지에 대해서는 아무 말도 하지 않는다"고 설명합니다. Karpathy는 OpenAI의 창립 멤버이며 전에는 Tesla의 AI 책임자였습니다.

메타의 블로그 게시물에 따르면 엄청난 양의 학습 데이터에도 불구하고 메타는 "8B 및 70B 매개변수 모델이 최대 15T 토큰으로 학습한 후에도 로그 선형적으로 계속 개선되었다"는 사실을 발견했습니다.


카파티는 이는 현재 사용 중인 대부분의 언어 모델이 "100~1,000배 이상 훈련이 부족하여 수렴 지점에 근접하지 못했음을 시사할 수 있다"고 말합니다. 그는 다른 AI 회사들도 메타의 사례를 따라 오랫동안 학습된 더 작은 모델을 출시하기를 희망합니다.


언어 모델의 성능을 얼마나 더 오래, 더 많이 학습시켜야 이득이 너무 작아지기 전에 향상시킬 수 있는지는 아직 불분명합니다. 하지만 Meta는 아직 가능성의 한계에 도달하지 않았다는 것을 보여주었습니다.

https://twitter.com/karpathy/status/1781028605709234613