아르스테크니카: 마이크로소프트의 3.8B 파라미터 Phi-3는 GPT-3.5와 어깨를 나란히 하며, "작은 언어 모델"의 새로운 시대를 예고하고 있습니다.



🎯 이 소식의 중요성(Why it matters): Phi-3와 같은 작고 로컬에서 실행 가능한 AI 언어 모델의 등장은 ChatGPT 무료 버전과 유사한 성능을 인터넷 연결 없이 스마트폰에서 구현할 수 있는 길을 열어줍니다.

  • 이는 기존의 거대 언어 모델(LLM)과 달리 적은 계산 자원으로도 높은 성능을 발휘할 수 있음을 보여줍니다.
  • 마이크로소프트는 Phi-3의 7B, 14B 파라미터 버전도 계획 중이며, 이들은 "phi-3-mini보다 훨씬 더 뛰어난 성능"을 보일 것이라고 주장합니다.


📊 숫자로 보는 상황(By the numbers):

  • Phi-3-mini는 3.8B 파라미터로 구성되어 있으며, 3.3조 토큰으로 학습되었습니다.
  • 이는 구글의 PaLM 2(수천억 파라미터)나 OpenAI의 GPT-4(1조 파라미터 이상으로 추정)와 비교할 때 매우 작은 크기입니다.


🔍 세부 사항(The details): Phi-3의 핵심은 교과서에서 추출한 고품질의 학습 데이터에 있습니다. 

  • 마이크로소프트는 이를 "phi-2에 사용된 데이터셋의 확장 버전"이라고 설명하며, "웹 데이터와 합성 데이터를 심도 있게 필터링한 결과"라고 강조했습니다.
  • 또한 Phi-3는 "강건성, 안전성, 채팅 형식에 맞춰 더욱 정렬"되었다고 합니다.


🌍 큰 그림(The big picture): AI 모델과 데이터 센터의 환경적 영향에 대한 우려가 커지는 가운데, Phi-3와 같은 작은 모델의 등장은 큰 의미가 있습니다.

  • 작은 모델이 큰 모델을 대체한다면 장기적으로 비용과 에너지 소비를 크게 절감할 수 있습니다.
  • 이는 AI의 환경 발자국을 획기적으로 줄일 수 있는 한 걸음이 될 것입니다.


🔮 앞으로의 전망(What's next): Phi-3는 마이크로소프트의 클라우드 서비스 플랫폼 Azure를 통해 즉시 사용할 수 있습니다.

  • 또한 머신러닝 모델 플랫폼 Hugging Face와 Mac, PC에서 로컬 실행을 가능케 하는 프레임워크 Ollama와의 파트너십을 통해서도 제공됩니다.
  • Phi-3의 벤치마크 결과가 면밀한 검증을 통과한다면, 작은 모델의 시대가 본격적으로 열릴 것으로 기대됩니다.


https://apple.news/A6UzabeUORqCznqj68UfFIg