https://the-decoder.com/apple-debuts-its-mm1-multimodal-ai-model-with-rich-visual-capabilities/
https://arxiv.org/abs/2403.09611

Apple MM1은 지능형 아키텍처와 정교한 훈련 덕분에 시각적 작업에서 GPT-4V 및 Google Gemini와 경쟁할 수 있는 유능한 멀티모달 AI 모델입니다.


GPT-4V 및 Gemini와 마찬가지로 MM1은 대규모 언어 모델(LLM) 아키텍처를 기반으로 하며 이미지-텍스트 쌍, 인터리브 이미지-텍스트 문서, 텍스트 전용 데이터(이미지-텍스트 쌍 45%, 인터리브 이미지-텍스트 문서 45%, 텍스트 전용 데이터 10%)를 혼합하여 훈련되었습니다.


이러한 훈련 방식을 통해 MM1은 이미지 설명, 질문 답변, 심지어 기본적인 수학적 문제 해결 능력까지 다른 경쟁자들과 비슷한 수준의 능력을 개발할 수 있었습니다.


Apple의 연구원들은 아키텍처 구성 요소와 학습 데이터 등 MM1의 성능에 가장 큰 영향을 미치는 요소를 파악하기 위해 심층적인 조사를 실시했습니다.


그 결과 높은 이미지 해상도, 이미지 처리 구성 요소('비주얼 인코더'로 알려진)의 성능, 학습 데이터의 양이 특히 중요하다는 사실을 발견했습니다. 흥미롭게도 이미지와 언어 사이의 연관성은 그다지 중요하지 않은 것으로 밝혀졌습니다.


시각 인코더는 이미지 정보를 AI 시스템이 처리할 수 있는 형식으로 변환하는 작업을 담당합니다. 이 인코더가 더 발전할수록 MM1은 이미지 콘텐츠를 더 잘 이해하고 해석할 수 있습니다.


이 연구는 또한 학습 데이터의 올바른 조합의 중요성을 강조합니다. 이미지-텍스트 쌍, 이미지-텍스트 인터리브 데이터, 텍스트 전용 데이터는 입력 프롬프트의 제한된 예시로 강력한 결과를 얻기 위해 필수적이었습니다. 그러나 MM1이 프롬프트에 예제 없이 출력을 생성해야 할 때는 훈련 데이터의 이미지-텍스트 쌍이 더 중요한 역할을 했습니다.


이미지-텍스트 쌍 또는 이미지-캡션 쌍은 각 이미지가 관련 텍스트와 직접 쌍을 이루는 데이터입니다. 이 텍스트는 일반적으로 이미지 콘텐츠에 대한 설명 또는 설명입니다.


예를 들어 "공원에서 공을 가지고 노는 갈색 개"라는 캡션이 있는 개 이미지를 예로 들 수 있습니다. 이러한 페어링된 데이터는 자동 이미지 라벨링과 같은 작업을 위해 모델을 학습시키는 데 자주 사용됩니다.

반면에 인터리브 이미지-텍스트 데이터는 이미지와 텍스트가 혼합된 순서로 나타나는 데이터로, 각 이미지가 반드시 특정 텍스트와 직접적으로 연관되어 있지 않습니다.


예를 들어, 동일한 주제와 관련이 있지만 반드시 1:1 관계에 있지 않은 이미지와 텍스트 섹션이 혼합되어 있는 뉴스 기사를 들 수 있습니다. 이러한 데이터는 시각적 정보와 텍스트 정보가 자연스러운 맥락에서 종종 함께 나타나는 방식을 반영하는 경향이 있습니다.


이 논문에서는 두 가지 유형의 데이터, 즉 이미지-텍스트 쌍과 이미지-텍스트 혼합 데이터를 텍스트 전용 데이터와 함께 혼합하는 것이 멀티모달 AI 모델을 학습하는 데 유용하며, 특히 적은 예제로 좋은 결과를 얻을 수 있는 경우(Few-Shot Learning)에 유리하다는 것을 보여주었습니다.


300억 개의 파라미터만으로도 최첨단 결과를 얻을 수 있습니다.


최대 300억 개의 파라미터로 확장하고 여러 전문 AI 모델이 함께 작동하는 특수 기술인 전문가 혼합(MoE) 모델을 사용하여 MM1은 이미지 캡션 및 시각적 질문에 대한 답변을 위한 소수 샷 학습에서 대부분의 공개된 모델을 능가하는 최첨단 결과를 달성했습니다.


또한 MM1은 여러 이미지의 정보를 결합하여 복잡한 질문에 답하거나 단일 이미지로는 유추할 수 없는 결론을 도출하는 다중 이미지 추론과 같은 보다 복잡한 시나리오에서 탁월한 성능을 발휘합니다. 이는 MM1이 인간의 지각과 추론과 매우 유사한 방식으로 현실 세계를 이해하고 해석하는 데 도움이 될 수 있습니다.


선별된 데이터를 사용한 감독 미세 조정(SFT)을 통해 모델을 더욱 세분화한 후 MM1은 12개의 기존 벤치마크에서 경쟁력 있는 결과를 달성했습니다. 이로써 MM1 또는 확장된 변형 버전은 가까운 미래에 GPT-4V 및 Google Gemini와 같은 다른 주요 AI 시스템의 잠재적인 경쟁자로 자리매김할 수 있게 되었습니다.