https://the-decoder.com/openais-new-multimodal-gpt-4-omni-combines-text-vision-and-audio-in-a-single-model/
https://openai.com/index/hello-gpt-4o/
https://blog.samaltman.com/gpt-4o

OpenAI는 텍스트, 이미지, 오디오 처리를 단일 신경망에 결합하여 성능과 효율성의 새로운 기준을 제시하는 최신 대형 멀티모달 모델인 GPT-4o를 공개했습니다.


GPT-4o의 'o'는 '옴니'를 의미하며, 동일한 신경망을 통해 여러 입력 및 출력 유형을 처리하는 모델의 기능을 반영합니다.


GPT-4o의 주요 기능 중 하나는 인상적인 오디오 기능입니다. 이 모델은 평균 232밀리초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간과 비슷한 수준입니다. 이에 비해 이전 모델은 응답하는 데 2.8초에서 5.4초가 걸렸습니다.


또한 GPT-4o는 차분한 호흡과 흥분한 호흡을 구분하고 다양한 감정을 합성 음성으로 표현할 수 있으며, 요청에 따라 목소리를 로봇 소리로 바꾸거나 노래를 부를 수도 있다고 OpenAI는 시연했습니다.



OpenAI에 따르면 텍스트 성능 측면에서 GPT-4o는 영어의 경우 GPT-4 터보와 비슷하며 비영어권 언어에서는 훨씬 뛰어난 성능을 발휘합니다. 이 모델의 비전 기능은 비디오나 그래픽을 실시간으로 분석하고, 얼굴의 감정을 인식하고 묘사하며, 그에 따라 반응할 수 있게 해줍니다.

GPT-4 터보보다 더 효율적이고 저렴한 GPT-4o


OpenAI는 새로운 모델이 이전 모델인 GPT-4 터보보다 두 배 더 빠르고 50% 더 저렴하다고 주장하며 효율성에 중점을 두고 GPT-4o를 개발했습니다.


OpenAI는 유료 고객 및 API 사용자에 비해 무료 사용자에게는 다소 낮은 속도 제한이 있긴 하지만, ChatGPT에서 GPT-4o를 무료로 제공함으로써 최첨단 AI 모델에 대한 접근성을 확대하고 있습니다. ChatGPT의 유료 사용자는 5배 더 높은 속도 제한을 받습니다.


하지만 OpenAI에 따르면 세계 최고 수준인 GPT-4 레벨 모델을 일반인에게 무료로 제공하는 것은 이번이 처음입니다.



개발자는 API에서 텍스트 및 '비전' 모델로 GPT-4o를 사용할 수 있으며, 향후 몇 주 내에 일부 신뢰할 수 있는 파트너 그룹에 오디오 및 비디오 기능을 제공할 계획입니다.


"OpenAI를 시작할 때의 초기 구상은 AI를 만들어 세상을 위한 모든 종류의 혜택을 창출하는 데 사용하겠다는 것이었습니다. 하지만 지금은 우리가 AI를 만들고 다른 사람들이 이를 활용해 우리 모두가 혜택을 누릴 수 있는 온갖 종류의 놀라운 것들을 만들어내는 것처럼 보입니다."라고 OpenAI의 CEO인 샘 알트먼은 말합니다.

GPT-4 터보보다 뛰어난 성능의 GPT-4o


OpenAI는 GPT-4o의 성능을 입증하기 위해 언어 모델 벤치마크인 LMSys Arena에서 이 모델을 테스트했습니다. OpenAI의 연구원 윌리엄 페더스에 따르면 이 모델은 이전 모델인 GPT-4 터보보다 약 60점의 ELO 점수를 앞질렀다고 합니다.


ELO 점수는 모델의 실제 결과물을 사용해 사람이 블라인드 테스트에서 평가하기 때문에 현재 모델의 성능을 나타내는 가장 중요한 지표 중 하나로 간주됩니다. ELO는 원래 체스에서 상대적인 경기력을 측정하기 위해 사용된 등급 시스템입니다. ELO 등급이 높을수록 플레이어(이 경우 AI 모델)의 실력이 더 우수하다는 것을 의미합니다. 이 데이터는 OpenAI가 최근 챗봇 아레나에서 모델을 다음과 같은 조건으로 경쟁하게 한



특히 프로그래밍과 같은 까다로운 작업에서 이점이 더욱 두드러지는데, GPT-4o는 이전 모델보다 100점 높은 ELO 점수를 달성했다고 페더스는 말했습니다.


OpenAI에 따르면 GPT-4o는 기존의 텍스트, 추론, 프로그래밍 벤치마크에서 GPT-4 Turbo의 성능과 비슷하지만 다국어, 오디오, 시각적 이해력에 대한 새로운 벤치마크를 설정합니다.


예를 들어, GPT-4o는 일반 지식 테스트(MMLU, 5-Shot)에서 87.2%라는 새로운 최고 점수를 기록했습니다. 또한 음성 인식 및 번역, 다이어그램 관련 작업(M3Exam)에서도 GPT-4 및 다른 모델보다 훨씬 뛰어난 성능을 발휘합니다. 또한 GPT-4o는 시각적 인식 테스트에서도 새로운 기준을 제시한다고 OpenAI는 말합니다.



GPT-4o용 새 토큰화 도구는 언어를 토큰으로 보다 효율적으로 분해하여 처리 속도를 높이고 특히 비라틴어 스크립트의 경우 메모리 요구량을 줄일 수 있습니다. 예를 들어 "안녕하세요, 제 이름은 GPT-4o입니다"라는 문장은 텔루구어에서는 이전보다 3.5배, 독일어에서는 1.2배 더 적은 토큰이 필요합니다.


OpenAI는 이번 발표를 GPT-4o에 집중했습니다. 다음 주요 모델에 대한 정보는 곧 발표될 예정이라고 OpenAI CTO 미라 무라티는 무대에서 말했습니다.

데스크톱 앱 출시


또한, OpenAI는 보다 사용자 친화적이고 대화가 가능한 환경을 만들기 위해 새로운 MacOS용 ChatGPT 데스크톱 앱과 함께 윈도우 버전도 출시했으며, 웹 디자인도 업데이트했습니다.


이 앱은 키보드 단축키를 통해 ChatGPT에 빠르게 액세스할 수 있으며, 사용자는 앱 내에서 바로 스크린샷을 통해 토론할 수 있습니다. 음성 모드를 통해 ChatGPT와 대화할 수 있으며, 향후 GPT-4o의 오디오 및 비디오 기능도 통합될 예정입니다.

안전성, 가용성 및 제한 사항


OpenAI에 따르면, 훈련 데이터를 필터링하거나 훈련 후 동작을 최적화하는 등 모든 입력 유형에 대해 GPT-4o의 안전성을 처음부터 다시 설계했습니다. 오디오 출력에 대한 새로운 안전 시스템도 만들어졌습니다.


OpenAI는 지금까지 70명의 외부 전문가의 도움을 받아 자체 대비 프레임워크와 비교하여 GPT-4o를 평가하여 새로운 양식으로 인한 위험을 식별하고 완화했습니다. 현재로서는 텍스트와 이미지 입력 및 텍스트 출력만 공개될 예정입니다.


다른 입력 유형은 기술 인프라, 사용성, 안전성이 확보되는 대로 추가될 예정입니다. GPT-4o가 적용된 새로운 음성 모드의 알파 버전은 몇 주 내에 ChatGPT 플러스에 출시될 예정입니다.


https://www.youtube.com/watch?v=DQacCB9tDaw