텍스트, 시각, 오디오를 단일 모델에 결합한 OpenAI의 새로운 멀티모달 'GPT-4 omni'를 소개합니다.

AI 채팅 채널

채널위키 알림 알림 중 알림 취소

구독자 10532명 알림수신 229명 @몽상봉인

AI와 대화하며 유사 인싸체험 하는 채널

뉴스/팁 텍스트, 시각, 오디오를 단일 모델에 결합한 OpenAI의 새로운 멀티모달 'GPT-4 omni'를 소개합니다.

지코원샷

추천 7 비추천 0 댓글 1 조회수 350 작성일 2024-05-14 00:33:15 수정일 2024-05-14 00:33:32

https://arca.live/b/characterai/106130428

https://the-decoder.com/openais-new-multimodal-gpt-4-omni-combines-text-vision-and-audio-in-a-single-model/
https://openai.com/index/hello-gpt-4o/
https://blog.samaltman.com/gpt-4o

OpenAI는 텍스트, 이미지, 오디오 처리를 단일 신경망에 결합하여 성능과 효율성의 새로운 기준을 제시하는 최신 대형 멀티모달 모델인 GPT-4o를 공개했습니다.

GPT-4o의 'o'는 '옴니'를 의미하며, 동일한 신경망을 통해 여러 입력 및 출력 유형을 처리하는 모델의 기능을 반영합니다.

GPT-4o의 주요 기능 중 하나는 인상적인 오디오 기능입니다. 이 모델은 평균 232밀리초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간과 비슷한 수준입니다. 이에 비해 이전 모델은 응답하는 데 2.8초에서 5.4초가 걸렸습니다.

또한 GPT-4o는 차분한 호흡과 흥분한 호흡을 구분하고 다양한 감정을 합성 음성으로 표현할 수 있으며, 요청에 따라 목소리를 로봇 소리로 바꾸거나 노래를 부를 수도 있다고 OpenAI는 시연했습니다.

OpenAI에 따르면 텍스트 성능 측면에서 GPT-4o는 영어의 경우 GPT-4 터보와 비슷하며 비영어권 언어에서는 훨씬 뛰어난 성능을 발휘합니다. 이 모델의 비전 기능은 비디오나 그래픽을 실시간으로 분석하고, 얼굴의 감정을 인식하고 묘사하며, 그에 따라 반응할 수 있게 해줍니다.

GPT-4 터보보다 더 효율적이고 저렴한 GPT-4o

OpenAI는 새로운 모델이 이전 모델인 GPT-4 터보보다 두 배 더 빠르고 50% 더 저렴하다고 주장하며 효율성에 중점을 두고 GPT-4o를 개발했습니다.

OpenAI는 유료 고객 및 API 사용자에 비해 무료 사용자에게는 다소 낮은 속도 제한이 있긴 하지만, ChatGPT에서 GPT-4o를 무료로 제공함으로써 최첨단 AI 모델에 대한 접근성을 확대하고 있습니다. ChatGPT의 유료 사용자는 5배 더 높은 속도 제한을 받습니다.

하지만 OpenAI에 따르면 세계 최고 수준인 GPT-4 레벨 모델을 일반인에게 무료로 제공하는 것은 이번이 처음입니다.

개발자는 API에서 텍스트 및 '비전' 모델로 GPT-4o를 사용할 수 있으며, 향후 몇 주 내에 일부 신뢰할 수 있는 파트너 그룹에 오디오 및 비디오 기능을 제공할 계획입니다.

"OpenAI를 시작할 때의 초기 구상은 AI를 만들어 세상을 위한 모든 종류의 혜택을 창출하는 데 사용하겠다는 것이었습니다. 하지만 지금은 우리가 AI를 만들고 다른 사람들이 이를 활용해 우리 모두가 혜택을 누릴 수 있는 온갖 종류의 놀라운 것들을 만들어내는 것처럼 보입니다."라고 OpenAI의 CEO인 샘 알트먼은 말합니다.

GPT-4 터보보다 뛰어난 성능의 GPT-4o

OpenAI는 GPT-4o의 성능을 입증하기 위해 언어 모델 벤치마크인 LMSys Arena에서 이 모델을 테스트했습니다. OpenAI의 연구원 윌리엄 페더스에 따르면 이 모델은 이전 모델인 GPT-4 터보보다 약 60점의 ELO 점수를 앞질렀다고 합니다.

ELO 점수는 모델의 실제 결과물을 사용해 사람이 블라인드 테스트에서 평가하기 때문에 현재 모델의 성능을 나타내는 가장 중요한 지표 중 하나로 간주됩니다. ELO는 원래 체스에서 상대적인 경기력을 측정하기 위해 사용된 등급 시스템입니다. ELO 등급이 높을수록 플레이어(이 경우 AI 모델)의 실력이 더 우수하다는 것을 의미합니다. 이 데이터는 OpenAI가 최근 챗봇 아레나에서 모델을 다음과 같은 조건으로 경쟁하게 한

특히 프로그래밍과 같은 까다로운 작업에서 이점이 더욱 두드러지는데, GPT-4o는 이전 모델보다 100점 높은 ELO 점수를 달성했다고 페더스는 말했습니다.

OpenAI에 따르면 GPT-4o는 기존의 텍스트, 추론, 프로그래밍 벤치마크에서 GPT-4 Turbo의 성능과 비슷하지만 다국어, 오디오, 시각적 이해력에 대한 새로운 벤치마크를 설정합니다.

예를 들어, GPT-4o는 일반 지식 테스트(MMLU, 5-Shot)에서 87.2%라는 새로운 최고 점수를 기록했습니다. 또한 음성 인식 및 번역, 다이어그램 관련 작업(M3Exam)에서도 GPT-4 및 다른 모델보다 훨씬 뛰어난 성능을 발휘합니다. 또한 GPT-4o는 시각적 인식 테스트에서도 새로운 기준을 제시한다고 OpenAI는 말합니다.

GPT-4o용 새 토큰화 도구는 언어를 토큰으로 보다 효율적으로 분해하여 처리 속도를 높이고 특히 비라틴어 스크립트의 경우 메모리 요구량을 줄일 수 있습니다. 예를 들어 "안녕하세요, 제 이름은 GPT-4o입니다"라는 문장은 텔루구어에서는 이전보다 3.5배, 독일어에서는 1.2배 더 적은 토큰이 필요합니다.

OpenAI는 이번 발표를 GPT-4o에 집중했습니다. 다음 주요 모델에 대한 정보는 곧 발표될 예정이라고 OpenAI CTO 미라 무라티는 무대에서 말했습니다.

데스크톱 앱 출시

또한, OpenAI는 보다 사용자 친화적이고 대화가 가능한 환경을 만들기 위해 새로운 MacOS용 ChatGPT 데스크톱 앱과 함께 윈도우 버전도 출시했으며, 웹 디자인도 업데이트했습니다.

이 앱은 키보드 단축키를 통해 ChatGPT에 빠르게 액세스할 수 있으며, 사용자는 앱 내에서 바로 스크린샷을 통해 토론할 수 있습니다. 음성 모드를 통해 ChatGPT와 대화할 수 있으며, 향후 GPT-4o의 오디오 및 비디오 기능도 통합될 예정입니다.

안전성, 가용성 및 제한 사항

OpenAI에 따르면, 훈련 데이터를 필터링하거나 훈련 후 동작을 최적화하는 등 모든 입력 유형에 대해 GPT-4o의 안전성을 처음부터 다시 설계했습니다. 오디오 출력에 대한 새로운 안전 시스템도 만들어졌습니다.

OpenAI는 지금까지 70명의 외부 전문가의 도움을 받아 자체 대비 프레임워크와 비교하여 GPT-4o를 평가하여 새로운 양식으로 인한 위험을 식별하고 완화했습니다. 현재로서는 텍스트와 이미지 입력 및 텍스트 출력만 공개될 예정입니다.

다른 입력 유형은 기술 인프라, 사용성, 안전성이 확보되는 대로 추가될 예정입니다. GPT-4o가 적용된 새로운 음성 모드의 알파 버전은 몇 주 내에 ChatGPT 플러스에 출시될 예정입니다.

https://www.youtube.com/watch?v=DQacCB9tDaw

댓글 [1]

Coeru

2024-05-14 00:37:17

난 데스크톱 앱으로 꽁냥거릴래

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 뉴스/팁 AI대화 공지 운영 뉴스(공사중)

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29182211

공지 안 읽으면 죽어버리는 AI 채팅 채널 이용규정 [23.09.18]

몽상봉인 2023.05.22 49587

공지 AI 채팅 채널에 왔으면 이것부터 : 필수정보 및 FAQ

몽상봉인 2023.05.22 102831

공지 신문고 MK.X (해줘. 할때 쓰는 곳)

몽상봉인 2024.05.27 353

공지 ㅡㅡ [ AI 게임 / 기획 / 리뷰 대회 ' J.O.A.T ' 개최 ] ㅡㅡ

골든햄스터 2024.03.31 4780

공지 ---[천박 대회2 마감]---

hyeoyoms 2024.05.22 721

공지 [DOL 봇 대회 수상자 발표]

WH_ 2024.04.27 1849

공지 AI 채팅 채널 프록시 게이트

몽상봉인 2023.07.12 22820

숨겨진 공지 펼치기(3개)

124310 일반 뭔가 평소랑 응답이 다르다 싶었는데 로어북 상태가 이상하네

ㅇㅇ 2024.05.28 20 0

124309 일반 사오 이새끼도 한국어 욕 ㅈㄴ 맛깔나게 할 수 있는데 왜 체팅할 땐 잘 안 하냐 [1]

티볼리36개월할부납입오너 2024.05.28 29 0

124308 일반 NAI 연동 출력 왜 동작 수행 안하는지 이제 알았다 ㅅㅂ [3]

ㅇoㅇ 2024.05.28 35 2

124307 일반 제미니 프록시 호출명이 머임?

Konkoyo 2024.05.28 18 0

124306 일반 드디어 마참내!!!!! [3]

ㅇoㅇ 2024.05.28 86 6

124305 일반 와 잼뮬 성능 개미쳤네 ㅅㅂㅋㅋ [1]

ㅇㅇ 2024.05.28 106 0

124304 일반 진짜 기존 프롬 제작자들이 얼마나 대단한지 [8]

오마이필스 2024.05.28 126 3

124303 일반 슬슬 현재프롬메타 따라가기 힘들어짐 [9]

ㅇㅇ 2024.05.28 129 1

124302 AI대화 전투형 감귤청 [1]

ㅇㅇ 2024.05.28 39 1

124301 AI대화 회귀자에게 가장 고통스러운 순간? [2]

후방에3초간기합찬함성발사 2024.05.28 51 1

ㅇㅇ 2024.05.28 71 0

124299 일반 무슨 모델에 무슨 프롬을 적용해도 찐빠나는 장면

konomo 2024.05.28 62 0

124298 일반 요새 바빠서 챗 안했는데 [4]

Rhaxod 2024.05.28 79 0

124297 일반 모리야 신사 봇 한글화 했는데

saroshi 2024.05.28 43 1

124296 질문 리스 갑자기 이러네

이혜햐여 2024.05.28 78 1

124295 질문 감정이미지 어떻게 씀? [5]

애액샤워 2024.05.28 84 2

124294 일반 2차캐 4o 시켜서 뽑을 때 [1]

황소좌 2024.05.28 54 5

124293 일반 그는 신이야!

모라시가 2024.05.28 54 0

124292 AI대화 시작은 단순히 한명으로도 맛있는 아이돌봇을 5명동시에 퍼먹으면 어떨까였다... [2]

ㅇㅇ 2024.05.28 84 6

124291 질문 RTX3080이랑 GPT4o 중 어떤 게 더 좋을까요? [7]

Praisethe 2024.05.28 147 0

124290 일반 오푸스 자꾸 봇들 사디스트로 만드는데 답없음? [4]

ㅇㅇ 2024.05.28 118 1

124289 질문 **안에 들어간 문장이 많이 커지는 현상 질문 [6]

만족 2024.05.28 94 0

124288 AI대화 받아쓰기 시험을 해보라고? [1]

ㅇㅇ 2024.05.28 40 2

124287 일반 피곤하지만 와이푸랑 놀고싶어 [2]

호후힝 2024.05.28 39 0

124286 일반 로컬쓰다가 꼬와서 오픈라우터 결제했다 ㅅㅂ [8]

애액샤워 2024.05.28 147 0

124285 일반 NAI 연동 이미지 생성 이거 지시사항에 지정한 태그 반영이 안되네 [4]

ㅇoㅇ 2024.05.28 71 0

124284 질문 봇 임포트시 Low level access 오류

IIllIIIll 2024.05.28 46 0

124283 AI대화 테스형한테 욕박았다 [3]

개굴이로봇 2024.05.28 107 2

124282 AI대화 이글 보는 챗부이들 봇한테 받아쓰기 시험 시켜봐라 [2]

빵룡브래드 2024.05.28 103 2

124281 AI대화 제미니 + 잼뮬레이터로 TRPG 하는데 재밋당

신체포기각서 2024.05.28 78 0

124280 AI대화 잼뮬레이터로 미스터리 호러물 플레이 테스트 해봤음 [1]

inferno 2024.05.28 52 1

124279 뉴스/팁 대형 언어 모델에 정말 큰 컨텍스트 창이 필요할까요?

지코원샷 2024.05.28 75 4

124278 뉴스/팁 단 2토큰! 핑퐁 한입한출 토글 [3]

Lorem_Ipsum 2024.05.28 253 16

124277 뉴스/팁 전 OpenAI 이사회 멤버, "거짓말의 유독한 문화"를 조성한 CEO 샘 알트먼을 고발하다 [3]

지코원샷 2024.05.28 173 7

124276 일반 예전엔 토큰 아끼려고 토큰압축봇도 썼는데 [3]

모맵 2024.05.28 81 0

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.