개념글 모음

OAI에서 나온 설명문을 보면 단순한 text2text 또는 image2text 모델이 아닌 everything2everything 모델임

달리같은 거 연결해 이미지 생성하는 게 아니라, 걍 직접 이미지 만들 수도 있고, TTS도 새로운 모델 만들고 연동이 아니라 모델 내에서 직접 오디오 인식 및 TTS 하는 걸로 보임

단 API에는 아직 제공되지 않을 뿐