https://the-decoder.com/openai-cto-mira-murati-doesnt-know-what-data-sora-was-trained-on/

OpenAI의 CTO인 미라 무라티는 월스트리트 저널과의 인터뷰에서 소라의 최신 비디오 모델이 어떤 데이터를 기반으로 학습했는지 정확히 알지 못한다고 말했습니다. 이는 문제에 대한 인식이 부족하다는 것을 보여주기 때문에 문제가 됩니다.


무라티는 소라에 어떤 학습 데이터가 사용되었는지에 대한 질문에 OpenAI가 발표한 문구를 반복했습니다: 이 모델은 공개 및 라이선스가 부여된 데이터로 학습되었습니다. 예를 들어, 무라티는 유튜브나 페이스북 동영상을 말하는 것이냐는 WSJ 기자 조안나 스턴의 질문에 확실하지 않다고 답했습니다.


물론 무라티는 CTO로서 일상적인 개발에는 관여하지 않습니다. 하지만 OpenAI가 데이터 도용 혐의로 여기저기서 소송을 당하고 있는 상황에서 준비된 인터뷰에서 "잘 모르겠다"고 말하는 것은 그다지 설득력이 없어 보입니다.


소라는 아직 개발 중이며 조만간 출시되지는 않을 것이라고 합니다. 인터뷰가 끝난 후 Murati는 라이선스 데이터 중 일부가 Shutterstock의 교육 자료임을 확인했습니다.


OpenAI는 저작권이 있는 저작물을 허가 없이 AI 모델 학습에 사용했다는 이유로 작가와 뉴욕타임스 등 여러 소송에 직면해 있습니다.


OpenAI는 AI 학습을 위해 저작권이 있는 데이터를 사용하는 것은 공정 사용에 해당하며, 저작권이 있는 자료 없이는 최첨단 AI 모델을 학습시키는 것이 불가능하다고 주장합니다.


Sora는 현재 생성 AI 시스템보다 "훨씬, 훨씬 더 비싸다"


무라티는 또한 Sora의 비용에 대해서도 언급하며, 현재 비디오 생성은 기존 시스템보다 "훨씬, 훨씬 더 비싸다"고 말했습니다. Murati는 Sora가 출시되면 비용이 DALL-E 3와 비슷할 것으로 예상하고 있습니다. Sora의 출시는 "확실히 올해로 예정되어 있지만 몇 달 더 걸릴 수 있다"고 Murati는 말했습니다.


11월에 있을 미국 대선이 출시일에 영향을 미칠 수 있습니다. 소라의 안전 가이드라인은 아직 개발 중이지만, 무라티는 공개적으로 알려진 인물의 이미지 생성을 금지하는 DALL-E 3의 가이드라인과 비슷할 것으로 예상하고 있습니다.


https://www.youtube.com/watch?v=mAUpxN-EIgU