난 전혀 모르고있었는데 일주일 전 쯤에 마이크로 소프트에서 vasa-1이라는 AI영상 생성 모델을 출시함.

정확히는 무에서 유를 만드는 영상생성 모델이 아닌, 

1장의 사진음성파일만 넣어주면 그걸 토대로 사진속 인물이 말하는 것 처럼 생성해주는 모델.

아래 영상을 보면 알겠지만(음성 키는걸 추천) 싱크로율이 굉장히 높음.





왼쪽 아래가 생성바탕이 될 사진이고, 음성파일을 동봉해서 밑의 사진속 인물이 말하는 것 처럼 보이도록 생성함.


영상을 보면 알겠지만 표정과 움직임이 굉장히 사실적이고 AI영상이라는걸 모르고 본다면 '음성은 실내같은데 영상은 밖에서 찍었네?' 정도의 위화감만 느껴질 정도로 AI의 흔적이 거의 보이지 않음.




이건 내가 보고 충격을 받은 영상인데 영상을 보면 알겠지만, 눈의 시선처리가 굉장히 사실적임. 부자연스럽게 정면만 보는것도 아니고 카메라를 주시하는 것도 아닌, 말하면서 자연스럽게 다른쪽을 쳐다보는 시선처리 등 진짜로 사람이 말한다고 해도 하나도 이상하지 않은 수준임.




또한 그냥 생성해놓고 랜덤한 결과값을 받기만 하는 수준이 아니라 무표정, 즐거움, 화남, 놀람 등 감정을 정하고 생성 할 수 있어서 음성과 어울리는 자연스러운 감정을 설정한다면 더욱 자연스러운 생성결과를 얻을 수 있음. 위 영상은 화난쪽 표정이 어울리니 화난표정의 AI생성 결과를 내놓는다면 모두 속겠지.




거기에 당연하다면 당연한 기능이겠지만, 실제 사람이 아닌 그림, 만화캐릭터 등의 사진으로도 생성이 가능함.



현재 마이크로 소프트는 이 AI기술이 너무 사실적으로 생성해주기 때문에 딥페이크, 가짜뉴스 등의 문제가 될 소지가 다분해서 출시를 미루고 있다고 함.


이제 진짜 AI의 세상이 도래하고 있다...