[디지털비즈온 송민경 기자] 구글 연구원들은 한 사람의 한 정지 영상에서 움직이는, 말하는 아바타로 변형시킬 수 있는 새로운 인공지능 모델을 개발했다. 그것은 브이로거(VLOGGER)라고 불려지며, "오디오로부터 인간을 합성하는 새로운 프레임워크"라고 설명했다.
이미지에서 비디오(Image-to-Video)를 생성하는 방식으로 브이로거는 사진 한 장으로 사람들이 대화하는 고해상도 동영상을 생성할 수 있습니다.
구글 연구팀의 목표는 실제 인간과 브이로거 아바타가 인간처럼 상호작용을 할 수 있는 가짜 인간을 만드는 것이라 밝혔다.
논문에서, 연구자들은 입력으로서 단 하나의 이미지와 원하는 오디오 클립을 필요로 하는 이 모델이 "온라인 의사소통, 교육, 또는 개인화된 가상 비서"를 향상시키기 위해 사용될 수 있다고 제안한다. 블로거는 움직이는 비디오를 편집할 수도 있는데, 연구자들은 이것이 "창의적인 과정을 용이하게 할 것"이라고 주장한다.
브이로거는 공개와 동시에 딥페이크의 문제와 마주하고 있다. 실제 사람이 실제로 하지 않은 말과 행동을 하는 것처럼 보이는 유사성을 제공하며, 아바타를 생성할 수 있기 떄문이다.
기존의 생성형 AI 도구는 대중적으로 이용가능하기 떄문에 딥페이크를 생성을 위한 난이도가 낮은 편이다. 이에 비해 현재 버전의 브이로거 모델은 비디오에 대해 원하는 오디오를 제공해야하는 과정을 거친다.
연구팀에서 발표한 논문에 따르면, 브이로거의 기술이 애니메이션화하는 "각각의 사람을 위한 훈련을 필요로 하지 않는다."라고 언급하며, 브이로거가 "완전한 이미지를 생성하고, 인간과 소통할 수 있도록 올바르게 합성하기 위해 중요한 요소들을를 고려한다"고 밝혔다.
각각 개별적으로 교육이 진행되지 않으며, 아직까지 브이로거로 생성된 아바타들은 가짜로 명확히 구분될 수준이라고 이해할 수 있다. 또한 연구팀의 목표인 상호작용을 할 수 있는 아바타 생성을 위해 다양한 시나리오를 고려하고 있음을 알 수 있다.