2021년 2월, 조금 특이한 협업 소식이 들려왔습니다. 인공지능 기업 D-ID가계도 서비스 기업 마이헤리티지(MyHeritage)가 주인공인데, 사람의 사진 한 장만 입력하면 사진 속 인물이 마치 살아 움직이는 것처럼 보이는 동영상을 제작해 주는 서비스입니다. 백문이 불여일견이니 우선 아래 트위터 링크를 볼까요? 이미지 왼쪽에 보이는 흑백 사진이 원본이고 이 흑백사진을 넣어서 '되살려낸' 모습이 바로 오른쪽의 동영상입니다. 잠깐씩 인중이 좀 묘하게 일그러지기도 합니다만, 대체로 자연스럽게 움직이는 모습이죠?

이 서비스의 이름은 "딥 노스탤지아(Deep Nostalgia)"입니다. 딥 노스탤지아를 제공하는 마이헤리티지는 세상을 떠난 가족이나 친구들의 사진을 넣어서 다시 그리운 사람들을 만나볼 수 있는 서비스라고 홍보하고 있네요. 오늘 기준으로 800만 건이나 되는 사진이 업로드되었다고 하니 나름대로 사람들이 즐겁게 쓰고 있는 모양입니다. 

그런데 이런 서비스를 접하게 되면 사람들은 당연히 어떤 장난을 칠지부터 고민하나 봅니다. 딥 노스탤지아는 사람 얼굴이랑 비슷한 이미지는 뭐든 받아들여서 영상으로 바꿔주는 프로그램이다 보니 얼굴 비슷하게 생기기만 하면 어떤 이미지든 넣을 수 있으니까요. 온갖 영상이 쏟아지는 와중에, 다트머스 대학의 고고학자 플린트 디블(Flint Dibble) 박사는 자기 전공을 살려 옛날 사람들을 되살려내기 시작했습니다.

네, 알렉산더 대왕입니다. 그리스 조각상은 충분히 사람처럼 생긴 것 같네요. 머리카락 부분 움직임이 조금 이상하긴 하지만 얼굴은 제법 자연스럽습니다.

눈 자리가 뚫려 있어도 얼렁뚱땅 되나 봅니다. 제우스/포세이돈의 청동상도 움직이게 만들었습니다.

영국 자연사박물관도 뛰어들었는데요, 네안데르탈인 모델링 이미지를 집어넣었다고 하네요! 영상/이미지 재현(reenactment) 기술은 박물관이나 미술관에서 활용도가 높을 거라고 합니다. 역사 속 인물들이 움직이는 동영상을 만들어서 교육용으로 활용하는 방식으로요.


이런 인공지능은 어떻게 작동하는 걸까요? 아쉽게도 자세한 작동 원리는 D-ID의 영업기밀에 해당하는지 찾아보기 쉽지 않았습니다. 하지만 이처럼 여러 사진의 특징을 합쳐서 조작하는 알고리즘은 사실 이미지처리 인공지능 분야에서는 제법 역사가 있는 편이어서, 대략적으로는 그 원리를 짐작할 수 있을 것 같네요. 우선 D-ID측에서 제공한 영상을 하나 보겠습니다.

D-ID의 보도자료에 따르면, 딥 노스탤지아에는 두 개의 입력이 들어갑니다. 첫 번째는 되살려내고 싶은 사진이고, 두 번째는 그 사진이 어떻게 움직일지를 결정하는 '드라이버 비디오'입니다. 위의 동영상을 보시면 오른쪽 동영상 속의 흑백 여성이 왼쪽 동영상의 여성과 거의 똑같이 움직이는 것을 볼 수 있지요? 기본적으로 딥 노스탤지아는 입력받은 사진의 '스타일'을 추출해서 드라이버 비디오의 '움직임'에 입혀내는 방식으로 작동하는 것 같습니다.

'스타일 전이(style transfer)'에는 여러 사례가 있는데, 그 중 가장 유명한 것으로는 2015년에 독일 튀빙겐의 연구자들이 발표한 논문 <A Neural Algorithm for Artistic Style>을 뽑을 수 있겠습니다. 인공신경망 내부에서 이미지의 내용(content)과 스타일(style)을 담당하는 부분이 따로 존재하며 이들을 분리할 수 있다는 내용을 보고하고 있는데요, 평범한 사진의 내용과 예술작품의 스타일을 각각 분리해낸 다음 한 장의 이미지로 합쳐서 재구축(reconstruct)하면 사진의 틀은 유지한 채 스타일만 극적으로 바꿀 수 있다는 겁니다. 역시 사례를 보는 편이 이해가 쉬울 것 같습니다.

(출처) arXiv:1508.06576v2 (2015)

원본 이미지는 왼쪽 위의 A입니다. 논문 저자들이 튀빙겐에서 길 가다가 찍은 사진인 것 같습니다. 이 평범한 사진을 인공신경망에 집어넣은 다음 그 내용(content)만 남겨두고, 신경망 활성값 중 스타일을 담당하는 부분은 고흐의 <별이 빛나는 밤>으로 바꿔치기합니다. 그런 다음 이미지를 재구축해보면, 왼쪽 아래에 보시는 것처럼 건물의 모양이나 강의 배치는 원본 사진과 거의 같은데 마치 고흐가 직접 그린 것 같은 이미지로 변하지요. 다른 예술작품을 가져와서 작업을 해봐도 비슷한 결과가 나오는 게 보입니다.

딥 노스탤지아도 아마 비슷한 방식으로 작동할 것 같습니다. 드라이버 비디오에서 사람의 골격이나 근육 움직임에 해당하는 부분을 남기고, 질감과 이목구비의 디테일을 결정하는 정보는 사진에서 추출한 값으로 바꿔치기하는 거겠죠. 물론 이쪽 작업을 해 보신 분들은 아시겠지만 인공신경망, 특히 딥러닝에서 사용하는 심층 인공신경망의 내부를 뜯어서 중간층의 각 부분이 구체적으로 어떤 기능을 하는지 분석하는 건 마냥 쉬운 일은 아닐 겁니다.

스타일 전이 기술은 이제 조금씩 상용화되는 분위기입니다. 요즘 논의되고 있는 활용처 중에는 익명 인터뷰가 있습니다. 다큐멘터리를 제작하다 보면 내부고발자나 성폭력 피해자 등 철저하게 익명을 보장해줘야 하는 취재원을 등장시킬 수밖에 없는데요, 모자이크나 음성변조를 하고 나서도 영상이나 음성에 남아 있는 미묘한 단서 때문에 취재원의 신원이 노출되는 경우가 가끔 생깁니다. 스타일 전이 기술을 이용해 취재원의 영상과 음성의 내용만을 가짜 영상에 입혀내면 인터뷰의 뉘앙스와 분위기를 유지하면서도 신원 유출의 가능성을 대폭 낮추는 개선이 가능해질 겁니다. 

공학박사. 잡다한 데 관심이 많습니다. 즐겁게 공부하고 배운 내용을 나눕니다. 편하게 읽히는 글을 쓰고 싶습니다.

여원님의 창작활동을 응원하고 싶으세요?