KR20210048441A

KR20210048441A - 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭

Info

Publication number: KR20210048441A
Application number: KR1020207036404A
Authority: KR
Inventors: 토마스 스트라튼; 숀 라일
Original assignee: 워너 브로스. 엔터테인먼트 인크.
Priority date: 2018-05-24
Filing date: 2019-05-23
Publication date: 2021-05-03
Also published as: CN112823380A; EP3815050A1; US11436780B2; EP3815050A4; US20210150793A1; EP3815050B1; US20230121540A1; WO2019226964A1

Abstract

대체 오디오에 디지털 비디오에서의 입 모양 및 움직임을 매칭시키기 위한 방법은 소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하는 단계를 포함한다. 얼굴 포즈의 시퀀스에서의 각 포즈는 각 오디오 샘플의 중간 위치에 대응한다. 방법은 얼굴 포즈의 시퀀스 및 소스 디지털 비디오의 시퀀스에 기초하여 애니메이션화된 얼굴 메시를 생성하는 단계, 소스 비디오에 애니메이션화된 얼굴 메시 또는 타겟 비디오로부터 추적된 표정을 전송하는 단계, 및 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하는 단계를 더 포함한다. 방법은 애니메이션화된 얼굴 메시 또는 타겟 비디오의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하는 단계를 더 포함한다. 하나 이상의 컴퓨터는 방법의 동작을 수행할 수 있다.

Description

디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭

본 출원은 디지털 이미지 프로세싱에 관한 것이며, 더욱 상세하게는 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭시키기 위한 시스템 또는 방법에 관한 것이다.

비디오 컨텐츠 제작자는 종종 동영상에 기록된 이미지와 일치하지 않는 기록된 오디오를 사용하기를 원한다. 예를 들어 창의적 또는 법적 이유로 비디오 캡쳐 후 대화가 변경되거나 다른 청중에게 배포하기 위해 공연 중에 배우가 말한 것과 다른 언어로 대화가 녹음되는 경우를 포함하여 여러 가지 이유로 발생할 수 있다. 그러나 비디오 컨텐츠의 소비자는 종종 입 모양이나 타이밍에서 말한 대화와 일치하지 않는 입 움직임을 발견한다. 이러한 특성 중 하나의 불일치는 소비자의 주의를 분산시키고 불신의 유예를 감소시키며 비디오 컨텐츠의 즐거움을 감소시킬 수 있다.

기록된 비디오의 각 프레임은 비디오 캡쳐 후에 변경될 수 있으므로 배우의 입 움직임이 오디오 트랙에서 수반되는 음성 및 대화와 더 잘 정렬된다. 그러나 기록된 비디오를 변경하는 방법은 대부분의 릴리스에서 실행하기에는 너무 시간이 많이 걸리고 비용이 많이 들어서 배우의 입 움직임 및 관련 얼굴 움직임과 일치하지 않는 대화가 포함된 영화 및 다른 비디오 컨텐츠의 매력, 도달 범위 및 수익성이 감소한다. 영화 또는 다른 상업 비디오 컨텐츠를 배포할 수 있는 비용으로 충분한 품질을 얻을 수 있는 이전 접근 방법은 없다. 상업 비디오에 사용되는 배우 및 이미지 캡쳐 파라미터가 매우 다양하기 때문에 신경망 및 다른 머신 러닝 알고리즘을 훈련하는데 사용할 수 있는 자료는 대화와 입 움직임 사이에 인지할 수 있는 불일치를 제거하기에 충분한 양으로 거의 제공되지 않으며 충분한 훈련 비디오를 얻는 것은 엄청나게 비싸거나 불가능하다.

따라서, 종래 기술의 이러한 한계 및 다른 한계를 극복하는 이미지 및 사운드의 초기 캡쳐 후에 디지털 비디오의 입 모양 및 움직임을 대체 오디오에 매칭시키는 새로운 방법 및 다른 새로운 기술을 개발하는 것이 바람직할 것이다.

이 요약 및 다음의 상세한 설명은 통합된 개시의 보완 부분으로 해석되어야 하며, 이 부분은 중복 주제 및/또는 보충 주제를 포함할 수 있다. 어느 한 섹션의 생략이 통합된 출원에 설명된 요소의 우선순위 또는 상대적인 중요성을 나타내지 않는다. 섹션 사이의 차이는 각각의 개시에서 명백한 바와 같이, 대안적인 실시예의 보충 개시, 추가의 상세, 또는 상이한 용어를 사용하는 동일한 실시예의 대안적인 설명을 포함할 수 있다.

개시의 양태에서, 디지털 비디오에서의 입 모양 및 움직임을 대체 오디오에 매칭시키기 위한 방법은 배우가 나타나는 소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 유도하는 단계를 포함한다. 모양의 시퀀스에서 각 모양은 대체 오디오의 각 샘플의 중간 위치에 대응한다. 방법은 얼굴 포즈의 시퀀스 및 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시(animated face mesh)를 생성하는 단계를 더 포함한다. 선택적으로, 방법은 애니메이션화된 얼굴 메시 및 타겟 비디오 중 적어도 하나에서 소스 비디오로 추적된 표정을 전송하는 단계 및 추적된 표정의 전송을 포함하는 러프(rough) 출력 비디오를 생성하는 단계를 더 포함한다. 방법은 애니매이션 얼굴 메시 또는 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제함으로써 적어도 부분적으로 완성된 비디오를 생성하는 단계를 더 포함한다. 하나 이상의 컴퓨터는 방법의 작동을 수행할 수 있다.

본 명세서에 설명된 방법은 동영상 이미지 또는 다른 비디오를 수정하기 위한 자동화된 프로세스를 제공하여 이미지에 나타나는 사람의 입 모양과 입 움직임의 타이밍이 원본 비디오로 녹음된 음성과 일치하지 않는 오디오 기록을 동반할 때 더 자연스럽게 보이도록 한다. 방법의 적용에는 예를 들어 포스트 프로덕션에서 비디오 컨텐츠의 대화를 변경하거나, 번역된 대화를 제공하거나, 변경된 문화적 규범 또는 기타 문화적 다양성 요인으로 인한 공격을 피하기 위해 배포 후 컨텐츠를 편집하여 창의적 영향을 개선하거나 또는 임의의 다른 이유로 법적 책임을 회피하는 것이 포함될 수 있다.

방법을 수행하기 위한 장치는 적어도 하나의 입력 포트 및 적어도 하나의 출력 포트를 포함하는 메모리 및 하나 이상의 포트에 결합된 적어도 하나의 컴퓨터 프로세서를 포함할 수 있다(예를 들어, 데스크탑 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트폰, PDA 등). 컴퓨터 프로세서는 예를 들어 마이크로 프로세서, 마이크로 컨트롤러, 시스템 온 칩 또는 다른 처리 회로를 포함할 수 있다. 본 명세서에서 사용된 “프로세서”는 컴퓨터 프로세서를 의미한다.

전술한 목적 및 관련 목적을 달성하기 위해, 하나 이상의 예는 이하에서 충분히 설명되고 특히 청구 범위에서 지적되는 특징을 포함한다. 다음의 설명 및 첨부된 도면은 특정한 예시적인 양태를 상세히 설명하고 실시예의 원리가 이용될 수 있는 다양한 방식 중 일부만을 나타낸다. 다른 이점 및 신규한 특징은 도면 및 개시된 실시예와 관련하여 고려될 때 다음의 상세한 설명으로부터 명백해질 것이며, 이러한 모든 양태 및 그 등가물을 포함한다.

본 발명의 특징, 특성 및 이점은 유사한 참조 번호가 명세서 및 도면 전체에 걸쳐 대응하는 유사한 요소를 나타내는 도면과 관련하여 후술될 상세한 설명으로부터 더 명백해질 것이다.
도 1은 디지털 비디오에서의 입 모양 및 움직임을 대체 오디오에 매칭시키는 개요롤 나타내는 개략도이다.
도 2는 애플리케이션의 새로운 방법 및 장치가 사용을 찾을 수 있는 컴퓨터 네트워크의 예를 도시하는 블록도이다.
도 3은 본 방법의 동작을 수행하기 위한 컴퓨터를 도시하는 개략도이다.
도 4는 이미지 및 사운드의 초기 캡쳐 후에 디지털 비디오에서의 입 모양 및 움직임을 대체 오디오에 매칭시키는 방법의 간략한 개요를 나타내는 블록도이다.
도 5-8은 도 4에 도시된 방법의 더 상세한 양태를 도시하는 흐름도이다.
도 9는 대체 문구를 사용하는 도 4의 방법 및 동작을 도시하는 흐름도이다.
도 10은 도 9에 도시된 방법을 위한 장치 또는 시스템의 구성 요소를 도시하는 개념적 블록도이다.

이제 다양한 양태가 도면을 참조하여 기술된다. 다음의 설명에서, 설명의 목적으로 하나 이상의 양태에 대한 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 설명된다. 그러나, 이러한 특정 세부 사항 없이도 다양한 양태가 실행될 수 있음은 자명할 수 있다. 다른 예에서, 공지된 구조 및 장치는 이러한 양태 및 요소의 새로운 조합의 설명을 용이하게 하기 위해 블록도의 형태로 도시된다.

도 1은 하나 이상의 컴퓨터 프로세서에 의해 디지털 비디오에서의 입 모양 및 움직임을 대체 오디오(100)로 매칭시키는 개요를 도시한다. 당 업계에 공지된 바와 같이, 움직임은 사진, 컴퓨터 생성, 손으로 그린, 또는 이들의 임의의 조합일 수 있는 이미지의 시퀀스에 의해 비디오에서 애니메이션화된다. 102에서, 원본 또는 “입력” 장면은 오디오-비디오 기록 시스템에 의해 디지털 오디오-비디오에 기록된다. 기록된 장면은 오디오 트랙에 기록된 원래 대사 또는 즉석 연설(예를 들어, 대화 또는 독백)을 말하는 배우의 이미지를 포함한다. 선택적으로, 소스 오디오-비디오가 아날로그(예를 들어, 필름) 포맷인 경우, 아날로그 기록은 아날로그-디지털 변환기에 의해 104에서 디지털 오디오-비디오로 변환될 수 있다. 사실, 현재 기술의 한 사용 케이스는 디지털 세대 이전에 제작된 오래된 필름에 새로운 번역과 대화를 더빙하는 것을 포함한다. 기술은 새로운 원본 디지털 컨텐츠에도 유용하다. 106에서, 오디오 레코더는 제작자가 원래 오디오를 장면에서 사용된 음성으로 대체하기를 원하는 새롭고 다른 음성을 녹음한다(106). 다음의 3 개의 프로세스(108, 110, 112)는 도 4-9에서 더 상세하게 설명될 것이며 배우의 입의 모양 및 움직임이 대체 음성과 매칭되도록 하기 위한 3 개의 필수 동작에 대응한다. 현재 기술은 입 움직임의 모양 및 타이밍 모두를 말한 단어와 일치시키는 포함하며 움직임의 타이밍만을 일치시키는 것에 제한되지 않는다.

높은 수준에서, 제1 컴퓨터 프로세스(108)는 새로운 음성으로 애니메이션화될 때 러프하게 동기화된 입 모양을 포함하는 얼굴 포즈의 시퀀스를 생성한다. 즉, 원하는 대체 오디오 트랙과 일치하는 배우의 입의 애니메이션화된 뼈대이다. 일부 실시예에서, 입 모양은 드물고 비디오 프레임으로부터 추출된 키포인트로 제한될 수 있고 그 후에 정규화될 수 있으며, 프로세서는 새로운 오디오와 일치하도록 키포인트 지오메트리(keypoint geometry)를 결정한다. 제2 컴퓨터 프로세스(110)는 입 움직임, 얼굴 표정 및 메시 포지에 대한 신경망 프로세스의 트리플렛(triplet) 및 포즈 시퀀스에 기초하여 일치하고 디지털로 랜더링된 오디오-비디오 파일의 대략적인 근사치를 생성한다. 제3 컴퓨터 프로세스(112)는 다른 머신 러닝 프로세스를 사용하여 대체 음성 또는 그 기본 애니메이션 메시를 말하는 모델의 디지털로 랜더링된 비디오에 기초하여 수정된 프레임을 개선한다. 일련의 프로세스(108-110-112)는 임의의 적절한 채널을 통한 배포를 위해 비디오 컨텐츠로 편집 및 컴파일링하도록 프로덕션 데이터베이스에 저장될 수 있는 장면(114)의 오디오-비디오를 출력한다.

도 2는 애플리케이션의 새로운 방법 및 장치가 사용을 찾을 수 있는 컴퓨터 네트워크(200)를 도시한다. 근거리 네트워크, 광역 네트워크(216) 또는 다른 네트워크를 통해 상호 연결된 하나 이상의 디지털 신호 프로세서(212)(예를 들어, 서버 팜 또는 클라우드)는 본 명세서에 설명된 프로세스 및 알고리즘을 실행하여 저장되고 컨텐츠 서버(220)로부터 배포될 수 있는 변경된 디지털 오디오-비디오를 생성할 수 있다. 일부 실시예에서, 아날로그(예를 들어, 필름) 컨텐츠(224)는 임의의 적절한 변환 프로세스, 예를 들어 디지털 스캐닝을 사용하여 디지털 형태로 변환된다. 처리 또는 소비자로의 전달을 위한 컨텐츠는 WAN(216) 및 하나 이상의 무선 네트워크(218), 예를 들어 휴대 전화 및 데이터 네트워크, 및 하나 이상의 라우터/모뎀/핫스팟(208)을 통해 컨텐츠 서버(220)로부터 다양한 클라이언트로 풀링되거나 푸시될 수 있다. 변경된 오디오-비디오 컨텐츠를 재생하기 위한 클라이언트는 예를 들어 스마트 폰(206), 개인용 컴퓨터(204), 노트패드 장치(202), 프로젝터(210) 및 웨어러블 가상 현실 또는 증강 현실 장치(미도시)를 포함할 수 있다. 변경된 오디오-비디오는 전달 전에 목적지 장치에 적합한 형식으로 트랜스코딩될 수 있다.

도 3을 참조하면, 디지털 신호 프로세서(300)는 프로세서(300)에 의한 실행 및 처리를 위한 프로그램 명령 및 데이터를 보유하는 CPU(302) 및 랜덤 액세스 메모리(RAM)(314)를 포함할 수 있다. 장치(300)의 전원이 꺼지거나 비활성 상태에서 프로그램 명령 및 데이터는 장기 메모리, 예를 들어 비 휘발성 자기, 광학 또는 전자 메모리 저장 장치(316)에 저장될 수 있다. RAM(314) 또는 저장 장치(316) 중 하나 또는 둘 모두는 프로세서(302)에 의해 실행될 때 장치(300)로 하여금 본 명세서에 설명된 바와 같은 방법 또는 동작을 수행하게 하는 프로그램 명령을 보유하는 비 일시적 컴퓨터 판독 가능 매체를 포함한다. 프로그램 명령은 C, C++, C# 또는 Java^TM과 같은 임의의 적절한 고급 언어로 작성될 수 있으며 프로세서에서 실행할 기계 언어 코드를 생성하도록 컴파일된다. 프로그램 명령은 코딩 효율성과 이해도를 높이기 위해 기능 모듈로 그룹화될 수 있다. 이러한 모듈은 소스 코드에서 분할 또는 그룹화로 식별 가능하더라도 기계 리벨 코딩에서 별도의 코드 블록으로 반드시 식별할 수 있는 것은 아니라는 것을 이해해야 한다. 특정 기능에 대한 코드 번들은 번들의 기계 코드가 다른 기계 코드와 독립적으로 실행될 수 있는지 여부에 관계없이 모듈을 포함하는 것으로 간주될 수 있다. 장치(300)의 다른 구성 요소는 예를 들어 디스플레이 출력(330), 오디오 트랜스듀서(320), 네트워크에 연결하기 위한 입력/출력 포트(308), 본 명세어세 설명된 프로세스의 개시를 지시하는 사용자 입력을 수신하기 위한 사용자 인터페이스 장치(304)를 포함할 수 있다.

도 4는 디지털 비디오의 입 모양 및 움직임을 비디오 및 오디오 캡쳐 후에 대체 오디오에 매칭시키기 위한 유용한 3-프로세스 자동 방법(400)을 도시한다. 410에서, 프로세서는 소스 비디오에서 화자의 입(415)에 대해 애니메이션화된 뼈대와 같은 데이터 구조를 생성하며, 이는 형상 시퀀스 또는 희소 기하학 시퀀스(sparse geometry sequence)라고 불릴 수 있다. 시퀀스(415)는 엄밀히 말하면 애니메이션화된 프로세스에 사용하기 위한 뼈대가 아니라 뼈대에 매핑할 수 있는 동등한 데이터 구조이다. 형상 시퀀스는 러프 비디오(425)를 생성하기 위한 다음 프로세스(420)에서 사용하도록 최적화될 수 있다. 420에서, 프로세서는 대체 오디오로부터 추론된 표현 애니메이션 및 입 형태와 움직임을 추적하고 소스 비디오에 형태와 움직임을 전송하는 다단계 자동 프로세스를 실행한다. 일부 실시예에서, 프로세스(420)는 대체 오디오로부터 추론된 감정 표현을 갖는 애니메이션화된 얼굴 메시를 생성하고 기준 비디오로 애니메이션화된 메쉬를 랜더링한다. 기준 비디오는 타겟 비디오라고도 할 수 있다. 다른 실시예에서, 타겟 비디오는 새로운 대사를 말하는 배우를 비디오 기록함으로써 대체 오디오가 생성될 때 생성될 수 있다. 그 다음, 430에서 프로세서는 기준 비디오에서 입 동작의 이미지에 의해 훈련된 기계 학습 자동 인코더를 사용하여 러프 비디오(425)에서 입의 모양을 정제한다. 자동 인코더 프로세스(430)는 대체 오디오에 대한 기준 비디오와 더 가깝게 일치하도록 입의 형상 및 모양을 개선한다. 결과적인 최종 오디오-비디오 클립(435)은 대부분의 모든 청준 구성원에 대해 인지 가능한 수준 아래로 불일치(오류)를 감소시켜, 본 명세서에 논의된 목적을 달성한다. 프로세서(410, 420 및 430)의 추가 세부 사항은 아래의 도 5-8과 관련하여 설명된다.

도 5는 다운 스트림 비디오 처리에 사용하기 위해 원하는 대체 오디오로부터 입 모양을 포함하는 얼굴 포즈의 시퀀스를 생성하기 위한 프로세스(500)(410)를 도시한다. 프로세스(500)는 Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion, ACM Transactions on Graphics, Vol. 36, No. 4, Article 94 (July 2017)에서 Karras 등에 의해 보다 완전히 설명된 이미지 처리 기술로부터 특정 요소를 차용한다. 텍스트 또는 기록된 오디오로부터 임 모양을 생성하기 위한 대체 방법은 Synthesizing Obama: Learning Lip Sync from Audio, ACM Transactions on Graphics, Vol. 36, No. 4, Article 95 (July 2017)에서 Suwajanakorn 등, 그리고 ObamaNet: Photo-realistic lip-sync from text, 31^st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, Califormia에서 Kumar 등에 의해 개시된다. Karras 등에 의해 설명된 기술이 프로세스(500)에 가장 유용할 수 있지만 다른 기술이 대체될 수 있다. Suwajanakorn 등, 그리고 Kumar 등의 방법은 대체 오디오와 일치하도록 얼굴 표정의 수정을 처리하지 않으므로 Karras 등에 의해 설명된 기술보다 범위가 덜 포괄적이지만 애플리케이션에 따라 여전히 유용할 수 있다.

프로세스(500)는 대체 오디오(502)를 샘플링함으로써 동작하고, 이를 각각 1초 미만, 예를 들어 0.5초 미만의 연속적인 오디오의 연속 시퀀스로 분할한다. 506에서, 프로세서는 대체 오디오가 선택된 오디오 형식(예를 들어, 16 kHz 모노)의 전체 동적 범위를 활용하도록 각 오디오 윈도우의 볼륨을 정규화한다. 508에서, 오디오 입력을 선형 필터(성도) 및 여기 신호(성대)로 모델링하며, 프로세서는 공명 주파수(형식)를 선형 예측 코딩(LPC)에 의해 감정 상태로 매핑 가능한 음소 정보(phoneme information) 및 비선형 특징(510)을 전달하는 선형 공명(514)으로 분리한다. 다른 유용한 분리 프로세스는 예를 들어 멜 프리컨시 캡스트럴 계수(Mel-frequency cepstral coefficient, MFCC) 및 지각 선형 예측(perceptual linear prediction, PLP)을 포함할 수 있다.

프로세서는 심층 신경망(504)을 적용하여 시간에 따라 변하는 음성 특징 시퀀스(518)(예를 들어, 음소 형태)를 유도한다. 프로세서는 배우의 감정 상태를 표현하기 위해 유용한 모델에 의한 비선형 특징을 파라미터화한다(512). 오디오 데이터에서 감정 및 얼굴 포즈를 추론하기 위해 Karras 등은 배우의 감정 상태를 나타내는 n차원 감정 벡터(516)를 생성하는 데이터 기반의 기계 학습 프로세스를 가르치며, 여기서 'n'은 말 중에 얼굴 표정에 영향을 주는 감정 상태를 표현할 만큼 충분히 크지만 입력에 너무 특화된 훈련 프로세스를 랜더링할 만큼 크지는 않다. 감정 상태의 수동 코딩은 다른 옵션을 제공하거나 다른 데이터, 예를 들어 기준 비디오의 기록 중에 수집된 비 사진 생체 인식 데이터로부터 감정 벡터를 생성할 수 있다. 사용되는 경우, 기준 비디오에서 대사를 말하는 배우와 시간 강관된 감정 데이터(516)를 유도하기 위해 임의의 유용한 방법이 사용될 수 있다. 감정 상태 벡터(516) 및 관절 매핑(520)에 대한 입력의 추가는 원래 성능과 다른 감정을 전달하는 대체 오디오의 설득력 있는 사용을 가능하게 한다.

프로세서는 음성 특징(518) 및 감정 벡터(516)를 얼굴 관절(520)을 위한 심층 신경망 프로세스에 입력하고, 이는 각 샘플의 오디오 윈도우의 중앙(중간점)에서 얼굴 포즈의 추상적인 숫자 표현을 출력한다. 추상 표현은 3차원(3D) 랜더링에 유용한 정점(526)의 기하학적 메시를 생성하는 제3 신경망 프로세스(524)에서 사용하는데 최적화된다. 보다 효율적인 대안에서, 프로세서는 포즈 시퀀스(526)가 아직 최종 출력으로서 유용하지 않기 때문에 다운 스트림 신경망 처리에 사용하기 위해 최적화된 다른 모양 정보(예를 들어, 2차원 투영 또는 입 포즈의 다른 매핑을 나타내는 2D 정점 세트)를 생성할 수 있다. 프로세서는 렌더링 가능한 애니메이션화된 모델을 구축하기 위한 시퀀스 정보와 함께 컴퓨터 메모리의 샘플 윈도우에 대해 선택된 형식으로 포즈 메시(524)를 저장한다. 530에서, 프로세서는 연속 루프에 대한 조건을 확인한다. 원하는 포즈 시퀀스가 완료되지 않은 경우 프로세서는 다음 오디오 샘플(532)을 선택하고 방금 설명한 루프를 반복한다.

시퀀스가 완료되면, 프로세서는 다운 스트림 처리에서 사용하기 위해 연속적인 순서로 형상 시퀀스(415)를 생성하고 출력한다(532).

도 6을 참조하면, 프로세서는 대체 라인을 말하는 배우의 기준 비디오에서 표현 애니메이션 및 입 형태와 움직임을 추적하고 기준 비디오로부터 소스 비디오로 형태 및 움직임을 전성하기 위해 프로세스(600)(420)에서 형상 시퀀스(415)를 사용한다. 프로세스(600)는 Face2Face: Real-time Face Capture and Reenactment of RGB Videos, Stanford University 2016(https://web.stanford.deu/~zollhoef/papers/CVPR2016_Face2Face/paper.pdf에서 다운로드)에서 Nieβner 등에 의해 설명된 특정 기술적 특징을 사용할 수 있다. Nieβner 등은 제작자가 대체 비디오를 구성하는 대사를 전달하는 배우의 비디오를 기록하거나 획득하고 수정될 원본 비디오(606)에 상관되는 타겟 비디오(604)를 생성하기 위해 비디오를 편집하는 프로세스를 설명한다. 프로세서는 파라미터화된 얼굴 모델(612)을 생성하는 파라미터화된 동작(610)에 형상 시퀀스(415)를 갖는 이들 2 개의 입력 비디오(604, 606)를 제공한다. Nieβner 등은 53,000 개의 꼭지점과 102,000의 면이 있는 주성분 분석(principle component analysis, PCA)에 의해 생성된 3D 모델을 설명한다. 꼭지점과 면의 정확한 수는 중요하지 않다. Nieβner 등에 의해 설명된 PCA 프로세스는 처리될 비디오의 크기 및 해상도에 따라 조정될 수 있다. 예를 들어 고해상도 비디오에는 예를 들어 더 높은 해상도 모델이 필요할 수 있다. 프로세스(600)에서, 형상 시퀀스(415)는 Nieβner 등에 의해 설명된 얼굴 추적을 대체하거나 증가시킨다.

Nieβner 등과 대조적으로, 본 기술은 배우가 대체 대사를 말하는 비디오를 필요로 하지 않는다. 대신, 기준 비디오(604)는 프로세스(500)를 사용하여 생성된 얼굴 포즈의 애니메이션화된 시퀀스(형상 시퀀스(415))로부터 렌더링(602)될 수 있다. 대안으로, Nieβner 등의 프로세스는 기준 비디오(604)를 생성하기 위한 중간 랜더링 단계(602) 없이 파라미터화(610)를 위한 형상 시퀀스(415) 및 관련 메타 데이터를 사용하도록 수정될 수 있다. 예를 들어, 파라미터화된 얼굴 모델은 타겟 비디오데이터로부터 캡쳐된 RGB 이미지 대신에 형상 시퀀스(415)로부터 유도될 수 있다. 어느 쪽이든, 배우를 고용하고 기록하는 대신 얼굴 포즈의 시퀀스를 생성하면 장편 영화 컨텐츠를 포함하여 아날로그 및 디지털 모두의 레거시 비디오 컨텐츠를 보다 비용 효율적으로 처리할 수 있다.

얼굴 모델이 파라미터화 되면, 프로세서는 타겟 비디오(604)와 원본 비디오(606) 사이의 임의의 차이를 정규화하기 위한 여러 동작을 수행한다. 614에서, 프로세서는 원본 비디오와 일치하도록 얼굴 모델의 이미지 파라미터를 조정한다. 616에서, 프로세서는 랜더링된 얼굴 모델의 프레임을 정렬하여 렌더링된 얼굴이 원본 비디오에서 말하는 배우의 얼굴과 가능한 가장 가깝게 정렬되도록 한다. 618에서, 프로세서는 인구 평균에 가까운 얼굴을 합성하기 위한 파라미터를 설정하여 정규 분포된 인구의 가정을 기반으로 출력 러프 비디오에 나타나는 합성된 얼굴의 타당성을 촉진시키기 위해 얼굴 모델을 통계적으로 정규화한다. 620에서, 프로세서는 IRLS(Iteratively Reweighted Least Square) 솔버 또는 다른 적절한 최적화 방법을 기반으로 하는 데이터 병렬 GPU를 사용하여 얼굴 모델의 제약 없는 비선형 최적화를 수행한다. 622에서, 프로세서는 인접한 키 프레임 세트에 대해 최적화 알고리즘을 해결하기 위해 키 프레임을 번들로 묶는다. 624에서, 프로세서는 타겟 비디오에서 얼굴 모델로 표정을 전송한다. 프로세서는 Nieβner 등이 가르친 부분 공간 변형 전달 기술(subspace deformation transfer technique)을 사용할 수 있다. 626에서, 프로세서는 입에 가장 적합한 프레임을 찾아 타겟 비디오에 나타나는 입을 기반으로 사실적인 입 영역을 합성한다. Nieβner 등은 자세한 설명을 제공한다. 628에서, 프로세서는 각 프레임에 대한 얼굴 모델을 랜더링하고 랜더링된 얼굴 모델을 홈 프레임에 스티칭한다(stich). 랜더링되고 스티칭된 프레임은 러프 출력 비디오(425)로 저장된다.

러프 비디오(425)가 생성된 후, 자동 정제 프로세스(700)는 원본 비디오로서 유사한 포즈 및 이미지 파라미터로 대체 대사를 말하는 배우의 타겟 비디오(604) 및 러프 비디오(425)를 입력으로 취하여 디지털 신호 프로세서에 의해 실행될 준비가 된다. 프로세서는 입, 입술 및 ?, 턱 및 윗입술의 인접한 부분을 제외한 각 프레임의 부분을 제외시키기 위해 자동 특징을 사용하여 두 비디오(425, 604)를 자동으로 자를 수 있다. 프로세서는 랜덤 또는 시스템 오류(712)를 타겟 비디오(604)로부터 생성된 이미지의 훈련 세트(716)에 도입하고 훈련 세트(716)를 사용하여 기계 학습(예를 들어, 신경망) 자동 인코더를 훈련시킨다(714). 훈련이 완료되면(718), 프로세서는 훈련 프로세스(714)로부터 훈련된 자동 인코더(830)(도 8)에 의해 입력 세트를 자른다(706). 이 프로세스는 자동 인코더가 입력 세트와 훈련 세트(716)의 차이가 오류인 것처럼 입력 세트(710)를 변경하게 한다. 결과적으로 수정된 입력 세트는 이에 따라 타겟 비디오(704)에 대한 논리적 확장에 의해 훈련 세트(716)에 부합된다. 프로세서는 처리된 처리된 입력 세트를 원래 추출된 입력 세트에 대해 대체로 러프 비디오(702)에 정렬 및 삽입(722)함으로써 완성된 오디오-비디오 클립(724)을 생성한다. 다양한 정렬 방법이 당 업계에 알려져 있으며, 처리된 입력 세트가 삽입된 이미지로부터 유도되기 때문에 오류가 작거나 0일 것이다. 최종 비디오(724)는 변경된 음성에 밀접하게 부합하면서 모든 처리는 특별한 비용 없이 자동으로 실행 가능 하다.

도 8은 방법(700)에서 사용하기 위해 훈련된 자동 인코더(830)를 생성하도록 구성된 자동 인코딩 훈련 프로세스(800)(714)를 도시한다. 자동 인코딩은 1)데이터 특정, 2) 손실, 3) 사전 정의가 아닌 예로부터 자동으로 학습되는 동일한 컨텐츠에 대해 압축 및 압축 해제 기능을 수행하는 알고리즘을 포함한다. 본 명세서에서 사용되는 “자동 인코더”는 기계 학습 알고리즘(예를 들어 신경망)이 압축 및 압축 해제 기능을 수행하는 모듈만을 포함한다. 오픈 소스 프로그램 “Deepfakes”(https://github.com/deepfakes)는 2018년 5월 현재 프로세스(800)에서 사용하도록 구성될 수 있는 자동 인코더의 예이다.

데이터 특이성은 자동 인코더가 기계 학습 알고리즘이 훈련된 것과 유사한 데이터만 처리할 수 있음을 의미한다. 대조적으로, 많은 신호 처리 알고리즘(예를 들어, MP3, MPEG-4, H.264, H.265 등)은 데이터가 형식에 대해 정의된 사양을 준수하도록 요구하는 것을 제외하고 데이터에 구애받지 않는 사전 정의된 규칙 세트를 사용한다. 예를 들어, 얼굴 이미지에 대해 훈련된 자동 인코더는 얼굴 특정 기능을 처리하도록 프로세스에 훈련을 통해 파라미터화되기 애문에 자동차의 이미지를 왜곡할 수 있다. 손실은 이미지 저하(변경의 형태)가 자동 인코딩 프로세스 중에 발생함을 의미한다. 손실 속성을 사용하면 자동 인코더가 다른 입력을 보상하기 위해 변경을 도입할 수 있다. 자동 인코더는 인간이 인지할 수 있는 수준 아래로 저하를 줄이도록 훈련될 수 있다.

자동 인코더는 압축 후 입력 데이터와 자동 인코더의 압축 해제된 출력 사이의 정보 손실을 정의하는 거리 함수(미도시)를 특징으로 하는 인코딩 기능(812) 및 디코딩 기능(816)을 포함한다. 거리 함수는 “손실” 또는 “오류” 함수라고도 할 수 있다. 손실 함수는 예를 들어 입력 이미지의 입력 및 출력 픽셀 사이의 평균 제곱 오차를 포함할 수 있다. 인코더(812) 및 디코더(816)는 예를 들어 그들의 거리 함수에 대해 미분할 수 있는 신경망과 같은 파라메트릭 함수이다. 따라서, 자동 인코더는 임의의 적절한 오류 최소화 방법, 예를 들어 확률적 경사 하강법(Stochastic Gradient Descent)을 사용하여 처리 손실을 최소화하도록 파라미터화될 수 있으며 파라미터화되어야 한다.

자동 인코딩 프로세스(800)는 다음과 같이 동작할 수 있다. 사용하기 전에, 자동 인코더는 타겟 비디오(604)의 각 프레임 또는 선택된 프레임에 대한 이미지의 세트를 포함할 수 있는 훈련 세트(802)에 기초한 기계 학습에 의해 파라미터화된다(파라미터가 구성된다는 의미). 위의 도 7과 관련하여 설명된 바와 같이, 입력 이미지는 화자의 입의 이미지만 포함하도록 잘릴 수 있다. 자동 프로세스는 각각의 타겟 이미지(804)로부터 하나 이상의 변경된 이미지(806, 808)를 생성할 수 있으며, 러프 비디오(425) 및 타겟 비디오(804)에 나타나는 입 모양과 움직임 사이의 유사한 차이를 형태 및 스케일로 근사화할 수 있는 랜덤 및/또는 체계적인 왜곡을 도입할 수 있다. 자동 인코딩 프로세스(800)는 각각의 변경된 입력 이미지를 처리하고 그 파라미터를 조정하여 타겟 이미지와 각각의 변경된 입력 이미지 사이의 오류를 최소화한다. 파라메트릭 인코더(812)는 변경된 이미지(예를 들어, 입력 1 내지 N 806, 808, 810 차례로)를 압축하여 각각의 입력 이미지에 대해 압축된 이미지(814)를 생성한다. 파라메트릭 디코더(816)는 압축된 이미지(814)를 압축 해제하여 출력 이미지(818)를 생성한다.

오류 측정 및 최소화 프로세스(820)는 타겟 이미지(804)와 출력 이미지(818) 사이의 거리(오류 또는 손실)를 측정한다. 오류가 임계값 아래로 떨어지지 않는 한, 형태 파라미터 조정의 오류 피드백이 인코딩(812) 및 디코딩(816) 프로세스에 제공된다. 오류가 최소화된 후, 프로세스(800)는 훈련 세트(824)에서 다음 이미지를 선택하고 방금 설명된 프로세스를 반복할 수 있다. 훈련 세트의 모든 이미지가 처리될 때까지 유사한 반복이 발생한다(826). 그런 다음, 자동 인코더의 파라미터가 적절한 파일 형식으로 저장되고(830), 자동 인코더(830)는 위의 도 7과 관련하여 설명된 프로세스(700)에서 사용할 준비가 된다.

전술한 바에 따르면, 그리고 추가적인 예로서, 도 9는 디지털 오디오 및 비디오를 포함하는 기계 학습 및 디지털 신호 처리를 위해 구성된 컴퓨터에 의해 수행될 수 있는 일 실시예에 따른 방법(900)의 더 일반적인 양태를 도시한다. 방법(900)의 보다 일반적인 동작은 위에서 설명된 대응 방법의 보다 상세한 양태를 포함하거나 구현할 수 있다는 것을 이해해야 한다.

도 9를 참조하면, 디지털 비디오에서의 입 모양 및 움직임을 비디오 오디오 캡쳐 후에 대체 오디오에 매칭시키기 위한 컴퓨터 구현 방법(900)은 910에서 적어도 하나의 컴퓨터 프로세서에 의해 배우가 나타나는 소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하는 단계를 포함할 수 있으며, 얼굴 포즈의 시퀀스에서 각 포즈는 각 샘플의 중간 위치에 대응한다. 본 명세서에서 사용되는 “중간 위치”는 중간점 및 중간점을 향해 편향된 인접 지점을 포함한다. 중간점이 최적이라고 생각되지만, 근처 위치도 유용한 결과를 제공할 수 있다. 방법은 920에서, 적어도 하나의 프로세서에 의해, 얼굴 포즈의 시퀀스 및 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시를 생성하는 단계를 더 포함할 수 있다. 일부 실시예에서, 방법은 소스 비디오에 대한 러프 정렬 및 사진 대응(photo-correspondence)으로 메시의 얼굴 표정을 묘사하는 애니메이션화된 얼굴 메시로부터 타겟 비디오를 생성하는 단계를 포함할 수 있다. 방법은 930에서, 적어도 하나의 프로세서에 의해, 애니메이션화된 얼굴 메시 및 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하는 단계 및 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하는 단계를 더 포함할 수 있다. 동작(920 및 930)의 더 상세한 설명은 위의 도 6과 관련하여 도시되고 설명된다. 방법은 적어도 하나의 프로세서에 의해 타겟 비디오의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하는 단계를 더 포함할 수 있다.

적어도 하나의 프로세서는 예를 들어 저장 및 배포를 위해 비 일시적 컴퓨터 판독 가능 매체에서 완성된 비디오 및 오디오를 인코딩하는 추가 동작을 수행할 수 있으며, 위의 도 4-8 또는 바로 아래와 관련하여 설명된다. 이들 추가 동작 각각은 방법의 모든 실시예에서 반드시 수행되는 것은 아니며, 동작 중 어느 하나가 존재한다고 해서 이들 추가 작업 중 다른 어떤 것도 반드시 수행될 필요는 없다. 모든 동작은 컴퓨터 메모리에 인코딩된 하나 이상의 알고리즘 또는 절차의 제어 하에 컴퓨터 프로세서에 의해 자동으로 수행된다.

일 양태에서, 얼굴 포즈의 시뭔스를 생성하는 것은 음성 대화의 기록으로부터 취해진 오디오 샘플의 시퀀스를 샘플링하는 것을 더 포함할 수 있다. 일부 실시예에서, 얼굴 포즈의 시퀀스를 생성하는 것은 텍스트 음성 합성기를 사용하여 텍스트를 음성으로 변환하는 것을 포함한다.

또한, 얼굴 포즈의 시퀀스를 생성하는 것은 배우의 이미지로부터 얼굴 포즈에 대한 키 포인트를 추출하고, 키 포인트를 정규화시키고, 정규화된 키 포인트에 PCA(principle component analysis)를 적용하여 얼굴 포즈를 도출하는 것을 더 포함할 수 있다. 얼굴 포즈의 시퀀스를 생성하는 것은 각 샘플에 대한 MFCC(mel-frequency cepstral coefficient)를 도출하고 반복 신경망을 사용하여 각 MFCC 계수를 입 모양 중 하나에 매핑하는 것을 더 포함할 수 있다.

위의 도 5와 관련하여 설명된 다른 실시예에서, 입 모양의 시퀀스를 생성하는 것은 선형 특징을 비선형 특징으로부터 분리하고, 선형 특징을 형태 분석을 위한 심층 신경망으로 처리함으로써 음석 특징의 시변(time-varying) 시퀀스를 생성하고, 안면 관절을 위한 심층 신경망으로 비선형 특징을 처리함으로써 중간 위치에서 얼굴 포즈를 생성하는 것을 더 포함할 수 있다. 관련 양태에서, 입 모양을 포함하는 얼굴 포즈의 시퀀스를 생성하는 것은 출력을 위해 심층 신경망에 의해 정점 정의된 얼굴 포즈(vertex-defined facial pose)를 생성하고 얼굴 포즈의 시퀀스에서 포즈를 저장하는 것을 더 포함할 수 있다.

다른 실시예에서, 추적된 표정을 타겟 비디오로부터 소스 비디오로 전송시키는 것은 도 6에 도시된 설명된 바와 같이 입 영역을 추가로 합성하고 러프 출력 비디오의 각 프레임을 랜더링할 수 있다.

다른 양태에서, 타겟 비디오의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하는 것은 도 7과 관련하여 도시되고 설명된 바와 같이 타겟 세트에서 프레임의 랜덤 변경에 의해 자동 인코더에 대한 훈련 세트를 생성하는 것을 더 포함할 수 있다. 타겟 비디오의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하는 것은 배우의 입 주위의 타겟 비디오 및 러프 출력 비디오의 대응하는 영역을 자르는 것을 더 포함할 수 있다. 관련 양태에서, 타겟 비디오의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하는 것은 타겟 비디오로부터 처리된 이미지를 정렬하고 러프 출력 비디오로 삽입하는 것을 더 포함할 수 있다.

도 10은 일 실시예에 따른 본 명세서에 설명된 오디오-비디오 캡쳐 후 변경된 음성 및 입 움직임을 동기화하기 위한 장치 또는 시스템(1000)의 구성 요소를 도시하는 블록도이다. 도시된 바와 같이, 장치 또는 시스템(1000)은 프로세서, 소프트웨어 또는 이들의 조합(예를 들어, 펌웨어)에 의해 구현되는 기능을 나타낼 수 있는 기능 블록을 포함할 수 있다.

도 10에 도시된 바와 같이, 장치 또는 시스템(1000)은 배우가 나타나는 소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하기 위한 전기 컴포넌트(1002)를 포함할 수 있으며, 얼굴 포즈의 시퀀스에서 각 포즈는 각 샘플의 중간 위치에 대응한다. 컴포넌트(1002)는 상기 도출을 위한 수단일 수 있거나 이를 포함할 수 있다. 상기 수단은 메모리(1016)에 그리고 입력 장치(1014)에 연결된 프로세서(1010)를 포함할 수 있으며, 프로세서는 메모리에 저장된 프로그램 명령에 기초하여 알고리즘을 실행한다. 이러한 알고리즘은 예를 들어 위의 도 5와 관련하여 설명된 바와 같이 보다 상세한 동작의 시퀀스를 포함할 수 있다.

장치 또는 시스템(1000)은 소스 디지털 비디오 및 얼굴 포즈의 시퀀스에 기초하여 애니메이션화된 얼굴 메시를 생성하기 위한 전기 컴포넌트(1003)를 더 포함할 수 있다. 컴포넌트(1003)는 상기 생성을 위한 수단일 수 있거나 이를 포함할 수 있다. 상기 수단은 메모리(1016)에 그리고 입력 장치(1014)에 연결된 프로세서(1010)를 포함할 수 있으며, 프로세서는 메모리에 저장된 프로그램 명령에 기초하여 알고리즘을 실행한다. 이러한 알고리즘은 예를 들어 도 6의 블록(602)과 관련하여 설명된 바와 같이 더 상세한 동작의 시퀀스를 포함할 수 있다. 프로세서는 도 6의 612에서 설명된 바와 같이 얼굴 모델의 파라미터화 전 또는 후에 타겟 비디오를 랜더링할 수 있다.

장치 또는 시스템(1000)은 기하학적 얼굴 모델에 일부 기초하여 애니메이션화된 얼굴 메시 및 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하고 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하기 위한 전기 컴포넌트(1004)를 더 포함할 수 있다. 컴포넌트(1004)는 상기 전송 및 생성을 위한 수단일 수 있거나 이를 포함할 수 있다. 상기 수단은 메모리(1016)에 그리고 입력 장치(1014)에 연결된 프로세서(1010)를 포함할 수 있으며, 프로세서는 메모리에 저장된 프로그램 명령에 기초하여 알고리즘을 실행한다. 이러한 알고리즘은 예를 들어 도 6의 블록(624-628)과 관련하여 도시되고 설명된 바와 같이 더 상세한 동작의 시퀀스를 포함할 수 있다.

장치 또는 시스템(1000)은 애니메이션화된 얼굴 메시 또는 타겟 비디오에서 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하기 위한 전기 컴포넌트(1006)를 더 포함할 수 있다. 컴포넌트(1006)는 상기 생성을 위한 수단일 수 있거나 이를 포함할 수 있다. 상기 수단은 메모리(1016)에 그리고 입력 장치(1014)에 연결된 프로세서(1010)를 포함할 수 있으며, 프로세서는 메모리에 저장된 프로그램 명령에 기초하여 알고리즘을 실행한다. 이러한 알고리즘은 예를 들어 도 7 및 8과 관련하여 도시되고 설명된 바와 같이 더 상세한 동작의 시퀀스를 포함할 수 있으며, 도 7은 변경된 비디오의 입 부분의 정제를 위한 자동 인코더의 적용을 도시하며, 도 8은 유용한 자동 인코더의 양태 및 동작을 도시한다.

장치(1000)는 선택적으로 장치(1000)의 경우에 디지털 신호 프로세서로 구성된 적어도 하나의 프로세서를 갖는 프로세서 모듈(1010)을 포함할 수 있다. 프로세서(1010)는 이러한 경우에 버스(1012) 또는 다른 통신 커플링, 예를 들어 네트워크를 통해 모듈(1002-1006)과 동작적으로 통신할 수 있다. 프로세서(1010)는 전기 컴포넌트(1002-1006)에 의해 수행되는 기능의 개시 및 스케줄링을 수행할 수 있다.

관련 양태에서, 장치(1000)는 컴퓨터 네트워크를 통해 저장 장치와 통신하도록 동작 가능한 네트워크 인터페이스 모듈(1014)을 포함할 수 있다. 추가 관련 양태에서, 장치(1000)는 선택적으로 예를 들어 메모리 장치/모듈(1016)와 같은 정보를 저장하기 위한 모듈을 포함할 수 있다. 컴퓨터 판독 가능 매체 또는 메모리 모듈(1016)은 버스(1012) 등을 통해 장치(1000)의 다른 컴포넌트에 동작 가능하게 연결될 수 있다. 메모리 모듈(1016)은 프로세서 및 모듈(1002-1006) 및 그 서브 컴포넌트의 거동 또는 프로세서(1010) 또는 방법(400-800) 또는 방법(900)과 관련하여 설명된 추가 동작 중 하나 이상을 수행하기 위한 컴퓨터 판독 가능 명령 및 데이터를 저장하도록 구성될 수 있다. 메모리 모듈(1016)은 모듈(1002-1006)과 관련된 기능을 실행하기 위한 명령을 보유할 수 있다. 메모리(1016) 외부에 있는 것으로 도시되어 있지만, 모듈(1002-1006)은 메모리(1016) 내에 존재할 수 있음을 이해해야 한다.

당업자는 본 명세서에 개시된 양태와 관련하여 설명된 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계가 전자 하드웨어, 컴퓨터 소프트웨어 또는 이 둘의 조합으로 구현될 수 있음을 추가로 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트, 블록, 모듈, 회로 및 단계가 일반적으로 그 기능성의 관점에서 설명되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로 구현되는지 여부는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약에 따른다. 당업자는 설명된 기능성을 각각의 특정 애플리케이션에 대해 다양한 방식으로 구현할 수 있지만, 이러한 구현 결정은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안된다.

본 출원에서 사용되는 용어 “컴포넌트”, “모듈”, “시스템” 등은 컴퓨터 관련 엔티티, 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행중인 소프트웨어를 지칭하는 것으로 의도된다. 예를 들어, 컴포넌트는 프로세서 상에서 실행되는 프로세스, 프로세서, 객체, 실행 파일, 실행 스레드, 프로그램 및/또는 컴퓨터 또는 협력 컴퓨터의 시스템일 수 있지만 이에 제한되지는 않는다. 예를 들어, 서버에서 실행되는 애플리케이션과 서버 모두는 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세스 및/또는 실행 스레드 내에 상주할 수 있으며 컴포넌트는 하나의 컴퓨터에 국한되고 그리고/또는 2 개 이상의 컴퓨터 사이에 분산될 수 있다.

다수의 컴포넌트, 모듈 등을 포함할 수 있는 시스템의 관점에서 다양한 양태가 제시될 것이다. 다양한 시스템은 추가 컴포넌트, 모듈 등을 포함할 수 있고 그리고/또는 도면과 관련하여 논의된 모든 컴포넌트, 모듈 등을 포함하지 않을 수 있음을 이해하고 인식해야 한다. 이들 접근법의 조합이 또한 사용될 수 있다. 본 명세서에 개시된 다양한 양태는 터치 스크린 디스플레이 기술 및/또는 마우스 및 키보드 타입 인터페이스를 이용하는 장치를 포함하는 전자 장치에서 수행될 수 있다. 이러한 장치의 예는 컴퓨터(데스크탑 및 모바일), 스마트 폰, 개인 휴대 정보 단말기(PDA) 및 유선 및 무선의 다른 전자 장치를 포함한다.

또한, 본 명세서에 개시된 양태와 관련하여 설명된 다양한 예시적인 논리 블록, 모듈 및 회로는 범용 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array) 또는 다른 PLD(programmable logic device), 이산 게이트(discrete gate) 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트 또는 본 명세서에 기술된 기능을 수행하기 위해 설계된 이들의 임의의 조합으로 구현되거나 수행될 수 있다. 범용 프로세서는 마이크로 프로세서일 수 있지만, 대안적으로는 프로세서는 임의의 종래의 프로세서, 컨트롤러, 마이크로 컨트롤러 또는 상태 기계일 수 있다. 프로세서는 또한 컴퓨팅 장치의 조합, 예를 들어 DSP와 마이크로 프로세서, 복수의 마이크로 프로세서, DSP코어와 관련된 하나 이상의 마이크로 프로세서 또는 임의의 다른 이러한 구성의 조합으로서 구현될 수 있다.

본 명세서에 개시된 동작 양태는 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈 또는 둘의 조합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동식 디스크, CD-ROM 또는 당 업계에 공지된 임의의 다른 형태의 스토리지 매체에 상주할 수 있다. 예시적인 저장 매체는 프로세서에 연결되어 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있다. 대안적으로, 저장 매체는 프로세서와 일체형일 수 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수 있다. ASIC는 사용자 단말에 상주할 수 있다. 대안적으로, 프로세서 및 저장 매체는 클라이언트 장치 또는 서버에서 개별 컴포넌트로서 상주할 수 있다.

또한, 하나 이상의 버전은 개시된 양태를 구현하도록 컴퓨터를 제어하기 위해 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의의 조합을 생성하는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용하는 방법, 장치 또는 제조 물품으로서 구현될 수 있다. 비 일시적 컴퓨터 판독 가능 매체는 자기 저장 장치(예를 들어, 하드 디스크, 플로피 디스크, 자기 스트립 등), 광학 디스크(예를 들어, 컴팩트 디스크(CD), DVD, Blu-ray^TM 등), 스마트 카드, 고체 상태 장치(SSD) 및 플래시 메모리 장치(예를 들어, 카드, 스틱)를 포함할 수 있지만 이에 제한되지는 않는다. 물론, 당업자는 개시된 양태의 범위를 벗어나지 않고 이 구성에 많은 수정이 이루어질 수 있음을 인식할 것이다.

개시된 양태의 이전 설명은 당업자가 본 개시를 만들거나 사용할 수 있도록 제공된다. 이들 양태에 대한 다양한 수정은 당업자에게 명백할 것이며, 본 명세서에 정의된 일반적인 원리는 본 개시의 사상 또는 범위를 벗어나지 않고 다른 실시예에 적용될 수 있다. 따라서, 본 개시는 본 명세서에 도시된 실시예로 제한되는 것이 아니라 본 명세서에 개시된 원리 및 신규한 특징과 일치하는 가장 넓은 범위에 따라야 한다.

전술한 예시적인 시스템을 고려하여, 개시된 주제에 따라 구현될 수 있는 방법론이 여러 흐름도를 참조하여 설명되었다. 설명의 단순성을 위해, 방법론은 일련의 블록으로 도시되고 설명되지만, 청구된 주제는 블록의 순서에 의해 제한되지 않으며, 일부 블록은 상이한 순서로 그리고/또는 본 명세서에 도시되고 기술된 것으로부터 다른 블록과 동시에 발생할 수 있음을 이해하고 인식해야 한다. 또한, 본 명세서에 설명된 방법론을 구현하기 위해 도시된 모든 블록이 필요한 것은 아니다. 또한, 본 명세서에 개시된 방법론은 컴퓨터로 이러한 방법론을 전송 및 전달하는 것을 용이하게 하기 위해 제조 물품 상에 저장될 수 있음을 추가로 이해해야 한다.

Claims

대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법으로서,
소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하는 단계 ― 상기 얼굴 포즈의 시퀀스에서의 각 포즈는 상기 대체 오디오의 각 샘플의 중간 위치에 대응함 ―;
상기 얼굴 포즈의 시퀀스 및 상기 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시를 생성하는 단계;
상기 애니메이션화된 얼굴 메시 및 그로부터 랜더링된 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하고 상기 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하는 단계; 및
상기 애니메이션화된 얼굴 메시 또는 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하는 단계;를 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 얼굴 포즈의 시퀀스를 생성하는 것은 음성 대화의 기록으로부터 취해진 오디오 샘플의 시퀀스를 샘플링하는 것을 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제2항에 있어서,
상기 얼굴 포즈의 시퀀스를 생성하는 것은 텍스트 음성 합성기를 사용하여 텍스트를 음성으로 변환하는 것을 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제3항에 있어서,
상기 얼굴 포즈의 시퀀스를 생성하는 것은, 배우의 이미지로부터 입 모양에 대한 키 포인트를 추출하고, 키 포인트를 정규화하고, 그리고 입 모양을 도출하도록 정규화된 키 포인트에 주성분 분석(principle component analysis, PCA)을 적용하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제4항에 있어서,
상기 얼굴 표정의 시퀀스를 생성하는 것은 각 샘플에 대한 MFCC(mel-frequency cepstral coefficient)를 도출하고 반복 신경망을 사용하여 각 MFCC 계수를 입 모양 중 하나에 매핑하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제2항에 있어서,
상기 얼굴 포즈의 시퀀스를 생성하는 것은 선형 특징을 비선형 특징으로부터 분리하고, 선형 특징을 형태 분석을 위한 심층 신경망으로 처리함으로써 음성 특징의 시변(time-varying) 시퀀스를 생성하고, 안면 관절을 위한 심층 신경망으로 비선형 특징을 처리함으로써 중간 위치에서 얼굴 포즈를 생성하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제6항에 있어서,
상기 얼굴 포즈의 시퀀스를 생성하는 것은 출력을 위해 심층 신경망에 의해 정점 정의된 얼굴 포즈(vertex-defined facial pose)를 생성하고 얼굴 포즈의 시퀀스에서 포즈를 저장하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 타겟 비디오로부터 상기 소스 비디오로 추적된 표정을 전송하는 것은 입 영역을 합성하고 러프 출력 비디오의 각 프레임을 랜더링하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 타겟 비디오에서 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 상기 러프 비디오를 정제하는 것은 타겟 세트에서의 프레임의 랜덤 변화에 의해 자동 인코더에 대한 훈련 세트를 생성하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 타겟 비디오에서 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 상기 러프 비디오를 정제하는 것은 배우의 입 주위의 타겟 비디오 및 러프 출력 비디오의 대응하는 영역을 자르는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 타겟 비디오에서 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 상기 러프 비디오를 정제하는 것은 상기 타겟 비디오로부터 처리된 이미지를 정렬하고 러프 출력 비디오로 삽입하는 것을 더 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
제1항에 있어서,
상기 애니메이션화된 얼굴 메시로부터 타겟 비디오를 랜더링하는 단계를 더 포함하며,
상기 추적된 표정을 전송하는 것은 상기 타겟 비디오로부터 소스 비디오로 표정을 전송하는 것을 포함하는,
대체 오디오에 디지털 비디오의 입 모양 및 움직임을 매칭시키기 위한 방법.
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치로서,
컴퓨터 메모리에 연결된 프로세서를 포함하며, 상기 메모리는 프로그램 명령을 보유하며 상기 프로그램 명령은 상기 프로세서에 의해 실행될 때 장치가:
소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하는 단계 ― 상기 얼굴 포즈의 시퀀스에서의 각 포즈는 상기 대체 오디오의 각 샘플의 중간 위치에 대응함 ―;
상기 얼굴 포즈의 시퀀스 및 상기 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시를 생성하는 단계;
상기 애니메이션화된 얼굴 메시 및 그로부터 랜더링된 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하고 상기 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하는 단계; 및
상기 애니메이션화된 얼굴 메시 또는 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하는 단계;를 수행하게 하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제13항에 있어서,
상기 메모리는 적어도 부분적으로 음성 대화의 기록으로부터 취해진 오디오 샘플의 시퀀스를 샘플링함으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제14항에 있어서,
상기 메모리는 적어도 부분적으로 텍스트 음성 합성기를 사용하여 텍스트를 음성으로 변환시킴으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제15항에 있어서,
상기 메모리는 적어도 부분적으로 배우의 이미지로부터 입 모양에 대한 키 포인트를 추출하고, 키 포인트를 정규화하고, 그리고 입 모양을 도출하도록 정규화된 키 포인트에 주성분 분석(PCA)을 적용함으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제16항에 있어서,
상기 메모리는 적어도 부분적으로 각 샘플에 대한 MFCC를 도출하고 반복 신경망을 사용하여 각 MFCC 계수를 입 모양 중 하나에 매핑함으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제13항에 있어서,
상기 메모리는 적어도 부분적으로 선형 특징을 비선형 특징으로부터 분리하고, 선형 특징을 형태 분석을 위한 심층 신경망으로 처리함으로써 음성 특징의 시변 시퀀스를 생성하고, 안면 관절을 위한 심층 신경망으로 비선형 특징을 처리함에 의해 중간 위치에서 얼굴 포즈를 생성함으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제18항에 있어서,
상기 메모리는 적어도 부분적으로 출력을 위해 심층 신경망에 의해 정점 정의된 얼굴 포즈를 생성하고 얼굴 포즈의 시퀀스에서 포즈를 저장함으로써 얼굴 포즈의 시퀀스를 생성하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제12항에 있어서,
상기 메모리는 적어도 부분적으로 입 영역을 합성하고 러프 출력 비디오의 각 프레임을 랜더링함으로써 타겟 비디오로부터 소스 비디오로 추적된 표정을 전송하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제12항에 있어서,
상기 메모리는 적어도 부분적으로 타겟 세트에서의 프레임의 랜덤 변화에 의해 자동 인코더에 대한 훈련 세트를 생성함으로써 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제12항에 있어서,
상기 메모리는 적어도 부분적으로 배우의 입 주위의 타겟 비디오 및 러프 출력 비디오의 대응하는 영역을 자름으로써 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제12항에 있어서,
상기 메모리는 적어도 부분적으로 상기 타겟 비디오로부터 처리된 이미지를 정렬하고 러프 출력 비디오로 삽입함으로써 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 정제하기 위한 추가 명령을 보유하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
제12항에 있어서,
상기 메모리는 애니메이션화된 얼굴 메시로부터 타겟 비디오를 랜더링하기 위한 추가 명령을 보유하며,
추적된 표정을 전송하는 것은 타겟 비디오로부터 소스 비디오로 표정을 전송하는 것을 포함하는,
대체 오디오에 디지털 오디오에서의 입 모양 및 움직임을 매칭시키 위한 장치.
프로그램 명령으로 인코딩된 대체 오디오에 디지털 비디오에서의 입 모양 및 움직임을 매칭시키기 위한 비 일시적 컴퓨터 판독 가능 매체로서,
상기 프로그램 명령은 컴퓨터에 의해 실행될 때 컴퓨터가:
소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하는 단계 ― 상기 얼굴 포즈의 시퀀스에서의 각 포즈는 상기 대체 오디오의 각 샘플의 중간 위치에 대응함 ―;
상기 얼굴 포즈의 시퀀스 및 상기 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시를 생성하는 단계;
상기 애니메이션화된 얼굴 메시 및 그로부터 랜더링된 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하고 상기 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하는 단계; 및
상기 애니메이션화된 얼굴 메시 또는 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하는 단계;를 수행하게 하는,
대체 오디오에 디지털 비디오에서의 입 모양 및 움직임을 매칭시키기 위한 비 일시적 컴퓨터 판독 가능 매체.
대체 오디오에 디지털 비디오에서의 입 모양 및 움직임을 매칭시키기 위한 장치로서,
소스 디지털 비디오로부터 배우에 대한 입 모양을 포함하는 얼굴 포즈의 시퀀스를 도출하기 위한 수단 ― 상기 얼굴 포즈의 시퀀스에서의 각 포즈는 상기 대체 오디오의 각 샘플의 중간 위치에 대응함 ―;
상기 얼굴 포즈의 시퀀스 및 상기 소스 디지털 비디오에 기초하여 애니메이션화된 얼굴 메시를 생성하기 위한 수단;
상기 애니메이션화된 얼굴 메시 및 그로부터 랜더링된 타겟 비디오 중 적어도 하나로부터 소스 비디오로 추적된 표정을 전송하고 상기 추적된 표정의 전송을 포함하는 러프 출력 비디오를 생성하기 위한 수단; 및
상기 애니메이션화된 얼굴 메시 또는 타겟 비디오에서의 입 모양에 대해 훈련된 파라메트릭 자동 인코더를 사용하여 러프 비디오를 적어도 부분적으로 정제함으로써 완성된 비디오를 생성하기 위한 수단;을 포함하는,
대체 오디오에 디지털 비디오에서의 입 모양 및 움직임을 매칭시키기 위한 장치.