KR102658104B1

KR102658104B1 - 템플릿-기반 개인화 비디오 생성 시스템 및 방법

Info

Publication number: KR102658104B1
Application number: KR1020217026000A
Authority: KR
Inventors: 빅터 슈바로브; 파빌 서브첸코브; 알렉산더 마시로바브; 드미트리 마토브; 소피아 사비노바; 알렉시 프셀린노코브; 로만 골로보카프; 그리고리 트카첸코
Original assignee: 스냅 아이엔씨
Priority date: 2019-01-18
Filing date: 2020-01-18
Publication date: 2024-04-17
Also published as: KR20210119439A; EP3912136A1; EP3912160A1; CN113302659B; KR102616013B1; WO2020150693A1; KR20230173221A; CN113302694A; CN118570340A; CN113302659A; KR20240050468A; KR20210119440A; KR20230173220A; WO2020150692A1

Abstract

템플릿-기반 개인화 비디오의 생성 시스템 및 방법이 개시된다. 예시적인 방법은 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함하는 비디오 구성 데이터를 수신하는 것으로 시작할 수 있다. 방법은 소스 얼굴의 이미지를 수신하여 계속될 수 있다. 방법은 출력 비디오를 생성하는 것을 더 포함할 수 있다. 출력 비디오의 생성은 프레임 이미지 시퀀스의 프레임 이미지를 수정하는 것을 포함할 수 있다. 구체적으로, 소스 얼굴의 이미지는 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택한 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 수정될 수 있다. 추가 이미지는 프레임 이미지에 해당하는 얼굴 영역 파라미터 의해 결정된 위치에서 프레임 이미지에 삽입될 수 있다.

Description

템플릿-기반 개인화 비디오 생성 시스템 및 방법

본 개시는 일반적으로 디지털 이미지 처리에 관한 것이다. 보다 구체적으로, 본 개시는 템플릿-기반 개인화 비디오 생성 방법 및 시스템에 관한 것이다.

스티커 및 이모티콘과 같은 미디어 공유는 메시징 어플리케이션(또한 여기서 메신저라고도 함)의 표준 옵션(standard option)이 되었다. 현재, 몇몇의 메신저는 커뮤니케이션 채팅을 통해 이미지 및 짧은 비디오를 생성하고 다른 사용자에게 보내는(send) 옵션을 사용자에게 제공한다. 기존의 특정 메신저는 사용자가 전송(transmit)하기 전에 짧은 비디오를 수정하는 것을 허용한다. 그러나 기존의 메신저에서 제공하는 짧은 비디오의 수정은 시각화 효과, 필터, 및 텍스트로 제한된다. 현재 메신저의 사용자는 한 얼굴을 다른 얼굴로 대체(replace)하는 것과 같은, 복잡한 편집을 수행(perform)할 수 없다. 이러한 비디오 편집은 현재의 메신저에서 제공되지 않고, 정교한 제3의(third-party) 비디오 편집 소프트웨어가 요구된다.

이 섹션은 아래의 상세한 설명의 섹션에서 더 상세하게 설명되는 선택된 개념들을 간단한 형태로 소개하기 위해 제공된다. 본 섹션은 청구된 주제의 주요 특징 또는 필수 특징을 식별하기 위한 것으로 의도된 것도 아니며, 또한 청구된 주제의 범위를 결정하는 데 도움이 되도록 사용되는 것을 의도한 것도 아니다.

본 개시의 일 실시예에 따르면, 템플릿-기반(template-based) 개인화 비디오(personalized video) 생성 시스템이 개시된다. 시스템은 적어도 하나의 프로세서 및 프로세서-실행 코드를 저장하는 메모리를 포함할 수 있다. 적어도 하나의 프로세서는 컴퓨팅 장치에 의해 비디오 구성 데이터(video configuration data)를 수신하도록 구성될 수 있다. 비디오 구성 데이터는 프레임 이미지의 시퀀스(sequence of frame image), 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스(sequence of face area parameter), 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스(sequence of facial landmark parameter)를 포함할 수 있다. 각각의 얼굴 랜드 마크 파라미터는 얼굴 표정에 대응할 수 있다. 적어도 하나의 프로세서는 컴퓨팅 장치에 의해 소스 얼굴의 이미지를 수신하도록 구성될 수 있다. 적어도 하나의 프로세서는 컴퓨팅 장치에 의해 출력 비디오를 생성하도록 구성될 수 있다. 출력 비디오의 생성은 프레임 이미지의 시퀀스의 프레임 이미지를 수정하는 것을 포함할 수 있다. 구체적으로, 소스 얼굴의 이미지는 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택(adopt)한 소스 얼굴을 특징(feature)으로 하는 추가 이미지를 획득하기 위해 수정될 수 있다. 추가 이미지는 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 프레임 이미지에 삽입(insert)될 수 있다.

하나의 예시적인 실시예에 따르면, 템플릿-기반 개인화 비디오의 생성 방법이 개시된다. 방법은 컴퓨팅 장치에 의해 비디오 구성 데이터를 수신하는 것으로 시작할 수 있다. 비디오 구성 데이터는 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함할 수 있다. 각각의 얼굴 랜드 마크 파라미터는 얼굴 표정에 대응할 수 있다. 방법은 소스 얼굴의 이미지를 컴퓨터 장치에 의해 수신하며 계속될 수 있다. 방법은 컴퓨팅 장치에 의해 출력 비디오를 생성하는 동작을 더 포함할 수 있다. 출력 비디오를 생성은 프레임 이미지 시퀀스의 프레임 이미지를 수정하는 것을 포함할 수 있다. 구체적으로, 소스 얼굴의 이미지는 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택한 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 수정될 수 있다. 이미지의 수정은 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 수행될 수 있다. 추가 이미지는 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 프레임 이미지에 삽입될 수 있다.

본 개시의 또 다른 양상에 따르면, 프로세서-판독 가능 명령어를 저장하는 비-일시적 프로세서-판독 가능 매체가 제공된다. 프로세서-판독 가능 명령이 프로세서에 의해 실행될 때, 비-일시적 프로세서-판독 가능 매체는 프로세서가 전술한 템플릿-기반 개인화 비디오 생성 방법을 구현하게 한다.

예시의 추가적인 목적, 장점, 및 신규한 특징은 다음 설명에서 부분적으로 설명될 것이고, 부분적으로는 다음 설명 및 첨부 도면을 검토할 때 당업자에게 명백해질 것이며, 또는 예시의 생산 또는 동작에 의해 학습될 수 있다. 개념의 목적 및 장점은 첨부된 청구항에서 특히 지적된 방법론, 수단 및 조합에 의해 실현되고 달성될 수 있다.

실시예는 첨부된 그림의 도면에서 제한이 아니라 예로서 설명되며, 유사한 참조는 유사한 요소를 나타낸다.
도 1은 템플릿-기반 개인화 비디오 생성 시스템 및 방법이 구현될 수 있는 예시적인 환경을 나타내는 블록도이다.
도 2는 템플릿-기반 개인화 비디오 생성 방법을 구현하기 위한 컴퓨팅 장치의 예시적인 실시예를 나타내는 블록도이다.
도 3은 본 개시의 일부 예시적인 실시예에 따른, 템플릿-기반 개인화 비디오 생성 프로세스를 나타내는 흐름도이다.
도 4는 본 개시의 일부 예시적인 실시예에 따른, 템플릿-기반 개인화 비디오 생성 시스템의 기능을 나타내는 흐름도이다.
도 5는 일부 예시적인 실시예에 따른, 비디오 템플릿의 생성에 사용하기 위한 라이브 액션 비디오의 생성 프로세스를 나타내는 흐름도이다.
도 6은 일부 예시적인 실시예에 따른, 비디오 템플릿을 생성하기 위한 예시적인 라이브 액션 비디오의 프레임을 나타낸다.
도 7은 예시적인 실시예에 따른, 얼굴의 원본 이미지 및 정규화된 조명을 갖는 얼굴의 이미지를 나타낸다.
도 8은 예시적인 실시예에 따른, 세그먼트된 머리 이미지, 얼굴 랜드 마크가 있는 머리 이미지, 및 얼굴 마스크를 나타낸다.
도 9는 예시적인 실시예에 따른, 사용자 얼굴, 피부 마스크, 및 피부 마스크를 재채색한 결과를 특징으로 하는 프레임을 나타낸다.
도 10은 예시적인 실시예에 따른, 얼굴 동기화 배우의 얼굴 이미지, 얼굴 동기화 배우의 얼굴 랜드 마크 이미지, 사용자의 얼굴 랜드 마크 이미지, 및 얼굴 동기화 배우의 얼굴 표정을 가진 사용자 얼굴 이미지를 보여준다.
도 11은 예시적인 실시예에 따른, 세그먼트된 얼굴 이미지, 헤어 마스크, 대상 이미지로 뒤틀린 헤어 마스크, 및 대상 이미지에 적용된 헤어 마스크를 나타낸다.
도 12는 예시적인 실시예에 따른, 눈의 원본 이미지, 눈의 공막이 재구성된 이미지, 홍채가 재구성된 이미지, 및 움직인 홍채가 재구성된 이미지를 나타낸다.
도 13 내지 14는 일부 예시적인 실시예에 따른, 비디오 템플릿에 기초하여 생성된 예시적인 개인화 비디오의 프레임을 나타낸다.
도 15는 예시적인 실시예에 따른, 템플릿-기반 개인화 비디오 생성 방법을 나타내는 흐름도이다.
도 16은 템플릿-기반 개인화 비디오 생성 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템을 나타낸다.

이하 실시예의 상세한 설명은 상세한 설명의 일부를 형성하는 첨부 도면에 대한 참조를 포함한다. 이 섹션에 설명된 접근 방식은 청구항에 대한 선행 기술이 아니며 이 섹션에 포함됨으로써 선행 기술로 인정되지 않는다. 도면은 예시적인 실시예에 따른 그림을 보여준다. 본 명세서에서 "예시" 라고도 지칭되는 이러한 예시적인 실시예는 당업자가 본 주제를 실시할 수 있도록 충분히 상세하게 설명된다. 실시예들은 결합될 수 있고, 다른 실시예가 이용될 수 있거나, 청구된 범위를 벗어나지 않고 구조적, 논리적 및 작동적 변경이 이루어질 수 있다. 따라서, 이하의 상세한 설명은 제한적인 의미로 받아들여져서는 안 되고, 범위는 첨부된 청구항 및 그 균등물에 의해 정의된다.

본 특허 문서의 목적을 위해, 용어 "또는" 및 "및"은 달리 언급되거나 사용의 맥락에 의해 달리 명확하게 의도되지 않는 한 "및/또는"을 의미한다. 용어 "a"는 달리 명시되지 않거나 "하나 이상"의 사용이 명백히 부적절하지 않는 한 "하나 이상"을 의미한다. 용어 "포함하다(comprise)", "포함하는(comprise)", "포함하다(include)" 및 "포함하는(including)"은 상호 교환 가능하며 제한하려는 의도가 아니다. 예를 들어, 용어 "포함하는" 은 "포함하지만 이에 제한되지 않는"을 의미하는 것으로 해석되어야 한다.

본 개시는 맞춤형 텍스트 메시지를 가진 개인화 비디오 생성 방법 및 시스템에 관한 것이다. 본 개시에 제공된 실시예는 공지된 기술의 적어도 일부 문제를 해결한다. 본 개시 내용은 스마트 폰, 태블릿 컴퓨터, 또는 모바일 폰과 같은 모바일 장치에서 실시간으로 작동하도록 설계될 수 있지만, 실시예는 웹 서비스 또는 클라우드 기반 리소스를 포함하는 접근 방식으로 확장될 수 있다. 여기에 설명된 방법은 컴퓨터 시스템에서 실행되는 소프트웨어 및/또는 마이크로 프로세서의 조합 또는 기타 특별히 설계된 ASIC(application-specific integrated circuit), 프로그램 가능 논리 장치 또는 이들의 임의의 조합을 사용하는 하드웨어에 의해 구현될 수 있다. 특히, 여기에 설명된 방법은 디스크 드라이브 또는 컴퓨터 판독 가능 매체와 같은 비 일시적 저장 매체에 상주하는 일련의 컴퓨터 실행 가능 명령어에 의해 구현될 수 있다.

본 개시의 일부 실시예는 스마트 폰과 같은 사용자 컴퓨팅 장치에서 실시간으로 개인화 비디오를 생성하는 것을 허용할 수 있다. 개인화 비디오는 사용자의 얼굴 또는 여러 사용자의 얼굴을 특징으로 하는 시청각 미디어(audiovisual media)(예: 비디오, 애니메이션, 또는 기타 유형의 미디어)의 형태로 생성될 수 있다. 개인화 비디오는 미리-생성된 비디오 템플릿을 기반으로 생성될 수 있다. 비디오 템플릿은 비디오 구성 데이터를 포함할 수 있다. 비디오 구성 데이터는 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함할 수 있다. 각각의 얼굴 랜드 마크 파라미터는 얼굴 표정에 대응할 수 있다. 프레임 이미지는 애니메이션 비디오 또는 라이브 액션 비디오를 기반으로 생성될 수 있다. 얼굴 랜드 마크 파라미터는 배우(아래에 자세히 설명된 것처럼 얼굴 동기화(facesync)라고도 불리는)의 얼굴을 특징으로 하는 또다른 라이브 액션 비디오, 애니메이션 비디오, 오디오 파일, 텍스트를 기반으로 또는 수동으로 생성될 수 있다.

비디오 구성 파일은 또한 피부 마스크의 시퀀스(sequence of skin mask)를 포함할 수 있다. 피부 마스크는 프레임 이미지에 등장(feature in)하는 배우의 신체의 피부 영역 또는 신체의 2D/3D 애니메이션의 신체의 피부 영역을 정의할 수 있다. 예시적인 실시예에서, 피부 마스크 및 얼굴 랜드 마크 파라미터는 2 개의 상이한 라이브 액션 비디오에서 캡쳐한 상이한 배우들(여기서는 각각 배우 및 얼굴 싱크 배우로 지칭됨)에 기초하여 생성될 수 있다). 비디오 구성 데이터는 입 영역 이미지의 시퀀스(sequence of mouth region image) 및 눈 파라미터의 시퀀스(sequence of eye parameter)를 더 포함할 수 있다. 눈 파라미터는 프레임 이미지에 등장하는 얼굴 싱크 배우의 공막(sclera)에서 홍채(iris)의 위치를 정의할 수 있다. 비디오 구성 데이터는 머리의 회전(rotation) 및 턴, 위치, 스케일, 및 머리의 다른 파라미터를 정의하는 머리 파라미터의 시퀀스(sequence of head parameter)를 포함할 수 있다. 사용자는 이미지를 촬영할 때 머리를 그대로 두고 카메라를 직접 볼 수 있고, 따라서 머리의 스케일 및 회전은 수동으로 조정될 수 있다. 머리 파라미터는 상이한 배우(여기서 얼굴 싱크 배우라고도 함)로부터 전달(transfer)될 수 있다. 여기서 사용되는, 얼굴 싱크 배우는 얼굴 랜드 마크 파라미터가 사용되는 사람이고, 배우는 신체가 비디오 템플릿에서 사용되고 피부가 재채색(recolor)될 수 있는 또다른 사람이며, 그리고 사용자는 개인화 비디오를 생성하기 위해 자신의 얼굴 이미지를 촬영하는 사람이다. 따라서, 일부 실시예에서, 개인화 비디오는 얼굴 싱크 배우의 얼굴 표정을 갖도록 수정된 사용자의 얼굴을 포함하며 그리고 비디오 템플릿으로부터 가져오고 사용자의 얼굴의 색상과 매치되도록 재채색된 배우의 신체를 포함한다. 비디오 구성 데이터는 애니메이션 개체 이미지의 시퀀스를 포함한다. 선택적으로 비디오 구성 데이터는 사운드 트랙 및/또는 음성을 포함한다.

미리-생성된 비디오 템플릿은 클라우드 기반 컴퓨팅 리소스에 원격으로 저장될 수 있으며 그리고 컴퓨팅 장치(예: 스마트 폰)의 사용자에 의해 다운로드될 수 있다. 컴퓨팅의 사용자는, 컴퓨팅 장치에 의해, 얼굴 이미지를 캡처하거나 또는 카메라 롤(camera roll)로부터, 준비된 이미지 모음으로부터 또는 웹 링크를 통해 얼굴 이미지를 선택할 수 있다. 일부 실시예에서, 이미지는 사람의 얼굴 대신 동물을 포함할 수 있거나, 또는 그려진 그림의 형태에 있을 수 있다. 미리-생성된 비디오 템플릿 중 하나 및 얼굴의 이미지에 기초하여, 컴퓨팅 장치는 개인화 비디오를 추가로 생성할 수 있다. 사용자는 개인화 비디오를 통신 채팅(communication chat)을 통해 다른 컴퓨팅 장치의 다른 사용자에게 보내거나(send), 소셜 미디어에 공유하거나, 컴퓨팅 장치의 로컬 저장소에 다운로드하거나, 또는 클라우드 저장소 또는 비디오 공유 서비스에 업로드할 수 있다.

본 개시의 일 실시예에 따르면, 템플릿-기반 개인화 비디오의 생성을 위한 예시적인 방법은 컴퓨팅 장치에 의해 비디오 구성 데이터를 수신하는 동작을 포함할 수 있다. 비디오 구성 데이터는 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함할 수 있다. 각각의 얼굴 랜드 마크 파라미터는 얼굴 싱크 배우의 얼굴 표정에 대응할 수 있다. 방법은, 컴퓨징 장치에 의해, 소스 얼굴의 이미지를 수신하는 동작 및 출력 비디오를 생성하는 동작과 함께 계속될 수 있다. 출력 비디오의 생성은 프레임 이미지의 시퀀스의 프레임 이미지를 수정(modify)하는 것을 포함할 수 있다. 프레임 이미지의 수정은 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택(adopt)하는 소스 얼굴을 특징으로 하는 추가 이미지를 얻기 위해 소스 얼굴의 이미지를 수정하는 동작 및 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 추가 이미지를 프레임 이미지에 삽입(insert)하는 동작을 포함할 수 있다. 또한, 소스 얼굴은, 예를 들어, 색상 변경, 눈 크게 만들기, 등으로 수정될 수 있다. 소스 얼굴의 이미지는 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 수정될 수 있다.

이제 도면을 참조하여 예시적인 실시예가 기술된다. 도면은 이상적인 실시예의 개략적인 도면이다. 따라서, 본 명세서에서 논의된 예시적인 실시예는 본 명세서에 제시된 특정 설명으로 제한되는 것으로 이해되어서는 안 된다; 오히려, 이러한 예시적인 실시예는 편차를 포함할 수 있고 당업자에게 명백한 바와 같이 여기에 제시된 설명과 다를 수 있다.

도 1은 템플릿-기반 개인화 비디오 생성 시스템 및 방법이 구현될 수 있는 예시적인 환경(100)을 나타낸다. 환경(100)은 컴퓨팅 장치(105), 사용자(102), 컴퓨팅 장치(110), 사용자(104), 네트워크(120) 및 메신저 서비스 시스템(130)을 포함할 수 있다. 컴퓨팅 장치(105) 및 컴퓨팅 장치(110)는 휴대폰, 스마트 폰, 또는 태블릿 컴퓨터와 같은 모바일 장치를 지칭(refer)할 수 있다. 추가 실시예에서, 컴퓨팅 장치(110)는 개인용 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스, 텔레비전 장치, 멀티미디어 장치, 개인용 디지털 어시스턴트, 게임 콘솔, 엔터테인먼트 시스템, 인포테인먼트 시스템, 차량 컴퓨터, 또는 임의의 다른 컴퓨팅 장치를 지칭할 수 있다.

컴퓨팅 장치(105) 및 컴퓨터 장치(110)는 네트워크(120)를 통해 메신저 서비스 시스템(130)에 통신 가능하게 연결될 수 있다. 메신저 서비스 시스템(130)은 클라우드-기반 컴퓨팅 리소스(들)로 구현될 수 있다. 메신저 서비스 시스템(130)은 원격 위치에서 이용 가능(available)하고 네트워크(예: 인터넷)를 통해 액세스 가능한 컴퓨팅 리소스(들)(하드웨어 및 소프트웨어)를 포함할 수 있다. 클라우드 기반 컴퓨팅 리소스는 여러 사용자에 의해 공유될 수 있으며 필요에 따라(on demand) 동적으로 재-할당(re-allocate)될 수 있다. 클라우드-기반 컴퓨팅 리소스는 네트워크 스위치 및/또는 라우터와 함께-위치(co-locate)될 수 있는 컴퓨터 서버 모음을 포함하는 하나 이상의 서버 팜/클러스터를 포함할 수 있다.

네트워크(120)는 예를 들어 인터넷, 인트라넷, LAN(Local Area Network), PAN(Personal Area Network), WAN(Wide Area Network), VPN(Virtual Private Network), 휴대폰 네트워크(예: GSM(Global System for Mobile)), 통신 네트워크, 및 기타 등등을 포함하는 임의의 유선, 무선 또는 광 네트워크를 포함할 수 있다.

본 개시의 일부 실시예에서, 컴퓨팅 장치(105)는 컴퓨팅 장치(110)의 사용자(104)와 사용자(102) 사이의 통신 채팅을 가능하게 하도록 구성될 수 있다. 통신 채팅 중에, 사용자(102)와 사용자(104)는 문자 메시지 및 비디오를 교환할 수 있다. 비디오는 개인화 비디오를 포함할 수 있다. 개인화 비디오는 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 저장된 미리-생성된 비디오 템플릿에 기초하여 생성될 수 있다. 일부 실시예에서, 미리-생성된 비디오 템플릿은 메신저 서비스 시스템(130)에 저장될 수 있고 필요에 따라 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 다운로드될 수 있다.

메신저 서비스 시스템(130)은 비디오 전-처리 시스템(140)을 포함할 수 있다. 시스템(140)은 애니메이션 비디오 또는 라이브 액션 비디오에 기초하여 비디오 템플릿을 생성할 수 있다. 메신저 서비스 시스템(130)은 비디오 템플릿을 저장하기 위한 비디오 템플릿 데이터베이스(145)를 포함할 수 있다. 비디오 템플릿은 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)로 다운로드될 수 있다.

메신저 서비스 시스템(130)은 또한 사용자 프로필(135)을 저장하도록 구성될 수 있다. 사용자 프로필(135)은 사용자(102)의 얼굴의 이미지, 사용자(104)의 얼굴의 이미지 및 다른 사람의 얼굴의 이미지를 포함할 수 있다. 얼굴의 이미지는 필요에 따라 그리고 허가(permission)에 기초하여 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 다운로드될 수 있다. 추가적으로, 사용자(102)의 얼굴의 이미지는 컴퓨팅 장치(105)를 사용하여 생성될 수 있고 컴퓨팅 장치(105)의 로컬 메모리에 저장될 수 있다. 얼굴의 이미지는 컴퓨팅 장치(105)에 저장된 다른 이미지에 기초하여 생성될 수 있다. 얼굴의 이미지는 미리-생성된 비디오 템플릿에 기초하여 개인화 비디오를 생성하기 위해 컴퓨팅 장치(105)에 의해 추가로 사용될 수 있다. 유사하게, 컴퓨팅 장치(110)는 사용자(104)의 얼굴의 이미지를 생성하기 위해 사용될 수 있다. 사용자(104)의 얼굴의 이미지는 컴퓨팅 장치(110)에서 개인화 비디오를 생성하는 데 사용될 수 있다. 추가 실시예에서, 사용자(102)의 얼굴의 이미지 및 사용자(104)의 얼굴의 이미지는 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에서 개인화 비디오를 생성하기 위해 상호적으로 사용될 수 있다.

도 2는 개인화 비디오를 위한 방법을 구현하기 위한 컴퓨팅 장치(105)(또는 컴퓨팅 장치(110))의 예시적인 실시예를 나타내는 블록도이다. 도 2에 도시된 예시처럼, 컴퓨팅 장치(110)는 하드웨어 구성 요소 및 소프트웨어 구성 요소 모두를 포함한다. 특히, 컴퓨팅 장치(110)는 디지털 이미지를 얻기(acquire) 위해 카메라(205) 또는 임의의 다른 이미지-캡처 장치 또는 스캐너를 포함한다. 컴퓨팅 장치(110)는 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드를 저장하기 위한 저장 모듈(215) 및 프로세서 모듈(210)을 더 포함할 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 템플릿-기반 개인화 비디오의 생성 방법의 적어도 일부 단계를 수행하게 한다. 컴퓨팅 장치(105)는 그래픽 디스플레이 시스템(230) 및 통신 모듈(240)을 포함할 수 있다. 다른 실시예에서, 컴퓨팅 장치(105)는 추가적이거나 또는 상이한 구성 요소를 포함할 수 있다. 게다가, 컴퓨팅 장치(105)는 도 1에 도시된 것과 유사하거나 또는 동등한 기능을 수행하는 더 적은 구성 요소를 포함할 수 있다.

컴퓨팅 장치(110)는 다른 컴퓨팅 장치(에: 컴퓨팅 장치(110))와 통신 채팅을 가능하게 하는 메신저(220) 및 템플릿-기반 개인화 비디오 생성 시스템(250)을 더 포함할 수 있다. 시스템(250)은 도 4를 참조하여 아래에서 더 상세히 설명된다. 메신저(220) 및 시스템(250)은 메모리 스토리지(215)에 저장된 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드로 구현될 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 통신 채팅 및 개인화 비디오의 생성을 제공하기 위한 방법의 적어도 일부 단계를 수행하게 한다.

일부 실시예에서, 템플릿-기반 개인화 비디오 생성 시스템(250)은 메신저(220)에 통합(integrate)될 수 있다. 그래픽 디스플레이 시스템(230)을 통해 메신저(220) 및 템플릿-기반 개인화 비디오를 위한 시스템(250)의 사용자 인터페이스가 제공될 수 있다. 통신 채팅은 통신 모듈(240) 및 네트워크(120)를 통해 활성화될 수 있다. 통신 모듈(240)은 GSM 모듈, WiFi 모듈, 블루투스 ?? 모듈 등을 포함할 수 있다.

도 3은 본 개시의 일부 예시적인 실시예에 따른, 템플릿-기반 개인화 비디오 생성 프로세스(300)의 단계를 나타내는 흐름도이다. 프로세스(300)는 프로덕션(305), 포스트-프로덕션(310), 리소스 준비(resources preparation)(315), 피부 재채색(320), 입술 동기화 및 얼굴 재연(facial reenactment)(325), 헤어 애니메이션(330), 눈 애니메이션(335), 및 전개(deploy)(340)를 포함할 수 있다. 리소스 준비(315)는 메신저 서비스 시스템(130)(도 1에 도시된)의 비디오 전-처리 시스템(140)에 의해 수행될 수 있다. 리소스 준비(315)는 비디오 구성 데이터를 포함할 수 있는 비디오 템플릿을 생성하게 한다.

피부 재채색(320), 입술 동기화 및 얼굴 재연(325), 헤어 애니메이션(330), 눈 애니메이션(335), 및 전개(340)는 컴퓨팅 장치(105)(도 2에 도시된)의 템플릿-기반 개인화 비디오 생성 시스템(250)에 의해 수행될 수 있다. 시스템(250)은 사용자의 얼굴 이미지 및 비디오 구성 데이터를 수신하고 사용자의 얼굴을 특징으로 하는 개인화 비디오를 생성할 수 있다.

피부 재채색(320), 입술 동기화 및 얼굴 재연(325), 헤어 애니메이션(330), 눈 애니메이션(335), 및 전개(340)는 또한 메신저 서비스 시스템(130)의 비디오 전-처리 시스템(140)에 의해 수행될 수 있다. 시스템(140)은 사용자 얼굴의 테스트 이미지 및 비디오 구성 파일을 수신할 수 있다. 시스템(140)은 사용자 얼굴을 특징으로 하는 테스트 개인화 비디오(test personalized video)를 생성할 수 있다. 테스트 개인화 비디오는 운영자에 의해 검토(review)될 수 있다. 검토 결과에 기초하여, 비디오 구성 파일은 비디오 템플릿 데이터베이스(145)에 저장될 수 있고 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)로 다운로드될 수 있다.

프로덕션(305)은 아이디어 및 시나리오 생성, 장소, 소품(prop), 배우, 의상 및 효과가 식별되는 사전-프로덕션, 및 하나 이상의 녹화 세션(recording session)을 요구할 수 있는 프로덕션 자체를 포함할 수 있다. 일부 예시적인 실시예에서, 녹화(recording)는 본 명세서에서 그린 스크린 또는 크로마키 스크린(chroma key screen)으로도 지칭되는 크로마키 배경(chroma key background)에 장면/배우를 녹화함으로써 수행될 수 있다. 후속 머리 추적(subsequent head tracking) 및 리소스 정리(resources clean-up)를 허용하기 위해, 배우는 배우의 얼굴을 덮는 추적 표시(tracking mark)가 있는 크로마키 얼굴 마스크(예: 발라클라바(balaclavas))를 착용할 수 있고, 목(neck) 및 턱(chin) 밑은 열어둘 수 있다. 아이디어 및 시나리오 생성은 도 5에 자세히 도시된다.

예시적인 실시예에서, 사전-프로덕션(pre-production) 및 후속 프로덕션(subsequent production) 단계(305)는 선택적이다. 배우를 녹화하는 대신, 2D 또는 3D 애니메이션이 만들어지거나 제3의(third-party) 영상(footage)/이미지가 사용될 수 있다. 또한 사용자 이미지의 원본 배경이 사용될 수 있다.

도 5는 라이브 액션 비디오 생성 프로세스(500)를 나타내는 블록도이다. 라이브 액션 비디오는 개인화 비디오 생성을 위한 비디오 템플릿 생성에 추가적으로 이용될 수 있다. 프로세스(500)는 단계 505에서 아이디어 생성 및 단계 510에서 시나리오 생성을 포함할 수 있다. 프로세스(500)는 단계 515에서 프로덕션(305)이 뒤따르는 사전-프로덕션을 계속할 수 있다. 프로덕션(305)은 크로마키 스크린(525)을 사용하거나 또는 실제 위치(530)에서 녹화하는 것을 포함할 수 있다.

도 6은 비디오 템플릿을 생성하기 위한 예시적인 라이브 액션 비디오의 프레임을 보여준다. 비디오(605) 및 비디오(615)에 대한 프레임은 실제 위치(530)에서 녹화된다. 비디오(610), 비디오(620) 및 비디오(625)에 대한 프레임은 크로마키 스크린(525)을 사용하여 녹화된다. 배우는 배우의 얼굴을 덮는 추적 마크가 있는 크로마키 얼굴 마스크(630)를 착용할 수 있다.

포스트-프로덕션(310)은 비디오 편집 또는 애니메이션, 시각 효과, 정리, 사운드 디자인 및 음성 녹음(recording)을 포함할 수 있다.

리소스 준비(315) 동안 추가 전개를 위해 준비된 리소스는 다음 구성 요소를 포함할 수 있다: 배우의 머리가 없는 배경 영상(즉, 배우의 머리가 제거된 정리된 배경 준비); 검은 배경에 배우가 있는 영상(녹화된 개인화 비디오에만 해당); 프레임의 전경 시퀀스; 일반적인 머리 및 사운드 트랙이 있는 예시적인 영상; 머리 위치, 회전 및 스케일에 대한 좌표(coordinate); 머리에 부착된 애니메이션 요소(선택 사항); 보이스-오버(voice-over)가 있거나 없는 사운드 트랙; 별도 파일의 보이스-오버(선택 사항); 및 기타 등등. 이러한 모든 구성 요소는 선택 사항이며 그리고 상이한 포맷으로 렌더링될 수 있다. 구성 요소의 숫자 및 구성은 개인화 비디오의 포맷에 의존(depend on)한다. 예를 들어, 보이스-오버는 맞춤형 개인화 비디오(customized personalized video)에서 요구되지 않으며, 사용자 사진의 원래 배경이 사용되는 경우 배경 영상 및 머리 좌표는 요구되지 않는다. 예시적인 실시예에서, 좌표가 있는 파일을 준비하는 대신 얼굴이 위치해야 하는 영역이 지시(indicate)될 수 있다(예: 수동으로).

피부 재채색(320)은 개인화 비디오 내의 배우의 피부 색을 사용자의 이미지의 얼굴 색과 매칭하게 한다. 이 단계를 구현하기 위해, 배경의 어느 부분을 재채색해야 하는지를 구체적으로 지시하는 피부 마스크가 준비될 수 있다. 배우의 신체 부분(목, 왼손, 및 오른손 등)마다 별도의 마스크를 사용하는 것이 선호될 수 있다.

피부 재채색(320)은 얼굴 이미지 조명 정규화(facial image illumination normalization)를 포함할 수 있다. 도 7은 예시적인 실시예에 따른, 얼굴의 원본 이미지(705) 및 정규화된 조명을 갖는 얼굴의 이미지(710)를 나타낸다. 고르지 않은(uneven) 조명으로 인한 그림자 또는 하이라이트는 색 분포(color distribution)에 영향을 미치고 재채색 후 피부 톤이 너무 어둡거나 너무 밝아지게 할 수 있다. 이를 방지하기 위해, 사용자 얼굴의 그림자와 하이라이트는 감지되고 제거될 수 있다. 얼굴 이미지 조명 정규화 프로세스는 다음 단계를 포함한다. 사용자의 얼굴 이미지는 딥 컨볼루션 뉴럴 네트워크(deep convolutional neural network)를 이용하여 변형(transform)될 수 있다. 네트워크는 임의의 조명 하에서 촬영된 인물 이미지(portrait image)의 형태로 원본 이미지(705)를 수신할 수 있고 원본 이미지(705)의 피사체(subject)는 동일하게 유지하면서 원본 이미지(705)가 고르게(evenly) 조명되도록 원본 이미지(705)의 조명을 변경할 수 있다. 따라서, 얼굴 이미지 조명 정규화 과정의 입력은 사용자의 얼굴 이미지 및 얼굴 랜드 마크 형태의 원본 이미지(705)을 포함한다. 얼굴 이미지 조명 정규화 프로세스의 출력은 정규화된 조명을 갖는 얼굴의 이미지(710)를 포함한다.

피부 재채색(320)은 마스크 생성 및 신체 통계(body statistics)를 포함할 수 있다. 전체 피부용 마스크 또는 신체 부분용 별도 마스크(separate mask)만이 있을 수 있다. 또한 비디오의 다른 장면(scene)을 위해 다른 마스크가 만들어질 수 있다(예: 상당한 조명 변경 때문). 마스크는, 예를 들어 키잉(keying)과 같은 기술에 의해, 일부 사람의 안내를 받아 반-자동으로 생성될 수 있다. 준비된 마스크는 비디오 자산(video asset)에 병합(merge)될 수 있으며, 그리고 나서 재채색에 사용될 수 있다. 또한, 실-시간으로 불필요한 계산을 피하기 위해, 각 마스크에 대한 색 통계(color statistics)가 미리 계산될 수 있다. 통계는 각각의 색 채널에 대한 평균 값, 중앙 값, 표준 편차, 및 일부 백분위(percentile)를 포함할 수 있다. 통계는 빨강, 녹색, 파랑(RGB) 색 공간뿐만 아니라 다른 색 공간(HSV(Hue, Saturation, Value) 색 공간, CIELAB 색 공간(CIE L * a * b * 또는 약칭 "LAB" 색 공간) 등)에서도 계산될 수 있다. 마스크 생성 프로세스의 입력은 비디오 또는 이미지 시퀀스 형태의 노출된 피부(uncovered skin)를 가진 배우의 신체 부분에 대한 그레이 스케일 마스크(grayscale masks)를 포함할 수 있다. 마스크 생성 프로세스의 출력은 비디오로 압축(compressed) 및 병합된 마스크와 각 마스크별 색 통계를 포함할 수 있다.

피부 재채색(320)은 얼굴 통계 계산(facial statistics computation)을 더 포함할 수 있다. 도 8은 예시적인 실시예에 따라 세그먼트된 머리 이미지(805), 얼굴 랜드 마크(810)를 갖는 세그먼트된 머리 이미지(805), 및 얼굴 마스크(815)를 나타낸다. 사용자의 머리 이미지 세그먼테이션 및 얼굴 랜드 마크에 기초하여, 사용자의 얼굴 마스크(815)는 생성될 수 있다. 눈, 입, 헤어, 또는 액세서리(안경 같은)와 같은 영역은 얼굴 마스크(815)에 포함되지 않을 수 있다. 사용자의 세그먼트된 머리 이미지(805) 및 얼굴 마스크는 사용자의 얼굴 피부(facial skin)에 대한 통계를 계산하는 데 사용될 수 있다. 따라서, 얼굴 통계 계산의 입력은 사용자의 세그먼트된 머리 이미지(805), 얼굴 랜드 마크(810), 및 얼굴 세그먼테이션이 포함할 수 있고, 얼굴 통계 계산의 출력은 사용자의 얼굴 피부에 대한 색 통계를 포함할 수 있다.

피부 재채색(320)은 피부-톤 매칭 및 재채색을 더 포함할 수 있다. 도 9는 예시적인 실시예에 따른, 사용자 얼굴을 특징으로 하는 프레임(905), 피부 마스크(910), 피부 마스크(910)를 재채색한 결과(915)를 나타낸다. 피부-톤 매칭 및 재채색은 배우의 피부 및 사용자 피부의 색 분포를 설명하는 통계를 이용하여 수행될 수 있으며, 배경 프레임의 재채색은 컴퓨팅 장치에서 실시간으로 수행될 수 있다. 각 색 채널에 대해, 분포 매칭(distribution matching)이 수행될 수 있고, 얼굴 값의 분포에 가까운 변환된 값의 분포(distribution of transformed value)를 만들기 위해 배경 픽셀의 값(values of background pixels)이 수정될 수 있다. 분포 매칭은 색 분포가 정상이라는 가정 하에서 또는 다차원 확률 밀도 함수 전달(multidimensional probability density function transfer)과 같은 기술을 적용하여 수행될 수 있다. 따라서, 피부-톤 매칭 및 재채색 프로세스의 입력은 배경 프레임, 프레임에 대한 배우 피부 마스크, 마스크 별 배우 신체 피부색 통계, 및 사용자 얼굴 피부색 통계를 포함할 수 있고, 출력은 커버되지 않은 피부가 재채색된 모든 신체 부분이 있는 배경 프레임을 포함할 수 있다.

일부 실시예에서, 피부 재채색(320)을 적용하기 위해, 상이한 피부 톤을 갖는 여러 배우가 기록(record)될 수 있고, 그리고 사용자의 이미지의 피부 톤에 가장 가까운 피부 톤을 갖는 개인화 비디오 버전이 사용될 수 있다.

예시적인 실시예에서, 피부 재채색(320) 대신에, 미리 결정된 룩업 테이블(lookup table)(LUT)이 장면의 조명에 대한 얼굴색을 조정하는데 사용될 수 있다. LUT는 또한 얼굴의 색상을 변경하기 위해 사용될 수 있다(예: 얼굴을 녹색으로 만듦).

입술 동기화 및 얼굴 재연(325)은 사실적인(photorealistic) 얼굴 애니메이션을 초래할 수 있다. 도 10은 입술 동기화 및 얼굴 재연(325)의 예시적인 프로세스를 나타낸다. 도 10은 예시적인 실시예에 따른, 얼굴 싱크 배우의 얼굴 이미지(1005), 얼굴 싱크 배우의 얼굴 랜드 마크 이미지(1010), 사용자의 얼굴 랜드 마크 이미지(1015), 및 얼굴 싱크 배우의 얼굴 표정을 가진 사용자 얼굴 이미지(1020)를 나타낸다. 입술 동기화 및 얼굴 재연(325)의 단계는 얼굴 싱크 배우를 녹화(record)하는 단계 및 얼굴 싱크 배우 얼굴의 이미지(1005)를 획득하기 위해 소스 비디오/이미지를 전-처리하는 단계를 포함할 수 있다. 그리고, 얼굴 싱크 배우 얼굴 랜드 마크의 이미지(1010)에 도시된 것처럼 얼굴 랜드 마크가 추출될 수 있다. 이 단계는 또한 얼굴 싱크 배우의 시선 추적(gaze tracking)을 포함할 수 있다. 일부 실시예에서, 얼굴 싱크 배우를 녹화하는 대신, 미리 준비된 애니메이션 2D 또는 3D 얼굴 및 입 영역 모델이 사용될 수 있다. 애니메이션 2D 또는 3D 얼굴 및 입 영역 모델은 기계 학습 기술에 의해 생성될 수 있다.

선택적으로, 얼굴 랜드 마크의 미세 조정이 수행될 수 있다. 일부 예시적인 실시예에서, 얼굴 랜드 마크의 미세 조정은 수동으로 수행된다. 이러한 단계는 비디오 구성 파일을 준비할 때 클라우드에서 수행될 수 있다. 일부 예시적인 실시예에서, 이러한 단계는 리소스 준비(315) 동안 수행될 수 있다. 이후, 사용자의 얼굴 랜드마크의 이미지(1015)에 도시된 것처럼 사용자의 얼굴 랜드마크가 추출(extract)될 수 있다. 동기화 및 얼굴 재연(325)의 다음 단계는 얼굴 싱크 배우의 얼굴 표정을 갖는 사용자 얼굴의 이미지(1020)를 획득하기 위해 추출된 랜드 마크를 갖는 타겟 이미지의 애니메이션을 포함할 수 있다. 이 단계는 사용자의 얼굴 이미지에 기초하여 컴퓨팅 장치에서 수행될 수 있다. 애니메이션 방법은 미국 특허 출원 번호 16/251,472에 자세히 설명되어 있으며, 그 개시 내용은 전체가 본원에 참조로서 포함된다. 입술 동기화 및 얼굴 재연(325)은 또한 인공 지능으로-만들어진 머리 턴으로 풍부해질 수 있다.

일부 예시적인 실시예에서, 사용자가 이미지를 촬영한 후, 사용자 머리의 3D 모델이 생성될 수 있다. 이 실시예에서, 입술 동기화 및 얼굴 재연 단계(325)는 생략(omit)될 수 있다

헤어 애니메이션(330)은 사용자의 헤어를 애니메이션하기 위해 수행될 수 있다. 예를 들어, 사용자가 헤어를 가진 있는 경우, 사용자가 그의 머리를 움직이거나 회전할 때 헤어가 애니메이션될 수 있다. 헤어 애니메이션(330)이 도 1에 도시되어 있다. 도 11은 일 실시예에 따라 세그먼트된 얼굴 이미지(1105), 헤어 마스크(1110), 얼굴 이미지로 뒤틀린 헤어 마스크(1115), 및 얼굴 이미지에 적용된 헤어 마스크(1120)를 나타낸다. 헤어 애니메이션(330)은 다음 단계 중 하나 이상을 포함할 수 있다: 헤어 유형 분류, 헤어의 외형 수정(modifying appearance of the hair), 헤어 스타일 수정, 헤어 더 길게 만들기, 헤어색 변경, 헤어 절단 및 애니메이션, 및 등등. 도 11에 도시된 것처럼, 세그먼트된 얼굴 이미지(1105) 형태의 얼굴 이미지가 획득될 수 있다. 이후, 세그먼트된 얼굴 이미지(1105)에 헤어 마스크(1110)가 적용될 수 있다. 이미지(1115)는 얼굴 이미지로 뒤틀린 헤어 마스크(1110)를 나타낸다. 이미지(1120)는 얼굴 이미지에 적용된 헤어 마스크(1110)를 나타낸다. 헤어 애니메이션(330)은 미국 특허 출원 번호 16/551,756에 자세히 설명되어 있으며, 그 개시 내용은 그 전체가 본원에 참조로서 포함된다.

눈 애니메이션(335)은 사용자의 얼굴 표정을 더욱 현실적으로 만들 수 있다. 눈 애니메이션(335)은 도 12에 자세히 도시되어 있다. 눈 애니메이션(335)의 프로세스는 다음 단계로 구성될 수 있다: 사용자 얼굴의 눈 영역의 재구성(reconstruction), 시선 이동 단계, 및 눈 깜박임(eye blinking) 단계. 눈 영역을 재구성하는 동안 눈 영역은 안구(eyeball), 홍채(iris), 동공(pupil), 속눈썹(eyelashes), 및 눈꺼풀(eyelid) 부분으로 세그먼트된다. 눈 영역의 일부 부분(예: 홍채 또는 눈꺼풀)가 완전히 보이지 않으면, 이 부분의 전체적인 질감(full texture)이 합성(synthesize)될 수 있다. 일부 실시예에서, 눈의 3D 모핑 가능 모델(3D morphable model)이 끼워질(fit) 수 있고, 눈의 3D-모양이 눈의 질감과 함께 획득될 수 있다. 도 12는 눈의 원본 이미지(1205), 눈의 공막이 재구성된 이미지(1210), 및 홍채가 재구성된 이미지(1215)를 나타낸다.

시선 이동 단계는 얼굴 싱크 배우의 비디오에서 시선 방향 및 동공 위치를 추적하는 것을 포함한다. 이 데이터는 얼굴 싱크 배우의 눈 움직임이 충분하지 않은 경우 수동으로 편집될 수 있다. 얼굴 싱크 배우의 것과 동일한 홍채 위치 및 변형된 눈 모양을 갖는 새로운 눈 이미지를 합성함으로써 시선 움직임이 사용자의 눈 영역으로 전달될 수 있다. 도 12는 이동된 홍채가 재구성된 이미지(1220)를 나타낸다.

눈 깜박임 단계 동안, 사용자 눈의 보이는(visible) 부분은 얼굴 싱크 배우의 눈을 추적함으로써 결정될 수 있다. 눈꺼풀 및 속눈썹의 외형 변화는 눈 영역 재구성에 기초하여 가 발생될 수 있다.

눈 애니메이션(335)의 단계는 명시적으로(explicitly)(설명된 것처럼) 수행될 수 있거나 또는 얼굴 재연이 생성적 적대 신경망(generative adversarial networks, GAN)을 사용하여 수행되는 경우 암시적으로(implicitly) 수행될 수 있다. 후자의 경우 신경망은 사용자 얼굴의 이미지 및 소스 비디오에서 필요한 모든 정보를 암시적으로 캡처할 수 있다.

배포(340) 동안, 사용자 얼굴은 사실적으로 애니메이션되고 영상 템플릿에 자동으로 삽입될 수 있다. 이전 단계의 파일(자원 준비(315), 피부 재채색(320), 입술 동기화 및 얼굴 재연(325), 헤어 애니메이션(330), 및 눈 애니메이션(335)))은 구성 파일에 대한 데이터로 사용될 수 있다. 미리 정의된 사용자 얼굴 세트가 있는 개인화 비디오의 예시가 초기 검토를 위해 생성될 수 있다. 검토 중에 식별된(identified) 문제가 제거된 후에, 개인화 비디오는 배포될 수 있다.

구성 파일은 맞춤형 개인화 비디오에 대한 텍스트 파라미터를 지시(indicate)할 수 있는 구성 요소 또한 포함할 수 있다. 맞춤형 개인화 비디오는 사용자가 최종 비디오 위에 사용자가 원하는 임의의 텍스트를 추가할 수 있는 개인화 비디오 유형이다. 맞춤형 텍스트 메시지를 갖는 개인화 비디오를 생성하는 방법은 미국 특허 출원 번호 16/661,122, 2019년 10월23 일자, "맞춤형 텍스트 메시지를 갖는 개인화 비디오 생성 시스템 및 방법"이라는 제목으로 자세히 설명되어 있으며, 그 내용은 전체적으로 여기에 통합된다.

예시적인 실시 예에서, 개인화 비디오의 생성은 사용자의 머리의 상당한 머리 턴을 생성하는 동작; 신체 애니메이션 및 옷 변경하기; 헤어 스타일 변경, 미화(beautification), 액세서리 추가, 등과 같은 얼굴 확대(facial augmentation); 장면 조명 변경; 사용자가 입력한 텍스트를 읽거나/노래할 수 있는 음성을 합성하거나 또는 사용자의 음성에 맞게 보이스 오버 톤을 변경; 성별 전환; 사용자 입력에 따라 배경 및 전경 구성; 및 기타 등등을 포함할 수 있다.

도 4는 일부 예시적인 실시예에 따른 템플릿-기반 개인화 비디오 생성 시스템(250)의 기능(400)을 나타내는 개략도이다. 시스템(250)은 사용자 얼굴 이미지(405)로 표시된 소스 얼굴의 이미지 및 비디오 구성 데이터(410)를 포함하는 비디오 템플릿을 수신할 수 있다. 비디오 구성 데이터(410)는 데이터 시퀀스(420)를 포함할 수 있다. 예를 들어, 비디오 구성 데이터(410)는 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함할 수 있다. 각각의 얼굴 랜드마크 파라미터는 얼굴 표정에 대응할 수 있다. 프레임 이미지의 시퀀스는 애니메이션 비디오 또는 라이브 액션 비디오에 기초하여 생성될 수 있다. 얼굴 랜드마크 파라미터의 시퀀스는 얼굴 싱크 배우의 얼굴을 특징으로 하는 라이브 액션 비디오에 기초하여 생성될 수 있다. 비디오 구성 데이터(410)는 피부 마스크, 눈 파라미터, 입 영역 이미지, 머리 파라미터, 애니메이션 객체 이미지, 사전 설정 텍스트 파라미터(preset text parameter), 및 기타 등등을 더 포함할 수 있다. 비디오 구성 데이터는 프레임 이미지에 등장하는 적어도 하나의 배우의 신체의 피부 영역을 정의하는 피부 마스크의 시퀀스를 포함할 수 있다. 예시적인 실시예에서, 비디오 구성 데이터(410)는 입 영역 이미지의 시퀀스를 더 포함할 수 있다. 각각의 입 영역 이미지는 프레임 이미지 중 적어도 하나에 대응할 수 있다. 추가의 예시적인 실시예에서, 비디오 구성 데이터(410)는 프레임 이미지에 등장하는 얼굴 싱크 배우의 공막에서 홍채의 위치를 정의하는 눈 파라미터의 시퀀스 및/또는 머리의 회전, 턴, 스케일, 및 다른 파라미터를 정의하는 머리 파라미터의 시퀀스를 포함할 수 있다. 다른 예시적인 실시 예에서, 비디오 구성 데이터(410)는 애니메이션 객체 이미지의 시퀀스(sequence of animated object image)를 더 포함할 수 있다. 각각의 애니메이션 객체 이미지는 프레임 이미지들 중 적어도 하나에 대응할 수 있다. 비디오 구성 데이터(410)는 사운드 트랙(450)을 더 포함할 수 있다.

시스템(250)은 사용자 얼굴 이미지(405)에 기초하여 사용자 데이터(435)를 결정할 수 있다. 사용자 데이터는 사용자 얼굴 랜드 마크, 사용자 얼굴 마스크, 사용자 색 데이터, 사용자 헤어 마스크 등을 포함할 수 있다.

시스템(250)은 사용자 데이터(435) 및 데이터 시퀀스(420)에 기초하여 개인화 비디오(440)로 표시된 출력 비디오의 프레임(445)을 생성할 수 있다. 시스템(250)은 개인화 비디오(440)에 사운드 트랙을 더 추가할 수 있다. 개인화 비디오(440)는 프레임 이미지 시퀀스의 프레임 이미지를 수정하여 생성될 수 있다. 프레임 이미지의 수정은 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택한 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 사용자 얼굴 이미지(405)를 수정하는 것을 포함할 수 있다. 수정은 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 수행될 수 있다. 추가 이미지는 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 프레임 이미지에 삽입될 수 있다. 예시적인 실시예에서, 출력 비디오의 생성은 소스 얼굴과 연관된 색 데이터를 결정하는 것 및 색 데이터에 기초하여 프레임 이미지의 피부 영역을 재채색하는 것을 더 포함할 수 있다. 또한, 출력 비디오의 생성은 프레임 이미지에 대응하는 입 영역을 프레임 이미지에 삽입하는 것을 포함할 수 있다. 출력 비디오 생성의 추가 단계는 프레임에 대응하는 눈 파라미터에 기초하여 눈 영역 이미지를 생성하는 것 및 프레임 이미지에 눈 영역 이미지를 삽입하는 것을 포함할 수 있다. 예시적인 실시예에서, 출력 비디오의 생성은 소스 얼굴 이미지에 기초하여 헤어 마스크를 결정하는 것, 프레임 이미지에 대응하는 헤어 마스크 및 머리 파라미터에 기초하여 헤어 이미지를 생성하는 것, 및 헤어 이미지를 프레임 이미지에 삽입하는 것을 더 포함할 수 있다. 추가적으로, 출력 비디오의 생성은 프레임 이미지에 대응하는 애니메이션 객체 이미지를 프레임 이미지에 삽입하는 것을 포함할 수 있다.

도 13 내지 14는 일부 예시적인 실시예에 따라, 비디오 템플릿에 기초하여 생성된 예시적인 개인화 비디오의 프레임을 나타낸다. 도 13은 재채색이 수행된 배우와 함께 촬영된 개인화 비디오(1305)를 나타낸다. 도 13은 제3자로부터 획득한 스톡 비디오(stock video)에 기초하여 생성된 개인화 비디오(1310)를 더 나타낸다. 개인화 비디오(1310)에서, 스톡 비디오에 사용자 얼굴(1320)이 삽입된다. 도 13은 2D 애니메이션 위에 사용자 머리(1325)가 추가된 2D 애니메이션 개인화 비디오(1315)를 더 나타낸다.

도 14는 사용자 얼굴(1415)이 3D 애니메이션에 삽입된 3D 애니메이션 개인화 비디오(1405)를 나타낸다. 도 14는 또한 효과, 애니메이션 요소(1420), 및 선택적으로, 사용자 얼굴의 이미지 위에 추가된 텍스트를 갖는 개인화 비디오(1410)를 나타낸다.

도 15는 본 개시의 일부 예시적인 실시예에 따른, ??플릿 기반 개인화 비디오 생성 방법(1500)을 보여주는 흐름도이다. 방법(1500)은 컴퓨팅 장치(105)에 의해 수행될 수 있다. 방법(1500)은 단계 1505에서 비디오 구성 데이터를 수신하는 것으로 시작할 수 있다. 비디오 구성 데이터는 프레임 이미지의 시퀀스, 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스, 및 프레임 이미지에서 얼굴 랜드 마크의 위치를 정의하는 얼굴 랜드 마크 파라미터의 시퀀스를 포함할 수 있다. 각각의 얼굴 랜드 마크 파라미터는 얼굴 표정에 대응할 수 있다. 예시적인 실시예에서, 프레임 이미지의 시퀀스는 애니메이션 비디오 또는 라이브 액션 비디오에 기초하여 생성될 수 있다. 얼굴 랜드 마크 파라미터의 시퀀스는 얼굴 싱크 배우의 얼굴을 특징으로 하는 라이브 액션 비디오에 기초하여 생성될 수 있다. 비디오 구성 데이터는 다음 중 하나 이상을 포함할 수 있다: 프레임 이미지에 등장하는 적어도 하나의 배우의 신체의 피부 영역을 정의하는 피부 마스크의 시퀀스, 각각의 입 영역 이미지가 프레임 이미지 중 적어도 하나에 대응하는 입 영역 이미지의 시퀀스, 프레임 이미지에 등장하는 얼굴 싱크 배우의 공막에서 홍채의 위치를 정의하는 눈 파라미터의 시퀀스, 회전, 스케일, 턴, 및 기타 머리의 파라미터 정의하는 머리 파라미터의 시퀀스, 각각의 애니메이션 객체 이미지는 프레임 이미지 중 적어도 하나에 대응하는 애니메이션 객체 이미지의 시퀀스, 및 기타 등등.

방법(1500)은 단계 1510에서 소스 얼굴의 이미지를 수신하며 계속할 수 있다. 방법(1500)은 단계 1515에서 출력 비디오를 생성하는 동작을 더 포함할 수 있다. 구체적으로, 출력 비디오의 생성은 프레임 이미지 시퀀스의 프레임 이미지를 수정하는 것을 포함할 수 있다. 얼굴 랜드 마크 파라미터에 대응하는 얼굴 표정을 채택한 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 소스 얼굴의 이미지를 수정함으로써 프레임 이미지는 수정될 수 있다. 소스 얼굴의 이미지는 프레임 이미지에 대응하는 얼굴 랜드 마크 파라미터에 기초하여 수정될 수 있다. 추가 이미지는 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 프레임 이미지에 삽입될 수 있다. 예시적인 실시예에서, 출력 비디오의 생성은 다음 단계 중 하나 이상을 선택적으로 더 포함할 수 있다: 소스 얼굴과 관련된 색 데이터를 결정하고, 색 데이터에 기초하여 프레임 이미지의 피부 영역을 재채색하는 단계, 프레임 이미지에 대응하는 입 영역을 프레임 이미지에 삽입하는 단계, 프레임에 대응하는 눈 파라미터에 기초하여 눈 영역의 이미지를 생성하고, 프레임 이미지에 눈 영역의 이미지를 삽입하는 단계, 소스 얼굴 이미지에 기초하여 헤어 마스크를 결정하고, 프레임 이미지에 대응하는 헤어 마스크 및 머리 파라미터에 기초하여 헤어 이미지를 생성하고, 헤어 이미지를 프레임 이미지에 삽입하는 단계, 및 프레임 이미지에 대응하는 애니메이션 객체 이미지를 프레임 이미지에 삽입하는 단계.

도 16은 여기에 설명된 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 시스템 (1600)을 도시한다. 컴퓨팅 시스템(1600)은 컴퓨팅 장치(105, 110), 메신저 서비스 시스템(130), 메신저(220), 및 템플릿-기반 개인화 비디오 생성 시스템(250)과 같은 맥락에서 구현될 수 있다.

도 16에 나타난 것처럼, 컴퓨팅 시스템(1600)의 하드웨어 구성 요소는 하나 이상의 프로세서(1610) 및 메모리(1620)를 포함할 수 있다. 메모리(1620)는, 부분적으로, 프로세서(1610)에 의한 실행을 위한 명령 및 데이터를 저장한다. 메모리(1620)는 시스템(1600)이 동작할 때 실행 가능한 코드를 저장할 수 있다. 시스템(1600)은 선택적 매스 스토리지 장치(1630), 선택적 휴대용 스토리지 매체 드라이브(들)(1640), 하나 이상의 선택적 출력 장치(1650), 하나 이상의 선택적 입력 장치(1660), 선택적 네트워크 인터페이스(1670), 및 하나 이상의 선택적 주변 장치 (1680)를 추가로 포함할 수 있다. 컴퓨팅 시스템(1600)은 또한 하나 이상의 소프트웨어 구성 요소(1695)(예: 여기에 설명된 템플릿-기반 개인화 비디오 생성 방법을 구현할 수 있는 것)를 포함할 수 있다.

도 16에 표시된 구성 요소는 단일 버스(1690)을 통해 연결된 것으로 묘사된다. 구성 요소는 하나 이상의 데이터 전송 수단 또는 데이터 네트워크를 통해 연결될 수 있다. 프로세서(1610) 및 메모리(1620)는 로컬 마이크로 프로세서 버스를 통해 연결될 수 있고, 매스 스토리지(1630), 주변 장치(들)(1680), 휴대용 스토리지(1640), 및 네트워크 인터페이스(1670)는 하나 이상의 입력/출력(I/O) 버스를 통해 연결될 수 있다.

자기 디스크 드라이브, 솔리드 스테이트 디스크 드라이브, 또는 광 디스크 드라이브로 구현될 수 있는 매스 스토리지 장치(1630)는 프로세서(1610)에 의해 사용되는 데이터 및 명령을 저장하기 위한 비-휘발성 스토리지 장치이다. 매스 스토리지 장치(1630)는 여기서 설명된 실시예들을 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1695))를 저장할 수 있다.

휴대용 스토리지 매체 드라이브(들)(1640)는 컴팩트 디스크(CD) 또는 디지털 비디오 디스크(DVD)와 같은 휴대용 비-휘발성 스토리지 매체와 함께 작동하여 컴퓨팅 시스템(1600)에 데이터 및 코드를 입력 및 출력한다. 여기서 설명된 실시예를 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1695))는 그러한 휴대용 매체에 저장될 수 있고 휴대용 스토리지 매체 드라이브(들)(1640)를 통해 컴퓨팅 시스템(1600)에 입력될 수 있다.

선택적 입력 장치(1660)는 사용자 인터페이스의 일부를 제공한다. 입력 장치(1660)는 영숫자(alphanumeric) 및 기타 정보를 입력하기 위한 키보드와 같은 영숫자 키패드(alphanumeric keypad), 또는 마우스, 트랙볼(trackball), 스타일러스(stylus), 또는 커서 방향 키(cursor direction key)와 같은 포인팅 장치를 포함할 수 있다. 입력 장치(1660)는 또한 카메라 또는 스캐너를 포함할 수 있다. 추가적으로, 도 16에 도시된 시스템(1600)은 선택적 출력 장치(1650)를 포함한다. 적합한 출력 장치는 스피커, 프린터, 네트워크 인터페이스, 및 모니터를 포함한다.

네트워크 인터페이스(1670)는, 예를 들어, 인터넷, 인트라넷, LAN, WAN, 휴대폰 네트워크, 블루투스 라디오, 및 IEEE 802.11-기반 무선 주파수 네트워크 등을 포함하는 하나 이상의 유선, 무선, 또는 광 네트워크와 같은 하나 이상의 통신 네트워크를 통해 외부 장치, 외부 컴퓨팅 장치, 서버, 및 네트워크 시스템과 통신하는 데 사용될 수 있다. 네트워크 인터페이스(1670)는 이더넷 카드, 광 트랜시버, 무선 주파수 트랜시버, 또는 정보를 송수신할 수 있는 임의의 다른 유형의 장치와 같은 네트워크 인터페이스 카드일 수 있다. 선택적인 주변 장치(1680)는 컴퓨터 시스템에 추가 기능을 추가하기 위해 임의의 유형의 컴퓨터 지원 장치를 포함할 수 있다.

컴퓨팅 시스템(1600)에 포함된 구성 요소는 넓은 범주의 컴퓨터 구성 요소를 나타내도록 의도된다. 따라서, 컴퓨팅 시스템(1600)은 서버, 개인용 컴퓨터, 핸드-헬드 컴퓨팅 장치, 전화, 모바일 컴퓨팅 장치, 워크 스테이션, 미니 컴퓨터, 메인 프레임 컴퓨터, 네트워크 노드, 또는 임의의 다른 컴퓨팅 장치일 수 있다. 컴퓨팅 시스템(1600)은 또한 상이한 버스 구성, 네트워크화된 플랫폼, 멀티-프로세서 플랫폼, 및 기타 등등을 포함할 수 있다. UNIX, Linux, Windows, Macintosh OS, Palm OS, 및 기타 적합한 운영 체제를 포함하여 다양한 운영 체제(OS)가 사용될 수 있다.

전술한 기능 중 일부는 스토리지 매체(예: 컴퓨터-판독 가능 매체 또는 프로세서-판독 가능 매체)에 저장된 명령어로 구성될 수 있다. 명령어는 프로세서에 의해 검색되고 실행될 수 있다. 스토리지 매체의 예로는 메모리 장치, 테이프, 디스크, 및 기타 등이 있다. 프로세서가 본 발명에 따라 동작하도록 지시하기 위해 명령은 프로세서에 의해 실행될 때 동작한다. 당업자는 명령어, 프로세서(들), 및 스토리지 매체에 익숙하다.

여기서 설명된 처리를 수행하기에 적합한 임의의 하드웨어 플랫폼이 본 발명에 사용하기에 적합하다는 것은 주목할 점이다. 여기서 사용된 용어 "컴퓨터-판독 가능 스토리지 매체(computer-readable storage medium)" 및 "컴퓨터-판독 가능 저장 매체(computer-readable storage media)"는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체(medium) 또는 매체(media)를 지칭한다. 이러한 매체는 비-휘발성 매체, 및 휘발성 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비 휘발성 매체는, 예를 들어, 고정 디스크와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 시스템 RAM(Random Access Memory)과 같은 동적 메모리를 포함한다. 컴퓨터-판독 가능 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 기타 자기 매체, CD-읽기-전용 메모리(ROM) 디스크, DVD, 기타 광학 매체, 마크 또는 구멍 패턴이 있는 기타 물리적 매체, RAM, PROM, EPROM, EEPROM, 기타 메모리 칩 또는 카트리지, 반송파, 또는 컴퓨터가 읽을 수 있는 기타 매체를 포함한다.

다양한 형태의 컴퓨터-판독 가능 매체는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 전달하는 데 관련(involve)될 수 있다. 버스는 프로세서가 명령을 검색하고 실행하는 시스템 RAM으로 데이터를 전달한다. 시스템 프로세서에 의해 수신된 명령은 프로세서에 의해 실행되기 전후에 고정 디스크에 선택적으로 저장될 수 있다.

따라서, 템플릿-기반 개인화 비디오의 생성 방법 및 시스템은 설명되었다. 실시예가 특정 예시적인 실시예를 참조하여 설명되었지만, 본 출원의 더 넓은 사상 및 범위를 벗어나지 않고 이러한 예시적인 실시예에 대해 다양한 수정 및 변경이 이루어질 수 있음은 자명할 것이다. 따라서, 명세서 및 도면은 제한적인 의미가 아닌 예시적인 의미로 간주되어야 한다.

Claims

템플릿-기반 개인화 비디오 생성 방법에 있어서,
컴퓨팅 장치에 의해, 메신저 서비스 시스템으로부터 다음을 포함하는 비디오 구성 데이터를 포함하는 비디오 템플릿을 수신하는 동작;
프레임 이미지의 시퀀스 - 상기 프레임 이미지의 시퀀스는 제1 라이브 액션 비디오에 기초하여 생성됨 -;
상기 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스; 및
얼굴 랜드마크의 위치를 정의하는 얼굴 랜드마크 파라미터의 시퀀스- 각각의 상기 얼굴 랜드마크 파라미터는 얼굴 표정(expression)에 대응하고, 상기 얼굴 랜드마크 파라미터의 시퀀스는 얼굴 싱크 배우의 얼굴을 특징으로 하는 제2 라이브 액션 비디오에 기초하여 생성되며, 상기 제1 라이브 액션 비디오는 상기 제2 라이브 액션 비디오와 서로 다름 -;
상기 컴퓨팅 장치에 의해, 소스 얼굴의 이미지를 수신하는 동작; 및
상기 컴퓨팅 장치에 의해, 출력 비디오를 생성하는 동작
을 포함하고,
상기 출력 비디오를 생성하는 동작은, 상기 프레임 이미지의 시퀀스의 프레임 이미지를 수정하는 동작을 포함하고, 상기 수정하는 동작은:
상기 프레임 이미지에 대응하는 얼굴 랜드마크 파라미터에 기초하여, 상기 얼굴 랜드마크 파라미터에 대응하는 얼굴 표정을 채택한 상기 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 상기 소스 얼굴의 이미지를 수정하는 동작; 및
상기 프레임 이미지에 대응하는 상기 얼굴 영역 파라미터에 의해 결정된 위치에서 상기 추가 이미지를 상기 프레임 이미지에 삽입하는 동작
에 의해 수행되고,
상기 비디오 템플릿은 상기 제1 및 상기 제2 라이브 액션 비디오 중 어느 하나에 기초하여 생성되는, 방법.
삭제
삭제
제1항에 있어서,
상기 비디오 구성 데이터는,
상기 프레임 이미지에 등장하는 적어도 하나의 배우의 신체의 피부 영역 또는 2D/3D 애니메이션의 추가 신체의 피부 영역을 정의하는 피부 마스크의 시퀀스를 포함하고; 및
상기 출력 비디오를 생성하는 동작은,
상기 소스 얼굴과 연관된 색 데이터를 결정하는 동작; 및
상기 색 데이터에 기초하여 상기 프레임 이미지의 상기 피부 영역을 재채색하는 동작
을 포함하는, 방법.
제1항에 있어서,
상기 비디오 구성 데이터는,
입 영역 이미지의 시퀀스를 더 포함하고, -각각의 상기 입 영역 이미지는 상기 프레임 이미지 중 적어도 하나에 대응함 -; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임 이미지에 대응하는 입 영역을 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 방법.
제1항에 있어서,
상기 비디오 구성 데이터는,
상기 프레임 이미지에 등장하는 얼굴 싱크 배우의 공막에서 홍채의 위치를 정의하는 눈 파라미터의 시퀀스를 더 포함하고; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임에 대응하는 눈 파라미터에 기초하여 눈 영역의 이미지를 생성하는 동작; 및
상기 프레임 이미지에 상기 눈 영역 이미지를 삽입하는 동작
을 포함하는, 방법.
제1항에 있어서,
상기 비디오 구성 데이터는,
머리의 회전, 턴, 위치, 및 스케일 중 하나 이상을 정의하는 머리 파라미터의 시퀀스
를 포함하는, 방법.
제1항에 있어서,
상기 출력 비디오를 생성하는 동작은,
상기 소스 얼굴의 이미지에 기초하여 헤어 마스크를 결정하는 동작;
상기 헤어 마스크에 기초하여 헤어 이미지를 생성하는 동작; 및
상기 헤어 이미지를 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 방법.
제1항에 있어서,
상기 비디오 구성 데이터는,
애니메이션 객체 이미지의 시퀀스를 포함하고, - 각각의 상기 애니메이션 객체 이미지는 상기 프레임 이미지 중 적어도 하나에 대응함 -; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임 이미지에 대응하는 애니메이션 객체 이미지를 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 방법.
제1항에있어서,
상기 비디오 구성 데이터는,
사운드 트랙을 포함하고; 및
상기 출력 비디오를 생성하는 동작은,
상기 출력 비디오에 상기 사운드 트랙을 추가하는 동작
을 더 포함하는, 방법.
템플릿-기반 개인화 비디오 생성 시스템에 있어서,
상기 시스템은,
적어도 하나의 프로세서; 및
프로세서-실행 가능 코드를 저장하는 메모리
를 포함하고,
상기 적어도 하나의 프로세서는 상기 프로세서-실행 가능 코드를 실행할 때 다음과 같은 동작:
메신저 서비스 시스템으로부터, 다음을 포함하는 비디오 구성 데이터를 포함하는 비디오 템플릿을 수신하는 동작;
프레임 이미지의 시퀀스 - 상기 프레임 이미지의 시퀀스는 제1 라이브 액션 비디오에 기초하여 생성됨 -;
상기 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스; 및
얼굴 랜드마크의 위치를 정의하는 얼굴 랜드마크 파라미터의 시퀀스- 각각의 상기 얼굴 랜드마크 파라미터는 얼굴 표정(expression)에 대응하고, 상기 얼굴 랜드마크 파라미터의 시퀀스는 얼굴 싱크 배우의 얼굴을 특징으로 하는 제2 라이브 액션 비디오에 기초하여 생성되며, 상기 제1 라이브 액션 비디오는 상기 제2 라이브 액션 비디오와 서로 다름 -;
소스 얼굴의 이미지를 수신하는 동작; 및
출력 비디오를 생성하는 동작
을 포함하고,
상기 출력 비디오를 생성하는 동작은, 상기 프레임 이미지의 시퀀스의 프레임 이미지를 수정하는 동작을 포함하고, 상기 수정하는 동작은:
상기 프레임 이미지에 대응하는 얼굴 랜드마크 파라미터에 기초하여, 상기 얼굴 랜드마크 파라미터에 대응하는 얼굴 표정을 채택한 상기 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 상기 소스 얼굴의 이미지를 수정하는 동작; 및
상기 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 상기 추가 이미지를 상기 프레임 이미지에 삽입하는 동작
에 의해 수행되고,
상기 비디오 템플릿은 상기 제1 및 상기 제2 라이브 액션 비디오 중 어느 하나에 기초하여 생성되는, 시스템.
삭제
삭제
제11항에 있어서,
상기 비디오 구성 데이터는,
상기 프레임 이미지에 등장하는 적어도 하나의 배우의 신체의 피부 영역 또는 2D/3D 애니메이션의 추가 신체의 피부 영역을 정의하는 피부 마스크의 시퀀스를 포함하고; 및
상기 출력 비디오를 생성하는 동작은,
상기 소스 얼굴과 연관된 색 데이터를 결정하는 동작; 및
상기 색 데이터에 기초하여 상기 프레임 이미지의 상기 피부 영역을 재채색하는 동작
을 포함하는, 시스템.
제11항에 있어서,
상기 비디오 구성 데이터는,
입 영역 이미지의 시퀀스를 더 포함하고, -각각의 상기 입 영역 이미지는 상기 프레임 이미지 중 적어도 하나에 대응함 -; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임 이미지에 대응하는 입 영역을 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 시스템.
제11항에 있어서,
상기 비디오 구성 데이터는,
상기 프레임 이미지에 등장하는 얼굴 싱크 배우의 공막에서 홍채의 위치를 정의하는 눈 파라미터의 시퀀스를 더 포함하고; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임에 대응하는 눈 파라미터에 기초하여 눈 영역의 이미지를 생성하는 동작; 및
상기 프레임 이미지에 상기 눈 영역 이미지를 삽입하는 동작
을 포함하는, 시스템.
제11항에 있어서,
상기 비디오 구성 데이터는,
머리의 회전, 턴, 위치, 및 스케일 중 하나 이상을 정의하는 머리 파라미터의 시퀀스
를 포함하는, 시스템.
제11항에 있어서,
상기 출력 비디오를 생성하는 동작은,
상기 소스 얼굴의 이미지에 기초하여 헤어 마스크를 결정하는 동작;
상기 헤어 마스크에 기초하여 헤어 이미지를 생성하는 동작; 및
상기 헤어 이미지를 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 시스템.
제11항에 있어서,
상기 비디오 구성 데이터는,
애니메이션 객체 이미지의 시퀀스를 포함하고, - 각각의 상기 애니메이션 객체 이미지는 상기 프레임 이미지 중 적어도 하나에 대응함 -; 및
상기 출력 비디오를 생성하는 동작은,
상기 프레임 이미지에 대응하는 애니메이션 객체 이미지를 상기 프레임 이미지에 삽입하는 동작
을 포함하는, 시스템.
명령어가 저장된 비-일시적 프로세서-판독 가능 매체에 있어서,
하나 이상의 프로세서에 의해 상기 명령어가 실행될 때, 하나 이상의 프로세서가 템플릿-기반 개인화 비디오 생성 방법을 구현하게 하고, 상기 방법은:
메신저 서비스 시스템으로부터, 다음을 포함하는 비디오 구성 데이터를 포함하는 비디오 템플릿을 수신하는 동작;
프레임 이미지의 시퀀스 - 상기 프레임 이미지의 시퀀스는 제1 라이브 액션 비디오에 기초하여 생성됨 -;
상기 프레임 이미지에서 얼굴 영역의 위치를 정의하는 얼굴 영역 파라미터의 시퀀스; 및
얼굴 랜드마크의 위치를 정의하는 얼굴 랜드마크 파라미터의 시퀀스- 각각의 상기 얼굴 랜드마크 파라미터는 얼굴 표정(expression)에 대응하고, 상기 얼굴 랜드마크 파라미터의 시퀀스는 얼굴 싱크 배우의 얼굴을 특징으로 하는 제2 라이브 액션 비디오에 기초하여 생성되며, 상기 제1 라이브 액션 비디오는 상기 제2 라이브 액션 비디오와 서로 다름 -;
소스 얼굴의 이미지를 수신하는 동작; 및
출력 비디오를 생성하는 동작
을 포함하고,
상기 출력 비디오를 생성하는 동작은, 상기 프레임 이미지의 시퀀스의 프레임 이미지를 수정하는 동작을 포함하고, 상기 수정하는 동작은:
상기 프레임 이미지에 대응하는 얼굴 랜드마크 파라미터에 기초하여, 상기 얼굴 랜드마크 파라미터에 대응하는 얼굴 표정을 채택한 상기 소스 얼굴을 특징으로 하는 추가 이미지를 획득하기 위해 상기 소스 얼굴의 이미지를 수정하는 동작; 및
상기 프레임 이미지에 대응하는 얼굴 영역 파라미터에 의해 결정된 위치에서 상기 추가 이미지를 상기 프레임 이미지에 삽입하는 동작
에 의해 수행되고,
상기 비디오 템플릿은 상기 제1 및 상기 제2 라이브 액션 비디오 중 어느 하나에 기초하여 생성되는, 비-일시적 프로세서 판독 가능 매체.