KR20230113370A

KR20230113370A - 얼굴 애니메이션 합성

Info

Publication number: KR20230113370A
Application number: KR1020237021881A
Authority: KR
Inventors: 파벨 사브첸코브; 유리 볼코브; 제레미 베이커 보스
Original assignee: 스냅 인코포레이티드
Priority date: 2020-11-30
Filing date: 2021-11-19
Publication date: 2023-07-28
Also published as: CN116547717A; WO2022115325A1; US20220172438A1; US20220270332A1; US11335069B1; EP4252192A1

Abstract

일부 실시예들에서, 증강 현실 기술에 관여하는 사용자들의 경험은 비디오의 프레임들에서의 배우의 얼굴을 사용자의 초상화 이미지로부터의 사용자의 얼굴로 대체하는 얼굴 애니메이션 합성이라고 지칭되는 프로세스를 제공함으로써 향상된다. 비디오의 프레임들에서의 결과적인 얼굴은 배우의 얼굴의 얼굴 표정들뿐만 아니라 컬러 및 조명도 유지하지만, 동시에, 사용자의 얼굴의 유사성을 갖는다. 예시적인 얼굴 애니메이션 합성 경험은 얼굴 애니메이션 합성 증강 현실 컴포넌트를 제공함으로써 메시징 시스템의 사용들에 이용가능하게 될 수 있다.

Description

얼굴 애니메이션 합성

우선권 주장

본 출원은 2020년 11월 30일자로 출원된 미국 특허 출원 제17/107,410호에 대해 우선권의 이익을 주장하며, 이는 그 전체가 본 명세서에 참고로 포함된다.

기술 분야

본 개시내용은 일반적으로 전자 콘텐츠를 조작하는 것에 관한 것이다.

얼굴 애니메이션 합성은 소스 이미지(예를 들어, 소스 비디오 내의 프레임)로부터의 얼굴의 얼굴 표정을 타겟 이미지 내의 얼굴로 전사하는 것을 포함할 수 있는 프로세스이다. 얼굴 애니메이션 합성을 위한 기존의 기술들이 있지만, 한편으로는 소스 이미지에서의 얼굴 표정에 대해 참이고, 다른 한편으로는 타겟 이미지로부터의 얼굴의 아이덴티티 특징들에 대해 참인 얼굴 애니메이션 합성의 결과를 만드는 분야에서의 개선을 위한 상당한 여지가 있다. 얼굴 애니메이션 합성의 응용들은 엔터테인먼트 쇼들, 컴퓨터 게임들, 비디오 대화들에서뿐만 아니라, 메시징 시스템에서 증강 현실 경험들을 제공할 때 유익할 수 있다.

반드시 축척대로 그려진 것은 아닌 도면들에서, 유사한 번호들은 상이한 도면들에서 유사한 컴포넌트들을 설명할 수 있다. 임의의 특정 요소 또는 액트의 논의를 쉽게 식별하기 위해, 참조 번호의 최상위 숫자 또는 숫자들은 그 요소가 처음 소개되는 도면 번호를 지칭한다. 일부 실시예들은 첨부 도면들의 도면들에서 제한이 아닌 예로서 예시된다. 도면들에서:
도 1은 일부 예들에 따른, 본 개시내용이 배치될 수 있는 네트워킹 환경의 도식적 표현이다.
도 2는 일부 예들에 따른, 클라이언트측 및 서버측 기능 둘 다를 갖는 메시징 시스템의 도식적 표현이다.
도 3은 일부 예들에 따른, 데이터베이스에 유지되는 바와 같은 데이터 구조의 도식적 표현이다.
도 4는 일부 예들에 따른, 메시지의 도식적 표현이다.
도 5는 일부 예들에 따른, 액세스-제한 프로세스에 대한 흐름도이다.
도 6은 일부 예들에 따른, 얼굴 애니메이션 합성을 이용하여 증강 현실 경험을 제공하기 위한 흐름도이다.
도 7은 사용자를 묘사하는 이미지, 배우를 묘사하는 이미지, 및 얼굴 애니메이션 합성 프로세스로부터 생성된 이미지의 예를 예시한다.
도 8은 얼굴 표정을 결정하는 얼굴 특징들의 각각의 위치들을 식별하는 얼굴 랜드마크들의 세트의 예를 예시한다.
도 9는 일부 예들에 따른, 카메라의 디지털 이미지 센서의 출력 및 수정된 소스 프레임을 디스플레이하는 카메라 뷰 사용자 인터페이스의 도식적 표현이다.
도 10은 일부 예들에 따른, 카메라의 디지털 이미지 센서의 출력 대신에 수정된 소스 프레임을 디스플레이하는 카메라 뷰 사용자 인터페이스의 도식적 표현이다.
도 11은 일부 예들에 따른, 머신으로 하여금 본 명세서에서 논의된 방법들 중 임의의 하나 이상을 수행하게 하기 위해 명령어들의 세트가 실행될 수 있는 컴퓨터 시스템의 형태의 머신의 도식적 표현이다.

본 개시내용의 실시예들은 증강 현실 기술에 관여하는 사용자들의 경험을 향상시킴으로써 전자 메시징 소프트웨어 및 시스템들의 기능을 개선한다.

일부 실시예들에서, 증강 현실 기술에 관여하는 사용자들의 경험은, 비디오의 프레임들에서의 배우의 얼굴을 사용자의 초상화 이미지로부터의 사용자의 얼굴로 대체하여, 비디오의 프레임들에서의 결과적인 얼굴이 배우의 얼굴의 얼굴 표정들 및 컬러 및 조명을 유지하지만 사용자의 얼굴의 유사성을 갖게 하는, 얼굴 애니메이션 합성이라고 지칭되는 프로세스를 제공함으로써 향상될 수 있다. 사용자를 묘사하는 이미지, 배우를 묘사하는 이미지, 및 얼굴 애니메이션 합성 프로세스로부터 생성된 이미지의 예가 도 7에 예시되며, 이는 아래에 더 설명된다. 일부 실시예들에서, 얼굴 애니메이션 합성의 프로세스는 머신 러닝 기술, 예를 들어, 컨볼루션 신경망들을 이용한다.

제1 신경망, 즉 임베더 머신 러닝 모델은 타겟 얼굴 객체를 포함하는 이미지에 기초하여, 타겟 얼굴 객체의 얼굴 특징들을 나타내는 임베딩을 생성하도록 구성된다. 단어 "타겟"은 타겟 얼굴 객체가 다른 사람의 얼굴 표정이 투영되는 타겟으로서 설명될 수 있기 때문에 사용된다. 임베딩에 의해 표현되는 얼굴 특징들은, 연관된 얼굴 표정에 관계없이 그리고 얼굴의 컬러 및 조명에 관계없이, 사람 얼굴을 특정 사람으로서 인식가능하게 만드는 특성들을 포함한다. 얼굴 특징들의 예들은 눈, 코, 입, 눈썹의 각각의 크기들 및 형상들뿐만 아니라, 주름들 및 수염들과 같은 특징들을 포함한다. 임베딩은 얼굴 객체에 의해 묘사된 사람의 유사성을 표현한다고 말할 수 있다. 얼굴 객체는 사용자의 초상화 이미지로부터, 예를 들어, 사용자의 셀피로부터 획득된다. 얼굴 객체는 예를 들어 Viola-Jones 특징 기반 객체 검출 프레임워크 또는 MTCNN(Multi-Task Cascaded Convolutional Neural Network)을 이용하여 얼굴 검출 기술에 의해 이미지로부터 도출될 수 있다. 일례에서, 임베딩은 수치 텐서의 형태로 임베더 머신 러닝 모델에 의해 생성된다.

생성기 머신 러닝 모델로 지칭되는 다른 신경망은 사용자의 초상화 이미지로부터의 사용자의 얼굴을 비디오의 프레임들 내의 얼굴과(예를 들어, 영화로부터의 짧은 비디오 클립 내의 배우의 얼굴과) 혼합하여, 비디오의 프레임들 내의 결과적인 얼굴이 배우의 얼굴의 얼굴 표정들을 유지하지만 사용자의 얼굴의 유사성을 갖게 하도록 구성된다. 비디오는 소스 비디오라고 지칭되는데, 왜냐하면 그것은 초상화 이미지로부터의 사용자에 대한 얼굴 표정 및 배경 풍경의 소스인 것으로 이해될 수 있기 때문이다.

생성기 머신 러닝 모델에 대한 입력은 사용자의 초상화 이미지 및 소스 비디오의 프레임들에 기초하여 임베더 머신 러닝 모델에 의해 생성된 임베딩이다. 생성기 머신 러닝 모델에 입력으로서 제공되는 소스 비디오에서, 각각의 프레임 내의 얼굴 영역(턱라인과 눈썹들 사이의 영역)은 배우의 입이 열려 있는 프레임들에서 배우의 입의 내부를 묘사하는 영역을 제외하고는 분명하지 않다. 또한, 생성기 머신 러닝 모델은 입력으로서, 각각의 프레임에서의 배우의 얼굴 표정의 표현을 수신한다. 얼굴 표정은, 예를 들어, 입 및 눈썹의 위치 및 배향, 시선의 방향을 결정하는 동공의 위치 및 배향 등의, 얼굴 표정을 결정하는 얼굴 특징들의 각각의 위치들을 식별하는 얼굴 랜드마크들의 세트에 의해 인코딩된다. 얼굴 표정을 결정하는 얼굴 특징들의 각각의 위치들을 식별하는 얼굴 랜드마크들의 세트의 예가 도 8에 예시되어 있고, 아래에 더 설명된다. 얼굴 객체에 대한 얼굴 랜드마크들의 세트는 미리 훈련된 랜드마크 검출 모델에 의해 생성될 수 있다. 생성기 머신 러닝 모델의 출력은 비디오의 프레임들이며, 여기서 배우의 얼굴은 그의 원래 얼굴 표정들 및 컬러 및 조명을 유지하면서 사용자의 유사성을 갖는다.

생성기 머신 러닝 모델은 말하는 사람들의 비디오들(예를 들어, 인터뷰에서와 같이, 질문들에 대답하는 사람들의 비디오들)의 훈련 데이터세트를 사용하여 훈련될 수 있다. 훈련 동안, 생성기 머신 러닝 모델 신경망은 동일한 비디오로부터 상이한 프레임들의 형태로 입력들을 수신하고, 여기서 프레임들은 동일한 사람(예를 들어, 배우)을 묘사한다. 배우를 묘사하는 입력 프레임들은 배우의 얼굴 표정(예컨대, 입 및 눈썹들의 위치 및 배향, 시선의 방향을 결정하는 동공들의 위치 및 배향 등)을 결정하는 특징들을 유지하면서, 배우의 고유 아이덴티티(예컨대, 눈들의 형상 및 크기, 눈들 사이의 거리, 입의 형상 및 크기 등)를 결정하는 얼굴 특징들을 제거하도록 수정된다. 이미지에 묘사된 얼굴 표정은 입 및 눈썹들의 위치 및 배향, 시선의 방향을 결정하는 동공들의 위치 및 배향 등과 같은 특징들을 표시하는 랜드마크들의 세트의 형태로 인코딩될 수 있다.

생성기 머신 러닝 모델과 같이 임베더 머신 러닝 모델은 말하는 사람들의 비디오들을 사용하여 훈련되고, 여기서 임베더 머신 러닝 모델 신경망은 동일한 사람을 묘사하는 비디오로부터의 프레임들의 형태로 입력들을 수신한다. 그러나, 임베더 머신 러닝 모델의 출력인 임베딩은 생성기 머신 러닝 모델에 의해 비디오의 프레임들을 생성하는 데 사용되고, 배우의 얼굴은 배우의 얼굴 표정들뿐만 아니라, 배우의 얼굴의 컬러 및 조명을 유지하면서 임베딩에 의해 표현되는 얼굴 특징들을 가지므로, 임베더 머신 러닝 모델은 결과적인 임베딩의 특징들에서 타겟 얼굴의 컬러 및 조명을 포함하지 않도록 훈련된다. 본 설명의 목적을 위해, 생성기 머신 러닝 모델 및 임베더 머신 러닝 모델을 훈련할 때뿐만 아니라 훈련 데이터를 생성 및/또는 준비할 때도 이용되는 다양한 처리 모듈들은 훈련 시스템이라고 지칭된다.

얼굴의 컬러 및 조명 없이 얼굴 특징들을 나타내는 임베딩을 생성하도록 임베더 머신 러닝 모델을 훈련하기 위해, 훈련 시스템은 상이한 각각의 얼굴 컬러 및 조명을 갖는 상이한 사람들의 얼굴들을 묘사하는 컬러 소스 이미지들의 세트를 이용한다. 임베더 머신 러닝 모델을 훈련하기 위해 사용되는 훈련 데이터세트로부터의 각각의 훈련 얼굴 이미지에 대해, 훈련 시스템은 컬러 소스 이미지들의 세트로부터 무작위로 선택된 이미지의 컬러 및 조명을 갖고, 훈련 얼굴 이미지로부터의 얼굴 객체의 얼굴 특징들 및 표정을 갖는 입력 얼굴 이미지를 생성한다. 훈련 동안, 임베더 머신 러닝 모델은 훈련 얼굴 이미지의 컬러 및 조명을 무작위로 선택된 상이한 컬러 및 조명으로 변경함으로써 의도적으로 "혼동"되기 때문에, 훈련된 임베더 머신 러닝 모델은 훈련 얼굴 이미지로부터 얼굴 특징들을 나타내는 컬러 중립 임베딩을 생성한다.

컬러 소스 이미지들의 세트로부터의 무작위로 선택된 이미지로부터의 컬러 및 조명을 타겟 얼굴 이미지 상에 전사하기 위한 예시적인 프로세스는, 타겟 얼굴 이미지 및 컬러 소스 이미지에 대한 각각의 얼굴 랜드마크들을 생성 또는 액세스하는 것, 및 컬러 소스 이미지 및 타겟 얼굴 내의 각각의 얼굴 윤곽들, 눈썹들, 눈들, 코들 및 입들이 정렬되도록, 그의 랜드마크들이 타겟 얼굴로부터의 랜드마크들과 매칭하는 방식으로 컬러 소스 이미지를 워핑(warping)하는 것을 포함한다. 다른 동작들은 각각의 이미지(컬러 소스 이미지 및 타겟 얼굴 이미지)에 대한 각각의 라플라스 피라미드 표현들을 컴퓨팅하는 것을 포함한다. 일례에서, 최소 피라미드 레벨에서의 이미지의 크기는 1/16 해상도이다. 타겟 얼굴 이미지를 나타내는 피라미드에서의 최소 레벨은 워핑된 컬러 소스 이미지를 나타내는 피라미드의 최소 레벨로 대체되어 수정된 피라미드를 생성한다. 수정된 피라미드로부터 복원된 이미지는 입력 얼굴 이미지로서 사용되는데, 이는 그것이 타겟 얼굴로부터의 얼굴 특징들 및 표정을 갖지만 컬러 소스 이미지로부터의 컬러 및 조명을 갖기 때문이다. 결과적인 입력 이미지는 타겟 이미지의 무작위-컬러 버전이다.

훈련된 임베더 머신 러닝 모델 및 생성기 머신 러닝 모델은 얼굴 애니메이션 합성의 프로세스에서 다음과 같이 사용될 수 있다. 임베더 머신 러닝 모델은 입력으로서 타겟 얼굴 객체를 포함하는 초상화 이미지를 입력으로서 사용하고, 임베딩을 생성한다. 임베딩은 타겟 얼굴 객체로부터의 얼굴 특징들을 나타내고, 타겟 얼굴 객체의 컬러 및 조명의 표현을 갖지 않는다. 생성기 머신 러닝 모델은 배우를 나타내는 소스 얼굴 객체를 포함하는 소스 프레임을 입력으로서 사용하고, 소스 얼굴 객체를 새로운 얼굴 객체로 대체함으로써 소스 프레임을 수정하고, 여기서 새로운 얼굴 객체는 임베딩에 의해 표현된 얼굴 특징들을 갖고, 소스 얼굴 객체로부터의 얼굴 표정을 갖고, 소스 얼굴 객체로부터의 컬러 및 조명을 갖는다. 수정된 소스 프레임은 디스플레이 디바이스 상에 디스플레이될 수 있다. 본 명세서에 설명된 얼굴 애니메이션 합성 방법들은 메시징 시스템의 사용자들에 의해 액세스 가능하게 될 수 있다.

연관된 메시징 클라이언트에 대한 백엔드 서비스를 호스팅하는 메시징 시스템은 사용자들이 메시징 클라이언트를 호스팅하는 클라이언트 디바이스와 함께 제공되는 카메라로 이미지들 및 비디오들을 캡처하고, 캡처된 콘텐츠를 네트워크 통신을 통해 다른 사용자들과 공유하는 것을 허용하도록 구성된다. 메시징 시스템은 또한, 메시징 클라이언트를 통해 액세스가능한 증강 현실(AR) 컴포넌트들을 제공하도록 구성된다. AR 컴포넌트들은, 예를 들어, 캡처된 이미지 또는 비디오 프레임 위에 사진들 또는 애니메이션을 오버레이함으로써, 또는 3차원(3D) 효과들, 객체들, 캐릭터들, 및 변환들을 추가함으로써, 카메라에 의해 캡처된 콘텐츠를 수정하기 위해 사용될 수 있다. AR 컴포넌트는, 예를 들어, JavaScript 또는 Java와 같은, 앱 개발에 적합한 프로그래밍 언어를 사용하여 구현될 수 있다. AR 컴포넌트들은 각각의 AR 컴포넌트 식별자들에 의해 메시징 서버 시스템에서 식별된다.

사용자는 메시징 클라이언트에 의해 제시되는 카메라 뷰 사용자 인터페이스에 포함된 사용자 선택가능 요소에 관여함으로써 AR 컴포넌트에 의해 제공되는 기능에 액세스할 수 있다. 카메라 뷰 사용자 인터페이스는 연관된 클라이언트 디바이스와 함께 제공된 카메라의 디지털 이미지 센서의 출력을 디스플레이하고, 카메라에 의해 이미지를 캡처하거나 비디오 레코딩을 시작 및 중지하도록 동작가능한 사용자 선택가능 요소를 디스플레이하고, 또한 각각의 AR 컴포넌트들을 나타내는 하나 이상의 사용자 선택가능 요소를 디스플레이하도록 구성된다. 카메라 뷰 사용자 인터페이스는 사용자가 AR 컴포넌트에 의해 생성된 시각적 효과를 적용하고 또한 제거하는 것을 허용하는 하나 이상의 사용자 선택가능 요소를 포함할 수 있다. 카메라의 디지털 이미지 센서의 출력, 카메라에 의해 이미지를 캡처하거나 비디오 레코딩을 시작 및 중지하도록 동작가능한 사용자 선택가능 요소를 포함할 수 있고, 또한 각각의 AR 컴포넌트들을 나타내는 하나 이상의 사용자 선택가능 요소를 디스플레이할 수 있는, 메시징 클라이언트에 의해 디스플레이되는 스크린은 카메라 뷰 스크린이라고 지칭된다. AR 컴포넌트를 나타내는 사용자 선택가능 요소는 AR 컴포넌트를 론칭하도록 동작가능하다. AR 컴포넌트가 론칭될 때, 카메라 뷰 사용자 인터페이스에 디스플레이된 카메라의 디지털 이미지 센서의 출력은 AR 컴포넌트에 의해 제공된 수정에 의해 증강된다. 예를 들어, AR 컴포넌트는, 디지털 이미지 센서에 의해 캡처되고 있는 사람의 머리 위치를 검출하고 검출된 머리 위치 위에 파티 모자의 이미지를 오버레이하여, 뷰어가 제시된 사람이 파티 모자를 착용하고 있는 것으로 보게 하도록 구성될 수 있다.

얼굴 애니메이션 합성 능력을 제공하도록 구성되는 예시적인 AR 컴포넌트는 본 설명의 목적을 위해 얼굴 애니메이션 합성 AR 컴포넌트로서 지칭될 수 있다. 얼굴 애니메이션 합성 AR 컴포넌트는, 메시징 클라이언트에 의해 제시된 카메라 뷰 사용자 인터페이스에서, 얼굴 애니메이션 합성 AR 컴포넌트를 나타내는 사용자 선택가능 요소를 제공함으로써 사용자에게 이용가능하게 될 수 있다. 사용자가 메시징 클라이언트에 액세스하는 동안 카메라 뷰 사용자 인터페이스에서 얼굴 애니메이션 합성 AR 컴포넌트를 나타내는 사용자 선택가능 요소에 관여할 때, 메시징 시스템은 메시징 클라이언트에 AR 컴포넌트를 로딩한다. 로딩된 얼굴 애니메이션 합성 AR 컴포넌트는 사용자(메시징 클라이언트에 액세스하고 있는 사용자 또는 메시징 클라이언트에 액세스하고 있는 사용자와 상이한 사용자)의 초상화 이미지에 액세스하고, 소스 프레임에 액세스하고, 위에서 설명된 얼굴 애니메이션 합성 프로세스를 실행한다. 얼굴 애니메이션 합성 프로세스의 결과, 즉 수정된 소스 프레임에 묘사된 얼굴이 초상화 이미지로부터의 얼굴의 유사성을 그러나 소스 프레임으로부터의 얼굴 표정 및 컬러 및 조명을 갖도록 수정된 소스 프레임은 메시징 클라이언트의 카메라 뷰 사용자 인터페이스에 제시된다. 일부 예들에서, 얼굴 애니메이션 합성 AR 컴포넌트는 소스 비디오의 프레임들에 대해 얼굴 애니메이션 합성 프로세스를 수행하여 수정된 소스 비디오를 생성하고, 비디오에서의 배우의 얼굴은 소스 비디오에서의 배우의 얼굴과 동일한 얼굴 움직임들을 수행하는 것으로 보이지만, 초상화 이미지로부터 얼굴의 유사성을 갖는다.

얼굴 애니메이션 합성 프로세스의 결과는 카메라의 디지털 이미지 센서의 출력의 일부 위에 오버레이된 것으로서 카메라 뷰 사용자 인터페이스에 디스플레이될 수 있다. 예를 들어, 카메라의 디지털 이미지 센서의 출력이 사용자의 이미지이도록 사용자가 전방 카메라를 사용하고 있는 경우에, 카메라 스크린 뷰는 카메라의 디지털 이미지 센서에 의해 캡처된 사용자의 이미지, 및 또한, 초상화 이미지로부터의 얼굴을 갖는 수정된 소스 비디오를 디스플레이한다.

다른 예에서, 초상화 이미지로부터의 얼굴을 갖는 수정된 소스 비디오는 카메라의 디지털 이미지 센서의 출력 대신에 카메라 뷰 스크린 상에 제시된다. 이 예에서, 카메라의 디지털 이미지 센서의 출력은 카메라 뷰 스크린에서 보이지 않는다.

얼굴 애니메이션 합성 프로세스는 메시징 시스템과 관련하여 설명되지만, 본 명세서에서 설명되는 방법들은 엔터테인먼트 쇼, 컴퓨터 게임, 비디오 대화 등과 같은 다양한 다른 환경들에서 유리하게 사용될 수 있다는 점에 유의할 것이다.

네트워킹 컴퓨팅 환경

도 1은 네트워크를 통해 데이터(예를 들어, 메시지 및 연관된 콘텐츠)를 교환하기 위한 예시적인 메시징 시스템(100)을 도시하는 블록도이다. 메시징 시스템(100)은, 각각이 메시징 클라이언트(104)를 포함한 다수의 애플리케이션을 호스팅하는 클라이언트 디바이스(102)의 다수의 인스턴스를 포함한다. 각각의 메시징 클라이언트(104)는 네트워크(106)(예를 들어, 인터넷)를 통해 메시징 클라이언트(104) 및 메시징 서버 시스템(108)의 다른 인스턴스들에 통신가능하게 결합된다.

메시징 클라이언트(104)는 네트워크(106)를 통해 다른 메시징 클라이언트(104)와 그리고 메시징 서버 시스템(108)과 통신하고 데이터를 교환할 수 있다. 메시징 클라이언트(104)와 메시징 서버 시스템(108) 사이에 교환되는 데이터는 기능들(예를 들어, 기능들을 호출하는 커맨드들)뿐만 아니라, 페이로드 데이터(예를 들어, 텍스트, 오디오, 비디오 또는 다른 멀티미디어 데이터)를 포함한다. 예를 들어, 메시징 클라이언트(104)는 사용자가 적어도 부분적으로 메시징 서버 시스템(108)에 상주할 수 있는 얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능(즉, 비디오의 프레임들 내의 배우의 얼굴을 사용자의 초상화 이미지로부터의 사용자의 얼굴로 대체하여, 비디오의 프레임들 내의 결과적인 얼굴이 배우의 얼굴의 얼굴 표정들을 유지하지만 사용자의 얼굴의 유사성을 갖게 함)에 액세스하는 것을 허용한다. 전술한 바와 같이, 얼굴 애니메이션 합성 AR 컴포넌트는 얼굴 애니메이션 합성 능력을 제공하도록 구성된다.

메시징 서버 시스템(108)은 네트워크(106)를 통해 서버측 기능을 특정 메시징 클라이언트(104)에 제공한다. 메시징 시스템(100)의 특정 기능들이 메시징 클라이언트(104)에 의해 또는 메시징 서버 시스템(108)에 의해 수행되는 것으로 본 명세서에서 설명되지만, 메시징 클라이언트(104) 또는 메시징 서버 시스템(108) 내의 특정 기능의 위치는 설계 선택일 수 있다. 예를 들어, 처음에 특정 기술 및 기능을 메시징 서버 시스템(108) 내에 배치하지만, 클라이언트 디바이스(102)가 충분한 처리 용량을 갖는 경우 나중에 이 기술 및 기능을 메시징 클라이언트(104)에 이전시키는 것이 기술적으로 바람직할 수 있다. 예를 들어, 얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능에 관하여, 얼굴 애니메이션 합성 AR 컴포넌트를 나타내는 사용자 선택가능 요소의 활성화를 검출하는 것에 응답하여 수행될 수 있는, 소스 얼굴 객체를 임베딩에 의해 표현되는 얼굴 특징들, 소스 얼굴 객체로부터의 얼굴 표정, 및 소스 얼굴 객체로부터의 컬러 및 조명을 포함하는 새로운 얼굴 객체로 대체함으로써 소스 프레임을 수정하기 위해, 타겟 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하고, 임베딩 및 소스 프레임을 입력으로서 사용하여, 생성기 머신 러닝 모델을 실행하는 동작들이 메시징 클라이언트(104)를 호스팅하는 클라이언트 디바이스(102)의 자원들을 보존하기 위해 메시징 서버 시스템(108)에서 실행될 수 있다. 대안적으로, 메시징 클라이언트(104)를 호스팅하는 클라이언트 디바이스(102)가 충분한 처리 리소스들을 갖는 것으로 결정되면, 이들 동작들의 일부 또는 전부는 메시징 클라이언트(104)에 의해 실행될 수 있다. 일부 예들에서, 임베더 머신 러닝 모델의 훈련 및 생성기 머신 러닝 모델의 훈련은 메시징 서버 시스템(108)에서 수행될 수 있다.

메시징 서버 시스템(108)은 메시징 클라이언트(104)에 제공되는 다양한 서비스들 및 동작들을 지원한다. 이러한 동작들은 메시징 클라이언트(104)에 데이터를 송신하는 것, 그로부터 데이터를 수신하는 것, 및 그에 의해 생성된 데이터를 처리하는 것을 포함한다. 이 데이터는, 예를 들어, 메시지 콘텐츠, 클라이언트 디바이스 정보, 지오로케이션 정보, 미디어 증강 및 오버레이들, 메시지 콘텐츠 지속 조건들, 소셜 네트워크 정보, 및 라이브 이벤트 정보를 포함할 수 있다. 메시징 시스템(100) 내의 데이터 교환들은 메시징 클라이언트(104)의 사용자 인터페이스들(UI들)을 통해 이용가능한 기능들을 통해 호출되고 제어된다. 예를 들어, 메시징 클라이언트(104)는 클라이언트 디바이스(102)와 함께 제공된 카메라의 디지털 이미지 센서의 출력을 디스플레이하고, 또한 메시징 클라이언트(104)에 얼굴 애니메이션 합성 AR 컴포넌트를 로딩하도록 동작가능한 사용자 선택가능 요소를 디스플레이하는 카메라 뷰 사용자 인터페이스를 제시할 수 있다.

이제 구체적으로 메시징 서버 시스템(108)을 참조하면, 애플리케이션 프로그램 인터페이스(API) 서버(110)는 애플리케이션 서버들(112)에 결합되고, 이들에 프로그램 인터페이스를 제공한다. 애플리케이션 서버들(112)은 애플리케이션 서버들(112)에 의해 처리된 메시지들과 연관된 데이터를 저장하는 데이터베이스(120)에 대한 액세스를 용이하게 하는 데이터베이스 서버(118)에 통신가능하게 결합된다. 유사하게, 웹 서버(124)는 애플리케이션 서버들(112)에 결합되고, 웹 기반 인터페이스들을 애플리케이션 서버들(112)에 제공한다. 이를 위해, 웹 서버(124)는 하이퍼텍스트 송신 프로토콜(HTTP) 및 여러 다른 관련 프로토콜들을 통해 착신 네트워크 요청들을 처리한다.

애플리케이션 프로그램 인터페이스(API) 서버(110)는 클라이언트 디바이스(102)와 애플리케이션 서버들(112) 사이에서 메시지 데이터(예를 들어, 커맨드들 및 메시지 페이로드들)를 수신 및 송신한다. 구체적으로, 애플리케이션 프로그램 인터페이스(API) 서버(110)는 애플리케이션 서버들(112)의 기능을 호출하기 위해 메시징 클라이언트(104)에 의해 호출 또는 질의될 수 있는 인터페이스들(예를 들어, 루틴들 및 프로토콜들)의 세트를 제공한다. 애플리케이션 프로그램 인터페이스(API) 서버(110)는 계정 등록, 로그인 기능, 특정 메시징 클라이언트(104)로부터 다른 메시징 클라이언트(104)로의 애플리케이션 서버들(112)을 통한 메시지들의 송신, 메시징 클라이언트(104)로부터 메시징 서버(114)로의 그리고 다른 메시징 클라이언트(104)에 의한 가능한 액세스를 위한 미디어 파일들(예를 들어, 이미지들 또는 비디오)의 송신, 미디어 데이터의 컬렉션(예를 들어, 스토리)의 설정들, 클라이언트 디바이스(102)의 사용자의 친구들의 리스트의 검색, 그러한 컬렉션들의 검색, 메시지들 및 콘텐츠의 검색, 엔티티 그래프(예를 들어, 소셜 그래프)에의 엔티티들(예를 들어, 친구들)의 추가 및 삭제, 소셜 그래프 내의 친구들의 위치, 및 (예를 들어, 메시징 클라이언트(104)에 관련된) 애플리케이션 이벤트의 개방을 포함하여, 애플리케이션 서버들(112)에 의해 지원되는 다양한 기능들을 노출시킨다.

애플리케이션 서버들(112)은, 예를 들어, 메시징 서버(114), 이미지 처리 서버(116), 및 소셜 네트워크 서버(122)를 포함하는 다수의 서버 애플리케이션 및 서브시스템을 호스팅한다. 메시징 서버(114)는, 특히 메시징 클라이언트(104)의 다수의 인스턴스로부터 수신된 메시지들에 포함된 콘텐츠(예를 들어, 텍스트 및 멀티미디어 콘텐츠)의 집성 및 다른 처리에 관련된 다수의 메시지 처리 기술 및 기능을 구현한다. 더 상세히 설명되는 바와 같이, 다수의 소스로부터의 텍스트 및 미디어 콘텐츠는 콘텐츠의 컬렉션들(예를 들어, 스토리들 또는 갤러리들이라고 함)로 집성될 수 있다. 그 다음, 이 컬렉션들은 메시징 클라이언트(104)에 이용가능하게 된다. 다른 프로세서 및 메모리 집약적인 데이터의 처리는 또한, 이러한 처리를 위한 하드웨어 요건을 고려하여, 메시징 서버(114)에 의해 서버측에서 수행될 수 있다.

애플리케이션 서버들(112)은 또한, 통상적으로 메시징 서버(114)로부터 송신되거나 메시징 서버(114)에서 수신되는 메시지의 페이로드 내의 이미지들 또는 비디오에 대하여 다양한 이미지 처리 동작들을 수행하는 데 전용화되는 이미지 처리 서버(116)를 포함한다. 다양한 이미지 처리 동작들 중 일부는 이미지 처리 서버(116)에 의해 호스팅되거나 지원될 수 있는 다양한 AR 컴포넌트들에 의해 수행될 수 있다. 위에서 논의된 바와 같은 AR 컴포넌트의 예는, 비디오의 프레임들 내의 배우의 얼굴을 사용자의 초상화 이미지로부터의 사용자의 얼굴로 대체하여, 비디오의 프레임들 내의 결과적인 얼굴이 배우의 얼굴의 얼굴 표정들을 유지하지만 사용자의 얼굴의 유사성을 갖게 하도록 구성되는 얼굴 애니메이션 합성 AR 컴포넌트이다.

소셜 네트워크 서버(122)는 다양한 소셜 네트워킹 기능 및 서비스를 지원하고 이들 기능 및 서비스를 메시징 서버(114)에 의해 이용가능하게 한다. 이를 위해, 소셜 네트워크 서버(122)는 데이터베이스(120) 내에 (도 3에 도시된 바와 같은) 엔티티 그래프(306)를 유지하고 그에 액세스한다. 소셜 네트워크 서버(122)에 의해 지원되는 기능 및 서비스의 예는, 특정 사용자가 "친구" 관계를 가지거나 "팔로우하는" 메시징 시스템(100)의 다른 사용자들의 식별, 및 또한 다른 엔티티들의 식별 및 특정 사용자의 관심들을 포함한다.

위에서 언급된 바와 같은 얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능을 참조하면, 얼굴 애니메이션 합성 AR 컴포넌트에 의해 이용되는 초상화 이미지는 메시징 클라이언트에 액세스하고 있는 사용자의 것일 수 있거나, 그 대신에, 메시징 클라이언트에 액세스하고 있는 사용자와 상이한 사용자의 것일 수 있다. 특정 사용자가 "친구" 관계를 갖는 메시징 시스템(100)의 다른 사용자들의, 소셜 네트워크 서버(122)에 의한 식별은 초상화 이미지가 얼굴 애니메이션 합성 AR 컴포넌트에 의해 사용될, 메시징 클라이언트에 액세스하고 있는 사용자 대신에, 추가 사용자의 식별을 결정하는 데 사용될 수 있다.

시스템 아키텍처

도 2는 일부 예들에 따른, 메시징 시스템(100)에 관한 추가 상세들을 예시하는 블록도이다. 구체적으로, 메시징 시스템(100)은 메시징 클라이언트(104) 및 애플리케이션 서버들(112)을 포함하는 것으로 도시되어 있다. 메시징 시스템(100)은 메시징 클라이언트(104)에 의해 클라이언트측에서 그리고 애플리케이션 서버들(112)에 의해 서버측에서 지원되는 다수의 서브시스템들을 구현한다. 이러한 서브시스템들은, 예를 들어, 단기적 타이머 시스템(202), 컬렉션 관리 시스템(204), 및 증강 시스템(206)을 포함한다.

단기적 타이머 시스템(202)은 메시징 클라이언트(104) 및 메시징 서버(114)에 의한 콘텐츠에 대한 일시적 또는 시간 제한된 액세스를 시행하는 것을 담당한다. 단기적 타이머 시스템(202)은 메시지, 또는 메시지들의 컬렉션(예를 들어, 스토리)과 연관된 지속기간 및 디스플레이 파라미터들에 기초하여, 메시징 클라이언트(104)를 통해 메시지들 및 연관된 콘텐츠에 대한 액세스를 (예를 들어, 제시 및 디스플레이를 위해) 선택적으로 가능하게 하는 다수의 타이머를 포함한다. 단기적 타이머 시스템(202)의 동작에 관한 추가 상세들은 아래에 제공된다.

컬렉션 관리 시스템(204)은 미디어의 세트들 또는 컬렉션들(예를 들어, 텍스트, 이미지 비디오, 및 오디오 데이터의 컬렉션들)을 관리하는 것을 담당한다. 콘텐츠의 컬렉션(예를 들어, 이미지들, 비디오, 텍스트 및 오디오를 포함하는 메시지들)은 "이벤트 갤러리" 또는 "이벤트 스토리"로 조직화될 수 있다. 이러한 컬렉션은 콘텐츠가 관련된 이벤트의 지속기간과 같은 지정된 기간 동안 이용가능하게 될 수 있다. 예를 들어, 음악 콘서트에 관련된 콘텐츠는 그 음악 콘서트의 지속기간 동안 "스토리"로서 이용가능하게 될 수 있다. 추가 예에서, 컬렉션은, 사용자의 이전에 캡처되고 저장된 이미지를 사용하여 수정된 미디어 콘텐츠 객체를 사용하여 증강된 카메라에 의해 캡처된 콘텐츠를 포함할 수 있는 얼굴 애니메이션 합성 AR 컴포넌트를 포함하는 하나 이상의 AR 컴포넌트를 사용하여 생성된 콘텐츠를 포함할 수 있다. 컬렉션 관리 시스템(204)은 또한 메시징 클라이언트(104)의 사용자 인터페이스에 특정 컬렉션의 존재의 통지를 제공하는 아이콘을 발행하는 것을 담당할 수 있다.

컬렉션 관리 시스템(204)은 컬렉션 관리자가 콘텐츠의 특정 컬렉션을 관리 및 큐레이팅하는 것을 허용하는 큐레이션 인터페이스(212)를 더 포함한다. 예를 들어, 큐레이션 인터페이스(212)는 이벤트 조직자가 특정 이벤트에 관련된 콘텐츠의 컬렉션을 큐레이팅(예를 들어, 부적절한 콘텐츠 또는 중복 메시지들을 삭제)할 수 있게 한다. 또한, 컬렉션 관리 시스템(204)은 머신 비전(또는 이미지 인식 기술) 및 콘텐츠 규칙을 이용하여 콘텐츠 컬렉션을 자동으로 큐레이팅한다. 특정 예들에서, 사용자 생성 콘텐츠를 컬렉션에 포함시키는 것에 대한 보상이 사용자에게 지불될 수 있다. 이러한 경우에, 컬렉션 관리 시스템(204)은 이러한 사용자들에게 이들의 콘텐츠의 사용에 대해 자동으로 지불하도록 동작한다.

증강 시스템(206)은 사용자가 메시지와 연관될 수 있는 미디어 콘텐츠를 증강(예를 들어, 주석 첨부 또는 다른 방식으로 수정 또는 편집)할 수 있게 하는 다양한 기능들을 제공한다. 예를 들어, 증강 시스템(206)은 메시징 시스템(100)에 의해 처리되는 메시지들에 대한 미디어 오버레이들의 생성 및 발행과 관련된 기능들을 제공한다. 미디어 오버레이는 데이터베이스(120)에 저장되고 데이터베이스 서버(118)를 통해 액세스될 수 있다.

얼굴 애니메이션 합성 AR 컴포넌트를 참조하면, 얼굴 애니메이션 합성 AR 컴포넌트와 연관된 미디어 오버레이는, 본 명세서에서 논의된 바와 같이, 임베더 머신 러닝 모델 및 생성기 머신 러닝 모드를 실행함으로써 생성된 수정된 소스 프레임 또는 수정된 소스 비디오이다. 전술한 바와 같이, 얼굴 애니메이션 합성 AR 컴포넌트는, 사용자로부터 입력을 수신하는 메시징 클라이언트에 로딩될 때, 사용자(메시징 클라이언트에 액세스하고 있는 사용자 또는 메시징 클라이언트에 액세스하고 있는 사용자와 상이한 사용자)의 초상화 이미지에 액세스하고, 소스 프레임에 액세스하고, 전술한 얼굴 애니메이션 합성 프로세스를 실행한다. 얼굴 애니메이션 합성 프로세스의 결과, 즉 수정된 소스 프레임에 묘사된 얼굴이 초상화 이미지로부터의 얼굴의 유사성을 그러나 소스 프레임으로부터의 얼굴 표정 및 컬러 및 조명을 갖도록 수정된 소스 프레임은 메시징 클라이언트의 카메라 뷰 사용자 인터페이스에 제시된다. 일부 예들에서, 얼굴 애니메이션 합성 AR 컴포넌트는 소스 비디오의 프레임들에 대해 얼굴 애니메이션 합성 프로세스를 수행하여 수정된 소스 비디오를 생성하고, 여기서, 비디오에서의 배우의 얼굴은 소스 비디오에서의 배우의 얼굴과 동일한 얼굴 움직임들을 수행하는 것으로 보이지만, 초상화 이미지로부터 얼굴의 유사성을 갖는다. 얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능의 일부를 예시하는, 증강 시스템(206)에 의해 수행되는 예시적인 동작들이 이하에서 도 6을 참조하여 더 설명된다.

일부 예들에서, 증강 시스템(206)은, 예컨대, JavaScript 또는 Java와 같은, 앱 개발에 적당한 프로그래밍 언어를 사용하여 구현될 수 있고 각각의 AR 컴포넌트 식별자들에 의해 메시징 서버 시스템에서 식별되는 AR 컴포넌트들에의 액세스를 제공하도록 구성된다. AR 컴포넌트는, 이미지 수정, 필터, 미디어 오버레이, 변환 등에 대응하는 다양한 이미지 처리 동작을 포함하거나 참조할 수 있다. 이러한 이미지 처리 동작들은 디지털 이미지 센서 또는 카메라에 의해 캡처되는 객체들, 표면들, 배경들, 조명 등이 컴퓨터 생성 지각 정보에 의해 향상되는 실세계 환경의 상호작용 경험을 제공할 수 있다. 이와 관련하여, AR 컴포넌트는 선택된 증강 현실 경험을 이미지 또는 비디오 피드에 적용하는 데 필요한 데이터, 파라미터들, 및 다른 자산들의 컬렉션을 포함한다.

일부 실시예들에서, AR 컴포넌트는 일부 방식으로 클라이언트 디바이스의 그래픽 사용자 인터페이스(GUI) 내에 제시된 이미지 데이터를 수정 또는 변환하도록 구성된 모듈들을 포함한다. 예를 들어, 콘텐츠 이미지들에 대한 복잡한 추가 또는 변환은, 비디오 클립에서 사람의 머리에 토끼 귀를 추가하는 것, 비디오 클립에 배경 컬러링을 갖는 부유 하트를 추가하는 것, 비디오 클립 내의 사람의 특징들의 비율을 변경하는 것, 또는 많은 다른 그러한 변환과 같이 AR 컴포넌트 데이터를 사용하여 수행될 수 있다. 이것은, 이미지가 클라이언트 디바이스와 연관된 카메라를 사용하여 캡처된 다음 AR 컴포넌트 수정과 함께 클라이언트 디바이스의 스크린 상에 디스플레이될 때 이미지를 수정하는 실시간 수정뿐만 아니라, AR 컴포넌트를 사용하여 수정될 수 있는 갤러리 내의 비디오 클립 등의 저장된 콘텐츠에 대한 수정을 포함한다.

AR 컴포넌트에 의해 제공될 수 있는 다양한 증강 현실 기능은 객체들(예컨대, 얼굴들, 손들, 몸들, 고양이들, 개들, 표면들, 객체들 등)의 검출, 객체들이 비디오 프레임들에서 시야를 떠나고, 시야에 들어가고, 시야 주위를 이동할 때 이러한 객체들을 추적하는 것, 및 객체들이 추적될 때의 이러한 객체들의 수정 또는 변환을 포함한다. 다양한 실시예들에서, 그러한 변환들을 달성하기 위한 상이한 방법들이 이용될 수 있다. 예를 들어, 일부 실시예들은 객체 또는 객체들의 3D 메시 모델을 생성하는 것, 및 변환을 달성하기 위해 비디오 내에서의 모델의 변환 및 애니메이션된 텍스처를 사용하는 것을 포함할 수 있다. 다른 실시예들에서, 객체 상의 포인트들의 추적을 이용하여, 이차원 또는 삼차원일 수 있는 이미지 또는 텍스처를 추적 위치에 배치할 수 있다. 또 다른 실시예들에서, 비디오 프레임들의 신경망 분석은 콘텐츠(예를 들어, 비디오의 이미지들 또는 프레임들) 내에 이미지들, 모델들 또는 텍스처들을 배치하는 데 사용될 수 있다. 따라서, AR 컴포넌트 데이터는 콘텐츠에서 변환들을 생성하는 데 사용되는 이미지들, 모델들, 및 텍스처들뿐만 아니라, 객체 검출, 추적, 및 배치로 이러한 변환들을 달성하는 데 필요한 추가적인 모델링 및 분석 정보를 지칭한다.

전술한 바와 같이, AR 컴포넌트의 예는, 사용자로부터 입력을 수신하는 메시징 클라이언트에 로딩될 때, 사용자의 초상화 이미지에 액세스하고, 소스 프레임에 액세스하고, 전술한 얼굴 애니메이션 합성 프로세스를 실행하는 얼굴 애니메이션 합성 AR 컴포넌트이다. 일부 예들에서, 얼굴 애니메이션 합성 AR 컴포넌트는 얼굴 검출 기술을 이용하여 이미지로부터 얼굴 객체를 도출하도록 구성된다. 얼굴 검출 기술의 예들은 Viola-Jones 특징 기반 객체 검출 프레임워크 및 딥 러닝 방법들, 예컨대 "Multi-Task Cascaded Convolutional Neural Network", 즉 MTCNN을 포함한다.

데이터 아키텍처

도 3은 특정 예들에 따른, 메시징 서버 시스템(108)의 데이터베이스(120)에 저장될 수 있는 데이터 구조들(300)을 예시하는 개략도이다. 데이터베이스(120)의 콘텐츠가 다수의 테이블을 포함하는 것으로 도시되어 있지만, 데이터는 다른 유형의 데이터 구조에(예를 들어, 객체-지향형 데이터베이스로서) 저장될 수 있다는 것을 이해할 것이다.

데이터베이스(120)는 메시지 테이블(302) 내에 저장된 메시지 데이터를 포함한다. 이 메시지 데이터는, 임의의 특정한 하나의 메시지에 대해, 적어도 메시지 송신자 데이터, 메시지 수신자(또는 수신기) 데이터, 및 페이로드를 포함한다. 메시지에 포함될 수 있고, 메시지 테이블(302)에 저장된 메시지 데이터 내에 포함될 수 있는 정보에 관한 추가적인 상세들은 도 4를 참조하여 아래에 설명된다.

엔티티 테이블(304)은 엔티티 데이터를 저장하고, 엔티티 그래프(306) 및 프로파일 데이터(308)에 (예를 들어, 참조적으로) 링크된다. 엔티티 테이블(304) 내에 레코드들이 유지되는 엔티티들은 개인들, 회사 엔티티들, 조직들, 객체들, 장소들, 이벤트들 등을 포함할 수 있다. 엔티티 유형에 관계없이, 메시징 서버 시스템(108)이 그에 관한 데이터를 저장하는 임의의 엔티티는 인식된 엔티티일 수 있다. 각각의 엔티티에는 고유 식별자뿐만 아니라 엔티티 유형 식별자(도시되지 않다)가 제공된다.

엔티티 그래프(306)는 엔티티들 간의 관계 및 연관성에 관한 정보를 저장한다. 이러한 관계는, 단지 예로서, 사회적, 전문적(예를 들어, 일반 법인 또는 조직에서의 일) 관심 기반 또는 활동 기반일 수 있다. 얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능을 참조하면, 엔티티 그래프(306)는, 얼굴 애니메이션 합성 AR 컴포넌트가 타겟 미디어 콘텐츠 객체를 수정하기 위해 연관된 클라이언트 디바이스를 제어하는 사용자의 초상화 이미지 이외의 사용자의 초상화 이미지를 사용하는 것을 허용하여, 연관된 클라이언트 디바이스를 제어하는 사용자를 나타내는 프로파일에 접속되는 추가 프로파일을 결정하도록 구성되는 경우들에서, 사용될 수 있는 정보를 저장한다.

프로파일 데이터(308)는 특정의 엔티티에 관한 다수의 유형의 프로파일 데이터를 저장한다. 프로파일 데이터(308)는 특정 엔티티에 의해 지정된 프라이버시 설정들에 기초하여, 선택적으로 사용되고 메시징 시스템(100)의 다른 사용자들에게 제시될 수 있다. 엔티티가 개인인 경우, 프로파일 데이터(308)는, 예를 들어, 사용자 이름, 전화 번호, 주소, 설정들(예컨대, 통지 및 프라이버시 설정들)은 물론, 사용자 선택 아바타 표현(또는 이러한 아바타 표현들의 컬렉션)을 포함한다. 그 후 특정 사용자는 메시징 시스템(100)을 통해 통신된 메시지들의 콘텐츠 내에, 그리고 메시징 클라이언트들(104)에 의해 다른 사용자들에게 디스플레이된 맵 인터페이스들 상에 이들 아바타 표현들 중 하나 이상을 선택적으로 포함할 수 있다. 아바타 표현들의 컬렉션은 사용자가 특정 시간에 통신하기 위해 선택할 수 있는 상태 또는 활동의 그래픽 표현을 제시하는 "상태 아바타들"을 포함할 수 있다.

얼굴 애니메이션 합성 AR 컴포넌트에 의해 제공되는 기능을 참조하면, 프로파일 데이터(308)는 사용자의 초상화 이미지 또는 초상화 이미지에 대한 참조를 저장한다. 초상화 이미지는 연관된 프로파일에 의해 표현되는 사용자에 의해 제공된다. 초상화 이미지는 전술한 바와 같이 얼굴 애니메이션 합성 AR 컴포넌트가 메시징 클라이언트(104)에 로딩될 때 얼굴 애니메이션 합성 AR 컴포넌트에 의해 사용될 수 있다.

데이터베이스(120)는 또한, 증강 데이터를 증강 테이블(310)에 저장한다. 증강 데이터는 (데이터가 비디오 테이블(314)에 저장되는) 비디오들 및 (데이터가 이미지 테이블(316)에 저장되는) 이미지들과 연관되고 이들에 적용된다. 일부 예들에서, 증강 데이터는 얼굴 애니메이션 합성 AR 컴포넌트를 포함하는 다양한 AR 컴포넌트들에 의해 사용된다. 증강 데이터의 예는 소스 프레임 또는 소스 비디오이며, 이는 얼굴 애니메이션 합성 AR 컴포넌트와 연관될 수 있고, 전술된 바와 같이, 사용자에 대한 연관된 AR 경험을 생성하기 위해 사용될 수 있다.

증강 데이터의 다른 예는 이미지 변환들을 유발하기 위해 AR 컴포넌트들에서 사용될 수 있는 증강 현실(AR) 도구들이다. 이미지 변환들은 클라이언트 디바이스(102)의 디지털 이미지 센서를 사용하여 캡처될 때 이미지(예를 들어, 비디오 프레임)를 수정하는 실시간 수정들을 포함한다. 수정된 이미지는 수정들과 함께 클라이언트 디바이스(102)의 스크린 상에 디스플레이된다. AR 도구들은 또한 갤러리에 저장된 비디오 클립들 또는 정지 이미지들과 같은 저장된 콘텐츠에 수정들을 적용하기 위해 사용될 수 있다. 다수의 AR 도구에 대한 액세스를 갖는 클라이언트 디바이스(102)에서, 사용자는 (예를 들어, 상이한 AR 도구들을 이용하도록 구성된 상이한 AR 컴포넌트들에 관여함으로써) 상이한 AR 도구들을 단일 비디오 클립에 적용하여 상이한 AR 도구들이 동일한 비디오 클립을 수정하는 방법을 볼 수 있다. 예를 들어, 상이한 의사 무작위 이동 모델들을 적용하는 다수의 AR 도구들은 동일한 캡처된 콘텐츠에 대해 상이한 AR 도구들을 선택함으로써 동일한 캡처된 콘텐츠에 적용될 수 있다. 유사하게, 클라이언트 디바이스(102)와 함께 제공된 카메라의 디지털 이미지 센서에 의해 현재 캡처되고 있는 비디오 이미지들이 캡처된 데이터를 어떻게 수정할 것인지를 보여주기 위해 예시된 수정과 함께 실시간 비디오 캡처가 사용될 수 있다. 이러한 데이터는 단순히 스크린 상에 디스플레이되고 메모리에 저장되지 않을 수 있거나, 디지털 이미지 센서에 의해 캡처된 콘텐츠는 수정과 함께 또는 수정 없이 (또는 둘 다로) 메모리에 기록되고 저장될 수 있다. 메시징 클라이언트(104)는, 동시에 디스플레이 내의 상이한 윈도우들 내에서, 상이한 AR 도구들에 의해 생성된 수정들이 어떻게 보일 것인지를 보여줄 수 있는 미리보기 특징을 포함하도록 구성될 수 있다. 이는, 예를 들어, 사용자가 동시에 디스플레이 상에 제시되는 상이한 의사 무작위 애니메이션들을 갖는 다수의 윈도우들을 보는 것을 허용할 수 있다.

일부 예들에서, 변환될 콘텐츠와 함께 특정 수정이 선택될 때, 변환될 요소들이 컴퓨팅 디바이스에 의해 식별되고, 그 후 이들이 비디오의 프레임들에 존재하는 경우 검출되고 추적된다. 객체의 요소들은 수정을 위한 요청에 따라 수정되고, 따라서 비디오 스트림의 프레임들을 변환한다. 비디오 스트림의 프레임들의 변환은 상이한 종류의 변환을 위한 상이한 방법들에 의해 수행될 수 있다. 예를 들어, 객체의 요소들의 형태들을 변경하는 것을 주로 참조하는 프레임들의 변환들에 대해, 객체의 각각의 요소에 대한 특성 포인트들이 (예를 들어, 활성 형상 모델(ASM) 또는 다른 공지된 방법들을 사용하여) 계산된다. 이어서, 객체의 적어도 하나의 요소 각각에 대해 특성 포인트들에 기초한 메시가 생성된다. 이 메시는 비디오 스트림에서 객체의 요소들을 추적하는 다음 스테이지에서 사용된다. 추적 프로세스에서, 각각의 요소에 대한 언급된 메시는 각각의 요소의 위치와 정렬된다. 그 다음, 메시 상에 추가 포인트들이 생성된다. 제1 포인트들의 제1 세트가 수정 요청에 기초하여 각각의 요소에 대해 생성되고, 제2 포인트들의 세트가 제1 포인트들의 세트 및 수정 요청에 기초하여 각각의 요소에 대해 생성된다. 이어서, 비디오 스트림의 프레임들은 제1 및 제2 포인트들의 세트들 및 메시에 기초하여 객체의 요소들을 수정함으로써 변환될 수 있다. 그러한 방법에서, 수정된 객체의 배경은 또한 배경을 추적하고 수정함으로써 변경 또는 왜곡될 수 있다.

일부 예들에서, 객체의 요소들을 이용하여 객체의 일부 영역들을 변경하는 변환들은 객체의 각각의 요소에 대한 특성 포인트들을 계산하고, 계산된 특성 포인트들에 기초하여 메시를 생성함으로써 수행될 수 있다. 포인트들이 메시 상에서 생성된 다음, 포인트들에 기초한 다양한 영역들이 생성된다. 객체의 요소들은 이후 각각의 요소에 대한 영역을 적어도 하나의 요소 각각에 대한 위치와 정렬시킴으로써 추적되고, 영역들의 속성들은 수정 요청에 기초하여 수정될 수 있고, 따라서 비디오 스트림의 프레임들을 변환한다. 특정 수정 요청에 따라, 언급된 영역들의 속성들이 상이한 방식들로 변환될 수 있다. 그러한 수정들은 영역들의 컬러를 변경하는 것; 비디오 스트림의 프레임들로부터 영역들의 적어도 일부를 제거하는 것; 수정을 위한 요청에 기초하는 영역들 내에 하나 이상의 새로운 객체를 포함시키는 것; 및 영역 또는 객체의 요소들을 수정하거나 왜곡시키는 것을 포함할 수 있다. 다양한 실시예들에서, 그러한 수정들 또는 다른 유사한 수정들의 임의의 조합이 사용될 수 있다. 애니메이션될 특정 모델들에 대해, 일부 특성 포인트들은 모델 애니메이션에 대한 옵션들의 전체 상태-공간을 결정하는데 사용될 제어 포인트들로서 선택될 수 있다.

스토리 테이블(312)은 컬렉션(예를 들어, 스토리 또는 갤러리)으로 컴파일되는 메시지들 및 연관된 이미지, 비디오, 또는 오디오 데이터의 컬렉션들에 관한 데이터를 저장한다. 특정 컬렉션의 생성은 특정 사용자(예를 들어, 엔티티 테이블(304)에 레코드가 유지되는 각각의 사용자)에 의해 개시될 수 있다. 사용자는 그 사용자에 의해 생성되고 송신/브로드캐스트된 콘텐츠의 컬렉션의 형태로 "개인 스토리"를 생성할 수 있다. 이를 위해, 메시징 클라이언트(104)의 사용자 인터페이스는 송신 사용자가 자신의 개인 스토리에 특정 콘텐츠를 추가할 수 있게 하도록 사용자-선택가능한 아이콘을 포함할 수 있다. 일부 예들에서, 스토리 테이블(312)은 얼굴 애니메이션 합성 AR 컴포넌트를 이용하여 생성된 하나 이상의 이미지 또는 비디오를 저장한다.

컬렉션은 또한 수동으로, 자동으로, 또는 수동 및 자동 기술들의 조합을 사용하여 생성되는 다수의 사용자로부터의 콘텐츠의 컬렉션인 "라이브 스토리"를 구성할 수 있다. 예를 들어, "라이브 스토리"는 다양한 위치들 및 이벤트들로부터의 사용자-제출 콘텐츠의 큐레이팅된 스트림을 구성할 수 있다. 자신의 클라이언트 디바이스들이 위치 서비스 가능하고 특정 시간에 공통 위치 이벤트에 있는 사용자들에게는, 예를 들어, 메시징 클라이언트(104)의 사용자 인터페이스를 통해, 특정 라이브 스토리에 콘텐츠를 기여하는 옵션이 제시될 수 있다. 라이브 스토리는 사용자의 위치에 기초하여 메시징 클라이언트(104)에 의해 사용자에게 식별될 수 있다. 최종 결과는 커뮤니티 관점에서 말해진 "라이브 스토리"이다.

추가 유형의 콘텐츠 컬렉션은 "위치 스토리"로서 알려져 있고, 이는 자신의 클라이언트 디바이스(102)가 특정 지리적 위치 내에(예를 들어, 칼리지 또는 유니버시티 캠퍼스 상에) 위치하는 사용자가 특정 컬렉션에 기여하는 것을 가능하게 한다. 일부 예들에서, 위치 스토리에 대한 기여는 최종 사용자가 특정 조직 또는 다른 엔티티에 속한다는(예를 들어, 유니버시티 캠퍼스의 학생이라는) 것을 검증하기 위해 2급의 인증을 요구할 수 있다.

앞서 언급된 바와 같이, 비디오 테이블(314)은, 일례에서, 레코드들이 메시지 테이블(302) 내에 유지되는 메시지들과 연관된 비디오 데이터를 저장한다. 유사하게, 이미지 테이블(316)은 메시지 데이터가 엔티티 테이블(304)에 저장되는 메시지들과 연관된 이미지 데이터를 저장한다. 엔티티 테이블(304)은 증강 테이블(310)로부터의 다양한 증강들을 이미지 테이블(316) 및 비디오 테이블(314)에 저장된 다양한 이미지들 및 비디오들과 연관시킬 수 있다.

데이터 통신 아키텍처

도 4는 추가 메시징 클라이언트(104) 또는 메시징 서버(114)로의 통신을 위해 메시징 클라이언트(104)에 의해 생성된, 일부 예들에 따른 메시지(400)의 구조를 예시하는 개략도이다. 특정 메시지(400)의 콘텐츠는 메시징 서버(114)에 의해 액세스 가능한, 데이터베이스(120) 내에 저장된 메시지 테이블(302)을 채우는 데 사용된다. 유사하게, 메시지(400)의 콘텐츠는 클라이언트 디바이스(102) 또는 애플리케이션 서버들(112)의 "수송중" 또는 "비행중" 데이터로서 메모리에 저장된다. 메시지(400)의 콘텐츠는, 일부 예들에서, 얼굴 애니메이션 합성 AR 컴포넌트를 사용하여 생성된 이미지 또는 비디오를 포함한다. 메시지(400)는 다음의 예시적인 컴포넌트들을 포함하는 것으로 도시된다.

메시지 식별자(402): 메시지(400)를 식별하는 고유 식별자.

메시지 텍스트 페이로드(404): 클라이언트 디바이스(102)의 사용자 인터페이스를 통해 사용자에 의해 생성되고 메시지(400)에 포함되는 텍스트.

메시지 이미지 페이로드(406): 클라이언트 디바이스(102)의 카메라 컴포넌트에 의해 캡처되거나 클라이언트 디바이스(102)의 메모리 컴포넌트로부터 검색되고, 메시지(400)에 포함되는 이미지 데이터. 송신 또는 수신된 메시지(400)에 대한 이미지 데이터는 이미지 테이블(316)에 저장될 수 있다.

메시지 비디오 페이로드(408): 카메라 컴포넌트에 의해 캡처되거나 클라이언트 디바이스(102)의 메모리 컴포넌트로부터 검색되고 메시지(400)에 포함되는 비디오 데이터. 송신 또는 수신된 메시지(400)에 대한 비디오 데이터는 비디오 테이블(314)에 저장될 수 있다.

메시지 오디오 페이로드(410): 마이크로폰에 의해 캡처되거나 클라이언트 디바이스(102)의 메모리 컴포넌트로부터 검색되고 메시지(400)에 포함되는 오디오 데이터.

메시지 증강 데이터(412): 메시지(400)의 메시지 이미지 페이로드(406), 메시지 비디오 페이로드(408), 또는 메시지 오디오 페이로드(410)에 적용될 증강들을 나타내는 증강 데이터(예를 들어, 필터들, 스티커들, 또는 다른 주석첨부들 또는 강화들). 송신 또는 수신된 메시지(400)에 대한 증강 데이터는 증강 테이블(310)에 저장될 수 있다.

메시지 지속기간 파라미터(414): 메시지의 콘텐츠(예를 들어, 메시지 이미지 페이로드(406), 메시지 비디오 페이로드(408), 메시지 오디오 페이로드(410))가 메시징 클라이언트(104)를 통해 사용자에게 제시되거나 액세스 가능하게 되는 시간의 양을 초 단위로 나타내는 파라미터 값.

메시지 지오로케이션 파라미터(416): 메시지의 콘텐츠 페이로드와 연관된 지오로케이션 데이터(예를 들어, 위도 및 경도 좌표들). 다수의 메시지 지오로케이션 파라미터(416) 값들이 페이로드에 포함될 수 있고, 이 파라미터 값들 각각은 콘텐츠(예를 들어, 메시지 이미지 페이로드(406) 내의 특정 이미지, 또는 메시지 비디오 페이로드(408) 내의 특정 비디오)에 포함된 콘텐츠 아이템들에 연관된다.

메시지 스토리 식별자(418): 메시지(400)의 메시지 이미지 페이로드(406) 내의 특정 콘텐츠 아이템이 연관되는 하나 이상의 콘텐츠 컬렉션(예를 들어, 스토리 테이블(312)에서 식별된 "스토리들")을 식별하는 식별자 값들. 예를 들어, 메시지 이미지 페이로드(406) 내의 다수의 이미지 각각은 식별자 값들을 사용하여 다수의 콘텐츠 컬렉션과 연관될 수 있다.

메시지 태그(420): 각각의 메시지(400)는, 각각이 메시지 페이로드에 포함된 콘텐츠의 주제를 나타내는 다수의 태그로 태깅될 수 있다. 예를 들어, 메시지 이미지 페이로드(406)에 포함된 특정 이미지가 동물(예를 들어, 사자)을 나타내는 경우, 태그 값은 관련 동물을 나타내는 메시지 태그(420) 내에 포함될 수 있다. 태그 값들은 사용자 입력에 기초하여 수동으로 생성될 수 있거나, 예를 들어 이미지 인식을 사용하여 자동으로 생성될 수 있다.

메시지 송신기 식별자(422): 메시지(400)가 생성되었고 메시지(400)가 송신된 클라이언트 디바이스(102)의 사용자를 나타내는 식별자(예를 들어, 메시징 시스템 식별자, 이메일 어드레스, 또는 디바이스 식별자).

메시지 수신기 식별자(424): 메시지(400)가 어드레싱되는 클라이언트 디바이스(102)의 사용자를 나타내는 식별자(예를 들어, 메시징 시스템 식별자, 이메일 어드레스, 또는 디바이스 식별자).

메시지(400)의 다양한 컴포넌트들의 콘텐츠(예를 들어, 값들)는 콘텐츠 데이터 값들이 저장되는 테이블들 내의 위치들에 대한 포인터들일 수 있다. 예를 들어, 메시지 이미지 페이로드(406) 내의 이미지 값은 이미지 테이블(316) 내의 위치에 대한 포인터(또는 그 어드레스)일 수 있다. 유사하게, 메시지 비디오 페이로드(408) 내의 값들은 비디오 테이블(314) 내에 저장된 데이터를 가리킬 수 있고, 메시지 증강(412) 내에 저장된 값들은 증강 테이블(310)에 저장된 데이터를 가리킬 수 있고, 메시지 스토리 식별자(418) 내에 저장된 값들은 스토리 테이블(312)에 저장된 데이터를 가리킬 수 있고, 메시지 송신기 식별자(422) 및 메시지 수신기 식별자(424) 내에 저장된 값들은 엔티티 테이블(304) 내에 저장된 사용자 레코드들을 가리킬 수 있다.

시간 기반 액세스 제한 아키텍처

도 5는 콘텐츠(예를 들어, 단기적 메시지(502), 및 데이터의 연관된 멀티미디어 페이로드) 또는 콘텐츠 컬렉션(예를 들어, 단기적 메시지 그룹(504))에의 액세스가 시간-제한적일(예를 들어, 단기적일) 수 있는 액세스-제한 프로세스(500)를 예시하는 개략도이다. 단기적 메시지(502)의 콘텐츠는, 일부 예들에서, 얼굴 애니메이션 합성 AR 컴포넌트를 사용하여 생성된 이미지 또는 비디오를 포함한다.

단기적 메시지(502)는 메시지 지속기간 파라미터(506)와 연관되는 것으로 도시되고, 그 값은 단기적 메시지(502)가 메시징 클라이언트(104)에 의해 단기적 메시지(502)의 수신 사용자에게 디스플레이될 시간량을 결정한다. 일례에서, 송신 사용자가 메시지 지속기간 파라미터(506)를 사용하여 지정하는 시간의 양에 따라, 최대 10초 동안 수신 사용자가 단기적 메시지(502)를 볼 수 있다.

메시지 지속기간 파라미터(506) 및 메시지 수신기 식별자(424)는 메시지 타이머(512)에 대한 입력들인 것으로 도시되며, 이 메시지 타이머는 단기적 메시지(502)가 메시지 수신기 식별자(424)에 의해 식별되는 특정 수신 사용자에게 보여지는 시간의 양을 결정하는 것을 담당한다. 특히, 단기적 메시지(502)는 메시지 지속기간 파라미터(506)의 값에 의해 결정되는 기간 동안만 관련 수신 사용자에게 보여질 것이다. 메시지 타이머(512)는 수신 사용자에 대한 콘텐츠(예를 들어, 단기적 메시지(502))의 디스플레이의 전체 타이밍을 담당하는 더 일반화된 단기적 타이머 시스템(202)에 출력을 제공하는 것으로 도시된다.

단기적 메시지(502)는 단기적 메시지 그룹(504)(예를 들어, 개인 스토리 또는 이벤트 스토리에서의 메시지들의 컬렉션) 내에 포함되는 것으로 도 5에 도시되어 있다. 단기적 메시지 그룹(504)은 연관된 그룹 지속기간 파라미터(508)를 가지며, 그 값은 단기적 메시지 그룹(504)이 메시징 시스템(100)의 사용자들에게 제시되고 액세스 가능한 시간 지속기간을 결정한다. 그룹 지속기간 파라미터(508)는, 예를 들어, 음악 콘서트의 지속기간일 수 있고, 여기서 단기적 메시지 그룹(504)은 그 콘서트에 관련된 콘텐츠의 컬렉션이다. 대안으로서, 사용자(소유 사용자 또는 큐레이터 사용자)는 단기 메시지 그룹(504)의 셋업 및 생성을 수행할 때 그룹 지속기간 파라미터(508)에 대한 값을 지정할 수 있다.

추가로, 단기적 메시지 그룹(504) 내의 각각의 단기적 메시지(502)는 연관된 그룹 참여 파라미터(510)를 가지며, 그 값은 단기적 메시지(502)가 단기적 메시지 그룹(504)의 컨텍스트 내에서 액세스가능할 지속기간을 결정한다. 따라서, 특정 단기적 메시지 그룹(504)은, 단기적 메시지 그룹(504) 자체가 그룹 지속기간 파라미터(508)의 관점에서 만료되기 전에, 단기적 메시지 그룹(504)의 컨텍스트 내에서 "만료"되고 액세스불가능하게 될 수 있다. 그룹 지속기간 파라미터(508), 그룹 참여 파라미터(510), 및 메시지 수신기 식별자(424) 각각은 그룹 타이머(514)에 대한 입력을 제공하고, 이는 먼저, 단기적 메시지 그룹(504)의 특정 단기적 메시지(502)가 특정 수신 사용자에게 디스플레이될 것인지를, 그리고 만일 그렇다면, 얼마나 오랫동안 디스플레이될 것인지를 동작가능으로 결정한다. 단기적 메시지 그룹(504)은 또한 메시지 수신기 식별자(424)의 결과로서 특정 수신 사용자의 신원을 알고 있다는 점에 유의한다.

따라서, 그룹 타이머(514)는 연관된 단기적 메시지 그룹(504)뿐만 아니라 단기적 메시지 그룹(504)에 포함된 개별 단기적 메시지(502)의 전체 수명을 동작가능하게 제어한다. 일례에서, 단기적 메시지 그룹(504) 내의 각각의 그리고 모든 단기적 메시지(502)는 그룹 지속기간 파라미터(508)에 의해 지정된 기간 동안 볼 수 있고 액세스할 수 있게 유지된다. 추가의 예에서, 특정 단기적 메시지(502)는, 단기적 메시지 그룹(504)의 컨텍스트 내에서, 그룹 참여 파라미터(510)에 기초하여 만료될 수 있다. 메시지 지속기간 파라미터(506)는, 단기적 메시지 그룹(504)의 컨텍스트 내에서도, 특정 단기적 메시지(502)가 수신 사용자에게 디스플레이되는 지속기간을 여전히 결정할 수 있다는 점에 유의한다. 따라서, 메시지 지속기간 파라미터(506)는, 수신 사용자가 단기적 메시지 그룹(504)의 컨텍스트 내부 또는 외부에서 그 단기적 메시지(502)를 보고 있는지에 관계없이, 특정 단기적 메시지(502)가 수신 사용자에게 디스플레이되는 지속기간을 결정한다.

단기적 타이머 시스템(202)은 또한 특정 단기적 메시지(502)가 연관된 그룹 참여 파라미터(510)를 초과했다는 결정에 기초하여 단기적 메시지 그룹(504)으로부터 그것을 동작가능하게 제거할 수 있다. 예를 들어, 송신 사용자가 포스팅으로부터 24 시간의 그룹 참여 파라미터(510)를 확립했을 때, 단기적 타이머 시스템(202)은 특정된 24 시간 후에 단기적 메시지 그룹(504)으로부터 관련 단기적 메시지(502)를 제거할 것이다. 단기적 타이머 시스템(202)은 또한 단기적 메시지 그룹(504) 내의 각각의 그리고 모든 단기적 메시지(502)에 대한 그룹 참여 파라미터(510)가 만료되었을 때, 또는 단기적 메시지 그룹(504) 자체가 그룹 지속기간 파라미터(508)에 관하여 만료되었을 때 단기적 메시지 그룹(504)을 제거하도록 동작한다.

특정 사용 경우들에서, 특정 단기적 메시지 그룹(504)의 생성자는 무기한 그룹 지속기간 파라미터(508)를 특정할 수 있다. 이 경우, 단기적 메시지 그룹(504) 내의 마지막 남은 단기적 메시지(502)에 대한 그룹 참여 파라미터(510)의 만료는 단기적 메시지 그룹(504) 자체가 만료되는 때를 결정할 것이다. 이 경우, 새로운 그룹 참여 파라미터(510)를 갖는, 단기적 메시지 그룹(504)에 추가된 새로운 단기적 메시지(502)는 단기적 메시지 그룹(504)의 수명을 그룹 참여 파라미터(510)의 값과 동일하도록 효과적으로 연장한다.

단기적 타이머 시스템(202)이 단기적 메시지 그룹(504)이 만료되었다고(예를 들어, 더 이상 액세스 가능하지 않다고) 결정하는 것에 응답하여, 단기적 타이머 시스템(202)은 메시징 시스템(100)(및, 예를 들어, 구체적으로 메시징 클라이언트(104))과 통신하여 관련 단기적 메시지 그룹(504)과 연관된 표시(예를 들어, 아이콘)가 메시징 클라이언트(104)의 사용자 인터페이스 내에 더 이상 디스플레이되지 않게 한다. 유사하게, 단기적 타이머 시스템(202)이 특정 단기적 메시지(502)에 대한 메시지 지속기간 파라미터(506)가 만료되었다고 결정할 때, 단기적 타이머 시스템(202)은 메시징 클라이언트(104)가 단기적 메시지(502)와 연관된 표시(예를 들어, 아이콘 또는 텍스트 식별)를 더 이상 디스플레이하지 않게 한다.

도 6은 얼굴 애니메이션 합성을 이용하여 증강 현실 경험을 제공하기 위한 흐름도(600)이다. 하나의 예시적인 실시예에서, 일부 또는 모든 처리 로직은 도 1의 클라이언트 디바이스(102) 및/또는 도 1의 메시징 서버 시스템(108)에 상주한다. 방법(600)은 증강 시스템이 초상화 이미지 및 소스 프레임에 액세스할 때, 동작 610에서 시작한다. 초상화 이미지는 사용자를 나타내는 타겟 얼굴 객체를 포함하고, 소스 프레임은 배우를 나타내는 소스 얼굴 객체를 포함한다. 소스 프레임은 소스 비디오의 복수의 프레임으로부터의 프레임일 수 있고, 여기서 복수의 프레임 내의 각각의 얼굴 객체들은, 예를 들어, 말하거나, 웃거나, 기쁨 또는 슬픔과 같은 감정을 표현함으로써 장면을 연출하는 배우를 나타낸다. 동작 620에서, 증강 시스템은 임베더 머신 러닝 모델을 실행함으로써 타겟 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성한다. 임베더 머신 러닝 모델은 타겟 얼굴 객체의 컬러 및 조명의 표현이 없다는 점에서 컬러 중립적인 임베딩을 생성하는 방식으로 훈련된다. 얼굴 특징들을 나타내는 컬러 중립 임베딩을 생성하기 위한 임베더 머신 러닝 모델의 훈련은 훈련 얼굴 이미지들의 훈련 데이터세트, 및 또한 컬러 소스 이미지들의 세트를 사용함으로써 수행된다. 훈련 데이터세트로부터의 각각의 훈련 얼굴 이미지에 대해, 훈련 프로세스는 컬러 소스 이미지들의 세트로부터 이미지를 무작위로 선택하고, 컬러 소스 이미지들의 세트로부터 무작위로 선택된 이미지 및 훈련 얼굴 이미지를 사용하여, 입력 얼굴 이미지를 생성한다. 생성된 입력 얼굴 이미지는 훈련 얼굴 이미지의 얼굴 객체로부터의 표정 및 얼굴 특징들을 갖고, 컬러 소스 이미지들의 세트로부터 무작위로 선택된 이미지의 얼굴 객체로부터의 컬러 및 조명을 갖는다. 생성된 입력 얼굴 이미지는 훈련 얼굴 이미지에서 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하기 위해 임베더 머신 러닝 모델을 실행하기 위한 입력으로서 사용된다. 일부 예들에서, 입력 이미지를 생성하는 단계는 훈련 데이터세트로부터의 훈련 얼굴 이미지에서 얼굴 객체로부터 얼굴 표정을 인코딩하는 랜드마크들의 훈련 얼굴 세트를 결정하는 단계, 컬러 소스 이미지들의 세트로부터 무작위로 선택된 이미지에서 컬러 소스 얼굴 객체의 얼굴 표정을 인코딩하는 랜드마크들의 컬러 소스 얼굴 세트를 결정하는 단계, 랜드마크들의 훈련 얼굴 세트와 매칭하도록 랜드마크들의 컬러 소스 얼굴 세트를 수정함으로써 무작위로 선택된 이미지를 워핑하는 단계, 워핑된 무작위로 선택된 이미지 및 훈련 얼굴 이미지의 각각의 피라미드 표현들을 생성하는 단계, 및 각각의 피라미드 표현들을 사용하여 입력 이미지를 도출하는 단계를 포함하고, 입력 이미지 내의 얼굴 객체는 훈련 얼굴 이미지 내의 얼굴 객체의 컬러 및 조명과 별개인 컬러 및 조명을 갖는다. 위에서 설명된 바와 같이, 입력 이미지를 도출하기 위해 각각의 피라미드 표현들을 사용하는 것은 훈련 얼굴 이미지의 피라미드 표현의 최소 레벨을 워핑된 무작위로 선택된 이미지의 피라미드 표현의 최소 레벨로 대체함으로써 훈련 얼굴 이미지의 피라미드 표현을 수정하는 것, 및 훈련 얼굴 이미지의 수정된 피라미드 표현으로부터 입력 이미지를 재구성하는 것을 포함한다. 각각의 피라미드 표현들은, 일례에서, 라플라스 피라미드 표현들이고, 여기서 피라미드 표현들의 최소 레벨은 연관된 이미지의 1/16 해상도에 대응한다.

임베더 머신 러닝 모델을 실행함으로써 생성된 타겟 얼굴 객체로부터의 얼굴 특징들을 나타내는 임베딩은 생성기 머신 러닝 모델에서 입력으로서 사용된다. 동작 630에서, 증강 시스템은 소스 얼굴 객체를 새로운 얼굴 객체로 대체함으로써 소스 프레임을 수정하기 위해 생성기 머신 러닝 모델을 실행하고, 여기서 새로운 얼굴 객체는 타겟 얼굴 객체로부터의 얼굴 특징들, 소스 얼굴 객체로부터의 얼굴 표정, 및 소스 얼굴 객체로부터의 컬러 및 조명을 포함한다. 동작 640에서, 증강 시스템은 디스플레이 디바이스 상에서의 수정된 소스 프레임의 제시를 유발한다. 소스 프레임이 소스 비디오의 복수의 프레임으로부터의 프레임이고, 복수의 프레임에서의 각각의 얼굴 객체들이 장면을 연출하는 배우를 나타내는 예들에서, 수정된 소스 프레임은 수정된 소스 비디오의 복수의 프레임으로부터의 것이고, 증강 시스템은 디스플레이 디바이스 상에서의 수정된 소스 비디오의 제시를 유발한다.

도 7은 사용자를 묘사하는 초상화 이미지(710), 배우를 묘사하는 이미지(720), 및 얼굴 애니메이션 합성 프로세스로부터 생성된 얼굴을 보여주는 이미지(730)의 예시적인 표현(700)을 예시한다. 도 7에서 알 수 있는 바와 같이, 이미지(730)는 초상화 이미지(710)에 나타난 얼굴(712)의 유사성(예를 들어, 코, 입, 눈 및 눈썹의 형상 및 크기, 눈들 사이의 거리, 및 얼굴 머리카락)을 갖지만, 이미지(720) 내의 얼굴(722)의 표정(예를 들어, 시선 방향 및 갈라진 입술)은 물론, 이미지(720) 내의 배우의 머리 및 몸체를 갖는다. 이미지(730)에 도시된, 얼굴 애니메이션 합성 프로세스로부터 생성된 얼굴(732)은 이미지(720)에 도시된 배우의 얼굴로부터의 입 내부(724)와 동일한 입 내부(734)를 갖는다.

도 8은 얼굴 표정을 결정하는 얼굴 특징들의 각각의 위치들을 식별하는 얼굴 랜드마크들(810)의 예시적인 표현(800)을 예시한다. 얼굴 랜드마크(810)들은 입 및 눈썹의 위치 및 배향, 시선의 방향을 결정하는 동공의 위치 및 배향 등의 특징들을 나타낸다.

전술한 바와 같이, 본 명세서에 설명된 얼굴 애니메이션 합성 방법들은 메시징 시스템의 사용자들에게 액세스 가능하게 될 수 있다. 네트워크를 통해 데이터를 교환하기 위한 메시징 시스템에서, 얼굴 애니메이션 합성 AR 컴포넌트라고 지칭되는 증강 현실 컴포넌트는 본 명세서에 설명된 얼굴 애니메이션 합성 기술들을 이용하여 소스 프레임과 같은 타겟 미디어 콘텐츠 객체를 수정하도록 구성된다. 일부 예에서, 메시징 시스템은 클라이언트 디바이스에서 카메라 뷰 인터페이스의 제시를 유발한다. 카메라 뷰 인터페이스는 클라이언트 디바이스의 카메라의 디지털 이미지 센서의 출력을 포함하고, 또한 증강 현실 컴포넌트를 나타내는 사용자 선택가능 요소를 포함하고, 소스 얼굴 객체를 타겟 얼굴 객체로부터의 얼굴 특징들, 소스 얼굴 객체로부터의 얼굴 표정, 및 소스 얼굴 객체로부터의 컬러 및 조명을 포함하는 새로운 얼굴 객체로 대체함으로써 소스 프레임을 수정하기 위해 생성기 머신 러닝 모델을 실행하는 것은 증강 현실 컴포넌트를 나타내는 사용자 선택가능 요소의 활성화를 검출하는 것에 응답한 것이다. 도 9 및 도 10에 도시된 바와 같이, 수정된 소스는 클라이언트 디바이스에서 카메라 뷰 인터페이스에 제시된다.

영역(910) 내의 카메라의 디지털 이미지 센서의 출력(카메라 앞의 사용자의 이미지(920)), 및 카메라의 디지털 이미지 센서의 출력의 일부 위에 오버레이된 것으로서 카메라 뷰 사용자 인터페이스에 디스플레이되는 수정된 소스 프레임(922)을 디스플레이하는 카메라 뷰 사용자 인터페이스(900)의 예가 도 9에 도시되어 있다. 도 9에는 카메라에 의해 이미지를 캡처하거나 비디오 레코딩을 시작하고 중지하도록 동작할 수 있는 사용자 선택 가능 요소(930)가 도시되어 있다. 그래픽(940)은 로딩된 AR 컴포넌트가 사용자의 이전에 캡처되고 저장된 이미지(초상화 이미지)에 기초하여 수정을 수행하고 그것을 카메라 뷰 사용자 인터페이스(900)의 영역(910) 위에 오버레이할 수 있는 얼굴 애니메이션 합성 AR 컴포넌트임을 나타낸다. 사용자 선택가능 요소(950)는 사용자 선택가능 요소(950)와의 사용자의 검출된 상호작용에 응답하여 로딩될 수 있는 다른 AR 컴포넌트를 나타낸다.

도 10은 카메라의 디지털 이미지 센서의 출력 대신에 수정된 소스 프레임(1010)을 디스플레이하는 카메라 뷰 사용자 인터페이스(1000)의 개략적인 표현이다.

전술한 바와 같이, 얼굴 애니메이션 합성 프로세스는 메시징 시스템과 관련하여 설명되었지만, 본 명세서에서 설명되는 방법들은 엔터테인먼트 쇼, 컴퓨터 게임, 비디오 대화 등과 같은 다양한 다른 환경들에서 유리하게 사용될 수 있다.

머신 아키텍처

도 11은 머신(1100)으로 하여금 본 명세서에서 논의된 방법들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들(1108)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿, 앱, 또는 다른 실행가능한 코드)이 실행될 수 있는 머신(1100)의 도식적 표현이다. 예를 들어, 명령어들(1108)은 머신(1100)으로 하여금 본 명세서에서 설명된 방법들 중 임의의 하나 이상을 실행하게 할 수 있다. 명령어들(1108)은 일반적인 프로그래밍되지 않은 머신(1100)을 설명된 방식으로 설명되고 예시된 기능들을 실행하도록 프로그래밍된 특정 머신(1100)으로 변환한다. 머신(1100)은 독립형 디바이스로서 동작할 수 있거나 다른 머신들에 결합(예를 들어, 네트워킹)될 수 있다. 네트워킹된 배치에서, 머신(1100)은 서버-클라이언트 네트워크 환경에서 서버 머신 또는 클라이언트 머신의 지위로, 또는 피어-투-피어(또는 분산형) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신(1100)은 서버 컴퓨터, 클라이언트 컴퓨터, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 랩탑 컴퓨터, 넷북, 셋탑 박스(STB), 개인 휴대 단말기(PDA), 엔터테인먼트 미디어 시스템, 셀룰러 전화, 스마트폰, 모바일 디바이스, 웨어러블 디바이스(예를 들어, 스마트 시계), 스마트 홈 디바이스(예를 들어, 스마트 어플라이언스), 다른 스마트 디바이스, 웹 어플라이언스, 네트워크 라우터, 네트워크 스위치, 네트워크 브릿지, 또는 머신(1100)에 의해 취해질 액션들을 특정하는 명령어들(1108)을 순차적으로 또는 다른 방식으로 실행할 수 있는 임의의 머신을 포함할 수 있지만 이에 한정되지 않는다. 또한, 단일의 머신(1100)만이 예시되어 있지만, 용어 "머신"은 또한, 본 명세서에서 논의된 방법들 중 임의의 하나 이상을 수행하기 위해 명령어들(1108)을 개별적으로 또는 공동으로 실행하는 머신들의 컬렉션을 포함하는 것으로 간주되어야 한다. 머신(1100)은 예를 들어 클라이언트 디바이스(102) 또는 메시징 서버 시스템(108)의 일부를 형성하는 다수의 서버 디바이스들 중 임의의 하나를 포함할 수 있다. 일부 예들에서, 머신(1100)은 또한, 클라이언트 및 서버 시스템들 양쪽 모두를 포함할 수 있고, 특정 방법 또는 알고리즘의 특정 동작들은 서버측에서 수행되고, 특정 방법 또는 알고리즘의 특정 동작들은 클라이언트측에서 수행된다.

머신(1100)은 버스(1140)를 통해 서로 통신하도록 구성될 수 있는 프로세서들(1102), 메모리(1104), 및 입력/출력(I/O) 컴포넌트들(1138)을 포함할 수 있다. 일례에서, 프로세서들(1102)(예를 들어, CPU(Central Processing Unit), RISC(Reduced Instruction Set Computing) 프로세서, CISC(Complex Instruction Set Computing) 프로세서, GPU(Graphics Processing Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), RFIC(Radio-Frequency Integrated Circuit), 다른 프로세서, 또는 이들의 임의의 적절한 조합)은 예를 들어 명령어들(1108)을 실행하는 프로세서(1106) 및 프로세서(1110)를 포함할 수 있다. 용어 "프로세서"는 동시에 명령어들을 실행할 수 있는 2개 이상의 독립 프로세서(때때로 "코어"라고 함)를 포함할 수 있는 멀티-코어 프로세서를 포함하도록 의도된다. 도 11은 다수의 프로세서(1102)를 도시하고 있지만, 머신(1100)은 단일-코어를 갖는 단일 프로세서, 다수의 코어를 갖는 단일 프로세서(예를 들어, 멀티-코어 프로세서), 단일 코어를 갖는 다수의 프로세서, 다수의 코어를 갖는 다수의 프로세서, 또는 이들의 임의의 조합을 포함할 수 있다.

메모리(1104)는 메인 메모리(1112), 정적 메모리(1114) 및 저장 유닛(1116)을 포함하고, 이들 둘 다는 버스(1140)를 통해 프로세서들(1102)에 의해 액세스 가능하다. 메인 메모리(1104), 정적 메모리(1114) 및 저장 유닛(1116)은 본 명세서에 설명된 방법들 또는 기능들 중 임의의 하나 이상을 구현하는 명령어들(1108)을 저장한다. 명령어들(1108)은 또한, 머신(1100)에 의한 그의 실행 동안, 완전히 또는 부분적으로, 메인 메모리(1112) 내에, 정적 메모리(1114) 내에, 저장 유닛(1116) 내의 머신 판독가능 매체(1118) 내에, 프로세서들(1102) 중 적어도 하나 내에(예를 들어, 프로세서의 캐시 메모리 내에), 또는 이들의 임의의 적합한 조합에 상주할 수 있다.

I/O 컴포넌트들(1138)은 입력을 수신하고, 출력을 제공하고, 출력을 생성하고, 정보를 송신하고, 정보를 교환하고, 측정들을 캡처하는 등을 위한 매우 다양한 컴포넌트들을 포함할 수 있다. 특정 머신에 포함되는 특정 I/O 컴포넌트들(1138)은 머신의 유형에 의존할 것이다. 예를 들어, 모바일 폰들과 같은 휴대용 머신들은 터치 입력 디바이스 또는 다른 이러한 입력 메커니즘들을 포함할 수 있는 반면, 헤드리스 서버 머신은 이러한 터치 입력 디바이스를 포함하지 않을 가능성이 있다. I/O 컴포넌트들(1138)은 도 11에 도시되지 않은 많은 다른 컴포넌트들을 포함할 수 있다는 점이 이해될 것이다. 다양한 예들에서, I/O 컴포넌트들(1138)은 사용자 출력 컴포넌트들(1124) 및 사용자 입력 컴포넌트들(1126)을 포함할 수 있다. 사용자 출력 컴포넌트들(1124)은 시각적 컴포넌트들(예를 들어, PDP(plasma display panel), LED(light-emitting diode) 디스플레이, LCD(liquid crystal display), 프로젝터, 또는 CRT(cathode ray tube)와 같은 디스플레이), 음향 컴포넌트들(예를 들어, 스피커들), 햅틱 컴포넌트들(예를 들어, 진동 모터, 저항 메커니즘들), 다른 신호 생성기들 등을 포함할 수 있다. 사용자 입력 컴포넌트들(1126)은 영숫자 입력 컴포넌트들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성되는 터치 스크린, 포토-광학 키보드, 또는 다른 영숫자 입력 컴포넌트들), 포인트 기반 입력 컴포넌트들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서, 또는 다른 포인팅 기구), 촉각 입력 컴포넌트들(예를 들어, 물리적 버튼, 터치들 또는 터치 제스처들의 위치 및 힘을 제공하는 터치 스크린, 또는 다른 촉각 입력 컴포넌트들), 오디오 입력 컴포넌트들(예를 들어, 마이크로폰) 등을 포함할 수 있다.

추가의 예들에서, I/O 컴포넌트들(1138)은 다른 컴포넌트들의 광범위한 어레이 중에서 바이오메트릭 컴포넌트들(1128), 모션 컴포넌트들(1130), 환경 컴포넌트들(1132), 또는 위치 컴포넌트들(1134)을 포함할 수 있다. 예를 들어, 바이오메트릭 컴포넌트들(1128)은 표현들(예를 들어, 손 표현, 얼굴 표정, 음성 표현, 신체 제스처, 또는 눈-추적)을 검출하고, 생체신호들(예를 들어, 혈압, 심박수, 체온, 땀 또는 뇌파)을 측정하고, 사람을 식별(예를 들어, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별, 또는 뇌전도-기반 식별)하는 들의 컴포넌트들을 포함한다. 모션 컴포넌트들(1130)은 가속도 센서 컴포넌트들(예를 들어, 가속도계), 중력 센서 컴포넌트들, 회전 센서 컴포넌트들(예를 들어, 자이로스코프)을 포함한다.

환경 컴포넌트들(1132)은 예를 들어 (정지 화상/사진 및 비디오 능력을 갖춘) 하나 이상의 카메라, 조명 센서 컴포넌트(예를 들어, 광도계), 온도 센서 컴포넌트(예를 들어, 주변 온도를 검출하는 하나 이상의 온도계), 습도 센서 컴포넌트, 압력 센서 컴포넌트(예를 들어, 기압계), 음향 센서 컴포넌트(예를 들어, 배경 노이즈를 검출하는 하나 이상의 마이크로폰), 근접 센서 컴포넌트(예를 들어, 근처의 객체를 검출하는 적외선 센서), 가스 센서(예를 들어, 안전을 위해 유해 가스의 농도를 검출하거나 대기 중의 오염 물질을 측정하는 가스 검출 센서), 또는 주변의 물리적 환경에 대응하는 표시, 측정치, 또는 신호를 제공할 수 있는 다른 컴포넌트들을 포함한다.

카메라들과 관련하여, 클라이언트 디바이스(102)는 예를 들어 클라이언트 디바이스(102)의 전방 표면 상의 전방 카메라들 및 클라이언트 디바이스(102)의 후방 표면 상의 후방 카메라들을 포함하는 카메라 시스템을 가질 수 있다. 전방 카메라들은 예를 들어 클라이언트 디바이스(102)의 사용자의 정지 이미지들 및 비디오(예를 들어, "셀피들(selfies)")를 캡처하는 데 사용될 수 있고, 이들은 그 후 전술한 증강 데이터(예를 들어, 필터들)로 증강될 수 있다. 후방 카메라들은 예를 들어 더 전통적인 카메라 모드에서 정지 이미지들 및 비디오들을 캡처하는 데 사용될 수 있고, 이들 이미지들은 유사하게 증강 데이터로 증강된다. 전방 및 후방 카메라들에 더하여, 클라이언트 디바이스(102)는 360° 사진들 및 비디오들을 캡처하기 위한 360° 카메라를 또한 포함할 수 있다.

또한, 클라이언트 디바이스(102)의 카메라 시스템은 듀얼 후방 카메라들(예를 들어, 주 카메라뿐만 아니라 깊이-감지 카메라), 또는 심지어 클라이언트 디바이스(102)의 전방 및 후방 측면들 상의 트리플, 쿼드 또는 펜타 후방 카메라 구성들을 포함할 수 있다. 이러한 다수의 카메라 시스템들은 예를 들어, 와이드 카메라, 울트라-와이드 카메라, 텔레포토 카메라, 매크로 카메라 및 깊이 센서를 포함할 수 있다.

위치 컴포넌트들(1134)은 위치 센서 컴포넌트(예를 들어, GPS 수신기 컴포넌트), 고도 센서 컴포넌트(고도가 도출될 수 있는 기압을 검출하는 고도계 또는 기압계), 배향 센서 컴포넌트(예를 들어, 자력계) 등을 포함한다.

통신은 다양한 기술을 사용하여 구현될 수 있다. I/O 컴포넌트들(1138)은 머신(1100)을 각각의 결합 또는 접속을 통해 네트워크(1120) 또는 디바이스(1122)에 결합하도록 동작가능한 통신 컴포넌트들(1136)을 더 포함한다. 예를 들어, 통신 컴포넌트들(1136)은 네트워크 인터페이스 컴포넌트, 또는 네트워크(1120)와 인터페이스하기에 적합한 다른 디바이스를 포함할 수 있다. 추가 예들에서, 통신 컴포넌트들(1136)은 유선 통신 컴포넌트, 무선 통신 컴포넌트, 셀룰러 통신 컴포넌트, 근접장 통신(NFC) 컴포넌트, Bluetooth(등록상표) 컴포넌트(예를 들어, Bluetooth(등록상표) 저에너지), Wi-Fi(등록상표) 컴포넌트, 및 다른 양식들을 통해 통신을 제공하는 다른 통신 컴포넌트를 포함할 수 있다. 디바이스(1122)는 다른 머신 또는 다양한 주변 디바이스들 중 임의의 것(예를 들어, USB를 통해 결합된 주변 디바이스)일 수 있다.

또한, 통신 컴포넌트들(636)은 식별자들을 검출할 수 있거나 식별자들을 검출하도록 동작가능한 컴포넌트들을 포함할 수 있다. 예를 들어, 통신 컴포넌트들(636)은 RFID(Radio Frequency Identification) 태그 판독기 컴포넌트들, NFC 스마트 태그 검출 컴포넌트들, 광학 판독기 컴포넌트들(예를 들어, 1차원 바코드들, 예컨대 UPC(Universal Product Code) 바코드, 다차원 바코드들, 예컨대 QR(Quick Response) 코드, Aztec 코드, Data Matrix, Dataglyph, MaxiCode, PDF417, Ultra Code, UCC RSS-2D 바코드, 및 다른 광학 코드들을 검출하는 광학 센서), 또는 음향 검출 컴포넌트들(예를 들어, 태깅된 오디오 신호들을 식별하는 마이크로폰들)을 포함할 수 있다. 또한, 인터넷 프로토콜(IP) 지오로케이션을 통한 위치, Wi-Fi(등록상표) 신호 삼각측량을 통한 위치, 특정 위치를 나타낼 수 있는 NFC 비컨 신호를 검출하는 것을 통한 위치 등과 같은 다양한 정보가 통신 컴포넌트들(1136)을 통해 도출될 수 있다.

다양한 메모리들(예를 들어, 메인 메모리(1112), 정적 메모리(1114), 및 프로세서들(1102)의 메모리) 및 저장 유닛(1116)은 본 명세서에 설명된 방법들 또는 기능들 중 임의의 하나 이상을 구현하거나 그에 의해 사용되는 명령어들 및 데이터 구조들(예를 들어, 소프트웨어)의 하나 이상의 세트를 저장할 수 있다. 이러한 명령어들(예를 들어, 명령어들(1108))은, 프로세서들(1102)에 의해 실행될 때, 다양한 동작들이 개시된 예들을 구현하게 한다.

명령어들(1108)은 네트워크 인터페이스 디바이스(예를 들어, 통신 컴포넌트들(1136)에 포함된 네트워크 인터페이스 컴포넌트)를 통해, 송신 매체를 사용하여, 그리고 몇몇 잘 알려진 송신 프로토콜들(예를 들어, 하이퍼텍스트 송신 프로토콜(HTTP)) 중 어느 하나를 사용하여, 네트워크(1120)를 통해 송신 또는 수신될 수 있다. 유사하게, 명령어들(608)은 디바이스들(1122)에 대한 결합(예를 들어, 피어-투-피어 결합)을 통해 송신 매체를 사용하여 송신 또는 수신될 수 있다.

용어집

"캐리어 신호"는 머신에 의한 실행을 위한 명령어들을 저장, 인코딩, 또는 운반할 수 있는 임의의 무형 매체를 지칭하고, 그러한 명령어들의 통신을 용이하게 하기 위한 디지털 또는 아날로그 통신 신호들 또는 다른 무형 매체를 포함한다. 명령어들은 네트워크 인터페이스 디바이스를 통해 송신 매체를 사용하여 네트워크를 통해 송신 또는 수신될 수 있다.

"클라이언트 디바이스"는 하나 이상의 서버 시스템들 또는 다른 클라이언트 디바이스들로부터 리소스들을 획득하기 위해 통신 네트워크에 인터페이스하는 임의의 머신을 지칭한다. 클라이언트 디바이스는 모바일 폰, 데스크탑 컴퓨터, 랩탑, PDA(portable digital assistant)들, 스마트폰들, 태블릿들, 울트라북들, 넷북들, 랩탑들, 멀티-프로세서 시스템들, 마이크로프로세서-기반 또는 프로그래밍 가능 가전 제품들, 게임 콘솔들, 셋톱 박스들, 또는 사용자가 네트워크에 액세스하기 위해 사용할 수 있는 임의의 다른 통신 디바이스일 수 있지만, 이에 제한되지 않는다.

"통신 네트워크"는 애드혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설 네트워크(VPN), 근거리 네트워크(LAN), 무선 LAN(WLAN), 광역 네트워크(WAN), 무선 WAN(WWAN), 도시 영역 네트워크(MAN), 인터넷, 인터넷의 일부, 공중 교환 전화 네트워크(PSTN)의 일부, 기존 전화 서비스(POTS) 네트워크, 셀룰러 전화 네트워크, 무선 네트워크, Wi-Fi(등록상표) 네트워크, 다른 유형의 네트워크, 또는 둘 이상의 그러한 네트워크의 조합일 수 있는 네트워크의 하나 이상의 부분을 지칭한다. 예를 들어, 네트워크 또는 네트워크의 일부는 무선 또는 셀룰러 네트워크를 포함할 수 있고, 결합은 코드 분할 다중 액세스(CDMA) 접속, 이동 통신용 글로벌 시스템(GSM) 접속, 또는 다른 유형의 셀룰러 또는 무선 결합일 수 있다. 이 예에서, 결합은 단일 캐리어 무선 송신 기술(1xRTT), 진화 데이터 최적화(EVDO) 기술, 일반 패킷 무선 서비스(GPRS) 기술, GSM 진화를 위한 향상된 데이터 레이트들(EDGE) 기술, 3G를 포함하는 3세대 파트너십 프로젝트(3GPP), 4세대 무선(4G) 네트워크들, 범용 이동 통신 시스템(UMTS), 고속 패킷 액세스(HSPA), 마이크로파 액세스를 위한 전세계 상호운용성(WiMAX), 롱 텀 에볼루션(LTE) 표준, 다양한 표준 설정 조직들에 의해 정의되는 다른 것들, 다른 장거리 프로토콜들, 또는 다른 데이터 송신 기술과 같은 임의의 다양한 유형의 데이터 송신 기술을 구현할 수 있다.

"컴포넌트"는 기능 또는 서브루틴 호출들, 분기 포인트들, API들, 또는 특정 처리 또는 제어 기능들의 분할 또는 모듈화를 제공하는 다른 기술들에 의해 정의된 경계들을 갖는 디바이스, 물리적 엔티티, 또는 로직을 지칭한다. 컴포넌트들은 그들의 인터페이스들을 통해 다른 컴포넌트들과 결합되어 머신 프로세스를 수행할 수 있다. 컴포넌트는 다른 컴포넌트들 및 일반적으로 관련 기능들 중 특정 기능을 수행하는 프로그램의 일부와 함께 사용하도록 설계된 패키징된 기능 하드웨어 유닛일 수 있다. 컴포넌트들은 소프트웨어 컴포넌트들(예컨대, 머신 판독가능 매체 상에 구현된 코드) 또는 하드웨어 컴포넌트들을 구성할 수 있다. "하드웨어 컴포넌트"는 특정 동작들을 수행할 수 있는 유형의 유닛이고, 특정 물리적 방식으로 구성되거나 배열될 수 있다. 다양한 예시적인 실시예들에서, 하나 이상의 컴퓨터 시스템(예를 들어, 독립형 컴퓨터 시스템, 클라이언트 컴퓨터 시스템, 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템의 하나 이상의 하드웨어 컴포넌트(예를 들어, 프로세서 또는 프로세서들의 그룹)는 본 명세서에 설명된 바와 같은 특정 동작들을 수행하도록 동작하는 하드웨어 컴포넌트로서 소프트웨어(예를 들어, 애플리케이션 또는 애플리케이션 부분)에 의해 구성될 수 있다. 하드웨어 컴포넌트는 또한, 기계적으로, 전자적으로, 또는 이들의 임의의 적절한 조합으로 구현될 수 있다. 예를 들어, 하드웨어 컴포넌트는 특정 동작들을 수행하도록 영구적으로 구성되는 전용 회로 또는 로직을 포함할 수 있다. 하드웨어 컴포넌트는 FPGA(field-programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 프로세서일 수 있다. 하드웨어 컴포넌트는 또한 특정 동작들을 수행하기 위해 소프트웨어에 의해 일시적으로 구성되는 프로그래밍 가능 로직 또는 회로를 포함할 수 있다. 예를 들어, 하드웨어 컴포넌트는 범용 프로세서 또는 다른 프로그래밍 가능 프로세서에 의해 실행되는 소프트웨어를 포함할 수 있다. 이러한 소프트웨어에 의해 구성되면, 하드웨어 컴포넌트들은 구성된 기능들을 수행하도록 고유하게 맞춤화된 특정 머신들(또는 머신의 특정 컴포넌트들)이 되고 더 이상 범용 프로세서들이 아니다. 하드웨어 컴포넌트를 기계적으로, 전용의 영구적으로 구성된 회로에, 또는 일시적으로 구성된 회로(예컨대, 소프트웨어에 의해 구성됨)에 구현하기로 하는 결정은 비용 및 시간 고려사항들에 의해 주도될 수 있다는 것을 알 것이다. 따라서, "하드웨어 컴포넌트"(또는 "하드웨어-구현된 컴포넌트")라는 문구는 유형의 엔티티, 예컨대 특정 방식으로 동작하거나 본 명세서에서 설명된 특정 동작들을 수행하도록 물리적으로 구성되거나, 영구적으로 구성되거나(예를 들어, 하드와이어드되거나), 일시적으로 구성되는(예를 들어, 프로그래밍되는) 엔티티를 포함하는 것으로 이해되어야 한다. 하드웨어 컴포넌트들이 일시적으로 구성되는(예를 들어, 프로그래밍되는) 실시예들을 고려하면, 하드웨어 컴포넌트들 각각은 임의의 하나의 시간 인스턴스에서 구성되거나 인스턴스화될 필요는 없다. 예를 들어, 하드웨어 컴포넌트가 특수 목적 프로세서가 되도록 소프트웨어에 의해 구성된 범용 프로세서를 포함하는 경우, 범용 프로세서는 상이한 시간들에서 (예를 들어, 상이한 하드웨어 컴포넌트들을 포함하는) 각각 상이한 특수 목적 프로세서들로서 구성될 수 있다. 소프트웨어는 그에 따라, 예를 들어, 하나의 시간 인스턴스에서는 특정 하드웨어 컴포넌트를 구성하고 상이한 시간 인스턴스에서는 상이한 하드웨어 컴포넌트를 구성하도록 특정 프로세서 또는 프로세서들을 구성한다. 하드웨어 컴포넌트들은 다른 하드웨어 컴포넌트들에 정보를 제공하고, 그들로부터 정보를 수신할 수 있다. 따라서, 설명된 하드웨어 컴포넌트들은 통신가능하게 결합되는 것으로 간주될 수 있다. 다수의 하드웨어 컴포넌트들이 동시에 존재하는 경우, 하드웨어 컴포넌트들 중 2개 이상 사이의 (예를 들어, 적절한 회로들 및 버스들을 통한) 신호 송신을 통해 통신이 달성될 수 있다. 다수의 하드웨어 컴포넌트들이 상이한 시간들에서 구성되거나 인스턴스화되는 실시예들에서, 이러한 하드웨어 컴포넌트들 사이의 통신은, 예를 들어, 다수의 하드웨어 컴포넌트들이 액세스를 갖는 메모리 구조들에서의 정보의 저장 및 검색을 통해 달성될 수 있다. 예를 들어, 하나의 하드웨어 컴포넌트는 동작을 수행하고 그 동작의 출력을 통신가능하게 결합된 메모리 디바이스에 저장할 수 있다. 그 다음, 추가의 하드웨어 컴포넌트는, 나중에, 메모리 디바이스에 액세스하여 저장된 출력을 검색 및 처리할 수 있다. 하드웨어 컴포넌트들은 또한 입력 또는 출력 디바이스들과의 통신을 개시할 수 있고, 리소스(예컨대, 정보의 컬렉션)에 대해 동작할 수 있다. 본 명세서에 설명된 예시적인 방법들의 다양한 동작들은 관련 동작들을 수행하도록 (예를 들어, 소프트웨어에 의해) 일시적으로 구성되거나 영구적으로 구성되는 하나 이상의 프로세서에 의해 적어도 부분적으로 수행될 수 있다. 일시적으로 구성되든 영구적으로 구성되든 간에, 이러한 프로세서들은 본 명세서에 설명된 하나 이상의 동작 또는 기능을 수행하도록 동작하는 프로세서 구현 컴포넌트들을 구성할 수 있다. 본 명세서에서 사용될 때, "프로세서 구현 컴포넌트"는 하나 이상의 프로세서를 사용하여 구현된 하드웨어 컴포넌트를 말한다. 유사하게, 본 명세서에 설명된 방법들은 적어도 부분적으로 프로세서에 의해 구현될 수 있고, 특정 프로세서 또는 프로세서들은 하드웨어의 예이다. 예를 들어, 방법의 동작들 중 적어도 일부는 하나 이상의 프로세서(1104) 또는 프로세서 구현 컴포넌트에 의해 수행될 수 있다. 더욱이, 하나 이상의 프로세서는 또한 "클라우드 컴퓨팅" 환경에서 또는 "SaaS(software as a service)"로서 관련 동작들의 수행을 지원하도록 동작할 수 있다. 예를 들어, 동작들 중 적어도 일부는 (프로세서들을 포함하는 머신의 예로서의) 컴퓨터들의 그룹에 의해 수행될 수 있고, 이들 동작들은 네트워크(예를 들어, 인터넷)를 통해 그리고 하나 이상의 적절한 인터페이스(예를 들어, API)를 통해 액세스가능하다. 동작들 중 특정 동작의 수행은 단일 머신 내에 상주할 뿐만 아니라 다수의 머신에 걸쳐 배치되는 프로세서들 사이에 분산될 수 있다. 일부 예시적인 실시예들에서, 프로세서들 또는 프로세서 구현 컴포넌트들은 단일의 지리적 위치에(예를 들어, 집 환경, 사무실 환경, 또는 서버 팜 내에) 위치할 수 있다. 다른 예시적인 실시예들에서, 프로세서들 또는 프로세서 구현 컴포넌트들은 다수의 지리적 위치들에 걸쳐 분산될 수 있다.

"컴퓨터-판독가능 저장 매체"는 머신-저장 매체 및 송신 매체 모두를 지칭한다. 따라서, 용어들은 저장 디바이스들/매체들 및 캐리어 웨이브들/변조된 데이터 신호들 모두를 포함한다. 용어 "머신-판독가능 매체", "컴퓨터-판독가능 매체" 및 "디바이스-판독가능 매체"는 동일한 것을 의미하고 본 개시내용에서 상호교환가능하게 사용될 수 있다.

"머신 저장 매체"는 실행가능한 명령어들, 루틴들 및 데이터를 저장하는 단일 또는 다수의 저장 디바이스들 및 매체들(예를 들어, 중앙집중형 또는 분산형 데이터베이스, 및 연관된 캐시들 및 서버들)을 지칭한다. 따라서, 용어는 솔리드-스테이트 메모리들, 및 프로세서들 내부 또는 외부의 메모리를 포함하는 광학 및 자기 매체들을 포함하지만 이에 제한되지는 않는 것으로 간주되어야 한다. 머신-저장 매체, 컴퓨터-저장 매체 및 디바이스-저장 매체의 특정 예들은 예로서 반도체 메모리 디바이스들, 예를 들어, 소거 및 프로그래밍 가능 판독 전용 메모리(EPROM), 전기적 소거 및 프로그래밍 가능 판독 전용 메모리(EEPROM), FPGA, 및 플래시 메모리 디바이스들; 내부 하드 디스크들 및 이동식 디스크들과 같은 자기 디스크들; 광자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 비휘발성 메모리를 포함한다. 용어 "머신-저장 매체", "디바이스-저장 매체", "컴퓨터-저장 매체"는 동일한 것을 의미하고 본 개시내용에서 상호교환가능하게 사용될 수 있다. 용어 "머신-저장 매체", "컴퓨터-저장 매체", 및 "디바이스-저장 매체"는 구체적으로 캐리어 웨이브들, 변조된 데이터 신호들, 및 다른 그러한 매체를 배제하고, 이들 중 적어도 일부는 용어 "신호 매체" 하에 커버된다.

"비일시적 컴퓨터 판독가능 저장 매체"는 머신에 의한 실행을 위한 명령어들을 저장, 인코딩, 또는 운반할 수 있는 유형의 매체를 지칭한다.

"신호 매체"는 머신에 의한 실행을 위한 명령어들을 저장, 인코딩, 또는 운반할 수 있는 임의의 무형의 매체를 지칭하며, 소프트웨어 또는 데이터의 통신을 용이하게 하기 위한 디지털 또는 아날로그 통신 신호들 또는 다른 무형의 매체를 포함한다. "신호 매체"라는 용어는 임의의 형태의 변조된 데이터 신호, 캐리어 웨이브 등을 포함하는 것으로 간주되어야 한다. "변조된 데이터 신호"라는 용어는 신호에 정보를 인코딩하는 것과 관련하여 신호의 특성들 중 하나 이상이 설정되거나 변경된 신호를 의미한다. "송신 매체" 및 "신호 매체"라는 용어들은 동일한 것을 의미하며, 본 개시내용에서 상호교환가능하게 사용될 수 있다.

Claims

방법으로서,
타겟 얼굴 객체를 포함하는 초상화 이미지 및 배우를 나타내는 소스 얼굴 객체를 포함하는 소스 프레임에 액세스하는 단계;
임베더 머신 러닝 모델을 실행함으로써 상기 타겟 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하는 단계 - 상기 임베딩은 상기 타겟 얼굴 객체의 컬러 및 조명의 표현을 갖지 않음 -;
상기 소스 얼굴 객체를 새로운 얼굴 객체로 대체함으로써 상기 소스 프레임을 수정하기 위해, 상기 임베딩 및 상기 소스 프레임을 입력으로서 사용하여 생성기 머신 러닝 모델을 실행하는 단계 - 상기 새로운 얼굴 객체는 상기 타겟 얼굴 객체로부터의 상기 얼굴 특징들, 상기 소스 얼굴 객체로부터의 얼굴 표정, 및 상기 소스 얼굴 객체로부터의 컬러 및 조명을 포함함 -; 및
디스플레이 디바이스 상에서의 상기 수정된 소스 프레임의 제시를 유발하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 소스 프레임은 소스 비디오의 복수의 프레임으로부터의 것이고, 상기 복수의 프레임은 각각의 얼굴 객체들을 포함하고, 상기 각각의 얼굴 객체들 및 상기 소스 얼굴 객체는 상기 배우를 나타내고;
상기 수정된 소스 프레임은 수정된 소스 비디오의 복수의 프레임으로부터의 것인, 방법.
제1항에 있어서, 훈련 얼굴 이미지들의 훈련 데이터세트 및 컬러 소스 이미지들의 세트를 사용하여, 얼굴 특징들을 나타내는 컬러 중립 임베딩을 생성하도록 상기 임베더 머신 러닝 모델을 훈련하는 단계를 포함하고, 상기 훈련하는 단계는, 상기 훈련 데이터세트로부터의 각각의 훈련 얼굴 이미지에 대해:
상기 컬러 소스 이미지들의 세트로부터 이미지를 무작위로 선택하는 단계;
상기 컬러 소스 이미지들의 세트로부터의 상기 무작위로 선택된 이미지 및 상기 훈련 얼굴 이미지를 사용하여 입력 얼굴 이미지를 생성하는 단계 - 상기 입력 얼굴 이미지는 상기 훈련 얼굴 이미지의 얼굴 객체로부터의 표정 및 얼굴 특징들, 및 상기 컬러 소스 이미지들의 세트로부터의 상기 무작위로 선택된 이미지의 얼굴 객체로부터의 컬러 및 조명을 가짐 -; 및
상기 입력 얼굴 이미지를 입력으로서 사용하여 상기 임베더 머신 러닝 모델을 실행하여, 상기 훈련 얼굴 이미지 내의 상기 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하는 단계를 포함하는, 방법.
제3항에 있어서, 상기 입력 이미지를 생성하는 단계는,
상기 훈련 데이터세트로부터의 훈련 얼굴 이미지 내의 얼굴 객체로부터의 얼굴 표정을 인코딩하는 랜드마크들의 훈련 얼굴 세트를 결정하는 단계;
상기 컬러 소스 이미지들의 세트로부터의 무작위로 선택된 이미지 내의 컬러 소스 얼굴 객체의 얼굴 표정을 인코딩하는 랜드마크들의 컬러 소스 얼굴 세트를 결정하는 단계;
상기 랜드마크들의 훈련 얼굴 세트와 매칭하도록 상기 랜드마크들의 컬러 소스 얼굴 세트를 수정함으로써 상기 무작위로 선택된 이미지를 워핑하는 단계;
상기 워핑된 무작위로 선택된 이미지 및 상기 훈련 얼굴 이미지의 각각의 피라미드 표현들을 생성하는 단계; 및
상기 각각의 피라미드 표현들을 사용하여 상기 입력 이미지를 도출하는 단계를 포함하고, 상기 입력 이미지 내의 얼굴 객체는 상기 훈련 얼굴 이미지 내의 상기 얼굴 객체의 컬러 및 조명과 별개인 컬러 및 조명을 갖는, 방법.
제4항에 있어서, 상기 각각의 피라미드 표현들을 사용하여 상기 입력 이미지를 도출하는 단계는,
상기 훈련 얼굴 이미지의 상기 피라미드 표현의 최소 레벨을 상기 워핑된 무작위로 선택된 이미지의 상기 피라미드 표현의 최소 레벨로 대체함으로써 상기 훈련 얼굴 이미지의 상기 피라미드 표현을 수정하는 단계; 및
상기 훈련 얼굴 이미지의 상기 수정된 피라미드 표현으로부터 상기 입력 이미지를 재구성하는 단계를 포함하는, 방법.
제5항에 있어서, 상기 각각의 피라미드 표현들은 라플라스 피라미드 표현들이고, 상기 피라미드 표현들의 최소 레벨은 연관된 이미지의 1/16 해상도에 대응하는, 방법.
제1항에 있어서,
네트워크를 통해 데이터를 교환하기 위한 메시징 시스템에서, 타겟 미디어 콘텐츠 객체를 수정하도록 증강 현실 컴포넌트를 구성하고;
클라이언트 디바이스에서의 카메라 뷰 인터페이스의 제시를 유발하고, 상기 카메라 뷰 인터페이스는 상기 클라이언트 디바이스의 카메라의 디지털 이미지 센서의 출력을 포함하고, 상기 증강 현실 컴포넌트를 나타내는 사용자 선택가능 요소를 포함하고, 상기 생성기 머신 러닝 모델의 상기 실행은 상기 증강 현실 컴포넌트를 나타내는 상기 사용자 선택가능 요소의 활성화를 검출하는 것에 응답하고, 상기 디스플레이 디바이스 상에서의 상기 수정된 소스 프레임의 상기 제시의 상기 유발은 상기 클라이언트 디바이스에서의 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 제시를 유발하는, 방법.
제7항에 있어서, 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 상기 제시를 유발하는 단계는 상기 수정된 소스 프레임의 적어도 일부를 상기 카메라의 디지털 이미지 센서의 상기 출력의 일부 위에 오버레이하는 단계를 포함하는, 방법.
제7항에 있어서, 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 상기 제시를 유발하는 단계는 상기 카메라의 디지털 이미지 센서의 상기 출력 대신에 상기 수정된 소스 프레임의 제시를 유발하는 단계를 포함하는, 방법.
제7항에 있어서, 상기 초상화 이미지는 상기 메시징 시스템에서 사용자를 나타내는 사용자 프로파일과 연관되는, 방법.
시스템으로서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 명령어들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체를 포함하고, 상기 동작들은,
타겟 얼굴 객체를 포함하는 초상화 이미지 및 배우를 나타내는 소스 얼굴 객체를 포함하는 소스 프레임에 액세스하는 동작;
임베더 머신 러닝 모델을 실행함으로써 상기 타겟 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하는 동작 - 상기 임베딩은 상기 타겟 얼굴 객체의 컬러 및 조명의 표현을 갖지 않음 -;
상기 소스 얼굴 객체를 새로운 얼굴 객체로 대체함으로써 상기 소스 프레임을 수정하기 위해, 상기 임베딩 및 상기 소스 프레임을 입력으로서 사용하여 생성기 머신 러닝 모델을 실행하는 동작 - 상기 새로운 얼굴 객체는 상기 타겟 얼굴 객체로부터의 상기 얼굴 특징들, 상기 소스 얼굴 객체로부터의 얼굴 표정, 및 상기 소스 얼굴 객체로부터의 컬러 및 조명을 포함함 -; 및
디스플레이 디바이스 상에서의 상기 수정된 소스 프레임의 제시를 유발하는 동작을 포함하는, 시스템.
제11항에 있어서,
상기 소스 프레임은 소스 비디오의 복수의 프레임으로부터의 것이고, 상기 복수의 프레임은 각각의 얼굴 객체들을 포함하고, 상기 각각의 얼굴 객체들 및 상기 소스 얼굴 객체는 상기 배우를 나타내고;
상기 수정된 소스 프레임은 수정된 소스 비디오의 복수의 프레임으로부터의 것인, 시스템.
제11항에 있어서, 상기 하나 이상의 프로세서에 의해 실행되는 명령어들에 의해 유발되는 상기 동작들은 훈련 얼굴 이미지들의 훈련 데이터세트 및 컬러 소스 이미지들의 세트를 사용하여, 얼굴 특징들을 나타내는 컬러 중립 임베딩을 생성하도록 상기 임베더 머신 러닝 모델을 훈련하는 동작을 더 포함하고, 상기 훈련하는 동작은, 상기 훈련 데이터세트로부터의 각각의 훈련 얼굴 이미지에 대해:
상기 컬러 소스 이미지들의 세트로부터 이미지를 무작위로 선택하는 동작;
상기 컬러 소스 이미지들의 세트로부터의 상기 무작위로 선택된 이미지 및 상기 훈련 얼굴 이미지를 사용하여 입력 얼굴 이미지를 생성하는 동작 - 상기 입력 얼굴 이미지는 상기 훈련 얼굴 이미지의 얼굴 객체로부터의 표정 및 얼굴 특징들, 및 상기 컬러 소스 이미지들의 세트로부터의 상기 무작위로 선택된 이미지의 얼굴 객체로부터의 컬러 및 조명을 가짐 -; 및
상기 입력 얼굴 이미지를 입력으로서 사용하여 상기 임베더 머신 러닝 모델을 실행하여, 상기 훈련 얼굴 이미지 내의 상기 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하는 동작을 포함하는, 시스템.
제13항에 있어서, 상기 입력 이미지를 생성하는 동작은,
상기 훈련 데이터세트로부터의 훈련 얼굴 이미지 내의 얼굴 객체로부터의 얼굴 표정을 인코딩하는 랜드마크들의 훈련 얼굴 세트를 결정하는 동작;
상기 컬러 소스 이미지들의 세트로부터의 무작위로 선택된 이미지 내의 컬러 소스 얼굴 객체의 얼굴 표정을 인코딩하는 랜드마크들의 컬러 소스 얼굴 세트를 결정하는 동작;
상기 랜드마크들의 훈련 얼굴 세트와 매칭하도록 상기 랜드마크들의 컬러 소스 얼굴 세트를 수정함으로써 상기 무작위로 선택된 이미지를 워핑하는 동작;
상기 워핑된 무작위로 선택된 이미지 및 상기 훈련 얼굴 이미지의 각각의 피라미드 표현들을 생성하는 동작; 및
상기 각각의 피라미드 표현들을 사용하여 상기 입력 이미지를 도출하는 동작을 포함하고, 상기 입력 이미지 내의 얼굴 객체는 상기 훈련 얼굴 이미지 내의 상기 얼굴 객체의 컬러 및 조명과 별개인 컬러 및 조명을 갖는, 시스템.
제14항에 있어서, 상기 각각의 피라미드 표현들을 사용하여 상기 입력 이미지를 도출하는 동작은,
상기 훈련 얼굴 이미지의 상기 피라미드 표현의 최소 레벨을 상기 워핑된 무작위로 선택된 이미지의 상기 피라미드 표현의 최소 레벨로 대체함으로써 상기 훈련 얼굴 이미지의 상기 피라미드 표현을 수정하는 동작; 및
상기 훈련 얼굴 이미지의 상기 수정된 피라미드 표현으로부터 상기 입력 이미지를 재구성하는 동작을 포함하는, 시스템.
제15항에 있어서, 상기 각각의 피라미드 표현들은 라플라스 피라미드 표현들이고, 상기 피라미드 표현들의 최소 레벨은 연관된 이미지의 1/16 해상도에 대응하는, 시스템.
제11항에 있어서, 상기 하나 이상의 프로세서에 의해 실행되는 명령어들에 의해 유발되는 상기 동작들은,
네트워크를 통해 데이터를 교환하기 위한 메시징 시스템에서, 타겟 미디어 콘텐츠 객체를 수정하도록 증강 현실 컴포넌트를 구성하는 동작; 및
클라이언트 디바이스에서의 카메라 뷰 인터페이스의 제시를 유발하는 동작을 더 포함하고, 상기 카메라 뷰 인터페이스는 상기 클라이언트 디바이스의 카메라의 디지털 이미지 센서의 출력을 포함하고, 상기 증강 현실 컴포넌트를 나타내는 사용자 선택가능 요소를 포함하고, 상기 생성기 머신 러닝 모델의 상기 실행은 상기 증강 현실 컴포넌트를 나타내는 상기 사용자 선택가능 요소의 활성화를 검출하는 것에 응답하고, 상기 디스플레이 디바이스 상에서의 상기 수정된 소스 프레임의 상기 제시의 상기 유발은 상기 클라이언트 디바이스에서의 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 제시를 유발하는, 시스템.
제17항에 있어서, 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 상기 제시를 유발하는 동작은 상기 수정된 소스 프레임의 적어도 일부를 상기 카메라의 디지털 이미지 센서의 상기 출력의 일부 위에 오버레이하는 동작을 포함하는, 시스템.
제17항에 있어서, 상기 카메라 뷰 인터페이스에서의 상기 수정된 소스 프레임의 상기 제시를 유발하는 동작은 상기 카메라의 디지털 이미지 센서의 상기 출력 대신에 상기 수정된 소스 프레임의 제시를 유발하는 동작을 포함하는, 시스템.
머신으로 하여금 동작들을 수행하게 하기 위해 상기 머신에 의해 실행가능한 명령어 데이터를 갖는 머신 판독가능 비일시적 저장 매체로서, 상기 동작들은,
타겟 얼굴 객체를 포함하는 초상화 이미지 및 배우를 나타내는 소스 얼굴 객체를 포함하는 소스 프레임에 액세스하는 동작;
임베더 머신 러닝 모델을 실행함으로써 상기 타겟 얼굴 객체로부터 얼굴 특징들을 나타내는 임베딩을 생성하는 동작 - 상기 임베딩은 상기 타겟 얼굴 객체의 컬러 및 조명의 표현을 갖지 않음 -;
상기 소스 얼굴 객체를 새로운 얼굴 객체로 대체함으로써 상기 소스 프레임을 수정하기 위해, 상기 임베딩 및 상기 소스 프레임을 입력으로서 사용하여 생성기 머신 러닝 모델을 실행하는 동작 - 상기 새로운 얼굴 객체는 상기 타겟 얼굴 객체로부터의 상기 얼굴 특징들, 상기 소스 얼굴 객체로부터의 얼굴 표정, 및 상기 소스 얼굴 객체로부터의 컬러 및 조명을 포함함 -; 및
디스플레이 디바이스 상에서의 상기 수정된 소스 프레임의 제시를 유발하는 동작을 포함하는, 머신 판독가능 비일시적 저장 매체.