KR20210118428A - 개인화된 비디오를 제공하기 위한 시스템들 및 방법들 - Google Patents

개인화된 비디오를 제공하기 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR20210118428A
KR20210118428A KR1020217026009A KR20217026009A KR20210118428A KR 20210118428 A KR20210118428 A KR 20210118428A KR 1020217026009 A KR1020217026009 A KR 1020217026009A KR 20217026009 A KR20217026009 A KR 20217026009A KR 20210118428 A KR20210118428 A KR 20210118428A
Authority
KR
South Korea
Prior art keywords
face
image
source
computing device
user
Prior art date
Application number
KR1020217026009A
Other languages
English (en)
Other versions
KR102546016B1 (ko
Inventor
빅터 샤브로브
알렉산더 마쉬라보프
그리고리 카셴코
이반 시미노브
Original Assignee
스냅 아이엔씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/251,436 external-priority patent/US10789453B2/en
Application filed by 스냅 아이엔씨 filed Critical 스냅 아이엔씨
Publication of KR20210118428A publication Critical patent/KR20210118428A/ko
Application granted granted Critical
Publication of KR102546016B1 publication Critical patent/KR102546016B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • G06K9/00228
    • G06K9/00302
    • G06K9/00315
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

개인화된 영상을 제공하기 위한 시스템 및 방법이 개시된다. 예시적인 방법은 하나 이상의 사전 처리된 비디오를 저장하는 것을 포함한다. 상기 하나 이상의 사전 처리된 비디오는 적어도 타겟 페이스를 갖는 적어도 하나의 프레임을 포함할 수 있다. 상기 방법은 예를 들어 추가 이미지의 사용자 선택을 수신하고 상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할함으로써 소스 페이스의 이미지를 계속 수신할 수 있다. 상기 방법은 그 다음 하나 이상의 개인화된 비디오를 생성하기 위해 상기 하나 이상의 사전 처리된 비디오를 수정하는 것으로 진행될 수 있다. 상기 수정은 수정된 상기 소스 페이스의 상기 이미지를 생성하기 위해 소스 페이스의 이미지를 수정하는 것을 포함할 수 있다. 상기 수정된 소스 페이스는 상기 타겟 페이스의 페이셜 표현을 채택할 수 있다. 상기 수정은 상기 적어도 하나의 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지로 교체하는 단계를 더 포함할 수 있다.

Description

개인화된 비디오를 제공하기 위한 시스템들 및 방법들
본 개시는 일반적으로 디지털 이미지 프로세싱(digital image processing)에 관한 것이다. 보다 구체적으로, 본 개시는 개인화된 비디오들을 제공하기 위한 방법들 및 시스템들(methods and systems for providing personalized videos)에 관한 것이다.
스티커 및 이모티콘과 같은 미디어 공유(Sharing media)는 메시징 어플리케이션(여기서 메신저라고도 함)의 표준 옵션(standard option)이 되었다. 현재, 몇몇의 메신저는 커뮤니케이션 채팅을 통해 이미지 및 짧은 비디오를 생성하고 다른 사용자에게 보내는(send) 옵션을 사용자에게 제공한다. 기존의 특정 메신저는 사용자가 전송(transmit)하기 전에 짧은 비디오를 수정하는 것을 허용한다. 그러나 기존의 메신저에서 제공하는 짧은 비디오의 수정은 시각화 효과, 필터, 및 텍스트로 제한된다. 현재 메신저의 사용자는 한 얼굴을 다른 얼굴로 대체(replace)하는 것과 같은, 복잡한 편집을 수행(perform)할 수 없다. 이러한 비디오 편집은 현재의 메신저에서 제공되지 않고, 정교한 제3의(third-party) 비디오 편집 소프트웨어가 요구된다.
이 섹션은 아래의 상세한 설명의 섹션에서 더 상세하게 설명되는 선택된 개념들을 간단한 형태로 소개하기 위해 제공된다. 본 섹션은 청구된 주제의 주요 특징 또는 필수 특징을 식별하기 위한 것으로 의도된 것도 아니며, 또한 청구된 주제의 범위를 결정하는 데 도움이 되도록 사용되는 것을 의도한 것도 아니다.
본 개시내용의 일 실시예에 따르면, 개인화된 비디오들(personalized videos)을 제공하기 위한 시스템이 개시된다. 상기 시스템은 적어도 하나의 프로세서 및 프로세서 실행 가능 코드들을 저장하는 메모리를 포함한다. 상기 프로세서는 컴퓨팅 장치의 메모리에서 하나 이상의 처리된 비디오들을 저장하도록 구성될 수 있다. 상기 하나 이상의 처리된 비디오들은 적어도 타겟 페이스를 포함하는 적어도 하나의 프레임을 포함할 수 있다. 상기 프로세서는 소스 페이스의 이미지를 수신하기 위해 구성될 수 있다. 상기 소스 페이스의 상기 이미지는 메모리에 저장된 이미지들의 세트로부터 추가 이미지의 사용자 선택을 수신할 수 있다. 상기 추가 이미지는 배경 및 상기 소스 페이스를 포함하는 부분으로 분할될 수 있다. 추가적인 실시예에서, 상기 소스페이스의 상기 이미지는 상기 컴퓨팅 장치의 카메라에 의해 추가 이미지를 캡쳐하는 단계, 및 상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할하는 단계를 포함할 수 있다. 상기 추가 이미지를 캡처하기 전에, 상기 프로세서는 상기 컴퓨팅 장치의 그래픽 디스플레이 시스템을 통해 상기 추가 이미지를 표시할 수 있고, 상기 스크린의 사전 결정된 영역(pre-determined area)내에서 상기 추가 이미지의 얼굴 이미지를 배치(position)하도록 상기 사용자를 안내하는 단계를 더 포함할 수도 있다.
상기 프로세서는 하나 이상의 사전 처리된 비디오들(preprocessed videos)를 수정하여 하나 이상의 개인화된 비디오들을 생성하도록 구성될 수 있다. 상기 하나 이상의 사전 처리된 비디오들의 상기 수정은 타겟 페이스의 페이셜 표현(facial expression of the target face)을 채택하기 위해 소스 페이스의 이미지를 수정함으로써 수행될 수 있다. 상기 하나 이상의 사전 처리된 비디오를 수정하는 단계는 적어도 하나의 소스 페이스를 수정된 소스 페이스의 이미지로 대체하는 단계를 더 포함할 수 있다.
소스 페이스의 이미지를 수정하기 전에, 상기 프로세서는 상기 적어도 하나의 프레임에 기초하여, 파라메트릭 페이스 모델과 관련된 타겟 페이셜 표현 파라미터들(target facial expression parameters)을 결정할 수 있다. 이 실시예에서, 소스 페이스의 이미지의 수정은 소스 페이스의 이미지에 기초하여, 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 것을 포함할 수 있다. 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들(source facial expression parameters), 소스 페이셜 식별 파라미터들(source facial identity parameters), 및 소스 페이셜 텍스처 파라미터들(source facial texture parameters)을 포함할 수 있다. 상기 소스 페이스의 상기 이미지를 수정하는 단계는 파라메트릭 페이스 모델 및 타겟 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들에 기초하여 수정된 소스 페이스의 이미지를 합성하는 단계를 더 포함할 수 있다.
상기 프로세서는 또한 추가 소스의 추가 이미지를 수신하고, 상기 추가 이미지에 기초하여, 하나 이상의 추가 개인화된 비디오들을 생성하기 위해 하나 이상의 사전 처리된 비디오들을 수정하도록 더 구성될 수 있다. 상기 프로세서는 사용자 및 적어도 하나의 원격 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅이 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을 수신하고 상기 통신 채팅을 통해 상기 선택된 비디오를 적어도 하나의 추가 사용자에게 전송하도록 추가로 구성될 수 있다.
프로세서는 통신 채팅의 창(a window of the communication chat)에서 상기 선택된 비디오를 표시(display)하도록 더 구성될 수 있다. 상기 선택된 비디오는 붕괴 모드(collapsed mode)에서 표시될 수 있다. 사용자가 상기 통신 채팅의 창에서 상기 선택된 비디오를 탭했다는 지시를 수신하면, 상기 프로세서는 상기 선택된 비디오를 전체 스크린 모드로 표시할 수 있다. 상기 프로세서는 붕괴 모드에서 상기 선택된 비디오를 표시하는 동안 상기 선택된 비디오와 관련된 사운드를 음소거(mute)하고, 상기 선택된 비디오를 상기 전체 스크린 모드로 표시하는 동안, 상기 선택된 비디오와 관련된 상기 사운드를 재생하도록 더 구성될 수도 있다.
일 예시적인 실시예에 따르면, 개인화된 비디오들을 제공하기 위한 방법이 개시된다. 상기 방법은 컴퓨팅 장치에 의해, 하나 이상의 사전 처리된 비디오들을 저장하는 단계를 포함할 수 있다. 상기 하나 이상의 사전 처리된 비디오들은 적어도 타겟 페이스를 갖는 적어도 하나의 프레임을 포함할 수 있다. 그 후, 상기 방법은 컴퓨팅 장치에 의해, 소스 페이스의 이미지를 수신하는 것으로 계속될 수 있다. 상기 소스 페이스의 상기 이미지는 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 추가 이미지의 사용자 선택의 수신 및 배경 및 상기 소스 페이스를 포함하는 부분들로 추가 이미지의 분할로써 수신될 수 있다. 또 다른 예에서, 상기 소스 페이스의 상기 이미지는 컴퓨팅 장치의 카메라에 의해, 추가 이미지를 캡처하고, 배경 및 상기 소스 페이스를 포함하는 부분들로 추가 이미지를 분할함으로써 수신될 수 있다. 상기 추가 이미지를 캡처하기 전에, 상기 추가 이미지는 상기 컴퓨팅 장치의 그래픽 디스플레이 시스템을 통해 표시될 수 있고, 상기 사용자는 상기 그래픽 디스플레이 시스템의 사전 결정된 영역 내에서 상기 추가 이미지의 얼굴 이미지를 배치하도록 안내될 수 있다.
상기 방법은, 상기 컴퓨팅 장치에 의해, 상기 하나 이상의 사전 처리된 비디오들을 수정하여 하나 이상의 개인화된 비디오들을 생성하는 단계를 더 포함할 수도 있다. 상기 수정은 수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하는 것을 포함할 수 있다. 상기 수정된 소스 페이스(modified source face)는 상기 타겟 페이스의 페이셜 표현(facial expression)을 채택할 수 있다. 상기 수정은 상기 적어도 하나의 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지와 대체하는 것을 더 포함할 수 있다. 상기 방법은, 상기 컴퓨팅 장치에 의해, 추가 소스 페이스의 추가 이미지를 수신하는 단계 및 상기 컴퓨팅 장치에 의해, 상기 추가 이미지에 기초하여, 상기 하나 이상의 추가 개인화된 비디오들을 생성하기 위해 상기 하나 이상의 사전 처리된 비디오들을 수신하는 단계를 더 포함할 수 있다.
상기 방법은, 상기 컴퓨팅 장치에 의해, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 다른 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는(enable) 단계, 상기 컴퓨팅 장치에 의해, 상기 하나 이상의 개인화된 비디오로부터의 비디오의 사용자 선택을 수신하는 단계, 및 상기 컴퓨팅 장치에 의해, 상기 선택된 비디오를 상기 통신 채팅을 통해 적어도 하나의 추가 사용자에게 전송하는 단계를 더 포함할 수 있다. 상기 방법은 상기 컴퓨팅 장치에 의해, 붕괴 모드에서 통신 채팅의 창에서 선택된 비디오를 표시하는 단계를 계속할 수 있다. 상기 컴퓨팅 장치에 의해, 상기 사용자가 통신 채팅의 창에서 선택된 비디오를 탭했다는 지시를 수신하면, 상기 선택된 비디오는 전체 스크린 모드로 표시될 수 있다. 상기 방법은 상기 선택된 비디오를 붕괴 모드로 표시하는 동안 상기 선택된 비디오와 관련된 사운드를 음소거(mute)하고, 상기 선택된 비디오를 상기 전체 스크린 모드에서 표시하는 동안, 상기 선택된 비디오와 관련된 상기 사운드를 재생하는 단계를 포함할 수 있다
상기 방법은 상기 소스 페이스의 상기 이미지를 수정하기 전에, 상기 적어도 하나의 프레임에 기초하여, 파라메트릭 페이스 모델과 관련된 타겟 페이셜 표현 파라미터들을 결정하는 단계를 더 포함할 수 있다. 상기 적어도 하나의 프레임은 타겟 페이셜 표현 파라미터들과 같은 메타데이터를 포함할 수 있다. 이 실시예에서, 소스 페이스의 이미지의 수정은 소스 페이스의 이미지에 기초하여, 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 것을 포함할 수 있다. 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함할 수 있다. 소스 페이스의 이미지의 수정은 상기 파라메트릭 페이스 모델 및 상기 타겟 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이스 텍스처 파라미터들에 기초하여 상기 수정된 소스 페이스의 상기 이미지를 합성하는 단계를 더 포함할 수 있다.
본 개시의 또 다른 측면에 따르면, 프로세서-판독 가능 명령어를 저장하는 비-일시적 프로세서-판독 가능 매체가 제공된다. 프로세서-판독 가능 명령이 프로세서에 의해 실행될 때, 비-일시적 프로세서-판독 가능 매체는 프로세서가 전술한 개인화된 비디오 생성 방법을 구현하도록 한다.
예시들의 추가적인 목적, 장점, 및 신규한 특징은 이어지는 설명에서 부분적으로 설명될 것이고, 부분적으로는 다음의 설명 및 첨부 도면을 검토할 때 당업자에게 명백해질 것이며, 또는 예시들의 생성 또는 동작으로부터 알 수 있다. 이러한 개념들의 목적 및 장점은 첨부된 청구항에 특히 기재된 방법론, 수단 및 조합에 의해 실현되고 달성될 수 있다.
실시예들은 예를 들어 첨부된 도면들의 도면들에서 제한되지 않고, 유사한 참조들은 유사한 구성들을 표시한다.
도 1은 개인화된 비디오들을 제공하는 시스템과 방법이 구현될 수 있는 예시적인 환경을 도시하는 블록도이다.
도 2는 개인화된 비디오들을 제공하기 위한 시스템과 방법들을 구현하기 위한 컴퓨팅 장치의 예시적인 실시예를 도시하는 블록도이다.
도 3은 본 개시 내용의 일부 예시적인 실시예에 따른, 개인화된 비디오들을 제공하기 위한 시스템을 도시하는 블록도이다.
도 4는 예시적인 실시예에 따른, 개인화된 비디오의 생성 프로세스를 나타내는 개략도이다.
도 5는 본 개시내용의 일부 예시적인 실시예에 따른, 개인화된 비디오 생성 모듈의 블록도이다.
도 6 내지 도 11는 일부 예시적인 실시예들에 따른, 메신저에서 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스의 스크린들을 도시한다.
도 12는 예시적인 실시예에 따른, 개인화된 비디오들을 제공하기 위한 방법을 도시하는 흐름도이다.
도 13은 예시적인 실시예에 따른, 개인화된 비디오들을 공유하기 위한 방법을 도시하는 흐름도이다.
도 14는 개인화된 비디오들을 제공하기 위한 방법들을 구현하는데 사용될 수 있는 예시적인 컴퓨터 시스템을 도시한다.
이하 실시예의 상세한 설명은 상세한 설명의 일부를 형성하는 첨부 도면에 대한 참조를 포함한다. 이 섹션에 설명된 접근 방식은 청구항에 대한 선행 기술이 아니며 이 섹션에 포함됨으로써 선행 기술로 인정되지 않는다. 도면은 예시적인 실시예에 따른 그림을 보여준다. 본 명세서에서 "예시(examples)" 라고도 지칭되는 이러한 예시적인 실시예는 당업자가 본 주제를 실시할 수 있도록 충분히 상세하게 설명된다. 실시예들은 결합될 수 있고, 다른 실시예가 이용될 수 있거나, 청구된 범위를 벗어나지 않고 구조적, 논리적 및 동작적 변경이 이루어질 수 있다. 따라서, 이하의 상세한 설명은 제한적인 의미로 받아들여져서는 안 되고, 범위는 첨부된 청구항 및 그 균등물에 의해 정의된다.
본 특허 문서의 목적을 위해, 용어 "또는(or)" 및 "및(and)"은 달리 언급되거나 사용의 맥락에 의해 달리 명확하게 의도되지 않는 한 "및/또는(and/or)"을 의미한다. 용어 "a"는 달리 명시되지 않거나 "하나 이상"의 사용이 명백히 부적절하지 않는 한 "하나 이상(one or more)"을 의미한다. 용어 "포함하다(comprise)", "포함하는(comprise)", "포함하다(include)" 및 "포함하는(including)"은 상호 교환 가능하며 제한하려는 의도가 아니다. 예를 들어, 용어 "포함하는" 은 "포함하지만 이에 제한되지 않는(including, but not limited to)"을 의미하는 것으로 해석되어야 한다.
본 개시는 개인화된 비디오를 제공하기 위한 방법 및 시스템에 관한 것이다. 본 개시에 제공된 실시예는 공지된 기술의 적어도 일부 문제를 해결한다. 본 개시 내용은 스마트 폰, 태블릿 컴퓨터, 또는 모바일 폰과 같은 모바일 장치에서 실시간으로 작동하도록 설계될 수 있지만, 실시예는 웹 서비스 또는 클라우드 기반 리소스를 포함하는 접근 방식으로 확장될 수 있다. 여기에 설명된 방법은 컴퓨터 시스템에서 실행되는 소프트웨어 및/또는 마이크로 프로세서의 조합 또는 기타 특별히 설계된 ASIC(application-specific integrated circuit), 프로그램 가능 논리 장치 또는 이들의 임의의 조합을 사용하는 하드웨어에 의해 구현될 수 있다. 특히, 여기에 설명된 방법은 디스크 드라이브 또는 컴퓨터 판독 가능 매체와 같은 비 일시적 저장 매체에 상주하는 일련의 컴퓨터 실행 가능 명령어에 의해 구현될 수 있다.
본 개시내용의 일부 실시예들은 스마트폰과 같은 사용자 컴퓨팅 장치 상에서 실시간으로 개인화된 비디오들을 생성할 수 있게 할 수 있다. 개인화된 비디오들은 사전 생성된 비디오들, 예를 들어 배우가 등장하는 비디오들에 기초하여 생성될 수 있다. 본 개시의 특정 실시예들은 사전 생성된 비디오에서 배우의 얼굴을 사용자 또는 다른 사람의 얼굴과 대체하여 개인화된 비디오를 생성할 수 있게 할 수 있다. 배우의 얼굴을 사용자 또는 다른 사람의 얼굴과 교체하는 동안, 다른 사람의 사용자의 얼굴은 배우의 얼굴 표정을 채택하도록 수정된다. 개인화된 비디오는 사용자 및 다른 컴퓨팅 장치의 다른 사용자 사이의 통신 채팅 내에서 생성될 수 있다. 사용자는 통신 채팅을 통해 추가 사용자에게 하나 이상의 개인화된 동영상을 선택하여 전송할 수 있다. 개인화된 비디오는 개인화된 비디오들을 생성하기 위해 사용자의 얼굴의 이미지를 삽입하는데 사용되는 사전 처리된 비디오의 템플릿들과 관련된 미리 정의된 키워드들에 기초하여 인덱스(index)되고 검색가능(searchable)할 수 있다. 개인화된 비디오는 동영상에 등장하는 감정(sentiment)및 동작(actions)에 기초하여 순위화 되고 분류될 수 있다.
본 개시의 일 실시예에 따르면, 개인화된 비디오를 제공하기 위한 예시적인 방법은 컴퓨팅 장치에 의해, 하나 이상의 사전 처리된 비디오들을 저장하는 단계를 포함할 수 있다. 상기 하나 이상의 사전 처리된 비디오들은 적어도 타겟 페이스를 갖는 적어도 하나의 프레임을 포함할 수 있다. 상기 방법은 사용자와 적어도 하나의 원격 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 단계를 더 포함할 수 있다. 상기 컴퓨팅 장치는 소스 페이스의 이미지를 수신할 수 있고, 하나 이상의 개인화된 비디오를 생성하기 위해 상기 하나 이상의 사전 처리된 비디오를 수정할 수 있다. 상기 수정은 수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하는 것을 포함할 수 있다. 상기 수정된 소스 페이스(modified source face)는 상기 타겟 페이스의 페이셜 표현(facial expression)을 채택할 수 있다. 상기 수정은 적어도 하나의 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지와 대체하는 것을 더 포함할 수 있다. 상기 수정동안, 상기 하나 이상의 개인화된 비디오들로부터 비디오의 사용자 선택이 수신될 수 있고, 상기 선택된 비디오는 상기 통신 채팅을 통해 적어도 하나의 추가 사용자에게 전송될 수 있다.
이제 도면을 참조하여 예시적인 실시예가 기술된다. 도면은 이상적인 실시예의 개략적인 도면이다. 따라서, 본 명세서에서 논의된 예시적인 실시예는 본 명세서에 제시된 특정 설명으로 제한되는 것으로 이해되어서는 안 된다. 오히려, 이러한 예시적인 실시예는 변형(deviations)을 포함할 수 있고, 여기에 제시된 설명과 다를 수 있으며, 이는 당업자에게 명백하다.
도 1은 개인화된 비디오들을 제공하는 방법이 실시될 수 있는 예시적인 환경(100)을 나타낸다. 환경(100)은 컴퓨팅 장치(105), 사용자(102), 컴퓨팅 장치(110), 사용자(104), 네트워크(120), 및 메신저 서비스 시스템(130)을 포함할 수 있다. 컴퓨팅 장치(105)및 컴퓨팅 장치(110)는 휴대폰, 스마트 폰, 또는 태블릿 컴퓨터와 같은 모바일 장치를 지칭(refer)할 수 있다. 추가 실시예에서, 컴퓨팅 장치(110)는 개인용 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스, 텔레비전 장치, 멀티미디어 장치, 개인용 디지털 어시스턴트, 게임 콘솔, 엔터테인먼트 시스템, 인포테인먼트 시스템, 차량 컴퓨터, 또는 임의의 다른 컴퓨팅 장치를 지칭할 수 있다.
컴퓨팅 장치(105) 및 컴퓨터 장치(110)는 네트워크(120)를 통해 메신저 서비스 시스템(130)에 통신 가능하게 연결될 수 있다. 메신저 서비스 시스템(130)은 클라우드-기반 컴퓨팅 리소스(들)로 구현될 수 있다. 메신저 서비스 시스템(130)은 원격 위치에서 이용 가능(available)하고 네트워크(예: 인터넷)를 통해 액세스 가능한 컴퓨팅 리소스(들)(하드웨어 및 소프트웨어)를 포함할 수 있다. 클라우드 기반 컴퓨팅 리소스는 여러 사용자에 의해 공유될 수 있으며 필요에 따라(on demand) 동적으로 재-할당(re-allocate)될 수 있다. 클라우드-기반 컴퓨팅 리소스는 네트워크 스위치 및/또는 라우터와 함께-위치(co-locate)될 수 있는 컴퓨터 서버 모음을 포함하는 하나 이상의 서버 팜/클러스터를 포함할 수 있다.
네트워크(120)는 예를 들어 인터넷, 인트라넷, LAN(Local Area Network), PAN(Personal Area Network), WAN(Wide Area Network), VPN(Virtual Private Network), 휴대폰 네트워크(예: GSM(Global System for Mobile)), 통신 네트워크, 및 기타 등등을 포함하는 임의의 유선, 무선 또는 광 네트워크를 포함할 수 있다.
본 개시의 일부 실시예에서, 컴퓨팅 장치(105)는 컴퓨팅 장치(110)의 사용자(104)와 사용자(102) 사이의 통신 채팅을 가능하게 하도록 구성될 수 있다. 통신 채팅 중에, 사용자(102)와 사용자(104)는 문자 메시지 및 비디오를 교환할 수 있다. 상기 비디오는 개인화된 비디오를 포함할 수 있다. 개인화된 비디오는 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 저장된 사전 생성된 비디오에 기초하여 생성될 수 있다. 일부 실시예에서, 사전 생성된 비디오는 메신저 서비스 시스템(130)에 저장될 수 있고 필요에 따라 컴퓨팅 장치(105) 또는 컴퓨팅 장치(110)에 다운로드될 수 있다.
메신저 서비스 시스템(130)은 또한 사용자 프로필(user profiles)을 저장하도록 구성될 수 있다. 사용자 프로필은 사용자(102)의 얼굴의 이미지들, 사용자(104)의 얼굴의 이미지들, 및 다른 사람들의 얼굴들의 이미지들을 포함할 수 있다. 얼굴의 이미지들은 요구에 따라 컴퓨팅 장치(105)또는 컴퓨팅 장치(110)에 다운로드될 수 있고, 허가들에 기초하여 다운로드될 수 있다. 추가적으로, 사용자(102)의 얼굴의 이미지들은 컴퓨팅 장치(105)를 이용하여 생성될 수 있고 컴퓨팅 장치(105)의 로컬 메모리에 저장될 수 있다. 얼굴들의 이미지들은 컴퓨팅 장치(105)에 저장된 다른 이미지들에 기초하여 생성될 수 있다. 얼굴의 이미지들은 컴퓨팅 장치(105)에 의해 추가로 사용되어, 사전 생성된 비디오들에 기초하여 개인화된 비디오들을 생성할 수 있다. 유사하게, 컴퓨팅 장치(110)는 사용자(104)의 얼굴의 이미지들을 생성하는데 사용될 수 있다. 사용자(104)의 얼굴의 이미지들은 컴퓨팅 장치(110)상에 개인화된 비디오들을 생성하기 위해 사용될 수 있다. 다른 실시예에서, 사용자(102)의 얼굴의 이미지들 및 사용자(104)의 얼굴의 이미지들은 컴퓨팅 장치(105)또는 컴퓨팅 장치(110)상의 비디오들을 개인화하기 위해 상호 사용될 수 있다.
도 2는 개인화된 비디오를 위한 방법을 구현하기 위한 컴퓨팅 장치(105)(또는 컴퓨팅 장치(110))의 예시적인 실시예를 나타내는 블록도이다. 도 2에 도시된 예시처럼, 컴퓨팅 장치(110)는 하드웨어 구성 요소 및 소프트웨어 구성 요소 모두를 포함한다. 특히, 컴퓨팅 장치(110)는 디지털 이미지를 얻기(acquire) 위해 카메라(205) 또는 임의의 다른 이미지-캡처 장치 또는 스캐너를 포함한다. 컴퓨팅 장치(110)는 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드를 저장하기 위한 저장 모듈(215) 및 프로세서 모듈(210)을 더 포함할 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 개인화된 비디오의 생성 방법의 적어도 일부 단계를 수행하게 한다. 컴퓨팅 장치(105)는 그래픽 디스플레이 시스템(230) 및 통신 모듈(240)을 포함할 수 있다. 다른 실시예에서, 컴퓨팅 장치(105)는 추가적이거나 또는 상이한 구성 요소를 포함할 수 있다. 게다가, 컴퓨팅 장치(105)는 도 2에 도시된 것과 유사하거나 또는 동등한 기능을 수행하는 더 적은 구성 요소를 포함할 수 있다.
컴퓨팅 장치(110)는 다른 컴퓨팅 장치(예: 컴퓨팅 장치(110))와 개인화된 비디오를 제공하기 위한 시스템(300)과 통신 채팅을 가능하게 하기 위한 메신저(220)를 더 포함할 수 있다. 시스템(300)은 도 3을 참조하여 아래에서 더 상세히 설명된다. 메신저(220) 및 시스템(300)은 메모리 스토리지(215)에 저장된 소프트웨어 구성 요소 및 프로세서-판독 가능(기계-판독 가능) 명령 또는 코드로 구현될 수 있고, 프로세서 모듈(210)에 의해 수행될 때 컴퓨팅 장치(105)가 여기에 설명된 바와 같이 통신 채팅 및 개인화 비디오의 생성을 제공하기 위한 방법의 적어도 일부 단계를 수행하게 한다
일부 실시예에서, 개인화된 비디오를 제공하기 위한 시스템(300)은 메신저(300)에 통합(integrate)될 수 있다. 메신저(220)의 사용자 인터페이스 및 개인화된 비디오를 제공하기 위한 시스템(300)은 그래픽 디스플레이 시스템(230)을 통해 제공될 수 있다. 통신 채팅은 통신 모듈(240)및 네트워크(120)를 통해 가능해질 수 있다. 통신 모듈(240)은 GSM 모듈, WiFi 모듈, 블루투스?? 모듈 등을 포함할 수 있다.
도 3은 본 개시의 일부 예시적인 실시예에 따른, 개인화된 비디오들을 제공하기 위한 시스템(300)의 블록도이다. 시스템(300)은 사용자 인터페이스(305), 페이스 이미지 캡처 모듈(310), 비디오 데이터베이스(320), 및 개인화된 비디오 생성 모듈(330)을 포함할 수 있다
비디오 데이터베이스(320)는 하나 이상의 비디오를 저장할 수 있다. 비디오는 단일 배우 또는 다수의 배우를 특징으로 하는 이전에 기록된 비디오를 포함할 수 있다. 비디오는 2D 비디오 또는 3D 장면을 포함할 수 있다. 비디오들은 액터 페이스(타겟 페이스라고도 불림)와 각 프레임 내의 배경을 분할(segment)하도록 사전 처리(pre-processed)될 수 있고, 액터 페이스(타겟 페이스)대신에 소스 페이스의 추가 삽입을 위해 사용될 수 있는 파라미터들의 세트를 식별하도록 사전 처리될 수 있다. 파라미터들의 세트는 페이스 텍스처, 페이셜 표현 파라미터들, 페이스 색 파라미터들, 페이셜 식별 파라미터들, 위치, 및 페이스의 각도 등을 포함할 수 있다. 파라미터들의 세트는 또한 액터(actor)의 페이스들 상에서 수행될 수 있는 조작들 및 동작들의 리스트를 포함할 수 있으며, 이러한 조작들 및 조작들의 리스트는 사실적인 방식(photo-realistic manner)으로 수행된다.
페이스 이미지 캡처 모듈(320)은 사람의 이미지를 수신하여 사람의 얼굴 이미지를 생성할 수 있다. 사람의 얼굴 이미지는 비디오 데이터베이스(320)에 저장된 비디오에서 타겟 페이스를 대체하기 위한 소스 페이스로서 사용될 수 있다. 사람의 이미지는 컴퓨팅 장치(105)의 카메라(205)에 의해 캡처될 수 있다. 사람의 이미지는 컴퓨팅 장치(105)의 메모리 스토리지(215)에 저장된 이미지를 포함할 수 있다. 얼굴 이미지 캡처 모듈(320)에 대한 세부사항들이 도 7에 제공된다
개인화된 비디오 생성 모듈(330)은 상기 소스 페이스의 이미지에 기초하여, 데이터베이스(320)에 저장된 하나 이상의 사전 생성된 비디오로부터의 개인화된 비디오를 생성할 수 있다. 모듈(330)은 배우의 얼굴의 페이셜 표현을 유지하면서 소스 페이스와 사전 생성된 비디오에서 배우의 얼굴을 대체할 수 있다. 모듈(330)은 배우의 페이스 텍스처, 페이스 색상, 및 페이셜 식별을 소스의 페이스 텍스처, 페이스 색상 및 페이셜 식별로 대체할 수 있다. 모듈(330)은 또한 개인화된 비디오에서 소스 페이스의 눈 영역 위에 안경의 이미지를 추가할 수 있다. 유사하게, 모듈(330)은 개인화된 비디오에서 소스 페이스의 머리에 걸쳐 헤드웨어(예를 들어, 캡, 모자, 헬멧 등)의 이미지를 추가할 수 있다. 안경의 이미지(들)및 헤드웨어(headwear)는 사용자의 컴퓨팅 장치(105)에 미리 저장되거나 또는 생성될 수 있다. 안경의 이미지 및 헤드웨어(headwear)는 DNN을 사용하여 생성될 수 있다. 모듈(330)은 또한 개인화된 비디오에서 소스 페이스에 음영 또는 색상을 적용할 수 있다. 예를 들어, 모듈(330)은 소스 페이스의 얼굴에 선탠(suntan)을 추가할 수 있다.
도 4는 일부 예시적인 실시예들에 따른, 개인화된 비디오 생성 모듈(330)의 기능(400)을 도시하는 개략도이다. 개인화된 비디오 생성 모듈(330)은 소스 페이스(405), 및 사전 생성된 비디오(410)의 이미지를 수신할 수 있다. 사전 생성된 비디오(410)는 하나 이상의 프레임들(420)을 포함할 수도 있다. 프레임들(420)은 타겟 페이스(415)를 포함할 수도 있다. 소스 페이스(405)의 페이셜 표현은 타겟 페이스(415)의 페이셜 표현(facial expression)과 상이할 수 있다.
본 개시내용의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 소스 페이스 파라미터들(430)을 추출하기 위해 소스 페이스(405)의 이미지를 분석하도록 구성될 수 있다. 소스 페이스 파라미터들(430)은 소스 페이스(405)의 이미지에 파라메트릭 페이스 모델을 피팅(fit)함으로써 추출될 수 있다. 파라메트릭 페이스 모델은 템플릿 메쉬(template mesh)를 포함할 수 있다. 템플릿 메쉬 내 정점(vertices)들의 좌표들은 2개의 파라미터들, 즉 페이셜 식별 파라미터 및 페이셜 표현 파라미터에 의존할 수 있다. 따라서, 소스 파라미터들(430)은 소스 페이스(405)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수 있다. 소스 파라미터들(405)은 소스 페이스(405)의 텍스처를 더 포함할 수도 있다. 텍스처는 템플릿 메쉬 내의 정점들에서의 색상들을 포함할 수도 있다. 일부 실시예에서, 템플릿 메쉬와 관련된 텍스처 모델은 소스 페이스(405)의 텍스처를 결정하는데 사용될 수 있다.
본 개시의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 타겟 비디오(410)의 프레임들(420)을 분석하여 프레임들(420) 각각에 대한 타겟 페이스 파라미터들(335)을 추출하도록 구성될 수 있다. 타겟 페이스 파라미터들(435)은 파라메트릭 페이스 모델을 타겟 페이스(415)에 피팅(fit)함으로써 추출(extract)될 수 있다. 타겟 파라미터들(435)은 타겟 페이스(415)에 대응하는 페이셜 식별 및 페이셜 표현을 포함할 수 있다. 타겟 페이스 파라미터들(430)은 타겟 페이스(420)의 텍스처를 더 포함할 수 있다. 타겟 페이스(415)의 텍스처는 텍스처 모델을 사용하여 획득될 수 있다. 본 개시의 일부 실시예에서, 프레임들(420)각각은 메타데이터를 포함할 수 있다. 상기 메타데이터는 프레임에 대해 결정된 타겟 페이스 파라미터들을 포함할 수도 있다. 예를 들어, 타겟 페이스 파라미터들은 메신저 서비스 시스템(130)(도 1에 도시됨)에 의해 결정될 수 있다. 상기 타겟 페이스 파라미터들은 사전 생성된 비디오(410)의 프레임들의 메타데이터에 저장될 수 있다. 상기 사전 생성된 비디오는 컴퓨팅 장치(105)로 더 다운로드 될 수 있고 비디오 데이터베이스(320)에 저장될 수 있다. 대안적으로, 개인화된 비디오 생성 모듈(330)은 타겟 페이스 파라미터들(435)및 프레임들(420)의 타겟 페이스(415)의 위치 파라미터들을 결정하기 위해 사전 생성된 비디오(410)를 사전 처리할 수 있다. 개인화된 비디오 생성 모듈(330)은 타겟 페이스 파라미터들(435) 및 타겟 페이스 위치 파라미터들을 대응하는 프레임들(420)의 메타데이터에 추가로 저장할 수 있다. 이러한 방식으로, 타겟 페이스 파라미터들(435)은 사전 생성된 비디오(410)가 상이한 소스 페이스들(different source faces)을 갖는 개인화를 위해 선택될 때마다 재계산되지 않는다.
본 개시물의 일부 실시예에서, 개인화된 비디오 생성 모듈(330)은 소스 페이스 파라미터들(430)에서의 페이셜 표현을 타겟 파라미터들(435)로부터의 페이셜 표현과 대체하도록 추가로 구성될 수 있다. 개인화된 비디오 생성 모듈(330)은 파라메트릭 페이스 모델, 텍스처 모듈, 및 타겟 파라미터들(430)을 대체된 페이셜 표현과 함께 사용하여 출력 페이스(445)를 더 합성하도록 더 구성될 수 있다. 출력 페이스(435)는 개인화된 비디오(440)로 표시된 출력 비디오의 프레임들(445)을 획득하기 위해 타겟 비디오(410)의 프레임에서 타겟 페이스(415)를 대체하는 데 사용될 수 있다. 출력 페이스(435)는 타겟 페이스(415)의 페이셜 표현을 채택하는 소스 페이스(405)이다. 출력 비디오는 사전 결정된 비디오(410) 및 소스 페이스(405)의 이미지 및 소스 페이스(407)의 이미지에 기초하여 생성된 개인화된 비디오(440)이다.
일 예시적인 실시예에 따르면, 도 5는 개인화된 비디오 생성 모듈(330)의 블록도이다. 개인화된 비디오 생성 모듈(330)은 파라메트릭 페이스 모델(505), 텍스처 모델(510), DNN(515), 사전 처리 모듈(520), 파라미터 추출 모듈(525), 페이스 합성 모듈(525)및 입 및 눈 생성 모듈(530)을 포함할 수 있다. 모듈들(505-530)은 컴퓨팅 장치(105), 컴퓨팅 장치(110), 메신저 서비스 시스템(130)등과 같은 하드웨어 장치와 함께 사용하기 위한 소프트웨어 구성요소로서 구현될 수 있다.
본 개시물의 일부 실시예에서, 파라메트릭 페이스 모델(505)은 상이한 나이, 성별, 및 민족 배경(ethnic background)의 미리 정의된 수의 개인들의 이미지들에 기초하여 사전 생성될 수 있다. 각각의 개인에 대해, 이미지는 중립 페이셜 표현(a neutral facial expression)을 갖는 개인의 이미지 및 상이한 페이셜 표현을 갖는 개인의 하나 이상의 이미지를 포함할 수 있다. 페이셜 표현(facial expression)에는 입을 벌리고, 미소를 짓고, 분노하고, 놀라워하는 것 등이 포함될 수 있다.
파라메트릭 페이스 모델(505)은 사전 결정된 수의 정점들을 갖는 템플릿 메쉬를 포함할 수 있다. 템플릿 메쉬는 머리의 형상을 정의하는 3D 삼각 측량(triangulation)으로서 표현될 수 있다. 각각의 개인은 개별적인 특정 혼합 형상(blend shape)과 관련될 수 있다. 개별적인 특정 혼합 형상(blend shape)은 템플릿 메쉬로 조정될 수 있다. 개별-특정 혼합 형상(blend shape)은 템플릿 메쉬 내의 정점들의 특정 좌표들에 대응할 수 있다. 따라서, 개인들의 상이한 이미지들이 동일한 구조의 템플릿 메쉬에 대응할 수 있지만, 템플릿 메쉬 내의 정점들의 좌표들은 상이한 이미지들에 대해 상이하다.
본 개시물의 일부 실시예에서, 파라메트릭 페이스 모델은 2개의 파라미터들, 페이셜 식별 및 페이셜 표현에 따라 겹선형 페이스 모델(bilinear face model)을 포함할 수 있다. 겹선형 페이스 모델(bilinear face model)은 개인의 이미지에 대응하는 혼합 형상(blend shape)에 기초하여 구축될 수 있다. 따라서, 파라메트릭 페이스 모델은 사전 결정된 구조의 템플릿 메쉬를 포함하고, 정점들의 좌표들은 페이셜 식별 및 페이셜 표현에 의존한다.
본 개시물의 일부 실시예에서, 텍스처 모델(510)은 개인들의 이미지들에 대응하는 텍스처 벡터들의 선형 공간을 포함할 수 있다. 텍스처 벡터들은 템플릿 메쉬의 꼭지점들에서 색상들로서 결정될 수 있다.
파라메트릭 페이스 모델(505)및 텍스처 모델(510)은 페이셜 식별, 페이셜 표현, 및 텍스처의 알려진 파라미터들에 기초하여 페이스를 합성하는데 사용될 수 있다. 파라메트릭 페이스 모델(505)및 텍스처 모델(510)은 또한 새로운 페이스의 새로운 이미지에 기초하여 페이셜 식별, 페이셜 표현, 및 텍스처의 미지의 파라미터들을 결정하는데 사용될 수 있다.
파라메트릭 페이스 모델(505)및 텍스처 모델(510)을 사용하는 얼굴의 합성은 시간-소모적이지 않다. 그러나, 합성된 얼굴은 입과 눈 영역에서 사실적이지 않을 수 있다. 본 개시물의 일부 실시예에서, DNN(515)은 얼굴의 입 및 눈 영역들의 사실적인 이미지들을 생성하도록 학습될 수 있다. DNN(515)은 말하는 개인들의 비디오 컬렉션을 사용하여 학습될 수 있다. 말하는 개인들의 입 및 눈 영역들은 비디오들의 프레임들로부터 캡처 될 수 있다. DNN(515)은 입 및 눈 영역의 사전 결정된 수 및 현재 프레임의 원하는 페이셜 표현에 기초하여 얼굴의 입 및 눈 영역을 예측하기 위해 생성적 적대 네트워크(GAN)를 사용하여 학습될 수 있다. 입 및 눈 영역들의 이전 프레임들은 표정 표정을 위한 특정 모멘트 파라미터들로 추출될 수 있다. DNN(515)은 페이셜 표현을 위해 원하는 파라미터를 갖는 입 및 눈 영역을 합성하는 것을 허용할 수 있다. DNN(515)은 또한, 이전의 프레임들을 이용하여 공간 일관성(spatial coherence) 획득할 수 있게 할 수도 있다.
GAN은 페이스 모델, 현재 표현 파라미터들, 및 이전에 생성된 이미지로부터 특성들을 임베딩하고 동일한 하나 이상의 사실적 영역들을 생성하는 입 및 눈 영역들 상에서 조절을 수행한다. DNN(515)을 사용하여 생성된 입 및 눈 영역은 파라메트릭 페이스 모델(505)에 의해 합성된 입 및 눈 영역을 대체하기 위해 사용될 수 있다. DNN에 의해 입 및 눈 영역을 합성하는 것은 DNN에 의해 전체 얼굴을 합성하는 것보다 더 적게 시간-소모적일 수 있다는 것을 유의하여야 한다. 따라서, DNN을 이용한 입/눈 영역의 생성은 예를 들어, 스마트폰 또는 태블릿과 같은 모바일 장치의 하나 이상의 프로세서들에 의해 실시간으로 수행될 수 있다.
일부 실시예들에서, 사전 처리 모듈(520)은 사전 생성된 비디오(410) 및 소스 페이스(405)의 이미지를 수신하도록 구성될 수 있다. 타겟 비디오(410)는 타겟 페이스를 포함할 수 있다. 사전 처리 유닛(520)은 타겟 페이스(415)의 이미지들 및 타겟 배경을 획득하기 위해 타겟 비디오의 적어도 하나의 프레임의 분할을 수행하도록 추가로 구성될 수 있다. 분할은 신경망(neural network), 매트(matt)및 평활화(smooth)를 사용하여 수행될 수 있다
일부 실시예에서, 사전 처리 모듈(520)은 파라메트릭 페이스 모델(505)및 텍스처 모델(510)을 이용하여, 타겟 비디오(410)의 적어도 하나의 프레임에 기초하여 타겟 페이스 파라미터들의 세트를 결정하도록 추가로 구성될 수 있다. 일부 실시예에서, 타겟 파라미터들은 타겟 페이셜 식별, 타겟 페이셜 표현, 및 타겟 텍스처를 포함할 수 있다. 일부 실시예에서, 사전 처리 모듈(520)은 또한, 파라메트릭 페이스 모델(505)및 텍스처 모델(510)을 사용하여, 소스 페이스(405)의 이미지에 기초하여 소스 페이스 파라미터들의 세트를 결정하도록 구성될 수도 있다. 소스 페이스 파라미터들의 세트는 소스 페이셜 식별, 소스 페이셜 표현, 및 소스 텍스처를 포함할 수도 있다.
일부 실시예에서, 페이스 합성 모듈(525)은 출력 파라미터들의 세트를 획득하기 위해 소스 페이스 파라미터들의 세트 내의 소스 페이셜 표현을 타겟 페이셜 표현과 대체하도록 구성될 수 있다. 페이스 합성 모듈(525)은 파라미터 및 파라메트릭 페이스 모델(505)및 텍스처 모델(5101)의 출력 세트를 이용하여 출력 페이스를 합성하도록 더 구성될 수 있다.
일부 실시예에서, 2 차원(2D)변형들이 타겟 페이스에 적용되어 타겟 페이스에 숨겨진 출력 페이스의 영역들의 사실적인 이미지들을 획득할 수 있다. 2D 변형들의 파라미터들은 파라메트릭 페이스 모델의 파라미터들의 소스 세트에 기초하여 결정될 수 있다.
일부 실시예에서, 입 및 눈 생성 모듈(530)은 소스 페이셜 표현 및 타겟 비디오(410)의 적어도 하나의 이전 프레임에 기초하여 DNN(515)을 사용하여 입 및 눈들 영역들을 생성하도록 구성될 수 있다. 입 및 눈 생성 모듈(530)은 또한, 파라메트릭 페이스 모델(505)및 텍스처 모델(510)과 합성된 출력 페이스의 입 및 눈 영역들을 DNN(515)과 합성된 입 및 눈 영역들로 대체하도록 구성될 수 있다.
도 6은 일부 예시적인 실시예들에 따른 메시징 어플리케이션(메신저)에서 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스(600)의 예시적인 스크린을 도시한다. 사용자 인터페이스(600)는 채팅 창(610)및 비디오들(640)을 포함하는 섹션을 포함할 수 있다. 비디오들(640)은 얼굴들 대신에 얼굴 부분들(650)을 갖는 사전 렌더링된 비디오들을 포함할 수 있다. 사전 렌더링된 비디오들은 개인화된 비디오가 어떻게 보일 수 있는지에 대한 샘플 표현을 사용자에게 보여주기 위한 티져 비디오들(teaser videos)을 포함할 수 있다. 얼굴 부분들(650)은 흰색 타원의 형태(white ovals)로 도시될 수 있다. 일부 실시예에서, 비디오들(640)은 다수의 사람들 비디오들, 즉, 다수의 사람들의 얼굴들을 갖는 비디오들의 생성을 가능하게 하기 위해 몇 개의 얼굴 부분들(650)을 포함할 수 있다. 사용자는 채팅 창(610)에 대한 수정 및 전송을 위해 비디오들(640)중 임의의 비디오(640)를 탭하여, 비디오들중 하나를 선택할 수 있다. 수정은 사용자로부터 셀피 사진을 수신하는 단계(즉, 컴퓨팅 장치의 전면 카메라를 통해 취해진 사용자 얼굴의 이미지)를 수신하는 단계, 셀피 사진으로부터 소스 페이스를 획득하는 단계, 및 소스 페이스를 이용하여 선택된 비디오(640)를 수정하여 "릴" 로 지칭되는 개인화된 비디오를 생성하는 단계를 포함할 수 있다. 따라서, 본 명세서에서 사용되는 바와 같이, 릴은 동영상 템플릿(사용자 얼굴이 없는 동영상)을 사용자 얼굴이 삽입된 동영상으로 수정하여 제작한 개인화 동영상이다. 따라서 개인화된 비디오는 사용자의 얼굴이 등장하는 시청각 미디어(예: 비디오, 애니메이션 또는 기타 유형의 미디어)의 형태로 생성될 수 있다. 수정된 비디오는 채팅 창(610)으로 전송될 수 있다. 사용자 인터페이스(600)는 탭 시 사용자가 본 개시에 따라 개인화된 비디오를 제공하고 시스템의 기능을 사용하기 위한 시스템으로 메시징 어플리케이션에서 전환될 수 있는 버튼(630)을 더 가질 수 있다.
도 7 은 일부 예시적인 실시예들에 따른, 메신저에서 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스들(710 및 720)의 예시적인 스크린을 도시한다. 사용자 인터페이스들(710 및 720)은 사용자가 사용자 얼굴의 이미지를 취할 수 있는 셀피 촬영 모드를 나타내며, 이는 이어서 소스 페이스로서 사용된다. 사용자 인터페이스(710)는 사용자가 셀피 이미지를 캡처하고자 할 때 컴퓨팅 장치의 카메라의 라이브 뷰를 도시한다. 라이브 뷰는 사용자 얼굴(705)을 나타낼 수 있다. 사용자 인터페이스(710)는 셀피 타원(730)및 카메라 버튼(740)을 나타낼 수 있다. 예시적인 실시예에서, 카메라 버튼(740)은 셀피 촬영 모드에서 스크린의 하부로부터 위로 밀어 올려질 수 있다. 사용자는 셀피 타원(730)의 경계 내에 사용자 얼굴(705)을 위치시키기 위해 카메라의 위치를 변경할 필요가 있을 수 있다. 사용자 얼굴(705)이 셀피 타원(730)의 중심에 있지 않을 때, 셀피 타원(730)은 점선의 형태로 스타일링 될 수 있고, 카메라 버튼(740)은 반투명이 될 수 있고, 카메라 버튼(740)이 비활성(inactive)인 것을 나타내기 위해 액션이 불가능하게 된다(not actionable). 사용자 얼굴이 중심에 있지 않은 것을 사용자에게 통지하기 위해, 텍스트(760)는 셀피 타원(730)아래에 표시될 수 있다. 텍스트(760)는 사용자를 위한 명령들, 예를 들어, "얼굴을 중심에 두세요", "좋은 조명을 찾으세요" 등을 포함할 수 있다.
사용자 인터페이스(720)는 사용자가 셀피 이미지를 캡처하기 위해 카메라의 위치를 변경하고 사용자 얼굴(705)이 셀피 타원(730e)에 집중되는 경우, 컴퓨팅 장치의 카메라의 라이브 뷰를 도시한다. 특히, 사용자 얼굴(705)이 셀피 타원(730)의 중심에 위치할 때, 셀피 타원(730)이 굵은 연속 라인이 되도록 변화하고, 카메라 버튼(740)은 불투명하게 되어 카메라 버튼(740)이 이제 활성임을 표시할 수 있다. 사용자에게 통지하기 위해, 텍스트(760)는 셀피 타원(730)아래에 디스플레이될 수 있다. 텍스트(760)는 사용자에게 예를 들어 "셀피를 찍으세요!", "웃지 않도록 하세요." 등의 명령을 통해 사진을 찍도록 할 수 있다. 일부 실시예에서, 사용자는 카메라 롤 버튼(750)을 누름으로써 사진 갤러리로부터 기존 셀피 사진을 선택할 수 있다.
도 8 은 일부 예시적인 실시예들에 따른, 메신저에서 개인화된 비디오들을 제공하기 위한 시스템의 사용자 인터페이스들(810 및 820)의 예시적인 스크린을 도시한다. 사용자 인터페이스들(810 및 820)은 사용자가 셀피 사진을 찍은 후에 스크린 상에 도시된다. 사용자 인터페이스(810)는 배경(800), 현재 생성되고 있는 릴의 개략도(805), 및 텍스트(815)를 보여줄 수 있다. 텍스트(815)는 예를 들어, " 나의 릴 생성중 "을 포함할 수 있다. 사용자 인터페이스(820)는 생성된 릴(825) 및 텍스트 부분(830 및 835)을 나타낼 수 있다. 릴(825)은 전체 스크린 모드로 도시될 수 있다. 텍스트(815)는 예를 들어, "릴이 준비되었습니다" 등을 포함할 수 있다. 어두운 색상의 그레디언트(dark color gradient)는 릴(825)뒤에 제공될 수 있으며, 텍스트(830)는 가시적이게 된다. 텍스트 부분(835)은 사용자가 이미 사용자가 찍은 셀피 사진을 사용하거나 다른 셀피 사진을 찍을 수 있음을 사용자에게 알리기 위해 예를 들어 "이 셀피를 사용하여 채팅에서 릴을 보내거나 다시 촬영하여 다시 시도하십시오"를 표시할 수 있다. 부가적으로, 2개의 버튼들이 사용자 인터페이스(820)상에 도시될 수 있다. 버튼(840)은 청색 및 채워진 배경을 갖는 것으로 도시될 수 있고, 사용자에게 "이 셀피를 사용"하도록 명령할 수 있다. 사용자가 버튼(840)을 탭하면 2인용 릴 화면이 활성화될 수 있다. 버튼(845)은 흰색의 윤곽선이 있는 투명한 배경으로 표시될 수 있으며 사용자에게 "셀피를 다시 찍기"를 제안할 수 있다. 사용자가 버튼(845)을 탭할 때, 도 7에 도시된 사용자 인터페이스(710)는 활성화될 수 있고, 릴의 생성 단계는 도 7을 참조하여 설명된 바와 같이 개시될 수 있다. 사용자 인터페이스(820)는 버튼(840 및 845)아래의 서브 텍스트(850)를 더 나타낼 수 있다. 서브 텍스트(850)는 예를 들어," 설정에서 릴 셀피를 삭제할 수 있습니다." 등으로 표시되어 사용자가 릴을 어떻게 삭제할 수 있는지를 알릴 수 있다.
도 9는 일부 실시예에 따른, 메신저에서 개인화된 비디오를 제공하기 위한 시스템의 사용자 인터페이스(900)의 예시적인 스크린을 도시한다. 사용자 인터페이스(900)는 사용자가 선택한 후에 표시되어 있고, 사용자의 셀피 사진을 확인한다. 사용자 인터페이스(900)는 개인화된 비디오들(910)을 갖는 채팅 창(610)및 릴 섹션을 나타낼 수 있다. 예시적인 실시예에서, 개인화된 비디오들(910)은 각각의 행에서 4개의 개인화된 비디오들(910)타일을 갖는 타일들의 수직 스크롤링 리스트(vertically scrolling list)에 나타날 수 있다. 모든 개인화된 비디오들(910)은 자동 재생(자동 플레이 백)및 루프(연속적으로 재생)될 수 있다. 사운드는 모든 개인화된 비디오들(910)내에서 컴퓨팅 장치의 사운드 설정들 또는 사용자에 의해 볼륨 버튼이 탭 되었는지에 관계없이 꺼질(off) 수 있다. 메신저에서 일반적으로 사용되는 스티커와 유사하게, 개인화된 비디오들(910)은 인덱스(index)되고 검색가능(searchable)할 수 있다.
도 10은 일부 실시예에 따른, 메신저에서 개인화된 비디오를 제공하기 위한 시스템의 사용자 인터페이스(1000)의 예시적인 스크린을 도시한다. 사용자 인터페이스(1000)는 채팅 창(610), 선택된 비디오(1010)를 갖는 개인화된 비디오들의 리스트, 및 액션 바(1020)를 포함할 수 있다. 액션 바(1020)는 사용자가 선택된 비디오(1010)상에서 액션을 취할 수 있게 하기 위해 스크린의 바닥에서부터 슬라이딩할 수 있다. 사용자는 버튼(1030-1060)을 통해 액션 바(1020)로부터 선택된 비디오(1010)에 대한 어떤 액션들을 취할 수 있다. 버튼(1030)은 사용자가 전체 스크린 모드에서 선택된 비디오(1010)를 볼 수 있게 하는 "보기" 버튼이다. 버튼(1040)은 사용자가 다른 어플리케이션을 사용하여 선택된 비디오(1010)를 내보내게(export) 하거나 선택된 비디오(1010)를 컴퓨팅 장치의 저장소에 저장할 수 있게 하는 "내보내기(export)" 버튼이다. 버튼(1050)은 사용자가 새로운 셀피를 취할 수 있게 하는 "새로운 셀피" 버튼이다. 버튼(1060)은 사용자가 선택된 비디오(1010)를 채팅 창(6101)에 전송할 수 있게 하는 "보내기(send)" 버튼이다.
사용자는 버튼(1030)을 탭하여 선택된 비디오(1010)를 전체 스크린 모드로 볼 수 있다. 버튼(1030)을 탭핑할 때, 버튼(1060)("전송" 버튼)은 사용자가 선택된 비디오(1010)를 채팅 창(610)에 삽입할 수 있게 하기 위해 액션 바(1020)상의 제 위치에 머무를 수 있다. 다른 버튼들은 선택된 비디오(1010)가 전체 스크린 모드에서 재생될 때 흐려(fade)질 수 있다. 사용자는 전체 스크린 모드에서 비디오들 사이를 탐색(navigate)하기 위해 스크린 또는 스와이프 좌/우의 오른쪽을 탭핑할 수 있다. 사용자는 사용자가 행을 끝낼 때까지(completed a row) 다음 비디오로 이동할 수 있고, 그 후 다음 행의 제1 비디오로 이동할 수 있다. 선택된 비디오(1010)가 전체 스크린 모드에 있는 경우, 선택된 비디오(1010)의 볼륨은 컴퓨팅 장치의 볼륨 설정들에 대응한다. 볼륨이 켜진(on) 경우, 선택된 비디오(1010)는 볼륨과 함께 재생될 수 있다. 볼륨이 꺼진(off) 경우, 선택된 비디오(1010)는 볼륨 없이 재생될 수 있다. 볼륨이 꺼져도 사용자가 볼륨 버튼을 탭핑하면, 선택된 비디오(1010)는 볼륨과 함께 재생될 수 있다. 사용자가 다른 비디오를 선택하면, 즉 선택된 비디오가 볼륨과 함께 재생될 수 있다면, 동일한 설정이 적용된다. 사용자가 사용자 인터페이스(1000)상에 표시된 채팅 대화 뷰(chat conversation view)를 떠날 경우, 비디오들의 볼륨 설정들은 컴퓨팅 장치의 볼륨 설정들에 대응하도록 초기화(reset) 될 수 있다.
선택된 비디오(1010)가 전송되면, 송신자 및 수신자는 선택된 비디오(1010)를 채팅 창(610)에서 동일한 방식으로 볼 수 있다. 선택된 비디오(1010)의 사운드는 선택된 비디오(1010)가 붕괴된 뷰(collapsed view)에 있을 때 꺼질 수 있다. 선택된 비디오(1010)의 사운드는 선택된 비디오(1010)가 전체 스크린 모드에서 보일 때에만 재생될 수 있다.
사용자는 전체 스크린 모드에서 선택된 비디오(1010)를 볼 수 있고, 선택된 비디오(1010)를 전체 스크린 모드로부터 채팅 대화 뷰로 나가도록 스와이프(swipe)할 수 있다. 또한, 사용자는 상측에서 다운 화살표를 탭하여 이를 무시할 수 있다.
버튼(1040), 즉 "내보내기(Export)" 버튼을 탭하는 것은 공유 시트(share sheet)를 제시할 수 있다. 사용자는 선택된 비디오(1010)를 임의의 다른 플랫폼을 통해 직접 공유할 수 있거나, 그것을 컴퓨팅 장치 상의 사진 갤러리에 저장할 수 있다. 일부 플랫폼들은 채팅에서 비디오들을 자동적으로 재생할 수 있고, 다른 플랫폼들은 비디오들을 자동적으로 재생하지 않을 수 있다. 플랫폼이 비디오들을 자동적으로 재생하지 않는 경우, 선택된 비디오(1010)는 그래픽 교환 포맷(GIF)포맷으로 내보내질 수 있다. 컴퓨팅 장치의 일부 운영 체계는 어떤 파일이 어떤 플랫폼으로 공유될 것인지를 선택할 수 있게 하는 공유 메뉴를 가질 수 있어서, 커스텀 액션 시트(custom action sheets)를 추가할 필요가 없을 수 있다. 일부 플랫폼들은 GIF 파일들을 재생하지 않고 이들을 정적 이미지들(static images)로서 표시할 수 있고, 선택된 비디오(1010)는 이들 플랫폼들로 비디오로 내보내질 수 있다.
도 11 은 일부 실시예에 따른, 메신저에서 개인화된 비디오를 제공하기 위한 시스템의 사용자 인터페이스들(1110 및 1120)의 예시적인 스크린을 도시한다. 사용자 인터페이스(1110)는 채팅 창(610), 선택된 비디오(1115)를 갖는 개인화된 비디오들의 리스트, 및 액션 바(1020)를 포함할 수 있다. 새로운 셀피 버튼(1050)을 탭핑할 때, 사용자 인터페이스(1120)가 도시될 수 있다. 특히 사용자 인터페이스(1110)에 표시된 대로 비디오에서 상태를 선택하면 새로운 셀피(1050)를 탭하여 갤러리에서 셀피를 선택(버튼 (1125)를 통해 "카메라 롤에서 선택")할지, 컴퓨팅 장치의 카메라로 셀피를 찍을지(버튼 (1130)을 통해 "셀피 찍기") 선택할 수 있는 액션 시트를 볼 수 있다. "셀피 찍기" 버튼 (1130)을 탭하면 도 7과 같은 과정이 사용자에게 안내될 수 있다.
사용자가 카메라를 이용하여 셀피 사진을 찍거나 카메라 롤로부터 셀피 사진을 선택하면, 도 8에 도시된 프로세스가 개시될 수 있다. "카메라 롤에서 선택" 버튼(1125)을 탭핑하는 것은 사용자를 카메라 롤 페이지 상의 셀피 사진을 택하게 하고, 이는 채팅 창(610)의 스크린의 바닥으로부터 상부로 올라갈 수 있다. 그 후, 셀피 사진은 도 7을 참조하여 설명된 바와 같이 셀피 타원으로 배치될 수 있다.
사용자가 제1 시간 동안 릴(Reel)을 수신하고 아직 자신의 릴을 생성하지 않은 경우, 시스템은 사용자가 자신의 릴(Reel)을 생성하도록 장려(encourage)할 수 있다. 예를 들어, 사용자가 전체 스크린 모드에서 다른 사용자로부터 수신된 릴(Reel)을 시청할 때, 릴(Reel)의 하부에 "나의 릴 만들기" 버튼이 표시될 수 있다. 사용자는 버튼을 탭하거나 릴을 위로 스와이프하여 카메라 버튼을 화면으로 가져오고 도 7를 참조하여 상세히 설명된 셀피 촬영 모드로 들어갈 수 있다.
예시적인 실시예에서, 릴은 사용자가 전달하고자 하는 일반적인 감정을 사용자가 쉽게 찾을 수 있도록 분류될 수 있다. 예를 들어, 등장(featured), 인사(greetings), 사랑(love), 행복(happy), 화남(upset), 축하(celebration)등의 다수의 감정에 대한 사전 결정된 수의 카테고리가 제공될 수 있다. 일부 예시적인 실시예에서, 카테고리 대신에 검색 태그(search tags)가 사용될 수 있다.
도 12는 예시적인 실시예에 따른, 개인화된 비디오들을 제공하기 위한 방법(1200)을 도시하는 흐름도이다. 상기 방법(1200)은 컴퓨팅 장치(105)에 의해 수행될 수 있다. 상기 방법(1200)은 컴퓨팅 장치에 의해, 하나 이상의 사전 처리된 비디오들을 저장하는 것과 함께 블록(1205)에서 시작할 수 있다. 상기 하나 이상의 사전 처리된 비디오들은 적어도 하나의 프레임을 포함할 수 있다. 상기 적어도 하나의 프레임은 적어도 타겟 페이스를 포함할 수 있다. 상기 방법(1200)은, 컴퓨팅 장치에 의해, 블록(1210)에 도시된 바와 같이 소스 페이스의 이미지를 수신하는 것으로 계속될 수 있다, 상기 방법(1200)은 또한 블록(1215)에서 계속될 수 있으며, 여기서 상기 하나 이상의 사전 처리된 비디오들은 하나 이상의 개인화된 비디오들을 생성하도록 수정될 수 있다. 상기 수정은 수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하는 것을 포함할 수 있다. 상기 수정된 소스 페이스는 상기 타겟 페이스의 페이셜 표현 (facial expression)을 채택할 수 있다. 상기 수정은 상기 적어도 하나의 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지와 대체하는 것을 더 포함할 수 있다.
도 13은 본 개시내용의 일부 예시적인 실시예에 따른 개인화된 비디오를 공유하기 위한 방법(1300)을 나타내는 흐름도이다. 상기 방법(1300)은 상기 컴퓨팅 장치(105)에 의해 수행될 수 있다. 상기 방법(1300)은 도 12의 상기 방법(1200)의 추가적인 단계들을 제공할 수 있다. 상기 방법(1300)은 블록(1305)에서 컴퓨팅 장치에 의해 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 간의 통신 채팅을 가능하게 하는 것으로 시작할 수 있다. 상기 방법(1300)은, 상기 컴퓨팅 장치에 의해, 상기 하나 이상의 개인화된 비디오로부터 비디오의 사용자 선택을 수신하는 것으로 블록(1310)에서 계속될 수 있다. 상기 방법(1300)은 블록(1315)에 도시된 바와 같이, 상기 컴퓨팅 장치에 의해, 상기 선택된 비디오를 상기 통신 채팅을 통해 적어도 하나의 추가 사용자에게 전송하는 단계를 더 포함할 수 있다.
도 14는 여기에 설명된 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 시스템 (1400)을 도시한다. 컴퓨팅 시스템(1400)은 컴퓨팅 장치(105, 110), 메신저 서비스 시스템(130), 메신저(220), 및 개인화된 비디오 생성 시스템(300)과 같은 맥락에서 구현될 수 있다.
도 14에 나타난 것처럼, 컴퓨팅 시스템(1400)의 하드웨어 구성 요소는 하나 이상의 프로세서(1410) 및 메모리(1420)를 포함할 수 있다. 메모리(1420)는, 부분적으로, 프로세서(1410)에 의한 실행을 위한 명령 및 데이터를 저장한다. 메모리(1420)는 시스템(1400)이 동작할 때 실행 가능한 코드를 저장할 수 있다. 시스템(1400)은 선택적 매스 스토리지 장치(1430), 선택적 휴대용 스토리지 매체 드라이브(들)(1440), 하나 이상의 선택적 출력 장치(1450), 하나 이상의 선택적 입력 장치(1460), 선택적 네트워크 인터페이스(1470), 및 하나 이상의 선택적 주변 장치 (1480)를 추가로 포함할 수 있다. 컴퓨팅 시스템(1400)은 또한 하나 이상의 소프트웨어 구성 요소(1495)(예: 여기에 설명된 개인화된 비디오 생성 방법을 구현할 수 있는 것)를 포함할 수 있다.
도 14에 표시된 구성 요소는 단일 버스(1490)을 통해 연결된 것으로 묘사된다. 구성 요소는 하나 이상의 데이터 전송 수단 또는 데이터 네트워크를 통해 연결될 수 있다. 프로세서(1410) 및 메모리(1420)는 로컬 마이크로 프로세서 버스를 통해 연결될 수 있고, 매스 스토리지(1430), 주변 장치(들)(1480), 휴대용 스토리지(1440), 및 네트워크 인터페이스(1470)는 하나 이상의 입력/출력(I/O) 버스를 통해 연결될 수 있다.
자기 디스크 드라이브, 솔리드 스테이트 디스크 드라이브, 또는 광 디스크 드라이브로 구현될 수 있는 매스 스토리지 장치(1430)는 프로세서(1410)에 의해 사용되는 데이터 및 명령을 저장하기 위한 비-휘발성 스토리지 장치이다. 매스 스토리지 장치(1430)는 여기서 설명된 실시예들을 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1495))를 저장할 수 있다.
휴대용 스토리지 매체 드라이브(들)(1440)는 컴팩트 디스크(CD) 또는 디지털 비디오 디스크(DVD)와 같은 휴대용 비-휘발성 스토리지 매체와 함께 작동하여 컴퓨팅 시스템(1400)에 데이터 및 코드를 입력 및 출력한다. 여기서 설명된 실시예를 구현하기 위한 시스템 소프트웨어(예: 소프트웨어 구성 요소(1495))는 그러한 휴대용 매체에 저장될 수 있고 휴대용 스토리지 매체 드라이브(들)(1440)를 통해 컴퓨팅 시스템(1400)에 입력될 수 있다.
선택적 입력 장치(1460)는 사용자 인터페이스의 일부를 제공한다. 입력 장치(1460)는 영숫자(alphanumeric) 및 기타 정보를 입력하기 위한 키보드와 같은 영숫자 키패드(alphanumeric keypad), 또는 마우스, 트랙볼(trackball), 스타일러스(stylus), 또는 커서 방향 키(cursor direction key)와 같은 포인팅 장치를 포함할 수 있다. 입력 장치(1460)는 또한 카메라 또는 스캐너를 포함할 수 있다. 추가적으로, 도 14에 도시된 시스템(1400)은 선택적 출력 장치(1450)를 포함한다. 적합한 출력 장치는 스피커, 프린터, 네트워크 인터페이스, 및 모니터를 포함한다.
네트워크 인터페이스(1470)는, 예를 들어, 인터넷, 인트라넷, LAN, WAN, 휴대폰 네트워크, 블루투스 라디오, 및 IEEE 802.11-기반 무선 주파수 네트워크 등을 포함하는 하나 이상의 유선, 무선, 또는 광 네트워크와 같은 하나 이상의 통신 네트워크를 통해 외부 장치, 외부 컴퓨팅 장치, 서버, 및 네트워크 시스템과 통신하는 데 사용될 수 있다. 네트워크 인터페이스(1470)는 이더넷 카드, 광 트랜시버, 무선 주파수 트랜시버, 또는 정보를 송수신할 수 있는 임의의 다른 유형의 장치와 같은 네트워크 인터페이스 카드일 수 있다. 선택적인 주변 장치(1480)는 컴퓨터 시스템에 추가 기능을 추가하기 위해 임의의 유형의 컴퓨터 지원 장치를 포함할 수 있다.
컴퓨팅 시스템(1400)에 포함된 구성 요소는 넓은 범주의 컴퓨터 구성 요소를 나타내도록 의도된다. 따라서, 컴퓨팅 시스템(1400)은 서버, 개인용 컴퓨터, 핸드-헬드 컴퓨팅 장치, 전화, 모바일 컴퓨팅 장치, 워크 스테이션, 미니 컴퓨터, 메인 프레임 컴퓨터, 네트워크 노드, 또는 임의의 추가 컴퓨팅 장치일 수 있다. 컴퓨팅 시스템(1400)은 또한 상이한 버스 구성, 네트워크화된 플랫폼, 멀티-프로세서 플랫폼, 및 기타 등등을 포함할 수 있다. UNIX, Linux, Windows, Macintosh OS, Palm OS, 및 기타 적합한 운영 체제를 포함하여 다양한 운영 체제(OS)가 사용될 수 있다.
전술한 기능 중 일부는 스토리지 매체(예: 컴퓨터-판독 가능 매체 또는 프로세서-판독 가능 매체)에 저장된 명령어로 구성될 수 있다. 명령어는 프로세서에 의해 검색되고 실행될 수 있다. 스토리지 매체의 예로는 메모리 장치, 테이프, 디스크, 및 기타 등이 있다. 프로세서가 본 발명에 따라 동작하도록 지시하기 위해 명령은 프로세서에 의해 실행될 때 동작한다. 당업자는 명령어, 프로세서(들), 및 스토리지 매체에 익숙하다.
여기서 설명된 처리를 수행하기에 적합한 임의의 하드웨어 플랫폼이 본 발명에 사용하기에 적합하다는 것은 주목할 점이다. 여기서 사용된 용어 "컴퓨터-판독 가능 스토리지 매체(computer-readable storage medium)" 및 "컴퓨터-판독 가능 저장 매체(computer-readable storage media)"는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체(medium) 또는 매체(media)를 지칭한다. 이러한 매체는 비-휘발성 매체, 휘발성 매체, 및 전송 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비 휘발성 매체는, 예를 들어, 고정 디스크와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 시스템 RAM(Random Access Memory)과 같은 동적 메모리를 포함한다. 전송 매체는 동축 케이블, 구리 와이어, 및 광섬유를 포함하며, 무엇보다도, 버스의 일 실시예를 포함하는 와이어를 포함한다. 전송 매체는 또한 무선 주파수(RF) 및 적외선(IR) 데이터 통신 도중에 생성되는 것과 같은, 음향 또는 광파의 형태를 취할 수 있다. 컴퓨터-판독 가능 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 기타 자기 매체, CD-읽기-전용 메모리(ROM) 디스크, DVD, 기타 광학 매체, 마크 또는 구멍 패턴이 있는 기타 물리적 매체, RAM, PROM, EPROM, EEPROM, 기타 메모리 칩 또는 카트리지, 반송파, 또는 컴퓨터가 읽을 수 있는 기타 매체를 포함한다.
다양한 형태의 컴퓨터-판독 가능 매체는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 전달하는 데 관련(involve)될 수 있다. 버스는 프로세서가 명령을 검색하고 실행하는 시스템 RAM으로 데이터를 전달한다. 시스템 프로세서에 의해 수신된 명령은 프로세서에 의해 실행되기 전후에 고정 디스크에 선택적으로 저장될 수 있다.
따라서, 개인화된 비디오를 제공하기 위한 시스템들 및 방법이 설명되었다. 실시예가 특정 예시적인 실시예를 참조하여 설명되었지만, 본 출원의 더 넓은 사상 및 범위를 벗어나지 않고 이러한 예시적인 실시예에 대해 다양한 수정 및 변경이 이루어질 수 있음은 자명할 것이다. 따라서, 명세서 및 도면은 제한적인 의미가 아닌 예시적인 의미로 간주되어야 한다.

Claims (20)

  1. 개인화된 비디오들을 제공하기 위한 방법에 있어서,
    컴퓨팅 장치에 의해, 하나 이상의 사전 처리된 비디오들을 저장하는 단계 - 상기 하나 이상의 사전 처리된 비디오들은 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 타겟 페이스를 포함함 -;
    상기 컴퓨팅 장치에 의해, 소스 페이스의 이미지를 수신하는 단계; 및
    상기 컴퓨팅 장치에 의해, 하나 이상의 개인화된 비디오들을 생성하기 위해 상기 하나 이상의 사전 처리된 비디오들을 수정하는 단계
    를 포함하고,
    상기 하나 이상의 사전 처리된 비디오들을 수정하는 단계는,
    수정된 소스 페이스의 이미지를 생성하기 위해, 상기 소스 페이스의 상기 이미지를 수정하는 단계 - 상기 수정된 소스 페이스는 상기 타겟 페이스의 페이셜 표현을 채택함 -; 및
    상기 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지로 대체하는 단계;
    에 의해 수행되는
    방법.
  2. 제1항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 단계는,
    상기 컴퓨팅 장치의 메모리에 저장된 이미지들의 세트로부터 추가 이미지의 사용자 선택을 수신하는 단계; 및
    상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할하는 단계
    를 포함하는, 방법.
  3. 제1항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 단계는,
    상기 컴퓨팅 장치의 카메라에 의해, 추가 이미지를 캡처하는 단계; 및
    상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할하는 단계
    를 포함하는, 방법.
  4. 제3항에 있어서,
    상기 추가 이미지를 캡처하기 전에,
    상기 컴퓨팅 장치의 그래픽 디스플레이 시스템을 통해 상기 추가 이미지를 표시하는 단계; 및
    상기 그래픽 디스플레이 시스템의 사전 결정된 영역 내에서 상기 추가 이미지의 얼굴 이미지를 배치하도록 상기 사용자를 안내하는 단계
    를 더 포함하는, 방법.
  5. 제1항에 있어서,
    상기 컴퓨팅 장치에 의해, 추가 소스 페이스의 추가 이미지를 수신하는 단계; 및
    상기 컴퓨팅 장치에 의해, 상기 하나 이상의 추가 개인화된 비디오들을 생성하기 위해, 상기 추가 이미지에 기초하여, 상기 하나 이상의 사전 처리된 비디오들을 수정하는 단계
    를 더 포함하는, 방법.
  6. 제1항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 컴퓨팅 장치의 사용자와 적어도 하나의 추가 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 단계;
    상기 컴퓨팅 장치에 의해, 상기 하나 이상의 개인화된 비디오들로부터의 비디오의 사용자 선택을 수신하는 단계; 및
    상기 컴퓨팅 장치에 의해, 상기 통신 채팅을 통해 적어도 하나의 추가 사용자에게 상기 선택된 비디오를 전송하는 단계
    를 더 포함하는, 방법.
  7. 제6항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 선택된 비디오를 상기 통신 채팅의 창에 표시하는 단계 - 상기 선택된 비디오는 붕괴 모드에서 표시됨 -;
    상기 컴퓨팅 장치에 의해, 상기 사용자가 상기 통신 채팅의 상기 창에서 상기 선택된 비디오를 탭했다는 지시를 수신하면, 상기 선택된 비디오를 전체 스크린 모드로 표시하는 단계
    를 더 포함하는, 방법.
  8. 제7항에 있어서,
    상기 붕괴 모드에서 상기 선택된 비디오를 표시하는 동안, 상기 선택된 비디오와 관련된 사운드를 음소거하는 단계; 및
    상기 선택된 비디오를 상기 전체 스크린 모드로 표시하는 동안, 상기 선택된 비디오와 관련된 상기 사운드를 재생하는 단계
    를 더 포함하는, 방법.
  9. 제1항에 있어서,
    상기 소스 페이스의 상기 이미지를 수정하기 전에, 상기 적어도 하나의 프레임에 기초하여, 파라메트릭 페이스 모델과 관련된 타겟 페이셜 표현 파라미터들을 결정하는 단계
    를 더 포함하고,
    상기 소스 페이스의 상기 이미지를 수정하는 단계는,
    상기 소스 페이스의 상기 이미지에 기초하여, 상기 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 단계 - 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함함 -; 및
    상기 파라메트릭 페이스 모델, 상기 타겟 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 소스 페이스의 상기 이미지를 합성하는 단계
    를 포함하는, 방법.
  10. 제9항에 있어서,
    상기 적어도 하나의 프레임은 메타데이터를 포함하고,
    상기 메타데이터는 상기 타겟 페이셜 표현 파라미터들을 포함하는,
    방법.
  11. 개인화된 비디오들을 제공하기 위한 시스템에 있어서,
    상기 시스템은
    적어도 하나의 프로세서 및,
    프로세서 실행가능 코드들을 저장하는 메모리를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 프로세서 실행가능 코드의 실행 시 동작들을 구현하도록 구성되고,
    상기 동작들은
    컴퓨팅 장치의 메모리에서, 하나 이상의 사전 처리된 비디오들을 저장하는 동작 - 상기 하나 이상의 사전 처리된 비디오들은 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 타겟 페이스를 포함함 -;
    소스 페이스의 이미지를 수신하는 동작; 및
    하나 이상의 개인화된 비디오들을 생성하기 위해 상기 하나 이상의 사전 처리된 비디오들을 수정하는 동작
    을 포함하고,
    상기 하나 이상의 사전 처리된 비디오들을 수정하는 동작은,
    수정된 소스 페이스의 이미지를 생성하기 위해 상기 소스 페이스의 상기 이미지를 수정하는 동작 - 상기 수정된 소스 페이스는 상기 타겟 페이스의 페이셜 표현을 채택함 -; 및상기 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지로 대체하는 동작;
    에 의해 수행되는,
    시스템.
  12. 제11항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 동작은,
    상기 메모리에 저장된 이미지들의 세트로부터 추가 이미지의 사용자 선택을 수신하는 동작; 및
    상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할하는 동작
    을 포함하는, 시스템.
  13. 제11항에 있어서,
    상기 소스 페이스의 상기 이미지를 수신하는 동작은,
    상기 컴퓨팅 장치의 카메라에 의해, 추가 이미지를 캡처하는 동작; 및
    상기 추가 이미지를 배경 및 상기 소스 페이스를 포함하는 부분으로 분할하는 동작
    을 포함하는, 시스템.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 추가 이미지를 캡처하기 전에,
    상기 컴퓨팅 장치의 그래픽 디스플레이 시스템을 통해 상기 추가 이미지를 표시하고,
    상기 그래픽 디스플레이 시스템의 사전 결정된 영역 내에서 상기 추가 이미지의 얼굴 이미지를 배치하도록 상기 사용자를 안내하도록
    구성된, 시스템.
  15. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    추가 소스의 추가 이미지를 수신하고,
    상기 하나 이상의 추가 개인화된 비디오들을 생성하기 위해, 상기 추가 이미지에 기초하여, 상기 하나 이상의 사전 처리된 비디오들을 수정하도록
    구성된, 시스템.
  16. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    사용자와 적어도 하나의 원격 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하고,
    상기 하나 이상의 개인화된 비디오들로부터 비디오의 사용자 선택을 수신하고,
    상기 통신 채팅을 통해, 상기 선택된 비디오를 적어도 하나의 추가 사용자에게 전송하도록
    구성된, 시스템.
  17. 제16항에 있어서,
    상기 적어도 하나의 프로세서는
    상기 선택된 비디오를 상기 통신 채팅의 창에 표시하고 - 상기 선택된 비디오는 붕괴 모드에서 표시됨 -,
    상기 사용자가 상기 통신 채팅의 상기 창에서 상기 선택된 비디오를 탭했다는 지시를 수신하면, 상기 선택된 비디오를 전체 스크린 모드로 표시하도록
    구성된, 시스템.
  18. 제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 붕괴 모드에서 상기 선택된 비디오를 표시하는 동안, 상기 선택된 비디오와 관련된 사운드를 음소거하고,
    상기 선택된 비디오를 상기 전체 스크린 모드로 표시하는 동안, 상기 선택된 비디오와 관련된 상기 사운드를 재생하도록
    구성된, 시스템.
  19. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 소스 페이스의 상기 이미지를 수정하기 전에, 상기 적어도 하나의 프레임에 기초하여, 파라메트릭 페이스 모델과 관련된 타겟 페이셜 표현 파라미터들을 결정하도록 구성되고,
    상기 소스 페이스의 상기 이미지를 수정하는 동작은,
    상기 소스 페이스의 상기 이미지에 기초하여, 상기 파라메트릭 페이스 모델과 관련된 소스 파라미터들을 결정하는 동작 - 상기 소스 파라미터들은 소스 페이셜 표현 파라미터들, 소스 페이셜 식별 파라미터들, 및 소스 페이셜 텍스처 파라미터들을 포함함 -; 및
    상기 파라메트릭 페이스 모델, 상기 타겟 페이셜 표현 파라미터들, 상기 소스 페이셜 식별 파라미터들, 및 상기 소스 페이셜 텍스처 파라미터들에 기초하여 상기 수정된 소스 페이스의 상기 이미지를 합성하는 동작
    을 포함하는, 시스템.
  20. 명령어들이 저장된 비 일시적 프로세서 판독 가능 매체에 있어서,
    상기 명령어들은 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들이 개인화된 비디오들을 제공하기 위한 방법을 구현하게 하고,
    상기 방법은,
    컴퓨팅 장치에 의해, 하나 이상의 사전 처리된 비디오들을 저장하는 단계 - 상기 하나 이상의 사전 처리된 비디오들은 적어도 하나의 프레임을 포함하고, 상기 적어도 하나의 프레임은 적어도 타겟 페이스를 포함함 -;
    사용자와 적어도 하나의 원격 컴퓨팅 장치의 적어도 하나의 추가 사용자 사이의 통신 채팅을 가능하게 하는 단계;
    상기 컴퓨팅 장치에 의해, 소스 페이스의 이미지를 수신하는 단계; 및
    상기 컴퓨팅 장치에 의해, 하나 이상의 개인화된 비디오들을 생성하기 위해 상기 하나 이상의 사천 처리된 비디오들을 수정하는 단계;
    상기 하나 이상의 개인화된 비디오들로부터 비디오의 사용자 선택을 수신하는 단계; 및
    상기 통신 채팅을 통해, 상기 선택된 비디오를 적어도 하나의 추가 사용자에게 전송하는 단계
    를 포함하고,
    상기 하나 이상의 사전 처리된 비디오들을 수정하는 단계는,
    수정된 소스 페이스의 이미지를 생성하기 위해, 상기 소스 페이스의 상기 이미지를 수정하는 단계 - 상기 수정된 소스 페이스는 상기 타겟 페이스의 페이셜 표현을 채택함 -; 및
    상기 타겟 페이스를 상기 수정된 소스 페이스의 상기 이미지로 대체하는 단계;
    에 의해 수행되는,
    비 일시적 프로세서 판독 매체.
KR1020217026009A 2019-01-18 2020-01-18 개인화된 비디오를 제공하기 위한 시스템들 및 방법들 KR102546016B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16/251,436 2019-01-18
US16/251,436 US10789453B2 (en) 2019-01-18 2019-01-18 Face reenactment
US16/594,771 US11394888B2 (en) 2019-01-18 2019-10-07 Personalized videos
US16/594,771 2019-10-07
PCT/US2020/014223 WO2020150690A2 (en) 2019-01-18 2020-01-18 Systems and methods for providing personalized videos

Publications (2)

Publication Number Publication Date
KR20210118428A true KR20210118428A (ko) 2021-09-30
KR102546016B1 KR102546016B1 (ko) 2023-06-22

Family

ID=69724073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217026009A KR102546016B1 (ko) 2019-01-18 2020-01-18 개인화된 비디오를 제공하기 위한 시스템들 및 방법들

Country Status (5)

Country Link
US (3) US11394888B2 (ko)
EP (1) EP3912086A2 (ko)
KR (1) KR102546016B1 (ko)
CN (1) CN113302622A (ko)
WO (1) WO2020150690A2 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11508107B2 (en) * 2018-02-26 2022-11-22 Didimo, Inc. Additional developments to the automatic rig creation process
US20220237945A1 (en) * 2019-11-07 2022-07-28 Hyperconnect Inc. Method and Apparatus for Generating Reenacted Image
US11477366B2 (en) * 2020-03-31 2022-10-18 Snap Inc. Selfie setup and stock videos creation
US11704851B2 (en) * 2020-05-27 2023-07-18 Snap Inc. Personalized videos using selfies and stock videos
CN112866798B (zh) * 2020-12-31 2023-05-05 北京字跳网络技术有限公司 视频生成方法、装置、设备及存储介质
CN113612959A (zh) * 2021-07-23 2021-11-05 深圳Tcl新技术有限公司 视频通话方法、装置、存储介质及电子设备
US12020386B2 (en) 2022-06-23 2024-06-25 Snap Inc. Applying pregenerated virtual experiences in new location

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100060176A (ko) * 2008-11-27 2010-06-07 주식회사 대우일렉트로닉스 방송 프로그램의 얼굴인식을 통한 이미지 합성 장치 및 방법
KR20140002131A (ko) * 2012-06-28 2014-01-08 에스케이플래닛 주식회사 캐릭터 지원 시스템 및 방법
KR20160094663A (ko) * 2015-02-02 2016-08-10 한익수 온라인 채팅 서비스의 사용자 이모티콘 제공 방법
WO2018102880A1 (en) * 2016-12-09 2018-06-14 Frangos Marcus George Systems and methods for replacing faces in videos
KR20190002386A (ko) * 2018-12-21 2019-01-08 에스케이플래닛 주식회사 캐릭터 서비스 시스템에서의 캐릭터 서비스를 제공하기 위한 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589178B2 (en) * 2014-09-12 2017-03-07 Htc Corporation Image processing with facial features
US10116901B2 (en) * 2015-03-18 2018-10-30 Avatar Merger Sub II, LLC Background modification in video conferencing
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
US20180204601A1 (en) * 2016-03-01 2018-07-19 Meograph, Inc. Mobile device video personalization
US20180068178A1 (en) * 2016-09-05 2018-03-08 Max-Planck-Gesellschaft Zur Förderung D. Wissenschaften E.V. Real-time Expression Transfer for Facial Reenactment
US10636175B2 (en) * 2016-12-22 2020-04-28 Facebook, Inc. Dynamic mask application

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100060176A (ko) * 2008-11-27 2010-06-07 주식회사 대우일렉트로닉스 방송 프로그램의 얼굴인식을 통한 이미지 합성 장치 및 방법
KR20140002131A (ko) * 2012-06-28 2014-01-08 에스케이플래닛 주식회사 캐릭터 지원 시스템 및 방법
KR20160094663A (ko) * 2015-02-02 2016-08-10 한익수 온라인 채팅 서비스의 사용자 이모티콘 제공 방법
WO2018102880A1 (en) * 2016-12-09 2018-06-14 Frangos Marcus George Systems and methods for replacing faces in videos
KR20190002386A (ko) * 2018-12-21 2019-01-08 에스케이플래닛 주식회사 캐릭터 서비스 시스템에서의 캐릭터 서비스를 제공하기 위한 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
비특허문헌1(Pablo Garrido 외 5명, 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2016.02.08.)* *
비특허문헌2(Jiahao Geng 외 4명, ACM Transactions on Graphics, Volume 37, Issue 6, 2018.12.04.) *

Also Published As

Publication number Publication date
US20230421890A1 (en) 2023-12-28
US20200236297A1 (en) 2020-07-23
WO2020150690A3 (en) 2020-09-10
US11394888B2 (en) 2022-07-19
CN113302622A (zh) 2021-08-24
US20220286624A1 (en) 2022-09-08
WO2020150690A2 (en) 2020-07-23
KR102546016B1 (ko) 2023-06-22
EP3912086A2 (en) 2021-11-24
US11792504B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
KR102546016B1 (ko) 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
KR102616013B1 (ko) 맞춤형 텍스트 메시지를 갖는 개인화 비디오 생성 시스템 및 방법
KR102658961B1 (ko) 다수의 사람들이 등장하는 개인화된 비디오를 제공하기 위한 시스템들 및 방법들
US11721046B2 (en) Customizing soundtracks and hairstyles in modifiable videos of multimedia messaging application
US11842433B2 (en) Generating personalized videos with customized text messages
US11477366B2 (en) Selfie setup and stock videos creation
KR20230026343A (ko) 셀피들 및 스톡 비디오들을 사용하는 개인화된 비디오들
US20240364839A1 (en) Personalized videos featuring multiple persons

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right