WO2022124498A1 - 립싱크 영상 생성 장치 및 방법 - Google Patents

립싱크 영상 생성 장치 및 방법 Download PDF

Info

Publication number
WO2022124498A1
WO2022124498A1 PCT/KR2021/006913 KR2021006913W WO2022124498A1 WO 2022124498 A1 WO2022124498 A1 WO 2022124498A1 KR 2021006913 W KR2021006913 W KR 2021006913W WO 2022124498 A1 WO2022124498 A1 WO 2022124498A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
neural network
speech
person
network model
Prior art date
Application number
PCT/KR2021/006913
Other languages
English (en)
French (fr)
Inventor
황금별
채경수
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to US17/764,324 priority Critical patent/US20230178095A1/en
Publication of WO2022124498A1 publication Critical patent/WO2022124498A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • An embodiment of the present invention relates to a lip-sync image generating technique.
  • a learning model for generating a lip-synced image must be learned so that roles according to each input can be distinguished. That is, the part receiving the voice signal in the learning model should be learned to control the movement related to speech, such as the shape of the mouth or chin, and the part receiving the background image of the person as the input is the face movement, eye blinking, shape, position, and texture. It should be learned to control other factors such as
  • Embodiments of the present invention provide an apparatus and method for generating a lip-sync image capable of preventing a person background image from controlling a portion related to utterance.
  • a lip-sync image generating apparatus is a lip-sync image generating apparatus having one or more processors and a memory for storing one or more programs executed by the one or more processors, wherein the lip-sync image generating apparatus includes a background image of a person and the person.
  • a first artificial neural network model for generating a speech synthesis image by inputting a speech audio signal corresponding to a background image as an input, and generating a silence synthesis image by inputting only a background image of a person
  • a second artificial neural network model that receives a preset speech maintenance image and a silence synthesized image from the first artificial neural network model, and outputs classification values for the speech maintenance image and the silence synthesized image.
  • the background image of the person may be an image in which a part related to the speech of the person in the image is covered with a mask
  • the speech maintenance image may be an image in which the speech movement of the person in the image is constant.
  • the second artificial neural network model may be trained to classify the speech maintenance image as true and the silence synthesized image as false.
  • the first artificial neural network model may include: a first encoder receiving a background image of a person as an input and extracting an image feature vector from the input background image of the person; a second encoder receiving a speech audio signal corresponding to the person background image as an input and extracting a speech feature vector from the input speech audio signal; a combination unit for generating a combination vector by combining the image feature vector and the audio feature vector; and a decoder that receives the combination vector as an input and generates the speech synthesis image based on the combination vector.
  • the decoder may be trained to restore a portion covered by a mask of the person background image based on the voice feature vector.
  • the objective function L reconstruction for generating the speech synthesis image of the first artificial neural network model may be expressed through the following equation.
  • the objective function L discriminator of the second artificial neural network model may be expressed through the following equation.
  • An adversarial objective function (L adversarial ) for generating the silent synthesized image of the first artificial neural network model may be expressed through the following equation.
  • a final objective function (L T ) for generating the speech synthesis image and the silence synthesis image of the first artificial neural network model may be expressed through the following equation.
  • a lip-sync image generating method is a method performed in a computing device having one or more processors and a memory for storing one or more programs executed by the one or more processors, wherein the first artificial neural network generating a speech synthesis image by inputting a person background image and a speech audio signal corresponding to the person background image as inputs, and generating a silence synthesis image by inputting only the person background image; and outputting classification values for the speech maintenance image and the silence synthesized image by inputting a preset speech maintenance image and a silence synthesized image from the first artificial neural network model in the second artificial neural network model.
  • the first artificial neural network model generates a speech synthesis image by inputting a person background image and a speech audio signal as inputs, and generates a silence synthesis image by inputting only the person background image as inputs
  • the second artificial neural network learns to classify the speech-maintaining image as True and the silent synthesized image as Fake, so that the speech movement of the person in the silenced synthesized image is constant (that is, the speech-related part does not move) ), it is possible to prevent the person background image from controlling the speech-related part, and it is possible to induce the speech-related part to be controlled only by the speech audio signal.
  • FIG. 1 is a view showing the configuration of a lip-sync image generating apparatus according to an embodiment of the present invention
  • FIG. 2 is a diagram schematically illustrating a state in which a first artificial neural network model generates a speech synthesis image according to an embodiment of the present invention
  • FIG. 3 is a view showing a configuration for learning by classifying a silence synthesized image as a fake in an embodiment of the present invention
  • FIG. 4 is a block diagram illustrating and describing a computing environment including a computing device suitable for use in example embodiments;
  • the terms "transmission”, “communication”, “transmission”, “reception” and other similar meanings of a signal or information are not only directly transmitted from one component to another component, but also a signal or information This includes passing through other components.
  • to “transmit” or “transmit” a signal or information to a component indicates the final destination of the signal or information and does not imply a direct destination. The same is true for “reception” of signals or information.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The above terms may be used for the purpose of distinguishing one component from another component.
  • a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • FIG. 1 is a diagram showing the configuration of a lip-sync image generating apparatus according to an embodiment of the present invention.
  • the lip-sync image generating apparatus 100 may include a first artificial neural network model 102 and a second artificial neural network model 104 .
  • the first artificial neural network model 102 may be a model trained to generate a speech synthesis image by inputting a background image of a person and a speech audio signal as inputs.
  • the person background image is an image in which a person speaks (speaks), and may be an image in which a portion related to the person's speech is masked.
  • the speech audio signal may be an audio part of a person background image (ie, an image in which a person speaks).
  • the first artificial neural network model 102 may be trained to generate a speech synthesis image by reconstructing a speech-related part covered by a mask in the background image of a person through an input speech audio signal.
  • the first artificial neural network model 102 may generate a silence synthesized image by inputting only a background image of a person as an input.
  • the silence synthesized image may mean that a lip-sync image is synthesized only with a background image of a person without an audio signal.
  • the silence synthesized image is a lip-sync image that is generated only with the background image of the person without an audio signal (that is, when the audio is 0), the movement of the part of the background image of the person that does not cover the mask is followed while the speech movement of the person is fixed. It should be a video. However, if the person background image is learned to control the speech-related part in the learning process of the first artificial neural network model 102 , a silence synthesized image in which the speech-related part of the person moves despite the absence of an audio signal may be generated.
  • the silence synthesized image generated by the first artificial neural network model 102 through the second artificial neural network model 104 is classified as a fake so that the person background image does not control the speech-related part. can learn
  • the second artificial neural network model 104 categorizes it as True when a preset speech maintenance image is input, and as a fake when the silence synthesized image generated by the first artificial neural network model 102 is input. can be learned to classify.
  • the speech maintenance image may mean an image in which the speech movement of the corresponding person is constant.
  • the speech maintenance image may be an image in which the corresponding person closes his/her mouth.
  • the speech movement of the person in the silence composite image is constant (that is, It is learned so that the speech-related part does not move), thereby preventing the person background image from controlling the speech-related part, and it is possible to induce the speech-related part to be controlled only by the speech audio signal. .
  • FIG. 2 is a diagram schematically illustrating a state in which the first artificial neural network model 102 generates a speech synthesis image according to an embodiment of the present invention.
  • the first artificial neural network model 102 may include a first encoder 111 , a second encoder 113 , a combination unit 115 , and a decoder 117 .
  • the first artificial neural network model 102 may be implemented as a machine learning technique based on a convolutional neural network (CNN), but the machine learning technique is not limited thereto, and various other machines Learning techniques may be applied.
  • CNN convolutional neural network
  • the first encoder 111 may be trained to extract an image feature vector by receiving a background image of a person as an input.
  • vector may be used to include “tensor”.
  • the person background image input to the first encoder 111 is an image in which the person speaks (speaks).
  • the person background image may be an image including the face and upper body of the person. That is, the background image of the person may be an image including not only the face but also the upper body so that the movements of the face, neck, and shoulders appearing when the person speaks are shown, but is not limited thereto, and may be an image including the face of the person. may be
  • a portion related to utterance may be masked. That is, parts related to utterance in the person background image (eg, the mouth and parts around the mouth, etc.) may be covered with the mask (M). In addition, during the masking process, portions related to the face movement, neck movement, and shoulder movement according to the person's utterance in the person background image may not be masked. Then, the first encoder 111 extracts an image feature vector of a portion excluding a portion related to speech from the person background image.
  • the first encoder 111 may include one or more convolutional layers and one or more pooling layers.
  • the convolution layer may extract feature values of pixels corresponding to the filter while moving a filter having a preset size (eg, 3 ⁇ 3 pixel size) from the input person background image at regular intervals.
  • the pooling layer may perform down sampling by receiving the output of the convolution layer as an input.
  • the second encoder 113 may receive an uttered audio signal as an input.
  • the second encoder 113 may be trained to extract speech feature vectors by receiving the speech audio signal as an input.
  • the speech audio signal corresponds to the audio portion of the person background image (ie, the person's speech image) input to the first encoder 111 .
  • a video part may be input to the first encoder 111
  • an audio part may be input to the second encoder 113 .
  • the second encoder 113 may include one or more convolutional layers and one or more pooling layers, but the neural network structure of the second encoder 113 is not limited thereto.
  • the time of the person background image input to the first encoder 111 and the speech audio signal input to the second encoder 113 may be synchronized with each other. That is, in a video in which a person utters, a video may be input to the first encoder 111 and audio may be input to the second encoder 113 in a section of the same time zone.
  • the speech audio signal may be a voice of time t time from the same time point.
  • the person background image and the speech audio signal may be input to the first encoder 111 and the second encoder 113 every preset unit time (eg, one frame or a plurality of consecutive frames, etc.).
  • the combination unit 115 may generate a combination vector by combining the image feature vector output from the first encoder 111 and the audio feature vector output from the second encoder 113 .
  • the combining unit 115 may generate a combined vector by concatenating the image feature vector and the audio feature vector, but is not limited thereto.
  • the decoder 117 may generate a speech synthesis image by receiving the combination vector output from the combination unit 115 as an input. Specifically, the decoder 117 is configured to configure the image feature vector (That is, it can be learned to restore the part (ie, the part related to the utterance) covered by the mask M of the video part in the moving picture of the person uttering, and the part related to the utterance is the feature of the part covered by the mask.
  • the decoder 117 may be a model trained to reconstruct a masked region using an utterance audio signal when a portion related to utterance is masked in the person background image.
  • the decoder 117 compares the generated speech synthesis image with the original speech image (ie, correct answer value) so that the generated speech synthesis image approaches the original speech image (ie, the difference from the original speech image is minimized).
  • Learning parameters eg, loss function, softmax function, etc.
  • the objective function (L reconstruction ) of the first artificial neural network model 102 generating a speech synthesis image by inputting the person background image and the speech audio signal as inputs may be expressed by the following Equation (1).
  • a function to find the difference between A and B for example, a function to find the Euclidean distance (L2 distance) or Manhattan distance (L1 distance) between A and B may be included.
  • FIG. 3 is a diagram illustrating a configuration for learning by classifying a silence synthesized image as a fake in an embodiment of the present invention.
  • the first artificial neural network model 102 may generate a silence synthesized image by inputting only a background image of a person as an input.
  • the first encoder 111 may extract an image feature vector by receiving a background image of a person as an input.
  • a separate audio signal may not be input to the second encoder 113 .
  • a signal having an audio value of 0 may be input to the second encoder 113 .
  • the combination unit 115 generates a combination vector by combining the image feature vector output from the first encoder 111 and the audio feature vector output from the second encoder 113 . Since the audio feature vector is 0, the combination vector is the same as the video feature vector. That is, the combining unit 115 may directly input the image feature vector output from the first encoder 111 to the decoder 117 .
  • the decoder 117 may generate a silence synthesized image by receiving the image feature vector as an input. The silence synthesized image may be input to the second artificial neural network model 104 .
  • the second artificial neural network model 104 may receive a pre-stored speech maintenance image and a silence synthesized image, classify them as True or Fake, and output a classification value.
  • the speech maintenance image may be an image in which the speech movement of a person in the person background image is constant (eg, an image in which the person closes their mouth).
  • the speech maintenance image may be obtained by detecting a frame in which speech movement is constant in an image of a corresponding person.
  • the second artificial neural network model 104 may be trained to classify the speech maintenance image as true and the silence synthesized image as false.
  • the second artificial neural network model 104 may include a third encoder 121 and a classifier 123 .
  • the third encoder 121 may extract an image feature vector from an input image (a speech maintenance image or a silence synthesized image).
  • the classifier 123 may classify the input image as True or Fake based on the image feature vector output from the third encoder 121 .
  • the first artificial neural network model 102 learns so that the speech movement of the person is constant in the silence synthesized image generated only with the background image of the person without audio. Accordingly, it is possible to prevent the person background image from controlling the speech-related part, and it is possible to induce the speech-related part to be controlled only by the speech audio signal.
  • the first artificial neural network model 102 and the second artificial neural network model 104 may form a Generative Adversarial Network.
  • the first artificial neural network model 102 may correspond to a generator among adversarial generative neural networks
  • the second artificial neural network model 104 may correspond to a discriminator among adversarial generative neural networks. That is, while the first artificial neural network model 102 is a separate neural network model that generates a speech synthesis image, it may configure some neural networks (ie, generators) of an adversarial generation neural network that generates a silence synthesized image.
  • Equation 2 the objective function L discriminator of the second artificial neural network model 104 may be expressed through Equation 2 below.
  • Equation 3 the optimized parameters of the second artificial neural network model 104 ( ) can be expressed through Equation 3 below.
  • argmin ⁇ d represents a function to find ⁇ d that minimizes L discriminator .
  • the adversarial objective function (L adversarial ) of the first artificial neural network model 102 for generating the silent synthesized image may be expressed through Equation 4 below.
  • the adversarial objective function may be an objective function that induces the first artificial neural network model 102 to determine that the silent synthesized image is true in the second artificial neural network model 104 . That is, the adversarial objective function may be an objective function for deriving the first artificial neural network model 102 such that the difference between the silence synthesis image and the speech maintenance image is minimized.
  • Equation 5 the final objective function (L T ) of the first artificial neural network model 102 for generating the speech synthesis image and the silence synthesis image.
  • Equation 6 the optimized parameters of the first artificial neural network model 102 ( ) can be expressed through Equation 6 below.
  • argmin ⁇ g represents a function to find ⁇ g that minimizes L T .
  • each component may have different functions and capabilities other than those described below, and may include additional components in addition to those described below.
  • the illustrated computing environment 10 includes a computing device 12 .
  • the computing device 12 may be the lip-sync image generating device 100 .
  • Computing device 12 includes at least one processor 14 , computer readable storage medium 16 , and communication bus 18 .
  • the processor 14 may cause the computing device 12 to operate in accordance with the exemplary embodiments discussed above.
  • the processor 14 may execute one or more programs stored in the computer-readable storage medium 16 .
  • the one or more programs may include one or more computer-executable instructions that, when executed by the processor 14, configure the computing device 12 to perform operations in accordance with the exemplary embodiment. can be
  • Computer-readable storage medium 16 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information.
  • the program 20 stored in the computer readable storage medium 16 includes a set of instructions executable by the processor 14 .
  • computer-readable storage medium 16 includes memory (volatile memory, such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, flash It may be memory devices, other forms of storage medium accessed by computing device 12 and capable of storing desired information, or a suitable combination thereof.
  • Communication bus 18 interconnects various other components of computing device 12 , including processor 14 and computer readable storage medium 16 .
  • Computing device 12 may also include one or more input/output interfaces 22 and one or more network communication interfaces 26 that provide interfaces for one or more input/output devices 24 .
  • the input/output interface 22 and the network communication interface 26 are coupled to the communication bus 18 .
  • Input/output device 24 may be coupled to other components of computing device 12 via input/output interface 22 .
  • Exemplary input/output device 24 may include a pointing device (such as a mouse or trackpad), a keyboard, a touch input device (such as a touchpad or touchscreen), a voice or sound input device, various types of sensor devices, and/or imaging devices. input devices, and/or output devices such as display devices, printers, speakers and/or network cards.
  • the exemplary input/output device 24 may be included in the computing device 12 as a component constituting the computing device 12 , and may be connected to the computing device 12 as a separate device distinct from the computing device 12 . may be

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

립싱크 영상 생성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델 및 기 설정된 발화 유지 영상 및 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 발화 유지 영상 및 사일런스 합성 영상에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.

Description

립싱크 영상 생성 장치 및 방법
본 발명의 실시예는 립싱크 영상 생성 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음 성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하 는 것과 같은 발화 동영상(립싱크 동영상)을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
여기서, 자연스러운 립싱크 영상을 생성하기 위해서는 립싱크 영상 생성을 위한 학습 모델이 각 입력에 따른 역할이 구분될 수 있도록 학습되어야 한다. 즉, 학습 모델에서 음성 신호를 입력으로 하는 부분은 입 또는 턱 모양 등 발화와 관련된 움직임을 제어하도록 학습되어야 하고, 인물 배경 영상을 입력으로 하는 부분은 얼굴 움직임, 눈 깜박임, 형태, 위치, 및 질감 등 그 이외의 요소를 제어하도록 학습되어야 한다.
본 발명의 실시예는 인물 배경 영상이 발화와 관련된 부분을 제어하는 것을 방지할 수 있는 립싱크 영상 생성 장치 및 방법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델; 및 기 설정된 발화 유지 영상 및 상기 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 상기 발화 유지 영상 및 상기 사일런스 합성 영상에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.
상기 인물 배경 영상은, 영상 속 인물의 발화와 관련된 부분이 마스크로 가려진 영상이고, 상기 발화 유지 영상은, 영상 속 인물의 발화 움직임이 일정한 영상일 수 있다.
상기 제2 인공 신경망 모델은, 상기 발화 유지 영상을 참(True)으로 분류하고, 상기 사일런스 합성 영상은 거짓(Fake)으로 분류하도록 학습될 수 있다.
상기 제1 인공 신경망 모델은, 인물 배경 영상을 입력으로 하고, 상기 입력되는 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더; 상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하고, 상기 입력되는 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더; 상기 영상 특징 벡터와 상기 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및 상기 조합 벡터를 입력으로 하고, 상기 조합 벡터를 기반으로 상기 발화 합성 영상을 생성하는 디코더를 포함할 수 있다.
상기 디코더는, 상기 음성 특징 벡터를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습될 수 있다.
상기 제1 인공 신경망 모델의 상기 발화 합성 영상의 생성을 위한 목적 함수(Lreconstruction)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
Figure PCTKR2021006913-appb-img-000001
yt : 원래 발화 영상
G : 제1 인공 신경망 모델을 구성하는 신경망
xt : t 시간 동안의 인물 배경 영상
at : t 시간 동안의 발화 오디오 신호
θg : 신경망 G의 파라미터
Figure PCTKR2021006913-appb-img-000002
: A와 B의 차이를 구하는 함수
상기 제2 인공 신경망 모델의 목적 함수(Ldiscriminator)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
Figure PCTKR2021006913-appb-img-000003
D : 제2 인공 신경망 모델의 신경망
xidle : 발화 유지 영상
θd : 신경망 D의 파라미터
G(xt,0) : 제1 인공 신경망 모델이 출력하는 사일런스 합성 영상
상기 제1 인공 신경망 모델의 상기 사일런스 합성 영상의 생성을 위한 적대적 목적 함수(Ladversarial)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
Figure PCTKR2021006913-appb-img-000004
상기 제1 인공 신경망 모델의 상기 발화 합성 영상 및 상기 사일런스 합성 영상을 생성하기 위한 최종 목적 함수(LT)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
Figure PCTKR2021006913-appb-img-000005
λ : 가중치
개시되는 일 실시예에 따른 립싱크 영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 인공 신경망 모델에서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 동작; 및 제2 인공 신경망 모델에서, 기 설정된 발화 유지 영상 및 상기 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 상기 발화 유지 영상 및 상기 사일런스 합성 영상에 대한 분류 값을 출력하는 동작을 포함한다.
개시되는 실시예에 의하면, 제1 인공 신경망 모델이 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하도록 하며, 제2 인공 신경망 모델이 발화 유지 영상은 참(True)으로 분류하고, 사일런스 합성 영상은 거짓(Fake)으로 분류하도록 학습함으로써, 사일런스 합성 영상에서 인물의 발화 움직임이 일정하도록(즉, 발화와 관련된 부분이 움직이지 않도록) 학습이 되게 되고, 그로 인해 인물 배경 영상이 발화와 관련된 부분을 제어하는 것을 방지할 수 있으며, 발화와 관련된 부분은 발화 오디오 신호에 의해서만 제어되도록 유도할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델이 발화 합성 영상을 생성하는 상태를 개략적으로 나타낸 도면
도 3은 본 발명의 일 실시예에서 사일런스 합성 영상을 페이크로 분류하여 학습하기 위한 구성을 나타낸 도면
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면이다.
도 1을 참조하면, 립싱크 영상 생성 장치(100)는 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)을 포함할 수 있다.
제1 인공 신경망 모델(102)은 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하도록 학습되는 모델일 수 있다. 여기서, 인물 배경 영상은 인물이 발화 하는(말을 하는) 영상으로, 영상에서 인물의 발화와 관련된 부분이 마스킹(Masking) 처리된 영상일 수 있다. 그리고, 발화 오디오 신호는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분일 수 있다.
여기서, 제1 인공 신경망 모델(102)은 입력되는 발화 오디오 신호를 통해 인물 배경 영상에서는 마스크로 가려진 발화 관련 부분을 복원하여 발화 합성 영상을 생성하도록 학습될 수 있다. 이때, 인물 배경 영상이 발화 관련 부분을 제어하지 못하도록 하는 것이 필요하다. 즉, 발화 관련 부분은 발화 오디오 신호를 통해서만 제어되도록 하고, 인물 배경 영상에 의해 제어되는 것은 방지하는 것이 필요하다.
이에 개시되는 실시예에서는, 제1 인공 신경망 모델(102)이 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하도록 할 수 있다. 여기서, 사일런스 합성 영상은 오디오 신호가 없이 인물 배경 영상만으로 립싱크 영상을 합성한 것을 의미할 수 있다.
사일런스 합성 영상은 오디오 신호 없이(즉, 오디오가 0인 상태) 인물 배경 영상만으로 생성되는 립싱크 영상이기 때문에, 인물의 발화 움직임이 고정된 상태에서 인물 배경 영상의 마스크를 가리지 않은 부분의 움직임은 따라가는 립싱크 영상이어야 한다. 그러나, 제1 인공 신경망 모델(102)의 학습 과정에서 인물 배경 영상이 발화 관련 부분을 제어하도록 학습되면, 오디오 신호가 없는데도 불구하고 인물의 발화와 관련된 부분이 움직이는 사일런스 합성 영상이 생성될 수 있다.
이에 개시되는 실시예에서는, 인물 배경 영상이 발화 관련 부분을 제어하지 않도록 제2 인공 신경망 모델(104)을 통해 제1 인공 신경망 모델(102)이 생성한 사일런스 합성 영상은 페이크(Fake)로 분류하도록 학습할 수 있다.
즉, 제2 인공 신경망 모델(104)은 기 설정된 발화 유지 영상이 입력되면 이를 참(True)으로 분류하고, 제1 인공 신경망 모델(102)이 생성한 사일런스 합성 영상이 입력되면 페이크(Fake)로 분류하도록 학습될 수 있다. 여기서, 발화 유지 영상은 해당 인물의 발화 움직임이 일정한 영상을 의미할 수 있다. 예를 들어, 발화 유지 영상은 해당 인물이 입을 닫고 있는 영상일 수 있다.
이와 같이, 제2 인공 신경망 모델(104)을 통해 해당 인물의 발화 유지 영상을 참으로 분류하고, 사일런스 합성 영상은 거짓으로 분류하도록 학습함으로써, 사일런스 합성 영상에서 인물의 발화 움직임이 일정하도록(즉, 발화와 관련된 부분이 움직이지 않도록) 학습이 되게 되고, 그로 인해 인물 배경 영상이 발화와 관련된 부분을 제어하는 것을 방지할 수 있으며, 발화와 관련된 부분은 발화 오디오 신호에 의해서만 제어되도록 유도할 수 있게 된다.
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델(102)이 발화 합성 영상을 생성하는 상태를 개략적으로 나타낸 도면이다.
도 2를 참조하면, 제1 인공 신경망 모델(102)은 제1 인코더(111), 제2 인코더(113), 조합부(115), 및 디코더(117)를 포함할 수 있다.
예시적인 실시예에서, 제1 인공 신경망 모델(102)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다.
제1 인코더(111)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습될 수 있다. 이하, "벡터"는 "텐서"를 포함 하는 의미로 사용될 수 있다.
여기서, 제1 인코더(111)로 입력되는 인물 배경 영상은 인물이 발화 하는(말을 하는) 영상이다. 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상 일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있으나, 이에 한정되는 것은 아니며 인물의 얼굴을 포함하는 영상일 수도 있다.
제1 인코더(111)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부 분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가려질 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 그러면, 제1 인코더(111)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.
제1 인코더(111)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3Х3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.
제2 인코더(113)는 발화 오디오 신호를 입력으로 할 수 있다. 제2 인코더(113)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출하도록 학습될 수 있다.
여기서, 발화 오디오 신호는 제1 인코더(111)로 입력되는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당한다. 다시 말하면, 인물이 발화하는 동영상에서 비디오 부분은 제1 인코더(111)로 입력되고, 오디오 부분은 제2 인코더(113)로 입력될 수 있다. 제2 인코더(113)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층 (Pooling Layer)를 포함할 수 있으나, 제2 인코더(113)의 신경망 구조가 이에 한정 되는 것은 아니다.
제1 인코더(111)로 입력되는 인물 배경 영상과 제2 인코더(113)로 입력되는 발화 오디오 신호의 시간은 서로 동기화 될 수 있다. 즉, 인물이 발화하는 동영상에서 동일한 시간 대의 구간 중 비디오는 제1 인코더(111)로 입력되고, 오디오는 제2 인코더(113)로 입력될 수 있다. 예를 들어, 인물 배경 영상이 특정 시점으로부터 t 시간의 영상인 경우, 발화 오디오 신호는 동일한 시점으로부터 t 시간의 음성일 수 있다. 이때, 인물 배경 영상 및 발화 오디오 신호는 기 설정된 단위 시간(예를 들어, 하나의 프레임 또는 복수 개의 연속된 프레임 등)마다 제1 인코더(111) 및 제2 인코더(113)로 입력될 수 있다.
조합부(115)는 제1 인코더(111)에서 출력되는 영상 특징 벡터 및 제2 인코더(113)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(115)는 영상 특징 벡터와 음성 특징 벡터를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니다.
디코더(117)는 조합부(115)에서 출력되는 조합 벡터를 입력으로 하여 발화 합성 영상을 생성할 수 있다. 구체적으로, 디코더(117)는 제2 인코더(113)에서 출력되는 음성 특징 벡터(즉, 인물이 발화하는 동영상에서 오디오 부분의 특징)를 기반으로 제1 인코더(111)에서 출력되는 영상 특징 벡터(즉, 인물이 발화하는 동영상에서 비디오 부분으로, 발화 관련된 부분이 마스크로 가려진 부분의 특징)의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습될 수 있다.
즉, 디코더(117)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 발화 오디오 신호를 이용하여 마스킹 된 영역을 복원하도록 학습되는 모델일 수 있다. 디코더(117)는 생성된 발화 합성 영상과 원래의 발화 영상(즉, 정답 값)을 비교하여 생성된 발화 합성 영상이 원래의 발화 영상에 가까워지도록(즉, 원래 발화 영상과의 차이가 최소화되도록) 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.
한편, 제1 인공 신경망 모델(102)이 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하는 것에 대한 목적 함수(Lreconstruction)는 다음의 수학식 1을 통해 나타낼 수 있다.
(수학식 1)
Figure PCTKR2021006913-appb-img-000006
yt : 원래 발화 영상
G : 제1 인공 신경망 모델을 구성하는 신경망
xt : t 시간 동안의 인물 배경 영상
at : t 시간 동안의 발화 오디오 신호
θg : 신경망 G의 파라미터
Figure PCTKR2021006913-appb-img-000007
: A와 B의 차이를 구하는 함수로서, 예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등이 포함될 수 있음
도 3은 본 발명의 일 실시예에서 사일런스 합성 영상을 페이크로 분류하여 학습하기 위한 구성을 나타낸 도면이다.
도 3을 참조하면, 제1 인공 신경망 모델(102)은 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성할 수 있다. 구체적으로, 제1 인코더(111)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출할 수 있다. 이때, 제2 인코더(113)에는 별도의 오디오 신호가 입력되지 않을 수 있다. 또는, 제2 인코더(113)에는 오디오 값이 0인 신호가 입력될 수 있다.
조합부(115)는 제1 인코더(111)에서 출력하는 영상 특징 벡터와 제2 인코더(113)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하게 되는데, 제2 인코더(113)에서 출력되는 음성 특징 벡터는 0이므로, 조합 벡터는 영상 특징 벡터와 동일하게 된다. 즉, 조합부(115)는 제1 인코더(111)에서 출력하는 영상 특징 벡터를 그대로 디코더(117)로 입력시킬 수 있다. 디코더(117)는 영상 특징 벡터를 입력으로 하여 사일런스 합성 영상을 생성할 수 있다. 사일런스 합성 영상은 제2 인공 신경망 모델(104)로 입력될 수 있다.
제2 인공 신경망 모델(104)은 기 저장된 발화 유지 영상 및 사일런스 합성 영상을 입력 받고, 이를 참(True) 또는 거짓(Fake)으로 분류하여 분류 값을 출력할 수 있다. 여기서, 발화 유지 영상은 인물 배경 영상 속 인물의 발화 움직임이 일정한 영상(예를 들어, 해당 인물이 입을 닫고 있는 영상 등)일 수 있다. 예시적인 실시예에서, 발화 유지 영상은 해당 인물에 대한 영상에서 발화 움직임이 일정한 프레임을 검출하여 획득할 수 있다.
제2 인공 신경망 모델(104)은 발화 유지 영상은 참(True)으로 분류하고, 사일런스 합성 영상은 거짓(Fake)로 분류하도록 학습될 수 있다. 예시적인 실시예에서, 제2 인공 신경망 모델(104)은 제3 인코더(121) 및 분류기(123)를 포함할 수 있다. 제3 인코더(121)는 입력되는 영상(발화 유지 영상 또는 사일런스 합성 영상)으로부터 영상 특징 벡터를 추출할 수 있다. 분류기(123)는 제3 인코더(121)에서 출력되는 영상 특징 벡터에 기반하여 입력된 영상을 참(True) 또는 거짓(Fake)으로 분류할 수 있다.
여기서, 사일런스 합성 영상이 제2 인공 신경망 모델(104)에서 거짓으로 분류됨으로써, 제1 인공 신경망 모델(102)에서는 오디오 없이 인물 배경 영상만으로 생성하는 사일런스 합성 영상에서 인물의 발화 움직임이 일정하도록 학습을 하게 되며, 그로 인해 인물 배경 영상이 발화와 관련된 부분을 제어하는 것을 방지할 수 있으며, 발화와 관련된 부분은 발화 오디오 신호에 의해서만 제어되도록 유도할 수 있게 된다.
여기서, 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)은 적대적 생성 신경망(Generative Adversarial Network)을 이룰 수 있다. 제1 인공 신경망 모델(102)은 적대적 생성 신경망 중 생성자(Generator)에 해당하고, 제2 인공 신경망 모델(104)은 적대적 생성 신경망 중 판별자(Discriminator)에 해당할 수 있다. 즉, 제1 인공 신경망 모델(102)은 발화 합성 영상을 생성하는 별도의 신경망 모델이면서, 사일런스 합성 영상을 생성하는 적대적 생성 신경망의 일부 신경망(즉, 생성자)을 구성할 수 있다.
이때, 제2 인공 신경망 모델(104)의 목적 함수(Ldiscriminator)는 다음의 수학식 2를 통해 나타낼 수 있다.
(수학식 2)
Figure PCTKR2021006913-appb-img-000008
D : 제2 인공 신경망 모델의 신경망
xidle : 발화 유지 영상
θd : 신경망 D의 파라미터
G(xt,0) : 제1 인공 신경망 모델이 출력하는 사일런스 합성 영상
그리고, 제2 인공 신경망 모델(104)의 최적화된 파라미터(
Figure PCTKR2021006913-appb-img-000009
)는 다음의 수학식 3을 통해 나타낼 수 있다.
(수학식 3)
Figure PCTKR2021006913-appb-img-000010
여기서, argminθd는 Ldiscriminator를 최소화 하는 θd를 찾는 함수를 나타낸다.
또한, 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델(102)의 적대적 목적 함수(Ladversarial)는 다음의 수학식 4를 통해 나타낼 수 있다.
(수학식 4)
Figure PCTKR2021006913-appb-img-000011
적대적 목적 함수(Ladversarial)는 제2 인공 신경망 모델(104)에서 사일런스 합성 영상을 참(True)인 것으로 판단하도록 제1 인공 신경망 모델(102)을 유도하는 목적 함수일 수 있다. 즉, 적대적 목적 함수(Ladversarial)는 사일런스 합성 영상과 발화 유지 영상 간의 차이가 최소화 되도록 제1 인공 신경망 모델(102)을 유도하는 목적 함수일 수 있다.
그리고, 발화 합성 영상 및 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델(102)의 최종 목적 함수(LT)는 다음의 수학식 5를 통해 나타낼 수 있다.
(수학식 5)
Figure PCTKR2021006913-appb-img-000012
λ : 가중치
또한, 제1 인공 신경망 모델(102)의 최적화된 파라미터(
Figure PCTKR2021006913-appb-img-000013
)는 다음의 수학식 6을 통해 나타낼 수 있다.
(수학식 6)
Figure PCTKR2021006913-appb-img-000014
여기서, argminθg는 LT를 최소화 하는 θg를 찾는 함수를 나타낸다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 립싱크 영상 생성 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (10)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서,
    인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델; 및
    기 설정된 발화 유지 영상 및 상기 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 상기 발화 유지 영상 및 상기 사일런스 합성 영상에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함하는, 립싱크 영상 생성 장치.
  2. 청구항 1에 있어서,
    상기 인물 배경 영상은, 영상 속 인물의 발화와 관련된 부분이 마스크로 가려진 영상이고,
    상기 발화 유지 영상은, 영상 속 인물의 발화 움직임이 일정한 영상인, 립싱크 영상 생성 장치.
  3. 청구항 2에 있어서,
    상기 제2 인공 신경망 모델은,
    상기 발화 유지 영상을 참(True)으로 분류하고, 상기 사일런스 합성 영상은 거짓(Fake)으로 분류하도록 학습되는, 립싱크 영상 생성 장치.
  4. 청구항 2에 있어서,
    상기 제1 인공 신경망 모델은,
    인물 배경 영상을 입력으로 하고, 상기 입력되는 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더;
    상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하고, 상기 입력되는 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더;
    상기 영상 특징 벡터와 상기 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및
    상기 조합 벡터를 입력으로 하고, 상기 조합 벡터를 기반으로 상기 발화 합성 영상을 생성하는 디코더를 포함하는, 립싱크 영상 생성 장치.
  5. 청구항 4에 있어서,
    상기 디코더는,
    상기 음성 특징 벡터를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습되는, 립싱크 영상 생성 장치.
  6. 청구항 2에 있어서,
    상기 제1 인공 신경망 모델의 상기 발화 합성 영상의 생성을 위한 목적 함수(Lreconstruction)는 다음의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure PCTKR2021006913-appb-img-000015
    yt : 원래 발화 영상
    G : 제1 인공 신경망 모델을 구성하는 신경망
    xt : t 시간 동안의 인물 배경 영상
    at : t 시간 동안의 발화 오디오 신호
    θg : 신경망 G의 파라미터
    Figure PCTKR2021006913-appb-img-000016
    : A와 B의 차이를 구하는 함수
  7. 청구항 6에 있어서,
    상기 제2 인공 신경망 모델의 목적 함수(Ldiscriminator)는 다음의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure PCTKR2021006913-appb-img-000017
    D : 제2 인공 신경망 모델의 신경망
    xidle : 발화 유지 영상
    θd : 신경망 D의 파라미터
    G(xt,0) : 제1 인공 신경망 모델이 출력하는 사일런스 합성 영상
  8. 청구항 7에 있어서,
    상기 제1 인공 신경망 모델의 상기 사일런스 합성 영상의 생성을 위한 적대적 목적 함수(Ladversarial)는 다음의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure PCTKR2021006913-appb-img-000018
  9. 청구항 8에 있어서,
    상기 제1 인공 신경망 모델의 상기 발화 합성 영상 및 상기 사일런스 합성 영상을 생성하기 위한 최종 목적 함수(LT)는 다음의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure PCTKR2021006913-appb-img-000019
    λ : 가중치
  10. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    제1 인공 신경망 모델에서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 동작; 및
    제2 인공 신경망 모델에서, 기 설정된 발화 유지 영상 및 상기 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 상기 발화 유지 영상 및 상기 사일런스 합성 영상에 대한 분류 값을 출력하는 동작을 포함하는, 립싱크 영상 생성 방법.
PCT/KR2021/006913 2020-12-10 2021-06-03 립싱크 영상 생성 장치 및 방법 WO2022124498A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/764,324 US20230178095A1 (en) 2020-12-10 2021-06-03 Apparatus and method for generating lip sync image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200172024A KR20220082279A (ko) 2020-12-10 2020-12-10 립싱크 영상 생성 장치 및 방법
KR10-2020-0172024 2020-12-10

Publications (1)

Publication Number Publication Date
WO2022124498A1 true WO2022124498A1 (ko) 2022-06-16

Family

ID=81974648

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/006913 WO2022124498A1 (ko) 2020-12-10 2021-06-03 립싱크 영상 생성 장치 및 방법

Country Status (3)

Country Link
US (1) US20230178095A1 (ko)
KR (1) KR20220082279A (ko)
WO (1) WO2022124498A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116741198A (zh) * 2023-08-15 2023-09-12 合肥工业大学 一种基于多尺度字典的唇形同步方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101177408B1 (ko) 2010-09-16 2012-08-27 광운대학교 산학협력단 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템
US10803646B1 (en) * 2019-08-19 2020-10-13 Neon Evolution Inc. Methods and systems for image and voice processing
US20210065712A1 (en) * 2019-08-31 2021-03-04 Soundhound, Inc. Automotive visual speech recognition

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
K R PRAJWAL; RUDRABHA MUKHOPADHYAY; VINAY NAMBOODIRI; C V JAWAHAR: "A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 23 August 2020 (2020-08-23), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081746748, DOI: 10.1145/3394171.3413532 *
RAN YI; ZIPENG YE; JUYONG ZHANG; HUJUN BAO; YONG-JIN LIU: "Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 24 February 2020 (2020-02-24), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081613176 *
SANJANA SINHA; SANDIKA BISWAS; BROJESHWAR BHOWMICK: "Identity-Preserving Realistic Talking Face Generation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 25 May 2020 (2020-05-25), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081683355 *
TAVI HALPERIN; ARIEL EPHRAT; SHMUEL PELEG: "Dynamic Temporal Alignment of Speech to Lips", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 August 2018 (2018-08-19), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080898125 *
ZHENG, Ruobing et al. Photorealistic Lip Sync with Adversarial Temporal Convolutional Networks. arXiv:2002.08700v1. February 2020, pp. 1-9. [retrieved on 29 July 2021]. Retrieved from <URL: https://arxiv.org/pdf/2002.08700v1.pdf>. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116741198A (zh) * 2023-08-15 2023-09-12 合肥工业大学 一种基于多尺度字典的唇形同步方法
CN116741198B (zh) * 2023-08-15 2023-10-20 合肥工业大学 一种基于多尺度字典的唇形同步方法

Also Published As

Publication number Publication date
KR20220082279A (ko) 2022-06-17
US20230178095A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
WO2020256471A1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2022045486A1 (ko) 발화 동영상 생성 방법 및 장치
WO2022169035A1 (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
WO2020256472A1 (ko) 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2020256475A1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
WO2022014800A1 (ko) 발화 동영상 생성 방법 및 장치
WO2022131497A1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
WO2022004971A1 (ko) 영상 생성을 위한 학습 장치 및 방법
WO2022124498A1 (ko) 립싱크 영상 생성 장치 및 방법
WO2022169036A1 (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
WO2022045485A1 (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
WO2020032348A1 (ko) 데이터를 식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2022114437A1 (ko) 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템
WO2022265273A1 (ko) 고인을 모사하는 가상 인물과 대화를 수행하는 서비스를 제공하는 방법 및 시스템
WO2022092439A1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2022149667A1 (ko) 립싱크 영상 생성 장치 및 방법
WO2023158226A1 (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
WO2022004970A1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
WO2020004727A1 (ko) 실시간 소리 분석 방법 및 장치
WO2022177091A1 (ko) 전자 장치 및 이의 제어 방법
WO2022025359A1 (ko) 발화 영상 생성 방법 및 장치
WO2023229091A1 (ko) 3d 립싱크 비디오 생성 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21903547

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 24.10.2023)