KR20200145719A - Method and apparatus for generating speech video of using a text - Google Patents
Method and apparatus for generating speech video of using a text Download PDFInfo
- Publication number
- KR20200145719A KR20200145719A KR1020200073099A KR20200073099A KR20200145719A KR 20200145719 A KR20200145719 A KR 20200145719A KR 1020200073099 A KR1020200073099 A KR 1020200073099A KR 20200073099 A KR20200073099 A KR 20200073099A KR 20200145719 A KR20200145719 A KR 20200145719A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- image
- video
- person
- output
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
본 발명의 실시예는 머신 러닝에 기반한 발화 동영상 생성 기술과 관련된다.An embodiment of the present invention relates to a technology for generating speech video based on machine learning.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다. In recent years, with the advancement of technology in the field of artificial intelligence, various types of contents have been created based on artificial intelligence technology. As an example, when there is a voice message to be delivered, there is a case in which the voice message is created to attract people's attention by generating a utterance video like a famous person (eg, the president, etc.). This is implemented by creating a mouth shape according to a specific message, as if a famous person says a specific message in a video of a famous person.
이를 위하여, 종래에는 기존의 발화 영상에서 먼저 음성과 관련된 랜드마크 또는 키포인트를 생성하여 이에 대한 학습을 수행한 후, 학습된 모델을 이용하여 입력된 음성에 맞는 영상을 합성하는 방식을 사용하였다. 그러나, 이러한 종래 기술의 경우 학습을 위하여 키포인트를 추출하고 이를 표준 공간(화면 중심에서 정면을 바라보는 위치)으로 변환 및 역변환하는 과정이 필수적으로 요구되며, 키포인트를 합성하는 단계와 영상을 합성하는 단계가 필요한 바 그 절차가 복잡하다는 문제점이 있다. To this end, in the related art, a landmark or key point related to a voice is first generated from an existing speech image and learning is performed, and then an image suitable for the input voice is synthesized using the learned model. However, in the case of such a conventional technology, a process of extracting a key point and converting it to a standard space (a position facing the front from the center of the screen) and inversely transforming it for learning is required. There is a problem that the procedure is complicated because it is necessary.
한편, 키포인트를 사용하지 않는 방식의 경우, 얼굴 부분만 잘라 크기 및 위치를 정렬한 후 입력된 음성에 맞는 영상을 합성하는 방식을 사용하여, 인물의 자연스러운 움직임을 반영하지 못하기 때문에 결과물이 부자연스럽다는 문제점이 있다. On the other hand, in the case of a method that does not use keypoints, the result is unnatural because it does not reflect the natural movement of the person by using the method of synthesizing the image suitable for the input voice after cutting only the face part and aligning the size and position. There is a problem.
또한 개시되는 실시예는 신경망 구조를 간소화할 수 있는 머신 러닝 기반의 발화 동영상 생성 방법 및 장치를 제공하기 위한 것이다.In addition, the disclosed embodiment is to provide a machine learning-based speech video generation method and apparatus capable of simplifying a neural network structure.
개시되는 실시예들은 발화 시 발생하는 움직임 또는 제스쳐를 반영할 수 있는 머신 러닝 기반의 발화 동영상 생성 방법 및 장치를 제공하기 위한 것이다.Disclosed embodiments are to provide a method and apparatus for generating a speech video based on machine learning that can reflect a motion or gesture occurring during speech.
일 실시예에 따른 발화 동영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 소정 인물의 인물 배경 영상을 입력 받고, 상기 인물의 발화 동영상 중 영상 파트를 생성하는 영상 파트 생성부; 및 텍스트를 입력 받고, 상기 텍스트로부터 상기 인물의 발화 동영상 중 음성 파트를 생성하며, 상기 음성 파트를 생성하는 과정에서 발생하는 발화 관련 정보를 상기 영상 파트 생성부로 제공하는 음성 파트 생성부를 포함한다.A speech video generating apparatus according to an embodiment is a computing device having one or more processors and a memory for storing one or more programs executed by the one or more processors, and receives a background image of a person of a predetermined person, An image part generator for generating an image part of the speech video of the person; And a voice part generator configured to receive text, generate a voice part of the person's speech video from the text, and provide speech-related information generated in the process of generating the voice part to the video part generator.
상기 인물 배경 영상은, 상기 인물의 발화와 관련된 부분이 마스크로 가려지고, 상기 영상 파트 생성부는, 상기 영상 파트에서 상기 발화 관련 정보를 기반으로 상기 마스크로 가려진 발화와 관련된 부분을 복원할 수 있다.In the background image of the person, a part related to the person's utterance is covered with a mask, and the image part generator may restore a part related to the utterance covered by the mask in the image part based on the utterance related information.
상기 영상 파트 생성부는, 상기 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더; 상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 음성 파트 생성부로부터 입력되는 발화 관련 정보를 조합하여 조합 벡터를 생성하는 조합부; 및 상기 조합 벡터를 입력으로 하여 상기 발화 동영상의 영상 파트를 복원하는 제1 디코더를 포함할 수 있다.The image part generator may include: a first encoder for receiving the background image of the person and extracting a feature vector from the background image of the person; A combination unit for generating a combination vector by combining an image feature vector output from the first encoder and speech related information input from the audio part generation unit; And a first decoder for reconstructing an image part of the speech video by receiving the combination vector as an input.
상기 제1 디코더는, 상기 발화 관련 정보를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습된 머신 러닝 모델일 수 있다.The first decoder may be a machine learning model that is trained to restore a portion of the person background image covered by a mask based on the speech-related information.
상기 영상 파트 생성부는, 상기 조합부와 상기 제1 디코더 사이에 마련되는 하나 이상의 레지듀얼 블록을 더 포함하고, 상기 레지듀얼 블록은, 상기 조합부에서 출력되는 조합 벡터를 입력 값으로 하고, 상기 입력 값과 상기 레지듀얼 블록에서 출력되는 출력 값 간의 차이가 최소화되도록 학습될 수 있다.The video part generation unit further includes at least one residual block provided between the combination unit and the first decoder, wherein the residual block has a combination vector output from the combination unit as an input value, and the input It may be learned to minimize a difference between a value and an output value output from the residual block.
상기 영상 파트 생성부는, 상기 제1 디코더로부터 출력되는 상기 영상 파트를 입력 받고, 상기 영상 파트의 각 픽셀 별로 주의 집중 가중치를 결정하여 어텐션 맵을 생성하는 어텐션부; 상기 제1 디코더로부터 출력되는 상기 영상 파트를 입력 받고, 상기 영상 파트에서 발화 관련 부분을 추출하여 발화 관련 영상을 출력하는 발화 관련 부분 추출부; 및 상기 제1 인코더로 입력되는 인물 배경 영상, 상기 어텐션 맵, 및 상기 발화 관련 영상을 입력 받아 상기 인물의 최종 영상 파트를 출력하는 복원 출력부를 더 포함할 수 있다.The video part generation unit may include an attention unit configured to receive the video part output from the first decoder and determine an attention weight for each pixel of the video part to generate an attention map; A speech-related part extracting unit for receiving the video part output from the first decoder, extracting a speech-related part from the video part, and outputting a speech-related image; And a restoration output unit configured to receive a background image of a person, the attention map, and an image related to the speech input through the first encoder and output a final image part of the person.
상기 복원 출력부는, 상기 최종 영상 파트에서 발화와 관련되지 않은 부분은 상기 인물 배경 영상을 기반으로 복원하고, 상기 최종 영상 파트에서 발화와 관련된 부분은 상기 발화 관련 영상을 기반으로 복원할 수 있다.The restoration output unit may restore a portion of the final image part that is not related to utterance based on the person background image, and a portion related to utterance in the final image part may be restored based on the utterance related image.
상기 음성 파트 생성부는, 상기 텍스트를 입력 받고, 상기 텍스트로부터 문맥 벡터를 생성하는 제2 인코더; 및 상기 문맥 벡터를 입력 받고, 상기 문맥 벡터로부터 상기 인물의 목소리로 음성 스펙트로그램 신호를 출력하는 제2 디코더를 포함할 수 있다.The speech part generator may include: a second encoder for receiving the text and generating a context vector from the text; And a second decoder receiving the context vector and outputting a voice spectrogram signal from the context vector to the voice of the person.
상기 음성 파트 생성부는, 상기 제2 인코더와 상기 제2 디코더 사이에 마련되고, 상기 문맥 벡터와 상기 음성 스펙트로그램 신호 간의 시간에 따른 대응 관계를 학습하도록 마련되는 어텐션부를 더 포함할 수 있다.The speech part generation unit may further include an attention unit provided between the second encoder and the second decoder and configured to learn a correspondence relationship between the context vector and the speech spectrogram signal over time.
상기 발화 동영상 생성 장치는, 입력되는 명령에 따라 상기 발화 관련 정보를 상기 영상 파트 생성부로 제공 또는 미제공 하도록 마련되는 출력 선택부를 더 포함할 수 있다.The apparatus for generating the speech video may further include an output selection unit provided to provide or not provide the speech related information to the video part generation unit according to an input command.
상기 출력 선택부는, 입력되는 명령에 따라 상기 발화 관련 정보를 상기 영상 파트 생성부로 제공하면서 상기 음성 파트 생성부에서는 음성 신호가 출력되지 않도록 할 수 있다.The output selection unit may provide the speech-related information to the video part generation unit according to an input command and prevent the audio part generation unit from outputting an audio signal.
개시되는 일 실시예에 따른 발화 동영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 상기 컴퓨팅 장치의 영상 파트 생성부에서, 소정 인물의 인물 배경 영상을 입력 받고, 상기 인물의 발화 동영상 중 영상 파트를 생성하는 단계; 및 상기 컴퓨팅 장치의 음성 파트 생성부에서, 텍스트를 입력 받고, 상기 텍스트로부터 상기 인물의 발화 동영상 중 음성 파트를 생성하며, 상기 음성 파트를 생성하는 과정에서 발생하는 발화 관련 정보를 상기 영상 파트 생성부로 제공하는 단계를 포함한다.A method of generating a speech video according to the disclosed embodiment is a method performed in a computing device having one or more processors and a memory for storing one or more programs executed by the one or more processors, wherein the computing device Receiving, in an image part generation unit, a background image of a person of a predetermined person, and generating an image part of the speech video of the person; And an audio part generating unit of the computing device receiving text, generating an audio part of the speech video of the person from the text, and transmitting speech-related information generated in the process of generating the audio part to the video part generating unit. And providing.
개시되는 실시예에 의하면, 텍스트가 입력되는 경우 텍스트로부터 음성을 합성하여 소정 인물의 음성 파트 부분을 생성하면서 음성 합성 과정에서 발생된 발화 관련 정보를 이용하여 소정 인물이 발화하는 동영상의 영상 파트 부분을 생성함으로써, 하나의 단일 신경망 모델을 통해 영상 파트와 음성 파트를 동시에 생성할 수 있어 신경망 구조를 간소화 할 수 있게 된다. According to the disclosed embodiment, when text is input, a video part part of a moving picture that a certain person utters by using the utterance related information generated in the speech synthesis process while synthesizing a voice from the text to generate a voice part part of a certain person By generating, it is possible to simultaneously generate an image part and an audio part through a single neural network model, thereby simplifying the neural network structure.
그리고, 영상 파트 와 음성 파트가 단일 신경망으로 구성됨으로써, 영상 파트와 음성 파트가 상호 보완적으로 학습될 수 있게 된다. 예를 들어, 영상 파트의 경우 음성 파트로부터 발화 관련 정보를 보다 풍성하게 얻을 수 있고, 음성 파트는 음성 생성에 있어 영상의 발화가 적절하게 합성되도록 음성 생성에 제한을 줄 수 있다. In addition, since the video part and the audio part are composed of a single neural network, the video part and the audio part can be complementarily learned. For example, in the case of an image part, speech-related information can be obtained more abundantly from an audio part, and the audio part may limit voice generation so that speech of an image is appropriately synthesized in voice generation.
또한, 텍스트에 기반하여 생성되는 발화 관련 정보를 인물 배경 영상에서 마스크(M)로 가려진 부분의 영상을 복원하는데 사용함으로써, 음성 신호의 발음이 불규칙하거나 불명확한 부분에 대해 텍스트를 통해 보완하여 학습할 수 있으므로, 해당 인물의 정확한 발음이 나오도록 피드백 받을 수 있게 된다. 그리고, 이는 영상 파트에서 마스크로 가져진 발화와 관련된 부분의 영상을 보다 정확하게 복원할 수 있도록 유도하게 된다.In addition, by using the speech-related information generated based on the text to restore the image of the part covered by the mask (M) in the background image of the person, it is possible to supplement and learn the part where the pronunciation of the voice signal is irregular or unclear through text. As a result, it is possible to receive feedback so that the correct pronunciation of the corresponding person comes out. In addition, this leads to more accurately reconstructing the image of the part related to the utterance brought by the mask from the image part.
또한, 발화와 관련된 부분을 마스킹 처리한 상태에서 얼굴 및 상반신이 포함된 인물 배경 영상을 입력으로 하여 학습하기 때문에, 사람의 발화 시 나타나는 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 같은 그 사람만의 독특한 제스쳐 또는 특징을 반영하여 발화 동영상을 생성할 수 있으며, 그로 인해 보다 자연스러운 발화 동영상을 생성할 수 있게 된다. In addition, since the person learns by inputting the background image of the person including the face and upper body in a state where the part related to the utterance is masked, the person's unique characteristics such as facial movements, neck movements, and shoulder movements, etc. An uttered video can be generated by reflecting a gesture or characteristic, and thereby a more natural uttered video can be generated.
또한, 발화 동영상의 영상 중 마스킹 처리된 발화와 관련된 부분을 발화 관련 정보로부터 복원함으로써, 별도의 키포인트 예측 과정 없이 단일 신경망 모델을 통해 발화 동영상을 생성할 수 있게 된다.In addition, by restoring a masked speech-related part of the speech video image from speech-related information, the speech video can be generated through a single neural network model without a separate keypoint prediction process.
도 1은 본 발명의 일 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도
도 2는 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도
도 3은 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 영상 파트 생성부를 나타낸 도면
도 4은 본 발명의 또 다른 실시예에 따른 발화 동영상 생성 장치의 영상 파트 생성부를 나타낸 도면
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도1 is a block diagram showing the configuration of a speech video generating apparatus according to an embodiment of the present invention
2 is a block diagram showing a configuration of an apparatus for generating a speech video according to another embodiment of the present invention
3 is a view showing an image part generation unit of a speech video generation apparatus according to another embodiment of the present invention
4 is a view showing an image part generation unit of an apparatus for generating a speech video according to another embodiment of the present invention
5 is a block diagram illustrating and describing a computing environment including a computing device suitable for use in example embodiments.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.Hereinafter, a specific embodiment of the present invention will be described with reference to the drawings. The following detailed description is provided to aid in a comprehensive understanding of the methods, devices, and/or systems described herein. However, this is only an example and the present invention is not limited thereto.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.In describing the embodiments of the present invention, when it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted. In addition, terms to be described later are terms defined in consideration of functions in the present invention and may vary according to the intention or custom of users or operators. Therefore, the definition should be made based on the contents throughout this specification. The terms used in the detailed description are only for describing embodiments of the present invention, and should not be limiting. Unless explicitly used otherwise, expressions in the singular form include the meaning of the plural form. In this description, expressions such as "comprising" or "feature" are intended to refer to certain features, numbers, steps, actions, elements, some or combination thereof, and one or more other than those described. It should not be construed to exclude the presence or possibility of other features, numbers, steps, actions, elements, any part or combination thereof.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다. In the following description, "transmission", "communication", "transmission", "reception" of signals or information, and other terms having a similar meaning are not only directly transmitted signals or information from one component to another component. It includes what is passed through other components. In particular, "transmitting" or "transmitting" a signal or information to a component indicates the final destination of the signal or information and does not imply a direct destination. The same is true for "reception" of signals or information. In addition, in the present specification, when two or more pieces of data or information are "related", it means that when one data (or information) is obtained, at least a part of other data (or information) can be obtained based thereon.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.In addition, terms such as first and second may be used to describe various components, but the components should not be limited by the terms. These terms may be used for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may be referred to as a first component.
도 1은 본 발명의 일 실시예에 따른 단일 신경망 구조를 갖는 발화 동영상 생성 장치의 구성을 나타낸 블록도이다. 도 1을 참조하면, 발화 동영상 생성 장치(100)는 영상 파트 생성부(102) 및 음성 파트 생성부(104)를 포함할 수 있다. 1 is a block diagram showing a configuration of an apparatus for generating speech video having a single neural network structure according to an embodiment of the present invention. Referring to FIG. 1, the
영상 파트 생성부(102)는 발화 동영상의 영상 부분을 생성하기 위한 부분일 수 있다. 영상 파트 생성부(102)는 인물의 발화와 관련된 부분이 마스크(M)로 가려진 인물 배경 영상 및 해당 인물의 발화 관련 정보를 입력으로 받아 발화 동영상의 영상 부분을 생성할 수 있다. 이때, 발화 동영상의 영상 부분에서 마스크(M)로 가려진 부분은 발화 관련 정보를 기반으로 복원할 수 있다. 영상 파트 생성부(102)는 제1 인코더(112), 조합부(114), 및 제1 디코더(116)를 포함할 수 있다. The
음성 파트 생성부(104)는 발화 동영상의 음성 부분을 생성하기 위한 부분일 수 있다. 음성 파트 생성부(104)는 텍스트를 입력으로 받고, 입력된 텍스트로부터 발화 동영상의 음성 파트에 사용되는 발화 관련 정보를 생성할 수 있다. 음성 파트 생성부(104)는 발화 관련 정보를 영상 파트 생성부(102)로 제공할 수 있다. 음성 파트 생성부(104)는 제2 인코더(120), 어텐션부(122), 제2 디코더(124), 및 보코더(126)를 포함할 수 있다. 여기서, 발화 관련 정보는 어텐션부(122), 제2 디코더(124), 및 보코더(126) 중 어느 하나의 출력 데이터일 수 있다.The
여기서, 영상 파트 생성부(102)와 음성 파트 생성부(104)는 단일 신경망으로 이루어질 수 있다. 영상 파트 생성부(102)와 음성 파트 생성부(104)는 발화 동영상의 영상 파트와 음성 파트를 각각 생성하나, 음성 파트의 생성 과정 중 발생하는 발화 관련 정보를 영상 파트 생성부(102)로 제공하여 하나의 단일 신경망을 통해 영상 파트와 음성 파트를 동시에 생성할 수 있게 된다.Here, the image
도 1에 도시된 발화 동영상 생성 장치(100)의 구성은, 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있으며, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다.The configuration of the speech
예시적인 실시예에서, 발화 동영상 생성 장치(100)는 합성곱 신경망(Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다. 이하에서는, 발화 동영상 생성을 위한 학습 과정을 위주로 설명하기로 한다.In an exemplary embodiment, the speech
제1 인코더(112)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습되는 머신 러닝 모델일 수 있다. 이하, "벡터"는 "텐서"를 포함하는 의미로 사용될 수 있다. The
여기서, 제1 인코더(112)로 입력되는 인물 배경 영상은 소정 인물이 발화하는(말을 하는) 영상이다. 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있다. Here, the person background image input to the
제1 인코더(112)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가릴 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 그러면, 제1 인코더(112)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.In the background image of a person input to the
제1 인코더(112)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3×3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다. The
조합부(114)는 제1 인코더(112)에서 출력되는 영상 특징 벡터 및 음성 파트 생성부(104)에서 생성되는 발화 관련 정보를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(114)로 입력되는 발화 관련 정보는 어텐션부(122)에서 출력되는 데이터, 제2 디코더(124)에서 출력되는 데이터, 및 제2 디코더(124)에서 처리되는 중간 산출물 데이터 중 어느 하나가 될 수 있다. The
예시적인 실시예에서, 조합부(114)는 영상 특징 벡터와 발화 관련 정보를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니다.In an exemplary embodiment, the combining
제1 디코더(116)는 조합부(114)에서 출력되는 조합 벡터를 입력으로 하여 인물의 발화 동영상 중 영상 파트를 복원할 수 있다. 구체적으로, 제1 디코더(116)는 음성 파트 생성부(104)에서 생성되는 발화 관련 정보를 기반으로 제1 인코더(112)에서 출력되는 영상 특징 벡터의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습되는 머신 러닝 모델일 수 있다. 즉, 제1 디코더(116)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 발화 관련 정보를 이용하여 마스킹 된 영역의 영상 부분을 복원하도록 학습되는 모델일 수 있다. 이 경우, 단일 신경망 구조를 통해 텍스트를 입력으로 하여 소정 인물의 발화 영상을 생성할 수 있게 된다. The
예시적인 실시예에서, 제1 디코더(116)는 제1 인코더(112)에서 출력되는 영상 특징 벡터와 음성 파트 생성부(104)에서 생성되는 발화 관련 정보가 조합된 조합 벡터에 역 합성곱(Deconvolution)을 수행한 후 업 샘플링(Up Sampling)을 수행하여 발화 동영상의 영상 파트를 생성할 수 있다. In an exemplary embodiment, the
제2 인코더(120)는 텍스트(Text)를 입력으로 하여 해당 텍스트에 대한 문맥 벡터(Context Vector)를 출력하도록 학습되는 머신 러닝 모델일 수 있다. 제2 인코더(120)는 텍스트에 기반하여 입력 시퀀스를 생성하고, 입력 시퀀스로부터 문맥 벡터를 생성할 수 있다. 예를 들어, 제2 인코더(120)는 시퀀스 투 시퀀스(Sequence-To-Sequence) 모델을 통해 텍스트로부터 입력 시퀀스를 생성할 수 있다. The
어텐션부(122)는 음성 파트 생성부(104)의 입력 데이터인 텍스트와 출력 데이터인 음성 스펙트로그램 신호 간의 시간에 따른 대응 관계를 학습하도록 마련된 머신 러닝 모델일 수 있다. 예를 들어, 시간에 따라 입력과 출력이 상호 대응되는 순차 데이터[(X0, Y0), (X1, Y1), ?? ,(Xt, Yt)]의 경우, 각 입력에 대하여 출력이 정해져 있기 때문에 신경망 등을 통한 학습이 가능하나, 입력 데이터가 텍스트이고 출력 데이터가 음성 스펙트로그램 신호인 경우 다음 수학식 1과 같이 입력 데이터(Xi)와 출력 데이터(Yj) 간의 대응 관계를 알기 어렵다. The
(수학식 1)(Equation 1)
[(X0, X1, ?? , Xi), (Y0, Y1, ?? , Yj)], i ≠ j[(X 0 , X 1 , ??, X i ), (Y 0 , Y 1 , ??, Y j )], i ≠ j
이에, 어텐션부(122)를 통해 입력 데이터인 텍스트와 출력 데이터인 음성 스펙트로그램 신호 간의 시간에 따른 대응 관계를 학습할 수 있다. 어텐션부(122)는 i 시간의 텍스트(즉, 문맥 벡터)가 어떤 j 시간의 음성 스펙트로그램 신호와 관계 되어 있는지를 학습할 수 있다. 어텐션부(122)는 문맥 벡터를 음성 스펙트로그램 신호와의 시간에 따른 대응 관계에 따라 음성 스펙트로그램 신호와 동일한 길이로 정렬할 수 있다.Accordingly, through the
어텐션부(122)는 제2 인코더(120)에 의해 생성된 문맥 벡터에 대한 제2 디코더(124)의 현재 출력 시점에서의 주의 집중 가중치(Attention Weight)를 결정할 수 있다. 이때, 주의 집중 가중치는 제2 디코더(124)의 현재 출력 시점에서 출력할 음성 스펙트로그램 신호를 결정하기 위해 문맥 벡터 중 어느 부분에 집중하여야 할지를 나타낼 수 있다. The
제2 디코더(124)는 제2 인코더(120)에서 출력되는 문맥 벡터를 기반으로 음성 스펙트로그램 신호를 출력하도록 학습되는 머신 러닝 모델일 수 있다. 제2 디코더(124)는 문백 벡터가 입력되는 경우 어텐션부(122)에서 결정된 주의 집중 가중치를 고려하여 음성 스펙트로그램 신호를 출력할 수 있다. 제2 디코더(124)는 텍스트에 대해 인물 배경 영상 속 인물의 목소리로 음성 스펙트로그램 신호를 출력하도록 학습될 수 있다. 예시적인 실시예에서, 제2 디코더(124)는 음성 스펙트로그램 신호를 조합부(114)로 전달할 수 있다. The
보코더(126)는 제2 디코더(124)가 출력하는 음성 스펙트로그램 신호를 입력으로 하여 음성 신호를 생성할 수 있다. 즉, 보코더(126)는 음성 스펙트로그램 신호를 스피커 등을 통해 출력할 수 있는 음성 신호로 변환 할 수 있다. The
개시되는 실시예에 의하면, 텍스트가 입력되는 경우 텍스트로부터 음성을 합성하여 소정 인물의 음성 파트 부분을 생성하면서 음성 합성 과정에서 발생된 발화 관련 정보를 이용하여 소정 인물이 발화하는 동영상의 영상 파트 부분을 생성함으로써, 하나의 단일 신경망 모델을 통해 영상 파트와 음성 파트를 동시에 생성할 수 있어 신경망 구조를 간소화 할 수 있게 된다. According to the disclosed embodiment, when text is input, a video part part of a moving picture that a certain person utters by using the utterance related information generated in the speech synthesis process while synthesizing a voice from the text to generate a voice part part of a certain person By generating, it is possible to simultaneously generate an image part and an audio part through a single neural network model, thereby simplifying the neural network structure.
그리고, 영상 파트와 음성 파트가 단일 신경망으로 구성됨으로써, 영상 파트와 음성 파트가 상호 보완적으로 학습될 수 있게 된다. 예를 들어, 영상 파트의 경우 음성 파트로부터 발화 관련 정보를 보다 풍성하게 얻을 수 있고, 음성 파트는 음성 생성에 있어 영상의 발화가 적절하게 합성되도록 음성 생성에 제한을 줄 수 있다. In addition, since the video part and the audio part are composed of a single neural network, the video part and the audio part can be complementarily learned. For example, in the case of an image part, speech-related information can be obtained more abundantly from an audio part, and the audio part may limit voice generation so that speech of an image is appropriately synthesized in voice generation.
또한, 텍스트에 기반하여 생성되는 발화 관련 정보를 인물 배경 영상에서 마스크(M)로 가려진 부분의 영상을 복원하는데 사용함으로써, 음성 신호의 발음이 불규칙하거나 불명확한 부분에 대해 텍스트를 통해 보완하여 학습할 수 있으므로, 해당 인물의 정확한 발음이 나오도록 피드백 받을 수 있게 된다. 그리고, 이는 영상 파트에서 마스크로 가져진 발화와 관련된 부분의 영상을 보다 정확하게 복원할 수 있도록 유도하게 된다.In addition, by using the speech-related information generated based on the text to restore the image of the part covered by the mask (M) in the background image of the person, it is possible to supplement and learn the part where the pronunciation of the voice signal is irregular or unclear through text. As a result, it is possible to receive feedback so that the correct pronunciation of the corresponding person comes out. In addition, this leads to more accurately reconstructing the image of the part related to the utterance brought by the mask from the image part.
또한, 발화와 관련된 부분을 마스킹 처리한 상태에서 얼굴 및 상반신이 포함된 인물 배경 영상을 입력으로 하여 학습하기 때문에, 사람의 발화 시 나타나는 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 같은 그 사람만의 독특한 제스쳐 또는 특징을 반영하여 발화 동영상을 생성할 수 있으며, 그로 인해 보다 자연스러운 발화 동영상을 생성할 수 있게 된다. In addition, since the person learns by inputting the background image of the person including the face and upper body in a state where the part related to the utterance is masked, the person's unique characteristics such as facial movements, neck movements, and shoulder movements, etc. An uttered video can be generated by reflecting a gesture or characteristic, and thereby a more natural uttered video can be generated.
또한, 발화 동영상의 영상 중 마스킹 처리된 발화와 관련된 부분을 발화 관련 정보로부터 복원함으로써, 별도의 키포인트 예측 과정 없이 단일 신경망 모델을 통해 발화 동영상을 생성할 수 있게 된다.In addition, by restoring a masked speech-related part of the speech video image from speech-related information, the speech video can be generated through a single neural network model without a separate keypoint prediction process.
또한, 얼굴뿐만 아니라 상반신도 포함된 발화 동영상을 생성하게 되므로, 해당 인물의 다른 신체 부분(예를 들어, 몸통이나 팔 다리 등)에 대해 추가적인 변환 또는 합성 과정 없이 자연스럽게 붙여 넣을 수 있게 된다. In addition, since an uttered video including not only the face but also the upper body is generated, other body parts (eg, torso or limb) of the person can be naturally pasted without any additional conversion or synthesis process.
도 2는 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도이다. 여기서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다. 2 is a block diagram showing a configuration of an apparatus for generating a speech video according to another embodiment of the present invention. Here, the parts that differ from the embodiment shown in FIG. 1 will be mainly described.
도 2을 참조하면, 발화 동영상 생성 장치(100)는 출력 선택부(128)를 더 포함할 수 있다. 출력 선택부(128)는 입력되는 명령에 따라 음성 파트 생성부(104)에서 생성되는 발화 관련 정보를 영상 파트 생성부(102)로 제공하거나 미제공할 수 있다.Referring to FIG. 2, the
여기서, 출력 선택부(128)가 발화 관련 정보를 영상 파트 생성부(102)로 제공하는 경우, 발화 동영상 생성 장치(100)는 발화 동영상 중 영상 파트와 음성 파트를 각각 생성할 수 있게 된다. 반면, 출력 선택부(128)가 발화 관련 정보를 영상 파트 생성부(102)로 제공하지 않는 경우, 발화 동영상 생성 장치(100)는 발화 동영상 중 음성 파트만을 생성하게 된다. Here, when the
또한, 출력 선택부(128)는 입력되는 명령에 따라 음성 파트 생성부(104)에서 생성되는 발화 관련 정보를 영상 파트 생성부(102)로 제공하면서 음성 파트 생성부(104)에서는 음성 신호가 출력되지 않도록 할 수 있다. 이 경우, 발화 동영상 생성 장치(100)는 발화 동영상 중 영상 파트만을 생성하게 된다. In addition, the
이와 같이, 출력 선택부(128)를 통해 발화 동영상 중 음성 파트만 생성하거나 영상 파트만 생성할 수도 있고, 음성 파트와 영상 파트를 모두 생성할 수 있게 된다.As described above, only an audio part or an image part may be generated among the speech video through the
도 3은 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 영상 파트 생성부를 나타낸 도면이다. 여기서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다.3 is a diagram illustrating an image part generation unit of an apparatus for generating a speech video according to another embodiment of the present invention. Here, the parts that differ from the embodiment shown in FIG. 1 will be mainly described.
도 3을 참조하면, 영상 파트 생성부(102)는 레지듀얼 블록(130)을 더 포함할 수 있다. 레지듀얼 블록(130)은 조합부(114)와 제1 디코더(116) 사이에 하나 이상이 마련될 수 있다. 예시적인 실시예에서, 레지듀얼 블록(130)은 조합부(114)와 제1 디코더(116) 사이에 복수 개가 순차적으로 연결(직렬로 연결)되어 마련될 수 있다. Referring to FIG. 3, the
레지듀얼 블록(130)은 하나 이상의 합성곱 층(Convolutional Layer)을 포함할 수 있다. 레지듀얼 블록(130)은 입력 값(즉, 조합부(114)에서 출력되는 조합 벡터)에 대해 컨볼루션을 수행하고, 컨볼루션을 수행한 결과 값에 다시 입력 값을 더하는 구조로 이루어질 수 있다. 레지듀얼 블록(130)은 레지듀얼 블록(130)의 입력 값과 출력 값의 차이의 최소화를 학습하도록 할 수 있다. 이를 통해, 영상 특징 벡터와 음성 특징 벡터를 유기적으로 조합하여 제1 디코더(116)의 입력으로 사용할 수 있게 된다.The
도 4은 본 발명의 또 다른 실시예에 따른 발화 동영상 생성 장치의 영상 파트 생성부를 나타낸 도면이다. 여기서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다.4 is a diagram illustrating an image part generation unit of an apparatus for generating a speech video according to another embodiment of the present invention. Here, the parts that differ from the embodiment shown in FIG. 1 will be mainly described.
도 4를 참조하면, 영상 파트 생성부(102)는 어텐션부(132), 발화 관련 부분 추출부(134), 및 복원 출력부(136)를 더 포함할 수 있다. Referring to FIG. 4, the image
여기서, 어텐션부(132) 및 발화 관련 부분 추출부(134)는 제1 디코더(116)의 출력 단에 각각 연결될 수 있다. 즉, 어텐션부(132) 및 발화 관련 부분 추출부(134)는 제1 디코더(116)에서 출력하는 발화 동영상의 영상 파트(이하에서는 1차 복원된 영상 파트라 지칭할 수 있음)을 입력으로 할 수 있다. Here, the
어텐션부(132)는 1차 복원된 영상 파트의 각 픽셀 별로 주의 집중 가중치(Attention Weight)를 결정하여 어텐션 맵(Attention Map)을 출력할 수 있다. 주의 집중 가중치는 0 ~ 1 사이의 값일 수 있다.The
구체적으로, 어텐션부(132)는 1차 복원된 영상 파트의 각 픽셀 별로 복원 출력부(136)에서 영상 파트의 2차 복원 시 제1 인코더(112)의 입력으로 사용된 인물 배경 영상(즉, 발화 관련 부분이 마스크로 가려진 영상)과 발화 관련 부분 추출부(134)에서 출력되는 발화 관련 영상 중 어느 부분을 사용할 것인지를 결정하기 위한 주의 집중 가중치를 설정할 수 있다. Specifically, the
발화 관련 부분 추출부(134)는 1차 복원된 영상 파트에서 발화와 관련된 부분(즉, 발화 관련 부분)을 추출하여 발화 관련 영상을 출력할 수 있다. 예시적인 실시예에서, 발화 관련 부분 추출부(134)는 1차 복원된 영상 파트에서 발화 관련 부분의 픽셀 값을 추출하고, 그 이외의 부분은 랜덤한 값(예를 들어, 사용되지 않는 값)으로 채워 발화 관련 영상을 생성할 수 있다. The speech-related
복원 출력부(136)는 제1 인코더(112)의 입력으로 사용된 인물 배경 영상, 어텐션부(132)에서 출력되는 어텐션 맵, 및 발화 관련 부분 추출부(134)에서 출력되는 발화 관련 영상을 조합하여 발화 동영상의 최종 영상 파트를 출력할 수 있다. The
복원 출력부(136)는 어텐션 맵(픽셀 별 주의 집중 가중치 값을 포함)을 기반으로 발화와 관련되지 않은 부분은 인물 배경 영상을 사용하여 최종 영상 파트를 복원하고, 발화와 관련된 부분은 발화 관련 영상을 사용하여 최종 영상 파트를 복원하도록 할 수 있다. The
예시적인 실시예에서, 복원 출력부(136)는 하기의 수학식 1을 통해 최종 영상 파트(P)를 복원할 수 있다. In an exemplary embodiment, the
(수학식 1)(Equation 1)
P = A·I + (1-A)·CP = A·I + (1-A)·C
여기서, A는 각 픽셀의 어텐션 가중치를 나타내고, I는 인물 배경 영상의 각 픽셀 값을 나타내며, C는 발화 관련 영상의 각 픽셀 값을 나타낸다.Here, A denotes an attention weight of each pixel, I denotes a pixel value of a background image of a person, and C denotes a pixel value of a speech-related image.
수학식 1에 의하면, A가 0에 가까울수록 최종 영상 파트는 발화 관련 영상에 의해 영향을 받고, A가 1에 가까울수록 최종 영상 파트는 인물 배경 영상에 의해 영향을 받게 된다. 따라서, 어텐션부(132)에서 각 픽셀 별로 주의 집중 가중치를 결정할 때 발화와 관련되지 않은 부분은 주의 집중 가중치가 1에 가깝도록 하고, 발화와 관련된 부분은 주의 집중 가중치가 0에 가깝도록 설정할 수 있다. According to Equation 1, as A approaches 0, the final image part is affected by the speech-related image, and as A approaches 1, the final image part is affected by the background image of a person. Therefore, when the
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.5 is a block diagram illustrating and describing a
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 동영상 생성 장치(100)일 수 있다.The illustrated
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.The
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.The computer-
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.The
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Although the exemplary embodiments of the present invention have been described in detail above, those of ordinary skill in the art to which the present invention pertains will understand that various modifications may be made to the above-described embodiments without departing from the scope of the present invention. . Therefore, the scope of the present invention is limited to the described embodiments and should not be determined, and should not be determined by the claims to be described later, but also by those equivalents to the claims.
100 : 발화 동영상 생성 장치
102 : 영상 파트 생성부
104 : 음성 파트 생성부
112 : 제1 인코더
114 : 조합부
116 : 제1 디코더
120 : 제3 인코더
122 : 어텐션부
124 : 제2 디코더
126 : 보코더
128 : 출력 선택부
130 : 레지듀얼 블록
132 : 어텐션부
134 : 발화 관련 추출부
136 : 복원 출력부100: speech video generation device
102: image part generation unit
104: voice part generation unit
112: first encoder
114: combination
116: first decoder
120: third encoder
122: Attention section
124: second decoder
126: Vocoder
128: output selector
130: residual block
132: Attention section
134: ignition-related extraction unit
136: restoration output unit
Claims (12)
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서,
소정 인물의 인물 배경 영상을 입력 받고, 상기 인물의 발화 동영상 중 영상 파트를 생성하는 영상 파트 생성부; 및
텍스트를 입력 받고, 상기 텍스트로부터 상기 인물의 발화 동영상 중 음성 파트를 생성하며, 상기 음성 파트를 생성하는 과정에서 발생하는 발화 관련 정보를 상기 영상 파트 생성부로 제공하는 음성 파트 생성부를 포함하는, 발화 동영상 생성 장치.
One or more processors, and
A computing device having a memory for storing one or more programs executed by the one or more processors,
An image part generator configured to receive a background image of a person of a predetermined person and generate an image part of the speech video of the person; And
A speech video including a speech part generator configured to receive text, generate a voice part from the speech video of the person from the text, and provide speech-related information generated in the process of generating the voice part to the video part generator Generating device.
상기 인물 배경 영상은, 상기 인물의 발화와 관련된 부분이 마스크로 가려지고,
상기 영상 파트 생성부는,
상기 영상 파트에서 상기 발화 관련 정보를 기반으로 상기 마스크로 가려진 발화와 관련된 부분을 복원하는, 발화 동영상 생성 장치.
The method according to claim 1,
In the background image of the person, a part related to the person's speech is covered with a mask,
The image part generation unit,
An apparatus for generating an utterance video, for restoring a part related to the utterance covered by the mask based on the utterance-related information in the image part.
상기 영상 파트 생성부는,
상기 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더;
상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 음성 파트 생성부로부터 입력되는 발화 관련 정보를 조합하여 조합 벡터를 생성하는 조합부; 및
상기 조합 벡터를 입력으로 하여 상기 발화 동영상의 영상 파트를 복원하는 제1 디코더를 포함하는, 발화 동영상 생성 장치.
The method according to claim 2,
The image part generation unit,
A first encoder for receiving the person background image and extracting an image feature vector from the person background image;
A combination unit for generating a combination vector by combining an image feature vector output from the first encoder and speech related information input from the audio part generation unit; And
And a first decoder to restore an image part of the speech video by receiving the combination vector as an input.
상기 제1 디코더는,
상기 발화 관련 정보를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습된 머신 러닝 모델인, 발화 동영상 생성 장치.
The method of claim 3,
The first decoder,
An apparatus for generating speech video, which is a machine learning model that is trained to restore a portion of the person background image covered by a mask based on the speech related information.
상기 영상 파트 생성부는,
상기 조합부와 상기 제1 디코더 사이에 마련되는 하나 이상의 레지듀얼 블록을 더 포함하고,
상기 레지듀얼 블록은, 상기 조합부에서 출력되는 조합 벡터를 입력 값으로 하고, 상기 입력 값과 상기 레지듀얼 블록에서 출력되는 출력 값 간의 차이가 최소화되도록 학습되는, 발화 동영상 생성 장치.
The method of claim 3,
The image part generation unit,
Further comprising one or more residual blocks provided between the combination unit and the first decoder,
The residual block is a speech video generating apparatus, wherein a combination vector output from the combination unit is used as an input value, and a difference between the input value and an output value output from the residual block is minimized.
상기 영상 파트 생성부는,
상기 제1 디코더로부터 출력되는 상기 영상 파트를 입력 받고, 상기 영상 파트의 각 픽셀 별로 주의 집중 가중치를 결정하여 어텐션 맵을 생성하는 어텐션부;
상기 제1 디코더로부터 출력되는 상기 영상 파트를 입력 받고, 상기 영상 파트에서 발화 관련 부분을 추출하여 발화 관련 영상을 출력하는 발화 관련 부분 추출부; 및
상기 제1 인코더로 입력되는 인물 배경 영상, 상기 어텐션 맵, 및 상기 발화 관련 영상을 입력 받아 상기 인물의 최종 영상 파트를 출력하는 복원 출력부를 더 포함하는, 발화 동영상 생성 장치.
The method of claim 3,
The image part generation unit,
An attention unit configured to receive the image part output from the first decoder and determine an attention weight for each pixel of the image part to generate an attention map;
A speech-related part extracting unit for receiving the video part output from the first decoder, extracting a speech-related part from the video part, and outputting a speech-related image; And
A speech video generation apparatus further comprising a restoration output unit configured to receive a person background image, the attention map, and the speech-related image input through the first encoder and output a final image part of the person.
상기 복원 출력부는,
상기 최종 영상 파트에서 발화와 관련되지 않은 부분은 상기 인물 배경 영상을 기반으로 복원하고, 상기 최종 영상 파트에서 발화와 관련된 부분은 상기 발화 관련 영상을 기반으로 복원하는, 발화 동영상 생성 장치.
The method of claim 6,
The restoration output unit,
An apparatus for generating speech video, wherein a portion of the final image part that is not related to utterance is restored based on the person background image, and a portion related to utterance in the final image part is restored based on the utterance related image.
상기 음성 파트 생성부는,
상기 텍스트를 입력 받고, 상기 텍스트로부터 문맥 벡터를 생성하는 제2 인코더; 및
상기 문맥 벡터를 입력 받고, 상기 문맥 벡터로부터 상기 인물의 목소리로 음성 스펙트로그램 신호를 출력하는 제2 디코더를 포함하는, 발화 동영상 생성 장치.
The method according to claim 1,
The voice part generation unit,
A second encoder that receives the text and generates a context vector from the text; And
And a second decoder configured to receive the context vector and output a voice spectrogram signal from the context vector to the voice of the person.
상기 음성 파트 생성부는,
상기 제2 인코더와 상기 제2 디코더 사이에 마련되고, 상기 문맥 벡터와 상기 음성 스펙트로그램 신호 간의 시간에 따른 대응 관계를 학습하도록 마련되는 어텐션부를 더 포함하는, 발화 동영상 생성 장치.
The method of claim 8,
The voice part generation unit,
Further comprising an attention unit provided between the second encoder and the second decoder and configured to learn a correspondence relationship between the context vector and the speech spectrogram signal over time.
상기 발화 동영상 생성 장치는,
입력되는 명령에 따라 상기 발화 관련 정보를 상기 영상 파트 생성부로 제공 또는 미제공 하도록 마련되는 출력 선택부를 더 포함하는, 발화 동영상 생성 장치.
The method according to claim 1,
The speech video generation device,
Further comprising an output selection unit provided to provide or not provide the speech-related information to the video part generation unit according to an input command.
상기 출력 선택부는,
입력되는 명령에 따라 상기 발화 관련 정보를 상기 영상 파트 생성부로 제공하면서 상기 음성 파트 생성부에서는 음성 신호가 출력되지 않도록 하는, 발화 동영상 생성 장치.
The method of claim 10,
The output selection unit,
An apparatus for generating a speech video, configured to provide the speech-related information to the video part generation unit according to an input command and prevent the audio signal from being output from the audio part generation unit.
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
상기 컴퓨팅 장치의 영상 파트 생성부에서, 소정 인물의 인물 배경 영상을 입력 받고, 상기 인물의 발화 동영상 중 영상 파트를 생성하는 단계; 및
상기 컴퓨팅 장치의 음성 파트 생성부에서, 텍스트를 입력 받고, 상기 텍스트로부터 상기 인물의 발화 동영상 중 음성 파트를 생성하며, 상기 음성 파트를 생성하는 과정에서 발생하는 발화 관련 정보를 상기 영상 파트 생성부로 제공하는 단계를 포함하는, 발화 동영상 생성 방법.
One or more processors, and
A method performed in a computing device having a memory storing one or more programs executed by the one or more processors,
Receiving, by an image part generating unit of the computing device, a background image of a person of a predetermined person, and generating an image part of the speech video of the person; And
The speech part generation unit of the computing device receives text, generates an audio part of the speech video of the person from the text, and provides speech-related information generated in the process of generating the speech part to the video part generation unit Including the step of generating a speech video.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/620,863 US11972516B2 (en) | 2019-06-21 | 2020-06-19 | Method and device for generating speech video by using text |
PCT/KR2020/007978 WO2020256475A1 (en) | 2019-06-21 | 2020-06-19 | Method and device for generating speech video by using text |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190074158 | 2019-06-21 | ||
KR20190074158 | 2019-06-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200145719A true KR20200145719A (en) | 2020-12-30 |
KR102360840B1 KR102360840B1 (en) | 2022-02-09 |
Family
ID=74088301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200073099A KR102360840B1 (en) | 2019-06-21 | 2020-06-16 | Method and apparatus for generating speech video of using a text |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102360840B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022004971A1 (en) * | 2020-07-02 | 2022-01-06 | 주식회사 딥브레인에이아이 | Learning device and method for generating image |
KR102649301B1 (en) * | 2023-06-26 | 2024-03-20 | 주식회사 비브스튜디오스 | Method for learning of model that improves talking image quality |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060020632A (en) * | 2003-06-19 | 2006-03-06 | 인터내셔널 비지네스 머신즈 코포레이션 | System and method for configuring voice readers using semantic analysis |
KR20060090687A (en) * | 2003-09-30 | 2006-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | System and method for audio-visual content synthesis |
KR101177408B1 (en) | 2010-09-16 | 2012-08-27 | 광운대학교 산학협력단 | A multi-view interactive holographic device and system for reconstructing holographic images adaptable at the view-point of a user |
KR20120130627A (en) * | 2011-05-23 | 2012-12-03 | 한국전자통신연구원 | Apparatus and method for generating animation using avatar |
KR20140037410A (en) * | 2012-09-18 | 2014-03-27 | 김상철 | Apparatus and method for changing lip shape based on word automatic translation |
-
2020
- 2020-06-16 KR KR1020200073099A patent/KR102360840B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060020632A (en) * | 2003-06-19 | 2006-03-06 | 인터내셔널 비지네스 머신즈 코포레이션 | System and method for configuring voice readers using semantic analysis |
KR20060090687A (en) * | 2003-09-30 | 2006-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | System and method for audio-visual content synthesis |
KR101177408B1 (en) | 2010-09-16 | 2012-08-27 | 광운대학교 산학협력단 | A multi-view interactive holographic device and system for reconstructing holographic images adaptable at the view-point of a user |
KR20120130627A (en) * | 2011-05-23 | 2012-12-03 | 한국전자통신연구원 | Apparatus and method for generating animation using avatar |
KR20140037410A (en) * | 2012-09-18 | 2014-03-27 | 김상철 | Apparatus and method for changing lip shape based on word automatic translation |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022004971A1 (en) * | 2020-07-02 | 2022-01-06 | 주식회사 딥브레인에이아이 | Learning device and method for generating image |
KR102649301B1 (en) * | 2023-06-26 | 2024-03-20 | 주식회사 비브스튜디오스 | Method for learning of model that improves talking image quality |
Also Published As
Publication number | Publication date |
---|---|
KR102360840B1 (en) | 2022-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102360839B1 (en) | Method and apparatus for generating speech video based on machine learning | |
CN111276120B (en) | Speech synthesis method, apparatus and computer-readable storage medium | |
KR102346755B1 (en) | Method and apparatus for generating speech video of using audio signal | |
US20220358703A1 (en) | Method and device for generating speech video on basis of machine learning | |
US6813607B1 (en) | Translingual visual speech synthesis | |
US5826234A (en) | Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements | |
US20220375190A1 (en) | Device and method for generating speech video | |
KR102098734B1 (en) | Method, apparatus and terminal for providing sign language video reflecting appearance of conversation partner | |
US20220399025A1 (en) | Method and device for generating speech video using audio signal | |
US11972516B2 (en) | Method and device for generating speech video by using text | |
KR102437039B1 (en) | Learning device and method for generating image | |
JP3670180B2 (en) | hearing aid | |
KR102346756B1 (en) | Method and apparatus for generating speech video | |
WO2022106654A2 (en) | Methods and systems for video translation | |
KR102540763B1 (en) | A learning method for generating a lip-sync video based on machine learning and a lip-sync video generating device for executing the method | |
KR20200145719A (en) | Method and apparatus for generating speech video of using a text | |
JP2017204067A (en) | Sign language conversation support system | |
CN113299312A (en) | Image generation method, device, equipment and storage medium | |
US20200193961A1 (en) | System for synchronizing speech and motion of character | |
CN117275485B (en) | Audio and video generation method, device, equipment and storage medium | |
CN114255737B (en) | Voice generation method and device and electronic equipment | |
CN111562815B (en) | Wireless head-mounted device and language translation system | |
KR102649818B1 (en) | Apparatus and method for generating 3D lip sync video | |
KR20220067864A (en) | Method for converting characteristics of voice | |
KR20220082279A (en) | Apparatus and method for generating lip sync video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |