KR20220034396A - Device, method and computer program for generating face video - Google Patents
Device, method and computer program for generating face video Download PDFInfo
- Publication number
- KR20220034396A KR20220034396A KR1020200116702A KR20200116702A KR20220034396A KR 20220034396 A KR20220034396 A KR 20220034396A KR 1020200116702 A KR1020200116702 A KR 1020200116702A KR 20200116702 A KR20200116702 A KR 20200116702A KR 20220034396 A KR20220034396 A KR 20220034396A
- Authority
- KR
- South Korea
- Prior art keywords
- face image
- voice
- face
- generating
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000004590 computer program Methods 0.000 title claims description 16
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 29
- 230000001815 facial effect Effects 0.000 claims description 16
- 238000010835 comparative analysis Methods 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 description 10
- 230000008921 facial expression Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010191 image analysis Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000010195 expression analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000037303 wrinkles Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
음성 데이터에 기초하여 얼굴 영상을 생성하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.It relates to an apparatus, method, and computer program for generating a face image based on voice data.
일반적으로 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은, 음성 데이터를 주파수 영상으로 변환하여 변환된 주파수 영상 정보만으로 얼굴 영상을 생성하도록 구성되며, 실제 발화자의 얼굴이 아닌 애니메이션으로 구성된 임의의 얼굴을 생성한다.In general, a method of generating a face image based on voice data is configured to generate a face image only with frequency image information converted by converting voice data into a frequency image, and an arbitrary face composed of animations rather than the face of the actual speaker create
따라서, 종래 기술로는 음성 데이터만으로 발화자의 정확한 실제 얼굴 영상을 생성하거나, 발화자에 대한 정보를 추론하는데 어려움이 존재한다. 이와 관련하여, 선행기술인 한국공개특허공보 제10-2019-0046371호는 얼굴 표정 생성 장치 및 방법을 개시하고 있다.Accordingly, in the prior art, there is a difficulty in generating an accurate actual face image of a speaker or inferring information about the speaker only with voice data. In this regard, Korean Patent Application Laid-Open No. 10-2019-0046371, which is a prior art, discloses an apparatus and method for generating facial expressions.
종래의 얼굴 표정 생성 장치는, 입력 받은 발화자의 음성에 포함된 모음을 추정하고, 추정된 모음으로 기 정의된 복수개의 표준 표정에 가중치를 반영하고 조합하여 가상의 캐릭터 얼굴 표정을 생성할 수 있다. The conventional facial expression generating apparatus may generate a virtual character facial expression by estimating a vowel included in the input speaker's voice, and reflecting and combining weights with a plurality of standard expressions predefined as the estimated vowel.
그러나, 종래의 얼굴 표정 생성 장치는, 전술한 바와 같이, 발화자의 음성에 포함된 모음 정보만으로 기정의된 표준 표정들을 조합함으로써 발화자의 실제 얼굴 영상이 아닌 가상의 캐릭터 얼굴 표정을 생성할 뿐이므로, 발화자의 실제 얼굴 영상 및 발화자에 대한 정보를 생성하는데 어려움이 존재한다.However, as described above, the conventional facial expression generating apparatus only generates a virtual character facial expression, not an actual facial image of the speaker, by combining predefined standard facial expressions only with vowel information included in the speaker's voice. There is a difficulty in generating the actual face image of the speaker and information about the speaker.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 데이터를 분석한 결과에 기초하여 발화자의 실제 얼굴 영상을 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.The present invention is to solve the problems of the prior art, and to provide a face image generating apparatus, method, and computer program capable of generating an actual face image of a speaker based on a result of analyzing voice data.
또한, 본 발명은 음성 데이터에 포함된 발화 내용도 함께 분석하여 발화자의 실제 얼굴 영상을 생성할 뿐만 아니라, 발화자에 대한 심리 상태까지 도출하여 발화자 정보를 생성하고 이를 바탕으로 비대면 발화자(용의자)를 추적(검거)할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.In addition, the present invention not only generates the actual face image of the speaker by analyzing the contents of speech included in the voice data, but also derives the psychological state of the speaker to generate speaker information, and based on this, the non-face-to-face speaker (suspect) is identified. An object of the present invention is to provide an apparatus, method, and computer program for generating a face image that can be tracked (arrested).
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. However, the technical problems to be achieved by the present embodiment are not limited to the technical problems described above, and other technical problems may exist.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 장치에 있어서, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 입력부; 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 음성 특징 정보 추출부; 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 얼굴 영상 추출부; 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 학습부; 및 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 생성부를 포함하는, 얼굴 영상 생성 장치를 제공 할 수 있다. As a means for achieving the above-described technical problem, an embodiment of the present invention provides an apparatus for generating a face image based on voice data, comprising: an input unit for receiving voice data and an original face image of a speaker; a voice characteristic information extraction unit that analyzes the voice data and extracts voice characteristic information; a face image extracting unit for extracting a face image through a face image storage unit based on the extracted voice feature information; a learning unit for learning a face generation model based on the voice data and the extracted face image; and a generator for generating a face image with respect to the de-identified voice data through the learned face generating model.
본 발명의 다른 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법에 있어서, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 단계; 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 단계; 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 단계; 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 단계; 및 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 단계를 포함하는, 얼굴 영상 생성 방법을 제공할 수 있다. Another embodiment of the present invention provides a method for generating a face image based on voice data, the method comprising: receiving voice data and an original face image of a speaker; extracting voice characteristic information by analyzing the voice data; extracting a face image through a face image storage unit based on the extracted voice feature information; training a face generation model based on the voice data and the extracted face image; and generating a face image for de-identified voice data through the learned face generating model.
본 발명의 또 다른 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받고, 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하고, 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하고, 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키고, 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하도록 하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 제공할 수 있다. Another embodiment of the present invention provides a computer program stored in a computer-readable recording medium including a sequence of instructions for generating a face image based on voice data, wherein the computer program is executed by a computing device to be Receive voice data and original face image for a person, extract voice feature information by analyzing the voice data, extract a face image through a face image storage unit based on the extracted voice feature information, and extract the voice data and the extract A computer program stored in a computer-readable recording medium comprising a sequence of instructions for training a face generation model based on the acquired face image and generating a face image for unidentified voice data through the learned face generation model. can provide
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described problem solving means are merely exemplary, and should not be construed as limiting the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and detailed description.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 수집된 음성 데이터를 분석하고 발화자에 대한 신체 정보 및 감정 정보를 생성하여, 발화자의 표정을 반영한 발화자의 실제 얼굴 영상을 정확도 높게 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.According to any one of the above-described problem solving means of the present invention, it is possible to analyze the collected voice data and generate body information and emotional information about the talker, so that the actual face image of the speaker reflecting the speaker's expression can be generated with high accuracy. An apparatus, method, and computer program for generating a face image may be provided.
또한, 얼굴 영상 모델을 통해 생성된 얼굴 영상을 발화자 원본 얼굴 영상과 비교 분석하고, 비교 분석한 결과를 발화자 음성 특징 정보와 다시 비교 분석하여 두 가지 분석 결과가 일치하는 경우 얼굴 생성 모델의 학습에 반영시킴으로써, 얼굴 생성 모델을 통해 보다 정확한 발화자의 얼굴 영상을 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.In addition, the face image generated through the face image model is compared and analyzed with the original face image of the speaker, and the result of comparative analysis is compared and analyzed again with the speaker's voice feature information. By doing so, it is possible to provide a face image generating apparatus, method, and computer program capable of generating a more accurate face image of the speaker through the face generating model.
또한, 수집된 음성 데이터에 포함된 발화 정보를 분석하여 발화자에 대한 심리 상태를 파악하고 발화자 정보를 생성함으로써, 이를 통해 비대면 발화자(용의자)를 추적(검거)할 수 있는 정보를 제공하는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.In addition, by analyzing the speech information included in the collected voice data, the psychological state of the speaker is identified and the speaker information is generated, thereby providing information to track (arrest) the non-face-to-face speaker (suspect). Face image Generating devices, methods, and computer programs may be provided.
도 1은 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 특징 정보 추출부를 설명하는 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 영상 추출부를 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습부를 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 생성부를 설명하기 위한 예시적인 도면이다.
도 6은 본 발명의 일 실시예에 따른 얼굴 영상 생성 방법의 순서도이다.1 is a block diagram of an apparatus for generating a face image according to an embodiment of the present invention.
2 is an exemplary view for explaining a voice feature information extracting unit according to an embodiment of the present invention.
3 is an exemplary view for explaining a face image extractor according to an embodiment of the present invention.
4 is an exemplary view for explaining a learning unit according to an embodiment of the present invention.
5 is an exemplary view for explaining a generator according to an embodiment of the present invention.
6 is a flowchart of a method for generating a face image according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated, and one or more other features However, it is to be understood that the existence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded in advance.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.In this specification, a "part" includes a unit realized by hardware, a unit realized by software, and a unit realized using both. In addition, one unit may be implemented using two or more hardware, and two or more units may be implemented by one hardware.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.Some of the operations or functions described as being performed by the terminal or device in this specification may be instead performed by a server connected to the terminal or device. Similarly, some of the operations or functions described as being performed by the server may also be performed in a terminal or device connected to the server.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다. Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치의 구성도이다. 도 1을 참조하면, 얼굴 영상 생성 장치(100)는 입력부(110), 음성 특징 정보 추출부(120), 얼굴 영상 추출부(130), 학습부(140) 및 생성부(150)를 포함할 수 있다. 얼굴 영상 생성 장치(100)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다. 1 is a block diagram of an apparatus for generating a face image according to an embodiment of the present invention. Referring to FIG. 1 , the face
도 1의 얼굴 영상 생성 장치(100)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다. Each component of the face
본 발명의 일 실시예에 따른 입력부(110)는 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력 받을 수 있다. 예를 들어, 입력부(110)는 입력 받은 발화자에 대한 음성 데이터를 음성 특징 정보 추출부(120)로 전달할 수 있다.The
도 2는 본 발명의 일 실시예에 따른 음성 특징 정보 추출부를 설명하는 예시적인 도면이다. 도 2를 참조하면, 음성 특징 정보 추출부(120)는 음성 데이터(20)를 분석하여 음성 특징 정보(230)를 추출할 수 있다.2 is an exemplary view for explaining a voice feature information extracting unit according to an embodiment of the present invention. Referring to FIG. 2 , the voice
음성 특징 정보 추출부(120)는 음성 데이터(20)를 주파수 영상(210)으로 변환하고, 변환된 주파수 영상(210)을 분석하여 음성 특징 정보(230)를 추출할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 음성 데이터(20)를 Mel(Mel-scaled power spectrogram), MFCC(Mel-frequency Cepstral Coefficient), Chroma(power spectrogram Chroma), Contrast(spectral Contrast), Tonnetz(Tonal centroid feature) 등으로 변환하여 음성 분석 모델(220)의 입력으로 사용할 수 있다. 여기서, Mel, MFCC, Chroma, Contrast, Tonnetz는 일종의 예시이며, 음성 분석 모델(220)에 따라 다른 형태의 특징을 사용할 수 있다.The voice
음성 특징 정보 추출부(120)는, 도 2를 참조하면, 음성 데이터(20)에서 추출한 음성의 주파수 대역, 음성의 세기 및 발화 시간 등의 정보를 다양한 종류의 음성 분석 모델(220)을 사용하여 발화자의 나이, 성별, 인종, 발화 내용 및 감정 등을 분석하여 음성 특징 정보(230)를 출력할 수 있다. 여기서, 도 2에 도시된 음성 분석 모델(220)은 일종의 예시이며, 경우에 따라 다른 정보를 분석하는 음성 분석 모델(220)을 추가 및 삭제할 수 있다. 본 발명의 일 실시예에 따른 음성 특징 정보 추출부(120)는 음성 데이터(20)에 포함된 발화 내용 및 음성의 세기, 높이, 주파수 영역 등을 함께 분석하고 추출된 음성 특징 정보(230)에 기초함으로써 발화자의 표정을 반영한 발화자의 얼굴 영상을 보다 정확하게 생성할 수 있다.Referring to FIG. 2 , the voice feature
본 발명의 일 실시예에 따른 음성 특징 정보(230)는, 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보(231)를 포함할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 변환된 주파수 영상(210)에 기초하여 나이 분석 모델, 성별 분석 모델 및 인종 분석 모델 등의 음성 분석 모델(220)을 사용하여 음성의 높이 및 세기 등을 분석함으로써, 발화자의 성별(예: 남성), 나이(예: 20대) 및 인종(예: 동양인)에 대한 정보를 추출할 수 있다. The
또한, 음성 특징 정보(230)는 발화자에 대한 감정 정보(232)를 포함할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 변환된 주파수 영상(210)에 기초하여 감정 분석 모델 및 발화 내용 분석 모델 등의 음성 분석 모델(220)을 사용하여 음성의 높이 및 세기와 음성 데이터(20)에 포함되어 있는 발화 내용을 분석하여 발화자의 감정(예: 행복)을 분석할 수 있다. 구체적으로, 음성 특징 정보 추출부(120)는, 일 예로, 음성 데이터(20)에 "오늘 정말 행복했어"라는 발화 내용이 포함되어 있는 경우, 발화 내용뿐만 아니라, 음성의 높이, 세기 및 발화 시간 등을 분석하여 발화 내용에 반의적인 표현이 포함되어 있는지를 판단할 수 있고, 이를 바탕으로 발화 당시 발화자의 감정까지 분석할 수 있다. Also, the
도 3은 본 발명의 일 실시예에 따른 얼굴 영상 추출부를 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 얼굴 영상 추출부(130)는 추출된 음성 특징 정보(310)에 기초하여 얼굴 영상 저장부(320)를 통해 얼굴 영상(330)을 추출할 수 있다. 3 is an exemplary view for explaining a face image extractor according to an embodiment of the present invention. Referring to FIG. 3 , the
얼굴 영상 추출부(130)는 얼굴 영상 저장부(320)에서 음성 특징 정보(310)와 매칭되는 적어도 하나 이상의 얼굴 특징 정보(321)를 합성하여 얼굴 영상(330)을 생성할 수 있다. The
본 발명의 일 실시예에 따른 얼굴 영상 저장부(320)는, 인종에 맞는 피부색, 얼굴형 및 눈동자 색과 나이에 맞는 주름과 성별에 맞는 얼굴형 및 헤어스타일과 감정 및 발화 내용에 맞는 입 모양 및 표정 등에 해당하는 얼굴 영상 정보를 포함할 수 있다.The face
예를 들어, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311) 및 감정 정보(312)를 사용하여 얼굴 영상 저장부(320)에서 매칭되는 복수의 얼굴 특징 정보(321)를 나열하고 파악하여 검색한 뒤 합성하여 얼굴 영상(330)을 생성할 수 있다. 구체적으로, 얼굴 영상 추출부(130)는, 도 3을 참조하면, 일 예로, 신체 정보(311)에서 나이 정보(예: 20대)에 기초하여 얼굴 영상 저장부(320)의 20대 얼굴 정보에서 얼굴의 피부 및 주름 등의 얼굴 특징 정보(321)를 검색할 수 있고, 신체 정보(311)에서 성별 정보(예: 남성)에 기초하여 얼굴 영상 저장부(320)의 남성 얼굴 정보에서 남성의 코, 입, 얼굴 크기 및 눈매 등의 얼굴 특징 정보(321)를 선택할 수 있다. For example, the face
다른 일예로, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311)가 70대 동양인 여성인 경우, 얼굴 영상 저장부(320)에서 70대 동양인 여성의 주름 정보, 피부색, 눈동자 색, 머리카락 색 및 얼굴형 등에 매칭되는 얼굴 특징 정보(321)를 선택할 수 있다.As another example, the face
또한, 얼굴 영상 추출부(130)는, 도 3을 참조하면, 일 예로, 추출된 발화자의 감정 정보(312)가 슬픈 감정인 경우, 얼굴 영상 저장부(320)에서 슬픈 감정일 때 나올 수 있는 표정에 대한 눈, 코, 입 및 얼굴 자세 좌표 정보에 대한 얼굴 특징 정보(321)를 사용할 수 있다. In addition, referring to FIG. 3 , the
이와 같이, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311) 및 감정 정보(312)와 매칭되는 얼굴 특징 정보(321)를 얼굴 영상 저장부(320)에서 검색 및 합성하여 얼굴 영상(330)을 생성할 수 있다.In this way, the face
본 발명의 일 실시예에 따라, 얼굴 영상 추출부(130)는 음성 데이터로부터 추출된 음성 특징 정보(310)의 수에 비례하게 얼굴 영상 저장부(320)에서 얼굴 특징 정보(321)를 검색할 수 있다. 따라서, 음성 데이터로부터 추출된 음성 특징 정보(310)의 수가 많을수록 얼굴 영상 저장부(320)에서 해당 음성 데이터에 대한 얼굴 특징 정보(321)를 많이 검색할 수 있으므로, 검색된 얼굴 특징 정보(321)에 기초하여 발화자의 얼굴 영상을 보다 정확하게 합성할 수 있다.According to an embodiment of the present invention, the
도 4는 본 발명의 일 실시예에 따른 학습부를 설명하기 위한 예시적인 도면이다. 도 4를 참조하면, 학습부(140)는 음성 데이터 및 추출된 얼굴 영상(412)에 기초하여 얼굴 생성 모델(420)을 학습시킬 수 있다. 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)이 제대로 생성되었는지 여부를 검토하고, 검토 결과를 얼굴 생성 모델(420)의 학습에 반영하여, 얼굴 생성 모델(420)을 통해 보다 정확한 발화자의 얼굴을 생성할 수 있도록 학습할 수 있다.4 is an exemplary view for explaining a learning unit according to an embodiment of the present invention. Referring to FIG. 4 , the
예를 들어, 학습부(140)는 발화자의 음성 데이터를 변환한 주파수 영상(411)과 발화자의 음성 데이터에 기초하여 얼굴 영상 추출부(130)에 의해 추출된 얼굴 영상(412)을 결합하여 얼굴 생성 모델(420)에 입력할 입력 영상(410)을 생성할 수 있다. 학습부(140)는 입력 영상(410)을 얼굴 생성 모델(420)에 입력하여 얼굴 영상(430)을 생성하도록 학습시킬 수 있다. 이 때, 학습부(140)는 생성적 적대 신경망(GAN: Generative Adversarial Network) 모델을 사용할 수 있으며, 생성적 적대 신경망은 여러 종류의 모델들로 변경하여 사용될 수 있다. 생성적 적대 신경망은 생성 모델과 판별 모델이 경쟁하면서 실제와 가까운 이미지, 동영상 및 음성 등을 자동으로 만들어내는 기계학습 방식 중 하나로, 얼굴 영상을 생성하는데 대표적으로 활용되고 있는 딥러닝 이미지 생성 모델이다.For example, the
학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의원본 얼굴 영상(440) 간의 비교 분석 결과를 반영할 수 있다. 예를 들어, 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의 원본 얼굴 영상(440)에 대하여 영상 분석(450)을 진행할 수 있다. The
구체적으로, 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의 원본 얼굴 영상(440)에서 추출된 딥러닝 특징 값을 매칭하여 특징 값의 차이를 손실 함수를 통해 학습에 반영할 수 있다. 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)을 나이 분석 모델, 성별 분석 모델 등의 다양한 종류의 영상 딥러닝 모델을 사용하여 얼굴 영상(430)을 분석할 수 있다. 영상 분석(450)에 사용되는 모델은, 도 4를 참조하면, 나이 분석 모델, 성별 분석 모델, 인종 분석 모델 및 표정 분석 모델 등을 예시로 도시하였으나, 음성 특징 정보(460)에 따라 다양하게 추가 및 삭제될 수 있다.Specifically, the
학습부(140)는 학습된 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)에 대하여 분석한 영상 분석(450)에 대한 결과를 얼굴 생성 모델(420)의 학습에 반영할 수 있다. The
학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 발화자의 음성 특징 정보(460) 간의 비교 분석 결과를 더 반영할 수 있다. 예를 들어, 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)을 비교 분석한 영상 분석(450)에 대한 결과를 발화자의 음성 특징 정보(460)와 비교 분석할 수 있다. 구체적으로, 학습부(140)는 영상 분석(450) 결과와 발화자의 음성 특징 정보(460)를 비교 분석하여, 분석 결과가 일치하지 않는 경우엔 얼굴 생성 모델(420)의 학습에 반영하지 않을 수 있다.The
이는 두 가지 분석 결과가 일치해야 정확도가 높은 분석이 될 수 있기 때문에 오류가 있는 분석 결과와의 비교를 학습하는 것은 얼굴 생성 모델(420)의 학습에 오류를 발생시킬 수 있다. This is because an analysis with high accuracy can be obtained only when two analysis results match. Therefore, learning to compare with an erroneous analysis result may cause an error in learning of the
이를 통해, 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)을 비교 분석한 영상 분석(450)에 대한 결과와 발화자의 음성 특징 정보(460)를 얼굴 생성 모델(420)의 학습에 모두 반영시킴으로써, 보다 정확한 발화자의 얼굴 영상(430)을 생성하도록 얼굴 생성 모델(420)을 학습시킬 수 있다. Through this, the
도 5는 본 발명의 일 실시예에 따른 생성부를 설명하기 위한 예시적인 도면이다. 도 5를 참조하면, 생성부(150)는 미리 학습된 얼굴 생성 모델(510)을 통해 비식별된 음성 데이터에 대한 얼굴 영상(520)을 생성할 수 있다.5 is an exemplary view for explaining a generator according to an embodiment of the present invention. Referring to FIG. 5 , the
예를 들어, 생성부(150)는 비식별된 음성 데이터를 분석하여 얼굴 영상(520)을 생성할 수 있고, 생성된 얼굴 영상(520)을 비식별된 음성 데이터로부터 추출한 음성 특징 정보(540)와 비교 분석하여 매칭되는 얼굴 정보(530)를 토대로 보다 정확한 발화자의 얼굴 영상(520)을 생성할 수 있다.For example, the
생성부(150)는 비식별된 음성 데이터에 대한 음성 특징 정보(540) 및 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 분석한 얼굴 정보(530)에 대한 비교 분석 결과를 사용하여 얼굴 영상(520)에 대한 발화자 정보(550)를 생성할 수 있다. The
예를 들어, 생성부(150)는 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 나이 분석 모델, 성별 분석 모델, 인종 분석 모델 및 표정 분석 모델 등을 사용하여 분석한 얼굴 정보(530)와 음성 특징 정보(540)를 비교 분석하여 매칭되는 정보를 토대로 발화자의 표정 및 감정 상태 등을 포함하는 발화자 정보(550)를 생성할 수 있다.For example, the
구체적으로, 일 실시예에 따라 생성되는 발화자 정보(550)는, 도 5를 참조하면, 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 나이 분석 모델을 사용하여 분석한 결과(예: 20대)와 음성 특징 정보(540)에 포함되어 있는 나이 정보(예: 20대)를 비교 분석하여 "20대"라는 나이 정보가 일치하는 경우, 해당 얼굴 영상(520)에 대하여 "20대"라는 발화자 정보(550)를 포함할 수 있다. Specifically, as for the
다른 예를 들어, 생성부(150)는 얼굴 생성 모델(510)을 통해 얼굴 영상(520)을 생성하고, 생성된 얼굴 영상(520)과 음성 특징 정보(540)를 비교 분석하여 발화자의 얼굴, 표정, 나이, 성별, 인종뿐만 아니라, 특히, 발화 내용의 진위 및 그 당시 심리 상태까지 추론한 발화자 정보(550)를 생성할 수 있으므로, 보이스 피싱범 또는 유괴 협박범 등의 범죄자 얼굴을 추정하고 검거하는데 도움이 되는 정보를 제공할 수 있다.As another example, the generating
구체적으로, 다른 실시예에 따라 생성되는 발화자 정보(550)는, 도 5를 참조하면, 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 표정 분석 모델을 사용하여 분석한 결과(예: 슬픔)와 음성 특징 정보(540)에 포함되어 있는 발화 내용 정보(예: "나는 행복하다")를 비교 분석하여 해당 얼굴 영상(520)에 대하여 발화 내용에 대한 진위 여부가 "거짓말"이라는 발화자 정보(550)를 포함할 수 있다. Specifically, as for the
이와 같이, 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치(100)는, 비식별된 음성 데이터에 대한 발화자의 실제 얼굴 영상뿐만 아니라 발화자에 대한 정보를 생성함으로써 발화자(용의자)를 추적(검거)하는데 도움을 줄 수 있는 정보를 제공할 수 있다.As described above, the face
예를 들어, 얼굴 영상 생성 장치(100)는 비식별된 음성 데이터만으로 발화자의 나이, 성별, 인종 및 발화 내용과 감정 등을 분석할 수 있고, 분석 결과를 토대로 해당 음성 데이터에 매칭되는 발화자의 얼굴 영상을 생성할 수 있고, 생성된 얼굴 영상에 대한 발화자의 발화 내용의 진위 및 발화 당시 심리 상태까지 분석하여 발화자를 추적하는데 도움을 줄 수 있는 발화자 정보를 제공할 수 있다.For example, the face
다른 예를 들어, 얼굴 영상 생성 장치(100)는 보이스 피싱 범죄 및 유괴 협박 범죄에 대한 용의자를 검거하기 위해, 전화 또는 녹음된 음성을 통해 입력된 음성 데이터만으로 해당 음성 데이터를 분석할 수 있고, 해당 음성 데이터 분석 결과를 토대로 용의자의 얼굴 영상을 생성할 수 있고, 생성된 용의자 얼굴 영상에 대한 용의자의 발화 내용의 진위 및 발화 당시 심리 상태까지 분석하여 용의자를 검거하는데 도움을 줄 수 있는 용의자 정보를 제공할 수 있다. For another example, the face
도 6은 본 발명의 일 실시예에 따른 얼굴 영상 생성 방법의 순서도이다. 도 6에 도시된 얼굴 영상 생성 방법은 도1 내지 도 5에 도시된 실시예에 따라 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도1 내지 도 5에 도시된 실시예에 따른 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법에도 적용된다. 6 is a flowchart of a method for generating a face image according to an embodiment of the present invention. The method for generating a face image shown in FIG. 6 includes steps of time-series processing according to the embodiment shown in FIGS. 1 to 5 . Therefore, even if omitted below, the method for generating a face image based on voice data in the face
단계 S610에서 얼굴 영상 생성 장치는 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력 받을 수 있다.In operation S610, the apparatus for generating a face image may receive voice data and an original face image of the speaker.
단계 S620에서 얼굴 영상 생성 장치는 음성 데이터를 분석하여 음성 특징 정보를 추출할 수 있다.In step S620, the face image generating apparatus may extract voice feature information by analyzing the voice data.
단계 S630에서 얼굴 영상 생성 장치는 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출할 수 있다.In operation S630, the face image generating apparatus may extract a face image through the face image storage unit based on the extracted voice feature information.
단계 S640에서 얼굴 영상 생성 장치는 음성 데이터 및 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시킬 수 있다.In operation S640, the face image generating apparatus may train a face generating model based on the voice data and the extracted face image.
단계 S650에서 얼굴 영상 생성 장치는 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성할 수 있다.In operation S650 , the face image generating apparatus may generate a face image for unidentified voice data through the learned face generating model.
상술한 설명에서, 단계 S610 내지 S650은 본 발명의 구현 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다. In the above description, steps S610 to S650 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. In addition, some steps may be omitted as needed, and the order between the steps may be switched.
도 1 내지 도 6을 통해 설명된 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은 컴퓨터에 의해 실행되는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어들을 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 5를 통해 설명된 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은 컴퓨터에 의해 실행되는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다. The method for generating a face image based on voice data in the face
컴퓨터 판독 가능 기록매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 기록매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.A computer-readable recording medium may be any available medium that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable recording medium may include a computer storage medium. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The above description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be interpreted as being included in the scope of the present invention. do.
100: 얼굴 영상 생성 장치
110: 입력부
120: 음성 특징 정보 추출부
130: 얼굴 영상 추출부
140: 학습부
150: 생성부100: face image generating device
110: input unit
120: voice feature information extraction unit
130: face image extraction unit
140: study unit
150: generator
Claims (17)
발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 입력부;
상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 음성 특징 정보 추출부;
상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 얼굴 영상 추출부;
상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 학습부; 및
상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 생성부
를 포함하는, 얼굴 영상 생성 장치.
An apparatus for generating a face image based on audio data, the apparatus comprising:
an input unit for receiving voice data and an original face image of the speaker;
a voice characteristic information extraction unit that analyzes the voice data and extracts voice characteristic information;
a face image extractor configured to extract a face image through a face image storage unit based on the extracted voice feature information;
a learning unit for learning a face generation model based on the voice data and the extracted face image; and
A generation unit that generates a face image for unidentified voice data through the learned face generation model
Containing, a face image generating device.
상기 음성 특징 정보는 상기 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보를 포함하는, 얼굴 영상 생성 장치.
The method of claim 1,
The voice feature information includes body information of the speaker including information on at least one of gender, age, and race of the speaker.
상기 음성 특징 정보는 상기 발화자에 대한 감정 정보를 포함하는, 얼굴 영상 생성 장치.
The method of claim 1,
The voice characteristic information includes emotional information about the speaker.
상기 얼굴 영상 추출부는,
상기 얼굴 영상 저장부에서 상기 추출된 음성 특징 정보와 매칭되는 적어도 하나 이상의 얼굴 특징 정보를 합성하여 상기 얼굴 영상을 생성하는 것인, 얼굴 영상 생성 장치.
The method of claim 1,
The face image extraction unit,
and generating the face image by synthesizing at least one piece of facial feature information matching the extracted voice feature information from the face image storage unit.
상기 학습부는,
상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 원본 얼굴 영상 간의 비교 분석 결과를 반영하는 것인, 얼굴 영상 생성 장치.
The method of claim 1,
The learning unit,
The face image generating apparatus of claim 1, wherein a result of comparative analysis between the generated face image and the original face image is reflected in the face generating model.
상기 학습부는,
상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 음성 특징 정보 간의 비교 분석 결과를 더 반영하는 것인, 얼굴 영상 생성 장치.
6. The method of claim 5,
The learning unit,
The face image generating apparatus of claim 1, wherein the result of comparison analysis between the generated face image and the voice feature information is further reflected in the face generating model.
상기 생성부는,
상기 비식별된 음성 데이터에 대한 음성 특징 정보 및 상기 생성된 얼굴 정보에 대한 비교 분석 결과에 기초하여 상기 얼굴 영상에 대한 발화자 정보를 생성하는 것인, 얼굴 영상 생성 장치.
The method of claim 1,
The generating unit,
and generating speaker information for the face image based on a result of comparative analysis of voice feature information on the de-identified voice data and the generated face information.
상기 음성 특징 정보 추출부는 상기 음성 데이터를 주파수 영상으로 변환하고,
상기 음성 특징 정보 추출부는 상기 변환된 주파수 영상을 분석하여 상기 음성 특징 정보를 추출하는 것인, 얼굴 영상 생성 장치.
The method of claim 1,
The voice characteristic information extracting unit converts the voice data into a frequency image,
The apparatus for generating a face image, wherein the voice characteristic information extractor analyzes the converted frequency image and extracts the voice characteristic information.
발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 단계;
상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 단계;
상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 단계;
상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 단계; 및
상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 단계
를 포함하는, 얼굴 영상 생성 방법.
A method for generating a face image based on audio data by a face image generating apparatus, the method comprising:
receiving voice data and an original face image of the speaker;
extracting voice characteristic information by analyzing the voice data;
extracting a face image through a face image storage unit based on the extracted voice feature information;
training a face generation model based on the voice data and the extracted face image; and
generating a face image for unidentified voice data through the learned face generation model;
Including, a face image generation method.
상기 음성 특징 정보는 상기 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보를 포함하는, 얼굴 영상 생성 방법.
10. The method of claim 9,
The voice feature information includes body information of the speaker including information on at least one of gender, age, and race of the speaker.
상기 음성 특징 정보는 상기 발화자에 대한 감정 정보를 포함하는, 얼굴 영상 생성 방법.
10. The method of claim 9,
The voice feature information includes emotional information about the speaker.
상기 얼굴 영상을 추출하는 단계는,
상기 얼굴 영상 저장부에서 상기 추출된 음성 특징 정보와 매칭되는 적어도 하나 이상의 얼굴 특징 정보를 합성하여 상기 얼굴 영상을 생성하는 것인, 얼굴 영상 생성 방법.
10. The method of claim 9,
The step of extracting the face image,
and generating the face image by synthesizing at least one piece of facial feature information matching the extracted voice feature information from the face image storage unit.
상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 원본 얼굴 영상 간의 비교 분석 결과를 반영하는 단계
를 더 포함하는 것인, 얼굴 영상 생성 방법.
10. The method of claim 9,
reflecting a result of comparative analysis between the generated face image and the original face image in the face generation model
The method of generating a face image further comprising a.
상기 얼굴 생성 모델에 상기 얼굴 영상과 상기 음성 특징 정보 간의 비교 분석 결과를 반영하는 단계
를 더 포함하는 것인, 얼굴 영상 생성 방법.
14. The method of claim 13,
Reflecting a comparative analysis result between the face image and the voice feature information in the face generation model
The method of generating a face image further comprising a.
상기 비식별된 음성 데이터에 대한 음성 특징 정보 및 상기 생성된 얼굴 정보에 대한 비교 분석 결과에 기초하여 상기 얼굴 영상에 대한 발화자 정보를 생성하는 단계
를 더 포함하는 것인, 얼굴 영상 생성 방법.
10. The method of claim 9,
generating speaker information for the face image based on a result of comparative analysis of voice feature information on the de-identified voice data and the generated face information
The method of generating a face image further comprising a.
상기 음성 데이터를 주파수 영상으로 변환하는 단계; 및
상기 변환된 주파수 영상을 분석하여 상기 음성 특징 정보를 추출하는 단계
를 더 포함하는 것인, 얼굴 영상 생성 방법.
10. The method of claim 9,
converting the audio data into a frequency image; and
extracting the voice feature information by analyzing the converted frequency image
The method of generating a face image further comprising a.
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받고,
상기 음성 데이터를 분석하여 음성 특징 정보를 추출하고,
상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하고,
상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키고,
상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하도록 하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer-readable recording medium comprising a sequence of instructions for generating a face image based on voice data, the computer program comprising:
When the computer program is executed by a computing device,
Receive voice data and original face image of the speaker,
extracting voice characteristic information by analyzing the voice data;
extracting a face image through a face image storage unit based on the extracted voice feature information,
learning a face generation model based on the voice data and the extracted face image,
A computer program stored in a computer-readable recording medium comprising a sequence of instructions for generating a face image for de-identified voice data through the learned face generation model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200116702A KR20220034396A (en) | 2020-09-11 | 2020-09-11 | Device, method and computer program for generating face video |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200116702A KR20220034396A (en) | 2020-09-11 | 2020-09-11 | Device, method and computer program for generating face video |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220034396A true KR20220034396A (en) | 2022-03-18 |
Family
ID=80936503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200116702A KR20220034396A (en) | 2020-09-11 | 2020-09-11 | Device, method and computer program for generating face video |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220034396A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024101769A1 (en) * | 2022-11-11 | 2024-05-16 | 한국전자기술연구원 | Method and system for generating 3-dimensional model facial motion to which user's facial expression and emotional state are applied |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190046371A (en) | 2017-10-26 | 2019-05-07 | 에스케이텔레콤 주식회사 | Apparatus and method for creating facial expression |
KR102096598B1 (en) | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | Method to create animation |
-
2020
- 2020-09-11 KR KR1020200116702A patent/KR20220034396A/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190046371A (en) | 2017-10-26 | 2019-05-07 | 에스케이텔레콤 주식회사 | Apparatus and method for creating facial expression |
KR102096598B1 (en) | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | Method to create animation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024101769A1 (en) * | 2022-11-11 | 2024-05-16 | 한국전자기술연구원 | Method and system for generating 3-dimensional model facial motion to which user's facial expression and emotional state are applied |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621968B2 (en) | Method and apparatus to synthesize voice based on facial structures | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
US10438586B2 (en) | Voice dialog device and voice dialog method | |
CN106503646B (en) | Multi-mode emotion recognition system and method | |
WO2017195775A1 (en) | Sign language conversation assistance system | |
JP2010256391A (en) | Voice information processing device | |
US20220327309A1 (en) | METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA | |
CN108491808B (en) | Method and device for acquiring information | |
KR102174922B1 (en) | Interactive sign language-voice translation apparatus and voice-sign language translation apparatus reflecting user emotion and intention | |
CN111986675A (en) | Voice conversation method, device and computer readable storage medium | |
KR20200092166A (en) | Server, method and computer program for recognizing emotion | |
KR20210078863A (en) | Server, method and computer program for providing avatar service | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
KR20220034396A (en) | Device, method and computer program for generating face video | |
US20230290371A1 (en) | System and method for automatically generating a sign language video with an input speech using a machine learning model | |
KR20230104582A (en) | Method for detecting face using voice | |
CN111415662A (en) | Method, apparatus, device and medium for generating video | |
JPH02183371A (en) | Automatic interpreting device | |
Khan et al. | Sign language translation in urdu/hindi through microsoft kinect | |
JP6754154B1 (en) | Translation programs, translation equipment, translation methods, and wearable devices | |
KR102564570B1 (en) | System and method for analyzing multimodal emotion | |
Salman et al. | Style extractor for facial expression recognition in the presence of speech | |
CN109711300A (en) | Blind person's augmentative communication method, apparatus, computer equipment and storage medium | |
Chempavathy et al. | Deep learning implemented communication system for the auditory and verbally challenged | |
Larisa et al. | Speech emotion recognition using 1D/2D convolutional neural networks |