KR20190046371A - 얼굴 표정 생성 장치 및 방법 - Google Patents
얼굴 표정 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR20190046371A KR20190046371A KR1020170140089A KR20170140089A KR20190046371A KR 20190046371 A KR20190046371 A KR 20190046371A KR 1020170140089 A KR1020170140089 A KR 1020170140089A KR 20170140089 A KR20170140089 A KR 20170140089A KR 20190046371 A KR20190046371 A KR 20190046371A
- Authority
- KR
- South Korea
- Prior art keywords
- facial expression
- vowel
- voice
- speaker
- expressions
- Prior art date
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000014509 gene expression Effects 0.000 claims abstract description 38
- 230000008451 emotion Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G06K9/00248—
-
- G06K9/00255—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/503—Blending, e.g. for anti-aliasing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Graphics (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Geometry (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
일 실시예에 따른 얼굴 표정 생성 장치는 발화자의 음성을 입력받는 입력부와, 상기 음성에 포함된 모음을 추정하는 추정부와, 상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 조절 가중치 획득부와, 상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써, 상기 가상의 캐릭터의 얼굴 표정을 생성하는 영상 생성부를 포함한다.
Description
본 발명은 얼굴 표정 생성 장치 및 방법에 관한 것이다. 보다 자세하게는 발화자의 음성에 맞춰서 가상 캐릭터의 얼굴 표정을 생성하는 장치 및 방법에 관한 것이다.
인간의 커뮤니케이션(communication) 방법에는 여러 가지가 있다. 그 중의하나는 얼굴 표정이다. 커뮤니케이션의 상대방은 발화자의 얼굴 표정으로부터 발화자의 감정이나 의도 등을 파악할 수 있다.
얼굴 표정을 이용한 커뮤니케이션 방법은 영화나 애니메이션에 등장하는 가상의 캐릭터에 대해서도 동일하게 적용될 수 있다. 즉 관람객은 캐릭터의 얼굴 표정으로부터 캐릭터의 감정이나 의도 또는 주변 상황과 같은 정보를 파악할 수 있다.
한편, 가상의 캐릭터를 생성하는 기법 중에 리타게팅(retargeting) 기법이 있다. 리타게팅 기법이란 사람과 같은 대상체로부터 얼굴 표정을 획득한 뒤, 이러한 얼굴 표정을 가상의 캐릭터에 이식하여서 애니메이션을 생성하는 기술을 지칭한다. 리타게팅 기법에서는 대상체의 얼굴 표정을 얼마만큼 정확하고 신속하게 재생하여서 제공할 수 있는지 여부가 주요한 화두이다.
본 발명이 해결하고자 하는 과제는, 리타게팅 기법에서 대상체의 얼굴 표정을 정확하면서도 신속하게 재생하여서 제공하는 기술을 제공하는 것이다.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 얼굴 표정 생성 장치는 발화자의 음성을 입력받는 입력부와, 상기 음성에 포함된 모음을 추정하는 추정부와, 상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 조절 가중치 획득부와, 상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써, 상기 가상의 캐릭터의 얼굴 표정을 생성하는 영상 생성부를 포함한다.
일 실시예에 따른 가상의 캐릭터의 얼굴 표정을 생성하는 방법은 얼굴 표정 생성 장치에 의해 수행되며, 발화자의 음성을 입력받는 단계와, 상기 음성에 포함된 모음을 추정하는 단계와, 상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 단계와, 상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써, 상기 가상의 캐릭터의 얼굴 표정을 생성하는 단계를 포함한다.
일 실시예에 따르면 가상의 캐릭터의 입모양과 같은 얼굴 표정은 발화자의 음성만이 주어진 상황에서도 발화자의 음성에 맞춰서 표현될 수 있다.
아울러, 실시예에 따라서는 발화자의 음성으로부터 '모음'만이 추정될 수 있다. 이 경우 발화자의 음성 전체를 추정하는 경우보다 연산량이 줄어들 수 있으며, 따라서 효율적이면서도 신속한 가상 캐릭터의 구현이 가능하다.
아울러, 실시예에 따라서는 발화자의 감정까지도 가상의 캐릭터에 반영할 수 있다. 따라서, 동일한 발음이라도 발화자의 감정에 따라서 입모양과 같은 얼굴 표정이 달라지는 것의 반영이 가능하게 된다.
도 1은 일 실시예에 따른 얼굴 표정 생성 장치에 의해 얼굴 표정 생성 방법이 수행되는 예를 개념적으로 도시한 도면이다.
도 2는 도 1에 도시된 얼굴 표정 생성 장치의 구성 및 이러한 얼굴 표정 생성 장치에서 수행되는 얼굴 표정 생성 과정의 절차를 도시한 도면이다.
도 3은 도 2에 도시된 추정부가 기계 학습되는 과정에서 이용하는 데이터 세트를 예시적으로 도시한 도면이다.
도 4는 도 2에 도시된 추정부가 기계 학습되는 과정에서 이용하는 데이터 세트에 대한 또 다른 예를 도시한 도면이다.
도 5는 도 2에 도시된 조절 가중치 획득부가 기계 학습되는 과정에서 이용하는 데이터 세트를 예시적으로 도시한 도면이다.
도 6은 도 2에 도시된 조절 가중치 획득부가 기계 학습되는 과정에서 이용하는 데이터 세트에 대한 또 다른 예를 도시한 도면이다.
도 2는 도 1에 도시된 얼굴 표정 생성 장치의 구성 및 이러한 얼굴 표정 생성 장치에서 수행되는 얼굴 표정 생성 과정의 절차를 도시한 도면이다.
도 3은 도 2에 도시된 추정부가 기계 학습되는 과정에서 이용하는 데이터 세트를 예시적으로 도시한 도면이다.
도 4는 도 2에 도시된 추정부가 기계 학습되는 과정에서 이용하는 데이터 세트에 대한 또 다른 예를 도시한 도면이다.
도 5는 도 2에 도시된 조절 가중치 획득부가 기계 학습되는 과정에서 이용하는 데이터 세트를 예시적으로 도시한 도면이다.
도 6은 도 2에 도시된 조절 가중치 획득부가 기계 학습되는 과정에서 이용하는 데이터 세트에 대한 또 다른 예를 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 일 실시예에 따른 얼굴 표정 생성 장치(100)에 의해 얼굴 표정 생성 방법이 수행되는 예를 개념적으로 도시한 도면이다. 다만, 도 1은 예시적인 것에 불과하므로, 본 발명의 사상이 도 1에 도시된 것으로 한정 해석되지는 않는다.
도 1을 참조하면, 얼굴 표정 생성 장치(100)는 발화자(10)의 음성을 입력받은 뒤, 이러한 음성이 어떤 모음(20)을 포함하고 있는지를 추정한다. 도 1에서 식별번호 20은 해당 음성이 포함할 수 있는 모음을 예를 들어서 표기하고 있다. 해당 음성이 포함하고 있는 모음이 추정되면, 얼굴 표정 생성 장치(100)는 그로부터 가상의 캐릭터(30)가 해당 모음을 발음할 때의 얼굴 표정을 생성한 뒤 이러한 얼굴 표정을 제공할 수 있다.
여기서, 가상의 캐릭터(30)란 리타게팅(retargeting) 기법에 의해 생성된 캐릭터를 의미한다. 리타게팅 기법이란, 발화자(10)의 얼굴 표정을 획득한 뒤, 이러한 얼굴 표정을 가상의 캐릭터(30)에 이식하여서 애니메이션을 생성하는 기술을 지칭한다.
이러한 리타게팅 기법은 다양한 방식으로 구현 가능하다. 일 실시예에서 리타게팅 기법은 블렌드 쉐이프(blend shape) 기법에 의해 구현 가능하며 다만 이에 한정되는 것은 아니다. 여기서, 블렌드 쉐이프 기법이란, 인간의 표준 표정(즉, 대표적인 표정)을 복수 개로 미리 정의한 뒤, 이들 표준 표정들 각각에 조절 가중치(control weight)를 곱하여서 서로 더함으로써 표준 표정 이외에도 다양한 새로운 표정을 생성하는 기술을 지칭한다.
도 2는 도 1에 도시된 얼굴 표정 생성 장치(100)의 구성 및 이러한 얼굴 표정 생성 장치에서 수행되는 얼굴 표정 생성 과정의 절차를 도시한 도면이다. 다만, 도 2는 얼굴 표정 생성 장치(100)의 구성 및 얼굴 표정 생성 과정의 절차를 예시적으로 도시하고 있는 것에 불과하다.
먼저, 얼굴 표정 생성 장치(100)는 컴퓨터 또는 스마트폰이나 스마트 패드와 같은 스마트 기기의 형태로 구현 가능하며 다만 이에 한정되지 않는다.
도 2를 도 1과 함께 참조하면, 얼굴 표정 생성 장치(100)는 입력부(110), 추정부(120), 조절 가중치 획득부(130) 및 영상 생성부(140)를 포함할 수 있다.
입력부(110)는 발화자(10)로부터 음성을 입력받아서 이를 추정부(120)에게 전달한다. 이러한 입력부(110)는 마이크 등에 의해 구현 가능하다. 다만, 이와 달리 입력부(110)는 미리 녹음된 발화자(10)의 음성을 외부로부터 입력받을 수 있는 입력 포트 또는 외부로부터 통신 방식으로 발화자(10)의 음성을 수신할 수 있는 통신 포트의 형태로 구현될 수도 있다.
실시예에 따라서, 입력부(110)는 텍스트를 입력받을 수도 있다. 텍스트는 발화자(10)의 음성을 글자로 나타낸 것인데, 이러한 텍스트는 외부로부터 제공될 수 있다. 예컨대, 발화자(10)가 음성을 발하면, 외부의 특정 모듈이 이러한 음성을 텍스트로 변환한 뒤, 이를 입력부(110)에게 전달할 수 있다.
추정부(120)는 이하에서 기술될 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다.
추정부(120)는 입력부(110)로부터 전달받은 음성을 분석하여서 이러한 음성에 어떤 모음이 포함되어 있는지를 추정한다. 추정부(120)는 예컨대 음성의 크기나 변화값을 기초로 음성에 포함된 모음을 추정할 수 있다.
한편, 입력부(110)가 발화자(10)의 음성에 대한 텍스트를 입력받은 경우, 추정부(120)는 이러한 텍스트만 분석하거나 또는 이러한 텍스트와 음성을 함께 분석하여서 이러한 음성에 어떤 모음이 포함되어 있는지를 추정 내지는 분석할 수 있다. 아울러, 텍스트가 문장으로 구성될 경우, 추정부(120)는 문장에 포함된 단어 간의 띄어쓰기 등에 대한 정보에 대해서도 텍스트로부터 추출할 수 있다.
추정부(120)가 추정 가능한 모음의 종류에는 단모음이나 이중 모음 등이 있을 수 있으나 이에 한정되지 않으며, 아울러 언어의 종류에도 제한되지 않는다. 한편, 음성으로부터 모음을 추정하는 기술 그 자체는 이미 공지된 기술이므로 그 자체에 대한 설명은 생략하기로 한다.
한편, 실시예에 따라서 추정부(120)는 입력부(110)로부터 전달받은 음성을 분석하여서, 발화자(10)의 감정을 추정할 수도 있다. 감정에는 기쁨, 슬픔, 화남, 놀람 등과 같이 다양한 것들이 포함될 수 있다. 예컨대, 추정부(120)는 '발화자는 현재 기쁜 상태에서 모음 '아'를 발음한다'라고 추정할 수 있다. 이는, 동일한 모음을 발음하더라도 발화자(10)의 감정에 따라 얼굴 표정 내지는 입모양에 차이가 있을 수 있음에 착안한 것이다.
이러한 추정부(120)는 머신 러닝 기법에 의해 기 학습되어서 생성된 모델일 수 있다. 예컨대 추정부(120)는 합성곱 신경망(convolution neural network, CNN) 기법에 따라 학습된 모델일 수 있다. 이 경우 학습에 이용되는 데이터 세트는 도 3과 도 4에 예시적으로 도시되어 있다(도 3과 4에서 M,N,P,Q는 자연수를 나타냄). 도 3은 여러 발화자(10)로부터 획득된 음성을 입력으로 하고 해당 음성에 포함된 모음을 출력으로 하는 데이터 세트(121)를 도시하고 있다. 데이터 세트(121)에서 행에는 M개의 음성이 있고, 렬에는 각각의 음성에 포함될 수 있는 N개의 모음이 있다. 이와 달리, 도 4는 여러 발화자(10)로부터 획득된 음성을 입력으로 하고 해당 음성에 포함될 수 있는 모음과 해당 음성을 발한 발화자(10)의 감정을 출력으로 하는 데이터 세트(122)를 도시하고 있다. 데이터 세트(122)에서 행에는 P개의 음성이 있고, 렬에는 각각의 음성에 포함될 수 있는 N개의 모음과 Q개의 감정이 있다.
한편, 추정부(120)를 생성하는 과정에 채용 가능한 기술인 전술한 합성곱 신경망 기법 자체는 이미 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.
다시 도 2를 참조하면, 조절 가중치 획득부(130)는 이하에서 기술될 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다.
조절 가중치 획득부(130)는 추정부(120)로부터 발화자(10)의 음성에 포함된 모음에 대한 정보를 전달받은 뒤 이를 분석할 수 있다. 분석 결과, 조절 가중치 획득부(130)는 발화자(10)가 이러한 모음을 발음할 때 짓게 되는 표정에 기 정의된 표준 표정들 각각이 어떠한 조절 가중치를 가지고 포함되는지, 각 표준 표정들에 대한 조절 가중치(control weight)를 획득한다. 여기서의 조절 가중치는 블렌드 쉐이프(blend shape) 기법에서 복수 개의 표준 표정들 간의 조합 비율을 나타내는 것일 수 있다. 아울러, 표준 표정이란 인간의 대표적인 표정을 의미하는데, 이러한 표준 표정 그 자체는 블렌드 쉐이프 기법에서 이미 공지된 것이므로 이에 대한 설명은 생략하기로 한다.
이러한 조절 가중치 획득부(130)는 머신 러닝 기법에 의해 기 학습되어서 생성된 모델일 수 있다. 예컨대 조절 가중치 획득부(130)는 합성곱 신경망(convolution neural network, CNN) 기법에 따라 학습된 모델일 수 있다. 이 경우 학습에 이용되는 데이터 세트는 도 5에 예시적으로 도시되어 있다(도 5에서 R,S는 자연수를 나타냄). 도 5는 모음을 입력으로 하고 해당 모음을 발음할 때의 표정에 표준 표정들 각각이 어떠한 조절 가중치를 갖고 포함되는지, 이러한 표준 표정들 각각에 대한 조절 가중치의 값들을 출력으로 하는 데이터 세트(131)를 도시하고 있다. 데이터 세트(131)에서 행에는 R개의 모음이 있고, 렬에는 각각의 모음에 포함될 수 있는 S개의 표준 표정들 각각에 대한 조절 가중치가 있다.
한편, 실시예에 따라서 조절 가중치 획득부(130)는 추정부(120)로부터 발화자(10)의 감정에 대한 정보를 추가적으로 전달받을 수 있다. 이 경우 조절 가중치 획득부(130)는 각 표준 표정들에 대한 조절 가중치(control weight)를 획득하는 과정에서 발화자(10)의 음성에 포함된 모음에 대한 정보뿐만 아니라 이러한 감정에 대한 정보를 함께 이용할 수 있다. 이는, 동일한 모음을 발음하더라도 발화자(10)의 감정에 따라 얼굴 표정 내지는 입모양에 차이가 있을 수 있음에 착안한 것이다. 이러한 조절 가중치 획득부(130) 또한 합성곱 신경망과 같은 머신 러닝 기법에 따라 학습된 모델일 수 있으며, 이 경우 학습에 이용되는 데이터 세트는 도 6에 예시적으로 도시되어 있다(도 6에서 T,U,S는 자연수를 나타냄). 도 6은 모음과 감정을 입력으로 하고 해당 모음을 발음할 때의 표정에 표준 표정들 각각이 어떠한 조절 가중치를 갖고 포함되는지, 이러한 표준 표정들 각각에 대한 조절 가중치의 값들을 출력으로 하는 데이터 세트(132)를 도시하고 있다. 데이터 세트(131)에서 행에는 T개의 모음과 U개의 감정의 조합, 즉 T*U개의 모음과 감정의 조합이 있고, 렬에는 각각의 모음과 감정의 조합에 포함될 수 있는 S개의 표준 표정들 각각에 대한 조절 가중치가 있다.
다시 도 2를 참조하면, 영상 생성부(140)는 조절 가중치 획득부(130)로부터 표준 표정들 각각에 대한 조절 가중치를 전달받은 뒤, 이를 기초로 가상의 캐릭터(30)의 얼굴 표정을 생성한다. 얼굴 표정을 생성함에 있어서 영상 생성부(140)는 블렌드 쉐이프 기법을 이용할 수 있으며, 다만 블렌드 쉐이프 기법에 따라 얼굴 표정을 생성하는 과정 자체는 공지된 기술이므로 이에 대한 설명은 생략하기로 한다. 이러한 영상 생성부(140)는 전술한 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다.
한편, 실시예에 따라서 영상 생성부(140)는 가상의 캐릭터(30)의 입모양과 같은 얼굴 표정을 생성함에 있어서, 발화자(10)의 음성에 상응하는 텍스트가 입력부(110)에 입력되고 이러한 텍스트가 띄어쓰기와 같은 공백을 포함하는 문장을 포함하는 경우, 이러한 공백을 반영하여서, 즉 각 음절의 시간 순서를 반영하여서 가상의 캐릭터(30)의 입모양과 같은 얼굴 표정을 생성할 수 있다.
한편, 얼굴 표정이 생성된 가상의 캐릭터(30)는 도면에는 도시되지 않은 출력부를 통해 출력될 수 있다.
이상에서 살펴본 바와 같이, 일 실시예에 따르면 가상의 캐릭터의 입모양과 같은 얼굴 표정은 발화자의 음성만이 주어진 상황에서도 발화자의 음성에 맞춰서 표현될 수 있다.
아울러, 실시예에 따라서는 발화자의 음성으로부터 '모음'만이 추정될 수 있다. 이 경우 발화자의 음성 전체를 추정하는 경우보다 연산량이 줄어들 수 있으며, 따라서 효율적이면서도 신속한 가상 캐릭터의 구현이 가능하다.
아울러, 실시예에 따라서는 발화자의 감정까지도 가상의 캐릭터에 반영할 수 있다. 따라서, 동일한 발음이라도 발화자의 감정에 따라서 입모양과 같은 얼굴 표정이 달라지는 것의 반영이 가능하게 된다.
이하에서는 도 2를 도 1, 도 3 내지 6과 함께 참조하여서, 일 실시예에 따른 얼굴 표정 생성 방법의 절차에 대해 살펴보기로 한다. 이러한 얼굴 표정 생성 방법은 전술한 얼굴 표정 생성 장치(100)에 의하여 수행 가능하다. 아울러, 얼굴 표정 생성 방법에 대한 기술 내용은 얼굴 표정 생성 장치(100)에 대한 것과 중복되는바, 이하에서 설명되지 않은 기술 내용은 얼굴 표정 생성 장치(100)에 대해 전술한 설명을 그대로 원용할 수 있다.
먼저, 얼굴 표정 생성 장치(100)의 입력부(110)가 발화자(10)로부터 음성을 입력받는 단계가 수행된다. 이 때, 입력부(110)는 미리 녹음된 발화자(10)의 음성을 외부로부터 입력받거나 또는 외부로부터 통신 방식으로 발화자(10)의 음성을 수신받을 수도 있다.
다음으로, 얼굴 표정 생성 장치(100)의 추정부(120)가 입력부(110)로부터 음성을 전달받은 뒤, 이를 분석하여서 이러한 음성에 어떤 모음이 포함되어 있는지를 추정하는 단계가 수행된다. 모음 추정에는 음성의 크기나 변화값이 사용될 수 있으나 이에 한정되지는 않는다. 아울러, 실시예에 따라서 발화자(10)의 감정을 추정하는 단계도 수행될 수 있다. 감정에는 기쁨, 슬픔, 화남, 놀람 등과 같이 다양한 것들이 포함될 수 있다.
여기서, 전술한 추정부(120)는 머신 러닝 기법에 의해 기 학습되어서 생성된 모델일 수 있는데, 이러한 추정부(120)가 예컨대 합성곱 신경망(convolution neural network, CNN) 기법에 따라 학습시에 이용하는 데이터 세트에 대한 사항은 이미 설명하였으므로 이에 대한 추가적인 설명은 생략하기로 한다.
다음으로, 조절 가중치 획득부(130)가 추정부(120)로부터 발화자(10)의 음성에 포함된 모음에 대한 정보를 전달받은 뒤 이를 분석함으로써, 이러한 모음을 발음할 때 짓게 되는 표정에 기 정의된 표준 표정들 각각이 어떠한 조절 가중치를 가지고 포함되는지, 각 표준 표정들에 대한 조절 가중치(control weight)를 획득하는 단계가 수행된다. 여기서의 조절 가중치는 블렌드 쉐이프(blend shape) 기법에서 복수 개의 표준 표정들 간의 조합 비율을 나타내는 것일 수 있다. 아울러, 표준 표정이란 인간의 대표적인 표정을 의미하는데, 이러한 표준 표정 그 자체는 블렌드 쉐이프 기법에서 이미 공지된 것이므로 이에 대한 설명은 생략하기로 한다.
아울러, 실시예에 따라서 조절 가중치 획득부(130)가 추정부(120)로부터 발화자(10)의 감정에 대한 정보를 추가적으로 전달받는 단계가 수행될 수도 있다. 이 경우 조절 가중치 획득부(130)는 각 표준 표정들에 대한 조절 가중치(control weight)를 획득하는 과정에서 발화자(10)의 음성에 포함된 모음에 대한 정보뿐만 아니라 이러한 감정에 대한 정보를 함께 이용할 수 있음은 전술한 바와 같다.
여기서, 전술한 조절 가중치 획득부(130)는 머신 러닝 기법에 의해 기 학습되어서 생성된 모델일 수 있는데, 이러한 조절 가중치 획득부(130)가 예컨대 합성곱 신경망(convolution neural network, CNN) 기법에 따라 학습시에 이용하는 데이터 세트에 대한 사항은 이미 설명하였으므로 이에 대한 추가적인 설명은 생략하기로 한다
다음으로, 영상 생성부(140)가 조절 가중치 획득부(130)로부터 표준 표정들 각각에 대한 조절 가중치를 전달받은 뒤, 이를 기초로 가상의 캐릭터(30)의 얼굴 표정을 생성하는 단계가 수행된다. 얼굴 표정을 생성함에 있어서 영상 생성부(140)는 블렌드 쉐이프 기법을 이용할 수 있으며, 다만 블렌드 쉐이프 기법에 따라 얼굴 표정을 생성하는 과정 자체는 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.
다음으로, 얼굴 표정이 생성된 가상의 캐릭터(30)가 도면에는 도시되지 않은 출력부를 통해 출력되는 단계가 수행될 수도 있다.
한편, 일 실시예에 따른 얼굴 표정 생성 방법은 이러한 방법에 포함된 각 단계를 수행하도록 프로그램된 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램의 형태로 구현되거나, 또는 이러한 방법에 포함된 각 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
일 실시예에 따르면 가상의 캐릭터의 얼굴 표정에 대한 효율적이면서도 신속한 구현이 가능하다.
100: 얼굴 표정 생성 장치
Claims (11)
- 발화자의 음성을 입력받는 입력부와,
상기 음성에 포함된 모음을 추정하는 추정부와,
상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 조절 가중치 획득부와,
상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써, 상기 가상의 캐릭터의 얼굴 표정을 생성하는 영상 생성부를 포함하는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 추정부는,
상기 음성의 크기나 변화값을 기초로 상기 모음을 추정하는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 추정부는,
사전에 확보된 음성 및 상기 사전에 확보된 음성에 포함된 모음에 대한 데이터 세트를 이용하여서 머신 러닝 기법에 의해 기 학습된 모델을 포함하는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 조절 가중치 획득부는,
사전에 확보된 모음 및 상기 사전에 확보된 모음을 발음할 때의 표정에 포함된 상기 복수 개의 표준 표정들 각각에 대한 조절 가중치에 대한 데이터 세트를 이용하여서 머신 러닝 기법에 의해 기 학습된 모델을 포함하는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 추정부는,
상기 입력받은 음성을 기초로 상기 발화자의 감정을 추정하며,
상기 조절 가중치 획득부는,
상기 발화자가 상기 추정된 감정 상태에서 상기 모음을 발음할 때 짓게 되는 표정에 포함된 표준 표정들 각각에 대한 조절 가중치를 획득하는
얼굴 표정 생성 장치. - 제 5 항에 있어서,
상기 추정부는,
사전에 확보된 모음과 감정 및 상기 사전에 확보된 감정 상태에서 상기 사전에 확보된 모음을 발음할 때의 표정에 포함된 상기 복수 개의 표준 표정들 각각에 대한 조절 가중치에 대한 데이터 세트를 이용하여서 머신 러닝 기법에 의해 기 학습된 모델을 포함하는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 조절 가중치는,
블렌드 쉐이프(blend shape) 기법에서 상기 복수 개의 표준 표정들 간의 조합 비율을 나타내는
얼굴 표정 생성 장치. - 제 1 항에 있어서,
상기 입력부는,
상기 음성을 글자로 나타낸 텍스트를 추가로 입력받으며,
상기 추정부는,
상기 음성 또는 상기 텍스트를 분석하여서 상기 음성에 포함된 모음을 추정하는
얼굴 표정 생성 장치. - 발화자의 음성을 입력받는 단계와,
상기 음성에 포함된 모음을 추정하는 단계와,
상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 단계와,
상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써 가상의 캐릭터의 얼굴 표정을 생성하는 단계를 수행하도록 프로그램된
컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램. - 발화자의 음성을 입력받는 단계와,
상기 음성에 포함된 모음을 추정하는 단계와,
상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 단계와,
상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써 가상의 캐릭터의 얼굴 표정을 생성하는 단계를 수행하도록 프로그램된
컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체. - 얼굴 표정 생성 장치에 의해 수행되는 얼굴 표정 생성 방법으로서,
발화자의 음성을 입력받는 단계와,
상기 음성에 포함된 모음을 추정하는 단계와,
상기 발화자가 상기 모음을 발음할 때 짓게 되는 표정에 포함된 기 정의된 복수 개의 표준 표정들 각각에 대한 조절 가중치(control weight)를 획득하는 단계와,
상기 획득된 조절 가중치를 반영하여서 상기 복수 개의 표준 표정들을 조합함으로써, 상기 가상의 캐릭터의 얼굴 표정을 생성하는 단계를 포함하는
얼굴 표정 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170140089A KR20190046371A (ko) | 2017-10-26 | 2017-10-26 | 얼굴 표정 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170140089A KR20190046371A (ko) | 2017-10-26 | 2017-10-26 | 얼굴 표정 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190046371A true KR20190046371A (ko) | 2019-05-07 |
Family
ID=66656106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170140089A KR20190046371A (ko) | 2017-10-26 | 2017-10-26 | 얼굴 표정 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190046371A (ko) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097873A (zh) * | 2019-05-14 | 2019-08-06 | 苏州沃柯雷克智能系统有限公司 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
WO2020256471A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR20200145701A (ko) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | 음성 신호를 이용한 발화 동영상 생성 방법 및 장치 |
KR20200145700A (ko) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR20210086744A (ko) * | 2019-12-30 | 2021-07-09 | (주)라이언로켓 | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 |
KR102345729B1 (ko) * | 2021-04-08 | 2022-01-03 | 주식회사 닫닫닫 | 영상 생성 방법 및 장치 |
KR102353556B1 (ko) * | 2021-11-01 | 2022-01-20 | 강민호 | 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치 |
WO2022025359A1 (ko) * | 2020-07-27 | 2022-02-03 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
KR20220034396A (ko) | 2020-09-11 | 2022-03-18 | 주식회사 케이티 | 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 |
KR102595666B1 (ko) * | 2022-05-03 | 2023-10-31 | (주)이브이알스튜디오 | 영상 생성 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100088347A (ko) | 2009-01-30 | 2010-08-09 | 서강대학교산학협력단 | 얼굴 표정 리타게팅 방법 |
-
2017
- 2017-10-26 KR KR1020170140089A patent/KR20190046371A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100088347A (ko) | 2009-01-30 | 2010-08-09 | 서강대학교산학협력단 | 얼굴 표정 리타게팅 방법 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097873A (zh) * | 2019-05-14 | 2019-08-06 | 苏州沃柯雷克智能系统有限公司 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
CN110097873B (zh) * | 2019-05-14 | 2021-08-17 | 苏州沃柯雷克智能系统有限公司 | 一种通过声音确认口形的方法、装置、设备及存储介质 |
WO2020256471A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR20200145701A (ko) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | 음성 신호를 이용한 발화 동영상 생성 방법 및 장치 |
KR20200145700A (ko) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
KR20210086744A (ko) * | 2019-12-30 | 2021-07-09 | (주)라이언로켓 | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 |
WO2022025359A1 (ko) * | 2020-07-27 | 2022-02-03 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
KR20220034396A (ko) | 2020-09-11 | 2022-03-18 | 주식회사 케이티 | 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 |
KR102345729B1 (ko) * | 2021-04-08 | 2022-01-03 | 주식회사 닫닫닫 | 영상 생성 방법 및 장치 |
WO2022215823A1 (ko) * | 2021-04-08 | 2022-10-13 | 주식회사 닫닫닫 | 영상 생성 방법 및 장치 |
KR102353556B1 (ko) * | 2021-11-01 | 2022-01-20 | 강민호 | 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치 |
KR102595666B1 (ko) * | 2022-05-03 | 2023-10-31 | (주)이브이알스튜디오 | 영상 생성 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190046371A (ko) | 얼굴 표정 생성 장치 및 방법 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
US20200279553A1 (en) | Linguistic style matching agent | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
Levitan et al. | Implementing Acoustic-Prosodic Entrainment in a Conversational Avatar. | |
US7136818B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
US20060074689A1 (en) | System and method of providing conversational visual prosody for talking heads | |
CN110874137A (zh) | 一种交互方法以及装置 | |
KR20150076128A (ko) | 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 | |
JPWO2019160100A1 (ja) | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム | |
KR102116315B1 (ko) | 캐릭터의 음성과 모션 동기화 시스템 | |
JPWO2019160105A1 (ja) | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
Nordstrand et al. | Measurements of articulatory variation in expressive speech for a set of Swedish vowels | |
Massaro et al. | A multilingual embodied conversational agent | |
Serra et al. | A proposal for a visual speech animation system for European Portuguese | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
Verma et al. | Animating expressive faces across languages | |
CN113192484A (zh) | 基于文本生成音频的方法、设备和存储介质 | |
Theobald | Audiovisual speech synthesis | |
US20220319516A1 (en) | Conversation method, conversation system, conversation apparatus, and program | |
JP6755509B2 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
US20080228497A1 (en) | Method For Communication and Communication Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |