KR20120130627A - Apparatus and method for generating animation using avatar - Google Patents
Apparatus and method for generating animation using avatar Download PDFInfo
- Publication number
- KR20120130627A KR20120130627A KR1020110048714A KR20110048714A KR20120130627A KR 20120130627 A KR20120130627 A KR 20120130627A KR 1020110048714 A KR1020110048714 A KR 1020110048714A KR 20110048714 A KR20110048714 A KR 20110048714A KR 20120130627 A KR20120130627 A KR 20120130627A
- Authority
- KR
- South Korea
- Prior art keywords
- animation
- generating
- facial
- image
- expression
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims abstract description 79
- 230000001815 facial effect Effects 0.000 claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000008921 facial expression Effects 0.000 claims description 82
- 230000033001 locomotion Effects 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 44
- 210000001747 pupil Anatomy 0.000 description 27
- 210000001508 eye Anatomy 0.000 description 24
- 239000000284 extract Substances 0.000 description 21
- 210000003205 muscle Anatomy 0.000 description 11
- 238000000605 extraction Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 210000000744 eyelid Anatomy 0.000 description 5
- 230000037303 wrinkles Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
본 발명은 아바타를 이용한 애니메이션 생성 장치 및 방법에 관한 것이다. 보다 상세하게, 본 발명은 이차원 얼굴 영상으로부터 생성된 아바타를 이용하여 애니메이션을 생성하기 위한 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for generating animation using avatars. More specifically, the present invention relates to an apparatus and method for generating animation using an avatar generated from a two-dimensional face image.
얼굴은 사람들 사이의 상호작용(Interaction)과 대화(Communication)에 있어 매우 중요한 요소이지만, 공학적으로 정의하고 표현하기 매우 복잡한 대상이다. 이와 같은 얼굴을 검출(Detection), 추적(tracking), 인식(recognition), 모델링(modeling), 합성(synthesis) 및 표현(rendering)하기 위한 다양한 연구가 컴퓨터 그래픽스(Computer graphics), 컴퓨터 비전(computer vision), 컴퓨터 애니메이션(Computer Animation) 등과 같은 다양한 분야에서 활발히 진행 중이다.The face is a very important element in the interaction and communication between people, but it is a very complex object to be defined and expressed in engineering. Various studies to detect, track, recognize, model, synthesize, and render such faces include computer graphics and computer vision. ), And are actively working in various fields such as computer animation.
특히, 얼굴 애니메이션(Facial Animation)은 얼굴의 움직임과 표정을 사실감 있게 표현하기 위한 것으로 얼굴의 해부학적인 구조와 섬세한 표정을 사실감 있게 표현해야 하기 때문에, 컴퓨터 애니메이션 분야에서도 가장 어려운 분야로 인식되고 있다.In particular, facial animation (Facial Animation) is to represent the movement and facial expression of the face realistically, because it must realistically express the anatomy and delicate expression of the face, it is recognized as the most difficult field in the field of computer animation.
하지만, 얼굴 애니메이션은 디지털 콘텐츠 분야에서 실시간 얼굴 애니메이션, 캐릭터 애니메이션, 대화 가능한 실사수준의 아바타(Avatar) 생성, 영상 통신, 사진 내 사람들에 대한 동영상 애니메이션 생성, 휴먼 인터페이스 등에 활용될 수 있기 때문에, 얼굴 애니메이션에 대한 기술적 수요가 증대되고 있다.However, face animation can be used for real-time face animation, character animation, interactive photorealistic avatar creation, video communication, video animation for people in photos, and human interfaces in digital content. The technical demand for is increasing.
이때, 얼굴 애니메이션을 위해서는 컴퓨터 그래픽스와 영상 처리(Image Processing) 기술을 포함한 컴퓨터 비전 기술을 이용하여 얼굴 모션 표현(Facial motion representation) 및 얼굴 모션 합성(facial motion synthesis) 기술이 필요하며, 텍스트에 대한 음성 변환(Text-To-Speech) 및 음성 합성(Speech Synthesis)을 위한 기계 학습(Machine Learning)과 같은 인공지능 기술이 필요하다.In this case, for facial animation, facial motion representation and facial motion synthesis are required using computer vision techniques including computer graphics and image processing. Artificial intelligence techniques such as machine learning for Text-To-Speech and Speech Synthesis are needed.
얼굴 애니메이션은 크게 키프레임 기반 방법, 근육 모델 기반 방법, 그리고 매개변수 모델 기반 방법의 세가지 방법들로 나뉠 수 있다.Facial animation can be divided into three methods: keyframe based method, muscle model based method, and parametric model based method.
키프레임 기반 방법은 중간에 얼굴 애니메이션을 생성하기 위해 얼굴 모델의 제어점을 선형 또는 비선형으로 보간한다.The keyframe based method interpolates the control points of the face model linearly or nonlinearly to create a face animation in the middle.
근육 모델 기반 방법은 사람의 얼굴 근육을 애니메이션 모델에 적용한 것으로, 근육의 영향을 받는 영역을 구성 후 근육의 움직임에 따라 얼굴모델을 변형하는 벡터 기반의 근육 모델 방법이 많이 이용된다. 근육 모델 기반 방법은 피부 메시의 모양이 피부 하부에 있는 근육에 의해 영향을 받기 때문에, 비록 해부학적으로 합리적이지만 근육 포인트들에 대한 자동 추적이 어려운 단점이 있다.The muscle model-based method is applied to an animation model of a human facial muscle, and a vector-based muscle model method is widely used in which a face model is transformed according to the movement of a muscle after constructing an area affected by the muscle. Muscle model-based methods have the disadvantage that, although anatomically reasonable, the automatic tracking of muscle points is difficult because the shape of the skin mesh is affected by the muscles underneath the skin.
도 1은 종래에 따른 선행 근육모델을 도시한 도면이다. 여기서, Water의 선행 근육모델은 도 1에 도시된 바와 같다.1 is a view showing a prior muscle model according to the prior art. Here, the preceding muscle model of Water is as shown in FIG.
매개변수 모델 기반 방법은 Carl-Heman Hjortsjo에 의해 처음으로 정의된 움직임 단위들(Action Units, 이하에서는 'AUs'라고도 함)을 기반으로 얼굴 움직임 코딩 시스템(Facial Action Coding System, 이하에서는 'FACS'라고도 함)을 이용한 방법으로서, 얼굴의 표정을 AUs로 세분화하여 매개변수와 함께 이용한다.The parametric model-based method is also known as the Facial Action Coding System (FACS), based on the first movement units defined by Carl-Heman Hjortsjo (also known as 'AUs'). The facial expression is subdivided into AUs and used with parameters.
도 2는 종래에 따른 움직임 단위들의 예제 리스트를 도시한 도면이다. 여기서, Aus의 예제 리스트는 도 2에 도시된 바와 같다.2 is a diagram illustrating an example list of motion units according to the related art. Here, an example list of Aus is as shown in FIG.
이러한 FACS는 컴퓨터 그래픽스와 컴퓨터 비전 분야에서도 널리 사용되고 있으며, MPEG-4 얼굴 애니메이션 표준에서는 더욱 확장된 FACS가 채택되었다. 이때, 엠펙4(MPEG-4) 얼굴 애니메이션 표준에서는 3차원 메시와 꼭지점인 얼굴 포인트(Facial Points, 이하에서는 'FPs'라고도 함), 그리고 66 로우레벨(low-level) 얼굴 애니메이션 파라미터(Facial Animation Parameters, 이하에서는 'FAPs'라고도 함)와 2 하이레벨(high-level) FAPs을 정의한다.This FACS is widely used in computer graphics and computer vision, and the extended FACS is adopted in the MPEG-4 facial animation standard. At this time, in the MPEG-4 face animation standard, 3D meshes and vertex face points (Facial Points, hereinafter referred to as 'FPs'), and 66 low-level face animation parameters (Facial Animation Parameters) (Hereinafter referred to as 'FAPs') and two high-level FAPs.
얼굴 모션 표현은 크게 영상 기반(image-based) 방법과 모델 기반(model-based) 방법으로 나뉠 수 있다. 영상 기반 방법의 특징은 얼굴 내의 특징점 변화에 대한 확률적 모델을 생성해야 하기 때문에, 다량의 얼굴 영상 학습 데이터가 요구된다. 반면, 모델 기반 방법은 얼굴 데이터를 2차원 혹은 3차원 메시로 표현하여 얼굴 모션을 메시의 변형으로 표현한다. 그리고 지금까지 일반적으로 얼굴 애니메이션이라 하면 모델 기반으로 생성된 메시를 대상으로 매개변수 조절을 통해 표현된 얼굴 영상을 말한다.Facial motion expression can be largely divided into an image-based method and a model-based method. Since the feature of the image-based method has to generate a probabilistic model of the feature point change in the face, a large amount of face image training data is required. On the other hand, the model-based method expresses face data as a two-dimensional or three-dimensional mesh to express facial motion as a deformation of the mesh. In general, face animation is a face image expressed through parameter adjustment for a mesh generated based on a model.
얼굴 모션 합성은 얼굴 모션의 매개변수화 표현이 정의되면, 얼굴 모션 합성은 시간에 따른 해당 매개변수들의 궤적 생성과 해당 키 모션 영상들의 보간을 이용하여 수행된다. 얼굴 매개변수들의 궤적 생성시 음성과 입모양 합성을 위해 은닉 마르코프 모델(Hidden Markov Model, 이하에서는 'HMM'이라고도 함)과 같은 확률적 모델 학습 방법을 주로 이용한다. 또한, 얼굴 표정 영상 합성 시, 영상 워핑(warping) 방법을 통해 얼굴 모션을 합성할 수 있다.When face motion synthesis is defined as a parameterized expression of face motion, face motion synthesis is performed using a trajectory generation of corresponding parameters over time and interpolation of corresponding key motion images. Probability model learning methods, such as Hidden Markov Model (HID), are used mainly for speech and mouth synthesis when generating trajectories of face parameters. In addition, when synthesizing the facial expression image, the facial motion may be synthesized through an image warping method.
세부 얼굴 표현 및 요소 추출(subtle facial expression & component extraction)에서 보다 사실적인 얼굴 표정 및 애니메이션 표현을 위해 얼굴 주름 표현 및 눈동자의 움직임과 다양한 입모양 표현이 매우 중요하다. 얼굴의 주름은 표정 비율 이미지(Expressive Ratio Image, 이하에서는 'ERI'라고도 함)를 이용하여 사실감을 개선할 수 있으나 계산량이 많은 문제점이 있다.In subtle facial expression and component extraction, facial wrinkle expression and pupil movement and various mouth expressions are very important for more realistic facial expression and animation expression. The wrinkles of the face may improve the realism by using an expressive ratio image (hereinafter, also referred to as 'ERI'), but there is a problem of a large amount of computation.
이때, 영상 기반의 방법으로 다양한 눈동자와 입 모양의 움직임을 표현하기 위해서는 세부 부분을 영상으로부터 분리하여 추출해야 한다. 이때, 얼굴 애니메이션의 사실감 증대를 위해서는 눈의 깜박임이나 두 입술의 개별적인 움직임, 미세한 주름과 같은 표현요소들이 매우 중요하다.At this time, in order to express various eye and mouth movements by using an image-based method, the detail part has to be extracted from the image. In this case, expression elements such as eye blinking, individual movements of two lips, and fine wrinkles are very important to increase the realism of facial animation.
도 3은 종래에 따른 영상에서 세부 부분을 추출한 영상 예제를 도시한 도면이다. 여기서, 눈 영상(10)에서 추출된 눈동자(11)와 나머지 텍스처 부분(13)은 도 4에 도시된 바와 같다.3 is a diagram illustrating an example of an image in which a detail part is extracted from an image according to the related art. Here, the
도 4는 종래에 따른 영상 분리 과정에 대한 영상 예제를 도시한 도면이다. 여기서, 입술영역(Mouth region)(20)으로부터 그레디언트 벡터 맵(gradient vector map)(21)과 키 포인트 추출 영상(extraction of key point)(22)을 생성하고, 그레디언트 벡터 맵(gradient vector map)(21), 키 포인트 추출 영상(extraction of key point)(22) 및 다항식 모델(polynomial model)(23)을 이용하여 입술부분(segmented lips)(24)를 생성하는 영상 분리 과정은 도 4에 도시된 바와 같다.4 is a diagram illustrating an example of an image separation process according to the related art. Here, a
종래에는, 가상공간에서 사용자들간의 대화가 문자, 음성 또는 영상을 통해 이루어졌다. 하지만, 영상을 통한 대화는 데이터의 용량, 또는 데이터의 전송을 위한 비용이 문자나 음성과 같은 데이터에 비해 상대적으로 크기 때문에, 가상공간에서 사용자들간의 대화는 주로 문자나 음성을 통해서만 이루어졌다.Conventionally, conversations between users in a virtual space have been made through text, voice, or video. However, since conversations through video are relatively large in terms of data capacity or data transmission cost compared to data such as text or voice, conversations between users in the virtual space are mainly performed through text or voice.
따라서, 데이터의 용량이나 비용이 낮은 방법을 통해 사용자에게 가상공간에서 실사적인 얼굴 애니메이션을 제공할 수 있는 방안이 요구된다.Accordingly, there is a need for a method of providing realistic face animation in a virtual space to a user through a method of low data capacity or cost.
본 발명의 목적은, 가상공간에서 실사적인 얼굴 애니메이션을 제공하기 위해 아바타를 이용한 애니메이션 생성 장치 및 방법을 제공하는 것이다.SUMMARY OF THE INVENTION An object of the present invention is to provide an apparatus and method for generating animation using an avatar to provide realistic face animation in a virtual space.
본 발명의 특징에 따른 아바타를 이용한 애니메이션 생성 장치는 모델 생성부, 애니메이션 생성부 및 출력부를 포함한다. 모델 생성부는 이차원 얼굴 영상으로부터 추출된 복수 개의 특징점들을 이용하여 표정의 변형이 가능한 매개변수 모델을 생성하고, 텍스트 데이터에서 추출된 특징 단어와 복수 개의 특징점들에 대응되는 표정 매개변수를 미리 저장된 데이터베이스에서 검색한다. 애니메이션 생성부는 텍스트 데이터에 포함된 단어의 음성학적 특성을 이용하여 텍스트 데이터를 음성으로 표현할 때 복수 개의 특징점들의 위치 변화를 나타내는 벡터를 생성하고, 매개변수 모델에 표정 매개변수 및 벡터를 적용하여 텍스트 데이터를 음성으로 표현하는 동안의 표정 변화를 반영한 애니메이션을 생성한다. 출력부는 가상공간에서 이차원 얼굴 영상에 대응되는 아바타를 이용하여 애니메이션을 출력한다.An apparatus for generating animation using an avatar according to an aspect of the present invention includes a model generator, an animation generator, and an output unit. The model generator generates a parametric model capable of transforming a facial expression using a plurality of feature points extracted from a two-dimensional face image, and stores a feature word extracted from text data and facial expression parameters corresponding to the plurality of feature points in a previously stored database. Search. The animation generator generates a vector representing a change in position of a plurality of feature points when the text data is spoken using the phonetic characteristics of the words included in the text data, and applies the expression parameter and the vector to the parameter model. Creates an animation that reflects facial expression changes during speech. The output unit outputs an animation using an avatar corresponding to the two-dimensional face image in the virtual space.
이때, 아바타를 이용한 애니메이션 생성 장치의 모델 생성부는 복수 개의 특징점들을 이용하여 이차원 얼굴 영상에서 얼굴 요소들을 추출하고, 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 매개변수 모델을 생성한다.In this case, the model generator of the animation generating apparatus using the avatar extracts face elements from the two-dimensional face image by using a plurality of feature points, and generates a parametric model that is capable of modifying an expression by modifying the face elements.
또한, 아바타를 이용한 애니메이션 생성 장치에서, 벡터는 텍스트 데이터를 음성으로 표현할 때 얼굴 요소들에 대한 궤적을 나타낸다.In addition, in the animation generating apparatus using the avatar, the vector represents a trajectory for facial elements when the text data is expressed by voice.
또한, 아바타를 이용한 애니메이션 생성 장치의 애니메이션 생성부는 표정 매개변수에 따라 얼굴 요소들을 변형하여 얼굴 표정 영상을 생성하고, 얼굴 표정 영상에 벡터를 적용하여 텍스트 데이터를 음성으로 표현하는 동안에 얼굴 요소들의 움직임을 반영한 얼굴 애니메이션을 생성한다.In addition, the animation generator of the animation generating apparatus using the avatar generates facial expression images by modifying facial elements according to facial expression parameters, and applies motion vectors to facial expression images to express text data using voice. Create a reflected face animation.
또한, 아바타를 이용한 애니메이션 생성 장치의 애니메이션 생성부는 텍스트 데이터를 웨이브폼 형태로 변환하여 텍스트 데이터에 대응되는 음성 데이터를 생성하는 음성 변환부, 그리고 얼굴 애니메이션을 음성 데이터와 합성하여 대화 애니메이션을 생성하는 음성 합성부를 포함한다.The animation generating unit of the animation generating apparatus using the avatar converts the text data into a waveform to generate a voice data corresponding to the text data, and generates a dialogue animation by synthesizing a face animation with the voice data. It includes a synthesis unit.
또한, 아바타를 이용한 애니메이션 생성 장치의 모델 생성부는 복수 개의 특징점들을 이용하여 이차원 얼굴 영상에서 복수 개의 템플릿들을 추출하고, 디지털 이미지 매팅을 통해 복수 개의 템플릿들에 대응되는 매팅 영상들을 생성하며, 매팅 영상들을 이용하여 얼굴 요소들을 생성한다.The model generator of the animation generating apparatus using the avatar extracts a plurality of templates from a two-dimensional face image by using a plurality of feature points, generates matting images corresponding to the plurality of templates through digital image matting, and generates matting images. Create facial elements.
또한, 아바타를 이용한 애니메이션 생성 장치의 모델 생성부는 템플릿 매칭을 통해 이차원 얼굴 영상에서 복수 개의 템플릿들을 추출한다.The model generator of the animation generating apparatus using the avatar extracts a plurality of templates from the two-dimensional face image through template matching.
또한, 아바타를 이용한 애니메이션 생성 장치의 모델 생성부는 복수 개의 특징점들을 아핀 변환(Affine Transformation)을 통해 정규화하여 정규화된 얼굴 모델을 생성하고, 정규화된 얼굴 모델과 특징 단에 대응되는 표정 매개변수를 검색하는 검색부를 포함한다.In addition, the model generator of the animation generating apparatus using the avatar generates a normalized face model by normalizing a plurality of feature points through an affine transformation, and retrieves the normalized face model and facial expression parameters corresponding to the feature stage. It includes a search unit.
또한, 아바타를 이용한 애니메이션 생성 장치에서, 데이터베이스는 미리 저장된 표본 영상들과 표본 단어들을 서로 다른 표정들로 분류하여 각 표정에 대응되는 복수 개의 표정 매개변수들을 저장한다.Also, in the animation generating apparatus using the avatar, the database classifies the pre-stored sample images and sample words into different expressions and stores a plurality of expression parameters corresponding to each expression.
본 발명의 특징에 따른 아바타를 이용한 애니메이션 생성 방법은 이차원 얼굴 영상 및 텍스트 데이터를 포함하는 입력 데이터로부터 복수 개의 특징점들 및 특징 단어를 포함하는 특징 데이터를 추출하는 단계, 복수 개의 특징점들을 이용하여 매개변수 제어를 통해 표정의 변형이 가능한 매개변수 모델을 생성하는 단계, 미리 저장된 데이터베이스에서 특징 데이터에 대응되는 표정 매개변수를 검색하는 단계, 텍스트 데이터를 음성으로 표현하는 동안에 복수 개의 특징점들의 위치 변화를 나타내는 벡터를 생성하는 단계, 매개변수 모델에 표정 매개변수 및 벡터를 적용하여 텍스트 데이터를 음성으로 표현하는 동안에 복수 개의 특징점들의 위치 변화를 반영한 얼굴 애니메이션을 생성하는 단계, 그리고 텍스트 데이터를 웨이브폼 형태로 변환한 음성 데이터를 얼굴 애니메이션과 합성하여 대화 애니메이션을 생성하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of generating an animation using an avatar, extracting feature data including a plurality of feature points and feature words from input data including a two-dimensional face image and text data, and using a plurality of feature points as parameters. Generating a parameter model capable of transforming a facial expression through control, retrieving a facial expression parameter corresponding to the characteristic data from a pre-stored database, and a vector representing the positional change of a plurality of feature points while the text data is spoken. Generating facial expressions, applying facial expression parameters and vectors to the parametric model, generating facial animations reflecting the positional changes of the plurality of feature points while the textual data is spoken, and converting the textual data into waveforms. voice Synthesizing the data with the facial animation to generate a dialogue animation.
이때, 표정 매개변수를 검색하는 단계는, 복수 개의 특징점들을 정규화하여 정규화된 얼굴 모델을 생성하는 단계, 그리고 데이터베이스에서 정규화된 얼굴 모델 및 특징 단어에 대응되는 표정 매개변수를 검색하는 단계를 포함한다.In this case, the retrieving the facial expression parameter may include generating a normalized face model by normalizing the plurality of feature points, and retrieving the facial expression parameter corresponding to the normalized face model and the feature word in a database.
또한, 아바타를 이용한 애니메이션 생성 방법에서, 데이터베이스는 미리 저장된 표본 영상들과 표본 단어들을 서로 다른 표정들로 분류하여 각 표정에 대응되는 표정 매개변수를 저장한다.In addition, in the animation generation method using the avatar, the database classifies previously stored sample images and sample words into different expressions and stores expression parameters corresponding to each expression.
또한, 매개변수 모델을 생성하는 단계는, 복수 개의 특징점들을 이용하여 이차원 얼굴 영상에서 얼굴 요소들을 검출하는 단계, 그리고 얼굴 요소들로 구성되고 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 상기 매개변수 모델을 생성하는 단계를 포함한다.The generating of the parametric model may include: detecting facial elements in a two-dimensional face image using a plurality of feature points, and including the facial elements and modifying the facial expressions through the deformation of the facial elements. Generating a step.
또한, 벡터를 생성하는 단계는 텍스트 데이터를 음성으로 표현하는 동안에 얼굴 요소들의 궤적을 나타내는 벡터를 생성한다.In addition, generating the vector generates a vector representing the trajectories of the face elements while the text data is spoken.
또한, 얼굴 애니메이션을 생성하는 단계는, 표정 매개변수에 따라 매개변수 모델의 표정을 변형하여 얼굴 표정 모델을 생성하는 단계, 그리고 얼굴 표정 모델에 벡터를 적용하여 텍스트 데이터를 음성으로 표현하는 동안에 얼굴 요소들의 움직임을 반영한 얼굴 애니메이션을 생성하는 단계를 포함한다.In addition, the step of generating a facial animation, the step of generating a facial expression model by modifying the expression of the parametric model in accordance with the facial expression parameters, and the facial elements while expressing text data by voice by applying a vector to the facial expression model Generating a facial animation reflecting the movement of the children.
또한, 아바타를 이용한 애니메이션 생성 방법은, 가상공간에서 이차원 얼굴 영상에 대응되는 아바타를 이용하여 대화 애니메이션을 출력하는 단계를 더 포함한다.The method of generating animation using an avatar further includes outputting a dialogue animation using an avatar corresponding to the two-dimensional face image in the virtual space.
본 발명의 특징에 따르면, 하나의 이차원 영상과 텍스트를 이용하여 가상공간에서 사용자들을 대신하는 아바타를 통해 애니메이션을 합성할 수 있는 효과가 있다.According to a feature of the present invention, it is possible to synthesize an animation through an avatar on behalf of users in a virtual space using a single two-dimensional image and text.
또한, 본 발명의 특징에 따르면, 이차원 영상에서 추출된 얼굴 요소들을 이용하여 영상과 텍스트에 따른 표정을 반영한 애니메이션을 합성할 수 있는 효과가 있다.In addition, according to the feature of the present invention, there is an effect that can synthesize the animation reflecting the expression according to the image and the text using the facial elements extracted from the two-dimensional image.
또한, 본 발명의 특징에 따르면, 텍스트에 대응되는 음성을 합성하여 출력할 때 해당 텍스트의 음성학적 특성을 이용하여 해당 음성의 출력에 따른 얼굴의 표정 변화를 반영한 애니메이션을 합성할 수 있는 효과가 있다.In addition, according to a feature of the present invention, when synthesizing and outputting speech corresponding to text, an animation reflecting a change in facial expression according to the output of the speech may be synthesized using the phonetic characteristics of the text. .
도 1은 종래에 따른 선행 근육모델을 도시한 도면이다.
도 2는 종래에 따른 움직임 단위들의 예제 리스트를 도시한 도면이다.
도 3은 종래에 따른 영상에서 세부 부분을 추출한 영상 예제를 도시한 도면이다.
도 4는 종래에 따른 영상 분리 과정에 대한 영상 예제를 도시한 도면이다.
도 5는 본 발명의 실시 예에 따른 애니메이션 생성 장치의 구성을 도시한 도면이다.
도 6은 본 발명의 실시 예에 따른 모델 생성부의 구성을 도시한 도면이다.
도 7은 본 발명의 실시 예에 따른 얼굴 요소 추출 방법을 도시한 도면이다.
도 8은 본 발명의 실시 예에 따른 아랫입술 추출 과정을 도시한 도면이다.
도 9는 본 발명의 실시 예에 따른 데이터 분류 방법을 도시한 도면이다.
도 10은 본 발명의 실시 예에 따른 표본 영상의 정규화 방법을 도시한 도면이다.
도 11은 본 발명의 실시 예에 따른 특징점 검출 방법을 도시한 도면이다.
도 12는 본 발명의 실시 예에 따른 특징점 좌표 산출 방법을 도시한 도면이다.
도 13은 본 발명의 실시 예에 따른 애니메이션 생성부의 구성을 도시한 도면이다.
도 14는 본 발명의 제1 실시 예에 따른 얼굴 요소의 좌표를 도시한 도면이다.
도 15는 본 발명의 제1 실시 예에 따른 눈동자의 좌표를 도시한 도면이다.
도 16은 본 발명의 제2 실시 예에 따른 눈동자의 좌표를 도시한 도면이다.
도 17은 본 발명의 제2 실시 예에 따른 얼굴 요소의 좌표를 도시한 도면이다.
도 18은 본 발명의 제1 실시 예에 따른 입술의 좌표를 도시한 도면이다.
도 19는 본 발명의 제2 실시 예에 따른 입술의 좌표를 도시한 도면이다.
도 20은 본 발명의 실시 예에 따른 제1 얼굴 표정 영상을 도시한 도면이다.
도 21은 본 발명의 실시 예에 따른 제2 얼굴 표정 영상을 도시한 도면이다.
도 22는 본 발명의 실시 예에 따른 제3 얼굴 표정 영상을 도시한 도면이다.
도 23은 본 발명의 실시 예에 따른 제4 얼굴 표정 영상을 도시한 도면이다.
도 24는 본 발명의 실시 예에 따른 애니메이션 생성 방법을 도시한 도면이다.
도 25는 본 발명의 실시 예에 따른 아바타들간의 대화 애니메이션 출력 영상을 도시한 도면이다.1 is a view showing a prior muscle model according to the prior art.
2 is a diagram illustrating an example list of motion units according to the related art.
3 is a diagram illustrating an example of an image in which a detail part is extracted from an image according to the related art.
4 is a diagram illustrating an example of an image separation process according to the related art.
5 is a diagram illustrating a configuration of an animation generating device according to an embodiment of the present invention.
6 is a diagram illustrating a configuration of a model generator according to an exemplary embodiment of the present invention.
7 is a diagram illustrating a face element extraction method according to an embodiment of the present invention.
8 is a view illustrating a lower lip extraction process according to an embodiment of the present invention.
9 is a diagram illustrating a data classification method according to an embodiment of the present invention.
10 illustrates a method of normalizing a sample image according to an exemplary embodiment of the present invention.
11 is a diagram illustrating a feature point detection method according to an exemplary embodiment of the present invention.
12 is a diagram illustrating a feature point coordinate calculation method according to an embodiment of the present invention.
13 is a diagram illustrating a configuration of an animation generator according to an exemplary embodiment of the present invention.
14 is a diagram illustrating coordinates of a face element according to a first embodiment of the present invention.
15 is a diagram illustrating coordinates of a pupil according to a first embodiment of the present invention.
16 is a diagram illustrating the coordinates of the pupil according to the second embodiment of the present invention.
17 is a diagram illustrating coordinates of a face element according to a second embodiment of the present invention.
18 is a diagram illustrating coordinates of the lips according to the first embodiment of the present invention.
19 is a diagram illustrating coordinates of a lip according to a second embodiment of the present invention.
20 is a diagram illustrating a first facial expression image according to an exemplary embodiment of the present invention.
21 is a diagram illustrating a second facial expression image according to an exemplary embodiment of the present invention.
22 is a diagram illustrating a third facial expression image according to an embodiment of the present invention.
FIG. 23 is a diagram illustrating a fourth facial expression image according to an exemplary embodiment of the present invention.
24 is a diagram illustrating a method of generating animation according to an embodiment of the present invention.
25 is a diagram illustrating a dialogue animation output image between avatars according to an embodiment of the present invention.
본 발명을 첨부된 도면을 참고하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 고지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 해당 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. Here, the repeated description, the notification function that may unnecessarily obscure the gist of the present invention, and the detailed description of the configuration will be omitted. Embodiments of the present invention are provided to more completely explain the present invention to those skilled in the art. Accordingly, the shape and size of elements in the drawings may be exaggerated for clarity.
이제 도면을 참고하여 본 발명의 실시 예에 따른 아바타를 이용한 애니메이션 생성 장치 및 방법에 대해 설명한다.
An apparatus and method for generating animation using an avatar according to an embodiment of the present invention will now be described with reference to the drawings.
먼저, 도 5를 참고하여 본 발명의 실시 예에 따른 아바타를 이용한 애니메이션 생성 장치에 대해 설명한다.First, an animation generating apparatus using an avatar according to an embodiment of the present invention will be described with reference to FIG. 5.
도 5는 본 발명의 실시 예에 따른 애니메이션 생성 장치의 구성을 도시한 도면이다.5 is a diagram illustrating a configuration of an animation generating device according to an embodiment of the present invention.
도 5에 도시된 바와 같이, 본 발명의 실시 예에 따른 애니메이션 생성 장치(100)는 입력되는 영상에 대응되는 아바타(Avatar)를 생성하기 위한 것으로, 입력부(110), 모델 생성부(120), 애니메이션 생성부(130) 및 출력부(140)를 포함한다.As shown in FIG. 5, the
입력부(110)는 가상공간에서 아바타로 표현하고자 하는 대상의 이차원 얼굴 영상(2D Facial Image), 및 가상공간에서 아바타를 통해 음성으로 출력하고자 하는 단어나 문장 등의 문장 요소를 포함하는 텍스트(Text) 데이터를 입력 받는다.The
모델 생성부(120)는 입력된 이차원 얼굴 영상으로부터 복수 개의 특징점들을 추출하고, 추출된 복수 개의 특징점들을 이용하여 얼굴 표정(Expression)을 결정하는 움직임 단위들(Action Units, 이하에서는 'AUs'라고도 함)에 해당하는 얼굴 요소들을 추출하고, 추출된 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 매개변수 모델(Parameter Model)을 생성한다. 또한, 모델 생성부(120)는 입력된 텍스트 데이터 및 추출된 복수 개의 특징점들을 이용하여 아바타의 표정을 결정하기 위한 표정 매개변수(Expression Parameter)를 검출한다.The
애니메이션 생성부(130)는 검출된 표정 매개변수에 따라 매개변수 모델의 표정을 변형하여 얼굴 표정 영상을 생성하고, 텍스트 데이터에 포함된 문장 요소에 따른 특징점들의 좌표를 산출하여 텍스트 데이터를 음성으로 표현할 때 특징점들의 좌표 변화를 나타내는 고유벡터(Eigenvector)를 생성하고, 텍스트 데이터를 청취 가능한 웨이브폼(waveform) 형태로 변환하여 음성 데이터를 생성하며, 얼굴 표정 영상에 고유벡터를 반영하여 얼굴 애니메이션을 생성한 후 얼굴 애니메이션과 음성 데이터를 합성하여 대화 애니메이션을 생성한다.The
출력부(140)는 가상공간에서 이차원 얼굴 영상에 대응되는 아바타를 이용하여 대화 애니메이션을 출력한다.
The
다음, 도 6을 참고하여 본 발명의 실시 예에 따른 모델 생성부의 구성에 대해 설명한다.Next, a configuration of the model generator according to an exemplary embodiment of the present invention will be described with reference to FIG. 6.
도 6은 본 발명의 실시 예에 따른 모델 생성부의 구성을 도시한 도면이다.6 is a diagram illustrating a configuration of a model generator according to an exemplary embodiment of the present invention.
도 6에 도시된 바와 같이, 본 발명의 실시 예에 따른 모델 생성부(120)는 특징 추출부(121), 검색부(123) 및 학습부(125)를 포함한다.As shown in FIG. 6, the
특징 추출부(121)는 입력된 이차원 얼굴 영상으로부터 복수 개의 특징점들을 추출하고, 입력된 텍스트 데이터에서 특징 단어를 추출한다. 여기서, 특징 추출부(121)는 아다부스트(Adaboost), 서포트 벡터 머신(support vector machine, SVM), 능동 형태 모델(active appearance model, AAM) 등과 같은 특징점 검출 알고리즘을 이용하여 각 특징점을 검출할 수 있다. 이때, 특징 추출부(121)는 눈썹의 끝점, 눈의 위쪽 중간점, 아랫입술의 중간점 등과 같이 미리 정의된 특징점들을 추출할 수 있다.The
검색부(123)는 특징 추출부(121)에서 추출된 복수 개의 특징점들과 특징 단어에 대응되는 표정 매개변수를 학습부(125)에서 검색하여 추출한다. 여기서, 검색부(123)는 추출된 복수 개의 특징점들을 정규화하여 프로토타입 얼굴 모델(Prototype Face Model)을 생성하고, 생성된 프로토타입 얼굴 모델과 추출된 특징 단어에 대응되는 표정 매개변수를 학습부(125)에서 검색하여 추출한다. 이때, 검색부(123)는 변형(translation), 회전(Rotation), 스케일링(Scaling)을 고려한 아핀 변환(Affine Transformation)을 통해 추출된 복수 개의 특징점들을 정규화하여 프로토타입 얼굴 모델을 생성할 수 있다.The
학습부(125)는 기계학습을 통해 미리 저장된 표본 영상들과 표본 단어들을 서로 다른 표정들로 분류하여 각 표정에 대한 표정 매개변수를 저장한다. 여기서, 학습부(125)는 아핀 변환을 통해 표본 영상을 정규화하고, 정규화된 표본 영상에서 특징점들을 추출하며, 추출된 특징점들을 이용하여 특징점 좌표를 산출할 수 있다.
The
다음, 도 7을 참고하여 본 발명의 실시 예에 따른 모델 생성부가 얼굴 요소를 추출하는 방법에 대해 설명한다.Next, a method of extracting a face element by the model generator according to an exemplary embodiment of the present invention will be described with reference to FIG. 7.
도 7은 본 발명의 실시 예에 따른 얼굴 요소 추출 방법을 도시한 도면이다.7 is a diagram illustrating a face element extraction method according to an embodiment of the present invention.
도 7에 도시된 바와 같이, 먼저, 모델 생성부(120)는 이차원 얼굴 영상으로부터 복수 개의 특징점들을 추출한다(S100).As shown in FIG. 7, first, the
다음, 모델 생성부(120)는 추출된 특징점들을 이용하여 템플릿 매칭(Template Matching)을 통해 얼굴 요소에 대한 템플릿들을 추출한다(S110). 여기서, 추출된 템플릿들은 얼굴 템플릿, 눈썹 템플릿, 눈 템플릿, 눈동자 템플릿, 입술 템플릿 등을 포함한다.Next, the
이후, 모델 생성부(120)는 추출된 템플릿들을 이용하여 디지털 이미지 매팅(Digital Image Matting)을 통해 얼굴 요소에 대한 매팅 영상들을 생성한다(S120).Thereafter, the
다음, 모델 생성부(120)는 생성된 매팅 영상들을 이용하여 이차원 얼굴 영상에 대한 얼굴 요소들을 추출한다(S130). 여기서, 추출된 얼굴 요소들은 전체 얼굴, 눈썹, 눈, 눈동자, 입술 등을 포함한다.
Next, the
다음, 도 8을 참고하여 본 발명의 실시 예에 따른 모델 생성부가 얼굴 영상에서 아랫입술을 추출하는 방법에 대해 설명한다.Next, a method of extracting the lower lip from the face image by the model generator according to an exemplary embodiment of the present invention will be described with reference to FIG. 8.
도 8은 본 발명의 실시 예에 따른 아랫입술 추출 과정을 도시한 도면이다.8 is a view illustrating a lower lip extraction process according to an embodiment of the present invention.
도 8에 도시된 바와 같이, 먼저, 모델 생성부(120)는 템플릿 매칭을 통해서 입술 영상(210)으로부터 아랫입술에 대한 템플릿 영상(220)을 추출한다.As shown in FIG. 8, first, the
다음, 모델 생성부(120)는 디지털 이미지 매팅을 통해서 아랫입술에 대한 템플릿 영상(220)으로부터 아랫입술에 대한 알파맵(Alpha MAP)(230)을 추출한다.Next, the
이후, 모델 생성부(120)는 아랫입술에 대한 알파맵(Alpha MAP)(230)으로부터 얼굴 요소에 해당하는 아랫입술 영상(240)을 추출한다.
Thereafter, the
다음은, 도 9를 참고하여 본 발명의 실시 예에 따른 학습부가 표본 데이터를 서로 다른 표정들로 분류하는 방법에 대해 설명한다.Next, a method of classifying sample data into different expressions by a learning unit according to an exemplary embodiment of the present invention will be described with reference to FIG. 9.
도 9는 본 발명의 실시 예에 따른 데이터 분류 방법을 도시한 도면이다.9 is a diagram illustrating a data classification method according to an embodiment of the present invention.
학습부(125)는 표정의 종류에 따라 복수 개의 표본 영상들과 복수 개의 표본 단어들을 분류하여 군집화할 수 있다.The
도 9에 도시된 바와 같이, 예를 들어, 학습부(125)는 제1 영상(Image 1), 제2 영상(Image 2) 및 제1 단어(Word 1)를 "행복함(happy)"을 나타내는 제1 표정으로 분류할 수 있다. 특히, 제1 단어(Word 1)는 제1 영상(Image 1)의 표정과 제2 영상(Image 2)의 표정에 대응될 수 있다.As illustrated in FIG. 9, for example, the
또한, 학습부(125)는 제3 영상(Image 3), 제4 영상(Image 4), 제2 단어(Word 2), 제3 단어(Word 3) 및 제4 단어(Word 4)를 "놀라움(surprise)"을 나타내는 제2 표정으로 분류할 수 있다. 특히, 제2 단어(Word 2)는 제3 영상(Image 3)의 표정과 제4 영상(Image 4)의 표정에 대응되고, 제3 단어(Word 3)는 제3 영상(Image 3)의 표정에 대응되며, 제4 단어(Word 4)는 제4 영상(Image 4)의 표정에 대응될 수 있다.In addition, the
또한, 학습부(125)는 제n-2 영상(Image n-2), 제n-1 영상(Image n-1), 제n 영상(Image n), 제p-1 단어(Word p-1) 및 제p 단어(Word p)를 "두려움(fear)"을 나타내는 제3 표정으로 분류할 수 있다. 특히, 제p-1 단어(Word p-1)는 제n-2 영상(Image n-2)의 표정과 제n 영상(Image n)의 표정에 대응되고, 제p 단어(Word p)는 제n-1 영상(Image n-1)에 대응될 수 있다.In addition, the
또한, 학습부(125)는 제m-2 영상(Image m-2), 제m-1 영상(Image m-1), 제m 영상(Image m), 제q-1 단어(Word q-1) 및 제q 단어(Word q)를 "혐오감(disgust)"을 나타내는 제4 표정으로 분류할 수 있다. 특히, 제q-1 단어(Word q-1)는 제m-2 영상(Image m-2)의 표정과 제m-1 영상(Image m-1)의 표정에 대응되고, 제q 단어(Word q)는 제m-2 영상(Image m-2)의 표정, 제m-1 영상(Image m-1)의 표정, 및 제m 영상(Image m)의 표정에 대응될 수 있다.In addition, the
이와 같이, 학습부(125)는 표본 영상과 표본 단어를 군집화함으로써 표정 매개변수를 산출할 때 계산량을 감소시키고 표정의 정확성을 증대시킬 수 있다.
As such, the
다음, 도 10 내지 도 12를 참고하여 본 발명의 실시 예에 따른 학습부가 표본 영상으로부터 특징점 좌표를 산출하는 방법에 대해 설명한다.Next, a method of calculating feature point coordinates from a sample image according to an embodiment of the present invention will be described with reference to FIGS. 10 to 12.
도 10은 본 발명의 실시 예에 따른 표본 영상의 정규화 방법을 도시한 도면이다.10 illustrates a method of normalizing a sample image according to an exemplary embodiment of the present invention.
도 10에 도시된 바와 같이, 학습부(125)는 제1 표본 영상(311)의 두 눈동자를 기준으로 변형(translation), 회전(Rotation), 스케일링(Scaling)을 고려한 아핀 변환(Affine Transformation)을 통해 제1 표본 영상(311)을 정규화한다.As illustrated in FIG. 10, the
또한, 학습부(125)는 제2 표본 영상(312)의 두 눈동자를 기준으로 변형(translation), 회전(Rotation), 스케일링(Scaling)을 고려한 아핀 변환(Affine Transformation)을 통해 제2 표본 영상(312)을 정규화한다.In addition, the
도 11은 본 발명의 실시 예에 따른 특징점 검출 방법을 도시한 도면이다.11 is a diagram illustrating a feature point detection method according to an exemplary embodiment of the present invention.
도 11에 도시된 바와 같이, 학습부(125)는 도 11에서 제1 표본 영상(311)을 정규화하여 생성된 제1 정규화 영상(331)에서 미리 정해진 종류 및 개수에 대응되는 특징점들을 검출한다.As illustrated in FIG. 11, the
또한, 학습부(125)는 도 11에서 제2 표본 영상(312)을 정규화하여 생성된 제2 정규화 영상(332)에서 미리 정해진 종류 및 개수에 대응되는 특징점들을 검출한다.In addition, the
도 12는 본 발명의 실시 예에 따른 특징점 좌표 산출 방법을 도시한 도면이다.12 is a diagram illustrating a feature point coordinate calculation method according to an embodiment of the present invention.
도 12에 도시된 바와 같이, 학습부(125)는 제1 정규화 영상(331)에서 검출된 특징점들 각각에 대한 좌표를 산출한다.As illustrated in FIG. 12, the
또한, 학습부(125)는 제2 정규화 영상(332)에서 검출된 특징점들 각각에 대한 좌표를 산출한다.
In addition, the
다음, 도 13을 참고하여 본 발명의 실시 예에 따른 애니메이션 생성부의 구성에 대해 설명한다.Next, a configuration of an animation generator according to an exemplary embodiment of the present invention will be described with reference to FIG. 13.
도 13은 본 발명의 실시 예에 따른 애니메이션 생성부의 구성을 도시한 도면이다.13 is a diagram illustrating a configuration of an animation generator according to an exemplary embodiment of the present invention.
도 13에 도시된 바와 같이, 애니메이션 생성부(130)는 표정 변형부(131), 고유벡터 생성부(133), 영상 보정부(135), 음성 변환부(137) 및 음성 합성부(139)를 포함한다.As shown in FIG. 13, the
표정 변형부(131)는 표정 매개변수에 따라 매개변수 모델을 구성하는 얼굴 요소들을 변형하여 얼굴 표정 영상을 생성한다. 여기서, 표정 변형부(131)는 표정 매개변수에 따라 얼굴 요소들에 대한 특징점 위치 변화를 통해 매개변수 모델의 표정을 변형할 수 있다.The facial
고유벡터 생성부(133)는 텍스트 데이터에 포함된 각 문장 요소에 대한 음성학적 특성을 이용하여 각 문장 요소에 대응되는 특징점 좌표를 산출하고, 산출된 특징점 좌표를 이용하여 텍스트 데이터를 음성으로 표현할 때 특징점 좌표의 변화를 나타내는 고유벡터를 생성한다. 여기서, 음성학적 특성은 해당 문장 요소를 음성으로 표현할 때 발음기관의 움직임, 얼굴 요소의 움직임 등을 포함할 수 있다.The
영상 보정부(135)는 영상 워핑(Image Warping)을 통해 얼굴 애니메이션 또는 대화 애니메이션에 대한 영상 왜곡을 보정한다. 이때, 영상 보정부(135)는 표정 비율 이미지(Expressive Ratio Image, 이하에서는 'ERI'라고도 함)를 이용하여 얼굴의 주름 등을 표현할 수 있다.The
음성 변환부(137)는 텍스트 데이터를 청취 가능한 웨이브폼(waveform) 형태로 변환하여 음성 데이터를 생성한다.The
음성 합성부(139)는 얼굴 표정 영상에 고유벡터를 반영하여 생성된 얼굴 애니메이션과 음성 변환부(137)에서 생성된 음성 데이터를 합성하여 대화 애니메이션을 생성한다.
The
다음, 도 14 내지 도 16을 참고하여 본 발명의 실시 예에 따른 애니메이션 생성부가 눈동자의 좌표를 결정하는 방법에 대해 설명한다.Next, a method of determining the coordinates of the pupil by the animation generator according to an embodiment of the present invention will be described with reference to FIGS. 14 to 16.
도 14는 본 발명의 제1 실시 예에 따른 얼굴 요소의 좌표를 도시한 도면이다.14 is a diagram illustrating coordinates of a face element according to a first embodiment of the present invention.
도 14에 도시된 바와 같이, 애니메이션 생성부(130)는 얼굴 요소 중 오른쪽 눈동자(410), 왼쪽 눈동자(420), 코(430)의 좌표를 x축, y축, z축의 좌표로 표현할 수 있다.As illustrated in FIG. 14, the
여기서, 눈동자 기준점(400)은 오른쪽 눈동자(410)와 왼쪽 눈동자(420)의 기준점에 해당한다.Here, the
도 15는 본 발명의 제1 실시 예에 따른 눈동자의 좌표를 도시한 도면이다.15 is a diagram illustrating coordinates of a pupil according to a first embodiment of the present invention.
도 15에 도시된 바와 같이, 오른쪽 눈꺼풀(440)은 움직이지 않은 상태에서 오른쪽 눈동자(410)가 아래쪽 방향으로 움직인 경우, 애니메이션 생성부(130)는 눈동자 기준점(400)을 중심으로 오른쪽 눈동자(410)의 z축 좌표의 변화량을 이용하여 오른쪽 눈동자(410)가 움직인 각도를 결정할 수 있다. 여기서, 오른쪽 눈동자(410), 왼쪽 눈동자(420), 오른쪽 눈꺼풀(440)의 z축 좌표는 수학식 1을 따른다.As shown in FIG. 15, when the
수학식 1에서, "zeye"는 눈동자의 z축 좌표를 나타내고, "a"는 제1 가중치를 나타내고, "xp"는 기준점(400)의 x축 좌표를 나타내고, "xr"은 오른쪽 눈동자의 x축 좌표를 나타내고, "xl"은 왼쪽 눈동자의 x축 좌표를 나타낸다. 또한, 수학식 1에서, "zeye′"은 눈꺼풀의 z축 좌표를 나타내고, "b"는 제2 가중치를 나타낸다. 여기서, 제1 가중치는 제2 가중치보다 크다.In
도 16은 본 발명의 제2 실시 예에 따른 눈동자의 좌표를 도시한 도면이다.16 is a diagram illustrating the coordinates of the pupil according to the second embodiment of the present invention.
도 16에 도시된 바와 같이, 오른쪽 눈꺼풀(440)과 왼쪽 눈꺼풀(450)은 움직이지 않은 상태에서 오른쪽 눈동자(410)와 왼쪽 눈동자(420)가 좌측 방향으로 움직인 경우, 애니메이션 생성부(130)는 기준점(400)을 중심으로 오른쪽 눈동자(410)의 x축 좌표의 변화량을 이용하여 오른쪽 눈동자(410)가 움직인 각도를 결정할 수 있다. 여기서, 오른쪽 눈동자(410) 및 왼쪽 눈동자(420)의 x축 좌표는 수학식 2를 따른다.As shown in FIG. 16, when the
수학식 2에서, "x"는 눈동자의 x축 좌표를 나타내고, "g(?)"는 눈동자의 템플릿 함수를 나타낸다.In
여기서, 애니메이션 생성부(130)는 눈동자의 움직임을 회전 행렬 연산으로 표현할 수 있다. 여기서, 움직임에 따른 눈동자의 좌표는 수학식 3을 따른다.Here, the
수학식 3에서, "x′"는 눈동자가 움직인 후의 x축 좌표, "y′"는 눈동자가 움직인 후의 y축 좌표, "z′"는 눈동자가 움직인 후의 z축 좌표를 나타내고, "x"는 눈동자가 움직이기 전의 x축 좌표, "y"는 눈동자가 움직이기 전의 y축 좌표, "z"는 눈동자가 움직이기 전의 z축 좌표를 나타내며, "Rxy"는 x-y 축에서의 회전 행렬을 나타내고, "Ryz"는 y-z 축에서의 회전 행렬을 나타낸다.
In
다음, 도 17 내지 도 19를 참고하여 본 발명의 실시 예에 따른 애니메이션 생성부가 입술의 좌표를 결정하는 방법에 대해 설명한다.Next, a method of determining the coordinates of the lips by the animation generator according to an embodiment of the present invention will be described with reference to FIGS. 17 to 19.
도 17은 본 발명의 제2 실시 예에 따른 얼굴 요소의 좌표를 도시한 도면이다.17 is a diagram illustrating coordinates of a face element according to a second embodiment of the present invention.
도 17에 도시된 바와 같이, 애니메이션 생성부(130)는 얼굴 요소 중 윗입술(510)과 아랫입술(520)의 좌표를 x축, y축, z축의 좌표로 표현할 수 있다.As illustrated in FIG. 17, the
도 18은 본 발명의 제1 실시 예에 따른 입술의 좌표를 도시한 도면이다.18 is a diagram illustrating coordinates of the lips according to the first embodiment of the present invention.
도 18에 도시된 바와 같이, 입을 열지 않은 경우, 애니메이션 생성부(130)는 턱 기준점(500)에서 아랫입술(520)까지의 각도를 이용하여 아랫입술(520)의 좌표를 결정할 수 있다. 여기서, 아랫입술(520)의 좌표는 수학식 4를 따른다.As shown in FIG. 18, when the mouth is not opened, the
수학식 4에서, "x"는 영상 내의 x축 좌표, "y"는 영상 내의 y축 좌표, "f(?)"는 아랫입술의 템플릿 포물선 함수를 나타내고, "z"는 영상 내의 (x, y)에서의 z축 좌표, ""는 임의로 정의된 특징점의 y축 좌표를 나타낸다.In
도 19는 본 발명의 제2 실시 예에 따른 입술의 좌표를 도시한 도면이다.19 is a diagram illustrating coordinates of a lip according to a second embodiment of the present invention.
도 19에 도시된 바와 같이, 입을 벌린 경우, 애니메이션 생성부(130)는 입을 벌린 각도를 이용하여 아랫입술(520)의 좌표를 결정할 수 있다. 여기서, 아랫입술(520)의 좌표는 수학식 5를 따른다.As shown in FIG. 19, when the mouth is open, the
수학식 5에서, "z′"는 입을 벌린 후의 z축 좌표, "y′"는 입을 벌린 후의 y축 좌표, "θ"는 입이 벌어진 각도, "z"는 입을 벌리기 전의 z축 좌표, "y"는 입을 벌리기 전의 y축 좌표를 나타낸다.In Equation 5, "z '" is the z-axis coordinate after opening the mouth, "y'" is the y-axis coordinate after opening the mouth, "θ" is the angle at which the mouth is opened, "z" is the z-axis coordinate before opening the mouth, " y "represents the y-axis coordinate before opening a mouth.
수학식 5에 따르면, 입을 벌린 경우, 아랫입술의 모든 좌표는 (x, y)에서 (x, y′)로 변환된다.
According to Equation 5, when the mouth is opened, all coordinates of the lower lip are converted from (x, y) to (x, y ').
다음, 도 20 내지 도 23을 참고하여 본 발명의 실시 예에 따른 애니메이션 생성부가 얼굴 표정 영상을 생성하는 방법에 대해 설명한다.Next, a method of generating a facial expression image by an animation generator according to an embodiment of the present invention will be described with reference to FIGS. 20 through 23.
도 20은 본 발명의 실시 예에 따른 제1 얼굴 표정 영상을 도시한 도면이다.20 is a diagram illustrating a first facial expression image according to an exemplary embodiment of the present invention.
도 20에 도시된 바와 같이, 애니메이션 생성부(130)의 표정 변형부(131)는 매개변수 제어부(600)를 통해 표정 매개변수들을 제어하여 다양한 얼굴 표정 영상들을 생성할 수 있다. 여기서, 매개변수 제어부(600)는 "행복함(Happiness)", "놀라움(Surprise)", "슬픔(Sadness)", "두려움(Fear)", "혐오감(Disgust)", 및 "화남(Anger)"에 각각 대응되는 표정 매개변수들을 제어할 수 있다.As shown in FIG. 20, the
특히, 애니메이션 생성부(130)의 표정 변형부(131)는 표정 매개변수들을 제어하지 않음으로써 표정이 없는 얼굴 영상에 해당하는 제1 얼굴 표정 영상(610)을 생성할 수 있다.In particular, the
도 21은 본 발명의 실시 예에 따른 제2 얼굴 표정 영상을 도시한 도면이다.21 is a diagram illustrating a second facial expression image according to an exemplary embodiment of the present invention.
도 21에 도시된 바와 같이, 애니메이션 생성부(130)의 표정 변형부(131)는 매개변수 제어부(600)를 통해 표정 매개변수들을 제어하여 다양한 얼굴 표정 영상들을 생성할 수 있다. 여기서, 매개변수 제어부(600)는 "행복함(Happiness)", "놀라움(Surprise)", "슬픔(Sadness)", "두려움(Fear)", "혐오감(Disgust)", 및 "화남(Anger)"에 각각 대응되는 표정 매개변수들을 제어할 수 있다.As shown in FIG. 21, the
특히, 애니메이션 생성부(130)의 표정 변형부(131)는 "화남(Anger)"에 대응되는 표정 매개변수를 제어하여 화난 표정을 나타내는 얼굴 영상에 해당하는 제2 얼굴 표정 영상(620)을 생성할 수 있다.In particular, the facial
도 22는 본 발명의 실시 예에 따른 제3 얼굴 표정 영상을 도시한 도면이다.22 is a diagram illustrating a third facial expression image according to an embodiment of the present invention.
도 22에 도시된 바와 같이, 애니메이션 생성부(130)의 표정 변형부(131)는 매개변수 제어부(600)를 통해 표정 매개변수들을 제어하여 다양한 얼굴 표정 영상들을 생성할 수 있다. 여기서, 매개변수 제어부(600)는 "행복함(Happiness)", "놀라움(Surprise)", "슬픔(Sadness)", "두려움(Fear)", "혐오감(Disgust)", 및 "화남(Anger)"에 각각 대응되는 표정 매개변수들을 제어할 수 있다.As shown in FIG. 22, the
특히, 애니메이션 생성부(130)의 표정 변형부(131)는 "행복함(Happiness)"에 대응되는 표정 매개변수를 제어하여 행복한 표정을 나타내는 얼굴 영상에 해당하는 제3 얼굴 표정 영상(630)을 생성할 수 있다.In particular, the facial
도 23은 본 발명의 실시 예에 따른 제4 얼굴 표정 영상을 도시한 도면이다.FIG. 23 is a diagram illustrating a fourth facial expression image according to an exemplary embodiment of the present invention.
도 23에 도시된 바와 같이, 애니메이션 생성부(130)의 표정 변형부(131)는 매개변수 제어부(600)를 통해 표정 매개변수들을 제어하여 다양한 얼굴 표정 영상들을 생성할 수 있다. 여기서, 매개변수 제어부(600)는 "행복함(Happiness)", "놀라움(Surprise)", "슬픔(Sadness)", "두려움(Fear)", "혐오감(Disgust)", 및 "화남(Anger)"에 각각 대응되는 표정 매개변수들을 제어할 수 있다.As illustrated in FIG. 23, the
특히, 애니메이션 생성부(130)의 표정 변형부(131)는 "놀라움(Surprise)"에 대응되는 표정 매개변수를 제어하여 슬픈 표정을 나타내는 얼굴 영상에 해당하는 제4 얼굴 표정 영상(640)을 생성할 수 있다.
In particular, the
다음, 도 24를 참고하여 본 발명의 실시 예에 따른 아바타를 이용한 애니메이션 생성 방법에 대해 설명한다.Next, a method for generating animation using an avatar according to an embodiment of the present invention will be described with reference to FIG. 24.
도 24는 본 발명의 실시 예에 따른 애니메이션 생성 방법을 도시한 도면이다.24 is a diagram illustrating a method of generating animation according to an embodiment of the present invention.
도 24에 도시된 바와 같이, 먼저, 입력부(110)는 이차원 얼굴 영상 및 텍스트 데이터를 포함하는 입력 데이터를 수신한다(S200).As shown in FIG. 24, first, the
다음, 모델 생성부(120)는 입력 데이터에 포함된 이차원 얼굴 영상으로부터 복수 개의 특징점들을 추출하고, 입력 데이터에 포함된 텍스트 데이터에서 특징 단어를 추출하여, 입력 데이터로부터 복수 개의 특징점들 및 특징 단어를 포함하는 특징 데이터를 추출한다(S210).Next, the
이후, 모델 생성부(120)는 추출된 복수 개의 특징점들을 이용하여 입력된 이차원 얼굴 영상에서 얼굴 요소들을 추출한다(S220).Thereafter, the
다음, 모델 생성부(120)는 추출된 얼굴 요소들로 구성되고 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 매개변수 모델을 생성한다(S230).Next, the
이후, 모델 생성부(120)는 미리 저장된 데이터베이스에서 추출된 특징 데이터 대응되는 표정 매개변수를 검색한다(S240).Thereafter, the
다음, 애니메이션 생성부(130)는 검색된 표정 매개변수에 따라 매개변수 모델을 구성하는 얼굴 요소들을 변형하여 표정 매개변수에 대응되는 표정이 반영된 얼굴 표정 영상을 생성한다(S250).Next, the
이후, 애니메이션 생성부(130)는 텍스트 데이터를 음성으로 표현할 때 얼굴 표정 영상의 얼굴 요소들에 대한 궤적을 나타내는 고유벡터를 생성한다(S260). 여기서, 애니메이션 생성부(130)는 텍스트 데이터에 포함된 각 문자 요소에 대한 음성학적 특성을 이용하여 각 문장 요소에 대응되는 특징점 좌표를 산출하고, 산출된 특징점 좌표를 이용하여 고유벡터를 생성할 수 있다.Thereafter, the
다음, 애니메이션 생성부(130)는 얼굴 표정 영상에 고유벡터를 적용하여 텍스트 데이터를 음성으로 표현하는 동안에 얼굴 표정 영상의 얼굴 요소들의 움직임을 반영한 얼굴 애니메이션을 생성한다(S270).Next, the
이후, 애니메이션 생성부(130)는 텍스트 데이터를 웨이브폼 형태로 변환한 음성 데이터를 얼굴 애니메이션과 합성하여 대화 애니메이션을 생성한다(S280).Thereafter, the
다음, 출력부(140)는 가상공간에서 입력 데이터에 포함된 이차원 얼굴 영상에 대응되는 아바타를 이용하여 대화 애니메이션을 출력한다(S290).
Next, the
다음, 도 25를 참고하여 본 발명의 실시 예에 따른 가상공간에서 아바타들 간의 대화 애니메이션을 출력한 영상에 대해 설명한다.Next, an image outputting a dialogue animation between avatars in a virtual space will be described with reference to FIG. 25.
도 25는 본 발명의 실시 예에 따른 아바타들간의 대화 애니메이션 출력 영상을 도시한 도면이다.25 is a diagram illustrating a dialogue animation output image between avatars according to an embodiment of the present invention.
도 25에 도시된 바와 같이, 먼저, 애니메이션 생성 장치(100)는 제1 입력 데이터(710) 및 제2 입력 데이터(720)를 입력받는다. 여기서, 제1 입력 데이터(710)는 제1 이차원 얼굴 영상(711) 및 제1 대화 문장(713)을 포함하고, 제2 입력 데이터(720)는 제2 이차원 얼굴 영상(721) 및 제2 대화 문장(723)을 포함한다.As illustrated in FIG. 25, first, the
다음, 애니메이션 생성 장치(100)는 제1 입력 데이터(710)를 이용하여 제1 대화 애니메이션을 생성하고, 제2 입력 데이터(720)를 이용하여 제2 대화 애니메이션을 생성한다.Next, the
이후, 애니메이션 생성 장치(100)는 가상환경(730)에서 제1 이차원 얼굴 영상(711)에 대응되는 제1 아바타(740)를 통해 제1 대화 애니메이션을 출력하고, 제2 이차원 얼굴 영상(721)에 대응되는 제2 아바타(750)를 통해 제2 대화 애니메이션을 출력한다.
Subsequently, the
이상에서와 같이 도면과 명세서에서 최적의 실시 예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, an optimal embodiment has been disclosed in the drawings and specification. Although specific terms have been employed herein, they are used for purposes of illustration only and are not intended to limit the scope of the invention as defined in the claims or the claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.
100: 애니메이션 생성 장치
110: 입력부
120: 모델 생성부
121: 특징 추출부
123: 검색부
125: 학습부
130: 애니메이션 생성부
131: 표정 변형부
133: 고유벡터 생성부
135: 영상 보정부
137: 음성 변환부
139: 음성 합성부
140: 출력부100: animation generating device
110: input unit
120: model generation unit
121: feature extraction unit
123: search unit
125:
130: animation generator
131: expression deformity
133: eigenvector generator
135: image correction unit
137: voice conversion unit
139: speech synthesis unit
140: output unit
Claims (16)
상기 텍스트 데이터에 포함된 단어의 음성학적 특성을 이용하여 상기 텍스트 데이터를 음성으로 표현할 때 상기 복수 개의 특징점들의 위치 변화를 나타내는 벡터를 생성하고, 상기 매개변수 모델에 상기 표정 매개변수 및 상기 벡터를 적용하여 상기 텍스트 데이터를 음성으로 표현하는 동안의 표정 변화를 반영한 애니메이션을 생성하는 애니메이션 생성부; 및
가상공간에서 상기 이차원 얼굴 영상에 대응되는 아바타를 이용하여 상기 애니메이션을 출력하는 출력부를 포함하는 아바타를 이용한 애니메이션 생성 장치.Generating a parametric model capable of transforming a facial expression using a plurality of feature points extracted from a two-dimensional face image, and retrieving feature words extracted from text data and expression parameters corresponding to the plurality of feature points from a pre-stored database. A model generator;
When the text data is spoken using the phonetic characteristics of the words included in the text data, a vector representing a change in position of the plurality of feature points is generated, and the facial expression parameter and the vector are applied to the parameter model. An animation generator for generating an animation reflecting a change in facial expression while expressing the text data by voice; And
And an output unit configured to output the animation using an avatar corresponding to the two-dimensional face image in a virtual space.
상기 모델 생성부는
상기 복수 개의 특징점들을 이용하여 상기 이차원 얼굴 영상에서 얼굴 요소들을 추출하고, 상기 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 상기 매개변수 모델을 생성하는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 1,
The model generation unit
And extracting facial elements from the two-dimensional face image using the plurality of feature points, and generating the parametric model capable of modifying an expression by modifying the facial elements.
상기 벡터는
상기 텍스트 데이터를 음성으로 표현할 때 상기 얼굴 요소들에 대한 궤적을 나타내는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 2,
The vector is
And an avatar representing a trajectory for the face elements when the text data is expressed by voice.
상기 애니메이션 생성부는
상기 표정 매개변수에 따라 상기 얼굴 요소들을 변형하여 얼굴 표정 영상을 생성하고, 상기 얼굴 표정 영상에 상기 벡터를 적용하여 상기 텍스트 데이터를 음성으로 표현하는 동안에 상기 얼굴 요소들의 움직임을 반영한 얼굴 애니메이션을 생성하는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 3,
The animation generator
Generating a facial expression image by modifying the facial elements according to the facial expression parameters, and generating a facial animation reflecting the movement of the facial elements while expressing the text data by voice by applying the vector to the facial expression image. An apparatus for generating animation using an avatar.
상기 애니메이션 생성부는
상기 텍스트 데이터를 웨이브폼 형태로 변환하여 상기 텍스트 데이터에 대응되는 음성 데이터를 생성하는 음성 변환부; 및
상기 얼굴 애니메이션을 상기 음성 데이터와 합성하여 대화 애니메이션을 생성하는 음성 합성부를 포함하는 아바타를 이용한 애니메이션 생성 장치.The method of claim 4,
The animation generator
A voice converter for converting the text data into a waveform to generate voice data corresponding to the text data; And
And a voice synthesizer configured to generate a dialogue animation by synthesizing the face animation with the voice data.
상기 모델 생성부는
상기 복수 개의 특징점들을 이용하여 상기 이차원 얼굴 영상에서 복수 개의 템플릿들을 추출하고, 디지털 이미지 매팅을 통해 상기 복수 개의 템플릿들에 대응되는 매팅 영상들을 생성하며, 상기 매팅 영상들을 이용하여 상기 얼굴 요소들을 생성하는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 2,
The model generation unit
Extracting a plurality of templates from the two-dimensional face image using the plurality of feature points, generating matting images corresponding to the plurality of templates through digital image matting, and generating the face elements using the matting images. An apparatus for generating animation using an avatar.
상기 모델 생성부는
템플릿 매칭을 통해 상기 이차원 얼굴 영상에서 상기 복수 개의 템플릿들을 추출하는 아바타를 이용한 애니메이션 생성 장치.The method of claim 6,
The model generator
An apparatus for generating animation using an avatar extracting the plurality of templates from the two-dimensional face image through template matching.
상기 모델 생성부는
상기 복수 개의 특징점들을 아핀 변환(Affine Transformation)을 통해 정규화하여 정규화된 얼굴 모델을 생성하고, 상기 정규화된 얼굴 모델과 상기 특징 단에 대응되는 상기 표정 매개변수를 검색하는 검색부를 포함하는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 1,
The model generator
Normalize the plurality of feature points through an affine transformation to generate a normalized face model, and use the avatar to search for the normalized face model and the facial expression parameters corresponding to the feature stage. Generating device.
상기 데이터베이스는
미리 저장된 표본 영상들과 표본 단어들을 서로 다른 표정들로 분류하여 각 표정에 대응되는 복수 개의 표정 매개변수들을 저장하는 아바타를 이용한 애니메이션 생성 장치.The method according to claim 1,
The database
An apparatus for generating animation using an avatar storing pre-stored sample images and sample words into different expressions and storing a plurality of expression parameters corresponding to each expression.
상기 복수 개의 특징점들을 이용하여 매개변수 제어를 통해 표정의 변형이 가능한 매개변수 모델을 생성하는 단계;
미리 저장된 데이터베이스에서 상기 특징 데이터에 대응되는 표정 매개변수를 검색하는 단계;
상기 텍스트 데이터를 음성으로 표현하는 동안에 상기 복수 개의 특징점들의 위치 변화를 나타내는 벡터를 생성하는 단계;
상기 매개변수 모델에 상기 표정 매개변수 및 상기 벡터를 적용하여 상기 텍스트 데이터를 음성으로 표현하는 동안에 상기 복수 개의 특징점들의 위치 변화를 반영한 얼굴 애니메이션을 생성하는 단계; 및
상기 텍스트 데이터를 웨이브폼 형태로 변환한 음성 데이터를 상기 얼굴 애니메이션과 합성하여 대화 애니메이션을 생성하는 단계를 포함하는 아바타를 이용한 애니메이션 생성 방법.Extracting feature data including a plurality of feature points and feature words from input data including a two-dimensional face image and text data;
Generating a parameter model capable of modifying an expression through parameter control using the plurality of feature points;
Retrieving a facial expression parameter corresponding to the feature data from a pre-stored database;
Generating a vector representing a change in position of the plurality of feature points while the text data is spoken;
Generating a facial animation reflecting the positional changes of the plurality of feature points while the text data is spoken by applying the facial expression parameter and the vector to the parameter model; And
And generating a dialogue animation by synthesizing the voice data obtained by converting the text data into a waveform form with the facial animation.
상기 표정 매개변수를 검색하는 단계는
상기 복수 개의 특징점들을 정규화하여 정규화된 얼굴 모델을 생성하는 단계; 및
상기 데이터베이스에서 상기 정규화된 얼굴 모델 및 상기 특징 단어에 대응되는 상기 표정 매개변수를 검색하는 단계를 포함하는 아바타를 이용한 애니메이션 생성 방법.The method of claim 10,
Retrieving the facial expression parameter
Normalizing the plurality of feature points to generate a normalized face model; And
And searching for the facial expression parameters corresponding to the normalized face model and the feature word in the database.
상기 데이터베이스는
미리 저장된 표본 영상들과 표본 단어들을 서로 다른 표정들로 분류하여 각 표정에 대응되는 표정 매개변수를 저장하는 아바타를 이용한 애니메이션 생성 방법.The method of claim 11,
The database
A method for generating animation using an avatar storing pre-stored sample images and sample words into different expressions to store expression parameters corresponding to each expression.
상기 매개변수 모델을 생성하는 단계는
상기 복수 개의 특징점들을 이용하여 상기 이차원 얼굴 영상에서 얼굴 요소들을 검출하는 단계; 및
상기 얼굴 요소들로 구성되고 상기 얼굴 요소들의 변형을 통해 표정의 변형이 가능한 상기 매개변수 모델을 생성하는 단계를 포함하는 아바타를 이용한 애니메이션 생성 방법.The method of claim 10,
Generating the parametric model
Detecting face elements in the two-dimensional face image using the plurality of feature points; And
And generating the parametric model composed of the face elements and capable of modifying an expression through the deformation of the face elements.
상기 벡터를 생성하는 단계는
상기 텍스트 데이터를 음성으로 표현하는 동안에 상기 얼굴 요소들의 궤적을 나타내는 벡터를 생성하는 아바타를 이용한 애니메이션 생성 방법.The method according to claim 13,
Generating the vector
And generating a vector representing a trajectory of the face elements while expressing the text data by voice.
상기 얼굴 애니메이션을 생성하는 단계는
상기 표정 매개변수에 따라 상기 매개변수 모델의 표정을 변형하여 얼굴 표정 모델을 생성하는 단계; 및
상기 얼굴 표정 모델에 상기 벡터를 적용하여 상기 텍스트 데이터를 음성으로 표현하는 동안에 상기 얼굴 요소들의 움직임을 반영한 얼굴 애니메이션을 생성하는 단계를 포함하는 아바타를 이용한 애니메이션 생성 방법.The method according to claim 14,
Generating the face animation
Generating a facial expression model by modifying an expression of the parameter model according to the facial expression parameter; And
Generating a facial animation reflecting the movement of the facial elements while expressing the text data by voice by applying the vector to the facial expression model.
가상공간에서 상기 이차원 얼굴 영상에 대응되는 아바타를 이용하여 상기 대화 애니메이션을 출력하는 단계를 더 포함하는 아바타를 이용한 애니메이션 생성 방법.The method of claim 10,
And outputting the dialogue animation using an avatar corresponding to the two-dimensional face image in a virtual space.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110048714A KR101558202B1 (en) | 2011-05-23 | 2011-05-23 | Apparatus and method for generating animation using avatar |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110048714A KR101558202B1 (en) | 2011-05-23 | 2011-05-23 | Apparatus and method for generating animation using avatar |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120130627A true KR20120130627A (en) | 2012-12-03 |
KR101558202B1 KR101558202B1 (en) | 2015-10-12 |
Family
ID=47514670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110048714A KR101558202B1 (en) | 2011-05-23 | 2011-05-23 | Apparatus and method for generating animation using avatar |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101558202B1 (en) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170047167A (en) * | 2015-10-22 | 2017-05-04 | 한국과학기술연구원 | Method and apparatus for converting an impression of a face in video |
WO2019164266A1 (en) * | 2018-02-23 | 2019-08-29 | Samsung Electronics Co., Ltd. | Electronic device for generating image including 3d avatar reflecting face motion through 3d avatar corresponding to face and method of operating same |
KR20190114150A (en) * | 2018-03-29 | 2019-10-10 | 네오사피엔스 주식회사 | Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video |
KR20190137018A (en) * | 2018-05-31 | 2019-12-10 | 이충훈 | Device of generating animation character and Method thereof |
KR20200107930A (en) * | 2019-03-06 | 2020-09-16 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | Image processing method and apparatus |
WO2020256475A1 (en) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | Method and device for generating speech video by using text |
KR20200145719A (en) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | Method and apparatus for generating speech video of using a text |
CN112562026A (en) * | 2020-10-22 | 2021-03-26 | 百果园技术(新加坡)有限公司 | Wrinkle special effect rendering method and device, electronic equipment and storage medium |
CN113436302A (en) * | 2021-06-08 | 2021-09-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | Face animation synthesis method and system |
JP2021528719A (en) * | 2019-05-15 | 2021-10-21 | 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co.,Ltd. | Virtual avatar generation method and device, and storage medium |
KR20220011100A (en) | 2020-07-20 | 2022-01-27 | 펄스나인 주식회사 | Digital human generation system and method through face image search |
KR20220040269A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | A method for an intuitive interface to explore image feature data |
KR20220040261A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Device for retrieving reference direction vectors for each face feature in a statistical manner |
KR20220040273A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Apparatus for an interface for intuitively adjusting the features of artificial intelligence images |
KR20220040258A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Method for finding meaningful feature vectors in artificial intelligence image generation |
CN114363712A (en) * | 2022-01-13 | 2022-04-15 | 深圳迪乐普智能科技有限公司 | AI digital person video generation method, device and equipment based on templated editing |
WO2022108275A1 (en) * | 2020-11-18 | 2022-05-27 | 주식회사 에스알유니버스 | Method and device for generating virtual face by using artificial intelligence |
US11380077B2 (en) | 2018-05-07 | 2022-07-05 | Apple Inc. | Avatar creation user interface |
EP3915108A4 (en) * | 2019-01-25 | 2022-09-07 | Soul Machines Limited | Real-time generation of speech animation |
CN115116109A (en) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | Virtual character speaking video synthesis method, device, equipment and storage medium |
US11532112B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Emoji recording and sending |
US11733769B2 (en) | 2020-06-08 | 2023-08-22 | Apple Inc. | Presenting avatars in three-dimensional environments |
KR20240080684A (en) | 2022-11-30 | 2024-06-07 | (주)라이언로켓 | Apparatus and method for generating virtual human through one-shot face swap |
US12026814B2 (en) | 2020-11-18 | 2024-07-02 | Sruniverse Co., Ltd. | Method and device for generating virtual face by using artificial intelligence |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102558953B1 (en) | 2018-08-29 | 2023-07-24 | 주식회사 케이티 | Apparatus, method and user device for prividing customized character |
KR102231391B1 (en) * | 2019-12-23 | 2021-03-23 | 연세대학교 산학협력단 | Method and Apparatus for Generating Video Based on Keypoints |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4474546B2 (en) | 2004-10-05 | 2010-06-09 | 国立大学法人東京農工大学 | Face shape modeling system and face shape modeling method |
-
2011
- 2011-05-23 KR KR1020110048714A patent/KR101558202B1/en not_active IP Right Cessation
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170047167A (en) * | 2015-10-22 | 2017-05-04 | 한국과학기술연구원 | Method and apparatus for converting an impression of a face in video |
US11532112B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Emoji recording and sending |
US10977873B2 (en) | 2018-02-23 | 2021-04-13 | Samsung Electronics Co., Ltd. | Electronic device for generating image including 3D avatar reflecting face motion through 3D avatar corresponding to face and method of operating same |
WO2019164266A1 (en) * | 2018-02-23 | 2019-08-29 | Samsung Electronics Co., Ltd. | Electronic device for generating image including 3d avatar reflecting face motion through 3d avatar corresponding to face and method of operating same |
US11798246B2 (en) | 2018-02-23 | 2023-10-24 | Samsung Electronics Co., Ltd. | Electronic device for generating image including 3D avatar reflecting face motion through 3D avatar corresponding to face and method of operating same |
KR20190114150A (en) * | 2018-03-29 | 2019-10-10 | 네오사피엔스 주식회사 | Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video |
US11682182B2 (en) | 2018-05-07 | 2023-06-20 | Apple Inc. | Avatar creation user interface |
US11380077B2 (en) | 2018-05-07 | 2022-07-05 | Apple Inc. | Avatar creation user interface |
KR20190137018A (en) * | 2018-05-31 | 2019-12-10 | 이충훈 | Device of generating animation character and Method thereof |
EP3915108A4 (en) * | 2019-01-25 | 2022-09-07 | Soul Machines Limited | Real-time generation of speech animation |
US11244449B2 (en) | 2019-03-06 | 2022-02-08 | Beijing Sensetime Technology Development Co., Ltd. | Image processing methods and apparatuses |
KR20200107930A (en) * | 2019-03-06 | 2020-09-16 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | Image processing method and apparatus |
JP2021528719A (en) * | 2019-05-15 | 2021-10-21 | 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co.,Ltd. | Virtual avatar generation method and device, and storage medium |
US11403874B2 (en) | 2019-05-15 | 2022-08-02 | Beijing Sensetime Technology Development Co., Ltd. | Virtual avatar generation method and apparatus for generating virtual avatar including user selected face property, and storage medium |
KR20200145719A (en) * | 2019-06-21 | 2020-12-30 | 주식회사 머니브레인 | Method and apparatus for generating speech video of using a text |
US11972516B2 (en) | 2019-06-21 | 2024-04-30 | Deepbrain Ai Inc. | Method and device for generating speech video by using text |
WO2020256475A1 (en) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | Method and device for generating speech video by using text |
US11733769B2 (en) | 2020-06-08 | 2023-08-22 | Apple Inc. | Presenting avatars in three-dimensional environments |
KR20220011100A (en) | 2020-07-20 | 2022-01-27 | 펄스나인 주식회사 | Digital human generation system and method through face image search |
KR20220040258A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Method for finding meaningful feature vectors in artificial intelligence image generation |
KR20220040273A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Apparatus for an interface for intuitively adjusting the features of artificial intelligence images |
KR20220040261A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | Device for retrieving reference direction vectors for each face feature in a statistical manner |
KR20220040269A (en) | 2020-09-23 | 2022-03-30 | 펄스나인 주식회사 | A method for an intuitive interface to explore image feature data |
CN112562026A (en) * | 2020-10-22 | 2021-03-26 | 百果园技术(新加坡)有限公司 | Wrinkle special effect rendering method and device, electronic equipment and storage medium |
US12026814B2 (en) | 2020-11-18 | 2024-07-02 | Sruniverse Co., Ltd. | Method and device for generating virtual face by using artificial intelligence |
WO2022108275A1 (en) * | 2020-11-18 | 2022-05-27 | 주식회사 에스알유니버스 | Method and device for generating virtual face by using artificial intelligence |
CN113436302B (en) * | 2021-06-08 | 2024-02-13 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | Face animation synthesis method and system |
CN113436302A (en) * | 2021-06-08 | 2021-09-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | Face animation synthesis method and system |
CN114363712A (en) * | 2022-01-13 | 2022-04-15 | 深圳迪乐普智能科技有限公司 | AI digital person video generation method, device and equipment based on templated editing |
CN114363712B (en) * | 2022-01-13 | 2024-03-19 | 深圳迪乐普智能科技有限公司 | AI digital person video generation method, device and equipment based on templated editing |
CN115116109A (en) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | Virtual character speaking video synthesis method, device, equipment and storage medium |
CN115116109B (en) * | 2022-04-27 | 2024-05-14 | 平安科技(深圳)有限公司 | Virtual character speaking video synthesizing method, device, equipment and storage medium |
KR20240080684A (en) | 2022-11-30 | 2024-06-07 | (주)라이언로켓 | Apparatus and method for generating virtual human through one-shot face swap |
US12033296B2 (en) | 2023-04-24 | 2024-07-09 | Apple Inc. | Avatar creation user interface |
Also Published As
Publication number | Publication date |
---|---|
KR101558202B1 (en) | 2015-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101558202B1 (en) | Apparatus and method for generating animation using avatar | |
US11741940B2 (en) | Text and audio-based real-time face reenactment | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
Pham et al. | Speech-driven 3D facial animation with implicit emotional awareness: A deep learning approach | |
Mattheyses et al. | Audiovisual speech synthesis: An overview of the state-of-the-art | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
Busso et al. | Rigid head motion in expressive speech animation: Analysis and synthesis | |
US9959657B2 (en) | Computer generated head | |
EP3912159B1 (en) | Text and audio-based real-time face reenactment | |
CN113781610B (en) | Virtual face generation method | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
CN110688008A (en) | Virtual image interaction method and device | |
Yu et al. | A video, text, and speech-driven realistic 3-D virtual head for human–machine interface | |
WO2023284435A1 (en) | Method and apparatus for generating animation | |
US20140210831A1 (en) | Computer generated head | |
KR102373608B1 (en) | Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same | |
Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
Beskow et al. | Data-driven synthesis of expressive visual speech using an MPEG-4 talking head. | |
Ding et al. | Lip animation synthesis: a unified framework for speaking and laughing virtual agent. | |
Huang et al. | Visual speech emotion conversion using deep learning for 3D talking head | |
Sato et al. | Synthesis of photo-realistic facial animation from text based on HMM and DNN with animation unit | |
Theobald et al. | 2.5 D Visual Speech Synthesis Using Appearance Models. | |
Chollet et al. | Multimodal human machine interactions in virtual and augmented reality | |
Edge et al. | Model-based synthesis of visual speech movements from 3D video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |