KR20170062089A

KR20170062089A - 3d아바타의 표정 구현 방법 및 프로그램

Info

Publication number: KR20170062089A
Application number: KR1020150167493A
Authority: KR
Inventors: 김일
Original assignee: 주식회사 매니아마인드
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2017-06-07

Abstract

본 발명은 3D아바타의 표정 구현 방법 및 프로그램에 관한 것이다.
본 발명의 일실시예에 따른 3D아바타의 표정 구현 방법은, 컴퓨터가 사용자의 발화데이터를 수신하여, 음성인식을 통해 문장데이터를 생성하는 단계로서, 상기 문장데이터는 하나 이상의 글자데이터를 포함하는, 문장데이터 생성단계(S100); 각각의 글자데이터를 발음기호를 적용하는 단계(S110); 각각의 발음기호에 상응하는 입모양데이터를 로드하는 단계(S120); 및 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 단계(S130);를 포함한다.
본 발명에 따르면, 아바타의 얼굴 표정을 사용자의 실제 얼굴 표정과 유사하게 표현함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있다.

Description

3D아바타의 표정 구현 방법 및 프로그램 {METHOD AND PROGRAM FOR MAKING THE REAL-TIME FACE OF 3D AVATAR}

본 발명은 3D아바타의 표정 구현 방법 및 프로그램에 관한 것으로, 보다 자세하게는 사용자의 실제 표정과 근사한 가상현실(Virtual Reality; VR) 상의 3차원 아바타의 표정을 구현하는 방법 및 프로그램에 관한 것이다.

가상 공간에서 아바타를 제어하는 다양한 연구들이 진행되고 있다. 최근, 아바타의 몸 동작을 제어하는 것을 넘어서 아바타의 얼굴 표정을 제어하여 풍부한 표현이 가능하도록 하는 기술들에 대한 필요성이 대두되고 있다.

예를 들어, 온라인 대화 시스템에서는 아바타의 몸 동작보다 아바타의 얼굴 표정과 입술 움직임을 제어하는 것이 더 효과적으로 사용자의 의도를 상대방에게 전달할 수 있을 것이다. 따라서, 본 발명자는 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있는 기술에 대한 연구를 하게 되었다.

사용자의 음성에 따른 실시간 입모양을 생성하고 사용자의 감정에 부합하는 얼굴움직임을 생성하여, 가상현실 상에서 현실감 있는 대화를 제공할 수 있는 3D아바타의 표정 구현 방법 및 프로그램을 제공하고자 한다.

본 발명의 일실시예에 따른 3D아바타의 표정 구현 방법은, 컴퓨터가 사용자의 발화데이터를 수신하여, 음성인식을 통해 문장데이터를 생성하는 단계로서, 상기 문장데이터는 하나 이상의 글자데이터를 포함하는, 문장데이터 생성단계; 각각의 글자데이터를 발음기호를 적용하는 단계; 각각의 발음기호에 상응하는 입모양데이터를 로드하는 단계; 및 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 단계;를 포함한다.

또한, 글자데이터와 발음기호를 매칭하는 데이터테이블을 생성하는 단계;를 더 포함할 수 있다.

또한, 상기 데이터테이블 생성단계는, 발음기호별로 입모양 데이터를 생성하여 각각의 발음기호에 매칭하는 단계;를 더 포함할 수 있다.

본 발명의 다른 일실시예에 따른 3D아바타의 표정 구현 방법은, 컴퓨터가 사용자의 감정상태를 판단하는 단계; 및 사용자의 감정상태에 부합하는 얼굴움직임데이터를 생성하는 단계;를 포함한다.

또한, 상기 감정상태 판단단계는 하나 이상의 기본감정이 혼합된 세부감정을 인식하고, 상기 얼굴움직임데이터 생성단계는 상기 기본감정에 상응하는 각각의 기본 얼굴움직임데이터를 혼합하여 최종 얼굴움직임데이터를 생성하는 것을 특징으로 할 수 있다.

또한, 상기 감정상태 판단단계는, 상기 세부감정을 형성하는 하나 이상의 기본감정의 가중치를 산출하는 것을 특징으로 할 수 있다.

상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.

첫째, 아바타의 얼굴 표정을 사용자의 실제 얼굴 표정과 유사하게 표현함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있다.

둘째, 사용자가 말하는 음성에 부합하는 입모양과 사용자의 음성 등을 통해 인식되는 감정에 부합하는 얼굴움직임을 결합하여 실제 사용자의 표정에 가장 근접한 아바타의 실시간 표정을 구현할 수 있다.

도 1은 본 발명의 일실시예에 따른 사용자 음성의 입모양 인식을 통한 3D아바타의 표정 구현 방법의 순서도이다.
도 2는 본 발명의 일실시예에 따른 사용자 감정 인식을 통한 3D아바타의 표정 구현 방법의 순서도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에서 컴퓨터는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.

본 명세서에서 발화데이터는 사용자에 의해 입력되는 대화 음성에 해당하는 데이터를 의미한다. 발화데이터는 다양한 언어의 음성이 해당될 수 있다.

본 명세서에서 입모양데이터는 사용자의 음성에 부합하는 입모양 움직임을 의미한다. 본 명세서에서 얼굴움직임데이터는 사용자의 감정에 의해 표현되는 얼굴움직임을 의미한다. 본 명세서에서 얼굴표정데이터는, 발화에 의한 입모양과 감정에 의한 얼굴움직임이 혼합되어 생성되는 최종적인 실시간 표정을 의미한다.

이하, 도면을 참조하여 본 발명의 실시예들에 따른 3D아바타의 표정 구현 방법에 대해 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 사용자 음성의 입모양 인식을 통한 3D아바타의 표정 구현 방법의 순서도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 3D아바타의 표정 구현 방법은, 컴퓨터가 사용자의 발화데이터를 수신하여, 음성인식을 통해 문장데이터를 생성하는 단계로서, 상기 문장데이터는 하나 이상의 글자데이터를 포함하는, 문장데이터 생성단계(S100); 각각의 글자데이터를 발음기호를 적용하는 단계(S110); 각각의 발음기호에 상응하는 입모양데이터를 로드하는 단계(S120); 및 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 단계(S130);를 포함한다. 본 발명의 일 실시예에 따른 3D아바타의 표정 구현 방법을 순서대로 설명한다.

사용자의 실제 표정을 바탕으로 애니메이션 등에서 실제 표정을 구현해내는 경우, 사용자의 표정을 직접 센싱하여 아바타에 적용하고, 음성과 동일 시점에 매칭할 수 있다. 그러나, 가상현실 상에서 아바타를 이용하는 서비스에서는, 사용자의 실제 표정과 동일한 표정을 구현하기 위해 사용자의 실제 표정을 센싱하는 것은 어려움이 있다. 따라서, 사용자의 음성을 인식하여 복수의 기본 입모양을 조합하여 사용자의 발화에 상응하는 3D아바타의 입모양을 생성할 수 있다.

입으로 만들 수 있는 모양은 제한되어 있으며, 특히 언어의 발화를 위한 입모양은 더욱 제한된다. 발화 시 입모양의 대부분은 모음에 기반하므로 모음을 중심으로 입모양을 수집하고 자음과 이중모음에 의한 특별한 입모양 변화를 수집하여 입모양에 대한 라이브러리를 만들고 음성에서 추출한 문장의 글자를 여기에 연결하여 연속된 입모양리스트를 만들면 아바타의 립싱크가 가능하다.

컴퓨터가 사용자의 발화데이터를 수신하여, 음성인식을 통해 문장데이터를 생성한다(S100). 상기 문장데이터는 하나 이상의 글자(Character)데이터를 포함한다. 예를 들어, 글자데이터는, 알파벳으로 된 언어(예를 들어, 영어, 불어 등)의 경우에는 각각의 알파벳을 의미하고, 한글의 경우, 초성, 중성, 종성이 결합된 하나의 음절을 의미할 수 있다. 컴퓨터는 사용자의 발화데이터(즉, 음성데이터)를 수신하여 음성인식을 통해 텍스트로 된 문장데이터로 변환할 수 있다.

상기 문장데이터 생성단계(S100)는, 각 글자별 발화시작시간을 인식하는 단계;를 포함할 수 있다. 일실시예로, 컴퓨터는 발화데이터의 변화를 감지하여 각 글자에 대응하는 음성의 발화시간을 측정할 수 있다. 이를 통해, 컴퓨터는 3D아바타의 특정한 음절에 상응하는 입모양의 유지시간을 산출할 수 있으며, 입모양을 변경(전이)하여야 하는 시점을 판단할 수 있다. 다른 일실시예로, 컴퓨터는 생성된 문장데이터와 발화데이터를 비교하면서 각각의 글자데이터 또는 음절데이터의 발화시점을 판단할 수 있다.

컴퓨터는 각각의 글자데이터에 발음기호를 적용한다(S110). 글자데이터는 최대 2개의 발음기호와 연결될 수 있으며, 발음기호는 각 글자 또는 글자의 구성요소의 연결된 순서대로 배치될 수 있다. 예를 들어, 알파벳으로 된 언어의 경우, 컴퓨터는 각 알파벳에 특정한 발음기호가 매칭 또는 대응되므로 각 알파벳(글자)의 배치 순서에 따라 발음기호 순서를 설정할 수 있다. 또한, 예를 들어, 한글의 경우, 초성에 해당하는 자음은 입모양에 영향을 미치지 않고, 중성에 해당하는 모음과 종성에 해당하는 자음 받침에 의해 입모양이 결정되므로, 컴퓨터는 중성에 해당하는 발음기호와 종성에 해당하는 발음기호를 중성과 종성의 순서대로 설정할 수 있다.

한글의 경우를 구체적으로 살펴보면, 사람의 발음 시 입모양은 모음을 중심으로 생성되므로 모음을 중심으로 발음기호를 설정하고, 부가적인 입모양에 영향을 미치는 발음기호를 부가할 수 있다. 즉, 자음에 의한 특수한 입모양 및 이중모음은 별도 발음기호 또는 모음 발음기호의 연속으로 처리할 수 있다.

일실시예로, 'ㅏ'는 발음기호'a'고 대부분'ㅏ'는 어떤 자음에도 거의 유사한 형태를 갖추므로 한 형태로 수렴이 가능하지만, '압'의 경우 'a' 입모양을 수행한 후 입을 닫는 형태를 추가적으로 필요하게 된다. 이 경우는 입을 닫는 발음기호로 'b'로 표시하고 'a'와 'b'가 연속으로 표시될 수 있도록 한다.

다른 일실시예로,'ㅗ'의 경우는'o', 'ㅐ'는 'e'의 발음기호로 표시할 때 'ㅙ'는 'o'와 'e'를 순차적으로 발음하게 된다. 이런 이중모음도 앞의 경우와 마찬가지로'o'와'e'를 순차적으로 표시할 수 있도록 한다.

컴퓨터가 각각의 발음기호에 상응하는 입모양데이터를 로드한다(S120). 컴퓨터는 저장된 입모양 데이터베이스에서 각각의 발음기호에 상응하는 입모양데이터를 추출한다.

컴퓨터는 하나 이상의 입모양데이터를 발음기호의 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성한다(S130). 즉, 컴퓨터는 발음기호 순서대로 입모양데이터를 배치하고, 연속적으로 재생함에 따라 3D아바타의 표정 애니메이션을 생성할 수 있다. 컴퓨터가 각각의 입모양데이터를 자연스럽게 연결하도록 블랜딩 작업을 수행하여 표정 애니메이션을 생성할 수 있다.

또한, 컴퓨터는 각 글자데이터 또는 음절데이터(또는 각각의 발음기호)의 발화시간을 바탕으로 도출된 각 음절의 유지시간을 적용하여 표정 애니메이션을 생성할 수 있다.

3D아바타의 표정 애니메이션을 생성 또는 재생하는 과정을 구체적으로 살펴보면 다음과 같다. 즉, 컴퓨터는 연속적으로 배치되어 혼합(블랜딩; Blending)되는 입모양데이터의 가중치를 연속적으로 변경하면서 자연스러운 입모양 변화를 구현할 수 있다.

최초 발음기호는 단독으로 입이 닫혀있는 상태에서 발음기호에 상응하는 입모양으로 변경되어야 하므로, 해당 입모양의 Blend shape 가중치가 0.0 에서 시작하여 1.0로 연속적으로 변경하여 입모양을 생성할 수 있다. 특정한 발음기호에 상응하는 입모양에서 다음 발음기호에 상응하는 입모양으로 변경하여야 하는 경우, 컴퓨터는 이전 발음기호에 상응하는 입모양의 가중치를 1.0에서 0.0으로 연속적으로 변경하고, 다음 발음기호에 상응하는 입모양의 가중치를 0.0에서 1.0으로 연속적으로 변경하면서, 각 시점의 가중치에 따라 두 입모양을 블랜딩할 수 있다.

또한, 3D아바타의 표정 애니메이션을 생성 또는 재생하는 과정에서, 각각의 발음기호에 상응하는 입모양의 재생시간(또는 유지시간)을 적용하여 자연스러운 입모양 움직임을 구현할 수 있다. 일실시예로, 컴퓨터는 각각의 입모양에 동일한 유지시간을 적용하여, 상기 유지시간동안 해당 입모양의 가중치를 연속적으로 변경할 수 있다. 예를 들어, 컴퓨터는 특정한 입모양을 유지하는 시간을 1.5초로 적용하고, 처음 0.5초를 이전 입모양과의 블랜딩을 위해 가중치를 0.0에서 1.0으로 증가시키는 구간, 중간 0.5초를 해당 입모양만을 재생하는 구간, 마지막 0.5초를 다음 입모양과의 블랜딩을 위해 가중치를 1.0에서 0.0으로 감소시키는 구간으로 설정할 수 있다.

또한, 다른 일실시예로, 컴퓨터가 특정한 발음기호의 유지시간을 사용자의 음성(즉, 발화데이터)로부터 인식하여 각 입모양의 유지시간을 결정할 수 있고, 연속된 입모양 간에 중복되는 구간의 길이를 결정할 수 있다. 이에 따라, 컴퓨터는 실제 발화데이터 상의 음절의 길이와 매칭이 되는 입모양 변화를 구현할 수 있다.

또한, 다른 일실시예로, 발화속도가 매우 빠름에 따라 입모양 변화가 매우 빠른 경우, 컴퓨터는 각 발음기호의 유지시간을 산출하고, 유지시간이 특정한 값(예를 들어, 0 또는 0에 근접한 특정한 양수) 이하에 해당하면 해당 입모양의 재생을 생략하고 바로 다음 입모양으로 전이할 수 있다. 즉, 너무 빠른 발화로 최소 시간 내 하나 이상의 글자가 속하게 된다면, 컴퓨터는 최초 한 글자만 유효한 입모양으로 결정하고 나머지 글자는 무시하도록 적용할 수 있다.

또한, 글자데이터와 발음기호를 매칭하는 데이터테이블을 생성하는 단계;를 더 포함할 수 있다. 즉, 컴퓨터는 관리자의 입력 또는 자체적인 연산을 통해 특정한 글자와 이에 대응하는 발음기호를 매칭할 수 있다. 예를 들어, 한글로 된 발화데이터인 경우 중성인 모음 전부와 종성인 자음의 일부에 의해 입모양이 결정되므로, 컴퓨터는 모음 및 종성에 배치될 때의 자음의 발음기호를 각각 매칭하여 저장할 수 있다. 따라서, 컴퓨터는 각 글자의 발음기호 추출 시에 각 음절을 초성, 중성 및 종성으로 분리하고, 중성 및 종성으로 배치된 모음 및 자음에 상응하는 발음기호를 상기 데이터테이블에서 추출할 수 있다.

다른 일실시예로, 컴퓨터는 초성, 중성, 종성 중 적어도 하나 이상이 결합된 모든 글자들에 대해 글자를 구성하는 발음기호들을 매칭하여 데이터테이블을 생성할 수 있다. 이를 통해, 컴퓨터는 초성, 중성, 종성을 분리하는 과정을 거치지 않고 특정한 글자를 발음하는데 필요한 발음기호를 추출할 수 있어서, 실시간으로 3D아바타의 입모양을 구현하기 위한 빠른 연산이 가능하도록 하는 효과가 있다.

또한, 발음기호별로 입모양 데이터를 생성하여 각각의 발음기호에 매칭하는 단계;를 더 포함할 수 있다. 컴퓨터는 수집된 발음기호별 입모양을 Blend shape Target으로 제작한다.

도 2는 본 발명의 일실시예에 따른 사용자 감정 인식을 통한 3D아바타의 표정 구현 방법의 순서도이다.

도 2를 참조하면, 본 발명의 다른 일실시예에 따른 3D아바타의 표정 구현 방법은, 사용자의 감정상태를 판단하는 단계(S200); 및 사용자의 감정상태에 부합하는 얼굴움직임데이터를 생성하는 단계(S210);를 포함한다.

컴퓨터가 사용자의 감정을 판단한다(S200). 실제 사람의 상태에 부합하는 표정을 구현하기 위해서는 음성에 따른 입모양뿐만 아니라, 사용자의 감정에 따른 입 이외의 얼굴 내 신체부위의 움직임을 표현할 수 있어야 한다. 따라서, 컴퓨터는 사용자의 음성, 뇌파 등의 데이터를 획득하여 사용자의 감정을 파악하는 과정을 수행할 수 있다.

컴퓨터가 사용자의 감정을 인식하는 방법으로는 다양한 방식이 적용될 수 있다. 예를 들어, 컴퓨터는 문장 내용, 발화데이터 상의 주파수 변화, 발화 속도, 사용자의 뇌파측정데이터 등을 측정대상으로 획득하여 사용자의 감정상태를 인식할 수 있다. 각각의 측정대상에 따른 사용자 감정상태 인식방법을 이하 구체적으로 기재한다.

일실시예로, 컴퓨터는 사용자의 발화데이터에 상응하는 문장에 포함된 단어 또는 문장기호를 통해 사용자의 감정을 판단할 수 있다. 즉, 문장 내에 감정을 나타내는 특정단어가 포함되어 있는지 검사한다. 예를 들어'야호!' 라는 어휘는 들뜸 또는 기쁨의 감정일 가능성이 높을 것이고,'어머나' 또는'악'과 같은 감탄사류는 놀라는 감정의 가능성이 매우 높을 것이다. 실제 감정이 아니더라도 발화시 상투적으로 짓게 되는 표정을 해당 감정으로 단정할 수도 있으므로 그 단어 및 어휘에 대한 유무를 검사할 수 있다.

다른 일실시예로, 컴퓨터는 사용자의 발화속도를 측정하여 사용자의 감정 판단에 고려할 수 있다. 예를 들어, 컴퓨터는 이전 발화데이터의 속도를 기준으로 하여 현재 발화데이터의 발화속도가 높은 지를 판단할 수 있고, 첫 문장의 경우는 미리 설정해 둔 기준속도를 기준으로 발화속도가 높은 지를 판단할 수 있다.

또한, 다른 일실시예로, 컴퓨터는 사용자의 발화데이터의 주파수 변화(또는 발화데이터 내 음절의 높낮이 변화)를 인식하여 사용자의 감정상태를 감지할 수 있다. 예를 들어, 컴퓨터는 사용자의 감정상태 인식을 위해 세부요소(예를 들어, 전체 문장데이터의 높낮이 평균, 문장데이터 내 특정비율 이상의 변화구간의 높낮이 평균, 문장데이터 내 특정비율 이하의 변화가 발생되는 구간(즉, 일정구간 또는 유지구간)의 높낮이 평균, 급격한 변화가 지속되는 경우 최고점과 최저점의 평균, 문장구간 내 기준범위 이상의 변화가 나타나는 횟수, 기준범위 이상의 변화가 지속되는 시간 길이 등)를 측정하고, 이를 바탕으로 사용자의 세부감정을 판단할 수 있다.

컴퓨터는 사용자의 감정상태를 판단하기 위한 하나 이상의 방식을 적용할 수 있으며, 각 방식에 의해 산출된 점수를 함께 반영하여 특정한 세부감정을 판단할 수 있다. 또한, 컴퓨터는 각각의 감정상태 산출방식에 따라 가중치를 부여할 수도 있다.

컴퓨터는 사용자의 감정상태에 부합하는 얼굴움직임데이터를 생성한다(S210). 컴퓨터가 인식하여야 하는 감정은, 3D아바타의 표정을 생성하는 하나의 기준이 되는 것으로, 복수의 감정 형태로 분류할 수 있다. 예를 들어, 컴퓨터는 분류할 수 있는 사용자의 감정을 기쁨, 슬픔, 화남, 놀람(공포), 폭소 5가지로 설정할 수 있다. 컴퓨터는 각각의 감정분류에 대응하는 얼굴움직임데이터를 저장할 수 있다. 상기 얼굴움직임데이터는, 특정한 감정에 따라 표현되는 사용자의 표정의 움직임을 의미할 수 있다.

컴퓨터는 사용자의 감정상태를 특정한 기본감정으로 분류할 수 없고, 복수의 감정상태가 인식할 수 있다. 이러한 경우, 컴퓨터는 각각의 감정에 상응하는 각각의 기본 얼굴움직임데이터를 혼합(즉, 블랜딩; blending)하여 아바타의 얼굴표정을 구성하는 최종 얼굴움직임데이터를 생성할 수 있다. 기본 얼굴움직임데이터는 각 기본감정 상태에 따른 얼굴표정의 애니메이션 정보일 수 있다.

먼저, 컴퓨터는 인식된 사용자의 감정상태가 기본적인 감정분류 중에서 어떠한 감정 상태가 복합되어 있는지를 파악할 수 있다. 예를 들어, 컴퓨터는 세부감정(예를 들어, 울면서 화내는 표정, 상기된 표정 등에 상응하는 복합적인 감정상태)과 이를 생성할 수 있는 복수의 기본감정을 연결하여 저장할 수 있다. 그 후, 컴퓨터는 세부감정을 구성하는 각각의 기본감정에 상응하는 기본 얼굴움직임데이터를 추출하고, 각각의 기본 얼굴움직임데이터가 동시에 발현되는 것이므로 하나의 얼굴표정 내에 블랜딩(Blending)하여 최종 얼굴움직임데이터를 생성할 수 있다. 또한, 컴퓨터는 특정한 세부감정 상태를 구현하기 위한 기본감정의 비율(즉, 가중치)를 적용하여 최종 얼굴움직임데이터를 생성할 수 있다.

또한, 세부감정에 따른 최종 얼굴표정데이터를 생성하기 위한 데이터베이스를 구축하는 단계;를 더 포함할 수 있다. 컴퓨터는 세부감정에 따른 얼굴움직임을 탐색할 수 있는 데이터베이스를 구축할 수 있다. 예를 들어, 데이터베이스는 각 세부감정상태 별로

세부감정의 얼굴움직임 = {애니메이션정보1, …, 애니메이션정보n | 애니메이션정보= Blendshape Name, n >= 1 }

와 같은 집합 구조로 형성될 수 있다. Blendshape Name은 특정한 기본 감정에 대응하는 기본 얼굴움직임데이터의 명칭에 해당할 수 있다. 또한, 각각의 기본감정의 얼굴움직임을 결합하는 가중치가 부여되는 경우, 데이터베이스는 각 세부감정상태 별로

세부감정의 얼굴움직임 = {애니메이션정보1, …, 애니메이션정보n | 애니메이션정보= {Blendshape Name, Weight}, n >= 1 }

로 표현하여, 각각의 기본 얼굴움직임데이터의 가중치(Weight)를 애니메이션정보에 포함할 수 있다.

또한, 컴퓨터는 사용자의 감정에 따른 최종 얼굴움직임데이터와 사용자의 발화데이터에 따른 입모양데이터를 동시에 블랜딩(Blending)하여, 사용자의 감정과 발화에 따른 실시간 얼굴표정을 3D아바타의 얼굴에 구현하여 표시할 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 3D아바타의 표정 구현 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터가 사용자의 발화데이터를 수신하여, 음성인식을 통해 문장데이터를 생성하는 단계로서, 상기 문장데이터는 하나 이상의 글자데이터를 포함하는, 문장데이터 생성단계;
각각의 글자데이터를 발음기호를 적용하는 단계;
각각의 발음기호에 상응하는 입모양데이터를 로드하는 단계; 및
하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 단계;를 포함하는, 3D아바타의 표정 구현 방법.
제1항에 있어서,
글자데이터와 발음기호를 매칭하는 데이터테이블을 생성하는 단계;를 더 포함하는, 3D아바타의 표정 구현 방법.
제2항에 있어서,
상기 데이터테이블 생성단계는,
발음기호별로 입모양 데이터를 생성하여 각각의 발음기호에 매칭하는 단계;를 더 포함하는, 3D아바타의 표정 구현 방법.
컴퓨터가 사용자의 감정상태를 판단하는 단계; 및
사용자의 감정상태에 부합하는 얼굴움직임데이터를 생성하는 단계;를 포함하는, 3D아바타의 표정 구현 방법.
제4항에 있어서,
상기 감정상태 판단단계는,
하나 이상의 기본감정이 혼합된 세부감정을 인식하고,
상기 얼굴움직임데이터 생성단계는,
상기 기본감정에 상응하는 각각의 기본 얼굴움직임데이터를 혼합하여 최종 얼굴움직임데이터를 생성하는 것을 특징으로 하는, 3D아바타의 표정 구현 방법.
제5항에 있어서,
상기 감정상태 판단단계는,
상기 세부감정을 형성하는 하나 이상의 기본감정의 가중치를 산출하는 것을 특징으로 하는, 3D아바타의 표정 구현 방법.