KR20100094212A

KR20100094212A - 아바타 얼굴 표정 제어장치

Info

Publication number: KR20100094212A
Application number: KR1020090013530A
Authority: KR
Inventors: 박치연; 황영규; 김정배
Original assignee: 삼성전자주식회사
Priority date: 2009-02-18
Filing date: 2009-02-18
Publication date: 2010-08-26
Also published as: KR101558553B1; US8396708B2; US20100211397A1

Abstract

아바타 얼굴 표정 제어 기술을 제시한다. 이 기술은 음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정하고, 음성의 발음정보로부터 사용자의 입모양 변화를 추정하고, 영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적하여, 이들을 이용해 아바타의 얼굴 표정을 표현함으로써 아바타의 얼굴 표정을 사용자의 실제 얼굴 표정과 유사하게 표현할 수 있도록 한 것이다.

음성, 발성정보, 발음정보, 영상정보, 얼굴 표정, 아바타

Description

아바타 얼굴 표정 제어장치{Facial gesture cloning apparatus}

본 발명은 카메라 및 마이크를 통해 입력되는 사용자의 영상 및 음성 정보로부터 아바타의 얼굴 표정을 표현하는 아바타 얼굴 표정 제어 기술에 관한 것이다.

가상 공간에서 아바타를 제어하는 다양한 연구들이 진행되고 있다. 최근, 아바타의 몸 동작을 제어하는 것을 넘어서 아바타의 얼굴 표정을 제어하여 풍부한 표현이 가능하도록 하는 기술들에 대한 필요성이 대두되고 있다.

예를들어, 온라인 대화 시스템에서는 아바타의 몸 동작보다 아바타의 얼굴 표정과 입술 움직임을 제어하는 것이 더 효과적으로 사용자의 의도를 상대방에게 전달할 수 있을 것이다. 따라서, 본 발명자는 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있는 기술에 대한 연구를 하게 되었다.

카메라 및 마이크를 통해 입력되는 사용자의 영상과 음성에 동기화되어 아바타의 얼굴 표정을 실시간 표현함에 있어서, 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있는 아바타 얼굴 표정 제어 기술을 제공한다.

본 발명의 일 양상에 따르면, 음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정하고, 음성의 발음정보로부터 사용자의 입모양 변화를 추정하고, 영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적하여, 이들을 이용해 아바타의 얼굴 표정을 표현한다.

카메라 및 마이크를 통해 입력되는 사용자의 실제 영상과 음성에 동기화되어, 아바타의 얼굴 표정을 사용자의 실제 얼굴 표정과 유사하게 표현함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있다.

이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.

본 발명 실시예들을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

본 발명 실시예들을 설명하기에 앞서, 명세서 전반에 걸쳐 사용되는 용어들을 정의한다. 이 용어들은 본 발명 실시예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 일 실시예에 따른 블럭도이다. 도면에 도시한 바와 같이, 이 실시예에 따른 아바타 얼굴 표정 제어장치(100)는 발성정보 처리부(110)와, 발음정보 처리부(120)와, 영상정보 처리부(130)와, 얼굴 표정 처리부(140)를 포함한다.

상기 발성정보 처리부(110)는 음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정하여 제1정보를 출력한다. 마이크 등의 음성입력수단(도면 도시 생략)으로부터 사용자의 음성이 입력되면, 이로부터 상기 발성정보 처리부(110)가 즐거움, 슬픔, 화남, 두려움, 혐오, 놀람 등의 사용자의 감정 변화 및 큰 소리를 지르거나 하는 등의 음성이 과장된 강조점을 추정하여 그 결과를 제1정보로 출력한다. 상기 사용자의 감정 변화 및 강조점 추정에 관련해서는 추후 구체적으로 설명한다.

상기 발음정보 처리부(120)는 음성의 발음정보로부터 사용자의 입모양 변화를 추정하여 제2정보를 출력한다. 마이크 등의 음성입력수단(도면 도시 생략)으로부터 사용자의 음성이 입력되면, 이로부터 상기 발음정보 처리부(120)가 입술이 세 로 방향으로 벌어진 정도, 입술이 가로 방향으로 벌어진 정도, 입술을 앞으로 내민 정도 등과 같은 사용자의 입모양 변화를 추정하여 그 결과를 제2정보로 출력한다. 상기 사용자의 입모양 변화 추정에 관련해서는 추후 구체적으로 설명한다.

상기 영상정보 처리부(130)는 영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적하여 제3정보를 출력한다. 카메라 등의 영상입력수단(도면 도시 생략)으로부터 사용자의 영상이 입력되면, 이로부터 상기 영상정보 처리부(130)가 사용자의 얼굴을 이루는 특징점들의 위치와 방향 등을 분석하여 사용자의 얼굴 움직임과 표정 변화를 추적하여 그 결과를 제3정보로 출력한다. 상기 사용자의 얼굴 움직임과 표정 변화 추적에 관련해서는 추후 구체적으로 설명한다.

상기 얼굴 표정 처리부(140)는 상기 발성정보 처리부(110)에 의해 출력되는 제1정보와, 상기 발음정보 처리부(120)에 의해 출력되는 제2정보 및 상기 영상정보 처리부(130)에 의해 출력되는 제3정보를 적용하여 아바타의 얼굴 표정을 표현한다.

즉, 상기 얼굴 표정 처리부(140)는 상기 사용자의 감정 변화 및 강조점에 관련한 제1정보와, 상기 사용자의 입모양 변화에 관련한 제2정보 및 사용자의 얼굴 움직임과 표정 변화에 관련한 제3정보를 이용해 사용자의 실제 얼굴 표정과 동기화된 아바타 얼굴 표정을 표현함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 된다.

도 2 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 발성정보 처리부의 일 실시예를 도시한 블럭도이다. 도면에 도시한 바와 같이, 이 실시예에 따른 발성정 보 처리부(110)는 파라미터 추출부(111)와, 감정 변화 추정부(112)와, 강조점 추정부(113)와, 제1정보 출력부(114)를 포함한다.

상기 파라미터 추출부(111)는 음성의 발성정보로부터 감정 변화와 관련된 파라미터를 추출한다. 예컨대, 상기 감정 변화와 관련된 파라미터가 음성 신호의 강도, 음의 높낮이, 음질 정보를 포함할 수 있다.

상기 감정 변화 추정부(112)는 상기 파라미터 추출부(111)에 의해 추출된 파라미터의 장기적인 변화를 모니터링해 감정 변화를 추정한다. 예컨대, 상기 파라미터의 장기적인 변화는 설정된 제1기준값 동안의 파라미터 변화량 또는 변화속도를 검출함에 의해 얻어질 수 있다. 예를들어, 음성 신호의 강도의 1초 동안의 평균값이나, 음성 신호의 강도의 1초 동안의 변화량의 제곱 평균값을 구하여 감정변화를 추정할 수 있다.

예컨대, 상기 감정변화를 도 3 에 도시한 바와 같이 활동성/비활동성, 행복/불만족을 이용하여 감정을 원위에 표현하는 러셀(Russell)의 써컴플렉스 모델(Circumplex Model)을 사용하여 감정 상태를 추정할 수 있다. 도 3 에서 가로축은 만족도를 나타내고, 세로축은 활동성을 나타낸다.

이와는 달리 상기 감정변화를 MPEG4에서 규정한 즐거움, 슬픔, 화남, 두려움, 혐오, 놀람의 6가지 기본 감정의 조합으로 나타낼 수도 있다. 6가지 기본 감정 모델은 즐거움, 슬픔, 화남, 두려움, 혐오, 놀람의 6가지 감정에 관련한 파라미터의 확률분포를 가우시안 혼합(Gaussian Mixture) 등을 이용하여 모델링한 후, 입력되는 감정에 관련한 파라미터가 어느 모델에 가장 가까운지를 계산함으로써 감정상 태를 추정할 수 있다.

즉, 확률분포 모델을 통하여 각 감정 상태가 주어졌을 때, 입력되는 감정에 관련한 파라미터의 확률값을 계산하고, 각 감정 상태가 나타나는 빈도수를 알고 있다면, 입력되는 감정에 관련한 파라미터 F에 가장 적합한 감정 상태는 베이즈 규칙(Bayes Rule)을 이용해 다음 식과 같이 구할 수 있다.

위의 식에서 분모로 사용된 감정에 관련한 파라미터 모델별 확률값의 합은 0과 1 사이의 값을 가지며, 얼굴 표정이 특정 모델에 적합할 수록 큰 값을, 어떤 모델에도 적합하지 않은 경우에는 낮은 값을 가진다. 이는 추후 설명할 감정 변화에 대한 신뢰도 평가에 이용될 수도 있다.

상기 강조점 추정부(113)는 상기 파라미터 추출부(111)에 의해 추출된 파라미터의 단기적인 변화를 모니터링해 강조점을 추정한다. 예를들어, 상기 강조점 추정부(113)가 발성이 단기적으로 급격하게 변화한 위치를 강조점으로 추정할 수 있다. 예컨대, 상기 파라미터의 단기적인 변화는 상기 제1기준값 보다 작게 설정된 제2기준값 동안의 파라미터 변화량 또는 변화속도를 검출함에 의해 얻어질 수 있다.

예를들어, 파라미터의 단기적인 변화는 최근 200ms간의 평균이나 변화량의 제곱의 평균을 장기적인 변화로부터 구한 값과 비교함으로써 계산할 수 있다. 예컨 대, 음성신호 강도에서 단기적인 변화가 크게 나타나는 경우 갑자기 크게 소리를 냈다는 발성의 변화를 추정할 수 있고, 음높이 파라미터에서 단기적인 변화가 크게 나타난다면 갑자기 높은 음으로 노래를 불렀음을 추정할 수 있을 것이다.

또한, 단어나 문구를 강조하는 부분에서도 목소리의 크기와 높이가 높아지게 되므로, 강조 정보를 추출해 낼 수 있을 것이다. 반대로 속삭임과 같이 일반적인 발성에 비해 작은 발성도 과장에 해당하는 값을 정해진 기준치 이하로 낮춤으로써 추정할 수 있을 것이다.

상기 제1정보 출력부(114)는 상기 감정 변화 추정부(112)에 의해 추정된 감정 변화 및 상기 강조점 추정부(113)에 의해 추정된 강조점을 바탕으로 제1정보를 생성하고, 생성된 제1정보를 출력한다. 상기 제1정보에는 사용자의 감정 변화 및 강조점 정보가 포함된다. 따라서, 이렇게 함에 의해 상기 발성정보 처리부(110)가 음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정할 수 있게 된다.

도 4 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 발음정보 처리부의 일 실시예를 도시한 블럭도이다. 도면에 도시한 바와 같이, 이 실시예에 따른 발음정보 처리부(120)는 파라미터 추출부(121)와, 입모양 추정부(122)와, 제2정보 출력부(123)를 포함한다.

상기 파라미터 추출부(121)는 음성의 발성정보로부터 입모양 변화와 관련된 파라미터를 추출한다. 예를들어, 상기 입모양 변화와 관련된 파라미터가 입술이 세로 방향으로 벌어진 정도, 입술이 가로 방향으로 벌어진 정도, 입술을 앞으로 내민 정도 정보를 포함할 수 있다.

예컨대, 발성정보를 분석하기 위하여 이와 관련된 파라미터로 입 속 공간의 모양을 추정하는 파라미터인 LPC(Linear Predic tive Coefficient), 음성의 스펙트럼을 분석하는 파라미터인 MFCC(Mel-Frequency Cepstral Coefficient) 등을 추출하여 사용할 수 있다.

상기 입모양 추정부(122)는 상기 파라미터 추출부(121)에 의해 추출된 파라미터를 바탕으로 사용자의 입모양 변화를 추정한다. 예컨대, 상기 입모양 추정부(122)가 각 음소를 비슷한 입술 모양을 가지는 발음군으로 분류하여 저장한 데이터베이스로부터 음성의 발성되는 소리가 어떠한 발음군에 속하는지 검색하고, 해당 검색된 발음군에 대응하는 파라미터를 추출하고, 이 추출된 파라미터로부터 사용자의 입모양 변화를 추정하도록 구현할 수 있다.

도 5 는 음소를 비슷한 입술 모양을 가지는 발음군으로 분류한 것을 예시한 표이다. 이러한 발음의 인식은 일반적인 음성인식에서와 같이 가장 확률이 높은 하나의 발음을 결정하는 대신에, 연속적인 입모양의 변화를 나타내기 위하여 도 6 에 도시한 바와 같이 각 발음군에 속할 확률을 계산하여 주는 방식을 사용할 수 있다. 이렇게 발음군별로 확률값이 결정되고 나면, 각 발음군에서 정해진 입모양을 이 확률값을 가중치로 평균을 내어 입모양을 결정할 수 있다. 도 6 은 현재 발음(진한 삼각형 부분)이 'ㄴ' 발음군에 속할 확률이 80%, 'ㅁ' 발음군에 속할 확률이 20%인 경우를 도시하고 있다.

이 때, 음소 인식의 신뢰도 등을 평가함에 의해 추후 설명할 입모양 변화에 대한 신뢰도 평가에 이용되도록 할 수도 있다. 예를 들어, 음성이 입력되지 않거나 잡음 등으로 인해 불확실한 발음이 입력되는 경우에는 신뢰도가 낮고, 정확한 발음이 입력되는 경우에는 신뢰도를 높게 책정할 수 있을 것이다.

상기 제2정보 출력부(123)는 상기 입모양 추정부(122)에 의해 추정된 입모양 변화를 바탕으로 제2정보를 생성하고, 생성된 제2정보를 출력한다. 상기 제2정보에는 사용자의 입모양 변화 정보가 포함된다. 따라서, 이렇게 함에 의해 상기 발음정보 처리부(120)가 음성의 발음정보로부터 사용자의 입모양 변화를 추정할 수 있게 된다.

도 7 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 영상정보 처리부의 일 실시예를 도시한 블럭도이다. 도면에 도시한 바와 같이, 이 실시예에 따른 영상정보 처리부(130)는 영상정보 분석부(131)와, 표정 변화 추적부(132)와, 제3정보 출력부(133)를 포함한다.

상기 영상정보 분석부(131)는 영상정보로부터 사용자의 얼굴 표정을 나타내는 특징점 위치를 추출한다. 예컨대, 상기 영상정보 분석부(131)가 미리 정의된 통계적 얼굴 모델(Statistic Face Model)을 사용하여 통계적 얼굴 모델에서 정의된 특징점들이 입력되는 얼굴 이미지의 어느 위치에 해당하는지를 찾아 얼굴 표정을 나타내는 특징점 위치를 추출할 수 있다.

예를들어, 능동적 외형 모델(Active Appearance Model)이나 능동적 형상 모델(Active Shape Model) 등을 이용해 사용자의 얼굴 표정을 나타내는 특징점 위치 를 추출할 수 있다.

얼굴의 이미지는 다음과 같은 식을 통해서 제한된 개수의 파라미터로 표현이 가능하다.

위 식에서 u는 얼굴 메쉬(Mesh) 모델의 점들의 위치를 나타내는 좌표의 집합이고, A₀는 특징점의 위치가 정해졌을 때 나타나는 얼굴 이미지들의 평균값을 나타내며, A_i는 얼굴 이미지의 특징을 결정지어주는 차이점들을 나타낸다. 이 식에서 λ값을 변화시킴으로써 서로 다른 특징이 반영된 얼굴 이미지를 나타낼 수 있다.

이렇게 구해지는 얼굴 이미지에서 특징점의 위치를 구하기 위해서는 다음의 값을 최소화하는 파라미터를 찾으면 된다.

위 식에서 p, q는 얼굴 모양, 회전, 이동, 크기 변화 등을 나타내는 파라미터로서, I(W(u;p;q))는 A(u)를 주어진 파라미터에 맞게 변환시킨 이미지를 나타낸다.

상기 표정 변화 추적부(132)는 상기 영상정보 분석부(131)에 의해 추출된 특징점 위치를 바탕으로 사용자의 얼굴 움직임과 표정 변화를 추적한다. 예컨대, 사용자의 얼굴 표정을 나타내는 특징점 위치를 찾은 후, 상기 표정 변화 추적부(132) 가 광학 플로우(Optical Flow)를 사용한 Lucas-Kanade-Tomasi Tracker나, 또는 Particle Filter Tracker나, 또는 Graphical Model Based Tracker 등을 이용하여 사용자의 얼굴 움직임과 표정 변화를 추적할 수 있다.

상기 제3정보 출력부(133)는 상기 표정 변화 추적부(132)에 의해 추적된 사용자의 얼굴 움직임과 표정 변화로부터 제3정보를 생성하고, 생성된 제3정보를 출력한다. 상기 제3정보에는 사용자의 얼굴 움직임과 표정 변화 정보가 포함된다. 따라서, 이렇게 함에 의해 상기 영상정보 처리부(130)가 영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적할 수 있게 된다.

도 8 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 얼굴 표정 처리부의 일 실시예를 도시한 블럭도이다. 도면에 도시한 바와 같이, 이 실시예에 따른 얼굴 표정 처리부(140)는 얼굴 표정 표현부(141)와, 제1보정부(142)와, 제2보정부(143)와, 제3보정부(144)를 포함한다.

상기 얼굴 표정 표현부(141)는 상기 발성정보 처리부(110)에 의해 출력되는 제1정보에 포함되는 사용자의 감정 변화에 따라 아바타의 전체적인 얼굴 표정을 표현한다. 예컨대, 얼굴 표정은 얼굴의 각 특징점들의 움직임을 나타내는 파라미터의 집합으로 표현할 수 있다.

예를들면, 감정 정보를 얼굴 표정 파라미터로 나타내는 것은 감정 정보를 나타내는 모델에 따라 달라질 수 있겠지만, 6가지 기본 감정의 강도를 이용하는 경우에는 각 감정을 나타내는 표정 변화 파라미터를 미리 학습을 통해 설정해놓고, 각 각의 강도에 맞춰서 표정 변화 파라미터를 더해서 나타내는 방법을 사용할 수 있다. 이를 식으로 표현하면 다음과 같다.

P_emotion = w_sadP_sad + w_surpriseP_surprise + w_angerP_anger + w_fearP_fear + w_disgustP_disgust + w_joyP_joy

상기 제1보정부(142)는 상기 발음정보 처리부(120)에 의해 출력되는 제2정보에 포함되는 사용자의 입모양 변화에 따라 아바타의 얼굴 표정을 보정한다. 입술의 움직임은 같은 발음이라도 전체적인 감정 상태에 따라 다르게 나타날 수 있다. 예를들어 흥분한 경우는 입술의 움직임이 더 크지만, 지루한 경우는 작을 것이다. 큰 목소리로 노래를 부르는 경우에는 속삭이는 경우에 비해 입술의 움직임이 더 클 것이다.

따라서, 상기 제1보정부(142)를 통해 상기 얼굴 표정 표현부(141)에 의해 표현되는 아바타의 얼굴 표정을 사용자의 입모양 변화에 따라 보정함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 된다.

상기 제2보정부(143)는 상기 발성정보 처리부(110)에 의해 출력되는 제1정보에 포함되는 강조점에 따라 아바타의 얼굴 표정을 보정한다. 얼굴 표정은 발음의 강조 정도에 따라 다르게 나타날 수 있다. 예를들어 특정 단어를 강조하는 경우 눈을 더 크게 뜨거나, 눈썹을 올리거나, 고개를 끄떡이는 등의 행동을 하게 된다.

따라서, 상기 제2보정부(143)를 통해 상기 얼굴 표정 표현부(141)에 의해 표현되는 아바타의 얼굴 표정을 강조점에 따라 보정함으로써 보다 자연스럽고 섬세하 게 아바타의 얼굴 표정을 표현할 수 있게 된다.

예를들어 이전 입술모양이 L, 새로 추정한 입술모양이 L'이라고 했을 때, 입술모양 파라미터의 값은 다음의 식을 통해 보정해 줄 수 있다.

L_new = L + w_emotionw_emphasis(L' - L)

위식에서, w는 1에 가까운 값이며, w의 값이 둘 다 정확히 1이 되는 경우에는 새로 보정된 입술의 모양은 추정한 값과 똑같이 나타나게 되지만, w가 커질수록 입술의 움직임이 더 과장되게 되고, 작아질수록 소극적인 움직임을 보이게 된다. 이를 통해 각 감정 상태에 따른 w_emotion의 값과 강조 정보에 따른 w_emphasis의 분포를 다르게 함으로써 흥분한 경우는 입술의 움직임이 더 크지만, 지루한 경우는 적어지고, 큰 목소리로 노래 부르는 경우에는 속삭이는 경우에 비해 입술의 움직임이 더 커지게 할 수 있다.

상기 제3보정부(144)는 상기 영상정보 처리부(130)에 의해 출력되는 제3정보에 포함되는 사용자의 얼굴 움직임과 표정 변화에 따라 아바타의 얼굴 방향과 표정을 보정한다. 사용자의 얼굴 표정을 나타내는 특징점 위치에 따라 사용자의 얼굴 움직임과 표정이 변하게 된다.

예컨대, 사용자의 얼굴 움직임과 표정 변화에 따라 아바타의 얼굴 방향과 표정을 다음과 같이 보정할 수 있다. 이전에 추적되었던 특징점의 좌표를 X(k-1)라고 하고, 현재 추적된 특징점의 좌표를 X(k)라고 했을 때, 둘 사이의 상관관계를 다음 식과 같이 나타낼 수 있다.

X(k) = AX(k-1) + b

위 식에서 A는 머리의 방향의 변화를 나타내는 파라미터이고, b는 위치의 변화를 나타내는 파라미터이다. 이 식의 좌변과 우변의 차이를 최소로 만드는 A, b의 값을 Least-Squared Estimation 등을 활용하여 구하게 되면 머리 위치와 방향의 변화를 추정할 수 있게 되고, 이를 이용해 보정하면 된다.

예컨대, 머리 위치의 변화를 제외한 얼굴 표정에 관련된 파라미터는 다음과 같이 추출할 수 있다. 위의 식을 통해 구한 머리의 위치와 방향 정보를 원래 특징점의 위치로부터 제외하고 나면 가운데 위치에서 정면을 바라보고 있는 상태에서의 특징점의 위치를 구할 수 있게 되고, 이를 이용해 보정하면 된다.

또한, 사용자의 얼굴이 카메라에 더 가깝거나 멀어지는 경우에는 얼굴의 전반적인 크기가 변하게 되므로, 이전 추정하였던 얼굴 크기와 현재의 얼굴 크기를 비교하여 전반적인 얼굴 크기 변화 비율을 나타내는 확대변수(Exaggerate variable) m을 추출하고, m을 각 특징점들의 움직인 정도에 곱하여 사용자와 카메라부터의 거리변화에 따른 특징점들의 움직임 정도를 정규화시킬 수 있고, 이를 이용해 보정하면 된다.

따라서, 제3보정부(144)를 통해 상기 얼굴 표정 표현부(141)에 의해 표현되는 아바타의 얼굴 표정을 사용자의 얼굴 움직임과 표정 변화에 따라 보정함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 된다.

이렇게 함에 의해, 카메라 및 마이크를 통해 입력되는 사용자의 실제 영상정보와 음성의 발성정보 및 발음정보를 통합 적용하여 사용자의 실제 얼굴과 동기화 된 아바타의 얼굴 표정을 표현할 수 있으므로, 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 된다.

한편, 부가적인 양상에 따르면, 상기 아바타 얼굴 표정 제어장치(100)가 신뢰도 평가부(150)를 더 포함할 수도 있다. 상기 신뢰도 평가부(150)는 상기 발성정보 처리부(110)에 의해 출력되는 제1정보에 대한 신뢰도와, 상기 발음정보 처리부(120)에 의해 출력되는 제2정보에 대한 신뢰도 및 상기 영상정보 처리부(130)에 의해 출력되는 제3정보에 대한 신뢰도를 평가한다.

예컨대, 상기 신뢰도 평가부(150)가 상기 제1정보에 포함되는 사용자의 감정 변화에 따른 얼굴 표정과 감정 모델에 따른 얼굴 표정과의 상관도에 따라 상기 제1정보에 대한 신뢰도를 평가할 수 있다.

예컨대, 상기 신뢰도 평가부(150)가 무음 또는 음성에 포함된 잡음 정도에 따라 상기 제2정보에 대한 신뢰도를 평가할 수 있다.

예컨대, 상기 신뢰도 평가부(150)가 사용자의 얼굴 표정을 나타내는 특징점의 위치와 변화량에 따라 상기 제3정보에 대한 신뢰도를 평가할 수도 있다.

즉, 이 실시예는 음성과 영상으로부터 얼굴 표정 표현에 관련한 파라미터 값이 동일하게 입력되는 경우에는 아무런 문제가 없지만, 입력되는 파라미터값이 서로 달라서 충돌이 있는 경우에도 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있도록 하기 위해 카메라 및 마이크를 통해 입력되는 사용자의 실제 영상정보와 음성의 발성정보 및 발음정보에 대한 신뢰도를 평가하도록 한 실시예이 다.

이렇게 평가된 신뢰도를 반영하여 아바타 얼굴을 표현함으로써 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 된다. 이에 대해서는 추후 설명한다.

한편, 부가적인 양상에 따르면, 상기 얼굴 표정 처리부(140)가 아바타의 얼굴 표정 표현시, 상기 신뢰도 평가부(150)에 의해 신뢰도가 낮다 판단된 정보는 배제하도록 구현할 수 있다.

예를들어, 음성의 입력이 없는 구간이나 잡음이 심해서 음성으로부터 충분한 발성정보 또는 발음정보 추출이 불가능한 경우, 제1정보 또는 제2정보에 대한 신뢰성이 상당히 낮으므로, 이를 배제하고 제3정보만을 이용하여 아바타의 얼굴 표정을 표현하도록 할 수 있다.

예를들어, 마이크나 다른 장애물로 인해 사용자의 영상정보로부터 정확한 표정 추정이 불가능한 경우, 제3정보에 대한 신뢰성이 상당히 낮으므로, 이를 배제하고 음성과 관련된 제1정보 및 제2정보를 이용하여 아바타의 얼굴 표정을 표현하도록 할 수 있다.

도 9 를 참조하여 상기한 구성을 갖는 본 발명에 따른 아바타 얼굴 표정 제어장치의 아바타 얼굴 표정 제어 동작을 간략하게 알아본다. 도 9 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 아바타 얼굴 표정 제어 동작의 일 실시예에 따른 흐름도이다.

먼저, 단계 S110에서 아바타 얼굴 표정 제어장치가 음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정하여 제1정보를 출력한다. 마이크 등의 음성입력수단으로부터 사용자의 음성이 입력되면, 이로부터 즐거움, 슬픔, 화남, 두려움, 혐오, 놀람 등의 사용자의 감정 변화 및 큰 소리를 지르거나 하는 등의 음성이 과장된 강조점을 추정하여 그 결과를 제1정보로 출력한다.

그 다음, 단계 S120에서 아바타 얼굴 표정 제어장치가 음성의 발음정보로부터 사용자의 입모양 변화를 추정하여 제2정보를 출력한다. 마이크 등의 음성입력수단으로부터 사용자의 음성이 입력되면, 이로부터 입술이 세로 방향으로 벌어진 정도, 입술이 가로 방향으로 벌어진 정도, 입술을 앞으로 내민 정도 등과 같은 사용자의 입모양 변화를 추정하여 그 결과를 제2정보로 출력한다.

그 다음, 단계 S130에서 아바타 얼굴 표정 제어장치가 영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적하여 제3정보를 출력한다. 카메라 등의 영상입력수단으로부터 사용자의 영상이 입력되면, 이로부터 사용자의 얼굴을 이루는 특징점들의 위치와 방향 등을 분석하여 사용자의 얼굴 움직임과 표정 변화를 추적하여 그 결과를 제3정보로 출력한다.

마지막으로, 단계 S140에서 아바타 얼굴 표정 제어장치가 상기 단계 S110에 의해 출력되는 제1정보와, 상기 단계 S120에 의해 출력되는 제2정보와, 상기 단계 S130에 의해 출력되는 제3정보를 적용하여 아바타의 얼굴 표정을 표현한다. 상기 단계 S110, S120, S130은 순서가 바뀌어도 무방하다.

이렇게 함으로써 사용자의 발성정보와 발음정보 및 영상정보를 이용해 사용자의 실제 얼굴 표정과 동기화된 아바타 얼굴 표정을 표현할 수있어 보다 자연스럽고 섬세하게 아바타의 얼굴 표정을 표현할 수 있게 되므로, 상기에서 제시한 본 발명의 목적을 달성할 수 있게 된다.

본 발명은 첨부된 도면에 의해 참조되는 바람직한 실시예를 중심으로 기술되었지만, 이러한 기재로부터 후술하는 특허청구범위에 의해 포괄되는 범위 내에서 본 발명의 범주를 벗어남이 없이 다양한 변형이 가능하다는 것은 명백하다.

도 1 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 일 실시예에 따른 블럭도

도 2 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 발성정보 처리부의 일 실시예를 도시한 블럭도

도 3 은 러셀(Russell)의 써컴플렉스 모델(Circumplex Model)을 사용하여 감정 상태를 추정하는 일 예를 도시한 도면

도 4 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 발음정보 처리부의 일 실시예를 도시한 블럭도

도 5 는 음소를 비슷한 입술 모양을 가지는 발음군으로 분류한 일 예를 도시한 도면

도 6 은 각 발음군에 속할 확률을 계산하여 입모양을 결정하는 일 예를 도시한 도면

도 7 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 영상정보 처리부의 일 실시예를 도시한 블럭도

도 8 은 본 발명에 따른 아바타 얼굴 표정 제어장치의 얼굴 표정 처리부의 일 실시예를 도시한 블럭도

도 9 는 본 발명에 따른 아바타 얼굴 표정 제어장치의 아바타 얼굴 표정 제어 동작의 일 실시예에 따른 흐름도

<도면의 주요 부분에 대한 부호의 설명>

100 : 아바타 얼굴 표정 제어장치 110 : 발성정보 처리부

111 : 파라미터 추출부 112 : 감정 변화 추정부

113 : 강조점 추정부 114 : 제1정보 출력부

120 : 발음정보 처리부 121 : 파라미터 추출부

122 : 입모양 추정부 123 : 제2정보 출력부

130 : 영상정보 처리부 131 : 영상정보 분석부

132 : 표정 변화 추적부 133 : 제3정보 출력부

140 : 얼굴 표정 처리부 141 : 얼굴 표정 표현부

142 : 제1보정부 143 : 제2보정부

144 : 제3보정부 150 : 신뢰도 평가부

Claims

음성의 발성정보로부터 사용자의 감정 변화 및 강조점을 추정하여 제1정보를 출력하는 발성정보 처리부와;

음성의 발음정보로부터 사용자의 입모양 변화를 추정하여 제2정보를 출력하는 발음정보 처리부와;

영상정보로부터 사용자의 얼굴 움직임과 표정 변화를 추적하여 제3정보를 출력하는 영상정보 처리부와;

상기 발성정보 처리부에 의해 출력되는 제1정보와, 상기 발음정보 처리부에 의해 출력되는 제2정보 및 상기 영상정보 처리부에 의해 출력되는 제3정보중 적어도 하나를 적용하여 아바타의 얼굴 표정을 표현하는 얼굴 표정 처리부를;

포함하는 아바타 얼굴 표정 제어장치.
제 1 항에 있어서,

상기 발성정보 처리부가:

음성의 발성정보로부터 감정 변화와 관련된 파라미터를 추출하는 파라미터 추출부와;

상기 파라미터 추출부에 의해 추출된 파라미터의 장기적인 변화를 모니터링해 감정 변화를 추정하는 감정 변화 추정부와;

상기 파라미터 추출부에 의해 추출된 파라미터의 단기적인 변화를 모니터링 해 강조점을 추정하는 강조점 추정부와;

상기 감정 변화 추정부에 의해 추정된 감정 변화 및 상기 강조점 추정부에 의해 추정된 강조점을 바탕으로 제1정보를 생성하고, 생성된 제1정보를 출력하는 제1정보 출력부를;

포함하는 아바타 얼굴 표정 제어장치.
제 2 항에 있어서,

상기 감정 변화와 관련된 파라미터가:

음성 신호의 강도, 음의 높낮이, 음질 정보를 포함하는 아바타 얼굴 표정 제어장치.
제 2 항에 있어서,

상기 파라미터의 장기적인 변화는:

설정된 제1기준값 동안의 파라미터 변화량 또는 변화속도를 검출함에 의해 얻어지는 아바타 얼굴 표정 제어장치.
제 4 항에 있어서,

상기 파라미터의 단기적인 변화는:

상기 제1기준값 보다 작게 설정된 제2기준값 동안의 파라미터 변화량 또는 변화속도를 검출함에 의해 얻어지는 아바타 얼굴 표정 제어장치.
제 5 항에 있어서,

상기 강조점 추정부가:

발성이 단기적으로 급격하게 변화한 위치를 강조점으로 추정하는 아바타 얼굴 표정 제어장치.
제 1 항에 있어서,

상기 발음정보 처리부가:

음성의 발성정보로부터 입모양 변화와 관련된 파라미터를 추출하는 파라미터 추출부와;

상기 파라미터 추출부에 의해 추출된 파라미터를 바탕으로 사용자의 입모양 변화를 추정하는 입모양 추정부와;

상기 입모양 추정부에 의해 추정된 입모양 변화를 바탕으로 제2정보를 생성하고, 생성된 제2정보를 출력하는 제2정보 출력부를;

포함하는 아바타 얼굴 표정 제어장치.
제 7 항에 있어서,

상기 입모양 변화와 관련된 파라미터가:

입술이 세로 방향으로 벌어진 정도, 입술이 가로 방향으로 벌어진 정도, 입술을 앞으로 내민 정도 정보를 포함하는 아바타 얼굴 표정 제어장치.
제 7 항에 있어서,

상기 입모양 추정부가:

각 음소를 비슷한 입술 모양을 가지는 발음군으로 분류하여 저장한 데이터베이스로부터 음성의 발성되는 소리가 어떠한 발음군에 속하는지 검색하고, 해당 검색된 발음군에 대응하는 파라미터를 추출하고, 이 추출된 파라미터로부터 사용자의 입모양 변화를 추정하는 아바타 얼굴 표정 제어장치.
제 1 항에 있어서,

상기 영상정보 처리부가:

영상정보로부터 사용자의 얼굴 표정을 나타내는 특징점 위치를 추출하는 영상정보 분석부와;

상기 영상정보 분석부에 의해 추출된 특징점 위치를 바탕으로 사용자의 얼굴 움직임과 표정 변화를 추적하는 표정 변화 추적부와;

상기 표정 변화 추적부에 의해 추적된 사용자의 얼굴 움직임과 표정 변화로부터 제3정보를 생성하고, 생성된 제3정보를 출력하는 제3정보 출력부를;

포함하는 아바타 얼굴 표정 제어장치.
제 1 항에 있어서,

상기 얼굴 표정 처리부가:

상기 발성정보 처리부에 의해 출력되는 제1정보에 포함되는 사용자의 감정 변화에 따라 아바타의 전체적인 얼굴 표정을 표현하는 얼굴 표정 표현부와;

상기 발음정보 처리부에 의해 출력되는 제2정보에 포함되는 사용자의 입모양 변화에 따라 아바타의 얼굴 표정을 보정하는 제1보정부와;

상기 발성정보 처리부에 의해 출력되는 제1정보에 포함되는 강조점에 따라 아바타의 얼굴 표정을 보정하는 제2보정부와;

상기 영상정보 처리부에 의해 출력되는 제3정보에 포함되는 사용자의 얼굴 움직임과 표정 변화에 따라 아바타의 얼굴 방향과 표정을 보정하는 제3보정부를;

포함하는 아바타 얼굴 표정 제어장치.
제 1 항에 있어서,

상기 아바타 얼굴 표정 제어장치가:

상기 발성정보 처리부에 의해 출력되는 제1정보에 대한 신뢰도와, 상기 발음정보 처리부에 의해 출력되는 제2정보에 대한 신뢰도 및 상기 영상정보 처리부에 의해 출력되는 제3정보에 대한 신뢰도를 평가하는 신뢰도 평가부를;

더 포함하는 아바타 얼굴 표정 제어장치.
제 12 항에 있어서,

상기 얼굴 표정 처리부가:

아바타의 얼굴 표정 표현시, 상기 신뢰도 평가부에 의해 신뢰도가 낮다 판단 된 정보는 배제하는 아바타 얼굴 표정 제어장치.
제 12 항에 있어서,

상기 신뢰도 평가부가:

상기 제1정보에 포함되는 사용자의 감정 변화에 따른 얼굴 표정과 감정 모델에 따른 얼굴 표정과의 상관도에 따라 상기 제1정보에 대한 신뢰도를 평가하는 아바타 얼굴 표정 제어장치.
제 12 항에 있어서,

상기 신뢰도 평가부가:

무음 또는 음성에 포함된 잡음 정도에 따라 상기 제2정보에 대한 신뢰도를 평가하는 아바타 얼굴 표정 제어장치.
제 12 항에 있어서,

상기 신뢰도 평가부가:

사용자의 얼굴 표정을 나타내는 특징점의 위치와 변화량에 따라 상기 제3정보에 대한 신뢰도를 평가하는 아바타 얼굴 표정 제어장치.