KR20080008432A

KR20080008432A - 음성 신호에 대한 립싱크 동기화 방법 및 장치

Info

Publication number: KR20080008432A
Application number: KR1020080001103A
Authority: KR
Inventors: 김풍민; 김현석; 신동선; 금종룡; 김종우
Original assignee: 주식회사 이머시스
Priority date: 2008-01-04
Filing date: 2008-01-04
Publication date: 2008-01-23
Also published as: KR100849027B1

Abstract

본 발명은 음성신호를 아바타의 립싱크에 동기화하기 위한 데이터 처리 방법 및 장치에 관한 것으로서, 입력되는 음성 신호를 처리하여 보다 사실적인 립싱크가 이루어지게 한다.

본 발명은, 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법에 있어서, 입력 장치를 통해 입력된 입력 신호에 대해 주변 환경으로부터 입력되는 배경 노이즈를 저감시켜서 음성신호를 찾는 노이즈저감 및 음성인식 단계; 상기 음성신호에서 모음 부분을 추출하는 모음정보 추출 단계; 상기 모음 정보를 이용하여 상기 모음의 발성시의 입술의 움직임에 대한 정보를 추출하는 입술모션 추출단계; 상기 입술의 움직임 정보를 립싱크용 데이터로 변환하는 입술 모션정보 인코딩 단계를 포함하는 것을 특징으로 한다.

본 발명을 이용하면 음성과 관련된 별도의 텍스트 데이터를 입력받지 않고 실시간으로 입력된 음성 신호만을 이용하여 아바타에 좀 더 사실감 있는 립싱크를 제공하는 것이 가능하여 영상통화시 사용하는 대체화면의 립싱크에 적용할 경우 음성과 입모양이 어색하게 되는 것을 방지할 수 있어 통화 시 만족도를 높일 수 있다.

음성, 립싱크, 노이즈 저감, 영상통화, 아바타

Description

음성 신호에 대한 립싱크 동기화 방법 및 장치{Synchronization Method and Apparatus of Lip-sync to Voice Signal}

본 발명은 음성을 립싱크에 동기시키기 위한 데이터 처리 장치 및 방법에 관한 것으로, 입력된 음성신호와 아바타의 입술 움직임이 보다 자연스럽게 움직이도록 동기화하는 방법 및 장치에 관한 것이다.

컴퓨터 그래픽의 발달로 영화나 애니메이션에서 음성을 가상캐릭터의 얼굴에서 자연스럽게 립싱크가 되도록 처리하기 위한 다양한 연구가 활발히 이루어지고 있다. 또한, 영상 통화 휴대폰이 보급되면서 영상 통화시 본인의 얼굴 대신, 대체 화면으로서 가상 캐릭터를 이용하여 다양한 표정 및 움직임을 제공하는 서비스가 상업화 되고 있다.

립싱크에 대한 종래의 방법에는, 임의의 텍스트를 입력하여 입력된 텍스트를 통해 음성 합성 결과를 립싱크하는 방법을 이용하거나, 실제 사람의 음성을 입력하고 이에 맞추어 엔지니어(또는 애니메이터)들의 수작업을 통하여 입모양의 특징 값 포인터를 직접 표시해 줌으로써 화면에 완성하는 방법을 이용하고 있으나, 이 2가지 방법을 이용하여 입모양을 표현할 때 음성과 입모양의 움직임이 약간의 시간차를 갖게 되거나 어색한 움직임으로 표현되는 경우가 많아 실제 입술의 움직임처럼 자연스럽지 않으며, 특히 두 번째 방법을 사용할 경우 많은 노동력을 필요로 하게 된다.

이러한 문제를 해결하기 위하여 최근에는 실제 음성과 입력된 음성에 대한 텍스트 파일을 입력하여, 이 2개의 데이터를 이용하여 동기화함으로써 좀 더 자연스러운 립싱크가 이루어지도록 하고 있다.

그러나, 이 방법은 주로 영어 또는 한국어 등 특정 나라의 발음에 의존하여 연구된 기술로 발음 구조가 다른 언어의 발음에 립싱크를 적용하기위해서는 DB를 새로 구축해야 하는 등의 노력이 필요하다. 또한 통화환경에서의 소음이 있을 경우 큰 인식률 저하가 발생되므로, 환경 소음의 적절한 제거가 이루어지지 않으면 자연스러운 립싱크를 제공하기에는 한계가 있다.

본 발명은 종래의 기술들의 이러한 문제점을 해결하기 위하여, 입력된 음성신호만을 이용하여 환경소음을 제거하고 입모양 데이터를 추출하여 립싱크에 이용하도록 함으로써, 보다 자연스럽고 오류가 적은 립싱크가 이루어지도록 하는 것에 그 목적이 있다.

따라서 본 발명은 주변으로부터 입력되는 잡음으로 인하여 입력된 음성 신호의 인식률 저하를 방지하기 위하여 잡음을 제거하는 노이즈 저감기술을 모음 인식부 전 단에서 구현하게 되며, 이후 모음 추출부를 구현하고, 추출된 입모양 정보를 정수로 부호화하게 된다.

이러한 본 발명은 일반통신 및 영상통신에서 이용되는 아바타에 대한 립싱크 이외, 캐릭터 메신저, 게임, 영화, 애니메이션 등 다양한 분야에서 적용하는 것이 가능하며, 노이즈 저감 기술만을 별도로 이용할 경우엔 음성통신 및 음성녹음 기능이 포함된 다양한 기기에 노이즈 저감 기능을 적용하는 것이 가능해진다.

이상과 같은 기술적 과제를 달성하기 위하여, 본 발명은, 입력되는 음성신호를 처리하여 립싱크 동기화를 위기 위한 데이터 처리 방법에 있어서,

입력 장치를 통해 입력된 입력 신호에 대해 주변 환경으로부터 입력되는 배경 노이즈를 저감시켜서 음성신호를 찾는 노이즈저감 및 음성인식 단계; 상기 음성신호에서 모음 부분을 추출하는 모음정보 추출 단계; 상기 모음 정보를 이용하여 상기 모음의 발성시의 입술의 움직임에 대한 정보를 추출하는 입술모션 추출단계; 상기 입술의 움직임 정보를 립싱크용 데이터로 변환하는 입술 모션정보 인코딩 단계를 포함하는 것을 특징으로 한다.

또한, 상기 기술적 과제를 해결하기 위하여 본 발명은, 립싱크에 필요한 입 모양 움직임과 관련된 데이터를, 입력된 음성 신호만을 이용하여 추출 및 처리하는 것을 기본 원칙으로 한다. 그리고 좀 더 정확한 데이터 처리를 위하여 주변으로부터 들어오는 잡음을 저감시키는 잡음 저감 솔루션을 적용하여 본 발명을 구성한다.

이상의 상세히 설명한 바와 같이 본 발명을 이용하면 음성과 관련된 별도의 텍스트 데이터를 입력받지 않고 실시간으로 입력된 음성 신호만을 이용하여 아바타에 좀 더 사실감 있는 립싱크를 제공하는 것이 가능하여 영상통화시 사용하는 대체화면의 립싱크에 적용할 경우 음성과 입모양이 어색하게 되는 것을 방지할 수 있어 통화시 만족도를 높일 수 있다.

사람이 말할 때 자음은 혀의 움직임에 따라 변화하게 되고, 모음인“아, 에, 이, 오, 우, 어, 으”는 입모양에 따라 변화하게 된다. 예를 들어 “가”와 “아”를 발음하면 혀의 위치는 다르나, 입의 모양은 같은 모양임을 알 수 있다. 이러한 음성의 기본 원칙에서 착안하여 음성 신호에서 모음에 대한 데이터를 정확하게 추출하여 처리하면 보다 정확하고 자연스러운 립싱크를 재생할 수 있다.

따라서, 도1에서와 같이, 입력된 음성을 음성-애니메이션 데이터 변환 알고리즘(또는 변환장치)(도면에서는 V2A 알고리즘이라 약칭함)에 입력하여 이 입력된 음성에 존재하는 모음에 대한 데이터를 추출하여 표시장치의 입모양에 이 모음 데이터에 대응하는 입모양 영상을 표시하면 입력된 음성에 대한 립싱크가 동기화되게 된다.

도2는, 영상 통화 휴대폰에서 영상통화시와 일반 스피커폰 통화시에 본 발명의 알고리즘이 어떻게 적용되는지를 설명하는 도면이다. V2A 기능 제어 장치는 영상통화시에는 도2의 좌측의 V2A알고리즘을 구동시키고, 일반 스피커폰 통화시에는 우측의 V2A 알고리즘을 구동시키는 제어 장치이다.

먼저, 상대방과 영상통화를 하는 경우에는 상대방의 에코가 제거된 음성신호(내목소리)가 본 발명의 V2A 알고리즘에 입력되어서 입모양을 나타내는 부호화된 데이터가 이 알고리즘에서 출력되어 상대방에게 보내는 내 영상(예를들면, 아바타)에 적용되어서, 내 영상의 입모양이 음성과 동기화되게 된다.

다음으로, 상대방과 일반 스피커폰 통화를 하는 경우에는 각자는 사전에 자신의 아바타를 서버에 전송하여 등록하고, 스피커폰 통화 개시때에 상대방의 아바타를 이 서버에서 수신하여 화면에 상대방의 아바타를 표시한다. 이제 상대방 목소리가 본 발명의 V2A 알고리즘에 입력되어 입모양을 나타내는 부호화된 데이터가 이 알고리즘에서 출력되어 이 데이터를 상대방 아바타에 적용하면 상대방의 아바타의 입모양이 상대방의 음성에 동기화되게 된다.

이제, 이상에서 설명하는 V2A 알고리즘을 구현함에 있어서 고려해야 하는 점에 대해 설명하기로 한다.

일반적으로 휴대전화기의 마이크 또는 기타 녹음 장치의 마이크를 통하여 입력된 음성신호의 특징을 명확하게 구분하는 것이 어려운 이유는 첫째, 주변 환경에 의해 생성된 각종 잡음이 마이크로 집음되어 사람의 목소리와 함께 입력되어 음성 신호의 특징을 불명확하게 한다는 것과, 둘째, 사람의 입모양, 목소리의 크기에 의해 입력된 음성 신호의 레벨이 다양하게 변화한다는 것이다.

도4에서 구체적으로 설명되지만, 이러한 문제점을 해결하기 위해 본 발명에서는 노이즈를 감쇠시키는 노이즈 저감 필터와, 음성의 레벨을 일정하게 만들어 주기 위해 입력된 음성레벨을 맞추어주는 레벨 조절기를 구성요소로 추가한다.

본 발명의 V2A 알고리즘을 구현하기 위한 음성 처리과정의 전체적인 구성 및 동작을 도3을 참고로 하여 설명한다.

휴대전화기의 마이크를 통하여 입력된 PCM 음성신호는 노이즈저감 및 음성인식부(1)(구체적인 내부 구성도는 도4에 도시됨)에 입력되어서, 음성 신호에 포함된 주변 노이즈가 저감되고 음성부분을 인식하기 위한 처리를 하게 된다. 노이즈저감 및 음성인식부(1)에서 출력된 신호는 모음정보 추출부(2)에서 입의 움직임을 결정하는 주요 요소인 모음을 음성신호에서 추출한다. 이제, 이렇게 하여 추출된 모음 정보는 이 모음에 대응하여 입의 움직임이 어떻게 변화하는지를 추출하는 입술모션 추출부(3)로 송신된다. 이 입술모션 추출부(3)에서는 입술의 좌우 벌어짐, 상하 벌어짐, 턱의 움직임, 입술의 돌출 여부 등을 판단하여 입술의 움직임을 추출하여 그 값을 입술모션정보 인코딩부(4)로 전송한다. 입술모션 정보 인코딩부(4)에서는 도5에서 예시된 입모양의 구조로 표현된 예시의 값처럼 인코딩 처리가 되어 정수형 데이터가 되어서 각각의 시스템이 가지고 있는 개별의 립싱크 모듈로 전달하게 되어, 영상통화시에는 영상화면의 아바타에 입술 움직임에 반영되고, 스피커폰 통화 시에는 내 휴대폰 화면에 표시된 상대방 아바타의 입술 움직임 부분에 반영되게 된다.

이제, 도3에 도시된 노이즈 저감 및 음성 인식부(1)의 세부 구성에 대해 도4를 참고로 하여 자세히 설명하기로 한다.

이상에서 설명한 바와 같이, 마이크 또는 외부 신호를 입력받을 수 있는 입력기를 통하여 입력된 음성 신호는 통화자의 주변 환경에 의해 입력되는 노이즈로 인하여 음성신호의 정보를 정확히 인식하는 것이 어렵기 때문에 주변 노이즈를 제거하는 처리가 필요하다.

이에 따라, 본 발명에서 사용되는 노이즈저감 및 음성인식부(1)는 도4에 도시된 바와 같이, 입력된 신호는 음성의 왜곡 없이 차량 소음과 같은 저음 구간의 소음을 효과적으로 걸러내기 위한 제 1필터를 통과하게 된다. 제 1필터의 입력

및 출력

는

의 관계를 가진다. 이 식에서

,

일 경우에는 TIA/EIA/IS-127-1 규격 내 Noise Suppressor의 pre-emphasizing 필터와 같게 된다.

제1 필터를 통과한 후, 사용자가 핸드폰의 통화버튼을 누른 후 처음 시간 간격(T1)(예를들면 1초 정도)에서는 사용자가 통화 연결이 되었는지 확인이 될 때까지 일정 시간동안 사용자는 발성을 하지 않고 대기하게 되어 이 구간에서 입력되 는 신호(V1)는 오직 배경잡음이므로 이 노이즈 레벨의 최대값(Max)을 분석 및 생성하기 위하여 입력신호가 입력신호 분석부(5)를 통과한다. 이 최대값(Max)이 다음 구간(T2)에서 배경잡음 제거를 위한 기준 값(Ref1)이 된다.

이제, 입력신호 분석부(5)에서는 다음 시간 간격(T2)에서 이전의 기준값(Ref1)을 기준으로 하여 입력신호(V2)를 판단하여 입력신호(V2)가 노이즈 신호인지 또는 음성신호 혼합 신호를 판단한다.

즉, 입력신호 판단부(6)에서는 기준값(Ref1)과 입력신호(V2)를 비교하여 이 기준값(Ref1)보다 큰 입력 신호(V2)는 음성신호가 포함된 신호로 판단하고, 이 기준값(Ref1) 보다 작으면, 음성신호가 포함되어 있지 않은 배경잡음 신호로 판단하게 된다. 이제, 음성신호가 포함되어 있지 않은 배경잡음 신호로 판단되면 이 입력신호(V2)는 스펙트럼 모델링을 하는 배경 노이즈 스펙트럼 모델링부(7)에 입력된다. 배경 노이즈 스펙트럼 모델링부(7)에서 모델링된 노이즈 신호는 배경노이즈 스펙트럼 제거부(8)로 복사된다. 배경노이즈 스펙트럼 제거부(8)에서는 배경 노이즈 스펙트럼 모델링부(7)로부터 복사된 모델링을 이용하여 제1필터로부터 입력되는 신호로부터 배경노이즈를 제거하는 작업을 한다.

이제, 구간(T2) 이후(T3, T4 ......)의 입력된 신호에는 음성이 포함되어 있는 구간과 음성이 없이 노이즈만 있는 구간이 공존하게 된다. 초기 구간(T1) 이후에는 이전 구간에 대해 분석된 노이즈 레벨을 사용하여, 판단 기준값(Ref)에 대한 업데이트가 이루어지는데(예를 들면, 이전 10개의 구간의 노이즈 레벨 평균값을 판단 기준값(Ref)에 일정 비율로 반영함), 입력신호 분석부(5)에 입력된 신호의 최대 값(Max)이 기준값(Ref)보다 큰 경우에는 노이즈 구간이 아닐 확률이 크므로 판단 기준값(Ref)의 업데이트 속도를 느리게 하며(예를 들면, 최대값(Max)을 판단 기준값에 1% 정도만 반영), 입력된 신호의 최대값(Max)이 기준값(Ref)보다 작은 경우에는 배경 노이즈만 있는 구간으로 판단하고 판단 기준값(Ref)의 업데이트 속도를 빠르게(예를 들면 최대값(Max)을 판단 기준값에 10%반영) 이루어지도록 하여, 노이즈 구간과 음성구간의 판단의 신뢰도를 높이게 된다. 이후, 위에서 언급한 입력신호 판단부(6) 이하의 과정을 수행하게 된다.

결국, 직전 시간 간격에 입력신호 분석부(5)에서 생성한 기준값(Ref)을 기준으로, 입력신호 판단부(6)에서는 입력신호가 배경 잡음신호인지 또는 음성 혼합신호인지를 판단하고, 배경 잡음신호이면 배경 노이즈 스펙트럼 모델링부(7)에서 배경 노이즈 신호를 모델링하며, 이렇게 모델링된 노이즈 신호가 배경 노이즈 스펙트럼 제거부(8)로 복사되어 배경 노이즈가 제거되는 과정이 반복되게 된다.

여기서, 배경노이즈 스펙트럼 제거부(8)에서 제거되는 노이즈는 비교적 낮은 레벨의 정적(stationary)노이즈로, 이때 제거하지 못한 비정적(non-stationary)의 작은 노이즈는 레벨 정규화부(9)와 고에너지 스펙트럼 필터링부(11)에서 제거하게 된다. 레벨 정규화부(9)에서는 배경노이즈 스펙트럼 제거부(8)에 의해 정적 노이즈를 제거한 신호에 대하여 레벨 정규화(Normalization)처리를 한다.

정규화된 신호에서 노이즈 부분은 비정적인 작은 노이즈로 낮은 에너지를 가지게 되므로, 레벨 정규화부(9)에서 출력된 신호 중 고에너지(high energy) 부분은 통화자에 의해 발생한 음성 부분으로 해석할 수 있다. 따라서 통화자의 음성부분만 을 인식하도록 일시적인 고에너지(temporal high energy) 부분에 대한 스펙트럼 모델링을 하는 일시적 고에너지 스펙트럼 모델링부(10)에 의해 형성되는 모델을 이용하여 고에너지 스펙트럼 필터링(high energy spectrum filtering)을 하는 고에너지 스펙트럼 필터링부(11)를 거친 후 출력된 신호는 음성의 음색을 다시 복원하기 위해 제 1필터의 역에 해당하는 제2필터를 통과함으로서, 출력신호는 정적 및 비정적 노이즈가 제거된 음성신호가 된다.

본 발명에서 립싱크를 위한 데이터 처리에 사용되는 신호는 일시적 고에너지(temporal high energy) 부분에 대한 스펙트럼 모델링된 값을 이용하여 처리하게 된다. 따라서 일시적 고에너지 스펙트럼 모델링부(11)에서 만들어진 스펙트럼 모델링값(A)은 음성특성에 대한 값으로 간주되며, 이 값을 이용하여 도3의 모음정보 추출부(2)에서 모음에 대한 정보를 추출하게 된다.

다음으로, 본 발명의 입술 모션 추출부(3)에서 입술의 변화 정보를 추출하기 위해 사용되는 국어의 단모음 체계의 분류에 대해 표1을 참고로 설명한다.

본 발명에서는 이상의 모음 체계에서 그 입모양에 따라 “ㅏ, ㅔ, ㅐ, ㅣ, ㅗ , ㅜ , ㅡ, ㅓ”의 8개로 분류하여 모음 정보를 추출한다.

추출된 모음 정보는 그 특성에 맞춰 입모양의 움직임을 인식하게 된다. 예를 들어 “ㅏ”를 발음할 경우 입의 움직임은 크게 벌어지며, “ㅜ”를 발음할 경우 입의 움직임은 작게 오므라들며 앞으로 나오게 된다. 이렇게 모음의 특성에 맞춰 입의 움직임이 달라지므로 입술모션 추출부(3)에서는 모음정보 추출부(2)로부터 구분 되어진 모음 정보를 이용하여 입술의 움직임이 어떻게 달라지는지를 판단 추출하게 된다.

도5는 입모양을 좌우의 벌림, 상하의 벌림에 따라 총 25가지 구조로 표현한 예시도로서, 입술의 움직임 모양이 추출되면 입술모션정보 인코딩부(4)에서는 추출된 모음의 종류와 그 모음을 발음 할 때 움직이게 되는 입의 좌우 크기, 입의 상하 크기, 입의 돌출 정도, 턱의 움직임 정도, 음성 크기에 따른 입의 크기 변화 등의 모든 정보 값을 인코딩하여 립싱크에 사용할 수 있는 정수형의 데이터 값으로 변환 처리한다. 그리고, 이상과 같은 과정을 통해 형성된 정수형의 데이터는 각각의 시스템이 가지고 있는 립싱크 모듈로 전달하게 되어, 영상통화시에는 영상화면의 아바타에 입술 움직임에 반영되고, 스피커폰 통화시에는 내 휴대폰 화면에 표시된 상대방 아바타의 입술 움직임 부분에 반영되게 된다.

이상에서는 본 발명의 실시예를 설명하였으나, 본 발명은 상기 실시예에 한정되는 것이 아니라 본 발명에 벗어나지 않는 범위 내에서 다양한 변형이 가능하다 는 점을 유의해야 한다.

예를들면, 이상의 본 발명의 실시예는 립싱크 처리에 대한 발명을 개시하고 있으나, 본 발명은 텍스트를 발성하고자 하는 경우에 텍스트를 TTS(text to speech)엔진으로 음성 변환하여 발성을 하면서 아바타가 립싱크를 하게 하는 서비스에서도 적용 가능하다.

또한 이상에서는 본 발명의 V2A의 기술을 영상통화 휴대폰에서 영상통화시의 내 영상의 입술 부분 또는 스피커폰 통화시의 상대방 아바타의 입술부분에 반영하는 경우에 대해 설명하였으나, 본 발명의 원리는 휴대폰 게임 등에서 아바타 또는 가상현실(virtual reality)의 입술부분에 적용할 수도 있다.

도1은 음성에 대응하는 입모양을 애니메이션하는 원리를 도시하는 도면.

도2는 본 발명의 알고리즘이 영상통화시나 일반 스피커폰 통화시에 적용되는 것을 도시함.

도3은 본 발명의 알고리즘을 구현하는 전체적인 구성도.

도4는 도3의 노이즈 저감 및 음성 인식부(1)의 상세 구성도.

도5는 본 발명의 알고리즘을 적용하여 얻은 모음을 매칭시키기 위한 입모양 구조도의 예시도.

Claims

입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법에 있어서,

입력 장치를 통해 입력된 입력 신호에 대해 주변 환경으로부터 입력되는 배경 노이즈를 저감시켜서 음성신호를 찾는 노이즈 저감 및 음성인식 단계;

상기 음성신호에서 모음 부분을 추출하는 모음정보 추출 단계;

상기 모음 정보를 이용하여 상기 모음의 발성시의 입술의 움직임에 대한 정보를 추출하는 입술모션 추출단계;

상기 입술의 움직임 정보를 립싱크용 데이터로 변환하는 입술 모션정보 인코딩 단계를 포함하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항에 있어서, 상기 노이즈저감 및 음성인식단계는

입력되는 신호 레벨에서 노이즈 레벨을 분석하는 레벨 분석 단계;

분석된 레벨을 이용하여 배경노이즈만 있는 경우와 음성신호와 배경 노이즈가 함께 존재하는 경우를 판단하는 입력신호 판단 단계;

상기 음성신호 판단 결과, 배경 노이즈만 있는 경우로 판단되면 이 입력신호를 스펙트럼 모델링 처리를 하는 배경 노이즈 스펙트럼 모델링 단계;

상기 배경 노이즈 스펙트럼 모델링 단계에서 복사한 노이즈 모델링을 적용하 여 입력신호에서 정적인 노이즈를 제거하는 배경 노이즈 스펙트럼 제거 단계;

상기 배경 노이즈 스펙트럼 제거 단계에서 정적 노이즈가 제거된 입력 신호를 정규화 처리를 하는 레벨 정규화 단계;

상기 정규화된 입력 신호에서 통화자의 음성 부분만을 인식하도록 일시적 고에너지 부분에 대한 스펙트럼 모델링을 하는 일시적 고에너지 스펙트럼 모델링 단계;

상기 일시적 고에너지 스펙트럼 모델링에 의해 형성되는 모델을 적용하여 상기 정규화된 입력 신호에서 고에너지만을 통과시켜 비정적 노이즈를 제거하는 고에너지 스펙트럼 필터링 단계를 포함하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 2항에서 있어서, 상기 일시적 고에너지 스펙트럼 모델링 단계에서 생성된 스펙트럼 모델을 이용하여 상기 모음 정보 추출 단계에서 모음부분을 추출하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항에 있어서,

상기 모음정보 추출 단계는 “ㅏ, ㅔ, ㅐ, ㅣ, ㅗ , ㅜ , ㅡ, ㅓ”의 8개의 모음 정보를 추출하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항에 있어서,

상기 입술모션 추출 단계는 입의 상하 벌어짐, 좌우 벌어짐, 입의 돌출정도, 턱의 움직임 정도, 음성 크기에 따른 입의 크기 변화를 추출하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항에 있어서,

상기 입술모션정보 인코딩 단계는 상기 입술 모션정보를 실제 립싱크에 적용 가능한 정수형 데이터로 변환하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항에 있어서,

립싱크는 아바타의 립싱크인 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 방법.
제 1항의 데이터 처리 방법을 사용하는 영상 통화 휴대폰.
입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 장치에 있어서,

입력 장치를 통해 입력된 입력 신호에 대해 주변 환경으로부터 입력되는 배 경 노이즈를 저감시켜서 음성신호를 찾는 노이즈 저감 및 음성인식부;

상기 음성신호에서 모음 부분을 추출하는 모음정보 추출부;

상기 모음 정보를 이용하여 상기 모음의 발성시의 입술의 움직임에 대한 정보를 추출하는 입술모션 추출부;

상기 입술의 움직임 정보를 립싱크용 데이터로 변환하는 입술 모션정보 인코딩부를 포함하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 장치.
제 9항에 있어서, 상기 노이즈저감 및 음성인식장치는

입력되는 신호 레벨에서 노이즈 레벨을 분석하는 레벨 분석부;

분석된 레벨을 이용하여 입력신호에 배경노이즈만 있는 경우와 음성신호와 배경 노이즈가 함께 존재하는 경우를 판단하는 입력신호 판단부;

상기 음성신호 판단 결과, 배경 노이즈만 있는 경우로 판단되면 이 입력신호를 스펙트럼 모델링 처리를 하는 배경 노이즈 스펙트럼 모델링부;

상기 배경 노이즈 스펙트럼 모델링부에서 복사한 노이즈 모델링을 적용하여 입력신호에서 정적인 노이즈를 제거하는 배경 노이즈 스펙트럼 제거부;

상기 배경 노이즈 스펙트럼 제거부에서 정적 노이즈가 제거된 입력 신호를 정규화 처리를 하는 레벨 정규화 부;

상기 정규화된 입력 신호에서 통화자의 음성 부분만을 인식하도록 일시적 고에너지 부분에 대한 스펙트럼 모델링을 하는 일시적 고에너지 스펙트럼 모델링부;

상기 일시적 고에너지 스펙트럼 모델링에 의해 형성되는 모델을 적용하여 상기 정규화된 입력 신호에서 고에너지만을 통과시켜 비정적 노이즈를 제거하는 고에너지 스펙트럼 필터링부를 포함하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 장치.
제 10항에서 있어서, 상기 일시적 고에너지 스펙트럼 모델링부에서 생성된 스펙트럼 모델을 이용하여 상기 모음 정보 추출부에서 모음부분을 추출하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 장치.
제 9항에 있어서,

상기 입술모션 추출부는 입의 상하 벌어짐, 좌우 벌어짐, 입의 돌출정도, 턱의 움직임 정도, 음성 크기에 따른 입의 크기 변화를 추출하는 것을 특징으로 하는 입력되는 음성신호를 처리하여 립싱크 동기화를 하기 위한 데이터 처리 장치.