KR100317036B1

KR100317036B1 - 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법

Info

Publication number: KR100317036B1
Application number: KR1019990046888A
Authority: KR
Inventors: 최창석
Original assignee: 최창석
Priority date: 1999-10-27
Filing date: 1999-10-27
Publication date: 2001-12-22
Also published as: KR20010038772A

Abstract

본 발명은 음성과 얼굴 애니메이션을 동시에 합성하는 통합 시스템에서 음성지속시간에 따라 얼굴 애니메이션의 프레임 수를 자동 조절하여, 음성과 얼굴 애니메이션의 동기를 적응적으로 맞추는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법에 관한 것이다.

본 발명은 컴퓨터의 기종과 실시간 텍스쳐 매핑 방법에 따른 프레임 생성시간의 차이, 컴퓨터 표시시각의 불규칙성, 각 반음절의 평균 프레임 생성 속도에 대해 정수배가 아닌 경우 등으로 생기는 동기오차를 적응적으로 수정하여 음성과 얼굴 동영상의 동기를 맞추도록 하는 방법에 관한 발명임

Description

음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법{Automatic and adaptive synchronization method of image frame using speech duration time in the system integrated with speech and face animation}

본 발명은 음성과 얼굴 애니메이션을 동시에 합성하는 통합 시스템에서 음성과 얼굴 애니메이션의 동기화방법에 관한 것으로, 더욱 상세하게는 음성지속시간에 따라 얼굴 애니메이션의 프레임 수를 자동 조절하여, 음성과 얼굴 애니메이션의 동기를 적응적으로 맞추는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법에 관한 것이다.

일반적으로, 도 1과 같은 하드웨어의 구성으로 합성음성과 합성 얼굴 동영상을 통합한 시스템을 구축하고 있다. 카메라(1-1) 또는 스캐너(1-2)로 영상이나 사진을 컴퓨터(1-3)에 입력 한 후, 합성음성과 합성 얼굴 동영상을 생성하여, 동영상은 디스플레이(1-4)에 음성은 스피커(1-5)를 통해 동시에 표시한다. 이러한 과정을 통해 여러 가지 얼굴 애니메이션을 제작하고 있다.

도 2는 합성음성과 합성 얼굴 동영상을 통합한 시스템의 흐름도이다.

얼굴 동영상 합성부(20)에서는 얼굴DB(2-1)에 있는 얼굴영상에 얼굴의 3차원 형상모델DB(2-2)에 있는 형상모델을 정합하여(2-3), 개인 얼굴의 3차원 형상모델(2-4)을 얻는다.

한편, 문장해석부(30)에서는 한글 텍스트(2-5)가 입력되면, 음운변환기(2-6)를 통해 문장 및 어절을 검출하고(2-7), 음절별로 자·모음을 코드로 변환하여, 그 자·모음 사이의 지속시간을 부여한다(2-8).

적응동기부(40)에서는 얼굴 동영상 합성부(20)의 파라미터DB(2-9)로부터 자·모음 코드에 따라 파라미터를 선택한다(2-10).

상기 파라미터DB(2-9)에 구축되어 있는 얼굴 애니메이션을 위한 파라미터DB는 자모음입모양 파라미터DB와 표정변화 파라미터DB 및 두부동작 파라미터DB로 이루어져 있다. 또한, 각 파라미터는 얼굴근육의 움직임에 따라 여러 종류의 파라미터를 가지고 있다. 입 모양에 대한 파라미터는 자·모음에 대한 입 모양을 표현하기 위해서 여러 개의 파라미터의 조합으로 선택한다. 표정 및 두부동작에 대한 파라미터도 유사한 방법으로 선택하나, 한글 텍스트의 의미내용에 어울리는 표정 및 두부동작을 할 수 있도록, 자·모음과는 별도의 방법으로 선택한다.

선택한 파라미터를 영상 프레임 수에 따라 보간하여(2-12), 각 프레임에 대한 파라미터를 얻는다. 영상의 프레임 수는 음성의 자·모음간 지속시간과 컴퓨터기종에 따른 프레임 생성시간을 고려하여 산출한다(2-11). 나아가서, 실제 합성소요시간을 프레임별로 감시하여, 소요시간에 따라 음절별 프레임 수를 적응적으로 산출한다. 보간된 파라미터를 이용하여 개인 얼굴의 형상모델을 변형한 후(2-13), 실시간 텍스쳐 매핑(2-14)으로 프레임별 얼굴영상을 합성하여 디스플레이 한다(2-16).

한편, 음성은 자·모음 코드에 따라 음성합성부(50)의 실시간 음성합성기에서 실시간 합성한 후(2-17), 얼굴 동영상과 동시에 디스플레이 한다(2-18).

도 3a∼도 3c는 합성음성과 합성 얼굴 동영상의 동기를 위한 기본개념을 설명하기 위한 도면이다. 한글에 대한 입 모양은 초성, 중성, 종성 또는, 초성과 중성으로 구성된다. 여기에서는 반음절 단위로 동기가 이루어지기 때문에, 두 경우를 같이 취급할 수 있어, 이후 초성, 중성, 종성으로 이루어진 음절을 예를 들어 동기의 기본개념을 설명한다.

음절에 대한 입모양의 변화는 초성의 입모양에서 시작하여, 중성에 해당하는 모음의 입 모양으로 변화하여, 종성의 입 모양으로 종결된다. 즉, 음절별 초성, 중성, 종성에 대한 입 모양은 미리 구축해 놓은 입 모양 파라미터 DB로부터 자·모음에 대한 파라미터를 선택하여, 결정한다.

도 3a ∼ 도 3c의 예에서는 초성은 파라미터2가, 중성은 파라미터1과 파라미터2가, 종성으로는 파라미터2와 파라미터3이 선택되었다고 가정한다. 각 파라미터의 강도는 입 모양 파라미터 DB에 저장해 놓은 것이다. 이들 초성, 중성, 종성의 입 모양 파라미터를 키 프레임의 파라미터로 하여, 초성과 중성사이의 음성 지속시간(D₁), 중성과 종성사이의 지속시간(D₂)을 한 프레임 생성시간(T₀)로 나누어 영상 프레임 수를 산출한 후, 파라미터의 강도를 선형적으로 보간하고 있다. 한 프레임의 생성시간(T₀)는 컴퓨터 CPU 속도, 고속 텍스쳐 매핑방법에 따라 달라진다. 도 3a의 숫자는 영상 프레임의 번호를 나타낸다.

도 4는 초성, 중성, 종성의 입 모양 파라미터를 보간하여 합성한 동영상의예이다.

고속 텍스쳐 매핑 방법에서는 얼굴의 형상모델이 대개 3각형의 집합으로 이루어져 있기 때문에, 삼각형 단위로 텍스쳐 매핑을 하게 된다. 그러나, 입 모양 변화, 표정변화, 두부동작의 내용에 따라서는 전 프레임과 비교해서 삼각형이 변화가 있는 경우와 없는 경우가 있다. 변화가 없는 삼각형에 대해서는 전 프레임과 동일하기 때문에 고속화를 위해, 그 삼각형은 텍스쳐 매핑을 하지 않고, 전 프레임을 그대로 사용한다. 이 경우, 매 프레임마다 생성속도가 다르기 때문에, 프레임의 생성속도를 정확히 예측하기가 어렵게 된다. 이것이 긴 문장에 대해서 음성과 얼굴 동영상의 동기가 어긋나는 커다란 원인중의 하나이다.

음성과 동영상의 동기 구현에 있어서는 컴퓨터 CPU 기종에 따른 동영상 프레임 생성속도의 차이, 프레임 수 계산시의 반올림 오차, 입 모양, 표정 및 두부 동작에 따른 프레임별 생성 속도의 차이, 컴퓨터의 단위 시각표시의 불규칙성 때문에, 긴 문장의 경우에는 동기가 어긋나게 된다. 컴퓨터 CPU기종에 따른 동영상 프레임 생성속도의 차이는 시스템을 운용하는 컴퓨터의 기종을 어느 하나에 국한하지 않고, 다종 다양한 컴퓨터 또는 프로세서에서 사용할 가능성이 있기 때문에 일어나는 현상으로, 기종에 따라 CPU가 달라지고, CPU가 달라지면 생성 속도는 차이가 난다. 프레임 수 계산시의 반올림 오차는 음절 지속시간이 한 프레임 생성시간의 정수 배로 주어지지 않기 때문에, 정수개의 프레임을 생성하면 원래의 지속시간과의 차이가 생기기 때문에 일어나는 오차이다. 프레임별 생성시간은 상기에 설명한 바와 같이, 동기가 어긋나는 가장 큰 이유의 하나이다. 컴퓨터의 단위시간 표시가 마이크로 초(㎲) 단위에서는 일정하지 않고 약간씩 불규칙하기 때문에, 현재시각을 정확히 알 수 없는 문제가 있다. 이러한 이유로 음성과 영상의 동기를 맞추는데는 문제가 있다. 긴 문장에 대한 음성과 동영상의 동기구현을 위해서는, 이러한 요인을 흡수할 수 있는 적응적인 동기가 필요로 한다.

본 발명은 상기한 사정을 감안하여 발명한 것으로, 컴퓨터의 기종과 실시간 텍스쳐 매핑 방법에 따른 프레임 생성시간의 차이, 컴퓨터 표시시각의 불규칙성, 각 반음절의 평균 프레임 생성 속도에 대해 정수배가 아닌 경우 등으로 생기는 동기오차를 적응적으로 수정하여 음성과 얼굴 동영상의 동기를 맞추도록 하는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법을 제공하고자 함에 발명의 목적이 있다.

도1은 합성음성과 합성동영상을 통합한 시스템의 하드웨어 구성도,

도 2는 합성음성과 합성얼굴 동영상을 통합한 실시간 시스템의 흐름도,

도 3은 한 음절에 대한 음성과 동영상의 동기를 위한 기본개념도,

도 4는 음절의 초성, 중성, 종성에 대한 동영상의 입 모양 변화 예시도,

도 5도 음성과 동영상의 적응동기의 개념도,

도 6은 음성 지속시간에 따른 동영상생성의 적응동기의 흐름도이다.

*도면의 주요부분에 대한 부호의 설명*

20 -- 얼굴 동영상 합성부, 30 -- 문장해석부,

40 -- 적응 동기부, 50 -- 음성 합성부.

본 발명은 한글 텍스트가 입력되면 각 음절별로 초성, 중성, 종성의 입 모양 파라미터를 키 프레임의 파라미터로 하여, 초성과 중성사이의 음성 지속시간(D₁), 중성과 종성사이의 음성 지속시간(D₂)을 한 프레임 생성시간(T₀)으로 나누어 음절별 영상 프레임 수를 산출하는 단계, 자·모음 코드에 따라 자모음입모양 파라미터DB와 표정변화 파라미터DB 및 두부동작 파라미터DB로부터 파라미터를 선택하고 이를 영상 프레임 수에 따라 보간하여 각 프레임에 대한 파라미터를 구하는 단계, 보간된 파라미터를 이용하여 개인 얼굴의 형상모델을 변형한후 실시간 텍스쳐 매핑으로 프레임별 얼굴영상을 합성하도록 하는 단계로 이루어져 있다.

이하 예시도면에 의거 본 발명의 일실시에 대한 구성 및 작용에 대해 상세히 설명한다.

도 5a ∼ 도 5d는 본 발명에서 채용한 적응동기를 설명하기 위한 개념도이다. 도 5a의 D₁은초성과 중성사이, D₂는 중성과 종성사이의지속시간을 의미한다. 도 5a는 이 지속시간을 평균 프레임 속도 T₀로 나누어서 초기 프레임 수 N₁을 산출한다. 즉,

N₁=[D₁/T₀] (1)

이다. 여기서 [ ]은 반올림을 나타낸다. T₀는 미리 계산해 놓은 프레임의 평균 생성 시간이다. R₁은 정수 프레임의 생성 후, 과부족 시간을 의미한다. 이것은 프레임 수를 반올림하기 때문에 생기는 현상이다.

도 5b는 제 1프레임 생성 후, 추후 생성해야할 프레임 수를 재 산출한 것이다. 즉,

N₂= [(D₁-T₀ ')/T₁] (2)

이다. 여기서 T₀ '는 제 1 프레임을 실제로 생성한 시간이다. T₁은 T₀ '와 같은 제 1프레임의 생성시간이다. T₀ '가 예상보다 짧아지면, 프레임 N₂가 늘어나고, 예상보다 길어지면 N₂가 줄어들 수 있다.

도 5c는 제 2프레임 생성후에 프레임 수를 조정한 것이다. 적응동기를 위하여, 매 프레임 생성 시마다, 시스템 초기부터 생성된 전체 프레임의 평균시간을 재계산한다. 즉,

(3)

N은 시스템 시작에서부터 현재까지 생성된 프레임 수이다. 정수프레임을 생성후의 과부족 시간 R_N을 계산한다. 이것은 미리 산출하는 것이 아니라, 반 음절의 최후 프레임을 생성한 후에 도 5d에서와 같이 산출한다. 즉,

(4)

이다.

이와 같이 초성과 중성사이의 지속시간 D₁에 대해서 프레임 생성이 끝나면, D₂를 조정한다. 즉,

(5)

이다. D₂ '는 조정된 D₂로서, 중성과 종성의 지속 시간으로 주어진다. 일반적으로는, 어떤 반음절의 프레임 생성결과 본래 지속시간보다 과부족 시간이 생기면, 다음 반음절에 이월하여 지속시간을 약간 조정하고 있다. 프레임 수를 적응적으로 조절함에 따라, 파라미터는 반음절 시작부터 현재까지의 생성소요시간을 고려하여 보간한다. 즉,

(6)

이다. 여기서,A _N 은 현재 생성해야할 프레임의 파라미터 강도이다.A ₀ ,A _l 은 제 i번째 반음절의 시작과 끝의 파라미터의 강도이다. Q_i는 제 i번째 반음절의 시작부터 현재 생성된 프레임까지 합성소요시간이다. D_i'는 제 i번째의 반음절의 조정된 지속시간이다.

이러한 적응동기 순서는 도 6과 같은 방법으로 이루어진다. 적응동기를 이용하면, 반음절별로 음성지속시간과 동영상 프레임 생성시간과의 차이가 T_N/2를 넘지 않는다.

(1) 시스템을 기동하여 시작한다(6-1단계).

(2) 가장 최근에 프로그램을 사용하였을 때의 프레임의 평균생성시간 T_O를 디스크로부터 읽는다(6-2단계). 프로그램을 컴퓨터에 처음 포팅하였을 경우는,포팅 전 컴퓨터의 프레임 평균생성시간이다. T_o는 프로그램을 사용함에 따라, 사용중의 컴퓨터의 프레임 생성주기 T_N에 자동 적응된다.

(3) 입력텍스트의 반음절 수 M을 읽는다(6-2단계).

(4) 합성된 총 프레임수 N, 반음절 순서 i, 반음절의 누적 지속시간 D, 합성과부족시간 R₀를 초기화한다(6-3단계).

(5) 합성시작 시각 P₀를 체크한다(6-4단계).

(6) 제 i번째 반음절의 지속시간 D_i를 읽는다(6-5단계).

(7) 지속시간 D_i를 누적한다(6-6단계).이다.

(8) 제 i번째 반음절의 지속시간 D_i를 제 i-1번째 반음절에서의 과부족시간을 조정한다(6-7단계). 즉,이다.

(9) 반음절별 프레임 순서 j를 초기화한다(6-8단계).

(10) 제 i번째 반음절의 시작시각 P_i를 체크한다(6-9단계).

(11) 식(6)을 이용하여 파라미터를 보간한다(6-10단계).

(12) 보간된 파라미터에 따라 얼굴형상모델을 변형하여, 실시간으로 텍스쳐 매핑한다(6-11단계).

(13) 합성후 시각 P_i '를 체크한다(6-12단계).

(14) 합성최초부터 제 i번째 반음절의 프레임 합성중 소요시간를 산출한다(6-13단계).

(15) 제 i번째 반음절까지의 누적 지속시간 D와 합성중 소요시간 Q를 비교한다(6-14단계).이면, 합성을 계속하기 위해 다음단계로 간다. 아니면, 다음 반음절 합성을 위해 (6-18단계)로 간다.

(16) 생성된 총 프레임 수 N, 음절별 프레임 수 j를 1만큼 증가시킨다(6-15단계).

(17) 시스템 시작으로부터 이제까지 프레임의 생성시간 Q를 총 프레임 수 N으로 나누어서 프레임 당 평균 생성시간 T_N을 산출한다(6-16단계). 즉,이다. 프레임 당 평균시간을 매 프레임마다 산출하므로써 컴퓨터 CPU, 실시간 텍스처 매핑의 속도에 자동적응된다.

(18) 제 i번째 반음절의 시작부터 현재까지 생성된 프레임의 합성소요시간를 산출한다(6-17단계).

(19) 입력 텍스트의 반음절 수 M과 현재 반음절 번호 i를 비교한다.이면, 합성을 계속하기 위해 다음단계로, 아니면 (6-21단계)로 진행한다(6-18단계).

(20) 제 i번째 반음절의 잔여시간를 산출한다. 단계(5)로 진행한다(6-19단계).

(21) 반음절 번호 i를 1만큼 증가시킨다(6-20단계).

(22) 프레임의 평균 생성시간 T_N를 저장한다(6-21단계).

(23) 시스템을 종료한다(6-22단계).

상기한 바와 같이 본 발명은 전체 프레임의 평균시간을 계산하여, 반음절에서 생성될 프레임 수를 정하고, 프레임 생성결과 반음절의 본래 지속시간보다 과부족시간이 생기면 다음 반음절에 이월하여 지속시간을 조정하도록 함으로써 합성 얼굴의 동영상과 음성을 적응동기시킬 수 있는 효과가 있다.

Claims

한글 텍스트가 입력되면 각 음절별로 초성, 중성, 종성의 입 모양 파라미터를 키 프레임의 파라미터로 하여, 초성과 중성사이의 음성 지속시간(D₁), 중성과 종성사이의 음성 지속시간(D₂)을 한 프레임 생성시간(T₀)으로 나누어 음절별 영상 프레임 수를 산출하는 단계, 자·모음 코드에 따라 자모음입모양 파라미터 DB와 표정변화 파라미터DB 및 두부동작 파라미터DB로부터 파라미터를 선택하고 이를 영상 프레임 수에 따라 보간하여 각 프레임에 대한 파라미터를 구하는 단계, 보간된 파라미터를 이용하여 개인 얼굴의 형상모델을 변형한후 실시간 텍스쳐 매핑으로 프레임별 얼굴영상을 합성하는 단계로 이루어져 있는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법.
제1항에 있어서, 음절별 영상 프레임 수를 산출하는 단계는 초성과 중성사이의 지속시간(D₁)을 미리 계산해 놓은 프레임의 평균 생성시간(T₀)으로 나누고 나머지는 반올림하여 초기 프레임수(N₁)를 산출하는 단계, 제1프레임의 생성이후 잔여 지속시간(D₁-T₀')을 제1프레임의 실제 생성시간(T₁')으로 나누어 프레임 수(N₂)를 재산출하는 단계, 이어 제2프레임을 생성하고나서 상기 프레임 수 재산출단계를 반복하여 프레임 수를 조정하는 단계, 적응동기를 위해 매 프레임 생성시마다 시스템 초기부터 생성된 전체 프레임의 평균시간(T_N)을 반복하여 재산출하는 단계, 상기 프레임 수 재산출단계를 반복하여 반음절의 최후 프레임을 생성한후에 과부족시간 ()을 산출하는 단계, 초성과 중성사이의 지속시간(D₁)에 대한 프레임의 생성이 끝나면 중성과 종성사이의 지속시간(D₂)에 상기 과부족시간(R_N)을 더하여 중성과 종성사이의 지속시간(D₂')으로 조정하는 단계, 이어 상기 초성과 중성사이의 프레임 수 생성단계와 동일한 단계를 수행하므로써 어떤 반음절의 프레임 생성결과 본래 지속시간보다 과부족 시간이 생기면 다음 반음절에 이월하여 지속시간을 조정하도록 하는 것을 특징으로 하는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법.
제1항에 있어서, 적응동기에 대한 파라미터들의 보간단계는 제i번째 반음절의 시작 파라미터 강도(A_l)와 끝의 파라미터 강도(A_o)와의 파라미터 강도의 차(A_l-A_o)에 제i번째 반음절의 시작부터 현재 생성된 프레임까지 합성소요시간 (Q_i)과 시스템 초기부터 생성된 전체 프레임의 평균시간(T_N)의 합(Q_i+T_N)을 곱하고 이를 제i번째 반음절의 조정된 지속시간(D_i')으로 나눈후 제i번째 반음절의 끝의 파라미터강도(A_o)를 가산하여 현재 생성해야할 프레임의 파라미터 강도로써 보간하도록 하는 것을 특징으로 하는 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법.