KR20000009490A

KR20000009490A - 음성 합성을 위한 립싱크 방법 및 그 장치

Info

Publication number: KR20000009490A
Application number: KR1019980029941A
Authority: KR
Inventors: 박찬민
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1998-07-24
Filing date: 1998-07-24
Publication date: 2000-02-15
Also published as: KR100300962B1

Abstract

본 발명은 음성 합성을 위한 립싱크 방법 및 그 장치를 개시한다. 사람의 얼굴을 나타내는 정지 영상 데이타, 형상 모델 데이타와, 임의의 텍스트를 입력하여 상기 얼굴에 상기 텍스트로부터의 음성 합성 결과를 립싱크하는, 본 발명에 의한 음성 합성을 위한 립싱크 방법은, (a) 음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 얻는 단계, (b) 음절별 지속시간내에서 음소들 각각에 대한 음소별 지속시간을 할당하는 단계, (c) 음소별로 입 모양 정보를 정의한 소정의 참조 테이블을 참조하여, 각각의 음소별 지속시간내에서 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 동영상 키 프레임을 생성하는 단계, (d) 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성하고, 정지 영상 데이타에 합성하는 단계 및 (e) 합성된 동영상을 음성 합성 결과와 동기하여 출력하는 단계를 구비하는 것을 특징으로 한다.

Description

음성 합성을 위한 립싱크 방법 및 그 장치

본 발명은 립싱크(lip-syncronization)에 관한 것으로서, 음성 합성을 위한 립싱크 방법 및 그 장치에 관한 것이다.

1970년대 중반부터 시작하여 1980년대말 이후 연구가 활발히 진행되고 있는 얼굴 합성에 관한 연구는 현재 MPEG4 표준화의 한 분야에 포함될 정도로 그 중요성이 많이 인식되고 있다. 이와 더불어 최근에는, 컴퓨터 그래픽으로 합성된 얼굴과 사람 음성간의 립싱크를 통하여 말하는 사람의 얼굴을 구현하는 방법에 관한 연구도 또한 많이 이루어지고 있다.

그러나 종래에 연구된 많은 립싱크 기술들은 주로 영어 발음에 의존하는 관계로 발음 구조상 상이한 한국어의 립싱크와는 많은 차이가 있다. 현재, 이에 대한 연구가 미진한 상태이며, 또한 구현 환경도 고성능의 워크스테이션급 컴퓨터에서 실행 속도에 거의 제한받지 않고 구현이 되어왔으므로, 실제로 일반적인 컴퓨터에서 적용하기가 용이하지 않다.

본 발명은 컴퓨터 그래픽으로 합성된 사람의 얼굴에 TTS와의 립싱크 기술을 적용한 가상 에이전트를 구현하여 인터넷이나 사이버 가상 공간에서 한국어로 뉴스 방송을 할 수 있도록 한다.

본 발명이 이루고자하는 과제는, 한국어 발음 구조에 적합한 립싱크를 제공함으로써, 컴퓨터 그래픽으로 합성된 사람의 얼굴에 음성 합성 결과와의 립싱크 기술을 적용한 가상 에이전트를 구현가능케하는, 음성 합성을 위한 립싱크 방법을 제공하는데 있다.

본 발명이 이루고자하는 다른 과제는, 상기 립싱크 방법을 수행하는 음성 합성을 위한 립싱크 장치를 제공하는데 있다.

도 1은 본 발명에 의한 음성 합성을 위한 립싱크 방법을 설명하기 위한 플로우챠트이다.

도 2는 본 발명에 의한 음성 합성을 위한 립싱크 장치의 블럭도이다.

도 3은 음소별 지속시간 할당 및 동기 방법을 설명하기 위한 도면이다.

상기 과제를 이루기 위하여, 사람의 얼굴을 나타내는 정지 영상 데이타, 형상 모델 데이타와, 임의의 텍스트를 입력하여 상기 얼굴에 상기 텍스트로부터의 음성 합성 결과를 립싱크하는, 본 발명에 의한 음성 합성을 위한 립싱크 방법은,

(a) 음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 얻는 단계, (b) 음절별 지속시간내에서 음소들 각각에 대한 음소별 지속시간을 할당하는 단계, (c) 음소별로 입 모양 정보를 정의한 소정의 참조 테이블을 참조하여, 각각의 음소별 지속시간내에서 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 동영상 키 프레임을 생성하는 단계, (d) 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성하고, 정지 영상 데이타에 합성하는 단계 및 (e) 합성된 동영상을 음성 합성 결과와 동기하여 출력하는 단계를 구비한다.

상기 다른 과제를 이루기 위하여, 사람의 얼굴을 나타내는 정지 영상 데이타, 형상 모델 데이타와, 임의의 텍스트를 입력하여 상기 얼굴에 상기 텍스트로부터의 음성 합성 결과를 립싱크하는, 본 발명에 의한 음성 합성을 위한 립싱크 장치는,

음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 입력하는 입력부, 음절별 지속시간내에서 음소들 각각에 대한 음소별 지속시간을 할당하는 음절 분석부, 음소별로 입 모양 정보를 정의한 소정의 참조 테이블을 참조하여 각각의 음소별 지속시간내에서 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 키 프레임을 생성하는 키 프레임 생성부, 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성하고, 정지 영상 데이타에 합성하는 동영상 합성부 및 합성된 동영상을 음성 합성 결과와 동기하여 출력하는 화면 출력부를 구비한다.

이하, 본 발명에 의한 음성 합성을 위한 립싱크 방법, 및 그 장치의 구성 및 동작을 첨부한 도면을 참조하여 다음과 같이 설명한다.

컴퓨터 그래픽으로 합성된 얼굴 화면과 음성간의 립싱크를 위해서, 먼저 사람의 얼굴을 나타내는 정지 영상 데이타(이후에, 간략히 "얼굴 데이타"라 칭함)와, 임의의 텍스트 즉, 음성 합성하고자하는 텍스트를 입력한다(제100단계). 여기서, 얼굴 데이타는 말하는 사람의 얼굴을 구현하는데 기본 화면이 되며, 본 발명은 이러한 기본 화면에 입 모양을 갖는 동영상을 합성함으로써 음성과의 립싱크를 실현한다. 제100단계에서 텍스트가 입력되면, 이는 음성 합성 과정을 거친다.

텍스트에 대한 음성 합성 결과로부터 한 음절 단위로 한 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간(duration) 정보를 얻는다(제102단계). 여기서, 코드는 구체적으로 초성, 중성, 종성, 공백에 대한 코드이며, 음절별 지속시간은 한 음절이 시작되는 순간부터 종료되기까지의 경과된 시간을 나타낸다. 또한, 음성 합성 결과로부터 음성의 시작시간 정보를 얻음으로써 이후에 얼굴의 입 모양과 음성을 동기하여 출력하는데 적용한다.

제102단계 후에, 음절별 지속시간내에서 음소들 각각에 대한 음소별 지속시간을 할당한다(제104단계). 즉, 한 음절 단위로 할당되어 있는 음절별 지속시간을 한 음절을 구성하는 음소들 각각에 대해 소정의 비율로 할당한다. 여기서, 음소별 지속시간은 적어도, 한 음절을 초성, 중성 및 종성으로 구분하여 중성 > 초성 > 종성의 비율로 되고, 중모음이 있는 경우에 연속된 2개의 단모음인 앞의 모음과 뒤의 모음으로 구분하여 뒤의 모음 > 앞의 모음의 비율로 되고, 자음을 입술이 다물어지는 입술 소리와 비 입술 소리로 구분하여 입술 소리 > 비 입술 소리의 비율로 되도록 할당된다(이후에 상세히 설명됨).

제104단계 후에, 음소별로 입 모양 정보를 정의한 비즘 테이블(viseme (visual phoneme) table)을 참조하여, 각각의 음소별 지속시간내에서 음소들 각각에 대한 키 프레임(key frame)을 생성한다(제106단계). 키 프레임은 컴퓨터 애니메이션에서 가장 중심이 되는 장면을 의미하는데, 본 발명에서는 한 음소에 대해 가장 중심이 되는 입 모양을 갖는 영상을 의미한다. 비즘 테이블은 최소한으로 분류된 한국어 음소 패턴에서 음소들 각각에 대해, 적어도 입을 벌리는 정도를 나타내는 액션 유닛 강도를 포함한 소정의 입 모양 정보를 정의한다(이후에 상세히 설명됨).

제106단계 후에, 인접한 키 프레임들의 연결을 자연스럽게 하기 위해 즉, 자연스러운 입모양을 위해서 주어진 각각의 음소별 지속시간내에서 중간 프레임들을 만든다. 즉, 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 음성 합성 결과에 의한 음성과 동기된 입 모양을 갖는 동영상을 생성하고, 제100단계에서 입력된 얼굴 데이타에 합성한다(제108단계). 마지막으로, 합성된 동영상을 음성과 동기하여 출력함으로써 립싱크를 실현한다(제110단계).

전술한 바와 같이 본 발명에 의한 립싱크 방법을 수행하기 위해서는 다음과 같은 사항이 정의되어야 한다. 1. 한국어 발음 형태에 대한 입 모양의 비즘 테이블을 정의한다. 2. 한 음절을 구성하는 음소들에 대한 지속시간 할당방법을 정의한다. 3. 각 음소와 할당된 지속시간간의 동기 방법을 정의한다. 이러한 사항에 대해 다음과 같이 구체적으로 설명한다.

1. 한국어 비즘 테이블 정의

한국어 발음 형태에 대한 입 모양의 한국어 비즘 테이블(viseme table)의 정의 방법에 대해 설명한다.

1970년대에 심리학자인 에크맨(Ekman)은 얼굴 표정에 대한 분류인 얼굴 움직임 코딩시스템(FACS:Facial Action Coding System)을 정의하였다. 이에 근거하여, 컴퓨터 그래픽으로 합성된 사람 얼굴에 FACS의 각 기본 단위인 액션 유닛(AU:Action Unit)별로 애니메이션을 실현하여 입 모양을 표현할 수 있다. 비즘 테이블은 음소별로 입 모양을 정의한 것으로, 영어는 45개의 음소를 18개의 입 모양으로 구분하고 있는데, 본 발명에서는 한국어 음소들을 바람직하게 총 12개의 패턴으로 분류하여 이에 대한 액션 유닛(AU) 강도를 정의한다(표 1).

구체적으로, 한국어 음소를 12개의 비즘 패턴으로 분류하는 방법을 설명한다.

1-1. 모음

모음에 대하여 총 9개의 비즘 패턴으로 분류한다. 모음은 크게 두 가지로 분류하는데, 하나는 한 모음에 대하여 하나의 입 모양으로 표현되는 경우이고, 다른 하나는 두 가지 이상의 입 모양이 연속으로 진행되어 입 모양으로 표현되는 경우이다.

1-1-1. 기본 모음

모음 하나당 하나의 입 모양으로 표현되는 것으로, 다음과 같이 9 가지로 분류된다. ㅏ, ㅓ, ㅗ, ㅜ, ㅡ, ㅣ, ㅐ, ㅔ, ㅚ

1-1-2. 조합 모음

모음 하나당 위의 두가지 이상의 기본 모음의 연속으로 표현되는 것으로, 다음과 같은 모음들이 있으며, 이들은 위의 기본 모음으로 표현이 되므로 패턴으로 분류하지 않는다. ㅑ(ㅣ+ㅏ), ㅕ(ㅣ+ㅓ), ㅛ(ㅣ+ㅗ), ㅠ(ㅣ+ㅜ), ㅘ(ㅗ+ㅏ), ㅙ(ㅗ+ㅐ), ㅝ(ㅜ+ㅓ), ㅞ(ㅜ+ㅔ), ㅟ(ㅜ+ㅣ), ㅢ(ㅡ+ㅣ)

1-2. 자음

자음은 입이 다물어지는 입술 소리와 그렇지 않은 비 입술 소리로 분류되는데, 이는 한국어에서는 입술 소리이외에 비 입술 소리에서는 거의 다른 발음들은 입의 모양에 크게 영향을 끼치지 않기 때문이다.

1-2-1. 입술소리

다음과 같이 네 가지 자음이 있으며, 이들이 하나의 비즘 패턴으로 분류된다. ㅁ, ㅂ, ㅃ, ㅍ

1-2-2. 비 입술소리

입술 소리이외의 모든 자음들로서 이들이 하나의 비즘 패턴으로 분류된다.

1-3. 공백

공백은 주어진 문장내에 띄어 쓴 칸이나, 쉼표등에 대응되는 것인데, 일반적으로 공백은 이전 음소의 입 모양을 그대로 유지하게 되는데, 지속시간이 아주 큰 공백 구간에서는 입을 다물거나, 다른 헤드 모션이나 표정 변화를 할 수가 있다. 이 공백도 하나의 비즘 패턴으로 분류한다.

비즘 패턴	AU 조합	AU 강도	설명
ㅏ	12	0.1	입술 끝을 약간 올리고
	26	0.45	아래로 벌린다
ㅓ	18	0.5	입술을 오므리면서
	26	0.3	아래로 약간 벌린다
ㅗ	8	0.1	입술을 약간 다물면서
	18	0.9	많이 오므리고
	27	0.1	입을 아래쪽으로 약간 벌린다
ㅜ	10	0.1	윗입술을 약간 올리면서
	18	0.8	입술을 많이 오므린다
ㅐ	12	0.1	입술 끝을 약간 올리고
	18	0.5	오므리면서
	26	0.4	아래로 벌린다
ㅔ	18	0.4	입술을 약간 오므리면서
	26	0.2	아래로 벌린다
ㅡ	20	0.1	입술 양단을 벌리고
	25	0.1	아랫 입술을 약간 벌리고
	26	0.1	턱과 입을 약간 벌린다
ㅣ	20	0.2	입술 양단을 벌리고
	25	0.3	아랫 입술을 내린다
ㅚ	8	0.1	입술을 약간 다물면서
	18	0.7	오므리고
	27	0.1	입을 아래쪽으로 약간 벌린다
입술 소리	23	0.3	입을 다문다
비 입술 소리	26	0.1	약간 입을 벌린채 있는다
공백			앞의 입모양 유지

표 1은 본 발명에 따른 바람직한 한국어 비즘 테이블을 나타낸다. 12개의 패턴에 대해 FACS에 따른 해당 액션 유닛(AU) 조합과, 입을 벌리는 정도를 나타내는 액션 유닛 강도를 포함한 입 모양 정보를 정의하고 있다. 액션 유닛은 FACS의 기본 단위이므로, 표 1에서와 같이 한 패턴은 복수개의 액션 유닛으로 이루어진다.

2. 음소별 지속시간 할당 방법

한국어의 한 음절은 초성과 중성으로만 구성되는 경우와, 초성, 중성, 종성으로 구성되는 경우가 있고, 여기서, 중성인 모음은 단모음과 중모음으로 구분되고, 자음은 입술 소리와 비 입술소리로 구분되며, 이에 따라 한 음절은 바람직하게 총 4 가지로 나누어 지속시간을 할당 받을 수 있다.

말하는 사람의 입 모양은 주로 모음에 의하여 결정된다. 따라서 한 음절내에서 모음의 지속시간을 가장 많이 할당한다. 중모음의 경우에는 연속된 2개의 단모음으로 처리할 수 있는데, 이 때에는 주로 뒤의 모음이 입 모양을 주도하므로, 앞의 모음의 지속시간을 짧게, 그리고 뒤의 모음의 지속시간을 길게 할당한다. 한편, 자음의 경우에는 종성을 제일 짧게, 그리고 초성을 약간 짧게 지속시간을 할당한다. 이 때에 입술이 다물어지는 ㅁ, ㅂ, ㅃ, ㅍ들에 대하여는 지속시간을 약간씩 더 길게 할당하여 입이 다물어지는 모습이 보여질 수 있도록 보장해야 한다. 각 경우에 대하여는 다음과 같이 정리가 된다.

2-1. 한 음절이 초성과 중성으로 구성되는 경우

2-1-1. 입술 소리가 아닌 경우와 단모음

초성 1/3, 중성 2/3로 전체 지속시간을 할당한다.

2-1-2. 입술 소리가 아닌 경우와 중모음

초성 1/3, 앞 모음 1/3, 뒤 모음 1/3로 전체 지속시간을 할당한다.

2-1-3. 입술 소리와 단모음

초성 1/2, 중성 1/2로 전체 지속시간을 할당한다.

2-1-4. 입술 소리와 중모음

초성 1/2, 앞 모음 1/6, 뒤 모음 3/6로 전체 지속시간을 할당한다.

2-2. 한 음절이 초성, 중성, 종성으로 구성되는 경우

종성은 전체 지속시간의 1/5로 할당하고, 초성과 중성에 대하여는 다음과 같이 할당한다.

2-1-1. 입술 소리가 아닌 경우와 단모음

초성 1/5, 중성 3/5로 전체 지속시간을 할당한다.

2-1-2. 입술 소리가 아닌 경우와 중모음

초성 1/5, 앞 모음 1/5, 뒤 모음 2/5로 전체 지속시간을 할당한다.

2-1-3. 입술 소리와 단모음

초성 1.5/5, 중성 2.5/5로 전체 지속시간을 할당한다.

2-1-4. 입술 소리와 중모음

초성 1.5/5, 앞 모음 1/5, 뒤 모음 1.5/5로 전체 지속시간을 할당한다.

3. 각 음소와 할당된 지속시간간의 동기 방법

합성된 얼굴의 입 모양과 음성의 동기는 도 1을 참조하여 전술한 바와 같이 기본적으로 각 음소마다 음소의 지속시간내에서 위에서 정의된 비즘 패턴에 따른 키 프레임들간의 보간으로 중간 프레임을 만들어 동영상을 생성함으로써 구현된다. 그러나, 컴퓨터 기종에 따른 동영상 프레임 생성속도의 차이, 프레임 수 계산시의 반올림 오차, 프레임 별 생성 시간 차이, 컴퓨터 타이머의 오차등으로 인하여 정확한 동기를 구현하기가 어렵다.

따라서, 본 발명에서는 다음 사항을 고려하여 동기 방법에 적용한다.

- 음성 합성 결과에 따른 음성과 같은 시작시간을 갖는 모든 음소는 최소한 한 프레임(즉, 키프레임에 해당)이상을 생성해야 한다. 이것이 지켜지지 않으면 사람이 말하는 것처럼 보이질 않는다.

- 매 프레임을 생성할 때마다 프레임 생성속도를 계산하여 이를 다음 음소의 지속시간당 프레임 생성 수에 지속적으로 반영해야 한다.

- 각 음소간의 보간시에는, 즉, 그 음소의 키 프레임을 시작으로 하여 다음 키 프레임으로 보간될 때, 지속시간 초기에는 서서히 변하면서 지속시간 끝으로 갈 수록 빨리 변해야 한다. 빛이 소리보다 빠르다는 점을 고려해 볼때 입 모양의 키 프레임이 해당 음소 발음 초기에 나타나는 것을 보장해야 사람이 말하는 것처럼 자연스럼움을 얻을 수가 있다. 즉, 사람이 볼 때 이것이 늦어질 경우 말보다 입 모양이 늦어지는 것이 확연히 드러나며, 굉장히 어색하게 느껴진다.

중간 프레임은 다음 수학식 1을 사용하여 보간될 수 있다.

수학식 1에서, f_i,f_i+1는 인접한 키 프레임들 각각의 액션 유닛 강도를, f_j는 f_i와 f_i+1사이의 중간 프레임의 액션 유닛 강도를, k는 중간 프레임 인덱스를, N은 한 음소의 지속시간내에서 생성가능한 총 프레임 생성수를 각각 나타낸다. 수학식 1에 따라 중간 프레임의 액션 유닛 강도가 구해지면, 이전 키 프레임의 입 모양을 구해진 액션 유닛 강도만큼 변화시켜 중간 프레임을 용이하게 얻을 수 있다.

도 2는 본 발명에 의한 음성 합성을 위한 립싱크 장치를 설명하기 위한 블럭도이다.

크게 얼굴 합성부(200) 및 음성 합성부(TTS)(260)으로 구성되며, 얼굴 합성부(200)는 얼굴 데이타 입력부(210), 얼굴 데이타 로더부(220), 동영상 합성부(230), 텍스트 입력부(250) 및 동기화 제어부(270)로 구성된다. 여기서, 실제적으로 립싱크를 실현하는 동영상 합성부(230)는 음절 분석부(232), 키 프레임 생성부(234), 얼굴 동영상 합성부(236), 화면 출력부(238) 및 비즘 테이블(240)로 구성된다.

도 2를 참조하면, 얼굴 데이타 입력부(210)는 컴퓨터 그래픽으로 소정의 사람의 얼굴을 나타내는데 필요한 정점(vertex)등을 입력한다. 얼굴 데이타 로더(220)는 3차원 좌표 화일 및 연결 관계 화일등을 이용하여 얼굴 데이타 입력부(210)로부터 입력된 얼굴 데이타를 실제로 화면상에 표현하는 얼굴 합성 초기화 작업을 한다. 한편, 텍스트 입력부(250)는 합성된 얼굴에 맞춰 주어진 텍스트를 입력하고, 음성 합성부(TTS:Text To Speech portion)(260)는 그 텍스트를 음성 합성한다.

동영상 합성부(230)는 얼굴 데이타 로더(220)로부터 얼굴 데이타를 입력하고, 음성 합성부(260)로부터 한 음절 단위로 적어도 음절을 구성하는 음소들 즉, 초성, 중성, 종성, 공백에 대한 코드와, 그 음절별 지속시간 정보를 동기화 제어부(270)를 통해 입력한다. 동기화 제어부(270)는 음성 합성부(260)로부터의 전술한 데이타를 음절 단위로 소정의 동기에 맞춰 동영상 합성부(230)로 전달하는 역할을 한다.

구체적으로, 동영상 합성부(230)에서, 음절 분석부(232)가 동기화 제어부(270)를 통해 음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 입력한다. 음절 분석부(232)는 음절별 지속시간내에서 음소들 각각에 대한 음소별 지속시간을 할당한다. 음소별 지속시간은 할당하는 방법에 대해서는 이미 전술한 바와 같다.

키 프레임 생성부(234)는 한국어 발음 형태에 대한 입 모양 정보를 미리 정의한 비즘 테이블(240)을 참조하여 각각의 음소별 지속시간내에서 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 키 프레임을 생성한다. 비즘 테이블(240)은 바람직한 예로서 표 1에 나타나 있다.

얼굴 동영상 합성부(236)는 키 프레임 생성부(234)에서 생성된 키 프레임들을 가지고 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 더 만든다. 이와같이 만들어진 키 프레임과 중간 프레임은 결국, 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성한다. 얼굴 동영상 합성부(236)는 생성된 동영상을 다시 얼굴 데이타에 합성하고, 화면 출력부(238)는 합성된 동영상을 음성 합성부(260)에서의 음성 합성 결과와 동기하여 출력함으로써 립싱크를 실현한다.

도 3은 음소별 지속시간 할당 및 동기 방법을 설명하기 위한 도면으로서, 가로측은 한 음절의 지속시간을, 세로측은 액션 유닛(AU) 강도 변화를 각각 나타낸다.

한 음절의 지속시간내에서 한 음절을 구성하는 음소들 즉, 초성, 중성, 종성은 각각 소정의 지속시간을 할당받는다. 각 음소와 할당된 지속시간간의 동기가 이뤄질때, 각 음소는 각 음소별 지속시간내에서 액션 유닛 강도 변화를 갖는다. 도 3에 도시된 바와 같이 각 음소별 지속시간내에서 각 음소의 액션 유닛 강도는 초기에 크고 뒤로 갈수록 서서히 작아지게 되는데, 이는 수학식 1에서 ρ에 의해 결정된다.

이상에서 설명한 바와 같이, 본 발명에 의한 음성 합성을 위한 립싱크 방법 및 그 장치는, 한국어 발음 구조에 적합한 립싱크를 제공함으로써, 본 발명을 통하여 사람처럼 말을 하는 가상 캐릭터 에이전트를 구현할 수가 있고, 이러한 에이전트가 구현되면 궁극적으로는 사람과 컴퓨터간의 인터페이스에서 사람이 사람을 대하는 듯한 휴먼 인터페이스가 실현 될 수가 있다. 이를 이용하여 사이버 뉴스 데스크, 무인 안내 시스템, 가상 배우, 화상 텔레커뮤니케이션 분야등 수많은 각종 분야에 적용될 수가 있다.

Claims

사람의 얼굴을 나타내는 정지 영상 데이타, 형상 모델 데이타와, 임의의 텍스트를 입력하여 상기 얼굴에 상기 텍스트로부터의 음성 합성 결과를 립싱크하는, 음성 합성을 위한 립싱크 방법에 있어서,

(a) 상기 음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 얻는 단계;

(b) 상기 음절별 지속시간내에서 상기 음소들 각각에 대한 음소별 지속시간을 할당하는 단계;

(c) 음소별로 입 모양 정보를 정의한 소정의 참조 테이블을 참조하여, 상기 각각의 음소별 지속시간내에서 상기 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 동영상 키 프레임을 생성하는 단계;

(d) 인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 상기 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성하고, 상기 정지 영상 데이타에 합성하는 단계; 및

(e) 합성된 동영상을 상기 음성 합성 결과와 동기하여 출력하는 단계를 구비하는 것을 특징으로 하는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.
제1항에 있어서, 상기 (b) 단계에서 상기 음소별 지속시간은,

적어도, 한 음절을 초성, 중성 및 종성으로 구분하여 중성 > 초성 > 종성의 비율로 되고,

중모음이 있는 경우에 연속된 2개의 단모음인 앞의 모음과 뒤의 모음으로 구분하여 뒤의 모음 > 앞의 모음의 비율로 되고,

자음을 입술이 다물어지는 입술 소리와 비 입술 소리로 구분하여 입술 소리 > 비 입술 소리의 비율로 되도록 할당되는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.
제1항에 있어서, 상기 소정의 참조 테이블은,

한국어 음소들을 적어도 한 모음에 대해 하나의 입모양으로 표현되는 소정수의 기본 모음, 공백 및 입술이 다물어지는 입술 소리와 비 입술 소리로 구분된 자음을 포함한 한국어 음소 패턴으로 분류하여,

상기 한국어 음소 패턴에 포함된 음소들 각각에 대해, 적어도 입을 벌리는 정도를 나타내는 액션 유닛 강도를 포함한 소정의 입 모양 정보를 정의한 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.
제3항에 있어서, 상기 (d) 단계에서 중간 프레임은,

다음 수학식을 사용하여 보간되며, 여기서 f_i,f_i+1는 인접한 키 프레임들 각각의 액션 유닛 강도를, f_j는 f_i와 f_i+1사이의 중간 프레임의 액션 유닛 강도를, k는 중간 프레임 인덱스를, N은 한 음소의 지속시간내에서 생성가능한 총 프레임 생성수를 각각 나타내는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.

[수학식 1]
제1항 또는 제4항에 있어서, 상기 (d) 단계에서 중간 프레임을 생성할 경우에, 매 프레임을 생성할 때마다 적어도 프레임 생성속도를 계산하여 다음 음소의 지속시간당 상기 프레임 생성수에 반영하는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.
사람의 얼굴을 나타내는 정지 영상 데이타, 형상 모델 데이타와, 임의의 텍스트를 입력하여 상기 얼굴에 상기 텍스트로부터의 음성 합성 결과를 립싱크하는, 음성 합성을 위한 립싱크 장치에 있어서,

상기 음성 합성 결과로부터 한 음절 단위로 적어도 음절을 구성하는 음소들에 대한 코드와 음절별 지속시간 정보를 입력하는 입력부;

상기 음절별 지속시간내에서 상기 음소들 각각에 대한 음소별 지속시간을 할당하는 음절 분석부;

음소별로 입 모양 정보를 정의한 소정의 참조 테이블을 참조하여 상기 각각의 음소별 지속시간내에서 상기 음소들 각각에 대해 입 모양을 나타내는 적어도 하나의 키 프레임을 생성하는 키 프레임 생성부;

인접한 키 프레임들간의 보간으로 소정수의 연속되는 중간 프레임을 만들어 상기 음성 합성 결과와 동기된 입 모양을 갖는 동영상을 생성하고, 상기 정지 영상 데이타에 합성하는 동영상 합성부; 및

합성된 동영상을 상기 음성 합성 결과와 동기하여 출력하는 화면 출력부를 구비하는 것을 특징으로 하는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 장치.
제6항에 있어서, 상기 음절 분석부는,

적어도, 한 음절을 초성, 중성 및 종성으로 구분하여 중성 > 초성 > 종성의 비율로 되고,

중모음이 있는 경우에 연속된 2개의 단모음인 앞의 모음과 뒤의 모음으로 구분하여 뒤의 모음 > 앞의 모음의 비율로 되고,

자음을 입술이 다물어지는 입술 소리와 비 입술 소리로 구분하여 입술 소리 > 비 입술 소리의 비율로 되도록 상기 음소별 지속시간을 할당하는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 장치.
제6항에 있어서, 상기 소정의 참조 테이블은,

한국어 음소들을 적어도 한 모음에 대해 하나의 입모양으로 표현되는 소정수의 기본 모음, 공백 및 입술이 다물어지는 입술 소리와 비 입술 소리로 구분된 자음을 포함한 한국어 음소 패턴으로 분류하여,

상기 한국어 음소 패턴에 포함된 음소들 각각에 대해, 적어도 입을 벌리는 정도를 나타내는 액션 유닛 강도를 포함한 소정의 입 모양 정보를 정의한 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 장치.
제8항에 있어서, 상기 동영상 합성부는,

다음 수학식을 사용하여 상기 중간 프레임을 보간하며, 여기서 f_i,f_i+1는 인접한 키 프레임들 각각의 액션 유닛 강도를, f_j는 f_i와 f_i+1사이의 중간 프레임의 액션 유닛 강도를, k는 중간 프레임 인덱스를, N은 한 음소의 지속시간내에서 생성가능한 총 프레임 생성수를 각각 나타내는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 장치.

[수학식 1]
제6항 또는 제9항에 있어서, 상기 동영상 합성부는,

상기 중간 프레임을 생성할 때마다 적어도 프레임 생성속도를 계산하여 다음 음소의 지속시간당 상기 프레임 생성수에 반영하는 것을 특징으로 하는 한국어 음성 합성을 위한 립싱크 방법.