KR100236974B1

KR100236974B1 - 동화상과 텍스트/음성변환기 간의 동기화 시스템

Info

Publication number: KR100236974B1
Application number: KR1019960065445A
Authority: KR
Inventors: 양재우; 이정철; 한민수
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1996-12-13
Filing date: 1996-12-13
Publication date: 2000-02-01
Also published as: KR19980047008A; USRE42000E1; US5970459A; JPH10171486A; JP3599538B2; DE19753453A1; DE19753453B4

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

동화상과 텍스트/음성변화기 간의 동기화 시스템

2. 발명이 해결하고자 하는 기술적 과제

TTS방식을 이용하여 동영상에 더빙을 하고자 할 때나 에니메이션과 같은 매체와 합성음 간의 동기활르 구현하기 위해 필요한 정보는 텍스트로부터 추정하기 불가능하므로, 텍스트 정보만으로 움직이는 영상신호와 자연스럽게 연동되는 합성음을 만들어내는 데는 많은 어려움이 따른다.

3. 발명의 해결 방법의 요지

동영상과 음성 신호간의 동기화를 구현할 수 있도록 입술의 움직임 시각과 지속시간 정보를 이용하여 합성음 생성함으로써 영상 신호의 움직임에 따라 정보와 텍스트/음성변환기간의 동기화 방법을 제공한다.

4. 발명의 중요한 용도

동기화 시스템

Description

동화상과 텍스트/음성변환기 간의 동기화 시스템

본 발명은 동영상에 음성신호를 부가하는 더빙 방법에 있어서 영상신호의 입술 움직임에 따른 정보와 텍스트/음성변환기 (text-to-speech conversion system, 이하 TTS라 한다)의 동기화 방법에 관한 것이다.

일반적으로 음성합성기의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는데 있다. 이를 위해서 음성합성기는 사용자에게 주어진 텍스트로부터 고품질의 음성 합성 서비스를 제공할 수 있어야 한다. 뿐만 아니라 다중매체 환경에서 제작된 데이타 베이스나 대화 상대로부터 제공되는 다양한 미디어와 연동되기 위해서는 이들 미디어와 동기화 되도록 합성음을 생성할 수 있어야 한다. 특히 동화상과 TTS와의 동기화는 사용자에게 고품질의 서비스를 제공하기 위해 필수적이다.

도1은 종래의 합성기를 설명하기 위한 도면으로 입력된 텍스트로부터 합성음을 생성하기까지 일반적으로 3단계의 과정을 거치게 된다.

먼저, 1단계인 언어 처리부(1)에서는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다. 2단계인 운율 처리부(2)는 심볼화된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 윤곽(contour), 에너지 윤곽, 쉼 구간 정보가 있다. 3단계인 신호처리부(3)는 합성 단위 DB(4)와 운율 제어 파라미터를 이용하여 합성음을 생성한다. 즉 기존의 합성기는 언어 처리부(1)와 운율 처리부(2)에서 자연성, 발성 속도와 관련된 정보를 단지 입력 텍스트 만으로 추정을 해야 함을 의미한다.

현재 TTS에 대한 연구가 세계 여러 나라에서 자국어를 대상으로 많이 진행되어 일부 상용화가 이루어졌다. 그러나 종래의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있어, 다중매체와의 연동을 고려한 합성방식에 대한 연구결과는 거의 전무하다고 볼수 있다. 또한 종래의 TTS 방식을 이용하여 동영상에 더빙을 하고자 할 때나, 에니메이션과 같은 매체와 합성음 간의 동기화를 구현하기 위해서 필요한 정보는 텍스트로부터 추정하기는 불가능하다. 그러므로 텍스트 정보만으로 움직이는 영상신호와 자연스럽게 연동이 되는 합성음을 만들어 내는데는 아직 많은 어려움이 있다. 따라서 동영상과 음성신호간의 동기화를 구현할 수 있는 방법은 입술의 움직임 시각과 지속시간 정보를 이용하여 합성음을 생성함으로써 실현할 수 있을 것이다.

동화상과 합성음의 동기화를 더빙의 개념으로 살펴본다면 그 구현 방식이 3가지가 있다. 첫째로는 문장단위로 동화상과 합성음을 동기화 시키는 방법으로서 문장의 시작점과 끝점 정보를 이용하여 합성음의 지속시간을 조절한다. 이 방법은 구현이 쉽고 부가적 노력이 최소화되는 장점이 있지만, 자연스러운 동기화와는 거리가 멀다. 두번째 방법으로는 동영상에서 음성신호와 관련된 구간에서는 매 음소마다 시작점, 끝점 정보와 음소 정보를 표기하여 이 정보를 합성음 생성에 이용하는 방법이다. 이 방법은 음소단위로 동화상과 합성음의 동기를 맞출 수 있으므로 정확도가 높은 장점이 있지만 동화상의 음성구간에서 음소단위로 지속시간 정보를 검출하여 기록하기 위한 부가적 노력이 아주 많은 단점이 있다. 세번째 방법으로는 음성의 시작점, 끝점, 입술 열림, 닫힘 그리고 내밈 등과 같은 입술 움직임의 변별적 특성이 높은 패턴을 기준으로 하여 동기화 정보를 기록하는 방법이다. 이 방법은 동기화를 위한 정보 제작의 부가적 노력을 최소화하면서 동기화 효율을 높이는 방법이다.

본 발명은 텍스트/음성변환기에서 텍스트 이외에 동영상에서의 연속적인 입술의 움직임을 이벤트(event) 단위로 정형화, 정규화하는 방법과 이들 정보와 TTS간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 동영상과 합성음간의 동기화 시스템을 제공하는 것을 그 목적으로 한다.

상기의 목적을 달성하기 위해서, 다중매체 입력정보를 입력받아 각각의 데이터 구조로 변환하여 매체별로 분배하는 분배수단; 상기 분배수단의 다중 매체 정보 중에서 영상 정보를 전달받는 영상 출력 수단; 상기 분배수단의 다중매체 정보 중에서 언어 텍스트를 전달받는 언어처리수단; 상기 언어 처리수단으로부터 상기 분배수단에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화하여 전달하는 운율 처리수단; 상기 운율 처리수단으로부터 처리 결과를 받아서 상기 분배수단의 다중매체 정보 중에서 동기화 정보를 이용하여 영상신호와의 동기를 맞추기 위하여 음소별 지속시간을 조정하여 상기 운율 처리수단의 결과에 포함시켜 전달하는 동기조정수단; 상기 동기 조정수단의 처리결과를 받아서 합성음을 생성하여 출력하는 신호 처리수단; 및 상기 신호처리수단의 요구에 의해 합성에 필요한 합성 단위들을 선정한 뒤 필요한 데이터를 전송하는 합성 단위 데이터베이스블럭을 구비하는 것을 특징으로 한다.

도1은 종래의 텍스트/음성변환기의 블록구성도,

도2는 본 발명이 적용되는 동기화 장치의 블록구성도,

도3은 본 발명의 한국어 텍스트/음성변환기 간의 동기화 방법을 나타낸 상세 블록 구성도.

* 도면의 주요부분에 대한 부호의 설명

1 : 언어 처리부2 : 운율 처리부

3 : 신호 처리부4 : 합성 단위 DB

5 : 데이타 입력 장치6 : 중앙 처리 장치

7 : 합성 데이타 베이스8 : D/A 변환 장치

9 : 영상 출력 장치 10 : 다중 매체정보 입력부

11: 다중 매체 분배기12 : 언어 처리부

13 : 운율 처리부14 : 동기 조정기

15: 신호 처리부16 : 합성 단위 DB

17: 영상 출력 장치

이하, 본 발명을 첨부된 도면 2도이하를 참고로하여 상세히 설명한다.

도2는 본 발명이 적용되는 하드웨어 구성도로서, 도면에서 5는 다중 데이타 입력 장치, 6은 중앙 처리 장치, 7은 합성 데이타베이스, 8은 디지탈/아날로그 (D/A) 변환 장치, 9는 영상 출력 장치를 각각 나타낸다.

다중 데이타 입력 장치(5)는 영상, 텍스트 등의 다중 매체로 구성된 데이타를 입력받아 중앙 처리 장치(6)로 출력한다.

중앙 처리 장치(6)에 본 발명의 알고리즘이 탑재되어 있다.

합성 데이타베이스(7)는 합성 알고리즘에 사용되는 합성DB로서 기억장치에 저장되어 있으며 상기 중앙 처리 장치(6)로 필요한 데이타를 전송한다.

디지탈/아날로그 변환장치(8)는 합성이 끝난 디지탈 데이타를 아날로그 신호로 변환하여 외부로 출력한다.

영상 출력 장치(9)는 입력된 영상정보를 화면에 출력한다.

아래 〈표1〉은 본 발명에 적용되는 구조화된 다중 매체 입력 정보의 일예를 나타낸 것으로, 텍스트, 동화상, 입술모양, 동화상내 위치 정보, 지속시간 정보로 이루어져 있다. 입술모양은 아래 입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리로 수치화할 수도 있으며, 음소의 조음위치, 조음방법에 따라 입술 모양을 정량화, 정규화된 패턴으로 정의할 수 있다. 위치정보로는 동영상의 장면 위치로 정의되며 지속시간은 동일 입술 모양이 지속되는 장면 수로 정의된다.

〈표1〉 동기화 정보의 구성예

입력정보	변 수	변수값
텍 스 트	문장 단위
동 화 상	장면 단위
동기화정보	입술 모양	아래입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리
	위치 정보	동영상의 장면위치
	지속 시간	연속 장면수

도3은 본 발명에 따른 한국어 텍스트/음성변환기간의 동기화 시스템 구성도로서, 도면에서 10은 다중 매체 정보 입력부, 11은 다중 매체 분배기, 12는 표준화된 언어 처리부, 13은 운율 처리부, 14는 동기 조정기, 15는 신호처리부, 16은 합성 단위 데이타베이스, 17은 영상 출력 장치를 각각 나타낸다.

먼저, 다중 매체 정보 입력부(10)의 다중매체 정보는 상기한 〈표1〉에 나타낸 형식으로 되어 있는데 텍스트, 동화상, 입술모양, 동화상내 위치 정보, 지속시간 정보로 이루어져 있다.

그리고, 다중 매체 분배기(11)는 상기 다중매체정보 입력부(10)로부터 전달받은 다중 매체 정보 중에서 영상 정보는 영상 출력 장치(17)로 전달하고, 텍스트는 언어처리부(12)로 전달하며, 동기화 정보는 동기 조정기(14) 에서 사용할 수 있는 데이타 구조로 변환하여 전달한다.

언어 처리부(12)는 상기 다중매체 분배기(11)에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한 뒤 운율 처리부(13)에 보낸다. 여기서, 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.

운율 처리부(13)는 상기 언어 처리부(12)의 처리 결과를 받아서 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 윤곽, 에너지 윤곽, 쉼 위치 및 길이가 있다. 그리고, 여기서 계산된 결과는 동기 조정기(15)로 전달된다.

동기 조정기(14)는 상기 운율 처리부(13)의 처리 결과를 받아서 영상신호와의 동기를 맞추기 위해 상기 매체별 데이타 분배기(11)에서 보내온 동기화 정보를 이용하여 음소별 지속시간을 조정한다. 여기서 상기 음소별 지속시간의 조정은 먼저 각 음소별 조음장소, 조음방법에 따라 입술모양을 각 음소에 할당하고 이를 토대로 동기화 정보에 있는 입술모양과 비교하여 음소열을 동기화 정보에 기록된 입술모양 갯수만큼 소 그룹으로 분리한다. 그리고 소 그룹내의 음소 지속시간은 동기화 정보에 포함되어 있는 입술모양의 지속시간 정보를 이용하여 다시 계산한다. 조정된 지속시간 정보는 상기 운율 처리부(13)의 결과에 포함시켜 신호처리부(15)로 전달한다.

신호처리부(15)는 상기 동기 조정기(14)의 처리결과를 받아서 합성 단위 DB(16)를 이용하여 합성음을 생성하여 출력한다.

합성 단위 DB(16)는 신호처리부(15)의 요구를 받아서 합성에 필요한 합성 단위들을 선정한 뒤 신호처리부(15)에 필요한 데이타를 전송한다.

상기와 같이 동작하는 본 발명은 실제 음성데이타와 동영상의 입술모양을 분석하여 추정된 입술모양 정보와 텍스트 정보를 합성음 생성에 직접 이용하는 방식을 통해 합성음과 동영상과의 동기화를 구현함으로써 외화등에 한국어 더빙을 가능하게 하고, 다중 매체 환경에서 영상정보와 TTS의 동기화를 가능하게 함으로써 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Claims

다중매체 입력정보를 입력받아 각각의 데이터 구조로 변환하여 매체별로 분배하는 분배수단(11);

상기 분배수단(11)의 다중 매체 정보 중에서 영상 정보를 전달받는 영상 출력 수단(17);

상기 분배수단(11)의 다중매체 정보 중에서 언어 텍스트를 전달받는 언어처리수단(12);

상기 언어 처리수단(12)으로부터 상기 분배수단(11)에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화하여 전달하는 운율 처리수단(13);

상기 운율 처리수단(13)으로부터 처리 결과를 받아서 상기 분배수단(11)의 다중매체 정보 중에서 동기화 정보를 이용하여 영상신호와의 동기를 맞추기 위하여 음소별 지속시간을 조정하여 상기 운율 처리수단(13)의 결과에 포함시켜 전달하는 동기조정수단(14);

상기 동기 조정수단(14)의 처리결과를 받아서 합성음을 생성하여 출력하는 신호 처리수단(15);및

상기 신호처리수단(15)의 요구에 의해 합성에 필요한 합성 단위들을 선정한 뒤 필요한 데이터를 전송하는 합성 단위 데이터베이스블럭(16)을 구비하는 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
제1항에 있어서,

상기 다중매체 정보는,

텍스트, 동영상 정보와 동기화 정보로 구성하되, 동기화 정보를 텍스트, 입술모양정보, 동화상내 위치 정보, 지속시간 정보로 구성하도록 하는 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
제2항에 있어서,

상기 입술모양정보는,

아래 입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리로 수치화하거나 음소의 조음위치, 조음방법에 따라 정량화, 정규화된 패턴으로 정의하여 이용하도록 한 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
제1항에 있어서,

상기 동기조정수단(14)은,

동기 정보를 이용하여 텍스트내 음소의 조음방법, 조음점을 고려한 예측 입술모양과 동기정보내의 입술모양 및 지속시간에 따라 텍스트내 음소의 지속시간을 계산함으로써 동화상과 동기를 맞추도록 한 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.