KR100710600B1

KR100710600B1 - 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치

Info

Publication number: KR100710600B1
Application number: KR1020050006792A
Authority: KR
Inventors: 우종식
Original assignee: 우종식
Priority date: 2005-01-25
Filing date: 2005-01-25
Publication date: 2007-04-24
Also published as: KR20050018883A

Abstract

본 발명은 종래 기술에서 텍스트나 문자 정보를 단순히 음성정보로 합성하는 제한적 음성합성 방식과 무제한 음성합성 방식인 TTS(TEXT TO SPEECH CONVERSION SYSTEM)를 진보시켜, 배경음악, 효과음 지시자, 정지영상이나 동영상이 포함된 텍스트 문서를 음성 합성하면서 텍스트 문서에 포함된 배경음악, 효과음, 글자, 정지영상, 동영상, 입술모양 정보에 대한 것을 배경음악 및 효과음이 포함된 음성신호에 동기시키고, 이를 재생할 때 해당 글자나 영상(입술모양/정지영상/동영상)을 컴퓨터 노래반주기처럼 LCD나 OSD(On Screen Display)와 같은 화면 표현 장치에 출력되게 하기 위한 자동 동기 생성장치 및 재생 장치에 관한 것으로, 더욱 상세하게는 제한적인 음성합성 방식이나 어휘나 문장 수에 제한 없이 임의의 문장을 합성하는 무제한 음성합성 방식인 TTS(TEXT TO SPEECH CONVERSION SYSTEM) 음성 합성기를 이용하여, 텍스트 문서 또는 텍스트와 배경음악, 효과음 지시자, 정지영상/동영상을 포함하는 문서에서 텍스트 정보 또는 배경음악과 효과음을 혼합하여 음성으로 합성하고, 음성 합성에 필요한 정보를 이용하여 다양한 부가 정보를 음성신호에 동기시키며, 합성된 음성 데이터를 재생할 때, 출력되는 음성신호에 맞게 텍스트 및 정지영상/동영상을 컴퓨터 노래 반주기처럼 음성신호에 정확하게 동기된 데이터를 화면상에 표현하기 위한 것으로, 합성된 음성 데이터와 텍스트나 텍스트와 정지/동영상/입술 모양을 자동으로 동기시키는 자동 동기 생성 장치 및 재생 장치에 관한 것이다.

본 발명에 따르면, TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어, TTS 시스템을 이용한 음성합성단계; TTS 시스템을 이용한 합성 오디오 생성단계; TTS 시스템을 이용한 동기화 생성단계; TTS 시스템을 이용한 동기화 재생 단계;를 특징으로 하는 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어서, 입력될 문서정보에서 텍스트와 영상을 분리하고, 텍스트와 영상의 위치를 분석하는 문서분석단계; TTS 시스템을 이용하여 음성합성하는 음성합성단계; 합성된 음성 신호에 효과음을 혼합하는 합성 오디오 생성단계; 합성된 음성신호에 배경음악과 효과음을 혼합하여 새로운 압축/무압축 오디오 비트스트림을 생성하고, 디지털 오디오 비트스트림에 자막 캡션이나 정지영상, 동영상, 입술모양 등을 동기시키는 동기화 생성단계; 동기화된 자막 캡션, 정지영상, 동영상, 입술모양 등과 디지털 오디오 비트스트림을 일치시켜 화면에 표현하는 동기화 재생 단계;를 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법과,

분리된 영상 데이터와 영상의 위치정보를 추출하는 문서 분석기; 문자와 음성 데이터 베이스를 이용하여 음성을 합성하는 음성합성기; 자동으로 동기 정보를 생성 할당하는 동기화 생성기; 동기정보를 입력받아 화면에 출력하는 재생기;의 조합으로 형성됨을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 장치가 제공된다.

음성합성기, 자막캡션, 정지영상, 동영상, 디지털 오디오 알고리즘, 텍스트, 음성 비트스트림, 자동 동기 생성 장치 및 재생 장치

Description

음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법 및 그 장치{The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS}

도 1은 본 발명에서 자동 동기 생성장치를 위한 구조도

도 2는 본 발명에서 사용되는 음성합성기 개념도

도 3은 압축 오디오 비트스트림인 MP3의 데이터 포맷을 나타낸 구조도

도 4는 프레임 헤더의 구조를 분석한 것으로, 프레임 내부에 동기 정보의 할당하는 방법을 나타낸 구조도

도 5는 헤더의 Ancillary data라고 하는 공간에 동기에 필요한 텍스트 및 영상 정보를 삽입하는 실시예를 나타낸 실시예도

도 6은 파일의 비트스트림에 바이트 계수기를 이용하여 동기 정보를 할당하는 것을 나타낸 상태도

도 7은 동기화 생성 단계에서 바이트 계수기와 단순 시간 정보를 이용하여 동기 정보를 할당하는 방법을 도시한 블록도

도 8은 동기 정보 생성 단계에서 입력된 합성 오디오 데이타를 다른 포맷으로 압축하거나 변경시키기 위한 시스템 구조도

도 9는 동기화 생성 단계에서 무압축 오디오 비트스트림과 바이트 계수 값을 이용하여 동기 정보가 할당되어 있을 때, 새로운 디지털 압축 오디오 비트스트림 형태로 변환하면서 동기시키는 방법에 대한 상태도

도 10은 무압축 오디오 비트스트림에서 자막의 동기 정보를 압축 오디오 비트스트림 상에서 변환되는 예를 도시한 실시예도

도 11은 본 발명의 동기 재생장치를 나타낸 블록도

도 12는 바이트 계수기를 이용하여 비트스트림 상의 위치정보로 동기 정보를 할당한 경우의 재생 방법을 나타낸 블록도

도 13은 효과음 지시자가 포함된 텍스트 문서에서의 합성 오디오 데이터 생성 단계에서 오디오 데이터를 합성하는 방법에 대한 실시예도

도 14는 배경음악 아이콘이 포함된 텍스트 문서를 합성하면서 배경음악을 처리하는 방법을 설명한 상태도

도 15는 본 발명의 또 다른 실시예도

도 16은 시화, 동화, 대본 등의 컨텐츠를 여러명의 화자와 입술 모양을 가지고 자동으로 동기 정보를 생성할 수 있는 시스템 블럭도

도17은 영상이 포함된 텍스트 문서에서 영상의 동기 정보를 추출하는 실시예도

도 18은 영상이나 자막에 대하여 자동 동기 생성기에서 정지영상, 동영상, 자막 등을 오디오 비트스트림에 할당하는 실시예도

본 발명은 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 정지영상, 동영상, 배경음악, 효과음 지시자가 포함된 텍스트 문서(TOEIC, TOEFL, 인터넷 문서, 전자사전, E-BOOK, E-MAIL, 애니메이션 대본 등)를 음성합성기(제한적 음성합성 방식 또는 무제한 음성합성 방식인 TTS(TEXT TO SPEECH CONVERSION SYSTEM))에 입력하여 음성 합성하고, 합성된 음성신호에 배경음악과 효과음을 혼합한 후, 디지탈 오디오 알고리즘(PCM, WAV, MP3, AAC, OGG, WMA, ASF 등)을 이용하여 새로운 오디오 비트스트림을 생성하고, 이를 재생할 때 영상 데이타 및 영상 위치 정보 등을 이용하여 해당 글자나 영상(입술모양/정지영상/동영상)을 컴퓨터 노래반주기처럼 LCD나 OSD(On Screen Display)와 같은 화면 표현 장치에 동기되게 출력할 수 있는 자동 동기 생성/재생 방법 및 그 장치에 관한 것이다.

본 발명의 종래 기술은 크게 음성 합성기술과 단순 자막 캡션을 위한 동기 기술로 별개의 분류되지만 하나의 자동화 프로세서에서 이루어지지 않고 있다.

먼저 종래 음성합성기술에 대해 개략적으로 설명하면 다음과 같다.

음성합성기술은 기계가 인간에게 정보를 음성으로 전달하기 위해 개발된 기술로, 학문적으로 여러 분야로 구분될 수 있으나 가장 일반적인 형태가 TTS(Text To Speech conversion system)이다. 이는 말 그대로 텍스트 형태로 되어 있는 정보를 말소리로 바꾸어 출력하는 것이다.

음성합성기술은 제한적인 어휘의 부분문장 합성기술과 무제한 어휘의 전체문장 합성기술로 구분되는데, 제한적 어휘의 부분합성은 미리 녹음된 문장형태의 음성과 특정 어휘의 합성 음성을 합쳐 하나의 완성된 문장을 만든다. 하지만 이 기술은 문장 전체의 자연성은 높으나 문장형태의 변화가 어려우며 합성 부분의 연결이 어색하다는 단점이 있다. 따라서 최근에는 주로 무제한 어휘의 전체문장 합성기술에 연구 및 실용화의 초점이 맞추어져 있으며, 정서(놀람, 공포, 즐거움, 화냄, 지루함 등)에 기초한 음성 합성 방법도 연구되고 있다.

종래의 음성합성방법은 언어학적 처리 단계; 운율 처리 단계; 음성 신호 처리단계로 구분된다.

언어학적 처리 단계는 숫자, 약어, 기호 사전을 참조하는 텍스트 전처리기; 품사 사전을 참조하는 문장 구조 분석기; 예외 발음 사전 등을 이용하여 발음 표기 변환을 수행하는 발음 표기 변환기로 구성된다.

운율 처리 단계는 문장 구조 분석기에서 분석된 문법적인 상황과 정서를 나타나는 음향 파라메터를 삽입하여 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계를 결정한다.

음성 신호 처리 단계는 합성 단위 데이터베이스를 이용하는 합성 단위 선택기; 합성 단위를 연결하여 음을 합성하는 합성 단위 연결기로 구성된다. 음성신호 처리단계는 운율처리 단계에서 결정된 음소의 강약, 액센트, 고저 장단, 억양, 지 속시간, 휴지기간, 경계에 가장 적합한 음성 데이터를 찾고 음성을 합성한다.

상기에서 운율 처리 단계는 최근에 연구되고 있는 정서(놀람, 화냄, 즐거움, 공포 등) 음향에 대한 음성 합성까지 확장할 수 있게 구성될 수 있다.

정서 음향 음성 합성에 대해서 간략하게 설명하면 다음과 같다.

정서에 영향을 주는 음향 파라미터는 평균피치, 피치 곡선, 발화 속도, 발성 유형 등으로 Cahn(참조1)의 연구에서 잘 나타나 있다. 정서에 관한 연구는 영어권을 중심으로 이미 많이 이루어져 왔으며, 이들의 음향적 특성을 살펴보면 다음과 같다. (참조1: Cahn, J., Generating Expression in Synthesized Speech, M.S. thesis, MIT Media Lab, Cambridge, MA, 1990.)

(1)즐거움

즐거움의 경우 피치와 피치의 범위를 증가시키며 크게 증가된 피치 패턴은 아주 서서히 감소하는 현상을 보인다 . 조음 현상에 있어서는 때로 호기음이 섞이는 경우도 있다.

(2)화냄

화냄의 경우 일반적으로 긴장음이 나타나고 피치가 올라간다 피치범위는 넓어지는 경향이 있고 피치의 변화가 크며 평균피치는 다른 정서에 비해 상당히 높은 편이다.

(3)슬픔

강도는 낮아지고 불규칙적인 휴지기가 발생하며 좁은 피치범위를 가지는 경 우가 많다 그리고 발성속도는 느리게 나타나며 숨소리와 가성이 많이 나타나며 피치곡선은 상승한다.

(4)공포

피치가 높고 피치범위가 넓으며 가성이 빠른 발성속도로 나타난다.

(5)지루함

낮은 평균피치를 보이며 피치범위는 좁은 편이다. 피치곡선은 수평을 이룬다 .

본 발명의 운율 처리 단계에서는 발화 속도 제어 입력과 정서 음향 파라미터 입력과 언어학적 처리단계에서 분석 및 변환된 정보를 가지고 액센트, 억양, 경계, final lengthening과 음소의 강약, 지속시간, 휴지기간 등을 결정한다.

억양(intonation)은 문장 유형(종결형 어미)에 따라 변화를 보이며, 평서문에서는 하강조, 예/아니오 등의 의문문에서는 마지막 음절 직전까지 하강 후 마지막 음절에서 상승하고, 의문사 의문문에서는 하강조로 피치를 조절한다.

액센트(accent)는 발음에 나타나는 음절 내부의 강세를 표현한다.

지속 시간(Duration)은 음소의 발음이 지속되는 시간으로 천이구간과 정상구간으로 나눌 수 있다. 지속시간 결정에 영향을 미치는 특징요소로는 자음, 모음의 고유 또는 평균값, 음절 유형, 조음 방법과 음소의 위치, 어절 내 음절 수, 어절 내 음절 위치, 인접 음운, 문장 끝, 억양구, 경계에서 나타나는 final lengthening, 조사나 어미에 해당하는 품사에 따른 효과 등이 있다. 그리고 지속 시간의 구현은 각 음소의 최소 지속 시간을 보장하며, 주로 자음보다는 모음 위주로 지속시간과 종성 자음의 지속시간, 천이구간과 안정 구간에 대해 비선형적으로 지속 시간을 조절한다.

경계는 끓어 읽기, 숨의 조절, 문맥의 이해도 제고를 위해 필요하며, 경계에서 나타나는 운율 현상으로 피치(F0)의 급격한 하강, 경계 앞 음절에서 final lengthening, 경계에서 휴지구간 존재하며 발화 속도에 따라 경계의 길이가 변화한다. 문장에서 경계의 검출은 어휘 사전과 형태소(조사, 어미) 사전을 이용하여 형태소를 분석하여 이루어진다.

이와 같이 종래의 음성합성기는 문자와 음성 데이터 베이스를 이용하여 음성 합성 방법을 제공하고, 주로 전화 교환용이나 어학 학습용도의 단순한 음성 데이터 합성만을 수행하였으며, 문자 정보를 음성정보로 변환하는 시스템으로 크게 언어학적 처리 단계, 운율 처리 단계, 음성 신호 처리 단계로 구분되어 음성합성기에서는 입력된 텍스트로부터 음성을 합성하는 용도로만 사용되고 있다.

즉, 종래의 음성합성기는 텍스트 정보로부터 음성만 합성하고 원천 정보인 텍스트틀 음성신호에 맞추어 노래 반주기처럼 텍스트 정보를 글자 단위로 미세하게 색칠하지 못하고 있다. 더 나아가 문서 정보에 포함된 정지영상이나 동영상 정보를 합성된 음성정보에 자동으로 동기시키는 것은 더욱 어렵다.

뿐만 아니라, 음성합성기에서 생성되는 음성 데이터는 컴퓨터 노래반주기와 같은 미세한 자막 컬러링 같은 효과가 지원하지 않으며, 동기 작업을 위하여 많은 인원, 시간 및 비용이 소모된다. 또한, 네트워크 상에서 외국어로 된 많은 어학 데이터가 존재 하지만, 텍스트 또는 텍스트와 정지영상이 포함된 어학 컨텐츠를 컴퓨터 노래 반주기와 같이 음성 데이터와 텍스트 및 정지영상을 자동으로 동기시키지 못하는 문제점이 있으며, 하나의 문서에 대해서도 동기 작업에 많은 인원, 시간, 비용을 투입해야 하는 어려움이 있다.

종래 기술로 합성된 음성신호에 대하여 별도의 동기 작업을 통하여 텍스트를 합성된 음성 신호에 동기를 시키더라도 이미지가 포함된 일반문서를 영상과 함께 동기시키는 컨텐츠 제작 작업은 많은 비용과 인력을 필요로 한다. 예를 들어 토익이나 토플에서 이미지가 포함된 텍스트 문서를 음성 합성과 자막 및 영상 동기화를 자동으로 생성시킬 수 있는 방법은 음성합성기를 사용하여 음성신호를 합성한 후에, 컨텐츠 제작을 위하여 별도로 자막캡션을 넣는 작업 및 영상을 배치하는 복잡한 컨텐츠 제작 과정을 거쳐야만 가능하고, 정확한 동기를 위해서는 많은 인원과 비용을 지불해야 한다. 또한 종래 기술을 이용하여 수작업으로 영상 및 자막 캡션을 하더라도 음성신호와 완벽하게 동기된 컨텐츠를 만들기는 불가능하다.

종래의 기술 중 음성합성기인 TTS를 이용한 동영상의 동기화 방법은 음성이 없는 동영상과 텍스트가 준비되어 있을 때, 동영상에 포함된 입술의 지속시간이나 입술모양을 분석하여 어떤 문자가 발음되는지를 대본인 텍스트를 참조하고, 텍스트로 음성을 합성할 경우에 각 음소의 길이를 결정해 주는 방식으로, 동기화의 기준이 되는 부분은 동영상의 입술 모양과 입술모양의 지속 시간이며, 단순한 텍스트 문서만으로 영상, 자막, 입술모양의 동기 방법은 제공되지 못하고 있다. 또한 입술모양과 입술모양의 지속시간은 언어마다 다르고, 동일한 모음이 연속되는 경우에는 단어들의 음소별 입술모양을 찾기는 사실상 불가능하다.

다음으로 종래 자막 캡션 동기 생성 방식에 대해 간략하게 설명하면,

자막 캡션을 위한 동기 생성장치는 컴퓨터 노래반주기 처럼 음악에서만 필요한 것으로 여겨질 만큼 합성된 음성 데이터에 대한 동기화 작업은 수행되지 못하였다. 또한 동기 생성작업은 별도의 자막 캡션 동기 생성기(편집기)를 이용하여 수 작업으로 동기를 수행해 오고 있으며 자동화되어 있지 않다. 즉, 합성된 음성 데이터를 문자 정보와 동기시키기 위하여, 문자 정보를 음성의 재생 시간이나 오디오 압축 알고리즘의 경우 프레임 정보나 시간 정보를 이용하여 동기화 정보를 할당하고, 동기 정보를 이용하여 음성데이터와 문자를 동기시켜 화면에 자막캡션을 출력하고 있다. 더욱 상세하게는, 디지털 오디오 신호(PCM, WAV, MP3, WMA 등)를 재생하면서 해당하는 음성신호의 프레임 수, 시간정보, 압축 디지털 오디오의 프레임 내부에 포함된 헤더의 부가 데이타 공간을 이용하여 오프라인으로 직접 음성신호에 맞추어 동기 생성방법을 사용하고 있다. 이러한 방법은 음성합성을 한 음성신호의 경우에도 적용되며, 오프라인으로 음성합성기로 생성된 음성 신호를 재생하면서, 자막캡션이나 동기 정보를 수 작업으로 할당하는 동기 생성방식이다.

하지만 이와 같은 동기 생성방식은 음성 신호의 속도가변 재생, 가변 비트율, 급속 전후 이동에 프레임 수나 현재 재생시간에 대한 정보를 알기 위하여 프레 임 수를 처음부터 카운터 해야 하거나, 가변 비트율로 압축된 오디오 데이타의 재생 시간을 알기 위해서는 프레임 정보를 처음부터 해석해야만 정확한 현재 재생 시간을 알 수 있기 때문에 많은 계산량이 요구되어 자막 캡션과 음성신호 재생간의 동기가 안 되는 경우가 발생한다. 그리고 프레임 내부의 부가 정보에 동기 정보 및 자막 캡션를 삽입하는 방법은 부가정보를 삽입할 공간을 분석하고 전체 프레임에 대하여 표준화된 포맷(예, MP3, WMA, OGG 등)을 만족시켜야 하는 어려움이 있을 뿐만 아니라, 동기 정보를 할당한 오디오 신호를 다른 오디오 파일 포맷으로 변환할 때, 특정한 파일 포맷에 의해 삽입된 동기 정보를 가져와서 새로운 오디오 포맷에 적용하기가 매우 어렵다.

또한 종래 기술의 자막 캡션을 이용하면 자막 캡션에 대한 동기는 이룰 수 있지만, 음성합성기와는 별도로 작업을 수행해야 하고, 일일이 자막 캡션에 대한 부분을 음성신호를 재생하면서 동기 작업을 진행하므로 음성이 들리는 순간과 동기 정보를 삽입하는 시간적인 차이로 인하여 완벽한 동기는 사실상 불가능하다. 더 나아가 영상 이미지가 포함된 시나, 소설, 뉴스, 인터넷 상의 정보문서를 합성된 음성신호에 자막이나 영상이 완벽하게 동기된 컨텐츠를 만들 수 있는 자동화 생성장치와 재생장치는 구현되어 있지 않다.

동화, 시화, 인터넷 신문, 토익, 토플처럼 텍스트 또는 텍스트와 정지영상/동영상이 포함된 어학 데이터를 음성합성기로 음성을 합성하여 재생할 경우에, 컴퓨터 노래반주기와 같이 음성 데이터의 진행에 맞도록 정지영상/동영상을 배경 이미지 처리하고 배경이미지 위에 텍스트 컬러링을 지원하지 못한다. 또한 동기 정보 를 제공하기 위하여 합성된 음성 정보에 대한 텍스트 및 정지영상/동영상에 대한 동기 정보가 필요하지만, 동기 정보는 단지 텍스트와 정지영상, 동영상으로부터 추정하기가 불가능하며, 또한 음성합성기에서 다양한 컨텐츠 부분의 동기에 필요한 정보를 추출하거나, 이를 이용하여 음성 비트스트림과 텍스트, 정지영상, 동영상과 입술모양을 자동으로 동기 정보를 생성하는 생성기 및 이를 이용한 재생기는 개발되어 있지 않다.

그리고 대본을 이용하여 음성을 애니메이션 영상에 더빙을 할 경우 많은 성우, 비용, 장비 등이 동원되고, 성우가 일일이 애니메이션 영상을 보면서 대본을 읽는 형식으로 진행되고 있으며, 자동 또는 간편한 작업으로 이를 수행하기는 불가능하다. 그리고 성우에 대한 음성 데이터베이스를 확보한 후 음성합성기를 이용하여 보다 많은 목소리를 음정의 가변이나 속도 조절, 정서 음향 파라미터 등을 이용하여 애니메이션 영상에 입술 모양 및 음성을 일치시킬 수 있는 쉬운 방법은 아직 개발되어 있지 않다.

본 발명의 목적은 종래의 이와같은 문제점을 해소하고자 한 데 있는 것으로, 압축 음성 데이터와 완전히 일치하는 텍스트와 정지영상이 포함하는 다양한 멀티 미디어 컨텐츠를 용이하게 구현하기 위하여, 문서 분석기를 통해 텍스트, 영상 정보, 효과음 및 배경음을 분리하고, 문서 상에 영상이 놓인 위치 정보를 추출하는 문서분석단계; 음성합성기를 통해 정지영상이나 동영상이 포함된 텍스트 문서를 음 성합성하는 음성합성단계(언어학적 처리단계, 운율처리단계, 음성신호처리단계); 동기화 생성기를 통해 합성된 음성신호에 배경음악과 효과음을 혼합하여 새로운 오디오 비트스트림을 생성하고, 디지털 오디오 비트스트림에 자막 캡션이나 정지영상, 동영상, 입술모양 등을 동기시키는 동기화 생성단계; 재생기를 통해 동기화된 자막 캡션, 정지영상, 동영상, 입술모양 등과 디지털 오디오 비트스트림을 일치시켜 화면에 출력하는 동기화 재생 단계;를 제시하고자 한다. 즉, 본 발명은 텍스트 문서 또는 텍스트와 배경음악, 효과음 지시자, 정지영상/동영상이 포함된 문서정보에서 TTS등의 음성합성기를 이용하여 텍스트에 포함된 글자 단위로 동기된 컨텐츠를 자동으로 만들기 위하여, 텍스트나 텍스트와 정지영상 및 동영상을 가지는 문서정보(TOEIC, TOEFL, 인터넷 문서, 전자사전, E-BOOK, E-MAIL 등)를 TTS등의 음성합성기에 입력하고, 음성합성기에서 출력되는 합성음을 디지탈 오디오 알고리즘 (PCM, WAV, MP3, AAC, OGG, WMA, ASF 등)을 이용하여 음성 비트스트림을 생성할 때, 음성합성기의 지연시간, 휴지기간, 발음 정보 등과 문서상의 영상 위치 정보를 이용하여 글자, 정지영상, 동영상, 입술 모양을 음성신호에 동기 시켜, 컴퓨터 노래 반주기처럼 재생하기 위한 자동 동기 생성/재생 방법 및 그 장치를 제공코자 하는데 그 목적이 있다.

TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어, 입력될 문서정보에서 텍스트와 영상을 분리하고, 텍스트와 영상의 위치를 분석하는 문서분석단계; TTS 시스템을 이용하여 음성합성하는 음성합성단계; 합성된 음성 신호에 효과음을 혼합하는 합성 오디오 생성단계; 합성된 음성신호에 배경음악과 효과음을 혼합하여 새로운 압축 오디오 비트스트림을 생성하고, 디지털 오디오 비트스트림에 자막 캡션이나 정지영상, 동영상, 입술모양 등을 동기시키는 동기화 생성단계; 동기화된 자막 캡션, 정지영상, 동영상, 입술모양 등과 디지털 오디오 비트스트림을 일치시켜 화면에 표현하는 동기화 재생 단계;를 특징으로 하는 것이다.

상기 동기화 생성단계에서는 압축/무압축 오디오 비트스트림에 해당하는 각 음소 및 정지 영상을 자동으로 동기화시키기 위하여, 비트스트림의 동기화 위치 정보 및 오디오 압축/무압축 알고리즘과 상기의 TTS 시스템에서 추출된 각 음소의 지속시간, 휴지기간 등의 시간 정보를 이용하게 된다.

상기에서, 동기화 위치 정보는 각 음소나 정지영상의 시작과 끝의 위치에 해당하는 압축/무압축 음성 비트스트림 시작부터의 바이트 값으로 설정하거나, 압축/무압축 비트스트림의 해당 바이트 값와 관련된 연산으로 설정한다.

상기 동기화 생성단계에서는 텍스트 및 정지영상의 동기화 데이터와 압축 음성 비트스트림을 하나의 파일로 구성하거나, 압축/무압축 음성 파일과는 별도의 동기화 데이터로 구성하거나, 압축/무압축 음성 비트스트림 포맷의 내부 프레임 또는 헤더정보를 이용하거나, 압축/무압축 음성비트스트림에 추가되는 ID3 태그에 포함한다.

상기에서, 압축/무압축 오디오 생성단계는 배경음악이나 효과음이 없을 경우 생략될 수도 있다.

TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 장치에 있어, 분리된 영상 데이터와 영상의 위치정보를 추출하는 문서 분석기; 문자와 음성 데이터 베이스를 이용하여 음성을 합성하는 음성합성기; 자동으로 동기 정보를 생성 할당하는 동기화 생성기; 동기정보를 입력받아 화면에 출력하는 재생기;의 조합으로 형성됨을 특징으로 한다.

상기에서, 재생기는 동기 정보 분석 및 데이터 저장 장치, 동기 재생 제어장치, 미디어 재생장치로 구성된다.

TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어, TTS 시스템을 이용한 음성합성단계; TTS 시스템을 이용한 합성 오디오 생성단계; TTS 시스템을 이용한 동기화 생성단계; TTS 시스템을 이용한 동기화 재생 단계;를 특징으로 하는 것이다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있도록 상세하게 설명하면 다음과 같다.

도 1은 자동 동기 생성장치를 위한 구조로서, 표현된 입력은 텍스트 또는 텍 스트와 정지 영상과 동영상 및 배경음, 효과음 지시자가 포함된 문서이고, 출력은 배경음악, 효과음, 합성 음성이 포함된 디지털 오디오 비트스트림과 디지털 오디오 비트스트림에 대하여 자동으로 동기된 텍스트와 정지영상, 동영상, 입술 모양 등이다.

동기 정보의 최종 출력 형태는 구성요소에 따라 다양하게 조합되거나 하나의 파일로 이루어질 수 있으며, 디지털 오디오 비트스트림 내부에 포함된 동기화 정보(프레임 수 정보, 프레임 내부의 부가정보 데이터, 시간정보(ID3 TAG), 바이트 정보, 파일 포인터 정보 등)나 인덱스를 포함하는 하나의 파일이거나, 디지털 오디오 비트스트림과는 별도로 동기 정보(프레임 수 정보, 프레임 내부의 부가정보 데이터, 시간정보, 바이트 정보, 파일 포인터 정보 등)나 인덱스를 분리 저장하여 구현할 수도 있다.

도 1에 제공된 자동 동기 생성장치는 문서분석단계; 음성합성기의 언어학적 처리단계(텍스트 전처리기, 문장 분석기, 발음표기 변환기로 조합); 음성합성기의 운율처리단계; 음성합성기의 음성 신호처리단계(합성 단위 선택기, 합성 단위 연결기); 합성 오디오 생성 단계; 음성 비트스트림 및 음성 비트스트림에 대한 자막캡션이나 정지영상, 동영상, 입술 모양의 동기 정보 생성 단계로 구성된다.

자동 동기 생성장치의 각 구성 요소를 좀 더 상세히 설명하면,

문서분석단계는 자동 동기 생성장치로 입력되는 문서를 분석하여 단순 텍스트, 영상 정보, 효과음 지시자 및 배경 음악 아이콘 이나 링크된 배경 음악을 분리하고, 문서상에 영상, 효과음 지시자, 배경음악 재생 아이콘 등이 놓인 위치 정보 를 추출한다.

먼저 효과음(박수소리, 물소리, 휘파람 소리 등) 지시자가 문서에 포함되어 있는 경우, 문서분석단계에서 효과음 지시자가 있는 문서상의 위치 정보 정보를 추출하고, 합성 오디오 생성 단계에서 효과음 데이터 베이스와 효과음 지시자의 위치 정보를 이용하여 합성된 음성 신호에 효과음을 혼합한다. 문서 분석 단계에서 추출된 효과음 지시자의 위치 정보는, 음성합성기에서 합성된 음성 비트스트림에 대하여 효과음의 시작 시간 정보로, 효과음이 포함된 합성 오디오 데이터를 생성하기 위해 사용된다.

배경음악 아이콘이나 링크된 파일이 있는 경우, 문서 분석 단계에서 배경음악 아이콘의 위치 정보와 배경 음악 파일을 추출하고, 합성 오디오 생성 단계에서 위치정보를 고려하여 배경음악과 합성된 음성신호를 혼합한다. 문서 분석 단계에서 추출된 배경음악 아이콘의 위치 정보는, 음성 합성기에서 합성된 음성 비트스트림에 대하여 배경음악의 시작 시간 정보로, 배경음악이 포함된 합성 오디오 데이터를 생성하기 위해 사용된다.

영상이 포함된 문서의 경우, 문서 분석 단계에서 영상 데이타와 영상의 삽입 위치 정보를 추출하고, 영상 정보와 영상의 위치 정보를 이용하여, 동기 생성 장치에서 합성 오디오 비트스트림에 동기 정보를 할당한다. 문서상에서 영상이 삽입된 위치 정보는, 음성 합성기에서 합성된 음성 비트스트림 또는 합성 오디오 데이터 생성기에서 생성되는 오디오 비트스트림에 대하여 영상이 표현되는 시작 시간을 나타낸다.

영상이나 배경음악, 효과음이 없는 단순한 텍스트 문서는 문서 분석기와 영상, 효과음 등에 관련된 효과음 데이타 베이스, 합성 오디오 생성장치 등이 생략될 수 있으며, 단순 자막 캡션 동기 생성이나 입술 모양 동기 생성 장치로 이용된다.

도2는 본 발명에서 사용되는 음성합성기 개념도를 도시한 것으로, 속도 가변을 위한 발화 속도 조절제어 입력과 정서 음향 파라미터가 생략될 수 있다.

도1, 도2의 언어학적 처리 단계의 텍스트 전처리기는 입력된 텍스트의 숫자, 약어, 기호 사전을 고려하여 텍스트 문장을 변환하며, 문장 분석기는 억양, 지속시간, 휴지기간 예측을 위해서 입력 텍스트 문장 내의 주어, 서술어의 위치와 같은 문장 구조를 품사 사전을 참조하여 분석한다. 발음 표기 변환기는 음운 현상을 적용해서 입력 문장을 소리 나는 대로 표기하고, 일반적인 음운 현상이 적용되지 않는 예외 발음들은 예외 발음 사전을 사용하여 텍스트 문장을 재구성한다. 도2에서 "1.2M 입니다."라는 문장을 이용하여 각 단계별 동작을 예로 나타내었다.

도1, 도2의 운율 처리 단계에서는 언어학적 처리단계에서 발음 표기 변환된 발음 표기 정보와 발화 속도 제어 파라미터, 정서 음향 파라미터를 입력받는다. 발음 표기 변환된 정보와 발화 속도 제어 파라미터, 정서 음향 파라미터를 이용하여 각 음소들의 강약, 액센트, 억양, 지속 시간(음소별 끝시간(샘플수)-음소별 시작시간(샘플수))과 경계와 휴지기간(문장 구성요소간의 지연 시간(샘플수))을 결정(104)하고, 결정된 각 음소의 시작시간(샘플수), 끝시간(샘플수) 및 휴지기간(구성 품사 요소간의 지연시간에 해당하는 샘플수)와 경계를 이용하여 음소별 입술모양과 입술모양의 시작 시간 및 끝 시간을 할당하고, 글자단위별 재생 시작 시간 및 끝 시간을 추출한다.

발화 속도 제어 파라미터는 다양한 응용을 위하여 합성되는 음성의 전체 재생시간을 조절할 수 있는 방법을 제공하고, 정서 음향 파라미터는 합성되는 음성에 놀람, 화냄, 즐거움 등의 다양한 감정을 표현하기 위한 제어 입력을 제공하며, 피치, 발화 방법, 발화 속도 등에 영향을 미친다.

본 발명에서 사용되는 운율 처리 단계는 일반적인 음성합성기의 운율 처리 단계를 변형한 것으로 발화 속도 제어 파라미터 및 정서 음향 파라미터 입력이 가능하며, 음소별 입술 모양과 입술모양의 시작과 끝 시간을 할당할 수 있고, 글자 단위의 재생 시간 및 끝 시간을 추출할 수 있다.

도 1의 음성 신호 처리 단계의 합성 단위 선택기는 음성 데이터 베이스에서 각 음소별로 예측된 억양과 지속시간이 가장 잘 맞는 데이터를 찾는 과정으로 글자의 재생 시간 정보를 추출할 수 있다. 그리고 합성 단위 연결기는 선택된 데이터들을 자연스럽게 연결하여 무압축 합성 음성신호를 출력한다.

도 1의 합성 오디오 데이터 생성기는 문서 분석 단계에서 저장된 배경음악, 효과음, 위치 정보를 이용하여, 음성신호 처리단계에서 합성된 음성에 배경음악이나 효과음을 혼합하여 새로운 오디오 데이터를 생성한다. 배경음악이나 효과음이 없는 경우에는 합성 오디오 데이터 생성단계를 생략할 수 있다.

도 1의 동기화 생성 단계에서는 합성 오디오 데이터 생성단계에서 출력되는 배경음악, 효과음과 합성 음성신호가 복합된 무압축 오디오 비트스트림과 합성시 사용된 샘플링 주파수와 상기의 운율 처리 단계에서 추출된 글자의 시작, 끝 시간 정보와 입술 모양과 입술 모양의 시작, 끝 시간 정보와 문서 분석 단계에서 추출된 영상 데이타 및 영상 위치 정보인 시작 시간 정보를 이용하여 텍스트, 영상, 입술 모양을 무압축 오디오 비트스트림에 동기시키거나(시간 정보를 직접 동기 정보로 할당하는 방법, 바이트 계수기 등을 이용하여 비트스트림 상의 위치정보로 동기 정보를 할당하는 방법), 동기 정보가 포함된 무압축 오디오 비트스트림을 새로운 디지털 압축 오디오 비트스트림(MP3, WMA, OGG 등) 형태로 변환하면서 동기 정보를 변환하여 새로운 동기 정보를 할당하는 기능을 제공한다.(시간정보를 동기 정보로 할당하는 경우는 동기 정보가 불변; 바이트 계수기 등을 이용하여 압축 비트스트림 상의 위치 정보로 동기 정보를 재할당하는 방법; 압축된 오디오의 프레임 수나 프레임 내부에 동기 정보를 재할당하는 방법)

상기에 언급한 각각의 동기 정보 할당 방법에 대해 간략하게 설명하면 다음과 같다.

재생 시간을 이용한 동기 정보 할당 방법은 재생시간을 자막 캡션이나 영상 등의 동기 정보로 직접 할당하는 것으로 가장 쉽게 동기 정보를 할당할 수 있다. 그러나 재생 시간의 파악이 어려운 경우인 FF/REW 동작과 VBR(가변비트율)등에는 취약점이 있다.

도 3은 압축 오디오 비트스트림인 MP3의 데이터 포맷을 나타낸 것으로 프레 임 구조의 일례를 도시한다. 도 4는 프레임 헤더의 구조를 분석한 것으로, 프레임 내부에 동기 정보의 할당하는 방법으로 프레임을 구성하는 헤더의 내부나 ID3 TAG 데이터에 부가 데이터를 삽입할 수 있다. 도 5는 헤더의 Ancillary data라고 하는 공간에 동기에 필요한 텍스트 및 영상 정보를 삽입 하는 일실례를 표현한 것이다. 프레임 수나 프레임 내부의 부가 저장 공간을 이용하는 동기 정보 할당 방법은 오디오를 구성하는 내부 프레임 구조와 헤더를 해석해야 하는 불편함이 있다.

도 6은 파일의 비트스트림에 바이트 계수기를 이용하여 동기 정보를 할당하는 것을 설명한 것으로, 도면에서 오디오 비트스트림이 B0,B1,B2,B3...라는 바이트로 구성되어 있을 때, 자막 'C'는 오디오 비트스트림의 5번째 바이트에서 시작하여('C'의 시작 정보) 오디오 비트스트림의 6번째 바이트 시작에서('C'의 끝 정보) 끝나며, 동기 정보는 (5,6)으로 할당되며, 자막 'D'의 동기 정보는 (6,7)로, 6번째 바이트 시작점에서 시작하여, 7번째 바이트 시작점에서 끝남으로 표현된다.

본 발명에서는 바이트 계수기를 이용하여 비트스트림 상의 위치 정보로 동기 정보를 할당하는 방법으로 동기 정보 생성 및 생성된 데이터 재생에 대하여 설명하지만, 본 발명의 내용은 재생 시간 정보나 프레임 내부에 동기정보를 삽입하는 방법에 대해서도 포괄적으로 적용된다.

도 7은 일실례로, 본 발명의 동기화 생성 단계에서 바이트 계수기와 단순 시간 정보를 이용하여 동기 정보를 할당하는 방법을 표현한다. 합성 오디오 데이터 생성 장치에서 합성 오디오 비트스트림은 무압축 오디오 비트스트림 형태로 입력되고, 문서 분석기에서 분리된 영상 데이터와 영상의 위치정보(영상 재생의 시작 시간정보)가 입력된다. 또한 음성합성기의 운율처리단계 및 음성신호처리단계로부터 텍스트와 입술 모양에 대한 정보와 시간 정보와 음성 합성에 사용된 샘플링 주파수가 전송된다. 동기화 생성기에 입력된 시간 정보는 오디오 비트스트림의 재생 시간에 맞추어 동기 정보로 사용할 수도 있고, 바이트 계수기를 이용할 경우에는 시간 정보를 샘플링 주파수로 계산하면 쉽게 바이트 계수로 치환이 가능하며, 이들 바이트 계수 값을 이용하여 동기정보를 할당한다.

텍스트를 이용한 음성 합성에서는 음성합성기 내부에서 글자 재생에 필요한 시간을 추출한 글자 재생시간과 샘플링 주파수를 이용하면, 생성된 오디오 비트스트림의 바이트 계수 값을 바로 알 수 있다. 예를 들면, 무압축으로 합성된 오디오 비트스트림에서 한 글자가 2초 부터 시작하여 3초까지 생성 될 때, 합성음의 샘플링 주파수가 44.1KHZ라면, 무압축으로 합성된 음성에서 글자에 해당하는 시작 바이트는 44100(Sampling frequecy) *2(SEC)/8(BYTE)=11025 이고, 끝 바이트는 44100(Sampling frequecy) *3(SEC)/8(BYTE) = 16537 바이트로 글자의 동기 정보는 (11025,16537)로 할당된다. 즉 오디오 비트스트림을 재생할 때, 11025 번째 바이트에서 해당하는 글자를 색칠하기 시작하여 16537번째 바이트에서 글자 색칠을 마무리 하도록 하면, 화면상에서 노래반주기와 같은 컬러링 효과를 가질 수 있다.

도 8은 동기 정보 생성 단계에서 입력된 합성 오디오 데이타를 다른 포맷으 로 압축하거나 변경 시키기 위한 시스템 구조도로, 동기정보가 변환된 오디오 파일 포맷과 일치 되도록 하는 자동 변환 방법을 제공한다. 멀티 미디어 파일에 대한 동기 정보가 할당된 자막이나 영상 등의 정보에서, 동기 기준이 되는 멀티미디어 파일이 다른 파일 포맷으로 변환될 경우를 위한 동기화 할당 방법을 표현한다. 도면에서 파일 포맷 변경을 위해 입력 멀티미디어 비트스트림의 바이트 계수기 값을 증가 시키면서 엔코더에 입력할 때, 바이트 계수기 값에 따른 동기 정보 유뮤 체크를 하면서 엔코더에서는 새로운 멀티미디어 비트스트림을 생성한다. 만약 입력된 동기 정보 중에서 입력 바이트 계수기 값에 해당 하는 정보가 있다면, 새로운 포맷으로 생성되는 멀티미디어 비트스트림의 바이트 계수기 값을 새로운 동기 정보로 할당한다. 본 발명의 동기 생성 단계에서 바이트 계수기를 이용한 동기 정보 할당 방법의 일례로, 합성 오디오 생성 단계에서 무압축 오디오 비트스트림을 압축하여 저장용량을 줄이면서 자막, 영상, 입술 모양 등의 동기 정보를 쉽게 할당할 수 있는 방법을 제공한다.

도 9는 동기 생성 단계에서 무압축 오디오 비트스트림과 바이트 계수 값을 이용하여 동기 정보가 할당되어 있을 때, 새로운 디지털 압축 오디오 비트스트림 형태로 변환하면서 동기 시키는 방법에 대한 상태도이다.

먼저 자막"A","B",'C"의 동기 정보는 합성된 오디오 비트스트림에 대하여 각각 (0,3)(3,6)(6,8)로 할당되어 있다. 먼저 무압축 오디오 비트스트림을 압축 디지털 압축 오디오 알고리즘 엔코더로 입력한다. 무압축 오디오 비트스트림이 0번 째, 1번째, 2번째,3번째, 4번째... 순차적으로 압축 오디오 알고리즘 엔코더로 입력되어 새로운 압축 오디오 비트스트림이 생성 될 때, 무압축 오디오 비트스트림의 바이트 계수값과 압축 오디오 알고리즘 엔코더 내부의 바이트 계수값을 사용하여 새로운 동기 정보를 부여한다. 상태도에서도 (0,3)->(0,1), (3,6)->(1,4), (6,8)->(4,5)로 변환된다.

도 10은 무압축 오디오 비트스트림에서 자막의 동기 정보를 압축 오디오 비트스트림 상에서 변환되는 예를 도시한다. 도면(가)는 무압축 오디오 비트스트림에 동기된 자막캡션을 나타낸다. 도면(가)의 비트스트림은 입력 버퍼에 저장되어 도면 의 멀티미디어 엔코더(포맷 변환기)로 한 바이트 씩 입력될때, 입력 바이트 계수기을 1씩 증가한다. 자막의 동기 정보에 해당하는 비트스트림의 바이트가 멀티미디어 엔코더에 입력되면, 멀티미디어 엔코더의 출력 비트스트림(도 (나))에 해당하는 출력 바이트 계수기 값을 새로운 자막의 동기 정보로 할당한다.

도 11은 본 발명의 동기 재생장치를 나타낸 재생장치 대표도로, 동기 정보를 할당하는 방법에 따라 수정될 수도 있다. 도 11의 동기 재생장치는 동기 정보 분석 및 데이터 저장 장치; 동기 재생 제어장치; 미디어 재생장치로 구성된다.

동기 정보 분석 및 데이터 저장 장치는 입력된 데이터를 영상과 오디오 스트림, 텍스트, 입술모양 정보 및 각각의 동기 정보를 분석하여 저장 장치에 저장한다.

동기 재생 제어 장치는 미디어 재생장치 중 오디오 비트스트림 재생 장치에서 추출된 재생시간 정보나, 바이트 계수기 정보, 프레임 수나 동기 제어 정보를 이용하여 미디어 저장 장치에 저장되어 있는 각종 미디어의 동기 재생을 조절한다.

미디어 재생 장치는 텍스트의 글자 단위 컬러링이나 라인 단위의 글자 묶음을 화면상에 표현할 수 있는 텍스트 컬러링 표현 장치; 동기 정보를 받아 영상을 화면에 표현하는 영상 재생기; 동기정보를 받아 입술 모양의 이미지를 화면에 표현하는 입술 모양 동기 재생기; 오디오 비트스트림을 재생하는 디지털 오디오 재생기로 구현되며, 해당 미디어가 없을 경우 재생장치는 생략될 수 있다.

도 12는 바이트 계수기를 이용하여 비트스트림 상의 위치정보로 동기 정보를 할당한 경우의 재생 방법을 나타낸다. 도 11의 동기 정보 분석은 재생기 입력에 의한 파일 시스템의 버퍼정보에 대응하고, 도 11의 저장장치는 멀티미디어 비트스트림 버퍼에 해당한다. 도 11의 멀티미디어 재생기는 미디어 재생장치에 해당하고, 도 12의 바이트 계수기와 동기화 위치 정보 비교기는 도 11의 동기 재생 제어 장치에 해당한다.

동기화 재생기 입력부에서 파일 읽기를 선택하면, 파일 시스템에 의해 멀티미디어 파일이 읽혀지고, 멀티미디어 비트스트림 버퍼에 저장되며, 바이트 계수기의 초기값은 "0"으로 된다. 도 19의 동기 재생기 입력부에 재생신호를 입력하면, 바이트 계수기는 자동으로 증가하고, 멀티미디어 비트스트림 버퍼에서 저장된 데이타는 멀티미디어 재생기로 입력되어 재생된다. 멀티미디어 비트스트림 버퍼에서 멀 티미디어 재생기로 바이트 단위의 데이타가 입력될 때, 동기화 위치정보 비교기는 바이트 계수기의 값과 자막 데이타의 동기화 위치정보를 서로 비교하며, 바이트 계수기와 자막 동기 시작 위치정보가 일치하면 해당하는 자막의 컬러링을 시작하고, 끝 위치 정보가 일치하면 해당하는 자막의 컬러링을 정지한다. 상기에 도시한 시작과 끝 위치 정보의 차를 컬러링하기 위한 바이트 수로 나누면 미세한 자막 컬러링을 실행할 수 있다. 만약 시간 정보를 직접 동기 정보로 할당한 경우에는 바이트 계수기와 동기화 위치정보 비교기가 생략되며, 멀티 미디어 파일 재생시간에 맞추어 자막, 영상, 입술 모양을 바로 출력할 수 있다.

도 13은 효과음 지시자가 포함된 텍스트 문서에서의 합성 오디오 데이터 생성 단계에서 오디오 데이터를 합성하는 방법에 대한 일실례이다. 입력 텍스트 문서에 효과음이 포함되어 있을 때, 문서 분석기에서 효과음 지시자를 분리하고, 효과음 지시자의 위치정보를 추출한다. 효과음 지시자의 위치정보는 합성 오디오 데이터 생성시 음성신호에 대하여 효과음이 삽입될 부분을 지시한다. 또한 효과음 지시자를 이용하여 효과음 데이터베이스를 검색하고, 검색된 효과음을 음성합성기에서 생성된 음성 신호에 혼합하여 처리한다. 이때, 효과음과 음성신호의 밸런스를 맞추기 위하여 효과음에 가중치를 두어 사용한다. 효과음의 재생 시간을 늘이기 위해서는 속도 가변보다는 효과음의 정상상태 구간을 복사 반복하는게 보다 자연스럽고 바람직하다. 또한 시간에 따라 가변되는 가중치를 삽입하면 효과음의 FADE OUT(점점 작게), FADE IN(점점 크게) 등의 효과음 처리가 가능하다.

도 14는 배경음악 아이콘이 포함된 텍스트 문서를 합성하면서 배경음악을 처리하는 방법을 설명한다. 배경음악 아이콘이 포함된 문서를 문서 분석기에서 배경음악과 텍스트를 분리하고 배경음악이 압축되어 있다면 복원하여 저장한다. 그리고 배경음악 아이콘의 위치정보를 추출하여 합성 오디오 생성 단계에서 배경음악에 가중치를 주어 합성된 음성신호를 혼합하고, 배경 음악 아이콘의 위치 정보를 이용하여 합성된 음성 신호상에서 배경음악의 재생(혼합) 시작 위치를 지정한다. 도면에서 배경 음악의 재생시간이 합성된 음성보다 재생시간이 길 경우에는 합성음의 발화 속도를 조절하거나, 속도 가변기를 넣어, 음성신호와 배경신호의 재생시간을 같게 만들 수 있다. 배경음악의 재생시간이 합성된 음성신호의 재생시간보다 작을 경우에는 배경음악을 반복하여 재생하거나, 발화 속도 및 속도 가변을 실행하여 합성된 음성 신호의 재생시간과 배경음악의 재생시간을 같게 만들 수 있다.

도 15는 본 발명의 또 다른 일실시예로서, 애니메이션 영상과 대본으로 합성 음성을 이용하여, 애니메이션 영상에 음성 신호을 일치 시키는 방법 및 합성된 음성에 대하여 자막과 입술모양을 애니메이션 영상에 동기 시키는 방법을 제공한다.

일반적으로 애니메이션 영화를 만들기 위해서는 애니메이션 영상이 완성된 후 성우 목소리로 애니메이션 영상을 보면서 목소리를 더빙시켜서 애니메이션 영화를 만든다. 이때, 대본에 포함된 텍스트를 성우의 음성 DB와 효과음 DB, 배경음악과 정서 음향 파라메터, 발화 속도 조절 및 속도 가변을 이용하여 합성하면, 저 비 용으로 애니메이션 영화를 만들 수 있다. 대본으로 합성된 음성 비트스트림과 애니메이션 영상 부분이 도 15에 표현되었다. 도 15의 애니메이션 영상에서 음성신호 "A"에 해당하는 부분은 영상 비트스트림 상의 V0,V1,V2에, 음성신호 "B"에 해당하는 부분은 V4,V5에, 음성신호 "C"에 해당하는 부분은 V8,V9에서 재생되어야 한다면, 일반적인 음성합성기에서 생성된 음성 합성된 비트스트림과는 일치하지 않는다. 그러므로, 입력된 애니메이션 영상에 대하여 텍스트 자막에 동기 정보를 할당하고, 결정된 동기 정보에 의해 "A"의 발화 속도를 결정한다. 이를 이용하여 발화 속도 제어 변수 및 대본상의 정서음향 파라미터를 넣어서 음성을 합성하고, "A" 자막의 시작 위치 정보를 애니메이션 영상에 대한 합성 음성의 위치 정보로 입력하면, 애니메이션 영상에 쉽게 합성된 목소리로 더빙을 시킬 수 있다. 또한 애니메이션에 들어가는 노래 등은 배경음악으로 처리하고, 효과음은 효과음 지시자와 효과음 데이터베이스를 이용하면 저 비용으로 애니메이션 영화를 만들 수 있다.

또 다른 일실시예로, 애니메이션 영상 제작에 있어서, 캐릭터의 입술 모양을 음성에 맞게 작업하기는 매우 어렵다. 대부분의 애니메이션에서 입만 벙긋벙긋 하는 것보다는 음성에 포함된 영상에서 해당하는 발음의 입술모양 및 입 주위 근육 움직움을 추출하여 애니메이션의 입술 모양과 정확히 일치시킬 수 있다면, 저 비용으로 고급화된 애니메이션을 만들 수 있다. 그러므로 대본상의 텍스트와 정서 음향 파라미터 및 발화 속도 조절 제어를 이용하여 대본을 원하는 음성 신호로 먼저 만든다. 음성 대본을 통하여 동기화된 입술 모양을 미리 알 수 있고, 이를 바탕으로 애니메이션 영상 작업을 진행하거나, 입술 모양 및 입술 주위 근육에 대한 이미지 를 워핑이나 모핑 등의 이미지 처리를 통하여 캐릭터의 입술모양을 정확하게 음성신호에 동기시킬 수 있다.

도 16은 시화, 동화, 대본 등의 컨텐츠를 여러명의 화자와 입술 모양을 가지고 자동으로 동기 정보를 생성할 수 있는 시스템 블럭도이다.

입력된 문서를 문서 분석기에서 텍스트와 영상, 효과음 지시자, 위치정보를 추출하고, 텍스트를 음성합성기에 입력한다. 입력된 텍스트는 정서 음향 파라미터에 따라 발화 속도, 발화 방법, 음의 높낮이 등이 조절되어 합성된다. 텍스트 문서 상의 캐럭터에 각기 다른 음성 DB를 할당하면, 여러명이 감정을 표출하면서 대본을 읽는 효과를 가져 올수 있다. 또한 효과음이 삽입되면서 텍스트에서 경험하지 못하는 훌륭한 컨텐츠를 제작할 수가 있다. 또한 입술 모양 DB를 이용하여 입술 모양을 음성에 맞도록 립 싱크를 맞출 수 있으며, 합성된 오디오 신호에 대하여 음정가변을 통하여 보다 구비된 음성 DB보다 훨씬 많은 화자의 음성을 만들어 낼 수 있으며, 속도 가변을 통하여 교육 효과를 높이기 위한 컨텐츠를 자유자재로 만들 수 있다. 또한 최종적으로 상기에서 설명한 오디오 압축 알고리즘을 이용하여 동기화를 유지하면서 컨텐츠의 저장 용량을 줄일 수도 있다.

도 17은 영상이 포함된 텍스트 문서에서 영상의 동기 정보를 추출하는 실시예를 도시한다. 도17 (a)는 본 발명의 자동 동기화 생성기에 입력되는 문서 형태를 표현한다. 입력된 문서는 문서 분석기에서 텍스트와 영상을 추출하고, 영상이 문서상에 놓여진 위치정보를 분석한다. 문서 분석기에서 IMAGE1의 위치는 TEXT1A의 앞 에 놓여 있으며, IMAGE2는 TEXT2와 TEXT3 사이에 놓여 있다.

도17 (b)는 문서 분석기에서 추출된 텍스트로 합성될 텍스트의 순차적인 흐름을 나타낸다. 합성될 텍스트는 TEXT1A, TEXT1B, TEXT1C, TEXT2, TEXT3로 음성 합성기에 순차적으로 입력된다. 음성 합성기의 언어학적 처리단계는 도17 (c)의 발음 표기에 해당하는 부분을 처리하고, 운율 단계에서는 도17 (c)의 발음 표기에 해당하는 음소마다 지속시간, 경계, 휴지기간 등을 결정하며, 음성 처리 단계에서는 도17 (c)의 합성된 오디오 비트스트림을 생성한다. 도17 (c)의 합성 오디오 비트스트림내부에 표현된 TEXT1A, TEXT1B, TEXT1C, TEXT2, TEXT3는 비트스트림 상에 있는 합성 음성을 표현한 것이다. 문서 분석기에서 추출한 영상의 위치 정보는 합성 오디오 비트스트림에 대하여 영상의 재생 시작시간과 정지시간에 대한 위치를 표현한 것으로, 도17의 (c) IMAGE1 이라고 표현된 구간에서 IMAGE1이 재생되고, IMAGE2라는 구간에서 IMAGE2가 재생되도록 동기 정보로 변환된다. 합성되는 글자에 대하여 동기 정보를 할당 방법은 설명하면 다음과 같다. 도17의 (c)에서 TEXT1A이라고 발음되는 구간을 확대하여 설명한다. 입력된 "TEXT1A"은 언어학적 처리단계에서 발음 표기 변환되며, 운율 처리단계에서 도 17의 (c)에 표현된 것처럼 각 음소별로 지속시간, 경계, 휴지기간 등이 결정된다. 각각의 글자에 대한 재생시간은 글자를 구성하는 개별 음소의 지속시간과 경계, 휴지기간을 누적 계산하여, 각각의 글자에 대한 재생 시간을 추출하고, 각 글자의 재생시간을 동기 정보로 할당하거나, 재생시간과 음성신호 처리부에서 음성 합성시에 사용된 샘플링 주파수를 이용하여 바이트 계수 값을 동기정보로 할당한다. 영상(IMAGE1, IMAGE2)에 대한 동기 정보는 합성 오디오 비트스트림에서 이미지가 재생될 위치와 정지될 위치를 나타낸다.

도 18은 영상이나 자막에 대하여 자동 동기 생성기에서 정지영상, 동영상, 자막 등을 오디오 비트스트림에 할당하는 실시예이다. 먼저 합성된 오디오 비트스트림이 b0,b1,b2,b3,b4,b5,b6..b97의 바이트 열로 구성되어 있다. "TEXT1A"라는 발음이 0번째 바이트인 b0로 부터 시작하여 6번째 바이트인 b6의 시작에서 끝난다. 자막에 대한 동기 정보를 바이트 계수값을 이용하여 각 글자에 대해 (시작 바이트, 끝 바이트)으로 할당하면, 각 글자의 동기 정보는 T:(0,1), E:(1,2), X:(2,3), T:(3,4), 1:(4,5), A:(5,6) 처럼 된다. 도면 18에 영상에 대한 동기 정보를 할당한 것을 나타내었다. 글자에 동기 정보를 할당하는 것과 동일한 방법으로 영상에 대하여 IMAGE1:(0,90), IMAGE2:(90,98)로 동기 정보를 할당한다. 만약 "TEXT1A" 발음에 해당하는 음소별 입술 모양이 있다면, 각 음소에 대한 입술모양을 하나의 정지영상으로 간주하여 영상의 동기정보 할당과 동일하게 수행할 수 있다.

이상에서 살펴 본 바와 같이 본 발명은 제한적인 음성합성 방식이나 어휘나 문장 수에 제한 없이 임의의 문장을 합성하는 무제한 음성합성 방식인 TTS(TEXT TO SPEECH CONVERSION SYSTEM) 음성 합성기를 이용하여, 텍스트 문서 또는 텍스트와 배경음악, 효과음지시자, 정지영상/동영상을 포함하는 문서에서 텍스트 정보 또는 배경음악과 효과음을 혼합하여 음성으로 합성하고, 음성 합성에 필요한 정보를 이용하여 다양한 부가 정보를 음성신호에 동기시키며, 합성된 음성 데이터를 재생할 때, 출력되는 음성신호에 맞게 텍스트 및 정지영상/동영상을 컴퓨터 노래 반주기처 럼 음성신호에 정확하게 동기된 데이터를 화면상에 표현하기 위한 것이다.

이와같이 본 발명은 TTS 시스템을 이용하여 압축 음성 비트스트림과 텍스트 또는 압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 것으로, 문자 정보를 이용하여 합성된 음성을 제공하는 UMS : Email Reading, Schedule Reading, 일기 예보, 전자 사전, 교통 정보 제공, 인터넷 신문 Reading, 증권 정보 제공, 자동차 탑재용 인터넷 단말기, 인터넷 쇼핑몰에서 상품 소개, 교포 2 세 한국어 교육 S/W에서 문자, 영상이 음성에 동기되어 LCD를 포함한 OSD 장치에 표현될 수 있다. 그리고 인터넷 상에 존재하는 텍스트나 텍스트와 정지 영상이 복합된 많은 어학용 데이터를 음성합성기를 이용하여 음성 신호를 합성하는 과정에서 본 발명을 이용하여 자동으로 음성 데이터와 동기된 텍스트 정보를 저장하여 어학 학습에 이용하거나 시 낭송, 인터넷 신문, 전자사전 등의 고급화된 컨텐츠를 쉽게 만들 수 있으며, 컴퓨터 노래 반주기 형태의 재생방법을 채택하여 시각적인 효과와 흥미를 높일 수 있다.

또한 사용자가 보유한 텍스트 어학 데이터로 텍스트 및 정지 영상이 음성에 완전히 일치되는 어학 학습 시스템을 구성할 수 있으며, 시화, 인터넷 뉴스, 구연 동화나 토익(toeic), 토플(toefl)등의 문제를 압축 음성 데이터와 완전히 일치하는 텍스트와 정지영상이 포함하는 멀티 미디어 컨텐츠를 용이하게 만들 수 있다. 애니메이션 음성 더빙 처리를 위해 많은 비용과 장비, 인원이 투입되어야 하지만, 본 발명에서 다양한 성우 목소리를 이용하여 DB화시키고, 애니메이션 대본에 정서 부분을 음성 합성시 추가하여 억양, 강세, 경계, 발화 속도, 발화 유형 등을 조절하면서 음성을 합성하면 애니메이션 영상에 음성 신호를 쉽게 동기화할 수 있다. 특히 합성된 디지털 오디오(PCM, WAV, MP3, WMA, OGG, AC-3 등)의 비트스트림에 대하여 영상, 텍스트, 입술 모양의 동기 정보를 비트스트림의 바이트 계수기 값을 할당하면, 재생시에 파일 포인터에 의해 이동하는 값들을 정확히 알 수 있어서 휴대용 기기나 컴퓨터 장치에서 정확한 동기 재생이 가능하다.

Claims

TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어, 입력될 문서정보에서 텍스트와 영상을 분리하고, 텍스트와 영상의 위치를 분석하는 문서분석단계; TTS 시스템을 이용하여 음성합성하는 음성합성단계; 합성된 음성 신호에 효과음을 혼합하는 합성 오디오 생성단계; 합성된 음성신호에 배경음악과 효과음을 혼합하여 새로운 압축 오디오 비트스트림을 생성하고, 디지털 오디오 비트스트림에 자막 캡션이나 정지영상, 동영상, 입술모양 등을 동기시키는 동기화 생성단계; 동기화된 자막 캡션, 정지영상, 동영상, 입술모양 등과 디지털 오디오 비트스트림을 일치시켜 화면에 표현하는 동기화 재생 단계;를 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.
제 1항에 있어서, 동기화 생성단계에서는 압축/무압축 오디오 비트스트림에 해당하는 각 음소 및 정지 영상을 자동으로 동기화시키기 위하여, 비트스트림의 동기화 위치 정보 및 오디오 압축/무압축 알고리즘과 상기의 TTS 시스템에서 추출된 각 음소의 지속시간, 휴지기간 등의 시간 정보를 이용하게 됨을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.
제 2항에 있어서, 동기화 위치 정보는 각 음소나 정지영상의 시작과 끝의 위치에 해당하는 압축/무압축 음성 비트스트림 시작부터의 바이트 값으로 설정하거나, 압축/무압축 비트스트림의 해당 바이트 값와 관련된 연산으로 설정함을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.
제 1항에 있어서, 동기화 생성단계에서는 텍스트 및 정지영상의 동기화 데이터와 압축 음성 비트스트림을 하나의 파일로 구성하거나, 압축/무압축 음성 파일과는 별도의 동기화 데이터로 구성하거나, 압축/무압축 음성 비트스트림 포맷의 내부 프레임 또는 헤더정보를 이용하거나, 압축/무압축 음성비트스트림에 추가되는 ID3 태그에 포함함을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.
제 1항에 있어서, 압축/무압축 오디오 생성단계는 배경음악이나 효과음이 없을 경우 생략될 수도 있음을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.
TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 장치에 있어, 분리된 영상 데이터와 영상의 위치정보를 추출하는 문서 분석기; 문자와 음성 데이터 베이스를 이용하여 음성을 합성하는 음성합성기; 자동으로 동기 정보를 생성 할당하는 동기화 생성기; 동기정보를 입력받아 화면에 출력하는 재생기;의 조합으로 형성됨을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 장치.
제 6항에 있어서, 재생기는 동기 정보 분석 및 데이터 저장 장치, 동기 재생 제어장치, 미디어 재생장치로 구성됨을 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 장치.
TTS 시스템을 포함하는 음성합성기를 이용하여 압축/무압축 음성 비트스트림과 텍스트 또는 압축/무압축 음성 비트스트림과 텍스트 및 정지영상을 자동 동기 생성/재생하는 방법에 있어, TTS 시스템을 이용한 음성합성단계; TTS 시스템을 이용한 합성 오디오 생성단계; TTS 시스템을 이용한 동기화 생성단계; TTS 시스템을 이용한 동기화 재생 단계;를 특징으로 하는 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동 동기 생성/재생 방법.