KR960024888A

KR960024888A - 다이폰 단위를 이용한 엘에스피 (lsp) 방식의 음성 합성 방법

Info

Publication number: KR960024888A
Application number: KR1019940036104A
Authority: KR
Inventors: 이승훈; 강동규; 한민수
Original assignee: 양승택; 재단법인 한국전자통신연구소; 조백제; 한국전기통신공사
Priority date: 1994-12-22
Filing date: 1994-12-22
Publication date: 1996-07-20
Also published as: KR0134707B1

Abstract

본 발명은 한국어 문자를 음성으로 합성하는 방법에 대한 것으로서, 음성을 다이폰 단위로 세분하여 합성 데이타베이스로부터 파라미터를 가져와서 LSP합성방식으로 음성으로 변환하는 방법이다. 본 발명에 사용한 특징으로는 다이폰 단위로의분류와 결합을 효율적으로 세분화하였으며 합성 데이타베이스를 구성하는 경우 각각의 다이폰에 대해서 특수한 경계표시를 하였다. 각각의 경계표시는 다이폰의 유형에 따라서 서로 다른 의미를 가지며 합성단위들을 결합하는 경우 길이의 조절과 결합이 용이하도록 구성하였다. 또한 음성합성기술의 관건은 합성음의 품질이므로 LSP 합성필터의 음원으로 수정된LF 모델과 리지쥬얼(residual)신호를 사용하여 자연성과 명료성을 높이고자 하였다.

본 발명은 현재 늘어가는 정보 통신 서비스와 연결될 경우 합성기술을 이용한 정보검색의 급증으로 새로운 정보제공 기술의 증진을 가져오는 효과를 가진다.

Description

다이폰 단위를 이용한 엘에스피(LSP) 방식의 음성 합성 방법

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

Claims

완성형으로 표현이 가능한 한국어 문자를 입력받아 전달하는 문자 입력수단(1)과, 상기 문자 입력수단(1)으로 부터 입력된 문자를 전달받아 음성 합성 알고리즘을 수행하는 중앙처리 수단(2)과, 합성 알고리즘에 사용되는 다이폰 단위로 구성된 파라미터를 저장하고 있으며, 상기 중앙처리 수단(2)으로 필요한 파라미터들을 전송하는 합성 데이타베이스(3)와, 상기 중앙처리수단(2)에서 합성이 끝난 디지탈 데이타를 아날로그로 변환하여 외부로 합성음을 출력하는 디지탈/아날로그 변환기(4)를 포함한 장치에 적용되는 음성합성 방법에 있어서, 문자 입력수단(1)을 통해 입력되는 완성형 문자를 변환테이블을 이용하여 3바이트의 내부 코드로 변환하는 한글처리 과정후 알파벳, 숫자 및 제한된 약어처리과정을 수행하는 제 1단계와, 경계분석 및 숨쉬기 처리과정을 통해 운율제어정보를 생성하고, 발음 규칙처리 과정을 통해 한국어의 음운규칙을 적용하여 소리나는 형태의 발음기호열을 생성하는 제 2단계와, 상기 제 2단계에서 생성한 기호열을 이용하여 우선 음소의 길이조절을 수행하는 제3단계와, 상기 제 3단계의 수행결과에 따라 3바이트(byte) 형태로 구성된 각각의 음절을 합성 데이타베이스에 정의된 다이폰 유형으로 변환(160)하는 제 4단계와, 생성된 다이폰들의 인덱스를 이용하여 합성데이타베이스로 부터 파라미터를 가지고 온 후, 인접단위 사이에서 LSP 파라미터의 선형보간 및 에너지 가중치를 이용한 에너지 조절을 수행하는 제 5단계와, 문장의 구조, 의미, 감정등에 대한 정보를 표현하는 기본주파수를 경계분석정보를 이용하여 결정하는 운율제어를 수행하는 제 6단계와, 상기 제 6단계를 거쳐 생성된 합성 파라미터를 이용하여 음성을 합성하는 제7단계를 포함하는 것을 특징으로 하는 음성합성 방법.
제 1항에 있어서, 상기 제 3단계에서의 길이조절은 입력받은 각각의 발음기호열에 대해서 단어, 구, 절,문장의 경계분석정보와 실험적으로 정한 음소의 최소지속시간과 고유지속시간을 기준으로하여 음절, 음소 순서로 결정하도록 한 것을 특징으로 하는 음성 합성 방법.
제 1항에 있어서, 상기 제 6단계에서의 운율제어는, P(t)= Pb-(Pb-Pa)*((Tb-t)/(Tb-Ta))**2, Ta〈=tTb, P(t)= Pc, Tb〈=tTc, P(t)=Pb-(Pb-Pd)*((t-Tc)/(Td-Tc))**2, Tc〈=t〈Td이고, Pa, Pb, Pc, Pd는 상수인 이차함수 P(t)를 사용하여 구현한 것을 특징으로 하는 음성 합성 방법.
제 1항에 있어서, 상기 제 7단계에서의 음성합성은 12차 올 폴(all-poll) LSP필터와 디지탈로 표현된 합성음을 아날로그로 변환하는 D/A 변환기(4)를 이용하여 합성하도록 한 것을 특징으로 하는 음성 합성 방법.
제 1항에 있어서, 상기 제 5단계에서 합성데이타 베이스로 부터의 파라미터는 피치, 에너지 가중치, LSP파라미터, 리지쥬얼(residual)신호로 구성한 것을 특징으로 하는 음성 합성 방법.
제 4항에 있어서, 상기 제 7단계에서의 음성합성은 음원으로 수정된 LF모델과 리지쥬얼(residual)신호를사용하여 수행하는 것을 특징으로 하는 음성 합성 방법.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.