KR0123845B1

KR0123845B1 - 음성합성 및 인식시스템

Info

Publication number: KR0123845B1
Application number: KR1019940001565A
Authority: KR
Inventors: 이종락
Original assignee: 조백제; 한국전기통신공사
Priority date: 1993-01-30
Filing date: 1994-01-28
Publication date: 1998-10-01
Anticipated expiration: 2014-01-28

Abstract

본 발명은 표준음성정보를 저장하기 위한 메모리의 양을 절감할 수 있고 합성된 음질 및 음성의 인식률을 향상시킬 수 있는 음성합성 및 인식시스템에 관한 것이다. 상기 음성합성 및 인식시스템은 음소의 중점부를 경계로 양분한 반음소데이타가 저장된 메모리를 구비하여 메모리에 저장된 반음소데이타를 디코딩하고 디코딩된 반음소데이타를 연쇄시켜 합성음성신호를 발생하고, 상기 메모리에 저장된 상기 반음소데이타와 상기 음성신호를 비교하여 음성신호에 해당하는 단어, 구, 및 절에 대한 문자열데이타를 발생한다.

Description

음성합성 및 인식시스템

제1a도는 일 예의 한 단어에 대한 음성데이타의 포멧.

제1b도는 제1a도의 음성데이타에 대한 음절데이타의 포멧.

제1c도는 제1a도의 음성데이타에 대한 음소데이타의 포멧.

제1d도는 제1a도의 음성데이타에 대한 다이폰데이타의 포멧.

제1e도는 제1a도의 음성데이타에 대한 반음소데이타의 포멧.

제2도는 본 발명의 실시예에 따른 음성합성시스템의 블럭도.

제3도는 제2도에 도시된 음성단편조합부의 상세블럭도.

제4도는 제3도에 도시된 음성단위선정부의 상세블럭도.

제5도는 제4도에 도시된 제1메모리에 저장된 전후관계에 따른 반음소표.

제6도는 본 발명의 실시예에 따른 음성인식시스템의 블럭도.

제7도는 제6도에 도시된 인식부의 상세블럭도.

* 도면의 주요부분에 대한 부호의 설명

10 : 음성학적 전처리부 12 : 운율발생부

14 : 음성단편조합부 16 : 음성단위선정부

18 : 반음소저장부 20 : 반음소합성부

22 : D-A변환부 24∼36 : 제1∼제7음소버퍼

38 : 쉬프트레지스터 40,42 : 제1, 제2 메모리

44 : A-D변환부 46 : 특징추출부

48 : 반음소데이타저장부 50 : 인식어저장부

52 : 인식부 54,56 : 제1 및 제2 버퍼

58 : 근사치계산부 60 : 최고치판단부

본 발명은 문자정보를 음성신호의 형태로 변환하고 음성신호를 문자정보로 변환하기 위한 음성합성 및 인식시스템에 관한 것으로, 특히 표준음성정보를 저장하기 위한 메모리의 양을 절감할 수 있고 합성된 음질 및 음성의 인식률을 향상시킬 수 있는 음성합성 및 인식시스템에 관한 것이다. 기존의 음성합성시스템 (Text-to-Speech Synthesis System)은 무제한의 어휘를 음성신호의 형태로 변환하기 위하여 연쇄합성 (Synthesis by Concatenation)방식, 포먼트합성 (Formant Synthesis)방식, 및 조음 모델 (Articulatory Model) 방식등을 채택하고 있다.

상기 연쇄합성방식은 사람의 음성을 음절이나 음소와 같은 음성단위로 분할하여 얻은 짧은 음성단편(Speech Segment)들을 코딩하고 상기 코딩된 음성단편들을 메모리에 저장한다.

그리고 상기 연쇄합성방식은 사용자가 입력하는 문자열을 발음기호의 형태로 변환하고 변환된 발음기호에 해당하는 음성단편들을 메모리로부터 순서대로 판독함으로써 합성음성을 발생한다. 그리고 상기 포먼트합성방식은 합성단위에 해당하는 음성단편들로부터 얻어진 포먼트들의 주파수에 관한 데이타가 저장된 메모리를 구비한다. 상기 포먼트 합성방식은 상기 데이타를 이용하여 발음기호열에 해당하는 포먼트 변화함수를 산출하고, 상기 포먼트 변화함수에 따라 주파수가 임의로 가변될 수 있는 포먼트 합성필터를 구동함으로써 합성음성을 발생시킨다.

또한, 상기 조음모델방식은 성도(Vocal Tract)를 수식으로 모델화하고 상기 모델화된 성도를 수식계산함에 의하여 발음기호열을 발음할 때 발생되는 음성신호를 산출한다.

상술한 기존의 음성합성방식에 의하여 합성되는 음성단위(즉, 합성단위)는 음절, 음소 또는 다이폰(Diphone) 등이다. 음성신호로 변환될 문자정보는 자소(letter)들로 구성되고 상기 자소는 궁극적으로 음소로 변환되기 때문에, 음성을 표기하기 위한 가장 자연스럽고 편리한 단위는 음소이다. 상기 음소를 합성단위로 삼을 경우에는 음소의 개수가 언어에 따라 다르지만 20∼40개 정도에 불과하므로 음성합성시스템은 극히 적은 양의 메모리를 필요로 하는 장점을 제공하나, 음소의 음가가 전 및 후에 있는 다른 음소들의 영향을 받아 변하는 조음결합(Coarticulation)현상을 반영할 수 없기 때문에 음절을 저하시키는 문제점을 야기시킨다. 상기 음소를 합성단위로 하는 음성합성시스템은 음질의 저하로 인하여 거의 사용되지 않고 있다.

그리고 음절을 합성단위로 하는 음성합성시스템은 음절 내의 음소간의 조음결합을 반영할 수 있기 때문에 음소를 합성단위로 하는 음성합성시스템에 비하여 향상된 음질의 음성을 제공한다. 반면에 대부분의 언어에 있어서 음절의 수는 음소의 수에 비하여 100배 이상 되기 때문에 음절을 합성단위로 하는 음성합성시스템은 음소를 합성단위로 하는 음성합성시스템에 비하여 많은 양의 메모리를 요구하는 단점을 가진다.

상기 음절을 합성단위로 하는 음성합성시스템의 단점을 해소하기 위하여 다이폰을 합성단위로 하는 음성합성시스템이 제안되었다. 상기 다이폰 음성합성시스템은 연속된 음성중에서 각 음소를 전 및 후의 음소의 영향을 받지 않는다고 생각되는 중앙에서 분할시킬 경우 얻어지는, 두 인접음소간의 천이부분을 기본 합성단위로 삼는다. 다이폰을 합성단위로 하는 경우, 음성합성시스템은 음절을 합성단위로 하는 음성합성시스템에 비해서는 낮으나 비교적 양호한 음질의 음성을 발생한다. 그리고 상기 다이폰 음성합성시스템은 상기 음절을 합성단위로 하는 음성합성시스템에 비하여 훨씬 적은 양의 메모리를 사용하는 장점을 제공한다. 그러나, 상기 다이폰이 인접한 두개의 음소의 조합으로 표현되기 때문에, 상기 다이폰 음성합성시스템은 음소를 합성단위로 하는 음성합성시스템에 비하여 상당히 많은 양의 메모리를 소요하는 단점을 안고 있다.

한편, 음성을 문자열의 형태로 변환하기 위한 음성인식시스템은 패턴합치 (Pattern Matching) 또는 패턴분류(Pattern Classification)라 불리는 음성인식방법을 사용한다. 상기 음성인식방법은 음성신호의 특징파라미터를 추출하고 미리 메모리에 저장된 여러개의 기준음성신호로부터 추출된 기준의 특징파라미터들과 순차적으로 비교하여 가장 비슷한 음성을 선정한다. 그리고 상기 음성인식방법은 선정된 음성에 대한 문자열을 음성인식의 결과로서 출력한다. 또한, 상기 음성인식방법에는 주로 통용되고 있는 은닉 마르코프 모델 (Hidden Markov Model : 이하 HMM 이라 함), 동적시간왜곡(Dynamic Time Warping:이하 DTW라 함), 및 인공신경망(Artificial Neural Network :이하 ANN이라함) 방식이 있다.

상기 음성인식시스템들도, 상기 음성합성시스템들과 마찬가지로, 다이폰, 음절, 또는 음소를 인식단위로 사용하기 때문에 상당히 많은 양의 메모리를 소요하거나 매우 낮은 인식률을 갖는 문제점을 갖고 있다. 실제로, 상기 다이폰을 인식단위로 하는 음성인식시스템은 상기 음절을 인식단위로 하는 음성인식시스템에 비하여 낮은 인식률을 갖는 단점과 적은 양의 메모리를 필요로 하는 장점을 갖는다. 또한, 상기 다이폰을 인식단위로 하는 음성인식시스템은 상기 음소를 인식단위로 하는 음성인식시스템에 비하여 높은 인식률을 갖는 반면에, 상기 음소형 음성인식시스템에 비하여 상당히 많은 양의 메모리를 소요한다는 단점을 갖는다.

따라서, 본 발명의 목적은 합성음성의 음질 및 음성인식률을 향상시킬 수 있고 메모리의 양을 감소시킬 수 있는 음성합성 및 인식시스템을 제공함에 있다.

상기 목적을 달성하기 위하여, 본 발명의 음성합성시스템은 음소 또는 변이음을 선행음소 및 후속음소의 영향을 받지 않는 음소 또는 변이음의 정상상태시점부근에서 양분한 반음소를 음성을 합성하기 위한 기본음성단위로 사용하는 것을 특징으로 한다.

상기 목적을 달성하기 위하여, 본 발명의 음성인식시스템은 음소 또는 변이음을 선행음소 및 후속음소의 영향을 받지 않는 음소 또는 변이음의 정상상태시점부근에서 양분함에 의하여 생성된 반음소로부터 추출한 인식패턴데이타를 음성인식용 기본인식단위로 사용하는 것을 특징으로 한다.

이하, 본 발명을 첨부한 제1a도 내지 제7도를 참조하여 상세히 설명하기로 한다.

먼저, 제1a도 내지 제1e도를 참조하여 본 발명의 음성합성 및 인식시스템에서 이용될 반음소데이타의 포멧을 종래의 음절, 음소 및 다이폰데이타의 포멧과 대비하여 설명하기로 한다.

제1a도에는 국가라는 단어의 음성데이타인 국까가 도시되어 있다. 그리고 제1b도에 도시된 바와 같이, 상기 단어 국가는 국 및 까의 두 개의 음절데이타로 구성된다. 제1c도를 참조하면, 상기 단어 국가는 다섯 개의 음소데이타 (P1∼P5)로 구성되어 있으며, 상기 제1 내지 제5 음소데이타(P1∼P5)들은 ㄱ, ㅜ, ㄱ, ㄲ, 및 ㅏ의 음소를 각각 가진다. 제1a도 내지 제1c도에 있어서, #는 휴지상태를 나타낸다.

제1d도에는 상기 단어 국가의 음성데이타 국까를 다이폰의 단위로 구분한 데이타의 포멧이 도시되어 있다. 상기 음성데이타는 제1 내지 제6의 다이폰 데이타 (D1∼D6)로 구성되어 있다. 상기 다이폰의 기본 개념은 각 음소의 음가가 인접한 전 및 후의 음소의 영향만을 받아 변하기 때문에 인접한 두 음소간의 천이부분을 합성의 기본단위로 하며, 상기 기본단위들을 연쇄적으로 연결시킴으로써 임의의 연속음성을 발생한다. 따라서, 다이폰데이타의 경계부는 각 음소의 중점과 일치하는 것으로 볼 수 있으나 좀 더 엄밀하게 설명하면, 인접한 두 음소의 영향을 받지 않는 정상상태 시점 (Steady State Instance)이 다이폰데이타의 경계부로 된다.

제1e도를 참조하면, 본 발명의 음성합성 및 인식시스템에 의하여 사용될 반음소데이타의 포멧이 설명되어 있다. 상기 반음소데이타의 포멧은 제1∼제10 반음소데이타를 갖는다. 제1c도 및 제1e도를 대비하면, 상기 반음소데이타들은 상기 음소데이타를 음소데이타의 정상상태시점인 중앙부를 기준으로 양분함에 의하여 생성된다. 상기 양분된 반음소데이타들(d1∼d10) 중에서 좌측의 반음소들 (d1,d3,d5,d7,d9)은 전반음소(Initial Demiphone)라 하고, 그리고 우측의 반음소들(d2,d4,d6,d8,d10)은 후반음소(Final Demiphone)라 한다. 그리고 제1d도 및 제1e도를 대비하면, 상기 제1∼제10 반음소데이타(D1∼D10)의 경계부는 상기 제1∼제6 다이폰데이타(d1∼d6)의 경계부와 일치한다. 따라서, 전반음소 및 후반음소들은 음소 및 다이폰데이타를 발생하기 위하여 적절하게 결합될 수 있다. 예를들면, 제1 및 제2 반음소데이타(d1,d2) 그리고 제3 및 제4 반음소데이타(d3,d4)를 각각 결합시키면, 상기 제1 및 제2 음소데이타(P1,P2)가 생성된다. 그리고 제2 및 제3 반음소데이타(d2,d3) 그리고 제4 및 제5 반음소데이타(d4,d5)을 각각 결합시키면, 제2 및 제3 다이폰데이타(D2,D3)가 발생된다. 이와 같이, 반음소데이타가 음소데이타 및 다이폰데이타의 형태로 변환될 수 있기 때문에 반음소를 합성단위로 하는 음성합성 및 인식시스템은 다이폰 음성합성 및 인식시스템과 같이 고음질의 합성음성신호를 발생할 수 있고, 그리고 음소 음성합성 및 인식시스템과 같이 적은 메모리량을 필요로 하게 된다. 이를 다시 설명하면, 다이폰을 합성단위로 하여진 합성음성신호의 음질과 동일한 음질의 합성음성신호를 발생하고자 할 경우, 본 발명에 따른 음성합성시스템은 음소 음성합성시스템보다 많고 다이폰 음성합성시스템보다는 적은 양의 메모리를 소요한다. 상기 메모리의 절감되는 이유를 설명하면 다음과 같다.

설명의 편의상 음소들과 각 음소의 전 및 후에 놓여질 수 있는 음소의 종류를 30가지로 가정하자. 이 경우, 다이폰은 900(30×30)개의 종류를 가진다. 상기 900가지의 종류의 다이폰은 음소가 인접한 음소의 전반부 또는 후반부에만 영향을 미치고 상기 영향이 음소에 따라 다르다는 가정에 기인한다. 그러나, 실제로 한 음소가 인접한 음소로부터 받는 영향은 동일한 조음위치의 음소에 대해서는 동일한 경우가 대부분이다. 예컨대, 한국어의 음소를 조음위치에 따라 분류하면, 자음의 경우에는 순음(Labial), 치음(Dental), 경구개음(Palatal), 연구개음(Velar), 후음(Glottal)의 5가지가 있다. 그리고 모음의 경우에는 전설음(Front), 중설음(Central), 후설음(Back)이 있고, 상기 중설음 및 후설음은 각각 평순음(Flat) 및 원순음(Rounded)으로 분류된다. 결과적으로, 모음은 5가지로 분류된다. 따라서, 다이폰의 전반부인 후반음소 및 다이폰의 후반부인 전반음소의 종류는 각각 300(30×10) 가지로 된다. 반음소의 길이는 음소나 다이폰의 절반정도이므로 필요한 메모리의 양은 300개의 다이폰에 해당한다. 결과적으로 반음소를 합성단위로 하는 음성합성 및 인식시스템의 메모리의 양은 다이폰을 합성단위로 하는 음성합성 및 인식시스템보다 1/3 배로 감소된다.

그리고 반음소를 합성단위로 하는 음성합성 및 인식시스템은 다이폰을 합성단위로 하는 음성합성 및 인식시스템에 비하여 합성음성의 음질을 향상시키고자 할 경우 더욱 효과적이다.

그리고 다이폰 음성합성시스템은 음소가 인접음소의 영향만을 받는다고 가정하고 있으나, 실제로 전후의 여러개의 음소들부터 영향을 받기 때문에, 합성음성의 음질이 만족스럽지 못했다. 조음결합을 충분히 반영하여 인간의 발성과 같은 자연스러운 음성을 합성해내기 위해서는 각 음소의 주위의 많은 음소들의 영향을 고려하는 소위 전후관계 의존단위(Contextdependent unit)를 채택하여야 한다. 한국어의 경우, 인간의 음성과 동일한 합성음성을 발생하기 위하여 각 음소의 선행음소 3개와 후속음소 3개의 영향을 고려하여야 한다고 가정하면, 전후관계에 의존하는 음소의 종류는 약 3천만(30×10⁶) 가지가 된다. 이에 비하여 대부분의 음소, 특히 모음의 전반음소 및 후반음소는 각각 선행음소 및 후속음소들의 영향만을 받으므로 반음소를 합성단위로 할 경우 전후관계에 의존하는 반음소는 6만(30×10³×2)가지의 종류를 갖는다. 전후관계에 의존하는 상기 반음소들을 저장하기에 필요한 메모리의 양은 3만개의 음소를 저장하기에 필요한 메모리의 양에 해당한다. 따라서, 극히 자연스러운 합성음성을 발생하고자 하는 경우, 반음소를 합성단위로 하는 음성합성시스템에 필요한 메모리의 양은 종래의 다이폰 음성합성시스템에 비하여 1/1000로 감소될 수 있다. 실제로는, 각 음소의 전 및 후에 놓일 수 있는 음소의 종류를 제한하는 조건이 적용되기 때문에 필요한 메모리 양은 수천개로 감소되어 다이폰의 경우와 거의 같아진다. 바꾸어 말하자면, 상기 다이폰 음성합성시스템에 소요되는 양의 메모리를 사용한다면, 본 발명의 음성합성시스템은 조음결합현상을 반영한 극히 자연스러운 합성음성을 발생할 수 있게 된다.

제2도를 참조하면, 입력라인(11)으로부터 문자데이타 열을 입력하는 음성학적 전처리부(10)를 구비한 본 발명의 실시예에 따른 음성합성시스템이 설명되어 있다. 상기 음성학적 전처리부(10)는 상기 문자데이타 열의 구문(Syntax)을 분석하여 구문분석데이타를 발생하고, 상기 구문분석데이타에 따른 음운변동규칙을 적용하여 문자데이타열에 대한 발음기호데이타의 열을 발생한다. 그리고 상기 음성학적 전처리부(10)는 상기 발음기호데이타의 열과 상기 구문분석데이타를 음성단편조합부(14) 및 운율발생부(12)에 각각 공급한다. 이와는 달리, 상기 음성학적 전처리부(10)는 상기 음성학적 전처리부(10)는 상기 발음기호데이타의 열과 상기 구문분석데이타를 모두 상기 운율발생부(12)에 공급할 수도 있다.

상기 발음기호데이타를 모두 상기 운율발생부(12)에 공급할 수도 있다. 상기 발음기호데이타열은 음소기호(Phonetic sysbol) 또는 변이음기호(Allophonic symbol)로 구성된다. 상기 문자데이타열은 키보드, 컴퓨터 또는 데이타베이스로부터 상기 입력라인(11)을 경유하여 상기 음성학적 전처리부(10)에 공급된다. 결과적으로, 상기 음성학적 전처리부(10)는 문자데이타열을 발음기호데이타열의 형태로 변환하는 기능을 한다.

그리고 상기 운율발생부(12)는 상기 음성학적 전처리부(10)로부터의 상기 구문분석데이타를 이용하여 발생될 음성의 억양에 대한 억양패턴데이타(Intonation Pattern Date), 발생될 음성의 강약에 대한 강세패턴데이타(Stress Pattern Date), 및 각 음소의 지속시간(Duration)에 관한 데이타를 발생한다. 상기 운율발생부(12)에서 발생된 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타를 음성단편조합부(14)에 공급된다. 이와는 달리, 상기 운율발생부(12)는 통상적으로 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타를 상기 음성학적 전처리부(10)로부터 점선의 입력라인을 경유하여 입력되는 상기 발음기호데이타의 열에 삽입하고 상기 3가지의 운율데이타가 실린 발음기호데이타의 열을 상기 음성단편조합부(14)에 공급할 수도 있다.

또한, 상기 음성단편조합부(14)는 반음소데이타들이 저장된 메모리를 구비하고, 상기 음성학적 전처리부(10)로부터 순차적으로 입력되는 발음기호데이타에 해당하는 상기 반음소데이타들을 상기 메모리로부터 판독한다. 그리고 상기 음성단편조합부(14)는 상기 판독된 반음소데이타들을 상기 운율발생부(12)로부터의 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타에 의하여 상기 판독된 반음소데이타들의 피치, 에너지(세기), 및 지속시간을 조절하여 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타에 상응하는 억양, 강약, 및 발성속도를 갖는 합성음성신호를 발생한다. 상기 음성단편조합부(14)에 의하여 생성된 합성음성신호는 출력라인(13)을 경유하여 송출된다.

이와는 달리, 상기 운율발생부(12)로부터의 3개의 운율데이타가 실린 발음기호데이타의 열을 입력할 경우, 상기 음성단편조합부(14)는 상기 3가지의 운율데이타가 실린 발음기호데이타의 열을 발음기호데아타들과 3가지의 운율데이타로 분리한다. 그리고 상기 음성단편조합부(14)는 상기 메모리로부터 상기 분리된 발음기호데이타들에 해당하는 반음소데이타들을 판독하고 상기 분리된 억양패턴데이타, 상기 분리된 강세패턴데이타, 및 상기 분리된 지속시간데이타에 의하여 상기 판독된 반음소데이타들의 피치, 에너지(강세), 및 주기를 조절하여 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타에 해당하는 억양, 강세, 및 발음속도를 갖는 합성음성신호를 발생한다.

제3도에는 제1입력라인(15)으로부터 발음기호데이타의 열을 입력받는 반음소선정부(16)와, 제2입력라인(18)로부터 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타를 입력받는 반음소합성부(20)를 구비한 제2도에 도시된 음성단편조합부(14)가 도시되어 있다. 상기 반음소선정부(16)는 발음기호데이타에 해당하는 전반음소 및 후반음소의 주소들을 발생하고, 상기 반음소의 주소들을 반음소저장부(18)에 인가한다.

상기 반음소저장부(18)는 음소를 구성하는 전반음소 및 후반음소데이타를 저장하고 있다. 그리고 상기 반음소저장부(18)는 상기 반음소선정부(16)로부터의 상기 반음소의 주소에 해당하는 자체내의 저장영역에 저장된 전반음소 및 후반음소데이타를 판독하고, 상기 판독된 전 및 후반음소데이타를 상기 반음소합성부(20)에 공급한다. 상기 반음소저장부(18)에 저장된 반음소데이타는 실제로 사람에 의하여 발음된 음성샘플을 반음소 단위로 분할하고, 분할된 음성샘플을 코딩함에 의하여 형성된다. 특히, 상기 전반음소데이타는 선행음소와 인접한 현행음소의 경계부근에 존재하는 천이성분만을 포함한다. 그리고 상기 후반음소데이타는 후속음소와 인접한 현행음소의 경계부근에 존재하는 천이성분만을 포함한다.

상기 음소를 형성하는 상기 전반음소 및 후반음소데이타들이 저장된 상기 반음소저장부(18)의 저장영역에 대한 상기 반음소의 주소들은 상기 반음소선정부(16)에 내장된 메모리(도시하지 않음)에 저장된다.

상기 반음소합성부(20)는 상기 반음소데이타의 코딩방식에 따라 여러 가지 형태로 구성된다. 상기 반음소데이타가 선형예측부호화된 경우, 상기 반음소합성부(20)는 상기 반음소저장부(18)로부터 입력되는 전반음소데이타 및 후반음소데이타를 선형예측복호하여 합성음성데이타를 발생한다. 그리고 상기 반음소데이타가 포먼트부호화된 경우, 상기 반음소합성부(20)는 포먼트변화데이타를 갖는 상기 반음소저장부(18)로부터의 상기 반음소데이타에 따라 포먼트 주파수를 변화시키도록 구성된 포먼트 합성필터를 구비한다. 상기 포먼트 합성필터는 상기 반음소저장부(18)로부터의 전반음소데이타 및 후반음소데이타에 의하여 포먼트주파수들과 음원신호의 종류 및 세기를 제어하여 합성음성데이타를 발생한다. 또한, 상기 반음소데이타가 성도의 형태 및 음원에 관한 정보를 갖도록 조음모델링된 경우에 상기 반음소합성부(20)는 상기 반음소저장부(18)로부터의 전반음소데이타 및 후반음소데이타에 포함된 상기 성도의 형태 및 음원정보를 음향학적 연산하여 합성음성데이타를 발생한다. 상기 세가지 합성방식에 있어서, 백색잡음은 합성음성이 무성음인 구간에서 음원신호로써 사용된다. 그리고 합성음성이 유성음인 구간에서는, 인위적인 성문펄스(Glottal Pulse) 또는 임펄스의 열이 음원신호로서 사용된다.

그리고 상기 반음소합성부(20)는 상기 제2입력라인(17)으로부터의 상기 강세패턴데이타 및 억양패턴데이타에 따라 상기 음원신호의 진폭 및 펄스간격을 조절하여 합성음성이 정해진 강세 및 억양을 갖도록 한다. 상기 반음소합성부(20)는 상기 제2입력라인(17)으로부터의 지속시간데이타에 따라 음소의 길이를 결정하는 성도 파라미터들의 시간적 변화율을 조절하여 합성음성이 정해진 발성속도를 갖도록 한다. 또한, 상기 반음소합성부(20)는 내삽법(Interpolation)을 이용하여 인접한 반음소의 성도 파라미터들 간의 변화를 매끄럽게 하여 매끄럽게 연결된 합성음성이 발생되도록 한다. 상기 반음소합성부(20)에 의하여 발생된 합성음성데이타는 디지탈-아날로그(Digital-Analog : 이하D-A라 함) 변환부(22)에 공급된다.

상기 D-A변환부(22)는 상기 반음소합성부(20)로부터의 합성음성데이타를 아날로그신호의 형태로 변환하여 아날로그신호의 형태를 갖는 합성음성신호를 발생한다. 그리고 상기 D-A변환부(22)는 상기 합성음성신호에 포함된 음성대역 이외의 고주파수성분의 잡음신호를 제거하기 위하여 상기 합성음성신호를 저역필터링한다. 또한, 상기 D-A변환부(22)는 상기 저역필터링된 합성음성신호를 전력증폭하고 전력증폭된 합성음성신호를 출력라인(13)을 경유하여 스피커와 같은 음성출력장치쪽으로 송출한다. 이를 위하여, 상기 D-A변환부(22)는 D-A변환기, 저역통과필터, 및 증폭기를 구비한다.

제4도를 참조하면, 입력라인(23)으로부터 발음기호데이타를 입력받기 위한 쉬프트레지스터(38)와 상기 쉬프트레지스터(38)로부터 발음기호데이타의 열을 병렬의 형태로 입력받는 제1메모리(40)를 구비하는 제3도에 도시된 음성단위선정부(16)가 상세히 설명되어 있다. 상기 쉬프트레지스터(38)는 3개의 선행음소 및 3개의 후속음소에 의한 영향을 반영하기 위하여 상기 입력라인(23)에 직렬로 접속된 7개의 음소버퍼(24∼36)를 구비한다. 상기 7개의 음소버퍼(24∼36)는 상기 입력라인(23)으로부터의 음소에 대한 발음기호데이타를 우측의 방향으로 순차적으로 이동시키고, 그리고 상기 7개의 음소버퍼(24∼38)들은 각각 자체내에 저장된 발음기호데이타(P1∼P7)를 상기 제1메모리(40)에 공급한다. 즉, 제4음소버퍼(30)는 현재의 음소에 대한 발음기호데이타(P4)를 저장하고, 제1∼제3음소버퍼(24∼28)는 각각 3개의 후속음소에 대한 발음기호데이타(P1∼P3)를 하나씩 저장하고, 그리고 제5∼제7음소버퍼(30∼36)는 3개의 선행음소에 대한 발음기호데이타(P5∼P7)를 하나씩 저장한다. 그리고 상기 쉬프트레지스터(38)를 구성하는 상기 제1∼제7 음소버퍼(24∼36)로부터 상기 7개의 발음기호데이타(P1∼P7)를 입력받는 상기 제1메모리(40)는 상기 7개의 발음기호데이타(P1∼P7)의 논리값에 해당하는 번지의 저장영역에 저장된 전반음소기호(d_in) 및 후반음소기호(d_fn)를 판독하고, 판독된 전반음소 및 후반음소기호(d_in,d_fn)를 출력한다. 이를 위하여, 상기 제1메모리(40)는, 제5도에 도시된 바와 같이, 7개의 음소에 대한 발음기호데이타(P1∼P7)의 논리값에 따라 배열된 전반음소 및 후반음소기호(d_in,d_fn)들을 갖는 전후관계에 의한 반음소표를 구비한다. 결국, 상기 제1메모리(23)로부터 출력되는 상기 전반음소 및 후반음소기호(d_in, d_fn)는 현재의 음소와 3개의 선행음소 및 3개의 후속음소에 의한 전후관계에 의하여 결정된다. 제5도에 도시된 전후관계에 의한 반음소표에 있어서, 제1 및 제7발음기호데이타(P1,P7)는 돈 캐어로서 작용한다.

예를 들어, 음성합성시스팀이라는 문자열을 음성합성하고자 할 경우, 상기 입력라인(23)에는 / # _ ㅁ ㅅ ㅓ ㅇ ㅎ ㅏ ㅂ ㅅ ㅓ ㅅ ㅣ ㅅ _ ㅌ ㅣ ㅁ # / 이라는 음소들에 대한 발음기호데이타의 열이 제2도에 도시된 음성학적 전처리부(10)로부터 입력된다. 상기 발음기호데이타의 열 중에서 기호 /#/는 휴지상태를 나타내는 발음기호이다. 그리고 그 다음의 음소_에 대한 발음기호데이타는 제1음소버퍼(24)를 거쳐 제7음소버퍼(36)쪽으로 이동된다. 그러나, 상기 제1메모리(40)는, 상기 입력라인(23)에 5개의 발음기호데이타(즉, / # _ ㅁ ㅅ ㅓ/)가 입력되기 전에는, 반음소기호를 출력하지 않는다. 이와는 달리, 상기 입력라인(23)에 5개의 발음기호데이타(즉, / # _ ㅁ ㅅ ㅓ /)가 입력될 경우, 제1메모리(40)는 /_/의 발음기호데이타에 대한 전반음소 및 후반음소기호를 출력한다. 마찬가지로 10번째의 발음기호데이타 /ㅅ/에 대한 전반음소 및 후반음소기호가 상기 제1메모리(40)로부터 출력되기 위해서는 13번째의 발음기호데이타 /ㅅ/ 가 제1음소버퍼(24)에 입력되어야한다. 이를 상세히 설명하면 다음과 같다.

상기 입력라인(23)에 13번째의 발음기호데이타 /ㅅ/이 입력되면, 상기 제1∼제7음소버퍼(24∼36)에는 각각 /ㅎ/, /ㅏ/, /ㅂ/, /ㅅ/, /ㅓ/, /ㅇ/, 및 /ㅅ/의 발음기호데이타가 각각 입력되고, 그리고 상기 제1메모리(40)에도 /ㅎ/, /ㅏ/, /ㅂ/, /ㅅ/, /ㅓ/, /ㅇ/, 및 /ㅅ/의 발음기호데이타들이 동시에 공급된다. 이 때, 현재의 음소는 /ㅅ/이고, 3개의 선행음소는 /ㅎ/, /ㅏ/, 및 /ㅂ/가 되며, 그리고 3개의 후속음소는 /ㅓ/, /ㅇ/, 및 /ㅅ/가 된다. 그리고 상기 제1메모리(40)에서 출력되는 전반음소 및 후반음소기호(d_in,d_fn)는, 제5도에 도시된 표에 의하여 ㅅ_i8,및 ㅅ_f7가 된다.

또한, 상기 반음소선정부(16)는 상기 제1메모리(40)로부터의 전반음소 및 후반음소기호(d_in,d_fn)를 입력하는 제2메모리(42)를 추가로 구비한다. 상기 제2메모리(42)는 상기 전반음소 및 후반음소기호(d_in,d_fn)의 논리값에 해당하는 번지의 저장영역에 저장된 전반음소 및 후반음소의 어드레스를 판독하고, 상기 판독된 전반음소 및 후반음소의 어드레스를 제3도에 도시된 반음소저장부(18)에 공급한다.

상기 제5도에 도시된 상기 전후관계에 의한 반음소표는 실제음성단편의 클러스터링(Clustering)에 의한 방법 또는 음성학적 이론에 의한 방법에 의하여 형성될 수 있다. 상기 음성단편의 클러스터링에 의한 방법은 먼저 영향을 미치는 범위내에 있다고 판단되는 선행음소 및 후속음소를 전후음소 제한조건(Phonotactic constraint)을 고려하여 변화시킨 모든 경우에 대한 각 음소를 사람의 실제음성으로부터 채취한 다음 상기 채취한 각 음소에 대한 음성신호를 양분함에 의하여 전반음소 및 후반음소를 얻는다. 그리고 상기 클러스터링에 의한 방법은 상기 전반음소들 또는 후반음소들을 그들끼리 비교하여 유사한 것끼리 집합화(Clustering)함으로써, 전후관계에 의한 반음소표를 작성한다. 이 경우, 유사한 반음소끼리 집합화하기 위하여, 전반음소 및 후반음소를 시간적 규준화(Time normalization)하고 유사도의 척도(Similarity measure)를 이용하여 자동 또는 수동으로 그룹핑(Grouping)하고, 각 그룹에 포함된 여러개의 전반음소 및 후반음소 중에서 어느 하나를 그 그룹을 대표하는 전반음소 또는 후반음소의 기호로 삼는다. 상기 클러스터링에 의한 방법은 영향을 미치는 최대 범위내의 선행음소 및 후속음소를 변화시킨 모든 경우에 대한 음소의 음성시료를 채취하여야 하기 때문에 채취하여야 할 음성시료의 양이 너무 많은 단점을 안고 있다.

상기 채취하여야 할 음성시료의 양을 대폭적으로 감축하기 위하여, 선행음소 및 후속음소의 수와 종류를 줄이는 다음과 같은 방법이 사용된다.

상기 선행음소 및 후속음소의 수 및 종류를 줄이기 위한 방법은 각 음소에 대해 선행할 수 있는 모든 음소와 후속할 수 있는 모든 음소의 조합을 구하되 현재의 음소로부터 가장 가까운 선행모음 및 휴지음소와 후속모음 및 휴지음소까지의 조합만 취하면 되며, 그 보다 먼 음소는 전후관계에 포함시킬 필요가 없다. 예를 들면, 한국어에 있어서, 현재의 음소가 자음인 경우에 가능한 전후관계의 형태는 (#)C(V), (V)C(#), (V)C(V), (VC)C(V), 및 (V)C(CV)의 5가지 밖에 없다. 즉, 전반음소 및 후반음소는 모두 똑같이 5가지의 형태의 전후관계를 가진다. 여기서 괄호속의 기호는 전후관계(Context)를 나타내고, C는 자음, V는 모음, 그리고 #는 휴지상태를 나타내는 휴지음소를 의미한다. 활음(Glide)은 항상 모음과 동일하게 취급된다. 현재음소가 모음인 경우에 전반음소는 후속음소의 영향을 받지 않으며 후반음소는 선행음소의 영향을 받지 않는다. 따라서, 이 경우에 가능한 전후관계의 형태는 전반음소에서 #(V),(V)V, (#C)V, 및 (VCC)V 의 5가지를 갖고, 그리고 후반음소에서는 V(#), V(V), V(C#), V(CV), 및 V(CCV) 의 5가지를 갖는다. 만일, 이 경우 현재의 모음에 인접한 자음이 경구개음(Palatal)이면 그 자음 바깥의 음소의 영향을 받지 않는다.

한편, 음성학적 이론에 의한 방법에서의 임의의 현재의 음소의 주변음소들을 동일한 영향을 주는 음소의 종류별로 그룹핑(Grouping)함에 의하여 전후관계에 의한 반음소표를 작성한다. 상기 음성학적 이론에 의한 방법은 모음을 전설, 중설, 후설, 원순, 및 평순음의 5가지로 분류하고, 그리고 자음을 순음, 치음, 경구개음, 연구개음, 및 후음의 5가지로 분류한다. 그러나, 상기의 분류는 현재음소의 반음소에 인접한 음소에 대해서는 보다 더 세분되어야 한다. 즉, 현재음소가 모음이고 현재음소의 반음소와 인접한 음소가 모음이면, 모음은 개모음(low)/폐모음(high)의 형태로 다시 구분되어야 한다. 그리고 현재음소가 모음이고 현재음소와 인접한 음소가 자음인 경우, 모음은 현재음소와 인접한 음소가 설측음, 비음, 파열음(또는 파찰음), 마찰음(또는 기식음)인가에 따라 세분되어야 한다. 현재음소가 모음이고 현재음소의 반음소와 인접한 선행의 음소가 자음인 경우에는 상기 인접한 선행의 자음은 유성평음(Voiced plain), 무성평음(Unvoiced plain), 경음(Glottalized), 격음(Aspirated)인가에 따라 세분되어야 한다.

한편, 현재음소가 자음일 경우, 자음은 구성성분에 따라 4가지로 구분될 수 있다. 이를 상세히 설명하면, 자음은 비음(Nasal Murmur)인 경우 원순 및 평순음의 영향을 안 받고, 파열음 및 파열음의 정지갭(Stop gap)은 인접음소의 영향을 받지 않으며, 그리고 마찰음(Frication Noise) /S/ 및 /∫/ 는 전설음 및 후설음의 모음의 영향을 받지 않고, 또한 기식음(Aspiration Noise) /ㅎ/ 은 개모음 및 폐모음의 영향을 받지 않는다. 상기 음성학적 이론에 의한 방법의 일례로서, 한국어의 음소 /ㅅ/에 대하여 전후관계에 의한 반음소를 구하는 과정을 설명하기로 한다.

/ㅅ/은 자음의 음소이므로, 자음 /ㅅ/의 전반음소 및 후반음소는 공히 (V₁)C(V₂), (#)C(V₂), (V₁)C(#), (V₁C₁)C₂(V₂), 및 (V₁)C(C₂V₂)와 같은 4가지의 전후관계 패턴을 갖는다. 상기 V₁및 V₂로서 가능한 모음은 /이/, /에/, /애/, /으/, /아/, /어/, /외/, /오/, 및 /우/ 의 9가지이다. 그리고 상기 V₂의 위치에 사용될 수 있는 활음은 /w/와 같은 원순활음과, /의/의 활음 /j/ 및 /y/와 같은 평순활음의 2가지이다.

상기 자음 /ㅅ/의 다음에 후속하는 활음 /y/ 또는 모음 /이/ 이 후속하면, 상기 자음 /ㅅ/이 항상 /∫/로 변하기 때문에 상기 활음 /y/ 및 모음 /이/는 상기 자음 /ㅅ/의 직후에 쓰여질 수 없다. 그러나, 상기 원리에 의하면, 상기 자음 /ㅅ/의 반음소는 모음의 원순 및 평순음의 영향만을 받으므로 상기 V₁은 /이/, /에/, /애/, /으/, /아/, 및 /어/를 포함하는 하나의 그룹과 /외/, /오/, 및 /우/를 포함하는 그룹으로 분류된다. 반면에, V₂는 /에/, /애/, /으/, /아/, /어/, 및 /의/를 포함하는 그룹과 /외/, /오/, /우/, 및 /w/를 포함하는 그룹으로 나누어진다.

한국어의 전후음소 제한조건에 의하면, 상기 자음 /ㅅ/의 직전에 위치할 수 있는 자음은 /ㄱ/, /ㄷ/, /ㅂ/, /ㅇ/, /ㄴ/, /ㅁ/, 및 /ㄹ/의 7가지이고, 그리고 /ㄷ/이 직후에 위치하는 자음 /ㅅ/ 또는 /ㅆ/에 의하여 /ㅅ/으로 동화되므로 (V₁C₁)C₂(V₂)에서 가능한 C₁은 /ㄱ/, /ㅅ/, /ㅂ/, /ㅇ/, /ㄴ/, /ㅁ/, 및 /ㄹ/이 될 수 있다. 이로 인하여, (V₁C₁)C₂(V₂)에서 가능한 C₂인 /ㅅ/의 전반음소에 대하여 C₁은 /ㄱ/ 및 /ㅇ/으로 이루어지는 그룹, /ㅅ/, /ㄴ/, 및 /ㄹ/ 로 이루어지는 그룹, 그리고 /ㅂ/ 및 /ㅁ/으로 이루어지는 그룹의 세 개의 그룹으로 나누어진다. 그리고 (V₁C₁)C₂(V₂)에서의 C₂(=/ㅅ/)의 후반음소에 대하여 C₁은 영향을 주지 않는다.

마찬가지로, 한국어의 전후음소 제한조건에 의하면, 원래 자음 /ㅅ/은 C₁의 위치에서 사용될 수 없으나 /ㄷ/이 다음에 후속되는 /ㅅ/ 또는 /ㅆ/에 의하여 /ㅅ/으로 동화되는 현상으로 인하여 C₁이 될 수 있다. 이 경우, (V₁)C₁(C₂V₂)에서 가능한 C₂는 /ㅅ/ 및 /ㅆ/이고, 상기 /ㅅ/ 및 /ㅆ/은 조음위치가 같으므로 동일한 그룹에 속한다. 제5도에 도시된 표는 상기 음성학적 이론에 의한 방법에 의하여 작성된 /ㅅ/의 전후관계에 의한 22개의 전반음소와 14개의 후반음소를 예시한다.

제6도에는 입력라인(43)으로부터 음성신호를 입력받는 아날로그-디지탈(Analog-Digital; 이하 A-D라 함) 변환부(44)와, 반음소데이타가 저장된 반음소데이타저장부(48)를 구비한 본 발명의 실시예에 따른 음성인식시스템이 도시되어 있다. 상기 A-D변환부(44)는 상기 입력라인(43)으로부터의 음성신호에 포함된 고주파수성분의 잡음신호를 제거하기 위하여 상기 음성신호를 저역필터링한다. 그리고 상기 A-D변환부(44)는 상기 필터링된 음성신호를 디지탈신호의 형태로 변환하고, 디지탈신호의 형태로 변환된 디지탈 음성데이타를 특징추출부(46)에 공급한다.

상기 특징추출부(46)는 상기 A-D변환부(44)로부터의 디지탈음성데이타를 처리하여 특징 파라미터의 열을 발생한다.

상기 특징추출부(46)에서 발생된 상기 특징파라미터는 단기간 음성에너지(Short-term energy), 단기간 음성에너지의 차신호(Differenced short-tern energy), 및 음성스펙트럼을 나타내는 필터뱅크(Filter bank)의 출력에너지를 포함한다. 상기 특징파라미터는 상기 필터뱅크의 출력에너지의 대신에 선형예측계수(Linear prediction coefficient), 반사계수(Reflection ciefficient), 대수면적비(Log area ratio), 또는 켑스트럼(Cepstrum)계수를 포함할 수 있다. 상기 반음소데이타저장부(48)에 저장된 상기 반음소데이타는 제4도와 같은 반음소선정부(18)에 의하여 전후관계를 반영한 반음소에 대한 특징파라미터, 인공신경망모델의 가중치, 또는 음성스펙트럼의 상태점유확률 및 상태간전이확률을 갖는다. 상기 반음소데이타를 구성하는 특징파라미터는 그대로 부호화될 수 있으나, 흔히 벡터양자화함에 의하여 작성된다.

상기 반음소데이타를 형성하는 상기 음성스펙트럼의 상태점유확률 및 상태간 천이확률는 인식단계 이전에 각 반음소를 마르코프모델링(Markov-Modelling)하고, 각 반음소에 해당하는 다수의 음성시료들로부터 음성스펙트럼을 나타내는 특징을 추출하고, 그리고 상기 음성스펙트럼을 나타내는 특징을 통계학적으로 처리함에 의하여 생성된다.

또한, 상기 반음소데이타를 형성하는 상기 인공신경망모델의 가중치는 인식단계 이전에 반음소에 대한 다수의 음성시료로부터 특징파라미터들을 추출하고 상기 추출된 특징파라미터들을 인공신경망의 학습방법을 이용하여 학습시킴에 의하여 발생된다.

상기 음성인식시스템은 상기 특징추출부(46)의 출력데이타를 입력받는 인식부(52)와, 인식어들이 저장된 인식어저장부(50)를 추가로 구비한다. 상기 인식어저장부(50)에 저장된 인식어는 단어, 구, 및 문장의 문자열에 대한 문자데이타와, 상기 단어, 구, 및 문장을 표현할 수 있는 반음소들의 열에 대한 어드레스의 열을 가진다. 상기 반음소들의 열에 포함된 반음소들은 전후관계가 반영되어 있다. 상기 전후관계가 반영된 반음소들은 제4도에 도시된 반음소선정부(16)에 문자열들에 대한 발음기호데이타의 열을 공급함에 의하여 생성된다. 그리고 상기 인식어저장부(50)은 인식어가 변경 또는 추가될 경우, 새로운 인식어들이 저장된 롬(ROM) 또는 비휘발성 메모리로 교체 될 수 있다.

상기 인식어저장부(50)는, 상기 인식부(52)로부터 인식어어드레스가 인가될 경우, 상기 인식어어드레스에 해당하는 저장구역에 저장된 상기 문자 열데이타 및 반음소어드레스의 열을 판독한다. 그리고 상기 인식어저장부(50)는 상기 판독된 문자열데이타를 상기 인식부(52)에 공급하는, 한편 상기 반음소어드레스의 열을 상기 반음소저장부(48)에 공급한다. 그러면, 상기 반음소데이타저장부(48)는 상기 인식어저장부(50)로부터 순차적으로 인가되는 반음소어드레스에 해당하는 저장영역에 저장된 반음소데이타를 순차적으로 판독하고 상기 판독된 기준반음소데이타를 상기 인식부(52)에 공급한다.

상기 인식부(52)는 패턴매칭방법으로 상기 특징추출부(46)의 출력을 상기 인식어저장부(50)에 저장된 모든 인식어에 대한 반음소데이타의 열들과 비교하기 위하여 상기 인식어저장부(50)에 인가될 인식어어드레스의 논리값을 제일 논리값에서부터 제일 큰 논리값까지 순차적으로 증가시킨다. 그리고 상기 인식어어드레스의 논리값이 변경될 때마다, 상기 인식부(52)는 상기 특징추출부(46)의 출력데이타와 상기 반음소저장부(48)로부터 순차적으로 공급되는 상기 반음소데이타의 열을 비교하여 근사도를 산출한다. 또한, 상기 인식부(52)는 자체내에 보관된 이전의 근사도를 현재의 근사도와 비교한다. 상기 현재의 근사도 보다 이전의 근사도가 큰 경우, 상기 인식부(52)는 상기 현재의 근사도 및 상기 인식어저장부(50)로부터의 문자열대신에 이전의 근사도 및 문자열을 보관한다. 이와는 달리, 상기 현재의 근사도가 이전의 근사도보다 큰 경우에 상기 인식부(52)는 보관되어 있는 이전의 근사도 및 문자열 대신에 현재의 근사도 및 상기 인식어저장부(50)으로부터의 문자열을 보관한다.

또한, 상기 인식부(52)는 상기 특징추출부(46)의 출력데이타가 상기 인식어저장부(50)에 저장된 모든 인식어들에 대한 반음소데이타의 열들과 비교하는 것이 완료되었을 때, 최종적으로 보관된 문자열을 음성인식의 결과로서 출력라인(45)을 경유하여 출력장치(도시하지 않음)쪽으로 송출한다. 상기 출력장치로는 모니터 또는 프린터 등이 사용될 수 있다.

제7도를 참조하면, 입력라인(54)으로부터 제6도에 도시된 특징추출부(46)의 출력데이타를 입력받는 제1버퍼(54)와, 그리고 상기 반음소데이타저장부(48)로부터의 반음소데이타의 열을 입력받는 제2버퍼(56)를 구비하는 제6도에 도시된 인식부(52)가 상세하게 설명되어 있다. 상기 제1버퍼(54)는 상기 특징추출부(46)의 출력데이타가 상기 인식어저장부(50)에 저장된 모든 인식어와 판독되는 시간동안 보관한다. 그리고 상기 제2버퍼(56)는 상기 반음소데이타저장부(48)로부터의 상기 반음소데이타의 열을 일시 보관한다.

상기 인식부(52)는 상기 제1 및 제2 버퍼(54,56)으로부터 상기 특징추출부(46)의 출력데이타 및 상기 반음소데이타의 열을 입력받는 근사도계산부(58)를 추가로 구비한다. 상기 근사도계산부(58)는 상기 특징추출부(46)의 출력데이타와 상기 반음소데이타의 열과의 근사도를 산출하고, 그리고 산출된 근사도를 최고치판단부(60)에 공급한다. 상기 최고치판단부(60)는 상기 근사도계산부(58)로부터의 현재의 근사도를 자체내에 보관된 이전의 근사도와 비교한다. 상기 현재의 근사도보다 상기 이전의 근사도가 큰 경우, 상기 최고치판단부(60)는 상기 현재의 근사도를 무시하고 상기 인식어저장부(50)에 공급될 상기 인식어어드레스의 논리값을 1 만큼 증가시킨다. 반대로, 상기 현재의 근사도가 상기 이전의 근사도보다 큰 경우, 상기 최고치판단부(60)는 보관중인 이전의 근사도 및 문자열의 대신에 상기 현재의 근사도 및 상기 인식어저장부(50)로부터의 문자열을 보관한다. 그리고 상기 최고치판단부(60)는, 상기 인식어어드레스가 최고의 논리값을 갖을 경우, 자체내에 보관된 문자열을 음성인식결과로서 출력라인(45)를 경유하여 출력장치쪽으로 송출한다.

상술한 바와 같이, 본 발명의 음성합성시스템은 음절, 음소, 및 다이폰보다 작은 반음소를 음성의 합성단위로 하여 음성합성용 단위음성을 저장하기 위한 메모리의 양을 절감할 수 있는 이점을 제공한다. 그리고 본 발명의 음성합성시스템은 반음소에 음소의 전후관계를 반영하여 합성음성의 음질을 향상시킬 수 있는 이점을 제공한다.

또한, 본 발명의 음성인식시스템도 음절, 음소, 및 다이폰 보다 작은 음성단위의 반음소를 비교용 인식단위데이타로 사용하여 비교용 인식단위데이타를 저장하기 위한 메모리의 양을 절감할 수 있도록 하는 이점을 제공한다. 더 나아가, 본 발명의 음성인식시스템은 반음소데이타에 음소의 전후관계를 반영하여 음성의 인식률을 향상시킬 수 있는 이점을 제공한다.

Claims

음소 또는 변이음을 선행음소 및 후속음소의 영향을 받지 않는 음소 또는 변이음의 정상상태시점부근에서 양분한 반음소를 음성을 합성하기 위한 기본음성단위로 사용하는 것을 특징으로 하는 음성합성시스템.
제1항에 있어서, 상기 반음소가 선행음소 또는 후속음소와 인접한 음소 또는 변이음의 경계부에 존재하는 천이성분으로 구성된 것을 특징으로 하는 음성합성시스템.
단어, 구, 및 절에 대한 문자열데이타의 구문을 분석하여 구문분석데이타를 발생하고, 상기 구문분석데이타에 따른 음율변동규칙에 의하여 상기 문자열데이타를 발음기호데이타의 형태로 변환하는 음성학적 전처리수단과, 상기 음성학적 전처리수단으로부터의 상기 구문정보데이타에 의하여 음성의 억양을 조절하기 위한 억양패턴데이타, 음성의 강약을 조절하기 위한 강세패턴데이타, 및 음소의 지속시간을 조절하기 위한 지속시간데이타를 발생하는 운율발생수단과, 음소의 중점부를 경계로 양분한 전반음소 및 후반음소데이타가 저장된 반음소저장부와, 상기 음성학적 전처리수단으로부터의 상기 발음기호데이타에 해당하는 적어도 1개이상의 상기 전반음소 및 후반음소데이타를 상기 반음소저장부로부터 판독하고, 상기 판독된 전반음소 및 후반음소데이타들을 디코딩하여 음성신호를 합성하고, 그리고 상기 운율발생수단으로부터의 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타에 의하여 상기 합성된 음성신호의 억양, 강약, 및 발음속도를 조절하는 음성단편조합수단을 구비한 것을 특징으로 하는 음성합성시스템.
제3항에 있어서, 상기 음성단편조합수단이, 상기 음성학적 전처리수단으로부터의 발음기호데이타가 포함하는 음소들에 해당하는 전반음소 및 후반음소들을 선정하고, 상기 선정된 전반음소 및 후반음소들에 대한 반음소데이타들이 저장된 상기 반음소저장부의 저장구역에 대한 어드레스들을 발생하고, 그리고 상기 반음소데이타들에 대한 어드레스들을 상기 반음소저장부에 공급하는 음성단위선정수단과, 상기 반음소저장부로부터 판독되는 상기 반음소데이타들을 디코딩하여 음성신호를 합성하고, 상기 운율발생수단으로부터의 상기 억양패턴데이타, 강세패턴데이타, 및 지속시간데이타에 의하여 상기 합성된 음성신호의 억양, 강약, 및 발음속도를 조절하는 반음소합성수단과, 상기 반음소합성수단으로부터의 합성음성데이타를 아날로그신호의 형태를 갖는 합성음성신호로 변환하는 D-A변환수단을 구비한 것을 특징으로 하는 음성합성시스템.
제4항에 있어서, 상기 음성단위선정수단이, 상기 음성학적 전처리수단으로부터의 기수개의 음소에 대한 발음기호데이타를 저정하기 위한 쉬프트레지스터와, 인접음소와의 전후관계에 따른 반음소표를 저장하여, 상기 쉬프트레지스터로부터의 상기 기수개의 음소에 대한 발음기호데이타의 논리값에 의하여 인접 음소와의 전후관계에 따른 한 음소에 대한 전반음소 및 후반음소기호를 발생하는 제1메모리와, 상기 제1메모리로부터의 상기 전반음소 및 후반음소기호에 대한 반음소데이타가 저장된 상기 반음소저장부의 저장구역들에 대한 어드레스들을 발생하고, 상기 발생된 어드레스들을 상기 반음소저장부에 인가하는 제2메모리를 구비한 것을 특징으로 하는 음성합성시스템.
제5항에 있어서, 상기 쉬프트레지스터가 3개의 선행음소 및 3개의 후반음소로부터의 영향을 반영할 수 있도록 7개의 음소버퍼를 구비한 것을 특징으로 하는 음성합성시스템.
제5항에 있어서, 상기 전후관계에 따른 반음소표가, 선행음소 및 후속음소를 전후음소 제한조건에 따라 변환시킨 경우에 대한 각 음소의 음성시료를 채취하고, 상기 채취된 음성시료를 전반음소 및 후반음소로 양분하고, 그리고 상기 전반음소 및 후반음소를 유사한 것끼리 각각 분류함에 의하여 작성된 것을 특징으로 하는 음성합성시스템.
제5항에 있어서, 상기 전후관계에 따른 반음소표는 반음소와 인접한 선행 및 후속모음을 전설, 중설, 및 후설음 그리고 원순 및 평순음인가에 따라 분리하고, 상기 반음소가 모음 및 활음인 경우에 상기 분류된 선행 및 후속모음을 개모음 및 폐모음으로 세분하고, 상기 반음소와 인접한 선행 및 후속자음을 순음, 치음, 경구개음, 연구개음, 후음으로 분류하고, 상기 분류된 선행 및 후속자음을 상기 반음소가 설측음, 비음, 파열음, 및 기식음인가에 따라 세분하고, 그리고 상기 세분류된 선행자음을 상기 반음소가 유성평음, 무성평음, 경음, 및 격음인가에 따라 다시 세분함에 의하여 작성된 것을 특징으로 음성합성시스템.
제8항에 있어서, 상기 전후관계에 따른 반음소표는, 자음 및 비음인 반음소가 인접한 원순음 및 평순음의 영향을 받지 않도록하고, 자음 및 파찰음인 반음소가 인접한 전설음 및 후설음의 영향을 받지 않도록 하고, 파찰 및 파열음의 정지갭을 갖는 자음의 반음소는 인접한 음소의 영향을 받지 않도록 하고, 그리고 자음 및 기식음의 반음소가 인접한 개모음 및 폐모음의 영향을 받도록 작성된 것을 특징으로 하는 음성합성시스템.
음소 또는 변이음을 선행음소 및 후속음소의 영향을 받지 않는 음소 또는 변이음의 정상상태시점부근에서 양분함에 의하여 생성된 반음소로부터 추출한 인식패턴데이타를 음성인식용 기본인식단위로 사용하는 것을 특징으로 음성인식시스템.
제10항에 있어서, 상기 인식패턴데이타는 상기 반음소 음성시료로부터 특징파라미터를 추출하고 추출된 특징파라미터를 코딩함에 의하여 생성된 것을 특징으로 하는 음성인식시스템.
제10항에 있어서, 상기 인식패턴데이타는 반음소 음성시료를 모델링하고, 상기 음성모델로부터 추출한 특징파라미터를 포함하는 것을 특징으로 하는 음성인식시스템.
음성신호를 디지탈신호의 형태로 변환하기 위한 A-D변환수단과, 상기 A-D변환수단으로부터의 디지탈음성데이타로부터의 음성의 특징 파라미터들을 추출하는 특징추출수단과, 특징파라미터를 갖는 반음소데이타가 저장된 반음소데이타저장부와, 단어, 구, 및 절에 대한 문자열데이타 및 상기 문자열에 대한 반음소데이타들이 판독될 수 있도록 상기 반음소데이타저장부에 인가될 어드레스들을 갖는 다수의 인식어가 저장된 인식어저장부와, 상기 특징추출수단으로부터의 특징파라미터들을 상기 인식어저장부에 저장된 상기 다수의 인식어들에 대한 상기 반음소데이타저장부로부터의 반음소데이타들과 순차적으로 비교하여 최고의 근사값을 값는 인식어의 문자열을 선택하는 인식수단을 구비한 것을 특징으로 하는 음성인식시스템.
제13항에 있어서, 상기 반음소저장부에 저장된 반음소데이타는 선행음소 및 후속음소로부터의 영향을 반영한 음소의 음소시료로부터 추출된 특징파라미터를 갖는 것을 특징으로 하는 음성인식시스템.
제14항에 있어서, 상기 반음소데이타에 포함된 특징파라미터가 단기간 음성에너지, 상기 단기간음성에너지의 차, 필터뱅크의 출력에너지, 및 반사계수를 포함하는 것을 특징으로 하는 음성인식시스템.
제15항에 있어서, 상기 인식어저장부는 인식대상어휘의 변경 및 증가될 경우에 새로운 인식어들이 저장된 메모리장치로 교체될 수 있도록 된 것을 특징으로 하는 음성인식시스템.
제13항에 있어서, 상기 반음소데이타저장부에 저장된 반음소데이타가 반음소에 대한 특징 파라미터의 가중치를 갖는 것을 특징으로 하는 음성인식시스템.
제13항에 있어서, 상기 반음소데이타저장부에 저장된 반음소데이타가 마르코프 모델링된 반음소에 대한 음성스팩트럼의 점유분포 및 상태간전이분포값을 갖는 것을 특징으로 하는 음성인식시스템.