KR0134158B1 - 음성인식장치 - Google Patents
음성인식장치Info
- Publication number
- KR0134158B1 KR0134158B1 KR1019940007784A KR19940007784A KR0134158B1 KR 0134158 B1 KR0134158 B1 KR 0134158B1 KR 1019940007784 A KR1019940007784 A KR 1019940007784A KR 19940007784 A KR19940007784 A KR 19940007784A KR 0134158 B1 KR0134158 B1 KR 0134158B1
- Authority
- KR
- South Korea
- Prior art keywords
- duration
- recognition
- speech
- syllable
- recognition unit
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 4
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims 1
- 235000013555 soy sauce Nutrition 0.000 claims 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 description 19
- 239000012536 storage buffer Substances 0.000 description 15
- 239000000872 buffer Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 101150027973 hira gene Proteins 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
표준음성학습시에 지속시간 학습회로에 의해서 각각의 인식단위의 지속시간 사이의 관계를 얻고 음성인식시에 우선 음성구간검출회로에 의해 입력음성의 시작과 종단을 검출하고 다음에 상호관계와 입력음성구간길이를 사용하여 입력음성에 인식단위의 지속시간을 예측한다. 다음에 정합수단에 의해서 인식단위가 예측값 부근의 지속시간을 가지도록 산출된 예측값을 사용하여 표준음성과 입력음성을 정합한다.
Description
제1도는 본 발명의 실시예에 의한 음성인식장치를 도시한 블록도.
제2도는 본 발명의 실시예에 의한 지속시간학습회로를 도시한 블록도.
제3도는 본 발명의 다른 실시예에 의한 지속시간학습회로를 도시한 블록도.
제4도는 본 발명의 실시예에 의한 음성인식장치를 도시한 블록도.
제5도는 음성파형과 종래방법의 부정확한 인식결과와 본 발명의 정확한 인식결과를 도시한 그래프.
*도면의 주요 부분에 대한 부호의 설명*
1 : 음성입력단자2 : 분석회로
3 : 음성구간검출회로4 : 단어표준음성작성회로
5 : 음절지속시간예측회로6 : 구간정합/결정회로
7 : 정합회로8 : 인식결과 출력단자
9 : 음절표준음성작성회로10 : 지속시간학습회로
11 : 단어사서12 : 음절표준음성보관버퍼
13 : 지속시간학습결과보관버퍼14 : 버퍼메모리
15 : 스위치21 : 단어표준음성작성회로
22 : 지속시간예측회로23 : 정합회로
24 : 오차산출회로25 : 결과평가회로
101 : 지속시간카운터102 : 평균지속시간산출회로
103,106 : 대음성구간전장비산출회로104 : 가중가산회로
105 : 학습음성지속시간산출회로
본 발명은 음성인식장치에 관한 것이다.
화자가 특정되지 않은 음성인식장치에 대한 인식기술은 이 음성자치가 10개~20개의 단어에 불과한 소어휘 뿐만 아니라 100~1000개의 단어로 이루어진 대어휘를 가지는 정도에까지 진전되고 있다. 소어휘 단어인식에서는 표준음성을 학습할 때에 대부분의 학자는 전체어휘를 발성한 다음에 이들 어휘전체를 하나의 인식단위로 인식한다. 그러나 연속적으로 발성하는 다수의 언어를 인식하는 대어휘 단어인식이나 연속적인 음성인식에서는 상기한 종류의 학습을 행하면 언어의 어휘에 대한 유용한 학습이 어렵게 된다. 따라서 대어휘인식과 연속적인 음성인식의 학습과정에서 어휘, 즉 단어 연결된 단어 또는 문장이 작은구간 즉 음절이나 음소(phoneme)등으로 분할되고 인식단위로서 각 구간에 대해서 학습을 행한다.
인식시에 인식단위마다 인식결과를 연속적으로 연결함으로써 단어에 대한 인식결과를 행하는 방법이 채택되고 있다. 이와같이 적어도 하나의 인식단위를 포함하는 어휘세트만을 발성함으로써 학습이 가능하도록 학습시에 모든 단어를 발성할 필요는 없다.
다음 기술문헌에 상기 내용이 상세하게 기재되어 있다.
·나카쯔요시히라, 코오타마사끼:「VCV음절을 단위로한 단어음성의 인식」, 일본국 전자정보통신학회 논문지, Vol, J61-A No. 55 pp 464-471(1978.5)
·오쿠토요시히사, 하시모토야스히데, 나카가아세이이찌:「구문해석구동형 일본어음성이해시스템」, 일본국 전자통신학회기술보고서, SP88-87 pp 55-62(1988)
그러나 상기한 종래기술문헌의 예에서는 표준음성이 단어단위보다는 음절단위에 대응하기 때문에 단어의 범위내에서 각각의 음절 사이의 관계에 대한 정보가 음절기준음성에 반영되지 않고 이에 대해서 단어기준음성으로 정보가 반영된다. 예를 들면, 음절지속기간에 대한 정보는 각각의 음절사이의 관계를 반영하지 않는다. 따라서 동일단어내에서 음절마다 정합구간이 불균일하고 부자연스러운 경우에도 거리값이 작으면 오차를 포함한 인식을 출력한다.
제5도에 도시한 바와같이, (a)는 음성파형을 나타내고, (b)는 음절인식단위를 사용하는 종래의 인식 방법에 의해 출력되는 kyo ba si e ki wa tu ka e ma su ka로 된 부정확한 인식결과를 나타낸다. 상기한 바와같은 종래방식은 음절지속시간관계를 사용하지 않기 때문에 제2의 e는 부자연스러운 긴지속기간을 가지고 인식결과는 부정확한 인식으로 출력된다.
한편 이하에 설명하는 바와 같은 음절인식단위와 지속관계를 사용한 본 발명의 인식방법에 의해 출력되는 kyo ba si e ki no ti ka ku ni a ri ma su k로 된 정확한 인식결과를 나타낸다. 부자연스러운 지속기간과 부자연스러운 음절정합구간이 없다.
본 발명의 목적은 미리 인식단위마다 지속시간 사이의 관계를 구하고 이와같은 구한 관계와 입력음성의 길이를 사용하여 인식단위의 지속시간을 예측한 다음에 이 예측값을 사용하여 각각의 인식단위사이의 관계를 고려한 정합구간을 설정하고 단어내에 있는 각 음절에 대한 정합구간이 현실적인 때에 정합결합만을 선택함으로써 보다 큰 효과를 달성할 수 있는 음성인식장치를 제공하는데 있다.
상기한 목적을 달성하기 위하여 본 발명에 의한 음성인식장치는 입력의 시작과 끝을 검출하는 음성구간검출회로와 인식단위의 지속시간에 영향을 주는 요인을 사용하여 인식단위의 지속시간 사이의 관계를 산출하는 지속시간학습회로와 인식단위의 산출지속시간과 입력음성에 대한 검출음성주기 사이의 관계를 사용하여 입력음성에 대한 각각의 음성인식단위의 지속시간을 예측하는 지속시간예측회로와 예측된 지속시간을 사용하여 인식결과를 정합하거나 결정하는 정합회로로 구성된다.
상기 종류의 구성을 사용함으로써 동 단어내의 각 음절의 정합구간이 현실적인 경우에만 인식후보로서 성립하고 고성능의 음성인식장치의 실현이 가능하게 된다.
청구범위 제1항 내지 제7항에 따른 제1실시예에 대하여 도면을 참조하면서 이하 설명한다.
제1도는 본 발명의 청구범위 제1항 내지 제7항에 따른 실시예에 의한 단어음성인식장치의 블록도이다. 제1도에서 (1)은 음성입력단자이고 (2)는 분석회로이고 (3)은 음성구간검출회로이고, (4)는 단어표준음성작성회로이고, (5)는 음절지속시간예측회로이고, (6)은 정합구간의 판정회로이고, (7)은 정합회로이고, (8)은 인식결과출력단자이고, (9)는 음절표준음성작성회로이고, (10)은 지속시간학습회로이고, (11)은 단어시서이고 (12)는 음절표준음성보관버퍼이고, (13)은 지속시간 학습결과보관버퍼이고, (14)는 버퍼메모리이고, (15)는 스위치이다. 또한 청구범위 제4항의 지속시간학습회로(10)은 본 발명의 청구범위 제5항의 지속시간 학습회로와 상이하다. 제2도는 본 발명의 청구범위 제4항에 대한 실시예에 의한 지속시간학습회로의 상세도이다. 제2도에서 (101)은 지속시간카운터이고, (102)는 평균지속시간산출회로이고, (103)은 대음성구간 전장비산출력회로이고, (104)는 가중가산회로이다. 제3도는 본 발명의 청구범위 제5항에 대한 실시예에 의한 지속시간학습회로 (10)의 상세도이다. 제3도에서 (101)은 지속시간카운터이고, (102)는 평균지속시간산출회로이고, (105)는 학습음성지속시간산출회로이고, (106)은 대음성구간전장비산출회로이다. 제2도의 블록과 동일한 블록은 동일한 번호가 부여되어 있다. 본 발명의 청구범위 제1항, 제2항, 제3항, 제4항, 제6항 또는 제7항에 따른 음성인식동작에 대하여 이하 설명한다.
표준음성학습시에는 미리 준비 기준음성의 단어를 1개의 음절로 분리해두고, 각 음절마다 음성을 음성입력단자(1)에 입력한다. 예를 들면, LPC켑스트라움(cepstraum)법을 사용하는 경우, 소정의 개수를 각 프레임에 대해서 1그룹으로한 상태에서 LPC켑스트라움함수에 대한 특정파라미터로부터 스펙트럼정보를 산출하여 버퍼메모리(14)에 보관한다. 이와 같은 분석처리는 소정계수의 학습음성데이터의 아이템이 취급될 때까지 반복한다.
다음에 버퍼(14)에 보관된 데이타는 음절표준음성작성회로(9)에서 클러스터링(clustering)으로 형성되고 각 클러스터의 중심에서의 데이터의 아이템을 음절표준음성보관버퍼(12)에 보관한다.
다음에 지속시간학습회로(10)에서 버퍼(14)에 보관된 데이터를(1) 그 음절의 종류마다(2) 단어내에서 그 음절에 선행하는 음절의 종류이다. (3) 단어내에서 그 음절에 후속하는 음절의 종류마다 등의 3종류로 글래스분류하고 각 클래스의 평균지속시간 f1(n), f2(n), f3(n)을 산출한다. 이와 같이 하기 위하여 우선 음절데이터의 각 아이템의 지속시간이 지속시간카운터(101)에 의해 산출된다. 예를 들면, 소정이 데이터아이템의 그룹에 대해서 형성된 LPC켑스트라움계수계열의 아이템계수가 계산된다. 다음에 각 종류의 음절의 평균지속시간은 평균지속시간산출회로(102)에서 산출된다. 다음에 각 음절의 지속시간에 대한 음성구간의 전체길이의 비는 대음성구간전장비산출회로(103)에 의해서 아래의 식(5)와 함께 각 음절에 대응하는 평균지속시간과 음성구간의 전체길이의 평균지속시간을 사용하여 각각의 요인마다 산출된다.
식 (5)
fj(n):요인(j)에 대한 n번째의 음절인 모든 음절의 평균지속시간
N:전체음성구간의 음절의 총수
ej(n):요인(j)에서 n번째의 지속시간의 음성구간전장비
다음에 가중가산회로(104)에서 가중식 식(6)에 나타난 방식으로 상기 산출된 평균지속시간에 가산함으로써, 모든 요인을 고려하도록 한다(본 실시예의 경우에서는 상기 요인은 선행음절의 종류, 현행음절의 종류, 후속음절의 종류의 3요인이다).
가중결과는 인식단어마다 지속시간학습결과보관버퍼(13)에 보관된다.
식 (6)
S(n):음성구간 전체길이를 1로 취한 경우의 n번째 음절에 대한 지속시간예측값
이때의 가중(x)은 예를 들면 각 요인의 지속시간의 영향도를 반영하도록 설정해도 된다. 종래에는 3요소(선행음절의 종류, 현행음절의 종류, 후속음절의 종류)의 각각에 대한 편상관계수를 구함으로써 각 요인의 음절지속시간이 조사되고 있다.
타키자와씨와 쯔보가오리씨에 의해 발표된 「Syllable Duration Prediction for Speech Recognition ICSLP92 Vol,2pp.1371-1374」에 따르면 각 요인에 대한 편상관계수값은 표 1에 부여되어 있다.
표 1 : 각 요인의 음절지속시간에 대한 편상관계수치
이들 3항목 사이의 편상관계수를 유지하기 위해서는 표 1의 편상관계수값이 이들의 합이 1이 되도록 정그화하면, 각각 좌로부터 약 0.28, 0.41, 0.31이 되고, 이들 값은 각각 α1, α2, α3로 취한다.
상기 예에서는 각 요인의 지속시간의 영향도가 값(α)에 의해 반영되도록 평상관계수를 사용하였다. 그러나 계산처리를 한층더 단축하기 위하여 요인(j)에 무관계한 고정값을 사용하여도 된다. 본 실시예에서는 3개의 요인이 있고 따라서 값(α)은 1/3=0.33으로 되어 j에 무관한 수치이다.
인식시에는 음성이 입력단자(1)에 입력되고 스펙트럼정보가 분석회로(2)에 의해 프레임마다 분석된다. 분석방법은 학습시와 마찬가지이다. 다음에 음성구간은 분석회로(2)로부터의 0차 LPC켑스트라움계수(0차계수는 음성파워정보임)를 사용하여 음성구간검출회로(3)에 의해 검출된다. 음성구간의 조건은 다음의 2조건이다.
(1) 음성파워 (0차계수치)가 소정값보다 크다.
(2) 조건(1)을 만족하는 소정계수이상의 프레임이 계속된다.
인식되어야 할 단어명이 음절의 열로서 단어사서(11)에 기록되어 있다. 단어표준음성작성회로(4)에서 단어사서(11)의 각 단어에 대한 음절열에 따라서 음절표준음성보관버퍼(12)에 있는 음절표준음성과 함께 연결함으로써 단어표준음성이 형성된다. 다음에 지속시간예측회로(5)에서 학습시에 구해진 음절구간의 전체길이에 대한 각 인식단위의 지속시간 예측치(S(n))와 음성구간길이(L)를 사용하여 청구범위 제4항에 식(2)에 따라서 음절지속시간을 예측한다.
다음에 구간정합/결정회로(6)에서 n-1번째의 음절과 n-1 번째의 음절과 n번째 음절사이의 경계를 식(7)에서 표시한 k(n-1)로 정의한다. n-1번째의 음절정합구간의 종단부(i)가 상기한 경계의 ±β내에 존재하는 것으로 가정해서 정합정도가 제한된다(식8)).
정합회로(7)에서, 식(9)에 따라서 음성의 개시로부터 음성의 종단에 이르기까지 정합함으로써 각각의 음절의 종단부가 상기한 정합범위내에서 일치한 상태로 거리(D)를 산출한다.
식 (7)
식 (8)
k(n - 1) - β i k(n - 1) + β
여기서, β는 일정치이다.
식 (9)
Dn(i) = min |Dn-1(i-1) + dn(i)|
|Dn-1 (i-1) + dn(i)|
Dn(i):최초음절로부터 n번째 음절까지의 i번째 프레임에서 최초프레임으로부터 i 번째 프레임까지 있는 음절열과 입력음성사이의 거리
dn(i):i프레임에서의 n 번째 음절의 표준음성과 입력음성사이의 거리
단어표준음성작성회로(4)로부터 정합까지의 처리를 단어사이에 기록되어 있는 모든 단어에 대해서 행할 때에, 거리(D)가 최소로 되는 단어를 최종인식결과로 취하고 이들 인식결과를 인식결과출력회로(8)로부터 출력한다. 학습시에는 스위치(15)로부터 버퍼(4)로 특징파라미터를 출력하고 인식시에는 스위치(15)로부터 음성구간검출회로(3)로 특징파라미터를 출력한다.
따라서 본 실시예에 의하면 지속기간학습회로에서 음절지속시간에 영향을 주는 요인을 고려해서 평균음절지속시간이 산출된다. 다음에 이것은 음성구간이 전체길이를 1로 취하는 경우에 대한 식(1)에 따라서 각 음절의 지속시간을 학습하기 위하여 사용된다. 다음에 음절지속시간 예측회로에서 입력음성에 대한 각 인식단위의 지속시간이 입력음성의 음성구간의 길이와 평균지속시간을 사용하여 예측된다. 정합회로에 의해서 형성된 지속시간예측 주위에 중심이 되는 특정범위내에서 정합함으로써 동일입력음성내에서의 각 음절의 지속시간에 대한 차이가 현실적인 경우에만 인식을 위한 후보를 확립할 수 있게 된다. 이것도 장치를 보다 더 유효하게 된다. 동시에 정합구간을 제한함으로써 고속의 정합처리가 가능하다.
다음에 본 발명의 청구범위 제1항, 제2항, 제3항, 제5항, 제6항 또는 제7항에 의한 음성인식장치의 동작에 대하여 이하 설명한다.
표준음성학습시에는 미리 준비된 표준음성의 단어는 1개의 음절로 구분되고, 음절마다 음성이 음성입력단자(1)에 입력된다. 다음에 이것은 인식목적을 위하여 분석회로(2)에 의해 요구되는 스펙트럼정보를 위하여 분석된다.
예를 들면, LPC 켑스트라움법을 이용하는 경우, 소정의 수가 각 프레임에 대한 1그룹으로 한 상태에서 LPC 켑스트라움함수에 대한 특정파라미터로부터 스펙트럼정보가 산출되고 이것이 버퍼메모리(14)에 보관된다. 이 분석처리는 소정수의 음성학습데이터의 항목이 취급될 때까지 반복된다.
버퍼(14)에 보관된 데이터는 음절표준음성작성회로(9)에서 클러스터링으로 형성되고 각 클러스터의 중앙에 있는 데이터의 항목을 음절표준음성보관버퍼(12)에 보관한다.
다음에 지속시간학습회로(10)에서 버퍼(14)에 보관된 데이타는 (1) 그 음절의 종류마다 (2) 단어내에서 그 음절에 선행하는 음절의 종류마다, (3) 단어내에서 그 음절에 후속하는 음절의 종류마다 등의 3종류로 글레스분류하고 각각의 상기 클래스에 대해서 평균지속시간 f1(n), f2(n), f3(n)을 산출한다.
이와 같이 행하기 위해서는 우선 음절데이터의 각 아이템의 지속시간을 지속시간 카운터(101)에 의해서 산출한다. 예를 들면, 데이터 아이템의 규정된 그룹에 대해서 형성된 LPG 켑스트라움계수의 아이템수는 계수된다. 다음에 각 종류의 음절의 평균지속시간이 평균지속시간산출회로(102)에서 산출된다. 다음에 식(10)으로 나타난 바와 같이 학습음성지속기간 산출회로(105)에 의해서 각 요소에 대한 가중치를 평균지속시간값에 모두 가산한다. 이와 같은 방식으로 음성학습시의 각 음절의 지속시간이 산출될 수 있다. 가중치를 이전의 실시예와 마찬가지로 얻을 수 있다.
식 (10)
f(n):음성학습시의 n번째 인식단위에 대한 지속시간예측값
f1(n):요인(j)에 대한 n번째 음절인 모든 음절의 평균지속시간
다음에 음성구간 전장비는 대음성구간전장비산출회로(103)에서 청구범위 제5항의 식(3)에 따라서 산출된다. 인식단어마다 얻은 결과는 지속시간학습결과보관버퍼(13)에 보관된다.
인식시에 음성은 입력단자(1)에 입력되고 분석회로(2)에서 프레임마다 스텍트럼정보가 분석된다. 분석법은 학습시와 마찬가지이다. 학습구간은 분석회로(2)로부터 0번째 LPG켑스트라움계수(0번째계수는 음성파워정보)를 사용하여 음성구간검출회로(3)에서 검출된다. 음성구간조건은 하기 2조건이다.
(1) 음성파워(0번째값)은 소정의 값보다 크다.
(2) 조건(1)을 만족하는 소정수 이상의 프레임을 계속한다.
인식해야 할 단어명이 음절의 열로서 단어사서(11)에 기록되어 있다. 단어표준음성장석회로(4)에서 단어사서(11)의 각 단어에 대한 음절의 열에 따라서 음절표준음성보관버퍼(12)에 있는 음절표준음성과 연결함으로써, 단어표준음성이 형성된다.
지속시간예측회로(5)에서 학습시에 구해진 음절구간의 전체길이에 대한 각 인식단위의 지속시간예측치(S(n))의 음성구간길이(L)를 사용하여 청구범위 제5항의 식(4)에 따라서 음절지속시간을 예측한다.
다음에 구간정합/결정회로(6)에서 n-1번째의 음절과 n번째 음절사이의 경계를 식(7)에서 표시한 k(n-1)로 정의한다. n-1번째의 음절정합구간의 종단부(i)가 상기한 경계의 ±β내에 존재하는 가정하에 결합정도를 제한한다(이전의 실시예의 식(8)). 정합회로(7)에서 이전의 실시예의 식(8)에 따라서 음성의 개시로부터 음성의 종단에 이르기까지 정합함으로써, 각각의 음정의 종단부가 상기한 정합범위내에서 일치한 상태로 거리(D)를 산출한다.
단어표준음성작성회로(4)로부터 정합까지의 처리를 단어사서에 기재되어 있는 모든 단어에 대해서 행할 때에, 거리(D)가 최소로 되는 단어를 최종인식결과로 취하고 이들 인식결과를 인식결과단자회로(8)로부터 출력한다. 학습시에는 스위치(15)로부터 버퍼(14)로 특정파라미터를 출력하고 인식시에는 스위치(15)로부터 음성구간검출회로로 특징파라미터를 출력한다.
따라서 본 실시예에 의하면 지속시간학습회로에서 음절지속시간에 영향을 주는 요인을 고려해서 평균음질지속시간이 산출된다. 다음에 이것은 음성구간의 전체길이를 1로 취하는 경우에 대한 식(3)에 따라서 각 음절의 지속시간을 학습하기 위하여 사용된다. 다음에 음절지속시간예측회로에서 입력음성에 대한 각 인식단위의 지속시간이 입력음성구간의 길이와 평균지속시간을 사용하여 예측된다.
정합회로에 의해서 형성된 저소시간예측 주위에 중심이 되는 고정범위내에서 정합함으로써 동일 입력음성내에서의 각 음절의 지속시간의 차이가 현실적인 경우에만 인식을 위한 후보가 확립할 수 있게 된다. 이것은 장치를 보다 더 유효하게 한다. 동시에 정합구간을 제한함으로써 고속의 정합처리가 가능하다.
본 실시예에서는 청구범위 제7항에 나타난 바와 같이 예측된 음절구간을 사용함으로써 각각의 음절에 대한 정합구간이 결정되고 이들 정합구간의 범위내에서 각 음절에 대한 정합을 행한다. 그러나 가중치를 가산하는 다른 방법이 또한 고려될 수 있다. 예를 들면, 식(9)에 나타난 거리(dn(i)(dn(i)는 프레임(i)에서의 표준음성의 n번째 음절과 입력음성사이의 거리임)에 가중치를 부여할 수 있고 따라서 정합거리(D)가 작을 수록 각 음성의 정합구간은 예측지속기간에 근접하게 된다.
본 발명의 청구범위 제1항, 제2항, 제3항, 제4항, 제8항에 따른 본 발명의 실시예에 대해서 도면을 참조하면서 이하 설명한다. 제4도는 본 발명의 청구범위 제8항에 따른 실시예에 의한 단어음성인식장치의 블록도이다. 제4도에서, (1)은 음성입력단자이고, (2)는 분석회로이고, (3)은 음성구간검출회로에서, (21)은 단어표준음성작성회로이고, (22)는 음절지속시간예측회로이고, (23)은 정합회로이고, (24)는 오차산출회로이고, (25)는 결과평가회로이고, (26)은 인식결과출력단자이고, (9)는 음절표준음성구성회로이고, (10)은 지속시간학습회로이고, (11)은 단어사서이고, (12)는 음절표준음성보관버퍼이고, (13)은 지속시간학습결과보관버퍼이고, (14)는 버퍼메모리이고, (15)는 스위치이다. 또한 지속시간학습회로의 상세는 제2도에 도시되어 있고 이에 대해서는 선행의 실시예에서 설명하였다.
상기한 구성을 가지는 음성인식장치의 동작에 대하여 이하 설명한다.
표준음성학습시에 이전에 준비된 표준음성의 단어가 1개의 음절로 구분되고 각 음절마다 음성은 음성입력단자(1)에 입력된다. 다음에 이것은 분석회로(2)에 의해서 요구되는 스펙트럼정보를 위하여 분석된다. 예를 들면, LPC켑스트라움법을 사용하면 소정의 계수를 각 프레임에 대해서 1그룹으로 한상태에서 LPC켑스트라움에 대한 특정파라미터로부터 스펙트럼정보를 산출하여 버퍼메모리(14)에 보관한다. 이와 같은 분석처리는 소정계수의 학습음성데이터의 아이템이 취급될 때까지 반복된다.
다음에 버퍼(14)에 보관된 데이터는 음절표준음성작성회로(9)에서 클러스터링으로 형성되고 각 클러스터의 중심에서의 아이템을 음절표준음성보관버퍼(12)에 보관한다.
다음에 지속시간 학습회로(10)에서, 버퍼(14)에 보관된 데이터를 (1) 그 음절의 종류이다. (2) 단어내에서 그 음절에 선행하는 음절의 종류마다 (3) 단어내에서 그 음절에 후속하는 음절의 종류마다 등의 3종류로 글래스분류하고 각 클래스의 평균지속시간 f1(n), f2(n), f3(n)을 산출한다. 이와 같이 하기 위하여 우선 음절데이터의 각 아이템의 지속시간이 지속시간 카운터(101)에 의해 산출된다.
예를 들면, 소정의 데이타아이템의 그룹에 대해서 형성된 LPC켑스트라움계수계열의 아이템수가 계산된다. 다음에 각 종류의 음절의 평균지속시간은 평균지속시간산출회로(102)에서 산출된다. 다음에 각 음절의 지속시간에 대한 음성구간의 전체길이의 비는 대음성구간 전장비산출회로(103)에 의해서 식(4)와 함께 각 음절에 대응하는 평균지속시간과 음성구간의 전체길이의 평균지속시간을 사용하여 각각의 요인마다 산출된다.
가중가산회로(104)에서 가중치를 선행의 실시예의 식(5)에 나타난 방식으로 상기 산출된 평균지속시간에 가산함으로써 모든 요인을 고려하도록 한다(본 실시예의 경우에서는 상기 요인은, 선행음절의 종류, 현행음절의 종류, 후속음절의 종류의 3요인임). 가중결과는 인식단어마다 지속시간학습결과보관버퍼(13)에 보관된다.
이때의 가중(α)은 이전의 실시예의 마찬가지로 설정될 수 있다.
인식시에는 음성이 입력단자(1)에 입력되고 스펙트럼정보가 분석회로(2)에 의해 프레임마다 분석된다. 분석방법은 학습시와 마찬가지이다. 다음에 음성구간은 분석회로(2)로부터 0차 LPC켑스트라움계수(0차계수는 음성파원정보임)를 사용하여 음성구간검출회로(3)에 의해 검출된다. 음성구간은 다음의 2조건이다.
(1) 음성파워(0차계수)가 소정의 값보다 크다.
(2) 조건(1)을 만족하는 소정개수이상의 프레임이 계속된다.
인식되어야 할 단어명이 음절의 열로서 단어사서(1)에 기록되어 있다. 단어표준음성작성회로(4)에서 단어사서(11)의 각 단어에 대한 음절열에 따라서 음절표준음성보관버퍼(12)에 있는 음절표준음성과 함께 연결함으로써 단어표준음성이 형성된다.
다음에 이와 같이 발생된 표준음성단어와 입력음성을 정합회로(23)에 의해서 비교한다. 정합법은 예를 들면 이전의 실시예의 식(9)에 따라서 거리(D)를 구하는 종래예와 마찬가지이다. 다음에 남아있는 단어보다 짧은 거리(D)를 가지는 M단어를 인식결과후보로 취한다. 또한 정합시에 음절경계가 대응하는 프레임과 각 음절을 기록한다, Dn-1(i-1)+dn(i)에 대한 값과 Dn-1(i-1)+dn(i)에 대한 값중 작은값을 선택함으로써 식(9)에서 거리를 계측할 수 있고, Dn-1(i-1)+dn(i)에 대한 값이 선택된 경우에는 프레임(i)에 대한 값이 n-1번째 음절과 n번째 음절사이의 경계에 대응하는 프레임으로 된다. 경계프레임은 이하의 설명에서 Dn-1로 나타낸다.
한편 음성구간검출회로에 의해서 검출된 음성구간이 지속시간예측회로(22)에 입력된다. 다음에 지속시간예측회로(22)에서 학습시에 얻은 음성구간의 전체길이에 대한 각 인식단위의 지속시간예측값 S(n)과 음성구간길이(L)을 사용하여 청구범위 제4항의 식(4)에서 따라서 음절지속기간이 예측된다.
다음에 오차산출회로(24)에서 지속시간 예측회로에서 구한 음절구간 예측값과 인식정합결과의 음절구간사이의 오차가 각각의 M단어후보에 대해서 산출된다.
예를 들면 이것은 식(11)에 나타난 방식으로 달성될 수 있다.
식 (11)
Σm:단어(m)에 대한 지속시간오차
:n번째 음절에 대한 음절지속시간예측값
Pn:정합결과로부터 얻은 n번째 음절과 n-1번째 음절사이의 경계점
N(m):단어(m)에 대한 음절의 전체수
다음에 결과평가회로(25)에 의해서 오차(Em)에 대한 값이 특정값보다 큰 후보는 결과로부터 제거된다. 정합결과거리가 나머지 후보중에서 가장 작은 후보는 인식결과로서 취하여 출력단자(26)로부터 출력된다.
상기한 바와 같이 본 실시예에 의하면 지속시간을 학습하는 동안, 음절에 영향을 주는 요소를 고려하여 평균음절지수시간을 산출한다. 다음에 이것은 음성구간의 전체길이가 1로 취해진 경우에 대해서 각음절의 지속시간을 산출하기 위하여 사용된다. 인식처리를 행하는 동안 지속시간예측회로에서 학습처리시에 산출된 각 음절의 지속시간과 입력음성의 음성구간길이를 식(2)와 함께 사용하여 입력음성의 음절지속시간을 예측한다. 인식후보음절정합구간과 예측값 사이의 오차는 식(Ⅱ)을 사용하여 구한다. 다음에 이들 오차가 고정값보다 큰 경우 인식후보를 제거함으로써, 동일입력음성내에 있는 각각의 음절의 지속시간의 차이가 현실적인 경우에만 인식에 대한 후보를 확립하는 것이 가능하게 된다. 다시 말하면 이것은 장치를 한층 더 유효하게 한다.
Claims (8)
- 음성을 인식할때에 입력음성보다 짧은 인식단위로 입력음성으로 인식하고 이 인식단위의 각각의 인식결과를 연속적으로 연결함으로써 얻은 최종인식결과를 출력하는 음성인식장치에 있어서 입력음성의 시작과 종단을 검출함에 의해서 음성구간을 검출하는 음성구간검출수단과 인식단위의 지속시간에 영향을 주는 요인을 사용함에 의해 인식단위의 지속시간사이의 관계를 산출하는 지속시간학습수단과 검출된 음성주기와 인식단위의 지속기간의 산출관계를 사용함에 의해 입력음성에 대한 각각의 인식단위의 지속시간을 예측하는 지속시간예측수단과 예측된 지속시간을 사용하여 인식결과를 정합하거나 결정하는 정합수단을 포함한 것을 특징으로 하는 음성인식장치.
- 제1항에 있어서 상기 지속시간학습수단은 인식단위의 지속시간에 영향을 주는 각 요인마다 각 요인에 대한 동일 범주에 속하는 인식단위의 평균지속시간을 얻음에 의해서 인식단위의 지속시간사이의 관계를 산출하는 것을 특징으로 하는 음성인식장치.
- 제1항에 있어서 상기 지속시간학습수단은 인식단위의 지속시간을 좌우하는 요인이 인식단위의 지속시간에 영향을 주는 정도를 얻고 또한 각 요인에 대한 동일 범주에 속하는 인식단위의 평균지속시간을 얻음에 의해서 인식단위의 지속시간사이의 관계를 산출하는 것을 특징으로 하는 음성인식장치.
- 제3항에 있어서 상기 지속시간학습수단은 각각의 요인에 대한 동일범주에 속하는 인식단위의 평균지속시간을 각각의 요인마다 구한 다음에 입력음성에 대한 음성구간길이 전체의 평균지속시간과 식(1)의 평균지속시간(fi(t))를 사용하여 각 인식단위의 평균지속시간사이의 비를 구하고 또한 각각의 요인마다 상기비와 함께 가중가산을 행함으로써 음성구간의 전체길이를 1로 취하는 경우에 대해서 각각의 인식단위의 지속시간(식(1)의 S(n))을 산출하고 지속시간예측수단은 상기 S(n)와 음성구간의 전장(식(2)이 L)으로부터 입력음성에 대한 인식단위마다 지속시간의 예 값(식 (2))을 산출하는 것을 특징으로 하는 음성인식장치.식 (1)fj(n):요인(j)에 대한 n번째 음절로서 모든 음절의 평균지속시간N:1개의 음성구간에 포함된 인식단위의 총수αj:각 요인의 가중계수S(n):음성구간전장을 1로한 경우 각 인식단위에 대한 지속시간예측값식 (2):n번째 인식단위에 대한 지속시간 예측값L:전음성구간길이
- 제3항에 있어서 상기 지속시간학습수단은 각각의 요인에 대한 동일범주에 속하는 인식단위의 평균지속시간을 구한 다음에 이 평균지속시간(식 (3)의 fj(i))을 사용하여, 입력음력에 대한 각각의 인식 단위의 지속시간을 예측하고 또한 이와같이 예측한 값과 음성구간의 전체길이 사이의 비를 구함으로써 음성구간의 전장을 1로 취하는 경우에 대해서 각 인식단위의 지속시간(식 (3)의 S(n))을 산출하고 지속시간예측수단은 지속시간(S(n)과 음성구간(식 (4))을 산출하는 것을 특징으로 하는 음성인식장치.S(n):전음성구간장을 1로한 경우 각 인식단위에 대한 지속시간예측값M:1개의 음성구간에 포함된 인식단위의 총수fj(n):요인(j)에 대한 n번째 음절로서 모든 음절의 평균지속시간aj:각 요인에 대한 가중계수식 (4)d(n) = L×S(n):n번째 인식단위에 대한 지속시간예측값L:전음성구간장
- 제1항에 있어서 상기 정합수단은 각각의 음절에 대한 정합구간이 예측음절지속시간값 부근에 있도록 인식단위에 대한 예측지속시간값을 사용하여 상기 정합이나 상기 인식결과결정을 행하는 것을 특징으로하는 음성인식장치.
- 제1항에 있어서 인식단위에 대한 예측지속시간값을 사용하여 입력음성에서 각각의 인식단위에 대한 정합주기를 판정하는 정합구간결정수단을 부가하여 포함하고 상기 정합수단은 결정된 정합구간내에서 각각의 인식단위를 정합하도록 상기 정합과 인식결과판정을 행하는 것을 특징으로 하는 음성인식장치.
- 제1항에 있어서 예측지속시간과 인식후보에 대한 정합결과사이의 차이를 산출하는 오차산출수단과 상기 오차를 사용하여 확실성이 없는 인식후보를 제거하는 결과평가수단을 부가하여 포함한 것을 특징으로 하는 음성인식장치.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP93-87127 | 1993-04-14 | ||
JP5087127A JPH06301400A (ja) | 1993-04-14 | 1993-04-14 | 音声認識装置 |
JP93-217286 | 1993-09-01 | ||
JP5217286A JPH0772899A (ja) | 1993-09-01 | 1993-09-01 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR940024660A KR940024660A (ko) | 1994-11-18 |
KR0134158B1 true KR0134158B1 (ko) | 1998-04-29 |
Family
ID=26428435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019940007784A KR0134158B1 (ko) | 1993-04-14 | 1994-04-14 | 음성인식장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5526466A (ko) |
KR (1) | KR0134158B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100316776B1 (ko) * | 1999-03-31 | 2001-12-12 | 윤종용 | 연속 숫자음 인식 장치 및 그 방법 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
JPH08248975A (ja) * | 1995-03-09 | 1996-09-27 | Nec Corp | 標準パターン学習装置およびこの装置を使用した音声認識装置 |
JP3581752B2 (ja) * | 1995-10-09 | 2004-10-27 | 株式会社リコー | 音声認識装置及び音声認識方法 |
US6249252B1 (en) | 1996-09-09 | 2001-06-19 | Tracbeam Llc | Wireless location using multiple location estimators |
US7764231B1 (en) | 1996-09-09 | 2010-07-27 | Tracbeam Llc | Wireless location using multiple mobile station location techniques |
US7903029B2 (en) | 1996-09-09 | 2011-03-08 | Tracbeam Llc | Wireless location routing applications and architecture therefor |
US9134398B2 (en) | 1996-09-09 | 2015-09-15 | Tracbeam Llc | Wireless location using network centric location estimators |
US7714778B2 (en) | 1997-08-20 | 2010-05-11 | Tracbeam Llc | Wireless location gateway and applications therefor |
US6236365B1 (en) | 1996-09-09 | 2001-05-22 | Tracbeam, Llc | Location of a mobile station using a plurality of commercial wireless infrastructures |
EP0856832A1 (fr) * | 1997-02-03 | 1998-08-05 | Koninklijke Philips Electronics N.V. | Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application |
US8135413B2 (en) | 1998-11-24 | 2012-03-13 | Tracbeam Llc | Platform and applications for wireless location and other complex services |
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
AU1367101A (en) | 1999-09-24 | 2002-01-08 | Dennis J. Dupray | Geographically constrained network services |
US9875492B2 (en) | 2001-05-22 | 2018-01-23 | Dennis J. Dupray | Real estate transaction system |
US10641861B2 (en) | 2000-06-02 | 2020-05-05 | Dennis J. Dupray | Services and applications for a communications network |
US10684350B2 (en) | 2000-06-02 | 2020-06-16 | Tracbeam Llc | Services and applications for a communications network |
US8082096B2 (en) | 2001-05-22 | 2011-12-20 | Tracbeam Llc | Wireless location routing applications and architecture therefor |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US20080231557A1 (en) * | 2007-03-20 | 2008-09-25 | Leadis Technology, Inc. | Emission control in aged active matrix oled display using voltage ratio or current ratio |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) * | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) * | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US9538493B2 (en) | 2010-08-23 | 2017-01-03 | Finetrak, Llc | Locating a mobile station and applications therefor |
DE112013001772B4 (de) * | 2013-11-29 | 2020-02-13 | Mitsubishi Electric Corporation | Spracherkennungssystem |
KR102515914B1 (ko) * | 2022-12-21 | 2023-03-30 | 주식회사 액션파워 | Stt 모델을 활용하는 발음 전사 방법 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
CA1116300A (en) * | 1977-12-28 | 1982-01-12 | Hiroaki Sakoe | Speech recognition system |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US4918731A (en) * | 1987-07-17 | 1990-04-17 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
-
1994
- 1994-04-11 US US08/225,630 patent/US5526466A/en not_active Expired - Fee Related
- 1994-04-14 KR KR1019940007784A patent/KR0134158B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100316776B1 (ko) * | 1999-03-31 | 2001-12-12 | 윤종용 | 연속 숫자음 인식 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR940024660A (ko) | 1994-11-18 |
US5526466A (en) | 1996-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0134158B1 (ko) | 음성인식장치 | |
EP0435282B1 (en) | Voice recognition apparatus | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6553342B1 (en) | Tone based speech recognition | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
EP0764937A2 (en) | Method for speech detection in a high-noise environment | |
EP0617827B1 (en) | Composite expert | |
US12046226B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
JPH05289692A (ja) | ワードを予測する会話認識装置用言語生成装置及び方法 | |
US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Vicens | Aspects of speech recognition by computer | |
Hess | A pitch-synchronous digital feature extraction system for phonemic recognition of speech | |
Seitkulov et al. | Algorithm of forming speech base units using the method of dynamic programming | |
US6178402B1 (en) | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network | |
Slaney et al. | Pitch-gesture modeling using subband autocorrelation change detection. | |
JP4829912B2 (ja) | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
AU612737B2 (en) | A phoneme recognition system | |
JP3091426B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JPH0772899A (ja) | 音声認識装置 | |
JP6565416B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
RU2119196C1 (ru) | Способ лексической интерпретации слитной речи и система для его реализации | |
JP2655902B2 (ja) | 音声の特徴抽出装置 | |
JP2001100775A (ja) | 音声合成装置のための音声データ量削減装置及び音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20041227 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |