KR920010582B1 - 단어 상태 기간 및 웨이트를 기초한 언어 인지 시스템 - Google Patents
단어 상태 기간 및 웨이트를 기초한 언어 인지 시스템 Download PDFInfo
- Publication number
- KR920010582B1 KR920010582B1 KR1019840001316A KR840001316A KR920010582B1 KR 920010582 B1 KR920010582 B1 KR 920010582B1 KR 1019840001316 A KR1019840001316 A KR 1019840001316A KR 840001316 A KR840001316 A KR 840001316A KR 920010582 B1 KR920010582 B1 KR 920010582B1
- Authority
- KR
- South Korea
- Prior art keywords
- state
- array
- word
- states
- template
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 37
- 238000003491 array Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 9
- 230000001149 cognitive effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000007493 shaping process Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000010374 somatic cell nuclear transfer Methods 0.000 description 16
- 241001674048 Phthiraptera Species 0.000 description 11
- 101001130128 Arabidopsis thaliana Leucoanthocyanidin dioxygenase Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 101100064317 Arabidopsis thaliana DTX41 gene Proteins 0.000 description 3
- 101100047785 Arabidopsis thaliana TT16 gene Proteins 0.000 description 3
- 101000628535 Homo sapiens Metalloreductase STEAP2 Proteins 0.000 description 3
- 102100026711 Metalloreductase STEAP2 Human genes 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 101100505882 Arabidopsis thaliana GSTF12 gene Proteins 0.000 description 1
- 101100048042 Arabidopsis thaliana UGT80B1 gene Proteins 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
내용 없음.
Description
제1도는 10msec 베이스 대 정현파 주파수의 제로 크로싱 계수의 그래프도.
제2도는 본 발명 회로의 계통도.
제3도 내지 제8도는 본 발명 시스템의 동작을 도시한 유통도.
제9도는 본 발명의 데이타 구조를 도시한 개략도.
* 도면의 주요부분에 대한 부호의 설명
11 : 마이크폰 13 : 고이득음성 증폭기
17 : 마이크로 컴퓨터 칩 19 : 해독 전용 메모리(ROM)
21,23 및 25 : 단 27 : 등속 호출 메모리(RAM)
31 : 타이머 및 카운터 33 : 전치 계수기
75 : 타이머 입력선 301 및 305 : 계전기
303 및 307 : 스위치 309 : 로보트 헤드 회전기
311 : 로보트 트랙터 모터
본 발명은 언어 인지 컴퓨터에 관한 것으로, 특히 화자 독립 인지 컴퓨터에 관한 것이다. 더욱 상세하게 말하자면, 본 발명은 특정하게 응용하기 위해 매우 저렴하게 제조될 수 있고 세심하게 선택된 어휘로 화자에 무관하게 언어를 인지하기 위해 사용하는 마이크로컴퓨터에 관한 것이다.
지난 30여년 동안, 증가하는 어휘를 인지할 수 있는 복잡한 컴퓨터 시스템을 제공하기 위해서 사람의 언어를 인지하기 위한 컴퓨터 사용 방법이 개발되어 왔다. 또한, 각각 상이한 주파수 대역을 선택하는 대역 통과 휠터 뱅크(bank)를 시스템 전단부로서 사용함으로써 입력 음성 신호를 스펙트럼 분석하는 것에 근거하여 상당한 노력이 이루어졌다. 각각의 대역 통과 휠터 범위내의 신호 레벨 또는 음성 출력은 전형적으로 주파수 대 단어 또는 숙어의 시간 음성 매트릭스를 제공하도록 주기적인 기간에 샘플되었다. 여러가지의 시간 표준화 기술은 이것들의 기간에 관계 없이 단어를 인지하기 위해 사용되었고, 주파수 표준화 기술은 화자에 무관하게 하기 위해 시도할 때 사용되었다.
물론, 이 모든 개발들로 언어 인지 장점을 갖는 복잡하고도 대부분의 소비자가 구입하기에 값이 비싼 장치가 만들어졌다. 본질적으로 언어 인지 컴퓨터는 입력 매체인 복잡한 언어 인지 시스템의 값을 정당하게 하기에 충분하게 제조 가격이 비싼 복잡한 장비의 입력 시스템과 실험 기구로 제한되었다.
이 개발로, 다양한 소비자 제품용으로 간략화된 언어 인지 장치를 사용하게 되었다. 또한, 더욱 복잡한 시스템에 이용된 기술들은 메모리 자체의 가격이 시스템 가격을 비싸게 하기에 충분하도록 대부분의 인지 시스템용 만의 기억 요구사항이 되어 있기 때문에 비교적 간단한 언어 인지 시스템에 사용하지 않았다.
다른 시스템들을 언어를 인지하기 위해 스펙트럼 분석하는데 사용하는 것이 알려져 있지만, 이 시스템들은 시스템 어휘를 넓히기 위해서 모음 U 및 O와 파열음 T 및 B와 같은 비교적 유사한 언어 요소를 식별하기 위한 시도를 하였다.
본 발명은 1983년 6월 14일자로 허여된 미합중국 특허 제4,388,495호에 기술된 언어 인지 마이크로컴퓨터를 개량한 것이다. 이 특허와 본 출원은 모두 저렴한 화자 독립 언어 인지 마이크로컴퓨터를 갖추고 있다. 이 특허에 기술된 장치의 경우에는, 화자 독립성이 충분히 가능했다 하더라도, 다른 화자가 소리낸 어떤 단어의 부분을 한 화자가 소리 내지 못하도록 2인의 화자들이 말하는 방식이 상이할 때, 컴퓨터는 일련의 부수적으로 기억된 단어 템플레이트(template)들이 추가되지 않는 한 동일한 단어로서 단어들을 인지할 수 없다는 것을 실험 후에 알게된다. 본 발명의 마이크로컴퓨터는 단어가 실제로 다른 방법으로 말해진다 하더라도 부수적으로 기억된 단어 템플레이트를 필요로 하지 않고서 동일한 단어를 인지하게 한다.
본 발명의 한 형태에서는 입력 언어를 분류된 언어 상태 어레이로 분할시키고 대응하는 입력 상태 길이 어레이를 형성하도록 각각의 언어 상태의 길이를 측정하는 회로를 포함하는 언어 인지 장치가 제공된다. 그 다음 입력 언어 상태 어레이의 분류를 기억된 템플레이트 어레이의 분류와 비교하도록 동작하는 회로가 제공된다. 기억된 템플레이트는 분류된 단어 상태의 제1어레이 및 최소한 몇 개의 대응하는 기억된 단어 상태의 길이를 표시하는 순차 값으로 이루어진 제2어레이를 포함한다. 이 비교 회로에 응답하여, 다른 회로는 입력 언어 상태와 일치하게 분류되는 상태들의 대응하는 템플레이트 단어 상태 사이의 길이 차이의 함수인 템플레이트 단어 상태 어레이와 입력 언어 상태 어레이 사이의 일치도를 측정한다.
본 발명의 다른 형태에서, 본 발명의 언어 인지 장치는 말해진 단어를 취하여 이 단어를 일련의 짧은, 양호하게는 10msec의 단어 부분으로 분할시킨다. 각각의 10msec 단어 부분 동안 말해진 단어의 평균 주파수는 음성 신호 패턴이 임계레벨을 가로지르는 시간 수를 계수함으로써 결정된다. 이 계수를 제로 크로싱 계수라고 부른다. 그 다음, 각각의 10msec 단어 부분은 평균 주파수에 근거하여 마찰음-형, 모음-형 또는 묵음-형으로 분류된다. 일반적으로, 주파수가 고주파수이면 단어 부분이 마찰음으로 분류되고, 중간 주파수이면, 모음으로 분류되며, 저주파수 또는 제로 주파수이면, 단어 부분이 묵음으로 분류된다.
컴퓨터가 이 단어 부분들을 수집하여 분류할 때, 이 컴퓨터는 한 셋트의 단어 부분이 소정 분류의 단어상태 내에 함께 모아질 수 있도록 3개의 가능한 분류들 중의 한 분류로 분류된 짧은 단어 부분들이 충분히 밀접하게 배치되는 가를 항상 검사한다. 단어 상태가 있는 것으로 결정되면, 이 상태의 분류 및 이 상태의 길이(기간)은 마이크로컴퓨터에 의해 기억된다. 이 때 마이크로컴퓨터는 말해진 단어의 10msec 샘플들을 취하여, 이것들을 분류한 다음, 상태가 인지되어야 하는지의 여부를 계속해서 결정한다.
어떤 비-묵음 상태가 각각의 길이를 따라 인지되어 기억된 후에, 컴퓨터는 단어의 끝을 계속 검사한다. 이 단어의 끝은 기다란 충분한 일련의 10msec 부분들이 묵음으로 분류되었을 때 결정된다. 예를들어, 본 발명의 양호한 실시예에서는 마이크로컴퓨터가 단어가 완성되었다는 것을 알기 전에 묵음으로 분류된 16개의 연속적이 10msec 단어 부분들이 필요하게 된다.
완성된 단어가 기억 장치 내로 들어 갔다는 것을 표시하자 마자, 마이크로컴퓨터는 즉시 말해진 단어의 입력으로부터 수집된 상태의 어레이를 마이크로컴퓨터 내에 영구적으로 기억된 일련의 단어 템플레이트와 비교한다. 이것은 상이한 화자에 의해 매우 다르게 말해진다 하더라도 동일하게 단어들을 인지하게 하는 비교 방법이다. 간단한 예로서 이점에 대해 설명하겠다. 말해진 단어 “lights”를 인지하는 것이 바람직하다고 가정하겠다. 본 발명의 마이크로컴퓨터 내로 말해질 때 단어 “lights”는 3개 상태의 어레이를 발생시킨다. 제1상태는 모음-형이고, 제2상태는 묵음이며 제3상태는 마찰음-형이다. 그러나, 어떤 사람은 “lights”를“lice”로 발음한다. 최종 상태 어레이는 첫째가 모음-형 상태이고, 둘째가 마찰음-형 상태인 단지 2개의 상태를 갖게 된다. “t”음이 형성될 때 통상적으로 생기는 묵음 상태는 생략된다. 그러나, 묵음 상태가(이 예에서) 단어를 확인하는데 절대적으로 필요하지는 않기 때문에, 본 시스템은 단어가 3개 상태 어레이, 즉 모음-묵음-마찰음이나 2개 상태 어레이, 즉 모음-마찰음으로 발견되는지를 인지하게 된다.
이러한 신축성을 제공하기 위한 한 방법은 컴퓨터가 소정의 단어로 인지해야 하는 각각의 상이한 가능한 입력 상태 어레이를 포함하도록 더 많은 템플레이트들을 추가시키는 것이다. 그러나, 화자들 사이에 발음 변화가 큰 단어의 경우에는, 기억 용량이 문제가 된다.
본 발명의 해결 방법은 마이크로컴퓨터가 인자하려고 하는 각각의 단어에 대해 각각의 템플레이트 내에 3개의 어레이를 기억시키는 것이다. 제1어레이는 소정의 단어에 대한 모든 가능한 단어 상태들의 목록이다. 이 단어 상태들은 이 단어 상태들이 소정의 화자의 언어 내에서 생기는 순서로 모여진다. 그러나, 대부분의 경우에는, 말해진 단어를 해석한 후 컴퓨터에 의해 결정된 단어 상태 어레이 내에서 실제로 발견되는 것보다 더 많은 템플레이트 단어 상태 어레이 내의 단어 상태가 있게 된다. 이것은 단어 “lights”를 “lice”로 말하는 사람이 컴퓨터가 그의 단어 “lice”를 2개 상태(모음-마찰음)의 어레이로 기억한다는 것을 알고 있는 상기 예에 설명되어 있다. 그러나, “lights”에 대한 단어 템플레이트의 단어 상태 어레이는 모든 3개의 가능한 상태, 즉 모음-묵음-마찰음을 포함하게 된다.
템플레이트 내의 제2어레이는 템플레이트의 단어 상태 어레이의 각각의 상태에 할당된 일련의 웨이트(weight) 또는 수치 값이다. 높은 웨이트는 소정의 단어를 인지하는데 매우 중요한 상태를 위해 제공되고, 낮은 웨이트는 소정의 단어를 인지하는데 그렇게 중요하지 않은 상태를 위해 제공된다. 상기 예에서, 초기 모음-형 및 최종 마찰음-형 상태들은 높은 웨이트로 할당되지만, 덜 중요한 중앙 묵음 상태는 낮은 웨이트로 할당된다.
제3배열은 일반 표준 화자가 특정한 상태를 소리내는데 걸리는 시간 길이를 나타내는 각각의 상태에 대한 숫자를 제공한다. 예를들어, 단어 “lights”에서, 일반 표준 화자는 모음-형 상태에 220msec, 묵음 상태에 20msec 및 마찰음-형 상태에 120msec가 걸린다.
상술한 바와 같이, 상태 어레이가 미지의 입력 단어를 위해 형성된 후에, 컴퓨터는 템플레이트 어레이의 소자들을 입력 언어 어레이의 소자들과 비교한다. 이미 기술한 바와 같이, 입력 단어는 각각의 단어 상태의 분류를 나타내는 단어상태 어레이 및 화자가 각각의 분리된 상태를 소리내는 시간의 길이를 나타내는 길이 어레이를 갖고 있다. 마이크로컴퓨터의 어휘를 나타내는 템플레이트열 내의 제1템플레이트가 시작되면, 컴퓨터는 먼저 말해진 단어 입력의 제1상태 제1템플레이트 단어의 제1상태와 비교한다. 제1상태의 분류들이 동일하면, 컴퓨터는 그 상태에 대한 평균 길이와 그 상태에 대한 실제 말해진 길이 사이의 절대 차이를 계산한다. 그 다음, 이 값은 변수 SCORE내에 이미 기억된 총계 값에 더해진다. 이것이 단어에 대해 비교되는 제1상태이면, 변수 SCORE는 이미 0으로 셋트되어 있게 된다.
한편, 템플레이트의 제1상태가 입력 단어의 제1상태와 동일한 분류를 갖고 있지 않으면, 제1상태에 대응하는 웨이트 어레이 내의 값은 변수 SCORE에 더해진다.
제1상태를 비교한 후, 컴퓨터는 제2상태를 비교한다. 단어 템플레이트 내의 제1상태의 분류 및 입력 단어 상태 어레이 내의 제1상태의 분류가 동일하면, 마이크로컴퓨터는 입력 단어 상태 어레이의 제2상태를 템플레이트 어레이의 제2상태와 비교한다. 이 분류들이 동일하면, 길이 차이의 절대값이 다시 한번 변수 SCORE에 더해진다. 일치하지 않으면, 템플레이트 단어 어레이의 제2상태에 할당된 웨이트가 변수 SCORE에 더해진다.
제1상태의 분류들이 초기에 일치하지 않으면, 컴퓨터는 템플레이트 어레이의 제2상태를 입력 단어 상태 어레이의 제1상태와 비교한다. 제2비교에 대한 상태 수에서 이 불일치는 초기 상태 불일치가 입력 단어 상태 어레이 내의 부족(MISSING) 상태로 인한 것이라는 가설에 기인한다. 이때 일치하면, 길이들 간의 차이의 절대값은 SCORE내에 들어가게 되고, 분류들이 일치하지 않으면, 템플레이트 단어 어레이의 제2상태에 할당된 웨이트가 변수 SCORE에 더해지게 된다. 이 과정은 템플레이트 단어의 끝 또는 입력 단어 어레이의 끝이 도달될 때까지 계속된다. 템플레이트 어레이의 끝이 먼저 도달되면, 입력 단어 상태 어레이 내의 나머지 상태들의 길이가 함께 더해져서 변수 SCORE에 더해진다. 이 길이들 중의 어느 한 길이가 소정의 임계 레벨 이하로 있으면, 부족 값은 대체되어, 다른 길이에 따라 증가된다. 입력 단어 상태 어레이의 끝이 먼저 도달되면, 템플레이트 단어내의 나머지 상태들에 대응하는 웨이트는 함께 더해져서 변수 SCORE에 더해진다.
입력 단어 상태 어레이와 제1템플레이트 단어의 템플레이트 어레이의 비교가 끝난 후에, 컴퓨터는 입력 단어 상태 어레이를 제2템플레이트 어레이와 비교한다. 상술한 비교와 유사한 비교후에, 변수 SCORE의 값은 변수 SCORE에 대한 이전의 값과 비교되고, 낮은 값에 대응하는 템플레이트는 적당한 단어로 임시로 표시된다. 마이크로컴퓨터 내의 모든 템플레이트들이 입력단어 상태 어레이와 비교된 후, 최조 SCORE 값을 갖고 있는 인지될 단어와 가장 유사한 단어로 표시된다. 그 다음, 이 템플레이트에 대한 변수 SCORE의 값은 이미 결정된 임계값과 비교된다. 값이 이 임계값을 초과하면 단어는 거부되어 어떠한 단어로 인지되지 못하게 된다. 그러나, 값이 임계값 미만이면, 단어는 변수 SCORE에 대한 최저값을 갖고 있는 템플레이트에 대응하는 단어로 인지된다.
단어 “lights”의 경우에, 기억된 템플레이트는 3개의 배열을 갖게 된다. 제1어레이는 3개의 상태를 갖게 된다. 이 상태들은 모음-형, 묵음 마찰음-형으로 된다. 각각의 상태에 대해 선택된 대응하는 웨이트는 프로그래머가 각각의 상태에 할당한 웨이트에 좌우된다. 발음 “lice”가 단어 “lights”대신에 인지질 경우에, 제2상태는 낮은 웨이트로 할당된다. 그러므로, 예를들어 웨이트 어레이는 10, 7 및 10으로 된다. 상술한 바와 같이, 이 상태들에 대한 평균 길이는 실험적으로 결정된다. 그러므로, 길이 어레이는 22, 2 및 12로 될 수 있다. 이 숫자들은 양호한 실시예에서 10msec의 단위로 있다. 입력 단어가 단어 “lights”를 “lice”로 발음하는 사람에 의해 말해진 경우에, 입력 단어 상태 어레이는 2개의 상태, 즉 1개의 모음-형 및 1개의 마찰음-형을 갖게 된다. 이 상태들의 길이가 평균화되어 있다고 가정하면, (바꾸어 말하면, 모음-형 상태에 대응하는 길이가 220msec이고, 마찰음-형 상태에 대응하는 길이가 120msec라고 가정하면) 입력단어에 대한 길이 어레이는 22 및 12로 된다. 그러므로, 이 입력 단어 상태 어레이가 단어 “lights”에 대한 템플레이트 어레이와 비교되면, 다음의 결과들이 생기게 된다. 템플레이트 내의 제1상태는 입력 단어 내의 제1상태에 비교되고, 분류들은 동일하게 된다. 그 다음 컴퓨터는 길이들을 비교하게 되는데, 이 길이들도 동일하게 된다. 그러므로, 변수 SCORE에 더해진 총계 값은 0으로 된다. 다음 단계는 템플레이트 내의 제2상태를 입력 단어 상태 어레이 내의 제2상태와 비교하는 것이다. 2개 상태의 분류들이 상이하기 때문에, 템플레이트의 제2상태의 웨이트(즉, 7)는 변수 SCORE에 더해지게 된다. 그 다음, 마이크로 컴퓨터는 템플레이트의 제3상태를 입력 단어의 제2상태와 비교한다. 이 상태들이 동일한 분류이고 길이가 동일하기 때문에, 어떠한 부수적인 값도 변수 SCORE에 더해지지 않는다.
그 결과, “lice”로 발음된 단어 “lights”에 대한 변수 SCORE의 값은 7로 된다. 마이크로컴퓨터 템플레이트 어레이 내의 다른 어휘 단어들이 적당하게 설정되면, 이것은 최저 스코어로 되어, 임계값 미만으로 된다. 이때, 컴퓨터는 단어 “lights”가 인지되었다는 것을 표시하게 된다.
그러므로, 상이한 발음을 하는 상이한 화자가 말할때 동일한 단어를 인지하게 되는 저렴한 언어 인지 마이크로컴퓨터가 제공된다.
이제부터 첨부한 도면을 참조하여 본 발명의 이 장점들 및 그 외의 다른 장점들에 대해서 상세하게 기술하겠다.
먼저 제1도를 참조하면, 입력 언어 신호가 10msec 단위로 샘플되면, 1KHz의 정현파 주파수는 10msec마다 10개의 정(+)행 제로 크로싱 계수를 산출한다. 마찬가지로, 제로 크로싱 임계점이 감지된 정현파의 극대점 사이에 있다고 가정하면, 5KHz의 주파수는 10msec 마다 50개의 정(+)행 제로 크로싱 계수를 산출한다. 만약, 언어 패턴을 측정할 때, 증폭기가 심하게 제한되어 사용되면, 본질적으로 모든 언어 패턴은 증폭기를 포화시키어 제로 크로싱 계수를 발생시키게 된다. 그러므로, 심하게 제한된 증폭기로부터 전기 신호를 감시함으로써 실현되는 최종 계수는 평균 주파수 측정을 제공한다. 제2도의 계통도에 도시한 바와 같은 본 발명의 시스템에 있어서, 마이크로폰(11)은 모든 언어 신호들의 제로 크로싱 데이타를 발생시키도록 포화되는 고이득 음성 증폭기(13)에 음성 신호 입력을 제공한다. 이 신호는 모토로라 반도체 회사에서 제조한 MC 6805 P2 마이크로컴퓨터 칩과 같은 마이크로컴퓨터 칩(17)의 타이머 입력으로 선로(75)를 통해 공급된다. 이 타이머 입력(75)는 음성 증폭기(13)이 포화 상태에서 5V 출력을 제공할 경우에 타이머의 입력이 마이크로폰(11)에 공급된 음성 신호의 평균 스펙트럼 주파수와 등가인 주파수에서 발생되도록 0.8V의 임계 전압에서 부(-)행 신호를 감지한다.
마이크로프로세서(17)내에서, 해독 전용 메모리(19)는 언어 인지 시스템용의 퍼엄웨어(firmware)뿐만 아니라 인지될 단어의 퍼엄웨어 언어 템플레이트도 포함한다. 그러므로, 언어 인지 시스템이 해석되게 하는 선정된 선택된 어휘는 마이크로컴퓨터(17) 제조시에나 최소한 마이크로컴퓨터(17)을 판매하기 전에 해독 전용 메모리(19)내에 영구적으로 기억된다. 그러므로, 이 언어 인지 장치를 이용하는 동안에는 어휘 연습을 하지 않아도 되며, 이것의 임무(task)는 어휘를 인지 가능한 단어 그룹에 제공하고 언어 인지 시스템을 값싸게 제조할 수 있도록 하기 위해 최초 제조시에 제공된다.
해독 전용 메모리(19)내에 기억된 퍼엄웨어에 따라서, 제2도의 언어 인지 시스템은 제3도 내지 제8도의 유통도에 도시된 과정에 따라 마이크로폰(11)로부터의 입력 언어 테이타를 분석한다.
먼저 제3도를 참조하면, 이 시스템은 전력이 마이크로컴퓨터(17)에 최초 공급될 때 단계(111)에서 초기치 설정된다. 이 초기치 설정은 이 장치의 출력단으로서 제2도의 단(A, B 및 C, 즉 21, 23 및 25)를 지정한다. 이 각각의 단자(21 내지 25)는 마이크로컴퓨터(17)의 입력이나 출력과 같이 동작하며, 이 단들을 지정하면 언어 인지로터 발생된 출력 데이타가 단(A, B 및 C)중의 어느 한 단에 제공되게 한다는 것을 알 수 있다. 이 지정은 단계(113)에서 이루어지고, 그 다음, 마이크로컴퓨터(17)의 등속 호출 메모리(27)내의 레지스터 내에 기억된 변수들은 단계(115)에서 초기치 설정된다. 제3도의 유통도 및 제4도 내지 제8도의 유통도는 분기점에서와 같이 순서가 유통도 내의 여러 점프점(jump point)으로 귀환되게 하는 귀환점 TT16(117)과 같은 귀환점들을 포함한다.
단계(115)에서 초기치 설정되는 변수들은 다음과 같이, FCNT는 마찰음-형 계수이고 현저한 고주파수 소리에너지를 가진 10msec 기간의 수를 정한다. VCNT는 현저한 저주파수 언어 출력을 가진 모음-형 10msec 기간을 계수하기 위해 사용된 변수이다. SCNT는 본질적으로 언어 내용을 갖고 있지 않은 10msec 묵음 기간을 계수하기 위해 사용된 변수이다. X는 언어 패턴을 식별하기 위해 사용된 상태 순서 내의 연속 상태 및 이에 관련된 분류(마찰음-형, 모음-형, 묵음)들을 숫자로 식별하기 위해 사용된 포인터 변수이다. 변수 N은 입력 단어의 모든 상태수를 정한다.
단계(119)에서, 한 쌍의 배열이 초기치 설정된다. 배열 SEG(X)는 입력 단어의 실제 상태 순서, 즉 마찰 음-형, 모음-형, 또는 묵음과 같은 각각의 세그먼트를 식별하는 각각의 세그먼트 X의 데이타를 포함한다. 어레이 VOWL(X)는 상태의 길이, 즉 특정 상태로서 식별된 세그먼트 X 내의 10msec 기간의 수를 정한다.
이 변수와 어레이들은 다음 표를 통해 더욱 잘 이해할 수 있다.
[표 1]
상기 표로부터, SEG(X)는 단어 내의 특정한 상태가 마찰음-형, 즉 주로 고주파 음향 에너지일 경우에 이 단어 내의 특정한 상태에 대하여 2로 정해진다는 것을 알 수 있다. 이와 마찬가지로, 단어 상태가 주로 모음-형이면, SEG(X)는 1로 정해지고 0은 묵음 상태로 정해진다. 상술한 바와 같이, 전형적인 발음을 할 때, 단어 six의 경우에 N이 4와 동일하게 되도록 하는 4개의 연속 상태가 있다. 1에서 4까지의 X값에 대하여, SEG(X)는 순서 2 1 0 2 또는 마찰-형, 모음-형, 묵음, 마찰음-형으로 된다. 단어 six의 맨 처음 “s”는 X가 1로 되는 마찰음-형 상태를 제공한다. 단어 six의 모음은 X가 2로 되는 모음-형 상태를 제공한다. 단어 six 내의 X 소리를 형성하기 전에, 마찰음 X를 소리내기 위해 에너지를 기억시킬 때 음성의 통로는 SEG(X)=0에 의해 X=3으로 정해진 순간 묵음을 발생시키도록 폐쇄된다. 이 짧은 묵음은 SEG(X)=2로 도시된 X=4에서의 마찰음-형 X 소리 다음에 오게 된다.
어레이 VOWL(X)는 X=2에서 모음-형 소리, 즉 단어 six에서의 각각의 상태의 기간을 정하는 값 Q1, Q2Q3, Q4를 기억한다.
다음 설명을 통해 더욱 잘 이해하게 되겠지만, 예를들어, X=2 또는 X=4에서의 마찰음-형 상태를 정하기 위해서, 마찰음-형 소리 에너지는 선정된 기간을 가져야 한다. 이 기간은 마찰음-형 에너지가 생기는 동안 10msec 기간을 계수하는 변수 FCNT에 의해 측정된다. 이와 마찬가지로, 상기 예의 X=2에서의 모음-형 상태는 변수 VCNT를 사용하여 기억되는 모음-형 평균 주파수가 예정된 기간 동안 존재하도록 요구한다. 변수 SCNT는 유사한 방법으로 묵음 기간을 계수하기 위해 사용된다.
제3도에 도시된 순서를 참조하면, 단계(115 및 119)에서 변수 및 어레이를 초기치 설정한 다음에, 마이크로프로세서(17)내의 제로 크로싱 계수기(31)은 단계(121)에서 시작된다. 이것은 고이득 음성 증폭기(13)으로부터 출력 신호가 전치 계수기(33)의 임계점, 이 예에서는 0.8V에 일치할 때마다 계수기(31)이 증가하게 한다. 귀환점 TT2는 제3도에 (123)으로 도시되어 있고 상술한 바와 같이, 시스템 내에 루우프를 제공하도록 사용된다. 단계(125)에서, 10msec의 지연은 제로 크로싱 계수기가 단계(121)에서 시작된 직후에 즉시 초기화 된다. 이 10msec 지연은 제2도에 도시한 타이머(31) 및 타이머 제어 장치(35)에 의해 측정된다.
이 10msec 지연이 끝날 때, 제2도의 RAM(27)내에 기억된 변수 ZCRA는 계수기(31)내의 계수, 즉 이 10msec 기간 동안의 모든 제로 크로싱 계수와 같게 된다. 단계(127)에 도시한 바와 같이 이 값이 기억되면, 제로 크로싱 계수기(31)은 즉시 리셋트되고 단계(129)에서 다시 시작되므로, 다음 10msec 기간 동안의 제로 크로싱 데이타는 누산되고 RAM(27)내에 변수 ZCRA로 기억된 제1의 10msec 기간으로부터의 제로 크로싱 데이타는 분석된다. 마이크로프로세스 시스템은, 제1의 10msec시간 데이타에 관련될 때, 모든 나머지 과정 부분을 단계(125)에서 10msec 지연이 끝나기 전에 충분히 완료시킬 수 있을 정도로 신속하다. 그러므로, 다음 설명에서 알 수 있는 바와 같이, 이 최초의 10msec 데이타가 분석된 후, 프로그램은 단계(125)에서 다음의 10msec 기간이 끝나는 것을 기다리기 위해 지점 TT2(123)으로 귀환되므로, 다음의 제로 크로싱 계수는 단계(127)에서 기록될 수 있다.
입력 제로 크로싱 계수를 분석할 때의 제1단계는 이 계수와 2를 비교하는 것이다. 만약 제1도에 도시한 바와 같이 제로 크로싱 계수가 2보다 작으면, 선로(75)를 통해 이 시스템으로 들어가는 주요 에너지는 200Hz미만으로 되거나, 제로 크로싱이 없는 경우에는 에너지는 없게 된다. 이것은 묵음 기간으로 해석된다. 그러므로, 단계(131)에서 이루어지는 비교는, 제로 크로싱 계수가 2보다 작을 경우에 단계(133)으로 계속된 과정을 실행하도록 명령하고 제로 크로싱 계수가 2보다 클 경우에는 루우프 지점 TT9(135)로 가도록 명령하는 유통도 분기 단계를 정한다. 다시 말하면, 이 10msec 기간동안, 선로(75)(제2도) 상의 입력 신호가 묵음을 내게 되면, 순서는 단계(133)으로 계속된다. 한편, 인지 가능한 소리가 나게되면, 프로그램은(135)로 점프하게 된다.
만약 이 특정한 10msec기간 동안 ZCRA 레지스터 위치 내에 기억된 제로 크로싱 계수가 묵음을 표시하는 2보다 작다고 가정하면, 단계(133)은 묵음 계수 변수인 변수 SCNT를 증가시키므로, 이 변수는 묵음의 1개의 10msec 기간을 표시하는 1과 같게 된다. 다음 설명에서 알 수 있는 바와 같이, 변수 SCNT는 실제 묵음 상태의 여부를 결정하도록 모든 10msec 묵음 증가수를 계수하기 위해 사용된다. 물론, 이미 설명된 순서에서, 만약 모든 과정이 곧 시작되면, 이 최초 묵음 증가는 인지될 언어 소리가 아직 시작되지 않았다는 것을 나타낸다. 이 사실은 현재의 세그먼트, 즉 감시된 가장 최근의 상태과 0과 같거나 묵음인지의 여부를 결정하도록 0과 값 SEG(X)을 비교하는 단계(137)에서 결정된다. 프로그램 동작의 개시시에, 이 예에서, SEG(X)가 단계(119)에서 0과 같게 되므로, 분기 단계(137)은 지점 TT12(139)에서 계속하도록 순서를 명령한다. 이 귀환점 TT12(139)은 제3도의 유통도의 하부에 도시한 귀환점(139)로 순서를 점프시킨다. 그러므로, 이미 설명한 바와 같이, 현재 묵음 상태에 있고, 다른 묵음 증가를 측정하며 단계(133)에서 묵음 계수를 증가시키고, FCNT 변수 및 VCNT 변수는 단계(141)에서 0으로 셋트된다. 모든 묵음 계수는 다음에 단계(143)에서 10진법으로 16인 16진법 숫자 10과 비교된다. 본래, 이 단계(143)은 묵음 계수가 10msec의 16배, 또는 160msec의 모든 묵음 기간을 표시하는 16에 도달하는지의 여부를 결정한다. 이 묵음 계수가 16보다 작으면, 프로그램은 더 큰 제로 크로싱의 10msec 데이타를 받아 들이도록 이미 설명된 귀환점 TT2(123)으로 분기된다. 그러나, 16 묵음 계수가 있으면, 순서는 단계(145)에서 계속된다.
단계(145)에서, 변수(X)는 어떤 상태가 이 단어에 대해 기록되었는지의 여부를 결정하기 위해 0과 비교된다. 특히, 이 단계(145)는 순서가 단어의 처음 부분을 기다리는 지의 여부를 결정하기 위한 검사 단계이다. 만약 X가 0과 같으면, 프로그램은 변수와 어레이가 단계(115 및 119)에서 다시 초기치 설정되고 데이타 수집을 단계(121)에서 다시 시작되게 하는 귀환점(117)로 되돌아 간다.
이때, 프로그램이 각각의 160msec의 묵음 자체를 다시 초기치 설정하는 상기 순서를 통해 계속적으로 루우프된 후에, 단어는 선로(75, 제2도)상에 최초의 의미상 제로 크로싱 데이타를 제공함으로써 말하여진다.
이때, 10msec 샘플링기간이 2이상의 ZCRA 제로 크로싱 계수를 만들면, 단계(131)은 프로그램을 귀환점 TT9(135)로 분기시킨다. 이 귀환점 TT9(135)는 제4도에 초기 단계로서 도시되어 있다.
제4도는 현재의 샘플이 선로(75,제2도) 상의 입력 단어가 묵음이 아닌 것을 표시할 때 지점 TT9(135)에서 시작된다. 이때 소리가 이 10msec 기간 내의 마찰음-형 또는 모음-형 인가의 여부가 결정되어야 한다. 이 검사는 0과 현재 상태 SEG(X)을 비교하는 분기 단계(147)에서 시작된다. 이 예에서, 만약에 순서가 언어 소리의 초기에 있으면, SGE(X)가 단계(119)에서 0으로 셋트된 것을 상기하게 되므로, 순서는 분기 단계(149)로 계속된다. 이 단계에서, 제로 크로싱 계수 ZCRA는 16진법값 10이나 10진법값 16과 비교된다. 제로 크로싱 계수가 단계(131)에 결정된 바와 같이, 16보다 작고 2보다 크면, 제1도에 도시한 바와 같이, 시험된 10msec기간 동안의 평균 주파수는 200Hz 보다는 크고 1600Hz 보다는 작게되므로 모음-형 소리로서 해석된다. 그러므로, 귀환점(151)을 통과한 후, 단계(153)은 모음-형 10msec 기간을 계수하기 위해 사용되는 변수 VCNT를 증가시킨다. 단계(155)에서, 변수 VCNT의 값, 즉 모음-형 10msec 기간의 모든 수는 모음-형 기간이 60msec이었는지의 여부를 결정하기 위해 6과 비교된다. 이 예에서, 분기 단계(155)는 단어가 금방 시작된 후 VCNT 값이 단계(153)에서 1로 증가되는 것을 표시하고, 순서는 부수적인 10msec 입력 데이타를 수집하기 위한 귀환점 TT2(123)으로 귀환된다. 그러므로, 단일의 10msec 샘플링 기간이 모음-형 상태를 정하기에 불충분하기 때문에, 아직 상태가 인지되지 않았다. 그러나, 변수 VCNT는 단어가 200Hz 내지 1600Hz 사이의 주파수에서 주요 에너지를 갖고 있는 소리로 실제로 시작되는지를 결정하기 위해 모음-형 10msec 기간을 계속 계수할 수 있도록 증가된다.
귀환점 TT2(123)으로 귀환시킴으로써, 단계(153)이 변수 VCNT를 값 6으로 증가시키도록 5개의 부가 시간이 상술한 순서 다음에 온다면, 순서는 단계(152)로 계속된다. 단계(152)에서, 이전의 단어의 상태의 분류가 무엇이었는지를 결정하기 위해 SEG(X)를 값 2와 비교한다. 이 목적을 위해, 그 단어 상태의 길이가 어떠했는지를 결정할 필요가 있다. 이전의 단어 상태가 마찰음이었다면, SEG(X)는 VOWL(X)가 FCNT와 동일하게 셋트된 후 귀환점 TT25(158)로 이동하는 단계(156)에서 귀환점 TT24(154)를 통과해 2와 동일하다는 것을 알게 된다. 이전의 단어 상태가 묵음이었다면, SEG(X)는 2와 동일하지 않게 되고 SCNT와 동일한 VOWL(X)를 셋트시킨 후 TT25(158)로 이동시키는 단계(160)으로 이동된다. 다음 단계는 포인터 변수 X가 증가되는 (157)이므로, 이 변수는 인지될 단어 내의 제1상태를 확인하는 1과 동일하게 된다. 단계(159)에서 SEG(X)의 제1 값은 SEG(X)에 대하여 모음-형 상태를 표시하는 1로 셋트된다.
단계(159)에서 제1 상태를 정하면, 프로그램은 귀환점 TT4(164)를 거쳐, 6개의 모든 모음-형이 증가하게 되는 기간 동안 묵음 계수 및 마찰음-형 계수가 사이에 끼어드는 경우에 변수 SCNT 및 FCNT가 0으로 셋트되는 단계(163)으로 계속되므로, SCNT 및 FCNT 변수의 새로운 계수가 다시 시작되고, 순서는 제3도에 도시한 귀환점(123)으로 계속된다.
이 단어의 초기에, 모음-형 소리가 아니라 마찰음-형 소리가 선로(75,제2도)상에 나타나면, 단계(149)에서의 분기 검사는 1600Hz이상의 평균 소리 주파수를 표시하는 16진법 값 10 또는 10진법값 16이상의 제로 크로싱 계수를 만들게 된다. 이 경우에, 순서는 귀환점 TT7(165)를 거쳐, 마찰음-형 10msec 샘플을 계수하는 FCNT 변수를 증가시키는 단계(167)로 계속된다. 다음에 변수 FCNT는 마찰 음-형 소리의 20msec의 모든 수가 감시되고 있는지의 여부를 결정하기 위해 단계(169)에서 값 2와 비교된다. 20msec 미만의 마찰음-형 소리가 최종 상태 확인 후에 감시되면, 프로그램은 지점 TT2(123)으로 되돌아 오게 된다. 그러나, 변수 FCNT가 값 2와 같거나 이 값 보다 크면, 분기 단계(171)은 가장 최근에 정해진 단어 상태가 모음-형 소리인가의 여부를 결정한다. 설명한 예에서, SEG(X)가 0으로 셋트되므로 프로그램을 변수 VOWL(X)가 0으로 셋트되는 단계(173)으로 계속되고, 프로그램은 지점 TT14(175)로 귀환된다는 것을 알 수 있다. 프로그램이 지점 TT14(175)로 귀환되는 경우에, 단어의 초기 이외의 다른 부분은 모음-형 소리가 마찰음-형 소리보다 선행할 때 모든 모음 계수 변수 VCNT를 기억시키는데 이용될 수 있다. 그러므로, 분기 단계(171)에서 검사가 가장 최근에 감시된 상태가 모음인 것을 표시하면, 프로그램은 귀환점 TT15(177)을 거쳐, 증가 단계(153)에서 이미 기억된 값 VCNT와 같게 변수 VOWL(X)를 셋트시키도록 계속된다. 이것은 단계(179)에서 생긴다. 그 다음 이 과정은 이미 기술한 단계(159)와 유사한 방법으로 단계(183)에서 마찰음-형 소리, 즉 SEG(X) 배열 내의 다음 상태를 2로 정하기 위해 이미 설명한 단계(157)과 유사한 방법으로 귀환점 TT14(175)를 거쳐 단계(181)에서 X를 증가시키도록 계속되고, 귀환점 TT17(185)를 거쳐 계속된다. 이미 설명한 단계(163)과 유사한 방법으로, 단계(187)에서의 순서는 변수 SCNT 및 VCNT를 리셋트시키고, 부수적인 데이타를 수집하기 위해 제3도의 단계(123)의 지점(TT2)로 프로그램을 귀환시킨다.
상술한 설명으로부터, 분기 단계(147)에서 결정된 것과 같이 이전의 상태가 묵음이었다면, 60msec의 모든 모음-형 기간은 모음-형 상태로 정해지게 되고 20msec의 모든 마찰음-형 기간은 인지될 이 단어의 제1상태와 같이 마찰음-형 상태로 정해지게 된다는 것을 알 수 있다.
본질적으로, 지금까지 설명한 것은, 특정한 상태로 입력 데이타를 받아들이도록 시스템의 순서 내의 선정된 시간, 이 경우에는 모음-형 소리에 대한 60msec와 묵음 다음의 마찰음-형 소리에 대한 20msec동안 예정된 상태가 계속되도록하는 시스템내의 히스테리시스 형태이다.
다음 설명으로 알 수 있는 바와 같이, 이전 상태를 식별하는 것을 특정한 소리가 모음-형인지 마찰음-형인지를 결정하기 위해 사용되는 주파수 식별을 변화시키기 위해 사용된다. 그러므로, 단계(149)에서는, 이전 상태가 상태(147)에서 묵음으로 정해졌기 때문에, 1600Hz 이상의 주파수가 마찰음-형으로 정해진다. 다음 설명으로부터 알 수 있는 바와 같이, 가장 최근에 정해진 상태가 모음이라면, 특정한 10msec기간은 이 기간의 평균 주파수 크기가 2400Hz를 초과하지 않는 한 마찰음-형으로 정해지지 않게 된다. 이것은 모음-형 소리에서 마찰음-형 소리로 통과하기 위한 임계값이 증가되는 경우에 에러율이 감소되기 때문에, 묵음 다음의 마찰음-형 소리 보다는 모음 다음의 마찰음-형 소리를 인지하기가 더욱 어렵게 하는 부수적인 히스테리시스 형태이다. 그러므로 단계(169 및 155)에서 각각 필요로 하는 마찰음-형 및 모음-형 기간에 의해 발생한 시스템의 기본 히스테리시스 이외에도, 가변 히스테리시스가 이전의 단어 상태에 따라 모음-형 및 마찰음-형 10msec기간 사이의 주파수 전이점을 변화시킴으로써 시스템 내에 도입된다.
다음 순서는 이 히스테리시스 원리를 설명한다. 단계(147)에서, 가장 최근에 정해진 단어 상태가 묵음이 아니었다고 결정되었으면, 프로그램 순서는 귀환점 TT8(189)를 거쳐, 이전의 단어 상태가 SEG(X)를 값 1과 비교함으로써 모음-형 소리였는지의 여부를 결정하는 분기 단계(191)로 계속된다. 만약 이전의 상태가 모음-형 소리였다면, 순서는 제로 크로싱 계수가 2400Hz의 평균 주파수를 표시하는 16진법 값 18, 즉 10진법 값 24와 비교되는 분기 단계(193)으로 분기된다. 이 값이 2400Hz를 초과하지 않으면, 프로그램은 모음-형으로 이 10msec 기간을 확인하는 변수 VCNT를 증가시키며, 순서를 전술한 귀환점 TT4(161)로 귀환시키는 단계(195)로 진행된다. 한편, 분기 지점(193)에서, 주파수 크기가 2400Hz를 초과하면, 프로그램은 전술한 귀환점 TT7(165)로 진행하여, 단계(167)에서 변수 FCNT를 증가시키게 된다. 그러므로, 마찰음-형 10msec기간에 대한 임계 주파수는 이전의 기록된 단어 상태가 모음인지 아니면 묵음 상태인지의 여부에 따라 변한다.
분기 단계(193)은 이전 상태가 모음-형 소리일 경우, 즉, 단계(155)에서 처리된 검사는 60msec의 모음-형 소리가 생긴 것을 이미 표시하고 배열 SEG(X)가 모음-형 상태로 표시하도록 단계(159)에서 셋트된 경우에만 도달하게 된다는 것을 주목해야 한다. 물론, 1개의 모음-형 상태가 다른 모임-형 상태 다음에 오는 것은, 이것이 비교적 긴 모음 소리라는 것을 표시하기 때문에 바람직하지 못하다. 그러므로, 단계(195)에서 생기는 VCNT의 증가 및 귀환점 TT4(161)로의 프로그램 귀환은 다른 묵음이나 마찰음-형 소리의 기간이 나타날 때까지 모음-형 상태가 정해질 때 연속 모음-형 기간이 누산되게 하므로, 부수적인 모음형 기간은 부수적인 모음-형 상태를 만들지 않게 된다.
이와 마찬가지로, 분기점(191)에서, SEG(X)와 1을 비교한 것이 이전 상태가 1이 아니라는 것을 표시하면, 분리 단계(147)이 이전 상태가 묵음이 아니라는 것을 표시하기 때문에, 프로그램은 이전 상태가 마찰음-형 소리를 확인한 경우에는 단계(197)로 분기된다. 이 경우에, 가장 최근의 10msec기간에 대한 제로 크로싱데이타가 16을 초과하면, 이것은 가장 최근의 마찰음-형 상태를 만드는 마찰음-형 소리로 계속 누산되고, 길이 계수기 FCNT는 단계(198)내에서 증가된다. 프로그램은 이 프로그램이 부수적인 마찰음-형 상태를 만들지 않고서 부수적인 마찰음-형 10msec기간을 누산할 수 있도록 이미 설명한 귀환점 TT17(185)로 분기된다. 2개의 연속 마찰음-형 상태는 비교적 긴 마찰음-형 소리가 아니라 연속 위치 내의 단어 내에 있는 2개의 마찰음 형태를 잘못 표시하게 된다. 한편, 이전 상태가 마찰음-형 소리였고, 가장 최근은 10msec기간 샘플이 1600Hz이하의 평균 주파수를 발생시키면, 분기 단계(197)은 모음-형 소리의 초기를 식별하도록 프로그램을 이미 설명한 귀환점 TT6(151)로 귀한시키게 된다.
단계(195) 다음에, 단계(155)에서 정해진 계수 6이상의 모음-형 계수가 계속되면, 프로그램음 10msec 샘플이 연속적으로 생기지 않는 한, 때때로 모음-형소리 중간의 마찰음-형 기간과 묵음-형 기간이 묵음 상태나 마찰음-형 상태를 잘못 표시하도록 누산되지 않게 하기 위해서 변수 SCNT 및 FCNT를 0으로 셋트시키도록 귀환점(161)로 귀환된다는 것을 주목하여야 한다. 그러므로, 단일의 마찰음-형 및 묵음 샘플기간이 모음-형 계수 순서 중간에서 생기는 동안에, 변수 SCNT 및 FCNT는 이들 변수의 불연속 계수를 누산하지 못하도록 0으로 된다.
이와 비슷한 순서는 마찰음-형 소리가 생기는 분리된 묵음 기간 및 모음-형 기간만이 생기는 동안, 단계(187)에서 변수 SCNT 및 VCNT를 리셋트시키는 귀환점 TT17(185)에서도 생긴다.
제3도를 다시 참조하면, 순서는 어떤 소리가 나타나서 비묵음 기간을 표시한 경우에 분기 단계(131)로부터 귀환점 TT9(135)로 분기되고, 단계(137)에서, 묵음기간이 단어의 맨 처음에 있다면 순서는 귀환점 TT12(139)로 분기된다는 것을 알 수 있다. 분기 단계(137)에서, 가장 최근에 기록된 단어 상태가 묵음이 아니라는 것이 결정되면, 단계(131)에서 현재의 10msec 샘플 기간이 묵음 상태인 것을 결정하기 때문에, 순서는 변수 SCNT의 현재 값이 값 3과 비교되는 단계(199)로 분기된다. 즉, 묵음 기간이 음성 에너지가 파열음 소리고 기억되는 동안 음성 통로의 전-파열음 폐쇄와 같이 단어 내의 짧은 묵음 상태를 포착하기에 충분한 시간인 30msec를 초과하는지의 여부에 따라서 결정된다. 만약, 변수 SCNT가 3을 초과하지 않으면, 프로그램은 더 많은 기간 데이타를 수집하기 위해 귀환점 TT2(123)으로 분기된다. 만약, 변수 SCNT가 값 3을 초과하면, 프로그램은 가장 최근에 기록된 단어 상태가 모음-형 소리인지를 여부를 검사하기 위해 분기 단계(201)로 계속된다. 만약, 묵음 상태 이전의 최종 상태가 모음-형 상태라면, 프로그램은 귀환점 TT18(203)을 통해, 변수 VOWL(X)가 단계(179,제4도)에서 모음-형 소리를 전체 기간과 같게 이미 셋트된 변수 VCNT와 같게 셋트되는 단계(205)로 계속된다. 가장 최근의 상태가 마찰음-형 소리였다면, 분기 단계(201)은 프로그램을 변수 VOWL(X)내에 마찰음-형 상태, 즉 FCNT의 길이를 기억시키는 단계(207)로 계속시키게 된다. 그 다음 순서는 귀환점 TT19(209)를 통해 값 X가 증가되는 단계(211)로 계속되며, 묵음 계수 변수 SCNT가 3(단계 199)을 초과하기 때문에, 변수 SEG(X)는 단계(213)에서 묵음 상태를 정하도록 셋트된다. 동시에, 변수 VOWL(X)는 단계(211)에서 X가 증가함에 따라 위치가 단계(205)에서 셋트된 후 VOWL배열내의 다음 연속 위치로 되도록 리셋트된다.
상술한 바와 같이, 이때 단계(141)은 변수 SCNT 및 FCNT를 리셋트시키고, 묵음의 전체기간, 즉 변수 SCNT의 값이 16을 초과하는지의 여부를 결정하도록 단계(143)에서 비교를 하게 된다. 묵음 계수가 160msec를 초과하면, 상술한 바와 같이, 이전의 단어 상태가 기록되어 있는지의 여부가 단계(145)에서 결정된다. 만약 단어 상태가 기록되어 있으면, 160msec의 묵음 기간은 단어의 마지막을 표시하기에 충분히 길게 정해지므로, 프로그램은 단어 내의 모든 상태수를 표시하는 변수 N이 기록되어 있는 모든 단어 상태수를 정하는 변수 X와 같게 셋트되는 단계(147)로 분기된다. 단계(147)이 끝나면, 순서는 귀환점 TT23(215)를 통해 제5도에 도시한 단계의 순서로 계속된다.
다음 설명으로부터 알 수 있는 바와 같이, 제5도의 단계 순서는 최종 기록 단어 상태가 단모음-형 소리인가를 결정하도록 이 최종 기록 단어 상태를 조사하기 위해 사용된다. 단어의 끝에서의 단모음-형 세그먼트가 마찰음-형 소리의 끝에서의 에너지 감쇠 대신에 가끔 모음 표시를 잘못하기 때문에, 제5도에 도시한 단계의 순서는 이러한 단모음-형 어미 소리를 상태 순서로부터 제거하기 위해 사용된다.
초기에, 순서가 모든 단어를 160msec기간을 초과하는 묵음 상태 어미로 정하기 때문에 변수 X가 이미 기술한 바와 같이 묵음인 최종 기록 상태를 표시하도록 변수 X는 단계(217)에서 변수 N과 같게 셋트된다. 단계(219)에서, 변수 X는 어미 묵음 이전에 다음의 이전 단어 상태를 확인하기 위해 증가된다. 이 다음의 이전 단어 상태는 단계(221)에서 이 상태가 모음-형 소리이었는지를 결정하도록 값 1과 SEG(X)를 비교함으로써 확인된다. 만약에 모음-형 소리라면, 프로그램은 제6도에 도시한 귀환점 REC(223)으로 분기된다. 한편, 어미 묵음 전에 기록된 최종 단어 상태가 모음-형 소리이면, 분기 단계(225)는 16진법 값 10 또는 10진법 값 16과 단계(205,제3도)에서 셋트된 변수 VOWL(X)를 비교함으로써 160msec와 이 모음-형 소리의 전체 기간을 비교한다. 모음-형 소리가 160msec를 초과하면, 순서는 귀환점 TT22(227)로 계속된다. 한편, 어미 모음-형 소리가 160msec기간보다 짧으면, 이것은 잘못된 어미 모음으로 결정된다. 이 때문에, 이 잘못된 상태를 효과적으로 제거시키도록 변수 X와 N을 감소시키기 위해 단계(229)가 사용된다. 그 다음, 잘못된 어미 모음-형 상태 직전에 묵음 상태가 생겼는지를 결정하기 위해 단계(231)이 사용된다. 묵음 상태가 이 잘못된 모음-형 상태보다 먼저 생기지 않으면, 순서는 귀환점 REC(223)으로 계속된다. 그러나, 묵음 상태가 잘못된 모음-형 상태보다 먼저 생기면, 묵음 상태가 잘못되므로, 단계(233)에서 값 X와 N이 잘못된 묵음 상태를 제거시키도록 다시 감소된다.
배열 SEG(X)가 기록된 잘못된 상태를 제거시키도록 리셋트되지 않아도, 제6도로부터 알 수 있는 바와 같이 값 N의 감소로 단어 인지 순서에 관여하게 되는 이 잘못된 상태를 효과적으로 감소시킨다.
그러므로, 잘못된 어미 상태를 제거하면, 프로그램은 값 2와 변수 N을 비교하는 분기 단계(235)로 귀환점(227)로부터 계속된다. 변수 N은 기록된 최종 상태가 단어의 끝에서 묵음 상태이기 때문에 상태 순서 내의 실제 의미상 상태의 수 보다 1이 더 크다는 것을 알 수 있다. 그러므로, N과 2를 비교하면 상태 순서내에 한개 이상의 의미 상태가 있는지의 여부가 결정된다. 변수 N이 2를 초과하면, 의미 상태 순서가 정해지고 단계 순서는 제6도의 단계(223)으로 분기된다. N의 값이 값 2보다 작거나 이 값과 같으면, 단계(237)은 값이 1인지 2인지를 결정하도록 다시 값 2와 값 N을 비교한다. 값이 1이면, 단일 상태가 단어의 끝으로 묵음으로 되어 의미 상태가 순서가 없게 되기 때문에 모든 상태 순서가 제거된다. 그러므로, 프로그램은 제3도의 귀환점 TT6(117)로 귀환된다.
분기 단계(237)에서 N의 값이 2이어서 단어 내의 한개의 의미 단어 상태가 있다는 것이 결정되면, 변수 VOWL(X)의 값은 단계(239)에서 480msec의 모음-형 기간을 나타내는 16진법값 30 또는 10진법값 48과 비교된다. 단어 내에는 단일 모음-형 상태만 있으므로, 순서는 모음-형 상태가 이 상태 자체의 의미를 나타내기 위해 최소한 480msec 기간을 갖기를 요구한다. 기간이 480msec이하이면, 순서는 다시 초기치 설정을 하기 위해 제3도의 TT16(단계17)로 귀환된다. 한편, 모음-형 상태기 기간이 480msec를 초과하면, 순서는 제6도의 귀환점 REC(단계 223)으로 계속된다. 단일 상태 순서가 마찰음-형 소리만을 포함하면, 단계(187,제4도)은 값 VCNT를 0으로 셋트시킨다는 것도 알 수 있다. 그러므로, 분기 단계(239)는 순서를 다시 초기치 설정하도록 귀환점 TT16(117)로 프로그램을 귀환시키는 단일 마찰음 상태 순서를 효율적으로 제거시킨다.
제6도를 참조하면, 인지 순서는 귀환점 REC(223)에서 시작하는 것으로 도시되어 있다. 이 순서는 마이크로프로세서(제2도)의 해독 전용 메모리(19)내에 영구적으로 기억된 다수의 단어 템플레이트와 이미 기술한 어레이 SEG(X)내에 기억된 상태 순서에 의해 정해진 새로운 단어를 비교하기 위해 이용된다. 템플레이트는 다음의 포오맷에서 REF(XTMP), WT(XTMP) 및 LN(XTMP)로 확인된 어레이 내에 기억된다.
[표 2]
포인터 XTPMP는 어레이 내의 연속적인 메모리 바이트를 정하기 위해 사용된다. 해독 전용 메모리(19)내의 각각의 단어 템플레이트는 이 단어 템플레이트내의 상태수를 지정하기 시작한다. 상기 표 2의 예에서, 상태수는 REF(0)에 기억된 4이다. 이 초기 지정 다음에 단어 템플레이트 내의 상태 순서가 행해진다. 이 경우에, 상기 표 1과 마찬가지로, 영어 단어 six의 전형적 템플레이트는 다음의 순서로 기억된다 : 마찰음-형, 모음-형, 묵음, 마찰음-형, 즉 2102가 위치 내지 4에 기억된다. 템플레이트가 3개의 상태 템플레이트를 가졌으면, 초기 위치 REF(0)은 숫자 3을 갖고, 단지 3개의 상태 식별자만이 XTMP=1 내지 3을 뒤따르게 된다.
어레이 WT(XTMP)는 화자 집단에서의 각각의 기준 상태 발생 확률과 어휘 내의 다른 단어로부터 그 단어를 구별할 때의 이 기준 상태의 유용성에 비례하여 각각의 기준 상태에 할당된 웨이트를 포함한다. 어레이 LN(XTMP)는 각각의 상태의 평균 길이(기간)를 포함한다.
표 2에 나타낸 바와 같이, 다음의 연속적인 단어 템플레이트는 위치 REF(5)의 제1단어 템플레이트 직후에 뒤따르게 되고, 그후에 REF(5)에 기억된 이 다음의 템플레이트의 상태수가 뒤따르게 된다. 그러므로 각각의 템플레이트는 상태 순서 템플레이트가 상기한 길이를 갖더라도 연속적인 위치 STMP에 있는 해독 전용 메모리 내에 연속적으로 기억된다.
포인터 YTMP는 말해진 입력 단어 어레이의 연속 소자들을 정하는데 사용된다. 어레이 SEG(YTMP) 및 VOWL(YTMP)로 구성된 말해진 단어를 어레이 REF(XTMP) WT(XTMP) 및 LN(XTMP)로 구성된 기억된 단어 패턴과 비교할 때에는, 상태-대-상태 비교가 행해진다. 즉, 어레이 REF(XTMP)내에 포함된 기억된 단어 패턴의 제1상태는 어레이 SEG(YTMP)내에 포함된 새로운 단어의 제1상태와 비교된다. 이것들이 동일한 분류를 갖고 있으면, 변수 “SCORE”가 어레이 VOWL(YTMP) 및 LN(XTMP)내에 포함된 상태 길이들의 차이 만큼 증가된다. 이때 YTMP와 XTMP는 다음 상태 비교에 대비하여 증가된다. 제1상태의 분류들이 동일하지 않으면, 즉 어레이 REF(XTMP)에 따라 예상된 상태가 새로운 단어와 동일하지 않으면, 변수 SCORE가 어레이 WT(XTMP)내에 포함된 것과 같은 이 상태에 관련된 웨이트 만큼 증가된다. 어휘 단어들을 구별할 때 상태가 중요할 수록 웨이트는 점점 더 커져서, 변수 SCORE에 많은 영향을 미친다.
REF(1)에 기어된 제1템플레이트 단어의 제1상태 SEG(1)에 기억된 말해진 입력 단어 상태 어레이의 제1상태와 동일하면, 다음 비교시의 다음 상태, 즉 STMP와 YTMP는 말해진 입력 단어 상태 어레이의 제2상태 SEG(2) 비교에 대비하여 증가된다. 부수적으로, 마이크로컴퓨터는 제1템플레이트의 제1상태의 길이 LN(1)과 입력 단어 상태 어레이의 제1상태의 길이 VOWL(1) 사이의 차이의 절대값을 계산한다. 그 다음, 이 값은 변수 SCORE에 더해진다. 제1템플레이트의 제1상태 REF(1)이 입력 단어 상태 어레이의 제1상태 SEF(1)과 비교될 때, 분류들이 상이하다는 것이 발견되면, 제1템플레이트의 제1상태에 대한 웨이트 값 WT(1)이 변수 SCORE에 더해진다. 부수적으로, XTMP는 증가되지만, YTMP는 다음 비교에 대비하여 증가되지 않는다. 그 다음, 마이크로컴퓨터는 제1템플레이트의 제2상태 REF(2)를 말해진 입력 단어 상태 어레이의 제1상태 SEG(1)과 비교한다. 이 분류들이 동일하면, 제1템플레이트의 제2상태의 길이 LN(2)와 말해진 입력 단어 상태 어레이의 제1상태의 길이 SEG(1) 상이의 차이의 절대값이 변수 SCORE에 더해 진다. 분류들이 상이하면, 제1템플레이트의 제2상태의 웨이트 WT(2)가 변수 SCORE에 더해진다.
상개 SEG(1)의 경우에 REF(XTMP)가 일치하면, YTMP와 XTMP는 증가되고, SEG(2)는 다음의 연속적인 기준 상태와 비교된다.
패턴 REF(STMP)의 끝이 도달되고 더 많은 상태들이 입력 단어 순서 SEG(YTMP)내에 남게 되면, 이 초과 상태들의 길이 VOWL(YTMP)들이 변수 SCORE에 더해진다. 이 길이 값들 중의 어느 한 길이 값이 10이하이면, 길이를 더할 때 값 10이 대체된다. 한편, 입력 단어 순서 SEG(YTMP)의 끝이 도달되고 더 많은 상태들이 기준 템플레이트 패턴 REF(XTMP)내에 남게 되면, 이 초과 상태의 웨이트 WT(XTMP)가 변수 SCORE에 더해진다.
이 과정은 각각은 기억된 어휘 단어에 대해 반복되고, 가장 가깝게 일치하는 것을 표시하는 것으로서 변수 SCORE에 대한 최소값이 선택된다. 이 SCORE가 입/출력 단 A21의 비트 2,3,4 및 5로부터 유도된 임계값 이하이면, 최저 SCORE를 갖고 있는 템플레이트 단어에 대응하는 숫자를 포함하는 변수 CLASS가 단 B23의 비트 0-6상에서 출력된다. 한편, 입력 단어는 거부되고, 거부 표시가 단 B의 비트 7상에 제공된다. 표 3은 비트 패턴에 대응하고 입/축력 단 A21의 비트 2-5로부터 유도된 가능한 거부 임계값들을 도시한 것이다. 통상의 마이크로컴퓨터에서는, 이 거부 임계값들 중의 한 거부 입계값만이 사용된다. 이 임계값들의 선택은 에러가 생기지 않는 것이 사용자에게 얼마나 중요한 가와 좌우된다. 사용자가 에러에 관심을 덜갖고 있으면, 임계값이 높아지고, 에러가 중요하면, 임계값은 낮아지게 된다. 이것을 응용하여 장난감 로보트(robot)를 제어할 경우, 주요한 일은 로보트가 명령 응답하여 어떤 일을 해야 한다는 것이다. 이러한 응용시에 거부 임계값은 높아진다. 한편, 공업에 응용되고 에러가 중요하게 되면, 거부 임계값은 아래와 같이 셋트된다.
[표 3]
제6도를 참조하여 인지 순서를 상세하게 기술하겠다. 이 인지 순서의 초기 단계는 이미 기술한 바와 같이 인지될 새로운 단어 내의 전체 상태수를 정하는 변수 N을 감쇠시키는 제6도의 단계(241)로 도시되어 있다. 값 N은 새로운 상태 순서의 최종 묵음 상태를 포함하고 단계(241)에서 감소시키는 것은 인지될 단어내의 이 최종 묵음 상태가 없는 실제 의미 상태로 전체 상태수를 감소시키기 위해 사용된다. 그 다음, 단계(243)에서, 포인터 XTMP는 어레이 REF, WT 및 LN의 제1소자로 비교 순서가 시작되도록 0으로 리셋트된다.
단계(245)에서, 변수 CLASS는 0으로 셋트된다. 이 변수는 비교 과정에 포함된 현재의 어휘 단어수를 표시하는데 사용된다. 단계(249)는 변수 BEST를 16진법값 7F로 초기치 설정한다. 이것은 8비트 단어 내에서 가능한 가장 큰 양수이다. 이 변수는 비교 과정이 한 어휘 단어로부터 다음 어휘 단어로 이동할 때 현재의 최저 거리 SCORE를 추적하는데 사용된다. 단계(253)은 비교 과정이 어레이 SEG 및 VOWL내의 제1 유효 기입 항목으로 시작하도록 포인터 YTMP를 1로 셋트시킨다. 이미 기술한 바와 같이, 이 어레이들은 새로운 말해진 단어의 상태 순서 및 상태 길이를 포함한다. 단계(255)에서는 새로운 단어와 기억된 어휘 단어 사이의 비교에 대비하여, 변수 SCORE가 0으로 셋트된다. 비교 과정 동안, 이 변수는 새로운 단어와 기억된 단어 사이의 상이도를 나타낸다. 이것은 각각의 단어 비교 과정이 시작되기 전에 다시 초기치 설정된다. 단계(257)은 변수 L을 XTMP로 포인트된 어레이 REF의 소자와 동일하도록 셋트시킨다. 이것은 비교 과정 하에서 현재의 템플레이트 단어 내의 상태수로 되거나, 모든 단어들이 없어졌을 경우에는 16진법값 FF로 된다. 단계(257)에서 언급된 어레이 REF내의 소자는 단계(259)에서의 값 FF와 비교된다. 이 소자가 16진법값 FF와 동일하면, 그것은 기억된 어휘 템플레이트의 끝이 도달되었고 출력 과정 단계(261,제8도)이 실행된다는 것을 의미한다.
기억된 어휘가 없어지지 않았다고, 즉 REF(XTMP)가 단계(259)에서 FF와 동일하지 않다고 가정하면, 변수 L1은 방금 말해진 단어 내의 상태수인 변수 N과 동일하게 셋트된다. 2개의 변수 L 및 L1은 새로운 단어 및 기억된 어휘 단어 내에서 비교될 나머지 상태수를 나타내도록 단어를 비교하는 동안 조정된다. 이 변수 L과 L1이 0으로 되면, 특정한 템플레이트 단어에 대한 비교 과정이 끝나게 된다. 모든 상태수를 얻은 후에, 포인터 XTMP는 어레이 REF, WT 및 LN의 다음 소자, 이 경우에는 각각의 어레이의 제1데이타 소자를 선택하도록 단계(267)에서 증가된다.
포인터 XTMP 및 YTMP는 템플레이트 및 말해진 입력 어레이에 대한 정확한 소자로 지시되도록 각각 조정된다. 이때 실제 단어 인지 평가가 준비된다. 단계(270)에서 시작하면, 템플레이트 단어 어레이의 제1상태는 말해진 입력의 제1상태와 비교된다. 이 상태들이 동일하면, 단계(272)에서, 변수 SCORE가 상태 길이들 사이의 차이의 절대치, 즉 말해진 입력의 기간 VOWL(YTMP)와 기억된 어휘 템플레이트의 기간 LN(XTMP) 사이의 차이의 절대값 만큼 증가된다. 그 다음, 말해진 단어(L1)과 템플레이트 단어(L)에 대한 상태 계수는 단계(274)에서 감소되고, 말해진 단어와 템플레이트 단어에 대한 어레이 포인터(YTMP 및 XTMP)는 단계(275)에서 각각 증가된다.
그러나, 상태들이 일치하지 않는 단계(270)에서, 변수 SCORE가 단계(277)에서의 기억된 단어 포인터 XTMP에서 웨이팅 어레이 WT내에 기억된 값만큼 증가된다고 가정하겠다. 이 상태가 템플레이트 어휘 단어를 정확히 식별하는데 중요하게 되도록 웨이트는 높아지고 변수 SCORE는 더 많이 증가된다. 단계(279)에서 템플레이트 단어 어레이 포인트 XTMP는 증가되지만, 기억된 단어 상태 계수 L은 다음 상태의 비교에 대비하여 단계(281)에서 감소된다. 템플레이트 단어 포인트 및 계수만이 변환되고, 말해진 단어 변수들은 말해진 단어의 현재 상태가 기억된 단어의 후속 상태에 대해 일치하기 위해 검사될 수 있도록 변환되지 않고 그대로 있게 된다. 기억된 단어들이 각각의 어휘 단어 내에서 나타날 수 있는 모든 상태들(낙은 확률의 상태들 까지)을 포함하고 그 결과로서, 동일한 단어의 어떤 새로운 말해진 변형(version) 단어의 상태수의 관점에서 길이가 동일하거나 더 커진 다는 것이 지시되어야 한다.
각각의 상태 비교가 끝나고, SCORE 포인터 및 계수가 적당하게 조정된 후에는, 단어 평가가 끝났는지의 여부가 결정되어야 한다. 이 평가 과정은 말해진 단어와 기억된 단어에 대한 상태 계수가 0일 때, 즉 모든 상태들이 평가되고 최종스코어가 결정되었을 때 끝나게 된다. 단계(283)에서 시작하면, 기억된 단어 상태 계수 L은 0에 대해 검사된다. 상태 계수가 0이 아니면, 즉 모든 기억된 단어 상태들이 평가되지 않았으면, 말해진 단어 상태 계수는 단계(285)에서 0에 대해 검사된다. 또한, 말해진 단어 계수가 0이 아니면, 상태 비교는 끝나지 않고 이 상태 비교 과정은 단계(269)에서 계속된다. 말해진 단어 상태 계수가 0이면, SCORE는 나머지 비교되지 않은 기억된 단어 상태들의 웨이트의 합계만큼 증가된다. 이 과정은 SCORE를 현재 기억된 단어 상태의 웨이트, 즉 WT(XTMP)만큼 증가시키는 단계(287)에서 시작된다. 기억된 단어 상태 포인터 XTMP는 단계(289)에서 증가되고, 말해진 단어 상태 계수 L은 단계(291)에서 감소된다. 웨이트를 합산하고 포인터 및 계수를 조정하는 과정은 기억된 단어 상태 계수 L이 0으로될 때까지 계속된다.
모든 기억된 단어 상태들을 평가한 후, 말해진 단어 상태들과 비교하거나 나머지 상태 웨이트들을 합산함으로써, 기억된 단어 상태 계수 L은 0으로 되고, 단계(283)에서 단계(293)으로 제어 과정이 이동된다. 단계(293)에서, 말해진 단어 상태 계수 L1은 0과 비교된다. 말해진 단어 상태 계수가 0이면[그리고, 기억된 단어 상태 계수가 단계(283)에서 0으로 되는 것과 같이 이미 설정되었으면], 말해진 단어 상태와 기억된 단어 상태의 비교는 끝나게 된다. 즉, 최종 SCORE가 설정된다. 비교가 끝나면, SCORE의 평가 과정이 단계(305,제7도)에서 시작된다. 많은 상태들이 말해진 단어 내에 남고, 기억된 단어 내의 모든 상태들이 없어지면 단계(299)에서 거리 측정 SCORE가 더해진 상태 길이 2배 또는 10이상만큼 증가된다. 말해진 단어 내의 모든 보조상태는 거리 측정 SCORE를 증가시키고, 이 SCORE가 말해진 단어를 기억된 단어보다 덜 유사하게 분류시키게 하는데, 이 증가량은 말해진 단어 내의 부수적 데이타의 양(길이)에 관련된다. 단계(301 및 303)은 각각 말해진 단어 상태 포인터 YTMP를 증가시키고, 말해진 단어 상태 계수 L1을 감소시킨다. 이 과정은 말해진 단어 상태 계수가 스코어 업데이팅(updating)이 끝나는 것을 표시하는 0으로 될 때 까지 단계(295)에서 시작하여 반복된다.
제7도를 참조하면, 새로운 단어를 기억된 어휘 단어와 비교하는 과정이 끝나고, SCORE가 설정되었을 때, SCORE는 만날 때까지 최저 SCORE, 즉 단계(305)에서 BEST와 비교된다. 현재 SCORE가 앞의 BEST CORE보다 작으면, 현재 SCORE는 단계(311)에서 BEST를 대체시킨다(0 SCORE는 상태와 길이가 완전히 일치하는 것은 나타낸다). 현재 BEST SCORE로 유지됨에 따라, 단계(313)에서, 이 SCORE에 관련된 단어 수(CLASS)는 변수 ANS내에 기억된다. 현재 SCORE가 그 지점까지 BEST SCORE이상이면, 단계(311 및 313)은 실행되지 않는다. 단계(309)에서, 단어수 CLASS는 기억된 어휘 단어와의 다음 비교에 대비하여 증가된다. 제어 과정은 동일한 평가 과정이 다음 기억된 단어를 위해 반복되는 단계(251,제6도)로 가게 된다.
모든 비교가 끝나면, 즉 기억된 단어의 제1상태가 단계(259)에서 16진법값 FF이면, 이것은 제어 과정이 제8도 내의 EXIT(261)로 이동하도록 작용한다. 이 지점에서, 최저 SCORE,BEST 및 이에 관련된 단어수 ANS가 결정된다. 입력단 A21은 새로운 단어가 기억된 어휘 단어들 중의 한 어휘 단어와 일치되어야 하는 정도를 제어하기 위해 사용될 거부 임계값을 결정하도록 단계(315)에서 누산기 ACC로 해석된다. 임계값이 낮을 수록 더욱 가깝게 일치되어야 한다. 허용 가능한 거부 임계값에 대한 표 3을 참조하자. 이 단상의 다른 비트는 상이한 의미를 갖고 있기 때문에, 변수 ACC가 우측으로 1비트 전이되고 [단계(316)], 데이타는 불필요한 비트들을 떼어내기 위해 단계(318)에서 16진법값 78과 논리합(logicallyand)된다.
모든 핀들이 접지에 접속되면, 부족값인 16진법값 4C가 단계(317 및 319) 내에 도시한 바와 같이 임계값으로 사용된다. 모든 핀들이 접지에 접속되지 않으면, 제어 과정은 단계(321)로 가게 되고 단 A로부터 임계값이 계산된다.
누산기 내의 거부 임계값이 단계(323)에서 특정된 것과 같이 BEST SCORE 이상이면, 단어수 ANS는 단계(327)에서 단 B23으로 출력되고, 한편 거부선, 즉 단 B23의 비트 7은 충분히 가깝게 일치하지 않았다는 것을 표시하기 위해 단계(325)에서 활성화된다. 그 다음, 제어 과정은 새로운 말해진 단어를 기다리기 위해 포인트 단계(117)로 가게 된다.
본 발명의 단어 인지 시스템의 사용 방법에 대해서 다음의 예를 참조하여 기술하겠다. 제2도에 도시한 바와 같이, 출력단 B23은 이것의 최하위 비트 B0이 한쌍의 스위치 접점(303)을 작동시키는 계전기 코일(301)에 접속되도록 접속될 수 있다. 이와 마찬가지로 다음 최하위 비트 B1은 위치 쌍(307)을 작동시키는 계전기 코일(305)에 접속될 수 있다.
마이크로프로세서(17), 고이득 음성 증폭기(13), 마이크로폰(11) 및 이 시스템용의 밧데리 전력 공급원을 포함하는 전체 시스템의 소형 장난감 로보트 내에 수용될 수 있다. 이 경우에, 장난감 로보트는 예를 들어 로보트의 헤드를 회전시키도록 접속된 모터(309)와 로보트가 걸어가게 하기 위해 트렉터 메카니즘을 구동시키도록 접속된 제2모터(311)을 포함한다. 로보트 헤드 회전기(309)는 스위치(303)에 의해 작동되고, 로보트 트랙터 동작은 스위치(307)에 의해 제어된다. 단자 B23으로부터의 출력 단어가 2진 수 01로 있으면, 로보트의 헤드는 비트 B0에서의 2진 1출력이 스위치(303)을 폐쇄시키도록 계전기(301)을 작동시키기 때문에 회전하게 된다. 이와 마찬가지로, 단자 B23으로부터 10진법 값 2와 등가인 2진수 10의 출력이 계전기(305)를 작동시키어, 스위치(307)을 폐쇄시키고 로보트가 걸어가게 한다. 이와 마찬가지로 단 B23으로부터의 2진수 출력 00은 로보트의 모든 동작을 정지시키게 된다. 부수적으로, 마이크로컴퓨터는 예를 들어 로보트의 눈이 사용자에 의해 주어진 명령에 따라 불이 켜지거나 꺼지도록 배선(wire)될 수 있다.
다음의 표 4는 영어로 말한 단어 “search”, “stop”, “go”, “lights” 및 “lights off”를 인지하기 위해 마이크로프로세서(17)의 해독 전용 메모리(19)내에 기억될 수 있는 상태 순서 템플레이트의 일예이다.
[표 4]
이 상태 순서 템플레이트는 상기 표 2의 형태로 되어 있는데, 제1숫자는 각각의 순서 내의 상태수를 확인한다. 표 4에 작성된 템플레이트들로부터 영어 단어 “search” 및 “go”가 올바르게 정해진 상태 순서를 제공한다는 것을 알 수 있다.
표 4와 제2도 내지 제8도를 참조하여 기술한 상술한 내용으로부터, 단어 “search”, “stop” 및 “go”를 마이크로폰(11)에 말하므로써, 사용자는 선택하는 명령에 따라서 로보트가 헤드를 회전하게 하고, 정지하게 하며 걸어가게 한다. 물론 이것은 간단한 예에 불과한 것으로 본 발명을 이용하는 것을 나타낸 것이다. 스위치(307 및 303)과 단(21,23 및 25)에 접속된 그 외에 다른 여러 가지의 스위치들이 말한 단어의 식별에 따라서 여러 소비자나 공업 제품을 제어하도록 사용될 수 있다.
특히, 여기서 단어 “lights” 및 “lights off”는 명령적이다. 상기 예에서, 어떤 사람들은 단어 “lights”를 “lice”로 발음하므로, 묵음 상태가 생략된다. (이 예에서) 묵은 상태는 단어를 식별하는데 절대적으로는 필요하지 않으므로, 묵음 상태(0)에 관련된 웨이트는 이 묵음 생략이 그리 중요하지 않도록 다른 상태보다 낮아질 수 있다. 이 예에서 알 수 있는 바와 같이, 다른 2개의 상태들에 할당된 웨이트가 10인데 반해 중간 묵음 상태에 할당된 웨이트는 7이다. 본 명세서에서 에러 값, 즉 로보트가 전혀 상이한 단어에 응답하여 점등시키는 에러 값이 매우 높지 않기 때문에, 임계값은 양호하게 높게 셋트된다. 그러므로, 임계값은 25로 될 수 있지만 부정확한 단어들을 거부한다. 단어 “lights off”에 포함된 전체 웨이트가 높기 때문에, 잘못하여 소등시키는 것은 더욱 어려워진다는 것을 알 수 있다. 명령에 의해서만 소등시키기를 원한다면 각각의 이 상태들의 웨이트를 더 높게 결정해야 된다. 예를 들어, 웨이팅 열 5,5,5,10,10 대신에 웨이팅 열 10,10,10,20,20을 가져야 한다.
상술한 바와 같이, 이 인지 시스템의 한가지 장점은 2명의 상이한 화자에 의해 상당히 상이하게 말해진 단어가 이 상이한 발음을 예상하여 일련의 기억된 템플레이트를 포함할 필요 없이 동일한 단어로서 인지될 수 있다는 것이다. 그러므로, 단어 “lights”를 단어 “lice”로 발음하는 사람은 그가 단어 “lice”를 말하더라도 로보트가 점등된다는 것을 알게 된다. 이것은 마이크로컴퓨터가 어휘 단어 템플레이트 어레이의 제2상태를 기억된 입력 어레이의 제2상태와 비교하여 분류들이 동일하지 않다는 것을 발견할 때, 화자에 대한 패널티(penalty)가 변수 SCORE 7내에서 증가하기 때문이다(이것은 화자가 단어 “lights”를 “lice”로 발음할 때 발견되지 않는 단어 “lights”의 묵음 상태에 대한 웨이팅 값 때문이다). 그 다음, 마이크로컴퓨터는 마찰음-형 소리로 되는 템플레이트 어레이 내의 다음 상태를 이미 비교된 입력 단어 어레이의 동일한 상태와 계속 비교한다. 물론, 이 제2비교 과정에서, 2개의 분류들은 일치하고 변수 SCORE는 이 상태에 대한 템플레이트 내에 기억된 평균 길이와 말해진 이 상태의 실제 길이 사이의 차이의 절대값만큼 증가된다. 그러므로, 단어 “lice”는 “lights”로 인지된다.
제9도는 본 발명의 기본적 데이타 구조를 간단한 블럭도 형태로 도시한 것이다. 입력 단어 데이타 기억부(410)은 입력 단어 상태 어레이 및 기간 어레이를 기억한다. 어휘 단어 템플레이트 데이타 기억부(412, 414 및 415)는 언어 인지 장치의 어휘의 일부인 각각의 “n”단어들에 대한 상태 웨이트 및 길이 어레이를 기억한다. 다음에 입력 단어 데이타가(417)에서 각각의 템플레이트와 순차적으로 비교된다. 그 다음에, 최저 에러 SCORE에 대응하는 템플레이트가 (419)에서 결정된다. 다음에 최저 에러 SCORE의 값은 (423)에서 결정된다. 다음에 최저 에러 SCORE의 값은 (423)에서 임계값(421)과 비교된다. 에러 SCORE가 임계값 보다 크면, 최저 에러 SCORE를 갖는 템플레이트에 대응하는 단어는 인지되지 않는다(125). 그러나, 에러 SCORE가 임계값 이하이면, 템플레이트에 대응하는 단어는 (427)에서 시스템에 의해 인지된다.
다음의 표 5는 양호한 실시예에 사용된 모토로라 모델 MC 6805 p2 HMOS 마이크로 컴퓨터에 부합될 수 있는 컴퓨터 프로그램을 작성한 것이다. 물론 제3도 내지 제8도의 유통도와 상술한 설명을 이용함으로써, 다양한 컴퓨터 프로그램 또는 특수 목적의 컴퓨터 장치를 사용하여 본 발명을 실시할 수도 있다.
[표 5]
상술한 로보트 예로부터, 본 발명은 인지가능한 어휘를 신중하게 미리 선택함으로써 화자에 비교적 낮은 에러율을 제공한다는 것을 알 수 있다. 표 4로부터, 인지 가능한 단어 “search”, “stop” 및 “go ”“LIGHTS ” 및 “lights off”중 아무것도 확인 상태 템플레이트를 갖고 있지 않다는 것을 알 수 있다. 이것은 이 5개의 말해진 단어들 사이를 정확하게 식별하지만, 동일한 언어로 이와 다른 유사한 단어로부터 이 단어들을 식별하지는 못하게 한다. 본 발명은 시스템 하드웨어를 간단하게 하여 인지 시스템의 제조 가격과 복잡성을 현저하게 감소시키기 위하여 인지가능한 그룹의 외측의 단어들로부터 인지가능한 단어를 식별하는 것에 대한 이 무능력을 허용한다.
상술한 시스템은 여러가지의 중요한 특징으로 포함한다. 처음에, 말해진 소리는 주기적으로 샘플되고 각각의 샘플들은 시스템 전단부 휠터를 사용하지 않고서 제로 크로싱 데이타만을 사용하여 마찰음-형, 모음-형 및 묵음 기간으로 식별된다. 이 기간의 연속적인 그룹들이 계수되는데, 이 계수는 시스템용의 마찰은 형 상태, 모음-형 또는 묵음 상태를 정하도록 선정된 수에 도달해야 한다. 특정한 상태가 존재하는 것을 정하기 위해 사용된 특정한 샘플 수는 단어내의 이 상태의 위치에 따라서 변하게 된다. 예를 들면, 단어의 끝에서의 모음 소리는 모음-형 상태로 인지되기 위해 단지 60msec 기간을 가져야 하고, 단어의 중간에서의 모음 소리는 모음-형 상태로 인지되기 위해 단지 60msec의 기간을 가져야 한다.
상태를 인지하기 위한 다중, 연속, 동일 기간의 요구 사항은 시스템 히스테리시스의 제1명령을 효과적으로 제공한다. 왜냐하면 마찰음-형으로부터 모음-형으로 평균 주파수 성분을 변화시키려면, 예를 들어 모음-형 순서가 인지되기 전에 선정된 기간 동안 모음-형 평균이 유지되어야 하기 때문이다.
시스템 히스테리시스의 제2형태는 마찰음-형 또는 모음-형으로 특정한 샘플이 증가하는 것을 확인하기 위해 사용된 제로 크로싱 계수를 변화시킴으로써 제공된다. 예를 들어, 이전의 상태가 묵음이었으면, 1600Hz 이상의 평균 소리 주파수를 나타내는 10msec내의 제로 크로싱 계수 16은 마찰음-형 기간을 만들게 된다. 그러나, 이전의 상태가 모음-형 상태이었으면, 제로 크로싱 계수는 이전의 묵음 상태의 경우보다 더 높은 2400Hz 이상의 평균 주파수를 나타내는 24를 초과해야 한다. 이것은 모음-형 소리의 끝이 실제 마찰음-형 소리를 나타내지 않는 1600 내지 2400Hz 사이의 범위 내의 주파수 성분을 종종 형성하는 것을 결정하기 때문에, 모음-형 소리로부터 마찰음-형 소리로 변환시키기를 더욱 어렵게 한다. 그러므로, 이 제2명령 히스테리시스는 이전의 상태에 따라 변하는 변수이다.
이 시스템은 짧은 모음-형 상태가 실제 모음 어미가 아니라 마찰음-형 소리의 끝에서의 에너지 소모로 인해 종종 생긴다고 결정되었기 때문에, 상태 순서의 끝에서 이 짧은 모음-형 상태를 제거시키기도 한다.
말해진 단어의 상태 순서를 기억된 템플레이트의 상태 순서와 비교함으로써 인지하게 된다. 상태들이 일치하면, 에러 SCORE가 말해진 상태의 길이와 템플레이트 내에 기억된 단어에 대응하는 예상된 길이의 차이만큼 증가된다. 그 다음, 마이크로컴퓨터는 말해진 단어 어레이 내의 다음 상태의 분류를 템플레이트 어레이 내의 다음 상태의 분류와 계속 비교한다. 상태들이 일치하지 않으면, 에러 SCORE가 웨이팅 함수에 따라 증가된다. 그 다음, 마이크로컴퓨터는 말해진 단어 어레이 내의 동일한 상태의 분류를 템플레이트 어레이 내의 다음 상태의 분류와 계속 비교한다. 웨이팅 함수는 중요한 상태들 내에서 일치하지 않을 때 큰 에러가 발생되고, 덜 중요한 상태들 내에서 일치하지 않을 때 작은 에러가 발생되도록 선택된다. 실제로, 이것은 단어를 인지하는데 중요하지 않을 때 마이크로컴퓨터가 잘못된 상태를 무시하게 한다.
Claims (33)
- 가청 언어를 전자 신호로 변환하기 위한 수단(11,13), 시간 라인에 따른 입력 언어를 언어 내용에 기초하여 각각의 단어 상태가 시간 주기를 갖고 있는 순차적인 단어 상태 어레이로 분할하기 위한 수단(17,129,131,133,137,199,147,149,191), 대응 시간 주기 동안 언어의 내용에 기초하여 다수의 분류들 중 한개의 분류로서 각각의 단어 상태를 분류하기 위한 수단(183,159,213), 입력 단어 상태의 어레이내의 각각의 단어 상태에 대응하는 시간 주기 기간을 정하고, 입력 단어 상태 어레이의 단어 상태에 대응하는 기간 값의 어레이를 제공하도록 정해진 기간을 사용하기 위한 수단(173,160,156,207,205), 언어 인지 장치의 어휘를 표시하는 다수의 기억된 템플레이트를 제공하기 위한 수단(19,412,414,415), 일치 상태를 설정하도록 입력 단어 상태의 분류를 상기 각각의 템플레이트의 상기 제1어레이와 비교하기 위한 제1비교 수단(417,270), 단어 상태의 분류가 일치하는 경우에만 각각의 입력 단어 상태의 주기를 대응하는 기억된 단어 상태와 비교하기 위한 제2비교 수단(417,272), 및 상기 템플레이트가 입력 단어 상태의 상기 어레이와 기간 값의 상기 어레이에 가장 가깝게 일치하는 것을 결정하기 위해 상기 두개의 비교 수단에 응답하는 수단(419,305,311,313)을 포함하고, 각각의 템플레이트가 2개의 어레이로 구성되며, 제1어레이가 각각의 단어 상태가 상기 다수의 분류들중 한개의 분류로서 분류되는 일련의 기억된 단어 상태이고, 제2어레이가 대응하는 기억된 단어 상태의 주기를 나타내는 일련의 값인 것을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 변환 수단이 상기 언어에 의해 포화 상태로 구동된 고 이득 증폭기(13)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제2항에 있어서, 상기 변환 수단이 언어 입력을 상기 증폭기에 제공하기 위한 마이크로폰(11)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 분할 및 분류 수단이 상기 전자 신호로부터 입력 언어의 주파수를 결정하기 위한 수단(17,121,127,129), 입력 언어 신호를 동일한 시간 부분으로 분할하기 위한 수단(125), 시간 부분 동안 입력 언어 신호의 평균 주파수에 기초하여 마찰음-형, 모음-형 또는 묵음으로 각각의 시간 부분을 분류하기 위한 수단(131,133,149,167,153,193,195,197,198), 및 선정된 수의 인접하게 배치된 시간 부분이 동일한 분류를 가질때 한 그룹의 시간 부분을 입력 상태로 지정하고, 상태를 구성하는 시간 부분의 우세한 분류에 따라 상태를 분류하기 위한 수단(199,213,169,183,155,159)를 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 다수의 분류가 마찰음-형, 모음-형 및 묵음(213,159,183)인 것을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 비교 수단이 입력 단어 상태 어레이의 상태들의 분류들을 템플레이트 상태 어레이의 분류들과 순차적으로 비교하는 것(267,270)을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 결정 수단이 입력 단어 상태와 템플레이트 상태 어레이 사이의 일치도를 표시하는 에러값을 발생시키기 위한 수단(277,272,287,299)를 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제7항에 있어서, 상기 기억된 각각의 템플레이트가 일련의 웨이트 값을 갖고 있는 제3어레이를 포함하고, 단어의 인지에 대하여 단어 상태의 중요성에 기초하여 각각의 기억된 단어 상태에 하나의 웨이팅 값이 할당되며(412,414,415,277,287), 상기 결정 수단이 상기 제3어레이의 응답하고(277,287), 상기 에러값 방생 수단이 비교되는 상태의 식별이 동일할 때 특정 상태에 대응하는 상기 주기 어레이 값들 사이의 차이 절대값만큼 에러 값을 증가시키는 수단(272), 및 비교되는 상태의 식별이 동일하지 않을 때 비교되는 상기 템플레이트 상태 어레이의 특정 상태에 대응하는 상기 웨이팅 어레이의 웨이팅 값과 동일한 양만큼 에러값을 증가시키기 위한 수단(287,277)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제1항에 있어서, 상기 제1비교 수단이 최종 비교된 상태가 일치하지 않는 분류를 갖었을 때 최종 비교된 입력 언어 상태를 템플레이트 상태 어레이내의 다음 상태와 비교하기 위한 수단(270,277,279,281,283)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제7항에 있어서, 상기 결정 수단이 입력 언어 상태 어레이에 가장 가깝게 일치하는 템플레이트로서 최저 에러값으로 템플레이트를 지정하기 위한 수단(305,311)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제10항에 있어서, 너무 관계가 적은 일치도를 거부하는 수단(323,327,325)를 포함하고, 이 거부 수단이 그 템플레이트에 대응하여 에러 값이 선정된 임계값 보다 클 때 가장 가깝게 일치하는 템플레이트를 거부하는 것을 특징으로 하는 언어 인지 장치.
- 제11항에 있어서, 상기 거부 수단에 의해 거부되지 않은 템플레이트로서 가장 가깝게 일치하는 것으로서 선택된 템플레이트에 대응하는 단어로서 말해진 입력 단어 상태 어레이를 인지하는 수단(327,23,305,307,301,303,309,311)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 말해진 단어를 나타내는 분류된 상태의 어레이를 제공하는 단계(410,119,183,159,213), 기억된 어휘 단어를 나타내는 일련의 분류된 상태로 구성된 템플레이트 상대어레이를 제공하는 단계(412,414,415,259,230), 불일치가 발견될 때까지 상기 템플레이트 상태 어레이의 상태들의 분류들을 상기 말해진 단어 상태 어레이의 상태들의 분류와 연속적으로 비교하는 단계(270,272,274,275,283,295), 불일치가 발견된 후에 일치가 발견될 때까지 최종 비교된 연속적으로 말해진 단어 상태의 분류를 템플레이트 상태 어레이의 다음 상태의 분류와 비교하는 단계(270,277,279,281,283,285)로 이루어진 것을 특징으로 하는 언어 인지 방법.
- 제13항에 있어서, 말해진 단어상태 어레이와 템플레이트 상태 어레이 사이의 일치도를 나타내는 에러 값을 발생시키는 단계(272,277,287,299)를 포함하는 것을 특징으로 하는 언어 인지 방법.
- 제14항에 있어서, 말해진 단어 어레이내의 상태의 분류가 템플레이트 어레이내의 비교된 상태에 일치하지 않을 때 미리 선택된 웨이트 함수만큼 상기 에러 값을 증가시키는 단계(277)을 포함하는 것을 특징으로 하는 언어 인지 방법.
- 제15항에 있어서, 상기 상태들의 분류들이 일치하는 경우에 말해진 단어 상태의 길이와 비교된 템플레이트 단어 상태 사이의 절대 차만큼 상기 에러 값을 증가시키는 단계(272)를 포함하는 것을 특징으로 하는 언어 인지 방법.
- 입력 언어를 단어 상태 어레이로 변환시키고, 다수의 분류들 중 한개의 분류로서 상기 어레이내의 각각의 상태를 분류하기 위한 수단(11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 각각의 템플레이트가 분류된 상태의 어레이를 포함하는 다수의 기억된 템플레이트(412,414,415,257,259,270), 상기 단어 상태 어레이의 상태들을 상기 기억된 템플레이트 어레이의 상태들과 비교하고, 에러 값을 발생시키며, 상태 분류들이 일치하는 경우 제1언어 파라메터에 기초하여 상기 에러 값을 증가시키고, 상태 분류들이 일치하지 않는 경우 제2언어 파라메터에 기초하여 상기 에러 값을 증가시키기 위한 수단(270,272,274,275,283,285,277,279,281)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 입력 언어를 분류된 언어 상태의 어레이로 분류하는 단계(11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 기억된 어휘 단어를 나타내는 분류된 상태로 구성된 템플레이트 상태 어레이를 제공하는 단계(412,414,415,257,259,270), 상기 템플레이트 상태 어레이의 적어도 소정의 상태들에 어휘 단어의 인지시 상태의 중요도에 관련되는 웨이트를 제공하는 단계(412,414,415,277,287), 상기 템플레이트 상태 어레이의 상태들이 상기 입력 언어 상태 어레이와 일치하지 않는 것을 결정하기 위해 입력 언어 상태 어레이를 템플레이트 상태 어레이와 비교하는 단계(270,272,274,275,283,285), 및 입력 언어 상태 어레이와 템플레이트 상태 어레이와 템플레이트 상태 어레이의 상태들의 분류들 사이의 일치도의 측정치를 발생하는 단계(277)을 포함하고, 상기 측정치가 입력 어레이에서 불일치되는 것으로 발견된 템플레이트 상태에 대응하는 웨이트의 함수가 되는 것을 특징으로 하는 언어 인지 방법.
- 입력 언어를 분류된 언어 상태의 어레이로 분류하는 단계 (11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 각각의 언어 상태의 길이를 측정하는 단계 (125,133,167,125,198,153,207,205, 173,160,156,179), 기억된 어휘 단어를 표시하는 템플레이트를 제공하는 단계(412,414,415,257,259,270,272), 상기 입력 언어 상태 어레이를 상기 템플레이트 상태 어레이와 비교하는 단계(270), 및 상기 입력 언어 상태 어레이와 상기 템플레이트 단어 상태 어레이 사이의 일치도의 측정치를 발생하는 단계(272)를 포함하고, 상기 템플레이트가 분류된 단어 상태의 제1에러에 및 대응하는 단어 상태의 길이를 표시하는 일련의 값을 포함하는 제2어레이를 포함하며, 상기 측정치가 상기 입력 언어 상태와 일치하는 템플레이트 단어 상태 사이의 길이 차의 함수인 것을 특징으로 하는 언어 인지 방법.
- 말해진 단어를 동일한 시간 부분으로 분류하고, 마찰음형, 모음-형 또는 묵음으로 각각의 부분을 분류하기 위한 수단(11,13,17,19,121,125,127,129,131,133,193,195,197,198,149,153,167), 선정된 수의 인접하게 배치된 시간 부분이 동일한 분류를 갖을 때 입력 상태로서 한 그룹의 시간 부분을 지정하고, 상태를 구성하는 시간 부분의 우세한 분류에 따라 상태를 분류하기 위한 수단(199,201,213,169,183,155,159), 각각의 상태가 마찰음-형, 모음-형 또는 묵음으로 분류되는 상태의 어레이를 포함하는 어휘 단어를 표시하는 기억된 템플레이트(412,414,415,257,259,270), 상태의 분류가 일치하는지 여부를 결정하기 위해 말해진 단어 어레이를 템플레이트 어레이와 순차적으로 비교하기 위한 수단(270), 및 말해진 단어 어레이내의 상태들의 수가 템플레이트내의 상태들의 수와 상이한 경우라도 템플레이트에 의해 표시된 단어로서 말해진 단어의 인지를 허용하는 수단(270,272,274,275,283,284,277,279,281,305,311,313,309,323,325,327)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 사람의 언어를 인지하기 위한 프로그램된 컴퓨터 시스템에 있어서, 데이타 구조가 입력 언어 패턴을 기억된 템플레이트와 비교하기 위한 것이고, a) 언어를 상태의 어레이로 분류하고, 다수의 분류들 중 한개의 분류로서 각각의 상태를 분류하며, 분류된 상태의 어레이를 표시하는 제1부호화 신호를 기억하기 위해 입력 언어에 응답하는 상기 데이타 구조내의 제1수단(11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), b) 입력 언어 상태 어레이내의 상태들의 수와 동일하고, 각각의 대응하는 언어 상태의 길이를 표시하는 값들의 어레이를 표시하는 제2부호화 신호를 기억하기 위해 각각의 상기 입력 언어 상태의 길이에 응답하는 상기 데이타 구조내의 제2수단(19,119,207,205,173,179,160,156), c) 기억된 어휘 단어를 나타내고, 분류된 상태의 어레이, 한 값이 템플레이트의 각각의 분류된 상태에 대응하는 길이 값의 어레이, 및 한 값이 템플레이트의 각각의 분류된 상태에 대응하고 특정한 상태의 중요도에 기초하여 템플레이트로 표시된 단어의 인지에 할당되는 웨이팅 값의 어레이를 포함하는 인지 템플레이트를 표시하는 제3부호화 신호를 기억하는 상기 데이타 구조내의 제3수단(412,414,415,257,259,270,277,272), d) 상태 순차의 순서로 입력 언어 상태의 븐류를 나타내는 부호화 신호를 템플레이트 상태의 분류와 비교하기 위한 상기 데이타 구조내의 제4수단(270,272,274,275,283,285,277,279,281), e) 입력 언어 상태 어레이와 템플레이트 상태 어레이 사이의 일치도를 표시하는 에러 값을 나타내는 부호화 신호들을 기억하기 위한 상기 데이타 구조내의 제5수단(272,277,287,299), f) 상기 제2수단에 의해 기억된 길이와 상기 제3수단에 의해 기억된 길이 사이의 차의 절대값을 결정하고 상태들이 비교될 때 분류가 동일하나 길이가 상이한 에러 값에 이 절대값을 가산하기 위한 상기 데이타 구조내의 제6수단(272), 및 g) 상태들이 비교될 때 상이한 분류를 갖는 에러 값에 제3수단에 의해 기억된 웨이팅 값을 가산하기 위한 상기 데이타 구조내의 제7수단(277)을 포함하는 것을 특징으로 하는 프로그램된 컴퓨터 시스템.
- 말해진 단어를 분류된 상태의 어레이로 변환시키는 회로(11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 기억된 어휘 단어를 나타내는 일련의 분류된 상태로 구성된 템플레이트 상태어레이를 기억하는 회로(412,414,415,257,259,270,19), 및 불일치가 발견되기 전까지 템플레이트 상태 어레이의 상태들의 분류를 말해진 단어 상태 어레이의 상태들의 분류와 순차적으로 비교하고, 일치가 발견된 후, 일치가 발견될 때까지 최종 비교된 말해진 단어 상태의 분류를 템플레이트 상태어레이의 다음 상태들의 분류와 순차적으로 비교하는 작용을 하는 회로(270,272,274,275,283,285,277,279,281)을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 입력 언어를 분류된 언어 상태의 어레이로 분할하는 회로(11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 기억된 어휘 단어를 나타내는 분류된 상태들로 구성되는 템플레이트 상태 어레이를 기억하는 회로(19,412,414,415,257,259,270), 상기 템플레이트 상태 어레이의 상태들에 대응하고, 어휘 단어의 인지시 대응하는 상태의 중요도에 관련되는 웨이트 값을 포함하는 웨이팅 어레이를 기억하는 회로(19,412,414,415,277,287), 입력 언어 상태 어레이를 템플레이트 상태 어레이와 비교하는 작용을 하는 회로(270), 및 입력 언어 상태 어레이의 상태들의 분류들과 템플레이트 어레이 사이의 일치도의 측정치를 발생시키는 회로(270,277,279,281,283,285)를 포함하고, 상기 측정치가 입력 어레이에서 누락되는 것이 발견된 템플레이트 상태에 대응하는 웨이트의 함수인 것을 특징으로 하는 언어 인지 장치.
- 입력 언어를 분류된 언어 상태의 어레이로 분할하고, 각각의 언어 상태의 길이를 측정하는 회로 (11,13,17,19,121,125,127,129,131,199,213,147,193,197,149, 183,159), 언어 인지 장치의 어휘 단어를 나타내는 템플레이트를 기억하는 회로(19,412,414,415,257,259,270,272), 입력 언어 상태 어레이를 템플레이트 상태 어레이와 비교하는 작용을 하는 회로(270), 및 입력 언어 상태 어레이와 템플레이트 단어 상태 어레이 사이의 일치도의 측정치를 발생시키는 회로(272)를 포함하고 상기 템플레이트가 분류된 단어 상태의 제1어레이 및 대응하는 기억된 단어상태의 길이를 표시하는 일련의 값으로 구성된 제2어레이를 포함하며, 상기 측정치가 입력 언어 상태와 일치된 분류를 갖는 상태들의 대응하는 템플레이트 단어 상태 사이의 길이 차의 함수인 것을 특징으로 하는 언어 인지 장치.
- 말해진 단어를 동일한 시간 부분으로 분할하고 각각 마찰음-형, 모음-형 또는 묵음으로 분류하는 단계(11,13,17,19,121,125,127,129,131,133,193,195,197, 198,149,153,167), 선정된 수의 인접하게 배치된 시간 부분이 동일한 분류를 가질 때 입력 상태로서 한 그룹의 시간 부분을 지정하고, 상태를 설정하는 시간 부분의 우세한 분류에 따라 상태들을 분류하는 단계(199,201,213,169,183,155,159), 어휘 단어를 나타내는 템플레이트를 제공하는 단계(412,414,415,257,259,270), 상태의 식별들이 일치하는가 여부를 결정하도록 말해진 단어 상태 어레이를 템플레이트 상태 어레이와 순차적으로 비교하기 위한 단계(270), 및 말해진 단어 어레이내의 상태들의 수가 템플레이트 어레이내의 상태들의 수와 상이한 곳이라도 템플레이트에 의해 표시된 단어의 말해진 단어를 인지하는 단계(270,272,274,283,284,277,279,281,305,311,313,309,323,325,327)을 포함하고, 상기 템플레이트가 상태들의 어레이를 포함하고, 각각의 상태가 마찰음-형, 모음-형 또는 묵음으로 분류되는 것을 특징으로 하는 언어 인지 방법.
- 제1항에 있어서, 각각의 템플레이트의 일련의 제2어레이 값이 대응하는 단어 상태의 평균 기간을 표시하는 것(412,414,415,272)를 특징으로 하는 언어 인지 장치.
- 제7항에 있어서, 상기 에러값 발생 수단이 비교되는 상태들의 분류가 동일할 때 비교되는 특정 상태에 대응하는 상기 기간 어레이의 값들 사이의 차의 절대값만큼 에러값을 증가시키기 위한 수단(272)를 포함하는 것을 특징으로 하는 언어 인지 장치.
- 제19항에 있어서, 템플레이트의 일련의 제2어레이 값이 대응하는 단어 상태의 평균 기간을 표시하는 것(412,414,415,272)를 특징으로 하는 언어 인지 방법.
- 제19항에 있어서, 상기 분할 단계가 마찰음, 모음-형 또는 묵음으로 상기 언어 상태를 분류하는 단계(213,159,183)을 포함하는 것을 특징으로 하는 언어 인지 방법.
- 제21항에 있어서, 제3수단내의 길이 값의 어레이가 평균 길이값의 어레이인 것을 특징으로 하는 프로그램된 컴퓨터 시스템.
- 제24항에 있어서, 상기 템플레이트의 일련의 제2어레이 값이 대응하는 기억된 단어 상태들의 평균 길이를 표시하는것(272)를 특징으로 하는 언어 인지 장치.
- 가청 언어를 전자 신호로 변환시키는 수단(11,13), 입력 언어를 입력 단어 상태들의 어레이로 분할하고, 각각의 단어 상태들을 다수의 분류들중 한개의 분류로서 분류하기 위한 수단(17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 입력 단어 상태들의 어레이내의 각각의 단어 상태 기간을 정하고, 입력 단어 상태 어레이내의 단어 상태에 대응하는 기간 값을 제공하기 위해 결정된 기간을 사용하기 위한 수단(125,133,167,195,198,153,207,205,173,160,156,179), 언어 인지 장치의 어휘를 나타내는 기억된 다수의 템플레이트를 제공하기 위한 수단(412,414,415,257,259,270,272,287), 입력 단어 상태의 분류를 일치하는 상태들을 배치시키기 위한 템플레이트 상태 어레이의 분류와 순차적으로 비교하기 위한 수단(270), 상기 입력 단어 상태와 기간 어레이 및 각각의 템플레이트 사이의 일치도를 나타내는 에러 값을 발생시키기 위한 상기 비교 수단과 상기 제2어레이에 응답하는 수단(272), 비교되는 상태들의 분류가 동일하지 않을 때 비교되는 상기 템플레이트가 상태 어레이에 특정 상태에 대응하는 상기 웨이팅 어레이 웨이팅 값과 동일한 양만큼 에러 값을 증가시키기 위한 수단(277), 및 상기 에러값을 사용하여, 상기 템플레이트 입력 단어 상태의 상기 어레이와 기간 값의 상기 어레이에 가장 가깝게 일치하는 것을 결정하는 수단(305,311,313)을 포함하고, 각각의 템플레이트가 3개의 어레이로 구성되고, 제1어레이가 각각의 상태가 상기 다수의 분류들중 한개의 분류로서 분류되는 일련의 기억된 단어 상태이며, 제2어레이가 대응하는 단어 상태의 기간을 표시하는 일련의 값이고, 제3어레이가 한개의 값이 단어의 인지를 위해 단어 상태의 중요도에 기초하여 각각 기억되는 단어 상태에 할당되며, 상기 에러값 발생 수단이 비교되는 상태들의 분류가 동일할 때 비교되는 특정 상태에 대응하는 상기 기간 어레이의 값들 사이의 차의 절대값만큼 에러 값을 증가시키기 위한 수단을 포함하는 것을 특징으로 하는 언어 인지 장치.
- 말해진 단어를 나타내는 일련의 분류된 상태들의 어레이를 제공하는 단계(410,11,13,17,19,121,125,127,129,131,199,213,147,193,197,149,183,159), 기억된 어휘 단어를 나타내는 일련의 분류된 상태들로 구성된 템플레이트 상태 어레이를 제공하는 단계(412,414,415,257,259,270), 불일치가 발견될 때까지 상기 템플레이트 상태 어레이의 상태들의 분류를 상기 말해진 단어 상태 어레이의 상태들의 분류와 순차적으로 비교하는 단계(270,272,274,275,283,285), 불일치가 발견된 후, 일치가 발견될 때까지 순차적으로 최종 비교된 말해진 단어 상태의 분류를 템플레이트 상태 어레이의 다음 상태의 분류와 비교하는 단계(270,277,279,281,283,285), 말해진 단어 상태 어레이와 템플레이트 상태 어레이 사이의 일치도를 나타내는 에러값을 발생하는 단계(272,279,287,299), 및 말해진 단어 어레이내의 상태의 븐류가 템플레이트 어레이내의 비교된 상태와 일치하지 않을 때 미리 선택된 웨이팅 함수만큼 상기 에러 값을 증가시키는 단계(277)을 포함하는 것을 특징으로 하는 언어 인지 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US475888 | 1983-03-16 | ||
US06/475,888 US4761815A (en) | 1981-05-01 | 1983-03-16 | Speech recognition system based on word state duration and/or weight |
Publications (2)
Publication Number | Publication Date |
---|---|
KR840008194A KR840008194A (ko) | 1984-12-13 |
KR920010582B1 true KR920010582B1 (ko) | 1992-12-07 |
Family
ID=23889583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019840001316A KR920010582B1 (ko) | 1983-03-16 | 1984-03-15 | 단어 상태 기간 및 웨이트를 기초한 언어 인지 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US4761815A (ko) |
EP (1) | EP0119835A1 (ko) |
JP (1) | JPS59229600A (ko) |
KR (1) | KR920010582B1 (ko) |
AU (1) | AU2554784A (ko) |
CA (1) | CA1207456A (ko) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
EP0364501A4 (en) * | 1987-06-09 | 1993-01-27 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4918731A (en) * | 1987-07-17 | 1990-04-17 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
GB8720527D0 (en) * | 1987-09-01 | 1987-10-07 | King R A | Voice recognition |
FR2622727A1 (fr) * | 1987-10-29 | 1989-05-05 | Feart Michel | Procede de reconnaissance de la parole ou de toute autre onde sonore et son procede de mise en oeuvre |
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
JP2609752B2 (ja) * | 1990-10-09 | 1997-05-14 | 三菱電機株式会社 | 音声/音声帯域内データ識別装置 |
US5748840A (en) * | 1990-12-03 | 1998-05-05 | Audio Navigation Systems, Inc. | Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken |
US5454062A (en) * | 1991-03-27 | 1995-09-26 | Audio Navigation Systems, Inc. | Method for recognizing spoken words |
US5592389A (en) * | 1990-12-03 | 1997-01-07 | Ans, Llp | Navigation system utilizing audio CD player for data storage |
US5444817A (en) * | 1991-10-02 | 1995-08-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognizing apparatus using the predicted duration of syllables |
US5475798A (en) * | 1992-01-06 | 1995-12-12 | Handlos, L.L.C. | Speech-to-text translator |
CA2107317A1 (en) * | 1992-10-30 | 1994-05-01 | Rajendra Prasad Mikkilineni | Speech recognition system |
DE69421911T2 (de) * | 1993-03-25 | 2000-07-20 | British Telecommunications P.L.C., London | Spracherkennung mit pausedetektion |
CN1160450A (zh) * | 1994-09-07 | 1997-09-24 | 摩托罗拉公司 | 从连续语音中识别讲话声音的系统及其应用方法 |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
US5796924A (en) * | 1996-03-19 | 1998-08-18 | Motorola, Inc. | Method and system for selecting pattern recognition training vectors |
WO1998014934A1 (en) | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US6233557B1 (en) * | 1999-02-23 | 2001-05-15 | Motorola, Inc. | Method of selectively assigning a penalty to a probability associated with a voice recognition system |
JP3132815B2 (ja) * | 1999-04-21 | 2001-02-05 | 株式会社トイテック | 玩具用音声認識装置 |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
JP4667082B2 (ja) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
US9478218B2 (en) * | 2008-10-24 | 2016-10-25 | Adacel, Inc. | Using word confidence score, insertion and substitution thresholds for selected words in speech recognition |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
GB2468203B (en) * | 2009-02-27 | 2011-07-20 | Autonomy Corp Ltd | Various apparatus and methods for a speech recognition system |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
US8190420B2 (en) | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
CN103247290A (zh) * | 2012-02-14 | 2013-08-14 | 富泰华工业(深圳)有限公司 | 通信装置及其控制方法 |
EP3340240B1 (en) * | 2015-08-20 | 2021-04-14 | Sony Corporation | Information processing device, information processing method, and program |
JP7251953B2 (ja) * | 2018-11-19 | 2023-04-04 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN115132198B (zh) * | 2022-05-27 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB981154A (en) * | 1961-03-20 | 1965-01-20 | Nippon Telegraph & Telephone | Improved phonetic typewriter system |
US3238303A (en) * | 1962-09-11 | 1966-03-01 | Ibm | Wave analyzing system |
US3278685A (en) * | 1962-12-31 | 1966-10-11 | Ibm | Wave analyzing system |
GB1055371A (en) * | 1964-03-06 | 1967-01-18 | Standard Telephones Cables Ltd | Apparatus for the recognition of speech |
GB1155422A (en) * | 1965-08-24 | 1969-06-18 | Nat Res Dev | Speech Recognition |
GB1180288A (en) * | 1967-06-23 | 1970-02-04 | Standard Telephones Cables Ltd | Analysing Complex Signal Waveforms |
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
DE2240557A1 (de) * | 1971-08-18 | 1973-02-22 | Jean Albert Dreyfus | Spracherkennungsvorrichtung zum steuern von maschinen |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
US3969700A (en) * | 1974-04-10 | 1976-07-13 | International Business Machines Corporation | Regional context maximum likelihood error correction for OCR, keyboard, and the like |
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
JPS56113199A (en) * | 1980-02-12 | 1981-09-05 | Tokyo Shibaura Electric Co | Voice recognizing apparatus |
US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
JPS589087A (ja) * | 1981-07-10 | 1983-01-19 | Citizen Watch Co Ltd | 電子時計 |
-
1983
- 1983-03-16 US US06/475,888 patent/US4761815A/en not_active Expired - Lifetime
-
1984
- 1984-03-13 AU AU25547/84A patent/AU2554784A/en not_active Abandoned
- 1984-03-15 CA CA000449665A patent/CA1207456A/en not_active Expired
- 1984-03-15 KR KR1019840001316A patent/KR920010582B1/ko not_active IP Right Cessation
- 1984-03-15 EP EP84301756A patent/EP0119835A1/en not_active Withdrawn
- 1984-03-15 JP JP59050789A patent/JPS59229600A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
CA1207456A (en) | 1986-07-08 |
EP0119835A1 (en) | 1984-09-26 |
JPH0554680B2 (ko) | 1993-08-13 |
KR840008194A (ko) | 1984-12-13 |
JPS59229600A (ja) | 1984-12-24 |
US4761815A (en) | 1988-08-02 |
AU2554784A (en) | 1984-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR920010582B1 (ko) | 단어 상태 기간 및 웨이트를 기초한 언어 인지 시스템 | |
KR880000255B1 (ko) | 언어인지 마이크로 컴퓨터 | |
Dahake et al. | Speaker dependent speech emotion recognition using MFCC and Support Vector Machine | |
Crystal et al. | Segmental durations in connected‐speech signals: Syllabic stress | |
NL192701C (nl) | Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal. | |
US4809332A (en) | Speech processing apparatus and methods for processing burst-friction sounds | |
EP0302663B1 (en) | Low cost speech recognition system and method | |
US4624009A (en) | Signal pattern encoder and classifier | |
Cohen et al. | The DECIPHER speech recognition system | |
GB2468203A (en) | A speech recognition system using multiple resolution analysis | |
EP0421744B1 (en) | Speech recognition method and apparatus for use therein | |
US5068900A (en) | Voice recognition system | |
US5003603A (en) | Voice recognition system | |
JPS60200300A (ja) | 音声の始端・終端検出装置 | |
EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
JPH06504383A (ja) | 会話の中の項目別表現を識別するあるいは数えるためのシステム | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
Lea | What causes speech recognizers to make mistakes? | |
JPH0254560B2 (ko) | ||
JP2547541B2 (ja) | 単音節音声認識装置 | |
JPS59224900A (ja) | 音声認識方法 | |
Savino et al. | Acoustic cues for classifying communicative intentions in dialogue systems | |
JP2679039B2 (ja) | 母音切出し装置 | |
CA1127764A (en) | Speech recognition system | |
JPH01209499A (ja) | パターン照合方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
E902 | Notification of reason for refusal | ||
J2X1 | Appeal (before the patent court) |
Free format text: APPEAL AGAINST DECISION TO DECLINE REFUSAL |
|
E902 | Notification of reason for refusal | ||
G160 | Decision to publish patent application | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20031126 Year of fee payment: 12 |
|
EXPY | Expiration of term |