KR100629669B1 - 분산 음성인식 시스템 - Google Patents
분산 음성인식 시스템 Download PDFInfo
- Publication number
- KR100629669B1 KR100629669B1 KR1020017009886A KR20017009886A KR100629669B1 KR 100629669 B1 KR100629669 B1 KR 100629669B1 KR 1020017009886 A KR1020017009886 A KR 1020017009886A KR 20017009886 A KR20017009886 A KR 20017009886A KR 100629669 B1 KR100629669 B1 KR 100629669B1
- Authority
- KR
- South Korea
- Prior art keywords
- vocoder
- parameters
- speech
- microprocessor
- processor
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
- Radar Systems Or Details Thereof (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
- Image Processing (AREA)
- Complex Calculations (AREA)
- Devices For Executing Special Programs (AREA)
- Machine Translation (AREA)
Abstract
분산 음성인식 시스템은 디지털 신호 프로세서(DSP)(104), 비휘발성 저장매체(108), 및 마이크로 프로세서(106)를 포함한다. DSP(104)는 디지털화된 입력 스피치 샘플들로부터 파라미터들을 추출하고 상기 추출된 파라미터들을 마이크로 프로세서(106)로 제공하도록 구성된다. 비휘발성 저장매체는 스피치 템플레이트들의 데이터 베이스를 포함한다. 마이크로 프로세서는 비휘발성 저장매체(108)의 내용을 판독하고, 파라미터들을 상기 내용과 비교하며, 상기 비교에 기초하여 음성 템플레이트를 선택하도록 구성된다. 비휘발성 저장매체는 플래시 메모리일 수 있다. DSP(104)는 보코더일 수 있다. DSP(104)가 보코더라면, 파라미터들은 보코더에 의해 생성된 진단 데이터일 수 있다. 분산 음성인식 시스템은 주문형 집적회로(ASIC)상에 존재할 수 있다.
Description
본 발명은 일반적으로 통신분야에 관련된 것이며 특히 음성인식 시스템에 관련된 것이다.
음성인식(VR)은 기기에 유저 또는 유저 음성 명령들을 인식하고, 시뮬레이션된 지능을 부여하고 기기와 인간의 인터페이스를 용이하게 하는 가장 중요한 기술들중 하나를 나타낸다. VR 은 또한 휴먼 스피치 이해를 위한 중요한 기술을 나타낸다. 음향적 스피치 신호로부터 언어적 메시지를 복구하기 위한 기술들을 이용하는 시스템은 음성 인식기로 불리운다. 음성 인식기는, 인커밍 로우 스피치(incoming raw speech)의 VR 을 성취하는데 필요한, 벡터들, 또는 정보를 포함하는 특성들의 시퀀스를 추출하는 음향 프로세서, 및 벡터들 또는 특성들의 시퀀스를 디코드하여 입력된 발성에 대응하는 언어적 단어들의 하나의 시퀀스와 같은 의미있고 소망되는 출력 포맷을 산출하는 워드 디코더를 포함하는 것이 보통이다. 소정의 시스템의 성능을 증가시키기 위하여 시스템이 유효한 파라미터들을 구비하도록 트레이닝이 요구된다. 즉, 시스템은 최적으로 기능하기 전에 트레이닝할 필요가 있다.
음향 프로세서는 음성 인식기에서 프론트 엔드(front-end) 스피치 분석 서브 시스템을 나타낸다. 입력 스피치 신호에 응답하여, 음향 프로세서는 시변 스피치 신호의 특징을 나타내는 적절한 표시를 제공한다. 음향 프로세서는 배경 잡음, 채널 왜곡, 스피커 특성, 및 화법과 같은 부적절한 정보를 제거해야 한다. 효율적인 음향 프로세싱은 증대된 음향 식별력을 음성 인식기에 제공한다. 이것을 목적으로, 분석하기에 유용한 특성은 단기 스펙트럼 엔벨로프이다. 단시간 스펙트럼 엔벨로프의 특징을 나타내기 위한 두 개의 통상적으로 사용되는 스펙트럼 분석기술은 선형 예측 코딩(LPC) 및 필터-뱅크 기초의 스펙트럼 모델링이 있다. 예시적인 LPC 기술들이 본 발명의 양수인에게 양수되고 참고로 여기에 포함된 미국특허 제 5,414,796 호, 및 역시 참고로 여기에 포함되는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453(1978)에서 개시된다.
VR(통상적으로 스피치 인식으로도 언급됨)의 사용은 안전을 이유로 점점 중요해진다. 예를 들어, VR 은 무선 전화기 키패드상의 버튼들을 누르는 수동적인 조작를 대체하는데 이용될 수 있다. 이것은 특히 유저가 자동차를 운전하면서 전화번호 호출을 개시하는 경우 중요하다. VR 없이 전화기를 사용하는 경우, 운전자는 운전대로부터 한 손을 놓고 호출을 다이얼하기 위하여 버튼을 누르는 동안 전화기 키패드를 쳐다보아야 한다. 이런 행위들은 자동차 사고의 가능성을 높인다. 스피치 인에이블 전화기(즉, 스피치 인식용으로 설계된 전화기)는 운전자가 지속적으로 도로를 주시하면서 전화 호출을 하도록 허용할 것이다. 그리고 핸즈-프리 자동차 키트 시스템은 추가적으로 운전자가 호출 개시동안 운전대에 두 손을 유지하도록 허용할 것이다.
스피치 인식 장치들은 화자종속(speaker-dependent) 또는 화자독립(speaker-independent) 장치들로서 분류된다. 화자 독립 장치들은 어떠한 유저로부터 음성 명령들을 받을 수 있다. 더욱 통상적인 화자 종속 장치들은 특정의 유저들로부터의 명령을 인식하도록 트레이닝된다. 화자 종속 VR 장치는 트레이닝 단계 및 인식 단계의 두 단계로 동작하는 것이 보통이다. 트레이닝 단계에서는, VR 시스템은 유저가 시스템의 어휘(vocabulary)에서 각각의 단어를 한 번 또는 두 번 말하도록 하여 시스템이 이 특정의 단어들이나 어구들에 대하여 유저의 스피치의 특성을 트레이닝할 수 있게 된다. 또한, 음성(phonetic) VR 장치의 경우, 언어의 모든 음소를 커버하도록 특별히 스크립트된 하나 이상의 간단한 기사를 읽음으로써 트레이닝이 성취된다. 핸즈-프리 자동차 키트를 위한 예시적인 어휘는 키패드상의 디지트들; 키워드 "call", "send", "dial", "cancel", "clear", "add", "delete", "history", "program", "yes", 및 "no"; 및 통상적으로 호출되는 소정 수의 동료, 친구, 또는 가족 구성원들의 이름들을 포함할 수 있다. 트레이닝이 완료되면, 유저는 트레이닝된 키워드를 말함으로써 유저는 인식 단계에서 호출을 개시할 수 있다. 예를 들어, "존" 이라는 이름이 트레이닝된 이름들중 하나라면, 유저는 유저는 어구 "존 호출" 을 말함으로써 존에게로의 호출을 개시할 수 있다. VR 시스템은 단어 "호출" 및 "존" 을 인식하고 유저가 이전에 존의 전화번호로서 입력한 번호를 다이얼할 것이다.
종래의 VR 장치들은 통상적으로 디지털 신호 프로세서(DSP) 또는 마이크로 프로세서를 사용하여 인커밍 스피치 샘플들을 분석하고, 적절한 파라미터들을 추출 하고, 파라미터들을 디코드하며, VR 장치의 어휘를 포함하는, 저장된 한 세트의 단어들, 또는 VR 템플레이트들과 디코드된 파라미터들을 비교한다. 어휘는 예를 들어 플래시 메모리와 같은 비휘발성 메모리에 저장된다. 예를 들어 디지털 셀룰러 전화기 같은, DSP 와 마이크로 프로세서 모두를 구비한 종래의 VR 시스템에서, 비휘발성 메모리는 일반적으로 마이크로 프로세서에 의해서 액세스 가능하지만 DSP 에 의해서는 그렇지 않다. 그런 시스템에서는, VR 이 전적으로 마이크로 프로세서에서 수행되면, 마이크로 프로세서는 합당한 대기시간(latency)으로 인식 결과들을 전달하는 계산력이 부족한 것이 보통이다. 한편, VR 이 전적으로 DSP 에서 수행되면, DSP 는 큰 VR 템플레이트들을 홀드하는데 충분하지 못한 온칩(on-chip) 메모리의 비교적 작은 크기를 가지므로, 마이크로 프로세서는 플래시 메모리를 판독하고 판독 내용을 DSP 로 보낼 필요가 있다. 이것은 긴 프로세스인데 그 이유는 DSP 와 마이크로 프로세서 사이의 인터페이스의 전형적으로 낮은 대역폭이, 소정 시간에 두 장치들 사이에서 전송될 수 있는 데이터량을 제한하기 때문이다. 따라서, 마이크로 프로세서의 메모리 용량과 DSP 의 계산력을 효율적으로 결합하는 VR 장치가 필요하다.
발명의 개요
본 발명은 마이크로 프로세서의 메모리 용량과 DSP 의 계산력을 효율적으로 결합하는 VR 장치를 위한 것이다. 따라서, 본 발명의 일 측면에서, 분산 음성인식 시스템은 디지털화된 스피치 샘플들을 수신하고 그로부터 복수의 파라미터들을 추출하도록 구성된 디지털 신호 프로세서; 복수의 스피치 템플레이트들을 포함하는 저장매체; 및 상기 저장매체 및 디지털 신호 프로세서에 연결되는 프로세서를 포함하며, 상기 프로세서는 상기 디지털 신호 프로세서로부터 복수의 파라미터들을 수신하고 상기 복수의 스피치 템플레이트들과 상기 복수의 파라미터들을 비교하도록 구성되는 것이 바람직하다.
본 발명의 또 다른 측면에서, 분산 음성인식 프로세싱 방법은 디지털 신호 프로세서에서 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 단계; 상기 복수의 파라미터들을 마이크로 프로세서로 제공하는 단계; 및 마이크로 프로세서에서 상기 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하는 단계를 포함하는 것이 바람직하다.
본 발명의 또 다른 측면에서, 분산 음성인식 시스템은 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하기 위한 수단; 복수의 스피치 템플레이트들을 영구적으로 저장하기 위한 수단; 및 상기 추출 수단으로부터 복수의 파라미터들을 수신하고 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하기 위한 수단을 포함하는 것이 바람직하다.
도 1 는 종래의 음성인식 시스템의 블럭도이다.
도 2 는 분산 음성인식 시스템의 블럭도이다.
도 3 는 프론트-엔드 프로세싱을 위한 보코더를 사용하는 분산 음성인식 시스템의 블럭도이다.
바람직한 실시예들의 상세한 설명
도 1 에 도시된 대로, 종래의 음성인식 시스템(10)은 아날로그 디지털 변환기(A/D)(12), 음향 프로세서(14), VR 템플레이트 데이터 베이스(16), 패턴 비교 로직(18), 및 결정 로직(20)을 포함한다. VR 시스템(10)은 예를 들어 무선 전화기 또는 핸즈-프리 자동차 키트에 존재할 수 있다.
VR 시스템(10)이 스피치 인식 단계에 있는 경우, 사람(도시하지 않음)은 하나의 단어 또는 어구를 말하여, 음성 신호를 생성한다. 스피치 신호는 종래의 트랜스듀서(역시 도시하지 않음)에 의해 전기적 스피치 신호 s(t) 로 변환된다. 스피치 신호 s(t) 는 A/D(12)로 제공되는데, 여기서는 스피치 신호 s(t) 를 예를 들어 펄스 코드 변조(PCM)와 같은 공지된 샘플링법에 따라 디지털화된 스피치 샘플들 s(n) 로 변환한다.
음성 샘플 s(n)은 파라미터 결정을 위하여 음향 프로세서(14)로 제공된다. 음향 프로세서(14)는 입력 스피치 신호 s(t)의 특성을 모델링하는 한 세트의 파라미터들을 생성한다. 파라미터들은, 예를 들면 스피치 코더 인코딩을 포함하고, 이전에 언급된 미국특허 제 5,414,796 호에서 개시된 고속 푸리에 변환(FFT) 기초의 스펙트럼 계수들을 사용하는 임의의 다수의 공지된 스피치 파라미터 결정 기술들에 따라 결정될 수 있다. 음향 프로세서(14)는 디지털 신호 프로세서(DSP)로서 구현될 수 있다. DSP 는 스피치 코더를 포함할 수 있다. 또한, 음향 프로세서(14)는 스피치 코더로서 구현될 수 있다.
파라미터 결정은 또한 VR 시스템(10)의 트레이닝동안 수행되며, VR 시스템(10)의 모든 어휘 단어를 위한 한 세트의 템플레이트(template)는 영구 저장을 위하여 VR 템플레이트 데이터베이스(16)로 라우트된다. VR 템플레이트 데이터베이스 (16)는 예를 들면, 플래시 메모리같은 비휘발성 저장매체의 임의의 종래 형태로서 구현되는 것이 바람직하다. 이것은 VR 시스템(10)으로의 파워가 턴오프되는 경우 VR 템플레이트 데이터베이스(16)에서 템플레이트가 유지되도록 허용한다.
파라미터의 세트는 패턴비교 로직(18)으로 제공된다. 패턴비교 로직(18)은 발성의 시작점 및 종료점을 검출하고, 동적 음향 특성(예를 들면, 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등)을 계산하고, 적절한 프레임들을 선택함으로써 음향 특성들을 압축하며, 정적 및 동적 음향 특성들을 양자화하는 것이 바람직하다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 예를 들면, 참고로 여기에 포함된, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다. 패턴비교 로직(18)은 파라미터들의 결과적인 세트를 VR 템플레이트 데이터베이스(16)에 저장된 모든 템플레이트들과 비교한다. 비교 결과들, 또는 파라미터 세트와 VR 템플레이트 데이터베이스(16)에 저장된 모든 템플레이트 사이의 거리는 결정 로직(20)으로 제공된다. 결정 로직(20)은 VR 템플레이트 데이터베이스(16)로부터 파라미터 세트를 가장 근사적으로 매치시키는 템플레이트를 선택한다. 또한, 결정 로직(20)은, 소정의 매칭 스레시홀드내에서 N 개의 가장 근사적인 매치들을 선택하는 종래의 "N-best" 선택 알고리즘을 사용할 수 있다. 사람은 그리고 나서 어느 것을 선택할지에 대하여 질문을 받는다. 결정 로직(20)의 출력은 어휘에서 어느 단어가 말해졌는지에 대한 결정이다.
패턴비교 로직(18) 및 결정 로직(20)은 마이크로 프로세서로서 구현되는 것이 바람직할 수 있다. VR 시스템(10)은 예를 들면, 주문형 집적회로(ASIC)일 수 있다. VR 시스템(10)의 인식 정확도는 VR 시스템(10)이 어휘에서 말해진 단어 또는 어구들을 얼마나 정확히 인식하는지에 대한 기준이다. 예를 들면, 95 % 의 인식 정확도는 VR 시스템(10)이 어휘에서 단어를 100 회중 95 회 정확히 인식하는 것을 나타낸다.
도 2 에서 도시된 바와 같이, 일 실시예에서, 분산 VR 시스템은 ASIC(100)에 존재하다. ASIC(100)은 예를 들어 무선 전화기에 존재한다. ASIC(100)은 A/D(102), DSP(104), 프로세서(106), 비휘발성 저장매체(108), 및 디지털 아날로그 변환기(D/A)(110)를 포함한다. 프로세서(106)는 마이크로 프로세서(106)인 것이 바람직하지만, 또한 프로세서(106)는 임의의 종래 프로세서, 제어기, 또는 상태기기일 수 있다. 비휘발성 저장매체(108)는 플래시 메모리(108)인 것이 바람직하지만, 또한 비휘발성 저장매체(108)는 임의의 종래 형태의 비휘발성 기록가능 메모리일 수 있다. DSP(104)는 스피치 코더(도시하지 않음) 및 스피치 디코더(역시 도시하지 않음)를 포함한다. DSP(104)는 예를 들어 보코딩, VR 프론트-엔트 드로세싱(즉, 음성 분석), 배경 잡음 억제, 및 음향 에코 캔슬을 포함하는 몇 몇 기능들을 수행할 수 있다. 또한, DSP(104)는 초당 8 킬로비트 코드 여기 선형 예 측(CELP) 코더, 13kbps CELP 코더(미국특허 제 5,414,796 호에 개시됨), 또는 코드분할 다중접속(CDMA) 강화 가변 속도 코딩(EVRC) 코더같은 종래의 보코더일 수 있다.
마이크로폰(112)는 A/D(102)로의 입력으로서 ASIC(100)에 연결된다. 화자(도시하지 않음)는 마이크로폰(112)으로 말하는데, 여기서는 아날로그 스피치 신호 s(t) 를 A/D(102)로 제공한다. A/D(102)는 아날로그 스피치 신호 s(t) 를 예를 들어 PCM 과 같은 공지된 방법에 따라 디지털 샘플 s(n) 로 변환한다. A/D(102)는 DSP(104)에 연결된다. 디지털화된 스피치 샘플들 s(n) 은 프론트-엔트 프로세싱을 위하여 DSP(104)로 연결된다. 디지털화된 음성 샘플들 s(n) 은 프론트-엔드 프로세싱을 위하여 DSP(104)로 제공된다.
DSP(104)에서, 디지털화된 스피치 샘플들 s(n) 에 대하여 푸리에 변환이 수행되어, 시간 영역 샘플들 s(n) 을 주파수 영역 값들로 변환한다. 복수의 밴드패스 필터들(도시하지 않음)을 통하여 신호를 패스함으로써 주파수 영역은 몇 몇 인접한 주파수 대역폭들로 분할된다. 밴드패스 필터들은 유한 임펄스 응답(FIR) 필터들인 것이 바람직할 수 있다. 필터 탭들은 각각의 연속적인 필터를 통하여 더 넓은 주파수 대역폭을 패스하도록 설정되며, 연속적인 필터들간의 폭의 변화는 로그함수적으로 증가한다. 모든 필터들에 의해 패스된 주파수의 범위는 인간 음성 범위를 포함한다. 하단에서, 패스된 대역폭들은 비교적 좁은 한편, 상단에서는 패스된 대역폭들이 비교적 넓다. 이것은 인간의 귀가 저주파수에서 더 잘 구별하므로 인간의 귀가 소리를 더욱 정확히 인식하는 것을 돕는다. 로그함수 주 파수 스케일은 바크 스케일(Bark scale)일 수 있고, 또는 스케일은 멜 스케일(Mel scale)일 수 있다. 그런 스케일들은 공지되어 있고 예를 들면 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993)에에서 개시된다.
일 실시예에서 13 개의 밴드패스 필터들이 이용된다. 다음 식은 필터들의 뱅크를 설명하는데,
각각의 프레임에 대하여, 예를 들어 전술된 미국특허 제 5,414,796 호, Rabiner & Schafer, supra, 및 Rabiner & Juang, supra, 69-140 에 개시된, 종래의 특성 추출법에 따라 DSP(104)가 밴드 파워값들의 벡터를 추출한다. 일 실시예에서 13 개의 밴드 파워 값들의 벡터가 매 프레임당 추출되고, 프레임들은 20 밀리초의 길이이고 50 퍼센트만큼 중첩된다. 밴드 파워 값들은 패킷화되고 마이크로 프로세서(106)로 패킷으로서 제공된다.
마이크로 프로세서(106)는 플래시 메모리(108)로 액세스하여 플래시 메모리(108)의 저장된 템플레이트 어휘 내용을 판독한다. 마이크로 프로세서(106)는, 종료점들이 VR 디코더(도시되지 않음)에 필요하다면, 수신된 데이터 패킷들에 기초하여, 발성의 시작점 및 종료점들을 검출한다. 마이크로 프로세서(106)는 그리고 나서 동적 음향 특성들(예를 들어, 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등과 같음))을 계산하고, 적절한 프레임들을 선택함으로써 음향적인 특성들을 압축하고, 정적 및 동적 음향적 특성들을 양자화한다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다.
마이크로 프로세서(106)는 발성과 플래시 메모리(108)의 내용을 비교한다. 마이크로 프로세서(106)는 패킷과 가장 유사한 저장된 단어를 선택한다. 다양한 패턴 인식 기술들은 Rabiner & Juang, supra, 141-241 에서 개시된다. 마이크로 프로세서(106)는 그리고 나서, 예를 들어, 마이크로 프로세서(106)에 연결된 안테나(114)를 통하여 기지국(도시하지 않음)과 통신함으로써 특정인에게로의 전화 호출을 개시하는 것과 같이, 저장된 단어와 연관된 명령을 수행한다.
대화가 시작하면, 트래픽 채널 스피치 패킷들은 DSP(104)에 의해서 인코드되고, 마이크로 프로세서(106)로 라우트되며, 변조회로(도시하지 않음)에 의해서 무선으로 송신하기 위하여 변조된다. 패킷들은 또한 마이크로 프로세서(106)에서 인코딩 로직(도시하지 않음)으로 변조하기 전에 인코드될 수 있다. 패킷들은 그리고 나서 안테나(114)를 통하여 무선으로 송신된다. 대화의 타측으로부터 수신 된 스피치 패킷들은 안테나(114)로부터 복조회로(도시하지 않음)로 라우트된다. 복조된 패킷들은 마이크로 프로세서(106)에서 디코딩 로직(도시하지 않음)으로 디코드될 수 있다. 패킷들은 그리고 나서 마이크로 프로세서(106)로부터 DSP(104)로 라우트되는데, 여기서는 패킷들을 벡터 비양자화(vector unquantization)시킨다. 패킷들은 그리고 나서 아날로그 스피치 신호로의 변환을 위하여 D/A(110)로 제공된다. 아날로그 스피치 신호는 확성기(116)로 제공되는데, 여기서는 화자에 의해 들린 단어들을 생성한다.
일 실시예에서, ASIC(200)은 VR 을 위한 프론트-엔드 프로세싱을 수행하기 위한 보코더(202)를 포함한다. 보코더(202)는 패킷 버퍼(204)로 연결된다. 패킷 버퍼(204)는 프로세서(206)로 연결된다. 프로세서(206)는 비휘발성 저장매체(208)로 연결된다. ASIC(200)은 예를 들어, 무선 전화기 핸드세트에 존재할 수 있다. 보코더(202)는 전술된 미국특허 제 5,414,796 호에 개시된 바와 같이 가변속도 13kbps CELP 보코더이지만, 동등하게 8kbps CELP 보코더 또는 CDMA EVRC 보코더일 수 있을 것이다. 프로세서(206)는 마이크로 프로세서인 것이 바람직하지만, 대신에 임의의 종래 형태의 프로세서, 제어기, 또는 상태기기(state machine)일 수 있다. 비휘발성 저장매체(208)는 플래시 메모리로 구현되는 것이 바람직하지만, 또한 임의의 종래 형태의 기록가능 비휘발성 메모리로 구현될 수 있다. 패킷 버퍼(204)는 종래의 버퍼 소자이다.
디지털화된 스피치 샘플들 s(n) 은 보코더(202)로 제공된다. 보코더(202)는 전술된 미국특허 제 5,414,796 호에 개시된 공지된 보코딩 기술로 스피치 샘플 들 s(n) 을 인코드한다. 전술된 특정의 실시예에서, 보코더(202)는 프레임당 128 바이트들을 생성하고, 각각의 프레임은 20 밀리초의 길이이다. 각각의 프레임, 128 바이트들이 패킷 버퍼(204)로 제공된다. 마이크로 프로세서(206)는 매 프레임당 패킷 버퍼(204)로부터 128 바이트(하나의 패킷)를 판독한다. 마이크로 프로세서(206)는 그리고 나서, VR 디코더(도시하지 않음)에 종료점들이 요구되면, 수신된 데이터 패킷들에 기초하여 발성의 시작점 및 종료점들을 검출한다. 마이크로 프로세서(206)는 그리고 나서 동적 음향 특성들(예를 들어 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등과 같음)을 계산하고, 적절한 프레임들을 선택함으로써 음향 특성들을 압축하고, 정적 및 동적 음향 특성들을 양자화한다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 예를 들어 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다. 마이크로 프로세서(206)는 그리고 나서 플래시 메모리(208)에 액세스하고, 패킷 버퍼(204)로부터 판독된 각각의 패킷과 메모리 내용을 비교하고, Rabiner & Juang, supra, 141-241 에 개시된 공지된 패턴 인식 기술에 따라 단어 결정을 한다.
전술된 특정의 실시예에서, 보코더(202)가 전속도로 인코딩하면, 프레임당 35 바이트가 생성되고, 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 반속도로 인코딩하면, 프레임당 17 바이트가 생성되고, 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 4분의 1 속도로 인코딩하면, 프레임당 7 바이트가 생성되고, 128 바이트 의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 8분의 1 속도로 인코딩하면, 프레임당 3 바이트가 생성되고 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)는 음성 인식동안 반속도로 인코드하는 것이 바람직하다. 따라서, 111 바이트들이 보코더 진단 데이터를 위하여 이용 가능하다.
전술된 특정의 실시예에서 보코더(202)의 코딩 속도와 무관하게 진단 데이터를 위하여 51 바이트가 필요하다. 보코더(202)가 전속도로 코딩한다면 보코더 진단 데이터를 위하여 추가적인 40 바이트가 필요하다. 코딩 속도가 반속도라면 보코더 진단 데이터를 위하여 오직 16 개의 추가적인 바이트들이 필요하다. 코딩 속도가 4분의 1 속도라면 보코더 진단 데이터를 위하여 오로지 추가적인 5 바이트만이 필요하다. 그리고 코딩 속도가 8 분의 1 속도라면 보코더 진단 데이터를 위하여 오로지 추가적인 1 바이트만이 필요하다.
보코더 패킷들이 양자화된 파라미터들(예를 들어, 반속도에서 17 개의 보코더 바이트들이 양자화됨)을 포함하는 한편, 보코더 진단 데이터 바이트들은 비양자화 파라미터들(예를 들어 반속도에서 보코더 진단 데이터의 최대 128-17=111 바이트까지 양자화되지 않음)을 포함한다. 더욱이, 보코더 진단 데이터가 모든 보코더 데이터를 포함하지 않을 지라도, 보코더 진단 데이터는 VR 에 관련된 모든 보코더 데이터를 포함한다. 따라서, 보코더 진단 데이터는 VR 목적으로 사용될 수 있다. 이것은 이하에 기술된 대로, 상당한 이점을 제공한다.
보코더 패킷들로부터 적절한 VR 파라미터들을 획득하는 것은 패킷들이 먼저 비양자화될 것을 요구한다. 예를 들어, 보코더(202)에서, 선형 예측 코딩(LPC) 계수들은 라인 스펙트럼쌍(line spectral pair, LSP) 주파수들로 변환된다. 프레임당 10 개의 LSP 주파수들은 벡터 양자화되고 정규 보코더 패킷들로 팩된다. 마이크로 프로세서(206)에서, 비양자화된 LSP 주파수들은 수신된 보코더 패킷들을 프레임 기준으로 언팩하고 그들을 비양자화함으로써 획득된다. 비양자화된 LSP 주파수들은 그리고 나서 LPC 계수들로 변환된다. LPC 계수들은 그리고 나서 스펙트럼 계수들로 변환되며, 이들은 로그 크기 스펙트럼의 푸리에 변환 표시의 계수들이다. 스펙트럼 계수들은 디지털화된 스피치 샘플들 s(n) 의 푸리에 변환 계수들의 로그의 역푸리에 변환을 취함으로써 획득된다. LSP 주파수들을 LPC 계수들로 그리고 스펙트럼 계수들로 변환하는 기술들, 및 LPC 계수들을 LSP 주파수들로 그리고 보코더 패킷들로 변환하기 위한 기술들은 전술된 미국특허 제 5,414,796 호에 상세히 개시된다.
전술된 방식으로 보코더 패킷들로부터 데이터를 벡터 비양자화(vector unquantization), 또는 "비압축"시키는 것은 계산적으로 비용이 많이 들고 많은 양의 프로세싱 용량을 필요로 할 것이다. 또한, 마이크로 프로세서(206)가 플래시 메모리(208)에 영구적으로 저장해야할 큰 LSP 벡터 양자화(VQ) 코드북이 필요할 것이다. 바람직한 실시예에서, VR 을 위하여 보코더 패킷들을 역양자화(de-quantizing)하는 대신 VR 을 위하여 보코더 진단 데이터가 사용되므로, 필수의 계산력 및 메모리 용량이 회피된다.
따라서, 신규하고 향상된 분산 음성 인식 시스템이 개시되었다. 당업자는 여기에 제시된 실시예들과 연관되어 설명된 다양한 예시적인 로직 블록들 및 알고리즘 단계들은 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC), 이산 게이트 또는 트랜지스터 로직, 예들 들어 레지스터 및 FIFO 같은 이산 하드웨어 구성요소들, 한 세트의 펌웨어 명령들을 실행하는 프로세서, 또는 임의의 종래의 프로그램 가능한 소프트웨어 모듈 및 프로세서로 구현 또는 수행될 수 있음을 이해할 것이다. 프로세서는 마이크로 프로세서인 것이 바람직할 수 있지만, 또한, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로 제어기, 또는 상태기기일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 임의의 다른 형태의 공지된 기록 가능한 저장매체에 존재할 수 있다. 당업자는 상기의 명세서에 걸쳐 참조될 수 있는 데이터, 지시, 명령, 정보, 신호, 비트, 심볼 및 칩은 전압, 전류, 전자기파, 자계 필드 또는 입자, 광학적 필드 또는 입자, 또는 그들의 임의의 조합에 의해 표시되는 것이 바람직하다는 것 또한 이해할 것이다.
따라서 본 발명의 바람직한 실시예들이 도시되고 설명되었다. 그러나, 본발명의 취지나 범위에서 벗어나지 않고 여기에 서술된 실시예들에 대한 수많은 변형들이 가능하다는 것이 당업자에게는 명백할 것이다. 따라서, 본 발명은 이하의 청구범위에 의해서만 제한된다.
Claims (14)
- 진단 데이터 및 보코더 패킷들을 생성하도록 구성되는 보코더를 구비하고, 디지털화된 스피치 샘플들을 수신하고 그로부터 복수의 파라미터들을 추출하도록 구성되는 디지털 신호 프로세서;복수의 스피치 템플레이트들을 포함하는 저장매체; 및상기 저장매체와 상기 디지털 신호 프로세서에 연결되는 프로세서를 구비하며,상기 프로세서는 상기 디지털 신호 프로세서로부터 복수의 파라미터들을 수신하고 상기 스피치 템플레이트들과 상기 복수의 파라미터들을 비교하도록 구성되는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 1 항에 있어서,상기 프로세서는 상기 보코더 패킷을 리코딩하고, 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 것에 기초하여 상기 복수의 스피치 템플레이트들중 하나를 선택하도록 더 구성되는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 1 항에 있어서,상기 디지털 신호 프로세서, 상기 저장매체, 및 상기 프로세서는 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 1 항에 있어서,상기 복수의 파라미터는 상기 보코더에 의해 생성되는 진단 데이터중의 적어도 일부를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 4 항에 있어서,상기 보코더, 상기 저장매체, 및 상기 프로세서는 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
- 디지털 신호 프로세서에서, 진단 데이터 및 보코더 패킷들을 생성하도록 구성된 보코더로 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 단계,상기 복수의 파라미터들과 상기 보코터 패킷들을 마이크로 프로세서에 제공하는 단계, 및상기 마이크로 프로세서에서, 상기 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하는 단계를 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
- 제 6 항에 있어서,상기 마이크로프로세서에 상기 보코더 패킷들을 리코딩하는 단계 및 상기 마이크로 프로세서에서, 상기 비교하는 단계의 결과에 기초하여 스피치 템플레이트들중 하나를 선택하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
- 제 6 항에 있어서,상기 복수의 파라미터들은 상기 보코더에 의해 생성되는 진단 데이터의 적어도 일부를 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
- 보코더 패킷 및 진단 데이터를 생성하는 수단을 구비하고, 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 추출 수단;복수의 스피치 템플레이트들을 저장하는 저장 수단; 및상기 추출 수단으로부터 상기 복수의 파라미터들 및 상기 보코더 패킷들을 수신하고 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 수신 및 비교 수단을 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 9 항에 있어서,상기 수신 및 비교 수단은 상기 보코더 패킷들을 리코딩하고 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 것에 기초하여 상기 복수의 스피치 템플레이트들중 하나를 선택하는 수단을 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 9 항에 있어서,상기 추출 수단, 상기 저장 수단, 및 상기 수신 및 비교 수단은 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 9 항에 있어서,상기 복수의 파라미터들은 보코더 패킷과 진단 데이터를 생성하는 수단에 의해 생성되는 진단 데이터의 적어도 일부를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 9 항에 있어서,상기 저장 수단은 플래시 메모리를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
- 제 9 항에 있어서,상기 보코더, 상기 저장 수단, 및 상기 수신 및 비교 수단은 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/246,413 | 1999-02-08 | ||
US09/246,413 US6411926B1 (en) | 1999-02-08 | 1999-02-08 | Distributed voice recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010093326A KR20010093326A (ko) | 2001-10-27 |
KR100629669B1 true KR100629669B1 (ko) | 2006-09-29 |
Family
ID=22930576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020017009886A KR100629669B1 (ko) | 1999-02-08 | 2000-02-04 | 분산 음성인식 시스템 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6411926B1 (ko) |
EP (1) | EP1159736B1 (ko) |
JP (1) | JP4607334B2 (ko) |
KR (1) | KR100629669B1 (ko) |
CN (1) | CN1168070C (ko) |
AT (1) | ATE426888T1 (ko) |
AU (1) | AU3589400A (ko) |
DE (1) | DE60041869D1 (ko) |
HK (1) | HK1044403B (ko) |
WO (1) | WO2000046794A1 (ko) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
US6832194B1 (en) * | 2000-10-26 | 2004-12-14 | Sensory, Incorporated | Audio recognition peripheral system |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
EP1298647B1 (en) * | 2001-09-28 | 2005-11-16 | Alcatel | A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder |
US6718013B2 (en) * | 2001-10-01 | 2004-04-06 | Voicecards, Inc. | Audio recording system and method of use |
WO2003105126A1 (en) | 2002-06-05 | 2003-12-18 | Vas International, Inc. | Biometric identification system |
KR20040023345A (ko) * | 2002-09-11 | 2004-03-18 | 현대모비스 주식회사 | 텔레매틱스의 음성인식 장치 |
JP4304952B2 (ja) * | 2002-10-07 | 2009-07-29 | 三菱電機株式会社 | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム |
US7922583B2 (en) * | 2003-08-05 | 2011-04-12 | Igt | Digital signal processor based generation and control of electronic signals in a gaming machine |
JPWO2005064592A1 (ja) * | 2003-12-26 | 2007-12-20 | 株式会社ケンウッド | 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
CN1326112C (zh) * | 2005-03-28 | 2007-07-11 | 华南理工大学 | 一种语音识别装置及其集成电路实现方法 |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
KR100794140B1 (ko) * | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
CN104838505B (zh) | 2013-03-29 | 2017-03-15 | 昭荣化学工业株式会社 | 太阳能电池元件表面电极用导电性糊及太阳能电池元件的制造方法 |
US10032449B2 (en) * | 2014-09-03 | 2018-07-24 | Mediatek Inc. | Keyword spotting system for achieving low-latency keyword recognition by using multiple dynamic programming tables reset at different frames of acoustic data input and related keyword spotting method |
US20160295426A1 (en) * | 2015-03-30 | 2016-10-06 | Nokia Solutions And Networks Oy | Method and system for communication networks |
US11437020B2 (en) | 2016-02-10 | 2022-09-06 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
EP3472831B8 (en) | 2016-06-15 | 2020-07-01 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
US10832031B2 (en) | 2016-08-15 | 2020-11-10 | Apple Inc. | Command processing using multimodal signal analysis |
US10913463B2 (en) | 2016-09-21 | 2021-02-09 | Apple Inc. | Gesture based control of autonomous vehicles |
WO2018086033A1 (en) | 2016-11-10 | 2018-05-17 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
US10372132B2 (en) | 2016-12-12 | 2019-08-06 | Apple Inc. | Guidance of autonomous vehicles in destination vicinities using intent signals |
US10601599B2 (en) * | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4567606A (en) | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
FR2571191B1 (fr) | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
JPS6269297A (ja) | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US4903301A (en) * | 1987-02-27 | 1990-02-20 | Hitachi, Ltd. | Method and system for transmitting variable rate speech signal |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5040212A (en) | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5325524A (en) | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
JPH0642153B2 (ja) * | 1989-12-20 | 1994-06-01 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識装置 |
US5280585A (en) | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5920837A (en) | 1992-11-13 | 1999-07-06 | Dragon Systems, Inc. | Word recognition system which stores two models for some words and allows selective deletion of one such model |
US5627939A (en) * | 1993-09-03 | 1997-05-06 | Microsoft Corporation | Speech recognition system and method employing data compression |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
JP2606142B2 (ja) | 1994-06-15 | 1997-04-30 | 日本電気株式会社 | ディジタル携帯電話機 |
GB9416463D0 (en) | 1994-08-15 | 1994-10-05 | Farrington Jonathan S | Sound control device |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5794196A (en) | 1995-06-30 | 1998-08-11 | Kurzweil Applied Intelligence, Inc. | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
TW439380B (en) | 1995-10-09 | 2001-06-07 | Hitachi Ltd | Terminal apparatus |
US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
-
1999
- 1999-02-08 US US09/246,413 patent/US6411926B1/en not_active Expired - Lifetime
-
2000
- 2000-02-04 WO PCT/US2000/002904 patent/WO2000046794A1/en active IP Right Grant
- 2000-02-04 JP JP2000597795A patent/JP4607334B2/ja not_active Expired - Lifetime
- 2000-02-04 CN CNB008035482A patent/CN1168070C/zh not_active Expired - Lifetime
- 2000-02-04 DE DE60041869T patent/DE60041869D1/de not_active Expired - Lifetime
- 2000-02-04 AT AT00914514T patent/ATE426888T1/de not_active IP Right Cessation
- 2000-02-04 AU AU35894/00A patent/AU3589400A/en not_active Abandoned
- 2000-02-04 EP EP00914514A patent/EP1159736B1/en not_active Expired - Lifetime
- 2000-02-04 KR KR1020017009886A patent/KR100629669B1/ko active IP Right Grant
-
2002
- 2002-08-09 HK HK02105820.3A patent/HK1044403B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6411926B1 (en) | 2002-06-25 |
CN1168070C (zh) | 2004-09-22 |
WO2000046794A1 (en) | 2000-08-10 |
EP1159736A1 (en) | 2001-12-05 |
HK1044403B (zh) | 2005-05-20 |
CN1352787A (zh) | 2002-06-05 |
ATE426888T1 (de) | 2009-04-15 |
JP2002536692A (ja) | 2002-10-29 |
EP1159736B1 (en) | 2009-03-25 |
HK1044403A1 (en) | 2002-10-18 |
DE60041869D1 (de) | 2009-05-07 |
AU3589400A (en) | 2000-08-25 |
JP4607334B2 (ja) | 2011-01-05 |
KR20010093326A (ko) | 2001-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100629669B1 (ko) | 분산 음성인식 시스템 | |
KR100719650B1 (ko) | 잡음 신호에서 음성의 엔드포인팅 방법 | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
KR100923896B1 (ko) | 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치 | |
KR100316077B1 (ko) | 분산형음성인식시스템 | |
KR20010006401A (ko) | 보코더에 기초를 둔 음성인식기 | |
WO2002061727A2 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
TW546632B (en) | System and method for efficient storage of voice recognition models | |
KR19990037291A (ko) | 음성합성방법 및 장치 그리고 음성대역 확장방법 및 장치 | |
KR100698811B1 (ko) | 음성 인식 거부 방식 | |
KR100794140B1 (ko) | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 | |
KR100647291B1 (ko) | 음성의 특징을 이용한 음성 다이얼링 장치 및 방법 | |
KR100278640B1 (ko) | 이동 전화기를 위한 음성 다이얼링 장치 및방법 | |
Beauford | Improving the automatic recognition of distorted speech | |
KR19990081663A (ko) | 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120830 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130830 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140828 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180628 Year of fee payment: 13 |