KR100316077B1 - 분산형음성인식시스템 - Google Patents
분산형음성인식시스템 Download PDFInfo
- Publication number
- KR100316077B1 KR100316077B1 KR1019960703304A KR19960703304A KR100316077B1 KR 100316077 B1 KR100316077 B1 KR 100316077B1 KR 1019960703304 A KR1019960703304 A KR 1019960703304A KR 19960703304 A KR19960703304 A KR 19960703304A KR 100316077 B1 KR100316077 B1 KR 100316077B1
- Authority
- KR
- South Korea
- Prior art keywords
- word decoder
- acoustic
- station
- receiving
- voice
- Prior art date
Links
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims 2
- 238000010295 mobile communication Methods 0.000 claims 2
- 230000009466 transformation Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003931 cognitive performance Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Computer And Data Communications (AREA)
- Radar Systems Or Details Thereof (AREA)
- Selective Calling Equipment (AREA)
- Image Processing (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
특성 추출 장치(22)를 갖는 음성 인식 시스템은 원격지(40)에 위치되어 있다. 특성 추출 장치(22)는 입력 음성 프레임으로부터 특성을 추출하며 중앙 처리국(42)에 추출된 특성을 제공한다. 중앙 처리국(42)에서, 특성은 입력 음성 프레임의 구문을 결정하는 워드 디코더(48)에 제공된다.
Description
발명의 배경
발명의 분야
본 발명은 음성 신호처리에 관한 것으로, 특히, 표준 음성 인식 시스템을 분산형으로 실행하기 위한 방법 밀 장치에 관한 것이다.
관련 기술의 설명
음성 인식은 시뮬레이트된 지능을 가진 기계가 사용자 또는 사용자 음성 명령을 인식하고 사람과 기계와의 인터페이스를 용이하게 하는데 가장 중요한 기술중 하나이다. 또한, 그것은 인간 음성을 이해하기 위한 중요한 기술을 나타낸다. 음향신호로부터 언어 메시지를 회복하기 위한 기술을 사용하는 시스템을 음성 인식기(VR)라 한다. 음성 인식기는 입력 생(raw)언어로부터 VR에 필요한 일련의 정보-베어링(bearing) 특성(벡터)을 추출하는 음향 처리기와, 입력 언어에 대응하는 일련의 언어 워드와 같이, 출력의 중요하고 바람직한 포맷을 산출하기 위하여 이러한 일련의 특성(벡터)을 디코딩하는 워드 디코더로 이루어진다. 주어진 시스템의 실행을 증가시키기 위하여, 적당한 파라미터를 갖는 시스템을 설치할 필요가 있다. 즉, 시스템은 그것이 최적으로 기능할 수 있기전에 배워야 한다.
음향 처리기는 음성 인식기에서 전방단 음성 분석 부시스템을 나타낸다. 입력 음성 신호에 응답하여, 음향 처리기는 시변 음성 신호를 특성화하기 위한 적당한 표현을 제공한다. 그것은 배경 잡음, 채널 왜곡, 스피커 특성 및 대화방법과 같은 부적합한 정보를 버린다. 효과적인 음향 특성은 보다 높은 음향 식별력을 갖는 음성 인식기를 제공한다. 가장 유용한 특징은 단시간 스펙트럼 엔벨로프(envelop)이다. 상기 단시간 스펙트럼 엔벨로프를 특성화함에 있어서, 가장 유용하게 사용되는 2가지 스펙트럼 분석 기술로서 선형 예측 코딩(LPC)과 스펙트럼 분석 모델을 기초로한 필터-뱅크가 있다. 그러나, LPC 방식은 음성 영역 스펙트럼 엔벨로프로의 양호한 접근을 제공할 뿐만아니라 모든 디지탈 실시에 있어서 필터-뱅크 방식보다 계산적으로 비용이 훨씬 덜 든다는 것을 쉽게 알 수 있다(Rabnier, L.R. and Schafer, R,W., dIGITAL Processing ofSpeech Signals, PrenticeHall, 1978), LPC 방식 음성 인식기의 실행은 필터-뱅크 방식 인식기보다 더 양호하거나 도는 그것과 비교가능하다는 것을 증명하였다(Rabiner, L.R, and Juang, B,H,, Fumdamentals of Speech Recognition, Prentice Hall, 1993).
제 1 도를 참조하면, LPC 방식 음향 처리기에서, 입력 음성은 마이크로폰(도시하지 않음)에 제공되어 있으며 아날로그 전기 신호로 전환된다. 이 전기 신호는 A/D 컨버터(도시하지 않음)에 의해 디지탈화된다. 디지탈화된 음성 신호는 신호를 스펙트럼으로 평평하게 하고 다음 신호 처리에 있어서 유한 정밀 효과를 받지 않도록 하기 위해 프리엠퍼시스 필터(preemphasis filter)(2)를 통과한다. 프리엠퍼시스 필터링된 음성은 일시적으로 오버랩되거나 또는 비오버랩된 블록으로 구획되거나 차단되는 구획 엘리먼트(4)에 제공된다. 그러면 음성 데이타의 프레임은 프레임된 DC 성분이 제거되는 윈도우 엘리먼트(6)에 제공되고 디지탈 윈도우 동작이 프레임 경계에서의 불연속성에 기인하여 차단 효과를 경감하기 위해 각 프레임상에서실행된다. LPC 분석에서 가장 공통적으로 사용되는 윈도우 함수는 해밍(Hamming) 윈도우 w(n)으로서 다음과 같이 규정된다:
원도우된 음성은 LPC 분석 엘리먼트(8)에 제공된다. LPC 분석 엘리먼트(8)에서 자기상관 함수는 윈도우된 샘플을 기초로하여 계산되며 대응 LPC 파라미터는 자기상관 함수로부터 직접 얻어진다.
일반적으로 말하면, 워드 디코더는 화자(speaker)의 오리지날 워드 스트링(string)의 평가로 음향 처리기에 의해 생성된 음향 특성 시퀀스를 전달한다. 이것은 음향 패턴 매칭 및 언어 모델링의 2 단계로 달성된다. 언어 모델링은 분리된 워드 인식의 적용에서 피할 수 있다. LPC 분석 엘리먼트(8)로부터 LPC 파라미터는 음소(phoneme), 음절(syllable), 워드등과 같은 가능한 음향 패턴들을 검출하고 분류하기 위하여 음향 패턴 매칭 엘리먼트(10)에 제공된다. 대상(candidate) 패턴은 워드의 시퀀스가 얼마나 문법적으로 잘 형성되어 있으며 중요한 것인지를 결정하는 문장구성의 규칙을 모델링하는 언어 모델링 엘리먼트(12)에 제공된다. 구문 정보는 음향 정보 자체가 모호할 경우 음성 인식을 가이드하는데 가치가 있다. 언어 모델링을 기초로 하여, VR는 음향 특성 매칭 결과를 순차적으로 해석한다.
워드 디코더에서 음향 패턴 매칭 및 언어 모델링은 화자의 음운 및 음향-음소 변화를 나타내기 위하여 수학적이거나 추측 통계학적 또는 결정론적인 모델을필요로 한다. 음성 인식 시스템의 실행은 상기 두 모델링의 품질에 직접 관련된다. 음향 패턴 매칭을 위한 모델의 여러 가지 클래스중에서, 템플릿(template) 방식 동적 시간 왜곡(warping)(DTW) 및 추측 통계학적 히든(hidden) 마코프 모델링(HMM)이 가장 일반적으로 사용된다. 그러나, DTW 접근 방식은 매개변수적이고 이중적인 추측 통계학적 모델인 HMM 방식중 특별한 경우로서 간주될 수 있다. HMM 시스템은 현재 가장 성공적인 음성 인식 알고리즘이다. HMM에서 이중 확률적 성질은 음성 신호와 연합하는 일시적 변화와 아울러 음향을 흡수함에 있어서 보다 양호한 유연성을 제공한다. 이것은 항상 인식 정확도의 개선을 초래한다. 언어 모델과 관련하여, F.Jelink, "The Development of an Experimental Discrete Dictation Recognizer", Proc.IEEE, vol.73, pp.1616-1624, 1985,에 기술되어 있는 k-그램 언어 모델이라 부르는 확률적 모델은 실질적으로 큰 어휘 음성 인식 시스템에 성공적으로 적용되었다. 작은 어휘 경우에, 결정론적 문법은 에어라인과 예약 및 정보 시스템의 적용에 있어서 유한 상태 네트워크(FSN)로서 공식화되었다(Rabiner, L,R, and Levine, S,Z., A Speaker-Independent, Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Model and Level Building, IEEE Trans. on IASSP, Vol.33,No.3, June 1985 참조).
통계학적으로, 인식 에러의 확률을 최소화하기 위하여, 인식 음성 문제는 다음과 같이 형식화될 수 있다: 음향 증명 관측 O에서, 음성 인식의 동작은 워드 스트링W*를 검색하는 것이다.
여기서 모든 가능한 워드 스트립W에 걸쳐 최대화된다. 베이어스(Bayes) 규칙에 따라, 상기 방정식에서 조건부 확률은 다음과 같다:
P(O)가 인식하기에 불규칙하기 때문에, 워드 스트링 평가는 다음과 같이 선택적으로 얻어질 수 있다:
여기서 P(W)는 워드 스트링 W이 발음될 수 있는 사전확률을 나타내며, P(O)|W)는 화자가 워드 시퀀스 W를 발음할 경우 음향 증명 O이 관측되는 확률을 나타낸다.
워드 인식과 관련하여, 어휘가 작을 경우(100 미만), 결정론적 문법은 워드가 언어에서 법적 문장을 형성하기 위하며 논리적으로 다른 워드에 종속할 수 있는 것을 엄격하게 지배하는데 사용될 수 있다. 결정론적 문법은 가능 워드(potential word)의 탐색 공간을 억제하고 예상대로 계산을 감소하기 위해 함축적으로 음향 매칭 알고리즘에 통합될 수 있다. 그러나, 어휘크기가 중간(100 내지 1000) 이거나 크면(1000 이상), 워드 시퀀스 W=(w1, w2,....., Wn)의 확률은 확률적 언어 모델링에 의해 얻어질 수 있다. 간단한 확률 이론으로부터, 사전확률 P(W)은 다음과 같이 분석될 수 있다:
여기서는 워드 시퀀스(w1,w2,...,wi-1)가 그것을 선행할 경우 wi가 발음될 확률이다. w1의 선택은 입력 워드의 전체 지나간 히스토리에 좌우된다. 크기 V의 어휘에 대하여, 이것은를 완전히 상술하기 위하여 V1값을 필요로 한다. 중간 어휘 크기에 대해서도, 이것은 언어 모델을 트레인하기 위하여 샘플의 방대한 수를 필요로 한다. 불충분한 트레이닝 데이타에 기인한의 부정확한 평가는 오리지날 음향 매칭의 결과를 저하시킬 것이다.
상기 문제에 대한 실질적인 해결은 w1만이 (k-1)선행 워드 wi-1, wi-2,...,wi-k+1에 의존한다는 것을 가정한다. 확률적 언어 모델은에 의해 완전히 서술될 수 있으며 그것으로부터 k-그램 언어 모델이 유도된다. 대부분의 워드 스트링은 k>3일 경우 언어에서 절대로 발생하지 않으며, 유니그램(k=1), 바이그램(k=2) 및 트라이그램(k=3)은 통계학적으로 문법을 고려하는 가장 강력한 확률적 언어이다. 언어 모델링은 인식에 유용한 구문 및 의미 정보를 포함하지만, 이 확률들은 음성 데이타의 대규모 집합으로부터 트레이닝되어야 한다. k-그램이 데이타에서 절대로 발생하지 않을 수도 있는 것과 같이, 이용가능한 트레이닝 데이타가 비교적 제한되는 경우,는 바이그램 확률부터 직접 평가될 수 있다. 이 프로세스는 F. Jelink, "The Development of Am Experimental Discrets Dictation Recognizer" (Proc. IEEE, vol,73, pp.1616-1624, 1985)에 상세되어 있다. 워드 인식과 관련하여, 전체 워드 모델은 기본 음성 단위로서 사용되는 반면, 연속적인 음성 인식에 있어서, 음소, 음절 또는 반음절과 같은 부대역 단위는 기본 음성 단위로서 사용될 수 있다. 워드 디코더는 상응하게 변형될 수 있다.
종래의 음성 인식 시스템은 그들의 분리성, (파워 소모, 메모리 이용 가능성 등과 같은) 적용 시스템의 제한 및 통신 채널 특성을 고려하지 않고 음향 처리기 및 워드 디코더를 통합한다. 이것은 이 두 컴포넌트가 적절히 분리되어 있는 분산형 음성 인식 시스템의 개량에 동기를 부여한다.
발명의 요약
본 발명은 새롭게 개선된 분산형 음성 인식 시스템으로, 그 특징은 다음과 같다: (i) 전방단 음향 처리기는 LPC 방식 또는 필터 뱅크 방식이며; (ii) 워드 디코더에서 음향 패턴 매칭은 히든 마코프 모델(HMM), 동적 시간 왜곡(DTW) 또는 신경 회로망(NN)에 기초하며; 및 (iii) 연결된 또는 연속적인 워드 인식 목적을 위하여, 언어 모델은 결정론적 또는 확률적 문법에 기초하고 있다. 본 발명은 성분 즉, 특성 추출 및 워드 디코딩을 적절히 분리함으로써 시스템 실행의 개선에 있어서 통상의 음성 인식기와는 다르다. 다음 예에서 설명하는 바와 같이, 세스트럼(cepstrum) 계수와 같은 LPC 방식 특성이 통신 채널을 통해 보내질 경우,LPC 및 LSP 사이의 변환은 특성 시퀀스 상의 잡음 효과를 완화시키는데 사용될 수 있다.
본 발명의 특징, 목적 및 이점은 이하 첨부한 도면을 참조로하여 상세하게 설명한다.
제 1도는 일반적인 음성 인식 시스템의 블록도;
제 2도는 무선 통신 환경에서 본 발명의 실시예의 블록도;
제 3도는 본 발명의 일반 블록도;
제 4도는 본 발명의 변환 엘리먼트 및 역변환 엘리먼트의 실시예의 블록도; 및
제 5도는 원격 워드 검출기에 더하여 국소 워드 검출기를 포함하는 본 발명의 바람직한 실시예의 블록도.
바람직한 실시예의 상세한 설명
표준 음성 인식기에서, 인식 또는 트레이닝에 있어서, 대부분의 계산 복잡성은 음성 인식기의 워드 디코더 부시스템에 집중되어 있다. 분산형 시스템 구조를 갖는 음성 인식기의 실시에 있어서, 계산 로드(load)를 적절히 흡수할 수 있는 부시스템에서 워드 디코딩 작업을 대신하는 것이 바람직하다. 반면에 음향 처리기는 신호 처리 및/또는 채벌 유도 에러에 의해 초래된 양자화 에러의 효과를 감소시키기 위하여 가능한 한 음성원에 근접하게 있어야 한다.
본 발명의 실시예가 제 2도에 기술되어 있다. 실시예에서, 환경은 휴대용 셀룰라 텔레폰 또는 개인 통신 장치(40) 및 셀 기지국(42)으로 참조되는 중앙 통신 센터를 포함하는 무신 통신 시스템이다. 도시한 실시예에서는 분산형 VR 시스템을 나타낸다. 분산형 VR에서 음향 처리기 또는 특성 추출 엘리먼트(22)는 개인 통신 장치(40)에 있으며 워드 디코더(48)는 중앙 통신 센터에 있다. 분산형 VR 대신에, VR이 휴대용 셀룰라 폰에서 단독으로 실시될 경우, 중간 크기 어휘에 대해서 조차도 높은 계산 비용에 기인하여 연결된 워드 인식이 아주 실행불가능하게 될 것이다. 한편, VR이 단지 기지국에 있을 경우, 정확도는 음성 코덱 및 채널 효과와 연합하는 음성 신호의 강하에 기인하여 감소될 수 있다. 명백하게, 제안된 분산형 시스템 설계에는 3가지 이점이 있다. 첫 번째는 텔레폰(40)에 더 이상 존재하지 않는 워드 디코더 하드웨어에 기인하여 셀룰라 텔레폰의 비용이 감소된다는 점이다. 두 번째는 계산 집중형 워드 디코더 동작이 국소적으로 실행되는 결과를 초래하는 휴대용 텔레폰(40)의 배터리(도시하지 않음)상에 트레인이 감소된다는 점이다. 세 번째는 분산형 시스템의 유연성 및 확장성에 더하여 인식 정확도가 개선된다는 점이다.
음성은 특성 추출 엘리먼트(22)에 제공되어 있는 전기신호로 음성 신호를 전환하는 마이크로폰(20)에 제공된다. 마이크로폰(20)으로부터 나오는 신호는 아날로그이거나 디지탈 일수 있다. 신호가 아날로그이면, 아날로그 대 디지탈 변환기(도시하지 않음)는 마이크로폰(20) 및 특성 추출 엘리먼트(22) 사이에 삽입될 필요가 있다. 음성 신호는 특성 추출 엘리먼트(22)에 제공된다. 특성 추출 엘리먼트(22)는 입력 음성의 언어 해석을 디코딩하는데 사용될 수 있는 입력 음성의 관련 특성을추출한다. 음성을 평가하는데 사용될 수 있는 특성의 일 예는 입력 음성 프레임의 주파수 특성이다. 이것은 음성의 입력 프레임의 선형 예측 코딩 파라미터로서 자주 제공된다.
중앙 통신 센터(42)에서, 전송된 특성은 안테나(44)에서 수신되어 수신기(46)에 제공된다. 수신기(46)는 수신된 전송 특성을 복조 및 디코딩하여 그것을 워드 디코더(48)에 제공한다. 워드 디코더(48)는 음성 특성으로부터 음성의 언어 평가를 결정하고 송신기(50)에 작용 신호를 제공한다. 송신기(50)는 상기 작용 신호를 증폭, 변조 및 디코딩하고 증폭된 신호를 안테나(52)에 제공하며, 평가된 워드나 명령 신호를 휴대폰(40)으로 전송한다. 또한, 송신기(50)는 공지의 디지탈 코딩, 변조 또는 전송 방식을 사용할 수도 있다.
휴대폰(40)에서, 평가된 워드나 명령 신호는 안테나(28)에 수신되며, 안테나는 수신된 신호를 듀플렉서(26)를 통해 수신기(30)에 제공하며, 수신기는 신호를 변조하고 디코딩하며 명령 신호나 평가된 워드를 제어 엘리먼트 (38)에 제공한다. 수신된 명령 신호나 평가된 워드에 응답하여, 제어 엘리먼트(38)는 의도된 응답을 제공한다(예를 들면, 폰 넘버, 휴대폰상에 화면 스크린에 대한 정보를 제공'하는 경우).
제2도에서 나타난 동일한 시스템은 중앙 통신 센터(42)로부터 다시 보내진 정보는 전송된 음성의 해석일 필요가 없으며, 차라리 중앙 통신 센터(42)로부터 다시 보내진 정보는 휴대폰에 의해 보내진 디코팅된 메시지에 대한 응답일 수있다는 점에서 약간 다르다. 예를 들면, 통신 네트워크를 통하여 중앙 통신 센터(42)에 연결된 원격 응답 기기(도시하지 않음)상에 메시지의 필요일 수도 있으며, 그 경우 중앙 통신 센터(42)로부터 휴대폰(40)으로 전송된 신호는 이 실시에 있어서 응답 기기로부터 나오는 메시지일 수 있다. 제 2 제어 엘리먼트(49)는 이 중앙 통신 센터에 배치되어 있다.
중앙 통신 센터(42) 대신에 휴대폰(40)에서 특성 추출 엘리먼트(22)를 배치하는 중요성은 다음과 같다. 음향 처리기가 분산형 VR에 반대로 중앙 통신 센터(42)에 배치되면, 저대역폭 디지탈 라디오 채널은 양자화 변형에 기인한 특성 벡터의 분해능을 제한하는 (제 1 부시스템에서) 보코더를 필요로 할수 있다. 그러나, 휴대폰 또는 셀룰라폰에서 음향 처리기를 놓음으로써, 전체 채널 대역폭이 특성 전송에 기여할 수 있게 된다. 일반적으로, 추출된 음향 특성 벡터는 전송을 위한 음성 신호보다 작은 대역폭을 필요로 한다. 인식 정확도가 입력 음성 신호의 강하에 아주 의존하기 때문에, 전송시에 부가적으로 나빠질 수 있는 (보코드된) 텔레폰 음성 대신에, 음성 추출 엘리먼트(22)가 마이크로폰 음성에 기초한 특성 벡터를 추출할 수 있도록 가능한 한 사용자에 근접하게 특성 추출 엘리먼트(22)를 제공하여야 한다.
실제 적용에 있어서, 음성 인식기는 배경 잡음과 같은 주위 상태하에서 동작하도록 설계된다. 그러므로, 잡음의 존재시에 음성 인식의 문제를 고려하는 것이 중요하다. 어휘(참조 패턴)의 트레이닝이 테스트 상태와 정확히 동일한 환경에서 실행될 경우, 음성 인식기는 아주 심한 잡음 환경에서도 양호한 실행을 제공할 수 있을 뿐만아니라 상당한 잡음에 기인한 인식 정확도의 저하를 감소시킬 수 있다.트레이닝 및 테스트 상태의 비매칭은 인식 실행에서 주 강하 인자중 하나에 대한 것으로 간주된다. 음향 특성이 음성 신호보다 더 신뢰가능하게 통신 채널을 통과할 수 있다고 가정하면(왜냐하면 음향 특성은 이전에 언급한 바와 같이 전송을 위한 음성 신호보다 더 작은 대역폭을 필요로 하기 때문에), 제안된 분산형 음성 인식 시스템은 매칭 상태를 제공하는데 유리하다. 음성 인식기가 원격으로 실시되면, 매칭 상태는 무신 통신에서 일어나는 페이딩(fading)과 같은 채널 변화에 주로 기인하여 파괴될 수 있다. VR를 지역적으로 실시하는 것은 큰 트레이닝 계산이 지역적으로 흡수될 경우 상기 문제를 피할 수 있다. 그러나, 불행히도 많은 적용에 있어서 이것은 불가능하다, 명백하게, 분산형 음성 인식 실행은 채널 문제에 의해 유도된 비매칭 상태를 피할수 있으며 집중된 실시의 단점을 보상할 수 있다.
제 3도를 참조하면, 디지탈 음성 샘플은 평가된 워드 스프링이 결정되는 워드 평가 엘리먼트(62)에 통신 채널을 통해 특성을 제공하는 특성 추출 엘리먼트(51)에 제공된다. 음성 신호는 각 음성 프레임에 대한 전위 특성을 결정하는 음향 처리기(52)에 제공된다. 워드 디코더가 인식 및 트레이닝 작업을 위한 입력으로서 음향 특성 시퀀스를 필요로 하기 때문에, 이 음향 특성은 통신 채널(56)을 통해 전송되어야 한다. 그러나, 전형적인 음성 인식 시스템에 사용되는 모든 전위 특성은 같을 채널을 통해 전송하기에 적합하지 않다. 일부 경우에는, 소스 인코딩을 용이하게 하고 채널 잡음의 효과를 감소하기 위하여 변환 엘리먼트(22)가 필요하다. 음성 인식기에 폭넓게 사용되는 LPC 방식 음향 특성의 일예로 세스트럼 계수 {ci}가 있다. 그것은 다음과 같이 LPC계수로부터 직접 얻어진다:
여기서 P는 사용된 LPC 필터의 오더(order)이며 Q는 세스트럼 특성 벡터의 크기이다. 세스트럼 특성 벡터가 급속하게 변화하기 때문에, 세스트림 계수의 일련의 프레임을 압축하기가 쉽지 않다. 그러나, 천천히 변화하며 델타 펄스 코딩된 변조(DPCM) 방식에 의해 효과적으로 인코딩될 수 있는 라인 스펙트럼 페어(line spectrum pair)(LSP)주파수와 LPC 주파수 사이의 변환이 이루어진다. 세스트럼 계수가 LPC 계수로부터 직접 유도될 수 있기 때문에, LPC는 통신 채널(56)을 통하며 인코딩되는 변환 엘리먼트(54)에 의해 LSP로 변환된다. 원격 워드 평가 엘리먼트(62)에서, 변환된 전위 특성은 응답시에 평가된 워드 스트링을 제공하는 워드 디코더(64)에 음향 특성을 제공하기 위하여 역변환 엘리먼트(64)에 의해 역변환된다.
변환 엘리먼트(54)의 실시예는 변환 부시스템(70)으로서 제 4도에 도시되어 있다. 제 4도에서, 음향 처리기(52)로부터의 LPC 계수는 LPC 대 LSP 변환 엘리먼트(72)에 제공된다. LPC 대 LSP 변환 엘리먼트(72)내에서 LSP 계수는 다음과 같이 결정될 수 있다. P번째 LPC 계수에 대하여, 대응 LSP 계수는 다음 방정식의 0과 π사이에 있는 P루트(root)로서 얻어진다:
여기서 pi및 qi는 다음과 같이 반복적으로 계산될 수 있다:
LSP 계수는 그것이 통신 채널을 통한 전송을 위해 인코딩되는 DPCM 엘리먼트(74)에 제공된다.
역변환 엘리먼트(78)에서, 채널로부터 수신된 신호는 음성 신호의 LSP 주파수를 회복하기 위하여 역변환 DPCM 엘리먼트(80) 및 LPC 대 LSP 엘리먼트(82)를 통과한다. LPC 대 LSP 엘리먼트(72)의 역공정은 LSP 주파수를 세스트럼 계수를 유도하는데 사용하기 위한 LPC 계수로 다시 전환하는 LSP 대 LPC 엘리먼트(82)에 의해 실행된다. LSP 대 LPC 엘리먼트(82)는 다음과 같이 전환을 실행한다:
LPC 계수는 방정식(5) 및 (6)에 따라서 워드 디코더(64)에 세스트럼 계수를 제공하는 LPC 대 세스트럼 엘리먼트(84)에 제공된다.
워드 디코더가 음향 특성 시퀀스상에 단독으로 놓여 있어서 통신 채널을 통해 직접 전송되는 경우 잡음을 일으키는 경향이 있기 때문에, 전위 음향 특성 시퀀스는 유도되고 제3도에 도시된 바와 같이 부시스템(51)에서 전송을 용이하게 하는 다른 표현으로 변환된다. 그후에 워드 디코더에서 사용하기 위한 음향 특성 시퀀스가 역변환을 통해 얻어진다. 그러므로, VR의 분산형 실시에 있어서, 공기(채널)을 통해 보내진 특성 시퀀스는 워드 디코더에서 실제로 사용되는 것과는 다르다. 변환 엘리먼트(70)로부터 나온 출력은 당해분야에서 공지인 어떤 에러 보호 구성에 의해 다시 인코딩될 수 있다는 것을 예상할 수 있다.
제 5 도에는 본 발명의 개선된 실시예가 도시되어 있다. 무선 통신 애플리케이션에 있어서, 사용자들은 소수의 간단한 통신 채널을 차지하는 것이 아니라, 부분적으로 값비싼 채널 액세스에 기인하여 공통적으로 사용된 음성화된 명령을 원한다. 이것은 비교적 작은 어휘 크기를 갖는 음성 인식이 핸드세트에서 지역적으로 실시되는 반면 큰 어휘 크기를 갖는 제2 음성 인식 시스템은 기지국에서 원격으로 실시된다는 점에서 핸드세트(100)와 기지국(110) 사이에 워드 디코딩 기능을 다시 분산함으로써 달성될 수 있다. 그것들은 핸드세트에서 동일한 음향 처리기를 둘 다 공유한다. 지역적인 워드 디코더에서 어휘 테이블은 가장 폭넓게 사용되는 워드나 워드 스트링을 포함한다. 한편, 원격 워드 디코더에서 어휘 테이블은 정규 워드나 워드 스트링을 포함한다. 이러한 구조를 기초로하여, 제 5도에 도시한 바와 같이, 채널이 통화되는 평균 시간은 작게될 수 있으며 평균 인식 정확도는 증가될 수 있다.
계다가, 이용가능한 음성화된 명령의 두 그룹, 소위 특수 음성 명령은 지역VR에 의해 인식가능한 명령에 대응하며 소위 정규 음성 명령은 지역 VR에 의해 인식되지 않는 명령에 대응한다. 특수 음성 명령이 지시될 때마다, 실제 음향 특성은 지역 워드 디코더를 위해 추출되고 음성 인식 기능은 통신 채널의 액세스 없이 지역적으로 실행된다. 정규 음성 명령이 지시되면, 변환된 음향 특성 벡터는 채널을 통해서 전송되고 워드 디크딩은 기지국에서 원격으로 실행된다.
음향 특성은 어떤 특수 음성 명령에 대하여 변환도 코딩도 되지 않으며 어휘 크기가 지역 VR에 대하여 작기 때문에, 필요한 계산은 원격 실행보다 훨씬 더 작다(가능한 어휘에 걸쳐 정확한 워드 스트링을 위한 탐색과 연합하는 계산은 어휘 크기에 비례한다). 부가적으로, 지역 음성 인식기는 음향 특성이 채널에서 잠재적인 결함없이 지역 VR에 직접 공급될 수 있기 때문에 원적 VR에 비교되는 HMM의 단순화된 버전으로 모델링될 수 있다. 이것은 계산 로드가 제한되는 핸드세트에서 제한된 어휘를 통해 VR의 지역적인 실시를 가능하게 한다. 분산형 VR구조는 무선 통신 시스템과는 다른 목표 애플리케이션에 사용될 수 있다.
제 5도를 참조하면, 음성 신호는 음향 처리기(102)에 제공되어서 음성 신호로부터 예를 들면 LPC 방식 특성 파라미터과 같은 특성을 추출한다. 이 특성들은 그 작은 어휘로부터 입력 음성 신호를 인식하기 위해 탐색하는 지역 워드 디코더(106)에 제공된다. 입력 워드 스트링을 디코딩하지 못하고 원격 VR이 그것을 디코딩해야 하는 것을 결정할 경우, 전송을 위한 특성을 예비하는 변환 엘리먼트(104)를 신호처리한다. 변환된 특성은 통신 채널(108)을 통해 원격 워드 디코더(110)로 전송된다. 변환된 특성은 역변환 엘리먼트(112)에서 수신되며, 상기역변환 엘리먼트(112)는 변환 엘리먼트(104)의 역동작을 실행하며 응답시에 평가 원격 워드 스트링을 제공하는 원격 워드 디코더(114)에 음향 특성을 제공한다.
바람직한 실시예의 설명은 당해업자가 본 발명을 사용할 수 있도록 제공되어 있다. 본 실시예의 다양한 변형은 당해업자에게 아주 명백할 것이며, 여기에 규정된 일반 원리들은 발명적인 결합의 사용없이 다른 실시예에 적용될 수 있다. 그러므로, 본 발명은 본 실시예에 한정되는 것은 아니며, 여기에 기술된 신규한 특성 및 원리에 맞게 가장 폭넓은 범위로 사용될 수 있다.
Claims (30)
- 이동 통신 시스템용 원격 스테이션(remote station)에 있어서,원격 스테이션에 위치하며, 한 프레임의 음성 샘플들을 수신하여 음성 인식을 위한 파라미터 집합을 추출하는 특성 추출 수단:상기 파라미터 집합을 수신하고, 작은 어휘에 따라 파라미터들로부터 음성의 의미를 추출하는 제 1 워드 디코더 수단: 그리고더 큰 어휘에 따라 전송된 파라미터들로부터 음성의 의미를 추출하는 제 2 워드 디코더 수단을 가진 수신 스테이션으로 제 1 워드 디코더 수단에 의해 검출될 수 없는 파라미터 집합을 무선 전송하는 전송 수단을 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,음향 신호를 수신하고 이를 특성 추출 수단에 제공하는 마이크로폰을 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,특성 추출 수단과 전송 수단 사이에 위치하며, 상기 파라미터 집합을 수신하고 소정의 변환 포맷에 따라 상기 파라미터 집합을 다른 표현으로 변환하는 변환 수단을 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,상기 파라미터 집합이 선형 예측 계수들을 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,상기 파라미터 집합이 선 스펙트럼 페어 값들을 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 3 항에 있어서,상기 파라미터 집합이 선형 예측 계수들을 포함하며, 상기 소정의 변환 포맷이 선형 예측 계수에서 선 스펙트럼 페어로의 변환인 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,상기 음성 프레임 상에서의 음성 인식 동작에 따른 응답 신호를 수신하는 수신기 수단을 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 7 항에 있어서,상기 응답 신호를 수신하고 상기 응답 신호에 따라 제어 신호를 제공하는 제어 수단을 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 1 항에 있어서,특성 추출 수단과 전승 수단 사이에 위치하며, 특성 추출 수단의 출력에 연결된 입력과 전송 수단의 입력에 연결된 출력을 가지는 변환 요소를 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 제 7 항에 있어서,상기 수신기 출력에 연결된 입력과 상기 응답 신호에 따라 제어 신호를 제공하는 출력을 가지는 제어 요소를 더 포함하는 것을 특징으로 하는 원격 스테이션.
- 이동 통신 시스템용 중앙 통신 스테이션에 있어서,중앙 통신 스테이션에 위치하며, 중앙 통신 스테이션과 물리적으로 분리되어 무선 통신 수단으로 통신하는 원격 스테이션으로부터 음성 파라미터 집합을 수신하고, 중앙 통신 스테이션에 위치한 워드 디코더의정규 어휘를 사용하여 상기 음성 파라미터 집합 상에 음성 인식 동작을 수행하는 워드 디코더를 포함하는데, 상기 음성 파라미터들은 원격 스테이션에 위치한 워드 디코더의 지역적 어휘에 의해 인식될 수 없으며: 그리고상기 음성 인식 동작의 결과에 근거한 응답 신호를 생성하는 신호 생성기를 포함하는 것을 특징으로 하는 중앙 통신 스테이션.
- 제 11 항에 있어서,원격 스테이션 음성 파라미터 신호를 수신하는 입력과 상기 음성 파라미터 신호를 상기 워드 디코더 수단에 제공하는 출력을 가지는 수신기를 더 포함하는 것을 특징으로 하는 중앙 통신 스테이션.
- 제 11 항에 있어서,상기 워드 디코더에 연결된 입력과 제어 신호를 제공하는 출력을 가지는 제어 수단을 더 포함하는 것을 특징으로 하는 중앙 통신 스테이션.
- 분산형 음성 인식 시스템에 있어서,가입자 스테이션에 위치하며, 제 1 프레임의 음성 샘플들의 추출된 음향 특성을 수신하고 작은 어휘에 따라 상기 음향 특성을 디코딩하는 지역 워드 디코더; 그리고상기 가입자 스테이션과 물리적으로 분리된 중앙 처리 스테이션에 위치하며, 제 2 프레임의 추출된 음향 특성을 수신하고 상기 작은 어휘보다 큰 정규 어휘에 따라 상기 지역 워드 디코더에 의해 디코드될 수 없는 상기 제 2 프레임의 음향 특성을 디코딩하는 원격 워드 디코더를 포함하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,소정의 특성 추출 포맷에 따라 상기 음성 샘플 프레임의 상기 음향 특성을 추출하고 상기 음향 특성을 제공하는 전처리기(preprocessor)를 더 포함하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 15 항에 있어서,상기 음향 특성이 선형 예측 코딩(LPC) 방식 파라미터들인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 15 항에 있어서,상기 음향 특성이 세스트럼 계수들인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 15 항에 있어서,상기 전처리기는 음성 코더(보코더)를 포함하는 것을 특징으로 하는 분산형 음성 인식 시스템,
- 제 16 함에 있어서,상기 보코더는 코더 여기 선형 예측(CELP) 보코더인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 18 항에 있어서,상기 보코더는 선형 예측 코딩(LPC) 방식 보코더인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 18 항에 있어서,상기 보코더는 멀티 밴드 여기(MBE) 방식 보코더인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 18 항에 있어서,상기 보코더는 ADPCM 보코더인 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 가입자 스테이션에 위치하며, 상기 음향 특성을 수신하고 소정의 변환 포맷에 따라 상기 음향 특성을 변환된 특성으로 전환하는 변환 요소를 포함하는데, 상기 변환된 특성은 통신 채널을 통해 상기 중앙 처리 스테이션으로 전송되며; 그리고상기 중앙 처리 스테이션에 위치하며, 상기 변환된 특성을 수신하고 소정의 역변환 포맷에 따라 상기 변환된 특성을 평가된 음향 신호 특성으로 전환하고 상기평가된 음향 신호 특성을 상기 원격 워드 디코더에 제공하는 역변환 요소를 더 포함하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 23 항에 있어서,상기 음향 특성은 선형 예측 코딩(LPC) 방식 파라미터들이며, 상기 소정의 변환 포맷은 상기 LPC 방식 파라미터들을 선 스펙트럼 페어(LSP) 주파수들로 변환하며, 상기 역변환 포맷은 상기 LSP 주파수들을 LPC 방식 파라미터들로 변환하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 지역 워드 디코더는 히든 마코브 모델(HMM)에 근거하여 음향 패턴 매칭을 수행하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 원격 워드 디코더는 히든 마코브 모델(HMM)에 근거하여 음향 패턴 매칭을 수행하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 지역 워드 디코더는 동적 시한 왜곡(DTW)에 근거하여 음향 패턴 매칭을 수행하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 원격 워드 디코더는 동적 시간 왜곡(DTW)에 근거하여 음향 패턴 매칭을 수행하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 14 항에 있어서,상기 가입자 스테이션이 상기 중앙 처리 스테이션과 무선 통신 수단에 의해 통신하는 것을 특징으로 하는 분산형 음성 인식 시스템.
- 제 29 항에 있어서,상기 무선 통신 수단은 CDMA 통신 시스템을 포함하는 것을 특징으로 하는 분산형 음성 인식 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17324793A | 1993-12-22 | 1993-12-22 | |
US173247 | 1993-12-22 | ||
PCT/US1994/014803 WO1995017746A1 (en) | 1993-12-22 | 1994-12-20 | Distributed voice recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100316077B1 true KR100316077B1 (ko) | 2002-02-28 |
Family
ID=22631169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960703304A KR100316077B1 (ko) | 1993-12-22 | 1994-12-20 | 분산형음성인식시스템 |
Country Status (17)
Country | Link |
---|---|
US (1) | US5956683A (ko) |
EP (3) | EP1942487A1 (ko) |
JP (1) | JP3661874B2 (ko) |
KR (1) | KR100316077B1 (ko) |
CN (1) | CN1119794C (ko) |
AT (1) | ATE261172T1 (ko) |
AU (1) | AU692820B2 (ko) |
BR (1) | BR9408413A (ko) |
CA (1) | CA2179759C (ko) |
DE (1) | DE69433593T2 (ko) |
FI (2) | FI118909B (ko) |
HK (1) | HK1011109A1 (ko) |
IL (1) | IL112057A0 (ko) |
MY (1) | MY116482A (ko) |
TW (1) | TW318239B (ko) |
WO (1) | WO1995017746A1 (ko) |
ZA (1) | ZA948426B (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010092645A (ko) * | 2000-03-23 | 2001-10-26 | 추후제출 | 클라이언트-서버 음성정보 전송 시스템 및 방법 |
KR100794140B1 (ko) | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
KR100956941B1 (ko) * | 2003-06-27 | 2010-05-11 | 주식회사 케이티 | 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법 |
Families Citing this family (280)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594628B1 (en) * | 1995-09-21 | 2003-07-15 | Qualcomm, Incorporated | Distributed voice recognition system |
US9063719B1 (en) * | 1995-10-02 | 2015-06-23 | People Innovate For Economy Foundation, Inc. | Table format programming |
US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
FI972723A0 (fi) * | 1997-06-24 | 1997-06-24 | Nokia Mobile Phones Ltd | Mobila kommunikationsanordningar |
CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
JP3055514B2 (ja) * | 1997-12-05 | 2000-06-26 | 日本電気株式会社 | 電話回線用音声認識装置 |
US6208959B1 (en) | 1997-12-15 | 2001-03-27 | Telefonaktibolaget Lm Ericsson (Publ) | Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6614885B2 (en) * | 1998-08-14 | 2003-09-02 | Intervoice Limited Partnership | System and method for operating a highly distributed interactive voice response system |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
GB2342828A (en) * | 1998-10-13 | 2000-04-19 | Nokia Mobile Phones Ltd | Speech parameter compression; distributed speech recognition |
AU1445100A (en) | 1998-10-13 | 2000-05-01 | Hadasit Medical Research Services & Development Company Ltd | Method and system for determining a vector index to represent a plurality of speech parameters in signal processing for identifying an utterance |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
GB2343778B (en) * | 1998-11-13 | 2003-03-05 | Motorola Ltd | Processing received data in a distributed speech recognition process |
GB2343777B (en) * | 1998-11-13 | 2003-07-02 | Motorola Ltd | Mitigating errors in a distributed speech recognition process |
US6490621B1 (en) * | 1998-11-20 | 2002-12-03 | Orchestream Americas Corporation | Calculation of resource availability using degradation factors |
US6336090B1 (en) | 1998-11-30 | 2002-01-01 | Lucent Technologies Inc. | Automatic speech/speaker recognition over digital wireless channels |
KR100667522B1 (ko) * | 1998-12-18 | 2007-05-17 | 주식회사 현대오토넷 | Lpc 계수를 이용한 이동통신 단말기 음성인식 방법 |
US6411926B1 (en) | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
IL144557A0 (en) * | 1999-02-19 | 2002-05-23 | Custom Speech Usa Inc | Automated transcription system and method using two speech converting instances and computer-assisted correction |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
AU3165000A (en) * | 1999-03-26 | 2000-10-16 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6290646B1 (en) | 1999-04-16 | 2001-09-18 | Cardiocom | Apparatus and method for monitoring and communicating wellness parameters of ambulatory patients |
US8419650B2 (en) | 1999-04-16 | 2013-04-16 | Cariocom, LLC | Downloadable datasets for a patient monitoring system |
US6363349B1 (en) * | 1999-05-28 | 2002-03-26 | Motorola, Inc. | Method and apparatus for performing distributed speech processing in a communication system |
US6292781B1 (en) * | 1999-05-28 | 2001-09-18 | Motorola | Method and apparatus for facilitating distributed speech processing in a communication system |
DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
KR20010019786A (ko) * | 1999-08-30 | 2001-03-15 | 윤종용 | 이동통신 시스템에서 음성인식 및 문자표시 장치 및 방법 |
JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US7689416B1 (en) * | 1999-09-29 | 2010-03-30 | Poirier Darrell A | System for transferring personalize matter from one computer to another |
US6963759B1 (en) * | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
US6912496B1 (en) * | 1999-10-26 | 2005-06-28 | Silicon Automation Systems | Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics |
FI19992350A (fi) | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Parannettu puheentunnistus |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
AU3083201A (en) * | 1999-11-22 | 2001-06-04 | Microsoft Corporation | Distributed speech recognition for mobile communication devices |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6532446B1 (en) * | 1999-11-24 | 2003-03-11 | Openwave Systems Inc. | Server based speech recognition user interface for wireless devices |
US6424945B1 (en) * | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
DE10003529A1 (de) * | 2000-01-27 | 2001-08-16 | Siemens Ag | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung |
US7505921B1 (en) | 2000-03-03 | 2009-03-17 | Finali Corporation | System and method for optimizing a product configuration |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6760699B1 (en) * | 2000-04-24 | 2004-07-06 | Lucent Technologies Inc. | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
US6502070B1 (en) * | 2000-04-28 | 2002-12-31 | Nortel Networks Limited | Method and apparatus for normalizing channel specific speech feature elements |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
ATE358316T1 (de) * | 2000-06-08 | 2007-04-15 | Nokia Corp | Verfahren und system für adaptive verteilte spracherkennung |
EP1304682A1 (en) * | 2000-07-05 | 2003-04-23 | Alcatel | Distributed speech recognition system |
EP1377965A1 (en) * | 2000-09-07 | 2004-01-07 | Koninklijke Philips Electronics N.V. | Voice control and uploadable user control information |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US6915262B2 (en) * | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
US20020091515A1 (en) * | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US7024359B2 (en) * | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
USRE46109E1 (en) * | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
US6487494B2 (en) | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
US7406421B2 (en) * | 2001-10-26 | 2008-07-29 | Intellisist Inc. | Systems and methods for reviewing informational content in a vehicle |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US20020198716A1 (en) * | 2001-06-25 | 2002-12-26 | Kurt Zimmerman | System and method of improved communication |
KR100777551B1 (ko) * | 2001-06-29 | 2007-11-16 | 주식회사 케이티 | 채널용량에 따른 가변 구성이 가능한 음성인식 시스템 및그 방법 |
DE10228408B4 (de) | 2001-07-10 | 2021-09-30 | Sew-Eurodrive Gmbh & Co Kg | Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung |
DE60115042T2 (de) * | 2001-09-28 | 2006-10-05 | Alcatel | Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit |
US7139704B2 (en) * | 2001-11-30 | 2006-11-21 | Intel Corporation | Method and apparatus to perform speech recognition over a voice channel |
GB2383459B (en) * | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20030154080A1 (en) * | 2002-02-14 | 2003-08-14 | Godsey Sandra L. | Method and apparatus for modification of audio input to a data processing system |
US8249880B2 (en) * | 2002-02-14 | 2012-08-21 | Intellisist, Inc. | Real-time display of system instructions |
US7099825B1 (en) | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
AU2003248523A1 (en) | 2002-05-16 | 2003-12-02 | Intellisist, Llc | System and method for dynamically configuring wireless network geographic coverage or service levels |
US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
US6834265B2 (en) | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
EP1661124A4 (en) * | 2003-09-05 | 2008-08-13 | Stephen D Grody | PROCESSES AND DEVICES FOR PROVIDING SERVICES THROUGH THE USE OF LANGUAGE IDENTIFICATION |
US7283850B2 (en) | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US7680656B2 (en) | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US7406303B2 (en) | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7930178B2 (en) | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US20070162282A1 (en) * | 2006-01-09 | 2007-07-12 | Gilad Odinak | System and method for performing distributed speech recognition |
DE102006002604A1 (de) * | 2006-01-13 | 2007-07-19 | Deutsche Telekom Ag | Verfahren und System zur Durchführung einer Datentelekommunikation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US8644396B2 (en) | 2006-04-18 | 2014-02-04 | Qualcomm Incorporated | Waveform encoding for wireless applications |
US8406794B2 (en) | 2006-04-26 | 2013-03-26 | Qualcomm Incorporated | Methods and apparatuses of initiating communication in wireless networks |
KR101124785B1 (ko) * | 2006-04-26 | 2012-03-23 | 콸콤 인코포레이티드 | 디바이스 기능의 동적 분배 및 자원 관리 |
US8289159B2 (en) | 2006-04-26 | 2012-10-16 | Qualcomm Incorporated | Wireless localization apparatus and method |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7904298B2 (en) * | 2006-11-17 | 2011-03-08 | Rao Ashwin P | Predictive speech-to-text input |
WO2008064137A2 (en) * | 2006-11-17 | 2008-05-29 | Rao Ashwin P | Predictive speech-to-text input |
JP4658022B2 (ja) * | 2006-11-20 | 2011-03-23 | 株式会社リコー | 音声認識システム |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US20080154870A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20080154608A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | On a mobile device tracking use of search results delivered to the mobile device |
US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8204746B2 (en) | 2007-03-29 | 2012-06-19 | Intellisist, Inc. | System and method for providing an automated call center inline architecture |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP5139747B2 (ja) * | 2007-08-17 | 2013-02-06 | 株式会社ユニバーサルエンターテインメント | 電話端末装置及びこれを用いた音声認識システム |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9674328B2 (en) * | 2011-02-22 | 2017-06-06 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8946812B2 (en) | 2011-07-21 | 2015-02-03 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device and manufacturing method thereof |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8972263B2 (en) | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US8893168B2 (en) | 2012-02-07 | 2014-11-18 | Turner Broadcasting System, Inc. | Method and system for synchronization of dial testing and audience response utilizing automatic content recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9685160B2 (en) * | 2012-04-16 | 2017-06-20 | Htc Corporation | Method for offering suggestion during conversation, electronic device using the same, and non-transitory storage medium |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9570076B2 (en) | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
US9395234B2 (en) | 2012-12-05 | 2016-07-19 | Cardiocom, Llc | Stabilizing base for scale |
US9154841B2 (en) | 2012-12-28 | 2015-10-06 | Turner Broadcasting System, Inc. | Method and system for detecting and resolving conflicts in an automatic content recognition based system |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US9542947B2 (en) | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9058805B2 (en) | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
CN103531197A (zh) * | 2013-10-11 | 2014-01-22 | 安徽科大讯飞信息科技股份有限公司 | 一种对用户语音识别结果反馈的命令词识别自适应优化方法 |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
CA2937693C (en) * | 2014-02-19 | 2017-01-17 | Institut National De La Recherche Scientifique (Inrs) | Method and system for evaluating a noise level of a biosignal |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
CN103915092B (zh) * | 2014-04-01 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
WO2015199653A1 (en) * | 2014-06-24 | 2015-12-30 | Nuance Communications, Inc. | Methods and apparatus for joint stochastic and deterministic dictation formatting |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9715498B2 (en) | 2015-08-31 | 2017-07-25 | Microsoft Technology Licensing, Llc | Distributed server system for language understanding |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
WO2017080604A1 (en) * | 2015-11-12 | 2017-05-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Server, wireless device, methods and computer programs |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10701438B2 (en) | 2016-12-31 | 2020-06-30 | Turner Broadcasting System, Inc. | Automatic content recognition and verification in a broadcast chain |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
US10756795B2 (en) | 2018-12-18 | 2020-08-25 | XCOM Labs, Inc. | User equipment with cellular link and peer-to-peer link |
US11063645B2 (en) | 2018-12-18 | 2021-07-13 | XCOM Labs, Inc. | Methods of wirelessly communicating with a group of devices |
US11330649B2 (en) | 2019-01-25 | 2022-05-10 | XCOM Labs, Inc. | Methods and systems of multi-link peer-to-peer communications |
US10756767B1 (en) | 2019-02-05 | 2020-08-25 | XCOM Labs, Inc. | User equipment for wirelessly communicating cellular signal with another user equipment |
KR20220008401A (ko) * | 2019-06-07 | 2022-01-21 | 엘지전자 주식회사 | 엣지 컴퓨팅 디바이스에서 음성 인식 방법 |
US20210104233A1 (en) * | 2019-10-03 | 2021-04-08 | Ez-Ai Corp. | Interactive voice feedback system and method thereof |
CN110970031B (zh) * | 2019-12-16 | 2022-06-24 | 思必驰科技股份有限公司 | 语音识别系统及方法 |
US11586964B2 (en) * | 2020-01-30 | 2023-02-21 | Dell Products L.P. | Device component management using deep learning techniques |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US108354A (en) * | 1870-10-18 | Improvement in combined eaves-troughs and lightning-rods | ||
US4567606A (en) * | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
FR2571191B1 (fr) * | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) * | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
DE3519915A1 (de) * | 1985-06-04 | 1986-12-04 | Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt | Verfahren zur spracherkennung an endgeraeten von fernmelde-, insbesondere fernsprechanlagen |
JPS6269297A (ja) * | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) * | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5040212A (en) * | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5325524A (en) * | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) * | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
US5045082A (en) * | 1990-01-10 | 1991-09-03 | Alza Corporation | Long-term delivery device including loading dose |
US5280585A (en) * | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
WO1993001664A1 (en) * | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
DE4126882A1 (de) * | 1991-08-14 | 1993-02-18 | Philips Patentverwaltung | Anordnung zur sprachuebertragung |
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
-
1994
- 1994-10-26 ZA ZA948426A patent/ZA948426B/xx unknown
- 1994-11-15 TW TW083110578A patent/TW318239B/zh not_active IP Right Cessation
- 1994-12-09 MY MYPI94003300A patent/MY116482A/en unknown
- 1994-12-19 IL IL11205794A patent/IL112057A0/xx not_active IP Right Cessation
- 1994-12-20 CN CN94194566A patent/CN1119794C/zh not_active Expired - Lifetime
- 1994-12-20 KR KR1019960703304A patent/KR100316077B1/ko not_active IP Right Cessation
- 1994-12-20 DE DE69433593T patent/DE69433593T2/de not_active Expired - Lifetime
- 1994-12-20 AT AT95904956T patent/ATE261172T1/de not_active IP Right Cessation
- 1994-12-20 WO PCT/US1994/014803 patent/WO1995017746A1/en active Application Filing
- 1994-12-20 EP EP08152546A patent/EP1942487A1/en not_active Withdrawn
- 1994-12-20 EP EP03021806A patent/EP1381029A1/en not_active Ceased
- 1994-12-20 JP JP51760595A patent/JP3661874B2/ja not_active Expired - Lifetime
- 1994-12-20 AU AU13753/95A patent/AU692820B2/en not_active Ceased
- 1994-12-20 BR BR9408413A patent/BR9408413A/pt not_active IP Right Cessation
- 1994-12-20 EP EP95904956A patent/EP0736211B1/en not_active Expired - Lifetime
- 1994-12-20 CA CA002179759A patent/CA2179759C/en not_active Expired - Lifetime
-
1996
- 1996-04-04 US US08/627,333 patent/US5956683A/en not_active Expired - Lifetime
- 1996-06-20 FI FI962572A patent/FI118909B/fi not_active IP Right Cessation
-
1998
- 1998-08-21 HK HK98110090A patent/HK1011109A1/xx not_active IP Right Cessation
-
2007
- 2007-12-03 FI FI20070933A patent/FI20070933A/fi not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010092645A (ko) * | 2000-03-23 | 2001-10-26 | 추후제출 | 클라이언트-서버 음성정보 전송 시스템 및 방법 |
KR100956941B1 (ko) * | 2003-06-27 | 2010-05-11 | 주식회사 케이티 | 네트워크 상황에 따른 선택적 음성인식 장치 및 그 방법 |
KR100794140B1 (ko) | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
Also Published As
Publication number | Publication date |
---|---|
FI962572A (fi) | 1996-08-20 |
TW318239B (ko) | 1997-10-21 |
WO1995017746A1 (en) | 1995-06-29 |
DE69433593D1 (de) | 2004-04-08 |
EP0736211A1 (en) | 1996-10-09 |
JPH09507105A (ja) | 1997-07-15 |
BR9408413A (pt) | 1997-08-05 |
US5956683A (en) | 1999-09-21 |
FI962572A0 (fi) | 1996-06-20 |
CA2179759C (en) | 2005-11-15 |
EP0736211B1 (en) | 2004-03-03 |
ATE261172T1 (de) | 2004-03-15 |
IL112057A0 (en) | 1995-03-15 |
JP3661874B2 (ja) | 2005-06-22 |
DE69433593T2 (de) | 2005-02-03 |
AU1375395A (en) | 1995-07-10 |
AU692820B2 (en) | 1998-06-18 |
FI118909B (fi) | 2008-04-30 |
HK1011109A1 (en) | 1999-07-02 |
CN1119794C (zh) | 2003-08-27 |
EP1942487A1 (en) | 2008-07-09 |
MY116482A (en) | 2004-02-28 |
EP1381029A1 (en) | 2004-01-14 |
CA2179759A1 (en) | 1995-06-29 |
CN1138386A (zh) | 1996-12-18 |
ZA948426B (en) | 1995-06-30 |
FI20070933A (fi) | 2007-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100316077B1 (ko) | 분산형음성인식시스템 | |
US6594628B1 (en) | Distributed voice recognition system | |
KR100923896B1 (ko) | 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치 | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US6411926B1 (en) | Distributed voice recognition system | |
US20110153326A1 (en) | System and method for computing and transmitting parameters in a distributed voice recognition system | |
EP1352389B1 (en) | System and method for storage of speech recognition models | |
JP2003036097A (ja) | 情報検出装置及び方法、並びに情報検索装置及び方法 | |
Touazi et al. | An experimental framework for Arabic digits speech recognition in noisy environments | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
KR100794140B1 (ko) | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 | |
Spanias et al. | Speech coding and speech recognition technologies: a review | |
JPH09265300A (ja) | 音声処理装置および音声処理方法 | |
Swamy | Speech Enhancement, Databases, Features and Classifiers in Automatic Speech Recognition: A Review | |
KR100304788B1 (ko) | 연속 음성 인식을 이용한 전화번호 안내 방법 | |
Burget et al. | Distributed speech recognition | |
Ganesan | Speech Recognition Algorithms And Architectures A Comparative Overview | |
WO2001031636A2 (en) | Speech recognition on gsm encoded data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20131030 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20141030 Year of fee payment: 14 |
|
EXPY | Expiration of term |