KR20150063423A - Asr을 위한 개선된 하이브리드 컨트롤러 - Google Patents
Asr을 위한 개선된 하이브리드 컨트롤러 Download PDFInfo
- Publication number
- KR20150063423A KR20150063423A KR1020157009221A KR20157009221A KR20150063423A KR 20150063423 A KR20150063423 A KR 20150063423A KR 1020157009221 A KR1020157009221 A KR 1020157009221A KR 20157009221 A KR20157009221 A KR 20157009221A KR 20150063423 A KR20150063423 A KR 20150063423A
- Authority
- KR
- South Korea
- Prior art keywords
- asr
- remote
- local
- mobile device
- asr processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Abstract
자동 음성 인식(ASR)에 적응되어 있는 모바일 디바이스가 기술된다. 음성 입력부는 사용자로부터 미지의 음성 입력 신호를 수신한다. 로컬 컨트롤러는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 변환된 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보낸다. 로컬 ASR 배열은 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행한다.
Description
본 발명은 일반적으로는 자동 음성 인식(automatic speech recognition: ASR)에 관한 것으로, 더 구체적으로는, 모바일 디바이스 상에서의 클라이언트-서버 ASR에 관한 것이다.
자동 음성 인식(ASR) 시스템은 음성 입력의 시맨틱 의미(semantic meaning)를 결정한다. 전형적으로, 입력 음성은 디지털 음성 피처 프레임의 시퀀스로 프로세싱된다. 각각의 음성 피처 프레임은 음성의 단시간 윈도 동안 존재하는 음성 신호의 다양한 특성을 표현하는 다-차원 벡터로서 생각될 수 있다. 예컨대, 각각의 음성 프레임의 다-차원 벡터는 음성 신호의 단시간 푸리에 변환 스펙트럼의 캡스트럼 피처(MFCC) - 소정 주파수 대역의 단시간 전력 또는 성분 -과 더불어 대응하는 1차 및 2차 도함수("델타" 및 "델타-델타")로부터 유도될 수 있다. 연속형 인식 시스템에서는, 가변 수의 음성 프레임이, 실생활에서 구어 문장 또는 구절에 대충 대응하는, 휴지가 뒤따르는 소정 기간의 음성을 표현하는 "발화"로서 조직된다.
ASR 시스템은 벡터 시퀀스 특성과 최상 매칭하는 통계적 음향 모델을 구하기 위해 입력 발화를 비교하고 그 음향 모델과 연관된 대응하는 대표 텍스트를 결정한다. 더 공식적으로, 소정 입력 관찰(A)이 주어질 때, 소정 단어 스트링(W)이 말해졌을 확률은 P(W|A)로서 표현되고, 이 경우 ASR 시스템은 가장 가능성 있는 단어 스트링을 결정하려 시도한다:
통계적 음향 모델의 시스템이 주어질 때, 이 공식은 다음과 같이 재-표현될 수 있다:
여기서 P(A|W)는 음향 모델에 대응하고 P(W)는 통계적 언어 모델에 의해 제공되는 바와 같이 단어 시퀀스의 이전 확률을 반영한다.
음향 모델은 전형적으로는 확률 분포 함수(가우스)의 혼합을 사용하여 음성 소리를 모델링하는 HMM(hidden Markov model)과 같은 확률적 상태 시퀀스 모델이다. 음향 모델은 흔히 PEL(표음 요소)라고도 지칭되는, 특정 문맥에서의 음소, 예컨대, 기지의 좌 및/또는 우 문맥을 갖는 음소 또는 삼음소를 표현한다. 상태 시퀀스 모델은 단어를 음향 모델링된 음소의 연결된 시퀀스로서, 그리고 구절 또는 문장을 단어의 연결된 시퀀스로서 표현하도록 업스케일링될 수 있다. 모델이 단어, 구절 및 문장으로서 함께 조직될 때, 부가적 언어-관련 정보가 또한 전형적으로는 통계적 언어 모델의 형태로 그 모델에 편입된다.
최상 매칭 모델 구조와 연관된 단어 또는 구절은 인식 후보 또는 가설이라고 지칭된다. 시스템은 N-최상 리스트, 인식 격자 또는 혼동 네트워크와 같은 다양한 형태로 단일 최상 인식 후보 - 인식 결과 - 또는 다수의 인식 가설을 산출할 수 있다. 연속형 음성 인식에 관한 추가적 상세는 미국 특허 제5,794,189호(발명의 명칭: "Continuous Speech Recognition") 및 미국 특허 제6,167,377호(발명의 명칭: "Speech Recognition Language Models")에 제공되며, 그 내용은 참조에 의해 본 명세서에 편입된다.
최근, ASR 기술은 모바일 디바이스의 한정된 풋프린트 상에 구현되는 애플리케이션을 갖기에 충분히 진전되었다. 이것은 모바일 디바이스 상에 다소 한정된 독립형 ASR 배열을 관여시킬 수 있거나, 또는 더 확장적 능력이 클라이언트-서버 배열에 제공될 수 있으며 이 경우 로컬 모바일 디바이스가 음성 입력의 초기 프로세싱을 하고 소정 로컬 ASR 인식 프로세싱도 가능하지만 주 ASR 프로세싱은 더 큰 자원을 갖는 원격 서버에서 수행되고, 그 후 인식 결과가 모바일 디바이스에서의 사용을 위해 반환된다.
미국 특허 공개공보 제20110054899호는 음성 인식이 시간, 정책, 신뢰도 점수, 네트워크 가용성 등과 같은 하나 이상의 기준에 따라 디바이스에 의해 로컬 수행되고 그리고/또는 원격 ASR 서버에 의해 원격 수행될 수 있는 모바일 디바이스용 하이브리드 클라이언트-서버 ASR 배열을 기술하고 있다.
본 발명의 실시예는 자동 음성 인식(ASR)을 위한 모바일 디바이스 및 대응하는 방법에 관한 것이다. 로컬 컨트롤러는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 변환된 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보낸다. 로컬 ASR 배열은 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행한다.
로컬 컨트롤러는 음성 입력 신호를 변환하고 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보낼 수 있다. 또는 로컬 컨트롤러는 음성 입력 신호를 변환하고 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는 경우에만 보낼 수 있다. 로컬 컨트롤러는 그것이 원격 ASR 조건이 충족되지 않는다고 결정하면 음성 입력 신호를 변환하는 것 및 변환된 음성 입력 신호를 보내는 것을 유예할 수 있다.
원격 ASR 프로세싱 조건이 충족되더라도, 로컬 ASR 배열은 로컬 ASR 프로세싱을 계속할 수 있다. 또는 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열 프로세스는 원격 서버로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 로컬 ASR 프로세싱을 유예할 수 있다.
로컬 컨트롤러는 로컬 ASR 배열이 로컬 ASR 프로세싱을 수행하고 있는 동안 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다. 그 경우에서는, 로컬 컨트롤러가 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 그것은 변환된 음성 신호를 음성 입력 신호의 시초로부터 시작하여 원격 서버에 보내기 시작할 수 있다. 또는 로컬 컨트롤러는 로컬 ASR 배열이 인식 결과를 산출한 후에 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다.
로컬 컨트롤러는 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 음성 표현 유형 중 하나를 선택할 수 있다. 여러 다른 음성 인식 유형은 ASR 피처 벡터, 손실 있는 압축된 음성, 손실 없는 압축된 음성 및 압축되지 않은 음성 중 하나 이상을 포함할 수 있다. 원격 서버로부터의 인식 결과는 포맷 없는 인식 텍스트, 포맷 있는 인식 텍스트 및 시맨틱 해석(semantic interpretation) 중 하나 이상을 포함할 수 있다.
원격 ASR 프로세싱 조건은 음성 입력 신호의 로컬 ASR 프로세싱과 연관된 인식 신뢰도, 모바일 디바이스와 상기 원격 서버 간 접속 조건, 원격 ASR 프로세싱과 연관된 예상된 정확도 이득(예컨대, 애플리케이션 상태 및 대화 문맥 중 하나 또는 양자를 반영하는 메타데이터 함수에 기반함), 로컬 ASR 프로세싱 레이턴시 특성, 원격 ASR 프로세싱 레이턴시 특성, 및 인식 비용 특성 중 하나 이상의 함수일 수 있다.
원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것은 시간에 걸친 음성 인식 연산에 기반하는 적응 프로세스를 반영할 수 있다. 예컨대, 적응 프로세스는 자동 무감독 적응 프로세스일 수 있다.
도 1은 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 구성요소의 도시도;
도 2는 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도;
도 3은 본 발명의 다른 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도.
도 2는 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도;
도 3은 본 발명의 다른 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도.
본 발명의 다양한 실시예는 클라이언트-서버 배열을 사용하는 모바일 디바이스용 하이브리드 ASR에 관한 것이다. 로컬 컨트롤러는 로컬 인식 신뢰도 점수, 데이터 접속 조건 등과 같은 기준에 따라 음성 입력을 인식을 위해 원격 서버 상으로 언제 보낼지 결정한다. 부가적으로, 로컬 컨트롤러는, 예컨대, 여러 다른 유형의 음성 표현의 대역폭 특성에 기반하여 원격 서버에 보낼 특정 유형의 음성 표현을 더 선택한다.
도 1은 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 구성요소를 도시하고 있다. 모바일 디바이스(100) 상의 음성 입력부(101)는 사용자로부터 미지의 음성 입력 신호를 수신한다. 로컬 컨트롤러(104)는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 원격 ASR 프로세싱 배열을 갖는 원격 서버(106)에 그 변환된 음성 신호를 무선 통신 네트워크(105)를 통하여 보낸다. 로컬 ASR 배열(102)은 원격 ASR 서버(106)로부터의 어느 음성 인식 결과의 프로세싱을 포함하여 음성 입력 신호의 로컬 ASR 프로세싱을 수행하도록 로컬 인식 데이터 소스(103)를 사용한다. ASR 서버(106)는 원격 ASR 프로세싱을 수행하도록 서버 인식 데이터 소스(107)를 사용하고, 그 프로세스가 완료되고 나면, 그 음성 인식 결과(포맷 없는 인식 텍스트, 또는 포맷 있는 인식 텍스트 또는 시맨틱 해석과 같은 결과의 유도체)를 인식 출력 결과(108)로서 모바일 디바이스(100)에 다시 반환한다.
특정 실시예에 있어서, 로컬 컨트롤러(104)는 음성 입력 신호를 변환하고 그 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보낸다. 예컨대, 도 2는 모바일 디바이스(100)가, 단계(201)에서, 초기에 사용자로부터 미지의 음성 입력 신호를 수신하고, 그것을 단계(202)에서 로컬 ASR 프로세싱을 위해 로컬 ASR 배열(102)에 포워딩하는 그러한 일 실시예에서 다양한 기능적 단계를 도시하고 있다. 로컬 컨트롤러(104)는, 단계(203)에서, 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 그러하면, 단계(204)에서 여러 다른 음성 표현 유형 중 특정 하나를 선택하고, 단계(205)에서 음성 입력 신호를 선택된 유형의 음성 표현으로 변환하고, 단계(206)에서는 변환된 음성 입력 신호를 원격 ASR 서버(106)에 보낸다.
원격 ASR 서버(106)가 변환된 음성 입력 신호의 프로세싱을 완료하고 나면, 그것은 로컬 ASR 프로세싱 배열(102)에 의한 추가적 프로세싱을 위해, 단계(207)에서, 그 인식 결과를 로컬 디바이스(100)에 다시 반환한다. 여러 다른 특정 실시예는 이에 관하여 정확히 무엇이 이루어지는지에 대해 여러 다른 특정 배열을 가질 수 있다. 예컨대, 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열(102)은 원격 ASR 서버(106)로부터의 인식 결과의 부가적 프로세싱을 포함하는 로컬 ASR 프로세싱을 계속하여 그 최종 인식 출력 해석(108)을 산출할 수 있다. 또는 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열(102) 프로세스는 출력 해석(108)이 원격 인식 결과에만 기반하도록 원격 ASR 서버(106)로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 로컬 ASR 프로세싱을 유예할 수 있다.
일부 다른 특정 실시예에 있어서, 로컬 컨트롤러(104)는 음성 입력 신호를 변환하고 원격 ASR 프로세싱 조건이 충족되는 경우에만 그 변환된 음성 입력 신호를 보낼 수 있다. 도 3은 모바일 디바이스(100)가, 단계(301)에서, 초기에 사용자로부터 미지의 음성 입력 신호를 수신하고, 그것을 단계(302)에서 로컬 ASR 프로세싱을 위해 로컬 ASR 배열(102)에 포워딩하는 그러한 일 실시예에서 다양한 기능적 단계를 도시하고 있다. 로컬 컨트롤러는 그것이 원격 ASR 조건이 충족되지 않는다고 결정하면 음성 입력 신호를 변환하는 것 및 변환된 음성 입력 신호를 보내는 것을 유예할 수 있다. 로컬 컨트롤러(104)는, 단계(303)에서 여러 다른 음성 표현 유형 중 특정 하나를 자동으로 선택하고, 단계(304)에서 음성 입력 신호를 선택된 유형의 음성 표현으로 변환하고, 단계(305)에서는 변환된 음성 입력 신호를 원격 ASR 서버(106)에 보낸다. 로컬 컨트롤러(104)는 또한 단계(306)에서 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 그러하면, 단계(307)에서 그들 원격 인식 결과를 그것들이 이용가능하게 될 때 수신한다. 단계(306)에서 로컬 컨트롤러(104)가 원격 ASR 프로세싱 조건이 충족되지 않는다고 결정하면, 그때 출력 해석(108)은 로컬 ASR 프로세싱 배열(102)로부터의 인식 결과에만 기반할 것이다.
그러한 일 실시예에 있어서, 로컬 컨트롤러는, 로컬 ASR 배열(102)이 로컬 ASR 프로세싱을 수행하고 있는 동안, 단계(306)에서 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다. 그 경우에서는, 로컬 컨트롤러(104)가 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 그것은, 음성 입력 신호의 시초로부터 시작하여, 단계(304)에서 변환된 음성 신호를 원격 서버에 보내기 시작할 수 있다. 또는 로컬 컨트롤러(104)는, 로컬 ASR 배열(102)이, 예컨대, 로컬 인식 결과 및 그 신뢰도에 기반하여 로컬 인식 결과를 산출한 후에, 단계(306)에서, 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다.
어느 실시예에서라도, 로컬 컨트롤러(104)는 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 음성 표현 유형 중 하나를 선택할 수 있다. 예컨대, 하나의 특정 실시예는 3개의 다른 유형의 음성 표현에 기반할 수 있다.
1) ASR 피처 벡터 - 그것들은 로컬 ASR 배열(102)에 의해 이미 계산되어 있으므로, (원격 ASR 서버(106)가 다른 종류의 피처 스트림을 사용하지 않는 한) 이것은 저렴한 옵션이다.
2) 압축 손실 있는 압축된 음성. 압축 레이트는 가용 네트워크 대역폭에 따라 결정될 수 있고 압축 복잡도(압축에 쓰이는 계산량)는 모바일 디바이스(100) 상의 현재 배터리 상태 및 가용 계산 전력으로 조절될 수 있다.
3) 압축되지 않은 또는 손실 없는 압축된 음성.
음성 표현 유형이 압축되지 않은 파형보다 덜한 어떤 것인 경우에, 일부 실시예는 압축되지 않은 파형을 적응 및 평가 목적으로 추후 보낼 수 있다. 다양한 다른 음성 표현 유형 중 어느 것에 대해서라도, 음성 신호를 원격 ASR 서버(106)에 보내기 전에 모바일 디바이스(100) 상에서 소정의 로컬 신호 강화를 행하는 것이 유익할 수 있다. 특정 그러한 강화 기술의 예는, 국한되는 것은 아니지만, 잡음 억제/감축, 탈-잔향, 빔-형성 및 에코 보상을 포함한다. 손실 있는 압축을 통하여 음성 표현 신호를 보내기 전에 모바일 디바이스(100) 상에서 그러한 신호 강화 기술을 수행하는 것이 유익할 수 있다. 이것은 그러한 신호 강화 기술이 더 효과적이게 할 뿐만 아니라 압축 손실 감축을 가능하게 하는 것으로 알려져 있다. 부가적으로, 그러한 강화 기술은 어떤 식으로든 로컬 ASR 배열(102)에 대해 - 모바일 디바이스(100) 상에서 이용가능하면 - 수행될 가능성이 크다. 그리고 빔-형성의 특정 경우에 있어서, 그것을 모바일 디바이스(100) 상에서 로컬 수행하는 것은 빔-형성된 음성 표현 신호를 신호 채널을 통하여 원격 ASR 서버에 보내는 것을 허용하는 반면, 대조적으로, 그러한 신호 빔-형성을 원격 ASR 서버(106) 상에서 수행하는 것은 다중 채널을 통한 송신을 요구할 것이다.
특정 실시예에 있어서, 원격 ASR 프로세싱 조건은 음성 입력의 로컬 ASR 프로세싱과 연관된 인식 신뢰도, 모바일 디바이스와 원격 서버 간 접속 조건, 원격 ASR 프로세싱과 연관된 예상된 정확도 이득, 로컬 ASR 프로세싱 레이턴시 특성, 원격 ASR 프로세싱 레이턴시 특성, 및/또는 인식 비용 특성 중 하나 이상의 함수일 수 있다.
예컨대, 원격 ASR 프로세싱과 연관된 정확도 이득의 추정은, 로컬 ASR 배열(102) 및 원격 ASR 서버(106) 양자가 동일한 인식 결론에 도달할 것 같으면, 그때는 음성 입력을 원격 서버(106) 상으로 보내는 것에 대한 정확도 이득이 없다는 고려사항을 고려하여야 한다. 원격 ASR 프로세싱에 기인하는 정확도 개선의 추정은 또한 다음 중 하나 이상을 고려할 수 있다:
ο 로컬 인식 신뢰도가 높으면, 서버측 프로세싱은 중단될 수 있다. 이것은 특히 어느 로컬 캐시 문법에서의 인식 프로세싱의 속도를 높일 것이다.
ο 특정 단어 상의 로컬 인식 신뢰도가 낮으면, 그것은 원격 ASR 서버(106)에 보내져야 하는 로컬 미등록어(OOV) 입력을 반영할 수 있다.
부분 인식 결과 - 현재 음성 입력이 부분적으로 디코딩되고 서버 자원을 요구하는 커맨드(예컨대, 웹 검색 질의)를 포함하고 있을 것 같으면, 그때 음성 입력은 원격 ASR 서버(106) 상으로 보내져야 한다.
ο 시스템이 단순 "예/아니오" 대답을 청하고 있으면, 그때 원격 ASR 서버(106)는 로컬 ASR 배열(102)에 비해 인식 성능을 개선할 가능성이 더 적다.
ο 여러 다른 사용자에 걸친 관찰은 특정 메타데이터 문맥에서 원격 ASR 서버(106)에 의한 인식의 이득 가능성을 추정하는데 사용될 수 있다.
ο 시스템이, 복잡한 웹 검색과 같이, 서버 자원을 요구할 것 같은 사용자 입력을 청하고 있는 경우
정확도 그 자체는 사용자 피드백 또는 수동 검토(예컨대, 오디오의 전사)로부터만 확인될 수 있을 뿐임을 유념할 가치가 있다. 그러나 원격 ASR 프로세싱 조건의 목적으로, 유사한 조건(애플리케이션 상태, 대화 문맥, SNR 등) 하에 산출된 이전 로컬 및 원격 인식 결과를 비교하는 것에 기반하여 원격 ASR 서버(106)로부터의 원격 인식 결과가 로컬 ASR 배열(102)의 로컬 인식 결과와 유의미하게 다를 것인지 그리고 얼마나 자주인지 예측될 수 있다. 인식 결과가 다를 것 같을 때, 그때 원격 ASR 서버(106)가 더 높은 정확도인 것이라고 예상되고 그리하여 선호된다고 가정될 수 있다. 원격 ASR 프로세싱 조건에 대한 이러한 결정은 가용 메타데이터를 고려하도록 감독 없이(즉, 자동으로) 고도로 적응적일 수 있다. 이러한 적응은 시스템이, 원격 ASR 서버(106) 상의 부하에서의 변화와 같은, 현재 연산 환경에서의 변화에 적응할 수 있게 하는데 유용할 수 있다. 적응은 또한 매우 "세밀"할 수 있다, 즉, 그것은 스피커, 모바일 디바이스(100), 또는 현재 대화 상태의 특정 특성에 의존할 수 있다. 이러한 적응은 원격 ASR 서버(106)로부터의 인식 결과를 모바일 디바이스(100)로부터의 로컬 인식 결과와 비교하는 것에 의존한다. 그러나 시스템이 음성을 원격 ASR 서버(106)에 보내지 않기로 결정하는 그들 시행으로, 서버측 인식 결과는 정상적으로는 이용가능하지 않을 것이다. 그런 이유로, 이러한 적응을 지원하도록 정보를 수집하기 위하여, 시스템은 때로는 그것이 정상적으로는 보내지 않았을 발화를 보낼 수 있다. 그것은 이것을 비교적 드물게(발화의 1%만일 수도 있음) 행할 것이고, 그것은 이들 발화를 원격 ASR 서버(106) 상에서 낮은 우선순위 프로세싱하도록 마크할 수 있다.
원격 ASR 프로세싱 조건은 로컬 ASR 프로세싱 레이턴시 특성(즉, 로컬 ASR 배열(102)의 인식 속도의 추정)과 같은 다른 조건의 함수일 수 있다. 이것은 로컬 모바일 디바이스(100)의 계산 특성(예컨대, 코어 수, CPU 속도, 메모리 등) 및/또는 모바일 디바이스(100)에서의 부하 조건(인식이 막 시작되려는 때에 운영 체제 및 다른 실행 중 애플리케이션에 의한 CPU 및 메모리 이용)과 같은 인자에 의해 영향을 받을 수 있다. 또 다른 고려사항은 원격 ASR 프로세싱 레이턴시 특성(즉, 인식 결과가 모바일 디바이스(100)에서 수신될 때까지의 레이턴시)일 수 있다. 이것은 데이터 채널 조건 및 서버 부하(원격 서버가 현재 매우 붐비면, 그때는 보내지 않음)와 같은 인자에 의해 영향을 받을 수 있다. 이상적으로 실시예는 응답 레이턴시를 감축할 뿐만 아니라 그 가변성도 감축하려고 추구한다. 큰 레이턴시 분산은 유사하거나 동일한 커맨드 또는 커맨드 카테고리에 대한 이용성에 유해할 수 있다. 일부 애플리케이션에 대해서는, 시스템이 다소 더 높은 전반적 응답 레이턴시를 갖도록 허용가능할 수 있지만, 평균 레이턴시 시간에서 더 낮은 분산을 갖는 것을 선호한다.
원격 ASR 프로세싱 조건은 또한 사용자의 데이터 플랜 과금 상태(사용자가 그 달에 대한 그들의 데이터 허용량의 대부분을 사용하였을 때는 보내지 않음), 서버 부하(원격 서버가 현재 매우 붐비면, 그때는 보내지 않음), 및 배터리 상태(배터리가 낮을 때, 보내는 것은 비용이 더 듦)와 같은 하나 이상의 인식 비용 특성의 함수일 수 있다.
후자의 경우에 있어서, 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 음성 신호를 보내는 것을 전적으로 삼가도록 결정할 수 있거나, 또는 그것은 반대로 하고 - 원격 ASR 서버(106) 상으로 음성을 보내고 로컬 ASR 배열(102)에 의한 프로세싱을 전적으로 생략할 수 있다.
로컬 컨트롤러(104)는 초기에 음성 입력의 시초에 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있고, 일부 실시예에서는 음성 입력의 과정 동안 그것을 재평가할 수 있다. 즉, 음성 입력이 시작되기 전에, 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 새로운 음성 입력을 보내지 않기로 결정하였을 수 있고, 그때 인식의 과정 동안 또는 그 후에, 로컬 신뢰도 정보는 로컬 컨트롤러(104)로 하여금, 발화의 시초로부터 음성 입력 전체를 표현하는 데이터의 블록을 포함하는, 원격 ASR 서버(106)로의 스트리밍 음성 표현을 시작하게 할 수 있다. 그리고 정반대로, 음성 입력의 시초에 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 음성 표현을 스트리밍하기로 결정할 수 있지만, 음성 입력의 끝까지 전반적 인식 신뢰도가 높을 수 있고, 그때 로컬 컨트롤러(104)는 서버측 인식을 중단할 수 있다. 일부 실시예는 또한 인식 이득 추정의 신뢰성을 점검하도록 원격 ASR 서버(106)에 보낼 소정 음성 입력을 랜덤 선택할 수 있고, 그 경우에는, 로컬 ASR 배열(102)로부터의 로컬 인식 결과가 원격 ASR 서버(106)로부터의 결과를 기다리지 않고 사용될 수 있다.
본 발명의 실시예는 전체적으로 또는 부분적으로 VHDL, SystemC, Verilog, ASM 등과 같은 어떠한 관용적 컴퓨터 프로그래밍 언어로라도 구현될 수 있다. 본 발명의 대안의 실시예는 사전-프로그래밍된 하드웨어 구성요소, 다른 관련된 컴포넌트, 또는 하드웨어 및 소프트웨어 컴포넌트의 조합으로서 구현될 수 있다.
실시예는 전체적으로 또는 부분적으로 컴퓨터 시스템과의 사용을 위한 컴퓨터 프로그램 제품으로서 구현될 수 있다. 그러한 구현은 컴퓨터 판독가능한 매체(예컨대, 디스켓, CD-ROM, ROM 또는 고정식 디스크)와 같은 유형적 매체 상에 고정되거나, 또는 매체를 통하여 네트워크에 접속된 통신 어댑터와 같은 모뎀 또는 다른 인터페이스 디바이스를 통하여 컴퓨터 시스템에 전송가능한 일련의 컴퓨터 명령어를 포함할 수 있다. 매체는 유형적 매체(예컨대, 광학 또는 아날로그 통신 라인)이거나, 또는 무선 기술(예컨대, 마이크로파, 적외선 또는 다른 전송 기술)로 구현된 매체일 수 있다. 일련의 컴퓨터 명령어는 시스템에 관하여 본 명세서에서 앞서 기술된 기능성 중 일부 또는 전부를 구체화한다. 당업자는 그러한 컴퓨터 명령어가 많은 컴퓨터 아키텍처 또는 운영 체제와의 사용을 위해 여러 프로그래밍 언어로 기록될 수 있음을 인식하여야 한다. 더욱, 그러한 명령어는 반도체, 자기, 광학 또는 다른 메모리 디바이스와 같이 어떠한 메모리 디바이스에라도 저장될 수 있고, 광학, 적외선, 마이크로파 또는 다른 전송 기술과 같이 어떠한 통신 기술이라도 사용하여 전송될 수 있다. 그러한 컴퓨터 프로그램 제품은 인쇄 또는 전자 문서화가 수반되는 착탈식 매체(예컨대, 수축 포장된 소프트웨어)로서 배포되거나, (예컨대, 시스템 ROM 또는 고정식 디스크 상에) 컴퓨터 시스템으로 사전 로딩되거나, 또는 네트워크(예컨대, 인터넷 또는 월드 와이드 웹)를 통하여 서버 또는 전자 게시판으로부터 배포될 수 있다고 예상된다. 물론, 본 발명의 일부 실시예는 소프트웨어(예컨대, 컴퓨터 프로그램 제품) 및 하드웨어 양자의 조합으로서 구현될 수 있다. 본 발명의 또 다른 실시예는 전적으로 하드웨어로서 또는 전적으로 소프트웨어(예컨대, 컴퓨터 프로그램 제품)로서 구현된다.
본 발명의 다양한 대표적 실시예가 개시되었지만, 본 발명의 진정한 범위로부터 벗어남이 없이 본 발명의 이점 중 일부를 달성할 다양한 변경 및 수정이 이루어질 수 있음은 당업자에게 명백한 것이다.
Claims (20)
- 자동 음성 인식(automatic speech recognition: ASR)을 위해 적응된 모바일 디바이스로서,
사용자로부터 미지의 음성 입력 신호를 수신하기 위한 음성 입력부;
a. 원격 ASR 프로세싱 조건이 충족되는지를 결정하고,
b. 상기 음성 입력 신호를 복수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 그리고
c. 변환된 상기 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보내기 위한 로컬 컨트롤러; 및
상기 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행하기 위한 로컬 ASR 배열을 포함하는 모바일 디바이스. - 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 입력 신호를 변환하고 변환된 상기 음성 입력 신호를 상기 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보내는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 입력 신호를 변환하고 변환된 상기 음성 입력 신호를 상기 원격 ASR 프로세싱 조건이 충족되는 경우에만 보내는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 컨트롤러가 상기 원격 ASR 조건이 충족되지 않는다고 결정하면 상기 음성 입력 신호를 변환하는 것 및 변환된 상기 음성 입력 신호를 보내는 것을 유예하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되더라도, 상기 로컬 ASR 배열은 상기 로컬 ASR 프로세싱을 계속하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열 프로세스는 상기 원격 서버로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 상기 로컬 ASR 프로세싱을 유예하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 ASR 배열이 상기 로컬 ASR 프로세싱을 수행하고 있는 동안 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것인 모바일 디바이스.
- 제7항에 있어서, 상기 로컬 컨트롤러가 상기 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 상기 로컬 컨트롤러는 변환된 상기 음성 신호를 상기 음성 입력 신호의 시초로부터 시작하여 상기 원격 서버에 보내기 시작하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 ASR 배열이 인식 결과를 산출한 후에 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 상기 음성 표현 유형 중 하나를 선택하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 음성 입력 신호의 상기 로컬 ASR 프로세싱과 연관된 인식 신뢰도의 함수인 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 모바일 디바이스와 상기 원격 서버 간 접속 조건의 함수인 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 원격 ASR 프로세싱과 연관된 예상된 정확도 이득의 함수인 것인 모바일 디바이스.
- 제13항에 있어서, 상기 예상된 정확도 이득은 애플리케이션 상태 및 대화 문맥 중 하나 또는 양자를 반영하는 메타데이터 함수에 기반하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 로컬 ASR 프로세싱 레이턴시 특성 및 원격 ASR 프로세싱 레이턴시 특성 중 하나 또는 양자의 함수인 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 인식 비용 특성의 함수인 것인 모바일 디바이스.
- 제1항에 있어서, 상기 복수의 다른 음성 인식 유형은 ASR 피처 벡터, 손실 있는 압축된 음성, 손실 없는 압축된 음성 및 압축되지 않은 음성 중 하나 이상을 포함하는 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것은 시간에 걸친 음성 인식 연산에 기반하는 적응 프로세스를 반영하는 것인 모바일 디바이스.
- 제18항에 있어서, 상기 적응 프로세스는 자동 무감독 적응 프로세스인 것인 모바일 디바이스.
- 제1항에 있어서, 상기 원격 서버로부터의 상기 인식 결과는 포맷 없는 인식 텍스트, 포맷 있는 인식 텍스트 및 시맨틱 해석(semantic interpretation) 중 하나 이상을 포함하는 것인 모바일 디바이스.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/058613 WO2014055076A1 (en) | 2012-10-04 | 2012-10-04 | Improved hybrid controller for asr |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20150063423A true KR20150063423A (ko) | 2015-06-09 |
Family
ID=47018584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157009221A KR20150063423A (ko) | 2012-10-04 | 2012-10-04 | Asr을 위한 개선된 하이브리드 컨트롤러 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9886944B2 (ko) |
EP (1) | EP2904608B1 (ko) |
KR (1) | KR20150063423A (ko) |
CN (1) | CN104769668B (ko) |
WO (1) | WO2014055076A1 (ko) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9373338B1 (en) * | 2012-06-25 | 2016-06-21 | Amazon Technologies, Inc. | Acoustic echo cancellation processing based on feedback from speech recognizer |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR102112742B1 (ko) | 2013-01-22 | 2020-05-19 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
US20190312973A1 (en) * | 2014-02-28 | 2019-10-10 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US9432769B1 (en) | 2014-07-30 | 2016-08-30 | Amazon Technologies, Inc. | Method and system for beam selection in microphone array beamformers |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US9870196B2 (en) * | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
EP3323126A4 (en) * | 2015-07-17 | 2019-03-20 | Nuance Communications, Inc. | REDUCED LATENCY SPEECH RECOGNITION SYSTEM USING MULTIPLE RECOGNITION DEVICES |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
CN105551494A (zh) * | 2015-12-11 | 2016-05-04 | 奇瑞汽车股份有限公司 | 一种基于手机互联的车载语音识别系统及识别方法 |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US10204623B2 (en) | 2017-01-20 | 2019-02-12 | Essential Products, Inc. | Privacy control in a connected environment |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10403299B2 (en) * | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
CN107134279B (zh) | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
CN107564517A (zh) | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
CN107704275B (zh) * | 2017-09-04 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
KR102552486B1 (ko) * | 2017-11-02 | 2023-07-06 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
US10777203B1 (en) * | 2018-03-23 | 2020-09-15 | Amazon Technologies, Inc. | Speech interface device with caching component |
US10984799B2 (en) * | 2018-03-23 | 2021-04-20 | Amazon Technologies, Inc. | Hybrid speech interface device |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
JP2021156907A (ja) * | 2018-06-15 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US11373645B1 (en) * | 2018-06-18 | 2022-06-28 | Amazon Technologies, Inc. | Updating personalized data on a speech interface device |
EP3613037B1 (en) * | 2018-06-27 | 2020-10-21 | Google LLC | Rendering responses to a spoken utterance of a user utilizing a local text-response map |
WO2020096218A1 (en) * | 2018-11-05 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
US11289086B2 (en) * | 2019-11-01 | 2022-03-29 | Microsoft Technology Licensing, Llc | Selective response rendering for virtual assistants |
KR20210066651A (ko) * | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11676586B2 (en) * | 2019-12-10 | 2023-06-13 | Rovi Guides, Inc. | Systems and methods for providing voice command recommendations |
CA3143944A1 (en) * | 2019-12-10 | 2021-06-17 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
CN111477225B (zh) * | 2020-03-26 | 2021-04-30 | 北京声智科技有限公司 | 语音控制方法、装置、电子设备及存储介质 |
US20230215438A1 (en) * | 2020-05-27 | 2023-07-06 | Google Llc | Compensating for hardware disparities when determining whether to offload assistant-related processing tasks from certain client devices |
CN111833880A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音对话方法及系统 |
WO2022072801A2 (en) * | 2020-10-02 | 2022-04-07 | Google Llc | Systems and methods for training dual-mode machine-learned speech recognition models |
Family Cites Families (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0630066B2 (ja) | 1983-10-24 | 1994-04-20 | 株式会社日立製作所 | テーブル型言語翻訳方法 |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
US5148471A (en) | 1989-11-20 | 1992-09-15 | Motorola, Inc. | Communications device with voice recognition and movable element control interface |
JPH05304567A (ja) | 1990-04-05 | 1993-11-16 | Texas Instr Inc <Ti> | 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク |
EP0542628B1 (en) | 1991-11-12 | 2001-10-10 | Fujitsu Limited | Speech synthesis system |
US5297183A (en) | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
EP0607615B1 (en) | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
GB2280820A (en) | 1993-07-29 | 1995-02-08 | Ibm | Distributed system for call processing |
US5544228A (en) | 1993-09-27 | 1996-08-06 | The Walt Disney Company | Method and apparatus for transmission of full frequency digital audio |
US5509060A (en) | 1993-11-19 | 1996-04-16 | At&T Corp. | Network-accessible intelligent telephone service |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US6594628B1 (en) | 1995-09-21 | 2003-07-15 | Qualcomm, Incorporated | Distributed voice recognition system |
AU684872B2 (en) | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5594789A (en) | 1994-10-13 | 1997-01-14 | Bell Atlantic Network Services, Inc. | Transaction implementation in video dial tone network |
JPH0998221A (ja) | 1995-09-29 | 1997-04-08 | Hitachi Ltd | 情報サービス窓口システム |
US5794189A (en) | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US5943648A (en) | 1996-04-25 | 1999-08-24 | Lernout & Hauspie Speech Products N.V. | Speech signal distribution system providing supplemental parameter associated data |
CA2257129A1 (en) | 1996-06-03 | 1997-12-11 | Worldvoice Inc. | Telephonic voice message store and forward method having network address and voice authentication |
US6094680A (en) | 1996-06-27 | 2000-07-25 | Microsoft Corporation | System and method for managing distributed resources on networks |
US6832380B1 (en) | 1996-06-28 | 2004-12-14 | Tarantella, Inc. | Client-server application partitioning with metering technique for distributed computing |
US5855003A (en) | 1996-10-11 | 1998-12-29 | Motorola, Inc. | Method and apparatus for establishing a link in a wireless communication system |
US5774857A (en) | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
JPH10228431A (ja) | 1996-12-11 | 1998-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 電話またはインターネットホンとwwwブラウザを利用した対話型通信方法、通信装置及び記録媒体 |
US5960399A (en) | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6188985B1 (en) | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US6456974B1 (en) | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
JPH10214258A (ja) | 1997-01-28 | 1998-08-11 | Victor Co Of Japan Ltd | データ処理システム |
GB9705371D0 (en) | 1997-03-14 | 1997-04-30 | British Telecomm | Control of data transfer and distributed data processing |
JP3556425B2 (ja) | 1997-03-18 | 2004-08-18 | 株式会社東芝 | 共有辞書更新方法および辞書サーバ |
US6173259B1 (en) | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6167377A (en) | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6078886A (en) | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6856960B1 (en) | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
GB2325112B (en) | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
US5953700A (en) | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
JP4267081B2 (ja) | 1997-10-20 | 2009-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 分散システムにおけるパターン認識登録 |
EP0954855B1 (en) | 1997-11-14 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity |
US6119087A (en) | 1998-03-13 | 2000-09-12 | Nuance Communications | System architecture for and method of voice processing |
US6195641B1 (en) | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
US6912588B1 (en) | 1998-04-02 | 2005-06-28 | Intel Corporation | System and method for managing client requests in client-server networks |
IL142363A0 (en) | 1998-10-02 | 2002-03-10 | Ibm | System and method for providing network coordinated conversational services |
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
WO2000058942A2 (en) | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6434523B1 (en) | 1999-04-23 | 2002-08-13 | Nuance Communications | Creating and editing grammars for speech recognition graphically |
US6604075B1 (en) | 1999-05-20 | 2003-08-05 | Lucent Technologies Inc. | Web-based voice dialog interface |
US6374226B1 (en) | 1999-08-06 | 2002-04-16 | Sun Microsystems, Inc. | System and method for interfacing speech recognition grammars to individual components of a computer program |
US6453290B1 (en) | 1999-10-04 | 2002-09-17 | Globalenglish Corporation | Method and system for network-based speech recognition |
US6963759B1 (en) | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7024363B1 (en) | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6560590B1 (en) | 2000-02-14 | 2003-05-06 | Kana Software, Inc. | Method and apparatus for multiple tiered matching of natural language queries to positions in a text corpus |
US6671669B1 (en) | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US7389234B2 (en) | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
JP3581648B2 (ja) | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6772123B2 (en) | 2000-11-30 | 2004-08-03 | 3Com Corporation | Method and system for performing speech recognition for an internet appliance using a remotely located speech recognition application |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
EP1215659A1 (en) | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
US20020091515A1 (en) | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
US20020091527A1 (en) | 2001-01-08 | 2002-07-11 | Shyue-Chin Shiau | Distributed speech recognition server system for mobile internet/intranet communication |
US20030004720A1 (en) | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US6738743B2 (en) | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
US7058643B2 (en) | 2002-05-22 | 2006-06-06 | Agilent Technologies, Inc. | System, tools and methods to facilitate identification and organization of new information based on context of user's existing information |
US6760705B2 (en) | 2001-05-31 | 2004-07-06 | Motorola, Inc. | Virtual speech interface system and method of using same |
US7366673B2 (en) | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
GB2383459B (en) | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
US7013275B2 (en) | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US6898567B2 (en) | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US7058890B2 (en) | 2002-02-13 | 2006-06-06 | Siebel Systems, Inc. | Method and system for enabling connectivity to a data system |
JP2003295893A (ja) | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7003457B2 (en) | 2002-10-29 | 2006-02-21 | Nokia Corporation | Method and system for text editing in hand-held electronic device |
FR2853127A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Systeme de reconnaissance de parole distribuee |
US6983244B2 (en) | 2003-08-29 | 2006-01-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for improved speech recognition with supplementary information |
US20080133124A1 (en) * | 2004-07-17 | 2008-06-05 | Shahriar Sarkeshik | Location Codes for Destination Routing |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060149551A1 (en) | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US20060235684A1 (en) * | 2005-04-14 | 2006-10-19 | Sbc Knowledge Ventures, Lp | Wireless device to access network-based voice-activated services using distributed speech recognition |
US20070286099A1 (en) | 2005-05-13 | 2007-12-13 | Core Mobility | User Interface Elements for Mobile Device Feature Discovery and Backup Status |
GB0513820D0 (en) | 2005-07-06 | 2005-08-10 | Ibm | Distributed voice recognition system and method |
KR20080095886A (ko) | 2006-01-20 | 2008-10-29 | 컨버세이셔널 컴퓨팅 코포레이션 | 웨어러블 디스플레이 인터페이스 클라이언트 |
US20070276651A1 (en) | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
US20080126490A1 (en) | 2006-11-29 | 2008-05-29 | Motorola, Inc. | Method and apparatus for presenting information concerning a set of incoming communications |
US20080154612A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US20080154870A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20110054899A1 (en) | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20110060587A1 (en) | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8099289B2 (en) | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
EP2269188B1 (en) * | 2008-03-14 | 2014-06-11 | Dolby Laboratories Licensing Corporation | Multimode coding of speech-like and non-speech-like signals |
US8958848B2 (en) | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
US8892439B2 (en) | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
US20120030712A1 (en) | 2010-08-02 | 2012-02-02 | At&T Intellectual Property I, L.P. | Network-integrated remote control with voice activation |
US8473289B2 (en) | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
-
2012
- 2012-10-04 KR KR1020157009221A patent/KR20150063423A/ko not_active Application Discontinuation
- 2012-10-04 WO PCT/US2012/058613 patent/WO2014055076A1/en active Application Filing
- 2012-10-04 EP EP12772691.7A patent/EP2904608B1/en active Active
- 2012-10-04 US US14/433,263 patent/US9886944B2/en active Active
- 2012-10-04 CN CN201280076276.7A patent/CN104769668B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
EP2904608B1 (en) | 2017-05-03 |
CN104769668A (zh) | 2015-07-08 |
US9886944B2 (en) | 2018-02-06 |
WO2014055076A1 (en) | 2014-04-10 |
EP2904608A1 (en) | 2015-08-12 |
US20150279352A1 (en) | 2015-10-01 |
CN104769668B (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20150063423A (ko) | Asr을 위한 개선된 하이브리드 컨트롤러 | |
US20210304759A1 (en) | Automatic speech recognition with filler model processing | |
US9514747B1 (en) | Reducing speech recognition latency | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
US7392188B2 (en) | System and method enabling acoustic barge-in | |
US9406299B2 (en) | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition | |
EP2538404B1 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
JP2018523156A (ja) | 言語モデルスピーチエンドポインティング | |
EP2388778A1 (en) | Speech recognition | |
EP3092639B1 (en) | A methodology for enhanced voice search experience | |
KR20060022156A (ko) | 분산 음성 인식 시스템 및 그 방법 | |
US9679560B2 (en) | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission | |
US10229701B2 (en) | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
US20160358601A1 (en) | Rapid speech recognition adaptation using acoustic input | |
JP2002524777A (ja) | ボイス・ダイアリング方法およびシステム | |
US11727926B1 (en) | Systems and methods for noise reduction | |
US20050276235A1 (en) | Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
KR102364935B1 (ko) | 5g 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치 | |
US11967318B2 (en) | Method and system for performing speech recognition in an electronic device | |
WO2008001991A1 (en) | Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding | |
KR20240049592A (ko) | Stft-기반 에코 뮤터 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |