KR20150063423A - Asr을 위한 개선된 하이브리드 컨트롤러 - Google Patents

Asr을 위한 개선된 하이브리드 컨트롤러 Download PDF

Info

Publication number
KR20150063423A
KR20150063423A KR1020157009221A KR20157009221A KR20150063423A KR 20150063423 A KR20150063423 A KR 20150063423A KR 1020157009221 A KR1020157009221 A KR 1020157009221A KR 20157009221 A KR20157009221 A KR 20157009221A KR 20150063423 A KR20150063423 A KR 20150063423A
Authority
KR
South Korea
Prior art keywords
asr
remote
local
mobile device
asr processing
Prior art date
Application number
KR1020157009221A
Other languages
English (en)
Inventor
다니엘 윌릿
지안숑 우
폴 보질라
윌리엄 에프. 3세 가농
Original Assignee
뉘앙스 커뮤니케이션즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 뉘앙스 커뮤니케이션즈, 인코포레이티드 filed Critical 뉘앙스 커뮤니케이션즈, 인코포레이티드
Publication of KR20150063423A publication Critical patent/KR20150063423A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

자동 음성 인식(ASR)에 적응되어 있는 모바일 디바이스가 기술된다. 음성 입력부는 사용자로부터 미지의 음성 입력 신호를 수신한다. 로컬 컨트롤러는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 변환된 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보낸다. 로컬 ASR 배열은 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행한다.

Description

ASR을 위한 개선된 하이브리드 컨트롤러{IMPROVED HYBRID CONTROLLER FOR ASR}
본 발명은 일반적으로는 자동 음성 인식(automatic speech recognition: ASR)에 관한 것으로, 더 구체적으로는, 모바일 디바이스 상에서의 클라이언트-서버 ASR에 관한 것이다.
자동 음성 인식(ASR) 시스템은 음성 입력의 시맨틱 의미(semantic meaning)를 결정한다. 전형적으로, 입력 음성은 디지털 음성 피처 프레임의 시퀀스로 프로세싱된다. 각각의 음성 피처 프레임은 음성의 단시간 윈도 동안 존재하는 음성 신호의 다양한 특성을 표현하는 다-차원 벡터로서 생각될 수 있다. 예컨대, 각각의 음성 프레임의 다-차원 벡터는 음성 신호의 단시간 푸리에 변환 스펙트럼의 캡스트럼 피처(MFCC) - 소정 주파수 대역의 단시간 전력 또는 성분 -과 더불어 대응하는 1차 및 2차 도함수("델타" 및 "델타-델타")로부터 유도될 수 있다. 연속형 인식 시스템에서는, 가변 수의 음성 프레임이, 실생활에서 구어 문장 또는 구절에 대충 대응하는, 휴지가 뒤따르는 소정 기간의 음성을 표현하는 "발화"로서 조직된다.
ASR 시스템은 벡터 시퀀스 특성과 최상 매칭하는 통계적 음향 모델을 구하기 위해 입력 발화를 비교하고 그 음향 모델과 연관된 대응하는 대표 텍스트를 결정한다. 더 공식적으로, 소정 입력 관찰(A)이 주어질 때, 소정 단어 스트링(W)이 말해졌을 확률은 P(W|A)로서 표현되고, 이 경우 ASR 시스템은 가장 가능성 있는 단어 스트링을 결정하려 시도한다:
Figure pct00001
통계적 음향 모델의 시스템이 주어질 때, 이 공식은 다음과 같이 재-표현될 수 있다:
Figure pct00002
여기서 P(A|W)는 음향 모델에 대응하고 P(W)는 통계적 언어 모델에 의해 제공되는 바와 같이 단어 시퀀스의 이전 확률을 반영한다.
음향 모델은 전형적으로는 확률 분포 함수(가우스)의 혼합을 사용하여 음성 소리를 모델링하는 HMM(hidden Markov model)과 같은 확률적 상태 시퀀스 모델이다. 음향 모델은 흔히 PEL(표음 요소)라고도 지칭되는, 특정 문맥에서의 음소, 예컨대, 기지의 좌 및/또는 우 문맥을 갖는 음소 또는 삼음소를 표현한다. 상태 시퀀스 모델은 단어를 음향 모델링된 음소의 연결된 시퀀스로서, 그리고 구절 또는 문장을 단어의 연결된 시퀀스로서 표현하도록 업스케일링될 수 있다. 모델이 단어, 구절 및 문장으로서 함께 조직될 때, 부가적 언어-관련 정보가 또한 전형적으로는 통계적 언어 모델의 형태로 그 모델에 편입된다.
최상 매칭 모델 구조와 연관된 단어 또는 구절은 인식 후보 또는 가설이라고 지칭된다. 시스템은 N-최상 리스트, 인식 격자 또는 혼동 네트워크와 같은 다양한 형태로 단일 최상 인식 후보 - 인식 결과 - 또는 다수의 인식 가설을 산출할 수 있다. 연속형 음성 인식에 관한 추가적 상세는 미국 특허 제5,794,189호(발명의 명칭: "Continuous Speech Recognition") 및 미국 특허 제6,167,377호(발명의 명칭: "Speech Recognition Language Models")에 제공되며, 그 내용은 참조에 의해 본 명세서에 편입된다.
최근, ASR 기술은 모바일 디바이스의 한정된 풋프린트 상에 구현되는 애플리케이션을 갖기에 충분히 진전되었다. 이것은 모바일 디바이스 상에 다소 한정된 독립형 ASR 배열을 관여시킬 수 있거나, 또는 더 확장적 능력이 클라이언트-서버 배열에 제공될 수 있으며 이 경우 로컬 모바일 디바이스가 음성 입력의 초기 프로세싱을 하고 소정 로컬 ASR 인식 프로세싱도 가능하지만 주 ASR 프로세싱은 더 큰 자원을 갖는 원격 서버에서 수행되고, 그 후 인식 결과가 모바일 디바이스에서의 사용을 위해 반환된다.
미국 특허 공개공보 제20110054899호는 음성 인식이 시간, 정책, 신뢰도 점수, 네트워크 가용성 등과 같은 하나 이상의 기준에 따라 디바이스에 의해 로컬 수행되고 그리고/또는 원격 ASR 서버에 의해 원격 수행될 수 있는 모바일 디바이스용 하이브리드 클라이언트-서버 ASR 배열을 기술하고 있다.
본 발명의 실시예는 자동 음성 인식(ASR)을 위한 모바일 디바이스 및 대응하는 방법에 관한 것이다. 로컬 컨트롤러는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 변환된 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보낸다. 로컬 ASR 배열은 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행한다.
로컬 컨트롤러는 음성 입력 신호를 변환하고 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보낼 수 있다. 또는 로컬 컨트롤러는 음성 입력 신호를 변환하고 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는 경우에만 보낼 수 있다. 로컬 컨트롤러는 그것이 원격 ASR 조건이 충족되지 않는다고 결정하면 음성 입력 신호를 변환하는 것 및 변환된 음성 입력 신호를 보내는 것을 유예할 수 있다.
원격 ASR 프로세싱 조건이 충족되더라도, 로컬 ASR 배열은 로컬 ASR 프로세싱을 계속할 수 있다. 또는 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열 프로세스는 원격 서버로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 로컬 ASR 프로세싱을 유예할 수 있다.
로컬 컨트롤러는 로컬 ASR 배열이 로컬 ASR 프로세싱을 수행하고 있는 동안 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다. 그 경우에서는, 로컬 컨트롤러가 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 그것은 변환된 음성 신호를 음성 입력 신호의 시초로부터 시작하여 원격 서버에 보내기 시작할 수 있다. 또는 로컬 컨트롤러는 로컬 ASR 배열이 인식 결과를 산출한 후에 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다.
로컬 컨트롤러는 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 음성 표현 유형 중 하나를 선택할 수 있다. 여러 다른 음성 인식 유형은 ASR 피처 벡터, 손실 있는 압축된 음성, 손실 없는 압축된 음성 및 압축되지 않은 음성 중 하나 이상을 포함할 수 있다. 원격 서버로부터의 인식 결과는 포맷 없는 인식 텍스트, 포맷 있는 인식 텍스트 및 시맨틱 해석(semantic interpretation) 중 하나 이상을 포함할 수 있다.
원격 ASR 프로세싱 조건은 음성 입력 신호의 로컬 ASR 프로세싱과 연관된 인식 신뢰도, 모바일 디바이스와 상기 원격 서버 간 접속 조건, 원격 ASR 프로세싱과 연관된 예상된 정확도 이득(예컨대, 애플리케이션 상태 및 대화 문맥 중 하나 또는 양자를 반영하는 메타데이터 함수에 기반함), 로컬 ASR 프로세싱 레이턴시 특성, 원격 ASR 프로세싱 레이턴시 특성, 및 인식 비용 특성 중 하나 이상의 함수일 수 있다.
원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것은 시간에 걸친 음성 인식 연산에 기반하는 적응 프로세스를 반영할 수 있다. 예컨대, 적응 프로세스는 자동 무감독 적응 프로세스일 수 있다.
도 1은 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 구성요소의 도시도;
도 2는 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도;
도 3은 본 발명의 다른 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 기능적 단계의 도시도.
본 발명의 다양한 실시예는 클라이언트-서버 배열을 사용하는 모바일 디바이스용 하이브리드 ASR에 관한 것이다. 로컬 컨트롤러는 로컬 인식 신뢰도 점수, 데이터 접속 조건 등과 같은 기준에 따라 음성 입력을 인식을 위해 원격 서버 상으로 언제 보낼지 결정한다. 부가적으로, 로컬 컨트롤러는, 예컨대, 여러 다른 유형의 음성 표현의 대역폭 특성에 기반하여 원격 서버에 보낼 특정 유형의 음성 표현을 더 선택한다.
도 1은 본 발명의 일 실시예에 따른 하이브리드 ASR 배열에서의 다양한 구성요소를 도시하고 있다. 모바일 디바이스(100) 상의 음성 입력부(101)는 사용자로부터 미지의 음성 입력 신호를 수신한다. 로컬 컨트롤러(104)는 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 음성 입력 신호를 다수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 원격 ASR 프로세싱 배열을 갖는 원격 서버(106)에 그 변환된 음성 신호를 무선 통신 네트워크(105)를 통하여 보낸다. 로컬 ASR 배열(102)은 원격 ASR 서버(106)로부터의 어느 음성 인식 결과의 프로세싱을 포함하여 음성 입력 신호의 로컬 ASR 프로세싱을 수행하도록 로컬 인식 데이터 소스(103)를 사용한다. ASR 서버(106)는 원격 ASR 프로세싱을 수행하도록 서버 인식 데이터 소스(107)를 사용하고, 그 프로세스가 완료되고 나면, 그 음성 인식 결과(포맷 없는 인식 텍스트, 또는 포맷 있는 인식 텍스트 또는 시맨틱 해석과 같은 결과의 유도체)를 인식 출력 결과(108)로서 모바일 디바이스(100)에 다시 반환한다.
특정 실시예에 있어서, 로컬 컨트롤러(104)는 음성 입력 신호를 변환하고 그 변환된 음성 입력 신호를 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보낸다. 예컨대, 도 2는 모바일 디바이스(100)가, 단계(201)에서, 초기에 사용자로부터 미지의 음성 입력 신호를 수신하고, 그것을 단계(202)에서 로컬 ASR 프로세싱을 위해 로컬 ASR 배열(102)에 포워딩하는 그러한 일 실시예에서 다양한 기능적 단계를 도시하고 있다. 로컬 컨트롤러(104)는, 단계(203)에서, 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 그러하면, 단계(204)에서 여러 다른 음성 표현 유형 중 특정 하나를 선택하고, 단계(205)에서 음성 입력 신호를 선택된 유형의 음성 표현으로 변환하고, 단계(206)에서는 변환된 음성 입력 신호를 원격 ASR 서버(106)에 보낸다.
원격 ASR 서버(106)가 변환된 음성 입력 신호의 프로세싱을 완료하고 나면, 그것은 로컬 ASR 프로세싱 배열(102)에 의한 추가적 프로세싱을 위해, 단계(207)에서, 그 인식 결과를 로컬 디바이스(100)에 다시 반환한다. 여러 다른 특정 실시예는 이에 관하여 정확히 무엇이 이루어지는지에 대해 여러 다른 특정 배열을 가질 수 있다. 예컨대, 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열(102)은 원격 ASR 서버(106)로부터의 인식 결과의 부가적 프로세싱을 포함하는 로컬 ASR 프로세싱을 계속하여 그 최종 인식 출력 해석(108)을 산출할 수 있다. 또는 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열(102) 프로세스는 출력 해석(108)이 원격 인식 결과에만 기반하도록 원격 ASR 서버(106)로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 로컬 ASR 프로세싱을 유예할 수 있다.
일부 다른 특정 실시예에 있어서, 로컬 컨트롤러(104)는 음성 입력 신호를 변환하고 원격 ASR 프로세싱 조건이 충족되는 경우에만 그 변환된 음성 입력 신호를 보낼 수 있다. 도 3은 모바일 디바이스(100)가, 단계(301)에서, 초기에 사용자로부터 미지의 음성 입력 신호를 수신하고, 그것을 단계(302)에서 로컬 ASR 프로세싱을 위해 로컬 ASR 배열(102)에 포워딩하는 그러한 일 실시예에서 다양한 기능적 단계를 도시하고 있다. 로컬 컨트롤러는 그것이 원격 ASR 조건이 충족되지 않는다고 결정하면 음성 입력 신호를 변환하는 것 및 변환된 음성 입력 신호를 보내는 것을 유예할 수 있다. 로컬 컨트롤러(104)는, 단계(303)에서 여러 다른 음성 표현 유형 중 특정 하나를 자동으로 선택하고, 단계(304)에서 음성 입력 신호를 선택된 유형의 음성 표현으로 변환하고, 단계(305)에서는 변환된 음성 입력 신호를 원격 ASR 서버(106)에 보낸다. 로컬 컨트롤러(104)는 또한 단계(306)에서 원격 ASR 프로세싱 조건이 충족되는지를 결정하고, 그러하면, 단계(307)에서 그들 원격 인식 결과를 그것들이 이용가능하게 될 때 수신한다. 단계(306)에서 로컬 컨트롤러(104)가 원격 ASR 프로세싱 조건이 충족되지 않는다고 결정하면, 그때 출력 해석(108)은 로컬 ASR 프로세싱 배열(102)로부터의 인식 결과에만 기반할 것이다.
그러한 일 실시예에 있어서, 로컬 컨트롤러는, 로컬 ASR 배열(102)이 로컬 ASR 프로세싱을 수행하고 있는 동안, 단계(306)에서 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다. 그 경우에서는, 로컬 컨트롤러(104)가 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 그것은, 음성 입력 신호의 시초로부터 시작하여, 단계(304)에서 변환된 음성 신호를 원격 서버에 보내기 시작할 수 있다. 또는 로컬 컨트롤러(104)는, 로컬 ASR 배열(102)이, 예컨대, 로컬 인식 결과 및 그 신뢰도에 기반하여 로컬 인식 결과를 산출한 후에, 단계(306)에서, 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있다.
어느 실시예에서라도, 로컬 컨트롤러(104)는 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 음성 표현 유형 중 하나를 선택할 수 있다. 예컨대, 하나의 특정 실시예는 3개의 다른 유형의 음성 표현에 기반할 수 있다.
1) ASR 피처 벡터 - 그것들은 로컬 ASR 배열(102)에 의해 이미 계산되어 있으므로, (원격 ASR 서버(106)가 다른 종류의 피처 스트림을 사용하지 않는 한) 이것은 저렴한 옵션이다.
2) 압축 손실 있는 압축된 음성. 압축 레이트는 가용 네트워크 대역폭에 따라 결정될 수 있고 압축 복잡도(압축에 쓰이는 계산량)는 모바일 디바이스(100) 상의 현재 배터리 상태 및 가용 계산 전력으로 조절될 수 있다.
3) 압축되지 않은 또는 손실 없는 압축된 음성.
음성 표현 유형이 압축되지 않은 파형보다 덜한 어떤 것인 경우에, 일부 실시예는 압축되지 않은 파형을 적응 및 평가 목적으로 추후 보낼 수 있다. 다양한 다른 음성 표현 유형 중 어느 것에 대해서라도, 음성 신호를 원격 ASR 서버(106)에 보내기 전에 모바일 디바이스(100) 상에서 소정의 로컬 신호 강화를 행하는 것이 유익할 수 있다. 특정 그러한 강화 기술의 예는, 국한되는 것은 아니지만, 잡음 억제/감축, 탈-잔향, 빔-형성 및 에코 보상을 포함한다. 손실 있는 압축을 통하여 음성 표현 신호를 보내기 전에 모바일 디바이스(100) 상에서 그러한 신호 강화 기술을 수행하는 것이 유익할 수 있다. 이것은 그러한 신호 강화 기술이 더 효과적이게 할 뿐만 아니라 압축 손실 감축을 가능하게 하는 것으로 알려져 있다. 부가적으로, 그러한 강화 기술은 어떤 식으로든 로컬 ASR 배열(102)에 대해 - 모바일 디바이스(100) 상에서 이용가능하면 - 수행될 가능성이 크다. 그리고 빔-형성의 특정 경우에 있어서, 그것을 모바일 디바이스(100) 상에서 로컬 수행하는 것은 빔-형성된 음성 표현 신호를 신호 채널을 통하여 원격 ASR 서버에 보내는 것을 허용하는 반면, 대조적으로, 그러한 신호 빔-형성을 원격 ASR 서버(106) 상에서 수행하는 것은 다중 채널을 통한 송신을 요구할 것이다.
특정 실시예에 있어서, 원격 ASR 프로세싱 조건은 음성 입력의 로컬 ASR 프로세싱과 연관된 인식 신뢰도, 모바일 디바이스와 원격 서버 간 접속 조건, 원격 ASR 프로세싱과 연관된 예상된 정확도 이득, 로컬 ASR 프로세싱 레이턴시 특성, 원격 ASR 프로세싱 레이턴시 특성, 및/또는 인식 비용 특성 중 하나 이상의 함수일 수 있다.
예컨대, 원격 ASR 프로세싱과 연관된 정확도 이득의 추정은, 로컬 ASR 배열(102) 및 원격 ASR 서버(106) 양자가 동일한 인식 결론에 도달할 것 같으면, 그때는 음성 입력을 원격 서버(106) 상으로 보내는 것에 대한 정확도 이득이 없다는 고려사항을 고려하여야 한다. 원격 ASR 프로세싱에 기인하는 정확도 개선의 추정은 또한 다음 중 하나 이상을 고려할 수 있다:
Figure pct00003
신호-대-잡음 비(SNR)
Figure pct00004
음성 입력의 길이
Figure pct00005
코어 수, CPU 속도, 메모리 등을 포함하는 로컬 모바일 디바이스(100)의 계산 특성
Figure pct00006
현재 사용자로부터의 최근 인식 결과
Figure pct00007
로컬 인식 신뢰도
ο 로컬 인식 신뢰도가 높으면, 서버측 프로세싱은 중단될 수 있다. 이것은 특히 어느 로컬 캐시 문법에서의 인식 프로세싱의 속도를 높일 것이다.
ο 특정 단어 상의 로컬 인식 신뢰도가 낮으면, 그것은 원격 ASR 서버(106)에 보내져야 하는 로컬 미등록어(OOV) 입력을 반영할 수 있다.
Figure pct00008
부분 인식 결과 - 현재 음성 입력이 부분적으로 디코딩되고 서버 자원을 요구하는 커맨드(예컨대, 웹 검색 질의)를 포함하고 있을 것 같으면, 그때 음성 입력은 원격 ASR 서버(106) 상으로 보내져야 한다.
Figure pct00009
현재 음성 입력이 원격 ASR 서버(106) 상에서 구해질 가능성이 더 큰 정보를 요구할 것임을 시사할 수 있는 다른 특성.
Figure pct00010
대화 문맥 및 애플리케이션 상태와 같은 인식 문제에 대한 메타데이터
ο 시스템이 단순 "예/아니오" 대답을 청하고 있으면, 그때 원격 ASR 서버(106)는 로컬 ASR 배열(102)에 비해 인식 성능을 개선할 가능성이 더 적다.
ο 여러 다른 사용자에 걸친 관찰은 특정 메타데이터 문맥에서 원격 ASR 서버(106)에 의한 인식의 이득 가능성을 추정하는데 사용될 수 있다.
ο 시스템이, 복잡한 웹 검색과 같이, 서버 자원을 요구할 것 같은 사용자 입력을 청하고 있는 경우
정확도 그 자체는 사용자 피드백 또는 수동 검토(예컨대, 오디오의 전사)로부터만 확인될 수 있을 뿐임을 유념할 가치가 있다. 그러나 원격 ASR 프로세싱 조건의 목적으로, 유사한 조건(애플리케이션 상태, 대화 문맥, SNR 등) 하에 산출된 이전 로컬 및 원격 인식 결과를 비교하는 것에 기반하여 원격 ASR 서버(106)로부터의 원격 인식 결과가 로컬 ASR 배열(102)의 로컬 인식 결과와 유의미하게 다를 것인지 그리고 얼마나 자주인지 예측될 수 있다. 인식 결과가 다를 것 같을 때, 그때 원격 ASR 서버(106)가 더 높은 정확도인 것이라고 예상되고 그리하여 선호된다고 가정될 수 있다. 원격 ASR 프로세싱 조건에 대한 이러한 결정은 가용 메타데이터를 고려하도록 감독 없이(즉, 자동으로) 고도로 적응적일 수 있다. 이러한 적응은 시스템이, 원격 ASR 서버(106) 상의 부하에서의 변화와 같은, 현재 연산 환경에서의 변화에 적응할 수 있게 하는데 유용할 수 있다. 적응은 또한 매우 "세밀"할 수 있다, 즉, 그것은 스피커, 모바일 디바이스(100), 또는 현재 대화 상태의 특정 특성에 의존할 수 있다. 이러한 적응은 원격 ASR 서버(106)로부터의 인식 결과를 모바일 디바이스(100)로부터의 로컬 인식 결과와 비교하는 것에 의존한다. 그러나 시스템이 음성을 원격 ASR 서버(106)에 보내지 않기로 결정하는 그들 시행으로, 서버측 인식 결과는 정상적으로는 이용가능하지 않을 것이다. 그런 이유로, 이러한 적응을 지원하도록 정보를 수집하기 위하여, 시스템은 때로는 그것이 정상적으로는 보내지 않았을 발화를 보낼 수 있다. 그것은 이것을 비교적 드물게(발화의 1%만일 수도 있음) 행할 것이고, 그것은 이들 발화를 원격 ASR 서버(106) 상에서 낮은 우선순위 프로세싱하도록 마크할 수 있다.
원격 ASR 프로세싱 조건은 로컬 ASR 프로세싱 레이턴시 특성(즉, 로컬 ASR 배열(102)의 인식 속도의 추정)과 같은 다른 조건의 함수일 수 있다. 이것은 로컬 모바일 디바이스(100)의 계산 특성(예컨대, 코어 수, CPU 속도, 메모리 등) 및/또는 모바일 디바이스(100)에서의 부하 조건(인식이 막 시작되려는 때에 운영 체제 및 다른 실행 중 애플리케이션에 의한 CPU 및 메모리 이용)과 같은 인자에 의해 영향을 받을 수 있다. 또 다른 고려사항은 원격 ASR 프로세싱 레이턴시 특성(즉, 인식 결과가 모바일 디바이스(100)에서 수신될 때까지의 레이턴시)일 수 있다. 이것은 데이터 채널 조건 및 서버 부하(원격 서버가 현재 매우 붐비면, 그때는 보내지 않음)와 같은 인자에 의해 영향을 받을 수 있다. 이상적으로 실시예는 응답 레이턴시를 감축할 뿐만 아니라 그 가변성도 감축하려고 추구한다. 큰 레이턴시 분산은 유사하거나 동일한 커맨드 또는 커맨드 카테고리에 대한 이용성에 유해할 수 있다. 일부 애플리케이션에 대해서는, 시스템이 다소 더 높은 전반적 응답 레이턴시를 갖도록 허용가능할 수 있지만, 평균 레이턴시 시간에서 더 낮은 분산을 갖는 것을 선호한다.
원격 ASR 프로세싱 조건은 또한 사용자의 데이터 플랜 과금 상태(사용자가 그 달에 대한 그들의 데이터 허용량의 대부분을 사용하였을 때는 보내지 않음), 서버 부하(원격 서버가 현재 매우 붐비면, 그때는 보내지 않음), 및 배터리 상태(배터리가 낮을 때, 보내는 것은 비용이 더 듦)와 같은 하나 이상의 인식 비용 특성의 함수일 수 있다.
후자의 경우에 있어서, 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 음성 신호를 보내는 것을 전적으로 삼가도록 결정할 수 있거나, 또는 그것은 반대로 하고 - 원격 ASR 서버(106) 상으로 음성을 보내고 로컬 ASR 배열(102)에 의한 프로세싱을 전적으로 생략할 수 있다.
로컬 컨트롤러(104)는 초기에 음성 입력의 시초에 원격 ASR 프로세싱 조건이 충족되는지를 결정할 수 있고, 일부 실시예에서는 음성 입력의 과정 동안 그것을 재평가할 수 있다. 즉, 음성 입력이 시작되기 전에, 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 새로운 음성 입력을 보내지 않기로 결정하였을 수 있고, 그때 인식의 과정 동안 또는 그 후에, 로컬 신뢰도 정보는 로컬 컨트롤러(104)로 하여금, 발화의 시초로부터 음성 입력 전체를 표현하는 데이터의 블록을 포함하는, 원격 ASR 서버(106)로의 스트리밍 음성 표현을 시작하게 할 수 있다. 그리고 정반대로, 음성 입력의 시초에 로컬 컨트롤러(104)는 원격 ASR 서버(106)에 음성 표현을 스트리밍하기로 결정할 수 있지만, 음성 입력의 끝까지 전반적 인식 신뢰도가 높을 수 있고, 그때 로컬 컨트롤러(104)는 서버측 인식을 중단할 수 있다. 일부 실시예는 또한 인식 이득 추정의 신뢰성을 점검하도록 원격 ASR 서버(106)에 보낼 소정 음성 입력을 랜덤 선택할 수 있고, 그 경우에는, 로컬 ASR 배열(102)로부터의 로컬 인식 결과가 원격 ASR 서버(106)로부터의 결과를 기다리지 않고 사용될 수 있다.
본 발명의 실시예는 전체적으로 또는 부분적으로 VHDL, SystemC, Verilog, ASM 등과 같은 어떠한 관용적 컴퓨터 프로그래밍 언어로라도 구현될 수 있다. 본 발명의 대안의 실시예는 사전-프로그래밍된 하드웨어 구성요소, 다른 관련된 컴포넌트, 또는 하드웨어 및 소프트웨어 컴포넌트의 조합으로서 구현될 수 있다.
실시예는 전체적으로 또는 부분적으로 컴퓨터 시스템과의 사용을 위한 컴퓨터 프로그램 제품으로서 구현될 수 있다. 그러한 구현은 컴퓨터 판독가능한 매체(예컨대, 디스켓, CD-ROM, ROM 또는 고정식 디스크)와 같은 유형적 매체 상에 고정되거나, 또는 매체를 통하여 네트워크에 접속된 통신 어댑터와 같은 모뎀 또는 다른 인터페이스 디바이스를 통하여 컴퓨터 시스템에 전송가능한 일련의 컴퓨터 명령어를 포함할 수 있다. 매체는 유형적 매체(예컨대, 광학 또는 아날로그 통신 라인)이거나, 또는 무선 기술(예컨대, 마이크로파, 적외선 또는 다른 전송 기술)로 구현된 매체일 수 있다. 일련의 컴퓨터 명령어는 시스템에 관하여 본 명세서에서 앞서 기술된 기능성 중 일부 또는 전부를 구체화한다. 당업자는 그러한 컴퓨터 명령어가 많은 컴퓨터 아키텍처 또는 운영 체제와의 사용을 위해 여러 프로그래밍 언어로 기록될 수 있음을 인식하여야 한다. 더욱, 그러한 명령어는 반도체, 자기, 광학 또는 다른 메모리 디바이스와 같이 어떠한 메모리 디바이스에라도 저장될 수 있고, 광학, 적외선, 마이크로파 또는 다른 전송 기술과 같이 어떠한 통신 기술이라도 사용하여 전송될 수 있다. 그러한 컴퓨터 프로그램 제품은 인쇄 또는 전자 문서화가 수반되는 착탈식 매체(예컨대, 수축 포장된 소프트웨어)로서 배포되거나, (예컨대, 시스템 ROM 또는 고정식 디스크 상에) 컴퓨터 시스템으로 사전 로딩되거나, 또는 네트워크(예컨대, 인터넷 또는 월드 와이드 웹)를 통하여 서버 또는 전자 게시판으로부터 배포될 수 있다고 예상된다. 물론, 본 발명의 일부 실시예는 소프트웨어(예컨대, 컴퓨터 프로그램 제품) 및 하드웨어 양자의 조합으로서 구현될 수 있다. 본 발명의 또 다른 실시예는 전적으로 하드웨어로서 또는 전적으로 소프트웨어(예컨대, 컴퓨터 프로그램 제품)로서 구현된다.
본 발명의 다양한 대표적 실시예가 개시되었지만, 본 발명의 진정한 범위로부터 벗어남이 없이 본 발명의 이점 중 일부를 달성할 다양한 변경 및 수정이 이루어질 수 있음은 당업자에게 명백한 것이다.

Claims (20)

  1. 자동 음성 인식(automatic speech recognition: ASR)을 위해 적응된 모바일 디바이스로서,
    사용자로부터 미지의 음성 입력 신호를 수신하기 위한 음성 입력부;
    a. 원격 ASR 프로세싱 조건이 충족되는지를 결정하고,
    b. 상기 음성 입력 신호를 복수의 다른 음성 표현 유형 중 선택된 하나로 변환하고, 그리고
    c. 변환된 상기 음성 입력 신호를 원격 ASR 프로세싱을 위해 원격 서버에 보내기 위한 로컬 컨트롤러; 및
    상기 원격 서버로부터 수신된 어떠한 음성 인식 결과라도 프로세싱하는 것을 포함하여 음성 입력의 로컬 ASR 프로세싱을 수행하기 위한 로컬 ASR 배열을 포함하는 모바일 디바이스.
  2. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 입력 신호를 변환하고 변환된 상기 음성 입력 신호를 상기 원격 ASR 프로세싱 조건이 충족되는지의 여부와 무관하게 보내는 것인 모바일 디바이스.
  3. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 입력 신호를 변환하고 변환된 상기 음성 입력 신호를 상기 원격 ASR 프로세싱 조건이 충족되는 경우에만 보내는 것인 모바일 디바이스.
  4. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 컨트롤러가 상기 원격 ASR 조건이 충족되지 않는다고 결정하면 상기 음성 입력 신호를 변환하는 것 및 변환된 상기 음성 입력 신호를 보내는 것을 유예하는 것인 모바일 디바이스.
  5. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되더라도, 상기 로컬 ASR 배열은 상기 로컬 ASR 프로세싱을 계속하는 것인 모바일 디바이스.
  6. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되면, 로컬 ASR 배열 프로세스는 상기 원격 서버로부터 수신된 음성 인식 결과를 프로세싱하는 것을 제외하고는 상기 로컬 ASR 프로세싱을 유예하는 것인 모바일 디바이스.
  7. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 ASR 배열이 상기 로컬 ASR 프로세싱을 수행하고 있는 동안 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것인 모바일 디바이스.
  8. 제7항에 있어서, 상기 로컬 컨트롤러가 상기 원격 ASR 프로세싱 조건이 충족된다고 결정한 후에, 상기 로컬 컨트롤러는 변환된 상기 음성 신호를 상기 음성 입력 신호의 시초로부터 시작하여 상기 원격 서버에 보내기 시작하는 것인 모바일 디바이스.
  9. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 로컬 ASR 배열이 인식 결과를 산출한 후에 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것인 모바일 디바이스.
  10. 제1항에 있어서, 상기 로컬 컨트롤러는 상기 음성 표현 유형의 여러 다른 대역폭 특성에 기반하여 상기 음성 표현 유형 중 하나를 선택하는 것인 모바일 디바이스.
  11. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 음성 입력 신호의 상기 로컬 ASR 프로세싱과 연관된 인식 신뢰도의 함수인 것인 모바일 디바이스.
  12. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 모바일 디바이스와 상기 원격 서버 간 접속 조건의 함수인 것인 모바일 디바이스.
  13. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 상기 원격 ASR 프로세싱과 연관된 예상된 정확도 이득의 함수인 것인 모바일 디바이스.
  14. 제13항에 있어서, 상기 예상된 정확도 이득은 애플리케이션 상태 및 대화 문맥 중 하나 또는 양자를 반영하는 메타데이터 함수에 기반하는 것인 모바일 디바이스.
  15. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 로컬 ASR 프로세싱 레이턴시 특성 및 원격 ASR 프로세싱 레이턴시 특성 중 하나 또는 양자의 함수인 것인 모바일 디바이스.
  16. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건은 인식 비용 특성의 함수인 것인 모바일 디바이스.
  17. 제1항에 있어서, 상기 복수의 다른 음성 인식 유형은 ASR 피처 벡터, 손실 있는 압축된 음성, 손실 없는 압축된 음성 및 압축되지 않은 음성 중 하나 이상을 포함하는 것인 모바일 디바이스.
  18. 제1항에 있어서, 상기 원격 ASR 프로세싱 조건이 충족되는지를 결정하는 것은 시간에 걸친 음성 인식 연산에 기반하는 적응 프로세스를 반영하는 것인 모바일 디바이스.
  19. 제18항에 있어서, 상기 적응 프로세스는 자동 무감독 적응 프로세스인 것인 모바일 디바이스.
  20. 제1항에 있어서, 상기 원격 서버로부터의 상기 인식 결과는 포맷 없는 인식 텍스트, 포맷 있는 인식 텍스트 및 시맨틱 해석(semantic interpretation) 중 하나 이상을 포함하는 것인 모바일 디바이스.
KR1020157009221A 2012-10-04 2012-10-04 Asr을 위한 개선된 하이브리드 컨트롤러 KR20150063423A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/058613 WO2014055076A1 (en) 2012-10-04 2012-10-04 Improved hybrid controller for asr

Publications (1)

Publication Number Publication Date
KR20150063423A true KR20150063423A (ko) 2015-06-09

Family

ID=47018584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157009221A KR20150063423A (ko) 2012-10-04 2012-10-04 Asr을 위한 개선된 하이브리드 컨트롤러

Country Status (5)

Country Link
US (1) US9886944B2 (ko)
EP (1) EP2904608B1 (ko)
KR (1) KR20150063423A (ko)
CN (1) CN104769668B (ko)
WO (1) WO2014055076A1 (ko)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
KR102112742B1 (ko) 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
US20190312973A1 (en) * 2014-02-28 2019-10-10 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) * 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
EP3323126A4 (en) * 2015-07-17 2019-03-20 Nuance Communications, Inc. REDUCED LATENCY SPEECH RECOGNITION SYSTEM USING MULTIPLE RECOGNITION DEVICES
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10204623B2 (en) 2017-01-20 2019-02-12 Essential Products, Inc. Privacy control in a connected environment
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
CN107134279B (zh) 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107564517A (zh) 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
CN107704275B (zh) * 2017-09-04 2021-07-23 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
US10777203B1 (en) * 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11373645B1 (en) * 2018-06-18 2022-06-28 Amazon Technologies, Inc. Updating personalized data on a speech interface device
EP3613037B1 (en) * 2018-06-27 2020-10-21 Google LLC Rendering responses to a spoken utterance of a user utilizing a local text-response map
WO2020096218A1 (en) * 2018-11-05 2020-05-14 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
KR20210066651A (ko) * 2019-11-28 2021-06-07 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
CA3143944A1 (en) * 2019-12-10 2021-06-17 Rovi Guides, Inc. Systems and methods for local automated speech-to-text processing
CN111477225B (zh) * 2020-03-26 2021-04-30 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
US20230215438A1 (en) * 2020-05-27 2023-07-06 Google Llc Compensating for hardware disparities when determining whether to offload assistant-related processing tasks from certain client devices
CN111833880A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 语音对话方法及系统
WO2022072801A2 (en) * 2020-10-02 2022-04-07 Google Llc Systems and methods for training dual-mode machine-learned speech recognition models

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630066B2 (ja) 1983-10-24 1994-04-20 株式会社日立製作所 テーブル型言語翻訳方法
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5148471A (en) 1989-11-20 1992-09-15 Motorola, Inc. Communications device with voice recognition and movable element control interface
JPH05304567A (ja) 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
EP0542628B1 (en) 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
US5297183A (en) 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
EP0607615B1 (en) 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
GB2280820A (en) 1993-07-29 1995-02-08 Ibm Distributed system for call processing
US5544228A (en) 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US6594628B1 (en) 1995-09-21 2003-07-15 Qualcomm, Incorporated Distributed voice recognition system
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5594789A (en) 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
JPH0998221A (ja) 1995-09-29 1997-04-08 Hitachi Ltd 情報サービス窓口システム
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5943648A (en) 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
CA2257129A1 (en) 1996-06-03 1997-12-11 Worldvoice Inc. Telephonic voice message store and forward method having network address and voice authentication
US6094680A (en) 1996-06-27 2000-07-25 Microsoft Corporation System and method for managing distributed resources on networks
US6832380B1 (en) 1996-06-28 2004-12-14 Tarantella, Inc. Client-server application partitioning with metering technique for distributed computing
US5855003A (en) 1996-10-11 1998-12-29 Motorola, Inc. Method and apparatus for establishing a link in a wireless communication system
US5774857A (en) 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JPH10228431A (ja) 1996-12-11 1998-08-25 Nippon Telegr & Teleph Corp <Ntt> 電話またはインターネットホンとwwwブラウザを利用した対話型通信方法、通信装置及び記録媒体
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6188985B1 (en) 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US6456974B1 (en) 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JPH10214258A (ja) 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
GB9705371D0 (en) 1997-03-14 1997-04-30 British Telecomm Control of data transfer and distributed data processing
JP3556425B2 (ja) 1997-03-18 2004-08-18 株式会社東芝 共有辞書更新方法および辞書サーバ
US6173259B1 (en) 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6856960B1 (en) 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
GB2325112B (en) 1997-05-06 2002-07-31 Ibm Voice processing system
US5953700A (en) 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JP4267081B2 (ja) 1997-10-20 2009-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分散システムにおけるパターン認識登録
EP0954855B1 (en) 1997-11-14 2003-05-21 Koninklijke Philips Electronics N.V. Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity
US6119087A (en) 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6195641B1 (en) 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6912588B1 (en) 1998-04-02 2005-06-28 Intel Corporation System and method for managing client requests in client-server networks
IL142363A0 (en) 1998-10-02 2002-03-10 Ibm System and method for providing network coordinated conversational services
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000058942A2 (en) 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6434523B1 (en) 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically
US6604075B1 (en) 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US6374226B1 (en) 1999-08-06 2002-04-16 Sun Microsystems, Inc. System and method for interfacing speech recognition grammars to individual components of a computer program
US6453290B1 (en) 1999-10-04 2002-09-17 Globalenglish Corporation Method and system for network-based speech recognition
US6963759B1 (en) 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7024363B1 (en) 1999-12-14 2006-04-04 International Business Machines Corporation Methods and apparatus for contingent transfer and execution of spoken language interfaces
US6424945B1 (en) 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6560590B1 (en) 2000-02-14 2003-05-06 Kana Software, Inc. Method and apparatus for multiple tiered matching of natural language queries to positions in a text corpus
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US7389234B2 (en) 2000-07-20 2008-06-17 Microsoft Corporation Method and apparatus utilizing speech grammar rules written in a markup language
JP3581648B2 (ja) 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US6772123B2 (en) 2000-11-30 2004-08-03 3Com Corporation Method and system for performing speech recognition for an internet appliance using a remotely located speech recognition application
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
EP1215659A1 (en) 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
US20020091515A1 (en) 2001-01-05 2002-07-11 Harinath Garudadri System and method for voice recognition in a distributed voice recognition system
US20020091527A1 (en) 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US20030004720A1 (en) 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6738743B2 (en) 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
US7058643B2 (en) 2002-05-22 2006-06-06 Agilent Technologies, Inc. System, tools and methods to facilitate identification and organization of new information based on context of user's existing information
US6760705B2 (en) 2001-05-31 2004-07-06 Motorola, Inc. Virtual speech interface system and method of using same
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
GB2383459B (en) 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7013275B2 (en) 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US6898567B2 (en) 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7058890B2 (en) 2002-02-13 2006-06-06 Siebel Systems, Inc. Method and system for enabling connectivity to a data system
JP2003295893A (ja) 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US7003457B2 (en) 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
FR2853127A1 (fr) * 2003-03-25 2004-10-01 France Telecom Systeme de reconnaissance de parole distribuee
US6983244B2 (en) 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
US20080133124A1 (en) * 2004-07-17 2008-06-05 Shahriar Sarkeshik Location Codes for Destination Routing
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060149551A1 (en) 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US20070286099A1 (en) 2005-05-13 2007-12-13 Core Mobility User Interface Elements for Mobile Device Feature Discovery and Backup Status
GB0513820D0 (en) 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
KR20080095886A (ko) 2006-01-20 2008-10-29 컨버세이셔널 컴퓨팅 코포레이션 웨어러블 디스플레이 인터페이스 클라이언트
US20070276651A1 (en) 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US20080126490A1 (en) 2006-11-29 2008-05-29 Motorola, Inc. Method and apparatus for presenting information concerning a set of incoming communications
US20080154612A1 (en) 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US20080154870A1 (en) 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20110054899A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110060587A1 (en) 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US8892439B2 (en) 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US20120030712A1 (en) 2010-08-02 2012-02-02 At&T Intellectual Property I, L.P. Network-integrated remote control with voice activation
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition

Also Published As

Publication number Publication date
EP2904608B1 (en) 2017-05-03
CN104769668A (zh) 2015-07-08
US9886944B2 (en) 2018-02-06
WO2014055076A1 (en) 2014-04-10
EP2904608A1 (en) 2015-08-12
US20150279352A1 (en) 2015-10-01
CN104769668B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
KR20150063423A (ko) Asr을 위한 개선된 하이브리드 컨트롤러
US20210304759A1 (en) Automatic speech recognition with filler model processing
US9514747B1 (en) Reducing speech recognition latency
US9818407B1 (en) Distributed endpointing for speech recognition
US7392188B2 (en) System and method enabling acoustic barge-in
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
EP2538404B1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
JP2018523156A (ja) 言語モデルスピーチエンドポインティング
EP2388778A1 (en) Speech recognition
EP3092639B1 (en) A methodology for enhanced voice search experience
KR20060022156A (ko) 분산 음성 인식 시스템 및 그 방법
US9679560B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
US20160358601A1 (en) Rapid speech recognition adaptation using acoustic input
JP2002524777A (ja) ボイス・ダイアリング方法およびシステム
US11727926B1 (en) Systems and methods for noise reduction
US20050276235A1 (en) Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission
JPH08110792A (ja) 話者適応化装置及び音声認識装置
KR102364935B1 (ko) 5g 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치
US11967318B2 (en) Method and system for performing speech recognition in an electronic device
WO2008001991A1 (en) Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding
KR20240049592A (ko) Stft-기반 에코 뮤터

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid