KR20050007429A - 이동 장치의 음성 인식 개선 - Google Patents
이동 장치의 음성 인식 개선 Download PDFInfo
- Publication number
- KR20050007429A KR20050007429A KR10-2004-7020621A KR20047020621A KR20050007429A KR 20050007429 A KR20050007429 A KR 20050007429A KR 20047020621 A KR20047020621 A KR 20047020621A KR 20050007429 A KR20050007429 A KR 20050007429A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- processor
- location
- obtaining
- enable
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72457—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Abstract
이동형 프로세서-기반 장치들(14)에서의 음성 인식을 위치 정보를 사용함으로써 개선할 수 있다. 위치 정보는 온-보드(on-board) 하드웨어(26)로부터 또는 원격으로 제공된 정보로부터 얻을 수 있다. 위치 정보는 음성 인식을 개선하는데 있어서 다양한 방법으로 도움이 될 수 있다. 예를 들면, 잔향 및 노이즈 특성을 포함하는 로컬 주변 조건들에 적응시키는 기능을, 위치 정보에 의해 강화시킬 수 있다. 일부 실시예에서는, 미리 개발된 모델들 또는 문맥 정보가 소정의 위치에 대해 원격 서버(12)로부터 제공될 수 있다.
Description
이동 프로세서-기반의 시스템들은, 몇개를 언급하면, 휴대형 장치들, 개인 휴대 단말기(personal digital assistants), 디지탈 카메라, 랩탑 컴퓨터, 데이터 입력 장치, 데이터 수집 장치, 원격 제어 유닛, 보이스 레코더, 및 셀룰러 전화기와 같은 장치들을 포함한다. 이 장치들 중 대부분은 음성 인식 기능을 포함할 수 있다.
음성 인식을 이용하여, 사용자는 텍스트로 변환될 수 있는 단어들을 말할 수 있다. 다른 예로서, 구두의 단어들(spoken words)은 프로세서 기반 시스템의 기능들을 선택하고 동작할 수 있게 하는 커맨드들로서 수신될 수 있다.
다수의 경우에, 음성을 인식하거나 화자(speaker)를 식별하는 소정 장치의 성능은 비교적 제한되어 있다. 다양한 주변 조건들은 음성 인식의 품질 또는 화자 식별에 나쁜 영향을 미칠 수 있다. 주변 조건들은 예측불가능하게 변화할 수 있기 때문에, 주변의 영향을 제거하는 것은 이동형 음성 인식 플랫폼에 있어서 무척 어렵다.
따라서, 이동형 프로세서 기반 시스템들에서의 음성 인식을 가능하게 하기 위한 보다 양호한 방법들에 대한 필요성이 있다.
본 발명은 일반적으로 음성 인식 기능들을 포함하는 이동형 프로세서 기반 시스템에 관한 것이다.
도 1은 본 발명의 일 실시예의 개략도;
도 2는 본 발명의 일 실시예에 따라 도 1에 도시된 실시예에 유용한 흐름도; 및
도 3은 본 발명의 일 실시예에 따라 도 1에 도시된 실시예에 유용한 흐름도.
도 1을 참조하면, 음성 가능 이동형 프로세서 기반 시스템(14)은 일반적으로 배터리 전력을 사용하는 다양한 이동형 프로세서 기반 시스템들 중 임의의 하나일 수 있다. 그러한 장치들 중의 예는, 몇개를 언급하면, 랩탑 컴퓨터, 개인 휴대 단말기, 셀룰러 전화기, 디지탈 카메라, 데이터 입력 장치, 데이터 수집 장치, 어플라이언스, 및 보이스 레코더를 포함한다.
장치(14) 내에 위치 검출 기능을 채용하는 것에 의해, 구두의 단어들을 인식하는 기능은 다양한 환경들 또는 주변 조건들에서 개선될 수 있다. 따라서, 장치(14)는 위치 검출 또는 LBS(location-based services) 클라이언트(26)를 포함할 수 있다. 위치 검출은, 전역 위치확인 위성, 핫-스폿 검출(hot-spot detection), 셀 검출, 무선 삼각측량, 또는 그외의 기술들과 같은 다양한 기술들을 사용하여 달성될 수 있다.
위치의 다양한 양상들을 사용하여 음성 인식을 개선시킬 수 있다. 시스템(14)의 물리적인 위치는 주변 공간의 음향 특성에 대한 정보를 제공할 수 있다. 그 특성들은 방의 크기, 환기 닥트 또는 외부 창문들 등과 같은 노이즈 소스, 및 잔향 특성들을 포함할 수 있다.
이 데이터는 LBS(location-based services) 서버(12)와 같은 네트워크 인프라스트럭쳐(infrastructure)에 저장될 수 있다. 종종 방문되는 위치들에 대해서는, 시스템(14)의 데이타 저장소(28) 자체에 특성들이 저장될 수 있다. 서버(12)는 본 발명의 일 실시예에서 무선 네트워크(18)를 통해 시스템(14)에 연결될 수 있다.
음성 인식을 개선시키는데 영향을 줄 수 있는 위치의 그외의 양상들은 필적하는 시스템(14)을 사용하고 있는 근처의 화자들의 물리적인 위치를 포함한다. 이 화자들은 잠재적인 간섭원들일 수 있으며 시스템(14)의 사용자에 대한 그들의 근접 정도에 기초하여 식별될 수 있다. 또한, 필적하는 시스템(14)을 지니고 있는 가까운 사람들의 아이덴티티(identity)는 그들의 프레즌스 정보(presence information)를 신청하여 받는(subscribing) 것에 의해, 혹은 애드 혹 디스커버리 피어(ad hoc discovery peers)에 의해 유추될 수 있다. 또한, 시스템(14)의 방위를 결정할 수 있으며, 이로 인해 음성 인식을 개선하기 위한 유용한 정보를 제공할 수 있다.
시스템(14)은, 위치 검출/LBS 클라이언트(26)에 연결되어 있는 음성 문맥 관리기(24), 음성 인식기(22), 및 노이즈 완화 음성 전처리기(20)를 포함한다.
시스템(14)에 의해 음성 인식이 시도될 때에, 음성 문맥 관리기(24)는 본 발명의 일 실시예에 따라 서버(12)로부터 현재의 문맥을 검색한다. 주변 공간의 크기에 기초하여, 문맥 관리기(24)는 잔향을 밝혀내기 위해 인식기(22)의 음향 모델을 조정한다.
이러한 조정은, 알려진 타깃에 대한 MLLR(maximum likelihood linear regression)과 같은 모델 적응의 사용을 포함하는 다양한 방법으로 수행될 수 있다. 타깃 변환은 그 위치에서의 이전의 조우(encounter)에서 추정될 수 있었거나, 혹은 그 공간과 관련된 잔향 시간으로부터 유추될 수 있다. 또한, 사용자가 통상적으로 직면하는 다양한 음향 공간들과 매치하는 이전에 트레이닝된 음향 모델들의 세트로부터 선택함으로써 조정을 행할 수 있다.
다른 대안으로서, 문맥 관리기(24)는 음향 공간의 크기에 기초하여 잔향을 견디는 노이즈 감소 알고리즘들 및 특징 추출 중에서 선택할 수 있다. 음향 모델은 선택된 전단(front-end) 노이즈 감소 및 특징 추출에 매칭되도록 변경될 수도 있다. 모델들은, 이용가능하다면, 각 개인에 대한 화자 의존형 음향 모델들을 검색하고 로딩하면서, 근처의 사람들의 아이덴티티에 기초하여 적응될 수도 있다. 그러한 모델들은 본 발명의 일 실시예에서의 앞부분에서 논의된 자동 트랜스크립션(transcription)에 이용될 수 있다.
조정을 행할 수 있는 다른 방법은, 음향 공간을 이전에 마주치지 않았다면 새로운 음향 모델을 초기화하고 적응시킴으로써 행해질 수 있다. 일단 위치를 적절히 모델링하면, 시스템(14)은 그 정보를 서버(12)로 전송하여 동일한 위치에 대한 미래의 방문자를 위해 원격 데이터 저장소(16)에 저장할 수 있다.
적응의 다른 예로서, 근처의 화자들의 아이덴티티에 기초하여, 시스템(14)은, 사용자가 그들을 트랜스크립션 소스로서 식별하는 것을 도울 수 있다. 트랜스크립션 소스는 음성이 표기되어야만 하는 어떤사람이다. 사용자 근처의 잠재적인 소스들의 리스트를 사용자에게 제공할 수 있다. 사용자는 일 실시예에서 리스트로부터 원하는 트랜스크립션 소스들을 선택할 수 있다.
또 다른 예로서, 시스템(14)의 방위, 근접한 사람들의 위치, 및 트랜스크립션 소스로서의 그들의 지정에 기초하여, 전처리기(20)에 의해 제어되는 마이크로폰 어레이는 트랜스크립션 소스가 아닌 가장 가까운 사람들의 방향으로 널(null)을 배치하도록 구성될 수 있다. 그 방향은 매우 정확하지 않을 수 있으며 급격한 변화가 생길 수 있기 때문에, 이 방법은 마이크로폰 어레이를 통해 추적하는 간섭원(interferer)을 대신할 수 없다. 그러나, 그것은, 간섭원이 말하고 있지 않을 때 널을 배치하는 메카니즘을 제공함으로써, 간섭원 화자가 말하기 시작할 때의 성능을 현저하게 개선시킬 수 있다.
도 2를 참조하면, 본 발명의 일 실시예에 따라, 음성 문맥 관리기(24)는 프로세서, 및 이 프로세서에서 실행되어질 명령어들을 저장하기 위한 저장장치 둘다를 포함하는 프로세서 기반 장치일 수 있다. 따라서, 음성 문맥 관리기(24)는 소프트웨어 또는 하드웨어일 수 있다. 처음에는, 음성 문맥 관리기(24)는 블럭(30)에 나타난 바와 같이, 서버(12)로부터 현재의 문맥을 검색한다. 그 다음에 문맥 관리기(24)는, 블럭(32)에 나타난 바와 같이, 장치(14)에 근접한 주변 공간의 크기를 결정할 수 있다. 장치(14)는, 블럭(34)에 나타낸 바와 같이, 로컬 잔향을 밝혀내기 위해 인식기의 음향 모델을 조정할 수 있다.
그 다음에 블럭(36)에 나타낸 바와 같이, 로컬 환경의 이해에 기초하여 특징 추출 및 노이즈 감소 알고리즘들을 선택할 수 있다. 또한, 블럭(38)에 나타낸 바와 같이, 근처의 화자들에 대한 화자-의존형 음향 모델들을 검색하고 로딩할 수 있다. 이 모델들은 일 실시예에서는 서버(12)로부터 검색될 수 있다.
블럭(40)에 나타낸 바와 같이, 위치 검출/LBS 클라이언트(26)에 의해 검출된 시스템(14)의 위치에 기초하여 새로운 음향 모델을 개발할 수 있다. 새로운 모델은 위치 좌표에 링크되어 있으며, 블럭(42)에 나타낸 바와 같이, 잠재적인 미래의 사용을 위해 무선 네트워크(18)를 통해 서버(12)로 전송될 수 있다. 일부 실시예에서는, 모델은 서버(12)로부터 이용될 수 있으며, 그외의 상황들에서, 그 모델들은 시스템(14)에 의해, 그 자체로 또는 즉각적인 동적 사용을 위해 서버(12)와 협력하여 개발될 수 있다.
블럭(44)에 나타난 바와 같이, 음성을 인식해야만 하는 임의의 화자들이 식별된다. 블럭(46)에 나타낸 바와 같이, 마이크로폰 어레이 전처리기(20)를 구성할 수 있다. 그 다음에, 블럭(48)에 나타낸 바와 같이, 위치 정보의 이점을 획득한 음성 인식을 구현할 수 있다.
도 3을 참조하면, LBS 서버(12)는 본 발명의 일 실시예에 따라 소프트웨어(50)를 통해 구현될 수 있다. 소프트웨어(50)는 서버(12) 상의 적절한 저장장치에 저장될 수 있다. 처음에, 서버(12)는, 다이아몬드(52)에서 판단되는 것처럼, 시스템(14)으로부터 문맥 정보에 대한 요청을 수신한다. 일단 수신되면, 서버(12)는,블럭(54)에 나타난 바와 같이, 시스템(14)으로부터 위치 정보를 획득한다. 그 다음에 블럭 56에 나타난 바와 같이, 위치 정보를 데이타 저장장치(16) 내의 이용가능한 모델과 상관시킬 수 있다. 적절한 모델이 식별되면, 블럭(58)에 나타난 바와 같이, 무선 네트워크를 통해 문맥을 장치(14)로 전송할 수 있다.
본 발명이 제한된 수의 실시예들에 대해 기술되었지만, 당업자들은 그로부터의 다수의 수정 및 변경들을 이해할 것이다. 첨부되는 청구항들은 본 발명의 진정한 사상 및 범주 내에 포함되는 그러한 모든 수정 및 변경들을 포함하는 것을 의도한다.
Claims (30)
- 이동 장치의 위치에 대한 정보를 획득하는 단계; 및상기 위치 정보를 사용하여 음성 인식을 제공하는 단계를 포함하는 방법.
- 제1항에 있어서,음성 인식을 개선하는데 사용하기 위해 특정 위치에 링크된 음향 모델을 획득하는 단계를 포함하는 방법.
- 제2항에 있어서,원격 서버로부터 무선 네트워크를 통해 상기 모델을 수신하는 단계를 포함하는 방법.
- 제2항에 있어서,로컬 특성들에 기초하여 상기 음향 모델을 맞추어 만드는(tailoring) 단계를 포함하는 방법.
- 제4항에 있어서,상기 모델을 위치 좌표와 함께 원격 서버로 전송하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 정보를 획득하는 단계는 주변 공간의 크기에 대한 정보를 획득하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 정보를 획득하는 단계는 잔향(reverberation)을 밝혀내기 위해 음향 모델을 조정하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 정보를 획득하는 단계는 특징 추출 또는 노이즈 감소 알고리즘들을 선택하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 정보를 획득하는 단계는 가까운 화자(speaker)들에 대한 정보를 획득하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 정보를 획득하는 단계는 상기 주변 공간의 크기에 대한 정보를 획득하는 단계, 잔향에 대한 정보를 획득하는 단계, 노이즈 감소 알고리즘들을 선택하는단계, 및 근처의 화자들에 대한 정보를 획득하는 단계를 포함하여 상기 현재 위치에 대한 새로운 음향 모델을 개발하는 방법.
- 제1항에 있어서,음성이 인식되지 않는 근처의 화자들의 위치에 기초하여 마이크로폰 어레이를 구성하는 단계를 포함하는 방법.
- 실행될 때에, 프로세서-기반의 시스템이,이동 장치의 위치에 대한 정보를 획득하는 단계; 및상기 위치 정보를 사용하여 음성 인식을 제공하는 단계를 수행할 수 있게 하는 명령어들을 저장하는 매체를 포함하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 음성 인식을 개선시키는데 사용하기 위해 특정 위치에 링크된 음향 모델을 획득하는 단계를 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제13항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 원격 서버로부터 무선 네트워크를 통해 상기 모델을 수신하는 단계를 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제13항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 로컬 특성들에 기초하여 상기 음향 모델을 맞추어 만드는 단계를 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제15항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 모델을 위치 좌표와 함께 원격 서버로 전송하는 단계를 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 정보를 획득하는 단계가, 주변 공간의 크기에 대한 정보를 획득하는 단계를 포함하여 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 정보를 획득하는 단계가, 잔향을 밝혀내기 위해 음향 모델을 조정하는 단계를 포함하여 수행할 수 있게 하는명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 정보를 획득하는 단계가, 특징 추출 또는 노이즈 감소 알고리즘들을 선택하는 단계를 포함하여 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 정보를 획득하는 단계가, 가까운 화자들에 대한 정보를 획득하는 단계를 포함하여 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 상기 정보를 획득하는 단계가, 상기 현재 위치에 대한 새로운 음향 모델을 개발하기 위해, 상기 주변 공간의 크기에 대한 정보를 획득하는 단계, 잔향에 대한 정보를 획득하는 단계, 노이즈 감소 알고리즘들을 선택하는 단계, 및 근처의 화자들에 대한 정보를 획득하는 단계를 포함하여 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 제12항에 있어서,실행될 때에, 상기 프로세서 기반 시스템이, 음성이 인식되지 않는 근처의 화자들의 위치에 기초하여 마이크로폰의 어레이를 구성하는 단계를 수행할 수 있게 하는 명령어들을 더 저장하는 제조물.
- 프로세서;상기 프로세서에 연결된 위치 결정 장치; 및상기 프로세서에 연결되어 있으며, 상기 프로세서가 위치 정보를 사용하여 음성 인식을 제공할 수 있게 하는 명령어들을 저장하는 저장장치를 포함하는 시스템.
- 제23항에 있어서,상기 위치 결정 장치는 전역 위치확인 위성 장치(global positioning satellite device)인 시스템.
- 제23항에 있어서,상기 저장장치는, 음성 인식을 개선하는데 사용하기 위해 특정 위치에 링크된 음향 모델을 상기 프로세서가 획득할 수 있게 하는 명령어들을 저장하는 시스템.
- 제25항에 있어서,상기 저장장치는 원격 서버로부터 무선 네트워크를 통해 모델을 수신하는 명령어들을 저장하는 시스템.
- 제24항에 있어서,상기 시스템은 특정 위치에 대한 음향 모델을 자동적으로 맞추어 만들고, 그 모델을 위치 좌표와 함께 원격 서버로 전송하는 시스템.
- 제23항에 있어서,상기 시스템은, 상기 시스템을 둘러싼 공간의 크기에 대한 정보를 자동적으로 획득하는 시스템.
- 제23항에 있어서,상기 시스템은 가까운 화자들에 대한 정보를 자동적으로 획득하는 시스템.
- 제29항에 있어서,상기 시스템은 마이크로폰 어레이를 포함하고, 상기 가까운 화자들의 위치에 기초하여 상기 마이크로폰 어레이를 자동적으로 구성하는 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/176,326 US7224981B2 (en) | 2002-06-20 | 2002-06-20 | Speech recognition of mobile devices |
US10/176,326 | 2002-06-20 | ||
PCT/US2003/018408 WO2004001719A1 (en) | 2002-06-20 | 2003-06-10 | Improving speech recognition of mobile devices |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077009365A Division KR20070065893A (ko) | 2002-06-20 | 2003-06-10 | 이동 장치의 음성 인식 개선 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050007429A true KR20050007429A (ko) | 2005-01-17 |
KR100830251B1 KR100830251B1 (ko) | 2008-05-16 |
Family
ID=29734126
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077009365A KR20070065893A (ko) | 2002-06-20 | 2003-06-10 | 이동 장치의 음성 인식 개선 |
KR1020047020621A KR100830251B1 (ko) | 2002-06-20 | 2003-06-10 | 이동 장치의 음성 인식 개선 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077009365A KR20070065893A (ko) | 2002-06-20 | 2003-06-10 | 이동 장치의 음성 인식 개선 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7224981B2 (ko) |
EP (1) | EP1514259B1 (ko) |
KR (2) | KR20070065893A (ko) |
CN (1) | CN1692407B (ko) |
AT (1) | ATE465485T1 (ko) |
AU (1) | AU2003245443A1 (ko) |
DE (1) | DE60332236D1 (ko) |
TW (1) | TWI229984B (ko) |
WO (1) | WO2004001719A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004038548A2 (en) * | 2002-10-21 | 2004-05-06 | Sinisi John P | System and method for mobile data collection |
GB2409560B (en) * | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060074660A1 (en) | 2004-09-29 | 2006-04-06 | France Telecom | Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words |
US7522065B2 (en) * | 2004-10-15 | 2009-04-21 | Microsoft Corporation | Method and apparatus for proximity sensing in a portable electronic device |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
US7440894B2 (en) * | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
US20070041589A1 (en) * | 2005-08-17 | 2007-02-22 | Gennum Corporation | System and method for providing environmental specific noise reduction algorithms |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US8345832B2 (en) * | 2009-01-09 | 2013-01-01 | Microsoft Corporation | Enhanced voicemail usage through automatic voicemail preview |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8359020B2 (en) | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
KR101165537B1 (ko) * | 2010-10-27 | 2012-07-16 | 삼성에스디에스 주식회사 | 사용자 장치 및 그의 사용자의 상황 인지 방법 |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
EP2691870A4 (en) * | 2011-03-31 | 2015-05-20 | Microsoft Technology Licensing Llc | USER INTENTIONS ORIENTED ON TASKS |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US8811638B2 (en) * | 2011-12-01 | 2014-08-19 | Elwha Llc | Audible assistance |
US9245254B2 (en) | 2011-12-01 | 2016-01-26 | Elwha Llc | Enhanced voice conferencing with history, language translation and identification |
US8934652B2 (en) | 2011-12-01 | 2015-01-13 | Elwha Llc | Visual presentation of speaker-related information |
US9064152B2 (en) | 2011-12-01 | 2015-06-23 | Elwha Llc | Vehicular threat detection based on image analysis |
US9053096B2 (en) | 2011-12-01 | 2015-06-09 | Elwha Llc | Language translation based on speaker-related information |
US9368028B2 (en) | 2011-12-01 | 2016-06-14 | Microsoft Technology Licensing, Llc | Determining threats based on information from road-based devices in a transportation-related context |
US10875525B2 (en) | 2011-12-01 | 2020-12-29 | Microsoft Technology Licensing Llc | Ability enhancement |
US9159236B2 (en) | 2011-12-01 | 2015-10-13 | Elwha Llc | Presentation of shared threat information in a transportation-related context |
US9107012B2 (en) | 2011-12-01 | 2015-08-11 | Elwha Llc | Vehicular threat detection based on audio signals |
JP2015506491A (ja) * | 2011-12-29 | 2015-03-02 | インテル・コーポレーション | 音響信号の修正 |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US9953638B2 (en) * | 2012-06-28 | 2018-04-24 | Nuance Communications, Inc. | Meta-data inputs to front end processing for automatic speech recognition |
US8831957B2 (en) | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9401749B2 (en) | 2013-03-08 | 2016-07-26 | Google Technology Holdings LLC | Method for codebook enhancement for multi-user multiple-input multiple-output systems |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9185199B2 (en) * | 2013-03-12 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for acoustically characterizing an environment in which an electronic device resides |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
CN103258533B (zh) * | 2013-05-27 | 2015-05-13 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US9299340B2 (en) * | 2013-10-07 | 2016-03-29 | Honeywell International Inc. | System and method for correcting accent induced speech in an aircraft cockpit utilizing a dynamic speech database |
CN104575494A (zh) * | 2013-10-16 | 2015-04-29 | 中兴通讯股份有限公司 | 一种语音处理的方法和终端 |
CN104601764A (zh) * | 2013-10-31 | 2015-05-06 | 中兴通讯股份有限公司 | 移动终端的噪音处理方法、装置及系统 |
CN103632666B (zh) | 2013-11-14 | 2016-09-28 | 华为技术有限公司 | 语音识别方法、语音识别设备和电子设备 |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9801219B2 (en) | 2015-06-15 | 2017-10-24 | Microsoft Technology Licensing, Llc | Pairing of nearby devices using a synchronized cue signal |
US10044798B2 (en) | 2016-02-05 | 2018-08-07 | International Business Machines Corporation | Context-aware task offloading among multiple devices |
US10484484B2 (en) | 2016-02-05 | 2019-11-19 | International Business Machines Corporation | Context-aware task processing for multiple devices |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
KR102565274B1 (ko) | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10429817B2 (en) | 2016-12-19 | 2019-10-01 | Honeywell International Inc. | Voice control of components of a facility |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
KR102458805B1 (ko) | 2017-04-20 | 2022-10-25 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
KR102424514B1 (ko) * | 2017-12-04 | 2022-07-25 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
TWI698857B (zh) | 2018-11-21 | 2020-07-11 | 財團法人工業技術研究院 | 語音辨識系統及其方法、與電腦程式產品 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5263019A (en) * | 1991-01-04 | 1993-11-16 | Picturetel Corporation | Method and apparatus for estimating the level of acoustic feedback between a loudspeaker and microphone |
US5384856A (en) * | 1991-01-21 | 1995-01-24 | Mitsubishi Denki Kabushiki Kaisha | Acoustic system |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JP2602158B2 (ja) * | 1992-12-04 | 1997-04-23 | 株式会社エクォス・リサーチ | 音声出力装置 |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
US6978159B2 (en) * | 1996-06-19 | 2005-12-20 | Board Of Trustees Of The University Of Illinois | Binaural signal processing using multiple acoustic sensors and digital filtering |
WO1997050002A1 (en) * | 1996-06-27 | 1997-12-31 | Motorola Inc. | Location determination in a communication system |
US6072881A (en) * | 1996-07-08 | 2000-06-06 | Chiefs Voice Incorporated | Microphone noise rejection system |
US6236365B1 (en) * | 1996-09-09 | 2001-05-22 | Tracbeam, Llc | Location of a mobile station using a plurality of commercial wireless infrastructures |
US6272457B1 (en) * | 1996-09-16 | 2001-08-07 | Datria Systems, Inc. | Spatial asset management system that time-tags and combines captured speech data and captured location data using a predifed reference grammar with a semantic relationship structure |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
US5991385A (en) * | 1997-07-16 | 1999-11-23 | International Business Machines Corporation | Enhanced audio teleconferencing with sound field effect |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
JP4154015B2 (ja) * | 1997-12-10 | 2008-09-24 | キヤノン株式会社 | 情報処理装置およびその方法 |
US6125115A (en) * | 1998-02-12 | 2000-09-26 | Qsound Labs, Inc. | Teleconferencing method and apparatus with three-dimensional sound positioning |
JP3722335B2 (ja) * | 1998-02-17 | 2005-11-30 | ヤマハ株式会社 | 残響付加装置 |
US6223156B1 (en) * | 1998-04-07 | 2001-04-24 | At&T Corp. | Speech recognition of caller identifiers using location information |
US6184829B1 (en) | 1999-01-08 | 2001-02-06 | Trueposition, Inc. | Calibration for wireless location system |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
US20030060211A1 (en) * | 1999-01-26 | 2003-03-27 | Vincent Chern | Location-based information retrieval system for wireless communication device |
JP3847624B2 (ja) * | 1999-07-28 | 2006-11-22 | 三菱電機株式会社 | 携帯電話機 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6937977B2 (en) * | 1999-10-05 | 2005-08-30 | Fastmobile, Inc. | Method and apparatus for processing an input speech signal during presentation of an output audio signal |
JP4415432B2 (ja) * | 1999-10-08 | 2010-02-17 | トヨタ自動車株式会社 | 手動バルブ |
JP3376487B2 (ja) * | 1999-10-27 | 2003-02-10 | 独立行政法人産業技術総合研究所 | 言い淀み検出方法及び装置 |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
US6850766B2 (en) * | 2000-04-26 | 2005-02-01 | Wirenix, Inc. | Voice activated wireless locator service |
KR20010106799A (ko) * | 2000-05-23 | 2001-12-07 | 류정열 | 자동차용 음성 인식 장치 |
US6624922B1 (en) * | 2000-06-02 | 2003-09-23 | Northrop Grumman Corporation | Electro-optic device for adding/subtracting optical signals |
US7047196B2 (en) * | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
KR20020006357A (ko) | 2000-07-12 | 2002-01-19 | 유영욱 | 구역별 정보 제공 서비스 방법 및 시스템 |
JP4283984B2 (ja) * | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
US20020072917A1 (en) * | 2000-12-11 | 2002-06-13 | Irvin David Rand | Method and apparatus for speech recognition incorporating location information |
US20020097884A1 (en) * | 2001-01-25 | 2002-07-25 | Cairns Douglas A. | Variable noise reduction algorithm based on vehicle conditions |
US6810380B1 (en) * | 2001-03-28 | 2004-10-26 | Bellsouth Intellectual Property Corporation | Personal safety enhancement for communication devices |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US6853907B2 (en) * | 2002-03-21 | 2005-02-08 | General Motors Corporation | Method and system for communicating vehicle location information |
JPWO2003088209A1 (ja) * | 2002-04-12 | 2005-08-25 | 三菱電機株式会社 | カーナビゲーションシステム並びにその音声認識装置 |
-
2002
- 2002-06-20 US US10/176,326 patent/US7224981B2/en not_active Expired - Fee Related
-
2003
- 2003-06-06 TW TW092115381A patent/TWI229984B/zh not_active IP Right Cessation
- 2003-06-10 AU AU2003245443A patent/AU2003245443A1/en not_active Abandoned
- 2003-06-10 CN CN038141922A patent/CN1692407B/zh not_active Expired - Fee Related
- 2003-06-10 WO PCT/US2003/018408 patent/WO2004001719A1/en not_active Application Discontinuation
- 2003-06-10 AT AT03739083T patent/ATE465485T1/de not_active IP Right Cessation
- 2003-06-10 KR KR1020077009365A patent/KR20070065893A/ko not_active Application Discontinuation
- 2003-06-10 KR KR1020047020621A patent/KR100830251B1/ko not_active IP Right Cessation
- 2003-06-10 EP EP03739083A patent/EP1514259B1/en not_active Expired - Lifetime
- 2003-06-10 DE DE60332236T patent/DE60332236D1/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
Also Published As
Publication number | Publication date |
---|---|
CN1692407B (zh) | 2012-04-04 |
DE60332236D1 (de) | 2010-06-02 |
AU2003245443A1 (en) | 2004-01-06 |
US7224981B2 (en) | 2007-05-29 |
ATE465485T1 (de) | 2010-05-15 |
WO2004001719A1 (en) | 2003-12-31 |
CN1692407A (zh) | 2005-11-02 |
KR20070065893A (ko) | 2007-06-25 |
KR100830251B1 (ko) | 2008-05-16 |
EP1514259A1 (en) | 2005-03-16 |
TWI229984B (en) | 2005-03-21 |
EP1514259B1 (en) | 2010-04-21 |
TW200412730A (en) | 2004-07-16 |
US20030236099A1 (en) | 2003-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100830251B1 (ko) | 이동 장치의 음성 인식 개선 | |
CN110214351B (zh) | 记录的媒体热词触发抑制 | |
EP2880844B1 (en) | Speech recognition models based on location indicia | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
CN104394491B (zh) | 一种智能耳机、云服务器以及音量调节方法和系统 | |
JP2021520141A (ja) | マイクロフォンアレイ内のインテリジェントビームステアリング | |
JP2022526761A (ja) | 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 | |
JP6397158B1 (ja) | 協調的なオーディオ処理 | |
AU2014265782A1 (en) | Hybrid, offline/online speech translation system | |
CN104717593A (zh) | 位置学习助听器 | |
JP2018533051A (ja) | 協調的なオーディオ処理 | |
KR20150126214A (ko) | 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법 | |
US11874876B2 (en) | Electronic device and method for predicting an intention of a user | |
US20200279573A1 (en) | Speech Enhancement Method and Apparatus | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
CN110891227A (zh) | 基于环境参数控制听力装置的方法、相关的附件装置和相关的听力系统 | |
JP7314975B2 (ja) | 音声操作装置及びその制御方法 | |
TW202232362A (zh) | 基於上下文的模型選擇 | |
WO2019246314A1 (en) | Acoustic aware voice user interface | |
US9455678B2 (en) | Location and orientation based volume control | |
US20230333810A1 (en) | Electronic device having a virtual assistant for adjusting an output sound level of the electronic device based on a determined sound level of a reference sound input | |
WO2019117736A1 (en) | Device, system and method for crowd control | |
JP4380978B2 (ja) | 通信システム、通信端末装置、通信方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
A107 | Divisional application of patent | ||
AMND | Amendment | ||
E801 | Decision on dismissal of amendment | ||
B601 | Maintenance of original decision after re-examination before a trial | ||
S901 | Examination by remand of revocation | ||
GRNO | Decision to grant (after opposition) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130503 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140502 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150430 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160427 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |