KR100976643B1 - 자동 음성 인식 시스템용 적응형 콘텍스트 - Google Patents
자동 음성 인식 시스템용 적응형 콘텍스트 Download PDFInfo
- Publication number
- KR100976643B1 KR100976643B1 KR1020070100295A KR20070100295A KR100976643B1 KR 100976643 B1 KR100976643 B1 KR 100976643B1 KR 1020070100295 A KR1020070100295 A KR 1020070100295A KR 20070100295 A KR20070100295 A KR 20070100295A KR 100976643 B1 KR100976643 B1 KR 100976643B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech data
- recognized speech
- memory
- textual string
- modified
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 title description 36
- 230000015654 memory Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims description 23
- 230000002093 peripheral effect Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 235000021170 buffet Nutrition 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
음성 인식을 개선하기 위한 시스템은 음성 인식 엔진에 링크된 인터페이스를 포함한다. 상기 인터페이스에 결합된 사후-인식 프로세서는 상기 음성 인식 엔진에 의하여 생성된 인식된 음성 데이터를 메모리에 보유된 콘텍스트 정보와 비교하고, 수정 인식된 음성 데이터를 생성하고, 상기 수정 인식된 음성 데이터를 파싱 구성 요소에 전달한다.
Description
본 발명은 통신 시스템에 관한 것으로서, 보다 구체적으로는, 음성 인식을 개선하는 시스템에 관한 것이다.
일부 음성 인식 시스템은 교환을 통해 애플리케이션과 상호 작용한다. 이들 시스템은 제한된 개수의 발성된 요구 및 명령을 이해한다. 음성 패턴, 화자의 액센트 및 애플리케이션 환경은 다양하기 때문에, 일부 음성 인식 시스템은 사용자의 음성을 항상 인식하지는 못한다. 일부 시스템은 사용 전에, 사용자에게 복수의 단어 및 문장을 발음하도록 요구하여, 그 시스템을 훈련시킴으로써 에러를 최소화하고자 한다. 다른 시스템은 사용 중에, 그 시스템의 음성 모델을 적응시킨다. 요구 또는 명령이 만들어질 수 있는 방식은 다양하기 때문에, 음성 인식 시스템 개발자들은 초기 인식 문법을 생성해야만 한다.
이러한 프로그래밍에도 불구하고, 일부 시스템은 이용 가능한 콘텍스트 정보(contextual information)를 효율적으로 적응시킬 수가 없다. 따라서, 음성 인식을 개선하는 시스템에 대한 요구가 존재한다.
본 발명의 음성 인식을 개선하는 시스템은 음성 인식 엔진에 링크된 인터페이스를 포함한다. 상기 인터페이스에 결합되는 사후-인식 프로세서(post-recognition processor)는 상기 음성 인식 엔진에 의해 처리된 인식된 음성을 메모리에 보유된 콘텍스트 정보와 비교한다. 상기 사후-인식 프로세서는 수정 인식된 음성 데이터를 생성하고, 그 수정 인식된 음성 데이터를 파싱 구성요소(parsing component)에 전송한다.
본 발명의 다른 시스템, 방법, 특징 및 장점들은 이후의 도면 및 상세한 설명의 검토에 의해 당업자에게는 분명하거나 분명하게 될 것이다. 이러한 모든 부가적인 시스템, 방법, 특징 및 장점들은 본 발명의 설명 내에 포함되고, 발명의 범위 내에 있으며, 이후의 특허청구범위에 의해 보호되도록 의도된 것이다.
본 발명은 하기의 도면 및 발명의 상세한 설명을 참고하여 더욱 잘 이해될 수 있다. 도면의 구성요소는 반드시 크기에 따른 것은 아니며, 대신 발명의 원리를 설명하기 위해 강조를 하였다. 더욱이, 도면에서, 유사한 도면 부호는 대응되 는 부분을 표시한다.
적응형 사후-인식 시스템(adaptive post-recognition system)은 워드, 구(phrases) 및/또는 문장에 적응할 수 있다. 상기 시스템은 오디오 신호로부터 인식된 음성을 편집할 수 있고, 또는 인식된 음성과 관련된 인식 스코어(recognition score)를 수정할 수 있다. 일부 사후-인식 시스템은 상호 작용을 통해 실시간으로 또는 거의 실시간으로 데이터를 편집 또는 수정할 수 있다. 다른 사후-인식 시스템은 사용자 수정을 통해, 또는 사용자 수정과 사용자 상호 작용의 조합을 통해, 실시간으로 또는 거의 실시간으로 데이터를 편집 또는 수정한다. 상기 사후-인식 시스템은 화자-종속적 및/또는 화자-독립적 자동 음성 인식 시스템(SRS)과 인터페이스할 수 있다.
도 1은 적응형 자동 음성 인식 시스템(100)의 블록도이다. 적응형 자동 음성 인식 시스템(100)은 음성 인식 엔진(102), 적응형 사후-인식 시스템(104), 인터프리터(106) 및 다이얼로그 매니저(dialogue manager)(108)를 포함할 수 있다. 음성 인식 엔진(102)은 디지털 오디오 신호를 수신하고, 매칭 프로세스(matching process)를 통해, 적응형 사후-인식 시스템(104)에 의해 수신되는 인식된 음성 데이터를 생성한다. 일부 음성 인식 엔진(102)은 상기 매칭 프로세스 전에 디지털화될 수 있는 아날로그 오디오 신호를 수신할 수 있다. 일부 적응형 자동 음성 인식 시스템(100)에서, 상기 인식된 음성 데이터는 하나 이상의 텍스트형 스트 링(textual string), 각각의 텍스트형 스트링에 대한 개연성(probabilities) 또는 컨피던스(confidence) 값/레벨(예컨대, 스코어), 및/또는 내부 도는 외부 하드웨어 및/또는 소프트웨어에 의미를 전달하는 다른 데이터 필드를 포함할 수 있다. 일부 적응형 자동 음성 인식 시스템(100)은 사용자의 발성에 매칭될 것 같은 텍스트형 스트링의 n-베스트 리스트(n-best list)로서 상기 인식된 음성 데이터를 제공할 수 있는데, 상기 베스트 리스트에서 엔트리의 개수("n")는 사용자, 최초 장비 제조업자, 및/또는 애프터 마켓 공급자에 의해 컨피규어될 수 있다. 별법으로서, 일부 적응형 자동 음성 인식 시스템(100)은 하나 이상의 사용자 발성을 나타내는 워드 그래프, 워드 매트릭스 또는 워드 래티스(lattices)로서 상기 인식된 음성 데이터를 제공할 수 있다.
적응형 사후-인식 시스템(104)은 음성 인식 엔진(102)에 결합되거나 그 엔진의 유일(unitary) 부분인 하드웨어 및/또는 소프트웨어를 포함한다. 적응형 사후-인식 시스템(104)은 이용 가능한 콘텍스트 객체(contextual object)를 고려하여 상기 인식된 음성 데이터를 분석하고, 상기 인식된 음성 데이터의 일부 또는 전부를 수정할지를 결정한다. 수정이 보장되는 경우, 적응형 사후-인식 프로세서(104)는 텍스트형 스트링과 관련된 스코어, 그 텍스트형 스트링, 및/또는 다른 데이터 필드를 수정하여, 수정 인식된 음성 데이터를 생성할 수 있다.
인터프리터(106)는 상기 수정 인식된 음성 데이터를 수신하고, 그 데이터를 제2 계층의(second tier) 소프트웨어 및/또는 하드웨어에 의해 처리될 수 있는 형태로 변환한다. 일부 적응형 자동 음성 인식 시스템(100)에서, 인터프리터(106)는 파서(parser)일 수 있다. 다이얼로그 매니저(108)는 인터프리터(106)로부터 출력된 데이터를 수신할 수 있고, 그 데이터를 해석하여 제어 및/또는 입력 신호를 하나 이상의 링크된 디바이스 또는 애플리케이션에 제공할 수 있다. 또한, 다이얼로그 매니저(108)는 응답 피드백 데이터를 적응형 사후-인식 시스템(104) 및/또는 음성 인식 엔진(102)에 제공할 수 있다. 상기 응답 피드백 데이터는 외부 및/또는 내부의 휘발성 또는 비휘발성 메모리에 저장될 수 있고, 수정된 텍스트형 스트링의 억셉턴스 레벨(acceptance level)을 포함할 수 있다. 일부 적응형 자동 음성 인식 시스템(100)에서, 상기 응답 피드백은 긍정적인 억셉턴스(예컨대, yes, correct, continue, proceed 등), 부정적인 억셉턴스(예컨대, no, incorrect, stop, redo, cancel 등)를 나타내는 데이터를 포함할 수 있다.
도 2는 적응형 사후-인식 시스템(104)의 블록도이다. 적응형 사후-인식 시스템(104)은 입력 인터페이스(202), 사후-인식 프로세서(204), 메모리(206) 및 출력 인터페이스(208)를 포함할 수 있다. 상기 입력 인터페이스는 음성 인식 엔진(102)과 연결되고, 인식된 음성 데이터를 사후-인식 프로세서(204)에 보내며, 상기 프로세서는 상기 인식된 음성 데이터를 휘발성 또는 비휘발성 메모리(206)에 저장한다. 메모리(206)는 또한 엔드-유저, 개발자, 최초 장비 제조업자 및/또는 애프터 마켓 서비스 제공자에 의해 컨피규어 또는 적합하게 될 수 있는 하나 이상의 애플리케이션 룰 및/또는 콘텍스트 객체를 저장할 수 있다. 일부 적응형 사후-인식 시스템(104)에서, 콘텍스트 객체는 응답 피드백 데이터, 종종 말해지는 워드, 구 및 또는 문장(예컨대, 인식된 텍스트형 스트링 및/또는 수정 인식된 텍스트형 스트링), 스코어, 템퍼럴 데이터(temporal data)(예컨대, 데이터가 언제 관련 있게 어드레스되었나), 프리퀀시 데이터(예컨대, 얼마나 자주 데이터가 어드레스되는가), 및/또는 최신 데이터(에컨대, 데이터가 언제 마지막으로 어드레스되었는가)를 포함한다.
사후-인식 프로세서(204)는 하나 이상의 애플리케이션 룰을 상기 인식된 음성 데이터 및 하나 이상의 콘텍스트 객체에 적용할 수 있다. 적용된 애플리케이션 룰의 결과에 기초하여, 사후-인식 프로세서(204)는 수정된 인식 음성 데이터를 생성할 수 있다. 상기 수정된 인식 음성 데이터는 스코어, 수정된 스코어, 인식된 텍스트 스트링, 수정 인식된 텍스트 스트링 및/또는 내부 또는 보조 하드웨어 및/또는 소프트웨어에 의미를 전달하는 다른 데이터 필드를 포함할 수 있다. 일부 적응형 사후-인식 시스템(104)에서, 상기 수정된 인식 음성 데이터는 n-베스트 리스트로서 제공될 수 있다. 상기 수정된 인식 음성 데이터는, 인터프리터(106)와 같은 출력 인터페이스(208)에 연결되는 제2 계층의 소프트웨어 및/또는 하드웨어에 보내질 수 있다.
n-베스트 리스트로서 상기 인식된 음성 데이터를 제공하는 적응형 자동 음성 인식 시스템(100)에서, 스코어를 수정하면 텍스트형 스트링의 위치 및 그 관련된 데이터가 변경될 수 있다. 도 3은 발성된 전화 번호 "604 1234"에 응답하여, 음성 인식 엔진(102)에 의해 생성되는 n-베스트 폰 디지트 다이얼링 리스트의 예시도이다. 도 3에서, 텍스트형 스트링 "624 1234"는 92%의 컨피던스 스코어를 갖고 있고, 텍스트형 스트링 "604 1234"는 89%의 컨피던스 스코어를 갖고 있으며, 텍스트형 스트링 "634 1234"는 84%의 컨피던스 스코어를 갖고 있다. 사후-인식 프로세서(204)는 애플리케이션 룰을 텍스트형 스트링 "624 1234"에 적용할 수 있다. 상기 애플리케이션 룰은 콘텍스트 로직을 포함할 수 있다. 일부 시스템에서, 상기 애플리케이션 룰은 부정적 응답 피드백이 상기 텍스트형 스트링과 이전에 관련되었었는지, 또는 상기 텍스트형 스트링이 종종 다이얼링되는 전화 번호를 나타내는 것인지를 결정할 수 있다. 사용자가 상기 텍스트형 스트링에 대해 부정적 응답을 이전에 제공하였다면(이는 콘텍스트 객체로서 메모리에 저장되어 있다), 사후-인식 프로세서(204)는 상기 관련된 컨피던스 스코어를 네거티브 가중(negative weight)으로 수정할 수 있다. 상기 네거티브 가중은 상기 관련된 컨피던스 스코어를 미리 정해진 크기 만큼 감소시키는 것을 포함할 수 있다. 상기 관련된 컨피던스 스코어가 상기 n-베스트 리스트의 제2 베스트 리스트보다 더 큰 양만큼 감소된다면(예컨대, 도 3에 도시한 바와 같이, 3%), 텍스트형 스트링 "624 1234"은 도 3에 도시한 n-베스트 리스트 중의 제2 엔트리가 될 것이다. 추가의 애플리케이션 룰이 상기 텍스트형 스트링에 적용될 수 있고, 이는 추가의 위치 변화를 야기할 수 있다.
다른 텍스트형 스트링에 적용되는 애플리케이션 룰은 상이한 결과를 낳을 수 있다. 예컨대, 604-1234는 메모리(206)에 저장된 콘텍스트 객체를 갖고 있는 종종 다이얼링된 번호일 수 있다. 사후-인식 프로세서(204)가 애플리케이션 룰을 텍스트형 스트링 "604 1234"에 적용하면, 이것이 종종 다이얼링된 번호라는 것을 나타내는 콘텍스트 객체는 사후-인식 프로세서(204)가 상기 관련된 컨피던스 스코어를 포지티브 가중으로 수정하도록 할 수 있다. 상기 포지티브 가중은 상기 관련된 컨피던스 스코어를 미리 정해진 크기 만큼 증가시키는 것을 포함할 수 있다. 포지티브 및/또는 네거티브 가중의 값은 프리퀀시 데이터, 템퍼럴 데이터, 최근 데이터 및/또는 콘텍스트 객체 또는 콘텍스트 객체의 하위 구성요소(subcomponents)와 관련된 다른 템퍼럴 인디케이터(temporal indicators)에 기초하여, 컨피규어될 수 있다. 일부 적응형 자동 음성 인식 시스템(100)에서, 사후-인식 프로세서(204)는 상기 애플리케이션 룰이 음성 인식 데이터를 어떤 수정도 없이 패스하도록 컨피규어될 수 있다. 이들 적응형 음성 인식 시스템(100)에서, 적응형 사후-인식 시스템(104)은 패스 쓰루 로직(pass through logic)으로서 기능할 수 있다.
일부 적응형 사후-인식 시스템(104)에서, 새로운 정보를 상기 인식된 음성 데이터에 삽입하기 위하여 콘텍스트 객체가 이용될 수 있다. 예컨대, 전화 번호 765-4321가 최근에 반복적으로 다이얼링되었다면, 이러한 것을 나타내는 콘텍스트 객체가 메모리에 저장될 수 있다. 상기 인식된 음성 데이터가, 메모리에 콘텍스트 객체가 저장되어 있지 않은 제1 엔트리(예컨대, 가장 가능성 있는 결과)로서 텍스 트형 스트링 "769 4321"을 갖고 있는 n-베스트 리스트를 포함하고 있다면, 애플리케이션 룰에 의해 사후-인식 프로세서(204)는 텍스트형 스트링 "765 4321"을 상기 n-베스트 리스트에 삽입하게 된다. 새로운 데이터가 삽입되는 위치 및/또는 관련된 스코어는 수 많은 요인에 의존할 수 있다. 이들 요인으로는 프리퀀시 데이터, 템퍼럴 데이터 및/또는 추가되는 새로운 정보의 최신 데이터일 수 있다.
일부 적응형 사후-인식 시스템(104)에서, 상기 인식된 음성 데이터로부터 데이터를 제거하는 데에 콘텍스트 객체가 이용될 수 있다. 일부 음성 인식 엔진(102)은, 일시적 차량 노이즈(예컨대, 도로 범프, 바람에 의한 타격(wind buffets), 비에 의한 노이즈 등) 및/또는 배경 노이즈(예컨대, 키보드 클릭음, 음악 노이즈 증)와 같은 환경적 노이즈를 말해진 발성의 일부로서 잘못 인식할 수 있다. 이들 환경적 노이즈는 인식된 음성 데이터에 포함된 텍스트형 스트링에 원하지 않은 데이터를 추가할 수 있다. 애플리케이션 룰 및 콘텍스트 객체를 적용하면, 사후-인식 프로세서(204)는 상기 원하지 않은 데이터를 식별하고 그것을 텍스트형 스트링에서 추출함으로써, 수정 인식된 데이터를 생성할 수 있다.
사후-인식 시스템(104)에서, 메모리에 저장된 상기 애플리케이션 룰은 미리 프로그래밍되고, 사용자 상호 작용을 통해 획득 또는 수정되고, 또는 무선 또는 하드와이어 접속을 통해, 주변 기기와 같은 원격 또는 로컬(예컨대, 룰 그래머, 다이얼로그 매니저 등) 소스를 통해 획득 또는 수정될 수 있다. 상기 애플리케이션 룰 은, 예컨대 보다 높은 레벨의 애플리케이션 소프트웨어 및/또는 하드웨어로부터의 피드백에 기초하여, 또는 사용자 작용에 의해, 적합하게 될 수 있다. 애플리케이션 룰에 의해 어떤 에러가 야기된다면, 상기 애플리케이션 룰은 동적으로 업데이트 또는 수정되고, 메모리에 저장될 수 있다.
다른 콘텍스트 객체가 하나 이상의 주변 기기로부터 메모리에 로딩될 수 있다. 도 4는 주변 기기에 접속된 적응형 사후-인식 시스템을 보여준다. 적응형 사후-인식 시스템(104)은 유선 또는 무선 접속에 의해 사용되는 프로토콜을 통해 주변 기기(402)에 접속될 수 있다. 일부 프로토콜은 J1850VPW J1850PWM, ISO9141-2, ISO14230, CAN, High Speed CAN, MOST, LIN, IDB-1394, IDB-C, Bluetooth, TTCAN, TTP, 802.x, 시리얼 데이터 전송 및/또는 패러렐 데이터 전송을 포함할 수 있다. 상기 주변 기기는 셀룰러 또는 무선 전화기, 차량 탑재 컴퓨터, 인포테인먼트(infotainment) 시스템, 휴대형 오디오/비주얼 디바이스(예컨대, MP3 플레이어), 개인용 디지털 어시스턴스(PDA) 및/또는 하나 이상의 소프트웨어 애플리케이션을 구동할 수 있는 임의의 다른 처리 또는 데이터 저장 컴퓨터를 포함할 수 있다. 적응형 사후-인식 시스템(104)이 주변 기기와 접속되면, 다른 콘텍스트 객체는 주변 기기에 의해 적응형 사후-인식 시스템(104)으로 푸시될 수 있다. 다른 콘텍스트 객체는 컨택트 정보 및 리스트, 개인 식별 번호 또는 코드, 달력 정보, 주소, 라디오 주파수, 라디오국 콜 레터(radio station call letters), 라디오국 프리셋 로케이션, 노래 제목(압축되거나 압축되지 않은), 기후 제어 명령어, 글로벌 포지셔닝 정보, 또는 음성 인식, 개인 통신, 차량 동작 또는 운전자 또는 탑승자 컴포트(comfort)와 관련된 임의의 다른 엔터티(entity)를 포함할 수 있다. 콘텍스트 객체는, 사용자가 상기 적응형 자동 음성 인식 시스템에 의해 제공되는 음성 출력을 수정, 억셉트 또는 거절하는 경우, 자동으로 업데이트되거나 메모리에 추가될 수 있다.
일부 적응형 사후-인식 시스템(104)은, 제한된 조건 하에서 콘텍스트 객체를 추가 또는 수정함으로써, 일부 음성 인식 시스템에 공통적인 에러를 강화시키는 것을 방지한다. 일부 시스템에서, 새로운 콘텍스트 객체는, 사용자가 확인한 후에만 업데이트되는 기존의 콘텍스트 객체일 수 있고 또는 추가될 수 있다. 일부 시스템에서, 확인되지 않은 추가 또는 변화는 메모리에 별도의 콘텍스트 객체로서 저장될 수 있다. 그러나, 이들 확인되지 않은 및/또는 거절된 아이템들은 네거티브 가중으로 업데이트 또는 추가되어, 일부 기간 동안 잠재적으로 잘못된 결과가 나타날 가능성을 감소시키거나 그러한 결과를 억제하는 작용을 할 수 있다.
도 5는 다른 적응형 사후-인식 시스템(502)을 보여준다. 도 5에서, 외부 메모리(504)는 사후-인식 프로세서(202)와 통신 상태에 있다. 내부 메모리(206) 및/또는 외부 메모리(504)는 인식된 음성 데이터, 애플리케이션 룰, 콘텍스트 객체 및/또는 수정된 인식된 음성 데이터를 저장할 수 있다. 내부 메모리(206) 및/또는 외부 메모리(504)는 휘발성 또는 비휘발성 메모리일 수 있고, 하나 이상의 메모리 공간을 포함할 수 있다.
도 6은 다른 적응형 자동 음성 인식 시스템을 보여준다. 도 6에서, 사후-인식 시스템(204 또는 502)은 음성 인식 엔진(102)에 통합될 수 있고, 또는 그 엔진의 유일 부분을 형성할 수 있다. 도 7은 제2의 다른 적응형 자동 음성 인식 시스템을 보여준다. 도 7에서, 사후-인식 시스템(204 또는 502)은 인터프리터(106)와 통합될 수 있고, 그 인터프리터의 유일 부분을 형성할 수 있다.
도 8은 음성 인식을 개선하는 방법의 흐름도이다. 액트(802)에서, 적응형 사후-인식 시스템은 음성 인식 엔진에 의해 생성된 인식된 음성 데이터를 콘텍스트 객체와 비교할 수 있다. 상기 인식된 음성 데이터는 화자-종속적 및/또는 화자-독립적 시스템에 의해 생성될 수 있어, 상기 콘텍스트 객체는 현재의 사용자가 최근에 말한 음성일 수 있고, 또는 현재의 사용자라기보다는 어떤 사용자가 미리 정해진 또는 프로그래밍된 시간 내에 말한 음성일 수 있다. 별법으로서, 상기 콘텍스트 객체는 하나 이상의 주변 기기로부터 얻어진 정보일 수 있다. 상기 사후-인식 시스템은 상기 비교를 수행할 때 하나 이상의 애플리케이션 룰을 이용할 수 있다. 음성 인식을 개선하는 일부 방법에서, 상기 인식된 음성 데이터, 콘텍스트 객체 및/또는 애플리케이션 룰은 휘발성 또는 비휘발성 메모리에 저장될 수 있다. 상기 인식된 음성 데이터는 하나 이상의 텍스트형 스트링, 각각의 텍스트형 스트링에 대한 개연성 또는 컨피던스 값/레벨(예컨대, 스코어) 및/또는 내부 또는 외부 하드웨 어 및/또는 소프트웨어에 의미를 전달하는 다른 데이터 필드를 포함할 수 있다. 상기 콘텍스트 객체는 상기 인식된 음성 데이터에 부수되는 모호성을 제거하는 데 사용될 수 있고, 응답 피드백 데이터, 종종 말해지는 워드, 구 또는 문장(예컨대, 인식된 텍스트형 스트링 및/또는 수정 인식된 텍스트형 스트링), 스코어, 템퍼럴 데이터, 프리퀀시 데이터 및/또는 최신 데이터를 포함할 수 있다. 다른 콘텍스트 객체는 컨택트 정보 및 리스트, 개인 식별 번호 또는 코드, 달력 정보, 어드레스, 라디오 주파수, 라디오국 콜 레터, 라디오국 프리셋 로케이션, 노래 제목(압축되거나 압축되지 않은), 기후 제어 명령, 글로벌 포지셔닝 정보, 및/또는 하나 이상의 주변 기기로부터 메모리에 로딩될 수 있는, 음성 인식, 개인 통신, 차량 동작 또는 운전자 또는 탑승자 컴포트와 관련된 다른 엔터티를 포함할 수 있다.
액트(804)에서, 하나 이상의 애플리케이션 룰 및/또는 콘텍스트 객체에 기초하여, 상기 인식된 음성 데이터의 일부 또는 전부가 변경될 수 있다. 상기 인식된 음성 데이터를 변경하는 것은, 포지티브 또는 네거티브 가중치를 적용하여 텍스트형 스트링과 관련된 스코어를 수정하는 것; 텍스트형 스트링의 일부를 추가, 제거 또는 변경하는 것 및/또는 새로운 텍스트형 스트링 및/또는 텍스트형 스트링과 관련된 스코어를 추가하는 것을 포함한다.
액트(806)에서, 상기 변경 인식된 음성 데이터의 일부 또는 전부는 더 높은 레벨의 소프트웨어 및/또는 디바이스에 전달될 수 있다. 더 높은 레벨의 디바이스 는 상기 변경 인식된 음성 데이터를, 다른 더 높은 레벨의 소프트웨어 및/또는 하드웨어에 의해 처리될 수 있는 형태로 변환할 수 있는 인터프리터를 포함할 수 있다.
액트(808)에서, 콘텍스트 객체 및/또는 애플리케이션 룰이 업데이트될 수 있다. 일부 방법에서, 상기 콘텍스트 객체 및/또는 애플리케이션 룰은, 사용자가 적응형 자동 음성 인식 시스템에 의해 출력된 데이터를 수정, 억셉트 또는 거절하면 자동으로 업데이트될 수 있다. 상기 수정된 출력이 콘텍스트 객체로서 저장되는 워드 또는 구를 포함하고 있다면, 상기 워드는 콘텍스트 객체에 추가될 수 있다. 애플리케이션 룰에 의해 어떤 에러가 야기된다면, 상기 애플리케이션 룰은 정적으로 또는 동적으로 업데이트 또는 수정되고, 메모리에 저장될 수 있다.
일부 방법은 제한된 조건 하에서 콘텍스트 객체를 추가 또는 수정함으로써, 일부 음성 인식 시스템에 공통적인 에러를 강화시키는 것을 방지한다. 일부 시스템에서, 새로운 콘텍스트 객체는, 사용자가 확인한 후에만 업데이트되는 기존의 콘텍스트 객체일 수 있고 또는 추가될 수 있다. 일부 방법에서, 확인되지 않은 추가 또는 변경은 별도의 콘텍스트 객체로서 메모리에 저장될 수 있다. 그러나, 이들 확인되지 않은 콘텍스트 객체는 확인된 초이스보다 더 낮은 스코어를 가질 수 있다.
상기 시스템 및 방법은 프로세서에 의한 실행을 위한 명령어로서, CD-ROM, 디스크, 플래시 메모리, RAM 또는 ROM과 같은 컴퓨터 판독 가능한 매체, 또는 다른 기계 판독 가능한 매체에 인코딩될 수 있다. 따라서, 상기 프로세서는 상기 명령어를 실행하여, 사후-인식 프로세싱을 수행할 수 있다. 별법으로서 또는 추가적으로, 상기 방법은 하나 이상의 집적 회로, 샘플링 속도 적응 명령어(ampling rate adaptation instructions)를 실행하는 하나 이상의 프로세서와 같은 하드웨어를 이용하는 아날로그 또는 디지털 로직으로서; 또는 애플리케이션 프로그래밍 인터페이스(API) 또는 다이나믹 링크 라이브러리(DLI)의 소프트웨어, 로컬 또는 원격 프로시져 콜로서 규정되거나, 공유된 메모리에서 이용 가능한 함수로서; 또는 하드웨어와 소프트웨어의 조합으로서 구현될 수 있다.
상기 방법은 컴퓨터 판독 가능한 매체, 기계 판독 가능한 매체, 전파-신호 매체(propagated-signal medium) 및/또는 신호-담지 매체 상에 인코딩될 수 있다. 상기 매체는, 명령어 실행 가능한 시스템, 장치 또는 디바이스에 의해 또는 이들과 연계하여 사용하기 위한 소프트웨어를 포함, 저장, 통신, 전파 또는 운송하는 임의의 디바이스를 포함할 수 있다. 상기 기계 판독 가능한 매체는 선택적으로, 전자, 자기, 광, 전자기, 적외선 또는 반도체 시스템, 장치, 디바이스 또는 전파 매체일 수 있지만, 이들에 한정되는 것은 아니다. 기계 판독 가능한 매체의 비제한적인 예로서, 하나 이상의 와이어를 갖는 전기적 커넥션, 휴대형 자기 또는 광 디스크, RAM(Random Access Memory)과 같은 휘발성 메모리, ROM(Read Only Memory), EPROM(Erasable Programmable Read-Only Memory) 또는 플래시 메모리, 또는 광섬유 등이 있다. 기계 판독 가능한 매체는 또한, 상기 로직이 이미지 또는 다른 형태로(예컨대, 광 스캔을 통해) 전자적으로 저장된 후, 컴파일되고 및/또는 해석되고 또는 그렇지 않으면 처리됨에 따라, 실행 가능한 명령어가 프린트되는 유형 매체를 포함할 수 있다. 상기 처리된 매체는 다음에, 컴퓨터 및/또는 기계 메모리에 저장될 수 있다.
상기 시스템은 추가의 또는 다른 로직을 포함할 수 있고, 여러 가지 상이한 방식으로 구현될 수 있다. 프로세서는 마이크로프로세서, 마이크로컨트롤러, 애플리케이션 특정 집적회로(ASIC), 이산 로직, 또는 상이한 형태의 회로 또는 로직의 조합으로서 구현될 수 있다. 유사하게 메모리는 DRAM, SRAM, 플래시 또는 다른 종류의 메모리일 수 있다. 파라미터(에컨대, 조건 및 문턱값(threshold)) 및 다른 데이터 구조는 별도로 저장 및 관리될 수 있고, 단일 메모리, 하나 이상의 데이터베이스에 합체될 수 있고, 또는 많은 구성 요소에 걸쳐 논리적으로 및 물리적으로 분배될 수 있다. 프로그램 및 명령어 셋트는 단일 프로그램의 일부, 별도의 프로그램일 수 있고, 또는 몇몇 메모리 및 프로세서에 걸쳐 분배될 수 있다. 상기 시스템 및 방법은 워드 그래프 패스(word graph path), 워드 매트릭스 및/또는 워드 래티스 포맷, 또는 음성 인식 시스템으로부터의 결과를 표현하는 데 사용되는 임의의 다른 통상적으로 인식되는 포맷으로 제공되는 인식된 음성 데이터를 재-스코어하고 및/또는 재-가중하는 데에 적용될 수 있다.
본 발명의 다양한 실시예를 설명하였지만, 당업자는 다른 많은 실시예 및 변형이 본 발명의 범위 내에서 가능하다는 것을 이해할 것이다. 따라서 본 발명의 범위는 오직 첨부된 특허청구범위와 그 등가물에 의해서만 제한된다.
도 1은 사후-인식 시스템에 결합된 자동 음성 인식 시스템의 블록도이다.
도 2는 사후-인식 시스템의 블록도이다.
도 3은 n-베스트 리스트를 보여준다.
도 4는 주변 기기에 결합된 사후-인식 시스템의 블록도이다.
도 5는 다른 사후-인식 시스템의 블록도이다.
도 6은 다른 자동 음성 인식 시스템의 블록도이다.
도 7은 제2의 다른 자동 음성 인식 시스템의 블록도이다.
도 8은 음성 인식을 개선하는 흐름도이다.
Claims (24)
- 음성 인식 엔진에 결합되도록 구성된 인터페이스;상기 인터페이스에 결합되는 사후-인식 프로세서;상기 사후-인식 프로세서에 결합되는 메모리를 포함하고,상기 사후-인식 프로세서는 상기 음석 인식 엔진에 의해 생성된 인식된 음성 데이터를 수신하도록 구성되고, 상기 메모리에 보유된 애플리케이션 룰을 상기 인식된 음성 데이터에 적용하여 수정된 인식된 음성 데이터를 생성하도록 구성되며, 상기 수정된 인식된 음성 데이터를 해석 구성 요소에 전달하도록 구성되며,상기 애플리케이션 룰은, 이전의 인식 결과와 관련 없는 상기 메모리 내에 보유된 특성에 기초하여 상기 인식된 음성 데이터를 수정하도록 구성되는 것인 음성 인식 성능 향상 시스템.
- 제 1항에 있어서, 상기 인식된 음성 데이터는 텍스트형 스트링 및 상기 텍스트형 스트링과 관련된 스코어를 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 2항에 있어서, 상기 스코어는 상기 텍스트형 스트링의 컨피던스 값을 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 3항에 있어서, 상기 수정된 인식된 음성 데이터는 네거티브 가중 값에 의하여 변경된 상기 관련된 스코어를 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 3항에 있어서, 상기 수정된 인식된 음성 데이터는 포지티브 가중 값에 의하여 변경된 상기 관련된 스코어를 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 1항에 있어서, 상기 수정된 인식된 음성 데이터는 수정된 텍스트형 스트링을 포함하고, 상기 수정된 텍스트형 스트링은 콘텍스트 객체의 일부를 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 2항에 있어서, 상기 수정된 인식된 음성 데이터는 상기 텍스트형 스트링의 일부를 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 1항에 있어서, 상기 메모리는 또한 응답 피드백 데이터를 저장하도록 구성되고, 상기 응답 피드백 데이터는 수정된 텍스트형 스트링의 억셉턴스 레벨을 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 2항에 있어서, 상기 수정된 인식된 음성 데이터는 상기 인식된 음성 데이터의 텍스트형 데이터와 다르게 배열된 복수의 텍스트형 스트링을 포함하는 것인 음성 인식 성능 향상 시스템.
- 제 6항에 있어서, 상기 콘텍스트 객체는 하나 이상의 주변 장치로부터 상기 메모리에 로딩되는 것인 음성 인식 성능 향상 시스템.
- 삭제
- 음성 인식 엔진에 의하여 생성된 인식된 음성 데이터를 메모리에 보유되고 사용자가 스케줄한 이벤트와 관련된 콘텍스트 객체와 비교하는 단계;하나 이상의 콘텍스트 객체에 기초하여 상기 인식된 음성 데이터를 변경하는 단계; 및상기 변경된 인식된 음성 데이터를 해석 구성요소에 전달하는 단계를 포함하고,상기 인식된 음성 데이터는 텍스트형 스트링, 매트릭스 또는 래티스 및 상기 텍스트형 스트링, 매트릭스 또는 래티스와 관련된 컨피던스 레벨을 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 인식된 음성 데이터를 변경하는 단계는 텍스트형 스트링, 매트릭스 또는 래티스와 관련된 상기 컨피던스 레벨을 조정하는 단계를 포함하는 것인 음성 인식 향상 방법.
- 제 13항에 있어서, 텍스트형 스트링과 관련된 컨피던스 레벨을 조정하는 것은 포지티브 가중치를 상기 관련된 컨피던스 레벨에 적용하는 것을 포함하는 것인 음성 인식 향상 방법.
- 제 13항에 있어서, 텍스트형 스트링과 관련된 컨피던스 레벨을 조정하는 것은 네거티브 가중치를 상기 관련된 컨피던스 레벨에 적용하는 것을 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 인식된 음성 데이터를 변경하는 단계는 텍스트형 스트링의 일부를 추출하는 것을 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 인식된 음성 데이터를 변경하는 단계는 새로운 텍스트형 스트링을 상기 인식된 음성 데이터에 추가하는 것을 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 새로운 텍스트형 스트링이 확인 데이터를 수신한 후 메모리에 보유된 상기 콘텍스트 객체에 추가되는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 변경 인식된 음성 데이터의 일부로 상기 콘텍스트 객체를 업데이트하는 단계를 더 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 음성 인식 엔진에 의하여 생성된 인식된 음성 데이터를 메모리에 보유된 콘텍스트 객체와 비교하는 단계는 상기 콘텍스트 객체와 관련된 템퍼럴 데이터를 평가하는 것을 포함하는 것인 음성 인식 향상 방법.
- 제 12항에 있어서, 상기 음성 인식 엔진에 의하여 생성된 인식된 음성 데이터를 메모리에 보유된 콘텍스트 객체와 비교하는 단계는 상기 콘텍스트 객체와 관련된 프리퀀시 데이터를 평가하는 것을 포함하는 것인 음성 인식 향상 방법.
- 음성 인식 엔진에 의하여 생성된 인식된 음성 데이터를 메모리에 보유된 콘텍스트 객체와 비교하는 단계;하나 이상의 콘텍스트 객체에 기초하여 상기 인식된 음성 데이터를 변경하는 단계; 및상기 변경된 인식된 음성 데이터를 해석 구성 요소에 전달하는 단계를 실행하는 프로세서 실행 가능한 명령어 셋트를 포함하고,상기 인식된 음성 데이터는 텍스트형 스트링 및 상기 텍스트형 스트링과 관련된 컨피던스 레벨을 포함하며,상기 콘텍스트 객체는 사용자가 제공한 달력 정보와 관련된 데이터를 포함하는 것인 컴퓨터 판독 가능한 저장 매체.
- 제 22항에 있어서, 상기 인식된 음성 데이터를 변경하는 상기 명령어는 네거티브 가중치를 상기 관련된 컨피던스 레벨에 적용하는 것인 컴퓨터 판독 가능한 저장 매체.
- 제 22항에 있어서, 상기 인식된 음성 데이터를 변경하는 상기 명령어는 포지티브 가중치를 상기 관련된 컨피던스 레벨에 적용하는 것인 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US85114906P | 2006-10-12 | 2006-10-12 | |
US60/851,149 | 2006-10-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080033070A KR20080033070A (ko) | 2008-04-16 |
KR100976643B1 true KR100976643B1 (ko) | 2010-08-18 |
Family
ID=38829581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070100295A KR100976643B1 (ko) | 2006-10-12 | 2007-10-05 | 자동 음성 인식 시스템용 적응형 콘텍스트 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080091426A1 (ko) |
EP (1) | EP1912205A2 (ko) |
JP (1) | JP2008097003A (ko) |
KR (1) | KR100976643B1 (ko) |
CN (1) | CN101183525A (ko) |
CA (1) | CA2606118A1 (ko) |
Families Citing this family (200)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721987B2 (ja) * | 1991-07-16 | 1995-03-08 | 株式会社愛知電機製作所 | 真空切替遮断器 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070185899A1 (en) * | 2006-01-23 | 2007-08-09 | Msystems Ltd. | Likelihood-based storage management |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8521766B1 (en) | 2007-11-12 | 2013-08-27 | W Leo Hoarty | Systems and methods for providing information discovery and retrieval |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8468019B2 (en) * | 2008-01-31 | 2013-06-18 | Qnx Software Systems Limited | Adaptive noise modeling speech recognition system |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20100125450A1 (en) * | 2008-10-27 | 2010-05-20 | Spheris Inc. | Synchronized transcription rules handling |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
KR101134450B1 (ko) | 2009-06-25 | 2012-04-09 | 한국전자통신연구원 | 음성인식 방법 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9263034B1 (en) | 2010-07-13 | 2016-02-16 | Google Inc. | Adapting enhanced acoustic models |
US8473289B2 (en) | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9396725B2 (en) | 2011-05-09 | 2016-07-19 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US8738375B2 (en) | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9570086B1 (en) * | 2011-11-18 | 2017-02-14 | Google Inc. | Intelligently canceling user input |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9196250B2 (en) | 2012-11-16 | 2015-11-24 | 2236008 Ontario Inc. | Application services interface to ASR |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
EP2816553A1 (en) * | 2013-06-20 | 2014-12-24 | 2236008 Ontario Inc. | Natural language understanding automatic speech recognition post processing |
CN103440865B (zh) * | 2013-08-06 | 2016-03-30 | 普强信息技术(北京)有限公司 | 语音识别的后处理方法 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11386886B2 (en) * | 2014-01-28 | 2022-07-12 | Lenovo (Singapore) Pte. Ltd. | Adjusting speech recognition using contextual information |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9858920B2 (en) * | 2014-06-30 | 2018-01-02 | GM Global Technology Operations LLC | Adaptation methods and systems for speech systems |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP5939480B1 (ja) * | 2015-12-25 | 2016-06-22 | 富士ゼロックス株式会社 | 端末装置、診断システムおよびプログラム |
US10002607B2 (en) | 2016-01-05 | 2018-06-19 | Microsoft Technology Licensing, Llc | Cross device companion application for phone |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
WO2017193264A1 (en) * | 2016-05-09 | 2017-11-16 | Harman International Industries, Incorporated | Noise detection and noise reduction |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107632982B (zh) * | 2017-09-12 | 2021-11-16 | 郑州科技学院 | 语音控制外语翻译设备用的方法和装置 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10102858B1 (en) | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN109995833A (zh) * | 2017-12-29 | 2019-07-09 | 顺丰科技有限公司 | 语音服务提供方法、服务器、客户端、系统、设备及介质 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10978061B2 (en) | 2018-03-09 | 2021-04-13 | International Business Machines Corporation | Voice command processing without a wake word |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
KR102685523B1 (ko) | 2018-03-27 | 2024-07-17 | 삼성전자주식회사 | 사용자 음성 입력을 처리하는 장치 |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10755707B2 (en) | 2018-05-14 | 2020-08-25 | International Business Machines Corporation | Selectively blacklisting audio to improve digital assistant behavior |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10777195B2 (en) | 2018-05-31 | 2020-09-15 | International Business Machines Corporation | Wake command nullification for digital assistance and voice recognition technologies |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
KR20200034430A (ko) * | 2018-09-21 | 2020-03-31 | 삼성전자주식회사 | 전자 장치, 시스템 및 음성 인식 서비스 이용 방법 |
US10810998B2 (en) | 2018-09-28 | 2020-10-20 | International Business Machines Corporation | Custom temporal blacklisting of commands from a listening device |
US10831442B2 (en) | 2018-10-19 | 2020-11-10 | International Business Machines Corporation | Digital assistant user interface amalgamation |
US11165779B2 (en) | 2018-11-29 | 2021-11-02 | International Business Machines Corporation | Generating a custom blacklist for a listening device based on usage |
KR102615154B1 (ko) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11308273B2 (en) | 2019-05-14 | 2022-04-19 | International Business Machines Corporation | Prescan device activation prevention |
KR102358087B1 (ko) * | 2019-11-29 | 2022-02-03 | 광운대학교 산학협력단 | 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 |
US11335335B2 (en) | 2020-02-03 | 2022-05-17 | International Business Machines Corporation | Disambiguation of generic commands for controlling objects |
US11914650B2 (en) | 2020-07-22 | 2024-02-27 | International Business Machines Corporation | Data amalgamation management between multiple digital personal assistants |
US11501349B2 (en) | 2020-11-24 | 2022-11-15 | International Business Machines Corporation | Advertisement metadata communicated with multimedia content |
US11977813B2 (en) | 2021-01-12 | 2024-05-07 | International Business Machines Corporation | Dynamically managing sounds in a chatbot environment |
US20230015697A1 (en) * | 2021-07-13 | 2023-01-19 | Citrix Systems, Inc. | Application programming interface (api) authorization |
US20230035752A1 (en) * | 2021-07-30 | 2023-02-02 | Nissan North America, Inc. | Systems and methods for responding to audible commands and/or adjusting vehicle components based thereon |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040061659A (ko) * | 2002-12-31 | 2004-07-07 | 삼성전자주식회사 | 음성인식방법 및 장치 |
EP1562178A1 (en) * | 2004-02-05 | 2005-08-10 | Avaya Technology Corp. | Recognition results postprocessor for use in voice recognition systems |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774860A (en) * | 1994-06-27 | 1998-06-30 | U S West Technologies, Inc. | Adaptive knowledge base of complex information through interactive voice dialogue |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
JP3683502B2 (ja) * | 2001-02-07 | 2005-08-17 | 旭化成ホームズ株式会社 | リモコン装置 |
JP4128342B2 (ja) * | 2001-07-19 | 2008-07-30 | 三菱電機株式会社 | 対話処理装置及び対話処理方法並びにプログラム |
US7403890B2 (en) * | 2002-05-13 | 2008-07-22 | Roushar Joseph C | Multi-dimensional method and apparatus for automated language interpretation |
JP3948441B2 (ja) * | 2003-07-09 | 2007-07-25 | 松下電器産業株式会社 | 音声認識方法及び、車載装置 |
JP4040573B2 (ja) * | 2003-12-12 | 2008-01-30 | キヤノン株式会社 | 音声認識装置および方法 |
US7228278B2 (en) * | 2004-07-06 | 2007-06-05 | Voxify, Inc. | Multi-slot dialog systems and methods |
JP2006189544A (ja) * | 2005-01-05 | 2006-07-20 | Matsushita Electric Ind Co Ltd | 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム |
JP4661239B2 (ja) * | 2005-01-31 | 2011-03-30 | 日産自動車株式会社 | 音声対話装置及び音声対話方法 |
US7565282B2 (en) * | 2005-04-14 | 2009-07-21 | Dictaphone Corporation | System and method for adaptive automatic error correction |
WO2007027989A2 (en) * | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
-
2007
- 2007-10-01 US US11/865,443 patent/US20080091426A1/en not_active Abandoned
- 2007-10-05 KR KR1020070100295A patent/KR100976643B1/ko not_active IP Right Cessation
- 2007-10-05 EP EP07019549A patent/EP1912205A2/en not_active Withdrawn
- 2007-10-05 JP JP2007262683A patent/JP2008097003A/ja active Pending
- 2007-10-10 CA CA002606118A patent/CA2606118A1/en not_active Abandoned
- 2007-10-11 CN CNA2007101929994A patent/CN101183525A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040061659A (ko) * | 2002-12-31 | 2004-07-07 | 삼성전자주식회사 | 음성인식방법 및 장치 |
EP1562178A1 (en) * | 2004-02-05 | 2005-08-10 | Avaya Technology Corp. | Recognition results postprocessor for use in voice recognition systems |
Also Published As
Publication number | Publication date |
---|---|
JP2008097003A (ja) | 2008-04-24 |
CN101183525A (zh) | 2008-05-21 |
CA2606118A1 (en) | 2008-04-12 |
KR20080033070A (ko) | 2008-04-16 |
EP1912205A2 (en) | 2008-04-16 |
US20080091426A1 (en) | 2008-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100976643B1 (ko) | 자동 음성 인식 시스템용 적응형 콘텍스트 | |
US7689420B2 (en) | Personalizing a context-free grammar using a dictation language model | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US7542907B2 (en) | Biasing a speech recognizer based on prompt context | |
US7603279B2 (en) | Grammar update system and method for speech recognition | |
CA2493265C (en) | System and method for augmenting spoken language understanding by correcting common errors in linguistic performance | |
US8180641B2 (en) | Sequential speech recognition with two unequal ASR systems | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US9484024B2 (en) | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model | |
US20070239453A1 (en) | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances | |
US20080189106A1 (en) | Multi-Stage Speech Recognition System | |
US8626506B2 (en) | Method and system for dynamic nametag scoring | |
US6961702B2 (en) | Method and device for generating an adapted reference for automatic speech recognition | |
US9202459B2 (en) | Methods and systems for managing dialog of speech systems | |
US8862468B2 (en) | Leveraging back-off grammars for authoring context-free grammars | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
JP2000284795A (ja) | テキストの挿入と置換を区別するための方法およびシステム | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
US20060143008A1 (en) | Generation and deletion of pronunciation variations in order to reduce the word error rate in speech recognition | |
JP4658022B2 (ja) | 音声認識システム | |
Ju et al. | A voice search approach to replying to SMS messages in automobiles | |
CN111048098A (zh) | 语音校正系统及语音校正方法 | |
JP2001242888A (ja) | 音声認識システムおよび音声認識方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |