KR20070106809A - 함축적인 화자 적응을 사용하는 음성 인식 시스템 - Google Patents
함축적인 화자 적응을 사용하는 음성 인식 시스템 Download PDFInfo
- Publication number
- KR20070106809A KR20070106809A KR1020077024058A KR20077024058A KR20070106809A KR 20070106809 A KR20070106809 A KR 20070106809A KR 1020077024058 A KR1020077024058 A KR 1020077024058A KR 20077024058 A KR20077024058 A KR 20077024058A KR 20070106809 A KR20070106809 A KR 20070106809A
- Authority
- KR
- South Korea
- Prior art keywords
- acoustic model
- speaker
- matching score
- template
- matching
- Prior art date
Links
- 230000006978 adaptation Effects 0.000 title 1
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000001419 dependent effect Effects 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 description 44
- 230000001755 vocal effect Effects 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Complex Calculations (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (21)
- 적어도 하나의 입력 패턴 매칭 스코어를 생성하고, 인식된 발성 클래스(utterance class)를 결정하기 위해서 적어도 제1 템플릿과 제1 입력 스피치 세그먼트의 패턴 매칭을 수행하는 단계;상기 인식된 발성 클래스와 연관된 화자 종속 음향 모델로부터의 적어도 제2 템플릿과 연관된 대응하는 스코어와 상기 적어도 하나의 입력 패턴 매칭 스코어를 비교하는 단계; 및상기 비교 결과들에 따라 상기 적어도 제2 템플릿을 갱신할지 여부를 결정하는 단계를 포함하는, 음성 인식 수행 방법.
- 제1항에 있어서,상기 패턴 매칭 수행 단계는적어도 하나의 은닉 마르코프 모델(HMM) 매칭 스코어를 생성하기 위해서 적어도 하나의 HMM 템플릿과 상기 제1 입력 스피치 세그먼트의 HMM 패턴 매칭을 수행하는 단계;적어도 하나의 동적 타임 와핑(DTW) 매칭 스코어를 생성하기 위해서 적어도 하나의 DTW 템플릿과 상기 제1 입력 스피치 세그먼트의 DTW 패턴 매칭을 수행하는 단계; 및상기 적어도 하나의 입력 패턴 매칭 스코어를 생성하기 위해서 상기 적어도 하나의 HMM 매칭 스코어 및 상기 적어도 하나의 DTW 매칭 스코어의 적어도 하나의 가중된 합 연산을 수행하는 단계를 더 포함하는, 음성 인식 수행 방법.
- 제1항에 있어서, 상기 방법은상기 적어도 제1 템플릿과 제2 입력 스피치 세그먼트의 패턴 매칭을 수행함으로써 적어도 하나의 화자 독립 매칭 스코어를 생성하는 단계 - 여기서, 상기 적어도 제1 템플릿은 화자 독립형임 - ;상기 적어도 제2 템플릿과 상기 제2 입력 스피치 세그먼트의 패턴 매칭을 수행함으로써 적어도 하나의 화자 종속 매칭 스코어를 생성하는 단계; 및적어도 하나의 결합된 매칭 스코어를 생성하기 위해서 상기 화자 종속 매칭 스코어와 상기 적어도 하나의 화자 독립 매칭 스코어를 결합하는 단계를 더 포함하는, 음성 인식 수행 방법.
- 제3항에 있어서, 상기 방법은최선의(best) 상기 적어도 하나의 결합된 매칭 스코어와 연관된 발성 클래스를 식별하는 단계를 더 포함하는, 음성 인식 수행 방법.
- 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅을 수행하는 방법으로서,화자 독립 패턴 매칭 스코어들을 생성하기 위해서 화자 독립 음향 모델의 컨 텐츠와 화자로부터의 입력 스피치의 패턴 매칭을 음성 인식 엔진에서 수행하는 단계;상기 음성 인식 엔진에 의해 화자 종속 음향 모델의 템플릿들과 연관된 스코어들과 상기 화자 독립 패턴 매칭 스코어들을 비교하는 단계 - 여기서, 상기 화자 종속 음향 모델은 상기 화자에게 맞춤화(tailored)됨 - ; 및상기 화자 독립 매칭 스코어들이 상기 화자 종속 음향 모델의 템플릿들과 연관된 스코어들보다 높은 경우, 상기 화자 독립 패턴 매칭 스코어들에 기반하여 상기 화자 종속 음향 모델에 대한 새로운 템플릿을 생성하는 단계를 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제 5항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 은닉 마르코프 모델(HMM: hidden markov model) 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제5항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 동적 타임 와핑(DTW: dynamic time warping) 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제5항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 HMM 음향 모델과 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제5항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 가비지 템플릿(garbage template)을 포함하고, 상기 비교 단계는 상기 입력 스피치를 상기 적어도 하나의 가비지 템플릿과 비교하는 단계를 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제5항에 있어서,상기 화자 종속 음향 모델은 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제5항에 있어서, 상기 방법은상기 화자 독립 음향 모델 및 상기 화자 종속 음향 모델의 컨텐츠와 제 2 입력 스피치 세그먼트를 비교하여 적어도 하나의 결합된 화자 종속 및 화자 독립 매칭 스코어를 생성하도록 상기 음성 인식 엔진을 구성하는 단계; 그리고최상의 결합된 화자 종속 및 화자 독립 매칭 스코어를 갖는 발성 클래 스(utterance class)를 식별하는 단계를 더 포함하며,상기 발성 클래스는 특정 단어 또는 스피치 세그먼트인, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 HMM 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 HMM 음향 모델과 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 종속 음향 모델은 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 HMM 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 독립 음향 모델은 적어도 하나의 HMM 음향 모델과 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 제11항에 있어서,상기 화자 종속 음향 모델은 적어도 하나의 DTW 음향 모델을 포함하는, 비통제(unsupervised) 음성 인식 트레이닝 및 테스팅 수행 방법.
- 음성 인식을 수행하는 방법으로서,적어도 하나의 화자 독립 매칭 스코어를 생성하기 위해서 적어도 하나의 화 자 독립 음향 템플릿과 입력 스피치 세그먼트의 패턴 매칭을 수행하는 단계;적어도 하나의 화자 종속 매칭 스코어를 생성하기 위해서 화자 종속 음향 템플릿과 상기 입력 스피치 세그먼트의 패턴 매칭을 수행하는 단계; 및적어도 하나의 결합된 매칭 스코어를 생성하기 위해서 상기 적어도 하나의 화자 종속 매칭 스코어와 상기 적어도 하나의 화자 독립 매칭 스코어를 비교하는 단계를 포함하며,여기서 각각의 결합된 매칭 스코어는 발성 클래스에 대응하며, 상기 발성 클래스에 대한 화자 독립 패턴 매칭 스코어 및 상기 발성 클래스에 대한 화자 종속 패턴 매칭 스코어에 의존하며, 상기 발성 클래스는 특정 단어 또는 스피치 세그먼티인, 음성 인식 수행 방법.
- 제20항에 있어서,상기 패턴 매칭 수행 단계 및 결합 단계는 음성 인식 엔진에 의해 수행되는, 음성 인식 수행 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/821,606 | 2001-03-28 | ||
US09/821,606 US20020143540A1 (en) | 2001-03-28 | 2001-03-28 | Voice recognition system using implicit speaker adaptation |
PCT/US2002/008727 WO2002080142A2 (en) | 2001-03-28 | 2002-03-22 | Voice recognition system using implicit speaker adaptation |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037012775A Division KR100933107B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097017599A Division KR101031744B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070106809A true KR20070106809A (ko) | 2007-11-05 |
KR100933108B1 KR100933108B1 (ko) | 2009-12-21 |
Family
ID=25233818
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077024058A KR100933108B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020097017599A KR101031744B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020097017648A KR101031660B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020077024057A KR100933109B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020097017621A KR101031717B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020037012775A KR100933107B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
Family Applications After (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097017599A KR101031744B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020097017648A KR101031660B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020077024057A KR100933109B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020097017621A KR101031717B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
KR1020037012775A KR100933107B1 (ko) | 2001-03-28 | 2002-03-22 | 함축적인 화자 적응을 사용하는 음성 인식 시스템 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20020143540A1 (ko) |
EP (3) | EP1628289B1 (ko) |
JP (5) | JP2004530155A (ko) |
KR (6) | KR100933108B1 (ko) |
CN (3) | CN1531722B (ko) |
AT (3) | ATE525719T1 (ko) |
AU (1) | AU2002255863A1 (ko) |
DE (2) | DE60233763D1 (ko) |
DK (1) | DK1374223T3 (ko) |
ES (3) | ES2330857T3 (ko) |
HK (2) | HK1092269A1 (ko) |
TW (1) | TW577043B (ko) |
WO (1) | WO2002080142A2 (ko) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
KR20050059766A (ko) * | 2003-12-15 | 2005-06-21 | 엘지전자 주식회사 | 동적 시간 워핑을 이용한 음성 인식 방법 |
GB2409560B (en) * | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7440894B2 (en) | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
US8762148B2 (en) * | 2006-02-27 | 2014-06-24 | Nec Corporation | Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program |
US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
US8244545B2 (en) * | 2006-03-30 | 2012-08-14 | Microsoft Corporation | Dialog repair based on discrepancies between user model predictions and speech recognition results |
WO2007132404A2 (en) * | 2006-05-12 | 2007-11-22 | Koninklijke Philips Electronics N.V. | Method for changing over from a first adaptive data processing version to a second adaptive data processing version |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
US7552871B2 (en) * | 2006-12-19 | 2009-06-30 | Nordic Id Oy | Method for collecting data fast in inventory systems and wireless apparatus thereto |
US9026444B2 (en) * | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
US9478216B2 (en) | 2009-12-08 | 2016-10-25 | Nuance Communications, Inc. | Guest speaker robust adapted speech recognition |
JP2012168477A (ja) * | 2011-02-16 | 2012-09-06 | Nikon Corp | ノイズ推定装置、信号処理装置、撮像装置、及びプログラム |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
CN104700831B (zh) * | 2013-12-05 | 2018-03-06 | 国际商业机器公司 | 分析音频文件的语音特征的方法和装置 |
EP3480811A1 (en) * | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US20170011406A1 (en) * | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
RU2704746C2 (ru) * | 2015-08-24 | 2019-10-30 | ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи | Динамическая акустическая модель для транспортного средства |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR102458805B1 (ko) | 2017-04-20 | 2022-10-25 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
CN111243606B (zh) * | 2017-05-12 | 2023-07-21 | 苹果公司 | 用户特定的声学模型 |
EP3905242A1 (en) * | 2017-05-12 | 2021-11-03 | Apple Inc. | User-specific acoustic models |
DK179496B1 (en) * | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10896673B1 (en) * | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
KR102263973B1 (ko) | 2019-04-05 | 2021-06-11 | 주식회사 솔루게이트 | 인공지능 기반 일정관리 시스템 |
KR102135182B1 (ko) | 2019-04-05 | 2020-07-17 | 주식회사 솔루게이트 | 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 |
EP4086904A1 (en) * | 2019-12-04 | 2022-11-09 | Google LLC | Speaker awareness using speaker dependent speech model(s) |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6045298A (ja) * | 1983-08-22 | 1985-03-11 | 富士通株式会社 | 単語音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
JPH01309099A (ja) * | 1987-06-04 | 1989-12-13 | Ricoh Co Ltd | 音声応答装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
JP2989231B2 (ja) * | 1989-10-05 | 1999-12-13 | 株式会社リコー | 音声認識装置 |
JPH04280299A (ja) * | 1991-03-08 | 1992-10-06 | Ricoh Co Ltd | 音声認識装置 |
JPH05188991A (ja) * | 1992-01-16 | 1993-07-30 | Oki Electric Ind Co Ltd | 音声認識装置 |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
WO1996008005A1 (en) * | 1994-09-07 | 1996-03-14 | Motorola Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
JPH08314493A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法,数字列音声認識装置及びビデオレコーダシステム |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6003002A (en) * | 1997-01-02 | 1999-12-14 | Texas Instruments Incorporated | Method and system of adapting speech recognition models to speaker environment |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
JP3865924B2 (ja) * | 1998-03-26 | 2007-01-10 | 松下電器産業株式会社 | 音声認識装置 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
JP2000137495A (ja) * | 1998-10-30 | 2000-05-16 | Toshiba Corp | 音声認識装置および音声認識方法 |
EP1426923B1 (en) * | 1998-12-17 | 2006-03-29 | Sony Deutschland GmbH | Semi-supervised speaker adaptation |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
-
2001
- 2001-03-28 US US09/821,606 patent/US20020143540A1/en not_active Abandoned
-
2002
- 2002-03-22 DE DE60233763T patent/DE60233763D1/de not_active Expired - Lifetime
- 2002-03-22 CN CN028105869A patent/CN1531722B/zh not_active Expired - Fee Related
- 2002-03-22 AT AT07014802T patent/ATE525719T1/de not_active IP Right Cessation
- 2002-03-22 KR KR1020077024058A patent/KR100933108B1/ko not_active IP Right Cessation
- 2002-03-22 ES ES05025989T patent/ES2330857T3/es not_active Expired - Lifetime
- 2002-03-22 KR KR1020097017599A patent/KR101031744B1/ko not_active IP Right Cessation
- 2002-03-22 KR KR1020097017648A patent/KR101031660B1/ko not_active IP Right Cessation
- 2002-03-22 AT AT05025989T patent/ATE443316T1/de not_active IP Right Cessation
- 2002-03-22 WO PCT/US2002/008727 patent/WO2002080142A2/en active Application Filing
- 2002-03-22 KR KR1020077024057A patent/KR100933109B1/ko not_active IP Right Cessation
- 2002-03-22 AU AU2002255863A patent/AU2002255863A1/en not_active Abandoned
- 2002-03-22 EP EP05025989A patent/EP1628289B1/en not_active Expired - Lifetime
- 2002-03-22 EP EP07014802A patent/EP1850324B1/en not_active Expired - Lifetime
- 2002-03-22 AT AT02725288T patent/ATE372573T1/de not_active IP Right Cessation
- 2002-03-22 JP JP2002578283A patent/JP2004530155A/ja not_active Withdrawn
- 2002-03-22 CN CNA200710196696XA patent/CN101221758A/zh active Pending
- 2002-03-22 ES ES07014802T patent/ES2371094T3/es not_active Expired - Lifetime
- 2002-03-22 DK DK02725288T patent/DK1374223T3/da active
- 2002-03-22 KR KR1020097017621A patent/KR101031717B1/ko not_active IP Right Cessation
- 2002-03-22 EP EP02725288A patent/EP1374223B1/en not_active Expired - Lifetime
- 2002-03-22 DE DE60222249T patent/DE60222249T2/de not_active Expired - Lifetime
- 2002-03-22 ES ES02725288T patent/ES2288549T3/es not_active Expired - Lifetime
- 2002-03-22 CN CN200710196697.4A patent/CN101221759B/zh not_active Expired - Lifetime
- 2002-03-22 KR KR1020037012775A patent/KR100933107B1/ko not_active IP Right Cessation
- 2002-03-26 TW TW091105907A patent/TW577043B/zh not_active IP Right Cessation
-
2006
- 2006-08-14 HK HK06109012.9A patent/HK1092269A1/xx not_active IP Right Cessation
-
2007
- 2007-10-26 JP JP2007279235A patent/JP4546512B2/ja not_active Expired - Fee Related
-
2008
- 2008-04-09 JP JP2008101180A patent/JP4546555B2/ja not_active Expired - Fee Related
- 2008-04-17 HK HK08104363.3A patent/HK1117260A1/xx not_active IP Right Cessation
-
2010
- 2010-04-19 JP JP2010096043A patent/JP2010211221A/ja active Pending
-
2013
- 2013-03-04 JP JP2013041687A patent/JP2013152475A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100933108B1 (ko) | 함축적인 화자 적응을 사용하는 음성 인식 시스템 | |
US7024359B2 (en) | Distributed voice recognition system using acoustic feature vector modification | |
US7043431B2 (en) | Multilingual speech recognition system using text derived recognition models | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
JP4202124B2 (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
US20020178004A1 (en) | Method and apparatus for voice recognition | |
JPH11511567A (ja) | パターン認識 | |
EP1525577B1 (en) | Method for automatic speech recognition | |
JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2000047686A (ja) | 音声認識装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
A107 | Divisional application of patent | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20131129 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20141128 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20150930 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20161125 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20170929 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |