KR20060070603A - 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 - Google Patents
음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 Download PDFInfo
- Publication number
- KR20060070603A KR20060070603A KR1020040109126A KR20040109126A KR20060070603A KR 20060070603 A KR20060070603 A KR 20060070603A KR 1020040109126 A KR1020040109126 A KR 1020040109126A KR 20040109126 A KR20040109126 A KR 20040109126A KR 20060070603 A KR20060070603 A KR 20060070603A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- score
- verification
- voice
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012795 verification Methods 0.000 claims abstract description 72
- 238000001514 detection method Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 27
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (4)
- 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하는 제 1 단계;제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식 수준으로 거절인지의 여부를 판단하는 제 2 단계;상기 제 2 단계에서 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식으로 거절(Reject)되면 다시 리턴하는 한편, 정인식으로 승인(Accept)되면, 전처리 모듈을 통해 추출된 각종 메타 데이터, 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하는 제 3 단계; 및제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하는 한편, 승인이면 음성을 시스템응답 모듈로 전달하는 제 4 단계로 이루어진 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
- 제 1항에 있어서,상기 제 3단계에서 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
- 음성을 입력/출력하기 위한 음성 입출력부;상기 음성 입출력부로부터 음성을 입력받아 그 음성에서 각종 메타 데이터를 추출하는 전처리 모듈;상기 전처리 모듈로부터 각종 메타 데이터를 입력받은 후 음성인식을 수행하는 음성인식기; 및상기 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈을 통해 추출된 각종 메타 데이터, 상기 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈로 전달하는 발화검증부를 구비한 컴퓨터 시스템으로 구성된 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.
- 제 4항에 있어서,상기 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040109126A KR100655491B1 (ko) | 2004-12-21 | 2004-12-21 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
US11/095,555 US7529665B2 (en) | 2004-12-21 | 2005-04-01 | Two stage utterance verification device and method thereof in speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040109126A KR100655491B1 (ko) | 2004-12-21 | 2004-12-21 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060070603A true KR20060070603A (ko) | 2006-06-26 |
KR100655491B1 KR100655491B1 (ko) | 2006-12-11 |
Family
ID=36597229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040109126A KR100655491B1 (ko) | 2004-12-21 | 2004-12-21 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7529665B2 (ko) |
KR (1) | KR100655491B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100869385B1 (ko) * | 2007-02-21 | 2008-11-19 | 인하대학교 산학협력단 | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 |
KR100901439B1 (ko) * | 2007-05-10 | 2009-06-05 | 인하대학교 산학협력단 | 서포트 벡터 머신을 이용한 음성 검출 방법 |
KR100940641B1 (ko) * | 2007-12-24 | 2010-02-05 | 한국과학기술원 | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 |
US10043520B2 (en) | 2014-07-09 | 2018-08-07 | Samsung Electronics Co., Ltd. | Multilevel speech recognition for candidate application group using first and second speech commands |
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
KR102075670B1 (ko) * | 2018-10-10 | 2020-03-02 | 서울시립대학교 산학협력단 | 나이 정보를 활용한 화자인식 방법 및 시스템 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US20070132754A1 (en) * | 2005-12-12 | 2007-06-14 | Intel Corporation | Method and apparatus for binary image classification and segmentation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
US7756710B2 (en) * | 2006-07-13 | 2010-07-13 | Sri International | Method and apparatus for error correction in speech recognition applications |
US8515728B2 (en) * | 2007-03-29 | 2013-08-20 | Microsoft Corporation | Language translation of visual and audio input |
DE102007056221B4 (de) | 2007-11-27 | 2009-07-09 | Siemens Ag Österreich | Verfahren zur Spracherkennung |
JP5451982B2 (ja) * | 2008-04-23 | 2014-03-26 | ニュアンス コミュニケーションズ,インコーポレイテッド | 支援装置、プログラムおよび支援方法 |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
ES2600227T3 (es) * | 2008-12-10 | 2017-02-07 | Agnitio S.L. | Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados |
US8392189B2 (en) * | 2009-09-28 | 2013-03-05 | Broadcom Corporation | Speech recognition using speech characteristic probabilities |
US8838449B2 (en) * | 2010-12-23 | 2014-09-16 | Microsoft Corporation | Word-dependent language model |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
CA2747153A1 (en) | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US8645138B1 (en) * | 2012-12-20 | 2014-02-04 | Google Inc. | Two-pass decoding for speech recognition of search and action requests |
US20150154002A1 (en) * | 2013-12-04 | 2015-06-04 | Google Inc. | User interface customization based on speaker characteristics |
US9418656B2 (en) | 2014-10-29 | 2016-08-16 | Google Inc. | Multi-stage hotword detection |
KR102387567B1 (ko) | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10614108B2 (en) * | 2015-11-10 | 2020-04-07 | International Business Machines Corporation | User interface for streaming spoken query |
CN106940998B (zh) * | 2015-12-31 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
KR102018331B1 (ko) | 2016-01-08 | 2019-09-04 | 한국전자통신연구원 | 음성 인식 시스템에서의 발화 검증 장치 및 그 방법 |
US10339918B2 (en) * | 2016-09-27 | 2019-07-02 | Intel IP Corporation | Adaptive speech endpoint detector |
US20180240466A1 (en) * | 2017-02-17 | 2018-08-23 | Intel Corporation | Speech Decoder and Language Interpreter With Asynchronous Pre-Processing |
CN107452379B (zh) * | 2017-08-17 | 2021-01-05 | 广州腾猴科技有限公司 | 一种方言语言的识别方法及虚拟现实教学方法和系统 |
CN110827794B (zh) * | 2019-12-06 | 2022-06-07 | 科大讯飞股份有限公司 | 语音识别中间结果的质量评测方法和装置 |
US11120786B2 (en) * | 2020-03-27 | 2021-09-14 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
CN115132197B (zh) * | 2022-05-27 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、程序产品及介质 |
CN116189668B (zh) * | 2023-04-24 | 2023-07-25 | 科大讯飞股份有限公司 | 语音分类、认知障碍检测方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100298177B1 (ko) | 1998-10-14 | 2001-08-07 | 이계철 | 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법 |
US6292778B1 (en) | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US6219640B1 (en) | 1999-08-06 | 2001-04-17 | International Business Machines Corporation | Methods and apparatus for audio-visual speaker recognition and utterance verification |
KR100762588B1 (ko) | 2001-06-26 | 2007-10-01 | 엘지전자 주식회사 | 화자적응과 오입력 거절을 결합한 음성인식 방법 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
-
2004
- 2004-12-21 KR KR1020040109126A patent/KR100655491B1/ko active IP Right Grant
-
2005
- 2005-04-01 US US11/095,555 patent/US7529665B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100869385B1 (ko) * | 2007-02-21 | 2008-11-19 | 인하대학교 산학협력단 | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 |
KR100901439B1 (ko) * | 2007-05-10 | 2009-06-05 | 인하대학교 산학협력단 | 서포트 벡터 머신을 이용한 음성 검출 방법 |
KR100940641B1 (ko) * | 2007-12-24 | 2010-02-05 | 한국과학기술원 | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 |
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
US11011172B2 (en) | 2014-01-21 | 2021-05-18 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
US11984119B2 (en) | 2014-01-21 | 2024-05-14 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
US10043520B2 (en) | 2014-07-09 | 2018-08-07 | Samsung Electronics Co., Ltd. | Multilevel speech recognition for candidate application group using first and second speech commands |
KR102075670B1 (ko) * | 2018-10-10 | 2020-03-02 | 서울시립대학교 산학협력단 | 나이 정보를 활용한 화자인식 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US7529665B2 (en) | 2009-05-05 |
US20060136207A1 (en) | 2006-06-22 |
KR100655491B1 (ko) | 2006-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100655491B1 (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
CN103426428B (zh) | 语音识别方法及系统 | |
US5839103A (en) | Speaker verification system using decision fusion logic | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
US20060287856A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
CN108766445A (zh) | 声纹识别方法及系统 | |
CN104143326A (zh) | 一种语音命令识别方法和装置 | |
EP0892388B1 (en) | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding | |
Li et al. | Verbal information verification | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
CN110390948B (zh) | 一种快速语音识别的方法及系统 | |
Dey et al. | Exploiting sequence information for text-dependent speaker verification | |
BenZeghiba et al. | User-customized password speaker verification using multiple reference and background models | |
CN104901807A (zh) | 一种可用于低端芯片的声纹密码方法 | |
Kadhim et al. | Enhancement and modification of automatic speaker verification by utilizing hidden Markov model | |
JPH1173196A (ja) | 話者の申し出識別を認証する方法 | |
KR100776729B1 (ko) | 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법 | |
KR20200129007A (ko) | 발화검증 장치 및 발화검증 방법 | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
US20180012603A1 (en) | System and methods for pronunciation analysis-based non-native speaker verification | |
Cai et al. | Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition | |
Fujita et al. | Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech. | |
KR100669244B1 (ko) | 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법 | |
Jiang et al. | A data selection strategy for utterance verification in continuous speech recognition. | |
JP3621922B2 (ja) | 文認識装置、文認識方法、プログラム、および媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20041221 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20060526 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20061129 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20061201 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20061204 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20091113 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20101201 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20111129 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20121129 Start annual number: 7 End annual number: 7 |
|
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20131128 Start annual number: 8 End annual number: 8 |
|
FPAY | Annual fee payment |
Payment date: 20151127 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20151127 Start annual number: 10 End annual number: 10 |
|
FPAY | Annual fee payment |
Payment date: 20161121 Year of fee payment: 11 |
|
PR1001 | Payment of annual fee |
Payment date: 20161121 Start annual number: 11 End annual number: 11 |
|
FPAY | Annual fee payment |
Payment date: 20181025 Year of fee payment: 13 |
|
PR1001 | Payment of annual fee |
Payment date: 20181025 Start annual number: 13 End annual number: 13 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20210912 |