KR101068120B1 - 다중 탐색 기반의 음성 인식 장치 및 그 방법 - Google Patents
다중 탐색 기반의 음성 인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR101068120B1 KR101068120B1 KR1020080126244A KR20080126244A KR101068120B1 KR 101068120 B1 KR101068120 B1 KR 101068120B1 KR 1020080126244 A KR1020080126244 A KR 1020080126244A KR 20080126244 A KR20080126244 A KR 20080126244A KR 101068120 B1 KR101068120 B1 KR 101068120B1
- Authority
- KR
- South Korea
- Prior art keywords
- search
- voice
- fsn
- speech recognition
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002620 method output Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (10)
- 입력된 음성 신호를 인식하는 음성 인식 장치로서,상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 음성 특징 추출 블록과,음소들을 통계적으로 모델링한 음향 모델을 저장하는 음향 모델 데이터베이스와,FSN(Finite State Network) 언어 모델 및 N-gram 언어 모델을 저장하는 언어 모델 데이터베이스와,상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 제 1 음성 탐색과 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하고, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하고, 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 상기 제 3 음성 탐색에 따른 음성 인식 결과를 출력하는 다중 탐색 블록을 포함하는 다중 탐색 기반의 음성 인식 장치.
- 제 1 항에 있어서,상기 다중 탐색 블록은,상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 상기 제 1 음성 탐색을 수행하여 제 1 단어 격자를 출력하는 제 1 음성 탐색부와,상기 추출된 특징 데이터에 대해 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 수행하여 제 2 단어 격자를 출력하는 제 2 음성 탐색부와,상기 제 1 단어 격자 및 제 2 단어 격자를 통합하여 FSN 방식의 상기 통합 탐색 네트워크를 생성하는 통합 탐색 네트워크 생성부와,상기 특징 데이터에 대해 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 그에 따른 음성 인식 결과를 출력하는 제 3 음성 탐색부를 포함하는 다중 탐색 기반의 음성 인식 장치.
- 제 1 항 또는 제 2 항에 있어서,상기 특징 데이터는, MFCC(Mel-Frequency Cepstrum Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 및 PLP(Perceptual Linear Prediction) 중 어느 하나의 기법으로 추출된 특징 벡터인 다중 탐색 기반의 음성 인식 장치.
- 제 1 항 또는 제 2 항에 있어서,상기 음향 모델은, HMM(Hidden Markov Model) 기법으로 모델링된 다중 탐색 기반의 음성 인식 장치.
- 제 2 항에 있어서,상기 제 1 단어 격자 및 제 2 단어 격자는, 상기 FSN 방식 및 N-gram 방식의 각 음성 탐색을 수행하여 관측 확률 및 언어 모델 확률이 가장 높은 우선 순위 단어열과, 기 설정된 확률값보다 상대적으로 높은 다수의 차순위 단어열을 포함하여 출력되는 다중 탐색 기반의 음성 인식 장치.
- 입력된 음성 신호를 인식하는 음성 인식 방법으로서,상기 입력된 음성 신호에 대한 특징 데이터를 추출하는 단계와,상기 추출된 특징 데이터에 대해 음향 모델 및 FSN(Finite State Network) 언어 모델을 이용한 제 1 음성 탐색과 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 병렬 수행하는 단계와,병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따른 통합 탐색 네트워크를 생성하는 단계와,상기 특징 데이터에 대해 상기 생성된 통합 탐색 네트워크 및 음향 모델을 이용하여 제 3 음성 탐색을 수행하며, 그에 따른 음성 인식 결과를 출력하는 단계를 포함하는 다중 탐색 기반의 음성 인식 방법.
- 제 6 항에 있어서,상기 특징 데이터를 추출하는 단계는, MFCC(Mel-Frequency Cepstrum Coefficients), LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 및 PLP(Perceptual Linear Prediction) 중 어느 하나의 기법으로 상기 음성 신호에 대응하는 특징 벡터를 추출하는 다중 탐색 기반의 음성 인식 방법.
- 제 6 항에 있어서,상기 병렬 수행하는 단계는,상기 추출된 특징 데이터에 대해 상기 음향 모델 및 FSN 언어 모델을 이용한 상기 제 1 음성 탐색을 수행하여 제 1 단어 격자를 출력하는 단계와,상기 추출된 특징 데이터에 대해 상기 음향 모델 및 N-gram 언어 모델을 이용한 제 2 음성 탐색을 수행하여 제 2 단어 격자를 출력하는 단계를 포함하는 다중 탐색 기반의 음성 인식 방법.
- 제 6 항에 있어서,상기 통합 탐색 네트워크를 생성하는 단계는, 병렬 수행된 상기 제 1 음성 탐색 및 제 2 음성 탐색에 따라 관측 확률 및 언어 모델 확률이 가장 높은 우선 순위 단어열과 기 설정된 확률값보다 상대적으로 높은 다수의 차순위 단어열을 포함하여 FSN 방식으로 상기 통합 탐색 네트워크를 생성하는 다중 탐색 기반의 음성 인식 방법.
- 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,상기 음향 모델은, HMM(Hidden Markov Model) 기법으로 모델링된 다중 탐색 기반의 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080126244A KR101068120B1 (ko) | 2008-12-12 | 2008-12-12 | 다중 탐색 기반의 음성 인식 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080126244A KR101068120B1 (ko) | 2008-12-12 | 2008-12-12 | 다중 탐색 기반의 음성 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100067727A KR20100067727A (ko) | 2010-06-22 |
KR101068120B1 true KR101068120B1 (ko) | 2011-09-28 |
Family
ID=42366283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080126244A Expired - Fee Related KR101068120B1 (ko) | 2008-12-12 | 2008-12-12 | 다중 탐색 기반의 음성 인식 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101068120B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779734B2 (en) | 2014-03-31 | 2017-10-03 | Samsung Electronics Co., Ltd. | Speech recognition system and method for recognizing a command to control a target |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161717B (zh) * | 2019-12-26 | 2022-03-22 | 思必驰科技股份有限公司 | 用于语音对话平台的技能调度方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040051350A (ko) * | 2002-12-12 | 2004-06-18 | 한국전자통신연구원 | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 |
-
2008
- 2008-12-12 KR KR1020080126244A patent/KR101068120B1/ko not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040051350A (ko) * | 2002-12-12 | 2004-06-18 | 한국전자통신연구원 | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779734B2 (en) | 2014-03-31 | 2017-10-03 | Samsung Electronics Co., Ltd. | Speech recognition system and method for recognizing a command to control a target |
Also Published As
Publication number | Publication date |
---|---|
KR20100067727A (ko) | 2010-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US7472061B1 (en) | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations | |
CN101847405B (zh) | 语音识别装置和方法、语言模型产生装置和方法 | |
US8321218B2 (en) | Searching in audio speech | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
Gutkin et al. | TTS for low resource languages: A Bangla synthesizer | |
Ashraf et al. | Speaker independent Urdu speech recognition using HMM | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
Ananthakrishnan et al. | Improved speech recognition using acoustic and lexical correlates of pitch accent in a n-best rescoring framework | |
Arısoy et al. | A unified language model for large vocabulary continuous speech recognition of Turkish | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
Mukherjee et al. | REARC-a Bangla Phoneme recognizer | |
KR101068120B1 (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
Zhang et al. | Mandarin-English bilingual speech recognition for real world music retrieval | |
Tan | Speech translation | |
Kimutai et al. | Isolated Swahili words recognition using Sphinx4 | |
JP2013250379A (ja) | 音声認識装置、音声認識方法およびプログラム | |
Vanhainen et al. | Free Acoustic and Language Models for Large Vocabulary Continuous Speech Recognition in Swedish | |
Lee | Speech translation | |
Babykutty et al. | Development of multilingual phonetic engine for four Indian languages | |
Abdulhameed | Cross Language Information Transfer Between Modern Standard Arabic and Its Dialects–a Framework for Automatic Speech Recognition System Language Model | |
Rasipuram et al. | Probabilistic lexical modeling and unsupervised training for zero-resourced ASR | |
Khan et al. | Assessing Performance of Bengali Speech Recognizers Under Real World Conditions using GMM-HMM and DNN based Methods. | |
Hasegawa-Johnson et al. | Fast transcription of speech in low-resource languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20081212 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20110208 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20110914 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20110921 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20110922 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20140827 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20140827 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150827 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20150827 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160826 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20160826 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190121 Year of fee payment: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20190121 Start annual number: 8 End annual number: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190923 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20190923 Start annual number: 9 End annual number: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20200921 Start annual number: 10 End annual number: 10 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20230702 |