KR20110033749A - 부단위 인식을 이용한 핵심어 검출 방법 - Google Patents
부단위 인식을 이용한 핵심어 검출 방법 Download PDFInfo
- Publication number
- KR20110033749A KR20110033749A KR1020090091362A KR20090091362A KR20110033749A KR 20110033749 A KR20110033749 A KR 20110033749A KR 1020090091362 A KR1020090091362 A KR 1020090091362A KR 20090091362 A KR20090091362 A KR 20090091362A KR 20110033749 A KR20110033749 A KR 20110033749A
- Authority
- KR
- South Korea
- Prior art keywords
- subunit
- penalty
- key word
- array
- recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000003780 insertion Methods 0.000 claims description 13
- 230000037431 insertion Effects 0.000 claims description 13
- 238000006467 substitution reaction Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007429 general method Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (8)
- 사용자가 발화한 음성에 핵심어가 포함되어 있는지 여부를 결정하는 핵심어 검출 방법에 있어서,(1) 사용자가 발화한 음성에 대하여 부단위 배열을 추출하는 단계;(2) 핵심어를 부단위 배열로 표현하는 단계; 및(3) 상기 단계 (2)에서 표현된 부단위 배열과, 상기 단계 (1)에서 추출된 부단위 배열을 비교하여, 상기 핵심어가 사용자가 발화한 상기 음성에 포함되어 있는지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는, 부단위 인식을 이용한 핵심어 검출 방법.
- 제1항에 있어서, 상기 단계 (1) 이전에,사용자가 발화한 음성에 대하여 특징 파라미터 추출을 포함하는 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.
- 제1항에 있어서, 상기 단계 (1)은, 부단위 인식기에 의해 수행되는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.
- 제1항에 있어서, 상기 단계 (3)은,a. 에러 패턴에 관한 페널티를 정의하는 단계;b. 상기 단계 a에서 정의된 페널티를 이용하여, 상기 단계 (2)에서 표현된 부단위 배열과 상기 단계 (1)에서 추출된 부단위 배열을 비교할 경우의 최소 페널티를 갖는 경로를 구하는 단계; 및c. 상기 단계 b에서 구해진 경로의 페널티 합을 문턱 값과 비교하여 핵심어 포함 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.
- 제4항에 있어서, 상기 단계 a에서,상기 에러 패턴으로서, 치환(substitution), 삽입(insertion), 삭제(deletion) 에러에 대한 페널티를 정의하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.
- 제4항에 있어서, 상기 단계 b에서,다음 수학식을 이용하여 최소 페널티를 갖는 경로를 찾기 위한 코스트 값을 구하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.여기서, C(i,j)는 상기 단계 (1)에서 추출된 부단위 배열의 i번째 원소 qi와 상기 단계 (2)에서 표현된 부단위 배열의 j번째 원소 pj에 대한 코스트 값을 나타내며, PM치환(qi,pj), PM삽입(qi,pj), PM삭제(qi,pj)는 각각 정답에 해당하는 pj가 인식 결과 qi로 치환된 경우에 해당하는 치환 페널티 값, 인식 결과에서 정답에 해당하는 pj 뒤에 추가로 qi가 삽입된 경우에 해당하는 삽입 페널티 값, 인식 결과에서 정답에 해당하는 qi 뒤에 있어야 할 pj가 삭제된 경우에 해당하는 삭제 페널티 값을 나타냄.
- 제6항에 있어서,상기 구해진 코스트 값을, 상기 단계 (1)에서 추출된 부단위 배열에서 역추적 결과 얻어진 경로의 길이 등으로 정규화하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.
- 제6항에 있어서, 상기 단계 c에서,다음의 수학식을 이용하여 핵심어 포함 여부를 결정하는 것을 특징으로 하는 부단위 인식을 이용한 핵심어 검출 방법.여기서, (Q(1),Q(2),,Q(K))는 인식결과 얻어진 가능한 모든 부단위 배열, P는 어떤 핵심어의 부단위 배열을 의미하며, H0과 H1은 각각 핵심어가 존재하지 않는 경우와 핵심어가 존재하는 경우를 나타내고, γ는 문턱 값, m(k)과 n은 각각 상기 단계 (1)에서 추출된 k번째 부단위 배열의 원소의 개수 및 상기 단계 (2)에서 표현된 부단위 배열의 원소의 개수를 나타내며, l(i,n)은 (i,n)으로부터 역추적 결과 얻어진 경로의 길이 등 정규화를 위해 계산된 값을 나타냄.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090091362A KR101037801B1 (ko) | 2009-09-25 | 2009-09-25 | 부단위 인식을 이용한 핵심어 검출 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090091362A KR101037801B1 (ko) | 2009-09-25 | 2009-09-25 | 부단위 인식을 이용한 핵심어 검출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110033749A true KR20110033749A (ko) | 2011-03-31 |
KR101037801B1 KR101037801B1 (ko) | 2011-05-31 |
Family
ID=43938105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090091362A KR101037801B1 (ko) | 2009-09-25 | 2009-09-25 | 부단위 인식을 이용한 핵심어 검출 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101037801B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4887264B2 (ja) * | 2007-11-21 | 2012-02-29 | 株式会社日立製作所 | 音声データ検索システム |
-
2009
- 2009-09-25 KR KR1020090091362A patent/KR101037801B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR101037801B1 (ko) | 2011-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270685B2 (en) | Speech based user recognition | |
US20200380987A1 (en) | User recognition for speech processing systems | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US20080312926A1 (en) | Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition | |
US20220343895A1 (en) | User-defined keyword spotting | |
WO2008100971A1 (en) | Text-dependent speaker verification | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
Lugosch et al. | DONUT: CTC-based query-by-example keyword spotting | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Kurian et al. | Speech recognition of Malayalam numbers | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
US6662158B1 (en) | Temporal pattern recognition method and apparatus utilizing segment and frame-based models | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Aradilla | Acoustic models for posterior features in speech recognition | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 | |
Chou et al. | Minimum classification error (MCE) approach in pattern recognition | |
Tabibian | A survey on structured discriminative spoken keyword spotting | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
US20220005462A1 (en) | Method and device for generating optimal language model using big data | |
US20210398521A1 (en) | Method and device for providing voice recognition service | |
JP4749990B2 (ja) | 音声認識装置 | |
Gabriel | Automatic speech recognition in somali | |
Herbig et al. | Adaptive systems for unsupervised speaker tracking and speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140507 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150430 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160128 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170421 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180425 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190429 Year of fee payment: 9 |