KR101578766B1 - 음성 인식용 탐색 공간 생성 장치 및 방법 - Google Patents
음성 인식용 탐색 공간 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR101578766B1 KR101578766B1 KR1020110090283A KR20110090283A KR101578766B1 KR 101578766 B1 KR101578766 B1 KR 101578766B1 KR 1020110090283 A KR1020110090283 A KR 1020110090283A KR 20110090283 A KR20110090283 A KR 20110090283A KR 101578766 B1 KR101578766 B1 KR 101578766B1
- Authority
- KR
- South Korea
- Prior art keywords
- search space
- word
- selective
- speech recognition
- database
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000011835 investigation Methods 0.000 title 1
- 238000012549 training Methods 0.000 claims description 15
- 238000013518 transcription Methods 0.000 claims description 11
- 230000035897 transcription Effects 0.000 claims description 11
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 230000002542 deteriorative effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
이를 위하여 본 발명은 발음 사전과, 선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와, 상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 드린 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 드린 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와, 상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하는 음성 인식용 탐색 공간 생성 장치를 제공한다.
Description
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성할 수 있는 기능을 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치는 음향 모델 훈련용 음성 발화 데이터베이스와, 선택적 포즈가 일괄 포함된 탐색 공간과, 상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와, 상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성될 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 음성 인식 결과 분석부는, 상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와, 상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함할 수 있다.
본 발명의 다른 관점에 따르면, 본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법은 음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와, 발음 사전으로부터 단어를 읽어 들리는 단계와, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와, 상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법에서 상기 단어 목록 데이터베이스를 구축하는 단계는, 상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 단계와, 상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 단계와, 상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 단계와, 상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 단계들을 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 단계와, 상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 단계를 포함할 수 있다.
도 2는 본 발명의 실시 예에 따라 선택적 포즈를 삽입할 단어 목록을 생성하기 위한 장치를 도시한 블록도,
도 3은 본 발명의 실시 예에 따라 선택적 포즈가 삽입될 단어 목록을 산출하는 과정을 설명하기 위한 도면이다.
140 : WFST L 구현부 160 : WFST L 데이터베이스
200 : 음향 모델
210 : 음향 모델 훈련용 음성 발화 데이터베이스
220 : 음성 인식부
230 : 선택적 포즈가 일괄 포함된 탐색 공간
240 : 음성 인식 결과 분석부
300 : 선택적 포즈 검색부
310 :빈도별정렬부
Claims (8)
- 발음 사전과,
선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와,
상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어의 발음열에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와,
상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하되,
상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성하는 기능을 포함하는 것을 특징으로 하는 음성 인식용 탐색 공간 생성 장치.
- 삭제
- 제 1 항에 있어서,
음향 모델 훈련용 음성 발화 데이터베이스와,
선택적 포즈가 일괄 포함된 탐색 공간과,
상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와,
상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함하는
음성 인식용 탐색 공간 생성 장치.
- 제 3 항에 있어서,
상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성되는
음성 인식용 탐색 공간 생성 장치.
- 제 3 항에 있어서,
상기 음성 인식 결과 분석부는,
상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와,
상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함하는
음성 인식용 탐색 공간 생성 장치.
- 음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와,
발음 사전으로부터 단어를 읽어 들이는 단계와,
상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와,
상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함하며,
상기 단어 목록 데이터베이스를 구축하는 단계는,
상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 제1 단계와,
상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 제2 단계와,
상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 제3 단계와,
상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 제1 단계 내지 제3 단계를 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 제4 단계와,
상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하는 제5 단계를 포함하는
음성 인식용 탐색 공간 생성 방법.
- 삭제
- 제 6 항에 있어서,
상기 단어 목록을 생성하는 제5 단계는,
상기 산출된 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 단어 목록을 생성하는
음성 인식용 탐색 공간 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110090283A KR101578766B1 (ko) | 2011-09-06 | 2011-09-06 | 음성 인식용 탐색 공간 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110090283A KR101578766B1 (ko) | 2011-09-06 | 2011-09-06 | 음성 인식용 탐색 공간 생성 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130026855A KR20130026855A (ko) | 2013-03-14 |
KR101578766B1 true KR101578766B1 (ko) | 2015-12-22 |
Family
ID=48177999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110090283A KR101578766B1 (ko) | 2011-09-06 | 2011-09-06 | 음성 인식용 탐색 공간 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101578766B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230006625A (ko) | 2016-05-27 | 2023-01-10 | 주식회사 케이티 | Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102069700B1 (ko) | 2014-05-20 | 2020-01-23 | 한국전자통신연구원 | 특화영역 교체형 음성인식 시스템, 모바일 장치 및 그 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100981540B1 (ko) * | 2003-04-24 | 2010-09-10 | 주식회사 케이티 | 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법 |
-
2011
- 2011-09-06 KR KR1020110090283A patent/KR101578766B1/ko active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230006625A (ko) | 2016-05-27 | 2023-01-10 | 주식회사 케이티 | Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20130026855A (ko) | 2013-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
CN111862954B (zh) | 一种语音识别模型的获取方法及装置 | |
KR20180028893A (ko) | 음성 인식 시스템 및 방법 | |
Elloumi et al. | Asr performance prediction on unseen broadcast programs using convolutional neural networks | |
KR101578766B1 (ko) | 음성 인식용 탐색 공간 생성 장치 및 방법 | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
Kim et al. | Non-native pronunciation variation modeling using an indirect data driven method | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
KR20040061070A (ko) | 음성인식시스템에서의 음성인식장치 및 그 방법 | |
JP2021033228A (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
Tunalı | A speaker dependent, large vocabulary, isolated word speech recognition system for turkish | |
Lung et al. | Implementation of vocal tract length normalization for phoneme recognition on TIMIT speech corpus | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
Singh et al. | Speech recognition system for north-east Indian accent | |
KR20140051519A (ko) | 연속어 음성인식 방법 및 연속어 음성인식 장치 | |
Khalifa et al. | Statistical modeling for speech recognition | |
Jalalvand et al. | A classifier combination approach for Farsi accents recognition | |
KR20210054001A (ko) | 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20110906 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20130624 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20110906 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20140725 Patent event code: PE09021S01D |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150109 Patent event code: PE09021S01D |
|
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20150728 Patent event code: PE09021S02D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20151210 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20151214 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20151215 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20181030 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20181030 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20190911 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20200819 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20211006 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20220921 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20230925 Start annual number: 9 End annual number: 9 |