KR100557650B1 - 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 - Google Patents
문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 Download PDFInfo
- Publication number
- KR100557650B1 KR100557650B1 KR1020020058105A KR20020058105A KR100557650B1 KR 100557650 B1 KR100557650 B1 KR 100557650B1 KR 1020020058105 A KR1020020058105 A KR 1020020058105A KR 20020058105 A KR20020058105 A KR 20020058105A KR 100557650 B1 KR100557650 B1 KR 100557650B1
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- state
- duration information
- context
- dependent
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (7)
- 결정트리 기반 음소 모델링을 이용한 음성인식 시스템에서의 음성인식 방법에 있어서,결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 단계;인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 단계;결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 단계; 및상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 음성인식 단계를 포함하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
- 제 1 항에 있어서,상기 문맥 종속 음소는,다이폰으로 변경 가능하며, 결정트리 기반 모델링일 경우 음소단위 지속시간 정보를 만들 때 상태단위 정보를 만들어서 저장하고, 추후 사용할 때 음소단위 혹은 다이폰 지속시간 정보로 변환시켜 사용하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
- 제 1 항에 있어서,상기 결정트리 기반 음소 모델링 훈련과정에서,상태 지속시간 정보를 구하기 위하여 은닉 마르코프 모델(HMM) 파라미터를 먼저 구하고, 비터비 탐색기를 수행하여 상태 단위로 분할한 후, 상태 지속시간 정보로서 평균값과 분산값을 구하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
- 제 1 항에 있어서,상기 음성인식 단계는,비터비 탐색을 통해 인식 과정을 수행하되, 비터비 탐색시에 매 음소가 끝나는 프레임에서 음소 지속시간 정보에 의한 로그 유사도 값을 더하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 변환시킬 수 있도록,음소 지속시간을 랜덤 배리어블(random variable)로 정의하고 이때의 확률 분포를 감마(gamma) 분포로 갖는다고 가정하며, 또한 상태(B, M, E)는 서로 독립된 랜덤 프로세스라고 가정하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 상태 지속시간 정보로부터 상기 문맥 종속 음소 지속시간 정보를 쉽게 구하기 위해서,상태(B, M, E) 각각의 지속시간을 서로 독립된 랜덤 프로세서라고 가정하고 상기 문맥 종속 음소 지속시간을 상태 랜덤 프로세서의 합이라고 가정하여 E[음소 지속시간] = E[B 상태 지속시간] + E[M 상태 지속시간] + E(E 상태 지속시간], Var[음소 지속시간] = Var[B 상태 지속시간] + Var[M 상태 지속시간] + Var[E 상태 지속시간]가 성립되도록 랜덤 프로세서의 확률 분포를 감마 함수로 정의하는 것을 특징으로 하는 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법.
- 프로세서를 구비한 결정트리 기반 음소 모델 음성인식 시스템에,결정트리 기반 음소 모델링 훈련과정을 통해 문맥 종속 음소를 이루고 있는 상태의 지속시간 정보를 확률값으로 구하여 상태 단위로 저장하는 기능;인식 대상 후보 단어를 읽어서 단어를 구성하는 문맥 종속 음소를 구하는 기능;결정트리 기반 음소 모델을 바탕으로, 상기 구하여진 문맥 종속 음소에 해당하는 상태를 구하여, 해당 상태의 지속시간 정보로부터 음소 지속시간 정보를 구하는 기능; 및상기 음소 지속시간 정보를 이용하여 단어/문장을 인식하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020058105A KR100557650B1 (ko) | 2002-09-25 | 2002-09-25 | 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020058105A KR100557650B1 (ko) | 2002-09-25 | 2002-09-25 | 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040026566A KR20040026566A (ko) | 2004-03-31 |
KR100557650B1 true KR100557650B1 (ko) | 2006-03-10 |
Family
ID=37329039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020058105A KR100557650B1 (ko) | 2002-09-25 | 2002-09-25 | 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100557650B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244688A (ja) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH1185186A (ja) * | 1997-09-08 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者音響モデル生成装置及び音声認識装置 |
KR20000025827A (ko) * | 1998-10-14 | 2000-05-06 | 이계철 | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 |
KR20010004468A (ko) * | 1999-06-29 | 2001-01-15 | 이계철 | 음성인식을 위한 문맥 종속 유사 음소의 생성 방법 |
-
2002
- 2002-09-25 KR KR1020020058105A patent/KR100557650B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244688A (ja) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH1185186A (ja) * | 1997-09-08 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 不特定話者音響モデル生成装置及び音声認識装置 |
KR20000025827A (ko) * | 1998-10-14 | 2000-05-06 | 이계철 | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 |
KR20010004468A (ko) * | 1999-06-29 | 2001-01-15 | 이계철 | 음성인식을 위한 문맥 종속 유사 음소의 생성 방법 |
Non-Patent Citations (2)
Title |
---|
(1991.4.14 ICASSP 발행, Using phoneme duration and energy contour information * |
(1992.3.23 ICASSP 발행, Modeling state durations in hidden Markov models * |
Also Published As
Publication number | Publication date |
---|---|
KR20040026566A (ko) | 2004-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5884259A (en) | Method and apparatus for a time-synchronous tree-based search strategy | |
US6073095A (en) | Fast vocabulary independent method and apparatus for spotting words in speech | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
JP3004254B2 (ja) | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 | |
JP5533042B2 (ja) | 音声検索装置、音声検索方法、プログラム及び記録媒体 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
Seymore et al. | The 1997 CMU Sphinx-3 English broadcast news transcription system | |
EP1178466B1 (en) | Recognition system using lexical trees | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
CA2303011A1 (en) | Speech recognition system for recognizing continuous and isolated speech | |
US8255220B2 (en) | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database | |
EP0903730B1 (en) | Search and rescoring method for a speech recognition system | |
JP2011027910A (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
KR100573870B1 (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
JP4270732B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR100557650B1 (ko) | 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
Tabibian et al. | Improved dynamic match phone lattice search for Persian spoken term detection system in online and offline applications | |
Hirsimäki | A decoder for large vocabulary continuous speech recognition | |
Wang et al. | Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130205 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140205 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150205 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160203 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170203 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20180326 Year of fee payment: 13 |