KR100346736B1 - 음성인식방법 - Google Patents
음성인식방법 Download PDFInfo
- Publication number
- KR100346736B1 KR100346736B1 KR1019950019063A KR19950019063A KR100346736B1 KR 100346736 B1 KR100346736 B1 KR 100346736B1 KR 1019950019063 A KR1019950019063 A KR 1019950019063A KR 19950019063 A KR19950019063 A KR 19950019063A KR 100346736 B1 KR100346736 B1 KR 100346736B1
- Authority
- KR
- South Korea
- Prior art keywords
- pattern
- learning
- voice
- reference pattern
- average reference
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000007704 transition Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002567 autonomic effect Effects 0.000 description 1
- 210000000467 autonomic pathway Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법이 개시된다.
본 발명에 따른 음성인식방법은 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정; 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정; 상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및 상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.
본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.
Description
본 발명은 음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법에 관한 것이다.
다수의 학습용 음성패텅에서 평균참조패턴을 추출하여 인식에 이용하는 방법이 많이 연구되어져 왔다. 예를 들면 DP(Dynamic Programming)매칭을 이용하는 방법과 HMM(Hidden Markov Modeling)방법이 대표적으로 사용된다.
이러한 방법을 이용한 음성인식장치에서는 입력환경이 바뀌어 입력되는 음성신호에 왜곡이 발생하는 경우에도 높은 인식률을 얻기 위해서는 입력환경에 적응하도록 참조패턴의 적응과정이 필요하다.
그러나, 인식대상어휘가 많을 때에는 모든 입력환경을 고려하여 참조패턴을 구하는 것은 많은 시간과 노력을 요구하는 것이다.
이러한, 작업을 회피하기 위하여 화자적응에 관한 많은 연구가 수행되어졌지만 아직도 입력환경의 변화에 의한 인식률감소의 문제를 해결하기에는 미흡하다.
본 발명은 상기의 문제점을 해결하기 위하여 창출된 것으로서 노이즈첨가, 음색의 변화 등의 입력환경의 변화에 적응하여 인식률을 향상시키는 음성인식방법을 제공하는 것을 목적으로 한다.
상기의 목적을 달성하는 본 발명에 따른 음성인식방법은
학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;
학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;
상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및
상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.
본 발명에 따른 음성인식방법은 다음과 같은 과정을 따라 수행된다.
1) 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구한다.
음성인식기의 학습은 제1도에 도시되는 바와 같이 목표가 되는 음소에 대하여 복수의 학습패턴들이 주어지고, 목표클래스와 시간지연 신경망에서 인식한 결과로서 출력된 음소와의 차이를 구하고, 이를 피드백시켜 최적의 음소인식을 수행하는 가중치를 계산한다.
가중치는 20ms의 크기를 갖는 프레임을 순차적으로 처리해가면서 최적의 값을 갖도록 조정된다.
발생/천이확률은 인식대상어휘의 음소분포를 확률적으로 표시한 것을 말하며, 발생확률은 현상태에서의 음소발생을 예측하는 것이고, 천이확률은 현상태에서 어떤 음소가 주어졌을 때 다음상태의 음소를 예측하는 것이다.
2) 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신한다.
공통특징패턴은 자율신경만을 이용하여 중심벡터와 유클리디안 거리정보를 이용하여 학습패턴을 특징별로 분류한다.
구체적으로는 하나의 음소에 대한 공통특징패턴은 대상음소를 포함하는 M개의 단어마다 N개의 샘플을 설정하고, 설정된 N개의 샘플에서 공통되는 특징을 구하고, 구해진 M개의 공통되는 특징을 발생빈도수에 따른 가중평균에 의하여 구해진다.
예를 들면 제2도에 도시되는 바와 같이 /아/라는 음소에 대하여, 이를 포함하는 "아-ㄴ 녕하십니까", "아버지", 등등의 M개의 단어를 설정한다. 그리고, 자율신경망을 통하여 설정된 각각의 단어를 N회 반복발성하여 얻어진 N개의 음성신호에서 공통되는 패턴을 추출한다.
M개의 단어마다 공통되는 패턴을 추출하면 총 M개의 공통패턴이 추출된다. 이를 다시 가중평균하여 공통특징패턴을 얻는다.
이렇게 얻어진 공통특징패턴과 1)과정에서 얻어진 평균참조패턴을 가중평균하여 얻어진 패턴으로 평균참조패턴을 갱신한다.
3) 갱신된 평균참조패턴에 의해 입력되는 음성을 인식한다.
여기서, 입력되는 음성신호의 전체 음소들을 제3도에 도시되는 바와 같이 공통특징패턴을 포함하는 음소와 그렇지 않은 음소로 분리하고, 각각에 대하여 별도의 음성인식처리를 행한다.
학습패턴에 있던 공통특징패턴과 우사한 부분을 검출하여 그 부분의 음소를 미리 알아내어 인식해야 할 패턴수를 줄임으로써 인식률을 제고시킬 수 있다.
또한, 음력음성의 공통특징구간을 재학습시키면 현재 입력음성과 학습음성 간의 적응과정을 수행시키는 결과를 얻을 수 있다. 따라서, 입력환경의 변화 예를 들면, 노이즈가 가변되는 자동차 안이나 공장 등에서의 인식률을 향상시킬 수 있다.
4) 인식과정의 결과에 의해 발생/천이확률을 갱신한다.
최근에 사용된 음소들에 의해 발생/천이확률이 갱신됨으로써 자주 사용되는 어휘에 대해 가중치가 높아져서 인식률이 향상된다.
상술한 바와 같이 본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.
더우기, 입력환경의 변화에 대응하여 공통특징패턴을 재학습시킴에 의해 간단하게 화자적응을 달성할 수 있다.
제1도는 평균참조패턴을 학습하는 것을 보이는 도면이다.
제2도는 본 발명에 따른 음성인식방법에 있어서 공통특징패턴을 구하는 방법을 보이기 위한 도면이다.
제3도는 전체 입력음성에 있어서 공통특성패턴의 분포를 보이기 위한 도면이다.
Claims (1)
- 학습된 참조패턴을 참조하여 음성을 인식하는 방법에 있어서,학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정; 및상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함하는 음성인식방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019950019063A KR100346736B1 (ko) | 1995-06-30 | 1995-06-30 | 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019950019063A KR100346736B1 (ko) | 1995-06-30 | 1995-06-30 | 음성인식방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR970002854A KR970002854A (ko) | 1997-01-28 |
KR100346736B1 true KR100346736B1 (ko) | 2002-10-25 |
Family
ID=37488721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019950019063A KR100346736B1 (ko) | 1995-06-30 | 1995-06-30 | 음성인식방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100346736B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812317B2 (en) | 2009-01-14 | 2014-08-19 | Samsung Electronics Co., Ltd. | Signal processing apparatus capable of learning a voice command which is unsuccessfully recognized and method of recognizing a voice command thereof |
-
1995
- 1995-06-30 KR KR1019950019063A patent/KR100346736B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812317B2 (en) | 2009-01-14 | 2014-08-19 | Samsung Electronics Co., Ltd. | Signal processing apparatus capable of learning a voice command which is unsuccessfully recognized and method of recognizing a voice command thereof |
Also Published As
Publication number | Publication date |
---|---|
KR970002854A (ko) | 1997-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6553342B1 (en) | Tone based speech recognition | |
EP0535146B1 (en) | Continuous speech processing system | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
US5742928A (en) | Apparatus and method for speech recognition in the presence of unnatural speech effects | |
US7319959B1 (en) | Multi-source phoneme classification for noise-robust automatic speech recognition | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
JPH0585916B2 (ko) | ||
US5864809A (en) | Modification of sub-phoneme speech spectral models for lombard speech recognition | |
US5943647A (en) | Speech recognition based on HMMs | |
KR100346736B1 (ko) | 음성인식방법 | |
JPH08211897A (ja) | 音声認識装置 | |
KR100322731B1 (ko) | 음성인식방법및이에적합한음성패턴의시간정규화방법 | |
JP3571821B2 (ja) | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 | |
JPH09160585A (ja) | 音声認識装置および音声認識方法 | |
Schofield | Research on Speech Recognition at NPL | |
Zhou et al. | DNN-based unit selection using frame-sized speech segments | |
JP3900628B2 (ja) | 音声認識装置 | |
Soni | The Comprehensive Analysis Speech Recognition System | |
Priyanka | Enhancing the Technique of Speech Emotion recognition using Feature Learning | |
JP3256979B2 (ja) | 音響モデルの入力音声に対する尤度を求める方法 | |
JPH0229799A (ja) | 音素を単位とした音声認識装置 | |
O'Shaughnessy | Improving analysis techniques for automatic speech recognition | |
JPH02272498A (ja) | 音声認識方法 | |
JPH06175678A (ja) | 音声認識装置 | |
JP3105708B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E801 | Decision on dismissal of amendment | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080627 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |