KR19990056312A - 음성인식시스템에서의 단어 학습 및 인식 방법 - Google Patents
음성인식시스템에서의 단어 학습 및 인식 방법 Download PDFInfo
- Publication number
- KR19990056312A KR19990056312A KR1019970076306A KR19970076306A KR19990056312A KR 19990056312 A KR19990056312 A KR 19990056312A KR 1019970076306 A KR1019970076306 A KR 1019970076306A KR 19970076306 A KR19970076306 A KR 19970076306A KR 19990056312 A KR19990056312 A KR 19990056312A
- Authority
- KR
- South Korea
- Prior art keywords
- word model
- section
- word
- model
- pattern
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 인간의 음성을 인식하기 위한 음성인식시스템에 있어서, 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, 이 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법에 관한 것으로, 학습 데이터의 섹션을 등분할한 후 코드북과 각 섹션의 평균길이를 이용하여 단어 모델을 만들고, 이 단어 모델이 이전의 모델과 동일할 때까지 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 섹션길이가 가변적인 단어 모델을 데이터 베이스에 저장하도록 하며, 이후 DP와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ기법을 이용하여 입력되는 음성 패턴과 데이터 베이스에 저장된 단어 모델과의 최적경로를 계산하여, 최적경로가 가장 짧은 단어 모델로 입력되는 음성을 인식할 수 있도록 함으로써 화자독립시스템과 화자종속시스템에서 음성 인식율을 높일 수 있게 되는 효과가 있다.
Description
본 발명은 인간의 음성을 인식하기 위한 음성인식시스템에 있어서, 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, 이 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법에 관한 것이다.
일반적으로, 인간의 음성과 같은 자연음을 인식하고자 하는 음성인식시스템은 도 1에 도시된 바와 같이 입력되는 신호로부터 음성구간을 검출하는 음성구간 검출부(1)와, MFCC 계수를 사용하여 상기 음성구간 검출부(1)에서 검출된 음성구간으로부터 그 특징을 추출하는 특징계수 추출부(2)와, HMM(Hidden Markov Model) 등의 알고리즘을 이용하여 음성신호를 인식하는 음성 인식부(3)와, 음성신호에 의해 학습된 단어 모델이 저장되어 있는 데이터 베이스(4)와, 상기 음성 인식부(3)에서 인식된 음성신호에 대해 실효성을 판단하여 인식되는 단어를 출력하는 후처리부(5)로 구성된다.
상기와 같이 구성된 음성인식시스템에 있어서, 음성인식 부분은 음성인식시스템의 핵심이라 할 수 있으며, 대표적인 음성인식 알고리즘으로는 HMM, VQ(Vector Quantization), DTW(Dynamic Time Warpng), 신경망(Neural Network) 등이 있다.
이중에서 가장 널리 쓰이고 있는 HMM은 화자독립 음성인식에서 가장 좋은 결과를 보이고 있으나, 그 특성상 많은 양의 학습 데이터를 필요로 하기 때문에 화자종속시스템에는 적용하기 어렵다.
반면, DTW의 경우 화자종속시스템에서는 어느 정도 성능을 나타내지만 화자독립으로까지는 발전하지 못하였으며, 음성구간을 고정된 크기의 섹션으로 강제 분할하는 VQ나 신경망은 독자적으로 쓰이기 보다는 다른 알고리즘과 결합되어 사용된다.
상기와 같이, 종래 음성인식 알고리즘은 화자독립시스템과 화자종속시스템 모두에서 효과적이지 못한 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 그 목적은 음성구간의 섹션길이를 가변적으로 설정하여 단어 모델을 만들고, DP(Dynamic Programing)와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ(Variable Multi-Section Vector Quantization)기법을 이용하여 단어 모델과 입력되는 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있도록 하여 화자독립시스템과 화자종속시스템에서의 음성 인식율을 높일 수 있도록 한 음성인식시스템에서의 단어 학습 및 인식 방법을 제공하는 데에 있다.
이러한 목적을 달성하기 위한 본 발명의 음성인식시스템에서의 단어 학습 및 인식 방법은, 학습 데이터의 섹션을 등분할한 후 코드북과 각 섹션의 평균길이를 이용하여 단어 모델을 만들고, 이 단어 모델이 이전의 모델과 동일할 때까지 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 섹션 길이가 다른 단어 모델을 데이터 베이스에 저장하도록 하며, 이후 DP와 같은 비선형적인 패턴매칭을 수행하는 VMS VQ기법을 이용하여 입력되는 음성 패턴과 데이터 베이스에 저장된 단어 모델과의 최적경로를 계산하여, 최적경로가 가장 짧은 단어 모델로 입력되는 음성을 인식할 수 있도록 하는 것을 특징으로 한다.
도 1은 일반적인 음성인식시스템의 블록 구성도,
도 2는 본 발명에 의한 단어 학습 방법을 보인 흐름도,
도 3은 본 발명에 의한 단어 학습에 따라 만들어진 단어 모델을 보인 도면,
도 4는 본 발명에 의한 단어 인식 방법을 보인 흐름도.
<도면의 주요부분에 대한 부호의 설명>
1 : 음성구간 검출부 2 : 특징계수 추출부
3 : 음성 인식부 4 : 데이터 베이스
5 : 후처리부
이하, 첨부된 도면을 참고하여 본 발명에 의한 음성인식시스템에서의 단어 학습 및 인식 방법을 상세히 설명한다.
먼저, 도 2의 흐름도를 참조하여 본 발명에 의한 단어 학습 방법을 설명하면, 우선 학습하고자 하는 데이터를 N개의 섹션으로 등분할한다(S10).
이어, 각 섹션에 대해 동일한 섹션의 벡터들을 한 공간에 순서없이 넣고 집단화하고(S11), 코드워드를 계산하여 코드북을 작성하고 각 섹션의 평균 길이를 계산하여 단어 모델을 만는다(S12).
이때, 상기 단계(S12)에서 만들어진 단어 모델(Wi)은 도 3에 도시된 바와 같이 다수의 섹션(Ci1,Ci2,Ci3…CiN)으로 구성되며, 하나의 섹션(a)은 각 섹션을 대표하는 값(C1 i3,C2 i3,…CS i3)인 코드워드(b)와 섹션길이(lij)(c)로 구성된다.
즉, 본 발명에서는 한 섹션의 길이가 가변적으로 설정되므로 각 섹션에 섹션길이 정보를 함께 두어 단어 모델을 표현한다.
그리고 나서, 상기 단계(S12)에서 만들어진 단어 모델이 이전의 모델과 동일한지를 비교하여(S13) 이전의 모델과 동일하다면 만들어진 단어 모델을 데이터 베이스에 저장하고(S14), 이전의 모델과 동일하지 않다면 새모델 학습 패턴간에 패턴매칭을 수행하고(S16) 학습 패턴의 섹션을 재분할하여(S17) 이전의 단어 모델과 동일해질 때까지 반복 수행하도록 하여(S16) 이전의 모델과 동일해진 단어 모델을 데이터 베이스에 저장한다.
그러나, 임계값 이상으로 패턴매칭과 섹션 재분할을 수행하였는데도 이전의 단어 모델과 더 이상 동일하지 않게 되면 단어 모델을 그대로 데이터 베이스에 저장한다.
상기와 같은 학습 방법을 통해 섹션의 길이가 서로 다른 단어 모델을 만들어 데이터 베이스에 저장하게 되면, 입력되는 음성 패턴을 상기 데이터 베이스에 저장된 단어 모델과 비교하여 가장 유사한 단어 모델을 통해 인식할 수 있게 된다.
즉, 본 발명에 의한 단어 인식 방법을 도 4의 흐름도를 참조하여 설명하면 다음과 같다.
임의의 음성 패턴을 입력하여(S20), 아래 수학식 1을 이용하여 입력 음성 패턴(I는 프레임수)에 대한 단어 모델()과의 최적거리를 계산한다(S21).
여기서,는 입력 음성 벡터의 섹션 경계로서,이고,이다.
입력 음성의번째 섹션 구간은부터사이의 벡터이다.
이때, 상기는 입력 음성 패턴의 j 번째 섹션 벡터들과 단어 모델 j 번째 섹션의 코드워드와의 최소거리로서, 아래 수학식 2와 같이 표현된다.
여기서,는 벡터거리이다.
그리고, 상기는 입력 음성 벡터의번째 세그먼트 길이와 단어 모델번째 섹션길이와의 거리로서, 아래 수학식 3과 같이 표현된다.
여기서,는 스칼라거리이고,는 섹션의 0 또는 양의 무게 상수이다.
한편, 상기를 효과적으로 계산하기 위해 DP 기법을 이용하여 단어 모델의 첫 번째 섹션과 입력 음성의 첫 번째 벡터로부터 단어 모델의번째 섹션과 입력 음성의번째 벡터까지의 최적 경로에 대한 누적거리를 아래 수학식 4에 의해 계산한다.
이후, 상기 수학식들에 의해 구해진 입력 음성 패턴과 단어 모델과의 최적경로에서 거리가 가장 짧은 최적경로를 갖는 단어 모델을 이용하여 입력되는 음성을 인식하도록 한다(S22).
이상, 상기 설명에서와 같이 본 발명은 VMS VQ 기법을 이용하여 가변의 섹션길이를 갖는 단어 모델과 입력 음성 패턴과의 최적경로를 구해 가장 유사한 단어 모델로 입력되는 음성을 인식할 수 있어 화자독립시스템과 화자종속시스템에서의 음성 인식율을 높일 수 있게 되는 효과가 있다.
Claims (3)
- 학습 데이터를 섹션으로 등분할하는 제1단계와, 상기 제1단계에서 분할된 각 섹션에 대해 동일한 섹션의 벡터들을 집단화하는 제2단계와, 상기 제2단계 수행 후, 코드워드를 계산하여 코드북을 작성하고 각 섹션의 평균 길이를 계산하여 단어 모델을 만드는 제3단계와, 상기 제3단계에서 만들어진 단어 모델이 이전의 모델과 동일한지를 비교하여 이전의 모델과 동일할 때까지 새모델 학습 패턴간에 패턴매칭을 수행하고 학습 패턴의 섹션을 재분할하여 단어 모델을 데이터 베이스에 저장하는 제4단계로 이루어지는 것을 특징으로 하는 음성인식시스템에서의 단어 학습 방법.
- 제1항에 있어서, 상기 단어 모델이 코드워드와 섹션길이로 이루어진 다수의 섹션으로 구성되는 것을 특징으로 하는 음성인식시스템에서의 단어 학습 방법.
- 입력되는 음성 패턴에 대해 데이터 베이스에 저장된 단어 모델과의 최적경로를 구하는 단계와, 상기 단계에서 구한 입력 음성 패턴과 단어 모델과의 최적경로에서 거리가 가장 짧은 최적경로를 갖는 단어 모델로 입력 음성을 인식하는 단계로 이루어지는 것을 특징으로 하는 음성인식시스템에서의 단어 인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970076306A KR100301596B1 (en) | 1997-12-29 | 1997-12-29 | Method of studying and recognizing word in voice recognition system |
JP10367759A JPH11352982A (ja) | 1997-12-29 | 1998-12-24 | 音声認識システムにおける単語学習および認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970076306A KR100301596B1 (en) | 1997-12-29 | 1997-12-29 | Method of studying and recognizing word in voice recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990056312A true KR19990056312A (ko) | 1999-07-15 |
KR100301596B1 KR100301596B1 (en) | 2001-06-26 |
Family
ID=19529205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970076306A KR100301596B1 (en) | 1997-12-29 | 1997-12-29 | Method of studying and recognizing word in voice recognition system |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPH11352982A (ko) |
KR (1) | KR100301596B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101556594B1 (ko) | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
-
1997
- 1997-12-29 KR KR1019970076306A patent/KR100301596B1/ko not_active IP Right Cessation
-
1998
- 1998-12-24 JP JP10367759A patent/JPH11352982A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JPH11352982A (ja) | 1999-12-24 |
KR100301596B1 (en) | 2001-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0771461B1 (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying | |
AU712412B2 (en) | Speech processing | |
JP2795058B2 (ja) | 時系列信号処理装置 | |
US5675706A (en) | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition | |
KR19980702723A (ko) | 음성 인식 방법 및 장치 | |
US6725196B2 (en) | Pattern matching method and apparatus | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
US6226610B1 (en) | DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point | |
KR102449840B1 (ko) | 사용자 적응적인 음성 인식 방법 및 장치 | |
KR20170088165A (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
JP2531227B2 (ja) | 音声認識装置 | |
KR19990056312A (ko) | 음성인식시스템에서의 단어 학습 및 인식 방법 | |
CN112951277B (zh) | 评测语音的方法和装置 | |
CA1229925A (en) | Speech recognition method | |
JP2005091758A (ja) | 話者認識システム及び方法 | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JP3044741B2 (ja) | 標準パターン学習方法 | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 | |
WO1984003983A1 (en) | Speech recognition methods and apparatus | |
KR100349341B1 (ko) | 유사단어 및 문장 인식시의 인식율 개선 방법 | |
KR100316776B1 (ko) | 연속 숫자음 인식 장치 및 그 방법 | |
JPH0247758B2 (ko) | ||
JP2549010B2 (ja) | 特定話者音声認識方法 | |
KR100960918B1 (ko) | 환경 군집화를 이용한 고속 화자 적응 시스템 및 방법 | |
Zaki et al. | Analysis of hierarchical bottleneck framework for improved phoneme recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130530 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20140515 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20150512 Year of fee payment: 15 |
|
FPAY | Annual fee payment |
Payment date: 20160518 Year of fee payment: 16 |
|
LAPS | Lapse due to unpaid annual fee |