KR100232788B1 - 음성인식 시스템의 음성 인식 방법 - Google Patents
음성인식 시스템의 음성 인식 방법 Download PDFInfo
- Publication number
- KR100232788B1 KR100232788B1 KR1019920009186A KR920009186A KR100232788B1 KR 100232788 B1 KR100232788 B1 KR 100232788B1 KR 1019920009186 A KR1019920009186 A KR 1019920009186A KR 920009186 A KR920009186 A KR 920009186A KR 100232788 B1 KR100232788 B1 KR 100232788B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech recognition
- recognition method
- speech
- feature map
- fuzzy
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 11
- 230000008859 change Effects 0.000 claims description 4
- 238000010926 purge Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 음성 인식 시스템에 있어서의 음성인식 방법에 관한 것으로 특히, 신경회로망 기법에 따른 퍼지(fuzzy) 개념의 적용을 통해 서로 다른 음성의 입력 패턴 구별을 용이하게 하여 음성의 인실률을 향상시키도록 하는 학습과정을 구비하는 음성 인식 방법에 관한 것이다. 이러한 본 발명은, 음성 인식 시스템의 음성인식 방법에 있어서, 백터 양자화의 적용이 아니라 Kohonen의 특징 맵 알고리즘에 따른 퍼지 개념을 도입함으로써 기준 패턴에 대한 분류를 퍼지 함수를 사용하여 자동적으로 결정하도록 하는 학습과정을 통해 특징맵을 생성하고 이를 통해 음성인식에 있어 인식률 향상과 수행 시간을 줄여 주는 음성 인식 방법을 특징으로 한다.
Description
제1도는 통상적인 음성인식 시스템의 구성도.
제2도는 종래 기술에 따른 음성인식 시스템에 있어서의 음성인식 흐름도.
제3도는 본 발명의 실시에 다른 음성인식 시스템의 음성인식 흐름도.
본 발명은 음성 인식 시스템에 있어서의 음성 인식 방법에 관한 것으로 특히, 신경회로망 기법에 따른 퍼지(fuzzy) 개념의 적용을 통해 서로 다른 음성의 입력 패턴 구별을 용이하게 하여 음성이 인식률을 향상시키도록 하는 학습과정을 구비하는 음성 인식 방법에 관한 것이다.
통상적으로 음성 인식을 수행하는 음성 인식 시스템의 기본적인 내부 구성은 첨부된 제1도에 도시된 구성 상태를 가지게 된다. 이를 살펴보면, 먼저 음성 인식을 행함에 있어 이루어지는 동작은 입력되는 음성데이터의 학습과정과 학습결과를 통한 입력되는 음성 데이터의 인식 과정으로 크게 구분된다. 상기 학습과정은 입력되는 음성신호가 잡음으로부터 분리됨에 있어서 음성의 에너지와 영교차율을 이용 끝점 검출이 이루어진 후 상기 검출된 끝점을 통해 LPC계수의 추출을 이룬 후 추출된 LPC계수로서 특징 벡터를 삼아 이러한 특징 벡터로부터 특징 맵을 생성하는 과정으로서 이루어진다. 상기 인식 과정과 DTW(Dynamic Time Warping)나 유클리드 거리를 계산한 후 그 결과를 통해 가장 적절한 단어를 선정하는 과정으로서 이루어지게 된다. 상기 학습 및 인식 과정에 따른 음성 인식 동작의 수행이 이루어지는 음성 인식 시스템의 구성은 첨부된 제1도에 있어 도시된 구성을 갖게 된다. 상기 제1도의 구성을 통해 음성인식 동작을 살펴보면, 끝점 검출이 이루어진 후 그로부터 특징 검출이 이루어지고, 그 결과로서 학습과정의 경우 특징맵의 생성을 이루며, 인식과정의 경우는 상기 생성된 특징맵과의 거리계산을 통해 결정 논리를 수행한 후 입력된 음성의 인식을 이루게 된다.
한편, 상기한 음성 인식 시스템에 있어서의 음성 인식 방법의 경우, 특징맵의 생성이 벡터 양자화(vector quantization)를 통해 이루어지는 것이 통상의 음성인식 방법에 있어서의 학습과정이 되는데, 이는 처리되는 데이타량의 감소와 음성 인식 시간의 절감 측면에 있어서 많은 효과를 가져다 주게 된다. 그러나 벡터 양자화를 통한 음성인식의 경우 상기한 바와 같은 데이터량 및 시간 절감의 효과 발생에 따른 이점이 있으나, 반면으로 벡터 양자화에 따른 양자화 오차를 발생하여 인식률이 저하되는 문제를 필연적으로 가지게 된다. 결국, 벡터 양자화에 따른 음성 인식의 경우 발생되는 양자화 오차로 인하여 음성 인식의 정확도 즉, 인식률이 일정정도 저하되는 문제를 가질 수밖에 없었다. 첨부된 제2도에 도시된 동작 흐름은 바로 상기한 바와 같은 벡터 양자화를 통한 음성인식 방법의 실예를 보여주는 종래 기술을 나타낸 도면이다.
상기 제2도를 참조하여 종래 기술에 따른 음성 인식 과정을 설명하면,
입력데이타을로 무리짓는 클러스터링(Clustering)방법은 다음 절차를 따른다.
제1단계 : 초기화 mi(t)=mi(0), 1≤i≤L
여기서 mi(0)는 랜덤 벡터(random vector)이고 L은 특징 맵의 차수이다.
제2단계 : 최소거리를 갖는 출력 노드를 찾는다.
∥Xj(i)-m(t)∥ = mini∥Xj(t)-m(t)∥
제3단계 : 출력노드 i가 Nc(Neighbor function)에 속하는지를 판단하여 속하면 가중치(Weight)를 갱신한다.
mi(t+1)=mi(t)+α(t)[Xj(t)-mi(t)]
제4단계 : 종료 조건으로 모든 입력에 대해 디스토션(Distortion)D(t)을 구한다.
의 변화량이 임계치보다 작으면 종료한다.
따라서, 본 발명의 목적은 종래 음성인식 방법에 있어 적용된 벡터 양자화 기법이 발생시킨 양자화 오차에 의한 음성의 인식률 저하 문제를 해소하는 음성인식 방법을 제공함에 있다.
또한, 본 발명의 목적은 보다 향상된 음성 인식률을 가지며 아울러 음성인식 시간의 절감을 가져올 수 있는 음성 인식 방법을 구현함에 있어 신경호로망 기법의 적용을 통해 그러한 음성 인식 방법을 구현하고자 하며, 특히 기준 패턴에 대한 분류를 자동적으로 결정해주도록 하기 위해 퍼지(Fuzzy) 개념의 적용을 통해 그러한 음성 인식 방법을 구현함에 있다.
결국, 본 발명의 목적은 음성 인식에 있어 보다 향상된 인식률과 인식 시간을 가질 수 있도록 종래에 있어 적용되는 벡터 양자화 대신 퍼지 개념이 도입된 신경회로망 기법의 적용에 의한 음성 인식 방법의 구현에 있는 것이다.
이러한 목적들의 달성을 위해 본 발명에서는 음성 인식 시스템의 음성 인식 방법에 있어서, 음성 인식 시스템의 음성 인식 방법에 있어서, 벡터 양자화의 적용이 아니라 Kohonen의 특징 맵 알고리즘에 따른 퍼지 개념을 도입함으로써 기준 패턴에 대한 분류를 퍼지 함수를 사용하여 자동적으로 결정하도록 하는 학습과정을 통해 특징맵을 생성하고 이를 통해 음성인식에 있어 인실률 향상과 수행 시간을 줄여 주는 음성 인식 방법을 제안한다.
보다 구체적으로는 상기한 본 발명의 목적들을 달성함에 있어서 제안되는 음성인식 방법은 가중치를 초기화하는 과정과 퍼지일원함수을 구하는 과정과 상기 퍼지 일원함수중 최소의을 갖는 출력노드를 찾는 과정과, Nc(t)를에 의해 검출하는 제4과정, 노드 i가 상기 Nc(t)에 속하면 가중치 mi(t+1)를 mi(t)+α(t)(Xj(t)-mi(t))로 하고 그렇지 않으면 mi(t)로 설정하는 과정과 전체 왜곡 D(t)는,
을 만족하고 상기 D(t)의 변화량이 소정의 임계치보다 작으면 학습을 종료하는 과정으로 이루어짐을 특징으로 한다.
이하 본 발명을 첨부한 제3도를 참조하여 본 발명에 따른 음성 인식 방법을 상세히 설명한다.
무리짓 하고자 하는, 즉 클러스터링 하고자 하는 중심(centroid)의 수를 L개 입력 데이타 세트를이라 하고, 새로이 퍼지 일원함수 Uij∈[0, 1]을 도입한다.
여기서 상기 Uij은 Xi(t)가 무리(cluster) i에 속할 정도를 표시하며 이를 행렬 형태로 표현하면,
U=[Uij]i=1~L. j=1~N이 된다. 이때 상기 Uij에 대한 제약식은 다음과 같게 된다.
이 된다
기존의 특징 맵 알고리즘의 전체 왜곡 D(t)는
이 되며, 여기서 w(Xi(t))는 Xi(t)의 가중(Weight)함수이고 본 발명에서는 g[w(Xi(t)), Uij]=U2 ij이 된다.
여기서
이므로, 따라서,
와 같이 되고 이 값은 이후 상기 제3도를 참조로서 설명되는 본 발명에 따른 음성인식 방법에 있어 제6단계에서 학습의 종료 혹은 반복 판정의 근거가 된다.
상기 제3도의 참조로서 본 발명에 따른 음성 인식 방법을 다음과 단계로서 설명한다.
제1단계 : 모델 초기화를 행한다.
제2단계 : 퍼지 일원함수 U2 ij을 구한다.
U2 ij은 상기 식(4)와 같다.
제3단계 : 최소의 U2 ij을 갖는 출력노드 C를 찾는다.
C = miniU2 ij
제4단계 : α(t) = dU2 ij로 하면 α는 상수이다.
또한,로 구해진다.
제5단계 : 노드가 i가 Nc(t)에 속하면 가중치(Weight)는
mi(t+1)=mi(t)+α(t)(Xj(t)-mi(t))가 되고,
속하지 않으면,
mi(t+1)=mi(t)가 된다.
제6단계 : 종료 조건 테스트를 행한다.
전체 왜곡 D(t)는 전술한 식(5)로 주어지며 D(t)의 변화량이 어느 임계치보다 작은면 학습이 종료되고 그렇지 않으면 학습이 반복된다.
정리하면, 본 발명은 음성인식 방법에 있어 벡터 양자화 개념에 따라 특징맵 생성을 이루는 종래의 음성인식 방법을 대신하여 신경회로망 기법에 있어서의 퍼지 개념인 Kohonen의 특징 맵 알고리즘의 적용을 통해 기준 패턴에 대한 분류를 자동적으로 결정하도록 하여 특징맵을 생성하는 음성인식 방법을 구현하는 것이다.
한편, 상기 Kohonen의 특징맵 알고리즘의 상세한 내용은 참고문헌 “T.Kohonen, Self-Orgonization and Associative Memory, Springer-Ver lag”에 기술되어 있으면 이의 참조가 이루어졌다. 그리고 본 발명이 실시에 있어 제안된 음성인식에 있어서의 클러스터링 방법의 참조는 참고문헌 “J.G.Loilpon, L.R,Rabiner, A Modified K-means Clustering Algorithm for usein lsolated Word Recognition, IEEE Trans on ASSP, Vol, 33, No4, 1985”의 참조를 통해 이루어 졌다.
결국 상술한 바와 같은 본 발명의 실시에 따라 제안된 음성 인식 방법은 향상된 음성 인식률의 달성과 동시에 음성 인식 시간의 절감을 이루는 이점을 가져다 준다. 즉, 본 발명의 실시는 종래 기술에 있어서의 특징 맵 생성시 발생되었던 양자화 오차에 따른 인식률 저하 문제를 해소하는 효과를 가지게 되는 것이다.
Claims (2)
- 학습과정을 통해 특징맵을 생성하고 상기 생성된 특징맵의 이용을 통해 음성 인식을 수행하는 음성인식 시스템의 음성인식 방법에 있어서, 가중치를 초기화하는 제1과정과 퍼지 일원함수 U2 ij을 구하는 제2과정과 상기 퍼지 일원함수 U2 ij중 최소의 U2 ij을 갖는 출력노드를 찾는 제3과정과에 의해 검출하는 제4과정과 노드 i가 상기 Nc(t)에 속하면 가중치 mi(t+1)를 mi(t)+α(t)(Xj(t)-mi(t))로 갱신하고 속하지 않으면 mi(t)로 설정하는 제5과정과 전체 왜곡을 만족하고 그에 따른 결과로서의 전체왜곡 D(t)의 변화량이 일정 임계치 보다 작으면 학습을 종료하고 그렇지 않을 시는 학습을 반복하는 제6과정으로 이루어지는 학습과정으로서 특징맵을 생성함을 특징으로 하는 음성인식 시스템의 음성인식 방법.
- 제1항에 있어서, 상기 제2과정에 따라 구해지는 퍼지일원함수 U2 ij는,로서 구해짐을 특징으로 하는 음성인식 시스템의 음성인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019920009186A KR100232788B1 (ko) | 1992-05-28 | 1992-05-28 | 음성인식 시스템의 음성 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019920009186A KR100232788B1 (ko) | 1992-05-28 | 1992-05-28 | 음성인식 시스템의 음성 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR930023909A KR930023909A (ko) | 1993-12-21 |
KR100232788B1 true KR100232788B1 (ko) | 1999-12-01 |
Family
ID=19333785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019920009186A KR100232788B1 (ko) | 1992-05-28 | 1992-05-28 | 음성인식 시스템의 음성 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100232788B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100800439B1 (ko) * | 2006-09-12 | 2008-02-04 | 엘지전자 주식회사 | 터치패드 입력 오차 보정 방법 및 그 단말기 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990066562A (ko) * | 1998-01-30 | 1999-08-16 | 전주범 | 퍼지 매핑 함수를 이용한 음성 인식의 템플레이트 패턴 매칭 방법 |
-
1992
- 1992-05-28 KR KR1019920009186A patent/KR100232788B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100800439B1 (ko) * | 2006-09-12 | 2008-02-04 | 엘지전자 주식회사 | 터치패드 입력 오차 보정 방법 및 그 단말기 |
Also Published As
Publication number | Publication date |
---|---|
KR930023909A (ko) | 1993-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2795058B2 (ja) | 時系列信号処理装置 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN110853630B (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
Kang et al. | DNN-based voice activity detection with multi-task learning | |
KR19980702723A (ko) | 음성 인식 방법 및 장치 | |
CN107993664B (zh) | 一种基于竞争神经网络的鲁棒说话人识别方法 | |
Liu et al. | Loss and double-edge-triggered detector for robust small-footprint keyword spotting | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
CN113488060A (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
KR101140896B1 (ko) | 음성 세그먼트화를 위한 방법 및 장치 | |
US7680664B2 (en) | Parsimonious modeling by non-uniform kernel allocation | |
US6226610B1 (en) | DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point | |
CN113744734A (zh) | 一种语音唤醒方法、装置、电子设备及存储介质 | |
KR100232788B1 (ko) | 음성인식 시스템의 음성 인식 방법 | |
CN117454187A (zh) | 一种基于频域限制目标攻击的集成模型训练方法 | |
CN110827809A (zh) | 一种基于条件生成式对抗网络的语种识别分类方法 | |
Ney | An optimization algorithm for determining the endpoints of isolated utterances | |
Gales | Transformation smoothing for speaker and environmental adaptation. | |
WO1987004294A1 (en) | Frame comparison method for word recognition in high noise environments | |
KR0170317B1 (ko) | 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법 | |
CA2227679C (en) | Speaker recognition device | |
ZENG et al. | Improving Speech Emotion Recognition Method of Convolutional Neural Network | |
GB2179483A (en) | Speech recognition | |
JP3859884B2 (ja) | 話者認識方法および話者認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080829 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |