KR100738332B1 - 성대신호 인식 장치 및 그 방법 - Google Patents
성대신호 인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR100738332B1 KR100738332B1 KR1020050102431A KR20050102431A KR100738332B1 KR 100738332 B1 KR100738332 B1 KR 100738332B1 KR 1020050102431 A KR1020050102431 A KR 1020050102431A KR 20050102431 A KR20050102431 A KR 20050102431A KR 100738332 B1 KR100738332 B1 KR 100738332B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- vocal
- vocal cord
- feature vector
- cord signal
- Prior art date
Links
- 210000001260 vocal cord Anatomy 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 69
- 230000001755 vocal effect Effects 0.000 claims abstract description 29
- 206010044565 Tremor Diseases 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 14
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 성대신호를 기반으로 하는 성대신호 인식 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 보다 높은 인식률을 제공하는 성대신호 특징벡터를 추출하여 이를 기반으로 성대신호를 정확하게 인식하기 위한, 성대신호 인식 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 성대신호 인식 장치에 있어서, 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)의 특징을 분석한 후에 그 분석 데이터를 이용하여 상기 성대신호의 특징벡터를 추출하기 위한 성대신호 특징벡터 추출 수단; 및 상기 성대신호 특징벡터 추출 수단에서 추출한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하여 상기 성대신호를 인식하기 위한 성대신호 인식 수단을 포함하며, 상기 성대신호 특징벡터 추출 수단은, 상기 외부의 성대 마이크로부터 입력되는 성대신호를 디지털화하기 위한 신호 처리부; 상기 신호 처리부로부터 입력되는 성대신호의 주파수별 특징을 분석하기 위한 신호 분석부; 성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호의 특징벡터 후보를 생성하기 위한 음운자질 분석부; 및 상기 신호 분석부로부터의 분석 데이터를 이용하여 상기 음운자질 분석부의 특징벡터 후보 중에서 상기 성대신호에 적합한 특징벡터를 선택하기 위한 특징벡터 선택부를 포함함.
4. 발명의 중요한 용도
본 발명은 성대신호 인식 시스템 등에 이용됨.
성대신호 인식, 음운자질 분석, 성대신호의 특징 분석, 성대신호의 특징벡터 추출, 피크, 제로-크로싱(zero-crossing)
Description
도 1은 종래의 음성 인식 장치의 일예시도,
도 2는 본 발명에 따른 성대신호 인식 장치의 일실시예 구성도,
도 3은 본 발명에 따른 성대신호 인식 장치의 일예시도,
도 4는 성대신호와 음성신호의 신호 차이를 나타내는 도면,
도 5는 음성신호와 성대신호의 스펙트로그램을 나타내는 도면,
도 6은 음성신호와 성대신호의 프레임별 주파수영역에서의 에너지 변화를 나타내는 도면이다.
* 도면의 주요 부분에 대한 부호의 설명
110 : 성대신호 특징벡터 추출부 111 : 신호 처리부
112 : 신호 분석부 113 : 음운자질 분석부
114 : 특징벡터 선택부 120 : 성대신호 인식부
121 : 끝점 검출부 122 : 특징 추출부
123 : 인식부
본 발명은 성대신호를 기반으로 하는 성대신호 인식 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 보다 높은 인식률을 제공하는 성대신호 특징벡터를 추출하여 이를 기반으로 성대신호를 정확하게 인식하기 위한, 성대신호 인식 장치 및 그 방법에 관한 것이다.
도 1은 종래의 음성 인식 장치의 일예시도이다.
도 1에 도시된 바와 같이, 종래의 음성 인식 장치는 끝점 검출부(101), 특징 추출부(102), 및 음성 인식부(103)를 포함하여 이루어져 있다.
여기서, 상기 끝점 검출부(101)는 음성 마이크로부터 입력된 음성 신호(사용자 명령어)의 끝점을 검출하여 특징 추출부(102)로 전달한다.
그러면, 상기 특징 추출부(102)는 상기 끝점 검출부(101)로부터 전달받은 음성 신호의 특징을 정확히 표현할 수 있는 특징을 추출하여 음성 인식부(103)로 전달한다. 이때, 상기 특징 추출부(102)는 주로 MFCC(Mel-Frequency Cepstrum Coefficients, 이하 "MFCC"라 함) 또는 선형 예측 계수 켑스트럼(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Perceptually-based Linear Prediction Cepstrum Coefficients)를 이용하여 음성 신호의 특징을 추출한다.
상기 음성 인식부(103)는 상기 특징 추출부(102)에 의해 추출된 특징을 이용 하여 유사도를 측정하여 인식 결과를 계산하며, 이를 위하여 HMM(Hidden Markow Model), DTW(Dynamic Time Warping), 및 신경회로망(Neural Network) 등을 주로 사용한다.
그러나 상기와 같은 종래의 음성 인식 장치는, 소음이 심한 공장이나 자동차 안 그리고 전쟁 상황 등과 같은 고 소음환경(고 잡음환경)에서는 사용자의 명령어를 정확하게 인식할 수 없어 인식률이 떨어지는 문제점이 있다. 즉, 종래의 음성 인식 장치는 고 소음환경(고 잡음환경)에서 사용이 불가능한 문제점이 있다.
따라서 소음이 심한 공장이나 자동차 안 그리고 전쟁 상황 등과 같은 고 소음환경(고 잡음환경)에서도 사용자의 명령어를 정확하게 인식할 수 있는 기술이 요구되고 있다.
본 발명은 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 보다 높은 인식률을 제공하는 성대신호 특징벡터를 추출하여 이를 기반으로 성대신호를 정확하게 인식하기 위한, 성대신호 인식 장치 및 그 방법을 제공하는데 그 목적이 있다.
즉, 본 발명은 보다 높은 인식률을 보장하는 특징추출 알고리즘을 이용하여 성대신호 특징벡터를 추출하고, 이를 이용하여 고 소음환경에서도 성대신호(명령어)를 정확하게 인식하여 여러 장치들을 제어하도록 할 수 있는, 성대신호 인식 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 성대신호 인식 장치에 있어서, 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)의 특징을 분석한 후에 그 분석 데이터를 이용하여 상기 성대신호의 특징벡터를 추출하기 위한 성대신호 특징벡터 추출 수단; 및 상기 성대신호 특징벡터 추출 수단에서 추출한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하여 상기 성대신호를 인식하기 위한 성대신호 인식 수단을 포함하며, 상기 성대신호 특징벡터 추출 수단은, 상기 외부의 성대 마이크로부터 입력되는 성대신호를 디지털화하기 위한 신호 처리부; 상기 신호 처리부로부터 입력되는 성대신호의 주파수별 특징을 분석하기 위한 신호 분석부; 성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호의 특징벡터 후보를 생성하기 위한 음운자질 분석부; 및 상기 신호 분석부로부터의 분석 데이터를 이용하여 상기 음운자질 분석부의 특징벡터 후보 중에서 상기 성대신호에 적합한 특징벡터를 선택하기 위한 특징벡터 선택부를 포함한다.
한편, 본 발명의 방법은, 성대신호 인식 방법에 있어서, 성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호에 적합한 특징벡터 후보를 생성하여 저장하고 있는 단계; 성대 마이크로부터 입력되는 성대신호를 디지털화하는 단계; 상기 디지털화한 성대신호의 주파수별 특징을 분석하는 단계; 상기 분석한 성대신호의 주파수별 특징을 이용하여 상기 기생성된 특징벡터 후보 중에서 상기 성대신호의 특징벡터를 선택하는 단계; 상기 디지털화한 성대신호(사용자 명령어)의 끝점을 검출하는 단계; 상기 끝점을 검출한 영역을 대상으로 상기 선택한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하는 단계; 및 상기 추출한 성대신호의 특징을 이용하여 유사도를 측정하여 상기 성대신호를 인식하는 단계를 포함한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 2는 본 발명에 따른 성대신호 인식 장치의 일실시예 구성도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 성대신호 인식 장치는, 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)의 특징을 분석한 후에 그 분석 데이터를 이용하여 상기 성대신호의 특징벡터를 추출하기 위한 성대신호 특징벡터 추출부(110), 및 상기 성대신호 특징벡터 추출부(110)에서 추출한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하여 성대신호를 인식하기 위한 성대신호 인식부(120)를 포함한다.
여기서, 상기 성대신호 특징벡터 추출부(110)는, 외부의 성대 마이크로부터 입력되는 성대신호를 디지털화하기 위한 신호 처리부(111)와, 상기 신호 처리부(111)로부터 성대신호를 입력받아 주파수별 특징을 분석하기 위한 신호 분석부(112)와, 음운자질을 이용하여 성대신호의 특징벡터 후보를 생성하기 위한 음운자질 분석부(113)와, 상기 신호 분석부(112)로부터의 분석 데이터를 이용하여 상기 음운자질 분석부(113)의 특징벡터 후보 중에서 상기 성대신호에 적합한 특징벡터를 선택하기 위한 특징벡터 선택부(114)를 포함한다.
그리고 상기 성대신호 인식부(120)는, 상기 신호 처리부(111)로부터 성대신호(사용자 명령어)를 입력받아 명령어의 끝점을 검출하기 위한 끝점 검출부(121)와, 상기 끝점 검출부(121)에서 검출한 영역을 대상으로 상기 특징벡터 선택부(114)에서 선택한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하기 위한 특징 추출부(122)와, 상기 특징 추출부(122)에서 추출한 특징을 이용하여 유사도를 측정하여 성대신호를 인식하여 인식 결과를 출력하기 위한 인식부(123)를 포함한다.
다음으로, 상기 각 구성요소의 구체적인 구현 방식 및 동작 방법을 상세히 살펴보면 다음과 같다.
먼저, 상기 신호 처리부(111)는 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)를 디지털화하여 신호 분석부(112)와 끝점 검출부(121)로 출력한다. 이때, 상기 신호 처리부(111)는 전술한 바와 같이 하나의 신호 처리기로 구현하거나, 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)를 디지털화하여 신호 분석부(112)로 출력하는 제 1 신호 처리기와, 동일한 외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)를 디지털화하여 끝점 검출부(121)로 출력하는 제 2 신호 처리기로 구현하되, 상기 제 2 신호 처리기를 성대신호 인식부(120)에 포함시켜 구현할 수도 있다.
그리고 상기 성대 마이크는 사용자의 성대로부터 성대신호를 획득하기 위한 마이크로서, 성대의 진동신호를 획득할 수 있는 넥마이크를 사용하여 구현한다.
그리고 상기 신호 분석부(112)는 신호 처리부(111)로부터 성대신호를 입력받아 주파수별 특징을 분석하여 특징벡터 선택부(114)로 출력한다. 이러한 성대신호의 주파수별 특징 분석 과정을 도 4 내지 6 을 참조하여 상세히 설명하면 다음과 같다.
도 4는 성대신호와 음성신호의 신호 차이를 나타내는 도면으로, 본 발명에서 대상으로 하는 성대 마이크를 통해 입력된 성대신호(b)와 음성 마이크를 통해 입력된 음성신호(a)를 비교하여 보면, 진폭의 차이는 있으나 두 신호가 비슷한 형태를 나타내고 있음을 알 수 있다.
그러나 성대 마이크와 음성 마이크를 통해 동시에 발성한 100명분의 데이터에 대하여 특징추출 알고리즘으로 가장 널리 사용되는 MFCC를 이용하여 특징을 추출한 후 인식률을 측정하여 보면, 성대 마이크(예 : 넥마이크)를 이용한 경우가 음성 마이크를 이용한 경우에 비해 약 40%의 성능 저하가 발생한다.
도 5는 음성신호와 성대신호의 스펙트로그램을 나타내는 도면으로, 도 4에 도시된 성대신호와 음성신호를 스펙트럼 영역으로 변환한 결과를 나타내고 있다.
도 5의 스펙트럼을 통하여 살펴보면, 성대 마이크로부터의 성대신호와 음성 마이크로부터의 음성신호의 차이점은 크게 두 가지로 분석된다.
첫째, 성대 마이크를 통한 성대신호의 경우 전반적으로 고주파 정보가 없음을 알 수 있다. 이는 고주파의 경우 혀와 입 안의 울림을 통해 발생하므로 성대 마이크를 통한 신호에서는 거의 나타나지 않는다. 그리고 도 5에 도시된 바와 같이, 극단적으로 고주파 신호가 없는 이유는 성대 마이크를 개발할 때 4Khz 이상의 고주파 신호에 대해서는 필터링하도록 설계하였기 때문이다.
두 번째 특징은 성대 마이크를 통한 성대신호의 경우 포먼트(formant)의 양이 음성 마이크를 통한 음성신호에 비해서 현저히 적음을 알 수 있다. 이러한 포먼트의 변별력이 떨어짐은 유성음의 변별력이 떨어짐으로 이어진다. 따라서 모음의 구분이 쉽지 않게 된다.
여기서, 포먼트(formant)란 음성의 주파수 세기의 분포를 말한다. 이를 좀 더 상세히 살펴보면, 일반적으로 유성음(有聲音)의 경우 그 음성을 내었을 때의 음파를 주파수 측정 분석기에 걸면 각각의 음성에 고유한 주파수 분포 도형이 얻어진다. 모음이면 성대의 1초간의 진동수를 나타내는 기본주파수(대체로 75∼300Hz)와, 그 정수배의 대부분의 고주파로 이루어지고 있다. 이 고주파 중의 몇 개가 강조되는 것이 있고(대체로 3개), 그 낮은 것부터 차례로 제1·제2·제3 포먼트라고 한다. 이것은 구강(口腔) 등의 크기에 따라서 개인차가 있으므로 다소 강하게 되거나 약하게 되거나 하는 차가 생겨, 이것이 개인의 독특한 음색이 생기는 한 원인이 된다.
도 6은 음성신호와 성대신호의 프레임별 주파수영역에서의 에너지 변화를 나타내는 도면이다.
도 6에서는 스펙트럼 분석을 통한 두 신호의 차이가 실제적으로 사용되는 특징추출 알고리즘에서 어떤 차이를 보이는지를 분석한다. 오늘날 특징 추출을 위해 널리 사용되고 있는 MFCC를 이용하여 고속 푸리에 변환(FFT : Fast Fourier Transform)한 후의 정보량의 차이를 분석한다. 도 6의 경우 16K, 16비트(bit)의 웨이브(wave) 데이터를 대상으로 프리엠퍼시스(Pre-emphasis), 및 해밍 윈도우(Hamming window)를 적용한 후 고속 푸리에 변환(FFT)을 수행한 결과를 주파수 영역에 대해서 나타내고 있다. 도 6에서 가로축은 주파수영역을 256개로 나눈 인덱스이고, 세로축은 주파수영역에 포함된 에너지값이다. 그리고 다양한 색은 개별 프레임을 나타낸다. 도 6에 도시된 바와 같이, 그래프의 모양이 2Khz이하에서는 어느 정도 비슷한 분포를 가지나, 2Khz에서 4Khz의 분포에서는 음성신호에 비해 성대신호에 거의 정보가 포함되어 있지 않음을 알 수 있다. 그리고 4Khz이상의 고주파 정보는 거의 검출되지 않음을 알 수 있다. 따라서 MFCC와 같이 주파수(frequency) 영역별 에너지 정보를 기반으로 하는 알고리즘으로는 성대의 특징을 제대로 모델링할 수 없으며, 고주파 정보를 사용하는 일반 음성의 특징 추출 알고리즘으로는 성대신호를 정확히 모델링할 수 없음을 알 수 있다.
한편, 음운자질 분석부(113)는 음운자질을 이용하여 성대신호의 특징벡터 후보를 생성한다. 즉, 음운자질 분석부(113)는 언어의 음운적 특징(음운자질)을 이용하여 성대신호에 적합한 특징벡터의 후보를 생성하는 모듈이다. 한국어는 음소 문자로서, 자음과 모음으로 이루어져 있으며, 이를 음절 단위로 조합해서 글자를 나타낸다. 모음은 총 21개로 모두 유성음의 특징을 갖는다. 그리고 자음의 경우 총 19개인데, 형태와 위치에 따라 유성음이 되기도 하고 무성음이 되기도 한다. 아래의 [표 1]은 한국어 자음의 분류(Classification of the Korean consonants)를 나타내고 있다.
구별요인 | 양순성 | 전설성 | 후설성 | 후두성 | ||
정지성 | 파찰성 | 마찰성 | ||||
평 음 | ㅂ | ㄷ | ㅈ | ㅅ | ㄱ | |
경 음 | ㅃ | ㄸ | ㅉ | ㅆ | ㄲ | |
격 음 | ㅍ | ㅌ | ㅊ | ㅋ | ㅎ | |
비 음 | ㅁ | ㄴ | ㅇ | |||
유 음 | ㄹ |
한국어가 음절을 이루는 원리는 자음+모음+자음, 자음+모음, 모음+자음, 또는 모음들 중에 한가지 경우이다. 그리고 이러한 음절은 그 차체로 음운자질을 갖거나, 발성할 때 음운자질을 갖게 된다. 음운자질이란 어떤 음운이 갖고 있는 고유의 특성으로, 크게 유성성(voiced), 모음성(vocalic)과 자음성(consonantal), 성절성(sylabic), 공명성(sonorant)과 장애성(obstruent)으로 구분된다. 다음은 음운자질에 대한 개략적인 설명이다.
유성성 : 유성음과 무성음의 구분을 뜻하는 것으로 성대의 떨림 유무에 대한 자질.
모음성과 자음성 : 모음과 유성자음을 구분하기 위한 자질로서 모든 모음은 모음성은 가지나 자음성은 없으며 유성자음은 모음성과 자음성을 동시에 가진다. 그리고 그 밖의 자음은 모음성은 갖고 있지 않으나 자음성을 갖는 것으로 구분할 수 있다.
성절성 : 음절의 정점을 이루는 분절음의 특징으로 모음이 가지는 대표적인 자질.
공명성과 장애성 : 똑같은 입의 크기 하에서 소리가 멀리 가는 정도를 나타내는 자질.
이러한 음운자질은 발성기관과 밀접한 관계를 가진다. 본 발명은 성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호의 특징을 모델링한다. 상기 [표 1]의 자음 중에서 유성음은 비음과 유음이고 나머지는 무성음에 속한다. 그러나 무성음들도 "ㅅ"을 제외한 평음(ㄱ,ㄷ,ㅂ,ㅊ,ㅎ)의 경우 유성음들 사이에 끼었을 때 유성음화 현상이 발생하여 유성음의 성질을 갖게 된다. 이와 같이 한국어의 경우 모은 단어에 유성음(모음)이 존재하며 이러한 유성자음과 유성음화 현상들에 의해서 단어들에서 유성 자음이 많이 나타난다. 이러한 음운자질을 유성성, 및 모음성과 자음성의 음운자질이라고 하며, 이를 통해 성대신호의 특징을 모델링할 수 있다.
그리고 특징벡터 선택부(114)는 음운자질 분석부(113)와 신호 분석부(112)의 결과를 이용하여 성대신호에 적합한 특징벡터를 선정하는 모듈로서, 신호 분석부(112)로부터의 분석 데이터를 이용하여 음운자질 분석부(113)의 특징벡터 후보 중에서 성대신호에 적합한 특징벡터를 선택한다. 고주파 정보가 현저히 적은 성대신호를 이용한 자동 인식에는 고주파 정보를 특징벡터로 이용하는 일반 특징 추출 알고리즘은 적합하지 않음을 알 수 있다. 따라서 성대신호에 보다 적합한 특징벡터로는 유성음만을 정확히 식별하는 특징벡터가 보다 유용하다. 이러한 특징벡터로서 에너지, 피치 주기, 제로-크로싱(zero-crossing), 제로-크로싱율(zero-crossing rate), 및 피크(Peak) 등이 있다.
따라서 성대신호를 위한 특징벡터로는 에너지, 피치 주기, 제로-크로싱(zero-crossing), 제로-크로싱율(zero-crossing rate), 피크(Peak), 그리고 제로-크로싱(zero-crossing) 내에서의 피크나 에너지값 등을 기반으로 하는 특징을 사용하는 특징 추출 알고리즘을 적용할 경우에 높은 인식률을 제공할 수 있다.
이러한 성대신호 자동 인식 장치의 일예로 도 3의 ZCPA(Zero Crossings with Peak Amplitudes)를 이용한 성대신호 자동 인식 장치를 제안한다. 여기서, ZCPA는 제로 크로싱(Zero Crossing)과 제로 크로싱(Zero Crossing) 내 피크(Peak)를 이용하여 성대신호를 모델링한 특징 추출 알고리즘으로, 도 2의 성대신호 특징벡터 추출부(110)를 내부에 포함하여 구현하거나, 도 3에 도시된 바와 같이 도 2의 성대신호 특징벡터 추출부(110)로부터의 출력 결과(특징벡터)를 이용하여 구현할 수도 있다. 그리고 잡음 제거 필터(303)는 채널 잡음을 제거하기 위한 필터로서, 부가요소이다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 보다 높은 인식률을 보장하는 특징추출 알고리즘을 이용하여 성대신호 특징벡터를 추출한 후에 이를 기반으로 성대신호(사용자의 명령어)를 정확하게 인식함으로써, 성대신호(사용자의 명령어) 인식률을 향상시킬 수 있는 효과가 있다.
또한 본 발명은 소음이 심한 공장이나 자동차 안 그리고 전쟁 상황 등과 같은 고 소음환경(고 잡음환경)에서도 사용자의 명령어(성대신호)를 정확하게 높은 인식률로 인식하여 여러 장치들을 제어하도록 할 수 있는 효과가 있다.
Claims (8)
- 삭제
- 성대신호 인식 장치에 있어서,외부의 성대 마이크로부터 입력되는 성대신호(사용자 명령어)의 특징을 분석한 후에 그 분석 데이터를 이용하여 상기 성대신호의 특징벡터를 추출하기 위한 성대신호 특징벡터 추출 수단; 및상기 성대신호 특징벡터 추출 수단에서 추출한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하여 상기 성대신호를 인식하기 위한 성대신호 인식 수단을 포함하며,상기 성대신호 특징벡터 추출 수단은,상기 외부의 성대 마이크로부터 입력되는 성대신호를 디지털화하기 위한 신호 처리부;상기 신호 처리부로부터 입력되는 성대신호의 주파수별 특징을 분석하기 위한 신호 분석부;성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호의 특징벡터 후보를 생성하기 위한 음운자질 분석부; 및상기 신호 분석부로부터의 분석 데이터를 이용하여 상기 음운자질 분석부의 특징벡터 후보 중에서 상기 성대신호에 적합한 특징벡터를 선택하기 위한 특징벡터 선택부를 포함하는 성대신호 인식 장치.
- 제 2 항에 있어서,상기 성대신호 인식 수단은,상기 신호 처리부로부터 입력되는 성대신호(사용자 명령어)의 끝점을 검출하기 위한 끝점 검출부;상기 끝점 검출부에서 검출한 영역을 대상으로 상기 특징벡터 선택부에서 선택한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하기 위한 특징 추출부; 및상기 특징 추출부에서 추출한 특징을 이용하여 유사도를 측정하여 상기 성대신호를 인식하기 위한 인식부를 포함하는 성대신호 인식 장치.
- 제 2 항 또는 제 3 항에 있어서,상기 신호 분석부는,스펙트럼과, MFCC(Mel-Frequency Cepstrum Coefficients)를 이용하여 고속 푸리에 변환(FFT)을 수행한 결과를 사용하여 상기 성대신호의 주파수별 특징을 분석하는 것을 특징으로 하는 성대신호 인식 장치.
- 삭제
- 제 2 항 또는 제 3 항에 있어서,상기 특징벡터 선택부는,에너지, 피치 주기, 제로-크로싱(zero-crossing), 제로-크로싱율(zero-crossing rate), 피크(Peak), 그리고 제로-크로싱(zero-crossing) 내에서의 피크나 에너지값을 이용한 특징벡터를 선택하는 것을 특징으로 하는 성대신호 인식 장치.
- 제 2 항 또는 제 3 항에 있어서,상기 성대신호 인식 장치는,제로 크로싱(Zero Crossing)과 제로 크로싱(Zero Crossing) 내 피크(Peak)를 이용하여 성대신호를 모델링한 ZCPA(Zero Crossings with Peak Amplitudes) 알고리즘을 이용하여 구현한 것을 특징으로 하는 성대신호 인식 장치.
- 성대신호 인식 방법에 있어서,성대의 떨림과 관계된 자질인 유성성, 및 모음성과 자음성의 음운자질을 이용하여 성대신호에 적합한 특징벡터 후보를 생성하여 저장하고 있는 단계;성대 마이크로부터 입력되는 성대신호를 디지털화하는 단계;상기 디지털화한 성대신호의 주파수별 특징을 분석하는 단계;상기 분석한 성대신호의 주파수별 특징을 이용하여 상기 기생성된 특징벡터 후보 중에서 상기 성대신호의 특징벡터를 선택하는 단계;상기 디지털화한 성대신호(사용자 명령어)의 끝점을 검출하는 단계;상기 끝점을 검출한 영역을 대상으로 상기 선택한 성대신호 특징벡터를 이용하여 상기 성대신호의 특징을 추출하는 단계; 및상기 추출한 성대신호의 특징을 이용하여 유사도를 측정하여 상기 성대신호를 인식하는 단계를 포함하는 성대신호 인식 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050102431A KR100738332B1 (ko) | 2005-10-28 | 2005-10-28 | 성대신호 인식 장치 및 그 방법 |
US12/091,267 US20080270126A1 (en) | 2005-10-28 | 2006-10-19 | Apparatus for Vocal-Cord Signal Recognition and Method Thereof |
PCT/KR2006/004261 WO2007049879A1 (en) | 2005-10-28 | 2006-10-19 | Apparatus for vocal-cord signal recognition and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050102431A KR100738332B1 (ko) | 2005-10-28 | 2005-10-28 | 성대신호 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070045772A KR20070045772A (ko) | 2007-05-02 |
KR100738332B1 true KR100738332B1 (ko) | 2007-07-12 |
Family
ID=37967958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050102431A KR100738332B1 (ko) | 2005-10-28 | 2005-10-28 | 성대신호 인식 장치 및 그 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080270126A1 (ko) |
KR (1) | KR100738332B1 (ko) |
WO (1) | WO2007049879A1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110095113A (ko) * | 2010-02-16 | 2011-08-24 | 윤재민 | 음장인식 디지털 비디오 레코더 시스템 및 그것의 운용 방법 |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
JP2014519071A (ja) * | 2011-03-28 | 2014-08-07 | アンビエンツ | 音響コンテキストを使用する検索システム及び方法 |
CN104123930A (zh) * | 2013-04-27 | 2014-10-29 | 华为技术有限公司 | 喉音识别方法及装置 |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
KR102071421B1 (ko) * | 2018-05-31 | 2020-01-30 | 인하대학교 산학협력단 | 청음 향상을 위한 두경부 물리 특성 기반 복합시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0176751B1 (ko) * | 1991-10-14 | 1999-04-01 | 이헌조 | 음성인식 시스템의 특징추출방법 |
KR0176623B1 (ko) * | 1996-10-28 | 1999-04-01 | 삼성전자주식회사 | 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 |
KR20000073638A (ko) * | 1999-05-13 | 2000-12-05 | 김종찬 | 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US399231A (en) * | 1889-03-05 | Sulky | ||
US176623A (en) * | 1876-04-25 | Improvement in street-sweepers | ||
US176751A (en) * | 1876-05-02 | Improvement in ventilation of buildings | ||
US275279A (en) * | 1883-04-03 | William h | ||
US73638A (en) * | 1868-01-21 | Charles w | ||
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US4335276A (en) * | 1980-04-16 | 1982-06-15 | The University Of Virginia | Apparatus for non-invasive measurement and display nasalization in human speech |
US5321350A (en) * | 1989-03-07 | 1994-06-14 | Peter Haas | Fundamental frequency and period detector |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US6109923A (en) * | 1995-05-24 | 2000-08-29 | Syracuase Language Systems | Method and apparatus for teaching prosodic features of speech |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
ITTO20010615A1 (it) * | 2001-06-26 | 2002-12-26 | Iveco Motorenforschung Ag | Unita' motore endotermico-turbocompressore per un autoveicolo, in particolare per un veicolo industriale, con controllo della potenza della |
DE10326253B3 (de) * | 2003-06-11 | 2004-11-04 | Schott Glas | Zündeinheit und Verfahren zu ihrer Herstellung |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US7383181B2 (en) * | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
WO2005067340A1 (ja) * | 2004-01-09 | 2005-07-21 | Asahi Kasei Kabushiki Kaisha | 体内伝導音マイクロフォン、信号処理装置、コミュニケーションインタフェースシステム、採音方法 |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
KR100639968B1 (ko) * | 2004-11-04 | 2006-11-01 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
US7590529B2 (en) * | 2005-02-04 | 2009-09-15 | Microsoft Corporation | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
US7359853B2 (en) * | 2005-02-11 | 2008-04-15 | Clyde Holmes | Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless |
US7529670B1 (en) * | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
US7574357B1 (en) * | 2005-06-24 | 2009-08-11 | The United States Of America As Represented By The Admimnistrator Of The National Aeronautics And Space Administration (Nasa) | Applications of sub-audible speech recognition based upon electromyographic signals |
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US7406303B2 (en) * | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
-
2005
- 2005-10-28 KR KR1020050102431A patent/KR100738332B1/ko not_active IP Right Cessation
-
2006
- 2006-10-19 WO PCT/KR2006/004261 patent/WO2007049879A1/en active Application Filing
- 2006-10-19 US US12/091,267 patent/US20080270126A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0176751B1 (ko) * | 1991-10-14 | 1999-04-01 | 이헌조 | 음성인식 시스템의 특징추출방법 |
KR0176623B1 (ko) * | 1996-10-28 | 1999-04-01 | 삼성전자주식회사 | 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 |
KR20000073638A (ko) * | 1999-05-13 | 2000-12-05 | 김종찬 | 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
Non-Patent Citations (4)
Title |
---|
10-2005-51435 |
20-399231 |
ELECTROGLOTTOGRAPH AS AN ADDITIONAL SOURCE OF INFORMATION IN ISOLATED WORD RECOGNITION, Proc. of IEEE int.conf biomedical engineering, 1995 pp.1-4 |
Use of Temporal Information: Detection of Periodicity, Aperiodicity, and Pitch in Speech, IEEE Trans. on Speech and Audio Processing, SEPTEMBER 2005, Vol.13,No.5,pp.776-786 |
Also Published As
Publication number | Publication date |
---|---|
WO2007049879A1 (en) | 2007-05-03 |
KR20070045772A (ko) | 2007-05-02 |
US20080270126A1 (en) | 2008-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8036891B2 (en) | Methods of identification using voice sound analysis | |
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
Wu et al. | Gender recognition from speech. Part I: Coarse analysis | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
RU2419890C1 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
JPS6336676B2 (ko) | ||
Lee et al. | Using tone information in Cantonese continuous speech recognition | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
KR100738332B1 (ko) | 성대신호 인식 장치 및 그 방법 | |
Chen et al. | Text-independent phoneme segmentation combining egg and speech data | |
Cherif et al. | Pitch detection and formant analysis of Arabic speech processing | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
Joseph et al. | Indian accent detection using dynamic time warping | |
Lachachi | Unsupervised phoneme segmentation based on main energy change for arabic speech | |
Tripathi et al. | Robust vowel region detection method for multimode speech | |
Al-hazaimeh et al. | Cross correlation–new based technique for speaker recognition | |
Nidhyananthan et al. | Robust speaker identification using vocal source information | |
AlDahri et al. | Detection of Voice Onset Time (VOT) for unvoiced stop sound in Modern Standard Arabic (MSA) based on power signal | |
Iwano et al. | Noise robust speech recognition using F 0 contour information | |
Bhagath et al. | Acoustic phonetic approach for speech recognition: A review | |
Thankappan et al. | Language independent voice-based gender identification system | |
Malucha et al. | Comparison of methods for determining speech voicing based on tests performed on paired consonants and continuous speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
FPAY | Annual fee payment |
Payment date: 20120629 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130624 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |