KR100869385B1 - 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 - Google Patents
사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 Download PDFInfo
- Publication number
- KR100869385B1 KR100869385B1 KR1020070017243A KR20070017243A KR100869385B1 KR 100869385 B1 KR100869385 B1 KR 100869385B1 KR 1020070017243 A KR1020070017243 A KR 1020070017243A KR 20070017243 A KR20070017243 A KR 20070017243A KR 100869385 B1 KR100869385 B1 KR 100869385B1
- Authority
- KR
- South Korea
- Prior art keywords
- snr
- svm
- feature vector
- speech
- detection method
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000000694 effects Effects 0.000 title description 2
- 238000012706 support-vector machine Methods 0.000 claims abstract description 71
- 238000001514 detection method Methods 0.000 claims abstract description 67
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010295 mobile communication Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명은 사후 SNR(a posteriori SNR), 선행 SNR(a priori SNR) 및 예측 SNR(predicted SNR)을 결합하여 이를 특징 벡터로서 이용하는 서포트 벡터머신(Support Vector Machine; SVM)에 기초한 음성 검출 방법에 관한 것으로서, 보다 구체적으로는 (1) 학습용 음성 데이터로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후, 이들을 결합하여 훈련용 특징 벡터를 생성하는 단계와, (2) 생성된 상기 훈련용 특징 벡터를 이용하여 SVM 모델을 생성하는 단계와, (3) 테스트하고자 하는 음성 데이터로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후, 이들을 결합하여 테스트 특징 벡터를 생성하는 단계와, (4) 추출한 상기 테스트 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 음성을 검출하는 단계를 포함하는 SVM에 기초한 음성 검출 방법에 관한 것이다.
본 발명의 SVM에 기초한 음성 검출 방법에 따르면, 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 이들을 SVM에 대한 특징 벡터로서 사용함으로써, 실시간으로 음성 신호를 처리해야 하는 이동 통신 환경에 적합하게 하면서도 음성 검출 성능을 대폭 향상시킬 수 있다.
서포트 벡터머신(Support Vector Machine; SVM), 음성 검출 방법, 특징 벡 터, 신호대 잡음비(Signal to Noise Ratio; SNR), 사후 SNR(a posteriori SNR), 선행 SNR(a priori SNR), 예측 SNR(predicted SNR), 학습(training), 테스트, SVM 모델
Description
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간으로 SVM을 확장하는 것을 나타내는 도면.
도 3은 본 발명에 따른, 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 특징 벡터로서 사용하는 SNR에 기초한 음성 검출 방법의 구체적인 구현 단계들을 나타내는 블록도.
도 4 및 도 5는 본 발명에 따른 SVM에 기초한 음성 검출 방법의 성능을 G.729B 음성 검출 방법 및 SVM에 기초한 기존의 음성 검출 방법들의 성능과 비교하는 도면으로서, 도 4 및 도 5는 각각 자동차 잡음을 5dB SNR과 15dB SNR로 부가한 경우에, 각각의 방법에 의한 음성 검출 결과를 ROC(Receiver Operating Characteristic) 곡선을 통하여 비교하는 도면.
도 6 및 도 7은 본 발명에 따른 SVM에 기초한 음성 검출 방법의 성능을 G.729B 음성 검출 방법 및 SVM에 기초한 기존의 음성 검출 방법들의 성능과 비교하 는 도면으로서, 도 6 및 도 7은 각각 도로 잡음을 5dB SNR과 15dB SNR로 부가한 경우에, 각각의 방법에 의한 음성 검출 결과를 ROC 곡선을 통하여 비교하는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
110, 210 : 클래스 1
120, 220 : 클래스 2
130, 230 : Support Vectors
140 : 선형 초평면
150 : 마진
240 : 비선형 초평면
250 : 커널 함수
310 : 학습용 음성 데이터
320 : 특징 벡터 추출(사후 SNR, 선행 SNR, 예측 SNR)
330 : SVM 모델
340 : 테스트 음성
350 : 특징 벡터 추출(사후 SNR, 선행 SNR, 예측 SNR)
360 : SVM 모델을 이용한 음성 검출
본 발명은 서포트 벡터머신(Support Vector Machine; SVM)에 기초한 음성 검 출 방법에 관한 것으로서, 특히 사후 SNR(a posteriori SNR), 선행 SNR(a priori SNR) 및 예측 SNR(predicted SNR)을 결합하여 이를 특징 벡터로서 이용하는 SVM에 기초한 음성 검출 방법에 관한 것이다.
음성 검출기(voice activity detection; VAD)는 가변 전송률 음성 부호화가 필요한 다중 접속 기술의 한정된 주파수 대역을 효율적으로 사용하기 위한 핵심적인 부분이다. 구체적으로 우수한 가변 전송률 음성 부호화기의 실현을 위해서는 음성/비음성 구간을 검출하는 음성 검출 성능이 주요한 요소로 작용한다. 이와 같은 이유로 다양한 형태의 음성 검출 알고리즘이 제안되었으며, 대표적인 것으로는 선형예측 부호화 파라미터, 에너지 레벨, 포먼트(formant) 모양, 영교차율, 켑스트럴 특징(cepstral features), 음성신호의 적응 모델링, 주기적인 척도 등이 있다. 최근에는 패턴 인식에 근거한 음성 검출 방법과 선형 예측 부호화 잔류 신호의 고차 큐뮬런트(cumulants)를 이용하는 음성 검출 방법이 새로운 방법으로 제안되었다. 특히, 에너지 차이, 영교차율, 스펙트럼 차이들은 ITU-T G.729 Annex. B에 채택되었으며, 비슷한 방식들이 3GPP2의 Selectable Mode Vocoder(SMV)와 ETSI AMR VAD option2에 적용되었다.
한편, Enqing은 ITU-T G.729 Annex B 음성 검출기의 파라미터를 Support Vector Machine(SVM)에 적용하여 SVM 기반의 음성 검출 방법의 우수성을 최초로 제시하였다. 여기서, SVM이란 통계적 학습 이론으로서 분류 문제에 있어서 일반화 기능이 우수하여 패턴 인식의 여러 분야에서 응용되고 있는 기법으로서, 최근에는 음성 검출 방법으로도 여러 연구에서 이용되고 있다. 구체적으로 Ramirez는 자동 차 잡음 환경에서의 음성을 대상으로 잡음을 제거한 후, subband SNR(Signal-to-Noise Ratio; 신호 대 잡음비) 추정치와 long-term SNR 추정치를 특징 벡터로서 사용하여 SVM 기법을 음성 검출 방법에 적용함으로써, SVM 기반의 음성 검출 방법의 우수한 성능을 보여주었다. 그러나 Ramirez의 방법에서 사용한 파라미터 중 long-term SNR의 경우 subband SNR보다 우수한 성능을 보여주지만, 이동 통신 환경에서는 실시간으로 음성 신호를 처리해야 하기 때문에 현실적으로 적용하기가 어렵다는 문제점이 있다.
한편, 음성 통계 모델에 기초한 기존의 음성 검출 방법에 있어서 사용되는 3가지 주요 파라미터는, 사후 SNR(a posteriori SNR), 선행 SNR(a priori SNR) 및 예측 SNR(predicted SNR)이다. 사후 SNR은 음성 부재 구간에서 측정된 잡음의 전력(power)과 입력 신호의 전력으로부터 직접 도출할 수 있으며, 선행 SNR은 이전 프레임에서 추정된 SNR 추정치와 현재 프레임의 SNR 추정치를 이용하여 스무딩된 SNR을 도출하는 DD(decision-directed) 추정법을 적용하여 계산할 수 있다. 또한, 예측 SNR은 음성의 통계 모델에 기초하여 도출한 음성 부재 확률을 이용하여 이전 프레임에서 현재 프레임을 추정하도록 한 SNR 파라미터로서, 음성 검출에 있어서 매우 효과적인 것으로 밝혀지고 있다.
따라서 실시간으로 음성 신호를 처리해야 하는 이동 통신 환경에 적합하면서도 음성 검출 성능이 우수한 SVM에 기초한 음성 검출 방법을 도출하기 위해서, SVM을 이용한 음성 검출 방법에 상기 3가지 파라미터를 접목해 볼 필요성이 있다.
본 발명은, 상기와 같은 문제점 및 필요성에 대한 인식에서 비롯된 것으로서, 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 이들을 SVM에 대한 특징 벡터로 사용함으로써, 실시간으로 음성 신호를 처리해야 하는 이동 통신 환경에 적합하면서도 음성 검출 성능이 우수한 SVM에 기초한 음성 검출 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, SVM에 기초한 음성 검출 방법은,
(1) 학습용 음성 데이터로부터 사후 SNR(a posteriori SNR), 선행 SNR(a priori SNR) 및 예측 SNR(predicted SNR)을 추출한 후, 이들을 결합하여 훈련용 특징 벡터 을 생성하는 단계;
(3) 테스트하고자 하는 음성 데이터로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후, 이들을 결합하여 테스트 특징 벡터를 생성하는 단계;
(4) 추출한 상기 테스트 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 음성을 검출하는 단계를 포함하는 것을 그 특징으로 한다.
본 발명의 다른 특징에 따른 SVM에 기초한 음성 검출 방법은,
커널 함수로서 다음 수학식 3과 같이 정의되는 RBF(Radius Basis Function)를 사용하는 것을 그 특징으로 한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 상세한 설명에서는, 먼저 SVM 기법에 대하여 간단히 설명한 후, 다음으로 본 발명에서 SVM에 대한 특징 벡터로서 사용하고자 하는 사후 SNR, 선행 SNR 및 예측 SNR을 추출하는 과정을 살펴본 뒤, 본 발명에 따른 SVM에 기초한 음성 검출 방법을 설명한다. 마지막으로, 본 발명의 음성 검출 방법에 따른 음성 검출 결과를 기존의 음성 검출 방법에 따른 음성 검출 결과와 비교하도록 한다.
1.
SVM
(
Support
Vector
Machines
)의 이해
Vapnik이 제안한 SVM은 통계적 학습 이론에 기반을 둔 패턴 분류 기법이다. 기존의 학습 알고리즘은 학습 집단을 이용하여 학습 데이터의 수행도를 최적화하기 위한 경험적 위험 최소화(Empirical Risk Minimization; ERM) 방법을 기초로 하고 있는 반면, SVM은 분류 오류 확률을 최소화하는 구조적인 위험 최소화(Structural Risk Minimization; SRM) 방법에 기초하고 있다.
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면이다. 도 1에 도시된 바와 같이, 선형 SVM에 있어서 2개의 클래스를 구분할 수 있는 초평면(Hyperplane)은 무수히 많으나, 2개의 클래스(110, 120) 사이에서 가장 가까운 점들의 거리 (마진; margin)(150)을 최대화하도록 하면 유일한 해로 초평면을 구할 수 있다.
상기 수학식 6을 최소화하기 위해 Lagrangian의 안장점(saddle point)을 찾는 문제와 KKT(Karush-Kuhn-Tucker) 조건을 이용하여 Lagrange Multiplier를 찾는 Wolfe dual problem으로 변화시킬 수 있다. 변화된 식을 최대화하는 값을 가지고 최적 가중벡터 와 바이어스 을 구할 수 있다. 구해진 최적 가중벡터와 바이어스에 따라 임의의 입력패턴 x는 다음 수학식 8에 의해 분류된다.
그러나 일반적인 입력 패턴의 경우 명확하게 선형 분리가 되지 않는 경우가 대부분이므로, 상기 수학식 8을 그대로 적용할 수는 없다. 즉, 선형 SVM을 비선형 SVM으로 확장할 필요가 있는바, 이에 대해서는 도 2를 참조하여 이하에서 상세하게 설명한다.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간(high dimensional space)으로 SVM을 확장하는 것을 나타내는 도면이다. 도 2에 도시된 바와 같이, 입력 패턴의 선형 분리가 불가능한 경우 비선형 특성을 가진 SVM을 사용하게 되는데, 비선형 SVM은 커널(kernel) 함수를 사용하여 선형 분류가 가능한 고차원 공간으로 확장된 특징 공간(feature space)을 가지고 을 최대화 하는 값을 찾는다.
고차원의 공간으로 확장시킬 경우 어느 정도는 원 공간에서의 거리 관계를 보존 시킬 필요가 있기 때문에, 커널 함수는 고차원 공간으로의 사상 함수 을 사용해 다음 수학식 9와 같이 정의한다.
여기서, 중요한 점은 커널 트릭(kernel trick)을 사용함으로써 사상 함수에 대한 구체적인 설정 없이도 분류 함수를 구현할 수 있다는 것이다. 본 발명에서는 다음 수학식 10과 같은 RBF(Radial-Basis Function) 커널 함수를 사용하였다.
2. 특징 벡터의 추출
본 발명에서는, 기존의 통계 모델에 기초한 음성 검출 방법에서 사용되는 주 요 파라미터들인 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 SVM에 대한 특징 벡터로서 새롭게 제안한다.
원래의 음성신호 x(n), 잡음신호 d(n), x(n)에 d(n)가 인가된 입력신호(잡음음성신호) y(n)에 대한 DFT(Discrete Fourier Transform) 계수를 각각 , , (여기서, 은 n번째 프레임에서의 k번째 주파수 성분을 나타냄)이라고 하면, 음성 검출 기법에서 일반적으로 사용되고 있는 기본 가정은 다음 수학식 12와 같다.
상기 수학식 12의 가정에서, Y, X, D는 각각 잡음음성신호, 음성신호, 잡음신호의 DFT 계수 벡터들이다. 음성신호와 잡음신호의 스펙트럼이 복소수 가우시안 분포를 따른다고 가정하면, 상기 가정에 기초한 확률 밀도 함수는 다음 수학식 13 및 수학식 14와 같이 주어진다.
상기 수학식 15에서 알 수 있듯이, 특징 벡터의 첫 번째 요소인 사후 SNR은 잡음음성신호(전력)와 음성 부재 구간에서의 잡음 신호로부터 추정되는 잡음신호의 분산 을 이용하여 구할 수 있다.
특징 벡터의 두 번째 요소인 선행 SNR은 DD 추정법을 이용하여 다음 수학식 17과 같이 추정할 수 있다.
특징 벡터의 세 번째 요소인 예측 SNR의 개념은 최근에 소개되었는데, 음성구간에서의 잡음 전력 갱신을 고려하여 배경 잡음과 음성 각각에 long-term smoothed 전력 스펙트럼을 사용하여 추정하는데, 이때 사용되는 잡음과 음성의 분산에 대한 추정치는 다음 수학식 19와 같이 표현된다.
상기 수학식 19에서 음성의 존재와 부존재를 고려하면, 현재 프레임에서의 잡음과 음성 분산 전력의 추정치는 다음 수학식 20 및 수학식 21과 같다.
여기서, 다음 수학식 22 내지 수학식 25를 이용하여 상기 수학식 20 및 수학식 21을 전개할 수 있다.
여기서, 는 각 프레임에서의 음성 부재 확률이다. 최종적으로 상기 수학식 19에서 추정된 잡음과 음성의 전력을 이용하여 예측 SNR 값의 추정치를 구한다. 이 예측 SNR은 직전 프레임에서 현재 프레임의 값을 추정한다는 면에서 “예측(predicted)”이라는 용어가 사용되었고, 기존의 선행 SNR보다 음성 검출 방법의 성능 향상에 우수하다고 알려져 있다.
3. 본 발명에 따른
SVM
을 이용한 음성 검출 방법
다음으로, 도 3을 참조하여 본 발명에 따른 SVM에 기초한 음성 검출 방법의 구체적인 구현 방법을 설명하기로 한다.
도 3은 본 발명에 따른, 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 특징 벡터로써 사용하는 SNR에 기초한 음성 검출 방법의 구체적인 구현 단계들을 나타내는 블록도이다. 도 3에 도시된 바와 같이, 본 발명에 따른 음성 검출 방법은 크게 학습(training) 단계와 테스트(test) 단계로 나누어진다. 학습 단계는, 학습용 음성 데이터(310)로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후 이들을 결합하여 학습용 특징 벡터를 생성하는 단계(320)와, 생성된 학습용 특징 벡터를 앞서 언급한 수학식 1에 적용하여 최적의 가중벡터와 최적의 바이어스를 구하여 SVM 모델을 생성하는 단계(330)를 포함한다. 이렇게 학습 단계에 의해 SVM 모델이 결정되면, 테스트 단계로 들어간다. 테스트 단계는, 테스트하고자 하는 음성 데이터(340)로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후 이들을 결합하여 테스트 특징 벡터를 생성하는 단계(350)와, 생성된 테스트 특징 벡터를 SVM 모델 생성 단계(330)에서 생성한 SVM 모델에 대입하여 음성을 검출하는 단계(360)를 포함한다.
4. 실험 결과
본 발명에서 제안된 SVM에 기초한 음성 검출 방법의 성능을 평가하기 위하여, G.729B 음성 검출 방법 및 SVM에 기초한 음성 검출 방법 중 기존에 제안되었던 방법들과 ROC(Receiver Operating Characteristics) 곡선을 이용하여 음성 검출 성능을 비교하였다. 실험에 사용된 데이터는 성능 평가를 위해 총 230초의 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 표시하였다. 분류된 음성 데이터의 음성 구간은 총 57.1%로 음성 44.0%, 비음성 13.1%로 구성되었으며, 잡음 환경 은 음성 데이터에 자동차, 도로 잡음을 각각 5dB SNR과 15dB SNR로 부가하였다.
도 4 및 도 5는 본 발명에 따른 SVM에 기초한 음성 검출 방법의 성능을 G.729B 음성 검출 방법 및 SVM에 기초한 기존의 음성 검출 방법들의 성능과 비교하는 도면으로서, 도 4 및 도 5는 각각 자동차 잡음을 5dB SNR과 15dB SNR로 부가한 경우에, 각각의 방법에 의한 음성 검출 결과를 ROC(Receiver Operating Characteristic) 곡선을 통하여 비교하는 도면이다. 도 4 및 도 5에서, 가로축인 FAR0은 음성이 아닌데 음성이라고 잘못 경보하는 확률(음성 오경보 확률)이고, 세로축인 HR0은 음성이 아닌 것을 정확하게 검출하는 확률(비음성 검출 확률)이다. 도 4 및 도 5를 통해, 자동차 잡음이 부가된 환경에서, 본 발명에서 제안된 음성 검출 방법이 기존의 음성 검출 방법보다 우수한 음성 검출 성능을 나타내는 것을 분명하게 확인할 수 있다.
도 6 및 도 7은 본 발명에 따른 SVM에 기초한 음성 검출 방법의 성능을 G.729B 음성 검출 방법 및 SVM에 기초한 기존의 음성 검출 방법들의 성능과 비교하는 도면으로서, 도 6 및 도 7은 각각 도로 잡음을 5dB SNR과 15dB SNR로 부가한 경우에, 각각의 방법에 의한 음성 검출 결과를 ROC 곡선을 통하여 비교하는 도면이다. 도 6 및 도 7을 통해, 도로 잡음이 부가된 환경에서도, 본 발명에서 제안된 음성 검출 방법이 기존의 음성 검출 방법보다 우수한 음성 검출 성능을 나타내는 것을 분명하게 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위 는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 SVM에 기초한 음성 검출 방법에 따르면, 사후 SNR, 선행 SNR 및 예측 SNR을 결합하여 이들을 SVM에 대한 특징 벡터로서 사용함으로써, 실시간으로 음성 신호를 처리해야 하는 이동 통신 환경에 적합하게 하면서도 음성 검출 성능을 대폭 향상시킬 수 있다.
Claims (2)
- 사후 신호대 잡음비(a posteriori SNR), 선행 신호대 잡음비(a priori SNR) 및 예측 신호대 잡음비(predicted SNR)를 특징 벡터로서 이용하는 서포트 벡터머신(Support Vector Machine; SVM)에 기초한 음성 검출 방법으로서,생성된 상기 훈련용 특징 벡터를 이용하여, 음성 클래스와 비음성 클래스의 가장 가까운 점들 사이의 거리가 최대화될 수 있도록 최적의 가중벡터 와 최적의 바이어스 을 구하여 다음 수학식 1과 같이 SVM 모델을 생성하는 단계<수학식 1><수학식 2>테스트하고자 하는 음성 데이터로부터 사후 SNR, 선행 SNR 및 예측 SNR을 추출한 후, 이들을 결합하여 테스트 특징 벡터를 생성하는 단계;추출한 상기 테스트 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 음성을 검출하는 단계를 포함하는 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017243A KR100869385B1 (ko) | 2007-02-21 | 2007-02-21 | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017243A KR100869385B1 (ko) | 2007-02-21 | 2007-02-21 | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080077720A KR20080077720A (ko) | 2008-08-26 |
KR100869385B1 true KR100869385B1 (ko) | 2008-11-19 |
Family
ID=39880153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017243A KR100869385B1 (ko) | 2007-02-21 | 2007-02-21 | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100869385B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014157954A1 (ko) * | 2013-03-28 | 2014-10-02 | 한국과학기술원 | 뇌의 음성처리에 기반한 음성신호 프레임 가변 분할 방법 |
KR101434592B1 (ko) * | 2013-03-28 | 2014-08-27 | 한국과학기술원 | 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법 |
US10008198B2 (en) | 2013-03-28 | 2018-06-26 | Korea Advanced Institute Of Science And Technology | Nested segmentation method for speech recognition based on sound processing of brain |
CN106504772B (zh) * | 2016-11-04 | 2019-08-20 | 东南大学 | 基于重要性权重支持向量机分类器的语音情感识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990054490A (ko) * | 1997-12-26 | 1999-07-15 | 정몽규 | 신호대 잡음비의 정규화에 의한 특징벡터 추출방법 |
KR20060070603A (ko) * | 2004-12-21 | 2006-06-26 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
KR20060134882A (ko) * | 2006-11-29 | 2006-12-28 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
-
2007
- 2007-02-21 KR KR1020070017243A patent/KR100869385B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990054490A (ko) * | 1997-12-26 | 1999-07-15 | 정몽규 | 신호대 잡음비의 정규화에 의한 특징벡터 추출방법 |
KR20060070603A (ko) * | 2004-12-21 | 2006-06-26 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
KR20060134882A (ko) * | 2006-11-29 | 2006-12-28 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
Non-Patent Citations (1)
Title |
---|
박윤식, 장준혁, "음성향상에 강인한 새로운 선행 SNR 추정기법에 관한 연구", 한국음향학회지 제25권 제8호, pp.383-388, 2006 |
Also Published As
Publication number | Publication date |
---|---|
KR20080077720A (ko) | 2008-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842748B2 (en) | System and method for cluster-based audio event detection | |
Seltzer et al. | A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
KR101704926B1 (ko) | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 | |
US8380500B2 (en) | Apparatus, method, and computer program product for judging speech/non-speech | |
Janicki | Spoofing countermeasure based on analysis of linear prediction error. | |
Jo et al. | Statistical model-based voice activity detection using support vector machine | |
CN103559888A (zh) | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 | |
KR100869385B1 (ko) | 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법 | |
KR20070091789A (ko) | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 | |
Toda et al. | Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM | |
Kuropatwinski et al. | Estimation of the excitation variances of speech and noise AR-models for enhanced speech coding | |
Nakatani et al. | Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise | |
Kim et al. | Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine | |
KR101343768B1 (ko) | 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 | |
Kwon et al. | Optimizing speech/non-speech classifier design using adaboost | |
Górriz et al. | Generalized LRT-based voice activity detector | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
Suzuki et al. | Feature enhancement with joint use of consecutive corrupted and noise feature vectors with discriminative region weighting | |
KR20130037040A (ko) | 해양/음성 통신에서 변별적 가중치 학습기반 보이스 피싱 검출 방법 | |
Jo et al. | A support vector machine-based voice activity detection employing effective feature vectors | |
KR101124712B1 (ko) | 비음수 행렬 인수분해 기반의 음성 검출 방법 | |
KR100901439B1 (ko) | 서포트 벡터 머신을 이용한 음성 검출 방법 | |
Gunal et al. | Use of novel feature extraction technique with subspace classifiers for speech recognition | |
Epps et al. | An energy search approach to variable frame rate front-end processing for robust ASR. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121109 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130913 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |