KR100901439B1 - 서포트 벡터 머신을 이용한 음성 검출 방법 - Google Patents

서포트 벡터 머신을 이용한 음성 검출 방법 Download PDF

Info

Publication number
KR100901439B1
KR100901439B1 KR1020070045293A KR20070045293A KR100901439B1 KR 100901439 B1 KR100901439 B1 KR 100901439B1 KR 1020070045293 A KR1020070045293 A KR 1020070045293A KR 20070045293 A KR20070045293 A KR 20070045293A KR 100901439 B1 KR100901439 B1 KR 100901439B1
Authority
KR
South Korea
Prior art keywords
likelihood ratio
voice
svm
detection method
speech
Prior art date
Application number
KR1020070045293A
Other languages
English (en)
Other versions
KR20080099575A (ko
Inventor
장준혁
조규행
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070045293A priority Critical patent/KR100901439B1/ko
Publication of KR20080099575A publication Critical patent/KR20080099575A/ko
Application granted granted Critical
Publication of KR100901439B1 publication Critical patent/KR100901439B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 서포트 벡터 머신(Support Vector Machine; SVM)을 이용한 음성 검출 방법에 관한 것으로서, 보다 구체적으로는 (1) 훈련용 음성 데이터베이스로부터 우도비(likelihood ratio)에 대한 특징 벡터를 추출하는 제1 단계와, (2) 상기 제1 단계에서 추출한 우도비에 대한 상기 특징 벡터를 이용하여, 서포트 벡터 머신(SVM) 모델을 생성하는 제2 단계와, (3) 입력 음성 신호로부터 우도비를 구하는 제3 단계와, (4) 상기 제3 단계에서 구한 상기 우도비를 상기 제2 단계에서 생성한 상기 SVM 모델에 적용하여 결정함수(decision function)의 값을 계산하는 제4 단계와, (5) 상기 제4 단계에서 계산한 결정함수의 값을 임계값(threshold)과 비교하여 음성의 존재 유무를 판단하는 제5 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성 검출 방법에 따르면, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법에서 사용하던 주파수별 우도비를 SVM의 특징 벡터로 사용함으로써, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법의 성능을 크게 향상시킬 수 있다.
서포트 벡터 머신(Support Vector Machine; SVM), 음성 검출, SVM 모델, 특 징 벡터, 우도비, 결정함수, 사후 SNR, 선행 SNR, 잡음신호의 분산

Description

서포트 벡터 머신을 이용한 음성 검출 방법{A VOICE DETECTING METHOD USING A SUPPORT VECTOR MACHINE}
도 1은 통계적 모델에 기초한 기존의 음성 검출 방법의 순서도(flowchart)를 나타내는 도면.
도 2는 최적 초평면(optimal hyperplane)을 이용한 선형 SVM의 개념을 나타내는 도면.
도 3은 본 발명에 따른 SVM을 이용한 음성 검출 방법의 순서도를 나타내는 도면.
도 4 내지 도 7은 본 발명에 따른 SVM의 선형과 비선형 분류 방법을 이용한 음성 검출 방법의 성능을 음성의 통계적 모델에 기초한 기존의 음성 검출 방법의 성능과 수신기 동작 특성(ROC) 곡선을 이용하여 비교한 도면으로서, 각각 차량 잡음, 배블 잡음, 거리 잡음 및 백색 잡음 환경에 따라 음성 검출을 위한 임계값을 변경하면서 실제 음성을 음성이라고 판단한 음성 검출 확률(Pd)과 비음성에 대해 음성이라고 판단한 오경보 확률(Pf)을 측정한 ROC 곡선을 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
100 : 통계적 모델에 기초한 기존의 음성 검출 방법
105 : 음성 신호
110 : 잡음 신호의 분산을 구하는 단계
120 : 사후 SNR과 선행 SNR을 추정하는 단계
130 : 우도비를 계산하는 단계
140 : 우도비의 기하 평균을 계산하는 단계
150 : 우도비의 기하 평균을 임계값과 비교하는 단계
155 : 우도비의 기하 평균이 임계값보다 큰 경우(음성 존재)
156 : 우도비의 기하 평균이 임계값보다 작은 경우(음성 부존재)
300 : SVM을 이용한 음성 검출 방법
305 : 음성 신호
310 : 잡음 신호의 분산을 구하는 단계
320 : 사후 SNR과 선행 SNR을 추정하는 단계
330 : 우도비를 계산하는 단계
340 : 우도비를 이용하여 결정함수의 값을 계산하는 단계
350 : 결정함수의 값이 0보다 큰지 여부를 확인하는 단계
355 : 결정함수의 값이 0보다 큰 경우(음성 존재)
356 : 결정함수의 값이 0보다 작은 경우(음성 부존재)
360 : SVM 모델을 생성하는 단계
본 발명은 음성 검출 방법에 관한 것으로서, 특히 서포트 벡터 머신(Support Vector Machine; SVM)을 이용한 음성 검출 방법에 관한 것이다.
음성 구간과 비음성 구간을 검출하는 음성 검출기(voice activity detector, VAD)는 다중 접속 기술에서 한정된 주파수 대역을 효율적으로 사용하기 위한 가변 전송률 부호화기의 실현을 위해 필수적인 부분을 차지하고 있다. 이와 관련하여 에너지 차이, 영교차율, 스펙트럼 차이 등의 특징을 이용한 다양한 알고리즘들이 제안되어 왔다. 특히, Ephraim과 Malah의 연구에서 시작된 최소 평균 제곱 오차(Minimum Mean Square Error; MMSE) 기반의 음성 향상 기법에 사용된 음성의 존재와 부존재에 대한 통계적 모델을 우도비 테스트(likelihood ratio test) 기반의 음성 검출기에 적용한 것이 매우 우수한 성능을 가진 것으로 알려져 있다.
한편, 최근의 음성 검출기의 성능 개선을 위한 새로운 시도로서 기존의 음성 파라미터를 이진 분류에 뛰어난 성능을 보이는 서포트 벡터 머신(SVM)에 적용하는 방법이 시도되었다. SVM은 구조적 위험 최소화(Structural Risk Minimization; SRM) 이론으로부터 발전한 이진 패턴 분류기로서, 분류 문제를 해결하기 위한 최적의 분리 경계면(hyperplane; “초평면”이라고도 함)을 제공한다. SVM이 주목받는 이유는 (1) 명백한 이론적 근거에 기초하므로 결과 해석이 용이하고, (2) 실제 응용에 있어서 인공신경망 수준의 높은 성과를 나타내며, (3) 적은 학습 자료만으로 신속하게 분별 학습을 수행할 수 있기 때문이다. SVM은 본래 이진 분류(binary classification)를 위하여 개발되었으나, 현재에는 생물정보학(bioinformatics), 문자인식, 필기인식, 얼굴 및 물체인식 등 다양한 분야에서 성공적으로 적용되고 있다.
음성의 통계적 모델에 기초한 기존의 음성 검출기의 성능을 향상시키기 위한 방법으로서, 음성의 통계적 모델에 기초한 음성 검출기에 SVM을 접목시켜볼 필요성이 있다.
본 발명은, 상기와 같은 필요성의 인식에서 비롯된 것으로서, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법에서 사용하던 주파수별 우도비를 SVM의 특징 벡터로 사용함으로써, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법의 성능을 크게 향상시킨 새로운 음성 검출 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 음성 검출 방법은,
(1) 훈련용 음성 데이터베이스로부터 우도비(likelihood ratio)에 대한 특징 벡터를 추출하는 제1 단계;
(2) 상기 제1 단계에서 추출한 우도비에 대한 상기 특징 벡터를 이용하여, 서포트 벡터 머신(Support Vector Machine; SVM) 모델을 생성하는 제2 단계;
(3) 입력 음성 신호로부터 우도비를 구하는 제3 단계;
(4) 상기 제3 단계에서 구한 상기 우도비를 상기 제2 단계에서 생성한 상기 SVM 모델에 적용하여 결정함수(decision function)의 값을 계산하는 제4 단계; 및
(5) 상기 제4 단계에서 계산한 결정함수의 상기 값을 임계값(threshold)과 비교하여 음성의 존재 유무를 판단하는 제5 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 제2 단계에서, 상기 특징 벡터를 커널 함수에 적용한 후 SVM 모델을 생성할 수 있다.
더욱 바람직하게는, 상기 커널 함수로서 다음 수학식 1과 같은 RBF(radial-basis function)를 사용할 수 있다.
Figure 112007034623391-pat00001
여기서, K( )는 커널 함수를 나타내고,
Figure 112007034623391-pat00002
Figure 112007034623391-pat00003
는 각각 우도비와 우도비에 대한 서포트 벡터를 나타내며,
Figure 112007034623391-pat00004
는 상기 서포트 벡터 집합의 표준편차를 나타낸다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 상세한 설명에서는, 먼저 음성의 통계적 모델에 기초한 음성 검출 방법에 대하여 간단히 살펴본 후, 본 발명에 따른 SVM을 이용한 음성 검출 방법을 상세히 설명하기로 한다.
1. 음성의 통계적 모델에 기초한 음성 검출 방법의 이해
시간축 상에서 원래의 음성신호 x(n)에 잡음 신호 d(n)가 인가된 입력 신호 y(n)는, 이산 푸리에 변환(Discrete Fourier Transform; DFT)을 통해 주파수 축으로 변환하면 다음 수학식 2와 같이 표현될 수 있다.
Figure 112007034623391-pat00005
여기서 Yk(n)은 n번째 프레임에서의 k번째 주파수 성분을 나타낸다.
가설 H0과 H1이 각각 음성의 부존재와 존재를 표현한다고 하면, 각 주파수 채널별로 다음 수학식 3과 같이 기술될 수 있다.
Figure 112007034623391-pat00006
음성 신호와 잡음 신호의 스펙트럼이 복소 가우시안 분포를 따른다는 가정으로부터, 가설 H0과 H1을 조건으로 한 확률밀도함수는 다음 수학식 4와 같이 주어질 수 있다.
Figure 112007034623391-pat00007
여기서
Figure 112007034623391-pat00008
Figure 112007034623391-pat00009
는 각각 채널별 음성과 잡음의 분산이다.
상기 수학식 4를 이용하면, k번째 주파수 대역에 대한 우도비(likelihood ratio)는 다음 수학식 5와 같이 구해질 수 있다.
Figure 112007034623391-pat00010
여기서,
Figure 112007034623391-pat00011
Figure 112007034623391-pat00012
는 각각 선행 신호 대 잡음비(a priori signal-to-noise ratio; 선행 SNR)와 사후 신호 대 잡음비(a posteriori SNR; 사후 SNR)로 정의될 수 있다.
음성 부존재 구간에서 갱신되는 잡음 신호로부터 잡음 분산
Figure 112007034623391-pat00013
을 구하면, 사후 SNR은 그 정의로부터 구해진 잡음 분산을 이용하여 추정할 수 있으며, 또한 선행 SNR은 decision-directed(DD) 방식을 이용하여 다음 수학식 6과 같이 추정할 수 있다.
Figure 112007034623391-pat00014
여기서,
Figure 112007034623391-pat00015
은 이전 프레임에서 추정된 음성 신호의 k번째 스펙트럼 성분의 크기에 대한 추정치로서, MMSE에 기초하여 구할 수 있다. 또한,
Figure 112007034623391-pat00016
는 가중치 값이며, 연산자 P[ ]는 다음 수학식 7과 같이 정의된다.
Figure 112007034623391-pat00017
통계적 모델에 기초한 기존의 음성 검출 방법에 대한 결정식은, 각각의 주파수 채널에서 구해진 우도비를 기하 평균하여 다음 수학식 8과 같이 임계값과 비교함으로써 음성 존재 여부를 판단한다.
Figure 112007034623391-pat00018
여기서, L은 전체 주파수 대역의 개수이며,
Figure 112007034623391-pat00019
는 음성 존재 여부에 대한 임계값이다.
도 1은 통계적 모델에 기초한 기존의 음성 검출 방법의 순서도(flowchart)를 나타내는 도면이다. 도 1에 도시된 바와 같이, 기존의 음성 검출 방법에서는 우도비의 기하 평균(geometric mean)을 이용하여 음성 존재 여부를 판단하고 있다.
2. 서포트 벡터 머신(SVM)을 이용한 음성 검출 방법
Vapnik이 제안한 서포트 벡터 머신(SVM)은 통계적 학습 이론에 기반을 둔 패턴 분류기로서, 분류 오류 확률을 최소화하는 구조적 위험 최소화(Structural Risk Minimization; SRM) 방법에 기초하고 있다. 도 2는 최적 초평면(optimal hyperplane)을 이용한 선형 SVM의 개념을 나타내는 도면이다. 도 2에 도시된 바와 같이, 선형적으로 분류 가능한 데이터에 대한 이진 분류에 있어서, 2개의 클래스를 분류할 수 있는 무수히 많은 초평면(Hyperplane)이 존재한다. 그 중 두 클래스 간 가장 가까운 점들과 초평면간의 마진이 최대가 되는 최적 초평면을 구함으로써 높은 일반화 성능을 기대할 수 있다.
학습 데이터가
Figure 112007034623391-pat00020
과 같이 주어졌을 때 초평면에 대한 방정식은
Figure 112007034623391-pat00021
이다. 여기서, w는 가중치 벡터를 나타내고, b는 바이어스를 나타낸다. 이때 마진을 최대화하기 위해서는 다음 수학식 9와 10을 만족해야 한다.
Figure 112007034623391-pat00022
Figure 112007034623391-pat00023
상기 수학식 9의 최소화 문제를 해결하기 위해 상기 수학식 9와 상기 수학식 10을 결합하여 다음 수학식 11과 같이 Lagrange Multiplier
Figure 112007034623391-pat00024
을 포함한 Lagrangian 함수를 구할 수 있다.
Figure 112007034623391-pat00025
상기 수학식 11에 KKT(Karush-Kuhn-Tucker) 조건을 적용하면, 다음 수학식 13을 만족하면서
Figure 112007034623391-pat00026
을 최대화하는 다음 수학식 12와 같은 최적화 문제가 된다. 이 때, 학습 데이터에 대하여 QP(Quadratic Programming)를 이용하여
Figure 112007034623391-pat00027
을 구한다.
Figure 112007034623391-pat00028
Figure 112007034623391-pat00029
Figure 112007034623391-pat00030
을 최대화하는
Figure 112007034623391-pat00031
을 KKT 조건에서 유도된 다음 수학식 14와 15에 대입하여 최적 가중치 벡터
Figure 112007034623391-pat00032
와 바이어스
Figure 112007034623391-pat00033
을 구한다.
Figure 112007034623391-pat00034
Figure 112007034623391-pat00035
여기서,
Figure 112007034623391-pat00036
는 서포트 벡터(support vector)를 나타낸다.
데이터가 선형 분류가 되지 않을 경우를 고려하여 오차를 허용하고, 마진과 오차의 트레이드-오프(trade-off)를 제어할 수 있는 슬랙 변수
Figure 112007034623391-pat00037
와 파라미터 C를 적용하면 다음 수학식 16 및 17과 같은 형태의 최적화 문제가 된다.
Figure 112007034623391-pat00038
Figure 112007034623391-pat00039
상기 수학식 16과 17에 대하여, 선형 분류가 가능한 경우와 동일한 방법을 적용하면 다음 수학식 18과 19를 얻을 수 있으며, 최종적으로
Figure 112007034623391-pat00040
Figure 112007034623391-pat00041
을 구할 수 있다.
Figure 112007034623391-pat00042
Figure 112007034623391-pat00043
본 발명에서는 상기 수학식 5의 주파수 채널별 우도비
Figure 112007034623391-pat00044
을 상기 수학식 8과 같이 기하평균을 구하여 임계값과 비교하는 기존의 방법 대신에 우도비를 특징 벡터로서 사용하는 SVM에 기초한 음성 검출 방법을 제안한다.
도 3은 본 발명에 따른 SVM을 이용한 음성 검출 방법의 순서도를 나타내는 도면이다. 도 3에 도시된 바와 같이, 본 발명에 따른 음성 검출 방법은, 서포트 벡터 머신(SVM) 모델을 생성하는 단계(360), 입력 신호(305)로부터 잡음 신호의 분산을 구하는 단계(310), 단계 310에서 구한 잡음 신호의 분산을 이용하여, 사후 신호 대 잡음비(a posteriori SNR; 사후 SNR) 및 선행 신호 대 잡음 비(a priori SNR; 선행 SNR)를 추정하는 단계(320), 단계 320에서 추정한 사후 SNR 및 선행 SNR 을 이용하여, 입력 신호에 대한 우도비를 구하는 단계(330), 단계 330에서 구한 우도비를 단계 360에서 생성한 SVM 모델에 입력하여 결정함수(decision function)의 값을 계산하는 단계(340), 단계 340에서 계산한 결정함수의 값이 0보다 크면 음성이 존재한다고 판단하고(355), 아니면 음성이 존재하지 않는다고 판단하는(356) 단계(350)를 포함한다. 단계 310 내지 단계 330, 즉 입력 신호(305)로부터 잡음 신호의 분산을 구하는 단계(310), 단계 310에서 구한 잡음 신호의 분산을 이용하여, 사후 SNR 및 선행 SNR을 추정하는 단계(320), 및 단계 320에서 추정한 사후 SNR 및 선행 SNR을 이용하여, 입력 신호에 대한 우도비를 구하는 단계(330)는, 전체적으로 입력 음성 신호(305)로부터 우도비를 구하는 단계라고 할 수 있다.
SVM 모델을 생성하는 단계(360)는, 훈련용 음성 데이터베이스로부터 우도비에 대한 특징 벡터를 추출하는 단계와, 추출한 우도비에 대한 특징 벡터를 이용하여 SVM 모델을 생성하는 단계를 포함할 수 있으며, 추출한 특징 벡터를 커널 함수에 적용한 후 SVM 모델을 생성할 수도 있다. 커널 함수로서는 앞서 언급한 수학식 1과 같은 RBF(radial-basis function)를 사용할 수 있다.
Figure 112007034623391-pat00045
여기서, K( )는 커널 함수를 나타내고,
Figure 112007034623391-pat00046
Figure 112007034623391-pat00047
는 각각 우도비와 우도비에 대한 서포트 벡터를 나타내며,
Figure 112007034623391-pat00048
는 상기 서포트 벡터 집합의 표준편차를 나타낸다.
본 발명의 일 실시예에서는, 서포트 벡터 머신 모델을 생성하는 데 사용되는 훈련용 음성 데이터베이스를 위하여, 각각 4명의 남성 화자와 여성 화자가 말한 음 성을 8kHz로 샘플링하였으며, 총 226초 길이의 깨끗한 음성 데이터를 음성과 비음성 부분으로 10 ms마다 수동으로 표시하여 클래스 z를 구성하였고, 또한 잡음 환경을 고려하여 차량 잡음(vehicular noise), 배블 잡음(babble noise), 거리 잡음(street noise), 백색 잡음(white noise)을 각각 5 ~ 25 dB 사이의 여러 SNR에 대해 부과하였다.
상기 단계 340 및 350에서 수행되는 과정을 보다 구체적으로 살펴본다. 주어진 입력 신호(305)에 대해 실시간으로 특징 벡터
Figure 112007034623391-pat00049
을 추출한 후(단계 310 내지 단계 330), 추출된 특징 벡터를 다음 수학식 20과 같은 결정함수에 대입하여 그 값을 구함으로써 음성의 존재 여부를 결정한다.
Figure 112007034623391-pat00050
여기서,
Figure 112007034623391-pat00051
는 우도비의 서포트 벡터를 나타낸다.
앞서 언급한 바와 같이, 입력 데이터의 경우 명확하게 선형 분류가 되지 않는 경우가 대부분인데, 이와 같이 선형 분류가 불가능한 경우 다음 수학식 21과 같은 커널 함수 K( )를 이용하여 고차원 공간으로 사상시킨 후 고차원 특징 공간에서의 선형 분류를 적용한다.
Figure 112007034623391-pat00052
상기 수학식 21에서 사상함수
Figure 112007034623391-pat00053
가 존재할 수 있는 커널 함수가 주어진 경우, 커널 함수를 이용한 결정함수는 다음 수학식 22와 같이 최종적으로 구해질 수 있다.
Figure 112007034623391-pat00054
본 발명에서는 선형 커널을 이용한 선형 SVM 모델과, RBF 커널과 같은 비선형 커널을 이용한 비선형 SVM 모델이 사용될 수 있다.
3. 실험 결과
본 발명에 따른 SVM을 이용한 음성 검출 방법의 성능을 평가하기 위해 우도비 테스트를 이용한 통계적 모델 기반의 기존의 음성 검출 방법의 성능과 수신기 동작 특성(Receiver Operating Characteristics; ROC) 곡선을 이용하여 비교하였다. 실험에 사용된 데이터는, 총 230초의 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하여 만들어졌다. 분류된 음성 데이터의 음성 구간은 총 57.1%로 유성음이 44.0%, 무성음이 13.1%로 구성되었으며, 잡음 환경은 음성 데이터에 차량 잡음, 배블 잡음, 거리 잡음, 백색 잡음이 5 dB SNR로 부과되었다.
도 4 내지 도 7은 본 발명에 따른 SVM을 이용한 음성 검출 방법의 성능을 음성의 통계적 모델에 기초한 기존의 음성 검출 방법의 성능과 ROC 곡선을 이용하여 비교한 도면으로서, 각각 차량 잡음, 배블 잡음, 거리 잡음 및 백색 잡음 환경에 따라 음성 검출을 위한 임계값을 변경하면서 실제 음성을 음성이라고 판단한 음성 검출 확률(Pd)과 비음성에 대해 음성이라고 판단한 오경보 확률(Pf)을 측정한 ROC 곡선을 나타내는 도면이다. 도 4 내지 도 7에서, 세로축은 음성 검출 확률(Pd)을, 가로축은 오경보 확률(Pf)을 나타내며, Proposed(RBF)는 본 발명에 따른 비선형 SVM 모델을 사용한 음성 검출 방법을, Proposed(Linear)는 본 발명에 따른 선형 SVM 모델을 사용한 음성 검출 방법을, Sohn은 기존의 음성 검출 방법을 각각 나타낸다. 도 4 내지 도 7로부터, 동일한 SNR의 다양한 잡음 조건에서 선형 SVM 모델을 이용한 음성 검출 방법의 경우 전체적으로 기존의 음성 검출 방법보다 향상된 성능을 보여주며, RBF 커널을 이용한 비선형 SVM 모델의 경우 낮은 Pf 영역을 제외하고 상당히 월등한 성능을 보여주는 것을 확인할 수 있다. 결론적으로, 우도비의 기하 평균으로 음성과 비음성의 클래스를 결정하는 기존의 방법의 성능보다 통계적 학습 이론 SVM의 분류 방법과 접목한 본 발명에 따른 음성 검출 방법의 성능이 훨씬 우수한 것을 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성 검출 방법에 따르면, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법에서 사용하던 주파수별 우도비를 SVM의 특징 벡터로 사용함으로써, 음성의 통계적 모델에 기초한 기존의 음성 검출 방법의 성능을 크게 향상시킬 수 있다.

Claims (3)

  1. (1) 훈련용 음성 데이터베이스로부터 우도비(likelihood ratio)에 대한 특징 벡터를 추출하는 제1 단계;
    (2) 상기 제1 단계에서 추출한 우도비에 대한 상기 특징 벡터를 이용하여, 서포트 벡터 머신(Support Vector Machine; SVM) 모델을 생성하는 제2 단계;
    (3) 입력 음성 신호로부터 우도비를 구하는 제3 단계;
    (4) 상기 제3 단계에서 구한 상기 우도비를 상기 제2 단계에서 생성한 상기 SVM 모델에 적용하여 결정함수(decision function)의 값을 계산하는 제4 단계; 및
    (5) 상기 제4 단계에서 계산한 결정함수의 상기 값을 임계값(threshold)과 비교하여 음성의 존재 유무를 판단하는 제5 단계
    를 포함하는 음성 검출 방법.
  2. 제1항에 있어서,
    상기 제2 단계에서, 상기 특징 벡터를 커널 함수에 적용한 후 SVM 모델을 생성하는 음성 검출 방법.
  3. 제2항에 있어서,
    상기 커널 함수로서 다음 수학식과 같은 RBF(radial-basis function)를 사용하는 음성 검출 방법.
    Figure 112007034623391-pat00055
    여기서, K( )는 커널 함수를 나타내고,
    Figure 112007034623391-pat00056
    Figure 112007034623391-pat00057
    는 각각 우도비와 우도비에 대한 서포트 벡터를 나타내며,
    Figure 112007034623391-pat00058
    는 상기 서포트 벡터 집합의 표준편차를 나타냄.
KR1020070045293A 2007-05-10 2007-05-10 서포트 벡터 머신을 이용한 음성 검출 방법 KR100901439B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070045293A KR100901439B1 (ko) 2007-05-10 2007-05-10 서포트 벡터 머신을 이용한 음성 검출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070045293A KR100901439B1 (ko) 2007-05-10 2007-05-10 서포트 벡터 머신을 이용한 음성 검출 방법

Publications (2)

Publication Number Publication Date
KR20080099575A KR20080099575A (ko) 2008-11-13
KR100901439B1 true KR100901439B1 (ko) 2009-06-05

Family

ID=40286524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070045293A KR100901439B1 (ko) 2007-05-10 2007-05-10 서포트 벡터 머신을 이용한 음성 검출 방법

Country Status (1)

Country Link
KR (1) KR100901439B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101408902B1 (ko) * 2013-03-28 2014-06-19 한국과학기술원 뇌의 음성신호처리에 기반한 잡음 강인성 음성인식 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070603A (ko) * 2004-12-21 2006-06-26 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
KR20060070606A (ko) * 2004-12-21 2006-06-26 한국전자통신연구원 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070603A (ko) * 2004-12-21 2006-06-26 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
KR20060070606A (ko) * 2004-12-21 2006-06-26 한국전자통신연구원 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. Enqing et al. "Applying support vector machines to voice activity detection" Proc. Int. Conf. Signal Processing, Vol.2, pp.1124-1127, August 2002*
N.S.Kim et al. "Voice activity detection based on multiple statistical modela" IEEE Trans. Signal Processing, Vol.54, No.6, pp.1965-1976, June 2006*

Also Published As

Publication number Publication date
KR20080099575A (ko) 2008-11-13

Similar Documents

Publication Publication Date Title
US9411883B2 (en) Audio signal processing apparatus and method, and monitoring system
US8155953B2 (en) Method and apparatus for discriminating between voice and non-voice using sound model
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
US7774203B2 (en) Audio signal segmentation algorithm
WO2020220440A1 (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
KR101640188B1 (ko) 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치
US11527259B2 (en) Learning device, voice activity detector, and method for detecting voice activity
CN109766929A (zh) 一种基于svm的音频分类方法及系统
Dov et al. Kernel-based sensor fusion with application to audio-visual voice activity detection
US6230129B1 (en) Segment-based similarity method for low complexity speech recognizer
CN106910495A (zh) 一种应用于异常声音检测的音频分类系统和方法
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
Naik et al. Filter selection for speaker diarization using homomorphism: speaker diarization
CN114694640A (zh) 基于音频频谱图的异常声音提取识别方法及装置
CN114023353A (zh) 基于聚类分析和相似度计算的变压器故障分类方法及系统
May et al. Environment-aware ideal binary mask estimation using monaural cues
KR20170129477A (ko) 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법
KR100901439B1 (ko) 서포트 벡터 머신을 이용한 음성 검출 방법
KR100869385B1 (ko) 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법
KR101711302B1 (ko) 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법
Brew et al. An evaluation of one-class classification techniques for speaker verification
KR100893154B1 (ko) 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치
Górriz et al. Generalized LRT-based voice activity detector

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140320

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee