KR20080077880A - 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 - Google Patents
피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 Download PDFInfo
- Publication number
- KR20080077880A KR20080077880A KR1020070017634A KR20070017634A KR20080077880A KR 20080077880 A KR20080077880 A KR 20080077880A KR 1020070017634 A KR1020070017634 A KR 1020070017634A KR 20070017634 A KR20070017634 A KR 20070017634A KR 20080077880 A KR20080077880 A KR 20080077880A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- voice
- speech
- svm
- pitch
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 90
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000000926 separation method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 102000004000 Aurora Kinase A Human genes 0.000 description 1
- 108090000461 Aurora Kinase A Proteins 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법에 관한 것으로서, 보다 구체적으로는 (1) 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계와, (2) 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계와, (3) 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계와, (4) 추출한 훈련용 MFCC 특징 벡터와 훈련용 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 생성하는 단계와, (5) 생성된 결합 특징 벡터를 이용하여 SVM 모델을 생성하는 단계와, (6) 테스트하고자 하는 음성신호로부터 음성을 검출하는 단계와, (7) 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계와, (8) 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계와, (9) 추출한 테스트 MFCC 특징 벡터와 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계와, (10) 추출한 테스트 결합 특징 벡터를 SVM 모델 생성 단계에서 생성한 SVM 모델에 대입하여 성별을 인식하는 단계를 포함하는 음성신호에 기초한 성별 인식 방법에 관한 것이다.
음성신호에 기초한 본 발명의 성별 인식 방법에 따르면, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 MFCC 특징 벡터와 결합하여 결합 특징 벡터로서 이용하고 동시에 SVM을 적용함으로써, 기존의 GMM을 이용한 성별 인식 방법과 비교하여 성별 인식의 성능을 대폭 향상시킬 수 있다.
피치(Pitch), 서포트 벡터머신(Support Vector Machine; SVM), 성별 인식, 음성신호, 훈련(training), 테스트, MFCC, ΔMFCC, 특징 벡터, 결합 특징 벡터, SVM 모델, GMM
Description
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간으로 SVM을 확장하는 것을 나타내는 도면.
도 3은 본 발명의 실험에서 사용한 남성 및 여성 파일에서 추출한 Pitch를 대비하여 보여주는 도면.
도 4는 MFCC 특징 벡터와 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 구성하는 것을 나타내는 도면.
도 5는 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법의 구체적인 구현 단계들을 나타내는 블록도.
도 6은 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법과 기존의 GMM을 이용한 성별 인식 방법, SVM을 이용한 성별 인식 방법의 성별 인식 성능을 비교하는 도면으로서, 남성과 여성의 성별 검출 확률()을 ROC(Receiver Operating Characteristic) 곡선을 이용하여 비교하는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
110, 210 : 클래스 1
120, 220 : 클래스 2
130, 230 : Support Vectors
140 : 선형 초평면
150 : 마진
240 : 비선형 초평면
250 : 커널 함수
310 : (훈련용) 음성 데이터베이스 (남성, 여성)
320 : (훈련용) 음성인식 및 특징 추출(MFCC)
330 : SVM 모델
340 : 테스트 음성
350 : (테스트) 음성인식 및 특징 추출(MFCC)
360 : SVM 모델을 이용한 성별 인식
본 발명은 음성신호에 기초한 성별 인식 방법에 관한 것으로서, 특히 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법에 관한 것이다.
음성신호에 기초한 성별 인식은 자동음성인식, 멀티미디어 및 인간과 컴퓨터 와의 상호작용(Human Computer Interaction; HCI) 등의 성능을 좌우하는 중요한 문제로 다루어져 왔다. HCI를 위해서는 컴퓨터가 사람의 행동, 특히 음성신호를 제대로 인식하고 반응 하는 것이 필수적이며, 효과적인 HCI를 위한 성별 인식에 관한 연구가 활발히 진행되어져 왔다. 현재까지 제안된 성별 인식에 관한 연구는 대부분 HMM(Hidden Markov Model)이나 GMM(Gaussian Mixture Model)과 같은 경험적 위험을 최소화하는 방법에 기초하고 있는 것들이 대부분이다. 그러나 이들 방법은 성별 인식의 성능에 어느 정도 한계를 가지고 있는바, 성별 인식의 성능을 향상시킬 수 있는 새로운 접근법이 필요하다.
한편, 최근에 패턴 분류에 있어서 각광을 받고 있는 SVM 모델(Support Vector Machine Model)은 1995년 Vladimir Naumovich Vapnik에 의해 개발된 통계적 학습 이론으로서, 학습 데이터와 범주 정보의 학습 진단을 대상으로 학습 과정에서 얻어진 확률 분포를 이용하여 의사결정함수를 추정한 후, 이 함수에 따라 새로운 데이터를 이원 분류하는 것으로 VC 이론 (Vapnik-Chervonenkis theory)이라고도 한다. 특히, SVM은 분류 문제에 있어서 일반화 기능이 높기 때문에 많은 분야에서 응용되고 있다.
앞서 소개한 HMM이나 GMM과 같은 기존의 학습 알고리즘은 학습 집단을 이용하여 학습오류(empirical error)를 최소화하는 경험적 위험 최소화 원칙(Empirical Risk Minimization; EMR)을 구현하는 것인데 비하여, SVM은 구조적 위험 최소화 원칙(Structural Risk Minimization; SRM)을 구현한 것이라 할 수 있는데, 이는 전체 집단을 하위 집단으로 세분화한 뒤 이 집단에 대한 경험적 위험도를 최소화하는 의 사결정함수를 선택하는 것이다.
SVM은 분류 문제를 해결하기 위한 최적의 분리 경계면(hyperplane; “초평면”이라고도 함)을 제공한다. SVM이 주목받는 이유는 (1) 명백한 이론적 근거에 기초하므로 결과 해석이 용이하고, (2) 실제 응용에 있어서 인공신경망 수준의 높은 성과를 나타내며, (3) 적은 학습 자료만으로 신속하게 분별 학습을 수행할 수 있기 때문이다.
SVM은 처음에 이진 분류(binary classification)를 위하여 개발되었으며, 현재에는 생물정보학(bioinformatics), 문자인식, 필기인식, 얼굴 및 물체인식 등 다양한 분야에서 성공적으로 적용되고 있다.
이와 같이, SVM은 성능이 우수한 일종의 이진 분류 기법이라고 할 수 있는바, 일종의 이진 분류 방법이라고 볼 수 있는 성별 인식 방법에 SVM을 접목시켜볼 필요성이 있다.
한편, 음성신호를 이용하여 성별을 결정지을 수 있는 일반적으로 알려진 가장 우수한 특징은 Pitch이다. 실제로 Pitch는 남자는 50 Hz에서 250 Hz 사이의 분포를, 여자는 120 Hz에서 500 Hz의 분포를 나타낸다. 따라서 음성 인식 시스템에서 가장 널리 고려되는 기존의 MFCC에 Pitch 특성을 접목시켜 보는 것도 성별 인식의 성능을 향상시키는 데 도움이 될 것으로 기대된다.
본 발명은, 상기와 같은 문제점 및 필요성에 대한 인식에서 비롯된 것으로서, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 이용하고 SVM을 적 용함으로써, 성별 인식의 성능을 향상시킬 수 있는 성별 인식 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, Pitch 특징 벡터와 SVM을 이용한 음성신호에 기초한 성별 인식 방법은,
(1) 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계;
(2) 상기 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계;
(3) 상기 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계;
(6) 테스트하고자 하는 음성신호로부터 음성을 검출하는 단계;
(7) 상기 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계;
(8) 상기 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계;
(9) 추출한 상기 테스트 MFCC 특징 벡터와 상기 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계;
(10) 추출한 상기 테스트 결합 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 성별을 인식하는 단계를 포함하는 것을 그 특징으로 한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 상세한 설명에서는, 제안된 SVM을 이용한 성별 인식 방법을 기존의 GMM을 이용한 성별 인식 방법과 비교함으로써, 제안된 본 발명의 우수성을 보이려고 한다. 이를 위하여, 먼저 GMM을 이용한 성별 인식 방법에 대하여 간단히 설명한 후, 본 발명에서 제안된 SVM을 이용한 성별 인식 방법을 상세히 설명하기로 한다.
1.
GMM
(
Gaussian
Mixture
Model
)의 이해
GMM은 EM 알고리즘(Expectation Maximization Algorithm)에 기반을 둔 패턴 분류기이다. 상태 열 N개의 특징 벡터를 , 라 하면, 우도(likelihood)는 다음 수학식 3과 같이 주어진다.
상기 수학식 3 및 수학식 4에서 GMM을 위한 파라미터는 가우시안 혼합 성분 밀도의 가중치(mixture weight: ), 평균 벡터(mean vector: ), 공분산 행렬(covariance matrix: )에 의해 다음 수학식 5와 같이 구성된다.
본 발명에서는 파라미터 의 추정을 위해, 가 되는 새로운 모델 을 정해진 임계값(threshold)에 도달할 때까지 EM 알고리즘을 사용하여 i 번째 사후 확률을 구한다. 이와 같은 방식으로 구한 사후 확률 중 가장 큰 확률을 가진 성별 인식 모델은 다음 수학식 6과 같이 주어진다.
이후 단락의 실험 결과에서는, 상기 수학식 6으로 표시되는 GMM을 이용한 성별 인식 결과를 본 발명에 따른 SVM을 이용한 성별 인식 결과와 비교한다.
2.
SVM
(
Support
Vector
Machines
)의 이해
앞서 언급한 바와 같이, SVM은 SRM(Structural Risk Minimization) 이론으로부터 발전한 이진 패턴 분류기이다.
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면이다. 도 1에 도시된 바와 같이, 선형 SVM에 있어서 2개의 클래스를 구분할 수 있는 초평면(Hyperplane)은 무수히 많으나, 2개의 클래스(110, 120) 사이에서 가장 가까운 점들의 거리 (마진; margin)(150)을 최대화하도록 하면 유일한 해로 초평면을 구할 수 있다.
상기 수학식 9를 최소화하기 위해 Lagrangian의 안장점(saddle point)을 찾는 문제와 KKT(Karush-Kuhn-Tucker) 조건을 이용하여 Lagrange Multiplier를 찾는 Wolfe dual problem으로 변화시킬 수 있다. 변화된 식을 최대화하는 값을 가지고 최적 가중벡터 와 바이어스 을 구할 수 있다. 구해진 최적 가중벡터와 바이어스에 따라 임의의 입력패턴 x는 다음 수학식 11에 의해 분류된다.
그러나 일반적인 입력 패턴의 경우 명확하게 선형 분리가 되지 않는 경우가 대부분이므로, 상기 수학식 11을 그대로 적용할 수는 없다. 즉, 선형 SVM을 비선형 SVM으로 확장할 필요가 있는바, 이에 대해서는 도 2를 참조하여 이하에서 상세하게 설명한다.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간(high dimensional space)으로 SVM을 확장하는 것을 나타내는 도면이다. 도 2에 도시된 바와 같이, 입력 패턴의 선형 분리가 불가능한 경우 비선형 특성을 가진 SVM을 사용하게 되는데, 비선형 SVM은 커널(kernel) 함수를 사용하여 선형 분류가 가능한 고차원 공간으로 확장된 특징 공간(feature space)을 가지고 을 최대화하는 값을 찾는다.
고차원의 공간으로 확장시킬 경우 어느 정도는 원 공간에서의 거리 관계를 보존 시킬 필요가 있기 때문에 커널 함수는 고차원 공간으로의 사상 함수 을 사용해 다음 수학식 12와 같이 정의한다.
여기서, 중요한 점은 커널 트릭(kernel trick)을 사용함으로써 사상 함수에 대한 구체적인 설정 없이도 분류 함수를 구현할 수 있다는 것이다. 본 발명에서는 다음 수학식 13과 같은 RBF(Radial-Basis Function) 커널 함수를 사용하였다.
3. 성별 인식을 위한 특징 벡터 추출
음성신호로부터 효과적인 정보를 얻기 위해서는 효율적인 특징 벡터를 추출하는 것이 중요하다. 특히, 성별 인식 성능 향상을 위해서는 효과적인 특징 벡터를 제시된 SVM과 기존의 GMM에 이용하는 것이 바람직하다. 본 발명에서는, 전체적으로 음성 파일에 8 kHz의 샘플링 주파수를 적용하였고, 음성신호의 정보를 얻기 위해서 AURORA2를 이용하여 MFCC 13개와 ΔMFCC 13개를 추출한 후, 음성 검출기(Voice Activity Detector; VAD)를 사용하여 음성 구간의 정보를 추출하였다. 추출한 MFCC는 25ms의 Hamming 윈도우를 15ms씩 이동하면서 계수를 추출하였다.
한편, 음성신호를 이용하여 성별을 결정지을 수 있는 일반적으로 알려진 가장 우수한 특징은 Pitch이다. 실제로 Pitch는 남자는 50 Hz에서 250 Hz의 분포를, 여자는 120 Hz에서 500 Hz의 분포를 나타낸다. 도 3은 본 발명의 실험에서 사용한 남성 및 여성 파일에서 추출한 Pitch를 대비하여 보여주는 도면이다. 도 3에서, 실선은 남성 파일에서 추출한 Pitch를 나타내고, 점선은 여성 파일에서 추출한 Pitch를 나타낸다. 도면에 따르면, 남성 파일의 Pitch는 100 ~ 120 Hz에서, 여성 파일의 Pitch는 200 ~ 220 Hz에서 나타나고 있다. 이러한 점에 착안하여, 본 발명에서는 기존의 음성 인식 시스템에서 가장 널리 고려되는 MFCC 외에 성별 인식 성능 향상을 위해 Pitch를 추출하여 이에 대한 특징 벡터를 기존의 MFCC 특징 벡터와 결합하여 결합 특징 벡터를 구성하였다.
실제로 결합 특징 벡터를 구성하는 과정에서는, 3GPP2 SMV(Selectable Mode Vocoder)를 이용해 추출한 Pitch의 프레임 길이는 20 ms이고, MFCC의 프레임의 길이는 10 ms이기 때문에 결합 특징 벡터를 구성하기 위해 도 4와 같은 방법을 사용하였다. 도 4는 MFCC 특징 벡터와 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 구성하는 것을 나타내는 도면이다. 도 4에 도시된 바와 같이, 본 발명의 실시예에서는 2개의 MFCC 특징 벡터를 1개의 Pitch 특징 벡터와 결합하여 결합 특징 벡터를 구성하고 있다.
4. 본 발명에 따른
SVM
을 이용한 성별 인식 방법
다음으로, 도 5를 참조하여 본 발명에 따른 Pitch 특징 벡터 및 SVM을 이용한 성별 인식 방법의 구체적인 구현 방법을 설명하기로 한다.
도 5는 본 발명에 따른 Pitch 특징 벡터 및 SVM을 이용한 성별 인식 방법의 구체적인 구현 단계들을 나타내는 블록도이다. 도 5에 도시된 바와 같이, 본 발명에 따른 성별 인식 방법은 크게 훈련(training) 단계와 테스트(test) 단계로 나누어진다. 훈련 단계는, 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스(510)로부터 음성을 검출하는 단계(520)와, 검출된 음성으로부터 훈련용 MFCC 특징 벡터를 추출하는 단계(530)와, 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계(540)와, 추출된 훈련용 MFCC 특징 벡터와 훈련용 Pitch 특징 벡터를 결합하여 훈련용 결합 특징 벡터를 생성한 후 이를 앞서 언급한 수학식 1에 적용하여 최적의 가중벡터와 최적의 바이어스를 구하여 SVM 모델을 생성하는 단계(550)를 포함한다. 이렇게 SVM 모델이 구해지면, 테스트 단계로 들어간다. 테스트 단계 는, 테스트하고자 하는 음성신호(560)로부터 음성을 검출하는 단계(570)와, 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계(580)와, 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계(590)와, 추출된 테스트 MFCC 특징 벡터와 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성한 후 이를 SVM 모델 생성 단계(550)에서 생성한 SVM 모델에 대입하여 성별을 인식하는 단계(595)를 포함한다.
5. 실험 결과
실험에 쓰인 남성과 여성의 음성 파일은 OGI database를 사용하였다. 각각의 파일은 약 5초 정도의 전화 음성 신호이며, 한 사람이 여러 가지 문장과 단어를 영어로 읽는 정보를 담고 있다. 훈련(Training)은 한 명당 각각 10개의 파일을 선택하도록 하여 남녀 각 10명씩으로 구성하였으며, 테스트는 남성과 여성 각각에 대해 1000개의 파일을 사용하였다. SVM의 경우 수학식 14의 바이어스 을 변화시키면서 인식 성능을 비교하였으며, GMM의 경우 수학식 6에 의해 구해진 사후 확률과 비교되는 임계값을 변화시킴으로써 인식 성능을 비교하였다. 사용된 GMM은 16개의 Mixture를 사용하였으며, SVM에 사용된 특징 벡터들은 모두 평균과 분산으로 정규화하였다.
도 6은 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법과 기존의 GMM을 이용한 성별 인식 방법, SVM을 이용한 성별 인ㅅ기 방법의 성별 인식 성능을 비교하는 도면으로서, 남성과 여성의 성별 검출 확률()을 ROC(Receiver Operating Characteristic) 곡선을 이용하여 비교하는 도면이다. 도 6에 도시된 바와 같이, 기존의 성별 인식 방법에서 널리 쓰이고 있는 MFCC 특징 벡터와 GMM을 이용하는 성별 인식 방법보다는 MFCC 특징 벡터와 SVM을 이용하는 성별 인식 방법이 나은 성능을 보였으며, 특히 본 발명에서 제안하고 있는 Pitch 특징 벡터를 MFCC 특징 벡터와 함께 결합 특징 벡터로서 사용하며 동시에 SVM을 이용하는 성별 인식 방법은 나머지 2가지 성별 인식 방법에 비해 크게 향상된 성별 인식 성능을 나타내었다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성신호에 기초한 성별 인식 방법에 따르면, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 MFCC 특징 벡터와 결합하여 결합 특징 벡터로서 이용하고 동시에 SVM을 적용함으로써, 기존의 GMM을 이용한 성별 인식 방법과 비교하여 성별 인식의 성능을 대폭 향상시킬 수 있다.
Claims (1)
- 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법으로서,남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계;상기 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계;상기 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계;<수학식 1><수학식 2>테스트하고자 하는 음성신호로부터 음성을 검출하는 단계;상기 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계;상기 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계;추출한 상기 테스트 MFCC 특징 벡터와 상기 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계;추출한 상기 테스트 결합 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 성별을 인식하는 단계를 포함하는 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017634A KR100869386B1 (ko) | 2007-02-21 | 2007-02-21 | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017634A KR100869386B1 (ko) | 2007-02-21 | 2007-02-21 | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080077880A true KR20080077880A (ko) | 2008-08-26 |
KR100869386B1 KR100869386B1 (ko) | 2008-11-19 |
Family
ID=39880293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017634A KR100869386B1 (ko) | 2007-02-21 | 2007-02-21 | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100869386B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100893154B1 (ko) * | 2008-10-13 | 2009-04-16 | 한국과학기술연구원 | 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치 |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
CN112331231A (zh) * | 2020-11-24 | 2021-02-05 | 南京农业大学 | 基于音频技术的肉鸡采食量检测系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100560425B1 (ko) * | 2003-11-25 | 2006-03-13 | 한국전자통신연구원 | Svm을 이용한 화자 등록 및 인증 시스템과 그 방법 |
KR100669244B1 (ko) * | 2004-12-21 | 2007-01-15 | 한국전자통신연구원 | 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법 |
-
2007
- 2007-02-21 KR KR1020070017634A patent/KR100869386B1/ko not_active IP Right Cessation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100893154B1 (ko) * | 2008-10-13 | 2009-04-16 | 한국과학기술연구원 | 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치 |
CN109616099A (zh) * | 2018-12-13 | 2019-04-12 | 南京工程学院 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
CN112331231A (zh) * | 2020-11-24 | 2021-02-05 | 南京农业大学 | 基于音频技术的肉鸡采食量检测系统 |
CN112331231B (zh) * | 2020-11-24 | 2024-04-19 | 南京农业大学 | 基于音频技术的肉鸡采食量检测系统 |
Also Published As
Publication number | Publication date |
---|---|
KR100869386B1 (ko) | 2008-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | Real-world acoustic event detection | |
KR100869387B1 (ko) | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 | |
US20150199960A1 (en) | I-Vector Based Clustering Training Data in Speech Recognition | |
US8577679B2 (en) | Symbol insertion apparatus and symbol insertion method | |
Milton et al. | Class-specific multiple classifiers scheme to recognize emotions from speech signals | |
Alsharif et al. | Long short term memory neural network for keyboard gesture decoding | |
CN115617955B (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
DeMarco et al. | Native accent classification via i-vectors and speaker compensation fusion. | |
Srivastava et al. | Significance of neural phonotactic models for large-scale spoken language identification | |
KR100869386B1 (ko) | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 | |
Mami et al. | Speaker recognition by location in the space of reference speakers | |
Ichinof et al. | Speaker gender recognition using score level fusion by adaboost | |
Egas-López et al. | Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers | |
José Vicente et al. | Using the fisher vector approach for cold identification | |
Von Agris et al. | Rapid signer adaptation for continuous sign language recognition using a combined approach of eigenvoices, MLLR, and MAP | |
KR100893154B1 (ko) | 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치 | |
Kanisha et al. | Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization | |
Wu et al. | Hierarchical modeling of temporal course in emotional expression for speech emotion recognition | |
Lee et al. | A support vector machine-based gender identification using speech signal | |
Dustor et al. | Speaker recognition system with good generalization properties | |
Khan et al. | Adaptive framing based similarity measurement between time warped speech signals using Kalman filter | |
Kisler et al. | Styrian Dialect Classification: Comparing and Fusing Classifiers Based on a Feature Selection Using a Genetic Algorithm. | |
Hammami et al. | Tree distributions approximation model for robust discrete speech recognition | |
Mariéthoz et al. | Kernel‐Based Text‐Independent Speaker Verification | |
Moftah et al. | Spoken Arabic Dialect Identification Using Motif Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121109 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130913 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140818 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |