KR20080077880A - 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 - Google Patents

피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 Download PDF

Info

Publication number
KR20080077880A
KR20080077880A KR1020070017634A KR20070017634A KR20080077880A KR 20080077880 A KR20080077880 A KR 20080077880A KR 1020070017634 A KR1020070017634 A KR 1020070017634A KR 20070017634 A KR20070017634 A KR 20070017634A KR 20080077880 A KR20080077880 A KR 20080077880A
Authority
KR
South Korea
Prior art keywords
feature vector
voice
speech
svm
pitch
Prior art date
Application number
KR1020070017634A
Other languages
English (en)
Other versions
KR100869386B1 (ko
Inventor
장준혁
이계환
김덕환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070017634A priority Critical patent/KR100869386B1/ko
Publication of KR20080077880A publication Critical patent/KR20080077880A/ko
Application granted granted Critical
Publication of KR100869386B1 publication Critical patent/KR100869386B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법에 관한 것으로서, 보다 구체적으로는 (1) 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계와, (2) 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계와, (3) 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계와, (4) 추출한 훈련용 MFCC 특징 벡터와 훈련용 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 생성하는 단계와, (5) 생성된 결합 특징 벡터를 이용하여 SVM 모델을 생성하는 단계와, (6) 테스트하고자 하는 음성신호로부터 음성을 검출하는 단계와, (7) 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계와, (8) 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계와, (9) 추출한 테스트 MFCC 특징 벡터와 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계와, (10) 추출한 테스트 결합 특징 벡터를 SVM 모델 생성 단계에서 생성한 SVM 모델에 대입하여 성별을 인식하는 단계를 포함하는 음성신호에 기초한 성별 인식 방법에 관한 것이다.
음성신호에 기초한 본 발명의 성별 인식 방법에 따르면, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 MFCC 특징 벡터와 결합하여 결합 특징 벡터로서 이용하고 동시에 SVM을 적용함으로써, 기존의 GMM을 이용한 성별 인식 방법과 비교하여 성별 인식의 성능을 대폭 향상시킬 수 있다.
피치(Pitch), 서포트 벡터머신(Support Vector Machine; SVM), 성별 인식, 음성신호, 훈련(training), 테스트, MFCC, ΔMFCC, 특징 벡터, 결합 특징 벡터, SVM 모델, GMM

Description

피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식 방법{A VOICE-BASED GENDER IDENTIFICATION METHOD USING A PITCH FEATURE VECTOR AND A SUPPORT VECTOR MACHINE(SVM)}
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간으로 SVM을 확장하는 것을 나타내는 도면.
도 3은 본 발명의 실험에서 사용한 남성 및 여성 파일에서 추출한 Pitch를 대비하여 보여주는 도면.
도 4는 MFCC 특징 벡터와 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 구성하는 것을 나타내는 도면.
도 5는 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법의 구체적인 구현 단계들을 나타내는 블록도.
도 6은 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법과 기존의 GMM을 이용한 성별 인식 방법, SVM을 이용한 성별 인식 방법의 성별 인식 성능을 비교하는 도면으로서, 남성과 여성의 성별 검출 확률(
Figure 112007015470491-PAT00001
)을 ROC(Receiver Operating Characteristic) 곡선을 이용하여 비교하는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
110, 210 : 클래스 1
120, 220 : 클래스 2
130, 230 : Support Vectors
140 : 선형 초평면
150 : 마진
240 : 비선형 초평면
250 : 커널 함수
310 : (훈련용) 음성 데이터베이스 (남성, 여성)
320 : (훈련용) 음성인식 및 특징 추출(MFCC)
330 : SVM 모델
340 : 테스트 음성
350 : (테스트) 음성인식 및 특징 추출(MFCC)
360 : SVM 모델을 이용한 성별 인식
본 발명은 음성신호에 기초한 성별 인식 방법에 관한 것으로서, 특히 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법에 관한 것이다.
음성신호에 기초한 성별 인식은 자동음성인식, 멀티미디어 및 인간과 컴퓨터 와의 상호작용(Human Computer Interaction; HCI) 등의 성능을 좌우하는 중요한 문제로 다루어져 왔다. HCI를 위해서는 컴퓨터가 사람의 행동, 특히 음성신호를 제대로 인식하고 반응 하는 것이 필수적이며, 효과적인 HCI를 위한 성별 인식에 관한 연구가 활발히 진행되어져 왔다. 현재까지 제안된 성별 인식에 관한 연구는 대부분 HMM(Hidden Markov Model)이나 GMM(Gaussian Mixture Model)과 같은 경험적 위험을 최소화하는 방법에 기초하고 있는 것들이 대부분이다. 그러나 이들 방법은 성별 인식의 성능에 어느 정도 한계를 가지고 있는바, 성별 인식의 성능을 향상시킬 수 있는 새로운 접근법이 필요하다.
한편, 최근에 패턴 분류에 있어서 각광을 받고 있는 SVM 모델(Support Vector Machine Model)은 1995년 Vladimir Naumovich Vapnik에 의해 개발된 통계적 학습 이론으로서, 학습 데이터와 범주 정보의 학습 진단을 대상으로 학습 과정에서 얻어진 확률 분포를 이용하여 의사결정함수를 추정한 후, 이 함수에 따라 새로운 데이터를 이원 분류하는 것으로 VC 이론 (Vapnik-Chervonenkis theory)이라고도 한다. 특히, SVM은 분류 문제에 있어서 일반화 기능이 높기 때문에 많은 분야에서 응용되고 있다.
앞서 소개한 HMM이나 GMM과 같은 기존의 학습 알고리즘은 학습 집단을 이용하여 학습오류(empirical error)를 최소화하는 경험적 위험 최소화 원칙(Empirical Risk Minimization; EMR)을 구현하는 것인데 비하여, SVM은 구조적 위험 최소화 원칙(Structural Risk Minimization; SRM)을 구현한 것이라 할 수 있는데, 이는 전체 집단을 하위 집단으로 세분화한 뒤 이 집단에 대한 경험적 위험도를 최소화하는 의 사결정함수를 선택하는 것이다.
SVM은 분류 문제를 해결하기 위한 최적의 분리 경계면(hyperplane; “초평면”이라고도 함)을 제공한다. SVM이 주목받는 이유는 (1) 명백한 이론적 근거에 기초하므로 결과 해석이 용이하고, (2) 실제 응용에 있어서 인공신경망 수준의 높은 성과를 나타내며, (3) 적은 학습 자료만으로 신속하게 분별 학습을 수행할 수 있기 때문이다.
SVM은 처음에 이진 분류(binary classification)를 위하여 개발되었으며, 현재에는 생물정보학(bioinformatics), 문자인식, 필기인식, 얼굴 및 물체인식 등 다양한 분야에서 성공적으로 적용되고 있다.
이와 같이, SVM은 성능이 우수한 일종의 이진 분류 기법이라고 할 수 있는바, 일종의 이진 분류 방법이라고 볼 수 있는 성별 인식 방법에 SVM을 접목시켜볼 필요성이 있다.
한편, 음성신호를 이용하여 성별을 결정지을 수 있는 일반적으로 알려진 가장 우수한 특징은 Pitch이다. 실제로 Pitch는 남자는 50 Hz에서 250 Hz 사이의 분포를, 여자는 120 Hz에서 500 Hz의 분포를 나타낸다. 따라서 음성 인식 시스템에서 가장 널리 고려되는 기존의 MFCC에 Pitch 특성을 접목시켜 보는 것도 성별 인식의 성능을 향상시키는 데 도움이 될 것으로 기대된다.
본 발명은, 상기와 같은 문제점 및 필요성에 대한 인식에서 비롯된 것으로서, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 이용하고 SVM을 적 용함으로써, 성별 인식의 성능을 향상시킬 수 있는 성별 인식 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, Pitch 특징 벡터와 SVM을 이용한 음성신호에 기초한 성별 인식 방법은,
(1) 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계;
(2) 상기 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계;
(3) 상기 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계;
(4) 추출한 상기 훈련용 MFCC 특징 벡터와 상기 훈련용 Pitch 특징 벡터를 결합하여 결합 특징 벡터
Figure 112007015470491-PAT00002
을 생성하는 단계;
(5) 생성된 상기 결합 특징 벡터를 다음 수학식 1에 적용하여 최적의 가중벡터
Figure 112007015470491-PAT00003
와 최적의 바이어스
Figure 112007015470491-PAT00004
을 구하여 SVM 모델을 생성하는 단계;
Figure 112007015470491-PAT00005
여기서, T는 전치행렬을 의미하며, 함수
Figure 112007015470491-PAT00006
는 다음 수학식 2와 같이 정의되는 RBF(Radial-Basis Function) 커널 함수이다.
Figure 112007015470491-PAT00007
여기서,
Figure 112007015470491-PAT00008
는 상기 특징 벡터 집합의 표준편차이다.
(6) 테스트하고자 하는 음성신호로부터 음성을 검출하는 단계;
(7) 상기 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계;
(8) 상기 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계;
(9) 추출한 상기 테스트 MFCC 특징 벡터와 상기 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계;
(10) 추출한 상기 테스트 결합 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 성별을 인식하는 단계를 포함하는 것을 그 특징으로 한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 상세한 설명에서는, 제안된 SVM을 이용한 성별 인식 방법을 기존의 GMM을 이용한 성별 인식 방법과 비교함으로써, 제안된 본 발명의 우수성을 보이려고 한다. 이를 위하여, 먼저 GMM을 이용한 성별 인식 방법에 대하여 간단히 설명한 후, 본 발명에서 제안된 SVM을 이용한 성별 인식 방법을 상세히 설명하기로 한다.
1. GMM ( Gaussian Mixture Model )의 이해
GMM은 EM 알고리즘(Expectation Maximization Algorithm)에 기반을 둔 패턴 분류기이다. 상태 열 N개의 특징 벡터를
Figure 112007015470491-PAT00009
,
Figure 112007015470491-PAT00010
라 하면, 우도(likelihood)는 다음 수학식 3과 같이 주어진다.
Figure 112007015470491-PAT00011
여기서,
Figure 112007015470491-PAT00012
는 다음 수학식 4와 같이 주어진다.
Figure 112007015470491-PAT00013
상기 수학식 3 및 수학식 4에서 GMM을 위한 파라미터는 가우시안 혼합 성분 밀도의 가중치(mixture weight:
Figure 112007015470491-PAT00014
), 평균 벡터(mean vector:
Figure 112007015470491-PAT00015
), 공분산 행렬(covariance matrix:
Figure 112007015470491-PAT00016
)에 의해 다음 수학식 5와 같이 구성된다.
Figure 112007015470491-PAT00017
본 발명에서는 파라미터
Figure 112007015470491-PAT00018
의 추정을 위해,
Figure 112007015470491-PAT00019
가 되는 새로운 모델
Figure 112007015470491-PAT00020
을 정해진 임계값(threshold)에 도달할 때까지 EM 알고리즘을 사용하여 i 번째 사후 확률을 구한다. 이와 같은 방식으로 구한 사후 확률 중 가장 큰 확률을 가진 성별 인식 모델은 다음 수학식 6과 같이 주어진다.
Figure 112007015470491-PAT00021
이후 단락의 실험 결과에서는, 상기 수학식 6으로 표시되는 GMM을 이용한 성별 인식 결과를 본 발명에 따른 SVM을 이용한 성별 인식 결과와 비교한다.
2. SVM ( Support Vector Machines )의 이해
앞서 언급한 바와 같이, SVM은 SRM(Structural Risk Minimization) 이론으로부터 발전한 이진 패턴 분류기이다.
도 1은 선형 분리(linear separation)를 이용한 SVM을 나타내는 도면이다. 도 1에 도시된 바와 같이, 선형 SVM에 있어서 2개의 클래스를 구분할 수 있는 초평면(Hyperplane)은 무수히 많으나, 2개의 클래스(110, 120) 사이에서 가장 가까운 점들의 거리
Figure 112007015470491-PAT00022
(마진; margin)(150)을 최대화하도록 하면 유일한 해로 초평면을 구할 수 있다.
일반적으로
Figure 112007015470491-PAT00023
을 최대화하는 초평면의 방정식은 최적의 가중벡터
Figure 112007015470491-PAT00024
와 바이어스
Figure 112007015470491-PAT00025
로 다음 수학식 7 및 8과 같이 표현된다.
Figure 112007015470491-PAT00026
Figure 112007015470491-PAT00027
이때 거리
Figure 112007015470491-PAT00028
을 최대화하기 위해서는, 다음 수학식 10을 만족하면서 다음 수학식 9를 최소화하여야 한다.
Figure 112007015470491-PAT00029
Figure 112007015470491-PAT00030
상기 수학식 9를 최소화하기 위해 Lagrangian의 안장점(saddle point)을 찾는 문제와 KKT(Karush-Kuhn-Tucker) 조건을 이용하여 Lagrange Multiplier를 찾는 Wolfe dual problem으로 변화시킬 수 있다. 변화된 식을 최대화하는 값을 가지고 최적 가중벡터
Figure 112007015470491-PAT00031
와 바이어스
Figure 112007015470491-PAT00032
을 구할 수 있다. 구해진 최적 가중벡터와 바이어스에 따라 임의의 입력패턴 x는 다음 수학식 11에 의해 분류된다.
Figure 112007015470491-PAT00033
그러나 일반적인 입력 패턴의 경우 명확하게 선형 분리가 되지 않는 경우가 대부분이므로, 상기 수학식 11을 그대로 적용할 수는 없다. 즉, 선형 SVM을 비선형 SVM으로 확장할 필요가 있는바, 이에 대해서는 도 2를 참조하여 이하에서 상세하게 설명한다.
도 2는 선형 분리가 되지 않는 경우에 있어서, 커널 함수를 이용하여 고차원 공간(high dimensional space)으로 SVM을 확장하는 것을 나타내는 도면이다. 도 2에 도시된 바와 같이, 입력 패턴의 선형 분리가 불가능한 경우 비선형 특성을 가진 SVM을 사용하게 되는데, 비선형 SVM은 커널(kernel) 함수를 사용하여 선형 분류가 가능한 고차원 공간으로 확장된 특징 공간(feature space)을 가지고
Figure 112007015470491-PAT00034
을 최대화하는 값을 찾는다.
고차원의 공간으로 확장시킬 경우 어느 정도는 원 공간에서의 거리 관계를 보존 시킬 필요가 있기 때문에 커널 함수는 고차원 공간으로의 사상 함수
Figure 112007015470491-PAT00035
을 사용해 다음 수학식 12와 같이 정의한다.
Figure 112007015470491-PAT00036
여기서, 중요한 점은 커널 트릭(kernel trick)을 사용함으로써 사상 함수에 대한 구체적인 설정 없이도 분류 함수를 구현할 수 있다는 것이다. 본 발명에서는 다음 수학식 13과 같은 RBF(Radial-Basis Function) 커널 함수를 사용하였다.
Figure 112007015470491-PAT00037
커널 함수를 사용할 경우, 선형 SVM과 동일한 방법으로 최적 가중벡터
Figure 112007015470491-PAT00038
와 바이어스
Figure 112007015470491-PAT00039
을 구할 수 있으며, 결론적으로 비선형 SVM은 다음 수학식 14로 정리될 수 있다.
Figure 112007015470491-PAT00040
3. 성별 인식을 위한 특징 벡터 추출
음성신호로부터 효과적인 정보를 얻기 위해서는 효율적인 특징 벡터를 추출하는 것이 중요하다. 특히, 성별 인식 성능 향상을 위해서는 효과적인 특징 벡터를 제시된 SVM과 기존의 GMM에 이용하는 것이 바람직하다. 본 발명에서는, 전체적으로 음성 파일에 8 kHz의 샘플링 주파수를 적용하였고, 음성신호의 정보를 얻기 위해서 AURORA2를 이용하여 MFCC 13개와 ΔMFCC 13개를 추출한 후, 음성 검출기(Voice Activity Detector; VAD)를 사용하여 음성 구간의 정보를 추출하였다. 추출한 MFCC는 25ms의 Hamming 윈도우를 15ms씩 이동하면서 계수를 추출하였다.
한편, 음성신호를 이용하여 성별을 결정지을 수 있는 일반적으로 알려진 가장 우수한 특징은 Pitch이다. 실제로 Pitch는 남자는 50 Hz에서 250 Hz의 분포를, 여자는 120 Hz에서 500 Hz의 분포를 나타낸다. 도 3은 본 발명의 실험에서 사용한 남성 및 여성 파일에서 추출한 Pitch를 대비하여 보여주는 도면이다. 도 3에서, 실선은 남성 파일에서 추출한 Pitch를 나타내고, 점선은 여성 파일에서 추출한 Pitch를 나타낸다. 도면에 따르면, 남성 파일의 Pitch는 100 ~ 120 Hz에서, 여성 파일의 Pitch는 200 ~ 220 Hz에서 나타나고 있다. 이러한 점에 착안하여, 본 발명에서는 기존의 음성 인식 시스템에서 가장 널리 고려되는 MFCC 외에 성별 인식 성능 향상을 위해 Pitch를 추출하여 이에 대한 특징 벡터를 기존의 MFCC 특징 벡터와 결합하여 결합 특징 벡터를 구성하였다.
실제로 결합 특징 벡터를 구성하는 과정에서는, 3GPP2 SMV(Selectable Mode Vocoder)를 이용해 추출한 Pitch의 프레임 길이는 20 ms이고, MFCC의 프레임의 길이는 10 ms이기 때문에 결합 특징 벡터를 구성하기 위해 도 4와 같은 방법을 사용하였다. 도 4는 MFCC 특징 벡터와 Pitch 특징 벡터를 결합하여 결합 특징 벡터를 구성하는 것을 나타내는 도면이다. 도 4에 도시된 바와 같이, 본 발명의 실시예에서는 2개의 MFCC 특징 벡터를 1개의 Pitch 특징 벡터와 결합하여 결합 특징 벡터를 구성하고 있다.
4. 본 발명에 따른 SVM 을 이용한 성별 인식 방법
다음으로, 도 5를 참조하여 본 발명에 따른 Pitch 특징 벡터 및 SVM을 이용한 성별 인식 방법의 구체적인 구현 방법을 설명하기로 한다.
도 5는 본 발명에 따른 Pitch 특징 벡터 및 SVM을 이용한 성별 인식 방법의 구체적인 구현 단계들을 나타내는 블록도이다. 도 5에 도시된 바와 같이, 본 발명에 따른 성별 인식 방법은 크게 훈련(training) 단계와 테스트(test) 단계로 나누어진다. 훈련 단계는, 남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스(510)로부터 음성을 검출하는 단계(520)와, 검출된 음성으로부터 훈련용 MFCC 특징 벡터를 추출하는 단계(530)와, 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계(540)와, 추출된 훈련용 MFCC 특징 벡터와 훈련용 Pitch 특징 벡터를 결합하여 훈련용 결합 특징 벡터를 생성한 후 이를 앞서 언급한 수학식 1에 적용하여 최적의 가중벡터와 최적의 바이어스를 구하여 SVM 모델을 생성하는 단계(550)를 포함한다. 이렇게 SVM 모델이 구해지면, 테스트 단계로 들어간다. 테스트 단계 는, 테스트하고자 하는 음성신호(560)로부터 음성을 검출하는 단계(570)와, 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계(580)와, 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계(590)와, 추출된 테스트 MFCC 특징 벡터와 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성한 후 이를 SVM 모델 생성 단계(550)에서 생성한 SVM 모델에 대입하여 성별을 인식하는 단계(595)를 포함한다.
5. 실험 결과
실험에 쓰인 남성과 여성의 음성 파일은 OGI database를 사용하였다. 각각의 파일은 약 5초 정도의 전화 음성 신호이며, 한 사람이 여러 가지 문장과 단어를 영어로 읽는 정보를 담고 있다. 훈련(Training)은 한 명당 각각 10개의 파일을 선택하도록 하여 남녀 각 10명씩으로 구성하였으며, 테스트는 남성과 여성 각각에 대해 1000개의 파일을 사용하였다. SVM의 경우 수학식 14의 바이어스
Figure 112007015470491-PAT00041
을 변화시키면서 인식 성능을 비교하였으며, GMM의 경우 수학식 6에 의해 구해진 사후 확률과 비교되는 임계값을 변화시킴으로써 인식 성능을 비교하였다. 사용된 GMM은 16개의 Mixture를 사용하였으며, SVM에 사용된 특징 벡터들은 모두 평균과 분산으로 정규화하였다.
도 6은 본 발명에 따른 Pitch 특징 벡터와 SVM을 이용한 성별 인식 방법과 기존의 GMM을 이용한 성별 인식 방법, SVM을 이용한 성별 인ㅅ기 방법의 성별 인식 성능을 비교하는 도면으로서, 남성과 여성의 성별 검출 확률(
Figure 112007015470491-PAT00042
)을 ROC(Receiver Operating Characteristic) 곡선을 이용하여 비교하는 도면이다. 도 6에 도시된 바와 같이, 기존의 성별 인식 방법에서 널리 쓰이고 있는 MFCC 특징 벡터와 GMM을 이용하는 성별 인식 방법보다는 MFCC 특징 벡터와 SVM을 이용하는 성별 인식 방법이 나은 성능을 보였으며, 특히 본 발명에서 제안하고 있는 Pitch 특징 벡터를 MFCC 특징 벡터와 함께 결합 특징 벡터로서 사용하며 동시에 SVM을 이용하는 성별 인식 방법은 나머지 2가지 성별 인식 방법에 비해 크게 향상된 성별 인식 성능을 나타내었다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성신호에 기초한 성별 인식 방법에 따르면, 음성신호에 기초한 성별 인식에 있어서 Pitch 특징 벡터를 MFCC 특징 벡터와 결합하여 결합 특징 벡터로서 이용하고 동시에 SVM을 적용함으로써, 기존의 GMM을 이용한 성별 인식 방법과 비교하여 성별 인식의 성능을 대폭 향상시킬 수 있다.

Claims (1)

  1. 피치(Pitch) 특징 벡터와 서포트 벡터머신(Support Vector Machine; SVM)을 이용한 음성신호에 기초한 성별 인식 방법으로서,
    남성 및 여성의 음성을 포함하고 있는 음성 데이터베이스로부터 음성을 검출하는 단계;
    상기 음성 검출 단계에서 검출된 음성으로부터 훈련(training)용 MFCC(Mel Frequency Cepstral Coefficient) 특징 벡터를 추출하는 단계;
    상기 음성 검출 단계에서 검출된 음성으로부터 훈련용 Pitch 특징 벡터를 추출하는 단계;
    추출한 상기 훈련용 MFCC 특징 벡터와 상기 훈련용 Pitch 특징 벡터를 결합하여 결합 특징 벡터
    Figure 112007015470491-PAT00043
    을 생성하는 단계;
    생성된 상기 결합 특징 벡터를 다음 수학식 1에 적용하여 최적의 가중벡터
    Figure 112007015470491-PAT00044
    와 최적의 바이어스
    Figure 112007015470491-PAT00045
    을 구하여 SVM 모델을 생성하는 단계;
    <수학식 1>
    Figure 112007015470491-PAT00046
    (여기서, T는 전치행렬을 의미하며, 함수
    Figure 112007015470491-PAT00047
    는 다음 수학식 2와 같이 정의되는 RBF(Radial-Basis Function) 커널 함수임.
    <수학식 2>
    Figure 112007015470491-PAT00048
    여기서,
    Figure 112007015470491-PAT00049
    는 상기 결합 특징 벡터 집합의 표준편차임.)
    테스트하고자 하는 음성신호로부터 음성을 검출하는 단계;
    상기 음성 검출 단계에서 검출된 음성으로부터 테스트 MFCC 특징 벡터를 추출하는 단계;
    상기 음성 검출 단계에서 검출된 음성으로부터 테스트 Pitch 특징 벡터를 추출하는 단계;
    추출한 상기 테스트 MFCC 특징 벡터와 상기 테스트 Pitch 특징 벡터를 결합하여 테스트 결합 특징 벡터를 생성하는 단계;
    추출한 상기 테스트 결합 특징 벡터를 상기 SVM 모델 생성 단계에서 생성한 상기 SVM 모델에 대입하여 성별을 인식하는 단계
    를 포함하는 방법.
KR1020070017634A 2007-02-21 2007-02-21 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 KR100869386B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070017634A KR100869386B1 (ko) 2007-02-21 2007-02-21 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017634A KR100869386B1 (ko) 2007-02-21 2007-02-21 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법

Publications (2)

Publication Number Publication Date
KR20080077880A true KR20080077880A (ko) 2008-08-26
KR100869386B1 KR100869386B1 (ko) 2008-11-19

Family

ID=39880293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017634A KR100869386B1 (ko) 2007-02-21 2007-02-21 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법

Country Status (1)

Country Link
KR (1) KR100869386B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100893154B1 (ko) * 2008-10-13 2009-04-16 한국과학기술연구원 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法
CN112331231A (zh) * 2020-11-24 2021-02-05 南京农业大学 基于音频技术的肉鸡采食量检测系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100560425B1 (ko) * 2003-11-25 2006-03-13 한국전자통신연구원 Svm을 이용한 화자 등록 및 인증 시스템과 그 방법
KR100669244B1 (ko) * 2004-12-21 2007-01-15 한국전자통신연구원 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100893154B1 (ko) * 2008-10-13 2009-04-16 한국과학기술연구원 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치
CN109616099A (zh) * 2018-12-13 2019-04-12 南京工程学院 一种基于基音频率及平滑处理的男女语音性别识别方法
CN112331231A (zh) * 2020-11-24 2021-02-05 南京农业大学 基于音频技术的肉鸡采食量检测系统
CN112331231B (zh) * 2020-11-24 2024-04-19 南京农业大学 基于音频技术的肉鸡采食量检测系统

Also Published As

Publication number Publication date
KR100869386B1 (ko) 2008-11-19

Similar Documents

Publication Publication Date Title
Zhuang et al. Real-world acoustic event detection
KR100869387B1 (ko) 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법
US20150199960A1 (en) I-Vector Based Clustering Training Data in Speech Recognition
US8577679B2 (en) Symbol insertion apparatus and symbol insertion method
Milton et al. Class-specific multiple classifiers scheme to recognize emotions from speech signals
Alsharif et al. Long short term memory neural network for keyboard gesture decoding
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
DeMarco et al. Native accent classification via i-vectors and speaker compensation fusion.
Srivastava et al. Significance of neural phonotactic models for large-scale spoken language identification
KR100869386B1 (ko) 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법
Mami et al. Speaker recognition by location in the space of reference speakers
Ichinof et al. Speaker gender recognition using score level fusion by adaboost
Egas-López et al. Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers
José Vicente et al. Using the fisher vector approach for cold identification
Von Agris et al. Rapid signer adaptation for continuous sign language recognition using a combined approach of eigenvoices, MLLR, and MAP
KR100893154B1 (ko) 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
Wu et al. Hierarchical modeling of temporal course in emotional expression for speech emotion recognition
Lee et al. A support vector machine-based gender identification using speech signal
Dustor et al. Speaker recognition system with good generalization properties
Khan et al. Adaptive framing based similarity measurement between time warped speech signals using Kalman filter
Kisler et al. Styrian Dialect Classification: Comparing and Fusing Classifiers Based on a Feature Selection Using a Genetic Algorithm.
Hammami et al. Tree distributions approximation model for robust discrete speech recognition
Mariéthoz et al. Kernel‐Based Text‐Independent Speaker Verification
Moftah et al. Spoken Arabic Dialect Identification Using Motif Discovery

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121109

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee