KR100648545B1 - System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof - Google Patents

System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof Download PDF

Info

Publication number
KR100648545B1
KR100648545B1 KR1020050125465A KR20050125465A KR100648545B1 KR 100648545 B1 KR100648545 B1 KR 100648545B1 KR 1020050125465 A KR1020050125465 A KR 1020050125465A KR 20050125465 A KR20050125465 A KR 20050125465A KR 100648545 B1 KR100648545 B1 KR 100648545B1
Authority
KR
South Korea
Prior art keywords
speaker
probability
filter bank
filter
voice data
Prior art date
Application number
KR1020050125465A
Other languages
Korean (ko)
Inventor
이봉진
강홍구
윤대희
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020050125465A priority Critical patent/KR100648545B1/en
Application granted granted Critical
Publication of KR100648545B1 publication Critical patent/KR100648545B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

A system and a method for recognizing a speaker by using the combination of a filter bank with resolution by various frequencies are provided to obtain a characterization vector of the speaker by means of several filter banks. When voice data of a speaker are inputted, a filter tank member inserts the voice data into each filter tank and extracts the characteristic vectors as much as the number of the filter banks(S31-S32). A probability calculating member calculates the probability for generating characteristic vectors related to the voices from the speaker models stored in a speaker model storage member(S33). Thereafter, when the probability value related to the generation of the characteristic vector is calculated from the extracted plural characteristic vectors, the speaker is determined by the combination of log probability values at the probability value adding up member(S34).

Description

다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식 시스템 및 방법{System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof}System for recognizing speaker using combination of filterbank with resolution various different frequency and method

도 1은 종래 필터뱅크 기반의 음성 특성벡터 생성시스템을 보인 블록도,1 is a block diagram showing a conventional filterbank based speech characteristic vector generation system;

도 2는 본 발명에 따른 필터뱅크의 조합을 이용한 화자 인식시스템을 보인 블록도,2 is a block diagram showing a speaker recognition system using a combination of filter banks according to the present invention;

도 3은 본 발명에 따른 화자 인식방법을 설명하기 위한 플로우챠트도이다.3 is a flowchart illustrating a speaker recognition method according to the present invention.

*도면의 주요부분에 대한 부호의 설명** Explanation of symbols for main parts of drawings *

21;필터뱅크부 22;확률계산부21; filter bank section 22; probability calculation section

23;확률값 합산부 24;화자모델 저장부23; probability value adder 24; speaker model storage unit

본 발명은 화자 인식 시스템에 관한 것으로, 상세하게는 다수의 필터뱅크를 사용하여 화자의 음성데이터로부터 특성 벡터들을 취득한 후 이들의 조합을 통해 화자를 인식할 수 있도록 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식방법에 관한 것이다.The present invention relates to a speaker recognition system. Specifically, a filter bank having various frequency resolutions for acquiring feature vectors from a speaker's voice data using a plurality of filter banks and recognizing the speaker through a combination thereof. The present invention relates to a speaker recognition method using a combination of.

일반적으로 화자인식 시스템은 크게 화자 종속 특징벡터를 생성하는 전처리부분과 화자 종속 모델을 생성해 내는 화자모델링, 그리고 화자의 인식을 처리하는 화자 인식의 세 부분으로 나눌 수 있다. 종래의 전처리 부분에서 생성하는'MFCC'(Mel Frequency Cepstral Coefficient)는 고정구간의 음성에서 인간의 주파수 측면의 청각적 특성을 고려하여 특징벡터를 추출해 내는 방법을 사용하고 있다.Generally speaking, the speaker recognition system can be divided into three parts: preprocessing to generate speaker-dependent feature vectors, speaker modeling to generate speaker-dependent models, and speaker recognition to process speaker recognition. The 'MFCC' (Mel Frequency Cepstral Coefficient) generated in the conventional preprocessing part uses a method of extracting feature vectors in consideration of the auditory characteristics of the human frequency in speech from a fixed section.

가장 일반적인 고정구간 방법의 분석길이는 20ms~30ms 이고, 이때 50% 정도의 중첩된 구간을 사용한다. 고정구간의 음성에서 특징벡터를 추출하게 되면 화자모델을 생성할 때의 훈련 음성과 화자인식을 받는 과정중 인식 음성의 특징벡터 추출구간의 구분 시 성능저하를 초래할 수 있는 왜곡을 발생한다. 또한 화자의 건강 상태 및 감정 상태에 따라서 음성의 특성이 변하게 되어 성능저하를 초래하는 문제점이 있다.The analysis length of the most common fixed section method is 20ms ~ 30ms, and 50% overlapping section is used. Extracting the feature vector from the speech of the fixed section generates distortion that can lead to performance degradation when distinguishing between the feature vector extraction section of the recognition speech and the training speech when the speaker model is generated. In addition, there is a problem in that the characteristics of the voice is changed according to the speaker's health state and emotional state, leading to performance degradation.

도 1은 종래 특성벡터를 추출하기 위한 시스템을 보인 블록도이다. 도면을 참조하면, 종래 특성벡터 추출 시스템은 음성을 인식하기 위한 디지털 음성 데이터가 입력되면 FFT부(11:Fast Fourier Transform)에서 시간축 음성 데이터를 주파수 축으로 변환시키고, 신호크기 연산부(12)에서 상기 주파수축으로 변환된 음성데이터를 각 주파수별로 신호의 파워를 구한다. 1 is a block diagram showing a system for extracting a conventional feature vector. Referring to the drawing, in the conventional feature vector extraction system, when digital voice data for speech recognition is input, the FFT unit 11 converts the time-base speech data to the frequency axis, and the signal size calculating unit 12 The power of a signal is obtained for each frequency of the voice data converted into the frequency axis.

상기 신호크기 연산부(12)에서 구해진 주파수별 파워는 필터뱅크부(13)를 통과하면서 필터뱅크의 숫자만큼 값들이 생성되는데, DCT변환부(14 :Discrete Cosine Transform)에서 다음의 수학식 1과 같이 로그를 취한 후에 DCT변환시키면 시스템에서 적용할 특성벡터를 얻을 수 있게 된다.The frequency-specific power obtained by the signal size calculating unit 12 passes through the filter bank unit 13 and generates values as many as the number of filter banks. In the DCT transform unit 14 (Discrete Cosine Transform), the following equation 1 is used. After taking the log, DCT conversion will yield the feature vectors to be applied in the system.

이러한 종래 특성벡터를 추출하기 위한 시스템은 필터뱅크를 디자인하는 방법에 따라 얻어지는 특성 벡터가 조금씩 달라지게 되는데, 가장 대표적인 것으로 Mel-scale을 기반으로 한 MFCC(Mel-frequency cepstrum coefficient)가 있으며, 이 외에도 여러 종류의 필터 뱅크를 사용할 수 있다. The system for extracting such a characteristic vector has a slightly different characteristic vector depending on the method of designing the filter bank. The most representative one is the Mel-frequency cepstrum coefficient (MFCC) based on Mel-scale. There are several filter banks available.

Figure 112005074201362-pat00001
Figure 112005074201362-pat00001

한편, 필터뱅크를 디자인하는 방법에 따라 얻어지는 특성 벡터가 조금씩 달라지게 된다. 가장 대표적인 것으로 Mel-scale을 기반으로 한 Mel-frequency cepstrum coefficient (MFCC)가 있으며, 이 외에도 여러 종류의 필터 뱅크를 사용할 수 있다. 수학식 3는 MFCC 특성벡터를 구할 때에 사용되는 주파수 변환 함수를 나타낸 것이다.On the other hand, the characteristic vectors obtained vary slightly depending on the design of the filter bank. The most representative of these is the Mel-scale based Mel-frequency cepstrum coefficient (MFCC). There are many other filter banks available. Equation 3 shows a frequency conversion function used when obtaining an MFCC characteristic vector.

Figure 112005074201362-pat00002
Figure 112005074201362-pat00002

이 처럼, 종래 화자 인식 시스템에서는 동일한 주파수 분해능을 갖는 하나의 필터뱅크를 통해 특성 벡터(feature vector)를 생성하는 방식을 사용하였다. As described above, in the conventional speaker recognition system, a feature vector is generated through one filter bank having the same frequency resolution.

특성 벡터 추출을 위해 사용되는 필터뱅크는 그 구성에 따라 다양한 해상도 를 가질 수 있지만 종래 화자 인식 시스템은 특성 벡터를 추출하는데 있어서, 단일 필터뱅크를 사용하였기 때문에 한 가지 종류의 특성 벡터만을 추출할 수 밖에 없었다. The filter bank used for feature vector extraction can have various resolutions according to its configuration, but the conventional speaker recognition system can extract only one type of feature vector because a single filter bank is used to extract the feature vector. There was no.

일반적으로 많이 사용되는 MFCC에 사용되는 필터뱅크는 음성 신호의 저주파수 성분에 많은 비중을 주게 되고, 상대적으로 고주파수 쪽 정보는 덜 이용하게 된다. 하지만 화자 인식을 위한 정보는 고주파수쪽 음성에도 많이 있는 것으로 알려져 있다. In general, the filter bank used in the MFCC, which is widely used, places a heavy weight on the low frequency components of the voice signal, and uses less information on the high frequency side. However, a lot of information for speaker recognition is also known in the high frequency voice.

따라서 종래의 특성벡터 추출 시스템과 같이 하나의 필터뱅크만 가지고 저주파수 및 고주파수 범위에 있는 화자 정보를 모두 활용하는 것은 매우 힘들게 된다.Therefore, it is very difficult to utilize all the speaker information in the low frequency and high frequency range with only one filter bank as in the conventional feature vector extraction system.

또한, 화자 인식의 성능은 필터뱅크의 디자인 방법에 따라 달라지게 되는데, 최적의 성능을 낼 수 있는 필터뱅크 구조는 음성 데이터를 취득하는 환경 및 화자에 따라 다르므로, 최적의 성능을 낼 수 있는 일반적인 필터뱅크를 설계하는 것은 매우 어렵다. 따라서, 잡음이 존재하는 환경 등, 훈련 상황과 동일하지 않은 상황에서는 좋은 성능을 보이지 못하는 문제가 있다.In addition, the performance of speaker recognition depends on the design method of the filter bank, and the filter bank structure that can achieve the optimal performance varies depending on the environment and the speaker that acquires the voice data, and thus it is possible to obtain a general performance that can achieve optimal performance. It is very difficult to design a filter bank. Therefore, there is a problem in that good performance is not shown in a situation that is not the same as a training situation, such as an environment in which noise exists.

본 발명은 상기한 종래기술의 문제를 해결하기 위한 것으로, 특히 다양한 해상도를 갖는 필터뱅크를 사용하여 특성 벡터를 취득한 후 이들의 조합을 통해 화자를 인식함으로써 화자의 인식 성능을 향상시킬 수 있도록 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식시스템 및 방법을 제공하는데 그 목적이 있다.The present invention is to solve the above-mentioned problems of the prior art, and in particular to obtain a feature vector using a filter bank having a variety of resolutions and then to recognize the speaker through a combination of the various to improve the recognition performance of the speaker An object of the present invention is to provide a speaker recognition system and method using a combination of filter banks having frequency-specific resolution.

본 발명의 다른 목적은 훈련 데이터의 양이 적어 화자의 특성벡터를 충분히 얻지 못할 경우 여러 개의 필터뱅크를 이용하여 화자의 특성 벡터를 취득함으로써 다양한 특성 벡터를 구할 수 있도록 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식시스템 및 방법을 제공하고자 하는 것이다.Another object of the present invention is a filter having various resolutions for various frequencies to obtain various characteristic vectors by acquiring the characteristic vectors of the speaker using a plurality of filter banks when the amount of training data is not enough to obtain the characteristic vectors of the speaker. Another object of the present invention is to provide a speaker recognition system and method using a combination of banks.

상기 목적을 달성하기 위한 본 발명의 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식시스템은 다수의 필터뱅크를 갖고 입력된 동일한 화자 음성데이터로부터 특성벡터들을 추출하기 위한 필터뱅크부; 상기 필터뱅크부에서 추출된 다수의 특성벡터들을 저장된 화자모델 중 어느 특정 화자의 모델이 주어졌을 때 입력된 음성의 특성 특성벡터가 나올 확률값을 계산하기 위한 확률계산부; 상기 확률계산부에서 계산된 각각의 특성벡터들에 대한 확률값들을 조합하는 것에 의해 화자를 결정하는 확률값 합산부; 및 다양한 화자모델들을 저장하기 위한 화자모델 저장부;를 포함하는 것을 특징으로 한다.A speaker recognition system using a combination of filter banks having various frequency resolutions according to the present invention for achieving the above object comprises: a filter bank unit for extracting feature vectors from the same speaker voice data input with a plurality of filter banks; A probability calculator for calculating a probability value of a feature feature vector of an input voice when a specific speaker model of a plurality of feature vectors extracted from the filter bank unit is given; A probability value summing unit for determining a speaker by combining probability values for each characteristic vector calculated by the probability calculator; And a speaker model storage unit for storing various speaker models.

상기 목적을 달성하기 위한 본 발명의 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식방법은 필터뱅크를 이용하여 입력된 화자의 음성데이터를 인식하기 위한 방법에 있어서, a)상기 화자의 음성데이터가 입력되면 다수의 필터뱅크에 동일한 음성데이터를 삽입하여 필터뱅크 숫자만큼 다수의 특성벡터들을 추출하는 단계; b)각각의 필터뱅크에서 생성된 상기 다수의 특성벡터들과 저장된 화자모델들을 결합하여 음성의 특성벡터가 나올 확률을 계산하는 단계; 및 c) 각각의 필터뱅크를 통해 추출된 다수의 특성벡터로부터 현재 음성데이터의 특성벡터가 나올 확률값이 계산되면, 로그 확률값들을 조합하여 화자를 결정하는 단계;를 포함하는 것을 특징으로 한다.A speaker recognition method using a combination of filter banks having various frequency resolutions according to the present invention for achieving the above object is a method for recognizing voice data input by a speaker using a filter bank, a) the voice of the speaker Extracting a plurality of characteristic vectors by the number of filter banks by inserting the same voice data into the plurality of filter banks when data is input; b) combining the plurality of feature vectors generated in each filter bank and the stored speaker models to calculate a probability that a feature vector of a voice is output; And c) determining a speaker by combining log probability values when the probability value of the feature vector of the current voice data is calculated from the plurality of feature vectors extracted through the respective filter banks.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명하면 다음과 같다.Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings.

도 2는 본 발명에 따른 필터뱅크의 조합을 이용한 화자 인식 시스템을 보인 블록도이다. 도면을 참조하면, 본 발명의 화자 인식 시스템은 다수의 필터뱅크를 갖고 입력된 동일한 화자 음성데이터로부터 특성벡터들을 추출하기 위한 필터뱅크부(21), 상기 필터뱅크부(21)에서 추출된 다수의 특성벡터들을 저장된 화자모델중 어느 특정 화자의 모델이 주어졌을 때 입력된 음성의 특성 특성벡터가 나올 확률값을 계산하기 위한 확률계산부(22), 상기 확률계산부(22)에서 계산된 각각의 특성벡터들에 대한 확률값들을 조합하는 것에 의해 화자를 결정하는 확률값 합산부(23) 및 다양한 화자모델들을 저장하기 위한 화자모델 저장부(24)를 포함한다. 2 is a block diagram showing a speaker recognition system using a combination of filter banks according to the present invention. Referring to the drawings, the speaker recognition system of the present invention has a plurality of filter banks for extracting feature vectors from the same speaker voice data input with a plurality of filter banks, a plurality of extracted from the filter bank unit 21 Each feature calculated by the probability calculator 22 and the probability calculator 22 for calculating a probability value of the feature feature vector of the input voice when a particular speaker model is given among the speaker models stored therein. And a speaker model storage unit 24 for storing various speaker models and a probability value adding unit 23 for determining the speaker by combining the probability values for the vectors.

이하, 상기한 시스템을 이용하여 본 발명에 따른 화자를 인식하는 방법에 대해 도 3을 참조하여 설명한다.Hereinafter, a method of recognizing a speaker according to the present invention using the above system will be described with reference to FIG. 3.

도면을 참조하면, 본 발명의 화자 인식방법은 화자의 음성데이터가 입력되면 필터뱅크부(21)에서는 각각의 필터뱅크에 음성데이터를 삽입하여 필터뱅크 숫자만큼 특성벡터들을 추출한다(S31-S32).Referring to the drawings, in the speaker recognition method of the present invention, when the speaker's voice data is input, the filter bank 21 inserts the voice data into each filter bank and extracts the characteristic vectors by the number of the filter banks (S31-S32). .

본 발명의 실시예에서는 다양한 주파수별 해상도를 갖는 필터뱅크 각각에 화자의 음성데이터를 입력시키고, 그로부터 특성벡터들을 추출하는 것이다. In an embodiment of the present invention, the speaker's voice data is input to each of the filter banks having various frequency-specific resolutions, and feature vectors are extracted therefrom.

본 발명에서는 화자의 다양한 특성을 추출하기 위해 여러 개의 필터뱅크를 사용하도록 하는데 특징이 있다. The present invention is characterized in that it uses a plurality of filter banks to extract various characteristics of the speaker.

즉, 본 발명의 실시예에서는 현재 음성데이터의 특성벡터가 나올 확률값들을 조합하기 위해서 다음의 수학식 3과 같이 1차 혹은 2차의 전역 통과 필터(All pass filter)의 위상 응답을 이용한 일반화된 주파수 워핑 함수를 적용함으로써 다양한 해상도를 갖도록 필터뱅크를 디자인할 수 있다.That is, in the embodiment of the present invention, a generalized frequency using the phase response of the first- or second-order all pass filter in order to combine the probability values of the characteristic vector of the current speech data as shown in Equation 3 below. By applying the warping function, the filter bank can be designed to have various resolutions.

Figure 112005074201362-pat00003
Figure 112005074201362-pat00003

α,β는 필터뱅크의 주파수별 해상도를 조절하는 파라메터이고, ω는 정규화된 주파수이고, Θ(ω)는 주어진 함수를 통해 워핑된 주파수를 의미한다.α, β is This parameter adjusts the resolution of the filter bank for each frequency, ω is a normalized frequency, and Θ (ω) is a frequency warped through a given function.

본 발명의 실시예에서 적용하고자 하는 상기한 수학식 3의 워핑 함수는 파라메터α에 따라 필터뱅크의 해상도를 바꿀 수 있다. 여기서 파라메터α는 (-1<α<1)의 범위를 갖고, 1에 가까울수록 저주파수에 많은 비중을 주게 되고, -1에 가까울수록 고주파수에 많은 비중을 두게 된다. 0일 경우는 전 주파수 범위에 동일한 비중을 주는 필터뱅크가 만들어진다. The warping function of Equation 3 to be applied in the embodiment of the present invention may change the resolution of the filter bank according to the parameter α. In this case, the parameter α has a range of (-1 <α <1), and the closer to 1, the more the weight is given to the low frequency, and the closer to −1, the more the weight is to the high frequency. At zero, a filter bank is created that gives equal weight over the entire frequency range.

본 발명에 따른 화자 인식 시스템에서는 하나의 필터뱅크만을 사용하는 것이 아니라, 수학식 3에 보인 파라메터α를 변화시키면서 여러 개의 필터뱅크를 만들어 낸다.In the speaker recognition system according to the present invention, instead of using only one filter bank, a plurality of filter banks are generated while changing the parameter α shown in Equation (3).

이후, 단계 S32를 수행한 결과, 각각의 필터뱅크에서 생성된 특성벡터들을 화자모델 저장부(24)에 저장된 화장모델에 대해 음성의 특성벡터가 나올 확률을 확률계산부(22)를 통해 계산하게 된다(S33).Thereafter, as a result of performing step S32, the probability vectors of the feature vectors generated in the respective filter banks for the make-up model stored in the speaker model storage unit 24 are calculated by the probability calculator 22. (S33).

본 발명에 따르면, 화자모델을 생성해 내는 화자 모델링 부분에서는 'GMM'(Gaussian Mixture Modeling), 'HMM'(Hidden Markov Modeling), 그리고 신경망(Neural Network) 등 여러 가지 기술을 사용하게 되는데, 이는 화자종속 특징벡터들의 분포와 변이 상태를 각각의 모델링 기법에 따라 파라미터로 나타낸 것이다. According to the present invention, the speaker modeling part that generates the speaker model uses various techniques such as Gaussian Mixture Modeling (GMM), Hidden Markov Modeling (HMM), and Neural Network. The distribution and variation of dependent feature vectors are parameterized according to each modeling technique.

본 발명에 따른 화자 인식시스템은 상기 GMM을 기반으로 하는 확률값을 이용하는 것으로 다음의 수학식 4와 같이 표현할 수 있다.The speaker recognition system according to the present invention uses a probability value based on the GMM and can be expressed as Equation 4 below.

Figure 112005074201362-pat00004
Figure 112005074201362-pat00004

Figure 112005074201362-pat00005
: GMM 기반의 화자 모델 파라메터이다.
Figure 112005074201362-pat00005
: GMM-based speaker model parameter.

상기한 수학식 4의 확률값은 어떤 특성 벡터가 주어졌을 때, 그 특성 벡터가 특정한 화자에 속할 확률을 나타내고, 일반적으로 이 확률값은 매우 작게 나타나 고, 계산의 편의를 위해 이 값에 로그를 취한 로그 확률(log-likelihood)값을 사용한다.The probability value of Equation 4 represents the probability that the characteristic vector belongs to a specific speaker when a certain characteristic vector is given, and in general, the probability value appears very small, and the logarithm of this value is taken for convenience of calculation. Use log-likelihood values.

본 발명은 상기한 수학식 4와 같이 GMM을 기반으로 하여 다수의 화자모델링을 생성한 후 화자모델 저장부(24)에 저장한 상태에서, 다수의 필터뱅크로부터 특성벡터들이 추출되면 확률계산부(22)에서 확률값을 계산하게 되는데, 상기 확률계산부(22)는 상기 필터뱅크부(21)에서 추출된 다수의 특성벡터들을 저장된 화자모델중 어느 특정 화자의 모델이 주어졌을 때 입력된 음성의 특성 특성벡터가 나올 확률값을 계산하게 된다.The present invention generates a plurality of speaker models based on the GMM as shown in Equation 4 and stores the speaker models in the speaker model storage unit 24, and when the characteristic vectors are extracted from the plurality of filter banks, a probability calculator ( 22, a probability value is calculated, and the probability calculator 22 receives the characteristic of the voice input when a specific speaker model is given among the speaker models storing the plurality of feature vectors extracted from the filter bank 21. The probability value of the feature vector is calculated.

상기 단계 S33을 수행할 결과, 각각의 필터뱅크를 통해 추출된 다수의 특성벡터로부터 현재 음성데이터의 특성벡터가 나올 확률값이 계산되면, 상기 확률값 합산부(23)에서 로그 확률값들을 조합하여 화자를 결정하게 된다(S34). As a result of performing step S33, when a probability value of the feature vector of the current voice data is calculated from the plurality of feature vectors extracted through the respective filter banks, the probability value adder 23 combines log probability values to determine the speaker. It is made (S34).

즉, 본 발명은 종래 화자 인식 시스템은 하나의 필터뱅크만을 사용하는데 반해, 본 발명에서는 선택된 파라메터α의 숫자만큼 필터뱅크를 사용하여 화자 모델을 만들고 화자 인식을 하게 된다.That is, in the present invention, the conventional speaker recognition system uses only one filter bank, whereas in the present invention, the speaker model is made using the filter bank as many as the number of the selected parameter α, and the speaker recognition is performed.

화자 인식을 위한 모델을 만들 때에는 각각의 파라메터α에 대한 모델을 따로 만들게 되고, 실제로 화자 인식을 할 때에는 각각의 모델에 대한 로그 확률값을 계산한 후에 얻은 값들의 조합을 통해 최종 판단을 위한 값으로 사용한다.When creating a model for speaker recognition, a model for each parameter α is created separately.In the case of speaker recognition, the log probability value for each model is calculated and then used as a value for final judgment through a combination of the values obtained. do.

로그 확률 값들을 조합할 때에는 기존에 제시된 여러 가지 방법들이 사용될 수 있는데, 그 방법들은 다음과 같다.When combining log probability values, a variety of existing methods can be used. The methods are as follows.

1. 플루어러티 보우트(Plurality vote): 여러 개의 필터뱅크에서 각각에서 선택된 화자들을 뽑고, 가장 많은 횟수만큼 선택된 화자를 최종 화자로 선택한다.1. Plurality vote: Draws selected speakers from each of several filter banks and selects the speaker selected as many times as the final speaker.

2. 메이저러티 보우트(Majority vote): 1번 방식과 같지만, 과반수 이상 선택이 되어야 최종적인 화자로 선택한다.2. Majority vote (Majority vote): Same as method 1, but more than half of the votes are selected as the final speaker.

3. 어멘드먼트 보우트(Amendment vote): 2번의 방법을 선택된 2명의 화자에 대해서 사용하고, 선택된 화자를 다음 화자와 계속 비교를 한다. 한명의 화자가 남을 때 까지 계속 하고, 그 때까지 남은 화자가 최종적으로 선택된다.3. Mentionment vote: Use method 2 for the two selected speakers, and continue to compare the selected speaker with the next speaker. Continue until one speaker remains, and the remaining speaker is finally selected.

4. 런오프 보우트(Runoff vote) : 1번의 방법에서 많이 선택된 상위 2명의 화자를 뽑아서, 그 둘을 가지고 2번의 방법을 사용하여 최종 화자를 고른다.4. Runoff vote: Choose the top two speakers from the first method and choose the final speaker using the two methods with the two.

5. 팬더모우니엄(Pandemonium) : 모든 필터뱅크에서 나온 확률 값들 중, 가장 큰 확률 값을 얻은 화자가 최종적인 화자가 된다.5. Pandaemonium: Of the probability values from all filter banks, the speaker with the highest probability value becomes the final speaker.

6. 섬(Sum) : 각각의 필터뱅크 구조에서 나온 확률 값들을 합하여 그 값이 가장 큰 화자를 선택한다.6. Sum: Sum the probability values from each filter bank structure and select the speaker with the largest value.

7. 프로덕트(Product) : 각각의 필터뱅크 구조에서 나온 확률 값들을 곱하여 그 값이 가장 큰 화자를 선택한다.7. Product: Multiply the probability values from each filterbank structure to select the speaker with the largest value.

8. 보더 카운트(Borda count) : 각각의 화자가 얻은 확률 값으로 순위를 매긴 후, 모든 필터뱅크 구조에 대해 평균적으로 가장 좋은 순위를 얻은 화자를 최종적으로 선택한다.8. Border count: After each speaker is ranked by the probability value obtained, the speaker with the best ranking on all filterbank structures is finally selected.

9. 싱글 트랜스퍼러블 보우트(Single Transferable Vote) : 2번의 방법을 통해 선택하고, 최저득표를 한 화자를 제거하고 다시 2번을 수행한다. 1명이 남을 때 까지 계속 반복한다9. Single Transferable Vote: Choose from 2 methods, remove the speaker with the lowest number of votes and repeat 2 times. Repeat until 1 person remains

이상에서 설명한 바와 같이 본 발명은 워핑 함수를 이용하여 다양한 해상도를 갖도록 필터뱅크를 디자인하고 동일한 음성데이터를 다수의 필터뱅크로부터 특성벡터들을 추출하고, 추출된 특성벡터들을 저장된 화자모델들과 비교하여 구해진 확률값을 조합하여 화자를 결정할 수 있도록 함으로써 종래 하나의 필터뱅크를 사용한 기존의 화자 인식 시스템보다 향상된 인식 성능을 얻을 수 있다. As described above, the present invention is obtained by designing a filter bank to have various resolutions using a warping function, extracting feature vectors from a plurality of filter banks with the same voice data, and comparing the extracted feature vectors with stored speaker models. By combining the probability values to determine the speaker, it is possible to obtain improved recognition performance compared to the conventional speaker recognition system using a single filter bank.

또한 훈련 데이터의 양이 적어서 화자의 특성 벡터를 충분히 얻지 못할 경우 여러 개의 필터뱅크를 이용해 좀 더 다양한 특성 벡터를 얻어낼 수 있다.In addition, when the amount of training data is small and the speaker's characteristic vector is not sufficiently obtained, more various characteristic vectors can be obtained by using multiple filter banks.

이상에서 설명한 것은 본 발명에 따른 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식 시스템 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다. What has been described above is only one embodiment for implementing a speaker recognition system and method using a combination of filter banks having various frequency resolution according to the present invention, the present invention is not limited to the above-described embodiment, Without departing from the gist of the present invention claimed in the claims, anyone of ordinary skill in the art will have the technical spirit of the present invention to the extent that various modifications can be made.

Claims (4)

필터뱅크를 이용하여 입력된 화자의 음성데이터를 인식하기 위한 시스템에 있어서,In the system for recognizing the voice data of the speaker input by using the filter bank, 다수의 필터뱅크를 갖고 입력된 동일한 화자 음성데이터로부터 특성벡터들을 추출하기 위한 필터뱅크부;A filter bank unit for extracting feature vectors from the same speaker voice data input with a plurality of filter banks; 상기 필터뱅크부에서 추출된 다수의 특성벡터들을 저장된 화자모델중 어느 특정 화자의 모델이 주어졌을 때 입력된 음성의 특성 특성벡터가 나올 확률값을 계산하기 위한 확률계산부;A probability calculation unit for calculating a probability value of the characteristic feature vector of the input voice when a specific speaker model is given among the speaker models storing the plurality of feature vectors extracted by the filter bank unit; 상기 확률계산부에서 계산된 각각의 특성벡터들에 대한 확률값들을 조합하는 것에 의해 화자를 결정하는 확률값 합산부; 및 A probability value summing unit for determining a speaker by combining probability values for each characteristic vector calculated by the probability calculator; And 다양한 화자모델들을 저장하기 위한 화자모델 저장부;를 포함하는 것을 특징으로 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식 시스템.Speaker model storage unit for storing a variety of speaker models; speaker recognition system using a combination of filter banks having various resolutions for each frequency. 필터뱅크를 이용하여 입력된 화자의 음성데이터를 인식하기 위한 방법에 있어서,In the method for recognizing the voice data of the speaker input by using the filter bank, a)상기 화자의 음성데이터가 입력되면 다수의 필터뱅크에 동일한 음성데이터를 삽입하여 필터뱅크 숫자만큼 다수의 특성벡터들을 추출하는 단계;a) extracting a plurality of feature vectors by the number of filter banks by inserting the same voice data into a plurality of filter banks when the voice data of the speaker is input; b)각각의 필터뱅크에서 생성된 상기 다수의 특성벡터들과 저장된 화자모델들 을 결합하여 음성의 특성벡터가 나올 확률을 계산하는 단계; 및b) combining the plurality of feature vectors generated in each filter bank with the stored speaker models to calculate a probability that a feature vector of speech is output; And c)각각의 필터뱅크를 통해 추출된 다수의 특성벡터로부터 현재 음성데이터의 특성벡터가 나올 확률값이 계산되면, 로그 확률값들을 조합하여 화자를 결정하는 단계;를 포함하는 것을 특징으로 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식방법.c) determining a speaker by combining log probability values when a probability value of the feature vector of the current voice data is calculated from the plurality of feature vectors extracted through the respective filter banks; Speaker recognition method using a combination of filter bank having a. 제 2항에 있어서, 상기 필터뱅크는 다음의 워핑함수 수학시에 의해 설계되는 것을 특징으로 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식방법.3. The speaker recognition method according to claim 2, wherein the filter bank is designed by the following warping function mathematics.
Figure 112005074201362-pat00006
Figure 112005074201362-pat00006
여기서, α,β는 필터뱅크의 주파수별 해상도를 조절하는 파라메터이고, ω는 정규화된 주파수, Θ(ω)는 주어진 함수를 통해 워핑된 주파수임.Where α and β are This parameter adjusts the resolution of the filter bank for each frequency. Ω is the normalized frequency and Θ (ω) is the frequency warped through the given function.
제 2항에 있어서, 상기 c)단계는,The method of claim 2, wherein step c) 플루어러티 보우트, 메이저러티 보우트, 어멘드먼트 보우트, 런오프 보우트, 팬더모우니엄, 섬(Sum), 프로덕트, 보더 카운트 및 싱글 트랜스퍼러블 보우트의 조합방식 중 어느 하나의 방식에 의해 최종 인식 결과를 얻기 위해 각 모델을 통해 얻은 로그 확률 값을 조합하는 것을 특징으로 하는 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한 화자 인식방법.Final recognition result by any one of the combination method of Fluority Bow, Majority Bow, Mention Bow, Runoff Bow, Panthermonium, Sum, Product, Border Count and Single Transferable Bow Speaker recognition method using a combination of filter banks having various frequency-specific resolution, characterized in that to combine the log probability values obtained through each model to obtain a.
KR1020050125465A 2005-12-19 2005-12-19 System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof KR100648545B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050125465A KR100648545B1 (en) 2005-12-19 2005-12-19 System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050125465A KR100648545B1 (en) 2005-12-19 2005-12-19 System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof

Publications (1)

Publication Number Publication Date
KR100648545B1 true KR100648545B1 (en) 2006-11-27

Family

ID=37713185

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050125465A KR100648545B1 (en) 2005-12-19 2005-12-19 System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof

Country Status (1)

Country Link
KR (1) KR100648545B1 (en)

Similar Documents

Publication Publication Date Title
EP3719798B1 (en) Voiceprint recognition method and device based on memorability bottleneck feature
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Thakur et al. Speech recognition using euclidean distance
JP6908045B2 (en) Speech processing equipment, audio processing methods, and programs
Sinith et al. A novel method for text-independent speaker identification using MFCC and GMM
WO2013154805A1 (en) Text dependent speaker recognition with long-term feature
Imtiaz et al. Isolated word automatic speech recognition (ASR) system using MFCC, DTW & KNN
Alam et al. Low-variance multitaper mel-frequency cepstral coefficient features for speech and speaker recognition systems
Hanilçi et al. Comparison of the impact of some Minkowski metrics on VQ/GMM based speaker recognition
Tripathi et al. Speaker recognition
Bahaghighat et al. Textdependent Speaker Recognition by combination of LBG VQ and DTW for persian language
Khanna et al. Application of vector quantization in emotion recognition from human speech
Koolagudi et al. Speaker recognition in the case of emotional environment using transformation of speech features
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Nijhawan et al. Speaker recognition using support vector machine
KR101361034B1 (en) Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
KR100648545B1 (en) System for recognizing speaker using combination of filterbank with resolution various different frequency and method thereof
Mezghani et al. Speaker verification using a new representation based on a combination of MFCC and formants
Bakır Automatic speaker gender identification for the German language
Rao et al. Robust features for automatic text-independent speaker recognition using Gaussian mixture model
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121010

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130905

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150128

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160105

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee