KR100933946B1 - Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof - Google Patents

Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof Download PDF

Info

Publication number
KR100933946B1
KR100933946B1 KR1020070108929A KR20070108929A KR100933946B1 KR 100933946 B1 KR100933946 B1 KR 100933946B1 KR 1020070108929 A KR1020070108929 A KR 1020070108929A KR 20070108929 A KR20070108929 A KR 20070108929A KR 100933946 B1 KR100933946 B1 KR 100933946B1
Authority
KR
South Korea
Prior art keywords
analysis
feature vector
interval
candidate
length
Prior art date
Application number
KR1020070108929A
Other languages
Korean (ko)
Other versions
KR20090043203A (en
Inventor
최정윤
강홍구
정치상
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020070108929A priority Critical patent/KR100933946B1/en
Publication of KR20090043203A publication Critical patent/KR20090043203A/en
Application granted granted Critical
Publication of KR100933946B1 publication Critical patent/KR100933946B1/en

Links

Images

Abstract

본 발명은 입력 음성 신호의 길이에 대하여 현재 기준 분석 구간과 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하고, 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이가 최소인 후보 분석 구간을 선택한 후, 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 입력 음성 신호에 대한 특징벡터를 추출하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법 및 이를 이용한 화자 인식 시스템에 관한 것이다. Spectrum between the present invention is input to set the current reference analysis interval and M number of candidate analysis interval over the length of the audio signal to extract each section of characteristic vector and the characteristic of the current reference analysis period vector and the respective candidate for analysis interval feature vector after the difference between the selected minimum candidate analysis period, the selected candidate analysis interval feature extracting a vector of, and at the same time selected candidate analyzing section and by setting the distance between the current reference analysis interval in the overlapping length new reference analysis interval and a new M number of candidate feature vector extraction method and a speaker recognition system using the same, repeating the step of resetting the analysis interval using a variable selection of the speech analysis segment overlapping length of the variable selected by the overlapping length of the audio analysis section extracts the feature vector of the input speech signal relate to.
본 발명에 따라 음성 분석 구간의 중첩길이를 가변적으로 선택하면 입력 음성 신호에 대한 화자의 다양한 특성을 충분히 뽑아내기 용이하고, 입력 음성에 들어있는 화자의 특성을 모두 모델링하는 것이 용이하므로, 기존의 음성 분석 구간의 중첩길이를 특정한 값으로 고정하는 특징벡터 추출 방법을 이용하는 화자 인식 시스템에 비해 상대적으로 더 월등하게 화자 인식의 성능을 향상시킬 수 있다. Because if variable selected by the overlapping length of the audio analysis section according to the present invention find enough to pull the various characteristics of the speakers for the input speech signal, easy, and it is easy to model all the characteristics of the speakers in the input speech, traditional voice It can be relatively more hence improve the performance of the speaker recognition as compared to the speaker recognition system using a feature vector extraction method that secure the overlapping length of the analysis segment to a specific value.
화자 인식, 음성 분석, 중첩, 특징벡터, 화자 모델 Speaker recognition, voice analysis, nesting, feature vector, speaker model

Description

음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법 및 이를 이용한 화자 인식 시스템{FEATURE VECTOR EXTRACTION METHOD USING ADAPTIVE SELECTION OF FRAME SHIFT AND SPEAKER RECOGNITION SYSTEM THEREOF} Speech analysis section overlapping length variable selection using the extracted feature vector of the speaker recognition method and system using the same {FEATURE VECTOR EXTRACTION METHOD USING ADAPTIVE SELECTION OF FRAME SHIFT AND SPEAKER RECOGNITION SYSTEM THEREOF}

본 발명은 화자 인식 기술에 관한 것이며, 더욱 상세히는 적절하게 음성 분석구간의 중첩길이를 선택하여 특징 벡터를 추출하는 방법 및 이 특징 벡터 추출 방법을 이용하여 화자를 인식하는 화자 인식 시스템에 관한 것이다. The present invention relates to a speaker recognition technology, more particularly to suitably use a method and a feature vector extraction method for selecting the overlapping length of the audio analysis section extracts the feature vector of the speaker recognition system for recognizing a speaker.

일반적으로 화자 인식 시스템은 크게 세 부분, 즉 화자 종속 특징벡터(feature vector)를 추출하는 부분과 화자 종속 모델을 생성해 내는 화자 모델링 부분, 그리고 생성된 화자 종속 모델을 이용하여 실험된 화자의 인식을 처리하는 화자 인식 부분으로 나눌 수 있다. In general, the speaker recognition system is largely the three parts, that is speaker dependent feature vector (feature vector) extraction portion and the speaker modeling portion that generates a speaker dependent model, and a recognition of an experiment using the generated speaker dependent model speaker that speaker recognition can be divided into parts processing.

여기서, 상기 특징벡터 추출 부분에서는 멜 주파수 켑스트럼 계수(MFCC; Mel Frequency Cepstral Coefficient), 선형 주파수 켑스트럼 계수(LFCC; Linear Frequency Cepstral Coefficient), 선형 예측 켑스트럼 계수(LPCC; Linear Prediction Cepstral Coefficient), 라인 스펙트럼 주파수(LSF; Line Spectral Frequency) 등을 특징벡터로 사용하고 있다. Here, the characteristics in the vector extracting portion Mel-frequency cepstral coefficient (MFCC; Mel Frequency Cepstral Coefficient), a linear frequency cepstrum coefficient (LFCC; Linear Frequency Cepstral Coefficient), linear prediction cepstrum coefficient (LPCC; Linear Prediction Cepstral Coefficient), line spectral frequencies (LSF; and using such line spectral frequency) in the feature vector.

또한, 상기한 특징벡터 추출을 위하여 사용되는 음성 분석구간 설정 방법 중 가장 일반적인 고정 음성 분석구간 설정 방법의 분석 길이는 20ms∼30ms이고, 이때 50% 정도의 중첩된 구간을 사용하는데, 이는 화자 인식 시스템의 연산의 복잡도를 고려한 것이다. In addition, the analysis length of the common fixed voice analysis section setting method of voice analysis section setting method to be used for the above-described feature vector is extracted 20ms~30ms, wherein in use the overlapping interval of about 50%, which speaker recognition system It takes into account the complexity of the operation.

종래의 화자 인식 시스템의 작동 과정을 간략하게 설명하면 다음과 같다. Briefly the operation of the conventional speaker recognition system, as follows.

도 1은 고정 음성 분석구간 설정 방법을 사용하여 특징벡터를 추출하는 종래의 화자 인식 시스템의 블록도로서, 특징벡터 추출부(100)와 화자 모델 생성부(110) 및 화자 인식부(120)로 구성되고, 도 2는 고정 음성 분석구간 설정 방법을 사용하는 종래의 특징벡터 추출 방법의 실시예이다. Figure 1 is a a block diagram of the conventional speaker recognition system for extracting a feature vector using a fixed speech analysis section setting method, a feature vector extraction unit 100 and the speaker model generator 110 and the speaker recognition unit 120 constructed and, Figure 2 is an embodiment of a conventional feature vector extraction method using a fixed speech analysis section setting method.

상기 특징벡터 추출부(100)는 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위(예컨대, 20ms∼30ms 단위)로 음성 분석 구간의 길이(L)를 설정하고, 각 음성 분석 구간을 이전 음성 분석 구간의 길이의 50%로 고정된 중첩 범위를 사용하여 이동시키면서 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 각 음성 분석 구간의 특징벡터를 추출한다. The characteristic vector extracting unit 100 sets the length (L) of the speech analysis segment by a preset unit (e. G., 20ms~30ms units) with respect to the length of the input speech signal for length or actual speaker recognition of the input speech signal, and laboratory , the mobile uses the overlapping range to secure each sound analysis interval to the previous 50% of the length of the voice analysis section, while extracts the feature vector of each speech analysis interval for the input speech signal for experimental input audio signal or the actual speaker recognition.

예컨대, 도 2에서는 입력 음성 신호 길이에 대하여 길이(L)의 초기 음성 분석 구간(current frame)과 이 초기 음성 분석 구간의 길이의 50%로 고정된 중첩 범위를 사용하여 순차적으로 이동시켜 형성한 2개의 음성 분석 구간(next frame)으로부터 복수의 특징벡터(예컨대, 3개)를 추출하는 과정을 나타내고 있다. For example, FIG. 2, the second one formed by using the initial voice analysis section (current frame) and the overlapping ranges fixed at 50% of the length of the initial speech analysis segment length (L) with respect to the input audio signal length moved in sequence voice analysis section from the plurality of features (next frame) vector represents a process of extracting (e.g., three).

상기와 같이 특징벡터를 추출하고 나면, 다음으로 화자 모델 생성부(110)는 실험용 입력 음성 신호에 대해서 상기한 방법으로 추출된 특징벡터를 이용하여 가우시안 혼합 모델(GMM; Gaussian mixture model) 방식 등으로 각 화자에 대한 화자 모델을 만든다. Once extracted, the characteristic vector as described above, then the speaker model generator 110 is a Gaussian mixture model using the feature vector extracted by the method described above for the guinea input speech signal; a (GMM Gaussian mixture model) method, etc. It makes the speaker model for each speaker.

이와 같이 실험용 입력 음성 신호로부터 추출한 특징벡터를 이용하여 각 화자에 대응하는 화자 모델을 만들어 놓은 상태에서, 상기 특징벡터 추출부(100)가 실제 화자 인식용 입력 음성 신호로부터 특징벡터를 추출하면, 상기 화자 인식부(120)는 실제 화자 인식용 입력 음성 신호로부터 추출된 특징벡터를 상기 화자 모델 생성부(110)에 의해 생성된 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별하게 된다. Using the feature vector extracted from a guinea input audio signal in this way when in the off state to create the speaker model corresponding to each speaker, the feature vector extraction unit 100 extracts a feature vector from an input speech signal for the actual speaker recognition, the speaker recognition section 120 calculates the results calculate the probability value to be corresponding to recognize the speaker of each speaker model generated by the characteristics of the speaker model generator 110 vector extracted from the input audio signal for the actual speaker recognition, and that is the probability value is to determine the speaker of the largest speaker model as the speaker of the input for the actual speaker voice recognition.

한편, 음성 신호는 무성음, 유성음 등의 음성의 종류에 따라 그 특성이 다양하게 변하므로 음성 분석 구간 또한 다양하게 변해야 하는데, 기존의 음성 분석 구간의 중첩길이를 특정한 값(예컨대, 50%)으로 고정하는 방법은 이러한 음성의 다양한 특성 변화를 고려하지 못하는 문제점이 있다. On the other hand, the audio signal is fixed to a specific value (e.g., 50%) of the overlapping length of the existing voice analysis section, so that characteristics are variously changed to must change the voice analysis section also vary, depending on the type of sound, such as unvoiced, voiced how can this problem do not take into account the different characteristics of these negative changes.

실제로, 상기한 바와 같이, 도 1과 도 2를 참고하여 간략하게 설명한 종래의 화자 인식 시스템에서와 같이 특징벡터를 추출함에 있어, 음성의 종류를 고려하지 않은 채 화자 인식 시스템의 연산의 복잡도만을 고려하여 음성 분석 구간의 중첩길이를 이전 음성 분석 구간의 길이의 50% 정도로 고정하면 화자의 특성을 충분히 뽑아내기 어렵다. In fact, FIG. 1, and only the complexity of the operation of the feature's as extracting a vector, without considering the type of the voice while the speaker recognition system as in the conventional speaker recognition system described briefly with reference to Figure 2. Consider, as described above to be fixed to the overlapping length of the audio analysis section before to about 50% of the length of the speech analysis segment difficult to sufficiently extract the characteristics of the speaker.

또한, 음성 신호는 무성음, 유성음, 음소의 변화구간 등에 따라 다양한 특성을 보이고 있는데, 이와 같이 음성의 종류를 고려하지 않을 채 고정된 중첩길이를 사용하면 다양한 종류의 음성에 들어있는 화자의 특성을 모두 모델링하는 것이 어렵게 된다. In addition, the speech signal is unvoiced, voiced, there show various properties depending on the variation of the phoneme duration, using the thus fixed while not consider the type of sound overlapping length all the characteristics of a speaker contained in various types of speech it is difficult to model.

본 발명은 상기한 바와 같은 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하고, 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택한 후, 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 새 The present invention is based on analysis with a length or a preset unit length (L) with respect to the length of the input speech signal for the actual speaker recognition of as to solve the conventional problems, an object of the present invention experimental input speech signal as described above, interval and is moved to the reference analysis preset interval (r) from the section setting the M candidate analyzing section extracts the feature vector of each segment, and the characteristics of the current reference analysis interval feature vector and the respective candidate analysis interval of the vector by analyzing the spectrum difference between the selected candidate analysis interval of at least the spectral difference between the current reference analysis interval between then, extract the selected feature vector of the candidate analysis section, and at the same time overlapping the distance between the selected candidate analysis section and the current reference analysis section set to a length by moving the current reference to the analysis region selected candidate new analysis section 운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 제공하는 것이다. Cloud based analysis interval and repeats until there are a process of resetting the new M number of candidate analysis interval be set to input the above M number of candidate analysis interval in the length of the audio signal by variably selecting the overlapping length of the audio analysis section laboratory type to provide a voice signal or a feature vector extracted by using a variable selection of the speech analysis segment overlapping length of extracting the feature vector for the input audio signal for the actual speaker recognition method.

본 발명의 목적은 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법으로 추출한 특징벡터를 이용하여 각 화자에 대한 1개씩의 화자 모델을 만들어 놓은 상태에서, 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법으로 실제 화자 인식용 입력 음성 신호로부터 추출한 특징벡터를 상기 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템을 제공하는 것이다. An object of the present invention is the variable selected in the off state by using the feature vectors extracted by the feature vector extraction method using a variable selection of the speech analysis segment overlapping length made by one speaker model for each speaker, the audio analysis section overlapping length using the feature vector extraction method in association with the feature vector extracted from the input audio signal for the actual speaker recognition to each of the speaker model to calculate a probability value to be recognized as a speaker, the calculation result that the probability value is the largest speakers to the speakers in the model the actual speaker to provide a speaker recognition system using a feature vector extraction method using a variable selection of a speech analysis section for determining the overlapping length to the speaker of the recognized input speech for.

상기한 바와 같은 본 발명의 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템은, 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하는 특징벡터 추출부와; According to an aspect of the present invention as described above, the speaker recognition system using a feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with an embodiment of the present invention, the length or real speakers in the laboratory the input speech signal having a predetermined unit length (L) with respect to the length of the input speech signal for recognition criteria analysis section and the standard analysis by moving in a predetermined unit distance (r) from the section setting the M candidate analysis period to each segment feature vector feature vector extraction unit for extracting and; 상기 특징벡터 추출부에 의해 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택하는 분석 구간 선택부; The feature vector extraction unit the features of the current reference analysis period vector and the respective candidate analysis analyzes the spectrum difference between the feature vector of term analysis section in which the spectrum difference between the current reference analysis interval, select the smallest candidate analysis region extracted by the the selection unit; 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 상기 특징벡터 추출부의 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출하는 중첩길이 가변부; By setting a distance between the selected candidate analysis section and the current reference analysis period and at the same time extracting the selected feature vector of the candidate analysis interval in the overlapping length by the movement of the current reference analysis interval to the selected candidate analysis section new reference analysis vector extraction of said characteristic interval and repeats until there are a process of resetting the new M number of candidate analysis interval be set to input the above M number of candidate analysis interval in the length of the audio signal by variably selecting the overlapping length of the audio analysis section Laboratory input speech signal or the overlapping length varying unit for extracting a feature vector for the input audio signal for the actual speaker recognition; 상기 중첩길이 가변부가 실험용 입력 음성 신호로부터 추출한 특징벡터를 이용하여 각 화자에 대한 화자 모델을 만드는 화자 모델 생성부; The overlapping length of the speaker model generator to create the speaker model for each speaker to the variable portion using the feature vectors extracted from guinea input speech signal; 및 상기 각 화자에 대한 화자 모델이 만들어진 상태에서, 상기 중첩길이 가변부가 실제 화자 인식용 입력 음성 신호로부터 특징벡터를 추출하면, 실제 화자 인식용 입력 음성 신호로부터 추출된 특징벡터를 상기 화자 모델 생성부에 의해 생성된 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별하는 화자 인식부;로 구성된다. And wherein the created a speaker model status for each speaker, wherein if the overlapping length variable part extracts a feature vector from an input speech signal for the actual speaker recognition, wherein the feature vector extracted from the input audio signal for the actual speaker recognition speaker model generator in association with each speaker model generated by calculating a probability value to be recognized as a speaker, the calculation result to the speaker of the probability value is largest speaker model, the speaker recognition section which determines a speaker of the input speech for the actual speaker recognition; composed of do.

상기한 바와 같은 본 발명의 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법은, 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하는 과정과; According to an aspect of the present invention as described above, the feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with an embodiment of the present invention, experimental length of the input or the input audio signal for the actual speaker recognition of a speech signal Transfer the pre-set unit of distance (r) from a reference analysis section and the standard analysis interval having a predetermined unit length (L) with respect to the length by setting the M candidate analysis interval of the process of extracting the feature vector of each segment, and .; 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택하는 과정; The current to analyze the spectrum difference between the reference feature vector and the analysis section analyzes each of the candidate interval feature vector extraction process in which a spectrum analysis based on the difference between the current interval, select the smallest candidate analysis interval; 및 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출하는 과정;으로 이루어진다. And extracting the selected feature vector of the candidate analysis section, and at the same time selected candidate analysis interval and sets the length between the current reference analysis interval in the overlapping length by moving the current reference analysis interval to the selected candidate analysis section new reference analysis interval and a new M one for the candidate analysis repeat the process of resetting the interval until there can set the type above M number of candidate analysis interval in the length of the audio signal and variably selecting the overlapping length of the audio analysis section by experiment the input speech signal or the actual speaker recognition It made of; extracting a feature vector for the input audio signal.

본 발명에 따라 음성 분석 구간의 중첩길이를 가변적으로 선택하면 입력 음 성 신호에 대한 화자의 다양한 특성을 충분히 뽑아내기가 용이할 뿐만 아니라, 입력 음성에 들어있는 화자의 특성을 모두 모델링하는 것이 용이하므로, 기존의 음성 분석 구간의 중첩길이를 특정한 값(예컨대, 50%)으로 고정하는 특징벡터 추출 방법을 이용하는 화자 인식 시스템에 비해 상대적으로 더 월등하게 화자 인식의 성능을 향상시킬 수 있다. If the variable selected by the overlapping length of the audio analysis section according to the invention not only easy to find enough to pull the various characteristics of the speakers for the input voice signal, it is easy to model both the example characteristic of a speaker in the input speech It can be compared to the speaker recognition system using a feature vector extraction method that secure the overlapping length of the conventional speech analysis segment to a specific value (e.g., 50%), relatively more hence improve the performance of speaker recognition.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 더욱 상세하게 설명한다. With reference to the accompanying drawings, the embodiments of the present invention will be described in more detail.

도 3을 참조하면, 특징벡터 추출부(200)는 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출한다. 3, the characteristic vector extracting unit 200 from the experimental length of the input or the reference analysis section and the standard analysis interval having a predetermined unit length (L) with respect to the length of the input speech signal for the actual speaker recognition of a speech signal Go to a preset interval (r) by setting the M candidate analysis section to extract a feature vector of each segment.

분석 구간 선택부(210)는 상기 특징벡터 추출부(200)에 의해 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택한다. Analysis block selection unit 210 spectrum and the characteristic vector extracting unit 200, a feature of the current reference analysis period vector and the respective analyzes the spectrum difference between the feature vector of the candidate analysis interval current reference analysis region extracted by the difference select the minimum candidate analysis period.

중첩길이 가변부(220)는 상기 분석 구간 선택부(210)에 의해 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 상기 특징벡터 추출부(200)의 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출한다. The overlapping length variable unit 220 is the current reference by setting the length between the analysis block selection unit 210 selected candidate analysis interval feature extracting a vector of, and at the same time selected candidate analysis section and the current reference analysis section by an overlap length move the analysis interval to the selected candidate analysis interval to establish a new reference analysis interval and a new M of the above M number of candidate analysis interval in the length of the candidate analysis enter a process to reset the interval speech signal of the feature vector extraction unit 200 It can repeat until no select the overlapping length of the audio analysis section variably to extract the feature vector for the input audio signal or guinea input audio signal for the actual speaker recognition.

화자 모델 생성부(230)는 상기 중첩길이 가변부(220)가 실험용 입력 음성 신호로부터 추출한 특징벡터를 이용하여, 예컨대 가우시안 혼합 모델(GMM; Gaussian mixture model) 방식 등으로 각 화자에 대한 화자 모델을 만든다. Speaker model generation unit 230 using the feature vector from the overlap length of the variable portion 220 is extracted from the experimental input audio signal, such as a Gaussian mixture model; the speaker model for each speaker in (GMM Gaussian mixture model) method, etc. create.

화자 인식부(240)는 상기 각 화자에 대한 화자 모델이 만들어진 상태에서, 상기 중첩길이 가변부(220)가 실제 화자 인식용 입력 음성 신호로부터 특징벡터를 추출하면, 실제 화자 인식용 입력 음성 신호로부터 추출된 특징벡터를 상기 화자 모델 생성부(230)에 의해 생성된 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별한다. Speaker recognition unit 240 is in a state in which the speaker model for each of the speaker are made, when the overlapping length of the variable portion 220 extracts a feature vector from an input speech signal for the actual speaker recognition, from an input audio signal for the actual speaker recognition in association with each speaker model generated by the extracted feature vectors to the speaker model generator (230) for calculating a probability value to be recognized as a speaker, and the calculation result that the probability value of the actual speaker recognition of the speaker of the largest speaker model It determines a speaker of the input speech.

상기와 같이 구성되는 본 발명의 실시예에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템은 다음과 같이 작동한다. Speaker recognition system using a feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with an embodiment of the present invention constituted as described above operates as follows.

먼저, 본 발명에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 도 4를 참조하여 상세히 설명하면 다음과 같다. First, it will be described in detail by the feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with the present invention Referring to Figure 4 as follows.

상기 특징벡터 추출부(200)는 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호가 입력되면(S100), 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이 L = 20ms를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격 r = 1ms로 이동시켜 1개의 기준 분석 구간에 대하여 M = 19개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출한다(S110,S120). The feature vector extraction unit 200 Laboratory input speech signal, or when the actual speaker recognition input voice signal input (S100), guinea input length or a length of the pre-set units of the input audio signal for the actual speaker recognition of a speech signal length L = moved from a reference analysis section and the standard analysis section has a 20ms at a preset interval r = 1ms by setting M = 19 candidates analyzed interval with respect to one reference analysis section to extract a feature vector of each segment ( S110, S120).

이어서, 상기 분석 구간 선택부(210)는 상기 특징벡터 추출부(200)에 의해 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택한다(S130). Then, the analysis section selecting unit 210 the feature vector extraction unit 200 analyzes the spectrum difference between the current characteristics of the reference analysis period vector and the respective candidate analysis interval feature vector extracted by the current reference analysis interval and and the spectrum of the difference between select at least the analysis interval candidate (S130).

이때, 상기 분석 구간 선택부(210)는 하기의 수학식 1을 사용하여 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 거리를 분석하여 현재 기준 분석 구간과의 스펙트럼 거리가 최소인 후보 분석 구간을 선택한다. In this case, the analysis block selection unit 210 analyzes the spectral distance between the equation (1) the current characteristics of the reference analysis region extracted by using the vector and the respective candidate for analysis interval feature vector in to the spectrum of the current standard analytical section select the minimum distance candidate analysis period.

Figure 112007077458473-pat00001

상기 수학식 1에서, j는 후보 분석 구간의 집합을 의미하고, In the equation (1), and j is a set of candidate analysis section,

Figure 112007077458473-pat00002
는 기준 분석 구간의 특징벡터와 후보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance)를 의미한다. It refers to a spectrum distance (spectral distance) between the reference feature vector and the candidate of the analysis section analyzes the feature vector interval.

또한, 상기 분석 구간 선택부(210)는 상기 기준 분석 구간의 특징벡터와 후 보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance) Further, the distance spectrum (spectral distance) between the analysis block selection unit 210 and then the feature vector of the reference characteristic analysis section of the beam analysis interval vector

Figure 112007077458473-pat00003
로서 유클리디안 켑스트럼 거리(Euclidean cepstral distance), 마하라노비스 거리(Mahalanobis distance), 가중 켑스트럼 거리(weighted cepstral distance) 중 어느 하나를 사용한다. As used any one of the Euclidean cepstral distance (Euclidean cepstral distance), Maharata nobiseu distance (Mahalanobis distance), the weighted cepstrum distance (weighted cepstral distance).

예컨대, 본 발명의 실시예에서 적용하고자 하는 상기 유클리디안 켑스트럼 거리(d ECEP )는 하기의 수학식 2로 구할 수 있다. For example, the Euclidean cepstral distance (d ECEP) to be applied in an embodiment of the present invention can be derived from equation (2) below.

Figure 112007077458473-pat00004

상기 수학식 2에서, p는 켑스트럼의 차수를 의미하고, c r (i)와 c c (i)는 각각 기준 분석 구간과 후보 분석 구간의 켑스트럼의 i번째 차수의 계수를 의미한다. In Equation 2, p denotes the order of the cepstrum, and c r (i), and c c (i) means the i-th order coefficient of the cepstrum of each reference analysis section and the candidate analysis section .

또한, 본 발명의 실시예에서 적용하고자 하는 상기 마하라노비스 거리(d MCEP )는 차수가 다른 계수들 간의 분산을 같게 맞추어 주는 방법인 하기의 수학식 3으로 구할 수 있다. Further, let the town to be applied in an embodiment of the present invention nobiseu distance (d MCEP) can be obtained by the method of Equation (3) in order to fit the same as the variance between the different factors.

Figure 112007077458473-pat00005

상기 수학식 3에서, Cr과 Cc는 각각 기준 분석 구간과 후보 분석 구간의 켑스트럼 계수의 열벡터이고, V는 기준 분석 구간과 후보 분석 구간의 켑스트럼 계수 의 공분산 행렬이다. In Equation (3), and Cr and Cc is a column vector of cepstrum coefficients of each candidate reference section and the analysis section analyzes, V is the covariance matrix of the cepstrum coefficient of a reference section and the analysis section analyzes the candidate.

또한, 본 발명의 실시예에서 적용하고자 하는 상기 가중 켑스트럼 거리(d WCEP )는, 상기 수학식 3과 같이 공분산 행렬을 이용하면 연산량의 복잡도의 문제가 발생하므로 공분산 행렬 V의 대각선 값, 즉 켑스트럼 계수의 각 차수의 분산 값만을 이용한 방법인 하기의 수학식 4로 구할 수 있다. Further, the weighted cepstrum distance (d WCEP) to be applied in the embodiment of the present invention, a diagonal value of the covariance matrix V when it is a problem of complexity of the operation amount generated using the covariance matrix as the equation (3), that is Kep host can be determined by equation (4) to the method using only the dispersion value of each order of coefficient column.

Figure 112007077458473-pat00006

상기 수학식 4에서, w(i)는 c r (i)와 c c (i)의 공분산 행렬인 V의 i번째 대각선 값의 역수를 의미하고, c r (i)와 c c (i)는 각각 기준 분석 구간과 후보 분석 구간의 켑스트럼의 i번째 차수의 계수를 의미한다. In Equation 4, w (i) is c r (i), and c c (i) refers to the inverse number of the i-th diagonal value of the V-covariance matrix, and in c r (i), and c c (i) is each refers to i-th order coefficient of the reference period and analyzed cepstrum analysis of the candidate region.

상기한 음성 분석 구간 간의 켑스트럼 거리를 최소화하는 수학식들은 스펙트럼 차이를 구하기 위한 하나의 실시예에 불과하며, 이 외에도 스펙트럼 차이를 최소화하기 위하여 여러 가지 수학식이 적용될 수 있다. Equation that minimizes the cepstral distance between the voice analysis section are also just an example for obtaining the difference spectrum, this addition can be applied to a number of equations so as to minimize the difference spectrum.

상기와 같이 분석 구간 선택부(210)에 의해 현재 기준 분석 구간과의 스펙트럼 거리가 최소인 후보 분석 구간이 선택되면, 상기 중첩길이 가변부(220)는 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에(S140), 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 새로운 기준 분석 구간과 새로운 M = 19개의 후보 분석 구간을 재설정한 후(S150), 상기의 S110 내지 S150의 과정을 입력 음성 신호의 길이 안에서 상기한 M = 19개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출한다(S160). When such analysis block selection unit 210 to the spectral distance is smallest candidate analysis interval between the current reference analysis region selected by the above, extract the overlapping length of the variable portion 220 is a feature vector of the selected candidate analysis section hereinafter and at the same time (S140), resets the selected candidate analysis interval and sets the length between the current reference analysis interval in the overlapping length by moving the current reference analysis interval to the selected candidate analysis section new reference analysis section and the new M = 19 candidate analysis section after (S150), the length above the M = 19 candidate analysis repeated until there can set the interval and variable selected by the overlapping length of the speech analysis segment by laboratory type out of the process of the S110 through S150 the input speech signal It extracts a feature vector for the input audio signal for an audio signal or the actual speaker recognition (S160).

만약, 상기의 S110 내지 S150의 과정을 반복하면서 매 회마다 선택된 후보 분석 구간의 특징벡터를 추출하다가 상기한 바와 같이 입력 음성 신호의 길이 안에서 상기한 M = 19개의 후보 분석 구간을 설정할 수 없게 되면, 상기 중첩길이 가변부(220)는 특징벡터 추출 작업을 완료한다(S170). When If, while repeating the process of the S110 to S150 every time each time while extracting a selected feature vector of the candidate analysis interval above described steps can not be set to input the a M = 19 candidate analysis interval in the length of the audio signal, the overlapping length varying unit 220 completes the feature vector extraction (S170).

이와 같이 상기 중첩길이 가변부(220)가 특징벡터 추출 작업을 완료하면, 다음으로 화자 모델 생성부(230)는 실험용 입력 음성 신호에 대해서 상기한 방법으로 추출된 특징벡터를 이용하여 가우시안 혼합 모델(GMM; Gaussian mixture model) 방식 등으로 각 화자에 대한 화자 모델을 만든다. With this completed, the overlapped length of the variable portion 220 is a feature vector extraction, and then to the speaker model generator 230 is a Gaussian mixture model using the feature vector extracted by the method described above for the guinea input speech signal ( GMM; such as Gaussian mixture model) approach makes the speaker model for each speaker.

상기와 같이 상기 화자 모델 생성부(230)가 실험용 입력 음성 신호로부터 추출한 특징벡터를 이용하여 각 화자에 대응하는 화자 모델을 만들어 놓은 상태에서, 상기 중첩길이 가변부(220)가 실제 화자 인식용 입력 음성 신호로부터 특징벡터를 추출하면, 상기 화자 인식부(240)는 실제 화자 인식용 입력 음성 신호로부터 추출된 특징벡터를 상기 화자 모델 생성부(230)에 의해 생성된 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별하게 된다. In the off state, using the feature vector the speaker model generation unit 230 is extracted from the experiment the input speech signal as described above, creating a speaker model corresponding to each of the speakers, the overlapping length of the variable portion 220 is input for the actual speaker recognition When extracting a feature vector from the speech signal, the speaker recognition section 240 in association with each speaker model generated by the feature wherein the speaker model the vector generation unit 230 extracted from the input audio signal for the actual speaker recognition to the speaker It calculates the probability value to be recognized, and the calculation result is that the probability value is determined for the speakers in the larger speaker model to the speaker of the input speech for the actual speaker recognition.

이상에서 설명한 본 발명에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법 및 이를 이용한 화자 인식 시스템은 상기한 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양하게 변경하여 실시할 수 있는 범위까지 그 기술적 정신이 있다. Using a variable selection of the speech analysis segment overlapping length in accordance with the present invention described above feature vector extraction method and a speaker recognition system using the same are the subject matter of the present invention is not limited to the embodiment described above, it claimed in the following claims If the deviation of ordinary skill in the art to which the invention pertains without which its technical spirit of anyone to the extent that can be implemented in various modifications.

도 1은 고정 음성 분석구간 설정 방법을 사용하여 특징벡터를 추출하는 종래의 화자 인식 시스템의 블록도. Figure 1 is a block diagram of the conventional speaker recognition system for extracting a feature vector using a fixed speech analysis section setting method.

도 2는 고정 음성 분석구간 설정 방법을 사용하는 종래의 특징벡터 추출 방법의 실시예. Figure 2 is an example embodiment of the fixed audio analysis section setting method in the prior feature vector extracted using the method.

도 3은 본 발명에 따른 음성 분석 구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템의 블록도. 3 is a block diagram of a speaker recognition system using a feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with the present invention.

도 4는 본 발명에 따른 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법의 실시예. Figure 4 is an example embodiment of the feature vector extraction method using a variable selection of the speech analysis segment overlapping length in accordance with the present invention.

< 도면의 주요부분에 대한 부호의 설명 > <Description of the Related Art>

100: 특징벡터 추출부 110: 화자 모델 생성부 100: feature vector extraction unit 110: speaker model generator

120: 화자 인식부 200: 특징벡터 추출부 120: speaker recognition section 200: feature vector extraction unit

210: 분석 구간 선택부 220: 중첩길이 가변부 210: analysis section selecting unit 220: overlap length variable region

230: 화자 모델 생성부 240: 화자 인식부 230: speaker model generation unit 240: speaker recognition unit

Claims (6)

  1. 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하는 특징벡터 추출부(200)와; Experimental input length or actual speaker recognition based on analysis section and to move to a standard pre-set interval from the analysis region (r) M number of candidate analysis having a predetermined unit length (L) with respect to the length of the input speech signal of the speech signal setting section by the feature vector extraction unit 200 to extract the feature vector for each region;
    상기 특징벡터 추출부(200)에 의해 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택하는 분석 구간 선택부(210); The feature vector extraction unit 200, the current analyzes the spectrum difference between the feature vector and each feature vector of the candidate analysis interval of the reference analysis interval, select the candidate analysis interval of at least the spectral difference between the current reference analysis region extracted by the analysis interval selection unit 210;
    선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구간을 선택된 후보 분석 구간으로 이동시켜 상기 특징벡터 추출부(200)의 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출하는 중첩길이 가변부(220); By setting a distance between the selected candidate analysis section and the current reference analysis period and at the same time extracts the feature vector of the selected candidate analysis interval in the overlapping length by the movement of the current reference analysis interval to the selected candidate analysis period, the characteristic vector extracting unit (200) the new reference analysis interval and repeats until there are a process of resetting the new M number of candidate analysis interval be set to input the above M number of candidate analysis interval in the length of the audio signal by variably selecting the overlapping length of the audio analysis section Laboratory the input speech signal or the overlapping length variable unit 220 for extracting a feature vector for the input audio signal for the actual speaker recognition;
    상기 중첩길이 가변부(220)가 실험용 입력 음성 신호로부터 추출한 특징벡터를 이용하여 각 화자에 대한 화자 모델을 만드는 화자 모델 생성부(230); The overlapping length variable unit 220 is a speaker model generator (230) creating a speaker model for each speaker with a feature vector extracted from a guinea input speech signal; And
    상기 각 화자에 대한 화자 모델이 만들어진 상태에서, 상기 중첩길이 가변부(220)가 실제 화자 인식용 입력 음성 신호로부터 특징벡터를 추출하면, 실제 화자 인식용 입력 음성 신호로부터 추출된 특징벡터를 상기 화자 모델 생성부(230)에 의해 생성된 각 화자 모델에 대응시켜 화자로 인식될 확률 값을 계산하고, 계산 결과 그 확률 값이 가장 큰 화자 모델의 화자를 실제 화자 인식용 입력 음성의 화자로 판별하는 화자 인식부(240); The hold speaker model is created for each speaker, the overlapping length of the variable portion 220 when extracting a feature vector from an input speech signal for the actual speaker recognition, the speaker of the feature vector extracted from the input audio signal for the actual speaker recognition It calculates the probability value to be corresponding to recognize the speaker of each speaker model generated by the model generation unit 230, and the calculation result for the probability value is determined for the speaker of the largest speaker model as the speaker of the input for the actual speaker recognition voice speaker recognition unit 240;
    로 구성되는 것을 특징으로 하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템. Speaker recognition system using a feature vector extraction method using a variable selection of the voice analysis section, characterized in that the overlapping length consisting of.
  2. 제 1 항에 있어서, 상기 분석 구간 선택부(210)는 The method of claim 1, wherein the analysis interval selection unit 210
    하기의 수학식 Equation to
    Figure 112007077458473-pat00007
    (여기서, j는 후보 분석 구간의 집합을 의미하고, (Where, j is a set of candidate analysis section,
    Figure 112007077458473-pat00008
    는 기준 분석 구간의 특징벡터와 후보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance)를 의미한다) Refers to a spectrum distance (spectral distance) between the reference feature vector and the candidate of the analysis section analyzes the feature vector interval)
    를 사용하여 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 거리를 분석하여 현재 기준 분석 구간과의 스펙트럼 거리가 최소인 후보 분석 구간을 선택하는 것을 특징으로 하는 음성 분석구간 중첩 길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템. The analysis of the spectral distance between the current characteristics of the reference analysis period vector and the respective candidate analysis interval of the feature vector extracted by using the speech analysis, characterized in that for selecting the spectral distance is smallest candidate analysis interval between the current reference analysis section speaker recognition system using a feature vector extraction method using a variable selection of the overlap interval length.
  3. 제 2 항에 있어서, 상기 분석 구간 선택부(210)는 상기 기준 분석 구간의 특징벡터와 후보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance)로서 유클리디안 켑스트럼 거리(Euclidean cepstral distance), 마하라노비스 거리(Mahalanobis distance), 가중 켑스트럼 거리(weighted cepstral distance) 중 어느 하나를 사용하는 것을 특징으로 하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법을 이용한 화자 인식 시스템. The method of claim 2 wherein the Euclidean cepstral distance (Euclidean cepstral distance) as spectral distance (spectral distance) between the analysis block selection unit 210 features of the feature vector and the candidate analysis interval of the reference analysis interval vectors, Maharata nobiseu distance (Mahalanobis distance), the weighted cepstrum distance (weighted cepstral distance) of any one of the speaker recognition system using a feature vector extraction method using a variable selection of the speech analysis segment overlapping length characterized in that use.
  4. 실험용 입력 음성 신호의 길이 또는 실제 화자 인식용 입력 음성 신호의 길이에 대하여 미리 설정된 단위 길이(L)를 가지는 기준 분석 구간과 이 기준 분석 구간으로부터 미리 설정된 단위 간격(r)으로 이동시켜 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하는 과정(S100,S110,S120)과; Experimental input length or actual speaker recognition based on analysis section and to move to a standard pre-set interval from the analysis region (r) M number of candidate analysis having a predetermined unit length (L) with respect to the length of the input speech signal of the speech signal the process of setting a section to extract a feature vector of each segment (S100, S110, S120) and;
    추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이를 분석하여 현재 기준 분석 구간과의 스펙트럼 차이가 최소인 후보 분석 구간을 선택하는 과정(S130); By analyzing the spectrum difference between the extracted characteristic of the current reference vector and the analysis section analyzes of each candidate segment feature vectors process of the spectral difference between the current reference interval analysis, select the minimum of the candidate interval analysis (S130); And
    선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 현재 기준 분석 구 간을 선택된 후보 분석 구간으로 이동시켜 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 입력 음성 신호의 길이 안에서 상기한 M개의 후보 분석 구간을 설정할 수 없을 때까지 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 실험용 입력 음성 신호 또는 실제 화자 인식용 입력 음성 신호에 대한 특징벡터를 추출하는 과정(S140,S150,S160); Extracting a feature of the selected candidate analysis period vector and at the same time selected candidate analysis interval and sets the length between the current reference analysis interval in the overlapping length by moving the cross current as parsed by the selected candidate analysis section new reference analysis interval and a new M one for the candidate analysis repeat the process of resetting the interval until there can set the type above M number of candidate analysis interval in the length of the audio signal and variably selecting the overlapping length of the audio analysis section by experiment the input speech signal or the actual speaker recognition extracting a feature vector for the input audio signal (S140, S150, S160);
    으로 이루어지는 것을 특징으로 하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법. Feature vector extraction method using a variable selection of the voice analysis section, characterized in that the overlapping length is made.
  5. 제 4 항에 있어서, 상기 후보 분석 구간 선택 과정(S130)에서는 The method of claim 4, wherein in the analysis period candidate selection process (S130)
    하기의 수학식 Equation to
    Figure 112007077458473-pat00009
    (여기서, j는 후보 분석 구간의 집합을 의미하고, (Where, j is a set of candidate analysis section,
    Figure 112007077458473-pat00010
    는 기준 분석 구간의 특징벡터와 후보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance)를 의미한다) Refers to a spectrum distance (spectral distance) between the reference feature vector and the candidate of the analysis section analyzes the feature vector interval)
    를 사용하여 추출된 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 거리를 분석하여 현재 기준 분석 구간과의 스펙트럼 거리가 최소인 후보 분석 구간을 선택하는 것을 특징으로 하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법. The analysis of the spectral distance between the current characteristics of the reference analysis period vector and the respective candidate analysis interval of the feature vector extracted by using the speech analysis, characterized in that for selecting the spectral distance is smallest candidate analysis interval between the current reference analysis section feature vector extraction method using a variable selection of the overlap interval length.
  6. 제 5 항에 있어서, 상기 후보 분석 구간 선택 과정(S130)에서는 상기 기준 분석 구간의 특징벡터와 후보 분석 구간의 특징벡터 간의 스펙트럼 거리(spectral distance)로서 유클리디안 켑스트럼 거리(Euclidean cepstral distance), 마하라노비스 거리(Mahalanobis distance), 가중 켑스트럼 거리(weighted cepstral distance) 중 어느 하나를 사용하는 것을 특징으로 하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법. The method of claim 5, wherein the Euclidean cepstral distance (Euclidean cepstral distance) as spectral distance (spectral distance) between the prospective analysis block selection process (S130) The feature of the reference analysis period vector and the candidate analysis section of the feature vectors , Maharata nobiseu distance (Mahalanobis distance), the weighted cepstrum distance (weighted cepstral distance) one speech feature extraction analysis using a variable selection of the overlap interval length feature vector according to the use of the method.
KR1020070108929A 2007-10-29 2007-10-29 Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof KR100933946B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070108929A KR100933946B1 (en) 2007-10-29 2007-10-29 Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070108929A KR100933946B1 (en) 2007-10-29 2007-10-29 Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof

Publications (2)

Publication Number Publication Date
KR20090043203A KR20090043203A (en) 2009-05-06
KR100933946B1 true KR100933946B1 (en) 2009-12-28

Family

ID=40854081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070108929A KR100933946B1 (en) 2007-10-29 2007-10-29 Feature vector extraction method using adaptive selection of frame shift and speaker recognition system thereof

Country Status (1)

Country Link
KR (1) KR100933946B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671305B1 (en) * 2015-12-22 2016-11-02 경상대학교 산학협력단 Apparatus for extracting feature parameter of input signal and apparatus for recognizing speaker using the same
CN106448680A (en) * 2016-03-01 2017-02-22 常熟苏大低碳应用技术研究院有限公司 Missing data feature (MDF) speaker identification method using perception auditory scene analysis (PASA)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030144839A1 (en) * 2002-01-31 2003-07-31 Satyanarayana Dharanipragada MVDR based feature extraction for speech recognition
KR20040028790A (en) * 2001-06-19 2004-04-03 세큐리복스 리미티드 Speaker recognition systems
KR20060097895A (en) * 2005-03-07 2006-09-18 삼성전자주식회사 Method and apparatus for speech recognition
US20070233471A1 (en) * 2006-03-29 2007-10-04 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for speech processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040028790A (en) * 2001-06-19 2004-04-03 세큐리복스 리미티드 Speaker recognition systems
US20030144839A1 (en) * 2002-01-31 2003-07-31 Satyanarayana Dharanipragada MVDR based feature extraction for speech recognition
KR20060097895A (en) * 2005-03-07 2006-09-18 삼성전자주식회사 Method and apparatus for speech recognition
US20070233471A1 (en) * 2006-03-29 2007-10-04 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for speech processing

Also Published As

Publication number Publication date
KR20090043203A (en) 2009-05-06

Similar Documents

Publication Publication Date Title
Gaikwad et al. A review on speech recognition technique
Tiwari MFCC and its applications in speaker recognition
US6236963B1 (en) Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
JP5218052B2 (en) Language model generation system, language model generation method, and language model generation program
CN105765650B (en) With multidirectional decoded voice recognition
Li et al. Spoken language recognition: from fundamentals to practice
JP4218982B2 (en) Audio processing
Hegde et al. Significance of the modified group delay feature in speech recognition
JP3933750B2 (en) Speech recognition method and apparatus using the continuous density hidden Markov model
CN1655235B (en) Automatic identification of telephone callers based on voice characteristics
Zhan et al. Vocal tract length normalization for large vocabulary continuous speech recognition
Hossan et al. A novel approach for MFCC feature extraction
KR100612840B1 (en) Speaker clustering method and speaker adaptation method based on model transformation, and apparatus using the same
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
KR970001165B1 (en) Recognizer and its operating method of speaker training
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
EP0617827B1 (en) Composite expert
Hasan et al. A study on universal background model training in speaker verification
Vincent et al. The second ‘CHiME’speech separation and recognition challenge: An overview of challenge systems and outcomes
Boril et al. Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments
US8255215B2 (en) Method and apparatus for locating speech keyword and speech recognition system
JP2005043666A (en) Voice recognition device
Schluter et al. Using phase spectrum information for improved speech recognition performance
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121018

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131126

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141125

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151201

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee