KR100329596B1 - Text-Independent Speaker Identification Using Telephone Speech - Google Patents
Text-Independent Speaker Identification Using Telephone Speech Download PDFInfo
- Publication number
- KR100329596B1 KR100329596B1 KR1019990043332A KR19990043332A KR100329596B1 KR 100329596 B1 KR100329596 B1 KR 100329596B1 KR 1019990043332 A KR1019990043332 A KR 1019990043332A KR 19990043332 A KR19990043332 A KR 19990043332A KR 100329596 B1 KR100329596 B1 KR 100329596B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- independent
- cepstrum
- speech
- space
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000006870 function Effects 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000012880 independent component analysis Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 24
- 238000012546 transfer Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 11
- 230000015556 catabolic process Effects 0.000 abstract description 4
- 238000006731 degradation reaction Methods 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000011410 subtraction method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성신호를 이용한 문장 독립형 화자 식별 방법에 관한 것이다.The present invention relates to a sentence independent speaker identification method using a voice signal.
화자식별의 중요한 응용분야인 전화망에서는 대역폭의 제한과 전송선에 의한 채널응답특성에 의해 비선형적인 왜곡이 나타나게 되고 이로인해 심각한 성능저하가 일어난다.In the telephone network, which is an important application field of speaker identification, nonlinear distortion appears due to bandwidth limitation and channel response characteristics by transmission line, which causes severe performance degradation.
본 발명은 독립성분분석을 이용하여 음성의 특징벡터를 새로운 특징공간으로 사상하는 방법으로써, 여러가지 환경에서 수집된 음성신호의 켑스트럼 벡터를 몇개의 특징함수들의 선형결합으로 가정하고, 독립성분분석을 이용하여 분리된 켑스트럼 벡터를 학습과 인식에 사용하는 방법이 제시된다.The present invention is a method of mapping a feature vector of speech into a new feature space using independent component analysis. It is assumed that the cepstral vectors of speech signals collected in various environments are linear combinations of several feature functions. We present a method of using separated cepstrum vectors for learning and recognition using.
상기 본 발명의 새로운 벡터 영역에서는 반복적으로 나타나는 음성의 특징 정보는 강조되고, 임의로 나타나는 채널왜곡은 억제되어 켑스트럼 공간의 화자간 분별력을 향상시키고, 채널환경 변화에 대해 보다 강인한 공간으로 나타나게 할 수 있다.In the new vector region of the present invention, feature information of repeated voices is emphasized, and random channel distortions are suppressed to improve discrimination between speakers in the cepstrum space, and to appear as a more robust space against channel environment changes. have.
Description
본 발명은 전화음성의 화자식별 방법에 관한 것이다. 특히, 전화음성의 채널변이에 강인한 공간으로 특징 파라메터를 변환하는 방법으로써 독립성분분석을 이용한 켑스트럼 벡터 변환에 의한 화자식별 방법에 관한 것이다.The present invention relates to a speaker identification method of telephone speech. In particular, a method of transforming feature parameters into a space robust to channel variations of a phone voice is directed to a speaker identification method using a cepstrum vector transformation using independent component analysis.
음성정보처리 기술의 진보와 컴퓨터들의 계산능력 향상으로 대규모 음성자료의 처리와 다양한 음성의 변이를 수용할 수 있는 확률 모델들의 구축이 가능해졌다. 이에 따라 화자인식의 기술도 비약적인 발전을 해오고 있다.Advances in speech information processing technology and improved computing power of computers have enabled the construction of probabilistic models that can accommodate large-scale speech data processing and various speech variations. Accordingly, the speaker recognition technology has also made great strides.
화자인식의 주요 분야인 전화음성은 대역폭의 제한과 전송선에 의한 채널 응답 특성으로 인해 예측 불가능한 비선형적인 왜곡이 음성에 반영되기 때문에 정확한 추정 및 보상이 불가능하고, 이로 인하여 심각한 성능저하가 발생한다. 따라서 화자인식의 실용화를 위해서는 전화음성에서 발생하는 채널왜곡을 추정하고, 이를 보상할 수 있는 방법이 필수적이다.Telephone speech, which is the main field of speaker recognition, cannot accurately estimate and compensate because the unpredictable nonlinear distortion is reflected in the voice due to the limitation of bandwidth and the channel response characteristic of the transmission line, which causes severe performance degradation. Therefore, for the practical use of speaker recognition, a method of estimating channel distortion occurring in telephone voice and compensating for it is essential.
도 1은 전화음성의 왜곡과정을 나타낸 것이다.1 shows a distortion process of telephone voice.
한 화자가 발성한 음성은 마이크에 의해 수집되고 전화선을 통해 다른 화자에게로 전송된다. 이 과정에서 음성 신호를 필터링하는 효과가 발생하며 이는 주파수축에서 스펙트럼 기울기(spectral tilt) 등으로 나타난다.Voices spoken by one speaker are collected by the microphone and transmitted to the other speaker by telephone line. In this process, an effect of filtering the speech signal occurs, which is represented by a spectral tilt in the frequency axis.
따라서, 다른 환경에서 채집된 음성으로 학습과 인식을 수행할 경우 특징 파라미터의 차이가 가산적이 아닌 비선형적으로 나타나게 되어 심각한 인식률의 저하를 유발한다.Therefore, when learning and recognizing with voices collected in different environments, differences in feature parameters appear non-additively, leading to severe degradation of recognition rate.
전화음성의 스펙트럼은 도 1과 같은 과정을 거쳐 아래 수학식 1과 같이 음성의 스텍트럼에 전송선에 의한 전달함수가 곱해진 형태로 나타난다.The spectrum of the telephone voice is represented by the transmission function of the transmission line by the spectrum of the voice as shown in Equation 1 through the process as shown in FIG.
여기에서는 각각 성대의 기본진동, 성도의 특성, 채집 마이크의 특성, 전송선의 특징을 나타내는 전달함수들이다.From here Are transfer functions that represent the basic vibration of the vocal cords, the characteristics of the saints, the characteristics of the collecting microphone, and the characteristics of the transmission line.
아래의 수학식 2의 변환을 거친 켑스트럼 영역에서는 이러한 필터함수들의 곱이 선형적인 합으로 나타나게 된다.In the cepstrum domain after the conversion of Equation 2, the product of these filter functions is represented as a linear sum.
켑스트럼 분석과정에서 성대의 기본진동(glottal pulse)를 나타내는는 제외된다. 따라서 음성의 특징은 성도의 전달함수인에 의해서만 표현되므로, 학습음성과 인식음성간의 왜곡을 줄이기 위해서는 전송환경의 특징함수들을 억제시켜주어야 한다.The glottal pulse of the vocal cords during the analysis Is excluded. Therefore, the characteristic of voice is that Since it is expressed only by, it is necessary to suppress the characteristic functions of the transmission environment in order to reduce the distortion between the learning speech and the recognition speech.
이와 같은 채널왜곡을 보상하는 방법으로써 한 통화 내에서는 그 채널특징이 변하지 않는다고 가정하고, 긴 구간의 음성에서 그 왜곡을 고정적인 하나의 값으로 추정하는 방법들이 공개되었다.As a method of compensating for such channel distortion, assuming that the channel characteristic does not change in a call, methods for estimating the distortion as a fixed value in a long period of speech have been disclosed.
상기 공개된 대표적인 것으로 켑스트럼 평균 차감법(CMS : Cepstral Mean Subtraction), 신호 편차 제거법(SBR : Signal Bias Removal), 켑스트럼 선형 변환법(ATC : Affine Transform of Cepstrum) 등이 있다.Representative examples disclosed above include Cepstral Mean Subtraction (CMS), Signal Bias Removal (SBR), and Affine Transform of Cepstrum (ATC).
켑스트럼 평균 차감법(CMS)은 화자가 발성한 문장들에 포함된 음소들의 종류가 균등하게 분포가 되면, 그 문장들에 분석 결과인 켑스트럼 파라미터들도 균등하게 분포된다. 따라서, 이러한 음성의 켑스트럼의 평균치는 서로 같다고 가정할 수 있다.In the cepstrum mean subtraction method (CMS), when the types of phonemes included in the speakers' uttered sentences are distributed evenly, the cepstrum parameters that are the result of the analysis are evenly distributed in the sentences. Therefore, it can be assumed that the average values of the cepstrums of the voices are the same.
만약, 전송선의 전달함수에 의해 왜곡이 된다면, 채널의 특징이 한 통화 내에서는 거의 변하지 않으므로 그 평균치만이 영향받게 된다. 따라서, 왜곡되지 않은 음성의 켑스트럼 벡터의 평균을 0이라고 가정하고, 긴 구간 음성의 켑스트럼 벡터 평균을 채널 왜곡으로 추정한다.If it is distorted by the transmission function of the transmission line, only the average value is affected since the characteristics of the channel are hardly changed in one call. Therefore, it is assumed that the average of the cepstral vectors of the non-distorted speech is 0, and the average of the cepstral vectors of the long interval speech is estimated as the channel distortion.
그리고 이를 차감한 켑스트럼 벡터를 학습과 인식에 사용한다. 즉, 이 방법은 벡터 공간에서 파라미터의 정적인 분포는 무시하고, 전송함수에 의해 왜곡되지 않는 평균과의 차이만을 특징 파라미터에 반영하고자 한다.The subtracted cepstrum vector is used for learning and recognition. In other words, this method ignores the static distribution of parameters in vector space and attempts to reflect only the difference from the mean that is not distorted by the transmission function in the feature parameter.
도 2는 켑스트럼 평균 차감법의 간단한 처리과정을 나타낸다. 학습과 인식 모두 동일하게 평균을 차감하는 과정을 거친 켑스트럼을 사용하며, 전송선에 의한 채널왜곡이 일정할 경우 특별한 배경정보의 추정과정이 필요없는 장점이 있다.2 shows a simple process of the cepstrum mean subtraction method. Both learning and cognition use cepstrum that has undergone the same deduction process, and there is no need for special background information estimation process when channel distortion by transmission line is constant.
이와 같이 켑스트럼 평균 차감법은 긴 구간의 음성의 평균만을 차감하므로 다음의 식과 같이 계산량이 많지 않고 간단하며, 일반적인 전화음성 처리에서 안정적인 결과를 보인다.As described above, the cepstrum mean subtraction method subtracts only the average of long-range speech, so that the calculation amount is not large and simple as shown in the following equation, and it shows stable results in general telephone speech processing.
또한, 음성의 길이가 긴 문장자유형 화자인식에 경우에 보다 좋은 결과를 보일 수 있다.In addition, it is possible to obtain better results in case of long sentence free speech recognition.
신호 편차 제거법(SBR)은 CMS와 같이 채널 왜곡에 의해 상수만큼의 편차가 학습자료와 인식음성간에 발생하였다고 가정하고, 최대우도 추정법(MLE: maximum likelihood estimation)에 의해 인식기의 학습에 사용된 음성자료와 특징 벡터의 분포가 가장 유사하도록 입력 벡터에서 상수 채널 편차를 추정하고 이를 차감한다. 실제로 이산 HMM을 이용한 전화음성 인식기에 적용되어 높은 성능 향상을 보인 바 있다.SBR (SBR) assumes that a constant deviation occurs between the learning data and the recognition voice due to channel distortion, like the CMS, and uses the maximum likelihood estimation (MLE) for the speech data used for learning the recognizer. The constant channel deviation is estimated and subtracted from the input vector so that the distribution of and feature vectors is most similar. In fact, it has been applied to telephone speech recognizer using discrete HMM, which shows high performance.
채널 왜곡이 켑스트럼 영역에서 고정적이라고 가정하면 전체 학습자료의 코드북에 대하여 채널 왜곡을 최소화하는 상수 편차 벡터의 값은 다음과 같다.Assuming that channel distortion is fixed in the spectral region, a constant deviation vector that minimizes channel distortion for the codebook of the entire training material. The value of is as follows.
z( ·):학습자료의 코드북에 의한 입력의 중심벡터z (·): center vector of input by codebook of study material
최대우도 추정법에 의해 반복적으로 채널 왜곡의 추정값을 찾는다.Repeated Channel Distortion by Maximum Likelihood Estimation Estimate of Find it.
도 3은 신호편차 제거법을 이용한 과정을 나타낸다. 신호 편차 제거법에서는 켑스트럼 평균 차감법에서와는 달리 학습과 인식에 사용되는 파라미터는 서로 다른 처리 과정을 거친다.3 shows a process using a signal deviation cancellation method. In the signal deviation cancellation method, unlike in the spectral mean subtraction method, the parameters used for learning and recognition go through different processes.
학습은 화자 모델의 학습과, 이에 사용된 켑스트럼 코드북 학습의 두가지 과정으로 나뉘어 진다. 화자 모델은 정규화되지 않은 켑스트럼으로 학습되고, 같은 학습 자료로 k-means 알고리즘에 의해 학습환경의 코드북을 구한다. 인식과정에서는 학습자료에 대한 입력 켑스트럼의 왜곡을 최소화하는 최적의 편차를 학습환경 코드북으로부터 구하고, 이 편차를 차감한 켑스트럼을 인식에 사용한다. 즉, 입력 음성의 출력확률은 공간상에서의 수평, 수직 변이를 허용하는 최적의 값으로 나타난다.The learning is divided into two processes: the speaker model learning and the cepstrum codebook learning. The speaker model is trained using non-normalized cepstrum, and the codebook of the learning environment is obtained by k-means algorithm with the same training data. In the recognition process, the optimal deviation from the learning environment codebook that minimizes the distortion of the input chord for the learning data is obtained, and the chordstrum that subtracts the deviation is used for recognition. That is, the output probability of the input voice is an optimal value that allows horizontal and vertical variations in space.
이 방법은 학습자료에 가장 적합한 채널함수를 추정하므로 입력음성의 길이에 의한 영향이 적다. 또한, 학습자료에 대한 왜곡이 적으면 보다 정확히 추정할 수 있으므로, 정규화에 의한 정보의 손실을 켑스트럼 평균 차감법보다 줄일 수 있다.This method estimates the best channel function for the learning materials, so it is less affected by the length of the input voice. In addition, if the distortion of the learning material is less accurate, it is possible to estimate more accurately, it is possible to reduce the loss of information by the normalization than the cepstrum mean subtraction method.
상기 종래의 채널 왜곡 보상방법 중 켑스트럼 평균 차감법(CMS)은 입력음성의 길이가 짧거나 음성에서 음소의 분포가 고르지 않을 경우 추정값의 신뢰도가 떨어지며, 음성에서 채널의 영향이 크지 않을 경우에는 화자 고유의 정적인 정보가 손실되므로 오히려 성능저하를 유발한다.In the conventional channel distortion compensation method, the cepstrum mean subtraction method (CMS) has a low reliability of the estimated value when the length of the input voice is short or the distribution of the phonemes is uneven in the voice, and when the influence of the channel in the voice is not large. The speaker's own static information is lost, causing performance degradation.
또한, 전송선에 의한 왜곡이 일정하지 않고 시간에 따라 변할 경우에는 왜곡의 추정 및 차감이 불가능하다.In addition, when the distortion by the transmission line is not constant and changes with time, estimation and subtraction of the distortion are impossible.
또한, 신호 편차 제거법(SBR)은 모든 음성구간에 대해 채널특성은 고정적이라는 가정을 따르게 되므로 시간에 따라 변하는 왜곡을 추정하는 것은 불가능하다.In addition, since the SBR follows the assumption that the channel characteristics are fixed for all speech sections, it is impossible to estimate the distortion that changes with time.
또한, 입력음성의 왜곡이 클 경우에는 정확한 채널왜곡의 추정이 어렵다는 문제점이 있다.In addition, when the distortion of the input voice is large, there is a problem that it is difficult to accurately estimate the channel distortion.
상기 보상 방법들은 전체 통화 내에서 채널 왜곡 함수가 변하지 않는다고 가정하고, 전체 통화에 대하여 동일한 채널 왜곡 보상 파라미터를 적용한다. 하지만, 화자의 특징은 개인의 발성 습관이나 사투리, 개인어와 같은 동적 특성 이외에 성도, 성대, 비강 특성과 같은 정적 특성들은 채널 특성과 마찬가지로 전체 발성에 대해서 일정하게 나타난다.The compensation methods assume that the channel distortion function does not change within the entire call, and applies the same channel distortion compensation parameter to the entire call. However, in addition to the dynamic characteristics such as personal utterance, dialect, and personal language, the speaker's characteristics such as vocal vocal cords, vocal cords, and nasal characteristics appear constant for the entire utterance as well as the channel characteristics.
따라서, 채널 특성을 제거하는 과정에서 화자 고유의 정적 특성의 손실이 발생하며, 정적이지 않고 시간에 따라 변이를 보이는 채널 왜곡의 제거는 불가능하다는 문제점이 있다.Therefore, in the process of removing the channel characteristic, the loss of the speaker's unique static characteristics occurs, and there is a problem in that it is impossible to remove the channel distortion which is not static and exhibits variation over time.
본 발명은 상기 종래기술의 문제점을 해결하기 위한 것으로써, 본 발명의 목적은 채널 왜곡의 보상과 더불어 음성에서 공통된 화자 특성을 증가시키고, 채널 왜곡은 억제하는 독립성분분석을 이용한 강인한 화자 특성 추출 방법을 제공하는데 있다.The present invention is to solve the problems of the prior art, an object of the present invention is to increase the speaker characteristics common in speech as well as compensation of channel distortion, robust robust speaker extraction method using independent component analysis to suppress channel distortion To provide.
상기 본 발명의 목적을 달성하기 위한 기술적 사상으로서, 독립성분분석을 이용하여 음성의 특징벡터를 새로운 특징공간으로 사상하는 방법으로써, 여러가지 환경에서 수집된 음성신호의 켑스트럼 벡터를 몇개의 특징함수들의 선형결합으로가정하고,As a technical idea for achieving the object of the present invention, as a method of mapping a feature vector of speech to a new feature space using independent component analysis, several feature functions of the cepstrum vectors of the speech signals collected in various environments Assuming a linear combination of
독립성분석을 이용하여 분리된 켑스트럼 벡터를 학습과 인식에 사용하는 방법이 제시된다.A method of using separated cepstrum vectors for learning and recognition using independence analysis is presented.
상기 본 발명의 새로운 벡터 영역에서는 반복적으로 나타나는 음성의 특징 정보는 강조되고, 임의로 나타나는 채널왜곡은 억제되어 켑스트럼 공간의 화자간 분별력을 향상시키고, 채널환경 변화에 대해 보다 강인한 공간으로 나타나게 할 수 있다.In the new vector region of the present invention, feature information of repeated voices is emphasized, and random channel distortions are suppressed to improve discrimination between speakers in the cepstrum space, and to appear as a more robust space against channel environment changes. have.
도 1은 전화음성의 왜곡과정에 대한 설명도이다.1 is an explanatory diagram illustrating a distortion process of telephone voice.
도 2는 켑스트럼 평균 차감법(CMS)에 대한 설명도이다.2 is an explanatory diagram for a Cepstrom average subtraction method (CMS).
도 3은 신호 편차 제거법(SBR)에 대한 설명도이다.3 is an explanatory diagram for a signal deviation cancellation method (SBR).
도 4는 본 발명의 주요과정인 입력 켑스트럼의 혼합과정에 대한 설명도이다.4 is an explanatory diagram illustrating a mixing process of an input cepstrum, which is a main process of the present invention.
도 5는 본 발명의 주요과정인 독립성분분석에 의한 영역변환효과에 대한 설명도이다.5 is an explanatory diagram of a domain transformation effect by independent component analysis, which is a main process of the present invention.
도 6은 본 발명의 독립성분분석에 의한 켑스트럼 변환 과정에 대한 설명도이다.6 is an explanatory diagram for a Cepstrum transformation process by independent component analysis of the present invention.
도 7은 변환전 원래의 켑스트럼 공간의 화자 분포도이다.7 is a speaker distribution diagram of the original cepstrum space before conversion.
도 8은 선형변환에 의한 켑스트럼 공간의 화자 분포도이다.8 is a speaker distribution diagram of a cepstrum space by a linear transformation.
도 9는 독립성분분석에 의한 전처리과정에 대한 설명도이다.9 is an explanatory diagram for a pretreatment process by independent component analysis.
이하, 본 발명의 실시예에 대한 구성 및 작용에 대하여 첨부한 도면을 참조하면서 상세히 설명하기로 한다.Hereinafter, the configuration and operation of the embodiment of the present invention will be described in detail with reference to the accompanying drawings.
본 발명은 최근 신호처리 분야에서 많은 연구가 이루어지고 있는 독립성분분석을 이용하여, 왜곡이 심한 환경에서의 강인한 화자 인식 방법을 제안하고 그 시스템의 구현에 대하여 설명하기로 한다.The present invention proposes a robust speaker recognition method in a severely distorted environment using independent component analysis, which has been studied in the field of signal processing in recent years, and describes the implementation of the system.
독립성분분석(ICA: independent component analysis)이란, 여러 가지 특징이 상이한 신호들이 선형적으로 혼합되어 있을 때, 이를 통계적인 방법을 이용하여 효과적으로 분리하는 방법을 통칭하며, 최근에 많은 연구자들의 노력에 의해 여러 분야에 적용되어 좋은 결과들을 보이고 있다.Independent component analysis (ICA) refers to a method of effectively separating a signal having a different characteristic when it is linearly mixed by using a statistical method. Applied in many fields, the results are good.
독립성분분석이란 용어는 1986년 Herault와 Jutten에 의해 처음 제안되었으며 기존의 주성분분석(PCA: principal component analysis)과 유사하다는 의미로 이름 지어졌다.The term independent component analysis was first proposed by Herault and Jutten in 1986 and was named after similarity to the existing principal component analysis (PCA).
독립성분분석이 이와 구분되는 것은 신호들간의 관련도(correlation)뿐만이 아니라 의존성(dependency)까지 최소가 되도록 분리한다는 점이다. 따라서, 독립성분분석은 주성분분석을 일반화시킨 형태로 볼 수 있다.Independent component analysis distinguishes not only the correlation but also the dependency between signals. Therefore, independent component analysis can be seen as a generalized form of principal component analysis.
독립성분분석은 고차통계(HOS: higher-order statistics), 정보 이론 (information theory) 등을 이용하여 그 통계적인 의존성을 정의할 수 있으며, 선형적인 가중치를 추정하는 신경회로망의 학습 방법에 의해 그 독립성분들을 추정하고 분리할 수 있다. 이때, 의존성을 정의하는 방법에 따라 독립성분분석의 특성이 조금씩 다른 형태로 나타나게 된다.Independent component analysis can define statistical dependencies using higher-order statistics (HOS), information theory, etc., and its independence by neural network learning methods that estimate linear weights. You can estimate and separate people. In this case, depending on the method of defining the dependency, the characteristics of the independent component analysis appear in slightly different forms.
독립성분분석의 대표적인 응용분야들로 잡음 제거 및 분리, 음질 개선 등의 음성 처리 분야와 여러 가지 영상 처리 분야 및, 컴퓨터 단층 촬영 영상을 분석하는 의학 분야 등을 예로 들 수 있다.Typical applications of independent component analysis include voice processing such as noise removal, separation, and sound quality improvement, various image processing fields, and medical fields analyzing computed tomography images.
또한, 복잡한 패턴에서 대표적인 특징 값을 추출하거나, 구분이 모호한 성분들을 강조하는 방법 등의 일반적인 패턴 인식에 관련되어 응용되기도 하였다.In addition, it has been applied to general pattern recognition, such as extracting representative feature values from complex patterns or emphasizing ambiguity.
본 발명에서는 독립성분분석을 이용하여 음성의 특징 벡터를 새로운 특징 공간으로 사상하는 방법으로, 왜곡이 심한 전화음성의 화자 식별기의 성능을 향상시키는 방법을 제안하였다.In the present invention, as a method of mapping a feature vector of speech to a new feature space using independent component analysis, a method of improving the performance of a speaker identifier of a severely distorted telephone speech is proposed.
먼저, 화자의 특징을 나타내는 켑스트럼 벡터 공간을 채널 왜곡에 의한 공간의 분별력 감소에 강인한 공간으로 변환한다. 새롭게 변이된 공간에서는 음성의 특징은 강조되며, 화자간의 구분이 뚜렷하지 않은 분포들은 서로 분리되는 특성을 보일 수 있다. 따라서, 전화음성과 같이 왜곡이 심한 음성의 경우, 손실된 정보에 의한 화자공간의 분별력 감소에 강인한 특성을 가지는 새로운 특징 공간을 얻을 수 있다.First, the cepstrum vector space representing the speaker's characteristics is transformed into a space robust to the reduction of the discriminant power due to channel distortion. In the newly transformed space, the features of speech are emphasized, and distributions with indistinguishable distinction between speakers can be distinguished from each other. Therefore, in the case of a severely distorted voice such as a telephone voice, it is possible to obtain a new feature space having a strong characteristic in reducing the discrimination of the speaker space due to lost information.
즉, 본 발명의 실시예는 전화음성의 채널 변이에 강인한 공간으로 특징 파라메터를 변환하는 방법으로 강인한 화자 식별 방법인 독립성분분석을 이용한 켑스트럼 벡터 변환(CVTICA :cepstrum vector transformation using independent component analysis) 방법에 의해서 구현된다.In other words, an embodiment of the present invention is a method for transforming feature parameters into a space robust to channel variation of a telephone voice, and employs cepstrum vector transformation using independent component analysis (CVTICA). Implemented by the method.
독립성분분석(ICA: independent component analysis)에 대하여 좀 더 구체적으로 설명하면, 특징이 상이한 둘 이상의 신호들이 선형적으로 혼합되어 구성된 확률벡터(random vector)를 통계적인 방법에 따라 서로 독립적인 신호들로 분리하는 것을 통칭한다. 즉, 임의의 신호들을 몇개의 신호의 가중치가 곱해진 혼합으로 가정하고, 정보이론(information theory)에 기반하여 혼합된 여러 신호들간의 의존성을 정의한다.In more detail, ICA (independent component analysis) is described. A random vector composed of linearly mixed two or more signals having different characteristics into independent signals according to a statistical method. It is also known as separating. In other words, it is assumed that arbitrary signals are mixed multiplied by the weights of several signals, and the dependencies between the mixed signals are defined based on information theory.
그리고, 신경회로망에 사용되는 학습 방법에 따라 신호들간의 의존성이 최소가 되는 가중치를 추정하여 통계적으로 독립적인 신호들을 얻을 수 있다. 특히, 여러 사람의 음성이 섞인 신호를 개인의 음성들로 분리하는 칵테일 파티 문제(cocktail party problem)의 해결책으로 주목되고 있다.In addition, according to a learning method used for neural networks, statistically independent signals may be obtained by estimating a weight at which the dependency between signals is minimal. In particular, it is drawing attention as a solution to the cocktail party problem that separates the mixed voice signals into individual voices.
먼저개의 확률변수(random variable)들이개의 확률적으로 독립적인 변수들의 선형결합(linear combination)으로 이루어졌다고 가정한다. q는 p보다 작지 않으며 평균은 0인 확률변수들이다. 이 확률변수들은 두 개의 확률벡터(random vector)와를 구성하며,는와 혼합행렬의 곱으로 표현되어 진다. 이때 약간의 오류와 상수편차가 가미됨을 가정한다.first Random variables Enter Probability-independent variables It is assumed that the linear combination of these is made. q are random variables that are not less than p and whose mean is zero. These random variables are two random vectors Wow Constitute Is And mixed matrix It is expressed as the product of. It is assumed that some errors and constant deviations are added.
독립성분분석의 목적은 원래의 벡터와 선형혼합행렬의 추정치를 구하는 것이다.를의 추정치,를의 추정치로 표현하면 수학식 6은 다음의 식으로 바꾸어 쓸 수 있다.The purpose of the independent component analysis is to And linear mixed matrix Is to obtain an estimate of. To Estimate of, To Equation 6 can be replaced by the following equation.
따라서,대신 관찰신호를 독립신호로 변환하는를 구함으로써 독립성분분석의 해를 얻을 수 있다.therefore, Instead, the observation signal is converted into an independent signal. The solution of the independent component analysis can be obtained by
통계적인 독립성은 추정된 독립성분들의 결합 엔트로피와 각각의 엔트로피의 차로 계산할 수 있으며, 이를 상호정보(mutual information)로 정의한다.Statistical independence can be calculated as the difference between the estimated entropy of combined entropy and each entropy, which is defined as mutual information.
또한, 추정성분들과 같은 공분산과 평균을 가지는 정규분포로 추정한 음정규화 엔트로피(negentropy: negative normalized entropy)로 상호정보를 계산할 수 있다.In addition, the mutual information may be calculated using negative normalized entropy estimated by a normal distribution having a covariance and an average such as the estimated components.
는의 공분산 행렬이며,는 새논(Shannon)의 정의에 따른 엔트로피이다. 이렇게 정의된 상호 정보를 최소화하는 가중치들은 각 성분들의 결합확률을 최소화 할 수 있으며, 이 때의 분리행렬는 성분들 간의 독립성을 최대화하는 계수들이다. 또한, 네그엔트로피는 비선형의 고차 누적분포 함수에 의해 추정할 수 있다. 이러한 추정함수들을로 표현한다. Is Is the covariance matrix of Is the entropy according to Shannon's definition. The weights that minimize the mutual information defined in this way can minimize the probability of combining each component, and the separation matrix at this time Are coefficients that maximize independence between components. In addition, negtropy can be estimated by a nonlinear higher-order cumulative distribution function. These estimation functions Expressed as
는 대비함수(contrast function)로 정의된다. 독립성분의 분리행렬은 식 9의 대비함수를 이용하여 추정된 네그 엔트로피로부터 구할 수 있고, 분리된 독립성분들은 대비함수에 의해 특징지어진다. Is defined as the contrast function. The separation matrix of the independent components can be obtained from the estimated Neg entropy using the contrast function of Equation 9, and the separated independent components are characterized by the contrast function.
다음은 본 발명의 켑스트럼의 선형혼합 과정을 설명한다.The following describes the linear mixing process of the cepstrum of the present invention.
본 발명의 방법에서는 주로 혼합된 신호들을 분리하는 데 사용되는 독립성분분석을 화자의 특징 벡터인 켑스트럼 파라미터에 적용하여, 채널 왜곡에 강인한 특징을 추출한다. 즉, 공통되는 신호는 강조하고 상이한 신호는 억제하는 독립성분분석의 특징을 이용하여, 일반적인 전화음성에서 음성신호는 강조하고 임의로 나타나는 채널 신호는 억제하는 선형변환을 추정한다.In the method of the present invention, the independent component analysis, which is mainly used to separate the mixed signals, is applied to the spectral parameter, which is the speaker's feature vector, to extract a feature robust to channel distortion. In other words, by using independent component analysis that emphasizes a common signal but suppresses a different signal, a linear transformation is estimated to emphasize a voice signal and suppress a randomly appearing channel signal in a general telephone voice.
그리고, 새로운 공간의 켑스트럼 벡터를 학습과 식별에 사용하면, 화자들의 구분이 뚜렷하고, 채널에 의한 화자 모델의 왜곡을 최소화할 수 있다.In addition, when a new spatial cepstrum vector is used for learning and identification, distinction of speakers can be made clear and distortion of the speaker model by channels can be minimized.
도 4는 입력 켑스트럼의 혼합과정을 나타낸 것이다.4 shows the mixing process of the input cepstrum.
도 5는 독립성분분석에 의한 영역변환의 효과로써, (a)는 채널 왜곡과 공간의 겹침으로 인한 잘못된 화자 모델링을 나타낸 것이고, (b)는 각 성분의 분리로 뚜렷하게 구분된 화자 모델링을 나타낸 것이다.FIG. 5 shows the effect of region transformation by independent component analysis, (a) shows wrong speaker modeling due to channel distortion and overlapping space, and (b) shows speaker modeling clearly distinguished by separation of each component. .
전술한 종래의 채널 보상방법들의 가정을 다시 정리해 보면,To recapitulate the assumptions of the conventional channel compensation methods described above,
첫번째로 매 통화시 변경되는 연결 경로에 따라 채널의 왜곡되는 함수의 특성이 바뀐다는 것이다. 하지만 화자식별기는 채널에 대해 정확한 정보를 얻을 수 없으므로, 정확한 채널 왜곡함수들을 계산해 내는 것은 실제로 불가능하다.The first is that the nature of the distorted function of the channel changes depending on the connection path that changes with each call. However, because the speaker identifier cannot obtain accurate information about the channel, it is practically impossible to calculate the correct channel distortion functions.
두번째로, 연결된 한 통화 내에서는 그 특성이 거의 일정하다는 것이다. 즉, 채널 왜곡은 전체 통화에서 일정하며, 음성의 변화에 비해 매우 느리게 변한다는 것이다. 이 역시 전화음성에 몇 가지의 서로 다른 채널 특성 함수들이 포함되어 있는지 알 수 없으며, 이와 더불어 존재하는 음성의 특징을 나타내는 전달함수들 간에도 서로 구분이 명확하지 않다.Secondly, the characteristics are almost constant within a connected call. In other words, channel distortion is constant throughout the call and changes very slowly compared to the change in voice. Again, it is not known how many different channel characteristic functions are included in the telephone voice, and the distinction between the transfer functions representing the existing voice characteristics is not clear.
따라서, 여기서는 그 숫자를 임의의 고정된 숫자로 가정한다. 즉, 전화음성의 켑스트럼을 나타내는 식 2는 다음과 같이 임의의 숫자의 특성 함수들의 합으로 표현할 수 있다.Therefore, it is assumed here that the number is any fixed number. That is, Equation 2 representing the cepstrum of telephone speech may be expressed as a sum of characteristic functions of arbitrary numbers as follows.
상기 식 10에 따라 켑스트럼은 여러 가지 음성의 전달함수와 채널 왜곡 함수들의 합으로 표현된다. 그리고, 그 결과인 켑스트럼이개의 다른 성분들로 구성된다. 따라서, 이렇게 서로 특징이 통계적으로 구분되는 함수들은 벡터 공간에서개의 함수들의 선형 혼합(linear combination)으로 가정한다.In accordance with Equation 10, the cepstrum is expressed as a sum of various speech transfer and channel distortion functions. And the resulting chop strum It consists of four different components. Thus, these statistically distinct functions are defined in vector space Assume a linear combination of two functions.
가정 1.Assumption 1.
p차 켑스트럼은 성도의 특성을 표현하는 p개의 통계적으로 독립적인 전달함수들의 선형혼합이다.The p-order cepstrum is a linear mixture of p statistically independent transfer functions representing the character of the saints.
실제로는 이보다 많거나 적을 수 있으며, 그 구분 또한 명확하지 않다. 가정 1에 따라 켑스트럼은 식 6의 선형 혼합 모델의 하나로 생각할 수 있다.In practice, there may be more or less than this, and the distinction is not clear. By hypothesis 1, the cepstrum can be thought of as one of the linear mixed models of equation (6).
식별을 위해서는 식 10에서 음성의 특징을 나타내는 성도 전달함수만이 중요하며 채널 왜곡은 억제시켜야 한다. 켑스트럼에 포함되는 채널 전달함수들은 한 통화 내에서는 고정적이지만 서로 다른 통화 사이에서는 연관관계가 없다. 또한, 한 통화 내에서도 조금씩 느리게 변하는 특성을 가지고 있다.To identify, the vocal tract transfer function that characterizes the voice in Only important and channel distortion Should be suppressed. The channel transfer functions included in the cepstrum are fixed within one call but are not related between different calls. It also has the characteristic of changing slowly little by little within a currency.
따라서, 충분히 많은 환경에서 수집된 전화음성의 켑스트럼에 포함된 채널 전달함수들의 평균을, 한 통화에 대해서 0으로 정규화하면 가우시안 분포를 따르는 난수 잡음(Gaussian random noise)으로 간주할 수 있다.Therefore, the average of the channel transfer functions included in the cepstrum of telephone speech collected in a sufficient number of environments can be regarded as Gaussian random noise following a Gaussian distribution by normalizing to zero for one call.
가정 2Home 2
전화음성의 켑스트럼 벡터에 포함된 채널 왜곡의 동적인 변이는 가우시안의 분포를 따르는 잡음의 성질을 갖는다.The dynamic variation of the channel distortions contained in the phonetic spectral vectors has the property of noise following the Gaussian distribution.
즉, 식 6의은 평균이으로 정규화된 채널 왜 곡함수이고, 이는 가우시안 잡음으로 가정된다. 하지만에 포함된 음성의 전달함수는 서로 다른 통화에서도 공통적인 특징을 가지고 있다.That is, Is average Normalized Channel Distortion Function This is assumed to be Gaussian noise. However Transfer function of voice included in Has common features in different currencies.
따라서, 다양한 환경의 전화음성의 켑스트럼 벡터들이 독립성분분석 과정을 거치면 공통적인 음성의 특징함수들은 공간상에서 뚜렷하게 분리되고, 채널 함수들은 첨가되는 잡음으로 간주되어 억제된다.Therefore, when the cepstrum vectors of the phonetic voices of various environments undergo independent component analysis, the common voice feature functions are clearly separated in space, and the channel functions are regarded as added noise and suppressed.
따라서, 도 5와 같은 환경변이에 강인한 새로운 켑스트럼 공간을 얻을 수 있다. 또한, 독립성분분석은 원점을 중심으로 변환되는 선형변환 행렬을 추정하기 때문에 입력 켑스트럼 공간에 상수 채널 왜곡이 존재하는 경우, 최적의 선형분리 행렬을 얻기 어렵다. 따라서, 켑스트럼 공간의 전체 평균이 0이 되도록 평균을 차감한 후 그 선형변환 행렬을 추정한다.Therefore, a new cepstrum space that is robust to environmental variations as shown in FIG. 5 can be obtained. In addition, the independent component analysis estimates the linear transformation matrix transformed around the origin, and thus, it is difficult to obtain an optimal linear separation matrix when constant channel distortion exists in the input cepstrum space. Accordingly, the linear transformation matrix is estimated after subtracting the average so that the overall mean of the cepstrum space becomes zero.
다음은 본 발명의 실시예의 주요과정인 변환과정에 대하여 설명하기로 한다.The following describes the conversion process, which is the main process of the embodiment of the present invention.
도 6은 본 발명의 독립성분분석에 의한 켑스트럼 변환과정(CVTICA)을 나타낸것이다.Figure 6 shows the Cepstrum transformation process (CVTICA) by the independent component analysis of the present invention.
상기 가정 2의 t를 가우시안 잡음으로 처리하기 위해서는 일반적인 왜곡의 음성에서 혼합행렬을 구해야 한다. 그리고 그 변환의 역변환을 통해 얻은 강인한 공간의 켑스트럼으로 학습과 식별을 수행한다. 이러한 강인한 공간의 켑스트럼을 상기 식 11의으로 가정한다. 실제로 최적의 혼합행렬를 구할 수 없으므로, 독립성분분석을 통해 그의 역변환 행렬를 추정한다. 그러면 추정된 행렬은 혼합행렬의 역행렬이 아니라, 각 성분들의 순서가 섞이고 크기가 다른 행렬이 추정된다.In order to process t of Gaussian 2 as Gaussian noise, a mixed matrix must be obtained from speech of general distortion. And we perform the learning and identification with the strong spatial cepstrum obtained through the inverse transformation of the transformation. This robust space cepstrum is Assume In fact, the best mixed matrix Since we cannot find, its inverse transformation matrix through independent component analysis Estimate The estimated matrix is then the inverse of the mixed matrix. Rather, matrices of different ordering components and different sizes are estimated.
상기 식에서는 행들의 순서를 바꾸는 교환행렬이고,는 행들의 크기를 맞추는 대각행렬이다. 독립성분분석과정에서 채널의 특징은 평균이 0인 가우시안 잡음 t[n]으로 간주되어 억제되고, 구분이 모호한 음성의 전달함수들은 서로 독립적인 성분들끼리 분리되기 때문에 벡터공간에서 뚜렷이 구분되는 행렬로 얻어지게 된다.In the above formula Is an exchange matrix that changes the order of the rows, Is a diagonal matrix that fits the size of the rows. In the independent component analysis, the channel characteristics are considered as Gaussian noise t [n] with a mean of 0 and suppressed. Will be obtained.
따라서 상기 가정 1의 일반적인 전화음성에서 독립성분 분리 행렬로 얻은 선형 변환 켑스트럼은 채널변이에 강인하고 벡터 공간의 분별력이 높은 특징으로 얻을 수 있다. 그러면, 새로운 켑스트럼을 HMM과 같은 확률 모델에서 특징 벡터로 사용하기 위해서는 새로운 영역에서 두 벡터간의 거리를 정의해야 한다.에 의해 선형 변환된 새로운 켑스트럼 벡터 영역에서의 거리와 변환되기 전의 켑스트럼의 거리와의 관계는 다음 식에서 얻을 수 있다.Therefore, the linear transform cepstrum obtained by independent component separation matrix in general telephone speech of hypothesis 1 Can be obtained by the robustness of channel variation and high discrimination of vector space. Then, in order to use the new cepstrum as a feature vector in a probabilistic model such as HMM, it is necessary to define the distance between the two vectors in the new region. The relationship between the distance in the new cepstral vector region linearly transformed by the cepstral distance before the transformation can be obtained from the following equation.
즉, 두 켑스트럼 벡터 사이의 거리를 계산할 때 행렬를 두 벡터의 사이에 곱하는 Mahalanobis 거리와 비슷한 형태의 거리 척도를 얻을 수 있다. Mahalanobis 거리는의 형태로 나타나며, 이때의 행렬는 공분산 행렬로 주로 대각행렬로 근사된다. 따라서, 상기 식 13의 거리척도는 Mahalanobis 거리의 특별한 형태이다.That is, the matrix when computing the distance between two We can get a distance measure similar to the Mahalanobis distance, which is multiplied by two vectors. Mahalanobis street In the form of Is a covariance matrix, usually approximated diagonally. Thus, the distance scale in Equation 13 above is a special form of Mahalanobis distance.
상기의 과정들은 다음의 알고리즘 CVTICA와 같이 정리할 수 있다.The above processes can be summarized as follows algorithm CVTICA.
a. 여러가지 환경의 화자들의 학습자료에서 독립성분분석 추정 알고리즘에 따라 변환 행렬를 구한다.a. Transformation Matrix According to Independent Component Analysis Estimation Algorithm in Speakers' Learning Materials of Various Environments Obtain
b.←: 입력 켑스트럼에서 평균을 차감한다.b. ← : Subtract the mean from the input column.
c.←: a에서 구한 행렬로 변환한다.c. ← Convert to the matrix found in a.
d. 학습과 식별에 새로운 변환 켑스트럼를 사용한다.d. New transformation cepstrum in learning and identification Use
도 7과 도 8은 원래의 켑스트럼과에 의해 변환된 켑스트럼을 나타낸다. 즉, 도 7은 원래의 켑스트럼 공간의 화자분포도를 나타내고, 도 8은 선형 변환에 의한 켑스트럼 공간의 화자분포도를 나타낸다.7 and 8 show the original cepstrum The cepstrum converted by That is, FIG. 7 shows the speaker distribution diagram of the original cepstrum space, and FIG. 8 shows the speaker distribution diagram of the cepstrum space by linear transformation.
상기 도7 및 도 8에서 `+'로 나타낸 것은 남성화자의 켑스트럼을 나타낸 것이고, `o'로 나타낸 것은 여성화자의 켑스트럼을 나타낸 것이다. 5차와 6차의 성분값만을 가지고 2차원으로 표현하였다.In FIG. 7 and FIG. 8, '+' indicates a cepstrum of a male speaker, and 'o' indicates a cepstrum of a female speaker. Only the fifth and sixth component values are expressed in two dimensions.
도 7의 경우, 전체 분포가 모여 있지 않고 많이 퍼져 있으며, 두 화자간의 구분이 명확하지 않다. 반면에 도 8의 경우, 각 화자의 분포가 많이 모여 있는 형태를 보이며 두 화자간의 분별력도 크게 향상된 형태를 보인다. 따라서, 본 발명의 방법은 화자 분별력 향상에 효과적임을 알 수 있다.In the case of Figure 7, the entire distribution is not gathered, but spread a lot, the distinction between the two speakers is not clear. On the other hand, in the case of Figure 8, the distribution of each speaker is shown a lot of form and the discrimination between the two speakers also shows a greatly improved form. Therefore, it can be seen that the method of the present invention is effective for improving speaker discrimination.
이상에서 설명한 CMS, SBR과 선형변환 추정법은 새로운 켑스트럼의 특별한 형태들이며, 변환 행렬들과 상수편차 추정방법들에 의해 구분된다.CMS, SBR, and linear transformation estimation methods described above are new These are special forms of and are distinguished by transformation matrices and constant deviation estimation methods.
기존의 채널 정규화 방법들은 음성신호의 특징을 이용하여 채널신호를 억제하고 음성신호를 강조한다. 본 발명의 실시예 방법은 통계적이고 패턴분석적인 관점에서 벡터 공간의 분별력을 높이고 채널신호를 억제하였다.Existing channel normalization methods suppress the channel signal and emphasize the voice signal using the characteristics of the voice signal. The method of the embodiment of the present invention increases the discrimination ability of the vector space and suppresses the channel signal from a statistical and pattern analysis point of view.
도 9는 본 발명의 구축된 화자식별 시스템의 전처리 부분을 나타낸다. 독립 켑스트럼으로의 변환 행렬는 임의의 입력 켑스트럼에 대한 변이를 흡수하기 위해 전체 화자들의 학습자료들을 독립성분 행렬의 추정에 사용한다. 이렇게 변환된 독립 켑스트럼은 학습과 인식에 모두 동일한 방식으로 사용한다.9 shows a preprocessing part of the built-in speaker identification system of the present invention. Transformation matrix to independent columns Uses the entire speaker's learning data to estimate the independent component matrices to absorb variations for any input cepstrum. The transformed independent cepstrum is used in the same way for both learning and perception.
화자의 분포 모델링을 위해서는 연속형 HMM의 특별한 형태인 HMVQM (hidden Markov VQ-codebook model)을 사용한다.For modeling speaker distribution, we use the HMVQM (hidden Markov VQ-codebook model), a special form of continuous HMM.
HMM의 관측확률을 정규분포의 가중합으로 추정하는 연속형 HMM과는 달리, 이 모델에서는 다음 식과 같이 최소 벡터양자화 거리로 정의한다.Unlike continuous HMMs, which estimate the observed probabilities of HMMs as the weighted sum of the normal distributions, this model defines the minimum vector quantization distance as
문장독립형 화자식별 시스템을 구축하기 위해, HMM의 연결구조는 모든 상태쌍간에 연결이 존재하는 완전연결구조(ergodic topology)를 사용한다. 학습된 HMM에서 가능한 상태천이는 학습자료에서 발생하는 모든 음소열을 확률적으로 사상할 수 있다. 이로써 상태천이는 대분류 음소열을 사상하게 된다.To construct a statement-independent speaker identification system, the HMM's connection structure uses an ergodic topology where connections exist between all state pairs. The possible state transitions in the learned HMM can stochasticly map all phoneme sequences occurring in the learning material. As a result, state transitions map major phonemes.
이상에서 설명한 바와 같이, 종래의 채널 보상 방법들은 채널 왜곡이 한 통과에 대해서 고정적이라고 가정하고 추정하기 때문에 전체 음성에서 정적인 화자 정보의 손실을 가져올 수 있으며, 시간에 따라 변하는 채널 왜곡의 해결은 불가능한 점을 감안하여, 전화 음성과 같이 왜곡이 심한 음성에서 화자 식별기의 성능 향상을 위한 방법을 화자의 특징 공간인 켑스트럼 벡터를 독립성분분석을 통해 변환된 켑스트럼으로 학습과 인식을 수행함으로써 화자의 인식률을 현저하게 향상시키는 효과가 있다.As described above, the conventional channel compensation methods assume that channel distortion is fixed for one pass, and thus may cause loss of static speaker information in the entire speech, and it is impossible to solve channel distortion that changes over time. In view of this, we can learn how to improve the performance of the speaker identifier in speech that is severely distorted, such as telephone voice, by learning and recognizing the cepstrum vector, which is the speaker's characteristic space, with the transformed spectrum through independent component analysis. There is an effect of significantly improving the speaker's recognition rate.
상기 효과를 입증하기 위해서 문장 독립형 화자인식 연구에 널리 쓰이고 있는 실제 장거리 전화음성 자료인 SPIDRE로 실험을 수행하였다.In order to prove the effect, the experiment was conducted with SPIDRE, which is a real long distance voice data widely used in the sentence-independent speaker recognition study.
또한, 채널 보상의 효과를 검증하기 위해서 학습 자료와 실험 자료의 채널이동일한 경우와 상이한 경우로 분류하여 기존의 방법들과 그 성능을 비교하여 보았다.In addition, in order to verify the effect of channel compensation, we compared the performance of the existing methods by classifying them into different cases from those of the same channel of learning and experimental data.
기존의 방법들은 동일 채널의 경우, 채널 보상을 수행하지 않은 기본 시스템보다 인식률이 많게는 10%까지 떨어진 반면, 제안된 방법은 그 성능이 저하되지 않았으며, 공간 분별 능력의 향상으로 오히려 6% 정도 인식률이 향상되는 경우도 보였다.Conventional methods have the recognition rate up to 10% higher than that of the basic system without channel compensation in the same channel, whereas the proposed method has not deteriorated its performance. This was also seen when it was improved.
또한, 상이 채널의 경우 기존의 채널보상 방법들과 제안된 방법 모두, 채널 보상을 수행하지 않은 기본 시스템보다 현저하게 인식률이 향상되었다. 이와 함께, 제안된 방법은 기존의 채널 보상 방법들에 비해 모든 시스템 환경에서 9%에서 15%까지 인식률이 향상되었다.In addition, in the case of a different channel, both the existing channel compensation methods and the proposed method have significantly improved the recognition rate compared to the basic system that does not perform channel compensation. In addition, the proposed method improves the recognition rate from 9% to 15% in all system environments compared to the existing channel compensation methods.
이는 본 발명의 방법이 기존의 방법들을 일반화하면서 보다 분별력이 높은 공간으로 변환함으로써, 순간적인 채널 왜곡에 의한 잘못된 화자 모델화를 방지하였기 때문에, 채널 환경 변화에 대해 보다 우수한 강인성을 가지기 때문이다.This is because the method of the present invention transforms into a more discreet space while generalizing the existing methods, thereby preventing erroneous speaker modeling due to instantaneous channel distortion, and thus, has better robustness against channel environment changes.
본 발명의 화자식별 방법은 일반적인 특징 공간에서의 변환을 다루고 있기 때문에 화자인식기 뿐만 아니라 다른 음성인식 분야에서도 적용하는 것이 가능하다.Since the speaker identification method of the present invention deals with the conversion in the general feature space, it can be applied not only to the speaker recognizer but also to other speech recognition fields.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990043332A KR100329596B1 (en) | 1999-10-08 | 1999-10-08 | Text-Independent Speaker Identification Using Telephone Speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990043332A KR100329596B1 (en) | 1999-10-08 | 1999-10-08 | Text-Independent Speaker Identification Using Telephone Speech |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010036358A KR20010036358A (en) | 2001-05-07 |
KR100329596B1 true KR100329596B1 (en) | 2002-03-21 |
Family
ID=19614416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990043332A KR100329596B1 (en) | 1999-10-08 | 1999-10-08 | Text-Independent Speaker Identification Using Telephone Speech |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100329596B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101647059B1 (en) | 2015-03-18 | 2016-08-10 | 서강대학교산학협력단 | Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100435441B1 (en) * | 2002-03-18 | 2004-06-10 | 정희석 | Channel Mis-match Compensation apparatus and method for Robust Speaker Verification system |
KR100653173B1 (en) * | 2005-11-01 | 2006-12-05 | 한국전자통신연구원 | Multi-channel blind source separation mechanism for solving the permutation ambiguity |
KR100779242B1 (en) * | 2006-09-22 | 2007-11-26 | (주)한국파워보이스 | Speaker recognition methods of a speech recognition and speaker recognition integrated system |
CN113793614B (en) * | 2021-08-24 | 2024-02-09 | 南昌大学 | Speech feature fusion speaker recognition method based on independent vector analysis |
-
1999
- 1999-10-08 KR KR1019990043332A patent/KR100329596B1/en not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101647059B1 (en) | 2015-03-18 | 2016-08-10 | 서강대학교산학협력단 | Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition |
Also Published As
Publication number | Publication date |
---|---|
KR20010036358A (en) | 2001-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100908121B1 (en) | Speech feature vector conversion method and apparatus | |
Mammone et al. | Robust speaker recognition: A feature-based approach | |
Shao et al. | An auditory-based feature for robust speech recognition | |
TW201935464A (en) | Method and device for voiceprint recognition based on memorability bottleneck features | |
CN108922544B (en) | Universal vector training method, voice clustering method, device, equipment and medium | |
Bahl et al. | Multonic Markov word models for large vocabulary continuous speech recognition | |
CN108108357B (en) | Accent conversion method and device and electronic equipment | |
KR20080078466A (en) | Multi-stage speech recognition apparatus and method | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
JP3189598B2 (en) | Signal combining method and signal combining apparatus | |
CA2492204A1 (en) | Similar speaking recognition method and system using linear and nonlinear feature extraction | |
Mokbel et al. | Towards improving ASR robustness for PSN and GSM telephone applications | |
CN111489763B (en) | GMM model-based speaker recognition self-adaption method in complex environment | |
CN111899750B (en) | Speech enhancement algorithm combining cochlear speech features and hopping deep neural network | |
CN107103913B (en) | Speech recognition method based on power spectrum Gabor characteristic sequence recursion model | |
CN113516987B (en) | Speaker recognition method, speaker recognition device, storage medium and equipment | |
KR100897555B1 (en) | Apparatus and method of extracting speech feature vectors and speech recognition system and method employing the same | |
KR100329596B1 (en) | Text-Independent Speaker Identification Using Telephone Speech | |
Wang et al. | Robust speech recognition from ratio masks | |
JPH0486899A (en) | Standard pattern adaption system | |
Li et al. | How to make embeddings suitable for PLDA | |
Solé-Casals et al. | A non-linear VAD for noisy environments | |
JP2000259198A (en) | Device and method for recognizing pattern and providing medium | |
Techini et al. | Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK) | |
Kathiresh et al. | AUTOMATIC SPEECH RECOGNITION USING MODIFIED PRINCIPAL COMPONENT ANALYSIS AND ENHANCED CONVOLUTION NEURAL NETWORK |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080229 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |