KR100435441B1 - 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 - Google Patents

사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 Download PDF

Info

Publication number
KR100435441B1
KR100435441B1 KR10-2002-0014492A KR20020014492A KR100435441B1 KR 100435441 B1 KR100435441 B1 KR 100435441B1 KR 20020014492 A KR20020014492 A KR 20020014492A KR 100435441 B1 KR100435441 B1 KR 100435441B1
Authority
KR
South Korea
Prior art keywords
center value
difference
equation
speaker
value
Prior art date
Application number
KR10-2002-0014492A
Other languages
English (en)
Other versions
KR20030075330A (ko
Inventor
정희석
진세훈
Original Assignee
정희석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정희석 filed Critical 정희석
Priority to KR10-2002-0014492A priority Critical patent/KR100435441B1/ko
Publication of KR20030075330A publication Critical patent/KR20030075330A/ko
Application granted granted Critical
Publication of KR100435441B1 publication Critical patent/KR100435441B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 학습시와 인식시의 채널 불일치 조건을 공통 코드북 센터의 평균값과 개인 코드북 센터의 평균값 차이를 보상함으로써, 화자 인증의 성공률을 보다 향상시키는 채널 불일치 보상 장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 사용자 이동성을 고려한 화자 확인 시스템에서의 학습시와 확인시의 채널 불일치 보상 장치에 있어서, 입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 초기화 수단; 공통 코드북의 평균 센터값과 상기 초기화 수단에 의하여 설정된 중심값과의 차이(

Description

사용자 이동성을 고려한 화자 인식에서의 채널 불일치 보상 장치 및 그 방법 {Channel Mis-match Compensation apparatus and method for Robust Speaker Verification system}
본 발명은 사용자 이동성을 고려한 화자 인식에서의 채널 불일치 보상 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 학습시와 인식시의 채널 불일치 조건을 공통 코드북 센터의 평균값과 개인 코드북 센터의 평균값 차이를 보상함으로써, 화자 인증의 성공률을 보다 향상시키는 채널 불일치 보상 장치 및 그 방법에 관한 것이다.
화자 인식 기술은 대상 화자의 수에 따라, 화자 확인(Speaker Verification) 방법 및 화자 식별(Speaker Identification) 방법으로 나눌 수 있다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고, 도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도로서, 이를 설명하면 다음과 같다.
먼저, 화자 확인 방법을 설명하면, 다음과 같다.
스텝 S101에서, 확인하고자 하는 화자의 음성이 입력되면, 스텝 S103에서, 상기 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로, 스텝 S105에서, 입력된 화자가 자신의 ID를 입력시키면, 스텝 S106에서, 입력된 화자 ID의 화자 모델을 생성한다.
이어서, 스텝 S107에서, 상기 추출된 음성의 특징 벡터와 상기 생성된 화자 모델의 유사도를 계산한 후, 스텝 S109에서, 입력된 음성과 화자 ID가 서로 일치하는지 여부를 임계치를 이용하여 판단한다.
그리고, 스텝 S111에서, 상기 일치 결과를 출력한 후, 종료한다.
도 1b에 도시되어 있는 화자 식별 방법을 설명하면 다음과 같다.
먼저, 스텝 S151에서, 식별하고자 하는 음성이 입력되면, 스텝 S153에서, 입력된 음성의 특징 벡터를 추출한다. 한편, 별도로 스텝 S155에서, N 개의 화자 모델이 입력된다.
이어서, 스텝 S157에서, 상기 추출한 입력 음성의 특징 벡터와 상기 N 개의 화자 모델간의 유사도를 계산한다. 이때, 유사도의 계산은 상기 N 개의 화자 모델을 일일이 상기 입력 음성의 특징 벡터와 수행하기 때문에, 최종 결과값은 N 개의 유사도 값이다.
그리고, 스텝 S159에서, 상기 N 개의 유사도 값 중에서 최대 유사도 값을 선택한 후, 스텝 S161에서, 화자 식별 결과값을 출력하고, 종료한다.
화자 확인 방법을 좀 더 상세하게 설명하면, 다음과 같다.
화자 확인 알고리즘은 일반적인 패턴 인식 시스템의 과정을 따른다. 즉, 인식하고자 하는 객체의 특성을 표현하는 특징들이 주어졌을 때, 이러한 객체에 대한 사전 지식을 바탕으로 객체를 인식하는 것을 목표로 한다.
일반적 패턴 인식 시스템은 훈련, 테스트 및 구현의 단계를 거쳐서 완성되는데, 훈련 단계에서는 주어진 객체에 대한 특징들과 실제 객체와의 관계를 대응시키면서 객체에 대한 모델 파라미터들을 추정하는 단계이고, 테스트 단계에서는 많은데이터를 이용한 테스트를 통하여 모델을 조절하거나 적응시키는 단계이다. 마지막으로, 구현 단계는 실제 적용되는 단계로서, 알려지지 아니한 객체에 대한 특징들을 입력받아서 모델링된 객체와의 관계를 판별하게 된다.
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도로서, 이를 상세히 설명하면 다음과 같다.
개념적인 패턴 인식 시스템은 크게 나누어 특징 추출기(Feature Extractor) 및 분류기(Classifier)로 구성되는데, 좀 더 구체적인 과정을 덧붙인 일반적인 화자 확인 방법은 도 2와 같이 구성될 수 있다.
(1) 전처리 과정(S201) : 전처리 과정이란 입력단을 통하여 들어오는 각각의 화자의 음성 정보를 이용하여 시스템에서의 화자에 대한 변별도를 높이기 위한 특징 파리미터(Feature Parameter)를 추출 및 처리하는 것으로서, 이러한 전처리 과정은 입력된 음성의 구간을 추출하고 분절하는 단계, 음성 및 화자 특징 파라미터를 추출하는 두 단계로 세분화될 수 있다.
이때, 특징 파라미터들은 엘피시 켑스트럼(LPC Cepstrum), 델타(Delta) 켑스트럼, 멜(Mel) 켑스트럼, 피치(Pitch), 포먼츠(Formants) 등이 있다.
(2) 학습 및 인식 과정(S203) : 학습 및 인식 과정에서는 상기 전처리 과정에서 추출된 음성의 화자별 특징 파라미터를 시스템에서 인식하여 확인할 수 있도록 학습하고, 이를 확인하는 일련의 과정을 수행하는 것으로서, 이러한 학습 및 인식 과정은 구축된 데이터베이스를 이용하여 음성 및 화자 모델을 생성하는 단계, 결정 규칙을 적용하여 인증 또는 거부하는 최종 단계로 세분화될 수 있다.
이때, 이러한 학습 및 인식 과정은 벡터 양자화(Vector Quantization), 동적 정합법(Dynamic Time Warping : DTW), HMM(Hidden Markov Model) 및 신경 회로망(Neural Network) 등의 알고리즘들로 수행된다.
그러나, 상술한 종래 기술들은 후천적인 개인성을 나타내는 습관이나 억양에 의한 화자의 발성 패턴에는 적절한 성능을 보이며, 본인 확인시의 오거부율을 줄여 주는 효과가 있으나, 이러한 파라미터의 특성을 지나치게 강조함으로써 성대 모사에 의한 오수락율을 높여 화자 확인 시스템의 성능을 저하시키는 문제점이 있다.
한편, 화자 확인 시스템의 경우에는 학습시 사용된 시스템과 동일한 시스템으로 인증 시험을 할 경우, 그 특성의 차이가 없기 때문에 높은 인식율을 보이게 되나, 실생활에서 네트워크를 기반으로 적용하게 될 경우에는 많은 에러가 발생하게 된다.
즉, 임의의 화자가 네트워크를 기반으로 임의의 시스템으로 학습하여 자신의 모델을 생성한 후, 이를 인증하고자 할 때, 항상 동일한 시스템으로만 확인하게 되지는 않는다.
따라서, 이러한 경우 마이크와 같은 음성 입력 시스템이나 사운드 카드와 같은 채널의 고유한 특성에 영향을 받게 되며, 이로 인한 바이어스 효과는 심각한 오인식률을 가져 오는 원인이 된다.
한편, 이러한 채널 불일치를 보상하기 위한 수많은 종래의 연구가 이는데, 이들 종래 기술들은 대부분 '불일치'의 원인을 발성 환경 잡음과 채널의 두가지 요인으로 나누고 있다. 일반적으로, 발성 환경 잡음은 가산 잡음(Additive Noise)의 형태로 음성 신호를 왜곡시키게 되고, x(k)를 왜곡된 음성 신호, s(k)를 왜곡되기 전의 음성 신호, n(k)를 가산 잡음이라고 할 때, 아래의 [수학식 1]과 같이 표현된다.
이러한 가산 잡음은 스티브(Steve)에 의하여 제안된 주파수 차감법(Spectral Subtraction)에 의하여 효과적으로 제거될 수 있다. 단, 이때 가산 잡음은 국부적으로 안정된 잡음이어야 하며, 충분한 시간 여유를 두고 다른 안정된 잡음으로 변화한다는 가정을 만족해야 한다.
한편, 채널에 의한 음성 신호의 왜곡은 시간축에서 채널 성분과 컨벌루션된 형태로 나타나며, 아래의 [수학식 2]와 같은 식으로 표현된다.
여기서, h(k)는 채널 성분으로서, 음성 신호가 채널에 의하여 필터링된 효과를 나타낸다.
이렇게 음성과 컨벌루션된 채널 성분을 음성 성분에 가산된 형태로 표현하기 위하여는 주파수 변환된 신호에 로그를 취하여 켑스트럼 영역에서 나타낼 수 있다. 각 신호에 대한 주파수 변환은 X(z), S(z) 및 H(z)라고 하면, 아래의 [수학식 3]과 같은 식으로 표현된다.
이때, 채널 왜곡 성분이 천천히 조금씩 변한다고 가정하고, 순수한 음성 켑스트럼의 장구간 평균이 0이라면, 켑스트럼의 영역에서 전체 구간에 대한 평균을 구하여 차감하면, 채널 효과를 제거할 수 있다. 다시 말해, 채널의 영향은 순수한 음성의 켑스트럼에 가산된 형태로 나타나므로, 채널 켑스트럼의 추정치는 필터링된 음성의 켑스트럼들을 평균내서 구할 수 있고, 결과적으로 추정된 채널 켑스트럼을 제거하여 채널 효과를 보상할 수 있다는 것이다.
이러한 방법은 켑스트럼 평균 차감법(Cepstrum Mean Subtraction)이라고 하며, 전화선과 같은 채널을 거친 음성에 대하여 음성 인식 및 화자 인식에서 매우 효과적으로 사용되고 있다.
그러나, 켑스트럼 평균 차감법은 순수한 음성에 대한 켑스트럼 평균이 0이 되기 위해서 유성음, 무성음 및 파열음 등이 음향학적 균형을 이루어야 하므로, 이러한 조건이 만족되지 않은 경우, 채널 성분 이외의 음성 성분이 차감되는 단점을 가진다.
따라서, 이러한 단점을 보안한 PFCMS(Pole - Filtered Cepstral Mean Subtraction), ACW(Adaptive Component Weighted cepstrum) 및 MMCMNFW(Modified Mean Cepstrum Mean Normalization with Frequency Warping) 방법 등이 제안되었다. 또한, 이러한 가산 잡음 또는 채널 성분을 직접 제거하는 방법 이외에 잡음과 채널 성분의 영향에 강인한 음성 특징을 추출하는 방법을 제안하기도 하였다.
기존의 LPCC, MFCC 이외에 PLP(Perceptually Linear Prediction)는 스펙트럼 정보에 청각 특성을 고려한 분석을 통하여 잡음 환경에서 음성의 특징을 잘 나타내는 강인한 특성을 가진 것으로 알려졌다. 또한, 기존의 음성 특징에서 잡음 또는 채널 효과를 제거하거나 보상하는 기법들이 알려졌다.
켑스트럴 웨이팅(Cepstral Weighting), 특히, 밴드 패스 필터링(Band - Pass Filtering)은 잡음에 민감한 고차 영역을 상대적으로 감쇄시킴으로써, 좋은 성능을 얻을 수 있다. 이미 설명한 CMS는 채널 환경에서 느리게 변하는 켑스트럼 영역의 채널 왜곡 성분을 제거하는 가장 효과적인 채널 효과 정규화 방법으로 알려져 있다. 그 외에 1990년 허만스키(Hermansky)에 의하여 처음 제안된 RASTA(RelAtive SpecTrAL) 등의 기법은 스펙트럼을 로그 영역으로 변환한 후, 필터링함으로써, 채널 성분 등을 제거할 수 있다고 알려져 있다.
지금까지 살펴 본 방법들은 추출된 특징 벡터가 분류기로 처리되기 이전에 프론트 엔드(Front - End) 부분인 특징 추출기에서 처리하는 방식이다.
이 밖에 최근에는 화자 인식기의 분류기를 가산 잡음과 채널 성분에 의한 왜곡에 강인하도록 설계하는 방법들이 제안되어 효과적으로 사용되고 있다. 흔히, 이러한 방법들은 모델 기반의 채널 보상 방법들로 분류되며, 'Affine Transform'을 사용하는 것이 대표적이다.
음성 인식 및 화자 인식 등에서 보편적으로 사용되는 통계적인 분류기인 HMM, GMM의 관점에서, 잡음 및 채널 성분의 변화는 평균과 분산으로 표현되는 음성의 특징을 벡터 공간에서 이동시키는 것으로 알려져 있다. 이러한 이동은 스케일링(Scaling), 로테이션(Rotation) 및 트랜슬레이션(Translation) 등으로 표현될 수 있고, 일반적으로 왜곡되기 전의 음성, 잡음 및 채널 성분에 의하여 왜곡된 음성을 동시에 수집한 스테레오 음성 데이터베이스에 의하여 이러한 변환 과정을 추정하게 된다. 추정된 변환 과정은 분류기에 적용되어 입력된 음성을 잡음 및 채널 성분에 강인하도록 모델링할 수 있다.
그러나, 이러한 방법도 다양한 변환 과정을 추정할 수 있는 스테레오 음성 데이터베이스를 구축하여야 한다는 문제점이 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위한 본 발명의 목적은 학습시와 인식시의 채널 불일치 조건을 공통 코드북 센터의 평균값과 개인 코드북 센터의 평균값 차이를 보상함으로써, 화자 인증의 성공률을 보다 향상시키는 채널 불일치 보상 장치 및 그 방법을 제공하기 위한 것이다.
도 1a는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 1b는 종래의 화자 식별 방법의 전체적인 과정을 개략적으로 나타낸 흐름도이고,
도 2는 종래의 화자 확인 방법의 전체적인 과정을 개략적으로 나타낸 또 다른 흐름도이고,
도 3은 본 발명의 일 실시예에 따른 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하는 개념을 보여주는 도면이고,
도 4는 본 발명의 일 실시예에 따른 화자 음성 학습시의 채널 불일치 보상 방법을 보여주는 흐름도이고,
도 5는 본 발명의 일 실시예에 따른 화자 음성 확인시의 채널 불일치 보상 방법을 보여주는 흐름도이다.
상기한 목적을 달성하기 위하여 본 발명에 따르면, 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치에 있어서, 입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 초기화 수단; 공통 코드북의 평균 센터값과 상기 초기화 수단에 의하여 설정된 중심값과의 차이()를 구하는 중심값 차이 연산 수단; 상기 중심값 차이 연산수단에 의하여 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 보상 수단; 및 상기 보상 수단에 의하여 보상된 값을 이용하여 화자 등록 과정을 수행하는 화자 등록 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 학습시 채널 불일치 보상 장치가 제공된다.
또한, 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법에 있어서, 입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 제 1 단계; 공통 코드북의 평균 센터값과 상기 제 1 단계에서 설정된 중심값과의 차이()를 구하는 제 2 단계; 상기 제 2 단계에서 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 제 3 단계; 및 상기 제 3 단계에서 보상된 값을 이용하여 화자 등록 과정을 수행하는 제 4 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법이 제공된다.
또한, 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치에 있어서, 입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 가중치 결정 수단; 입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 하나의 중심값을 설정하는 중심값 설정 수단; 공통 코드북의 평균 센터값과 상기 중심값 설정 수단에 의하여 설정된 중심값의 차이를 구하는 중심값 차이 연산수단; 상기 중심값 차이 연산 수단에 의하여 계산된 중심값의 차이와 상기 가중치 결정 수단에 의하여 결정된 가중치를 이용하여 입력 벡터를 보상하는 보상 수단; 및 상기 보상 수단에 의하여 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 화자 확인 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치가 제공된다.
또한, 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법에 있어서, 입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 제 1 단계; 입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대하여 각각의 중심값을 설정하는 제 2 단계; 공통 코드북의 평균 센터값과 상기 제 2 단계에서 설정된 중심값의 차이를 구하는 제 3 단계; 상기 제 3 단계에서 계산된 중심값의 차이와 상기 제 1 단계에서 결정된 가중치를 이용하여 입력 벡터를 보상하는 제 4 단계; 및 상기 제 4 단계에서 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 제 5 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법을 제공한다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 사용자 이동성을 고려한 화자 인식에서의 채널 불일치 보상 장치 및 그 방법을 보다 상세하게 설명하기로 한다.
본 발명에서 제안하는 방법은 학습시와 인식시의 채널 불일치 조건(Mismatch- condition)을 공통 코드북 센터의 평균값과 개인 코드북 센터의 평균값의 차이의 보상으로 제거하는 것이다.
도 3은 본 발명의 일 실시예에 따른 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하는 개념을 보여주는 도면이다.
화자가 발성한 음성의 특징 파라미터는 접속하는 시스템의 특성, 즉, 사운드 카드, 마이크 및 배경 잡음 등에 의하여 크게 변화한다. 이러한 특징 파라미터의 변화는 도 3에 도시되어 있듯이, 화자 영역과의 차이를 발생시켜 본인 오거부율을 발생시킨다.
그러나, 이러한 차이는 화자 영역의 분포 형태에는 크게 영향을 끼치지 아니한다. 즉, 채널에 의하여 왜곡된 특징 파라미터의 변화는 화자 영역의 평균(Mean) 값에 영향을 미치지만, 분산(Variance) 값에는 영향을 미치지 못하게 된다. 따라서, 본 발명에서 제안하는 기법은 도 3과 같이 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하여 학습하고, 확인시에도 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 보상하여 확인함으로써, 채널의 불일치에 의한 급격한 본인 인식율 하락을 해결한다.
그러나, 무조건적인 평균값 보상은 사칭자의 인증 오류를 가져 오게 되므로, 채널의 변이에 비례하는 적절한 가중치를 통한 평균값 보상이 필요하다. 따라서, 음성 구간을 제외한 묵음 구간의 분포를 고려하여 학습시 채널과의 변이 차이에 비선형 함수에 의한 가중치로 보상해 준다.
도 4는 본 발명의 일 실시예에 따른 화자 음성 학습시의 채널 불일치 보상 방법을 보여주는 흐름도이다.
(1) 스텝 S401 : 초기화 과정이다. 음성 구간의 모든 입력 벡터에 대하여 하나의 중심값을 설정하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 4]이다.
여기서,는 모든 입력 벡터의 개수이다.
(2) 스텝 S402 : 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이(Bias)를 구하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 5]이다.
여기서, p = 0, 1, ..., k 이다.
(3) 스텝 S403 : 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 6]이다.
(4) 스텝 S404 : 상기 보상된 중심값의 차이를 이용하여 화자의 등록 과정을 수행한다.
도 5는 본 발명의 일 실시예에 따른 화자 음성 확인시의 채널 불일치 보상 방법을 보여주는 흐름도이다.
(1) 스텝 S501 : 초기화 과정이다. 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 바, 이를 나타낸 것이 아래의 [수학식 7]이다.
여기서,는 개인 화자의 등록시 배경 노이즈이고,는 배경 노이즈(Background Noise)이며, w는 본 스텝 S501에서 구하고자 하는 가중치이다.
(2) 스텝 S502 : 음성 구간의 모든 입력 벡터에 대한 하나의 중심값을 설정하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 8]이다.
여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
(3) 스텝 S503 : 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 구하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 9]이다.
여기서, p = 0, 1, ..., k 이다.
(4) 스텝 S504 : 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 상기 가중치를 주어 보상하는 바, 이를 수식으로 표현한 것이 아래의 [수학식 10]이다.
(5) 스텝 S505 : 화자 확인 과정을 수행한다.
한편, 학습한 마이크와 인증 시험에 사용되는 마이크가 동일한 경우에는 채널 보상을 적용하지 아니한 경우나 채널 보상 알고리즘을 적용한 경우나 거의 비슷한 인식율을 보이나, 인증 시험시 다른 마이크를 사용하여 테스트한 결과, 둘 사이에는 상당한 성능의 차이를 보여 주었다.
이러한 실험 결과를 보여 주는 것이 아래의 [표 1]이다.
[표 1]
상기 표 1에 도시되어 있듯이, 마이크 1로 학습한 모델에 대하여 마이크 4로 인증 실험을 할 경우, 본인 인증율이 20 % 에서 90 % 로 크게 향상됨을 알 수 있다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술 사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호 범위는 첨부된 청구 범위에 의해서 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, 화자 인증 방법에 있어서 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하여 학습하고, 확인시에도 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 보상하여 확인함으로써, 채널의 불일치에 의한 급격한 본인 인식율 하락을 해결하는 효과가 있다.

Claims (16)

  1. 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치에 있어서,
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 초기화 수단;
    공통 코드북의 평균 센터값과 상기 초기화 수단에 의하여 설정된 중심값과의 차이()를 구하는 중심값 차이 연산 수단;
    상기 중심값 차이 연산 수단에 의하여 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 보상 수단; 및
    상기 보상 수단에 의하여 보상된 값을 이용하여 화자 등록 과정을 수행하는 화자 등록 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 학습시 채널 불일치 보상 장치.
  2. 제 1 항에 있어서,
    상기 초기화 수단은,
    상기 중심값을 아래의 [식 1]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치.
    [식 1]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  3. 제 1 항에 있어서,
    상기 보상 수단은,
    상기 중심값의 차이를 아래의 [식 2]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치.
    [식 2]
    여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
  4. 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법에 있어서,
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 제 1 단계;
    공통 코드북의 평균 센터값과 상기 제 1 단계에서 설정된 중심값과의 차이()를 구하는 제 2 단계;
    상기 제 2 단계에서 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 제 3 단계; 및
    상기 제 3 단계에서 보상된 값을 이용하여 화자 등록 과정을 수행하는 제 4 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.
  5. 제 4 항에 있어서,
    상기 제 1 단계는,
    상기 중심값을 아래의 [식 3]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.
    [식 3]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  6. 제 4 항에 있어서,
    상기 제 3 단계는,
    상기 중심값의 차이를 아래의 [식 4]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.
    [식 4]
    여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
  7. 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치에 있어서,
    입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 가중치 결정 수단;
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 하나의 중심값을 설정하는 중심값 설정 수단;
    공통 코드북의 평균 센터값과 상기 중심값 설정 수단에 의하여 설정된 중심값의 차이를 구하는 중심값 차이 연산 수단;
    상기 중심값 차이 연산 수단에 의하여 계산된 중심값의 차이와 상기 가중치 결정 수단에 의하여 결정된 가중치를 이용하여 입력 벡터를 보상하는 보상 수단;및
    상기 보상 수단에 의하여 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 화자 확인 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.
  8. 제 7 항에 있어서,
    상기 가중치 결정 수단은,
    상기 가중치를 아래의 [식 5]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.
    [식 5]
    여기서,는 개인 화자의 등록시 배경 노이즈이고,N_bg ^(p)는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.
  9. 제 7 항에 있어서,
    상기 중심값 설정 수단은,
    상기 중심값을 아래의 [식 6]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.
    [식 6]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  10. 제 7 항에 있어서,
    상기 보상 수단은,
    아래의 [식 7]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.
    [식 7]
    여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
  11. 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법에 있어서,
    입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 제 1 단계;
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대하여 각각의 중심값을 설정하는 제 2 단계;
    공통 코드북의 평균 센터값과 상기 제 2 단계에서 설정된 중심값의 차이를 구하는 제 3 단계;
    상기 제 3 단계에서 계산된 중심값의 차이와 상기 제 1 단계에서 결정된 가중치를 이용하여 입력 벡터를 보상하는 제 4 단계; 및
    상기 제 4 단계에서 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 제 5 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.
  12. 제 11 항에 있어서,
    상기 제 1 단계는,
    상기 가중치를 아래의 [식 8]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.
    [식 8]
    여기서,는 개인 화자의 등록시 배경 노이즈이고,는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.
  13. 제 11 항에 있어서,
    상기 제 2 단계는,
    상기 중심값을 아래의 [식 9]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.
    [식 9]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
  14. 제 11 항에 있어서,
    상기 제 4 단계는,
    아래의 [식 10]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.
    [식 10]
    여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
  15. 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 제 1 단계;
    공통 코드북의 평균 센터값과 상기 제 1 단계에서 설정된 중심값과의 차이()를 구하는 제 2 단계;
    상기 제 2 단계에서 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 제 3 단계; 및
    상기 제 3 단계에서 보상된 값을 이용하여 화자 등록 과정을 수행하는 제 4 단계;를 포함하고,
    상기 중심값은 아래의 [식 11]에 의하여 결정하고, 상기 중심값의 차이는 아래의 [식 12]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
    [식 11]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
    [식 12]
    여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
  16. 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,
    입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 제 1 단계;
    입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대하여 각각의 중심값을 설정하는 제 2 단계;
    공통 코드북의 평균 센터값과 상기 제 2 단계에서 설정된 중심값의 차이를구하는 제 3 단계;
    상기 제 3 단계에서 계산된 중심값의 차이와 상기 제 1 단계에서 결정된 가중치를 이용하여 입력 벡터를 보상하는 제 4 단계; 및
    상기 제 4 단계에서 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 제 5 단계;를 포함하고,
    상기 가중치는 아래의 [식 13]에 의하여 결정하고, 상기 중심값은 아래의 [식 14]에 의하여 결정하며, 아래의 [식 10]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
    [식 13]
    여기서,는 개인 화자의 등록시 배경 노이즈이고,는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.
    [식 14]
    여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
    [식 15]
    여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
KR10-2002-0014492A 2002-03-18 2002-03-18 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 KR100435441B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014492A KR100435441B1 (ko) 2002-03-18 2002-03-18 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0014492A KR100435441B1 (ko) 2002-03-18 2002-03-18 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030075330A KR20030075330A (ko) 2003-09-26
KR100435441B1 true KR100435441B1 (ko) 2004-06-10

Family

ID=32225170

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0014492A KR100435441B1 (ko) 2002-03-18 2002-03-18 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100435441B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241095A (ja) * 1995-03-06 1996-09-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JPH09244683A (ja) * 1996-03-11 1997-09-19 Seiko Epson Corp 話者適応化方法および話者適応化装置
JPH10240286A (ja) * 1997-02-27 1998-09-11 Matsushita Electric Ind Co Ltd 音声認識装置
KR19980082408A (ko) * 1996-05-07 1998-12-05 윌리엄 비. 켐플러 벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
KR20010036358A (ko) * 1999-10-08 2001-05-07 윤덕용 전화음성을 이용한 문장독립형 화자식별방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241095A (ja) * 1995-03-06 1996-09-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
JPH09244683A (ja) * 1996-03-11 1997-09-19 Seiko Epson Corp 話者適応化方法および話者適応化装置
KR19980082408A (ko) * 1996-05-07 1998-12-05 윌리엄 비. 켐플러 벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템
JPH10240286A (ja) * 1997-02-27 1998-09-11 Matsushita Electric Ind Co Ltd 音声認識装置
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
KR20010036358A (ko) * 1999-10-08 2001-05-07 윤덕용 전화음성을 이용한 문장독립형 화자식별방법

Also Published As

Publication number Publication date
KR20030075330A (ko) 2003-09-26

Similar Documents

Publication Publication Date Title
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Reynolds et al. Speaker verification using adapted Gaussian mixture models
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
EP2189976B1 (en) Method for adapting a codebook for speech recognition
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
WO1997010587A9 (en) Signal conditioned minimum error rate training for continuous speech recognition
WO1997010587A1 (en) Signal conditioned minimum error rate training for continuous speech recognition
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Liao et al. Joint uncertainty decoding for robust large vocabulary speech recognition
Selva Nidhyananthan et al. Noise robust speaker identification using RASTA–MFCC feature with quadrilateral filter bank structure
Kalamani et al. Continuous Tamil Speech Recognition technique under non stationary noisy environments
Haton Automatic speech recognition: A Review
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
KR100435441B1 (ko) 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Hirsch HMM adaptation for applications in telecommunication
Bhukya et al. End point detection using speech-specific knowledge for text-dependent speaker verification
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Boril et al. Front-End Compensation Methods for LVCSR Under Lombard Effect.
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
WO2004095423A1 (en) Channel mis-match compensation apparatus and method for robust speaker verification system
Oonishi et al. A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130531

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150430

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160524

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170920

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180731

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20190603

Year of fee payment: 16