KR20150093059A

KR20150093059A - 화자 검증 장치 및 방법

Info

Publication number: KR20150093059A
Application number: KR1020140013852A
Authority: KR
Inventors: 오광철; 차성일; 김현돈; 서영주; 김회린; 김명종; 박주민
Original assignee: 주식회사 에스원; 한국과학기술원
Priority date: 2014-02-06
Filing date: 2014-02-06
Publication date: 2015-08-17
Also published as: KR101564087B1

Abstract

본 발명의 실시예에 따르면, GMM에 기반한 통계 모델 방식을 이용하는 화자 검증 장치의 화자 검증 방법이 제공된다. 화자 검증 장치는 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성한다. 그리고 화자 검증 장치는 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시킨다. 그리고 화자 검증 장치는 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와, 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단한다.

Description

화자 검증 장치 및 방법{METHOD AND APPARATUS FOR SPEAKER VERIFICATION}

본 발명은 입력된 음성 신호가 지정된 화자로부터 발성된 음성인지의 여부를 자동으로 검증하는 화자 검증 방법 및 장치에 관한 것이다.

화자 검증(speaker verification) 기술은 입력된 음성 신호가 제시된 화자(claimed speaker)의 음성인지 아닌지를 검증하는 기술이다. 즉, 화자 검증 기술은, 입력 음성이 제시 화자의 목소리인지를 자동으로 검증하는 기술로써, 보안이나 법의학(forensic) 등의 여러 분야에 유용하게 사용될 수 있다. 현재 개발되는 대표적인 화자 검증 기술은 Gaussian mixture model(GMM)에 기반한 통계 모델 방식을 이용하는 화자 검증 기술이다. GMM에 기반한 통계 모델 방식을 이용하는 화자 검증 기술은, 검증을 위한 음성 신호가 입력되면, 제시 화자 GMM 모델과 전체배경모델(UBM: universal background model) GMM 모델 간의 우도비(likelihood ratio)를 계산하고, 우도비가 임계값(threshold)보다 크면 입력된 음성 신호를 제시화자의 음성으로 승인(accept)하고, 그 외의 경우에 거부(reject)한다. 여기서, 제시 화자 GMM 모델은 검증 대상이 되는 제시 화자의 고유한 음성을 GMM으로 통계 모델화한 것이고, 전체배경모델 GMM 모델은 불특정 사람들의 다양한 음성을 GMM으로 통계 모델화한 것이다. 그리고 우도비는 제시 화자 GMM 모델의 확률적인 유사도와 전체배경모델 GMM 모델의 확률적인 유사도 간의 비율이다.

한편, 제시 화자 GMM 모델은 검증 대상 화자를 등록하는 단계에서 수집된 음성을 사용하여 추정되지만, 제시 화자의 대항 모델 격인 전체배경모델 GMM 모델은 이전의 훈련 단계에서 여러 사람들로부터 수집한 대규모 훈련 음성데이터로부터 추정된다. 따라서 제시 화자 GMM 모델은 화자 검증 장치가 사용되는 음향 환경을 직접적으로 잘 반영하지만, 전체배경모델 GMM 모델은 그렇지 못하여, 화자 검증 장치의 화자 검증 성능을 저하시킬 수 있다. 즉, 종래의 화자 검증 장치는 초기 훈련 음성 데이터를 통해 훈련되므로, 주변 음향 환경의 변동에 따라 화자 검증 정확도가 저하되는 문제를 가진다.

본 발명이 해결하고자 하는 과제는, 고정된 전체배경모델 GMM 모델을 사용함으로써 야기되는 성능 저하 등의 문제를 개선할 수 있는 화자 검증 방법 및 장치를 제공하는 것이다.

본 발명의 실시예에 따르면, GMM(Gaussian Mixture Model)에 기반한 통계 모델 방식을 이용하는 화자 검증 장치의 화자 검증 방법이 제공된다. 상기 화자 검증 방법은, 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계; 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM(Universal Background Model) 모델을 주변 음향 환경에 적응시키는 단계; 및 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도(likelihood)와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함한다.

상기 제1 화자 GMM 모델을 생성하는 단계는, 상기 제1 입력 음성을 적어도 하나의 제1 프레임으로 분할하는 단계; 및 상기 제1 프레임으로부터 상기 제1 특징 파라미터를 추출하는 단계를 포함할 수 있다.

상기 제1 특징 파라미터는, MFCCs(Mel Frequency Cepstral Coefficients)를 포함할 수 있다.

상기 제1 화자 GMM 모델을 생성하는 단계는, 주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 파라미터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하는 단계를 더 포함할 수 있다.

상기 제2 모델 파라미터는 혼합(mixture) 가중치, 평균 벡터, 및 공분산 행렬을 포함할 수 있다.

상기 제2 모델 파라미터를 획득하는 단계는, 상기 제1 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률(posteriori probability)을 추정하는 단계; 상기 사후 확률에 기초해, 충분 통계량(sufficient statistics)을 추정하는 단계; 및 상기 충분 통계량과 상기 제1 모델 파라미터를 이용해, 상기 제2 모델 파라미터를 계산하는 단계를 포함할 수 있다.

상기 제1 화자 GMM 모델을 생성하는 단계는, 상기 제1 화자에 대한 정보를 화자 목록에 등록하는 단계를 더 포함할 수 있다.

상기 제2 화자의 입력 음성은 상기 제2 화자를 등록하기 위해 입력된 음성 및 상기 제2 화자를 검증하기 위해 입력된 음성 중 적어도 어느 하나일 수 있다. 그리고 상기 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계는, 상기 제2 특징 파라미터를 순차적으로 포함하는 적응 데이터를 생성하는 단계; 상기 적응 데이터에 포함된 상기 제2 특징 파라미터 중에서 상기 제1 화자에 대응하는 특징 파라미터를 상기 적응 데이터에서 제외하는 단계; 및 주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는 단계를 포함할 수 있다.

상기 적응 데이터를 이용해 적응시키는 단계는, 상기 적응 데이터에 포함된 상기 제2 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률을 추정하는 단계; 상기 사후 확률에 기초해, 충분 통계량을 추정하는 단계; 및 상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하는 단계를 포함할 수 있다. 그리고 상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응할 수 있다.

상기 판단하는 단계는, 상기 제1 우도와 상기 제2 우도 간의 비율에 대한 로그 값인 로그 우도비(likelihood ratio)를 계산하는 단계; 및 상기 로그 우도비와 임계값을 비교해, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함할 수 있다.

상기 판단하는 단계는, 화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하는 단계를 더 포함할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, GMM에 기반한 통계 모델 방식을 이용해 화자를 검증하는 장치가 제공된다. 상기 화자 검증 장치는, 입력 음성으로부터 적어도 하나의 특징 벡터를 추출하는 특징 추출 처리부; 상기 특징 벡터 중 제1 화자에 대응하는 적어도 하나의 제1 특징 벡터를 이용해, 제1 화자 GMM 모델을 생성하는 화자 등록 처리부; 상기 특징 벡터 중 적어도 하나의 제2 화자에 대응하는 적어도 하나의 제2 특징 벡터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 UBM 적응 처리부; 및 상기 특징 벡터 중 화자 검증을 위해 입력된 제1 음성에 대응하는 적어도 하나의 제3 특징 벡터에 대한 상기 제1 UBM 모델의 제1 확률적 유사도와, 상기 제3 특징 벡터에 대한 상기 제1 화자 GMM 모델의 제2 확률적 유사도를 비교하여, 상기 제1 음성이 상기 제1 화자의 음성인지를 판단하는 화자 검증 처리부를 포함할 수 있다.

또한, 본 발명의 또 다른 실시예에 따르면, GMM에 기반한 통계 모델 방식의 화자 검증 방법을 적어도 하나의 처리기가 실행하도록 프로그램을 기록한 기록 매체가 제공될 수 있다. 여기서, 상기 화자 검증 방법은, 제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계; 적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계; 및 제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하여, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 화자 등록이나 화자 검증 과정에서 입력된 음성 데이터를 누적하고, 누적된 음성 데이터를 이용해 전체배경모델 GMM 모델을 최근 음향 환경으로 적응시킴으로써, 주변 음향 환경의 변동에 강인한 화자 검증 기능을 제공할 수 있다. 본 발명의 실시예에 따르면, 전체배경모델 GMM 모델을 점진적으로 주변 음향 환경에 적응시킴으로써, 화자 검증 성능 및 정확도를 개선할 수 있다.

도 1은 본 발명의 실시예에 따른 화자 검증 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 화자 검증 장치의 전체적인 화자 검증 과정을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 특징 파라미터 추출 과정을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 화자 등록 과정을 나타내는 순서도이다.
도 5는 본 발명의 실시예에 따른 UBM 모델을 적응시키는 과정을 나타내는 순서도이다.
도 6는 본 발명의 실시예에 따른 화자 검증 판정 과정을 나타내는 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 본 발명의 실시예에 따른 화자 검증 장치(1000)를 나타내는 도면이다.

화자 검증 장치(1000)는 특징 추출 처리부(100), 화자 등록 처리부(200), 화자 검증 처리부(300), 및 UBM 적응 처리부(400)를 포함한다.

특징 추출 처리부(100)는 입력된 음성 신호로부터 화자 등록 또는 화자 검증에 적합한 적어도 하나의 특징 파라미터(또는 특징 벡터)를 추출한다.

화자 등록 처리부(200)는 새로운 화자를 위한 화자 GMM 모델을 생성하고, 생성된 화자 GMM 모델을 화자 검증을 위한 검증 화자 목록에 등록한다. 구체적으로, 화자 등록 처리부(200)는 화자 등록을 위해 수집된 새로운 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터를 훈련 데이터로써 이용하여, 새로운 화자에 대한 화자 GMM 모델을 생성한다.

UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호를 이용하여, 전체배경모델 GMM 모델(이하 'UBM 모델')을 주변 음향 환경에 적응시킨다. 구체적으로, UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터를 사용하여, 기존의 UBM 모델을 최근 주변 음향 환경에 적응시킨다.

화자 검증 처리부(300)는 화자 검증 대상으로써 화자 검증을 위해 입력된 음성 신호(이하 '검증 대상 음성 신호')로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터(이하 '제1 특징 파라미터')에 대한 제시 화자의 화자 GMM 모델(이하 '제시 화자 모델')의 확률적 유사도와, UBM 적응 처리부(400)에 의해 적응된 UBM 모델의 확률적 유사도를 비교하여, 화자 검증 판정을 수행한다. 구체적으로 화자 검증 처리부(300)는 제1 특징 파라미터에 대한 제시 화자 모델의 우도(likelihood)와 제1 특징 파라미터에 대한 UBM 모델의 우도 간의 비율인 우도비(likelihood ratio)를 계산하고, 우도비와 임계값을 비교해 검증 대상 음성 신호가 제시 화자의 음성인지를 판정할 수 있다.

도 2는 본 발명의 일실시예에 따른 화자 검증 장치(1000)의 전체적인 화자 검증 과정을 나타내는 순서도이다.

특징 추출 처리부(100)는 제1 화자의 화자 등록을 위해 입력된 음성 신호로부터 적어도 하나의 특징 파라미터를 추출한다(S110).

화자 등록 처리부(200)는 특징 추출 처리부(100)로부터 출력된 특징 파라미터를 이용해, 제1 화자의 화자 GMM 모델을 생성한다(S120).

UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해 입력되었던 누적 음성 데이터를 이용해, UBM 모델을 최근 주변 음향 환경으로 적응시킨다(S130).

한편, 검증 대상 음성 신호가 입력되면 특징 추출 처리부(100)는 검증 대상 음성 신호로부터 적어도 하나의 제1 특징 파라미터를 추출한다(S110).

화자 검증 처리부(300)는 제1 화자가 제시 화자인 경우에, 제1 특징 파라미터에 대한 제시 화자 모델의 우도와 제1 특징 파라미터에 대한 UBM 모델의 우도를 비교해, 검증 대상 음성 신호가 제1 화자의 음성 인지를 판단한다(S140).

도 3은 본 발명의 실시예에 따른 특징 파라미터 추출 과정을 나타내는 순서도이다. 구체적으로, 도 3은 도 2의 S110 과정의 구체적인 과정을 나타내는 순서도이다.

특징 추출 처리부(100)는 입력된 디지털 음성 신호를 아래의 수학식 1과 같이, 미리 정해진 구간의 프레임으로 분할한다(S210). 그리고 특징 추출 처리부(100)는 S210 과정을 정해진 이동 간격마다 반복하여, 음성 프레임열(frame sequence)을 형성한다(S220). 여기서 이동 간격은 한 프레임의 시작점과 다음 프레임의 시작점 간의 거리(시간)로써, 프레임 길이의 절반 값을 가질 수 있다.

여기서, t는 음성 프레임의 인덱스를 나타내고, T는 전체 음성 프레임열을 구성하는 음성 프레임의 수를 나타낸다. 그리고 N은 한 음성 프레임의 크기를 나타내고, 일반적으로 10-20 ms 정도의 값을 가질 수 있다.

특징 추출 처리부(100)는 각 음성 프레임에 대해서 화자 검증 또는 화자 등록에 적합한 특징 벡터를 반복적으로 추출하여, 최종적으로 수학식 2와 같은 특징 파라미터열(parameter sequence)을 생성한다(S230).

여기서 특징 벡터 X_t는 화자 검증 기술에서 자주 사용되는 MFCCs(mel frequency cepstral coefficients)를 포함할 수 있다. 또한, X_t는 특징 벡터 X_t의 델타 (delta) 성분 또는 화자 검증에 적합한 임의의 특징 계수를 더 포함할 수 있다. 여기서 델타 성분은 특징 벡터 X_t의 전/후에 위치한 특징 벡터의 차분(difference) 값으로써, 음성 신호 처리에서 시간적으로 변하는 동적 특성을 나타내기 위해 사용된다. 예를 들어, 델타 성분은 dX_t=X_t ₊₂-X_t _-2일 수 있다.

도 4는 본 발명의 실시예에 따른 화자 등록 과정을 나타내는 순서도이다. 구체적으로 도 4는 도 2의 S120 과정의 구체적인 과정을 나타내는 순서도이다.

먼저, 화자 등록 처리부(200)는 새로운 k번째 제시 화자로부터 수집된 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 특징 파라미터열을 사용하여, k번째 제시 화자 모델을 생성한다. k번째 제시 화자 모델은 아래의 수학식 3과 같이 정의될 수 있다.

여기서, k는 제시화자의 인덱스를 나타내고, M은 GMM 모델의 혼합(mixture)의 수를 나타내고, w_km은 m번째 혼합의 가중치를 나타낸다. 그리고 P_km(X_t)는 m번째 혼합에서의 특징 벡터 Xt에 대한 가우스 확률 밀도 값을 나타내는데, 일반적으로 아래의 수학식 4와 같이 정의될 수 있다.

여기서

과

각각은 k번째 제시 화자 모델의 m번째 가우스 혼합 확률 밀도 함수를 구성하는 평균 벡터와 공분산 행렬이고, 부호 '은 행렬의 전치(transpose)이다. 그리고 D는 특징 벡터 X_t의 차원이고,

은

의 역행렬이다.

그리고 k번째 제시 화자 모델의 생성 과정은, k번째 제시 화자의 음성 신호의 특징 파라미터열을 사용하여 초기 UBM 모델(또는 적응 전의 UBM 모델)을 적응시킴으로써, k번째 제시 화자 모델을 구성하는 모델 파라미터

≡ {w_km,

,

}를 생성하는 과정을 포함한다. 구체적으로, 화자 등록 처리부(200)는 먼저 특징 벡터 X_t에 대한 m번째 혼합의 사후 확률(posteriori probability)을 아래의 수학식 5와 같이 구한다(S310).

그리고 화자 등록 처리부(200)는 사후 확률 p_k(m|X_t)을 이용하여, GMM의 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬의 추정치(estimate)를 구하기 위한 충분 통계량(sufficient statistics)을 아래의 수학식 6 내지 8과 같이 구한다(S320).

화자 등록 처리부(200)는 k번째 제시 화자 모델을 구성하는 모델 파라미터

의 추정치를, 충분 통계량 n_km _,E_km(X)_,E_km(X²)을 이용해 초기 UBM 모델(또는 적응 전의 UBM 모델)로부터 아래의 수학식 9 내지 11과 같이 구한다(S330).

여기서

은 초기 UBM 모델(또는 적응 전의 UBM 모델)을 구성하는 GMM 파라미터이고,

는 전체 혼합 계수(예, w_km)들의 합을 1로 정규화하는 계수이다. 그리고, 적응 계수들

은 초기 UBM 모델(또는 적응 전의 UBM 모델)과 k번째 제시 화자 모델의 파라미터들 간의 균형을 제어하기 위한 용도로 사용되고, 아래의 수학식 12와 같이 정의될 수 있다.

여기서

는 GMM을 구성하는 임의의 파라미터

에 대한 고정 관계(fixed relevance) 계수로써, 통상적으로 10 정도의 값으로 정해질 수 있다.

마지막으로, 화자 등록 처리부(200)는 검증 화자 목록에 k번째 제시 화자를 등록한다(S340).

도 5는 본 발명의 실시예에 따른 UBM 모델을 적응시키는 과정을 나타내는 순서도이다. 구체적으로 도 5는 도 2의 S130 과정의 구체적인 과정을 나타낸 순서도이다.

먼저 UBM 적응 처리부(400)는 화자 등록 또는 화자 검증을 위해서 입력된 적어도 한명의 화자의 음성 신호로부터 특징 추출 처리부(100)를 통해 추출된 적어도 하나의 특징 파라미터열을, 아래의 수학식 13과 같이 적응 데이터로써 순차적으로 저장한다(S410).

여기서, X_st 는 적응 데이터에 포함된 특징 벡터로써, 최근의 주변 음향 환경을 UBM 모델에 반영하기 위해 이용된다. 그리고,

와

각각은 화자 s가 화자 등록 또는 화자 검증 과정에서 발성한 음성에 대응하는 특징 파라미터열 중에서 가장 최근 프레임과 T-1 번째 최근 프레임의 인덱스를 나타낸다. 그리고 S는 UBM 모델의 적응에 사용될 적응 데이터를 생성하기 위한 발성 화자의 수를 나타내고, 통상적으로 1 이상의 수로 정해질 수 있다.

그리고 UBM 적응 처리부(400)는 특징 벡터 X_st를 이용하여, 도 4의 화자 등록 과정에서 상술한 제시 화자 모델 적응 방식과 유사하게, UBM 모델을 최근 주변 음향 환경에 적응시킬 수 있다. 구체적으로, 먼저 UBM 모델에 대한 시간(또는 음성 프레임의 인덱스) t에서의 특징 벡터의 우도는 아래의 수학식 14와 같이 정의될 수 있다.

여기서,

는 제시 화자 k에 대한 UBM 모델(이하 '화자 k UBM 모델')을 구성하는 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬이다. 그리고 V(k)는 화자 k UBM 모델의 GMM 혼합의 수를 나타낸다. 그리고 각 혼합에서 특징 벡터 X_st에 대한 확률

는 아래와 수학식 15와 같이, 정의될 수 있다.

여기서, 행렬

의 대각선 요소는

이다.

그리고 UBM 적응 처리부(400)는 수학식 13에서 정의된 적응 데이터 X_st 중에서 제시 화자 k가 발성한 음성 신호에 대응하는 특징 벡터 X_kt (단,

를 적응 데이터 X_st에서 제외시킴으로써, 적응 데이터 X_st를 재구성한다(S420).

그리고 UBM 적응 처리부(400)는 재구성된 적응 데이터 X_st를 사용하여 초기 UBM 모델 또는 이전의 UBM 모델을 최근 주변 음향 환경에 적응시킨다. 구체적으로, UBM 적응 처리부(400)는 먼저 특징 벡터 X_st에 대한 v번째 혼합의 사후 확률(posteriori probability)을 아래의 수학식 16과 같이, 구한다(S430).

그리고 UBM 적응 처리부(400)는 확률 값 p_k(v|X_st)을 이용하여, GMM의 파라미터인 혼합 가중치, 평균 벡터, 공분산 행렬의 추정치를 구하기 위한 충분 통계량을 아래의 수학식 17 내지 19와 같이 구한다(S440).

그리고 UBM 적응 처리부(400)는 충분 통계량

,

을 이용해 초기 UBM 모델(또는 이전의 UBM 모델)을 적응시켜, 주변 음향 환경에 적응된 화자 k UBM 모델을 구성하는 파라미터를 아래의 수학식 20 내지 22와 같이 추정한다(S450).

여기서,

는 초기 UBM 모델(또는 이전 UBM 모델)에 대응하고,

는 새로운 UBM 모델(즉, 주변 음향 환경에 적응된 UBM 모델)에 대응한다. 그리고

는 전체 혼합 계수들의 합을 1로 정규화 시키는 계수이고, 적응 계수들

은 초기 UBM 모델(또는 이전 UBM 모델)과 새로운 UBM 모델(적응된 UBM 모델) 간의 균형을 제어하기 위한 용도로 사용되고, 아래의 수학식 23과 같이 정의될 수 있다.

여기서

는 전체배경모델의 GMM을 구성하는 임의의 파라미터

에 대한 고정 관계 계수로써, 통상적으로 10 정도의 값으로 정해질 수 있다.

도 6는 본 발명의 실시예에 따른 화자 검증 판정 과정을 나타내는 순서도이다. 구체적으로, 도 6은 도 2의 S140 과정의 구체적인 과정을 나타내는 순서도이다.

먼저, 화자 검증 처리부(300)는 검증 화자 목록에서 검증을 하고자 하는 제시 화자를 선택한다(S510).

S510 과정에서 k번째 제시 화자가 선택된 경우에, 화자 검증 처리부(300)는 검증 대상 음성 신호로부터 추출된 특징 파라미터열(제1 특징 파라미터를 포함, 이하 '제1 특징 파라미터열')에 대한 k번째 제시 화자 모델의 우도와, 제1 특징 파라미터열에 대한 화자 k UBM 모델의 우도 간의 비율에 대한 로그값인, 로그 우도비를 추정한다(S520). 여기서, 화자 k UBM 모델은 도 5의 UBM 모델 적응 과정을 통해 최근 주변 음향 환경에 적응된 UBM 모델이다.

화자 검증 처리부(300)는 S520 과정에서 추정된 로그 우도비와 임계값을 아래 수학식 24와 같이 비교하여, 로그 우도비가 임계값보다 크면 검증 대상 음성 신호를 k번째 제시 화자의 음성으로 승인(accept)하고, 그렇지 않을 경우에는 거부(reject)한다(S530).

여기서, 수학식 24에서의 X는 검증 대상 음성 신호로부터 추출된 제1 특징 파라미터열을 나타낸다. 그리고,

는 k번째 제시 화자에 대한 화자 검증 임계값으로써, 통상적으로 0의 값을 가지지만 사용 환경에 적합하게 조율될 수 있다.

본 발명의 실시예에 따른 화자 검증 장치 및 방법을 정리하면 다음과 같다. 화자 검증 장치가 사용되는 음향 환경과, 화자 검증 장치의 훈련을 위해 사용된 음성 데이터가 반영하는 음향 환경이 다를 경우에, 화자 검증 정확도가 저하될 수 있다. 본 발명은, 화자 등록 또는 화자 검증을 위해 입력된 음성 데이터로부터 특징 파라미터열을 추출하여, 화자 별로 순차적으로 저장할 수 있다. 그리고 본 발명은, 저장된 특징 파라미터열 중에서 최근에 저장된 일부 음성 특징 파라미터열을 사용하여, 화자 검증 장치의 UBM 모델을 적응 기법을 통해 최근 주변 음향 환경에 적응시킬 수 있다. 그리고, 본 발명은, 최근 주변 음향 환경에 적응된 UBM 모델을 화자 검증을 위해 사용할 수 있다. 따라서, 본 발명의 실시예에 따르면, 주변 음향 환경이 변하는 상황에서도 화자 검증을 높은 정확도로, 효과적으로 수행할 수 있다.

한편, 본 발명의 실시예에 따른 화자 검증 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능 기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은, 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

GMM(Gaussian Mixture Model)에 기반한 통계 모델 방식을 이용하는 화자 검증장치의 화자 검증 방법으로서,
제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계;
적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM(Universal Background Model) 모델을 주변 음향 환경에 적응시키는 단계; 및
제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도(likelihood)와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하고, 상기 비교 결과에 기초해 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계
를 포함하는 화자 검증 방법.
제1항에 있어서,
상기 제1 화자 GMM 모델을 생성하는 단계는,
상기 제1 입력 음성을 적어도 하나의 제1 프레임으로 분할하는 단계; 및
상기 제1 프레임으로부터 상기 제1 특징 파라미터를 추출하는 단계를 포함하는
화자 검증 방법.
제2항에 있어서,
상기 제1 특징 파라미터는,
MFCCs(Mel Frequency Cepstral Coefficients)를 포함하는
화자 검증 방법.
제3항에 있어서,
상기 제1 화자 GMM 모델을 생성하는 단계는,
주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 파라미터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하는 단계를 더 포함하는
화자 검증 방법.
제4항에 있어서,
상기 제2 모델 파라미터는
혼합(mixture) 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
화자 검증 방법.
제5항에 있어서,
상기 제2 모델 파라미터를 획득하는 단계는,
상기 제1 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률(posteriori probability)을 추정하는 단계;
상기 사후 확률에 기초해, 충분 통계량(sufficient statistics)을 추정하는 단계; 및
상기 충분 통계량과 상기 제1 모델 파라미터를 이용해, 상기 제2 모델 파라미터를 계산하는 단계를 포함하는
화자 검증 방법.
제6항에 있어서,
상기 제1 화자 GMM 모델을 생성하는 단계는,
상기 제1 화자에 대한 정보를 화자 목록에 등록하는 단계를 더 포함하는
화자 검증 방법.
제1항에 있어서,
상기 제2 화자의 입력 음성은 상기 제2 화자를 등록하기 위해 입력된 음성 및 상기 제2 화자를 검증하기 위해 입력된 음성 중 적어도 어느 하나이고,
상기 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계는,
상기 제2 특징 파라미터를 순차적으로 포함하는 적응 데이터를 생성하는 단계;
상기 적응 데이터에 포함된 상기 제2 특징 파라미터 중에서 상기 제1 화자에 대응하는 특징 파라미터를 상기 적응 데이터에서 제외하는 단계; 및
주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는 단계를 포함하는
화자 검증 방법.
제8항에 있어서,
상기 적응 데이터를 이용해 적응시키는 단계는,
상기 적응 데이터에 포함된 상기 제2 특징 파라미터에 대한 제1 GMM 혼합의 사후 확률을 추정하는 단계;
상기 사후 확률에 기초해, 충분 통계량을 추정하는 단계; 및
상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하는 단계를 포함하고,
상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응하는
화자 검증 방법.
제9항에 있어서,
상기 제2 모델 파라미터는
혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
화자 검증 방법.
제1항에 있어서,
상기 판단하는 단계는,
상기 제1 우도와 상기 제2 우도 간의 비율에 대한 로그 값인 로그 우도비(likelihood ratio)를 계산하는 단계; 및
상기 로그 우도비와 임계값을 비교해, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함하는
화자 검증 방법.
제11항에 있어서,
상기 판단하는 단계는,
화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하는 단계를 더 포함하는
화자 검증 방법.
GMM에 기반한 통계 모델 방식을 이용해 화자를 검증하는 장치로서,
입력 음성으로부터 적어도 하나의 특징 벡터를 추출하는 특징 추출 처리부;
상기 특징 벡터 중 제1 화자에 대응하는 적어도 하나의 제1 특징 벡터를 이용해, 제1 화자 GMM 모델을 생성하는 화자 등록 처리부;
상기 특징 벡터 중 적어도 하나의 제2 화자에 대응하는 적어도 하나의 제2 특징 벡터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 UBM 적응 처리부; 및
상기 특징 벡터 중 화자 검증을 위해 입력된 제1 음성에 대응하는 적어도 하나의 제3 특징 벡터에 대한 상기 제1 UBM 모델의 제1 확률적 유사도와, 상기 제3 특징 벡터에 대한 상기 제1 화자 GMM 모델의 제2 확률적 유사도를 비교하여, 상기 제1 음성이 상기 제1 화자의 음성인지를 판단하는 화자 검증 처리부
를 포함하는 화자 검증 장치.
제13항에 있어서,
상기 화자 등록 처리부는
상기 제1 화자에 대한 정보를 화자 목록에 등록하는
화자 검증 장치.
제14항에 있어서,
상기 특징 추출 처리부는,
상기 제1 화자의 음성 신호를 적어도 하나의 제1 프레임으로 분할하고, 상기 제1 프레임으로부터 상기 제1 특징 벡터를 추출하고,
상기 제1 특징 벡터는 MFCCs를 포함하는
화자 검증 장치.
제15항에 있어서,
상기 화자 등록 처리부는,
주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델에 대응하는 제1 모델 파라미터를 상기 제1 특징 벡터에 적응시킴으로써, 상기 제1 화자 GMM 모델에 대응하는 제2 모델 파라미터를 획득하고,
상기 제2 모델 파라미터는,
혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
화자 검증 장치.
제14항에 있어서,
상기 UBM 적응 처리부는,
상기 제2 특징 벡터를 순차적으로 포함하는 적응 데이터를 생성하고,
상기 적응 데이터에 포함된 상기 제2 특징 벡터 중에서 상기 제1 화자에 대응하는 특징 벡터를 상기 적응 데이터에서 제외하고,
주변 음향 환경에 적응되기 이전의 상기 제1 UBM 모델인 제2 UBM 모델을, 상기 적응 데이터를 이용해 최근 주변 음향 환경에 적응시키는
화자 검증 장치.
제17항에 있어서,
상기 UBM 적응 처리부는,
상기 적응 데이터에 포함된 상기 제2 특징 벡터에 대한 제1 GMM 혼합의 사후 확률을 추정하고, 상기 사후 확률에 기초해 충분 통계량을 추정하고, 상기 충분 통계량과 상기 제2 UBM 모델에 대응하는 제1 모델 파라미터를 이용해, 제2 모델 파라미터를 계산하고,
상기 제2 모델 파라미터는 주변 음향 환경에 적응된 상기 제1 UBM 모델에 대응하고, 혼합 가중치, 평균 벡터, 및 공분산 행렬을 포함하는
화자 검증 장치.
제14항에 있어서,
상기 화자 검증 처리부는,
상기 화자 목록에 포함된 화자 중에서 상기 제1 화자를 선택하고, 상기 제1 확률적 유사도와 상기 제2 확률적 유사도 간의 비율에 대한 로그 값인, 로그 우도비를 계산하고, 상기 로그 우도비가 임계값보다 크면 상기 제1 음성을 상기 제1 화자의 음성으로 승인하는
화자 검증 장치.
GMM에 기반한 통계 모델 방식의 화자 검증 방법을 적어도 하나의 처리기가 실행하도록 프로그램을 기록한 기록 매체에 있어서,
상기 화자 검증 방법은,
제1 화자의 제1 입력 음성으로부터 추출된 적어도 하나의 제1 특징 파라미터를 이용해, 상기 제1 화자를 위한 제1 화자 GMM 모델을 생성하는 단계;
적어도 하나의 제2 화자의 입력 음성으로부터 추출된 적어도 하나의 제2 특징 파라미터를 이용해, 상기 제1 화자에 대응하는 제1 UBM 모델을 주변 음향 환경에 적응시키는 단계; 및
제2 입력 음성으로부터 추출된 적어도 하나의 제3 특징 파라미터에 대한 상기 제1 UBM 모델의 제1 우도와 상기 제3 특징 파라미터에 대한 상기 제1 화자 GMM 모델의 제2 우도를 비교하여, 상기 제2 입력 음성이 상기 제1 화자의 음성인지를 판단하는 단계를 포함하고,
상기 기록 매체는 컴퓨터로 읽을 수 있는
기록 매체.