KR101618512B1

KR101618512B1 - 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법

Info

Publication number: KR101618512B1
Application number: KR1020150063190A
Authority: KR
Inventors: 양일호; 김명재; 허희수; 유하진
Original assignee: 서울시립대학교 산학협력단
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2016-05-09

Abstract

본 발명은 본 발명은 화자 인식 시스템 및 화자 인식 시스템에서 화자 모델을 보완하기 위한 추가 학습 발화 선택 방법에 관한 것으로서, 화자로부터 수신한 음성신호를 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식장치는 상기 화자로부터 음성신호를 수신하는 음성수신부, 수신한 상기 음성신호에서 주파수 특징을 추출하는 전처리부, 추출된 상기 주파수 특징을 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식부 및 상기 음성수신부, 상기 전처리부 및 상기 화자인식부의 동작을 제어하는 제어부를 포함하되, 상기 제어부는, 기등록된 사용자 여부 판단을 위해 상기 기등록된 사용자의 제 1 음성신호에서 추출한 제 1 주파수 특징을 포함하는 제 1 사용자 모델을 생성하고, 생성된 상기 제 1 사용자 모델을 데이터베이스에 저장하도록 제어하며, 상기 음성수신부가 상기 화자로부터 제 2 음성신호를 수신하도록 제어하고, 상기 전처리부가 수신된 상기 제 2 음성신호에서 제 2 주파수 특징을 추출하도록 제어하며, 상기 화자인식부가, 저장된 상기 제 1 사용자 모델에 포함된 상기 제 1 주파수 특징과 상기 제 2 주파수 특징의 일치 여부에 따라 상기 화자가 상기 기등록된 사용자인지 여부를 판단하도록 제어하고, 상기 음성수신부가 상기 기등록된 사용자로부터 제 3 음성신호를 수신한 경우, 수신된 상기 제 3 음성신호를 이용하여 상기 제 1 사용자 모델을 갱신하는 것을 특징으로 한다.

Description

가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법{Gaussian mixture model based speaker recognition system and the selection method of additional training utterance}

본 발명은 화자 인식 시스템 및 화자 인식 시스템에서 화자 모델을 보완하기 위한 추가 학습 발화 선택 방법에 관한 것이다. 더욱 상세하게는, 가우시안 혼합 모델에 기반한 화자 인식 시스템에서 배경 화자 모델 대비 화자 모델 분산의 비율을 이용하여 추가 학습 발화를 선택하는 시스템 및 방법에 관한 것이다.

최근 음성인식 기술이 중요한 화두로서 떠오르고 있는 실정이다. 스마트폰을 비롯하여 네비게이션, 로봇제어등의 다양한 분야에서 음성인식이 다수 사용되고 있다.

최근에는 이를 넘어서 음성의 발화자를 판단하는 방법에 관하여 연구가 진행되고 있으며, 음성의 발화자를 판단하는 방법은 최근 중요시 여겨지는 보안에도 적용될 수 있어 다수의 연구가 진행되고 있는 편이다.

발화자를 판단하는 방법의 경우, 가우시안 혼합 모델(GMM, Gaussian mixture model)을 이용하는 방법이 널리 알려져 있다.

이때 가우시안 혼합 모델을 이용하는 화자 인식시스템이 높은 정확도를 갖기 위해서는 대량의 학습 발화가 필요하고, 사전에 다수인의 대량 발화를 이용하여 배경 화자 모델(Universal background model)을 구축 후, 사용자의 소량 발화를 이용하여 적응 학습하는 GMM-UBM(Gaussian mixture model - universal background model) 방법이 이용되고 있다.

GMM-UBM방법의 경우, 사용자의 소량 발화를 이용하는 적응 학습을 통해 사용자 모델을 구축하며, 사용자 모델을 위한 적응학습은 다양한 음소를 충분하게 포함하고 있어야 한다.

그리고 사용자 모델의 보완을 위해 부족한 음소를 판단하고, 사용자로부터 재학습을 위한 추가 학습용 발화를 선택하며, 재학습을 통해 음소를 충분히 확보해 화자인식시스템의 정확도를 높일 수 있다.

다만, 부족한 음소를 판단하고, 추가 학습용 발화를 선택함에 있어 종래에는 시간적, 금전적 추가 비용이 발생한다는 문제가 있다.

그래서, 종래보다 시간적, 금전적 추가 비용의 절감을 위한 새로운 방식의 부족한 음소 판단 및 추가 학습용 발화를 선택하는 기술이 요구되고 있는 실정이다.

대한민국 특허청 특허공개공보 제10-2011-0010233호 대한민국 특허청 특허공개공보 제10-2011-0025356호

본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 안출된 것으로서, GMM-UBM(Gaussian mixture model - universal background model) 방법을 이용하되, 사용자 모델의 보완을 위해 부족한 음소를 판단하고 추가 학습용 발화의 선택에 있어서 배경 화자 모델 대비 화자 모델 분산의 비율을 이용하여 추가 학습 발화를 선택하는 시스템을 사용자에게 제공하는데 목적이 있다.

한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 실현하기 위한 본 발명의 일례와 관련된 화자로부터 수신한 음성신호를 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식장치는, 상기 화자로부터 음성신호를 수신하는 음성수신부, 수신한 상기 음성신호에서 주파수 특징을 추출하는 전처리부, 추출된 상기 주파수 특징을 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식부 및 상기 음성수신부, 상기 전처리부 및 상기 화자인식부의 동작을 제어하는 제어부를 포함하되, 상기 제어부는, 기등록된 사용자 여부 판단을 위해 상기 기등록된 사용자의 제 1 음성신호에서 추출한 제 1 주파수 특징을 포함하는 제 1 사용자 모델을 생성하고, 생성된 상기 제 1 사용자 모델을 데이터베이스에 저장하도록 제어하며, 상기 음성수신부가 상기 화자로부터 제 2 음성신호를 수신하도록 제어하고, 상기 전처리부가 수신된 상기 제 2 음성신호에서 제 2 주파수 특징을 추출하도록 제어하며, 상기 화자인식부가, 저장된 상기 제 1 사용자 모델에 포함된 상기 제 1 주파수 특징과 상기 제 2 주파수 특징의 일치 여부에 따라 상기 화자가 상기 기등록된 사용자인지 여부를 판단하도록 제어하고, 상기 음성수신부가 상기 기등록된 사용자로부터 제 3 음성신호를 수신한 경우, 수신된 상기 제 3 음성신호를 이용하여 상기 제 1 사용자 모델을 갱신할 수 있다.

또한, 제어부는 데이터베이스에 저장된 배경 화자 모델(Universal background model)를 제 1 음성신호를 이용한 적응학습을 통해 제 1 사용자 모델을 생성할 수 있다.

또한, 제어부는 데이터베이스에 저장된 제 1 사용자 모델을, 제 3 음성신호를 이용한 적응학습을 통해 갱신할 수 있다.

또한, 제 1 사용자 모델의 갱신을 위해, 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 부족음소탐색부를 더 포함하고, 상기 부족음소탐색부는 상기 제 1 사용자 모델을 배경 화자 모델과 비교하여 상기 제 1 음소를 탐색하며, 상기 음성수신부는 탐색된 상기 제 1 음소를 포함하는 제 3 음성신호를 기등록된 사용자로부터 수신하고, 제어부는 수신한 제 3 음성신호를 이용하여 상기 제 1 사용자 모델을 갱신할 수 있다.

또한, 부족음소탐색부는, 제 1 음소를 탐색하기 위해, 제 1 사용자 모델에, 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하고, 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정할 수 있다.

또한, 부족음소탐색부는, 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트와 제 1 가우시안에 대응되고, 제 1 사용자 모델에 포함된 제 2 가우시안 컴퍼넌트를 비교하고, 상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정할 수 있다.

또한, 제어부는, 갱신 전의 제 1 사용자 모델의 보완을 위해 부족음소탐색부가 제 1 음소를 탐색하도록 제어하고, 탐색된 상기 제 1 음소를 포함하는 제 3 음성신호를 음성수신부가 기등록된 사용자로부터 수신하도록 제어하며, 갱신전의 제 1 사용자 모델을 수신된 상기 제 3 음성신호를 이용한 적응학습을 통해 갱신할 수 있다.

또한, 제어부는, 갱신 전의 제 1 사용자 모델의 보완을 위해 부족음소탐색부가 제 1 음소를 탐색하도록 제어하고, 탐색된 상기 제 1 음소를 포함하는 제 3 음성신호를 음성수신부가 기등록된 사용자로부터 수신하도록 제어하며, 상기 제 1 음성신호와 상기 제 3 음성신호를 결합하여 제 5 음성신호를 생성하고, 상기 데이터베이스에 저장된 배경 화자 모델을 상기 제 5 음성신호를 이용한 적응학습을 통해 갱신할 수 있다.

또한, 제어부는, 제 3 음성신호를 기등록된 사용자에게 발화 요구를 하여 기 음성수신부를 통해 수신하도록 제어할 수 있다.

또한, 제어부는, 음성수신부를 통해 기등록된 사용자의 일상생활 중의 제 4 음성신호를 수신하도록 제어하고, 상기 수신된 제 4 음성신호를 데이터베이스에 저장하며, 상기 저장된 제 4 음성신호를 제 3 음성신호로 이용하여 상기 제 1 사용자 모델을 갱신할 수 있다.

한편, 상술한 과제를 실현하기 위한 본 발명의 다른 일례와 관련된 화자인식을 위해 사용자 모델을 보완하는 방법은, 제어부가 데이터베이스에 배경 화자 모델(Universal background model)를 저장하는 제 1 단계, 음성수신부가 제 1 음성신호를 수신하는 제 2 단계, 상기 제어부가 수신된 제 1 음성신호를 이용하여 사용자를 등록하는 제 3 단계, 상기 제어부가, 수신된 상기 제 1 음성신호를 상기 배경 화자 모델에 적응하여 등록된 사용자에 관한 제 1 사용자 모델을 생성하는 제 4 단계, 상기 제어부가, 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 제 5 단계, 상기 음성수신부가 상기 제 1 음소를 포함하는 제 2 음성신호를 상기 사용자로부터 수신하는 제 6 단계 및 상기 제어부가, 수신된 상기 제 2 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 갱신하는 제 7 단계를 포함할 수 있다.

또한, 제 4 단계는, 제어부가 수신한 제 1 음성신호를 분할하는 단계, 상기 제어부가 분할된 상기 제 1 음성신호에서 특징 벡터를 추출하는 단계 및 상기 제어부가 상기 배경 화자 모델을 추출된 상기 특징 벡터에 맞게 변형 적응하는 단계를 더 포함할 수 있다.

또한, 제 5 단계는, 부족음소탐색부가 상기 제 1 사용자 모델에, 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하는 단계 및 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 단계를 더 포함할 수 있다.

또한, 부족음소탐색부가 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트와 상기 제 1 가우시안에 대응되고, 상기 제 1 사용자 모델에 포함된 제 2 가우시안 컴퍼넌트를 비교하는 단계, 상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 단계를 더 포함할 수 있다.

또한, 제 6 단계는, 제어부가 제 2 음성신호를 상기 사용자에게 발화 요구를 하는 단계를 더 포함할 수 있다.

또한, 제 6 단계는, 음성수신부가 사용자의 일상생활에서 제 3 음성신호를 수신하는 단계, 제어부가 수신된 상기 제 3 음성신호를 상기 데이터베이스에 저장하는 단계 및 상기 제어부가 저장된 상기 제 3 음성신호를 가공하여 상기 제 2 음성신호로 변환하는 단계를 더 포함할 수 있다.

또한, 제 7 단계는, 제어부가 제 1 음성신호와 제 2 음성신호를 결합하여 제 4 음성신호를 생성하는 단계, 상기 제어부가 배경 화자 모델에 상기 제 4 음성신호를 적응하여 제 2 사용자 모델을 생성하는 단계 및 상기 제어부가 상기 제 1 사용자 모델을 상기 제 2 사용자 모델로 대체 시키는 단계를 더 포함할 수 있다.

한편, 상술한 과제를 실현하기 위한 본 발명의 다른 일례와 관련된 화자인식을 위해 사용자 모델을 보완하는 방법을 수행하기 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있고, 상기 디지털 처리 장치에 의해 판독될 수 있는 기록매체는, 제어부가 데이터베이스에 배경 화자 모델(Universal background model)를 저장하는 기능, 음성수신부가 제 1 음성신호를 수신하는 기능, 상기 제어부가 수신된 제 1 음성신호를 이용하여 사용자를 등록하는 기능, 상기 제어부가 수신된 상기 제 1 음성신호를 상기 배경 화자 모델에 적응하여 등록된 사용자에 관한 제 1 사용자 모델을 생성하는 기능, 상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능, 상기 음성수신부가 상기 제 1 음소를 포함하는 제 2 음성신호를 상기 사용자로부터 수신하는 기능 및 상기 제어부가 상기 수신된 제 2 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 갱신하는 기능을 포함하되, 상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능은, 부족음소탐색부가 상기 제 1 사용자 모델에, 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하는 기능, 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능, 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 포함시, 상기 제 1 가우시안 컴퍼넌트와 상기 제 2 가우시안 컴퍼넌트를 비교하는 기능 및 상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능을 실행할 수 있다.

한편, 상술한 과제를 실현하기 위한 본 발명의 다른 일례와 관련된 화자인식을 위해 사용자 모델을 보완하는 방법을 수행하기 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들이 유형적으로 구현되어 있는 프로그램은 제어부가 데이터베이스에 배경 화자 모델(Universal background model)를 저장하는 기능, 음성수신부가 제 1 음성신호를 수신하는 기능, 상기 제어부가 수신된 제 1 음성신호를 이용하여 사용자를 등록하는 기능, 상기 제어부가 수신한 상기 제 1 음성신호를 상기 배경 화자 모델에 적응하여 등록된 사용자에 관한 제 1 사용자 모델을 생성하는 기능, 상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능, 상기 음성수신부가 상기 제 1 음소를 포함하는 제 2 음성신호를 상기 사용자로부터 수신하는 기능 및 상기 제어부가 상기 수신된 제 2 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 갱신하는 기능을 포함하되, 상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능은, 부족음소탐색부가 상기 제 1 사용자 모델에, 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하는 기능, 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능, 상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 포함시, 상기 제 1 가우시안 컴퍼넌트와 상기 제 2 가우시안 컴퍼넌트를 비교하는 기능 및 상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능을 실행할 수 있다.

본 발명은 GMM-UBM(Gaussian mixture model - universal background model) 방법을 이용하되, 사용자 모델의 보완을 위해 부족한 음소를 판단하고 추가 학습용 발화의 선택에 있어서 배경 화자 모델 대비 화자 모델 분산의 비율을 이용하여 추가 학습 발화를 선택하는 시스템을 사용자에게 제공할 수 있다.

또한, 사용자 모델 보완을 통해 화자 인식도가 점진적으로 증가하는 화자 인식 시스템을 사용자에게 제공할 수 있다.

한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 일 실시례를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술적 사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다 .
도 1은 본 발명에 적용될 수 있는, 시스템 블록도의 일례를 도시한 것이다.
도 2는 본 발명에 적용될 수 있는, 사용자 모델의 보완을 위한 흐름도이다.
도 3은 본 발명에 적용될 수 있는, 수신된 사용자의 음성신호의 특징을 추출하는 단계에 관한 흐름도이다.
도 4는 본 발명에 적용될 수 있는, 탐색한 부족 음소를 재학습하는 단계에 관한 흐름도이다.
도 5는 본 발명에 적용될 수 있는, 화자 인식에 필요한 음소 중 부족한 음소를 탐색방법 일례를 도시한 것이다.
도 6a 및 도 6b는 본 발명에 적용될 수 있는, 부족한 음소 판단을 위한 화자 모델 비교 일례를 도시한 것이다.
도 7은 본 발명에 적용될 수 있는, 탐색된 부족한 음소를 포함하는 텍스트의 선택방법 일례를 도시한 것이다.
도 8은 본 발명에 적용될 수 있는, 재학습을 위하여 사용자에게 추가 발성 유도 일례를 도시한 것이다.

이하, 도면을 참조하여 본 발명의 바람직한 일 실시례에 대해서 설명한다. 또한, 이하에 설명하는 일 실시례는 특허청구범위에 기재된 본 발명의 내용을 부당하게 한정하지 않으며, 본 실시 형태에서 설명되는 구성 전체가 본 발명의 해결 수단으로서 필수적이라고는 할 수 없다.

또한, 명세서 전체에서 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우 외에도 중간에 다른 소자를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 그리고 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

최근, 모바일 단말기의 발전 및 사용자의 편의를 위하여 사용자의 음성 인식이 각광받고 있다. 특히 모바일 단말기와 대화식의 명령 및 제어에 사용되는 등의 범용적 이용되고 있는 추세에 있다.

최근에는 보안이 중요시 여겨지고 있어, 음성인식을 넘어서 음성으로 발화자를 판단하는 방법에 관하여 연구가 다수 진행되고 있는 실정이다. 즉 화자인식 기술은 발성한 화자가 등록된 화자들 중에 누구인지 또는 등록된 화자가 맞는지 아닌지를 결정하는 기술을 의미한다.

이때, 음성을 통해 발화자를 판단하는 방법은 가우시안 혼합 모델(GMM, Gaussian mixture model)을 이용하는 방법이 자주 이용되고 있다.

가우시안 혼합 모델을 이용하는 화자 인식시스템이 높은 정확도를 갖기 위해서는 대량의 학습 발화가 필요하고, 최근에는 사전에 다수인의 대량 발화를 이용하여 배경 화자 모델(Universal background model)을 구축 후, 사용자의 소량 발화를 이용하여 적응 학습하는 GMM-UBM(Gaussian mixture model - universal background model) 방법이 이용되고 있다.

즉, 사용자로부터 모든 발화를 입력받아 처리하기에는 시간적, 비용적인 문제가 발생되므로, 다수인에게서 사전에 발화를 입력받고 평균치를 만든 후, 사용자에게서 발화를 입력받아 일치 및 차이점을 계산하여 화자를 등록하는 방법이 이용되는 것이다.

다만, 화자를 등록함에 있어서, 사용자에게서 얻은 발화 내에는 모든 음소를 포함하고 있지 않거나, 등록을 위해 필요한 음소를 모두 포함되지 않은 경우가 발생될 수 있다.

이때, 부족한 음소를 용이하게 탐색하고, 부족한 음소를 보완할 수 있는 추가 학습 발화를 선택할 필요가 발생한다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 사용자에게서 얻은 발화에서 부족한 음소를 용이하게 탐색하고, 추가 학습 발화를 선택하여 재학습하는 장치 및 방법을 제공하고자 한다.

<구성>

도 1은 본 발명에 적용될 수 있는 시스템 블록도의 일례를 도시한 것이다. 단, 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소를 갖거나 적은 구성요소를 갖도록 구현될 수 있다.

도 1을 참조하면, 본 발명의 일례와 관련된 가우시안 혼합모델을 이용한 화자 인식 시스템(100)은 음성수신부(110), 전처리부(120), 음소 인식부(130), 부족 음소 탐색부(140), 추가 학습 발화 선택부(150), 재학습부(160), 제어부(170), 데이터베이스(180) 및 화자인식부(190)를 포함할 수 있다.

특히 전처리부(120)는 신호분할부(121) 및 특징 벡터 추출부(122)를 더 포함할 수 있다.

본 발명의 실시예에 따른 도 1에 도시된 구성요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며 소정의 역할들을 수행한다. 하지만, 각 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

한편, 음성수신부(110)은 사용자 또는 화자로부터 음성에 대응되는 음성신호를 입력받는다. 이때, 음성수신부(110)는 마이크와 같은 음성 입력 수단 및 입력된 음성을 증폭하기 위한 엠프를 포함할 수 있다. 또한, 기 저장된 파일을 통해 음성 신호를 입력받을 수 있다.

전처리부(120)는 분할된 일 구간의 음성 신호에 대한 노이즈 제거와 같은 신호 처리를 수행한다. 예를 들면, 화자의 음성과 함께 입력된 주변의 소음등을 제거하게 된다.

음성 신호 분할부(121)는 음성수신부(110)를 통해 입력된 음성신호를 복수의 구간을 분할한다. 구체적으로 입력받은 음성신호를 기설정된 시간 간격을 갖는 복수의 구간으로 분할할 수 있다.

특징 벡터 추출부(122)는 전처리가 수행된 일 구간의 음성신호로부터 특징 벡터를 추출한다. 그리고 특징 벡터 추출부(122)는 추출된 일 구간의 음성 신호에 대한 특징 벡터를 음소 인식부(130)에 출력한다.

음소 인식부(130)는 음성 신호 분할부(121)에서 분할된 복수의 구간 중 일 구간의 음성 신호에 대한 음소 인식을 수행한다. 이때, 음소 인식부(130)는 화자의 음성 데이터로부터 특징벡터가 추출되면, 상기 화자의 특징벡터 분포를 파라미터화 하여 화자모델을 생성한다. 이처럼 화자 모델을 만드는 방법으로는 가우시안 혼합모델(GMM: Gaussian Mixture Model), 은닉 마르코프 모델(HMM: Hidden Markov Model), 신경망(Neural Network) 등이 있다. 이 중에서 특히 본 발명의 목적을 달성하기 위해서는 가우시안 혼합모델이 바람직하다. 또한, 화자 모델은 배경 화자 모델(UBM)과 동일한 가우시안 혼합 수를 지닌 가우시안 혼합 모델을 독립적으로 EM(Expectation-maximization) 학습한 결과이거나, 배경 화자 모델(UBM)로 부터 MAP, MLLR 등의 방법으로 분산을 포함하여 적응한 것이다.

부족 음소 탐색부(140)는 데이터베이스(180)에 저장돼있는 기존 사용자 화자 모델에서 화자 인식에 필요한 음소 중 부족한 음소를 탐색한다. 탐색된 부족한 음소를 데이터베이스에 저장할 수 있다. 부족한 음소 탐색은 i)배경 화자 모델(UBM)의 각 가우시안 혼합 성분에 대응하는 화자 모델의 가우시안 혼합 성분을 찾는 단계, ii)배경 화자 모델(UBM) 성분 대비 화자 모델 성분의 분산비율이 가장 작거나, 혼합 성분이 없는 배경 화자 모델측 혼합 성분을 찾는 단계를 통해 이루어진다.

추가 학습 발화 선택부(150)는 부족 음소 탐색부(140)에서 탐색된 부족한 음소를 포함하는 텍스트를 선별하고, 데이터베이스(180)에 저장할 수 있다. 이때, 추가 학습 발화는 사전에 녹음된 데이터베이스(180) 중에서 기존 모델 학습에 포함되지 않았던 것 중에서 선택하거나, 동적으로 사용자에게 특정한 텍스트를 발성할 요청 하여 획득한다.

재학습부(160)는 추가 학습 발화 선택부(150)에서 선별된 텍스트가 사용자의 발화를 통해 입력된 경우, 해당 발화의 음소를 사용자 모델에 적용한다.

제어부(170)는 통상적으로 화자 인식 시스템(100)의 전반적인 동작을 제어한다. 즉, 사용자로부터 음성을 수신하기 위하여 음성수신부(110)의 동작을 제어할 수 있고, 음성수신부(110)에서 수신된 사용자의 음성을 분석하기 위해 전처리부(120)의 동작을 제어할 수 있으며, 화자 인식을 위해 음소 인식부(130)의 동작을 제어가능하다. 또한, 사용자 등록을 위해 부족한 음소를 탐색하고, 추가 학습을 위한 발화를 선택하기 위하여 부족 음소 탐색부(140) 및 추가 학습 발화 선택부(150)의 동작을 제어할 수 있다. 그리고 화자 인식부(190)를 통해 판단된 화자가 기 등록된 사용자 인지 여부에 관한 데이터를 가공하여 사용하도록 제어할 수 있다.

특히, 제어부(170)는 음성수신부(110), 전처리부(120), 음소 인식부(130), 부족 음소 탐색부(140), 추가 학습 발화 선택부(150), 재학습부(160), 데이터베이스(180)가 순차적 혹은 동시에 동작하도록 제어할 수 있다.

데이터베이스(180)는 제어부(170)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다. 또한, 사용자 등록을 위해 필요한 음소에 관한 데이터를 저장할 수 있고, 음소확보를 위한 텍스트 샘플을 저장할 수 있다. 그리고 배경 화자 모델(UBM), 기존 사용자 화자 모델도 저장될 수 있다. 게다가, 전처리부(120), 신호 분할부(121), 특징 벡터 추출부(122)에서 사용자의 발화를 처리하는 과정에서 발생되는 데이터를 저장할 수 있고, 제어부(170)의 제어에 의해 데이터가 입출력될 수 있다.

예를 들어, 데이터베이스(180)에는 적어도 한 명의 화자에 관한 음성 신호 데이터를 저장할 수 있고, 화자 각각의 음성신호에서 추출 가능한 특성 벡터 및 복수 개의 특성들로 이루어진 특성 조합의 특성 벡터가 화자 각각에 대해 산출되어 저장될 수 있다.

데이터베이스(180)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 타입(multimedia card type)이 있고, 카드 타입의 메모리로서 SD카드(Secure Digital Card), MicroSD카드(Micro Secure Digital Card), MagicGate, Memory stick, CF카드(CompactFlash Card), xD카드(xD-Picture Card) 등이 있으며, SSD(Solid State Disk), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 테이프, 자기 디스크(Floppy Disk Drive, FDD), 광디스크로서 CD(Compact Disc), DVD(Digital Versatile Disc), Blue Ray, HD DVD(High Density Digital Versatile Disc) 등이 있다.

본 발명과 관련된 화자 인식 시스템(100)은 상기와 같은 데이터베이스(180) 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 인터넷(internet)상에서 메모리의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

한편, 화자인식부(190)는 전처리부(120) 및 음소인식부(130)를 통해 얻어진 데이터를 이용하여 발화자가 기 등록된 사용자인지 여부를 판단할 수 있다.

상기와 같은 화자 인식 시스템(100)에 의해 화자 인식을 빠르게 수행할 수 있으며, 특히 사용자 등록을 위하여 부족한 음소의 보충을 용이하고 효율적으로 할 수 있어 시간 및 비용절감의 효과를 갖게 된다.

<작용>

도 2는 본 발명에 적용될 수 있는, 사용자 모델의 보완을 위한 흐름도이고, 도 3은 본 발명에 적용될 수 있는, 수신된 사용자의 음성신호의 특징을 추출하는 단계에 관한 흐름도이며, 도 4는 본 발명에 적용될 수 있는, 탐색한 부족 음소를 재학습하는 단계에 관한 흐름도이고, 도 5는 본 발명에 적용될 수 있는, 화자 인식에 필요한 음소 중 부족한 음소를 탐색방법 일례를 도시한 것이며, 도 6a 및 도 6b는 본 발명에 적용될 수 있는, 부족한 음소 판단을 위한 화자 모델 비교 일례를 도시한 것이고, 도 7은 본 발명에 적용될 수 있는, 탐색된 부족한 음소를 포함하는 텍스트의 선택방법 일례를 도시한 것이며, 도 8은 본 발명에 적용될 수 있는, 재학습을 위하여 사용자에게 추가 발성 유도 일례를 도시한 것이다.

도 2을 참조하면, 본 발명의 일례와 관련된 사용자 모델 보완 방법은 사용자의 음성신호를 수신(S110)하는 단계, 수신한 음성신호의 특징을 추출(S120)하는 단계, UBM을 이용하여 음성신호의 특징에 맞게 사용자 모델을 변형(S130)하는 단계, 변형된 화자인식 모델에서 부족한 음소를 탐색(S140)하는 단계 및 탐색한 부족 음소를 재학습(S150)하는 단계를 포함할 수 있다.

사용자의 음성신호를 수신(S110)하는 단계는 음성수신부(110)를 통해 사용자의 음성신호를 수신할 수 있다. 이때 수신된 음성신호는 실시간으로 처리를 하여 부족음소를 재학습하도록 사용될 수 있고, 데이터베이스(180)에 저장되어 일괄적으로 필요한 때, 사용될 수 있다.

사용자의 음성신호를 수신한 후, 수신한 음성신호의 특징을 추출(S120)하는 단계가 진행될 수 있다. 수신한 음성신호의 특징의 추출은 아래에서 보다 자세하게 다루도록 한다.

수신한 음성신호의 특징을 추출한 후, UBM을 이용하여 음성신호의 특징에 맞게 사용자 모델을 적응(S130)하는 단계가 진행될 수 있다. 이때, 한 번도 사용자 모델에 적응하지 않은 경우, 탑재되어 있는 UBM을 적응하여 사용자 모델을 생성할 수 있다. 이미 사용자 모델에 적응했던 경우, 적응된 사용자 모델을 재적응할 수 있고, 사용자 모델에 적응할 때 사용하였던 음소 및 사용자 모델에서 부족한 음소를 모두 UBM에 반영하여 사용자 모델을 적응 및 생성할 수 있다. 이러한 사용자 모델의 적응은 MAP(Maximum a posteriori)나 MLLR(Maximum-Likelihood Linear Regression) 방법을 이용할 수 있다.

일례로서, 임의의 등록된 화자의 i번째 가우시안 혼합모델은 다음 수학식 1에 의해 계산된다.

통계적인 계산에 의해 다음 수학식 5와 같이 각각 가중치, 평균, 분산 파라미터를 계산한다.

수학식 5를 통해서 얻어진 파라미터를 이용하여 화자에게 새롭게 얻어진 데이터를 종래 화자 모델과 적응하여 새로운 화자 모델을 생성하게 된다.

UBM을 이용하여 음성신호의 특징에 맞게 사용자 모델을 적응한 후, 변형된 화자인식 모델에서 부족한 음소를 탐색(S140)하는 단계가 진행될 수 있다. 부족한 음소의 탐색은 i)배경 화자 모델(UBM)의 각 가우시안 혼합 성분에 대응하는 화자 모델의 가우시안 혼합 성분을 찾는 단계, ii)배경 화자 모델(UBM) 성분 대비 화자 모델 성분의 분산비율이 가장 작거나, 혼합 성분이 없는 배경 화자 모델측 혼합 성분을 찾는 단계로 이루어진다.

도 5을 참조하면, 배경 화자 모델(UBM)의 각 가우시안 혼합 성분에 대응하는 화자 모델의 가우시안 혼합 성분을 찾는 단계는, 평균의 유클리디언 거리가 가장 가까운 두 가우시안 혼합 성분을 그리디 알고리즘으로 찾을 수 있으며, 두 가우시안 분포간 거리를 측정하는 척도(KL-divergence, Mhahlanobis distance)나 기존 화자 학습 발화 특징에 대한 각 혼합 성분별 사후 확률을 사용할 수 있다.

도 5 및 도 6을 참조하면, 배경 화자 모델(UBM) 성분 대비 화자 모델 성분의 분산비율이 가장 낮거나, 혼합 성분이 없는 배경 화자 모델측 혼합 성분을 찾는 단계는, 대응되는 두 혼합성분에 대한 분산의 비율을 계산하여 배경 화자 모델(UBM)에 비해 분산이 작은 배경 화자 모델(UBM)의 혼합 성분을 찾는다.

이때, 도 5 및 도 6을 참조하면, 분산이 작은 배경 화자 모델(UBM)의 혼합 성분은 다른 혼합 성분에 비하여 학습량이 상대적으로 적다고 판단되므로, 화자 모델 보완시 포함해야 할 특징 분포가 된다.

그리고 화자 모델 학습 발화에 포함되지 않은 특징 분포는 화자 적응 방법에 따라 대응되는 배경 화자 모델(UBM)의 가우시안 성분이 학습 되지 않고 남아 있는데, 이 또한 화자 모델 보완시 포함해야 할 특징 분포가 된다.

이와 같은 방법으로 가우시안 성분에서 배경 화자 모델(UBM) 성분 대비 화자 모델 성분의 분산비율이 가장 작거나, 혼합 성분이 없는 배경 화자 모델 측 혼합 성분이 없는 가우시안 컴퍼턴트에 해당하는 부분의 음소가 대상이 된다. 음소 인식은 학습한 text를 기반하여 재학습 대상에 해당되는 음소를 판단할 수 있다.

변형된 화자인식 모델에서 부족한 음소를 탐색한 후, 탐색한 부족 음소를 재학습(S150)하는 단계가 진행될 수 있다. 탐색한 부족 음소는 i)부족한 음소를 포함하는 텍스트를 사용자에게 발화를 하도록 요구하고, 사용자가 발화하는 경우 수신하여 상기 S110 내지 S130 단계를 통해 사용자 모델에 적응할 수 있다. ii)다른 방법으로는 일상생활(일례로서 전화통화) 중 음성 data를 수신하고, 수신된 음성 data의 특징을 미리 추출하여 데이터베이스(180)에 저장하였다가, 사용자가 시스템을 이용하지 않고 있을 때 재학습 및 사용자 모델에 적응할 수 있다.

상기와 같은 방법을 통하여 사용자 모델을 보완할 수 있으며, 시스템을 운영하는 동안 지속적으로 사용자 모델을 보완하여 화자인식시스템의 정확도를 높일 수 있다.

도 3을 참조하면, 수신한 음성신호의 특징을 추출하는 방법은 수신한 음성신호를 분할(S121)하는 단계, 분할된 음성 신호에서 특징 벡터를 추출(S122)하는 단계, 추출된 특징 벡터를 통해 음소를 인식(S123)하는 단계를 포함할 수 있다.

시스템이 사용자의 음성신호를 음성수신부(110)를 통해 수신한 후, 수신한 음성신호를 분할(S121)하는 단계가 진행된다. 이때, 음성신호의 분할은 푸리에 변환을 하여 DCT(Discrete Cosine Transform) 및 Inverse transform 을 통해 후처리를 하고 주파수 특성을 추출할 수 있다. 구체적으로 입력받은 음성신호를 기설정된 시간 간격을 갖는 복수의 구간으로 분할할 수 있으며, 분할된 일 구간의 음성 신호에 대한 노이즈 제거와 같은 신호 처리를 수행할 수 있다. 예를 들면, 화자의 음성과 함께 입력된 주변의 소음 등을 제거하게 된다.

수신된 음성신호를 분할한 후, 분할된 음성 신호에서 특징 벡터를 추출(S122)하는 단계가 진행된다. 전처리가 수행된 일 구간의 음성신호로부터 특징 벡터를 추출하고, 추출된 일 구간의 음성 신호에 대한 특징 벡터를 음소 인식부(130)에 출력한다.

일례로서, 마이크를 통하여 입력된 음성이 시스템으로 들어오면 일정 시간, 예컨대 1/100초 마다 화자의 음성학적 특징을 잘 표현할 수 있는 특징벡터를 추출한다. 이 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 화자의 차이, 발음 태도 등에는 둔감해야 하는데, 대표적으로는 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 사람의 음성인지 양상이 선형적이지 않고 로그스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해주는 고역강조 추출법 및 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화하는 창 함수 추출법 등이 있다. 이 중에서 특히, 본 발명의 목적을 달성하기 위해서는 음성 데이터로부터 스펙트럼 기반 청각특성을 적용한 멜 켑스트럼(MFCC)을 이용하여 특징값을 구별하는 추출법이 바람직하다.

특징 벡터를 추출한 후, 추출된 특징 벡터를 통해 음소를 인식(S123)하는 단계가 진행된다. 이를 위해 가우시안 혼합 모델을 이용하여 화자 모델을 만드는데, 방법은 하기와 같다.

음소 인식부(130)에서 생성하는 화자 모델 중 가우시안 혼합모델은, D차원의 특징벡터 x에 대해서 수학식 3과 같이 정의된다.

여기서 w_i는 혼합 가중치이고, p_i는 i번째 가우시안 혼합성분의 확률밀도 함수이다. 여기서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화 된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합을 의미한다.

또한, 수학식 3에서 p_i(x)는 수학식 4와 같이 정의된다.

그리고 화자를 인식하기 위해서는 먼저 임의의 화자로부터 음성이 입력되었을 때 가우시안 혼합모델의 파라미터를 추정한다. 이러한 파라미터 추정 방법으로는 최우추정법(maximum likelihood estimation)이 잘 알려져 있다. T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대해서, 가우시안 혼합모델의 우도 값은 다음 수학식 5에 의해 표현되어진다.

여기서 화자 모델의 파라미터

는 가중치

, 평균

, 공분산

으로 구성된다(i=1, 2, M). 최우 파라미터 추정은 EM(Expectation- Maximization) 알고리즘을 이용함으로써 얻어진다.

상기와 같은 방법으로 음소를 인식할 수 있으며, 인식된 음소를 이용하여 사용자 모델을 변형하는 단계(S130)로 넘어가게 되고, 이후 과정은 위에서 본 바와 같다.

도 4를 참조하면, 탐색한 부족 음소의 재학습은 탐색된 부족한 음소를 포함하는 텍스트를 선택(S151)하는 단계, 선택된 텍스트에 대응하는 음성신호를 수신(S152)하는 단계, 수신된 음성신호를 분할(S153)하는 단계, 분할된 음성 신호에서 특징 벡터를 추출(S154)하는 단계, 추출된 특징 벡터를 통해 음소를 인식(S155)하는 단계, 인식된 음소를 이용하여 종래 화자 모델을 개선(S156)하는 단계를 포함할 수 있다.

탐색된 부족한 음소를 포함하는 텍스트를 선택(S151)하는 단계는, 도 7을 참조하면 추가 학습용 발화는 데이터베이스에 기저장된 텍스트 중에, 사전에 녹음된 발화에 포함되지 않은 것에서 선택하거나, 부족한 음소가 있는 특정한 단어 또는 문장을 임의로 선택 및 생성할 수 있다.

또한, 스마트폰과 같은 모바일 단말기에서 사용자의 통화 중 발화 또는 음성 어시스턴트를 이용한 발화를 일정기간 혹은 일정분량의 확보시 화자 모델 갱신에 사용할 수 있다. 이때, 확보된 각 발화에 대해 가우시안 혼합 모델을 학습하고, 배경 화자 모델(UBM)대비 화자 모델 분산 비율을 계산한 후, 탐색한 혼합 성분에 대해 가장 분산 비율이 낮은 음소에 대응하는 발화를 추가 학습 발화로 선택할 수 있다.

또는, 스마트폰과 같은 모바일 단말기에서 사용자의 통화 중 발화 또는 음성 어시스턴트를 이용한 발화를 저장하였다가 탐색한 혼합 성분에 대해 가장 높은 사후 확률을 갖는 발화를 선택할 수 있다. 이 경우, 배경 화자 모델(UBM)의 각 가우시안 혼합 성분이 어떤 음소로 구성되는지 사전에 파악하고, 부족한 혼합 성분이 구성하는 음소를 포함한 발성 대본을 사용자에게 제시하는 방법으로 추가 학습용 발화를 선택할 수 있다.

텍스트를 선택한 후, 선택된 텍스트에 대응하는 음성신호를 수신(S152)하는 단계가 진행된다. 선택된 텍스트에 대응하는 음성신호를 수신하는 방법으로는 평상시 스마트폰과 같은 모바일 단말기에서 사용자의 통화 중 발화 또는 음성 어시스턴트를 이용한 발화를 저장하는 방법, 또는 도 8과 같이 필요시 사용자에게 특정한 단어 또는 문장을 발성할 것을 요청하는 방법 등이 이용될 수 있다.

선택된 텍스트에 대응하는 음성신호를 수신한 후, 수신된 음성신호를 분할(S153)하는 단계, 분할된 음성 신호에서 특징 벡터를 추출(S154)하는 단계, 추출된 특징 벡터를 통해 음소를 인식(S155)하는 단계, 인식된 음소를 이용하여 종래 화자 모델을 개선(S156)하는 단계가 진행되며, 이는 위에서 본 S121, S122, S123 단계와 동일한 방법이 적용될 수 있다.

또한, 화자인식부(190)는, 위에서 살펴본 바와 같이 음성 수신부(110)를 통해 사용자의 음성신호를 수신하고, 수신된 음성신호를 분할하며, 분할된 음성 신호에서 특징 벡터를 추출하고, 추출된 특징 벡터를 통해 음소를 인식한 후, 인식된 음소를 이용하여 사용자가 기등록된 사용자인지 여부를 판단할 수 있다. 일례로서 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 사용자가 기등록된 사용자인지 여부를 판단할 수 있다.

상기와 같은 방법을 통해 화자 인식 시스템에서 화자 모델을 갱신하여 사용자 인식능력을 저비용으로 향상시키는 화자 인식 방법을 구현할 수 있게 된다.

특히, 본 발명은 타 가우시안 혼합 모델을 이용하는 화자 인식시스템과 달리, 분산 비율을 조정하여 가장 분산 비율이 높은 발화를 탐색하여 부족한 음소를 효율적으로 찾을 수 있고, 부족한 음소에 대한 발화를 수집하여 화자 인식률을 높이는 효과가 존재한다.

한편, 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 케리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

또한, 상기와 같이 설명된 장치 및 방법은 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시례들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

1000 : UBM에 포함된 음소
1000a : UBM의 가우시안 분포
2000 : 사용자의 음성신호에 포함된 음소
2000a : 사용자 음성신호의 가우시안 분포
2100 : 사용자 음성신호의 주파수 특성
3000 : 부족 음소
3100 : 부족음소를 포함하는 텍스트

Claims

화자로부터 수신한 음성신호를 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식장치에 있어서,
상기 화자인식장치는,
상기 화자로부터 음성신호를 수신하는 음성수신부;
수신한 상기 음성신호에서 주파수 특징을 추출하는 전처리부;
추출된 상기 주파수 특징을 이용하여 상기 화자가 기등록된 사용자인지 여부를 판단하는 화자인식부; 및
상기 음성수신부, 상기 전처리부 및 상기 화자인식부의 동작을 제어하는 제어부;를 포함하되,
상기 제어부는,
기등록된 사용자 여부 판단을 위해 상기 기등록된 사용자의 제 1 음성신호에서 추출한 제 1 주파수 특징을 포함하는 제 1 사용자 모델을 생성하고,
생성된 상기 제 1 사용자 모델을 데이터베이스에 저장하도록 제어하며,
상기 음성수신부가 상기 화자로부터 제 2 음성신호를 수신하도록 제어하고,
상기 전처리부가 수신된 상기 제 2 음성신호에서 제 2 주파수 특징을 추출하도록 제어하며,
상기 화자인식부가, 저장된 상기 제 1 사용자 모델에 포함된 상기 제 1 주파수 특징과 상기 제 2 주파수 특징의 일치 여부에 따라 상기 화자가 상기 기등록된 사용자인지 여부를 판단하도록 제어하고,
상기 음성수신부가 상기 기등록된 사용자로부터 제 3 음성신호를 수신한 경우,
수신된 상기 제 3 음성신호를 이용하여 상기 제 1 사용자 모델을 갱신하는 것을 특징으로 하는, 화자인식장치.
제 1 항에 있어서,
상기 제어부는 상기 데이터베이스에 저장된 배경 화자 모델(Universal background model)를 상기 제 1 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 생성하는 것을 특징으로 하는, 화자인식장치.
제 2 항에 있어서,
상기 제어부는 상기 데이터베이스에 저장된 상기 제 1 사용자 모델을, 상기 제 3 음성신호를 이용한 적응학습을 통해 갱신하는 것을 특징으로 하는, 화자인식장치.
제 3 항에 있어서,
상기 제 1 사용자 모델의 갱신을 위해, 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 부족음소탐색부;를 더 포함하고,
상기 부족음소탐색부는 상기 제 1 사용자 모델을 상기 배경 화자 모델과 비교하여 상기 제 1 음소를 탐색하며,
상기 음성수신부는 탐색된 상기 제 1 음소를 포함하는 제 3 음성신호를 상기 기등록된 사용자로부터 수신하고,
상기 제어부는 수신한 제 3 음성신호를 이용하여 상기 제 1 사용자 모델을 갱신하는 것을 특징으로 하는, 화자인식장치.
제 4 항에 있어서,
상기 부족음소탐색부는,
상기 제 1 음소를 탐색하기 위해, 상기 제 1 사용자 모델에, 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하고,
상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시,
상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 것을 특징으로 하는, 화자인식장치.
제 4 항에 있어서,
상기 부족음소탐색부는,
상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트와 상기 제 1 가우시안에 대응되고, 상기 제 1 사용자 모델에 포함된 제 2 가우시안 컴퍼넌트를 비교하고,
상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우,
상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 것을 특징으로 하는, 화자인식장치.
제 4 항에 있어서,
상기 제어부는,
갱신 전의 제 1 사용자 모델의 보완을 위해 상기 부족음소탐색부가 상기 제 1 음소를 탐색하도록 제어하고,
탐색된 상기 제 1 음소를 포함하는 상기 제 3 음성신호를 상기 음성수신부가 상기 기등록된 사용자로부터 수신하도록 제어하며,
갱신전의 제 1 사용자 모델을 수신된 상기 제 3 음성신호를 이용한 적응학습을 통해 갱신하는 것을 특징으로 하는, 화자 인식 장치.
제 4 항에 있어서,
상기 제어부는,
갱신 전의 제 1 사용자 모델의 보완을 위해 상기 부족음소탐색부가 상기 제 1 음소를 탐색하도록 제어하고,
탐색된 상기 제 1 음소를 포함하는 상기 제 3 음성신호를 상기 음성수신부가 상기 기등록된 사용자로부터 수신하도록 제어하며,
상기 제 1 음성신호와 상기 제 3 음성신호를 결합하여 제 5 음성신호를 생성하고,
상기 데이터베이스에 저장된 배경 화자 모델을 상기 제 5 음성신호를 이용한 적응학습을 통해 갱신하는 것을 특징으로 하는, 화자 인식 장치.
제 3 항에 있어서,
상기 제어부는,
상기 제 3 음성신호를 상기 기등록된 사용자에게 발화 요구를 하여 상기 음성수신부를 통해 수신하도록 제어하는 것을 특징으로 하는, 화자인식장치.
제 3 항에 있어서,
상기 제어부는,
상기 음성수신부를 통해 상기 기등록된 사용자의 일상생활 중의 제 4 음성신호를 수신하도록 제어하고,
상기 수신된 제 4 음성신호를 상기 데이터베이스에 저장하며,
상기 저장된 제 4 음성신호를 상기 제 3 음성신호로 이용하여 상기 제 1 사용자 모델을 갱신하는 것을 특징으로 하는, 화자인식장치.
제어부가 데이터베이스에 배경 화자 모델(Universal background model)를 저장하는 제 1 단계;
음성수신부가 제 1 음성신호를 수신하는 제 2 단계;
상기 제어부가 수신된 제 1 음성신호를 이용하여 사용자를 등록하는 제 3 단계;
상기 제어부가, 수신된 상기 제 1 음성신호를 상기 배경 화자 모델에 적응하여 등록된 사용자에 관한 제 1 사용자 모델을 생성하는 제 4 단계;
상기 제어부가, 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 제 5 단계;
상기 음성수신부가 상기 제 1 음소를 포함하는 제 2 음성신호를 상기 사용자로부터 수신하는 제 6 단계; 및
상기 제어부가, 수신된 상기 제 2 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 갱신하는 제 7 단계;를 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
상기 제 4 단계는,
상기 제어부가 수신한 상기 제 1 음성신호를 분할하는 단계;
상기 제어부가 분할된 상기 제 1 음성신호에서 특징 벡터를 추출하는 단계; 및
상기 제어부가 상기 배경 화자 모델을 추출된 상기 특징 벡터에 맞게 변형 적응하는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
상기 제 5 단계는,
부족음소탐색부가 상기 제 1 사용자 모델에, 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하는 단계; 및
상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
부족음소탐색부가 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트와 상기 제 1 가우시안에 대응되고, 상기 제 1 사용자 모델에 포함된 제 2 가우시안 컴퍼넌트를 비교하는 단계;
상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우,
상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
상기 제 6 단계는,
상기 제어부가 상기 제 2 음성신호를 상기 사용자에게 발화 요구를 하는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
상기 제 6 단계는,
상기 음성수신부가 상기 사용자의 일상생활에서 제 3 음성신호를 수신하는 단계;
상기 제어부가 수신된 상기 제 3 음성신호를 상기 데이터베이스에 저장하는 단계; 및
상기 제어부가 저장된 상기 제 3 음성신호를 가공하여 상기 제 2 음성신호로 변환하는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
제 11 항에 있어서,
상기 제 7 단계는,
상기 제어부가 상기 제 1 음성신호와 상기 제 2 음성신호를 결합하여 제 4 음성신호를 생성하는 단계;
상기 제어부가 상기 배경 화자 모델에 상기 제 4 음성신호를 적응하여 제 2 사용자 모델을 생성하는 단계; 및
상기 제어부가 상기 제 1 사용자 모델을 상기 제 2 사용자 모델로 대체 시키는 단계;를 더 포함하는 것을 특징으로 하는, 화자인식을 위해 사용자 모델을 보완하는 방법.
화자인식을 위해 사용자 모델을 보완하는 방법을 수행하기 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있고, 상기 디지털 처리 장치에 의해 판독될 수 있는 기록매체에 있어서,
제어부가 데이터베이스에 배경 화자 모델(Universal background model)를 저장하는 기능;
음성수신부가 제 1 음성신호를 수신하는 기능;
상기 제어부가 수신된 제 1 음성신호를 이용하여 사용자를 등록하는 기능;
상기 제어부가 수신된 상기 제 1 음성신호를 상기 배경 화자 모델에 적응하여 등록된 사용자에 관한 제 1 사용자 모델을 생성하는 기능;
상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능;
상기 음성수신부가 상기 제 1 음소를 포함하는 제 2 음성신호를 상기 사용자로부터 수신하는 기능; 및
상기 제어부가 상기 수신된 제 2 음성신호를 이용한 적응학습을 통해 상기 제 1 사용자 모델을 갱신하는 기능;을 포함하되,
상기 제어부가 생성된 상기 제 1 사용자 모델의 보완을 위한 제 1 음소를 탐색하는 기능은,
부족음소탐색부가 상기 제 1 사용자 모델에, 상기 배경 화자 모델에 포함된 제 1 가우시안 컴퍼넌트에 대응되는 제 2 가우시안 컴퍼넌트가 포함되었는지 여부를 판단하는 기능;
상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 불포함시, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능;
상기 제 2 가우시안 컴퍼넌트가 상기 제 1 사용자 모델에 포함시, 상기 제 1 가우시안 컴퍼넌트와 상기 제 2 가우시안 컴퍼넌트를 비교하는 기능; 및
상기 제 2 가우시안 컴퍼넌트의 분산비율이 상기 제 1 가우시안 컴퍼넌트의 분산비율보다 작은 경우, 상기 제 1 가우시안 컴퍼넌트에 해당하는 음소를 상기 제 1 음소로 결정하는 기능;을 실행시키도록 하는 기록매체.
삭제