WO2020054980A1

WO2020054980A1 - 음소기반 화자모델 적응 방법 및 장치

Info

Publication number: WO2020054980A1
Application number: PCT/KR2019/010032
Authority: WO
Inventors: 정치상
Original assignee: 삼성전자주식회사
Priority date: 2018-09-10
Filing date: 2019-08-09
Publication date: 2020-03-19
Also published as: KR20200029314A; US11804228B2; KR102598057B1; US20210193153A1

Abstract

본 개시는 자유발화 화자인식(Text-Independent Speaker recognition)의 성능 향상을 위한 화자모델 적응 방법 및 장치에 관한 것이다. 구체적으로 본 개시는 전자장치에 기저장된 화자모델의 적응에 있어서, 음소 단위로 화자특성 정보량의 변화를 고려하여 자유발화 화자인식의 성능을 개선하는 방법 및 장치에 관한 것이다. 본 개시의 전자장치의 제어방법은 사용자로부터 음성 신호를 입력받는 단계와, 복수의 화자모델 중 음성 신호에 대응하는 화자모델을 식별하는 단계와, 음성 신호에 포함된 복수의 음소 각각에 대하여, 식별된 화자모델에 각각의 음소가 입력되었을 때 화자모델의 화자특성 정보량의 변화를 판단하는 단계와, 판단결과를 바탕으로 복수의 음소 중 적어도 하나를 이용하여 식별된 화자모델을 학습시키는 단계를 포함한다.

Description

음소기반 화자모델 적응 방법 및 장치

본 개시는 자유발화 화자인식 (Text-Independent Speaker recognition) 의 성능 향상을 위한 화자모델 적응 방법 및 장치에 관한 것이다. 구체적으로 본 개시는 전자장치에 기저장된 화자모델의 적응에 있어서, 음소 단위로 화자특성 정보량의 변화를 고려하여 자유발화 화자인식의 성능을 개선하는 방법 및 장치에 관한 것이다.

자유발화 화자인식은 특정 문장(text) 에 고정되지 않고, 어떠한 발화를 통해서도 화자를 인식할 수 있는 기술이다. 따라서 사용자가 다양한 발화 내용을 포함하여 가능한 많은 발화를 통해 자신의 목소리를 등록한다면, 우수한 자유발화 화자인식 성능을 확보할 수 있다. 하지만 성능 확보를 위해 많게는 수 분의 화자등록을 요구하게 되고 이러한 경우 사용자의 사용성이 저하된다. 이를 극복하기 위해 화자등록 단계의 효율화를 위해 짧은 화자등록 발화를 사용할 수 있으나, 이 경우 초기 등록발화가 짧기 때문에 등록 모델이 모든 음소에 포함된 화자 정보를 충분히 포함하지 못하고, 화자인식 성능이 저하되는 문제점이 발생한다.

이를 극복하기 위한 또 다른 방법으로, 음성서비스에 사용되는 실발화를 통해 화자모델을 강화하는 방법을 제안하고 있다. 즉, 초기 화자등록을 수행하고, 사용자가 음성 서비스를 사용할 시 화자모델과의 유사성을 측정하여 화자 모델을 적응/강화하는 방법이 사용된다. 이러한 종래의 화자모델 적응 방법은, 실사용 음성이 특정화자일 확률 (화자인식 유사도)이 높은 경우 해당 화자모델 적응 훈련에 모든 입력음성을 사용한다. 다만 이러한 방법은 아래와 같은 문제점을 가진다.

종래의 경우 화자모델 적응을 위한 실사용 데이터는 음소의 균형적인 분포를 고려하지 않아, 각 음소 고유의 화자특성을 모두 포함하지 못한다. 즉, 현재 화자모델이 포함하고 있는 음소를 바탕으로 한 화자특성에만 의존적으로 유사도가 측정되고, 초기 화자모델의 음소 분포에 따른 화자특성 정보의 지협적인 최대치(local-maximum) 에 종속되는 문제 발생한다. 이러한 특정 음소군에 대한 의존적인 업데이트 과정으로 인해, 다양한 자유발화에 대한 화자인식 성능 확보가 어렵다는 단점이 있다.

상술한 바와 같이 종래의 방법들은 초기 등록발화의 화자특성 정보에 의존적인 화자모델 적응 방법들을 사용하고 있다. 본 발명은 상술한 필요성에 따른 것으로, 본 발명의 목적은 자유발화 화자인식 서비스를 사용하는데 있어, 화자등록 단계를 간단히 하는 사용성을 유지한 채 효율적으로 화자모델 적응 훈련을 하여 자유발화 화자인식의 성능을 향상시키는 것이다.

구체적으로 본 발명에서는 초기 등록 발화의 화자특성 정보의 한계를 극복하고 자유발화 화자인식의 성능을 향상시킬 수 있도록, 화자모델에 적응 시 발행하는 음소단위 화자특성 정보량의 변화를 고려한 화자모델 적응 방법을 제안한다.

상술한 과제를 해결하기 위한 본 개시의 일 실시 예에 따른 전자장치의 제어방법은, 사용자로부터 음성 신호를 입력받는 단계, 복수의 화자모델 중 상기 음성 신호에 대응하는 화자모델을 식별하는 단계, 상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하는 단계 및 상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 단계를 포함할 수 있다.

또한, 상기 학습시키는 단계는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하는 단계 및 상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계를 더 포함할 수 있다.

또한, 상기 학습시키는 단계는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하는 단계 및 상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계를 더 포함할 수 있다.

또한, 상기 화자모델에 대한 정보 변화량을 판단하는 단계는, 상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하는 단계 및 상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 단계를 더 포함할 수 있다.

또한, 상기 변화량을 판단하는 단계는, 상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고, 상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 것일 수 있다.

또한, 상기 지표는, 가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)일 수 있다.

또한, 상기 입력받는 단계는, 복수의 사용자로부터 복수의 음성 신호를 입력받는 것이고, 상기 화자모델을 식별하는 단계는, 상기 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하는 단계;를 더 포함하고, 상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 것일 수 있다.

또한, 상기 화자모델을 식별하는 단계는, 상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별하는 것일 수 있다.

상술한 과제를 해결하기 위한 본 개시의 일 실시 예에 따른 전자장치는,

마이크 및 복수의 화자모델 중 상기 마이크를 통해 입력된 음성 신호에 대응하는 화자모델을 식별하고, 상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하고, 상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 프로세서를 포함할 수 있다.

또한, 상기 프로세서는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하고, 상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시킬 수 있다.

또한, 상기 프로세서는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하고, 상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시킬 수 있다.

또한, 상기 프로세서는, 상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하고, 상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별할 수 있다.

또한, 상기 프로세서는, 상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고, 상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단할 수 있다.

또한, 상기 프로세서는, 상기 마이크를 통해 복수의 사용자로부터 입력된 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하고, 상기 식별된 음성 신호에 대응하는 화자모델을 식별할 수 있다.

또한, 상기 프로세서는, 상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별할 수 있다.

본 발명에 의하면, 화자인식 성능 강화를 위한 음소별 화자특성 정보 변화량을 이용하여 화자모델 적응을 위한 최적화 데이터를 선택할 수 있다. 즉, 화자모델 유사도 측정 기준을 통과한 데이터에 대하여 음소별 화자특성 정보 변화량을 측정한 후, 화자 특성 정보를 최대화 할 수 있는 최적의 데이터를 선택한다. 이를 통해 자유발화 화자인식의 등록 사용성을 확보할 뿐만 아니라, 제한된 데이터량에 기인한 초기 등록모델의 특성에 종속되지 않고, 사용자의 실발화로부터 화자 정보를 최대화할 수 있다. 즉, 본 발명을 통해 사용자가 음성 서비스를 사용할수록 자유발화 화자인식의 성능을 효율적으로 향상시킬 수 있다.

도 1은 본 개시의 일 실시 예에 따른, 복수의 사용자에 의해 사용되는 전자장치의 음성 인식 환경을 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른, 전자장치의 구성요소를 설명하기 위한 간단한 블록도이다.

도 3은 본 개시의 일 실시 예에 따른, 전자장치의 구성을 설명하기 위한 상세한 도면이다.

도 4는 본 개시의 일 실시 예에 따른, 프로세서의 구체적인 구성을 설명하기 위한 상세한 도면이다.

도 5는 본 개시의 일 실시 예에 따른, 음소 단위로 판단된 화자특성 정보량의 변화를 바탕으로 화자모델을 적응시키는 방법을 설명하기 위한 블록도이다.

도 6은 본 개시의 일 실시 예에 따른, 전자장치가 입력된 음성에 포함된 음소 각각에 대해서 화자모델에 입력 시 화자모델의 정보량의 변화를 판단하여, 화자모델을 적응시키는 것을 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시 예에 따른, 입력된 음성 신호에 대응하는 화자모델을 식별하는 것을 설명하기 위한 도면이다.

이하, 본 문서의 다양한 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

또한, 본 문서에서 사용된 "제 1," "제 2," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.

이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다. 도 1은 본 개시의 일 실시 예에 따른, 복수의 사용자에 의해 사용되는 전자장치의 음성 인식 환경을 설명하기 위한 도면이다.

도 1을 참조하면, 전자장치(100)는 복수의 화자(10, 20, 30)들로부터 음성을 입력받을 수 있다. 이때, 전자장치(100)는 AI 스피커 등 복수의 사용자에 의해 음성 신호를 입력받을 수 있는 전자장치로 구현될 수 있다. 이는 일 실시 예에 불과하고, 본 개시의 전자장치(100)는 사용자의 음성 신호를 입력받기 위한 마이크를 구비한 스마트 TV 등의 다양한 전자장치를 통해 구현될 수 있다.

한편, 전자장치(100)는 복수의 화자(10, 20, 30)에 대응하는 화자모델을 저장하고 있을 수 있다. 즉, 전자장치(100)는 사용되기 전 또는 사용 중에 복수의 화자(10, 20, 30)에 의해 화자인식을 위한 등록을 수행할 수 있다. 즉, 전자장치(100)는 복수의 화자 각각으로부터 음성인식을 위한 음소 정보를 획득하기 위해, 특정 문장을 읽는 등의 다양한 방법을 통해 음성 신호를 입력받을 수 있고, 획득한 음소 정보를 바탕으로 복수의 화자모델을 등록할 수 있다. 이때, 음소는 발화에 포함된 단어 및 낱말를 구별하여 의미를 분화시키는 소리의 최소 단위를 의미한다. 예를 들어, 한국어의 '살'과 '쌀'에서 첫소리인 /ㅅ/과 /ㅆ/, '손'과 '산'에서 모음 /ㅗ/와 /ㅏ/는 두 낱말의 의미를 구별시켜 주는 변별적 기능을 가진 음소이다.

전자장치(100)는 복수의 화자(10, 20, 30)에 대응하는 화자모델을 저장할 수 있다. 이때, 화자모델에는 각각의 화자에 대한 화자특성 정보를 포함할 수 있다. 구체적으로, 화자특성 정보는 화자의 구강 구조, 목의 길이 등과 같은 화자의 신체특성 정보와 특정 음소에 대한 발음 습관 등과 같은 화자의 발음특성 정보에 대한 정보를 포함할 수 있다. 다만 이에 한정하지 않고, 화자모델은 화자특성 정보 외에 화자의 음성 신호에 대응하는 주파수 정보를 포함하고 있을 수도 있다.

상술한 화자특성 정보는 입력받은 음성 신호를 통해 획득한 음소 정보를 분석함으로써 획득될 수 있다. 구체적으로, 전자장치(100)는 화자특성 정보를 출력하도록 학습된 인공지능 모델에 획득한 음소 정보를 입력함으로써 화자특성 정보를 획득할 수 있다.

한편, 인공지능 모델은 전자장치(100) 내부에 포함되어 있을 수도 있고, 외부 서버(200)에 포함되어 있을 수도 있다. 인공지능 모델이 외부 서버(200)에 포함되어 있는 경우, 전자장치(100)는 입력받은 음성 신호를 ADC(analogue to digital converter)를 통해 디지털 신호로 변환 후 외부 서버(200)로 전송할 수 있고, 외부 서버(200)는 수신한 음성에 대한 신호를 바탕으로, 화자 신체특정 정보 및 발음특성 정보를 포함하는 화자특성 정보를 획득할 수 있다. 전자장치(100)는 외부서버(200)가 획득한 화자특성 정보에 대한 데이터를 수신할 수 있다. 이후 전자장치(100)는 획득한 화자특성 정보를 각각의 화자모델에 대응시켜 저장할 수 있다.

한편, 전자장치(100)는 도 1에서와 같이 특정 화자(30)이 발화하는 경우, 기저장된 복수의 화자모델 중 해당 화자(30)에 대응하는 화자모델을 식별할 수 있다. 이때, 화자모델을 식별하는 방법은 음성 신호에 대응하는 주파수 정보와 화자모델에 포함된 화자특성 정보 및 주파수 정보를 바교하여 복수의 화자모델 중 유사도가 높은 화자모델을 식별하는 것일 수 있다.

화자(30)에 대응하는 화자모델을 식별한 후, 전자장치(100)는 화자(30)로부터 지속적으로 입력되는 실 발화를 입력받을 수 있다. 이때, 전자장치(100)는 입력되는 실 발화에 포함된 음소를 획득할 수 있다. 이때, 전자장치(100)는 STT 프로세스, 자소 음소 변환, 음소 구간 구분 등을 수행하여 음소를 획득할 수 있다. 이에 대한 자세한 사항은 추후에 설명하도록 한다.

한편, STT 프로세스, 자소 음소 변환, 음소 구간 구분 등의 프로세스는 전자장치(100)가 아닌 외부서버(200)에서 수행될 수 있다. 이 경우, 전자장치(100)는 입력받은 음성에 대한 디지털 변환 데이터를 외부서버(200)로 송신할 수 있고, 외부서버(200)로부터 인식된 음성에 대한 음소 정보를 수신할 수 있다. 한편, 음성인식을 수행하는 서버와 자소 음소 변환 서버는 동일한 외부서버(200)로 구현될 수도 있고, 별도의 서버로 구현될 수도 있다.

전자장치(100)는 새롭게 획득된 음소 각각이 기존의 화자모델에 입력될 경우, 기존의 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다. 이때, 화자특성 정보량이 증가한다는 것은 화자특성 정보에 포함된 화자 신체정보 중 새로운 신체정보, 예를 들어 구강구조에 대한 정보를 획득하는 것일 수도 있고, 이미 포함하고 있는 신체특성 정보, 예를 들어 후두부의 구조를 더욱 구체화하도록 하는 정보를 획득하는 것일 수도 있다. 또는 화자특성 정보량이 증가한다는 것은 화자특성 정보에 포함된 화자 발음정보, 예를 들면 새로운 음소에 대한 화자의 발음에 대한 정보를 새롭게 획득하는 것일 수도 있고, 기존의 화자모델에 포함된 특정 음소와 연이은 또 다른 음소를 발음할 때 특정 음소에 대한 발음이 상이하게 발음되는 것에 대한 정보를 획득하는 것일 수도 있다.

구체적으로, 전자장치(100)는 새로 획득된 음소와 화자모델에 포함된 음소와의 조합 결과, 기존의 화자모델에는 포함되어 있지 않은 새로운 화자특성 정보를 획득할 수 있는지 여부를 판단할 수 있다. 예를 들어, 기존의 화자모델은 /ㄱ/이라는 음소를 포함하는 음성 신호의 주파수 정보를 분석함으로써, 화자가 /ㄱ/을 발음하는 때의 발음 습관을 포함하고 있을 수 있다. 이때, 새로운 획득된 음성 신호에 /ㄱ/음소 이후 /ㅏ/음소를 발음하는 음성 신호가 포함되어 있는 경우, 전자장치(100)는 /ㄱ/ 음소와 /ㅏ/음소를 연속적으로 발음할 때의 신호 특성과 /ㄱ/음소만을 발음할 때의 신호 특성이 차이가 있는지 판단할 수 있다. 판단 결과 /ㄱ/음소에 대한 화자의 새로운 발음 습관이 추가되는 경우, 전자장치(100)는 화자모델이 포함하는 화자특성 정보량이 증가하는 것으로 판단할 수 있다.

전자장치(100)는 새로 획득한 음소가 기존의 화자모델과 관련하여 화자특성 정보량이 증가하는 것으로 판단한 경우, 해당 음소를 이용하여 화자모델을 학습 또는 적응시킬 수 있다.

상술한 바와 같이, 기존의 화자모델에 포함된 화자특성 정보량을 바탕으로 화자모델을 학습시킴으로써, 종래의 기술들과 같은 지협적인 최대치(local-maximum) 에 종속되는 문제 발생함을 방지할 수 있다. 즉, 종래의 기술은 기존의 화자모델 등록시 포함된 음소들에 대한 인식률이 강화되는 방향으로 학습되었으나, 본 개시에 따르면 기존에 포함된 음소인지 여부를 불문하고 화자특성 정보량을 기준으로 화자모델을 학습함으로써, global-maximum을 지향할 수 있다는 효과가 있다.

한편, 전자장치(100)가 스마트폰, 스마트TV, 스마트 리모컨 등 어플리케이션(application)이 설치될 수 있는 전자장치로 구현된 경우, 전자장치(100)는 인식한 음성 신호에 대응되는 기능을 수행하도록 외부장치를 제어하기 위한 어플리케이션을 구동할 수 있다. 이러한 어플리케이션은 출고 당시부터 전자장치(100) 상에 존재할 수 있다.

예를 들면, 사용자(30)는 전자장치(100) 내의 어플리케이션을 구동하여 "A 영화 틀어줘"와 같은 음성명령을 입력할 수 있다. 전자장치(100)는 복수의 오디오 신호 중 사용자(30)로부터 입력된 음성 명령을 인식할 수 있고, 전자장치(100)와 연결된 영상 콘텐츠를 출력할 수 있는 외부 장치로 음성 명령에 대응하는 기능을 수행하기 위한 제어 신호를 전송할 수 있다.

또한, 도 1에는 도시하지 않았으나, 전자장치(100)는 화자의 음성 신호를 전자장치(100) 내의 마이크뿐만 아니라, 전자장치(100)와 연결된 외부장치에 포함된 마이크를 통해 수신된 음성 신호를 전송 받을 수도 있다. 이 경우 전자장치(100)와 연결된 외부장치는 마이크를 포함하는 리모컨일 수 있으나, 이에 한정하지 않는다.

도 2는 본 개시의 일 실시 예에 따른, 전자장치의 구성요소를 설명하기 위한 간단한 블록도이다. 도 2를 참조하면, 전자장치(100)는 마이크(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다.

마이크(110)는 사용자로부터 음성 신호를 수신할 수 있다. 예를 들어, 마이크 (110)는 도 1에 도시된 복수의 화자(10, 20, 30)들로부터 전자 장치(100)를 제어하기 위한 사용자 음성을 통해 수신할 수 있다.

본 개시의 일 실시 예에 따라, 마이크(110)는 복수 개(예를 들어, 4개)의 마이크로폰으로 이루어진 마이크 어레이 구성을 가질 수 있다. 복수 개의 마이크로폰으로 이루어진 마이크 어레이는 음성 신호가 입력되는 방향을 추정할 수 있다. 본 개시의 일 실시 예에 따라, 마이크 어레이는 지향성 또는 무지향성 마이크로폰(directional or omnidirectional microphones)으로 이루어질 수 있고, 지향성 마이크로폰(directional microphones) 및 무지향성 마이크로폰(omnidirectional microphones)이 믹스된 구성일 수 있다.

메모리(120)는 복수의 화자에 대응하는 화자모델에 대한 정보를 저장할 수 있다. 특히 메모리(120)는 복수의 화자의 음소 별 화자특성 정보, 복수의 화자의 음성 신호에 대한 주파수 정보 등을 포함할 수 있다. 이때 화자특성 정보는 화자의 구강구조, 목길이 등에 대한 화자 신체특성에 대한 정보, 화자의 신체특성으로 인한 음소 별 음성신호 정보, 음소 별 화자의 발음습관 정보 등에 대한 정보 등 다양한 정보를 포함할 수 있다.

한편, 메모리(120)는 프로세서(130)의 처리 또는 제어를 위한 프로그램 등 전자장치(100) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 메모리(120)는 전자장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 전자장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부서버(200)로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 전자장치(100)의 기본적인 기능을 위하여 출고 당시부터 전자장치(100) 상에 존재할 수 있다. 응용 프로그램은, 메모리(120)에 저장되고, 프로세서(130)에 의하여 전자장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.

메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스 되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 ROM, RAM 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱, USB 메모리 등)를 포함할 수 있다.

프로세서(130)는 메모리(120)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어한다. 특히 프로세서(130)는 메모리(120)에 저장된 복수의 화자모델 중 마이크(110)를 통해 수신한 음성 신호에 대응하는 화자모델을 식별할 수 있다. 또한, 프로세서(130)는 수신한 음성 신호에 포함된 복수의 음소 각각에 대하여, 각각의 음소가 식별된 화자모델에 학습될 경우 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다. 프로세서(130)는 화자특성 정보량의 변화 정도를 바탕으로, 정보량의 변화가 큰 데이터를 화자모델에 학습시킬 수 있다.

한편, 프로세서(130)의 상세한 설명은 도 4에서 후술한다.

도 3을 참조하면, 전자장치(100)는 마이크(110), 메모리(120), 디스플레이(140), 스피커(150), 통신부(160), 인터페이스부(170) 및 상술한 구성들과 전기적으로 결합된 프로세서(130)를 포함할 수 있다. 마이크(110), 메모리(120), 프로세서(130)에 대해서는 이미 설명하였으므로 중복되는 설명은 생략하기로 한다.

프로세서(130)는 메모리(120)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어한다.

프로세서(130)는 도 2B에 도시된 바와 같이, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n), 버스(136)를 포함한다. 이때, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n) 등은 버스(136)를 통해 서로 연결될 수 있다.

ROM(132)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(134)는 ROM(132)에 저장된 명령어에 따라 메모리(160)에 저장된 O/S를 RAM(131)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(134)는 메모리(160)에 저장된 각종 어플리케이션 프로그램을 RAM(131)에 복사하고, RAM(131)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

그래픽 처리부(133)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 통신부(120)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다.

메인 CPU(134)는 메모리(120)에 액세스하여, 메모리(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(134)는 메모리(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

제1 내지 n 인터페이스(135-1 내지 135-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

본 발명의 일 실시 예에 따라, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

디스플레이(140)는 전자 장치(100)가 인식한 음성 명령에 따른 기능을 수행하기 위해, 그래픽 처리부(133)에서 생성된 다양한 화면을 디스플레이할 수 있다. 전자장치(100)는 디스플레이(140)를 구성요소로 포함하고 있을 수 있으나, 외부장치에 포함된 디스플레이에 다양한 화면을 표시하는 경우에는 후술할 인터페이스부(170)를 이용하여 외부장치의 디스플레이에 음성 명령에 다양한 화면을 디스플레이할 수 있다.

디스플레이(140)는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이(140)는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다.

또한, 본 발명의 일 실시예에 따른, 디스플레이(140)는 영상을 출력하는 디스플레이 패널뿐만 아니라, 디스플레이 패널을 하우징하는 베젤을 포함할 수 있다. 특히, 본 발명의 일 실시예에 따른, 베젤은 사용자 인터렉션을 감지하기 위한 터치 감지부(미도시)를 포함할 수 있다.

스피커(150)는 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(150)는 음성을 입력하는 화자에 대응하는 화자모델을 식별한 경우 이에 대한 알림 음을 출력할 수 있다.

통신부(160)는 외부서버(200)와 통신하기 위한 구성이다. 통신부(160)는 입력된 음성 신호에 대한 디지털 변환 신호를 외부서버(200)로 전송할 수 있다. 또한, 통신부(160)는 외부서버(200)에서 수행된 결과, 예를 들면 음성 신호에 포함된 음소를 분석하여 획득한 화자특성 정보를 수신할 수 있다.

한편 통신부(160)는 기타 외부장치와 통신할 수 있다. 이때, 외부장치의 종류는 영상 콘텐츠를 출력할 수 있는 전자장치일 수 있다. 예를 들어, 외부장치가 텔레비전인 경우, 외부장치의 종류는 영상기기이고, 텔레비전의 출력 데이터 정보는 텔레비전의 모델 명, 텔레비전의 출력 콘텐츠의 오디오 특성, 텔레비전의 출력 콘텐츠 중 출력 오디오의 주파수 특성 등을 포함할 수 있으나 이에 한정되지 않는다. 또한, 통신부(160)가 통신하는 외부장치는 영상 콘텐츠를 출력할 수 있는 장치 외에도 리모컨, 블루투스 스피커, 조명 장치, 스마트 청소기, 스마트 냉장고, IOT 홈 매니저 등을 포함할 수 있다.

마이크를 포함하는 외부장치와 통신하는 경우, 통신부(160)는 외부장치가 수신한 화자의 음성 신호에 대한 정보를 수신할 수 있다. 이 경우 통신부(160)는 리모컨을 통해 입력되는 사용자의 음성 명령을 수신할 수 있다. 통신부(160)는 또한, 리모컨에 포함된 스피커를 통해 수신한 화자의 음성 신호를 수신할 수 있다. 이는 일 실시 예에 불과하며, 통신부(160)는 BT 모듈을 통해 리모컨 신호를 수신할 수 있다.

한편, 통신부(160)는 Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system), CSMA/CD(carrier sense multiple access/collision detection) 방식을 통한 이더넷(Ethernet) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, Wibro 또는 GSM 등) 중 적어도 하나의 통신 방식에 대한 통신 모듈을 포함할 수 있다. 통신부(160)는 이러한 적어도 하나의 통신 모듈에 대응하는 복수의 통신부로 구현될 수 있다.

본 개시의 일 실시 예에 따르면, 통신부(160)는 리모컨과 같은 외부장치 및 외부서버(200)와 통신하기 위해 Wi-Fi 모듈을 이용할 수 있다. 또는, 통신부(160)가 복수의 통신부로 구현된 경우, 통신부(160)는 외부서버(200)와 통신하기 위해 이더넷 모뎀, WiFi 모듈 중 적어도 하나를 포함하는 통신부를 이용할 수 있고, 리모컨과 같은 외부 장치와 통신하기 위해 BT 모듈을 포함하는 통신부를 이용할 수도 있다. 다만 이는 일 실시 예에 불과하며 이에 한정하지 않는다.

인터페이스부(170)는 비디오 및 오디오를 입출력하기 위해, 외부장치와 전자장치(100)를 연결하기 위한 구성이다. 구체적으로 인터페이스부(170)는 유선 통신을 위한 구성인 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232), POTS(plain old telephone service) DVI, DP(display port), 썬더볼트 중 적어도 하나를 포함할 수 있다. HDMI는 오디오 및 비디오 출력하는 AV 기기용 고성능 데이터의 전송이 가능한 인터페이스이다. DP 는 1920x1080의 풀HD급은 물론, 2560x1600이나 3840x2160과 같은 초고해상도의 화면, 그리고 3D 입체영상을 구현할 수 있고, 디지털 음성 또한 전달 가능한 인터페이스이다. 썬더볼트는 고속 데티어 전송 및 연결을 위한 입출력 인터페이스이며, PC, 디스플레이, 저장장치 등을 모두 하나의 포트로 병렬 연결할 수 있다.

상술한 입출력 단자들은 실시 예에 불가하며, 인터페이스부(170)는 이외에 오디오 신호만을 출력하기 위한 포트 또는 비디오 신호만을 출력하기 위한 포트를 포함할 수도 있다.

도 4를 참조하면, 프로세서(130)는 발화량결정부(130-1), 유사도측정부(130-2), 음소기반 정보측정부(130-3), 화자모델 적응부(130-4), 음성인식부(130-5)를 포함할 수 있다.

발화량결정부(130-1)는 마이크(110)를 통해 입력되는 음성 신호의 축적된 신호의 길이를 측정할 수 있다. 구체적으로, 발화량결정부(130-1)는 특정 음성 신호의 축적된 지속시간이 기설정된 지속시간 이상인지 판단할 수 있고, 기설정된 기준 지속시간보다 긴 음성 신호만을 유사도측정부(130-2)로 전달할 수 있다.

유사도측정부(130-2)는 입력된 음성이 메모리(120)에 저장된 복수의 화자모델에 포함된 정보와 유사한지 판단할 수 있다. 구체적으로, 유사도측정부(130-2)는 입력된 음성 신호에 대응하는 주파수 신호를 획득할 수 있고, 복수의 화자모델에 포함된 각각의 음성에 대한 주파수 신호와 비교할 수 있다. 유사도측정부(130-2)는 복수의 화자모델 중 입력된 음성 신호의 주파수 정보와 가장 유사도가 높은 주파수 정보를 포함하는 화자모델을 식별할 수 있다.

음소기반 정보측정부(130-3)는 음성인식부(130-5)로부터 전달된 음성 신호에 포함된 각각의 음소들을 바탕으로, 식별된 화자모델에 각각의 음소들이 적응되는 경우 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다.

구체적으로, 음소기반 정보측정부(130-3)는 분리된 음소 각각에 대하여, BIC(Bayesian Information Criterion)을 통해 음소별 화자특성 정보량의 증가 여부를 판단할 수 있다. 이때, BIC는 가우시안 프로세스(Gaussian process)로 훈련된 모델의 정보량의 변화를 측정하기 위한 지표이다. BIC(P_i) 값이 0보다 크다는 의미는, 현재의 화자모델에 음소정보 P_i를 가지는 음소를 입력하였을 때, 해당 화자모델에 포함된 화자특성을 나타내는 정보량이 증가했다는 것을 의미한다.

화자모델 적응부(130-4)는 음소기반 정보측정부(130-3)에서 판단된 BIC(P_i) 값을 기초로, 화자모델에 적응할 음소를 판단할 수 있다. 구체적으로, 화자모델 적응부(130-4)는 BIC(P_i) 값이 기설정된 값보다 큰 모든 음소를 적응시킬 데이터로 판단할 수도 있고, 가장 큰 BIC(P_i) 값을 가지는 음소를 적응시킬 데이터로 판단할 수도 있다.

음성인식부(130-5)는 마이크(110)를 통해 입력된 음성 신호를 인식하기 위한 구성이다.

음성인식부(130-5)는 음성인식을 위해 음성 신호를 STT(Speak to Text) 프로세스를 수행할 수 있다. 한편, 음성인식부(130-5)는 음성인식을 수행 결과 텍스트로 변환된 음성 신호에 대해, 자소 음소 변환을 수행할 수도 있다. 자소 음소 변환이란, 자소 음소 변환이란 텍스트의 철자로부터 음소열을 생성해 내는 방법으로, 음성인식부(130-5)는 음성을 텍스트로 변환하는 음성인식(Automatic Speech Recognition) 프로세스를 수행하기 전후로 자소 음소 변환을 수행할 수 있다.

한편, 음성인식부(130-5)는 도 4와 같이 전자장치(100) 내의 프로세서(130)에 포함되어 구현될 수도 있고, 프로세서(130)와 별도의 구성으로 구현될 수도 있다. 또한, 음성인식부(130-5)는 외부서버(200)에 포함되어 구현되어 있을 수도 있다. 음성인식부(130-5)가 외부서버(200)에 포함된 경우, 전자장치(100)는 통신부(160)를 통해 입력된 음성 신호를 디지털 신호로 변환하여 전송할 수 있고, 음성인식 결과를 수신할 수 있다.

도 5를 참조하면, 본 개시의 전자장치(100)는 사용자로부터 음성 신호를 입력받을 수 있다(S510). 전자장치(100)는 복수의 화자로부터 음성 신호를 수신하는 상황에 있을 수도 있다. 따라서, 전자장치(100)는 복수의 화자가 미리 등록한 복수의 화자모델을 포함할 수 있다. 이러한 화자모델에는 각각의 화자에 대한 화자특성 정보를 포함할 수 있다. 구체적으로, 화자특성 정보는 화자의 구강 구조, 목의 길이 등과 같은 화자의 신체특성 정보 및 특정 음소에 대한 발음 습관 등과 같은 화자의 발음특성 정보에 대한 정보를 포함할 수 있다.

전자장치(100)는 복수의 화자모델 중 입력된 음성 신호에 대응하는 화자모델을 식별할 수 있다(S520). 구체적으로 전자장치(100)는 각각의 화자모델에 대응하는 음성 신호의 주파수 정보를 포함할 수 있다. 전자장치(100)는 입력된 음성 신호의 주파수 정보를 획득할 수 있고, 복수의 화자모델이 포함하는 주파수 정보와 비교할 수 있다. 전자장치(100)는 주파수 정보들을 비교하여 유사도를 판단한 결과, 유사도가 높은 화자모델을 입력한 음성 신호에 대응하는 화자모델로 판단할 수 있다.

전자장치(100)는 입력된 음성 신호에 포함된 복수의 음소 각각에 대하여, 식별된 화자모델에 각각의 음소가 입력되었을 경우 화자모델에 포함되는 정보의 변화량에 대하여 판단할 수 있다(S530). 구체적으로, 전자장치(100)는 새로 획득된 음소와 화자모델에 기포함된 음소와의 조합 결과, 기존의 화자모델에는 포함되어 있지 않은 새로운 화자특성 정보를 획득할 수 있는지 여부를 판단할 수 있다. 이에 대하여 자세한 사항은 도 6을 통해 상세히 설명하기로 한다.

전자장치(100)는 정보의 변화량에 대한 판단 결과, 새롭게 획득된 복수의 음소 중 화자모델에 획득된 음소가 입력되었을 때 화자 모델에 포함된 화자특성 정보량을 최대로 증가시키는 음소를 식별할 수 있다. 전자장치(100)는 화자특성 정보량을 최대로 증가시키는 음소를 이용하여 화자 모델을 학습시킬 수 있다.

또는, 전자장치(100)는 새롭게 획득된 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 화자 모델에 포함된 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별할 수 있다. 전자장치(100)는 식별된 적어도 하나의 음소를 이용하여 화자 모델을 학습시킬 수 있다(S540).

도 6을 참조하면, 전자장치(100)는 음성을 입력받을 수 있고(S610), 복수의 화자모델 중 음성 신호에 대응하는 화자모델을 식별할 수 있다(S620).

전자장치(100)는 입력된 음성 신호에 대하여 음성인식을 수행할 수 있다. 구체적으로, 음성인식을 위해 전자장치(100)는 STT(Speak to Text) 프로세스를 수행할 수 있다. 한편, 전자장치(100)는 음성인식을 수행 결과 텍스트로 변환된 음성 신호에 대해, 자소 음소 변환을 수행할 수도 있다(S630). 자소 음소 변환이란, 자소 음소 변환이란 텍스트의 철자로부터 음소열을 생성해 내는 방법으로, 전자장치(100)는 음성을 텍스트로 변환하는 음성인식(Automatic Speech Recognition) 프로세스를 수행하기 전후로 자소 음소 변환을 수행할 수 있다. 전자장치(100)는 텍스트의 각 어절을 기본 단위로 하여 어절 내부에 서 음운 규칙을 적용하거나 발음을 모델링하여 자소 음소 변환을 수행할 수 있으나, 이에 한정되지 않는다.

한편, 상술한 바와 같이 전자장치(100)가 입력된 음성에 대하여 직접 음성인식을 수행할 수도 있으나, 외부서버(200)를 통해서 음성인식을 수행할 수도 있다. 외부서버(200)에서 음성인식을 수행하는 경우, 전자장치(100)는 입력된 음성 신호를 디지털 신호로 변환하여 외부서버(200)로 전송할 수 있다. 외부서버(200)는 수신한 신호를 바탕으로, STT(Speak To Text)를 수행한 결과를 전자장치(100)로 전송할 수 있다.

한편, 외부서버(200)는 음성인식만을 수행하는 서버일 수도 있으나, 자소 음소 변환을 수행하는 서버일 수도 있다. 외부서버(200)가 자소 음소 변환을 수행하는 경우, 전자장치(100)는 외부서버(200)로부터 음성 인식된 데이터에 대한 자소 음소 변환된 결과를 수신할 수 있다. 이때, 음성인식을 수행하는 서버와 자소 음소 변환 서버는 동일한 서버로 구현될 수도 있고, 별도의 서버로 구현될 수도 있다.

한편, 전자장치(100)는 음성 신호를 상술한 방법에 의해 변환한 데이터를 음절로 분리하고, 분리된 음절을 특징변수를 이용하여 음소로 분리할 수 있다. 구체적으로, 전자장치(100)는 음성 신호의 각 프레임의 에너지, 영교차율, 스펙트럴 에너지비를 포함 하는 특징변수 중 적어도 하나를 이용함으로써, 음성 신호에 포함된 음소의 구간을 구분하여 분리할 수 있다.

전자장치(100)는 분리된 음소 각각에 대하여, BIC(Bayesian Information Criterion)을 통해 음소별 화자특성 정보량의 증가 여부를 판단할 수 있다. 이때, BIC는 가우시안 프로세스(Gaussian process)로 훈련된 모델의 정보량의 변화를 측정하기 위한 지표이다.

구체적으로 BIC(P_i)는 음소의 BIC 값을 의미하며, 다음과 같이 정의할 수 있다.

BIC(P_i) = I(P_i, M_n) - I(P_i|M_n) - I(M_n) - δ_i

I(P_i, M_n): 기존 화자모델에 해당 음소를 적응하였을 때 화자특성 정보량.

I(P_i|M_n): 기존 화자모델에 기 포함된 해당 음소에 대한 화자특성 정보량.

I(M_n): 기존 화자모델의 화자특성 정보량.

δi: 중첩 정보량에 대한 bias term.

이때 정보량 I(.) 는 각 변수에 대한 엔트로피(entropy) 값으로, 화자특성이 가우시안 모델(Gaussian model)을 활용하여 모델링 되었으므로, 화자모델 유사도 측정에 사용된 Likelihood 값을 사용하여 연산할 수 있다.

BIC(P_i) 값이 0보다 크다는 의미는, 현재의 화자모델에 음소정보 P_i를 가지는 음소를 입력하였을 때, 해당 화자모델에 포함된 화자특성을 나타내는 정보량이 증가했다는 것을 의미한다.

구체적으로, 전자장치(100)는 화자모델에 입력된 음성 신호에서 획득한 음소에 관한 정보가 이미 포함되어 있는 경우, 화자모델에 획득된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 화자모델에 포함된 해당 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 해당 음소에 대한 중첩 정보량에 대한 엔트로피 값을 감소시켜, 획득한 음소에 대한 BIC 값을 획득할 수 있다.

또는, 전자장치(100)는 화자모델에 입력된 음성 신호에서 획득된 음소에 관한 정보가 포함되어 있지 않는 경우, 화자모델에 획득된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 감소시켜 BIC 값을 획득할 수 있다.

한편, 전자장치(100)는 기설정된 시간 간격으로 화자로부터 입력되는 음성 신호의 특징을 판단할 수 있다. 예를 들면, 전자장치(100)는 20ms의 시간마다 음성 신호에 포함된 음소정보를 분석하여, 해당 음소를 화자모델에 학습시켰을 때 정보량이 증가하는지 여부를 판단할 수 있다.

전자장치(100)는 모든 음소에 대해 BIC(Pi) 값을 계산하고, 특정 음소를 화자모델에 적응 또는 학습시킬지 여부를 결정할 수 있다. 구체적으로, 전자장치(100)는 가장 높은 BIC(Pi) 값을 가지는 음소만을 이용하여 화자모델을 학습시킬 수도 있고, 기설정된 값 이상의 BIC(Pi) 값을 가지는 음소 중 적어도 하나를 이용하여 화자모델을 학습시킬 수도 있다(S650).

도 7을 참조하면, 전자장치(100)는 음성 신호를 입력받을 수 있다(S710). 이후 전자장치(100)는 입력된 음성 신호에 대한 축적된 지속시간이 기설정된 지속시간보다 짧은 경우(S720-N), 해당 음성 신호를 메모리(110) 또는 버퍼에 저장할 수 있다. 전자장치(100)는 입력된 음성 신호에 대한 축적된 지속시간이 기설정된 지속시간보다 긴 경우(S720-Y), 입력된 음성 신호에 대한 주파수 정보를 획득할 수 있다.

전자장치(100)는 입력된 음성 신호에 대한 주파수 정보와 복수의 화자모델 각각에 포함된 주파수 정보를 비교하여, 주파수 신호 간의 유사도를 측정할 수 있다. 전자장치(100)는 복수의 화자모델에 포함된 주파수 정보 중 입력된 음성 신호에 대한 주파수 정보와의 유사도가 기설정된 유사도보다 큰 주파수 정보가 없는 경우(S730-N), 입력된 음성의 화자에 대한 화자모델이 존재하지 않는 것으로 판단할 수 있다.

전자장치(100)는 복수의 화자모델에 포함된 각각의 주파수 정보 중에서 입력된 음성 신호에 대한 주파수 정보와의 유사도가 가장 큰 주파수 정보를 판단하고, 해당 화자모델을 입력된 음성에 대응하는 화자모델로 식별할 수 있다(S740).

이후, 전자장치(100)는 도 6에서 설명한 바와 같이, BIC 지표를 이용하여 음소 각각에 대해 식별된 화자모델에 적응 또는 학습 시 화자모델에 포함된 화자특성 정보량의 변화에 대하여 판단할 수 있고(S750), 판단 결과에 따라 결정된 음소를 화자모델에 적응 또는 학습 시킬 수 있다(S760).

또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

전자장치의 제어방법에 있어서,

사용자로부터 음성 신호를 입력받는 단계;

복수의 화자모델 중 상기 음성 신호에 대응하는 화자모델을 식별하는 단계;

상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하는 단계; 및

상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 단계;를 포함하는 제어방법.
제1항에 있어서,

상기 학습시키는 단계는,

상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하는 단계; 및

상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계;를 더 포함하는 제어방법.
제1항에 있어서,

상기 학습시키는 단계는,

상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하는 단계; 및

상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계;를 더 포함하는 제어방법.
제1항에 있어서,

상기 화자모델에 대한 정보 변화량을 판단하는 단계는,

상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하는 단계; 및

상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 단계;를 더 포함하는 제어방법.
제4항에 있어서,

상기 변화량을 판단하는 단계는,

상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고,

상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 것인 제어방법.
제5항에 있어서,

상기 지표는,

가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)인 제어방법.
제1항에 있어서,

상기 입력받는 단계는,

복수의 사용자로부터 복수의 음성 신호를 입력받는 것이고,

상기 화자모델을 식별하는 단계는,

상기 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하는 단계;를 더 포함하고,

상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 제어방법.
제1항에 있어서,

상기 화자모델을 식별하는 단계는,

상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별하는 제어방법.
전자장치에 있어서,

마이크; 및

복수의 화자모델 중 상기 마이크를 통해 입력된 음성 신호에 대응하는 화자모델을 식별하고,

상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하고,

상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 프로세서;를 포함하는 전자장치.
제9항에 있어서,

상기 프로세서는,

상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하고,

상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 전자장치.
제9항에 있어서,

상기 프로세서는,

상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하고,

상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 전자장치.
제9항에 있어서,

상기 프로세서는,

상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하고,

상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 전자장치.
제12항에 있어서,

상기 프로세서는,

상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고,

상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 전자장치.
제13항에 있어서,

상기 지표는,

가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)인 전자장치.
제9항에 있어서,

상기 프로세서는,

상기 마이크를 통해 복수의 사용자로부터 입력된 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하고,

상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 전자장치.