KR100776730B1

KR100776730B1 - 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법

Info

Publication number: KR100776730B1
Application number: KR1020060082524A
Authority: KR
Inventors: 이정철; 김민제
Original assignee: 울산대학교 산학협력단
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2007-11-19

Abstract

본 발명은, 입력되는 음성 구간을 검출하고, 검출된 음성의 특징을 추출하는, 전처리부와, 상기 전처리부로부터의 음성 특징을 이용하고, 핵심어 모델부와 비핵심어 모델부와 묵음 모델부를 통해서, 핵심어를 검출하는 가변어휘 핵심어 인식 시스템을 포함하고, 상기 비핵심어 모델부는, 음절을 다중 상태(multi state)로 구성하는 비핵심어 모델링부인 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 시스템을 제공한다.

음성인식, 핵심어, 비핵심어, 마르코브

Description

가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를 포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그 방법{SPEAKER-INDEPENDENT VARIABLE-WORD KEYWORD SPOTTING SYSTEM INCLUDING GARBAGE MODELING UNIT USING GAUSSIAN MIXTURE MODEL AND METHOD THEREOF}

도 1은 본 발명에 따른 화자독립 가변어휘 핵심어 인식 시스템의 네트워크를 나타내는 도면이며,

도 2는 본 발명의 일 실시예에 따른 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를 포함하는 화자독립 가변어휘 핵심어 검출 시스템을 나타내는 블록 다이어그램이며,

도 3은 본 발명에 따른 비핵심어 모델링인, 음절을 다중 상태(multi state)로 한 비핵심어 모델링 방법의 순서도이다.

도 4는 음성특징벡터의 확률값을 복수 개의 가우시안 확률 분포로 표현하는 이유를 설명하는 도면이고,

도 5는 음성특징벡터의 확률값을 복수 개의 가우시안 확률 분포로 표현하고, 그 가중치의 합이 1인 이유를 설명하는 상태 간의 천이확률에 관한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

100 전처리부 200 가변어휘 핵심어 인식 시스템

210 핵심어(keyword) 검출부 220 네트워크 구성부(network construction)

230 발음 변환기 240 핵심어 모델부

250 변경 어휘 입력부 255 인식 대상 단어 목록부

260 비핵심어 모델부 265 묵음 모델부

270 서브 폰(sub-phone) 모델부

280 은닉 마르코브 추측부(Hidden Markov Model estimation)

290 스피치 데이터베이스(speech database)

본 발명은 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를 포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그 방법에 관한 것으로서, 더 자세하게는, 기존의 음성인식 시스템에 변경을 가하지 않으면서도 음성인식에서 핵심어 검출 성능을 향상시킬 수 있도록, 본 발명이 제안하는 개선된 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부로 교체한 화자독립 가변어휘 핵심어 검출 시스템 및 방법에 관한 것이다.

최근의 음성인식 기술은 과거와 비교하여 많은 주목을 받고 있는 상황이다. 이것은, 음성인식 기술이 구현될 경우, 인터넷 정보 이용이나 전자 상거래, 각종 유비쿼터스 환경을 보다 편리하게 음성을 통하여 조작할 수 있을 뿐만 아니라, 손을 사용하기 어려운 차량 운행 등과 같은 경우에도 인터넷을 액세스한다든가 사무 나 기타 서비스를 이용할 수 있게 되어, 사용자의 다양한 니즈(needs)를 충족시켜줄 수 있기 때문이다. 또한, 이와 같은 음성인식은 각 사용자의 독특한 음성 주파수를 인식하기 때문에, 보안성(security) 문제도 해결할 수 있는 장점을 갖고 있다.

이하에서는, 이와 같이 최근에 부각되고 있는 음성인식 기술이 종래에 갖고 있는 문제점을 살펴보도록 한다.

일반적으로 음성인식 시스템에서 핵심어 검출이란 연속적인 음성 중에서 상대적으로 중요성이 높은 특정 단어를 인식함으로써 일을 수행하는 것을 말한다. 핵심어 검출은, 입력 음성 중 핵심어를 처리하는 핵심어 모델들과, 핵심어 이외의 나머지 부분을 처리하는 비핵심어 모델(garbage model)로 나뉘어져서, 인식대상 어휘 내의 핵심어를 검출하게 된다.

따라서, 핵심어 검출 시스템의 성능 향상을 위하여 적절한 비핵심어 모델의 선택이 필요하고, 비핵심어 모델의 성능은 이것을 어떻게 정의하고 구현할 것이며, 또한 핵심어 부분을 잠식하지 않으면서 비핵심어 부분 및 배경잡음 부분을 얼마만큼 효과적으로 표현해 줄 수 있는가에 따라 크게 좌우된다.

종래의 음성인식 기술에는 비핵심어 모델을 구성하기 위해서 두 가지 방법을 사용하고 있었다. 즉, 통계적인 방법을 사용하여 monophone 모델을 군집화(clustering) 하기 위하여 가중치 유클리딘 거리함수(weighted Euclidean distance)를 사용한 변환된 K 평균 알고리즘(modified k-means algorithm)을 적용하여 군집화하는 방법을 이용하고 있었다.

그리고, 비핵심어 음성 구간 전체를 하나의 상태(state)로 두어 다중 믹스쳐(mixtures)로 표현하는 방식이 있었다. 이를 위하여 먼저 훈련 데이터베이스(DB)를 이용하여 비핵심어 구간 전체를 단일 상태 단일 믹스쳐(single state single mixture)를 가지는 HMM(Hidden Markov Model)으로 구성한 후, 상태(state)의 믹스쳐 개수를 하나씩 증가시키면서 재훈련하는 과정을 반복하는 절차를 거치게 되는 방법을 채용하고 있었다.

상기와 같은 종래의 K 평균 군집화(K-means clustering) 방법은, K개의 그룹으로 군집화하여 K개의 비핵심어 모델을 사용한다. 하지만, 이 방법은 몇 가지 문제점이 발생한다. 먼저, 초기 K개의 중심값과 거리측정 함수에 민감한 특징을 가지고 있으며, 단순히 각 모델에서 모든 상태에서 발생하는 평균과 분산을 이용하여 가중치 유클리딘 거리함수를 구하게 되어, 각 상태에 대한 특징을 반영하지 못하게 되는 문제점을 갖고 있었다. 두 번째로, HMM을 구성할 경우, 중요한 파라미터인 상태(state) 사이의 천이 확률은 거리 계산시 참여하지 못하는 단점이 있었다. 세 번째로, 데이터의 발생 빈도와 상관없이 단순히 음소 44개의 모델을 K개로 군집화하기 때문에 군집을 위한 데이터가 너무 적어 신뢰도 높은 모델을 만들기 어렵다는 문제점을 또한 갖고 있었다. 네 번째로, 결과에 대한 해석이 어렵기 때문에 이후 새로운 데이터를 이용하여 재훈련이 어렵다는 문제점을 갖고 있었다.

한편, 상기의 두 번째 방법인 GMM(Gaussian Mixture Model) 방법은 음성구간을 단일상태(single state)로 구성한 다음, 가우시안 믹스쳐의 개수를 증가시키며 비핵심어모델을 구성하게 된다. 이 방법은 훈련과정은 간단하지만 단어 전체를 하 나의 모델로 구성하였기 때문에 배경잡음이나 간투사처럼 음절의 특성을 가지는 부분을 잘 표현하지 못한다는 문제점을 안고 있었다. 상술한 K 평균 군집화 방법 및 GMM 방법은, 각각의 조건과 경우에 따라 그 성능이 우위를 보이는 것이 달라 지게 되기 때문에, 성능상 어느 쪽이 우위에 있다고 단정적으로 얘기할 수 없지만, 종래의 핵심어 검출에서 현재 주류를 이루는 것은 상기 2가지 방법이다.

한편, 대한민국 공개특허공보 특2002-0045960(2002년 6월 20일 공개)에 기재되어 있는 종래의 기술에 따르면, 반음소 모델을 생성하는 방법을 제안하여 이를 안티-모델로 사용하고, 핵심어 검증 방법으로는 입력된 단어의 각 음소마다 정상적인 음소 모델과 안티-모텔과의 유사도를 이용한 신뢰도 측정 방법을 사용함으로써 반음소 모델과 발화 검증 방법을 사용하여 핵심어 검증 성능을 향상시키고자 하고 있다. 다시 말해, 상기 공보에 공개된 종래 기술은, 핵심어 검출 시스템에서 핵심어 인식의 성능을 향상시키기 위하여, 후처리 방법을 제안하여 핵심어 인식의 성능 향상을 꾀하였다.

본 발명은 상기와 같은 종래 기술들의 문제점 및 단점들을 해결, 극복하기 위하여 안출된 것으로서, 본 발명은, 비핵심어 모델링부를 비핵심어 부분과 배경잡음 부분의 제거 성능이 양호한 개선된 가우시안 믹스쳐 모델을 사용하여, 손쉽게 핵심어 검출 시스템의 성능을 향상시키는 것을 그 목적으로 한다.

다시 말해, 종래 기술에서 상술한 기술 중, GMM 방법에서 단어를 단일 상태(single state)를 구성하지 않고 음절을 다중 상태(multi state)로 구성하는 방 법을 이용하여 비핵심어 모델링부의 성능을 향상시키는 것을 목적으로 하고 있다.

본 발명의 다른 목적 및 장점들은 하기에 설명될 것이며, 본 발명의 실시예에 의해 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 조합에 의해 실현될 수 있다.

상술한 목적을 달성하기 위해서, 본 발명에 따른 일 실시예에 따르면, 입력되는 음성 구간을 검출하고, 검출된 음성의 특징을 추출하는, 전처리부와, 상기 전처리부로부터의 음성 특징을 이용하고, 핵심어 모델부와 비핵심어 모델부와 묵음 모델부를 통해서, 핵심어를 검출하는 가변어휘 핵심어 인식 시스템을 포함하고, 상기 비핵심어 모델부는, 음절을 다중 상태(multi state)로 구성하는 비핵심어 모델링부인 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 시스템을 제공한다.

또한, 상기 비핵심어 모델부는, 각 단어를 각 단어의 음절 수만큼의 비핵심어 모델의 연결로 구성하고, 상기 각 모델의 상태수를 1 이상으로 구성하여 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시키고, 원하는 믹스쳐 개수가 만들어질 때까지, 상기 모델의 믹스쳐 개수를 하나씩 증가시켜 가면서 재훈련 과정을 반복한다.

또한, 상기 재훈련 과정은, 하기 수학식 1

의 값 중 최대값의 경우를 선택하게 된다.

여기서, x는 음성 특징 벡터이고,

는 i번째 믹스쳐의 가중치, M은 믹스쳐(mixture)의 개수이고,

는 비핵심어모델 λ의 i번째 믹스쳐(mixture)의 가우시안(Gaussian) 확률분포이다.

한편, 본 발명에 따르면, 입력되는 음성 구간을 검출하고, 검출된 음성의 특징을 추출하는, 전처리 단계와, 상기 전처리 단계로부터의 음성 특징을 이용하고, 핵심어 모델과 비핵심어 모델과 묵음 모델을 통해서, 핵심어를 검출하는 가변어휘 핵심어 인식 단계를 포함하고, 상기 비핵심어 모델은, 음절을 다중 상태(multi state)로 구성하는 비핵심어 모델인 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 방법을 제공한다.

또한, 상기 비핵심어 모델은, 각 단어를 각 단어의 음절 수만큼의 비핵심어 모델의 연결로 구성하는 단계, 상기 각 모델의 상태수를 1 이상으로 구성하여 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시키는 단계, 및 원하는 믹스쳐 개수가 만들어질 때까지, 상기 모델의 믹스쳐 개수를 하나씩 증가시켜 가면서 재훈련 과정을 반복하는 단계를 포함한다.

또한, 상기 재훈련 과정은, 하기 수학식 1

의 값 중 최대값의 경우를 선택하게 된다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명에 따른 가변어휘 핵심어 인식 시스템의 네트워크를 나타내는 도면이며, 도 2는 본 발명의 일 실시예에 따른 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를 포함하는 화자독립 가변어휘 핵심어 검출 시스템을 나타내는 블록 다이어그램이다. 이하에서, 도 1 및 도 2를 참조하여 설명하기로 한다.

본 발명에 따른 가변어휘 핵심어 검출 시스템에서의 인식 네트워크는 핵심어 모델과 비핵심어 모델, 그리고 묵음모델의 결합으로 구성하였으며, 입력음성에는 핵심어가 반드시 하나만이 들어 있다고 가정하여 구성되었다. 그래서 입력음성이 들어오면 인식과정을 통하여 하나의 핵심어를 검출하게 된다.

여기서 언급되고 있는 음성인식 기술에 대하여 간략하게 살펴보면, 음성인식 기술은 크게 세 가지로 구분할 수 있는데, 인식대상에 따른 분류와 어휘에 따른 분류, 그리고 발음에 따른 분류로 나눌 수 있다.

인식 대상에 따라 '화자종속'과 '화자독립'으로 다시 나누어지는데, '화자종속'이란 학습된 화자의 명령만을 수행하는 기술이다. 즉, 화자가 미리 녹음을 통해 기계를 학습시킨 후에 실행하게 하는 것으로 화자 이외의 다른 사람의 명령은 인식을 보장할 수 없다. '화자독립'은 불특정 다수의 화자음성을 인식하게 하는 기술로 여러 명이 함께 사용할 수 있다. 당연히 화자독립 기술이 화자종속 기술보다 난이도가 높은 기술이다.

어휘는 다시 어휘종속과 어휘독립 기술로 나뉘는데, 어휘종속은 인식시키고자 하는 특정 단어, 즉 '우리집'과 같이 연결되지 않는 단독 어휘를 학습시킨 후에 인식하는 것이다. 어휘종속은 어휘의 크기에 따라 소용량 어휘인식, 대용량 어휘인식으로 재분류되는데, 대용량 어휘인식은 Dictation(낭독) 기술에서 볼 수 있듯이 수만 단어 이상을 인식하는 기술이다.

어휘독립은 가변 어휘인식으로도 불리는데,가변어휘 인식은 단어가 한정된 것이 아니라 기존에 학습된 어휘의 음소 특징을 추출, 조합하여 인식된 어휘 외의 어휘도 인식할 수 있는 기술이다.

발음에 따른 분류는 다시 분절음 인식과 연속음 인식으로 나뉘는데, 분절음 인식이란, 고립단어,즉, '우리집'과 같은 고립된 단어를 인식하는 것과 고립단어가 연결된 형태, 예를 들어 "Check E-mail" 등을 인식하는 연결단어 인식, 그리고 핵심어만 인식하는 핵심어 인식으로 문장에서 핵심어를 추출하는 기술로 구성된다.

핵심어 인식을 예를 들면 "동경에서 뉴욕까지…"의 문장에서 '동경'과 '뉴욕'이라는 핵심어를 추출하여 인식하는 것이다.

연속음 인식은 자연스런 문장을 인식하는 기술로 문장 전체를 모두 인식하는 것으로 음성인식 기술의 최종 관문으로 인식되고 있다.

여기서, 본 발명이 다루는 음성인식기술은 화자독립 가변어휘 핵심어 검출 시스템을 다루고 있으며, 이것은 본 명세서 전반에 해당되는 것이다.

다시 도 2로 돌아가서 설명을 하면, 본 발명에 따른 개선된 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를 포함하는 화자독립 가변어휘 핵심어 검출 시스템은, 전처리부(100)와, 가변어휘 핵심어 인식 시스템(200)를 포함한다.

상기 전처리부(100)는, 입력되는 음성 구간을 검출하고 검출된 음성의 특징을 추출하는 구성요소(element)이다. 또한, 상기 가변어휘 핵심어 인식 시스템(200)은, 상기 전처리부(100)로부터의 음성 특징을 이용하여 핵심어를 검출하는 구성요소이다.

그럼, 상기 가변어휘 핵심어 인식 시스템(200)에 대해서 좀 더 자세히 살펴보면, 상기 인식 시스템(2)은, 변경 어휘 입력부(250), 인식 대상 목록부(255), 발음 변환기(230), 스피치 데이터베이스(290), 은닉 마르코브 추측부(280), 서브 폰 모델부(270), 핵심어 모델부(240), 비핵심어 모델부(260), 묵음 모델부(265), 네크워크 구성부(220), 및 핵심어 검출부(210)를 포함한다.

상기 변경 어휘 입력부(250)는, 핵심어 모델부를 구성하는 기존 핵심어에 부가하거나 다른 핵심어로 변경하고자 할 경우 사용되는 부분으로, 변경 어휘가 인식 대상 단어 목록부(255)에 저장되도록 입력되는 유닛이다. 또한, 인식 대상 단어 목록부(255)는 변경 어휘 입력부(250)를 통해서 입력되는 변경 어휘를 반영하여 저 장하는 유닛이다.

또한, 발음 변환기(230)는, 상기 인식단어 목록부(255)에 저장되어 있는 단어를 한국어 표준 발음법을 바탕으로 하여 인식 어휘를 발음 표기로 변환하는 유닛이다. 이와 같은 발음 표기로 변환된 인식 어휘를 음소열로 변환시킨 후, 스피치 데이터베이스(290)에 저장된 음성 데이터로부터 훈련되어 지는 서브 폰(sub-phone) 모델부(270)를 이용하여 핵심어 모델부(240)에서 핵심어 모델을 구성하게 된다.

그 이후 핵심어 모델부(240)의 구성된 핵심어 모델과 비핵심어 모델부(260)에서 구성된 비핵심어 모델을 이용하여, 도 1과 같은 구조를 가지는 네트워크를 구성하여 핵심어를 검출하게 된다.

본 발명은 가변어휘 핵심어 인식 시스템(200)에서 사용되는 비핵심어 모델부(260)을 도 3을 참조하여 설명한다. 본 발명은, 기존의 가우시안 믹스쳐 모델 방법은 단어 전체를 하나의 모델로 구성하였기 때문에, 배경 잡음이나 간투사처럼 음절의 특성을 가지는 부분을 잘 표현하지 못하는 문제점을 해결하기 위하여, 다중 상태(multi state)로 비핵심어 모델을 구성하는 방법이다. 이 모델 구성의 과정은 다음과 같다.

각 단어에서 음절을 하나의 모델로 구성하였다. 예를 들어, 4음절 단어의 경우 4개의 비핵심어 모델의 연결로 구성하였다. 그리고 각 모델을 상태수를 1, 3, 9개로 달리 구성하여 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시킨다. 그런 다음 원하는 믹스쳐 개수가 만들어질 때까지 모델의 믹스쳐 개수를 하나씩 증가시켜 가면서 재훈련 과정을 반복하였다.

여기서, 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시킨다는 것은, 시간적 제약을 주어 음성 특징의 최소 시간을 보장하기 위한다는 것을 의미한다. 다시 말해, 3개의 상태를 가지는 모델의 경우, 3개 프레임 이상의 음성 특징벡터를 가지게 된다. 그리고, 재훈련 과정은, 믹스쳐를 증가시켜 어떤 연속 밀도 함수를 근사화하여 다양한 음성의 특징을 반영할 수 있도록 하기 위함이다. 다시 말해, 성별, 나이, 발성환경 등에 따라 달라지는 음성을 여러 개의 가중치를 부여한 확률분포를 줌으로써 근사화하여 모델링할 수 있다.

도 4는 음성특징벡터의 확률값을 복수 개의 가우시안 확률 분포로 표현하는 이유를 설명하는 도면이다. 도 4를 참조하면, 도 4의 a와 같이 어떤 특정 발화에 대한 음성특징의 분포가 주어졌을 때, 하나의 가우시안 분포를 사용할 경우 도 4의 b와 같은 형태를 가지게 되며, 따라서 도 4의 b에서 보듯이 음성의 특징분포와는 많은 차이가 있어 음성 인식의 성능을 저하시키게 됩니다. 하지만, 도 4의 c와 같이 3개의 가우시안 분포를 사용할 경우에는 원래 사람의 음성특징분포와 유사하게 가우시안 분포를 이용하여 모델링 할 수 있게 된다. 물론, 이 경우 모든 확률값의 합은 1이므로, 가중치의 합도 1이 되게 된다.

따라서, 이와 같은 음성 특징벡터에 대한 확률값은 하기 수학식 1과 같이 복수 개의 가우시안(Gaussian) 확률분포들의 가중합으로 구성된다.

하기 수학식 1을 통해서, 비핵심어 모델이 주어졌을 때 훈련 및 인식 과정에서 음성특징벡터에 대한 확률값은 복수개의 가우시안 확률분포들의 가중치된 합으로 구한다는 것을 명확히 알 수 있다.

도 5는 음성특징벡터의 확률값을 복수 개의 가우시안 확률 분포로 표현하고, 그 가중치의 합이 1인 이유를 설명하는 상태 간의 천이확률에 관한 도면이다. 도 5를 참조하면, 어떤 음성 특징벡터가 들어왔을 경우, 그 음성특징이 핵심어인지 비핵심어인지를 판별하기 위하여 각각의 모델에 대한 확률값을 구하게 되고, 그 확률값이 최대가 되는 모델을 선택하게 된다. 이때 다양한 음성의 특징을 반영하기 위하여 하기 수학식 1과 같이 확률값을 구하게 되고, 이는 도 5와 같이 복수 개의 가우시안 확률분포들의 가중치된 합에 의해 구해지게 된다.

수학식 1

여기서, x는 음성 특징 벡터이고,

는 i번째 믹스쳐의 가중치, M은 믹스쳐(mixture)의 개수이다. 그리고

이렇게 구성된 본 발명이 제안하는 비핵심어 모델부를 본 발명의 핵심어 인식 시스템(200)의 인식 네트워크(6)에 적용하였을 경우, 기존의 종래 핵심어 인식 시스템 또는 방법에 비하여 가변어휘 핵심어 검출의 성능을 높여줄 수 있는 실험 결과를 도출하였다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 특허청구범위의 균등 범위 내에서 다양한 수정, 변경 및 변형이 가능함은 물론이다.

이상에서 설명한 바와 같이, 본 발명에 따른 화자독립 가변어휘 핵심어 검출 시스템은, 종래의 핵심어 검출 시스템에서 비핵심어 모델링부를 비핵심어 부분과 배경잡음 부분의 제거 성능이 양호한 개선된 가우시안 믹스쳐 모델을 사용한 비핵심어 모델링부로 교체하여, 손쉽게 핵심어 검출 시스템의 성능을 향상시킬 수 있다.

또한, 본 발명에 따르면, 새로운 비핵심어 모델링 방법을 제안하여, 연속적인 음성 중에서 상대적으로 중요성이 높은 특정 단어를 인식함으로써 일을 수행하는 핵심어 검출 시스템에서 비핵심어를 효율적으로 모델링하여 오인식 결과를 감소시킬 수 있는 결과를 얻을 수 있다.

또한, 본 발명에 따른 핵심어 검출 시스템은 핵심어 검출 기반 음성인식 시스템을 사용하는 모든 분야의 HCI의 입력 장치로 활용될 수 있다.

Claims

입력되는 음성 구간을 검출하고, 검출된 음성의 특징을 추출하는, 전처리부와,

상기 전처리부로부터의 음성 특징을 이용하고, 핵심어 모델부와 비핵심어 모델부와 묵음 모델부를 통해서, 핵심어를 검출하는 가변어휘 핵심어 인식 시스템을 포함하고,

상기 비핵심어 모델부는, 음절을 다중 상태(multi state)로 구성하는 비핵심어 모델링부인 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 시스템.
제 1 항에 있어서,

상기 비핵심어 모델부는,

각 단어를 각 단어의 음절 수만큼의 비핵심어 모델의 연결로 구성하고,

상기 각 모델의 상태수를 1 이상으로 구성하여 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시키고,

원하는 믹스쳐 개수가 만들어질 때까지, 상기 모델의 믹스쳐 개수를 하나씩 증가시켜 가면서 재훈련 과정을 반복하는 것을 특징으로 하는 화자독립 가변어휘 핵심어 검출 시스템.
제 2 항에 있어서,

상기 재훈련 과정은, 하기 수학식 1

의 값 중 최대값의 경우를 선택하게 되는 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 시스템.

여기서, x는 음성 특징 벡터이고,
는 i번째 믹스쳐의 가중치, M은 믹스쳐(mixture)의 개수이고,
는 비핵심어모델 λ의 i번째 믹스쳐(mixture)의 가우시안(Gaussian) 확률분포이다.
입력되는 음성 구간을 검출하고, 검출된 음성의 특징을 추출하는, 전처리 단계와,

상기 전처리 단계로부터의 음성 특징을 이용하고, 핵심어 모델과 비핵심어 모델과 묵음 모델을 통해서, 핵심어를 검출하는 가변어휘 핵심어 인식 단계를 포함하고,

상기 비핵심어 모델은, 음절을 다중 상태(multi state)로 구성하는 비핵심어 모델인 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 방법.
제 4 항에 있어서,

상기 비핵심어 모델은,

각 단어를 각 단어의 음절 수만큼의 비핵심어 모델의 연결로 구성하는 단계,

상기 각 모델의 상태수를 1 이상으로 구성하여 다중 상태 단일 믹스쳐를 가지는 모델로 훈련시키는 단계, 및

원하는 믹스쳐 개수가 만들어질 때까지, 상기 모델의 믹스쳐 개수를 하나씩 증가시켜 가면서 재훈련 과정을 반복하는 단계를 포함하는 것을 특징으로 하는 화자독립 가변어휘 핵심어 검출 방법.
제 5 항에 있어서,

상기 재훈련 과정은, 하기 수학식 1

의 값 중 최대값의 경우를 선택하게 되는 것을 특징으로 하는, 화자독립 가변어휘 핵심어 검출 방법.

여기서, x는 음성 특징 벡터이고,
는 i번째 믹스쳐의 가중치, M은 믹스쳐(mixture)의 개수이고,
는 비핵심어모델 λ의 i번째 믹스쳐(mixture)의 가우시안(Gaussian) 확률분포이다.