KR20160122564A

KR20160122564A - 음성 인식 장치 및 그 방법

Info

Publication number: KR20160122564A
Application number: KR1020150052650A
Authority: KR
Inventors: 권호민
Original assignee: 주식회사 시스트란인터내셔널
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2016-10-24

Abstract

음성 인식 장치 및 그 방법이 개시된다.
이 장치의 전처리부는 입력 음성에 대해 전처리를 통해 특징 벡터를 추출하고, 사용자 음향 저장부는 상기 전처리부를 통해 추출된 특징 벡터를 저장한다. 음성 단어 인식부는 상기 전처리부에서 추출되는 특징 벡터를 음소 단위를 기준으로 음향 모델과 단어 및 음소 모델과의 비교를 통해 단어 기준의 음성 인식을 수행한다. 인식 제어부는 기본 음성 인식 모드에서는 상기 음성 단어 인식부를 통해 화자에 상관없이 단어 기준의 음성 인식을 수행하도록 제어하고, 명령어 화자 인식 모드에서는 상기 음성 단어 인식부를 제어하여 설정되는 화자의 음성에 의한 명령어 단어를 인식하는 제어를 수행한다.

Description

음성 인식 장치 및 그 방법{Apparatus for recognizing voice and method thereof}

본 발명은 음성 인식 장치 및 그 방법에 관한 것이다.

음성 인식이란 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것으로써 좁게는 입력 음성에 대해 음성 분석, 음소 인식, 그리고 단어 인식까지를 의미하고, 넓게는 문장 해석 및 의미 추출까지를 의미한다.

이러한 음성 인식 기술의 발전으로 인해 대규모 직접 회로로써 구현되는 음성 인식 장치가 각종 전자 제품의 제어, 전화에 의한 은행 잔액 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용되고 있다.

그러나, 이러한 음성 인식 장치는 모든 화자의 음성을 인식하도록 되어 있어서 경우에 따라 특정 화자의 음성 인식만이 사용되어야 하는 경우에는 특정 화자의 음성 인식만을 수행하는 별도의 음성 인식 장치와 함께 사용하여야 하는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는 모든 화자의 음성을 인식하도록 설정되어 있는 음성 인식 장치에서 명령어 화자 인식 모드로의 모드 변경으로만 특정 화자의 음성 인식을 통한 명령어 인식이 가능한 음성 인식 장치 및 그 방법을 제공하는 것이다.

본 발명의 한 특징에 따른 음성 인식 장치는,

입력 음성에 대해 전처리를 통해 특징 벡터를 추출하는 전처리부; 상기 전처리부를 통해 추출된 특징 벡터를 저장하는 사용자 음향 저장부; 상기 전처리부에서 추출되는 특징 벡터를 음소 단위를 기준으로 음향 모델과 단어 및 음소 모델과의 비교를 통해 단어 기준의 음성 인식을 수행하는 음성 단어 인식부; 및 기본 음성 인식 모드에서는 상기 음성 단어 인식부를 통해 화자에 상관없이 단어 기준의 음성 인식을 수행하도록 제어하고, 명령어 화자 인식 모드에서는 상기 음성 단어 인식부를 제어하여 설정되는 화자의 음성에 의한 명령어 단어를 인식하도록 하는 인식 제어부를 포함한다.

여기서, 상기 음성 단어 인식부는, 다수의 화자의 음성에 대해 특징 정규화 훈련을 통해 추출된 특징 벡터로 구성되는 음향 모델; 상기 음성 인식 장치에서 인식될 명령어 단어와 해당 단어의 음소로 모델링되는 단어 및 음소 모델; 상기 명령어 화자 인식 모드에서 사용되는 음향 모델을 저장하는 가비지 음향 모델; 상기 명령어 화자 인식 모드에서 사용되는 단어 및 음소 모델을 저장하는 가비지 단어 및 음소 모델; 및 상기 인식 제어부의 제어에 따라, 상기 음향 모델, 상기 단어 및 음소 모델, 상기 가비지 음향 모델과 상기 가비지 단어 및 음소 모델을 사용하여 상기 기본 음성 인식 모드 또는 상기 명령어 화자 인식 모드에서의 음성 인식을 수행하는 음성 인식부를 포함한다.

또한, 상기 인식 제어부는 상기 명령어 화자 인식 모드에서 상기 음성 단어 인식부를 통해 음성 인식되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 설정하는 것을 특징으로 한다.

또한, 상기 인식 제어부는 상기 명령어 화자 인식 모드에서 화자가 설정되는 경우 설정되는 화자에 대응되어 상기 사용자 음향 저장부에 저장되어 있는 음향 데이터를 상기 가비지 음향 모델로 전달하여 저장한다.

또한, 상기 가비지 음향 모델에는 복수 화자의 음향 데이터가 저장되어 있는 것을 특징으로 한다.

또한, 상기 가비지 단어 및 음소 모델은 외부로부터의 입력에 의해 화자에 대응되는 명령어 단어 및 음소 모델을 저장하는 것을 특징으로 한다.

또한, 상기 가비지 단어 및 음소 모델에 저장된 명령어 단어 및 음소 모델은 상기 음성 인식 장치 또는 외부 장치를 통해 편집 가능한 것을 특징으로 한다.

또한, 상기 인식 제어부는 외부 장치를 통해 상기 사용자 음향 저장부에 등록되어 사용자 음향 데이터가 저장되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 설정하는 것을 특징으로 한다.

본 발명의 다른 특징에 따른 음성 인식 방법은,

음성 인식 장치가 음성 인식을 수행하는 방법으로서, 화자에 상관없이 입력 음성에 대한 단어 기준의 명령어 인식을 수행하는 기본 음성 입력 모드로 동작하는 단계; 명령어 화자 인식 모드로의 변경이 있는 경우, 상기 명령어 화자 인식 모드에서의 화자를 인식하는 단계; 인식되는 상기 명령어 화자 인식 모드에서의 화자에 대응되는 음향 모델과 단어 및 음소 모델을 설정하는 단계; 및 상기 명령어 화자 인식 모드에서의 화자의 명령어 음성을 인식하는 명령어 화자 인식 모드로 동작하는 단계를 포함한다.

여기서, 상기 화자를 인식하는 단계는, 상기 명령어 화자 인식 모드로의 변경 후 처음으로 입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계; 상기 특징 벡터를 사용자 음향 데이터로 저장하는 단계; 상기 특징 벡터에 대해 음향 모델과 단어 및 음소 모델을 사용하여 음성 인식을 수행하는 단계; 및 음성 인식 수행 결과를 출력하는 단계를 포함한다.

또한, 상기 화자를 인식하는 단계는, 외부 장치를 통해 입력되어 사용자 음향 저장부에 저장되는 음향 데이터에 대응되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 인식하는 것을 특징으로 한다.

또한, 상기 화자에 대응되는 음향 모델과 단어 및 음소 모델을 설정하는 단계는, 상기 사용자 음향 데이터를 가비지 음향 모델로 저장하는 단계; 상기 음향 모델과 단어 및 음소 모델을 사용할 것인지를 판단하는 단계; 상기 음향 모델과 단어 및 음소 모델을 사용할 것으로 판단되는 경우 상기 음향 모델과 단어 및 음소 모델을 가비지 단어 및 음소 모델에 저장하는 단계; 및 상기 음향 모델과 단어 및 음소 모델을 사용하지 않는 것으로 판단되는 경우, 외부 입력을 통해 상기 화자에 대응되는 단어 및 음소 모델을 입력받아서 상기 가비지 단어 및 음소 모델에 저장하는 단계를 포함한다.

또한, 상기 명령어 화자 인식 모드로 동작하는 단계는, 입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계; 상기 특징 벡터에 대해 상기 가비지 음향 모델과 상기 가비지 단어 및 음소 모델을 사용하여 화자 및 화자의 명령어 단어에 대한 음성 인식을 수행하는 단계; 및 음성 인식 수행 결과를 출력하는 단계를 포함한다.

또한, 상기 기본 음성 입력 모드로 동작하는 단계는, 입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계; 상기 특징 벡터를 사용자 음향 데이터로 저장하는 단계; 상기 특징 벡터에 대해 상기 음향 모델과 상기 단어 및 음소 모델을 사용하여 단어 기준의 음성 인식을 수행하는 단계; 및 음성 인식 수행 결과를 출력하는 단계를 포함한다.

본 발명에 따르면, 모든 화자의 음성을 인식하도록 설정되어 있는 음성 인식 장치에서 명령어 화자 인식 모드로의 모드 변경으로만 특정 화자의 음성 인식을 통한 명령어 인식이 가능하다.

이로 인해, 특정 화자의 명령어 인식에 드는 비용이 절감될 수 있다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치의 구성을 도시한 블록도이다.
도 2는 도 1에 도시된 음성 단어 인식부의 구체적인 구성을 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 기본 음성 인식 모드에서의 음성 인식 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 명령어 화자 인식 모드에서의 음성 인식 방법의 흐름도이다.
도 5는 도 4에 도시된 화자 인식 과정을 구체적으로 도시한 흐름도이다.
도 6은 도 4에 도시된 화자 대응 설정 과정을 구체적으로 도시한 흐름도이다.
도 7은 도 4에 도시된 명령어 화자 인식 모드 동작 과정을 구체적으로 도시한 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 본 발명의 실시예에 따른 음성 인식 장치에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치(10)의 구성을 도시한 블록도이다.

도 1을 설명하기 전에, 먼저 본 발명의 실시예에 따른 음성 인식 장치(10)는 두 개의 모드에 따라 동작하는 것으로 가정하여 설명한다. 여기서, 두 개의 모드로는 기본 음성 인식 모드와 명령어 화자 인식 모드가 있다. 기본 음성 인식 모드는 화자에 상관없이 설정되어 있는 명령어 단어의 음성을 인식하는 모드를 나타내고, 명령어 화자 인식 모드는 특정 화자의 명령어 단어만을 인식하는 모드를 나타낸다. 이 경우, 기본 음성 인식 모드에서 인식되는 대상 단어와 동일하거나 또는 상이할 수 있다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인식 장치(10)는 음성 입력부(100), 전처리부(200), 사용자 음향 저장부(300), 음성 단어 인식부(400), 발화 검증부(500) 및 인식 제어부(600)를 포함한다.

음성 입력부(100)는 외부로부터 입력되는 음성을 받아서 대응되는 본 발명의 실시예에 따른 음성 인식 장치(10)가 처리할 수 있는 음성 신호로 출력한다.

전처리부(200)는 음성 입력부(100)에서 출력되는 음성 신호에서 음성 인식에 필요한 특징 벡터를 추출한다.

사용자 음향 저장부(300)는 전처리부(200)에서 출력되는 음성 신호에서 사용자의 음향 데이터를 추출하여 저장한다.

또는, 사용자 음향 저장부(300)는 외부 장치(도시하지 않음)로부터의 입력을 통해 사용자의 음향 데이터를 전달받아서 저장할 수 있다.

음성 단어 인식부(400)는 전처리부(200)에서 추출되는 특징 벡터를 음소 단위를 기준으로 음향 모델과 단어 및 음소 모델과의 비교를 통해 단어 기준의 인식을 수행한다.

또한, 음성 단어 인식부(400)는 명령어 화자 인식 모드인 경우 사용자 음향 저장부(300)에 저장되어 있는 사용자의 음향 데이터, 음향 모델과 단어 및 음소 모델과의 비교를 통해 명령어 화자의 음성에 따른 단어 인식을 수행한다. 여기서, 명령어 화자 인식 모드의 경우 음성 단어 인식부(400)는 사용자 음향 저장부(300)에 저장되어 있는 사용자의 음향 데이터를 미리 전달받아서 저장하고 있는 상태이다.

또한, 음성 단어 인식부(400)는 명령어 화자 인식 모드의 경우 특정 화자에 대응되는 단어만을 외부로부터 입력받아서 별도의 단어 및 음소 모델로써 설정할 수가 있다.

발화 검증부(500)는 음성 단어 인식부(400)에 의해 인식된 결과에 대해 오인식 여부를 판별한다. 이 때, 오인식 여부는 거절 비율(reject rate)을 사용하여 판별되며, 이러한 거절 비율이 음성 단어 인식부(400)에서의 인식 수행 동작을 통해 내용에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.

인식 제어부(600)는 음성 인식 장치(10)의 전반적인 제어를 수행하며, 특히 기본 음성 인식 모드와 명령어 화자 인식 모드의 설정에 따라 대응되는 제어를 수행한다. 즉, 인식 제어부(600)는 기본적으로 음성 단어 인식부(400)가 기본 음성 인식 모드에서 동작하도록 제어하고, 사용자의 설정에 따라 명령어 화자 인식 모드로 설정되는 경우 음성 단어 인식부(400)와 발화 검증부(500)를 통해 명령어 단어가 인식되는 때의 사용자 음향 저장부(300)에 저장된 사용자 음향 데이터를 음성 단어 인식부(400)로 전달되도록 제어한 후, 음성 인식부(400)가 사용자 음향 데이터를 사용하여 특정 화자의 명령어 단어만을 인식하도록 제어한다. 이러한 기본 음성 인식 모드와 명령어 화자 인식 모드의 스위칭은 사용자에 의해 임의대로 이루어질 수 있으며, 이를 위한 구성에 대해서는 본 기술분야의 당업자에 의해 쉽게 이해될 것이므로 여기에서는 구체적인 설명을 생략한다.

도 2는 도 1에 도시된 음성 단어 인식부(400)의 구체적인 구성을 도시한 도면이다.

도 2에 도시된 바와 같이, 음성 단어 인식부(400)는 음향 모델(410), 단어 및 음소 모델(420), 가비지 음향 모델(430), 가비지 단어 및 음소 모델(440) 및 음성 인식부(450)를 포함한다.

음향 모델(410)은 다수의 화자의 음성에 대해 특징 정규화 훈련을 통해 추출된 특징 벡터로 구성된다.

단어 및 음소 모델(420)은 음성 인식 장치(10)에서 인식될 명령어 단어와 해당 단어의 음소로 모델링된다.

상기한 음향 모델(410)과 단어 및 음소 모델(420)에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.

가비지 음향 모델(430)은 명령어 화자 인식 모드에서 사용되는 음향 모델을 저장한다. 즉, 가비지 음향 모델(430)은 명령어 화자 인식 모드로 설정되는 경우 사용자 음향 저장부(300)에 저장된 사용자 음향 데이터를 전달받아서 저장한다.

또한, 가비지 음향 모델(430)은 명령어 화자 인식 모드에서 설정되는 복수의 화자별 사용자 음향 데이터를 저장한다.

또한, 가비지 음향 모델(430)은 음성 인식 장치(10)의 동작 초기에는 사용자 음향 데이터를 저장하지 않는다.

가비지 단어 및 음소 모델(440)은 명령어 화자 인식 모드에서 사용되는 단어 및 음소 모델을 저장한다. 명령어 화자 인식 모드에서도 기본 음성 인식 모드에서 사용되는 단어 및 음소 모델(420)에 저장되어 있는 단어 및 음소 모델을 사용하여 특정 화자의 명령어를 인식하여도 좋으나, 특정 화자의 특정 명령어만을 인식할 수 있도록 할 수 있으며, 이 경우 특정 명령어를 가비지 단어 및 음소 모델(440)에 저장한다.

단어 및 음소 모델(420) 및 가비지 단어 및 음소 모델(440)에 저장되는 단어 및 음소 모델은 음성 인식 장치(10)에 있는 입력 수단(도시하지 않음)을 통해 입력되거나 편집될 수 있으며 또는 외부 시스템을 통해 입력되거나 편집될 수 있다.

음성 인식부(450)는 인식 제어부(600)의 제어에 따라, 음향 모델(410), 단어 및 음소 모델(420), 가비지 음향 모델(430) 및 가비지 단어 및 음소 모델(440)을 사용하여 전처리부(200)에서 추출되는 특징 벡터에 대응되는 단어 기준의 음성 인식을 수행한다.

이 때, 음성 인식부(450)는 기본 음성 인식 모드에서는 음향 모델(410)과 단어 및 음소 모델(420)을 사용하여 음성 인식을 수행하지만, 명령어 화자 인식 모드에서는 가비지 음향 모델(430)과 가비지 단어 및 음소 모델(440)을 사용하여 화자 및 화자의 음성 인식을 수행한다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 음성 인식 방법에 대해 설명한다.

도 3은 본 발명의 실시예에 따른 기본 음성 인식 모드에서의 음성 인식 방법의 흐름도이다.

도 3을 참조하면, 외부로부터 화자의 음성이 입력되면(S100) 전처리를 통해 입력 음성에 대한 특징 벡터가 추출된다(S110).

그 후, 음성 단어 인식부(400)가 추출된 특징 벡터에 대해 음향 모델(410)과 단어 및 음소 모델(420)을 사용하여 단어 기준의 음성 인식을 수행한다(S120).

음성 인식 수행 결과 성공인 것으로 판단되면(S130), 거절 비율에 의거한 발화 검증이 수행되고(S140), 발화 검증 결과가 성공이면 본 발명의 실시예에 따른 음성 인식 장치(10)에서의 음성 인식이 수행되어 그 결과가 출력되어, 인식 단어에 대응되는 제어가 수행될 수 있다(S150).

상기한 설명은 음성 인식 장치(10)가 기본 음성 인식 모드로 설정되어 동작하는 경우에 대해 설명한 것으로, 이하에서는 명령어 화자 인식 모드에 대해 설명한다.

도 4는 본 발명의 실시예에 따른 명령어 화자 인식 모드에서의 음성 인식 방법의 흐름도이다.

도 4를 참조하면, 먼저, 음성 인식 장치(10)는 도 3에서 설명한 바와 같이 기본 음성 인식 모드로 동작한다(S200).

그 후, 사용자에 의해 명령어 화자 인식 모드로 모드 변경이 있는 것으로 판단되면(S210), 음성 인식 장치(10)는 명령어 인식 대상인 특정 화자를 인식하는 절차를 수행하고(S220) 특정 화자가 인식되면 인식되는 화자에 대응되는 설정을 수행한다(S230). 이 때의 설정은 화자의 음향 데이터를 음향 모델로 설정하는 것과 화자에 고유한 명령어만을 설정하는 것을 의미한다. 이에 대해서는 추후 구체적으로 설명될 것이다.

다음, 상기 단계(S230)에서 수행된 설정에 따라 상기 단계(S220)에서 인식된 화자의 명령어만을 인식하는 명령어 화자 인식 모드 동작을 수행한다(S240).

이하, 상기 단계(S220)에서 특정 화자를 인식하는 과정에 대해 구체적으로 설명한다.

도 5는 도 4에 도시된 화자 인식 과정을 구체적으로 도시한 흐름도이다.

도 5를 참조하면, 기본 음성 인식 모드에서 명령어 화자 인식 모드로의 변경 후에 최초로 음성이 입력되면(S221) 전처리를 통해 입력 음성에 대한 특징 벡터를 추출하고(S222), 추출된 특징 벡터에 대해 음향 모델(410)과 단어 및 음소 모델(420)을 사용하여 단어 기준의 음성 인식을 수행한다(S223).

그 후, 음성 인식 수행 결과와 발화 검증이 모두 성공이면(S224, S225) 상기 단계(S221)에서 음성을 입력한 화자를 명령어 화자 인식 모드에서 특정 화자로서 인식한다(S226).

한편, 상기 단계(S224, S225)에서 음성 인식 수행 결과나 발화 검증이 실패가 되면 다시 음성 인식 단계(S221)부터 수행하여 특정 화자가 인식되도록 반복 수행한다. 여기서, 이러한 반복 수행은 몇 회에 걸쳐 반복될 수 있지만 그럼에도 불구하고 특정 화자 인식이 완료되지 않는 경우에는 명령어 화자 인식 모드로의 설정을 실패 처리하여 다시 기본 음성 인식 모드로 동작할 수 있도록 할 수 있다.

한편, 상기에서는 화자 인식이 음성 입력을 통해 단어 음성 인식이 성공되는 경우 화자 인식이 수행되는 것으로 설명하였으나, 본 발명의 기술적 범위는 여기에 한정되지 않고 외부 장치를 통해 특정 화자로 인식될 화자의 음향 데이터를 사용자 음향 저장부(300)에 등록하여 저장함으로써 화자 인식으로 대체될 수도 있다.

다음, 도 4의 상기 단계(S230)에서 화자 대응 설정을 수행하는 과정에 대해 구체적으로 설명한다.

도 6은 도 4에 도시된 화자 대응 설정 과정을 구체적으로 도시한 흐름도이다.

도 6을 참조하면, 명령어 화자 인식 모드로 변경된 후에 특정 화자가 인식되면 인식된 특정 화자에 대응되는 가비지 음향 모델을 설정한다(S231). 이러한 설정은 인식 제어부(600)에 의해 수행되며, 인식 제어부(600)는 사용자 음향 저장부(300)에 저장되어 있는 특정 화자의 음향 데이터를 가비지 음향 모델(430)로 전달하여 저장함으로써 수행된다.

여기서, 상기한 바와 같이, 화자 인식이 외부 장치로부터 화자별 음향 데이터가 사용자 음향 저장부(300)에 등록되어 저장되는 경우, 이러한 음향 데이터가 가비지 음향 모델(430)로 전달되어 저장됨으로써 외부 등록 화자에 대한 화자 대응 설정이 수행되는 것이다.

다음, 명령어 화자 인식 모드에서도 기본 음성 인식 모드에서 사용하는 단어 및 음소 모델(420)을 사용할 것인지를 판단하고(S232) 만약 그렇다면 단어 및 음소 모델(420)에 저장된 모델을 그대로 사용하여도 좋지만, 본 발명의 실시예에서는 단어 및 음소 모델(420)에 저장된 데이터를 가비지 단어 및 음소 모델(440)로 전달하여 저장한다(S233).

그러나, 상기 단계(S232)에서 기본 음성 인식 모드에서 사용하는 단어 및 음소 모델(420)을 사용하지 않고 특정 화자에 대응되는 단어 및 음소 모델을 사용하는 것으로 판단되면 외부로부터 특정 화자에 대해서만 인식되어야 하는 단어 및 음소 모델 데이터를 입력받아서 가비지 단어 및 음소 모델(440)에 저장한다(S234).

다음, 도 4의 상기 단계(S240)에서 명령어 화자 인식 모드 동작을 수행하는 과정에 대해 구체적으로 설명한다.

도 7은 도 4에 도시된 명령어 화자 인식 모드 동작 과정을 구체적으로 도시한 흐름도이다.

도 7을 참조하면, 외부로부터 화자의 음성이 입력되면(S241) 전처리를 통해 입력 음성에 대한 특징 벡터를 추출하고(S242), 추출된 특징 벡터에 대해 가비지 음향 모델(430)과 가비지 단어 및 음소 모델(440)을 사용하여 화자를 인식하는 동시에 단어 기준의 음성 인식을 함께 수행한다(S243).

그 후, 화자 인식 및 단어 기준의 화자 음성 인식이 성공인 것으로 판단되면(S244), 거절 비율에 의거한 발화 검증이 수행되고(S245), 발화 검증 결과가 성공이면 명령어 화자 인식 모드에서 특정 화자의 명령어 인식이 성공인 것으로 판단되어 그 결과가 출력되어 인식 단어에 대응되는 제어가 수행될 수 있다(S246).

이와 같이, 본 발명의 실시예에서는 모든 화자의 음성을 인식하도록 설정되어 있는 음성 인식 장치(10)에서 명령어 화자 인식 모드로의 모드 변경으로만 특정 화자의 음성 인식을 통한 명령어 인식이 가능하므로 비용 및 성능면에서 효율적인 음성 인식 장치를 제공할 수 있게 된다.

한편, 상기에서는 한 명의 특정 화자에 대해서만 인식하는 것으로 설명하였으나, 상기한 명령어 화자 인식 모드에서 사용자의 설정에 의해 특정 화자를 다수로 설정하는 것도 상기 설명에 기초하는 경우 가능함은 당업자에 의해 쉽게 이해될 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

입력 음성에 대해 전처리를 통해 특징 벡터를 추출하는 전처리부;
상기 전처리부를 통해 추출된 특징 벡터를 저장하는 사용자 음향 저장부;
상기 전처리부에서 추출되는 특징 벡터를 음소 단위를 기준으로 음향 모델과 단어 및 음소 모델과의 비교를 통해 단어 기준의 음성 인식을 수행하는 음성 단어 인식부; 및
기본 음성 인식 모드에서는 상기 음성 단어 인식부를 통해 화자에 상관없이 단어 기준의 음성 인식을 수행하도록 제어하고, 명령어 화자 인식 모드에서는 상기 음성 단어 인식부를 제어하여 설정되는 화자의 음성에 의한 명령어 단어를 인식하도록 하는 인식 제어부
를 포함하는 음성 인식 장치.
제1항에 있어서,
상기 음성 단어 인식부는,
다수의 화자의 음성에 대해 특징 정규화 훈련을 통해 추출된 특징 벡터로 구성되는 음향 모델;
상기 음성 인식 장치에서 인식될 명령어 단어와 해당 단어의 음소로 모델링되는 단어 및 음소 모델;
상기 명령어 화자 인식 모드에서 사용되는 음향 모델을 저장하는 가비지 음향 모델;
상기 명령어 화자 인식 모드에서 사용되는 단어 및 음소 모델을 저장하는 가비지 단어 및 음소 모델; 및
상기 인식 제어부의 제어에 따라, 상기 음향 모델, 상기 단어 및 음소 모델, 상기 가비지 음향 모델과 상기 가비지 단어 및 음소 모델을 사용하여 상기 기본 음성 인식 모드 또는 상기 명령어 화자 인식 모드에서의 음성 인식을 수행하는 음성 인식부
를 포함하는 음성 인식 장치.
제1항에 있어서,
상기 인식 제어부는 상기 명령어 화자 인식 모드에서 상기 음성 단어 인식부를 통해 음성 인식되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 설정하는 것을 특징으로 하는 음성 인식 장치.
제2항에 있어서,
상기 인식 제어부는 상기 명령어 화자 인식 모드에서 화자가 설정되는 경우 설정되는 화자에 대응되어 상기 사용자 음향 저장부에 저장되어 있는 음향 데이터를 상기 가비지 음향 모델로 전달하여 저장하는 음성 인식 장치.
제4항에 있어서,
상기 가비지 음향 모델에는 복수 화자의 음향 데이터가 저장되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항에 있어서,
상기 가비지 단어 및 음소 모델은 외부로부터의 입력에 의해 화자에 대응되는 명령어 단어 및 음소 모델을 저장하는 것을 특징으로 하는 음성 인식 장치.
제6항에 있어서,
상기 가비지 단어 및 음소 모델에 저장된 명령어 단어 및 음소 모델은 상기 음성 인식 장치 또는 외부 장치를 통해 편집 가능한 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 인식 제어부는 외부 장치를 통해 상기 사용자 음향 저장부에 등록되어 사용자 음향 데이터가 저장되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 설정하는 것을 특징으로 하는 음성 인식 장치.
음성 인식 장치가 음성 인식을 수행하는 방법에 있어서,
화자에 상관없이 입력 음성에 대한 단어 기준의 명령어 인식을 수행하는 기본 음성 입력 모드로 동작하는 단계;
명령어 화자 인식 모드로의 변경이 있는 경우, 상기 명령어 화자 인식 모드에서의 화자를 인식하는 단계;
인식되는 상기 명령어 화자 인식 모드에서의 화자에 대응되는 음향 모델과 단어 및 음소 모델을 설정하는 단계; 및
상기 명령어 화자 인식 모드에서의 화자의 명령어 음성을 인식하는 명령어 화자 인식 모드로 동작하는 단계
를 포함하는 음성 인식 방법.
제9항에 있어서,
상기 화자를 인식하는 단계는,
상기 명령어 화자 인식 모드로의 변경 후 처음으로 입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계;
상기 특징 벡터를 사용자 음향 데이터로 저장하는 단계;
상기 특징 벡터에 대해 음향 모델과 단어 및 음소 모델을 사용하여 음성 인식을 수행하는 단계; 및
음성 인식 수행 결과를 출력하는 단계
를 포함하는 음성 인식 방법.
제9항에 있어서,
상기 화자를 인식하는 단계는,
외부 장치를 통해 입력되어 사용자 음향 저장부에 저장되는 음향 데이터에 대응되는 화자를 상기 명령어 화자 인식 모드에서의 화자로 인식하는 것을 특징으로 하는 음성 인식 방법.
제10항에 있어서,
상기 화자에 대응되는 음향 모델과 단어 및 음소 모델을 설정하는 단계는,
상기 사용자 음향 데이터를 가비지 음향 모델로 저장하는 단계;
상기 음향 모델과 단어 및 음소 모델을 사용할 것인지를 판단하는 단계;
상기 음향 모델과 단어 및 음소 모델을 사용할 것으로 판단되는 경우 상기 음향 모델과 단어 및 음소 모델을 가비지 단어 및 음소 모델에 저장하는 단계; 및
상기 음향 모델과 단어 및 음소 모델을 사용하지 않는 것으로 판단되는 경우, 외부 입력을 통해 상기 화자에 대응되는 단어 및 음소 모델을 입력받아서 상기 가비지 단어 및 음소 모델에 저장하는 단계
를 포함하는 음성 인식 방법.
제12항에 있어서,
상기 명령어 화자 인식 모드로 동작하는 단계는,
입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계;
상기 특징 벡터에 대해 상기 가비지 음향 모델과 상기 가비지 단어 및 음소 모델을 사용하여 화자 및 화자의 명령어 단어에 대한 음성 인식을 수행하는 단계; 및
음성 인식 수행 결과를 출력하는 단계
를 포함하는 음성 인식 방법.
제9항에 있어서,
상기 기본 음성 입력 모드로 동작하는 단계는,
입력되는 음성에 대해 전처리를 통해 특징 벡터를 추출하는 단계;
상기 특징 벡터를 사용자 음향 데이터로 저장하는 단계;
상기 특징 벡터에 대해 상기 음향 모델과 상기 단어 및 음소 모델을 사용하여 단어 기준의 음성 인식을 수행하는 단계; 및
음성 인식 수행 결과를 출력하는 단계
를 포함하는 음성 인식 방법.