KR20190031792A

KR20190031792A - 음성 인식 방법 및 그 장치

Info

Publication number: KR20190031792A
Application number: KR1020170119673A
Authority: KR
Inventors: 방영규; 서준배
Original assignee: 주식회사 시그널비젼
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2019-03-27
Also published as: KR102033218B1

Abstract

음성 인식 방법 및 그 장치가 개시된다. 음성 인식 방법은 (a) 공용 필러 워드(filter word) 셋과 멀티 트리거 워드(trigger word) 셋을 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별하는 단계; 및 (b) 상기 멀티 트리거 워드 및 검증 필러 워드 셋 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증함으로써 최종 트리거 워드 도출 여부를 결정하는 단계를 포함한다.

Description

음성 인식 방법 및 그 장치{Voice recognition method and apparatus}

본 발명은 음성 인식에 따른 오인식 발생을 줄일 수 있는 음성 인식 방법 및 그 장치에 관한 것이다.

음성인식 기술의 발달로 음성으로 기기를 제어하거나 스마트폰 또는 AI 스피커를 이용하여 원하는 정보를 전달 받는 것이 가능하다. 그런데 음성인식기 주변에는 인식을 수행하고자 하는 음성뿐만 아니라 여러 가지 형태의 소리들이 존재한다.

그러나, 음성인식기는 입력되는 모든 소리에 대해서 학습 DB와 가장 일치되는 결과를 도출하기 때문에 사용자가 의도하지 않은 소리에 대해서 인식을 수행하여 기기를 오작동 시키는 일이 빈번하게 발생하는 문제점이 있다.

이러한 오작동을 방지하기 위해, 대어휘 인식기의 경우 trigger 인식 방법을 사용하고 있는데, 실제 인식을 위한 음성을 발성하기 전에 정해진 특정 단어, 예를 들면 ok google, hi galaxy, alexa, 아리야와 같이 호출 명령어를 먼저 발성해서 인식기를 on 상태로 만든 후 실제 인식 발성을 하는 방법을 많이 사용하고 있다.

또한, 소어휘 인식기의 경우 trigger 인식 방법을 적용하면 사용의 불편함이 많기 때문에 명령어를 한번에 인식시키기 위해서 명령어 전체가 trigger word의 역할을 수행해야만 하는 문제점이 있다.

그러나, 이러한 트리거 인식 방법을 사용하는 인식기도 오인식 발생 빈도가 높으며, 트리거 워드(Trigger word)의 개수가 증가할수록 오인식 발생 빈도도 늘어나는 문제점을 가지고 있다.

본 발명은 음성 인식시의 오인식 발생 빈도를 줄일 수 있는 음성 인식 방법 및 그 장치를 제공하기 위한 것이다.

또한, 본 발명은 1차 음성 인식된 트리거 워드에 기반하여 동적으로 검증 필러 워드를 선택하여 1차 음성 인식 결과를 검증함으로써 음성 인식시의 오인식 발생 빈도를 현저하게 줄일 수 있는 음성 인식 방법 및 그 장치를 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 음성 인식시의 오인식 발생 빈도를 줄일 수 있는 음성 인식 방법이 제공된다.

본 발명의 일 실시예에 따르면, (a) 공용 필러 워드(filter word) 셋과 멀티 트리거 워드(trigger word) 셋을 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별하는 단계; 및 (b) 상기 멀티 트리거 워드 셋 및 검증 필러 워드 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증함으로써 최종 트리거 워드 도출 여부를 결정하는 단계를 포함하는 음성 인식 방법이 제공될 수 있다.

상기 (b) 단계는, 상기 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 분석하여 2차 후보 워드를 도출하는 단계; 상기 2차 후보 워드에 상응하는 검증 필러 워드를 이용하여 제3 시점까지 입력된 음성을 분석하여 3차 후보 워드를 도출하는 단계; 및 상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하는 단계를 포함할 수 있다.

상기 (b) 단계는, 상기 1차 후보 워드와 상기 2차 후보 워드가 상이하고, 상기 2차 후보 워드와 상기 3차 후보 워드가 동일한 경우, 상기 제1 시점의 음성 인식이 잘못된 것으로 판단하여 상기 2차 후보 워드를 최종 트리거 워드로 결정할 수 있다.

상기 (b) 단계는, 상기 1차 후보 워드 및 상기 2차 후보 워드의 동일 여부와 무관하게 상기 3차 후보 워드가 필러 워드인 경우, 음성 인식이 실패한 것으로 판단하여 최종 트리거 워드를 도출하지 않는 것을 특징으로 하는 음성 인식 방법.

상기 (a) 단계는, 상기 입력된 음성에 대한 특징값을 추출하는 단계; 상기 공용 필러 워드 셋에 포함된 각각의 필러 워드 또는 상기 멀티 트리거 워드에 포함된 각각의 트리거 워드에 상응하는 특징값과 상기 추출된 특징값과의 유사도를 각각 도출하는 단계; 상기 공용 필러 워드 셋에 포함된 각각의 필러 워드 중 어느 하나에 상응하여 유사도가 가장 높게 도출되는 경우, 상기 음성을 필터링하는 단계; 및 상기 트리거 워드 중 어느 하나에 상응하여 유사도가 가장 높게 도출되는 경우 유사도가 가장 높은 트리거 워드를 상기 1차 후보 워드로 선별하는 단계를 포함할 수 있다.

상기 검증 필러 워드는 상기 1차 후보 워드에 따라 동적으로 변경될 수 있다.

상기 (b) 단계는, 상기 1차 후보 워드에 상응하는 검증 필러 워드를 이용하여 제2 시점까지 입력된 음성을 분석하여 2차 후보 워드를 도출하는 단계; 상기 멀티 트리거 워드 셋을 이용하여 제3 시점까지 입력된 음성을 분석하여 3차 후보 워드를 도출하는 단계; 및 상기 2차 후보 워드 및 상기 3차 후보 워드 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증하는 단계를 포함할 수 있다.

상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나인 경우, 음성 인식 실패로 판단하여 상기 3차 후보 워드를 도출하는 단계는 미수행하며, 상기 최종 트리거 워드는 도출되지 않도록 할 수 있다.

상기 (b) 단계는, 상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나가 아닌 경우, 상기 3차 후보 워드로 최종 트리거 워드를 도출할 수 잇다.

본 발명의 다른 측면에 따르면, 음성 인식시의 오인식 발생 빈도를 줄일 수 있는 음성 인식 장치가 제공된다.

본 발명의 일 실시예에 따르면, 공용 필러 워드(filter word) 셋과 멀티 트리거 워드(trigger word) 셋을 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별하는 인식부; 및 상기 멀티 트리거 워드 셋 및 검증 필러 워드 셋 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증함으로써 최종 트리거 워드 도출 여부를 결정하는 검증부를 포함하는 음성 인식 장치가 제공될 수 있다.

상기 검증부는, 상기 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 2차 인식하여 2차 후보 워드를 도출하고, 상기 2차 후보 워드에 상응하는 싱글 트리거 워드 및 상기 싱글 트리거 워드에 상응하는 검증 필러 워드 셋을 이용하여 제3 시점까지 입력된 음성을 3차 인식하여 3차 후보 워드를 도출한 후 상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하여 상기 최종 트리거 워드 도출 여부를 결정할 수 있다.

상기 검증부는, 상기 2차 후보 워드에 상응하는 싱글 트리거 워드 및 상기 싱글 트리거 워드에 상응하는 검증 필러 워드 셋을 이용하여 제2 시점까지 입력된 음성을 3차 인식하여 2차 후보 워드를 도출하고, 상기 멀티 트리거 워드 셋을 이용하여 제3 시점까지 입력된 음성을 3차 인식하여 3차 후보 워드를 도출한 후 상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하여 상기 최종 트리거 워드 도출 여부를 결정할 수 있다.

상기 검증 필러 워드 셋은 상기 1차 후보 워드 또는 상기 2차 후보 워드에 따라 동적으로 변경될 수 있다.

상기 검증부는, 상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나인 경우 상기 3차 인식을 미수행하며, 상기 최종 트리거 워드를 도출하지 않을 수 있다.

본 발명의 일 실시예에 따른 음성 인식 방법 및 그 장치를 제공함으로써, 음성 인식시의 오인식 발생 빈도를 줄일 수 있다.

또한, 본 발명은 1차 음성 인식된 트리거 워드에 기반하여 동적으로 검증 필러 워드를 선택하여 1차 음성 인식 결과를 검증함으로써 음성 인식시의 오인식 발생 빈도를 현저하게 줄일 수 있다.

또한, 본 발명은 1차 음성 인식 결과를 검증하는 과정에서 음성 인식 신뢰도를 높이기 위해 음성 인식 실패로 인식되는 경우 트리거 실행을 거부할 수도 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 공용 필러 워드 셋과 검증 필러 워드 셋을 설명하기 위해 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 순서도이다.

단계 110에서 음성 인식 장치(100)는 음성을 입력받는다.

여기서, 음성은 아날로그 형태로 입력된다. 음성은 지속적으로 입력되는 것을 가정하기로 한다.

단계 115에서 음성 인식 장치(100)는 공용 필러 워드(filter word) 셋과 멀티 트리거 워드를 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별한다. 물론, 제1 시점가지 입력된 음성에서 1차 후보 워드는 선별되지 않을 수도 있다.

보다 상세히 설명하면, 입력되는 음성은 아날로그 형태로 주파수 스펙트럼 형태를 가질 수 있다. 따라서, 음성 인식 장치(100)는 제1 시점까지 입력된 음성을 프레임 단위로 구분하여 특징값을 추출하여 분석할 수 있다.

예를 들어, 음성 인식 장치(100)는 MFCC(Mel Frequency Cepstral Coefficients) 알고리즘을 이용하여 음성에 대한 특징값을 추출할 수 있다. MFCC는 단구간 신호의 파워스펙트럼을 표현하는 방법 중 하나로 비선형적인 Mel 스케일의 주파수 도메인에서 로그파워스펙트럼에 코사인변환을 취함으로써 얻을 수 있다.

MFCC는 음성에 대한 특징값을 추출하는 일 예일 뿐이며, 이 외에도 특징값을 추출하는 공지된 다양한 방법들이 이용될 수 있음은 당연하다.

음성 인식 장치(100)는 공용 필러 워드 셋과 멀티 트리거 워드 셋 이용하여 추출된 특징값을 패턴 분석하여 1차 후보 워드를 선별할 수 있다.

예를 들어, 제1 시점까지 입력된 음성에 상응하여 추출된 특징값이 공용 필러 워드 셋 중 어느 하나와 유사한 경우 음성 인식 장치(100)는 해당 음성을 필터링할 수 있다. 반면, 음성 인식 장치(100)는 제1 시점까지 입력된 음성에 상응하여 추출된 특징값이 멀티 트리거 워드 셋에 포함된 트리거 워드 중 어느 하나와 유사한 경우, 유사도가 높은 멀티 트리거 워드 중 어느 하나를 1차 후보 워드로 선별할 수 있다.

본 명세서에서는 이해와 설명의 편의를 도모하기 위해 제1 시점까지의 입력된 음성으로 통칭하여 설명하나, 음성 인식 장치(100)는 음소 단위로 음성을 구분하여 처리할 수도 있음은 당연하다.

본 발명의 일 실시예에서 필러 워드는 오인식될 음소에 관한 정보로, 트리거 워드를 제외한 음소 정보, 오인식 가능한 음소에 대한 정보를 포함할 수 있다. 또한, 필러 워드는 음성 인식 장치(100)가 입력된 음성을 특징값으로 분석하는 경우, 오인식될 음소에 대한 특징값을 포함할 수 있다.

예를 들어, 멀티 트리거 워드 셋에 상응하는 공용 필러 워드는 멀티 트리거 워드 셋에 포함된 각 트리거 워드에 관한 음소를 제외하며, 각 트리거 워드로 오인식될 워드 및 이에 관한 정보를 포함할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 트리거 워드는 지정된 명령어, 지정된 명령어에 관한 정보 중 적어도 하나를 포함할 수 있다. 예를 들어, 음성 인식 장치(100)가 입력된 음성을 특징값으로 분석하는 경우, 트리거 워드는 지정된 명령어 및 해당 명령어에 대한 특징값을 포함할 수 있다. 예를 들어, 트리거 워드가 “불 꺼”라고 가정하기로 한다. 트리거 워드는 “불 꺼”에 상응하는 명령어 및 해당 명령어에 관한 특징값을 포함할 수 있다.

따라서, 음성 인식 장치(100)는 입력된 음성에 상응하여 추출된 특징값을 필러 워드 및 트리거 워드와 각각 비교하여 필터링하거나 1차 후보 워드를 선별할 수 있다.

본 명세서에서 유사도가 높다는 의미는 필러 워드 및/또는 트리거 워드와 입력된 음성에 상응하는 특징값의 차이값이 적다는 것을 의미할 수 있다.

이하에서는 별도의 설명이 없더라도 음성 분석이, 음성에 대한 특징값을 추출하여 유사도를 분석하는 것으로 확장 이해되어야 할 것이다.

예를 들어, 멀티 트리거 워드 셋에 “불 꺼”, “불 켜”, “선풍기 켜”…등이 포함된다고 가정하기로 한다.

제1 시점까지 입력된 음성을 분석한 결과 멀티 트리거 워드 셋 중 “불 꺼”에 대한 유사도가 가장 높게 도출된 경우, 음성 인식 장치(100)는 “불 꺼”를 1차 후보 워드로 선별할 수 있다.

본 발명의 일 실시예에서는 이해와 설명의 편의를 도모하기 위해 1차 후보 워드가 하나만 선별된 것을 가정하고 있으나, 1차 후보 워드는 복수개 선별될 수도 있으며 하나도 선별되지 않을 수도 있다.

상술한 바와 같이, 1차적으로 음성이 인식되어 1차 후보 워드가 선별되면, 멀티 트리거 워드 셋으로 인한 음성 오인식 빈도를 줄이기 위해 1차 후보 워드를 검증하기 위한 과정이 수행된다. 이하에서는 이에 대한 프로세스를 보다 상세히 설명하기로 한다.

단계 120에서 음성 인식 장치(100)는 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 분석하여 2차 후보 워드를 도출한다.

이미 전술한 바와 같이, 음성 인식 장치(100)는 음성을 지속적으로 입력받는다. 따라서, 단계 115 이후에도 음성은 계속해서 입력될 수 있다.

이를 구분하기 위해, 본 명세서에서는 제1 시점, 제2 시점으로 구분하여 설명하기로 한다. 이하에서, 제2 시점은 제1 시점을 포함하는 것으로 이해되어야 할 것이다.

단 125에서 음성 인식 장치(100)는 1차 후보 워드에 상응하는 싱글 트리거 워드 및 검증 필러 워드 중 적어도 하나를 이용하여 제3 시점까지 입력된 음성을 분석하여 3차 후보 워드를 도출한다.

즉, 단계 125에서 검증 필러 워드는 1차 후보 워드에 따라 동적으로 변할 수 있다.

예를 들어, 1차 후보 워드가 “불 꺼”인 경우, 검증 필러 워드는 “불 꺼”트리거 워드에 상응하는 필러 워드일 수 있다. 반면, 1차 후보 워드가 “불 켜”인 경우, 검증 필러 워드는 “불 켜” 트리거 워드에 상응하는 필러 워드일 수 있다.

이와 같이, 검증 과정에서 음성 인식 장치(100)는 1차 후보 워드에 따라 보다 정밀한 필러 워드를 동적으로 선택하고, 이를 기반으로 1차 후보 워드를 검증함으로써 음성의 오인식 빈도를 줄일 수 있는 이점이 있다.

검증 필러 워드는 1차 후보 워드에 상응하는 싱글 트리거 워드에 대응하는 필러 워드일 수 있다. 즉, 해당 싱글 트리거 워드에 대한 음소 정보는 제외되며, 해당 싱글 트리거 워드로 오인식 가능한 워드에 대한 정보일 수 있다.

이와 같이, 1차 후보 워드에 상응하는 검증 필러 워드를 이용하여 제3 시점까지 입력된 음성을 분석함으로써, 음성 인식 장치(100)는 멀티 트리거 워드에 기반한 음성 인식시, 보다 정밀한 필러 워드를 선택하여 음성을 분석 및 인식할 수 있는 이점이 있다.

단계 130에서 음성 인식 장치(100)는 1차 후보 워드, 2차 후보 워드 및 3차 후보 워드를 이용하여 최종 트리거 워드 도출 여부를 결정한다.

예를 들어, 음성 인식 장치(100)는 1차 후보 워드, 2차 후보 워드 및 3차 후보 워드가 모두 동일한 경우, 1차 후보 워드가 정상적으로 인식된 것으로 판단하여 최종 트리거 워드로 결정하여 실행할 수 있다.

즉, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 꺼”이며, 3차 후보 워드가 “불 꺼”인 경우, 음성 인식 장치(100)는 제1 시점 내지 제3 시점까지의 각각의 음성 인식에서 동일한 워드를 인식하였므로, 음성 인식에 성공한 것으로 판단하며 최종 트리거 워드로 “불 꺼”를 결정할 수 있다.

또한, 음성 인식 장치(100)는 3차 후보 워드가 검증 필러 워드 중 하나가 아닌 경우, 2차 후보 워드를 최종 트리거 워드로 결정할 수 있다.

예를 들어, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 켜”라고 가정하기로 한다. 제3 시점에서의 음성 인식은 2차 후보 워드에 상응하는 싱글 트리거 워드 및 싱글 트리거 워드에 대응하는 검증 필러 워드 셋을 이용한 음성 인식이므로, 3차 후보 워드가 검증 필러 워드 중 어느 하나가 아닌 경우에는 2차 후보 워드와 동일한 결과(불 켜)를 도출하게 된다. 따라서, 음성 인식 장치(100)는 3차 후보 워드가 검증 필러 워드 중 어느 하나가 아닌 경우에는 2차 후보 워드와 3차 후보 워드가 동일하므로 2차 후보 워드를 최종 트리거 워드로 결정할 수 있다.

또한, 음성 인식 장치(100)는 1차 후보 워드와 2차 후보 워드의 동일 여부와 상관없이 3차 후보 워드가 검증 필러 워드 중 어느 하나로 도출되는 경우, 음성 인식이 실패한 것으로 판단하여 최종 트리거 워드를 도출하지 않을 수 있다.

예를 들어, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 켜”라고 가정하기로 한다. 이때, 제3 시점에서의 음성 인식은 2차 후보 워드인 “불 켜”에 대한 싱글 트리거 워드 및 이에 대응하는 검증 필러 워드 셋을 이용하여 수행된다. 이로 인해, 3차 후보 워드가 검증 필러 워드 중 어느 하나로 인식되는 경우에는 2차 후보 워드인 “불 켜”가 아닌 다른 워드로 인식되게 된다. 결과적으로, 음성 인식 장치(100)는 1차 후보 워드에 상응하는 두번의 검증 과정에서 서로 상이한 결과를 도출하게 되며, 음성 인식 결과가 부정확할 확률이 높아지게 된다. 따라서, 음성 인식 장치(100)는 음성 인식의 오인식 빈도를 줄이기 위해 음성 인식이 실패한 것으로 간주하여 최종 트리거 워드를 도출하지 않을 수 있다. 이로 인해, 음성 인식 장치(100)는 부정확한 트리거 워드가 실행되는 것을 방지할 수 있는 이점이 있다.

이를 표로 정리하면 표 1과 같다.

1차 인식	2차 인식	3차 인식	최종 인식 결과
불꺼	불꺼	불꺼	불꺼
불꺼	불꺼	필러 워드(예를 들어, 불 켜)	거부(트리거 워드 미도출)
불꺼	불켜	불켜	불켜
불꺼	불켜	필러워드(예를 들어, 불꺼)	거부(트리거 워드 미도출)

도 1에서는 단계 120가 단계 125 이전에 수행되는 것을 가정하고 있으나, 구현 방법에 따라 단계 125가 단계 120보다 우선 수행될 수도 있다.

이에 대해 보다 상세히 설명하기로 한다.

본 발명의 다른 실시예에 따르면, 멀티 트리거 워드 셋과 공용 필러 워드 셋을 이용하여 제1 시점까지 입력된 음성에 대해 1차 인식을 수행하여 1차 후보 워드를 도출한 후 1차 후보 워드에 상응하는 싱글 트리거 워드 및 검증 필러 워드 셋을 이용하여 제2 시점까지 입력된 음성에 대해 2차 인식을 수행하여 2차 후보 워드를 도출한 후 멀티 트리거 워드 셋을 이용하여 제3 시점까지 입력된 음성에 대해 3차 인식을 수행하여 3차 후보 워드를 도출하는 프로세스로 진행된다. 즉, 1차 후보 워드에 대한 검증 프로세스에서 2차 인식 및 3차 인식을 수행하는 선후 순서를 바꾸어 수행할 수 있다.

따라서, 본 발명의 다른 실시예에 따르면, 음성 인식 장치(100)은 1차 후보 워드에 상응하는 싱글 트리거 워드 및 검증 필러 워드를 이용하여 2차 음성 인식을 수행할 수 있다. 이로 인해, 2차 음성 인식에 이용되는 싱글 트리거 워드 및 검증 필러 워드는 1차 후보 워드에 따라 동적으로 변경될 수 있다.

예를 들어, 1차 후보 워드가 “불 커”인 경우, 2차 음성 인식에 이용되는 싱글 트리거 워드는 “불 커”가 되며, 검증 필러 워드는 “불 커”에 상응하는 검증 필러 워드일 수 있다. 반면 1차 후보 워드가 “불 켜”인 경우, 2차 음성 인식에 이용되는 싱글 트리거 워드는 “불 켜”가 되며, 검증 필러 워드는 “불 켜”에 상응하는 검증 필러 워드일 수 있다. 이와 같이, 본 발명의 다른 실시예에 따르면 음성 인식 장치(100)는 1차 후보 워드에 따라 2차 음성 인식을 위한 싱글 트리거 워드 및 검증 필러 워드 셋을 동적으로 변경하여 제2 시점까지 입력된 음성을 인식할 수 있다.

본 발명의 다른 실시예에 따르면, 음성 인식 장치(100)는 2차 후보 워드가 검증 필러 워드 중 어느 하나인 경우, 3차 음성 인식을 수행하지 않을 수 있다.

예를 들어, 제1 시점까지 입력된 음성을 인식한 결과 1차 후보 워드가 “불 꺼”로 도출되었다고 가정하기로 한다. 음성 인식 장치(100)는 “불 꺼”에 대한 싱글 트리거 워드 및 싱글 트리거 워드에 대응하는 검증 필러 워드 셋을 이용하여 제2 시점까지 입력된 음성을 인식할 수 있다. 2차 음성 인식 결과 2차 후보 워드가 “불 꺼”가 아닌 경우는 검증 필러 워드 중 어느 하나에 속하게 된다. 이와 같은 경우, 음성 인식 장치(100)는 음성 인식이 실패한 것으로 판단하여 멀티 트리거 워드를 이용한 3차 음성 인식을 수행하지 않을 수 있다(즉, 3차 후보 워드 도출 과정을 수행하지 않을 수 있다).

또한, 음성 인식 장치(100)는 2차 후보 워드가 검증 필러 워드 중 어느 하나가 아닌 경우(즉, 1차 후보 워드와 2차 후보 워드가 동일한 경우), 3차 후보 워드를 최종 트리거 워드로 도출할 수 있다.

예를 들어, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 꺼”이며, 3차 후보 워드가 “불 꺼”인 경우, 음성 인식 장치(100)는 “불 꺼”를 최종 트리거 워드로 도출할 수 있다.

다른 예를 들어, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 꺼”이며, 3차 후보 워드가 “불 켜”인 경우, 음성 인식 장치(100)는 1차 음성 인식에 오류가 있었던 것으로 판단하여 3차 후보 워드를 최종 트리거 워드로 결정할 수 있다.

이를 표로 정리하면 표 2와 같다.

1차 인식	2차 인식	3차 인식	최종 인식 결과
불 꺼	불 꺼	불 꺼	불 꺼
불 꺼	불 꺼	불 켜	불 켜
불 꺼	필러 워드(예를 들어, 불 켜)	미수행	거부(트리거 워드 미도출)

상술한 바와 같이, 음성 인식 장치(100)는 1차 음성 인식에 따른 결과를 검증하여 최종적으로 트리거 워드 도출함으로써 음성의 오인식 빈도를 줄일 수 있는 이점이 있다. 또한, 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 검증 과정에서 1차 음성 인식 결과가 필러 워드에 포함되는 경우, 최종 트리거 워드를 도출하지 않도록 하여 오인식에 따른 잘못된 트리거 워드 실행을 줄일 수 있는 이점이 있다. 이를 통해, 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 음성 인식의 신뢰도를 높일 수 있는 이점이 있다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 입력부(310), 인식부(315), 검증부(320), 메모리(325) 및 프로세서(330)를 포함하여 구성된다.

입력부(310)는 음성을 입력받기 위한 수단이다. 예를 들어, 입력부(310)는 마이크일 수 있다.

입력부(310)는 지속적으로 아날로그 형태의 음성을 입력받을 수 있다.

인식부(315)는 공용 필러 워드 셋과 멀티 트리거 워드를 이용하여 제1 시점까지 입력된 음성을 분석하여 제1 후보 워드를 선별하기 위한 수단이다.

도 1에서 전술한 바와 같이, 인식부(315)는 입력된 음성을 분석하여 특징값을 추출하고, 추출된 특징값을 공용 필러 워드 셋에 포함된 각각의 필러 워드와 패턴 매칭하여 유사도를 도출할 수 있다. 또한, 인식부(315)는 추출된 특징값을 멀티 트리거 워드에 포함된 각각의 트리거 워드와 패턴 분석하여 유사도를 각각 도출할 수 있다.

인식부(315)는 추출된 특징값이 공용 필러 워드 셋에 포함된 특정 필러 워드와 유사도가 높은 경우, 입력된 음성을 가비지 워드로 인식하여 필터링할 수 있다. 반면, 인식부(315)는 추출된 특징값이 멀티 트리거 워드 중 어느 하나와 유사도가 높게 도출되는 경우 유사도가 높은 트리거 워드를 1차 후보 워드로 선별할 수 있다.

검증부(320)는 인식부(315)에서 선별된 1차 후보 워드를 검증하기 위한 수단이다.

본 발명의 일 실시예에 따르면, 검증부(320)는 1차 후보 워드를 검증함에 있어 서로 다른 방법으로 복수의 음성 인식 과정을 수행하여 1차 후보 워드를 검증할 수 있다.

예를 들어, 검증부(320)는 멀티 트리거 워드 셋 및 싱글 트리거 워드 인식 과정을 통해 1차 후보 워드를 검증하여 최종 트리거 워드를 도출할 수 있다.

본 발명의 일 실시예에 따르면, 검증부(320)는 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 2차로 인식하여 2차 후보 워드를 도출할 수 있다.

또한, 검증부(320)는 2차 후보 워드에 상응하는 싱글 트리거 워드 및 싱글 트리거 워드에 상응하는 검증 필러 워드 셋을 이용하여 제3 시점까지 입력된 음성을 3차 인식하여 3차 후보 워드를 도출할 수 있다.

이어, 검증부(320)는 2차 후보 워드 및 3차 후보 워드를 이용하여 1차 후보 워드를 검증하여 최종 트리거 워드를 도출할 수 있다.

예를 들어, 검증부(320)는 1차 후보 워드 및 2차 후보 워드의 동일 여부와 무관하게 3차 후보 워드가 필러 워드인 경우, 음성 인식이 실패한 것으로 판단하여 최종 트리거 워드를 도출하지 않을 수 있다.

다른 예를 들어, 검증부(320)는 3차 후보 워드가 필러 워드가 아닌 경우, 2차 후보 워드에 따라 최종 트리거 워드를 도출할 수 있다.

이는 이미 도 1에서 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.

본 발명의 다른 실시예에 따르면, 검증부(320)는 1차 후보 워드에 상응하는 싱글 트리거 워드 및 검증 필러 워드 셋을 이용하여 제2 시점까지 입력된 음성을 2차 인식하여 2차 후보 워드를 도출한 후 멀티 트리거 워드 셋을 이용하여 3차 음성 인식을 통해 3차 후보 워드를 도출할 수도 있다.

이와 같은 경우, 검증부(320)는 2차 음성 인식 결과에 따라 3차 음성 인식 수행 여부를 결정할 수 있다. 예를 들어, 1차 후보 워드가 “불 꺼”이고, 2차 후보 워드가 “불 꺼”라고 가정하며, 3차 후보 워드가 “불 켜”라고 가정하기로 한다. 이때, 검증부(320)는 1차 음성 인식이 오인식된 것으로 판단하며, 검증 과정에서 인식된 3차 인식에 따른 결과(즉, 3차 후보 워드)를 최종 트리거 워드로 결정할 수 있다. 이는 표 2를 통해 이미 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.

본 발명의 일 실시예에서는 1차 후보 워드가 필러 워드가 아닌 경우를 가정하여 설명하고 있으며, 1차 후보 워드가 필러 워드인 경우, 2차 및 3차 후보 워드는 도출되지 않을 수 있음은 당연하다.

메모리(325)는 본 발명의 일 실시예에 따른 음성 인식 방법을 수행하기 위해 필요한 다양한 알고리즘, 이 과정에서 파생된 다양한 데이터 등을 저장하기 위한 수단이다.

프로세서(330)는 본 발명의 일 실시예에 따른 음성 인식 장치(100)의 내부 구성 요소들(예를 들어, 입력부(310), 인식부(315), 검증부(320), 메모리(325) 등)을 제어하기 위한 수단이다.

또한, 프로세서(330)는 검증부(32)에서 최종적으로 도출된 최종 트리거 워드를 실행하도록 제어할 수 있다.

상술한 본 발명에 따른 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

100: 음성 인식 장치
310: 입력부
315: 인식부
320: 검증부
325: 메모리
330: 프로세서

Claims

(a) 공용 필러 워드(filter word) 셋과 멀티 트리거 워드(trigger word) 셋을 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별하는 단계; 및
(b) 상기 멀티 트리거 워드 셋 및 검증 필러 워드 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증함으로써 최종 트리거 워드 도출 여부를 결정하는 단계를 포함하는 음성 인식 방법.
제1 항에 있어서,
상기 (b) 단계는,
상기 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 분석하여 2차 후보 워드를 도출하는 단계;
상기 2차 후보 워드에 상응하는 검증 필러 워드를 이용하여 제3 시점까지 입력된 음성을 분석하여 3차 후보 워드를 도출하는 단계; 및
상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제2 항에 있어서,
상기 (b) 단계는,
상기 1차 후보 워드와 상기 2차 후보 워드가 상이하고, 상기 2차 후보 워드와 상기 3차 후보 워드가 동일한 경우, 상기 제1 시점의 음성 인식이 잘못된 것으로 판단하여 상기 2차 후보 워드를 최종 트리거 워드로 결정하는 것을 특징으로 하는 음성 인식 방법.
제2 항에 있어서,
상기 (b) 단계는,
상기 1차 후보 워드 및 상기 2차 후보 워드의 동일 여부와 무관하게 상기 3차 후보 워드가 필러 워드인 경우, 음성 인식이 실패한 것으로 판단하여 최종 트리거 워드를 도출하지 않는 것을 특징으로 하는 음성 인식 방법.
제1 항에 있어서,
상기 (a) 단계는,
상기 입력된 음성에 대한 특징값을 추출하는 단계;
상기 공용 필러 워드 셋에 포함된 각각의 필러 워드 또는 상기 멀티 트리거 워드에 포함된 각각의 트리거 워드에 상응하는 특징값과 상기 추출된 특징값과의 유사도를 각각 도출하는 단계;
상기 공용 필러 워드 셋에 포함된 각각의 필러 워드 중 어느 하나에 상응하여 유사도가 가장 높게 도출되는 경우, 상기 음성을 필터링하는 단계; 및
상기 트리거 워드 중 어느 하나에 상응하여 유사도가 가장 높게 도출되는 경우 유사도가 가장 높은 트리거 워드를 상기 1차 후보 워드로 선별하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제1 항에 있어서,
상기 검증 필러 워드는 상기 1차 후보 워드에 따라 동적으로 변경되는 것을 특징으로 하는 음성 인식 방법.
제1 항에 있어서,
상기 (b) 단계는,
상기 1차 후보 워드에 상응하는 검증 필러 워드를 이용하여 제2 시점까지 입력된 음성을 분석하여 2차 후보 워드를 도출하는 단계;
상기 멀티 트리거 워드 셋을 이용하여 제3 시점까지 입력된 음성을 분석하여 3차 후보 워드를 도출하는 단계; 및
상기 2차 후보 워드 및 상기 3차 후보 워드 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제7 항에 있어서,
상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나인 경우, 음성 인식 실패로 판단하여 상기 3차 후보 워드를 도출하는 단계는 미수행하며, 상기 최종 트리거 워드는 도출되지 않는 것을 특징으로 하는 음성 인식 방법.
제7 항에 있어서,
상기 (b) 단계는,
상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나가 아닌 경우, 상기 3차 후보 워드로 최종 트리거 워드를 도출하는 것을 특징으로 하는 음성 인식 방법.
제1 항 내지 제10 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 컴퓨터 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체 제품.
공용 필러 워드(filter word) 셋과 멀티 트리거 워드(trigger word) 셋을 이용하여 제1 시점까지 입력된 음성을 분석하여 1차 후보 워드를 선별하는 인식부; 및
상기 멀티 트리거 워드 셋 및 검증 필러 워드 셋 중 적어도 하나를 이용하여 상기 1차 후보 워드를 검증함으로써 최종 트리거 워드 도출 여부를 결정하는 검증부를 포함하는 음성 인식 장치.
제10 항에 있어서,
상기 검증부는,
상기 멀티 트리거 워드 셋을 이용하여 제2 시점까지 입력된 음성을 2차 인식하여 2차 후보 워드를 도출하고, 상기 2차 후보 워드에 상응하는 싱글 트리거 워드 및 상기 싱글 트리거 워드에 상응하는 검증 필러 워드 셋을 이용하여 제3 시점까지 입력된 음성을 3차 인식하여 3차 후보 워드를 도출한 후 상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하여 상기 최종 트리거 워드 도출 여부를 결정하는 것을 특징으로 하는 음성 인식 장치.
제10 항에 있어서,
상기 검증부는,
상기 2차 후보 워드에 상응하는 싱글 트리거 워드 및 상기 싱글 트리거 워드에 상응하는 검증 필러 워드 셋을 이용하여 제2 시점까지 입력된 음성을 3차 인식하여 2차 후보 워드를 도출하고, 상기 멀티 트리거 워드 셋을 이용하여 제3 시점까지 입력된 음성을 3차 인식하여 3차 후보 워드를 도출한 후 상기 2차 후보 워드 및 상기 3차 후보 워드를 이용하여 상기 1차 후보 워드를 검증하여 상기 최종 트리거 워드 도출 여부를 결정하는 것을 특징으로 하는 음성 인식 장치.
제12 항 또는 제13 항에 있어서,
상기 검증 필러 워드 셋은 상기 1차 후보 워드 또는 상기 2차 후보 워드에 따라 동적으로 변경되는 것을 특징으로 하는 음성 인식 장치.
제13 항에 있어서,
상기 검증부는,
상기 2차 후보 워드가 상기 검증 필러 워드 중 어느 하나인 경우 상기 3차 인식을 미수행하며, 상기 최종 트리거 워드를 도출하지 않는 것을 특징으로 하는 음성 인식 장치.