KR20190034964A

KR20190034964A - 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법

Info

Publication number: KR20190034964A
Application number: KR1020170123613A
Authority: KR
Inventors: 김준영
Original assignee: 현대자동차주식회사; 기아자동차주식회사
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2019-04-03
Also published as: KR102474804B1

Abstract

본 발명은 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 본 발명의 실시예에 따른 음성 인식 제어 장치는 웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 음성신호 입력부; 상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 음성 필터링부; 및 상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 명령어 필터링부;를 포함할 수 있다.

Description

음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법{Apparatus for controlling voice recognition, system having the same and method thereof}

본 발명은 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 복수개의 디바이스 중 유효한 디바이스에서 정확한 음성 명령 제어가 수행되도록 하는 기술에 관한 것이다.

디바이스들이 스마트해지면서, 사용자의 음성 신호를 이용하여 디바이스의 기능을 실행시킬 수 있는 음성 인식 기능이 디바이스에 탑재되고 있다.

디바이스에 탑재된 음성 인식 기능을 사용하기 위하여, 디바이스의 음성 인식 기능을 웨이크업 시켜야 한다. 이에 고정된 웨이크업 키워드를 이용하여 웨이크업시키게 되는데 이로 인하여 동일한 장소에 동일한 음성 인식 기능을 탑재한 복수의 디바이스가 있을 때, 원하지 않는 디바이스의 음성 인식 기능이 웨이크업 될 수 있다.

또한, 기존의 음성 인식 기능은 웨이크업 키워드와 음성 명령을 나누어 처리하고 있다. 이에 따라 사용자는 웨이크업 키워드를 입력한 후, 디바이스의 음성 인식 기능이 웨이크업 되면, 음성 명령을 입력하여야 한다. 만약 사용자가 웨이크업 키워드와 음성 명령을 연속적으로 입력할 경우에, 기존의 음성 인식 기능은 웨이크업 되지 않거나 웨이크업 된다 하더라고 입력된 음성 명령에 대한 인식 오류가 발생될 수 있다.

따라서, 보다 편리하고, 정확하게 디바이스의 음성 인식 기능을 웨이크업 시키면서 보다 정확하게 음성 명령을 인식할 수 있는 기술이 요구되고 있다.

본 발명의 실시예는 복수개의 디바이스 중 유효한 디바이스에서 정확한 음성인식을 통해 차량 제어를 수행할 수 있도록 하는 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법을 제공하고자 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예에 따른 음성 인식 제어 장치는 웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 음성신호 입력부; 상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 음성 필터링부; 및 상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 명령어 필터링부;를 포함할 수 있다.

일 실시예에서, 상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 검증부를 더 포함할 수 있다.

일 실시예에서, 상기 검증부는, 상기 웨이크업된 디바이스가 적어도 하나 이상인 경우, 상기 음성신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 상기 음성신호의 명령어가 상기 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송하는 것을 포함할 수 있다.

일 실시예에서, 상기 음성 필터링부는, 상기 음성신호로부터 문자를 추출하고, 상기 음성신호 중 적어도 하나 이상의 웨이크업 키워드가 존재하는 경우 상기 적어도 하나 이상의 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여, 코릴레이션이 높은 웨이크업 키워드를 선택하는 것을 포함할 수 있다.

일 실시예에서, 상기 명령 필터링부는, 상기 음성신호가 복수 개 입력되는 경우, 각 명령어의 문자 매칭률 및 신호의 세기를 판단하여, 문자 매칭률이 높거나 상기 신호의 세기가 큰 음성신호를 선택하는 것을 포함할 수 있다.

일 실시예에서, 상기 명령 필터링부는, 상기 음성신호의 명령어가 복수개인 경우, 상기 명령어의 동사 및 단어 수를 기반으로 상기 복수개의 명령어 중 하나를 선택하는 것을 포함할 수 있다.

일 실시예에서, 상기 명령 필터링부는, 상기 명령어 내 동사 및 단어의 수가 많은 명령어를 선택하되, 상기 동사의 수를 상기 단어의 수보다 우선순위로 명령어를 선택하는 것을 포함할 수 있다.

일 실시예에서, 상기 음성신호 입력 시 생체 인증을 수행하는 생체 인증부를 더 포함할 수 있다.

일 실시예에서, 상기 검증부에 의해 검증이 완료되면, 상기 음성신호를 발화한 사용자에게 웨이크업 키워드가 인식되었음을 피드백하는 피드백부를 더 포함할 수 있다.

일 실시예에서, 상기 음성 필터링부는, 상기 음성신호 내에 웨이크업 키워드가 존재하는 경우, 상기 웨이크업 키워드가 상기 음성신호 선두에 위치하는 경우 유효한 웨이크업 키워드인 것으로 판단하는 것을 포함할 수 있다.

본 발명의 실시예에 따른 음성 인식 제어 시스템은 웨이크업 키워드가 서로 다른 복수개의 디바이스에 대해, 사용자의 음성 신호의 선두에 위치하는 웨이크업 키워드를 인식하여 상기 인식된 웨이크업 키워드에 해당하는 디바이스를 웨이크업 시키고, 상기 음성신호 내의 명령어를 필터링하는 음성 인식 제어 장치; 및 상기 디바이스로부터 수신한 음성신호의 음성 인식을 수행하여 상기 음성 인식 수행 결과를 상기 디바이스로 제공하는 음성 인식 서버를 포함할 수 있다.

일 실시예에서, 상기 디바이스는, 웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 음성신호 입력부; 상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 음성 필터링부; 상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 명령어 필터링부; 및 상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 검증부를 포함할 수 있다.

본 발명의 실시예에 따른 음성 인식 제어 방법은 웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 단계; 상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 단계; 상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 단계; 상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 단계; 및 검증된 디바이스를 통해 차량 명령어를 전송하는 단계를 포함할 수 있다.

일 실시예에서, 상기 검증하는 단계는 상기 음성신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 상기 음성신호의 명령어가 상기 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송하는 것을 포함할 수 있다.

일 실시예에서, 상기 디바이스를 웨이크업시키는 단계는, 상기 음성신호로부터 문자를 추출하고, 상기 음성신호 중 적어도 하나 이상의 웨이크업 키워드가 존재하는 경우 상기 적어도 하나 이상의 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여, 코릴레이션이 높은 웨이크업 키워드를 선택하는 것을 포함할 수 있다.

일 실시예에서, 상기 주요 명령어를 선택하는 단계는, 상기 음성신호가 복수 개 입력되는 경우, 각 명령어의 문자 매칭률 및 신호의 세기를 판단하여, 문자 매칭률이 높거나 상기 신호의 세기가 큰 음성신호를 선택하는 것을 포함할 수 있다.

본 발명의 실시예에 따른 복수개의 디바이스 중 유효한 디바이스에서 정확한 음성인식을 통해 차량 제어를 수행할 수 있도록 한다.

도 1은 본 발명의 실시예에 따른 음성 인식 제어 시스템의 구성도이다.
도 2는 도 1의 디바이스의 세부 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 필터링 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 음성 명령신호의 코릴레이션에 따른 인덱스를 나타내는 도면이다.
도 5는 도 1의 음성인식 서버의 세부 구성도이다.
도 6은 본 발명의 실시예에 따른 다중 대화 플랫폼 음성인식 제어 방법을 나타내는 순서도이다.
도 7은 본 발명의 실시예에 따른 음성 필터링 방법을 구체적으로 나타내는 순서도이다.
도 8은 본 발명의 실시예에 따른 명령어 필터링 방법을 구체적으로 나타내는 순서도이다.
도 9은 본 발명의 실시예에 따른 검증 방법을 구체적으로 나타내는 순서도이다.
도 10은 본 발명의 실시예에 따른 음성 인식 제어 방법을 설명하기 위한 도면이다.
도 11은 본 발명의 실시예에 따른 음성인식 제어 방법을 적용한 컴퓨터 시스템의 구성도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 도 1 내지 도 11을 참조하여, 본 발명의 실시예들을 구체적으로 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음성 인식 제어 시스템의 구성도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 음성 인식 제어 시스템은 음성신호가 입력되는 음성 인식 제어 장치(100), 적어도 하나 이상의 디바이스(301,….300n), 음성 인식 제어 장치(100)로부터 수신한 음성신호를 인식한 명령어를 디바이스(300)로 전달하여, 디바이스(300)가 차량 단말(400)로 명령어를 전송하는 구성을 가진다.

음성 인식 제어 장치(100)는 웨이크업 키워드가 서로 다른 복수개의 디바이스에 대해, 사용자의 음성 신호의 선두에 위치하는 웨이크업 키워드를 인식하여 상기 인식된 웨이크업 키워드에 해당하는 디바이스를 웨이크업 시키고, 상기 음성신호 내의 명령어를 필터링하고 웨이크업 된 디바이스를 검증하여 검증된 웨이크업 디바이스를 통해 차량 단말(400)로 차량 명령어를 전송한다.

음성 인식 서버(200)는 음성인식 제어 장치(100)로부터 음성신호를 수신하면 음성인식을 수행한다. 즉 음성 인식 서버(200)는 음성신호를 문자열(텍스트)로 변환하고, 이를 위한 음향 모델(Acoustic Model)과 언어 모델(Language Model) 등을 포함할 수 있다. 음향 모델은 음성의 신호적인 특성을 모델링 한 것을 말한다. 언어 모델은 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링 한 것을 말한다.

적어도 하나 이상의 디바이스(301,…,30n)는 서로 다른 웨이크업 키워드를 인식하며, 차량 내의 차량 단말, 이동통신 단말 등을 포함할 수 있다. 차량 단말은 음성 인식 기능을 가지는 AVN(Audio, video navigation), 텔레매틱스 단말, 네비게이션 장치 등을 차량 내 탑재되는 모든 장치를 포함할 수 있다. 이동 통신 단말은 스마트 폰(Smart Phone), 노트북(Notebook), 스마트 보드(Smart Board), 태블릿(Tablet) PC(Personal Computer), 핸드헬드(handheld) 디바이스, 핸드헬드 컴퓨터, 미디어 플레이어, 전자북 디바이스, 및 PDA(Personal Digital Assistant) 등과 같은 음성인식이 가능한 디바이스 중 적어도 하나를 포함할 수 있으나 본 개시에서 디바이스(300)는 상술한 바로 제한되지 않는다.

이때, 음성 인식 제어 장치(100), 적어도 하나 이상의 디바이스(301,…..300n), 음성 인식 서버(200)는 유선 또는/및 무선 네트워크 기반, 근거리 무선 네트워크 또는/및 원거리 무선 네트워크로 연결될 수 있다.

도 2는 도 1의 음성인식 제어 장치(100)의 세부 구성도이다.

음성인식 제어 장치(100)는 사용자로부터 음성신호를 입력받아, 웨이크업 키워드가 인식되면 웨이크업되어 음성신호의 명령어 필터링 및 검증을 거친 후 음성 인식 서버(200)로 전송한다.

이를 위해, 음성인식 제어 장치(100)는 음성신호 입력부(111), 통신부(112), 디스플레이부(113), 저장부(114), 음성 필터링부(115), 명령 필터링부(116), 검증부(117), 제어부(118), 생체 인증부(119), 피드백부(120)를 포함한다.

음성신호 입력부(111)는 마이크로폰(microphone) 또는 단일 입력 음성 장치(single input voice device) 등을 통해 음성 신호를 입력받는다. 이때, 음성신호는 웨이크업 키워드와 명령어를 포함할 수 있다.

통신부(112)는 디바이스(300), 음성 인식 서버(200)와의 통신을 수행한다.

디스플레이부(113)는 음성 인식 서버(200)로부터 수신된 음성 인식 결과를 표시한다. 이를 위해 디스플레이부(113)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 또는 전기영동 디스플레이(electrophoretic display, EPD)를 포함할 수 있다.

저장부(114)는 사용자로부터 입력받은 음성신호, 음성 인식 서버(200)로부터 수신된 음성 인식 결과, 디바이스별 웨이크업 키워드 리스트, 명령어 문법 정보 등을 저장한다. 이를 위해, 저장부(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 또는 광디스크 타입의 저장매체를 포함할 수 있다.

음성 필터링부(115)는 사용자로부터 입력받은 음성신호 중 웨이크업 키워드 위치를 파악하고, 맨 앞단에 위치한 웨이크업 키워드를 인식하여 자신의 웨이크업 키워드와 일치하면 디바이스를 웨이크업 시킨다.

이를 위해, 음성 필터링부(115)는 음성 신호로부터 문자(character)를 추출하고, 웨이크업 키워드 리스트에 존재하는 웨이크업 키워드가 존재하는지를 필터링 한 후 다중 웨이크업 키워드가 인식된 경우 각 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여 고연관 인덱스들을 가지는 웨이크업 키워드를 선택하고 노이즈를 필터링한다.

도 3은 본 발명의 실시예에 따른 음성 필터링 방법을 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 음성 명령신호의 코릴레이션에 따른 인덱스를 나타내는 도면이다.

도 3을 참조하면, 음성 신호가 “Ok, Google. Tell my vehicle to be ready for Alexa? party. Gigagenie”라고 입력된 경우, “Ok, Google”, “Alexa”, “Gigagenie”에 대해 각각 음성신호의 코릴레이션 및 문자 코릴레이션을 수행한다. 도 4를 참조하면 “Ok, Google”의 음성 코릴레이션과 문자 코릴레이션 값이 가장 높으므로, 가장 높은 연관성을 가지는 ok, google가 웨이크업 키워드로서 선택될 수 있다. 이때 도 4에서 인덱스는 낮을수록 고연관을 나타낸다.

이때, 음성 필터링부(115)는 이러한 코릴레이션을 통해 음성신호의 초반부에 입력되는 명령어를 선택하고 음성신호의 중반부나 말미에 입력되는 웨이크업 키워드는 선택하지 않도록 한다.

명령 필터링부(116)는 입력된 복수의 음성신호 각각에 대해 텍스트 매칭을 수행하여 매칭률이 높거나 신호의 세기(SNR)가 높은 음성신호를 선택하고, 선택된 음성신호가 단일 명령인지 다중 명령인지를 판단한다.

또한 명령 필터링부(116)는 다중 명령인 경우 다중 명령의 세부 내용을 파악하여 동사수 및 단어수를 기반으로 가장 명확한 명령어를 선택하고 불명확한 명령어를 필터링한다. 이때, 동사수가 단어수보다 우선순위를 가질 수 있다.

검증부(117)는 명령어와 관련된 디바이스의 수를 체크하고, 명령어 패턴과 제어 경로를 분석한 후 이 명령어의 제어 경로가 중복인지를 판단하여, 중복이면 중복 경로들 중 하나를 선택하고 중복이 아닌 경우, 특정 디바이스에 대한 명령어의 문장 형식의 문법을 체크한다. 즉 검증부(117)는 웨이크업된 디바이스가 적어도 하나 이상인 경우, 음성신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 음성신호의 명령어가 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송할 수 있다.

제어부(118)는 각 구성요소의 전반적인 동작을 제어한다.

생체 인증부(119)는 음성신호 입력 시 생체 인증을 수행할 수 있다.

피드백부(120)는 검증부(117)에 의해 검증이 완료되면, 음성신호를 발화한 사용자에게 웨이크업 키워드가 인식되었음을 피드백한다.

도 5는 도 1의 음성인식 서버의 세부 구성도이다.

음성 인식 서버(200)는 통신부(210), 저장부(220), 음성 인식부(230), 제어부(240)를 포함한다.

통신부(210)는 음성인식 제어 장치(100)와의 통신을 수행한다.

저장부(220)는 음성인식을 위한 데이터를 저장한다.

음성 인식부(230)는 음성인식 제어 장치(100)로부터 수신한 음성신호의 음성인식을 수행한다.

제어부(240)는 각 구성의 전반적인 동작을 제어한다.

본 발명에서는 음성 신호의 필터링, 명령 필터링, 검증부의 구성을 포함하는 음성 인식 제어 장치가 음성인식 제어 장치(100) 내에 포함되는 경우를 도시하고 있으나, 이동통신 단말이나 차량 단말과 별도의 단말로 음성 인식 제어 장치를 구현할 수도 있다.

이하, 도 6을 참조하여, 본 발명의 실시예에 따른 음성인식 제어 방법을 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 음성인식 제어 방법을 나타내는 순서도이다.

도 6을 참조하면 음성인식 제어 장치(100)는 입력된 음성신호에 대해 음성 필터링을 처리한다(S100)). 즉 음성 인식 제어 장치(100)는 웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받고, 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 웨이크업 키워드에 해당하는 디바이스를 웨이크업시킨다.

이어, 음성 인식 제어 장치(100)는 명령어 필터링을 수행한다(S200). 즉, 음성 인식 제어 장치(100)는 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택한다.

그 후, 음성 인식 제어 장치(100)는 검증 처리를 수행한다(S300). 즉, 음성 인식 제어 장치(100)는 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증한다.

이어 음성 인식 제어 장치(100)는 검증된 디바이스를 통해 차량으로 명령어를 전송한다(S400).

이하, 도 7을 참조하여 본 발명의 실시예에 따른 음성 필터링 방법을 구체적으로 설명하기로 한다. 도 7는 본 발명의 실시예에 따른 음성 필터링 방법을 구체적으로 나타내는 순서도이다.

음성 인식 제어 장치(100)는 입력된 음성 신호로부터 문자(character)를 추출하고(S101), 추출된 문자로부터 웨이크업 키워드를 추출한다(S102). 이때, 웨이크업 키워드는 음성신호의 선두, 중반, 말미에 위치할 수 있으며 본 발명에서는 선두에 위치한 웨이크업 키워드만 웨이크업 키워드로서 인정한다. 예컨데, “시리야”가 웨이크업 키워드인 디바이스에 대해 “밥시리야호”라고 발화한 경우 발화 내용에 “시리야”를 포함하기는 하나 문장의 중간에 위치하므로 웨이크업 키워드로 인정되지 않는다.

한편, 음성 인식 제어 장치(100)는 다중 웨이크업 키워드가 인식되었는지를 판단하고(S103) 다중 웨이크업 키워드가 인식되지 않고 단일의 웨이크업 키워드만 인식된 경우 해당 웨이크업 키워드에 대해 노이즈 필터링을 수행한 후 출력한다(S105).

한편, 다중 웨이크업 키워드가 인식된 경우 각 웨이크업 키워드에 대해 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여(S105) 고연관 인덱스를 가지는 웨이크업 명령어를 선택한다(S106).

이어 선택된 웨이크업 명령어에 대해 노이즈 필터링을 수행한다(S105).

이하, 도 8을 참조하여 본 발명의 실시예에 따른 명령어 필터링 방법을 구체적으로 설명하기로 한다. 도 8은 본 발명의 실시예에 따른 명령어 필터링 방법을 구체적으로 나타내는 순서도이다. 도 8에서는 음성신호내의 웨이크업 키워드를 제외한 명령어에 대한 필터링 방법을 설명한다.

음성 인식 제어 장치(100)는 디바이스로부터 다중 명령어 입력을 위해 대기하고(S201), 다중 명령어의 텍스트 매칭률이 90% 이상인지를 판단한다(S202). 이때, 텍스트 매칭률은 명령어 DB에 저장된 텍스트와 비교함으로써 산출될 수 있다.

텍스트 매칭률이 90% 이상이 아닌 경우 음성 인식 제어 장치(100)는 신호의 세기가 높은 명령어를 선택하고, 텍스트 매칭률이 90% 이상인 경우 매칭률이 높은 명령어를 선택한다(S203).

이후, 음성 인식 제어 장치(100)는 명령어가 단일 명령어인지 다중 명령어인지를 판단하고(S205), 단일 명령어인 경우 검증부(117)로 단일 명령어를 전달한다(S206). 이때, 단일 명령어는 하나의 명령어를 포함하는 경우이고, 다중 명령어는 복수개의 명령어를 포함하는 경우이다. 예를 들어, “창문 열고 라디오 틀어”의 경우 다중 명령어이다.

한편, 다중 명령어인 경우, 음성 인식 제어 장치(100)는 해당 명령어가 직접 명령어 인지를 판단하고(S207) 직접 명령어인 경우 불명확한 명령어를 필터링한 후(S208), 검증부(117)로 단일 명령어를 전달한다(S206).

직접 명령어가 아닌 경우, 명령어의 동사수 및 단어수를 기반으로 명령어를 선택한다(S209). 예컨데, “차량 시동을 걸어”는 직접 명령어이고, “곧 떠날 준비를 해”는 간접 명령어이다. “차량 시동을 걸어”는 동사가 1개 단어가 3개이고, “곧 떠날 준비를 해”는 동사가 1개 단어가 4개이다. 이때, 동사수 또는 단어수가 많은 명령어가 선택될 수 있다.

이후, 선택된 명령어에 대한 불명확한 명령어제거를 위한 필터링을 수행한 후(S208), 검증부(117)로 단일 명령어를 전달한다(S206).

이하, 도 9를 참조하여 본 발명의 실시예에 따른 검증 방법을 구체적으로 설명하기로 한다. 도 9은 본 발명의 실시예에 따른 검증 방법을 구체적으로 나타내는 순서도이다.

음성 인식 제어 장치(100)는 음성 인식을 위해 웨이크업 된 디바이스 수를 체크하고(S301), 명령어 패턴 및 제어 경로를 분석하고(S302), 중복 제어 경로가 존재하는 지를 판단한다(S303). 이때 제어 경로는 웨이크업된 디바이스에서 차량 단말로 차량 명령어를 전송하는 경로를 의미하며, 이러한 제어 경로가 2개이상 존재하는 지를 판단하는 것이다.

중복 제어 경로가 없는 경우 음성 인식 제어 장치(100)는 해당 경로를 최적의 제어 경로로 선택하고(S304), 중복 제어 경로가 존재하는 경우 중복 제어 경로 각각의 디바이스별 문법을 체크한다(S305). 이에 문법 일치율은 디바이스를 선택하여 차량 명령어를 차량 단말로 전송할 수 있다.

예를 들어, 디바이스 1과 디바이스가 2가 웨이크업된 경우, 디바이스 1의 문법 일치 성공율은 90%, 문법 일치 실패율은 10%이고, 디바이스 2의 문법 일치 성공율은 89%이고 문법 일치 실패율이 5%인 경우, 디바이스 2를 선택할 수 있다. 이때, 디바이스별 명령어 문법 형식이 존재하는데, 이러한 문법과 입력된 명령어의 문법이 일치하는 지를 판단하는 것이다.

이하 도 10을 참조하여 예를 들어 따른 음성 인식 제어 방법을 설명하기로 한다. 도 10을 참조하면, 사용자가 “Ok, Google. Tell my vehicle to be ready for the destination of Alexa’s party.”라고 발화한 경우, 음성 필터링부(115)는 웨이크업 키워드 리스트에 존재하는 “Ok, google”, “Alexa”를 추출하는데, 음성신호의 선두에 존재하는 “Ok, google”을 웨이크업 키워드로 인식하고 “Alexa”는 웨이크업 키워드로 인식하지 않는다. 이에 “Ok, google”을 웨이크업 키워드로 사용하는 디바이스로서 디바이스1, 디바이스2가 존재한다고 가정하면, 디바이스1, 디바이스2가 웨이크업 된다.

이 후, 명령 필터링부(116)는 웨이크업 키워드 뒷단에 입력되는 명령어” Tell my vehicle to be ready for the destination of Alexa’s party.” 를 필터링한다. 즉, 다중 명령어이므로 이를 분리하면“Tell my vehicle to be ready”와 “for the destination of Alexa’s party”로 2개의 명령어로 분리되고, “Tell my vehicle to be ready”는 1개의 동사와 5개의 단어로 구성되고, “for the destination of Alexa’s party”0개의 동사와 6개의 단어로 구성됨을 파악한다.

이에 명령 필터링부(116)는 다중 명령어 중 동사수가 많은 “Tell my vehicle to be ready”을 주요 명령어로 선택한다.

그 후, 검증부(117)는 웨이크업된 두개의 디바이스들, 디바이스1, 디바이스2 각각에서 차량 단말로 명령어로 전송하는 제어 경로를 파악하고, 디바이스의 문법 일치율을 판단한다. 즉 디바이스별 명령어 문법이 존재하는데, 사용자가 발화한“Tell my vehicle to be ready”명령어와 문법 일치율이 높은 디바이스를 선택한다. 예를 들어, 디바이스 1은 문법 일치 성공율이 90%, 문법 일치 실패율이 10%이고, 디바이스 2는 문법 일치 성공율이 89%, 문법 일치 실패율이 5%인 경우, 성공율에 비해 실패율이 더 낮은 디바이스 2를 선택하여 차량 단말로 명령어를 전달하도록 할 수 있다.

도 11은 본 발명의 실시예에 따른 음성인식 제어 방법을 적용한 컴퓨터 시스템의 구성도이다.

도 11을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다.

예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 디바이스
200 : 음성 인식 서버
110 : 차량 단말
120 : 이동 통신 단말
111 : 음성 신호 입력부
112 : 통신부
113 : 디스플레이부
114 : 저장부
115 : 음성 필터링부
116 : 명령 필터링부
117 : 검증부
118 : 제어부

Claims

웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 음성신호 입력부;
상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 음성 필터링부; 및
상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 명령어 필터링부;
를 포함하는 음성 인식 제어 장치.
청구항 1에 있어서,
상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 검증부
를 더 포함하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 2에 있어서,
상기 검증부는,
상기 웨이크업된 디바이스가 적어도 하나 이상인 경우,
상기 음성신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 상기 음성신호의 명령어가 상기 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 1에 있어서,
상기 음성 필터링부는,
상기 음성신호로부터 문자를 추출하고, 상기 음성신호 중 적어도 하나 이상의 웨이크업 키워드가 존재하는 경우 상기 적어도 하나 이상의 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여, 코릴레이션이 가장 높은 웨이크업 키워드를 선택하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 1에 있어서,
상기 명령 필터링부는,
상기 음성신호가 복수 개 입력되는 경우, 각 명령어의 문자 매칭률 및 신호의 세기를 판단하여, 문자 매칭률이 높거나 상기 신호의 세기가 큰 음성신호를 선택하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 5에 있어서,
상기 명령 필터링부는,
상기 음성신호의 명령어가 복수개인 경우, 상기 명령어의 동사 및 단어 수를 기반으로 상기 복수개의 명령어 중 하나를 선택하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 6에 있어서,
상기 명령 필터링부는,
상기 명령어 내 동사 및 단어의 수가 가장 많은 명령어를 선택하되, 상기 동사의 수를 상기 단어의 수보다 우선순위로 명령어를 선택하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 1에 있어서,
상기 음성신호 입력 시 생체 인증을 수행하는 생체 인증부
를 더 포함하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 2에 있어서,
상기 검증부에 의해 검증이 완료되면, 상기 음성신호를 발화한 사용자에게 웨이크업 키워드가 인식되었음을 피드백하는 피드백부
를 더 포함하는 것을 특징으로 하는 음성 인식 제어 장치.
청구항 1에 있어서,
상기 음성 필터링부는,
상기 음성신호 내에 웨이크업 키워드가 존재하는 경우, 상기 웨이크업 키워드가 상기 음성신호 선두에 위치하는 경우 유효한 웨이크업 키워드인 것으로 판단하는 것을 특징으로 하는 음성 인식 제어 장치.
웨이크업 키워드가 서로 다른 복수개의 디바이스에 대해, 사용자의 음성 신호의 선두에 위치하는 웨이크업 키워드를 인식하여 상기 인식된 웨이크업 키워드에 해당하는 디바이스를 웨이크업 시키고, 상기 음성 신호 내의 명령어를 필터링하는 음성 인식 제어 장치; 및
상기 디바이스로부터 수신한 음성신호의 음성 인식을 수행하여 상기 음성 인식 수행 결과를 상기 디바이스로 제공하는 음성 인식 서버
를 포함하는 것을 특징으로 하는 음성 인식 제어 시스템.
청구항 11에 있어서,
상기 디바이스는,
웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 음성신호 입력부;
상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 음성 필터링부;
상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 명령어 필터링부; 및
상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 검증부
를 포함하는 것을 특징으로 하는 음성 인식 제어 시스템.
청구항 12에 있어서,
상기 검증부는,
상기 웨이크업된 디바이스가 적어도 하나 이상인 경우,
상기 음성신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 상기 음성신호의 명령어가 상기 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송하는 것을 특징으로 하는 음성 인식 제어 시스템.
청구항 12에 있어서,
상기 음성 필터링부는,
상기 음성신호로부터 문자를 추출하고, 상기 음성신호 중 적어도 하나 이상의 웨이크업 키워드가 존재하는 경우 상기 적어도 하나 이상의 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여, 코릴레이션이 가장 높은 웨이크업 키워드를 선택하는 것을 특징으로 하는 음성 인식 제어 시스템.
청구항 12에 있어서,
상기 명령 필터링부는,
상기 음성신호가 복수 개 입력되는 경우, 각 명령어의 문자 매칭률 및 신호의 세기를 판단하여, 문자 매칭률이 높거나 상기 신호의 세기가 큰 음성신호를 선택하는 것을 특징으로 하는 음성 인식 제어 시스템.
청구항 15에 있어서,
상기 명령 필터링부는,
상기 음성신호의 명령어가 복수개인 경우, 상기 명령어의 동사 및 단어 수를 기반으로 상기 복수개의 명령어 중 하나를 선택하는 것을 특징으로 하는 음성 인식 제어 시스템.
웨이크업 키워드와 명령어를 포함하는 음성신호를 입력받는 단계;
상기 음성신호의 선두에 위치하는 웨이크업 키워드를 인식하여 복수개의 디바이스 중 상기 웨이크업 키워드에 해당하는 디바이스를 웨이크업시키는 단계;
상기 음성신호의 명령어의 단어 및 동사 기반으로 주요 명령어를 선택하는 단계;
상기 웨이크업된 디바이스를 통한 차량 명령어 전송할지를 검증하는 단계; 및
검증된 디바이스를 통해 차량 명령어를 전송하는 단계
를 포함하는 것을 특징으로 하는 음성 인식 제어 방법.
청구항 17에 있어서,
상기 차량 명령어 전송할지를 검증하는 단계는
상기 음성 신호의 명령어가 각 디바이스별 명령어 문법에 맞는지를 확인하여 상기 음성신호의 명령어가 상기 적어도 하나 이상의 웨이크업된 디바이스와의 문법 일치율이 가장 높은 디바이스를 선택하여 차량 명령어를 전송하는 것을 특징으로 하는 음성 인식 제어 방법.
청구항 17에 있어서,
상기 디바이스를 웨이크업시키는 단계는,
상기 음성신호로부터 문자를 추출하고, 상기 음성신호 중 적어도 하나 이상의 웨이크업 키워드가 존재하는 경우 상기 적어도 하나 이상의 웨이크업 키워드에 대한 음성신호 코릴레이션 및 문자 코릴레이션을 수행하여, 코릴레이션이 가장 높은 웨이크업 키워드를 선택하는 것을 특징으로 음성 인식 제어 방법.
청구항 17에 있어서,
상기 주요 명령어를 선택하는 단계는,
상기 음성신호가 복수 개 입력되는 경우, 각 명령어의 문자 매칭률 및 신호의 세기를 판단하여, 문자 매칭률이 높거나 상기 신호의 세기가 큰 음성신호를 선택하는 것을 특징으로 하는 음성 인식 제어 방법.