KR20200052638A

KR20200052638A - 전자 장치 및 전자 장치의 음성 인식 방법

Info

Publication number: KR20200052638A
Application number: KR1020180135827A
Authority: KR
Inventors: 박경춘; 양덕규
Original assignee: 삼성전자주식회사
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-15

Abstract

전자 장치의 음성 인식 방법이 개시된다. 개시된 전자 장치의 음성 인식 방법은, 타 전자 장치로부터 장치 정보를 수신하는 단계, 수신된 장치 정보와 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정하는 단계, 결정된 마스터 장치의 정보를 타 전자 장치에 통지하는 단계 및 전자 장치가 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 단계를 포함한다.

Description

전자 장치 및 전자 장치의 음성 인식 방법{ELECTRONIC APPARATUS AND METHOD FOR VOICE RECOGNITION}

본 개시는 전자 장치 및 전자 장치의 음성 인식 방법에 관한 것으로, 보다 상세하게는 음성 인식 가능한 복수의 전자 장치 중 음성 인식을 수행할 전자 장치를 자동으로 결정하는 전자 장치 및 음성 인식 방법에 관한 것이다.

전자 장치는 사용자의 제어 명령에 따라 다양한 기능을 수행하는 장치이다. 최근의 전자 장치는 키패드, 리모컨 등의 입력 장치를 통하여 제어 명령을 입력받는 것뿐만 아니라, 사용자 음성을 통하여 제어 명령을 입력받는 음성 인식 기능이 채용되고 있다.

특히, 사용자가 특정 시작 명령어(예를 들어, 빅스비)를 발화하면, 특정 시작 명령어에 반응하여 음성 인식 기능을 활성화하는 방법이 적용된 전자 장치가 확대되고 있다.

한편, 특정 시작 명령에 반응하여 음성 인식 기능이 활성화되는 전자 장치가 하나의 공간 내에 복수 개 위치한 상태에서, 사용자가 하나의 전자 장치에 대한 기능 수행을 명령하기 위한 목적으로 특정 시작 명령을 발화할 수 있다. 이 경우, 본래 사용자가 목적으로 하는 하나의 전자 장치뿐만 아니라 나머지 전자 장치의 음성 인식 기능이 동시에 활성화될 수 있었다.

그러나 사용자는 특정 장치에서만 음성 기능을 수행할 목적으로 특정 시작 명령어를 발화하는 것이 일반적이라는 점에서, 사용자의 의도에 따라 사용자가 제어하고자 하는 장치에서만 음성 인식 기능을 활성화하는 방법이 요구되었다.

본 개시의 목적은 음성 인식 가능한 복수의 전자 장치 중 음성 인식을 수행할 전자 장치를 자동으로 결정하는 전자 장치 및 전자 장치의 음성 인식 방법을 제공하는 데 있다.

본 개시의 일 실시 예에 따른 전자 장치의 음성 인식 방법은, 타 전자 장치로부터 장치 정보를 수신하는 단계, 상기 수신된 장치 정보와 상기 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정하는 단계, 상기 결정된 마스터 장치의 정보를 상기 타 전자 장치에 통지하는 단계 및 상기 전자 장치가 상기 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 단계를 포함할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치는, 타 전자 장치와 통신 가능한 통신 장치, 음성을 입력받는 마이크 및 타 전자 장치로부터 장치 정보를 수신하고, 상기 수신된 장치 정보와 상기 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정하고, 상기 결정된 마스터 장치의 정보를 상기 타 전자 장치에 통지하도록 상기 통신 장치를 제어하고, 상기 전자 장치가 상기 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 프로세서를 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템의 구성을 도시한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 간략한 구성을 나타내는 블록도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 나타내는 블록도,
도 4는 복수의 전자 장치 간의 마스터 장치 결정 동작을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,
도 6은 본 개시의 다른 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 음성 인식 방법을 설명하기 위한 흐름도, 그리고,
도 8은 본 개시의 다른 실시 예에 따른 전자 장치의 음성 인식 방법을 설명하기 위한 흐름도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.

개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.

이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템의 구성을 도시한 도면이다.

도 1을 참조하면, 음성 인식 시스템(1000)은 복수의 전자 장치(100-1, 100-2, 100-3)로 구성될 수 있다.

복수의 전자 장치(100-1, 100-2, 100-3)는 음성 인식 기능을 수행하고, 음성 인식 결과에 따른 기능을 수행할 수 있는 장치이다. 여기서, 음성 인식이란 입력된 음성의 음향학적 신호를 단어나 문장으로 변환시키는 기술을 의미한다.

복수의 전자 장치(100-1, 100-2, 100-3)는 사용자 발화 음성을 입력받고, 입력받은 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 복수의 전자 장치(100-1, 100-2, 100-3)는 음성 인식 기능을 활성화하는 트리거 음성 명령인 시작 명령어(Wake Up Word, WUW)를 감지하면, 음성 인식 기능을 활성화하고, 이후에 입력된 음성에 대한 음성 인식을 수행할 수 있다.

한편, 복수의 전자 장치(100-1, 100-2, 100-3)가 하나의 공간 내에 위치한 상태에서, 사용자가 하나의 전자 장치(100-1)에 대한 기능 수행을 명령하기 위한 목적으로 시작 명령어를 발화할 수 있다. 이 경우, 본래 사용자가 목적으로 하는 하나의 전자 장치(100-1)뿐만 아니라 나머지 전자 장치(100-2, 100-3)의 음성 인식 기능이 동시에 활성화될 수 있다.

이를 방지하기 위해, 복수의 전자 장치(100-1, 100-2, 100-3)는 복수의 전자 장치(100-1, 100-2, 100-3)가 동시에 사용자가 발화한 시작 명령어를 인식한 경우, 그 중 사용자가 목적으로 하는 하나의 전자 장치(100-1)의 음성 인식 기능만을 활성화할 수 있다.

구체적으로, 복수의 전자 장치(100-1, 100-2, 100-3)는 복수의 전자 장치(100-1, 100-2, 100-3) 중 하나의 전자 장치(100-2)를 마스터 장치로 결정하고, 복수의 전자 장치(100-1, 100-2, 100-3)가 음성을 인식하면, 인식된 음성을 마스터 장치(100-2)에 전송하고, 마스터 장치(100-2)가 복수의 전자 장치(100-1, 100-2, 100-3) 중 음성 인식 기능을 활성화할 장치를 선택하여, 선택된 전자 장치에 음성 인식 기능을 활성화시킬 수 있다.

여기서 마스터 장치란, 전자 장치(100-2) 및 나머지 전자 장치(100-1, 100-3)중 적어도 하나의 장치가 사용자의 트리거 음성을 인식한 경우, 복수의 전자 장치(100-1, 100-2, 100-3) 중 음성 인식 기능을 수행할 장치를 결정하는 장치를 의미한다.

한편, 마스터 장치를 결정하는 동작에 대한 구체적인 설명은 도 4와 관련하여 후술한다. 또한, 음성 인식 기능을 활성화할 장치를 선택하는 동작에 대한 구체적인 설명은 도 2와 관련하여 후술한다.

이상과 같이 본 실시 예에 따른 음성 인식 시스템(1000)은 복수의 전자 장치 중 하나의 장치를 마스터 장치로 결정하고, 복수의 전자 장치에 음성이 동시에 인식되면 마스터 장치가 인식된 음성을 기초로 음성 인식 기능을 활성화할 장치를 선택하고, 선택된 장치의 음성 인식 기능을 활성화하는바, 사용자 의도에 보다 부합한 동작 수행이 가능하다.

한편, 도 1을 도시함에 있어서, 음성 인식 시스템에 3대의 전자 장치가 구비되는 것으로 설명하였지만, 2개의 전자 장치로 구성될 수도 있으며 4대 이상의 전자 장치로 구성될 수도 있다.

또한, 도시된 예에서는 각 전자 장치가 서로 다른 종류의 장치인 것으로 도시하였지만, 구현 시에 적어도 두 대의 장치는 동일한 종류의 장치일 수도 있다.

이하에서는 상술한 전자 장치의 구체적인 구성을 통하여 상술한 동작을 보다 자세히 설명한다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 간략한 구성을 나타내는 블록도이다.

도 2를 참조하면, 전자 장치(100)는 마이크(110), 통신 장치(120) 및 프로세서(130)를 포함한다. 여기서 전자 장치(100)는 PC, TV, 모바일 장치, 셋탑 박스, 냉장고, 세탁기, 전자레인지, 스피커 등일 수 있으며, 음성 인식 기능을 지원한다면 상술한 장치뿐만 아니라 상술한 장치 이외의 다른 전자 장치일 수도 있다.

마이크(110)는 음성을 입력받을 수 있다. 구체적으로, 마이크(110)는 음성을 입력받아 전자 장치(100)에서 처리할 수 있은 음성 신호로 변환할 수 있다. 한편, 도시된 예에서는 마이크(110)가 전자 장치(100)에 내장되는 것으로 설명하였지만, 구현 시에 마이크는 전자 장치의 외부 장치로 구현될 수 있다. 즉, 외부의 마이크로부터 음성 신호를 수신하여 이용하는 형태로도 구현될 수 있다.

통신 장치(120)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 구체적으로, 통신 장치(120)는 타 전자 장치와 통신을 수행할 수 있으며, 외부 네트워크(예를 들어, 인터넷, 서버 등)와 통신을 수행할 수도 있다. 이러한 동작을 위하여, 통신 장치(120)는 와이파이칩, 블루투스 칩을 포함할 수 있다.

예를 들어, 블루투스 칩을 이용하여 음성 인식 시스템(1000) 내의 타 전자 장치와 통신을 수행할 수 있으며, 와이파이 칩을 통하여 음성 인식 시스템 외부의 장치와 통신을 수행할 수 있다. 한편, 구현 시에는 와이파이 칩을 통하여 음성 인식 시스템(100) 내의 타 전자 장치와의 통신도 가능할 수 있다.

한편, 전자 장치(100)가 외부 서버를 이용하여 음성 인식 기능을 처리하는 경우, 통신 장치(120)는 마이크(110)에서 수신한 음성 신호를 외부 서버(미도시)에 전송하고, 외부 서버(미도시)로부터 인식 결과를 수신할 수 있다.

그리고 통신 장치(120)는 음성 인식 시스템을 구성하는 타 전자 장치의 장치 정보 및 자신의 전자 장치를 공유하기 위한 통신을 수행할 수 있다.

여기서, 장치 정보는 장치명, 장치 모델명, 장치종류 등의 장치를 식별할 수 있는 정보뿐만 아니라, 장치에서 수행한 이력 정보(특정 시간에서 사용자가 수행한 기능 또는 앱 수행 이력 정보, 특정 앱에서 수행한 음성 인식 결과(특정 기능 버튼의 입력을 통하여 해당 장치에서만 수행한 음성 인식)를 포함할 수 있다. 또한, 장치 정보는 장치에 설치된 앱 정보, 장치에서 수행 가능한 기능 정보 또한 포함할 수 있다.

이때, 장치에서 수행 가능한 기능 정보는 화자 인식 모델의 유무 정보를 포함할 수 있다. 여기서 화자 인식 모델이란, 음성에 포함된 성문(Vocal Print) 정보와 기등록된 사용자의 성문 정보를 이용하여, 기등록된 사용자 중 현재 발화자에 해당하는 사용자를 판별하는 모델을 의미한다.

그리고 통신 장치(120)는 기설정된 단어가 포함된 음성이 감지되면, 감지된 음성에 대응되는 음성 데이터를 타 전자 장치에 전송할 수 있다. 여기서 기설정된 단어는, 음성 인식 기능을 활성화하는 트리거 음성 명령인 시작 명령어(Wake Up Word, WUW)일 수 있다. 예를 들어, “빅스비”가 포함된 음성이 감지되면, 통신 장치(120)는 “빅스비” 음성에 대응되는 음성 데이터를 타 전자 장치에 전송할 수 있다. 또한, 통신 장치(120)는 타 전자 장치에서 전송되는 음성 데이터를 수신할 수도 있다.

그리고 통신 장치(120)는 음성 인식 기능의 활성화 명령을 음성 인식 기능을 활성화하기로 선택한 대상 기기에 전송할 수 있다. 또한, 통신 장치(120)는 타 전자 장치에서 전송되는 음성 인식 기능 활성화 명령을 수신할 수도 있다.

한편, 통신 장치(120)는 마이크(110) 및 프로세서(130)만 활성화된 대기 모드에서는 비활성화 상태이다가, 마이크(110)를 통해 음성이 입력되면, 프로세서(130)의 제어에 의해 활성화될 수 있다. 이후, 전자 장치(100)가 입력된 음성에 대한 음성 인식을 수행하지 않는 것으로 결정되면, 통신 장치(120)는 프로세서(130)의 제어에 의해 다시 비활성화될 수 있다.

그리고 통신 장치(120)는 외부 장치로부터 안테나, 케이블 또는 포트와 같은 유선 방식을 통하여 영상 신호, 오디오 신호 및 입력된 음성에 대한 정보를 수신하거나, 와이파이(Wi-Fi), 블루투스와 같은 무선 방식을 통하여 영상 신호, 오디오 신호 및 기타 입력된 음성에 대한 정보를 수신할 수 있다.

그 밖에, 도 2에 도시하지는 않았으나, 실시 예에 따라서는, 통신 장치(120)는 USB 커넥터가 연결될 수 있는 USB 포트나, 헤드셋, 마우스, LAN 등과 같은 다양한 외부 단자와 연결하기 위한 다양한 외부 입력 포트, DMB(Digital Multimedia Broadcasting) 신호를 수신하여 처리하는 DMB 칩 등을 더 포함할 수 있음은 물론이다.

프로세서(130)는 전자 장치(100) 내의 전반적인 동작을 제어한다. 구체적으로, 프로세서(130)는 마이크(110)로부터 트리거 음성이 입력되면, 음성 인식 기능을 활성화할 수 있다. 보다 구체적으로, 프로세서(130)는 전자 장치(100)의 동작 모드가 절전 모드인 경우, 전자 장치(100)의 동작 모드를 노멀 모드 또는 다른 절전 모드(보다 구체적으로 타 전자 장치와 통신할 수 있는 절전 모드)로 전환할 수 있다. 그리고 프로세서(130)는 트리거 음성 이후에 입력된 음성에 대하여 음성 인식 기능을 수행할 수 있다.

한편, 프로세서(130)는 음성 인식 기능을 수행하기에 앞서, 마스터 장치를 결정할 수 있다. 여기서 마스터 장치란, 전자 장치(100)와 연결 가능한 타 전자 장치가 존재하고, 전자 장치(100) 및 타 전자 장치 중 적어도 하나의 장치가 사용자의 트리거 음성을 인식한 경우, 복수의 전자 장치 중 음성 인식 기능을 수행할 장치를 결정하는 장치를 의미한다.

구체적으로, 프로세서(130)는 전자 장치(100) 및 전자 장치(100)와 연결 가능한 타 전자 장치의 장치 정보를 기초로 마스터 장치를 결정할 수 있다. 예를 들어, 프로세서(130)는 전자 장치(100) 및 타 전자 장치의 장치 정보를 비교하고, 하드웨어 사양이 높은 장치를 마스터 장치로 결정할 수 있다.

또 다른 예로, 프로세서(130)는 전자 장치(100) 및 타 전자 장치 중 화자 인식 모델을 갖는 장치를 마스터 장치로 결정할 수 있다.

그리고 프로세서(130)는 결정된 마스터 장치에 대한 정보를 타 전자 장치에 통지하도록 통신 장치(120)를 제어할 수 있다. 한편, 마스터 장치를 결정하는 동작에 대한 보다 구체적인 설명은 도 4와 관련하여 후술한다.

만약, 전자 장치(100)가 아닌 타 전자 장치가 마스터 장치로 결정된 경우, 프로세서(130)는 이후 마이크(110)로부터 트리거 음성이 입력되면, 입력된 음성에 대응되는 음성 데이터를 마스터 장치로 전송하도록 통신 장치(120)를 제어할 수 있다.

그리고 마스터 장치로부터 음성 인식 기능의 활성화 명령을 수신하면, 프로세서(130)는 트리거 음성 이후에 입력된 음성에 대한 음성 인식을 수행할 수 있다. 그러나 마스터 장치로부터 음성 인식 기능의 활성화 명령이 수신되지 않는 경우, 프로세서(130)는 음성 인식을 수행하지 않을 수 있다.

반면, 전자 장치(100)가 마스터 장치로 결정된 경우, 프로세서(130)는 타 전자 장치 및 전자 장치(100) 각각에서 인식한 트리거 음성을 기초로 음성 인식 기능을 수행할 장치를 선택할 수 있다.

구체적으로, 전자 장치(100)가 화자 인식 모델을 갖고 있는 경우, 프로세서(130)는 화자 인식 모델을 이용하여 복수의 장치 각각에서 인식한 트리거 음성을 발화한 사용자를 확인할 수 있다.

그리고 프로세서(130)는 복수의 장치 각각에서 인식한 트리거 음성 중 확인된 사용자의 정보와 가장 유사한 정보를 갖는 트리거 음성을 확인할 수 있다. 그리고 프로세서(130)는 확인된 트리거 음성에 대응되는 장치를 음성 인식 기능을 수행할 장치로 선택할 수 있다.

보다 구체적으로, 프로세서(130)는 복수의 장치 각각에서 인식한 트리거 음성으로부터, 음성의 주파수 분포의 시계열적 분해의 결과로 얻어지는 그래프인 성문(Voice Print)을 추출할 수 있다. 추출된 복수의 성문 정보를 기저정된 사용자의 성문 정보와 비교하여 트리거 음성의 발화자가 기저장된 사용자에 해당하는지 확인할 수 있다. 그리고 추출된 복수의 성문 정보 중 확인된 사용자의 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

예를 들어, 프로세서(130)는 전자 장치(100)의 마이크(110)를 통해 인식된 트리거 음성에서 추출한 제1 성문 정보 및 타 전자 장치로부터 수신된 트리거 음성에서 추출된 제2 성문 정보를 기저장된 사용자 A의 성문 정보를 비교하여, 현재 발화자가 사용자 A의 해당 여부를 확인할 수 있다. 현재 발화자가 사용자 A에 해당하는 경우, 프로세서(130)는 기저장된 사용자 A의 성문 정보와 제1 성문 정보 및 제2 성문 정보를 비교하여, 가장 유사한 성문 정보가 제1 성문 정보인 것으로 확인할 수 있다. 그리고 프로세서(130)는 제1 성문 정보에 대응되는 전자 장치(100)를 음성 인식을 수행할 장치로 선택할 수 있다.

이때, 프로세서(130)가 트리거 음성의 발화자가 기저장된 사용자에 해당하는지 여부를 판단하는 동작은, 추출한 성문 정보와 기저장된 사용자의 성문 정보를 비교하고, 그 차이가 기설정된 차이 이내인 경우 트리거 음성의 발화자가 기저장된 사용자인 것으로 결정하는 방법으로 수행될 수 있으며, 이에 한정되지 않는다.

한편, 트리거 음성의 발화자가 기저장된 사용자가 아닌 경우, 프로세서(130)는 음성 인식 기능을 수행할 장치가 없는 것으로 결정할 수 있으나, 구현 시에는 별도의 방법을 추가적으로 적용하여 음성 인식 기능을 수행할 장치를 선택할 수 있다.

또한, 프로세서(130)는 복수의 사용자에 대한 성문 정보가 기저장되어 있는 경우, 추출된 복수의 성문 정보를 기저장된 복수의 사용자의 성문 정보와 각각 비교하고, 추출된 복수의 성문 정보에 대응되는 사용자를 확인할 수 있다. 그리고 프로세서(130)는 추출한 복수의 성문 정보 중 확인된 사용자의 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

예를 들어, 프로세서(130)는 사용자 A 및 사용자 B에 대한 성문 정보가 저장되어 있는 경우, 전자 장치(100)의 마이크(110)를 통해 인식된 트리거 음성에서 추출한 제1 성문 정보 및 타 전자 장치로부터 수신된 트리거 음성에서 추출된 제2 성문 정보를 사용자 A 및 사용자 B에 대한 성문 정보와 각각 비교하고, 제1 성문 정보 및 제2 성문 정보에 대응되는 사용자를 확인할 수 있다.

만약 확인된 사용자가 A인 경우, 프로세서(130)는 제1 성문 정보 및 제2 성문 정보 중 사용자 A의 성문 정보와 더 유사한 성문 정보를 확인할 수 있다. 만약 사용자 A의 성문 정보와 가장 유사한 성문 정보가 제1 성문 정보인 것으로 확인된 경우, 제1 성문 정보에 대응되는 전자 장치(100)를 음성 인식을 수행할 장치로 선택할 수 있다.

또한, 프로세서(130)는 복수의 사용자에 대한 성문 정보가 기저장되어 있고, 추출된 복수의 성문 정보에 대응되는 사용자가 복수인 것으로 확인된 경우, 복수의 장치를 음성 인식을 수행할 장치로 선택할 수 있다. 구체적으로, 프로세서(130)는 확인된 복수의 사용자 성문 정보 각각과 가장 유사한 성문 정보에 대응되는 복수 개의 장치를 확인하고, 확인된 복수의 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

예를 들어, 사용자 A 및 사용자 B에 대한 성문 정보가 저장되어 있고, 제1 성문 정보에 대응되는 사용자는 사용자 A, 제2 성문 정보에 대응되는 사용자는 사용자 B, 제3 성문 정보에 대응되는 사용자는 사용자 B로 확인된 경우, 프로세서(130)는 사용자 A의 성문 정보와 가장 유사한 성문 정보로 제1 성문 정보를 확인할 수 있다. 그리고 프로세서(130)는 사용자 B의 성문 정보와 제2 성문 정보 및 제3 성문 정보를 비교하여, 사용자 B의 성문 정보와 가장 유사한 성문 정보로 제2 성문 정보를 확인할 수 있다. 그리고 프로세서(130)는 제1 성문 정보 및 제3 성문 정보에 대응되는 장치 각각을 음성 인식을 수행할 장치로 선택할 수 있다.

이와 같이 화자 인식 모델을 사용하여 음성 인식을 수행할 장치를 선택하는 방법은, 기저장된 사용자의 성문 정보를 이용하므로, 인식된 음성만을 이용하여 음성 인식을 수행할 장치를 선택하는 방법 보다 더 높은 음성 인식 인식률을 가질 수 있다.

또한, 화자 인식 모델을 지원하지 않는 저 사양의 전자 장치가 존재하더라도, 저 사양의 전자 장치가 화자 인식 모델을 지원 가능한 고 사양의 전자 장치와 연결 가능한 경우, 고사양의 전자 장치를 마스터 장치로 결정하여 화자 인식 모델을 이용한 음성 인식을 수행할 장치를 선택하는 동작을 수행함으로써, 고 사양의 전자 장치와 동일한 수준의 음성 인식 인식률을 가질 수 있다.

한편, 전자 장치(100) 및 타 전자 장치가 화자 인식 모델을 갖고 있지 않은 경우, 프로세서(130)는 복수의 장치 각각에서 인식한 트리거 음성으로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보를 분석하여 유사한 성문 정보를 갖는 음성끼리 묶어 복수의 그룹을 생성할 수 있다. 그리고 프로세서(130)는 복수의 그룹 각각에 대하여 음성 인식을 수행할 장치를 선택할 수 있다.

구체적으로, 프로세서(130)는 추출한 복수의 성문 정보를 비교하여 기설정된 차이 이하를 갖는 성문 정보끼리 나누어 복수의 그룹을 생성할 수 있다. 여기서 기설정된 차이는 유사한 성문 정보로 판단되는 범위로, 반복적인 실험 결과에 따라 정해질 수 있다.

그리고 프로세서(130)는 복수의 그룹 각각에 대하여, 각 그룹에 속하는 음성에 대한 스코어를 산출할 수 있다. 스코어는 음성이 갖는 노이즈의 크기, 음성 자체의 볼륨 크기 등을 기준으로 산출될 수 있다. 프로세서(130)는 복수의 그룹 각각에 대하여 가장 큰 스코어를 갖는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

예를 들어, 제1 타 전자 장치, 제2 타 전자 장치 및 전자 장치(100) 각각이 제1 음성, 제2 음성 및 제3 음성을 인식한 경우, 프로세서(130)는 복수의 음성으로부터 성문 정보를 추출하고, 추출한 성문 정보를 비교하여 기설정된 차이 이하를 갖는 성문 정보끼리 그룹을 생성할 수 있다.

만약 제1 음성 및 제2 음성의 성문 정보가 기설정된 차이 이하에 해당하는 차이를 갖고, 제3 음성은 제1 음성 및 제2 음성과 기설정된 차이 이상에 해당하는 차이를 갖는 경우, 프로세서(130)는 제1 음성 및 제2 음성을 제1 그룹으로, 제3 음성을 제2 그룹으로 생성할 수 있다.

그리고 프로세서(130)는 복수의 음성 각각에 대한 스코어를 산출하고, 제1 그룹에서 가장 스코어가 높은 음성 및 제2 그룹에서 가장 스코어가 높은 음성을 확인할 수 있다. 만약 제1 그룹에서 가장 스코어가 높은 음성이 제1 음성인 경우, 프로세서(130)는 제1 음성에 대응되는 제1 타 전자 장치 및 제3 음성에 대응되는 전자 장치(100)를 음성 인식을 수행할 장치로 선택할 수 있다.

한편, 프로세서(130)가 타 전자 장치 및 전자 장치(100) 각각에서 인식한 트리거 음성을 기초로 음성 인식 기능을 수행할 장치를 선택하는 방법은 상술한 예에 한하지 않는다.

그리고 프로세서(130)는 음성 인식 기능을 수행할 장치로 선택한 장치에 대하여 음성 인식 기능을 활성화시킬 수 있다.

만약 전자 장치(100)를 음성 인식 기능을 수행할 장치로 선택한 경우, 프로세서(130)는 트리거 음성 이후에 입력된 음성에 대한 음성 인식을 수행할 수 있다. 이때, 프로세서(130)는 자체적인 음성 인식 모듈을 이용하여 음성 인식을 수행할 수도 있으며, 외부 서버(미도시)에 수신된 음성 신호를 전송하고 그 결과를 수신하여 음성 인식을 수행할 수도 있다. 그리고 프로세서(130)는 수행된 음성 이식 결과에 기초하여 그에 대응되는 기능을 수행할 수 있다.

반면, 타 전자 장치를 음성 인식 기능을 수행할 장치로 선택한 경우, 프로세서(130)는 타 전자 장치의 음성 인식 기능의 수행 명령을 전송할 수 있다.

한편, 도 2를 설명함에 있어서, 하나의 타 전자 장치와의 관계에서 마스터 장치를 결정하는 동작에 대한 설명을 하였으나, 구현 시에는 복수의 타 전자 장치와의 관계에서도 동일하게 적용될 수 있다.

또한, 도 2를 설명함에 있어서, 하나의 타 전자 장치와의 관계에서 음성 인식 기능을 수행할 장치를 선택하는 동작에 대한 설명을 하였으나, 구현 시에는 복수의 타 전자 장치와의 관계에서도 동일하게 적용될 수 있다. 이 경우, 전자 장치가 마이크를 통해 음성을 인식하지 않더라도 복수의 타 전자 장치가 인식한 음성을 기초로 음성 기능을 수행할 장치를 선택할 수 있다.

이상에서는 전자 장치(100)의 간략한 구성만을 설명하였으나, 전자 장치(100)는 도 3에 도시된 바와 같은 구성을 추가 포함할 수 있다. 전자 장치(100)의 구체적인 구성에 대해서는 도 3을 참조하여 이하에서 설명한다.

도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 나타내는 블록도이다.

도 3을 참조하면, 본 실시 예에 따른 전자 장치(100)는 마이크(110), 통신 장치(120), 프로세서(130), 메모리(140), 입력 장치(150) 및 디스플레이(160)로 구성될 수 있다.

마이크(110), 통신 장치(120) 및 프로세서(130)의 구성은 도 2의 구성과 동일한 바 중복 설명은 생략한다.

메모리(140)는 프로세서(130)의 처리 또는 제어를 위한 프로그램 등 전자 장치(100) 전반의 동작을 위한 다양한 데이터를 저장한다. 구체적으로, 메모리(120)는 전자 장치(100)에서 구동되는 다수의 응용 프로그램, 전자 장치(100)의 동작을 위한 데이터 및 명령어들을 저장할 수 있다.

그리고 메모리(140)는 프로세서(130)에 의해 액세스 되며, 프로세서(130)에 의한 데이터 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 이러한 메모리(140)는 전자 장치(100) 내의 저장매체뿐만 아니라, 외부 저장 매체, USB 메모리를 포함한 Removable Disk, 네트워크를 통한 웹서버(Web server) 등으로 구현될 수 있다.

그리고 메모리(140)는 전자 장치(100)의 장치 정보를 저장할 수 있다. 또한, 메모리(140)는 타 전자 장치의 장치 정보를 저장할 수 있다. 그리고 타 장치의 장치 정보는 상술한 기설정된 이벤트가 발생 시 업데이트 될 수 있다.

그리고 메모리(140)는 마스터 장치에 대한 정보를 저장할 수 있다. 그리고 프로세서(130)는 마이크(110)를 통해 트리거 음성을 인식하면, 저장된 마스터 장치 정보를 기초로 트리거 음성에 대응되는 음성 데이터를 마스터 장치로 전송할 수 있다.

입력 장치(150)는 전자 장치(100)에서 지원하는 각종 기능을 사용자가 설정 또는 선택할 수 있는 다수의 기능키를 구비할 수 있다. 이를 통하여 사용자는 전자 장치(100)에 대한 각종 구동 명령을 입력할 수 있다.

디스플레이(160)는 전자 장치(100)에서 제공되는 각종 정보를 표시할 수 있다. 구체적으로, 디스플레이(160)는 전자 장치(100)의 동작 상태를 표시하거나, 사용자가 선택한 기능 및 옵션 선택을 위한 사용자 인터페이스 창을 표시할 수 있다.

예를 들어, 전자 장치(100)가 스마트폰인 경우, 디스플레이(160)는 음성 인식 기능의 수행 결과를 표시하거나, 사용자가 음성 인식 기능에 대한 설정을 변경할 수 있도록 인터페이스 창을 표시할 수 있다.

종래에는 음성 인식 기능을 수행할 수 있는 복수의 전자 장치가 하나의 공간 내에 위치한 상태에서 사용자가 트리거 음성을 발화하는 경우, 복수의 전자 장치 모두가 음성 인식 기능을 수행하여, 사용자의 의도에 부합하지 않는 동작이 수행되는 문제점이 있었다.

반면, 상술한 바와 같이 본 실시 예에 따른 전자 장치는 사용자가 목표로 하는 전자 장치가 무엇인지 판별하는 마스터 장치를 결정하고, 마스터 장치의 판단에 따른 하나의 장치만이 음성 인식을 수행하도록 제어함으로써, 사용자의 의도에 부합하는 전자 장치가 음성 인식 기능을 수행할 수 있다.

또한, 화자 인식 모델을 지원하는 고 사양의 전자 장치를 마스터 장치로 결정하여 음성 인식을 수행할 장치를 선택하는 경우, 화자 인식 모델을 지원하지 않는 저 사양의 전자 장치 또한 마스터 장치를 통해 간접적으로 화자 인식 모델을 이용할 수 있으므로, 고 사양의 전자 장치와 동일한 수준의 음성 인식 인식률을 가질 수 있는 효과가 있다.

도 4는 복수의 전자 장치 간의 마스터 장치 결정 동작을 설명하기 위한 도면이다.

도 4를 참조하면, 음성 인식 시스템(1000)은 제1 전자 장치(100-1), 제2 전자 장치(100-2)로 구성될 수 있다.

음성 인식 시스템(1000)이 설정되는 경우, 복수의 전자 장치(100-1, 100-2, 100-3)는 이후 복수의 장치(100-1, 100-2, 100-3) 각각에 인식된 음성에 대한 음성 인식 기능을 수행하는 장치를 선택하는 마스터 장치를 결정할 수 있다.

복수의 전자 장치(100-1, 100-2, 100-3)는 동일한 마스터 장치 결정 방식을 갖는바, 이하에서는 하나의 전자 장치(100-1)에서의 동작을 기준으로 설명한다.

먼저, 프로세서(130)는 연결 가능한 타 전자 장치(100-2, 100-3)가 감지되도록 통신 장치(120)를 제어할 수 있다. 그리고 프로세서(130)는 연결 가능한 타 전자 장치(100-2, 100-3)에 대한 장치 정보를 요청할 수 있다. 구체적으로, 프로세서(130)는 전자 장치(100-1)와 동일한 네트워크 망에 연결된 타 전자 장치(100-2, 100-3)에 장치 정보를 요청하도록 통신 장치(120)를 제어할 수 있다.

그리고 프로세서(130)는 기설정된 이벤트가 발생하면 타 전자 장치(100-2, 100-3)에 대한 정보를 요청하도록 통신 장치(120)를 제어할 수 있다. 여기서 기설정된 이벤트는, 기설정된 시간 주기의 도달 이벤트, 전자 장치(100-1)와 동일한 네트워크 망에 새로운 타 전자 장치(100-2, 100-3)가 연결되는 이벤트, 전자 장치(100-1)와 동일한 네트워크 망에 연결된 기존의 타 전자 장치(100-2, 100-3)의 연결이 해제되는 이벤트 및 전자 장치(100-1)가 새로운 네트워크 망에 연결되는 이벤트 중 적어도 하나일 수 있으며, 상술한 예에 한정되지 않는다.

그리고 프로세서(130)는 타 전자 장치(100-2, 100-3)로부터 장치 정보를 수신할 수 있다. 그리고 프로세서(130)는 수신된 장치 정보와 전자 장치(100-1)의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정할 수 있다.

구체적으로, 프로세서(130)는 복수의 장치 정보 각각에 포함된 복수의 정보 중 기설정된 우선순위가 높은 정보에 기초하여 마스터 장치를 결정할 수 있다.

예를 들어, 기설정된 우선순위가 높은 정보는 화자 인식 모델의 유무에 대한 정보일 수 있으며, 이 경우 프로세서(130)는 복수의 전자 장치(100-1, 100-2, 100-3) 중 화자 인식 모델을 갖는 전자 장치를 마스터 장치로 결정할 수 있다. 만약, 화자 인식 모델을 갖는 전자 장치가 복수 개인 경우, 프로세서(130)는 기설정된 기준에 따라 화자 인식 모델을 갖는 복수 개의 장치 중 하나의 장치를 마스터 장치로 결정할 수 있다. 여기서 기설정된 기준은 장치 정보 내에 포함된 하드웨어 사양 또는 사용자 설정 등이 될 수 있으며, 상술한 예에 한정되지 않는다.

그리고 프로세서(130)는 마스터 장치로 결정된 장치에 대한 정보를 타 전자 장치(100-2, 100-3)로 전송할 수 있다.

한편, 프로세서(130)는 상술한 방법 외에도, 타 전자 장치(100-2, 100-3)에 전자 장치(100)의 장치 정보를 전송하고, 타 전자 장치(100-2, 100-3)의 장치 정보를 수신하고, 각각의 전자 장치가 마스터 장치를 결정할 수 있다. 이 경우, 동일한 정보를 기초로 마스터 장치를 결정하여 각각의 전자 장치(100-1, 100-2, 100-3)가 결정한 마스터 장치는 동일할 것이므로, 결정된 마스터 장치의 정보를 타 전자 장치에 통지하는 동작은 생략될 수 있다.

도 5는 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.

도 5를 참조하면, 음성 인식 시스템(1000) 내의 복수의 전자 장치(100-1, 100-2, 100-3, 100-4)는 마스터 장치를 결정할 수 있다. 이하에서는 제4 전자 장치가 마스터 장치인 것을 전제로 설명한다.

복수의 전자 장치(100-1, 100-2)는 사용자 1의 발화가 입력되었을 때 각 전자 장치(100-1, 100-2)는 사용자의 발화를 분석하여 입력된 음성에 트리거 음성이 포함되었는지 여부를 확인할 수 있다(①, ②).

그리고 각 전자 장치(100-1, 100-2)는 트리거 음성이 포함된 것으로 판단되었을 때 트리거 음성에 대응되는 음성 데이터를 마스터 장치(100-4)로 전송할 수 있다(③, ④).

그리고 마스터 장치(100-4)는 화자 인식 모델 및 각 전자 장치(100-1, 100-2)로부터 수신된 음성 데이터를 이용하여, 수신된 음성 데이터에 대응되는 발화자가 기저장된 사용자에 해당하는지를 확인할 수 있다.

만약 발화자인 사용자 1이 기저장된 사용자에 해당하는 것으로 확인한 경우, 마스터 장치(100-4)는 제1 전자 장치(100-1)로부터 수신된 음성 데이터 및 제2 전자 장치(100-2)로부터 수신된 음성 데이터로부터 성문 정보를 추출하고, 기저장된 사용자의 성문 정보와 비교하여 가장 유사한 성문 정보를 갖는 음성 데이터를 확인하고, 해당 음성 데이터에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다(⑤).

그리고 마스터 장치(100-4)는 음성 인식을 수행할 장치에 음성 인식 기능의 활성화 명령을 전송할 수 있고(⑥), 활성화 명령을 수신한 장치(100-1)는 음성 인식 기능을 활성화하여 이후의 입력된 음성에 대한 음성 인식을 수행할 수 있다(⑦).

한편, 마스터 장치(100-4)에 화자 인식 모델이 없는 경우, 각 전자 장치로부터 수신한 음성 데이터로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보를 분석하여 유사한 성문 정보를 갖는 음성끼리 묶어 복수의 그룹을 생성할 수 있다. 본 예시의 경우, 발화자는 1명으로 추출한 복수의 성문 정보는 유사한 성문 정보를 갖는바, 하나의 그룹에 속할 수 있다.

그리고 마스터 장치(100-4)는 각 음성 데이터에 대하여 음성이 갖는 노이즈의 크기, 음성 자체의 볼륨 크기 등을 기준으로 스코어를 산출할 수 있다. 그리고 가장 큰 스코어를 갖는 음성에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

도 6은 본 개시의 다른 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.

도 6을 참조하면, 음성 인식 시스템(1000) 내의 복수의 전자 장치(100-1, 100-2, 100-3, 100-4)는 마스터 장치를 결정할 수 있다. 이하에서는 제4 전자 장치가 마스터 장치인 것을 전제로 설명한다.

복수의 전자 장치(100-1, 100-3)는 사용자 1 및 사용자 2의 발화가 입력되었을 때 각 전자 장치(100-1, 100-3)는 사용자의 발화를 분석하여 입력된 음성에 트리거 음성이 포함되었는지 여부를 확인할 수 있다(①, ②).

그리고 각 전자 장치(100-1, 100-3)는 트리거 음성이 포함된 것으로 판단되었을 때 트리거 음성에 대응되는 음성 데이터를 마스터 장치(100-4)로 전송할 수 있다(③, ④).

그리고 마스터 장치(100-4)는 화자 인식 모델 및 각 전자 장치(100-1, 100-3)로부터 수신된 음성 데이터를 이용하여, 수신된 음성 데이터에 대응되는 발화자가 기저장된 사용자에 해당하는지를 확인할 수 있다.

만약 발화자인 사용자 1 및 사용자 2가 기저장된 사용자에 해당하는 것으로 확인한 경우, 마스터 장치(100-4)는 제1 전자 장치(100-1)로부터 수신된 음성 데이터 및 제2 전자 장치(100-2)로부터 수신된 음성 데이터로부터 성문 정보를 추출하고, 기저장된 사용자 1 및 사용자 2의 성문 정보와 비교하여 가장 유사한 성문 정보를 갖는 음성 데이터를 확인하고, 해당 음성 데이터에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다(⑤).

본 예시에서는 마스터 장치(100-4)가 사용자 1에 대응되는 음성 인식을 수행할 장치로 제1 전자 장치(100-1), 사용자 2에 대응되는 음성 인식을 수행할 장치로 제3 전자 장치(100-3)를 선택할 수 있다.

그리고 마스터 장치(100-4)는 음성 인식을 수행할 장치(100-1, 100-3)에 음성 인식 기능의 활성화 명령을 전송할 수 있고(⑥, ⑦), 활성화 명령을 수신한 장치(100-1, 100-3)는 음성 인식 기능을 활성화하여 이후의 입력된 음성에 대한 음성 인식을 수행할 수 있다(⑧, ⑨).

한편, 마스터 장치(100-4)에 화자 인식 모델이 없는 경우, 각 전자 장치로부터 수신한 음성 데이터로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보를 분석하여 유사한 성문 정보를 갖는 음성끼리 묶어 복수의 그룹을 생성할 수 있다.

본 예시의 경우, 발화자는 2명으로 추출한 복수의 성문 정보는 서로 상이한 성문 정보를 갖는바, 각각 상이한 그룹에 속할 수 있다.

그리고 마스터 장치(100-4)는 각 그룹에 속하는 음성에 대하여 음성이 갖는 노이즈의 크기, 음성 자체의 볼륨 크기 등을 기준으로 스코어를 산출할 수 있다. 그리고 각 그룹에 대하여 가장 큰 스코어를 갖는 음성에 대응되는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 음성 인식 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 먼저 타 전자 장치로부터 타 전자 장치의 장치 정보를 수신한다(S710). 구체적으로, 전자 장치와 연결 가능한 타 전자 장치에 장치 정보를 요청하고, 타 전자 장치로부터 장치 정보를 수신할 수 있다. 예를 들어, 블루투스를 통한 연결 또는 와이파이 등과 같이 동일한 네트워크 망에 연결 가능한 타 전자 장치에 장치 정보를 요청하고 타 전자 장치로부터 장치 정보를 수신할 수 있다.

또한, 타 전자 장치의 장치 정보를 요청하는 동작은 기설정된 이벤트가 발생 시 수행될 수 있다. 여기서 기설정된 이벤트란, 기설정된 시간 주기의 도달 이벤트, 전자 장치와 동일한 네트워크 망에 새로운 타 전자 장치가 연결되는 이벤트, 전자 장치와 동일한 네트워크 망에 연결된 기존의 타 전자 장치의 연결이 해제되는 이벤트 및 전자 장치가 새로운 네트워크 망에 연결되는 이벤트 중 적어도 하나일 수 있으며, 상술한 예에 한정되지 않는다.

그리고 수신한 장치 정보와 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정한다(S720). 구체적으로, 복수의 장치 정보 각각에 포함된 복수의 정보 중 기설정된 우선순위가 높은 정보에 기초하여 마스터 장치로 동작할 장치를 결정할 수 있다. 예를 들어, 상기 복수의 전자 장치 중 성문 정보를 이용하여 발화자를 판별하는 기능을 포함하는 전자 장치를 우선적으로 마스터 장치로 결정할 수 있다.

그리고 결정된 마스터 장치의 정보를 타 전자 장치에 통지한다(S730). 한편, 타 전자 장치에 전자 장치의 장치 정보를 전송한 경우, 타 전자 장치는 수신한 장치 정보를 이용하여 마스터 장치에 대한 정보를 스스로 획득할 수 있는바, 전자 장치는 결정된 마스터 장치의 정보를 타 전자 장치에 통지하는 동작은 생략될 수 있다.

그리고 전자 장치가 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택한다(S740). 구체적으로, 복수의 전자 장치 각각에서 인식한 트리거 음성 각각으로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보 중 기저장된 사용자 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택할 수 있다.

한편, 기저장된 사용자가 복수인 경우, 추출한 복수의 성문 정보와 기저장된 복수의 사용자 성문 정보를 비교하여, 추출된 복수의 성문 정보에 대응되는 사용자를 확인하고, 추출한 복수의 성문 정보 중 확인된 사용자의 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택할 수 있다.

만약 확인된 사용자가 복수이면, 복수의 확인된 사용자 성문 정보 각각과 가장 유사한 성문 정보에 대응되는 장치를 복수 개 확인하고, 확인된 복수의 장치를 상기 음성 인식을 수행할 장치로 선택할 수 있다.

복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 또 다른 방법으로, 복수의 장치 각각에서 인식한 트리거 음성으로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보를 분석하여 유사한 성문 정보를 갖는 음성끼리 묶어 복수의 그룹을 생성할 수 있다. 그리고 복수의 그룹 각각에 대하여 음성 인식을 수행할 장치를 선택할 수 있다.

구체적으로, 추출한 복수의 성문 정보를 비교하여 기설정된 차이 이하를 갖는 성문 정보끼리 나누어 복수의 그룹을 생성할 수 있다. 여기서 기설정된 차이는 유사한 성문 정보로 판단되는 범위로, 반복적인 실험 결과에 따라 정해질 수 있다.

그리고 복수의 그룹 각각에 대하여, 각 그룹에 속하는 음성에 대한 스코어를 산출할 수 있다. 스코어는 음성이 갖는 노이즈의 크기, 음성 자체의 볼륨 크기 등을 기준으로 산출될 수 있다. 그리고 복수의 그룹 각각에 대하여 가장 큰 스코어를 갖는 장치를 음성 인식을 수행할 장치로 선택할 수 있다.

따라서, 본 개시의 전자 장치의 음성 인식 방법은 사용자가 목표로 하는 전자 장치가 무엇인지 판별하는 마스터 장치를 결정하고, 마스터 장치의 판단에 따른 하나의 장치만이 음성 인식을 수행하도록 제어하는바 사용자의 의도에 부합하는 전자 장치가 음성 인식 기능을 수행하는 효과를 갖는다. 도 7과 같은 음성 인식 방법은, 도 2 또는 도 3의 구성을 가지는 전자 장치 상에서도 실행 될 수 있으며, 그 밖의 다른 구성을 가지는 전자 장치 상에서도 실행될 수 있다.

또한, 상술한 바와 같은 음성 인식 방법은, 상술한 바와 같은 음성 인식 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적인 판독 가능 매체에 저장될 수 있다.

비 일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 애플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

도 8은 본 개시의 다른 실시 예에 따른 전자 장치의 음성 인식 방법을 설명하기 위한 흐름도이다.

도 8을 참조하면, 음성 인식 시스템은 제1 전자 장치, 제2 전자 장치로 구성될 수 있다.

먼저, 제2 전자 장치는 제1 전자 장치의 장치 정보를 수신할 수 있다(S811).

그리고 제2 전자 장치는 수신한 장치 정보 및 제2 전자 장치의 장치 정보를 이용하여 화자 인식 모델을 갖는 장치를 확인할 수 있다(S813). 그리고 화자 인식 모델을 갖는 장치에 대한 정보를 제1 전자 장치에 전송할 수 있다(S815).

그리고 제1 전자 장치는 제2 전자 장치로부터 수신한 정보를 바탕으로 화자 인식 모델을 갖는 장치의 유무를 확인할 수 있다(S817). 만약 화자 인식 모델을 갖는 장치가 존재하는 경우(S815-Y), 화자 인식 모델을 갖는 장치에 대한 정보를 저장할 수 있다(S819).

그리고 제1 전자 장치는 대기 상태에서 마이크를 통해 사용자의 음성을 입력받을 수 있다(S821). 그리고 제1 전자 장치는 음성 인식 기능의 활성화 여부를 판단하기 위해 웨이크업 모델을 이용하여 입력된 음성에 웨이크업 키워드(또는 시작 명령어)의 포함 여부를 판별할 수 있다(S823).

만약 웨이크업 키워드가 포함되지 않은 경우(S825-N), 음성 인식 기능을 활성화할 필요가 없으므로 대기 상태를 유지할 수 있다. 반면, 웨이크업 키워드가 포함된 경우(S825-Y), 연결된 전자 장치 중에 화자 인식 모델을 지원하는 전자 장치를 확인할 수 있다(S827).

만약 화자 인식 모델을 지원하는 전자 장치가 확인되지 않는 경우(S827-N), 제1 전자 장치는 대기 상태로부터 웨이크업을 하여 정상 모드로 전환할 수 있다(S839). 그리고 제1 전자 장치는 음성 인식 기능이 준비되었음을 알리는 메시지를 표시할 수 있다(S841). 그리고 제1 전자 장치는 마이크를 통해 인식된 음성을 이용하여 음성 인식을 수행할 수 있다(S843).

반면, 화자 인식 모델을 지원하는 전자 장치가 확인된 경우(S827-Y), 제1 전자 장치는 마이크를 통해 입력된 전체 음성 중 시작 명령어에 대응되는 구간의 음성 데이터를 제2 전자 장치로 전송할 수 있다.

그리고 제2 전자 장치는 화자 인식 모델을 이용하여 기저장된 사용자 중 현재 발화자에 해당하는 사용자를 확인할 수 있다(S831).

그리고 제2 전자 장치는 제1 전자 장치 외의 별도의 전자 장치로부터 음성 데이터의 수신 여부 및 제2 전자 장치의 마이크를 통해 인식된 음성의 유무를 확인할 수 있다(S833).

만약 제1 전자 장치 외의 별도의 전자 장치로부터 음성 데이터가 수신되거나 제2 전자 장치의 마이크를 통해 인식된 음성이 없는 경우(S833-N), 제2 전자 장치는 제1 전자 장치를 음성 인식을 수행할 장치로 결정하고, 제1 전자 장치를 대기 상태로부터 웨이크업을 하여 정상 모드로 전환할 수 있다(S839).

반면, 제1 전자 장치 외의 별도의 전자 장치로부터 음성 데이터가 수신되거나 제2 전자 장치의 마이크를 통해 인식된 음성이 존재하는 경우(S833-Y), 제2 전자 장치는 화자 인식 모델을 이용하여 별도의 전자 장치로부터 수신한 음성 데이터 또는 제2 전자 장치의 마이크를 통해 인식된 음성의 발화자에 해당하는 사용자를 확인하고, 제1 전자 장치로부터 수신한 음성의 발화자와 동일한지 여부를 확인할 수 있다(S835).

만약, 각 음성에 해당하는 발화자가 상이한 사용자로 확인되는 경우(S835-N), 제2 전자 장치는 제1 전자 장치를 음성 인식을 수행할 장치로 결정하고, 제1 전자 장치를 대기 상태로부터 웨이크업을 하여 정상 모드로 전환할 수 있다(S839).

반면, 각 음성에 해당하는 발화자가 동일한 사용자로 확인되는 경우(S835-Y), 제2 전자 장치는 제1 전자 장치의 음성이 복수의 음성 중 사용자의 정보와 가장 유사한지 확인할 수 있다(S837). 구체적으로, 제2 전자 장치는 각 음성으로부터 성문 정보를 추출하고, 기저장된 사용자의 성문 정보와 제1 전자 장치의 음성의 성문 정보가 가장 유사한지 확인할 수 있다.

만약, 제1 전자 장치의 음성이 사용자의 정보와 가장 유사한 것으로 확인된 경우(S837-Y), 제2 전자 장치는 제1 전자 장치를 음성 인식을 수행할 장치로 결정하고, 제1 전자 장치를 대기 상태로부터 웨이크업을 하여 정상 모드로 전환할 수 있다(S839).

반면, 제1 전자 장치의 음성이 사용자의 정보와 가장 유사한 것은 아닌 것으로 확인된 경우(S837-N), 제1 전자 장치의 음성 인식 기능을 활성화할 필요가 없으므로 대기 상태를 유지할 수 있다.

한편, 도 8을 도시하고 설명함에 있어서, 제2 전자 장치가 화자 인식 모델을 이용하여 음성 인식을 수행할 장치를 선택하는 것으로 도시하고 설명하였으나, 구현 시에는 제2 전자 장치가 복수의 음성으로부터 성문 정보를 추출하고, 추출한 복수의 성문 정보를 분석하여 유사한 성문 정보를 갖는 음성끼리 묶어 복수의 그룹을 생성한 후, 각 그룹에 속하는 음성에 대한 스코어를 산출하여, 가장 큰 스코어를 갖는 장치를 음성 인식을 수행할 장치로 선택하는 방식으로도 구현할 수 있다.

따라서, 본 개시의 전자 장치의 음성 인식 방법은 사용자가 목표로 하는 전자 장치가 무엇인지 판별하는 마스터 장치를 결정하고, 마스터 장치의 판단에 따른 하나의 장치만이 음성 인식을 수행하도록 제어하는바 사용자의 의도에 부합하는 전자 장치가 음성 인식 기능을 수행하는 효과를 갖는다. 도 8과 같은 음성 인식 방법은, 도 2 또는 도 3의 구성을 가지는 전자 장치 상에서도 실행 될 수 있으며, 그 밖의 다른 구성을 가지는 전자 장치 상에서도 실행될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

1000: 음성 인식 시스템 100: 전자 장치
110: 마이크 120: 통신 장치
130: 프로세서

Claims

전자 장치의 음성 인식 방법에 있어서,
타 전자 장치로부터 장치 정보를 수신하는 단계;
상기 수신된 장치 정보와 상기 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정하는 단계;
상기 결정된 마스터 장치의 정보를 상기 타 전자 장치에 통지하는 단계; 및
상기 전자 장치가 상기 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 단계;를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 전자 장치와 동일한 네트워크 망에 연결된 타 전자 장치에 장치 정보를 요청하는 단계;를 더 포함하는 음성 인식 방법.
제2항에 있어서,
상기 요청하는 단계는,
기설정된 이벤트가 발생하면 타 전자 장치에 장치 정보를 요청하고,
상기 기설정된 이벤트는,
기설정된 시간 주기의 도달 이벤트, 상기 네트워크 망에 새로운 타 전자 장치가 연결되는 이벤트, 상기 네트워크 망에 연결된 기존의 타 전자 장치의 연결이 해제되는 이벤트 및 상기 전자 장치가 새로운 네트워크 망에 연결되는 이벤트 중 적어도 하나인 음성 인식 방법.
제1항에 있어서,
상기 결정하는 단계는,
복수의 장치 정보 각각에 포함된 복수의 정보 중 기설정된 우선순위가 높은 정보에 기초하여 마스터 장치로 동작할 장치를 결정하는 음성 인식 방법.
제4항에 있어서,
상기 결정하는 단계는,
상기 복수의 전자 장치 중 성문 정보를 이용하여 발화자를 판별하는 기능을 포함하는 전자 장치를 우선적으로 마스터 장치로 결정하는 음성 인식 방법.
제1항에 있어서,
상기 선택하는 단계는,
상기 복수의 전자 장치 각각에서 인식한 트리거 음성 각각으로부터 성문 정보를 추출하고, 상기 추출한 복수의 성문 정보 중 기저장된 사용자 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택하는 음성 인식 방법.
제6항에 있어서,
상기 선택하는 단계는,
상기 추출한 복수의 성문 정보와 기저장된 복수의 사용자 성문 정보를 비교하여, 상기 추출된 복수의 성문 정보에 대응되는 사용자를 확인하고, 상기 추출한 복수의 성문 정보 중 상기 확인된 사용자의 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택하는 음성 인식 방법.
제7항에 있어서,
상기 선택하는 단계는,
상기 확인된 사용자가 복수이면, 상기 복수의 확인된 사용자 성문 정보 각각과 가장 유사한 성문 정보에 대응되는 장치를 복수 개 확인하고, 상기 확인된 복수의 장치를 상기 음성 인식을 수행할 장치로 선택하는 음성 인식 방법.
전자 장치에 있어서,
타 전자 장치와 통신 가능한 통신 장치;
음성을 입력받는 마이크; 및
타 전자 장치로부터 장치 정보를 수신하고, 상기 수신된 장치 정보와 상기 전자 장치의 장치 정보를 비교하여 마스터 장치로 동작할 장치를 결정하고, 상기 결정된 마스터 장치의 정보를 상기 타 전자 장치에 통지하도록 상기 통신 장치를 제어하고, 상기 전자 장치가 상기 마스터 장치로 결정되면, 복수의 전자 장치 각각에서 인식한 트리거 음성을 기초로 음성 인식을 수행할 장치를 선택하는 프로세서;를 포함하는 전자 장치.
제9항에 있어서,
상기 프로세서는,
상기 전자 장치와 동일한 네트워크 망에 연결된 타 전자 장치에 장치 정보를 요청하도록 상기 통신 장치를 제어하는 전자 장치.
제10항에 있어서,
상기 프로세서는,
기설정된 이벤트가 발생하면 타 전자 장치에 장치 정보를 요청하도록 상기 통신 장치를 제어하고,
상기 기설정된 이벤트는,
기설정된 시간 주기의 도달 이벤트, 상기 네트워크 망에 새로운 타 전자 장치가 연결되는 이벤트, 상기 네트워크 망에 연결된 기존의 타 전자 장치의 연결이 해제되는 이벤트 및 상기 전자 장치가 새로운 네트워크 망에 연결되는 이벤트 중 적어도 하나인 전자 장치.
제9항에 있어서,
상기 프로세서는,
복수의 장치 정보 각각에 포함된 복수의 정보 중 기설정된 우선순위가 높은 정보에 기초하여 마스터 장치로 동작할 장치를 결정하는 전자 장치.
제12항에 있어서,
상기 프로세서는,
상기 복수의 전자 장치 중 성문 정보를 이용하여 발화자를 판별하는 기능을 포함하는 전자 장치를 우선적으로 마스터 장치로 결정하는 전자 장치.
제9항에 있어서,
상기 프로세서는,
상기 복수의 전자 장치 각각에서 인식한 트리거 음성 각각으로부터 성문 정보를 추출하고, 상기 추출한 복수의 성문 정보 중 기저장된 사용자 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택하는 전자 장치.
제14항에 있어서,
상기 프로세서는,
상기 추출한 복수의 성문 정보와 기저장된 복수의 사용자 성문 정보를 비교하여, 상기 추출된 복수의 성문 정보에 대응되는 사용자를 확인하고, 상기 추출한 복수의 성문 정보 중 상기 확인된 사용자의 성문 정보와 가장 유사한 성문 정보에 대응되는 장치를 상기 음성 인식을 수행할 장치로 선택하는 전자 장치.
제15항에 있어서,
상기 프로세서는,
상기 확인된 사용자가 복수이면, 상기 복수의 확인된 사용자 성문 정보 각각과 가장 유사한 성문 정보에 대응되는 장치를 복수 개 확인하고, 상기 확인된 복수의 장치를 상기 음성 인식을 수행할 장치로 선택하는 전자 장치.