KR20180128838A

KR20180128838A - 다수의 음성 인식 장치 간 조정

Info

Publication number: KR20180128838A
Application number: KR1020180055163A
Authority: KR
Inventors: 브랜트 디. 톰슨
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2017-05-24
Filing date: 2018-05-15
Publication date: 2018-12-04
Also published as: US10665232B2; US20180342244A1; EP3407348A1; CN108962258A; CN108962258B; JP2018197855A; EP3407348B1; JP7202075B2

Abstract

본 발명의 일 실시예는 검출되는 스피치 이벤트에 대응하는 오디오 명령을 처리하기 위한 음성 인식 장치들의 네트워크에 포함되는 음성 인식 장치를 선택하기 위한 메커니즘을 제시한다. 네트워크 내 음성 인식 장치들은 장치들 중 어느 것이 스피치 이벤트에 대응하는 오디오 명령을 처리하는데 가장 적합한지를 개별적으로 결정한다. 동작시, 동일한 스피치 이벤트를 검출한 각각의 음성 인식 장치들은 오디오 명령을 처리하기 위해 동일 장치를 독립적으로 선택한다. 선택된 장치를 포함한 음성 인식 장치들 각각이 오디오 명령 처리를 위해 동일한 장치를 선택하기 때문에, 음성 인식 장치는 선택된 장치에 관련된 정보를 서로 공유할 필요가 없다.

Description

다수의 음성 인식 장치 간 조정 {Coordination Among Multiple Voice Recognition Devices}

본 발명은 일반적으로 음성 인식 장치에 관한 것으로, 더 상세하게는 다수의 음성 인식 장치들 간의 조정에 관한 것이다.

소비자 공간에서의 음성 인식은 점점 더 보편화되고있다. 음성 인식을 위한한 가지 용도는 키워드나 키 어구를 듣고 이후에 수신되는 스피치 기반 명령을 처리하는 독립형 음성 인식 장치다. 음성 인식 장치가 보편화됨에 따라, 가정이나 사무실과 같은 환경에서 주어진 스피치 기반 명령의 청취 범위 내에서 다수의 음성 인식 장치를 갖는 것이 일반적일 것이다.

실제로, 음성 인식 장치는 주어진 장치가 장치에 의해 수신되는 모든 스피치 기반 명령을 처리하도록 독립적으로 동작한다. 이러한 독립적인 동작은 다수의 그러한 장치를 갖는 환경에서 바람직하지 않은 결과를 초래한다. 특히, 각각의 음성 인식 장치는 하나의 장치에 의해서만 이상적으로 수행되어야 하는 수신된 스피치 기반 명령에 기초하여 독립적으로 동작을 수행할 수 있다. 예를 들어, 자동 온도 조절 장치의 온도를 5도 높이기 위한 음성 명령은 다수의 장치에서 차례로 그리고 독립적으로 수행될 수 있으므로 온도가 불편하거나 불안정한 범위로 증가할 수 있다.

일부 시스템에서, 마스터 장치는 각 스피치 기반 명령을 처리하기 위해 장치 중 하나를 선택하기 위해 서로 다른 음성 인식 장치 간을 조정한다. 이러한 시스템의 하나의 단점은 마스터 장치가 모든 음성 인식 장치들 사이의 조정 중개자로서 동작할 때 스피치 기반 명령을 처리하는 대기 시간이 증가한다는 것이다. 이러한 시스템의 또 다른 단점은 마스터 장치가 항상 존재하고 사용 가능해야 한다는 요건이다. 따라서 마스터 장치가 오프라인이 되는 상황에서는 전체 시스템이 원하는 대로 작동하지 않는다.

본 발명의 일 실시예는 스피치 기반 명령을 처리하는 방법을 설명한다. 상기 방법은 국부적으로 검출된 스피치 이벤트와 연관된 특성 세트를 생성하는 단계와, 외부 장치에 의해 검출된 상기 스피치 이벤트와 관련된 제 2 특성 세트를 외부 장치로부터 수신하는 단계를 포함한다. 상기 방법은 또한 상기 특성 세트와 상기 제 2 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하고, 상기 동작을 국부적으로 수행하는 단계를 포함한다.

개시된 방법의 한 가지 이점은 스피치 이벤트를 국부적으로 검출하는 장치가 스피치 이벤트를 또한 검출하였을 수 있는 다른 장치 대비 스피치 이벤트에 대응하는 오디오 명령을 처리하는데 가장 적합한지 여부를 독립적으로 결정할 수 있다는 것이다. 이러한 방식으로, 장치들의 네트워크 내의 각각의 장치는 스피치 이벤트에 대응하는 오디오 명령들을 처리하는데 가장 적합한 장치를 독립적으로 선택한다. 또 다른 이점은 동일한 스피치 이벤트에 응답하여 상이한 장치들에 의해 중복 동작들이 수행되는 경우가 줄어든다.

도 1은 본 발명의 하나 이상의 실시형태를 구현하도록 구성된 시스템 환경을 도시한다.
도 2는 일 실시예에 따른 VRD의 블록도를 도시한다.
도 3은 일 실시예에 따른 스피치 기반 명령들을 처리하기 위한 방법 단계들의 흐름도이다.

이하의 설명에서, 본 발명의 보다 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 제시된다. 그러나, 당 업자에게는 본 발명이 이러한 특정 세부 사항 중 하나 이상없이 실시될 수 있음이 명백할 것이다. 다른 예들에서, 잘 알려진 특징들은 본 발명을 모호하게 하는 것을 피하기 위해 기술되지 않았다.

도 1은 본 발명의 하나 이상의 실시형태를 구현하도록 구성된 시스템 환경(100)을 도시한다. 도시된 바와 같이, 시스템 환경(100)은 음성 인식 장치(VRD) 네트워크(102), 처리 시스템(106) 및 오디오 신호(108)를 포함한다.

VRD 네트워크(102)는 복수의 VRD(104)(1)-(N)(집합적으로 "VRD(104)들" 및 개별적으로 "VRD(104)"로도 지칭 됨)를 포함한다. 일 실시예에서, VRD 네트워크(102) 내의 VRD(104)는 네트워크 연결, 물리적 근접성 및/또는 공유 사용자 식별에 기초하여 자동적으로 그룹화된다. 다른 실시예에서, VRD(104)는 사용자가 VRD 네트워크(102)에 포함될 개별 VRD(104)를 선택하도록 수동으로 그룹화된다.

각 VRD(104)는 VRD(104)가 하나 이상의 동작을 수행하기 위한 오디오 명령을 완전 또는 부분적으로 처리하도록 오디오 명령에 의해 제어된다. VRD(104)는 오디오 명령(예를 들어, 인간에 의해 말하는 음성 명령)을 포착하기 위한 적어도 하나의 마이크로폰을 포함한다. VRD(104)는 또한 (스피커와 같은) 적어도 하나의 오디오출력 메커니즘과, (외부 스피커에 연결하기 위한 오디오 잭 또는 블루투스와 같은) 외부 오디오 출력 메커니즘에 연결하기 위한 메커니즘을 포함한다. 오디오 출력 메카니즘은 VRD(104)의 사용자에게 오디오 출력을 전달하는데 사용된다. 오디오 출력은 레코딩, 텍스트-스피치(text-to-speech) 재생, 음악, 뉴스, 등일 수 있다.

각 VRD(104)는 네트워크 접속을 통해 VRD 네트워크(102) 내의 모든 다른 VRD(104)에 접속된다. 이하에 보다 상세히 설명하는 바와 같이, VRD(104)는 네트워크 접속을 통해 서로 통신하여 VRD(104)에 의해 수행되는 하나 이상의 작동들을 조정한다. 더욱이, 각각의 VRD(104)는 VRD 네트워크(102)로부터 원격 위치인 처리 시스템(106)에 네트워크 연결을 통해 연결된다. 일 실시예에서, VRD(104)는 처리 시스템(106)과 연계하여 동작하여, 마이크로폰을 통해 포착된 오디오 명령을 처리한다.

VRD(104)는 마이크로폰에 입사하는 오디오 신호(108)를 처리하여 발성 키워드 또는 키 어구를 식별함으로써 "청취(listening)" 상태에서 작동한다. 키워드 또는 키 어구가 식별되면, VRD(104)는 오디오 명령을 식별하기 위해 마이크로폰에 입사하는 임의의 추가 오디오 신호(108)를 처리함으로써 "동작" 상태로 스위칭한다. 일 실시예에서, 동작 상태에서, VRD(104)는 식별된 오디오 명령과 관련된 하나 이상의 동작을 수행한다. 대안적인 실시예에서, 동작 상태에서, 오디오 신호(108)는 레코딩되어 처리 시스템(106)에 전송된다. 처리 시스템(106)은 수신된 오디오 신호(108)에 대해 하나 이상의 음성 인식 기술을 수행하여 오디오 명령을 식별하고, 그리고 선택적으로, 오디오 명령과 관련된 하나 이상의 동작을 수행한다. VRD(104)는 오디오 명령 및 임의의 연관된 동작을 처리한 결과를 사용자에게 통지한다. 통지는 시각적(예를 들어, 깜박이는 등) 및/또는 오디오 기반(예를 들어, 사전 녹음된 오디오, 텍스트-음성 변환 오디오, 등) 일 수 있다.

소정의 시간에, 스피치 이벤트와 연관된 오디오 신호(108)는 몇몇 VRD(104)에 포함된 마이크로폰에 입사한다. 따라서, VRD(104)들은 조정을 통해, VRD(104) 중 어느 것이 스피치 이벤트에 대응하는 오디오 명령을 처리하는데 가장 적합한지를 결정한다. 동작시, 주어진 VRD(104)가 동작 상태로 전환할 때, VRD(104)는 VRD 네트워크(102) 내의 다른 VRD(104)가 VRD(104)를 동작 상태로 전환시킨 동일한 스피치 이벤트에 또한 응답했는지 여부를 결정한다. 그렇다면, VRD(104)는 스피치 이벤트에 대응하는 오디오 명령을 처리하기 위해 VRD(104) 중 하나를 선택한다. 동일한 스피치 이벤트에 응답한 각각의 VRD(104)는 오디오 명령을 처리하기 위해 독립적으로 동일한 VRD(104)를 선택한다. 선택된 VRD(104)를 포함하는 각각의 VRD(104)가 오디오 명령을 처리하기 위해 동일한 VRD(104)를 선택하기 때문에, VRD(104)는 선택된 VRD(104)에 관련된 정보를 서로 공유할 필요가 없다. 다음 토론에서는 이 선택 프로세스와 관련된 세부 사항을 제공한다.

도 2는 일 실시예에 따른 주어진 VRD(104)의 블록도를 도시한다. 도시된 바와 같이, VRD(104)는 클럭 동기화 엔진, 스피치 인식 엔진(204), 교차 VRD 통신 엔진(206), VRD 선택 엔진(208) 및 로컬 명령 처리 엔진(210)을 포함한다.

클럭 동기화 엔진(202)은 VRD 네트워크(102) 내의 모든 VRD(104)에 걸쳐 동기화되는 클럭을 유지한다. 일 실시예에서, 동기화 클럭은 전용 클럭이다. 다른 실시예에서, 동기화된 클럭은 로컬 클럭과 합의된 마스터 클럭 간의 시간차의 오프셋의 근사를 각 VRD(104)가 추적하도록 함으로써 계산되는 클럭 값이다. 클럭 동기화를 위한 일부 기술에는 NTP(Network Time Protocol) 및 GPS(Global Positioning Satellite)가 포함된다.

스피치 인식 엔진(204)은 오디오 신호를 분석하여 스피치 이벤트(여기서는 "인식된 스피치"라고 함)에 대응하는 스피치 콘텐츠를 인식한다. 일 실시예에서, 오디오 신호의 분석은 단어, 구 또는 어휘로부터의 명령에 대응하는 음향 모델에 기초한다. 당업자는 음성 콘텐츠를 인식하는 그외 다른 기술이 이러한 범위 내에 있음을 이해할 것이다.

스피치 인식 엔진(204)은 또한 인식된 음성의 다양한 특성과 관련된 메타 데이터를 생성한다. 특히, 스피치 인식 엔진(204)은 수신된 오디오 신호의 에너지 및 오디오 신호의 배경 잡음의 측정치에 기초하여 인식된 스피치와 관련된 입력 품질 메트릭을 생성한다. 일 실시예에서, 오디오 소스로부터의 사운드 세기가 거리의 제곱에 의해 떨어지기 때문에, 오디오 신호의 에너지가 낮을수록, 입력 품질 메트릭은 낮아진다. 스피치 인식 엔진(204)은 또한 인식된 스피치가 발성 단어에 대해 정확하다 및/또는 정교하다는 확신에 기초하여 인식된 스피치와 연관된 출력 품질 메트릭을 생성한다. 또한, 스피치 인식 엔진(204)은 인식된 스피치와 관련된 타이밍 정보를 생성한다. 일 실시예에서, 타이밍 정보는 인식된 스피치와 관련된 오디오 신호가 VRD(104)에 의해 수신되었을 때에 대응하는 클럭 동기화 엔진(202)으로부터 포착된 타임스탬프를 나타낸다.

일 실시예에서, 스피치 인식 엔진(204)은 처리 시스템(106)과 연계하여 동작하여, 음성 인식 및/또는 메타 데이터 생성 동작을 수행한다. 이러한 실시예에서, 스피치 인식 엔진(204)은 수신된 오디오 신호를 처리 시스템(106)에 송신하고, 이에 응답하여 인식된 스피치 및/또는 관련 메타 데이터를 수신한다.

스피치 인식 엔진(204)은 인식된 스피치 및 국부적으로 검출된 스피치 이벤트에 대응하는 관련 메타 데이터를 교차-VRD 통신 엔진(206) 및 VRD 선택 엔진(208)에 송신한다. 교차-VRD 통신 엔진(206)은 인식된 스피치 및 관련 메타데이터를 VRD 네트워크(102) 내 다른 VRD(104)에 송신한다. 일부 실시예에서, 동일한 스피치 이벤트를 검출한 VRD 네트워크(102) 내의 다른 VRD들(104)(이하, "외부 VRD들(104)"이라 칭함)은 인식된 스피치 및 외부 검출 스피치 이벤트에 대응하는 메타데이터를 교차 VRD-통신 엔진(206)에 송신한다. 교차-VRD 통신 엔진(206)은 스피치 인식 엔진(204)으로부터 인식된 스피치 및 관련 메타데이터를 송신하고, 인식된 스피치 및 관련 메타데이터를 외부 VRD(104)로부터 VRD 선택 엔진(208)으로 송신한다.

VRD 선택 엔진(208)은 스피치 이벤트와 연관된 명령들을 처리하기 위해 주어진 스피치 이벤트를 검출한 VRD들(104) 중 하나를 선택한다. 동작시, VRD 선택 엔진(208)은 스피치 인식 엔진(204)으로부터 인식된 스피치 및 국부적으로 검출된 스피치 이벤트에 대응하는 관련 메타 데이터를 수신한다. VRD 선택 엔진(208)은 또한 교차 VRD 통신 엔진(208)으로부터 인식된 스피치 및 외부적으로 검출된 스피치 이벤트에 대응하는 관련 메타 데이터를 수신한다. 이러한 외부적으로 검출된 스피치 이벤트는 외부 VRD(104)에 의해 검출된다. VRD 선택 엔진(208)은 국부적으로 검출된 스피치 이벤트가, 존재하는 경우에, 외부적으로 검출된 스피치 이벤트와 동일한 지 여부를 결정하고, 만약 그렇다면, 스피치 이벤트를 검출한 VRD(104) 중 어느 것이 인식된 스피치를 더 처리해야 하는지 여부를 결정한다.

국부적으로 검출된 스피치 이벤트가 외부적으로 검출된 스피치 이벤트와 동일한지를 결정하기 위해, VRD 선택 엔진(208)은 검출된 스피치 이벤트들 각각에 대응하는 메타 데이터를 평가한다. 특히, 국부적으로 검출된 스피치 이벤트 및 외부적으로 검출된 스피치 이벤트에 대응하는 메타 데이터에 포함된 타이밍 정보가 서로의 임계 시간 내에 이벤트가 발생했다는 것을 나타내는 경우, VRD 선택 엔진(208)은 국부적으로 및 외부적으로 감지된 스피치 이벤트가 동일하다고 결정한다. 또한, 국부적으로 검출된 스피치 이벤트 및 외부적으로 검출된 스피치 이벤트에 대응하는 인식된 스피치가 일치(또는 실질적으로 일치)하면, VRD 선택 엔진(208)은 국부적으로 및 외부적으로 검출된 스피치 이벤트가 동일하다고 결정한다. 일부 실시예에서, VRD 선택 엔진(208)은 (i) 외부적으로 검출된 스피치 이벤트에 대응하는 인식된 스피치 및 메타 데이터를 수신하지 않거나,(ii) 외부적으로 검출된 스피치 이벤트 중 어느 것도 국부적으로 검출된 스피치 이벤트와 동일하지 않다. 이러한 실시예에서, VRD 선택 엔진(208)은 인식된 음성을 더 처리하기 위해 로컬 VRD(104)를 선택한다.

하나 이상의 외부 VRD들(104)이 또한 스피치 이벤트를 검출할 때, 로컬 VRD(104) 내의 VRD 선택 엔진(208)은 인식된 스피치를 더 처리하기 위해 VRD들(104) 중 하나를 선택한다. 선택된 VRD(104)는 로컬 VRD(104) 또는 외부 VRD(104)일 수 있다. 동작시, 상이한 VRD들(104)에 걸친 각 VRD 선택 엔진(208)은 인식된 스피치를 더 처리하기 위해 동일한 VRD(104)를 선택한다. 선택된 VRD(104)가 로컬 VRD(104)이면, 로컬 VRD(104)는 (로컬 명령 처리 엔진(210)을 사용하여) 인식된 스피치를 계속해서 처리한다. 그러나, 선택된 VRD(104)가 외부 VRD(104)이면, 로컬 VRD(104)는 인식된 음성을 더 이상 처리하지 않는다.

인식된 음성을 더 처리할 VRD(104)를 선택하기 위해, VRD 선택 엔진(208)은 검출된 스피치 이벤트 각각에 대응하는 인식된 스피치의 메타 데이터 및/또는 콘텐츠를 평가한다. 특히, VRD 선택 엔진(208)은 인식된 스피치를 더 처리할 VRD(104)를 선택하기 위해 타이밍 정보, 입력 품질 메트릭, 출력 품질 메트릭 및 인식된 스피치의 콘텐츠 중 하나 이상을 평가한다. 다음의 논의는 인식된 스피치의 타이밍 정보, 메트릭 및 콘텐츠 각각이 VRD 선택 엔진(208)에 의해 개별적으로 어떻게 선택을 위해 이용될 수 있는지를 설명한다. 다른 실시예에서, 인식된 스피치의 타이밍 정보, 메트릭 및 콘텐츠는 가중 함수를 사용하여 결합될 수 있거나 최종 선택 이전에 특정 VRD(104)를 필터링하기 위해 개별적으로 또는 조합되어 사용될 수 있다.

타이밍 정보와 관련하여, VRD 선택 엔진(208)은 검출된 스피치 이벤트에 대응하는 타임스탬프를 평가하고 가장 빠른 타임스탬프를 갖는 검출된 스피치 이벤트를 식별한다. 상술한 바와 같이, 검출된 스피치 이벤트에 대응하는 타임스탬프는 스피치 이벤트를 검출한 VRD(104)에 의해 오디오 신호가 수신된 시간을 나타낸다. 가장 빠른 타임스탬프에 대응하는 스피치 이벤트를 검출한 VRD(104)는 인식된 스피치를 추후 처리하기 위해 선택된다. 2 개 또는 그 이상의 검출된 스피치 이벤트가 동일하거나 또는 시간적으로 가까운 타임스탬프를 갖는 경우에, VRD 선택 엔진(208)은 타이-브레이크 동작(tie breaking operation)을 수행한다. 일 실시예에서, 타이-브레이크 동작은 가장 낮은 MAC 어드레스를 갖는 VRD(104)를 선택한다.

입력 품질 메트릭들에 관하여, 각각의 검출된 스피치 이벤트에 대하여, VRD 선택 엔진(208)은 대응하는 입력 품질 메트릭들에 기초하여 입력 품질 스코어를 계산한다. 입력 품질 스코어를 계산하기 위해, VRD 선택 엔진(208)은 인간의 음성에 전형적인 주파수들(예를 들어, 300Hz 내지 3kHz) 내에 있는 오디오 신호의 에너지 량을 결정한다. 소정의 검출된 스피치 이벤트에 대해, 오디오 신호의 에너지 임계치보다 작은 양이 그 범위 내에 있으면, 검출된 스피치 이벤트는 인간 스피치일 가능성이 적거나 인간의 스피치와 결합된 상당한 노이즈를 포함할 수 있다. VRD 선택 엔진(208)은 또한 이러한 오디오 신호의 에너지 량을, 성공적으로 처리된 이전에 검출된 스피치 이벤트에 대응하는 오디오 신호의 에너지 량에 비교한다. 소정의 검출된 스피치 이벤트에 대해, 에너지 량이 이전에 검출된 스피치 이벤트들의 범위 내에 있다면, 검출된 스피치 이벤트는 인간 스피치일 가능성이 높고 오디오 신호는 양호한 품질일 가능성이 있다. VRD 선택 엔진(208)은 또한 수신된 오디오의 전반적인 품질을 결정한다. 오디오의 전반적인 품질은 오디오가 인식 가능한 잡음(팝 또는 클릭) 및/또는 오디오의 샘플 레이트를 포함하는지 여부에 기초할 수 있다.

VRD 선택 엔진(208)은 인간 스피치에 대해 전형적인 주파수 내의 에너지 량, 이러한 에너지 량과 이전에 검출된 스피치 이벤트들과의 에너지 량 사이의 비교, 및 오디오의 전체 품질에 기초하여 주어진 검출된 스피치 이벤트의 입력 품질 스코어를 계산한다. VRD 선택 엔진(208)은 수치 값을 이들 특성 각각과 관련시킬 수 있고, 그 다음에 이들 수치 값을 가중화 및 합산하여 입력 품질 스코어를 계산할 수 있다. VRD 선택 엔진(208)은 어떤 VRD(104)가 최상의 품질의 오디오 신호를 수신했는지를, 그리고, 스피치 이벤트 추가 처리를 위해 선택되어야 하는지를, 결정하기 위해 검출된 스피치 이벤트들 각각에 대응하는 입력 품질 스코어들을 비교한다. 일 실시예에서, 가장 높은 입력 품질 스코어를 갖는 스피치 사건을 검출한 VRD(104)는 인식된 스피치를 더 처리하기 위해 선택된다. 다른 실시예에서, VRD 선택 엔진(208)은 입력 품질 스코어를 검출된 스피치 이벤트와 연관된 다른 메트릭과 결합하여 선택을 행한다.

출력 품질 메트릭들에 관하여, VRD 선택 엔진(208)은 검출된 스피치 이벤트들에 대응하는 출력 품질 메트릭들을 평가하고 가장 높은 출력 품질 메트릭들을 갖는 검출된 스피치 이벤트를 식별한다. 상술한 바와 같이, 인식된 스피치와 관련된 출력 품질 메트릭은 인식된 스피치가 발성 단어에 대해 정확하고 및/또는 틀림이 없다는 확신을 나타낸다. 최고 출력 품질 메트릭에 대응하는 스피치 이벤트를 검출한 VRD(104)는 인식된 스피치를 더 처리하기 위해 선택된다. 2 개 이상의 검출된 스피치 이벤트가 유사한 품질 및/또는 신뢰도 값을 갖는 경우에, VRD 선택 엔진(208)은 타이-브레이크 동작을 수행한다. 일 실시예에서, 타이-브레이크 동작은 가장 낮은 MAC 어드레스를 갖는 VRD(104)를 선택한다.

인식된 스피치의 콘텐츠와 관련하여, VRD 선택 엔진(208)은 검출된 스피치 이벤트에 대응하는 콘텐츠를 평가하고 동일한 콘텐츠를 인식한 VRD(104)의 수를 결정한다. 적어도 임계 개수 또는 퍼센티지의 VRD(104)가 동일한 콘텐츠를 인식했을 때, VRD 선택 엔진(208)은 인식된 음성을 더 처리하기 위해 그 콘텐츠를 인식한 VRD(104) 중 하나를 선택한다. 적어도 임계 개수 또는 퍼센티지의 VRD(104)가 동일한 콘텐츠를 인식하지 못하면, VRD 선택 엔진(208)은 VRD(104) 중 어느 것도 인식된 음성을 더 처리하기 위해 선택될 수 없다고 결정할 수 있다.

상술한 바와 같이, VRD 선택 엔진(208)은 인식된 스피치를 더 처리할 VRD(104)를 선택하기 위해 가중치 함수를 사용하여 인식된 스피치의 타이밍 정보, 메트릭 및 콘텐츠를 결합할 수 있다. 상이한 VRD들(104)에 걸친 각 VRD 선택 엔진(208)은 동일한 기준을 사용하여 인식된 스피치를 더 처리하기 위해 동일한 VRD(104)를 선택할 수 있다. 선택된 VRD(104)가 로컬 VRD(104)이면, 로컬 VRD(104)는 인식된 스피치를 계속 처리한다. 그러나, 선택된 VRD(104)가 외부 VRD(104)이면, 로컬 VRD(104)는 인식된 스피치를 더 이상 처리하지 않는다. 상이한 VRD(104)에 걸친 각 VRD 선택 엔진(208)이 인식된 스피치를 추후 처리하기 위해 동일한 VRD(104)를 선택하기 때문에, VRD(104)는 선택을 서로 통신할 필요가 없다.

로컬 명령 처리 엔진(210)은 인식된 음성에 포함된 오디오 명령과 관련된 하나 이상의 동작을 국부적으로 수행한다. 다른 실시예에서, 로컬 명령 처리 엔진(210)은 오디오 명령과 관련된 하나 이상의 동작을 수행하기 위해 처리 시스템(106)과 조정한다. 로컬 명령 처리 엔진(210)은 선택적으로 오디오 명령과 관련된 동작을 수행한 결과를 사용자에게 통지한다. 통지는 시각적(예를 들어, 깜박이는 등) 및/또는 오디오 기반(예를 들어, 사전 녹음된 오디오, 텍스트-스피치 변환 오디오, 등) 일 수 있다.

도 3은 일 실시예에 따른 스피치 기반 명령들을 처리하기 위한 방법 단계들의 흐름도이다. 방법 단계가 도 1-2의 시스템과 관련하여 설명되었지만, 당업자는 임의의 순서로 방법 단계를 수행하도록 구성된 임의의 시스템이 본 발명의 범위 내에 있음을 이해할 것이다.

방법(300)은 로컬 VRD(104) 내의 스피치 인식 엔진(204)이 스피치 이벤트를 국부적으로 검출하는 단계(302)에서 시작한다. 스피치 인식 엔진(204)은 스피치 이벤트와 연관된 오디오 신호를 분석하고 스피치 이벤트에 대응하는 스피치의 콘텐츠를 인식한다. 일 실시예에서, 오디오 신호의 분석은 단어, 어구 또는 어휘로부터의 명령에 대응하는 음향 모델에 기초한다. 당업자는 스피치 콘텐츠를 인식하는 그외 다른 기술이 이러한 범위 내에 있음을 이해할 것이다.

단계(304)에서, 스피치 인식 엔진(204)은 국부적으로 검출된 스피치 이벤트와 연관된 특성 세트를 생성한다. 특성은 수신된 오디오 신호의 에너지의 측정 및 오디오 신호의 배경 잡음에 기초하여 결정된 입력 품질 메트릭을 포함한다. 특성은 또한 인식된 스피치가 발성 단어에 대해 정확하고 및/또는 틀림이 없다는 확신에 기초하여 결정된 출력 품질 메트릭을 포함한다. 또한, 특성은 인식된 음성과 연관된 오디오 신호가 VRD(104)에 의해 수신되었을 때에 대응하는 타임스탬프를 나타내는 타이밍 정보를 포함한다. 스피치 인식 엔진(204)은 로컬 VRD(104)에 포함된 VRD 선택 엔진(208)에 특성 세트를 전송한다.

단계(306)에서, 로컬 VRD(104)에 포함된 VRD 선택 엔진(208)은 타이머를 개시한다. 타이머 기간은 로컬 VRD(104)에 포함된 교차-VRD 통신 엔진(206)이 타이머가 만료되기 전에 VRD 네트워크(102) 내의 모든 다른 VRD들(104)로부터 인식된 스피치 및 관련 메타 데이터를 수신하는 시간을 갖는다.

단계(308)에서, 로컬 VRD(104)에 포함된 VRD 선택 엔진(208)은 타이머가 만료될 때까지 대기하고, 또한 외부 VRD(104)에 의해 검출된 동일한 스피치 이벤트와 연관된 제 2 특성 세트를 수신하기를 기다린다. 이들 이벤트 중 하나가 발생하면, 방법(300)은 단계(310)로 진행한다.

단계(310)에서, 단계(308)에서 더이상의 특성이 수신되기 전에 타이머가 만료되면, 방법(300)은 단계(316)로 진행한다. 그렇지 않을 경우, 단계(308)에서, 로컬 VRD(104)에 포함된 VRD 선택 엔진(208)은 외부 VRD(104)에 의해 검출된 동일 스피치 이벤트와 관련된 제 2 특성 세트를 수신했을 것이다. 이러한 특성은 외부 검출 스피치 이벤트에 대응하는 입력 품질 정보, 출력 품질 정보, 및 타이밍 정보를 포함한다. 이러한 경우에, 방법(300)은 수신된 제 2 특성 세트를 처리하기 위해 단계(312)로 진행한다.

방법(300)의 시작 이후 모든 외부 VRD(104)에 대해 단계(314)에 의해 특성이 수신되고 평가 되었다면 단계(308 및 310)는 단계(308)에서 타이머 만료를 계속 기다리기보다, 더 이상의 특성이 예상되지 않기 때문에 타이머가 만료된 것으로 취급할 수 있다.

단계(312)에서, VRD 선택 엔진(208)은 스피치 이벤트에 응답하는 임의의 추가 동작이 제 1 특성 세트 및 제 2 특성 세트에 기초하여 로컬 VRD(104)에 의해 수행되어야 하는지 여부를 결정한다. 동작시 VRD 선택 엔진(208)은 제 1 특성 세트를 제 2 특성 세트와 비교하여, 로컬 VRD(104)가 또한 동일 스피치 이벤트를 검출한 외부 VRD(104)에 비해 스피치 이벤트에 대응하는 오디오 명령을 처리하기에 더 적합한 지 여부를 결정한다.

단계(314)에서, VRD 선택 엔진(208)이 로컬 VRD가 스피치 이벤트에 응답하여 추가 동작을 수행해야 함을 결정하면, 방법(300)은 다른 외부 VRD(104)로부터 특성을 기다리기 위해 단계(308)로 진행한다. 그러나 단계(314)에서, 로컬 VRD가 스피치 이벤트에 응답하여 추가 동작을 수행해서는 안된다고 VRD 선택 엔진(208)이 결정하면, 방법(300)은 종료된다.

단계(316)에서, 로컬 처리 엔진(210)은 스피치 이벤트에 응답하여 하나 이상의 동작을 국부적으로 수행한다. 일 실시예에서, 로컬 처리 엔진(210)은 동작을 수행하기 위해 처리 시스템(106)과 연계하여 동작한다.

요약하자면, 주어진 시간에, 스피치 이벤트와 관련된 오디오 신호가 몇몇 VRD(104)에 포함된 마이크로폰에 입사한다. 따라서, VRD(104)는 VRD(104) 중 어느 것이 스피치 이벤트에 대응하는 오디오 명령을 처리하는데 가장 적합한지를 개별적으로 결정한다. 동작시, 스피치 이벤트를 국부적으로 검출한 VRD(104)는 VRD 네트워크(102)의 다른 VRD(104)가 또한 동일한 스피치 이벤트를 검출했는지의 여부를 결정한다. 그렇다면, VRD(104)는 스피치 이벤트에 대응하는 오디오 명령을 처리하기 위해 VRD(104) 중 하나를 선택한다. 동일한 스피치 사건을 검출한 각각의 VRD(104)는 오디오 명령을 처리하기 위해 독립적으로 동일한 VRD(104)를 선택한다. 선택된 VRD(104)를 포함하는 각각의 VRD(104)가 오디오 명령을 처리하기 위해 동일한 VRD(104)를 선택하기 때문에, VRD(104)는 선택된 VRD(104)에 관련된 정보를 서로 공유할 필요가 없다.

전술한 콘텐츠가 본 발명의 실시예에 관한 것이지만, 본 발명의 다른 실시예 및 추가 실시예는 본 발명의 기본 범위를 벗어나지 않고 고안될 수 있다. 예를 들어, 본 발명의 실시형태들은 하드웨어 또는 소프트웨어로 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 본 발명의 일 실시예는 컴퓨터 시스템과 함께 사용하기 위한 프로그램 제품으로서 구현될 수 있다. 프로그램 제품의 프로그램(들)은 (여기에 설명된 방법을 포함하는) 실시예의 기능을 규정하고, 다양한 컴퓨터 판독 가능 저장 매체에 포함될 수 있다. 예시적인 컴퓨터 판독 가능 저장 매체는 (i) 비-기록가능 저장 매체(예를 들어, CD-ROM 드라이브에 의해 판독 가능한 CD-ROM 디스크와 같은 컴퓨터 내의 판독 전용 메모리 장치, 플래시 메모리, ROM 칩 또는 임의의 유형의 고체 비-휘발성 반도체 메모리); 및(ii) 변경 가능한 정보가 저장되는 기록가능한 저장 매체(예를 들어, 디스켓 드라이브 또는 하드 디스크 드라이브 내의 플로피 디스크 또는 임의의 유형의 고체 상태 랜덤 액세스 반도체 메모리)를 포함한다. 이러한 컴퓨터 판독 가능 저장 매체는 본 발명의 기능을 지시하는 컴퓨터 판독 가능 명령어를 운반할 때 본 발명의 실시예들이다.

전술한 관점에서, 본 발명의 범위는 이하의 청구 범위에 의해 결정된다.

Claims

스피치-기반 명령들을 처리하기 위한 방법에 있어서,
국부적으로 검출된 스피치 이벤트와 관련된 특성 세트를 생성하는 단계;
외부 장치에 의해 검출된 상기 스피치 이벤트와 연관된 제 2 특성 세트를 상기 외부 장치로부터 수신하는 단계;
상기 특성 세트 및 상기 제 2 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계; 및
상기 동작을 국부적으로 수행하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오 신호의 주파수를 포함하고, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 상기 주파수가 인간의 스피치와 관련된 주파수 범위 내에 있음을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오 신호의 에너지의 측정치를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트에 대응하는 외부적으로 검출된 오디오 신호의 에너지의 제 2 측정치를 포함하며, 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 국부적으로 검출된 오디오 신호의 에너지 측정치가 외부에서 검출된 오디오 신호의 에너지의 제 2 측정치보다 큼을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오의 품질 측정치를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트에 대응하는 외부적으로 검출된 오디오의 품질의 제 2 측정치를 포함하며, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 국부적으로 검출된 오디오의 품질 측정치가 외부에서 검출된 오디오의 품질의 제 2 측정치보다 높음을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트가 국부적으로 검출되었을 때에 대응하는 타임스탬프를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트가 상기 외부 장치에 의해 검출되었을 때에 대응하는 타임스탬프를 포함하며, 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 스피치 이벤트가 타임스탬프에 기초하여 외부 장치에 의해 검출되기 전에 스피치 이벤트가 국부적으로 검출되었음을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 국부적으로 검출된 상기 스피치 이벤트로부터 인식된 발성 콘텐츠와 관련된 신뢰 스코어를 포함하고, 상기 제 2 특성 세트는 상기 외부 장치에 의해 검출된 스피치 이벤트로부터 인식된 발성 콘텐츠와 연관된 제 2 신뢰 스코어를 포함하며, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 상기 국부적으로 검출된 오디오의 상기 신뢰 스코어가 상기 제 2 신뢰 스코어보다 높음을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트로부터 인식된 발성 콘텐츠와 관련된 신뢰 스코어를 포함하고, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 상기 신뢰 스코어가 임계 값보다 큼을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트로부터 인식된 발성 콘텐츠를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트로부터 인식된 제 2 발성 콘텐츠를 포함하고, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 발성된 콘텐츠가 제 2 발성 콘텐츠와 실질적으로 일치함을 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
국부적으로 검출된 제 2 스피치 이벤트와 관련된 제 3 특성 세트를 생성하는 단계;
상기 외부 장치에 의해 검출된 상기 제 2 스피치 이벤트와 관련된 제 4 특성 세트를 상기 외부 장치로부터 수신하는 단계;
상기 제 3 특성 세트와 상기 제 4 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 상기 외부 장치에 의해 수행되어야 함을 결정하는 단계; 및
제 2 스피치 이벤트의 로컬 처리를 종료하는 단계를 포함하는, 방법.
프로세서에 의해 실행될 때,
국부적으로 검출된 스피치 이벤트와 관련된 특성 세트를 생성하는 단계;
외부 장치에 의해 검출된 상기 스피치 이벤트와 연관된 제 2 특성 세트를 상기 외부 장치로부터 수신하는 단계;
상기 특성 세트 및 상기 제 2 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계; 및
상기 동작을 국부적으로 수행하는 단계를 수행함으로써, 상기 프로세서로 하여금 스피치 기반 명령을 처리하게 하는 명령어들을 저장하는 컴퓨터 판독가능 매체.
제 10 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오 신호의 주파수를 포함하고, 상기 스피치 이벤트에 응답하는 상기 동작이 국부적으로 수행되어야 함을 결정하는 단계는, 상기 주파수가 인간의 스피치와 관련된 주파수 범위 내에 있음을 결정하는 단계를 포함하는, 컴퓨터 판독가능 매체.
제 10 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오 신호의 에너지 측정치를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트에 대응하는 외부적으로 검출된 오디오 신호의 에너지의 제 2 측정치를 포함하며, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는 국부적으로 검출된 오디오 신호의 에너지 측정치가 외부에서 검출된 오디오 신호의 에너지의 제 2 측정치보다 큼을 결정하는 단계를 포함하는, 컴퓨터 판독가능 매체.
제 10 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트에 대응하는 국부적으로 검출된 오디오의 품질 측정치를 포함하고, 상기 제 2 특성 세트는 상기 스피치에 대응하는 외부적으로 검출된 오디오의 품질의 제 2 측정치를 포함하며, 상기 스피치 이벤트에 응답하는 상기 동작이 국부적으로 수행되어야 함을 결정하는 단계는 상기 국부적으로 검출된 오디오의 품질 측정치가 상기 외부적으로 검출된 오디오의 품질의 상기 제 2 측정치보다 높음을 결정하는 단계를 포함하는, 컴퓨터 판독가능 매체.
제 10 항에 있어서, 상기 특성 세트는 상기 스피치 이벤트가 국부적으로 검출되었을 때에 대응하는 타임스탬프를 포함하고, 상기 제 2 특성 세트는 상기 스피치 이벤트가 상기 외부 장치에 의해 검출되었을 때에 대응하는 타임스탬프를 포함하며, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계는, 상기 스피치 이벤트가 상기 타임스탬프에 기초하여 상기 외부 장치에 의해 검출되기 전에 상기 스피치 이벤트가 국부적으로 검출되었음을 결정하는 단계를 포함하는, 컴퓨터 판독가능 매체.
제 14 항에 있어서, 상기 타임스탬프들은 동기화된 클럭에 기초하여 결정되는, 컴퓨터 판독 가능 매체.
제 10 항에 있어서, 상기 명령어들은, 상기 외부 장치에 의해 검출된 스피치 이벤트가 국부적으로 검출된 스피치 이벤트와 일치 함을 결정하는 단계를 프로세서로 하여금 또한 수행하게 하는, 컴퓨터 판독 가능 매체.
제 16 항에 있어서, 상기 외부 장치에 의해 검출된 스피치 이벤트가 국부적으로 검출된 스피치 이벤트와 일치함을 결정하는 단계는, 상기 외부 장치가 상기 스피치 이벤트를 검출한 때에 대응하는 외부 타임스탬프를, 스피치 이벤트가 국부적으로 검출된 때에 대응하는 로컬 타임스탬프와 비교하는 단계를 포함하는, 컴퓨터 판독가능 매체.
제 16 항에 있어서, 상기 외부 장치에 의해 검출된 스피치 이벤트가 국부적으로 검출된 스피치 이벤트와 일치함을 결정하는 단계는, 상기 외부 장치에 의해 검출된 스피치 이벤트에 기초하여 인식된 제 1 콘텐츠를, 국부적으로 감지된 스피치 이벤트에 기초하여 인식된 제 2 콘텐츠와 비교하는 단계를 포함하는, 컴퓨터 판독가능 매체.
음성 인식 시스템에 있어서,
마이크; 및
명령어들을 실행하는 컴퓨터 프로세서를 포함하며, 상기 컴퓨터 프로세서는,
상기 마이크로폰을 통해 국부적으로 검출된 스피치 이벤트와 관련된 특성 세트를 생성하는 단계와,
외부적으로 검출된 상기 스피치 이벤트와 관련된 제 2 특성 세트를 수신하는 단계와,
상기 특성 세트와 상기 제 2 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 국부적으로 수행되어야 함을 결정하는 단계와,
상기 동작을 국부적으로 수행하는 단계를 수행하게 하는, 음성 인식 시스템.
제 19 항에 있어서, 상기 명령어들은, 상기 프로세서로 하여금,
상기 마이크로폰을 통해 국부적으로 검출된 제 2 스피치 이벤트와 관련된 제 3 특성 세트를 생성하는 단계;
상기 외부 장치로부터, 외부적으로 검출된 상기 제 2 스피치 이벤트와 관련된 제 4 특성 세트를 수신하는 단계;
상기 제 3 특성 세트와 상기 제 4 특성 세트 간의 비교에 기초하여, 상기 스피치 이벤트에 응답하는 동작이 상기 외부 장치에 의해 수행되어야 함을 결정하는 단계; 및
제 2 스피치 이벤트의 국부적 처리를 종료하는 단계를 더 수행하게 하는, 음성 인식 시스템.