KR20180039135A

KR20180039135A - 음성-인에이블 디바이스들 간 중재

Info

Publication number: KR20180039135A
Application number: KR1020187006764A
Authority: KR
Inventors: 라미아 고팔란; 시바 쿠마르 순다람
Original assignee: 아마존 테크놀로지스, 인크.
Priority date: 2015-09-11
Filing date: 2016-09-08
Publication date: 2018-04-17
Also published as: US10026399B2; CA2997934C; EP3347894A1; EP3347894B1; JP2018532151A; CA2997934A1; KR102089485B1; CN107924681B; WO2017044629A1; US20170076720A1; JP6640993B2; CN107924681A

Abstract

다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택하기 위한 아키텍처들 및 기술들이 본 출원에 설명된다. 일부 경우들에서, 음성-인에이블 디바이스들이 유저에 대하여 근접도내에 위치하고 있기 때문에 다수의 음성-인에이블 디바이스들은 실질적으로 동일한 시간에 유저로부터의 오디오 입력을 검출할 수 있다. 아키텍처들 및 기술들은 오디오 입력을 핸들링하기 위한 음성-인에이블 디바이스를 지정하기 위해 음성-인에이블 디바이스들에 대한 여러 가지 오디오 신호 메트릭 값들을 분석할 수 있다.

Description

음성-인에이블 디바이스들 간 중재

관련 출원

본 출원은 2015년 9월 11일에 출원된 U.S. 특허 출원번호 14/852,022에 대한 우선권 이익을 주장하고, 이의 전체 내용들은 참조로서 본 출원에 통합된다.

유저들은 태스크(task)들을 수행하기 위해 음성-인에이블 디바이스(voice-enabled device)들을 점점 더 채용하고 있다. 많은 경우에, 유저는 다수의 음성-인에이블 디바이스들에 대한 근접도(proximity)내에 위치되는 동안에 스피치 입력을 제공할 수 있다. 스피치 입력은 태스크가 수행되는 것을 요청할 수 있다. 음성-인에이블 디바이스들의 각각은 스피치 입력을 검출할 수 있고 유저를 위해 태스크를 수행하기 위해 스피치 입력을 프로세스할 수 있다. 이것은 유저를 위하여 여러번 수행되는 동일한 태스크로 귀결될 수 있다. 더구나, 일부 인스턴스에서, 음성-인에이블 디바이스들 각각은 태스크가 수행되어진 것을 유저에게 알리고, 추가 정보, 등등을 요청하기 위해 응답할 수 있다. 이것은 궁극적으로 바람직하지 않은 유저 경험을 생성한다.

상세한 설명이 첨부 도면들을 참고로 하여 개시된다. 도면들에서, 도면 번호의 가장 왼쪽의 숫자(들)은 도면 번호가 처음 등장하는 도면을 식별한다. 상이한 도면들에서 동일한 도면 번호들의 사용은 유사하거나 또는 동일한 아이템들 또는 피처들을 표시한다.
도 1 은 본 출원에서 설명된 기술들이 구현될 수 있는 예제 아키텍처를 예시한다.
도 2 는 서비스 제공자의 예제 컴포넌트들을 예시한다.
도 3은 음성-인에이블 디바이스의 예제 컴포넌트들을 예시한다.
도 4 는 다수의 음성-인에이블 디바이스들간에 중재하는 예제 프로세스를 예시한다.
도 5 는 음성-인에이블 디바이스들 간에 중재할 것들을 선택하기 위한 최초 프로세싱을 수행하는 예제 프로세스를 예시한다.

본 개시는 다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택하기 위한 아키텍처들 및 기술들을 설명한다. 일부 경우들에서, 다수의 음성-인에이블 디바이스들은 음성-인에이블 디바이스들 각각은 유저에 대하여 근접도내에 위치하고 있기 때문에 실질적으로 동일한 시간에 유저로부터의 오디오 입력을 검출할 수 있다. 아키텍처들 및 기술들은 오디오 입력 프로세싱을 핸들링하기 위한 음성-인에이블 디바이스를 지정하기 위해 음성-인에이블 디바이스들에 대한 여러 가지 오디오 신호 메트릭 값들을 분석할 수 있다. 이것은 중복(duplicate) 입력 프로세싱을 회피함으로써 유저 경험을 증강시킬 수 있다. 더구나, 이것은 최상의 오디오 신호가 프로세스 되는 것을 허용할 수 있다.

일부 구현예들에서, 서비스 제공자(service provider)는 오디오 입력을 검출하는 다수의 음성-인에이블 디바이스들을 식별할 수 있다. 음성-인에이블 디바이스들은 서로 근접도내에 위치될 수 있어서, 실질적으로 동일한 시간에 오디오 입력을 검출할 수 있다. 일부 경우들에서, 음성-인에이블 디바이스들의 일부 또는 전부는 복수의 오디오 신호들 (예를 들어, 상이한 룩 방향(look direction)들과 관련된 빔성형된(beamformed) 오디오 신호들)을 결정하기 위한 입력 신호들을 제공하는 센서 어레이들 (예를 들어, 마이크로폰 어레이들) 을 포함한다. 서비스 제공자는 음성-인에이블 디바이스들로부터 수신된 오디오 신호 메트릭 값들에 기초하여 오디오 입력을 핸들링 할 하나 이상의 음성-인에이블 디바이스들을 선택할 수 있다. 예를 들어, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 오디오 신호에 대하여 서비스 제공자에게 적어도 하나의 오디오 신호 메트릭 값을 제공할 수 있다.

오디오 신호 메트릭 값(metric value)은 오디오 신호의 특성을 표시할 수 있다. 예를 들어, 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity), 등등을 포함할 수 있다. 오디오 신호 메트릭 값은 하나의 오디오 신호에 특정될 수 있거나 또는 다수의 오디오 신호들에 적용 가능할 수 있다. 일 예로서, 음성-인에이블 디바이스는 다수의 빔성형된 오디오 신호들을 결정할 수 있고 가장 높은 값을 갖는 오디오 신호 메트릭 값과 관련된 빔성형된 오디오 신호를 선택할 수 있다. 여기서, 음성-인에이블 디바이스는 선택된 빔성형된 오디오 신호의 오디오 신호 메트릭 값을 서비스 제공자에게 발송하여 서비스 제공자가 오디오 입력의 프로세싱을 핸들링 할 음성-인에이블 디바이스를 선택하는 것을 가능하게 할 수 있다. 다른 예로서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 각각의 빔성형된 오디오 신호에 대한 오디오 신호 메트릭 값들을 발송할 수 있다. 또 다른 추가 예로서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 빔성형된 오디오 신호들에 대한 평균 오디오 신호 메트릭 값을 발송할 수 있다. 다른 예들에서, 음성-인에이블 디바이스는 다른 유형들의 오디오 신호 메트릭 값들 (예를 들어, 가중된(weighted) 오디오 신호 메트릭 값들, 등)을 발송할 수 있다.

임의의 이벤트에서, 서비스 제공자는 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들에 순위를 매길 수 있다(rank). 예를 들어, 제 1 음성-인에이블 디바이스는 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호에 대한 신호대 잡음비가 제 2 음성-인에이블 디바이스에서 결정된 오디오 신호에 대한 신호대 잡음비 보다 더 높으면 (더 크면) 제 2 음성-인에이블 디바이스보다 더 높게 순위가 매겨질 수 있다. 랭크에 기초하여, 서비스 제공자는 오디오 입력의 프로세싱을 핸들링 할 음성-인에이블 디바이스를 선택할 수 있다. 예를 들어, 서비스 제공자는 가장 높은 (가장 큰) 값인 오디오 신호 메트릭 값과 연관된 음성-인에이블 디바이스를 선택할 수 있다. 서비스 제공자는 선택된 음성-인에이블 디바이스로부터의 오디오 신호를 프로세스 할 수 있고 선택되지 않은 음성-인에이블 디바이스로부터의 오디오 신호를 무시할 수 있다. 예시하기 위해서, 만약 날씨 정보에 대한 유저 요청이 다수의 음성-인에이블 디바이스들에 의해 검출되고, 서비스 제공자가 특정 음성-인에이블 디바이스를 선택하면, 서비스 제공자는 선택된 음성-인에이블 디바이스로부터의 오디오 신호에 스피치 인식 기술(speech recognition technique)들을 수행할 수 있고 날씨 정보를 포함하는 응답이 선택된 음성-인에이블 디바이스를 통하여 제공되게 할 수 있다. 선택되지 않은 디바이스로부터의 임의의 오디오 신호들은 추가로 프로세스되지 않을 수 있다.

이 논의가 강조하는 것처럼, 본 출원에서 설명된 아키텍처들 및 기술들은 유저를 둘러쌀 수 있는 다수의 음성-인에이블 디바이스들로 유저 경험을 증강시킬 수 있다. 예를 들어, 다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택함으로써, 아키텍처들 및 기술들은 스피치 프로세싱 및/또는 응답 형성의 중복을 회피할 수 있다. 더구나, 스피치 프로세싱 및/또는 응답 형성의 중복을 회피함으로써, 아키텍처들 및 기술들은 프로세싱 및/또는 많은 통신의 양을 줄일 수 있다 (예를 들어, 입력을 프로세스하고 및/또는 응답들을 제공하기 위한 음성-인에이블 디바이스들과의 통신을 줄인다). 추가하여, 많은 경우에, 아키텍처들 및 기술들은 최상 오디오 신호 (예를 들어, 최상 품질 신호)와 연관된 음성-인에이블 디바이스를 선택할 수 있다.

비록 많은 인스턴스들에서 음성-인에이블 디바이스를 선택하기 위한 기술들이 서비스 제공자에 의해 수행되는 것으로 논의되지만, 기술들은 추가적으로, 또는 대안적으로, 음성-인에이블 디바이스 및/또는 다른 컴퓨팅 디바이스 (예를 들어, 랩탑 컴퓨터, 스마트 폰, 제 3 자 서비스, 등)에 의해 수행될 수 있다.

이 간단한 도입은 독자의 편의를 위해 제공되고 청구항들, 또는 이하의 섹션들의 범위를 제한하는 것으로 의도되지 않는다. 더욱이, 아래에 상세하게 설명되는 기술들은 많은 방식들로 및 많은 환경들에서 구현될 수 있다. 예제 구현예들 및 환경들은 아래에 보다 상세하게 설명되는 것 처럼 이하의 도면들을 참고로 하여 제공된다. 그러나, 이하의 구현예들 및 환경들은 단지 많은 것 중에서 일부일 뿐이다.

예제 아키텍처(EXAMPLE ARCHITECTURE)

도 1 은 본 출원에서 설명된 기술들이 구현될 수 있는 예제 아키텍처(100)를 예시한다. 아키텍처 (100)는 다양한 프로세싱을 가능하게 하는 복수의 음성-인에이블 디바이스들 (104(1)-(N)) (총괄하여 “음성-인에이블 디바이스들 (104)”)과 통신하도록 구성된 서비스 제공자 (102)를 포함한다. 예를 들어, 서비스 제공자 (102)는 하나 이상의 유저들 (106) (이하에서 “유저 (106)”)에 의해 제공되는 오디오 입력을 위해 음성-인에이블 디바이스들 (104)로부터 오디오 신호들을 수신할 수 있다. 서비스 제공자 (102)는 유저 (106)를 위한 태스크들을 수행하고, 유저 (106)에 대한 응답들을 공식화(formulate), 등등을 위해 오디오 신호들을 프로세스 할 수 있다. 일부 경우들에서, 서비스 제공자 (102)는 음성-인에이블 디바이스들 (104) 중 몇몇의 디바이스들에 의해 몇몇의 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스들 (104) 중 하나를 선택할 수 있다. 추가적으로, 또는 대안적으로, 일부 경우들에서 서비스 제공자 (102)는 오디오 출력을 핸들링하기 위해 음성-인에이블 디바이스들 (104) 중 동일하거나 상이한 음성-인에이블 디바이스를 선택할 수 있다. 서비스 제공자 (102) 및 음성-인에이블 디바이스들 (104)은 하나 이상의 네트워크들 (108)를 통하여 통신할 수 있다. 하나 이상의 네트워크들 (108)은 다수의 상이한 유형들의 네트워크들, 예컨대 셀룰러 네트워크들, 무선 네트워크들, 로컬 영역 네트워크들 (LAN들), 와이드 영역 네트워크들 (WAN들), 퍼스널 영역 네트워크들 (PAN들), 인터넷, 등등 중 임의의 하나 또는 조합을 포함할 수 있다. 비록 도 1에 예시되지 않았지만, 각각의 음성-인에이블 디바이스들 (104)은 무선 액세스 포인트(access point), 예컨대 무선 라우터, 셀 타워(cell tower), 등등에 연결될 수 있다. 예를 들어, 각각의 음성-인에이블 디바이스들 (104)은 유저 (106)의 체류 지점(residence)내에 위치된 무선 라우터에 무선으로 연결될 수 있다. 대안적으로, 또는 추가적으로, 음성-인에이블 디바이스들 (104)은 유선 연결을 통하여 서로 연결될 수 있다.

서비스 제공자 (102)는 하나 이상의 서버들, 데스크탑 컴퓨터들, 랩탑 컴퓨터들, 또는 유사한 것을 포함하는 하나 이상의 컴퓨팅 디바이스들로 구현될 수 있다. 일 예에서, 서비스 제공자 (102)는 서버 클러스터, 서버 팜(server farm), 데이터센터, 메인프레임, 클라우드 컴퓨팅 환경, 또는 그것의 조합으로 구성된다. 예시하기 위해서, 서비스 제공자 (102)는 서비스들, 예컨대 스토리지, 컴퓨팅, 네트워킹, 등등을 제공하는 분산 컴퓨팅 자원 (예를 들어, 클라우드 컴퓨팅, 호스트되는 컴퓨팅, 등)으로 동작하는 임의 개수의 디바이스들을 포함할 수 있다.

서비스 제공자 (102)는 유저 (106)와 상호 작용하는데 음성-인에이블 디바이스들 (104)를 보조하기 위해 여러 가지 동작들을 수행할 수 있다. 서비스 제공자 (102)는 전반적으로 음성-인에이블 디바이스들 (104)로부터 오디오 신호들 및 다른 정보를 수신할 수 있고, 오디오 신호들 및/또는 다른 정보를 프로세스 할 수 있고 (예를 들어, 스피치 인식, NPL(Natural Language Processing), 등을 이용하여), 프로세스된 오디오 신호들에 기초하여 태스크들을 수행할 수 있고, 음성-인에이블 디바이스들 (104)에 대한 응답들을 공식화할 수 있고, 등등을 할 수 있다 . 예를 들어, 만약 유저 (106) “Tom Petty를 플레이”할 것을 음성-인에이블 디바이스 (104)(N)에게 요청하면, 서비스 제공자 (102)는 음성-인에이블 디바이스 (104)(N)로부터 오디오 신호를 프로세스 할 수 있고 유저 요청을 이해한 것에 기초하여, Tom Petty에 노래를 플레이 할 것을 음성-인에이블 디바이스 (104)(N)에게 지시할 수 있다.

일부 경우들에서, 서비스 제공자(102)는 동일한 오디오 소스로부터 오디오 입력을 검출하는 다수의 음성-인에이블 디바이스들 간을 중재(arbitrate)할 수 있다. 그렇게 하기 위해서, 서비스 제공자(102)는 음성-인에이블 디바이스에서 결정된 오디오 신호들에 대한 오디오 신호 메트릭 값들을 분석할 수 있다. 일 예로서, 음성-인에이블 디바이스 (104)(1)가 복도에 캐비닛 위에 위치되고 및 음성-인에이블 디바이스 (104)(N)가 복도에 연결된 부엌에 테이블 위에 위치된다고 가정한다. 또한 유저가 부엌으로 복도를 이동하면서 유저 (106)가 “날씨 어때?”라고 말하고 그리고 각각의 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)이 스피치 입력을 검출한다고 가정한다. 여기서, 각각의 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)는 개별 음성-인에이블 디바이스에서 결정된 오디오 신호 및/또는 오디오 신호에 대한 오디오 신호 메트릭 값을 발송함으로써 스피치 입력을 프로세스하기 위해 서비스 제공자 (102)와 통신을 개시할 수 있다. 각각의 오디오 신호 메트릭 값은 일반적으로 관련된 오디오 신호의 특성(characteristic)을 표시할 수 있다. 도 1에 예시된 바와 같이, 음성-인에이블 디바이스 (104)(1)는 하나 이상의 오디오 신호 메트릭 값들 (110)(1)을 서비스 제공자 (102)에게 발송할 수 있고, 한편 음성-인에이블 디바이스 (104)(N)는 하나 이상의 오디오 신호 메트릭 값들 (110)(M)을 발송할 수 있다. 서비스 제공자 (102)는 도 1에 (112)에 예시된 바와 같이 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)에 순위를 매길 수 있다. 서비스 제공자 (102)는 순위를 매김으로써 음성-인에이블 디바이스를 (예를 들어, 최상위 랭크된 디바이스) 선택할 수 있다. 서비스 제공자(102)는 그런 다음 선택된 음성-인에이블 디바이스로부터의 오디오 신호를 프로세스를 할 수 있고, 유저 (106)를 위한 태스크를 수행할 수 있다. 이 예에서, 유저 (106)는 날씨 정보를 물었고, 그렇게, 서비스 제공자 (102)는 말하는 오디오 “현재 Seattle은 85 도이다”라고 출력되도록 음성-인에이블 디바이스 (104)(1)에게 날씨 정보를 제공한다. 한편, 서비스 제공자 (102)는 선택되지 않은 디바이스, 음성-인에이블 디바이스 (104)(N)으로부터의 오디오 신호를 무시할 수 있다(또는 프로세싱을 거절).

음성-인에이블 디바이스들 (104)의 각각은 컴퓨팅 디바이스, 예컨대 랩탑 컴퓨터, 데스크탑 컴퓨터, 서버, 스마트 폰, 전자 리더기 디바이스, 모바일 핸드셋, 개인 디지털 보조장치 (PDA), 휴대용 네비게이션 디바이스, 휴대용 게이밍 디바이스, 태블릿 컴퓨터, 시계, 휴대용 미디어 플레이어, 착용가능한 컴퓨팅 디바이스 (예를 들어, 시계, 광 헤드-마운트 디스플레이 (OHMD : optical head-mounted display), 등), 텔레비전, 컴퓨터 모니터 또는 디스플레이, 셋-탑 박스, 차량내 컴퓨터 시스템, 기기, 카메라, 로봇, 홀로그램 시스템, 보안 시스템, 서모스탯(thermostat), 연기 검출기, 인터콤(intercom), 홈 미디어 시스템, 조명 시스템, 가열, 환기 및 에어컨 (HVAC) 시스템, 홈 자동화 시스템, 프로젝터, 현금 자동 입출금기 (ATM : automated teller machine), 음성 명령어 디바이스 (VCD : voice command device), 등등으로 구현될 수 있다. 일부 경우들에서, 컴퓨팅 디바이스는 모바일 디바이스를 포함할 수 있고, 한편 다른 인스턴스들에서 컴퓨팅 디바이스는 정지상태(stationary) 디바이스일 수 있다. 비록 음성-인에이블 디바이스들 (104)은 동일한 유형의 디바이스로서 도 1에 예시되지만, 각각의 음성-인에이블 디바이스들 (104)은 임의 개수의 컴포넌트들로 구성된 임의의 유형의 디바이스일 수 있다.

도 1의 예제 아키텍처 (100)에서, 디바이스 중재 기술(device arbitration technique)들은 서비스 제공자 (102)에 의해 수행되는 것으로 논의된다. 그러나, 다른 인스턴스들에서 기술들은 다른 디바이스들, 예컨대 음성-인에이블 디바이스들 (104) 중 하나에 의해 수행될 수 있다. 예시하기 위해서, 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스들 (104)(1) 및 (104)(N) 둘 모두가 동일한 오디오 소스로부터 오디오 입력을 검출한 때 오디오 입력을 핸들링하는 특정 디바이스를 선택하기 위한 중재자(arbitrator)로서 지정될 수 있다. 여기서, 음성-인에이블 디바이스 (104)(1)는 오디오 신호들 및/또는 오디오 신호 메트릭 값들을 수신하기 위해서 음성-인에이블 디바이스 (104)(N) (예를 들어, 무선 또는 유선 연결을 통하여)와 통신할 수 있다. 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스들 (104) 중 하나를 선택하기 위해 서비스 제공자 (102)와 관련하여 상기에서 논의된 중재 기술들을 수행할 수 있다. 일부 경우들에서, 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스 (104)(N)를 위한 릴레이(relay) 또는 백홀(backhaul) 연결로서 로서 역할을 할 수 있다(예를 들어, 음성-인에이블 디바이스 (104)(N)를 대신하여 서비스 제공자 (102)와 통신). 한편 다른 인스턴스들에서, 음성-인에이블 디바이스 (104)(N)는 음성-인에이블 디바이스 (104)(1)를 통하여 통신하지 않을 수 있다.

예제 서비스 제공자(EXAMPLE SERVICE PROVIDER)

도 2 는 도 1의 서비스 제공자(102)의 예제 컴포넌트들을 예시한다. 상기에서 논의된 바와 같이, 서비스 제공자 (102)는 하나 이상의 컴퓨팅 디바이스들로 구현될 수 있다. 하나 이상의 컴퓨팅 디바이스들은 하나 이상의 프로세서들 (202), 메모리 (204), 및 하나 이상의 네트워크 인터페이스들 (206)이 구비될 수 있다. 하나 이상의 프로세서들 (202)은 중앙 프로세싱 유닛 (CPU), 그래픽스 프로세싱 유닛 (GPU), 마이크로프로세서, 디지털 신호 프로세서, 등등을 포함할 수 있다.

메모리 (204)는 하나 이상의 “모듈들(module)”로서 구성된 소프트웨어 및/또는 펌웨어 기능을 포함할 수 있다. 용어 “모듈”은 논의의 목적들을 위하여 소프트웨어 및/또는 펌웨어의 예시 분할들을 표현하도록 의도되고, 임의의 유형의 요건 또는 요구된 방법, 방식 또는 필요한 구조를 표현하도록 의도되지 않는다. 따라서, 다양한 “모듈들”이 논의되지만, 그것들의 기능 및/또는 유사한 기능은 상이하게 배열될 수 있다 (예를 들어, 더 작은 수의 모듈들로 결합되고, 더 큰 수의 모듈들로 쪼개지고, 등). 도 2에 예시된 바와 같이, 메모리 (204)는 웨이크-워드(wake-word) 모듈 (208), 스피치 인식 모듈 (210), 태스크 모듈 (212), 및 중재 모듈 (214)을 포함할 수 있다. 모듈들 (208, 210, 212, 및/또는 214)은 다양한 동작들을 수행하기 위해 하나 이상의 프로세서들 (202)에 의해 실행 가능할 수 있다.

웨이크-워드 모듈 (208)은 오디오 신호들에서 특정 워드들 또는 어구들을 감지하도록 구성될 수 있다 (예를 들어, 컴퓨팅 디바이스와 상호작용 개시하도록 말하여진 “웨이크(wake)” 워드들 또는 다른 키워드들 또는 어구들). 예를 들어, 웨이크-워드 모듈 (208)은 시스템을 트리거 (예를 들어, 웨이크/활성화(activate))할 수신된 오디오 신호내 잠재적인 키 워드들을 식별할 수 있다. 웨이크-워드 모듈 (208)은 빔성형된 오디오 신호의 부분이 감지될 워드 또는 어구들에 대응하는 정보를 수용할 것 같은지 여부를 결정하기 위한 하나 이상의 빔성형된 오디오 신호들을 수신할 수 있다. 오디오 신호 데이터 저장소 (216)는 음성-인에이블 디바이스들 (104)로부터 수신된 하나 이상의 오디오 신호들을 저장할 수 있다. 일단 잠재적인 웨이크-워드가 감지된 후에, 빔성형된 오디오 신호는 어떤 워드들 또는 어구들이 존재하는 지를 결정하기 위해 스피치 인식 모듈 (210)로 전달될 수 있다.

웨이크-워드 모듈 (208)은 웨이크-워드가 감지되었는지 여부를 나타내는 웨이크-워드 결과를 제공할 수 있다. 웨이크-워드 감지에 대한 실패는 예를 들어, 에러 때문일 수 있거나 또는 어떠한 웨이크-워드도 감지되지 않았기 때문일 수 있다. 웨이크-워드가 감지된 일부 구현예들에서, 웨이크-워드 결과는 잠재적인 웨이크-워드를 또한 포함할 수 있다. 추가적으로, 또는 대안적으로, 웨이크-워드 결과는 웨이크-워드 인식의 확신을 나타내는 인식 확신 스코어(recognition confidence score)를 포함할 수 있다. 인식은 예측이기 때문에, 인식 확신 스코어는 인식 예측에서의 확신의 정도를 표시할 수 있다. 일부 경우들에서, 웨이크-워드 결과는 다른 컴포넌트에, 예컨대 서비스 제공자 (102)의 다른 모듈에 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈에 (예를 들어, 빔 선택 동안에 사용될 빔 선택기 모듈) (예를 들어, 피드백으로서) 제공될 수 있다. 더구나, 일부 경우들에서 서비스 제공자 (102) (예를 들어, 스피치 인식 모듈 (210))의 다른 모듈 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈로부터의 출력이 웨이크-워드의 감지를 보조하기 위해 웨이크-워드 모듈 (208)에 제공될 수 있다.

일부 경우들에서, 음성-인에이블 디바이스들 (104)은 연속적으로 웨이크-워드들을 감지하기 위해 스피치를 연속적으로 주의 깊게 들을 수 있다. 여기서, 음성-인에이블 디바이스들 (104)은 웨이크-워드들을 식별하기 위해 서비스 제공자 (102)에게 빔성형된 오디오 신호들을 연속적으로 제공할 수 있다. 웨이크-워드 감지시에, 추가 프로세싱이 수행될 수 있다. 다른 인스턴스들에서, 웨이크-워드 모듈 (208)은 음성-인에이블 디바이스들 (104) 중 하나상에서 로컬에서 구현될 수 있다. 여기서, 음성-인에이블 디바이스들 (104) 중 하나는 웨이크-워드들을 감지하기 위해 스피치를 주의 깊게 들을 수 있고 웨이크-워드의 감지시에 서비스 제공자 (102)에게 프로세싱을 전달할 수 있다 (예를 들어, 스피치 인식 모듈 (210)에게 프로세싱을 전달).

스피치 인식 모듈 (210)은 오디오 신호들상에 다양한 스피치 인식 기술들 (때때로 자동 스피치 인식 (ASR : Automatic Speech Recognition)으로 지칭된다)을 수행할 수 있다. 스피치 인식 모듈 (210)은 오디오 신호에 워드들의 인식에 관련한 트랜스크립트(transcript) 또는 다른 출력을 제공할 수 있다. 스피치 인식 모듈 (210)은 오디오 신호가 스피치 인식을 위하여 수락되었는지 여부, 워드가 오디오 신호로부터 인식되었는지 여부, 인식된 워드내 확신 (예를 들어, 인식 워드의 확신을 나타내는 인식 확신 스코어), 등등을 나타내는 결과를 제공할 수 있다. 일 예에서, 인식 확신 스코어는 워드가 정확하게 감지되는지의 확신의 레벨을 표시할 수 있다. 일부 경우들에서, 결과는 서비스 제공자 (102)의 다른 모듈에 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈에 (예를 들어, 빔 선택 동안에 사용될 빔 선택기 모듈) (예를 들어, 피드백으로서) 제공될 수 있다. 만약 워드가 스피치 인식 모듈 (210)에 의해 검출되면, 트랜스크립트 (및/또는 오디오 신호)는 태스크 모듈 (212)에 전달될 수 있다.

태스크 모듈 (212)는 입력을 해석 및/또는 태스크를 수행하기 위해 스피치 인식 모듈 (210) (및/또는 다른 모듈들)로부터의 정보를 분석하도록 구성될 수 있다. 일부 경우들에서, 태스크 모듈 (212)은 트랜스크립트 (예를 들어, 텍스트)의 의미를 결정하기 위해 NLP(Natural Language Processing) 기술들을 사용한다. 의미에 기초하여, 태스크 모듈 (212)은 수행될 태스크 및/또는 제공될 응답을 식별할 수 있다. 예를 들어, 음성-인에이블 디바이스에서 수신된 요청 “더 많은 배터리들에 대한 주문을 해 주세요” 에 응답하여, 태스크 모듈 (212)은 e-커머스(commerce) 사이트를 통하여 배터리들을 주문하는 태스크를 수행할 수 있고 그런 다음 배터리들이 주문되었는지 표시를 제공하기 위해 음성-인에이블 디바이스에 명령을 발송할 수 있다(예를 들어, “오케이, 더 많은 배터리들에 대한 주문을 하였습니다”의 오디오 출력). 다른 예들에서, 다른 유형들의 태스크들이 예컨대 캘런더 약속(calendar appointment) 잡기, 전화 통화 신청, 날씨 정보 제공, 음악 플레이, 등등이 수행될 수 있다. 더구나, 태스크가 수행된 것을 표시하기 위해 빛을 작동시키는 것, 특정 가청 사운드 (예를 들어, 비프(beep))를 제공하는 것, 등등과 같은 다른 유형들의 응답들이 제공될 수 있다.

중재 모듈 (214)은 입력 및/또는 출력을 핸들링 할 음성-인에이블 디바이스를 선택하도록 구성될 수 있다. 상기에서 언급한 바와 같이, 일부 경우들에서 다수의 음성-인에이블 디바이스들은 유저로부터의 동일한 발언(utterance)를 감지할 수 있고 (또는 소스로부터 동일한 사운드), 이는 각각의 음성-인에이블 디바이스들이 해당 발언을 핸들링 하려고 시도하는 것으로 귀결될 수 있다. 이런 경우들에서, 서비스 제공자(102)는 유저와의 상호작용을 핸들링 할 최적의 음성-인에이블 디바이스를 선택하기 위해 음성-인에이블 디바이스들간에 중재할 수 있다. 더구나, 이것은 최상의 신호가 프로세스되는 것을 허용할 수 있다 (예를 들어, 발언을 가장 정확하게 표현한 신호).

일부 경우들에서, 음성-인에이블 디바이스를 선택하기 위해, 중재 모듈 (214)은 잠재적으로 선택될 수 있는 음성-인에이블 디바이스들을 식별하는 최초 프로세싱을 수행할 수 있다 (예를 들어, 중재할 음성-인에이블 디바이스들을 식별). 즉, 중재 모듈 (214)은 선택할 음성-인에이블 디바이스들의 그룹을 결정할 수 있다. 예를 들어, 만약 다수의 음성-인에이블 디바이스가 홈(home)에 위치되면, 중재 모듈 (214)은 유저와 상호 작용하는데 잠재적으로 최상일 수 있는 다수의 디바이스들의 서브-셋(sub-set)을 식별하는 최초 프로세싱을 수행할 수 있다. 중재 모듈 (214)은 런타임(runtime)에 (예를 들어, 중재 프로세스가 수행될 때 실시간으로) 및/또는 사전에 최초 프로세싱을 수행할 수 있다.

일 예에서, 최초 프로세싱은 서로에 및/또는 오디오 소스에 미리 결정된 거리/근접도내에 위치된 음성-인에이블 디바이스들을 선택할 수 있다. 예를 들어, 다수의 음성-인에이블 디바이스들은 are 내에 위치된 접근 to 디바이스들에 대한 글로벌 측위 시스템 (GPS : Global Positioning System) 센서들로부터 식별된 위치들에 기초하여 서로에 근접도 내에 위치된다(예를 들어, 동일한 방에, 서로로부터 몇 피트 떨어진)는 것이 결정될 수 있다. 대안적으로, 또는 추가적으로, 디바이스들이 동일한 무선 액세스 포인트에 연결된 것에 기초하여 다수의 음성-인에이블 디바이스들은 서로에 근접도 내에 위치된다는 것이 결정될 수 있다. 여기서, 무선 액세스 포인트는 특정 면적, 예컨대 방, 집, 등에 대한 커버리지(coverage)를 제공할 수 있다. 더구나, 무선 액세스 포인트에 대한 신호 세기에 기초하여 다수의 음성-인에이블 디바이스들은 서로에 근접도 내에 위치된다는 것이 결정될 수 있다. 예시하기 위해서, 만약 무선 액세스 포인트에 음성-인에이블 디바이스의 무선 연결이 세기 임계값 (예를 들어, 상대적으로 강한 신호를 나타내는)을 초과하고 동일한 무선 액세스 포인트에 다른 음성-인에이블 디바이스의 무선 연결이 세기 임계값을 초과하면, 두개의 디바이스들은 서로에 근접도내에 있는 것으로 결정될 수 있다. 미리 결정된 거리/근접도는 관리자, 서비스 제공자 (102), 엔드-유저, 등등에 의해 설정될 수 있다. 미리 결정된 거리/근접도는 유저가 특정 데시벨(decibel) 레벨에서 말할 때 음성-인에이블 디바이스에 의해 청취될 수 있는 임의의 값, 예컨대 평균 거리 (시간에 대하여 결정됨)로 설정될 수 있다.

다른 예에서, 최초 프로세싱은 실질적으로 동일한 시간에 (예를 들어, 시간 윈도우 내에) 오디오 신호들을 결정한 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 만약 디바이스들 각각이 서로의 시간 임계량내에 (예를 들어, 동일한 시간 스팬(span) - 시간 윈도우내에) 오디오 신호를 생성하였다면 두개의 음성-인에이블 디바이스들이 선택될 수 있다. 선택은 오디오 신호들에 대한 시간-스탬프(stamp)들에 기반될 수 있다. 각각의 시간-스탬프는 오디오 신호가 생성되었던 시간을 표시할 수 있다. 만약 오디오 신호들이 서로 가까운 시간에 생성되면, 이것은 예를 들어, 디바이스들이 유저로부터 동일한 발언을 청취한 것을 표시할 수 있다. 임계 시간 량은 관리자, 서비스 제공자 (102), 엔드-유저, 등등에 의해 설정될 수 있다.

또 다른 예에서, 최초 프로세싱은 동일한 유저 계정과 연관된 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 다수의 음성-인에이블 디바이스들은 만약 그것들이 동일한 유저 계정에 예컨대 컨텐츠를 액세스하기 위해 생성된 계정, 음성-인에이블 디바이스를 액세스하기 위한 계정, 또는 임의의 다른 계정에 각각 링크(등록되면) 선택될 수 있다.

추가 예제에서, 최초 프로세싱은 서로 유사도(similarity)의 임계량을 갖는 오디오 신호들을 결정한 (예를 들어, 디바이스들이 동일한 발언을 청취한 것을 나타내는) 음성-인에이블 디바이스들을 선택할 수 있다. 오디오 신호들 간에 유사도의 양은 예를 들어, KL(Kullback-Leibler) 거리/발산, 동적 시간 뒤틀림(dynamic time warping), 유클리드(Euclidian) 거리에 기초된 인트라/인터 클러스터 차이들 (예를 들어, 인트라/인터 클러스터 상관관계), 등등과 같은 기술들을 이용하는 통계 분석을 통하여 결정될 수 있다.

다른 예에서, 최초 프로세싱은 임계값 (예를 들어, 디바이스들이 워드를 정확하게 인식하였다는 것을 나타내는)을 각각 초과하는 인식 확신 스코어들 (오디오 신호들에 대하여)과 연관된 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 다수의 음성-인에이블 디바이스들은 만약 각각의 디바이스가 오디오 신호에서 워드를 인식하였다면 선택될 수 있고 각각의 디바이스 임계값을 초과하는 확신 값(워드 인식한 정확도를 나타내는)을 가진다. 임계값을 초과하는 확신 값은 오디오 신호가 워드를 포함한다는 것을 디바이스가 비교적 확신하였다는 것을 표시할 수 있다.

임의의 이벤트에서, 음성-인에이블 디바이스를 선택하기 위해 중재 모듈 (214)은 동일한 사운드를 검출하는 다수의 음성-인에이블 디바이스들에 전체적으로 순위를 매길 수 있다. 순위 매김(ranking)은 다수의 음성-인에이블 디바이스들로부터의 오디오 신호들에 순위 매김하는 것을 포함할 수 있다. 순위 매김은 여러 가지 정보에 기반될 수 있다. 예를 들어, 음성-인에이블 디바이스들은 음성-인에이블 디바이스들로부터 수신된 오디오 신호 메트릭 값들에 기초하여 순위 매김될 수 있다. 리스트의 최상위에 (또는 랭크의 최상위 쪽에) 랭크하는 음성-인에이블 디바이스가 오디오 입력을 핸들링하기 위해 선택될 수 있다. 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity), 등등을 포함할 수 있다. 오디오 신호 메트릭 값들은 오디오 신호 메트릭 값 데이터 저장소 (218)에 저장될 수 있다. 오디오 신호 메트릭 값들은 도 3을 참조하여 이하에서 추가로 상세하게 논의된다.

음성-인에이블 디바이스들의 순위 매김의 일 예로서, 중재 모듈 (214)은 음성-인에이블 디바이스들의 각각으로부터 오디오 신호 메트릭 값을 수신할 수 있다. 각각의 오디오 신호 메트릭 값은 개별 음성-인에이블 디바이스에 의해 결정된 복수의 오디오 신호들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값을 나타낼 수 있다. 예시하기 위해서, 제 1 음성-인에이블 디바이스는 발언을 프로세싱 하기 위한 오디오 신호 (도 3을 참조하여 이하에서 상세히 논의되는 최상의 오디오 신호)를 선택할 수 있고 서비스 제공자 (102)에게 오디오 신호에 대한 오디오 신호 메트릭 값을 발송할 수 있다. 유사하게, 동일한 발언을 감지한 제 2 음성-인에이블 디바이스는 프로세싱 하기 위한 오디오 신호(최상의 오디오 신호)를 선택할 수 있고 서비스 제공자 (102)에게 오디오 신호에 대한 오디오 신호 메트릭 값을 발송할 수 있다. 서비스 제공자(102)는 개별 오디오 신호 메트릭 값들에 따라 두개의 음성-인에이블 디바이스들에 순위를 매길 수 있다. 만약, 예를 들어, 제 1 음성-인에이블 디바이스가 제 2 음성-인에이블 디바이스보다 더 큰 SNR 값으로 연관되면, 제 1 음성-인에이블 디바이스가 더 높이 (리스트의 최상위 쪽에) 랭크될 수 있고, 제 2 음성-인에이블 디바이스에 우선하여 선택될 수 있다.

다른 예로서, 중재 모듈 (214)은 각각의 개별 음성-인에이블 디바이스에 대한 오디오 신호들의 메트릭들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 여기서, 각각의 음성-인에이블 디바이스가 선택된 오디오 신호 (예를 들어, 디바이스에서 최상의 오디오 신호)에 대한 오디오 신호 메트릭 값을 제공하는 대신에, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스의 다수의 오디오 신호들(예를 들어, 결정된 오디오 신호들의 일부 또는 전부)의 각각에 대한 오디오 신호 메트릭 값을 제공할 수 있다. 이와 같이, 순위 매김은 각각의 음성-인에이블 디바이스들에 대한 다수의 엔트리(entry) (예를 들어, 처음에 제 1 오디오 신호 메트릭 값에 대하여 그리고 두번째는 제 2 오디오 신호 메트릭 값에 대하여 특정 디바이스를 순위 매김)를 포함할 수 있다.

또 다른 예로서, 중재 모듈 (214)은 다수의 오디오 신호 메트릭 값들 (예를 들어, 상이한 유형들의 오디오 신호 메트릭 값들)에 기초하여 각각의 음성-인에이블 디바이스를 순위 매김 할 수 있다. 예시하기 위해서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대하여 SNR 값에 따라 그리고 음성-인에이블 디바이스에 대하여 스펙트럼 중심 측정값에 따라 순위 매김될 수 있다. 일부 경우들에서, 상이한 유형들의 오디오 신호 메트릭 값들은 상이하게 가중화될(weighted) 수 있다.

추가 예로서, 중재 모듈 (214)은 평균 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 여기서, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대한 다수의 오디오 신호들에 걸친 평균 오디오 신호 메트릭 값을 발송할 수 있다. 예시하기 위해서, 만약 음성-인에이블 디바이스가 세개의 빔성형된 오디오 신호들을 결정하면, 음성-인에이블 디바이스는 세개의 빔들에 대한 평균 오디오 신호 메트릭 값 (예를 들어, 평균 SNR)을 발송할 수 있다. 일부 경우들에서, 만약 평균 오디오 신호 메트릭 값이 다른 음성-인에이블 디바이스보다 해당 음성-인에이블 디바이스에 대하여 더 크면, 이것은 해당 음성-인에이블 디바이스가 다른 음성-인에이블 디바이스보다 오디오 소스에 더 가깝다는 것을 표시할 수 있다.

일부 경우들에서, 중재 모듈 (214)은 가중된 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 예시하기 위해서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대한 오디오 신호들의 최상 오디오 신호 메트릭 값 (예를 들어, 최대/가장 높은 오디오 신호 메트릭 값 또는, 일부 경우들에서, 최소/최저 오디오 신호 메트릭 값)과 연관된 오디오 신호를 선택할 수 있다. 최상 오디오 신호 메트릭 값은 음성-인에이블 디바이스의 오디오 신호들에 대한 최상 오디오 신호 메트릭 값 (예를 들어, 최대/가장 높은 오디오 신호 메트릭 값)과 최악 오디오 신호 메트릭 값 (예를 들어, 최소/최저 오디오 신호 메트릭 값) 사이의 차이 (변화량)에 의해 가중화될 수 있다. 가중된 오디오 신호 메트릭 값은 다수의 음성-인에이블 디바이스들을 순위 매김하기 위해 서비스 제공자 (102)에게 발송될 수 있다.

더구나, 일부 경우들에서, 중재 모듈 (214)은 이력 통계치(historical statistics)들에 기초하여 오디오 신호들 및/또는 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 예를 들어, 오디오 신호들의 오디오 신호 메트릭 값들은 여러 음성-인에이블 디바이스들로부터 시간에 걸쳐 수집될 수 있다. 만약 음성-인에이블 디바이스로부터의 특정 빔성형된 오디오 신호가 해당 음성-인에이블 디바이스에 대하여 또는 음성-인에이블 디바이스들에 걸쳐서 (예를 들어, 가장 높은 SNR를 갖는 특정 신호이기 때문에) 이력상에서(historically) 최상 신호인 것으로 결정되면, 중재 모듈 (214)은 특정 빔성형된 오디오 신호에 더 많은 가중을 적용할 수 있고, 따라서 특정 빔성형된 오디오 신호가 다른 빔성형된 오디오 신호 보다 더 높이 랭크될 것이다. 이와 같이, 중재 모듈 (214)은 어느 오디오 신호들 및/또는 음성-인에이블 디바이스들이 일반적으로 사용하기에 최상인지를 시간이 흐르면서 학습할 수 있다. 예시하기 위하여, 중재 모듈 (214)은 벽 옆에 위치된 음성-인에이블 디바이스의 세개의 특정 빔성형된 오디오 신호들은 일반적으로 상대적으로 양호한 오디오 신호들이지만, 세개의 다른 빔성형된 오디오 신호들은 상대적으로 열악한 신호들이다는 것을 학습할 수 있다. 다른 예시에서, 중재 모듈 (214)은 유저는 일반적으로 동일한 위치에서 말하기 때문에 특정 빔성형된 오디오 신호는 일반적으로 최상의 오디오 신호이다는 것을 학습할 수 있다.

임의의 이벤트에서, 중재 모듈 (214)은 음성-인에이블 디바이스를 선택하기 위한 순위 매김(ranking)을 사용할 수 있다. 일부 예들에서, 순위 매김의 최상위(top)(또는 최상위 쪽에 - 최상위 근처에 특정 위치에 있는)에 나오는 음성-인에이블 디바이스가 프로세싱을 핸들링하기 위해 선택될 수 있다. 더구나, 음성-인에이블 디바이스가 여러번 순위 매김에 나오는 (다수의 오디오 신호 메트릭 값들에 대하여) 일부 예들에서, 중재 모듈 (214)은 순위 매김에서 최상위 N 번의 자리들에서 가장 많이 나오는 음성-인에이블 디바이스를 선택할 수 있다. N은 2 보다 더 큰 정수일 수 있다. 예시하기 위해, 중재 모듈 (214)은 순위 매김에서 최상위 세개의 위치들 중 두개를 차지하는 제 1 음성-인에이블 디바이스를 선택할 수 있다.

일부 경우들에서, 만약 중재 모듈 (214)이 랭크에서 최상의 음성-인에이블 디바이스를 식별할 수 없다면, 중재 모듈 (214)은 상이한 정보에 대하여 순위 매김 동작들을 반복할 수 있다. 예를 들어, 만약 두개의 음성-인에이블 디바이스들 양쪽이 SNR에 기초하는 순위 매김에서 최상위 위치를 차지하면 (또는 각각이 최상위 N 번 자리들을 차지), 중재 모듈 (214)은 스피치 에너지 레벨(speech energy level)에 기초하여 다시 두개의 음성-인에이블 디바이스들을 순위 매김 할 수 있다.

많은 동작들이 서비스 제공자(102)에 의해 수행되는 것으로 본 출원에서 설명되었지만, 이들 동작들 중 임의의 동작은 다른 디바이스들, 예컨대 음성-인에이블 디바이스들 (104) 중 임의의 하나에 의해 수행될 수 있다. 이와 같이, 음성-인에이블 디바이스들 (104) 중 임의의 하나는 로컬에서 프로세싱을 수행할 임의의 모듈들 (208, 210, 212, 및/또는 214)을 포함할 수 있다. 일 예로서, 중재 모듈 (214)은 음성-인에이블 디바이스들 (104) 중 하나의 메모리에 저장될 수 있고, 입력 및/또는 출력을 핸들링 할 음성-인에이블 디바이스를 선택하기 위해 음성-인에이블 디바이스 (104)에서 로컬 프로세싱을 수행할 수 있다. 추가적으로, 또는 대안적으로, 임의의 모듈들 (208, 210, 212, 및/또는 214)은 다양한 상이한 컴퓨팅 디바이스들, 예컨대 다수의 서비스 제공자들에 걸쳐서 구현될 수 있다. 더욱이, 다양한 동작들이 모듈들에 의해 수행되는 것으로 설명되지만, 본 출원에서 설명된, 임의의 이들 동작들, 및/또는 다른 기술들은 하나 이상의 하드웨어 로직 컴포넌트들, 예컨대 필드-프로그램 가능한 게이트 어레이들 (FPGA들), 애플리케이션-특정 집적 회로들 (ASIC들), 시스템-온-칩 시스템들 (SOC(System-on-a-chip)들), 합성 프로그램 가능한 로직 디바이스들 (CPLD(Complex Programmable Logic Device)들), 등으로 구현될 수 있다.

예제 음성-인에이블 디바이스 (EXAMPLE VOICE-ENABLED DEVCIE)

도 3은 도 1의 음성-인에이블 디바이스들(104) 중 하나의 예제 컴포넌트들을 예시한다. 음성-인에이블 디바이스 (104)은 하나 이상의 프로세서들 (302), 메모리 (304), 하나 이상의 네트워크 인터페이스들 (306), 및 하나 이상의 마이크로폰들 (308) (이하에서 “마이크로폰들 (308)”)을 포함할 수 있다. 하나 이상의 프로세서들 (302)은 중앙 프로세싱 유닛 (CPU), 그래픽스 프로세싱 유닛 (GPU), 마이크로프로세서, 디지털 신호 프로세서, 등등을 포함할 수 있다. 비록 예시되지 않았지만, 음성-인에이블 디바이스 (104)는 하나 이상의 입력/출력 디바이스들 (예를 들어, 마우스, 키보드, 등), 하나 이상의 카메라들 (예를 들어, 후방(rear-facing), 전방(front facing), 등), 하나 이상의 디스플레이들 (예를 들어, 터치 스크린, 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이, 유기 LED 디스플레이, 플라즈마 디스플레이, 전자 페이퍼(paper) 디스플레이, 등), 하나 이상의 센서들 (예를 들어, 가속도계, 자기력계, 등), 하나 이상의 스피커들, 하나 이상의 라이트들, 등등을 또한 포함할 수 있다. 음성-인에이블 디바이스 (104)의 임의 개수의 컴포넌트들은 유저로부터의 입력을 수신하고 및/또는 응답을 출력하기 위해 사용될 수 있다. 예를 들어, 마이크로폰들 (308)은 유저로부터 스피치 입력을 감지할 수 있고 스피커 또는 라이트는 태스크가 스피치 입력에 대하여 수행되었다는 표시로 응답할 수 있다 (예를 들어, “당신을 위하여 아이템을 주문하였습니다”의 오디오 출력, 라이트 인에이블링, 등). 더구나, 하나 이상의 네트워크 인터페이스들 (306)은 하나 이상의 네트워크들을 통하여 통신할 수 있다 (예를 들어, 서비스 제공자 (102)에게 정보를, 예컨대 오디오 신호들, 오디오 신호 메트릭 값들, 등등을 수신 또는 발송).

마이크로폰들 (308)은 사운드를 수신하도록 구성된 센서들 (예를 들어, 트랜스듀서들)을 포함할 수 있다. 마이크로폰들 (308)은 오디오 입력 (예를 들어, 사운드)을 위한 입력 신호들을 생성할 수 있다. 예를 들어, 마이크로폰들 (308)은 유저의 발언에 대한 디지털 입력 신호들을 결정할 수 있다. 일부 경우들에서, 마이크로폰들 (308)은 어레이로 구현된다. 어레이는 기하학적 패턴, 예컨대 선형 기하학적 형태, 원형 기하학적 형태, 또는 임의의 다른 구성으로 배열될 수 있다. 예를 들어, 소정 지점에 대하여, 네개의 센서들의 어레이는 네개의 방향들로부터 사운드를 수신하기 위해 90도 증분들에서 (예를 들어, 0, 90, 180, 270) 원형 패턴으로 배치될 수 있다. 마이크로폰들 (308)은 평면 구성에 있을 수 있거나, 또는 비평면 3 차원의 영역에 떨어져 위치될 수 있다. 일부 구현예들에서, 마이크로폰들 (308)은 데이터 통신내 공간적으로 서로 전혀 다른 어레이의 센서들을 포함할 수 있다. 예를 들어, 센서들의 네트워크화된 어레이가 포함될 수 있다. 마이크로폰들 (308)은 무지향성(omni-directional) 마이크로폰들, 방향성 마이크로폰들 (예를 들어, 샷건(shotgun) 마이크로폰들), 등등을 포함할 수 있다.

메모리 (304)는 빔성형기(beamformer) 모듈 (310), 오디오 신호 메트릭 모듈 (312), 및 빔 선택기 모듈 (314)을 포함할 수 있다. 빔성형기 모듈 (310)은 마이크로폰들 (308)으로부터 입력 신호들을 수신할 수 있고 오디오 신호들을 생성하기 위해 입력 신호들에 신호 프로세싱을 수행할 수 있다. 예를 들어, 빔성형기 모듈 (310)은 수신된 입력 신호들 및 복수의 빔성형된 오디오 신호들의 각각에 대한 상이한 셋의 필터들을 이용하여 복수의 빔성형된 오디오 신호들을 형성할 수 있다 (예를 들어, 결정할 수 있다). 빔성형기 모듈 (310)은 복수의 빔성형된 오디오 신호들의 각각이 룩 방향(look direction)외의 방향으로부터의 센서 어레이 (예를 들어, 마이크로폰들 (308))에 의해 검출된 파형이 룩 방향으로부터의 센서 어레이에 의해 검출된 파형에 비하여 억제되는 룩 방향 (때때로 방향(direction)으로 지칭된다)을 갖도록 결정할 수 있다. 복수의 빔성형된 신호들의 각각의 룩 방향은 서로로부터 동등하게 이격될 수 있다. 이와 같이, 각각의 빔성형된 오디오 신호는 상이한 룩 방향에 대응할 수 있다.

일부 경우들에서, 빔성형 기술들은 적응적(adaptive) 또는 가변적 빔성형 기술들을 구현하는 적응적 또는 가변적 빔 성형기(beamformer)를 이용함으로써 사용될 수 있다. 더구나, 일부 경우들에서 다수의 빔성형기 모듈들 (예를 들어, 다수의 고정된 빔성형기 모듈들)이 제공된다. 각각의 빔성형기 모듈은 특정 룩 방향에 대응하는 빔성형된 오디오 신호를 결정하기 위해 필터 가중치(weight)들 및/또는 지연(delay)들의 세트를 사용한다. 예를 들어, 여섯개의 고정된 빔성형기 모듈들이 각각의 빔성형된 오디오 신호가 상이한 룩 방향에 대응하는 여섯개의 빔성형된 오디오 신호들을 결정하기 위해 제공될 수 있다. 고정 또는 적응적 빔 성형기들이 사용되든, 결과적인 복수의 빔성형된 오디오 신호들은 형태 y(n)(k)에 번호들의 어레이로 표현될 수 있다:

{y(1)(k), y(2)(k), ... , y(N)(k)},

여기서, “k”는 시간 인덱스이고 “n”은 n번째 빔성형된 오디오 신호 (및 n번째 룩 방향)에 대응하는 오디오 스트림 인덱스 (또는 룩 방향 인덱스)이다.

일 구현예에서, 빔성형기 모듈 (310)은 센서 어레이에 걸쳐 소스 신호 방향의 전파 지연에서의 차이들을 보상하기 위해 각각의 어레이 센서간에 지연들을 사용하도록 적응된 지연 및 합산 유형(delay-and-sum type)의 빔성형기로 구현된다. 빔 성형기의 가중치들 및 지연들을 조정함으로써, 희망하는 방향 (또는 위치) (예를 들어, 말하고 있는 사람의 방향으로부터, 예컨대 스피치 인식 시스템에 명령들 및/또는 입력을 제공하는 사람)으로부터 발원한 소스 신호들은 동위상으로 합산되지만, 그러나 다른 신호들 (예를 들어, 잡음, 비-스피치, 등)은 상쇄 간섭을 겪는다. 시간 지연 및 합산 빔 성형기의 가중치들 및/또는 지연들을 조정하거나 또는 선택함으로써, 그것의 빔성형된 오디오 신호 출력의 형상이 제어될 수 있다. 다른 유형들의 빔 성형기 모듈들이 또한 이용될 수 있다.

예제 빔성형 기술들이 2014년 7월 30일에 출원된 “Method and System for Beam Selection in Microphone Array Beamformers”라는 제목의 U.S. 특허 출원 번호 14/447,498, 및 2015년 6월 1일에 출원된 “Feedback Based Beamformed Signal Selection”라는 제목의 U.S. 특허 출원 번호 14/727,504에 논의되고, 이들 둘 모두의 전체 내용들은 참조로서 본 출원에 통합된다.

오디오 신호 메트릭 모듈 (312)은 빔성형기 모듈 (310)에 의해 제공된 복수의 오디오 신호들 (예를 들어, 빔성형된 오디오 신호들)의 각각에 대한 오디오 신호 메트릭 값을 결정할 수 있다. 일부 실시예들에서, 각각의 오디오 신호 메트릭 값은 빔성형된 오디오 신호의 복수의 프레임들 중 하나의 샘플들에 기초하여 결정된다. 예를 들어, 신호대 잡음비는 복수의 빔성형된 오디오 신호들의 각각에 대한 복수의 프레임들에 대하여 결정될 수 있다. 오디오 신호 메트릭 값들 f는 각각의 프레임에 대한 복수의 빔성형된 오디오 신호들의 각각에 대하여 결정될 수 있고, 형태 f(n)(k)에 번호들의 어레이로 귀결된다:

{f(1)(k), f(2)(k), ... , f(N)(k)}

여기서, “k”는 시간 인덱스이고 “n”은 n번째 빔성형된 오디오 신호에 대응하는 오디오 스트림 인덱스 (또는 룩 방향 인덱스)이다.

오디오 신호 메트릭 값은 신호대 잡음비 (SNR), 스펙트럼 중심 측정값 (예를 들어, 피크 스펙트럼 중심 측정값), 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지), 스펙트럼 플럭스, 특정 백분위 주파수 (예를 들어, 90번째 백분위 주파수), 주기성, 선명도, 조화도, 등등을 포함할 수 있다. 스펙트럼 중심 측정값은 일반적으로 스펙트럼 중심 집단(centroid mass)에 대한 측정값을 제공한다. 스펙트럼 플럭스(spectral flux)는 일반적으로 스펙트럼 변화의 비율에 대한 측정값을 제공한다. 특정 백분위 주파수(percentile frequency)는 일반적으로 총 파워의 적어도 특정 퍼센티지 (예를 들어, 90%)를 커버하는 최소 주파수 빈(bin)에 기초한 측정값을 제공한다. 주기성은 일반적으로 시끄러운 환경들에서 피치 감지(pitch detection)를 위하여 사용될 수 있는 측정값을 제공한다. 선명도(Clarity)는 일반적으로 음성 세그먼트들에 대해 높은 값 및 배경 잡음(background noise)에 대해 낮은 값을 갖는 측정값을 제공한다. 조화도(harmonicity)는 일반적으로 음성 세그먼트들에 대해 높은 값 및 배경 잡음에 대해 낮은 값을 제공하는 다른 측정값이다. 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지)는 일반적으로 스피킹 속도(speaking rate) 에 기인하여 스피치에 대하여 높은 값을 갖는 측정값을 제공한다. 다른 실시예들에서, 짧은 타임 윈도우(예를 들어, 전형적으로 하나 이하의 프레임) 동안에 가공되지 않은(raw) 빔성형된 신호 데이터의 일부 함수인 임의의 다른 오디오 신호 메트릭 값이 결정될 수 있다. 일부 경우들에서, 오디오 신호 메트릭 값은 빔성형된 오디오 신호의 복수의 프레임들의 샘플들에 기초하여 결정될 수 있다. 더구나, 일부 경우들에서, 오디오 신호 메트릭 값은 신호 피처(signal feature)로 지칭될 수 있다.

일부 구현예들에서, 오디오 신호 메트릭 값은 이하의 테이블에 따라 정의될 수 있다:

일부 경우들에서, 오디오 신호 메트릭 모듈 (312)은 특정 빔성형된 오디오 신호에 대하여 오디오 신호 메트릭 값을 결정할 수 있다. 일 예로서, SNR 값은 특정 룩 방향과 연관된 빔성형된 오디오 신호에 대하여 결정될 수 있다. 다른 인스턴스들에서, 오디오 신호 메트릭 값은 다수의 빔성형된 오디오 신호들에 대하여 결정될 수 있다. 일 예로서, 평균 오디오 신호 메트릭 값은 음성-인에이블 디바이스에 대하여 임의 개수의 빔성형된 오디오 신호들에 걸친 평균 SNR 값과 같이 음성-인에이블 디바이스에 대하여 결정된 복수의 빔성형된 오디오 신호들에 대하여 결정될 수 있다.

더구나, 일부 경우들에서, 오디오 신호 메트릭 모듈 (312)은 오디오 신호 메트릭 값을 가중화할 수 있다. 일 예로서, 오디오 신호 메트릭 값은 음성-인에이블 디바이스에 대한 빔성형된 오디오 신호들 중에서 가장 큰 값을 갖는 오디오 신호 메트릭 값 (동일한 유형의) 과 가장 작은 값을 갖는 오디오 신호 메트릭 값 (동일한 유형의) 사이의 차이만큼 배가될 수 있다. 예시하기 위하여, SNR 값은 음성-인에이블 디바이스에 대한 빔성형된 오디오 신호들 중에서 가장 큰 SNR 값과 가장 작은 SNR 값 사이의 차이만큼 가중화될 수 있다. 최대 오디오 신호 메트릭 값과 최소 오디오 신호 메트릭 값 간의 차이 (또는 변화량)는 빔 성형기의 방향성(directivity)의 측정값 일 수 있다(예를 들어, 빔 성형기가 방향에 얼마나 민감하지). 예를 들어, 상대적으로 큰 차이는 빔 성형기가 매우 방향성이 있다는 것을 (예를 들어, 오디오 소스들의 방향을 상대적으로 잘 감지할 수 있고 매우 바람직한 빔 성형기) 나타낼 수 있고, 한편 상대적으로 작은 차이는 빔 성형기가 매우 방향성이 없다는 것을 나타낼 수 있다 (예를 들어, 오디오 소스의 방향을 매우 잘 감지하지 못하고 바람직하지 않은 빔 성형기). 일부 경우들에서, 빔 성형기의 방향성은 환경적인 조건 (예를 들어, 벽, 간섭 오브젝트, 등 옆에 위치된)에 의해 영향을 받을 수 있지만, 그러나 다른 인스턴스들에서 방향성은 빔 성형기 및/또는 관련된 음성-인에이블 디바이스의 하드웨어 및/또는 소프트웨어의 특성일 수 있다. 만약, 예를 들어, 음성-인에이블 디바이스가 벽 옆에 위치되면, 오디오 입력은 음성-인에이블 디바이스에서 감지되기 전에 벽에서 반사할 수 있기 때문에 빔성형된 오디오 신호들의 오디오 신호 메트릭 값들 간에 상대적으로 작은 변화량이 있을 수 있다.

추가적으로, 또는 대안적으로, 오디오 신호 메트릭 모듈 (312)은 다수의 오디오 신호 메트릭 값들의 각각에 대하여, 복수의 프레임들에 대한 다수의 오디오 신호 메트릭 값들 f의 시간-스무드 함수에 기초하여 시간-스무드(time-smoothed) 오디오 신호 메트릭 값 (또한 “스무드 오디오 신호 메트릭 값” 또는 “스무드 피처(smoothed feature)”으로 지칭된다)을 결정할 수 있다. 일부 실시예들에서, 스무드 오디오 신호 메트릭 값 S는 복수의 프레임들에 대한 오디오 신호 메트릭 값들에 기초하여 결정된다. 예를 들어, 스무드 오디오 신호 메트릭 값 S은 신호 피처 데이터의 세개 만큼 작은 프레임들 내지 신호 피처 데이터의 천(thousand) 프레임들 또는 그 이상 만큼 많은 프레임들에 기반될 수 있다. 스무드 오디오 신호 메트릭 값들 S는 복수의 빔성형된 오디오 신호들의 각각에 대하여 결정될 수 있고, 형태 S(n)(k)에 번호들의 어레이로 귀결된다:

{S(1)(k), S(2)(k), ... , S(N)(k)}

일반적으로, 오디오 신호 메트릭 값들은 통계치들(statistics)이다. 오디오 신호 메트릭 값은 빔성형된 신호들로부터 추출된 어떤 신호 피처들의 변화를 요약할 수 있다. 오디오 신호 메트릭 값의 예시는 지속기간 동안에 신호의 최대값을 나타내는 오디오 신호 메트릭 값의 피크일 수 있다. 이런 오디오 신호 메트릭 값은 오디오 신호 메트릭 값에 임의의 단기-지속기간 잡음도(noisiness)를 줄이기 위해 시간에 대하여 스무드하게 될 수 있다 (예를 들어, 평균화, 이동 평균화(moving averaged), 또는 가중 평균화(weighted averaged)) .

일부 실시예들에서, 스무드 오디오 신호 메트릭 값 S를 결정하기 위한 시간-스무딩 기술은 이하의 관계에 기초하여 획득될 수 있다:

S(k) = alpha * S(k-1) + (1-alpha) * f(k)

이 예에서, 알파(alpha)는 스무딩 인자(smoothing factor) 또는 시상수(time constant)이다. 상기에 따라, 현재 프레임 (예를 들어, S(k))에서 스무드 오디오 신호 메트릭 값 S을 결정하는 것은 : 제 1 시상수 (예를 들어, 알파)에 이전 프레임에 대응하는 스무드 오디오 신호 메트릭 값 S (예를 들어, S(k-1))을 곱합으로써 제 1 곱(product)을 구하는 단계; 제 2 시상수 (예를 들어, (1-알파))에 현재 프레임에서의 오디오 신호 메트릭 값(예를 들어, f(k))을 곱함으로써 제 2 곱을 결정하는 단계, 여기서 제 1 시상수 및 제 2 시상수 합은 1이고; 및 제 1 곱 (예를 들어, 알파 * S(k-1)) 을 제 2 곱 (예를 들어, (1-알파) * f(k))에 더하는 단계를 포함한다.

일부 실시예들에서, 스무딩 기술은 오디오 신호 메트릭 값에 의존하여 상이하게 적용될 수 있다. 예를 들어, 스무드 오디오 신호 메트릭 값 S를 결정하기 위한 다른 시간-스무딩 기술은 이하의 프로세스에 기초하여 획득될 수 있다:

If (f(k) > S(k)):

S(k) = alpha_attack * S(k-l) + (1-alpha_attack) * f(k)

Else:

S(k) = alpha_release * S(k-l) + (l-alpha_release) * f(k)

이 예에서, 알파_어택(alpha_attack)는 어택 시상수(attack time constant)이고 및 알파_릴리즈는 릴리즈 시상수(release time constant)이다. 일반적으로, 어택 시상수는 릴리즈 시상수보다 더 빠르다. 릴리즈 시상수보다 더 빠르게 어택 시상수를 제공하는 것은 스무드 오디오 신호 메트릭 값 S(k)이 신호 피처의 상대적으로-높은 피크 값들 (예를 들어, f(k) > S(k)일 때) 빠르게 추적하는 것을 허용하는 반면 오디오 신호 메트릭 값의 상대적으로-낮은 피크 값들을 (예를 들어, f(k) < S(k)일 때) 추적하는 것은 상대적으로 느리게 된다. 다른 실시예들에서, 유사한 기술이 스피치 신호의 최소값을 추적하는데 사용될 수 있다. 일반적으로, 오디오 신호 메트릭 값 f(k)이 더 높은 가중치가 주어지고 이전 프레임의 스무드 오디오 신호 메트릭 값이 더 작은 가중치가 주어질 때 어택(attack)은 더 빠르다. 따라서, 더 작은 알파는 더 빠른 어택을 제공한다.

빔 선택기 모듈 (314)은 오디오 신호들 (예를 들어, 빔성형된 오디오 신호들) 및/또는 오디오 신호 메트릭 값들을 수신할 수 있고 추가 프로세싱을 위한 오디오 신호를 선택할 수 있다. 빔 선택기 모듈 (314)은 일반적으로 캡쳐된 오디오 입력의 소스 (예를 들어, 유저의 발언(utterance))에 가장 가까운 오디오를 제공하는 오디오 신호를 선택할 수 있다. 빔 선택기 모듈 (314)은 여러 가지 정보를 이용하여 오디오 신호 중 하나를 선택하도록 구성될 수 있다. 예를 들어, 빔 선택기 모듈 (314)은 음성-인에이블 디바이스 (104)에 대한 다수의 빔성형된 오디오 신호들 중에서 최대 오디오 신호 메트릭 값과 연관된 빔성형된 오디오 신호를 선택할 수 있다. 예시하기 위해서, 빔 선택기 모듈 (312)은 다수의 빔성형된 오디오 신호들을 그것들의 대응하는 오디오 신호 메트릭 값들에 기초하여 순위 매김 할 수 있다. 빔 선택기 (314)는 그런 다음 예를 들어, 다수의 빔성형된 오디오 신호들 중에서 가장 큰 SNR 값과 연관된 빔성형된 오디오 신호를 선택할 수 있다. 선택된 빔성형된 오디오 신호는 오디오 입력 (예를 들어, 스피치 인식, 등) 프로세싱을 위해 사용될 수 있다. 일 예로서, 선택된 빔성형된 오디오 신호 (및/또는 관련된 오디오 신호 메트릭 값)는 프로세싱을 위해 서비스 제공자 (102)에게 발송될 수 있다. 일부 경우들에서, 빔 선택기 모듈 (314)은 선택을 위해 스무드(smoothed) 오디오 신호 메트릭 값들을 사용한다.

일부 실시예들에서, 빔 선택기 모듈 (314)은 만약 또한 빔성형된 오디오 신호가 음성 (또는 스피치)을 포함한다고 결정되면 가장 큰 스무드 오디오 신호를 갖는 빔성형된 오디오 신호를 선택할 수 있다. 음성 및/또는 스피치 검출은 음성 활동 검출기(voice activity detector)를 이용하는 것을 포함하여 여러 가지 방식들로 감지될 수 있다. 일 예로서, 빔 선택기 모듈 (314)은 후보 빔성형된 오디오 신호들이 음성 및/또는 스피치를 포함하는지 여부를 첫번째로 결정할 수 있고 그런 다음 음성 및/또는 스피치를 포함하지 않는 후보 빔성형된 오디오 신호들로부터 빔성형된 오디오 신호를 선택할 수 있다. 다른 예로서, 빔 선택기 모듈 (314)은 후보 빔성형된 오디오 신호들의 스무드 오디오 신호 메트릭 값들 첫번째로 결정할 수 있다. 빔 선택기 모듈 (314)은 그런 다음 빔성형된 오디오 신호가 가장 큰 값을 갖는 스무드 오디오 신호 메트릭 값을 갖는지 그리고 음성 및/또는 스피치를 포함하는지 여부를 결정할 수 있다. 만약 그렇다면, 가장 큰 값을 갖는 스무드 오디오 신호 메트릭 값을 갖는 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다. 만약 그렇지 않다면, 빔 선택기 모듈 (314)은 그 다음으로-가장 높은 스무드 오디오 신호 메트릭 값을 갖는 빔성형된 오디오 신호가 음성 및/또는 스피치를 포함하는지 여부를 결정할 수 있다. 만약 그렇다면, 해당 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다. 만약 그렇지 않다면, 빔 선택기 모듈 (314)은 음성 및/또는 스피치를 포함하는 빔성형된 오디오 신호가 결정될 때까지 스무드 오디오 신호 메트릭 값들의 크기를 줄이면서 빔성형된 신호들을 계속해서 평가할 수 있다. 이런 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다.

일부 경우들에서, 보다 강건한 빔 선택을 가능하게 하기 위해서, 빔 선택기 모듈 (314)은 하나 이상의 스피치 프로세싱 엘리먼트들, 예컨대 스피치 인식 모듈, 웨이크-워드 모듈, 등으로부터의 피드백에 기초하여 빔성형된 오디오 신호를 선택할 수 있다. 피드백(feedback)은 오디오 신호가 스피치 인식에 대하여 수락되었는지 여부, 워드들이 오디오 신호로부터 인식되었는지 여부, 인식된 워드들에서 확신 (예를 들어, 스피치 인식 모듈에 의해 인식된 워드가 얼마나 정확한지), 태스크 및/또는 응답이 오디오 신호에 대하여 개시되었는지 여부 (예를 들어, 노래 플레이하기, 캘런더 이벤트 추가하기, 등), 웨이크-워드가 오디오 신호에서 감지되었는지 여부, 웨이크-워드 인식의 확신정도, 등등을 나타내는 정보를 포함할 수 있다. 빔 선택기 모듈 (312)은 순위 매김 하기 위해서 및/또는 빔성형된 오디오 신호를 선택하기 위해서 피드백을 활용할 수 있다. 예를 들어, 감지된 웨이크-워드를 갖는 빔성형된 오디오 신호는 감지되고 식별된 웨이크-워드를 갖는 빔성형된 오디오 신호 아래에 랭크될 수 있다. 유사하게, 스피치 인식 모듈을 통하여 높은 확신정도 인식 감지로 귀결되는 데이터를 제공한 빔성형된 오디오 신호는 더 낮은 확신정도 인식으로 귀결되는 데이터를 제공한 빔성형된 오디오 신호 보다 더 높게 랭크될 수 있다.

많은 동작들이 음성-인에이블 디바이스 (104)에 의해 수행되는 것으로 본 출원에서 설명되었지만, 이들 동작들 중 임의의 동작은 다른 디바이스들, 예컨대 임의의 서비스 제공자 (102)에 의해 수행될 수 있다. 이와 같이, 서비스 제공자 (102)는 임의의 모듈들 (310, 312, 및/또는 314)을 포함할 수 있다. 예를 들어, 서비스 제공자 (102)는 음성-인에이블 디바이스 (104)로부터 빔성형된 오디오 신호들을 수신할 수 있고 그리고 각각의 빔성형된 오디오 신호에 대하여 오디오 신호 메트릭 값을 결정할 수 있다. 더욱이, 다양한 동작들이 모듈들에 의해 수행되는 것으로 설명되지만, 본 출원에서 설명된, 임의의 이들 동작들, 및/또는 다른 기술들은 하나 이상의 하드웨어 로직 컴포넌트들, 예컨대 필드-프로그램 가능한 게이트 어레이들 (FPGA들), 애플리케이션-특정 집적 회로들 (ASIC들), 시스템-온-칩 시스템들 (SOC(System-on-a-chip)들), 합성 프로그램 가능한 로직 디바이스들 (CPLD(Complex Programmable Logic Device)들), 등으로 구현될 수 있다.

메모리 (204 및/또는 304) (뿐만 아니라 본 출원에서 설명된 모든 다른 메모리)는 컴퓨터-판독가능한 매체들 (예를 들어, 스토리지 매체) 중 하나 또는 조합을 포함할 수 있다. 컴퓨터-판독 가능 매체는 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비-휘발성, 및 착탈 가능한 및 착탈 가능하지 않은 매체를 포함한다. 컴퓨터-판독가능한 매체들은 상 변화 메모리 (PRAM), 정적 랜덤-액세스 메모리 (SRAM), 동적 랜덤-액세스 메모리 (DRAM), 다른 유형들의 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 전기 소거형 프로그램 가능한 판독 전용 메모리 (EEPROM), 플래시 메모리 또는 다른 메모리 기술, 콤팩트 디스크 판독 전용 메모리 (CD-ROM), 디지털 다기능 디스크들 (DVD) 또는 다른 광 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 컴퓨팅 디바이스에 의한 액세스를 위해 정보를 저장하기 위해 사용될 수 있는 임의의 다른 비-일시적 매체를 포함하지만, 거기에 한정되지 않는다. 본 출원에 정의된 대로, 컴퓨터-판독가능한 매체들은 비-일시적 매체 없는 변조된 데이터 신호들 및 반송파(carrier wave)들과 같은 일시적 통신 매체(transitory communication media)를 포함하지 않는다. 이와 같이, 컴퓨터-판독가능한 매체들은 비-일시적 컴퓨터-판독가능한 매체들을 포함한다.

예제 프로세스들(EXAMPLE PRECESSES)

도면들 4 및 5은 본 출원에서 설명된 기술들을 채용하기 위한 예제 프로세스들 (400 및 500)을 예시한다. 예시의 간단함을 위해 프로세스들 (400 및 500)은 도 1의 아키텍처 (100)에서 수행된 대로 설명된다. 예를 들어, 프로세스들 (400 및 500)의 개별 동작들의 하나 이상은 서비스 제공자 (102) 및/또는 임의의 음성-인에이블 디바이스들 (104)에 의해 수행될 수 있다. 그러나, 프로세스들 (400 및 500)은 다른 아키텍처들로 수행될 수 있다. 게다가, 아키텍처 (100)는 다른 프로세스들을 수행하기 위해 사용될 수 있다.

프로세스들 (400 및 500)은 로직 플로우 그래프로서 예시되고, 이들 각각의 동작은 하드웨어, 소프트웨어, 또는 그것의 조합으로 구현될 수 있는 일련의 동작들을 나타낸다. 소프트웨어의 상황하에서, 동작들은 하나 이상의 프로세서들에 의해 실행될 때, 컴퓨팅 디바이스가 나열된 동작들을 수행하도록 하기 위해 하나 이상의 프로세서들을 구성하는 하나 이상의 컴퓨터-판독가능한 스토리지 매체상에 저장된 컴퓨터-실행 가능한 명령들을 나타낸다. 일반적으로, 컴퓨터-실행가능한 명령들은 특정 기능들을 수행하거나 또는 특정 추상 데이터 유형들을 구현하는 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 및 유사한 것들을 포함한다. 설명된 이들 동작들에 순서는 제한적으로 해석되는 것으로 의되되지 않고 임의 개수의 설명된 동작들이 프로세스를 구현하기 위해 임의 순서로 및/또는 병렬로 결합될 수 있다. 더구나, 임의 개수의 동작들은 생략될 수 있다.

도 4 는 다수의 음성-인에이블 디바이스들간에 중재하는 예제 프로세스 (400)를 예시한다.

(402)에서, 다수의 음성-인에이블 디바이스들이 식별될 수 있다. 이것은 단일 발언(utterance)으로부터 실질적으로 동일한 시간에 (서로 임계 시간양내에) 오디오 입력을 수신한 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스를 식별하는 단계 (또는 결정하는 단계)를 포함할 수 있다.

(404)에서, 하나 이상의 오디오 신호 메트릭 값들이 각각의 음성-인에이블 디바이스로부터 수신될 수 있다. 오디오 신호 메트릭 값은 음성-인에이블 디바이스에서 수신된 오디오 입력과 연관된 빔성형된 오디오 신호에 대한 것일 수 있다. 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지), 스펙트럼 플럭스(spectral flux), 특정 백분위 주파수(particular percentile frequency) (예를 들어, 90번째 백분위 주파수), 주기성(periodicity), 선명도(clarity), 조화도(harmonicity), 등등을 포함할 수 있다. 일 예에서, 동작 (404)은 복수의 오디오 신호 메트릭 값들 중에서 최상의 값을 갖는 오디오 신호 메트릭 값을 수신하는 단계를 포함할 수 있고, 여기서 복수의 오디오 신호 메트릭 값들의 각각은 음성-인에이블 디바이스에 의해 결정된 상이한 빔성형된 오디오 신호와 연관된다. 최상의 값을 갖는 오디오 신호 메트릭 값은 가장 높은 (가장 큰) 값을 갖는 오디오 신호일 수 있다. 대안적으로, 최상의 값을 갖는 오디오 신호 메트릭 값은 가장 낮은 (가장 작은) 값을 갖는 오디오 신호일 수 있다. 다른 예에서, 동작 (404)은 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들 중에서 평균 오디오 신호 메트릭 값을 수신하는 단계를 포함할 수 있다. 또 다른 예에서, 동작 (404)은 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들을 수신하는 단계를 포함할 수 있다. 일부 경우들에서, 오디오 신호 메트릭 값은 예컨대 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들 중에서 최상의 값 (가장 높은 값 또는, 일부 경우들에서, 가장 낮은 값)을 갖는 오디오 신호 메트릭 값과 최악의 값 (가장 낮은 값 또는, 일부 경우들에서, 가장 높은 값)을 갖는 오디오 신호 메트릭 값 사이의 차이에 의해 가중될 수 있다.

(406)에서, 다수의 음성-인에이블 디바이스들이 순위 매김(rank)될 수 있다. 동작 (406)은 다수의 음성-인에이블 디바이스들 중 개별 디바이스들에 대한 오디오 신호 메트릭 값들에 기반될 수 있다. 일부 경우들에서, 음성-인에이블 디바이스는 상이한 오디오 신호 메트릭 값들, 순위 매김(ranking)의 상이한 기술들, 등등에 대하여 여러 번 순위 매김 될 수 있다.

(408)에서, 음성-인에이블 디바이스는 선택된 음성-인에이블 디바이스로서 역할을 하도록 선택될 수 있다. 일 예로서, 동작 (408)은 순위 매김의 최상위에 나타난 음성-인에이블 디바이스를 선택할 수 있다. 다른 예로서, 동작 (408)은 순위 매김에서 최상위 N 번의 자리들에서 가장 많이 나오는 음성-인에이블 디바이스를 선택할 수 있고, 여기서 N은 2보다 큰 정수이다.

(410)에서, 선택된 음성-인에이블 디바이스의 오디오 신호가 프로세스되도록 할 수 있다. 일부 경우들에서, 동작 (410)은 선택된 음성-인에이블 디바이스의 오디오 신호를 프로세스하기 위한 명령을 (예를 들어, 음성-인에이블 디바이스가 중재 프로세스를 수행하는 경우에) 서비스 제공자에게 발송하는 단계를 포함한다. 다른 인스턴스들에서, 동작 (410)은 선택된 음성-인에이블 디바이스의 오디오 신호를 프로세싱하는 단계를 포함한다 (예를 들어, 서비스 제공자가 중재 프로세스를 수행하는 경우에).

(412)에서, 태스크(task)는 적어도 부분적으로 프로세스된 오디오 신호에 기초하여 수행될 수 있다. 예를 들어, 태스크는 유저에 의해 요청되는 기능을 수행하는 단계를 포함할 수 있다.

(414)에서, 선택된 음성-인에이블 디바이스는 태스크에 관련된 표시를 출력하도록 될 수 있다. 일부 경우들에서, 동작 (414)은 선택된 음성-인에이블 디바이스에게 명령을 발송하는 단계를 포함한다. 명령은 선택된 음성-인에이블 디바이스가 태스크가 완료되었다는 표시를 출력하는 것을 요청할 수 있다. 다른 인스턴스들에서, 동작 (414)은 표시를 출력하는 단계를 (예를 들어, 스피치 출력을 제공하는 것, 응답을 디스플레이하는 것, 라이트 인에이블링, 등) 포함한다.

도 5 는 음성-인에이블 디바이스들 간에 중재할 것들을 선택하기 위한 최초 프로세싱을 수행하는 예제 프로세스(500)를 예시한다. 일부 경우들에서, 프로세스 (500)는 도 4의 프로세스 (400) 전에 수행될 수 있다. 다른 인스턴스들에서, 프로세스 (500)은 다른 시간들에 수행될 수 있다.

(502)에서, 음성-인에이블 디바이스와 연관된 오디오 신호가 생성된 시간이 결정될 수 있다. 동작 (502)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.

(504)에서, 음성-인에이블 디바이스의 위치가 결정될 수 있다. 동작 (504)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.

(506)에서, 음성-인에이블 디바이스와 연관된 계정(account)이 결정될 수 있다. 예를 들어, 동작 (506)은 음성-인에이블 디바이스가 등록된 유저 계정을 식별할 수 있다. 동작 (506)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.

(508)에서, 제 1 음성-인에이블 디바이스와 연관된 오디오 신호와 제 2 음성-인에이블 디바이스와 연관된 오디오 신호 사이의 유사도(similarity)가 결정될 수 있다.

(510)에서, 음성-인에이블 디바이스와 연관된 오디오 신호에 대한 인식 확신 스코어(recognition confidence score)가 결정될 수 있다. 인식 확신 스코어는 오디오 신호에 대한 워드의 인식에 관련한 확신 레벨을 표시할 수 있다. 동작 (510)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.

(512)에서, 오디오 소스의 위치가 결정될 수 있다. 예를 들어, 소스 위치 표시 알고리즘(source localization algorithm)이 유저가 위치된 곳 (예를 들어, 음성-인에이블 디바이스에 관련하여)을 결정하기 위해 사용될 수 있다. 소스 위치 표시 알고리즘은 SRP PHAT(Steered Response Power with Phase Transform), GCC PHAT(Generalized Crossed Correlation with Phase Transform), MVDR PHAT(Minimum Variance Distortionless Response with Phase Transform), 등등을 포함할 수 있다.

(514)에서, 최초 프로세싱이 수행될 수 있다. 최초 프로세싱은 음성-인에이블 디바이스들 간에 중재할 것들을 선택할 수 있다. 최초 프로세싱은 동작들 (502-512) 중 하나 이상의 결정들에 기반될 수 있다. 예를 들어, 만약 관련된 오디오 신호들이 동시에 또는 서로 임계 시간 양내에 (예를 들어, 서로의 일초내에, 일초의 몇 분의 1 내에, 등) 생성되거나, 디바이스들이 서로 근접도내에 위치되고, 디바이스들이 동일한 계정과 연관되고, 디바이스들로부터 오디오 신호들이 유사도의 임계량을 가지고, 디바이스들로부터 오디오 신호들에 대하여 인식 확신 스코어들이 임계값을 각각 초과하고, 디바이스들이 오디오 소스 (예를 들어, 유저)에 미리 결정된 근접도 내에 위치되면, 등등 다수의 음성-인에이블 디바이스들이 선택될 수 있다.

비록 동작들 (502-512)이 최초 선택 프로세싱을 수행하는 상황으로 설명되었지만, 일부 경우들에서 동작들 (502-512)은 다른 상황들에서 수행될 수 있다. 예를 들어, 동작들 (502-512) 중 하나 이상의 결정들은 프로세스 (400)의 동작 (408)에서 음성-인에이블 디바이스를 선택할 때 보조하기 위해 사용될 수 잇다.

본 개시의 실시예들은 이하의 항목들을 고려하여 설명될 수 있다:

문단 A: 방법은: 컴퓨팅 디바이스에 의해, 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 단계; 상기 컴퓨팅 디바이스에 의해 그리고 상기 제 1 음성-인에이블 디바이스로부터, 제 1 빔성형된 오디오 신호와 관련된 신호대 잡음비를 나타내는 제 1 오디오 신호 메트릭 값을 수신하는 단계로서, 상기 제 1 빔성형된 오디오 신호는 상기 제 1 음성-인에이블 디바이스에서, 상기 제 1 음성-인에이블 디바이스에서 수신된 오디오 입력에 대하여 결정되어졌고, 상기 제 1 빔성형된 오디오 신호는 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되는, 상기 제 1 오디오 신호 메트릭 값을 수신하는 단계; 상기 컴퓨팅 디바이스에 의해 그리고 상기 제 2 음성-인에이블 디바이스로부터, 제 2 빔성형된 오디오 신호와 관련된 신호대 잡음비를 나타내는 제 2 오디오 신호 메트릭 값을 수신하는 단계로서, 상기 제 2 빔성형된 오디오 신호는 상기 제 2 음성-인에이블 디바이스에서, 상기 제 2 음성-인에이블 디바이스에서 수신된 오디오 입력에 대하여 결정되어졌고, 상기 제 2 빔성형된 오디오 신호는 상기 제 2 음성-인에이블 디바이스에 관한 방향에 대하여 결정되는, 상기 제 2 오디오 신호 메트릭 값을 수신하는 단계; 상기 컴퓨팅 디바이스에 의해, 상기 제 1 빔성형된 오디오 신호와 관련된 신호대 잡음비가 상기 제 2 빔성형된 오디오 신호와 관련된 신호대 잡음비보다 더 큰 지를 결정하는 단계; 상기 컴퓨팅 디바이스에 의해, 하나 이상의 스피치 인식 기술들을 이용하여 상기 제 1 빔성형된 오디오 신호를 프로세싱하는 단계; 상기 컴퓨팅 디바이스에 의해, 상기 오디오 입력과 관련된 태스크(task)를 수행하는 단계; 및 상기 컴퓨팅 디바이스에 의해, 명령을 상기 제 1 음성-인에이블 디바이스에 발송하는 단계를 포함하되, 상기 명령은 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청한다.

문단 B: 문단 A의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대하여 가장 큰 신호대 잡음비이고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 상이한 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.

문단 C: 문단 A 또는 B의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대한 평균 신호대 잡음비이고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.

문단 D: 문단 A-C 중 임의의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대하여 가장 높은 값을 갖는 신호대 잡음비와 가장 작은 값을 갖는 신호대 잡음비 간의 차이만큼 가중되고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 상이한 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.

문단 E: 시스템은 : 하나 이상의 프로세서들; 및 상기 하나 이상의 프로세서들에 통신 가능하게 결합되고, 실행가능한 명령들을 저장하는 메모리를 포함하되, 상기 명령들이 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 제 1 오디오 신호와 관련된 제 1 오디오 신호 메트릭 값(metric value)을 식별하는 단계로서, 상기 제 1 오디오 신호는 제 1 음성-인에이블 디바이스와 관련되는, 상기 제 1 오디오 신호 메트릭 값을 식별하는 단계; 제 2 오디오 신호와 관련된 제 2 오디오 신호 메트릭 값을 식별하는 단계로서, 상기 제 2 오디오 신호는 제 2 음성-인에이블 디바이스와 관련되는, 상기 제 2 오디오 신호 메트릭 값을 식별하는 단계; 적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값 및 상기 제 2 오디오 신호 메트릭 값에 기초하여, 상기 제 1 음성-인에이블 디바이스를 선택하는 단계; 및 상기 제 1 오디오 신호를 프로세싱하는 단계를 포함하는 동작들을 수행하게 한다.

문단 F: 문단 E의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 임계 시간량내에 생성되었는지를 결정하는 단계를 더 포함한다.

문단 G: 문단 E 또는 F의 시스템에 있어서, 상기 동작들은 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 서로 미리 결정된 거리내에 위치되는지를 결정하는 단계를 더 포함한다.

문단 H: 문단들 E-G 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 동일한 계정과 관련되는 지를 결정하는 단계를 더 포함한다.

문단 I: 문단들 E-H 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 유사도의 임계량을 갖는지를 결정하는 단계를 더 포함한다.

문단 J: 문단들 E-I 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호에 대한 제 1 인식 확신 스코어(recognition confidence score) 및 상기 제 2 오디오 신호에 대한 제 2 인식 확신 스코어가 각각 임계값을 초과하는지를 결정하는 단계를 더 포함하되, 상기 제 1 인식 확신 스코어는 워드(word)가 상기 제 1 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내고, 상기 제 2 인식 확신 스코어는 상기 워드 또는 상이한 워드가 상기 제 2 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타낸다.

문단 K: 문단들 E-J 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity) 중 하나를 포함한다.

문단 L: 문단들 E-K 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 것이고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련된다.

문단 M: 문단들 E-L 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들에 대한 평균 오디오 신호 메트릭 값을 포함하고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련된다.

문단 N: 문단들 E-M 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값과 가장 작은 값을 갖는 오디오 신호 메트릭 값 간에 차이 만큼 가중(weight)되고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 상기 제 1 오디오 신호 또는 상이한 오디오 신호와 관련된다.

문단 O: 문단들 E-N 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호와 관련된 태스크를 수행하는 단계; 및 명령을 상기 제 1 음성-인에이블 디바이스에 발송하는 단계를 더 포함하되, 상기 명령은 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청한다.

문단 P: 시스템은: 하나 이상의 프로세서들; 및 상기 하나 이상의 프로세서들에 통신 가능하게 결합되고, 실행가능한 명령들을 저장하는 메모리를 포함하되, 상기 명령들이 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 단계; 적어도 부분적으로 상기 제 1 음성-인에이블 디바이스의 제 1 빔성형된(beamformed) 오디오 신호에 대한 제 1 오디오 신호 메트릭 값 및 상기 제 2 음성-인에이블 디바이스의 제 2 빔성형된 오디오 신호에 대한 제 2 오디오 신호 메트릭 값에 기초하여 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스를 순위 매김하는 단계(ranking); 상기 오디오 입력 프로세싱을 진행하기 위해 상기 제 1 음성-인에이블 디바이스를 선택하는 단계; 및 상기 제 1 빔성형된 오디오 신호가 프로세스되게 하는 단계를 포함하는 동작들을 수행하게 한다.

문단 Q: 문단 P의 시스템에 있어서, 상기 시스템은 상기 제 1 음성-인에이블 디바이스를 포함하고, 상기 제 1 음성-인에이블 디바이스는 :복수의 마이크로폰들을 포함하는 마이크로폰 어레이를 더 포함하되, 상기 복수의 마이크로폰들의 각각은 상기 오디오 입력에 대한 입력 신호를 결정하도록 구성되고; 상기 동작들은 : 적어도 부분적으로 상기 복수의 마이크로폰들로부터의 입력 신호들에 기초하여 복수의 빔성형된 오디오 신호들을 결정하는 단계로서, 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되고, 상기 복수의 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하는, 상기 복수의 빔성형된 오디오 신호들을 결정하는 단계; 및 상기 제 1 오디오 신호 메트릭 값을 결정하는 단계를 더 포함한다.

문단 R: 문단들 P 또는 Q의 시스템에 있어서, 상기 동작들은 적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값에 기초하여 상기 복수의 빔성형된 오디오 신호들 중에서 상기 제 1 빔성형된 오디오 신호를 선택하는 단계를 더 포함한다.

문단 S: 문단들 P-R 중 임의의 시스템에 있어서, 상기 동작들은 : 상기 제 1 빔성형된 오디오 신호에 대한 제 3 오디오 신호 메트릭 값을 식별하는 단계;를 더 포함하고,상기 제 1 음성-인에이블 디바이스를 순위 매김하는 단계는 추가로 적어도 부분적으로 상기 제 3 오디오 신호 메트릭 값에 기반된다.

문단 T: 문단들 P-S 중 임의의 시스템에 있어서, 상기 동작들은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 빔성형된 오디오 신호 메트릭 값과 가장 작은 값을 갖는 빔성형된 오디오 신호 메트릭 값 간에 차이를 결정하는 단계로서, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에 의해 결정된 오디오 신호와 관련되는, 상기 차이를 결정하는 단계; 및 적어도 부분적으로 상기 차이에 기초하여, 상기 제 1 오디오 신호 메트릭 값을 가중시켜 가중된 제 1 오디오 신호 메트릭 값을 생성하는 단계;를 더 포함하되, 상기 제 1 음성-인에이블 디바이스를 순위 매김하는 단계는 적어도 부분적으로 상기 가중된 제 1 오디오 신호 메트릭 값에 기반된다.

결론(CONCLUSION)

실시예들이 구조적 특징들 및/또는 방법론 동작들에 대해 특정한 언어로 설명되었지만, 본 개시는 반드시 상술된 특정 특징들 또는 동작들에 제한되지 않는다는 것이 이해될 것이다. 오히려, 특정 특징들 및 동작들은 실시예들을 구현하는 예시적인 형태들로서 본 출원에 개시된다.

Claims

시스템으로서,
하나 이상의 프로세서들; 및
상기 하나 이상의 프로세서들에 통신가능하게 결합되고 실행가능한 명령어들을 저장하는 메모리를 포함하며, 상기 명령어들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금
제 1 오디오 신호와 관련된 제 1 오디오 신호 메트릭 값(metric value)을 식별하는 동작 - 상기 제 1 오디오 신호는 제 1 음성-인에이블 디바이스(voice-enabled device)와 관련됨 -;
제 2 오디오 신호와 관련된 제 2 오디오 신호 메트릭 값을 식별하는 동작 - 상기 제 2 오디오 신호는 제 2 음성-인에이블 디바이스와 관련됨 -;
적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값 및 상기 제 2 오디오 신호 메트릭 값에 기초하여, 상기 제 1 음성-인에이블 디바이스를 선택하는 동작; 및
상기 제 1 오디오 신호를 프로세싱하는 동작
을 포함하는 동작들을 수행하게 하는, 시스템.
제1항에 있어서, 상기 동작들은
상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 임계 시간량(threshold amount of time)내에 생성되었는지를 결정하는 동작을 더 포함하는, 시스템.
제1항 또는 제2항에 있어서, 상기 동작들은
상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 서로 미리 결정된 거리내에 위치되는지를 결정하는 동작을 더 포함하는, 시스템.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 동작들은
상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 동일한 계정과 관련되는지를 결정하는 동작을 더 포함하는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 동작들은
상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 유사도의 임계량을 갖는지를 결정하는 동작을 더 포함하는, 시스템.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 동작들은
상기 제 1 오디오 신호에 대한 제 1 인식 확신 스코어(recognition confidence score) 및 상기 제 2 오디오 신호에 대한 제 2 인식 확신 스코어가 각각 임계값을 초과하는지를 결정하는 동작을 더 포함하며, 상기 제 1 인식 확신 스코어는 워드(word)가 상기 제 1 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내고, 상기 제 2 인식 확신 스코어는 상기 워드 또는 상이한 워드가 상기 제 2 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내는, 시스템.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity) 중 하나를 포함하는, 시스템.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 것이고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련되는, 시스템.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들에 대한 평균 오디오 신호 메트릭 값을 포함하고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련되는, 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값과 가장 작은 값을 갖는 오디오 신호 메트릭 값 간에 차이 만큼 가중(weight)되고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 상기 제 1 오디오 신호 또는 상이한 오디오 신호와 관련되는, 시스템.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 동작들은
상기 제 1 오디오 신호와 관련된 태스크를 프로세싱하는 동작; 및
명령어를 상기 제 1 음성-인에이블 디바이스에 전송하는 동작을 더 포함하며, 상기 명령어는 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청하는, 시스템.
시스템으로서,
하나 이상의 프로세서들; 및
상기 하나 이상의 프로세서들에 통신가능하게 결합되고 실행가능한 명령어들을 저장하는 메모리를 포함하며, 상기 명령어들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금
제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 동작;
적어도 부분적으로 상기 제 1 음성-인에이블 디바이스의 제 1 빔성형된(beamformed) 오디오 신호에 대한 제 1 오디오 신호 메트릭 값 및 상기 제 2 음성-인에이블 디바이스의 제 2 빔성형된 오디오 신호에 대한 제 2 오디오 신호 메트릭 값에 기초하여 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스를 순위 매김하는 동작(ranking);
상기 오디오 입력의 프로세싱을 진행하기 위해 상기 제 1 음성-인에이블 디바이스를 선택하는 동작; 및
상기 제 1 빔성형된 오디오 신호가 프로세스되게 하는 동작
을 포함하는 동작들을 수행하게 하는, 시스템.
제12항에 있어서, 상기 시스템은 상기 제 1 음성-인에이블 디바이스를 포함하고, 상기 제 1 음성-인에이블 디바이스는 :
복수의 마이크로폰들을 포함하는 마이크로폰 어레이를 더 포함하며, 상기 복수의 마이크로폰들의 각각은 상기 오디오 입력을 위한 입력 신호를 결정하도록 구성되고;
상기 동작들은:
적어도 부분적으로 상기 복수의 마이크로폰들로부터의 입력 신호들에 기초하여 복수의 빔성형된 오디오 신호들을 결정하는 동작 - 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되고, 상기 복수의 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함함 -; 및
상기 제 1 오디오 신호 메트릭 값을 결정하는 동작을 더 포함하는, 시스템.
제13항에 있어서, 상기 동작들은
적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값에 기초하여 상기 복수의 빔성형된 오디오 신호들 중에서 상기 제 1 빔성형된 오디오 신호를 선택하는 동작; 및
상기 제 1 빔성형된 오디오 신호에 대한 제 3 오디오 신호 메트릭 값을 식별하는 동작을 더 포함하고,
상기 제 1 음성-인에이블 디바이스를 순위 매김하는 동작은 추가로 적어도 부분적으로 상기 제 3 오디오 신호 메트릭 값에 기반되는, 시스템.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 동작들은 :
복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 빔성형된 오디오 신호 메트릭 값과 가장 작은 값을 갖는 빔성형된 오디오 신호 메트릭 값 간에 차이를 결정하는 동작 - 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에 의해 결정된 오디오 신호와 관련됨 -; 및
적어도 부분적으로 상기 차이에 기초하여, 상기 제 1 오디오 신호 메트릭 값을 가중시켜 가중된 제 1 오디오 신호 메트릭 값을 생성하는 동작을 더 포함하며,
상기 제 1 음성-인에이블 디바이스를 순위 매김하는 동작은 적어도 부분적으로 상기 가중된 제 1 오디오 신호 메트릭 값에 기반되는, 시스템.