KR20180039135A - 음성-인에이블 디바이스들 간 중재 - Google Patents

음성-인에이블 디바이스들 간 중재 Download PDF

Info

Publication number
KR20180039135A
KR20180039135A KR1020187006764A KR20187006764A KR20180039135A KR 20180039135 A KR20180039135 A KR 20180039135A KR 1020187006764 A KR1020187006764 A KR 1020187006764A KR 20187006764 A KR20187006764 A KR 20187006764A KR 20180039135 A KR20180039135 A KR 20180039135A
Authority
KR
South Korea
Prior art keywords
audio signal
voice
enabled device
audio
metric value
Prior art date
Application number
KR1020187006764A
Other languages
English (en)
Other versions
KR102089485B1 (ko
Inventor
라미아 고팔란
시바 쿠마르 순다람
Original Assignee
아마존 테크놀로지스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아마존 테크놀로지스, 인크. filed Critical 아마존 테크놀로지스, 인크.
Publication of KR20180039135A publication Critical patent/KR20180039135A/ko
Application granted granted Critical
Publication of KR102089485B1 publication Critical patent/KR102089485B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택하기 위한 아키텍처들 및 기술들이 본 출원에 설명된다. 일부 경우들에서, 음성-인에이블 디바이스들이 유저에 대하여 근접도내에 위치하고 있기 때문에 다수의 음성-인에이블 디바이스들은 실질적으로 동일한 시간에 유저로부터의 오디오 입력을 검출할 수 있다. 아키텍처들 및 기술들은 오디오 입력을 핸들링하기 위한 음성-인에이블 디바이스를 지정하기 위해 음성-인에이블 디바이스들에 대한 여러 가지 오디오 신호 메트릭 값들을 분석할 수 있다.

Description

음성-인에이블 디바이스들 간 중재
관련 출원
본 출원은 2015년 9월 11일에 출원된 U.S. 특허 출원번호 14/852,022에 대한 우선권 이익을 주장하고, 이의 전체 내용들은 참조로서 본 출원에 통합된다.
유저들은 태스크(task)들을 수행하기 위해 음성-인에이블 디바이스(voice-enabled device)들을 점점 더 채용하고 있다. 많은 경우에, 유저는 다수의 음성-인에이블 디바이스들에 대한 근접도(proximity)내에 위치되는 동안에 스피치 입력을 제공할 수 있다. 스피치 입력은 태스크가 수행되는 것을 요청할 수 있다. 음성-인에이블 디바이스들의 각각은 스피치 입력을 검출할 수 있고 유저를 위해 태스크를 수행하기 위해 스피치 입력을 프로세스할 수 있다. 이것은 유저를 위하여 여러번 수행되는 동일한 태스크로 귀결될 수 있다. 더구나, 일부 인스턴스에서, 음성-인에이블 디바이스들 각각은 태스크가 수행되어진 것을 유저에게 알리고, 추가 정보, 등등을 요청하기 위해 응답할 수 있다. 이것은 궁극적으로 바람직하지 않은 유저 경험을 생성한다.
상세한 설명이 첨부 도면들을 참고로 하여 개시된다. 도면들에서, 도면 번호의 가장 왼쪽의 숫자(들)은 도면 번호가 처음 등장하는 도면을 식별한다. 상이한 도면들에서 동일한 도면 번호들의 사용은 유사하거나 또는 동일한 아이템들 또는 피처들을 표시한다.
도 1 은 본 출원에서 설명된 기술들이 구현될 수 있는 예제 아키텍처를 예시한다.
도 2 는 서비스 제공자의 예제 컴포넌트들을 예시한다.
도 3은 음성-인에이블 디바이스의 예제 컴포넌트들을 예시한다.
도 4 는 다수의 음성-인에이블 디바이스들간에 중재하는 예제 프로세스를 예시한다.
도 5 는 음성-인에이블 디바이스들 간에 중재할 것들을 선택하기 위한 최초 프로세싱을 수행하는 예제 프로세스를 예시한다.
본 개시는 다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택하기 위한 아키텍처들 및 기술들을 설명한다. 일부 경우들에서, 다수의 음성-인에이블 디바이스들은 음성-인에이블 디바이스들 각각은 유저에 대하여 근접도내에 위치하고 있기 때문에 실질적으로 동일한 시간에 유저로부터의 오디오 입력을 검출할 수 있다. 아키텍처들 및 기술들은 오디오 입력 프로세싱을 핸들링하기 위한 음성-인에이블 디바이스를 지정하기 위해 음성-인에이블 디바이스들에 대한 여러 가지 오디오 신호 메트릭 값들을 분석할 수 있다. 이것은 중복(duplicate) 입력 프로세싱을 회피함으로써 유저 경험을 증강시킬 수 있다. 더구나, 이것은 최상의 오디오 신호가 프로세스 되는 것을 허용할 수 있다.
일부 구현예들에서, 서비스 제공자(service provider)는 오디오 입력을 검출하는 다수의 음성-인에이블 디바이스들을 식별할 수 있다. 음성-인에이블 디바이스들은 서로 근접도내에 위치될 수 있어서, 실질적으로 동일한 시간에 오디오 입력을 검출할 수 있다. 일부 경우들에서, 음성-인에이블 디바이스들의 일부 또는 전부는 복수의 오디오 신호들 (예를 들어, 상이한 룩 방향(look direction)들과 관련된 빔성형된(beamformed) 오디오 신호들)을 결정하기 위한 입력 신호들을 제공하는 센서 어레이들 (예를 들어, 마이크로폰 어레이들) 을 포함한다. 서비스 제공자는 음성-인에이블 디바이스들로부터 수신된 오디오 신호 메트릭 값들에 기초하여 오디오 입력을 핸들링 할 하나 이상의 음성-인에이블 디바이스들을 선택할 수 있다. 예를 들어, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 오디오 신호에 대하여 서비스 제공자에게 적어도 하나의 오디오 신호 메트릭 값을 제공할 수 있다.
오디오 신호 메트릭 값(metric value)은 오디오 신호의 특성을 표시할 수 있다. 예를 들어, 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity), 등등을 포함할 수 있다. 오디오 신호 메트릭 값은 하나의 오디오 신호에 특정될 수 있거나 또는 다수의 오디오 신호들에 적용 가능할 수 있다. 일 예로서, 음성-인에이블 디바이스는 다수의 빔성형된 오디오 신호들을 결정할 수 있고 가장 높은 값을 갖는 오디오 신호 메트릭 값과 관련된 빔성형된 오디오 신호를 선택할 수 있다. 여기서, 음성-인에이블 디바이스는 선택된 빔성형된 오디오 신호의 오디오 신호 메트릭 값을 서비스 제공자에게 발송하여 서비스 제공자가 오디오 입력의 프로세싱을 핸들링 할 음성-인에이블 디바이스를 선택하는 것을 가능하게 할 수 있다. 다른 예로서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 각각의 빔성형된 오디오 신호에 대한 오디오 신호 메트릭 값들을 발송할 수 있다. 또 다른 추가 예로서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에서 결정된 빔성형된 오디오 신호들에 대한 평균 오디오 신호 메트릭 값을 발송할 수 있다. 다른 예들에서, 음성-인에이블 디바이스는 다른 유형들의 오디오 신호 메트릭 값들 (예를 들어, 가중된(weighted) 오디오 신호 메트릭 값들, 등)을 발송할 수 있다.
임의의 이벤트에서, 서비스 제공자는 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들에 순위를 매길 수 있다(rank). 예를 들어, 제 1 음성-인에이블 디바이스는 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호에 대한 신호대 잡음비가 제 2 음성-인에이블 디바이스에서 결정된 오디오 신호에 대한 신호대 잡음비 보다 더 높으면 (더 크면) 제 2 음성-인에이블 디바이스보다 더 높게 순위가 매겨질 수 있다. 랭크에 기초하여, 서비스 제공자는 오디오 입력의 프로세싱을 핸들링 할 음성-인에이블 디바이스를 선택할 수 있다. 예를 들어, 서비스 제공자는 가장 높은 (가장 큰) 값인 오디오 신호 메트릭 값과 연관된 음성-인에이블 디바이스를 선택할 수 있다. 서비스 제공자는 선택된 음성-인에이블 디바이스로부터의 오디오 신호를 프로세스 할 수 있고 선택되지 않은 음성-인에이블 디바이스로부터의 오디오 신호를 무시할 수 있다. 예시하기 위해서, 만약 날씨 정보에 대한 유저 요청이 다수의 음성-인에이블 디바이스들에 의해 검출되고, 서비스 제공자가 특정 음성-인에이블 디바이스를 선택하면, 서비스 제공자는 선택된 음성-인에이블 디바이스로부터의 오디오 신호에 스피치 인식 기술(speech recognition technique)들을 수행할 수 있고 날씨 정보를 포함하는 응답이 선택된 음성-인에이블 디바이스를 통하여 제공되게 할 수 있다. 선택되지 않은 디바이스로부터의 임의의 오디오 신호들은 추가로 프로세스되지 않을 수 있다.
이 논의가 강조하는 것처럼, 본 출원에서 설명된 아키텍처들 및 기술들은 유저를 둘러쌀 수 있는 다수의 음성-인에이블 디바이스들로 유저 경험을 증강시킬 수 있다. 예를 들어, 다수의 음성-인에이블 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스를 선택함으로써, 아키텍처들 및 기술들은 스피치 프로세싱 및/또는 응답 형성의 중복을 회피할 수 있다. 더구나, 스피치 프로세싱 및/또는 응답 형성의 중복을 회피함으로써, 아키텍처들 및 기술들은 프로세싱 및/또는 많은 통신의 양을 줄일 수 있다 (예를 들어, 입력을 프로세스하고 및/또는 응답들을 제공하기 위한 음성-인에이블 디바이스들과의 통신을 줄인다). 추가하여, 많은 경우에, 아키텍처들 및 기술들은 최상 오디오 신호 (예를 들어, 최상 품질 신호)와 연관된 음성-인에이블 디바이스를 선택할 수 있다.
비록 많은 인스턴스들에서 음성-인에이블 디바이스를 선택하기 위한 기술들이 서비스 제공자에 의해 수행되는 것으로 논의되지만, 기술들은 추가적으로, 또는 대안적으로, 음성-인에이블 디바이스 및/또는 다른 컴퓨팅 디바이스 (예를 들어, 랩탑 컴퓨터, 스마트 폰, 제 3 자 서비스, 등)에 의해 수행될 수 있다.
이 간단한 도입은 독자의 편의를 위해 제공되고 청구항들, 또는 이하의 섹션들의 범위를 제한하는 것으로 의도되지 않는다. 더욱이, 아래에 상세하게 설명되는 기술들은 많은 방식들로 및 많은 환경들에서 구현될 수 있다. 예제 구현예들 및 환경들은 아래에 보다 상세하게 설명되는 것 처럼 이하의 도면들을 참고로 하여 제공된다. 그러나, 이하의 구현예들 및 환경들은 단지 많은 것 중에서 일부일 뿐이다.
예제 아키텍처(EXAMPLE ARCHITECTURE)
도 1 은 본 출원에서 설명된 기술들이 구현될 수 있는 예제 아키텍처(100)를 예시한다. 아키텍처 (100)는 다양한 프로세싱을 가능하게 하는 복수의 음성-인에이블 디바이스들 (104(1)-(N)) (총괄하여 “음성-인에이블 디바이스들 (104)”)과 통신하도록 구성된 서비스 제공자 (102)를 포함한다. 예를 들어, 서비스 제공자 (102)는 하나 이상의 유저들 (106) (이하에서 “유저 (106)”)에 의해 제공되는 오디오 입력을 위해 음성-인에이블 디바이스들 (104)로부터 오디오 신호들을 수신할 수 있다. 서비스 제공자 (102)는 유저 (106)를 위한 태스크들을 수행하고, 유저 (106)에 대한 응답들을 공식화(formulate), 등등을 위해 오디오 신호들을 프로세스 할 수 있다. 일부 경우들에서, 서비스 제공자 (102)는 음성-인에이블 디바이스들 (104) 중 몇몇의 디바이스들에 의해 몇몇의 디바이스들에 의해 검출된 오디오 입력을 핸들링하기 위해 음성-인에이블 디바이스들 (104) 중 하나를 선택할 수 있다. 추가적으로, 또는 대안적으로, 일부 경우들에서 서비스 제공자 (102)는 오디오 출력을 핸들링하기 위해 음성-인에이블 디바이스들 (104) 중 동일하거나 상이한 음성-인에이블 디바이스를 선택할 수 있다. 서비스 제공자 (102) 및 음성-인에이블 디바이스들 (104)은 하나 이상의 네트워크들 (108)를 통하여 통신할 수 있다. 하나 이상의 네트워크들 (108)은 다수의 상이한 유형들의 네트워크들, 예컨대 셀룰러 네트워크들, 무선 네트워크들, 로컬 영역 네트워크들 (LAN들), 와이드 영역 네트워크들 (WAN들), 퍼스널 영역 네트워크들 (PAN들), 인터넷, 등등 중 임의의 하나 또는 조합을 포함할 수 있다. 비록 도 1에 예시되지 않았지만, 각각의 음성-인에이블 디바이스들 (104)은 무선 액세스 포인트(access point), 예컨대 무선 라우터, 셀 타워(cell tower), 등등에 연결될 수 있다. 예를 들어, 각각의 음성-인에이블 디바이스들 (104)은 유저 (106)의 체류 지점(residence)내에 위치된 무선 라우터에 무선으로 연결될 수 있다. 대안적으로, 또는 추가적으로, 음성-인에이블 디바이스들 (104)은 유선 연결을 통하여 서로 연결될 수 있다.
서비스 제공자 (102)는 하나 이상의 서버들, 데스크탑 컴퓨터들, 랩탑 컴퓨터들, 또는 유사한 것을 포함하는 하나 이상의 컴퓨팅 디바이스들로 구현될 수 있다. 일 예에서, 서비스 제공자 (102)는 서버 클러스터, 서버 팜(server farm), 데이터센터, 메인프레임, 클라우드 컴퓨팅 환경, 또는 그것의 조합으로 구성된다. 예시하기 위해서, 서비스 제공자 (102)는 서비스들, 예컨대 스토리지, 컴퓨팅, 네트워킹, 등등을 제공하는 분산 컴퓨팅 자원 (예를 들어, 클라우드 컴퓨팅, 호스트되는 컴퓨팅, 등)으로 동작하는 임의 개수의 디바이스들을 포함할 수 있다.
서비스 제공자 (102)는 유저 (106)와 상호 작용하는데 음성-인에이블 디바이스들 (104)를 보조하기 위해 여러 가지 동작들을 수행할 수 있다. 서비스 제공자 (102)는 전반적으로 음성-인에이블 디바이스들 (104)로부터 오디오 신호들 및 다른 정보를 수신할 수 있고, 오디오 신호들 및/또는 다른 정보를 프로세스 할 수 있고 (예를 들어, 스피치 인식, NPL(Natural Language Processing), 등을 이용하여), 프로세스된 오디오 신호들에 기초하여 태스크들을 수행할 수 있고, 음성-인에이블 디바이스들 (104)에 대한 응답들을 공식화할 수 있고, 등등을 할 수 있다 . 예를 들어, 만약 유저 (106) “Tom Petty를 플레이”할 것을 음성-인에이블 디바이스 (104)(N)에게 요청하면, 서비스 제공자 (102)는 음성-인에이블 디바이스 (104)(N)로부터 오디오 신호를 프로세스 할 수 있고 유저 요청을 이해한 것에 기초하여, Tom Petty에 노래를 플레이 할 것을 음성-인에이블 디바이스 (104)(N)에게 지시할 수 있다.
일부 경우들에서, 서비스 제공자(102)는 동일한 오디오 소스로부터 오디오 입력을 검출하는 다수의 음성-인에이블 디바이스들 간을 중재(arbitrate)할 수 있다. 그렇게 하기 위해서, 서비스 제공자(102)는 음성-인에이블 디바이스에서 결정된 오디오 신호들에 대한 오디오 신호 메트릭 값들을 분석할 수 있다. 일 예로서, 음성-인에이블 디바이스 (104)(1)가 복도에 캐비닛 위에 위치되고 및 음성-인에이블 디바이스 (104)(N)가 복도에 연결된 부엌에 테이블 위에 위치된다고 가정한다. 또한 유저가 부엌으로 복도를 이동하면서 유저 (106)가 “날씨 어때?”라고 말하고 그리고 각각의 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)이 스피치 입력을 검출한다고 가정한다. 여기서, 각각의 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)는 개별 음성-인에이블 디바이스에서 결정된 오디오 신호 및/또는 오디오 신호에 대한 오디오 신호 메트릭 값을 발송함으로써 스피치 입력을 프로세스하기 위해 서비스 제공자 (102)와 통신을 개시할 수 있다. 각각의 오디오 신호 메트릭 값은 일반적으로 관련된 오디오 신호의 특성(characteristic)을 표시할 수 있다. 도 1에 예시된 바와 같이, 음성-인에이블 디바이스 (104)(1)는 하나 이상의 오디오 신호 메트릭 값들 (110)(1)을 서비스 제공자 (102)에게 발송할 수 있고, 한편 음성-인에이블 디바이스 (104)(N)는 하나 이상의 오디오 신호 메트릭 값들 (110)(M)을 발송할 수 있다. 서비스 제공자 (102)는 도 1에 (112)에 예시된 바와 같이 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들 (104)(1) 및 (104)(N)에 순위를 매길 수 있다. 서비스 제공자 (102)는 순위를 매김으로써 음성-인에이블 디바이스를 (예를 들어, 최상위 랭크된 디바이스) 선택할 수 있다. 서비스 제공자(102)는 그런 다음 선택된 음성-인에이블 디바이스로부터의 오디오 신호를 프로세스를 할 수 있고, 유저 (106)를 위한 태스크를 수행할 수 있다. 이 예에서, 유저 (106)는 날씨 정보를 물었고, 그렇게, 서비스 제공자 (102)는 말하는 오디오 “현재 Seattle은 85 도이다”라고 출력되도록 음성-인에이블 디바이스 (104)(1)에게 날씨 정보를 제공한다. 한편, 서비스 제공자 (102)는 선택되지 않은 디바이스, 음성-인에이블 디바이스 (104)(N)으로부터의 오디오 신호를 무시할 수 있다(또는 프로세싱을 거절).
음성-인에이블 디바이스들 (104)의 각각은 컴퓨팅 디바이스, 예컨대 랩탑 컴퓨터, 데스크탑 컴퓨터, 서버, 스마트 폰, 전자 리더기 디바이스, 모바일 핸드셋, 개인 디지털 보조장치 (PDA), 휴대용 네비게이션 디바이스, 휴대용 게이밍 디바이스, 태블릿 컴퓨터, 시계, 휴대용 미디어 플레이어, 착용가능한 컴퓨팅 디바이스 (예를 들어, 시계, 광 헤드-마운트 디스플레이 (OHMD : optical head-mounted display), 등), 텔레비전, 컴퓨터 모니터 또는 디스플레이, 셋-탑 박스, 차량내 컴퓨터 시스템, 기기, 카메라, 로봇, 홀로그램 시스템, 보안 시스템, 서모스탯(thermostat), 연기 검출기, 인터콤(intercom), 홈 미디어 시스템, 조명 시스템, 가열, 환기 및 에어컨 (HVAC) 시스템, 홈 자동화 시스템, 프로젝터, 현금 자동 입출금기 (ATM : automated teller machine), 음성 명령어 디바이스 (VCD : voice command device), 등등으로 구현될 수 있다. 일부 경우들에서, 컴퓨팅 디바이스는 모바일 디바이스를 포함할 수 있고, 한편 다른 인스턴스들에서 컴퓨팅 디바이스는 정지상태(stationary) 디바이스일 수 있다. 비록 음성-인에이블 디바이스들 (104)은 동일한 유형의 디바이스로서 도 1에 예시되지만, 각각의 음성-인에이블 디바이스들 (104)은 임의 개수의 컴포넌트들로 구성된 임의의 유형의 디바이스일 수 있다.
도 1의 예제 아키텍처 (100)에서, 디바이스 중재 기술(device arbitration technique)들은 서비스 제공자 (102)에 의해 수행되는 것으로 논의된다. 그러나, 다른 인스턴스들에서 기술들은 다른 디바이스들, 예컨대 음성-인에이블 디바이스들 (104) 중 하나에 의해 수행될 수 있다. 예시하기 위해서, 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스들 (104)(1) 및 (104)(N) 둘 모두가 동일한 오디오 소스로부터 오디오 입력을 검출한 때 오디오 입력을 핸들링하는 특정 디바이스를 선택하기 위한 중재자(arbitrator)로서 지정될 수 있다. 여기서, 음성-인에이블 디바이스 (104)(1)는 오디오 신호들 및/또는 오디오 신호 메트릭 값들을 수신하기 위해서 음성-인에이블 디바이스 (104)(N) (예를 들어, 무선 또는 유선 연결을 통하여)와 통신할 수 있다. 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스들 (104) 중 하나를 선택하기 위해 서비스 제공자 (102)와 관련하여 상기에서 논의된 중재 기술들을 수행할 수 있다. 일부 경우들에서, 음성-인에이블 디바이스 (104)(1)는 음성-인에이블 디바이스 (104)(N)를 위한 릴레이(relay) 또는 백홀(backhaul) 연결로서 로서 역할을 할 수 있다(예를 들어, 음성-인에이블 디바이스 (104)(N)를 대신하여 서비스 제공자 (102)와 통신). 한편 다른 인스턴스들에서, 음성-인에이블 디바이스 (104)(N)는 음성-인에이블 디바이스 (104)(1)를 통하여 통신하지 않을 수 있다.
예제 서비스 제공자(EXAMPLE SERVICE PROVIDER)
도 2 는 도 1의 서비스 제공자(102)의 예제 컴포넌트들을 예시한다. 상기에서 논의된 바와 같이, 서비스 제공자 (102)는 하나 이상의 컴퓨팅 디바이스들로 구현될 수 있다. 하나 이상의 컴퓨팅 디바이스들은 하나 이상의 프로세서들 (202), 메모리 (204), 및 하나 이상의 네트워크 인터페이스들 (206)이 구비될 수 있다. 하나 이상의 프로세서들 (202)은 중앙 프로세싱 유닛 (CPU), 그래픽스 프로세싱 유닛 (GPU), 마이크로프로세서, 디지털 신호 프로세서, 등등을 포함할 수 있다.
메모리 (204)는 하나 이상의 “모듈들(module)”로서 구성된 소프트웨어 및/또는 펌웨어 기능을 포함할 수 있다. 용어 “모듈”은 논의의 목적들을 위하여 소프트웨어 및/또는 펌웨어의 예시 분할들을 표현하도록 의도되고, 임의의 유형의 요건 또는 요구된 방법, 방식 또는 필요한 구조를 표현하도록 의도되지 않는다. 따라서, 다양한 “모듈들”이 논의되지만, 그것들의 기능 및/또는 유사한 기능은 상이하게 배열될 수 있다 (예를 들어, 더 작은 수의 모듈들로 결합되고, 더 큰 수의 모듈들로 쪼개지고, 등). 도 2에 예시된 바와 같이, 메모리 (204)는 웨이크-워드(wake-word) 모듈 (208), 스피치 인식 모듈 (210), 태스크 모듈 (212), 및 중재 모듈 (214)을 포함할 수 있다. 모듈들 (208, 210, 212, 및/또는 214)은 다양한 동작들을 수행하기 위해 하나 이상의 프로세서들 (202)에 의해 실행 가능할 수 있다.
웨이크-워드 모듈 (208)은 오디오 신호들에서 특정 워드들 또는 어구들을 감지하도록 구성될 수 있다 (예를 들어, 컴퓨팅 디바이스와 상호작용 개시하도록 말하여진 “웨이크(wake)” 워드들 또는 다른 키워드들 또는 어구들). 예를 들어, 웨이크-워드 모듈 (208)은 시스템을 트리거 (예를 들어, 웨이크/활성화(activate))할 수신된 오디오 신호내 잠재적인 키 워드들을 식별할 수 있다. 웨이크-워드 모듈 (208)은 빔성형된 오디오 신호의 부분이 감지될 워드 또는 어구들에 대응하는 정보를 수용할 것 같은지 여부를 결정하기 위한 하나 이상의 빔성형된 오디오 신호들을 수신할 수 있다. 오디오 신호 데이터 저장소 (216)는 음성-인에이블 디바이스들 (104)로부터 수신된 하나 이상의 오디오 신호들을 저장할 수 있다. 일단 잠재적인 웨이크-워드가 감지된 후에, 빔성형된 오디오 신호는 어떤 워드들 또는 어구들이 존재하는 지를 결정하기 위해 스피치 인식 모듈 (210)로 전달될 수 있다.
웨이크-워드 모듈 (208)은 웨이크-워드가 감지되었는지 여부를 나타내는 웨이크-워드 결과를 제공할 수 있다. 웨이크-워드 감지에 대한 실패는 예를 들어, 에러 때문일 수 있거나 또는 어떠한 웨이크-워드도 감지되지 않았기 때문일 수 있다. 웨이크-워드가 감지된 일부 구현예들에서, 웨이크-워드 결과는 잠재적인 웨이크-워드를 또한 포함할 수 있다. 추가적으로, 또는 대안적으로, 웨이크-워드 결과는 웨이크-워드 인식의 확신을 나타내는 인식 확신 스코어(recognition confidence score)를 포함할 수 있다. 인식은 예측이기 때문에, 인식 확신 스코어는 인식 예측에서의 확신의 정도를 표시할 수 있다. 일부 경우들에서, 웨이크-워드 결과는 다른 컴포넌트에, 예컨대 서비스 제공자 (102)의 다른 모듈에 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈에 (예를 들어, 빔 선택 동안에 사용될 빔 선택기 모듈) (예를 들어, 피드백으로서) 제공될 수 있다. 더구나, 일부 경우들에서 서비스 제공자 (102) (예를 들어, 스피치 인식 모듈 (210))의 다른 모듈 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈로부터의 출력이 웨이크-워드의 감지를 보조하기 위해 웨이크-워드 모듈 (208)에 제공될 수 있다.
일부 경우들에서, 음성-인에이블 디바이스들 (104)은 연속적으로 웨이크-워드들을 감지하기 위해 스피치를 연속적으로 주의 깊게 들을 수 있다. 여기서, 음성-인에이블 디바이스들 (104)은 웨이크-워드들을 식별하기 위해 서비스 제공자 (102)에게 빔성형된 오디오 신호들을 연속적으로 제공할 수 있다. 웨이크-워드 감지시에, 추가 프로세싱이 수행될 수 있다. 다른 인스턴스들에서, 웨이크-워드 모듈 (208)은 음성-인에이블 디바이스들 (104) 중 하나상에서 로컬에서 구현될 수 있다. 여기서, 음성-인에이블 디바이스들 (104) 중 하나는 웨이크-워드들을 감지하기 위해 스피치를 주의 깊게 들을 수 있고 웨이크-워드의 감지시에 서비스 제공자 (102)에게 프로세싱을 전달할 수 있다 (예를 들어, 스피치 인식 모듈 (210)에게 프로세싱을 전달).
스피치 인식 모듈 (210)은 오디오 신호들상에 다양한 스피치 인식 기술들 (때때로 자동 스피치 인식 (ASR : Automatic Speech Recognition)으로 지칭된다)을 수행할 수 있다. 스피치 인식 모듈 (210)은 오디오 신호에 워드들의 인식에 관련한 트랜스크립트(transcript) 또는 다른 출력을 제공할 수 있다. 스피치 인식 모듈 (210)은 오디오 신호가 스피치 인식을 위하여 수락되었는지 여부, 워드가 오디오 신호로부터 인식되었는지 여부, 인식된 워드내 확신 (예를 들어, 인식 워드의 확신을 나타내는 인식 확신 스코어), 등등을 나타내는 결과를 제공할 수 있다. 일 예에서, 인식 확신 스코어는 워드가 정확하게 감지되는지의 확신의 레벨을 표시할 수 있다. 일부 경우들에서, 결과는 서비스 제공자 (102)의 다른 모듈에 및/또는 음성-인에이블 디바이스들 (104) 중 하나의 모듈에 (예를 들어, 빔 선택 동안에 사용될 빔 선택기 모듈) (예를 들어, 피드백으로서) 제공될 수 있다. 만약 워드가 스피치 인식 모듈 (210)에 의해 검출되면, 트랜스크립트 (및/또는 오디오 신호)는 태스크 모듈 (212)에 전달될 수 있다.
태스크 모듈 (212)는 입력을 해석 및/또는 태스크를 수행하기 위해 스피치 인식 모듈 (210) (및/또는 다른 모듈들)로부터의 정보를 분석하도록 구성될 수 있다. 일부 경우들에서, 태스크 모듈 (212)은 트랜스크립트 (예를 들어, 텍스트)의 의미를 결정하기 위해 NLP(Natural Language Processing) 기술들을 사용한다. 의미에 기초하여, 태스크 모듈 (212)은 수행될 태스크 및/또는 제공될 응답을 식별할 수 있다. 예를 들어, 음성-인에이블 디바이스에서 수신된 요청 “더 많은 배터리들에 대한 주문을 해 주세요” 에 응답하여, 태스크 모듈 (212)은 e-커머스(commerce) 사이트를 통하여 배터리들을 주문하는 태스크를 수행할 수 있고 그런 다음 배터리들이 주문되었는지 표시를 제공하기 위해 음성-인에이블 디바이스에 명령을 발송할 수 있다(예를 들어, “오케이, 더 많은 배터리들에 대한 주문을 하였습니다”의 오디오 출력). 다른 예들에서, 다른 유형들의 태스크들이 예컨대 캘런더 약속(calendar appointment) 잡기, 전화 통화 신청, 날씨 정보 제공, 음악 플레이, 등등이 수행될 수 있다. 더구나, 태스크가 수행된 것을 표시하기 위해 빛을 작동시키는 것, 특정 가청 사운드 (예를 들어, 비프(beep))를 제공하는 것, 등등과 같은 다른 유형들의 응답들이 제공될 수 있다.
중재 모듈 (214)은 입력 및/또는 출력을 핸들링 할 음성-인에이블 디바이스를 선택하도록 구성될 수 있다. 상기에서 언급한 바와 같이, 일부 경우들에서 다수의 음성-인에이블 디바이스들은 유저로부터의 동일한 발언(utterance)를 감지할 수 있고 (또는 소스로부터 동일한 사운드), 이는 각각의 음성-인에이블 디바이스들이 해당 발언을 핸들링 하려고 시도하는 것으로 귀결될 수 있다. 이런 경우들에서, 서비스 제공자(102)는 유저와의 상호작용을 핸들링 할 최적의 음성-인에이블 디바이스를 선택하기 위해 음성-인에이블 디바이스들간에 중재할 수 있다. 더구나, 이것은 최상의 신호가 프로세스되는 것을 허용할 수 있다 (예를 들어, 발언을 가장 정확하게 표현한 신호).
일부 경우들에서, 음성-인에이블 디바이스를 선택하기 위해, 중재 모듈 (214)은 잠재적으로 선택될 수 있는 음성-인에이블 디바이스들을 식별하는 최초 프로세싱을 수행할 수 있다 (예를 들어, 중재할 음성-인에이블 디바이스들을 식별). 즉, 중재 모듈 (214)은 선택할 음성-인에이블 디바이스들의 그룹을 결정할 수 있다. 예를 들어, 만약 다수의 음성-인에이블 디바이스가 홈(home)에 위치되면, 중재 모듈 (214)은 유저와 상호 작용하는데 잠재적으로 최상일 수 있는 다수의 디바이스들의 서브-셋(sub-set)을 식별하는 최초 프로세싱을 수행할 수 있다. 중재 모듈 (214)은 런타임(runtime)에 (예를 들어, 중재 프로세스가 수행될 때 실시간으로) 및/또는 사전에 최초 프로세싱을 수행할 수 있다.
일 예에서, 최초 프로세싱은 서로에 및/또는 오디오 소스에 미리 결정된 거리/근접도내에 위치된 음성-인에이블 디바이스들을 선택할 수 있다. 예를 들어, 다수의 음성-인에이블 디바이스들은 are 내에 위치된 접근 to 디바이스들에 대한 글로벌 측위 시스템 (GPS : Global Positioning System) 센서들로부터 식별된 위치들에 기초하여 서로에 근접도 내에 위치된다(예를 들어, 동일한 방에, 서로로부터 몇 피트 떨어진)는 것이 결정될 수 있다. 대안적으로, 또는 추가적으로, 디바이스들이 동일한 무선 액세스 포인트에 연결된 것에 기초하여 다수의 음성-인에이블 디바이스들은 서로에 근접도 내에 위치된다는 것이 결정될 수 있다. 여기서, 무선 액세스 포인트는 특정 면적, 예컨대 방, 집, 등에 대한 커버리지(coverage)를 제공할 수 있다. 더구나, 무선 액세스 포인트에 대한 신호 세기에 기초하여 다수의 음성-인에이블 디바이스들은 서로에 근접도 내에 위치된다는 것이 결정될 수 있다. 예시하기 위해서, 만약 무선 액세스 포인트에 음성-인에이블 디바이스의 무선 연결이 세기 임계값 (예를 들어, 상대적으로 강한 신호를 나타내는)을 초과하고 동일한 무선 액세스 포인트에 다른 음성-인에이블 디바이스의 무선 연결이 세기 임계값을 초과하면, 두개의 디바이스들은 서로에 근접도내에 있는 것으로 결정될 수 있다. 미리 결정된 거리/근접도는 관리자, 서비스 제공자 (102), 엔드-유저, 등등에 의해 설정될 수 있다. 미리 결정된 거리/근접도는 유저가 특정 데시벨(decibel) 레벨에서 말할 때 음성-인에이블 디바이스에 의해 청취될 수 있는 임의의 값, 예컨대 평균 거리 (시간에 대하여 결정됨)로 설정될 수 있다.
다른 예에서, 최초 프로세싱은 실질적으로 동일한 시간에 (예를 들어, 시간 윈도우 내에) 오디오 신호들을 결정한 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 만약 디바이스들 각각이 서로의 시간 임계량내에 (예를 들어, 동일한 시간 스팬(span) - 시간 윈도우내에) 오디오 신호를 생성하였다면 두개의 음성-인에이블 디바이스들이 선택될 수 있다. 선택은 오디오 신호들에 대한 시간-스탬프(stamp)들에 기반될 수 있다. 각각의 시간-스탬프는 오디오 신호가 생성되었던 시간을 표시할 수 있다. 만약 오디오 신호들이 서로 가까운 시간에 생성되면, 이것은 예를 들어, 디바이스들이 유저로부터 동일한 발언을 청취한 것을 표시할 수 있다. 임계 시간 량은 관리자, 서비스 제공자 (102), 엔드-유저, 등등에 의해 설정될 수 있다.
또 다른 예에서, 최초 프로세싱은 동일한 유저 계정과 연관된 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 다수의 음성-인에이블 디바이스들은 만약 그것들이 동일한 유저 계정에 예컨대 컨텐츠를 액세스하기 위해 생성된 계정, 음성-인에이블 디바이스를 액세스하기 위한 계정, 또는 임의의 다른 계정에 각각 링크(등록되면) 선택될 수 있다.
추가 예제에서, 최초 프로세싱은 서로 유사도(similarity)의 임계량을 갖는 오디오 신호들을 결정한 (예를 들어, 디바이스들이 동일한 발언을 청취한 것을 나타내는) 음성-인에이블 디바이스들을 선택할 수 있다. 오디오 신호들 간에 유사도의 양은 예를 들어, KL(Kullback-Leibler) 거리/발산, 동적 시간 뒤틀림(dynamic time warping), 유클리드(Euclidian) 거리에 기초된 인트라/인터 클러스터 차이들 (예를 들어, 인트라/인터 클러스터 상관관계), 등등과 같은 기술들을 이용하는 통계 분석을 통하여 결정될 수 있다.
다른 예에서, 최초 프로세싱은 임계값 (예를 들어, 디바이스들이 워드를 정확하게 인식하였다는 것을 나타내는)을 각각 초과하는 인식 확신 스코어들 (오디오 신호들에 대하여)과 연관된 음성-인에이블 디바이스들을 선택할 수 있다. 예시하기 위해서, 다수의 음성-인에이블 디바이스들은 만약 각각의 디바이스가 오디오 신호에서 워드를 인식하였다면 선택될 수 있고 각각의 디바이스 임계값을 초과하는 확신 값(워드 인식한 정확도를 나타내는)을 가진다. 임계값을 초과하는 확신 값은 오디오 신호가 워드를 포함한다는 것을 디바이스가 비교적 확신하였다는 것을 표시할 수 있다.
임의의 이벤트에서, 음성-인에이블 디바이스를 선택하기 위해 중재 모듈 (214)은 동일한 사운드를 검출하는 다수의 음성-인에이블 디바이스들에 전체적으로 순위를 매길 수 있다. 순위 매김(ranking)은 다수의 음성-인에이블 디바이스들로부터의 오디오 신호들에 순위 매김하는 것을 포함할 수 있다. 순위 매김은 여러 가지 정보에 기반될 수 있다. 예를 들어, 음성-인에이블 디바이스들은 음성-인에이블 디바이스들로부터 수신된 오디오 신호 메트릭 값들에 기초하여 순위 매김될 수 있다. 리스트의 최상위에 (또는 랭크의 최상위 쪽에) 랭크하는 음성-인에이블 디바이스가 오디오 입력을 핸들링하기 위해 선택될 수 있다. 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity), 등등을 포함할 수 있다. 오디오 신호 메트릭 값들은 오디오 신호 메트릭 값 데이터 저장소 (218)에 저장될 수 있다. 오디오 신호 메트릭 값들은 도 3을 참조하여 이하에서 추가로 상세하게 논의된다.
음성-인에이블 디바이스들의 순위 매김의 일 예로서, 중재 모듈 (214)은 음성-인에이블 디바이스들의 각각으로부터 오디오 신호 메트릭 값을 수신할 수 있다. 각각의 오디오 신호 메트릭 값은 개별 음성-인에이블 디바이스에 의해 결정된 복수의 오디오 신호들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값을 나타낼 수 있다. 예시하기 위해서, 제 1 음성-인에이블 디바이스는 발언을 프로세싱 하기 위한 오디오 신호 (도 3을 참조하여 이하에서 상세히 논의되는 최상의 오디오 신호)를 선택할 수 있고 서비스 제공자 (102)에게 오디오 신호에 대한 오디오 신호 메트릭 값을 발송할 수 있다. 유사하게, 동일한 발언을 감지한 제 2 음성-인에이블 디바이스는 프로세싱 하기 위한 오디오 신호(최상의 오디오 신호)를 선택할 수 있고 서비스 제공자 (102)에게 오디오 신호에 대한 오디오 신호 메트릭 값을 발송할 수 있다. 서비스 제공자(102)는 개별 오디오 신호 메트릭 값들에 따라 두개의 음성-인에이블 디바이스들에 순위를 매길 수 있다. 만약, 예를 들어, 제 1 음성-인에이블 디바이스가 제 2 음성-인에이블 디바이스보다 더 큰 SNR 값으로 연관되면, 제 1 음성-인에이블 디바이스가 더 높이 (리스트의 최상위 쪽에) 랭크될 수 있고, 제 2 음성-인에이블 디바이스에 우선하여 선택될 수 있다.
다른 예로서, 중재 모듈 (214)은 각각의 개별 음성-인에이블 디바이스에 대한 오디오 신호들의 메트릭들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 여기서, 각각의 음성-인에이블 디바이스가 선택된 오디오 신호 (예를 들어, 디바이스에서 최상의 오디오 신호)에 대한 오디오 신호 메트릭 값을 제공하는 대신에, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스의 다수의 오디오 신호들(예를 들어, 결정된 오디오 신호들의 일부 또는 전부)의 각각에 대한 오디오 신호 메트릭 값을 제공할 수 있다. 이와 같이, 순위 매김은 각각의 음성-인에이블 디바이스들에 대한 다수의 엔트리(entry) (예를 들어, 처음에 제 1 오디오 신호 메트릭 값에 대하여 그리고 두번째는 제 2 오디오 신호 메트릭 값에 대하여 특정 디바이스를 순위 매김)를 포함할 수 있다.
또 다른 예로서, 중재 모듈 (214)은 다수의 오디오 신호 메트릭 값들 (예를 들어, 상이한 유형들의 오디오 신호 메트릭 값들)에 기초하여 각각의 음성-인에이블 디바이스를 순위 매김 할 수 있다. 예시하기 위해서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대하여 SNR 값에 따라 그리고 음성-인에이블 디바이스에 대하여 스펙트럼 중심 측정값에 따라 순위 매김될 수 있다. 일부 경우들에서, 상이한 유형들의 오디오 신호 메트릭 값들은 상이하게 가중화될(weighted) 수 있다.
추가 예로서, 중재 모듈 (214)은 평균 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 여기서, 각각의 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대한 다수의 오디오 신호들에 걸친 평균 오디오 신호 메트릭 값을 발송할 수 있다. 예시하기 위해서, 만약 음성-인에이블 디바이스가 세개의 빔성형된 오디오 신호들을 결정하면, 음성-인에이블 디바이스는 세개의 빔들에 대한 평균 오디오 신호 메트릭 값 (예를 들어, 평균 SNR)을 발송할 수 있다. 일부 경우들에서, 만약 평균 오디오 신호 메트릭 값이 다른 음성-인에이블 디바이스보다 해당 음성-인에이블 디바이스에 대하여 더 크면, 이것은 해당 음성-인에이블 디바이스가 다른 음성-인에이블 디바이스보다 오디오 소스에 더 가깝다는 것을 표시할 수 있다.
일부 경우들에서, 중재 모듈 (214)은 가중된 오디오 신호 메트릭 값들에 기초하여 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 예시하기 위해서, 음성-인에이블 디바이스는 음성-인에이블 디바이스에 대한 오디오 신호들의 최상 오디오 신호 메트릭 값 (예를 들어, 최대/가장 높은 오디오 신호 메트릭 값 또는, 일부 경우들에서, 최소/최저 오디오 신호 메트릭 값)과 연관된 오디오 신호를 선택할 수 있다. 최상 오디오 신호 메트릭 값은 음성-인에이블 디바이스의 오디오 신호들에 대한 최상 오디오 신호 메트릭 값 (예를 들어, 최대/가장 높은 오디오 신호 메트릭 값)과 최악 오디오 신호 메트릭 값 (예를 들어, 최소/최저 오디오 신호 메트릭 값) 사이의 차이 (변화량)에 의해 가중화될 수 있다. 가중된 오디오 신호 메트릭 값은 다수의 음성-인에이블 디바이스들을 순위 매김하기 위해 서비스 제공자 (102)에게 발송될 수 있다.
더구나, 일부 경우들에서, 중재 모듈 (214)은 이력 통계치(historical statistics)들에 기초하여 오디오 신호들 및/또는 음성-인에이블 디바이스들을 순위 매김 할 수 있다. 예를 들어, 오디오 신호들의 오디오 신호 메트릭 값들은 여러 음성-인에이블 디바이스들로부터 시간에 걸쳐 수집될 수 있다. 만약 음성-인에이블 디바이스로부터의 특정 빔성형된 오디오 신호가 해당 음성-인에이블 디바이스에 대하여 또는 음성-인에이블 디바이스들에 걸쳐서 (예를 들어, 가장 높은 SNR를 갖는 특정 신호이기 때문에) 이력상에서(historically) 최상 신호인 것으로 결정되면, 중재 모듈 (214)은 특정 빔성형된 오디오 신호에 더 많은 가중을 적용할 수 있고, 따라서 특정 빔성형된 오디오 신호가 다른 빔성형된 오디오 신호 보다 더 높이 랭크될 것이다. 이와 같이, 중재 모듈 (214)은 어느 오디오 신호들 및/또는 음성-인에이블 디바이스들이 일반적으로 사용하기에 최상인지를 시간이 흐르면서 학습할 수 있다. 예시하기 위하여, 중재 모듈 (214)은 벽 옆에 위치된 음성-인에이블 디바이스의 세개의 특정 빔성형된 오디오 신호들은 일반적으로 상대적으로 양호한 오디오 신호들이지만, 세개의 다른 빔성형된 오디오 신호들은 상대적으로 열악한 신호들이다는 것을 학습할 수 있다. 다른 예시에서, 중재 모듈 (214)은 유저는 일반적으로 동일한 위치에서 말하기 때문에 특정 빔성형된 오디오 신호는 일반적으로 최상의 오디오 신호이다는 것을 학습할 수 있다.
임의의 이벤트에서, 중재 모듈 (214)은 음성-인에이블 디바이스를 선택하기 위한 순위 매김(ranking)을 사용할 수 있다. 일부 예들에서, 순위 매김의 최상위(top)(또는 최상위 쪽에 - 최상위 근처에 특정 위치에 있는)에 나오는 음성-인에이블 디바이스가 프로세싱을 핸들링하기 위해 선택될 수 있다. 더구나, 음성-인에이블 디바이스가 여러번 순위 매김에 나오는 (다수의 오디오 신호 메트릭 값들에 대하여) 일부 예들에서, 중재 모듈 (214)은 순위 매김에서 최상위 N 번의 자리들에서 가장 많이 나오는 음성-인에이블 디바이스를 선택할 수 있다. N은 2 보다 더 큰 정수일 수 있다. 예시하기 위해, 중재 모듈 (214)은 순위 매김에서 최상위 세개의 위치들 중 두개를 차지하는 제 1 음성-인에이블 디바이스를 선택할 수 있다.
일부 경우들에서, 만약 중재 모듈 (214)이 랭크에서 최상의 음성-인에이블 디바이스를 식별할 수 없다면, 중재 모듈 (214)은 상이한 정보에 대하여 순위 매김 동작들을 반복할 수 있다. 예를 들어, 만약 두개의 음성-인에이블 디바이스들 양쪽이 SNR에 기초하는 순위 매김에서 최상위 위치를 차지하면 (또는 각각이 최상위 N 번 자리들을 차지), 중재 모듈 (214)은 스피치 에너지 레벨(speech energy level)에 기초하여 다시 두개의 음성-인에이블 디바이스들을 순위 매김 할 수 있다.
많은 동작들이 서비스 제공자(102)에 의해 수행되는 것으로 본 출원에서 설명되었지만, 이들 동작들 중 임의의 동작은 다른 디바이스들, 예컨대 음성-인에이블 디바이스들 (104) 중 임의의 하나에 의해 수행될 수 있다. 이와 같이, 음성-인에이블 디바이스들 (104) 중 임의의 하나는 로컬에서 프로세싱을 수행할 임의의 모듈들 (208, 210, 212, 및/또는 214)을 포함할 수 있다. 일 예로서, 중재 모듈 (214)은 음성-인에이블 디바이스들 (104) 중 하나의 메모리에 저장될 수 있고, 입력 및/또는 출력을 핸들링 할 음성-인에이블 디바이스를 선택하기 위해 음성-인에이블 디바이스 (104)에서 로컬 프로세싱을 수행할 수 있다. 추가적으로, 또는 대안적으로, 임의의 모듈들 (208, 210, 212, 및/또는 214)은 다양한 상이한 컴퓨팅 디바이스들, 예컨대 다수의 서비스 제공자들에 걸쳐서 구현될 수 있다. 더욱이, 다양한 동작들이 모듈들에 의해 수행되는 것으로 설명되지만, 본 출원에서 설명된, 임의의 이들 동작들, 및/또는 다른 기술들은 하나 이상의 하드웨어 로직 컴포넌트들, 예컨대 필드-프로그램 가능한 게이트 어레이들 (FPGA들), 애플리케이션-특정 집적 회로들 (ASIC들), 시스템-온-칩 시스템들 (SOC(System-on-a-chip)들), 합성 프로그램 가능한 로직 디바이스들 (CPLD(Complex Programmable Logic Device)들), 등으로 구현될 수 있다.
예제 음성-인에이블 디바이스 (EXAMPLE VOICE-ENABLED DEVCIE)
도 3은 도 1의 음성-인에이블 디바이스들(104) 중 하나의 예제 컴포넌트들을 예시한다. 음성-인에이블 디바이스 (104)은 하나 이상의 프로세서들 (302), 메모리 (304), 하나 이상의 네트워크 인터페이스들 (306), 및 하나 이상의 마이크로폰들 (308) (이하에서 “마이크로폰들 (308)”)을 포함할 수 있다. 하나 이상의 프로세서들 (302)은 중앙 프로세싱 유닛 (CPU), 그래픽스 프로세싱 유닛 (GPU), 마이크로프로세서, 디지털 신호 프로세서, 등등을 포함할 수 있다. 비록 예시되지 않았지만, 음성-인에이블 디바이스 (104)는 하나 이상의 입력/출력 디바이스들 (예를 들어, 마우스, 키보드, 등), 하나 이상의 카메라들 (예를 들어, 후방(rear-facing), 전방(front facing), 등), 하나 이상의 디스플레이들 (예를 들어, 터치 스크린, 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이, 유기 LED 디스플레이, 플라즈마 디스플레이, 전자 페이퍼(paper) 디스플레이, 등), 하나 이상의 센서들 (예를 들어, 가속도계, 자기력계, 등), 하나 이상의 스피커들, 하나 이상의 라이트들, 등등을 또한 포함할 수 있다. 음성-인에이블 디바이스 (104)의 임의 개수의 컴포넌트들은 유저로부터의 입력을 수신하고 및/또는 응답을 출력하기 위해 사용될 수 있다. 예를 들어, 마이크로폰들 (308)은 유저로부터 스피치 입력을 감지할 수 있고 스피커 또는 라이트는 태스크가 스피치 입력에 대하여 수행되었다는 표시로 응답할 수 있다 (예를 들어, “당신을 위하여 아이템을 주문하였습니다”의 오디오 출력, 라이트 인에이블링, 등). 더구나, 하나 이상의 네트워크 인터페이스들 (306)은 하나 이상의 네트워크들을 통하여 통신할 수 있다 (예를 들어, 서비스 제공자 (102)에게 정보를, 예컨대 오디오 신호들, 오디오 신호 메트릭 값들, 등등을 수신 또는 발송).
마이크로폰들 (308)은 사운드를 수신하도록 구성된 센서들 (예를 들어, 트랜스듀서들)을 포함할 수 있다. 마이크로폰들 (308)은 오디오 입력 (예를 들어, 사운드)을 위한 입력 신호들을 생성할 수 있다. 예를 들어, 마이크로폰들 (308)은 유저의 발언에 대한 디지털 입력 신호들을 결정할 수 있다. 일부 경우들에서, 마이크로폰들 (308)은 어레이로 구현된다. 어레이는 기하학적 패턴, 예컨대 선형 기하학적 형태, 원형 기하학적 형태, 또는 임의의 다른 구성으로 배열될 수 있다. 예를 들어, 소정 지점에 대하여, 네개의 센서들의 어레이는 네개의 방향들로부터 사운드를 수신하기 위해 90도 증분들에서 (예를 들어, 0, 90, 180, 270) 원형 패턴으로 배치될 수 있다. 마이크로폰들 (308)은 평면 구성에 있을 수 있거나, 또는 비평면 3 차원의 영역에 떨어져 위치될 수 있다. 일부 구현예들에서, 마이크로폰들 (308)은 데이터 통신내 공간적으로 서로 전혀 다른 어레이의 센서들을 포함할 수 있다. 예를 들어, 센서들의 네트워크화된 어레이가 포함될 수 있다. 마이크로폰들 (308)은 무지향성(omni-directional) 마이크로폰들, 방향성 마이크로폰들 (예를 들어, 샷건(shotgun) 마이크로폰들), 등등을 포함할 수 있다.
메모리 (304)는 빔성형기(beamformer) 모듈 (310), 오디오 신호 메트릭 모듈 (312), 및 빔 선택기 모듈 (314)을 포함할 수 있다. 빔성형기 모듈 (310)은 마이크로폰들 (308)으로부터 입력 신호들을 수신할 수 있고 오디오 신호들을 생성하기 위해 입력 신호들에 신호 프로세싱을 수행할 수 있다. 예를 들어, 빔성형기 모듈 (310)은 수신된 입력 신호들 및 복수의 빔성형된 오디오 신호들의 각각에 대한 상이한 셋의 필터들을 이용하여 복수의 빔성형된 오디오 신호들을 형성할 수 있다 (예를 들어, 결정할 수 있다). 빔성형기 모듈 (310)은 복수의 빔성형된 오디오 신호들의 각각이 룩 방향(look direction)외의 방향으로부터의 센서 어레이 (예를 들어, 마이크로폰들 (308))에 의해 검출된 파형이 룩 방향으로부터의 센서 어레이에 의해 검출된 파형에 비하여 억제되는 룩 방향 (때때로 방향(direction)으로 지칭된다)을 갖도록 결정할 수 있다. 복수의 빔성형된 신호들의 각각의 룩 방향은 서로로부터 동등하게 이격될 수 있다. 이와 같이, 각각의 빔성형된 오디오 신호는 상이한 룩 방향에 대응할 수 있다.
일부 경우들에서, 빔성형 기술들은 적응적(adaptive) 또는 가변적 빔성형 기술들을 구현하는 적응적 또는 가변적 빔 성형기(beamformer)를 이용함으로써 사용될 수 있다. 더구나, 일부 경우들에서 다수의 빔성형기 모듈들 (예를 들어, 다수의 고정된 빔성형기 모듈들)이 제공된다. 각각의 빔성형기 모듈은 특정 룩 방향에 대응하는 빔성형된 오디오 신호를 결정하기 위해 필터 가중치(weight)들 및/또는 지연(delay)들의 세트를 사용한다. 예를 들어, 여섯개의 고정된 빔성형기 모듈들이 각각의 빔성형된 오디오 신호가 상이한 룩 방향에 대응하는 여섯개의 빔성형된 오디오 신호들을 결정하기 위해 제공될 수 있다. 고정 또는 적응적 빔 성형기들이 사용되든, 결과적인 복수의 빔성형된 오디오 신호들은 형태 y(n)(k)에 번호들의 어레이로 표현될 수 있다:
{y(1)(k), y(2)(k), ... , y(N)(k)},
여기서, “k”는 시간 인덱스이고 “n”은 n번째 빔성형된 오디오 신호 (및 n번째 룩 방향)에 대응하는 오디오 스트림 인덱스 (또는 룩 방향 인덱스)이다.
일 구현예에서, 빔성형기 모듈 (310)은 센서 어레이에 걸쳐 소스 신호 방향의 전파 지연에서의 차이들을 보상하기 위해 각각의 어레이 센서간에 지연들을 사용하도록 적응된 지연 및 합산 유형(delay-and-sum type)의 빔성형기로 구현된다. 빔 성형기의 가중치들 및 지연들을 조정함으로써, 희망하는 방향 (또는 위치) (예를 들어, 말하고 있는 사람의 방향으로부터, 예컨대 스피치 인식 시스템에 명령들 및/또는 입력을 제공하는 사람)으로부터 발원한 소스 신호들은 동위상으로 합산되지만, 그러나 다른 신호들 (예를 들어, 잡음, 비-스피치, 등)은 상쇄 간섭을 겪는다. 시간 지연 및 합산 빔 성형기의 가중치들 및/또는 지연들을 조정하거나 또는 선택함으로써, 그것의 빔성형된 오디오 신호 출력의 형상이 제어될 수 있다. 다른 유형들의 빔 성형기 모듈들이 또한 이용될 수 있다.
예제 빔성형 기술들이 2014년 7월 30일에 출원된 “Method and System for Beam Selection in Microphone Array Beamformers”라는 제목의 U.S. 특허 출원 번호 14/447,498, 및 2015년 6월 1일에 출원된 “Feedback Based Beamformed Signal Selection”라는 제목의 U.S. 특허 출원 번호 14/727,504에 논의되고, 이들 둘 모두의 전체 내용들은 참조로서 본 출원에 통합된다.
오디오 신호 메트릭 모듈 (312)은 빔성형기 모듈 (310)에 의해 제공된 복수의 오디오 신호들 (예를 들어, 빔성형된 오디오 신호들)의 각각에 대한 오디오 신호 메트릭 값을 결정할 수 있다. 일부 실시예들에서, 각각의 오디오 신호 메트릭 값은 빔성형된 오디오 신호의 복수의 프레임들 중 하나의 샘플들에 기초하여 결정된다. 예를 들어, 신호대 잡음비는 복수의 빔성형된 오디오 신호들의 각각에 대한 복수의 프레임들에 대하여 결정될 수 있다. 오디오 신호 메트릭 값들 f는 각각의 프레임에 대한 복수의 빔성형된 오디오 신호들의 각각에 대하여 결정될 수 있고, 형태 f(n)(k)에 번호들의 어레이로 귀결된다:
{f(1)(k), f(2)(k), ... , f(N)(k)}
여기서, “k”는 시간 인덱스이고 “n”은 n번째 빔성형된 오디오 신호에 대응하는 오디오 스트림 인덱스 (또는 룩 방향 인덱스)이다.
오디오 신호 메트릭 값은 신호대 잡음비 (SNR), 스펙트럼 중심 측정값 (예를 들어, 피크 스펙트럼 중심 측정값), 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지), 스펙트럼 플럭스, 특정 백분위 주파수 (예를 들어, 90번째 백분위 주파수), 주기성, 선명도, 조화도, 등등을 포함할 수 있다. 스펙트럼 중심 측정값은 일반적으로 스펙트럼 중심 집단(centroid mass)에 대한 측정값을 제공한다. 스펙트럼 플럭스(spectral flux)는 일반적으로 스펙트럼 변화의 비율에 대한 측정값을 제공한다. 특정 백분위 주파수(percentile frequency)는 일반적으로 총 파워의 적어도 특정 퍼센티지 (예를 들어, 90%)를 커버하는 최소 주파수 빈(bin)에 기초한 측정값을 제공한다. 주기성은 일반적으로 시끄러운 환경들에서 피치 감지(pitch detection)를 위하여 사용될 수 있는 측정값을 제공한다. 선명도(Clarity)는 일반적으로 음성 세그먼트들에 대해 높은 값 및 배경 잡음(background noise)에 대해 낮은 값을 갖는 측정값을 제공한다. 조화도(harmonicity)는 일반적으로 음성 세그먼트들에 대해 높은 값 및 배경 잡음에 대해 낮은 값을 제공하는 다른 측정값이다. 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지)는 일반적으로 스피킹 속도(speaking rate) 에 기인하여 스피치에 대하여 높은 값을 갖는 측정값을 제공한다. 다른 실시예들에서, 짧은 타임 윈도우(예를 들어, 전형적으로 하나 이하의 프레임) 동안에 가공되지 않은(raw) 빔성형된 신호 데이터의 일부 함수인 임의의 다른 오디오 신호 메트릭 값이 결정될 수 있다. 일부 경우들에서, 오디오 신호 메트릭 값은 빔성형된 오디오 신호의 복수의 프레임들의 샘플들에 기초하여 결정될 수 있다. 더구나, 일부 경우들에서, 오디오 신호 메트릭 값은 신호 피처(signal feature)로 지칭될 수 있다.
일부 구현예들에서, 오디오 신호 메트릭 값은 이하의 테이블에 따라 정의될 수 있다:
Figure pct00001
일부 경우들에서, 오디오 신호 메트릭 모듈 (312)은 특정 빔성형된 오디오 신호에 대하여 오디오 신호 메트릭 값을 결정할 수 있다. 일 예로서, SNR 값은 특정 룩 방향과 연관된 빔성형된 오디오 신호에 대하여 결정될 수 있다. 다른 인스턴스들에서, 오디오 신호 메트릭 값은 다수의 빔성형된 오디오 신호들에 대하여 결정될 수 있다. 일 예로서, 평균 오디오 신호 메트릭 값은 음성-인에이블 디바이스에 대하여 임의 개수의 빔성형된 오디오 신호들에 걸친 평균 SNR 값과 같이 음성-인에이블 디바이스에 대하여 결정된 복수의 빔성형된 오디오 신호들에 대하여 결정될 수 있다.
더구나, 일부 경우들에서, 오디오 신호 메트릭 모듈 (312)은 오디오 신호 메트릭 값을 가중화할 수 있다. 일 예로서, 오디오 신호 메트릭 값은 음성-인에이블 디바이스에 대한 빔성형된 오디오 신호들 중에서 가장 큰 값을 갖는 오디오 신호 메트릭 값 (동일한 유형의) 과 가장 작은 값을 갖는 오디오 신호 메트릭 값 (동일한 유형의) 사이의 차이만큼 배가될 수 있다. 예시하기 위하여, SNR 값은 음성-인에이블 디바이스에 대한 빔성형된 오디오 신호들 중에서 가장 큰 SNR 값과 가장 작은 SNR 값 사이의 차이만큼 가중화될 수 있다. 최대 오디오 신호 메트릭 값과 최소 오디오 신호 메트릭 값 간의 차이 (또는 변화량)는 빔 성형기의 방향성(directivity)의 측정값 일 수 있다(예를 들어, 빔 성형기가 방향에 얼마나 민감하지). 예를 들어, 상대적으로 큰 차이는 빔 성형기가 매우 방향성이 있다는 것을 (예를 들어, 오디오 소스들의 방향을 상대적으로 잘 감지할 수 있고 매우 바람직한 빔 성형기) 나타낼 수 있고, 한편 상대적으로 작은 차이는 빔 성형기가 매우 방향성이 없다는 것을 나타낼 수 있다 (예를 들어, 오디오 소스의 방향을 매우 잘 감지하지 못하고 바람직하지 않은 빔 성형기). 일부 경우들에서, 빔 성형기의 방향성은 환경적인 조건 (예를 들어, 벽, 간섭 오브젝트, 등 옆에 위치된)에 의해 영향을 받을 수 있지만, 그러나 다른 인스턴스들에서 방향성은 빔 성형기 및/또는 관련된 음성-인에이블 디바이스의 하드웨어 및/또는 소프트웨어의 특성일 수 있다. 만약, 예를 들어, 음성-인에이블 디바이스가 벽 옆에 위치되면, 오디오 입력은 음성-인에이블 디바이스에서 감지되기 전에 벽에서 반사할 수 있기 때문에 빔성형된 오디오 신호들의 오디오 신호 메트릭 값들 간에 상대적으로 작은 변화량이 있을 수 있다.
추가적으로, 또는 대안적으로, 오디오 신호 메트릭 모듈 (312)은 다수의 오디오 신호 메트릭 값들의 각각에 대하여, 복수의 프레임들에 대한 다수의 오디오 신호 메트릭 값들 f의 시간-스무드 함수에 기초하여 시간-스무드(time-smoothed) 오디오 신호 메트릭 값 (또한 “스무드 오디오 신호 메트릭 값” 또는 “스무드 피처(smoothed feature)”으로 지칭된다)을 결정할 수 있다. 일부 실시예들에서, 스무드 오디오 신호 메트릭 값 S는 복수의 프레임들에 대한 오디오 신호 메트릭 값들에 기초하여 결정된다. 예를 들어, 스무드 오디오 신호 메트릭 값 S은 신호 피처 데이터의 세개 만큼 작은 프레임들 내지 신호 피처 데이터의 천(thousand) 프레임들 또는 그 이상 만큼 많은 프레임들에 기반될 수 있다. 스무드 오디오 신호 메트릭 값들 S는 복수의 빔성형된 오디오 신호들의 각각에 대하여 결정될 수 있고, 형태 S(n)(k)에 번호들의 어레이로 귀결된다:
{S(1)(k), S(2)(k), ... , S(N)(k)}
일반적으로, 오디오 신호 메트릭 값들은 통계치들(statistics)이다. 오디오 신호 메트릭 값은 빔성형된 신호들로부터 추출된 어떤 신호 피처들의 변화를 요약할 수 있다. 오디오 신호 메트릭 값의 예시는 지속기간 동안에 신호의 최대값을 나타내는 오디오 신호 메트릭 값의 피크일 수 있다. 이런 오디오 신호 메트릭 값은 오디오 신호 메트릭 값에 임의의 단기-지속기간 잡음도(noisiness)를 줄이기 위해 시간에 대하여 스무드하게 될 수 있다 (예를 들어, 평균화, 이동 평균화(moving averaged), 또는 가중 평균화(weighted averaged)) .
일부 실시예들에서, 스무드 오디오 신호 메트릭 값 S를 결정하기 위한 시간-스무딩 기술은 이하의 관계에 기초하여 획득될 수 있다:
S(k) = alpha * S(k-1) + (1-alpha) * f(k)
이 예에서, 알파(alpha)는 스무딩 인자(smoothing factor) 또는 시상수(time constant)이다. 상기에 따라, 현재 프레임 (예를 들어, S(k))에서 스무드 오디오 신호 메트릭 값 S을 결정하는 것은 : 제 1 시상수 (예를 들어, 알파)에 이전 프레임에 대응하는 스무드 오디오 신호 메트릭 값 S (예를 들어, S(k-1))을 곱합으로써 제 1 곱(product)을 구하는 단계; 제 2 시상수 (예를 들어, (1-알파))에 현재 프레임에서의 오디오 신호 메트릭 값(예를 들어, f(k))을 곱함으로써 제 2 곱을 결정하는 단계, 여기서 제 1 시상수 및 제 2 시상수 합은 1이고; 및 제 1 곱 (예를 들어, 알파 * S(k-1)) 을 제 2 곱 (예를 들어, (1-알파) * f(k))에 더하는 단계를 포함한다.
일부 실시예들에서, 스무딩 기술은 오디오 신호 메트릭 값에 의존하여 상이하게 적용될 수 있다. 예를 들어, 스무드 오디오 신호 메트릭 값 S를 결정하기 위한 다른 시간-스무딩 기술은 이하의 프로세스에 기초하여 획득될 수 있다:
If (f(k) > S(k)):
S(k) = alpha_attack * S(k-l) + (1-alpha_attack) * f(k)
Else:
S(k) = alpha_release * S(k-l) + (l-alpha_release) * f(k)
이 예에서, 알파_어택(alpha_attack)는 어택 시상수(attack time constant)이고 및 알파_릴리즈는 릴리즈 시상수(release time constant)이다. 일반적으로, 어택 시상수는 릴리즈 시상수보다 더 빠르다. 릴리즈 시상수보다 더 빠르게 어택 시상수를 제공하는 것은 스무드 오디오 신호 메트릭 값 S(k)이 신호 피처의 상대적으로-높은 피크 값들 (예를 들어, f(k) > S(k)일 때) 빠르게 추적하는 것을 허용하는 반면 오디오 신호 메트릭 값의 상대적으로-낮은 피크 값들을 (예를 들어, f(k) < S(k)일 때) 추적하는 것은 상대적으로 느리게 된다. 다른 실시예들에서, 유사한 기술이 스피치 신호의 최소값을 추적하는데 사용될 수 있다. 일반적으로, 오디오 신호 메트릭 값 f(k)이 더 높은 가중치가 주어지고 이전 프레임의 스무드 오디오 신호 메트릭 값이 더 작은 가중치가 주어질 때 어택(attack)은 더 빠르다. 따라서, 더 작은 알파는 더 빠른 어택을 제공한다.
빔 선택기 모듈 (314)은 오디오 신호들 (예를 들어, 빔성형된 오디오 신호들) 및/또는 오디오 신호 메트릭 값들을 수신할 수 있고 추가 프로세싱을 위한 오디오 신호를 선택할 수 있다. 빔 선택기 모듈 (314)은 일반적으로 캡쳐된 오디오 입력의 소스 (예를 들어, 유저의 발언(utterance))에 가장 가까운 오디오를 제공하는 오디오 신호를 선택할 수 있다. 빔 선택기 모듈 (314)은 여러 가지 정보를 이용하여 오디오 신호 중 하나를 선택하도록 구성될 수 있다. 예를 들어, 빔 선택기 모듈 (314)은 음성-인에이블 디바이스 (104)에 대한 다수의 빔성형된 오디오 신호들 중에서 최대 오디오 신호 메트릭 값과 연관된 빔성형된 오디오 신호를 선택할 수 있다. 예시하기 위해서, 빔 선택기 모듈 (312)은 다수의 빔성형된 오디오 신호들을 그것들의 대응하는 오디오 신호 메트릭 값들에 기초하여 순위 매김 할 수 있다. 빔 선택기 (314)는 그런 다음 예를 들어, 다수의 빔성형된 오디오 신호들 중에서 가장 큰 SNR 값과 연관된 빔성형된 오디오 신호를 선택할 수 있다. 선택된 빔성형된 오디오 신호는 오디오 입력 (예를 들어, 스피치 인식, 등) 프로세싱을 위해 사용될 수 있다. 일 예로서, 선택된 빔성형된 오디오 신호 (및/또는 관련된 오디오 신호 메트릭 값)는 프로세싱을 위해 서비스 제공자 (102)에게 발송될 수 있다. 일부 경우들에서, 빔 선택기 모듈 (314)은 선택을 위해 스무드(smoothed) 오디오 신호 메트릭 값들을 사용한다.
일부 실시예들에서, 빔 선택기 모듈 (314)은 만약 또한 빔성형된 오디오 신호가 음성 (또는 스피치)을 포함한다고 결정되면 가장 큰 스무드 오디오 신호를 갖는 빔성형된 오디오 신호를 선택할 수 있다. 음성 및/또는 스피치 검출은 음성 활동 검출기(voice activity detector)를 이용하는 것을 포함하여 여러 가지 방식들로 감지될 수 있다. 일 예로서, 빔 선택기 모듈 (314)은 후보 빔성형된 오디오 신호들이 음성 및/또는 스피치를 포함하는지 여부를 첫번째로 결정할 수 있고 그런 다음 음성 및/또는 스피치를 포함하지 않는 후보 빔성형된 오디오 신호들로부터 빔성형된 오디오 신호를 선택할 수 있다. 다른 예로서, 빔 선택기 모듈 (314)은 후보 빔성형된 오디오 신호들의 스무드 오디오 신호 메트릭 값들 첫번째로 결정할 수 있다. 빔 선택기 모듈 (314)은 그런 다음 빔성형된 오디오 신호가 가장 큰 값을 갖는 스무드 오디오 신호 메트릭 값을 갖는지 그리고 음성 및/또는 스피치를 포함하는지 여부를 결정할 수 있다. 만약 그렇다면, 가장 큰 값을 갖는 스무드 오디오 신호 메트릭 값을 갖는 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다. 만약 그렇지 않다면, 빔 선택기 모듈 (314)은 그 다음으로-가장 높은 스무드 오디오 신호 메트릭 값을 갖는 빔성형된 오디오 신호가 음성 및/또는 스피치를 포함하는지 여부를 결정할 수 있다. 만약 그렇다면, 해당 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다. 만약 그렇지 않다면, 빔 선택기 모듈 (314)은 음성 및/또는 스피치를 포함하는 빔성형된 오디오 신호가 결정될 때까지 스무드 오디오 신호 메트릭 값들의 크기를 줄이면서 빔성형된 신호들을 계속해서 평가할 수 있다. 이런 빔성형된 오디오 신호가 추가 프로세싱을 위해 선택될 수 있다.
일부 경우들에서, 보다 강건한 빔 선택을 가능하게 하기 위해서, 빔 선택기 모듈 (314)은 하나 이상의 스피치 프로세싱 엘리먼트들, 예컨대 스피치 인식 모듈, 웨이크-워드 모듈, 등으로부터의 피드백에 기초하여 빔성형된 오디오 신호를 선택할 수 있다. 피드백(feedback)은 오디오 신호가 스피치 인식에 대하여 수락되었는지 여부, 워드들이 오디오 신호로부터 인식되었는지 여부, 인식된 워드들에서 확신 (예를 들어, 스피치 인식 모듈에 의해 인식된 워드가 얼마나 정확한지), 태스크 및/또는 응답이 오디오 신호에 대하여 개시되었는지 여부 (예를 들어, 노래 플레이하기, 캘런더 이벤트 추가하기, 등), 웨이크-워드가 오디오 신호에서 감지되었는지 여부, 웨이크-워드 인식의 확신정도, 등등을 나타내는 정보를 포함할 수 있다. 빔 선택기 모듈 (312)은 순위 매김 하기 위해서 및/또는 빔성형된 오디오 신호를 선택하기 위해서 피드백을 활용할 수 있다. 예를 들어, 감지된 웨이크-워드를 갖는 빔성형된 오디오 신호는 감지되고 식별된 웨이크-워드를 갖는 빔성형된 오디오 신호 아래에 랭크될 수 있다. 유사하게, 스피치 인식 모듈을 통하여 높은 확신정도 인식 감지로 귀결되는 데이터를 제공한 빔성형된 오디오 신호는 더 낮은 확신정도 인식으로 귀결되는 데이터를 제공한 빔성형된 오디오 신호 보다 더 높게 랭크될 수 있다.
많은 동작들이 음성-인에이블 디바이스 (104)에 의해 수행되는 것으로 본 출원에서 설명되었지만, 이들 동작들 중 임의의 동작은 다른 디바이스들, 예컨대 임의의 서비스 제공자 (102)에 의해 수행될 수 있다. 이와 같이, 서비스 제공자 (102)는 임의의 모듈들 (310, 312, 및/또는 314)을 포함할 수 있다. 예를 들어, 서비스 제공자 (102)는 음성-인에이블 디바이스 (104)로부터 빔성형된 오디오 신호들을 수신할 수 있고 그리고 각각의 빔성형된 오디오 신호에 대하여 오디오 신호 메트릭 값을 결정할 수 있다. 더욱이, 다양한 동작들이 모듈들에 의해 수행되는 것으로 설명되지만, 본 출원에서 설명된, 임의의 이들 동작들, 및/또는 다른 기술들은 하나 이상의 하드웨어 로직 컴포넌트들, 예컨대 필드-프로그램 가능한 게이트 어레이들 (FPGA들), 애플리케이션-특정 집적 회로들 (ASIC들), 시스템-온-칩 시스템들 (SOC(System-on-a-chip)들), 합성 프로그램 가능한 로직 디바이스들 (CPLD(Complex Programmable Logic Device)들), 등으로 구현될 수 있다.
메모리 (204 및/또는 304) (뿐만 아니라 본 출원에서 설명된 모든 다른 메모리)는 컴퓨터-판독가능한 매체들 (예를 들어, 스토리지 매체) 중 하나 또는 조합을 포함할 수 있다. 컴퓨터-판독 가능 매체는 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비-휘발성, 및 착탈 가능한 및 착탈 가능하지 않은 매체를 포함한다. 컴퓨터-판독가능한 매체들은 상 변화 메모리 (PRAM), 정적 랜덤-액세스 메모리 (SRAM), 동적 랜덤-액세스 메모리 (DRAM), 다른 유형들의 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 전기 소거형 프로그램 가능한 판독 전용 메모리 (EEPROM), 플래시 메모리 또는 다른 메모리 기술, 콤팩트 디스크 판독 전용 메모리 (CD-ROM), 디지털 다기능 디스크들 (DVD) 또는 다른 광 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 컴퓨팅 디바이스에 의한 액세스를 위해 정보를 저장하기 위해 사용될 수 있는 임의의 다른 비-일시적 매체를 포함하지만, 거기에 한정되지 않는다. 본 출원에 정의된 대로, 컴퓨터-판독가능한 매체들은 비-일시적 매체 없는 변조된 데이터 신호들 및 반송파(carrier wave)들과 같은 일시적 통신 매체(transitory communication media)를 포함하지 않는다. 이와 같이, 컴퓨터-판독가능한 매체들은 비-일시적 컴퓨터-판독가능한 매체들을 포함한다.
예제 프로세스들(EXAMPLE PRECESSES)
도면들 4 및 5은 본 출원에서 설명된 기술들을 채용하기 위한 예제 프로세스들 (400 및 500)을 예시한다. 예시의 간단함을 위해 프로세스들 (400 및 500)은 도 1의 아키텍처 (100)에서 수행된 대로 설명된다. 예를 들어, 프로세스들 (400 및 500)의 개별 동작들의 하나 이상은 서비스 제공자 (102) 및/또는 임의의 음성-인에이블 디바이스들 (104)에 의해 수행될 수 있다. 그러나, 프로세스들 (400 및 500)은 다른 아키텍처들로 수행될 수 있다. 게다가, 아키텍처 (100)는 다른 프로세스들을 수행하기 위해 사용될 수 있다.
프로세스들 (400 및 500)은 로직 플로우 그래프로서 예시되고, 이들 각각의 동작은 하드웨어, 소프트웨어, 또는 그것의 조합으로 구현될 수 있는 일련의 동작들을 나타낸다. 소프트웨어의 상황하에서, 동작들은 하나 이상의 프로세서들에 의해 실행될 때, 컴퓨팅 디바이스가 나열된 동작들을 수행하도록 하기 위해 하나 이상의 프로세서들을 구성하는 하나 이상의 컴퓨터-판독가능한 스토리지 매체상에 저장된 컴퓨터-실행 가능한 명령들을 나타낸다. 일반적으로, 컴퓨터-실행가능한 명령들은 특정 기능들을 수행하거나 또는 특정 추상 데이터 유형들을 구현하는 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 및 유사한 것들을 포함한다. 설명된 이들 동작들에 순서는 제한적으로 해석되는 것으로 의되되지 않고 임의 개수의 설명된 동작들이 프로세스를 구현하기 위해 임의 순서로 및/또는 병렬로 결합될 수 있다. 더구나, 임의 개수의 동작들은 생략될 수 있다.
도 4 는 다수의 음성-인에이블 디바이스들간에 중재하는 예제 프로세스 (400)를 예시한다.
(402)에서, 다수의 음성-인에이블 디바이스들이 식별될 수 있다. 이것은 단일 발언(utterance)으로부터 실질적으로 동일한 시간에 (서로 임계 시간양내에) 오디오 입력을 수신한 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스를 식별하는 단계 (또는 결정하는 단계)를 포함할 수 있다.
(404)에서, 하나 이상의 오디오 신호 메트릭 값들이 각각의 음성-인에이블 디바이스로부터 수신될 수 있다. 오디오 신호 메트릭 값은 음성-인에이블 디바이스에서 수신된 오디오 입력과 연관된 빔성형된 오디오 신호에 대한 것일 수 있다. 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨 (예를 들어, 4 Hz 변조 에너지), 스펙트럼 플럭스(spectral flux), 특정 백분위 주파수(particular percentile frequency) (예를 들어, 90번째 백분위 주파수), 주기성(periodicity), 선명도(clarity), 조화도(harmonicity), 등등을 포함할 수 있다. 일 예에서, 동작 (404)은 복수의 오디오 신호 메트릭 값들 중에서 최상의 값을 갖는 오디오 신호 메트릭 값을 수신하는 단계를 포함할 수 있고, 여기서 복수의 오디오 신호 메트릭 값들의 각각은 음성-인에이블 디바이스에 의해 결정된 상이한 빔성형된 오디오 신호와 연관된다. 최상의 값을 갖는 오디오 신호 메트릭 값은 가장 높은 (가장 큰) 값을 갖는 오디오 신호일 수 있다. 대안적으로, 최상의 값을 갖는 오디오 신호 메트릭 값은 가장 낮은 (가장 작은) 값을 갖는 오디오 신호일 수 있다. 다른 예에서, 동작 (404)은 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들 중에서 평균 오디오 신호 메트릭 값을 수신하는 단계를 포함할 수 있다. 또 다른 예에서, 동작 (404)은 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들을 수신하는 단계를 포함할 수 있다. 일부 경우들에서, 오디오 신호 메트릭 값은 예컨대 음성-인에이블 디바이스에 대한 복수의 오디오 신호 메트릭 값들 중에서 최상의 값 (가장 높은 값 또는, 일부 경우들에서, 가장 낮은 값)을 갖는 오디오 신호 메트릭 값과 최악의 값 (가장 낮은 값 또는, 일부 경우들에서, 가장 높은 값)을 갖는 오디오 신호 메트릭 값 사이의 차이에 의해 가중될 수 있다.
(406)에서, 다수의 음성-인에이블 디바이스들이 순위 매김(rank)될 수 있다. 동작 (406)은 다수의 음성-인에이블 디바이스들 중 개별 디바이스들에 대한 오디오 신호 메트릭 값들에 기반될 수 있다. 일부 경우들에서, 음성-인에이블 디바이스는 상이한 오디오 신호 메트릭 값들, 순위 매김(ranking)의 상이한 기술들, 등등에 대하여 여러 번 순위 매김 될 수 있다.
(408)에서, 음성-인에이블 디바이스는 선택된 음성-인에이블 디바이스로서 역할을 하도록 선택될 수 있다. 일 예로서, 동작 (408)은 순위 매김의 최상위에 나타난 음성-인에이블 디바이스를 선택할 수 있다. 다른 예로서, 동작 (408)은 순위 매김에서 최상위 N 번의 자리들에서 가장 많이 나오는 음성-인에이블 디바이스를 선택할 수 있고, 여기서 N은 2보다 큰 정수이다.
(410)에서, 선택된 음성-인에이블 디바이스의 오디오 신호가 프로세스되도록 할 수 있다. 일부 경우들에서, 동작 (410)은 선택된 음성-인에이블 디바이스의 오디오 신호를 프로세스하기 위한 명령을 (예를 들어, 음성-인에이블 디바이스가 중재 프로세스를 수행하는 경우에) 서비스 제공자에게 발송하는 단계를 포함한다. 다른 인스턴스들에서, 동작 (410)은 선택된 음성-인에이블 디바이스의 오디오 신호를 프로세싱하는 단계를 포함한다 (예를 들어, 서비스 제공자가 중재 프로세스를 수행하는 경우에).
(412)에서, 태스크(task)는 적어도 부분적으로 프로세스된 오디오 신호에 기초하여 수행될 수 있다. 예를 들어, 태스크는 유저에 의해 요청되는 기능을 수행하는 단계를 포함할 수 있다.
(414)에서, 선택된 음성-인에이블 디바이스는 태스크에 관련된 표시를 출력하도록 될 수 있다. 일부 경우들에서, 동작 (414)은 선택된 음성-인에이블 디바이스에게 명령을 발송하는 단계를 포함한다. 명령은 선택된 음성-인에이블 디바이스가 태스크가 완료되었다는 표시를 출력하는 것을 요청할 수 있다. 다른 인스턴스들에서, 동작 (414)은 표시를 출력하는 단계를 (예를 들어, 스피치 출력을 제공하는 것, 응답을 디스플레이하는 것, 라이트 인에이블링, 등) 포함한다.
도 5 는 음성-인에이블 디바이스들 간에 중재할 것들을 선택하기 위한 최초 프로세싱을 수행하는 예제 프로세스(500)를 예시한다. 일부 경우들에서, 프로세스 (500)는 도 4의 프로세스 (400) 전에 수행될 수 있다. 다른 인스턴스들에서, 프로세스 (500)은 다른 시간들에 수행될 수 있다.
(502)에서, 음성-인에이블 디바이스와 연관된 오디오 신호가 생성된 시간이 결정될 수 있다. 동작 (502)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.
(504)에서, 음성-인에이블 디바이스의 위치가 결정될 수 있다. 동작 (504)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.
(506)에서, 음성-인에이블 디바이스와 연관된 계정(account)이 결정될 수 있다. 예를 들어, 동작 (506)은 음성-인에이블 디바이스가 등록된 유저 계정을 식별할 수 있다. 동작 (506)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.
(508)에서, 제 1 음성-인에이블 디바이스와 연관된 오디오 신호와 제 2 음성-인에이블 디바이스와 연관된 오디오 신호 사이의 유사도(similarity)가 결정될 수 있다.
(510)에서, 음성-인에이블 디바이스와 연관된 오디오 신호에 대한 인식 확신 스코어(recognition confidence score)가 결정될 수 있다. 인식 확신 스코어는 오디오 신호에 대한 워드의 인식에 관련한 확신 레벨을 표시할 수 있다. 동작 (510)은 다수의 음성-인에이블 디바이스들의 각각에 대하여 반복될 수 있다.
(512)에서, 오디오 소스의 위치가 결정될 수 있다. 예를 들어, 소스 위치 표시 알고리즘(source localization algorithm)이 유저가 위치된 곳 (예를 들어, 음성-인에이블 디바이스에 관련하여)을 결정하기 위해 사용될 수 있다. 소스 위치 표시 알고리즘은 SRP PHAT(Steered Response Power with Phase Transform), GCC PHAT(Generalized Crossed Correlation with Phase Transform), MVDR PHAT(Minimum Variance Distortionless Response with Phase Transform), 등등을 포함할 수 있다.
(514)에서, 최초 프로세싱이 수행될 수 있다. 최초 프로세싱은 음성-인에이블 디바이스들 간에 중재할 것들을 선택할 수 있다. 최초 프로세싱은 동작들 (502-512) 중 하나 이상의 결정들에 기반될 수 있다. 예를 들어, 만약 관련된 오디오 신호들이 동시에 또는 서로 임계 시간 양내에 (예를 들어, 서로의 일초내에, 일초의 몇 분의 1 내에, 등) 생성되거나, 디바이스들이 서로 근접도내에 위치되고, 디바이스들이 동일한 계정과 연관되고, 디바이스들로부터 오디오 신호들이 유사도의 임계량을 가지고, 디바이스들로부터 오디오 신호들에 대하여 인식 확신 스코어들이 임계값을 각각 초과하고, 디바이스들이 오디오 소스 (예를 들어, 유저)에 미리 결정된 근접도 내에 위치되면, 등등 다수의 음성-인에이블 디바이스들이 선택될 수 있다.
비록 동작들 (502-512)이 최초 선택 프로세싱을 수행하는 상황으로 설명되었지만, 일부 경우들에서 동작들 (502-512)은 다른 상황들에서 수행될 수 있다. 예를 들어, 동작들 (502-512) 중 하나 이상의 결정들은 프로세스 (400)의 동작 (408)에서 음성-인에이블 디바이스를 선택할 때 보조하기 위해 사용될 수 잇다.
본 개시의 실시예들은 이하의 항목들을 고려하여 설명될 수 있다:
문단 A: 방법은: 컴퓨팅 디바이스에 의해, 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 단계; 상기 컴퓨팅 디바이스에 의해 그리고 상기 제 1 음성-인에이블 디바이스로부터, 제 1 빔성형된 오디오 신호와 관련된 신호대 잡음비를 나타내는 제 1 오디오 신호 메트릭 값을 수신하는 단계로서, 상기 제 1 빔성형된 오디오 신호는 상기 제 1 음성-인에이블 디바이스에서, 상기 제 1 음성-인에이블 디바이스에서 수신된 오디오 입력에 대하여 결정되어졌고, 상기 제 1 빔성형된 오디오 신호는 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되는, 상기 제 1 오디오 신호 메트릭 값을 수신하는 단계; 상기 컴퓨팅 디바이스에 의해 그리고 상기 제 2 음성-인에이블 디바이스로부터, 제 2 빔성형된 오디오 신호와 관련된 신호대 잡음비를 나타내는 제 2 오디오 신호 메트릭 값을 수신하는 단계로서, 상기 제 2 빔성형된 오디오 신호는 상기 제 2 음성-인에이블 디바이스에서, 상기 제 2 음성-인에이블 디바이스에서 수신된 오디오 입력에 대하여 결정되어졌고, 상기 제 2 빔성형된 오디오 신호는 상기 제 2 음성-인에이블 디바이스에 관한 방향에 대하여 결정되는, 상기 제 2 오디오 신호 메트릭 값을 수신하는 단계; 상기 컴퓨팅 디바이스에 의해, 상기 제 1 빔성형된 오디오 신호와 관련된 신호대 잡음비가 상기 제 2 빔성형된 오디오 신호와 관련된 신호대 잡음비보다 더 큰 지를 결정하는 단계; 상기 컴퓨팅 디바이스에 의해, 하나 이상의 스피치 인식 기술들을 이용하여 상기 제 1 빔성형된 오디오 신호를 프로세싱하는 단계; 상기 컴퓨팅 디바이스에 의해, 상기 오디오 입력과 관련된 태스크(task)를 수행하는 단계; 및 상기 컴퓨팅 디바이스에 의해, 명령을 상기 제 1 음성-인에이블 디바이스에 발송하는 단계를 포함하되, 상기 명령은 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청한다.
문단 B: 문단 A의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대하여 가장 큰 신호대 잡음비이고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 상이한 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.
문단 C: 문단 A 또는 B의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대한 평균 신호대 잡음비이고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.
문단 D: 문단 A-C 중 임의의 방법에 있어서, 상기 제 1 오디오 신호 메트릭 값의 신호대 잡음비는 복수의 상이한 빔성형된 오디오 신호들에 대하여 가장 높은 값을 갖는 신호대 잡음비와 가장 작은 값을 갖는 신호대 잡음비 간의 차이만큼 가중되고, 상기 복수의 상이한 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하고, 상기 복수의 상이한 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정되어진다.
문단 E: 시스템은 : 하나 이상의 프로세서들; 및 상기 하나 이상의 프로세서들에 통신 가능하게 결합되고, 실행가능한 명령들을 저장하는 메모리를 포함하되, 상기 명령들이 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 제 1 오디오 신호와 관련된 제 1 오디오 신호 메트릭 값(metric value)을 식별하는 단계로서, 상기 제 1 오디오 신호는 제 1 음성-인에이블 디바이스와 관련되는, 상기 제 1 오디오 신호 메트릭 값을 식별하는 단계; 제 2 오디오 신호와 관련된 제 2 오디오 신호 메트릭 값을 식별하는 단계로서, 상기 제 2 오디오 신호는 제 2 음성-인에이블 디바이스와 관련되는, 상기 제 2 오디오 신호 메트릭 값을 식별하는 단계; 적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값 및 상기 제 2 오디오 신호 메트릭 값에 기초하여, 상기 제 1 음성-인에이블 디바이스를 선택하는 단계; 및 상기 제 1 오디오 신호를 프로세싱하는 단계를 포함하는 동작들을 수행하게 한다.
문단 F: 문단 E의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 임계 시간량내에 생성되었는지를 결정하는 단계를 더 포함한다.
문단 G: 문단 E 또는 F의 시스템에 있어서, 상기 동작들은 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 서로 미리 결정된 거리내에 위치되는지를 결정하는 단계를 더 포함한다.
문단 H: 문단들 E-G 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 동일한 계정과 관련되는 지를 결정하는 단계를 더 포함한다.
문단 I: 문단들 E-H 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 유사도의 임계량을 갖는지를 결정하는 단계를 더 포함한다.
문단 J: 문단들 E-I 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호에 대한 제 1 인식 확신 스코어(recognition confidence score) 및 상기 제 2 오디오 신호에 대한 제 2 인식 확신 스코어가 각각 임계값을 초과하는지를 결정하는 단계를 더 포함하되, 상기 제 1 인식 확신 스코어는 워드(word)가 상기 제 1 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내고, 상기 제 2 인식 확신 스코어는 상기 워드 또는 상이한 워드가 상기 제 2 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타낸다.
문단 K: 문단들 E-J 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity) 중 하나를 포함한다.
문단 L: 문단들 E-K 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 것이고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련된다.
문단 M: 문단들 E-L 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들에 대한 평균 오디오 신호 메트릭 값을 포함하고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련된다.
문단 N: 문단들 E-M 중 임의의 시스템에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값과 가장 작은 값을 갖는 오디오 신호 메트릭 값 간에 차이 만큼 가중(weight)되고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 상기 제 1 오디오 신호 또는 상이한 오디오 신호와 관련된다.
문단 O: 문단들 E-N 중 임의의 시스템에 있어서, 상기 동작들은 상기 제 1 오디오 신호와 관련된 태스크를 수행하는 단계; 및 명령을 상기 제 1 음성-인에이블 디바이스에 발송하는 단계를 더 포함하되, 상기 명령은 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청한다.
문단 P: 시스템은: 하나 이상의 프로세서들; 및 상기 하나 이상의 프로세서들에 통신 가능하게 결합되고, 실행가능한 명령들을 저장하는 메모리를 포함하되, 상기 명령들이 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 단계; 적어도 부분적으로 상기 제 1 음성-인에이블 디바이스의 제 1 빔성형된(beamformed) 오디오 신호에 대한 제 1 오디오 신호 메트릭 값 및 상기 제 2 음성-인에이블 디바이스의 제 2 빔성형된 오디오 신호에 대한 제 2 오디오 신호 메트릭 값에 기초하여 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스를 순위 매김하는 단계(ranking); 상기 오디오 입력 프로세싱을 진행하기 위해 상기 제 1 음성-인에이블 디바이스를 선택하는 단계; 및 상기 제 1 빔성형된 오디오 신호가 프로세스되게 하는 단계를 포함하는 동작들을 수행하게 한다.
문단 Q: 문단 P의 시스템에 있어서, 상기 시스템은 상기 제 1 음성-인에이블 디바이스를 포함하고, 상기 제 1 음성-인에이블 디바이스는 :복수의 마이크로폰들을 포함하는 마이크로폰 어레이를 더 포함하되, 상기 복수의 마이크로폰들의 각각은 상기 오디오 입력에 대한 입력 신호를 결정하도록 구성되고; 상기 동작들은 : 적어도 부분적으로 상기 복수의 마이크로폰들로부터의 입력 신호들에 기초하여 복수의 빔성형된 오디오 신호들을 결정하는 단계로서, 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되고, 상기 복수의 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함하는, 상기 복수의 빔성형된 오디오 신호들을 결정하는 단계; 및 상기 제 1 오디오 신호 메트릭 값을 결정하는 단계를 더 포함한다.
문단 R: 문단들 P 또는 Q의 시스템에 있어서, 상기 동작들은 적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값에 기초하여 상기 복수의 빔성형된 오디오 신호들 중에서 상기 제 1 빔성형된 오디오 신호를 선택하는 단계를 더 포함한다.
문단 S: 문단들 P-R 중 임의의 시스템에 있어서, 상기 동작들은 : 상기 제 1 빔성형된 오디오 신호에 대한 제 3 오디오 신호 메트릭 값을 식별하는 단계;를 더 포함하고,상기 제 1 음성-인에이블 디바이스를 순위 매김하는 단계는 추가로 적어도 부분적으로 상기 제 3 오디오 신호 메트릭 값에 기반된다.
문단 T: 문단들 P-S 중 임의의 시스템에 있어서, 상기 동작들은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 빔성형된 오디오 신호 메트릭 값과 가장 작은 값을 갖는 빔성형된 오디오 신호 메트릭 값 간에 차이를 결정하는 단계로서, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에 의해 결정된 오디오 신호와 관련되는, 상기 차이를 결정하는 단계; 및 적어도 부분적으로 상기 차이에 기초하여, 상기 제 1 오디오 신호 메트릭 값을 가중시켜 가중된 제 1 오디오 신호 메트릭 값을 생성하는 단계;를 더 포함하되, 상기 제 1 음성-인에이블 디바이스를 순위 매김하는 단계는 적어도 부분적으로 상기 가중된 제 1 오디오 신호 메트릭 값에 기반된다.
결론(CONCLUSION)
실시예들이 구조적 특징들 및/또는 방법론 동작들에 대해 특정한 언어로 설명되었지만, 본 개시는 반드시 상술된 특정 특징들 또는 동작들에 제한되지 않는다는 것이 이해될 것이다. 오히려, 특정 특징들 및 동작들은 실시예들을 구현하는 예시적인 형태들로서 본 출원에 개시된다.

Claims (15)

  1. 시스템으로서,
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 통신가능하게 결합되고 실행가능한 명령어들을 저장하는 메모리를 포함하며, 상기 명령어들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금
    제 1 오디오 신호와 관련된 제 1 오디오 신호 메트릭 값(metric value)을 식별하는 동작 - 상기 제 1 오디오 신호는 제 1 음성-인에이블 디바이스(voice-enabled device)와 관련됨 -;
    제 2 오디오 신호와 관련된 제 2 오디오 신호 메트릭 값을 식별하는 동작 - 상기 제 2 오디오 신호는 제 2 음성-인에이블 디바이스와 관련됨 -;
    적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값 및 상기 제 2 오디오 신호 메트릭 값에 기초하여, 상기 제 1 음성-인에이블 디바이스를 선택하는 동작; 및
    상기 제 1 오디오 신호를 프로세싱하는 동작
    을 포함하는 동작들을 수행하게 하는, 시스템.
  2. 제1항에 있어서, 상기 동작들은
    상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 임계 시간량(threshold amount of time)내에 생성되었는지를 결정하는 동작을 더 포함하는, 시스템.
  3. 제1항 또는 제2항에 있어서, 상기 동작들은
    상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 서로 미리 결정된 거리내에 위치되는지를 결정하는 동작을 더 포함하는, 시스템.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 동작들은
    상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스가 동일한 계정과 관련되는지를 결정하는 동작을 더 포함하는, 시스템.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 동작들은
    상기 제 1 오디오 신호 및 상기 제 2 오디오 신호가 서로 유사도의 임계량을 갖는지를 결정하는 동작을 더 포함하는, 시스템.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 동작들은
    상기 제 1 오디오 신호에 대한 제 1 인식 확신 스코어(recognition confidence score) 및 상기 제 2 오디오 신호에 대한 제 2 인식 확신 스코어가 각각 임계값을 초과하는지를 결정하는 동작을 더 포함하며, 상기 제 1 인식 확신 스코어는 워드(word)가 상기 제 1 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내고, 상기 제 2 인식 확신 스코어는 상기 워드 또는 상이한 워드가 상기 제 2 오디오 신호에서 정확하게 감지되는지의 확신의 레벨을 나타내는, 시스템.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 신호대 잡음비, 스펙트럼 중심 측정값(spectral centroid measure), 스피치 에너지 레벨, 스펙트럼 플럭스(spectral flux), 특정 백분위(percentile) 주파수, 주기성(periodicity), 선명도(clarify), 조화도(harmonicity) 중 하나를 포함하는, 시스템.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 것이고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련되는, 시스템.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들에 대한 평균 오디오 신호 메트릭 값을 포함하고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 오디오 신호와 관련되는, 시스템.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 제 1 오디오 신호 메트릭 값은 복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 오디오 신호 메트릭 값과 가장 작은 값을 갖는 오디오 신호 메트릭 값 간에 차이 만큼 가중(weight)되고, 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에서 결정된 상기 제 1 오디오 신호 또는 상이한 오디오 신호와 관련되는, 시스템.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 동작들은
    상기 제 1 오디오 신호와 관련된 태스크를 프로세싱하는 동작; 및
    명령어를 상기 제 1 음성-인에이블 디바이스에 전송하는 동작을 더 포함하며, 상기 명령어는 상기 제 1 음성-인에이블 디바이스가 상기 태스크가 완료되었다는 표시를 출력하는 것을 요청하는, 시스템.
  12. 시스템으로서,
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 통신가능하게 결합되고 실행가능한 명령어들을 저장하는 메모리를 포함하며, 상기 명령어들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금
    제 1 음성-인에이블 디바이스 및 제 2 음성-인에이블 디바이스가 실질적으로 동일한 시간에 오디오 입력을 수신하였는지를 결정하는 동작;
    적어도 부분적으로 상기 제 1 음성-인에이블 디바이스의 제 1 빔성형된(beamformed) 오디오 신호에 대한 제 1 오디오 신호 메트릭 값 및 상기 제 2 음성-인에이블 디바이스의 제 2 빔성형된 오디오 신호에 대한 제 2 오디오 신호 메트릭 값에 기초하여 상기 제 1 음성-인에이블 디바이스 및 상기 제 2 음성-인에이블 디바이스를 순위 매김하는 동작(ranking);
    상기 오디오 입력의 프로세싱을 진행하기 위해 상기 제 1 음성-인에이블 디바이스를 선택하는 동작; 및
    상기 제 1 빔성형된 오디오 신호가 프로세스되게 하는 동작
    을 포함하는 동작들을 수행하게 하는, 시스템.
  13. 제12항에 있어서, 상기 시스템은 상기 제 1 음성-인에이블 디바이스를 포함하고, 상기 제 1 음성-인에이블 디바이스는 :
    복수의 마이크로폰들을 포함하는 마이크로폰 어레이를 더 포함하며, 상기 복수의 마이크로폰들의 각각은 상기 오디오 입력을 위한 입력 신호를 결정하도록 구성되고;
    상기 동작들은:
    적어도 부분적으로 상기 복수의 마이크로폰들로부터의 입력 신호들에 기초하여 복수의 빔성형된 오디오 신호들을 결정하는 동작 - 상기 복수의 빔성형된 오디오 신호들의 각각은 상기 제 1 음성-인에이블 디바이스에 관한 방향에 대하여 결정되고, 상기 복수의 빔성형된 오디오 신호들은 상기 제 1 빔성형된 오디오 신호를 포함함 -; 및
    상기 제 1 오디오 신호 메트릭 값을 결정하는 동작을 더 포함하는, 시스템.
  14. 제13항에 있어서, 상기 동작들은
    적어도 부분적으로 상기 제 1 오디오 신호 메트릭 값에 기초하여 상기 복수의 빔성형된 오디오 신호들 중에서 상기 제 1 빔성형된 오디오 신호를 선택하는 동작; 및
    상기 제 1 빔성형된 오디오 신호에 대한 제 3 오디오 신호 메트릭 값을 식별하는 동작을 더 포함하고,
    상기 제 1 음성-인에이블 디바이스를 순위 매김하는 동작은 추가로 적어도 부분적으로 상기 제 3 오디오 신호 메트릭 값에 기반되는, 시스템.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서, 상기 동작들은 :
    복수의 오디오 신호 메트릭 값들 중에서 가장 높은 값을 갖는 빔성형된 오디오 신호 메트릭 값과 가장 작은 값을 갖는 빔성형된 오디오 신호 메트릭 값 간에 차이를 결정하는 동작 - 상기 복수의 오디오 신호 메트릭 값들의 각각은 상기 제 1 음성-인에이블 디바이스에 의해 결정된 오디오 신호와 관련됨 -; 및
    적어도 부분적으로 상기 차이에 기초하여, 상기 제 1 오디오 신호 메트릭 값을 가중시켜 가중된 제 1 오디오 신호 메트릭 값을 생성하는 동작을 더 포함하며,
    상기 제 1 음성-인에이블 디바이스를 순위 매김하는 동작은 적어도 부분적으로 상기 가중된 제 1 오디오 신호 메트릭 값에 기반되는, 시스템.
KR1020187006764A 2015-09-11 2016-09-08 음성-인에이블 디바이스들 간 중재 KR102089485B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/852,022 2015-09-11
US14/852,022 US10026399B2 (en) 2015-09-11 2015-09-11 Arbitration between voice-enabled devices
PCT/US2016/050784 WO2017044629A1 (en) 2015-09-11 2016-09-08 Arbitration between voice-enabled devices

Publications (2)

Publication Number Publication Date
KR20180039135A true KR20180039135A (ko) 2018-04-17
KR102089485B1 KR102089485B1 (ko) 2020-03-17

Family

ID=56940440

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187006764A KR102089485B1 (ko) 2015-09-11 2016-09-08 음성-인에이블 디바이스들 간 중재

Country Status (7)

Country Link
US (1) US10026399B2 (ko)
EP (1) EP3347894B1 (ko)
JP (1) JP6640993B2 (ko)
KR (1) KR102089485B1 (ko)
CN (1) CN107924681B (ko)
CA (1) CA2997934C (ko)
WO (1) WO2017044629A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190075870A (ko) * 2019-06-11 2019-07-01 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스
KR20190084003A (ko) * 2019-06-25 2019-07-15 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법 및 장치
KR20190096860A (ko) * 2019-04-25 2019-08-20 엘지전자 주식회사 지능형 음성 인에이블 디바이스 검색 방법 및 장치
KR102051011B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
KR102051016B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
WO2021225282A1 (en) * 2020-05-07 2021-11-11 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20220049778A (ko) 2020-10-15 2022-04-22 주식회사 케이티 복수의 음성 인식 단말을 이용하여 음성 인식 서비스를 제공하는 서버, 음성 인식 단말 및 방법

Families Citing this family (294)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10147441B1 (en) * 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
JP6564058B2 (ja) * 2015-04-10 2019-08-21 華為技術有限公司Huawei Technologies Co.,Ltd. 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US9947323B2 (en) * 2016-04-01 2018-04-17 Intel Corporation Synthetic oversampling to enhance speaker identification or verification
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
EP3637414B1 (en) * 2016-11-07 2024-01-03 Google LLC Recorded media hotword trigger suppression
EP3542547B1 (en) 2016-11-21 2020-07-15 Harman Becker Automotive Systems GmbH Adaptive beamforming
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10264358B2 (en) 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US10839795B2 (en) * 2017-02-15 2020-11-17 Amazon Technologies, Inc. Implicit target selection for multiple audio playback devices in an environment
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107154265A (zh) * 2017-03-30 2017-09-12 联想(北京)有限公司 一种采集控制方法及电子设备
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10069976B1 (en) * 2017-06-13 2018-09-04 Harman International Industries, Incorporated Voice agent forwarding
US10636428B2 (en) 2017-06-29 2020-04-28 Microsoft Technology Licensing, Llc Determining a target device for voice command interaction
US10360909B2 (en) * 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US11205421B2 (en) * 2017-07-28 2021-12-21 Cerence Operating Company Selection system and method
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
EP3447768A1 (en) * 2017-08-21 2019-02-27 Vestel Elektronik Sanayi ve Ticaret A.S. Method of transferring a call, user device and a computer program
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10224033B1 (en) * 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
KR20190033384A (ko) * 2017-09-21 2019-03-29 삼성전자주식회사 사용자 발화를 처리하기 위한 전자 장치 및 그 전자 장치의 제어 방법
WO2019059939A1 (en) * 2017-09-25 2019-03-28 Bose Corporation SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP3467819B1 (en) * 2017-10-05 2024-06-12 Harman Becker Automotive Systems GmbH Apparatus and method using multiple voice command devices
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
KR102517219B1 (ko) * 2017-11-23 2023-04-03 삼성전자주식회사 전자장치 및 그 제어방법
EP3493200B1 (en) * 2017-11-30 2023-07-26 Vestel Elektronik Sanayi ve Ticaret A.S. Voice-controllable device and method of voice control
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
CN116705020A (zh) 2017-12-08 2023-09-05 谷歌有限责任公司 使设备与环境中的多个设备隔离以响应口头助理调用
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10536287B1 (en) 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536286B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536288B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108510987B (zh) * 2018-03-26 2020-10-23 北京小米移动软件有限公司 语音处理方法及装置
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10679629B2 (en) * 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
US11145299B2 (en) * 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
DE102018110759A1 (de) 2018-05-04 2019-11-07 Sennheiser Electronic Gmbh & Co. Kg Mikrofonarray
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10607610B2 (en) 2018-05-29 2020-03-31 Nortek Security & Control Llc Audio firewall
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10714085B2 (en) 2018-06-06 2020-07-14 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
WO2019236745A1 (en) * 2018-06-06 2019-12-12 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
US10847153B2 (en) 2018-06-06 2020-11-24 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
US10681460B2 (en) * 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
NO20181210A1 (en) 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
US11076018B1 (en) * 2018-09-04 2021-07-27 Amazon Technologies, Inc. Account association for voice-enabled devices
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
WO2020060311A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100926B2 (en) 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
KR20200052804A (ko) 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
KR20200047311A (ko) * 2018-10-24 2020-05-07 삼성전자주식회사 복수의 장치들이 있는 환경에서의 음성 인식 방법 및 장치
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074680A (ko) 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11503422B2 (en) 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
US11417323B2 (en) 2019-02-27 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20200109140A (ko) * 2019-03-12 2020-09-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR20210151089A (ko) 2019-04-09 2021-12-13 하만인터내셔날인더스트리스인코포레이티드 차량 시스템의 음성 제어
CN111862988B (zh) * 2019-04-26 2023-03-03 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
US11120794B2 (en) * 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11056114B2 (en) 2019-05-30 2021-07-06 International Business Machines Corporation Voice response interfacing with multiple smart devices of different types
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
JP2022542113A (ja) * 2019-07-30 2022-09-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数装置の起動ワード検出
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110517676A (zh) * 2019-08-21 2019-11-29 Oppo广东移动通信有限公司 一种语音唤醒方法及终端、服务器、存储介质
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
CN110517682B (zh) * 2019-09-02 2022-08-30 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110718219B (zh) * 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11238853B2 (en) * 2019-10-30 2022-02-01 Comcast Cable Communications, Llc Keyword-based audio source localization
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及系统
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
CN113345421B (zh) * 2020-02-18 2022-08-02 中国科学院声学研究所 一种基于角度谱特征的多通道远场的目标语音识别方法
KR20210110068A (ko) 2020-02-28 2021-09-07 삼성전자주식회사 제스처 인식 기반의 영상 편집 방법 및 이를 지원하는 전자 장치
KR20210117488A (ko) * 2020-03-19 2021-09-29 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 방법
US11538483B2 (en) * 2020-03-25 2022-12-27 Vmware, Inc. Task redirection by a voice assistant
CN111540350B (zh) * 2020-03-31 2024-03-01 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
CN111640431B (zh) * 2020-04-30 2023-10-27 海尔优家智能科技(北京)有限公司 一种设备响应处理方法及装置
US11810578B2 (en) * 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11393473B1 (en) * 2020-05-18 2022-07-19 Amazon Technologies, Inc. Device arbitration using audio characteristics
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
KR20210147678A (ko) * 2020-05-29 2021-12-07 엘지전자 주식회사 인공 지능 장치
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
KR20220034571A (ko) * 2020-09-11 2022-03-18 삼성전자주식회사 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법
EP4216211A4 (en) * 2020-10-30 2024-03-27 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
US11915697B2 (en) * 2020-11-11 2024-02-27 Samsung Electronics Co., Ltd. Electronic device, system and control method thereof
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
JP7154335B2 (ja) * 2021-03-18 2022-10-17 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US11915708B2 (en) * 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US12125297B2 (en) 2021-04-21 2024-10-22 Meta Platforms, Inc. Task execution based on real-world text detection for assistant systems
US12118790B2 (en) * 2021-04-21 2024-10-15 Meta Platforms, Inc. Auto-capture of interesting moments by assistant systems
US12131733B2 (en) 2021-04-21 2024-10-29 Meta Platforms, Inc. Active listening for assistant systems
US20220358917A1 (en) * 2021-04-21 2022-11-10 Meta Platforms, Inc. Multi-device Mediation for Assistant Systems
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
DE202022101069U1 (de) 2022-02-24 2022-03-23 Pankaj Agarwal Intelligentes Geräuscherkennungssystem auf der Grundlage der Verarbeitung mehrerer Geräusche durch künstliche Intelligenz

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57124626A (en) * 1981-01-23 1982-08-03 Toshiba Corp Cooker
AU730123B2 (en) * 1997-12-08 2001-02-22 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for processing sound signal
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6983244B2 (en) * 2003-08-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for improved speech recognition with supplementary information
ATE405925T1 (de) * 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
JP4821489B2 (ja) * 2006-08-04 2011-11-24 トヨタ自動車株式会社 ロボット装置及びロボット装置の制御方法
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8831944B2 (en) * 2009-12-15 2014-09-09 At&T Intellectual Property I, L.P. System and method for tightly coupling automatic speech recognition and search
JP5411807B2 (ja) * 2010-05-25 2014-02-12 日本電信電話株式会社 チャネル統合方法、チャネル統合装置、プログラム
CN103002171B (zh) * 2011-09-30 2015-04-29 斯凯普公司 处理音频信号的方法和装置
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9542947B2 (en) * 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
DE102014109121B4 (de) 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
US9432769B1 (en) * 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102051011B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
KR102051016B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
KR20190096860A (ko) * 2019-04-25 2019-08-20 엘지전자 주식회사 지능형 음성 인에이블 디바이스 검색 방법 및 장치
KR20190075870A (ko) * 2019-06-11 2019-07-01 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스
US11189268B2 (en) 2019-06-11 2021-11-30 Lg Electronics Inc. Method and apparatus for selecting voice-enabled device and intelligent computing device for controlling the same
KR20190084003A (ko) * 2019-06-25 2019-07-15 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법 및 장치
US11200897B2 (en) 2019-06-25 2021-12-14 Lg Electronics Inc. Method and apparatus for selecting voice-enabled device
WO2021225282A1 (en) * 2020-05-07 2021-11-11 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11594220B2 (en) 2020-05-07 2023-02-28 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20220049778A (ko) 2020-10-15 2022-04-22 주식회사 케이티 복수의 음성 인식 단말을 이용하여 음성 인식 서비스를 제공하는 서버, 음성 인식 단말 및 방법

Also Published As

Publication number Publication date
US10026399B2 (en) 2018-07-17
CA2997934C (en) 2021-03-23
EP3347894A1 (en) 2018-07-18
EP3347894B1 (en) 2020-04-08
JP2018532151A (ja) 2018-11-01
CA2997934A1 (en) 2017-03-16
KR102089485B1 (ko) 2020-03-17
CN107924681B (zh) 2022-05-17
WO2017044629A1 (en) 2017-03-16
US20170076720A1 (en) 2017-03-16
JP6640993B2 (ja) 2020-02-05
CN107924681A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
KR102089485B1 (ko) 음성-인에이블 디바이스들 간 중재
US12033632B2 (en) Context-based device arbitration
US11568867B2 (en) Detecting self-generated wake expressions
US12125483B1 (en) Determining device groups
CN108351872B (zh) 用于响应用户语音的方法和系统
EP3234945B1 (en) Application focus in speech-based systems
US9076450B1 (en) Directed audio for speech recognition
US9685171B1 (en) Multiple-stage adaptive filtering of audio signals
US11218802B1 (en) Beamformer rotation
WO2019073804A1 (ja) 音源方向推定装置および方法、並びにプログラム
US12002444B1 (en) Coordinated multi-device noise cancellation
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
Esaki et al. Estimating sound source depth using a small-size array
US20240205628A1 (en) Spatial Audio for Device Assistants
CN114325585A (zh) 声源定位方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant