KR20200089728A

KR20200089728A - 디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정

Info

Publication number: KR20200089728A
Application number: KR1020207018067A
Authority: KR
Inventors: 안술 코타리; 가우라브 바야; 타런 제인
Original assignee: 구글 엘엘씨
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2020-07-27
Also published as: US11705127B2; WO2019112625A1; KR20230004947A; CN111542810A; EP3707607B1; US20210304761A1; US11037555B2; US20200312317A1; CN111542810B; KR102480949B1; EP4191412A1; CN117632482A; JP6977169B2; JP2021513693A; EP3707607A1

Abstract

음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 것이 제공된다. 제1 및 제2 디지털 어시스턴트는 입력 오디오 신호를 검출하고, 신호 품질 체크를 수행하고, 제1 및 제2 디지털 어시스턴트가 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 제공할 수 있다. 시스템은 추가 프로세싱을 위해 제1 디지털 어시스턴트를 선택할 수 있다. 시스템은 명령을 포함하는 데이터 패킷을 제1 디지털 어시스턴트로부터 수신할 수 있다. 시스템은 복수의 네트워크 연결 디바이스들로부터 선택된 네트워크 연결 디바이스에 대해, 데이터 패킷들에 기초하여 액션 데이터 구조를 생성하고, 액션 데이터 구조를 선택된 네트워크 연결 디바이스에 전송할 수 있다.

Description

디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정

컴퓨팅 디바이스는 범위 내의 다른 컴퓨팅 디바이스에 의해 무선으로 발견될 수 있다. 그러나, 더 많은 수의 컴퓨팅 디바이스가 발견 가능한 범위 내에 있을 때, 컴퓨팅 디바이스는 서로 연결될 수 있고, 이에 따라 컴퓨팅 디바이스들 사이에 바람직하지 않은 간섭의 위험을 초래하고, 불필요한 네트워크 대역폭 사용 및 프로세서 이용을 증가시킬 수 있다.

적어도 하나의 양태는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 시스템에 관한 것이다. 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 제2 디지털 어시스턴트 컴퓨팅 디바이스를 포함하는 복수의 디지털 어시스턴트 컴퓨팅 디바이스를 포함할 수 있다. 복수의 디지털 어시스턴트 컴퓨팅 디바이스는 복수의 네트워크 연결 디바이스를 제어하도록 동작할 수 있다. 시스템은 조정자 컴포넌트 및 다이렉트 액션 애플리케이션 프로그래밍 인터페이스("API")를 실행하기 위한 하나 이상의 프로세서 및 메모리를 포함하는 데이터 프로세싱 시스템을 포함할 수 있다. 데이터 프로세싱 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하고, 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정할 수 있다. 시스템은 입력 오디오 신호를 검출하기 위한 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 포함할 수 있다. 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기를 포함할 수 있다. 신호 품질 검사기는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 시스템은 입력 오디오 신호를 검출하기 위한 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 포함할 수 있다. 시스템은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기를 포함할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 표시 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터의 표시를 수신할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 주 신호 프로세서로 설정된 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트를 선택할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 제1 디지털 어시스턴트 컴퓨팅 디바이스에 지시하여 상기 입력 오디오 신호를 프로세싱할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드에 진입하도록 지시할 수 있다. 다이렉트 액션 API는 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터 명령을 포함하는 데이터 패킷을 수신할 수 있다. 명령은 입력 오디오 신호에 기초하여 제1 디지털 어시스턴트에 의해 생성될 수 있다. 다이렉트 액션 API는 상기 복수의 네트워크 연결 디바이스로부터 선택된 네트워크 연결 디바이스에 대해, 상기 명령에 기초하여 액션 데이터 구조를 생성할 수 있다. 다이렉트 액션 API는 액션 데이터 구조를 네트워크 연결 디바이스에 전송하여 네트워크 연결 디바이스를 제어할 수 있다.

적어도 하나의 양태는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 방법에 관한 것이다. 방법은 입력 오디오 신호를 검출하는 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 포함할 수 있다. 방법은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기를 포함할 수 있다. 방법은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 하나 이상의 프로세서 및 메모리를 포함하는 데이터 프로세싱 시스템에 전송하는 단계를 포함할 수 있다. 방법은 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 입력 오디오 신호를 검출하는 단계를 포함할 수 있다. 상기 방법은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 단계를 포함할 수 있다. 상기 방법은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는 단계를 포함할 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시를 수신하는 단계를 포함할 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템에 의해, 주 신호 프로세서로 설정된 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트를 선택하는 단계를 포함할 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템이 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 지시하는 단계를 포함할 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템이 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드에 진입하도록 지시하는 단계를 포함할 수 있다. 상기 방법은 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 명령을 포함하는 데이터 패킷을 수신하는 데이터 프로세싱 시스템을 포함할 수 있다. 명령은 입력 오디오 신호에 기초하여 제1 디지털 어시스턴트에 의해 생성될 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템이 복수의 네트워크 연결 디바이스로부터 선택된 네트워크 연결 디바이스에 대해, 상기 명령에 기초하여 액션 데이터 구조를 생성하는 단계를 포함할 수 있다. 상기 방법은 상기 데이터 프로세싱 시스템이 상기 네트워크 연결 디바이스를 제어하기 위해 상기 액션 데이터 구조를 네트워크 연결 디바이스에 전송하는 단계를 포함할 수 있다.

적어도 하나의 양태는 디지털 어시스턴트 컴퓨팅 디바이스에 관한 것이다. 디지털 어시스턴트 컴퓨팅 디바이스는 입력 오디오 신호를 검출하기 위한 센서를 포함할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스는 오디오 드라이버 및 프리-프로세서 컴포넌트에 의해 실행되는 신호 품질 검사기를 포함할 수 있다. 프리-프로세서 컴포넌트는 센서 및 오디오 드라이버에 연결될 수 있다. 프리-프로세서 컴포넌트는 상기 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정할 수 있다. 프리-프로세서 컴포넌트는 상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 네트워크를 통해 데이터 프로세싱 시스템에 전송하여, 상기 데이터 프로세싱 시스템으로 하여금 상기 디지털 어시스턴트 컴퓨팅 디바이스로부터 상기 표시를 수신하게 할 수 있다. 데이터 프로세싱 시스템은 상기 디지털 컴퓨팅 디바이스가 주 신호 프로세서로 설정되고, 상기 입력 오디오 신호를 검출하는 제2 디지털 컴퓨팅 디바이스가 부 신호 프로세서로 설정된다고 결정할 수 있다. 상기 제2 디지털 컴퓨팅 디바이스는 상기 입력 오디오 신호를 프로세싱하도록 동작할 수 있다. 데이터 프로세싱 시스템은 상기 주 신호 프로세서로 설정된 상기 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 디지털 어시스턴트를 선택할 수 있다. 데이터 프로세싱 시스템은 상기 입력 오디오 신호를 프로세싱하기 위한 명령어를 상기 디지털 어시스턴트 컴퓨팅 디바이스에 전송할 수 있다. 데이터 프로세싱 시스템은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 대기 모드에 진입하는 명령어를 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 전송할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 입력 오디오 신호를 프로세싱하기 위한 명령어를 수신할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 입력 오디오 신호에 기초한 명령을 포함하는 데이터 패킷을 생성할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 데이터 프로세싱 시스템으로 하여금 복수의 네트워크 연결 디바이스들로부터 선택된 네트워크 연결 디바이스에 대해, 디지털 컴퓨팅 디바이스로부터 수신된 명령에 기초한 액션 데이터 구조를 생성하게 하는 데이터 패킷을 데이터 프로세싱 시스템에 전송할 수 있다. 데이터 프로세싱 시스템은 액션 데이터 구조를 네트워크 연결 디바이스에 전송하여 네트워크 연결 디바이스를 제어할 수 있다.

데이터 프로세싱 시스템은 오디오 입력 신호가 제2 디지털 어시스턴트 컴퓨팅 디바이스를 사용하기 위한 명령어를 포함한다고 결정할 수 있고, 입력 오디오 신호를 프로세싱하기 위해 제1 디지털 어시스턴트를 선택하는 것은 제2 디지털 어시스턴트 컴퓨팅 디바이스를 사용하기 위한 명령어를 무시하는 것을 포함할 수 있다.

복수의 디지털 어시스턴트 컴퓨팅 디바이스는 이종 디바이스일 수 있다. 예를 들어, 제1 디지털 어시스턴트 컴퓨팅 디바이스는 제1 유형의 디바이스를 포함할 수 있고, 제2 디지털 어시스턴트 컴퓨팅 디바이스는 제2 유형의 디바이스를 포함할 수 있다.

상기 제1 디지털 어시스턴트 컴퓨팅 디바이스, 제2 디지털 어시스턴트 컴퓨팅 디바이스 및 네트워크 연결 디바이스 각각은 어시스턴트 소프트웨어 개발 키트로 구성될 수 있다. 제1 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함할 수 있다. 제2 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함할 수 있다. 네트워크 연결 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스, 웨어러블 디바이스, 디지털 램프, 디지털 온도 조절기, 디지털 기기 및 디지털 자동차 중 적어도 하나를 포함할 수 있다.

방법은 데이터 프로세싱 시스템에서 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하는 단계, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하는 단계, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성과 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성의 비교에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하도록 결정하는 단계, 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하는 단계를 더 포함할 수 있다.

상기 방법은 상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제1 링크 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제2 링크를 상기 메모리의 중앙화된 계정에 저장하는 단계를 포함할 수 있다. 상기 데이터 프로세싱 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 선택에 응답하여, 상기 제1 링크에 기초하여, 상기 액션 데이터 구조의 생성을 위한 정보를 검색하는 것에 응답하여 상기 중앙화된 계정에 액세스할 수 있다.

상기 중앙화된 계정은 상기 제1 디지털 어시스턴트 및 상기 제2 디지털 어시스턴트 중 적어도 하나에 대한 링크를 갖는 복수의 이종 네트워크 연결 디바이스와 연관된 정보를 저장할 수 있다.

데이터 프로세싱 시스템은 기계 학습 모델에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하도록 결정할 수 있다.

데이터 프로세싱 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화를 검출하고 그리고 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화에 기초하여, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 스위칭하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 스위칭할 수 있다.

데이터 프로세싱 시스템은 기계 학습 모델에 기초하여, 신호 프로세싱을 위한 임계치를 결정하고, 상기 임계치를 메모리의 중앙화된 계정에 저장할 수 있다.

상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서는 제2 입력 오디오 신호를 수신할 수 있다. 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 상기 신호 품질 검사기는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족하지 않는다고 결정하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서는 제2 입력 오디오 신호를 수신할 수 있다. 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 상기 신호 품질 검사기는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 데이터 프로세싱 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 수신하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 수신하고, 그리고 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 것에 기초하여, 상기 제2 입력 오디오 신호를 프로세싱하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅을 선택할 수 있다. 다이렉트 액션 API는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터 제2 명령을 포함하는 데이터 패킷을 수신할 수 있다.

적어도 하나의 양태는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 방법을 수행하도록 구성된 시스템에 관한 것이다. 예를 들어, 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 제2 디지털 어시스턴트 컴퓨팅 디바이스를 포함하는 복수의 디지털 어시스턴트 컴퓨팅 디바이스를 포함할 수 있다. 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 제2 디지털 어시스턴트 컴퓨팅 디바이스 둘 모두에 의해 제어 가능한 인터페이스를 실행하는 네트워크 연결 디바이스를 포함할 수 있다. 시스템은 조정자 컴포넌트 및 다이렉트 액션 애플리케이션 프로그래밍 인터페이스("API")를 실행하기 위한 하나 이상의 프로세서 및 메모리를 포함하는 데이터 프로세싱 시스템을 포함할 수 있다. 데이터 프로세싱 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하고, 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정할 수 있다. 시스템은 입력 오디오 신호를 검출하기 위한 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 포함할 수 있다. 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기를 포함할 수 있다. 신호 품질 검사기는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 시스템은 입력 오디오 신호를 검출하기 위한 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 포함할 수 있다. 시스템은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기를 포함할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 표시 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터의 표시를 수신할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 주 신호 프로세서로 설정된 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트를 선택할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 제1 디지털 어시스턴트 컴퓨팅 디바이스에 지시하여 상기 입력 오디오 신호를 프로세싱할 수 있다. 데이터 프로세싱 시스템의 조정자 컴포넌트는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드에 진입하도록 지시할 수 있다. 다이렉트 액션 API는 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터 명령을 포함하는 데이터 패킷을 수신할 수 있다. 명령은 입력 오디오 신호에 기초하여 제1 디지털 어시스턴트에 의해 생성될 수 있다. 다이렉트 액션 API는 명령에 기초하여 액션 데이터 구조를 생성할 수 있다. 다이렉트 액션 API는 액션 데이터 구조를 네트워크 연결된 디바이스에 전송하여 네트워크 연결 디바이스를 제어할 수 있다.

적어도 하나의 양태는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 방법을 수행하도록 구성된 디지털 어시스턴트 디바이스에 관한 것이다. 예를 들어, 디지털 어시스턴트 디바이스는 입력 오디오 신호를 검출하기 위한 센서를 포함할 수 있다. 디지털 어시스턴트 디바이스는 오디오 드라이버 및 프리-프로세서 컴포넌트에 의해 실행되는 신호 품질 검사기를 포함할 수 있다. 프리-프로세서 컴포넌트는 센서 및 오디오 드라이버에 연결될 수 있다. 프리-프로세서 컴포넌트는 상기 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정할 수 있다. 프리-프로세서 컴포넌트는 상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 네트워크를 통해 데이터 프로세싱 시스템에 전송하여, 상기 데이터 프로세싱 시스템으로 하여금 상기 디지털 어시스턴트 컴퓨팅 디바이스로부터 상기 표시를 수신하게 할 수 있다. 데이터 프로세싱 시스템은 상기 디지털 컴퓨팅 디바이스가 주 신호 프로세서로 설정되고, 상기 입력 오디오 신호를 검출하는 제2 디지털 컴퓨팅 디바이스가 부 신호 프로세서로 설정된다고 결정할 수 있다. 상기 제2 디지털 컴퓨팅 디바이스는 상기 입력 오디오 신호를 프로세싱하도록 동작할 수 있다. 데이터 프로세싱 시스템은 상기 주 신호 프로세서로 설정된 상기 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 디지털 어시스턴트를 선택할 수 있다. 데이터 프로세싱 시스템은 상기 입력 오디오 신호를 프로세싱하기 위한 명령어를 상기 디지털 어시스턴트 컴퓨팅 디바이스에 전송할 수 있다. 데이터 프로세싱 시스템은 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 대기 모드에 진입하는 명령어를 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 전송할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 입력 오디오 신호를 프로세싱하기 위한 명령어를 수신할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 입력 오디오 신호에 기초한 명령을 포함하는 데이터 패킷을 생성할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스의 프리-프로세서 컴포넌트는 데이터 프로세싱 시스템으로 하여금 디지털 컴퓨팅 디바이스로부터 수신된 명령에 기초하여 액션 데이터 구조를 생성하게 하기 위한 데이터 패킷을 데이터 프로세싱 시스템에 전송할 수 있다. 데이터 프로세싱 시스템은 액션 데이터 구조를 네트워크 연결 디바이스에 전송하여 네트워크 연결 디바이스를 제어할 수 있다.

디지털 어시스턴트 디바이스는 오디오 드라이버 및 스피커 컴포넌트를 포함할 수 있다. 상기 프리-프로세서 컴포넌트를 포함하며, 상기 프리-프로세서 컴포넌트는 상기 네트워크 연결 디바이스에 전송된 상기 액션 데이터 구조의 상태의 표시를 수신하고, 상기 오디오 드라이버에 지시하여 상기 스피커 컴포넌트로 하여금 상기 상태의 표시에 대응하는 오디오 출력을 전송하게 하는 출력 오디오 신호를 생성할 수 있다.

이들 및 다른 양태들 및 구현예들은 아래에서 상세히 논의된다. 전술한 정보 및 다음의 상세한 설명은 다양한 양태들 및 구현예들의 예시적 실시예를 포함하고, 청구된 양태들 및 구현예들의 본질 및 특성을 이해하기 위한 개요 또는 프레임워크를 제공한다. 도면은 다양한 양태들 및 구현예들의 예시 및 추가 이해를 제공하며, 본 명세서에 통합되어 본 명세서의 일부를 구성한다.

첨부된 도면은 일정한 비율로 도시된 것이 아니다. 다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다. 명확성을 위해 모든 도면에서 모든 컴포넌트가 라벨링된 것은 아니다. 도면에서:
도 1은 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하기 위한 시스템의 예시이다.
도 2는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하기 위한 시스템의 동작을 도시한 도면이다.
도 3은 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 방법의 예시이다.
도 4는 본 명세서에 기술되고 도시된 시스템 및 방법의 구성요소를 구현하기 위해 사용될 수 있는 컴퓨터 시스템을 위한 일반적인 아키텍처를 도시하는 블록도이다.

아래에 설명되는 것은 컴퓨터 네트워크를 통해 패킷화된 액션들을 라우팅하는 방법, 디바이스 및 시스템과 관련된 다양한 개념 및 구현예들에 대한 보다 상세한 설명이다. 위에서 소개되고 아래에서 더 상세하게 논의되는 다양한 개념은 수많은 방식으로 구현될 수 있다.

본 개시는 일반적으로 디지털 음성 어시스턴트 컴퓨팅 디바이스들 간의 신호 프로세싱을 조정하는 것에 관한 것이다. 예를 들어, 다수의 네트워크 연결 디바이스는 방에 있을 수 있으며, 켜진 모드, 상시 켜진 모드, 검색 가능 모드 또는 항상 검색 가능 모드에 있을 수 있다. 네트워크 연결 디바이스를 검색할 수 있는 경우, 디지털 어시스턴트 컴퓨팅 디바이스는 명령어 또는 명령에 응답하여 네트워크 연결 디바이스를 제어하려고 시도 할 수 있다. 다수의 디지털 어시스턴트 컴퓨팅 디바이스가 방에 위치하면, 각각의 디지털 어시스턴트 컴퓨팅 디바이스는 음성 쿼리에 응답하여 동일한 네트워크 연결 디바이스와 인터렉션하거나 제어하려고 시도할 수 있다. 또한, 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스에 의해 제어될 수 있는 다수의 네트워크 연결 디바이스가 있는 경우, 시스템은 잘못된 네트워크 연결 디바이스를 잘못 제어할 수 있다. 따라서, 다수의 디지털 어시스턴트 컴퓨팅 디바이스가 음성 명령을 수신하고 다수의 네트워크 연결 디바이스를 제어할 수 있는 음성 기반 컴퓨팅 환경에서, 중복 프로세싱으로 인해 컴퓨팅 리소스가 낭비될 수 있거나, 중복으로 명령이 네트워크 제어 디바이스에 잘못 전송되어 에러가 발생할 수 있다. 예를 들어, 음성 명령이 거실의 온도를 높이라는 것이었고, 2개의 디지털 어시스턴트 컴퓨팅 디바이스가 음성 명령을 검출한 경우, 실수로 집안의 여러 온도 조절기(예: 거실 온도 조절기 및 침실 온도 조절기)에 명령어를 송신할 수 있고, 그에 의해 온도 조절기가 온도를 두번 높이거나, 다수의 온도 조절기가 온도를 올리거나 또는 잘못된 온도 조절기로 하여금 명령어를 무시하게 하여, 컴퓨팅 리소스가 낭비되게 한다.

본 솔루션의 시스템 및 방법은 디지털 음성 어시스턴트 컴퓨팅 디바이스 또는 네트워크 연결 디바이스 사이에서 신호 프로세싱을 조정한다. 디지털 음성 어시스턴트 컴퓨팅 디바이스는 각각 동일한 입력 오디오 신호를 검출한 후, 중앙화된 데이터 프로세싱 시스템으로 표시를 전송할 수 있다. 데이터 프로세싱 시스템은 입력 오디오 신호 또는 입력 오디오 신호를 운반하는 데이터 패킷을 분석하고, 복수의 네트워크 연결 디바이스들 중 네트워크 연결 디바이스를 선택하고, 선택된 네트워크 연결 디바이스에 대한 액션 데이터 구조를 생성할 수 있다. 데이터 프로세싱 시스템은 액션 데이터 구조를 대응하는 네트워크 연결 디바이스에 전송하여 원하는 액션을 수행할 수 있다.

데이터 프로세싱 시스템은 기계 학습을 사용하여 액션을 수행하기 위해 디지털 어시스턴트 컴퓨팅 디바이스 또는 네트워크 연결 디바이스 중 하나를 선택할 수 있다. 예를 들어, 원하는 액션을 수행할 수 있는 다수의 네트워크 연결 디바이스가 있을 수 있다. 데이터 프로세싱 시스템은 기계 학습을 활용하여 원하는 액션을 수행하기 위해 네트워크 연결 디바이스를 선택할 수 있다. 일부 경우에, 데이터 프로세싱 시스템은 타이 브레이킹 로직을 활용하여 네트워크 컴퓨팅 디바이스 중 하나를 선택하여 액션을 수행할 수 있다.

도 1은 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하기 위한 예시적 시스템(100)을 도시한다. 시스템(100)은 콘텐츠 선택 인프라를 포함할 수 있다. 시스템(100)은 데이터 프로세싱 시스템(102)을 포함할 수 있다. 데이터 프로세싱 시스템(102)은 네트워크(105)를 통해, 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 네트워크 연결 디바이스(106) 중 하나 이상과 통신할 수 있다. 네트워크(105)는 인터넷, 로컬, 와이드, 메트로 또는 다른 영역 네트워크, 인트라넷, 위성 네트워크 및 음성 또는 데이터 모바일폰 통신 네트워크와 같은 다른 컴퓨터 네트워크들과 같은 컴퓨터 네트워크를 포함할 수 있다. 네트워크(105)는 적어도 하나의 디지털 어시스턴트 컴퓨팅 디바이스(104)에서 제시, 출력, 렌더링 또는 디스플레이될 수 있는 웹페이지, 웹사이트, 도메인 이름, 또는 URL과 같은 정보 리소스들에 액세스하기 위해 사용될 수 있다. 예를 들어, 네트워크(105)를 통해, 컴퓨팅 디바이스(104)의 사용자는 데이터 프로세싱 시스템(102)에 의해 제공된 정보 또는 데이터에 액세스하거나 네트워크 연결 디바이스(106)와 인터렉션할 수 있다.

네트워크(105)는 임의의 유형 또는 형태의 네트워크일 수 있으며, 포인트-투-포인트 네트워크, 브로드캐스트 네트워크, 광역 네트워크, 근거리 네트워크, 전화통신 네트워크, 데이터 통신 네트워크, 컴퓨터 네트워크, ATM(Asynchronous Transfer Mode) 네트워크, SONET(Synchronous Optical Network) 네트워크, SDH(Synchronous Digital Hierarchy) 네트워크, 무선 네트워크 및 유선 네트워크 중 임의의 것을 포함할 수 있다. 네트워크(105)는 적외선 채널 또는 위성 대역과 같은 무선 링크를 포함할 수 있다. 네트워크(105)의 토폴로지는 버스, 스타 또는 링 네트워크 토폴로지를 포함할 수 있다. 네트워크는 어드밴스드 모바일폰 프로토콜("AMPS"), 시분할 다중 액세스("TDMA"), 코드 분할 다중 액세스("CDMA"), 글로벌 이동 통신 시스템("GSM"), 일반 패킷 무선 서비스("GPRS") 또는 범용 이동 통신 시스템("UMTS")을 포함하는 모바일 디바이스들 간에 통신하는데 사용되는 임의의 프로토콜 또는 프로토콜들을 사용하는 모바일 전화 네트워크들을 포함할 수 있다. 상이한 유형의 데이터는 상이한 프로토콜을 통해 전송될 수 있거나, 동일한 유형의 데이터가 상이한 프로토콜들을 통해 전송될 수 있다.

시스템(100)은 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 포함할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 음성 기반 인터렉션을 제공하는 디지털 어시스턴트 소프트웨어 개발 킷 또는 기능으로 구성된 랩톱, 데스크톱, 태블릿 컴퓨팅 디바이스, 로컬 컴퓨팅 디바이스, 스마트폰, 휴대용 컴퓨터 또는 스피커를 포함하거나 지칭할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 디스플레이를 포함하거나 포함하지 않을 수 있으며; 예를 들어, 컴퓨팅 디바이스는 마이크로폰 및 스피커와 같은 제한된 유형의 사용자 인터페이스를 포함할 수 있다. 일부 경우에, 디지털 어시스턴트 컴퓨팅 디바이스(104)의 주요 사용자 인터페이스는 마이크로폰 및 스피커 또는 음성 인터페이스일 수 있다.

디지털 어시스턴트 컴퓨팅 디바이스(104)는 하드웨어 디바이스를 지칭할 수 있지만, 일부 경우에, 디지털 어시스턴트 컴퓨팅 디바이스(104)는 하드웨어 및 소프트웨어 컴포넌트의 조합을 지칭할 수 있다. 일부 경우에, 디지털 어시스턴트 컴퓨팅 디바이스(104)는 본 개시의 시스템 및 방법과 연관된 하나 이상의 기능을 수행하도록 구성된 컴퓨팅 디바이스(104)상에서 실행되는 애플리케이션과 같은 소프트웨어 컴포넌트 또는 모듈을 지칭할 수 있다.

디지털 어시스턴트 컴퓨팅 디바이스(104)는 적어도 하나의 광원(126), 센서(128), 트랜스듀서(130), 오디오 드라이버(132) 또는 프리-프로세서(134)를 포함하거나 이와 인터페이스 또는 통신할 수 있다. 광원(126)은 광 표시기, 발광 다이오드("LED"), 유기 발광 다이오드("OLED") 또는 시각적 또는 광학적 출력을 제공하도록 구성된 다른 시각적 표시기를 포함할 수 있다. 센서(128)는 예를 들어 주변 광 센서, 근접 센서, 온도 센서, 가속도계, 자이로스코프, 모션 검출기, GPS 센서, 위치 센서, 마이크로폰 또는 터치 센서를 포함할 수 있다. 트랜스듀서(130)는 스피커 또는 마이크로폰을 포함할 수 있다. 오디오 드라이버(132)는 하드웨어 트랜스듀서(130)에 소프트웨어 인터페이스를 제공할 수 있다. 오디오 드라이버는 오디오 파일 또는 데이터 프로세싱 시스템(102)에 의해 제공된 다른 명령어들을 실행하여 트랜스듀서(130)를 제어하여 대응하는 음향 파장 또는 음파를 생성할 수 있다. 프리-프로세서(134)는 키워드를 검출하고 키워드에 기초한 액션을 수행하도록 구성된 하드웨어를 포함하는 프로세싱 유닛을 포함할 수 있다. 프리-프로세서(134)는 추가 프로세싱을 위해 용어를 데이터 프로세싱 시스템(102)에 전송하기 전에 하나 이상의 용어들을 필터링하거나 용어를 수정할 수 있다. 프리-프로세서(134)는 마이크로폰에 의해 검출된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고, 디지털 오디오 신호를 운반하는 하나 이상의 데이터 패킷을 네트워크(105)를 통해 데이터 프로세싱 시스템(102)에 전송할 수 있다. 일부 경우에, 프리-프로세서(134)는 그러한 전송을 수행하기 위한 명령어를 검출하는 것에 응답하여 입력 오디오 신호의 일부 또는 전부를 운반하는 데이터 패킷을 전송할 수 있다. 명령어는 예를 들어, 입력 오디오 신호를 포함하는 데이터 패킷을 데이터 프로세싱 시스템(102)에 전송하기 위한 트리거 키워드 또는 다른 키워드 또는 승인을 포함할 수 있다. 프리-프로세서(134)는 입력 신호를 검출하고 입력 신호가 신호 프로세싱을 위한 임계치를 만족하는지 여부를 결정하는 신호 품질 검사기(136)를 포함하거나 실행할 수 있다.

디지털 어시스턴트 컴퓨팅 디바이스(104)는 (센서(128)를 통해) 음성 쿼리를 오디오 입력으로서 디지털 어시스턴트 컴퓨팅 디바이스(104)에 입력하고, 트랜스듀서(130)(예: 스피커)로부터의 출력인, 데이터 프로세싱 시스템(102)으로부터 로컬 클라이언트 디지털 어시스턴트 컴퓨팅 디바이스(104)에 제공될 수 있는 컴퓨터 생성 음성의 형태로 오디오 출력을 수신하는 최종 사용자와 연관될 수 있다. 컴퓨터 생성 음성은 실제 사람 또는 컴퓨터 생성 언어의 녹음을 포함할 수 있다.

디지털 어시스턴트 컴퓨팅 디바이스(104)는 사용자가 음성 입력 또는 다른 입력을 사용하여 디지털 어시스턴트 컴퓨팅 디바이스(104)와 인터렉션할 수 있는 위치에 포지셔닝될 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 데이터 프로세싱 시스템(102)과 같은 원격 서버로부터 원격에 위치될 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 사용자가 음성 입력을 사용하여 디지털 어시스턴트 컴퓨팅 디바이스(104)와 인터렉션할 수 있는 집, 콘도, 아파트, 사무실, 호텔 방, 몰, 큐비클 또는 다른 건물 또는 거주지에 포지셔닝될 수 있지만, 데이터 프로세싱 시스템(102)은 예를 들어 데이터 센터에 원격으로 위치될 수 있다.

시스템(100)은 사용자로부터 입력 오디오 신호를 수신하도록 동작하는 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 포함할 수 있다. 예를 들어, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 둘 모두가 입력 오디오 신호를 검출할 수 있도록 지역, 영역 또는 방 내에 배치, 포지셔닝 또는 다른 방식으로 위치될 수 있다. 입력 오디오 신호는 최종 사용자가 제공하거나 발화한 음성 또는 음향파를 포함할 수 있다. 입력 오디오 신호는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 둘 모두에 의해 검출될 수 있다. 입력 오디오 신호는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나가 입력 오디오 신호를 프로세싱하도록 특정하는 식별 정보를 포함하지 않을 수 있다.

일부 경우에, 입력 오디오 신호는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 어느 것이 입력 오디오 신호를 프로세싱할 것인지를 특정하는 식별 정보를 포함할 수 있다. 식별 정보는 "제1", "홈", "거실" 또는 "주방"과 같은 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)에 할당된 라벨 또는 다른 식별자를 포함할 수 있다. 식별 정보는 영숫자 값을 포함할 수 있다. 일부 경우에, 입력 오디오 신호가 추가 프로세싱에 사용할 제1 또는 제2 디지털 컴퓨팅 디바이스(104) 중 하나를 선택하는데 사용될 수 있는 식별 정보를 포함하는 경우, 데이터 프로세싱 시스템(102)은 대응하는 디지털 어시스턴트 컴퓨팅 디바이스에 지시하여 추가 신호 프로세싱을 수행할 수 있다. 일부 경우에, 데이터 프로세싱 시스템(102)은 식별 정보를 무시하고 입력 오디오 신호에서 식별되지 않을 수 있는 디지털 어시스턴트 컴퓨팅 디바이스(104)를 선택하기로 결정할 수 있다. 데이터 프로세싱 시스템(102)은 정책에 기초하여, 입력 오디오 신호에서 식별되지 않은 디지털 어시스턴트 컴퓨팅 디바이스가 입력 오디오 신호에서 식별되었던 디지털 어시스턴트 컴퓨팅 디바이스에 비해 입력 오디오 신호를 프로세싱하기에 더 적합할 수 있다고 결정할 수 있다. 입력 오디오 신호에서 식별되지 않은 디지털 어시스턴트 컴퓨팅 디바이스는 입력 오디오 신호의 고품질 버전을 검출했거나(예: 입력 오디오 신호의 소스가 더 가까이 위치될 수 있거나, 마이크로폰의 품질이 더 높을 수 있음), 더 빠른 프로세서를 가지거나, 더 많은 가용 메모리를 가지거나, 더 빠른 네트워크 연결을 가지거나, 더 많은 배터리가 남아 있거나 전원 콘센트에 연결되어 있거나 또는 더 많거나 더 높은 품질의 입/출력 인터페이스(예: 다수의 마이크로폰, 스피커, 디스플레이, 터치 인터페이스, 제스처 인터페이스, 센서, 키보드 또는 마우스)를 가지기 때문에 입력 오디오 신호를 프로세싱하는데 더 적합할 수 있다. 이러한 방식으로, 시스템(100)은 입력 오디오 신호의 보다 정확한 프로세싱을 지원할 수 있다.

디지털 어시스턴트 컴퓨팅 디바이스(104)는 신호 품질 검사기(136)를 포함, 액세스 또는 이와 인터렉션할 수 있다. 신호 품질 검사기(136)는 하드웨어 또는 소프트웨어 컴포넌트 또는 모듈을 지칭할 수 있다. 신호 품질 검사기(136)는 하나 이상의 프로세서, 회로, 논리 어레이, 애플리케이션, 프로그램, 애플리케이션 프로그래밍 인터페이스 또는 다른 컴포넌트 또는 모듈을 포함할 수 있다. 신호 품질 검사기(136)는 적어도 하나의 프로세싱 디바이스 또는 프로그래밍 가능한 논리 어레이 엔진과 같은 다른 논리 디바이스 또는 프리-프로세서(134), 센서(128), 트랜스듀서(130) 또는 오디오 드라이버(132)와 통신하도록 구성된 모듈을 포함할 수 있다. 신호 품질 검사기(136) 및 프리-프로세서(134)는 단일 컴포넌트 또는 디지털 어시스턴트 컴퓨팅 디바이스(104)의 일부일 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 하나 이상의 프로세서, 논리 디바이스 또는 회로와 같은 하드웨어 요소를 포함할 수 있다.

신호 품질 검사기(136)는 검출된 입력 오디오 신호를 수신하고, 입력 오디오 신호를 분석하여 입력 오디오 신호의 품질 파라미터를 결정할 수 있다. 신호 품질 검사기(136)는 입력 오디오 신호의 품질 파라미터가 임계치를 만족하는지 여부를 결정할 수 있다. 신호 품질 검사기(136)는 검출된 입력 오디오 신호가 추가 신호 프로세싱을 위해 충분한 품질인지 여부를 결정할 수 있다.

입력 오디오 신호를 프로세싱하기 위해, 디지털 어시스턴트 컴퓨팅 디바이스(104)는 특정 품질 레벨에서 입력 오디오 신호를 검출할 수 있다. 예를 들어, 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 오디오 신호가 품질이 낮거나 불량한 경우, 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의한 입력 오디오 신호에 대한 다운스트림 프로세싱은 잘못되거나, 신뢰할 수 없거나, 실패하거나, 과도한 프로세서 또는 메모리를 요구할 수 있다. 일부 경우에, 다운스트림 프로세싱은 최종 사용자가 특정 용어를 반복하도록 요구하는 오디오 프롬프트와 같은 추가 프롬프트를 생성할 수 있다. 일부 경우에, 잘못된 다운스트림 프로세싱은 부정확한 명령어 또는 명령이 부정확한 네트워크 연결 디바이스(106)에 전송되는 액션 데이터 구조를 야기할 수 있다. 따라서, 시스템(100)은 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 포함할 수 있기 때문에, 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 수신된 입력 오디오 신호의 품질을 검사하고, 추가 신호 프로세싱을 위해 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 선택하면 오류를 줄이고, 프로세서 활용을 줄이고, 메모리 소비를 줄이면서, 신호 프로세싱 정확도를 높이고 올바른 명령어와 명령으로 액션 데이터 구조를 생성할 수 있다.

품질 파라미터는 예를 들어, 신호대 잡음비(예: 데시벨로 측정된 잡음 층에 대한 신호 강도의 비), 샘플 레이트, 스퓨리어스-프리 동적 범위(예: 가장 강력한 스퓨리어스 신호에 대한 기본 신호의 강도 비는 다음으로 큰 잡음 또는 고조파 왜곡 성분의 RMS 값에 대한 아날로그-디지털 변환기의 입력에서 반송파 또는 최대 신호 성분의 RMS(root-mean-square) 값의 비율로 정의될 수 있음); 총 고조파 왜곡 비율(예를 들어, 입력 오디오 신호에 존재하는 고조파 왜곡의 측정치, 기본 주파수의 전력에 대한 고조파 성분의 전력의 합의 비로 정의될 수 있음); 주파수 범위; 또는 동적 범위를 포함할 수 있다. 추가의 품질 파라미터는 단어 에러율(예: 참조 전사를 음성 인식기에 의해 출력된 전사와 비교함으로써 계산됨), 단어 정확도, 또는 단어 정확도와 연관된 신뢰도(예: 프리-프로세서(134)가 입력 신호에서 단어를 정확하게 인식하는 프리-프로세서(134)에 의해 할당된 가능성)과 같은 음성 인식 품질 메트릭에 기초할 수 있다.

예를 들어, 신호 품질 검사기(136)는 입력 오디오 신호가 임계치를 만족하는지 여부를 결정하기 위해 정책을 입력 오디오 신호에 적용할 수 있다. 신호 품질 검사기(136)는 데이터 프로세싱 시스템(102)으로부터 정책을 획득할 수 있다. 신호 품질 검사기(136)는 계정 데이터 구조(118) 또는 임계치 데이터 구조(120)로부터 정책을 수신할 수 있으며, 이는 정책을 적용하기 위해 사용할 하나 이상의 정책 및 연관 임계치를 저장할 수 있다. 예를 들어, 정책은 신호 대 잡음 비를 임계 신호 대 잡음 비와 비교하는 것일 수 있다. 임계 SNR은 동적일 수 있다. 임계 SNR은 이력적 기계 학습 모델에 기초하여 설정될 수 있다. 임계 SNR은 한 유형의 디지털 어시스턴트 컴퓨팅 디바이스(104)에 대해 커스터마이징될 수 있다. 임계 SNR은 디지털 어시스턴트 컴퓨팅 디바이스의 특성(예를 들어, 다수의 마이크로폰 또는 다른 마이크로폰의 특성)에 기초하여 커스터마이징될 수 있다. 임계 SNR은 동일한 디지털 어시스턴트 컴퓨팅 디바이스(104)의 다수의 마이크로폰으로부터 검출된 다수의 입력 오디오 신호를 결합 또는 합산함으로써 결정된 집합 입력 오디오 신호에 적용될 수 있다. 임계 SNR은 예를 들어 -18dB, -15dB, -12dB, -9dB, -6dB, -3dB, 0dB, 3dB, 6dB 또는 다른 값일 수 있다.

입력 신호의 신호 대 잡음비가 임계치 이상이면, 신호 품질 검사기(136)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 신호가 임계치를 만족한다고 결정한다. 신호 품질 검사기(136)가 입력 오디오 신호의 품질 파라미터가 임계치를 만족한다고 결정하면, 신호 품질 검사기(136)는 입력 오디오 신호가 입력 오디오 신호를 과도한 오류없이 안정적이고 정확하게 프로세싱할 수 있는 충분한 품질로 검출되기 때문에, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하도록 동작 가능한 것으로 결정할 수 있다.

일부 경우에, 신호 품질 검사기(136)는 검출된 입력 오디오 신호의 품질을 결정하기 위해 입력 오디오 신호의 일부를 분석할 수 있다. 신호 품질 검사기(136)는 완전 검출된 입력 오디오 신호를 분석할 수 있다. 신호 품질 검사기(136)는 입력 오디오 신호의 미리 결정된 부분(예를 들어, 처음 1초, 처음 2초, 3초, 4초, 5초, 10초)을 분석할 수 있다. 일부 경우에, 신호 품질 검사기(136)는 검출된 입력 오디오 신호의 품질이 만족스러운지를 결정하기 위해 검출된 입력 오디오 신호의 일부에 대해 음성-텍스트 인식을 수행할 수 있다.

일부 경우에, 디지털 어시스턴트 컴퓨팅 디바이스(104)는 입력 오디오 신호를 데이터 프로세싱 시스템(102)에 전송할 수 있고, 데이터 프로세싱 시스템(102)은 신호 품질 검사를 수행할 수 있다. 예를 들어, 신호 품질 검사기(136)는 데이터 프로세싱 시스템(102)에서 실행될 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 입력 오디오 신호의 미리 결정된 부분(예를 들어, 처음 1초, 2초, 3초 또는 5초)을 데이터 프로세싱 시스템(102)에 전송할 수 있고, 데이터 프로세싱 시스템(102)은 상기 신호에 대해 신호 품질 검사를 수행할 수 있다. 신호 품질 검사를 수행할 때, 데이터 프로세싱 시스템(102)은 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나에 입력 오디오 신호에 대한 추가 프로세싱을 수행하도록 지시할 수 있다.

신호 품질 검사기(136)는 표시를 데이터 프로세싱 시스템(102)에 전송할 수 있다. 신호 품질 검사기(136)는 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 전송할 수 있다. 신호 품질 검사기(136)가 입력 오디오 신호가 다운스트림 프로세싱을 안정적이고 정확하게 수행하기에 충분한 품질로 검출되었다고 결정하면, 신호 품질 검사기(136)는 결정에 응답하여, 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하도록 동작가능하다고 전송할 수 있다.

신호 품질 검사기(136)는 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하도록 동작가능하지 않다는 표시를 전송할 수 있다. 신호 품질 검사기(136)가 검출된 입력 오디오 신호의 품질이 충분하지 않다고 결정하면(예를 들어, SNR이 임계치보다 낮음), 신호 품질 검사기(136)는 결정에 응답하여, 디지털 어시스턴트 컴퓨팅 디바이스는 검출된 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 전송할 수 있다.

시스템(100)은 적어도 하나의 네트워크 연결 디바이스(106)를 포함, 액세스 또는 이와 인터렉션할 수 있다. 네트워크 연결 디바이스(106)는 서드 파티 디바이스를 지칭할 수 있다. 네트워크 연결 디바이스(106)는 네트워크(105)를 통해 통신하기 위한 프로세서를 가지는 컴퓨팅 디바이스 예를 들어 컴퓨팅 디바이스(104), 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 데이터 프로세싱 시스템(102)과 같은 적어도 하나의 로직 디바이스를 포함할 수 있다. 네트워크 연결 디바이스(106)는 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 네트워크 연결 디바이스(106)는 적어도 하나의 데이터 센터에 위치된 복수의 계산 리소스 또는 서버를 포함할 수 있다. 네트워크 연결 디바이스(106)는 사물 인터넷 디바이스를 포함하거나 참조할 수 있다. 네트워크 연결 디바이스(106)는 예를 들어 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스, 웨어러블 디바이스, 디지털 램프, 디지털 온도 조절기, 디지털 기기 또는 디지털 자동차 중 적어도 하나를 포함할 수 있다. 예를 들어, 디지털 어시스턴트 컴퓨팅 디바이스(104)는 디지털 램프를 포함하는 네트워크 연결 디바이스(106)의 출력 광 강도 레벨을 제어할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 광 강도를 조절(예를 들어, 강도 감소, 강도 증가, 광원 끄기 또는 광원 켜기)하는 명령을 포함하는 최종 사용자로부터의 입력 오디오 신호를 검출할 수 있고, 그 후(예를 들어, 데이터 프로세싱 시스템(102)을 통해) 네트워크 연결 디바이스(106)에 명령을 제공한다.

시스템(100)은 적어도 하나의 데이터 프로세싱 시스템(102)을 포함할 수 있다. 데이터 프로세싱 시스템(102)은 네트워크(105)를 통해 통신하기 위한 프로세서를 가지는 컴퓨팅 디바이스 예를 들어 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 네트워크 연결 디바이스(106)와 같은 적어도 하나의 로직 디바이스를 포함할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 데이터 프로세싱 시스템(102)은 적어도 하나의 데이터 센터에 위치된 복수의 계산 리소스 또는 서버를 포함할 수 있다. 데이터 프로세싱 시스템(102)은 다수의 논리적으로 그룹화된 서버를 포함할 수 있고, 분산 컴퓨팅 기법을 지원한다. 논리적 서버들의 그룹은 데이터 센터, 서버 팜 또는 머신 팜으로 지칭될 수 있다. 서버는 지리적으로 분산될 수 있다. 데이터 센터 또는 머신 팜은 단일 엔터티로 관리되거나, 머신 팜은 복수의 머신 팜을 포함할 수 있다. 각 머신 팜 내의 서버는 다른 기종일 수 있다 - 하나 이상의 서버 또는 머신이 하나 이상의 운영 체제 플랫폼 유형에 따라 동작할 수 있다.

머신 팜의 서버는 연관된 저장 시스템과 함께 고밀도 랙 시스템에 저장되고 엔터프라이즈 데이터 센터에 위치될 수 있다. 예를 들어, 이러한 방식으로 서버를 통합하면 지역화된 고성능 네트워크에 서버 및 고성능 저장 시스템을 위치시킴으로써 시스템 관리성, 데이터 보안, 시스템의 물리적 보안 및 시스템 성능을 향상시킬 수 있다. 서버 및 저장 시스템을 포함하여 모든 또는 일부 데이터 프로세싱 시스템(102) 컴포넌트들을 중앙집중화하고 이를 고급 시스템 관리 툴과 결합하면 서버 리소스들을 보다 효율적으로 사용할 수 있게 하여, 전력 및 프로세싱 요구사항을 절약하고 대역폭 사용을 감소시킨다.

데이터 프로세싱 시스템(102)은 적어도 하나의 인터페이스(108)와의 인터페이스를 포함하거나 또는 이와 달리 그와 통신할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 하나의 자연어 프로세서 컴포넌트(110)와의 인터페이스를 포함하거나 또는 이와 달리 그와 통신할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 하나의 조정자 컴포넌트(112)와의 인터페이스를 포함하거나 또는 이와 달리 그와 통신할 수 있다. 조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 하나의 다이렉트 액션 애플리케이션 프로그래밍 인터페이스("다이렉트 액션 API")(114)와의 인터페이스를 포함하거나 또는 그와 통신할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 하나의 데이터 저장소(116)와의 인터페이스를 포함하거나 또는 이와 달리 그와 통신할 수 있다.

데이터 저장소(116)는 하나 이상의 로컬 또는 분산 데이터베이스를 포함할 수 있고, 데이터베이스 관리 시스템을 포함할 수 있다. 데이터 저장소(116)는 컴퓨터 데이터 저장 또는 메모리를 포함할 수 있고, 하나 이상의 계정(118), 하나 이상의 임계치(120), 하나 이상의 모델(122) 또는 하나 이상의 템플릿(124)을 저장할 수 있다. 계정 데이터 구조(118)는 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 네트워크 연결 디바이스(106)와 연관된 정보를 포함할 수 있는 중앙 계정 또는 중앙화된 계정을 지칭할 수 있다. 정보는 상태 정보, 모드 정보, 링크 또는 프로필 정보를 포함할 수 있다. 임계치 데이터 구조(120)는 검출된 오디오 신호의 품질이 신호 프로세싱에 충분한지 여부를 결정하기 위해 신호 품질 검사기(136)에 의해 사용될 수 있는 임계치에 대한 값을 포함할 수 있다. 임계치는 숫자 값 또는 영숫자 값을 포함할 수 있다. 템플릿(124)은 액션 데이터 구조를 생성하기 위해 다이렉트 액션 API(114)에 의해 사용되는 필드 및 값을 포함할 수 있다. 모델(122)은 기계 학습 모델을 지칭할 수 있다. 예를 들어, 기계 학습 모델(122)은 디지털 어시스턴트 컴퓨팅 디바이스(104)와 연관된 이력 표시에 기초하여 생성될 수 있다. 기계 학습 모델은 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 오디오 신호에 대한 이력 품질 파라미터 값에 기초하여 생성될 수 있다. 기계 학습 모델은 디지털 어시스턴트 컴퓨팅 디바이스(104)와 연관된 특성 또는 구성에 기초하여 생성될 수 있다.

인터페이스(108), NLP 컴포넌트(110), 조정자 컴포넌트(112) 또는 다이렉트 액션 API(114)는 각각 적어도 하나의 프로세싱 유닛 또는 데이터베이스 저장소 또는 데이터 저장소(116)와 통신하도록 구성된 프로그래머블 논리 어레이 엔진 또는 모듈과 같은 다른 논리 디바이스를 포함할 수 있다. 인터페이스(108), 자연어 프로세서 컴포넌트(110), 조정자 컴포넌트(112), 다이렉트 액션 API(114), 또는 데이터 저장소(116)는 별개의 컴포넌트, 단일 컴포넌트 또는 데이터 프로세싱 시스템(102)의 일부일 수 있다. 데이터 프로세싱 시스템(102)과 같은 시스템(100) 및 그 컴포넌트는 하나 이상의 프로세서, 논리 디바이스 또는 회로와 같은 하드웨어 엘리먼트를 포함할 수 있다.

데이터 프로세싱 시스템(102)은 복수의 컴퓨팅 디바이스(104)와 연관된 익명의 컴퓨터 네트워크 활동 정보를 얻을 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)의 사용자는 디지털 어시스턴트 컴퓨팅 디바이스(104)에 대응하는 네트워크 활동 정보를 획득하도록 데이터 프로세싱 시스템(102)을 긍정적으로 인증할 수 있다. 예를 들어, 데이터 프로세싱 시스템(102)은 디지털 어시스턴트 컴퓨팅 디바이스(104)의 사용자에게 하나 이상의 유형의 네트워크 활동 정보를 얻기 위한 동의를 프롬프트할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)의 사용자의 신원은 익명으로 유지될 수 있고, 컴퓨팅 디바이스(104)는 고유 식별자(예를 들어, 데이터 프로세싱 시스템 또는 컴퓨팅 디바이스의 사용자에 의해 제공되는 사용자 또는 컴퓨팅 디바이스에 대한 고유 식별자)와 연관될 수 있다. 데이터 프로세싱 시스템은 각 관측을 해당 고유 식별자와 연결할 수 있다.

데이터 프로세싱 시스템(102)은 예를 들어 데이터 패킷을 사용하여 정보를 수신 및 전송하도록 설계, 구성, 또는 동작하는 인터페이스(108)를 포함할 수 있다. 인터페이스(108)는 네트워크 프로토콜과 같은 하나 이상의 프로토콜을 사용하여 정보를 수신 및 전송할 수 있다. 인터페이스(108)는 하드웨어 인터페이스, 소프트웨어 인터페이스, 유선 인터페이스 또는 무선 인터페이스를 포함할 수 있다. 인터페이스(108)는 한 포맷에서 다른 포맷으로 데이터를 변환하거나 포맷하는 것을 용이하게할 수 있다. 예를 들어, 인터페이스(108)는 소프트웨어 컴포넌트와 같은 다양한 컴포넌트들 사이에서 통신하기 위한 정의를 포함하는 어플리케이션 프로그래밍 인터페이스를 포함할 수 있다. 인터페이스(108)는 네트워크(105)를 통해, 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 네트워크 연결 디바이스(106) 중 하나 이상과 통신할 수 있다.

데이터 프로세싱 시스템(102)은 입력 오디오 신호를 데이터 프로세싱 시스템(102)의 인터페이스(108)에 통신하고 디지털 어시스턴트 컴퓨팅 디바이스의 컴포넌트를 출력 오디오 신호를 렌더링하기 위해 구동하기 위한 앱과 같은 디지털 어시스턴트 컴퓨팅 디바이스(104)에 설치된 어플리케이션, 스크립트 또는 프로그램과 인터페이스할 수 있다. 데이터 프로세싱 시스템(102)은 데이터 패킷, 또는 오디오 입력 신호를 포함하거나 식별하는 다른 신호를 수신할 수 있다.

데이터 프로세싱 시스템(102)은 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터 표시를 수신하고 입력 오디오 신호를 프로세싱하기 위해 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 선택하고 그리고 선택된 디지털 어시스턴트 컴퓨팅 디바이스(104)에 지시하여 검출된 입력 오디오 신호를 프로세싱하기 위해 설계, 구성된 그리고 동작가능한 조정자 컴포넌트(112)를 포함하거나 이와 인터페이스하거나 또는 액세스할 수 있다. 조정자 컴포넌트(112)는 동일한 네트워크 연결 디바이스(106)를 제어하기 위한 명령을 전달하는 동일한 입력 오디오 신호를 각각 검출한 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 포함하는 시스템(100)의 전체 프로세서, 메모리 및 대역폭 이용을 감소시키기 위해 신호 프로세싱을 조정할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)가 동일한 검출된 입력 오디오 신호를 프로세싱하도록 하지 않고, 조정자 컴포넌트(112)는 다운스트림 프로세싱을 수행하여 입력 오디오 신호를 파싱하고 명령을 포함하는 데이터 패킷을 생성하기 위해 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 선택할 수 있고, 명령을 식별하기 위해 추가 자연어 프로세싱을 적용하고, 액션 데이터 구조를 생성하고, 액션 데이터 구조를 대응하는 네트워크 연결 디바이스(106)에 전송하여 네트워크 연결 디바이스를 제어할 수 있는 데이터 패킷을 데이터 프로세싱 시스템(102)에 전송한다.

조정자 컴포넌트(112)는 입력 오디오 신호를 검출한 각각의 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터 표시를 수신할 수 있다. 일부 경우에, 조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호에 대한 추가 프로세싱을 수행하기 전에 표시를 수신할 수 있다. 예를 들어, 조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 파싱하여 입력 오디오 신호를 데이터 패킷으로 변환하거나, 자연어 프로세싱, 필터링을 수행하거나 또는 입력 오디오 신호를 프로세싱하기 전에 지시를 수신할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 표시를 전송하고, 입력 오디오 신호에 대한 추가 프로세싱을 수행하기 전에 데이터 프로세싱 시스템(102)으로부터 명령어를 대기할 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스들(104)은 (예를 들어, 신호 품질 검사기(136)를 통해) 데이터 프로세싱 시스템(102)이 추가 명령어를 제공할 때까지 추가 다운스트림 프로세싱을 차단, 일시 정지 또는 보류할 수 있어, 컴퓨팅 리소스 이용 낭비를 피하거나 감소시킬 수 있다.

조정자 컴포넌트(112)가 수신하는 표시는 타임스탬프, 계정 식별자 및 위치 정보를 포함할 수 있다. 조정자 컴포넌트(112)는 타임스탬프, 계정 식별자 및 위치 정보를 사용하여 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 신호가 다양한 품질 레벨임에도 불구하고 동일한 입력 오디오 신호인지를 결정할 수 있다. 타임스탬프는 입력 오디오 신호가 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 시간을 나타낼 수 있다. 조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스(104)가 동일한 입력 오디오 신호를 검출한 것을 결정하기 위해 다수의 표시와 연관된 타임스탬프를 비교할 수 있다. 조정자 컴포넌트(112)는 타임스탬프와 계정 식별자를 더 비교하여 표시가 동일한 입력 오디오 신호에 대응하는지 여부를 결정할 수 있다. 조정자 컴포넌트(112)는 각 표시와 연관된 타임스탬프, 계정 식별자 및 위치 정보를 더 비교하여 표시가 동일한 입력 오디오 신호에 대응하는지 여부를 결정할 수 있다. 예를 들어, 표시가 타임스탬프 3:34:10 PM에서 시작하고, 동일한 무선 게이트웨이와 연관된 동일한 인터넷 프로토콜 주소에 대응하는 위치를 갖는 입력 오디오 신호에 대응하면, 조정자 컴포넌트(112)는 표시가 동일한 입력 오디오 신호와 연관된다고 결정할 수 있다. 다른 예에서, 타임스탬프는 입력 오디오 신호에 대한 시작 타임스탬프 및 입력 오디오 신호의 지속시간을 포함할 수 있다. 조정자 컴포넌트(112)는 다수의 디지털 어시스턴트 컴퓨팅 디바이스들이 동일한 입력 오디오 신호를 검출했는지 여부를 결정하기 위해 시작 타임스탬프, 지속 시간 및 계정 식별자를 비교할 수 있다.

계정 식별자는 디지털 어시스턴트 컴퓨팅 디바이스(104)를 구성 또는 설정하는데 사용되는 계정 또는 프로필에 대응할 수 있다. 계정은 디지털 어시스턴트 컴퓨팅 디바이스(104)를 인에이블 또는 로그인하는데 사용될 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104)는 계정에 링크될 수 있다. 계정 정보는 데이터 프로세싱 시스템(102)의 데이터 저장소(116)상의 계정 데이터 구조(118)에 저장될 수 있다. 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)는 계정 데이터 구조(118)에 저장된 동일한 계정에 링크될 수 있다. 하나 이상의 네트워크 연결 디바이스(106)는 동일한 계정에 링크될 수 있다. 계정에는 영숫자 값과 같은 식별자가 포함될 수 있다.

조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 처리하도록 동작가능하다는 표시를 수신할 수 있다. 조정자 컴포넌트(112)는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 추가로 수신할 수 있다. 일부 경우에, 조정자 컴포넌트(112)는 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 적어도 하나로부터 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 적어도 하나가 입력 오디오 신호를 프로세싱하도록 동작가능하지 않다는 표시를 수신할 수 있다.

조정자 컴포넌트(112)가 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 둘 모두가 동일한 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 수신하면, 조정자 컴포넌트(112)는 추가로 신호 프로세싱을 수행하기 위해 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 선택할 수 있다. 예를 들어, 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 주 신호 프로세서로서 할당 또는 설정하고, 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 다른 하나를 부 신호 프로세서로서 할당 또는 설정할 수 있다. 조정자 컴포넌트(112)는 기본적으로 주 신호 프로세서가 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 수신하는 것에 응답하여 주 신호 프로세서를 선택할 수 있다.

조정자 컴포넌트(112)는 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 주 신호 프로세서로 설정하고, 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 다른 하나를 부 신호 프로세서로서 설정할 수 있다. 조정자 컴포넌트(112)는 계정 식별자와 연관된 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 폴링하여 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)와 연관된 특성을 획득하고, 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 특성 분석에 기초하여 주 신호 프로세서로 설정할 수 있다. 예를 들어, 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 얻기 위해 제1 디지털 어시스턴트 컴퓨팅 디바이스를 폴링할 수 있다. 조정자 컴포넌트(112)는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 특성을 획득하기 위해 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 폴링할 수 있다. 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 특성과 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 특성의 비교에 기초하여, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 주 신호 프로세서로 설정하고, 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 부 신호 프로세서로 설정하도록 결정할 수 있다. 그 후, 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 주 신호 프로세서로 설정하고, 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 부 신호 프로세서로 설정할 수 있다.

특성은 디바이스의 유형 또는 디바이스의 구성을 포함하거나 그에 기초할 수 있다. 예를 들어, 디바이스의 유형은 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스를 포함할 수 있다. 조정자 컴포넌트(112)는 다른 유형의 디바이스보다 특정한 유형의 디바이스를 우선 순위화할 수 있다. 예를 들어, 디바이스 유형의 우선 순위는 다음 표 1과 같다.

디바이스의 유형	우선순위 랭킹(1이 가장 높음)
전용 디지털 어시스턴트 컴퓨팅 디바이스	1
스피커 디바이스	2
텔레비전 디바이스	3
모바일 디바이스	4
웨어러블 디바이스	5

표 1: 디지털 어시스턴트 컴퓨팅 디바이스 유형의 우선순위 랭킹 그림.디바이스의 유형은 특정한 디바이스에 대한 구체적 정보를 요구하지 않으면서, 해당 유형의 디바이스의 공통 특성에 기초하여 빠른 결정이 이루어질 수 있게 한다. 추가적으로 또는 대안적으로, 데이터 프로세싱 시스템(102)은 디바이스의 특성 또는 디바이스의 현재 구성에 기초하여 디바이스를 순위화할 수 있다. 특성은 프로세서 속도, 마이크폰 품질, 마이크의 수, 스피커 품질, 입력/출력 인터페이스 유형, 디바이스의 모델 연도 또는 디바이스의 네트워크 속도를 지칭할 수 있다. 현재 구성은 디바이스가 전원 콘센트에 연결되어 있는지 또는 배터리가 다 떨어졌는지, 운영 체제 버전 또는 애플리케이션 버전이 부족한지 여부를 나타낼 수 있다.

조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스(104)를 주 신호 프로세서 또는 부 신호 프로세서로 설정하기로 결정하기 위해 디지털 어시스턴트 컴퓨팅 디바이스(104)의 특성 또는 구성에 정책을 적용할 수 있다. 예를 들어, 디지털 어시스턴트 컴퓨팅 디바이스(104)가 전원 콘센트에 연결되고 전용 디지털 어시스턴트 컴퓨팅 디바이스(예를 들어, 설계상 주 목적이 음성 기반 디지털 어시스턴트로 기능하는 컴퓨팅 디바이스)인 경우, 데이터 프로세싱 시스템(102)은 전용 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정할 수 있다. 다른 예에서, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)가 전원 콘센트에 연결되고, 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)가 전원 콘센트에 연결되지 않고 배터리 전력이 소모되는 웨어러블 디바이스인 경우, 데이터 프로세싱 시스템(102)은 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 주 신호 프로세서로, 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 부 신호 프로세서로 설정할 수 있다. 다른 예에서, 제1 및 제2 디지털 디바이스 둘 모두가 전원 콘센트에 연결되어 있지만, 제1 디지털 어시스턴트 컴퓨팅 디바이스가 더 높은 품질의 마이크로폰 및 더 많은 메모리를 갖는 더 빠른 하드웨어 프로세서를 갖는 경우, 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 주 신호 프로세서로서 설정할 수 있다.

조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스를 주 또는 부 신호 프로세서로서 동적으로 설정할 수 있다. 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건(예를 들어, 특성 또는 구성)의 변화를 검출할 수 있다. 조정자 컴포넌트(112)는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화에 기초하여, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 스위칭하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 스위칭할 수 있다. 조건의 변화는 특성 또는 구성의 변화를 지칭할 수 있다. 상태 변경은 소프트웨어 버전이 오래되거나, 전원 콘센트에서 디바이스가 분리되거나, 배터리 전원 레벨이 낮거나(예: 20 % 미만), 배터리 레벨이 주 신호 프로세서의 배터리 수준보다 높거나, 또는 컴포넌트가 진단 검사에 실패하는 경우(예: 마이크로폰에 결함이 있거나 잡음 레벨이 높음)를 포함할 수 있다.

조정자 컴포넌트(112)는 기계 학습 알고리즘, 모델 또는 프로세스를 사용하여, 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 주 디지털 어시스턴트 컴퓨팅 디바이스로 설정할 수 있다. 조정자 컴포넌트(112)는 기계 학습 모델에 기초하여, 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하도록 결정할 수 있다. 기계 학습 모델은 데이터 저장소(116)의 모델 데이터 구조(122)에 저장될 수 있다. 기계 학습 모델(122)은 디지털 어시스턴트 컴퓨팅 디바이스(104)와 연관된 이력 표시에 기초하여 생성될 수 있다. 기계 학습 모델은 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 오디오 신호에 대한 이력 품질 파라미터 값에 기초하여 생성될 수 있다. 기계 학습 모델은 디지털 어시스턴트 컴퓨팅 디바이스(104)와 연관된 특성 또는 구성에 기초하여 생성될 수 있다.

예를 들어, 기계 학습 알고리즘 또는 모델은 디지털 어시스턴트 컴퓨팅 디바이스가 입력 오디오 신호를 프로세싱하도록 동작가능했는지 여부, 디바이스 특성(예: 마이크로폰 품질 또는 마이크 수, 프로세서 속도, 가용 메모리), 현재 구성(예: 소프트웨어 버전, 전원 콘센트에 연결되었는지 배터리 사용 여부) 및 입력 오디오 신호를 제공한 최종 사용자가 원하는 방식으로 네트워크 연결 디바이스(106)를 성공적으로 제어하는 액션 데이터 구조의 생성에 관한 이력 표시 중 둘 이상의 조합에 기초하여 생성될 수 있다. 조정자 컴포넌트(112)는 액션 데이터 구조가 네트워크 연결 디바이스(106)를 성공적으로 제어했는지 여부를 결정하기 위해 피드백을 수신할 수 있다. 피드백은 직접 피드백 또는 간접 피드백의 형태일 수 있다. 직접 피드백은 사용자가 "아니, 정확하지 않아" 또는 "중지" 또는 "실행 취소"라고 하는 것을 포함할 수 있다. 간접 피드백은 예를 들어, 사용자가 원하는 네트워크 연결 디바이스(106)를 조정하지 못하거나 동일한 명령어를 반복하는 제2 입력 오디오 신호를 제공하는 액션 데이터 구조에 응답하여 네트워크 연결 디바이스(106)를 수동으로 조정하는 것을 포함할 수 있다.

조정자 컴포넌트(112)는 기계 학습 모델 또는 알고리즘을 사용하여 신호 프로세싱을 위한 임계치를 결정할 수 있다. 조정자 컴포넌트(112)는 메모리(예: 데이터 저장소(116)) 또는 디지털 어시스턴트 컴퓨팅 디바이스(104)의 로컬 메모리에 중앙화된 계정 데이터 구조(118)에 임계치를 저장할 수 있다.

조정자 컴포넌트(112)는 디지털 어시스턴트 컴퓨팅 디바이스가 입력 오디오 신호를 프로세싱하도록 동작가능했는지 여부, 디바이스 특성(예: 마이크로폰 품질 또는 마이크 수, 프로세서 속도, 가용 메모리), 현재 구성(예: 소프트웨어 버전, 전원 콘센트에 연결되었는지 배터리 사용 여부) 및 입력 오디오 신호를 제공한 최종 사용자가 원하는 방식으로 네트워크 연결 디바이스(106)를 성공적으로 제어하는 액션 데이터 구조의 생성에 관한 이력 표시 중 하나 이상에 기초하여 생성된 기계 학습 모델에 기초하여 사용하기 위한 임계치를 결정할 수 있다. 예를 들어, SNR 임계치가 이전에 -15dB로 설정되었고, 수신된 피드백이 양수인 경우, 조정자 컴포넌트(112)는 임계치를 -15dB로 유지하거나 SNR 임계치를 -16dB로 더 낮추도록 결정할 수 있다. 다른 예에서, SNR 임계치가 이전에 -15dB였고 피드백이 음수인 경우, 조정자 컴포넌트(112)는 예를 들어 최소 임계치를 -15dB에서 -12dB로 증가시킬 수 있다. 일부 경우에, 조정자 컴포넌트(112)는 다수의 계정과 연관된 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터의 집계된 데이터에 기초하여 특정 디지털 어시스턴트 컴퓨팅 디바이스(104)에 대한 임계치를 설정할 수 있다.

주 신호 프로세서로서 선택하기 위해 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나를 선택할 때, 조정자 컴포넌트(112)는 입력 신호를 프로세싱하도록 제1 디지털 어시스턴트 컴퓨팅 디바이스(104) 중 하나에 지시하고, 동일한 입력 신호를 수신한 하나 이상의 다른 디지털 어시스턴트 컴퓨팅 디바이스(104)가 대기 모드에 진입하게 하기 위한 표시를 전송한다. 예를 들어, 조정자 컴포넌트(112)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)에 지시하여 입력 오디오 신호를 프로세싱할 수 있다. 조정자 컴포넌트(112)는 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)에 지시하여 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)가 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 대기 모드에 진입하게 할 수 있다.

제1 디지털 어시스턴트 컴퓨팅 디바이스(104)는 입력 오디오 신호를 프로세싱하기 위한 명령어를 수신하면, 입력 오디오 신호의 다운스트림 프로세스로 진행하고, 입력 오디오 신호에 기초하여 데이터 패킷을 생성할 수 있다. 프리-프로세서(134)는 키워드를 검출하고 키워드에 기초하여 액션을 수행하도록 구성될 수 있다. 프리-프로세서(134)는 추가 프로세싱을 위해 용어를 데이터 프로세싱 시스템(102)에 전송하기 전에 하나 이상의 용어들을 필터링하거나 용어를 수정할 수 있다. 프리-프로세서(134)는 마이크로폰에 의해 검출된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고, 디지털 오디오 신호를 운반하는 하나 이상의 데이터 패킷을 네트워크(105)를 통해 데이터 프로세싱 시스템(102)에 전송할 수 있다. 일부 경우에, 프리-프로세서(134)는 그러한 전송을 수행하기 위한 명령어를 검출하는 것에 응답하여 입력 오디오 신호의 일부 또는 전부를 운반하는 데이터 패킷을 전송할 수 있다. 명령어는 예를 들어, 입력 오디오 신호를 포함하는 데이터 패킷을 데이터 프로세싱 시스템(102)에 전송하기 위한 트리거 키워드 또는 다른 키워드 또는 승인을 포함할 수 있다. 일부 경우에, 프리-프로세서(134)는 남아있는 오디오 신호를 데이터 프로세싱 시스템으로 전송하기 전에 핫워드 "ok 디바이스" 또는 "헤이 디바이스" 또는 "디바이스"와 같은 특정 용어를 필터링할 수 있다. 일부 경우에, 프리-프로세서(134)는 추가 용어를 필터링하거나 키워드를 생성하여 추가 프로세싱을 위해 데이터 프로세싱 시스템에 전송할 수 있다. 프리-프로세서(134)는 네트워크 연결 디바이스(106)를 제어하기 위한 명령을 포함할 수 있는 데이터 패킷을 생성하고, 데이터 패킷을 데이터 프로세싱 시스템(102)에 전송할 수 있다.

따라서, 디지털 어시스턴트 컴퓨팅 디바이스들(104) 중 하나만이 입력 오디오 신호를 필터링하고 데이터 패킷으로 변환하기 위해 추가 프로세싱을 수행함으로써, 조정자 컴포넌트(112)는 시스템(100)에서의 컴퓨팅 프로세싱을 감소시키기 위해 신호 프로세싱을 조정할 수 있다. 데이터 프로세싱 시스템(102)(예: NLP 컴포넌트(110) 및 다이렉트 액션 API(114))은 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 명령을 포함하는 데이터 패킷을 수신할 수 있다. 데이터 프로세싱 시스템(102)은 명령에 기초하여 액션 데이터 구조를 생성하고, 네트워크 연결 디바이스를 제어하기 위해 액션 데이터 구조를 네트워크 연결 디바이스에 전송할 수 있다.

예를 들면, 데이터 프로세싱 시스템(102)은 NLP 컴포넌트(110)를 실행하여 오디오 신호에 기초하여 생성된 데이터 패킷을 수신 또는 획득하고 오디오 신호를 파싱할 수 있다. 예를 들어, NLP 컴포넌트(110)는 인간과 컴퓨터 간의 인터렉션들을 제공할 수 있다. NLP 컴포넌트(110)는 자연어를 이해하고 데이터 프로세싱 시스템(102)이 인간 또는 자연어 입력으로부터 의미를 도출하도록 하는 기법으로 구성될 수 있다. NLP 컴포넌트(110)는 통계적 기계 학습과 같은 기계 학습에 기초한 음성 인식 기법을 포함하거나 그러한 기법으로 구성될 수 있다. NLP 컴포넌트(110)는 입력 오디오 신호를 파싱하기 위해 디시전 트리, 통계 모델 또는 확률 모델을 이용할 수 있다. NLP 컴포넌트(110)는 기능들을 포함할 수 있고, 상기 기능들은 명명된 엔터티 인식(예: 주어진 텍스트의 스트림, 사람들 또는 장소들과 같은 적절한 이름에 대한 텍스트 맵의 아이템 결정, 상기 각 이름이 어떤 유형인지 예를 들어, 사람, 위치 또는 조직, 자연어 생성(예: 컴퓨터 데이터베이스로부터의 정보 또는 의미론적 의도를 이해가능한 인간 언어로 변환), 자연어 이해(예: 컴퓨터 모듈이 조작할 수 있는 텍스트를 제1 순서 로직 구조와 같은 더 형식적인 표현으로 변환), 기계 번역(예: 텍스트를 하나의 인간 언어로부터 다른 언어로 자동적으로 번역), 형태학적 세그먼트화(예: 단어를 개별 형태소로 분리하고 형태소의 클래스를 식별, 이는 고려되고 있는 언어의 단어의 형태론 또는 구조의 복잡도에 따라 어려울 수 있음), 질문에 답변(예: 특정적이거나 개방적일 수 있는 인간-언어 질문에 대한 답을 결정) 또는 의미론 프로세싱(예: 식별된 단어를 유사한 의미의 다른 단어와 관련시키기 위해 단어를 식별하고 그것의 의미를 인코딩한 후에 발생할 수 있는 프로세싱)을 포함한다.

일부 경우에, 프리-프로세서(134)는 입력 오디오 신호를 인식 가능한 텍스트로 변환할 수 있다. 예를 들어, 프리-프로세서(134)는 NLP 컴포넌트(110)의 하나 이상의 기능을 포함할 수 있다. 일부 경우에, 데이터 프로세싱 시스템(102)(예: NLP 컴포넌트(110))은 입력 신호를(예를 들어, 데이터 저장소(116)에) 저장된 대표적인 오디오 파형 세트와 비교하고 가장 근접한 매칭을 선택함으로써, 데이터 패킷에 의해 운반된 오디오 입력 신호를 인식된 텍스트로 변환한다. 오디오 파형 세트는 데이터 저장소(116) 또는 데이터 프로세싱 시스템(102)이 액세스 가능한 다른 데이터베이스에 저장될 수 있다. 대표적인 파형은 다수의 사용자 세트에 걸쳐 생성된 후, 사용자로부터의 음성 샘플로 보강될 수 있다. 오디오 신호가 인식된 텍스트로 변환된 후, NLP 컴포넌트(110)는 예를 들어, 데이터 프로세싱 시스템(102)이 제공할 수 있는 동작과 함께, 예를 들어 사용자를 통한 트레이닝 또는 수동 스펙을 통해 연관된 단어에 텍스트를 매칭한다.

NLP 컴포넌트(110)는 입력 오디오 신호를 운반하는 데이터 패킷을 획득할 수 있다. 입력 오디오 신호로부터, NLP 컴포넌트(110)는 요청에 대응하는 적어도 하나의 요청 또는 적어도 하나의 트리거 키워드를 식별할 수 있다. 요청은 입력 오디오 신호의 의도 또는 주제를 표시할 수 있다. 트리거 키워드는 취해질 수 있는 액션의 유형을 표시할 수 있다. 예를 들어, NLP 컴포넌트(110)는 저녁에 저녁 식사 및 영화 관람을 위해 동안 집을 떠나는 적어도 하나의 요청을 식별하기 위해 데이터 패킷을 파싱할 수 있다. 트리거 키워드는 적어도 하나의 단어, 문구, 어근 또는 부분 단어 또는 취해질 액션을 표시하는 파생어를 포함할 수 있다. 예를 들어, 입력 오디오 신호에서 트리거 키워드 "go" 또는 "to go to"는 전송 필요성을 표시할 수 있다. 이 예에서, 입력 오디오 신호(또는 식별된 요청)는 전송 의도를 직접 표현하지 않지만, 트리거 키워드는 전송이 요청에 의해 표시되는 적어도 하나의 다른 액션에 대한 보조 액션임을 표시한다.

NLP 컴포넌트(110)는 입력 오디오 신호(또는 입력 오디오 신호를 운반하는 데이터 패킷)를 파싱하여, 요청 및 트리거 키워드를 식별, 결정, 검색 또는 획득할 수 있다. 예를 들어, NLP 컴포넌트(110)는 트리거 키워드 또는 요청을 식별하기 위해 의미론 프로세싱 기법을 입력 오디오 신호에 적용할 수 있다. NLP 컴포넌트(110)는 의미론 프로세싱 기법을 입력 오디오 신호에 적용하여, 제1 트리거 키워드 및 제2 트리거 키워드와 같은 하나 이상의 트리거 키워드를 포함하는 트리거 문구를 식별할 수 있다. 예를 들어, 입력 오디오 신호는 "디지털 램프 꺼줘", "거실의 온도를 높여", "스피커에서 내 연구 재생 목록을 재생해" 또는 "세탁하고 드라이 클리닝을 해줄 사람이 필요해”라는 문장을 포함할 수 있다. NLP 컴포넌트(110)는 의미론 프로세싱 기법 또는 다른 자연어 프로세싱 기법을 문장을 포함하는 데이터 패킷에 적용하여, 트리거 문구를 식별할 수 있다. 트리거 문구는 예를 들어 "온도 높여", "재생", "꺼줘", "세탁해" 또는 "드라이 클리닝"을 포함할 수 있다. NLP 컴포넌트(110)는 빨래, 드라이 클리닝과 같은 다수의 트리거 키워드를 추가로 식별할 수 있다. 예를 들어, NLP 컴포넌트(110)는 트리거 문구가 트리거 키워드 및 제2 트리거 키워드를 포함한다고 결정할 수 있다.

NLP 컴포넌트(110)는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 필터링할 수 있다. 예를 들어, 입력 오디오 신호를 운반하는 데이터 패킷은 "나를 공항에 데려가 줄 누군가가 있으면 좋겠다(It would be great if I could get someone that could help me go to the airport)"를 포함할 수 있으며, 이 경우 NLP 컴포넌트(110)는 다음과 같은 하나 이상의 용어를 필터링할 수 있다. "it","Would","Be","great","if","I","Could","get", "someone", "that", "could", 또는 "help". 이러한 용어를 필터링함으로써, NLP 컴포넌트(110)는 "공항에 가자"와 같은 트리거 키워드를 보다 정확하고 신뢰성 있게 식별하고, 이것이 택시 또는 승차 공유 서비스에 대한 요청이라고 결정할 수 있다.

일부 경우에, NLP 컴포넌트는 입력 오디오 신호를 운반하는 데이터 패킷이 하나 이상의 요청을 포함한다고 결정할 수 있다. 예를 들어, 입력 오디오 신호는 "나는 빨래와 드라이 클리닝을 해줄 사람이 필요해(I need someone to do my laundry and my dry cleaning)"라는 문장을 포함할 수 있다. NLP 컴포넌트(110)는 이것이 빨래 서비스와 드라이 클리닝 서비스에 대한 요청임을 결정할 수 있다. NLP 컴포넌트(110)는 이것이 빨래 서비스와 드라이 클리닝 서비스 둘 모두를 제공하는 서비스 제공자에 대한 단일 요청임을 결정할 수 있다. NLP 컴포넌트(110)는 이것이 2개의 요청; 빨래 서비스를 수행하는 서비스 제공자에 대한 제1 요청과 드라이 클리닝 서비스를 제공하는 서비스 제공자에 대한 제2 요청인 것으로 결정할 수 있다. 일부 경우에, NLP 컴포넌트(110)는 다수의 결정된 요청들을 단일 요청으로 결합하고, 단일 요청을 서드 파티 디바이스(146)에 전송할 수 있다. 일부 경우에, NLP 컴포넌트(110)는 개별 요청들을 다른 서비스 제공자 디바이스에 전송하거나 또는 두 요청들을 동일한 서드 파티 디바이스(146)에 개별적으로 전송할 수 있다.

데이터 프로세싱 시스템(102)은 트리거 키워드에 기초하여, 요청에 응답하는 액션 데이터 구조를 생성하도록 설계되고 구성된 다이렉트 액션 API(114)를 포함할 수 있다. 데이터 프로세싱 시스템(102)의 프로세서는 차량 공유 서비스로부터의 차량과 같은 서비스 또는 제품을 주문하기 위해 네트워크 연결 디바이스(106) 또는 다른 서비스 제공자에게 제공하기 위한 데이터 구조를 생성하는 스크립트를 실행하기 위해 다이렉트 액션 API(114)를 호출할 수 있다. 다이렉트 액션 API(114)는 데이터 저장소(116)로부터 데이터를 획득할 수 있을 뿐만 아니라, 디지털 어시스턴트 컴퓨팅 디바이스(104)로부터 최종 사용자 동의로 수신된 데이터를 획득하여, 네트워크 연결 디바이스(106) 또는 다른 서드 파티 디바이스로 하여금 차량 공유 서비스로부터 차량을 예약하는 것과 같은 동작을 수행하게 하기 위한 위치, 시간, 사용자 계정, 물류 또는 기타 정보를 결정한다. 다이렉트 액션 API(114)를 사용하여, 데이터 프로세싱 시스템(102)은 또한 이 예에서 차량 공유 픽업 예약을 함으로써 컨버전을 완료하기 위해 서드 파티 디바이스와 통신할 수 있다.

다이렉트 액션 API(114)는 사용자 요청을 이행하는데 필요한 파라미터를 식별하는 코드 또는 대화 스크립트를 실행할 수 있다. 이러한 코드는 예를 들어, 홈 자동화 서비스의 이름, 네트워크 연결 디바이스(106)의 라벨 또는 서드 파티 서비스와 같은 추가 정보를 데이터 저장소(116)에서 조회할 수 있거나, 또는 최종 사용자에게 네트워크 연결 디바이스(106)의 의도된 제어, 또는 요청된 택시의 목적지와 같은 질문을 하도록 요청하기 위해 디지털 어시스턴트 컴퓨팅 디바이스(104)에서 렌더링하기 위한 오디오 출력을 제공할 수 있다. 다이렉트 액션 API(114)는 파라미터를 결정하고, 정보를 액션 데이터 구조로 패키징할 수 있으며, 이는 제어 명령어로서 네트워크 연결 디바이스(106)에 전송될 수 있다.

다이렉트 액션 API(114)는 액션 데이터 구조를 생성 또는 구성하기 위해 NLP 컴포넌트(110) 또는 데이터 프로세싱 시스템(102)의 다른 컴포넌트로부터 명령어 또는 명령을 수신할 수 있다. 다이렉트 액션 API(114)는 데이터 저장소(116)에 저장된 템플릿 저장소(124)로부터 템플릿을 선택하기 위해 액션의 유형을 결정할 수 있다. 액션의 유형은 온도 조절기, 광도, 스피커에서 음악 재생, 텔레비전에서 비디오 재생, 주방 기기(예: 커피 메이커, 전기 주전자, 오븐, 전자 레인지, 냉장고, 스토브, 로봇식 진공 청소기) 제어, 자동차를 시동하거나 자동차의 온도 조절기를 조정하는 것과 같이 네트워크 연결 디바이스(106)와 연관된 제어 액션을 포함할 수 있다. 액션의 유형은 서비스, 제품, 예약 또는 티켓 등을 포함할 수 있다. 액션의 유형은 서비스 또는 제품 유형을 추가로 포함할 수 있다. 예를 들어, 서비스 유형은 차량 공유 서비스, 음식 배달 서비스, 세탁 서비스, 가정부 서비스, 수리 서비스, 가사 서비스, 디바이스 자동화 서비스 또는 미디어 스트리밍 서비스를 포함할 수 있다. 제품의 유형은 예를 들어 옷, 신발, 장난감, 전자 제품, 컴퓨터, 서적 또는 보석류를 포함할 수 있다. 예약 유형은 저녁 예약 또는 미용실 예약 등을 포함할 수 있다. 티켓 유형은 예를 들어 영화 티켓, 스포츠 경기장 티켓 또는 항공권을 포함할 수 있다. 일부 경우에, 서비스, 제품, 예약 또는 티켓의 유형은 가격, 위치, 배송 유형, 가용성 또는 기타 속성에 따라 분류될 수 있다.

NLP 컴포넌트(110)는 입력 오디오 신호에 기초하여 생성된 데이터 패킷을 파싱하여 요청 및 요청에 대응하는 트리거 키워드를 식별하고, 요청 및 트리거 키워드를 다이렉트 액션 API(116)에 제공하여 다이렉트 액션 API로 하여금 트리거 키워드 및 계정(118)에 기초하여, 액션 데이터 구조를 생성하게 할 수 있다. 다이렉트 액션 API(114)는 계정(118)을 사용하여 계정 식별자에 연결된 네트워크 연결 디바이스(106)를 식별할 수 있다.

요청의 유형을 식별함에 따라, 다이렉트 액션 API(114)는 템플릿 저장소(124)로부터 대응하는 템플릿에 액세스할 수 있다. 템플릿은 서드 파티 디바이스(146)의 디지털 어시스턴트 컴퓨팅 디바이스(104)에 의해 검출된 입력 오디오를 통해 요청된 동작을 추가로 수행하기 위해(예: 픽업 장소에서 최종 사용자를 픽업하고 최종 사용자를 목적지 위치로 운송하기 위해 택시를 보내는 것) 다이렉트 액션 API(114)에 의해 채워질 수 있는 구조화된 데이터 세트의 필드를 포함할 수 있다. 다이렉트 액션 API(114)는 템플릿 저장소(124)에서 조회를 수행하여 트리거 키워드 및 요청의 하나 이상의 특성과 일치하는 템플릿을 선택할 수 있다. 예를 들어, 요청이 온도 조절기와 같은 네트워크 연결 디바이스(106)를 제어하는 것에 대응하는 경우, 데이터 프로세싱 시스템(102)은 고유 디바이스 식별자 및 새로운 온도 값 중 하나 이상을 포함할 수 있는 온도 조절기 템플릿을 선택할 수 있다. 다른 예에서, 요청이 차량 또는 목적지로의 탑승에 대한 요청에 대응하는 경우, 데이터 프로세싱 시스템(102)은 차량 공유 서비스 템플릿을 선택할 수 있다. 차량 공유 서비스 템플릿은 디바이스 식별자, 픽업 위치, 목적지 위치, 승객 수 또는 서비스 유형 중 하나 이상의 필드를 포함할 수 있다.

다이렉트 액션 API(114)는 필드를 값으로 채울 수 있다. 필드를 값으로 채우기 위해, 다이렉트 액션 API(114)는 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 센서(128), 디바이스(104)의 사용자 인터페이스, 대응하는 네트워크 연결 디바이스(106) 또는 데이터 저장소(116)로부터 정보를 핑, 폴링 또는 획득할 수 있다. 예를 들어, 다이렉트 액션 API(114)는 GPS 센서와 같은 위치 센서를 사용하여 소스 위치를 검출할 수 있다. 다이렉트 액션 API(114)는 디지털 어시스턴트 컴퓨팅 디바이스(104)의 최종 사용자에게 설문, 프롬프트 또는 질의를 제출함으로써 추가 정보를 얻을 수 있다. 다이렉트 액션 API(114)는 데이터 프로세싱 시스템(102)의 인터페이스(108) 및 디지털 어시스턴트 컴퓨팅 디바이스(104)의 사용자 인터페이스(예를 들어, 오디오 인터페이스, 음성 기반 사용자 인터페이스, 디스플레이 또는 터치)를 통해 설문, 프롬프트 또는 질의를 제출할 수 있다. 따라서, 다이렉트 액션 API(114)는 트리거 키워드 또는 요청에 기초하여 액션 데이터 구조에 대한 템플릿을 선택할 수 있고, 템플릿 내의 하나 이상의 필드를 하나 이상의 센서(128)에 의해 검출되거나 사용자 인터페이스를 통해 획득된 정보로 채울 수 있고, 서드 파티 디바이스 또는 네트워크 연결 디바이스(106)에 의한 동작의 수행을 용이하게 하기 위해 액션 데이터 구조를 생성 또는 구성할 수 있다.

액션 데이터 구조를 구성 또는 생성하기 위해, 데이터 프로세싱 시스템(102)은 선택된 템플릿에서 하나 이상의 필드를 식별하여 값을 채울 수 있다. 필드는 숫자 값, 문자열, 유니 코드 값, 부울 논리, 이진 값, 16진수 값, 식별자, 위치 좌표, 지리적 영역, 타임스탬프 또는 기타 값으로 채워질 수 있다. 데이터 보안을 유지하기 위해 필드 또는 데이터 구조 자체는 암호화되거나 마스킹될 수 있다.

템플릿 내의 필드를 결정할 때, 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 생성하기 위해 템플릿의 필드를 채울 필드에 대한 값을 식별할 수 있다. 데이터 프로세싱 시스템(102)은 데이터 저장소(116)에 대한 조회 또는 다른 질의 동작을 수행함으로써 필드에 대한 값을 획득, 검색, 결정 또는 달리 식별할 수 있다.

데이터 프로세싱 시스템(102)은 (예를 들어, 다이렉트 액션 API(114) 또는 인터페이스(108)를 통해) 액션 데이터 구조를 대응하는 네트워크 연결 디바이스(106)에 전송할 수 있다. 따라서, 다수의 디지털 어시스턴트 컴퓨팅 디바이스(104)는 사용자로부터의 입력 오디오 신호를 검출하고, 네트워크 연결 디바이스(106)를 제어하는 명령을 포함하는 데이터 패킷을 생성할 수 있고, 데이터 프로세싱 시스템(102)은 단일의 디지털 어시스턴트 컴퓨팅 디바이스(104)에 지시하여 데이터 패킷을 생성하기 위한 추가 프로세싱을 수행하게 하고, 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 생성하고 네트워크(105)를 통해 네트워크 연결 디바이스(106)에 전송할 수 있다. 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 네트워크 연결 디바이스(106)에 전송할 때 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회할 수 있다. 데이터 프로세싱 시스템(102)은 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회하고, 네트워크(105)를 통해 액션 데이터 구조를 네트워크 연결 디바이스(106)에 직접 전송할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회하고, 액션 데이터 구조를 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)로 전송하지 않거나, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)와 통신하지 않고, 네트워크 연결 디바이스(106)에 액션 데이터 구조를 전송할 수 있다. 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 생성한 후, 그리고 액션 데이터 구조가 네트워크 연결 디바이스(106)로 전송될 때까지 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)와 통신하지 않을 수 있다.

데이터 프로세싱 시스템(102)은 명령을 생성한 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)에 상태 업데이트를 제공할 수 있다. 상태 업데이트는 액션 데이터 구조가 생성되어 네트워크 연결 디바이스(106)로 전송되었음을 표시할 수 있다. 상태 업데이트는 액션 데이터 구조가 네트워크 연결 디바이스(106)에 의해 실행될 예정이거나, 현재 네트워크 연결 디바이스(106)에 의해 실행되고 있거나, 액션 데이터 구조의 완료 퍼센트 또는 액션 데이터 구조가 네트워크 연결 디바이스(106)에 의해 방금 완료되었음을 표시할 수 있다. 상태 업데이트는 네트워크 연결 디바이스(106)를 찾을 수 없거나 네트워크 연결 디바이스(106)의 오작동과 같은 액션 데이터 구조의 실행과 연관된 오류 또는 실패를 표시할 수 있다.

제1 디지털 어시스턴트 컴퓨팅 디바이스(예를 들어, 프리-프로세서를 통해)는 네트워크 연결 디바이스에 전송된 액션 데이터 구조의 상태의 표시를 수신하고, 오디오 드라이버(132)에 지시하여 출력 오디오 신호를 생성하여 스피커 컴포넌트(예를 들어, 트랜스듀서(130))로 하여금 상태의 표시에 대응하는 오디오 출력을 전송하게 할 수 있다.

데이터 프로세싱 시스템(102)은 폴링 디바이스 또는 설정 또는 구성 프로세스에 기초하여 다수의 디지털 어시스턴트 컴퓨팅 디바이스를 식별할 수 있다. 데이터 프로세싱 시스템은 데이터 저장소(116)의 중앙화된 계정(118)에, 제1 디지털 어시스턴트 컴퓨팅 디바이스와 네트워크 연결 디바이스 사이의 제1 링크 및 제2 디지털 어시스턴트 컴퓨팅 디바이스와 네트워크 연결 디바이스 사이의 제2 링크를 저장할 수 있다. 액션 데이터 구조를 생성 및 전송하기 위해, 데이터 프로세싱 시스템(102)은 제1 디지털 어시스턴트 컴퓨팅 디바이스의 선택에 응답하여, 제1 링크에 기초하여, 액션 데이터 구조의 생성을 위한 정보를 검색하기 위한 중앙화된 계정(118)에 액세스할 수 있다. 중앙화된 계정(118)은 제1 디지털 어시스턴트 및 제2 디지털 어시스턴트 중 적어도 하나에 대한 링크를 갖는 다수의 이종 네트워크 연결 디바이스와 연관된 정보를 포함하거나 저장할 수 있다. 이종 네트워크 연결 디바이스는 상이한 컴포넌트, 소프트웨어 또는 기능(예: 네트워크 커피 메이커 대 네트워크 로봇 청소기)을 가질 수 있는 상이한 유형의 네트워크 연결 디바이스를 지칭할 수 있다.

일부 경우에, 시스템(100)은 액션 데이터 구조를 수행하거나 실행할 수 있는 다수의 네트워크 연결 디바이스를 포함할 수 있다. 데이터 프로세싱 시스템(102)이 액션 데이터 구조를 수행하거나 실행할 수 있는 다수의 네트워크 연결 디바이스(106)를 식별하는 경우(예: 계정(118)을 통해), 조정자 컴포넌트(112)는 네트워크 연결 디바이스(106) 중 하나를 선택할 수 있다. 조정자 컴포넌트(112)는 정책을 사용하여 액션 데이터 구조를 실행할 네트워크 연결 디바이스(106)를 선택할 수 있다. 정책은 네트워크 연결 디바이스의 특성 또는 구성에 기초할 수 있다. 조정자 컴포넌트(112)는 계정에 링크된 이용 가능한 네트워크 연결 디바이스(106)를 폴링하고, 특성(예를 들어, 이용 가능한 입력/출력 인터페이스, 배터리, 전원에 연결되어 있는지, 프로세서 속도, 이용 가능한 메모리 또는 입력 오디오 신호를 검출한 디지털 어시스턴트 컴퓨팅 디바이스에 대한 근접성)을 식별할 수 있다.

액션 데이터 구조를 실행하기 위해 네트워크 연결 디바이스(106)를 선택하기 위해, 조정자 컴포넌트(112)는 모델 데이터 구조(122)로부터 기계 학습 모델을 사용할 수 있다. 기계 학습 모델은 네트워크 연결 디바이스(106)의 특성 또는 구성에 관한 정보 및 디바이스(106)와 연관된 피드백을 포함할 수 있다. 피드백은 디바이스(106)가 액션 데이터 구조를 성공적으로 실행했는지 여부를 나타낼 수 있다. 동점의 경우, 표 1에 도시된 바와 같이, 특정 유형의 네트워크 연결 디바이스(106)는 다른 것보다 더 높은 순위를 가질 수 있고, 데이터 프로세싱 시스템은 액션 데이터 구조를 실행하기 위해 더 높은 등급의 디바이스(106)를 선택할 수 있다.

데이터 프로세싱 시스템(102)은 입력 오디오 신호가 각각의 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출될 때, 입력 오디오 신호와 연관된 특성의 비교에 기초하여, 복수의 네트워크 연결 디바이스들로부터 네트워크 연결 디바이스를 선택할 수 있다. 예를 들어, 데이터 프로세싱 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호의 특성(또는 파라미터 또는 메트릭)의 제1 값을 식별, 결정, 연산 또는 계산할 수 있다. 데이터 프로세싱 시스템(102)은 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호의 특성(또는 파라미터 또는 메트릭)의 제2 값을 식별, 결정, 연산 또는 계산할 수 있다. 데이터 프로세싱 시스템(102)은 제1 값과 제2값을 비교할 수 있다. 데이터 프로세싱 시스템은 비교에 기초하여 복수의 네트워크 연결 디바이스들로부터 네트워크 연결 디바이스를 선택할 수 있다.

입력 오디오 신호의 특성(또는 메트릭 또는 파라미터)은 하나 이상의 사운드 특성을 포함할 수 있다. 특성은 예를 들어, 볼륨, 진폭, 음압, 강도, 음량, 주파수, 파장, 피치, 속도 또는 방향을 포함할 수 있다. 특성의 값은 예를 들어 볼륨, 진폭 또는 강도에 대해 데시벨("dB")로 측정될 수 있다. 특성의 값은 예를 들어 주파수에 대한 헤르츠(예를 들어, 1/초)로 측정될 수 있다. 특성의 값은 예를 들어 파장에 대한 거리 단위(예를 들어, 미터 또는 센티미터)로 측정될 수 있다.

특성이 방향인 경우, 값은 미리 결정된 축에 대한 수평 각도 또는 수직 각도를 포함할 수 있다. 방향을 결정하기 위해, 디지털 어시스턴트 컴퓨팅 디바이스(104)(또는 데이터 프로세싱 시스템(102))는 음향 소스 위치를 수행할 수 있다. 음향 소스 위치는 음압 또는 입자 속도와 같은 특성을 포함할 수 있는 주어진 음장의 측정치에 따라 사운드 소스(예: 사용자와 같은 입력 오디오 신호의 소스)를 찾는 것을 포함할 수 있다. 입자 속도는 소스 방향을 제공할 수 있는 벡터로 측정될 수 있다. 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 데이터 프로세싱 시스템(102)은 또한 다수의 센서를 사용하고, 센서가 입력 오디오 신호를 검출할 때 그 사이의 시간 지연(예: 입력 오디오 신호의 도달 시간차; 삼각 측량)을 결정하는 방향을 결정할 수 있다. 데이터 프로세싱 시스템은 상이한 위치에서 다수의 센서로부터 계산된 특성의 값을 비교함으로써 방향을 결정할 수 있다. 데이터 프로세싱 시스템은 스피커(예: 사용자)에 의해 전송된 음파의 직접 및 에코 경로 길이의 비율에 기초하여 방향을 결정하거나 소리 위치 찾기를 수행할 수 있다.

예를 들어, 입력 오디오 신호는 "조명을 꺼" 명령을 포함할 수 있다. 입력 오디오 신호는 네트워크 연결 디바이스에 대한 고유 식별자를 제공하지 않을 수 있다(예: 도 2에 도시된 방(234))은 방 전체에 위치한 다수의 연결된 램프(208)을 포함할 수 있다). 명령의 모호성으로 인해, 데이터 프로세싱 시스템은 정책, 모델, 기계 학습 또는 다른 기술을 적용하여 복수의 연결된 램프(208)로부터 하나 이상의 연결된 램프(208)를 선택할 수 있다. 예를 들어, 방(234)에 다수의 디지털 어시스턴트 컴퓨팅 디바이스가 위치하면, 데이터 프로세싱 시스템은 다른 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출된 입력 오디오 신호의 진폭에 기초하여, 어느 디지털 어시스턴트 컴퓨팅 디바이스가 사용자에게 더 가까이 위치되어 있는지를 결정할 수 있다. 데이터 프로세싱 시스템은 가장 큰 진폭을 갖는 입력 오디오 신호를 검출한 디지털 어시스턴트 컴퓨팅 디바이스가 사용자에게 가장 근접한 디지털 어시스턴트 컴퓨팅 디바이스가인 것으로 결정할 수 있다. 데이터 프로세싱 시스템은 선택된 디지털 어시스턴트 컴퓨팅 디바이스에 가장 가까이 위치한 연결된 램프(208)를 식별할 수 있다. 데이터 프로세싱 시스템은 사용자에게 가장 가까운 디지털 어시스턴트 컴퓨팅 디바이스에 가장 가까이 위치한 연결된 램프(208)를 제어하도록 결정할 수 있다.

다른 예에서, 데이터 프로세싱 시스템(102)은 사운드의 방향을 결정할 수 있다. 데이터 프로세싱 시스템(102)은 사운드 연결된 방향을 사용하여 네트워크 연결 디바이스(106)를 식별할 수 있다. 예를 들어, 방에 3개의 네트워크 연결 디바이스(106)가 있는 경우, 사용자는 그들이 제어하고자 하는 네트워크 연결 디바이스(106)를 마주보고 명령을 말할 수 있다. 네트워크 연결 디바이스(106)는 사운드의 볼륨을 검출하기 위한 마이크로폰을 포함할 수 있다. 그러나, 네트워크 연결 디바이스(106)는 입력 오디오 신호를 파싱하고, 그것들을 데이터 패킷으로 변환하거나, 임의의 자연어 프로세스를 수행하기 위한 프로세서를 포함하거나 포함하지 않을 수 있다. 네트워크 연결 디바이스(106)는 입력 오디오 신호의 진폭을 측정하고, 그 표시를 데이터 프로세싱 시스템(102)에 제공할 수 있는 최소한의 신호 프로세싱 회로를 포함할 수 있다. 따라서, 네트워크 연결 디바이스(106) 각각이 입력 오디오 신호의 진폭을 측정하고, 진폭 값을 데이터 프로세싱 시스템(102)에 제공하면, 데이터 프로세싱 시스템(102)은 가장 높은 진폭으로 입력 오디오 신호를 검출한 네트워크 연결 디바이스를 선택할 수 있다.

데이터 프로세싱 시스템(102)은 (예: 조정자 컴포넌트(112)를 통해) 스피커의 위치에 기초하여 복수의 네트워크 연결 디바이스(106)로부터 네트워크 연결 디바이스(106)를 선택할 수 있다(예: 입력 오디오 신호를 제공하는 사용자). 데이터 프로세싱 시스템(102)은 입력 오디오 신호에서 제공된 명령을 실행할 수 있는 스피커와 동일한 방에 위치한 하나 이상의 네트워크 연결 디바이스(106)를 선택하기로 결정할 수 있다. 데이터 프로세싱 시스템(102)은 스피커의 거리(또는 반경) 내에서 하나 이상의 네트워크 연결 디바이스(106)를 선택하기로 결정할 수 있다. 거리는 명령에 기초하여 미리 결정, 고정, 선택되거나, 네트워크 연결 디바이스(106)의 유형에 기초하여 선택되거나, 또는 입력 오디오 신호의 특성에 기초하여 동적으로 결정될 수 있다(예: 속삭임과 같이 입력 오디오 신호가 임계치보다 낮은 진폭을 갖는 경우 더 작은 반경, 입력 오디오 신호가 임계치보다 큰 진폭을 갖는 경우 더 긴 반경). 예를 들어, 스피커가 조명을 끄기 위해 소리를 질르면, 데이터 프로세싱 시스템(102)은 집 전체의 모든 조명을 끌 수 있다. 스피커가 정상 음성을 사용하여 조명을 끄라고 말하면, 데이터 프로세싱 시스템(102)은 스피커와 같은 방에 있는 모든 조명을 끄도록 결정할 수 있다. 사용자가 조명을 끄도록 속삭이는 경우, 데이터 프로세싱 시스템(102)은 스피커 또는 사용자에 가장 가까운 조명(예를 들어, 스탠드의 테이블 램프)만 끌 수 있다.

데이터 프로세싱 시스템(102)은 시맨틱 분석을 사용하여 명령을 실행하도록 구성된 복수의 네트워크 연결 디바이스(106)들로부터 네트워크 연결 디바이스(106)를 선택할 수 있다. 데이터 프로세싱 시스템(102)은 입력 오디오 신호에서 컨텍스트 정보를 식별하여 선택할 네트워크 연결 디바이스(106)를 결정할 수 있다. 예를 들어, 입력 오디오 신호는 고유 식별자는 아니더라도, 명령을 실행하기 위해 원하는 네트워크 연결 디바이스의 식별자를 포함할 수 있다. 예를 들어, 식별자는 "밝기를 낮춰"일 수 있다. 데이터 프로세싱 시스템(102)은 (예: 상태 정보를 위해 네트워크 연결 디바이스(106)를 폴링함으로써) 방(234)에 다수의 연결된 램프(208)가 위치할 수 있지만, 연결된 램프(208)의 서브셋만이 출력 광도를 디밍할 수 있음을 결정할 수 있다. 따라서, 데이터 프로세싱 시스템(102)은 먼저 비-디밍가능 램프를 필터링할 수 있다. 디밍될 수 있는 나머지 램프 중에서, 데이터 프로세싱 시스템(102)은 각 램프의 현재 출력 강도 레벨을 결정할 수 있다. 데이터 프로세싱 시스템(102)은 그 후 하나의 디밍가능 램프 중 하나만이 더 어둡게 디밍될 수 있다고 결정할 수 있다. 따라서, 제거 프로세스에 의해, 데이터 프로세싱 시스템(102)은 연결된 네트워크 디바이스(106)가 제어하고자 하는 스피커를 식별할 수 있다.

다른 표시는, 예를 들어, 제어하고자 하는 스피커가 네트워크 연결 디바이스(106)와 연관된 컨텍스트 정보를 제공하는 것을 포함할 수 있다. 예를 들어, 명령은 "TV 옆의 조명을 꺼"일 수 있다. 데이터 프로세싱 시스템(102)은 어떤 연결된 램프(208)가 텔레비전 근처에 있는지(예를 들어, 연결된 멀티미디어 디스플레이(212))를 결정할 수 있다. 예를 들어, 데이터 프로세싱 시스템(102)은 근접 센서, 설정, 스피커 출력 분석, 또는 프롬프트에 대한 응답에 기초하여 램프(208)가 연결된 멀티미디어 디스플레이(212) 근처에 있다고 결정할 수 있다.

데이터 프로세싱 시스템(102)은 기계 학습 모델에 기초하여 명령을 실행하도록 구성된 복수의 네트워크 연결 디바이스(106)들로부터 선택하기 위해 네트워크 연결 디바이스(106)를 결정할 수 있다. 데이터 프로세싱 시스템(102)은 입력 값(예를 들어, 입력 오디오 신호 또는 입력 오디오 신호의 제공을 둘러싼 컨텍스트와 관련된 구성 또는 특성) 및 대응하는 출력 값(예를 들어, 어떤 네트워크 접속 디바이스(106)가 선택되었는지)을 이용하여 모델을 생성할 수 있다. 데이터 프로세싱 시스템(102)은 입력 오디오 신호와 연관된 구성에 기초하여 기계 학습 모델을 생성할 수 있다. 데이터 프로세싱 시스템(102)은 피드백에 기초하여 모델을 생성할 수 있다. 구성들은 입력 오디오 신호의 특성, 시각, 요일, 방(234) 내의 다른 연결된 디바이스(106)의 상태를 포함할 수 있다(예를 들어, 스피커(210)가 어떤 볼륨으로 및 어떤 유형의 음악을 재생하는지; 텔레비전(212)이 켜져 있는지; 또는 사용자가 연결된 통신 디바이스(216)를 사용하여 전화를 걸고 있는지). 피드백은 올바른 네트워크 연결 디바이스가 선택되었음을 나타내는 피드백 또는 잘못된 네트워크 연결 디바이스가 선택되었음을 나타내는 피드백이 포함될 수 있다. 데이터 프로세싱 시스템(102)은 구성들을 모델로 입력하고, 상기 구성들을 이력적으로 제어하기 위해 화자가 식별하거나 결정한 네트워크 연결 디바이스(106)와 상관시킬 수 있다. 예를 들어, 오전 6시에 화자는 "왼쪽 스탠드 램프를 켜"라는 명령을 제공할 수 있다. 다음 날 오전 6시에 화자는 "램프 켜" 명령을 제공할 수 있다. 데이터 프로세싱 시스템(102)은 오전 6시에 수신된 이전 램프 관련 명령에 기초하여, 그 화자가 오전 6시에 좌측 스탠드에서 램프를 켜기를 원한다고 결정할 수 있다. 데이터 프로세싱 시스템(102)은 6AM에 또는 6AM 전후(예를 들어, 플러스 또는 마이너스 1분, 2분, 5분, 10분, 20분)에 제공된 "램프를 켜"라는 명령이 "왼쪽 스탠드 램프를 켜"라는 명령을 지칭할 가능성이 높다고 예측할 수 있다. 따라서, 데이터 프로세싱 시스템(102)은 동일한 네트워크 연결 디바이스(106)를 선택하고, 선택된 네트워크 연결 디바이스(106)에 대한 액션 데이터 구조를 생성할 수 있다. 데이터 프로세싱 시스템(102)은 또한 주변 광 센서와 같은 다른 센서로부터의 정보를 사용하여 어느 방이 어둡고 그 방의 조명을 켤지를 결정할 수 있다.

도 2는 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하기 위한 시스템의 동작을 도시한 도면이다. 시스템(200)의 동작은 도 1에 도시된 시스템(100) 또는 도 4에 도시된 시스템(400)의 하나 이상의 컴포넌트 또는 기능을 포함할 수 있다. 시스템(200)은 방(234)에 위치한 다수의 디지털 어시스턴트 컴퓨팅 디바이스(202 및 204)를 포함할 수 있다. 방(234)은 예를 들어 거실, 침실, 부엌, 식당, 지하실, 사무실, 로비, 쇼핑몰, 소매점, 식당, 공원, 옥외 공간, 자동차 또는 모터 홈을 포함하는 물리적 공간의 임의의 유형 또는 크기를 포함할 수 있다. 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)는 도 1에 도시된 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 컴포넌트 또는 기능을 포함할 수 있다. 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)는 스피커 디바이스 또는 전용 디지털 어시스턴트 컴퓨팅 디바이스를 포함할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스(204)는 도 1에 도시된 디지털 어시스턴트 컴퓨팅 디바이스(104)의 하나 이상의 컴포넌트 또는 기능을 포함할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스(204)는 디지털 어시스턴트 애플리케이션을 실행하는 스마트폰을 포함할 수 있다. 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(204)는 고유 식별자를 가지며 사용자(232)와 연관된 중앙 계정에 링크될 수 있다.

시스템(200)은 연결된 통신 디바이스(216)(예: 연결된 전화), 연결된 온도 조절기(206), 연결된 램프(208), 연결된 스피커(210)(또는 사운드 시스템), 또는 연결된 멀티미디어 디스플레이(212)(또는 스마트 텔레비전)와 같이, 방(234)에 위치된 다수의 네트워크 연결 디바이스(106)를 포함할 수 있다. 인터넷 연결 디바이스는 방(234)으로부터 외부 또는 원격에 위치될 수 있고, 여전히 데이터 프로세싱 시스템(102)을 통해, 디지털 어시스턴트 컴퓨팅 디바이스(202 또는 204)를 통해 제어 가능하다. 인터넷 연결 디바이스(206, 208, 210, 212 또는 216)는 네트워크(105)에 대한 액세스를 제공할 수 있는 무선 게이트웨이(214)(예: 네트워크 라우터, 무선 라우터 또는 모뎀)를 통해 네트워크(105)에 연결할 수 있다. 인터넷 연결 디바이스(206, 208, 210, 212 또는 216)는 데이터 프로세싱 시스템(102)을 통해 모니터링, 관리 또는 제어될 수 있다. 일부 경우에, 인터넷 연결 디바이스(206, 208, 210, 212 또는 216)는 데이터 프로세싱 시스템(102)을 통해 제1 또는 제2 디지털 어시스턴트 컴퓨팅 디바이스(202 또는 204)에 의해 모니터링, 관리 또는 제어될 수 있다. 인터넷 연결 디바이스(206, 208, 210, 212 또는 216)는 고유 식별자를 갖는 중앙 계정에 링크될 수 있으며, 이는 사용자(232)에 링크될 수 있다.

동작(218)에서, 방(234)에 위치한 사용자(232)는 명령 또는 쿼리를 말할 수 있다. 사용자는 입력 오디오 신호에 대응하는 음파를 생성할 수 있다. 동작(218)에서, 입력 오디오 신호는 제1 디지털 어시스턴트 컴퓨팅 디바이스(202) 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(204) 둘 모두에 의해 검출될 수 있다. 예시적 입력 오디오 신호(218)는 "텔레비전에서 오늘의 뉴스 클립을 재생해"라는 명령을 포함할 수 있다. 디바이스들(202 및 204)이 사용자(232)의 검출 근접 내에 위치되기 때문에, 디바이스들(202 및 204)은 동작(218)에서 입력 오디오 신호를 검출할 수 있다. 두 디바이스 모두 입력 오디오 신호를 수신하고 입력 오디오 신호를 프로세싱하도록 구성될 수 있다.

제1 및 제2 디지털 컴퓨팅 디바이스(202 및 204)는 입력 오디오 신호에 대한 초기 프로세싱을 수행하고, 입력 오디오 신호가 충분한 품질로 검출되었는지 검출하여, 디지털 컴퓨터 디바이스(202 및 204)가 방(232)에서 네트워크 연결 디바이스를 성공적으로 제어하기 위한 액션 데이터 구조를 생성하는데 사용될 가능성이 있는 데이터 패킷을 각각 생성하도록 한다. 초기 프로세싱은 신호 품질 검사 프로세스를 지칭하거나 이를 포함할 수 있다.

동작(220)에서, 제1 디지털 어시스턴트 컴퓨팅 디바이스(220)는 제1 디지털 어시스턴트 컴퓨팅 디바이스(220)가 입력 오디오 신호(218)를 프로세싱하도록 동작가능하다는 제1 표시를 데이터 프로세싱 시스템(102)의 조정자 컴포넌트(112)에 전송할 수 있다. 제1 표시는 신호 품질 검사 프로세스에 응답하여 생성될 수 있다. 동작(222)에서, 조정자 컴포넌트(112)는 정책에 기초하여, 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)에게 입력 오디오 신호(218)를 프로세싱하도록 지시할 것을 결정할 수 있다.

동작(226)에서, 데이터 프로세싱 시스템(102)은 제2 디지털 어시스턴트 컴퓨팅 디바이스(204)가 입력 오디오 신호를 프로세싱하도록 동작가능하다는 것을 나타내는 제2 디지털 어시스턴트 컴퓨팅 디바이스(204)로부터의 제2 표시를 수신한다. 그러나, 시스템(200)에서의 프로세싱을 감소시키기 위해, 데이터 프로세싱 시스템(102)(예를 들어, 조정자 컴포넌트(112)를 통해)은 동작(228)에서 제2 디지털 어시스턴트 컴퓨팅 디바이스는 대기 모드로 들어가도록 지시할 수 있다. 대기 모드는 디바이스(204)가 현재 입력 오디오 신호(218)를 더 프로세싱하지 않도록 하는 것을 참조하거나 지시할 수 있다. 대기 모드는 디바이스(204)가 조건이 발생하거나 이벤트가 트리거될 때까지 후속 입력 오디오 신호를 더 이상 프로세싱하지 않도록 하는 것을 참조하거나 지시할 수 있다. 대기 모드는 디바이스(204)가 데이터 패킷을 생성하지 못하게 할 수 있다. 대기 모드에서, 디바이스(204)는 후속 입력 오디오 신호에 대해 신호 품질 검사를 수행하거나 수행하지 않을 수 있고, 표시를 데이터 프로세싱 시스템(102)에 전송할 수 있다. 대기 모드는 디바이스(204)의 하나 이상의 컴포넌트 또는 기능을 비활성화할 수 있다.

디바이스(204)는 (228을 통해) 미리 결정된 시간 간격(예를 들어, 1분, 2분, 3분, 5분, 10분, 15분 또는 30분) 동안 대기 모드로 진입하도록 지시를 받을 수 있다. 디바이스(204)는 디바이스(204)가 방(132) 주위에 확립된 가상 지리적 펜스 외부와 같은 위치를 이동하거나 위치를 변경할 때까지 대기 모드로 진입하도록 지시될 수 있다(228을 통해).

동작(224)에서, 동작(222)에서의 지시에 응답하여, 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)는 입력 오디오 신호(218)의 다운 스트림 프로세싱을 수행하고 명령을 전달하는 데이터 패킷을 제공할 수 있다. 동작(224)에서, 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)는 명령을 전달하는 데이터 패킷을 데이터 프로세싱 시스템(102)에 전송할 수 있다. NLP 컴포넌트(110) 및 다이렉트 액션 API(114)는 데이터 패킷을 프로세싱하여 액션 데이터 구조를 생성하고, 동작(230)에서 액션 데이터 구조를 대응하는 네트워크 컴퓨팅 디바이스에 전송할 수 있다. 예를 들어, 데이터 프로세싱 시스템(102)은 트리거 키워드 "재생", "텔레비전" 및 "뉴스 클립"을 식별할 수 있다. 데이터 프로세싱 시스템(102)은 고유 식별자를 갖는 계정에 링크된 연결된 멀티미디어 디스플레이(212)를 식별하기 위해 데이터 저장소(116)에 저장된 계정 데이터 구조(118)에서 검색을 수행할 수 있다. 데이터 프로세싱 시스템(102)은 "텔레비전"이 "연결된 멀티미디어 디스플레이(212)"에 대응한다고 결정할 수 있다(예를 들어, 이력적인 사용에 기초하거나 제거 프로세스에 의해). 데이터 프로세싱 시스템(102)은 컨텐츠 선택기를 사용하거나 비디오 플랫폼에서 뉴스 클립에 대한 쿼리를 수행하여 뉴스 클립을 식별할 수 있다. 데이터 프로세싱 시스템(102)은 뉴스 클립에 대한 링크 또는 포인터를 갖는 액션 데이터 구조를 생성하고, 연결된 멀티미디어 디스플레이(212)가 뉴스 클립을 렌더링 또는 재생하게 하도록 액션 데이터 구조를 연결된 멀티미디어 디스플레이(212)에 전송할 수 있다. 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 네트워크 연결 디바이스(106)에 전송할 때 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회할 수 있다. 데이터 프로세싱 시스템(102)은 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회하고, 네트워크(105)를 통해 액션 데이터 구조를 네트워크 연결 디바이스(106)에 직접 전송할 수 있다. 데이터 프로세싱 시스템(102)은 적어도 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)를 우회하고, 액션 데이터 구조를 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)로 전송하지 않거나, 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)와 통신하지 않고, 네트워크 연결 디바이스(106)에 액션 데이터 구조를 전송할 수 있다. 데이터 프로세싱 시스템(102)은 액션 데이터 구조를 생성한 후, 그리고 액션 데이터 구조가 네트워크 연결 디바이스(106)로 전송될 때까지 제1 디지털 어시스턴트 컴퓨팅 디바이스(104)와 통신하지 않을 수 있다.

데이터 프로세싱 시스템(102)은 명령을 생성한 제1 디지털 어시스턴트 컴퓨팅 디바이스(202)에 상태 업데이트를 제공할 수 있다. 상태 업데이트는 액션 데이터 구조가 생성되어 디스플레이(212)로 전송되었음을 나타낼 수 있다. 상태 업데이트는 뉴스 클립이 재생될 예정이거나, 재생되고 있거나, 디스플레이(212)에서 재생이 완료되었음을 나타낼 수 있다. 상태 업데이트는 계정에서 링크된 디스플레이가 없어서 디스플레이(212)의 위치를 찾을 수 없는 경우와 같은 액션 데이터 구조의 실행과 연관된 오류 또는 실패를 표시할 수 있다.

제1 디지털 어시스턴트 컴퓨팅 디바이스(예를 들어, 프리-프로세서를 통해)는 네트워크 연결 디바이스에 전송된 액션 데이터 구조의 상태의 표시를 수신하고, 오디오 드라이버에 지시하여 출력 오디오 신호를 생성하여 스피커 컴포넌트로 하여금 상태의 표시에 대응하는 오디오 출력을 전송하게 할 수 있다.

따라서, 조정자 컴포넌트(112)는 시스템(200)에서의 리소스 이용을 감소시키기 위해 신호 프로세싱을 조정할 수 있으므로, 모든 디지털 어시스턴트 컴퓨팅 디바이스(202 또는 204)가 입력 오디오 신호를 프로세싱하여 데이터 프로세싱 시스템에 전송할 문법이 없는 데이터 패킷을 생성하지 않게 하고, 모든 네트워크에 연결된 디바이스가 액션 데이터 구조를 수신하여 액션 데이터 구조를 실행하지 않게 한다.

도 3은 음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 예시적 방법의 도시이다. 방법(300)은 도 1에 도시된 시스템(100), 도 2에 도시된 시스템(200) 또는 도 4에 도시된 시스템(400)의 하나 이상의 컴포넌트, 시스템 또는 엘리먼트에 의해 수행될 수 있다. 방법(300)은 동작(302)에서 입력 오디오 신호를 검출하는 단계(302)를 포함할 수 있다. 입력 오디오 신호는 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출될 수 있다. 예를 들어, 동작(302)에서 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스는 각각 동일한 입력 오디오 신호를 검출할 수 있다.

동작(304)에서, 방법(300)은 검출된 입력 신호가 신호 프로세싱에 적합한지 여부를 결정하고 표시를 전송하는 단계를 포함할 수 있다. 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스는 신호 품질 검사 프로세스를 수행하여 검출된 입력 오디오 신호가 안정적인 다운스트림 프로세싱을 위해 충분한 품질인지 결정할 수 있다. 예를 들어, 제1 디지털 어시스턴트 컴퓨팅 디바이스는 검출된 입력 오디오 신호의 SNR을 결정하고, SNR이 임계치를 만족한다고(예: -3dB 이상) 결정할 수 있다. 제2 디지털 어시스턴트 컴퓨팅 디바이스는 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출된, 검출된 입력 오디오 신호의 SNR이 또한 임계치를 만족한다고 결정할 수 있다. 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스는 검출된 입력 오디오 신호의 품질이 신호 품질 검사를 만족하기 때문에 디바이스가 검출된 입력 오디오 신호를 프로세싱하도록 동작가능하다는 것을 나타내는 각각의 표시를 데이터 프로세싱 시스템에 전송할 수 있다. 일부 경우에, 하나 이상의 디지털 어시스턴트 컴퓨팅 디바이스 중 하나만이 신호 품질 검사를 통과하기에 충분한 품질을 갖는 입력 오디오 신호를 검출할 수 있다.

동작(306)에서, 데이터 프로세싱 시스템은 추가 프로세싱을 위해 디지털 어시스턴트 컴퓨팅 디바이스 중 하나를 선택할 수 있다. 예를 들어, 데이터 프로세싱 시스템은 추가 프로세싱을 수행하기 위해 제1 디지털 어시스턴트 컴퓨팅 디바이스를 선택할 수 있다. 데이터 프로세싱 시스템은 제1 디지털 어시스턴트 컴퓨팅 디바이스가 주 신호 프로세서로 설정된 것에 기초하여 제1 디지털 어시스턴트 컴퓨팅 디바이스를 선택할 수 있다. 예를 들어, 제1 및 제2 디지털 어시스턴트 컴퓨팅 디바이스는 입력 오디오 신호를 프로세싱하도록 동작가능할 수 있지만, 데이터 프로세싱 시스템은 디지털 어시스턴트 컴퓨팅 디바이스가 주 신호 프로세서로 설정된 것에 기초하여 디지털 어시스턴트 컴퓨팅 디바이스들 중 하나를 선택할 수 있다.

동작(308)에서, 데이터 프로세싱 시스템은 제1 디지털 어시스턴트에게 추가 프로세싱을 수행하도록 지시하고, 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드로 진입하거나 추가 프로세싱을 수행하지 않도록 지시할 수 있다. 대기 모드는 현재 입력 오디오 신호를 프로세싱하지 않는 것을 지칭할 수 있다.

동작(310)에서, 데이터 프로세싱 시스템은 명령을 포함하는 데이터 패킷을 수신할 수 있다. 데이터 패킷은 선택된 제1 컴퓨팅 디바이스에 의해 생성될 수 있다. 동작(312)에서, 데이터 프로세싱 시스템은 복수의 네트워크 연결 디바이스로부터 네트워크 연결 디바이스를 선택하고, 데이터 패킷에 기초하여 선택된 네트워크 연결 디바이스에 대한 액션 데이터 구조를 생성할 수 있다. 액션 데이터 구조는 선택된 네트워크 연결 디바이스를 제어하기 위한 명령어로 생성될 수 있다. 데이터 프로세싱 시스템은 하나 이상의 정책, 특성, 기계 학습 기법, 휴리스틱 또는 규칙을 사용하여 네트워크 연결 디바이스를 선택할 수 있다. 동작(314)에서, 데이터 프로세싱 시스템은 액션 데이터 구조를 선택된 네트워크 연결 디바이스에 전송할 수 있다.

도 4는 예시적 컴퓨터 시스템(400)의 블록도이다. 컴퓨터 시스템 또는 컴퓨팅 디바이스(400)는 시스템(100) 또는 데이터 프로세싱 시스템(102)과 같은 그 컴포넌트들을 포함하거나 이들을 구현하는데 사용될 수 있다. 컴퓨팅 디바이스(400)는 지능형 개인 어시스턴트 또는 음성 기반 디지털 어시스턴트를 포함, 제공 또는 그와 인터페이스할 수 있다. 컴퓨팅 시스템(400)은 정보를 통신하기 위한 버스(405) 또는 다른 통신 컴포넌트 및 정보를 프로세싱하기 위해 버스(405)에 연결된 프로세서(410) 또는 프로세싱 회로를 포함한다. 컴퓨팅 시스템(400)은 또한 정보를 프로세싱하기 위해 버스에 연결된 하나 이상의 프로세서들(410) 또는 프로세싱 회로들을 포함할 수 있다. 컴퓨팅 시스템(400)은 또한 정보 및 프로세서(410)에 의해 실행될 명령어들을 저장하기 위해 버스(405)에 연결된 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 디바이스와 같은 메인 메모리(415)를 포함한다. 메인 메모리(415)는 데이터 저장소(145)이거나 데이터 저장소(145)를 포함할 수 있다. 메인 메모리(415)는 또한 프로세서(410)에 의한 명령어들의 실행 동안 위치 정보, 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 컴퓨팅 시스템(400)은 프로세서(410)를 위한 정적 정보 및 명령어들을 저장하기 위해 버스(405)에 연결된 ROM(read-only memory)(420) 또는 다른 정적 저장 디바이스를 더 포함할 수 있다. 솔리드 스테이트 디바이스(SSD), 자기 디스크 또는 광 디스크와 같은 저장 디바이스(425)는 정보 및 명령어들을 영구적으로 저장하기 위해 버스(405)에 연결될 수 있다. 저장 디바이스(425)는 데이터 저장소(145)를 포함하거나 데이터 저장소(145)의 일부일 수 있다.

컴퓨팅 시스템(400)은 버스(405)를 통해, 사용자에게 정보를 디스플레이하기 위한 액정 디스플레이 또는 액티브 매트릭스 디스플레이와 같은 디스플레이(435)에 연결될 수 있다. 정보 및 명령 선택을 프로세서(410)와 통신하기 위해 영숫자 및 다른 키를 포함하는 키보드와 같은 입력 디바이스(430)가 버스(405)에 연결될 수 있다. 입력 디바이스(430)는 터치 스크린 디스플레이(435)를 포함할 수 있다. 입력 디바이스(430)는 또한 방향 정보 및 명령 선택을 프로세서(410)와 통신하고 디스플레이(435) 상의 커서 움직임을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 제어를 포함할 수 있다. 디스플레이(435)는 예를 들면, 데이터 프로세싱 시스템(102), 클라이언트 컴퓨팅 디바이스(150) 또는 도 1의 다른 컴포넌트의 일부일 수 있다.

본 명세서에 기술된 프로세스, 시스템 및 방법은 프로세서(410)가 메인 메모리(415)에 포함된 명령어들의 배열을 실행하는 것에 응답하여 컴퓨팅 시스템(400)에 의해 구현될 수 있다. 이러한 명령어들은 저장 디바이스(425)와 같은 다른 컴퓨터 판독 가능 매체로부터 메인 메모리(415)로 판독될 수 있다. 메인 메모리(415)에 포함된 명령어들의 배열의 실행은 컴퓨팅 시스템(400)으로 하여금 본 명세서에 기술된 예시적 프로세스들을 수행하게 한다. 멀티-프로세싱 배열에서 하나 이상의 프로세서들은 또한 메인 메모리(415)에 포함된 명령어들을 실행하기 위해 이용될 수 있다. 본 명세서에 기술된 시스템 및 방법과 함께 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합하여 유선 회로가 사용될 수 있다. 본 명세서에 기술된 시스템 및 방법은 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 한정되지 않는다.

예시적 컴퓨팅 시스템이 도 4에 설명되었지만. 본 명세서에 기술된 동작들을 포함하는 본 발명은 본 명세서에 개시된 구조들 및 그들의 구조적 균등물들 또는 그들 중 하나 이상의 조합들을 포함하는 디지털 전자회로 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서 구현될 수 있다.

본 명세서에서 논의된 시스템들이 사용자들에 관한 개인 정보를 수집하거나 또는 개인 정보를 사용하는 경우들에 있어서, 사용자들에게 프로그램들 또는 구성들이 개인 정보 예를 들면, 사용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 사용자의 선호들 또는 사용자의 위치에 관한 정보를 수집할 것인지 여부를 제어할, 사용자와 더 관련된 콘텐츠 서버 또는 기타 데이터 프로세싱 시스템으로부터의 콘텐츠를 수신할지 또는 어떻게 수신할지 제어할 기회가 제공될 수 있다. 추가로, 특정 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 다양한 방식들로 익명화되어, 파라미터들을 생성하는 경우 개인적으로 식별가능한 정보는 제거되도록 한다. 예를 들면, 사용자의 신원은 사용자에 관한 개인적으로 식별가능한 정보가 결정될 수 없도록 익명화되거나 또는 사용자의 지리적 위치는 위치 정보가 획득된 곳에서 일반화되어(시, 우편번호 또는 주 수준으로), 사용자의 특정한 위치가 결정될 수 없도록 한다. 따라서, 사용자는 그 또는 그녀에 관한 정보가 어떻게 수집되는지 그리고 콘텐츠 서버에 의해 사용되는지에 관한 제어를 가질 수 있다.

본 발명과 본 명세서에 기술된 동작들은 본 발명에 개시된 구조들 및 그들의 구조적 균등물들 또는 그들 중 하나 이상의 조합들을 포함하는 디지털 전자회로 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서 구현될 수 있다. 본 명세서에 기술된 본 발명은 하나 이상의 컴퓨터 프로그램들 예를 들어, 데이터 프로세싱 장치에 의해 실행 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 회로들로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의해 실행하기 위한 적절한 수신기 장치에 전송하기 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파된 신호 즉, 기계-생성 전기, 광학 또는 전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 저장 디바이스, 컴퓨터 판독가능 저장 기판, 랜덤 또는 직렬 엑세스 메모리 어레이 또는 디바이스 또는 그들 중 하나 이상의 조합이거나 그에 포함될 수 있다. 컴퓨터 저장 매체는 전파된 신호가 아니지만, 컴퓨터 저장 매체는 인공적으로 생성된 전파된 신호에 인코딩된 컴퓨터 프로그램 명령어들의 소스 또는 목적지일 수 있다. 또한, 컴퓨터 저장 매체는 하나 이상의 별개의 컴포넌트들 또는 매체(예를 들면, 다수의 CD들, 디스크들, 또는 다른 저장 디바이스들)이거나 또는 그에 포함될 수 있다. 본 명세서에 기술된 동작들은 하나 이상의 컴퓨터 판독가능 저장 디바이스들에 저장된 또는 다른 소스들로부터 수신된 데이터에서 데이터 프로세싱 장치에 의해 수행되는 동작들로서 구현될 수 있다.

용어 "데이터 프로세싱 시스템", "컴퓨팅 디바이스", "컴포넌트" 또는 "데이터 프로세싱 장치"는 예시로서 프로그래머블 프로세서, 컴퓨터, 시스템 온 칩 또는 앞서 언급된 것들 중 다수의 것들 또는 조합들을 포함하는 데이터를 프로세싱하기 위한 다양한 장치, 디바이스들 및 기계들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 또한, 장치는 하드웨어 이외에 문제의 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 크로스-플랫폼 런타임(cross-platform runtime) 실행 환경, 가상 머신 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스들, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 컴퓨팅 모델 인프라를 실현할 수 있다. 예를 들면, 다이렉트 액션 API(114), 콘텐츠 선택 컴포넌트(118), 또는 NLP 컴포넌트(110) 및 다른 데이터 프로세싱 시스템(102) 컴포넌트들은 하나 이상의 데이터 프로세싱 장치, 시스템, 컴퓨팅 디바이스 또는 프로세서를 포함하거나 공유할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 앱, 스크립트 또는 코드로도 알려져 있음)은 컴파일된 또는 인터프리트된 언어들, 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴, 객체로서 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위를 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있다. 컴퓨터 프로그램은 다른 프로그램들이나 데이터, 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들을 가지는 파일의 부분에, 문제되는 프로그램 전용 단일의 파일에 또는 다수의 조정된 파일들, 예를 들어, 하나 이상의 모듈들, 서브프로그램 또는 코드의 일부를 저장하는 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치되어 있거나 다수의 사이트들에 걸쳐서 분산되어 있고 통신 네트워크에 의해 상호연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 액션들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들(예: 데이터 프로세싱 시스템(102)의 컴포넌트들)을 실행하는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 특수 목적 논리 회로로서 구현될 수 있다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 디바이스들은 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.

본 명세서에서 기술된 발명은 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 어플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 인터-네트워크(예를 들어, 인터넷) 및 피어투피어 네트워크(예를 들어, 애드혹 피어투피어 네트워크)를 포함한다.

시스템(100) 또는 시스템(400)과 같은 컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크(예: 네트워크(105)를 통해 인터렉션한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 사용자-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다. 일부 구현예에서, 서버는(예를 들어, 사용자 디바이스와 인터렉션하는 사용자에게 데이터를 디스플레이하고 사용자 입력을 수신하기 위해) 사용자 디바이스에 데이터(예를 들어, 콘텐츠 아이템을 표현하는 데이터 패킷들)를 전송한다. 클라이언트 디바이스에서 생성된 데이터(예를 들어, 사용자 인터렉션의 결과)는 서버에서, 클라이언트 디바이스로부터 수신될 수 있다(예를 들어, 디지털 어시스턴트 컴퓨팅 디바이스(104) 또는 콘텐츠 제공자 컴퓨팅 디바이스(106) 또는 서드 파티 디바이스(146)으로부터 데이터 프로세싱 시스템(102)에 의해 수신).

동작들이 특정한 순서로 도면에 도시되었지만, 상기 동작들은 도시된 특정한 순서로 또는 시계열적 순서로 수행되어야 함을 요구하는 것이 아니며, 모든 도시된 동작들이 수행되어야만 하는 것은 아니다. 본 명세서에 기술된 액션들은 다른 순서로 수행될 수 있다.

다양한 시스템 컴포넌트들의 분리는 모든 구현예들에서의 분리를 필요로 하지 않으며, 기술된 프로그램 컴포넌트들은 단일 하드웨어 또는 소프트웨어 제품에 포함될 수 있다. 예를 들어, NLP 컴포넌트(110) 또는 콘텐츠 선택 컴포넌트(118)는 단일 컴포넌트, 앱 또는 프로그램, 또는 하나 이상의 프로세싱 회로를 갖는 논리 디바이스이거나 또는 데이터 프로세싱 시스템(102)의 하나 이상의 서버의 일부일 수 있다.

일부 예시적 구현예들을 설명하였지만, 전술한 예는 예시적인 것이며 제한적인 것은 아니며 예시로서 제시되었다. 특히, 본 명세서에 제시된 많은 예들이 방법 동작들 또는 시스템 엘리먼트들의 특정 조합을 포함하지만, 그러한 동작들 및 엘리먼트들은 동일한 목적을 달성하기 위해 다른 방식으로 결합될 수 있다. 하나의 구현예와 관련하여 논의된 동작, 엘리먼트 및 구성들은 다른 구현 또는 구현예들에서 유사한 역할로부터 배제되지 않는다.

본 명세서에서 사용된 문구 및 용어는 설명의 목적을 위한 것이며 제한적인 것으로 간주되어서는 안된다. "포함(including)" "포함(comprising)" "포함(having)" "포함(containing)" "포함(involving)" "포함(characterized by)" "포함(characterized in that)" 및 본 명세서에서 이들의 변형들은 열거된 아이템들, 그 균등물 및 추가 아이템들뿐만 아니라 배타적으로 열거된 아이템들로 구성되는 대안적 구현예들을 포함하는 것을 의미한다. 일 구현예에서, 본 명세서에 기술된 시스템 및 방법은 설명된 엘리먼트들, 동작들 또는 컴포넌트들 중 하나, 하나 이상의 조합 또는 전부로 구성된다.

단수형으로 본 명세서에서 언급된 시스템 및 방법의 구현 또는 엘리먼트에 관한 참조는 이들 엘리먼트들 복수형을 포함하는 구현예들을 포함할 수 있고, 복수형으로 본 명세서에서 언급된 임의의 구현예 또는 엘리먼트에 대한 임의의 참조는 단수형 엘리먼트를 포함하는 구현예들을 포함할 수 있다. 단수 또는 복수 형태의 참조는 현재 개시된 시스템 또는 방법, 그들의 컴포넌트들, 동작 또는 엘리먼트를 단수 또는 복수 구성으로 제한하려는 것이 아니다. 임의의 정보, 동작 또는 엘리먼트에 기초한 임의의 동작 또는 엘리먼트에 대한 참조는 해당 동작 또는 엘리먼트가 적어도 부분적으로 임의의 정보, 동작 또는 엘리먼트에 기초하는 구현예를 포함할 수 있다.

본 명세서에 개시된 임의의 구현예는 임의의 다른 구현예 또는 실시예와 결합될 수 있으며, "구현예", "일부 구현예", "일 구현예" 등은 반드시 상호 배타적이지 않고, 구현예와 관련하여 기술된 특정한 구성, 구조 또는 특성이 적어도 하나의 구현예 또는 실시예에 포함될 수 있음을 나타낸다. 본 명세서에 사용된 용어들은 반드시 모두 동일한 구현예를 지칭하는 것은 아니다. 임의의 구현예는 본 명세서에 개시된 양태들 및 구현예들과 일관된 방식으로 임의의 다른 구현예와 포괄적으로 또는 배타적으로 결합될 수 있다.

"또는"에 대한 참조는 "또는"을 사용하여 기술된 임의의 용어가 기술된 용어들 중 하나, 하나 이상 및 전부를 나타낼 수 있도록 포괄적인 것으로 해석될 수 있다. 예를 들어, "A 및 B 중 적어도 하나"에 대한 참조는 A 및 B 뿐만 아니라 A와 B 둘 모두를 포함할 수 있다. "포함하는" 또는 다른 개방 용어와 함께 사용되는 이러한 참조는 추가적 아이템들을 포함할 수 있다.

도면, 상세한 설명 또는 청구범위의 기술적 구성에 참조 부호가 있는 경우, 상기 참조 부호는 도면, 상세한 설명 및 청구 범위의 명료성을 증가시키기 위해 포함되었다. 따라서, 참조 부호들 또는 그것들의 부재는 임의의 청구항 엘리먼트들의 범위에 대해 어떠한 제한 효과도 가지지 않는다.

본 명세서에 기술된 시스템 및 방법은 그 특성을 벗어나지 않고 다른 특정 형태로 구체화될 수 있다. 전술한 구현예들은 기술된 시스템 및 방법을 제한하는 것이라기 보다는 예시적인 것이다. 따라서, 본 명세서에 기술된 시스템 및 방법의 범위는 상술한 설명보다는 첨부된 청구범위에 의해 표시되며, 청구범위의 의미 및 범위 내에서의 변경들도 그 안에 포함된다.

Claims

음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 시스템으로서,
제1 디지털 어시스턴트 컴퓨팅 디바이스 및 제2 디지털 어시스턴트 컴퓨팅 디바이스를 포함하는 복수의 디지털 어시스턴트 컴퓨팅 디바이스, 상기 복수의 디지털 어시스턴트 컴퓨팅 디바이스는 복수의 네트워크 연결 디바이스를 제어하도록 동작가능하며;
조정자 컴포넌트 및 다이렉트 액션 애플리케이션 프로그래밍 인터페이스("API")를 실행하기 위한 하나 이상의 프로세서 및 메모리를 포함하는 데이터 프로세싱 시스템, 상기 데이터 프로세싱 시스템은 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하며;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 통해, 입력 오디오 신호를 검출하는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 신호 품질 검사기;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 통해, 상기 입력 오디오 신호를 검출하는 제2 디지털 어시스턴트 컴퓨팅 디바이스;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 상기 신호 품질 검사기;
상기 데이터 프로세싱 시스템의 상기 조정자 컴포넌트는:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시를 수신하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시를 수신하고;
주 신호 프로세서로 설정된 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트를 선택하고;
상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 지시하고;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드에 진입하도록 지시하고;
상기 다이렉트 액션 API는:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터 명령을 포함하는 데이터 패킷을 수신하고, 상기 명령은 상기 입력 오디오 신호에 기초하여 상기 제1 디지털 어시스턴트에 의해 생성되며;
상기 복수의 네트워크 연결 디바이스로부터 선택된 네트워크 연결 디바이스에 대해, 상기 명령에 기초하여 액션 데이터 구조를 생성하고;
상기 네트워크 연결 디바이스를 제어하기 위해 상기 액션 데이터 구조를 상기 네트워크 연결 디바이스에 전송하는, 시스템.
청구항 1에 있어서, 상기 복수의 디지털 어시스턴트 컴퓨팅 디바이스는 이종 디바이스이고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스는 제1 유형의 디바이스를 포함하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스는 제2 유형의 디바이스를 포함하는, 시스템.
청구항 2에 있어서, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 네트워크 연결 디바이스 각각은 어시스턴트 소프트웨어 개발 키트로 구성되며,
제1 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함하고,
제2 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함하고, 그리고
네트워크 연결 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스, 웨어러블 디바이스, 디지털 램프, 디지털 온도 조절기, 디지털 기기 및 디지털 자동차 중 적어도 하나를 포함하는, 시스템.
임의의 선행하는 청구항에 있어서, 상기 데이터 프로세싱 시스템은:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하고;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하고;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성과 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성의 비교에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하도록 결정하고; 그리고
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하는, 시스템.
임의의 선행하는 청구항에 있어서, 상기 데이터 프로세싱 시스템은:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제1 링크 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제2 링크를 상기 메모리의 중앙화된 계정에 저장하고; 그리고
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 선택에 응답하여, 상기 제1 링크에 기초하여, 상기 액션 데이터 구조의 생성을 위한 정보를 검색하는 것에 응답하여 상기 중앙화된 계정에 액세스하는, 시스템.
청구항 5에 있어서, 상기 중앙화된 계정은 상기 제1 디지털 어시스턴트 및 상기 제2 디지털 어시스턴트 중 적어도 하나에 대한 링크를 갖는 복수의 이종 네트워크 연결 디바이스와 연관된 정보를 저장하며, 상기 데이터 프로세싱 시스템은:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출된 상기 입력 오디오 신호의 특성의 제1 값을 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 검출된 상기 입력 오디오 신호의 특성의 제2 값과 비교하고; 그리고
상기 비교에 기초하여, 상기 복수의 네트워크 연결 디바이스로부터 상기 네트워크 연결 디바이스를 선택하는, 시스템.
임의의 선행하는 청구항에 있어서, 상기 데이터 프로세싱 시스템은:
기계 학습 모델에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하도록 결정하는, 시스템.
임의의 선행하는 청구항에 있어서, 상기 데이터 프로세싱 시스템은:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화를 검출하고; 그리고
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화에 기초하여, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 스위칭하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 스위칭하는, 시스템.
임의의 선행하는 청구항에 있어서, 상기 데이터 프로세싱 시스템은:
기계 학습 모델에 기초하여, 신호 프로세싱을 위한 상기 임계치를 결정하고; 그리고
상기 임계치를 상기 메모리의 중앙화된 계정에 저장하는, 시스템.
임의의 선행하는 청구항에 있어서,
제2 입력 오디오 신호를 수신하는 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족하지 않는다고 결정하고, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 상기 데이터 프로세싱 시스템에 전송하는, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 상기 신호 품질 검사기;
상기 제2 입력 오디오 신호를 수신하는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행되는 상기 신호 품질 검사기를 포함하며;
상기 데이터 프로세싱 시스템은:
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 수신하고;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 수신하고;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 것에 기초하여, 상기 제2 입력 오디오 신호를 프로세싱하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅을 선택하고;
상기 다이렉트 액션 API는 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터 제2 명령을 포함하는 데이터 패킷을 수신하는, 시스템.
음성 구동 컴퓨팅 환경에서 컴퓨팅 디바이스들 사이에서 신호 프로세싱을 조정하는 방법으로서,
제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 통해 입력 오디오 신호를 검출하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 하나 이상의 프로세서 및 메모리를 포함하는 데이터 프로세싱 시스템에 전송하는 단계;
제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서를 통해 상기 입력 오디오 신호를 검출하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터의 상기 표시를 수신하는 단계;
상기 데이터 프로세싱 시스템에 의해, 주 신호 프로세서로 설정된 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트를 선택하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 지시하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 대기 모드에 진입하도록 지시하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터 명령을 포함하는 데이터 패킷을 수신하는 단계, 상기 명령은 상기 입력 오디오 신호에 기초하여 상기 제1 디지털 어시스턴트에 의해 생성되며;
상기 데이터 프로세싱 시스템에 의해, 복수의 네트워크 연결 디바이스로부터 선택된 네트워크 연결 디바이스에 대해, 상기 명령에 기초하여 액션 데이터 구조를 생성하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 네트워크 연결 디바이스를 제어하기 위해 상기 액션 데이터 구조를 네트워크 연결 디바이스에 전송하는 단계를 포함하는, 방법.
청구항 11에 있어서, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스는 제1 유형의 디바이스를 포함하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스는 제2 유형의 디바이스를 포함하고,
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스, 제2 디지털 어시스턴트 컴퓨팅 디바이스 및 네트워크 연결 디바이스 각각은 어시스턴트 소프트웨어 개발 키트로 구성되며,
제1 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함하고,
제2 유형의 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스 및 웨어러블 디바이스 중 적어도 하나를 포함하고, 그리고
네트워크 연결 디바이스는 스피커 디바이스, 텔레비전 디바이스, 모바일 디바이스, 웨어러블 디바이스, 디지털 램프, 디지털 온도 조절기, 디지털 기기 및 디지털 자동차 중 적어도 하나를 포함하는, 방법.
청구항 11 또는 청구항 12에 있어서,
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성을 획득하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 폴링하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성과 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 하나 이상의 특성의 비교에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하도록 결정하는 단계; 및
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 설정하는 단계를 더 포함하는, 방법.
청구항 11, 12 또는 13에 있어서,
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제1 링크 및 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스와 상기 네트워크 연결 디바이스 사이의 제2 링크를 상기 메모리의 중앙화된 계정에 저장하는 단계; 및
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 선택에 응답하여, 상기 제1 링크에 기초하여, 상기 액션 데이터 구조의 생성을 위한 정보를 검색하는 것에 응답하여 상기 중앙화된 계정에 액세스하는 단계를 포함하는, 방법.
청구항 11 내지 14 중 어느 한 항에 있어서,
기계 학습 모델에 기초하여, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 설정하도록 결정하는 단계를 포함하는, 방법.
청구항 11 내지 15 중 어느 한 항에 있어서,
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화를 검출하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 조건의 변화에 기초하여, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스를 주 신호 프로세서로 스위칭하는 단계; 및
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스를 부 신호 프로세서로 스위칭하는 단계를 포함하는, 방법.
청구항 11 내지 16 중 어느 한 항에 있어서,
기계 학습 모델에 기초하여, 신호 프로세싱을 위한 상기 임계치를 결정하는 단계; 및
상기 임계치를 상기 메모리의 중앙화된 계정에 저장하는 단계를 포함하는, 방법.
청구항 11 내지 17 중 어느 한 항에 있어서,
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해, 제2 입력 오디오 신호를 수신하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족하지 않는다고 결정하는 단계;
상기 제1 디지털 어시스턴트 컴퓨팅 디바이스에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 상기 데이터 프로세싱 시스템에 전송하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해, 상기 제2 입력 오디오 신호를 수신하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해 실행된 신호 품질 검사기에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 제2 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하는 단계;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 상기 데이터 프로세싱 시스템에 전송하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않다는 표시를 수신하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시를 수신하는 단계;
상기 데이터 프로세싱 시스템에 의해, 상기 제1 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하지 않고, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 제2 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 것에 기초하여, 상기 제2 입력 오디오 신호를 프로세싱하기 위해 상기 제2 디지털 어시스턴트 컴퓨팅을 선택하는 단계;
상기 다이렉트 액션 API에 의해, 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스로부터 제2 명령을 포함하는 데이터 패킷을 수신하는 단계를 포함하는, 방법.
디지털 어시스턴트 컴퓨팅 디바이스로서,
입력 오디오 신호를 검출하는 센서; 및
오디오 드라이버;
프리-프로세서 컴포넌트에 의해 실행되는 신호 품질 검사기;
상기 센서 및 상기 오디오 드라이버에 연결된 프리-프로세서 컴포넌트를 포함하며, 상기 프리-프로세서 컴포넌트는:
상기 디지털 어시스턴트 컴퓨팅 디바이스의 센서에 의해 검출된 상기 입력 오디오 신호가 신호 프로세싱을 위한 임계치를 만족한다고 결정하고;
상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하도록 동작가능하다는 표시를 네트워크를 통해 데이터 프로세싱 시스템에 전송하고, 상기 표기는 상기 데이터 프로세싱 시스템으로 하여금:
상기 디지털 어시스턴트 컴퓨팅 디바이스로부터 상기 표시를 수신하게 하고;
상기 디지털 컴퓨팅 디바이스가 주 신호 프로세서로 설정되고, 상기 입력 오디오 신호를 검출하는 제2 디지털 컴퓨팅 디바이스가 부 신호 프로세서로 설정된다고 결정하게 하고, 상기 제2 디지털 컴퓨팅 디바이스는 상기 입력 오디오 신호를 프로세싱하도록 동작하고;
상기 주 신호 프로세서로 설정된 상기 디지털 어시스턴트 컴퓨팅 디바이스 및 상기 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하기 위해 동작가능하다는 표시에 기초하여, 상기 입력 오디오 신호를 프로세싱하기 위해 상기 디지털 어시스턴트를 선택하게 하고;
상기 입력 오디오 신호를 프로세싱하기 위한 명령어를 상기 디지털 어시스턴트 컴퓨팅 디바이스에 전송하고;
상기 제2 디지털 어시스턴트 컴퓨팅 디바이스가 상기 입력 오디오 신호를 프로세싱하는 것을 방지하기 위해 대기 모드에 진입하는 명령어를 상기 제2 디지털 어시스턴트 컴퓨팅 디바이스에 전송하고;
상기 디지털 어시스턴트 컴퓨팅 디바이스의 상기 프리-프로세서 컴포넌트는:
상기 입력 오디오 신호를 프로세싱하기 위한 명령어를 수신하고;
상기 입력 오디오 신호에 기초한 명령을 포함하는 데이터 패킷을 생성하고; 그리고
상기 데이터 패킷을 상기 데이터 프로세싱 시스템에 전송하여 상기 데이터 프로세싱 시스템으로 하여금:
상기 복수의 네트워크 연결 디바이스로부터 선택된 네트워크 연결 디바이스에 대해, 상기 디지털 컴퓨팅 디바이스로부터 수신된 상기 명령에 기초하여 액션 데이터 구조를 생성하게 하고;
상기 네트워크 연결 디바이스를 제어하기 위해 상기 액션 데이터 구조를 상기 네트워크 연결 디바이스에 전송하게 하는, 디지털 어시스턴트 컴퓨팅 디바이스.
청구항 19에 있어서,
오디오 드라이버;
스피커 컴포넌트; 및
상기 프리-프로세서 컴포넌트를 포함하며, 상기 프리-프로세서 컴포넌트는 상기 네트워크 연결 디바이스에 전송된 상기 액션 데이터 구조의 상태의 표시를 수신하고, 상기 오디오 드라이버에 지시하여 상기 스피커 컴포넌트로 하여금 상기 상태의 표시에 대응하는 오디오 출력을 전송하게 하는 출력 오디오 신호를 생성하는, 디지털 어시스턴트 컴퓨팅 디바이스.