KR20190064626A

KR20190064626A - 텍스트-음성 변환(tts) 프로비저닝

Info

Publication number: KR20190064626A
Application number: KR1020197013230A
Authority: KR
Inventors: 후안 호세 실베이라 오캄포
Original assignee: 구글 엘엘씨
Priority date: 2016-11-01
Filing date: 2017-07-13
Publication date: 2019-06-10
Also published as: JP6767581B2; KR102245246B1; CN109891497B; EP3510591A1; EP3510591B1; DE202017105485U1; US20180122361A1; CN109891497A; US10074359B2; JP2019536091A; WO2018084904A1

Abstract

동적 텍스트-음성 변환(TTS) 프로세스 및 시스템이 기술된다. 사용자에게 정보를 제공하라는 명령을 수신함에 응답하여, 디바이스는 정보를 검색하고, (i) 사용자가 쿼리를 발화했을 때 디바이스와 사용자 사이의 거리, (ii) 사용자의 음성 특징을 포함하는 사용자 및 환경 속성을 결정한다. 사용자 및 환경 속성에 기초하여, 디바이스는 사용자의 가능 기분 및 사용자와 사용자 디바이스가 위치하는 가능환경을 결정한다. 사용자의 기분 및 음성 특징과 매칭하는 오디오 출력 템플릿이 선택된다. 오디오 출력 템플릿은 사용자 및 디바이스가 위치하는 환경과도 호환된다. 상기 검색된 정보는 선택된 오디오 출력 템플릿을 사용하여 오디오 신호로 변환되어 디바이스에 의해 출력된다.

Description

텍스트-음성 변환(TTS) 프로비저닝

본 발명은 일반적으로 음성 합성에 관한 것이다.

텍스트-음성 변환(text-to-speech: TTS) 기능은 오디오 출력을 제공하기 위해 디바이스에 점점 더 많이 사용되고 있다. 그러나, TTS 출력은 일반적으로 사용자 환경에 자동으로 적용할 수 없으며 디바이스의 볼륨 제어와 같은 몇 가지 제한된 방법만이 TTS 출력을 제어하는데 사용할 수 있다.

일부 구현예에 따르면, 사용자 디바이스상에서 실행되는 TTS 동작은 사용자의 음성, 사용자의 가능 기분(likely mood) 및 사용자 디바이스가 위치하는 환경을 포함하는 다수의 인자(factor)에 기초하여 오디오 출력을 자동으로 제어하고 수정할 수 있다. 예를 들어, 일부 구현예에서, 사용자 디바이스는 사용자에게 정보를 제공하기 위한 커맨드를 수신할 수 있다. 커맨드를 수신하는 것에 응답하여, 사용자 디바이스는 커맨드와 관련된 정보를 검색하여, (i) 사용자 디바이스와 사용자 사이의 거리를 나타내는 근접 표시자; (ii) 사용자의 톤 또는 피치와 같은 음성 특징 및(iii) 환경 소음을 포함하는 사용자 및 환경 속성을 결정할 수 있다. 사용자 디바이스는 또한 검색된 정보가 출력될 애플리케이션을 결정할 수 있다. 사용자 디바이스는 사용자 및 환경 속성과 매칭하고 사용자 및 사용자 디바이스가 위치하는 환경과 호환되는 오디오 출력 템플릿을 선택한다. 상기 검색된 정보는 선택된 오디오 출력 템플릿에 부합하는 오디오 신호로 변환되어 사용자 디바이스에 의해 출력된다. 사용자 디바이스가 사용자 프라이버시를 유지할 수 있고 제3자에게 정보를 출력하거나 제3자의 커맨드에 응답할 수 있도록 프라이버시 및 보안 정책이 구현될 수 있다.

일부 구현예에 따르면, 사용자 디바이스에 의해 출력된 오디오 신호는, 예를 들어, 사용자가 말하는 톤 또는 피치를 매칭시키거나 또는 사용자의 음성 또는 기분과 매칭시키기 위해 특정 단어 또는 음절을 발성함으로써 사용자의 음성 또는 기분의 특징을 모방하도록 동적으로 생성될 수 있다. 일부 구현예에서, 사용자 디바이스는 사용자가 얼마나 멀리 사용자 디바이스로부터 떨어져 있는지 결정할 수 있고 그에 따라 오디오 출력 신호의 볼륨 또는 강도를 조정할 수 있다. 일부 구현예에서, 사용자 디바이스는 사용자가 있는 환경의 유형을 결정하고, 결정된 환경 유형에 따라 오디오 출력 신호를 조정할 수 있다. 예를 들어, 사용자 디바이스는 사용자가 혼잡한 환경에 있다는 것을 결정할 수 있으며, 혼잡한 환경에도 불구하고 사용자가 오디오 출력 신호를들을 수 있도록 오디오 출력 신호의 볼륨을 증가시킬 수 있다. 다른 예에서, 사용자 디바이스는 사용자가 혼잡한 환경에 있다는 것을 결정할 수 있고, 사용자가 제3자에게 공개하고 싶지 않을 수도 있는 정보가 사적으로 유지되도록 오디오 신호를 출력하기 위해 사용자에게 허가를 요청할 수 있다.

본 명세서에서 설명된 주제의 혁신적인 측면은 일부 구현예에서 동작들을 수행하는 컴퓨터 구현 방법을 포함한다. 상기 동작들은 하나 이상의 컴퓨팅 디바이스에 의해, (i) 사용자 디바이스와 관련된 사용자의 음성 특징 및 (ii) 사용자와 사용자 디바이스간의 거리를 나타내는 근접 표시자 중 하나 이상에 기초하여 하나 이상의 사용자 속성을 결정하는 단계를 포함한다. 상기 동작들은 또한 하나 이상의 컴퓨팅 디바이스에 의해, 출력될 데이터를 획득하는 단계를 포함한다. 상기 동작들은 또한 하나 이상의 컴퓨팅 디바이스에 의해, 하나 이상의 사용자 속성에 기초하여 오디오 출력 템플릿을 선택하는 단계를 포함한다. 상기 동작들은 또한 하나 이상의 컴퓨팅 디바이스에 의해, 상기 선택된 오디오 출력 템플릿을 사용하여 데이터를 포함하는 오디오 신호를 생성하는 단계를 포함한다. 상기 동작들은 또한 하나 이상의 컴퓨팅 디바이스에 의해, 출력을 위해 오디오 신호를 제공하는 단계를 포함한다.

구현예들은 각각 다음 특징들 중 하나 이상을 선택적으로 포함할 수 있다. 예를 들어, 일부 구현예에서, 사용자 디바이스와 관련된 사용자의 음성 특징은 사용자와 관련된 오디오 음성 신호의 피치, 톤, 주파수 및 진폭 중 하나 이상을 포함한다.

일부 구현예에서, 상기 동작들은 환경 속성들을 결정하는 단계와 상기 결정된 환경 속성들에 기초하여 환경의 유형을 결정하는 단계를 포함한다. 상기 오디오 출력 템플릿은 상기 결정된 환경의 유형에 기초하여 선택된다.

일부 구현예에서, 상기 선택된 오디오 출력 템플릿은 출력을 위해 상기 오디오 신호를 구성하기 위한 진폭, 주파수, 단어 발음 및 톤 데이터를 포함한다. 상기 선택된 오디오 출력 템플릿은 결정된 하나 이상의 사용자 속성과 매칭하는 속성들을 포함한다.

일부 구현예에서, 상기 오디오 출력 템플릿을 선택하는 단계의 동작은 (i) 출력될 데이터의 유형 및 (ii) 출력될 데이터를 제공하는데 사용되는 애플리케이션의 유형 중 하나 이상에 기초하여 상기 오디오 출력 템플릿을 선택하는 단계를 포함한다.

일부 구현예에서, 상기 동작들은 데이터를 출력하라는 커맨드를 수신하는 단계를 포함한다. 상기 커맨드는 데이터를 획득하기 위한 사용자 요청을 포함하거나 특정 시간에 데이터를 출력하도록 프로그래밍된 애플리케이션의 명령을 포함한다.

일부 구현예에서, 상기 사용자와 사용자 디바이스 사이의 거리를 나타내는 근접 표시자에 기초하여 상기 하나 이상의 사용자 속성을 결정하는 단계의 동작은, 제1 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계; 제2 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계; 하나 이상의 센서로부터 센서 데이터를 획득하는 단계; 및 상기 센서 데이터, 상기 제1 마이크로폰의 오디오 신호 데이터 및 상기 제2 마이크로폰의 오디오 신호 데이터에 기초하여 상기 사용자의 가능 위치 및 가능 거리를 결정하는 단계를 포함한다.

일부 구현예에서, 상기 동작들은 사용자로부터 오디오 음성 신호를 수신하는 단계를 포함한다. 출력을 위해 제공된 오디오 신호는 수신된 오디오 음성 신호와 매칭하는 피치, 톤 또는 진폭을 갖는다.

이들 양태의 다른 구현예들은 대응하는 시스템, 장치, 컴퓨터-판독 가능 저장 매체 및 위에서 언급된 방법들의 동작들을 구현하도록 구성된 컴퓨터 프로그램을 포함한다.

구현예들은 기술적 이점들의 범위와 관련될 수 있다. 일반적으로, 최적화된 통신 방법은 정보가 쉽게 이해될 수 있는 방식으로 수신자에게 전달될 수 있도록 선택된 오디오 템플릿에 기초하여 오디오 신호를 생성함으로써 달성된다. 이는 전달된 정보의 해석이 잘못되어, 사용자가 오디오 신호의 출력을 반복하도록 요청하고, 추가적인 처리 단계를 추가하고, 자원을 낭비하게 할 수 있는 가능성을 최소화한다. 결과적으로, 오디오 신호의 발생과 관련된 컴퓨팅 디바이스상의 부하가 감소 될 수 있다.

구현예들은 오디오 신호의 생성에 사용된 자원들이 낭비될 필요가 없다는 이점과 더 관련될 수 있다. 예를 들어 조용한 오디오 신호가 적절하거나 필요한 환경에서, 대응하는 오디오 출력 템플릿을 선택하면 출력 오디오 신호에 불필요한 진폭이 필요하지 않으므로 전력을 절약할 수 있다. 유사하게, 특정 피치, 톤 또는 주파수를 갖는 오디오 신호를 생성하는데 소비될 수 있는 자원의 사용은, 피치, 톤 또는 주파수가 저전력 소비 또는 프로세싱 복잡성과 같은 자원 소비 감소와 관련하여 대신 사용될 수 있는 경우 피할 수 있다.

구현예들은 환경이 안전하지 않은 것으로 결정된 경우 오디오 신호의 출력을 방지함으로써 개선된 보안과 더 관련될 수 있다. 이는 오디오 출력 신호의 불필요한 생성을 피하면서 자원을 절약할 수 있는 기회를 더 제공한다.

하나 이상의 구현예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 다른 특징 및 이점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1a 및 도 1b는 TTS 출력을 제공하는 예시적인 시나리오를 나타낸다.
도 2a 및 도 2b는 TTS 출력을 제공하는 예시적인 시나리오를 나타낸다.
도 3은 TTS 출력을 제공하는 예시적인 시나리오를 나타낸다.
도 4는 TTS 출력을 제공하는 방법을 나타내는 흐름도이다.
도 5는 TTS 출력을 제공하기 위한 예시적인 시스템을 도시한다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

예시적인 구현예가 도면을 참조하여 설명된다.

도 1a에 도시된 예시적인 시나리오에서, 사용자 디바이스는 사용자로부터 근거리에 위치될 수 있다. 단문 메시지 서비스(SMS) 메시지 또는 멀티미디어 메시징 서비스(MMS) 메시지와 같은 메시지가 사용자 디바이스(A)에 의해 수신되면, 사용자 디바이스는 메시징 애플리케이션이 메시지 컨텐츠를 출력하는데 사용되고 메시징 애플리케이션이 TTS 출력을 위해 구성되었다고 결정할 수 있다.

사용자 디바이스는 센서 및 마이크로폰에 의해 획득된 데이터를 이용하여 사용자 및 환경 속성을 결정할 수 있다. 예를 들어, 이하에서보다 상세하게 설명되는 바와 같이, 사용자 디바이스는 사용자의 음성을 모니터하고, 환경 조건을 검출하고, 사용자 디바이스로부터 사용자의 거리를 나타내는 근접 표시자(proximity indicator)를 결정하기 위해 마이크로폰 및 센서를 작동시킬 수 있다. 센서 및 마이크로폰으로부터 수신된 데이터에 기초하여, 사용자 디바이스에 의해 결정된 근접 표시자는 사용자가 예를 들어 사용자 디바이스의 12인치 내에 있을 가능성이 있음을 수 있다. 사용자 디바이스는 또한 사용자 및 사용자 디바이스가 위치하는 환경이 잡음이 많은 환경이 아니라고 결정할 수 있다.

사용자 디바이스는 수신된 메시지내의 컨텐츠를 오디오 신호로 변환하고, 결정된 근접 표시자에 비례하는 볼륨으로 오디오 신호의 출력을 제어할 수 있다. 도 1a에 도시된 바와 같이, 근접 표시자가 사용자가 사용자 디바이스로부터 약 12인치가 될 가능성이 높고 사용자 디바이스 주위의 환경이 잡음이 많은 환경이 아닐 가능성이 크기 때문에 비교적 낮은 볼륨으로 오디오 신호를 출력할 수 있다. 예를 들어, 사용자 디바이스는 사용자 디바이스(B)의 최대 볼륨 레벨의 4분의 1인 볼륨에서 오디오 신호를 사용하여 수신된 메시지의 내용 "집에 식료품 가져오는 것을 잊지 마세요"를 출력한다.

도 1b에 도시된 예시적인 시나리오에서, 사용자 디바이스는 도 1a에 도시된 시나리오와 비교하여 사용자로부터 더 멀리 위치될 수 있다. 사용자 및 사용자 디바이스는 예를 들어 8피트만큼 떨어져 있을 수 있다. 단문 메시지 서비스(SMS) 메시지 또는 멀티미디어 메시징 서비스(MMS) 메시지와 같은 메시지가 사용자 디바이스(A)에 의해 수신되면, 사용자 디바이스는 메시징 애플리케이션이 메시지 컨텐츠를 출력하는데 사용되고 메시징 애플리케이션이 TTS 출력용으로 구성되었다고 결정할 수 있다.

그런 다음 사용자 디바이스는 사용자 및 환경 속성을 결정하기 위해 마이크로폰들 및 센서들을 작동시킬 수 있다. 센서 및 마이크로폰으로부터 수신된 데이터에 기초하여, 사용자 디바이스에 의해 결정된 근접 표시자는 사용자가 예를 들어 사용자 디바이스의 8피트 내에 있을 가능성이 있음을 나타낼 수 있다. 그런 다음 사용자 디바이스는 수신된 메시지 내의 컨텐츠를 오디오 신호로 변환하고, 근접 표시자에 비례하는 볼륨이 되도록 오디오 신호의 출력을 제어할 수 있다.

도 1b를 참조하면, 근접 표시자는 사용자가 사용자 디바이스로부터 대략 8 피트가 될 가능성이 있음을 나타내므로, 사용자 디바이스는 비교적 높은 볼륨으로 오디오 신호를 출력할 수 있다. 예를 들어, 사용자 디바이스는 사용자 디바이스(B)의 최대 볼륨 레벨의 4분의 3인 볼륨에서 오디오 신호를 사용하여 수신된 메시지 "집에 식료품 가져오는 것을 잊지 마세요"를 출력한다.

TTS 출력을 제어하는 전술한 자동 및 동적 방법은 여러가지 이유로 유리하다. 예를 들어, 사용자가 사용자 디바이스에 가까이 있을 때 및 사용자가 사용자 디바이스로부터 더 멀리 떨어져있을 때 오디오 신호를 동일한 볼륨으로 출력하는 것은 바람직하지 못하다. 환경 속성뿐만 아니라 사용자의 거리를 고려하여, 사용자는 사용자 디바이스에 대한 사용자의 위치가 변경될 때마다 메시지를 청취하거나 사용자 디바이스의 볼륨을 조정하기 위해 사용자 디바이스쪽으로 이동해야 하는 불편함을 피할 수 있다.

사용자는 메시지를 듣거나 사용자의 위치와 관련하여 사용자 디바이스의 볼륨을 조정하기 위해 사용자 디바이스쪽으로 이동해야하는 불편 함을 피할 수 있다 디바이스가 변경된다.

도 2a를 참조하면, 사용자 디바이스는 사용자로부터 쿼리를 수신한다. 쿼리는 사용자에 의해 속삭여 진다. 비록 예시된 쿼리가 "할일 목록(to-do list)에 있는 것을 나에게 상기시켜 줄 수 있니?"이지만 일반적으로 임의의 쿼리가 제출될 수 있다.

상기 쿼리 수신시, 사용자 디바이스는 사용자 쿼리에 응답하는데 사용된 애플리케이션이 TTS 출력을 위해 구성되었다고 결정할 수 있다. 그런 다음 사용자 디바이스는 마이크로폰 및 센서를 작동시켜 사용자 및 환경 속성을 결정할 수 있다.

작동 마이크폰으로부터, 사용자 디바이스는 사용자의 음성 샘플을 획득할 수 있다. 음성 샘플은 사용자 쿼리의 다양한 크기의 부분일 수 있다. 음성 샘플은 사용자의 음성에 대응하는 오디오 신호의 피치, 톤, 주파수 및 진폭을 포함하지만 이에 한정되지 않는 하나 이상의 음성 특징(features)을 결정하도록 처리된다.

음성 샘플은 또한 사용자의 가능 기분(likely mood) 또는 웅변 스타일과 같은 사용자 특성을 결정하기 위해 분류될 수 있다. 예를 들어, 음성 샘플은 사용자가 행복하거나, 흥분하거나, 슬퍼하거나, 불안해 할 가능성이 있다고 나타내는 것으로 분류될 수 있다. 음성 샘플 분류는 또한 예를 들어 "나(me)" 또는 "상기하다 (remind)"와 같이 사용자에게 고유한 음성 시그니처를 나타낼 수 있다. 음성 특징 및 분류를 나타내는 데이터는 사용자 데이터베이스에 저장된 사용자 프로파일에 사용자 속성으로서 추가될 수 있으며, 경우에 따라 음성 인식 목적으로 사용될 수 있다.

그런 다음 사용자 디바이스는 복수의 오디오 출력 템플릿의 데이터베이스에 액세스하여, 결정된 사용자 속성들에 대해 가장 높은 유사도를 갖는 오디오 출력 템플릿을 다수의 템플릿들로부터 선택한다. 일부 경우, 적합한 오디오 출력 템플릿이 선택될 수 없는 경우, 사용자 디바이스는 서버를 생성하거나 서버와 통신하여 상기 결정된 사용자 속성들에 기초하여 새로운 템플릿을 생성할 수 있다.

오디오 출력 템플릿은 오디오 신호를 생성 및 출력하는데 사용되는 템플릿이다. 템플릿은 피치, 톤, 주파수 대역, 진폭, 사용자 스타일 및 사용자 기분과 같은 다양한 파라미터를 포함할 수 있다. 이들 파라미터에 대한 값은 결정된 사용자 속성으로부터 제공될 수 있고, 그에 따라 사용자의 음성과 유사한 특성을 갖는 오디오 출력 템플릿이 생성될 수 있다.

도 2a에서, 음성 특징들 및 분류에 기초하여, 사용자 디바이스는 사용자가 속삭였을(whispering)) 가능성이 있다고 판단하여, 속삭이는 오디오 신호에 대응하는 음성 출력 템플릿을 선택한다. 속삭이는 오디오 신호에 대응하는 음성 출력 템플릿은 예를 들어, 낮은 데시벨 출력, 낮은 볼륨 및 속삭임에 대응하는 피치, 톤 및 주파수와 같은 오디오 신호 특징을 포함할 수 있다.

사용자 디바이스는 사용자 쿼리에 응답하기 위해 임의의 적절한 소스로부터 데이터를 획득할 수 있다. 도시된 시나리오에서, 사용자 디바이스는 사용자 쿼리에 응답하도록 사용자의 할일 또는 리마인더 목록을 검색할 수 있다. 이 정보는 네트워크의 서버와 통신하거나 저장 디바이스에 저장된 데이터를 검색하여 얻을 수 있다. 저장 디바이스는 사용자 디바이스에 통합되거나 사용자 디바이스에 취부될 수 있다.

쿼리에 응답하기 위한 데이터를 획득 한 후, 사용자 디바이스는 획득된 데이터를 포함하고 선택된 오디오 출력 템플릿과 매칭하는 오디오 신호를 생성하여, 오디오 신호가 사용자의 속성과 매칭하거나 유사한 특성을 가질 수 있도록 한다. 도 2a에 도시된 바와 같이, 사용자 디바이스는 집에 식료품을 가져 오는 것이 사용자의 할일 목록(B)에 있음을 사용자에게 알리기 위해 오디오 신호를 출력한다(B). 사용자 디바이스는 사용자 디바이스가 사용자의 쿼리에 응답하여 사용자에게 속삭이는 것처럼 오디오 신호를 출력한다. 사용자 디바이스의 볼륨은 속삭임 볼륨을 일관되게 유지하기 위해 상대적으로 낮은 레벨, 예를 들어 최대 볼륨 레벨의 1/4로 설정된다.

도 2b의 도시된 시나리오에서, 사용자는 흥분으로 비명을 지르고 사용자가 가장 좋아하는 팀을 상대로 누가 게임에 이겼는지를 사용자 디바이스에게 물을 수 있다. 도 2a를 참조하여 위에서 설명된 프로세스를 사용하여 사용자 속성들을 결정함으로써, 사용자 디바이스는 사용자의 쿼리에 응답하기 위한 데이터를 획득하고, 사용자의 속성들을 모방하는 방식으로 사용자에 응답하는 오디오 신호를 출력할 수 있다. 예를 들어, 사용자 디바이스에 의해 출력된 오디오 신호는 비교적 높은 볼륨 출력, 예를 들어 최대 볼륨 레벨의 3/4을 가질 수 있고, 흥분된 사람과 닮은 톤 및 피치를 가질 수 있다. 오디오 신호에는 사용자의 팀이 2-1로 이겼음을 사용자에게 알리기 위한 정보가 포함된다.

사용자의 입력 쿼리를 모방하는 것은 여러가지 이점을 제공한다. 예를 들어, 사용자는 크게 말할 수 없고 속삭여야 하는 환경에 있을 수 있다. 이러한 환경에서, 사용자는 잠재적인 난처함을 피하거나 사용자 주변의 다른 사람들에게 불편을주지 않기 위해 높은 볼륨 응답을 피하기를 원할 수 있다. 따라서, 동적 TTS 프로비저닝 방법을 사용함에 따라, 사용자는 낮은 볼륨 응답을 수신함으로써 그러한 잠재적으로 난처한 시나리오를 피할 수 있고, 사용자는 사용자 디바이스의 오디오 설정을 수정할 필요가 없다. 또한, 사용자가 사용자의 기분을 반영하는 사용자 디바이스와 상호 작용할 경우 사용자 경험이 향상될 수 있다. 예를 들어, 흥분된 사용자는 쿼리에 단조롭거나 둔한 응답을 받을 필요가 없다.

도 3은 TTS 프로비저닝 방법의 보안 및 프라이버시 특징이 구현되는 시나리오를 도시한다. 도 3에서, 사용자는 차량의 운전자이고, 다수의 승객은 사용자와 함께 차량에 착석한다. 차량은 차량 센서들로부터 다중 신호를 수신하고 차량 제조업체 및 드라이버 구성에 따라 작동을 실행하는 차량 제어 모듈을 포함한다. 예를 들어, 차량 제어 모듈은 본 명세서에 설명된 동적 TTS 프로비저닝 방법을 실행할 수 있다. 운전자와 통신하기 위해 차량은 스피커를 통해 오디오 신호를 출력하거나 디스플레이 디바이스를 통해 메시지를 디스플레이할 수 있다.

TTS 프로비저닝 방법에 통합된 보안 및 프라이버시 기능 중에는 음성 인식 및 환경 검출 기능이 있다. 차량 제어 모듈은 사용자 음성의 샘플을 수신하고, 음성 샘플을 처리하고 음성 인식을 위해 데이터를 저장한다. 예를 들어, 차량 제어 모듈은 사용자의 음성 샘플을 처리하여 사용자의 피치, 톤, 주파수 및 발음 (enunciations, 발성)을 탐지하여, 사용자 프로필에 이러한 음성 특징들을 사용자 속성으로 저장할 수 있다. 후속 오디오 명령이 사용자 디바이스에 의해 수신되면, 사용자 디바이스는 오디오 명령의 음성 특징을 사용자와 관련된 저장된 음성 특징과 비교함으로써 수신된 오디오 명령이 사용자에 의해 발행되었는지 여부를 결정할 수 있다.

후속 오디오 명령의 음성 특징 및 사용자와 관련된 저장된 음성 특징이 매칭하면, 차량 제어 모듈은 후속 오디오 명령이 사용자의 명령일 가능성이 있다고 결정할 수 있다. 그런 다음 차량 제어 모듈은 오디오 명령을 처리하고 대응하는 동작들을 실행할 수 있다. 예를 들어, 오디오 명령이 볼륨을 증가시키는 것이면, 차량 제어 모듈은 스피커에 제어 신호를 전송하여 볼륨을 증가시킬 수 있다.

후속 오디오 명령의 음성 특징이 사용자와 관련된 저장된 음성 특징과 매칭하지 않으면, 차량 제어 모듈은 후속 오디오 명령이 사용자의 명령이 아닐 수도 있다고 결정한다. 예를 들어, 도 3에 도시된 바와 같이, 차량의 승객은 차량 제어 모듈에게 "마지막 메시지를 읽도줘"(A)라고 커맨드(명령)함으로써 운전자의 개인 메시지를 판독하도록 차량 제어 모듈에 요청하려고 시도할 수 있다. 차량 제어 모듈은 수신된 커맨드를 처리하여, 커맨드의 음성 특징 및 사용자와 관련된 저장된 음성 특징이 매칭하지 않는 것을 결정한다.

일부 구현예에서, 수신된 커맨드의 음성 특징 및 사용자와 관련된 저장된 음성 특징이 매칭하지 않으면, 차량 제어 모듈은 커맨드 내의 음성이 사용자의 음성과 매칭하지 않는다는 것을 나타내는 오디오 신호를 생성할 수 있고, 수신된 커맨드내의 명령이 수행되어야 하는지의 여부를 사용자에게 확인하도록 물을 수 있다. 예를 들어, 도시된 바와 같이, 차량 제어 모듈은 "그 명령은 다른 사람처럼 들렸습니다. 당신의 마지막 메시지를 읽으시겠습니까?"라는 메시지를 생성하여, 메시지를 차량의 디스플레이 디바이스 또는 차량의 스피커를 통해 출력한다. 사용자는 확인 또는 거부로 응답할 수 있다.

일부 구현예에서, 후속 오디오 명령의 음성 특징이 사용자와 관련된 저장된 음성 특징과 매칭하지 않으면, 차량 제어 모듈은 추가 액션을 취하지 않고 수신된 커맨드를 무시할 수 있다.

TTS 프로비저닝 방법은 추가적인 보안 특징들을 포함할 수 있다. 예를 들어, 일부 구현예에서, 수신된 음성 커맨드가 사용자의 커맨드로 인식되지 않으면, TTS 제공 방법은 수신된 음성 커맨드의 톤 및 피치를 모방하는 것과 같은 특정 특징들을 실행하지 않을 수 있다. 이러한 특징은 다양한 바람직하지 않은 시나리오 예를 들어, 다른 사용자들이 단순히 사용자 디바이스로 고함을 질러 사용자 디바이스가 큰 볼륨으로 오디오 신호를 출력하도록 하는 시나리오를 피할 수 있다.

도 4는 동적 TTS 출력을 제공하는 방법을 예시하는 흐름도이다. 이 방법은 도 5에 도시된 시스템에 의해 실행될 수 있다. 시스템은 사용자 디바이스를 포함하는 하나 이상의 네트워크를 통해 사용자 디바이스에서 또는 분산 방식으로 구현될 수 있다. 시스템은 송수신기(502), 하나 이상의 센서(504), 하나 이상의 마이크로폰(506), 프로세서(510), 음성 합성기(520) 및 스피커(530)를 포함한다. 프로세서(510)는 애플리케이션 결정기(512) 및 근접 분류기(514), 음성 분류기(516) 및 환경 분류기(518)를 포함하는 복수의 분류기를 포함한다. 음성 합성기(520)는 무드 분류기(522), 오디오 신호 생성기(526) 및 오디오 템플릿 선택기(528)를 포함하는 프로세서 일 수 있다.

사용자 디바이스는 컴퓨터, 랩탑, 개인 휴대 정보 단말기, 전자 패드, 전자 노트북, 전화기, 스마트폰, 텔레비전, 스마트 텔레비전, 워치, 네비게이션 디바이스 또는 일반적으로 네트워크에 연결될 수 있고 스피커를 갖는 임의의 전자 디바이스를 포함하지만 이에 한정되지 않는 임의의 적절한 전자 디바이스일 수 있다. 사용자 디바이스는 하드웨어와 소프트웨어의 임의의 조합일 수 있고 안드로이드® 운영 체제와 같은 임의의 적절한 운영 체제를 실행할 수 있다.

사용자는 본 명세서에 기술된 동적 TTS 프로비저닝 방법을 사용하여 오디오 포맷으로 특정 애플리케이션에 대한 데이터를 출력하도록 사용자 디바이스를 구성할 수 있다. 예를 들어, 사용자 디바이스는 TTS 기능을 이용하고 하나의 애플리케이션에 대한 오디오 신호를 출력하지만 다른 애플리케이션에 대해서는 출력하지 않도록 구성될 수 있다. 사용자 디바이스에 의해 출력된 오디오 신호는 네트워크로부터의 애플리케이션에 의해 획득진 데이터 또는 사용자 디바이스에 의해 생성되거나 저장된 데이터를 포함할 수 있다. 출력될 수 있는 데이터의 예는 텍스트 메시지, 애플리케이션 푸시 메시지, 알람 또는 스케줄링 애플리케이션에 의해 출력되도록 스케줄링된 데이터, 웹 브라우징 애플리케이션에 의해 획득된 컨텐츠, 사용자 디바이스에 저장된 텍스트 기반 컨텐츠 및 일반적으로 오디오 포멧으로 출력될 수 있는 임의의 데이터가 포함하지만 이에 한정되지는 않는다.

동적 TTS 출력을 제공하는 방법은 데이터를 출력하라는 커맨드가 수신될 때 시작될 수 있다(401). 커맨드는 여러가지 적절한 방법으로 수신될 수 있다. 일부 경우, 커맨드는 마이크로폰(506)을 통해 수신된 사용자 커맨드일 수 있다. 일부 경우, 커맨드는 애플리케이션, 서버 또는 프로세서에 의한 코드의 실행에 응답하여 생성될 수 있다. 예를 들어, 스케줄링 애플리케이션은 TTS를 사용하여 특정 시간에 리마인더 메시지를 출력하도록 구성될 수 있다. 다른 예로서, 텍스트 메시지가 수신될 수 있고 그 수신된 텍스트 메시지를 출력하기 위한 커맨드를 트리거할 수 있다.

커맨드를 수신한 후, 애플리케이션 결정기(512)는 어떤 애플리케이션이 커맨드를 처리하거나 커맨드에 응답하는데 사용되는지를 결정할 수 있고 결정된 애플리케이션이 TTS 출력용으로 구성되는지 여부를 결정할 수 있다(402). 일반적으로, 커맨드들은 분류되어 특정 애플리케이션에 매핑될 수 있다. 애플리케이션 결정기(512)는 매핑 정보에 액세스하여 어떤 애플리케이션이 커맨드를 처리하거나 응답하는데 사용되는지를 결정한다. 예를 들어, 전자 또는 문자 메시지를 출력하라는 커맨드가 수신되면, 상기 커맨드는 텍스트 메시징 출력 커맨드로 분류되어, 수신된 메시지를 출력하는데 사용될 수 있는 메시징 애플리케이션에 매핑된다. 다른 예에서, 사용자 쿼리에 대응하는 커맨드는 지식 쿼리로서 분류되어 브라우저 애플리케이션에 매핑될 수 있다. 브라우저 애플리케이션은 인터넷과 같은 네트워크에서 검색된 데이터로 쿼리에 응답하는데 사용될 수 있다.

애플리케이션에 대한 커맨드 매핑은 사용자 디바이스의 제조자, 프로그램 작성자 또는 사용자에 의해 완료될 수 있다. 일부 경우, 사용자는 특정 커맨드에 응답하기 위해 특정 애플리케이션을 사용하여 지정할 수 있다. 예를 들어, 사용자는 지식 쿼리들에 응답하기 위해 디폴트로서 여러 브라우저 중 하나를 선택할 수 있다.

커맨드 매핑에 액세스하고 커맨드를 처리하거나 커맨드에 응답하기 위해 애플리케이션을 선택한 후에, 애플리케이션 결정기(512)는 선택된 애플리케이션이 TTS 출력용으로 구성되는지 여부를 검증할 수 있다. 예를 들어, 애플리케이션 결정기(512)는 선택된 애플리케이션이 TTS 출력용으로 구성되었는지 여부를 검증할 수 있다. 일부 경우, 애플리케이션 결정기(512)는 TTS 출력을 제공하기 위해 상기 선택된 애플리케이션을 트리거하기 위해 하나 이상의 조건이 만족되는지 여부를 결정할 수 있다. 예를 들어, 자이로스코프, 마이크로파 센서, 초음파 센서와 같은 하나 이상의 센서(504)에 의해 제공된 데이터에 기초하여, 시스템이 사용자 디바이스가 자동차의 주행 움직임 또는 이동에 대응하는 속도로 움직이고 있다고 결정하면, 시스템은 사용자 안전을 향상시키기 위해 동적 TTS 프로비저닝을 사용하여 오디오 포멧으로 사용자에게 데이터를 출력하도록 결정한다. 그런 다음 시스템은 사용자 디바이스가 사용하는 애플리케이션을 구성하여 상기 이동 조건이 지속되는 동안 오디오 포멧의 데이터를 제공하도록 TTS를 실행할 수 있다.

상기 선택된 애플리케이션이 데이터를 출력하기 위해 TTS 기능을 사용하도록 구성되지 않은 경우, 시스템은 도 4에 도시되지 않은 다른 방법을 통해 명령에 커맨드에 응답할 수 있다(403). 예를 들어, 경우에 따라 TTS 출력을 사용하지 않고 커맨드에 대한 응답이 생성될 수 있다.

일부 구현예에서, 시스템은 선택된 애플리케이션에 대한 TTS 기능을 가능하게하는 데이터를 획득할 수 있고, 사용자가 TTS 기능을 가능하게 하는 데이터를 다운로드하기를 원하는지를 사용자에게 질문할 수 있다. 사용자가 데이터를 다운로드하는 것에 동의하면, 시스템은 선택된 애플리케이션에 대한 TTS 기능을 설치하기 위해 상기 데이터를 다운로드 및 실행하여, 후술하는 동작(404)을 실행할 수 있다. 사용자가 데이터를 다운로드하는 것에 동의하지 않으면, 시스템은 TTS 출력을 위해 상기 선택된 애플리케이션을 이용할 수 없고, 도 4에 도시되지 않은 다른 방법을 통해 커맨드에 응답할 수 있다(403).

상기 선택된 애플리케이션이 데이터를 출력하기 위해 TTS 기능을 사용하도록 구성된 경우, 시스템은 커맨드를 처리하거나 커맨드에 응답하기 위한 데이터를 검색하려고 시도한다(404). 데이터는 예를 들어 인터넷과 같은 네트워크와 통신하여 데이터를 검색하거나, 서버와 통신하여 데이터베이스 또는 저장 디바이스를 검색하여 데이터를 검색하는 것을 포함하여 다양한 적절한 방법으로 검색될 수 있다. 데이터를 획득하는 소스는 애플리케이션 유형 및 커맨드 유형을 포함하여 다양한 요인에 의존한다. 예를 들어, 일부 경우, 특정 커맨드를 처리하기 위해, 애플리케이션은 애플리케이션 데이터베이스 또는 애플리케이션 서버로부터 데이터를 검색하도록 미리 구성될 수 있다. 반면에, 다른 애플리케이션은 더 많은 유연성을 가질 수 있으며 동일한 커맨드에 대한 응답으로 다양한 적합한 데이터 소스로부터 데이터를 검색할 수 있다. 시스템은 송수신기(502)를 사용하여 도 5의 시스템에 포함되지 않은 임의의 모듈 또는 디바이스와 통신할 수 있다.

시스템이 명령을 커맨드를 처리하거나 응답하기 위한 데이터를 검색할 수 없는 경우, 시스템은 상기 시스템이 커맨드에 응답할 수 없음을 나타내는 실패 메시지를 출력한다(406). 시스템이 데이터를 성공적으로 검색하면, 시스템은 사용자 속성(408)과 환경 속성(410)을 결정한다.

사용자 속성을 결정하기 위해, 시스템은 하나 이상의 센서(504) 및 하나 이상의 마이크로폰(506)을 이용할 수 있다. 센서(504)는 터치 센서, 용량성 센서, 광 센서 및 모션 센서를 포함하는 다양한 적절한 센서를 포함할 수 있지만 이에 한정되는 것은 아니다. 센서(504)로부터 수신된 데이터는 다양한 유형의 정보를 제공하는데 사용될 수 있다. 예를 들어, 터치, 광학 또는 용량성 센서를 사용하여 사용자가 사용자 디바이스를 터치하고 있는지 또는 사용자 디바이스에 근접하고 있는지를 결정할 수 있다. 모션 센서는 사용자 디바이스의 이동 방향, 변위 또는 속도를 결정하는데 사용될 수 있다. 광 센서는 사용자 디바이스 주변의 조명 조건을 결정하는데 사용될 수 있다.

하나 이상의 마이크로폰(506)은 사용자 또는 사용자 디바이스에 커맨드를 말하는 임의의 사람으로부터 오디오 신호를 수신하는데 사용될 수 있다. 일부 경우, 다수의 마이크로폰(506)은 사용자 디바이스와 통합될 수 있다. 다수의 마이크로폰(506)은 각각 오디오 신호를 수신할 수 있다. 각각의 마이크로폰으로부터의 오디오 신호는 사용자 디바이스로부터의 사용자의 거리를 나타내는 근접 표시자를 결정하기 위해 처리될 수 있다.

예를 들어, 시스템은 2개의 마이크로폰을 가질 수 있다. 하나의 마이크로폰은 사용자 디바이스의 일 측 예를 들어, 좌측에 배치되고 다른 마이크로폰은 사용자 디바이스의 타 측 예를 들어 우측에 배치된다. 사용자가 말하면, 두 마이크로폰은 각각 오디오 신호를 수신할 수 있다. 사용자 디바이스의 일 측, 예를 들어 좌측에 있는 마이크로폰을 통해 수신된 오디오 신호가 사용자 디바이스의 타 측, 예를 들어 우측에 있는 마이크로폰을 통해 수신된 오디오 신호보다 큰 진폭을 갖는다면, 근접 분류기(514)는 사용자 또는 사용자의 입이 사용자 디바이스의 좌측에 더 가깝다고 결정할 수 있다. 사용자 디바이스의 우측에 있는 마이크로폰을 통해 수신된 오디오 신호가 사용자 디바이스의 좌측에 있는 마이크로폰을 통해 수신된 오디오 신호보다 더 큰 진폭을 갖는다면, 근접 분류기(514)는 사용자의 입이 사용자 디바이스의 우측에 더 가깝다고 결정할 수 있다.

일부 경우, 사용자 디바이스의 일 측, 예를 들어 좌측의 마이크로폰에서 검출된 오디오 신호가 상기 사용자 디바이스의 타 측, 예를 들어 우측의 마이크로폰에서 검출된 오디오 신호 이전에 수신되면, 근접 분류기(514)는 사용자 또는 사용자의 입이 사용자 디바이스의 좌측에 더 가깝다고 결정할 수 있다. 사용자 디바이스의 우측에 있는 마이크로폰에서 검출된 오디오 신호가 사용자 디바이스의 좌측에 있는 마이크로폰에서 검출된 오디오 신호 이전에 수신되면, 근접 분류기(514)는 사용자 디바이스의 우측에 더 가깝게 위치하는 것으로 결정할 수 있다. 두 마이크로폰에서 수신된 신호들의 시간차가 큰 경우, 사용자는 시간상으로 나중에 오디오 신호를 수신한 마이크폰으로부터 더 멀리 위치하고, 오디오 신호를 제 시간에 더 빨리 수신한 마이크로폰에 더 가깝게 위치하는 것으로 결정될 수 있다.

일부 구현예에서, 다수의 마이크로폰에 의해 수신된 오디오 신호가 유사한 특성, 예를 들어, 유사한 진폭 및 주파수를 갖는 경우, 근접 분류기(514)는 사용자가 디바이스로부터의 특정 임계 거리보다 큰 거리에 위치할 가능성이 높다고 결정할 수 있다. 다수의 마이크로폰에 의해 수신된 오디오 신호가 상이한 특성을 갖는 경우, 근접 분류기(514)는 사용자가 디바이스로부터의 특정 임계 거리보다 작은 거리에 위치할 가능성이 높다고 결정할 수 있다.

일부 구현예에서, 슬라이딩 스케일(sliding scale)이 근접 표시자를 계산하기 위해 하나 이상의 마이크로폰(506)에 의해 수신된 신호와 함께 사용될 수 있다. 예를 들어, 다수의 마이크로폰에 의해 수신된 오디오 신호가 동일한 특성을 갖는 경우, 근접 분류기(514)는 사용자가 특정 거리 임계치와 동일하거나 큰 거리에 위치함을 나타내는 근접 표시자를 계산할 수 있다. 특정 거리 임계치는 사용자 디바이스 및 마이크로폰의 유형에 기초하여 결정될 수 있으며, 사용자 디바이스의 제조자에 의해 설정될 수 있다. 마이크로폰에 의해 수신된 오디오 신호들 간의 차이가 커짐에 따라, 근접 분류기(514)는 슬라이딩 스케일을 적용하여 사용자가 특정 거리 임계치보다 작은 거리에 위치함을 나타내는 근접 표시자를 계산할 수 있다. 사용자 디바이스로부터의 계산된 거리는 오디오 신호들의 차이에 반비례할 수 있고, 슬라이딩 스케일은 사용자 디바이스로부터 사용자의 가능 거리(likely distance)를 계산하기 위해 적용될 수 있다.

근접 표시자 이외에, 음성 특징 및 가능 사용자 기분과 같은 다른 사용자 속성이 결정될 수 있다. 오디오 신호가 마이크로폰(506)에 의해 수신될 때, 오디오 신호는 음성 분류기(516)에 의해 처리되어 음성 특징을 결정하고 가능 사용자 기분을 예측하는데 사용되는 데이터를 추출할 수 있다. 음성 특징은 사용자 음성 및 사용자 발음 패턴의 피치, 주파수, 진폭 및 톤을 포함할 수 있다. 가능 사용자 기분은 행복한, 슬픈 또는 흥분된 기분과 같은 임의의 유형의 인간 기분을 포함할 수 있다.

음성 특징을 결정하기 위해, 마이크로폰(506)으로부터 수신된 오디오 신호는 주변 및 환경 잡음을 제거하기 위해 필터링될 수 있다. 예를 들어, 인간 음성 주파수의 가능 범위, 예컨대 80 내지 260Hz에 대응하는 통과 대역 대역폭을 갖는 필터가 사용될 수 있다. 필터링된 오디오 신호는 오디오 신호의 진폭 및 주파수를 추출하기 위해 처리될 수 있다. 음성 분류기(516)는 추출된 진폭 및 주파수 데이터를 수신하여 사용자 음성의 피치 및 톤을 결정할 수 있다. 그런 다음 무드 분류기(522)는 오디오 신호의 피치, 톤, 진폭 및 주파수 데이터에 기초하여 사용자의 가능 기분을 예측할 수 있다. 분류기를 사용하여 사용자로부터 수신된 오디오 신호를 분류하여 사용자 속성을 결정함으로써, 사용자가 속삭이는지, 소리치는지, 행복한지, 슬픈지, 흥분하는지 등과 같은 가능 사용자 기질(temperament)이 결정될 수 있다.

일부 구현예에서, 음성 분류기(516)는 수신된 오디오 신호에 사용된 단어들의 억양 및 발음을 결정하는데 사용될 수 있는 언어 분류기를 포함한다. 예를 들어, 언어 분류기는 수신된 오디오 신호 내의 단어들을 식별하여, 특정 단어가 상기 수신된 오디오 신호의 다른 단어보다 많이 발음되는지 여부를 결정할 수 있다.

음성 특징 및 가능 사용자 기분을 포함하여 사용자 속성은 사용자 음성 프로파일의 일부로서 데이터베이스에 저장될 수 있다. 사용자 음성 프로파일은 임의의 신원 정보없이 익명화될 수 있지만, 사용자 디바이스의 디폴트 사용자의 음성 프로파일을 나타내는 사용자 속성 데이터를 포함할 수 있다. 일부 구현예에서, 사용자는 시스템이 사용자 프로파일을 생성하거나 사용자 속성을 저장하도록 하는 옵션을 선택함으로써 시스템이 사용자 프로파일을 생성할 수 있는지 또는 사용자 속성을 저장할 수 있는지 여부를 제어할 수 있다. 일반적으로 사용자 프로필 및 사용자 속성 데이터는 익명화되어, 사용자의 특정 위치를 판별할 수 없도록 사용자에 대해 개인 식별 정보가 결정될 수 없게 하거나 사용자의 지리적 위치가 위치 정보가 획득된 곳(예를 들어, 도시, 우편 번호 또는 주 수준)으로 일반화할되도록 할 수 있다.

일부 구현예에서, 마이크로폰(506)에 의해 수신된 음성 신호로부터 추출된 데이터는 정확도 및 검증 목적을 위해 사용될 수 있다. 예를 들어, 하나의 마이크로폰으로부터 수신된 오디오 신호에 기초하여 결정된 사용자 속성 정보는 다른 마이크로폰으로부터 수신된 오디오 신호에 기초하여 결정되는 사용자 속성 정보와 비교될 수 있다. 두 마이크로부터의 정보가 동일한 경우, 시스템은 사용자 속성의 결정에 대해 높은 신뢰도를 가질 수 있다. 두 마이크로폰으로부터의 정보가 다른 경우, 사용자 디바이스는 사용자 속성의 결정에 대해 낮은 신뢰도를 가질 수 있다. 그런 다음, 시스템은 사용자 속성을 결정하기 위해 제3 마이크로폰으로부터 데이터를 획득하거나, 두 마이크로폰에 의해 수신된 추가 음성 신호를 추출하고 분류할 수 있다. 일부 구현예에서, 다수의 마이크로폰에 의해 수신된 음성 신호로부터 추출된 데이터는 평균될 수 있고, 평균 데이터는 사용자 속성을 결정하기 위해 처리될 수 있다.

환경 속성을 결정하기 위해(410), 환경 분류기(518)는 오디오 신호를 처리하여 사용자 디바이스 주위의 가능 환경 특징을 분류할 수 있다. 예를 들어, 일부 구현예에서, 진폭 및 주파수 데이터는 수신된 오디오 신호로부터 추출될 수 있고, 사용자의 음성에 대응하는 음성 신호가 필터링될 수 있다. 진폭 및 주파수 데이터는 환경 분류기(518)에 의해 사용되어, 상기 수신된 신호를 군중, 해변, 레스토랑, 자동차 또는 텔레비전 세트가 존재하는 환경과 같이 특정 환경에 해당하는 사운드를 포함할 가능성이 있는 것으로 분류할 수 있다.

일부 구현예에서, 센서들(504)의 데이터는 환경 속성을 결정하기 위해 독립적으로 사용되거나 오디오 신호 분류와 함께 사용될 수 있다. 예를 들어, 모션 센서가 사용자 디바이스가 특정 범위의 속도(예를 들어, 시속 20마일)의 속도로 이동하고 있다고 결정하면, 환경 분류기(518)는 사용자 디바이스 환경이 이동하는 차량을 포함하는 환경에 해당할 가능성이 있다고 결정할 수 있다. 일부 구현예에서, 센서 데이터에 기초하여 결정된 환경 속성 정보는 오디오 데이터에 기초하여 결정된 환경 속성 정보와 비교될 수 있다. 센서 데이터에 기초한 환경 속성 정보가 오디오 데이터에 기초한 환경 속성 정보와 매칭하는 경우, 환경 분류기(518)는 환경 속성의 결정에 높은 신뢰도를 가질 수 있다. 센서 데이터에 기초한 환경 속성 정보가 오디오 데이터에 기초한 환경 속성 정보와 매칭하지 않는 경우, 환경 분류기(518)는 환경 속성의 결정에 낮은 신뢰도를 가질 수 있다.

일부 구현예에서, 프라이버시 및 보안 정책은 사용자 프라이버시를 유지하고, 제3자에게 정보를 출력하지 않거나 제3자의 커맨드에 응답하지 않도록 구현될 수 있다. 예를 들어, 사용자 속성을 결정한 후에, 시스템은 결정된 사용자 속성이 사용자 음성 프로파일에 저장된 사용자 속성과 매칭하는지를 여부를 검증할 수 있다. 결정된 사용자 속성이 저장된 사용자 속성과 매칭하는 경우, 시스템은 오디오 신호가 사용자 디바이스의 사용자의 음성에 해당한다고 결정할 수 있다. 결정된 사용자 속성이 저장된 사용자 속성과 매칭하지 않는 경우, 시스템은 오디오 신호가 사용자 디바이스의 사용자의 음성에 해당하지 않는다고 결정할 수 있다. 그런 다음 시스템은 동적 TTS 프로비저닝 방법을 종료하거나 사용자에게 커맨드에 응답할 수 있는 권한을 요청할 수 있다.

일부 구현예에서, 결정된 환경 속성은 시스템이 결정된 환경 속성에 대응하는 환경에서 오디오 데이터를 출력해야 하는지 여부를 결정하기 위해 검증된다. 특히 오디오 출력이 제한되거나 제약되는 환경은 제한된 환경 목록에 나열될 수 있다. 상기 결정된 환경 속성에 대응하는 환경이 상기 제한된 환경 목록에 나열된 경우, 시스템은 동적 TTS 프로비저닝 방법을 종료하거나 사용자에게 커맨드에 응답할 수 있는 권한을 요청할 수 있다. 예를 들어, 다수의 상이한 음성을 갖는 혼잡한 환경이 제한된 환경으로서 나열되고 결정된 환경 속성이 사용자 디바이스가 혼잡한 환경에 있음을 나타내는 경우, 시스템은 동적 TTS 프로비저닝 방법을 종료하거나 사용자에게 명령에 응답할 수 있는 권한을 요청할 수 있다.

도 4를 다시 참조하면, 결정된 사용자 속성 및 환경 속성은 오디오 템플릿 선택기(528)에 의해 오디오 출력 신호(412)에 대한 오디오 템플릿을 선택하기 위해 사용될 수 있다. 결정된 사용자 속성 및 환경 속성과 매칭하는 기능을 갖는 오디오 출력 템플릿은 오디오 템플릿의 데이터베이스에서 선택된다. 일부 경우에, 선택된 오디오 출력 템플릿은 상기 결정된 사용자 속성 및 환경 속성 내의 진폭, 주파수, 톤, 피치 및 발음과 각각 매칭하는 진폭, 주파수, 톤, 피치 및 발음을 갖는다. 일부 경우에, 선택된 오디오 출력 템플릿의 진폭, 주파수, 톤, 피치 및 발음 중 하나 이상은 상기 결정된 사용자 속성 및 환경 속성 내의 진폭, 주파수, 톤, 피치 및 발음과 각각 매칭할 수 있다.

오디오 템플릿 선택기(528)는 복수의 오디오 출력 템플릿으로부터 오디오 출력 템플릿을 선택하기 위해 오디오 출력 템플릿의 데이터베이스에 액세스할 수 있다. 경우에 따라, 적합한 오디오 출력 템플릿이 선택될 수 없는 경우, 시스템은 결정된 사용자 속성에 기초하여 새로운 템플릿을 생성하여 그 새로운 템플릿을 오디오 출력 템플릿의 데이터베이스에 저장한다.

도 2a에 도시된 시나리오와 같은 예시적인 시나리오에서, 사용자 속성이 사용자가 사용자 디바이스에 근접하여 위치하고, 사용자가 속삭임 톤으로 커맨드를 발화했으며, 환경 속성이 사용자가 조용한 공간 또는 방에 있을 가능성을 나타내는 경우, 사용자 디바이스의 오디오 템플릿 선택기(528)는 낮은 출력 볼륨 및 속삭임 톤을 갖는 오디오 출력 템플릿을 선택할 수 있다.

일부 구현예에서, 오디오 출력 템플릿은 커맨드에 응답하여 출력될 컨텐츠 유형 및 데이터가 출력되는 애플리케이션 유형 중 하나 이상에 기초하여 선택될 수 있다. 예를 들어, 출력될 컨텐츠가 농담인 경우, 쾌활한 또는 농담조의 톤을 사용하는 오디오 출력 템플릿이 선택될 수 있다. 다른 예로, 오디오북 애플리케이션이 커맨드에 응답하는데 사용되는 경우, 오디오북 애플리케이션용으로 구성된 오디오 출력 템플릿이 선택될 수 있다. 커맨드에 응답하여 데이터를 출력하는데 사용되는 애플리케이션은 전술한 바와 같이 동작(402)에서 결정된다. 일반적으로, 오디오 출력 템플릿은 사용자 속성, 환경 속성, 출력될 컨텐츠 유형, 및 데이터가 출력될 애플리케이션 유형에 대한 임의의 조합에 기초하여 오디오 템플릿 선택기(528)에 의해 선택될 수 있다.

다음으로, 동작(404)에서 검색된 데이터는 상기 선택된 오디오 출력 템플릿을 사용하여 오디오 신호 생성기(526)에 의해 오디오 신호로 변환된다(414). 예를 들어, 도 2a에 도시된 바와 같이, 사용자 커맨드에 대한 응답으로 획득된 데이터가 "집에 식료품 가져오는 것을 기억하세요"인 경우,이 데이터는 속삭임 톤을 갖는 사용자를 나타내는 사용자 속성에 기초하여 선택된 오디오 출력 템플릿을 사용하여 오디오 신호로 변환된다. 오디오 신호 생성기(526)는 검색된 데이터를 오디오 신호로 변환하기 위해 연접 합성(concatenation synthesis), 포먼트(formant) 합성, 조음(articulatory) 합성 및 은닉 마코프 모델(HMM) 기반 합성과 같은, 임의의 적절한 오디오 합성 기술을 사용할 수 있다.

다음으로, 상기 획득된 데이터를 오디오 포맷으로 포함하는 오디오 신호는 하나 이상의 스피커(530)를 사용하여 출력된다(416).

도 5에 도시된 시스템은 사용자 디바이스를 포함하는 하나 이상의 네트워크를 통해 사용자 디바이스에서 또는 분산 방식으로 구현될 수 있다.

시스템 내의 송수신기(502)는 송신기 및 수신기를 포함하고, 하나 이상의 네트워크 서버 및 하나 이상의 데이터베이스와 통신하기 위해 이용될 수 있다. 송수신기는 증폭기, 변조기, 복조기, 안테나 및 다양한 다른 구성 요소를 포함할 수 있다. 송수신기는 다른 네트워크 구성 요소로부터 수신된 데이터를 프로세서(510) 및 음성 합성기(520)와 같은 다른 시스템 구성 요소로 보낼(direct) 수 있다. 송수신기(527)는 또한 시스템 컴포넌트들로부터 수신된 데이터를 하나 이상의 네트워크 내의 다른 디바이스들로 보낼 수 있다.

하나 이상의 네트워크는 네트워크 액세스, 데이터 전송 및 다른 서비스를 시스템, 하나 이상의 네트워크 서버 및 하나 이상의 데이터베이스에 제공할 수 있다. 일반적으로, 하나 이상의 네트워크는 GSM(Global System for Mobile communication) 협회, IETF(Internet Engineering Task Force) 및 WiMAX(Worldwide Interoperability for Microwave Access) 포럼과 같은 표준 기관에 의해 정의된 것을 포함하여 공통적으로 정의된 네트워크 아키텍처를 포함하고 구현할 수 있다. 예를 들어, 하나 이상의 네트워크는 GSM 아키텍처, GPRS(General Packet Radio Service) 아키텍처, UMTS(Universal Mobile Telecommunications System) 아키텍처 및 LTE(Long Term Evolution)로 지칭되는 UMTS의 에볼루션 중 하나 이상을 구현할 수 있다. 하나 이상의 네트워크는 WiMAX 포럼 또는 WiFi 아키텍처에 의해 정의된 WiMAX 아키텍처를 구현할 수 있다. 하나 이상의 네트워크는 예를 들어 근거리 통신망(LAN), 광역망(WAN), 인터넷, 가상 LAN(VLAN), 기업 LAN, 계층 3 가상 사설망(VPN), 기업 IP망, 회사망 또는 이들의 임의의 조합을 포함할 수 있다.

일부 구현예에서, 하나 이상의 네트워크는 클라우드 시스템, 하나 이상의 저장 시스템, 하나 이상의 서버, 하나 이상의 데이터베이스, 액세스 포인트 및 모듈을 포함할 수 있다. 클라우드 시스템을 포함하는 하나 이상의 네트워크는 인터넷 연결 및 기타 네트워크 관련 기능을 제공할 수 있다.

하나 이상의 서버는 본 명세서에 기술된 동적 TTS 프로비저닝 방법의 하나 이상의 동작을 구현하기 위해 시스템과 통신할 수 있다. 하나 이상의 서버는 개인용 컴퓨터, 서버 컴퓨터, 일련의 서버 컴퓨터, 미니 컴퓨터 및 메인 프레임 컴퓨터 또는 이들의 조합을 포함하지만 이에 한정되지 않는 하나 이상의 네트워크에 결합된 임의의 적절한 컴퓨팅 디바이스를 포함할 수 있다 . 예를 들어, 하나 이상의 서버는 네트워크 운영 체제를 실행하는 웹 서버(또는 일련의 서버)를 포함할 수 있다.

하나 이상의 서버는 또한 보안 소켓 계층(SSL)으로 보호되는 파일 전송 프로토콜, SFTP(Secure Shell File Transfer Protocol) 기반 키 관리 및 NaCl 암호화 라이브러리와 같은, 공통 및 표준 프로토콜 및 라이브러리를 구현할 수 있다. 하나 이상의 서버는 클라우드 및/또는 네트워크 컴퓨팅을 위해 사용 및/또는 제공될 수 있다. 도면에 도시되지 않았지만, 하나 이상의 서버는 이메일, SMS 메시징, 텍스트 메시징 및 암호화/해독 서비스, 사이버 경보 등과 같은 다른 기능과 같은 메시징 기능을 제공하는 외부 시스템에 대한 접속을 가질 수 있다.

하나 이상의 서버는 하나 이상의 데이터베이스에 접속되거나 또는 하나 이상의 데이터베이스와 통합될 수 있다. 하나 이상의 데이터베이스는 클라우드 데이터베이스 또는 데이터베이스 관리 시스템(DBMS)에 의해 관리되는 데이터베이스를 포함할 수 있다. 일반적으로 클라우드 데이터베이스는 파이썬(Python)과 같은 플랫폼에서 작동할 수 있다. DBMS는데이터베이스의 구성, 저장, 관리 및 검색을 제어하는 엔진으로서 구현될 수 있다. DBMS는 쿼리, 백업 및 복제, 규칙 실행, 보안 제공, 계산 수행, 변경 수행 및 액세스 로깅 수행 및 최적화 자동화를 수행하기 위한 기능을 제공한다. DBMS는 일반적으로 모델링 언어, 데이터 구조, 데이터베이스 쿼리 언어 및 트랜잭션 메커니즘을 포함한다. 모델링 언어는 데이터베이스 모델에 따라 DBMS에서 각 데이터베이스의 스키마를 정의하는데 사용될 수 있으며. 데이터베이스 모델에는 계층적 모델, 네트워크 모델, 관계형 모델, 개체 모델 또는 기타 적용 가능한 알려진 또는 편리한 조직이 포함될 수 있다. 데이터 구조에는 필드, 레코드, 파일, 객체, 및 데이터를 저장하기 위한 임의의 다른 적용 가능한 알려진 구조 또는 편리한 구조가 포함될 수 있다. DBMS에는 저장된 데이터에 대한 메타 데이터도 포함될 수 있다.

하나 이상의 데이터베이스는 예를 들어 자기, 광 자기 디스크, 광 디스크, EPROM, EEPROM, 플래시 메모리 디바이스와 같은 하나 이상의 대용량 저장 디바이스를 포함할 수 있는 저장 데이터베이스를 포함할 수 있으며, 데이터를 저장하기 위한 내부 하드 디스크, 이동식 디스크, 광 자기 디스크, CD-ROM 또는 DVD-ROM 디스크로 구현될 수 있다. 일부 구현예에서, 저장 데이터베이스는 하나 이상의 사용자 프로파일, 수신된 오디오 신호를 분류하기 위한 규칙, 오디오 템플릿을 선택하기 위한 규칙 및 시스템 내의 분류기를 트레이닝시키기 위한 트레이닝 데이터를 저장할 수 있다.

일반적으로, 다양한 기계 학습 알고리즘, 신경망 또는 규칙이 트레이닝 데이터와 함께 이용되어 시스템의 분류기를 크레이닝시키고 작동시킬 수 있다. 예를 들어, 음성 분류기(516)는 피치 및 통과 같은 음성 특징을 식별하기 위한 트레이닝 데이터로 트레이닝될 수 있다. 트레이닝 데이터는 특정 피치 및 톤의 모델에 대응하는 하나 이상의 주파수 및 진폭 값 범위 및 음성 샘플을 포함할 수 있다. 무드 분류기(522)는 사용자 기분을 식별하기 위한 트레이닝 데이터로 훈련될 수 있다. 무드 분류기(522)에 대한 크레이닝 데이터는 사용자 피치, 톤, 주파수 및 진폭 값의 범위, 및 특정 사용자 기분에 대응하는 샘플을 나타내는 값을 포함할 수 있다.

근접 분류기(514)는 사용자 디바이스에 대한 사용자의 가능 위치(location) 및 위치(position)를 결정하기 위해 하나 이상의 마이크로폰으로부터의 오디오 신호 데이터 및 패턴과 센서들로부터의 데이터를 해석하도록 트레이닝될 수 있다. 근접 분류기(514)에 대한 규칙은 거리 임계치 및 슬라이딩 스케일을 정의하는 규칙을 포함할 수 있다.

환경 분류기(518)는 환경 속성을 식별하기 위한 트레이닝 데이터로 트레이닝될 수 있다. 트레이닝 데이터는 필터 값, 특정 환경의 모델에 대응하는 하나 이상의 주파수 및 진폭 값 범위 및 샘플을 포함할 수 있다.

본 명세서에 설명된 실시예들 및 모든 기능 동작 및/또는 액션들은 본 명세서 및 그 구조적 등가물에 개시된 구조 또는 이들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현될 수 있다. 실시예들은 하나 이상의 컴퓨터 프로그램 제품, 예를 들어, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 판독 가능 매체 상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독 가능 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 메모리 디바이스, 기계 판독 가능한 전파 신호를 발생시키는 물질의 조성, 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 장치, 디바이스 및 머신을 포함한다. 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 그들의 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 전파 신호는 인위적으로 생성된 신호, 예를 들어 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하기 위해 생성된 기계 생성의 전기, 광학 또는 전자기 신호이다.

또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로 알려진 컴퓨터 프로그램은 컴파일된 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램 또는 모듈, 구성 요소, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 장치를 포함하여 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램이 반드시 파일 시스템의 파일에 해당하는 것은 아니다. 프로그램은 문제의 프로그램 전용의 단일 파일 또는 다수의 조정된 파일에 다른 프로그램 또는데이터를 보유하는 파일의 일부에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 여러대의 컴퓨터상에서 실행되도록 배포될 수 있다.

본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 FPGA(필드 프로그래머블 게이트 어레이), ASIC(주문형 집적 회로), GPGPU (범용 그래픽 처리 유닛) 또는 다른 처리 유닛과 같은 특수 목적의 논리 회로에 의해 수행될 수 있으며, 장치는 또한 특수 목적의 논리 회로로 구현될 수있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 범용 및 특수 목적 마이크로 프로세서와 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 프로세서는 하드웨어와 소프트웨어의 적절한 조합을 포함할 수 있다.

컴퓨터의 구성 요소는 명령을 수행하기 위한 프로세서 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다. 일반적으로, 컴퓨터는 또한 자기, 광 자기 디스크 또는 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 또한, 컴퓨터는 다른 디바이스, 예를 들어 사용자 디바이스에 내장될 수 있다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크), 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하여, 임의의 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 그 안에 포함될 수 있다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명의 범위 또는 청구 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에서 기술되는 소정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특징들은 소정 조합으로 작용하는 것으로 상술될 수 있고, 처음에는 그와 같이 청구될 지라도, 청구된 조합으로부터의 하나 이상의 특징이 어떤 경우 조합으로부터 제거될 수 있고, 청구된 조합은 부분 결합 또는 서브 조합의 변형을 대상으로 할 수 있다.

유사하게, 도면에서 동작들이 도시되고 특정 순서로 청구 범위에 인용되어 있지만, 이것은 바람직한 결과를 얻기 위해, 이들 동작이 도시된 특정 순서 또는 순차적 순서로 수행되거나 도시된 모든 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서는 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시예에서 다양한 시스템 모듈 및 구성 요소의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 기술된 프로그램 구성 요소 및 시스템은 일반적으로 단일 소프트웨어 제품에 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있음을 이해해야 한다.

하나 이상의 어구 및 적어도 하나의 어구는 임의의 요소들의 조합을 포함한다는 것을 이해해야 한다. 예를 들어 A와 B 중 하나 이상의 구문은 A, B 또는 A와 B가 모두를 포함한다. 마찬가지로 A와 B 중 적어도 하나의 구문은 A, B 또는 A와 B가 모두를 포한다.

따라서, 특정 구현예들이 설명되었다. 다른 구현예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구항에서 열거된 동작들은 상이한 순서로 수행될 수 있고 여전히 바람직한 결과를 달성할 수 있다.

Claims

컴퓨터 구현 방법에 있어서,
하나 이상의 컴퓨팅 디바이스에 의해, (i) 사용자 디바이스와 관련된 사용자의 음성 특징 및 (ii) 사용자와 사용자 디바이스 간의 거리를 나타내는 근접 표시자(proximity indicator) 중 하나 이상에 기초하여 하나 이상의 사용자 속성을 결정하는 단계;
상기 하나 이상의 컴퓨팅 디바이스에 의해, 출력될 데이터를 획득하는 단계;
상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 하나 이상의 사용자 속성에 기초하여 오디오 출력 템플릿을 선택하는 단계;
상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 선택된 오디오 출력 템플릿을 사용하여 상기 데이터를 포함하는 오디오 신호를 생성하는 단계; 및
상기 하나 이상의 컴퓨팅 디바이스에 의해, 출력을 위해 상기 오디오 신호를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자 디바이스와 관련된 사용자의 음성 특징은 사용자와 관련된 오디오 음성 신호의 피치, 톤, 주파수 및 진폭 중 하나 이상을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서,
환경 속성을 결정하는 단계; 및
상기 결정된 환경 속성에 기초하여 환경의 유형을 결정하는 단계를 더 포함하고, 상기 오디오 출력 템플릿은 상기 결정된 환경의 유형에 기초하여 선택되는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서,
상기 선택된 오디오 출력 템플릿은 출력을 위해 상기 오디오 신호를 구성하기 위한 진폭, 주파수, 단어 발음 및 톤 데이터를 포함하고; 그리고
상기 선택된 오디오 출력 템플릿은 상기 결정된 하나 이상의 사용자 속성과 매칭하는 속성들을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서,
상기 오디오 출력 템플릿을 선택하는 단계는,
(i) 출력될 데이터의 유형 및 (ii) 출력될 데이터를 제공하는데 사용되는 애플리케이션의 유형 중 하나 이상에 기초하여 상기 오디오 출력 템플릿을 선택하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 하나 이상의 컴퓨팅 디바이스에 의해, 데이터를 출력하라는 커맨드를 수신하는 단계를 더 포함하고,
상기 커맨드는 데이터를 획득하기 위한 사용자 요청을 포함하거나 특정 시간에 데이터를 출력하도록 프로그래밍된 애플리케이션의 명령을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 사용자와 사용자 디바이스 사이의 거리를 나타내는 근접 표시자에 기초하여 상기 하나 이상의 사용자 속성을 결정하는 단계는,
제1 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
제2 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
하나 이상의 센서로부터 센서 데이터를 획득하는 단계; 및
상기 센서 데이터, 상기 제1 마이크로폰의 오디오 신호 데이터 및 상기 제2 마이크로폰의 오디오 신호 데이터에 기초하여 상기 사용자의 가능 위치(likely location) 및 가능 거리를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서,
사용자로부터 오디오 음성 신호를 수신하는 단계를 더 포함하고,
출력을 위해 제공된 상기 오디오 신호는 상기 수신된 오디오 음성 신호와 매칭하는 피치, 톤 또는 진폭을 갖는 것을 특징으로 하는 컴퓨터 구현 방법.
하나 이상의 컴퓨팅 디바이스에 의해 실행될 때, 상기 하나 이상의 컴퓨팅 디바이스로 하여금 동작들을 수행하게 하는 명령들을 포함하는 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체로서, 상기 동작들은,
(i) 사용자 디바이스와 관련된 사용자의 음성 특징 및 (ii) 사용자와 사용자 디바이스 간의 거리를 나타내는 근접 표시자 중 하나 이상에 기초하여 하나 이상의 사용자 속성을 결정하는 단계와;
출력될 데이터를 획득하는 단계와;
상기 하나 이상의 사용자 속성에 기초하여 오디오 출력 템플릿을 선택하는 단계와;
상기 선택된 오디오 출력 템플릿을 사용하여 상기 데이터를 포함하는 오디오 신호를 생성하는 단계와; 그리고
출력을 위해 상기 오디오 신호를 제공하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제9항에 있어서,
상기 사용자 디바이스와 관련된 사용자의 상기 음성 특징은 사용자와 관련된 오디오 음성 신호의 피치, 톤, 주파수 및 진폭 중 하나 이상을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제9 항 또는 제10 항에 있어서,
상기 선택된 오디오 출력 템플릿은 출력을 위해 상기 오디오 신호를 구성하기 위한 진폭, 주파수, 단어 발음 및 톤 데이터를 포함하고. 그리고
상기 선택된 오디오 출력 템플릿은 상기 결정된 하나 이상의 사용자 속성과 매칭하는 속성들을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제9항 또는 제10항에 있어서,
상기 오디오 출력 템플릿을 선택하는 단계는,
(i) 출력될 데이터의 유형 및 (ii) 상기 출력될 데이터를 제공하는데 사용되는 애플리케이션의 유형 중 하나 이상에 기초하여 상기 오디오 출력 템플릿을 선택하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제9항 또는 제10항에 있어서,
상기 동작들은,
데이터를 출력하라는 커맨드를 수신하는 단계를 더 포함하고,
상기 커맨드는 데이터를 획득하기 위한 사용자 요청을 포함하거나 특정 시간에 데이터를 출력하도록 프로그래밍된 애플리케이션의 명령을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제9항 내지 제13항 중 어느 한 항에 있어서,
상기 사용자와 사용자 디바이스 사이의 거리를 나타내는 근접 표시자에 기초하여 상기 하나 이상의 사용자 속성을 결정하는 단계는,
제1 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
제2 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
하나 이상의 센서로부터 센서 데이터를 획득하는 단계; 및
상기 센서 데이터, 상기 제1 마이크로폰의 오디오 신호 데이터 및 상기 제2 마이크로폰의 오디오 신호 데이터에 기초하여 상기 사용자의 가능 위치 및 가능 거리를 결정하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
시스템으로서,
하나 이상의 컴퓨팅 디바이스 및 상기 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 상기 하나 이상의 컴퓨팅 디바이스로 하여금 동작들을 수행하게 하는 명령들을 저장하는 저장 디바이스를 포함하고, 상기 동작들은:
(i) 사용자 디바이스와 관련된 사용자의 음성 특징 및 (ii) 사용자와 사용자 디바이스 간의 거리를 나타내는 근접 표시자 중 하나 이상에 기초하여 하나 이상의 사용자 속성을 결정하는 단계와;
출력될 데이터를 획득하는 단계와;
상기 하나 이상의 사용자 속성에 기초하여 오디오 출력 템플릿을 선택하는 단계와;
상기 선택된 오디오 출력 템플릿을 사용하여 상기 데이터를 포함하는 오디오 신호를 생성하는 단계와; 그리고
출력을 위해 상기 오디오 신호를 제공하는 단계를 포함하는 것을 특징으로 하는 시스템.
제15항에 있어서,
상기 사용자 디바이스와 관련된 사용자의 음성 특징은 사용자와 관련된 오디오 음성 신호의 피치, 톤, 주파수 및 진폭 중 하나 이상을 포함하는 것을 특징으로 하는 시스템.
제15항 또는 제16항에 있어서,
상기 선택된 오디오 출력 템플릿은 출력을 위해 상기 오디오 신호를 구성하기 위한 진폭, 주파수, 단어 발음 및 톤 데이터를 포함하고. 그리고
상기 선택된 오디오 출력 템플릿은 상기 결정된 하나 이상의 사용자 속성과 매칭하는 속성들을 포함하는 것을 특징으로 하는 시스템.
제15항 또는 제16항에 있어서,
상기 오디오 출력 템플릿을 선택하는 단계는,
(i) 출력될 데이터의 유형 및 (ii) 상기 출력될 데이터를 제공하는데 사용되는 애플리케이션의 유형 중 하나 이상에 기초하여 상기 오디오 출력 템플릿을 선택하는 단계를 포함하는 것을 특징으로 하는 시스템.
제15항 또는 제16항에 있어서,
상기 동작들은,
데이터를 출력하라는 커맨드를 수신하는 단계를 더 포함하고,
상기 커맨드는 데이터를 획득하기 위한 사용자 요청을 포함하거나 특정 시간에 데이터를 출력하도록 프로그래밍된 애플리케이션의 명령을 포함하는 것을 특징으로 하는 것을 특징으로 하는 시스템.
제15항 내지 제19항 중 어느 한 항에 있어서,
상기 사용자와 사용자 디바이스 사이의 거리를 나타내는 근접 표시자에 기초하여 상기 하나 이상의 사용자 속성을 결정하는 단계는,
제1 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
제2 마이크로폰으로부터 오디오 신호 데이터를 획득하는 단계;
하나 이상의 센서로부터 센서 데이터를 획득하는 단계; 및
상기 센서 데이터, 상기 제1 마이크로폰의 오디오 신호 데이터 및 상기 제2 마이크로폰의 오디오 신호 데이터에 기초하여 상기 사용자의 가능 위치 및 가능 거리를 결정하는 단계를 포함하는 것을 특징으로 하는 시스템.
프로세서에 의해 실행될 때, 제1항 내지 제7항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 프로그램.