KR102461208B1

KR102461208B1 - 핫 워드-인식 음성 합성

Info

Publication number: KR102461208B1
Application number: KR1020217033579A
Authority: KR
Inventors: 알렉산다르 크라쿤; 매튜 샤리피
Original assignee: 구글 엘엘씨
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2022-10-31
Also published as: KR20200002924A; CN110896664B; JP6926241B2; EP3811359A1; US20210104221A1; KR20210129744A; US11308934B2; JP7248751B2; US20210366459A1; WO2020005202A1; JP2020528566A; CN117912447A; JP2021177258A; CN110896664A; KR102318340B1

Abstract

방법(400)은 합성 음성(160)로 변환하기 위한 텍스트 입력 데이터(302)를 수신하는 단계와, 사용자 디바이스에 할당된 핫 워드(130)의 존재를 검출하도록 트레이닝된 핫 워드-인식 모델(320)을 사용하여, 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정하는 단계를 포함한다. 상기 핫 워드는 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스를 개시하도록 구성된다. 텍스트 입력 데이터의 발음이 핫 워드를 포함하는 경우, 상기 방법은 또한 텍스트 입력 데이터로부터 오디오 출력 신호(304)를 생성하는 단계 및 오디오 출력 신호를 출력하도록 오디오 출력 디바이스(118)에 오디오 출력 신호를 제공하는 단계를 포함한다. 상기 오디오 출력 신호는 사용자 디바이스의 오디오 캡처 디바이스에 의해 캡처될 때 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하도록 구성된다.

Description

핫 워드-인식 음성 합성 {HOTWORD-AWARE SPEECH SYNTHESIS}

본 발명은 핫 워드-인식(hotword-aware) 음성 합성에 관한 것이다.

음성-작동 환경(예를 들어, 가정, 직장, 학교, 자동차 등)은 사용자가 쿼리를 회수 및 응답하고 및/또는 커맨드에 기초하여 기능을 수행하는 컴퓨터 기반 시스템에 큰 소리로 쿼리 또는 커맨드를 말할 수 있도록 한다. 음성-작동 환경은 환경의 다양한 룸 또는 영역을 통해 분산 연결된 마이크로폰 디바이스들의 네트워크를 이용하여 구현될 수 있다. 이들 디바이스는 환경에 존재하는 다른 개인에 대한 발언과는 반대로, 주어진 발언이 시스템에 대한 것일 때 식별을 돕기 위해 핫 워드를 사용할 수 있다. 따라서, 디바이스들은 검출된 발언이 핫 워드를 포함할 때만 슬립 상태 또는 최대 절전 모드(hibernation state) 및 웨이크-업 상태에서 동작할 수 있다. 일단 디바이스가 검출된 발언 내의 핫 워드에 의해 디바이스가 깨어나면, 디바이스는 핫 워드 및/또는 그 핫 워드를 따르는 하나 이상의 용어에 대해 추가 처리를 수행한다. 다시 말해서, 핫 워드 및/또는 하나 이상의 용어는 디바이스에 의해 수행될 쿼리 또는 음성 커맨드를 형성한다. 음성-작동 환경에서 음성 합성기가 널리 보급됨에 따라, 핫 워드를 포함하거나 핫 워드와 유사하게 소리나는 다른 단어/하위 단어를 포함하는 합성(된) 발언(synthesized utterance)은 합성 발언이 해당 디바이스로 향하지 않더라도 디바이스가 슬립/최대 절전 모드에서 깨어나 그 합성 발언 처리를 시작할 수 있다. 다르게 말하면, 합성 음성(speech)은 의도치 않게 디바이스를 활성화시켜 종종 음성 합성기의 사용자를 실망시킨다. 결과적으로, 환경내에서 발언을 수신하는 시스템은 그 시스템에서 지시된 인간 음성의 발언과 시스템에서 지시되지 않은 주변 디바이스로부터의 합성 음성 출력의 발언을 식별하는 일부 방법을 구비해야 한다.

사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하기 위한 방법이 개시된다. 이 방법은 음성 합성 디바이스의 데이터 처리 하드웨어에서, 합성 음성으로 변환하기 위한 텍스트 입력 데이터를 수신하는 단계와; 데이터 처리 하드웨어에 의해 그리고 사용자 디바이스에 할당된 적어도 하나의 핫 워드의 존재를 검출하도록 트레이닝된 핫 워드-인식 모델을 사용하여, 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정하는 단계, 상기 핫 워드는, 사용자 디바이스에 의해 수신된 오디오 입력 데이터에 포함될 때, 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스를 개시하도록 구성된다. 텍스트 입력 데이터의 발음이 핫 워드를 포함하는 경우, 상기 방법은 또한 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계와; 데이터 처리 하드웨어(112)에 의해, 오디오 출력 신호를 출력하도록 오디오 출력 디바이스에 오디오 출력 신호를 제공하는 단계를 포함한다. 상기 오디오 출력 신호는 사용자 디바이스의 오디오 캡처 디바이스에 의해 캡처될 때 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하도록 구성된다.

본 발명의 구현은 다음의 선택적 특징 중 하나 이상을 포함할 수 있다. 일부 구현에서, 상기 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정하는 단계는 텍스트 입력 데이터의 단어, 하위 단어 또는 텍스트-음성 변환 시퀀스 중 적어도 하나의 발음이 핫 워드와 관련되는지 결정하는 단계를 포함한다.

일부 예에서, 상기 방법은 또한 데이터 처리 하드웨어에 의해, 음성 합성 디바이스의 동작 환경 내에서 사용자 디바이스의 존재를 검출하는 단계와; 데이터 처리 하드웨어에 의해, 핫 워드-인식 모델을 트레이닝시키기 위한 사용자 디바이스에 할당된 핫 워드를 획득하기 위해 사용자 디바이스에 질의하는 단계를 포함한다. 부가적으로 또는 대안적으로, 상기 방법은 핫 워드-인식 모델을 트레이닝시키기 위한 사용자 디바이스에 할당된 적어도 핫 워드를 획득하기 위해 원격 핫 워드 저장소에 질의하는 단계를 포함할 수 있다.

일부 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 오디오 출력 신호가 합성 음성에 대응함을 나타내고, 합성 음성 내의 핫 워드의 검출을 무시하도록 사용자 디바이스의 핫 워드 검출기에 지시하는 워터 마크를 오디오 출력 신호에 삽입하는 단계를 포함한다. 다른 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 텍스트 입력 데이터에 대한 텍스트-음성 변환 출력을 나타내는 음성 파형을 결정하는 단계와; 사용자 디바이스의 핫 워드 검출기에 의한 핫 워드의 검출을 회피하기 위해 핫 워드와 관련된 임의의 사운드를 제거 또는 변경함으로써 음성 파형을 변경하는 단계를 포함한다. 또 다른 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 텍스트 입력 데이터를 나타내는 음성 파형을 결정하는 단계와, 사용자 디바이스의 핫 워드 검출기에 의한 핫 워드의 검출을 회피하기 위해 오디오 파형을 필터링하는 단계를 포함한다.

본 발명의 다른 양태는 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하기 위한 방법을 제공한다. 이 방법은 사용자 디바이스의 핫 워드 검출기에서, 핫 워드를 포함하는 오디오 입력 데이터를 수신하는 단계와, 상기 핫 워드는 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스를 개시하도록 구성되고; 핫 워드 검출기에 의해, 오디오 입력 데이터 내의 핫 워드 및 합성 음성의 존재를 검출하도록 구성된 핫 워드 검출기 모델을 사용하여 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하는 단계와; 오디오 입력 데이터가 합성 음성을 포함할 때, 핫 워드 검출기에 의해, 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하는 단계를 포함한다.

이 양태는 다음의 선택적 특징 중 하나 이상을 포함할 수 있다. 일부 구현에서, 상기 핫 워드 검출기 모델은 포지티브 트레이닝 샘플들과 네거티브 트레이닝 샘플들을 포함하는 복수의 트레이닝 샘플에 대해 트레이닝된다. 상기 포지티브 트레이닝 샘플들은 사용자 디바이스에 할당된 핫 워드를 말하는 하나 이상의 사용자에 대응하는 인간-생성 오디오 데이터를 포함한다. 상기 네거티브 트레이닝 샘플들은 하나 이상의 음성 합성기 디바이스로부터 출력된 합성 음성 발언을 포함한다. 일부 예에서, 상기 네거티브 트레이닝 샘플들의 합성 음성 발언 중 적어도 하나는 사용자 디바이스에 할당된 핫 워드를 발음한다. 다른 예에서, 상기 네거티브 트레이닝 샘플들의 합성 음성 발언 중 어느 것도 사용자 디바이스에 할당된 핫 워드를 발음하지 않는다. 상기 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하는 단계는 오디오 입력 데이터를 전사하거나 의미론적으로 해석하지 않고 오디오 입력 데이터의 음향 특징의 분석을 통해 오디오 입력 데이터 내의 합성 음성의 존재를 검출하기 위해 핫 워드 검출기 모델을 사용하는 단계를 포함할 수 있다.

본 발명의 다른 양태는 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하기 위한 시스템을 제공한다. 이 시스템은 음성 합성 디바이스의 데이터 처리 하드웨어와, 데이터 처리 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 상기 메모리 하드웨어는 데이터 처리 하드웨어에 의해 실행될 때, 데이터 처리 하드웨어로 하여금 합성 음성으로 변환하기 위한 텍스트 입력 데이터를 수신하는 단계와, 사용자 디바이스에 할당된 적어도 하나의 핫 워드의 존재를 검출하도록 트레이닝된 핫 워드-인식 모델을 사용하여, 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정하는 단계를 포함하는 동작들을 수행하게 하는 명령들을 저장한다. 상기 핫 워드는, 사용자 디바이스에 의해 수신된 오디오 입력 데이터에 포함될 때, 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스를 개시하도록 구성된다. 텍스트 입력 데이터의 발음이 핫 워드를 포함하는 경우, 상기 동작들은 또한 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계와; 오디오 출력 신호를 출력하도록 오디오 출력 디바이스에 오디오 출력 신호를 제공하는 단계를 포함한다. 상기 오디오 출력 신호는 사용자 디바이스의 오디오 캡처 디바이스에 의해 캡처될 때 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하도록 구성된다.

본 발명의 구현은 다음의 선택적 특징 중 하나 이상을 포함할 수 있다. 일부 구현에서, 상기 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정하는 단계는 텍스트 입력 데이터의 단어, 하위 단어 또는 텍스트-음성 변환 시퀀스 중 적어도 하나의 발음이 핫 워드와 관련되는지 결정하는 단계를 포함한다. 상기 핫 워드-인식 모델은 사용자 디바이스에 할당된 핫 워드의 텍스트-음성 변환 시퀀스 또는 오디오 표현에 대해 트레이닝될 수 있다. 부가적으로, 상기 텍스트 입력 데이터는 제1 언어를 포함하고, 상기 오디오 출력 신호는 다른 언어로 된 텍스트 입력 데이터의 번역을 포함할 수 있다.

일부 예에서, 상기 동작들은 음성 합성 디바이스의 동작 환경 내에서 사용자 디바이스의 존재를 검출하는 단계와; 핫 워드-인식 모델을 트레이닝시키기 위한 사용자 디바이스에 할당된 핫 워드를 획득하기 위해 사용자 디바이스에 질의하는 단계를 포함할 수 있다.

일부 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 오디오 출력 신호가 합성 음성에 대응함을 나타내고, 합성 음성 내의 핫 워드의 검출을 무시하도록 사용자 디바이스의 핫 워드 검출기에 지시하는 워터 마크를 오디오 출력 신호에 삽입하는 단계를 포함한다. 다른 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 텍스트 입력 데이터에 대한 텍스트-음성 변환 출력을 나타내는 음성 파형을 결정하는 단계와; 사용자 디바이스의 핫 워드 검출기에 의한 핫 워드의 검출을 회피하기 위해 핫 워드와 관련된 임의의 사운드를 제거 또는 변경함으로써 음성 파형을 변경하는 단계를 포함한다. 또 다른 구현에서, 상기 텍스트 입력 데이터로부터 오디오 출력 신호를 생성하는 단계는 텍스트 입력 데이터를 나타내는 음성 파형을 결정하는 단계와; 사용자 디바이스의 핫 워드 검출기에 의한 핫 워드의 검출을 회피하기 위해 오디오 파형을 필터링하는 단계를 포함한다.

본 발명의 다른 양태는 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하기 위한 시스템을 제공한다. 이 시스템은 사용자 디바이스의 데이터 처리 하드웨어 및 데이터 처리 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 상기 메모리 하드웨어는 데이터 처리 하드웨어에 의해 실행될 때, 데이터 처리 하드웨어로 하여금, 사용자 디바이스의 핫 워드 검출기에서, 핫 워드를 포함하는 오디오 입력 데이터를 수신하는 단계와, 상기 핫 워드는 오디오 입력 데이터 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스를 개시하도록 구성되고; 핫 워드 검출기에 의해, 오디오 입력 데이터 내의 핫 워드 및 합성 음성의 존재를 검출하도록 구성된 핫 워드 검출기 모델을 사용하여 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하는 단계와; 오디오 입력 데이터가 합성 음성을 포함하는 경우, 핫 워드 검출기에 의해, 오디오 입력 신호 내의 핫 워드 및/또는 그 핫 워드 다음의 하나 이상의 용어를 처리하기 위한 사용자 디바이스상의 웨이크-업 프로세스의 개시를 방지하는 단계를 포함하는 동작들을 수행하게 하는 명령들을 저장한다.

이 양태는 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현에서, 상기 핫 워드 검출기 모델은 포지티브 트레이닝 샘플들과 네거티브 트레이닝 샘플들을 포함하는 복수의 트레이닝 샘플에 대해 트레이닝된다. 상기 포지티브 트레이닝 샘플들은 사용자 디바이스에 할당된 핫 워드를 말하는 하나 이상의 사용자에 대응하는 인간-생성 오디오 데이터를 포함한다. 상기 네거티브 트레이닝 샘플들은 하나 이상의 음성 합성기 디바이스로부터 출력된 합성 음성 발언을 포함한다. 일부 예에서, 상기 네거티브 트레이닝 샘플들의 합성 음성 발언 중 적어도 하나는 사용자 디바이스에 할당된 핫 워드를 발음한다. 다른 예에서, 상기 네거티브 트레이닝 샘플들의 합성 음성 발화 중 어느 것도 사용자 디바이스에 할당된 핫 워드를 발음하지 않는다. 상기 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하는 단계는 오디오 입력 데이터를 전사하거나 의미론적으로 해석하지 않고 오디오 입력 데이터의 음향 특징의 분석을 통해 오디오 입력 데이터 내의 합성 음성의 존재를 검출하기 위해 핫 워드 검출기 모델을 사용하는 단계를 포함할 수 있다.

본 발명의 하나 이상의 구현의 세부 사항은 첨부 도면 및 이하의 설명에서 설명된다. 다른 양태들, 특징들 및 장점들은 상세한 설명 및 도면들 및 청구항들로부터 명백할 것이다.

도 1은 예시적인 음성-작동 환경의 개략도이다.
도 2는 음성-작동 환경으로부터의 예시적인 핫 워드 검출기의 개략도이다.
도 3a 및 3b는 핫 워드-인식 트레이너를 포함하는 예시적인 합성 음성 시스템의 개략도이다.
도 4는 음성 합성 디바이스에서 합성 음성으로 변환하기 위해 텍스트 입력 데이터 내의 핫 워드의 존재를 검출하는 방법에 대한 예시적인 동작 구성의 흐름도이다.
도 5는 오디오 입력 데이터가 합성 음성을 포함하는 경우 사용자 디바이스에서 웨이크-업 프로세스의 개시를 방지하는 방법에 대한 예시적인 동작 구성의 흐름도이다.
도 6은 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 유사한 참조 부호는 유사한 요소를 나타낸다.

음성-작동 환경에서, 환경(예를 들어, 가정의 방 또는 다른 영역, 직장, 학교 등)을 통해 분산 연결된 마이크로폰 디바이스들의 네트워크를 사용하여 구현될 수 있는 컴퓨터 기반 시스템과 상호 작용하는 사용자의 방식은 배타적으로는 아니지만 주로 음성 입력(즉, 오디오 커맨드)을 통해 이루어지도록 설계된다. 보다 많은 디바이스는 오디오 커맨드를 사용하여 사용자 디바이스의 작동을 지시한다. 합의에 의해 시스템의 주의(attention)을 불러일으키기 위해 발화되는 사전 결정된 용어(예를 들어, 키워드)가 예약된 "핫 워드"("주의 단어", "웨이크-업(wake-up) 문구/단어", "트리거 문구" 또는 "음성 액션 개시 명령"으로도 지칭됨)를 사용하여, 시스템은 그 시스템에 대한 발언(즉, 발언에서 핫 워드 다음의 하나 이상의 용어를 처리하기 위한 웨이크-업 프로세스를 개시하기 위해)과 그 환경의 개인에 대한 발언을 식별할 수 있다. 달리 말하면, 사용자 디바이스는 저전력 모드에서 동작할 수 있지만, 핫 워드 검출시 사용자 디바이스는 마이크로폰에 의해 캡처된 모든 오디오 데이터가 검출, 처리 및 분석될 수 있도록 최대 전력 모드로 전환될 수 있다. 그러나, 음성 합성기(예를 들어, 텍스트-음성 변환(text-to-speech :TTS) 시스템)로부터의 합성 음성의 출력이 음성-작동 환경에서 더 널리 퍼짐에 따라, 주변 사용자 디바이스에 할당된 핫 워드, 또는 핫 워드와 유사하게 구성되거나 들리는 단어 또는 하위 단어를 포함하는 합성 음성은 의도치 않게 사용자 디바이스상의 핫 워드 검출기(예를 들어, 핫 워더(hotworder))로 하여금 핫 워드의 존재를 감지하여 합성 음성 내의 용어들을 처리하기 위한 웨이크-업 프로세스를 개시하게 한다. 본 명세서에 사용된 "합성 음성" 및 "합성 발언"이라는 용어는 상호 교환적으로 사용된다. 본 명세서에 사용된 바와 같이, TTS 시스템 또는 음성 합성 디바이스로부터의 합성 음성 출력은 비-가청 발신 데이터 입력으로부터의 기계 출력을 포함한다. 기계 출력은 TTS 시스템과 관련된 디바이스에 의해 수행중인 동작을 사용자에게 알리거나 TTS 시스템과 관련된 디바이스로 사용자에 의해 제공된 명령을 확인 응답할 수 있다. 따라서, 합성 음성은 텔레비전, 멀티미디어 셋탑 박스, 스테레오, 라디오, 컴퓨터 시스템, 또는 브로드캐스트된 오디오를 출력할 수 있는 다른 유형의 디바이스로부터 출력된 브로드캐스트된 오디오와 구별될 수 있다.

예를 들어, 사용자의 가정과 같은 음성-작동 환경에서, 사용자는 하나 이상의 모바일 디바이스(예를 들어, 스마트 폰 및/또는 태블릿) 및 스마트 스피커/디스플레이 디바이스를 가질 수 있다. 스마트 스피커/디스플레이 디바이스는 합성 음성을 출력하기 위한 디지털 어시스턴트로서 동작할 수 있을 뿐만 아니라 음성 쿼리 또는 음성 커맨드가 대응하는 사용자 디바이스에게 할당된 핫 워드에 의해 선행될 때 수행될 음성 쿼리 또는 음성 커맨드의 처리를 트리거할 수 있다. 시나리오는 사용자에게 향하는 디바이스들(예를 들어, 스마트 스피커)중 하나로부터 출력된 합성 음성이 환경 내의 다른 디바이스(예를 들어, 사용자의 태블릿)중 하나에 할당된 핫 워드를 구성하는 하나 이상의 단어 또는 하위 단어를 포함할 때 발생할 수 있다. 예를 들어, "dog"라는 용어는 사용자의 태블릿에 핫 워드로서 할당될 수 있으며 합성 음성의 일부는 용어 "hotdog"를 언급할 수 있다. 결과적으로, 다른 디바이스의 마이크로폰은 합성 음성을 캡처할 수 있고 핫 워드 검출기는 "hot"이라는 용어 다음의 "dog"라는 용어를 검출하여 의도치 않게 사용자의 태블릿을 트리거하여 웨이크-업 프로세스를 개시할 수 있다. 따라서, 합성 음성에서 핫 워드의 발음은 의도치 않게 주변의 음성-작동 디바이스로 하여금 슬립/최대 절전 모드에서 액티브 상태로 천이하여, 주변 음성-작동 디바이스가 합성 음성 처리(즉, 전사 및/또는 의미론적으로 해석)를 시작하게 할 수 있다.

본 발명의 목적은 핫 워드 또는 TTS 오디오(예를 들어, 합성 음성)에 의해 생성된 핫 워드와 유사하게 들리는 다른 용어의 사용에 의해 야기되는 하나 이상의 다른 사용자 디바이스의 웨이크-업 프로세스 개시(initiation)를 회피하기 위한 것이다. 이것은 의도되지 않은 웨이크-업 프로세스의 개시를 방지하여, 사용자 디바이스들이 저 전력 상태를 유지하여 전력을 더 오래 보존할 수 있게 한다.

합성 발언에서 핫 워드의 발음을 검출하는 것에 응답하여 웨이크-업 프로세스의 의도치 않은 개시를 방지하기 위해, 본 명세서에서의 구현은 핫 워드들의 존재를 검출하는데 사용하기 위한 핫 워드-인식 모델을 생성하기 위해 TTS 시스템의 트레이닝 파이프 라인에 주변 디바이스들에 할당된 핫 워드를 삽입(inject)하는 것에 관한 것이다. 핫 워드-인식 모델은 주변 디바이스들에 할당된 핫 워드들, 특정 사용자에 의해 자체-제어되는 하나 이상의 디바이스와 관련된 핫 워드 리스트 및/또는 웨이크-업 프로세스를 개시하기 위한 임의의 주어진 디바이스에 할당될 수 있는 모든 잠재적인 핫 워드들의 임의의 조합으로 트레이닝될 수 있다. 예를 들어, 음성 합성기 디바이스는 핫 워드-인식 모델을 사용하여, 합성 음성으로 변환하기 위한 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지 여부를 결정할 수 있다. 일부 예에서, 핫 워드-인식 모델은 핫 워드의 시퀀스 또는 문자열과 같은 핫 워드의 오디오 표현(예를 들어, 음향 특징)에 대해 트레이닝된다. 따라서, 합성 음성으로 변환하기 위해 텍스트 입력 데이터(텍스트 및 컨텐츠)를 수신하는 음성 합성 디바이스는 텍스트 입력 데이터를 사전 처리하여 개별 시퀀스(TTS 시퀀스)를 획득하여, 핫 워드-인식 모델을 사용하여 청각적으로 발음될 때, TTS 시퀀스 및 핫 워드-인식 모델로부터 획득된 핫 워드 시퀀스 사이의 매칭 또는 유사성을 식별함으로써 핫 워드를 구성하거나 핫 워드의 사운드와 유사한 문구를 구성하는 시퀀스들을 인식할 수 있다. 예를 들어, "dawg"라는 문구가 포함된 텍스트 입력 데이터는 청각 적으로 발음될 때 "dog"이라는 용어에 대해 핫 워드의 사운드와 유사한 문구를 구성한다. 따라서, 핫 워드-인식 모델은 텍스트 입력 데이터의 발음이 핫 워드를 포함하는지(예를 들어, 핫 워드를 구성하거나 핫 워드의 사운드와 유사한 문구를 구성하는지) 여부를 검출하도록 트레이닝된다. TTS 시스템은 핫 워드 인식 모델이 다국어로 핫 워드 또는 그 핫 워드와 유사한 문구를 검출할 수 있도록 다국어로 트레이닝된 다국어 TTS 시스템을 포함할 수 있다.

음성 합성 디바이스가 핫 워드-인식 모델을 사용하는 것과 달리, 텍스트 형태의 공지(된)(known) 핫 워드의 로그 또는 화이트리스트를 단순히 보유하면, 음성 합성 디바이스는 핫 워드를 구성하는 텍스트 입력 데이터에서 철자가 틀린 단어를 인식하지 못하고 핫 워드를 구성하는 단어의 하위 단어를 인식하지 못한다. 예를 들어, 음성 합성 디바이스가 공지 핫 워드의 화이트리스트를 단순히 참조하는 경우, 음성 합성 디바이스는 ("dawg"의 철자가 화이트리스트에 포함되지 않은 경우) "dog"라는 용어에 대한 핫 워드를 구성하는 문구 "dawg"에 대한 텍스트 입력 데이터를 인식하지 못하고, ("hotdog"가 화이트리스트에 포함되지 않은 경우) 문구 "hotdog"에 대한 텍스트 입력 데이터에서 "dog"라는 하위 단어를 인식하지 못한다.

일단 음성 합성 디바이스가 텍스트 입력 데이터의 발음이 핫 워드를 포함한다고 결정하면, 구현예는 오디오 출력 신호가 주변 사용자 디바이스의 마이크로폰에 의해 캡처될 때 주변 사용자 디바이스상에서 웨이크-업 프로세스의 개시를 방지하도록 구성된 합성 음성에 대한 오디오 출력 신호를 생성하는 음성 합성 디바이스의 파형 발생기를 더 포함한다. 일부 예에서, 파형 발생기는 출력 오디오 신호를 생성하기 위해 유닛 선택 로직을 사용한다. 이들 예에서, 파형 발생기는 공지 워터 마크가 주변 사용자 디바이스상의 핫 워드 검출기에 식별될 수 있는 오디오 시퀀스를 통해 공지 워터 마크를 방출할 수 있으므로, 오디오 출력 신호가 핫 워드를 발음하더라도 주변 사용자 디바이스상의 핫 워드 검출기는 공지 워터 마크를 갖는 오디오 출력 신호를 단순히 무시할 것이다. 대안적으로, 유닛 선택 로직은 주변 사용자 디바이스의 핫 워드 검출기에 의해 사용되는 핫 워드 검출 모델에 적대적인 것으로 알려진 합성 음성(예를 들어, 오디오 출력 신호)를 생성하는데 사용되는 유닛들(또는 유닛의 서브 세트)의 대체 변형을 선택할 수 있다. 여기서, 핫 워드 검출 모델은 핫 워드 검출기가 추론 동안(즉, 핫 워드 검출기의 비-트레이닝 모드 동안) 이들 유닛을 포함하는 임의의 발언을 무시하고, 그 발언이 핫 워드를 포함하는 경우라도 웨이크-업 프로세스의 시작을 방지할 수 있도록 동일한 적대 유닛들에 대해 트레이닝될 수 있다. 또한, 파형 발생기는 핫 워드 검출기가 합성 음성을 무시하거나 검출하지 않도록 주변 사용자 디바이스의 핫 워드 검출기에 대해 트레이닝된 필터를 사용하여 합성 음성을 왜곡할 수 있다.

다른 예들에서, 파형 발생기는 (예를 들어, WaveNet에 기초하여) 신경망을 사용하여 텍스트 입력 데이터를 나타내는 합성(된) 음소의 오디오 시퀀스를 출력함으로써 출력 오디오 신호를 생성할 수 있다. 이들 예에서, 합성 음소의 일부가 핫 워드를 형성할 때, 파형 발생기는 핫 워드가 발음되더라도 주변 사용자 디바이스가 단순히 오디오 출력 신호를 무시할 수 있도록 신경망으로 하여금 주변 사용자 디바이스상의 핫 워드 검출기에 식별될 수 있는 오디오 시퀀스를 통해 공지 워터 마크를 방출하게 하는 추가 조건(conditioning) 정보를 제공할 수 있다. 즉, 워터 마크의 존재는 주변 사용자 디바이스가 발음된 핫 워드를 무시하도록 지시하는데 사용된다. 대안적으로, 핫 워드를 구성(또는 또는 핫 워드와 사운드가 유사한 문구를 구성)하는 신경망으로부터 출력된 합성 음성의 세그먼트는 주변 사용자 디바이스의 핫 워드 검출기에 의한 검출에 적대적인 방식으로 출력 오디오 신호를 생성하도록 수정(예를 들어, 왜곡)될 수 있다.

추가적으로 또는 대안적으로, 구현은 핫 워드 검출 모델을 생성하기 위해 합성 음성 발언을 핫 워드 검출기의 트레이닝 파이프 라인에 주입하는 단계를 더 포함할 수 있다. 핫 워드 검출기 모델은 핫 워드 검출기에 의해 수신된 오디오 입력 데이터에서 합성 음성의 존재를 검출하도록 구성된다. 예를 들어, 핫 워드 검출기 트레이너는 발언에서 핫 워드를 검출하고 발언이 합성 음성, 예를 들어 음성 합성 디바이스(예를 들어, TTS 시스템)로부터 출력된 오디오 데이터를 포함하는지 여부를 추가로 결정하도록 핫 워드 검출기를 트레이닝시킬 수 있다. 따라서, 사용자 디바이스상의 마이크로폰이 사용자 디바이스에 할당된 핫 워드를 포함하는 발언을 캡처할 때, 핫 워드 검출기는 핫 워드 검출기가 발언에 합성 음성이 포함되어 있음을 검출하면 캡처된 발언에서 핫 워드의 존재를 단순히 무시할 것이며, 이에 의해 사용자 디바이스상에서 웨이크-업 프로세스의 개시를 방지한다. 일부 예에서, 핫 워드 검출기 모델은 사용자 디바이스에 할당된 핫 워드를 말하는 하나 이상의 사용자에 대응하는 인간-생성 오디오 데이터 및 하나 이상의 음성 합성기 디바이스로부터 출력된 합성 음성 발언을 포함하는 네거티브 트레이닝 샘플들을 포함하는 포지티브 트레이닝 예제들에 대해 트레이닝된다. 오디오 입력 데이터에서 합성 음성의 존재를 감지하기 위해 핫 워드 검출기 모델을 트레이닝함으로써, 핫 워드 검출기는 바람직하게는 핫 워드 검출기 모델을 사용하여 오디오 입력 데이터를 전사하거나 의미론적으로 해석하지 않고 수신 오디오 입력 데이터의 음향 특징의 분석을 통해 합성 음성의 존재를 검출할 수 있다.

도 1을 참조하면, 일부 구현에서, 음성-작동 시스템(100)은 하나 이상의 사용자 디바이스(110, 110a-b)를 포함한다. 예를 들어, 음성-작동 시스템(100)은 서로 근접하여 위치되고 네트워크(130)를 통해 원격 서버(140)(예를 들어, 클라우드 컴퓨팅 환경)에 연결된 2개의 사용자 디바이스(110a, 110b)를 포함한다. 사용자 디바이스(110a, 110b)는 서로 통신하거나 통신하지 않을 수 있다. 각 사용자 디바이스(110)는 사용자(10)로부터의 발언(150)에 대응하는 사운드를 캡처하도록 구성된다. 사용자(10)는 발언(150)을 쿼리 또는 커맨드로서 크게 말할 수 있다. 음성-작동 시스템(100)은 쿼리에 응답하고 및/또는 커맨드가 수행되게 함으로써 쿼리 또는 커맨드를 다룰 수 있다. 각 사용자 디바이스(110)는 데이터 처리 하드웨어(112) 및 그 데이터 처리 하드웨어(112)와 통신하고 데이터 처리 하드웨어(112)에 의해 실행될 때 데이터 처리 하드웨어(112)로 하여금 하나 이상의 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어(114)를 포함한다. 각 사용자 디바이스(110)는 음성-작동 시스템(100) 내의 발화된 발언(150)을 캡처하여 전기 신호로 변환하기 위한 오디오 캡처 디바이스(예를 들어, 마이크로폰)(116) 및 가청 오디오신호(예를 들어, 사용자 디바이스(110)로부터의 출력 오디오 데이터로서)를 전달하기 위한 음성 출력 디바이스(예를 들어, 스피커)(118)를 더 포함한다.

각 사용자 디바이스(110)는 사용자(10)와 관련될 수 있고 발언(150)이 핫 워드(130)로 시작할 때 관련 사용자(10)로부터의 발언(150)을 처리할 수 있다. 핫 워드(130)는 사용자 디바이스들(110) 중 하나가 후속적으로 발화된 구문을 시스템에 대한 음성 입력으로서 취급하게 하는 발화된 구문일 수 있다. 다시 말해서, 핫 워드(130)는 발화 입력이 음성 커맨드로서 취급될 것임을 명시적으로 나타내는 발화 구문일 수 있다. 즉, 핫 워드(130)는 핫 워드(130) 또는 그 핫 워드(130)에 뒤따르는 하나 이상의 용어에 대한 엔드 포인트(endpointing), 자동 음성 인식 또는 시맨틱 해석을 트리거하는 발화 문구일 수 있다. 다시 말해서, "핫 워드"는 지정된 핫 워드이거나 그 지정된 핫 워드의 적어도 일부와 유사한 사운드(예를 들어, 다른 언어의 핫 워드와 유사한 사운드)인 단어 또는 구문을 지칭한다.

발언(150) 내의 핫 워드(130)의 존재를 검출하기 위해, 각 사용자 디바이스(110)는 핫 워드 검출기(200)를 포함한다. 핫 워드 검출기(200)는 발언(150)에 대응하는 사운드를 수신하여, 발언(150)이 핫 워드(130)로서 지정되거나 할당된 용어를 포함하는지 여부를 결정할 수 있다. 일부 예에서, 핫 워드 검출기(200)는 발언(150)으로부터 포착된 사운드의 음향 특징을 검출한다. 여기서, 음향 특징이 핫 워드(130)의 특징인 경우, 핫 워드 검출기(200)는 핫 워드(130)를 식별한다. 핫 워드(130)를 검출하면, 핫 워드 검출기(200)는 웨이크-업 프로세스 및 사용자 디바이스(110)에 대한 추가 프로세스를 개시할 수 있다. 다른 구성에서, 핫 워드 검출기(200)는 핫 워드(130)의 검출을 사용자 디바이스(110)의 다른 컴포넌트로 전달한다. 핫 워드들(130)을 효율적이고 효과적으로 검출하기 위해 일부 구현에서, 핫 워드 검출기(200)는 발언(150)이 핫 워드(130)를 포함하는지 여부를 식별하는 방법을 학습하기 위해 음성의 데이터 또는 예제를 갖는 핫 워드 검출기 모델(220)에 의해 트레이닝된다. 예를 들어, 핫 워드 검출기(200)는 핫 워드(130)를 식별하기 위해 기계 학습 모델에 의해 학습된다.

일부 예에서, 사용자(10) 또는 사용자 디바이스(110)는 핫 워드 쿼리(132)를 생성하여 사용자(10) 및/또는 사용자 디바이스(110)에 관심있는 핫 워드(130)를 식별한다. 일부 구현들에서, 사용자 디바이스(110)는 네트워크(120)를 통해 원격 서버(140)와 통신하여 그 원격 서버(140)와 통신하는 핫 워드 저장소(142)로부터 핫 워드(130)를 식별 및/또는 수신한다. 일부 예에서, 핫 워드 쿼리(132)는 사용자 식별자와 연관된 사용자(10)에 의해 소유된 사용자 디바이스들(110)에 할당된 모든 핫 워드(130)에 매핑되는 사용자 식별자를 포함할 수 있다. 부가적으로 또는 대안적으로, 사용자 디바이스(110)는 각각의 주변 사용자 디바이스(110)와 관련된 식별자(예를 들어, 매체 액세스 제어(MAC) 식별자)를 획득할 수 있고, 저장소(142)로부터 각 식별자와 관련된 모든 핫 워드(130)를 획득하기 위해 쿼리(132)에 식별자를 제공할 수 있다. 핫 워드 저장소(142)는 주변 디바이스(110)에 할당된 핫 워드(130), 특정 사용자(10)에 의해 소유 및/또는 제어되는 하나 이상의 디바이스(110)와 연관된 핫 워드(130)의 리스트, 및/또는 웨이크-업 프로세스를 시작하기 위해 임의의 주어진 디바이스(110)에 할당될 수 있는 모든 잠재적인 핫 워드(130)의 리스트(예를 들어, 특정 유형(들)의 디바이스(들)(110)과 연관된 글로벌 핫 워드)의 임의의 조합을 포함할 수 잇다. 핫 워드를 생성함으로써 핫 워드(들)(130)를 수신하여 핫 워드 검출기(200)를 위한 강건한 핫 워드 트레이닝 프로세스를 형성할 수 있다. 도 1을 참조하면, 각 사용자 디바이스(110)는 다른 사용자 디바이스(110)에 할당된 핫 워드(들)(130)를 이해 및/또는 컴파일하기 위해 하나 이상의 다른 사용자 디바이스(110)로 핫 워드 쿼리(132)를 전송 및/또는 수신하도록 구성된다.

각 사용자 디바이스(110)는 음성 합성 디바이스로서 추가로 구성될 수 있다. 음성 합성 디바이스로서, 사용자 디바이스(110)는 합성 음성(160)을 생성하는 TTS 시스템과 같은 음성 합성기(300)를 더 포함할 수 있다. 예를 들어, 합성 음성(160)은 사용자(10)로부터 수신된 쿼리에 대한 답변을 청각적으로 전달할 수 있다. 일부 예에서, 음성 합성기(300)의 모든 기능은 사용자 디바이스(110)에 상주할 수 있다. 다른 예에서, 음성 합성기(300)의 일부는 사용자 디바이스(110)에 상주하고 음성 합성기(300)의 나머지 부분은 분산 환경, 예를 들어 클라우드 컴퓨팅 환경(140)에 상주한다.

일부 예에서, 하나의 디바이스(110)(예를 들어, 제1 사용자 디바이스(110, 110a))상의 음성 합성기(300)는 다른 사용자 디바이스(110)(예를 들어, 제2 사용자 디바이스(110b))에 할당된 핫 워드(130)의 텍스트-음성 변환 시퀀스 또는 오디오 표현에 대해 트레이닝된다. 예를 들어, 하나의 디바이스(110)와 관련된 음성 합성기(300)(예를 들어, TTS 시스템)의 트레이닝 파이프 라인(예를 들어, 핫 워드-인식 트레이너(310))은 핫 워드-인식들(130)의 존재를 검출하는데 사용하기 위한 핫 워드-인식 모델(320)을 생성할 수 있다. 핫 워드-인식 모델(320)은 주변 디바이스들(110)에 할당된 핫 워드(130), 특정 사용자(10)에 의해 소유 및/또는 제어되는 하나 이상의 디바이스(110)와 연관된 핫 워드들(130)의 리스트 및/또는 웨이크-업 프로세스를 개시하기 위해 임의의 주어진 디바이스(110)에 할당될 수 있는 모든 잠재적인 핫 워드(130)의 리스스(예를 들어, 특정 유형(들)의 디바이스(들)(110)와 연관된 글로벌 핫 워드)의 임의의 조합에 대해 트레이닝될 수 있다. 부가적으로 또는 대안적으로, 핫 워드 쿼리(132)는 핫 워드-인식 모델(320)에 대한 핫 워드(들)(130)를 획득하기 위해 사용될 수 있다. 각 사용자 디바이스(110)의 음성 합성기(300)는 합성 음성(160)을 생성하기 위한 파형 발생기(312)를 더 포함할 수 있다. 파형 발생기(312)는 출력 오디오 데이터의 형태로 합성 음성(160)을 생성하기 위해 유닛 선택 로직을 사용할 수 있다. 일부 예들에서, 파형 발생기(312)는 출력 오디오 데이터를 생성하기 위해 신경망을 사용한다. 예제들은 합성 음성내의 핫 워드(130)의 존재를 검출하기 위해 핫 워드-인식 모델(320)을 사용하는 것에 관한 것이지만, 핫 워드-인식 모델(320)은 제한없이 브로드캐스트 오디오와 같은 다른 유형의 특정 오디오에서 핫 워드(320)를 검출하도록 유사하게 트레이닝될 수 있다.

도시된 예에서, 음성-작동 시스템(100)은 제1 사용자 디바이스(110a) 및 제2 사용자 디바이스(110b)를 포함한다. 제2 사용자 디바이스(110b)는 제1 사용자 디바이스(110a)의 주변 디바이스로 간주될 수 있으며, 그 역도 마찬가지이다. 여기서, 사용자 디바이스들(110a, 110b)은 하나의 디바이스(102)상의 대응하는 오디오 캡처 디바이스(116)가 다른 디바이스(102)로 향하는 발언(150)을 캡처할 수 있을 때 서로 "주변(nearby)"인 것으로 간주된다. 다르게 말하면, "주변" 사용자 디바이스들(110a, 110b)은 하나의 사용자 디바이스(110, 110a)의 음성 출력 디바이스(118)가 주변 사용자 디바이스(110, 110b)의 오디오 캡처 디바이스(116)의 검출 가능 범위 내에 있도록 중첩하는 오디오 수신 근접 내에 있다. 음성-작동 시스템(100)은 2개의 사용자 디바이스(110a, 110b)를 포함하는 것으로 도시되어 있지만, 다른 예에서, 음성-작동 시스템(100)은 본 발명의 범위를 벗어나지 않고 추가 사용자 디바이스(110)를 포함한다. 사용자 디바이스(110)의 일부 예는 휴대용 컴퓨터, 스마트 폰, 태블릿 컴퓨팅 디바이스, 스마트 스피커, 스마트 디스플레이 또는 웨어러블 컴퓨팅 디바이스이다.

일부 예에서, 사용자 디바이스들(110, 110a-b)은 각각 하나 이상의 네트워크(120)를 통해, 단어 또는 하위 단어를 말하는 사용자(10)에 대응한다. 예를 들어, 사용자(10)는 제1 사용자 디바이스(110a)에 의해 검출 가능하고 "Ok Google : 직장에서 컴퓨터를 재시작해야 한다는 사실을 내일 아침 먼저 리마인드해 줘"를 포함하는 제1 발언(150a)을 말할 수 있다. 여기서, 구문 "Ok Google"은 사용자 디바이스(110a)에 할당된 핫 워드(130)이며, 그에 따라 핫 워드 검출기(200)는 오디오 입력 데이터에서 핫 워드(130) 및/또는 그 핫 워드(130)를 뛰 따르는 하나 이상의 다른 용어(예를 들어, 제1 발언(150a)의 나머지 부분 "직장에서 컴퓨터를 재시작해야 한다는 사실을 내일 아침 먼저 리마인드해 줘")를 처리하기 위한 웨이크-업 프로세스를 개시하도록 사용자 디바이스(110a)를 트리거하게 한다. 이 예에서, 제1 사용자 디바이스(110a)는 "Ok, Jim. 리마인드가 내일 아침으로 설정되었습니다.”라고 말하는 합성 음성(160)으로 제1 발언(150a)에 응답한다.

유사하게, 제2 사용자 디바이스(110, 110b)에는 핫 워드(130) "Start Computer"가 할당될 수 있다. 이 구성에서, 사용자(10)는 핫 워드(130), "Start Computer"을 사용할 때 제2 사용자 디바이스(110, 110b)가 웨이크-업 프로세스를 개시하기를 원한다. 따라서, 사용자(10)가 "Start Computer : 70년대의 음악 재생 리스트에서 음악을 재생해 줘"를 포함하는 제2 사용자 디바이스(110b)에 의해 검출 가능한 제2 발언(150b)을 말할 때, "Start Computer"라는 구문은 핫 워드 검출기(200)가 제2 사용자 디바이스(110b)를 트리거하여, 오디오 입력 데이터에서 핫 워드(130) 및/또는 그 핫 워드(130)에 후속하는 하나 이상의 다른 용어 "70년대 음악 재생 목록에서 음악을 재생해 줘"를 처리하기 위한 웨이크-업 프로세스를 개시하도록 한다.

2개의 사용자 디바이스(110)가 주변에 있을 때, 제1 사용자 디바이스(110a)로부터의 출력 데이터로서 핫 워드(130)를 포함하는 합성 음성(160)은 제2 사용자 디바이스(110b)의 오디오 캡처 디바이스(116, 116b)에 의해 의도치 않게 수신될 수 있다. 핫 워드(130)를 포함하는 의도치 않게 수신된 합성 음성(160)에 응답하여, 사용자(10)는 제2 디바이스(110, 110b)의 핫 워드 검출기(200, 200b)가 의도치 않게 수신된 합성 음성(160)에 기초하여 웨이크-업 및/또는 추가 처리를 개시하도록 의도하지 않는다. 핫 워드 검출기(200)가 제2 사용자 디바이스(110, 110b)를 활성화시키는 것을 방지하기 위해, 핫 워드 검출기(200)는 합성 음성(160)을 식별하여 핫 워드(130)를 포함하는 합성 음성(160)을 무시하도록 구성될 수 있다.

도 2는 음성-작동 시스템(100)의 사용자 디바이스(110) 내의 핫 워드 검출기(200)의 예이다. 핫 워드 검출기(200)는 발언(150)과 같은 오디오 입력 데이터가 (예를 들어, 핫 워드(130)에 대응하는 사운드의 음향 특징의 일부 또는 전부가 핫 워드(130)의 음향 특징 특성과 유사하다고 검출하는 것에 기초하여) 핫 워드(130)를 포함하는지 여부를 결정하도록 구성된다. 예를 들어, 핫 워드 검출기(200)는 발언(150)이 핫 워드(130)로 시작하여 핫 워드 검출기(200)의 사용자 디바이스(110)에 대한 웨이크-업 프로세스를 개시한다고 결정한다.

일부 예에서, 핫 워드 검출기(200)는 핫 워드 검출기 트레이너(210) 및 핫 워드 검출기 모델(220)을 포함한다. 핫 워드들의 오디오 표현을 포함하는 포지티브 트레이닝 샘플(212, 212b)에 대해 트레이닝되는 것에 더하여, 핫 워드 검출기(210)는 핫 워드 검출기 모델(220)을 생성하기 위해 합성 음성(160)의 네거티브 트레이닝 예제(212, 212a)에 대해 트레이닝되고, 이에 따라 핫 워드 검출기(200)가 인간-생성 발언들(150)(예를 들어, 비-합성 음성) 및 (음성 합성기(300)에 의해 생성된) 합성 발언들(160) 사이를 식별하도록 지시된다. 핫 워드 검출기 모델(220)은 트레이닝 예제(212, 212a-b)에 기초하여 핫 워드 검출기 트레이너(210)에 의해 생성된 합성 음성 인식 모델(220)이다.

일부 구현에서, 핫 워드 검출기 트레이너(210)는 네거티브 트레이닝 예제(212a) 및 포지티브 트레이닝 예(212b)에 의해 핫 워드 검출기 모델(220)을 트레이닝한다. 네거티브 트레이닝 예제(212a)는 핫 워드 검출기 트레이너(210)가 핫 워드 검출기 모델(220)에게 무시하도록 교시하는 오디오 샘플이다. 여기서, 합성 음성(160)에 기초하여 사용자 디바이스(110)에 대한 의도치 않은 웨이크-업 개시를 방지하기 위해, 네거티브 트레이닝 예제(212a)는 합성 음성(160)에 대응하는 오디오 샘플이다. 하나 이상의 네거티브 트레이닝 예제(들)(212a)의 합성 음성(160)은 핫 워드(130)를 포함하는(즉, 핫 워드(130)를 발음하는) 합성 음성(160) 또는 핫 워드(130)를 포함하지 않는 합성 음성일 수 있다. 어느 시나리오에서나, 핫 워드 검출기(200)는 발언(150)에 기초한 웨이크-업 프로세스가 핫 워드 또는 핫 워드(130)처럼 소리나는 하나 이상의 단어/하위 단어를 포함하는 합성 음성(160)에 의해 의도치 않게 개시되지 않도록 합성 음성(160)을 무시하도록 지시된다. 합성 음성(160)을 무시함으로써, 핫 워드 검출기(200)는 오디오 입력 데이터에서 핫 워드(130) 및/또는 그 핫 워드(130)를 뒤 따르는 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스(110)상의 웨이크-업 프로세스의 개시를 방지한다.

선택적으로, 핫 워드 검출기 트레이너(210)는 다른 유형의 오디오(예를 들어, 브로드캐스트 오디오)의 샘플을 포함하는 네거티브 트레이닝 예제(212a)에 의해 핫 워드 검출기 모델(220)을 추가로 또는 대안적으로 트레이닝할 수 있다. 따라서, 핫 워드 검출기(200)는 발언(150)에 기초한 웨이크-업 프로세스가 핫 워드 또는 핫 워드(130)처럼 소리나는 하나 이상의 단어/하위 단어를 포함하는 이들 다른 유형의 오디오에 의해 의도치 않게 개시되지 않도록 이들 다른 유형의 오디오를 무시하도록 유사하게 지시될 수 있다.

대조적으로, 포지티브 트레이닝 예제(212b)는 핫 워드(130)를 포함하는 인간 음성의 발언(150)의 오디오 샘플이다. 핫 워드 검출기 트레이너(210)는 핫 워드 검출기 모델(220)을 포지티브 트레이닝 예제(212b)에 공급하여, 핫 워드 검출기(200)가 웨이크-업 프로세스를 개시해야 하는 핫 워드 검출기(200) 예제를 교시한다. 추가적으로 또는 대안적으로, 핫 워드 검출기 트레이너(210)는 핫 워드 검출기(200)의 동작 동안 발생할 수 있는 다른 시나리오에 핫 워드 검출기(200)를 배치(expose)하기 위해 핫 워드(130)없이 인간 음성의 음성의 발언(150)의 오디오 샘플인 트레이닝 예제(212)로 핫 워드 검출기 모델(220)을 트레이닝할 수 있다. 일부 구현에서, 핫 워드 검출기 트레이너(210)에 의해 핫 워드 검출기 모델(220)에 지시된 트레이닝 예제(212)가 더 많을 수록, 핫 워드 검출기 모델(220)을 구현할 때 핫 워드 검출기(200)가 더욱 더 강건하고 및/또는 계산적으로 효율적이다. 또한, 핫 워드 검출기 트레이너(210)로부터 트레이닝 예제(212)에 의해 지시된 핫 워드 검출기 모델(220)로 핫 워드 검출기(200)를 트레이닝함으로써, 핫 워드 검출기 모델(220)은 발언(150)를 전사 또는 의미론적으로 해석하지 않고 그 발언(150)의 음향 특징의 분석을 통해 발언(150)(예를 들어, 오디오 입력 데이터)에서 합성 음성의 존재를 검출할 수 있도록 한다.

도 2를 계속 참조하면, 사용자 디바이스(110)의 핫 워드 검출기(200)는 핫 워드 검출기 모델(220)을 구현하여, "오늘 아침 직장에 도착했을 때 컴퓨터를 재시작하라고 리마인드해 줘"라는 수신된 오디오 입력 데이터가 핫 워드(130)를 포함하는지 여부를 결정한다. 예를 들어, 제1 사용자 디바이스(110, 110a)는 이 오디오 입력 데이터를 합성 음성(160)으로서 생성한다. 제2 사용자 디바이스(110, 110b)는 제1 사용자 디바이스(110, 110a)에 대한 근접 사용자 디바이스로서, 예를 들어, 제2 사용자 디바이스(110, 110b)의 오디오 캡처 디바이스(116, 116b)에서 이 합성 음성(160)을 우연히 들을 수 있다. 여기서, 핫 워드 검출기(200, 200b)가 합성 음성(160)의 음향 특징으로서 "start computer"라는 핫 워드(130)로 인해 웨이크-업 프로세스를 개시하는 대신에, 핫 워드 검출기(200, 200b)는 핫 워드 검출기 모델(220)을 구현하여 오디오 입력 데이터를 합성 음성(160)로서 식별함으로써, 구문 "오늘 아침 직장에 도착했을 때 컴퓨터를 재시작하라고 리마인드해 줘"내에 포함된 할당된 핫 워드(130) "start computer"의 존재를 무시한다.

일부 구성에서, 핫 워드 검출기 트레이너(210)는 트레이닝 예제(212)를 트레이닝 및 평가 세트(예를 들어, 90% 트레이닝 및 10% 평가)로 분리하도록 구성된다. 이들 세트로, 핫 워드 검출기 트레이너(210)는 평가 세트상의 핫 워드 검출기 모델(220)의 성능이 감소를 멈출 때까지 핫 워드 검출기 모델(220)을 오디오 샘플로 트레이닝한다. 평가 세트에서 성능이 감소하는 것을 멈추면, 핫 워드 검출기 모델(220)은 핫 워드 검출기 모델(220)이 합성 음성(160)에 대응하지 않는 사용자 디바이스(110)에서 수신된 핫 워드(130)를 정확하게 검출할 수 있는 모델링을 준비한다.

추가적으로 또는 대안적으로, 핫 워드 검출기 모델(220)은 신경망이다. 핫 워드 검출기 모델(220)은 컨볼루션 신경망(CNN) 또는 심층 신경망(DNN)일 수 있다. 일부 예에서, 핫 워드 검출기 모델(220)은 컨볼루션 신경망이 필터링하고, 풀링한 다음 정보를 평탄화하여 심층 신경망으로 전송할 수 있도록 컨벌루션 신경망과 심층 신경망의 조합이다. 핫 워드 검출기 모델(220)이 기계 학습 모델인 경우와 마찬가지로, 신경망은 (예를 들어, 핫 워드 검출기 트레이너(210)에 의해) 트레이닝되어 정확한 핫 워드 검출에 사용될 수 있는 의미있는 출력을 생성한다. 일부 예에서, 평균 제곱 에러 손실 함수는 핫 워드 검출기 모델(220)이 신경망일 때 핫 워드 검출기 모델(220)을 트레이닝시킨다.

도 3a 및 도 3b는 사용자 디바이스(110)의 음성 합성기(300)의 예이다. 예로서, 음성 합성기(300)는 음성 합성기로의 입력이 텍스트 입력 데이터(302)인 TTS 시스템이다. 음성 합성기(300)는 텍스트 입력 데이터(302)를 합성 음성(160)으로 변환함으로써 텍스트 입력 데이터(302)로부터 합성 음성(160)을 생성하도록 구성될 수 있다. 도 3a 및 도 3b에 의해 도시된 바와 같이, 음성 합성기(300)는 유닛 선택 프로세스(도 3a) 또는 신경망 프로세스(도 3b)와 같은 상이한 프로세스에 의해 합성 음성(160)을 생성할 수 있다. 어느 프로세스에서나, 음성 합성기(300)는 핫 워드-인식 모델(320)과 함께 핫 워드-인식 트레이너(310)를 포함하여, 주변 사용자 디바이스(들)(110)에 의해 식별될 수 있는 오디오 출력 신호(304)를 제공하여 주변 사용자 디바이스(110)에서 웨이크-업 프로세스의 개시를 방지한다. 다시 말해서, 오디오 출력 신호(304)는 주변 사용자 디바이스(110)에 대한 웨이크-업 프로세스를 개시해야 하는 핫 워드(130)를 포함할 수 있지만, 음성 합성기(300)는 오디오 출력 신호(304)를 합성 음성(160)로서 식별하여 다른 주변 사용자 디바이스(110)와 관련된 웨이크-업 프로세스를 개시하는 것을 회피/기피한다. 이들 예에서, 음성 합성기(300)는 핫 워드-인식 모델(320)을 사용하여 사용자 디바이스(110)에 할당된 핫 워드(130)의 존재를 검출하고, 텍스트 입력 데이터(302)의 발음(예를 들어, 합성 음성(160)의 오디오 출력 신호(304))이 핫 워드(130)를 포함하는지 여부를 결정한다. 발음이 핫 워드(130)를 포함할 때, 음성 합성기(300)는 그 발음이 다른 사용자 디바이스(110)로부터 핫 워드 검출기(들)(200)를 트리거하지 않도록 오디오 출력 신호(304)를 생성한다.

일부 예에서, 핫 워드-인식 트레이너(310)는 핫 워드 쿼리(132)를 이용하여 (예를 들어, 핫 워드 저장소(142)로부터 또는 주변 사용자 디바이스(110)로부터 직접) 핫 워드(130) 또는 핫 워드(130) 리스트를 획득한다. 전술한 바와 같이, 핫 워드 쿼리(132)는 주변 디바이스들(110)에 할당된 핫 워드(130), 사용자(10)에 의해 소유-제어되는 하나 이상의 디바이스(110, 110a-n)와 관련된 핫 워드(130)의 리스트(130), 및/또는 웨이크-업 프로세스를 개시하기 위해 임의의 주어진 디바이스(110)에 할당될 수 있는 모든 잠재적인 핫 워드(130)의 리스트의 임의의 조합을 획득할 수 있다. 다른 예에서, 음성-작동 시스템(100)의 사용자 디바이스들(110)의 사용자(10) 또는 관리자는 핫 워드(들)(130)로 핫 워드-인식 트레이너(310)를 사전 프로그래밍 및/또는 업데이트한다. 핫 워드-인식 트레이너(310)는 수신 및/또는 획득된 핫 워드(130)에 기초하여 핫 워드-인식 모델(320)을 트레이닝시킨다. 일부 예에서, 핫 워드-인식 트레이너(310)는 TTS 시퀀스 또는 적어도 하나의 핫 워드(130)의 오디오 표현에 기초하여 핫 워드-인식 모델(320)을 트레이닝시킨다.

음성 합성기(300)는 음성 합성 프로세스 동안 임의의 시점에서 핫 워드-인식 모델(320)을 사용할 수 있다. 일부 예에서, 음성 합성기(300)는 먼저 텍스트-음성 변환 출력을 생성한 다음 핫 워드-인식 모델(320)을 사용하여 핫 워드(130) 또는 사운드 유사 구문(sound-alike phrases)에 대한 합성 음성(160)을 분석한다. 다른 예에서, 음성 합성기(300)는 핫 워드-인식 모델(320)을 사용하여 합성 음성(160)의 생성 동안 핫 워드(130)에 대한 텍스트-음성 변환 출력을 분석한다

핫 워드-인식 모델(320)이 음성 합성 프로세스 동안 또는 합성 음성(160) 내에서 핫 워드(130)를 식별할 때, 음성 합성기(300)는 합성 음성(160)이 (예를 들어, 오디오 출력 신호(304) 내에) 핫 워드(130)를 포함한다는 표시를 제공한다. 일부 예에서, 음성 합성기(300)는 핫 워드 검출기(200)에 식별 가능한 합성 음성(160)의 오디오 시퀀스를 통해 공지 워터 마크(352)를 방출한다. 음성 합성기(300)는 핫 워드 검출기(200)에 식별 가능한 임의의 방식으로 워터 마크(352)를 합성 음성(160) 내에 또는 위에 삽입할 수 있다. 예를 들어, 음성 합성기(300)는 합성 음성(160) 내에 워터 마크를 첨부/추가/오버레이하거나 인코딩함으로써 워터 마크를 삽입할 수 있다. 음성 합성기(300)는 합성 음성(160) 내에서 불연속 간격으로 오디오 시퀀스에 공지 워터 마크(352)와 같은 고유한 특징을 삽입할 수 있다. 이러한 불연속 간격은 밀리 초 간격에서 수초에 이르는 더 큰 간격에 이르기까지 다양하다. 예를 들어, 밀리 초 간격과 같은 더 작은 간격은 주변 사용자 디바이스(110)에서 수신된 합성 음성(160)의 일부라도 식별될 수 있게 하여 원치 않는 웨이크-업 개시를 방지할 수 있다. 워터 마크(352)를 간격을 두고 삽입하면, 사용자 디바이스가 활성화되고 이미 깨어있는 경우 원치 않는 음성 인식을 더 방지할 수 있다. 일부 구현에서, 음성 합성기(300)는 주어진 핫 워드 검출기(200)에 대해 트레이닝된 필터(354)를 사용하여 합성 음성(160)을 왜곡시킨다. 다시 말해, 주변 디바이스(110)상의 핫 워드 검출기(200)는 필터링된 합성 음성(160)을 무시하도록 필터(354)로 트레이닝된다. 일부 예에서, 필터(354)는 핫 워드 검출기(200)에 대해 합성 음성(160) 내의 핫 워드(130)를 폐색(obscure)한다. 유사하게, 음성 합성기(300)는 핫 워드 검출기(200)에 의한 핫 워드 검출을 회피하기 위해 핫 워드(130)와 관련된 임의의 사운드를 제거 또는 변경함으로써 합성 음성(160)과 관련된 오디오 출력 신호(304)에 대응하는 음성 파형을 변경할 수 있다.

도 3a를 참조하면, 음성 합성기(300, 300a)는 유닛 선택 로직을 사용하여 합성 음성(160)을 생성한다. 여기서, 음성 합성기(300)는 유닛 확장기(330)가 텍스트 입력 데이터(302)를 수신하여 그 텍스트 입력 데이터(302)를 유닛 데이터베이스 (340)의 음성 유닛들과 호환 가능한 컴포넌트들로 파싱하는 TTS 시스템이다. 유닛 선택기(350)는 유닛 확장기(330)로부터의 파싱된 텍스트 입력 데이터를 해석하여, 유닛 선택기(350)와 통신하는 유닛 데이터베이스(340)로부터의 파싱된 텍스트 입력 데이터에 대응하는 음성 유닛들을 선택하도록 구성된다. 유닛 데이터베이스(340)는 일반적으로 이들 유닛의 대응하는 오디오 신호 형태(즉, 음성 유닛)와 함께 파싱된 텍스트 유닛의 집합을 포함하는 데이터베이스이다. 유닛 선택기(350)는 파싱된 텍스트 입력 데이터와 관련된 음성 유닛들로부터 유닛들(360)의 시퀀스를 구성하여 텍스트 입력 데이터(302)에 대한 합성 음성(160)을 형성한다. 일부 구성에서, 합성 음성(160)이 핫 워드(130)를 포함할 때, 음성 합성기(300, 300a)는 핫 워드 검출기(200)가 핫 워드(130)를 검출하지 못하도록 합성 음성(160)을 형성하기 위해 음성 유닛들의 대체 변형을 선택하도록 구성된다.

도 3b는 음성 합성기(300, 300b)가 텍스트 입력 데이터(302)를 수신하여 파형 신경망 모델(380)에 입력될 입력 텍스트 시퀀스(370)를 생성하는 것을 제외하고는 도 3a와 유사한 음성 합성기(300, 300b)의 예이다. 파형 신경망 모델(380)은 유닛 선택 프로세스와 달리 유닛 데이터베이스(340)를 필요로 하지 않는다. 유닛 데이터베이스(340)가 없으면, 파형 신경망 모델(380)은 음성 합성기(300, 300a)와 비교할 때 더 큰 계산 효율을 달성하고 계산 부하의 일부를 감소시킬 수 있다.

핫 워드 검출기 모델(220)과 유사하게, 핫 워드-인식 모델(320) 및/또는 파형 신경망 모델(380)은 (예를 들어, 핫 워드-인식 트레이너(310)를 통한 핫 워드-인식 모델(320)의 경우) 먼저 모델 트레이닝을 받을 수 있는 기계 학습 모델일 수 있고, 일단 트레이닝되면, 음성 합성기(300)에 의해 구현될 수 있다. 모델 트레이닝 동안, 모델(320, 380)은 데이터 세트 및 결과 세트를 수신하여 그 데이터 세트와 유사한 입력 데이터에 기초하여 자체 출력을 예측한다. 핫 워드-인식 모델(320)의 경우, 데이터 세트 및 결과 세트는 구문, 단어, 하위 단어, 텍스트-음성 변환 시퀀스, 언어 변형, 언어 번역 등과 같은 핫 워드(130)와 관련된 오디오 샘플 또는 텍스트 샘플일 수 있다. 파형 신경망 모델(380)의 경우, 데이터 세트 및 결과 세트는 파형 신경망 모델(380)을 트레이닝시켜 입력 텍스트 시퀀스(370)로부터 합성 음성(160)을 생성하도록 구성된 텍스트 샘플일 수 있다. 일부 예에서, 트레이닝 목적으로, 데이터는 트레이닝 및 평가 세트(예를 들어, 90% 트레이닝 및 10% 평가)로 분리된다. 이들 세트로, 모델(320, 380)은 평가 세트의 성능이 저하될 때까지 트레이닝한다. 일단 평가 세트상의 성능 감소가 중지되면, 각 개별 모델(320, 380)은 (예를 들어, 핫 워드-인식 모델(320)에 대한 핫 워드(130)를 식별하거나 파형 신경망 모델(380)에 대한 합성 음성(160)을 생성하는) 모델링을 준비한다.

추가적으로 또는 대안적으로, 각 개별 모델(320, 380)은 신경망이다. 모델(320, 380)은 컨볼루션 신명망(CNN)(예를 들어, 수정된 WaveNet) 또는 심층 신경망(DNN)일 수 있다. 일부 예에서, 모델(320, 380)은 컨볼루션 신경망이 필터링하고, 풀링한 다음 정보를 평활하여 심층 신경망으로 전송할 수 있도록 컨벌루션 신경망과 심층 신경망의 조합이다. 모델(320, 380)이 기계 학습 모델인 경우와 마찬가지로, 신경망은 의미있는 오디오 출력 신호(304)를 생성하도록 트레이닝된다. 일부 예에서, 평균 제곱 에러 손실 함수는 모델(320, 380)이 신경망일 때 모델(320, 380)을 트레이닝시킨다.

도 4는 텍스트 입력 데이터(302)의 발음을 결정하는 방법(400)에 대한 예시적인 동작 배열의 흐름도이며, 주변 디바이스(110)에 할당된 핫 워드(130)를 포함한다. 데이터 처리 하드웨어(112)는 메모리 하드웨어(114)에 저장된 명령들을 실행함으로써 방법(400)에 대한 동작들을 실행할 수 있다. 동작(402)에서, 방법(400)은 음성 합성 디바이스(300)의 데이터 처리 하드웨어(112)에서, 합성 음성(160)으로 변환하기 위한 텍스트 입력 데이터(302)를 수신하는 단계를 포함한다. 동작(404)에서, 방법(400)은 데이터 처리 하드웨어(112)에 의해 그리고 사용자 디바이스(110)에 할당된 핫 워드(130)의 존재를 검출하도록 트레이닝된 핫 워드-인식 모델(320)을 사용하여, 텍스트 입력 데이터(302)의 발음이 핫 워드(130)를 포함 하는지 여부를 결정하는 단계를 포함하고, 상기 핫 워드(130)는, 사용자 디바이스(110)에 의해 수신된 오디오 입력 데이터에 포함될 때, 오디오 입력 데이터에서 핫 워드(130) 및/또는 그 핫 워드(130)를 뒤따르는 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스(110)상의 웨이크-업 프로세스를 개시하도록 구성된다.

단계(406)에서, 텍스트 입력 데이터(302)의 발음이 핫 워드(130)를 포함할 때, 방법(400)은 입력 텍스트 데이터(302)로부터 오디오 출력 신호(304)를 생성하는 단계를 포함한다. 동작(408)에서, 텍스트 입력 데이터(302)의 발음이 핫 워드(130)를 포함할 때, 방법(400)은 데이터 처리 하드웨어(112)에 의해, 오디오 출력 신호(304)를 출력하도록 오디오 출력 디바이스(118)에 오디오 출력 신호(304)를제공하는 단계를 포함하고, 상기 오디오 출력 신호(304)는 사용자 디바이스(110)의 오디오 캡처 디바이스(116)에 의해 캡처될 때, 사용자 디바이스(110)에서 웨이크-업 프로세스의 개시를 방지하도록 구성된다.

도 5는 오디오 입력 데이터가 합성 음성(160)을 포함할 때 방법(500)에 대한 예시적인 동작 배열의 흐름도이며, 오디오 입력 데이터가 합성 음성(160)을 포함하는 경우 오디오 입력 데이터를 처리하기 위한 사용자 디바이스(110)상의 웨이크-업 프로세스의 개시를 방지한다 데이터는 합성 음성(160)을 포함한다. 데이터 처리 하드웨어(112)는 메모리 하드웨어(114)에 저장된 명령들을 실행함으로써 방법(500)에 대한 동작들을 실행할 수 있다. 동작(502)에서, 방법(500)은 사용자 디바이스(110)의 핫 워드 검출기(200)에서, 핫 워드(130)를 포함하는 오디오 입력 데이터를 수신하는 단계를 포함한다. 핫 워드(130)는 오디오 입력 데이터 내의 핫 워드(130) 및/또는 그 핫 워드(130) 다음의 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스(110)상의 웨이크-업 프로세스를 개시하도록 구성된다. 단계(504)에서, 방법(500)은 핫 워드 검출기(200)에 의해, 오디오 입력 데이터 내의 핫 워드(130)를 검출하도록 구성된 핫 워드 검출기 모델(220) 및 합성 음성(160)의 존재를 이용하여 오디오 입력 데이터가 합성 음성(160)을 포함하는지 여부를 결정하는 단계를 포함한다. 동작(506)에서, 오디오 입력 데이터가 합성 음성(160)을 포함하는 경우, 방법(500)은 핫 워드 검출기(200)에 의해, 오디오 입력 데이터 내의 핫 워드(130) 및/또는 그 핫 워드(130)에 후속하는 하나 이상의 다른 용어를 처리하기 위한 사용자 디바이스(110)상의 웨이크-업 프로세스의 개시를 방지하는 단계를 포함한다.

소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스로 하여금 태스크를 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션은 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드 시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션을 포함하지만 이에 제한되지는 않는다.

비-일시적 메모리는 컴퓨팅 디바이스에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-일시적 메모리는 휘발성 및/또는 비-휘발성 어드레서블 반도체 메모리일 수 있다. 비-휘발성 메모리의 예는 플래시 메모리 및 판독 전용 메모리(ROM)/프로그램 가능 판독 전용 메모리(PROM)/소거 가능 프로그램 가능 판독 전용 메모리(EPROM)/전자 소거 가능 프로그램 가능 판독 전용 메모리(EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)을 포함하지만 이에 제한되지 않는다. 휘발성 메모리의 예는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변화 메모리(PCM) 및 디스크 또는 테이프를 포함하지만 이에 제한되지는 않는다.

도 6은 본 명세서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스(600)의 개략도이다. 컴퓨팅 디바이스(600)는 랩탑, 데스크탑, 워크스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인 프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 본 명세서에 도시된 구성 요소들, 그들의 연결 및 관계 및 그들의 기능은 단지 예시적인 것이며, 본 명세서에 기술되고 및/또는 청구된 본 발명의 구현을 제한하려는 것은 아니다.

컴퓨팅 디바이스(600)는 프로세서(610), 메모리(620), 저장 디바이스(630), 그 메모리(620)와 고속 확장 포트(650)에 연결되는 고속 인터페이스/제어기(640), 및 저속 버스(670)와 저장 디바이스(630)에 연결되는 저속 인터페이스/제어기(660)를 포함한다. 컴포넌트들(610, 620, 630, 640, 650, 660) 각각은 다양한 버스를 사용하여 상호 연결되며, 공통 마더 보드상에 또는 다른 방식으로 적절히 장착될 수 있다. 프로세서(610)는 고속 인터페이스(640)에 연결된 디스플레이와 같은 외부 입력/출력 디바이스상의 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(620) 또는 저장 디바이스(630)에 저장된 명령들을 포함하여, 컴퓨팅 디바이스(600)내의 실행을 위한 명령들을 처리할 수 있다. 다른 구현에서, 다수의 프로세서들 및/또는 다수의 버스가 적절하게 다수의 메모리 및 유형의 메모리와 함께 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(600)가 연결될 수 있으며, 각 디바이스는 (예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 다중 프로세서 시스템으로서) 필요한 동작의 일부를 제공한다.

메모리(620)는 컴퓨팅 디바이스(600) 내에 비-일시적으로 정보를 저장한다. 메모리(620)는 컴퓨터-판독 가능 매체, 휘발성 메모리 유닛(들) 또는 비-휘발성 메모리 유닛(들)일 수 있다. 비-일시적 메모리(620)는 컴퓨팅 디바이스(600)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-휘발성 메모리의 예는 플래시 메모리 및 판독 전용 메모리(ROM)/프로그램 가능 판독 전용 메모리(PROM)/소거 가능 프로그램 가능 판독 전용 메모리(EPROM)/전자 소거 가능 프로그램 가능 판독 전용 메모리(EEPROM)(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)을 포함하지만 이에 제한되지 않는다. 휘발성 메모리의 예는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변화 메모리(PCM) 및 디스크 또는 테이프를 포함하지만 이에 제한되지 않는다.

저장 디바이스(630)는 컴퓨팅 디바이스(600)에 대용량 저장소를 제공할 수 있다. 일부 구현에서, 저장 디바이스(630)는 컴퓨터-판독 가능 매체이다. 다양한 구현에서, 저장 디바이스(630)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 추가 구현에서, 컴퓨터 프로그램 제품은 정보 매체 내에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때 전술 한 바와 같은 하나 이상의 방법을 수행하는 명령을 포함한다. 정보 매체는 메모리(620), 저장 디바이스(630) 또는 프로세서(610)상의 메모리와 같은 컴퓨터- 또는 기계-판독 가능 매체이다.

고속 제어기(640)는 컴퓨팅 디바이스(600)에 대한 대역폭-집약형 동작을 관리하는 반면, 저속 제어기(660)는보다 낮은 대역폭-집약형 동작을 관리한다. 이러한 임무의 할당은 단지 예시이다. 일부 구현에서, 고속 제어기(640)는 메모리(620), 디스플레이(680)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(650)에 연결된다. 일부 구현에서, 저속 제어기(660)는 저장 디바이스(630) 및 저속 확장 포트(690)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(690)는 키보드, 포인팅 디바이스, 스캐너, 또는 스위치 또는 라우터와 같은 네트워킹 디바이스, 예를 들어 네트워크 어댑터를 통한 네트워크 디바이스와 같은 하나 이상의 입력/출력 디바이스에 연결될 수 있다. .

컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(600a) 또는 이러한 서버(600a)의 그룹에서 랩탑 컴퓨터(600b) 또는 랙 서버 시스템(600c)의 일부로서 여러 번 구현될 수 있다.

본 명세서에 기술된 시스템 및 기술의 다양한 구현은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현은 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 데이터 및 명령을 전송하도록 연결된 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템상에서 실행 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이들 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그램 가능 프로세서를 위한 기계 명령들을 포함하고, 높은 수준의 절차적 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용된 바와 같이, "기계-판독 가능 매체" 및 "컴퓨터-판독 가능 매체"라는 용어는 기계-판독 가능 신호로서 기계 명령을 수신하는 기계-판독 가능 매체를 포함하여, 임의의 컴퓨터 프로그램 제품, 비-일시적 컴퓨터 판독 가능 매체, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 장치 및/또는 디바이스를 지칭한다. "기계-판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

본 명세서에 기술된 프로세스 및 논리 흐름은 데이터 처리 하드웨어라고도 지칭되는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램을 실행하여 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능을 수행할 수 있다. 프로세스 및 논리 흐름은 또한 특수 목적 로직 회로, 예를 들어 FPGA(필드 프로그램 가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서는 예로서 범용 마이크로 프로세서 및 특수 목적 마이크로 프로세서, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령을 수행하기 위한 프로세서 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 예를 들어 자기, 자기 광 디스크 또는 광 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스로부터 데이터를 수신하거나 데이터를 전송하기 위해 또는 그 둘 모두를 위해 동작적으로 연결될 것이다. 그러나 컴퓨터에는 이들 디바이스가 필요하지 않다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예로서 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하여, 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 발명의 하나 이상의 양태는 디스플레이 디바이스, 예를 들어 CRT(음극선 관), LCD(액정 디스플레이) 모니터, 또는 사용자에게 정보를 디스플레이하기 위한 터치 스크린 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백, 예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백일 수 있으며; 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자에 의해 사용되는 디바이스로 문서를 전송하고 수신함으로써 사용자와 상호 작용할 수 있는데; 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 웹 페이지를 사용자의 클라이언트 디바이스의 웹 브라우저에 전송함으로써 사용자와 상호 작용할 수 있다.

많은 구현들이 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않으면서 다양한 변형이 이루어질 수 있음을 이해할 것이다. 따라서, 다른 구현들은 다음의 청구 범위의 범위 내에 있다.

Claims

데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어가 동작들을 수행하게 하는 컴퓨터 구현 방법으로서, 상기 동작들은:
핫워드 검출기 모델을 트레이닝하기 위한 복수의 트레이닝 샘플을 획득하는 단계와, 상기 복수의 트레이닝 샘플은:
핫워드의 오디오 표현을 포함하는 포지티브 트레이닝 샘플들; 및
텍스트-음성 변환(TTS) 시스템의 출력으로서 생성되는 합성 음성 발언을 포함하는 네거티브 트레이닝 샘플들을 포함하고, 상기 네거티브 트레이닝 샘플들의 합성 음성 발언에는 핫워드가 포함되지 않으며;
(i) 핫워드 또는 합성 음성 발언의 존재가 오디오 입력 데이터에서 검출되는지 여부를 식별하고 (ii) 식별에 기초하여 오디오 입력 데이터에서 핫워드의 검출을 수행할지 여부를 핫워드 검출기에 지시하는 것을 학습하도록 핫워드 검출기 모델을 가르치기 위해 복수의 트레이닝 샘플에 대해 핫워드 검출기 모델을 트레이닝하는 단계와;
오디오 입력 데이터를 수신하는 단계와;
트레이닝된 핫워드 검출기 모델을 사용하여, 오디오 입력 데이터에서 핫워드의 존재를 검출하는 단계를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
포지티브 트레이닝 샘플들은 핫워드를 말하는 하나 이상의 사용자에 대응하는 인간-생성 오디오 데이터를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
오디오 입력 데이터에서 핫워드의 존재를 검출하는 단계는,
오디오 입력 데이터를 전사하거나 의미론적으로 해석하지 않고 오디오 입력 데이터에서 핫워드의 존재를 검출하기 위해 상기 트레이닝된 핫워드 검출기 모델을 사용하는 단계를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
TTS 시스템은 신경망 모델을 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
TTS 시스템은,
텍스트를 음성으로 변환함으로써 합성 음성 발언을 포함하는 네거티브 트레이닝 샘플들을 생성하도록 구성되는 컴퓨터 구현 방법.
제1항에 있어서,
핫워드 검출기 모델은 신경망을 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
트레이닝된 핫워드 검출기 모델은 사용자 디바이스에서 웨이크-업 프로세스를 개시하도록 구성되는 컴퓨터 구현 방법.
제7항에 있어서,
웨이크-업 프로세스는 오디오 입력 데이터에서 핫워드 및/또는 그 핫워드 다음에 오는 하나 이상의 다른 용어를 처리하도록 구성되는 컴퓨터 구현 방법.
제1항에 있어서,
트레이닝된 핫워드 검출기 모델은 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하도록 더 구성되는 컴퓨터 구현 방법.
제9항에 있어서,
오디오 입력 데이터가 합성 음성을 포함하는 경우, 트레이닝된 핫워드 검출기 모델은 사용자 디바이스에서 웨이크-업 프로세스의 개시를 방지하도록 핫워드 검출기에 지시하도록 구성되는 컴퓨터 구현 방법.
시스템으로서,
데이터 처리 하드웨어; 그리고
데이터 처리 하드웨어와 통신하는 메모리 하드웨어를 포함하고, 상기 메모리 하드웨어는 데이터 처리 하드웨어에 의해 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하고, 상기 동작들은:
핫워드 검출기 모델을 트레이닝하기 위한 복수의 트레이닝 샘플을 획득하는 단계와, 상기 복수의 트레이닝 샘플은:
핫워드의 오디오 표현을 포함하는 포지티브 트레이닝 샘플들; 및
텍스트-음성 변환(TTS) 시스템의 출력으로서 생성되는 합성 음성 발언을 포함하는 네거티브 트레이닝 샘플들을 포함하고, 상기 네거티브 트레이닝 샘플들의 합성 음성 발언에는 핫워드가 포함되지 않으며;
(i) 핫워드 또는 합성 음성 발언의 존재가 오디오 입력 데이터에서 검출되는지 여부를 식별하고 (ii) 식별에 기초하여 오디오 입력 데이터에서 핫워드의 검출을 수행할지 여부를 핫워드 검출기에 지시하는 것을 학습하도록 핫워드 검출기 모델을 가르치기 위해 복수의 트레이닝 샘플에 대해 핫워드 검출기 모델을 트레이닝하는 단계와;
오디오 입력 데이터를 수신하는 단계와;
트레이닝된 핫워드 검출기 모델을 사용하여, 오디오 입력 데이터에서 핫워드의 존재를 검출하는 단계를 포함하는 시스템.
제11항에 있어서,
포지티브 트레이닝 샘플들은 핫워드를 말하는 하나 이상의 사용자에 대응하는 인간-생성 오디오 데이터를 포함하는 시스템.
제11항에 있어서,
오디오 입력 데이터에서 핫워드의 존재를 검출하는 단계는,
오디오 입력 데이터를 전사하거나 의미론적으로 해석하지 않고 오디오 입력 데이터에서 핫워드의 존재를 검출하기 위해 상기 트레이닝된 핫워드 검출기 모델을 사용하는 단계를 포함하는 시스템.
제11항에 있어서,
TTS 시스템은 신경망 모델을 포함하는 시스템.
제11항에 있어서,
TTS 시스템은,
텍스트를 음성으로 변환함으로써 합성 음성 발언을 포함하는 네거티브 트레이닝 샘플들을 생성하도록 구성되는 시스템.
제11항에 있어서,
핫워드 검출기 모델은 신경망을 포함하는 시스템.
제11항에 있어서,
트레이닝된 핫워드 검출기 모델은 사용자 디바이스에서 웨이크-업 프로세스를 개시하도록 구성되는 시스템.
제17항에 있어서,
웨이크-업 프로세스는 오디오 입력 데이터에서 핫워드 및/또는 그 핫워드 다음에 오는 하나 이상의 다른 용어를 처리하도록 구성되는 시스템.
제11항에 있어서,
트레이닝된 핫워드 검출기 모델은 오디오 입력 데이터가 합성 음성을 포함하는지 여부를 결정하도록 더 구성되는 시스템.
제19항에 있어서,
오디오 입력 데이터가 합성 음성을 포함하는 경우, 트레이닝된 핫워드 검출기 모델은 사용자 디바이스에서 웨이크-업 프로세스의 개시를 방지하도록 핫워드 검출기에 지시하도록 구성되는 시스템.