KR20190103308A

KR20190103308A - 기록된 미디어 핫워드 트리거 억제

Info

Publication number: KR20190103308A
Application number: KR1020197022907A
Authority: KR
Inventors: 리카르도 안토니오 가시아
Original assignee: 구글 엘엘씨
Priority date: 2017-06-05
Filing date: 2018-03-13
Publication date: 2019-09-04
Also published as: JP2020511682A; EP3430618B1; KR102296238B1; US20220139387A1; CN110214351A; CN110214351B; JP2020190752A; EP3723083B1; WO2018226283A1; JP2022136197A; US10395650B2; JP7114660B2; US11244674B2; US11798543B2; EP3723083A1; CN116597836A; EP4220629A1; JP7461416B2; EP3430618A1; JP6750125B2

Abstract

기록된 매체에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 일 양태에서, 방법은 컴퓨팅 장치에 의해 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 동작들을 포함한다. 상기 동작들은 컴퓨팅 장치에 의해 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함하는지를 결정하는 것을 더 포함한다. 상기 동작들은 컴퓨팅 장치에 의해 오디오 워터마크를 분석하는 것을 더 포함한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 것을 더 포함한다.

Description

기록된 미디어 핫워드 트리거 억제

본 명세서는 일반적으로 자동화된 음성 인식에 관한 것이다.

음성 지원 가정 또는 다른 환경의 현실이, 즉 사용자가 쿼리 또는 명령을 크게 소리내어 말할 필요가 있고, 컴퓨터 기반 시스템은 쿼리에 응답하고 및/또는 명령이 수행되도록 하는 환경이 우리에게 있다. 음성 지원 환경(예: 가정, 직장, 학교 등)은 상기 환경의 다양한 방 또는 영역에 분산되어 있는 연결된 마이크로폰 디바이스들의 네트워크를 사용하여 구현될 수 있다. 이러한 마이크로폰들의 네트워크를 통해, 사용자는 자신이나 심지어 근처에 컴퓨터 또는 다른 디바이스를 가질 필요없이 본질적으로 환경의 어느 곳에서나 시스템에 구두로 쿼리할 수 있는 권한을 가진다. 예를 들어, 부엌에서 요리하는 동안, 사용자는 시스템에 "3컵에 몇 밀리리터가 있었나요?"라고 질문할 수 있으며, 이에 응답하여, 시스템으로부터, 예를 들어, 합성된 음성 출력의 형태로 응답을 수신할 수 있다. 또는, 사용자는 "가장 가까운 주유소가 언제 닫습니까?" 또는 집 떠날 준비를 할 때 "나는 오늘 코트를 입어야 합니까?"와 같은 시스템 질문을 할 수 있다.

또한, 사용자는 사용자의 개인 정보와 관련된 시스템의 쿼리 및/또는 명령을 요청할 수 있다. 예를 들어 사용자가 시스템에 "존과의 미팅은 언제입니까?"라고 묻거나 시스템에 "집에 돌아올 때 존에게 전화하라고 해줘"라고 명령할 수 있다.

음성 인식 시스템의 경우, 시스템과 상호 작용하는 사용자의 방식은 주로 배타적이지 않지만 음성 입력을 통해 이루어지도록 구성된다. 결과적으로, 시스템에 지시되지 않은 것을 포함하여 주변 환경에서 이루어진 모든 발화를 잠재적으로 픽업하는 시스템은 소정의 발화가 예를 들어, 환경에 존재하는 개인에게 지시되는 것과는 대조적으로 시스템에 지시될 때 어떤 식으로든 분별력을 가져야 한다. 이를 달성하는 한 가지 방법은 핫워드를 사용하는 것이며, 이 핫워드는 환경 내의 사용자들 간의 동의에 따라 시스템의 주의를 끌기 위해 말한 미리 결정된 단어로 예약된다. 예시적인 환경에서, 시스템의 주의를 끄는 데 사용되는 핫워드는 "오케이 컴퓨터(OK computer)"라는 단어이다. 결과적으로, "OK computer"라는 단어가 말해질 때마다, 마이크로폰에 의해 픽업되어 시스템으로 전달되어 음성 인식 기술을 수행하거나 오디오 기능과 신경망을 사용하여 핫워드가 사용되었는지 여부를 결정하고, 사용되었다면 계속되는 명령 또는 쿼리를 기다린다. 따라서, 시스템으로 향하는 발화는 일반적인 형태 [HOTWORD] [QUERY]를 취하며, 이 예에서 "HOTWORD"는 "OK computer"이고, "QUERY"는 혼자 또는 네트워크를 통해 서버와 연계하여 시스템에서 음성 인식, 구문 분석 및 작동할 수 있는 모든 질문, 명령, 선언(declaration) 또는 기타 요청일 수 있다.

핫워드를 검출하는 것 이외에, 컴퓨팅 장치는 핫워드의 오디오에 내장된 오디오 워터마크를 검출하도록 구성될 수 있다. 오디오 워터마크는 사람에게 들리지 않는 고주파 워터마크 또는 배경 노이즈 또는 정적(static)과 유사한 소리를 내는 워터마크가 될 수 있다. 컴퓨팅 장치는 오디오 워터마크에 따라 핫워드와 다르게 응답하도록 구성될 수 있다. 예를 들어, "OK 컴퓨터, 기차역으로 가는 길을 알려줘"라고 말하는 배우를 포함하는 미디어 콘텐츠의 일부가 생성될 수 있다. 미디어 콘텐츠를 재생하는 텔레비전 부근의 컴퓨팅 장치가 기차역으로 가는 길을 제공하는 것을 방지하기 위해, 미디어 콘텐츠의 제작자는 핫워드와 중첩하는 오디오 워터마크를 포함할 수 있다. 미디어 콘텐츠의 오디오를 검출하는 컴퓨팅 장치는 오디오 워터마크를 추출하고 그 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교할 수 있다. 오디오 워터마크 데이터베이스는 컴퓨팅 장치가 핫워드 및 이 특정 오디오 워터마크에 뒤따르는 오디오 및 다른 오디오 워터마크에 대한 추가 규칙에 대해 음성 인식을 수행해야 하는 경우에 대한 규칙을 포함할 수 있다. 알 수 있는 바와 같이, 여기에 설명된 방법들 및 시스템들 중 적어도 일부는 컴퓨팅 장치가 컴퓨팅 장치의 부근에서 스피커를 통해 출력되는 발언된 발화(utterance)에 언제 응답할지를 선택적으로 결정할 수 있게 한다.

미디어 콘텐츠에 대한 오디오 워터마크에 대한 규칙은 컴퓨팅 장치가 미디어 콘텐츠로부터의 오디오를 추가로 프로세싱하기 전에 만족(충족)시켜야 하는 조건들을 포함할 수 있다. 예시적인 규칙은 컴퓨팅 장치가 현재 길을 제공하지 않고, 시간당 10마일 이상 움직이지 않고, 스마트 스피커이고, 사용자의 집에 위치하는 경우 컴퓨팅 장치가 응답해야 한다는 규칙일 수 있다. 규칙의 또 다른 예는 컴퓨팅 장치가 미디어 콘텐츠의 소유자 또는 제작자와 연관된 구내 내에 있고, 발화가 높은 우선순위임을 워터마크가 나타내는 경우에만 컴퓨팅 장치가 응답해야 한다는 것일 수 있다. 컴퓨팅 장치가 이들 규칙을 만족하면, 컴퓨팅 장치는 핫워드 다음의 부분에 대해 음성 인식을 수행할 수 있다. 전사(transcription)가 "기차역으로 가는 길 알려줘"라면, 연산 장치는 기차역으로 가는 길을 표시하거나 오디오로 제공할 수 있다. 컴퓨팅 장치가 규칙을 만족하지 않으면, 컴퓨팅 장치는 핫워드 다음의 오디오 부분에 대해 음성 인식을 수행하지 않고, 오디오에 응답하여 더 이상의 동작을 수행하지 않는다.

일부 구현 예에서, 오디오 워터마크는 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교하도록 컴퓨팅 장치에 대한 필요성을 제거할 수 있는 데이터를 인코딩할 수 있다. 상기 인코딩된 데이터는 컴퓨팅 장치가 식별자, 액션, 임의의 다른 유사한 데이터, 또는 음성 인식을 수행해야 하는 경우에 대한 규칙을 포함할 수 있다. 일부 구현 예에서, 컴퓨팅 장치는 핫워드 다음의 오디오에 대해 음성 인식을 수행할지 여부를 결정하기 위해 오디오 워터마크 데이터베이스와 함께 인코딩된 데이터를 사용할 수 있다.

본 출원서에 기술된 요지의 혁신적인 양태에 따르면, 기록된 미디어에서 핫워드를 검출할 때 핫 워드 트리거를 억제하는 방법은, 컴퓨팅 장치(디바이스)에 의해, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 동작; 상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 상기 오디오가 오디오 워터마크를 포함한다고 결정하는 동작; 상기 컴퓨팅 장치에 의해, 상기 오디오 워터마크를 분석하는 동작; 그리고 상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫 워드에 이어지는 상기 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작을 포함할 수 있다.

이들 및 다른 구현 예는 각각 선택적으로 하나 이상의 다음 특징을 포함할 수 있다. 오디오 워터마크를 분석하는 동작은 오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 동작을 포함한다. 미리정의된 핫워드 다음(이어지는)의 오디오 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 것에 추가로 기반한다. 오디오 워터마크는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 비가청(inaudible) 부분이다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 식별하는 동작을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스에 더 기초한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 소스를 식별하는 동작; 그리고 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 나타내도록 로그 파일을 업데이트하는 동작을 포함한다.

오디오 워터마크는 미리정의된 핫워드의 발화를 포함하는 오디오의 부분에 포함된다. 상기 동작들은 추가적인 컴퓨팅 장치의 유형을 결정하는 동작을 더 포함한다. 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 유형에 추가적으로 기초한다. 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 일부에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하기로 결정하는 동작을 포함한다. 상기 동작들(액션들)은, 자동화된 음성 인식기에 의해, 미리정의된 핫워드에 이어지는 오디오의 전사(transcription)를 생성하는 동작; 그리고 미리정의된 핫워드에 이어지는 오디오의 전사에 대응하는 동작(액션)을 수행하는 동작을 더 포함한다. 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 일부에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하지 않기로 결정하는 동작을 포함한다. 상기 동작들은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오에 대응하는 동작을 억제하는 동작을 더 포함한다.

상기 동작들은 추가적인 컴퓨팅 장치의 위치를 결정하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 위치에 기반한다. 상기 동작들은 추가적인 컴퓨팅 장치의 사용자 설정을 결정하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 사용자 설정을 기반으로 한다. 컴퓨팅 장치에 의해, 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함한다는 것을 결정하는 동작은 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것; 그리고 상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것에 기초하여, 상기 오디오가 상기 오디오 워터마크를 포함한다고 결정하는 것을 포함한다. 컴퓨팅 장치에 의해, 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 동작은 상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것; 그리고 상기 오디오가 미리정의된 핫워드의 발화를 포함한다고 결정한 후에, 상기 오디오가 상기 오디오 워터마크를 포함한다고 결정하는 것을 포함한다.

오디오 워터마크를 분석하는 동작은 오디오 워터마크에 인코딩된 데이터를 추출하는 것을 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 오디오 워터마크에 인코딩된 데이터를 기반으로 한다. 상기 동작들은, 상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 미디어 콘텐츠의 유형을 식별하는 동작; 그리고 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 나타내기 위해 로그 파일을 업데이트하는 동작을 포함한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 식별하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형에 더 기초한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 자연어 프로세싱을 수행할지 여부를 결정하는 동작을 더 포함한다.

본 양태의 다른 실시 예는 각각이 방법의 동작을 수행하도록 구성된, 컴퓨터 저장 장치상에 기록된 컴퓨터 프로그램, 시스템, 장치를 포함한다.

본 명세서에서 설명된 본 발명의 특정 실시 예는 다음의 장점 중 하나 이상을 실현하도록 구현될 수 있다. 컴퓨팅 장치는 특정 오디오 워터마크만을 포함하는 핫워드에 응답함으로써 컴퓨팅 장치의 배터리 전력 및 프로세싱 용량을 절약할 수 있다. 오디오 워터마크를 갖는 핫워드를 수신하면 검색 쿼리를 수행하는 컴퓨터 장치 수가 줄어들어 네트워크 대역폭이 보존될 수 있다. 또한, 오디오 워터마크는 사용자의 컴퓨팅 장치로 하여금 사용자 주변의 라우드스피커(loudspeaker)를 통해 출력된다면 사용자의 컴퓨팅 장치가 청취할 수 없는 상황에서 사용자에게 정보(예를 들어, 음성 쿼리에 대한 응답 또는 어떤 종류의 경보)를 전달하게 할 수 있다. 이러한 사용자는 청각 장애가 있거나 오디오 장치에 연결된 개인용 스피커(예: 헤드폰)를 통해 다른 오디오를 듣는 사용자를 포함할 수 있다. 예를 들어, 특정 오디오 워터마크는 높은 우선순위를 나타내는 것으로 컴퓨팅 장치에 의해 이해될 수 있으며, 이 경우 컴퓨팅 장치는 주 오디오(primary audio)를 통해 수신된 쿼리에 응답할 수 있다.

본 명세서에 기술된 요지의 하나 이상의 실시 예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 시스템을 도시한다.
도 2는 기록된 미디어에서 핫 워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 컴퓨팅 장치 및 모바일 컴퓨팅 장치의 예이다.
다양한 도면에서 유사한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

도 1은 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 시스템(100)을 도시한다. 간략하게, 이하보다 상세히 설명하는 바와 같이, 컴퓨팅 장치(102 및 104)는 오디오 소스(106)(예를 들어, 텔레비전)로부터 오디오(108) 출력을 수신한다. 오디오(108)는 오디오 워터마크 및 미리정의된 핫워드의 발화를 포함한다. 컴퓨팅 장치(102, 104) 모두는 오디오(108)를 프로세싱하고, 오디오(108)가 미리정의된 핫워드를 포함하는 것으로 결정한다. 컴퓨팅 장치들(102 및 104)은 오디오 워터마크를 식별한다. 오디오 워터마크 및 컴퓨팅 장치(102 및 104)의 컨텍스트 또는 특성에 기초하여, 컴퓨팅 장치(102 및 104) 각각은 오디오에 대한 음성 인식을 수행할 수 있다.

도 1에 도시된 예에서, 오디오 소스(106)는 너겟 월드(Nugget World)와 관련된 미디어 콘텐츠를 재생하고 있다. 미디어 콘텐츠 동안, 미디어 콘텐츠의 배우는 "Ok computer, what’s in a nugget?(너겟에 무엇이 있습니까?)"라는 발화를 발언한다. 발화(108)는 핫워드(110) "Ok computer" 및 쿼리(112) "what’s in a nugget?"을 포함한다. 오디오 소스 106)는 발화(108)를 스피커를 통해 출력한다. 마이크(마이크로폰)가 있는 주변의 모든 컴퓨팅 장치는 발화(108)를 검출할 수 있다.

발화(108)의 오디오는 가청 부분(114) 및 오디오 워터마크(116)를 포함한다. 미디어 콘텐츠의 제작자는 특정 컴퓨팅 장치가 발화(108)에 정확하게 응답하도록 오디오 워터마크(116)를 추가할 수 있다. 일부 구현 예에서, 오디오 워터마크(116)는 사람의 청각 범위보다 높거나 낮은 오디오 주파수를 포함할 수 있다. 예를 들어, 오디오 워터마크(116)는 20kHz보다 크거나 20Hz보다 작은 주파수를 포함할 수 있다. 일부 구현 예에서, 오디오 워터마크(116)는 사람 청력 범위 내에 있지만 잡음과 유사한 그 소리로 인하여 인간에 의해 검출될 수 없는 오디오를 포함할 수 있다. 예를 들어, 오디오 워터마크(116)는 8 내지 10kHz 사이의 주파수 패턴을 포함할 수 있다. 상이한 주파수 대역의 강도는 사람에게는 지각할 수 없지만(imperceptible), 컴퓨팅 장치에 의해 검출될 수 있다. 오디오(108)의 주파수 도메인 표현(118)에 의해 도시된 바와 같이, 가청 부분(114)보다 높은 주파수 범위에 있는 오디오 워터마크(116)를 포함한다.

컴퓨팅 장치들(102 및 104)은 마이크로폰을 통해 오디오를 수신할 수 있는 임의의 유형의 장치일 수 있다. 예를 들어, 컴퓨팅 장치들(102 및 104)은 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러 폰, 스마트 폰, 뮤직 플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커(예: 블루투스) 헤드셋, 보청기, 스마트 시계, 스마트 안경, 활동 추적기 또는 기타 적절한 컴퓨팅 장치일 수 있다. 도 1에 도시된 바와 같이, 컴퓨팅 장치(102)는 스마트폰이고, 컴퓨팅 장치(104)는 데스크톱 컴퓨터이다. 오디오 소스(106)는 예를 들어 텔레비전, 라디오, 뮤직 플레이어, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러 폰, 또는 스마트 폰과 같은 임의의 오디오 소스일 수 있다. 도 1에 도시된 바와 같이, 오디오 소스(106)는 텔레비전이다.

컴퓨팅 장치들(102 및 104) 각각은 마이크로폰을 통해 오디오를 수신한다. 컴퓨팅 장치(102)와 관련하여, 마이크로폰은 오디오 서브시스템(120)의 일부일 수 있다. 오디오 서브시스템(120)은 마이크폰을 통해 수신된 오디오를 초기에 프로세싱하도록 각각 설계된 버퍼, 필터, 아날로그-디지털 변환기를 포함할 수 있다. 상기 버퍼는 마이크로폰을 통해 수신되고 그리고 오디오 서브시스템(120)에 의해 프로세싱되는 현재 오디오를 저장할 수 있다. 예를 들어, 버퍼는 이전 5초의 오디오 데이터를 저장한다. 유사하게, 컴퓨팅 장치(104)의 마이크로폰은 오디오 서브시스템(122)의 일부일 수 있다. 오디오 서브시스템(122)은 마이크로폰을 통해 수신된 오디오를 초기에 프로세싱하도록 각각 설계된 버퍼, 필터, 아날로그-디지털 변환기를 포함할 수 있다. 버퍼는 마이크로폰을 통해 수신되고 오디오 서브시스템(122)에 의해 프로세싱되는 현재 오디오를 저장할 수 있다. 예를 들어, 버퍼는 이전 3초의 오디오 데이터를 저장한다.

컴퓨팅 장치들(102 및 104) 각각은 핫워더(hotworder)(124 및 126)를 각각 포함한다. 핫워더(124, 126)는 각각 마이크로폰을 통해 수신되거나 및/또는 버퍼에 저장된 오디오의 핫워드를 식별하도록 구성된다. 일부 구현 예에서, 핫워더(124 및 126)는 컴퓨팅 장치(102 및 104)의 전원이 켜지는 임의의 시간에 활성화될 수 있다. 핫워더(124)는 버퍼에 저장된 오디오 데이터를 연속적으로 분석한다. 핫워더(124)는 버퍼 내의 현재 오디오 데이터가 핫워드를 포함할 가능성을 반영하는 핫워드 신뢰도 점수를 연산(계산)한다. 핫워드 신뢰도 점수를 계산하기 위해, 핫워더(124)는 필터뱅크 에너지 또는 멜 주파수 셉스트럴 계수(mel-frequency cepstral coefficient)와 같은 오디오 데이터로부터 오디오 특징을 추출할 수 있다. 핫워더(124)는 지원 벡터 머신(support vector machine) 또는 신경망을 사용함으로써 이러한 오디오 특징을 프로세싱하기 위해 분류 윈도우(classifying window)를 사용할 수 있다. 일부 구현 예에서, 핫워더(124)는 핫워드 신뢰 점수를 결정하기 위해 음성 인식을 수행하지 않는다. 핫 워더(124)는 핫워드 신뢰도 점수(스코어)가 핫워드 신뢰도 점수 임계치를 만족하면 오디오가 핫워드를 포함한다고 결정한다. 예를 들어, 핫워더(124)는 핫워드 신뢰도 점수가 0.8이고 그리고 핫워드 신뢰도 점수 임계치가 0.7인 경우, 발화(108)에 대응하는 오디오가 핫워드(110)를 포함한다고 결정한다. 핫 워더(126)는 핫워더(124)와 유사하게 기능할 수 있다.

컴퓨팅 장치(102 및 104)는 각각 오디오 워터마크 식별자(128 및 130)를 각각 포함한다. 오디오 워터마크 식별자(128 및 130)는 각각 마이크로폰을 통해 수신된 및/또는 버퍼에 저장된 오디오를 프로세싱하고 그리고 오디오에 포함된 오디오 워터마크를 식별하도록 구성된다. 오디오 워터마크 식별자들(128 및 130)은 각각 워터마크들의 확산 스펙트럼 및 심리음향학적 형성 유형들(psychacoustic shaping types)을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역과 겹치는 주파수 대역에 위치할 수 있다. 사람은 이러한 유형의 워터마크를 노이즈로 인식할 수 있다. 오디오 워터마크 식별자들(128 및 130)은 또한 각각 고주파수 워터마크들을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역을 초과하는 주파수 대역에 위치할 수 있다. 고주파수 워터마크의 주파수 대역은 사람의 청력의 임계치를 초과할 수 있다. 오디오 워터마크 식별자들(128 및 130)은 또한 각각 저주파수 워터마크들을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역보다 낮은 주파수 대역에 위치할 수 있다. 저주파 워터마크의 주파수 대역은 사람의 청력의 임계치보다 낮을 수 있다. 일부 구현 예에서, 오디오 워터마크 식별자(128 및 130)는 각각의 핫워더(124 및 126)가 핫워드를 검출하는 것에 응답하여 오디오를 프로세싱한다.

오디오 워터마크 식별자들(128 및 130)은 각각 오디오 워터마크와 주(primary) 오디오를 분리하도록 구성될 수 있다. 주 오디오는 오디오 워터마크가 추가된 오디오 부분일 수 있다. 예를 들어, 주 오디오는 워터마크(116)없이 "Ok computer, what’s in a nugget?"에 대응하는 오디오를 포함하는 가청 부분(114)을 포함할 수 있다. 오디오 워터마크 식별자(128)는 컴퓨팅 장치(102)의 마이크로폰을 통해 수신된 오디오(118)를 주 오디오(132)와 오디오 워터마크(134)로 분리한다. 유사하게, 오디오 워터마크 식별자(130)는 컴퓨팅 장치(104)의 마이크로폰을 통해 수신된 오디오(118)를 주 오디오(136)와 오디오 워터마크(138)로 분리한다. 일부 구현 예에서, 오디오 워터마크 및 주 오디오는 시간 영역(time domain)에서 중첩될 수 있다.

일부 구현 예에서, 오디오 워터마크 식별자(128 및 130)는 오디오 워터마크의 해당 비트스트림을 식별하기 위해 오디오 워터마크(134 및 138)를 각각 프로세싱할 수 있다. 예를 들어, 오디오 워터마크 식별자(128)는 오디오 워터마크(134)를 프로세싱하고 그리고 오디오 워터마크(134)가 0101101110101의 비트스트림에 대응한다고 결정할 수 있다. 오디오 워터마크 식별자(130)는 오디오 워터마크(138)에 대해 유사한 프로세싱을 수행할 수 있다.

오디오 워터마크 비교기(140 및 144) 각각은 오디오 워터마크(134 및 138)를 오디오 워터마크(142 및 146)와 각각 비교한다. 예를 들어, 오디오 워터마크 비교기(140)는 워터마크(134)의 주파수 패턴 또는 비트스트림을 오디오 워터마크(142)와 비교할 수 있다. 오디오 워터마크 비교기(140)는 오디오 워터마크(134)가 너겟 월드의 오디오 워터마크와 매칭(일치)하는 것으로 결정할 수 있다. 오디오 워터마크 비교기(144)는 유사한 결정을 할 수 있다.

오디오 워터마크들(142 및 146)은 다양한 엔티티들이 미디어 콘텐츠의 오디오에 임베딩되는 오디오 워터마크, 또는 핫워드를 포함하는 다른 분산 또는 브로드 캐스트 오디오를 포함할 수 있다. 너겟 월드(Nugget World)는 오디오(108)에 워터마크를 포함하여 특정 장치만 핫워드에 응답하고, 오디오에 대해 음성 인식을 수행하고, 쿼리(112)를 실행하도록 보장할 수 있다. 너겟 월드는 장치들이 오디오 워터마크(116)를 갖는 핫워드에 응답해야 하는 경우에 대한 명령어들을 함께 오디오 워터마크(142 및 146)에 포함시키기 위해 오디오 워터마크(116)를 제공할 수 있다. 예를 들어, 너겟 월드는 오디오 워터마크(116)를 갖는 핫워드에 응답하기 위해 너겟 월드 레스토랑에 위치한 너겟 월드 사용자 식별자를 갖는 임의의 장치를 위해 오디오 워터마크(142 및 146)에 명령어들을 포함할 수 있다. 일부 구현들에서, 오디오 워터마크들(142 및 146)은 컴퓨팅 장치들(102 및 104)에 저장되고 그리고 주기적으로, 예를 들어 하루에 한 번 업데이트된다. 일부 구현예들에서, 오디오 워터마크들(142 또는 146), 오디오 워터 마크 식별자들(128 및 130), 및/또는 오디오 워터 마크 비교기들(140 및 144)은 원격 서버에 위치될 수 있다. 이 예에서, 컴퓨팅 장치(102 또는 104)는 네트워크를 통해 원격 서버와 통신할 수 있다.

컴퓨팅 장치(102)는 오디오 워터마크(134)를 추출하고 그리고 오디오 워터마크(134)를 너겟 월드 워터마크와 매칭시킨다. 너겟 월드 워터마크에 대한 오디오 워터마크들(142)의 명령어들에 기초하여, 컴퓨팅 장치(102)는 주 오디오(132)에 대한 음성 인식을 수행하고 그리고 해당 전사(transcription)에 포함된 임의의 쿼리들 또는 명령들을 실행할 수 있다. 상기 명령어들은 음성 인식을 수행할지 여부를 결정하기 위해 컴퓨팅 장치(102)가 따라야 할 규칙들의 세트를 포함할 수 있다.

컴퓨팅 장치(102)는 위치 검출기(156)를 포함한다. 위치 검출기(156)는 컴퓨팅 장치의 위치를 반영하는 지리적 위치 데이터를 생성할 수 있다. 위치 검출기(156)는 임의의 지리적 위치 기술, 예컨대 GPS, 삼각 측량법 및/또는 임의의 다른 유사한 위치 기술을 사용할 수 있다. 일부 구현 예에서, 위치 검출기(156)는 다양한 관심 지점의 위치를 나타내는 지도 또는 위치 데이터에 액세스할 수 있다. 위치 검출기(156)는 컴퓨팅 장치가 위치하는 관심 지점을 추가로 식별할 수 있다. 예를 들어, 위치 검출기(156)는 컴퓨팅 장치(102)가 너겟 월드에 위치하는 것으로 결정할 수 있다.

컴퓨팅 장치(102)는 장치 식별자(158)를 포함한다. 장치 식별자(158)는 컴퓨팅 장치(102)에 대한 장치의 유형을 식별하는 장치 식별자(Phone)(160)를 포함한다. 장치 아이덴티티(identity)(160)는 데스크톱 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러폰, 스마트폰, 뮤직플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커 및 홈 어시스턴트일 수 있으며, 또는 임의의 다른 적절한 컴퓨팅 장치일 수 있다. 예를 들어, 컴퓨팅 장치(102)의 장치 아이덴티티(160)는 전화기이다.

컴퓨팅 장치(102)는 사용자 식별자(162)를 포함한다. 사용자 식별자(162)는 컴퓨팅 장치(102)에 대한 사용자를 식별하는 사용자 아이덴티티(164)를 포함한다. 사용자 아이덴티티(164)는 이메일 주소, 전화번호, 또는 임의의 다른 유사한 유형의 고유 사용자 식별자일 수 있다. 예를 들어, 컴퓨팅 장치(102)의 사용자 아이덴티티(164)는 "user@example.com"이다. 사용자 식별자(162)는 사용자(154)에 의해 입력될 수 있다.

컴퓨팅 장치(102)는 사용자 설정정보(settings)(152)를 포함한다. 사용자 설정정보(152)는 사용자(154)에 의해 제공될 수 있으며, 컴퓨팅 장치(102)가 어떻게 핫워드에 응답해야 하는지에 대한 추가적인 규칙을 포함할 수 있다. 예를 들어, 사용자 설정정보(152)는 컴퓨팅 장치(102)가 집에서 오디오 워터마크를 포함하는 핫워드를 수신하지 않으면 컴퓨팅 장치(102)가 오디오 워터마크를 포함하는 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 다른 예로서, 사용자 설정정보(152)는 컴퓨팅 장치(102)가 치킨 월드(Chicken World)와 같은 특정 엔티티(예를 들어, 미디어 콘텐츠의 소유자 또는 제작자)에 대응하는 오디오 워터마크를 포함하는 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 일부 구현 예에서, 사용자(154)는 컴퓨팅 장치(102)가 특정 엔티티의 워터마크를 갖는 핫워드에 응답하는 것을 허용하는 것에 동의할 수 있다.

도 1에 도시된 바와 같이, 음성 인식기(166)는 음성 인식기 상태(168)에 의해 지시된 바와 같이 비활성 상태로 남는다. 컴퓨팅 장치(102)는 오디오 워터마크에 저장된 바와 같은 오디오 워터마크(134)에 대응하는 명령어들을 장치 위치, 사용자 설정정보(152), 장치 아이덴티티(160) 및 사용자 아이덴티티(164)에 적용하여 음성 인식기 상태(168)를 비활성으로 설정한다. 예를 들어, 오디오 워터마크(134)에 대응하는 명령어들은, 사용자 아이덴티티(164)가 너겟 월드 식별자이고 그리고 장치가 너겟 월드 레스토랑에 위치하는 경우 음성 인식기 상태(168)를 활성으로 설정하는 것일 수 있다. 컴퓨팅 장치(102)의 경우, 사용자 아이덴티티(164)는 너겟 월드 식별자가 아니다. 따라서, 음성 인식기 상태(168)는 비활성이다.

일부 구현 예에서, 컴퓨팅 장치(102)의 사용자 인터페이스 생성기(148)는 컴퓨팅 장치의 디스플레이에 그래픽 인터페이스를 위한 데이터를 제공할 수 있다. 상기 그래픽 인터페이스는 컴퓨팅 장치가 프로세스 또는 동작을 수행하는 동안, 또는 컴퓨팅 장치가 프로세스 또는 동작을 수행한 후에, 컴퓨팅 장치(102)의 프로세스 또는 동작을 나타낼 수 있다. 예를 들어, 사용자 인터페이스 생성기(148)는 컴퓨팅 장치(102)가 수신된 오디오를 프로세싱하고 있음을 나타내고, 컴퓨팅 장치(102)가 오디오 워터마크(134), 음성 인식기 상태(168) 및/또는 식별된 오디오 워터마크(134)의 속성 및 규칙을 식별하고 있음을 나타내는 인터페이스를 디스플레이할 수 있다.

일부 구현 예에서, 사용자 인터페이스 생성기(148)는 음성 인식기 상태(168)가 비활성임을 나타내는 인터페이스를 생성할 수 있다. 상기 인터페이스는 또한 음성 인식기 상태(168)를 무시할 수 있는 사용자 선택 가능 옵션을 포함할 수 있다. 예를 들어, 사용자(154)는 음성 인식기 상태(168)를 활성으로 설정하기 위한 옵션을 선택할 수 있다. “what’s in a nugget”하는 쿼리를 들었을 때, 사용자(154)는 호기심을 가질 수 있고 컴퓨팅 장치(102)가 쿼리(112)를 프로세싱하고 출력을 제공할 것을 요청할 수 있다.

일부 구현 예에서, 컴퓨팅 장치(102)는 오디오 워터마크 로그(170)를 포함 할 수 있다. 오디오 워터마크 로그(170)는 컴퓨팅 장치(102)가 각 오디오 워터마크를 수신한 횟수를 나타내는 데이터를 포함할 수 있다. 예를 들어, 컴퓨팅 장치(102)가 오디오 워터마크(134)를 수신하고 식별할 때마다, 컴퓨팅 장치(102)는 오디오 워터마크(134)의 수신을 나타내는 데이터를 오디오 워터마크 로그(170)에 저장할 수 있다. 상기 데이터에는 타임스탬프, 장치 위치, 모든 관련 사용자 설정정보, 사용자 식별자 및 기타 유사한 정보가 포함될 수 있다. 일부 구현 예에서, 컴퓨팅 장치(102)는 오디오 워터마크를 수신하는 상이한 컴퓨팅 장치로부터의 오디오 워터마크 로그들을 결합하는 서버상의 집계(aggregate) 오디오 워터마크 로그에 오디오 워터마크 로그(170)의 데이터를 제공할 수 있다. 집계 오디오 워터마크 로그는 수신 컴퓨팅 장치에 대한 사용자 아이덴티티, 장치 식별자 및 오디오 워터마크 로그(170)에 저장된 데이터를 포함할 수 있다. 일부 구현 예에서, 집계 오디오 워터마크 로그 및 오디오 워터마크 로그(170) 내의 데이터는 동기화될 수 있다. 이 예에서, 오디오 워터마크 로그(170)는 상이한 장치들로부터의 추가적인 로그 데이터뿐만 아니라 상이한 장치, 상이한 사용자, 위치 정보, 타임스탬프 데이터 및 다른 관련 정보를 식별하는 데이터를 포함할 수 있다.

일부 구현 예에서, 특정 오디오 워터마크에 대한 명령어들은 오디오 워터마크 로그(170)에 저장된 데이터와 관련된 명령어들을 포함할 수 있다. 상기 명령어들은 특정 오디오 워터마크가 표시된 핫워드가 음성 인식기를 활성화해야 하는 특정 횟수와 관련될 수 있다. 예를 들어, 상기 명령어들은 24시간 내에 오디오 워터마크(116)가 음성 인식기(166)를 한 번만 활성화해야 함을 나타낼 수 있다.

일부 구현 예에서, 오디오 장치(106)상의 미디어 콘텐츠의 제작자는 집계 오디오 워터마크 로그에 액세스하여 핫워드(110) 및 해당 오디오 워터마크(116)가 음성 인식기를 활성화할 때마다 관련된 세부 사항을 식별할 수 있다. 일부 구현 예에서, 사용자는 컴퓨팅 장치가 오디오 워터마크 로그를 집계 오디오 워터마크 로그에 업로드하지 않도록 장치의 사용자 설정정보를 통해 표시할 수 있다.

컴퓨팅 장치(104)는 오디오 워터마크(134)를 프로세싱하는 컴퓨팅 장치(102)와 유사한 방식으로 오디오 워터마크(138)를 프로세싱한다. 특히, 컴퓨팅 장치(104)는 오디오 워터마크(138)를 추출하고, 오디오 워터마크(138)를 너겟 월드 워터마크와 매칭시킨다. 너겟 월드 워터마크에 대한 오디오 워터마크(146) 내의 명령어들(명령들)에 기초하여, 컴퓨팅 장치(102)는 주 오디오(136)에 대한 음성 인식을 수행하고 그리고 해당 전사에 포함된 임의의 쿼리 또는 명령을 실행할 수 있다. 명령들은 음성 인식을 수행할지 여부를 결정하기 위해 컴퓨팅 장치(104)가 따라야 할 규칙들의 세트를 포함할 수 있다.

컴퓨팅 장치(104)는 위치 검출기(176)를 포함한다. 위치 검출기(176)는 컴퓨팅 장치의 위치를 반영하는 지리적 위치 데이터를 생성할 수 있다. 위치 검출기(176)는 임의의 지리적 위치 기술, 예를 들어, GPS, 삼각 측량법, 및/또는 임의의 다른 유사한 위치 기술을 사용할 수 있다. 일부 구현 예에서, 위치 검출기(176)는 다양한 관심 지점의 위치를 나타내는 지도 또는 위치 데이터에 액세스할 수 있다. 위치 검출기(176)는 컴퓨팅 장치(104)가 위치하는 관심 지점을 추가로 식별할 수 있다. 예를 들어, 위치 검출기(176)는 컴퓨팅 장치(104)가 너겟 월드에 위치하는 것으로 결정할 수 있다.

컴퓨팅 장치(104)는 장치 식별자(178)를 포함한다. 장치 식별자(178)는 컴퓨팅 장치(104)에 대한 장치의 유형을 식별하는 장치 식별자(Desktop)(180)를 포함한다. 장치 아이덴티티(180)는 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 휴대 전화, 스마트폰, 뮤직플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커 및 홈 어시스턴트일 수 있으며, 또는 임의의 다른 적절한 컴퓨팅 장치일 수 있다. 예를 들어, 컴퓨팅 장치(104)의 장치 아이덴티티(180)는 데스크톱 컴퓨터이다.

컴퓨팅 장치(104)는 사용자 식별자(182)를 포함한다. 사용자 식별자(182)는 컴퓨팅 장치(104)에 대한 사용자를 식별하는 사용자 아이덴티티(184)를 포함한다. 사용자 아이덴티티(184)는 이메일 주소, 전화번호, 또는 임의의 다른 유사한 유형의 고유한 사용자 식별자일 수 있다. 예를 들어, 컴퓨팅 장치(108)의 사용자 아이덴티티(184)는 "store@nuggetworld.com"이다. 사용자 식별자(182)는 사용자에 의해 입력될 수 있다.

컴퓨팅 장치(104)는 사용자 설정정보(186)를 포함한다. 사용자 설정정보(186)는 사용자에 의해 제공될 수 있고 그리고 컴퓨팅 장치(104)가 어떻게 핫워드에 응답해야 하는지에 대한 추가적인 규칙들을 포함할 수 있다. 예를 들어, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드 레스토랑에 위치하지 않는 한, 컴퓨팅 장치(104)가 오디오 워터마크를 포함하는 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 또 다른 예로서, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드로부터의 오디오 워터마크들로 표시된 것 이외의 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 다른 예로서, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드의 개장 시간 외의 임의 유형의 오디오 워터마크를 갖는 임의의 핫워드에 응답하지 않음을 나타낼 수 있다.

도 1에 도시된 예에서, 음성 인식기(172)는 음성 인식기 상태(174)에 의해 지시된 바와 같이 활성이다. 컴퓨팅 장치(104)는 오디오 워터마크에 저장된 오디오 워터마크(138)에 대응하는 명령들(명령어들))을 장치 위치, 사용자 설정정보(186), 장치 아이덴티티(180) 및 사용자 아이덴티티(184)에 적용하여 음성 인식기 상태(174)를 활성으로 설정한다. 예를 들어, 오디오 워터마크(134)에 대응하는 명령들은 사용자 아이덴티티(184)가 너겟 월드 식별자이고 그리고 장치가 너겟 월드 레스토랑에 위치하는 경우 음성 인식기 상태(174)를 활성으로 설정하는 것일 수 있다. 컴퓨팅 장치(104)에 있어서, 사용자 아이덴티티(184)는 너겟 월드 식별자이고 상기 위치는 너겟 월드이다. 따라서, 음성 인식기 상태(174)는 활성이다.

음성 인식기(172)는 주 음성(136)에 대하여 음성 인식을 수행한다. 음성 인식기(172)는 전사 "what’s in a nugget"를 생성한다. 컴퓨팅 장치(104)는 상기 전사가 쿼리에 대응하는 경우 검색 엔진에 상기 전사를 제공할 수 있다. 컴퓨팅 장치는 전사가 명령에 대응하는 경우 명령을 실행할 수 있다. 도 1의 예에서, 컴퓨팅 장치(104)는 주 오디오(136)의 전사를 검색 엔진에 제공한다. 상기 검색 엔진은 결과를 리턴하고, 컴퓨팅 장치(104)는 예를 들어 컴퓨팅 장치의 스피커일 수 있는 스피커 또는 컴퓨팅 장치에 연결된 헤드폰, 이어폰, 이어버드(earbuds) 등과 같은 개인 스피커를 통해 결과를 출력할 수 있다. 결과를 개인용 스피커를 통해 출력하는 것이 유용할 수 있으며, 예를 들어 정보가 주 오디오의 일부로 출력되는 경우 정보를 들을 수 없는 경우 정보를 사용자에게 제공할 수 있다. 예를 들어, 너겟 월드의 예에서, 컴퓨팅 장치(104)는 "a nugget contains chicken(너겟이 닭고기를 포함한다)"라는 오디오(190)를 출력할 수 있다. 일부 구현 예에서, 사용자 인터페이스 생성기(150)는 컴퓨팅 장치(104)의 디스플레이 상에 검색 결과를 디스플레이할 수 있다. 이 정보가 청각 장애(impaired hearing)가 있는 사용자와 같이 정보가 주 오디오의 일부로 출력되거나 컴퓨터 장치와 연결된 스피커를 통해 출력되는 경우 정보를 듣지 못할 수도 있는 사용자에게 정보를 제공하는 데 특히 유용할 수 있다.

일부 구현 예에서, 사용자 인터페이스 생성기(150)는 추가적인 인터페이스를 제공할 수 있다. 그래픽 인터페이스는 컴퓨팅 장치(104)가 프로세스 또는 동작을 수행하는 동안, 또는 컴퓨팅 장치(104)가 프로세스 또는 동작을 수행하기 전 또는 이후에, 컴퓨팅 장치(104)의 프로세스 또는 동작을 나타낼 수 있다. 예를 들어, 사용자 인터페이스 생성기(150)는 컴퓨팅 장치(104)가 수신된 오디오를 프로세싱하고 있음을 나타내고, 컴퓨팅 장치(104)가 오디오 워터마크(138), 음성 인식기 상태(174) 및/또는 식별된 오디오 워터마크(138)를 식별하고 있음을 나타내는 인터페이스를 디스플레이할 수 있다.

일부 구현 예에서, 사용자 인터페이스 생성기(150)는 음성 인식기 상태(174)가 활성임을 나타내는 인터페이스를 생성할 수 있다. 상기 인터페이스는 또한 음성 인식기 상태(174)를 무시할 수 있는 사용자 선택 가능 옵션을 포함할 수 있다. 예를 들어, 사용자는 상기 전사(transcription)와 관련된 임의의 동작을 억제하도록 음성 인식기 상태(174)를 설정하는 옵션을 선택할 수 있다. 일부 구현 예에서, 사용자 인터페이스 생성기(150)는 최근에 수신된 오버라이드(override) 및 컴퓨팅 장치(104)의 현재 특성에 기초하여 사용자 설정정보(186)를 업데이트하기 위한 인터페이스를 생성할 수 있다. 사용자 인터페이스 생성기(148)는 또한 오버라이드 명령을 수신한 후에 유사한 인터페이스를 제공할 수 있다.

일부 구현 예에서, 컴퓨팅 장치(104)는 오디오 워터마크 로그(188)를 포함할 수 있다. 오디오 워터마크 로그(188)는 컴퓨팅 장치(104)에 의해 수신된 오디오 워터마크에 기초하여 오디오 워터마크 로그(170)와 유사한 데이터를 저장할 수 있다. 오디오 워터마크 로그(188)는 오디오 워터마크 로그(170)와 유사한 방식으로 집계(aggregate) 오디오 워터마크 로그와 상호 작용할 수 있다.

일부 구현 예에서, 컴퓨팅 장치들(102 및 104)은 오디오 워터마크들(142 및 146)에 저장된 규칙들과 독립적으로 주 오디오(134, 138)에 대한 음성 인식을 각각 수행할 수 있다. 오디오 워터마크들(142 및 146)은 전사에 부분적으로 기초하여 주 오디오의 동작들을 수행하는 것과 관련된 규칙들을 포함할 수 있다.

도 2는 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 프로세스(200)를 도시한다. 일반적으로, 프로세스(200)는 핫워드 및 워터마크를 포함하는 오디오에 기초하여 미디어 콘텐츠에 대응하는 오디오에 대한 음성 인식을 수행한다. 프로세스(200)는 하나 이상의 컴퓨터, 예를 들어 도 1에 도시된 컴퓨팅 장치(102 또는 104)를 포함하는 컴퓨터 시스템에 의해 수행되는 것으로 설명될 것이다.

시스템은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신한다(210). 일부 구현 예에서, 오디오는 시스템의 마이크로폰을 통해 수신될 수 있다. 오디오는 텔레비전 또는 라디오에서 재생되는 미디어 콘텐츠의 오디오에 해당할 수 있다.

상기 시스템은 오디오가 오디오 워터마크 및 미리정의된 핫워드의 발화를 포함한다고 결정한다(220). 일부 구현 예에서, 오디오 워터마크는 오디오의 비가청(inaudible) 부분이다. 예를 들어, 오디오 워터마크는 인간 청력을 초과 또는 인간 청력 이하에 있는 주파수 대역에 위치할 수 있다. 일부 구현 예에서, 오디오 워터마크는 들리지만 잡음과 유사하게 들린다. 일부 구현 예에서, 오디오 워터마크는 미리정의된 핫워드의 오디오와 중첩된다. 일부 구현 예에서, 시스템은 오디오가 미리정의된 핫 워드를 포함한다고 결정한다. 그 결정에 응답하여, 시스템은 오디오가 오디오 워터마크를 포함하는지를 결정하기 위해 오디오를 프로세싱한다.

시스템은 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교한다(230). 일부 구현 예에서, 시스템은 오디오 워터마크를 오디오 워터마크들의 데이터베이스와 비교할 수 있다. 상기 데이터베이스는 시스템 또는 다른 컴퓨팅 장치에 저장될 수 있다. 시스템은 시간 및/또는 주파수 영역에서 오디오 워터마크의 디지털 표현 또는 오디오 워터마크의 아날로그 표현을 비교할 수 있다. 시스템은 매칭하는 오디오 워터마크를 식별하고, 그 식별된 오디오 워터마크에 대해 데이터베이스에 지정된 규칙에 따라 오디오를 프로세싱할 수 있다. 일부 구현 예에서, 시스템은 오디오 워터마크의 소스 또는 소유자를 식별할 수 있다. 예를 들어 소스 또는 소유자는 엔티티(너겟 월드)가 될 수 있다. 시스템은, 시스템이 너겟 월드 오디오 워터마크가 있는 핫워드를 수신했음을 나타내도록 로그 파일을 업데이트한다.

오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 것에 기초한 시스템은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정한다(240). 식별된 오디오 워터마크, 오디오 워터마크의 소스 및 시스템의 컨텍스트에 대해 데이터베이스에 지정된 규칙에 기초하여, 시스템은 미리정의된 핫워드에 이어지는 오디오에 대해 음성 인식을 수행할지 여부를 결정한다. 시스템의 컨텍스트는 시스템의 유형, 시스템의 위치 및 모든 사용자 설정정보의 조합에 기초할 수 있다. 예를 들어, 상기 규칙은 사용자가 거주하는 아파트의 관리 회사로부터 특정 워터마크가 있는 핫워드를 수신하면 사용자의 집에 있는 휴대 전화기가 오디오에 대한 음성 인식을 수행하도록 지정한다. 일부 구현 예에서, 시스템은, 오디오 워터마크를 하나 이상의 워터마크들과 비교하는 것에 기초하여 또는 오디오 워터마크를 분석하는 것에 기초하여, 미리정의된 핫워드에 이어지는 오디오의 부분에 자연어 프로세싱을 수행할지 여부를 결정한다. 상기 시스템은 음성 인식에 부가하여 또는 음성 인식 대신에 자연어 프로세싱을 수행할 수 있다.

시스템이 음성 인식을 수행하기로 결정한 경우, 시스템은 핫워드에 이어지는 오디오의 전사를 생성한다. 시스템은 아파트 건물 회의 일정 예약을 추가하는 등 전사에 포함된 명령을 실행하거나 검색 엔진에 쿼리를 제출한다. 시스템은 검색 결과를 시스템의 스피커 또는 시스템의 디스플레이 또는 둘 다에 출력할 수 있다.

시스템이 음성 인식을 수행하지 않기로 결정한 경우, 시스템은 절전 모드, 대기 모드 또는 저에너지 모드를 유지할 수 있다. 시스템이 오디오를 프로세싱하는 동안 슬립 모드, 대기 모드 또는 저에너지 모드에 있을 수 있으며, 시스템이 오디오에 대해 음성 인식을 수행하지 않으면 절전 모드, 대기 모드 또는 저에너지 모드로 유지될 수 있다. 일부 구현 예에서, 사용자(154)는 컴퓨팅 장치(102)가 오디오(118)를 수신하는 동안 컴퓨팅 장치(102)를 사용할 수 있다. 예를 들어, 사용자(154)는 음악을 듣거나 사진 애플리케이션을 볼 수 있다. 이 경우, 핫워드 및 오디오 워터마크 프로세싱이 백그라운드에서 발생할 수 있으며, 사용자의 활동이 방해받지 않을 수 있다. 일부 구현 예에서, 오디오는 오디오 워터마크를 포함하지 않을 수 있다. 이 경우, 시스템은 핫워드 이후의 오디오에 대해 음성 인식을 수행하고, 오디오에 포함된 명령 또는 쿼리를 실행할 수 있다.

일부 구현 예에서, 시스템은 오디오에 대한 미디어 콘텐츠의 유형을 결정할 수 있다. 시스템은 상기 오디오 워터마크를 오디오 워터마크 데이터베이스에 포함된 오디오 워터마크들과 비교할 수 있다. 시스템은 오디오 워터마크 데이터베이스에서 매칭하는 오디오 워터마크를 식별할 수 있으며, 매칭하는 오디오 워터마크는 특정 오디오 워터마크에 대한 미디어 콘텐츠의 유형을 식별할 수 있다. 시스템은 식별된 유형의 미디어 컨텐츠에 대한 규칙을 적용할 수 있다. 예를 들어, 오디오 워터마크 데이터베이스는 오디오 워터마크가 판매 미디어, 방향성 미디어(directional media), 상업적 미디어, 정치적 미디어 또는 임의의 다른 유형의 미디어에 포함되어 있음을 나타낼 수 있다. 이 경우, 시스템은 미디어 유형에 대한 일반적인 규칙을 따를 수 있습니다. 예를 들어, 이 규칙은 시스템이 집에 있을 때 상업용 미디어에 대해서만 음성 인식을 수행하는 것일 수 있다. 상기 규칙은 또한 수신된 오디오 워터마크에 특정한 규칙일 수 있다. 일부 구현 예에서, 시스템은 또한 오디오 워터마크 로그에 미디어 콘텐츠의 유형을 기록할 수 있다.

일부 구현 예에서, 시스템은 오디오 워터마크를 분석할 수 있다. 시스템은 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교하는 대신에 또는 이와 조합하여 오디오 워터마크를 분석할 수 있다. 오디오 워터마크는 동작(액션), 식별자, 규칙 또는 다른 유사한 데이터를 인코딩할 수 있다. 시스템은 오디오 워터마크를 디코딩하고, 그 디코딩된 오디오 워터마크에 따라 오디오를 프로세싱할 수 있다. 오디오 워터마크는 헤더 및 페이로드로서 인코딩될 수 있다. 시스템은 모든 또는 거의 모든 오디오 워터마크에 공통이거나, 오디오 워터마크의 특정 그룹을 식별할 수 있는 헤더를 식별할 수 있다. 페이로드는 헤더를 따라가며 동작, 식별자, 규칙 또는 다른 유사한 데이터를 인코딩할 수 있다.

시스템은 오디오 워터마크에 인코딩된 규칙을 적용할 수 있다. 예를 들어, 시스템이 시스템에 저장된 사용자 식별자에 해당하는 위치에 있는 스마트 스피커인 경우, 규칙은 시스템이 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하는 것일 수 있다. 이 경우, 시스템은 오디오 워터마크 데이터베이스에 액세스할 필요가 없을 수 있다. 일부 구현 예에서, 시스템은 오디오 워터마크에 인코딩된 규칙을 오디오 워터마크 데이터베이스에 추가할 수 있다.

시스템은 오디오 워터마크 데이터베이스와 함께 오디오 워터마크에 인코딩된 데이터를 사용할 수 있다. 예를 들어, 오디오 워터마크에 인코딩된 데이터는 오디오가 정치적 미디어 콘텐츠임을 나타낼 수 있다. 시스템은 오디오 워터마크에 대응하고, 시스템이 사용자의 집에 위치할 때 정치적 미디어 콘텐츠 워터마크 또는 상업적 미디어 콘텐츠 워터마크를 포함하는 오디오에 대해 음성 인식을 수행하도록 지정하는 규칙에 액세스할 수 있다. 이 예에서, 오디오 워터마크는 오디오 워터마크 데이터베이스에서 해당 오디오 워터마크를 식별하기 위해 시스템이 사용할 수 있는 헤더 또는 다른 부분을 포함할 수 있다. 상기 페이로드는 미디어 콘텐츠의 유형, 또는 동작, 식별자 또는 규칙과 같은 다른 데이터를 인코딩할 수 있다.

도 4는 본 명세서에 기술된 기법들을 구현하는데 사용될 수 있는 컴퓨팅 장치(300)와 모바일 컴퓨팅 장치(350)의 예시를 도시한다. 컴퓨팅 장치(300)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 모바일 컴퓨팅 장치(350)는 개인 휴대 정보 단말기, 셀룰러 전화기, 스마트폰 및 다른 유사한 컴퓨팅 장치들과 같은 다양한 형태의 모바일 장치들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 제한하는 것을 의미하지는 않는다.

컴퓨팅 장치(300)는 프로세서(302), 메모리(304), 저장 장치(306), 메모리(304) 및 다수의 고속 확장 포트(310)에 연결되는 고속 인터페이스(308) 및 저속 확장 포트(314) 및 저장 장치(306)에 연결되는 저속 인터페이스(312)를 포함한다. 프로세서(302), 메모리(304), 저장 장치(306), 고속 인터페이스(308) 및 저속 인터페이스(312) 각각은 다양한 버스들을 사용하여 상호연결되며, 공통 마더보드에 또는 적절한 다른 방식으로 장착된다. 프로세서(302)는 메모리(304) 또는 저장 장치(306)에 저장된 명령어들을 포함하는, 컴퓨팅 장치(300) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(308)에 연결된 디스플레이(316)와 같은 외부 입/출력 장치에 GUI에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의(복수의) 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 장치들은 필요한 동작의 부분들을 제공하는 각 장치와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).

메모리(304)는 컴퓨팅 장치(300) 내에 정보를 저장한다. 일부 구현예에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 일부 구현예에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(304)는 자기 또는 광학 디스크와 같은 컴퓨터 판독가능 매체의 다른 형태 일 수 있다.

저장 장치(306)는 컴퓨팅 장치(300)에 대한 대형 저장소를 제공할 수 있다. 일부 구현예에서, 저장 장치(306)는 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 장치, 또는 저장 영역 네트워크 또는 다른 구성의 장치를 포함하는 장치의 어레이와 같은 컴퓨터 판독가능 매체이거나 컴퓨터 판독가능 매체를 포함할 수 있다. 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은 하나 이상의 프로세싱 장치들(예를 들어, 프로세서(302))에 의해 실행될 때, 상술한 것과 같은 하나 이상의 방법들을 수행한다. 명령어들은 또한 컴퓨터 또는 기계 판독가능 매체(예를 들어, 메모리(304), 저장 장치(306) 또는 프로세서(302)상의 메모리)와 같은 하나 이상의 저장 장치들에 의해 저장될 수 있다.

고속 인터페이스(308)는 컴퓨팅 장치(300)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 인터페이스(312)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(310)에 연결된다. 구현예에서, 저속 인터페이스(312)는 저장 장치(306) 및 저속 확장 포트(314)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(314)는 키보드, 포인팅 장치, 스캐너와 같은 하나 이상의 입력/출력 장치 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 장치에 결합될 수 있다.

컴퓨팅 장치(300)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 표준 서버(320)로서 또는 그러한 서버들의 그룹에서 다수로 구현될 수 있다. 또한, 랩톱 컴퓨터(322)와 같은 퍼스널 컴퓨터에서 구현될 수 있다. 또한, 랙 서버 시스템(324)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 장치(300)로부터의 컴포넌트들은 모바일 컴퓨팅 장치(350)와 같은 모바일 장치(도시되지 않음) 내의 다른 컴포넌트들과 결합될 수 있다. 상기 장치들 각각은 컴퓨팅 장치(300), 모바일 컴퓨팅 장치(350) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치들로 구성될 수 있다.

모바일 컴퓨팅 장치(350)는 다른 여러 컴포넌트들 중에서도 특히, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입/출력 장치, 통신 인터페이스(366) 및 송수신기(368)를 포함한다. 모바일 장치(350)에는 또한 추가적 저장을 제공하기 위해 마이크로 드라이브 또는 다른 장치와 같은 저장 장치가 제공될 수 있다. 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366) 및 트랜스시버(368) 각각은 다양한 버스들을 사용하여 상호 연결되고, 몇몇 컴포넌트들은 공통 마더보드 상에 또는 적절한 다른 방식으로 장착될 수 있다.

프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하는 모바일 컴퓨팅 장치(350) 내의 명령어들을 실행할 수 있다. 프로세서(352)는 별개의 그리고 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로서 구현될 수 있다. 프로세서(352)는 예를 들어 사용자 인터페이스들, 모바일 컴퓨팅 장치(350)에 의해 실행되는 애플리케이션 및 모바일 컴퓨팅 장치(350)에 의한 무선 통신과 같은 모바일 컴퓨팅 장치(350)의 다른 컴포넌트들의 조정을 제공할 수 있다.

프로세서(352)는 제어 인터페이스(358) 및 디스플레이(356)에 연결된 디스플레이 인터페이스(356)를 통해 사용자와 통신할 수 있다. 디스플레이(354)는 예를 들어, TFT LCD(박막 트랜지스터 액정 디스플레이) 또는 OLED(유기 발광 다이오드) 디스플레이 또는 다른 적절한 디스플레이 기술을 포함할 수 있다. 디스플레이 인터페이스(356)는 사용자에게 그래픽 및 다른 정보를 제공하기 위해 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 사용자로부터 명령을 수신하고, 프로세서(352)에 제출하기 위해 그들을 변환할 수 있다. 추가로, 외부 인터페이스(362)는 프로세서(352)와의 통신에 제공되어 다른 장치들과 모바일 컴퓨팅 장치(350)의 근거리 통신을 가능하게할 수 있다. 외부 인터페이스(362)는 예를 들면, 일부 구현예들에서는 유선 통신을 위해 또는 다른 구현예들에서는 무선 통신을 위해 제공될 수 있고, 다수의 인터페이스들도 사용될 수 있다.

메모리(364)는 모바일 컴퓨팅 장치(350) 내에 정보를 저장한다. 메모리(364)는 컴퓨터 판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 또한 확장 메모리(374)는 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(372)를 통해 모바일 컴퓨팅 장치(350)에 제공되고 접속될 수 있다. 상기 확장 메모리(374)는 모바일 컴퓨팅 장치(350)에 대해 추가 저장 공간을 제공할 수 있거나, 또는 애플리케이션들 또는 모바일 컴퓨팅 장치(350)에 대한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(374)는 전술한 프로세스들을 수행하거나 보충하는 명령어들을 포함할 수 있으며, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(374)는 모바일 컴퓨팅 장치(350)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 장치(350)의 보안 사용을 허용하는 명령어들로 프로그래밍될 수 있다. 또한, 보안 애플리케이션들은 SIMM 카드 상의 식별 정보를 해킹할 수 없는 방식으로 배치하는 것과 같이, SIMM 카드들을 통해 추가 정보와 함께 제공될 수 있다.

메모리는 예를 들어, 후술되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리(non-volatile random access memory)를 포함할 수 있다. 일부 구현예들에서, 명령어들은 정보 캐리어에 저장되어, 하나 이상의 프로세싱 장치들(예를 들어, 프로세서(352))에 의해 실행될 때, 상술한 것과 같은 하나 이상의 방법들을 수행한다. 명령어들은 또한 하나 이상의 컴퓨터 또는 기계 판독가능 매체(예를 들어, 메모리(364), 확장 메모리(374) 또는 프로세서(352)상의 메모리)와 같은 하나 이상의 저장 장치들에 의해 저장될 수 있다. 일부 구현들에서, 명령어들은 예를 들어 트랜스시버(368) 또는 외부 인터페이스(362)를 통해 전파된 신호로 수신될 수 있다.

모바일 컴퓨팅 장치(350)는 필요에 따라 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(366)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(366)는 GSM 음성 호출(이동 통신용 글로벌 시스템), SMS(단문 메시지 서비스), EMS(확장 메시징 서비스) 또는 MMS 메시징(멀티미디어 메시징 서비스), CDMA(코드 분할 다중 접속), TDMA(시분할 다중 접속), PDC(개인 디지털 셀룰러), WCDMA(광대역 코드 분할 다중 접속), CDMA2000 또는 GPRS(일반 패킷 무선 서비스)와 같은 다양한 모드 또는 프로토콜 하에서 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선 주파수를 사용하는 트랜스시버(368)를 통해 발생될 수 있다. 추가로, 블루투스, Wi-Fi 또는 다른 트랜시버(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생될 수 있다. 추가로, GPS(Global Positioning System) 수신기 모듈(370)은 모바일 컴퓨팅 장치(350)상에서 실행되는 애플리케이션들에 의해 적절히 사용될 수 있는 추가적인 내비게이션 및 위치 관련 무선 데이터를 모바일 컴퓨팅 장치(350)에 제공할 수 있다.

모바일 컴퓨팅 장치(350)는 또한 사용자로부터 발화된 정보를 수신하고 그것을 이용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(360)을 사용하여 청각적으로 통신할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어 모바일 컴퓨팅 장치(350)의 핸드셋 내의 스피커를 통하는 것과 같이, 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 보이스 전화 콜들로부터의 사운드 포함할 수 있고, 기록된 사운드(예를 들어, 음성 메시지, 음악 파일 등)를 포함할 수 있고, 또한 모바일 컴퓨팅 장치(350)상에서 동작하는 애플리케이션들에 의해 생성된 사운드를 포함할 수 있다.

모바일 컴퓨팅 장치(350)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들면, 그것은 셀룰러 전화(380)로서 구현될 수 있다. 또한 스마트폰(382), 개인 휴대 정보 단말기(PDA), 또는 다른 유사한 모바일 장치의 일부로서 구현될 수 있다.

본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치으로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.

이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 장치 예를 들어, 자기 디스크, 광학 디스크, 메모리, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

사용자와의 인터렉션(상호작용)을 제공하기 위해, 본 명세서에서 기술된 시스템들 및 기법들은 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 명세서에서 기술된 시스템들 및 기법들은 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 시스템들 및 기법들의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.

컴퓨팅 시스템은 사용자들 및 서버들을 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터렉션한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 사용자-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.

비록 일부 구현예들이 상술되었지만, 다른 수정들도 가능하다. 예를 들어, 클라이언트 애플리케이션은 델리게이트(들)에 액세스하는 것으로 기술되지만, 다른 구현예에서는 델리게이트(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은 하나 이상의 프로세서들에 의해 구현되는 다른 애플리케이션에 의해 이용될 수 있다. 추가로, 도면들에 도시된 논리 흐름들은 원하는 결과들을 달성하기 위해 특정한 도시된 순서, 또는 시계열적 순서를 반드시 필요로 하지 않는다. 추가로, 다른 단계들이 제공될 수 있거나, 단계들이 기술된 흐름으로부터 생략될 수 있고, 다른 컴포넌트들이 기술된 시스템에 추가되거나 그로부터 제거될 수 있다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims

컴퓨터로 구현되는 방법으로서,
컴퓨팅 장치에 의해, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 단계;
상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계;
상기 컴퓨팅 장치에 의해, 상기 오디오 워터마크를 분석하는 단계; 그리고
상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 상기 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항에 있어서,
상기 오디오 워터마크를 분석하는 단계는 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교하는 단계를 포함하며, 그리고
미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교하는 것에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
제1항 또는 제2항에 있어서,
상기 오디오 워터마크는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 비가청(inaudible) 부분인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 식별하는 단계를 더 포함하며,
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 소스를 식별하는 단계; 그리고
미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 나타내도록 로그 파일을 업데이트하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 오디오 워터마크는 미리정의된 핫워드의 발화를 포함하는 오디오의 부분에 포함되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 유형을 결정하는 단계를 포함하며,
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 유형에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하기로 결정하는 단계를 포함하며,
상기 방법은,
자동화된 음성 인식기에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 전사(transcription)를 생성하는 단계; 그리고
상기 미리정의된 핫워드에 이어지는 오디오의 전사에 대응하는 액션을 수행하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하지 않기로 결정하는 단계를 포함하며, 상기 방법은,
미디어 콘텐츠의 아이템의 재생에 대응하는 오디오에 대응하는 액션을 억제하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 위치를 결정하는 단계를 포함하며,
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 위치에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 사용자 설정을 결정하는 단계를 더 포함하며,
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 상기 사용자 설정에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계는,
상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 단계; 그리고
상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것에 기초하여, 상기 오디오가 상기 오디오 워터마크를 포함하는 것으로 결정하는 단계를 포함하는 특징으로 하는 컴퓨터로 구현되는 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계는,
상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 단계 그리고
상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정한 후에, 상기 오디오가 상기 오디오 워터마크를 포함하는 것으로 결정하는 단계를 포함하는 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 오디오 워터마크를 분석하는 단계는 오디오 워터마크에 인코딩된 데이터를 추출하는 단계를 포함하며, 그리고
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 오디오 워터마크에 인코딩된 데이터에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 미디어 콘텐츠의 유형을 식별하는 단계; 그리고
미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 나타내도록 로그 파일을 업데이트하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 식별하는 단계를 포함하며,
상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 자연어 프로세싱을 수행할지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
시스템으로서,
하나 이상의 컴퓨터들; 그리고
하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 선행하는 청구항들 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들을 저장하는 하나 이상의 저장 장치를 포함하는 것을 특징으로 하는 시스템.
비-일시적 컴퓨터 판독 가능 매체상에 선택적으로 저장된 컴퓨터 판독 가능 명령어들로서, 상기 컴퓨터 판독 가능 명령어들은,
하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 컴퓨터 판독 가능 명령어들.