KR20190103308A - 기록된 미디어 핫워드 트리거 억제 - Google Patents

기록된 미디어 핫워드 트리거 억제 Download PDF

Info

Publication number
KR20190103308A
KR20190103308A KR1020197022907A KR20197022907A KR20190103308A KR 20190103308 A KR20190103308 A KR 20190103308A KR 1020197022907 A KR1020197022907 A KR 1020197022907A KR 20197022907 A KR20197022907 A KR 20197022907A KR 20190103308 A KR20190103308 A KR 20190103308A
Authority
KR
South Korea
Prior art keywords
audio
computing device
watermark
determining
media content
Prior art date
Application number
KR1020197022907A
Other languages
English (en)
Other versions
KR102296238B1 (ko
Inventor
리카르도 안토니오 가시아
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20190103308A publication Critical patent/KR20190103308A/ko
Application granted granted Critical
Publication of KR102296238B1 publication Critical patent/KR102296238B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

기록된 매체에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 일 양태에서, 방법은 컴퓨팅 장치에 의해 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 동작들을 포함한다. 상기 동작들은 컴퓨팅 장치에 의해 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함하는지를 결정하는 것을 더 포함한다. 상기 동작들은 컴퓨팅 장치에 의해 오디오 워터마크를 분석하는 것을 더 포함한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 것을 더 포함한다.

Description

기록된 미디어 핫워드 트리거 억제
본 명세서는 일반적으로 자동화된 음성 인식에 관한 것이다.
음성 지원 가정 또는 다른 환경의 현실이, 즉 사용자가 쿼리 또는 명령을 크게 소리내어 말할 필요가 있고, 컴퓨터 기반 시스템은 쿼리에 응답하고 및/또는 명령이 수행되도록 하는 환경이 우리에게 있다. 음성 지원 환경(예: 가정, 직장, 학교 등)은 상기 환경의 다양한 방 또는 영역에 분산되어 있는 연결된 마이크로폰 디바이스들의 네트워크를 사용하여 구현될 수 있다. 이러한 마이크로폰들의 네트워크를 통해, 사용자는 자신이나 심지어 근처에 컴퓨터 또는 다른 디바이스를 가질 필요없이 본질적으로 환경의 어느 곳에서나 시스템에 구두로 쿼리할 수 있는 권한을 가진다. 예를 들어, 부엌에서 요리하는 동안, 사용자는 시스템에 "3컵에 몇 밀리리터가 있었나요?"라고 질문할 수 있으며, 이에 응답하여, 시스템으로부터, 예를 들어, 합성된 음성 출력의 형태로 응답을 수신할 수 있다. 또는, 사용자는 "가장 가까운 주유소가 언제 닫습니까?" 또는 집 떠날 준비를 할 때 "나는 오늘 코트를 입어야 합니까?"와 같은 시스템 질문을 할 수 있다.
또한, 사용자는 사용자의 개인 정보와 관련된 시스템의 쿼리 및/또는 명령을 요청할 수 있다. 예를 들어 사용자가 시스템에 "존과의 미팅은 언제입니까?"라고 묻거나 시스템에 "집에 돌아올 때 존에게 전화하라고 해줘"라고 명령할 수 있다.
음성 인식 시스템의 경우, 시스템과 상호 작용하는 사용자의 방식은 주로 배타적이지 않지만 음성 입력을 통해 이루어지도록 구성된다. 결과적으로, 시스템에 지시되지 않은 것을 포함하여 주변 환경에서 이루어진 모든 발화를 잠재적으로 픽업하는 시스템은 소정의 발화가 예를 들어, 환경에 존재하는 개인에게 지시되는 것과는 대조적으로 시스템에 지시될 때 어떤 식으로든 분별력을 가져야 한다. 이를 달성하는 한 가지 방법은 핫워드를 사용하는 것이며, 이 핫워드는 환경 내의 사용자들 간의 동의에 따라 시스템의 주의를 끌기 위해 말한 미리 결정된 단어로 예약된다. 예시적인 환경에서, 시스템의 주의를 끄는 데 사용되는 핫워드는 "오케이 컴퓨터(OK computer)"라는 단어이다. 결과적으로, "OK computer"라는 단어가 말해질 때마다, 마이크로폰에 의해 픽업되어 시스템으로 전달되어 음성 인식 기술을 수행하거나 오디오 기능과 신경망을 사용하여 핫워드가 사용되었는지 여부를 결정하고, 사용되었다면 계속되는 명령 또는 쿼리를 기다린다. 따라서, 시스템으로 향하는 발화는 일반적인 형태 [HOTWORD] [QUERY]를 취하며, 이 예에서 "HOTWORD"는 "OK computer"이고, "QUERY"는 혼자 또는 네트워크를 통해 서버와 연계하여 시스템에서 음성 인식, 구문 분석 및 작동할 수 있는 모든 질문, 명령, 선언(declaration) 또는 기타 요청일 수 있다.
핫워드를 검출하는 것 이외에, 컴퓨팅 장치는 핫워드의 오디오에 내장된 오디오 워터마크를 검출하도록 구성될 수 있다. 오디오 워터마크는 사람에게 들리지 않는 고주파 워터마크 또는 배경 노이즈 또는 정적(static)과 유사한 소리를 내는 워터마크가 될 수 있다. 컴퓨팅 장치는 오디오 워터마크에 따라 핫워드와 다르게 응답하도록 구성될 수 있다. 예를 들어, "OK 컴퓨터, 기차역으로 가는 길을 알려줘"라고 말하는 배우를 포함하는 미디어 콘텐츠의 일부가 생성될 수 있다. 미디어 콘텐츠를 재생하는 텔레비전 부근의 컴퓨팅 장치가 기차역으로 가는 길을 제공하는 것을 방지하기 위해, 미디어 콘텐츠의 제작자는 핫워드와 중첩하는 오디오 워터마크를 포함할 수 있다. 미디어 콘텐츠의 오디오를 검출하는 컴퓨팅 장치는 오디오 워터마크를 추출하고 그 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교할 수 있다. 오디오 워터마크 데이터베이스는 컴퓨팅 장치가 핫워드 및 이 특정 오디오 워터마크에 뒤따르는 오디오 및 다른 오디오 워터마크에 대한 추가 규칙에 대해 음성 인식을 수행해야 하는 경우에 대한 규칙을 포함할 수 있다. 알 수 있는 바와 같이, 여기에 설명된 방법들 및 시스템들 중 적어도 일부는 컴퓨팅 장치가 컴퓨팅 장치의 부근에서 스피커를 통해 출력되는 발언된 발화(utterance)에 언제 응답할지를 선택적으로 결정할 수 있게 한다.
미디어 콘텐츠에 대한 오디오 워터마크에 대한 규칙은 컴퓨팅 장치가 미디어 콘텐츠로부터의 오디오를 추가로 프로세싱하기 전에 만족(충족)시켜야 하는 조건들을 포함할 수 있다. 예시적인 규칙은 컴퓨팅 장치가 현재 길을 제공하지 않고, 시간당 10마일 이상 움직이지 않고, 스마트 스피커이고, 사용자의 집에 위치하는 경우 컴퓨팅 장치가 응답해야 한다는 규칙일 수 있다. 규칙의 또 다른 예는 컴퓨팅 장치가 미디어 콘텐츠의 소유자 또는 제작자와 연관된 구내 내에 있고, 발화가 높은 우선순위임을 워터마크가 나타내는 경우에만 컴퓨팅 장치가 응답해야 한다는 것일 수 있다. 컴퓨팅 장치가 이들 규칙을 만족하면, 컴퓨팅 장치는 핫워드 다음의 부분에 대해 음성 인식을 수행할 수 있다. 전사(transcription)가 "기차역으로 가는 길 알려줘"라면, 연산 장치는 기차역으로 가는 길을 표시하거나 오디오로 제공할 수 있다. 컴퓨팅 장치가 규칙을 만족하지 않으면, 컴퓨팅 장치는 핫워드 다음의 오디오 부분에 대해 음성 인식을 수행하지 않고, 오디오에 응답하여 더 이상의 동작을 수행하지 않는다.
일부 구현 예에서, 오디오 워터마크는 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교하도록 컴퓨팅 장치에 대한 필요성을 제거할 수 있는 데이터를 인코딩할 수 있다. 상기 인코딩된 데이터는 컴퓨팅 장치가 식별자, 액션, 임의의 다른 유사한 데이터, 또는 음성 인식을 수행해야 하는 경우에 대한 규칙을 포함할 수 있다. 일부 구현 예에서, 컴퓨팅 장치는 핫워드 다음의 오디오에 대해 음성 인식을 수행할지 여부를 결정하기 위해 오디오 워터마크 데이터베이스와 함께 인코딩된 데이터를 사용할 수 있다.
본 출원서에 기술된 요지의 혁신적인 양태에 따르면, 기록된 미디어에서 핫워드를 검출할 때 핫 워드 트리거를 억제하는 방법은, 컴퓨팅 장치(디바이스)에 의해, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 동작; 상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 상기 오디오가 오디오 워터마크를 포함한다고 결정하는 동작; 상기 컴퓨팅 장치에 의해, 상기 오디오 워터마크를 분석하는 동작; 그리고 상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫 워드에 이어지는 상기 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작을 포함할 수 있다.
이들 및 다른 구현 예는 각각 선택적으로 하나 이상의 다음 특징을 포함할 수 있다. 오디오 워터마크를 분석하는 동작은 오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 동작을 포함한다. 미리정의된 핫워드 다음(이어지는)의 오디오 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 것에 추가로 기반한다. 오디오 워터마크는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 비가청(inaudible) 부분이다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 식별하는 동작을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스에 더 기초한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 소스를 식별하는 동작; 그리고 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 나타내도록 로그 파일을 업데이트하는 동작을 포함한다.
오디오 워터마크는 미리정의된 핫워드의 발화를 포함하는 오디오의 부분에 포함된다. 상기 동작들은 추가적인 컴퓨팅 장치의 유형을 결정하는 동작을 더 포함한다. 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 유형에 추가적으로 기초한다. 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 일부에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하기로 결정하는 동작을 포함한다. 상기 동작들(액션들)은, 자동화된 음성 인식기에 의해, 미리정의된 핫워드에 이어지는 오디오의 전사(transcription)를 생성하는 동작; 그리고 미리정의된 핫워드에 이어지는 오디오의 전사에 대응하는 동작(액션)을 수행하는 동작을 더 포함한다. 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 일부에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하지 않기로 결정하는 동작을 포함한다. 상기 동작들은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오에 대응하는 동작을 억제하는 동작을 더 포함한다.
상기 동작들은 추가적인 컴퓨팅 장치의 위치를 결정하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 위치에 기반한다. 상기 동작들은 추가적인 컴퓨팅 장치의 사용자 설정을 결정하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 추가적인 컴퓨팅 장치의 사용자 설정을 기반으로 한다. 컴퓨팅 장치에 의해, 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함한다는 것을 결정하는 동작은 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것; 그리고 상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것에 기초하여, 상기 오디오가 상기 오디오 워터마크를 포함한다고 결정하는 것을 포함한다. 컴퓨팅 장치에 의해, 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 동작은 상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것; 그리고 상기 오디오가 미리정의된 핫워드의 발화를 포함한다고 결정한 후에, 상기 오디오가 상기 오디오 워터마크를 포함한다고 결정하는 것을 포함한다.
오디오 워터마크를 분석하는 동작은 오디오 워터마크에 인코딩된 데이터를 추출하는 것을 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 오디오 워터마크에 인코딩된 데이터를 기반으로 한다. 상기 동작들은, 상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 미디어 콘텐츠의 유형을 식별하는 동작; 그리고 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 나타내기 위해 로그 파일을 업데이트하는 동작을 포함한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 식별하는 것을 더 포함한다. 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 동작은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형에 더 기초한다. 상기 동작들은 오디오 워터마크를 분석하는 것에 기초하여, 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 자연어 프로세싱을 수행할지 여부를 결정하는 동작을 더 포함한다.
본 양태의 다른 실시 예는 각각이 방법의 동작을 수행하도록 구성된, 컴퓨터 저장 장치상에 기록된 컴퓨터 프로그램, 시스템, 장치를 포함한다.
본 명세서에서 설명된 본 발명의 특정 실시 예는 다음의 장점 중 하나 이상을 실현하도록 구현될 수 있다. 컴퓨팅 장치는 특정 오디오 워터마크만을 포함하는 핫워드에 응답함으로써 컴퓨팅 장치의 배터리 전력 및 프로세싱 용량을 절약할 수 있다. 오디오 워터마크를 갖는 핫워드를 수신하면 검색 쿼리를 수행하는 컴퓨터 장치 수가 줄어들어 네트워크 대역폭이 보존될 수 있다. 또한, 오디오 워터마크는 사용자의 컴퓨팅 장치로 하여금 사용자 주변의 라우드스피커(loudspeaker)를 통해 출력된다면 사용자의 컴퓨팅 장치가 청취할 수 없는 상황에서 사용자에게 정보(예를 들어, 음성 쿼리에 대한 응답 또는 어떤 종류의 경보)를 전달하게 할 수 있다. 이러한 사용자는 청각 장애가 있거나 오디오 장치에 연결된 개인용 스피커(예: 헤드폰)를 통해 다른 오디오를 듣는 사용자를 포함할 수 있다. 예를 들어, 특정 오디오 워터마크는 높은 우선순위를 나타내는 것으로 컴퓨팅 장치에 의해 이해될 수 있으며, 이 경우 컴퓨팅 장치는 주 오디오(primary audio)를 통해 수신된 쿼리에 응답할 수 있다.
본 명세서에 기술된 요지의 하나 이상의 실시 예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
도 1은 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 시스템을 도시한다.
도 2는 기록된 미디어에서 핫 워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 컴퓨팅 장치 및 모바일 컴퓨팅 장치의 예이다.
다양한 도면에서 유사한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
도 1은 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 시스템(100)을 도시한다. 간략하게, 이하보다 상세히 설명하는 바와 같이, 컴퓨팅 장치(102 및 104)는 오디오 소스(106)(예를 들어, 텔레비전)로부터 오디오(108) 출력을 수신한다. 오디오(108)는 오디오 워터마크 및 미리정의된 핫워드의 발화를 포함한다. 컴퓨팅 장치(102, 104) 모두는 오디오(108)를 프로세싱하고, 오디오(108)가 미리정의된 핫워드를 포함하는 것으로 결정한다. 컴퓨팅 장치들(102 및 104)은 오디오 워터마크를 식별한다. 오디오 워터마크 및 컴퓨팅 장치(102 및 104)의 컨텍스트 또는 특성에 기초하여, 컴퓨팅 장치(102 및 104) 각각은 오디오에 대한 음성 인식을 수행할 수 있다.
도 1에 도시된 예에서, 오디오 소스(106)는 너겟 월드(Nugget World)와 관련된 미디어 콘텐츠를 재생하고 있다. 미디어 콘텐츠 동안, 미디어 콘텐츠의 배우는 "Ok computer, what’s in a nugget?(너겟에 무엇이 있습니까?)"라는 발화를 발언한다. 발화(108)는 핫워드(110) "Ok computer" 및 쿼리(112) "what’s in a nugget?"을 포함한다. 오디오 소스 106)는 발화(108)를 스피커를 통해 출력한다. 마이크(마이크로폰)가 있는 주변의 모든 컴퓨팅 장치는 발화(108)를 검출할 수 있다.
발화(108)의 오디오는 가청 부분(114) 및 오디오 워터마크(116)를 포함한다. 미디어 콘텐츠의 제작자는 특정 컴퓨팅 장치가 발화(108)에 정확하게 응답하도록 오디오 워터마크(116)를 추가할 수 있다. 일부 구현 예에서, 오디오 워터마크(116)는 사람의 청각 범위보다 높거나 낮은 오디오 주파수를 포함할 수 있다. 예를 들어, 오디오 워터마크(116)는 20kHz보다 크거나 20Hz보다 작은 주파수를 포함할 수 있다. 일부 구현 예에서, 오디오 워터마크(116)는 사람 청력 범위 내에 있지만 잡음과 유사한 그 소리로 인하여 인간에 의해 검출될 수 없는 오디오를 포함할 수 있다. 예를 들어, 오디오 워터마크(116)는 8 내지 10kHz 사이의 주파수 패턴을 포함할 수 있다. 상이한 주파수 대역의 강도는 사람에게는 지각할 수 없지만(imperceptible), 컴퓨팅 장치에 의해 검출될 수 있다. 오디오(108)의 주파수 도메인 표현(118)에 의해 도시된 바와 같이, 가청 부분(114)보다 높은 주파수 범위에 있는 오디오 워터마크(116)를 포함한다.
컴퓨팅 장치들(102 및 104)은 마이크로폰을 통해 오디오를 수신할 수 있는 임의의 유형의 장치일 수 있다. 예를 들어, 컴퓨팅 장치들(102 및 104)은 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러 폰, 스마트 폰, 뮤직 플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커(예: 블루투스) 헤드셋, 보청기, 스마트 시계, 스마트 안경, 활동 추적기 또는 기타 적절한 컴퓨팅 장치일 수 있다. 도 1에 도시된 바와 같이, 컴퓨팅 장치(102)는 스마트폰이고, 컴퓨팅 장치(104)는 데스크톱 컴퓨터이다. 오디오 소스(106)는 예를 들어 텔레비전, 라디오, 뮤직 플레이어, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러 폰, 또는 스마트 폰과 같은 임의의 오디오 소스일 수 있다. 도 1에 도시된 바와 같이, 오디오 소스(106)는 텔레비전이다.
컴퓨팅 장치들(102 및 104) 각각은 마이크로폰을 통해 오디오를 수신한다. 컴퓨팅 장치(102)와 관련하여, 마이크로폰은 오디오 서브시스템(120)의 일부일 수 있다. 오디오 서브시스템(120)은 마이크폰을 통해 수신된 오디오를 초기에 프로세싱하도록 각각 설계된 버퍼, 필터, 아날로그-디지털 변환기를 포함할 수 있다. 상기 버퍼는 마이크로폰을 통해 수신되고 그리고 오디오 서브시스템(120)에 의해 프로세싱되는 현재 오디오를 저장할 수 있다. 예를 들어, 버퍼는 이전 5초의 오디오 데이터를 저장한다. 유사하게, 컴퓨팅 장치(104)의 마이크로폰은 오디오 서브시스템(122)의 일부일 수 있다. 오디오 서브시스템(122)은 마이크로폰을 통해 수신된 오디오를 초기에 프로세싱하도록 각각 설계된 버퍼, 필터, 아날로그-디지털 변환기를 포함할 수 있다. 버퍼는 마이크로폰을 통해 수신되고 오디오 서브시스템(122)에 의해 프로세싱되는 현재 오디오를 저장할 수 있다. 예를 들어, 버퍼는 이전 3초의 오디오 데이터를 저장한다.
컴퓨팅 장치들(102 및 104) 각각은 핫워더(hotworder)(124 및 126)를 각각 포함한다. 핫워더(124, 126)는 각각 마이크로폰을 통해 수신되거나 및/또는 버퍼에 저장된 오디오의 핫워드를 식별하도록 구성된다. 일부 구현 예에서, 핫워더(124 및 126)는 컴퓨팅 장치(102 및 104)의 전원이 켜지는 임의의 시간에 활성화될 수 있다. 핫워더(124)는 버퍼에 저장된 오디오 데이터를 연속적으로 분석한다. 핫워더(124)는 버퍼 내의 현재 오디오 데이터가 핫워드를 포함할 가능성을 반영하는 핫워드 신뢰도 점수를 연산(계산)한다. 핫워드 신뢰도 점수를 계산하기 위해, 핫워더(124)는 필터뱅크 에너지 또는 멜 주파수 셉스트럴 계수(mel-frequency cepstral coefficient)와 같은 오디오 데이터로부터 오디오 특징을 추출할 수 있다. 핫워더(124)는 지원 벡터 머신(support vector machine) 또는 신경망을 사용함으로써 이러한 오디오 특징을 프로세싱하기 위해 분류 윈도우(classifying window)를 사용할 수 있다. 일부 구현 예에서, 핫워더(124)는 핫워드 신뢰 점수를 결정하기 위해 음성 인식을 수행하지 않는다. 핫 워더(124)는 핫워드 신뢰도 점수(스코어)가 핫워드 신뢰도 점수 임계치를 만족하면 오디오가 핫워드를 포함한다고 결정한다. 예를 들어, 핫워더(124)는 핫워드 신뢰도 점수가 0.8이고 그리고 핫워드 신뢰도 점수 임계치가 0.7인 경우, 발화(108)에 대응하는 오디오가 핫워드(110)를 포함한다고 결정한다. 핫 워더(126)는 핫워더(124)와 유사하게 기능할 수 있다.
컴퓨팅 장치(102 및 104)는 각각 오디오 워터마크 식별자(128 및 130)를 각각 포함한다. 오디오 워터마크 식별자(128 및 130)는 각각 마이크로폰을 통해 수신된 및/또는 버퍼에 저장된 오디오를 프로세싱하고 그리고 오디오에 포함된 오디오 워터마크를 식별하도록 구성된다. 오디오 워터마크 식별자들(128 및 130)은 각각 워터마크들의 확산 스펙트럼 및 심리음향학적 형성 유형들(psychacoustic shaping types)을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역과 겹치는 주파수 대역에 위치할 수 있다. 사람은 이러한 유형의 워터마크를 노이즈로 인식할 수 있다. 오디오 워터마크 식별자들(128 및 130)은 또한 각각 고주파수 워터마크들을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역을 초과하는 주파수 대역에 위치할 수 있다. 고주파수 워터마크의 주파수 대역은 사람의 청력의 임계치를 초과할 수 있다. 오디오 워터마크 식별자들(128 및 130)은 또한 각각 저주파수 워터마크들을 검출하도록 구성될 수 있다. 이러한 유형의 워터마크는 해당 오디오의 주파수 대역보다 낮은 주파수 대역에 위치할 수 있다. 저주파 워터마크의 주파수 대역은 사람의 청력의 임계치보다 낮을 수 있다. 일부 구현 예에서, 오디오 워터마크 식별자(128 및 130)는 각각의 핫워더(124 및 126)가 핫워드를 검출하는 것에 응답하여 오디오를 프로세싱한다.
오디오 워터마크 식별자들(128 및 130)은 각각 오디오 워터마크와 주(primary) 오디오를 분리하도록 구성될 수 있다. 주 오디오는 오디오 워터마크가 추가된 오디오 부분일 수 있다. 예를 들어, 주 오디오는 워터마크(116)없이 "Ok computer, what’s in a nugget?"에 대응하는 오디오를 포함하는 가청 부분(114)을 포함할 수 있다. 오디오 워터마크 식별자(128)는 컴퓨팅 장치(102)의 마이크로폰을 통해 수신된 오디오(118)를 주 오디오(132)와 오디오 워터마크(134)로 분리한다. 유사하게, 오디오 워터마크 식별자(130)는 컴퓨팅 장치(104)의 마이크로폰을 통해 수신된 오디오(118)를 주 오디오(136)와 오디오 워터마크(138)로 분리한다. 일부 구현 예에서, 오디오 워터마크 및 주 오디오는 시간 영역(time domain)에서 중첩될 수 있다.
일부 구현 예에서, 오디오 워터마크 식별자(128 및 130)는 오디오 워터마크의 해당 비트스트림을 식별하기 위해 오디오 워터마크(134 및 138)를 각각 프로세싱할 수 있다. 예를 들어, 오디오 워터마크 식별자(128)는 오디오 워터마크(134)를 프로세싱하고 그리고 오디오 워터마크(134)가 0101101110101의 비트스트림에 대응한다고 결정할 수 있다. 오디오 워터마크 식별자(130)는 오디오 워터마크(138)에 대해 유사한 프로세싱을 수행할 수 있다.
오디오 워터마크 비교기(140 및 144) 각각은 오디오 워터마크(134 및 138)를 오디오 워터마크(142 및 146)와 각각 비교한다. 예를 들어, 오디오 워터마크 비교기(140)는 워터마크(134)의 주파수 패턴 또는 비트스트림을 오디오 워터마크(142)와 비교할 수 있다. 오디오 워터마크 비교기(140)는 오디오 워터마크(134)가 너겟 월드의 오디오 워터마크와 매칭(일치)하는 것으로 결정할 수 있다. 오디오 워터마크 비교기(144)는 유사한 결정을 할 수 있다.
오디오 워터마크들(142 및 146)은 다양한 엔티티들이 미디어 콘텐츠의 오디오에 임베딩되는 오디오 워터마크, 또는 핫워드를 포함하는 다른 분산 또는 브로드 캐스트 오디오를 포함할 수 있다. 너겟 월드(Nugget World)는 오디오(108)에 워터마크를 포함하여 특정 장치만 핫워드에 응답하고, 오디오에 대해 음성 인식을 수행하고, 쿼리(112)를 실행하도록 보장할 수 있다. 너겟 월드는 장치들이 오디오 워터마크(116)를 갖는 핫워드에 응답해야 하는 경우에 대한 명령어들을 함께 오디오 워터마크(142 및 146)에 포함시키기 위해 오디오 워터마크(116)를 제공할 수 있다. 예를 들어, 너겟 월드는 오디오 워터마크(116)를 갖는 핫워드에 응답하기 위해 너겟 월드 레스토랑에 위치한 너겟 월드 사용자 식별자를 갖는 임의의 장치를 위해 오디오 워터마크(142 및 146)에 명령어들을 포함할 수 있다. 일부 구현들에서, 오디오 워터마크들(142 및 146)은 컴퓨팅 장치들(102 및 104)에 저장되고 그리고 주기적으로, 예를 들어 하루에 한 번 업데이트된다. 일부 구현예들에서, 오디오 워터마크들(142 또는 146), 오디오 워터 마크 식별자들(128 및 130), 및/또는 오디오 워터 마크 비교기들(140 및 144)은 원격 서버에 위치될 수 있다. 이 예에서, 컴퓨팅 장치(102 또는 104)는 네트워크를 통해 원격 서버와 통신할 수 있다.
컴퓨팅 장치(102)는 오디오 워터마크(134)를 추출하고 그리고 오디오 워터마크(134)를 너겟 월드 워터마크와 매칭시킨다. 너겟 월드 워터마크에 대한 오디오 워터마크들(142)의 명령어들에 기초하여, 컴퓨팅 장치(102)는 주 오디오(132)에 대한 음성 인식을 수행하고 그리고 해당 전사(transcription)에 포함된 임의의 쿼리들 또는 명령들을 실행할 수 있다. 상기 명령어들은 음성 인식을 수행할지 여부를 결정하기 위해 컴퓨팅 장치(102)가 따라야 할 규칙들의 세트를 포함할 수 있다.
컴퓨팅 장치(102)는 위치 검출기(156)를 포함한다. 위치 검출기(156)는 컴퓨팅 장치의 위치를 반영하는 지리적 위치 데이터를 생성할 수 있다. 위치 검출기(156)는 임의의 지리적 위치 기술, 예컨대 GPS, 삼각 측량법 및/또는 임의의 다른 유사한 위치 기술을 사용할 수 있다. 일부 구현 예에서, 위치 검출기(156)는 다양한 관심 지점의 위치를 나타내는 지도 또는 위치 데이터에 액세스할 수 있다. 위치 검출기(156)는 컴퓨팅 장치가 위치하는 관심 지점을 추가로 식별할 수 있다. 예를 들어, 위치 검출기(156)는 컴퓨팅 장치(102)가 너겟 월드에 위치하는 것으로 결정할 수 있다.
컴퓨팅 장치(102)는 장치 식별자(158)를 포함한다. 장치 식별자(158)는 컴퓨팅 장치(102)에 대한 장치의 유형을 식별하는 장치 식별자(Phone)(160)를 포함한다. 장치 아이덴티티(identity)(160)는 데스크톱 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 셀룰러폰, 스마트폰, 뮤직플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커 및 홈 어시스턴트일 수 있으며, 또는 임의의 다른 적절한 컴퓨팅 장치일 수 있다. 예를 들어, 컴퓨팅 장치(102)의 장치 아이덴티티(160)는 전화기이다.
컴퓨팅 장치(102)는 사용자 식별자(162)를 포함한다. 사용자 식별자(162)는 컴퓨팅 장치(102)에 대한 사용자를 식별하는 사용자 아이덴티티(164)를 포함한다. 사용자 아이덴티티(164)는 이메일 주소, 전화번호, 또는 임의의 다른 유사한 유형의 고유 사용자 식별자일 수 있다. 예를 들어, 컴퓨팅 장치(102)의 사용자 아이덴티티(164)는 "user@example.com"이다. 사용자 식별자(162)는 사용자(154)에 의해 입력될 수 있다.
컴퓨팅 장치(102)는 사용자 설정정보(settings)(152)를 포함한다. 사용자 설정정보(152)는 사용자(154)에 의해 제공될 수 있으며, 컴퓨팅 장치(102)가 어떻게 핫워드에 응답해야 하는지에 대한 추가적인 규칙을 포함할 수 있다. 예를 들어, 사용자 설정정보(152)는 컴퓨팅 장치(102)가 집에서 오디오 워터마크를 포함하는 핫워드를 수신하지 않으면 컴퓨팅 장치(102)가 오디오 워터마크를 포함하는 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 다른 예로서, 사용자 설정정보(152)는 컴퓨팅 장치(102)가 치킨 월드(Chicken World)와 같은 특정 엔티티(예를 들어, 미디어 콘텐츠의 소유자 또는 제작자)에 대응하는 오디오 워터마크를 포함하는 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 일부 구현 예에서, 사용자(154)는 컴퓨팅 장치(102)가 특정 엔티티의 워터마크를 갖는 핫워드에 응답하는 것을 허용하는 것에 동의할 수 있다.
도 1에 도시된 바와 같이, 음성 인식기(166)는 음성 인식기 상태(168)에 의해 지시된 바와 같이 비활성 상태로 남는다. 컴퓨팅 장치(102)는 오디오 워터마크에 저장된 바와 같은 오디오 워터마크(134)에 대응하는 명령어들을 장치 위치, 사용자 설정정보(152), 장치 아이덴티티(160) 및 사용자 아이덴티티(164)에 적용하여 음성 인식기 상태(168)를 비활성으로 설정한다. 예를 들어, 오디오 워터마크(134)에 대응하는 명령어들은, 사용자 아이덴티티(164)가 너겟 월드 식별자이고 그리고 장치가 너겟 월드 레스토랑에 위치하는 경우 음성 인식기 상태(168)를 활성으로 설정하는 것일 수 있다. 컴퓨팅 장치(102)의 경우, 사용자 아이덴티티(164)는 너겟 월드 식별자가 아니다. 따라서, 음성 인식기 상태(168)는 비활성이다.
일부 구현 예에서, 컴퓨팅 장치(102)의 사용자 인터페이스 생성기(148)는 컴퓨팅 장치의 디스플레이에 그래픽 인터페이스를 위한 데이터를 제공할 수 있다. 상기 그래픽 인터페이스는 컴퓨팅 장치가 프로세스 또는 동작을 수행하는 동안, 또는 컴퓨팅 장치가 프로세스 또는 동작을 수행한 후에, 컴퓨팅 장치(102)의 프로세스 또는 동작을 나타낼 수 있다. 예를 들어, 사용자 인터페이스 생성기(148)는 컴퓨팅 장치(102)가 수신된 오디오를 프로세싱하고 있음을 나타내고, 컴퓨팅 장치(102)가 오디오 워터마크(134), 음성 인식기 상태(168) 및/또는 식별된 오디오 워터마크(134)의 속성 및 규칙을 식별하고 있음을 나타내는 인터페이스를 디스플레이할 수 있다.
일부 구현 예에서, 사용자 인터페이스 생성기(148)는 음성 인식기 상태(168)가 비활성임을 나타내는 인터페이스를 생성할 수 있다. 상기 인터페이스는 또한 음성 인식기 상태(168)를 무시할 수 있는 사용자 선택 가능 옵션을 포함할 수 있다. 예를 들어, 사용자(154)는 음성 인식기 상태(168)를 활성으로 설정하기 위한 옵션을 선택할 수 있다. “what’s in a nugget”하는 쿼리를 들었을 때, 사용자(154)는 호기심을 가질 수 있고 컴퓨팅 장치(102)가 쿼리(112)를 프로세싱하고 출력을 제공할 것을 요청할 수 있다.
일부 구현 예에서, 컴퓨팅 장치(102)는 오디오 워터마크 로그(170)를 포함 할 수 있다. 오디오 워터마크 로그(170)는 컴퓨팅 장치(102)가 각 오디오 워터마크를 수신한 횟수를 나타내는 데이터를 포함할 수 있다. 예를 들어, 컴퓨팅 장치(102)가 오디오 워터마크(134)를 수신하고 식별할 때마다, 컴퓨팅 장치(102)는 오디오 워터마크(134)의 수신을 나타내는 데이터를 오디오 워터마크 로그(170)에 저장할 수 있다. 상기 데이터에는 타임스탬프, 장치 위치, 모든 관련 사용자 설정정보, 사용자 식별자 및 기타 유사한 정보가 포함될 수 있다. 일부 구현 예에서, 컴퓨팅 장치(102)는 오디오 워터마크를 수신하는 상이한 컴퓨팅 장치로부터의 오디오 워터마크 로그들을 결합하는 서버상의 집계(aggregate) 오디오 워터마크 로그에 오디오 워터마크 로그(170)의 데이터를 제공할 수 있다. 집계 오디오 워터마크 로그는 수신 컴퓨팅 장치에 대한 사용자 아이덴티티, 장치 식별자 및 오디오 워터마크 로그(170)에 저장된 데이터를 포함할 수 있다. 일부 구현 예에서, 집계 오디오 워터마크 로그 및 오디오 워터마크 로그(170) 내의 데이터는 동기화될 수 있다. 이 예에서, 오디오 워터마크 로그(170)는 상이한 장치들로부터의 추가적인 로그 데이터뿐만 아니라 상이한 장치, 상이한 사용자, 위치 정보, 타임스탬프 데이터 및 다른 관련 정보를 식별하는 데이터를 포함할 수 있다.
일부 구현 예에서, 특정 오디오 워터마크에 대한 명령어들은 오디오 워터마크 로그(170)에 저장된 데이터와 관련된 명령어들을 포함할 수 있다. 상기 명령어들은 특정 오디오 워터마크가 표시된 핫워드가 음성 인식기를 활성화해야 하는 특정 횟수와 관련될 수 있다. 예를 들어, 상기 명령어들은 24시간 내에 오디오 워터마크(116)가 음성 인식기(166)를 한 번만 활성화해야 함을 나타낼 수 있다.
일부 구현 예에서, 오디오 장치(106)상의 미디어 콘텐츠의 제작자는 집계 오디오 워터마크 로그에 액세스하여 핫워드(110) 및 해당 오디오 워터마크(116)가 음성 인식기를 활성화할 때마다 관련된 세부 사항을 식별할 수 있다. 일부 구현 예에서, 사용자는 컴퓨팅 장치가 오디오 워터마크 로그를 집계 오디오 워터마크 로그에 업로드하지 않도록 장치의 사용자 설정정보를 통해 표시할 수 있다.
컴퓨팅 장치(104)는 오디오 워터마크(134)를 프로세싱하는 컴퓨팅 장치(102)와 유사한 방식으로 오디오 워터마크(138)를 프로세싱한다. 특히, 컴퓨팅 장치(104)는 오디오 워터마크(138)를 추출하고, 오디오 워터마크(138)를 너겟 월드 워터마크와 매칭시킨다. 너겟 월드 워터마크에 대한 오디오 워터마크(146) 내의 명령어들(명령들)에 기초하여, 컴퓨팅 장치(102)는 주 오디오(136)에 대한 음성 인식을 수행하고 그리고 해당 전사에 포함된 임의의 쿼리 또는 명령을 실행할 수 있다. 명령들은 음성 인식을 수행할지 여부를 결정하기 위해 컴퓨팅 장치(104)가 따라야 할 규칙들의 세트를 포함할 수 있다.
컴퓨팅 장치(104)는 위치 검출기(176)를 포함한다. 위치 검출기(176)는 컴퓨팅 장치의 위치를 반영하는 지리적 위치 데이터를 생성할 수 있다. 위치 검출기(176)는 임의의 지리적 위치 기술, 예를 들어, GPS, 삼각 측량법, 및/또는 임의의 다른 유사한 위치 기술을 사용할 수 있다. 일부 구현 예에서, 위치 검출기(176)는 다양한 관심 지점의 위치를 나타내는 지도 또는 위치 데이터에 액세스할 수 있다. 위치 검출기(176)는 컴퓨팅 장치(104)가 위치하는 관심 지점을 추가로 식별할 수 있다. 예를 들어, 위치 검출기(176)는 컴퓨팅 장치(104)가 너겟 월드에 위치하는 것으로 결정할 수 있다.
컴퓨팅 장치(104)는 장치 식별자(178)를 포함한다. 장치 식별자(178)는 컴퓨팅 장치(104)에 대한 장치의 유형을 식별하는 장치 식별자(Desktop)(180)를 포함한다. 장치 아이덴티티(180)는 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 착용형 컴퓨터, 휴대 전화, 스마트폰, 뮤직플레이어, 전자 북 판독기, 내비게이션 시스템, 스마트 스피커 및 홈 어시스턴트일 수 있으며, 또는 임의의 다른 적절한 컴퓨팅 장치일 수 있다. 예를 들어, 컴퓨팅 장치(104)의 장치 아이덴티티(180)는 데스크톱 컴퓨터이다.
컴퓨팅 장치(104)는 사용자 식별자(182)를 포함한다. 사용자 식별자(182)는 컴퓨팅 장치(104)에 대한 사용자를 식별하는 사용자 아이덴티티(184)를 포함한다. 사용자 아이덴티티(184)는 이메일 주소, 전화번호, 또는 임의의 다른 유사한 유형의 고유한 사용자 식별자일 수 있다. 예를 들어, 컴퓨팅 장치(108)의 사용자 아이덴티티(184)는 "store@nuggetworld.com"이다. 사용자 식별자(182)는 사용자에 의해 입력될 수 있다.
컴퓨팅 장치(104)는 사용자 설정정보(186)를 포함한다. 사용자 설정정보(186)는 사용자에 의해 제공될 수 있고 그리고 컴퓨팅 장치(104)가 어떻게 핫워드에 응답해야 하는지에 대한 추가적인 규칙들을 포함할 수 있다. 예를 들어, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드 레스토랑에 위치하지 않는 한, 컴퓨팅 장치(104)가 오디오 워터마크를 포함하는 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 또 다른 예로서, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드로부터의 오디오 워터마크들로 표시된 것 이외의 임의의 핫워드에 응답하지 않는다는 규칙을 포함할 수 있다. 다른 예로서, 사용자 설정정보(186)는 컴퓨팅 장치(104)가 너겟 월드의 개장 시간 외의 임의 유형의 오디오 워터마크를 갖는 임의의 핫워드에 응답하지 않음을 나타낼 수 있다.
도 1에 도시된 예에서, 음성 인식기(172)는 음성 인식기 상태(174)에 의해 지시된 바와 같이 활성이다. 컴퓨팅 장치(104)는 오디오 워터마크에 저장된 오디오 워터마크(138)에 대응하는 명령들(명령어들))을 장치 위치, 사용자 설정정보(186), 장치 아이덴티티(180) 및 사용자 아이덴티티(184)에 적용하여 음성 인식기 상태(174)를 활성으로 설정한다. 예를 들어, 오디오 워터마크(134)에 대응하는 명령들은 사용자 아이덴티티(184)가 너겟 월드 식별자이고 그리고 장치가 너겟 월드 레스토랑에 위치하는 경우 음성 인식기 상태(174)를 활성으로 설정하는 것일 수 있다. 컴퓨팅 장치(104)에 있어서, 사용자 아이덴티티(184)는 너겟 월드 식별자이고 상기 위치는 너겟 월드이다. 따라서, 음성 인식기 상태(174)는 활성이다.
음성 인식기(172)는 주 음성(136)에 대하여 음성 인식을 수행한다. 음성 인식기(172)는 전사 "what’s in a nugget"를 생성한다. 컴퓨팅 장치(104)는 상기 전사가 쿼리에 대응하는 경우 검색 엔진에 상기 전사를 제공할 수 있다. 컴퓨팅 장치는 전사가 명령에 대응하는 경우 명령을 실행할 수 있다. 도 1의 예에서, 컴퓨팅 장치(104)는 주 오디오(136)의 전사를 검색 엔진에 제공한다. 상기 검색 엔진은 결과를 리턴하고, 컴퓨팅 장치(104)는 예를 들어 컴퓨팅 장치의 스피커일 수 있는 스피커 또는 컴퓨팅 장치에 연결된 헤드폰, 이어폰, 이어버드(earbuds) 등과 같은 개인 스피커를 통해 결과를 출력할 수 있다. 결과를 개인용 스피커를 통해 출력하는 것이 유용할 수 있으며, 예를 들어 정보가 주 오디오의 일부로 출력되는 경우 정보를 들을 수 없는 경우 정보를 사용자에게 제공할 수 있다. 예를 들어, 너겟 월드의 예에서, 컴퓨팅 장치(104)는 "a nugget contains chicken(너겟이 닭고기를 포함한다)"라는 오디오(190)를 출력할 수 있다. 일부 구현 예에서, 사용자 인터페이스 생성기(150)는 컴퓨팅 장치(104)의 디스플레이 상에 검색 결과를 디스플레이할 수 있다. 이 정보가 청각 장애(impaired hearing)가 있는 사용자와 같이 정보가 주 오디오의 일부로 출력되거나 컴퓨터 장치와 연결된 스피커를 통해 출력되는 경우 정보를 듣지 못할 수도 있는 사용자에게 정보를 제공하는 데 특히 유용할 수 있다.
일부 구현 예에서, 사용자 인터페이스 생성기(150)는 추가적인 인터페이스를 제공할 수 있다. 그래픽 인터페이스는 컴퓨팅 장치(104)가 프로세스 또는 동작을 수행하는 동안, 또는 컴퓨팅 장치(104)가 프로세스 또는 동작을 수행하기 전 또는 이후에, 컴퓨팅 장치(104)의 프로세스 또는 동작을 나타낼 수 있다. 예를 들어, 사용자 인터페이스 생성기(150)는 컴퓨팅 장치(104)가 수신된 오디오를 프로세싱하고 있음을 나타내고, 컴퓨팅 장치(104)가 오디오 워터마크(138), 음성 인식기 상태(174) 및/또는 식별된 오디오 워터마크(138)를 식별하고 있음을 나타내는 인터페이스를 디스플레이할 수 있다.
일부 구현 예에서, 사용자 인터페이스 생성기(150)는 음성 인식기 상태(174)가 활성임을 나타내는 인터페이스를 생성할 수 있다. 상기 인터페이스는 또한 음성 인식기 상태(174)를 무시할 수 있는 사용자 선택 가능 옵션을 포함할 수 있다. 예를 들어, 사용자는 상기 전사(transcription)와 관련된 임의의 동작을 억제하도록 음성 인식기 상태(174)를 설정하는 옵션을 선택할 수 있다. 일부 구현 예에서, 사용자 인터페이스 생성기(150)는 최근에 수신된 오버라이드(override) 및 컴퓨팅 장치(104)의 현재 특성에 기초하여 사용자 설정정보(186)를 업데이트하기 위한 인터페이스를 생성할 수 있다. 사용자 인터페이스 생성기(148)는 또한 오버라이드 명령을 수신한 후에 유사한 인터페이스를 제공할 수 있다.
일부 구현 예에서, 컴퓨팅 장치(104)는 오디오 워터마크 로그(188)를 포함할 수 있다. 오디오 워터마크 로그(188)는 컴퓨팅 장치(104)에 의해 수신된 오디오 워터마크에 기초하여 오디오 워터마크 로그(170)와 유사한 데이터를 저장할 수 있다. 오디오 워터마크 로그(188)는 오디오 워터마크 로그(170)와 유사한 방식으로 집계(aggregate) 오디오 워터마크 로그와 상호 작용할 수 있다.
일부 구현 예에서, 컴퓨팅 장치들(102 및 104)은 오디오 워터마크들(142 및 146)에 저장된 규칙들과 독립적으로 주 오디오(134, 138)에 대한 음성 인식을 각각 수행할 수 있다. 오디오 워터마크들(142 및 146)은 전사에 부분적으로 기초하여 주 오디오의 동작들을 수행하는 것과 관련된 규칙들을 포함할 수 있다.
도 2는 기록된 미디어에서 핫워드를 검출할 때 핫워드 트리거를 억제하기 위한 예시적인 프로세스(200)를 도시한다. 일반적으로, 프로세스(200)는 핫워드 및 워터마크를 포함하는 오디오에 기초하여 미디어 콘텐츠에 대응하는 오디오에 대한 음성 인식을 수행한다. 프로세스(200)는 하나 이상의 컴퓨터, 예를 들어 도 1에 도시된 컴퓨팅 장치(102 또는 104)를 포함하는 컴퓨터 시스템에 의해 수행되는 것으로 설명될 것이다.
시스템은 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신한다(210). 일부 구현 예에서, 오디오는 시스템의 마이크로폰을 통해 수신될 수 있다. 오디오는 텔레비전 또는 라디오에서 재생되는 미디어 콘텐츠의 오디오에 해당할 수 있다.
상기 시스템은 오디오가 오디오 워터마크 및 미리정의된 핫워드의 발화를 포함한다고 결정한다(220). 일부 구현 예에서, 오디오 워터마크는 오디오의 비가청(inaudible) 부분이다. 예를 들어, 오디오 워터마크는 인간 청력을 초과 또는 인간 청력 이하에 있는 주파수 대역에 위치할 수 있다. 일부 구현 예에서, 오디오 워터마크는 들리지만 잡음과 유사하게 들린다. 일부 구현 예에서, 오디오 워터마크는 미리정의된 핫워드의 오디오와 중첩된다. 일부 구현 예에서, 시스템은 오디오가 미리정의된 핫 워드를 포함한다고 결정한다. 그 결정에 응답하여, 시스템은 오디오가 오디오 워터마크를 포함하는지를 결정하기 위해 오디오를 프로세싱한다.
시스템은 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교한다(230). 일부 구현 예에서, 시스템은 오디오 워터마크를 오디오 워터마크들의 데이터베이스와 비교할 수 있다. 상기 데이터베이스는 시스템 또는 다른 컴퓨팅 장치에 저장될 수 있다. 시스템은 시간 및/또는 주파수 영역에서 오디오 워터마크의 디지털 표현 또는 오디오 워터마크의 아날로그 표현을 비교할 수 있다. 시스템은 매칭하는 오디오 워터마크를 식별하고, 그 식별된 오디오 워터마크에 대해 데이터베이스에 지정된 규칙에 따라 오디오를 프로세싱할 수 있다. 일부 구현 예에서, 시스템은 오디오 워터마크의 소스 또는 소유자를 식별할 수 있다. 예를 들어 소스 또는 소유자는 엔티티(너겟 월드)가 될 수 있다. 시스템은, 시스템이 너겟 월드 오디오 워터마크가 있는 핫워드를 수신했음을 나타내도록 로그 파일을 업데이트한다.
오디오 워터마크를 하나 이상의 오디오 워터마크와 비교하는 것에 기초한 시스템은 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정한다(240). 식별된 오디오 워터마크, 오디오 워터마크의 소스 및 시스템의 컨텍스트에 대해 데이터베이스에 지정된 규칙에 기초하여, 시스템은 미리정의된 핫워드에 이어지는 오디오에 대해 음성 인식을 수행할지 여부를 결정한다. 시스템의 컨텍스트는 시스템의 유형, 시스템의 위치 및 모든 사용자 설정정보의 조합에 기초할 수 있다. 예를 들어, 상기 규칙은 사용자가 거주하는 아파트의 관리 회사로부터 특정 워터마크가 있는 핫워드를 수신하면 사용자의 집에 있는 휴대 전화기가 오디오에 대한 음성 인식을 수행하도록 지정한다. 일부 구현 예에서, 시스템은, 오디오 워터마크를 하나 이상의 워터마크들과 비교하는 것에 기초하여 또는 오디오 워터마크를 분석하는 것에 기초하여, 미리정의된 핫워드에 이어지는 오디오의 부분에 자연어 프로세싱을 수행할지 여부를 결정한다. 상기 시스템은 음성 인식에 부가하여 또는 음성 인식 대신에 자연어 프로세싱을 수행할 수 있다.
시스템이 음성 인식을 수행하기로 결정한 경우, 시스템은 핫워드에 이어지는 오디오의 전사를 생성한다. 시스템은 아파트 건물 회의 일정 예약을 추가하는 등 전사에 포함된 명령을 실행하거나 검색 엔진에 쿼리를 제출한다. 시스템은 검색 결과를 시스템의 스피커 또는 시스템의 디스플레이 또는 둘 다에 출력할 수 있다.
시스템이 음성 인식을 수행하지 않기로 결정한 경우, 시스템은 절전 모드, 대기 모드 또는 저에너지 모드를 유지할 수 있다. 시스템이 오디오를 프로세싱하는 동안 슬립 모드, 대기 모드 또는 저에너지 모드에 있을 수 있으며, 시스템이 오디오에 대해 음성 인식을 수행하지 않으면 절전 모드, 대기 모드 또는 저에너지 모드로 유지될 수 있다. 일부 구현 예에서, 사용자(154)는 컴퓨팅 장치(102)가 오디오(118)를 수신하는 동안 컴퓨팅 장치(102)를 사용할 수 있다. 예를 들어, 사용자(154)는 음악을 듣거나 사진 애플리케이션을 볼 수 있다. 이 경우, 핫워드 및 오디오 워터마크 프로세싱이 백그라운드에서 발생할 수 있으며, 사용자의 활동이 방해받지 않을 수 있다. 일부 구현 예에서, 오디오는 오디오 워터마크를 포함하지 않을 수 있다. 이 경우, 시스템은 핫워드 이후의 오디오에 대해 음성 인식을 수행하고, 오디오에 포함된 명령 또는 쿼리를 실행할 수 있다.
일부 구현 예에서, 시스템은 오디오에 대한 미디어 콘텐츠의 유형을 결정할 수 있다. 시스템은 상기 오디오 워터마크를 오디오 워터마크 데이터베이스에 포함된 오디오 워터마크들과 비교할 수 있다. 시스템은 오디오 워터마크 데이터베이스에서 매칭하는 오디오 워터마크를 식별할 수 있으며, 매칭하는 오디오 워터마크는 특정 오디오 워터마크에 대한 미디어 콘텐츠의 유형을 식별할 수 있다. 시스템은 식별된 유형의 미디어 컨텐츠에 대한 규칙을 적용할 수 있다. 예를 들어, 오디오 워터마크 데이터베이스는 오디오 워터마크가 판매 미디어, 방향성 미디어(directional media), 상업적 미디어, 정치적 미디어 또는 임의의 다른 유형의 미디어에 포함되어 있음을 나타낼 수 있다. 이 경우, 시스템은 미디어 유형에 대한 일반적인 규칙을 따를 수 있습니다. 예를 들어, 이 규칙은 시스템이 집에 있을 때 상업용 미디어에 대해서만 음성 인식을 수행하는 것일 수 있다. 상기 규칙은 또한 수신된 오디오 워터마크에 특정한 규칙일 수 있다. 일부 구현 예에서, 시스템은 또한 오디오 워터마크 로그에 미디어 콘텐츠의 유형을 기록할 수 있다.
일부 구현 예에서, 시스템은 오디오 워터마크를 분석할 수 있다. 시스템은 오디오 워터마크를 오디오 워터마크 데이터베이스와 비교하는 대신에 또는 이와 조합하여 오디오 워터마크를 분석할 수 있다. 오디오 워터마크는 동작(액션), 식별자, 규칙 또는 다른 유사한 데이터를 인코딩할 수 있다. 시스템은 오디오 워터마크를 디코딩하고, 그 디코딩된 오디오 워터마크에 따라 오디오를 프로세싱할 수 있다. 오디오 워터마크는 헤더 및 페이로드로서 인코딩될 수 있다. 시스템은 모든 또는 거의 모든 오디오 워터마크에 공통이거나, 오디오 워터마크의 특정 그룹을 식별할 수 있는 헤더를 식별할 수 있다. 페이로드는 헤더를 따라가며 동작, 식별자, 규칙 또는 다른 유사한 데이터를 인코딩할 수 있다.
시스템은 오디오 워터마크에 인코딩된 규칙을 적용할 수 있다. 예를 들어, 시스템이 시스템에 저장된 사용자 식별자에 해당하는 위치에 있는 스마트 스피커인 경우, 규칙은 시스템이 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하는 것일 수 있다. 이 경우, 시스템은 오디오 워터마크 데이터베이스에 액세스할 필요가 없을 수 있다. 일부 구현 예에서, 시스템은 오디오 워터마크에 인코딩된 규칙을 오디오 워터마크 데이터베이스에 추가할 수 있다.
시스템은 오디오 워터마크 데이터베이스와 함께 오디오 워터마크에 인코딩된 데이터를 사용할 수 있다. 예를 들어, 오디오 워터마크에 인코딩된 데이터는 오디오가 정치적 미디어 콘텐츠임을 나타낼 수 있다. 시스템은 오디오 워터마크에 대응하고, 시스템이 사용자의 집에 위치할 때 정치적 미디어 콘텐츠 워터마크 또는 상업적 미디어 콘텐츠 워터마크를 포함하는 오디오에 대해 음성 인식을 수행하도록 지정하는 규칙에 액세스할 수 있다. 이 예에서, 오디오 워터마크는 오디오 워터마크 데이터베이스에서 해당 오디오 워터마크를 식별하기 위해 시스템이 사용할 수 있는 헤더 또는 다른 부분을 포함할 수 있다. 상기 페이로드는 미디어 콘텐츠의 유형, 또는 동작, 식별자 또는 규칙과 같은 다른 데이터를 인코딩할 수 있다.
도 4는 본 명세서에 기술된 기법들을 구현하는데 사용될 수 있는 컴퓨팅 장치(300)와 모바일 컴퓨팅 장치(350)의 예시를 도시한다. 컴퓨팅 장치(300)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 모바일 컴퓨팅 장치(350)는 개인 휴대 정보 단말기, 셀룰러 전화기, 스마트폰 및 다른 유사한 컴퓨팅 장치들과 같은 다양한 형태의 모바일 장치들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 제한하는 것을 의미하지는 않는다.
컴퓨팅 장치(300)는 프로세서(302), 메모리(304), 저장 장치(306), 메모리(304) 및 다수의 고속 확장 포트(310)에 연결되는 고속 인터페이스(308) 및 저속 확장 포트(314) 및 저장 장치(306)에 연결되는 저속 인터페이스(312)를 포함한다. 프로세서(302), 메모리(304), 저장 장치(306), 고속 인터페이스(308) 및 저속 인터페이스(312) 각각은 다양한 버스들을 사용하여 상호연결되며, 공통 마더보드에 또는 적절한 다른 방식으로 장착된다. 프로세서(302)는 메모리(304) 또는 저장 장치(306)에 저장된 명령어들을 포함하는, 컴퓨팅 장치(300) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(308)에 연결된 디스플레이(316)와 같은 외부 입/출력 장치에 GUI에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의(복수의) 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 장치들은 필요한 동작의 부분들을 제공하는 각 장치와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).
메모리(304)는 컴퓨팅 장치(300) 내에 정보를 저장한다. 일부 구현예에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 일부 구현예에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(304)는 자기 또는 광학 디스크와 같은 컴퓨터 판독가능 매체의 다른 형태 일 수 있다.
저장 장치(306)는 컴퓨팅 장치(300)에 대한 대형 저장소를 제공할 수 있다. 일부 구현예에서, 저장 장치(306)는 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 장치, 또는 저장 영역 네트워크 또는 다른 구성의 장치를 포함하는 장치의 어레이와 같은 컴퓨터 판독가능 매체이거나 컴퓨터 판독가능 매체를 포함할 수 있다. 명령어들은 정보 캐리어에 저장될 수 있다. 명령어들은 하나 이상의 프로세싱 장치들(예를 들어, 프로세서(302))에 의해 실행될 때, 상술한 것과 같은 하나 이상의 방법들을 수행한다. 명령어들은 또한 컴퓨터 또는 기계 판독가능 매체(예를 들어, 메모리(304), 저장 장치(306) 또는 프로세서(302)상의 메모리)와 같은 하나 이상의 저장 장치들에 의해 저장될 수 있다.
고속 인터페이스(308)는 컴퓨팅 장치(300)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 인터페이스(312)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 인터페이스(308)는 메모리(304), 디스플레이(316)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(310)에 연결된다. 구현예에서, 저속 인터페이스(312)는 저장 장치(306) 및 저속 확장 포트(314)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(314)는 키보드, 포인팅 장치, 스캐너와 같은 하나 이상의 입력/출력 장치 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 장치에 결합될 수 있다.
컴퓨팅 장치(300)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 표준 서버(320)로서 또는 그러한 서버들의 그룹에서 다수로 구현될 수 있다. 또한, 랩톱 컴퓨터(322)와 같은 퍼스널 컴퓨터에서 구현될 수 있다. 또한, 랙 서버 시스템(324)의 일부로서 구현될 수 있다. 대안적으로, 컴퓨팅 장치(300)로부터의 컴포넌트들은 모바일 컴퓨팅 장치(350)와 같은 모바일 장치(도시되지 않음) 내의 다른 컴포넌트들과 결합될 수 있다. 상기 장치들 각각은 컴퓨팅 장치(300), 모바일 컴퓨팅 장치(350) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치들로 구성될 수 있다.
모바일 컴퓨팅 장치(350)는 다른 여러 컴포넌트들 중에서도 특히, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입/출력 장치, 통신 인터페이스(366) 및 송수신기(368)를 포함한다. 모바일 장치(350)에는 또한 추가적 저장을 제공하기 위해 마이크로 드라이브 또는 다른 장치와 같은 저장 장치가 제공될 수 있다. 프로세서(352), 메모리(364), 디스플레이(354), 통신 인터페이스(366) 및 트랜스시버(368) 각각은 다양한 버스들을 사용하여 상호 연결되고, 몇몇 컴포넌트들은 공통 마더보드 상에 또는 적절한 다른 방식으로 장착될 수 있다.
프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하는 모바일 컴퓨팅 장치(350) 내의 명령어들을 실행할 수 있다. 프로세서(352)는 별개의 그리고 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로서 구현될 수 있다. 프로세서(352)는 예를 들어 사용자 인터페이스들, 모바일 컴퓨팅 장치(350)에 의해 실행되는 애플리케이션 및 모바일 컴퓨팅 장치(350)에 의한 무선 통신과 같은 모바일 컴퓨팅 장치(350)의 다른 컴포넌트들의 조정을 제공할 수 있다.
프로세서(352)는 제어 인터페이스(358) 및 디스플레이(356)에 연결된 디스플레이 인터페이스(356)를 통해 사용자와 통신할 수 있다. 디스플레이(354)는 예를 들어, TFT LCD(박막 트랜지스터 액정 디스플레이) 또는 OLED(유기 발광 다이오드) 디스플레이 또는 다른 적절한 디스플레이 기술을 포함할 수 있다. 디스플레이 인터페이스(356)는 사용자에게 그래픽 및 다른 정보를 제공하기 위해 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 사용자로부터 명령을 수신하고, 프로세서(352)에 제출하기 위해 그들을 변환할 수 있다. 추가로, 외부 인터페이스(362)는 프로세서(352)와의 통신에 제공되어 다른 장치들과 모바일 컴퓨팅 장치(350)의 근거리 통신을 가능하게할 수 있다. 외부 인터페이스(362)는 예를 들면, 일부 구현예들에서는 유선 통신을 위해 또는 다른 구현예들에서는 무선 통신을 위해 제공될 수 있고, 다수의 인터페이스들도 사용될 수 있다.
메모리(364)는 모바일 컴퓨팅 장치(350) 내에 정보를 저장한다. 메모리(364)는 컴퓨터 판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 또한 확장 메모리(374)는 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(372)를 통해 모바일 컴퓨팅 장치(350)에 제공되고 접속될 수 있다. 상기 확장 메모리(374)는 모바일 컴퓨팅 장치(350)에 대해 추가 저장 공간을 제공할 수 있거나, 또는 애플리케이션들 또는 모바일 컴퓨팅 장치(350)에 대한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(374)는 전술한 프로세스들을 수행하거나 보충하는 명령어들을 포함할 수 있으며, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(374)는 모바일 컴퓨팅 장치(350)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 장치(350)의 보안 사용을 허용하는 명령어들로 프로그래밍될 수 있다. 또한, 보안 애플리케이션들은 SIMM 카드 상의 식별 정보를 해킹할 수 없는 방식으로 배치하는 것과 같이, SIMM 카드들을 통해 추가 정보와 함께 제공될 수 있다.
메모리는 예를 들어, 후술되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리(non-volatile random access memory)를 포함할 수 있다. 일부 구현예들에서, 명령어들은 정보 캐리어에 저장되어, 하나 이상의 프로세싱 장치들(예를 들어, 프로세서(352))에 의해 실행될 때, 상술한 것과 같은 하나 이상의 방법들을 수행한다. 명령어들은 또한 하나 이상의 컴퓨터 또는 기계 판독가능 매체(예를 들어, 메모리(364), 확장 메모리(374) 또는 프로세서(352)상의 메모리)와 같은 하나 이상의 저장 장치들에 의해 저장될 수 있다. 일부 구현들에서, 명령어들은 예를 들어 트랜스시버(368) 또는 외부 인터페이스(362)를 통해 전파된 신호로 수신될 수 있다.
모바일 컴퓨팅 장치(350)는 필요에 따라 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(366)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(366)는 GSM 음성 호출(이동 통신용 글로벌 시스템), SMS(단문 메시지 서비스), EMS(확장 메시징 서비스) 또는 MMS 메시징(멀티미디어 메시징 서비스), CDMA(코드 분할 다중 접속), TDMA(시분할 다중 접속), PDC(개인 디지털 셀룰러), WCDMA(광대역 코드 분할 다중 접속), CDMA2000 또는 GPRS(일반 패킷 무선 서비스)와 같은 다양한 모드 또는 프로토콜 하에서 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선 주파수를 사용하는 트랜스시버(368)를 통해 발생될 수 있다. 추가로, 블루투스, Wi-Fi 또는 다른 트랜시버(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생될 수 있다. 추가로, GPS(Global Positioning System) 수신기 모듈(370)은 모바일 컴퓨팅 장치(350)상에서 실행되는 애플리케이션들에 의해 적절히 사용될 수 있는 추가적인 내비게이션 및 위치 관련 무선 데이터를 모바일 컴퓨팅 장치(350)에 제공할 수 있다.
모바일 컴퓨팅 장치(350)는 또한 사용자로부터 발화된 정보를 수신하고 그것을 이용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(360)을 사용하여 청각적으로 통신할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어 모바일 컴퓨팅 장치(350)의 핸드셋 내의 스피커를 통하는 것과 같이, 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 보이스 전화 콜들로부터의 사운드 포함할 수 있고, 기록된 사운드(예를 들어, 음성 메시지, 음악 파일 등)를 포함할 수 있고, 또한 모바일 컴퓨팅 장치(350)상에서 동작하는 애플리케이션들에 의해 생성된 사운드를 포함할 수 있다.
모바일 컴퓨팅 장치(350)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들면, 그것은 셀룰러 전화(380)로서 구현될 수 있다. 또한 스마트폰(382), 개인 휴대 정보 단말기(PDA), 또는 다른 유사한 모바일 장치의 일부로서 구현될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치으로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.
이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 장치 예를 들어, 자기 디스크, 광학 디스크, 메모리, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
사용자와의 인터렉션(상호작용)을 제공하기 위해, 본 명세서에서 기술된 시스템들 및 기법들은 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에서 기술된 시스템들 및 기법들은 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 시스템들 및 기법들의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network), WAN(wide area network) 및 인터넷을 포함한다.
컴퓨팅 시스템은 사용자들 및 서버들을 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터렉션한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 사용자-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.
비록 일부 구현예들이 상술되었지만, 다른 수정들도 가능하다. 예를 들어, 클라이언트 애플리케이션은 델리게이트(들)에 액세스하는 것으로 기술되지만, 다른 구현예에서는 델리게이트(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은 하나 이상의 프로세서들에 의해 구현되는 다른 애플리케이션에 의해 이용될 수 있다. 추가로, 도면들에 도시된 논리 흐름들은 원하는 결과들을 달성하기 위해 특정한 도시된 순서, 또는 시계열적 순서를 반드시 필요로 하지 않는다. 추가로, 다른 단계들이 제공될 수 있거나, 단계들이 기술된 흐름으로부터 생략될 수 있고, 다른 컴포넌트들이 기술된 시스템에 추가되거나 그로부터 제거될 수 있다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims (19)

  1. 컴퓨터로 구현되는 방법으로서,
    컴퓨팅 장치에 의해, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오를 수신하는 단계;
    상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계;
    상기 컴퓨팅 장치에 의해, 상기 오디오 워터마크를 분석하는 단계; 그리고
    상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 상기 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서,
    상기 오디오 워터마크를 분석하는 단계는 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교하는 단계를 포함하며, 그리고
    미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 오디오 워터마크를 하나 이상의 오디오 워터마크들과 비교하는 것에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 오디오 워터마크는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 비가청(inaudible) 부분인 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  4. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 식별하는 단계를 더 포함하며,
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  5. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
    상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 소스를 식별하는 단계; 그리고
    미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 소스를 나타내도록 로그 파일을 업데이트하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  6. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 오디오 워터마크는 미리정의된 핫워드의 발화를 포함하는 오디오의 부분에 포함되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  7. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 유형을 결정하는 단계를 포함하며,
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 유형에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  8. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 컴퓨팅 장치에 의해, 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하기로 결정하는 단계를 포함하며,
    상기 방법은,
    자동화된 음성 인식기에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 전사(transcription)를 생성하는 단계; 그리고
    상기 미리정의된 핫워드에 이어지는 오디오의 전사에 대응하는 액션을 수행하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  9. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행하지 않기로 결정하는 단계를 포함하며, 상기 방법은,
    미디어 콘텐츠의 아이템의 재생에 대응하는 오디오에 대응하는 액션을 억제하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  10. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 위치를 결정하는 단계를 포함하며,
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 위치에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  11. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은 추가적인 컴퓨팅 장치의 사용자 설정을 결정하는 단계를 더 포함하며,
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 추가적인 컴퓨팅 장치의 상기 사용자 설정에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  12. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계는,
    상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 단계; 그리고
    상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 것에 기초하여, 상기 오디오가 상기 오디오 워터마크를 포함하는 것으로 결정하는 단계를 포함하는 특징으로 하는 컴퓨터로 구현되는 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 컴퓨팅 장치에 의해, 상기 오디오가 미리정의된 핫워드의 발화를 포함하고 그리고 상기 오디오가 오디오 워터마크를 포함하는 것으로 결정하는 단계는,
    상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정하는 단계 그리고
    상기 오디오가 미리정의된 핫워드의 발화를 포함하는 것으로 결정한 후에, 상기 오디오가 상기 오디오 워터마크를 포함하는 것으로 결정하는 단계를 포함하는 특징으로 하는 컴퓨터로 구현되는 방법.
  14. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 오디오 워터마크를 분석하는 단계는 오디오 워터마크에 인코딩된 데이터를 추출하는 단계를 포함하며, 그리고
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 상기 오디오 워터마크에 인코딩된 데이터에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  15. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
    상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 상기 오디오의 미디어 콘텐츠의 유형을 식별하는 단계; 그리고
    미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 나타내도록 로그 파일을 업데이트하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  16. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
    상기 오디오 워터마크를 분석하는 것에 기초하여, 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형을 식별하는 단계를 포함하며,
    상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 음성 인식을 수행할지 여부를 결정하는 단계는 미디어 콘텐츠의 아이템의 재생에 대응하는 오디오의 미디어 콘텐츠의 유형에 더 기초하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  17. 선행하는 청구항들 중 어느 한 항에 있어서, 상기 방법은,
    상기 오디오 워터마크를 분석하는 것에 기초하여, 상기 컴퓨팅 장치에 의해, 상기 미리정의된 핫워드에 이어지는 오디오의 부분에 대해 자연어 프로세싱을 수행할지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  18. 시스템으로서,
    하나 이상의 컴퓨터들; 그리고
    하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 선행하는 청구항들 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들을 저장하는 하나 이상의 저장 장치를 포함하는 것을 특징으로 하는 시스템.
  19. 비-일시적 컴퓨터 판독 가능 매체상에 선택적으로 저장된 컴퓨터 판독 가능 명령어들로서, 상기 컴퓨터 판독 가능 명령어들은,
    하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 컴퓨터 판독 가능 명령어들.
KR1020197022907A 2017-06-05 2018-03-13 기록된 미디어 핫워드 트리거 억제 KR102296238B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/614,213 US10395650B2 (en) 2017-06-05 2017-06-05 Recorded media hotword trigger suppression
US15/614,213 2017-06-05
PCT/US2018/022101 WO2018226283A1 (en) 2017-06-05 2018-03-13 Recorded media hotword trigger suppression

Publications (2)

Publication Number Publication Date
KR20190103308A true KR20190103308A (ko) 2019-09-04
KR102296238B1 KR102296238B1 (ko) 2021-08-31

Family

ID=61837845

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197022907A KR102296238B1 (ko) 2017-06-05 2018-03-13 기록된 미디어 핫워드 트리거 억제

Country Status (6)

Country Link
US (3) US10395650B2 (ko)
EP (3) EP4220629A1 (ko)
JP (3) JP6750125B2 (ko)
KR (1) KR102296238B1 (ko)
CN (2) CN116597836A (ko)
WO (1) WO2018226283A1 (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10347247B2 (en) * 2016-12-30 2019-07-09 Google Llc Modulation of packetized audio signals
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CA3071560C (en) * 2017-08-10 2024-01-23 Sony Corporation Transmission apparatus, transmission method, reception apparatus, and reception method
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
CA3075249A1 (en) * 2017-09-15 2019-03-21 Sony Corporation Information processing apparatus and information processing method
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10276175B1 (en) 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10818290B2 (en) * 2017-12-11 2020-10-27 Sonos, Inc. Home graph
CN108172224B (zh) * 2017-12-19 2019-08-27 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10692496B2 (en) * 2018-05-22 2020-06-23 Google Llc Hotword suppression
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11089348B2 (en) * 2018-10-03 2021-08-10 At&T Intellectual Property I, L.P. Method and apparatus for determining the accuracy of targeted advertising
US11227310B2 (en) * 2018-10-16 2022-01-18 At&T Intellectual Property I, L.P. Method and apparatus for targeted advertising selection
US11210699B2 (en) * 2018-10-18 2021-12-28 At&T Intellectual Property I, L.P. Method and apparatus for targeted advertising
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11522619B2 (en) 2019-03-08 2022-12-06 Rovi Guides, Inc. Frequency pairing for device synchronization
US11011169B2 (en) 2019-03-08 2021-05-18 ROVl GUIDES, INC. Inaudible frequency transmission in interactive content
US11074914B2 (en) 2019-03-08 2021-07-27 Rovi Guides, Inc. Automated query detection in interactive content
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10956123B2 (en) 2019-05-08 2021-03-23 Rovi Guides, Inc. Device and query management system
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
WO2021100555A1 (ja) * 2019-11-21 2021-05-27 ソニーグループ株式会社 情報処理システム、情報処理装置、情報処理方法及びプログラム
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11170793B2 (en) 2020-02-13 2021-11-09 Adobe Inc. Secure audio watermarking based on neural networks
KR102348091B1 (ko) 2020-04-01 2022-01-10 한국원자력연구원 증기 발생기 사고 대처 시스템
RU2767962C2 (ru) 2020-04-13 2022-03-22 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для распознавания воспроизведенного речевого фрагмента
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11776549B2 (en) * 2020-11-06 2023-10-03 Google Llc Multi-factor audio watermarking
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112767917B (zh) * 2020-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、装置及存储介质
US11483427B1 (en) * 2021-04-28 2022-10-25 Zoom Video Communications, Inc. Call recording authentication
US11915711B2 (en) 2021-07-20 2024-02-27 Direct Cursus Technology L.L.C Method and system for augmenting audio signals

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016010151A (ja) * 2014-06-24 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ヘッドホン聴取装置
KR20160099617A (ko) * 2014-05-29 2016-08-22 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 오디오 입력에 기초하여 정보를 획득하는 방법, 장치 및 시스템
KR20160145766A (ko) * 2014-04-21 2016-12-20 퀄컴 인코포레이티드 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치
KR20170045123A (ko) * 2015-10-16 2017-04-26 구글 인코포레이티드 핫 워드 인식

Family Cites Families (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
JPS59170599A (ja) 1983-12-07 1984-09-26 Ishikawajima Harima Heavy Ind Co Ltd 低温液体用タンク
US5659665A (en) 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6023676A (en) 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP3524370B2 (ja) 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6744860B1 (en) 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
DE10015960C2 (de) 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (en) 2000-06-30 2002-01-02 Alcatel Telecommunication system and method with a speech recognizer
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6701293B2 (en) 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
JP4207445B2 (ja) 2002-03-28 2009-01-14 セイコーエプソン株式会社 付加情報埋め込み方法
JP4224250B2 (ja) 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
TW200409525A (en) 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7222072B2 (en) 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US20050165607A1 (en) 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
JP2005338454A (ja) 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
KR100679043B1 (ko) 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US8709018B2 (en) 2005-09-16 2014-04-29 Applied Medical Technology, Inc. Non-balloon low profile feed device with insertion/removal tool
US7603275B2 (en) 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
KR100711094B1 (ko) 2005-11-29 2007-04-27 삼성전자주식회사 분산 통신 환경에서의 이동체들 간의 자원 할당 방법
JP2006227634A (ja) 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110060587A1 (en) 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20080252595A1 (en) 2007-04-11 2008-10-16 Marc Boillot Method and Device for Virtual Navigation and Voice Processing
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8528033B2 (en) * 2007-10-22 2013-09-03 At&T Intellectual Property I, L.P. Method and system for providing subscription data
GB2458461A (en) 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8805689B2 (en) * 2008-04-11 2014-08-12 The Nielsen Company (Us), Llc Methods and apparatus to generate and use content-aware watermarks
US8145482B2 (en) 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
GB2463231B (en) 2008-09-01 2012-05-30 Sony Corp Audio watermarking apparatus and method
US8676586B2 (en) 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US20110066437A1 (en) * 2009-01-26 2011-03-17 Robert Luff Methods and apparatus to monitor media exposure using content-aware watermarks
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8819172B2 (en) * 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
WO2012083552A1 (en) 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US9294869B2 (en) * 2013-03-13 2016-03-22 Aliphcom Methods, systems and apparatus to affect RF transmission from a non-linked wireless client
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
WO2013012112A1 (ko) * 2011-07-21 2013-01-24 엘지전자 주식회사 쿠폰 검색을 수행하는 전자 기기 및 소셜 커머스 서버
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
KR20140064969A (ko) * 2011-09-23 2014-05-28 디지맥 코포레이션 콘텍스트―기반 스마트폰 센서 로직
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9153229B2 (en) 2011-11-21 2015-10-06 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local SR performance
US8825020B2 (en) 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
US8996372B1 (en) 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
US9665922B2 (en) * 2012-11-30 2017-05-30 Hitachi Maxell, Ltd. Picture display device, and setting modification method and setting modification program therefor
FR3000632A1 (fr) * 2012-12-28 2014-07-04 Thomson Licensing Procede d'affichage de donnees dans un reseau et dispositif mobile associe
CN104956436B (zh) * 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
EP4236281A3 (en) * 2013-01-23 2023-10-11 BlackBerry Limited Event-triggered hands-free multitasking for media playback
US9530409B2 (en) * 2013-01-23 2016-12-27 Blackberry Limited Event-triggered hands-free multitasking for media playback
US9349386B2 (en) 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9171450B2 (en) * 2013-03-08 2015-10-27 Qualcomm Incorporated Emergency handling system using informative alarm sound
US9093064B2 (en) * 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
US9384754B2 (en) * 2013-03-12 2016-07-05 Comcast Cable Communications, Llc Removal of audio noise
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US8768687B1 (en) 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9679053B2 (en) * 2013-05-20 2017-06-13 The Nielsen Company (Us), Llc Detecting media watermarks in magnetic field data
US9285886B2 (en) * 2013-06-24 2016-03-15 Sonos, Inc. Intelligent amplifier activation
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
US9286943B2 (en) * 2013-08-23 2016-03-15 International Business Machines Corporation Enhancing karaoke systems utilizing audience sentiment feedback and audio watermarking
MY179900A (en) 2013-08-29 2020-11-19 Panasonic Ip Corp America Speech recognition method and speech recognition apparatus
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8918326B1 (en) * 2013-12-05 2014-12-23 The Telos Alliance Feedback and simulation regarding detectability of a watermark message
WO2015100430A1 (en) * 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
CN104978968A (zh) 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
US9368124B2 (en) 2014-08-12 2016-06-14 Tata Consultancy Services Ltd. Computer implemented system for audio watermarking
US9548053B1 (en) 2014-09-19 2017-01-17 Amazon Technologies, Inc. Audible command filtering
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR20160043267A (ko) 2014-10-13 2016-04-21 한국전자통신연구원 음향 채널 왜곡에 강인한 워터마크 전송 장치 및 방법
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US9418395B1 (en) * 2014-12-31 2016-08-16 The Nielsen Company (Us), Llc Power efficient detection of watermarks in media signals
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10153113B2 (en) * 2015-08-31 2018-12-11 Deako, Inc. Systems and methods for occupancy prediction
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9928840B2 (en) * 2015-10-16 2018-03-27 Google Llc Hotword recognition
US9747926B2 (en) * 2015-10-16 2017-08-29 Google Inc. Hotword recognition
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법
KR102065522B1 (ko) * 2015-10-23 2020-02-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10028023B2 (en) * 2016-01-20 2018-07-17 Google Llc Methods and systems for automatic media output based on user proximity
TWI633425B (zh) * 2016-03-02 2018-08-21 美律實業股份有限公司 麥克風裝置
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
JP6616048B1 (ja) * 2016-11-07 2019-12-04 グーグル エルエルシー 記録されたメディアホットワードトリガ抑制
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10902001B1 (en) * 2017-02-27 2021-01-26 Amazon Technologies, Inc. Contact presence aggregator
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
US10170112B2 (en) 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
US10242680B2 (en) * 2017-06-02 2019-03-26 The Nielsen Company (Us), Llc Methods and apparatus to inspect characteristics of multichannel audio
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
JP7202214B2 (ja) 2019-02-26 2023-01-11 ヤンマーパワーテクノロジー株式会社 自動走行システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160145766A (ko) * 2014-04-21 2016-12-20 퀄컴 인코포레이티드 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치
KR20160099617A (ko) * 2014-05-29 2016-08-22 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 오디오 입력에 기초하여 정보를 획득하는 방법, 장치 및 시스템
JP2016010151A (ja) * 2014-06-24 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ヘッドホン聴取装置
KR20170045123A (ko) * 2015-10-16 2017-04-26 구글 인코포레이티드 핫 워드 인식

Also Published As

Publication number Publication date
JP2020511682A (ja) 2020-04-16
EP3430618B1 (en) 2020-07-15
KR102296238B1 (ko) 2021-08-31
US20220139387A1 (en) 2022-05-05
CN110214351A (zh) 2019-09-06
CN110214351B (zh) 2023-05-30
JP2020190752A (ja) 2020-11-26
EP3723083B1 (en) 2023-05-10
WO2018226283A1 (en) 2018-12-13
JP2022136197A (ja) 2022-09-15
US10395650B2 (en) 2019-08-27
JP7114660B2 (ja) 2022-08-08
US11244674B2 (en) 2022-02-08
US11798543B2 (en) 2023-10-24
EP3723083A1 (en) 2020-10-14
CN116597836A (zh) 2023-08-15
EP4220629A1 (en) 2023-08-02
JP7461416B2 (ja) 2024-04-03
EP3430618A1 (en) 2019-01-23
JP6750125B2 (ja) 2020-09-02
US20200035232A1 (en) 2020-01-30
US20180350356A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
KR102296238B1 (ko) 기록된 미디어 핫워드 트리거 억제
US11887603B2 (en) Hotword detection on multiple devices
JP7395509B2 (ja) ホットワード抑制
JP2020500331A (ja) 記録されたメディアホットワードトリガ抑制
KR20200005617A (ko) 화자 구분

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant