KR101605481B1 - 컨텍스트에 기초한 음성입력 자동 모니터링 - Google Patents

컨텍스트에 기초한 음성입력 자동 모니터링 Download PDF

Info

Publication number
KR101605481B1
KR101605481B1 KR1020137005725A KR20137005725A KR101605481B1 KR 101605481 B1 KR101605481 B1 KR 101605481B1 KR 1020137005725 A KR1020137005725 A KR 1020137005725A KR 20137005725 A KR20137005725 A KR 20137005725A KR 101605481 B1 KR101605481 B1 KR 101605481B1
Authority
KR
South Korea
Prior art keywords
computing device
user
context
request
mobile computing
Prior art date
Application number
KR1020137005725A
Other languages
English (en)
Other versions
KR20130100280A (ko
Inventor
마이클 제이. 리보
존 니콜라스 지트코프
데이브 버크
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20130100280A publication Critical patent/KR20130100280A/ko
Application granted granted Critical
Publication of KR101605481B1 publication Critical patent/KR101605481B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • H04W4/046
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)

Abstract

하나의 실시예에서, 컴퓨터로 수행되는 방법은 모바일 컴퓨팅 디바이스와 연관된 현재 컨텍스트(current context)를 탐색하는 단계, 상기 현재 컨텍스트에 기초하여, 상기 모바일 컴퓨팅 디바이스를 현재 작동모드에서 상기 모바일 컴퓨팅 디바이스가 오퍼레이션(operation)을 수행하도록 하는 요청을 나타내는 음성 입력에 대해 주위 소리들을 모니터링 하는 제2 작동모드로 전환할 지 여부를 판단하는 단계를 포함한다. 상기 방법은 상기 제2 작동모드로 전환할지 여부에 대한 판단에 응답하여, 상기 모바일 컴퓨팅 디바이스가 오디오 데이터 스트림을 수신하도록 하기 위해서 상기 모바일 컴퓨팅 디바이스와 연관된 하나 이상의 마이크로폰 및 발화 분석 서브시스템(speech analysis subsystem)을 활성화 하는 단계를 더 포함할 수 있다. 상기 방법은 또한 오디오 데이터 스트림에서 탐색되고 오퍼레이션을 수행하도록 하는 요청을 나타내는, 음성입력에 응답하는 출력을 상기 모바일 컴퓨팅 디바이스 상에 제공하는 단계를 포함한다.

Description

컨텍스트에 기초한 음성입력 자동 모니터링{AUTOMATICALLY MONITORING FOR VOICE INPUT BASED ON CONTEXT}
본 출원은 2010년 9월 6일에 출원된 미국 특허출원 US 12/852,256 "컨텍스트에 기초한 음성입력 자동 모니터링(AUTOMATICALLY MONITORING FOR VOICE INPUT BASED ON CONTEXT)"에 대해 우선권을 주장하며, 상기 출원에 개시된 내용은 본 문서에 참조로 통합된다.
본 명세서는 일반적으로 모바일 전화와 같은 모바일 컴퓨팅 디바이스를 이용한 음성입력을 자동 모니터링하기 위한 방법, 시스템, 및 기술에 관한 것이다.
모바일 컴퓨팅 디바이스(예를 들어, 모바일 전화, 스마트폰, PDA(personal digital assistants), 포터블 미디어 플레이어, 등)들은, 사용자에 의해 명백하게 그러한 작업이 촉발될 때, 음성, 또는 발화(spoken) 입력을 수신 및 처리하도록 구성되어 왔다. 예를 들어, 모바일 컴퓨팅 디바이스는 버튼을 누르고 임계시간(예를 들어, 1초)동안 유지하는 사용자에 응답하여 음성입력 모니터링을 시작하도록 구성되어 왔다. 예를 들어, 사용자가 이와 같은 모바일 컴퓨팅 디바이스로 구두 검색 요청(verbal search request)을 제출하길 원한다면, 이때 사용자는 음성입력이 제출되기 전에 버튼을 누르고 적어도 임계시간(threshold period of time)동안 유지하여야 하고, 그렇지 않으면 음성입력은 모바일 컴퓨팅 디바이스에 의해 수신되지 않고 검색요청은 처리되지 않을 것이다.
본 발명은 일반적으로 모바일 전화와 같은 모바일 컴퓨팅 디바이스를 이용하여 음성입력을 자동으로 모니터링 하는 것을 목적으로 한다.
본 명세서에서 설명하는 기술에서, 모바일 전화(예를 들어, 스마트폰, 또는 앱폰(app phone)과 같은 컴퓨팅 디바이스의 컨텍스트(context)는, 구두(verbal) 검색 요청과 같은 음성입력을 언제 모니터할 것인지 자동으로 결정하기 위해서 고려된다. 자동결정은 명확한 사용자 지시 없이 이루어지는 결정이다. 사용자가 모바일 컴퓨팅 디바이스로 하여금 음성입력 모니터링을 시작하도록 하는 것(예를 들어, 임계시간(threshold amount of time)동안 버튼을 누르고 유지)을 기다리는 대신에, 본 명세서에서 설명되는 기술에서 모바일 컴퓨팅 디바이스는 모바일 컴퓨팅 디바이스와 연관된 현재 컨텍스트에 기초하여 언제 음성입력을 모니터링 할 것인지 자동으로 결정할 수 있다. 모바일 컴퓨팅 디바이스(및/또는 모바일 컴퓨팅 디바이스의 사용자)와 연관된 현재의 컨텍스트는 디바이스 주위의 환경을 나타내는 것과 같은 디바이스 외부의 컨텍스트를 포함하거나, 디바이스에 저장되어 있는 디바이스에 관한 역사 정보(historical information)와 같은 디바이스 내부의 컨텍스트를 포함할 수 있다. 디바이스 외부의 컨텍스트는, 예를 들어, 모바일 컴퓨팅 디바이스가 위치하고 있는 물리적인 위치(예를 들어, 디바이스의 GPS 또는 다른 기술에 의해 결정되는 집, 직장(work), 자동차, 등), 및 모바일 컴퓨팅 디바이스의 움직임(예를 들어, 가속, 정지, 등)을 포함할 수 있다. 디바이스 내부의 컨텍스트는 모바일 컴퓨팅 디바이스 상의 최근 활동(예를 들어, 소셜 네트워크 활동, 전송/수신된 이메일, 발신/착신된 전화 통화, 등)을 포함할 수 있다. 모바일 컴퓨팅 디바이스(및/또는 그 사용자)에 대한 현재의 컨텍스트는 디바이스로 하여금 발화(spoken) 입력을 듣게 하도록 지시하는 사용자 입력 그 자체와는 구별된다.
예를 들어, 사용자가 일을 마치고 그/그녀의 모바일 컴퓨팅 디바이스를 가지고 집에 도착하여 저녁 요리를 시작했다고 하자. 사용자의 집에 위치하고 있음(모바일 컴퓨팅 디바이스에 대한 컨텍스트)이 검출되면, 본 예시에서 모바일 컴퓨팅 디바이스는 자동으로 사용자로부터의 음성입력을 모니터링 하기 시작한다. 디바이스는, 예를 들어, GPS 측정(readings)을 통하거나 특정 뮤직 도크(dock) 또는 뮤직 도크 타입에 도킹되는지 판단함으로써, 자신의 컨텍스트를 결정할 수 있다. 사용자는, 그/그녀가 저녁을 요리하는 동안, 그/그녀가 특정 재료가 얼마나 요리에 들어가야 하는지 기억할 수 없다는 것을 알아차린다. 레시피를 찾기 위해 요리 준비에서 물러나야(예를 들어, 손을 씻고 책 또는 전자문서에서 레시피를 찾는) 하는 대신, 사용자는 간단히 얼마나 많은 양의 재료가 요리에 들어가야 하는지 물어볼 수 있고, 모바일 컴퓨팅 디바이스는 이미 음성 입력을 모니터링 하는 중이기 때문에, 모바일 컴퓨팅 디바이스는 상기 구두 요청을 수신하고 처리할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스는 레시피를 담고있는 전자문서를 찾아내고, 질문의 재료의 양을 확인하고, 사용자에게 양 정보를 들을 수 있게(audibly) 응답할 수 있다(예를 들어, “당신의 레시피는 설탕 1컵을 요구합니다.”) 본 명세서에서 설명하는 기술에 따르면, 본 예시의 사용자는 그/그녀의 식사 준비를 중단함이 없이(예를 들어, 우선 물리적으로 모바일 컴퓨팅 디바이스로 하여금 음성입력을 수신하도록 할 필요 없이) 그/그녀의 질문에 대한 답을 얻을 수 있다.
이전 단락의 예시에 부가하여, 기술된 모바일 컴퓨팅 디바이스는 사용자의 집에서 모바일 컴퓨팅 디바이스가 배치되는(placed) 도크의 타입에 기초하여 그것이 사용자의 집에 위치한다는 것을 결정할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스는 서로 매치하는 도크와 디바이스의 물리적 전기적 접촉, 또는 도크와 디바이스 사이의 전기적 통신(예를 들어, BLUETOOTH, 또는 RFID)에 기초하여 도크의 타입을 확인할 수 있다. 예를 들어, 특정 핀 배열이 가정용으로 의도된 도크에 제공될 수 있고, 반면에 다른 배열이 차량용으로 판매되거나 의도된 도크에 제공될 수 있다.
사용자가 정의할 수 있는 특정 컨텍스트들에서만 이와 같은 리스닝(listening)이 가능하게 함으로써, 이 기술들은 여기에서 여전히 사용자로 하여금 그들의 정보로의 접근을 제어하도록 하는 강력한 사용자 인터페이스를 제공한다. 또한, 이와 같은 모니터링은, 사용자에게 상기 특징에 대한 제어를 주기 위해, 옵트인(as an opt in)으로써 리스닝(listening)이 가능해지기 전에 사용자가 능동적으로 그들의 디바이스를 지원하도록 구성해야 하는 옵션을 제공할 수 있다. 나아가, 디바이스는 그것이 상기 리스닝 모드에 들어갈 때 사용자에게 크게 알려줄 수 있다. 나아가, 상기 디바이스 상에서 모니터링이 일어나도록 하기 위해서, 여기에서 기술하는 상기 프로세싱은 디바이스 및 디바이스와 통신하는 어떤 응답 시스템 사이에서도 독립될 수 있으며, 그와 같은 모니터링이 서버 시스템과 통신을 요구하는 액션을 트리거(trigger)할 때, 상기 디바이스는 그와 같은 사실을 사용자에게 알려주고, 또는 사용자로부터 승인을 구할 수 있다. 나아가, 여기에서 논의되는 기술들을 이용하여 디바이스에 의해 취해질 수 있는 상기 특정 액션들은, 사용자가 편안한 액션들(예를 들어 날씨, 영화 시간, 항공편 정보를 페치(fetch)하는 것 및 사용자가 프라이버시 염려에 연루되지 않는다고 판단하는 유사한 액션들)이 수행되는 것을 포함하도록 하기 위해서 사용자에 의해, 예를 들어, 목록의 형태로, 미리 정의될 수 있다.
하나의 실시예에서, 컴퓨터로 수행되는 방법은 모바일 컴퓨팅 디바이스와 연관된 현재 컨텍스트(current context)를 탐색하는 단계(-상기 컨텍스트는 상기 모바일 디바이스 외부에 위치하고 상기 디바이스의 주변 환경에서의 상기 디바이스의 현재 상태를 지시함), 상기 현재 컨텍스트에 기초하여, 상기 모바일 컴퓨팅 디바이스를 현재 작동모드에서 상기 모바일 컴퓨팅 디바이스가 오퍼레이션(operation)을 수행하도록 하는 요청을 나타내는 음성 입력에 대해 주위 소리들을 모니터링 하는 제2 작동모드로 전환할 지 여부를 판단하는 단계, 상기 제2 작동모드로 전환할지 여부에 대한 판단에 응답하여, 상기 모바일 컴퓨팅 디바이스가 오디오 데이터 스트림을 수신하도록 하기 위해서 상기 모바일 컴퓨팅 디바이스와 연관된 하나 이상의 마이크로폰 및 발화 분석 서브시스템(speech analysis subsystem)을 활성화 하는 단계, 및 오디오 데이터 스트림에서 탐색되고 오퍼레이션을 수행하도록 하는 요청을 나타내는, 음성입력에 응답하는 출력을 상기 모바일 컴퓨팅 디바이스 상에 제공하는 단계를 포함한다.
또 다른 실시예에서, 자동으로 음성입력을 모니터링 하기 위한 시스템은 모바일 컴퓨팅 디바이스 및 주변 오디오 신호들을 수신하고 상기 모바일 컴퓨팅 디바이스로 전기적 오디오 데이터를 제공하도록 구성되는 하나 이상의 마이크로폰을 포함한다. 상기 시스템은 또한 상기 모바일 컴퓨팅 디바이스와 연관된 현재 컨텍스트를 탐색하도록 구성되는 컨텍스트 결정부, 상기 컨텍스트는 상기 모바일 디바이스 외부에 위치하고 상기 디바이스의 주변 환경에서의 상기 디바이스의 현재 상태를 지시하고, 상기 컨텍스트 결정부에 의해 결정된 상기 현재 컨텍스트에 기초하여, 상기 모바일 컴퓨팅 디바이스를 현재 작동모드에서 상기 모바일 컴퓨팅 디바이스가 오퍼레이션(operation)을 수행하도록 하는 요청을 나타내는 음성 입력에 대해 주위 소리들을 모니터링 하는 제2 작동모드로 전환할 지 여부를 판단하도록 구성되는 모드선택부를 포함할 수 있다. 상기 시스템은 상기 모바일 컴퓨팅 디바이스가 오디오 데이터 스트림을 수신하도록 하기 위해서 상기 제2 작동모드로 전환할지 여부에 대한 판단에 응답하여 상기 모바일 컴퓨팅 디바이스와 연관된 상기 하나 이상의 마이크로폰 및 발화 분석 서브시스템(speech analysis subsystem)을 활성화 하도록 구성되는 상기 모바일 컴퓨팅 디바이스의 입력 서브시스템을 더 포함할 수 있다. 상기 시스템은 상기 오디오 데이터 스트림에서 탐색되고 오퍼레이션을 수행하도록 하는 요청을 나타내는, 음성입력에 응답하는 출력을 상기 모바일 컴퓨팅 디바이스 상에 제공하도록 구성되는 상기 모바일 컴퓨팅 디바이스의 출력 서브시스템을 추가적으로 포함할 수 있다.
하나의 추가적인 실시예에서, 자동으로 음성입력을 모니터링 하기 위한 시스템은 모바일 컴퓨팅 디바이스 및 주변 오디오 신호들을 수신하고 상기 모바일 컴퓨팅 디바이스로 전기적 오디오 데이터를 제공하도록 구성되는 하나 이상의 마이크로폰을 포함한다. 상기 시스템은 또한 상기 모바일 컴퓨팅 디바이스와 연관된 현재 컨텍스트를 탐색하도록 구성되는 컨텍스트 결정부, 상기 컨텍스트는 상기 모바일 디바이스 외부에 위치하고 상기 디바이스의 주변 환경에서의 상기 디바이스의 현재 상태를 지시하고, 상기 현재 컨텍스트에 기초하여, 상기 모바일 컴퓨팅 디바이스를 현재 작동모드에서 상기 모바일 컴퓨팅 디바이스가 오퍼레이션(operation)을 수행하도록 하는 요청을 나타내는 음성 입력에 대해 주위 소리들을 모니터링 하는 제2 작동모드로 전환할지 여부를 판단하기 위한 수단을 포함할 수 있다. 상기 시스템은 상기 모바일 컴퓨팅 디바이스가 오디오 데이터 스트림을 수신하도록 하기 위해서 상기 제2 작동모드로 전환할지 여부에 대한 판단에 응답하여 상기 모바일 컴퓨팅 디바이스와 연관된 상기 하나 이상의 마이크로폰 및 발화 분석 서브시스템(speech analysis subsystem)을 활성화 하도록 구성되는 상기 모바일 컴퓨팅 디바이스의 입력 서브시스템을 더 포함할 수 있다. 상기 시스템은 상기 오디오 데이터 스트림에서 탐색되고 오퍼레이션을 수행하도록 하는 요청을 나타내는, 음성입력에 응답하는 출력을 상기 모바일 컴퓨팅 디바이스 상에 제공하도록 구성되는 상기 모바일 컴퓨팅 디바이스의 출력 서브시스템을 추가적으로 포함할 수 있다.
하나 이상의 실시예에 대한 세부사항들은 이하의 기재과 첨부된 도면에서 설명된다. 컴퓨팅 디바이스로 음성입력이 제공될 때 사용자에게 더 위대한 편의를 제공하는 것과 같은 다양한 이점들이 특정 실시예들에서 구현될 수 있다. 그 필요성이 그/그녀에게 갑자기 떠오를 때 사용자는 모바일 컴퓨팅 디바이스로 하여금 음성입력을 수신하도록 하는 공식적인 절차들을 우선 거쳐야 하는 대신 단순히 음성입력을 제공할 수 있다. 부가적으로, 모바일 컴퓨팅 디바이스는 사용자가 음성입력을 제공하고 싶어하는 때를 추론하고 그 시간 동안 음성입력을 모니터링할 수 있다. 음성입력 모니터링의 제공은 모바일 컴퓨팅 디바이스로 하여금 그 디바이스가 대기모드(stand-by mode) 일 때보다 더 많은 전력을 소모하도록 할 수 있고, 특히 모바일 컴퓨팅 디바이스가 배터리와 같은 포터블 전력 소스를 사용 중일 때, 이런 특징은 모바일 컴퓨팅 디바이스에 의해 소모되는 에너지의 양을 절약하는데 도움이 될 수 있다.
하나 이상의 실시예에 대한 세부사항들은 이하의 기재과 첨부된 도면에서 설명된다. 다른 특징, 목적, 및 이점들은 이 기재 및 도면, 그리고 청구항으로부터 명백해질 것이다.
도 1a-c는 컨텍스트에 기초하여 음성입력을 자동으로 모니터링하기 위한 모바일컴퓨팅 디바이스 예시의 개념적 다이어그램이다.
도 2a-b는 모바일 컴퓨팅 디바이스와 연관된 현재의 컨텍스트에 기초하여 음성입력을 자동으로 모니터링하기 위한 시스템 예시의 다이어그램이다.
도 3a-c는 모바일 컴퓨팅 디바이스의 컨텍스트에 기초하여 음성입력을 자동으로 모니터링 하기 위한 기술 예시의 흐름도이다.
도 4는 본 명세서에서 설명하는 기술, 시스템, 메커니즘, 및 방법을 수행하기 위해 사용될 수 있는 시스템의 개념 다이어그램이다.
도 5는 본 명세서에서 설명하는 시스템 및 방법들을 수행하기 위해 클라이언트 또는 서버 또는 복수개의 서버들로 사용될 수 있는 컴퓨팅 디바이스의 블록 다이어그램이다.
다양한 도면에서 동일 참조기호는 동일 요소를 지시한다.
본 명세서는 모바일 컴퓨팅 디바이스(예를 들어, 모바일 전화, 스마트폰(예를 들어, IPHONE, BLACKBERRY), PDA(personal digital assistant), 포터블 미디어 플레이어(예를 들어, IPOD), 등)에 입력된 음성/발화 입력을 자동으로 모니터링 하기 위한 기술, 방법, 시스템, 및 메커니즘을 기술한다. 언제 음성입력에 대한 모니터링을 시작하고 중지할 지에 대한 결정은 모바일 컴퓨팅 디바이스와 연관된 컨텍스트(및/또는 상기 모바일 컴퓨팅 디바이스의 사용자)에 기초할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스는 상기 모바일 컴퓨팅 디바이스(및/또는 상기 모바일 컴퓨팅 디바이스의 사용자)와 연관된 컨텍스트가 사용자가 음성입력을 제공하고 싶고 및/또는 음성-기반 기능을 제공하는 것이 사용자에게 편리할 수 있음을 지시할 때 자동으로 음성입력을 모니터링 할 수 있다.
모바일 컴퓨팅 디바이스들이 더욱 강력해짐에 따라, 모바일 컴퓨팅 디바이스들에 의해 제공되는 음성-관련 기능(features)들의 수도 증가해왔다. 예를 들어, 사용자는 모바일 컴퓨팅 디바이스로 하여금 전화 통화를 시작하고(예를 들어 “Call Bob”), 음악을 재생하도록(예를 들어, “Play music by Beck”) 지시하기 위해 음성명령들을 이용할 수 있다. 그러나, 모바일 컴퓨팅 디바이스들은 오직 그렇게 하도록 촉발될 때만 그와 같은 음성입력을 모니터링 하도록 구성되어 왔다. 예를 들어, 사용자는 그러한 음성 입력을 수신하고 처리하기 위해서 모바일 컴퓨팅 디바이스 상의 버튼을 눌러야 하거나 모바일 컴퓨팅 디바이스 용 특정 애플리케이션 상의 음성-기능을 활성화해야 할 수 있다.
본 명세서에 설명되는 기술, 방법, 시스템, 및 메커니즘은 모바일 컴퓨팅 디바이스가 음성입력을 사용하도록 하는 것과 관련된 형식적인 절차를 고수할 필요 없이 사용자로 하여금 음성입력을 제공하는 것을 가능하게 한다. 대신에, 모바일 컴퓨팅 디바이스는, 결정 시점에 명확한 사용자 지시 없이, 상기 모바일 컴퓨팅 디바이스(및/또는 모바일 컴퓨팅 디바이스의 사용자)와 연관된 현재의 컨텍스트에 기초하여 언제 음성입력 모니터링을 시작할 지 결정할 수 있다. 모바일 컴퓨팅 디바이스의 현재 컨텍스트는 상기 모바일 컴퓨팅 디바이스 및/또는 모바일 컴퓨팅 디바이스의 사용자와 연관된 다양한 정보를 포함할 수 있다. 이러한 정보는, 현재 물리적 위치(예를 들어, 집, 회사, 자동차, 무선 네트워크 ”testnet2010” 근처 위치, 등), 현재 디바이스가 이동 중인 방향 및 속도(예를 들어, 북쪽으로 시간당 20마일), 현재 지리적 위치(예를 들어, 마르케트 아브뉴 10번가(10th Street and Marquette Avenue)), 모바일 컴퓨팅 디바이스가 도킹된 도크의 종류(예를 들어, 차량용(car-adapted) 도크), 주변 소음(예를 들어, 낮은 음조의 허밍, 음악, 등), 및 모바일 컴퓨팅 디바이스카메라(들)로부터의 현재 이미지들과 같이, 상기 디바이스의 외부에 있으며, 디바이스 내의 센서들에 의해 식별될 수 있다.
상기 컨텍스트는, 디바이스에 의해 만들어지는 시간 및 날짜에 대한 결정(예를 들어, 2010년 7월 29일 오후 2시), 다가오는 및/또는 최근의 캘린더 일정(예를 들어, 2010년 7월 29일 오후 2시 30분 John과의 미팅), 최근 디바이스 활동(예를 들어, 상기 2시 30분 미팅에 관련된 John에게 보낸 이메일들), 및 상기 디바이스 주위의 현재 상태를 반영하지 않는 모바일 컴퓨팅 디바이스 카메라(들)로부터의 기록적인 이미지들과 같이 디바이스 내부에 있을 수 있다.
예를 들어, 모바일 컴퓨팅 디바이스는 그것이 현재 자동차 안에서 이동중이라는 것을 탐색된 디바이스가 이동하는 높은 속도(예를 들어, 상기 디바이스의 표준 컴퍼넌트들인 다양한 모션 센서들중 어떤 것을 이용) 및/또는 차량용 모바일 디바이스 도크에 도킹된 상기 디바이스(예를 들어, 상기 모바일 컴퓨팅 디바이스와 상기 도크 사이의 물리적 전기적 연결의 핀 배열을 탐색)에 기초하여 결정할 수 있다. 상기 모바일 컴퓨팅 디바이스는 이런 현재의 컨텍스트에 기초하여 음성입력의 모니터링 여부를 결정할 수 있다.
어느 컨텍스트들이 음성입력 모니터링을 보증하고, 어느 컨텍스트들이 그렇지 않은지 결정하기 위해 다양한 접근법이 사용될 수 있다. 예를 들어, 상기 모바일 컴퓨팅 디바이스는 현재 컨텍스트가 상기 사용자가 적어도 음성입력을 제공할 임계 가능성(threshold likelihood)를 가진다는 것을 지시하는지 여부를 추론하기 위해 시도할 수 있고, 만약 그렇다면, 응답으로 음성입력을 모니터링 할 수 있다. 또 다른 예시에서, 상기 모바일 컴퓨팅 디바이스는, 상기 현재 컨텍스트에 기초하여, 음성입력을 모니터링하는 것이 적어도 사용자를 위한 임계수준(threshold level)의 편의를 제공할 것인지 여부를 추론하기 위해 시도할 수 있고, 만약 그렇다면, 음성입력을 모니터링 할 수 있다. 또 다른 예시에서, 미리-식별된, 및/또는 사용자-식별된 컨텍스트들은 언제 음성입력을 모니터링 할 것인지 결정하기 위해 사용될 수 있다. 언제 음성입력을 모니터링 할 것인지 결정하기 위한 다른 기술들도 역시 사용될 수 있다.
위의 자동차-컨텍스트 예시에 대해서 부연하면, 상기 모바일 컴퓨팅 디바이스가 자동차 내부에 위치한다는 결정에 기초하여, 상기 모바일 컴퓨팅 디바이스는 사용자가 음성입력을 제공할 수 있는 것이 매우 편리(및 안전)하다는 것을 추론할 수 있다. 상기 결정된 컨텍스트에 대한 이 추론에 기초하여, 상기 모바일 컴퓨팅 디바이스는 사용자로부터의 음성입력을 모니터링하고 프로세싱 하는 것을 개시할 수 있다. 상기 모바일 컴퓨팅 디바이스는, 상기 모바일 컴퓨팅 디바이스의 현재 컨텍스트가 변화(예를 들어, 사용자가 차에서 모바일 컴퓨팅 디바이스를 제거)하거나, 상기 사용자가 음성입력 모니터링을 종료하길 원한다고 지시(예를 들어, 사용자가 “음성입력 모니터링 중단”과 같은 지시를 제공하는 음성입력을 제공)하거나, 상기 모바일 컴퓨팅 디바이스의 배터리 잔량이 부족(예를 들어, 배터리 잔량이 25% 미만)해지는 등과 같이, 다양한 종료 이벤트가 발생할 때까지 음성입력 모니터링을 계속할 수 있다.
음성입력 모니터링은 음성입력을 모바일 컴퓨팅 디바이스에 의해 수신될 수 있는 다른 주변 소음들(예를 들어, 배경음악, 자동차 경적 등)로부터 분리하고 나서 상기 음성입력이 상기 모바일 디바이스에 해당되는지 여부를 결정하는 것을 포함할 수 있다. 예를 들어, 두 명의 사용자가 음성 입력을 모니터링 중인 하나의 모바일 컴퓨팅 디바이스가 있는 곳에서 대화를 나눌 때, 상기 모바일 컴퓨팅 디바이스는 상기 음성입력 중 어느 것이 사용자들의 대화 부분인지 및 어느 것이 모바일 컴퓨팅 디바이스가 오퍼레이션을 수행하도록 하는 요청인지 결정할 수 있다. 다양한 기술들이 그러한 결정, 특정 키워드(예를 들어, “검색(search)”, “모바일 디바이스(mobile device)”, 등)를 모니터링하고, 문법을 검사(예를 들어, 질문을 식별하고, 명령을 식별하는 등)하는 등과 같은 결정을 하기 위해 사용될 수 있다.
이하에서 자세히 설명되는 것과 같이, 모바일 컴퓨팅 디바이스는 음성입력을 상기 모바일 컴퓨팅 디바이스 상에서 지역적으로(locally) 및/또는 상기 모바일 컴퓨팅 디바이스와 원격인 컴퓨터 시스템과 함께 모니터링 및 처리할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스는 그것의 현재 컨텍스트를 결정할 수 있고, 음성입력을 모니터링할지 여부를 결정할 수 있고, 상기 모바일 컴퓨팅 디바이스를 지시하는 음성입력을 식별할 수 있고, 음성입력과 연관된 명령이 단독(standalone) 디바이스로서(예를 들어, 네트워크를 통한 다른 디바이스들과 상호작용 없이), 및/또는 원격 서버 시스템과 상호작용을 통해 수행되도록 할 수 있다.
도 1a-c는 컨텍스트에 기초하여 자동으로 음성입력을 모니터링하는 예시 디바이스(102a-b, 142, 및 162a-d)의 개념 다이어그램(100, 140, 및 160)을 나타낸다. 도 1a를 참조하면, 다이어그램(100)은 두 개의 다른 컨텍스트(컨텍스트 A(104) 및 컨텍스트 B(106))에서 모바일 컴퓨팅 디바이스(102a-b)의 음성입력 모니터링의 예시를 나타낸다.
컨텍스트 A(104)에서, 모바일 컴퓨팅 디바이스(102a)는 다른 디바이스나 코드에 물리적으로 연결되거나 묶이는 일 없이 사용자의 손(108)에 들려 있는 것으로 도시된다. 모바일 컴퓨팅 디바이스(102a)는 이 예시에서 작동하기 위해 모바일 전력 소스(예를 들어, 배터리)를 이용하는 것으로 도시된다.
컨텍스트 B(106)에서, 모바일 컴퓨팅 디바이스(102b)는 스피커(112)와 마이크(114 및 116)를 포함하는 모바일 디바이스 도크(110)에 도킹되어 있는 것으로 도시된다. 모바일 컴퓨팅 디바이스(102b)는 상기 도크(110)의 모바일 디바이스 인터페이스(118)와 전기적 물리적 접촉 상태인 것으로 묘사된다. 모바일 컴퓨팅 디바이스(102b)와 도크(110)는 이 전기적 물리적 연결을 통해 통신할 수 있다. 예를 들어, 모바일 디바이스(102b)는 상기 인터페이스(118)를 통해 도크(110)로 오디오 데이터를 스트리밍 할 수 있고, 이는 도크(110)로 하여금 스피커(112)를 이용하여 음악을 재생하도록 할 수 있다. 유사하게, 도크(110)는 인터페이스(118)를 통해 스피커(114 및 116)를 통해 수신된 오디오 데이터를 모바일 디바이스(102b)로 제공할 수 있다.
나아가 컨텍스트 B(106)와 관련하여, 도크(110)는 콘센트(power outlet, 122)에 플러그로 연결된 파워 코드(120)로부터 전력을 수급하는 것으로 도시된다. 모바일 컴퓨팅 디바이스(102b)는 도크(110)의 인터페이스(118)를 통해 외부 전력 소스로부터(예를 들어, 도크(110)로부터 직접적으로, 콘센트(122)로부터 간접적으로 등) 전력을 수급할 수 있다.
상기 컨텍스트들(104, 106)에 기초하여, 모바일 컴퓨팅 디바이스(102a-b)는 음성입력을 모니터링 할지 여부를 자체적으로(사용자에 의해 먼저 유도되거나 지시되지 않고) 결정한다. 컨텍스트 A(104)와 관련하여, 모바일 컴퓨팅 디바이스(102a)는, 적어도, 상기 디바이스가 외부 전력 소스 대신에 포터블 전력 소스(배터리)를 사용한다는 점에 기초하여 음성입력을 모니터링 하지 않을 것을 결정한다. 포터블 전력 소스에서, 전력 공급은 한정적이다. 아직, 음성입력 모니터링은 모바일 컴퓨팅 디바이스(102a)의 통상의 대기 동작보다 많은 전력을 소모할 수 있고 가늠할 수 없는 시간동안 지속될 수 있다. 결과적으로, 컨텍스트 A(104)에서 모바일 컴퓨팅 디바이스(102a)는 음성입력을 모니터링하는 것의 사용자에 대한 어떠한 잠재적 편의도 상대적으로 짧은(대기 동작과 비교하였을 때 짧은) 시간에 잠재적으로 배터리를 소모하는 것의 모바일 컴퓨팅 디바이스(102a)에 대한 불편함보다 중요하지 않은 것으로 판단할 수 있다. 추가적으로, 모바일 컴퓨팅 디바이스(102a)는 모바일 컴퓨팅 디바이스(102a)가 그 자체의 마이크에 의존해야 한다는 점(마이크(114, 116)와 같은 외부 마이크와는 대조적으로)에 기초하여 사용자에 의해 제공되는 어떠한 음성입력도 정확하게 처리하기에는 충분히 명료하게 수신되지 않을 것이라고 판단할 수 있다. 결과적으로, 컨텍스트 A(104) 내의 모바일 컴퓨팅 디바이스(102a)는 기호 124(symbol 124)로 나타낸 것과 같이 음성입력을 모니터링 하지 않는다.
이에 반해, 컨텍스트 B(106)를 참조하면, 모바일 컴퓨팅 디바이스(102b)는 모바일 컴퓨팅 디바이스(102b)가 도크(110)에 연결중이라는 점에 기초하여(컨텍스트 A(104)에서의 기호 124와 같은 기호의 부재가 나타내듯이) 음성입력을 모니터링 할 것을 결정한다. 위에 나타난 바와 같이, 모바일 컴퓨팅 디바이스(102b)는 인터페이스(118)에 사용된 핀들의 배열에 기초하여 도크(110)가 특정 타입의 도크라고 식별할 수 있다. 도크(110)와의 연결을 통해, 모바일 컴퓨팅 디바이스(102b)는 외부 전력 소스(예를 들어, 도크(110), 콘센트(outlet, 122) 및 외부 마이크(114, 116)의 혜택을 받는다. 이 예시에서, 모바일 컴퓨팅 디바이스(102b)는 도크(110)과의 연결, 모바일 컴퓨팅 디바이스(102b)가 연결된 도크의 타입(예를 들어, 홈 스테레오 도크), 외부 전력 소스의 이용가능성, 및 외부 마이크(114, 116)의 이용가능성의 어떠한 조합에도 기초하여 음성입력을 모니터링 할 것을 결정할 수 있다. 음성입력 모니터링의 일부로서, 모바일 컴퓨팅 디바이스(102b)는 음성입력을 식별(및 처리)하는 마이크(114, 116)로부터 오디오 데이터 스트림을 수신할 수 있다. 또한, 상기 모니터링을 특정 컨텍스트 B로 제한함으로써, 모니터링이 일어날 때 시스템에 의한 모니터링을 사용자가 인식할 수 있도록 보장할 수 있다.
상기 디바이스(102b)는 모니터링 모드로 전환할 때 알려줄 수도 있다. 예를 들어, 상기 디바이스가 도킹되었을 때, 상기 도크의 스피커들은 “지금부터 요청 모니터링을 시작합니다 ? 이 기능을 사용하지 않으려면 모니터링 중단이라고 말해주세요(Device is now monitoring for requests - please say stop monitoring to disable feature)."라고 알려줄 수 있다. 이와 같은 안내(announcements)는, 모니터링 되는 것에 대한 제어를 유지하는 동안, 사용자가 모니터링의 이점을 얻을 수 있도록, 사용자에게 모니터링 중이라는 추가적인 알림을 제공할 수 있다.
도시된 앨리스(Alice, 126)와 밥(Bob, 128) 사이의 대화는 모바일 컴퓨팅 디바이스(102a-b)에 의해 수행되는 음성입력 모니터링을 보여준다. 앨리스가 “Hi, Bob. How are you?(안녕 밥. 잘 지냈어?” (130)라고 말하고 밥이 “Doing well. How about you?(잘 지냈지. 너는 어때?)” (132)라고 응답한다. 앨리스가 “Good. Do you know the weather forecast for this weekend?(좋아. 이번 주말 일기예보 알아?)" (134)라고 대답하고, 밥이 "No. Hold on. I'll ask the mobile device. What is the weather forecast for this weekend?(아니. 잠깐만. 모바일 디바이스에게 물어볼께. 이번 주말 일기예보가 어떻게 돼?)" (136)라고 말한다.
기호 124에 의해 보여지는 바와 같이, 앨리스(126)과 밥(128) 사이의 대화(130-136)는 음성입력을 모니터링 하지 않기로 한 결정에 기초하여 컨텍스트 A의 모바일 컴퓨팅 디바이스(102a)에 의해서는 수신되지 않는다.
이에 반해, 앨리스(126)와 밥(128) 사이의 대화(130-136)는 인터페이스(118)와 마이크(114, 116)와 도크(110)를 사용하는 모바일 컴퓨팅 디바이스(102b)에 의해 수신된 오디오 데이터의 스트림의 일부로 수신된다. 모바일 컴퓨팅 디바이스(102b)는 배경 음악과 같은 다른 주변 소음으로부터 음성입력(130-136)을 검출하고, 상기 음성입력(130-136) 중 어떤 것이 모바일 컴퓨팅 디바이스(102b)에 대한 요청인지 식별하기 위해 음성 분석 서브시스템(speech analysis subsystem)을 사용할 수 있다.
전술한 바와 같이, 모바일 컴퓨팅 디바이스(102b)는 음성입력(130-136)의 어떤 것이 모바일 컴퓨팅 디바이스(102b)에 대한 요청인지 여부를 식별하기 위해 다양한 기술을 이용할 수 있다. 예를 들어, 상기 모바일 컴퓨팅 디바이스(102b)는 상기 음성입력(130-136)을, 명령 "search for nearby restaurants(근처의 식당 검색)"에서 사용되는 용어 “search(검색)” 및 질문 "mobile device, what is the current score of the baseball game?(모바일 디바이스, 그 야구경기의 현재 스코어는?)"에서 사용되는 용어 “mobile device(모바일 디바이스)”와 같은 키워드에 대해 스캔할 수 있다. 다른 예시에서, 모바일 컴퓨팅 디바이스(102b)는, 질문 및 명령과 같이, 모바일 컴퓨팅 디바이스(102b)로 지시될 수 있는(may be directed) 발화(speech)의 일부를 식별하도록 시도하기 위해 음성입력(130-136)의 문법(syntax)을 모니터링 할 수 있다. 추가적인 예시에서, 모바일 컴퓨팅 디바이스(102b)는, 휴지(pause)(예를 들어, 사용자가 모바일 컴퓨팅 디바이스(102b)로부터 응답을 기다림), 오디오 신호의 명백한 방향 변화(명령을 제공할 때 사용자가 모바일 컴퓨팅 디바이스(102b)를 마주봄), 전달 속도의 변화(예를 들어, 모바일 컴퓨팅 디바이스(102b)를 향할 때 사용자가 천천히 이야기 함), 톤 및 억양의 변화(모바일 컴퓨팅 디바이스(102b)로 말을 걸 때 사용자가 톤을 낮추고 억양의 레벨을 감소시킴) 등과 같은 음성입력 구조의 변화들에 기초하여 특정 음성입력이 모바일 컴퓨팅 디바이스(102b)을 지시 한다/했다는 것에 대한 팁을 얻을 수 있다. 기술들의 조합뿐만 아니라, 다른 기술들도 사용될 수 있다.
본 예시에서, 앨리스(126)와 밥(128) 사이의 대화(130-136)에는 다수의 질문들이 있지만, 오직 음성입력 136의 질문만이 모바일 컴퓨팅 디바이스(102b)로 향한다. 이전 단락에서 설명된 기술들의 어떠한 조합이라도 이용하여, 모바일 컴퓨팅 디바이스(102b)는 모바일 컴퓨팅 디바이스(102b)가 오퍼레이션을 수행하도록 하는 요청인 이 음성입력 136을 정확하게 구분할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(102b)는 밥으로부터의 음성입력 136에서 프레이즈 “mobile device(모바일 디바이스)”를 식별하고 나서 모바일 컴퓨팅 디바이스(102b)를 향하는 것인 질문 “What is the weather forecast for this weekend?(이번 주말 일기예보가 어떻게 돼?)”을 구분하기 위해 음성입력(136)의 문법을 분석할 수 있다.
이와 같은 식별이 이루어지는 것에 응답하여, 모바일 컴퓨팅 디바이스(102b)는 모바일 컴퓨팅 디바이스(102b)의 현재 지리적 위치에 대해 다가오는 주말의 일기예보를 결정하기 위한 검색을 시작할 수 있다. 모바일 컴퓨팅 디바이스(102b)는 이 정보를 지역적으로(locally)(예를 들어, 모바일 컴퓨팅 디바이스(102b) 상의 일기예보를 주기적으로 획득하고 저장하는 날씨 애플리케이션을 쿼리하여) 및/또는 네트워크(예를 들어, 인터넷, 셀룰러 네트워크, 3G/4G 네트워크 등)를 통해 원격 정보 서버 시스템과의 상호작용을 통해서 식별할 수 있다.
모바일 컴퓨팅 디바이스(102b)는, 디스플레이(예를 들어, 모바일 컴퓨팅 디바이스(102b) 상의 디스플레이, 컴퓨터 모니터, 텔레비전 등), 스피커 시스템(예를 들어, 모바일 컴퓨팅 디바이스(102b) 내의 스피커, 도크(110)의 스피커(112), 프로젝터(예를 들어, 모바일 컴퓨팅 디바이스(102b) 및/또는 도크(110)의 일부인 프로젝터) 등과 같은 이용 가능한 출력 디바이스들의 어떠한 조합이라도 이용하여, 상기 획득된 날씨 정보를 앨리스(126)와 밥(128)에게 제공할 수 있다. 본 예시에서, 모바일 컴퓨팅 디바이스(102b)는 모바일 컴퓨팅 디바이스(118)의 TTS(text-to-speech) 서브시스템과 도크(110)의 스피커(112)를 이용하여 상기 날씨 정보를 들을 수 있게(audibly) 출력한다(138).
도 1b를 참조하면, 다이어그램(140)은 음성입력을 모니터링 할 것인지 여부를 결정하고, 음성입력으로부터 사용자 요청을 식별하고, 및 상기 사용자 요청에 응답하여 출력을 제공하는 모바일 컴퓨팅 디바이스(142)의 예시를 나타낸다.
단계 A에서, 모바일 컴퓨팅 디바이스(142)는 모바일 컴퓨팅 디바이스(142) 및 모바일 컴퓨팅 디바이스와 연관된 사용자(도시되지 않음)에 대한 현재 컨텍스트를 탐색한다(144). 예시적인 현재 컨텍스트(146)에 도시된 바와 같이, 모바일 컴퓨팅 디바이스(142)는 현재 사용자의 집에 위치해 있고(148a), 현재 날짜 및 시간은 월요일 오후 7시이고(148b), 남은 월요일 동안 사용자는 예정된 약속이 없으며(148c), 모바일 컴퓨팅 디바이스(142)는 현재 그 전력원으로 90% 충전된 배터리를 이용중이다(148d). 모바일 컴퓨팅 디바이스(142)의 현재 위치는, 지리적 위치 정보(예를 들어, GPS(geographic positioning system) 정보)를 이용하거나, 주변의 컴퓨팅 디바이스 및/또는 무선 네트워크(예를 들어, 사용자 집의 무선 네트워크의 존재를 탐색)를 식별하거나, 모바일 컴퓨팅 디바이스(142)가 특정 타입의 도크(예를 들어, 상기 도크(110))에 위치하고 있거나 하는 등과 같은 다양한 방법으로 결정될 수 있다.
단계 B에서, 모바일 컴퓨팅 디바이스(142)는 상기 디바이스(142) 및 그것의 사용자의 현재 컨텍스트(146)에 기초하여 사용자 요청에 대한 오디오 신호를 모니터링 할 것인지 여부를 결정한다(150). 도 1과 관련되어 전술한 바와 같이, 다양한 기술들이 사용자로부터의 음성입력을 모니터링 할 것인지 결정하기 위해 사용될 수 있다. 본 예시에서, 모바일 컴퓨팅 디바이스(142)는 사용자가 사용자 요청을 제공할 것이라고 추론되는 가능성 및 사용자와 모바일 컴퓨팅 디바이스(142) 모두의 편의에 기초하여 사용자 요청을 위한 주변 오디오 신호 모니터링을 진행할 것을 결정한다. 사용자 요청을 제공할 가능성은, 적어도, 시간(7pm)과 사용자의 스케쥴로부터 추론될 수 있다. 비록 저녁이라 하더라도, 사용자가 벌써 자러 가려 하진 않을 것이고(단지 7시일 뿐이다) 사용자는 남은 저녁 동안 어떤 일정도 가지고 있지 않다 ? 다음 몇 시간에 걸친 사용자의 예상되는 자유시간은 모바일 컴퓨팅 디바이스(142)로 음성-기반 요청을 제공할 임계가능성(threshold likelihood)을 지시할 수 있다. 음성입력 모니터링은, 적어도, 모바일 컴퓨팅 디바이스가 사용자의 집에서 사용자가 모바일 컴퓨팅 디바이스(142)로부터 팔을 뻗으면 닿을 수 있는 거리 이상으로 떨어져 있는 곳에 위치한 경우 사용자에게 편리할 수 있다(예를 들어, 사용자는 집 주위를 돌아다닐 수 있고, 모바일 컴퓨팅 디바이스(142)가 각 요청을 수동으로 처리하도록 모바일 컴퓨팅 디바이스(142)를 위치시켜야 하는 대신 사용자가 단순히 그/그녀의 요청들을 이야기 하는 것이 더 편리할 수 있다). 부가적으로, 음성입력을 모니터링 하는 것은, 적어도, 임계충전을 가지는 배터리 및 모니터링이 단지 제한된 시간동안 지속될 것이라는 예상에 기초하여 모바일 컴퓨팅 디바이스에 편리할 수 있다(예를 들어, 모바일 컴퓨팅 디바이스(142)는 사용자가 몇 시간 내로 잠자리에 들 것이라고 예상할 수 있다).
오디오 신호를 모니터링 할 것을 결정하는 것에 응답하여, 단계 C에서 모바일 컴퓨팅 디바이스는 모바일 컴퓨팅 디바이스에 이용될 수 있는 마이크로폰(들)과 발화(speech) 분석 서브시스템을 활성화할 수 있다(152). 마이크로폰 및/또는 발화 분석 서브시스템은 로컬(local) 및/또는 모바일 컴퓨팅 디바이스(142)로부터 원격에 위치할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(142)에 의해 사용되는 마이크로폰은 모바일 컴퓨팅 디바이스에 임베디드(embedded) 되거나, 및/또는 상기 모바일 컴퓨팅 디바이스(예를 들어, 도크(110)의 마이크로폰(114, 116)로부터 원격에 위치할 수 있다. 또 다른 예시, 발화 분석 서브시스템이 원격에 위치하는 실시예에서, 모바일 컴퓨팅 디바이스(142)는 수신된 오디오 신호들을 상기 원격 발화 분석 서브시스템으로 제공하고, 이에 응답하여, 어떤 음성입력이라도 검출되었는지 여부를 지시하는 정보를 수신할 수 있다.
모바일 컴퓨팅 디바이스(142)는 사용자 요청에 대한 오디오 신호 모니터링이 진행중이라는 것을 나타내는 메시지(153)를 사용자에게 디스플레이 할 수 있다. 이는 만약 사용자가 모니터링이 발생하기를 원하지 않는 경우 사용자에게 이 오퍼레이션을 취소할 수 있는 기회를 제공할 수 있다.
단계 D에서, 모바일 컴퓨팅 디바이스(142)는 사용자 요청에 대한 주변 오디오 신호들을 계속적으로 수신하고 모니터링 한다(154). 예를 들어, 텔레비전(156a), 사람(156b), 및 애완동물(156c)은 모바일 컴퓨팅 디바이스(142)에 의해 수신되고 검사되는 오디오 신호들(158a-c)을 각각 생산할 수 있다.
이러한 모든 오디오 신호들 가운데, 사용자(156b)는 사용자 요청으로서 질문 "What is the capital of Maine?(매인의 수도는?)"을 모바일 컴퓨팅 디바이스(142)로 지시할 수 있다. 모바일 컴퓨팅 디바이스(142)(가능하게는 원격 발화 분석 서브시스템과 함께)는, 도 1a와 관련하여 전술한 바와 같이, 다양한 기술 중 어느 것이라도 이용하여 오디오 신호(158a-c)로부터 이 사용자 요청을 검출할 수 있다. 모바일 컴퓨팅 디바이스(142)는 이때 사용자 요청을 지역적으로(예를 들어, 지역적으로 저장된 정보 데이터베이스를 검색) 또는 원격 정보 서버 시스템과 상호작용함으로써 처리할 수 있다.
상기 식별된 사용자 요청에 응답을 획득하면, 상기 모바일 컴퓨팅 디바이스는 단계 F에 도시된 것처럼 상기 사용자 요청에 대한 출력을 제공할 수 있다(162). 현재 예시에서, 모바일 컴퓨팅 디바이스는 사용자의 질문에 대한 답변(164)를 모바일 컴퓨팅 디바이스(142)의 디스플레이 상에 디스플레이한다. 도 1a와 관련하여 전술한 바와 같이, 그러한 출력을 제공하는 다른 방법들 역시 모바일 컴퓨팅 디바이스(142)에서 가능하다.
도 1c를 참조하면, 다이어그램(170)은 네 개의 다른 컨텍스트(컨텍스트 A(174), 컨텍스트 B(176), 컨텍스트 C(178), 및 컨텍스트 D(180))의 모바일 컴퓨팅 디바이스(172a-d)(다양한 다른 컨텍스트에 묘사된 단일 모바일 컴퓨팅 디바이스로 의도됨)를 이용하여 음성입력을 모니터링 하는 예시를 나타낸다.
컨텍스트 A(174)를 참조하면, 모바일 컴퓨팅 디바이스(172a)는 사용자의 오피스(182)에 의치하는 중으로 도시된다. 본 예시에서, 모바일 컴퓨팅 디바이스(172a)는 오피스(182)와 연관된 무선 네트워크 “workwifi”(184)의 존재에 기초하여 그것의 현재 위치를 식별할 수 있다. 기호 186에 의해 지시되는 바와 같이, 모바일 컴퓨팅 디바이스(172a)는 컨텍스트 A(174)에 기초하여 사용자의 오피스(182)에서는 음성입력을 모니터링 하지 않기로 결정한다. 이 결정은 도 1a-b와 관련하여 논의한 다양한 요소들 중 어떤 것에도 기초할 수 있다.
컨텍스트 B(176)를 참조하면, 모바일 컴퓨팅 디바이스(172b)는 사용자의 자동차(188)에 내부에 위치하는 것으로 도시된다. 본 예시에서, 모바일 컴퓨팅 디바이스(172b)는 그것의 현재 컨텍스트를, 적어도, 차량용 도킹/충전 케이블(190)과의 연결에 기초하여 결정할 수 있다. 기호 186과 같은 기호의 부재가 나타내듯이, 모바일 컴퓨팅 디바이스(172b)는 컨텍스트 B(176)에 기초하여 사용자의 자동차(188) 내부에서 만들어진 사용자 요청을 모니터링 하기로 결정한다. 이 결정은 도 1a-b와 관련하여 논의한 다양한 요소들 중 어떤 것에도 기초할 수 있다.
컨텍스트 C(178)는 사용자의 집(192)에 위치하고 있는 모바일 컴퓨팅 디바이스(172c)를 나타낸다. 모바일 컴퓨팅 디바이스(172c)는 그것의 현재 위치를, 적어도, 사용자의 집(192)과 연관된 무선 네트워크 “homenet”(193)의 존재 및 모바일 디바이스 도크(194)에 위치하고 있는 상기 디바이스(172c)에 기초하여 결정할 수 있다. 전술한 바와 같이, 모바일 디바이스(172)는 다른 핀 배열과 같은 다양한 요소들에 기초하여 차량용 도킹/충전 케이블(190)과의 연결과 모바일 디바이스 도크(194) 사이를 구별할 수 있다. 기호 186과 같은 기호의 부재가 나타내듯이, 모바일 컴퓨팅 디바이스(172c)는 컨텍스트 C(178)에 기초하여 사용자의 자동차(192) 내부에서 만들어진 사용자 요청을 모니터링 하기로 결정한다. 이 결정은 도 1a-b와 관련하여 논의한 다양한 요소들 중 어떤 것에도 기초할 수 있다.
컨텍스트 D(180)는 쇼핑 센터(195)에 위치하고 있는 모바일 컴퓨팅 디바이스(172d)를 나타낸다. 모바일 컴퓨팅 디바이스(172d)는 그것의 현재 컨텍스트를, 적어도, 상대적으로 높은 수준의 주변 소음(196)(예를 들어, 쇼핑 센터(195)에서 이야기하는 다른 쇼핑객(shoppers), 쇼핑 센터(195)로 흘러 들어오는 배경 음악, 등) 및 다수의 이용 가능한 무선 네트워크(197)에 기초하여 결정한다. 주변 소음(196) 및 무선 네트워크들(197)에 기초하여, 모바일 컴퓨팅 디바이스(172d)는 일반적으로 그것이 공공 구역에 위치하고 있다고 추론할 수 있다. 컨텍스트 D(180)에 기초하여, 상기 모바일 컴퓨팅 디바이스는 기호 198에 의해 지시되는 바와 같이, 음성입력을 모니터링 하지 않기로 결정할 수 있다.
모바일 컴퓨팅 디바이스(172)는 모바일 컴퓨팅 디바이스(172)에 대한 컨텍스트가 변화함에 따라, 음성입력을 모니터링 하는 것과 사용자 요청을 모니터링 하지 않는 것 사이를 토글(toggle) 할 수 있다. 예를 들어, 사용자가 모바일 컴퓨팅 디바이스(172)와 함게 오피스(182)를 나와서 자동차(188)에 타면, 모바일 컴퓨팅 디바이스(172)는 (오피스(182)에서) 사용자 요청을 모니터링 하지 않는 것으로부터 (자동차(188)에서) 사용자 요청을 모니터링 하는 것으로 전환할 수 있다.
모바일 컴퓨팅 디바이스(172)가 사용자 입력을 모니터링 하는 컨텍스트들은 디바이스들 및/또는 연관된 사용자들 사이에서 다를 수 있고, 시간에 걸쳐서 변화할 수 있다. 모바일 컴퓨팅 디바이스(172)가 사용자 입력을 모니터링 하는 컨텍스트들을 지속적으로 개선하기 위해 피드백 루프(feedback loop)가 사용될 수 있다. 예를 들어, 만약 사용자가 시간에 걸쳐서 컨텍스트 C(178) 내의 컴퓨팅 디바이스(172)에게 많은 음성-기반 요청들을 제공하지 않으면, 모바일 컴퓨팅 디바이스(172)는 컨텍스트 C(178)에서 음성입력 모니터링을 중단할 수 있다. 역으로, 만약 사용자가 수동으로 컴퓨팅 디바이스(172)가 컨텍스트 A(174)에서 적지 않은 빈도로 음성입력을 수신하도록 한다면, 모바일 컴퓨팅 디바이스(172)는 컨텍스트 A(174)에서 음성입력 모니터링을 시작할 수 있다.
도 2a-b는 모바일 컴퓨팅 디바이스(202)와 연관된 현재 컨텍스트에 기초하여 음성입력을 자동으로 모니터링 하는 예시 시스템(200)의 다이어그램이다. 본 예시에서, 모바일 컴퓨팅 디바이스(202)는, 도 1a-c와 관련하여 전술한 모바일 컴퓨팅 디바이스들(102, 142, 및 172)와 유사하게, 모바일 컴퓨팅 디바이스 및/또는 모바일 컴퓨팅 디바이스의 사용자와 연관된 현재 컨텍스트에 기초하여 언제 음성입력 모니터링을 시작하고 중지할 것인지를 자동으로 결정하도록 구성된다.
모바일 컴퓨팅 디바이스(202)는 음성 입력(뿐만 아니라 다른 타입의 입력도)이 모바일 컴퓨팅 디바이스(202)에 의해 수신될 수 있는 입력 서브시스템(204)을 포함하는 것으로 도시된다. 도 2b를 참조하면, 입력 서브시스템(204)는 (오디오-기반 입력을 수신하도록 구성된) 마이크로폰(206a), (키-기반 입력을 수신하도록 구성된) 키보드(206b), (터치-기반 입력을 수신하도록 구성된) 터치스크린(206c), (모션-기반 입력을 수신하도록 구성된) 가속도계(206d), (GUI 포인터-기반 입력을 수신하도록 구성된) 트랙볼(206e), (시각적 입력을 수신하도록 구성된) 카메라(206f), 및 (조도에 기초한 입력을 수신하도록 구성된) 광센서(206g)를 포함하는 것으로 도시된다. 입력 서브시스템(204)은 또한 네트워크-기반 입력 및 출력을 수신하도록 구성된 네트워크 인터페이스(208)(예를 들어, 무선 네트워크 인터페이스, USB(universal serial bus) 인터페이스, BLUEOOTH 인터페이스, PSTN(public switched telephone network) 인터페이스, 이더넷(Ethernet) 인터페이스, 셀룰러 네트워크 인터페이스, 3G 및/또는 4G 네트워크 인터페이스, 등)를 포함한다. 언급되지 않은 다른 타입의 입력 디바이스들도 역시 입력 서브시스템(204)의 일부가 될 수 있다.
모바일 컴퓨팅 디바이스(202)의 입력 파서(parser)(210)는 입력 서브시스템(204)로부터, 전기적 오디오 데이터와 같은 입력을 수신하고, 상기 수신된 오디오 데이터가 음성 입력을 포함하는지 여부를 판단하기 위해 구성될 수 있다. 입력 파서(210)는 발화 분석 서브시스템(212)를 포함할 수 있다. 발화 분석 서브시스템(212)은 사용자 요청을 모니터링 하는 동안 마이크로폰(206a)에 의해 수신된 오디오 데이터에 어떤 음성 입력이 존재하는지 여부를 분석하고 판단할 수 있다. 입력 파서(210)는 입력 서브시스템(204)를 통해 수신된 사용자 입력을 해석하기 위해, 카메라(206f)를 통해 획득된 이미지들을 해석하기 위한 컴퓨터 비전 모듈 및 가속도계(206d)에 의해 제공된 물리적 움직임 데이터를 해석하기 위한 제스쳐 모듈과 같은, 도시되지 않은 다른 모듈들을 포함할 수 있다.
모바일 디바이스 컨텍스트 결정부(214)는 모바일 컴퓨팅 디바이스(202)에 대한 현재 컨텍스트를 결정할 수 있다. 모바일 디바이스 컨텍스트 결정부(214)는, 모바일 컴퓨팅 디바이스(202)의 다양한 컨텍스트 모니터링부뿐만 아니라, 입력 서브시스템(204)에 의해 수신되고 입력 파서(210)에 의해 해석되는 입력을 이용하여 모바일 디바이스(202)에 대한 현재 컨텍스트를 결정할 수 있다.
예를 들어, GPS(global positioning system)부(216)는 모바일 디바이스 컨텍스트 결정부(214)로 지리적 위치 정보를 제공할 수 있고 전력/연결 관리부(217)는 충전 및/또는 통신 연결에 관한 정보(예를 들어, 디바이스가 도킹되어 있고, 디바이스가 무선 네트워크에 연결되어 있음, 등)뿐만 아니라 현재 전력원 및/또는 모바일 컴퓨팅 디바이스의 전력 상태에 관한 정보(예를 들어, 외부 전력 소스에 연결되고, 배터리가 80% 충전됨, 등)도 제공할 수 있다. 이동(travel) 모니터링부(218)는 (이동 데이터 저장소(220)와 함께) 현재 이동중인 경로 및 모바일 컴퓨팅 디바이스(202)에 의해 이동되는 상습적인(habitual) 경로들에 대한 정보를 제공할 수 있다. 활동 모니터링부(222)는 (활동 데이터 저장소(224)와 함께) 모바일 디바이스(202) 상의 최근 및 습관적인 사용자 활동(예를 들어, 사용된 애플리케이션들, 다양한 시간에 엑세스된 특정 정보, 등)에 관련된 정보를 제공할 수 있다. 위치 모니터링부(226)는 모바일 컴퓨팅 디바이스(202)의 현재 물리적 위치(예를 들어, 집, 직장, 차량 내부, 등)에 관한 정보를 제공할 수 있다. 위치 모니터링부(226)는 상기 현재 물리적 위치를 결정하기 위해 위치 데이터 저장소(227)를 이용할 수 있다. 위치 데이터 저장소(227)는 모바일 컴퓨팅 디바이스(220)의 탐색된 환경(surroundings)(예를 들어, 이용 가능한 무선 네트워크, 주변 소음, 근처의 컴퓨팅 디바이스들, 등)을 물리적 위치와 연관시킬 수 있다. 위치 모니터링부(226)는 모바일 디바이스(202) 근처에 물리적으로 위치한 엔티티(entities)(예를 들어, 기업, 공원, 축제, 대중교통) 또한 식별할 수 있다.
시간 및 날짜부(228)는 현재 시간 및 날짜 정보를 제공할 수 있고 캘린더부(230)는 (캘린더 데이터 저장소(232)와 함께) 일정과 관련된 정보를 사용자에게 제공할 수 있다. 이메일부(234)는 (이메일 데이터 저장소(236)와 함께) 이메일 관련 정보(3.g., 최근 발송/수신된 이메일들)를 제공할 수 있다. 모바일 컨텍스트 결정부(214)는 언급되거나 도시되지 않은 다른 컨텍스트 모니터링부들로부터 정보를 수신할 수 있다.
일부 실시예에서, 컨텍스트 모니터링부(216-236)는, 모바일 컴퓨팅 디바이스(202)로부터 원격으로, 부분, 또는 전체로 실행될 수 있다. 예를 들어, 이메일부(234)는 원격 서버 시스템에 의해 유지되고 제공되는 이메일-관련 데이터를 단지 디스플레이만 하는 씬-클라이언트(thin-client) 일 수 있다. 이와 같은 예시에서, 이메일부(234)는 모바일 디바이스 컨텍스트 결정부(214)로 제공하기 위한 이메일-관련 정보를 획득하기 위해 상기 원격 서버 시스템과 상호작용 할 수 있다.
모드선택부(238)는, 모바일 디바이스 컨텍스트 결정부(214)에 의해 결정된, 모바일 디바이스(202)에 대한 현재 컨텍스트를 모바일 컴퓨팅 디바이스(202)에 대한 사용자 요청을 지시하는 음성입력을 위한 오디오 데이터 모니터링을 시작할지 중지할지 여부를 결정하기 위해 사용할 수 있다. 모드선택부(238)는, 적어도, 사용자 요청에 대해 오디오 데이터가 모니터링 되는 오디오 모니터링 모드와 모바일 컴퓨팅 디바이스(202)가 오디오 데이터를 모니터링 하지 않는 비(no) 모니터링 모드 사이에서 선택할 지 여부를 결정할 수 있다. 모드들 간 전환 여부(오디오 모니터링을 시작할지 중지할지 여부)를 결정하는 것은, 도 1a-c와 관련하여 전술한 바와 같이, 모바일 디바이스(202)(및/또는 모바일 디바이스(202)와 연관된 사용자)의 현재 컨텍스트로부터 취해진 다양한 고려사항과 추론들 중 어느 것에도 기초할 수 있다.
상기 현재 컨텍스트를 사용하는 것에 부가하여, 모드선택부(238)는 사용자 행동 데이터 저장소(242)에 저장된 오디오 데이터 모니터링과 연관된 사용자 행동 데이터에 기초하여 사용자 요청을 위한 오디오 데이터 모니터링을 시작할지 중지할지 여부를 결정할 수 있다. 사용자 행동 데이터 저장소(242)는 이전의 모드 선택들, 모드 선택들이 만들어졌을 당시의 모바일 디바이스(202)에 대한 컨텍스트, 및 상기 선택된 모드에 관한 사용자의 차후(subsequent) 행동(예를 들어, 사용자가 오디오 모니터링 모드 동안 음성입력을 통해 요청을 제공했거나 하지 않음, 사용자가 수동으로 다른 작동 모드로 전환했음, 비모니터링 모드에 있을 때 사용자가 수동으로 디바이스가 음성입력을 수신하고 처리하도록 함, 등)을 기록(log)할 수 있다. 사용자 행동 데이터 저장소(242)에 저장된 사용자 행동 데이터는 디바이스(202)의 상기 컨텍스트에 기초하여 선택된 상기 모드가 사용자에게 유용 및/또는 편리하도록 정확하게 추론되었는지 여부를 나타낼 수 있다. 작동 모드를 선택하기 위해 사용자 행동 데이터를 이용하는 예시들은 도 1c와 관련하여 상술되어 있다.
모드선택부(238)는, 적어도, 모드 선택들에 관한 입력 서브시스템(204)과 입력 파서(210)에 통지할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(202)가 오디오 모니터링 모드로 전환하고 있는 것이 통지되는 것에 응답하여, 입력 서브시스템(204)는 오디오 데이터 수신을 시작하기 위해 마이크로폰(206a)을 활성화 할 수 있고 입력 파서(210)는 마이크로폰(206a)에 의해 제공된 오디오 데이터를 처리하기 위한 상기 발화 분석 서브시스템을 활성화할 수 있다. 또 다른 예시에서, 모바일 컴퓨팅 디바이스(202)가 비 모니터링 작동 모드로 전환하고 있는 것이 통지되는 것에 응답하여, 입력 서브시스템(204)은 마이크로폰(206a)을 비활성화 할 수 있고 입력 파서(210)는 상기 발화 분석 시스템을 비활성화 할 수 있다.
적어도 마이크로폰(206a)과 발화 분석 서브시스템(212)이 오디오 모니터링 작동 모드 중 활성화되고 발화 분석 서브시스템(212)이 마이크로폰(206a) 및 입력 서브시스템(204)에 의해 제공된 오디오 데이터 스트림으로부터 음성입력을 검출하면, 사용자 요청 식별기(241)는 상기 식별을 통지받을 수 있다. 사용자 요청 식별기(241)는 상기 검출된 음성입력이 상기 모바일 컴퓨팅 디바이스가 오퍼레이션(예를 들어, 정보 검색, 미디어 파일 재생, 운전 방향 제공, 등)을 수행하도록 하는 사용자로부터의 요청을 지시하는지 여부를 결정할 수 있다. 사용자 요청 식별기(241)는 특정 음성입력이 사용자 요청을 지시하는지 여부를 결정하는 것을 지원하기 위해, 키워드 식별기(242a), 문법모듈(syntax module)(242b), 및 음성구조 분석모듈(242c)과 같은 다양한 서브시스템들을 이용할 수 있다.
키워드 식별기(242a)는 특정 음성입력이 모바일 컴퓨팅 디바이스(202)를 향하는지 여부를 상기 특정 음성입력 내에 키워드 저장소(243)에 저장된 미리 정의된 키워드 그룹으로부터의 키워드들이 존재하는지에 기초하여 결정할 수 있다. 예를 들어, 상기 사용자가 모바일 컴퓨팅 디바이스(202)를 언급할 때 사용하는 이름(예를 들어, "mobile device")은 키워드 저장소(243)의 키워드일 수 있다. 또 다른 예시에서, 모바일 컴퓨팅 디바이스(202)에 의해 빈번하게 처리되는, ("search for local news"에서의) "search" 및 ("play song by Beatles"에서의) "play)와 같은 명령들이 키워드 저장소(243)에 포함될 수 있다. 키워드 저장소(243) 내의 키워드들은 미리 정의 및/또는 사용자 정의될 수 있고, 시간에 따라 변할 수 있다. 예를 들어, 피드백 루프가 사용자 요청에 대한 키워드-기반 식별이 정확한지 아닌지 여부(예를 들어, 사용자가 상기 음성입력이 사용자 요청으로 식별될 것을 의도하였는가?)를 결정하기 위해 사용될 수 있다. 이와 같은 피드백 루프는 키워드가 키워드 저장소(243)에 추가되거나 그로부터 제거되어야 하는지 여부를 결정하기 위한 후속 사용자 액션으로부터 도출된 추론(inferences)들을 이용할 수 있다. 예를 들어, 사용자가 사용자의 발화 내의 용어 "search"의 식별에 응답하여 제공된 검색결과들에 대해, "huh?", 및 "what was that?"과 같은 약간 놀라는(quizzical) 반응을 빈번하게 갖는다면, 용어 "search"는 키워드 저장소(243)로부터 제거될 수 있다.
도 1a와 관련하여 전술된 문법 및 음성 입력 구조를 사용하는 논의와 유사하게, 상기 음성입력이 모바일 컴퓨팅 디바이스(202)를 향하는지 여부를 결정하기 위하여 문법모듈(242b)는 음성입력의 문법을 분석할 수 있고 음성구조 분석모듈(242c)는 음성입력 구조를 분석할 수 있다. 키워드 식별기(242a)와 유사하게, 문법모듈(242b) 및/또는 음성구조 분석모듈(242c)은 시간에 걸쳐 음성입력을 사용자 요청으로 식별하는 것을 개선하기 위해 피드백 루프를 사용할 수 있다.
사용자 요청 식별기(241)로부터 식별된 사용자 요청들을 이용하여, 입력처리부(244)는 상기 사용자 요청들을 처리할 수 있다. 일부 실시예에서, 입력처리부(244)는 상기 사용자 요청들을 상기 사용자 입력과 연관된 애플리케이션 및/또는 서비스로 포워딩할 수 있다(예를 들어, 음악을 재생하기 위한 사용자 요청을 뮤직 플레이어 애플리케이션에 제공) 일부 실시예에서, 입력처리부(244)는 상기 사용자 요청과 연관된 하나 이상의 오퍼레이션(operations)들이 수행되도록 할 수 있다. 예를 들어, 입력처리부(244)는 상기 사용자 입력과 연관된 상기 오퍼레이션들의 적어도 일부를 수행하도록 구성된 원격 서버 시스템과 통신할 수 있다.
도 1a-c와 관련하여 전술한 바와 같이, 컨텍스트 결정, 모드 선택, 음성입력 식별, 사용자 요청 식별, 및/또는 사용자 요청 처리와 관련된 오퍼레이션들은 모바일 컴퓨팅 디바이스(202) 상에서 로컬로(locally) 및/또는 모바일 컴퓨팅 디바이스(202)로부터 원격으로 수행될 수 있다. 예를 들어, 캘린더 애플리케이션이 모바일 컴퓨팅 디바이스(202) 상에서 로컬로 실행되는 실시예에서, 캘린더 정보에 대한 사용자 요청은 모바일 컴퓨팅 디바이스(202) 상에서 로컬로 수행될 수 있다(예를 들어, 캘린더 데이터 저장소(232)에 저장된 관련 캘린더 정보에 대해 캘린더부(230)를 쿼리). 또 다른 예시, 캘린더 애플리케이션 용 캘린더 데이터가 원격 서버 시스템 상에 제공되는 실시예에서, 모바일 컴퓨팅 디바이스(202)는 상기 관련 캘린더 정보에 엑세스하기 위해 상기 원격 서버 시스템과 상호작용 할 수 있다.
모바일 컴퓨팅 디바이스(202)의 출력 서브시스템(246)은 입력처리부(244)에 의해 획득된 출력을 디바이스(202)의 사용자에게 제공할 수 있다. 출력 서브시스템(246)은, 디스플레이(248a) (예를 들어, LCD(liquid crystal display), 터치스크린), 프로젝터(248b) (예를 들어, 이미지를 디바이스(202) 외부로 프로젝팅 할 수 있는 이미지 프로젝터), 스피커(248c), 헤드폰 잭(248d), 등과 같은 다양한 출력 디바이스들을 포함할 수 있다. 네트워크 인터페이스(208) 또한 출력 서브시스템(246)의 일부가 될 수 있으며 결과식별부(result identification unit)(244)에 의해 획득된 상기 결과들을 제공(예를 들어, 결과들을 BLUETOOTH 헤드셋으로 전송)하도록 구성될 수 있다. 출력 서브시스템(246)은 텍스트를 스피커(248C)에 의해 출력될 수 있는 오디오 데이터로 변환하기 위해 구성되는 TTS(text-to-speech) 모듈(248e) 또한 포함할 수 있다. 예를 들어, TTS 모듈(248e)은 사용자 요청을 처리하는 입력처리부(244)에 의해 생산된 텍스트-기반 출력을 모바일 컴퓨팅 디바이스(202)의 사용자에 의해 재생될 수 있는 오디오 출력으로 변환할 수 있다.
도 2a를 참조하면, 모바일 컴퓨팅 디바이스(202)는 무선송신기(250)(예를 들어, 셀룰러 네트워크 송수신기, 무선 네트워크 라우터, 등)과 무선으로 통신하고 네트워크(252)(예를 들어, 인터넷, PSTN, 셀룰러 네트워크, LAN(local area network), VPN(virtual private network), 등)로의 엑세스를 획득할 수 있다. 네트워크(252)를 통해, 모바일 컴퓨팅 디바이스(202)는, 모바일 디바이스(202)로 모바일 디바이스 관련 서비스 및 데이터를 제공(예를 들어, 캘린더 데이터, 이메일 데이터, 다른 전화기로의 전화 통화 연결, 등)하도록 구성될 수 있는 모바일 디바이스 서버 시스템(254)(하나 이상의 네트워크로 연결된 서버 컴퓨터들)과 통신할 수 있다.
모바일 디바이스(202)는 또한 네트워크(252)를 통해 하나 이상의 정보 서버 시스템(256)들과 통신할 수도 있다. 정보 서버 시스템(256)은 사용자 요청들을 처리하는 것과 관련될 수 있는 정보를 제공하는 서버 시스템일 수 있다. 예를 들어, 정보 서버 시스템(256)은 현재의 교통상황, 최근의 운전 경로, 일기예보, 및 모바일 디바이스(202)의 현재 지리적 위치 근처에 위치한 기업에 관한 정보를 제공할 수 있다.
도 3a-c는 모바일 컴퓨팅 디바이스의 컨텍스트에 기초하여 음성입력을 자동으로 모니터링 하는 예시 기술 300, 330, 및 350에 대한 흐름도이다. 예시 기술 300, 330, 및 350은, 도 1a-c와 관련하여 전술한 모바일 컴퓨팅 디바이스(102, 142, 및 172) 및/또는 도 2a-b와 관련하여 전술한 모바일 컴퓨팅 디바이스(202)와 같은, 어떤 다양한 모바일 컴퓨팅 디바이스에 의해서도 수행될 수 있다.
도 3a를 참조하면, 예시 기술 300은 일반적으로 모바일 컴퓨팅 디바이스의 컨텍스트에 기초하여 음성입력을 자동으로 모니터링 하는 것을 지시한다. 상기 기술 300은 단계 302에서 모바일 컴퓨팅 디바이스(및/또는 상기 모바일 컴퓨팅 디바이스의 사용자)와 연관된 현재 컨텍스트를 탐색하는 것으로 시작한다. 예를 들어, 모바일 디바이스 컨텍스트 결정부(214)는, 도 2b에 대해 기술된 바 있는, 입력 서브시스템(204) 및 컨텍스트 모니터링부(216-236)와 같은, 다양한 컨텍스트-관련 정보 소스들에 기초하여 모바일 컴퓨팅 디바이스(202) 및/또는 모바일 컴퓨팅 디바이스(202)의 사용자와 연관된 현재 컨텍스트를 탐색할 수 있다.
상기 현재의 컨텍스트에 기초하여 현재의 작동 모드에서 제2 작동 모드로의 전환 여부에 대한 결정이 이루어질 수 있다 (304). 예를 들어, 모바일 컴퓨팅 디바이스(202)의 모드선택부(238)는 모바일 디바이스 컨텍스트 결정부(214)에 의해 결정된 현재의 컨텍스트에 기초하여 음성입력 모니터링의 시작(현재 작동모드에서 제2 작동모드로 전환)여부를 결정할 수 있다.
하나 이상의 마이크로폰 및/또는 발화 분석 서브시스템이 제2 작동모드로의 전환 여부의 결정에 응답하여 활성화 될 수 있다(306). 예를 들어, 음성입력 모니터링을 시작하기로 결정하는 것에 응답하여, 모드선택부(238)는 입력 서브시스템(204)와 입력 파서(210)에게 마이크로폰(206a)과 발화 분석 서브시스템(212)을 활성화 할 것을 지시할 수 있다.
상기 활성화된 마이크로폰으로부터 제공되는 오디오 데이터 스트림의 지속적인 모니터링은 음성입력에 대해 모니터링될 수 있다(308). 예를 들어, 발화 분석 서브시스템(212)은 상기 스트림에 포함된 다른 사운드 및 노이즈로부터 음성입력을 검출하기 위해 상기 활성화된 마이크로폰(206a)에 의해 제공된 상기 오디오 데이터 스트림을 모니터링 할 수 있다.
상기 지속적인 모니터링 중에 검출된 음성입력이 오퍼레이션(operation)을 수행하도록 하는 요청을 나타내는지 여부에 대한 판단이 이루어질 수 있다(310). 예를 들어, 사용자 요청 식별기(241)는 상기 음성입력이 모바일 컴퓨팅 디바이스(202)로 하여금 오퍼레이션을 수행하도록 하는 사용자 요청을 나타내는지 여부를 판단하기 위해 발화 분석 서브시스템(212)에 의해 식별된 음성입력을 검사할 수 있다.
상기 검출된 음성입력에 의해 사용자 요청이 지시되는 것으로 판단되는 것에 응답하여, 상기 사용자 요청에 의해 지시되는 상기 요청된 오퍼레이션이 수행되는 것이 야기될 수 있다(312). 예를 들어, 사용자 요청 식별기(241)는 입력처리부(241)가 상기 사용자 요청에 의해 지시된 오퍼레이션을 수행하도록 명령할 수 있다. 일부 실시예에서, 입력처리부(241)는 모바일 컴퓨팅 디바이스(202)상에서 로컬로 상기 오퍼레이션을 수행할 수 있다(예를 들어, 로컬 데이터, 서비스, 및/또는 상기 오퍼레이션을 수행하기 위한 애플리케이션에 엑세스). 일부 실시예에서, 입력처리부(241)는 상기 요청된 오퍼레이션을 수행하기 위해 모바일 디바이스 서버 시스템(254) 및/또는 정보 서버 시스템(256)과 상호작용 할 수 있다.
검출된 음성입력에 의해 지시되는 사용자 요청에 응답하는 출력이 제공될 수 있다(314). 예를 들어, 출력 서브시스템(246)은 상기 요청된 오퍼레이션의 수행에 기초한 출력을 서브시스템(246)의 하나 이상의 컴퍼넌트(248a-e)를 이용하여 제공할 수 있다.
상기 모바일 컴퓨팅 디바이스(및/또는 상기 모바일 컴퓨팅 디바이스의 사용자)에 대한 현재 컨텍스트에 변화가 검출될 수 있다(316). 예를 들어, 입력 서브시스템(204) 및/또는 컨텍스트 모니터링부(216-234)에 의해 생성된 이벤트는 모바일 디바이스 컨텍스트 결정부(214)로 하여금 상기 모바일 컴퓨팅 디바이스 및/또는 상기 모바일 컴퓨팅 디바이스의 사용자에 대한 컨텍스트가 변화했는지 여부를 평가하도록 할 수 있다.
상기 컨텍스트의 (적어도 임계치의) 변화가 검출되는 것에 응답하여, 제3 작동 모드로의 전환 여부에 대한 결정이 상기 변화된 컨텍스트에 기초하여 이루어질 수 있다(318). 예를 들어, 모드선택부(238)는 음성입력 모니터링의 중단(제3 작동 모드로의 전환) 여부를 결정하기 위해 모바일 컴퓨팅 디바이스(202)의 상기 변화된 컨텍스트를 검토할 수 있다.
제3 작동 모드로 전환하기 위한 결정에 기초하여, 상기 하나 이상의 마이크로폰 및/또는 발화 분석 서브시스템이 비활성화될 수 있다(320). 예를 들어, 음성입력 모니터링을 중단하기로 결정(제3 작동 모드로 전환)하면, 모드선택부(238)는 입력 서브시스템(204) 및 입력 파서(210)가 마이크로폰(206a) 및 발화 분석 서브시스템(212)을, 각각 비활성화 하도록 명령할 수 있다.
도 3b를 참조하면, 예시 기술 330은 일반적으로 모바일 컴퓨팅 디바이스의 현재 컨텍스트에 기초하여 음성입력 모니터링의 시작(현재 작동 모드에서 제2 작동 모드로 전환) 여부를 결정하는 것을 지시한다. 예시 기술 330은 도 3a와 관련하여 전술된 기술 300의 일부로 수행될 수 있다. 예를 들어, 기술 330은 상기 기술 300의 단계 304에서 수행될 수 있다.
상기 기술 330은 상기 현재 컨텍스트에 관련된 사용자 행동 데이터를 식별함으로써 단계 332에서 시작할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(202)의 현재 컨텍스트에 기초하여, 컨텍스트 결정부(214)에 의해 결정되면, 모드선택부(238)는 사용자 행동 데이터 저장소(240)로부터 상기 현재 컨텍스트와 유사한 컨텍스트와 연관된 사용자 행동 데이터에 엑세스할 수 있다.
사용자가 음성입력 제공에 대한 적어도 임계 가능성을 가지는지 여부에 대한 판단이, 상기 현재 컨텍스트에 관련된 것으로 식별되는 사용자 행동 데이터와 같은 다양한 요소들에 기초하여 이루어질 수 있다(334). 예를 들어, 모드선택부(238)는 모바일 컴퓨팅 디바이스(202)가, 유사한 컨텍스트들에서 이전에 수행된 음성 모니터링에 대한 이전 사용자 액션과 같은(사용자 행동 데이터), 다양한 요소에 기초하여 음성입력 모니터링을 시작한다면 사용자가 음성입력을 제공할 개연성이 있는지 여부에 대해 판단할 수 있다. 만약 사용자에 의해 음성입력이 제공되는 적어도 임계 개연성이 있다면, 그때 모드선택부(238)는 음성입력 모니터링을 시작할 수 있다.
음성입력 모니터링이 상기 사용자 및/또는 모바일 컴퓨팅 디바이스에 대해 적어도 임계 수준의 편의를 가질 것인지 여부에 대한 판단이 이루어질 수 있다(336). 예를 들어, 모드선택부(238)는, 도 1b에 도시된 단계 B(150)에 관한 이전 설명과 유사하게, 음성입력 모니터링이 모바일 컴퓨팅 디바이스(202)의 사용자를 편리하게 할 것인지 여부 및/또는 음성입력 모니터링이 모바일 컴퓨팅 디바이스(202)를 편리하게 할 것인지 여부(예를 들어, 모바일 컴퓨팅 디바이스(202)가 음성입력을 지속적으로 모니터링 하기 위해 충분한 전력 공급을 가지고 있는지 여부를 검토)에 대해 검토할 수 있다.
도 3c를 참조하면, 예시 기술 350은 일반적으로 오디오 데이터 모니터링 중에 탐색된 음성입력이 오퍼레이션을 수행하도록 하는 사용자 요청인지 여부를 결정하는 것을 지시한다. 예시 기술 350은 도 3a와 관하여 전술된 기술 300의 일부로써 수행될 수 있다. 예를 들어, 상기 기술 350은 기술 300의 단계 310에서 수행될 수 있다.
기술 350은 미리 정의된 키워드 그룹으로부터 하나 이상의 키워드들이 탐색된 음성입력에 존재하는지 여부를 식별하는 것으로 단계 352에서 시작할 수 있다. 예를 들어, 사용자 요청 식별기(241)의 키워드 식별기(242a)는 키워드 데이터 저장소(243)에 저장된 하나 이상의 키워드들이 음성입력을 지속적으로 모니터링 하는 동안 발화 분석 서브시스템(212)에 의해 탐색된 음성 입력 내에 존재하는지 여부를 검사할 수 있다.
상기 음성입력이 명령인지 질문인지 여부에 대한 결정이 상기 음성입력의 문법에 기초하여 이루어질 수 있다(354). 예를 들어, 문법 모듈(242b)는 발화 분석 서브시스템(212)에 의해 탐색된 음성입력의 상기 문법이 사용자에 의해 모바일 컴퓨팅 디바이스(202)로 향하는 명령 또는 질문을 지시하는지 여부를 결정할 수 있다.
상기 음성입력과 연관된 구조의 변화가 식별될 수 있고(356), 상기 식별된 변화에 기초하여, 상기 음성입력이 상기 모바일 컴퓨팅 디바이스를 향하는지 여부에 대한 결정이 이루어질 수 있다(358). 예를 들어, 상기 사용자 요청 식별기(241)의 음성구조 분석모듈(242c)은 발화 분석 서브시스템(212)에 의해 탐색된 상기 음성입력의 구조가 상기 음성입력이 모바일 컴퓨팅 디바이스(202)를 향하는 방식으로 변경되었는지 여부를 결정할 수 있다.
도 4는 본 문서에서 설명된 기술, 시스템, 메커니즘, 및 방법을 실행하기 위해 사용될 수 있는 시스템의 개념 다이어그램이다. 모바일 컴퓨팅 디바이스(410)는, 모바일 컴퓨팅 디바이스에게 네트워크(450)을 통해 다양한 많은 서비스(460)로의 무선 엑세스를 제공할 수 있는, 기지국(base station)(440)과 무선으로 통신할 수 있다.
본 예시에서, 모바일 컴퓨팅 디바이스(410)는 모바일 컴퓨팅 디바이스(410) 사용자에게 콘텐트를 표시하기 위한 터치스크린 디스플레이 디바이스(412)를 포함하는 핸드헬드(handheld) 모바일 전화(예를 들어, 스마트폰 또는 애플리케이션 전화)로 묘사된다. 모바일 컴퓨팅 디바이스(410)는 모바일 컴퓨팅 디바이스(410)의 동작에 영향을 주는 사용자-입력을 수신하기 위한 다양한 입력 디바이스(예를 들어, 키보드(414) 및 터치스크린 디스플레이 디바이스(412))를 포함한다. 추가적인 실시예에서, 모바일 컴퓨팅 디바이스(410)는 랩탑 컴퓨터, 태블릿 컴퓨터, PDA, 임베디드 시스템(예를 들어, 자동차 네비게이션 시스템), 데스크탑 컴퓨터, 또는 컴퓨터화된 워크스테이션일 수 있다.
모바일 컴퓨팅 디바이스(410)는 다양한 시각적, 청각적, 및 촉각적인 사용자-출력 메커니즘을 포함할 수 있다. 예시적인 시각적 출력 메커니즘은 디스플레이 디바이스(412)이고, 비디오, 그래픽, 이미지, 및 가시적인 사용자 인터페이스를 제공하기 위해 결합하는 텍스트를 시각적으로 디스플레이 할 수 있다. 예를 들어, 디스플레이 디바이스(412)는 3.7인치 아몰레드(AMOLED) 스크린일 수 있다. 다른 시각적 출력 메커니즘은 LED 상태 라이트(light)(예를 들어, 음성메일이 수신되었을 때 깜박이는 라이트)을 포함할 수 있다.
예시적인 촉각적 출력 메커니즘은 진동 알림(예를 들어, 사용자에게 수신전화 호를 알리기 위해 또는 터치스크린(412)의 사용자 연락처를 확인하기 위해 진동함)을 제공하기 위해 비평형 질량(unbalanced weight)에 연결된 작은 전기 모터이다. 나아가, 모바일 컴퓨팅 디바이스(410)는 전기 신호를 사운드, 예를 들어, 음악, 가청 알림, 또는 전화 호의 개인 목소리로 변환하는 하나 이상의 스피커(420)를 포함할 수 있다.
사용자-입력을 수신하기 위한 예시적인 메커니즘은 키보드(414)를 포함하고, 이는 전체 쿼티(qwerty) 키보드 또는 숫자 '0-9', '*' 및 '#' 키를 포함하는 종래의 키패드 일 수 있다. 키보드(414)는 사용자가 물리적으로 접촉하거나 키보드 키를 누를 때 입력을 수신한다. 트랙볼(trackball)(416)의 사용자 조작 또는 트랙패드와의 상호작용은 사용자가 회전 정보의 방향성 및 회전율을 모바일 컴퓨팅 디바이스(410)으로 제공하도록 할 수 있다(예를 들어, 디스플레이 디바이스(412) 상의 커서의 위치를 조작하기 위함)
모바일 컴퓨팅 디바이스(410)는 터치스크린 디스플레이 디바이스(412)의 물리접촉 위치(손가락 또는 스타일러스에 의한 접촉 위치)를 결정할 수 있다. 터치스크린(412)를 사용하여, 사용자가 그래픽 사용자 인터페이스 요소를 접촉함으로써 터치스크린(412) 상에 나타나는 그래픽 사용자 인터페이스 요소와 상호작용하는, 다양한 "가상"(virtual)" 입력 메커니즘이 생성될 수 있다. "가상" 입력 메커니즘의 일 예시는 키보드가 터치스트린 상에 디스플레이 되고, 사용자가 각 키에 대응하는 터치스크린(412)의 지역을 누름으로써 키들을 선택하는 "소프트웨어 키보드"이다.
모바일 컴퓨팅 디바이스(410)는 기계적 또는 터치 감지버튼(418a-d)를 포함할 수 있다. 부가하여, 모바일 컴퓨팅 디바이스는 하나 이상의 스피커(420)에 의한 볼륨 출력을 조절하기 위한 버튼들, 및 모바일 컴퓨팅 디바이스를 키거나 끄기 위한 버튼을 포함할 수 있다. 마이크로폰(422)는 모바일 컴퓨팅 디바이스(410)가 가청 사운드를 디지털로 인코딩되고 컴퓨터-판독가능 메모리에 저장되거나, 또다른 컴퓨팅 디바이스로 전송될 수 있는 전기신호로 변환하도록 할 수 있다. 모바일 컴퓨팅 디바이스(410)는 또한 디지털 나침반, 가속도계, 근접 센서, 및 주변광 센서들도 포함할 수 있다.
운영체제는 모바일 컴퓨팅 디바이스의 하드웨어(예를 들어, 입/출력 메커니즘 및 컴퓨터-판독가능한 매체로부터 수신된 명령어를 실행하는 프로세서)와 소프트웨어 사이에 인터페이스를 제공할 수 있다. 예시적인 운영체제는 안드로이드(ANDROID) 모바일 디바이스 플랫폼; 애플 아이폰/맥 OS X 운영체제; 마이크로소프트 윈도우즈 7/윈도우즈 모바일 운영체제; 심비안(SYMBIAN) 운영체제; 림 블랙베리(RIM BLACKBERRY) 운영체제; 팜 웹(PALM WEB) 운영체제; 다양한 유닉스 계열의 운영체제(UNIX-flavored operating systems); 또는 컴퓨터화된 디바이스들 소유의 운영체제를 포함한다. 운영체제는 컴퓨팅 디바이스와 사용자 사이의 상호작용을 용이하게 하는 애플리케이션 프로그램들의 실행을 위한 플랫폼을 제공할 수 있다.
모바일 컴퓨팅 디바이스(410)는 터치스크린(412)에 그래픽 유저 인터페이스를 제공할 수 있다. 그래픽 유저 인터페이스는 하나 이상의 그래픽 인터페이스 요소들의 집합이며, 정적(예를 들어, 디스플레이가 일정 기간 동안 동일하게 유지된 채로 나타남)이거나, 또는 동적(예를 들어, 그래픽 사용자 인터페이스가 사용자 입력 없이 움직이는 그래픽 인터페이스 요소들을 포함함)일 수 있다.
그래픽 인터페이스 요소는 텍스트, 선, 형(shape), 이미지, 또는 그 조합일 수 있다. 예를 들어, 그래픽 인터페이스 요소는 데스크탑에 디스플레이 된 아이콘 및 아이콘과 연관된 텍스트일 수 있다. 일부 예시들에서, 그래픽 인터페이스 요소는 사용자-입력으로 선택가능하다. 예를 들어, 사용자는 그래픽 인터페이스 요소의 디스플레이에 대응하는 터치스크린의 영역을 누름으로써 그래픽 인터페이스 요소를 선택할 수 있다. 일부 예시들에서, 사용자는 포커스를 가지는 단일 그래픽 인터페이스 요소를 강조(highlight)하기 위해 트랙볼을 조작할 수 있다. 그래픽 인터페이스 요소의 사용자-선택은 모바일 컴퓨팅 디바이스에 의해 미리 정의된 액션을 작동시킬 수 있다. 일부 예시들에서, 선택 가능한 그래픽 인터페이스 요소들은 더 또는 대안적으로 키패드(404) 상의 버튼에 대응할 수 있다. 상기 버튼의 사용자-선택은 미리 정의된 액션을 작동시킬 수 있다.
일부 예시들에서, 운영체제는 모바일 컴퓨팅 디바이스(410)의 켜거나(turning on), 모바일 컴퓨팅 디바이스(410)를 수면상태 에서 활성화하거나, 모바일 컴퓨팅 디바이스(410)를 "언락(unlocking)"하거나, 또는 "홈(home)" 버튼 (418c)의 사용자-선택을 수신하고 나면 디스플레이 되는 "데스크톱" 사용자 인터페이스를 제공할 수 있다. 데스크톱 그래픽 인터페이스는, 사용자 입력으로 선택되면, 대응되는 애플리케이션 프로그램을 작동시키는 몇몇 아이콘들을 디스플레이 할 수 있다. 작동된 애플리케이션 프로그램은 애플리케이션 프로그램이 종료되거나 뷰(view)에서 숨겨질 때까지 데스크톱 그래픽 인터페이스를 대체하는 그래픽 인터페이스를 제공할 수 있다.
사용자-입력은 모바일 컴퓨팅 디바이스(410) 작동의 시퀀스를 조작할 수 있다. 예를 들어, 단일-액션 사용자 입력(예를 들어, 터치스크린의 단일 탭, 터치스크린을 가로질러 쓸어내기, 버튼 접촉, 또는 이들의 동시적인 조합)은 사용자 인터페이스의 디스플레이를 변경하는 동작을 작동시킬 수 있다. 사용자-입력 없이, 사용자 인터페이스는 특정 시점에 변화하지 않을 수 있다. 예를 들어, 터치스크린(412)에 대한 멀티-터치 사용자 입력은, 맵핑 애플리케이션이 몇 초 후에 자동으로 줌인되었을 것이라 하더라도, 한 장소를 "줌인(zoom-in)"하기 위해 맵핑 애플리케이션을 작동시킬 수 있다.
데스크탑 그래픽 인터페이스는 또한 "위젯(widgets)"을 디스플레이 할 수 있다. 위젯은 실행된 애플리케이션 프로그램과 관련되고, 데스크톱에 실행중인 애플리케이션 프로그램에 의해 제어되는 콘텐트를 디스플레이 하는 하나 이상의 그래픽 인터페이스 요소들이다. 사용자가 대응하는 아이콘을 선택할때까지 작동되지 않는 애플리케이션 프로그램과 달리, 위젯의 애플리케이션 프로그램들은 모바일 전화와 함께 시작할 수 있다. 나아가, 위젯은 전체 디스플레이의 포커스를 취하지 않을 수 있다. 대신에, 위젯은, 콘텐트를 디스플레이하고 데스크탑의 부분 내의 터치스크린 사용자-입력을 수신하기 위해 데스크탑의 작은 부분을 단지 "소유"할 수 있다.
모바일 컴퓨팅 디바이스(410)는 하나 이상의 장소-식별 메커니즘을 포함할 수 있다. 장소-식별 메커니즘은 하드웨어와 운영체제 및 애플리케이션 프로그램에 모바일 전화의 지리적 위치의 예상을 제공하는 소프트웨어의 집합을 포함할 수 있다. 장소-식별 메커니즘은 위성-기반 포지셔닝 기술(satellite-based positioning techniques), 기지국 전송 안테나 식별(base station transmitting antenna identification), 다수 기지국 삼각층량법(multiple base station triangulation), 인터넷 엑세스 포인트 IP 장소 결정법(internet access point IP location determinations), 검색엔진 쿼리에 기초한 사용자 위치의 추정 식별(inferential identification) 및 사용자-공급 장소 식별(예를 들어, 장소에 "체크인(checking in)"함으로써)을 이용할 수 있다.
모바일 컴퓨팅 디바이스(410)는 다른 애플리케이션 모듈과 하드웨어를 포함할 수 있다. 호 처리부는 수신 전화 호의 지시(indication)를 수신할 수 있고, 사용자에게 수신 전화 호를 응답하기 위한 능력을 제공할 수 있다. 미디어 플레이어는 사용자가 음악을 듣거나 모바일 컴퓨팅 디바이스(410)의 로컬 메모리에 저장된 영화를 재생하는 것을 허용한다. 모바일 전화(410)는 디지털 카메라 센서, 및 대응하는 이미지와 비디오 캡쳐 및 편집 소프트웨어를 포함할 수 있다. 인터넷 브라우저는 웹페이지에 대응하는 주소를 타이핑하거나 웹페이지로의 링크를 선택함으로써 웹페이지로부터의 콘텐트를 볼 수 있게 할 수 있다.
모바일 컴퓨팅 디바이스(410)는 기지국(440)과 무선으로 정보를 통신하기 위해 안테나를 포함할 수 있다. 기지국(440)은 모바일 컴퓨팅 디바이스(410)가 지리적으로 움직임에 따라 모바일 컴퓨팅 디바이스(410)이 네트워크(450)과의 통신을 유지할 수 있게 하는 기지국들 집합(예를 들어, 모바일 전화 셀룰러 네트워크(mobile telephone cellular network))내 많은 기지국들 중 하나일 수 있다. 컴퓨팅 디바이스(410)는 네트워크(450)와 와이파이 라우터(Wi-Fi router) 또는 유선 연결(예를 들어, 이더넷, USB, 또는 방화벽)을 통해 대안적으로 또는 부가적으로 통신한다. 컴퓨팅 디바이스(410)는 블루투스 프로토콜(BLUETOOTH protocols)을 사용하는 다른 컴퓨팅 디바이스와도 무선으로 통신할 수 있고, 애드훅(ad-hoc) 무선 네트워크를 이용할 수도 있다.
기지국들의 네트워크를 운영하는 서비스 제공자는 모바일 컴퓨팅 디바이스(410)와 서비스들(460)를 제공하는 다른 컴퓨터화된 디바이스들 사이에 통신을 가능하게 하기 위해서 모바일 컴퓨팅 디바이스(410)를 네트워크(450)에 연결할 수 있다. 서비스들(460)은 다른 네트워크(예를 들어, 서비스 제공자의 내부 네트워크, 공중전화교환망, 및 인터넷)를 통해 제공됨에도 불구하고, 네트워크(450)는 단일 네트워크처럼 도시되었다. 서비스 제공자는 모바일 컴퓨팅 디바이스(410)와 서비스들(460)에 관련된 컴퓨팅 디바이스들 사이로 정보 패킷(packets)과 음성 데이터를 전송하는 서버 시스템(452)을 운영할 수 있다.
네트워크(450)는 모바일 컴퓨팅 디바이스(410)와 또 다른 컴퓨팅 디바이스 사이에 음성 또는 팩스 통신을 구축하기 위해 모바일 컴퓨팅 디바이스(410)를 공중전화교환망(PSTN)(462)에 연결할 수 있다. 예를 들어, 서비스 제공자 서버 시스템(452)은 모바일 컴퓨팅 디바이스(410)에 대한 수신 호의 PSTN(462)으로부터 신호를 수신할 수 있다. 역으로, 모바일 컴퓨팅 디바이스(410)는 PSTN(462)를 통해 접속 가능한 디바이스와 관련된 전화번호의 전화 호를 시작하는 통신을 서비스 제공 서버 시스템(452)으로 보낼 수 있다.
네트워크(450)는, PSTN과 반대로, 음성 통신을 IP 네트워크를 통해 전송하는 인터넷 전화 통화규약(Voice over Internet Protocol, VoIP) 서비스(464)와 연결할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(410)의 사용자는 VoIP 애플리케이션을 작동시키고 이 프로그램을 이용한 호를 시작할 수 있다. 서비스 제공자 서버 시스템(452)은 음성 데이터를 상기 호로부터, 상기 호를 인터넷을 통해 대응하는, 연결의 마지막 단계를 위해 잠재적으로 PSTN을 사용하는, 컴퓨팅 디바이스로 보내는 VoIP 서비스로 전달할 수 있다.
애플리케이션 스토어(466)는 모바일 컴퓨팅 디바이스(410)의 사용자에게, 네트워크(450)를 통해 다운로드 할 수 있고 모바일 컴퓨팅 디바이스(410)에 설치할 수 있는 원격으로 저장된 애플리케이션 프로그램들의 목록을 브라우징하는 능력을 제공할 수 있다. 애플리케이션 스토어(466)는 서드-파티(third-party) 애플리케이션 개발자들에 의해 개발된 애플리케이션들의 점포를 제공할 수 있다. 모바일 컴퓨팅 디바이스(410)에 설치된 애플리케이션 프로그램은 네트워크(450)를 통해 애플리케이션 프로그램을 위해 지정된 서버 시스템과 통신할 수 있다. 예를 들어, VoIP 애플리케이션 프로그램은 애플리케이션 스토어(466)에서 다운로드 될 수 있고, 사용자가 VoIP 서비스(464)로 통신할 수 있게 한다.
모바일 컴퓨팅 디바이스(410)는 네트워크(450)를 통해 인터넷(468) 상의 콘텐트에 엑세스할 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(410)의 사용자는 보편적 리소스 로케이션(universal resource location)에서 엑세스 할 수 있는 원격 컴퓨팅 디바이스들로부터 데이터를 요청하는 웹브라우저 애플리케이션을 호출할 수 있다. 다양한 예시들에서, 서비스들(460)의 일부는 인터넷을 통해 엑세스 할 수 있다.
모바일 컴퓨팅 디바이스는 개인 컴퓨터(470)과 통신할 수 있다. 예를 들어, 개인 컴퓨터(470)는 모바일 컴퓨팅 디바이스(410) 사용자의 홈(home) 컴퓨터일 수 있다. 즉, 사용자는 그의 개인 컴퓨터(470)로부터 미디어를 스트리밍(stream) 할 수 있다. 사용자는 그의 개인 컴퓨터(470)의 파일 구조를 볼 수도 있고, 선택된 문서를 컴퓨터화된 디바이스들 사이에서 전송할 수 있다.
음성인식 서비스(472)는 모바일 컴퓨팅 디바이스의 마이크로폰(422)로 녹음된 음성 통신 데이터를 수신하고, 상기 음성통신을 대응하는 텍스트 데이터로 변환할 수 있다. 일부 예시들에서, 변환된 텍스트는 웹 쿼리로 검색엔진으로 제공되고, 대응하는 검색엔진 검색결과들이 모바일 컴퓨팅 디바이스(410)로 전송된다.
모바일 컴퓨팅 디바이스(410)는 소셜 네트워크(474)와 통신할 수 있다. 소셜 네트워크는, 그들 중 일부는 지인으로 관련되는 것에 동의한, 많은 멤버들을 포함할 수 있다. 모바일 컴퓨팅 디바이스(410) 상의 애플리케이션 프로그램들은 모바일 컴퓨팅 디바이스 사용자의 지인들에 기초하여 정보를 검색하기 위해 소셜 네트워크(474)에 엑세스 할 수 있다. 예를 들어, "주소록(address book)" 애플리케이션 프로그램은 사용자 지인들의 전화번호를 검색할 수 있다. 다양한 예시들에서, 콘텐트는 사용자로부터 다른 멤버들 까지의 소셜 네트워크 거리에 기초하여 모바일 컴퓨팅 디바이스(410)에 전달될 수 있다. 예를 들어, 공과 및 새 게시글 콘텐트는 사용자와 "가까운" 멤버들(예를 들어, "친구들" 또는 "친구의 친구들"인 멤버들)에 의한 그와 같은 콘텐트와의 상호작용의 레벨에 기초하여 사용자를 위해 선택될 수 있다.
모바일 컴퓨팅 디바이스(410)는 네트워크(450)를 통해 개인 연락처(476) 세트에 엑세스할 수 있다. 각 연락처는 개인을 식별하고 그 개인에 대한 정보(예를 들어, 전화번호, 이메일 주소, 및 생일)를 포함할 수 있다. 연락처 세트가 모바일 컴퓨팅 디바이스(410)에 대해 원격으로 관리되기 때문에, 사용자는 연락처(476)를 공통 연락처 세트로 여러 디바이스들에 걸쳐 엑세스하고 유지할 수 있다.
모바일 컴퓨팅 디바이스(410)는 클라우드 기반 애플리케이션 프로그램(478)에 엑세스할 수 있다. 클라우드 컴퓨팅은 모바일 컴퓨팅 디바이스(410)에 대해 원격으로 관리되는 애플리케이션 프로그램(예를 들어, 워드 프로세서 또는 이메일 프로그램)을 제공하고, 웹브라우저 또는 전용 프로그램을 이용한 디바이스(410)에 의해 엑세스될 수 있다. 예시적인 클라우드 기반 애플리케이션 프로그램은 구글독스(GOOGLE DOCS) 워드 프로세서 및 스프레드 시트 서비스, 구글 지메일(GOOGLE GMAIL) 웹메일 서비스, 및 피카사(PICASA) 그림 관리자를 포함한다.
맵핑 서비스(480)는 모바일 컴퓨팅 디바이스(410)로 거리 지도, 경로 계획 정보, 위성이미지들을 제공할 수 있다. 예시적인 맵핑 서비스는 구글 맵스(GOOGLE MAPS)이다. 맵핑 서비스(480)는 쿼리를 수신하고 지역-특화된 결과들을 반환할 수도 있다. 예를 들어, 모바일 컴퓨팅 디바이스(410)는 모바일 컴퓨팅 디바이스의 예상 위치 및 사용자-입력 쿼리 "pizza places"를 맵핑 서비스(480)로 전송할 수 있다. 맵핑 서비스(480)는, 가까운 "pizza places"의 지리적 위치를 식별하는, 지도에 중첩된 "마커(markers)"와 함께 거리 지도를 반환할 수 있다.
턴-바이-턴 디렉션(Turn-by-Turn Direction)(482)은 모바일 컴퓨팅 디바이스에 사용자-제공 목적지까지의 턴-바이-턴 지시(direction)를 제공할 수 있다. 예를 들어, 턴-바이-턴 디렉션(482)은, 오디오 커맨드를 제공하고 디바이스(410) 사용자를 목적지까지 지시하는 화살표를 중첩하기 위한 데이터와 함께, 디바이스의 예상 위치의 거리-수준 뷰(street-level view)를 디바이스(410)로 스트리밍할 수 있다.
다양한 형태의 스트리밍 미디어(484)가 모바일 컴퓨팅 디바이스(410)에 의해 요청될 수 있다. 예를 들어, 컴퓨팅 디바이스(410)은 미리 기록된 비디오 파일, 생방송 텔레비전 프로그램, 또는 생방송 라디오 프로그램을 위한 스트림을 요청할 수 있다. 스트리밍 미디어를 제공하는 예시적인 서비스는 유투브(YOUTUBE) 및 판도라(PANDORA)를 포함한다.
마이크로 블로그 서비스(micro-blogging service)(486)는 모바일 컴퓨팅 디바이스(410)로부터 포스트의 수신자를 식별하지 않는 사용자-입력 포스트를 수신할 수 있다. 마이크로 블로그 서비스(486)는 사용자를 구독하는 것을 동의한 마이크로 블로그 서비스(486)의 다른 멤버들에게 상기 포스트를 전파할 수 있다.
검색엔진(488)은 모바일 컴퓨팅 디바이스(410)로부터 사용자-입력 텍스트 또는 구두 쿼리를 수신하고, 쿼리에 대한 인터넷-접속가능한 문서들 세트를 결정하고, 디바이스(410)로 대응하는 문서들에 대한 검색결과 리스트를 디스플레이 하기 위해 제공할 수 있다. 구두 쿼리가 수신되는 예시에서, 음성인식 서비스(472)는 수신된 오디오를 검색엔진으로 전송되는 텍스트 쿼리로 변환할 수 있다.
이들 및 다른 서비스들은 서버 시스템(490)에서 실행될 수 있다. 서버 시스템은 하드웨어 및 서비스 또는 서비스 세트를 제공하는 소프트웨어의 조합일 수 있다. 예를 들어, 물리적으로 분리되고 네트워크된 컴퓨터화된 디바이스들 세트는 수백개의 개별 컴퓨팅 디바이스에 서비스를 제공하기 위해 필요한 동작을 처리하기 위해 로컬 서버 시스템 유닛으로써 함께 동작할 수 있다.
다양한 실시예들에서, 다른 동작(예를 들어, 결정 또는 식별)에 "대응하여" 수행되는 동작들은 이전 동작이 성공적이지 않다면(예를 들어, 결정 단계가 수행되지 않았다면) 수행되지 않는다. 본 문서에서 조건문으로 기재된 특징들은 선택적인 실시예를 기술할 수 있다. 일부 예시들에서, 제1 디바이스에서 제2 디바이스로의 "전송"은 제1 디바이스가 네트워크로 데이터를 발생시키는 것을 포함하지만, 제2 디바이스가 데이터를 수신하는 것을 포함하지 않을 수 있다. 역으로, 제1 디바이스로부터의 "수신"은 네트워크로부터 데이터를 받는 것을 포함할 수 있지만, 제1 디바이스가 데이터를 전송하는 것은 포함하지 않을 수 있다.
도 5는 본 문서에 기술된 시스템 및 방법들을 수행하기 위해 클라이언트 또는 서버 또는 복수개의 서버들로써 사용될 수 있는 컴퓨팅 디바이스(500, 550)의 블록 다이어그램이다. 컴퓨팅 디바이스(500)는 랩탑, 데스트탑, 워크스테이션, PDA, 서버, 블레이드(blade) 서버, 메인프레임, 및 그 밖의 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위해 사용된다. 컴퓨팅 디바이스(550)는 PDA, 셀룰라 전화, 스마트폰, 및 그 밖의 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스를 나타내기 위해 사용된다. 부가적으로, 컴퓨팅 디바이스(500 또는 550)는 USB 플래쉬 드라이브를 포함할 수 있다. USB 플래쉬 드라이브는 운영체제 및 다른 애플리케이션을 저장할 수 있다. USB 플래쉬 드라이브는, 무선 송신기 또는 또 다른 컴퓨팅 디바이스의 USB 포트에 삽입될 수 있는USB 커넥터와 같은 입/출력 컴포넌트를 포함할 수 있다. 여기에 보여지는 컴포넌트들, 그 연결 및 관계, 및 그 기능들은 단지 예시적인 것을 의미하고, 본 명세서에서 설명하거나 또는 청구된 발명의 실시예를 제한하는 것을 의미하지 않는다.
컴퓨팅 디바이스(500)는 프로세서(502), 메모리(504), 저장 디바이스(506), 메모리(504)에 접속하는 고속 인터페이스(508)와 고속 확장 포트(510), 및 저속 버스(514)와 저장 디바이스(506)에 접속하는 저속 인터페이스(512)를 포함한다. 각 구성요소(502, 504, 506, 508, 510, 및 512)는 다양한 버스들을 사용하여 서로 접속되고, 일반적인 마더보드 또는 적절한 경우 다른 방식으로 탑재될 수 있다. 프로세서(502)는 컴퓨팅 디바이스(500) 내에서 실행하기 위한 명령어를 처리할 수 있으며, 이러한 명령어에는, 고속 인터페이스(508)에 연결된 디스플레이(516)와 같은 외장 입/출력 디바이스상에서 GUI용 그래픽 정보를 디스플레이하기 위해, 메모리(504) 또는 저장 디바이스(506)에 저장되는 명령어가 포함된다. 다른 실시예에서, 다중 프로세서 및/또는 다중 버스는 적절한 경우, 다중 메모리 및 메모리 타입과 함께 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스(500)는 각 디바이스가 필요 동작의 부분을 제공하는 형태(예를 들어, 서버 뱅크, 블레이드 서버의 그룹, 또는 다중 프로세서 시스템)로 접속될 수 있다.
메모리(504)는 컴퓨팅 디바이스(500)내에 정보를 저장한다. 일 실시예에서, 메모리(504)는 휘발성 메모리 유닛 또는 유닛들이다. 또 다른 실시예에서, 메모리(504)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(504)는 마그네틱 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.
저장 디바이스(506)는 컴퓨팅 디바이스(500)를 위한 대용량 저장소(mass storage)를 제공할 수 있다. 일 실시예에서, 저장 디바이스(506)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래쉬 메모리 또는 다른 유사한 고체 상태(solid state) 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성에 존재하는 디바이스를 포함하는 디바이스 배열(array)일 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어(information carrier) 내에 유형적으로 구체화될 수 있다. 또한, 컴퓨터 프로그램 제품은 실행될 때, 상술한 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함할 수 있다. 정보 캐리어는 메모리(504), 저장 디바이스(506), 프로세서(502)상의 메모리, 또는 전파된 신호와 같은 컴퓨터 또는 기계 판독가능 매체이다.
저속 제어부(512)가 저대역-집약적 동작(lower bandwidth-intensive operations)을 관리하는 반면, 고속 제어부(508)는 컴퓨팅 디바이스(500)에 대한 대역-집약적 동작을 관리한다. 이러한 기능들의 배치는 단지 예시적인 것이다. 일 실시예에서, 고속 제어부(508)는 메모리(504), 디스플레이(516)(예를 들어, 그래픽 프로세서 또는 가속기를 통함)에 연결되고, 다양한 확장 카드(도시되지 않음)을 수용할 수 있는 고속 확장 포트(510)에 연결된다. 일부 실시예에서는, 저속 제어부(512)는 저장 디바이스(506) 및 저속 확장 포트(514)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입/출력 디바이스들에 연결되거나, 또는 예컨대 네트워크 어댑터를 통하여, 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이, 복수의 다른 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(500)는 표준 서버(520)로 구현되거나 이러한 서버들의 그룹에서 여러 번(multiple time) 구현될 수 있다. 또한, 컴퓨팅 디바이스(500)는 랙 서버 시스템(524)의 부분으로서 구현될 수 있다. 이에 더하여, 컴퓨팅 디바이스(500)는 랩탑 컴퓨터(522)와 같은 개인용 컴퓨터내에 구현될 수 있다. 선택적으로, 컴퓨팅 디바이스 (500)로부터의 구성요소는 디바이스(550)와 같은 모바일 디바이스(도시되지 않음)내 다른 구성요소와 조합될 수 있다. 이러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(500, 550)를 포함하고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스(500, 550)로 구성될 수 있다.
컴퓨팅 디바이스(550)는 여러 구성요소 중에서 프로세서(552), 메모리(564), 디스플레이(554)와 같은 입/출력 디바이스, 통신 인터페이스(566), 및 트랜스시버(568)를 포함한다. 또한, 디바이스(550)에는 추가적인 저장소를 제공하기 위하여, 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 각 구성요소(550, 552, 564, 554, 566, 및 568)는 다양한 버스를 이용하여 서로 접속되고, 구성요소의 몇몇은 통상의 마더보드에 탑재되거나 적절한 다른 방법으로 탑재될 수 있다.
프로세서(552)는 컴퓨팅 디바이스(550) 내에서 명령어를 실행하며, 이 명령어에는 메모리(564)에 저장된 명령어가 포함된다. 프로세서는 개별적이고 다중의 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩 세트로서 구현될 수 있다. 부가적으로, 프로세서는 복수의 아키텍처 중 임의의 아키텍처를 사용하여 구현될 수 있다. 예를 들어, 프로세서(552)는 CISC(Complex Instruction Set Computers) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서, 또는 MISC(Minimal Instruction Set Computer) 프로세서일 수 있다. 프로세서는, 예를 들어, 사용자 인터페이스의 컨트롤, 디바이스(550)에 의해 실행되는 애플리케이션, 및 컴퓨팅 디바이스(550)에 의한 무선 통신과 같은 디바이스(550)의 다른 구성요소들 사이에 조정을 제공할 수 있다.
프로세서(552)는 제어 인터페이스(558) 및 디스플레이(554)에 연결된 디스플레이 인터페이스(556)를 통해 사용자와 통신할 수 있다. 디스플레이(554)는, 예를 들어, TFT LCD(Thin-Film-Tansistor Liquid Crystal Display) 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(556)는 그래픽 및 다른 정보를 사용자에게 나타내기 위해 디스플레이(554)를 구동하는 적절한 회로를 포함할 수 있다. 제어 인터페이스(558)는 사용자로부터 명령들을 수신하고, 프로세서(552)에 제출하기 위해 그 명령들을 변환한다. 더욱이, 확장 인터페이스(562)는 디바이스(550)와 다른 디바이스들간에 근거리 통신이 가능하도록 하기 위해, 프로세서(552)와의 통신에 제공될 수 있다. 확장 인터페이스(562)는, 예를 들어, 일부 실시예에서는 유선 통신을 제공하고 다른 실시예에서 무선 통신을 제공하며, 또한 다중 인터페이스가 사용될 수 있다.
메모리(564)는 컴퓨팅 디바이스(550)내에 정보를 저장한다. 메모리(564)는 컴퓨터 판독가능 매체 또는 미디어, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로서 구현될 수 있다. 또한, 확장 메모리(574)가 제공되어, 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함하는 확장 인터페이스(574)를 통해 디바이스(550)에 접속될 수 있다. 이러한 확장 메모리(574)는 디바이스(550)를 위한 여분의 저장 공간을 제공할 수 있고, 또한 어플리케이션 또는 디바이스(550)를 위한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(574)는 상술된 프로세스를 실행하거나 보조하기 위한 명령어를 포함하고, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(574)는 디바이스(550)용 보안 모듈(security module)로서 제공될 수 있고, 디바이스(550)의 안전한 사용을 가능하게 하는 명령어로 프로그램될 수 있다. 더욱이, 보안 어플리케이션은, 해킹할 수 없는 방식(non-hackable manner)으로 SIMM 카드상에 식별 정보를 위치시킨 것과 같은 추가적 정보와 함께 SIMM 카드를 통해 제공될 수 있다.
메모리는 아래에서 논의되는 것과 같이 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 실시예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구체화된다. 컴퓨터 프로그램 제품은 실행될 때, 상술된 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함한다. 정보 캐리어는 메모리(564), 확장 메모리(574), 프로세서(552)상의 메모리, 또는 예를 들어 트랜스시버(568) 또는 확장 인터페이스(562)를 통해 수신될 수 있는 전달된 신호와 같은 컴퓨터-또는 기계-판독가능 매체이다.
디바이스(550)는 디지털 신호 처리 회로를 필요에 따라 포함하는 통신 인터페이스(566)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(566)는 GSM 음성 호, SMS, EMS, 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS 등과 같은 다양한 모드 또는 프로토콜 하에서의 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선-주파수 트랜스시버(568)를 통해 수행될 수 있다. 또한, 단거리(short range) 통신은 예를 들어, 블루투스, WiFi, 또는 다른 이러한 트랜스시버(도시되지 않음)를 사용하여 수행될 수 있다. 이에 더하여, GPS(Global Position System) 수신기 모듈(570)은 추가적인 항법- 및 위치- 관련 무선 데이터를 디바이스(550)에 제공할 수 있다. 이 무선 데이터는 디바이스(550)에서 실행중인 어플리케이션에 의해 적절하게 사용될 수 있다.
또한, 디바이스(550)는 사용자로부터의 발화 정보(spoken information)를 수신하고, 그 발화 정보를 사용가능한 디지털 정보로 변환하는 오디오 코덱(560)을 이용하여, 청취가능하게(audibly) 통신할 수 있다. 또한, 오디오 코덱(560)은 예를 들어, 디바이스(550)의 핸드셋 내의 스피커를 통하는 것과 같이 해서, 사용자가 들을 수있는 음성을 생성한다. 이러한 음성은 음성 전화 호로부터의 음성을 포함할 수 있고, 녹음된 음성(예를 들어, 음성 메시지, 뮤직 파일 등)은 포함할 수 있고, 또한 디바이스(550) 상에서 동작하는 애플리케이션에 의해 생성된 음성을 포함할 수 있다.
컴퓨팅 디바이스(550)는 도면에 도시된 바와 같이, 복수의 다양한 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(550)는 셀룰러 전화(580)로서 구현될 수 있다. 또한, 컴퓨팅 디바이스(550)는 스마트폰(582), PDA, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
본 명세서에 설명된 다양한 시스템과 방법의 여러 실시예는 디지털 전자 회로, 집적 회로, 특정 목적으로 설계된 ASICs(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 실시예에는 하나 이상의 컴퓨터 프로그램의 실시예가 포함되고, 이 컴퓨터 프로그램은 프로그램 가능한 시스템 상에서 실행가능 및/또는 해석가능(interpretable)하며, 프로그램 가능한 시스템은 저장 시스템에 연결되어 데이터와 명령을 송수신하는, 전용 또는 범용인 적어도 하나의 프로그램 가능한 프로세서, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함한다.
이러한 컴퓨터 프로그램(또한, 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라 함)은 프로그램 가능한 프로세서용 기계 명령을 포함하고, 고레벨 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "기계-판독가능 매체", "컴퓨터-판독가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는데 사용되는, 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광디스크, 메모리, 프로그램 가능한 로직 디바이스(PLD))를 지칭하며, 기계-판독가능 신호로서의 기계 명령을 수신하는 기계-판독가능 매체도 포함된다. 용어 "기계-판독가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
사용자와의 상호작용을 제공하기 위하여, 본 명세서에 설명되는 시스템과 방법은, 정보를 사용자에게 디스플레이 하는 디스플레이 디바이스(예를 들어, 음극선관(CRT) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력하는데 사용하는 키보드와 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터상에서 구현될 수 있다. 다른 카테고리의 디바이스도 사용자와의 상호작용을 제공하기 위하여 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 지각 피드백(시각, 청각 또는 촉각 피드백)의 임의 형태가 될 수 있고, 사용자로부터의 입력은 음향(acoustic), 음성(speech) 또는 촉각 입력을 포함하는 임의 형태로 수신될 수 있다.
본 명세서에 설명된 다양한 시스템과 방법은, 백엔드 구성요소(예를 들어, 데이터 서버), 또는 미들웨어 구성요소(예를 들어, 애플리케이션 서버) 또는 전치(frontend) 구성요소(예를 들어, 본 명세서에 설명된 시스템 및 방법의 실시예와 상호작용하기 위해 사용자가 사용할 수 있는 그래픽 사용자 인터페이스(GUI) 또는 웹브라우저를 구비한 클라이언트 컴퓨터) 또는 이러한 백엔드, 미들웨어 또는 전치(frontend) 구성요소의 임의 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소는 임의 형태 또는 디지털 데이터 통신의 매체(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크의 예는 근거리 네트워크(LAN), 광역 네트워크(WAN), 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고, 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는, 각 컴퓨터에서 실행 중이며 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.
다수의 실시예들이 위에서 상세하게 설명되었으나, 다른 변경들이 가능하다. 나아가, 자동으로 음성입력을 모니터링 하기 위한 다른 메커니즘들이 사용될 수 있다. 더욱이, 도면에서 묘사된 논리 흐름은 희망하는 결과를 달성하기 위해, 도시된 특정 순서 또는 시계열적 순서일 필요는 없다. 다른 단계들이 제공되거나, 그로부터 단계들이 제거될 수 있으며, 다른 구성요소들이 설명된 시스템에 추가되거나 그로부터 제거될 수 있다. 따라서 다른 실시예는 후술하는 청구범위의 범위 내에 속한다.

Claims (20)

  1. 컴퓨터로 구현되는 방법으로서,
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 단계와;
    상기 컴퓨팅 디바이스와 관련된 컨텍스트에서의 상기 변화를 검출함에 응답하여, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작(operation)을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성(threshold likelihood)보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 단계와;
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 상기 변화된 컨텍스트를 분류함에 응답하여, 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드(mode of operation)로 상기 컴퓨팅 디바이스를 스위칭하는 단계와;
    상기 주변 소리들을 수신하는 단계와;
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신하는 단계와; 그리고
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 상기 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신함에 응답하여, 상기 요청에 응답하는 출력을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제 1항에 있어서,
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 단계는, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서의 컨텍스트의 이전의 분류의 정확도를 표시하는 데이터에 적어도 기반하는 것을 특징으로 하는 방법.
  3. 제 1항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 상기 컴퓨팅 디바이스가 위치되는 물리적 위치를 표시하는 것을 특징으로 하는 방법.
  4. 제 1항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 하루 중의 시간을 표시하는 것을 특징으로 하는 방법.
  5. 제 1항에 있어서,
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 단계는 상기 컴퓨팅 디바이스의 센서들을 사용해서 환경에서의 변화를 검출하는 것을 포함하는 것을 특징으로 하는 방법.
  6. 제 1항에 있어서,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드로 상기 컴퓨팅 디바이스를 스위칭하는 단계는,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하지 않는 이전의 동작 모드(prior mode of operation)로부터 상기 컴퓨팅 디바이스를 스위칭하는 것을 포함하는 것을 특징으로 하는 방법.
  7. 제 6항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 컨텍스트에서의 제2의 변화를 검출하는 단계와;
    상기 컴퓨팅 디바이스와 관련된 상기 컨텍스트에서의 상기 제2의 변화를 검출함에 응답하여, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 낮은 컨텍스트로서 제2의 변화된 컨텍스트를 분류하는 단계와; 그리고
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 낮은 컨텍스트로서 제2의 변화된 컨텍스트를 분류함에 응답하여, 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하지 않는 상기 동작 이전 모드로 돌아가도록 스위칭하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 시스템으로서,
    하나 이상의 컴퓨터들 및 상기 하나 이상의 컴퓨터들에 의해 실행되었을 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게끔 동작 가능한 명령들을 저장하는 하나 이상의 저장 디바이스들을 포함하고, 상기 동작들은:
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 것과;
    상기 컴퓨팅 디바이스와 관련된 컨텍스트에서의 상기 변화를 검출함에 응답하여, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 것과;
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 상기 변화된 컨텍스트를 분류함에 응답하여, 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드로 상기 컴퓨팅 디바이스를 스위칭하는 것과;
    상기 주변 소리들을 수신하는 것과;
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신하는 것과; 그리고
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 상기 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신함에 응답하여, 상기 요청에 응답하는 출력을 제공하는 것을 포함하는 것을 특징으로 하는 시스템.
  9. 제 8항에 있어서,
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 것은, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서의 컨텍스트의 이전의 분류의 정확도를 표시하는 데이터에 적어도 기반하는 것을 특징으로 하는 시스템.
  10. 제 8항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 상기 컴퓨팅 디바이스가 위치되는 물리적 위치를 표시하는 것을 특징으로 하는 시스템.
  11. 제 8항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 하루 중의 시간을 표시하는 것을 특징으로 하는 시스템.
  12. 제 8항에 있어서,
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 것은 상기 컴퓨팅 디바이스의 센서들을 사용해서 환경에서의 변화를 검출하는 것을 포함하는 것을 특징으로 하는 시스템.
  13. 제 8항에 있어서,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드로 상기 컴퓨팅 디바이스를 스위칭하는 것은,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하지 않는 이전의 동작 모드로부터 상기 컴퓨팅 디바이스를 스위칭하는 것을 포함하는 것을 특징으로 하는 시스템.
  14. 제 13항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 컨텍스트에서의 제2의 변화를 검출하는 것과;
    상기 컴퓨팅 디바이스와 관련된 상기 컨텍스트에서의 상기 제2의 변화를 검출함에 응답하여, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 낮은 컨텍스트로서 제2의 변화된 컨텍스트를 분류하는 것과; 그리고
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 낮은 컨텍스트로서 제2의 변화된 컨텍스트를 분류함에 응답하여, 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하지 않는 상기 동작 이전 모드로 돌아가도록 스위칭하는 것을 포함하는 것을 특징으로 하는 시스템.
  15. 하나 이상의 컴퓨터들에 의해 실행 가능한 명령들을 포함하는 소프트웨어를 저장하는 비-일시적인 컴퓨터 판독가능 매체로서, 상기 명령들은 실행시 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게끔 하고, 상기 동작들은:
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 것과;
    상기 컴퓨팅 디바이스와 관련된 컨텍스트에서의 상기 변화를 검출함에 응답하여, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 것과;
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 상기 변화된 컨텍스트를 분류함에 응답하여, 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드로 상기 컴퓨팅 디바이스를 스위칭하는 것과;
    상기 주변 소리들을 수신하는 것과;
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신하는 것과; 그리고
    상기 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 상기 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함한다는 것을 표시하는 데이터를 수신함에 응답하여, 상기 요청에 응답하는 출력을 제공하는 것을 포함하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  16. 제 15항에 있어서,
    주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서 변화된 컨텍스트를 분류하는 것은, 주변 소리들이 상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들을 포함할 것이라고 표시할 가능성이 임계 가능성보다 높은 컨텍스트로서의 컨텍스트의 이전의 분류의 정확도를 표시하는 데이터에 적어도 기반하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  17. 제 15항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 상기 컴퓨팅 디바이스가 위치되는 물리적 위치를 표시하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  18. 제 15항에 있어서,
    상기 컴퓨팅 디바이스와 관련된 상기 변화된 컨텍스트는 하루 중의 시간을 표시하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  19. 제 15항에 있어서,
    컴퓨팅 디바이스와 관련된 컨텍스트에서의 변화를 검출하는 것은 상기 컴퓨팅 디바이스의 센서들을 사용해서 환경에서의 변화를 검출하는 것을 포함하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
  20. 제 15항에 있어서,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하는 동작 모드로 상기 컴퓨팅 디바이스를 스위칭하는 것은,
    상기 컴퓨팅 디바이스로 하여금 동작을 수행하게끔 하는 상기 사용자로부터의 요청에 대응하는 하나 이상의 트리거 용어들에 대해 상기 컴퓨팅 디바이스가 상기 주변 소리들을 모니터링하지 않는 이전의 동작 모드로부터 상기 컴퓨팅 디바이스를 스위칭하는 것을 포함하는 것을 특징으로 하는 비-일시적인 컴퓨터 판독가능 매체.
KR1020137005725A 2010-08-06 2011-08-04 컨텍스트에 기초한 음성입력 자동 모니터링 KR101605481B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/852,256 US8359020B2 (en) 2010-08-06 2010-08-06 Automatically monitoring for voice input based on context
US12/852,256 2010-08-06
PCT/US2011/046616 WO2012019020A1 (en) 2010-08-06 2011-08-04 Automatically monitoring for voice input based on context

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020167006078A Division KR20160033233A (ko) 2010-08-06 2011-08-04 컨텍스트에 기초한 음성입력 자동 모니터링을 위한 방법, 장치 및 시스템

Publications (2)

Publication Number Publication Date
KR20130100280A KR20130100280A (ko) 2013-09-10
KR101605481B1 true KR101605481B1 (ko) 2016-03-22

Family

ID=45556503

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137005725A KR101605481B1 (ko) 2010-08-06 2011-08-04 컨텍스트에 기초한 음성입력 자동 모니터링
KR1020167006078A KR20160033233A (ko) 2010-08-06 2011-08-04 컨텍스트에 기초한 음성입력 자동 모니터링을 위한 방법, 장치 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167006078A KR20160033233A (ko) 2010-08-06 2011-08-04 컨텍스트에 기초한 음성입력 자동 모니터링을 위한 방법, 장치 및 시스템

Country Status (6)

Country Link
US (5) US8359020B2 (ko)
EP (5) EP3748630B1 (ko)
KR (2) KR101605481B1 (ko)
CN (2) CN103282957B (ko)
AU (1) AU2011285702B2 (ko)
WO (1) WO2012019020A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103347A1 (ko) * 2017-11-23 2019-05-31 삼성전자(주) 전자장치 및 그 제어방법

Families Citing this family (498)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7764641B2 (en) 2005-02-05 2010-07-27 Cisco Technology, Inc. Techniques for determining communication state using accelerometer data
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7477909B2 (en) * 2005-10-31 2009-01-13 Nuance Communications, Inc. System and method for conducting a search using a wireless mobile device
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080075237A1 (en) * 2006-09-11 2008-03-27 Agere Systems, Inc. Speech recognition based data recovery system for use with a telephonic device
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8983640B2 (en) 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9183580B2 (en) 2010-11-04 2015-11-10 Digimarc Corporation Methods and systems for resource management on portable devices
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
KR101605347B1 (ko) 2009-12-18 2016-03-22 삼성전자주식회사 휴대단말의 외부 출력 제어 방법 및 장치
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8855919B2 (en) * 2010-12-02 2014-10-07 Telenav, Inc. Navigation system with destination-centric en-route notification delivery mechanism and method of operation thereof
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20120191454A1 (en) * 2011-01-26 2012-07-26 TrackThings LLC Method and Apparatus for Obtaining Statistical Data from a Conversation
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9196028B2 (en) * 2011-09-23 2015-11-24 Digimarc Corporation Context-based smartphone sensor logic
US20120278078A1 (en) * 2011-04-26 2012-11-01 Avaya Inc. Input and displayed information definition based on automatic speech recognition during a communication session
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
KR101556180B1 (ko) * 2011-08-25 2015-10-13 엘지전자 주식회사 이동 단말기, 차량에 부착된 영상표시장치 및 이들을 이용한 데이터 처리 방법
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8798995B1 (en) * 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
US9906927B2 (en) 2011-09-28 2018-02-27 Elwha Llc Multi-modality communication initiation
US9503550B2 (en) 2011-09-28 2016-11-22 Elwha Llc Multi-modality communication modification
US9699632B2 (en) 2011-09-28 2017-07-04 Elwha Llc Multi-modality communication with interceptive conversion
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9762524B2 (en) 2011-09-28 2017-09-12 Elwha Llc Multi-modality communication participation
US9788349B2 (en) * 2011-09-28 2017-10-10 Elwha Llc Multi-modality communication auto-activation
US9002937B2 (en) 2011-09-28 2015-04-07 Elwha Llc Multi-party multi-modality communication
US9477943B2 (en) 2011-09-28 2016-10-25 Elwha Llc Multi-modality communication
US20130079029A1 (en) * 2011-09-28 2013-03-28 Royce A. Levien Multi-modality communication network auto-activation
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US20130120106A1 (en) 2011-11-16 2013-05-16 Motorola Mobility, Inc. Display device, corresponding systems, and methods therefor
US9214157B2 (en) * 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
EP3748631B1 (en) 2011-12-07 2024-04-03 QUALCOMM Incorporated Low power integrated circuit to analyze a digitized audio stream
KR101912409B1 (ko) * 2012-01-06 2018-10-26 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
US20130201316A1 (en) 2012-01-09 2013-08-08 May Patents Ltd. System and method for server based control
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11023520B1 (en) * 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9218333B2 (en) * 2012-08-31 2015-12-22 Microsoft Technology Licensing, Llc Context sensitive auto-correction
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10042603B2 (en) 2012-09-20 2018-08-07 Samsung Electronics Co., Ltd. Context aware service provision method and apparatus of user device
KR102070196B1 (ko) 2012-09-20 2020-01-30 삼성전자 주식회사 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치
US9922646B1 (en) 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN103701981B (zh) * 2012-09-27 2016-05-25 中兴通讯股份有限公司 一种实现语音识别功能的方法及装置
KR102009423B1 (ko) 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
US9104467B2 (en) 2012-10-14 2015-08-11 Ari M Frank Utilizing eye tracking to reduce power consumption involved in measuring affective response
US9477993B2 (en) 2012-10-14 2016-10-25 Ari M Frank Training a predictor of emotional response based on explicit voting on content and eye tracking to verify attention
US9124795B2 (en) * 2012-10-26 2015-09-01 Nokia Technologies Oy Method and apparatus for obtaining an image associated with a location of a mobile terminal
KR102211595B1 (ko) * 2012-12-07 2021-02-04 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US20140181715A1 (en) * 2012-12-26 2014-06-26 Microsoft Corporation Dynamic user interfaces adapted to inferred user contexts
EP3896596A1 (en) * 2012-12-28 2021-10-20 Saturn Licensing LLC Information processing device, information processing method and program
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
AU2021202255B9 (en) * 2013-02-07 2022-06-09 Apple Inc. Voice trigger for a digital assistant
US9622365B2 (en) 2013-02-25 2017-04-11 Google Technology Holdings LLC Apparatus and methods for accommodating a display in an electronic device
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9310957B2 (en) * 2013-03-07 2016-04-12 Tencent Technology (Shenzhen) Company Limited Method and device for switching current information providing mode
CN104035550B (zh) * 2013-03-07 2017-12-22 腾讯科技(深圳)有限公司 信息提供模式切换方法及装置
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
CN105009203A (zh) * 2013-03-12 2015-10-28 纽昂斯通讯公司 用于检测语音命令的方法和装置
EP3611627B1 (en) * 2013-03-13 2024-09-25 Tahoe Research, Ltd. Device resource management based on contextual planning
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9674922B2 (en) 2013-03-14 2017-06-06 Google Technology Holdings LLC Display side edge assembly and mobile device including same
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9380039B2 (en) * 2013-03-15 2016-06-28 Google Inc. Systems and methods for automatically logging into a user account
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
US9892729B2 (en) 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
CN104142791A (zh) * 2013-05-09 2014-11-12 腾讯科技(深圳)有限公司 资源更换方法、装置及终端
CN105122181B (zh) * 2013-05-16 2018-12-18 英特尔公司 用于基于情景的自然用户接口输入的技术
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9997160B2 (en) * 2013-07-01 2018-06-12 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for dynamic download of embedded voice components
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9575721B2 (en) * 2013-07-25 2017-02-21 Lg Electronics Inc. Head mounted display and method of controlling therefor
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9002835B2 (en) * 2013-08-15 2015-04-07 Google Inc. Query response using media consumption history
WO2015029362A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法及び機器制御システム
US9928851B2 (en) 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
KR102158315B1 (ko) * 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
TWI502487B (zh) * 2013-10-24 2015-10-01 Hooloop Corp 語音管理方法,及其相關裝置與電腦程式產品
CN103578474B (zh) * 2013-10-25 2017-09-12 小米科技有限责任公司 一种语音控制方法、装置和设备
US9400634B2 (en) * 2013-10-28 2016-07-26 Google Technology Holdings LLC Systems and methods for communicating notifications and textual data associated with applications
US10158730B2 (en) 2013-10-30 2018-12-18 At&T Intellectual Property I, L.P. Context based communication management
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10720153B2 (en) * 2013-12-13 2020-07-21 Harman International Industries, Incorporated Name-sensitive listening device
CN104715757A (zh) * 2013-12-13 2015-06-17 华为技术有限公司 一种终端声控操作方法及装置
US10147441B1 (en) * 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9484001B2 (en) 2013-12-23 2016-11-01 Google Technology Holdings LLC Portable electronic device controlling diffuse light source to emit light approximating color of object of user interest
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
KR20150087544A (ko) 2014-01-22 2015-07-30 엘지이노텍 주식회사 제스처 장치, 그 동작 방법 및 이를 구비한 차량
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
WO2015149216A1 (en) * 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
US9372851B2 (en) * 2014-04-01 2016-06-21 Microsoft Technology Licensing, Llc Creating a calendar event using context
US9430461B2 (en) 2014-04-11 2016-08-30 International Business Machines Corporation Mobile based lexicon and forecasting
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9361442B2 (en) 2014-08-12 2016-06-07 International Business Machines Corporation Triggering actions on a user device based on biometrics of nearby individuals
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10575117B2 (en) 2014-12-08 2020-02-25 Harman International Industries, Incorporated Directional sound modification
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105788598B (zh) * 2014-12-19 2019-12-24 联想(北京)有限公司 一种语音处理方法和电子设备
CN104601818B (zh) * 2015-01-26 2018-02-13 宇龙计算机通信科技(深圳)有限公司 一种在通讯过程中切换操作系统的方法及装置
US9633661B1 (en) * 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10275369B2 (en) 2015-03-23 2019-04-30 International Business Machines Corporation Communication mode control for wearable devices
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US9807045B2 (en) 2015-06-10 2017-10-31 Google Inc. Contextually driven messaging system
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102505347B1 (ko) 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
CN106469040B (zh) 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
CN105161111B (zh) * 2015-08-25 2017-09-26 百度在线网络技术(北京)有限公司 基于蓝牙连接的语音识别方法和装置
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
WO2017042906A1 (ja) * 2015-09-09 2017-03-16 三菱電機株式会社 車載用音声認識装置および車載機器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
EP3179472B1 (en) * 2015-12-11 2020-03-18 Sony Mobile Communications, Inc. Method and device for recording and analyzing data from a microphone
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10599390B1 (en) 2015-12-28 2020-03-24 Amazon Technologies, Inc. Methods and systems for providing multi-user recommendations
US10380208B1 (en) * 2015-12-28 2019-08-13 Amazon Technologies, Inc. Methods and systems for providing context-based recommendations
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
KR20170100309A (ko) 2016-02-25 2017-09-04 삼성전자주식회사 음성 인식 제어를 제공하는 전자 장치 및 그 동작 방법
US10192550B2 (en) * 2016-03-01 2019-01-29 Microsoft Technology Licensing, Llc Conversational software agent
US10140988B2 (en) * 2016-03-01 2018-11-27 Microsoft Technology Licensing, Llc Speech recognition
US10140986B2 (en) * 2016-03-01 2018-11-27 Microsoft Technology Licensing, Llc Speech recognition
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US11176930B1 (en) * 2016-03-28 2021-11-16 Amazon Technologies, Inc. Storing audio commands for time-delayed execution
US10880833B2 (en) 2016-04-25 2020-12-29 Sensory, Incorporated Smart listening modes supporting quasi always-on listening
US9989376B2 (en) * 2016-05-12 2018-06-05 Tata Consultancy Services Limited Systems and methods for generating signature ambient sounds and maps thereof
US11416212B2 (en) 2016-05-17 2022-08-16 Microsoft Technology Licensing, Llc Context-based user agent
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) * 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
ES2806204T3 (es) 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
CN105939424B (zh) * 2016-06-23 2019-12-27 北京小米移动软件有限公司 应用切换方法及装置
US11232136B2 (en) 2016-06-27 2022-01-25 Google Llc Contextual voice search suggestions
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10438583B2 (en) 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US20180025725A1 (en) * 2016-07-22 2018-01-25 Lenovo (Singapore) Pte. Ltd. Systems and methods for activating a voice assistant and providing an indicator that the voice assistant has assistance to give
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10951720B2 (en) 2016-10-24 2021-03-16 Bank Of America Corporation Multi-channel cognitive resource platform
EP3535751A4 (en) 2016-11-10 2020-05-20 Nuance Communications, Inc. METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US9940930B1 (en) * 2016-12-07 2018-04-10 Google Llc Securing audio data
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11514098B2 (en) 2016-12-31 2022-11-29 Spotify Ab Playlist trailers for media content playback during travel
US10489106B2 (en) 2016-12-31 2019-11-26 Spotify Ab Media content playback during travel
US10747423B2 (en) 2016-12-31 2020-08-18 Spotify Ab User interface for media content playback
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10359993B2 (en) 2017-01-20 2019-07-23 Essential Products, Inc. Contextual user interface based on environment
US10166465B2 (en) 2017-01-20 2019-01-01 Essential Products, Inc. Contextual user interface based on video game playback
US9924313B1 (en) * 2017-02-23 2018-03-20 International Business Machines Corporation Location based generation of pertinent information
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102398649B1 (ko) * 2017-03-28 2022-05-17 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10628570B2 (en) 2017-05-15 2020-04-21 Fmr Llc Protection of data in a zero user interface environment
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US11221823B2 (en) 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US20180350360A1 (en) * 2017-05-31 2018-12-06 Lenovo (Singapore) Pte. Ltd. Provide non-obtrusive output
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10652170B2 (en) 2017-06-09 2020-05-12 Google Llc Modification of audio-based computer program output
WO2018226247A1 (en) * 2017-06-09 2018-12-13 Google Llc Modification of audio-based computer program output
WO2019009889A1 (en) * 2017-07-05 2019-01-10 Hewlett-Packard Development Company, L.P. APPLICATION SPECIFIC PROFILE MANAGERS
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
WO2019022750A1 (en) * 2017-07-28 2019-01-31 Hewlett-Packard Development Company, L.P. INTERFERENCE GENERATION
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
KR102389041B1 (ko) * 2017-08-11 2022-04-21 엘지전자 주식회사 이동단말기 및 머신 러닝을 이용한 이동 단말기의 제어방법
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10504513B1 (en) * 2017-09-26 2019-12-10 Amazon Technologies, Inc. Natural language understanding with affiliated devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019070230A1 (en) * 2017-10-03 2019-04-11 Google Llc COORDINATION OF MULTIPLE DIGITAL ASSISTANT IN VEHICULAR ENVIRONMENTS
CN111279291A (zh) * 2017-10-31 2020-06-12 惠普发展公司,有限责任合伙企业 用于控制感测模块何时对事件响应的致动模块
CN107833574B (zh) * 2017-11-16 2021-08-24 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
US11140450B2 (en) 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP7192208B2 (ja) * 2017-12-01 2022-12-20 ヤマハ株式会社 機器制御システム、デバイス、プログラム、及び機器制御方法
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10690863B1 (en) * 2017-12-13 2020-06-23 Amazon Technologies, Inc. Communication cable identification
US11409816B2 (en) 2017-12-19 2022-08-09 Motorola Solutions, Inc. Methods and systems for determining an action to be taken in response to a user query as a function of pre-query context information
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102508677B1 (ko) * 2018-03-08 2023-03-13 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10877637B1 (en) * 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US11127405B1 (en) 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10930278B2 (en) * 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US11145299B2 (en) 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
KR102612835B1 (ko) * 2018-04-20 2023-12-13 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN112272819B (zh) * 2018-06-05 2024-04-26 三星电子株式会社 被动唤醒用户交互设备的方法和系统
US11100935B2 (en) 2018-06-05 2021-08-24 Samsung Electronics Co., Ltd. Voice assistant device and method thereof
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109068276B (zh) * 2018-06-28 2020-09-11 维沃移动通信有限公司 一种消息转换方法及终端
CN110689882A (zh) * 2018-07-04 2020-01-14 上海博泰悦臻网络技术服务有限公司 车辆及其播放设备和多媒体播放自动控制方法
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020096218A1 (en) * 2018-11-05 2020-05-14 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
US10971160B2 (en) 2018-11-13 2021-04-06 Comcast Cable Communications, Llc Methods and systems for determining a wake word
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US10984791B2 (en) 2018-11-29 2021-04-20 Hughes Network Systems, Llc Spoken language interface for network management
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
CN109671427B (zh) * 2018-12-10 2021-02-02 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
US11242032B2 (en) * 2018-12-11 2022-02-08 GM Global Technology Operations LLC Custom vehicle alarm based on electronic device identifier
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
JP7205697B2 (ja) * 2019-02-21 2023-01-17 株式会社リコー 通信端末、共用システム、表示制御方法およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110001558A (zh) * 2019-04-18 2019-07-12 百度在线网络技术(北京)有限公司 用于控制车辆的方法和装置
US11817194B2 (en) * 2019-04-30 2023-11-14 Pixart Imaging Inc. Smart control system
US11137770B2 (en) * 2019-04-30 2021-10-05 Pixart Imaging Inc. Sensor registering method and event identifying method of smart detection system
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
EP3868086B1 (en) * 2019-08-16 2024-07-24 Google LLC Context aware airplane mode
US10839060B1 (en) 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11489794B2 (en) 2019-11-04 2022-11-01 Bank Of America Corporation System for configuration and intelligent transmission of electronic communications and integrated resource processing
US11061958B2 (en) 2019-11-14 2021-07-13 Jetblue Airways Corporation Systems and method of generating custom messages based on rule-based database queries in a cloud platform
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111312239B (zh) * 2020-01-20 2023-09-26 北京小米松果电子有限公司 响应方法、装置、电子设备及存储介质
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11290834B2 (en) 2020-03-04 2022-03-29 Apple Inc. Determining head pose based on room reverberation
US12118846B2 (en) * 2020-04-22 2024-10-15 Igt Enhanced personalized gesture inputs at an electronic gaming machine
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
JP7152043B2 (ja) * 2020-09-08 2022-10-12 株式会社ユピテル 装置及びプログラム
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
EP4002061A1 (en) * 2020-11-24 2022-05-25 Inter IKEA Systems B.V. A control device and a method for determining control data based on audio input data
US11250855B1 (en) * 2020-12-23 2022-02-15 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
EP4220628A4 (en) 2021-02-19 2024-05-22 Samsung Electronics Co., Ltd. ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER
KR20230023212A (ko) * 2021-08-10 2023-02-17 삼성전자주식회사 상태 변경에 따라 음성 명령 처리 결과를 출력하는 전자 장치 및 그의 동작 방법
US12032807B1 (en) * 2021-11-08 2024-07-09 Arrowhead Center, Inc. Assistive communication method and apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US20090259691A1 (en) * 2008-04-10 2009-10-15 Nokia Corporation Methods, Apparatuses and Computer Program Products for Updating a Content Item

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
EP0847003A3 (en) * 1996-12-03 2004-01-02 Texas Instruments Inc. An audio memo system and method of operation thereof
SE9902229L (sv) * 1999-06-07 2001-02-05 Ericsson Telefon Ab L M Apparatus and method of controlling a voice controlled operation
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
US6615170B1 (en) 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
KR20010094229A (ko) * 2000-04-04 2001-10-31 이수성 전화기의 음성인식 조작 방법 및 시스템
DE10164799B4 (de) * 2001-03-21 2006-03-30 Audioton Kabelwerk Gmbh Mobiltelefoneinrichtung mit mehradrigen elektrischen Verbindungseinrichtungen
US20030101060A1 (en) * 2001-11-29 2003-05-29 Bickley Corine A. Use of historical data for a voice application interface
US20050060365A1 (en) 2002-01-24 2005-03-17 Robinson Scott L. Context-based information processing
CN100342214C (zh) * 2002-03-15 2007-10-10 三菱电机株式会社 车辆用导航装置
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7200413B2 (en) * 2002-07-31 2007-04-03 Interchange Corporation Methods and system for enhanced directory assistance using wireless messaging protocols
US6993615B2 (en) * 2002-11-15 2006-01-31 Microsoft Corporation Portable computing device-integrated appliance
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US20060085199A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
US20060287864A1 (en) * 2005-06-16 2006-12-21 Juha Pusa Electronic device, computer program product and voice control method
US20070011133A1 (en) 2005-06-22 2007-01-11 Sbc Knowledge Ventures, L.P. Voice search engine generating sub-topics based on recognitiion confidence
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7523226B2 (en) 2005-11-09 2009-04-21 Microsoft Corporation Controlling an auxiliary display user interface based on usage context
WO2007069377A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
US20070299670A1 (en) * 2006-06-27 2007-12-27 Sbc Knowledge Ventures, Lp Biometric and speech recognition system and method
US8041025B2 (en) * 2006-08-07 2011-10-18 International Business Machines Corporation Systems and arrangements for controlling modes of audio devices based on user selectable parameters
KR101327445B1 (ko) * 2006-09-15 2013-11-11 삼성전자주식회사 자동 착신 알림 전환 모드를 수행하는 이동통신 단말기 및그 방법
US7581188B2 (en) * 2006-09-27 2009-08-25 Hewlett-Packard Development Company, L.P. Context-based user interface system
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
DE102008051757A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US8121586B2 (en) 2008-09-16 2012-02-21 Yellowpages.Com Llc Systems and methods for voice based search
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US20090259691A1 (en) * 2008-04-10 2009-10-15 Nokia Corporation Methods, Apparatuses and Computer Program Products for Updating a Content Item

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103347A1 (ko) * 2017-11-23 2019-05-31 삼성전자(주) 전자장치 및 그 제어방법

Also Published As

Publication number Publication date
WO2012019020A1 (en) 2012-02-09
US9105269B2 (en) 2015-08-11
CN106126178A (zh) 2016-11-16
EP3748630B1 (en) 2021-12-22
EP2601650A1 (en) 2013-06-12
EP3432303B1 (en) 2020-10-07
CN103282957A (zh) 2013-09-04
EP3998603A3 (en) 2022-08-31
EP3432303A2 (en) 2019-01-23
CN106126178B (zh) 2019-09-06
CN103282957B (zh) 2016-07-13
US8326328B2 (en) 2012-12-04
KR20130100280A (ko) 2013-09-10
AU2011285702B2 (en) 2014-08-07
US20120034904A1 (en) 2012-02-09
US20120035931A1 (en) 2012-02-09
EP3998603A2 (en) 2022-05-18
EP3182408B1 (en) 2018-12-26
US9251793B2 (en) 2016-02-02
EP3432303A3 (en) 2019-03-20
AU2011285702A1 (en) 2013-03-07
US8918121B2 (en) 2014-12-23
EP2601650A4 (en) 2014-07-16
EP3748630A3 (en) 2021-03-24
EP3748630A2 (en) 2020-12-09
KR20160033233A (ko) 2016-03-25
US8359020B2 (en) 2013-01-22
US20150112691A1 (en) 2015-04-23
US20130095805A1 (en) 2013-04-18
EP3182408A1 (en) 2017-06-21
US20150310867A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
KR101605481B1 (ko) 컨텍스트에 기초한 음성입력 자동 모니터링
KR101875819B1 (ko) 컨텍스트에 기초한 입력 명확화
KR101835760B1 (ko) 모바일 컴퓨팅 디바이스에서의 자기-인식 프로파일 전환
KR101894499B1 (ko) 상태-종속 쿼리 응답
KR101539687B1 (ko) 파라미터리스 검색 쿼리에 대한 결과 제공 방법
JP2018109980A (ja) デジタルアシスタントのためのボイストリガ

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant