KR102651249B1 - 디지털 어시스턴트를 이용한 오디오 정보 제공 - Google Patents

디지털 어시스턴트를 이용한 오디오 정보 제공 Download PDF

Info

Publication number
KR102651249B1
KR102651249B1 KR1020237001029A KR20237001029A KR102651249B1 KR 102651249 B1 KR102651249 B1 KR 102651249B1 KR 1020237001029 A KR1020237001029 A KR 1020237001029A KR 20237001029 A KR20237001029 A KR 20237001029A KR 102651249 B1 KR102651249 B1 KR 102651249B1
Authority
KR
South Korea
Prior art keywords
response
commands
audio information
type
communication
Prior art date
Application number
KR1020237001029A
Other languages
English (en)
Other versions
KR20230010845A (ko
Inventor
라훌 네어
골나즈 아브돌라히안
아비 바르-지브
니란잔 만주나스
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Priority to KR1020247009443A priority Critical patent/KR20240042222A/ko
Publication of KR20230010845A publication Critical patent/KR20230010845A/ko
Application granted granted Critical
Publication of KR102651249B1 publication Critical patent/KR102651249B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

오디오 정보를 제공하기 위한 예시적인 기법에서, 입력이 수신되고, 수신된 입력에 응답하는 오디오 정보가 스피커를 사용하여 제공된다. 오디오 정보를 제공하는 동안, 외부 사운드가 검출된다. 외부 사운드가 제1 타입의 통신인 것으로 결정되는 경우, 오디오 정보의 제공이 중단된다. 외부 사운드가 제2 타입의 통신인 것으로 결정되는 경우, 오디오 정보의 제공은 계속된다.

Description

디지털 어시스턴트를 이용한 오디오 정보 제공{PROVIDING AUDIO INFORMATION WITH A DIGITAL ASSISTANT}
관련 출원에 대한 상호 참조
본 출원은 2018년 6월 1일자로 출원되고 발명의 명칭이 "디지털 어시스턴트를 이용한 오디오 정보 제공(Providing Audio Information with a Digital Assistant)"인 미국 가출원 제62/679,644호에 대한 우선권을 주장하며, 이로써, 이의 전체 개시내용은 모든 적절한 목적들을 위해 참조로 포함된다.
기술분야
본 개시내용은 일반적으로, 디지털 어시스턴트(digital assistant)를 구현하는 전자 디바이스에 관한 것으로, 더 구체적으로, 디지털 어시스턴트를 이용하여 오디오 정보를 제공하는 전자 디바이스에 관한 것이다.
배경기술
디지털 어시스턴트는 음성 및/또는 텍스트 형태의 자연 언어 입력을 해석하고, 입력에 기초하여 사용자 요청을 결정한다. 이어서, 디지털 어시스턴트는 사용자 요청에 기초하여 액션(action)들을 수행한다. 액션들은 사용자 요청에 응답하는 정보를 제공하는 것 및/또는 태스크들을 수행하는 것을 포함한다.
본 개시내용은 디지털 어시스턴트를 구현하는 전자 디바이스를 이용하여 오디오 정보를 제공하기 위한 기법들을 설명한다. 일부 실시예들에 따르면, 전자 디바이스는 특정 타입의 인터럽션(interruption)에 대한 응답으로 오디오 정보를 제공하는 것을 중단한다. 부가하여, 일부 실시예들에 따르면, 전자 디바이스는 오디오 정보가 인터럽트될 것으로 예상되지 않을 때까지 오디오 정보를 제공하기 위해(또는 제공하는 것을 재개하기 위해) 대기한다. 이러한 기법들은, 일부 예시적인 실시예들에서, 사용자가 디지털 어시스턴트로부터의 오디오 정보에 의해 인터럽트되거나 또는 주의가 분산되지 않으면서 말할 수 있게 함으로써, 디지털 어시스턴트와의 더 자연스럽고 효율적인 상호작용을 제공한다. 이 기법들은 전자 디바이스들, 이를테면, 데스크톱 컴퓨터들, 랩톱들, 태블릿들, 텔레비전들, 스피커들, 엔터테인먼트 시스템들, 및 스마트폰들에 적용될 수 있다.
일부 실시예들에 따르면, 오디오 정보를 제공하기 위한 기법은, 스피커를 사용하여, 수신된 입력에 응답하는 오디오 정보를 제공하는 단계; 오디오 정보를 제공하는 동안, 외부 사운드를 검출하는 단계; 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 오디오 정보의 제공을 중단하는 단계; 및 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 오디오 정보의 제공을 계속하는 단계를 포함한다. 일부 실시예들에서, 수신된 입력은 트리거링 커맨드를 포함한다.
일부 실시예들에서, 기법은, 오디오 정보의 제공을 중단한 후에: 제1 타입의 통신과 연관된 하나 이상의 시각적 특성들을 검출하는 단계; 제1 타입의 통신이 중단된 것을 검출하는 단계; 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 하나 이상의 시각적 특성들이 제1 타입의 추가 통신이 예상됨을 나타내는지 여부를 결정하는 단계; 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 재개 오디오 정보를 제공하는 단계; 및 제1 타입의 추가 통신이 예상된다는 결정에 따라, 오디오 정보의 제공을 중단하는 것을 계속하는 단계를 더 포함한다.
일부 실시예들에서, 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다. 일부 실시예들에서, 오디오 정보의 제공을 중단하는 것은 오디오 정보를 페이드 아웃(fading out)하는 것을 포함한다. 일부 실시예들에서, 기법은, 오디오 정보의 제공을 중단한 후에, 그리고 제1 타입의 통신이 중단되었다는 결정에 따라, 재개 오디오 정보를 제공하는 단계를 더 포함한다. 일부 실시예들에서, 오디오 정보는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보가 중단되었던 세그먼트로 시작된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 이전에 제공된 세그먼트의 재구성된 버전(rephrased version)을 포함한다.
일부 실시예들에서, 제1 타입의 통신은 직접-발성 어휘 발화(directly-vocalized lexical utterance)를 포함한다. 일부 실시예들에서, 직접-발성 어휘 발화는 침묵화 명령들을 배제한다. 일부 실시예들에서, 기법은, 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 외부 사운드가 직접-발성 어휘 발화인 것으로 결정하는 단계를 더 포함한다. 일부 실시예들에서, 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.
일부 실시예들에서, 제2 타입의 통신은 대화 사운드들을 포함한다. 일부 실시예들에서, 제2 타입의 통신은 압축 오디오를 포함한다. 일부 실시예들에서, 제2 타입의 통신은 전자 디바이스에 의해 재생되는 어휘 발화를 포함한다. 일부 실시예들에서, 기법은, 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 외부 사운드가 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정하는 단계를 더 포함한다. 일부 실시예들에서, 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.
일부 실시예들에 따르면, 오디오 정보를 제공하기 위한 기법은 소스로부터 스피치(speech) 입력을 수신하는 단계 - 스피치 입력은 하나 이상의 명령들을 포함함 -; 스피치 입력의 소스와 연관된 하나 이상의 시각적 특성들을 검출하는 단계; 스피치 입력이 중단된 것을 검출하는 단계; 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 소스와 연관된 하나 이상의 시각적 특성들이 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부를 결정하는 단계; 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 단계; 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 것을 보류하는 단계를 포함한다.
일부 실시예들에서, 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다. 일부 실시예들에서, 기법은, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 하나 이상의 명령들에 대한 응답을 제공하는 것을 보류하는 단계; 및 미리 결정된 시간 후에, 그리고 소스로부터의 스피치 입력이 재개되지 않았다는 결정에 따라, 하나 이상의 명령들에 대한 응답을 제공하는 단계를 더 포함한다.
다양하게 설명된 실시예들의 보다 양호한 이해를 위해, 유사한 도면 부호들이 도면 전체에 걸쳐서 대응 부분들을 나타내는 하기의 도면들과 관련하여 하기의 발명을 실시하기 위한 구체적인 내용이 참조되어야 한다.
도 1a 및 도 1b는 다양한 실시예들에 따른, 사용자에게 오디오 정보를 제공하기 위한 예시적인 시스템을 도시한다.
도 2는 다양한 실시예들에 따른, 환경에서 오디오 정보를 제공하는 전자 디바이스의 예를 도시한다.
도 3은 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스의 흐름도를 도시한다.
도 4는 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 다른 예시적인 프로세스의 흐름도를 도시한다.
하기의 설명은 예시적인 방법들, 파라미터들 등을 기재하고 있다. 그러나, 이러한 설명이 본 개시내용의 범주에 대한 제한으로서 의도되지 않고 그 대신에 예시적인 실시예들의 설명으로서 제공된다는 것을 인식해야 한다.
도 1a 및 도 1b는 다양한 실시예들에 따른, 사용자에게 오디오 정보를 제공하기 위한 예시적인 시스템(100)을 도시한다.
일부 실시예들에서, 도 1a에 예시된 바와 같이, 시스템(100)은 디바이스(100a)를 포함한다. 디바이스(100a)는 다양한 컴포넌트들, 이를테면, 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106), 이미지 센서(들)(108), 배향 센서(들)(110), 마이크로폰(들)(112), 위치 센서(들)(116), 스피커(들)(118), 디스플레이(들)(120), 및 터치-감응형 표면(들)(122)을 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100a)의 통신 버스(들)(150)를 통해 통신한다.
일부 실시예들에서, 시스템(100)의 엘리먼트들은 기지국 디바이스(예컨대, 원격 서버, 모바일 디바이스, 또는 랩톱과 같은 컴퓨팅 디바이스)에서 구현되고, 시스템(100)의 다른 엘리먼트들은 보조 디바이스(이를테면, 오디오 재생 디바이스, 텔레비전, 모니터, 또는 헤드-마운트 디스플레이(HMD) 디바이스)에서 구현되며, 여기서, 보조 디바이스는 기지국 디바이스와 통신한다. 일부 실시예들에서, 디바이스(100a)는 기지국 디바이스 또는 보조 디바이스에서 구현된다.
도 1b에 예시된 바와 같이, 일부 실시예들에서, 시스템(100)은, 이를테면, 유선 연결 또는 무선 연결을 통해 통신하는 2개의(또는 그 이상의) 디바이스들을 포함한다. 제1 디바이스(100b)(예컨대, 기지국 디바이스)는 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106)를 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100b)의 통신 버스(들)(150)를 통해 통신한다. 제2 디바이스(100c)(예컨대, 보조 디바이스)는 다양한 컴포넌트들, 예컨대, 프로세서(들)(102), RF 회로부(들)(104), 메모리(들)(106), 이미지 센서(들)(108), 배향 센서(들)(110), 마이크로폰(들)(112), 위치 센서(들)(116), 스피커(들)(118), 디스플레이(들)(120), 및 터치-감응형 표면(들)(122)을 포함한다. 이러한 컴포넌트들은 옵션적으로 디바이스(100c)의 통신 버스(들)(150)를 통해 통신한다.
시스템(100)은 프로세서(들)(102) 및 메모리(들)(106)를 포함한다. 프로세서(들)(102)는 하나 이상의 일반 프로세서들, 하나 이상의 그래픽 프로세서들, 및/또는 하나 이상의 디지털 신호 프로세서들을 포함한다. 일부 실시예들에서, 메모리(들)(106)는 아래에서 설명되는 기법들을 수행하기 위하여 프로세서(들)(102)에 의해 실행되도록 구성된 컴퓨터-판독가능 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터-판독가능 저장 매체들(예컨대, 플래시 메모리, 랜덤 액세스 메모리)이다.
시스템(100)은 RF 회로부(들)(104)를 포함한다. RF 회로부(들)(104)는 옵션적으로 전자 디바이스들과 통신하기 위한 회로부, 인터넷, 인트라넷과 같은 네트워크들, 및/또는 셀룰러 네트워크들 및 무선 로컬 영역 네트워크들(LAN)과 같은 무선 네트워크를 포함한다. RF 회로부(들)(104)는 옵션적으로 블루투스®와 같은 근거리 통신 및/또는 단거리 통신을 이용하여 통신하기 위한 회로부를 포함한다.
시스템(100)은 디스플레이(들)(120)를 포함한다. 일부 실시예들에서, 디스플레이(들)(120)는 제1 디스플레이(예컨대, 좌안 디스플레이 패널) 및 제2 디스플레이(예컨대, 우안 디스플레이 패널)를 포함하며, 각각의 디스플레이는 사용자의 각각의 눈에 이미지들을 디스플레이한다. 대응하는 이미지들은 제1 디스플레이 및 제2 디스플레이 상에 동시에 디스플레이된다. 옵션적으로, 대응하는 이미지들은 상이한 시점들로부터의 동일한 물리적 객체들의 동일한 가상 객체들 및/또는 표현들을 포함하여, 사용자에게 디스플레이들 상의 객체들의 깊이의 착각을 일으키는 시차 효과를 야기한다. 일부 실시예들에서, 디스플레이(들)(120)는 단일 디스플레이를 포함한다. 대응하는 이미지들은 사용자의 각각의 눈에 대하여 단일 디스플레이의 제1 영역 및 제2 영역 상에 동시에 디스플레이된다. 옵션적으로, 대응하는 이미지들은 상이한 시점들로부터의 동일한 물리적 객체들의 동일한 가상 객체들 및/또는 표현들을 포함하여, 사용자에게 단일 디스플레이 상의 객체들의 깊이의 착각을 일으키는 시차 효과를 야기한다.
일부 실시예들에서, 시스템(100)은 탭 입력 및 스와이프 입력과 같은 사용자 입력들을 수신하기 위한 터치-감응형 표면(들)(122)을 포함한다. 일부 실시예들에서, 디스플레이(들)(120) 및 터치-감응형 표면(들)(122)은 터치-감응형 디스플레이(들)를 형성한다.
시스템(100)은 이미지 센서(들)(108)를 포함한다. 이미지 센서(들)(108)는 옵션적으로 실제 환경으로부터 물리적 객체들의 이미지들을 획득하도록 동작가능한 전하 결합 소자(CCD) 센서들, 및/또는 상보성 금속-산화물-반도체(CMOS) 센서들과 같은 하나 이상의 가시광 이미지 센서를 포함한다. 이미지 센서(들)는 또한 옵션적으로 실제 환경으로부터 적외선 광을 검출하기 위한 수동형 IR 센서 또는 능동형 IR 센서와 같은 하나 이상의 적외선(IR) 센서(들)를 포함한다. 예를 들어, 능동형 IR 센서는 적외선 광을 실제 환경으로 방출하기 위한 IR 도트 방출기와 같은 IR 방출기를 포함한다. 이미지 센서(들)(108)는 또한 옵션적으로 실제 환경에서 물리적 객체들의 움직임을 포착하도록 구성된 하나 이상의 이벤트 카메라(들)를 포함한다. 이미지 센서(들)(108)는 또한 옵션적으로 시스템(100)으로부터 물리적 객체들의 거리를 검출하도록 구성된 하나 이상의 깊이 센서(들)를 포함한다. 일부 실시예들에서, 시스템(100)은 CCD 센서, 이벤트 카메라, 및 깊이 센서를 조합하여 사용하여 시스템(100) 주위의 물리적 환경을 검출한다. 일부 실시예들에서, 이미지 센서(들)(108)는 제1 이미지 센서 및 제2 이미지 센서를 포함한다. 제1 이미지 센서 및 제2 이미지 센서는 옵션적으로 2개의 별개의 시야로부터 환경에서의 물리적 객체들의 이미지들을 포착하도록 구성된다. 일부 실시예들에서, 시스템(100)은 이미지 센서(들)(108)를 사용하여 손 제스처들과 같은 사용자 입력들을 수신한다. 일부 실시예들에서, 시스템(100)은 이미지 센서(들)(108)를 사용하여 환경에서의 시스템(100) 및/또는 디스플레이(들)(120)의 위치 및 배향을 검출한다. 예컨대, 시스템(100)은 이미지 센서(들)(108)를 사용하여 환경에서의 하나 이상의 객체들의 위치 및 배향을 추적한다.
일부 실시예들에서, 시스템(100)은 마이크로폰(들)(112)을 포함한다. 시스템(100)은 마이크로폰(들)(112)을 사용하여 사용자 및/또는 사용자의 환경으로부터의 사운드를 검출한다. 일부 실시예들에서, 마이크로폰(들)(112)은, 예컨대, 주변 소음을 식별하거나 또는 환경의 공간에서 사운드 소스를 위치파악하기 위하여 옵션적으로 나란히 동작하는 마이크로폰들의 어레이(복수의 마이크로폰들을 포함)를 포함한다.
시스템(100)은 시스템(100) 및/또는 디스플레이(들)(120)의 배향 및/또는 이동을 검출하기 위하여 배향 센서(들)(110)를 포함한다. 예컨대, 시스템(100)은 배향 센서(들)(110)를 사용하여, 예컨대, 환경에서의 물리적 객체들에 대한 시스템(100) 및/또는 디스플레이(들)(120)의 위치 및/또는 배향의 변화를 추적한다. 배향 센서(들)(110)는 옵션적으로 하나 이상의 자이로스코프들 및/또는 하나 이상의 가속도계들을 포함한다.
일부 실시예들에서, 시스템(100)은 디지털 어시스턴트를 구현한다. 디지털 어시스턴트는 음성 및/또는 텍스트 형태의 자연 언어 입력을 해석하고, 입력에 기초하여 하나 이상의 명령들을 결정한다. 이어서, 디지털 어시스턴트는 명령들에 기초하여 액션들을 수행한다. 일부 실시예들에서, 액션들은 명령들에 응답하는 오디오 정보를 제공하는 것 및/또는 태스크들을 수행하는 것을 포함한다. "디지털 어시스턴트"라는 용어는 자연 언어 입력을 해석하고 그 입력에 응답하는 액션들을 수행할 수 있는 임의의 정보 프로세싱 시스템을 지칭할 수 있다.
전형적으로, 자연 언어 입력은 디지털 어시스턴트에 의한 정보제공형 답변 또는 태스크의 수행 중 어느 하나를 요청한다. 디지털 어시스턴트는 요청된 정보를 오디오 포맷으로 제공하고/하거나 요청된 태스크를 수행함으로써 입력에 응답한다. 예컨대, 사용자가 디지털 어시스턴트에게 "내일 일기 예보는 어떻습니까?"라고 질문할 때, 디지털 어시스턴트는 "내일은 화창할 것으로 예상되며 최고 온도는 75도이고 최저 온도는 60도입니다"의 오디오 답변으로 응답할 수 있다. 다른 예로서, 사용자가 "내일 오전 6:00에 알람을 세팅하십시오"라고 요청할 때, 디지털 어시스턴트는 각각의 알람을 세팅하는 태스크를 수행하고, "내일 오전 6시에 알람이 세팅되었습니다"의 오디오 확인을 제공한다.
일부 실시예들에서, 시각적 정보(예컨대, 텍스트, 비디오, 애니메이션들 등)가 오디오 정보에 부가하여 또는 그 대신에 제공된다. 게다가, 일부 실시예들에서, 제공된 정보는 미디어 콘텐츠(예컨대, 음악 또는 비디오 콘텐츠)를 포함하고, 디지털 어시스턴트는 미디어 콘텐츠의 재생을 제어한다(예컨대, 음악 또는 비디오 콘텐츠의 시작 및 중단).
일부 경우들에서, 디지털 어시스턴트에 의한 오디오 정보의 제공을 인터럽트하는 것이 유리할 것이다. 예컨대, 디지털 어시스턴트가 오디오 정보를 제공하고 있는 동안 사용자가 다른 사람에게 말하기 시작하는 경우, 사용자는 디지털 어시스턴트에 의해 제공되는 정보를 듣지 못할 수 있다. 이 경우, 시스템(100)은 사용자와 다른 사람 사이의 대화가 종료될 때까지 오디오 정보를 제공하는 것을 중단한다. 이러한 방식으로, 시스템(100)은 더 공손한 방식으로 디지털 어시스턴트를 이용하여 오디오 정보를 제공한다.
게다가, 일부 실시예들에서, 오디오 정보를 제공하기 전에(또는 중단된 오디오 정보의 제공을 재개하기 전에), 시스템(100)은 디지털 어시스턴트에 의해 오디오 정보가 제공되기에 적절함을 나타내는 시각적 특성들을 검출한다. 예컨대, 사용자가 요청을 제공하지만 생각하기 위해 말하는 것을 중단할 때(예컨대, "톰과 월요일 오전 9시에 미팅을 스케줄링하고 또...", 시스템(100)은 부가적인 스피치가 예상되는 것을 검출하고, 오디오 정보를 제공하기 위해 대기한다.
도 2는 다양한 실시예들에 따른, 환경(210)에서 오디오 정보(202)를 제공하는 전자 디바이스(200)의 예를 도시한다. 일부 실시예들에서, 전자 디바이스(200)는 도 1a 및 도 1b를 참조하여 설명된 바와 같은 시스템(100)의 실시예이다. 오디오 정보(202)는 수신된 입력에 응답하여 스피커(들)(218)를 사용하여 제공된다. 일부 실시예들에서, 수신된 입력은 전자 디바이스(200)에 의해 구현된 디지털 어시스턴트에 대한 하나 이상의 명령들을 포함하는 음성 또는 텍스트 형태의 자연 언어 입력이다. 전자 디바이스(200)는 수신된 입력에 기초하여 하나 이상의 명령들을 결정하고, 하나 이상의 명령들에 기초하여 오디오 정보(202)를 제공한다. 일부 실시예들에서, 수신된 입력은 디지털 어시스턴트에 대한 명령들로서 입력을 식별하는 트리거링 커맨드(예컨대, "헬로 컴퓨터")를 포함한다.
일부 실시예들에서, 사용자로부터의 입력이 중단된 후에, 전자 디바이스(200)는, 오디오 정보(202)를 제공하기 전에, 사용자의 시각적 특성들이 추가 입력이 예상됨을 나타내는지 여부를 결정한다. 시각적 특성들의 예들은 시선, 얼굴 표정들, 및/또는 손 제스처들을 포함한다. 예컨대, 전자 디바이스(200)가 사람의 눈들이 말하는 것을 중단한 후에 상방을 응시하는 것을 검출하는 경우, 전자 디바이스(200)는 사람으로부터의 추가 스피치가 예상되는 것으로 결정하는데, 이는 상방 응시가 사람이 생각하고 있음을 나타내기 때문이다. 일부 실시예들에서, 추가 입력이 예상되는 것으로 결정한 후에, 전자 디바이스(200)는 미리 결정된 시간 동안 대기한다. 미리 결정된 시간 동안 추가 입력이 제공되지 않는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것으로 진행한다. 사용자의 시각적 특성들이 추가 입력이 예상됨을 나타내지 않는 경우, 전자 디바이스(200)는 사용자로부터의 입력이 중단된 후에 오디오 정보(202)를 제공하는 것으로 진행한다.
전자 디바이스(200)가 오디오 정보(202)를 제공하면서 외부 사운드 소스(204)로부터의 외부 사운드(206)를 검출하는 경우, 전자 디바이스(200)는 외부 사운드(206)의 타입에 기초하여, 외부 사운드(206)가 오디오 정보(202)의 제공을 중단하는 것을 정당화(warrant)하는지 여부를 결정한다. 일부 타입의 외부 사운드들(206)의 경우, 오디오 정보(202)를 중단하는 것은 불필요하다. 예컨대, 사람이 청취 또는 생각하고 있음을 나타내는 대화 사운드들, 이를테면, "흠", "음", "오케이", "으응", "예", "알겠어요" 등은 오디오 정보(202)의 제공을 중단하는 것을 정당화하지 않을 것이다. 다른 타입의 외부 사운드들(206), 이를테면, 압축 오디오(예컨대, 음악 또는 비디오와 같은 미디어 콘텐츠로부터의 사운드들) 또는 전자 디바이스에 의해 재생되는 스피치(예컨대, 텔레비전에 의해 방출되는 어휘 발화들)인 외부 사운드들(206)이 또한, 오디오 정보(202)의 제공을 중단하는 것을 정당화하지 않을 것이다.
일부 실시예들에서, 외부 사운드(206)가 압축 오디오와 일치하는 특성들을 갖는 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다(예컨대, 압축 오디오는 오디오 정보(202)를 중단하는 것을 정당화하지 않는 외부 사운드의 타입임). 다른 실시예들에서, 외부 사운드(206)가 압축 오디오와 일치하는 특성들을 갖는 것으로 전자 디바이스(200)가 결정할 때, 전자 디바이스(200)는 외부 사운드 소스(204)의 특성들 및/또는 압축 오디오의 콘텐츠를 추가로 결정한다. 압축 오디오 및/또는 압축 오디오의 콘텐츠를 방출하는 외부 사운드 소스(204)의 특성들에 기초하여, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속할 수 있거나 또는 오디오 정보(202)를 중단할 수 있다. 예컨대, 외부 사운드 소스(204)가 낮은-우선순위 오디오를 방출하는 텔레비전 또는 다른 디바이스인 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다. 낮은-우선순위 오디오의 예들은 미리-레코딩된 오디오, 이를테면 음악 또는 영화들, 텔레비전 프로그램들, 또는 라디오 방송들을 포함한다. 그러나, 외부 사운드 소스(204)가 높은-우선순위 오디오를 방출하는 전화 또는 다른 디바이스인 것으로 전자 디바이스(200)가 결정하는 경우, 전자 디바이스(200)는 높은-우선순위 오디오로부터 주의를 분산시키기 않도록 오디오 정보(202)를 제공하는 것을 중단할 수 있다. 높은-우선순위 오디오의 예들은 거의 실시간으로 말하는 사람의 오디오(예컨대, 전화 대화), 알람, 경고 메시지를 포함한다.
일반적으로, 더 많은 실질적인 정보를 전달하는 타입의 외부 사운드들(206)은 사람들 사이의 대화들이거나, 또는 그렇지 않으면, 오디오 정보(202)의 제공을 중단하는 것을 정당화하는 높은-우선순위 오디오를 포함한다. 이러한 타입의 외부 사운드들(206)은 직접-발성 어휘 발화들(예컨대, 환경(210)에서 말하는 사람에 의해 방출되는 외부 사운드(206))을 포함한다. 예컨대, 오디오 정보(202)가 제공되고 있는 동안, 사람이 환경(210) 내의 다른 사람에게 말하기 시작하는 경우, 전자 디바이스(200)는 스피치를 검출할 시에 오디오 정보(202)의 제공을 중단할 수 있다. 오디오 정보(202)의 제공을 중단하는 것은 2명의 사람들이 오디오 정보(202)에 의해 주의가 분산되거나 또는 인터럽트되지 않으면서 대화를 할 수 있게 한다. 유사하게, 디지털 어시스턴트에 대한 후속 요청을 하거나 또는 그렇지 않으면 실질적인 스피치를 전달하는 환경(210) 내의 사람이 또한, 오디오 정보(202)의 제공을 중단하는 것을 정당화할 것이다. 특히, 오디오 정보(202)는 사용자가 "중단", "조용히", "종료" 등과 같은 침묵화 또는 트리거링 커맨드를 말할 필요 없이 중단된다. 일부 실시예들에서, 오디오 정보(202)를 중단하는 것은 오디오 정보(202)를 페이드 아웃하는 것을 포함한다.
일부 실시예들에서, 전자 디바이스(200)는 환경(210) 내의 외부 사운드 소스(204)의 위치에 적어도 부분적으로 기초하여 외부 사운드(206)의 타입을 결정한다. 일부 실시예들에서, 외부 사운드 소스(204)의 위치는 사운드 소스의 방향 및/또는 거리를 검출할 수 있는 마이크로폰 어레이를 사용하여 결정된다. 외부 사운드 소스(204)의 위치가 사람에 대응하는 경우(그리고, 옵션적으로, 외부 사운드(204)가 사람이 청취 또는 생각하고 있음을 나타내는 대화 사운드가 아닌 경우), 전자 디바이스(200)는 외부 사운드(204)가 실질적인 것으로 결정하고, 오디오 정보(202)의 제공을 중단한다. 그러나, 외부 사운드 소스(204)의 위치가 전자 디바이스(예컨대, 텔레비전 또는 라우드스피커)에 대응하는 것으로 결정되는 경우, 전자 디바이스(200)는 오디오 정보(202)를 제공하는 것을 계속한다. 이러한 방식으로, 전자 디바이스(200)는, 전자 디바이스에 의해 방출되는 외부 사운드(206)가 인간 스피치처럼 들릴 때에도(예컨대, 텔레비전 프로그램에서 말하는 어휘 발화), 오디오 정보(202)를 제공하는 것을 중단하지 않는다.
일부 실시예들에서, 오디오 정보(202)의 제공을 중단한 후에, 전자 디바이스(200)는 적절한 시간까지 오디오 정보(202)를 재개하는 것을 대기한다. 예컨대, 사람이 환경(210) 내의 다른 사람에게 말하고 있는 경우, 전자 디바이스(200)는 2명의 사람들 사이의 추가 통신이 더 이상 예상되지 않을 때까지 오디오 정보(202)를 재개하는 것을 대기한다. 일부 실시예들에서, 전자 디바이스(200)는 시선, 얼굴 표정들, 및/또는 손 제스처들과 같은 외부 사운드들(206)을 만드는 하나 이상의 사람들의 시각적 특성들에 기초하여 추가 통신이 예상됨을 검출한다. 예컨대, 전자 디바이스(200)가 사람의 눈들이 말하는 것을 중단한 후에 상방을 응시하는 것을 검출하는 경우, 전자 디바이스(200)는 사람으로부터의 추가 스피치가 예상되는 것으로 결정하는데, 이는 상방 응시가 사람이 생각하고 있음을 나타내기 때문이다.
오디오 정보(202)가 계속되는 것이 적절한 것으로 전자 디바이스(200)가 결정하면, 전자 디바이스(200)는 재개 오디오 정보(202)를 제공한다. 일부 실시예들에서, 전자 디바이스(200)는 오디오 정보(202)가 시선, 얼굴 표정들, 및/또는 손 제스처들과 같은 하나 이상의 사람들의 시각적 특성들에 기초하여, 오디오 정보(202)가 계속되는 것이 적절한 것으로 결정한다. 예컨대, 사람의 눈들이 스피커(들)(218)의 방향을 응시하고 있음을 시스템이 검출하는 경우, 전자 디바이스(200)는 재개 오디오 정보를 제공하는 것이 적절한 것으로 결정한다.
일부 실시예들에서, 오디오 정보(202)는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보(202)가 중단되었던 세그먼트로 시작한다. 이러한 방식으로, 재개 오디오 정보는 전체 문구 또는 단어로 시작할 수 있다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보(202)의 이전에 제공된 세그먼트의 재구성된 버전을 포함한다. 오디오 정보(202)의 이전에 제공된 세그먼트의 재구성된 버전은, 동일한(예컨대, 축어적(verbatim) 오디오 정보를 반복하지 않으면서, 오디오 정보(202)가 중단되었던 지점을 청취자에게 상기시킨다.
이제 도 3을 참조하면, 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스(300)의 흐름도가 도시된다. 프로세스(300)는 사용자 디바이스(예컨대, 100a, 200)를 사용하여 수행될 수 있다. 전자 디바이스는, 예컨대, 데스크톱 컴퓨터, 랩톱 컴퓨터, 핸드헬드 모바일 디바이스, 오디오 재생 디바이스, 텔레비전, 모니터, 헤드-마운트 디스플레이(HMD) 디바이스, 또는 헤드-업 디스플레이 디바이스이다. 다른 실시예들에서, 프로세스(300)는 베이스 디바이스와 같은 다른 디바이스에 통신가능하게 커플링되는 사용자 디바이스와 같은 2개 이상의 전자 디바이스들을 사용하여 수행됨이 인식되어야 한다. 이러한 실시예들에서, 프로세스(300)의 동작들은 임의의 방식으로 사용자 디바이스와 다른 디바이스 사이에 분배된다. 프로세스(300)의 블록들이 도 3의 특정 순서로 도시되어 있지만, 이러한 블록들은 다른 순서들로 수행될 수 있음이 이해되어야 한다. 추가로, 프로세스(300)의 하나 이상의 블록들은 부분적으로 수행될 수 있고/있거나, 옵션적으로 수행될 수 있고/있거나, 다른 블록(들)과 조합될 수 있고/있거나 추가 블록들이 수행될 수 있다.
블록(302)에서, 수신된 입력에 응답하는 오디오 정보(예컨대, 202)는 스피커(예컨대, 118, 218)를 사용하여 제공된다. 일부 실시예들에서, 수신된 입력은 트리거링 커맨드를 포함한다.
블록(304)에서, 오디오 정보를 제공하는 동안, 외부 사운드(예컨대, 206)가 검출된다.
블록(306)에서, 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 오디오 정보의 제공이 중단된다. 일부 실시예들에서, 오디오 정보의 제공을 중단하는 것은 오디오 정보를 페이드 아웃하는 것을 포함한다. 일부 실시예들에서, 제1 타입의 통신은 직접-발성 어휘 발화를 포함한다. 옵션적으로, 직접-발성 어휘 발화는 침묵화 명령들을 배제한다.
일부 실시예들에서, 외부 사운드의 소스(예컨대, 204)에 대응하는 위치를 결정함으로써, 외부 사운드가 직접-발성 어휘 발화인 것으로 결정된다. 일부 실시예들에서, 외부 사운드의 소스에 대응하는 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.
블록(308)에서, 오디오 정보의 제공을 중단한 후에, 제1 타입의 통신과 연관된 하나 이상의 시각적 특성들이 검출된다. 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다.
블록(310)에서, 제1 타입의 통신이 중단된 것으로 검출된다.
블록(312)에서, 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 하나 이상의 시각적 특성들이 제1 타입의 추가 통신이 예상됨을 나타내는지 여부에 대한 결정이 이루어진다.
블록(314)에서, 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 재개 오디오 정보가 제공된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 제공을 중단한 후에, 그리고 제1 타입의 통신이 중단되었다는 결정에 따라 제공된다. 일부 실시예들에서, 오디오 정보는 미리 정의된 세그먼트들로 분할되고, 재개 오디오 정보는 오디오 정보가 중단되었던 세그먼트로 시작된다. 일부 실시예들에서, 재개 오디오 정보는 오디오 정보의 이전에 제공된 세그먼트의 재구성된 버전을 포함한다.
블록(316)에서, 제1 타입의 추가 통신이 예상된다는 결정에 따라, 오디오 정보의 제공은 계속해서 중단된다.
블록(318)에서, 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 오디오 정보의 제공이 계속된다. 일부 실시예들에서, 제2 타입의 통신은 대화 사운드들(사람이 청취 또는 생각하고 있음을 나타내는 사운드들, 예컨대, "흠", "음", "오케이", "으응", "예", "알겠어요" 등)을 포함한다. 일부 실시예들에서, 제2 타입의 통신은 압축 오디오를 포함한다. 일부 실시예들에서, 제2 타입의 통신은 전자 디바이스에 의해 재생되는 어휘 발화(예컨대, 스피치)를 포함한다. 일부 실시예들에서, 외부 사운드는 외부 사운드의 소스(예컨대, 204)에 대응하는 위치를 결정함으로써, 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정된다. 일부 실시예들에서, 외부 사운드의 소스의 위치는 지향성 마이크로폰 어레이를 이용하여 결정된다.
이제 도 4을 참조하면, 다양한 실시예들에 따른, 오디오 정보를 제공하기 위한 예시적인 프로세스(400)의 흐름도가 도시된다. 프로세스(400)는 사용자 디바이스(예컨대, 100a, 200)를 사용하여 수행될 수 있다. 전자 디바이스는, 예컨대, 데스크톱 컴퓨터, 랩톱 컴퓨터, 핸드헬드 모바일 디바이스, 오디오 재생 디바이스, 텔레비전, 모니터, 헤드-마운트 디스플레이(HMD) 디바이스, 또는 헤드-업 디스플레이 디바이스이다. 다른 실시예들에서, 프로세스(400)는 베이스 디바이스와 같은 다른 디바이스에 통신가능하게 커플링되는 사용자 디바이스와 같은 2개 이상의 전자 디바이스들을 사용하여 수행됨이 인식되어야 한다. 이러한 실시예들에서, 프로세스(400)의 동작들은 임의의 방식으로 사용자 디바이스와 다른 디바이스 사이에 분배된다. 프로세스(400)의 블록들이 도 4의 특정 순서로 도시되어 있지만, 이러한 블록들은 다른 순서들로 수행될 수 있음이 이해되어야 한다. 추가로, 프로세스(400)의 하나 이상의 블록들은 부분적으로 수행될 수 있고/있거나, 옵션적으로 수행될 수 있고/있거나, 다른 블록(들)과 조합될 수 있고/있거나 추가 블록들이 수행될 수 있다.
블록(402)에서, 하나 이상의 명령들을 포함하는 스피치 입력이 소스로부터 수신된다.
블록(404)에서, 스피치 입력의 소스와 연관된 하나 이상의 시각적 특성들이 검출된다. 하나 이상의 시각적 특성들은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함한다.
블록(406)에서, 스피치 입력이 중단된 것으로 검출된다.
블록(408)에서, 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 소스와 연관된 하나 이상의 시각적 특성들이 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부에 대한 결정이 이루어진다.
블록(410)에서, 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공된다.
블록(412)에서, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공되지 않는다. 일부 실시예들에서, 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 하나 이상의 명령들에 대한 응답이 제공되지 않는다. 미리 결정된 시간 후에, 그리고 소스로부터의 스피치 입력이 재개되지 않았다는 결정에 따라, 하나 이상의 명령들에 대한 응답이 제공된다.
전술된 방법들(300 및/또는 400)의 특징부들을 수행하기 위한 실행가능 명령들은, 옵션적으로, 일시적인 또는 비-일시적 컴퓨터-판독가능 저장 매체(예컨대, 메모리(들)(106)) 또는 하나 이상의 프로세서들(예컨대, 프로세서(들)(102))에 의한 실행을 위해 구성된 기타 컴퓨터 프로그램 제품에 포함된다. 추가로, 방법(300)에서의 일부 동작들은 옵션적으로 방법(400)에 포함되고, 방법(400)에서의 일부 동작들은 옵션적으로 방법(300)에 포함된다.
특정 실시 형태들에 대한 전술한 설명들은 예시 및 설명의 목적으로 제시되었다. 이들은 총망라하거나 청구범위의 범주를 개시된 정확한 형태로 제한하고자 하는 것이 아니며, 상기 교시를 고려하여 많은 수정 및 변형이 가능하다는 것을 이해하여야 한다.

Claims (21)

  1. 오디오 정보를 제공하기 위한 방법 - 상기 방법은 전자 디바이스의 하나 이상의 프로세서에 의해 구현됨 -으로서,
    소스로부터 스피치 입력을 수신하는 단계 - 상기 스피치 입력은 하나 이상의 명령을 포함함 -;
    상기 스피치 입력이 수신된 상기 소스와 연관된 하나 이상의 제1 시각적 특성을 검출하는 단계 - 상기 하나 이상의 제1 시각적 특성은 상기 소스의 시선 방향을 포함함 -;
    상기 스피치 입력이 중단된 것을 검출하는 단계;
    상기 스피치 입력이 중단된 것을 검출하는 것에 대한 응답으로, 상기 소스와 연관된 상기 하나 이상의 제1 시각적 특성이 상기 소스로부터의 추가 스피치 입력이 예상됨을 나타내는지 여부를 결정하는 단계;
    상기 소스로부터의 추가 스피치 입력이 예상되지 않는다는 결정에 따라, 상기 하나 이상의 명령에 대한 응답을 제공하는 단계; 및
    상기 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 상기 하나 이상의 명령에 대한 응답을 제공하지 않는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 하나 이상의 제1 시각적 특성은 얼굴 표정, 손 제스처, 또는 이들의 조합을 더 포함하는, 방법.
  3. 제1항에 있어서,
    상기 소스로부터의 추가 스피치 입력이 예상된다는 결정에 따라, 미리 결정된 시간 동안 상기 하나 이상의 명령에 대한 상기 응답을 제공하지 않는 단계; 및
    상기 미리 결정된 시간 후에, 그리고 상기 소스로부터의 상기 스피치 입력이 재개되지 않았다는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답을 제공하는 단계를 더 포함하는, 방법.
  4. 제1항에 있어서,
    상기 하나 이상의 명령에 대한 상기 응답을 제공하는 동안, 외부 사운드를 검출하는 단계;
    상기 외부 사운드가 제1 타입의 통신이라는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단하는 단계; 및
    상기 외부 사운드가 제2 타입의 통신이라는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 계속하는 단계를 더 포함하는, 방법.
  5. 제4항에 있어서,
    상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단한 후:
    상기 제1 타입의 통신과 연관된 하나 이상의 제2 시각적 특성을 검출하는 단계; 및
    상기 제1 타입의 통신이 중단된 것을 검출하는 단계;
    상기 제1 타입의 통신이 중단된 것을 검출하는 것에 대한 응답으로, 상기 하나 이상의 제2 시각적 특성이 상기 제1 타입의 추가 통신이 예상됨을 나타내는지 여부를 결정하는 단계;
    상기 제1 타입의 추가 통신이 예상되지 않는다는 결정에 따라, 상기 하나 이상의 명령에 대한 재개 응답(resumed response)을 제공하는 단계; 및
    상기 제1 타입의 추가 통신이 예상된다는 결정에 따라, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단하는 것을 계속하는 단계를 더 포함하는, 방법.
  6. 제5항에 있어서, 상기 하나 이상의 제2 시각적 특성은 시선, 얼굴 표정, 손 제스처, 또는 이들의 조합을 포함하는, 방법.
  7. 제4항에 있어서, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단하는 단계는 상기 하나 이상의 명령에 대한 상기 응답을 페이드 아웃(fading out)하는 단계를 포함하는, 방법.
  8. 제4항에 있어서, 상기 하나 이상의 명령에 대한 상기 응답의 제공을 중단한 후에, 그리고 상기 제1 타입의 통신이 중단되었다는 결정에 따라, 상기 하나 이상의 명령에 대한 재개 응답을 제공하는 단계를 더 포함하는, 방법.
  9. 제8항에 있어서, 상기 하나 이상의 명령에 대한 상기 응답은 미리 정의된 세그먼트들로 분할되고, 상기 하나 이상의 명령에 대한 상기 재개 응답은 상기 하나 이상의 명령에 대한 상기 응답이 중단되었던 세그먼트로 시작되는, 방법.
  10. 제9항에 있어서, 상기 하나 이상의 명령에 대한 상기 재개 응답은 상기 하나 이상의 명령에 대한 상기 응답의 이전에 제공된 세그먼트의 재구성된 버전(rephrased version)을 포함하는, 방법.
  11. 제4항에 있어서, 상기 제1 타입의 통신은 직접-발성 어휘 발화(directly-vocalized lexical utterance)를 포함하는, 방법.
  12. 제11항에 있어서, 상기 직접-발성 어휘 발화는 침묵화 커맨드들을 배제하는, 방법.
  13. 제11항에 있어서,
    상기 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 상기 외부 사운드가 직접-발성 어휘 발화인 것으로 결정하는 단계를 더 포함하는, 방법.
  14. 제13항에 있어서, 상기 위치는 지향성 마이크로폰 어레이를 이용하여 결정되는, 방법.
  15. 제4항에 있어서, 상기 제2 타입의 통신은 대화 사운드들을 포함하는, 방법.
  16. 제4항에 있어서, 상기 제2 타입의 통신은 압축 오디오를 포함하는, 방법.
  17. 제4항에 있어서, 상기 제2 타입의 통신은 전자 디바이스에 의해 재생되는 어휘 발화를 포함하는, 방법.
  18. 제17항에 있어서,
    상기 외부 사운드의 소스에 대응하는 위치를 결정함으로써, 상기 외부 사운드가 전자 디바이스에 의해 재생되는 어휘 발화인 것으로 결정하는 단계를 더 포함하는, 방법.
  19. 제18항에 있어서, 상기 위치는 지향성 마이크로폰 어레이를 이용하여 결정되는, 방법.
  20. 전자 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된 하나 이상의 프로그램을 저장한 비-일시적 컴퓨터-판독가능 저장 매체로서, 상기 하나 이상의 프로그램은 제1항 내지 제19항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
  21. 전자 디바이스로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행되도록 구성된 하나 이상의 프로그램을 저장한 메모리를 포함하며, 상기 하나 이상의 프로그램은 제1항 내지 제19항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는, 전자 디바이스.
KR1020237001029A 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공 KR102651249B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247009443A KR20240042222A (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862679644P 2018-06-01 2018-06-01
US62/679,644 2018-06-01
KR1020207034292A KR102488285B1 (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공
PCT/US2019/028976 WO2019231587A1 (en) 2018-06-01 2019-04-24 Providing audio information with a digital assistant

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207034292A Division KR102488285B1 (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247009443A Division KR20240042222A (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공

Publications (2)

Publication Number Publication Date
KR20230010845A KR20230010845A (ko) 2023-01-19
KR102651249B1 true KR102651249B1 (ko) 2024-03-27

Family

ID=66821327

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020207034292A KR102488285B1 (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공
KR1020247009443A KR20240042222A (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공
KR1020237001029A KR102651249B1 (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020207034292A KR102488285B1 (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공
KR1020247009443A KR20240042222A (ko) 2018-06-01 2019-04-24 디지털 어시스턴트를 이용한 오디오 정보 제공

Country Status (6)

Country Link
US (3) US11609739B2 (ko)
EP (1) EP3782017A1 (ko)
KR (3) KR102488285B1 (ko)
CN (1) CN112154412A (ko)
AU (2) AU2019279597B2 (ko)
WO (1) WO2019231587A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112154412A (zh) 2018-06-01 2020-12-29 苹果公司 用数字助理提供音频信息
SE545310C2 (en) * 2019-12-20 2023-06-27 Tobii Ab Improved turn-taking
US11740856B2 (en) * 2021-01-07 2023-08-29 Meta Platforms, Inc. Systems and methods for resolving overlapping speech in a communication session
CN116015996B (zh) * 2023-03-28 2023-06-02 南昌航天广信科技有限责任公司 一种数字会议音频处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150109191A1 (en) 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US20150280670A1 (en) * 2014-04-01 2015-10-01 Google Inc. Attention-based dynamic audio level adjustment
US20150348551A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
WO2018043112A1 (ja) 2016-08-29 2018-03-08 ソニー株式会社 情報提示装置、および情報提示方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3272906B2 (ja) * 1995-05-29 2002-04-08 シャープ株式会社 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置
TWI241828B (en) * 2004-02-18 2005-10-11 Partner Tech Corp Handheld personal data assistant (PDA) for communicating with a mobile in music-playing operation
US20050191971A1 (en) * 2004-02-26 2005-09-01 Boone Michael K. Assisted listening device
CN1780374A (zh) * 2004-11-24 2006-05-31 上海乐金广电电子有限公司 利用数字信号接收器中一键操作技术的多功能控制方法
US20120072936A1 (en) * 2010-09-20 2012-03-22 Microsoft Corporation Automatic Customized Advertisement Generation System
US8954177B2 (en) * 2011-06-01 2015-02-10 Apple Inc. Controlling operation of a media device based upon whether a presentation device is currently being worn by a user
EP3413575A1 (en) * 2011-08-05 2018-12-12 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and electronic apparatus applying the same
US9601113B2 (en) * 2012-05-16 2017-03-21 Xtreme Interactions Inc. System, device and method for processing interlaced multimodal user input
JP5720656B2 (ja) * 2012-11-02 2015-05-20 ヤマハ株式会社 音楽システム管理方法
EP2760015A1 (en) * 2013-01-23 2014-07-30 BlackBerry Limited Event-triggered hands-free multitasking for media playback
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9270244B2 (en) * 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness
WO2015142071A1 (en) * 2014-03-21 2015-09-24 Samsung Electronics Co., Ltd. Wearable device and method of operating the same
KR20150112337A (ko) * 2014-03-27 2015-10-07 삼성전자주식회사 디스플레이 장치 및 그 사용자 인터랙션 방법
KR102188268B1 (ko) * 2014-10-08 2020-12-08 엘지전자 주식회사 이동단말기 및 그 제어방법
KR20160071732A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
US9646628B1 (en) * 2015-06-26 2017-05-09 Amazon Technologies, Inc. Noise cancellation for open microphone mode
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) * 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
JP2017090611A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
EP3188495B1 (en) * 2015-12-30 2020-11-18 GN Audio A/S A headset with hear-through mode
US20170318374A1 (en) * 2016-05-02 2017-11-02 Microsoft Technology Licensing, Llc Headset, an apparatus and a method with automatic selective voice pass-through
US9922655B2 (en) * 2016-05-31 2018-03-20 International Business Machines Corporation System, method, and recording medium for controlling dialogue interruptions by a speech output device
US9877100B1 (en) * 2016-08-29 2018-01-23 Motorola Mobility Llc Audio sensing to alert device user
US11449167B2 (en) * 2017-06-26 2022-09-20 Inpris Innovative Products Fromisrael, Ltd Systems using dual touch and sound control, and methods thereof
JP6984726B2 (ja) * 2018-02-23 2021-12-22 ヤマハ株式会社 制御装置、車両、放音装置およびプログラム
CN112154412A (zh) 2018-06-01 2020-12-29 苹果公司 用数字助理提供音频信息
US10681453B1 (en) * 2019-06-12 2020-06-09 Bose Corporation Automatic active noise reduction (ANR) control to improve user interaction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150109191A1 (en) 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US20150280670A1 (en) * 2014-04-01 2015-10-01 Google Inc. Attention-based dynamic audio level adjustment
US20150348551A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
WO2018043112A1 (ja) 2016-08-29 2018-03-08 ソニー株式会社 情報提示装置、および情報提示方法

Also Published As

Publication number Publication date
WO2019231587A1 (en) 2019-12-05
KR20210005200A (ko) 2021-01-13
KR20230010845A (ko) 2023-01-19
AU2022201037B2 (en) 2023-05-25
CN112154412A (zh) 2020-12-29
EP3782017A1 (en) 2021-02-24
AU2022201037A1 (en) 2022-03-10
AU2019279597A1 (en) 2020-12-10
US11861265B2 (en) 2024-01-02
AU2019279597B2 (en) 2021-11-18
US20210224031A1 (en) 2021-07-22
KR20240042222A (ko) 2024-04-01
US20240086147A1 (en) 2024-03-14
KR102488285B1 (ko) 2023-01-13
US20230229387A1 (en) 2023-07-20
US11609739B2 (en) 2023-03-21

Similar Documents

Publication Publication Date Title
KR102651249B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
EP3179474B1 (en) User focus activated voice recognition
US10529360B2 (en) Speech enhancement method and apparatus for same
CN106462383B (zh) 具有定向接口的免提装置
TWI603258B (zh) 用於隨時聽取語音觸發之動態臨限值
US20190013025A1 (en) Providing an ambient assist mode for computing devices
US10360876B1 (en) Displaying instances of visual content on a curved display
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
US20210056966A1 (en) System and method for dialog session management
KR20140074549A (ko) 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
KR20230173211A (ko) 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
US10388325B1 (en) Non-disruptive NUI command
KR20180138017A (ko) 음성 인식을 위한 전자 장치 및 시스템
WO2019138651A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
CN111145604A (zh) 绘本识别方法、装置及计算机可读存储介质
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right