KR20160108348A - 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 - Google Patents

흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 Download PDF

Info

Publication number
KR20160108348A
KR20160108348A KR1020167019069A KR20167019069A KR20160108348A KR 20160108348 A KR20160108348 A KR 20160108348A KR 1020167019069 A KR1020167019069 A KR 1020167019069A KR 20167019069 A KR20167019069 A KR 20167019069A KR 20160108348 A KR20160108348 A KR 20160108348A
Authority
KR
South Korea
Prior art keywords
personal assistant
digital personal
response
utterance
user
Prior art date
Application number
KR1020167019069A
Other languages
English (en)
Other versions
KR102295935B1 (ko
Inventor
모니 레디
로버트 제이 3세 하워드
데보라 비 해리슨
소골 말레크자데
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20160108348A publication Critical patent/KR20160108348A/ko
Application granted granted Critical
Publication of KR102295935B1 publication Critical patent/KR102295935B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Collating Specific Patterns (AREA)

Abstract

디지털 개인용 어시스턴트를 구현하기 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품이 기술된다. 디지털 개인용 어시스턴트는 사용자가 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도되는 질문을 했거나 또는 진술을 했음을 판정할 수 있다. 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는 대중문화 언급과 연관된 멀티미디어 객체를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나 또는 사용자 인터페이스에 의해 재생함으로써 그에 대한 응답을 제공한다. 부가적으로 또는 대안으로서, 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생함으로써 그에 대한 응답을 제공한다.

Description

흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법{DIGITAL PERSONAL ASSISTANT INTERACTION WITH IMPERSONATIONS AND RICH MULTIMEDIA IN RESPONSES}
컴퓨터 상호작용을 의인화하는 기법은 인공 지능 분야에서는 매우 일반적인 사례이다. 디지털 개인용 어시스턴트의 제조사들은, 사용자와의 관계 수준을 매우 높게 유지하면서도, 사용자와 어시스턴트간의 신뢰 요소를 확립함으로써, 디지털 개인용 어시스턴트에 대한 지속적인 사용 및 상호작용이 가능하도록, 자신들이 제조하는 어시스턴트에 개성을 불어넣을 수 있다.
관계 수준을 높게 유지하기 위한 한 가지 기술은 디지털 개인용 어시스턴트에 의해 제공된 응답들을 재미있고 즐겁게 만드는 것을 필요로 한다. 디지털 개인용 어시스턴트의 종래의 몇 가지 구현예들은 사용자가 일상적인 어조로 질문할 경우에 재미있는 텍스트 응답을 생성하도록 프로그래밍된다. 그러나, 종래의 디지털 개인용 어시스턴트들은 통상적으로 농담조의 응답을 제시할 때 디지털 캔버스의 전체 융통성을 고려하지 않는다. 물론, 이들 어시스턴트는 응답 제공시에 재미있거나 또는 상이하게 소리를 내도록 하기 위한 현재의 텍스트-음성(text-to-speech) 합성 기술력도 활용하지 않는다. 또한, 임의의 양태의 농담조의 응답을 전달하는데 이용될 수 있는 디지털 어시스턴트의 시각적 표현도 하지 않는다.
디지털 개인용 어시스턴트를 구현하기 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품이 본 명세서에서 기술된다. 디지털 개인용 어시스턴트는, 예컨대 사용자를 대신해서 디지털 개인용 어시스턴트가 정보를 취득하거나 몇몇 다른 태스크를 수행하라고 요청하는 것이 아니라, 사용자가 디지털 개인용 어시스턴트의 페르소나(persona; 외적 인격)와 관계를 맺고자 하는 질문을 했거나 진술을 했음을 판정할 수 있다. 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는, 대중문화 언급(popular culture reference)과 연관된 멀티미디어 객체를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나 또는 사용자 인터페이스에 의해 재생함으로써, 그에 대한 응답을 제공한다. 부가적으로 또는 대안으로서, 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는, 대중문화 언급과 연관된 인물의 음성의 흉내(impersonation)를 포함하는 음성을 생성 또는 재생함으로써, 그에 대한 응답을 제공한다. 또한, 디지털 개인용 어시스턴트는, 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나, 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나, 및/또는 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이함으로써, 응답을 제공할 수 있다.
특히, 디지털 개인용 어시스턴트를 구현하는 방법이 본 명세서에서 기술된다. 상기 방법에 따르면, 디지털 개인용 어시스턴트의 사용자의 발언의 디지털 표현이 수신된다. 적어도 발언의 디지털 표현의 분석에 기초하여, 해당 발언이 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다는 것이 판정된다. 적어도 해당 발언이 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다는 판정에 응답하여, 디지털 개인용 어시스턴트는 발언에 대한 응답을 생성하게 된다. 발언에 대한 응답은, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되거나 또는 사용자 인터페이스에 의해 재생되고 대중문화 언급과 연관되는 멀티미디어 객체(예컨대, 이미지, 비디오 콘텐츠 또는 오디오 콘텐츠)를 포함한다. 대안으로서 또는 부가적으로, 발언에 대한 응답은, 디지털 개인용 어시스턴트에 의해 생성 또는 재생되고 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 포함한다.
전술한 방법의 일 실시예에 있어서, 발언에 대한 응답은 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되는 텍스트를 추가로 포함하고, 텍스트는 대중문화 언급과 연관된 인용구를 포함한다.
다른 실시예에 있어서, 음성은 대중문화 언급과 연관된 인용구를 포함한다.
또 다른 실시예에 있어서, 발언에 대한 응답은 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되며 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 추가로 포함한다. 또한, 상기와 같은 실시예에 따르면, 디지털 개인용 어시스턴트의 시각적 표현은 디지털 개인용 어시스턴트의 애니메이션을 포함할 수 있다.
또 다른 실시예에 있어서, 발언에 대한 응답은 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되며 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 추가로 포함한다.
전술한 방법의 구현예에 따라, 발언에 대한 응답이 생성되게 하는 것은 발언에 대한 복수의 적합한 응답을 식별하는 것 및 발언에 대한 복수의 적합한 응답 중에서 발언에 대한 응답을 선택하는 것을 포함할 수 있다.
다른 구현예에 따르면, 발언에 대한 응답이 생성되게 하는 것은 발언을 발언 유형들로 이루어진 계층적 트리 내의 특정 발언 유형에 매칭시키는 것 및 특정 발언 유형과 연관된 응답(들) 중에서 발언에 대한 응답을 선택하는 것을 포함하고, 발언 유형들로 이루어진 계층적 트리 내의 각각의 발언 유형은 그것과 연관된 하나 이상의 응답을 갖는다.
추가적인 구현예에 따르면, 발언에 대한 응답이 생성되게 하는 것은 해당 발언이 경향 토픽(trending topic)과 연관된다고 판정하는 것, 및 해당 발언이 경향 토픽과 연관된다는 판정에 응답하여 경향 토픽과 연관된 하나 이상의 응답 중에서 발언에 대한 응답을 선택하는 것을 포함한다.
또 다른 구현예에 따르면, 발언에 대한 응답이 생성되게 하는 것은 해당 발언이 디지털 개인용 어시스턴트의 페르소나를 전달하도록 의도된 하나 이상의 미리 정해진 응답이 존재하는 발언이라고 판정하는 것, 및 해당 발언이 디지털 개인용 어시스턴트의 페르소나를 전달하도록 의도된 하나 이상의 미리 정해진 응답이 존재하는 발언이라는 판정에 응답하여, 하나 이상의 미리 정해진 응답 중에서 발언에 대한 응답을 선택하는 것을 포함한다.
전술한 방법의 다른 실시예에 있어서, 발언에 대한 응답이 생성되게 하는 것은 디지털 개인용 어시스턴트를 실행시키는 컴퓨팅 장치에 대하여 오디오 파일을 식별하는 음성 또는 정보를 포함하는 오디오 파일을 송신하는 것을 포함한다.
또 다른 실시예에 있어서, 발언에 대한 응답이 생성되게 하는 것은 디지털 개인용 어시스턴트를 실행시키는 컴퓨팅 장치에 텍스트를 제공하는 것을 포함하고, 텍스트는 디지털 개인용 어시스턴트의 텍스트-음성 컴포넌트에 의해 처리되어서 음성을 생성한다.
컴퓨팅 장치가 또한 본 명세서에 기술된다. 컴퓨팅 장치는 적어도 하나의 프로세서와 메모리를 포함한다. 메모리는 적어도 하나의 프로세서에 의해 실행되는 컴퓨터 프로그램 로직을 저장한다. 컴퓨터 프로그램 로직은 적어도 하나의 프로세서에 의해 실행될 때 동작을 수행하도록 구성된 하나 이상의 컴포넌트를 포함한다. 하나 이상의 컴포넌트는 디지털 개인용 어시스턴트를 포함한다. 디지털 개인용 어시스턴트는 사용자의 발언을 표현하는 오디오를 캡처하고 오디오를 디지털 개인용 어시스턴트 후단부(backend)에 전송하도록 구성된다. 해당 발언은 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다. 디지털 개인용 어시스턴트는 또한, 적어도 디지털 개인용 어시스턴트 후단부로부터 수신한 정보에 기초하여 발언에 대한 응답을 제공하도록 구성된다. 응답을 제공하는 것은 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생하는 것을 포함한다.
컴퓨팅 장치의 일 실시예에 있어서, 디지털 개인용 어시스턴트는 음성을 포함하는 오디오 파일을 재생하도록 구성된다. 컴퓨팅 장치의 다른 실시예에 있어서, 디지털 개인용 어시스턴트는 음성을 생성하기 위해 텍스트에 대하여 텍스트-음성 변환을 적용하도록 구성된다.
컴퓨팅 장치의 다른 실시예에 있어서, 응답을 제공하는 것은, 디지털 개인용 어시스턴트의 사용자 인터페이스에 의해 멀티미디어 객체를 디스플레이 또는 재생하는 것― 멀티미디어 객체는 대중문화 언급과 연관됨 ―, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 텍스트를 디스플레이하는 것― 텍스트는 대중문화 언급과 연관된 인용구를 포함함 ―, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디스플레이하는 것, 및 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하는 것 중 적어도 하나를 추가로 포함한다.
다른 컴퓨팅 장치가 본 명세서에 기술된다. 컴퓨팅 장치는 적어도 하나의 프로세서와 메모리를 포함한다. 메모리는 적어도 하나의 프로세서에 의한 실행을 위해 컴퓨터 프로그램 로직을 저장한다. 컴퓨터 프로그램 로직은 적어도 하나의 프로세서에 의한 실행시에 동작을 수행하도록 구성된 하나 이상의 컴포넌트를 포함한다. 하나 이상의 컴포넌트는 디지털 개인용 어시스턴트를 포함한다. 디지털 개인용 어시스턴트는 사용자의 발언을 표현하는 오디오를 캡처하고 오디오를 디지털 개인용 어시스턴트 후단부에 전송하도록 구성된다. 해당 발언은 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다. 디지털 개인용 어시스턴트는 또한, 적어도 디지털 개인용 어시스턴트 후단부로부터 수신한 정보에 기초하여 발언에 대한 응답을 제공하도록 구성된다. 응답을 제공하는 것은 디지털 개인용 어시스턴트의 사용자 인터페이스에 의해 대중문화 언급과 연관된 멀티미디어 객체를 디스플레이 또는 재생하는 것을 포함한다.
컴퓨팅 장치의 일 실시예에 있어서, 멀티미디어 객체는 이미지, 비디오 콘텐츠, 또는 오디오 콘텐츠를 포함한다.
컴퓨팅 장치의 다른 실시예에 있어서, 응답을 제공하는 것은, 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생하는 것, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 텍스트를 디스플레이하는 것― 텍스트는 대중문화 언급과 연관된 인용구를 포함함 ―, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디스플레이하는 것, 및 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하는 것 중 적어도 하나를 추가로 포함한다.
본 개요는 후속하여 발명의 상세한 설명 부분에서 설명되는 개념들 중 일부를 선택해서 간략한 형태로 소개하고자 제공되는 것이다. 본 개요는 청구항의 청구대상의 핵심적인 특징이나 필수적인 특징들을 밝히고자 함이 아니며, 청구항의 청구대상의 범위를 한정하는 데 이용하고자 함도 아니다. 또한, 청구항의 청구대상이 이 문헌의 발명의 상세한 설명 부분 및/또는 다른 부분들에서 기술된 특정 실시예들에 한정되는 것은 아님에 유의해야 한다. 상기와 같은 실시예들은 본 명세서에서 설명을 위한 용도로만 제시된다. 관련 기술분야의 당업자에게는 본 명세서에 포함된 교시에 기초하여 부가적인 실시예들이 자명할 것이다.
본 명세서에 포함되고 명세서의 일부를 이루는 첨부 도면은 본 발명의 실시예들을 나타내고, 또한 발명의 상세한 설명 부분과 함께, 발명의 원리를 설명하는 한편, 관련 기술분야의 당업자가 발명을 만들고 사용할 수 있게 한다.
도 1은 예시적인 실시예에 따른 잡담(chit-chat) 유형의 발언에 응답하여 흉내 및 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 시스템의 블록도,
도 2는 디지털 개인용 어시스턴트가 사용자가 잡담 유형의 발언을 했음을 판정하고 그에 대한 응답을 제공할 수 있도록, 도 1의 시스템의 다양한 컴포넌트들이 어떻게 작동하는지를 보여주는 블록도,
도 3은 실시예에 따른 잡담 유형의 발언에 대한 응답을 선택하는데 사용될 수 있는 발언 유형들로 이루어진 예시적인 계층적 트리를 나타내는 도면,
도 4는 실시예에 따른 잡담 유형의 발언에 응답하여 디지털 개인용 어시스턴트에 의해 제공될 수 있는 예시적인 응답을 나타내는 블록도,
도 5 내지 도 10은 다양한 실시예들에 따른 디지털 개인용 어시스턴트의 사용자 인터페이스를 통해 전달될 수 있는 잡담 유형의 발언들에 대한 응답들의 구체적인 예시들을 제공하는 도면,
도 11은 실시예에 따른 잡담 유형의 발언들에 응답하여 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 방법의 흐름도,
도 12는 실시예에 따른 디지털 개인용 어시스턴트가 음성 흉내를 포함하는 잡담 유형의 발언에 대한 응답을 제공하게 하는 방법의 흐름도,
도 13은 실시예에 따른 디지털 개인용 어시스턴트가 멀티미디어 객체를 포함하는 잡담 유형의 발언에 대한 응답을 제공하게 하는 방법의 흐름도,
도 14는 다양한 실시예들을 구현하는데 사용될 수 있는 예시적인 모바일 장치의 블록도,
도 15는 다양한 실시예들을 구현하는데 사용될 수 있는 예시적인 프로세서-기반 컴퓨터 시스템의 블록도이다.
본 발명의 특징 및 장점은, 유사한 참조 문자들로 명세서 전반의 상응하는 요소들을 식별하는 첨부도면들과 함께 취해질 때, 후술하는 발명의 상세한 설명 부분으로부터 더욱 분명해질 것이다. 도면들에 있어서, 같은 참조 번호는 일반적으로 동일한, 기능적으로 유사한, 및/또는 구조적으로 유사한 구성 요소를 가리킨다. 어떤 요소가 가장 먼저 나타나는 도면은 상응하는 참조 번호에서 가장 좌측의 숫자(들)로 나타내진다.
I. 서론(Introduction)
하기의 발명의 상세한 설명 부분은 본 발명의 예시적인 실시예들을 설명하는 첨부 도면들을 인용한다. 그러나, 본 발명의 범위는 이들 실시예에 한정되는 것은 아니고, 오히려 첨부된 청구항들에 의해 규정된다. 따라서, 구체적인 실시예들의 수정 버전들과 같이, 첨부 도면들에 도시된 범위를 벗어나는 실시예들은, 그럼에도 불구하고 본 발명에 포함될 수 있다.
명세서에서 "일 실시예", "실시예", "예시적인 실시예" 등의 언급은, 기술된 실시예가 특정한 특징, 구조, 또는 특성을 포함할 수 있지만, 모든 실시예가 반드시 특정한 특징, 구조, 또는 특성을 포함하는 것은 아니라는 점을 가리킨다. 또한, 상기와 같은 관용구들은 반드시 동일한 실시예를 의미하는 것은 아니다. 또한, 특정한 특징, 구조, 또는 특성이 실시예와 관련되어 기술되는 경우에, 명확하게 기술되든 아니든 간에 상기와 같은 특징, 구조, 또는 특성을 다른 실시예들과 관련지어 구현하는 것은 관련 기술분야의 당업자의 지식 수준에 있다는 점에 유의한다.
디지털 개인용 어시스턴트를 구현하기 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품이 본 명세서에서 기술된다. 디지털 개인용 어시스턴트는, 예컨대 사용자를 대신해서 디지털 개인용 어시스턴트가 정보를 취득하거나 몇몇 다른 태스크를 수행하라고 요청하는 것이 아니라, 사용자가 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 질문을 했거나 진술을 했음을 판정하는 것이 가능하다. 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는, 대중문화 언급과 연관된 멀티미디어 객체를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나 또는 사용자 인터페이스에 의해 재생함으로써, 그에 대한 응답을 제공한다. 부가적으로 또는 대안으로서, 사용자가 상기와 같은 질문을 했거나 또는 상기와 같은 진술을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트는, 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생함으로써, 그에 대한 응답을 제공한다. 또한, 디지털 개인용 어시스턴트는, 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나, 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하거나, 및/또는 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이함으로써, 응답을 제공할 수 있다.
디지털 개인용 어시스턴트가 전술한 바와 같이 그 페르소나와 관계되도록 의도된 사용자 발언(본 명세서에서는 "잡담 유형의 발언"이라고도 함)에 대하여 응답할 수 있게 함으로써, 본 명세서에 기술된 실시예들은 사용자와 디지털 개인용 어시스턴트간의 관계 수준을 유리하게 높일 수 있고, 또한 사용자와 어시스턴트간의 신뢰 요소를 확립할 수 있으며, 그에 따라 디지털 개인용 어시스턴트에 대한 지속적인 사용 및 상호작용이 가능해진다. 예컨대, 사용자에 의해 인지 및/또는 인식될 것 같은 대중문화 언급과 연관된 멀티미디어 객체, 음성 흉내, 인용구, 및 링크를 포함하는 응답을 제공함으로써, 디지털 개인용 어시스턴트는 사용자에게 즐거움을 주고 사용자와의 공감대를 확립할 수 있다.
섹션 II는 실시예들에 따른 잡담 유형의 발언에 응답하여 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 시스템을 기술한다. 섹션 III은 실시예들에 따른 잡담 유형의 발언에 응답하여 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 방법을 기술한다. 섹션 IV는 본 명세서에서 기술되는 실시예들에 따른 디지털 개인용 어시스턴트를 구현하는데 사용될 수 있는 예시적인 모바일 장치를 기술한다. 섹션 V는 본 명세서에서 기술되는 실시예들에 따른 디지털 개인용 어시스턴트를 구현하는데 사용될 수 있는 예시적인 데스크탑 컴퓨터를 기술한다. 섹션 VI은 몇 가지 결론을 제공한다.
II. 응답시에 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 시스템(Example System that Implements a Digital Personal Assistant that Utilizes Impersonations and/or Multimedia in Responses)
도 1은 예시적인 실시예에 따른 잡담 유형의 발언에 응답하여 흉내 및 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 시스템(100)의 블록도이다. 도 1에 도시된 바와 같이, 시스템(100)은 하나 이상의 네트워크(104)를 통해 디지털 개인용 어시스턴트 후단부(106)에 통신 가능하게 접속되는 최종 사용자 컴퓨팅 장치(102)를 포함한다. 이들 컴포넌트 각각에 대해서는 후술한다.
최종 사용자 컴퓨팅 장치(102)는, 인스톨되어 있는 소프트웨어-기반의 디지털 개인용 어시스턴트(130)를 실행할 수 있는 프로세서-기반의 전자 장치를 나타내려는 것이다. 디지털 개인용 어시스턴트(130)는 최종 사용자 컴퓨팅 장치(102)의 사용자를 대신해서 실행될 수 있다. 일 실시예에 있어서, 최종 사용자 컴퓨팅 장치(102)는 모바일 폰(예컨대, 스마트폰)과 같은 모바일 컴퓨팅 장치, 랩탑 컴퓨터, 태블릿 컴퓨터, 노트북, 스마트 워치 또는 헤드-마운트 컴퓨터와 같은 웨어러블 컴퓨터, 휴대용 미디어 플레이어, 핸드헬드 게이밍 콘솔, 개인용 내비게이션 어시스턴트, 카메라, 또는 사용자를 대신해서 디지털 개인용 어시스턴트를 실행할 수 있는 임의의 다른 모바일 장치를 포함한다. 최종 사용자 컴퓨팅 장치(102)의 기능을 포함할 수 있는 모바일 장치의 일례는 도 14를 참조하여 후술된다. 다른 실시예에 있어서, 최종 사용자 컴퓨팅 장치(102)는 사용자를 대신해서 디지털 개인용 어시스턴트를 실행할 수 있는 데스크탑 컴퓨터, 게이밍 콘솔, 또는 그밖에 비-모바일(non-mobile) 컴퓨팅 플랫폼을 포함한다. 최종 사용자 컴퓨팅 장치(102)의 기능을 포함할 수 있는 예시적인 데스크탑 컴퓨터는 도 15를 참조하여 후술된다.
최종 사용자 컴퓨팅 장치(102)는 네트워크(104)를 통해 디지털 개인용 어시스턴트 후단부(106)와 통신할 수 있다. 개인용 어시스턴트 후단부(106)는 디지털 개인용 어시스턴트(130) 및 다른 최종 사용자 컴퓨팅 장치들에서 실행되는 다른 디지털 개인용 어시스턴트들의 동작을 지원하여 서비스를 제공하도록 프로그래밍되는 하나 이상의 컴퓨터(예컨대, 서버)를 포함한다. 예컨대, 본 명세서에서 논의되는 바와 같이, 개인용 어시스턴트 후단부(106)는 음성 인식과 질의 이해 및 응답에 관련된 서비스들을 디지털 개인용 어시스턴트(130)에 제공하도록 구성된 하나 이상의 컴퓨터를 포함한다. 특히, 도 1에 도시된 바와 같이, 이들 서비스는 제각기 음성 인식 서비스(132)와 질의 이해 및 응답 시스템(136)에 의해 제공된다. 디지털 개인용 어시스턴트 후단부(106)는 상기와 같은 부가적인 서비스들이 본 명세서에서 명확하게 기술되지 않더라도 디지털 개인용 어시스턴트(130)를 대신해서 임의의 수의 다른 서비스들을 수행할 수 있다.
일 실시예에 있어서, 디지털 개인용 어시스턴트 후단부(106)는 디지털 개인용 어시스턴트(130)를 지원하여 하나 이상의 원하는 서비스를 렌더링하도록 다수의 적절하게 구성된 기계 중 어느 하나가 임의로 선택될 수 있는 클라우드-기반의 후단부를 포함한다. 관련 기술분야의 당업자라면 인식할 수 있듯이, 상기와 같은 클라우드-기반의 구현예는 디지털 개인용 어시스턴트(130)와 같은 디지털 개인용 어시스턴트에 후단부 서비스를 제공하기 위한 신뢰할 수 있고 확장 가능한 프레임워크를 제공한다.
네트워크(들)(104)는 최종 사용자 컴퓨팅 장치(102)와 같은 최종 사용자 컴퓨팅 장치와 디지털 개인용 어시스턴트 후단부(106) 사이의 통신을 가능하게 하는데 적합한 임의의 유형의 네트워크 또는 네트워크들의 조합을 나타내려는 것이다. 네트워크(들)(104)는, 한정이 아닌 예시로서, 와이드 에이리어 네트워크, 로컬 에이리어 네트워크, 사설 네트워크, 공중 네트워크, 패킷 네트워크, 회선 교환 네트워크, 유선 네트워크, 및/또는 무선 네트워크를 포함할 수 있다.
또한, 도 1에 도시된 바와 같이, 최종 사용자 컴퓨팅 장치(102)는 프로세싱 유닛(110), 비휘발성 메모리(120), 휘발성 메모리(112), 하나 이상의 사용자 입력 장치(116), 디스플레이(118), 및 하나 이상의 네트워크 인터페이스(114)를 포함하는 복수의 상호접속 컴포넌트를 포함한다. 이들 컴포넌트 각각에 대해서는 후술한다.
프로세싱 유닛(110)은, 각각 하나 이상의 중앙 처리 장치(CPU) 또는 마이크로프로세서 코어를 구비할 수 있는 하나 이상의 마이크로프로세서를 나타내려는 것이다. 프로세싱 유닛(110)은 컴퓨터 프로그램(본 명세서에서는 컴퓨터 프로그램 로직이라고도 함)을 기지의 방식으로 실행하도록 작동한다. 상기와 같은 컴퓨터 프로그램을 실행하면, 프로세싱 유닛(110)이 본 명세서에서 기술되는 동작들을 포함하는 동작을 수행한다. 비휘발성 메모리(120), 휘발성 메모리(112), 사용자 입력 장치(들)(116), 디스플레이(118), 및 네트워크 인터페이스(들)(114) 각각은 하나 이상의 적절한 인터페이스를 통해 프로세싱 유닛(110)에 접속된다.
비휘발성 메모리(120)는, 최종 사용자 컴퓨팅 장치(102)가 무전원 상태 또는 전원 차단 상태에 있을 경우에도 저장된 정보가 손실되지 않도록, 컴퓨터 프로그램 및 데이터를 지속적으로 저장하도록 작동하는 하나 이상의 컴퓨터 판독가능 메모리 장치를 포함한다. 비휘발성 메모리(120)는, 한정되는 것은 아니지만, 리드-온리 메모리(ROM) 장치, 솔리드 스테이트 드라이브, 하드 디스크 드라이브, 자기 디스크 및 관련 드라이브와 같은 자기 저장 매체, 광 디스크 및 관련 드라이브와 같은 광 저장 매체, 및 USB 플래시 드라이브와 같은 플래시 메모리 장치를 포함하는 다양한 비휘발성 컴퓨터 판독가능 메모리 장치들 중 어느 하나를 이용하여 구현될 수 있다.
휘발성 메모리(112)는, 최종 사용자 컴퓨팅 장치(102)가 무전원 상태 또는 전원 차단 상태에 있을 경우에는 저장된 정보가 손실되도록, 컴퓨터 프로그램 및 데이터를 비-지속적으로 저장하도록 작동하는 하나 이상의 컴퓨터 판독가능 메모리 장치를 포함한다. 휘발성 메모리(112)는, 한정되는 것은 아니지만, 랜덤 액세스 메모리(RAM) 장치를 포함하는 다양한 휘발성 컴퓨터 판독가능 메모리 장치들 중 어느 하나를 이용하여 구현될 수 있다.
디스플레이(118)는 텍스트 및 이미지와 같은 콘텐츠가 최종 사용자 컴퓨팅 장치(102)의 사용자에게 보이도록 렌더링될 수 있는 장치를 포함한다. 상기와 같은 콘텐츠를 디스플레이하는데 필요한 렌더링 작업들 중 일부 또는 전부는 적어도 부분적으로 프로세싱 유닛(110)에 의해 수행될 수 있다. 렌더링 작업들 중 일부 또는 전부는 프로세싱 유닛(110)과 디스플레이(118) 사이에 연결되는 비디오 또는 그래픽 칩 또는 카드(도 1에는 도시되지 않음)와 같은 디스플레이 장치 인터페이스에 의해 수행될 수도 있다. 최종 사용자 컴퓨팅 장치(102)의 구현예에 따라, 디스플레이(118)는 프로세싱 유닛(110)과 동일한 물리적 구조체 또는 하우징 내부에 통합되는 장치를 포함할 수 있거나, 또는 프로세싱 유닛(110)을 포함하는 구조체 또는 하우징으로부터 물리적으로 분리되고 적절한 유선 및/또는 무선 접속을 통해 거기에 접속되는 모니터, 프로젝터, 또는 그 밖의 유형의 장치를 포함할 수 있다.
사용자 입력 장치(들)(116)는 그 사용자의 조작 또는 제어에 응답하여 사용자 입력 정보를 생성하도록 작동하는 하나 이상의 장치를 포함한다. 상기와 같은 사용자 입력 정보는 그 처리를 위해 적절한 인터페이스를 통해 프로세싱 유닛(110)에 전해진다. 구현예에 따라, 사용자 입력 장치(들)(116)는 터치 스크린(예컨대, 디스플레이(118)와 통합된 터치 스크린), 키보드, 키패드, 마우스, 터치 패드, 트랙볼, 조이스틱, 포인팅 스틱, 유선 글러브(wired glove), 모션 감지 센서, 게임 컨트롤러 또는 게임패드, 또는 카메라와 같은 비디오 캡처 장치를 포함할 수 있다. 그러나, 이들 예는 한정을 의도한 것이 아니며, 사용자 입력 장치(들)(116)는 본 명세서에서 열거되는 것들 이외의 다른 유형의 장치들을 포함할 수 있다. 구현예에 따라, 각각의 사용자 입력 장치(116)는 프로세싱 유닛(110)과 동일한 물리적 구조체 또는 하우징 내부에 통합될 수 있거나(예컨대, 모바일 장치 상의 통합된 터치 스크린, 터치 패드, 또는 키보드), 또는 프로세싱 유닛(110)을 포함하는 물리적 구조체 또는 하우징으로부터 물리적으로 분리되고 적절한 유선 및/또는 무선 접속을 통해 거기에 접속될 수 있다.
네트워크 인터페이스(들)(114)는 최종 사용자 컴퓨팅 장치(102)가 하나 이상의 네트워크(104)를 거쳐서 통신할 수 있게 하는 하나 이상의 인터페이스를 포함한다. 예컨대, 네트워크 인터페이스(들)(114)는 이더넷 인터페이스와 같은 유선 네트워크 인터페이스, 또는 IEEE 802.11 ("와이파이(Wi-Fi)") 인터페이스 또는 3G 통신 인터페이스와 같은 무선 네트워크 인터페이스를 포함할 수 있다. 그러나, 이들은 예시일 뿐이며, 한정하려는 것은 아니다.
또한, 도 1에 도시된 바와 같이, 비휘발성 메모리(120)는 복수의 애플리케이션(122) 및 운영 체제(124)를 포함하는 다수의 소프트웨어 컴포넌트를 저장한다.
복수의 애플리케이션(122)에서의 각각의 애플리케이션은 최종 사용자 컴퓨팅 장치(102)의 사용자가 프로세싱 유닛(110)에 의해 실행되게 할 수 있는 컴퓨터 프로그램을 포함한다. 각각의 애플리케이션을 실행하면, 사용자를 대신해서 특정 동작들이 수행되고, 수행되는 동작들의 유형은 애플리케이션이 어떻게 프로그래밍되는지에 따라 달라지게 된다. 애플리케이션(122)은, 한정이 아닌 예시로서, 전화 애플리케이션, 이메일 애플리케이션, 메시징 애플리케이션, 웹 브라우징 애플리케이션, 캘린더 애플리케이션, 유틸리티 애플리케이션, 게임 애플리케이션, 소셜 네트워킹 애플리케이션, 음악 애플리케이션, 생산성 애플리케이션, 라이프스타일 애플리케이션, 레퍼런스 애플리케이션, 여행 애플리케이션, 스포츠 애플리케이션, 내비게이션 애플리케이션, 헬스케어 및 피트니스 애플리케이션, 뉴스 애플리케이션, 사진 애플리케이션, 금융 애플리케이션, 비지니스 애플리케이션, 교육 애플리케이션, 날씨 애플리케이션, 도서 애플리케이션, 의료 애플리케이션 등을 포함할 수 있다. 도 1에 도시된 바와 같이, 애플리케이션(122)은 디지털 개인용 어시스턴트(130)를 포함하고, 그 기능들은 본 명세서에서 보다 상세하게 기술된다.
애플리케이션(122)은, 구현예에 따라, 다양한 방식으로 최종 사용자 컴퓨팅 장치(102)에 분포 및/또는 인스톨될 수 있다. 예컨대, 일 실시예에 있어서, 적어도 하나의 애플리케이션은 애플리케이션 저장소로부터 다운로드되어 최종 사용자 컴퓨팅 장치(102)에 인스톨된다. 최종 사용자 장치(102)가 기업 네트워크의 일부로서 또는 기업 네트워크와 함께 이용되는 다른 실시예에 있어서, 적어도 하나의 애플리케이션은 다양한 기업 네트워크 관리 도구들 중 어느 하나를 이용해서 시스템 관리자에 의해 최종 사용자 컴퓨팅 장치(102)에 분포되고 나서 거기에 인스톨된다. 또 다른 실시예에 있어서, 적어도 하나의 애플리케이션은 다양한 적절한 시스템 빌더 유틸리티들 중 어느 하나를 이용해서, 시스템 빌더에 의해, 예컨대 주문자 상표부착 방식 제조자(OEM) 또는 내장형 장치 제조자에 의해 최종 사용자 컴퓨팅 장치(102)에 인스톨된다. 또 다른 실시예에 있어서, 운영 체제 제조자는 최종 사용자 컴퓨팅 장치(102)에 인스톨되는 운영 체제(124)와 함께 애플리케이션을 포함할 수 있다.
운영 체제(124)는 애플리케이션(122)과 같이 최종 사용자 컴퓨팅 장치(102)에서 실행되는 애플리케이션에 대하여 리소스를 관리하고 공통 서비스를 제공하는 일련의 프로그램을 포함한다. 그 밖의 특징들 중에서도, 운영 체제(124)는 운영 체제(OS) 사용자 인터페이스(132)를 포함한다. OS 사용자 인터페이스(132)는, 한정되는 것은 아니지만, 애플리케이션의 탐색 및 론칭, 특정 운영 체제 기능의 호출, 및 특정 운영 체제 환경의 설정과 같은 다양한 목적으로 사용자가 운영 체제(124)와 상호작용할 수 있게 하는 사용자 인터페이스를 생성하는 운영 체제(124)의 컴포넌트를 포함한다. 일 실시예에 있어서, OS 사용자 인터페이스(132)는 터치스크린 기반의 그래픽 사용자 인터페이스(GUI)를 포함하지만, 이는 예시일 뿐이다. 또한, 상기와 같은 예시에 따르면, 최종 사용자 컴퓨팅 장치(102)에 인스톨되는 각각의 애플리케이션(122)은 GUI 내에서 아이콘 또는 타일로서 나타내질 수 있으며 적절한 아이콘 또는 타일과의 터치스크린 상호작용을 통해 사용자에 의해 호출된다. 그러나, 다양한 대안적인 사용자 인터페이스 모델들 중 어느 하나가 OS 사용자 인터페이스(132)에 의해 사용될 수 있다.
애플리케이션(122) 및 운영 체제(124)가 비휘발성 메모리(120)에 저장되는 것으로 도시되어 있지만, 최종 사용자 컴퓨팅 장치(102)의 동작 동안, 애플리케이션(122), 운영 체제(124), 또는 그 일부가 휘발성 메모리(112)에 로딩되고 그곳에서 프로세싱 유닛(110)에 의해 프로세스로서 실행될 수 있을 것으로 이해된다.
디지털 개인용 어시스턴트(130)는, 온라인 공급처를 포함하는 다양한 공급처로부터의 정보(예컨대, 날씨 또는 교통 상황, 뉴스, 주식 가격, 사용자 스케줄, 소매 가격 등)에 액세스하는 능력 및 위치 파악 기술(location awareness)과 같은 특징들 뿐만 아니라 사용자 입력에 기초하여, 최종 사용자 컴퓨팅 장치(102)의 사용자를 위한 태스크, 또는 서비스를 수행하도록 구성되는 컴퓨터 프로그램을 포함한다. 사용자를 대신해서 디지털 개인용 어시스턴트(130)에 의해 수행될 수 있는 태스크로서는, 한정되는 것은 아니지만, 사용자 지정 인물에 대한 전화 호출, 사용자 지정 애플리케이션의 론칭, 사용자 지정 이메일 또는 문자 메시지의 사용자 지정 수신처로의 송신, 사용자 지정 음악의 재생, 사용자 캘린더 상의 미팅 또는 기타 이벤트의 스케줄링, 사용자 지정 위치로의 방향 취득, 사용자 지정 스포츠 이벤트와 연관된 스코어 취득, 소셜 미디어 웹 사이트 또는 마이크로블로깅 서비스에의 사용자 지정 콘텐츠의 포스팅, 사용자 지정 리마인더 또는 메모의 기록, 날씨 보고서 취득, 현재 시간 취득, 사용자 지정 시간에 알람의 설정, 사용자 지정 회사의 주식 가격 취득, 인근의 상업용 시설 탐색, 인터넷 검색 수행 등을 예로서 포함할 수 있다. 디지털 개인용 어시스턴트(130)는 다양한 인공 지능 기술들 중 어느 하나를 이용해서 사용자와의 지속적인 상호작용을 통해 시간의 경과에 따라 그 성능을 향상시킬 수 있다. 디지털 개인용 어시스턴트(130)를, 지능형 개인용 어시스턴트, 지능형 소프트웨어 어시스턴트, 가상의 개인용 어시스턴트 등이라고 할 수도 있다.
디지털 개인용 어시스턴트(130)는, 사용자가 질문, 커맨드, 또는 기타 음성 입력을 할 수 있게 하고, 또한 상기와 같은 입력에 대한 응답이 사용자에게 전달될 수 있게 하는 사용자 인터페이스를 제공하도록 구성된다. 일 실시예에 있어서, 입력은 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 마이크(사용자 입력 장치(116)들 중 하나를 각각 포함할 수 있음)에 의해 캡처되는 사용자 음성을 포함할 수 있지만, 이 예는 한정하려는 것이 아니며, 사용자 입력은 다른 방식들로 제공될 수 있음은 물론이다. 디지털 개인용 어시스턴트(130)에 의해 생성된 응답들은 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에서 디스플레이(118) 상에 도시된 텍스트, 이미지, 또는 그 밖의 시각적 콘텐츠 형태로 사용자에게 보여질 수 있다. 응답들은 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커(도 1에는 도시되지 않음)를 통해 재생되는 컴퓨터-생성 음성 또는 그 밖의 오디오 콘텐츠를 포함할 수도 있다.
실시예들에 따르면, 디지털 개인용 어시스턴트(130)는, 예컨대 사용자를 대신해서 디지털 개인용 어시스턴트가 정보를 취득하거나 또는 몇몇 다른 태스크를 수행하라고 요청하는 것이 아니라, 사용자가 디지털 개인용 어시스턴트(130)의 페르소나와 관계되도록 의도된 질문을 했거나 진술을 했음을 판정하는 것이 가능하다. 상기와 같은 질문 또는 진술은 종종 일상적이거나 또는 농담조이며, 예컨대 "결혼해줄래?(Will you marry me?)", "좋아하는 색이 뭐니?(What is your favorite color?)", "노래해줘(Sing me a song)", "농담해줘(Tell me a joke)", "노크 노크 조크(Knock knock)", "마멋이 나무를 먹어치운다면, 얼마나 많은 나무를 먹어치울 수 있을까?(How much wood could a woodchuck chuck if a woodchuck could chuck wood?)", "누가 최고의 전화기를 만들까?(Who makes the best phone?)", "어디에 숨을까?(Where can I hide a body?)", "당신의 외모는 어때요?(What do you look like?)", "당신은 아름다워요(You are beautiful)", "몇살이에요?(How old are you?)", "아빠가 누구니?(Who's your daddy?)", "남자친구 있니?(Do you have a boyfriend?)", "삶의 의미가 무엇일까?(What is the meaning of life?)", "당신에 대해 더 알고 싶어요(I'd like to get to know you better)" 등을 포함할 수 있다. 본 명세서에서는 편의상, 상기와 같은 질문 및 진술을 "잡담 유형의 발언" 또는 단순히 "잡담"이라고 한다.
아래에서 논의되는 바와 같이, 디지털 개인용 어시스턴트(130)는 사용자가 잡담 유형의 발언을 했다는 판정에 응답하여 특정한 동작을 취하도록 추가로 구성된다. 예컨대, 사용자가 잡담 유형의 발언을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트(130)는 대중문화 언급과 연관된 멀티미디어 객체를 그 사용자 인터페이스 내에 디스플레이하거나(멀티미디어 객체가 시각적 성질의 것일 경우) 또는 상기와 같은 멀티미디어 객체를 그 사용자 인터페이스에 의해 재생함으로써(멀티미디어 객체가 청각적 성질의 것일 경우), 그에 대한 응답을 제공할 수 있다. 본 명세서에서 사용되는 "대중문화 언급(popular culture reference)"이라는 용어는 대부분의 인구의 관습, 예술 및/또는 사회적 상호작용과 연관된 임의의 주제에 대한 언급을 폭넓게 아우르려는 것이다. 예컨대, 어떠한 제한 없이, 대중문화 언급은 잘 알려진 영화, 텔레비전 쇼, 소설, 단편소설, 회화(painting), 비디오 게임, 이미지, 비디오, 만화, 유명 인사, 배우 또는 여배우, 정치인 또는 그 밖의 공인, 전형적인 인물(stereotype), 밈(meme), 시사, 역사적 사건 등에 대한 언급을 포함할 수 있다.
추가적으로 또는 대안으로서, 사용자가 잡담 유형의 발언을 했다는 판정에 응답하여, 디지털 개인용 어시스턴트(130)는 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생함으로써, 그에 대한 응답을 제공할 수 있다. 또한, 디지털 개인용 어시스턴트(130)는, 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 그 사용자 인터페이스 내에 디스플레이하거나, 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 그 사용자 인터페이스 내에 디스플레이하거나, 및/또는 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 그 사용자 인터페이스 내에 디스플레이함으로써, 응답을 제공하도록 구성될 수 있다.
디지털 개인용 어시스턴트(130)가 사용자가 잡담 유형의 발언을 했음을 판정하고 그에 대한 응답을 제공하는 한가지 방식은 도 2의 블록도(200)를 참조하여 이하에 기술된다. 특히, 블록도(200)는, 디지털 개인용 어시스턴트(130)가 사용자가 잡담 유형의 발언을 했음을 판정하고 그에 대한 응답을 제공할 수 있도록, 시스템(100)의 다양한 컴포넌트들이 어떻게 함께 작동하는지를 도시한다.
도 2를 참조하면, 디지털 개인용 어시스턴트(130)가 최종 사용자 컴퓨팅 장치(102) 상에 론칭된 이후에 프로세스가 시작된다. 디지털 개인용 어시스턴트(130)와의 상호작용을 위해, 사용자는 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 마이크에 말을 한다. 사용자의 발언은 마이크(들)에 의해 캡처되고 아날로그 형식에서 디지털 형식으로 기지의 방식으로 변환된다. 디지털 개인용 어시스턴트(130)는 발언의 디지털 표현이 네트워크(들)(104)를 통해 음성 인식 서비스(132)(디지털 개인용 어시스턴트 후단부(106)의 일부임)에 오디오 스트림으로서 전송되게 한다. 예컨대, 일 실시예에 있어서, 사용자가 최종 사용자 컴퓨팅 장치의 마이크(들)에 말을 하면, 디지털 개인용 어시스턴트(130)는 사용자의 발언의 일부의 디지털 표현이 네트워크(들)(104)를 통해 주기적으로 음성 인식 서비스(132)에 패킷화되어 전송되게 한다.
음성 인식 서비스(132)는 디지털 개인용 어시스턴트(130)에 의해 전송된 오디오 스트림을 수신하고 오디오 스트림을 분석해서 그 음성 콘텐츠를 결정하도록 작동한다. 음성 인식 서비스(132)는 오디오 스트림의 음성 콘텐츠를 결정하고 나서, 함께 취해지는 인지된 발언을 포함하는 하나 이상의 단어에 음성 콘텐츠를 맵핑한다. 이후, 음성 인식 서비스(132)는 인지된 발언을 질의 이해 및 응답 시스템(136)에 전한다.
도 2에 도시된 바와 같이, 음성 인식 서비스(132)는 인지된 발언을 네트워크(들)(104)를 통해 디지털 개인용 어시스턴트(130)에 회송할 수도 있다. 디지털 개인용 어시스턴트(130)는 인지된 발언의 텍스트 버전을 그 그래픽 사용자 인터페이스(디스플레이(118)를 통해 볼 수 있음) 내에 디스플레이할 수 있기 때문에, 사용자는 인지된 발언을 살펴볼 수 있으며 인지된 발언이 자신이 말한 것을 정확하게 표현하고 있는지의 여부를 판정할 수 있다. 특정 실시예들에 따르면, 디지털 개인용 어시스턴트(130)는, 인지된 발언이 자신이 말한 것을 정확하게 표현하고 있지 않다고 사용자가 판정하는 경우, 인지된 발언을 사용자가 편집할 수 있게 하고, 또한 그 추가적인 처리를 위해 편집된 버전의 발언을 질의 이해 및 응답 시스템(136)에 전송할 수 있게 하는 수단을 추가로 제공할 수 있다.
질의 이해 및 응답 시스템(136)은 인지된 또는 수정된 발언을 수신하고 그 단어들을 분석해서, 그에 따라 상기와 같은 발언이 어떻게 취급되어야 하는지를 결정한다. 예컨대, 질의 이해 및 응답 시스템(136)은 인지된 또는 수정된 발언이 미리 정해진 태스크 세트 내에서의 특정 태스크의 호출을 포함한다고 결정할 수 있다. 예컨대, 어떠한 제한 없이, 태스크는 사용자 지정 인물에 대한 전화 호출(예컨대, "브라이언에게 전화(call Brian)"), 사용자 지정 수신처로의 사용자 지정 이메일 또는 문자 메시지의 송신(예컨대, "늦는다고 캐롤에게 문자를 보냄(text Carol that I am running late)"), 또는 리마인더의 생성(예컨대, "한시간 내에 오븐을 확인하라고 상기시켜라(remind me to check the oven in an hour)")을 포함할 수 있다. 질의 이해 및 응답 시스템(136)은, 인지된 또는 수정된 발언이 미리 정해진 세트 내에서의 특정 태스크의 호출을 포함한다고 결정하면, 특수한 로직(예컨대, 최종 사용자 컴퓨팅 장치(102) 내의 특수한 로직)이 태스크를 수행하게 할 것이다.
그러나, 질의 이해 및 응답 시스템(136)이 인지된 또는 수정된 발언을 미리 정해진 세트 내의 태스크들 중 어느 것에 매칭시키는데 실패하면, 질의 이해 및 응답 시스템(136)은 발언의 단어들을 추가로 분석하고, 그에 따라 상기와 같은 발언이 어떻게 취급되어야 하는지를 결정할 수 있다. 예컨대, 질의 이해 및 응답 시스템(136)은, 웹 서치를 수행하는 것에 의해 또는 웹 서치를 수행하기 위한 기회를 사용자에게 제공하는 것에 의해 발언이 취급되어야 한다고 결정할 수 있다. 이 경우에, 발언은 질의 이해 및 응답 시스템(136) 내부 및/또는 외부의 웹 서치를 가능하게 하는 특수한 로직에 의해 취급될 수 있다. 대안으로서, 질의 이해 및 응답 시스템(136)은, 발언의 단어들의 분석에 기초하여, 해당 발언이, 앞서 주지한 바와 같이, 디지털 개인용 어시스턴트(130)의 페르소나와 관계되도록 의도된 발언인 잡담 유형의 발언을 포함한다고 판정할 수 있다.
구현예에 따라, 질의 이해 및 응답 시스템(136)은, 발언의 단어들의 분석 이외의 또는 분석에 더한 인자들의 분석에 기초하여, 해당 발언이 잡담 유형의 발언을 포함한다고 판정할 수 있다. 예컨대, 질의 이해 및 응답 시스템(136)은, 부분적으로 발언의 억양의 분석에 기초하거나, 사용자의 대화 이력으로부터 취득한 문맥상의 단서들에 기초하거나, 또는 해당 발언이 잡담 유형의 발언을 포함한다는 판정에 도움이 되는 것으로 여겨질 수 있는 임의의 다른 인자들에 기초하여, 해당 발언이 잡담 유형의 발언을 포함한다고 판정할 수 있다.
질의 이해 및 응답 시스템(136)이, 해당 발언이 잡담 유형의 발언을 포함한다고 판정하면, 해당 발언은 질의 이해 및 응답 시스템(136)의 일부인 잡담용 질의 이해 및 응답 시스템(138)에 의해 취급되게 된다. 잡담용 질의 이해 및 응답 시스템(138)은 잡담 유형의 발언의 주제를 결정하고 나서, 결정된 주제에 기초하여, 잡담 유형의 발언에 대한 적절한 응답이 디지털 개인용 어시스턴트(130)에 의해 출력되게 하는 조치를 취하도록 구성된다. 도 2에 도시된 바와 같이, 이는 잡담용 질의 이해 및 응답 시스템(138)으로부터의 응답의 전부 또는 일부를 네트워크(들)(104)를 통해 디지털 개인용 어시스턴트(130)에 송신하는 것을 수반할 수 있다. 응답과, 응답을 디지털 개인용 어시스턴트(130)에 전달하거나, 및/또는 디지털 개인용 어시스턴트(130)에 의해 생성하는 방식의 조합을 아래에서 보다 상세하게 논의한다.
일 실시예에 있어서, 잡담용 질의 이해 및 응답 시스템(138)은 잡담 유형의 발언의 주제를 결정하고 나서, 발언에 대한 응답에 적합한 복수의 적합한 응답을 식별한다. 이후, 잡담용 질의 이해 및 응답 시스템(138)은 복수의 적합한 응답들 중 하나를 디지털 개인용 어시스턴트(130)에 의해 제공될 응답으로서 선택한다. 상기와 같은 선택은 랜덤하게 수행되거나, 특정 순서로 수행되거나, 또는 몇몇 다른 선택 기법에 의해 수행될 수 있다. 주어진 잡담 유형의 발언에 대한 복수의 적합한 응답을 유지함으로써, 잡담용 질의 이해 및 응답 시스템(138)은 디지털 개인용 어시스턴트(130)가 모든 경우에 있어서 동일한 발언에 대하여 동일한 응답을 제공하지 않게 할 수 있고, 그에 따라 디지털 개인용 어시스턴트(130)와 사용자의 상호작용에 약간의 다양성 및 불예측성이 제공되게 된다.
일 실시예에 있어서, 잡담용 질의 이해 및 응답 시스템(138)은 잡담 유형의 발언을, 그것과 연관된 하나 이상의 응답을 갖는 발언 유형들로 이루어진 계층적 트리 내의 특정 발언 유형에 매칭시키도록 작동한다. 이후, 잡담용 질의 이해 및 응답 시스템(138)은 연관된 응답(들) 중에서 잡담 유형의 발언에 대한 응답을 선택한다.
이 개념의 이해를 돕기 위해, 도 3은 실시예에 따른 잡담 유형의 발언에 대한 응답을 선택하는데 사용될 수 있는 발언 유형들로 이루어진 예시적인 계층적 트리를 묘사한다. 도 3에 도시된 바와 같이, 계층적 트리(300)의 뿌리 노드(root node)는 일반적인 잡담 발언 유형이다. 이 뿌리 노드 아래의 모든 발언 유형은 잡담 유형의 발언을 포함한다. 한 레벨 아래에서, 이 뿌리 노드는 주장("Assertion"), 커맨드("Command"), 경박함("Flirt"), 디지털 개인용 어시스턴트(130)에 대한 정보 요청("Sys-info"), 또는 디지털 개인용 어시스턴트(130)로부터의 의견 요청("Sys-opinion")인 잡담 유형의 발언들이다. 이들 노드 각각의 아래는 잡담 발언 유형들의 추가적인 카테고리들 및 하위-카테고리들이다. 따라서, 발언 유형들은 일반적으로 계층적 트리(300)의 유형에서는 광의적(broader)이고 계층적 트리(300)의 아래로 갈수록 협의적(narrower)으로 된다.
실시예에 있어서, 잡담 유형의 발언의 분석에 기초하여, 잡담용 질의 이해 및 응답 시스템(130)은 계층적 트리(300)를 횡단해서 발언을 노드들 중 하나에 매칭시킨다. 예컨대, 잡담용 질의 이해 및 응답 시스템(138)은 특정 잡담 유형의 발언이 "Assertion," "Command," "Flirt," "Sys-info" 및 "Sys-opinion"에 매칭되어야 하는 신뢰 스코어를 생성할 수 있다. 이후, 잡담용 질의 이해 및 응답 시스템(138)은 최고 신뢰 스코어가 취득된 노드를 선택한다(몇몇 최소 신뢰 스코어는 노드들 중 적어도 하나에 대해서 취득되었다고 가정). 설명을 위해, "Sys-opinion"에 대해서 최고 신뢰 스코어가 생성된다고 가정한다. 이후, 잡담용 질의 이해 및 응답 시스템(138)은 "Sys-Opioion" 노드에 대하여 계층적 트리(300)를 횡단해서, 잡담 유형의 발언이 "Sys-opinion"의 자식 노드(child node)들 각각에, 즉 "마이크로소프트(Microsoft)", "경향(Trending)" 및 "조언(Advice)"에 매칭되어야 하는 신뢰 스코어를 생성하게 된다. 이후, 잡담용 질의 이해 및 응답 시스템(138)은 최고 신뢰 스코어가 달성된 자식 노드를 선택한다(마찬가지로, 몇몇 최소 신뢰 스코어는 자식 노드들 중 적어도 하나에 대해서 취득되었다고 가정). 자식 노드들 각각에 대한 신뢰 스코어가 몇몇 미리 정해진 최소 신뢰 스코어보다 작으면, "Sys-opinion" 노드에서의 계층적 트리(300)의 횡단을 멈춘다.
하나 이상의 응답은 계층적 트리(300)에서의 각각의 노드와 연관된다. 잡담용 질의 이해 및 응답 시스템(138)이 계층적 트리(300)의 횡단을 행해서 잡담 유형의 발언에 대한 매칭 노드를 선택한 경우에는, 잡담용 질의 이해 및 응답 시스템(138)은 매칭 노드와 연관된 하나 이상의 응답 중에서 하나의 응답을 선택할 수 있다.
잡담 유형의 발언에 대한 적절한 응답의 식별에 대한 전술한 해법은, 응답들이 잡담 유형의 발언들로 이루어진 광의의 그룹들뿐만 아니라 광의의 그룹들 내의 협의의 그룹들에 대해서도 규정되는 것을 허용한다는 점에서 유리하다. 예로서, "Sys-opinion" 노드 내의 "Microsoft" 노드에 대해서는, 잡담 유형의 발언들에 대한 매우 구체적인 응답들(예컨대, "마이크로소프트사는 대단하다고 생각해(I think Microsoft is great!"))이 만들어질 수 있는데, 그 이유는 사용자가 마이크로소프트사에 대하여 디지털 개인용 어시스턴트(130)의 의견을 묻고 있다는 높은 수준의 신뢰를 시스템이 갖고 있기 때문이다. 그에 반해서, "Sys-opinion" 노드에 대해서는, 잡담 유형의 발언들에 대한 보다 일반적인 응답(예컨대, "노 코멘트(No comment)" 또는 "말하지 않겠습니다(I'd rather not say)")이 만들어질 수 있는데, 그 이유는 사용자가 디지털 개인용 어시스턴트(130)의 의견을 묻고 있다는 높은 수준의 신뢰를 시스템이 갖고 있기는 하지만, 의견을 구하고 있는 주제를 시스템이 결정할 수 없기 때문이다.
일 실시예에 있어서, 계층적 트리(300)에 포함될 수 있는 발언들의 유형들은 사용자 발언들의 로그에 대한 휴먼 검사(human examination) 및 각각의 발언에 대한 적절한 발언 유형에 의한 레이블링(labeling)을 통해 결정될 수 있다. 예컨대, 수천 가지의 사용자 발언의 휴먼 검사 및 레이블링을 취득하기 위해, 워싱턴주 레드몬드 소재의 마이크로소프트사에 의해 개발된 UHRS(Universal Human Relevance System)와 같은 크라우드 소싱 플랫폼(crowd sourcing platform)이 이용될 수 있다. 이후, 이 크라우드 소싱 정보는 계층적 트리(300)를 생성하는데 이용될 수 있다. 계층적 트리(300)와 같은, 발언 유형들로 이루어진 계층적 트리를 생성하기 위한 또 다른 방법들이 이용될 수 있다.
다른 실시예에 있어서, 잡담용 질의 이해 및 응답 시스템(138)은 하나 이상의 경향 토픽 각각과 연관된 하나 이상의 응답을 유지하도록 구성된다. 일반적으로, 경향 토픽은, 사용자들에게 인기를 끌고 있거나 또는 최근 인기를 끌게 되었고, 또한 자동으로(예컨대, 디지털 개인용 어시스턴트, 검색 엔진 질의, TWITTER와 같은 마이크로블로그, FACEBOOK과 같은 소셜 네트워킹 사이트, 뉴스 공급자, 또는 그 밖의 소스에 입력된 발언들을 자동으로 모니터링함으로써) 또는 수동으로(예컨대, 이들 소스들 중 어느 하나 또는 전부에 대한 휴먼 관찰(human observation)을 통해) 식별될 수 있는 토픽이다. 잡담용 질의 이해 및 응답 시스템(138)이 잡담 유형의 발언이 특정 경향 토픽과 연관된다고 결정하는 경우에는, 잡담용 질의 이해 및 응답 시스템(138)은 특정 경향 토픽과 연관된 하나 이상의 응답 중에서 잡담 유형의 발언에 대한 응답을 선택할 수 있다.
또한, 상기와 같은 실시예에 따르면, 경향 토픽은 잡담 유형의 발언에 대한 적절한 응답을 선택하기 위해 잡담용 질의 이해 및 응답 시스템(138)에 의해 이용되는 발언 유형들로 이루어진 계층적 트리 내에 제시될 수 있다. 예컨대, 도 3에 도시된 바와 같이, "Sys-Opinion" 아래의 노드들 중 하나는 "Trending"이다. 이 노드는 하나 이상의 경향 토픽에 관하여 디지털 개인용 어시스턴트(130)의 의견을 요청하고 있는 잡담 유형의 발언에 대한 응답들을 저장하는데 사용될 수 있다. 또한, 이 실시예에 따르면, "Trending" 노드는 그것과 연관된 다수의 자식 노드를 구비할 수 있고, 이때 각각의 자식 노드는 특정한 경향 토픽과 연관되며 그것과 연관된 하나 이상의 응답을 갖는다.
또 다른 실시예에 있어서, 잡담용 질의 이해 및 응답 시스템(138)은 디지털 개인용 어시스턴트(130)의 페르소나를 전달하도록 되어 있는 특정 잡담 유형의 발언들에 대한 하나 이상의 응답을 유지하도록 구성된다. 예컨대, 디지털 개인용 어시스턴트(130)가 그 페르소나와 연관되는 특정한 단어, 구절, 또는 토픽에 대하여 반드시 전하도록 하는데 관심이 있을 수 있다. 이 경우에, 편집 팀은 특정 잡담 유형의 발언에 대한 미리 정해진 응답들을 생성해서, 디지털 개인용 어시스턴트(130)가 상기와 같은 토픽이 논의될 때마다 특유의 응답들을 제공하게 할 수 있다. 이 경우에, 잡담용 질의 이해 및 응답 시스템(138)이, 잡담 유형의 발언이 디지털 개인용 어시스턴트(130)의 페르소나를 전달하도록 되어 있는 하나 이상의 미리 정해진 응답이 존재하는 발언이라고 판정하는 경우에는, 잡담용 질의 이해 및 응답 시스템(138)은 하나 이상의 미리 정해진 응답 중에서 잡담 유형의 발언에 대한 응답을 선택하게 된다.
도 4는 실시예에 따른 잡담 유형의 발언에 응답하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 예시적인 응답(400)을 보여주는 블록도이다. 도 4에 도시된 바와 같이, 응답(400)은 디스플레이 문자열(402), 음성 콘텐츠(404), 음성 흉내 컴포넌트(406), 음성 감성 컴포넌트(408), 디지털 개인용 어시스턴트 애니메이션(410), 멀티미디어 컴포넌트(412), 및 콘텐츠에의 링크(414)를 포함하는 다수의 컴포넌트를 포함한다.
구현예에 따라, 응답(400) 내의 각각의 컴포넌트는 디지털 개인용 어시스턴트 후단부(106)에 의해 저장 및/또는 생성될 수 있으며, 응답이 사용자에게 제공되어야 할 때 잡담용 질의 이해 및 응답 시스템(138)에 의해 디지털 개인용 어시스턴트(130)에 전송될 수 있다. 부가적으로, 응답(400)의 컴포넌트들 중 하나, 하나 이상, 또는 전부는 최종 사용자 컴퓨팅 장치(102)(예컨대, 비휘발성 메모리(120) 내에서)에 의해 저장 및/또는 생성될 수 있으며, 잡담용 질의 이해 및 응답 시스템(138)은, 디지털 개인용 어시스턴트(130)가 컴포넌트(들)를 로컬로 취득할 수 있도록, 응답이 사용자에게 제공되어야 할 때 컴포넌트(들)를 식별 또는 취득하기에 충분한 정보를 디지털 개인용 어시스턴트(130)에 송신할 수 있다.
또한, 응답(400)은 7개의 상이한 컴포넌트를 포함하고 있지만, 잡담 유형의 발언에 대한 응답이 도 4에 도시된 모든 컴포넌트보다 적게 포함할 수 있음을 이해해야 한다.
디스플레이 문자열(402)은 디지털 개인용 어시스턴트(130)의 사용자 인터페이스 내에 디스플레이되는 텍스트를 포함한다. 텍스트는 사용자의 잡담 유형의 발언에 대한 음성 응답을 포함할 수 있다. 일 실시예에 있어서, 디스플레이 문자열(402)은 대중문화 언급과 연관되는 인용구를 포함할 수 있다.
음성 콘텐츠(404)는 디지털 개인용 어시스턴트(130)의 사용자 인터페이스에 의해 생성 또는 재생되는 음성을 포함한다. 디지털 개인용 어시스턴트(130)는 음성 콘텐츠(404)의 일부를 포함하는 텍스트에 텍스트-음성 변환을 적용하는 것에 의해 상기와 같은 음성을 생성할 수 있다. 대안으로서, 디지털 개인용 어시스턴트(130)는 음성 콘텐츠(404) 내부에 포함되거나 또는 음성 콘텐츠(404)에 의해 식별되는 오디오 파일을 재생하는 것에 의해 상기와 같은 음성을 생성할 수 있다. 일 실시예에 있어서, 음성 콘텐츠(404)는, 반드시 그러한 것은 아니지만, 디스플레이 문자열(402)에 포함되는 콘텐츠의 가청 버전을 포함한다. 예컨대, 음성 콘텐츠(404)는 디스플레이 문자열(402)에 포함된 음성 정보와는 전적으로 상이한 음성 정보를 포함할 수 있다. 디스플레이 문자열(402)과 마찬가지로, 음성 콘텐츠(404)의 콘텐츠는 대중문화 언급과 연관되는 인용구를 포함할 수 있다.
음성 흉내 컴포넌트(406)는 디지털 개인용 어시스턴트(130)가 대중문화 언급과 연관된 인물과 같은 인물의 음성을 흉내내는 방식으로 음성 콘텐츠(404)를 생성 또는 재생해야 함을 나타내는 컴포넌트이다. 음성 흉내 컴포넌트(406)는 흉내를 수행하기 위해 디지털 개인용 어시스턴트(130)에 의해 재생되어야 하는 오디오 파일을 포함 또는 식별할 수 있다. 대안으로서, 음성 흉내 컴포넌트(406)는 원하는 인물의 음성을 흉내내는 방식으로 음성 콘텐츠(404)를 생성하기 위해 특수한 텍스트-음성 변환기가 디지털 개인용 어시스턴트(130)에 의해 사용되어야 한다는 것을 나타낼 수 있다.
음성 감성 컴포넌트(408)는 텍스트-음성 변환이 상기와 같은 콘텐츠에 적용되어서 음성을 생성할 때 음성 콘텐츠(404)에 적용되어야 하는 감성 요소를 포함한다.
디지털 개인용 어시스턴트 애니메이션(410)은 그 사용자 인터페이스 내에서 디스플레이되게 되는 디지털 개인용 어시스턴트(130)를 표현하는 아바타의 애니메이션을 포함한다. 애니메이션은 대중문화 언급을 환기시키도록 설계될 수 있다. 응답(400)의 기재가 디지털 개인용 어시스턴트 애니메이션(410)을 의미한다고 해도, 애니메이션과는 다른 유형의 아바타의 시각적 표현이 정지 이미지 등을 포함하는 대중문화 언급을 환기시키는데 사용될 수 있다는 점을 인식해야 한다.
멀티미디어 컴포넌트(412)는 디지털 개인용 어시스턴트(130)의 사용자 인터페이스 내에 디스플레이되거나 또는 사용자 인터페이스에 의해 재생되게 되는 하나 이상의 멀티미디어 객체를 포함한다. 각각의 멀티미디어 객체는 대중문화 언급과 연관될 수 있다. 구현예에 따라, 각각의 멀티미디어 객체는, 예컨대 디지털 개인용 어시스턴트(130)의 사용자 인터페이스 내에 디스플레이되는 이미지, 디지털 개인용 어시스턴트(130)의 사용자 인터페이스 내에 디스플레이되는 비디오 콘텐츠, 또는 디지털 개인용 어시스턴트(130)의 사용자 인터페이스에 의해 재생되는 오디오 콘텐츠를 포함할 수 있다.
콘텐츠에의 링크(414)는, 디지털 개인용 어시스턴트(130)의 사용자 인터페이스 내에 디스플레이될 수 있으며 또한 다른 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 포함한다. 예컨대, 링크는 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있다.
도 5 내지 도 10은 디지털 개인용 어시스턴트(130)의 사용자 인터페이스를 통해 전달될 수 있는 잡담 유형의 발언들에 대한 응답들의 몇 가지 예시들을 제공한다. 이들 예시는 실시예들에 따른 잡담 유형의 발언에 대한 응답에 포함될 수 있는 다양한 컴포넌트를 설명하는데 도움이 된다. 도 5 내지 도 10의 예시에 있어서, 최종 사용자 컴퓨팅 장치(102)는 스마트폰이고, 디스플레이(118)는 스마트폰의 통합된 디스플레이이다. 그러나, 앞서 주지된 바와 같이, 최종 사용자 컴퓨팅 장치(102)가 스마트폰에 한정되는 것은 아니며, 다양한 모바일 컴퓨팅 장치 및 비-모바일 컴퓨팅 장치 중 어느 것일 수 있다.
도 5는 잡담 유형의 발언 "스탯 테스트 때문에 긴장되요(I am nervous about the stats test)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "포스가 당신과 함께 하길(May the force be with you)"을 포함하는 디스플레이 문자열(502)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 이 디스플레이 문자열 텍스트는 대중적인 "스타워즈(Star Wars)" 영화로부터 잘 알려져 있는 인용구를 포함한다.
또한, 잡담 유형의 발언에 응답하여, 디지털 개인용 어시스턴트(130)의 시각적 표현(504)이 그래픽 사용자 인터페이스 내에 디스플레이된다. 시각적 표현(504)은 광검(light saber)을 포함하고, 그에 따라 "스타워즈" 영화를 또한 환기시킨다. 실시예에 있어서, 시각적 표현(504)은, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 광검 사운드를 동반할 수 있는, 광검을 휘두르는 디지털 개인용 어시스턴트(130)의 아바타의 애니메이션의 일부를 포함할 수 있다.
실시예에 있어서, 도 5에 제공된 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함하고, 상기와 같은 음성은 문장 "포스가 당신과 함께 하길"을 또한 포함한다. 실시예에 있어서, 음성은 요다(Yoda) 또는 오비완 케노비(Obi-Wan Kenobi)와 같은 유명한 "스타워즈" 캐릭터의 흉내를 포함한다. 앞서 기술된 바와 같이, 상기와 같은 음성은 지정된 오디오 파일을 재생함으로써 또는 텍스트 "포스가 당신과 함께 하길"에 특수한 텍스트-음성 변환 프로세스를 적용함으로써 렌더링될 수 있다. 구현예에 따라서는, "스타워즈" 캐릭터 이외의 인물이 흉내를 수행하고 있음(예컨대, 디지털 개인용 어시스턴트(130)와 연관된 기본 음성이 흉내를 수행하고 있음)이 분명해지도록 흉내가 렌더링될 수 있다. 다른 구현예에 있어서, 흉내는 "스타워즈" 캐릭터의 음성과 구분이 안 되는 음성을 만들어내거나, 또는 실제로 "스타워즈" 캐릭터를 연기한 배우의 음성일 수 있다.
종합적으로, 디스플레이 문자열(502), 시각적 표현(504), 및 흉내와 함께 전달된 음성은 격려의 말을 건넴으로써 사용자의 잡담 유형의 발언에 대하여 적절히 응답할 뿐만 아니라, 사용자에게 매우 친숙하고 사용자와의 공감대를 확립하는 것을 도울 것 같은 대중문화 언급("스타워즈")을 강하게 환기시키도록 기능한다. 또한, 응답은 광검 애니메이션 및 흉내를 낸 음성을 포함하는 다양한 형태의 감각적 출력을 포함하기 때문에, 해당 응답은 밋밋한 텍스트 응답보다는 사용자에게 관계되고 즐거움을 줄 가능성이 높다.
도 6은 잡담 유형의 발언 "은행을 어떻게 털지?(How do I rob a bank?)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "이들은 끝이 좋지 않았어(It didn't end well for these guys)"를 포함하는 디스플레이 문자열(602)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함할 수 있으며, 상기와 같은 음성은 문장 "이들은 끝이 좋지 않았어"를 또한 포함한다. 디스플레이 문자열(602)의 텍스트는 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 마찬가지로 디스플레이되는 멀티미디어 객체(604)를 언급하고 있다. 도 6에 도시된 바와 같이, 멀티미디어 객체(604)는 잘 알려진 은행 강도 보니 파커(Bonnie Parker)와 클라이드 배로(Clyde Barrow)의 삶과 죽음을 다룬 드라마인 1967년도 영화 "보니 앤 클라이드(Bonnie & Clyde)"의 영화 포스터의 이미지를 포함한다.
종합적으로, 디스플레이 문자열(602)(및 상응하는 가청 음성)과 멀티미디어 객체(604)는, 은행을 터는 위험성(보니와 클라이드는 경찰관에 의해 사살되었음)을 지적함으로써 사용자의 잡담 유형의 발언에 적절히 응답하고, 또한 사용자에게 매우 친숙하고 사용자와의 공감대를 확립하는 것을 도울 것 같은 대중문화 언급(보니와 클라이드 및 동명의 영화)을 환기시키는, 잡담 유형의 발언 "은행을 어떻게 털지?"에 대한 응답을 포함한다. 또한, 응답은 밋밋한 텍스트와는 다른 출력 형태이기 때문에, 사용자에게 관계되고 즐거움을 줄 가능성이 높다.
도 7은 잡담 유형의 발언 "전세계에서 당신이 가장 좋아하는 자동차는?(What's your favorite car in the whole wide world?)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "드롤리언을 좋아해요. 특히 시간 여행을 할 수 있잖아요(I love Deloreans. Especially ones that travel through time)"을 포함하는 디스플레이 문자열(702)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함하고, 상기와 같은 음성은 문장 "드롤리언을 좋아해요. 특히 시간 여행을 할 수 있잖아요"를 또한 포함한다. 이 텍스트 및 음성은 잘 알려진 영화 "백 투 더 퓨처(Back to the Future)"를 인용한다.
도 7에 마찬가지로 도시된 바와 같이, 응답은 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스의 문맥 내에서 사용자에 의해 플레이되어 보여질 수 있는 "Back to the Future - Clock Tower Scene.av(백 투 더 퓨처 - 시계탑 장면.av)"라는 명칭의 YOUTUBE® 비디오 형태의 멀티미디어 객체(704)를 또한 포함한다.
또한, 도 7에 도시된 바와 같이, 응답은, 사용자에 의해 활성화될 때, 원래의 발언인 "전세계에서 당신이 가장 좋아하는 자동차는?"이라는 구절에 대하여 사용자가 웹을 검색할 수 있게 하는 링크(706)를 포함한다. 대안적인 실시예에 있어서, 링크는, 사용자에 의해 활성화될 때, 대중문화 언급과 연관된 콘텐츠(예컨대, 영화 "백 투 더 퓨처")에 대하여 사용자가 웹을 검색할 수 있게 하는 링크가 제공될 수 있다는 점에 유의해야 한다.
도 5 및 도 6의 응답들과 마찬가지로, 도 7의 응답은 대중문화 언급을 강하게 환기시키고, 그에 따라 사용자와의 공감대를 확립할 수 있다. 또한, 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스로부터 직접 볼 수 있는 비디오 콘텐츠는 관계가 높은 응답을 한다.
도 8은 잡담 유형의 발언 "나쁜 년(You bitch)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "나는 애인이자, 자식이며, 또한 엄마이기도 하다(I'm also a lover, a child and a mother)"를 포함하는 디스플레이 문자열(802)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함할 수 있고, 상기와 같은 음성은 문장 "나는 애인이자, 자식이며, 또한 엄마이기도 하다"를 또한 포함한다. 이 텍스트 및 음성은 메레디스 브룩스(Meredith Brooks)의 잘 알려진 노래 "비치(Bitch)"의 가사의 일부를 포함한다.
도 8에 마찬가지로 도시된 바와 같이, 응답은 메레디스 브룩스의 이미지 형태의 멀티미디어 객체(804)를 또한 포함한다. 응답은 노래 "비치"에 대한 정보를 제공하는 텍스트부(806)를 또한 포함하고, 하나 이상의 공급처로부터 노래의 디지털 복사본을 구매하기 위해 제각기 사용자에 의해 활성화될 수 있는 하나 이상의 링크를 또한 포함할 수 있다.
도 8의 응답은 외견상 경멸적인 잡담 유형의 발언에 응답(그리고, 다소 모면)하기 위해 팝 문화 언급을 영리하게 이용한다. 응답은 사용자에게 관계되는 것을 도울 수 있는 흥미로운 멀티미디어 콘텐츠를 또한 포함한다. 도 8에 도시된 응답은 또한, 잡담 유형의 발언에 대한 응답이, 어떤 점에서는, 사용자가 응답에서 인용되고 있는 노래를 구매하는 것이 가능해진다는 점에서 어떻게 광고 또는 상업적 기회로서 기능할 수 있는지를 나타낸다.
도 9는 잡담 유형의 발언 "아빠가 누구니?(Who is your Daddy?)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "이 사람들(These guys)"을 포함하는 디스플레이 문자열(902)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함할 수 있으며, 상기와 같은 음성은 문장 "이 사람들"을 또한 포함한다. 디스플레이 문자열(902)의 텍스트는 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 마찬가지로 디스플레이되는 멀티미디어 객체(904)를 인용하고 있다. 도 9에 도시된 바와 같이, 멀티미디어 객체(904)는, 매우 대중적인 영화 "오스틴 파워(Austin Powers)"로부터, 제각기 오스틴 파워(Austin Powers) 캐릭터와 닥터 에빌(Dr. Evil) 캐릭터의 복장을 한 빌 게이츠(Bill Gates(마이크로소프트사의 회장))와 스티브 발머(Steve Ballmer(마이크로소프트사의 최고경영자))의 비디오를 포함한다. 이 비디오는 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스의 문맥 내에서 사용자에 의해 플레이되어 보여질 수 있다.
디지털 개인용 어시스턴트(130)가 워싱턴 레드몬드 소재의 마이크로소프트사에 의해 배포되는 실시예에 있어서, 비디오에 보여지는 화면들이 마이크로소프사와 연관된 유명한 인물들이기 때문에 도 9에 도시된 응답은 적합한 것이다. 또한, 비디오 콘텐츠는 사용자에게 즐거움을 주고 관계되는 것이다.
도 10은 잡담 유형의 발언 "재미있는 것을 보여줄래?(Show me something funny?)"에 대하여 디지털 개인용 어시스턴트(130)에 의해 제공될 수 있는 응답을 나타낸다. 이 잡담 유형의 발언에 응답하여, 문장 "내 친구가 의견이 있어요(A friend of mine has an opinion)"를 포함하는 디스플레이 문자열(1002)이 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 디스플레이된다. 응답은 또한, 최종 사용자 컴퓨팅 장치(102)의 하나 이상의 스피커를 통해 재생되는 가청 음성을 포함할 수 있으며, 상기와 같은 음성은 문장 "내 친구가 의견이 있어요"를 또한 포함한다. 디스플레이 문자열(1002)의 텍스트는 디지털 개인용 어시스턴트(130)의 그래픽 사용자 인터페이스 내에 마찬가지로 디스플레이되는 멀티미디어 객체(1004)를 의미하고 있다. 도 10에 도시된 바와 같이, 멀티미디어 객체(1004)는 성격이 나빠 보이는 고양이의 이미지를 "한때 재미있었어. 끔찍했어(I had fun once. It was horrible)"라는 슬로건(tagline)과 함께 포함한다. 이 이미지는, 사용자에게 즉시 인지될 수 있으며, 또한 사용자를 즐겁게 만들고 관계되게 하도록 기능할 수도 있는 대중적인 "그럼피 캣(Grumpy Cat)" 인터넷 밈에 대한 언급이다.
도 5 내지 도 10의 전술한 예시들은 본 명세서에서는 예로서만 제공된 것이다. 관련 기술분야의 당업자라면, 도 5 내지 도 10에 묘사된 것들과는 다른 잡담 유형의 발언들에 대한 다양한 응답들이 제공될 수 있음을 인식할 것이다. 상기와 같은 응답들은 도 4를 참조로 앞서 기술된 어느 하나 이상의 응답 컴포넌트뿐만 아니라 추가적인 컴포넌트를 포함할 수 있다.
III. 응답시에 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 예시적인 방법(Example Methods for Implementing a Digital Personal Assistant that Utilizes Impersonations and/or Multimedia in Responses)
도 11은 실시예에 따른 잡담 유형의 발언들에 응답하여 흉내 및/또는 멀티미디어를 이용하는 디지털 개인용 어시스턴트를 구현하는 방법의 흐름도(1100)를 묘사한다. 흐름도(1100)의 방법은, 예컨대 도 1을 참조로 상술한 바와 같이, 디지털 개인용 어시스턴트 후단부(106)에 의해 수행될 수 있다. 결국, 흐름도(1100)의 방법은 도 1의 시스템(100)을 계속 참조하여 기술될 것이다. 그러나, 상기 방법이 그 구현예에 한정되는 것은 아니다.
도 11에 도시된 바와 같이, 흐름도(1100)의 방법은 디지털 개인용 어시스턴트의 사용자의 발언의 디지털 표현을 수신하는 스텝(1102)으로 시작한다. 발언의 디지털 표현은, 예컨대 도 2를 참조로 상술한 바와 같이, 음성 인식 서비스(132)에 의해 생성되는 발언 또는 디지털 개인용 어시스턴트(130)와의 사용자 상호작용을 통해 생성된 수정된 발언을 포함할 수 있다. 그 도면에 관하여 추가로 논의된 바와 같이, 발언의 디지털 표현은 질의 이해 및 응답 시스템(136)에 의해 수신된다.
스텝(1104)에서는, 발언의 디지털 표현이 분석된다. 도 2를 참조로 상술된 바와 같이, 이 스텝은 질의 이해 및 응답 시스템(136)에 의해 수행된 분석을 수반해서 발언이 잡담 유형의 발언을 포함하는지를 결정할 수 있다.
스텝(1106)에서는, 적어도 발언의 디지털 표현의 분석에 기초하여, 해당 발언이 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다는 것을 판정한다. 도 2를 참조로 상술한 바와 같이, 이 스텝은 질의 이해 및 응답 시스템(136)이 해당 발언이 잡담 유형의 발언이라고 판정할 때 발생한다. 앞서 주지한 바와 같이, 이 판정은 질의 이해 및 응답 시스템(136)에 의해 수행된 발언의 분석에 기초하여 이루어질 수 있다.
스텝(1108)에서는, 적어도 스텝(1106)에서 이루어진 판정에 응답하여, 대중문화 언급과 연관된 멀티미디어 객체 및 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성 중 적어도 하나를 포함하는, 발언에 대한 응답이 디지털 개인용 어시스턴트에 의해 생성되게 된다. 멀티미디어 객체는, 예컨대 이미지, 비디오 콘텐츠, 또는 오디오 콘텐츠를 포함할 수 있으며, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되거나 또는 사용자 인터페이스에 의해 재생될 수 있다. 음성은 디지털 개인용 어시스턴트에 의해 생성 또는 재생될 수 있다. 이 스텝은, 예컨대 도 4를 참조로 상술한 멀티미디어 콘텐츠와 같은 멀티미디어 객체를 포함하거나 또는 도 4를 참조로 상술한 바와 같이 음성 흉내 컴포넌트(406)에 의해 나타내진 바와 같은 흉내를 낸 음성을 포함하는 응답을 디지털 개인용 어시스턴트(130)가 제공하게 하는 잡담용 질의 이해 및 응답 시스템(138)에 의해 수행될 수 있다. 잡담용 질의 이해 및 응답 시스템(138)이 이 기능을 수행하는 방식은 앞서 기술되었다.
마찬가지로 앞서 기술된 바와 같이, 스텝(1108)에서 논의된 발언에 대한 응답은, 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되는, 대중문화 언급과 연관된 인용구를 포함하는 텍스트, 그 사용자 인터페이스 내에 디스플레이되고 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현(예컨대, 디지털 개인용 어시스턴트의 애니메이션), 및/또는 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되고 잡담 유형의 발언 또는 대중문화 언급과 연관된 콘텐츠와 같은 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 추가로 포함할 수 있다. 부가적으로, 디지털 개인용 어시스턴트에 의해 생성 또는 재생되는 음성은 대중문화 언급과 연관된 인용구를 포함할 수 있다.
일 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 발언에 대한 복수의 적합한 응답을 식별하고 나서, 발언에 대한 복수의 적합한 응답들 중에서 해당 발언에 대한 응답을 선택하는 것을 포함한다.
다른 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 발언을 발언 유형들로 이루어진 계층적 트리(예컨대, 도 3을 참조로 상술한 계층적 트리(300)) 내의 특정 발언 유형에 매칭시키는 것을 포함하고, 발언 유형들로 이루어진 계층적 트리 내의 각각의 발언 유형은 그것과 연관된 하나 이상의 응답을 갖는다. 매칭 이후에, 발언에 대한 응답은 특정 발언 유형과 연관된 응답(들) 중에서 선택된다.
또 다른 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 해당 발언이 경향 토픽과 연관된다고 판정하고 나서, 해당 발언이 경향 토픽과 연관된다는 판정에 응답하여 경향 토픽과 연관된 하나 이상의 응답 중에서 발언에 대한 응답을 선택하는 것을 포함한다.
추가의 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 해당 발언이 디지털 개인용 어시스턴트의 페르소나를 전달하도록 의도된 하나 이상의 미리 정해진 응답이 존재하는 발언이라고 판정하는 것, 및 이 판정에 응답하여, 하나 이상의 미리 정해진 응답 중에서 발언에 대한 응답을 선택하는 것을 포함한다.
또 다른 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 디지털 개인용 어시스턴트를 실행시키는 컴퓨팅 장치에 대하여 오디오 파일을 식별하는 음성 또는 정보를 포함하는 오디오 파일을 송신하는 것을 포함한다. 이 스텝은, 예컨대 잡담용 질의 이해 및 응답 시스템(138)이 흉내를 낸 음성을 포함하는 오디오 파일을 최종 사용자 컴퓨팅 장치(102)에 송신해서 오디오 파일이 디지털 개인용 어시스턴트(130)에 의해 액세스되어 재생될 수 있을 때 또는 잡담용 질의 이해 및 응답 시스템(138)이 상기와 같은 오디오 파일을 식별하는 정보를 디지털 개인용 어시스턴트(130)에 송신해서 오디오 파일이 디지털 개인용 어시스턴트(130)에 의해 로컬로 취득될 수 있을 때, 수행될 수 있다.
또 다른 실시예에 있어서, 스텝(1108)에서 발언에 대한 응답이 생성되게 하는 것은 디지털 개인용 어시스턴트를 실행시키는 컴퓨팅 장치에 텍스트를 제공하는 것을 포함하고, 텍스트는 디지털 개인용 어시스턴트의 텍스트-음성 컴포넌트에 의해 처리되어서 음성을 생성한다. 이 스텝은, 예컨대 특정 인물의 음성을 흉내내는 방식으로 텍스트가 음성로 변환되게 하기 위해 디지털 개인용 어시스턴트(130)가 특수한 텍스트-음성 변환기를 지정된 텍스트에 적용해야 한다는 지시를 잡담용 질의 이해 및 응답 시스템(138)이 디지털 개인용 어시스턴트(130)에 송신할 때, 수행될 수 있다.
도 12는 실시예에 따른 디지털 개인용 어시스턴트가 음성 흉내를 포함하는 잡담 유형의 발언에 대한 응답을 제공하게 하는 방법의 흐름도(1200)를 묘사한다. 흐름도(1200)의 방법은, 예컨대 도 1을 참조로 상술한 바와 같이 디지털 개인용 어시스턴트(130)에 의해 수행될 수 있다. 결국, 흐름도(1200)의 방법은 도 1의 시스템(100)을 계속 참조하여 기술될 것이다. 그러나, 상기 방법이 그 구현예에 한정되는 것은 아니다.
도 12에 도시된 바와 같이, 흐름도(1200)의 방법은 디지털 개인용 어시스턴트(130)의 페르소나와 관계되도록 의도된 사용자의 발언을 나타내는 오디오를 디지털 개인용 어시스턴트(130)가 캡처하는 스텝(1202)으로 시작한다.
스텝(1204)에서는, 디지털 개인용 어시스턴트(130)가 오디오를 디지털 개인용 어시스턴트 후단부(106)에 전송한다.
스텝(1206)에서는, 디지털 개인용 어시스턴트(130)가 적어도 디지털 개인용 어시스턴트 후단부(106)로부터 수신한 정보에 기초하여 발언에 대한 응답을 제공한다. 응답을 제공하는 것은 대중문화 언급과 연관된 페르소나의 음성의 흉내를 포함하는 음성을 생성 또는 재생하는 것을 포함한다.
실시예에 있어서, 스텝(1206)에서 응답을 제공하는 것은 음성을 포함하는 오디오 파일을 재생하는 것을 포함한다. 대안적인 실시예에 있어서, 스텝(1206)에서 응답을 제공하는 것은 텍스트에 텍스트-음성 변환을 적용해서 음성을 생성하는 것을 포함한다.
추가적인 실시예들에 따르면, 스텝(1206)에서 응답을 제공하는 것은, 디지털 개인용 어시스턴트(130)의 사용자 인터페이스에 의해, 대중문화 언급과 연관되는 멀티미디어 객체를 디스플레이 또는 재생하는 것; 디지털 개인용 어시스턴트의 사용자 인터페이스 내에, 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 디스플레이하는 것; 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디스플레이하는 것; 및 발언과 연관된 또는 대중문화 언급과 연관된 콘텐츠와 같은 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하는 것 중에서 하나 이상을 포함한다.
도 13은 실시예에 따른 디지털 개인용 어시스턴트가 멀티미디어 객체를 포함하는 잡담 유형의 발언에 대한 응답을 제공하게 하는 방법의 흐름도(1300)를 묘사한다. 흐름도(1300)의 방법은, 예컨대 도 1을 참조로 상술한 바와 같이 디지털 개인용 어시스턴트(130)에 의해 수행될 수 있다. 결국, 흐름도(1300)의 방법은 도 1의 시스템(100)을 계속 참조하여 기술될 것이다. 그러나, 상기 방법이 그 구현예에 한정되는 것은 아니다.
도 13에 도시된 바와 같이, 흐름도(1300)의 방법은 디지털 개인용 어시스턴트(130)의 페르소나와 관계되도록 의도된 사용자의 발언을 나타내는 오디오를 디지털 개인용 어시스턴트(130)가 캡처하는 스텝(1302)으로 시작한다.
스텝(1304)에서는, 디지털 개인용 어시스턴트(130)가 오디오를 디지털 개인용 어시스턴트 후단부(106)에 전송한다.
스텝(1306)에서는, 디지털 개인용 어시스턴트(130)가 적어도 디지털 개인용 어시스턴트 후단부(106)로부터 수신한 정보에 기초하여 발언에 대한 응답을 제공한다. 응답을 제공하는 것은 디지털 개인용 어시스턴트(130)의 사용자 인터페이스에 의해 대중문화 언급과 연관된 멀티미디어 객체를 디스플레이 또는 재생하는 것을 포함한다.
실시예에 있어서, 스텝(1306)에서 멀티미디어 객체를 디스플레이 또는 재생하는 것은 디지털 개인용 어시스턴트(130)의 사용자 인터페이스에 의해 이미지 또는 비디오 콘텐츠를 디스플레이하거나 또는 오디오 콘텐츠를 재생하는 것을 포함한다.
추가적인 실시예들에 따르면, 스텝(1306)에서 응답을 제공하는 것은, 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생하는 것; 디지털 개인용 어시스턴트의 사용자 인터페이스 내에, 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 디스플레이하는 것; 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 대중문화 언급을 환기시키는 디지털 개인용 어시스턴트의 시각적 표현을 디스플레이하는 것; 및 발언과 연관된 또는 대중문화 언급과 연관된 콘텐츠와 같은 콘텐츠에 액세스하기 위해 사용자에 의해 활성화될 수 있는 링크를 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하는 것 중에서 하나 이상을 포함한다.
IV. 예시적인 모바일 장치 구현(Example Mobile Device Implementation)
도 14는 도 1을 참조로 상술한 바와 같이, 최종 사용자 컴퓨팅 장치(102)를 구현하는데 사용될 수 있는 예시적인 모바일 장치(1402)의 블록도이다. 도 14에 도시된 바와 같이, 모바일 장치(1402)는 다양한 선택적인 하드웨어 및 소프트웨어 컴포넌트를 포함한다. 모바일 장치(1402) 내의 임의의 컴포넌트는 임의의 다른 컴포넌트와 통신할 수 있지만, 설명의 편의상 모든 접속을 도시하고 있지는 않다. 모바일 장치(1402)는 다양한 컴퓨팅 장치(예컨대, 휴대폰, 스마트폰, 핸드헬드 컴퓨터, PDA(Personal Digital Assistant) 등) 중 어느 하나일 수 있으며, 셀룰러 또는 위성 네트워크와 같은 하나 이상의 모바일 통신 네트워크(1404)와의, 또는 로컬 에이리어 네트워크 또는 와이드 에이리어 네트워크와의 무선 쌍방향 통신을 허용할 수 있다.
도시된 모바일 장치(1402)는 신호 코딩, 데이터 처리, 입력/출력 처리, 전력 제어, 및/또는 그 밖의 기능들과 같은 태스크를 수행하는 컨트롤러 또는 프로세서(1410)(예컨대, 싱글 프로세서, 마이크로프로세서, ASIC, 또는 그 밖의 제어 및 처리 로직 회로)를 포함할 수 있다. 운영 체제(1412)는 모바일 장치(1402)의 컴포넌트들의 할당 및 이용을 제어하는 한편, 하나 이상의 애플리케이션 프로그램(1414)("애플리케이션" 또는 "앱"이라고도 함)을 지원할 수 있다. 애플리케이션 프로그램(1414)은 일반적인 모바일 컴퓨팅 애플리케이션(예컨대, 이메일 애플리케이션, 캘린더, 연락처 매니저, 웹 브라우저, 메시징 애플리케이션) 및 임의의 다른 컴퓨팅 애플리케이션(예컨대, 워드 프로세싱 애플리케이션, 맵핑 애플리케이션, 미디어 플레이어 애플리케이션)을 포함할 수 있다. 일 실시예에 있어서, 애플리케이션 프로그램(1414)은 디지털 개인용 어시스턴트(130)를 포함한다.
도시된 모바일 장치(1402)는 메모리(1420)를 포함할 수 있다. 메모리(1420)는 비-착탈식 메모리(1422) 및/또는 착탈식 메모리(1424)를 포함할 수 있다. 비-착탈식 메모리(1422)는 RAM, ROM, 플래시 메모리, 하드 디스크, 또는 그 밖의 잘 알려져 있는 메모리 장치 또는 기술을 포함할 수 있다. 착탈식 메모리(1424)는 플래시 메모리 또는 GSM 통신 시스템에서 잘 알려져 있는 SIM(Subscriber Identity Module) 카드를 포함하거나, 또는 그 밖의 잘 알려져 있는 "스마트 카드(smart cards)"와 같은 메모리 장치 또는 기술을 포함할 수 있다. 메모리(1420)는 운영 체제(1412) 및 애플리케이션(1414)을 기동하기 위한 데이터 및/또는 코드를 저장하는데 사용될 수 있다. 예시적인 데이터는, 하나 이상의 유선 또는 무선 네트워크를 통해 하나 이상의 네트워크 서버 또는 다른 장치에 대하여 송신 및/또는 수신되는 웹 페이지, 텍스트, 이미지, 사운드 파일, 비디오 데이터, 또는 그 밖의 데이터를 포함할 수 있다. 메모리(1420)는 IMSI(International Mobile Subscriber Identity)와 같은 가입자 식별자(subscriber identifier), 및 IMEI(International Mobile Equipment Identifier)와 같은 장비 식별자(equipment identifier)를 저장하는데 사용될 수 있다. 상기와 같은 식별자들은 사용자 및 장비를 식별하기 위해 네트워크 서버에 전송될 수 있다.
모바일 장치(1402)는 터치 스크린(1432), 마이크(1434), 카메라(1436), 물리 키보드(1438) 및/또는 트랙볼(1440)과 같은 하나 이상의 입력 장치(1430)와 스피커(1452) 및 디스플레이(1454)와 같은 하나 이상의 출력 장치(1450)를 지원할 수 있다. 터치 스크린(1432)과 같은 터치 스크린은 다양한 방식으로 입력을 검출할 수 있다. 예컨대, 정전식 터치 스크린은 객체(예컨대, 손가락 끝)가 표면을 횡단하고 있는 전류를 왜곡시키거나 차단할 때 터치 입력을 검출한다. 다른 예로서, 터치 스크린은 광 센서를 이용해서, 광 센서로부터의 빔이 차단될 때 터치 입력을 검출할 수 있다. 몇몇 터치 스크린에 의해 검출되는 입력에 대해서는, 스크린의 표면과의 물리적 접촉이 필수적인 것은 아니다.
그 밖의 가능한 출력 장치(도시되지 않음)로서는, 압전식의 또는 그 밖의 햅틱 출력 장치가 포함될 수 있다. 몇몇 장치는 하나 이상의 입력/출력 기능을 할 수 있다. 예컨대, 터치 스크린(1432)과 디스플레이(1454)가 단일의 입력/출력 장치에 결합될 수 있다. 입력 장치(1430)는 NUI(Natural User Interface)를 포함할 수 있다.
무선 모뎀(들)(1460)이 안테나(들)(도시되지 않음)에 연결될 수 있으며, 본 기술분야에서 잘 이해되고 있는 바와 같이, 프로세서(1410)와 외부 장치들간의 쌍방향 통신을 지원할 수 있다. 모뎀(들)(1460)은 포괄적으로 도시되어 있으며, 모바일 통신 네트워크(1404)와의 통신을 위한 셀룰러 모뎀(1466) 및/또는 그 밖의 무선-기반 모뎀들(예컨대, 블루투스(1464) 및/또는 와이파이(1462))을 포함할 수 있다. 적어도 하나의 무선 모뎀(들)(1460)은, 셀룰러 네트워크들 사이에서, 또는 모바일 장치와 PSTN(public switched telephone network) 사이에서, 단일 셀룰러 네트워크 내에서의 데이터 및 음성 통신을 위해 GSM 네트워크와 같은 하나 이상의 셀룰러 네트워크와 통신하도록 구성되는 것이 보통이다.
모바일 장치(1402)는 적어도 하나의 입력/출력 포트(1480), 전원 장치(1482), GPS(Global Positioning System) 수신기와 같은 위성 내비게이션 시스템 수신기(1484), 가속도계(1486), 및/또는 USB 포트, IEEE 1394(파이어와이어) 포트, 및/또는 RS-232 포트일 수 있는 물리 커넥터(1490)를 추가로 포함할 수 있다. 본 기술분야의 당업자에게 인지되는 바와 같이, 임의의 컴포넌트가 배제될 수 있으며 다른 컴포넌트가 추가될 수 있기 때문에, 모바일 장치(1402)의 도시된 컴포넌트들은 필수적이거나 또는 총 망라된 것은 아니다.
실시예에 있어서, 모바일 장치(1402)의 특정 컴포넌트들은 앞부분에서 기술한 대로 디지털 개인용 어시스턴트(130)에 귀속되는 작업들을 수행하도록 구성된다. 상술한 바와 같이, 디지털 개인용 어시스턴트(130)에 귀속되는 작업들을 수행하는 컴퓨터 프로그램 로직은 메모리(1420)에 저장되고 프로세서(1410)에 의해 실행될 수 있다. 상기와 같은 컴퓨터 프로그램 로직을 실행함으로써, 프로세서(1410)는 도 1을 참조로 상술한 바와 같이, 디지털 개인용 어시스턴트(130)의 특징들 중 어느 하나를 구현하게 될 수 있다. 또한, 상기와 같은 컴퓨터 프로그램 로직을 실행함으로써, 프로세서(1410)는 도 12 및 도 13에서 묘사된 흐름도들 중 어느 하나 또는 전부의 스텝들 중 어느 하나 또는 전부를 수행하게 될 수 있다.
V. 예시적인 컴퓨터 시스템 구현(Example Computer System Implementation)
도 15는 본 명세서에 기술된 다양한 실시예들을 구현하는데 사용될 수 있는 예시적인 프로세서-기반 컴퓨터 시스템(1500)을 묘사한다. 예컨대, 시스템(1500)은 도 1을 참조로 상술된 바와 같이, 디지털 개인용 어시스턴트 후단부(106)를 구현하는데 사용된 최종 사용자 컴퓨팅 장치(102) 또는 임의의 컴퓨터를 구현하는데 사용될 수 있다. 시스템(1500)은 또한, 도 11 내지 도 13에 묘사된 흐름도들 중 어느 하나 또는 전부의 스텝들 중 어느 하나 또는 전부를 구현하는데 사용될 수 있다. 본 명세서에 제공된 시스템(1500)의 기재는 설명을 목적으로 제공된 것이지, 한정하려는 것이 아니다. 실시예들은, 관련 기술분야의 당업자에게 잘 알려져 있는 바와 같이, 추가적인 유형의 컴퓨터 시스템으로 구현될 수 있다.
도 15에 도시된 바와 같이, 시스템(1500)은 프로세싱 유닛(1502)과, 시스템 메모리(1504)와, 그리고 시스템 메모리(1504) 및 프로세싱 유닛(1502)을 포함하는 다양한 시스템 컴포넌트들을 연결하는 버스(1506)를 포함한다. 프로세싱 유닛(1502)은 하나 이상의 마이크로프로세서 또는 마이크로프로세서 코어를 포함할 수 있다. 버스(1506)는 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스, 가속화 그래픽 포트(accelerated graphics port), 및 프로세서를 포함하는 임의의 몇 가지 유형 중 하나 이상의 버스 구조체, 또는 다양한 버스 아키텍처들 중 어느 하나를 이용하는 로컬 버스를 나타낸다. 시스템 메모리(1504)는 리드 온리 메모리(ROM)(1508) 및 랜덤 액세스 메모리(RAM)(1510)를 포함한다. 기본 입력/출력 시스템(1512)(BIOS)은 ROM(1508)에 저장된다.
시스템(1500)은 또한, 하기의 드라이브들, 즉 하드 디스크에 대하여 판독 및 기입하기 위한 하드 디스크 드라이브(1514), 착탈식 자기 디스크(1518)에 대하여 판독 및 기입하기 위한 자기 디스크 드라이브(1516), 및 CD ROM, DVD ROM, BLU-RAY™ 디스크 또는 그 밖의 광학 매체와 같은 착탈식 광 디스크(1522)에 대하여 판독 및 기입하기 위한 광 디스크 드라이브 중 하나 이상을 구비한다. 하드 디스크 드라이브(1514), 자기 디스크 드라이브(1516), 및 광 디스크 드라이브(1520)는 제각기 하드 디스크 드라이브 인터페이스(1524), 자기 디스크 드라이브 인터페이스(1526), 및 광 드라이브 인터페이스(1528)에 의해 버스(1506)에 접속된다. 드라이브들 및 그것들과 연관된 컴퓨터 판독가능 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 그 밖의 컴퓨터용 데이터에 대한 비휘발성 스토리지를 제공한다. 하드 디스크, 착탈식 자기 디스크 및 착탈식 광 디스크가 기술되어 있지만, 플래시 메모리 카드, 디지털 비디오 디스크, 랜덤 액세스 메모리(RAMs), 리드 온리 메모리(ROM) 등과 같은 다른 유형의 컴퓨터 판독가능 메모리 장치 및 스토리지 구조체가 데이터를 저장하는데 사용될 수 있다.
하드 디스크, 자기 디스크, 광 디스크, ROM 또는 RAM에는 다수의 프로그램 모듈이 저장될 수 있다. 이들 프로그램 모듈은 운영 체제(1530), 하나 이상의 애플리케이션 프로그램(1532), 다른 프로그램 모듈(1534), 및 프로그램 데이터(1536)를 포함한다. 다양한 실시예들에 따르면, 프로그램 모듈들은 도 1을 참조로 상술한 바와 같이, 디지털 개인용 어시스턴트 후단부(106)를 구현하는데 사용된 최종 사용자 컴퓨팅 장치(102) 또는 임의의 컴퓨터의 기능들 및 특징들 중 어느 하나 또는 전부를 수행하기 위해 프로세싱 유닛(1502)에 의해 실행 가능한 컴퓨터 프로그램 로직을 포함할 수 있다. 프로그램 모듈들은 또한, 프로세싱 유닛(1502)에 의해 실행될 때, 도 11 내지 도 13의 흐름도들을 참조로 도시 또는 기술된 스텝들 또는 작업들 중 어느 하나를 수행하는 컴퓨터 프로그램 로직을 포함할 수 있다.
사용자는 커맨드 및 정보를 키보드(1538) 및 포인팅 디바이스(1540)와 같은 입력 장치를 통해 시스템(1500)에 입력할 수 있다. 다른 입력 장치(도시되지 않음)로서는, 마이크, 조이스틱, 게임 컨트롤러, 스캐너 등이 포함될 수 있다. 일 실시예에 있어서, 터치 스크린은 터치 스크린 상의 하나 이상의 지점에 대한 터치의 적용(예컨대, 손가락 또는 스타일러스에 의해)을 통해 사용자가 사용자 입력을 제공하는 것을 허용하기 위해 디스플레이(1544)와 함께 제공된다. 이들 및 다른 입력 장치는 버스(1506)에 연결되는 직렬 포트 인터페이스(1542)를 통해 프로세싱 유닛(1502)에 접속되는 것이 보편적지만, 병렬 포트, 게임 포트, 또는 USB(universal serial bus)와 같은 다른 인터페이스들에 의해 접속될 수 있다. 상기와 같은 인터페이스들은 유선 또는 무선 인터페이스일 수 있다.
디스플레이(1544)는 또한, 비디오 어댑터(1546)와 같은 인터페이스를 통해 버스(1506)에 접속된다. 디스플레이(1544) 외에도, 시스템(1500)은 스피커 및 프린터와 같은 다른 주변 출력 장치(도시되지 않음)를 포함할 수 있다.
시스템(1500)은 네트워크 인터페이스 또는 어댑터(1550), 모뎀(1552), 또는 네트워크를 통한 통신을 확립하기 위한 다른 적절한 수단을 통해 네트워크(1548)(예컨대, 인터넷과 같은 로컬 에이리어 네트워크 또는 와이드 에이리어 네트워크)에 접속된다. 내부 또는 외부 기기일 수 있는 모뎀(1552)은 직렬 포트 인터페이스(1542)를 통해 버스(1506)에 접속된다.
본 명세서에서 사용되는, "컴퓨터 프로그램 매체", "컴퓨터 판독가능 매체", 및 "컴퓨터 판독가능 저장 매체"라는 용어는, 일반적으로 하드 디스크 드라이브와 연계된 하드 디스크(1514), 착탈식 자기 디스크(1518), 착탈식 광 디스크(1522)와 같은 메모리 장치 또는 저장 구조체뿐만 아니라 플래시 메모리 카드, 디지털 비디오 디스크, 랜덤 액세스 메모리(RAMs), 리드 온리 메모리(ROM) 등과 같은 다른 메모리 장치 또는 저장 구조체를 의미하는데 사용된다. 상기와 같은 컴퓨터 판독가능 저장 매체는 통신 매체와는 구별되며 비중첩된다(즉, 통신 매체를 포함하지 않음). 통신 매체는 통상적으로, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 그 밖의 데이터를 반송파와 같은 변조 데이터 신호로 구체화한다. "변조 데이터 신호"라는 용어는 하나 이상의 그 특성 세트를 갖거나 또는 정보를 신호로 부호화하는 바와 같은 방식으로 변경되는 신호를 의미한다. 한정이 아닌 예시로서, 통신 매체는 음향, RF, 적외선 및 그 밖의 무선 매체와 같은 무선 매체를 포함한다. 실시예들은 상기와 같은 통신 매체에도 관련된다.
앞서 주지한 바와 같이, 컴퓨터 프로그램 및 모듈(애플리케이션 프로그램(1532) 및 다른 프로그램 모듈(1534)을 포함)은 하드 디스크, 자기 디스크, 광 디스크, ROM, 또는 RAM에 저장될 수 있다. 상기와 같은 컴퓨터 프로그램은 네트워크 인터페이스(1550), 직렬 포트 인터페이스(1542), 또는 임의의 다른 유형의 인터페이스를 통해 수신될 수도 있다. 상기와 같은 컴퓨터 프로그램은, 애플리케이션에 의해 실행 또는 로딩될 때, 컴퓨터(1500)가 본 명세서에서 논의된 본 발명의 실시예들의 특징들을 구현하게 할 수 있다. 결국, 상기와 같은 컴퓨터 프로그램은 시스템(1500)의 컨트롤러를 나타낸다.
실시예들은 임의의 컴퓨터 이용가능 매체에 저장된 소프트웨어를 포함하는 컴퓨터 프로그램 제품에도 관련된다. 상기와 같은 소프트웨어는, 하나 이상의 데이터 처리 장치에서 실행될 때, 데이터 처리 장치(들)를 본 명세서에 기재된 바와 같이 작동시킨다. 본 발명의 실시예들은 현재 알려져 있거나 또는 장차 알려질 임의의 컴퓨터 이용가능 매체 또는 컴퓨터 판독가능 매체를 채용한다. 컴퓨터 판독가능 매체로서는, RAM, 하드 드라이브, 플로피 디스크, CD ROMs, DVD ROMs, 집(zip) 디스크, 테이프, 자기 저장 장치, 광 저장 장치, MEMs, 나노기술 기반의 저장 장치 등과 같은 메모리 장치 및 저장 구조체를 예로서 포함하지만, 이들에 한정되는 것은 아니다.
대안적인 구현예에 있어서, 시스템(1500)은 하드웨어 로직/전기 회로 또는 펌웨어로서 구현될 수 있다. 추가적인 실시예들에 따르면, 이들 컴포넌트들의 하나 이상은 시스템-온-칩(SoC)으로 구현될 수 있다. SoC는 프로세서(예컨대, 마이크로컨트롤러, 마이크로프로세서, 디지털 신호 프로세서(DSP) 등), 메모리, 하나 이상의 통신 인터페이스, 및/또는 추가적인 회로를 하나 이상 포함하는 집적 회로 칩, 및/또는 그 기능들을 수행하기 위한 내장 펌웨어를 포함할 수 있다.
VI. 결론(Conclusion)
앞서 다양한 실시예들이 기술되었지만, 이들은 한정이 아닌 예시로서만 제시되었다는 점을 이해해야 한다. 본 발명의 정신 및 범위로부터 일탈함이 없이 형태 및 상세에 있어서 다양한 변경이 가능하다는 점은 관련 기술분야의 당업자에게는 자명할 것이다. 따라서, 본 발명의 폭 및 범위는 상술한 예시적인 실시예들 중 어느 하나에 의해 한정되는 것이 아니라, 하기의 청구항들 및 그 등가물들에 따라서만 규정되어야 한다.

Claims (10)

  1. 디지털 개인용 어시스턴트(digital personal assistant)를 구현하는 방법으로서,
    상기 디지털 개인용 어시스턴트의 사용자의 발언(utterance)의 디지털 표현을 수신하는 단계;
    적어도 상기 발언의 디지털 표현의 분석에 기초하여, 상기 발언이 상기 디지털 개인용 어시스턴트의 페르소나(persona)와 관계되도록 의도된 발언을 포함하는지 판정하는 단계; 및
    적어도 상기 발언이 상기 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함한다는 판정에 응답하여, 상기 디지털 개인용 어시스턴트에 의해 상기 발언에 대한 응답이 생성되게 하는 단계를 포함하고,
    상기 발언에 대한 응답은:
    상기 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이되거나 또는 상기 사용자 인터페이스에 의해 재생되는, 대중문화 언급(popular culture reference)과 연관되는 멀티미디어 객체(multimedia object); 및
    상기 디지털 개인용 어시스턴트에 의해 생성 또는 재생되는, 상기 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성(speech)
    중 적어도 하나를 포함하는
    방법.
  2. 제 1 항에 있어서,
    상기 발언에 대한 응답은, 상기 디지털 개인용 어시스턴트의 상기 사용자 인터페이스 내에 디스플레이되는, 상기 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 추가로 포함하는
    방법.
  3. 제 1 항에 있어서,
    상기 발언에 대한 응답은, 상기 디지털 개인용 어시스턴트의 상기 사용자 인터페이스 내에 디스플레이되며 상기 대중문화 언급을 환기시키는, 상기 디지털 개인용 어시스턴트의 시각적 표현을 추가로 포함하는
    방법.
  4. 제 1 항에 있어서,
    상기 멀티미디어 객체는,
    상기 디지털 개인용 어시스턴트의 상기 사용자 인터페이스 내에 디스플레이되는 이미지 또는 비디오 콘텐츠, 또는 상기 디지털 개인용 어시스턴트의 사용자 인터페이스에 의해 재생되는 오디오 콘텐츠를 포함하는
    방법.
  5. 제 1 항에 있어서,
    상기 발언에 대한 응답은, 상기 디지털 개인용 어시스턴트의 상기 사용자 인터페이스 내에 디스플레이되며 상기 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 상기 사용자에 의해 활성화될 수 있는 링크를 추가로 포함하는
    방법.
  6. 제 1 항에 있어서,
    상기 발언에 대한 응답이 생성되게 하는 단계는:
    상기 발언을 발언 유형들로 이루어진 계층적 트리(hierarchical tree) 내의 특정 발언 유형에 매칭시키는 단계 - 상기 발언 유형들로 이루어진 계층적 트리 내의 각각의 발언 유형은 상기 발언과 연관된 하나 이상의 응답을 가짐 - ; 및
    상기 특정 발언 유형과 연관된 상기 응답 중에서 상기 발언에 대한 응답을 선택하는 단계를 포함하는
    방법.
  7. 제 1 항에 있어서,
    상기 발언에 대한 응답이 생성되게 하는 단계는:
    상기 발언이 경향 토픽(trending topic)과 연관되는지 판정하는 단계; 및
    상기 발언이 경향 토픽과 연관된다는 판정에 응답하여, 상기 경향 토픽과 연관된 하나 이상의 응답 중에서 상기 발언에 대한 응답을 선택하는 단계를 포함하는
    방법.
  8. 제 1 항에 있어서,
    상기 발언에 대한 응답이 생성되게 하는 단계는:
    상기 발언이 상기 디지털 개인용 어시스턴트의 페르소나를 전달하도록 의도된 하나 이상의 미리 정해진 응답이 존재하는 발언인지 판정하는 단계; 및
    상기 발언이 상기 디지털 개인용 어시스턴트의 페르소나를 전달하도록 의도된 하나 이상의 미리 정해진 응답이 존재하는 발언이라는 판정에 응답하여, 상기 하나 이상의 미리 정해진 응답 중에서 상기 발언에 대한 응답을 선택하는 단계를 포함하는
    방법.
  9. 컴퓨팅 장치로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 의해 실행되는 컴퓨터 프로그램 로직을 저장하는 메모리를 포함하고,
    상기 컴퓨터 프로그램 로직은 상기 적어도 하나의 프로세서에 의해 실행될 때 동작을 수행하도록 구성된 하나 이상의 컴포넌트를 포함하며,
    상기 하나 이상의 컴포넌트는:
    사용자의 발언을 나타내는 오디오를 캡처하고 상기 오디오를 디지털 개인용 어시스턴트 후단부(digital personal assistant backend)에 전송하도록 구성되는 디지털 개인용 어시스턴트― 상기 발언은 상기 디지털 개인용 어시스턴트의 페르소나와 관계되도록 의도된 발언을 포함함 ―를 포함하고;
    상기 디지털 개인용 어시스턴트는 적어도 상기 디지털 개인용 어시스턴트 후단부로부터 수신한 정보에 기초하여 상기 발언에 대한 응답을 제공하도록 추가로 구성되고,
    상기 응답을 제공하는 것은 상기 디지털 개인용 어시스턴트의 사용자 인터페이스에 의해 대중문화 언급과 연관된 멀티미디어 객체를 디스플레이 또는 재생하는 것을 포함하는
    컴퓨팅 장치.
  10. 제 9 항에 있어서,
    상기 응답을 제공하는 것은:
    상기 대중문화 언급과 연관된 인물의 음성의 흉내를 포함하는 음성을 생성 또는 재생하는 것;
    상기 디지털 개인용 어시스턴트의 상기 사용자 인터페이스 내에, 상기 대중문화 언급과 연관된 인용구를 포함하는 텍스트를 디스플레이하는 것;
    상기 디지털 개인용 어시스턴트의 사용자 인터페이스 내에, 상기 대중문화 언급을 환기시키는 상기 디지털 개인용 어시스턴트의 시각적 표현을 디스플레이하는 것; 및
    상기 대중문화 언급과 연관된 콘텐츠에 액세스하기 위해 상기 사용자에 의해 활성화될 수 있는 링크를 상기 디지털 개인용 어시스턴트의 사용자 인터페이스 내에 디스플레이하는 것
    중 적어도 하나를 추가로 포함하는
    컴퓨팅 장치.
KR1020167019069A 2014-01-15 2015-01-09 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 KR102295935B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/156,009 2014-01-15
US14/156,009 US9514748B2 (en) 2014-01-15 2014-01-15 Digital personal assistant interaction with impersonations and rich multimedia in responses
PCT/US2015/010711 WO2015108758A1 (en) 2014-01-15 2015-01-09 Digital personal assistant interaction with impersonations and rich multimedia in responses

Publications (2)

Publication Number Publication Date
KR20160108348A true KR20160108348A (ko) 2016-09-19
KR102295935B1 KR102295935B1 (ko) 2021-08-30

Family

ID=52440848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167019069A KR102295935B1 (ko) 2014-01-15 2015-01-09 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법

Country Status (17)

Country Link
US (1) US9514748B2 (ko)
EP (1) EP3095113B1 (ko)
JP (1) JP6505117B2 (ko)
KR (1) KR102295935B1 (ko)
CN (1) CN105917404B (ko)
AU (1) AU2015206736B2 (ko)
BR (1) BR112016015519B1 (ko)
CA (1) CA2935469C (ko)
CL (1) CL2016001788A1 (ko)
HK (1) HK1223728A1 (ko)
IL (1) IL246237B (ko)
MX (1) MX360118B (ko)
MY (1) MY180332A (ko)
PH (1) PH12016501223B1 (ko)
RU (1) RU2682023C1 (ko)
SG (1) SG11201605642VA (ko)
WO (1) WO2015108758A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200033189A (ko) * 2018-09-19 2020-03-27 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
US11302319B2 (en) 2018-10-05 2022-04-12 Samsung Electronics Co., Ltd. Electronic apparatus and assistant service providing method thereof
US11848012B2 (en) 2018-09-19 2023-12-19 Samsung Electronics Co., Ltd. System and method for providing voice assistant service

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9634855B2 (en) * 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US8769624B2 (en) 2011-09-29 2014-07-01 Apple Inc. Access control utilizing indirect authentication
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014143776A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Providing remote interactions with host device using a wireless device
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR102193559B1 (ko) * 2014-02-18 2020-12-22 삼성전자주식회사 대화형 서버 및 이의 제어 방법
USD801993S1 (en) * 2014-03-14 2017-11-07 Microsoft Corporation Display screen with animated graphical user interface
US20150350146A1 (en) 2014-05-29 2015-12-03 Apple Inc. Coordination of message alert presentations across devices based on device modes
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US11256294B2 (en) 2014-05-30 2022-02-22 Apple Inc. Continuity of applications across devices
US9967401B2 (en) 2014-05-30 2018-05-08 Apple Inc. User interface for phone call routing among devices
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10339293B2 (en) 2014-08-15 2019-07-02 Apple Inc. Authenticated device used to unlock another device
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9959866B2 (en) * 2015-04-02 2018-05-01 Panasonic Intellectual Property Management Co., Ltd. Computer-implemented method for generating a response sentence by using a weight value of node
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10417021B2 (en) * 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance
US10409550B2 (en) 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
US10291565B2 (en) * 2016-05-17 2019-05-14 Google Llc Incorporating selectable application links into conversations with personal assistant modules
US10263933B2 (en) 2016-05-17 2019-04-16 Google Llc Incorporating selectable application links into message exchange threads
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
US9990176B1 (en) * 2016-06-28 2018-06-05 Amazon Technologies, Inc. Latency reduction for content playback
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN108075959B (zh) * 2016-11-14 2021-03-12 腾讯科技(深圳)有限公司 一种会话消息处理方法和装置
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11650791B2 (en) * 2017-01-11 2023-05-16 Microsoft Technology Licensing, Llc Relative narration
US10574825B2 (en) * 2017-02-15 2020-02-25 Microsoft Technology Licensing, Llc Assisted-communication with intelligent personal assistant
US11341174B2 (en) * 2017-03-24 2022-05-24 Microsoft Technology Licensing, Llc Voice-based knowledge sharing application for chatbots
US10853717B2 (en) 2017-04-11 2020-12-01 Microsoft Technology Licensing, Llc Creating a conversational chat bot of a specific person
US11170768B2 (en) * 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20200357382A1 (en) * 2017-08-10 2020-11-12 Facet Labs, Llc Oral, facial and gesture communication devices and computing architecture for interacting with digital media content
US10636424B2 (en) * 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US20190172240A1 (en) * 2017-12-06 2019-06-06 Sony Interactive Entertainment Inc. Facial animation for social virtual reality (vr)
CN107993657A (zh) * 2017-12-08 2018-05-04 广东思派康电子科技有限公司 一种基于多个语音助手平台的切换方法
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
US11468885B2 (en) * 2018-02-15 2022-10-11 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
KR102515023B1 (ko) * 2018-02-23 2023-03-29 삼성전자주식회사 전자 장치 및 그 제어 방법
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10777203B1 (en) 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10984799B2 (en) 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN111919250B (zh) * 2018-03-26 2024-05-14 微软技术许可有限责任公司 传达非语言提示的智能助理设备
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
KR20190142192A (ko) 2018-06-15 2019-12-26 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11190465B2 (en) 2018-08-06 2021-11-30 Oracle International Corporation Displaying data sets responsive to natural language messages received by chatbots
CN110942518B (zh) * 2018-09-24 2024-03-29 苹果公司 上下文计算机生成现实(cgr)数字助理
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11657797B2 (en) * 2019-04-26 2023-05-23 Oracle International Corporation Routing for chatbots
US11133005B2 (en) 2019-04-29 2021-09-28 Rovi Guides, Inc. Systems and methods for disambiguating a voice search query
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11620103B2 (en) 2019-05-31 2023-04-04 Apple Inc. User interfaces for audio media control
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11477609B2 (en) 2019-06-01 2022-10-18 Apple Inc. User interfaces for location-related communications
US11481094B2 (en) 2019-06-01 2022-10-25 Apple Inc. User interfaces for location-related communications
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US11955137B2 (en) 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US11756574B2 (en) 2021-03-11 2023-09-12 Apple Inc. Multiple state digital assistant for continuous dialog
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130141240A (ko) * 2012-06-15 2013-12-26 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918222A (en) 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
NL1000679C2 (nl) * 1995-06-28 1996-12-31 Arie Van Wieringen Video Film Bewegingseditor/samensteleenheid.
US6144938A (en) 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6721706B1 (en) 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP2005070721A (ja) * 2003-08-27 2005-03-17 Akihiko Shigeta 音響出力機能付き化粧用品
JP2007525897A (ja) * 2004-02-17 2007-09-06 ボイス シグナル テクノロジーズ インコーポレイテッド マルチモーダル埋め込み型インタフェースの交換可能なカスタマイズ用の方法及び装置
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2006048218A (ja) * 2004-08-02 2006-02-16 Advanced Media Inc 音声動画応答方法および音声動画応答システム
JP4629560B2 (ja) 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8831977B2 (en) * 2007-09-26 2014-09-09 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for implementing personalized dissemination of information
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090210217A1 (en) 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
JP4547721B2 (ja) * 2008-05-21 2010-09-22 株式会社デンソー 自動車用情報提供システム
US8386929B2 (en) * 2010-06-22 2013-02-26 Microsoft Corporation Personal assistant for task utilization
US8640021B2 (en) 2010-11-12 2014-01-28 Microsoft Corporation Audience-based presentation and customization of content
SG184583A1 (en) * 2011-03-07 2012-10-30 Creative Tech Ltd A device for facilitating efficient learning and a processing method in association thereto
US20130061257A1 (en) * 2011-09-02 2013-03-07 Sony Corporation Verbally communicating facially responsive television apparatus
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
EP2839391A4 (en) 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
RU2654789C2 (ru) * 2014-05-30 2018-05-22 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130141240A (ko) * 2012-06-15 2013-12-26 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200033189A (ko) * 2018-09-19 2020-03-27 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
US11848012B2 (en) 2018-09-19 2023-12-19 Samsung Electronics Co., Ltd. System and method for providing voice assistant service
US11302319B2 (en) 2018-10-05 2022-04-12 Samsung Electronics Co., Ltd. Electronic apparatus and assistant service providing method thereof
US11817097B2 (en) 2018-10-05 2023-11-14 Samsung Electronics Co., Ltd. Electronic apparatus and assistant service providing method thereof

Also Published As

Publication number Publication date
US9514748B2 (en) 2016-12-06
JP6505117B2 (ja) 2019-04-24
US20150199967A1 (en) 2015-07-16
SG11201605642VA (en) 2016-08-30
CA2935469C (en) 2022-05-03
WO2015108758A1 (en) 2015-07-23
AU2015206736B2 (en) 2019-11-21
CN105917404A (zh) 2016-08-31
MY180332A (en) 2020-11-28
PH12016501223A1 (en) 2016-08-22
CL2016001788A1 (es) 2017-01-20
IL246237A0 (en) 2016-07-31
MX360118B (es) 2018-10-23
CN105917404B (zh) 2019-11-05
AU2015206736A1 (en) 2016-07-07
KR102295935B1 (ko) 2021-08-30
BR112016015519A2 (ko) 2017-08-08
EP3095113A1 (en) 2016-11-23
MX2016009130A (es) 2016-10-13
EP3095113B1 (en) 2022-06-15
BR112016015519A8 (pt) 2020-06-02
RU2682023C1 (ru) 2019-03-14
BR112016015519B1 (pt) 2023-01-17
HK1223728A1 (zh) 2017-08-04
CA2935469A1 (en) 2015-07-23
IL246237B (en) 2019-03-31
PH12016501223B1 (en) 2016-08-22
JP2017515134A (ja) 2017-06-08

Similar Documents

Publication Publication Date Title
KR102295935B1 (ko) 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법
KR102331049B1 (ko) 통신 개시를 위한 사용자 신호 레버리징
CN107430858B (zh) 传送标识当前说话者的元数据
US11928985B2 (en) Content pre-personalization using biometric data
US20200328990A1 (en) Intelligent Scheduler for Chatbot Sessions
US11936603B2 (en) Generating modified images for display
US20120185417A1 (en) Apparatus and method for generating activity history
WO2022260795A1 (en) Consequences generated from combining subsequent data
CN117529773A (zh) 用户自主个性化文本转语音的声音生成
US11057332B2 (en) Augmented expression sticker control and management
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
US10296723B2 (en) Managing companionship data
US12020683B2 (en) Real-time name mispronunciation detection
US20220207066A1 (en) System and method for self-generated entity-specific bot
CN110931014A (zh) 基于正则匹配规则的语音识别方法及装置
US20240112389A1 (en) Intentional virtual user expressiveness
CN111368099B (zh) 核心信息语义图谱生成方法及装置
WO2022190079A1 (en) Dynamic audio content generation
JP2022113066A (ja) 支援装置、支援方法及び支援プログラム
CN112309390A (zh) 信息交互方法和装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant