KR102097097B1

KR102097097B1 - 사용자-녹음 오디오의 생성 및 재생 촉진

Info

Publication number: KR102097097B1
Application number: KR1020197017813A
Authority: KR
Inventors: 비크람 아가르왈; 바너비 제임스
Original assignee: 구글 엘엘씨
Priority date: 2016-12-14
Filing date: 2017-09-29
Publication date: 2020-04-03
Also published as: EP3504704B1; GB201715653D0; EP3504704A1; JP6704525B2; DE102017122513A1; DE202017105901U1; US20180166074A1; WO2018111384A1; KR20190076061A; CN108228132A; GB2559643A; GB2559643B; DE102017122513B4; CN108228132B; US11238854B2; JP2020502571A

Abstract

음성-작동 제품에 의한 소비를 위해 이용 가능한 오디오 파일을 녹음, 구성 및 제작하는 것과 관련된 방법, 장치 및 컴퓨터 판독 가능 매체가 기술된다. 다양한 구현예에서, 제1 사용자가 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 입력을 제1 사용자로부터 수신하는 것에 응답하여, 오디오 컨텐츠가 캡처되고 저장될 수 있다. 오디오 컨텐츠에 대한 적어도 하나의 식별자를 나타내는 입력이 제1 사용자로부터 수신될 수 있다. 저장된 오디오 컨텐츠는 적어도 하나의 식별자와 연관될 수 있다. 음성 입력은 후속 사용자로부터 수신될 수 있다. 음성 입력이 특정 특성을 갖는다고 결정한 것에 응답하여, 음성 인식은 적어도 하나의 식별자의 인식을 대한 음성 입력에 대해 바이어싱될 수 있다. 바이어싱된 음성 인식에 기초하여, 음성 입력내의 적어도 하나의 식별자의 존재를 인식하는 것에 응답하여, 상기 저장된 오디오 컨텐츠가 재생될 수 있다.

Description

사용자-녹음 오디오의 생성 및 재생 촉진

자동화 어시스턴트("개인 어시스턴트", "모바일 어시스턴트" 또는 "챗봇"이라고도 함)는 스마트폰, 태블릿 컴퓨터, 웨어러블 디바이스, 자동차 등과 같은 다양한 컴퓨팅 디바이스를 통해 사용자와 상호 작용할 수 있다 시스템, 독립 실행형 개인 어시스턴트 등이 있다. 자동화 어시스턴트는 사용자로부터의 (예를 들어, 타이핑된 및/또는 발화된 자연어 입력)을 수신하고 응답형 컨텐츠(예를 들어, 시각 및/또는 가청 자연어 출력)로 응답한다.

스마트폰, 차량용 컴퓨팅 시스템, 웨어러블 디바이스 및 독립 실행형 음성-활성 스피커와 같은 음성-작동(voice-activated)(또는 "음성 지원") 제품이 더욱 유비쿼터스화되고 있다. 그러나, 오디오 북과 같은 이러한 디바이스에서 가청 컨텐츠의 가용성은 제한될 수 있고 및/또는 사용자가 그러한 컨텐츠에 대한 액세스 권한을 획득해야 하는 경우도 있다. 또한, 이러한 오디오 컨텐츠는 소비하는 사용자와 인적 관계가 없는 개인에 의해 녹음될 수 있다. 많은 사용자는 이미 예를 들어 기록 형식의 서적, 대본, 각본 등(얘를 들어, 아동용 책 등)뿐만 아니라 이야기, 노래, 연설과 같은 기록된 내러티브(narratives)에 액세스할 수 있다. 아동용 서적과 같은 어린이를 위한 기록 컨텐츠의 경우, 부모 또는 보호자가 육체적으로 항상 있지 않을 수 있고 및/또는 컨텐츠를 크게 읽기 어려울 수 있다. 음성 대화(spoken dialog)에 참여하는 다수의 캐릭터(등장 인물)를 포함하는 대본 및/또는 각본의 경우, 장면을 완전히 재현/연습하기에 충분한 사용자를 제시하는 것이 항상 가능하지 않을 수 있다.

음성-작동 제품에 의한 소비를 위해 이용 가능한 오디오 파일의 녹음, 구성 및 제작을 위한 기술이 본 명세서에 기술되어 있다.

다양한 구현예에서, 음성 작동 제품은 제1 사용자에 의해 제공된 오디오 컨텐츠의 캡처 및 저장을 유발함으로써 제1 사용자가 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 제1 사용자로부터의 입력을 수신하는 것에 응답할 수 있다. 오디오 컨텐츠는 예를 들어 아이의 이야기와 같은 내러티브를 포함할 수 있다. 제1 사용자는 오디오 컨텐츠에 부가하여 상기 오디오 컨텐츠에 대한 적어도 하나의 식별자를 나타내는 입력을 제공할 수 있다. 적어도 하나의 식별자의 제공에 응답하여, 저장된 오디오 컨텐츠는 적어도 하나의 식별자와 연관될 수 있다. 후속 시간에, 음성 동작 제품은 후속 사용자로부터 음성 입력을 수신할 수 있으며, 음성 입력의 특성이 분석될 수 있다. 음성 입력이 특정한 특성을 갖는다고 결정한 것에 응답하여, 음성 입력에 대해 수행된 음성 인식은 적어도 하나의 식별자의 인식을 향해 바이어싱될 수 있다. 마지막으로, 바이어싱된 음성 인식에 기초하여, 음성 입력내의 적어도 하나의 식별자의 존재를 인식함에 응답하여, 저장된 오디오 컨텐츠의 재생이 개시될 수 있다.

알 수 있는 바와 같이, 음성 활성 제품은 따라서 특히 후속 사용자가 통상적으로 음성 작동 제품과 상호 작용하는데 어려움을 가질 수 있는 상황에서, 상기 저장된 오디오 컨텐츠의 보다 효과적인 검색을 용이하게 할 수 있다. 이것은 예를 들어 후속 사용자의 음성(speech)이 그러한 디바이스의 평균 사용자의 음성보다 덜 분명할 때(예를 들어 후속 사용자가 어린 아이이거나 자신의 음성의 명료성에 영향을 미치는 장애가 있는 경우) 발생할 수 있다. 일부 예에서, 식별자는 후속 사용자에게 친숙한 오디오 컨텐츠에 대한 별칭 또는 별명일 수 있으며, 따라서 오디오 컨텐츠의 검색을 더 용이하게 할 수 있다. 또한, 일부 구현예에서, 음성 입력의 비-인식(non-recognition)을 야기하는 바이어싱된 음성 인식에 응답하여, 선택 가능한 옵션이 사용자에게 제공될 수 있으며, 이 선택은 상기 저장된 오디오 컨텐츠의 재생을 유발한다.

일부 구현예에서, 부모와 같은 사용자는 사용자가 이야기 책, 노래, 연극, 연설 등을 하나 이상의 청취자에게 소리내어 읽어주는 것(단, 녹음중에 청취자가 있을 필요는 없음)과 같은 내러티브의 오디오 렌디션을 녹음하고자 하는 음성-작동 제품(예를 들어, 사용자의 디바이스 "생태계"에 있는 하나 이상의 디바이스), 보다 구체적으로는 음성-작동 제품상에서 실행되는 음성-작동 어시스턴트 소프트웨어("자동화 어시스턴트)을 지시할 수 있다. 일부 구현예에서 자동화 어시스턴트는 (녹음 전후에) 사용자로부터 서지 정보를 요청할 수있다. 요청된 서지 정보는 예를 들어 책의 제목 및/또는 저자, 발행자, ISBN(International Standard Book Number), 책의 별칭(예컨대, 청취자가 공식 제목과 다른 단어나 문구가 포함된 책을 참조하는 경향이 있는 경우)등을 포함할 수 있다. 자동화 어시스턴트는 내러티브의 가청 렌디션을 제공하는 사용자를 녹음하는 녹음 상태(사용자로부터 서지 정보를 수신하기 전 또는 후에)로 진입할 수 있다.

일단 사용자가 내러티브의 녹음을 완료하면, 사용자는 자동화 어시스턴트에게 녹음을 중단하도록 지시할 수 있거나, 녹음은 사용자가 말하는 것 없이 사전 결정된 시간 간격과 같은 다른 이벤트, 내러티브의 끝을 의미하는 단어 또는 문구의 인식에 응답하여 중단될 수 있다. 일부 구현예에서, 자동화 어시스턴트는 그 길이와 같은 상기 녹음된 오디오 파일에 관한 다양한 정보로 사용자에게 (예를 들어, 청각적으로, 시각적으로) 프롬프트할 수 있다. 일부 구현예에서, 자동화 어시스턴트는 사용자의 승인을 위해 상기 오디오 녹음을 재생할 것을 제안할 수 있다. 사용자가 승인을 제공한다고 가정하면(또는 승인이 요청되지 않는 경우), 자동화 어시스턴트는 상기 녹음된 오디오 파일을 컴퓨터 메모리, 예를 들어 로컬 또는 소위 "클라우드" 인프라 구조를 형성하는 하나 이상의 컴퓨터 서버에 저장할 수있다.

다양한 구현예에서, 오디오 녹음은 사용자에 의해 제공된 서지 정보와 관련되어(예를 들어, 색인되어) 저장될 수 있다. 일부 구현예에서, 자동화 어시스턴트는 서지 데이터베이스에서, 오디오 녹음/서지 정보를 기존 기록 저작물과 매칭시킬 수 있다(또는 하나 이상의 원격 서버로 검색 쿼리를 제공하여 매칭시킬 수 있음). 발행자, 발행 년도, 표지(cover art), 사운드 효과 등과 같은 기존의 기록 저작물과 관련된 추가 정보는 음성-작동 제품의 디스플레이 스크린 또는 사용자 생태계의 다른 디바이스상의 표지(또는 다른 삽화)의 시각적 렌디션과 같은 다양한 목적을 위해 이용 가능할 수 있다. 다양한 구현예에서, 오디오 파일은 이 추가 정보의 하나 이상의 부분을 사용하여 컴퓨터 메모리에서 더 색인될 수 있다.

일단 오디오 파일이 (음성-작동 제품 및/또는 클라우드상에 국부적으로) 저장되고 색인되면, 사용자 및/또는 다른 개인은 오디오 녹음의 재생을 요청할 수 있다. 다양한 구현예에서, 개인은 녹음(하는) 사용자에 의해 제공된 서지 정보와 같은 하나 이상의 색인된 정보 부분(pieces) 또는 서지 데이터베이스내의 기존 기록 저작물과 관련될 수 있는 전술한 추가 정보를 사용하여 복수의 녹음된 오디오 파일을 검색할 수 있다. 예를 들어, 아이는 책의 공식 제목이나 다른 정보(예를 들어, 저자) 및/또는 아이가 책에 대해 갖고 있는 별명(단어 또는 문구)을 사용하여 어른이 이전에 녹음한 특정 책의 재생을 요청할 수 있다. 일부 구현예에서, 녹음된 오디오 파일들은 녹음 사용자의 신원(예를 들어, "엄마", "아빠", "삼촌 조프"등)에 의해 색인될 수 있어서, 청취자는 녹음 사용자에 의한 오디오 파일을 검색 할 수 있다(예를 들어, 아이가 엄마를 그리워하는 경우, 아이는 "엄마"가 읽은 책을 검색하거나 단순히 "엄마가 그리워"와 같은 문장을 말할 수 있다. 후자의 경우, 음성-작동 어시스턴트는 엄마에 의해 제작된 녹음용 오디오 파일을 검색하고, 아이가 재생을 위해 엄마에 의해 녹음된 오디오 파일을 선택할 수있게 하는 양방향(interactive) 대화(예를 들어, 음성 인식, 표지를 시각적으로 사용하는 것 등)를 제공할 수 있다.

일부 구현예에서, 자동화 어시스턴트는 예를 들어 내러티브 내의 특정 시점에서 및/또는 특정 단어 또는 어구에 응답하여 내러티브의 사용자의 가청 렌디션의 오디오 파일에 사운드 효과를 통합할 수 있다. 예를 들어, 일부 구현예에서, 녹음 사용자는 사운드 효과를 위해 웹을 검색하거나, 사운드 효과에 대한 내러티브의 서지 정보를 포함하는 하나 이상의 데이터베이스를 검색할 수 있다. 녹음 사용자는 예를 들어, 녹음 중에 또는 나중에 다양한 사용자 인터페이스를 사용하여, 이러한 음향 효과를 오디오 파일에 통합할 수 있다. 일부 구현예에서, 사용자는 녹음 이전 또는 기중 도중에 사운드 효과를 선택할 수 있고, 그런 다음 특정 단어 또는 어구의 검출에 응답하여 자동화 어시스턴트가 사운드 효과를 오디오 파일에 통합하도록 하는 커맨드를 내릴 수 있다. 예를 들어, "맥도날드 할아버지의 농장(Old MacDonald 's Farm)"과 같은 가청 렌디션을 녹음한 사용자는 (예를 들어, 사전 녹음된) 많은 동물 소리(noises)를 선택할 수 있으며, 특정 단어(예를 들어, <"소", "음메">, <"오리", "꽥">등)의 발언에 응답하여 특정 동물 사운드 효과가 오디오 파일에 통합되어야 한다는 것을 녹음 초기에 자동화 어시스턴트에게 지시할 수 있다.

일부 구현예에서, 자동화 어시스턴트는 하나 이상의 음성 커맨드를 내는 사용자가 오디오 파일을 녹음한 사용자와 다른지를 결정하기 위해 음성 분석(예를 들어, 음성 인식, 화자 인식 등)을 수행하도록 구성될 수 있다. 이러한 구현예에서, 자동화 어시스턴트는 음성 분석에 기초하여 다른 사용자에 대해 맞춤화된 양방향 대화를 개시할 수 있다. 예를 들어, 양방향 대화는 다른 사용자를 녹음된 오디오 파일의 재생으로 제한할 수 있으며, 소위 "관리(admin)" 사용자(예를 들어, 자동화 어시스턴트와 관련되는 계정이 있는 사용자)로부터 수신된 커맨드에 응답하여 자동화 어시스턴트가 액세스할 수 있는 다른 무관한 리소스에 대한 액세스를 제한할 수 있다. 그러한 구현예에서, 다소 강력(robust)하거나, 제한된 어휘를 갖거나, 한정된 선택(예컨대, 이진)을 제공할 수 있는 다른 문법은 양방향 대화 동안 다른 사용자와 상호 작용하기 위해 자동화 어시스턴트에 의해 사용될 수 있다.

일부 구현예에서, 하나 이상의 프로세서에 의해 수행되는 방법은, 제1 사용자가 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 제1 사용자로부터의 입력을 수신하는 것에 응답하여, 오디오 컨텐츠의 캡처 및 저장을 야기하는 단계와; 상기 오디오 컨텐츠에 대한 적어도 하나의 식별자를 나타내는 제1 사용자로부터의 입력을 수신하는 단계와; 상기 저장된 오디오 컨텐츠를 상기 적어도 하나의 식별자와 연관시키는 단계와; 후속 사용자로부터 음성(voice) 입력을 수신하는 단계와; 상기 음성 입력의 특성을 분석하는 단계와; 상기 음성 입력이 특정 특성을 갖는다고 결정하는 것에 응답하여, 상기 적어도 하나의 식별자의 인식을 향한 상기 음성 입력에 대해 음성(speech) 인식을 바이어싱하는 단계와; 그리고 상기 바이어싱된 음성 인식에 기초하여, 상기 음성 입력내의 상기 적어도 하나의 식별자의 존재를 인식하는 것에 응답하여, 상기 저장된 오디오 컨텐츠의 재생을 야기하는 단계를 포함하여 제공된다.

본 명세서에 개시된 기술의 이들 및 다른 구현들은 선택적으로 다음의 특징들 중 하나 이상을 포함할 수 있다.

다양한 구현예에서, 상기 방법은 음성 입력의 비-인식을 야기하는 상기 바이어싱된 음성 인식에 응답하여, 상기 후속 사용자가 상기 저장된 컨텐츠의 재생을 가능하게 하는 선택 가능한 옵션을 상기 후속 사용자에게 제공하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 선택 가능한 옵션은 상기 적어도 하나의 식별자를 포함한다. 다양한 구현예에서, 상기 선택 가능한 옵션은 오디오 프롬프트일 수 있다.

다양한 구현예에서, 상기 방법은 상기 제1 사용자가 상기 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 상기 제1 사용자로부터의 입력을 수신하는 것에 응답하여, 상기 적어도 하나의 식별자를 나타내는 상기 입력을 제공하도록 제1 사용자에게 지시하는 프롬프트를 제1 사용자에게 제공하는 단계를 더 포함할 수 있다.

다른 양태에서, 방법은 하나 이상의 입력 디바이스에서 음성-작동 제품에 의해, 사용자로부터 제1 커맨드를 수신하는 단계와, 상기 제1 커맨드는 사용자가 내러티브의 가청 렌디션을 녹음하기를 원함을 상기 음성-작동 제품에 통지하고; 하나 이상의 입력 디바이스에서 상기 음성-작동 제품에 의해, 사용자로부터의 서지 입력을 수신하는 단계와, 상기 서지 입력은 상기 내러티브와 관련된 서지 정보를 나타내고; 오디오 입력 디바이스를 통해 상기 음성-작동 제품에 의해, 사용자에 의해 발화된 상기 내러티브의 상기 가청 렌디션을 녹음하는 단계와; 상기 음성-작동 제품에 이용 가능한 컴퓨터 메모리에, 사용자에 의해 발화된 상기 내러티브의 상기 녹음된 가청 렌디션을 포함하는 오디오 파일을 저장하는 단계와, 상기 오디오 파일은 상기 서지 정보에 적어도 부분적으로 기초하여 상기 컴퓨터 메모리에서 색인되고; 그리고 오디오 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 동일한 사용자 또는 다른 사용자로부터 하나 이상의 입력 디바이스에서 수신된 제2 커맨드에 응답하여 상기 오디오 파일을 렌더링하는 단계를 포함할 수 있으며, 상기 제2 커맨드는 상기 서지 정보의 표시를 포함한다.

다양한 구현예에서, 상기 제1 커맨드는 상기 오디오 입력 디바이스를 통해 수신된 음성(speech)을 포함할 수 있다. 다양한 구현예에서, 상기 방법은 하나 이상의 출력 디바이스에서 상기 음성-작동 제품에 의해, 상기 내러티브와 관련된 상기 서지 정보에 대한 요청을 제공하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 요청은 오디오 출력 디바이스를 통해 제공된 가청 프롬프트를 포함할 수 있다. 다양한 구현예에서, 상기 서지 입력은 오디오 입력 디바이스를 통해 수신된 음성을 포함할 수 있다. 다양한 구현예에서, 상기 제2 커맨드는 오디오 입력 디바이스를 통해 수신된 음성을 포함할 수 있다.

다양한 구현예에서, 상기 내러티브는 기존 기록 저작물(written work)을 포함하고, 상기 방법은 상기 서지 정보를 데이터베이스내의 기존 기록 저작물과 매칭시키는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 방법은 하나 이상의 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 상기 기존 기록 저작물과 추가 정보를 데이터베이스에 제공하는 단계를 더 포함할 수 잇다. 다양한 구현예에서, 상기 추가 정보는 상기 기존 기록 저작물을 나타내는 시각적 렌디션을 포함할 수 있다. 다양한 구현예에서, 상기 오디오 파일은 상기 데이터베이스 내의 기존 기록 저작물과 관련된 추가 정보에 기초하여 상기 컴퓨터 메모리에서 더 색인될 수 있다.

다양한 구현예에서, 상기 컴퓨터 메모리는 음성-작동 제품과 네트워크 통신하는 하나 이상의 원격 서버와 통합될 수 있다. 다양한 구현예에서, 상기 컴퓨터 메모리는 대응하는 서지 정보에 의해 색인된 복수의 녹음된 오디오 파일을 저장할 수 있다. 다양한 구현예에서, 상기 복수의 오디오 파일은 복수의 오디오 파일을 녹음한 사용자들의 신원에 의해 더 색인될 수 있다.

다양한 구현예에서, 상기 방법은 상기 음성-작동 제품에 의해 상기 오디오 파일에, 상기 사용자에 의해 선택된 하나 이상의 사운드 효과를 통합하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 방법은 상기 제2 커맨드가 상기 사용자와 다른 사용자에 의해 발화되었는지를 결정하기 위해 상기 제2 커맨드에 대해 음성(voice) 분석을 수행하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 방법은 상기 음성-작동 제품에 의해, 상기 음성 분석에 기초하여 상기 다른 사용자에 대해 맞춤화된 양방향 대화를 개시하는 단계를 더 포함할 수 있다.

또한, 일부 구현예는 하나 이상의 컴퓨팅 디바이스의 하나 이상의 프로세서를 포함하며, 여기서 하나 이상의 프로세서는 관련 메모리에 저장된 명령들을 실행하도록 동작할 수 있으며, 여기서 명령들은 전술한 방법들 중 임의의 방법을 수행하게 하도록 구성된다. 일부 구현예는 또한 전술한 방법들 중 임의의 방법을 수행하기 위해 하나 이상의 프로세서에 의해 실행 가능한 컴퓨터 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 포함한다.

본 명세서에서 보다 상세히 기술된 전술한 개념들 및 부가적인 개념들의 모든 조합은 본 명세서에 개시된 주제의 일부로서 고려될 수 있음을 이해해야 한다. 예를 들어, 본 명세서의 끝 부분에 나타나는 청구된 주제의 모든 조합은 본 명세서에 개시된 주제의 일부로서 고려된다.

도 1은 본 명세서에 개시된 구현예가 구현될 수 있는 예시적인 환경의 블록도이다.
도 2 내지 도 5는 다양한 구현에 따른 다양한 사용자와 자동화 어시스턴트 간의 예시적인 대화를 나타낸다.
도 6 및 도 7은 본 명세서에 개시된 구현예에 따른 예시적인 방법을 도시하는 흐름도이다.
도 8은 컴퓨팅 디바이스의 예시적인 아키텍처를 도시한다.

이제 도 1을 참조하면, 본 명세서에 개시된 기술들이 구현될 수 있는 예시적인 환경이 도시되어 있다. 예시적인 환경은 복수의 클라이언트 컴퓨팅 디바이스(106I-N) 및 자동화 어시스턴트(120)를 포함한다. 자동화 어시스턴트(120)가 클라이언트 컴퓨팅 디바이스(106I-N)와 별개인 것으로 도 1에 도시되어 있지만, 일부 구현예에서 자동화 어시스턴트(120)의 모두 또는 양태는 클라이언트 컴퓨팅 디바이스(106I-N)들 중 하나 이상에 의해 구현될 수 있다. 예를 들어, 클라이언트 디바이스(106i)는 자동화 어시스턴트(120)의 하나의 인스턴스 또는 하나 이상의 양태를 구현할 수 있고, 클라이언트 디바이스(106N)는 또한 자동화 어시스턴트(120)의 이들 하나 이상의 양태의 개별 인스턴스를 구현할 수 있다. 자동화 어시스턴트(120)의 하나 이상의 양태가 클라이언트 컴퓨팅 디바이스(106I-N)로부터 멀리 떨어진 하나 이상의 컴퓨팅 디바이스에 의해 구현되는 구현예에서, 클라이언트 컴퓨팅 디바이스(106I-N) 및 자동화 어시스턴트(120)의 양태는 LAN(Local Area Network) 및/또는 WAN(Wide Area Network)(예를 들어, 인터넷)과 같은 하나 이상의 네트워크를 통해 통신할 수 있다.

클라이언트 디바이스(106I-N)는 예를 들어 데스크탑 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 이동 전화 컴퓨팅 디바이스, 사용자 차량의 컴퓨팅 디바이스(예를 들어, 차량 통신 시스템, 차량 엔터테인먼트 시스템, 차량 네비게이션 시스템), 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 갖는 사용자 시계, 컴퓨팅 디바이스를 갖는 사용자 안경, 가상 또는 증강 현실 컴퓨팅 디바이스) 중 하나 이상을 포함할 수 있다. 추가적인 및/또는 대안적인 클라이언트 컴퓨팅 디바이스가 제공될 수 있다. 일부 구현예에서, 주어진 사용자는 컴퓨팅 디바이스의 조정된 "생태계"로부터 집합적으로 복수의 클라이언트 컴퓨팅 디바이스를 이용하여 자동화 어시스턴트(120)와 통신할 수 있다. 그러한 일부 구현예에서, 자동화 어시스턴트(120)는 예를 들어 액세스가 "서비스되는(srved)" 사용자에 의해 제어되는 리소스(예를 들어, 컨텐츠, 문서 등)에 대한 향상된 액세스를 자동화 어시스턴트(120)에 부여하는 특정 사용자를 "서비스하는" 것으로 간주될 수 있다. 일부 경우에, 자동화 어시스턴트(120)는 사용자의 음성의 인식을 미세 조정하고 정확도를 향상시키는 역할을 하는 사용자에 의해 음성-트레이닝될 수 있다. 그러나, 간결성을 위해, 본 명세서에서 설명된 일부 예들은 단일 클라이언트 컴퓨팅 디바이스(106)를 조작하는 사용자에 초점을 맞출 것이다.

각각의 클라이언트 컴퓨팅 디바이스(106I-N)는 메시지 교환 클라이언트(107I-N) 중 대응하는 하나와 같은 다양한 상이한 애플리케이션을 동작시킬 수 있다. 메시지 교환 클라이언트(107I-N)는 다양한 형태로 존재할 수 있으며, 그 형태는 클라이언트 컴퓨팅 디바이스(106I-N)에 걸쳐 변할 수 있고 및/또는 다수의 형태가 클라이언트 컴퓨팅 디바이스(106I-N) 중 하나에서 동작될 수 있다. 일부 구현예에서, 하나 이상의 메시지 교환 클라이언트(107I-N)는 단문 메시징 서비스("SMS") 및/또는 멀티미디어 메시징 서비스("MMS") 클라이언트, 온라인 채팅 클라이언트(예를 들어, 인스턴트 메신저, 인터넷 중계 채팅, 또는 "IRC" 등), 소셜 네트워크와 관련된 메시징 어플리케이션, 자동화 어시스턴트(120)와의 대화 전용에 전용된 개인 어시스턴트 메시징 서비스 등을 포함할 수 있다. 일부 구현예에서, 하나 이상의 메시지 교환 클라이언트(107I-N)는 웹 페이지(미도시) 또는 클라이언트 컴퓨팅 디바이스(106)의 다른 애플리케이션에 의해 렌더링된 웹 페이지 또는 다른 리소스를 통해 구현될 수 있다.

본 명세서에서 보다 상세하게 기술되는 바와 같이, 자동화 어시스턴트(120)는 하나 이상의 클라이언트 디바이스(106I-N)의 사용자 인터페이스 입력 및 출력 디바이스를 통해 하나 이상의 사용자와의 대화 세션에 참여한다. 일부 구현예에서, 자동화 어시스턴트(120)는 클라이언트 디바이스(106I-N) 중 하나의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자가 제공한 사용자 인터페이스 입력에 응답하여 사용자와의 대화 세션에 참여할 수 있다. 이러한 구현예들 중 일부에서, 사용자 인터페이스 입력은 자동화 어시스턴트(120)에게 명시적으로 지시된다. 예를 들어, 메시지 교환 클라이언트(107I-N) 중 하나는 자동화 어시스턴트(120)와의 대화에 전용된 개인 어시스턴트 메시징 서비스일 수 있고, 그 개인 어시스턴트 메시징 서비스를 통해 제공된 사용자 인터페이스 입력은 자동화 어시스턴트(120)에 자동으로 제공될 수 있다. 또한, 예를 들어, 사용자 인터페이스 입력은 자동화 어시스턴트(120)가 호출될 것임을 나타내는 특정 사용자 인터페이스 입력에 기초하여 하나 이상의 메시지 교환 클라이언트(107I-N)에서 자동화 어시스턴트(120)로 명시적으로 지시될 수 있다. 예를 들어, 특정 사용자 인터페이스 입력은 하나 이상의 타이핑된 문자(예를 들어, @AutomatedAssistant), 하드웨어 버튼 및/또는 가상 버튼(예를 들어, 탭, 롱 탭)과의 사용자 상호 작용, 구두 명령(예를 들어, "Hey Automated Assistant") 및/또는 다른 특정 사용자 인터페이스 입력일 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 사용자 인터페이스 입력이 명시적으로 자동화 어시스턴트(120)에 지시되지 않아도, 사용자 인터페이스 입력에 응답하여 대화 세션에 참여할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자 인터페이스 입력의 컨텐츠를 검사하여 사용자 인터페이스 입력에 존재하는 특정 용어들에 응답하여 및/또는 다른 큐에 기초하여 대화 세션에 참여할 수 있다. 많은 구현예에서, 자동화 어시스턴트(120)는 사용자가 명령, 검색 등을 발화하고 자동화 어시스턴트는 하나 이상의 문법을 이용하여 발언을 텍스트로 변환할 수 있고 그에 따라 상기 텍스트에 응답할 수 있도록 대화식 음성 응답("IVR")을 이용할 수 있다.

클라이언트 컴퓨팅 디바이스(106I-N) 및 자동화 어시스턴트(120) 각각은 데이터 및 소프트웨어 애플리케이션의 저장을 위한 하나 이상의 메모리, 데이터에 액세스하고 애플리케이션을 실행하기 위한 하나 이상의 프로세서 및 네트워크를 통한 통신을 용이하게 하는 다른 구성 요소들을 포함할 수 있다. 하나 이상의 클라이언트 컴퓨팅 디바이스(106I-N) 및/또는 자동화 어시스턴트(120)에 의해 수행되는 동작들은 다수의 컴퓨터 시스템에 걸쳐 분산될 수 있다. 자동화 어시스턴트(120)는 예를 들어 네트워크를 통해 서로 커플링되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다.

자동화 어시스턴트(120)는 자연어 처리기(122) 및 응답 컨텐츠 엔진 (130)을 포함할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)의 하나 이상의 엔진 및/또는 모듈은 자동화 어시스턴트(120)와 별개인 구성 요소에서 생략, 결합 및/또는 구현될 수 있다. 자동화 어시스턴트(120)는 관련 클라이언트 디바이스(106I-N)를 통해 하나 이상의 사용자(들)과의 대화 세션에 참여하여, 응답 컨텐츠 엔진(130)에 의해 생성 및/또는 유지된 응답 컨텐츠를 제공할 수 있다.

일부 구현예에서, 응답 컨텐츠 엔진(130)은 자동화 어시스턴트(120)와의 대화 세션 동안(중에) 클라이언트 디바이스(106I-N) 중 하나의 사용자에 의해 생성된 다양한 입력에 응답하여 응답(responsive) 컨텐츠를 생성한다. 응답 컨텐츠 엔진(130)은 대화 세션의 일부로서 사용자에게 제시하기 위해 (예를 들어, 사용자의 클라이언트 디바이스로부터 분리될 때 하나 이상의 네트워크를 통해) 응답 컨텐츠를 제공한다. 예를 들어, 응답 컨텐츠 엔진(130)은 클라이언트 디바이스(106I-N) 중 하나를 통해 제공된 자유-형식의 자연어 입력에 응답하여 응답 컨텐츠를 생성할 수 있다. 본 명세서에서 사용된 바와같이, 자유-형식의 입력은 사용자에 의해 공식화되고 사용자에 의한 선택을 위해 제시된 옵션 그룹에 제약되지 않는 입력이다.

본 명세서에 사용된 바와 같이, "대화 세션"은 사용자와 자동화 어시스턴트 (120)간의 하나 이상의 메시지의 논리적으로-독립적인(logically-self-contained) 교환을 포함할 수 있다. 자동화 어시스턴트(120)는 세션 간의 시간 경과, 세션 간의 사용자 컨텍스트(예를 들어, 위치, 예정된 회의 전/도중/후 등)의 변경, 사용자와 자동화 어시스턴트간의 대화 이외의 사용자와 클라이언트 디바이스간의 하나 이상의 중재(intervening) 상호 작용의 검출(사용자는 잠시 동안 애플리케이션을 전환한 다음 나중에 독립 실행형 음성-지원 제품으로 리턴함), 세션 간의 클라이언트 디바이스의 로킹/슬리핑, 자동화 어시스턴트(120)의 하나 이상의 인스턴스와 인터페이스하기 위해 사용되는 클라이언트 디바이스의 변경 등과 같은 다양한 신호에 기초하여 사용자와의 다수의 대화 세션을 구별할 수 있다.

일부 구현예에서, 자동화 어시스턴트(120)가 사용자 피드백을 요청하는 프롬프트를 제공할 때, 자동 어시스턴트(120)는 프롬프트에 응답하여 수신될 사용자 인터페이스 입력을 처리하도록 구성된 (프롬프트가 제공되는) 클라이언트 디바이스의 하나 이상의 구성 요소를 선제적으로 작동(activate)시킬 수 있다. 예를 들어, 사용자 인터페이스 입력이 클라이언트 디바이스(106i)의 마이크로폰을 통해 제공되는 경우, 자동화 어시스턴트(120)는 하나 이상의 명령을 제공하여, 마이크로폰이 선제적으로 "개방되고(opened)"(그에 따라 인터페이스 요소를 누르거나 또는 마이크로폰을 개방하는 "핫 워드(hot word)"를 말할 필요가 없음), 클라이언트 디바이스(IO61)의 로컬 음성-텍스트 변환 프로세서가 선제적으로 작동되고, 클라이언트 디바이스(IO61)과 원격 음성-텍스트 변환 프로세서사이의 통신 세션이 선제적으로 확립되고, 및/또는 그래픽 사용자 인터페이스(예를 들어, 피드백을 제공하도록 선택될 수있는 하나 이상의 선택 가능한 요소를 포함하는 인터페이스)가 클라이언트 디바이스(IO61)상에 렌더링되게 할 수 있다. 이는 구성 요소들이 선제적으로 작동되지 않은 경우보다 사용자 인터페이스 입력이 더 빨리 제공 및/또는 처리되도록 한다.

자동화 어시스턴트(120)의 자연어 처리기(122)는 클라이언트 디바이스(106I-N)를 통해 사용자들에 의해 생성된 자연어 입력을 처리하여, 응답 컨텐츠 엔진(130)과 같은 자동화 어시스턴트(120)의 하나 이상의 다른 구성 요소에 의한 사용을 위해 주석(된) 출력을 생성할 수 있다. 예를 들어, 자연어 처리기(122)는 클라이언트 디바이스(IO61)의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 생성된 자연어 자유-형식 입력을 처리할 수 있다. 생성된 주석 출력은 자연어 입력의 하나 이상의 주석 및 선택적으로 자연어 입력의 용어들 중 하나 이상(예를 들어, 모두)을 포함한다.

일부 구현예에서, 자연어 처리기(122)는 자연어 입력의 다양한 유형의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 처리기(122)는 용어의 문법적 역할에 주석을 달기 위해 구성된 품사 태거(tagger)를 포함할 수 있다. 예를 들어, 품사 태거는 각 용어를 "명사", "동사", "형용사", "대명사" 등과 같은 품사로 태깅할 수 있다. 또한, 예를 들어, 일부 구현예에서, 자연어 처리기(122)는 자연어 입력의 용어들 간의 구문적 관계를 결정하도록 구성된 의존성 파서를 추가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 의존성 파서는 어느 용어가 다른 용어, 문장의 주체 및 동사(예를 들어, 파스 트리)을 변경하는지를 결정할 수 있으며 그러한 의존성에 대한 주석을 만들 수 있다.

일부 구현예에서, 자연어 처리기(122)는 부가적으로 및/또는 대안적으로 사람(예를 들어, 문학적 인물을 포함하는), 조직, 위치(실제 및 가상의)등에 대한 참조와 같은 하나 이상의 세그먼트에서 엔티티 참조에 주석을 달도록 구성된 엔티티 태거를 포함할 수 있다. 엔티티 태거는 높은 수준의 세분성(예를 들어, 사람과 같은 엔티티 클래스에 대한 모든 참조를 식별할 수 있도록) 및/또는 낮은 수준의 세분성(특정 사람과 같은 특정 엔티티에 대한 모든 참조를 식별할 수 있도록)으로 엔티티에 대한 참조들에 주석을 달 수 있다. 엔티티 태거는 자연어 입력의 컨텐츠에 의존하여 특정 엔티티를 분석(resolve)할 수 있고 및/또는 선택적으로 엔티티 그래프 또는 다른 엔티티 데이터베이스와 통신하여 특정 엔티티를 분석할 수 있다.

일부 구현예에서, 자연어 처리기(122)는 추가적으로 및/또는 대안적으로 하나 이상의 문맥 큐에 기초하여 동일한 엔티티에 대한 참조를 그룹화하거나 "클러스터링"하도록 구성된 동일 지시어 분석기(coreference resolver)를 포함할 수 있다. 예를 들어, 동일 지시어 분석기는 자연어 입력("너에게 곰돌이 푸우를 읽어 주는 걸 좋아해, 아들. 그것을 녹음하자")에서 "그것(it)"을 "곰돌이 푸우(Winnie the Pooh)"라는 사용자의 가청 렌디션(rendition)으로 분석하는데 활용될 수 있다.

일부 구현예에서, 자연어 처리기(122)의 하나 이상의 구성 요소는 자연어 처리기(122)의 하나 이상의 다른 구성 요소로부터의 주석들에 의존할 수 있다. 예를 들어, 일부 구현예에서, 명명된(named) 엔티티 태거는 모든 언급을 특정 엔티티에 주석으로 넣을 때, 동일 지시어 분석기 및/또는 의존성 파서로부터의 주석에 의존할 수 있다. 또한, 예를 들어, 일부 구현예에서, 동일 지시어 분석기는 동일한 엔티티에 대한 참조들을 클러스터링할 때 의존성 파서로부터의 주석들에 의존할 수 있다. 일부 구현예에서, 특정 자연어 입력을 처리할 때, 자연어 처리기(122)의 하나 이상의 구성 요소는 하나 이상의 주석을 결정하기 위해 특정 자연어 입력 외부의 관련 이전 입력 및/또는 다른 관련 데이터를 사용할 수 있다.

전술한 바와 같이, 응답 컨텐츠 엔진(130)은 클라이언트 디바이스(106I-N) 중 하나의 사용자와의 대화 세션 동안 제공할 제안들 및/또는 다른 컨텐츠를 생성하는데 하나 이상의 리소스를 이용한다. 다양한 구현예에서, 응답 컨텐츠 엔진(130)은 액션 모듈(132), 엔티티 모듈(134) 및 컨텐츠 모듈(136)을 포함할 수 있다.

응답 컨텐츠 엔진(130)의 액션 모듈(132)은 클라이언트 컴퓨팅 디바이스(106I-N)로부터 수신된 자연어 입력 및/또는 자연어 처리기(122)에 의해 제공된 자연어 입력의 주석을 사용하여, 자연어 입력에 응답하는 적어도 하나의 액션을 결정한다. 일부 구현예에서, 액션 모듈(132)은 자연어 입력에 포함된 하나 이상의 용어에 기초하여 액션을 결정할 수 있다. 예를 들어, 액션 모듈(132)은 하나 이상의 컴퓨터 판독 가능 매체에서, 자연어 입력에 포함된 하나 이상의 용어에 매핑되는 액션에 기초하여 액션을 결정할 수 있다. 예를 들어, "내러티브의 가청 렌디션 녹음"이라는 액션은 "나는 ,,,를 녹음하고 싶어, 그것을 녹음 하자", "나는 <누군가>한 이야기를 읽으려고 해", 싱어송(singalong, 노래)을 녹음하자"와 같은 하나 이상의 용어에 매핑될 수 있다. 다른 예로서, "이전에 녹음된 내러티브의 가청 렌디션의 오디오 파일 렌더링"이라는 액션은 "이야기를 내게 읽어 줘", "<이야기 키워드)를 내게 읽어 줘", "<키워드>에 관한 이야기를 내게 읽어 줘", "나는 <녹음(하는) 사용자>가 그리워"와 같은 하나 이상의 용어에 매핑될 수 있다.

서지(Bibliographic) 데이터베이스(152)는 하나 이상의 비-일시적 컴퓨터 판독 가능 매체상에 제공될 수 있고, 기존 저작물(예를 들어, 책, 시, 노래, 각본, 대본 등) 및/또는 관련 엔티티(저자, 발행자, 제작자, 캐릭터 등), 엔티티 각각의 속성, 및 선택적으로 엔티티들 간의 관계와 같은 복수의 내러티브와 관련된 정보를 포함할 수 있다. 예를 들어, 서지 데이터베이스(152)는 특정 책의 식별자(예를 들어, 제목, ISBN 등), 및 저자, 공동 저자, 크리에이터(들), 장르(예를 들어, 판타지, 대상 연령 등), 길이(단어 및/또는 페이지의), 별명(또는 별칭), 발행자, 발행 날짜, 사운드 효과, 테마, 토픽 등과 같은 해당 책의 하나 이상의 특성 및/또는 속성을 포함할 수 있다. 일부 구현예에서, 서지 데이터베이스(152)는 예를 들어 클라우드에서 하나 이상의 서버 컴퓨팅 시스템에 걸쳐 저장될 수 있고, 복수의 상이한 클라이언트 디바이스(106)상에서 동작하고 및/또는 복수의 상이한 사용자를 서비스하는 복수의 자동화 어시스턴트(120)에 액세스 가능할 수 있다.

내러티브 데이터베이스(154)는 하나 이상의 비-일시적 컴퓨터 판독 가능 매체상에 제공될 수 있고, 자동 어시스턴트(120)와 상호 작용하는 클라이언트 디바이스들(106)의 사용자에 의해 제공된 내러티브의 가청 렌디션들을 포함하는, 다양한 손실 및/또는 무손실 오디오 포맷(예를 들어, MPEG, MP3 , ALAC, FLAC, WMA 등)을 사용하여 저장될 수 있는 하나 이상의 녹음된 오디오 파일의 라이브러리를 포함할 수 있다. 예를 들어, 사용자가 자동와 어시스턴트(120)에게 본 명세서 기술된 기술들을 사용하여 내러티브의 가청 렌디션을 녹음하도록 지시할 때마다, 결과 오디오 파일은 내러티브 데이터베이스(154)에 저장 및 인덱스될 수 있다. 내러티브 데이터베이스(154)는 하나 이상의 서버(예를 들어, 클라우드) 상의 하나 이상의 클라이언트 디바이스(106)와 같은 하나 이상의 메모리 위치에 저장될 수 있다.

컨텐츠 모듈(136)은 서지 데이터베이스(152) 및 내러티브 데이터베이스(154) 모두에 (예를 들어, 하나 이상의 네트워크 또는 로컬 컴퓨팅 메모리를 통해) 액세스할 수 있다. 다양한 구현예에서, 컨텐츠 모듈(136)은 예를 들어 액션 모듈(132)로부터, 사용자 커맨드를 수신하도록 구성될 수 있다. 이들 커맨드에 응답하여, 컨텐츠 모듈(136)은 내러티브 데이터베이스(154)에 저장하기 위한 새로운 오디오 파일을 녹음하는 단계와; 내러티브 데이터베이스(154)에 저장된 이전에 녹음된 오디오 파일을 청각적으로 렌더링(예를 들어, 재생)하는 단계와; 및/또는 내러티브 데이터베이스(154)에 저장된 녹음된 오디오 파일을 서지 데이터베이스(152)에 포함된 정보와 연관시키는 단계를 포함하여 다양한 액션을 수행할 수 있지만 이에 한정되는 것은 아니다.

도 2는 자동화 어시스턴트(120)가 사용자(101)에 의한 저작물(예를 들어, 책, 노래, 소설, 시, 대본, 각본 등)의 가청 렌디션을 녹음하는 대화 세션의 예를 도시한다. 도 2에 도시된 컴퓨팅 디바이스(210)는 하나 이상의 마이크로폰 및 하나 이상의 스피커를 포함할 수 있다. 도 2는 본 명세서에 기술된 구현에 따라 마이크로폰(들) 및 스피커(들)를 통해, 컴퓨팅 디바이스(210)의 사용자(101)와 자동화 어시스턴트(120) 간에 발생할 수 있는 대화 세션의 예들을 도시한다. 자동화 어시스턴트(120)의 하나 이상의 양태는 컴퓨팅 디바이스(210) 및/또는 컴퓨팅 디바이스(210)와 네트워크 통신하는 하나 이상의 컴퓨팅 디바이스 상에 구현될 수 있다. 본 명세서에 기술된 예들에서, 자동화 어시스턴트는 사용자(101)에게 "서비스"한다고 가정할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자(101)에 의해 제어되는 리소스들에 대한 액세스 권한을 가질 수 있고, (예를 들어, 사용자의 어휘, 악센트, 발음, 억양 등으로 조정된) 사용자(101)로부터의 음성(speech)을 이해하도록 트레이닝될 수 있다.

도 2에서, 사용자(101)는 "(102에 표시된) 내 아이에게 이야기를 읽어 주려고 해, 그것을 녹음(record)해 줘"라는 자연어 입력(280A)을 제공하여, 사용자(101)와 자동화 어시스턴트(120) 사이의 대화 세션을 개시한다. 자연어 입력(280A)에 응답하여, 자동화 어시스턴트(120)는 "그럼요, 어떤 이야기를 읽어 주려고 하시나요"라는 자연어 출력(282A)을 제공한다. 그런 다음 사용자(101)는 예를 들어 제목 "굿나잇 문(Goodnight Moon)"과 같은 서지 정보를 포함하는 자연어 입력(280B)을 제공한다. 그러면 자동화 어시스턴트(120)는 사용자가 읽은 이야기의 가청 렌디션을 녹음할 것임을 사용자에게 프롬프트하는 자연어 출력(282B)을 제공한다.

그 다음, 사용자는 이야기의 가청 렌디션을 포함하는 음성 입력(280C)을 제공한다. 언젠가 나중에, 예를 들어, 사용자가 이야기 읽기를 완료한 후에, 일부 구현예에서, 사용자는 자동화 어시스턴트(120)가 녹음을 중단시키는 트리거로서 인식할 수 있는 자연어 입력(280D)(경우에 따라 이야기의 최종 단어 또는 구일 수 있음)과 같은 일종의 입력을 제공할 수 있다. 자동화 어시스턴트(120)는 녹음을 중단시키는 트리거로서 인식할 수 있다. 자동화 어시스턴트(120)는 녹음된 오디오 파일의 시간적 길이와 같은 다양한 출력을 제공할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 사용자가 오디오 녹음을 듣고 싶은지 묻는 프롬프트, 사용자가 녹음을 유지하기를 원하는지 확인하는 프롬프트 등과 같은 다른 출력도 제공할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 (282A에 표시된 바와 같이) 사전에 그것을 요구하기 보다는, 서지 정보를 요청하기 위해 녹음이 완료될 때까지 기다릴 수 있다.

일단 도 2에 도시된 세션이 완료되면, 다양한 구현예에서, 자동화 어시스턴트(120)는 컴퓨팅 디바이스(210)에 이용 가능한 (예를 들어, 클라우드를 형성하는 로컬 또는 하나 이상의 서버상의) 컴퓨터 메모리(예를 들어, 내러티브 데이터베이스(154))에, 사용자(101)에 의해 발화된 내러티브들의 녹음된 가청 렌디션을 포함하는 오디오 파일을 저장한다. 일부 구현예에서, 오디오 파일은 예를 들어 280B와 같이, 사용자에 의해 제공된 서지 정보에 적어도 부분적으로 기초하여 컴퓨터 메모리에서 색인될 수 있다.

일부 구현예에서, 내러티브는 발행된 책과 같은 기존 기록 저작물(written work)을 포함할 수 있다. 그러한 일부 구현예에서, 사용자에 의해 제공된 서지 정보는 기존 저작물의 데이터베이스(예를 들어, 도 1의 154)에서 기존 기록 저작물과 매칭될 수 있다. 기존 기록 저작물과 관련된 추가 정보가 데이터베이스에 저장될 수도 있다. 이 추가 정보에는 예를 들어 추가 서지 정보(예를 들어, 저자, ISBN, 발행 연도, 버전 등)뿐만 아니라 (예를 들어, 녹음 사용자(101)에 의해 및/또는 다른 사용자에 의해 사용된) 저작물에 대해 사용된 하나 이상의 별명 또는 별칭과 같은 다른 추가 정, 상기 기록 저작물과 관련된 표지 및/또는 다른 삽화(예를 들어, 저작물, 팬 아트 등의 하나 이상의 출판 버전의 삽화), 사운드 효과(이하에 설명), 퀴즈, 저작물의 캐릭터에 관한 정보(예를 들어, 신원, 인종, 성별 등), 테마, 토픽, 키워드 또는 문구 등이 포함될 수 있다.

아래에서 보다 상세히 설명되는 바와 같이, 다양한 실시 예에서, 이러한 추가 정보의 다양한 부분은 예를 들어 컴퓨팅 디바이스(210)의 하나 이상의 출력 디바이스를 통해 자동화 어시스턴트(120)에 의해 출력으로서 제공될 수 있다. 예를 들어, 출력되는 추가 정보는 컴퓨팅 디바이스(210)의 디스플레이(미도시) 상에 출력되는 기존의 기록 저작물을 나타내는 시각적 렌디션을 포함할 수 있다. 컴퓨팅 디바이스(210)가 디스플레이를 포함하지 않으면, 다양한 구현예에서, 예를 들어 스마트폰 또는 근처 스마트 TV와 같이 사용자(101)에 의해 제어되는 컴퓨팅 디바이스의 생태계와 같은 하나 이상의 다른 컴퓨팅 디바이스는 디스플레이 상에 시각적 렌디션을 출력할 수 있다. 일부 구현예에서, 오디오 파일은 데이터베이스 내의 기존 기록 저작물과 관련된 추가 정보의 하나 이상의 부분(pieces)에 기초하여 자동화 어시스턴트(120)에 의해 컴퓨터 메모리(예를 들어, 154)에서 더 색인될 수 있다.

다양한 구현예에서, 자동화 어시스턴트(120)는 오디오 출력 디바이스를 통해, 동일한 사용자 또는 자식(102)과 같은 상이한 사용자로부터 하나 이상의 입력 디바이스에서 수신된 커맨드에 응답하여 하나 이상의 이전-녹음된 오디오 파일을 렌더링하도록 구성된다. 상기 커맨드는 아이(102)가 재생하고자 하는 오디오 파일의 식별자를 포함할 수 있다. 일부 구현예에서, 식별자는 오디오 파일이 녹음될 때 녹음 사용자에 의해 제공된 서지 정보의 표시를 포함할 수 있다.

도 3은 상이한 세션 동안 컴퓨팅 디바이스(210)상에서 동작하는 아이(102)와 자동화 어시스턴트(120) 간의 예시적인 대화를 도시한다. 단계(380A)에서, 아이(102)는 "내게 이야기를 읽어 줄 수 있니?"라는 문구를 말한다. 아이의 커맨드가 아이가 무엇을 듣고 싶어하는지에 관해서 모호하다고 가정하면, 자동화 어시스턴트(120)는 예를 들어, 아이가 단계(382A)에서 어떤 이야기를 듣고 싶은지를 지시하도록 아이에게 프롬프트함으로써 아이의 커맨드를 명확하게 할 수 있다. 단계(382B)에서, 아이는 그가 듣고 싶은 이야기의 식별자를 제공함으로써 응답할 수 있다. 예를 들어, 아이는 "굿 나잇 문(Goodnight Moon)"과 같은 서지 정보를 단계(380B)에서 제공할 수 있다. 단계(382B)(선택적일 수 있음)에서, 자동화 어시스턴트(120)는 가청 확인을 제공할 수 있고, 그런 다음 단계(382C)에서 자동화 어시스턴트(120)는 식별자(예를 들어, 서지 정보)와 관련하여 컴퓨팅 디바이스(210)에 액세스 가능한 컴퓨터 메모리(예컨대, 154)에 저장된 오디오 파일을 재생할 수 있고. 다른 구현예에서, 만약 "내게 굿 나잇 문을 읽어 줘"와 같은 덜 모호한 커맨드를 제공하여 아이(102)가 개시하면, 모호성 제거가 필요하지 않을 수 있기 때문에 단계들(382A 및 380B)은 스킵될 수 있다.

도 4는 컴퓨팅 디바이스(210)상에서 실행하는 사용자(101)와 자동화 어시스턴트(120) 간의 보다 복잡한 녹음 대화를 나타낸다. 이 예에서, 단계(480A)에서, 사용자(101)는 그의 아이에게 노래를 불러 주려고 한다는 커맨드를 내린다. 단계(482A)에서, 자동화 어시스턴트(120)는 예를 들어 서지 정보를 검색함으로써 어떤 노래가 불려지는지를 명확하게 하려고 한다. 단계(480B)에서, 사용자(101)는 서지 정보("맥도널드 할아버지의 농장")를 제공한다.

일부 구현예에서, 그리고 상술한 바와 같이, 자동화 어시스턴트(120)는 생체 정보를 데이터베이스의 기존 저작물과 매칭시킬 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 기존 저작물 또는 해당 장르의 기존 저작물에 구체적으로 적용될 수 있는 녹음 옵션을 제공할 수 있다. 예를 들어, 사용자-제공의 서지 정보를 잘 알려진 아동용 노래 "맥도널드 할아버지의 농장"과 매칭시키는 것에 응답하여, 자동화 어시스턴트(120)는, 예를 들어, 서지 데이터베이스(152) 내의 기존 저작물과 관련하여 저장된 추가 정보에 기초하여, 사운드 효과가 종종 노래에 수반되는 것으로 결정할 수 있다. 따라서, 단계(482B)에서, 자동화 어시스턴트(120)는 사용자 (101)가 오디오 녹음에 어떤 사운드 효과를 포함(통합)시키기를 원하는지를 알릴 것을 사용자(101)에게 프롬프트할 수 있다.

단계(480C)에서, 사용자(101)는 사운드 효과를 포함시키고자 함을 확인할 수 있다. 사용자들은 다양한 방법으로 사운드 효과를 녹음된 오디오 파일에 통합할 수 있다. 간단한 예에서, 사용자(또는 사용자가 읽어 주고 있는 청취자)는 녹음 중에 사운드 효과를 청각적으로 제공할 수 있어, 음향 효과가 단순히 주변 소리(noises)로서 녹음에 베이킹(bake)된다. 그러나, 도 4에 도시된 구현예와 같은 다른 구현에서, 사운드 효과의 통합을 위한 더 많은 옵션이 자동화 어시스턴트(120)에 의해 제공될 수 있다.

예를 들어, 사용자(101)는 사용자가 "소(cow)"라는 단어를 말할 때마다 자동화 어시스턴트(120)에게 지시하고, 자동화 어시스턴트(120)는 노래 중에 적절한 지점에서 기존의 오디오 파일("<filename>"이 재생될 오디오 파일의 플레이스 홀더를 지시함)을 재생해야 한다. 이러한 인스턴스에서, 재생될 때, 기존 오디오 파일은 음소거된 소의 사운드를 렌더링할 수 있다. 일부 구현예에서, 이러한 기존의 오디오 파일은 사용자(101)에 의해 획득(예를 들어, 사운드 효과 라이브러리로부터 다운로드)되어, 예를 들어 컴퓨팅 디바이스(210)상의, 사용자(10)에 의해 조작되는 컴퓨팅 디바이스들의 생태계의 다른 컴퓨팅 디바이스상의 및/또는 클라우드 상의 자동화 어시스턴트(120)가 이용 가능한 컴퓨터 메모리에 저장될 수 있다. 다른 구현예에서, 기존의 오디오 파일은 상술한 추가 정보와 관련하여 서지 데이터베이스(152)에 저장될 수 있다.

"맥도널드 할아버지의 농장"에 대해, 사용자(101)(및/또는 청취하는 자녀(102))가 "그 농장에는 소가 있어요"라는 구절을 부를 때, 자동화 어시스턴트(120)는 노래의 가청 렌디션에 대한 오디오 분석을 수행할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 현재 사운드 효과를 언제 재생할지를 결정하기 위해 서지 데이터베이스에 저장된 추가 정보를 이용할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자(101)(또는 아이(102))가 "여기서...(with a ...)"라고 말할 때마다 자동화 어시스턴트(120)가 기존 오디오 파일을 청각적으로 렌더링해야한다고 결정할 수 있다. 따라서, 사용자(101)가 아이(102)에게 노래를 불러 주는 동안, 사운드 효과는 실시간으로 통합되어 경험을 향상시킬 것이다. 또한, 기존의 오디오 파일의 재생은 예를 들어 사용자의 음성(voice)과 함께 녹음되고 및/또는 실시간 및/또는 다운 스트림 사운드 파일 처리를 사용하여 최종 오디오 파일에 스티칭된(stitched) 주변 소리로서 노래의 녹음에 통합될 수 있다.

다른 예로서, 사용자(101)는 사용자가 "오리"라는 단어를 말할 때마다, 자동화 어시스턴트(120)는 사용자에 의해 작동되는 디바이스로부터 발산된 사운드를 재생하여 "꽥" 사운드(예를 들어, 압착식 고무 오리, 오리 호출 등)를 생성해야 한다. 이러한 구현예에서, 자동화 어시스턴트(120)는 문구 바로 앞에 사용자가 생성한 사운드, "후속 사운드"를 녹음할 수 있다. 그런 다음 자동화 어시스턴트(120)는 사용자(101)가 아이(102)에게 노래해 주는 동안 상기 녹음된 사운드를 청각적으로 렌더링할 수 있고, 예를 들어 주변 소리에 의해 및/또는 결과 오디오 파일에 녹음된 사운드에 스티칭함에 의해, 사운드를 상기 노래의 가청 녹음에 베이크(bake)할 수 있다. 단계(482C)에서, 자동화 어시스턴트(120)는 요청된 사운드 효과 및 적절한 시간을 삽입할 것을 확인한다.

도 5는 컴퓨팅 디바이스(210) 상에서 동작하는 아이(102)와 자동화 어시스턴트(120) 간의 다른 예시적인 대화를 나타낸다. 도 5에 도시된 대화(창)는 자동화 어시스턴트(120)가 다양한 내러티브의 가청 렌디션에 대한 이전에 녹음된 오디오 파일의 라이브러리(예컨대, 154)를 검색하기 위한 일부 구현예의 기능을 나타낸다. 단계(580A)에서, 아이(102)는 자동화 어시스턴트(120)가 토끼에 관한 이야기를 읽도록 요청한다. 일부 구현예에서, 자동화 어시스턴트(120)는 특히 사용자(101) (어른 및/또는 자동화 어시스턴트(120)에 의해 서비스되는 계정의 소유자일 수 있는)이외의 미지의 사용자를 대상으로 하는 모드(예를 들어, "일반화(generalized)" 또는 "샌드 박스" 모드)로 전환할 수 있다.

예를 들어, 일부 구현예에서, 자동화 어시스턴트(120)는 아이(102)로부터 수신된 음성 커맨드(580A)에 대한 음성 처리(예를 들어, 화자 인식, 음성 인식, 스피치 인식)를 수행하여, 상기 수신된 음성 커맨드가 본 명세서에 설명된 기술을 사용하여 하나 이상의 오디오 파일을 녹음한 다른 개인(예컨대, 사용자(101))(또는 일부 경우에서, 자동화 어시스턴트(120)에 의해 서비스되는 다른 개인)과 상이한 개인(예를 들어, 아이(102))에 의해 발화되었는지를 결정할 수 있다. 그러한 일부 구현예에서, 자동화 어시스턴트(120)는 응답으로 아이(102)에 맞춰진 양방향 대화(interactive dialog)를 개시할 수 있다. 도 5에서, 예를 들어, 자동화 어시스턴트(120)는 단계(582A에서), 이전에 녹음된 오디오 파일의 라이브러리(예컨대, 154)를 검색하고 "토끼들"과 관련이 있는 2개의 응답 결과를 반환함으로써 아이의 요청을 모호하지 않게(명확하게) 하려고 시도한다. 예를 들어, 이들 오디오 파일이 사용자(101)에 의해 이전에 녹음된 경우, 사용자(101)는 예를 들어, "토끼(bunnies)", "토끼(rabbits)"등과 같은 키워드를 포함하는 서지 정보를 제공했을 수도 있고, 또는 내러티브는 제목내에 또는 심지어 텍스트내에 "토끼"(또는 그 동의어)라는 용어를 포함할 수 있다. 그런 다음, 아이(102)는 단계(580B)에서, 자동화 어시스턴트(120)가 선택적으로 단계(582B)에서 확인한 다음 단계(582C)에서 렌더링할 수 있는, 명확한 대답으로 응답할 수 있다.

전술한 바와 같이, 일부 구현예에서, 자동화 어시스턴트(120)는 수신된 오디오 커맨드의 음성 처리에 응답하여, 자동화 어시스턴트(120)에 의해 서비스되는 사용자(101) 이외의 개인들을 대상으로 하는 "일반화" 모드로 전환할 수 있다. 자동화 어시스턴트(120)는 자동화 어시스턴트(120)가 서비스하는 사용자(101)에 의해 사용되는 어휘를 더 잘 이해하도록 트레이닝될 수 있음을 상기하자. 따라서, 일반화 모드에서, 자동화 어시스턴트(120)는 자동화 어시스턴트(120)에 의해 서비스되는 사용자(101)와 상호 작용하기 위해 자동화 어시스턴트(120)에 의해 통상적으로 사용되는 것과 상이한 하나 이상의 문법, 어휘 및/또는 결정 트리를 이용할 수 있다. 일부 구현예에서, 일반화 모드 또는 샌드 박스 모드에 있을 때, 자동 어시스턴트(120)는 자동 어시스턴트(120)에 의해 서비스되는 사용자(101)에 의해 제어되는 컨텐츠 및/또는 인터넷상에서 이용 가능한 일반 컨텐츠와 같은 다양한 컨텐츠에 대한 미지의 사용자의 액세스를 제한하는 방식으로 대화를 조정(tailor)할 수 있다.

일부 구현예에서, 화자가 사용자(101)이외의 다른 개인이라고 결정하는 것에 응답하여, 자동화 어시스턴트(120)는 자연어 입력보다는 개인으로부터의 이진 입력 (예컨대, 예 또는 아니오)을 요청하는 단순한 대화를 구현할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 다음과 같은 대화를 개시할 수 있다.

자동화 어시스턴트(120) : "이야기를 듣고 싶어하는 것처럼 들리는데, 맞습니까?"

개인(사용자(101)가 아님) : "그래"

자동화 어시스턴트(120) : "알겠습니다, 저는 3가지 이야기를 가지고 있습니다. 첫 번째는 맥베스입니다. 그것을 읽기를 원하시나요?"

개인(사용자(101)이 아님) : "그래"

이러한 대화는 본 명세서에 설명된 기술로 생성된 오디오 파일에 대한 액세스를 단순화할 수 있다.

부가적으로, 이러한 대화는 본 명세서에 설명된 기술을 사용하여 생성된 오디오 파일 이외의 컨텐츠에 액세스하는 개인의 기능을 제한할 수 있다. 또한, 사용자(101) 이외의 개인과 상호 작용할 때, 자동화 어시스턴트(120)는 (인식되지 않은 악센트, 발음, 어휘, 말하는 억양, 피치를 가질 수 있는) 개인의 지연어 입력을 해석하는 것보다 "예", "아니오", "좋아(okay)"등과 같은 간단한 이진 응답을 더 쉽게 해석할 수 있다.

다른 예로서, 자동화 어시스턴트(120)가 화자가 사용자(101)와 상이한 누군가라고 결정할 때, 자동화 어시스턴트(120)는 본 명세서의 기술을 이용하여 생성된 오디오 녹음으로 검색 결과를 바이어스할 수 있다. 부가적으로 또는 대안적으로, 자동화 어시스턴트(120)는 인터넷상에서 일반적으로 이용 가능한 컨텐츠 및/또는 특정 사용자에게 개인적일 수 있는 컨텐츠(예를 들어, 기밀 및/또는 민감 정보)와 같은 다른 컨텐츠로부터(제외할 시검까지) 검색 결과를 바이어스할 수 있다. 예를 들어, 자동화 어시스턴트(120)에 의해 서비스되는 사용자(101)가 특정 키워드를 검색하라는 음성 커맨드를 내린다고 가정한다. 자동화 어시스턴트(120)는 인터넷, 사용자에 의해 제어되는 클라우드 스토리지, 사용자에 의해 제어되는 이메일 또는 다른 문서 등과 같은 임의의 수의 소스들로부터 수집된 응답 검색 결과를 제공할 수 있다. 대조적으로, 자동화 어시스턴트(120)에 의해 서비스되지 않는 아이(예컨대, 102) 또는 다른 개인이 동일한 키워드로 동일한 음성 커맨드를 내린다고 가정한다. 자동화 어시스턴트(120)는 음성 처리를 수행하여 화자가 자동화 어시스턴트(120)에 의해 서비스되는 사용자가 아니라고 결정할 수 있다. 결과적으로, 자동화 어시스턴트(120)는 본 명세서에 설명된 기술들을 사용하여 녹음된 오디오 파일로 검색 결과를 바이어스할 수 있고, 검색 결과를 다른 컨텐츠에 바이스할 수 있다(또는 완전히 제외할 수 있음).

부가적으로 또는 대적안으로, 일부 구현예에서, 음성 커맨드 자체의 해석은 본 명세서에서 설명된 기술을 사용하여 녹음된 파일을 찾는 것에 대해 바이어스될 수 있다. 예를 들어, 자동화 어시스턴트(120)와 관련된 음성-텍스트 변환 엔진은 화자가 사용자(101)와 다르다는 사실을 고려하면서 수신된 음성 입력을 텍스트로 변환할 수 있다. 이것은 자동화 어시스턴트(120)에 의해 수행된 음성-텍스트 변환의 정확성 및/또는 견고함을 증가시킬 수 있다. 예를 들어, 자동화 어시스턴트(120)는 음성-텍스트 변환에 사용된 음성-텍스트 변환 모델의 하나 이상의 값을 수정하고 및/또는 이들에 의해 생성된 값을 수정하여, 본 명세서에 설명된 기술을 사용하여 녹음된 파일과 관련된 파라미터를 따르는 텍스트가 상기 수신된 음성 입력에 일치하는 텍스트로 선택될 가능성을 높이기 위해 이들 값을 수정할 수 있다. 이는 자동화 어시스턴트(120)의 성능을 향상시키고 및/또는 음성 입력의 부정확한 표현으로 인해 소비될 수 있는 다양한 계산 자원(예를 들어, 음성의 부정확한 표현을 정정하기 위해 필요할 수 있는 추가 "전환(turns)"에 의해 소비되는 네트워크 트래픽)의 사용을 줄일 수 있다.

일부 구현예에서, 자동화 어시스턴트(120)에 의해 이용되는 하나 이상의 음성-텍스트 변환 모델은 예를 들어, 디지털 오디오 데이터를 텍스트 단어 또는 어구에 매핑하는 복수의 경로를 정의하는 유한 상태 디코딩 그래프를 구현할 수 있다. 일부 구현예에서, 이들 음성-텍스트 변환 모델 중 하나 이상은 선택적으로 결합될 수 있는 기본 모델 및/또는 그 출력이 (예를 들어, 화자는 명목상의 사용자(101)와 다르다는 인식에 적어도 부분적으로 기초하여 생성된) 컨텍스트(상황)-감지 모델에 의해 선택적으로 수정될 수 있는 베이스 모델을 포함할 수 있다. 기본 모델은 사용자가 말하기 쉬운 상대적으로 일반적인 단어 및 어구를 포함하는 기본 어휘를 지원할 수 있다. 반면에, 컨텍스트-감지 모델은 하나 이상의 단어 또는 어구에 대한 경로를 포함할 수 있으며, 이는 사용자(101) 이외의 누군가가 말할 때와 같은 특정 컨텍스트에 대한 기본 모델의 어휘를 효과적으로 증가시키는데 사용될 수 있다. 기본 모델이 컨텍스트-감지 모델과 통합되거나 컨텍스트-감지 모델에 의해 보완되는 방식은, 예를 들어, 경로들이 모델로 인코딩되는 방식에 기초하여 상이한 구현예에서 달라질 수 있다.

도 6은 본 명세서에 개시된 구현예에 따른 예시적인 방법(600)을 나타내는 흐름도이다. 편의상, 흐름도의 동작은 동작을 수행하는 시스템을 참조하여 설명된다. 이 시스템은 자동화 어시스턴트(120)의 하나 이상의 구성 요소와 같은 다양한 컴퓨터 시스템의 다양한 구성 요소를 포함할 수 있다. 더욱이, 방법(600)의 동작들이 특정 순서로 도시되어 있지만, 이것에 한정되는 것은 아니다. 하나 이상의 동작은 재정렬, 생략 또는 추가될 수 있다.

블록(602)에서, 시스템은 내러티브의 가청 렌디션을 녹음하기 제1 커맨드를 포함하는 입력을 수신할 수 있다. 이 입력은 터치 스크린, 마이크로폰, 키보드, 마우스, 가속도계(예를 들어, 제스처 검출), 카메라(예를 들어, 제스처 검출) 등과 같은 다양한 유형의 입력 디바이스에서 다양한 형태로 수신될 수 있다. 일부 구현예에서, 블록(604)에서, 시스템은 녹음될 내러티브에 관한 서지를 요청하는 출력을 제공할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 "무엇을 읽거나/노래하거나/수행하려고 하십니까?"와 같은 질문 또는 문장으로 사용자에게 프롬트트할 수 있다. 일부 실시예에서, 블록(604)에서 제공된 출력의 하나 이상의 파라미터는 블록(602)에서 제공된 입력에 기초하여 선택될 수 있다. 예를 들어 사용자가 "이야기를 읽으려고 해, 그것을 녹음해 줘."라는 커맨드를 내렸다고 가정해 보자. 상기 "이야기"라는 단어에 기초하여, 블록(604)에서 제공된 출력은 "어떤 이야기를 읽으려고 하십니까?"와 같은 문장을 포함할 수 있다. 다른 구현예에서, 블록(604)의 출력은 디스플레이(예를 들어, 터치 스크린), 햅틱 피드백 메커니즘, 프린터 등과 같은 스피커 이외의 출력 디바이스를 사용하여 제공될 수 있다.

블록(606)에서, 시스템은 녹음된 내러티브와 관련된 서지 정보를 포함하는 입력을 사용자로부터 수신할 수 있다. 일부 구현예에서, 사용자는 블럭(602)에서 제공된 커맨드의 일부로서 이 정보를 제공할 수 있다. 예를 들어, 사용자는 "나는 '메리에겐 새끼양이 있어요'를 내 딸에게 불러 주려고 해. 그것을 녹음해 줘"라고 적극적으로 말할 수 있다. 이러한 경우, 사용자가 서지 정보를 이미 제공했으므로 블록(606)은 생략될 수 있다.

사용자는 마이크로폰, 터치 스크린 디스플레이, 키보드, 마우스, 가속도계, 카메라 등을 포함하여 다양한 유형의 입력 디바이스를 사용하여 블록(606)에서 다양한 유형의 입력을 제공할 수 있다. 예를 들어, 일부 구현예에서, 서지 정보에 대해 프롬프트될 때, 사용자는 단순히 카메라 앞에 책의 사본을 들고 있을 수 있다. 카메라는 책의 하나 이상의 이미지를 캡처할 수 있으며, 광학 문자 인식, 바코드 및/또는 QR(quick review) 코드와 같은 책의 시각적 표시의 판독등과 같은 다양한 유형의 시각적 분석을 수행하여 서지 정보를 자동으로 검출할 수 있다. 또한, 다양한 실시예에서, 사용자에 의해 제공되는 서지 정보는 제목, 테마, 저자, 발행자, ISBN 번호 등과 같은 기존 저작물을 식별하는데 사용할 수 있는 임의의 식별자를 포함할 수 있다.

블록(608)에서, 시스템(예를 들어, 컨텐츠 모듈(136))은 블록(608)에서 수신된 서지 정보를 데이터베이스(예를 들어, 도 1의 서지 데이터베이스(152))내의 하나 이상의 기존 저작물과 매칭시킬 수 있다. 다양한 구현예에서, 서지 데이터베이스(152)의 매칭 엔트리(들)로부터 획득된 추가 정보는 예를 들어 사용자에 의해 궁극적으로 녹음되는 오디오 파일을 색인하는데 사용될 수 있다. 예로서, 사용자-제공 책 제목은 서지 데이터베이스(152)의 엔트리를 갖는 하나 이상의 기존 저작물과 매칭될 수 있다. 사용자가 책의 오디오 렌디션을 녹음한 후에, 기존 저작물에 관한 서지 데이터베이스(152)로부터 획득된 다양한 추가 정보는 예를 들어 내러티브 데이터베이스(154)에서 상기 녹음된 오디오 파일과 관련될 수 있다.

일부 실시 예에서, 시스템은 다른 유형의 서지 정보를 서지 데이터베이스(152)의 하나 이상의 엔트리와 매칭시킬 수 있다. 예를 들어, 사용자는 서지 데이터베이스에 저장된 하나 이상의 별칭 또는 키워드와 매칭하는 별칭 또는 다른 키워드를 제공할 수 있다. 예를 들어, 사용자는 캐릭터의 이름, 대체 제목, 부제등을 제공할 수 있다. 만약 사용자-제공 캐릭터가 서지 데이터베이스(152) 내의 다수의 엔트리(예를 들어, 캐릭터를 특징으로 하는 다수의 책)와 매칭하면, 모든 매칭 엔트리 또는 가장 근접한 x개의 매칭 엔트리와 관련된 추가 정보가 궁극적으로 녹음된 오디오 파일과 관련될 수 있거나, 사용자는 더 명확하게 할 수 있는 기회를 제공받을 수 있다.

일부 구현예에서, 블록(610)에서, 시스템은 매칭하는 기존 저작물과 관련된 다양한 추가 정보를 출력할 수 있다. 예를 들어, 일부 구현예에서, 디스플레이가 장착된 컴퓨팅 디바이스(예를 들어, 210)는 표지 및/또는 매칭하는 기존 저작물과 관련된 다른 미술품/삽화/사진을 렌더링할 수 있다. 일부 구현예에서, 추가 정보는 녹음 사용자가 정확한 기존의 저작물이 녹음과 연관되어 있음을 확인하도록 출력될 수 있다. 만약 부정확한 기존 저작물과 관련된 추가 정보가 출력되면, 사용자는 블록(608)에서 잘못된 기존 저작물이 매칭되었다는 통지를 받을 수 있으며, 예를 들어, 자동화 어시스턴트(120)가 정확한 기존 저작물을 매칭시키려고 시도할 수 있도록 자동화 어시스턴트(120)에게 추가 커멘드 및/또는 서지 정보를 제공할 수 있다.

블록(612)에서, 시스템은 녹음 사용자에 의해 제공된 내러티브의 가청 렌디션을 녹음할 수 있다. 예를 들어, 자동화 어시스턴트는 소리(noises)를 녹음하기 위해 (컴퓨팅 디바이스(210)와 통합된 또는 독립형의) 마이크로폰을 사용하는 녹음 상태로 천이할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 임계치를 만족하는 시간 간격을 갖는 일시 정지(pause)가 있을 때 녹음을 중단할 수 있다. 다른 구현예에서, 자동화 어시스턴트(120)는 상기 녹음 사용자가 의도적으로 녹음을 중지하라는 커맨드(예를 들면, "녹음 완료")를 발행하는 것에 응답하여 또는 키워드 또는 어구(예를 들어, "끝(The End))에 응답하여 녹음을 중단할 수 잇다. 일부 구현예에서, 자동화 어시스턴트(120)는 녹음되는 기존 저작물과 관련된 컨텐츠에 대한 액세스를 가질 수 있고, 기존 저작물의 말단 단어 또는 구문을 결정하기 위해 해당 컨텐츠를 분석할 수 있다. 그런 다음 해당 말단 단어 또는 구문은 녹음을 중지하도록 자동화 어시스턴트(120)를 트리거하기 위해 상기 녹음 사용자로부터 검출될 수 있다.

일부 구현예에서, 블록(614)에서, 자동화 어시스턴트(120)는 하나 이상의 사운드 효과를 녹음에 통합할 수 있다. 예를 들어, 이전에 설명한 바와 같이, 녹음 사용자는 네러티브의 가청 렌디션을 제공하면서 수동으로 사운드 효과를 간단하게 생성할 수 있다. 부가적으로 또는 대안적으로, 녹음 사용자는 자동 어시스턴트(120)에게 특정 단어 또는 문구(예를 들어, 도 4와 관련하여 전술한 바와 같이) 이후와 같은 다양한 지점에서 사운드 효과(예를 들어, 짧은 지속 기간의 오디오 파일)를 내러티브에 통합하도록 지시할 수 있다.

지금까지 설명된 비-제한적 사운드 효과에 더하여, 일부 구현예에서, 음악, 음성 변조(voice modification) 등과 같은 다른 유형의 사운드 효과가 녹음에 통합될 수 있다. 예를 들어, 다수의 상이한 캐릭터로부터의 녹음될 내러티브 피처 대화를 가정한다. 단일 사용자가 이러한 멀티-캐릭터 대화의 가청 렌디션을 제공할 것이라고 더 가정한다. 일부 구현예에서, 자동화 어시스턴트(120)는 (예를 들어, 녹음이 완료된 후 사후 처리하는) 사용자의 음성에 다양한 유형의 음성 변조(예를 들어, 피치 변경, 효과 추가, 볼륨 증가/감소 등)를 적용하여, 하나의 캐릭터에 의해 발화된 대화를 다른 캐릭터에 의해 발화된 대화와 가청적으로 구별할 수 있다.

다른 예로서, 일부 구현예에서, 다수의 사용자는 다수의 캐릭터(예를 들어, 대본 또는 극본)와 관련된 대사(lines)를 말하는 사용자들의 가청 렌디션을 녹음할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 상이한 캐릭터/배우에 의해 발화된 다사를 구별할 수 있고, 그 대사를 말하는 캐릭터(또는 그 캐릭터를 연기하는 배우), 그 대사의 전후에 어떤 대사가 오는지와 같은 정보를 이용하여 대사들(예를 들어, 오디오 파일의 일부에 포함될 수 있는)에 주석을 달 수 있다. 이후, 자동 어시스턴트(120)가 다중-화자 리딩(reading, 읽기)을 재생하도록 지시될 때, 사용자는 자동 어시스턴트에게 일부 캐릭터들(또는 배우들)이 말한 대사들만을 리딩하되, 청취하는 사용자에 의해 전달된 실시간 대사로부터 동기화하여 이들 대사를 리딩하도록 지시할 수 있다.

예를 들어, 자동화 어시스턴트(120)와의 제1 세션 동안(중에), 2명의 배우가 셰익스피어의 맥베스의 장면부터 리딩 대사를 녹음한다고 가정한다. 이후, 맥베스를 연기하는 제1 배우는, 맥베스 부인을 연기하는 제2 배우 없이, 자동화 어시스턴트(120)에게 맥베스 부인이 말한 대사들을 포함하는 오디오 파일의 부분들만을 재생하도록 지시할 수 있고, 실시간으로 제1 배우가 리딩하는 맥베스의 대사들과 동기화하여 이들을 리딩하도록 지시할 수 있다. 자동화 어시스턴트(120)는, 예를 들어, 서지 데이터베이스(152)에 저장된 맥베스의 대본에 기초하여, 맥베스의 대사에 매칭하는 제1 배우가 말한 대사를 실시간으로 검출할 수 있고, 그 직후 맥베스 부인의 응답 대사를 연기할 수 있다. 따라서, 하나의 장면에 대해, 제1 배우와 자동화 어시스턴트(120) 간의 대화는 다음과 같이 전개될 수 있다.

도 6을 다시 참조하면, 내러티브의 가청 렌디션의 녹음이 완료되면, 선택 블록(616)에서 시스템은 녹음된 오디오 파일의 승인을 요청할 수 있다. 일부 구현예에서, 시스템은 전체 오디오 파일을 재생하여 나중에 사용자가 승인하거나 비 승인하도록 할 수 있다. 다른 구현예에서, 시스템은 녹음 사용자가 예를 들어, 일부분을 삭제하고, 다수의 오디오 파일을 함께 연결함으로써 오디오 파일을 수정하도록 이상의 사용자 인터페이스(오디오, 그래픽 등)를 제공할 수 있다. 또 다른 구현예에서, 시스템은 녹음 기간(duration), 매칭된 기존 저작물 등과 같은 다른 정보를 사용자에게 제공할 수 있다. 블록(618)에서, 시스템은 이에 한정되지 않지만 사용자에 의해 제공된 서지 정보, 사용자에 의해 제공된 별명 또는 다른 키워드, 테마, 토픽, 서지 정보 데이터베이스(152)에서 획득된 서지 정보, 녹음 사용자의 신원(예를 들어, "엄마", "아빠"등)을 포함하여, 하나 이상의 데이터 포인트별로 내러티브 데이터베이스(154)내의 상기 녹음된 오디오 파일을 색인할 수 있다.

도 7은 본 명세서에 개시된 구현예에 따른 예시적인 방법(700)을 나타내는 흐름도이다. 편의상, 흐름도의 동작은 동작을 수행하는 시스템을 참조하여 설명된다. 이 시스템은 자동화 어시스턴트(120)의 하나 이상의 구성 요소와 같은 다양한 컴퓨터 시스템의 다양한 구성 요소를 포함할 수 있다. 또한, 방법(700)의 동작들이 특정 순서로 도시되어 있지만, 이에 한정되는 것은 아니다. 하나 이상의 동작은 재정렬, 생략 또는 추가될 수 있다.

블록(702)에서, 시스템은 음성 입력을 수신할 수 있다. 다양한 구현예에서, 음성 입력은 명시적 커맨드 또는 본 명세서에 설명된 기술을 사용하여 생성된 오디오 파일을 화자가 재생하기를 암시하는 암시적으로 제안하는 다른 명령문을 포함할 수 있다. 일부 구현예에서, 다양한 구문이 오디오 파일을 렌더링하는 커맨드에 매핑될 수 있다. 예를 들어, "나는 엄마가 그리워" 또는 "나는 아빠가 이야기를 읽는 방법을 좋아해"와 같은 구문은 자녀의 각각의 부모에 의해 녹음된(및 색인된) 오디오 파일을 렌더링하기 위한 명령에 커맨드에 매핑될 수 있다.

블록(704)에서, 시스템은 음성 입력에 대한 음성 처리(예를 들어, 화자 인식)를 수행하여, 예를 들어, 화자가 본 명세서에서 설명된 바와 같은 내러티브의 렌디션을 포함하는 오디오 파일을 이전에 녹음한 하나 이상의 사용자(예를 들어, 어른, 부모)와 다른지 여부를 결정할 수 있다. 부가적으로 또는 대안적으로, 일부 구현예에서, 시스템은 예를 들어, 어휘, 피치, 억양 등과 같은 음성 입력의 다양한 특성을 이용하여, 예를 들어 화자가 자녀일 가능성이 있는지 여부를 검출할 수 있다.

블록(702)에서 수신된 음성 입력이 오디오 파일을 명시적으로 식별하지 않는다고 가정하면, 블록(706)에서, 시스템은 원하는 오디오 파일을 식별하는데 사용될 수 있는 서지 입력을 사용자로부터 요청하는 출력을 제공할 수 있다. 이 출력은 많은 구현예에서 오디오 출력이 될 수 있지만, 다른 구현예에서 상기 출력은 시각(visual)과 같은 다른 형태로 나타날 수 있다. 블록(708)에서, 시스템은 효과적으로 검색 쿼리를 포함하고, 제목, 저자, 녹음 사용자, 별칭, 테마 등과 같은 서지 정보를 포함할 수 있는 오디오 입력을 수신할 수 있다(그러나 전형적으로는 이에 한정되지는 않음). 블록(710)에서, 시스템은 예를 들어 내러티브 데이터베이스(154)로부터 응답 결과를 검색할 수 있다.

블록(712)에서, 시스템은 블록(702)의 음성 처리에 기초하여, 화자가 녹음 사용자와 다른지 및/또는 자동화 어시스턴트(120)와 관련된(예컨대, 서비스되는) 사용자와 다른지 여부를 결정할 수 있다. 응답이 예이면, 방법(700)은 블록(714)으로 진행할 수 있다. 블록(714)에서, 시스템은 본 명세서에서 설명된 기술을 사용하여 녹음된(예를 들어, 내러티브 데이터베이스(154)에 저장된) 오디오 파일에 바이어싱된 검색 결과를 제공할 수 있다. 일부 구현예에서, 시스템은 검색 결과를 상기 자동화 어시스턴트(120)에 의해 서비스되는 사용자에 의해 제어되는 컨텐츠(예를 들어, 다른 문서, 이메일, 설정, 매체 등) 및/또는 인터넷 상에서 일반적으로 이용 가능한 컨텐츠와 같은 다른 컨텐츠를 피하여 바이어스할 수 있다. 일부 구현예에서, 이러한 바이어싱(biasing away)은 검색 결과로부터 내러티브 데이터베이스(154)에 포함되지 않은 적어도 일부 컨텐츠를 배제하는 것으로 간주한다.

부가적으로 또는 대안적으로, 일부 구현예에서, 시스템은 화자의 음성의 하나 이상의 오디오 특성에 기초하여 화자에 의해 제공된 음성 입력의 음성 인식을 바이어싱할 수 있다. 예를 들어, 시스템은 블록(702 및/또는 708)에서 수신된 음성 입력에 대한 음성 인식을 수행할 수 있다. 시스템은 또한 신원, 성별, 근사 연령 등과 같은 화자의 특성을 결정하기 위해, 음성 입력의 오디오 특성, 예를 들어 피치, 억양, 발음, 어휘 등을 분석할 수 있다. 음성 입력이 특정 오디오 특성(예를 들어, 아이가 말하고 있음)을 갖는다고 결정하는 것에 응답하여, 시스템은 본 명세서에 설명된 기술을 이용하여 녹음된 오디오 파일과 관련된 식별자(예를 들어, 서지 정보)를 인식하기 위해 상기 음성 인식을 바이어스할 수 있다.

다시 도 7을 참조하면, 블록(712)에서의 응답이 아니오(즉, 사용자가 오디오 파일을 녹음한 동일 사용자 및/또는 자동화 어시스턴트(120)에 의해 서비스되는 사용자)인 경우, 방법(700)은 블록(716)으로 진행할 수 있다. 블록(716)에서, 시스템은 예를 들어 내러티브 데이터베이스(154)에 포함된 컨텐츠 이외에 자동화 어시스턴트에 의해 서비스되는 사용자에 의해 제어되는 컨텐츠, 인터넷상에서 이용 가능한 컨텐츠 등을 포함할 수 있는 바이어스되지 않은(unbiased) 검색 결과를 제공할 수 있다.

블록(718)에서, 시스템은 검색 결과로부터 사용자 선택을 포함하는 입력을 수신할 수 있다. 예를 들어, 일부 구현예에서, 블록(714/716)에서, 시스템은 검색 결과(내러티브 데이터베이스(154)로부터의 이전에 녹음된 응답 오디오 파일을 포함하는)의 오디오 리스트를 제공할 수 있고, 사용자는 이들 결과로부터 선택하는 오디오 입력을 제공할 수 있다. 다른 구현에서, 블록(714/716)에서, 시스템은 검색 결과의 시각적 리스트를 갖는 그래픽 사용자 인터페이스를 제공할 수 있고, 사용자는 예를 들어, 마우스, 터치 스크린 입력을 사용하거나 또는 원하는 결과를 말함으로써 이들 결과로부터 선택할 수 있다.

블록(720)에서, 시스템은 상기 선택된 오디오 파일을 청각적으로 렌더링할 수 있다. 일부 구현예에서, 시스템은 오디오 파일을 청각적으로 렌더링한 후에 다른 출력을 제공할 수 있다. 예를 들어, 시스템은 다양한 팩트(facts, 사실), 퀴즈 또는 기존 저작물 및/또는 저자와 관련된 다른 정보를 제공할 수 있다. 예를 들어, "메리에겐 새끼양이 있어요"이라는 녹음의 오디오 파일을 렌더링한 후, 자동화 어시스턴트(120)는 "그 노래 '메리에겐 새끼양이 있어요'의 저자가 왜 미국인들이 추수 감사절을 축하는지의 원인이 되는지 알고 있나요?"와 같은 퀴즈를 출력할 수 있다.

일부 구현예에서, 블록(716)에서, 시스템은 녹음된 오디오 파일과 무관한 쿼리(예를 들어, 블록(702 또는 708)에서 수신된)에 직접적으로 응답하는 정보를 제공할 수 있고(이 경우 적어도 블록(706)은 될 수 있음), 본 명세서에 설명된 기술을 사용하여 녹음하는 오디오 파일에 대응하는 검색 결과를 제공할 수 있다. 예를 들어, 사용자가 "마크 트웨인이 죽었을 때의 나이는 몇 살입니까?"와 같이 저자에 대한 일반 검색 쿼리를 제공한다고 가정해 보자. 자동화 어시스턴트(120)는 먼저 응답("74")을 제공함으로써 응답할 수 있다. 그러면, 자동화 어시스턴트 (120)는 내러티브 데이터베이스(154)에 저장된 하나 이상의 오디오 파일이 마크 트웨인과 관련된(예컨대, 마크 트웨인이 쓴, 마크 트웨인을 언급한) 것으로 결정할 수 있다. 그 결정에 기초하여, 자동화 시스템은 사용자가 하나 이상의 마크 트웨인-관련 오디오 파일을 재생할지 여부를 묻는 출력(예를 들어, "그런데, 마크 트웨인이 쓴 2개의 제목을 녹음했습니다. 제가 하나를 읽을 까요?")을 제공함으로써 후속 조치를 취할 수 있다.

도 8은 본 명세서에서 설명된 기술들의 하나 이상의 양태를 수행하기 위해 선택적으로 이용될 수 있는 예시적인 컴퓨팅 디바이스(810)의 블록도이다. 일부 구현예에서, 클라이언트 컴퓨팅 디바이스, 자동화 어시스턴트(120) 및/또는 다른 구성 요소(들) 중 하나 이상은 예시적인 컴퓨팅 디바이스(810)의 하나 이상의 구성 요소를 포함할 수 있다.

컴퓨팅 디바이스(810)는 전형적으로 버스 서브 시스템(812)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 프로세서(814)를 포함한다. 이러한 주변 디바이스는 예를 들어 메모리 서브 시스템(825) 및 파일 저장 서브 시스템(826), 사용자 인터페이스 출력 디바이스(820), 사용자 인터페이스 입력 디바이스(822) 및 네트워크 인터페이스 서브 시스템(816)을 포함하는 저장 서브 시스템(824)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨팅 디바이스(810)와의 사용자 상호 작용을 허용한다. 네트워크 인터페이스 서브 시스템(816)은 외부 네트워크에 인터페이스를 제공하고 다른 컴퓨팅 디바이스의 대응 인터페이스 디바이스에 연결된다.

사용자 인터페이스 입력 디바이스(822)는 키보드, 포인팅 디바이스(예컨대, 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿), 스캐너, 디스플레이에 통합된 터치 스크린, 음성 인식 시스템과 같은 오디오 입력 디바이스, 마이크로폰, 및/또는 다른 유형의 입력 디바이스를 포함할 수 있다. 일반적으로, "입력 디바이스"라는 용어의 사용은 컴퓨팅 디바이스(810)에 또는 통신 네트워크 상에 정보를 입력하는 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스(820)는 디스플레이 서브 시스템, 프린터, 팩스 머신, 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 디바이스, 프로젝션 디바이스, 또는 가시적 이미지를 생성하기 위한 몇몇 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한 오디오 출력 디바이스를 통한 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 디바이스"라는 용어의 사용은 컴퓨팅 디바이스(810)로부터 사용자 또는 다른 기계 또는 컴퓨팅 디바이스로 정보를 출력하는 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.

저장 서브 시스템(824)은 본 명세서에 설명된 모듈의 일부 또는 모든 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 저장 서브 시스템(824)은 도 6 및 도 7의 방법의 선택된 양태를 수행할 뿐만 아니라 도 1에 도시된 다양한 구성 요소를 구현하는 로직을 포함할 수 있다.

이들 소프트웨어 모듈은 일반적으로 프로세서(814) 단독으로 또는 다른 프로세서와 조합하여 실행된다. 저장 서브 시스템(824)에서 사용되는 메모리(825)는 프로그램 실행 동안 명령들 및 데이터를 저장하기 위한 주 랜덤 액세스 메모리 (RAM)(530) 및 고정 명령들이 저장되는 판독 전용 메모리(ROM)(832)를 포함하여 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(826)은 프로그램 및 데이터 파일을 위한 영구 저장 장치를 제공할 수 있으며, 하드 디스크 드라이브, 관련 이동식 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지를 포함할 수 있다. 소정 구현예들의 기능을 구현하는 모듈들은 저장 서브 시스템(824)의 파일 저장 서브 시스템(826) 또는 프로세서(들)(814)에 의해 액세스 가능한 다른 머신에 의해 저장될 수 있다.

버스 서브 시스템(812)은 컴퓨팅 디바이스(810)의 다양한 구성 요소들 및 서브 시스템들이 의도된 바와 같이 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브 시스템(812)이 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브 시스템의 다른 구현예는 다수의 버스를 사용할 수 있다.

컴퓨팅 디바이스(810)는 워크 스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 8에 도시된 컴퓨팅 디바이스(810)의 설명은 일부 구현예를 설명하기 위한 특정 예로서만 의도된다. 컴퓨팅 디바이스(510)의 많은 다른 구성은 도 8에 도시된 컴퓨팅 디바이스보다 많거나 적은 구성 요소를 가질 수 있다.

본 명세서에서 논의된 특정 구현예가 사용자들에 관한 개인 정보(예를 들어, 다른 전자 통신으로부터 추출된 사용자 데이터, 사용자의 사회적 네트워크에 관한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보, 사용자 활동 및 인구 통계 정보)를 수집하거나 사용할 수 있는 상황에서, 사용자에게 정보의 수집 여부, 개인 정보의 저장 여부, 개인 정보의 사용 여부, 및 저장 및 사용되는 사용자에 대한 정보의 수집 방법을 제어할 수 있는 하나 이상의 기회가 제공된다. 즉, 본 명세서에서 논의된 시스템 및 방법은 관련 사용자로부터 명시적 승인을 받은 경우에만 사용자 개인 정보를 수집, 저장 및/또는 사용한다.

예를 들어, 사용자는 프로그램들 또는 기능들이 그 특정 사용자 또는 프로그램 또는 기능과 관련된 다른 사용자들에 대한 사용자 정보의 수집 여부를 제어할 수 있다. 개인 정보가 수집되는 각 사용자에게는 그 사용자와 관련된 정보 수집을 제어할 수 있는 하나 이상의 옵션이 제공되어, 정보 수집 여부 및 정보의 어떤 부분을 수집할지에 대한 허가 또는 승인을 제공한다. 예를 들어, 사용자는 통신 네트워크를 통해 하나 이상의 이러한 제어 옵션을 제공받을 수 있다. 또한, 소정 데이터는 개인 식별 정보가 제거될 수 있도록 저장 또는 사용 전에 하나 이상의 방법으로 처리될 수 있다. 일 예로서, 사용자의 신원은 개인 식별 정보가 결정될 수 없도록 처리될 수 있다. 다른 예로서, 사용자의 특정 위치가 결정될 수 없도록 사용자의 지리적 위치는 보다 큰 영역으로 일반화될 수 있다. 본 발명의 문맥에서, 부모-자식 관계와 같은 시스템에 의해 캡쳐된 임의의 관계는 안전한 방식, 예를 들어, 자연어 입력을 파싱 및/또는 해석하기 위해 이들 관계를 사용하여 자동화 어시스턴트 외부에서 액세스할 수 없도록 유지될 수 있다. 예를 들어, 자동화 어시스턴트가 본 명세서에 설명된 기술을 연습할 목적으로 정보를 습득했더하도(예를 들어, 엄마가 "내 딸 샐리에게 이야기를 녹음해 주고 싶어"라고 말함), 자동화 어시스턴트는 "샐리의 엄마는 누구입니까?"와 같은 질문에 대한 답변을 하지 않을 수 있다. 본 명세서에 설명된 기술을 연습하면서 사용자에 대해 자동화 어시스턴트가 습득한 다른 인구 통계 정보(예를 들어, 연령, 성별, 기능 등)도 마찬가지이다.

몇몇 구현예가 본 명세서에서 기술되고 도시되었지만, 기능을 수행하여 및/또는 결과 및/또는 본 명세서에 기술된 하나 이상의 장점을 얻기 위한 다양한 다른 수단 및/또는 구조가 이용될 수 있으며, 이러한 변형들 및 및/또는 수정들 각각은 본 명세서에 기술된 구현 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 기술된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것이며, 실제 파라미터, 치수, 재료 및/또는 구성은 특정 애플리케이션 또는 그 교시(teaching)가 사용되는 애플리케이션에 따라 다르다. 당업자는 일상적인 실험만을 사용하여 본 명세서에 기술된 특정 구현예들에 대한 많은 등가물을 인식하거나 또는 확인할 수 있을 것이다. 따라서, 전술한 구현예들은 단지 예로서 제시되고, 첨부된 청구 범위 및 그 등가물의 범위 내에서 구현은 구체적으로 기술되고 청구된 것과 다르게 실시될 수 있음을 이해해야 한다. 본 발명의 구현들은 본 명세서에 기술된 각각의 개별적인 피처, 시스템, 물품(articles), 재료, 키트 및/또는 방법에 관한 것이다. 또한, 이러한 피처, 시스템, 물품, 재료, 키트 및/또는 방법이 상호 모순적이지 않은 경우, 둘 이상의 피처, 시스템, 물품, 재료, 키트 및/또는 방법의 임의의 조합은 본 발명의 범위 내에 포함된다.

Claims

음성 인식(voice-enabled) 방법에 있어서,
제1 사용자가 오디오 컨텐츠를 녹음(record)하려고 의도함을 나타내는 입력을 제1 사용자로부터 수신하는 것에 응답하여, 오디오 컨텐츠의 캡처 및 저장을 수행(cause)하는 단계와;
상기 오디오 컨텐츠에 대한 적어도 하나의 식별자를 나타내는 입력을 제1 사용자로부터 수신하는 단계와;
저장된 오디오 컨텐츠를 상기 적어도 하나의 식별자와 연관시키는 단계와;
후속 사용자로부터 음성(voice) 입력을 수신하는 단계와;
상기 음성 입력의 특성을 분석하는 단계와;
상기 음성 입력이 특정 특성을 갖는다고 결정하는 것에 응답하여, 상기 적어도 하나의 식별자의 인식에 대한 음성 입력에 대하여 음성(speech) 인식을 바이어싱하는 단계로서, 상기 적어도 하나의 식별자가 인식되는 가능성을 증가시키기 위해 음성-텍스트 변환 모델의 하나 이상의 값을 변경하거나 음성-텍스트 변환 모델에 의해 생성된 값을 수정하는 단계를 포함하고, 상기 특정 특성은 후속 사용자가 제1 사용자와 다른 누군가임을 나타내고; 그리고
상기 바이어싱된 음성 인식에 기초하여, 상기 음성 입력내의 적어도 하나의 식별자의 존재를 인식하는 것에 응답하여, 상기 저장된 오디오 컨텐츠의 재생을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제1항에 있어서,
상기 음성 입력의 비-인식(non-recognition)을 야기하는 상기 바이어싱된 음성 인식에 응답하여, 상기 후속 사용자가 상기 저장된 컨텐츠의 재생을 가능하게 하는 선택 가능한 옵션을 후속 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제2항에 있어서,
상기 선택 가능한 옵션은 상기 적어도 하나의 식별자를 포함하는 것을 특징으로 하는 음성 인식 방법.
제2항에 있어서,
상기 선택 가능한 옵션은 오디오 프롬프트인 것을 특징으로 하는 음성 인식 방법.
제1항에 있어서,
상기 제1 사용자가 상기 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 상기 제1 사용자로부터의 입력을 수신하는 것에 응답하여, 상기 적어도 하나의 식별자를 나타내는 상기 입력을 제공하도록 제1 사용자에게 지시하는 프롬프트를 제1 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
음성 인식 컴퓨터 구현 방법에 있어서,
하나 이상의 입력 디바이스에서 음성-작동(voice-activated) 제품에 의해, 사용자로부터 제1 커맨드를 수신하는 단계와, 상기 제1 커맨드는 사용자가 내러티브의 가청 렌디션(rendition)을 녹음하기를 원함을 음성-작동 제품에 통지하고;
하나 이상의 입력 디바이스에서 상기 음성-작동 제품에 의해, 사용자로부터 서지 입력을 수신하는 단계와, 상기 서지 입력은 상기 내러티브와 관련된 서지 정보를 나타내고;
오디오 입력 디바이스를 통해 상기 음성-작동 제품에 의해, 사용자에 의해 발화된 상기 내러티브의 상기 가청 렌디션을 녹음하는 단계와;
상기 음성-작동 제품에 이용 가능한 컴퓨터 메모리에, 사용자에 의해 발화된 내러티브의 상기 녹음된 가청 렌디션을 포함하는 오디오 파일을 저장하는 단계와, 상기 오디오 파일은 상기 서지 정보에 적어도 부분적으로 기초하여 상기 컴퓨터 메모리에서 색인되고; 그리고
오디오 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 후속 사용자로부터 하나 이상의 입력 디바이스에서 수신된 제2 커맨드에 응답하여 상기 오디오 파일을 렌더링하는 단계를 포함하고, 상기 제2 커맨드는 상기 서지 정보의 표시를 포함하고,
상기 제2 커맨드는 음성 입력내의 상기 서지 정보의 표시의 존재를 인식하는 것에 응답하여 실행되고,
상기 음성 입력내의 상기 서지 정보의 표시의 존재를 인식하는 단계는 상기 음성 입력이 특정 특성을 갖는 것으로 결정되면, 상기 서지 정보의 표시의 존재를 를 인식하기 위해 상기 음성 입력에 대한 음성 인식을 바이어싱하는 단계를 포함하고, 상기 특정 특성은 후속 사용자가 상기 사용자와 다른 누군가임을 나타내고, 그리고
상기 서지 정보의 표시를 인식하기 위해 상기 음성 입력을 바이어 싱하는 단계는 상기 서지 정보의 표시가 인식될 가능성을 증가시키기 위해 음성-텍스트 변환 모델의 하나 이상의 값을 변경하거나 음성-텍스트 변환 모델에 의해 생성된 값을 수정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 제1 커맨드는 상기 오디오 입력 디바이스를 통해 수신된 음성(speech)을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
하나 이상의 출력 디바이스에서 상기 음성-작동 제품에 의해, 상기 내러티브와 관련된 상기 서지 정보에 대한 요청을 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 서지 입력은 상기 오디오 입력 디바이스를 통해 수신된 음성을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 제2 커맨드는 상기 오디오 입력 디바이스를 통해 수신된 음성을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 내러티브는 기존 기록 저작물을 포함하고, 상기 방법은 상기 서지 정보를 데이터베이스내의 기존 기록 저작물과 매칭시키는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제11항에 있어서,
하나 이상의 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 상기 기존 기록 저작물과 추가 정보를 데이터베이스에 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제12항에 있어서,
상기 추가 정보는 상기 기존 기록 저작물을 나타내는 시각적 렌디션을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제11항에 있어서,
상기 오디오 파일은 상기 데이터베이스 내의 기존 기록 저작물과 관련된 추가 정보에 기초하여 상기 컴퓨터 메모리에서 더 색인되는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 컴퓨터 메모리는 대응하는 서지 정보에 의해 색인된 복수의 녹음된 오디오 파일을 저장하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제15항에 있어서,
상기 복수의 오디오 파일은 복수의 오디오 파일을 녹음한 사용자들의 신원에 의해 더 색인되는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 음성-작동 제품에 의해 상기 오디오 파일에, 상기 사용자에 의해 선택된 하나 이상의 사운드 효과를 통합하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제6항에 있어서,
상기 제2 커맨드가 상기 사용자와 다른 사용자에 의해 발화되었는지를 결정하기 위해 상기 제2 커맨드에 대해 음성(voice) 분석을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
제18항에 있어서,
상기 음성-작동 제품에 의해, 상기 음성 분석에 기초하여 상기 다른 사용자에 대해 맞춤화된 양방향 대화를 개시하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법.
음성 인식(voice-enabled) 디바이스로서,
하나 이상의 프로세서와;
상기 하나 이상의 프로세서와 동작 가능하게 결합된 하나 이상의 스피커와;
상기 하나 이상의 프로세서와 동작 가능하게 결합된 하나 이상의 마이크로폰과; 그리고
상기 하나 이상의 프로세서와 동작 가능하게 결합된 메모리를 포함하고, 상기 메모리는 명령들을 저장하고, 상기 메모리는 상기 하나 이상의 프로세서에 의한 명령들의 실행에 응답하여, 제6항 내지 제19항 중 임의의 어느 한 항의 방법이 수행되게 하는 명령들을 저장하는 것을 특징으로 하는 음성 인식 디바이스.