KR20120091325A - 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 - Google Patents
전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 Download PDFInfo
- Publication number
- KR20120091325A KR20120091325A KR1020127014737A KR20127014737A KR20120091325A KR 20120091325 A KR20120091325 A KR 20120091325A KR 1020127014737 A KR1020127014737 A KR 1020127014737A KR 20127014737 A KR20127014737 A KR 20127014737A KR 20120091325 A KR20120091325 A KR 20120091325A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- electronic visual
- electronic
- cue
- file
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/062—Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
본 발명은 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생에 관한 것으로, 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계, 및 상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함한다.
Description
본 출원은 2009년 11월 10일 출원된 미국 출원 번호 61/259,995호에 대한 우선권을 미국 특허법(35 U.S.C) 119(3)항 하에 주장하고, 이 미국 출원의 모든 내용은 참조로서 본 명세서에 포함된다.
전자식 책은 텍스트로 이루어진 기본적인 멀티미디어 자료(work) 중 하나일 뿐 아니라, 그래픽(graphics) 및 이미지(images)와 같은 또 다른 시각(visual) 미디어를 포함할 수 있다. 전자식 책에서 텍스트는 또 다른 시각 미디어와 수반될 수 있으며, 일반적으로 전자식 책은, 한 자리에서 그러할 필요가 없음에도 불구하고, 시작부터 끝까지 읽혀지게 된다.
전자식 책에 대해 다양한 파일 포맷(format)들이 있는데, 마크업 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 등) 및 .pdf 파일, 일반문서파일(plain text file)과 같은 또 다른 데이터 파일 유형을 포함한다. 그러나 이에 제한되지 않는다. 다양한 파일 포맷은 Amazon.com의 KINDLE 리더기와 같은 전자식 책 리더기(readers)를 통해 이용된다. 이러한 책 리더기는 일반적으로 개인용 컴퓨터, 노트북 컴퓨터, 랩탑(laptop) 컴퓨터, 태블릿(tablet) 컴퓨터, 모바일 디바이스 또는 전자식 책을 판독하기 위한 전용 하드웨어 시스템(예를 들어, KINDLE 리더기)과 같은 플랫폼(platform)에서 실행되도록 설계된 컴퓨터 프로그램이다.
전자식 책은 사운드트랙(soundtrack)과 함께 제공되고, 독자(reader)는 전자식 책을 읽는 동안 이를 들을 수 있다. 사운드트랙의 목적은 읽기 경험을 수반하고 강화하기 위함이고, 독자는 일반적으로 이야기 또는 전자식 책의 일부인 또 다른 시각 미디어에 기초하여 그들의 마음속에 이미지를 갖는다. 사운드트랙의 재생은 전자식 책의 시각적 디스플레이와 동기화된다.
책이 독자에 의해 읽혀지는 동안, 전자식 책의 시각적 디스플레이에 대해 사운드트랙의 재생을 동기화하는 것은 도전적인 문제이다. 서로 다른 개인들은 서로 다른 속도로 읽고, 서로 다른 개인들은 서로 다른 시간에 서로 다른 속도로 읽을 것이다. 전자식 책의 일부의 시각적 디스플레이의 지속기간은, 독자로부터 독자로 의 지속시간 및 시간의 서로 다른 시점 사이에서 다양하다. 또 다른 표현으로, 전자식 책의 일부의 시각적 디스플레이의 지속시간은 가변적이고, 전자식 책과의 사용자 상호작용에 의존적이다. 그러나 시간 의존적인 미디어의 종류인 사운드트랙의 재생은 이러한 시각적 디스플레이와 동기화된다.
복수의 독자에게 적용가능한 방법으로 사운드트랙과 함께 좋은 읽기 경험을 제공하기 위해, 오디오 큐(audio cue)는 텍스트에서 서로 다른 포인트와 연관되어 있고, 이러한 큐들이 전자식 책과의 사용자 상호작용에 기초하여 전자식 책의 시각적 디스플레이와 동기화되어 동적으로 재생된다. 동적 재생은 오디오 큐를 편집하고 재생하는 것을 포함하므로, 큐가 동기화되는 전자식 책의 일부의 지속기간의 예측에 기초하여 지속기간을 가진다. 시스템이 오디오 큐의 재생을 시작할 때, 이것은 다음 오디오 큐가 시작되어야 하는 시점을 예측한다. 현재 큐는 예측된 지속기간동안 재생되고, 다음 오디오 큐에 대한 과도기(transition)가 적절한 시기에 초기화된다.
이러한 사운드트랙은 일반적으로 단지 소정의 음악 또는 사운드(sound)가 아니며, 복수의 음악 및 사운드는 읽기 경험을 강화시키는 대신 독자를 산만하게 할 수도 있다. 대신, 사운드트랙은 독자에게 감성을 이끌어내도록(evoke) 설계된 음악 및 사운드를 포함하고, 이러한 감성은 텍스트에 의해 이끌어내질 수 있는 감성들과 유사하다. 일반적으로, 전자식 책에 대한 사운드트랙은 밝은 과도(transient) 사운드가 거의 없고, 음성이 없고, 음악에 대해 보조적(spare)이면서 약간은 최면술(hypnotic)적인 느낌이 있을 때, 이점(benefits)이 있다. 너무 빠르거나 너무 긴장되는 장르적인(Genre-wise) 음악은 읽는 것을 산만하게 하고, 어렵게 할 수 있다.
다양한 측면에서, 본 발명은 컴퓨터 구현 프로세스, 기기(예를 들어, 전자식 디바이스, 또는 일반적인 목적의 컴퓨터 또는 컴퓨터 프로그램이 실행될 수 있는 플랫폼을 제공하는 또 다른 디바이스), 이러한 기기에서 실행되는 프로세스들 또는 제조물(article of manufacture)에서 구체화될 수 있다. 이러한 제조물은, 컴퓨터 프로그램 인스트럭션 또는 그것에 대해 저장된 컴퓨터 판독 데이터를 포함하는 컴퓨터 판독 저장 매체, 및 이러한 제조물을 생성하고 이용하는 프로세스 및 기기들에서의 컴퓨터 프로그램 제품 또는 디지털 정보 제품을 포함할 수 있다.
따라서, 일 측에서, 오디오의 동적 재생은 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계를 포함한다. 전자식 시각자료의 일부에 연관된, 재생될 오디오의 섹션은 사용자 상호작용에 따라 길이가 동적으로 조정된다. 구현예에서, 상기 전자식 시각자료의 일부의 시각적 디스플레이의 지속시간은 수신된 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라 추정된다. 전자식 시각자료의 일부에 연관된 오디오의 서브-믹스의 시퀀스는 추정된 지속시간과 매칭될 것이다. 상기 추정은 읽기 속도의 이력을 이용하여 수행될 수 있다.
또 다른 측면에서, 사운드트랙은 전자식 시각자료의 디스플레이와 동기화되어 재생된다. 전자식 시각자료는 메모리로 수신된다. 태그를 갖는 상기 전자식 시각자료의 일부와 연관된 정보 또한 메모리로 수신된다. 사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부가 디스플레이된다. 태그를 갖는 오디오 파일이 접근된다. 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일이 선택된다. 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터가 수신되고, 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간이 상기 사용자 상호작용에 따라 동적으로 조정된다.
또 다른 측면에서, 전자식 시각자료에 대한 사운드트랙이 생성된다. 전자식 시각자료가 메모리로 수신된다. 태그된 오디오 파일의 특정 일부와 연관될 태그들과 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 전자식 시각자료가 상기 메모리에서 처리된다. 적절한 태그를 갖는 오디오 파일이 접근되고, 전자식 시각자료의 일부에 대한 타겟 오디오 파일이 선택되고, 결과로 나타난 사운드트랙을 생성하고 재생하기 위해 연관된다. 전자식 시각자료는 텍스트를 포함할 수 있고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함한다. 태그는 감성 디스크립터를 포함한다.
또 다른 측면에서, 큐 리스트는 전자식 시각자료의 각각의 일부에 대해 감성 디스크립터를 갖고, 감성 디스크립터는 오디오 파일과 또한 연관된 감성 디스크립터에 대응한다.
또 다른 측면에서, 오디오 큐는, 독자에게 들릴 최종 결과를 생성하기 위해 어떻게 스템이 반복되고 결합될 수 있는지를 나타내는 정보 및 오디오 데이터를 제공하기 위해 믹스될 수 있는 음악 자료의 복수의 서브믹스("스템")에 대한 오디오 데이터를 포함한다.
또 다른 측면에서, 사운드 트랙 및 이와 연관된 전자식 시각자료의 분배가, 마치 사운드트랙이 유효하지 않은 것처럼 동일한 방법으로 전자식 시각자료가 보여질 수 있도록 하는 방법으로 수행된다. 독자가 전자식 시각자료에 접근한 후, 큐 리스트는 식별되고 읽혀진다. 사운드트랙의 제1 큐가 전자식 시각자료의 디스플레이와 동기화되어 재생되는 동안, 백그라운드 태스크로서, 오디오 데이터가 다운로드된다.
또 다른 측면들은 하기 상세한 설명에서 출발되고, 본 발명의 서로 다른 측면의 다양한 조합에 의해 제공된다.
본 발명은 사운드트랙의 재생과 전자식 책의 시각적 디스플레이를 동기화할 수 있다.
도 1은 동적 오디오 재생기와 전자식 책 리더기의 데이터 흐름도이다.
도 2는 도 1의 동적 오디오 재생기를 보다 상세하게 나타내는 데이터 흐름도이다.
도 3은 큐 리스트를 나타낸다.
도 4는 오디오 큐 파일을 나타낸다.
도 5는 전자식 책이 오픈될 때 셋업 프로세스를 나타내는 흐름도이다.
도 6은 원하는 지속기간의 오디오 데이터를 생성하기 위해 어떻게 오디오 큐 파일이 이용되는지를 설명하는 흐름도이다.
도 7은 읽기 속도를 어떻게 산출하는지를 설명하는 흐름도이다.
도 8은 전자식 책에 대해 어떻게 사운드트랙이 자동적으로 생성될 수 있는지를 설명하는 데이터 흐름도이다.
도 9는 컴퓨터 시스템의 블록도이다.
도 2는 도 1의 동적 오디오 재생기를 보다 상세하게 나타내는 데이터 흐름도이다.
도 3은 큐 리스트를 나타낸다.
도 4는 오디오 큐 파일을 나타낸다.
도 5는 전자식 책이 오픈될 때 셋업 프로세스를 나타내는 흐름도이다.
도 6은 원하는 지속기간의 오디오 데이터를 생성하기 위해 어떻게 오디오 큐 파일이 이용되는지를 설명하는 흐름도이다.
도 7은 읽기 속도를 어떻게 산출하는지를 설명하는 흐름도이다.
도 8은 전자식 책에 대해 어떻게 사운드트랙이 자동적으로 생성될 수 있는지를 설명하는 데이터 흐름도이다.
도 9는 컴퓨터 시스템의 블록도이다.
하기와 같은 설명에서, 특정 상세설명이 구현예에 대한 완전한 이해를 제공하기 위해 주어진다. 그러나 이는 본 발명이 속하는 기술분야의 당업자에 의해 이해되어질 것이며, 구현예는 이러한 특정 상세설명 없이도 구현될 수 있다. 예를 들어, 소프트웨어 모듈(modules), 함수(function), 회로 등은 불필요한 상세설명에서 구현예를 모호하게 하지 않기 위해서 블록도에 나타날 수 있다. 또 다른 예에서, 잘 알려진 모듈들, 구조들 및 테크닉들(techniques)이 구현예를 모호하게 하지 않기 위해서 상세설명에 나타나지 않을 수도 있다.
또한, 플로차트(flowchart), 흐름도, 구조도 또는 블록도로서 묘사된 프로세스와 같이 구현예가 설명될 수 있다는 것이 자명하다. 플로차트가 연속적인 프로세스로서 오퍼레이션(operations)을 설명할 수 있음에도 불구하고, 많은 오퍼레이션들은 병렬적으로 또는 동시에 실행될 수 있다. 추가적으로, 오퍼레이션의 순서는 재배열(rearranged)될 수 있다. 프로세스는 그것의 오퍼레이션이 완료될 때 종료된다. 프로세스는 컴퓨터 프로그램에서 방법, 함수, 프로시져(procedure), 서브루틴(subroutine), 서브프로그램(subprogram) 등에 대응할 수 있다. 프로세스가 함수에 대응하는 경우, 이것의 종료는 호출 함수 또는 주요 함수로의 함수의 반환에 대응한다.
하기에서 설명되는 시스템 및 방법의 측면은 데스크탑, 랩탑, 노트북, 태블릿 또는 모바일 디바이스를 포함하는, 그러나 이에 제한되지 않는, 일반적인 목적의 컴퓨터 시스템 또는 컴퓨팅 디바이스의 어떠한 유형에서도 실행가능할 수 있다. "모바일 디바이스"라는 용어는 무선 디바이스, 모바일 폰, 모바일 통신 디바이스, 사용자 통신 디바이스, 개인용 디지털 보조장치(assistant), 모바일 소형(hand-held) 컴퓨터, 랩탑 컴퓨터, 전자식 책 리더기 및 전자식 컨텐츠를 판독(reading)할 수 있는 판독 디바이스 및/또는 개인에 의해 전형적으로 휴대(carried)되고 및/또는 복수의 형태의 통신 성능(capabilities)을 갖는(예를 들어, 무선, 적외선, 근거리 통신(radio) 등) 또 다른 유형의 모바일 디바이스를 포함한다. 그러나 이에 제한되지 않는다.
도 9는 이하 보다 상세하게 설명되는 시스템 및 방법의 하나 이상의 측면들에서 유용한 컴퓨터 시스템(900)의 내부 기능적인 아키텍쳐(architecture)를 나타내는 블록도이다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 컴퓨터-실행 프로세스 단계 및 컴퓨터 버스(916)와의 인터페이스를 실행하기 위한 중앙 처리 장치(CPU)(914)를 포함할 수 있다. 또한, 도 9에 도시된 바와 같이, 네트워크 인터페이스(918), 디스플레이 디바이스 인터페이스(920), 키보드 또는 입력 인터페이스(922), 포인팅 디바이스 인터페이스(924), 오디오 인터페이스(926), 비디오 인터페이스(932) 및 하드디스크 드라이브(934) 또는 또 다른 지속 저장장치이다.
상기에서 설명된 바와 같이, 디스크(934)는 오퍼레이팅 시스템 프로그램 파일, 어플리케이션 프로그램 파일, 웹 브라우저(web browsers) 및 또 다른 파일들을 저장할 수 있다. 이러한 파일들의 일부는 인스톨레이션(installation) 프로그램을 이용하는 디스크(934)에 저장될 수 있다.예를 들어, CPU(914)는 인스톨레이션 프로그램의 컴퓨터-실행 프로세스 단계를 실행할 수 있으므로, CPU(914)는 어플리케이션 프로그램을 적절하게 실행할 수 있다.
랜덤 액세스 메인 메모리("RAM")(936)는 CPU(914)가 메모리 저장장치에 접근할 수 있도록 컴퓨터 버스(916)와 또한 인터페이스(interface)할 수 있다. 디스크(934)로부터 저장된 컴퓨터-실행 프로세스 단계를 실행할 때, CPU(914)는 RAM(936)의 외부에 프로세스 단계를 저장하고 실행한다. 처리될 데이터 역시 이러한 메모리(936) 또는 저장장치(934)로부터 읽혀질 수 있고, 이러한 메모리(936) 또는 저장장치(934)에 저장될 수 있다. 리드 온리 메모리(read only memory, "ROM")(938)는 스타트-업(start-up) 인스트럭션 시퀀스 또는 키보드(922)의 오퍼레이션에 대한 기본 입력/출력 오퍼레이팅 시스템(BIOS) 시퀀스와 같은 불변(invariant) 인스트럭션 시퀀스를 저장하기 위해 제공될 수 있다.
전자식 책 리더기, 또는 전자식 책 및 또 다른 멀티미디어 자료의 시각적 디스플레이를 제공하기 위한 또 다른 어플리케이션은 도 9에 설명된 바와 같이 플랫폼에서 구현될 수 있다.
하기 설명에서, 전자식 책과 전자식 책 리더기는 멀티미디어 자료의 종류의 실시예로서 이용되고, 사운드트랙의 재생이 동기화될 수 있는 뷰어(viewer)에 대응한다. 자료의 일부의 시각적 디스플레이의 지속시간이 자료와의 사용자 상호작용에 의존적인 또 다른 종류의 멀티미디어 자료는 또한 이러한 종류의 동기화를 이용할 수 있다. 전자식 책이라는 용어는 주로 텍스트, 또는 그래픽 또는 또 다른 시각적 미디어를 수반하는 텍스트인 인컴파스 책(encompass book), 매거진, 뉴스레터, 신문, 정기간행물, 지도, 기사 및 또 다른 자료들일 것이다.
사운드트랙은 전자식 책을 포함하는 어떠한 종류의 전자식 시각자료와도 연관될 수 있다. 이와 유사하게 이용될 수 있는 음악 또는 오디오의 유형은 자료의 유형에 의존한다. 예를 들어, 소설의 자료에 대해, 사운드트랙은 영화 사운드트랙의 목적과 유사할 것이다. 즉, 긴장감을 생성하고, 사랑의 관심을 뒷받침하고(underpinning), 큰 클라이맥스(climax)에 도달하는 것과 같이 이야기를 지원하기 위함이다. 어린이용 책에 대해, 음악은 예를 들어, 페이지가 전환될 때와 같은경우, 가능한 한 더 많은 사운드 효과를 포함하는 카툰(cartoons)에 이용되는 것과 유사할 수 있다. 텍스트북에 대해, 사운드트랙은 지식 보유(retention)을 강화하는 것으로 알려진, 예를 들어 분당 약 128 또는 132 비트(beats)에서의 재료(material) 및 중요한 모달(modal) 음색을 이용하는, 리듬 및 음색(tonalities)을 포함할 수 있다. 명상을 지원하도록 설계된 일부 책들은 자연의 소리, 잔잔하고 희미한 음악, 부드러운 톤의 악기 및 이와 유사한 사운드트랙을 포함할 수 있다. 여행책은 묘사되고 있는 장소의 고유한 음악 및 사운드를 포함할 수 있다. 매거진 및 신부에 대해서는, 서로 다른 섹션(sections) 또는 기사는 서로 다른 사운드트랙 및/또는 서로 다른 스타일의 음악과 함께 제공될 수 있다. 심지어 동일한 페이지에서 서로 다른 부분(passes)를 읽는 것은 서로 다른 사운드트랙을 가질 수 있다. 광고주는 또한 이러한 자료를 읽는 동안 재생되는 그들의 오디오 테마를 가질 수 있다. 이러한 경우, 사운드트랙은 광고 기반의 텍스트가 어떻게 또 다른 재료를 수반하도록 선택되는지와 유사한 방법으로 선택될 수 있다.
특히, 도 1을 참조하면, 전자식 책(110)은 전자식 책 리더기(112)로 입력되고, 이는 최종 사용자 또는 독자에게 전자식 책의 시각적 디스플레이를 제공한다. 전자식 책(110)은, 적어도 텍스트를 포함하고 컴퓨터 프로그램이 상기 텍스트를 읽고 포맷하고 표시할 수 있도록 설계된 파일 포맷인, 하나 이상의 컴퓨터 데이터 파일이다. 전자식 책에 대해 다양한 파일 포맷이 있는데, 다양한 유형의 마크업(markup) 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 및 이와 유사한 형태), 및 또 다른 문서 유형, 예를 들어, EPUB, FictionBook, plucker, PalmDoc,zTxt, TCR, CHM, RTF, OEB, PDF, mobipocket, Calibre, Stanza 및 plain-text 등이 될 수 있다. 그러나 이들에 제한되지 않는다. 일부 파일 포맷은 소유권(proprietary)이 있고, 전용 전자식 책 리더기에서 이용되도록 설계된다. 본 발명은 어떠한 특정 파일 포맷에도 제한되지 않는다.
전자식 책 리더기(112)는 도 9와 연관되어 상기 설명된 바와 같이, 예를 들어, 개인 컴퓨터, 태블릿 컴퓨터, 모바일 디바이스 또는 전자식 책을 읽기 위한 전용 하드웨어 시스템을 포함할 수 있고 전자식 책(110)의 컨텐츠(contents)를 수신하여 디스플레이하는, 컴퓨터 플랫폼에서 구동하도록 설계된 소정의 컴퓨터 프로그램일 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기들이 많이 있으며, 예를 들어, Amazon.com의 KINDLE 리더기, Barnes&Noble의 Nook 리더기, Stanza 리더기, FBReader 소프트웨어, 오픈 소스 프로젝트(open source project)를 포함할 수 있다. 그러나 본 발명은 어떠한 특정 전자식 책 리더기에도 제한되지 않는다.
전자식 책 리더기(112)는 전자식 책 리더기(112)와의 사용자 상호작용을 표시(indicative)하는 데이터(114)를 출력하므로, 이러한 데이터는 동적 오디오 재생기(116)에 의해 이용될 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기는 여기에서 이러한 출력을 제공하기 위해 디스크립션(description)에 따라 변경될 수 있다.
텍스트와의 사용자 상호작용에 관한 데이터는 다양한 형태로 나타날 수 있다. 예를 들어 읽혀지는 책의 식별자(예를 들어, ISBN, e-ISBN 숫자 또는 해쉬(hash) 코드), 및 텍스트에서 현재 위치가 제공될 수 있다. 일반적으로 현재 위치는 디스플레이되고 있는 전자식 책의 일부 또는 현재 "페이지"로서, 전자식 책 리더기에 의해 추적(tracked)된다. 전자식 책 리더기는 이것이 변화할 때, 이 정보를 출력할 수 있다. 만약 전자식 책 리더기(112)에 의해 제공된다면, 유용할 수 있는 또 다른 정보는, 디스플레이되고 있는 문서의 현재 범위에 대한 단어 카운트(count), 사용자가 언제 전자식 책 리더기 어플리케이션을 종료하는지를 나타내는 표시(indication), 및 독자가 읽기를 정지하거나 정지 이후에 읽기를 재시작하는지 여부를 나타내는 표시를 포함한다. 그러나 이에 제한되지 않는다.
전자식 책 리더기 및 동적 오디오 재생기 사이에서 교환되는 정보 및 인스트럭션은 어플리케이션 프로그래밍 인터페이스(API)를 통해 구현될 수 있으므로, 동적 오디오 재생기는 전자식 책 리더기가 상태 정보를 제공하거나 일부 동작을 수행하도록 요청할 수 있거나, 전자식 책 리더기가 또 다른 어플리케이션 프로그램을 제어할 수 있도록 요청할 수 있다. 동적 오디오 재생기는 또한 이러한 API를 구현하도록 프로그램될 수 있다. API의 예시적인 구현예는 두 개의 인터페이스를 포함한다. 그러나 이에 제한되지 않는다. 하나는 전자식 책 리더기 어플리케이션으로부터 호출을 위한 것이고, 또 다른 하나는 전자식 책 리더기 어플리케이션을 호출하기 위한 것이다.
동적 오디오 재생기로, 전자식 책 리더기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.
"ebookOpenedwithUniqueID" - 이 함수는 어플리케이션이 전자식 책을 오픈(open)할 때, 전자식 책 리더기에 의해 호출된다. 이러한 함수는, 전자식 책의 고유한 식별자를 특정하고 전자식 책이 이전에 오픈된 적이 있는지 여부를 나타내는 파라미터(parameters)들을 갖는다. 이러한 정보에 응답하여, 동적 오디오 재생기는 현재 큐(cue)를 세팅(set)한다. 전자식 책이 처음으로 오픈되면, 현재 위치는 제1 큐의 시작으로 세팅될 것이다.
"ebookClosed" - 이 함수는 어플리케이션이 전자식 책을 닫을(close) 때, 전자식 책 리더기에 의해 호출된다. 상기 호출에 응답하여, 동적 오디오 재생기는 메모리를 자유화(free up)하고, 내부 데이터를 리셋(reset)한다.
"ebookRemoved" - 이 함수는 전자식 책 리더기가 이것의 라이브러리(library)로부터 전자책을 제거하는 경우 호출된다. 따라서, 사운드트랙 및 오디오 파일도 제거될 수 있다.
"displayedPositionRangeChanged" - 이 함수는 전자식 책 리더기가 이것의 디스플레이를 변경하는 경우 호출되는데, 예를 들어, 페이지 전환, 오리엔테이션(orientation) 변경, 폰트(font) 변경 또는 이와 유사한 경우에 따라 호출되고, 이 함수는 새롭게 디스플레이되는 자료의 범위에 대한 파라미터를 제공한다. 이 호출에 응답하여, 동적 오디오 재생기는 새롭게 디스플레이되는 자료의 범위에 대한 오디오 큐(audio cues)를 셋업(set up)할 수 있다.
"readingResumed" - 이 함수는 장기간(extended period) 비활성(inactivity) 이후에 사용자가 읽기를 재시작할 때 호출되고, 읽기가 "정지"된 것으로 결정된 이후 사용자로부터의 소정의 다양한 입력(예를 들어 페이지 전환 커맨드(command))을 수신함으로써 전자식 책 리더기는 이것을 검출한다.
"fetchSoundtrack" - 이 함수는 동적 오디오 재생기가 특정된 고유한 식별자(이 함수의 파라미터로서 제공되는)와 함께 전자식 책에 대한 사운드트랙 파일 또는 큐 리스트(cue list)를 패치(fetch)하고 임포트(import)하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioVolume" - 이 함수는 동적 오디오 재생기가 오디오 재생의 볼륨을 세팅하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"getCueLists" - 이 함수는 현재 오픈된 전자식 책에 대해 이용가능한 큐 리스트 및 그룹에 관한 정보를 동적 오디오 재생기로부터 검색하기 위해 전자식 책 리더기에 의해 호출된다. 이 함수는 예를 들어, 전자식 책 리더기가 이러한 정보를 독자에게 표시하도록 허용할 수 있다.
"cueListEnabled" - 이 함수는 동적 오디오 재생기가 특정 큐 리스트, 예를 들어 대안적인 사운드트랙, 사운드 효과, 기록된 독자 또는 텍스트-음성 변환을 가능하게 하거나 불가능하게 하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioIntensity" - 이 함수는 동적 오디오 재생기가 오디오 재생의 세기(intensity)를 세팅하도록, 예를 들어, 오디오 구성 방음장치(composition quieter)를 생성하거나 드럼 스템(drum stem)(서브믹스)을 음소거(mute)하도록, 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioPreloadDefault" - 이 함수는 전자식 책을 다운로드(download)하고 일반적으로 보관하는 오디오의 시간의 디폴트(default) 개수를 세팅하기 위해 호출된다.
"audioPreloadForEbook" - 이 함수는 특정 전자책을 다운로드하고 보관하는 오디오의 많은 시간을 세팅하기 위해 호출된다.
"downloadEnabled" - 이 함수는 오디오 다운로딩을 가능하게 하거나 불가능하게 하기 위해서 호출된다.
전자식 책 리더기로의 동적 오디오 재생기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.
"readingPaused" - 예측되는 시간내에 전자식 책 리더기로부터 "displayedPositionRangeChanged" 호출이 수신되지 않는 경우, 이 함수는 동적 오디오 재생기에 의해 호출된다. 이 정보로부터, 사용자가 더 이상 읽기를 하지 않는다는 것이 동적 오디오 재생기에 의해 가정된다. 이 함수를 호출한 후, 사용자가 다시 읽기를 시작한 경우, 전자식 책 리더기는 "readingResumed" 함수를 호출하여야 한다.
"gotoPosition" - 이 함수는 전자식 책 리더기가 책에서 현재 위치를 세팅하도록 지시하기 위해 동적 오디오 재생기에 의해 호출되고, 일반적으로 제일 처음 제1 큐의 시작 포인트에서, 전자식 책은 호출될 "ebookOpenedAtPath" 함수에 응답하여 오픈된다.
"wordCountForRange" - 이 함수는 전자식 책 리더기가, 하기에서 보다 상세하게 설명되는 바와 같이 재생리스트들을 스케줄링(scheduling)하고, 읽기 속도를 추적하는데 이용될, 전자식 책의 특정 범위에 대한 단어들의 개수를 제공하도록 지시하기 위해 동적 오디오 재생기에 의해 호출된다.
이러한 API 호출들의 이용은 하기에서 보다 상세하게 설명된다.
도 3과 관련하여 하기에서 보다 상세하게 설명하면, 전자식 책(110)은 큐 리스트(118)와 연관되어 있고, 이는 텍스트의 일부와 오디오 큐(120)를 연관시킨다. 일반적으로, 전자식 책(110)을 고유하게 식별하는데 이용되는 식별자는, 큐 리스트에서 식별자를 임베딩(embedding)하거나 또는 책을 큐 리스트(118)와 연관시키는 지도 또는 룩업(lookup) 테이블의 형태(form)를 가짐으로써, 큐 리스트(117)를 책과 연관시키는데 이용된다. 오디오 큐(120)는 오디오 데이터를 포함하는 컴퓨터 데이터 파일이다. 일반적으로 큐 리스트(117)에 의해 텍스트의 일부와 연관된 오디오 큐(120)는 독자가 상기 텍스트의 일부를 읽고 있는 동안 재생된다. 예를 들어, 텍스트의 일부는 오디오 큐가 재생을 시작하여야 하는 주변 텍스트의 포인트에 의해 또는 오디오 큐가 재생되어야 하는 동안 텍스트의 범위에 의해 지정될 수 있다. 동적 오디오 재생기(116)는 언제 어떻게 하나의 오디오 큐의 재생을 정지할지 및 또 다른 것의 재생을 시작할지를 결정한다.
동적 오디오 재생기(116)는 전자식 책 리더기(112)와의 사용자 상호작용에 관한 데이터(114)를 수신하고, 또한 큐(120) 및 큐 리스트(118)도 수신한다. 하기에서 보다 상세하게 설명되는 것과 같이, 동적 오디오 재생기(116)는 재생될 오디오 큐(120)를 선택하고, 언제 어떻게 그들을 재생하고, 출력 오디오 신호(122)를 제공하기 위해 사용자 상호작용 데이터(114) 및 큐 리스트(118)를 이용한다.
사운드트랙이 재생되는 동안, 동적 오디오 재생기는 현재 읽혀지고 있는 텍스트의 일부와 연관된 현재 큐를 재생하고, 텍스트와의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐(next cue)로 어떻게 언제 과도(transition)할 지를 결정한다. 도 2에서 더 구체적으로 나타난 바와 같이, 동적 오디오 재생기(200)는 오디오(206)를 생성하기 위해 현재 큐(204) 및 다음 큐(210)를 이용한다. 재생될 이러한 큐들(204, 210)은 사용자 상호작용에 관한 데이터(212)를 이용하는 큐 룩업(cue lookup)(208) 및 큐 리스트(202)를 통해 결정된다. 동적 오디오 재생기가 현재 큐(204)를 재생하는 동안, 이는 다음 큐가 재생되어야 하는 시기를 결정하기 위해 수신(incoming) 데이터(212)를 감시한다. 현재 큐(204)는 큐의 실제 지속기간보다 더 길게 또는 더 짧은 시간동안 재생될 필요가 있을 수 있다. 하기에서 상세하게 설명되는 바와 같이, 동적 오디오 재생기는 텍스트의 연관된 일부를 읽는데 사용자가 이용하고 있는 시간의 양을 피팅(fit)하기 위해 현재 큐를 길게 하거나 또는 짧게 하고, 사용자가 다음 큐와 연관된 텍스트에 도달할 것으로 추정되는 시간에서, 크로스 페이드(cross fade)와 같은 과도기를 구현한다.
도 3을 참조하면, 도 1의 큐 리스트(118)의 예시 구현예가 보다 상세하게 설명될 것이다. 오디오 큐(예를 들어 도 1의 120, 도 2의 204, 210)들은 텍스트의 일부에 할당된다. 텍스트의 일부를 오디오 파일과 연관시키는 메타-태그(meta-tag) 정보 파일을 이용하여, 할당이 이루어질 수 있다. 오디오 파일과의 연관은 직접적 또는 간접적일 수 있고, 정적으로(statically) 또는 동적으로 정의될 수도 있다. 예를 들어, 텍스트의 서로 다른 일부는, 텍스트의 일부들과 연관되는 감정을 지시하는 또 다른 레이블(lables) 또는 서로 다른 단어, 음악의 분위기(moods) 또는 스타일에 할당될 수 있다. 오디오 파일은 이러한 단어 또는 레이블과 연관될 수도 있다. 하기에서 상세히 설명되는 바와 같이, 오디오 파일들은 선택될 수 있고 텍스트와 정적으로 연관될 수 있고, 또는 그들은 재생 시간에서 동적으로 선택될 수 있다. 대안적으로, 텍스트에서 서로 다른 포인트는 오디오 파일과 직접적으로 연관될 수 있다.
도 3은 예시적인 메타-태그 정보 파일을 나타낸다. 메타-태그 정보 파일은 큐를 나타내는 데이터 쌍(302)의 리스트(300)이다. 큐를 나타내는 각 쌍(302)은 텍스트 문서내에서 마크업 언어 요소에 대한 참조, 텍스트 문서의 시작에서의 오프셋(offset), 또는 텍스트 문서내에서 범위와 같은, 텍스트에 대한 참조(304)를 포함한다. 쌍(302)은 큐를 특정하는 데이터(306) 또한 포함한다. 이 데이터는 감정적 태그와 같은 단어 또는 레이블, 또는 파일명과 같은 오디오 파일의 지시자, 또는 오디오 파일을 선택하는데 이용될 수 있는 소정의 또 다른 데이터일 수 있다. 어떻게 컴포저(composer) 또는 컴퓨터 프로그램이 이러한 큐 리스트를 생성할 수 있는지에 대해서는 하기에서 더욱 상세하게 설명될 것이다.
메타-태그 정보 파일은 복수의 메타데이터(metadata) 파일을 포함하는 아카이브(archive)인 파일로서 구현될 수 있다. 이러한 파일들은 제이슨(JavaScript Object Notation, JSON) 포맷일 수 있다. 메타-태그 정보 파일은 일반적인 정보를 포함하는 매니페스트(manifest) 파일을 무결성 체킹(integrity checking)을 위한 체크섬(checksums)과 함께 포함할 수 있는데, 여기서 일반적인 정보는 전자식 책의 고유한 식별자와 연관되는 것과 같은 사운드트랙, 전자식 책의 제목, 스키마(schema) 버전(향후 포맷 변경에 대비하여 호환가능성(compatibility) 목적을 위해), 및 아카이브에서 또 다른 파일들의 리스트에 관한 것이다. 매니페스트 파일에 추가하여, 메타-태그 정보 파일은 또한 사운드트랙에서 유효한 큐 리스트 디스크립터들의 리스트를 포함하는 큐리스트 파일을 포함한다. 각 큐 리스트 디스크립터는 디스플레이 명칭, 룩업 목적을 위한 고유한 식별자 및 큐 리스트의 선택적 그룹 명칭을 포함한다. 예를 들면, 단일 재생을 갖는 것만이 가능한 경우에, 복수의 상호 배타적인 주요 큐 리스트들이 있을 수 있다. 이러한 큐 리스트들은 "주요" 그룹 명칭을 가질 수 있고, 반면 음향 효과 또는 "나에게 읽어주기" 큐 리스트가 있어, 동시에 이들 모두를 재생하는 것도 괜찮을 것이므로, 그룹 명칭을 이용하지 않을 것이다.
메타-태그 정보 파일은 또한 모든 큐 리스트에 대한 큐 디스크립터들의 리스트를 포함하는 큐 파일을 포함한다. 각 큐 디스크립터는 생산자에 의해 큐 디스크립터에 주어진 기술형(descriptive) 명칭을 포함한다. 이 디스크립터는 이러한 목적을 위해 또 다른 어플리케이션을 이용하여 입력될 수 있고, 큐 파일 리스트에서 큐 파일의 위치 및 전자식 책에서 입출력 포인트를 찾기 위해 이용되는 큐 파일 명칭과 같은 정보를 포함할 수 있다.
최종적으로, 메타-태그 정보 파일은 큐 파일 디스크립터들의 리스트를 포함하는 "큐파일" 파일을 포함한다. 큐파일 파일은 큐 파일들의 네트워크 위치를 특정한다. 각 큐 파일 디스크립터는 생산자에 의해 큐파일에 주어지고 큐 디스크립터에서 큐 파일 명칭으로서 이용되는 기술형 명칭, 및 큐 파일과 큐 파일에서의 원본 파일 명칭을 검색하기 위한 URL을 포함한다.
큐 리스트에서 참조된 오디오 큐(도 1의 120)들은 오디오 데이터를 포함하고, 상기 오디오 데이터는 AIFF, MP3, AAC, m4a와 같은 오디오 파일 포맷 , 또는 또 다른 파일 유형으로 저장될 수 있다. 도 4를 참조하여, 오디오 큐 파일의 예시적인 구현예가 설명될 것이다. 오디오 큐 파일(400)은 복수의 "스템(stems)"(서브믹스)(402)을 포함할 수 있고, 각각은 큐에 대한 멀티파트 오디오 믹스(multipart audio mix)의 한 부분을 제공하는 분리된 오디오 파일이다. 이러한 스템의 이용은 큐의 재생시간을 길게 하기 위해 동적 오디오 재생기가 스템들 중에서 반복할 스템을 선택하도록 허용한다. 오디오 큐 파일은 또한 루프 마커(loop markers)(404), 바 로케이션(bar locations)(406) 및 추천 믹스 정보(408)과 같이, 동적 오디오 재생기가 재생되는 오디오 큐에 대한 지속기간을 변경하는데 유용한 정보를 포함할 수 있다. 추천 믹스 정보는 오디오 스템을 조합하기 위한 인스트럭션의 리스트를 포함하고, 각 인스트럭션은 이용될 스템들과 섹션들, 및 적용될 소정의 오디오 효과 프로세싱을 지시한다. 장르(genre), 스타일, 악기(instruments), 감정, 분위기(atmosphere), 장소, 시대(era)를 지시하는 오디오 또는 데이터에 의해 이끌어내지는 감정 또는 분위기를 지시하는 단어 또는 레이블과 같은 또 다른 정보-디스크립터(410)라고 지칭되는- 또한 제공될 수 있다. 대안적인 키워드, 큐 볼륨(cue volume), 크로스-페이드 또는 페이드-인/아웃 형상(shape)/세기(intensity), 및 연속성을 위해 추천 하모닉 프로그레션(harmonic progression)과 같은 더 추가적인 정보도 포함될 수 있다.
예를 들어, 오디오 큐 파일은 JSON 포맷에서 메타데이터 파일 및 큐의 스템에 대한 하나 이상의 오디오 파일을 포함하는 아카이브로서 구현될 수 있다. 메타데이터 파일은 오디오 파일과 연관된 메타데이터에 대한 디스크립터를 포함하고, 이것은 바 로케이션, 루프 마커, 추천 믹스 정보, 이모드(감정 컨텐츠 메타-태그)(emode, emotional content meta-tags), 오디오 동적 제어 메타데이터(동적 범위 압축)(dynamic range compression), 악기, 분위기 및 장르를 포함한다. 오디오 파일은 각 스템에 대한 고해상도 원본 오디오 파일 및 데이터 압축 오디오 파일을 포함할 수 있다. 각 스템의 고해상도 버전을 보유하는 것은 음악 생성 도구를 이용하여 편집하는 것을 차후에 지원한다. 원본 오디오 파일 없이 오디오 큐 파일의 복사본은 전자식 책 독자들에게 더 작은 다운로드(downloads)를 제공하기 위해 생성될 수 있다. 큐 파일은 스템들에 대해 상기 압축 오디오 파일들을 포함하고, 이것은 최종 사용자 어플리케이션에서 재생을 위해 이용되는 파일들이다.
큐 파일은 소프트웨어 도구를 이용하여 생성될 수 있는데, 상기 소프트웨어 도구는 표준 오디오 스템의 세트를 입력하고, 디스크립터, 루프 포인트(loop point) 및 분리된 텍스트 파일로서 추천 믹스 메타 정보를 추가하고, 네트워크 전송을 위해 오디오를 최적화하고 압축하고, 데이터베이스로 업로드될 수 있는 단일 패키지 파일을 출력한다. 오디오 파일은 세션, 비트(beats), 소리세기(loudness) 정보, 페이드(fades), 루프 포인트 및 링크(link)를 찾아내는(locate) 다양한 분석 테크닉을 이용하여 분석될 수 있다. 큐는 디스크립터들 "장르, 스타일, 악기, 감전, 장소, 시대"를 이용하여 선택될 수 있고, 독자에 의해 이용되는 것과 같이 네트워크를 통해 전송될 수 있다.
큐 리스트 및 큐 파일은 개별적으로 암호화되고 그들이 사운드트랙인 특정 자료에 링크될 수 있다. 상기 자료 및 이것의 사운드트랙에 접근하기 위해 동일한 키(key)가 이용될 수 있다. 따라서, 파일들은 자료가 접근되는 것을 통해 특정 보기(viewing) 디바이스 또는 특정 자료에 구속될 수 있고, 자료와 연관된 디지털 권리 관리 정보를 이용할 수 있다.
큐 리스트, 오디오 큐 및 전자식 책 리더기에서 가능한 상호작용에 대한 앞선 이해를 기반으로, 동적 오디오 재생기가 도 5 내지 7와 함께 더욱 상세하게 설명될 것이다.
책이 독자에 의해 처음 오픈될 때(500) 재생을 초기화하기 위해, 전자식 책 리더기는 "ebookOpenedwithUniqueID" 함수를 호출하고(502), 이 함수는 책의 고유한 식별자 및 책이 이전에 오픈된 적이 있는지 여부를 지시한다. 동적 오디오 재생기는 전자식 책의 식별자를 수신하고(504), 식별된 책에 대한 큐 리스트를 다운로드하거나 판독(read)한다(506). 전자식 책 리더기는 "getCueLists" 함수를 호출함으로써, 큐 리스트에 관한 정보를 동적 오디오 재생기에 촉구(prompt)한다. 동적 오디오 재생기는 큐 리스트를 전송하고(510), 전자식 책 리더기는 책에 대한 사운드트랙들(하나 이상의 사운드트랙이 있는 경우) 중 하나를 선택하도록 사용자에게 표시한다(512). 이와 같은 선택은 사용자가 사운드트랙을 평가(rate)하도록 허용하는 소비자 피드백 평가 시스템을 이용함으로써 강화될 수 있고, 이러한 평가들은 사운드트랙의 선택이 시스템에 의해 요청될 때 사용자에게 표시될 수 있다. "cueListEnabled" 함수는 동적 오디오 재생기에 선택된 큐 리스트를 알리기 위해 호출되고(514), 동적 오디오 재생기는 함수 호출을 통해 이를 수신한다(516). "fetchSoundtrack" 함수는 동적 오디오 재생기가 재생에 대한 큐를 패치(fetch)(520)하도록 지시하기 위해 호출된다(518).
이러한 셋업(setup) 과정이 완료된 후, 동적 오디오 재생기는 재생을 초기화하기 위해 큐 및 큐 리스트, 그리고 현재 큐를 시작하는 것을 포함한다. 전자식 책 리더기에 의해 전자식 책의 일부가 디스플레이되는 시간 주변에 재생이 시작될 수 있다. 다음, 동적 재생기는, 책과의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐, 큐를 언제 재생할지 및 현재 큐로부터 다음 큐로 어떻게 과도(transition)될 지를 결정한다.
동적 오디오 재생기는 추정 총 큐 지속시간을 피팅(fit)하기 위해 큐의 오디오 스템 파일들의 재생 시간을 확장하거나 짧게 한다. 이러한 추정 큐 지속시간은 복수의 방법으로 연산될 수 있다. 예시적인 구현예는 읽기 속도의 추정을 이용하고, 이것의 연산은 하기에서 더욱 상세하게 설명한다. "displayedPositionRangeChanged" 함수 호출을 통해 각 페이지 전환에서 제공되는 것과 같이, 전자식 책 리더기와의 사용자 상호작용을 설명하는 데이터에 응답하여 현대 큐 지속시간은 업데이트된다.
일반적으로, 큐의 오디오 스템 파일의 재생 시간은 오디오 스템 파일들의 섹션을 자동적으로 루핑(looping)하고, 개별적인 스템 믹스들을 다양화하고, 에코, 지연 및 코러스와 같은 다양한 효과를 동적으로 추가함으로써, 변경된다. 오디오 스템 파일에 특정되는 또 다른 믹스 자동화 데이터 및 루프 포인트는 큐 파일의 메타데이터에 저장된다. 큐 파일에는 복수의 서로 다른 루프 포인트가 있을 수 있다. 오디오 스템의 섹션들은, 루프(loop)되고 리믹스(remix)될 때, 선택될 수 있으므로, 그들은 가장 효과적이고 흥미있는 최종 사용자 경험을 제공한다. 이 과정은, 오디오 원본 부분의 지속시간을 많이 가질 수 있는 음악적으로 만족스러운 결과를 전송하기 위해, 명백한 반복을 가지며 음악 컨텐츠를 최대화하는 음악을 생성하는 것을 방지한다. 다음 큐가 트리거(triggered)될 때, 송신(outgoing) 및 수신(incoming) 오디오 사이의 과도기 또한, 스타일을 정의하기 위한 큐 파일 메타데이터 및 끊김없는 음악적 과도기를 생성하기 위한 적절한 크로스 페이드를 이용하는 동일한 과정에 의해 관리된다.
예를 들어, 큐 파일이 4개의 오디오 스템들(멜로디 트랙(melody track), 일관된 화음(sustained chordal) 또는 "패드" 트랙, 리듬감 있는 타악기소리(rhythmic percussive)(종종 드럼) 트랙, 및 하모닉(harmonic) 트랙)을 포함하고, 만약 단일 패스(pass)에서 재생되는 경우, 이들은 4분 동안 실행될 것이라고 가정한다. 추가적으로, 이 기록들은 3개의 구분된 섹션 A, B, 및 C를 갖는다고 가정한다. 큐 파일에서 메타 정보는 하기와 같은 것을 포함할 것이다.
1. 이전 큐로부터 큐로 과도된 방법. 이는 과도기 스타일(즉, 저속, 중속, 고속 페이드-인, 또는 에코 테일(reverb tail)과 이전 큐를 정지하고 큐의 시작으로부터 새로운 큐 시작), 음악 바(musical bar), 비트 마커(beat markers)를 포함하기 때문에, 크로스 페이드는 음악적으로 끊김이 없을 것이다.
2. A,B 및 C 섹션 각각이 루프될 수 있는 시간 포지션(positions).
3. 4개의 스템들이 리믹스될 수 있는 방법에 대한 큐 생산자의 입력. 예를 들어, 스템 1, 2 및 3은 섹션 A만을 이용하여 재생하고, 스템 1, 3 및 4는 섹션 A만을 이용하여 재생하고, 스템 3에 에코를 추가하여 이것 스스로의 섹션 B를 이용하여 이를 재생하고, 섹션 B로부터 스템 3 및 4를 재생하는 등이 있다. 이러한 종류의 인스트럭션들을 갖는다는 것은 전형적인 4분 오디오가 명백한 반복없이 40분 또는 그 이상으로 확장될 수 있다는 것을 의미한다. 추가적으로, 각 믹스는 사용자에 대해 고유하고, 재생 시간에 생성되므로 사운드트랙의 부정(unauthorized) 복사는 더 어려워진다.
예를 들어, 도 6을 참조하여, 이러한 과정은 보다 상세하게 설명된다. 주어진 큐 및 시작 포인트에 따라, 다음 큐가 재생되기까지의 지속시간이 결정된다(600). 이러한 지속기간을 연산하는 예시적인 방법이 하기에서 상세하게 제동된다. 주어진 지속기간에서, 큐 생산자의 입력은 이상적인 지속기간의 재생리스트를 생성하기 위해 처리된다. 다시 말하면, 리믹스 정보에서 제1 인스트럭션이 선택되고(602), 재생리스트에 추가된다. 605에서 결정되어, 만약 오디오 스템의 이 섹션이 이상적인 지속기간보다 짧은 지속기간을 갖는 경우, 다음 인스트럭션이 선택되고(606), 프로세스는 이상적인 지속기간의 재생리스트가 완료될 때(608)까지 반복된다. 큐의 끝에서, 다음 큐에 대한 메타데이터에서 과도기 정보는, 현재 큐로부터 다음 큐로 크로스-페이드를 구현하기 위해, 현재 재생리스트에서 시작 포인트를 선택하는데(610) 이용된다.
큐의 지속기간을 추정하는 한 방법은, 큐에서 주어진 단어의 개수 및 독자의 읽기 속도를 추정하고, 독자가 책의 이 일부를 읽는 것을 완료하는데 걸리는 시간이 얼마인지 결정한다. 이러한 추정은 독자에 대한 읽기 속도 정보의 이력으로부터 연산될 수 있다.
사용자가 책을 읽기 시작할 때, 분 당 소정 개수의 단어에 대한 초기 읽기 속도가 가정된다. 상기 초기 속도는 이전 책을 읽은 것으로부터 독자의 이전 읽기 속도 이력에 관한 다양한 데이터로부터 산출될 수 있고, 이는 모든 책들에 대해 작가, 장르, 시각, 장소에 따라 체계화될 수 있다. 만약 이전 읽기 이력이 유효하지 않은 경우, 다른 사용자들이 이 제목을 어떻게 읽었는지에 대한 익명의 세계적인 기록(global tally)이 이용될 수 있다. 또 다른 이력들이 유효하지 않은 경우, 분당 400 단어의 전형적인 평균이 이용된다.
도 7을 참조하면, 사용자에 대한 읽기 속도는, "displayedPositionRangeChanged" 함수 호출에 의해 지시되는 바와 같이, 디스플레이되는 포지션 범위가 변화되는 각 시간마다 추적된다. 만약 이 함수 호출이 수신되면(700), 복수의 조건들이 체크된다(702). 이러한 조건들은 하기와 같은 것을 포함할 수 있으나, 이에 제한되는 것이 아니며, 모두 요구하지도 않는다. 사용자는 능동적으로 읽고 있는다. 즉, 읽기를 잠시 멈춘 상태는 안 된다. 새롭게 디스플레이된 포지션의 범위는 이전에 디스플레이된 포지션의 범위보다 크다. 새롭게 디스플레이된 포지션의 범위의 시작은 이전에 디스플레이된 포지션의 범위의 끝과 닿아(touch) 있다. 그리고, 단어 카운트는 최소량(현재 150 단어)보다 크다. 마지막 변경 이후에 시간은 또한, 속도를 체크하기 위한 평균 읽기 속도의 표준 편차는 정상 기대 분산(variance) 내인 것과 같이, 합리적인 범위 내여야 한다. 만약 상기한 조건들이 충족된 경우, 현재 시간이 이전에 디스플레이된 포지션의 범위에 대한 단어 카운트와 함께 기록된다(704). 섹션에 대한 읽기 속도가 연산된다(708). 측정된 읽기 속도의 이력 데이터로부터, 평균 읽기 속도는 연산될 수 있고, 큐 지속시간을 추정하는데 이용될 수 있다.
페이지 p에 대한 읽기 속도 Sp(초당 단어)를 산출하는 공식은 하기와 같다.
여기서 Wp는 페이지에 대한 단어 카운트이고, Tp는 페이지를 읽는데 걸리는 시간(초)이다. 구현예에서, 평균 읽기 속도에 대해 이용되는 통계는 20 주기 지수이동평균(exponential moving average, EMA)이고, 이는 속도에서 변동을 고르며(smoothes out), 반면 여전히 최근 페이지 속도를 더 중요하게 고려한다.
EMA를 산출하는 공식은 하기와 같다.
여기서 n은 주기의 개수, 즉 20이다.
읽기 속도에서 분산을 산출하기 위해, 마지막 20 값에 대한 분산을 산출하기 위해 웰포드 방법(Welford's method)을 이용한다.
T의 연속적인 값에 대해, 반복 공식을 이용하면,
상기 읽기 속도 정보는 사용자 전자식 책 리더기 어플리케이션 플랫폼에 위치적으로 저장될 수 있다. 복수의 사용자에 대한 이러한 정보는 익명의 패션(fashion)의 서버에서 컴파일(compiled)될 수 있고, 저장될 수도 있다. 어플리케이션은 다른 사람들이 자료 또는 자료의 일부를 얼마나 빨리 읽는지 결정하기 위해 읽기 속도 정보 통계를 찾을 수 있다.
읽기 속도 대신 또는 읽기 속도에 추가된 사용자 상호작용의 또 다른 유형은 재생을 제어하는데 이용될 수 있다.
구현예에서, 전자식 책과의 사용자 상호작용에 관한 데이터는 독자가 책에서 포인트부터 읽기 시작했다는 것을 지시한다. 이는, 독자가 일반적으로 한 자리에서 책을 시작부터 끝까지 읽지 않는 경우에서 자주 발생한다. 복수의 경우에서, 독자가 책에서 포인트를 읽는 것을 재시작하는 경우, 그 포인트에서 사운드트랙에서 오디오의 오디오 레벨 또는 "여기(excitement)"의 또 다른 레벨은 적절하지 않을 수 있다. 즉, 오디오는 그 포인트에서 실제로 분산(distracting)할 수 있다. 동적 오디오 재생기는 책에서 포지션부터 독자가 읽기 시작했다는 지시자를, 현재 읽기 포지션을 포함하는 책의 일부에 대해 선택되는 오디오 큐로부터 대안적인 오디오 큐를 선택하기 위한 기회로서, 이용할 수 있다.
또 다른 예에서, 독자는 섹션으로부터 섹션으로 스킵(skipping)함으로써, 책을 읽을 수도 있다. 또 다른 멀티미디어 자료는 이러한 읽기의 방법을 권장할 수도 있다. 이러한 경우, 자료의 섹션과 연관된 오디오 큐는 그 섹션의 디스플레이가 초기화될 때 재생된다. 이전에 디스플레이된 섹션의 오디오로부터 새롭게 디스플레이된 섹션에 대한 오디오로의 간단한 크로스-페이드가 수행될 수 있다. 복수의 어플리케이션에서, 자료의 특징이 소정의 특정 섹션의 보기(viewing) 시간이 예측되지 어려운 경우와 같으면, 동적 재생 엔진은 지속기간을 무기한으로 간단하게 간주하고, 이것은 또 다른 오디오 큐를 시작하기 위해 인스트럭션이 수신될 때까지 큐 파일에서의 인스트럭션에 기초하여 오디오를 생성하기 위해 지속될 수 있다.
또 다른 예시에서, 사용자 입력에 응답하여 큐 파일의 서로 다른 섹션을 재생하기 위해 오디오 큐 파일을 이용하는 것이 가능하다. 예를 들어, 유명한 곡은 섹션으로 나뉘어질 수 있다. 사용자 인터페이스는, 재생기가 사용자 입력에 응답하여 특정된 섹션 또는 다음 섹션으로 점프(jump)하도록 지시할 수 있는 오디오 재생제어를 위해 제공될 수 있다.
어떻게 이와 같은 자료 및 수반하는 사운드트랙이 생성되는지 설명되고, 그들의 분배가 설명될 것이다.
전자식 책에 대한 사운드트랙을 생성하는 것은 오디오 파일들을 전자식 책의 텍스트의 일부와 연관시키는 것을 포함한다. 사운드트랙이 생성될 수 있는 복수의 방법들이 있다.
한 구현예에서, 컴포저는 텍스트의 각 일부에 대해 원본 음악을 쓰고 기록한다. 텍스트의 각 일부는 그렇게 쓰여지고 기록된 개별의 오디오 파일들과 연관될 수 있다. 대안적으로, 미리 기록된 음악은 선택될 수 있고, 텍스트의 일부와 직접적으로 연관될 수도 있다. 이러한 구현예에서, 오디오 파일은 정적으로 및 동적으로 텍스트의 일부에 할당된다.
또 다른 구현예에서, 오디오 파일은 간접적으로 텍스트의 일부에 할당된다. 단어 또는 또 다른 레이블과 같은 태그들은 텍스트의 일부와 연관된다. 상기에서 설명된 큐 리스트와 유사하게, 이러한 태그들은 컴퓨터 데이터 파일 또는 데이터베이스에 저장될 수 있고, 전자식 책과 연관될 수 있다. 대응 태그는 또한 오디오 파일에 연관된다. 하나 이상의 컴포저는 특정 감정이나 분위기를 이끌어내도록 하는 원본 음악을 쓰고 기록한다. 대안적으로, 이전에 기록된 음악이 선택될 수 있다. 이러한 오디오 파일들은 또한 이러한 태그와 연관되고, 데이터베이스에 저장될 수 있다. 텍스트의 일부와 연관된 태그는 동일한 태그를 갖는 대응 오디오 파일을 자동적으로 선택하는데 이용될 수 있다. 책에서 하나의 태그에 대해 복수의 오디오 파일이 식별되는 이벤트에서, 오디오 파일들 중 하나가 컴퓨터 또는 사람의 조정 중 어느 하나에 의해 선택될 수 있다. 이러한 구현예는, 전자식 책 및 오디오 파일과 연관된 태그들이 주어진 오디오 파일을 선택하는 과정을 자동화함으로써, 오디오 파일들이 데이터베이스에서 수집되도록 허용하고, 사운드트랙의 생성이 반자동적으로 완료되도록 한다.
오디오 파일이 전자식 책과 간접적으로 연관되도록 하는 구현예에서, 오디오 파일은 또한, 재생에 가까운 시간에 있는 태그를 사용하여 동적으로 선택될 수 있다.
태그를 전자식 책과 연관시키는 프로세스 또한 자동화될 수 있다. 특히, 텍스트의 단어의 의미(semantic) 분석에 기초하여 감정 디스크립터들을 텍스트의 일부와 연관시키기 위해, 텍스트는 컴퓨터에 의해 처리될 수 있다. 이러한 의미 분석의 예시적인 테크닉은, Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (2005 10월), 페이지 579-586에서 Cecilia Ovesdotter Alm 외에 의한 "Emotions from text: machine learning for text-based emotion prediction"에서 설명된 방법들을 포함하고, 이는 참조에 의해 구체화된다. 그러나 이에 제한되지는 않는다. 상기 태그들은 보여지고 있는 자료의 섹션을 지지하는 감정적 느낌 또는 또 다른 정서(sentiment)를 설명할 수 있다. 예를 들어, 이러한 감정적 느낌은 중간 긴장, 사랑의 관심, 긴장, 쾌활, 남성적인, 어두운, 음울한, 유령같은, 행복한, 슬픈, 아쉬운, 성적 순간, 밝고, 화창한 것과 같은 느낌을 포함할 수 있다. 그러나 이에 제한되지 않는다.
도 8은 그들과 연관된 태그를 갖는 주어진 오디오 파일, 전자식 책에 대한 사운드트랙을 생성하기 위해 완전히 자동화된 과정의 예시를 나타내는 데이터 흐름도이다. 전자식 책(800)은 책에 대한 텍스트 범위(804) 및 감정 디스크립터들을 출력하는 감정 디스크립터 생성기(802)로 입력된다. 감정 디스크립터는 책의 각 범위에 대해 감정 디스크립터들을 매치(match)하는 오디오 파일들(810)을, 오디오 데이터베이스(806)에서, 찾는데 이용된다. 오디오 선택기(808)는 큐 리스트(812)를 생성하기 위해 각 텍스트 범위에 대한 오디오 파일의 자동화되거나, 랜덤하거나 또는 반자동화된 선택을 고려한다. 고유한 식별자는 전자식 책에 대해 생성될 수 있고, 큐 리스트(812)와 함께 저장될 수도 있다.
이와 같은 전자식 책 및 그들의 사운드트랙은 소정의 다양한 방법으로 분배될 수 있으며, 이는 전자식 책의 상업적 분배를 위해 현재 이용되는 방법을 포함하되, 이에 제한되지 않는다. 구현예에서, 전자신 책 및 전자식 책 리더기는 종래 테크닉을 이용하여 최종 사용자에게 분배된다. 추가적인 사운드트랙의 분배 및 동적 오디오 재생기는 별도로 완료된다. 사운드트랙의 분배는 일반적으로 두 단계로 완료된다. 먼저 큐 리스트가 다운로드되고, 그 다음 각 오디오 파일이 다운로드된다. 오디오 파일은 요구에 따라서 다운로드될 수 있다. 동적 오디오 재생기는 전자식 책 리더기가 구동하는 동일한 장치에 저장될 수도 있고, 또는 분리되어 저장될 수도 있는 유효한 큐 파일들에 관한 정보를 유지하는 파일 매니저를 포함할 수 있다.
구현예에서, 전자식 책은 큐 리스트 및 동적 오디오 재생기와 함께 최종 사용자에게 분배된다.
또 다른 구현예에서, 전자식 책 및 이것의 연관된 큐 리스트는 함께 분배된다. 큐 리스트는 백그라운드 태스크(background task)로서 사운드트랙에 대한 오디오 파일을 다운로드하는데 이용된다. 구현예에서, 전자식 책은 먼저 다운로드되고 큐 리스트의 다운로드는 백그라운드 태스크로서 초기화되고, 제1 큐에 대한 제1 오디오 파일은 즉시 다운로드된다.
또 다른 구현예에서, 전자식 책 리더기는 로컬 포괄적인 큐들을 포함하는 로컬 저장장치를 갖는 디바이스이며, 큐 리스트에 따른 재생을 위해 선택될 수 있는 다양한 감정 디스크립터들을 포함한다. 만약 원격(remote) 오디오 파일이 이용불가능하게 된 경우, 이러한 포괄적인 큐들은 오디오의 재생을 허용할 것이다.
구현예에서, 전자식 책 리더기 어플리케이션은, 전자식 미디어의 분배기와 통신할 수 있는 것을 통해, 인터넷과 같은 네트워크로 접근하는 플랫폼에 로드(loaded)된다. 이러한 분배기는 사용자로부터 전자식 미디어를 구매 및/또는 다운로드하기 위한 요청을 수신할 수 있다. 상기 요청을 수신한 후, 분배기는 요청된 자료 및 이에 수반하는 사운드트랙 정보를 데이터베이스로부터 검색할 수 있다. 검색된 전자식 미디어는 암호화될 수 있고, 전자식 책 리더기 어플리케이션의 사용자에게 전송될 수 있다. 전자식 미디어는, 전자식 미디어가 단일 전자식 책 리더기에서만 재생될 수 있는 것과 같이, 암호화될 수 있다. 전형적으로, 자료와 관련된 디지털 권리 관리 정보 또한 사운드트랙 정보에 적용된다.
상기한 바와 같이, 저장 매체는 저장 데이터에 대해 하나 이상의 디바이스 나타낼 수 있으며, 이는 ROM(read-only memory), RAM(random access memory), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 디바이스 및/또는 정보 저장을 위한 또 다른 기기 판독 매체를 포함한다. "기기 판독 매체" 및 "컴퓨터 판독 매테"는 휴대형 또는 고정 저장 디바이스, 광학 저장 디바이스, 및/또는 인스트럭션 및/또는 데이터를 저장하거나 포함하거나 또는 전달할 수 있는 다양한 또 다른 형태의 매체들을 포함한다. 그러나 이에 제한되지 않는다.
추가적으로, 구현예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드(microcode) 또는 이들의 소정의 조합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드에서 구현된 경우, 필수 태스크(task)를 수행하기 위한 프로그램 코드 또는 코드 세그먼트(segment)들은 저장 매체 또는 또 다른 저장장치와 같은 기기 판독 매체에 저장될 수 있다. 프로세서는 상기 필수 태스크를 수행할 수 있다. 코드 세그먼트는 프로시져(procedure), 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스 또는 인스트럭션들의 소정의 조합, 데이터 구조, 또는 프로그램 스테이트먼트(statements). 코드 세그먼트는 정보, 데이터, 아규먼트(arguments), 파라미터 또는 메모리 컨텐츠를 패싱(passing) 및/또는 수신함으로써, 또 다른 코드 세그먼트 또는 하드웨어 회로와 커플링(coulped)될 수 있다. 정보, 아규먼트, 파라미터, 데이터 등은 메모리 공유, 메시지 패싱, 토큰 패싱, 네트워크 전달 등을 포함하는 소정의 적정 수단을 통해 패스(passed), 포워드(forwarded) 또는 전송될 수 있다.
개시된 예시와 연관되어 설명된 다양하게 나타난 논리 블록, 모듈, 회로, 요소, 및/또는 컴포넌트(components)는, 일반적인 목적의 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array) 또는 또 다른 프로그램적인 논리 컴포넌트, 별도의 게이트(gate) 또는 트랜지스터 로직(transistor logic), 별도의 하드웨어 컴포넌트 또는 여기서 설명된 기능을 수행하기 위해 설계된 것의 소정의 조합에서 구현되거나 수행될 수 있다. 일반적인 목적의 프로세서는 마이크로프로세서일 수 있고, 대안적으로는 소정의 종래 프로세서, 제어기, 마이크로제어기, 회로 및/또는 스테이트 머신(state machine)일 수 있다. 프로세서는 컴퓨팅 컴포넌트의 조합으로서 구현될 수도 있는데, 예를 들어, DSP 및 마이크로프로세서의 조합, 많은 마이크로프로세서, DSP 코어(core)와 공조하는 마이크로프로세서들, 또는 또 다른 배열(configuration)이 있다.
여기서 설명된 예시와 함께 설명된 방법 또는 알고리즘은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 둘의 조합, 프로세싱 유닛, 프로그래밍 인스트럭션들 또는 또 다른 명령(directions)의 형태에서 직접적으로 구체화될 수 있고, 단일 디바이스에 포함될 수도 있고 또는 복수의 디바이스에 분배될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 분리가능한 디스크, CD-ROM 또는 기술 분야에서 알려진 소정 형태의 저장 매체에 존재할 수 있다. 저장 매체는, 프로세서가저장 매체로부터 정보를 읽거나 저장 매체로 정보를 쓸 수 있도록, 프로세서와 커플링될 수 있다. 대안적으로, 저장 매체는 프로세서와 통합(integral)될 수 있다.
특징을 나타내는 하나 이상의 컴포넌트 및 기능들은 단일 컴포넌트로 재배열 및/또는 조합될 수 있고, 또는 본 발명을 벗어나지 않으면서 복수의 컴포넌트에서 구체화될 수 있다. 추가적인 요소 또는 컴포넌트는 본 발명을 벗어나지 않으면서 추가될 수 있다. 추가적으로, 여기서 설명된 특징들은 상거래 방법으로서, 소프트웨어, 하드웨어 및/또는 이들의 조합으로 구현될 수 있다.
도면과 함께 표본적인 구현예들이 설명되고 표시되었으나, 이러한 구현예는 상기 예시와 같은 방법만으로 나타나 있으나, 이는 단지 일실시예를 나타내는 것이며, 넓은 발명을 제한하는 것이 아니라고 이해되어질 것이며, 본 발명이 속하는 분야의 당업자에 의해 다양한 변형이 일어날 수 있으므로, 본 발명은 상기에서 설명되고 나타난 특정 구조 또는 배열에 제한되지 않는다고 이해되어질 것이다.
Claims (9)
- 오디오의 동적 재생(dynamic playback)을 위한 컴퓨터 구현 프로세스에 있어서,
전자식 시각자료(electronic visual work)의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스. - 청구항 1에 있어서,
수신된 상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라, 상기 전자식 시각자료의 일부의 시각적 디스플레이를 위한 지속시간을 추정하는 단계; 및
상기 추정된 지속시간 동안 오디오를 제공하기 위해 상기 전자식 시각자료의 일부와 연관된 오디오의 스템 믹스 시퀀스(a sequence of mixes of stems of audio)를 선택하는 단계를 더 포함하는 것을 특징으로 하는 프로세스. - 청구항 2에 있어서, 상기 지속시간은 읽기 속도의 이력을 이용하여 추정되는 것을 특징으로 하는 프로세스.
- 전자식 시각자료의 디스플레이와 동기화된 사운드트랙(soundtrack)을 재생하기 위한 컴퓨터 구현 프로세스에 있어서,
상기 전자식 시각자료를 메모리로 수신하는 단계;
상기 전자식 시각자료의 일부와 태그를 연관시키는 정보를 메모리로 수신하는 단계;
사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부를 디스플레이하는 단계;
태그를 갖는 오디오 파일로 접근하는 단계;
프로세서를 이용하여, 상기 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일을 선택하는 단계;
상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스. - 전자식 시각자료에 대한 사운드트랙을 생성하는 컴퓨터 구현 프로세스에 있어서,
상기 전자식 시각자료를 메모리로 수신하는 단계;
프로세서에 의해, 상기 메모리에서 상기 전자식 시각자료의 일부를 태그와 연관시킴으로써 상기 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 메모리에서 상기 전자식 시각자료를 처리하는 단계;
태그를 갖는 오디오 파일로 접근하는 단계;
상기 전자식 시각자료의 일부와 연관된 태그에 따라 상기 전자식 시각자료의 일부에 대한 오디로 파일을, 상기 프로세서를 이용하여, 선택하는 단계를 포함하는 것을 특징으로 하는 프로세스. - 청구항 5에 있어서, 상기 전자식 시각자료는 텍스트를 포함하고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함하는 것을 특징으로 하는 프로세스.
- 청구항 6에 있어서, 상기 태그는 감성 디스크립터(emotional descriptors)를 포함하는 것을 특징으로 하는 프로세스.
- 디지털 정보 제품으로서,
컴퓨터 판독 매체;
상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 전자식 시각자료 각각의 일부에 대해 감성 디스크립터를 갖는 큐 리스트(cue list)를 포함하는 컴퓨터 판독 파일을 정의하고, 상기 감성 디스크립터는 오디오 데이터와 또한 연관된 감성 디스크립터에 상응하는 것을 특징으로 하는 제품. - 디지털 정보 제품으로서,
컴퓨터 판독 매체;
상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 오디오 데이터를 제공하기 위하여 믹스될 수 있는 복수의 스템(stem)에 대한 오디오 데이터와 스템이 어떻게 반복되고 결합될 수 있는지를 나타내는 정보를 포함하는 오디오 큐(audio cue)를 정의하는 데이터를 구비한 컴퓨터 판독 파일을 정의하는 것을 특징으로 하는 제품.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25999509P | 2009-11-10 | 2009-11-10 | |
US61/259,995 | 2009-11-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20120091325A true KR20120091325A (ko) | 2012-08-17 |
Family
ID=43868382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127014737A KR20120091325A (ko) | 2009-11-10 | 2010-11-10 | 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8527859B2 (ko) |
EP (1) | EP2499626A1 (ko) |
JP (1) | JP2013511214A (ko) |
KR (1) | KR20120091325A (ko) |
CN (1) | CN102687182A (ko) |
WO (1) | WO2011060106A1 (ko) |
Families Citing this family (231)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
CN102124523B (zh) | 2008-07-04 | 2014-08-27 | 布克查克控股有限公司 | 制作并播放音带的方法和系统 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101702659B1 (ko) * | 2009-10-30 | 2017-02-06 | 삼성전자주식회사 | 동영상 콘텐츠와 전자책 콘텐츠의 동기화 장치와 방법 및 시스템 |
US8527859B2 (en) * | 2009-11-10 | 2013-09-03 | Dulcetta, Inc. | Dynamic audio playback of soundtracks for electronic visual works |
US20130297599A1 (en) * | 2009-11-10 | 2013-11-07 | Dulcetta Inc. | Music management for adaptive distraction reduction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20120001923A1 (en) * | 2010-07-03 | 2012-01-05 | Sara Weinzimmer | Sound-enhanced ebook with sound events triggered by reader progress |
KR101058268B1 (ko) * | 2010-08-03 | 2011-08-22 | 안명환 | 비가독부를 구비한 이동단말기 |
US9535884B1 (en) | 2010-09-30 | 2017-01-03 | Amazon Technologies, Inc. | Finding an end-of-body within content |
US9645986B2 (en) | 2011-02-24 | 2017-05-09 | Google Inc. | Method, medium, and system for creating an electronic book with an umbrella policy |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8935259B2 (en) | 2011-06-20 | 2015-01-13 | Google Inc | Text suggestions for images |
CN103782342B (zh) | 2011-07-26 | 2016-08-31 | 布克查克控股有限公司 | 电子文本的声道 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8612584B2 (en) * | 2011-08-29 | 2013-12-17 | Google Inc. | Using eBook reading data to generate time-based information |
US9141404B2 (en) | 2011-10-24 | 2015-09-22 | Google Inc. | Extensible framework for ereader tools |
GB2510744A (en) * | 2011-11-04 | 2014-08-13 | Barnesandnoble Com Llc | System and method for creating recordings associated with electronic publication |
US20130117670A1 (en) * | 2011-11-04 | 2013-05-09 | Barnesandnoble.Com Llc | System and method for creating recordings associated with electronic publication |
US9031493B2 (en) | 2011-11-18 | 2015-05-12 | Google Inc. | Custom narration of electronic books |
US20130131849A1 (en) * | 2011-11-21 | 2013-05-23 | Shadi Mere | System for adapting music and sound to digital text, for electronic devices |
US9183807B2 (en) | 2011-12-07 | 2015-11-10 | Microsoft Technology Licensing, Llc | Displaying virtual data as printed content |
US9229231B2 (en) | 2011-12-07 | 2016-01-05 | Microsoft Technology Licensing, Llc | Updating printed content with personalized virtual data |
US9182815B2 (en) | 2011-12-07 | 2015-11-10 | Microsoft Technology Licensing, Llc | Making static printed content dynamic with virtual data |
US9213705B1 (en) | 2011-12-19 | 2015-12-15 | Audible, Inc. | Presenting content related to primary audio content |
EP2608002A1 (en) * | 2011-12-21 | 2013-06-26 | France Telecom | Method for determining a reading speed of a section of an electronic content |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US20130268826A1 (en) * | 2012-04-06 | 2013-10-10 | Google Inc. | Synchronizing progress in audio and text versions of electronic books |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9165381B2 (en) | 2012-05-31 | 2015-10-20 | Microsoft Technology Licensing, Llc | Augmented books in a mixed reality environment |
US8933312B2 (en) * | 2012-06-01 | 2015-01-13 | Makemusic, Inc. | Distribution of audio sheet music as an electronic book |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9141257B1 (en) * | 2012-06-18 | 2015-09-22 | Audible, Inc. | Selecting and conveying supplemental content |
US9535885B2 (en) | 2012-06-28 | 2017-01-03 | International Business Machines Corporation | Dynamically customizing a digital publication |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140040715A1 (en) * | 2012-07-25 | 2014-02-06 | Oliver S. Younge | Application for synchronizing e-books with original or custom-created scores |
CN103680562B (zh) * | 2012-09-03 | 2017-03-22 | 腾讯科技(深圳)有限公司 | 音频文件的布点实现方法和装置 |
US9047356B2 (en) | 2012-09-05 | 2015-06-02 | Google Inc. | Synchronizing multiple reading positions in electronic books |
US9544204B1 (en) * | 2012-09-17 | 2017-01-10 | Amazon Technologies, Inc. | Determining the average reading speed of a user |
US9575960B1 (en) * | 2012-09-17 | 2017-02-21 | Amazon Technologies, Inc. | Auditory enhancement using word analysis |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9123053B2 (en) | 2012-12-10 | 2015-09-01 | Google Inc. | Analyzing reading metrics to generate action information |
CN103020226A (zh) * | 2012-12-12 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种获取搜索结果的方法和装置 |
US20140173441A1 (en) * | 2012-12-19 | 2014-06-19 | Hcl Technologies Limited | Method and system for inserting immersive contents into eBook |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014160717A1 (en) * | 2013-03-28 | 2014-10-02 | Dolby Laboratories Licensing Corporation | Using single bitstream to produce tailored audio device mixes |
CN104168174A (zh) * | 2013-05-16 | 2014-11-26 | 阿里巴巴集团控股有限公司 | 一种传输信息的方法及装置 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US9836271B2 (en) * | 2013-07-17 | 2017-12-05 | Booktrack Holdings Limited | Delivery of synchronised soundtracks for electronic media content |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
IN2014DE02666A (ko) * | 2013-09-18 | 2015-06-26 | Booktrack Holdings Ltd | |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150269133A1 (en) * | 2014-03-19 | 2015-09-24 | International Business Machines Corporation | Electronic book reading incorporating added environmental feel factors |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10049477B1 (en) | 2014-06-27 | 2018-08-14 | Google Llc | Computer-assisted text and visual styling for images |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
CN104166689B (zh) * | 2014-07-28 | 2018-04-06 | 小米科技有限责任公司 | 电子书籍的呈现方法及装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US20160182435A1 (en) * | 2014-12-23 | 2016-06-23 | Sony Corporation | Socially acceptable display of messaging |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
CN105261374A (zh) * | 2015-09-23 | 2016-01-20 | 海信集团有限公司 | 跨媒体的情感关联方法和系统 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US20170116047A1 (en) * | 2015-10-25 | 2017-04-27 | Khozem Z. Dohadwala | Further applications of Reading State control - A method for repositioning reading material on electronic devices |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN106708894B (zh) * | 2015-11-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 电子书配置背景音乐的方法和装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9959343B2 (en) | 2016-01-04 | 2018-05-01 | Gracenote, Inc. | Generating and distributing a replacement playlist |
US10042880B1 (en) * | 2016-01-06 | 2018-08-07 | Amazon Technologies, Inc. | Automated identification of start-of-reading location for ebooks |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US20180032611A1 (en) * | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-generation of soundtracks for live speech audio |
US10698951B2 (en) * | 2016-07-29 | 2020-06-30 | Booktrack Holdings Limited | Systems and methods for automatic-creation of soundtracks for speech audio |
US20180032305A1 (en) * | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-creation of soundtracks for text |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN106960051B (zh) * | 2017-03-31 | 2019-12-10 | 掌阅科技股份有限公司 | 基于电子书的音频播放方法、装置和终端设备 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
EP3646322A1 (en) * | 2017-06-29 | 2020-05-06 | Dolby International AB | Methods, systems, devices and computer program products for adapting external content to a video stream |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
CN109543671B (zh) * | 2018-09-30 | 2021-03-02 | 阿里巴巴(中国)有限公司 | 点读方法、点读笔、服务器数据处理方法及点读系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109493839B (zh) * | 2018-11-12 | 2024-01-23 | 平安科技(深圳)有限公司 | 基于语音合成的空气质量展示方法、装置及终端设备 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109994000B (zh) * | 2019-03-28 | 2021-10-19 | 掌阅科技股份有限公司 | 一种伴读方法、电子设备及计算机存储介质 |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12051133B2 (en) * | 2021-06-01 | 2024-07-30 | Apple Inc. | Color treatment and color normalization for digital assets |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4305131A (en) * | 1979-02-05 | 1981-12-08 | Best Robert M | Dialog between TV movies and human viewers |
US5484292A (en) * | 1989-08-21 | 1996-01-16 | Mctaggart; Stephen I. | Apparatus for combining audio and visual indicia |
US5209665A (en) * | 1989-10-12 | 1993-05-11 | Sight & Sound Incorporated | Interactive audio visual work |
JP3120085B2 (ja) * | 1991-11-21 | 2000-12-25 | 株式会社セガ | 電子装置及び情報担体 |
US5437552A (en) * | 1993-08-13 | 1995-08-01 | Western Publishing Co., Inc. | Interactive audio-visual work |
US5649234A (en) * | 1994-07-07 | 1997-07-15 | Time Warner Interactive Group, Inc. | Method and apparatus for encoding graphical cues on a compact disc synchronized with the lyrics of a song to be played back |
US6199076B1 (en) * | 1996-10-02 | 2001-03-06 | James Logan | Audio program player including a dynamic program selection controller |
US5897324A (en) * | 1997-02-03 | 1999-04-27 | Atop Technologies, Inc. | Multimedia-book operable with removable data storage media implemented with universal interfacing book-adapting processor |
US6424996B1 (en) * | 1998-11-25 | 2002-07-23 | Nexsys Electronics, Inc. | Medical network system and method for transfer of information |
US6529920B1 (en) * | 1999-03-05 | 2003-03-04 | Audiovelocity, Inc. | Multimedia linking device and method |
US7149690B2 (en) * | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6598074B1 (en) * | 1999-09-23 | 2003-07-22 | Rocket Network, Inc. | System and method for enabling multimedia production collaboration over a network |
WO2001091028A1 (en) * | 2000-05-20 | 2001-11-29 | Leem Young Hie | On demand contents providing method and system |
AU2002232928A1 (en) * | 2000-11-03 | 2002-05-15 | Zoesis, Inc. | Interactive character system |
FI20002828A (fi) * | 2000-12-22 | 2002-06-23 | Nokia Corp | Menetelmä ja järjestelmä tunnetilan ilmaisemiseksi puhelimella tapahtuvassa viestinnässä |
US20060292049A1 (en) * | 2003-09-04 | 2006-12-28 | Tetsuya Nagasaka | Process for producing rutile |
US20050186548A1 (en) * | 2004-02-25 | 2005-08-25 | Barbara Tomlinson | Multimedia interactive role play system |
NO320758B1 (no) * | 2004-07-23 | 2006-01-23 | Telenor Asa | Anordning og fremgangsmate for gjengivelse av audiovisuelt innhold |
US7735012B2 (en) * | 2004-11-04 | 2010-06-08 | Apple Inc. | Audio user interface for computing devices |
US20080120342A1 (en) * | 2005-04-07 | 2008-05-22 | Iofy Corporation | System and Method for Providing Data to be Used in a Presentation on a Device |
US20080141180A1 (en) * | 2005-04-07 | 2008-06-12 | Iofy Corporation | Apparatus and Method for Utilizing an Information Unit to Provide Navigation Features on a Device |
JP4382045B2 (ja) * | 2006-01-24 | 2009-12-09 | シャープ株式会社 | データ出力装置、データ出力方法、データ出力プログラム、および記録媒体 |
US7790974B2 (en) * | 2006-05-01 | 2010-09-07 | Microsoft Corporation | Metadata-based song creation and editing |
EP2179860A4 (en) | 2007-08-23 | 2010-11-10 | Tunes4Books S L | METHOD AND SYSTEM FOR ADAPTING THE REPRODUCTION SPEED OF THE TEXT-ASSOCIATED AUDIO TAPE AT THE READING SPEED OF A USER |
US20090191531A1 (en) | 2007-12-21 | 2009-07-30 | Joseph Saccocci | Method and Apparatus for Integrating Audio and/or Video With a Book |
CN102124523B (zh) | 2008-07-04 | 2014-08-27 | 布克查克控股有限公司 | 制作并播放音带的方法和系统 |
US9386139B2 (en) * | 2009-03-20 | 2016-07-05 | Nokia Technologies Oy | Method and apparatus for providing an emotion-based user interface |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US8527859B2 (en) * | 2009-11-10 | 2013-09-03 | Dulcetta, Inc. | Dynamic audio playback of soundtracks for electronic visual works |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US8634701B2 (en) * | 2009-12-04 | 2014-01-21 | Lg Electronics Inc. | Digital data reproducing apparatus and corresponding method for reproducing content based on user characteristics |
US8564421B2 (en) * | 2010-04-30 | 2013-10-22 | Blackberry Limited | Method and apparatus for generating an audio notification file |
US8434001B2 (en) * | 2010-06-03 | 2013-04-30 | Rhonda Enterprises, Llc | Systems and methods for presenting a content summary of a media item to a user based on a position within the media item |
-
2010
- 2010-11-10 US US12/943,917 patent/US8527859B2/en not_active Expired - Fee Related
- 2010-11-10 KR KR1020127014737A patent/KR20120091325A/ko not_active Application Discontinuation
- 2010-11-10 EP EP10810833A patent/EP2499626A1/en not_active Withdrawn
- 2010-11-10 JP JP2012538959A patent/JP2013511214A/ja active Pending
- 2010-11-10 WO PCT/US2010/056281 patent/WO2011060106A1/en active Application Filing
- 2010-11-10 CN CN2010800607993A patent/CN102687182A/zh active Pending
-
2013
- 2013-08-26 US US14/010,286 patent/US20130346838A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US8527859B2 (en) | 2013-09-03 |
US20130346838A1 (en) | 2013-12-26 |
EP2499626A1 (en) | 2012-09-19 |
CN102687182A (zh) | 2012-09-19 |
WO2011060106A1 (en) | 2011-05-19 |
US20110195388A1 (en) | 2011-08-11 |
JP2013511214A (ja) | 2013-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8527859B2 (en) | Dynamic audio playback of soundtracks for electronic visual works | |
US20210247954A1 (en) | Audio Techniques for Music Content Generation | |
TWI388996B (zh) | 用於控制複數個媒體玩家之瀏覽器可解釋文件與系統及其方法 | |
US9355627B2 (en) | System and method for combining a song and non-song musical content | |
US9142201B2 (en) | Distribution of audio sheet music within an electronic book | |
US7394011B2 (en) | Machine and process for generating music from user-specified criteria | |
US20080235588A1 (en) | Media player playlist creation and editing within a browser interpretable document | |
US7945847B2 (en) | Recasting search engine results as a motion picture with audio | |
US20090006965A1 (en) | Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page | |
CA2639720A1 (en) | Community based internet language training providing flexible content delivery | |
JP2019091014A (ja) | マルチメディアを再生するための方法及び装置 | |
US10694222B2 (en) | Generating video content items using object assets | |
US11551652B1 (en) | Hands-on artificial intelligence education service | |
US9626148B2 (en) | Creating an event driven audio file | |
Knotts et al. | AI-Lectronica: Music AI in clubs and studio production | |
US20110314370A1 (en) | Tiered pageview generation for computing devices | |
Stolfi et al. | Participatory musical improvisations with playsound. space | |
Goto | OngaCREST Project: building a similarity-aware information environment for a content-symbiotic society | |
US20160212242A1 (en) | Specification and deployment of media resources | |
US11740861B2 (en) | Method and system for tagging and navigating through performers and other information on time-synchronized content | |
Muraki et al. | Generation of Brass Band Animation Synchronized with the Motion of Conductor’s Hand | |
US9471205B1 (en) | Computer-implemented method for providing a media accompaniment for segmented activities | |
GB2602118A (en) | Generating and mixing audio arrangements | |
CN116434729A (zh) | 音频内容的发布方法、装置、设备、存储介质及程序产品 | |
KR100442417B1 (ko) | 개념단위 오브젝트별 분기방식을 적용한 교육용 디지털 컨텐츠 및 이를 이용한 디지털 컨텐츠 처리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |