KR20120091325A

KR20120091325A - 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생

Info

Publication number: KR20120091325A
Application number: KR1020127014737A
Authority: KR
Inventors: 윌리엄 러셀 핸셀; 그레이엄 에드워드 라이러스
Original assignee: 둘세타 인코포레이티드
Priority date: 2009-11-10
Filing date: 2010-11-10
Publication date: 2012-08-17
Also published as: US8527859B2; US20130346838A1; EP2499626A1; CN102687182A; WO2011060106A1; US20110195388A1; JP2013511214A

Abstract

본 발명은 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생에 관한 것으로, 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계, 및 상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함한다.

Description

전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생{DYNAMIC AUDIO PLAYBACK OF SOUNDTRACKS FOR ELECTRONIC VISUAL WORKS}

본 출원은 2009년 11월 10일 출원된 미국 출원 번호 61/259,995호에 대한 우선권을 미국 특허법(35 U.S.C) 119(3)항 하에 주장하고, 이 미국 출원의 모든 내용은 참조로서 본 명세서에 포함된다.

전자식 책은 텍스트로 이루어진 기본적인 멀티미디어 자료(work) 중 하나일 뿐 아니라, 그래픽(graphics) 및 이미지(images)와 같은 또 다른 시각(visual) 미디어를 포함할 수 있다. 전자식 책에서 텍스트는 또 다른 시각 미디어와 수반될 수 있으며, 일반적으로 전자식 책은, 한 자리에서 그러할 필요가 없음에도 불구하고, 시작부터 끝까지 읽혀지게 된다.

전자식 책에 대해 다양한 파일 포맷(format)들이 있는데, 마크업 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 등) 및 .pdf 파일, 일반문서파일(plain text file)과 같은 또 다른 데이터 파일 유형을 포함한다. 그러나 이에 제한되지 않는다. 다양한 파일 포맷은 Amazon.com의 KINDLE 리더기와 같은 전자식 책 리더기(readers)를 통해 이용된다. 이러한 책 리더기는 일반적으로 개인용 컴퓨터, 노트북 컴퓨터, 랩탑(laptop) 컴퓨터, 태블릿(tablet) 컴퓨터, 모바일 디바이스 또는 전자식 책을 판독하기 위한 전용 하드웨어 시스템(예를 들어, KINDLE 리더기)과 같은 플랫폼(platform)에서 실행되도록 설계된 컴퓨터 프로그램이다.

전자식 책은 사운드트랙(soundtrack)과 함께 제공되고, 독자(reader)는 전자식 책을 읽는 동안 이를 들을 수 있다. 사운드트랙의 목적은 읽기 경험을 수반하고 강화하기 위함이고, 독자는 일반적으로 이야기 또는 전자식 책의 일부인 또 다른 시각 미디어에 기초하여 그들의 마음속에 이미지를 갖는다. 사운드트랙의 재생은 전자식 책의 시각적 디스플레이와 동기화된다.

책이 독자에 의해 읽혀지는 동안, 전자식 책의 시각적 디스플레이에 대해 사운드트랙의 재생을 동기화하는 것은 도전적인 문제이다. 서로 다른 개인들은 서로 다른 속도로 읽고, 서로 다른 개인들은 서로 다른 시간에 서로 다른 속도로 읽을 것이다. 전자식 책의 일부의 시각적 디스플레이의 지속기간은, 독자로부터 독자로 의 지속시간 및 시간의 서로 다른 시점 사이에서 다양하다. 또 다른 표현으로, 전자식 책의 일부의 시각적 디스플레이의 지속시간은 가변적이고, 전자식 책과의 사용자 상호작용에 의존적이다. 그러나 시간 의존적인 미디어의 종류인 사운드트랙의 재생은 이러한 시각적 디스플레이와 동기화된다.

복수의 독자에게 적용가능한 방법으로 사운드트랙과 함께 좋은 읽기 경험을 제공하기 위해, 오디오 큐(audio cue)는 텍스트에서 서로 다른 포인트와 연관되어 있고, 이러한 큐들이 전자식 책과의 사용자 상호작용에 기초하여 전자식 책의 시각적 디스플레이와 동기화되어 동적으로 재생된다. 동적 재생은 오디오 큐를 편집하고 재생하는 것을 포함하므로, 큐가 동기화되는 전자식 책의 일부의 지속기간의 예측에 기초하여 지속기간을 가진다. 시스템이 오디오 큐의 재생을 시작할 때, 이것은 다음 오디오 큐가 시작되어야 하는 시점을 예측한다. 현재 큐는 예측된 지속기간동안 재생되고, 다음 오디오 큐에 대한 과도기(transition)가 적절한 시기에 초기화된다.

이러한 사운드트랙은 일반적으로 단지 소정의 음악 또는 사운드(sound)가 아니며, 복수의 음악 및 사운드는 읽기 경험을 강화시키는 대신 독자를 산만하게 할 수도 있다. 대신, 사운드트랙은 독자에게 감성을 이끌어내도록(evoke) 설계된 음악 및 사운드를 포함하고, 이러한 감성은 텍스트에 의해 이끌어내질 수 있는 감성들과 유사하다. 일반적으로, 전자식 책에 대한 사운드트랙은 밝은 과도(transient) 사운드가 거의 없고, 음성이 없고, 음악에 대해 보조적(spare)이면서 약간은 최면술(hypnotic)적인 느낌이 있을 때, 이점(benefits)이 있다. 너무 빠르거나 너무 긴장되는 장르적인(Genre-wise) 음악은 읽는 것을 산만하게 하고, 어렵게 할 수 있다.

다양한 측면에서, 본 발명은 컴퓨터 구현 프로세스, 기기(예를 들어, 전자식 디바이스, 또는 일반적인 목적의 컴퓨터 또는 컴퓨터 프로그램이 실행될 수 있는 플랫폼을 제공하는 또 다른 디바이스), 이러한 기기에서 실행되는 프로세스들 또는 제조물(article of manufacture)에서 구체화될 수 있다. 이러한 제조물은, 컴퓨터 프로그램 인스트럭션 또는 그것에 대해 저장된 컴퓨터 판독 데이터를 포함하는 컴퓨터 판독 저장 매체, 및 이러한 제조물을 생성하고 이용하는 프로세스 및 기기들에서의 컴퓨터 프로그램 제품 또는 디지털 정보 제품을 포함할 수 있다.

따라서, 일 측에서, 오디오의 동적 재생은 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계를 포함한다. 전자식 시각자료의 일부에 연관된, 재생될 오디오의 섹션은 사용자 상호작용에 따라 길이가 동적으로 조정된다. 구현예에서, 상기 전자식 시각자료의 일부의 시각적 디스플레이의 지속시간은 수신된 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라 추정된다. 전자식 시각자료의 일부에 연관된 오디오의 서브-믹스의 시퀀스는 추정된 지속시간과 매칭될 것이다. 상기 추정은 읽기 속도의 이력을 이용하여 수행될 수 있다.

또 다른 측면에서, 사운드트랙은 전자식 시각자료의 디스플레이와 동기화되어 재생된다. 전자식 시각자료는 메모리로 수신된다. 태그를 갖는 상기 전자식 시각자료의 일부와 연관된 정보 또한 메모리로 수신된다. 사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부가 디스플레이된다. 태그를 갖는 오디오 파일이 접근된다. 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일이 선택된다. 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터가 수신되고, 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간이 상기 사용자 상호작용에 따라 동적으로 조정된다.

또 다른 측면에서, 전자식 시각자료에 대한 사운드트랙이 생성된다. 전자식 시각자료가 메모리로 수신된다. 태그된 오디오 파일의 특정 일부와 연관될 태그들과 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 전자식 시각자료가 상기 메모리에서 처리된다. 적절한 태그를 갖는 오디오 파일이 접근되고, 전자식 시각자료의 일부에 대한 타겟 오디오 파일이 선택되고, 결과로 나타난 사운드트랙을 생성하고 재생하기 위해 연관된다. 전자식 시각자료는 텍스트를 포함할 수 있고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함한다. 태그는 감성 디스크립터를 포함한다.

또 다른 측면에서, 큐 리스트는 전자식 시각자료의 각각의 일부에 대해 감성 디스크립터를 갖고, 감성 디스크립터는 오디오 파일과 또한 연관된 감성 디스크립터에 대응한다.

또 다른 측면에서, 오디오 큐는, 독자에게 들릴 최종 결과를 생성하기 위해 어떻게 스템이 반복되고 결합될 수 있는지를 나타내는 정보 및 오디오 데이터를 제공하기 위해 믹스될 수 있는 음악 자료의 복수의 서브믹스("스템")에 대한 오디오 데이터를 포함한다.

또 다른 측면에서, 사운드 트랙 및 이와 연관된 전자식 시각자료의 분배가, 마치 사운드트랙이 유효하지 않은 것처럼 동일한 방법으로 전자식 시각자료가 보여질 수 있도록 하는 방법으로 수행된다. 독자가 전자식 시각자료에 접근한 후, 큐 리스트는 식별되고 읽혀진다. 사운드트랙의 제1 큐가 전자식 시각자료의 디스플레이와 동기화되어 재생되는 동안, 백그라운드 태스크로서, 오디오 데이터가 다운로드된다.

또 다른 측면들은 하기 상세한 설명에서 출발되고, 본 발명의 서로 다른 측면의 다양한 조합에 의해 제공된다.

본 발명은 사운드트랙의 재생과 전자식 책의 시각적 디스플레이를 동기화할 수 있다.

도 1은 동적 오디오 재생기와 전자식 책 리더기의 데이터 흐름도이다.
도 2는 도 1의 동적 오디오 재생기를 보다 상세하게 나타내는 데이터 흐름도이다.
도 3은 큐 리스트를 나타낸다.
도 4는 오디오 큐 파일을 나타낸다.
도 5는 전자식 책이 오픈될 때 셋업 프로세스를 나타내는 흐름도이다.
도 6은 원하는 지속기간의 오디오 데이터를 생성하기 위해 어떻게 오디오 큐 파일이 이용되는지를 설명하는 흐름도이다.
도 7은 읽기 속도를 어떻게 산출하는지를 설명하는 흐름도이다.
도 8은 전자식 책에 대해 어떻게 사운드트랙이 자동적으로 생성될 수 있는지를 설명하는 데이터 흐름도이다.
도 9는 컴퓨터 시스템의 블록도이다.

하기와 같은 설명에서, 특정 상세설명이 구현예에 대한 완전한 이해를 제공하기 위해 주어진다. 그러나 이는 본 발명이 속하는 기술분야의 당업자에 의해 이해되어질 것이며, 구현예는 이러한 특정 상세설명 없이도 구현될 수 있다. 예를 들어, 소프트웨어 모듈(modules), 함수(function), 회로 등은 불필요한 상세설명에서 구현예를 모호하게 하지 않기 위해서 블록도에 나타날 수 있다. 또 다른 예에서, 잘 알려진 모듈들, 구조들 및 테크닉들(techniques)이 구현예를 모호하게 하지 않기 위해서 상세설명에 나타나지 않을 수도 있다.

또한, 플로차트(flowchart), 흐름도, 구조도 또는 블록도로서 묘사된 프로세스와 같이 구현예가 설명될 수 있다는 것이 자명하다. 플로차트가 연속적인 프로세스로서 오퍼레이션(operations)을 설명할 수 있음에도 불구하고, 많은 오퍼레이션들은 병렬적으로 또는 동시에 실행될 수 있다. 추가적으로, 오퍼레이션의 순서는 재배열(rearranged)될 수 있다. 프로세스는 그것의 오퍼레이션이 완료될 때 종료된다. 프로세스는 컴퓨터 프로그램에서 방법, 함수, 프로시져(procedure), 서브루틴(subroutine), 서브프로그램(subprogram) 등에 대응할 수 있다. 프로세스가 함수에 대응하는 경우, 이것의 종료는 호출 함수 또는 주요 함수로의 함수의 반환에 대응한다.

하기에서 설명되는 시스템 및 방법의 측면은 데스크탑, 랩탑, 노트북, 태블릿 또는 모바일 디바이스를 포함하는, 그러나 이에 제한되지 않는, 일반적인 목적의 컴퓨터 시스템 또는 컴퓨팅 디바이스의 어떠한 유형에서도 실행가능할 수 있다. "모바일 디바이스"라는 용어는 무선 디바이스, 모바일 폰, 모바일 통신 디바이스, 사용자 통신 디바이스, 개인용 디지털 보조장치(assistant), 모바일 소형(hand-held) 컴퓨터, 랩탑 컴퓨터, 전자식 책 리더기 및 전자식 컨텐츠를 판독(reading)할 수 있는 판독 디바이스 및/또는 개인에 의해 전형적으로 휴대(carried)되고 및/또는 복수의 형태의 통신 성능(capabilities)을 갖는(예를 들어, 무선, 적외선, 근거리 통신(radio) 등) 또 다른 유형의 모바일 디바이스를 포함한다. 그러나 이에 제한되지 않는다.

도 9는 이하 보다 상세하게 설명되는 시스템 및 방법의 하나 이상의 측면들에서 유용한 컴퓨터 시스템(900)의 내부 기능적인 아키텍쳐(architecture)를 나타내는 블록도이다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 컴퓨터-실행 프로세스 단계 및 컴퓨터 버스(916)와의 인터페이스를 실행하기 위한 중앙 처리 장치(CPU)(914)를 포함할 수 있다. 또한, 도 9에 도시된 바와 같이, 네트워크 인터페이스(918), 디스플레이 디바이스 인터페이스(920), 키보드 또는 입력 인터페이스(922), 포인팅 디바이스 인터페이스(924), 오디오 인터페이스(926), 비디오 인터페이스(932) 및 하드디스크 드라이브(934) 또는 또 다른 지속 저장장치이다.

상기에서 설명된 바와 같이, 디스크(934)는 오퍼레이팅 시스템 프로그램 파일, 어플리케이션 프로그램 파일, 웹 브라우저(web browsers) 및 또 다른 파일들을 저장할 수 있다. 이러한 파일들의 일부는 인스톨레이션(installation) 프로그램을 이용하는 디스크(934)에 저장될 수 있다.예를 들어, CPU(914)는 인스톨레이션 프로그램의 컴퓨터-실행 프로세스 단계를 실행할 수 있으므로, CPU(914)는 어플리케이션 프로그램을 적절하게 실행할 수 있다.

랜덤 액세스 메인 메모리("RAM")(936)는 CPU(914)가 메모리 저장장치에 접근할 수 있도록 컴퓨터 버스(916)와 또한 인터페이스(interface)할 수 있다. 디스크(934)로부터 저장된 컴퓨터-실행 프로세스 단계를 실행할 때, CPU(914)는 RAM(936)의 외부에 프로세스 단계를 저장하고 실행한다. 처리될 데이터 역시 이러한 메모리(936) 또는 저장장치(934)로부터 읽혀질 수 있고, 이러한 메모리(936) 또는 저장장치(934)에 저장될 수 있다. 리드 온리 메모리(read only memory, "ROM")(938)는 스타트-업(start-up) 인스트럭션 시퀀스 또는 키보드(922)의 오퍼레이션에 대한 기본 입력/출력 오퍼레이팅 시스템(BIOS) 시퀀스와 같은 불변(invariant) 인스트럭션 시퀀스를 저장하기 위해 제공될 수 있다.

전자식 책 리더기, 또는 전자식 책 및 또 다른 멀티미디어 자료의 시각적 디스플레이를 제공하기 위한 또 다른 어플리케이션은 도 9에 설명된 바와 같이 플랫폼에서 구현될 수 있다.

하기 설명에서, 전자식 책과 전자식 책 리더기는 멀티미디어 자료의 종류의 실시예로서 이용되고, 사운드트랙의 재생이 동기화될 수 있는 뷰어(viewer)에 대응한다. 자료의 일부의 시각적 디스플레이의 지속시간이 자료와의 사용자 상호작용에 의존적인 또 다른 종류의 멀티미디어 자료는 또한 이러한 종류의 동기화를 이용할 수 있다. 전자식 책이라는 용어는 주로 텍스트, 또는 그래픽 또는 또 다른 시각적 미디어를 수반하는 텍스트인 인컴파스 책(encompass book), 매거진, 뉴스레터, 신문, 정기간행물, 지도, 기사 및 또 다른 자료들일 것이다.

사운드트랙은 전자식 책을 포함하는 어떠한 종류의 전자식 시각자료와도 연관될 수 있다. 이와 유사하게 이용될 수 있는 음악 또는 오디오의 유형은 자료의 유형에 의존한다. 예를 들어, 소설의 자료에 대해, 사운드트랙은 영화 사운드트랙의 목적과 유사할 것이다. 즉, 긴장감을 생성하고, 사랑의 관심을 뒷받침하고(underpinning), 큰 클라이맥스(climax)에 도달하는 것과 같이 이야기를 지원하기 위함이다. 어린이용 책에 대해, 음악은 예를 들어, 페이지가 전환될 때와 같은경우, 가능한 한 더 많은 사운드 효과를 포함하는 카툰(cartoons)에 이용되는 것과 유사할 수 있다. 텍스트북에 대해, 사운드트랙은 지식 보유(retention)을 강화하는 것으로 알려진, 예를 들어 분당 약 128 또는 132 비트(beats)에서의 재료(material) 및 중요한 모달(modal) 음색을 이용하는, 리듬 및 음색(tonalities)을 포함할 수 있다. 명상을 지원하도록 설계된 일부 책들은 자연의 소리, 잔잔하고 희미한 음악, 부드러운 톤의 악기 및 이와 유사한 사운드트랙을 포함할 수 있다. 여행책은 묘사되고 있는 장소의 고유한 음악 및 사운드를 포함할 수 있다. 매거진 및 신부에 대해서는, 서로 다른 섹션(sections) 또는 기사는 서로 다른 사운드트랙 및/또는 서로 다른 스타일의 음악과 함께 제공될 수 있다. 심지어 동일한 페이지에서 서로 다른 부분(passes)를 읽는 것은 서로 다른 사운드트랙을 가질 수 있다. 광고주는 또한 이러한 자료를 읽는 동안 재생되는 그들의 오디오 테마를 가질 수 있다. 이러한 경우, 사운드트랙은 광고 기반의 텍스트가 어떻게 또 다른 재료를 수반하도록 선택되는지와 유사한 방법으로 선택될 수 있다.

특히, 도 1을 참조하면, 전자식 책(110)은 전자식 책 리더기(112)로 입력되고, 이는 최종 사용자 또는 독자에게 전자식 책의 시각적 디스플레이를 제공한다. 전자식 책(110)은, 적어도 텍스트를 포함하고 컴퓨터 프로그램이 상기 텍스트를 읽고 포맷하고 표시할 수 있도록 설계된 파일 포맷인, 하나 이상의 컴퓨터 데이터 파일이다. 전자식 책에 대해 다양한 파일 포맷이 있는데, 다양한 유형의 마크업(markup) 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 및 이와 유사한 형태), 및 또 다른 문서 유형, 예를 들어, EPUB, FictionBook, plucker, PalmDoc,zTxt, TCR, CHM, RTF, OEB, PDF, mobipocket, Calibre, Stanza 및 plain-text 등이 될 수 있다. 그러나 이들에 제한되지 않는다. 일부 파일 포맷은 소유권(proprietary)이 있고, 전용 전자식 책 리더기에서 이용되도록 설계된다. 본 발명은 어떠한 특정 파일 포맷에도 제한되지 않는다.

전자식 책 리더기(112)는 도 9와 연관되어 상기 설명된 바와 같이, 예를 들어, 개인 컴퓨터, 태블릿 컴퓨터, 모바일 디바이스 또는 전자식 책을 읽기 위한 전용 하드웨어 시스템을 포함할 수 있고 전자식 책(110)의 컨텐츠(contents)를 수신하여 디스플레이하는, 컴퓨터 플랫폼에서 구동하도록 설계된 소정의 컴퓨터 프로그램일 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기들이 많이 있으며, 예를 들어, Amazon.com의 KINDLE 리더기, Barnes&Noble의 Nook 리더기, Stanza 리더기, FBReader 소프트웨어, 오픈 소스 프로젝트(open source project)를 포함할 수 있다. 그러나 본 발명은 어떠한 특정 전자식 책 리더기에도 제한되지 않는다.

전자식 책 리더기(112)는 전자식 책 리더기(112)와의 사용자 상호작용을 표시(indicative)하는 데이터(114)를 출력하므로, 이러한 데이터는 동적 오디오 재생기(116)에 의해 이용될 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기는 여기에서 이러한 출력을 제공하기 위해 디스크립션(description)에 따라 변경될 수 있다.

텍스트와의 사용자 상호작용에 관한 데이터는 다양한 형태로 나타날 수 있다. 예를 들어 읽혀지는 책의 식별자(예를 들어, ISBN, e-ISBN 숫자 또는 해쉬(hash) 코드), 및 텍스트에서 현재 위치가 제공될 수 있다. 일반적으로 현재 위치는 디스플레이되고 있는 전자식 책의 일부 또는 현재 "페이지"로서, 전자식 책 리더기에 의해 추적(tracked)된다. 전자식 책 리더기는 이것이 변화할 때, 이 정보를 출력할 수 있다. 만약 전자식 책 리더기(112)에 의해 제공된다면, 유용할 수 있는 또 다른 정보는, 디스플레이되고 있는 문서의 현재 범위에 대한 단어 카운트(count), 사용자가 언제 전자식 책 리더기 어플리케이션을 종료하는지를 나타내는 표시(indication), 및 독자가 읽기를 정지하거나 정지 이후에 읽기를 재시작하는지 여부를 나타내는 표시를 포함한다. 그러나 이에 제한되지 않는다.

전자식 책 리더기 및 동적 오디오 재생기 사이에서 교환되는 정보 및 인스트럭션은 어플리케이션 프로그래밍 인터페이스(API)를 통해 구현될 수 있으므로, 동적 오디오 재생기는 전자식 책 리더기가 상태 정보를 제공하거나 일부 동작을 수행하도록 요청할 수 있거나, 전자식 책 리더기가 또 다른 어플리케이션 프로그램을 제어할 수 있도록 요청할 수 있다. 동적 오디오 재생기는 또한 이러한 API를 구현하도록 프로그램될 수 있다. API의 예시적인 구현예는 두 개의 인터페이스를 포함한다. 그러나 이에 제한되지 않는다. 하나는 전자식 책 리더기 어플리케이션으로부터 호출을 위한 것이고, 또 다른 하나는 전자식 책 리더기 어플리케이션을 호출하기 위한 것이다.

동적 오디오 재생기로, 전자식 책 리더기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.

"ebookOpenedwithUniqueID" - 이 함수는 어플리케이션이 전자식 책을 오픈(open)할 때, 전자식 책 리더기에 의해 호출된다. 이러한 함수는, 전자식 책의 고유한 식별자를 특정하고 전자식 책이 이전에 오픈된 적이 있는지 여부를 나타내는 파라미터(parameters)들을 갖는다. 이러한 정보에 응답하여, 동적 오디오 재생기는 현재 큐(cue)를 세팅(set)한다. 전자식 책이 처음으로 오픈되면, 현재 위치는 제1 큐의 시작으로 세팅될 것이다.

"ebookClosed" - 이 함수는 어플리케이션이 전자식 책을 닫을(close) 때, 전자식 책 리더기에 의해 호출된다. 상기 호출에 응답하여, 동적 오디오 재생기는 메모리를 자유화(free up)하고, 내부 데이터를 리셋(reset)한다.

"ebookRemoved" - 이 함수는 전자식 책 리더기가 이것의 라이브러리(library)로부터 전자책을 제거하는 경우 호출된다. 따라서, 사운드트랙 및 오디오 파일도 제거될 수 있다.

"displayedPositionRangeChanged" - 이 함수는 전자식 책 리더기가 이것의 디스플레이를 변경하는 경우 호출되는데, 예를 들어, 페이지 전환, 오리엔테이션(orientation) 변경, 폰트(font) 변경 또는 이와 유사한 경우에 따라 호출되고, 이 함수는 새롭게 디스플레이되는 자료의 범위에 대한 파라미터를 제공한다. 이 호출에 응답하여, 동적 오디오 재생기는 새롭게 디스플레이되는 자료의 범위에 대한 오디오 큐(audio cues)를 셋업(set up)할 수 있다.

"readingResumed" - 이 함수는 장기간(extended period) 비활성(inactivity) 이후에 사용자가 읽기를 재시작할 때 호출되고, 읽기가 "정지"된 것으로 결정된 이후 사용자로부터의 소정의 다양한 입력(예를 들어 페이지 전환 커맨드(command))을 수신함으로써 전자식 책 리더기는 이것을 검출한다.

"fetchSoundtrack" - 이 함수는 동적 오디오 재생기가 특정된 고유한 식별자(이 함수의 파라미터로서 제공되는)와 함께 전자식 책에 대한 사운드트랙 파일 또는 큐 리스트(cue list)를 패치(fetch)하고 임포트(import)하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.

"audioVolume" - 이 함수는 동적 오디오 재생기가 오디오 재생의 볼륨을 세팅하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.

"getCueLists" - 이 함수는 현재 오픈된 전자식 책에 대해 이용가능한 큐 리스트 및 그룹에 관한 정보를 동적 오디오 재생기로부터 검색하기 위해 전자식 책 리더기에 의해 호출된다. 이 함수는 예를 들어, 전자식 책 리더기가 이러한 정보를 독자에게 표시하도록 허용할 수 있다.

"cueListEnabled" - 이 함수는 동적 오디오 재생기가 특정 큐 리스트, 예를 들어 대안적인 사운드트랙, 사운드 효과, 기록된 독자 또는 텍스트-음성 변환을 가능하게 하거나 불가능하게 하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.

"audioIntensity" - 이 함수는 동적 오디오 재생기가 오디오 재생의 세기(intensity)를 세팅하도록, 예를 들어, 오디오 구성 방음장치(composition quieter)를 생성하거나 드럼 스템(drum stem)(서브믹스)을 음소거(mute)하도록, 지시하기 위해 전자식 책 리더기에 의해 호출된다.

"audioPreloadDefault" - 이 함수는 전자식 책을 다운로드(download)하고 일반적으로 보관하는 오디오의 시간의 디폴트(default) 개수를 세팅하기 위해 호출된다.

"audioPreloadForEbook" - 이 함수는 특정 전자책을 다운로드하고 보관하는 오디오의 많은 시간을 세팅하기 위해 호출된다.

"downloadEnabled" - 이 함수는 오디오 다운로딩을 가능하게 하거나 불가능하게 하기 위해서 호출된다.

전자식 책 리더기로의 동적 오디오 재생기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.

"readingPaused" - 예측되는 시간내에 전자식 책 리더기로부터 "displayedPositionRangeChanged" 호출이 수신되지 않는 경우, 이 함수는 동적 오디오 재생기에 의해 호출된다. 이 정보로부터, 사용자가 더 이상 읽기를 하지 않는다는 것이 동적 오디오 재생기에 의해 가정된다. 이 함수를 호출한 후, 사용자가 다시 읽기를 시작한 경우, 전자식 책 리더기는 "readingResumed" 함수를 호출하여야 한다.

"gotoPosition" - 이 함수는 전자식 책 리더기가 책에서 현재 위치를 세팅하도록 지시하기 위해 동적 오디오 재생기에 의해 호출되고, 일반적으로 제일 처음 제1 큐의 시작 포인트에서, 전자식 책은 호출될 "ebookOpenedAtPath" 함수에 응답하여 오픈된다.

"wordCountForRange" - 이 함수는 전자식 책 리더기가, 하기에서 보다 상세하게 설명되는 바와 같이 재생리스트들을 스케줄링(scheduling)하고, 읽기 속도를 추적하는데 이용될, 전자식 책의 특정 범위에 대한 단어들의 개수를 제공하도록 지시하기 위해 동적 오디오 재생기에 의해 호출된다.

이러한 API 호출들의 이용은 하기에서 보다 상세하게 설명된다.

도 3과 관련하여 하기에서 보다 상세하게 설명하면, 전자식 책(110)은 큐 리스트(118)와 연관되어 있고, 이는 텍스트의 일부와 오디오 큐(120)를 연관시킨다. 일반적으로, 전자식 책(110)을 고유하게 식별하는데 이용되는 식별자는, 큐 리스트에서 식별자를 임베딩(embedding)하거나 또는 책을 큐 리스트(118)와 연관시키는 지도 또는 룩업(lookup) 테이블의 형태(form)를 가짐으로써, 큐 리스트(117)를 책과 연관시키는데 이용된다. 오디오 큐(120)는 오디오 데이터를 포함하는 컴퓨터 데이터 파일이다. 일반적으로 큐 리스트(117)에 의해 텍스트의 일부와 연관된 오디오 큐(120)는 독자가 상기 텍스트의 일부를 읽고 있는 동안 재생된다. 예를 들어, 텍스트의 일부는 오디오 큐가 재생을 시작하여야 하는 주변 텍스트의 포인트에 의해 또는 오디오 큐가 재생되어야 하는 동안 텍스트의 범위에 의해 지정될 수 있다. 동적 오디오 재생기(116)는 언제 어떻게 하나의 오디오 큐의 재생을 정지할지 및 또 다른 것의 재생을 시작할지를 결정한다.

동적 오디오 재생기(116)는 전자식 책 리더기(112)와의 사용자 상호작용에 관한 데이터(114)를 수신하고, 또한 큐(120) 및 큐 리스트(118)도 수신한다. 하기에서 보다 상세하게 설명되는 것과 같이, 동적 오디오 재생기(116)는 재생될 오디오 큐(120)를 선택하고, 언제 어떻게 그들을 재생하고, 출력 오디오 신호(122)를 제공하기 위해 사용자 상호작용 데이터(114) 및 큐 리스트(118)를 이용한다.

사운드트랙이 재생되는 동안, 동적 오디오 재생기는 현재 읽혀지고 있는 텍스트의 일부와 연관된 현재 큐를 재생하고, 텍스트와의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐(next cue)로 어떻게 언제 과도(transition)할 지를 결정한다. 도 2에서 더 구체적으로 나타난 바와 같이, 동적 오디오 재생기(200)는 오디오(206)를 생성하기 위해 현재 큐(204) 및 다음 큐(210)를 이용한다. 재생될 이러한 큐들(204, 210)은 사용자 상호작용에 관한 데이터(212)를 이용하는 큐 룩업(cue lookup)(208) 및 큐 리스트(202)를 통해 결정된다. 동적 오디오 재생기가 현재 큐(204)를 재생하는 동안, 이는 다음 큐가 재생되어야 하는 시기를 결정하기 위해 수신(incoming) 데이터(212)를 감시한다. 현재 큐(204)는 큐의 실제 지속기간보다 더 길게 또는 더 짧은 시간동안 재생될 필요가 있을 수 있다. 하기에서 상세하게 설명되는 바와 같이, 동적 오디오 재생기는 텍스트의 연관된 일부를 읽는데 사용자가 이용하고 있는 시간의 양을 피팅(fit)하기 위해 현재 큐를 길게 하거나 또는 짧게 하고, 사용자가 다음 큐와 연관된 텍스트에 도달할 것으로 추정되는 시간에서, 크로스 페이드(cross fade)와 같은 과도기를 구현한다.

도 3을 참조하면, 도 1의 큐 리스트(118)의 예시 구현예가 보다 상세하게 설명될 것이다. 오디오 큐(예를 들어 도 1의 120, 도 2의 204, 210)들은 텍스트의 일부에 할당된다. 텍스트의 일부를 오디오 파일과 연관시키는 메타-태그(meta-tag) 정보 파일을 이용하여, 할당이 이루어질 수 있다. 오디오 파일과의 연관은 직접적 또는 간접적일 수 있고, 정적으로(statically) 또는 동적으로 정의될 수도 있다. 예를 들어, 텍스트의 서로 다른 일부는, 텍스트의 일부들과 연관되는 감정을 지시하는 또 다른 레이블(lables) 또는 서로 다른 단어, 음악의 분위기(moods) 또는 스타일에 할당될 수 있다. 오디오 파일은 이러한 단어 또는 레이블과 연관될 수도 있다. 하기에서 상세히 설명되는 바와 같이, 오디오 파일들은 선택될 수 있고 텍스트와 정적으로 연관될 수 있고, 또는 그들은 재생 시간에서 동적으로 선택될 수 있다. 대안적으로, 텍스트에서 서로 다른 포인트는 오디오 파일과 직접적으로 연관될 수 있다.

도 3은 예시적인 메타-태그 정보 파일을 나타낸다. 메타-태그 정보 파일은 큐를 나타내는 데이터 쌍(302)의 리스트(300)이다. 큐를 나타내는 각 쌍(302)은 텍스트 문서내에서 마크업 언어 요소에 대한 참조, 텍스트 문서의 시작에서의 오프셋(offset), 또는 텍스트 문서내에서 범위와 같은, 텍스트에 대한 참조(304)를 포함한다. 쌍(302)은 큐를 특정하는 데이터(306) 또한 포함한다. 이 데이터는 감정적 태그와 같은 단어 또는 레이블, 또는 파일명과 같은 오디오 파일의 지시자, 또는 오디오 파일을 선택하는데 이용될 수 있는 소정의 또 다른 데이터일 수 있다. 어떻게 컴포저(composer) 또는 컴퓨터 프로그램이 이러한 큐 리스트를 생성할 수 있는지에 대해서는 하기에서 더욱 상세하게 설명될 것이다.

메타-태그 정보 파일은 복수의 메타데이터(metadata) 파일을 포함하는 아카이브(archive)인 파일로서 구현될 수 있다. 이러한 파일들은 제이슨(JavaScript Object Notation, JSON) 포맷일 수 있다. 메타-태그 정보 파일은 일반적인 정보를 포함하는 매니페스트(manifest) 파일을 무결성 체킹(integrity checking)을 위한 체크섬(checksums)과 함께 포함할 수 있는데, 여기서 일반적인 정보는 전자식 책의 고유한 식별자와 연관되는 것과 같은 사운드트랙, 전자식 책의 제목, 스키마(schema) 버전(향후 포맷 변경에 대비하여 호환가능성(compatibility) 목적을 위해), 및 아카이브에서 또 다른 파일들의 리스트에 관한 것이다. 매니페스트 파일에 추가하여, 메타-태그 정보 파일은 또한 사운드트랙에서 유효한 큐 리스트 디스크립터들의 리스트를 포함하는 큐리스트 파일을 포함한다. 각 큐 리스트 디스크립터는 디스플레이 명칭, 룩업 목적을 위한 고유한 식별자 및 큐 리스트의 선택적 그룹 명칭을 포함한다. 예를 들면, 단일 재생을 갖는 것만이 가능한 경우에, 복수의 상호 배타적인 주요 큐 리스트들이 있을 수 있다. 이러한 큐 리스트들은 "주요" 그룹 명칭을 가질 수 있고, 반면 음향 효과 또는 "나에게 읽어주기" 큐 리스트가 있어, 동시에 이들 모두를 재생하는 것도 괜찮을 것이므로, 그룹 명칭을 이용하지 않을 것이다.

메타-태그 정보 파일은 또한 모든 큐 리스트에 대한 큐 디스크립터들의 리스트를 포함하는 큐 파일을 포함한다. 각 큐 디스크립터는 생산자에 의해 큐 디스크립터에 주어진 기술형(descriptive) 명칭을 포함한다. 이 디스크립터는 이러한 목적을 위해 또 다른 어플리케이션을 이용하여 입력될 수 있고, 큐 파일 리스트에서 큐 파일의 위치 및 전자식 책에서 입출력 포인트를 찾기 위해 이용되는 큐 파일 명칭과 같은 정보를 포함할 수 있다.

최종적으로, 메타-태그 정보 파일은 큐 파일 디스크립터들의 리스트를 포함하는 "큐파일" 파일을 포함한다. 큐파일 파일은 큐 파일들의 네트워크 위치를 특정한다. 각 큐 파일 디스크립터는 생산자에 의해 큐파일에 주어지고 큐 디스크립터에서 큐 파일 명칭으로서 이용되는 기술형 명칭, 및 큐 파일과 큐 파일에서의 원본 파일 명칭을 검색하기 위한 URL을 포함한다.

큐 리스트에서 참조된 오디오 큐(도 1의 120)들은 오디오 데이터를 포함하고, 상기 오디오 데이터는 AIFF, MP3, AAC, m4a와 같은 오디오 파일 포맷 , 또는 또 다른 파일 유형으로 저장될 수 있다. 도 4를 참조하여, 오디오 큐 파일의 예시적인 구현예가 설명될 것이다. 오디오 큐 파일(400)은 복수의 "스템(stems)"(서브믹스)(402)을 포함할 수 있고, 각각은 큐에 대한 멀티파트 오디오 믹스(multipart audio mix)의 한 부분을 제공하는 분리된 오디오 파일이다. 이러한 스템의 이용은 큐의 재생시간을 길게 하기 위해 동적 오디오 재생기가 스템들 중에서 반복할 스템을 선택하도록 허용한다. 오디오 큐 파일은 또한 루프 마커(loop markers)(404), 바 로케이션(bar locations)(406) 및 추천 믹스 정보(408)과 같이, 동적 오디오 재생기가 재생되는 오디오 큐에 대한 지속기간을 변경하는데 유용한 정보를 포함할 수 있다. 추천 믹스 정보는 오디오 스템을 조합하기 위한 인스트럭션의 리스트를 포함하고, 각 인스트럭션은 이용될 스템들과 섹션들, 및 적용될 소정의 오디오 효과 프로세싱을 지시한다. 장르(genre), 스타일, 악기(instruments), 감정, 분위기(atmosphere), 장소, 시대(era)를 지시하는 오디오 또는 데이터에 의해 이끌어내지는 감정 또는 분위기를 지시하는 단어 또는 레이블과 같은 또 다른 정보-디스크립터(410)라고 지칭되는- 또한 제공될 수 있다. 대안적인 키워드, 큐 볼륨(cue volume), 크로스-페이드 또는 페이드-인/아웃 형상(shape)/세기(intensity), 및 연속성을 위해 추천 하모닉 프로그레션(harmonic progression)과 같은 더 추가적인 정보도 포함될 수 있다.

예를 들어, 오디오 큐 파일은 JSON 포맷에서 메타데이터 파일 및 큐의 스템에 대한 하나 이상의 오디오 파일을 포함하는 아카이브로서 구현될 수 있다. 메타데이터 파일은 오디오 파일과 연관된 메타데이터에 대한 디스크립터를 포함하고, 이것은 바 로케이션, 루프 마커, 추천 믹스 정보, 이모드(감정 컨텐츠 메타-태그)(emode, emotional content meta-tags), 오디오 동적 제어 메타데이터(동적 범위 압축)(dynamic range compression), 악기, 분위기 및 장르를 포함한다. 오디오 파일은 각 스템에 대한 고해상도 원본 오디오 파일 및 데이터 압축 오디오 파일을 포함할 수 있다. 각 스템의 고해상도 버전을 보유하는 것은 음악 생성 도구를 이용하여 편집하는 것을 차후에 지원한다. 원본 오디오 파일 없이 오디오 큐 파일의 복사본은 전자식 책 독자들에게 더 작은 다운로드(downloads)를 제공하기 위해 생성될 수 있다. 큐 파일은 스템들에 대해 상기 압축 오디오 파일들을 포함하고, 이것은 최종 사용자 어플리케이션에서 재생을 위해 이용되는 파일들이다.

큐 파일은 소프트웨어 도구를 이용하여 생성될 수 있는데, 상기 소프트웨어 도구는 표준 오디오 스템의 세트를 입력하고, 디스크립터, 루프 포인트(loop point) 및 분리된 텍스트 파일로서 추천 믹스 메타 정보를 추가하고, 네트워크 전송을 위해 오디오를 최적화하고 압축하고, 데이터베이스로 업로드될 수 있는 단일 패키지 파일을 출력한다. 오디오 파일은 세션, 비트(beats), 소리세기(loudness) 정보, 페이드(fades), 루프 포인트 및 링크(link)를 찾아내는(locate) 다양한 분석 테크닉을 이용하여 분석될 수 있다. 큐는 디스크립터들 "장르, 스타일, 악기, 감전, 장소, 시대"를 이용하여 선택될 수 있고, 독자에 의해 이용되는 것과 같이 네트워크를 통해 전송될 수 있다.

큐 리스트 및 큐 파일은 개별적으로 암호화되고 그들이 사운드트랙인 특정 자료에 링크될 수 있다. 상기 자료 및 이것의 사운드트랙에 접근하기 위해 동일한 키(key)가 이용될 수 있다. 따라서, 파일들은 자료가 접근되는 것을 통해 특정 보기(viewing) 디바이스 또는 특정 자료에 구속될 수 있고, 자료와 연관된 디지털 권리 관리 정보를 이용할 수 있다.

큐 리스트, 오디오 큐 및 전자식 책 리더기에서 가능한 상호작용에 대한 앞선 이해를 기반으로, 동적 오디오 재생기가 도 5 내지 7와 함께 더욱 상세하게 설명될 것이다.

책이 독자에 의해 처음 오픈될 때(500) 재생을 초기화하기 위해, 전자식 책 리더기는 "ebookOpenedwithUniqueID" 함수를 호출하고(502), 이 함수는 책의 고유한 식별자 및 책이 이전에 오픈된 적이 있는지 여부를 지시한다. 동적 오디오 재생기는 전자식 책의 식별자를 수신하고(504), 식별된 책에 대한 큐 리스트를 다운로드하거나 판독(read)한다(506). 전자식 책 리더기는 "getCueLists" 함수를 호출함으로써, 큐 리스트에 관한 정보를 동적 오디오 재생기에 촉구(prompt)한다. 동적 오디오 재생기는 큐 리스트를 전송하고(510), 전자식 책 리더기는 책에 대한 사운드트랙들(하나 이상의 사운드트랙이 있는 경우) 중 하나를 선택하도록 사용자에게 표시한다(512). 이와 같은 선택은 사용자가 사운드트랙을 평가(rate)하도록 허용하는 소비자 피드백 평가 시스템을 이용함으로써 강화될 수 있고, 이러한 평가들은 사운드트랙의 선택이 시스템에 의해 요청될 때 사용자에게 표시될 수 있다. "cueListEnabled" 함수는 동적 오디오 재생기에 선택된 큐 리스트를 알리기 위해 호출되고(514), 동적 오디오 재생기는 함수 호출을 통해 이를 수신한다(516). "fetchSoundtrack" 함수는 동적 오디오 재생기가 재생에 대한 큐를 패치(fetch)(520)하도록 지시하기 위해 호출된다(518).

이러한 셋업(setup) 과정이 완료된 후, 동적 오디오 재생기는 재생을 초기화하기 위해 큐 및 큐 리스트, 그리고 현재 큐를 시작하는 것을 포함한다. 전자식 책 리더기에 의해 전자식 책의 일부가 디스플레이되는 시간 주변에 재생이 시작될 수 있다. 다음, 동적 재생기는, 책과의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐, 큐를 언제 재생할지 및 현재 큐로부터 다음 큐로 어떻게 과도(transition)될 지를 결정한다.

동적 오디오 재생기는 추정 총 큐 지속시간을 피팅(fit)하기 위해 큐의 오디오 스템 파일들의 재생 시간을 확장하거나 짧게 한다. 이러한 추정 큐 지속시간은 복수의 방법으로 연산될 수 있다. 예시적인 구현예는 읽기 속도의 추정을 이용하고, 이것의 연산은 하기에서 더욱 상세하게 설명한다. "displayedPositionRangeChanged" 함수 호출을 통해 각 페이지 전환에서 제공되는 것과 같이, 전자식 책 리더기와의 사용자 상호작용을 설명하는 데이터에 응답하여 현대 큐 지속시간은 업데이트된다.

일반적으로, 큐의 오디오 스템 파일의 재생 시간은 오디오 스템 파일들의 섹션을 자동적으로 루핑(looping)하고, 개별적인 스템 믹스들을 다양화하고, 에코, 지연 및 코러스와 같은 다양한 효과를 동적으로 추가함으로써, 변경된다. 오디오 스템 파일에 특정되는 또 다른 믹스 자동화 데이터 및 루프 포인트는 큐 파일의 메타데이터에 저장된다. 큐 파일에는 복수의 서로 다른 루프 포인트가 있을 수 있다. 오디오 스템의 섹션들은, 루프(loop)되고 리믹스(remix)될 때, 선택될 수 있으므로, 그들은 가장 효과적이고 흥미있는 최종 사용자 경험을 제공한다. 이 과정은, 오디오 원본 부분의 지속시간을 많이 가질 수 있는 음악적으로 만족스러운 결과를 전송하기 위해, 명백한 반복을 가지며 음악 컨텐츠를 최대화하는 음악을 생성하는 것을 방지한다. 다음 큐가 트리거(triggered)될 때, 송신(outgoing) 및 수신(incoming) 오디오 사이의 과도기 또한, 스타일을 정의하기 위한 큐 파일 메타데이터 및 끊김없는 음악적 과도기를 생성하기 위한 적절한 크로스 페이드를 이용하는 동일한 과정에 의해 관리된다.

예를 들어, 큐 파일이 4개의 오디오 스템들(멜로디 트랙(melody track), 일관된 화음(sustained chordal) 또는 "패드" 트랙, 리듬감 있는 타악기소리(rhythmic percussive)(종종 드럼) 트랙, 및 하모닉(harmonic) 트랙)을 포함하고, 만약 단일 패스(pass)에서 재생되는 경우, 이들은 4분 동안 실행될 것이라고 가정한다. 추가적으로, 이 기록들은 3개의 구분된 섹션 A, B, 및 C를 갖는다고 가정한다. 큐 파일에서 메타 정보는 하기와 같은 것을 포함할 것이다.

1. 이전 큐로부터 큐로 과도된 방법. 이는 과도기 스타일(즉, 저속, 중속, 고속 페이드-인, 또는 에코 테일(reverb tail)과 이전 큐를 정지하고 큐의 시작으로부터 새로운 큐 시작), 음악 바(musical bar), 비트 마커(beat markers)를 포함하기 때문에, 크로스 페이드는 음악적으로 끊김이 없을 것이다.

2. A,B 및 C 섹션 각각이 루프될 수 있는 시간 포지션(positions).

3. 4개의 스템들이 리믹스될 수 있는 방법에 대한 큐 생산자의 입력. 예를 들어, 스템 1, 2 및 3은 섹션 A만을 이용하여 재생하고, 스템 1, 3 및 4는 섹션 A만을 이용하여 재생하고, 스템 3에 에코를 추가하여 이것 스스로의 섹션 B를 이용하여 이를 재생하고, 섹션 B로부터 스템 3 및 4를 재생하는 등이 있다. 이러한 종류의 인스트럭션들을 갖는다는 것은 전형적인 4분 오디오가 명백한 반복없이 40분 또는 그 이상으로 확장될 수 있다는 것을 의미한다. 추가적으로, 각 믹스는 사용자에 대해 고유하고, 재생 시간에 생성되므로 사운드트랙의 부정(unauthorized) 복사는 더 어려워진다.

예를 들어, 도 6을 참조하여, 이러한 과정은 보다 상세하게 설명된다. 주어진 큐 및 시작 포인트에 따라, 다음 큐가 재생되기까지의 지속시간이 결정된다(600). 이러한 지속기간을 연산하는 예시적인 방법이 하기에서 상세하게 제동된다. 주어진 지속기간에서, 큐 생산자의 입력은 이상적인 지속기간의 재생리스트를 생성하기 위해 처리된다. 다시 말하면, 리믹스 정보에서 제1 인스트럭션이 선택되고(602), 재생리스트에 추가된다. 605에서 결정되어, 만약 오디오 스템의 이 섹션이 이상적인 지속기간보다 짧은 지속기간을 갖는 경우, 다음 인스트럭션이 선택되고(606), 프로세스는 이상적인 지속기간의 재생리스트가 완료될 때(608)까지 반복된다. 큐의 끝에서, 다음 큐에 대한 메타데이터에서 과도기 정보는, 현재 큐로부터 다음 큐로 크로스-페이드를 구현하기 위해, 현재 재생리스트에서 시작 포인트를 선택하는데(610) 이용된다.

큐의 지속기간을 추정하는 한 방법은, 큐에서 주어진 단어의 개수 및 독자의 읽기 속도를 추정하고, 독자가 책의 이 일부를 읽는 것을 완료하는데 걸리는 시간이 얼마인지 결정한다. 이러한 추정은 독자에 대한 읽기 속도 정보의 이력으로부터 연산될 수 있다.

사용자가 책을 읽기 시작할 때, 분 당 소정 개수의 단어에 대한 초기 읽기 속도가 가정된다. 상기 초기 속도는 이전 책을 읽은 것으로부터 독자의 이전 읽기 속도 이력에 관한 다양한 데이터로부터 산출될 수 있고, 이는 모든 책들에 대해 작가, 장르, 시각, 장소에 따라 체계화될 수 있다. 만약 이전 읽기 이력이 유효하지 않은 경우, 다른 사용자들이 이 제목을 어떻게 읽었는지에 대한 익명의 세계적인 기록(global tally)이 이용될 수 있다. 또 다른 이력들이 유효하지 않은 경우, 분당 400 단어의 전형적인 평균이 이용된다.

도 7을 참조하면, 사용자에 대한 읽기 속도는, "displayedPositionRangeChanged" 함수 호출에 의해 지시되는 바와 같이, 디스플레이되는 포지션 범위가 변화되는 각 시간마다 추적된다. 만약 이 함수 호출이 수신되면(700), 복수의 조건들이 체크된다(702). 이러한 조건들은 하기와 같은 것을 포함할 수 있으나, 이에 제한되는 것이 아니며, 모두 요구하지도 않는다. 사용자는 능동적으로 읽고 있는다. 즉, 읽기를 잠시 멈춘 상태는 안 된다. 새롭게 디스플레이된 포지션의 범위는 이전에 디스플레이된 포지션의 범위보다 크다. 새롭게 디스플레이된 포지션의 범위의 시작은 이전에 디스플레이된 포지션의 범위의 끝과 닿아(touch) 있다. 그리고, 단어 카운트는 최소량(현재 150 단어)보다 크다. 마지막 변경 이후에 시간은 또한, 속도를 체크하기 위한 평균 읽기 속도의 표준 편차는 정상 기대 분산(variance) 내인 것과 같이, 합리적인 범위 내여야 한다. 만약 상기한 조건들이 충족된 경우, 현재 시간이 이전에 디스플레이된 포지션의 범위에 대한 단어 카운트와 함께 기록된다(704). 섹션에 대한 읽기 속도가 연산된다(708). 측정된 읽기 속도의 이력 데이터로부터, 평균 읽기 속도는 연산될 수 있고, 큐 지속시간을 추정하는데 이용될 수 있다.

페이지 p에 대한 읽기 속도 Sp(초당 단어)를 산출하는 공식은 하기와 같다.

여기서 Wp는 페이지에 대한 단어 카운트이고, Tp는 페이지를 읽는데 걸리는 시간(초)이다. 구현예에서, 평균 읽기 속도에 대해 이용되는 통계는 20 주기 지수이동평균(exponential moving average, EMA)이고, 이는 속도에서 변동을 고르며(smoothes out), 반면 여전히 최근 페이지 속도를 더 중요하게 고려한다.

EMA를 산출하는 공식은 하기와 같다.

여기서 n은 주기의 개수, 즉 20이다.

읽기 속도에서 분산을 산출하기 위해, 마지막 20 값에 대한 분산을 산출하기 위해 웰포드 방법(Welford's method)을 이용한다.

및

으로 초기화한다.

T의 연속적인 값에 대해, 반복 공식을 이용하면,

에 대해, 분산의

추정은,

상기 읽기 속도 정보는 사용자 전자식 책 리더기 어플리케이션 플랫폼에 위치적으로 저장될 수 있다. 복수의 사용자에 대한 이러한 정보는 익명의 패션(fashion)의 서버에서 컴파일(compiled)될 수 있고, 저장될 수도 있다. 어플리케이션은 다른 사람들이 자료 또는 자료의 일부를 얼마나 빨리 읽는지 결정하기 위해 읽기 속도 정보 통계를 찾을 수 있다.

읽기 속도 대신 또는 읽기 속도에 추가된 사용자 상호작용의 또 다른 유형은 재생을 제어하는데 이용될 수 있다.

구현예에서, 전자식 책과의 사용자 상호작용에 관한 데이터는 독자가 책에서 포인트부터 읽기 시작했다는 것을 지시한다. 이는, 독자가 일반적으로 한 자리에서 책을 시작부터 끝까지 읽지 않는 경우에서 자주 발생한다. 복수의 경우에서, 독자가 책에서 포인트를 읽는 것을 재시작하는 경우, 그 포인트에서 사운드트랙에서 오디오의 오디오 레벨 또는 "여기(excitement)"의 또 다른 레벨은 적절하지 않을 수 있다. 즉, 오디오는 그 포인트에서 실제로 분산(distracting)할 수 있다. 동적 오디오 재생기는 책에서 포지션부터 독자가 읽기 시작했다는 지시자를, 현재 읽기 포지션을 포함하는 책의 일부에 대해 선택되는 오디오 큐로부터 대안적인 오디오 큐를 선택하기 위한 기회로서, 이용할 수 있다.

또 다른 예에서, 독자는 섹션으로부터 섹션으로 스킵(skipping)함으로써, 책을 읽을 수도 있다. 또 다른 멀티미디어 자료는 이러한 읽기의 방법을 권장할 수도 있다. 이러한 경우, 자료의 섹션과 연관된 오디오 큐는 그 섹션의 디스플레이가 초기화될 때 재생된다. 이전에 디스플레이된 섹션의 오디오로부터 새롭게 디스플레이된 섹션에 대한 오디오로의 간단한 크로스-페이드가 수행될 수 있다. 복수의 어플리케이션에서, 자료의 특징이 소정의 특정 섹션의 보기(viewing) 시간이 예측되지 어려운 경우와 같으면, 동적 재생 엔진은 지속기간을 무기한으로 간단하게 간주하고, 이것은 또 다른 오디오 큐를 시작하기 위해 인스트럭션이 수신될 때까지 큐 파일에서의 인스트럭션에 기초하여 오디오를 생성하기 위해 지속될 수 있다.

또 다른 예시에서, 사용자 입력에 응답하여 큐 파일의 서로 다른 섹션을 재생하기 위해 오디오 큐 파일을 이용하는 것이 가능하다. 예를 들어, 유명한 곡은 섹션으로 나뉘어질 수 있다. 사용자 인터페이스는, 재생기가 사용자 입력에 응답하여 특정된 섹션 또는 다음 섹션으로 점프(jump)하도록 지시할 수 있는 오디오 재생제어를 위해 제공될 수 있다.

어떻게 이와 같은 자료 및 수반하는 사운드트랙이 생성되는지 설명되고, 그들의 분배가 설명될 것이다.

전자식 책에 대한 사운드트랙을 생성하는 것은 오디오 파일들을 전자식 책의 텍스트의 일부와 연관시키는 것을 포함한다. 사운드트랙이 생성될 수 있는 복수의 방법들이 있다.

한 구현예에서, 컴포저는 텍스트의 각 일부에 대해 원본 음악을 쓰고 기록한다. 텍스트의 각 일부는 그렇게 쓰여지고 기록된 개별의 오디오 파일들과 연관될 수 있다. 대안적으로, 미리 기록된 음악은 선택될 수 있고, 텍스트의 일부와 직접적으로 연관될 수도 있다. 이러한 구현예에서, 오디오 파일은 정적으로 및 동적으로 텍스트의 일부에 할당된다.

또 다른 구현예에서, 오디오 파일은 간접적으로 텍스트의 일부에 할당된다. 단어 또는 또 다른 레이블과 같은 태그들은 텍스트의 일부와 연관된다. 상기에서 설명된 큐 리스트와 유사하게, 이러한 태그들은 컴퓨터 데이터 파일 또는 데이터베이스에 저장될 수 있고, 전자식 책과 연관될 수 있다. 대응 태그는 또한 오디오 파일에 연관된다. 하나 이상의 컴포저는 특정 감정이나 분위기를 이끌어내도록 하는 원본 음악을 쓰고 기록한다. 대안적으로, 이전에 기록된 음악이 선택될 수 있다. 이러한 오디오 파일들은 또한 이러한 태그와 연관되고, 데이터베이스에 저장될 수 있다. 텍스트의 일부와 연관된 태그는 동일한 태그를 갖는 대응 오디오 파일을 자동적으로 선택하는데 이용될 수 있다. 책에서 하나의 태그에 대해 복수의 오디오 파일이 식별되는 이벤트에서, 오디오 파일들 중 하나가 컴퓨터 또는 사람의 조정 중 어느 하나에 의해 선택될 수 있다. 이러한 구현예는, 전자식 책 및 오디오 파일과 연관된 태그들이 주어진 오디오 파일을 선택하는 과정을 자동화함으로써, 오디오 파일들이 데이터베이스에서 수집되도록 허용하고, 사운드트랙의 생성이 반자동적으로 완료되도록 한다.

오디오 파일이 전자식 책과 간접적으로 연관되도록 하는 구현예에서, 오디오 파일은 또한, 재생에 가까운 시간에 있는 태그를 사용하여 동적으로 선택될 수 있다.

태그를 전자식 책과 연관시키는 프로세스 또한 자동화될 수 있다. 특히, 텍스트의 단어의 의미(semantic) 분석에 기초하여 감정 디스크립터들을 텍스트의 일부와 연관시키기 위해, 텍스트는 컴퓨터에 의해 처리될 수 있다. 이러한 의미 분석의 예시적인 테크닉은, Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (2005 10월), 페이지 579-586에서 Cecilia Ovesdotter Alm 외에 의한 "Emotions from text: machine learning for text-based emotion prediction"에서 설명된 방법들을 포함하고, 이는 참조에 의해 구체화된다. 그러나 이에 제한되지는 않는다. 상기 태그들은 보여지고 있는 자료의 섹션을 지지하는 감정적 느낌 또는 또 다른 정서(sentiment)를 설명할 수 있다. 예를 들어, 이러한 감정적 느낌은 중간 긴장, 사랑의 관심, 긴장, 쾌활, 남성적인, 어두운, 음울한, 유령같은, 행복한, 슬픈, 아쉬운, 성적 순간, 밝고, 화창한 것과 같은 느낌을 포함할 수 있다. 그러나 이에 제한되지 않는다.

도 8은 그들과 연관된 태그를 갖는 주어진 오디오 파일, 전자식 책에 대한 사운드트랙을 생성하기 위해 완전히 자동화된 과정의 예시를 나타내는 데이터 흐름도이다. 전자식 책(800)은 책에 대한 텍스트 범위(804) 및 감정 디스크립터들을 출력하는 감정 디스크립터 생성기(802)로 입력된다. 감정 디스크립터는 책의 각 범위에 대해 감정 디스크립터들을 매치(match)하는 오디오 파일들(810)을, 오디오 데이터베이스(806)에서, 찾는데 이용된다. 오디오 선택기(808)는 큐 리스트(812)를 생성하기 위해 각 텍스트 범위에 대한 오디오 파일의 자동화되거나, 랜덤하거나 또는 반자동화된 선택을 고려한다. 고유한 식별자는 전자식 책에 대해 생성될 수 있고, 큐 리스트(812)와 함께 저장될 수도 있다.

이와 같은 전자식 책 및 그들의 사운드트랙은 소정의 다양한 방법으로 분배될 수 있으며, 이는 전자식 책의 상업적 분배를 위해 현재 이용되는 방법을 포함하되, 이에 제한되지 않는다. 구현예에서, 전자신 책 및 전자식 책 리더기는 종래 테크닉을 이용하여 최종 사용자에게 분배된다. 추가적인 사운드트랙의 분배 및 동적 오디오 재생기는 별도로 완료된다. 사운드트랙의 분배는 일반적으로 두 단계로 완료된다. 먼저 큐 리스트가 다운로드되고, 그 다음 각 오디오 파일이 다운로드된다. 오디오 파일은 요구에 따라서 다운로드될 수 있다. 동적 오디오 재생기는 전자식 책 리더기가 구동하는 동일한 장치에 저장될 수도 있고, 또는 분리되어 저장될 수도 있는 유효한 큐 파일들에 관한 정보를 유지하는 파일 매니저를 포함할 수 있다.

구현예에서, 전자식 책은 큐 리스트 및 동적 오디오 재생기와 함께 최종 사용자에게 분배된다.

또 다른 구현예에서, 전자식 책 및 이것의 연관된 큐 리스트는 함께 분배된다. 큐 리스트는 백그라운드 태스크(background task)로서 사운드트랙에 대한 오디오 파일을 다운로드하는데 이용된다. 구현예에서, 전자식 책은 먼저 다운로드되고 큐 리스트의 다운로드는 백그라운드 태스크로서 초기화되고, 제1 큐에 대한 제1 오디오 파일은 즉시 다운로드된다.

또 다른 구현예에서, 전자식 책 리더기는 로컬 포괄적인 큐들을 포함하는 로컬 저장장치를 갖는 디바이스이며, 큐 리스트에 따른 재생을 위해 선택될 수 있는 다양한 감정 디스크립터들을 포함한다. 만약 원격(remote) 오디오 파일이 이용불가능하게 된 경우, 이러한 포괄적인 큐들은 오디오의 재생을 허용할 것이다.

구현예에서, 전자식 책 리더기 어플리케이션은, 전자식 미디어의 분배기와 통신할 수 있는 것을 통해, 인터넷과 같은 네트워크로 접근하는 플랫폼에 로드(loaded)된다. 이러한 분배기는 사용자로부터 전자식 미디어를 구매 및/또는 다운로드하기 위한 요청을 수신할 수 있다. 상기 요청을 수신한 후, 분배기는 요청된 자료 및 이에 수반하는 사운드트랙 정보를 데이터베이스로부터 검색할 수 있다. 검색된 전자식 미디어는 암호화될 수 있고, 전자식 책 리더기 어플리케이션의 사용자에게 전송될 수 있다. 전자식 미디어는, 전자식 미디어가 단일 전자식 책 리더기에서만 재생될 수 있는 것과 같이, 암호화될 수 있다. 전형적으로, 자료와 관련된 디지털 권리 관리 정보 또한 사운드트랙 정보에 적용된다.

상기한 바와 같이, 저장 매체는 저장 데이터에 대해 하나 이상의 디바이스 나타낼 수 있으며, 이는 ROM(read-only memory), RAM(random access memory), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 디바이스 및/또는 정보 저장을 위한 또 다른 기기 판독 매체를 포함한다. "기기 판독 매체" 및 "컴퓨터 판독 매테"는 휴대형 또는 고정 저장 디바이스, 광학 저장 디바이스, 및/또는 인스트럭션 및/또는 데이터를 저장하거나 포함하거나 또는 전달할 수 있는 다양한 또 다른 형태의 매체들을 포함한다. 그러나 이에 제한되지 않는다.

추가적으로, 구현예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드(microcode) 또는 이들의 소정의 조합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드에서 구현된 경우, 필수 태스크(task)를 수행하기 위한 프로그램 코드 또는 코드 세그먼트(segment)들은 저장 매체 또는 또 다른 저장장치와 같은 기기 판독 매체에 저장될 수 있다. 프로세서는 상기 필수 태스크를 수행할 수 있다. 코드 세그먼트는 프로시져(procedure), 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스 또는 인스트럭션들의 소정의 조합, 데이터 구조, 또는 프로그램 스테이트먼트(statements). 코드 세그먼트는 정보, 데이터, 아규먼트(arguments), 파라미터 또는 메모리 컨텐츠를 패싱(passing) 및/또는 수신함으로써, 또 다른 코드 세그먼트 또는 하드웨어 회로와 커플링(coulped)될 수 있다. 정보, 아규먼트, 파라미터, 데이터 등은 메모리 공유, 메시지 패싱, 토큰 패싱, 네트워크 전달 등을 포함하는 소정의 적정 수단을 통해 패스(passed), 포워드(forwarded) 또는 전송될 수 있다.

개시된 예시와 연관되어 설명된 다양하게 나타난 논리 블록, 모듈, 회로, 요소, 및/또는 컴포넌트(components)는, 일반적인 목적의 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array) 또는 또 다른 프로그램적인 논리 컴포넌트, 별도의 게이트(gate) 또는 트랜지스터 로직(transistor logic), 별도의 하드웨어 컴포넌트 또는 여기서 설명된 기능을 수행하기 위해 설계된 것의 소정의 조합에서 구현되거나 수행될 수 있다. 일반적인 목적의 프로세서는 마이크로프로세서일 수 있고, 대안적으로는 소정의 종래 프로세서, 제어기, 마이크로제어기, 회로 및/또는 스테이트 머신(state machine)일 수 있다. 프로세서는 컴퓨팅 컴포넌트의 조합으로서 구현될 수도 있는데, 예를 들어, DSP 및 마이크로프로세서의 조합, 많은 마이크로프로세서, DSP 코어(core)와 공조하는 마이크로프로세서들, 또는 또 다른 배열(configuration)이 있다.

여기서 설명된 예시와 함께 설명된 방법 또는 알고리즘은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 둘의 조합, 프로세싱 유닛, 프로그래밍 인스트럭션들 또는 또 다른 명령(directions)의 형태에서 직접적으로 구체화될 수 있고, 단일 디바이스에 포함될 수도 있고 또는 복수의 디바이스에 분배될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 분리가능한 디스크, CD-ROM 또는 기술 분야에서 알려진 소정 형태의 저장 매체에 존재할 수 있다. 저장 매체는, 프로세서가저장 매체로부터 정보를 읽거나 저장 매체로 정보를 쓸 수 있도록, 프로세서와 커플링될 수 있다. 대안적으로, 저장 매체는 프로세서와 통합(integral)될 수 있다.

특징을 나타내는 하나 이상의 컴포넌트 및 기능들은 단일 컴포넌트로 재배열 및/또는 조합될 수 있고, 또는 본 발명을 벗어나지 않으면서 복수의 컴포넌트에서 구체화될 수 있다. 추가적인 요소 또는 컴포넌트는 본 발명을 벗어나지 않으면서 추가될 수 있다. 추가적으로, 여기서 설명된 특징들은 상거래 방법으로서, 소프트웨어, 하드웨어 및/또는 이들의 조합으로 구현될 수 있다.

도면과 함께 표본적인 구현예들이 설명되고 표시되었으나, 이러한 구현예는 상기 예시와 같은 방법만으로 나타나 있으나, 이는 단지 일실시예를 나타내는 것이며, 넓은 발명을 제한하는 것이 아니라고 이해되어질 것이며, 본 발명이 속하는 분야의 당업자에 의해 다양한 변형이 일어날 수 있으므로, 본 발명은 상기에서 설명되고 나타난 특정 구조 또는 배열에 제한되지 않는다고 이해되어질 것이다.

Claims

오디오의 동적 재생(dynamic playback)을 위한 컴퓨터 구현 프로세스에 있어서,
전자식 시각자료(electronic visual work)의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스.
청구항 1에 있어서,
수신된 상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라, 상기 전자식 시각자료의 일부의 시각적 디스플레이를 위한 지속시간을 추정하는 단계; 및
상기 추정된 지속시간 동안 오디오를 제공하기 위해 상기 전자식 시각자료의 일부와 연관된 오디오의 스템 믹스 시퀀스(a sequence of mixes of stems of audio)를 선택하는 단계를 더 포함하는 것을 특징으로 하는 프로세스.
청구항 2에 있어서, 상기 지속시간은 읽기 속도의 이력을 이용하여 추정되는 것을 특징으로 하는 프로세스.
전자식 시각자료의 디스플레이와 동기화된 사운드트랙(soundtrack)을 재생하기 위한 컴퓨터 구현 프로세스에 있어서,
상기 전자식 시각자료를 메모리로 수신하는 단계;
상기 전자식 시각자료의 일부와 태그를 연관시키는 정보를 메모리로 수신하는 단계;
사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부를 디스플레이하는 단계;
태그를 갖는 오디오 파일로 접근하는 단계;
프로세서를 이용하여, 상기 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일을 선택하는 단계;
상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스.
전자식 시각자료에 대한 사운드트랙을 생성하는 컴퓨터 구현 프로세스에 있어서,
상기 전자식 시각자료를 메모리로 수신하는 단계;
프로세서에 의해, 상기 메모리에서 상기 전자식 시각자료의 일부를 태그와 연관시킴으로써 상기 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 메모리에서 상기 전자식 시각자료를 처리하는 단계;
태그를 갖는 오디오 파일로 접근하는 단계;
상기 전자식 시각자료의 일부와 연관된 태그에 따라 상기 전자식 시각자료의 일부에 대한 오디로 파일을, 상기 프로세서를 이용하여, 선택하는 단계를 포함하는 것을 특징으로 하는 프로세스.
청구항 5에 있어서, 상기 전자식 시각자료는 텍스트를 포함하고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함하는 것을 특징으로 하는 프로세스.
청구항 6에 있어서, 상기 태그는 감성 디스크립터(emotional descriptors)를 포함하는 것을 특징으로 하는 프로세스.
디지털 정보 제품으로서,
컴퓨터 판독 매체;
상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 전자식 시각자료 각각의 일부에 대해 감성 디스크립터를 갖는 큐 리스트(cue list)를 포함하는 컴퓨터 판독 파일을 정의하고, 상기 감성 디스크립터는 오디오 데이터와 또한 연관된 감성 디스크립터에 상응하는 것을 특징으로 하는 제품.
디지털 정보 제품으로서,
컴퓨터 판독 매체;
상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 오디오 데이터를 제공하기 위하여 믹스될 수 있는 복수의 스템(stem)에 대한 오디오 데이터와 스템이 어떻게 반복되고 결합될 수 있는지를 나타내는 정보를 포함하는 오디오 큐(audio cue)를 정의하는 데이터를 구비한 컴퓨터 판독 파일을 정의하는 것을 특징으로 하는 제품.