KR20120091325A - 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 - Google Patents

전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 Download PDF

Info

Publication number
KR20120091325A
KR20120091325A KR1020127014737A KR20127014737A KR20120091325A KR 20120091325 A KR20120091325 A KR 20120091325A KR 1020127014737 A KR1020127014737 A KR 1020127014737A KR 20127014737 A KR20127014737 A KR 20127014737A KR 20120091325 A KR20120091325 A KR 20120091325A
Authority
KR
South Korea
Prior art keywords
audio
electronic visual
electronic
cue
file
Prior art date
Application number
KR1020127014737A
Other languages
English (en)
Inventor
윌리엄 러셀 핸셀
그레이엄 에드워드 라이러스
Original Assignee
둘세타 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 둘세타 인코포레이티드 filed Critical 둘세타 인코포레이티드
Publication of KR20120091325A publication Critical patent/KR20120091325A/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 발명은 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생에 관한 것으로, 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계, 및 상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함한다.

Description

전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생{DYNAMIC AUDIO PLAYBACK OF SOUNDTRACKS FOR ELECTRONIC VISUAL WORKS}
본 출원은 2009년 11월 10일 출원된 미국 출원 번호 61/259,995호에 대한 우선권을 미국 특허법(35 U.S.C) 119(3)항 하에 주장하고, 이 미국 출원의 모든 내용은 참조로서 본 명세서에 포함된다.
전자식 책은 텍스트로 이루어진 기본적인 멀티미디어 자료(work) 중 하나일 뿐 아니라, 그래픽(graphics) 및 이미지(images)와 같은 또 다른 시각(visual) 미디어를 포함할 수 있다. 전자식 책에서 텍스트는 또 다른 시각 미디어와 수반될 수 있으며, 일반적으로 전자식 책은, 한 자리에서 그러할 필요가 없음에도 불구하고, 시작부터 끝까지 읽혀지게 된다.
전자식 책에 대해 다양한 파일 포맷(format)들이 있는데, 마크업 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 등) 및 .pdf 파일, 일반문서파일(plain text file)과 같은 또 다른 데이터 파일 유형을 포함한다. 그러나 이에 제한되지 않는다. 다양한 파일 포맷은 Amazon.com의 KINDLE 리더기와 같은 전자식 책 리더기(readers)를 통해 이용된다. 이러한 책 리더기는 일반적으로 개인용 컴퓨터, 노트북 컴퓨터, 랩탑(laptop) 컴퓨터, 태블릿(tablet) 컴퓨터, 모바일 디바이스 또는 전자식 책을 판독하기 위한 전용 하드웨어 시스템(예를 들어, KINDLE 리더기)과 같은 플랫폼(platform)에서 실행되도록 설계된 컴퓨터 프로그램이다.
전자식 책은 사운드트랙(soundtrack)과 함께 제공되고, 독자(reader)는 전자식 책을 읽는 동안 이를 들을 수 있다. 사운드트랙의 목적은 읽기 경험을 수반하고 강화하기 위함이고, 독자는 일반적으로 이야기 또는 전자식 책의 일부인 또 다른 시각 미디어에 기초하여 그들의 마음속에 이미지를 갖는다. 사운드트랙의 재생은 전자식 책의 시각적 디스플레이와 동기화된다.
책이 독자에 의해 읽혀지는 동안, 전자식 책의 시각적 디스플레이에 대해 사운드트랙의 재생을 동기화하는 것은 도전적인 문제이다. 서로 다른 개인들은 서로 다른 속도로 읽고, 서로 다른 개인들은 서로 다른 시간에 서로 다른 속도로 읽을 것이다. 전자식 책의 일부의 시각적 디스플레이의 지속기간은, 독자로부터 독자로 의 지속시간 및 시간의 서로 다른 시점 사이에서 다양하다. 또 다른 표현으로, 전자식 책의 일부의 시각적 디스플레이의 지속시간은 가변적이고, 전자식 책과의 사용자 상호작용에 의존적이다. 그러나 시간 의존적인 미디어의 종류인 사운드트랙의 재생은 이러한 시각적 디스플레이와 동기화된다.
복수의 독자에게 적용가능한 방법으로 사운드트랙과 함께 좋은 읽기 경험을 제공하기 위해, 오디오 큐(audio cue)는 텍스트에서 서로 다른 포인트와 연관되어 있고, 이러한 큐들이 전자식 책과의 사용자 상호작용에 기초하여 전자식 책의 시각적 디스플레이와 동기화되어 동적으로 재생된다. 동적 재생은 오디오 큐를 편집하고 재생하는 것을 포함하므로, 큐가 동기화되는 전자식 책의 일부의 지속기간의 예측에 기초하여 지속기간을 가진다. 시스템이 오디오 큐의 재생을 시작할 때, 이것은 다음 오디오 큐가 시작되어야 하는 시점을 예측한다. 현재 큐는 예측된 지속기간동안 재생되고, 다음 오디오 큐에 대한 과도기(transition)가 적절한 시기에 초기화된다.
이러한 사운드트랙은 일반적으로 단지 소정의 음악 또는 사운드(sound)가 아니며, 복수의 음악 및 사운드는 읽기 경험을 강화시키는 대신 독자를 산만하게 할 수도 있다. 대신, 사운드트랙은 독자에게 감성을 이끌어내도록(evoke) 설계된 음악 및 사운드를 포함하고, 이러한 감성은 텍스트에 의해 이끌어내질 수 있는 감성들과 유사하다. 일반적으로, 전자식 책에 대한 사운드트랙은 밝은 과도(transient) 사운드가 거의 없고, 음성이 없고, 음악에 대해 보조적(spare)이면서 약간은 최면술(hypnotic)적인 느낌이 있을 때, 이점(benefits)이 있다. 너무 빠르거나 너무 긴장되는 장르적인(Genre-wise) 음악은 읽는 것을 산만하게 하고, 어렵게 할 수 있다.
다양한 측면에서, 본 발명은 컴퓨터 구현 프로세스, 기기(예를 들어, 전자식 디바이스, 또는 일반적인 목적의 컴퓨터 또는 컴퓨터 프로그램이 실행될 수 있는 플랫폼을 제공하는 또 다른 디바이스), 이러한 기기에서 실행되는 프로세스들 또는 제조물(article of manufacture)에서 구체화될 수 있다. 이러한 제조물은, 컴퓨터 프로그램 인스트럭션 또는 그것에 대해 저장된 컴퓨터 판독 데이터를 포함하는 컴퓨터 판독 저장 매체, 및 이러한 제조물을 생성하고 이용하는 프로세스 및 기기들에서의 컴퓨터 프로그램 제품 또는 디지털 정보 제품을 포함할 수 있다.
따라서, 일 측에서, 오디오의 동적 재생은 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계를 포함한다. 전자식 시각자료의 일부에 연관된, 재생될 오디오의 섹션은 사용자 상호작용에 따라 길이가 동적으로 조정된다. 구현예에서, 상기 전자식 시각자료의 일부의 시각적 디스플레이의 지속시간은 수신된 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라 추정된다. 전자식 시각자료의 일부에 연관된 오디오의 서브-믹스의 시퀀스는 추정된 지속시간과 매칭될 것이다. 상기 추정은 읽기 속도의 이력을 이용하여 수행될 수 있다.
또 다른 측면에서, 사운드트랙은 전자식 시각자료의 디스플레이와 동기화되어 재생된다. 전자식 시각자료는 메모리로 수신된다. 태그를 갖는 상기 전자식 시각자료의 일부와 연관된 정보 또한 메모리로 수신된다. 사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부가 디스플레이된다. 태그를 갖는 오디오 파일이 접근된다. 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일이 선택된다. 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터가 수신되고, 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간이 상기 사용자 상호작용에 따라 동적으로 조정된다.
또 다른 측면에서, 전자식 시각자료에 대한 사운드트랙이 생성된다. 전자식 시각자료가 메모리로 수신된다. 태그된 오디오 파일의 특정 일부와 연관될 태그들과 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 전자식 시각자료가 상기 메모리에서 처리된다. 적절한 태그를 갖는 오디오 파일이 접근되고, 전자식 시각자료의 일부에 대한 타겟 오디오 파일이 선택되고, 결과로 나타난 사운드트랙을 생성하고 재생하기 위해 연관된다. 전자식 시각자료는 텍스트를 포함할 수 있고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함한다. 태그는 감성 디스크립터를 포함한다.
또 다른 측면에서, 큐 리스트는 전자식 시각자료의 각각의 일부에 대해 감성 디스크립터를 갖고, 감성 디스크립터는 오디오 파일과 또한 연관된 감성 디스크립터에 대응한다.
또 다른 측면에서, 오디오 큐는, 독자에게 들릴 최종 결과를 생성하기 위해 어떻게 스템이 반복되고 결합될 수 있는지를 나타내는 정보 및 오디오 데이터를 제공하기 위해 믹스될 수 있는 음악 자료의 복수의 서브믹스("스템")에 대한 오디오 데이터를 포함한다.
또 다른 측면에서, 사운드 트랙 및 이와 연관된 전자식 시각자료의 분배가, 마치 사운드트랙이 유효하지 않은 것처럼 동일한 방법으로 전자식 시각자료가 보여질 수 있도록 하는 방법으로 수행된다. 독자가 전자식 시각자료에 접근한 후, 큐 리스트는 식별되고 읽혀진다. 사운드트랙의 제1 큐가 전자식 시각자료의 디스플레이와 동기화되어 재생되는 동안, 백그라운드 태스크로서, 오디오 데이터가 다운로드된다.
또 다른 측면들은 하기 상세한 설명에서 출발되고, 본 발명의 서로 다른 측면의 다양한 조합에 의해 제공된다.
본 발명은 사운드트랙의 재생과 전자식 책의 시각적 디스플레이를 동기화할 수 있다.
도 1은 동적 오디오 재생기와 전자식 책 리더기의 데이터 흐름도이다.
도 2는 도 1의 동적 오디오 재생기를 보다 상세하게 나타내는 데이터 흐름도이다.
도 3은 큐 리스트를 나타낸다.
도 4는 오디오 큐 파일을 나타낸다.
도 5는 전자식 책이 오픈될 때 셋업 프로세스를 나타내는 흐름도이다.
도 6은 원하는 지속기간의 오디오 데이터를 생성하기 위해 어떻게 오디오 큐 파일이 이용되는지를 설명하는 흐름도이다.
도 7은 읽기 속도를 어떻게 산출하는지를 설명하는 흐름도이다.
도 8은 전자식 책에 대해 어떻게 사운드트랙이 자동적으로 생성될 수 있는지를 설명하는 데이터 흐름도이다.
도 9는 컴퓨터 시스템의 블록도이다.
하기와 같은 설명에서, 특정 상세설명이 구현예에 대한 완전한 이해를 제공하기 위해 주어진다. 그러나 이는 본 발명이 속하는 기술분야의 당업자에 의해 이해되어질 것이며, 구현예는 이러한 특정 상세설명 없이도 구현될 수 있다. 예를 들어, 소프트웨어 모듈(modules), 함수(function), 회로 등은 불필요한 상세설명에서 구현예를 모호하게 하지 않기 위해서 블록도에 나타날 수 있다. 또 다른 예에서, 잘 알려진 모듈들, 구조들 및 테크닉들(techniques)이 구현예를 모호하게 하지 않기 위해서 상세설명에 나타나지 않을 수도 있다.
또한, 플로차트(flowchart), 흐름도, 구조도 또는 블록도로서 묘사된 프로세스와 같이 구현예가 설명될 수 있다는 것이 자명하다. 플로차트가 연속적인 프로세스로서 오퍼레이션(operations)을 설명할 수 있음에도 불구하고, 많은 오퍼레이션들은 병렬적으로 또는 동시에 실행될 수 있다. 추가적으로, 오퍼레이션의 순서는 재배열(rearranged)될 수 있다. 프로세스는 그것의 오퍼레이션이 완료될 때 종료된다. 프로세스는 컴퓨터 프로그램에서 방법, 함수, 프로시져(procedure), 서브루틴(subroutine), 서브프로그램(subprogram) 등에 대응할 수 있다. 프로세스가 함수에 대응하는 경우, 이것의 종료는 호출 함수 또는 주요 함수로의 함수의 반환에 대응한다.
하기에서 설명되는 시스템 및 방법의 측면은 데스크탑, 랩탑, 노트북, 태블릿 또는 모바일 디바이스를 포함하는, 그러나 이에 제한되지 않는, 일반적인 목적의 컴퓨터 시스템 또는 컴퓨팅 디바이스의 어떠한 유형에서도 실행가능할 수 있다. "모바일 디바이스"라는 용어는 무선 디바이스, 모바일 폰, 모바일 통신 디바이스, 사용자 통신 디바이스, 개인용 디지털 보조장치(assistant), 모바일 소형(hand-held) 컴퓨터, 랩탑 컴퓨터, 전자식 책 리더기 및 전자식 컨텐츠를 판독(reading)할 수 있는 판독 디바이스 및/또는 개인에 의해 전형적으로 휴대(carried)되고 및/또는 복수의 형태의 통신 성능(capabilities)을 갖는(예를 들어, 무선, 적외선, 근거리 통신(radio) 등) 또 다른 유형의 모바일 디바이스를 포함한다. 그러나 이에 제한되지 않는다.
도 9는 이하 보다 상세하게 설명되는 시스템 및 방법의 하나 이상의 측면들에서 유용한 컴퓨터 시스템(900)의 내부 기능적인 아키텍쳐(architecture)를 나타내는 블록도이다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 컴퓨터-실행 프로세스 단계 및 컴퓨터 버스(916)와의 인터페이스를 실행하기 위한 중앙 처리 장치(CPU)(914)를 포함할 수 있다. 또한, 도 9에 도시된 바와 같이, 네트워크 인터페이스(918), 디스플레이 디바이스 인터페이스(920), 키보드 또는 입력 인터페이스(922), 포인팅 디바이스 인터페이스(924), 오디오 인터페이스(926), 비디오 인터페이스(932) 및 하드디스크 드라이브(934) 또는 또 다른 지속 저장장치이다.
상기에서 설명된 바와 같이, 디스크(934)는 오퍼레이팅 시스템 프로그램 파일, 어플리케이션 프로그램 파일, 웹 브라우저(web browsers) 및 또 다른 파일들을 저장할 수 있다. 이러한 파일들의 일부는 인스톨레이션(installation) 프로그램을 이용하는 디스크(934)에 저장될 수 있다.예를 들어, CPU(914)는 인스톨레이션 프로그램의 컴퓨터-실행 프로세스 단계를 실행할 수 있으므로, CPU(914)는 어플리케이션 프로그램을 적절하게 실행할 수 있다.
랜덤 액세스 메인 메모리("RAM")(936)는 CPU(914)가 메모리 저장장치에 접근할 수 있도록 컴퓨터 버스(916)와 또한 인터페이스(interface)할 수 있다. 디스크(934)로부터 저장된 컴퓨터-실행 프로세스 단계를 실행할 때, CPU(914)는 RAM(936)의 외부에 프로세스 단계를 저장하고 실행한다. 처리될 데이터 역시 이러한 메모리(936) 또는 저장장치(934)로부터 읽혀질 수 있고, 이러한 메모리(936) 또는 저장장치(934)에 저장될 수 있다. 리드 온리 메모리(read only memory, "ROM")(938)는 스타트-업(start-up) 인스트럭션 시퀀스 또는 키보드(922)의 오퍼레이션에 대한 기본 입력/출력 오퍼레이팅 시스템(BIOS) 시퀀스와 같은 불변(invariant) 인스트럭션 시퀀스를 저장하기 위해 제공될 수 있다.
전자식 책 리더기, 또는 전자식 책 및 또 다른 멀티미디어 자료의 시각적 디스플레이를 제공하기 위한 또 다른 어플리케이션은 도 9에 설명된 바와 같이 플랫폼에서 구현될 수 있다.
하기 설명에서, 전자식 책과 전자식 책 리더기는 멀티미디어 자료의 종류의 실시예로서 이용되고, 사운드트랙의 재생이 동기화될 수 있는 뷰어(viewer)에 대응한다. 자료의 일부의 시각적 디스플레이의 지속시간이 자료와의 사용자 상호작용에 의존적인 또 다른 종류의 멀티미디어 자료는 또한 이러한 종류의 동기화를 이용할 수 있다. 전자식 책이라는 용어는 주로 텍스트, 또는 그래픽 또는 또 다른 시각적 미디어를 수반하는 텍스트인 인컴파스 책(encompass book), 매거진, 뉴스레터, 신문, 정기간행물, 지도, 기사 및 또 다른 자료들일 것이다.
사운드트랙은 전자식 책을 포함하는 어떠한 종류의 전자식 시각자료와도 연관될 수 있다. 이와 유사하게 이용될 수 있는 음악 또는 오디오의 유형은 자료의 유형에 의존한다. 예를 들어, 소설의 자료에 대해, 사운드트랙은 영화 사운드트랙의 목적과 유사할 것이다. 즉, 긴장감을 생성하고, 사랑의 관심을 뒷받침하고(underpinning), 큰 클라이맥스(climax)에 도달하는 것과 같이 이야기를 지원하기 위함이다. 어린이용 책에 대해, 음악은 예를 들어, 페이지가 전환될 때와 같은경우, 가능한 한 더 많은 사운드 효과를 포함하는 카툰(cartoons)에 이용되는 것과 유사할 수 있다. 텍스트북에 대해, 사운드트랙은 지식 보유(retention)을 강화하는 것으로 알려진, 예를 들어 분당 약 128 또는 132 비트(beats)에서의 재료(material) 및 중요한 모달(modal) 음색을 이용하는, 리듬 및 음색(tonalities)을 포함할 수 있다. 명상을 지원하도록 설계된 일부 책들은 자연의 소리, 잔잔하고 희미한 음악, 부드러운 톤의 악기 및 이와 유사한 사운드트랙을 포함할 수 있다. 여행책은 묘사되고 있는 장소의 고유한 음악 및 사운드를 포함할 수 있다. 매거진 및 신부에 대해서는, 서로 다른 섹션(sections) 또는 기사는 서로 다른 사운드트랙 및/또는 서로 다른 스타일의 음악과 함께 제공될 수 있다. 심지어 동일한 페이지에서 서로 다른 부분(passes)를 읽는 것은 서로 다른 사운드트랙을 가질 수 있다. 광고주는 또한 이러한 자료를 읽는 동안 재생되는 그들의 오디오 테마를 가질 수 있다. 이러한 경우, 사운드트랙은 광고 기반의 텍스트가 어떻게 또 다른 재료를 수반하도록 선택되는지와 유사한 방법으로 선택될 수 있다.
특히, 도 1을 참조하면, 전자식 책(110)은 전자식 책 리더기(112)로 입력되고, 이는 최종 사용자 또는 독자에게 전자식 책의 시각적 디스플레이를 제공한다. 전자식 책(110)은, 적어도 텍스트를 포함하고 컴퓨터 프로그램이 상기 텍스트를 읽고 포맷하고 표시할 수 있도록 설계된 파일 포맷인, 하나 이상의 컴퓨터 데이터 파일이다. 전자식 책에 대해 다양한 파일 포맷이 있는데, 다양한 유형의 마크업(markup) 언어 문서 유형(예를 들어, SGML, HTML, XML, LaTex 및 이와 유사한 형태), 및 또 다른 문서 유형, 예를 들어, EPUB, FictionBook, plucker, PalmDoc,zTxt, TCR, CHM, RTF, OEB, PDF, mobipocket, Calibre, Stanza 및 plain-text 등이 될 수 있다. 그러나 이들에 제한되지 않는다. 일부 파일 포맷은 소유권(proprietary)이 있고, 전용 전자식 책 리더기에서 이용되도록 설계된다. 본 발명은 어떠한 특정 파일 포맷에도 제한되지 않는다.
전자식 책 리더기(112)는 도 9와 연관되어 상기 설명된 바와 같이, 예를 들어, 개인 컴퓨터, 태블릿 컴퓨터, 모바일 디바이스 또는 전자식 책을 읽기 위한 전용 하드웨어 시스템을 포함할 수 있고 전자식 책(110)의 컨텐츠(contents)를 수신하여 디스플레이하는, 컴퓨터 플랫폼에서 구동하도록 설계된 소정의 컴퓨터 프로그램일 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기들이 많이 있으며, 예를 들어, Amazon.com의 KINDLE 리더기, Barnes&Noble의 Nook 리더기, Stanza 리더기, FBReader 소프트웨어, 오픈 소스 프로젝트(open source project)를 포함할 수 있다. 그러나 본 발명은 어떠한 특정 전자식 책 리더기에도 제한되지 않는다.
전자식 책 리더기(112)는 전자식 책 리더기(112)와의 사용자 상호작용을 표시(indicative)하는 데이터(114)를 출력하므로, 이러한 데이터는 동적 오디오 재생기(116)에 의해 이용될 수 있다. 상업적으로 또는 공공적으로 이용가능한 전자식 책 리더기는 여기에서 이러한 출력을 제공하기 위해 디스크립션(description)에 따라 변경될 수 있다.
텍스트와의 사용자 상호작용에 관한 데이터는 다양한 형태로 나타날 수 있다. 예를 들어 읽혀지는 책의 식별자(예를 들어, ISBN, e-ISBN 숫자 또는 해쉬(hash) 코드), 및 텍스트에서 현재 위치가 제공될 수 있다. 일반적으로 현재 위치는 디스플레이되고 있는 전자식 책의 일부 또는 현재 "페이지"로서, 전자식 책 리더기에 의해 추적(tracked)된다. 전자식 책 리더기는 이것이 변화할 때, 이 정보를 출력할 수 있다. 만약 전자식 책 리더기(112)에 의해 제공된다면, 유용할 수 있는 또 다른 정보는, 디스플레이되고 있는 문서의 현재 범위에 대한 단어 카운트(count), 사용자가 언제 전자식 책 리더기 어플리케이션을 종료하는지를 나타내는 표시(indication), 및 독자가 읽기를 정지하거나 정지 이후에 읽기를 재시작하는지 여부를 나타내는 표시를 포함한다. 그러나 이에 제한되지 않는다.
전자식 책 리더기 및 동적 오디오 재생기 사이에서 교환되는 정보 및 인스트럭션은 어플리케이션 프로그래밍 인터페이스(API)를 통해 구현될 수 있으므로, 동적 오디오 재생기는 전자식 책 리더기가 상태 정보를 제공하거나 일부 동작을 수행하도록 요청할 수 있거나, 전자식 책 리더기가 또 다른 어플리케이션 프로그램을 제어할 수 있도록 요청할 수 있다. 동적 오디오 재생기는 또한 이러한 API를 구현하도록 프로그램될 수 있다. API의 예시적인 구현예는 두 개의 인터페이스를 포함한다. 그러나 이에 제한되지 않는다. 하나는 전자식 책 리더기 어플리케이션으로부터 호출을 위한 것이고, 또 다른 하나는 전자식 책 리더기 어플리케이션을 호출하기 위한 것이다.
동적 오디오 재생기로, 전자식 책 리더기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.
"ebookOpenedwithUniqueID" - 이 함수는 어플리케이션이 전자식 책을 오픈(open)할 때, 전자식 책 리더기에 의해 호출된다. 이러한 함수는, 전자식 책의 고유한 식별자를 특정하고 전자식 책이 이전에 오픈된 적이 있는지 여부를 나타내는 파라미터(parameters)들을 갖는다. 이러한 정보에 응답하여, 동적 오디오 재생기는 현재 큐(cue)를 세팅(set)한다. 전자식 책이 처음으로 오픈되면, 현재 위치는 제1 큐의 시작으로 세팅될 것이다.
"ebookClosed" - 이 함수는 어플리케이션이 전자식 책을 닫을(close) 때, 전자식 책 리더기에 의해 호출된다. 상기 호출에 응답하여, 동적 오디오 재생기는 메모리를 자유화(free up)하고, 내부 데이터를 리셋(reset)한다.
"ebookRemoved" - 이 함수는 전자식 책 리더기가 이것의 라이브러리(library)로부터 전자책을 제거하는 경우 호출된다. 따라서, 사운드트랙 및 오디오 파일도 제거될 수 있다.
"displayedPositionRangeChanged" - 이 함수는 전자식 책 리더기가 이것의 디스플레이를 변경하는 경우 호출되는데, 예를 들어, 페이지 전환, 오리엔테이션(orientation) 변경, 폰트(font) 변경 또는 이와 유사한 경우에 따라 호출되고, 이 함수는 새롭게 디스플레이되는 자료의 범위에 대한 파라미터를 제공한다. 이 호출에 응답하여, 동적 오디오 재생기는 새롭게 디스플레이되는 자료의 범위에 대한 오디오 큐(audio cues)를 셋업(set up)할 수 있다.
"readingResumed" - 이 함수는 장기간(extended period) 비활성(inactivity) 이후에 사용자가 읽기를 재시작할 때 호출되고, 읽기가 "정지"된 것으로 결정된 이후 사용자로부터의 소정의 다양한 입력(예를 들어 페이지 전환 커맨드(command))을 수신함으로써 전자식 책 리더기는 이것을 검출한다.
"fetchSoundtrack" - 이 함수는 동적 오디오 재생기가 특정된 고유한 식별자(이 함수의 파라미터로서 제공되는)와 함께 전자식 책에 대한 사운드트랙 파일 또는 큐 리스트(cue list)를 패치(fetch)하고 임포트(import)하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioVolume" - 이 함수는 동적 오디오 재생기가 오디오 재생의 볼륨을 세팅하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"getCueLists" - 이 함수는 현재 오픈된 전자식 책에 대해 이용가능한 큐 리스트 및 그룹에 관한 정보를 동적 오디오 재생기로부터 검색하기 위해 전자식 책 리더기에 의해 호출된다. 이 함수는 예를 들어, 전자식 책 리더기가 이러한 정보를 독자에게 표시하도록 허용할 수 있다.
"cueListEnabled" - 이 함수는 동적 오디오 재생기가 특정 큐 리스트, 예를 들어 대안적인 사운드트랙, 사운드 효과, 기록된 독자 또는 텍스트-음성 변환을 가능하게 하거나 불가능하게 하도록 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioIntensity" - 이 함수는 동적 오디오 재생기가 오디오 재생의 세기(intensity)를 세팅하도록, 예를 들어, 오디오 구성 방음장치(composition quieter)를 생성하거나 드럼 스템(drum stem)(서브믹스)을 음소거(mute)하도록, 지시하기 위해 전자식 책 리더기에 의해 호출된다.
"audioPreloadDefault" - 이 함수는 전자식 책을 다운로드(download)하고 일반적으로 보관하는 오디오의 시간의 디폴트(default) 개수를 세팅하기 위해 호출된다.
"audioPreloadForEbook" - 이 함수는 특정 전자책을 다운로드하고 보관하는 오디오의 많은 시간을 세팅하기 위해 호출된다.
"downloadEnabled" - 이 함수는 오디오 다운로딩을 가능하게 하거나 불가능하게 하기 위해서 호출된다.
전자식 책 리더기로의 동적 오디오 재생기가 생성할 수 있는 예시적인 호출들은 하기와 같은 것을 포함한다.
"readingPaused" - 예측되는 시간내에 전자식 책 리더기로부터 "displayedPositionRangeChanged" 호출이 수신되지 않는 경우, 이 함수는 동적 오디오 재생기에 의해 호출된다. 이 정보로부터, 사용자가 더 이상 읽기를 하지 않는다는 것이 동적 오디오 재생기에 의해 가정된다. 이 함수를 호출한 후, 사용자가 다시 읽기를 시작한 경우, 전자식 책 리더기는 "readingResumed" 함수를 호출하여야 한다.
"gotoPosition" - 이 함수는 전자식 책 리더기가 책에서 현재 위치를 세팅하도록 지시하기 위해 동적 오디오 재생기에 의해 호출되고, 일반적으로 제일 처음 제1 큐의 시작 포인트에서, 전자식 책은 호출될 "ebookOpenedAtPath" 함수에 응답하여 오픈된다.
"wordCountForRange" - 이 함수는 전자식 책 리더기가, 하기에서 보다 상세하게 설명되는 바와 같이 재생리스트들을 스케줄링(scheduling)하고, 읽기 속도를 추적하는데 이용될, 전자식 책의 특정 범위에 대한 단어들의 개수를 제공하도록 지시하기 위해 동적 오디오 재생기에 의해 호출된다.
이러한 API 호출들의 이용은 하기에서 보다 상세하게 설명된다.
도 3과 관련하여 하기에서 보다 상세하게 설명하면, 전자식 책(110)은 큐 리스트(118)와 연관되어 있고, 이는 텍스트의 일부와 오디오 큐(120)를 연관시킨다. 일반적으로, 전자식 책(110)을 고유하게 식별하는데 이용되는 식별자는, 큐 리스트에서 식별자를 임베딩(embedding)하거나 또는 책을 큐 리스트(118)와 연관시키는 지도 또는 룩업(lookup) 테이블의 형태(form)를 가짐으로써, 큐 리스트(117)를 책과 연관시키는데 이용된다. 오디오 큐(120)는 오디오 데이터를 포함하는 컴퓨터 데이터 파일이다. 일반적으로 큐 리스트(117)에 의해 텍스트의 일부와 연관된 오디오 큐(120)는 독자가 상기 텍스트의 일부를 읽고 있는 동안 재생된다. 예를 들어, 텍스트의 일부는 오디오 큐가 재생을 시작하여야 하는 주변 텍스트의 포인트에 의해 또는 오디오 큐가 재생되어야 하는 동안 텍스트의 범위에 의해 지정될 수 있다. 동적 오디오 재생기(116)는 언제 어떻게 하나의 오디오 큐의 재생을 정지할지 및 또 다른 것의 재생을 시작할지를 결정한다.
동적 오디오 재생기(116)는 전자식 책 리더기(112)와의 사용자 상호작용에 관한 데이터(114)를 수신하고, 또한 큐(120) 및 큐 리스트(118)도 수신한다. 하기에서 보다 상세하게 설명되는 것과 같이, 동적 오디오 재생기(116)는 재생될 오디오 큐(120)를 선택하고, 언제 어떻게 그들을 재생하고, 출력 오디오 신호(122)를 제공하기 위해 사용자 상호작용 데이터(114) 및 큐 리스트(118)를 이용한다.
사운드트랙이 재생되는 동안, 동적 오디오 재생기는 현재 읽혀지고 있는 텍스트의 일부와 연관된 현재 큐를 재생하고, 텍스트와의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐(next cue)로 어떻게 언제 과도(transition)할 지를 결정한다. 도 2에서 더 구체적으로 나타난 바와 같이, 동적 오디오 재생기(200)는 오디오(206)를 생성하기 위해 현재 큐(204) 및 다음 큐(210)를 이용한다. 재생될 이러한 큐들(204, 210)은 사용자 상호작용에 관한 데이터(212)를 이용하는 큐 룩업(cue lookup)(208) 및 큐 리스트(202)를 통해 결정된다. 동적 오디오 재생기가 현재 큐(204)를 재생하는 동안, 이는 다음 큐가 재생되어야 하는 시기를 결정하기 위해 수신(incoming) 데이터(212)를 감시한다. 현재 큐(204)는 큐의 실제 지속기간보다 더 길게 또는 더 짧은 시간동안 재생될 필요가 있을 수 있다. 하기에서 상세하게 설명되는 바와 같이, 동적 오디오 재생기는 텍스트의 연관된 일부를 읽는데 사용자가 이용하고 있는 시간의 양을 피팅(fit)하기 위해 현재 큐를 길게 하거나 또는 짧게 하고, 사용자가 다음 큐와 연관된 텍스트에 도달할 것으로 추정되는 시간에서, 크로스 페이드(cross fade)와 같은 과도기를 구현한다.
도 3을 참조하면, 도 1의 큐 리스트(118)의 예시 구현예가 보다 상세하게 설명될 것이다. 오디오 큐(예를 들어 도 1의 120, 도 2의 204, 210)들은 텍스트의 일부에 할당된다. 텍스트의 일부를 오디오 파일과 연관시키는 메타-태그(meta-tag) 정보 파일을 이용하여, 할당이 이루어질 수 있다. 오디오 파일과의 연관은 직접적 또는 간접적일 수 있고, 정적으로(statically) 또는 동적으로 정의될 수도 있다. 예를 들어, 텍스트의 서로 다른 일부는, 텍스트의 일부들과 연관되는 감정을 지시하는 또 다른 레이블(lables) 또는 서로 다른 단어, 음악의 분위기(moods) 또는 스타일에 할당될 수 있다. 오디오 파일은 이러한 단어 또는 레이블과 연관될 수도 있다. 하기에서 상세히 설명되는 바와 같이, 오디오 파일들은 선택될 수 있고 텍스트와 정적으로 연관될 수 있고, 또는 그들은 재생 시간에서 동적으로 선택될 수 있다. 대안적으로, 텍스트에서 서로 다른 포인트는 오디오 파일과 직접적으로 연관될 수 있다.
도 3은 예시적인 메타-태그 정보 파일을 나타낸다. 메타-태그 정보 파일은 큐를 나타내는 데이터 쌍(302)의 리스트(300)이다. 큐를 나타내는 각 쌍(302)은 텍스트 문서내에서 마크업 언어 요소에 대한 참조, 텍스트 문서의 시작에서의 오프셋(offset), 또는 텍스트 문서내에서 범위와 같은, 텍스트에 대한 참조(304)를 포함한다. 쌍(302)은 큐를 특정하는 데이터(306) 또한 포함한다. 이 데이터는 감정적 태그와 같은 단어 또는 레이블, 또는 파일명과 같은 오디오 파일의 지시자, 또는 오디오 파일을 선택하는데 이용될 수 있는 소정의 또 다른 데이터일 수 있다. 어떻게 컴포저(composer) 또는 컴퓨터 프로그램이 이러한 큐 리스트를 생성할 수 있는지에 대해서는 하기에서 더욱 상세하게 설명될 것이다.
메타-태그 정보 파일은 복수의 메타데이터(metadata) 파일을 포함하는 아카이브(archive)인 파일로서 구현될 수 있다. 이러한 파일들은 제이슨(JavaScript Object Notation, JSON) 포맷일 수 있다. 메타-태그 정보 파일은 일반적인 정보를 포함하는 매니페스트(manifest) 파일을 무결성 체킹(integrity checking)을 위한 체크섬(checksums)과 함께 포함할 수 있는데, 여기서 일반적인 정보는 전자식 책의 고유한 식별자와 연관되는 것과 같은 사운드트랙, 전자식 책의 제목, 스키마(schema) 버전(향후 포맷 변경에 대비하여 호환가능성(compatibility) 목적을 위해), 및 아카이브에서 또 다른 파일들의 리스트에 관한 것이다. 매니페스트 파일에 추가하여, 메타-태그 정보 파일은 또한 사운드트랙에서 유효한 큐 리스트 디스크립터들의 리스트를 포함하는 큐리스트 파일을 포함한다. 각 큐 리스트 디스크립터는 디스플레이 명칭, 룩업 목적을 위한 고유한 식별자 및 큐 리스트의 선택적 그룹 명칭을 포함한다. 예를 들면, 단일 재생을 갖는 것만이 가능한 경우에, 복수의 상호 배타적인 주요 큐 리스트들이 있을 수 있다. 이러한 큐 리스트들은 "주요" 그룹 명칭을 가질 수 있고, 반면 음향 효과 또는 "나에게 읽어주기" 큐 리스트가 있어, 동시에 이들 모두를 재생하는 것도 괜찮을 것이므로, 그룹 명칭을 이용하지 않을 것이다.
메타-태그 정보 파일은 또한 모든 큐 리스트에 대한 큐 디스크립터들의 리스트를 포함하는 큐 파일을 포함한다. 각 큐 디스크립터는 생산자에 의해 큐 디스크립터에 주어진 기술형(descriptive) 명칭을 포함한다. 이 디스크립터는 이러한 목적을 위해 또 다른 어플리케이션을 이용하여 입력될 수 있고, 큐 파일 리스트에서 큐 파일의 위치 및 전자식 책에서 입출력 포인트를 찾기 위해 이용되는 큐 파일 명칭과 같은 정보를 포함할 수 있다.
최종적으로, 메타-태그 정보 파일은 큐 파일 디스크립터들의 리스트를 포함하는 "큐파일" 파일을 포함한다. 큐파일 파일은 큐 파일들의 네트워크 위치를 특정한다. 각 큐 파일 디스크립터는 생산자에 의해 큐파일에 주어지고 큐 디스크립터에서 큐 파일 명칭으로서 이용되는 기술형 명칭, 및 큐 파일과 큐 파일에서의 원본 파일 명칭을 검색하기 위한 URL을 포함한다.
큐 리스트에서 참조된 오디오 큐(도 1의 120)들은 오디오 데이터를 포함하고, 상기 오디오 데이터는 AIFF, MP3, AAC, m4a와 같은 오디오 파일 포맷 , 또는 또 다른 파일 유형으로 저장될 수 있다. 도 4를 참조하여, 오디오 큐 파일의 예시적인 구현예가 설명될 것이다. 오디오 큐 파일(400)은 복수의 "스템(stems)"(서브믹스)(402)을 포함할 수 있고, 각각은 큐에 대한 멀티파트 오디오 믹스(multipart audio mix)의 한 부분을 제공하는 분리된 오디오 파일이다. 이러한 스템의 이용은 큐의 재생시간을 길게 하기 위해 동적 오디오 재생기가 스템들 중에서 반복할 스템을 선택하도록 허용한다. 오디오 큐 파일은 또한 루프 마커(loop markers)(404), 바 로케이션(bar locations)(406) 및 추천 믹스 정보(408)과 같이, 동적 오디오 재생기가 재생되는 오디오 큐에 대한 지속기간을 변경하는데 유용한 정보를 포함할 수 있다. 추천 믹스 정보는 오디오 스템을 조합하기 위한 인스트럭션의 리스트를 포함하고, 각 인스트럭션은 이용될 스템들과 섹션들, 및 적용될 소정의 오디오 효과 프로세싱을 지시한다. 장르(genre), 스타일, 악기(instruments), 감정, 분위기(atmosphere), 장소, 시대(era)를 지시하는 오디오 또는 데이터에 의해 이끌어내지는 감정 또는 분위기를 지시하는 단어 또는 레이블과 같은 또 다른 정보-디스크립터(410)라고 지칭되는- 또한 제공될 수 있다. 대안적인 키워드, 큐 볼륨(cue volume), 크로스-페이드 또는 페이드-인/아웃 형상(shape)/세기(intensity), 및 연속성을 위해 추천 하모닉 프로그레션(harmonic progression)과 같은 더 추가적인 정보도 포함될 수 있다.
예를 들어, 오디오 큐 파일은 JSON 포맷에서 메타데이터 파일 및 큐의 스템에 대한 하나 이상의 오디오 파일을 포함하는 아카이브로서 구현될 수 있다. 메타데이터 파일은 오디오 파일과 연관된 메타데이터에 대한 디스크립터를 포함하고, 이것은 바 로케이션, 루프 마커, 추천 믹스 정보, 이모드(감정 컨텐츠 메타-태그)(emode, emotional content meta-tags), 오디오 동적 제어 메타데이터(동적 범위 압축)(dynamic range compression), 악기, 분위기 및 장르를 포함한다. 오디오 파일은 각 스템에 대한 고해상도 원본 오디오 파일 및 데이터 압축 오디오 파일을 포함할 수 있다. 각 스템의 고해상도 버전을 보유하는 것은 음악 생성 도구를 이용하여 편집하는 것을 차후에 지원한다. 원본 오디오 파일 없이 오디오 큐 파일의 복사본은 전자식 책 독자들에게 더 작은 다운로드(downloads)를 제공하기 위해 생성될 수 있다. 큐 파일은 스템들에 대해 상기 압축 오디오 파일들을 포함하고, 이것은 최종 사용자 어플리케이션에서 재생을 위해 이용되는 파일들이다.
큐 파일은 소프트웨어 도구를 이용하여 생성될 수 있는데, 상기 소프트웨어 도구는 표준 오디오 스템의 세트를 입력하고, 디스크립터, 루프 포인트(loop point) 및 분리된 텍스트 파일로서 추천 믹스 메타 정보를 추가하고, 네트워크 전송을 위해 오디오를 최적화하고 압축하고, 데이터베이스로 업로드될 수 있는 단일 패키지 파일을 출력한다. 오디오 파일은 세션, 비트(beats), 소리세기(loudness) 정보, 페이드(fades), 루프 포인트 및 링크(link)를 찾아내는(locate) 다양한 분석 테크닉을 이용하여 분석될 수 있다. 큐는 디스크립터들 "장르, 스타일, 악기, 감전, 장소, 시대"를 이용하여 선택될 수 있고, 독자에 의해 이용되는 것과 같이 네트워크를 통해 전송될 수 있다.
큐 리스트 및 큐 파일은 개별적으로 암호화되고 그들이 사운드트랙인 특정 자료에 링크될 수 있다. 상기 자료 및 이것의 사운드트랙에 접근하기 위해 동일한 키(key)가 이용될 수 있다. 따라서, 파일들은 자료가 접근되는 것을 통해 특정 보기(viewing) 디바이스 또는 특정 자료에 구속될 수 있고, 자료와 연관된 디지털 권리 관리 정보를 이용할 수 있다.
큐 리스트, 오디오 큐 및 전자식 책 리더기에서 가능한 상호작용에 대한 앞선 이해를 기반으로, 동적 오디오 재생기가 도 5 내지 7와 함께 더욱 상세하게 설명될 것이다.
책이 독자에 의해 처음 오픈될 때(500) 재생을 초기화하기 위해, 전자식 책 리더기는 "ebookOpenedwithUniqueID" 함수를 호출하고(502), 이 함수는 책의 고유한 식별자 및 책이 이전에 오픈된 적이 있는지 여부를 지시한다. 동적 오디오 재생기는 전자식 책의 식별자를 수신하고(504), 식별된 책에 대한 큐 리스트를 다운로드하거나 판독(read)한다(506). 전자식 책 리더기는 "getCueLists" 함수를 호출함으로써, 큐 리스트에 관한 정보를 동적 오디오 재생기에 촉구(prompt)한다. 동적 오디오 재생기는 큐 리스트를 전송하고(510), 전자식 책 리더기는 책에 대한 사운드트랙들(하나 이상의 사운드트랙이 있는 경우) 중 하나를 선택하도록 사용자에게 표시한다(512). 이와 같은 선택은 사용자가 사운드트랙을 평가(rate)하도록 허용하는 소비자 피드백 평가 시스템을 이용함으로써 강화될 수 있고, 이러한 평가들은 사운드트랙의 선택이 시스템에 의해 요청될 때 사용자에게 표시될 수 있다. "cueListEnabled" 함수는 동적 오디오 재생기에 선택된 큐 리스트를 알리기 위해 호출되고(514), 동적 오디오 재생기는 함수 호출을 통해 이를 수신한다(516). "fetchSoundtrack" 함수는 동적 오디오 재생기가 재생에 대한 큐를 패치(fetch)(520)하도록 지시하기 위해 호출된다(518).
이러한 셋업(setup) 과정이 완료된 후, 동적 오디오 재생기는 재생을 초기화하기 위해 큐 및 큐 리스트, 그리고 현재 큐를 시작하는 것을 포함한다. 전자식 책 리더기에 의해 전자식 책의 일부가 디스플레이되는 시간 주변에 재생이 시작될 수 있다. 다음, 동적 재생기는, 책과의 사용자 상호작용에 관한 데이터에 기초하여, 재생될 다음 큐, 큐를 언제 재생할지 및 현재 큐로부터 다음 큐로 어떻게 과도(transition)될 지를 결정한다.
동적 오디오 재생기는 추정 총 큐 지속시간을 피팅(fit)하기 위해 큐의 오디오 스템 파일들의 재생 시간을 확장하거나 짧게 한다. 이러한 추정 큐 지속시간은 복수의 방법으로 연산될 수 있다. 예시적인 구현예는 읽기 속도의 추정을 이용하고, 이것의 연산은 하기에서 더욱 상세하게 설명한다. "displayedPositionRangeChanged" 함수 호출을 통해 각 페이지 전환에서 제공되는 것과 같이, 전자식 책 리더기와의 사용자 상호작용을 설명하는 데이터에 응답하여 현대 큐 지속시간은 업데이트된다.
일반적으로, 큐의 오디오 스템 파일의 재생 시간은 오디오 스템 파일들의 섹션을 자동적으로 루핑(looping)하고, 개별적인 스템 믹스들을 다양화하고, 에코, 지연 및 코러스와 같은 다양한 효과를 동적으로 추가함으로써, 변경된다. 오디오 스템 파일에 특정되는 또 다른 믹스 자동화 데이터 및 루프 포인트는 큐 파일의 메타데이터에 저장된다. 큐 파일에는 복수의 서로 다른 루프 포인트가 있을 수 있다. 오디오 스템의 섹션들은, 루프(loop)되고 리믹스(remix)될 때, 선택될 수 있으므로, 그들은 가장 효과적이고 흥미있는 최종 사용자 경험을 제공한다. 이 과정은, 오디오 원본 부분의 지속시간을 많이 가질 수 있는 음악적으로 만족스러운 결과를 전송하기 위해, 명백한 반복을 가지며 음악 컨텐츠를 최대화하는 음악을 생성하는 것을 방지한다. 다음 큐가 트리거(triggered)될 때, 송신(outgoing) 및 수신(incoming) 오디오 사이의 과도기 또한, 스타일을 정의하기 위한 큐 파일 메타데이터 및 끊김없는 음악적 과도기를 생성하기 위한 적절한 크로스 페이드를 이용하는 동일한 과정에 의해 관리된다.
예를 들어, 큐 파일이 4개의 오디오 스템들(멜로디 트랙(melody track), 일관된 화음(sustained chordal) 또는 "패드" 트랙, 리듬감 있는 타악기소리(rhythmic percussive)(종종 드럼) 트랙, 및 하모닉(harmonic) 트랙)을 포함하고, 만약 단일 패스(pass)에서 재생되는 경우, 이들은 4분 동안 실행될 것이라고 가정한다. 추가적으로, 이 기록들은 3개의 구분된 섹션 A, B, 및 C를 갖는다고 가정한다. 큐 파일에서 메타 정보는 하기와 같은 것을 포함할 것이다.
1. 이전 큐로부터 큐로 과도된 방법. 이는 과도기 스타일(즉, 저속, 중속, 고속 페이드-인, 또는 에코 테일(reverb tail)과 이전 큐를 정지하고 큐의 시작으로부터 새로운 큐 시작), 음악 바(musical bar), 비트 마커(beat markers)를 포함하기 때문에, 크로스 페이드는 음악적으로 끊김이 없을 것이다.
2. A,B 및 C 섹션 각각이 루프될 수 있는 시간 포지션(positions).
3. 4개의 스템들이 리믹스될 수 있는 방법에 대한 큐 생산자의 입력. 예를 들어, 스템 1, 2 및 3은 섹션 A만을 이용하여 재생하고, 스템 1, 3 및 4는 섹션 A만을 이용하여 재생하고, 스템 3에 에코를 추가하여 이것 스스로의 섹션 B를 이용하여 이를 재생하고, 섹션 B로부터 스템 3 및 4를 재생하는 등이 있다. 이러한 종류의 인스트럭션들을 갖는다는 것은 전형적인 4분 오디오가 명백한 반복없이 40분 또는 그 이상으로 확장될 수 있다는 것을 의미한다. 추가적으로, 각 믹스는 사용자에 대해 고유하고, 재생 시간에 생성되므로 사운드트랙의 부정(unauthorized) 복사는 더 어려워진다.
예를 들어, 도 6을 참조하여, 이러한 과정은 보다 상세하게 설명된다. 주어진 큐 및 시작 포인트에 따라, 다음 큐가 재생되기까지의 지속시간이 결정된다(600). 이러한 지속기간을 연산하는 예시적인 방법이 하기에서 상세하게 제동된다. 주어진 지속기간에서, 큐 생산자의 입력은 이상적인 지속기간의 재생리스트를 생성하기 위해 처리된다. 다시 말하면, 리믹스 정보에서 제1 인스트럭션이 선택되고(602), 재생리스트에 추가된다. 605에서 결정되어, 만약 오디오 스템의 이 섹션이 이상적인 지속기간보다 짧은 지속기간을 갖는 경우, 다음 인스트럭션이 선택되고(606), 프로세스는 이상적인 지속기간의 재생리스트가 완료될 때(608)까지 반복된다. 큐의 끝에서, 다음 큐에 대한 메타데이터에서 과도기 정보는, 현재 큐로부터 다음 큐로 크로스-페이드를 구현하기 위해, 현재 재생리스트에서 시작 포인트를 선택하는데(610) 이용된다.
큐의 지속기간을 추정하는 한 방법은, 큐에서 주어진 단어의 개수 및 독자의 읽기 속도를 추정하고, 독자가 책의 이 일부를 읽는 것을 완료하는데 걸리는 시간이 얼마인지 결정한다. 이러한 추정은 독자에 대한 읽기 속도 정보의 이력으로부터 연산될 수 있다.
사용자가 책을 읽기 시작할 때, 분 당 소정 개수의 단어에 대한 초기 읽기 속도가 가정된다. 상기 초기 속도는 이전 책을 읽은 것으로부터 독자의 이전 읽기 속도 이력에 관한 다양한 데이터로부터 산출될 수 있고, 이는 모든 책들에 대해 작가, 장르, 시각, 장소에 따라 체계화될 수 있다. 만약 이전 읽기 이력이 유효하지 않은 경우, 다른 사용자들이 이 제목을 어떻게 읽었는지에 대한 익명의 세계적인 기록(global tally)이 이용될 수 있다. 또 다른 이력들이 유효하지 않은 경우, 분당 400 단어의 전형적인 평균이 이용된다.
도 7을 참조하면, 사용자에 대한 읽기 속도는, "displayedPositionRangeChanged" 함수 호출에 의해 지시되는 바와 같이, 디스플레이되는 포지션 범위가 변화되는 각 시간마다 추적된다. 만약 이 함수 호출이 수신되면(700), 복수의 조건들이 체크된다(702). 이러한 조건들은 하기와 같은 것을 포함할 수 있으나, 이에 제한되는 것이 아니며, 모두 요구하지도 않는다. 사용자는 능동적으로 읽고 있는다. 즉, 읽기를 잠시 멈춘 상태는 안 된다. 새롭게 디스플레이된 포지션의 범위는 이전에 디스플레이된 포지션의 범위보다 크다. 새롭게 디스플레이된 포지션의 범위의 시작은 이전에 디스플레이된 포지션의 범위의 끝과 닿아(touch) 있다. 그리고, 단어 카운트는 최소량(현재 150 단어)보다 크다. 마지막 변경 이후에 시간은 또한, 속도를 체크하기 위한 평균 읽기 속도의 표준 편차는 정상 기대 분산(variance) 내인 것과 같이, 합리적인 범위 내여야 한다. 만약 상기한 조건들이 충족된 경우, 현재 시간이 이전에 디스플레이된 포지션의 범위에 대한 단어 카운트와 함께 기록된다(704). 섹션에 대한 읽기 속도가 연산된다(708). 측정된 읽기 속도의 이력 데이터로부터, 평균 읽기 속도는 연산될 수 있고, 큐 지속시간을 추정하는데 이용될 수 있다.
페이지 p에 대한 읽기 속도 Sp(초당 단어)를 산출하는 공식은 하기와 같다.
Figure pct00001
여기서 Wp는 페이지에 대한 단어 카운트이고, Tp는 페이지를 읽는데 걸리는 시간(초)이다. 구현예에서, 평균 읽기 속도에 대해 이용되는 통계는 20 주기 지수이동평균(exponential moving average, EMA)이고, 이는 속도에서 변동을 고르며(smoothes out), 반면 여전히 최근 페이지 속도를 더 중요하게 고려한다.
EMA를 산출하는 공식은 하기와 같다.
Figure pct00002
Figure pct00003
여기서 n은 주기의 개수, 즉 20이다.
읽기 속도에서 분산을 산출하기 위해, 마지막 20 값에 대한 분산을 산출하기 위해 웰포드 방법(Welford's method)을 이용한다.
Figure pct00004
Figure pct00005
으로 초기화한다.
T의 연속적인 값에 대해, 반복 공식을 이용하면,
Figure pct00006
Figure pct00007
Figure pct00008
에 대해, 분산의
Figure pct00009
추정은,
Figure pct00010
상기 읽기 속도 정보는 사용자 전자식 책 리더기 어플리케이션 플랫폼에 위치적으로 저장될 수 있다. 복수의 사용자에 대한 이러한 정보는 익명의 패션(fashion)의 서버에서 컴파일(compiled)될 수 있고, 저장될 수도 있다. 어플리케이션은 다른 사람들이 자료 또는 자료의 일부를 얼마나 빨리 읽는지 결정하기 위해 읽기 속도 정보 통계를 찾을 수 있다.
읽기 속도 대신 또는 읽기 속도에 추가된 사용자 상호작용의 또 다른 유형은 재생을 제어하는데 이용될 수 있다.
구현예에서, 전자식 책과의 사용자 상호작용에 관한 데이터는 독자가 책에서 포인트부터 읽기 시작했다는 것을 지시한다. 이는, 독자가 일반적으로 한 자리에서 책을 시작부터 끝까지 읽지 않는 경우에서 자주 발생한다. 복수의 경우에서, 독자가 책에서 포인트를 읽는 것을 재시작하는 경우, 그 포인트에서 사운드트랙에서 오디오의 오디오 레벨 또는 "여기(excitement)"의 또 다른 레벨은 적절하지 않을 수 있다. 즉, 오디오는 그 포인트에서 실제로 분산(distracting)할 수 있다. 동적 오디오 재생기는 책에서 포지션부터 독자가 읽기 시작했다는 지시자를, 현재 읽기 포지션을 포함하는 책의 일부에 대해 선택되는 오디오 큐로부터 대안적인 오디오 큐를 선택하기 위한 기회로서, 이용할 수 있다.
또 다른 예에서, 독자는 섹션으로부터 섹션으로 스킵(skipping)함으로써, 책을 읽을 수도 있다. 또 다른 멀티미디어 자료는 이러한 읽기의 방법을 권장할 수도 있다. 이러한 경우, 자료의 섹션과 연관된 오디오 큐는 그 섹션의 디스플레이가 초기화될 때 재생된다. 이전에 디스플레이된 섹션의 오디오로부터 새롭게 디스플레이된 섹션에 대한 오디오로의 간단한 크로스-페이드가 수행될 수 있다. 복수의 어플리케이션에서, 자료의 특징이 소정의 특정 섹션의 보기(viewing) 시간이 예측되지 어려운 경우와 같으면, 동적 재생 엔진은 지속기간을 무기한으로 간단하게 간주하고, 이것은 또 다른 오디오 큐를 시작하기 위해 인스트럭션이 수신될 때까지 큐 파일에서의 인스트럭션에 기초하여 오디오를 생성하기 위해 지속될 수 있다.
또 다른 예시에서, 사용자 입력에 응답하여 큐 파일의 서로 다른 섹션을 재생하기 위해 오디오 큐 파일을 이용하는 것이 가능하다. 예를 들어, 유명한 곡은 섹션으로 나뉘어질 수 있다. 사용자 인터페이스는, 재생기가 사용자 입력에 응답하여 특정된 섹션 또는 다음 섹션으로 점프(jump)하도록 지시할 수 있는 오디오 재생제어를 위해 제공될 수 있다.
어떻게 이와 같은 자료 및 수반하는 사운드트랙이 생성되는지 설명되고, 그들의 분배가 설명될 것이다.
전자식 책에 대한 사운드트랙을 생성하는 것은 오디오 파일들을 전자식 책의 텍스트의 일부와 연관시키는 것을 포함한다. 사운드트랙이 생성될 수 있는 복수의 방법들이 있다.
한 구현예에서, 컴포저는 텍스트의 각 일부에 대해 원본 음악을 쓰고 기록한다. 텍스트의 각 일부는 그렇게 쓰여지고 기록된 개별의 오디오 파일들과 연관될 수 있다. 대안적으로, 미리 기록된 음악은 선택될 수 있고, 텍스트의 일부와 직접적으로 연관될 수도 있다. 이러한 구현예에서, 오디오 파일은 정적으로 및 동적으로 텍스트의 일부에 할당된다.
또 다른 구현예에서, 오디오 파일은 간접적으로 텍스트의 일부에 할당된다. 단어 또는 또 다른 레이블과 같은 태그들은 텍스트의 일부와 연관된다. 상기에서 설명된 큐 리스트와 유사하게, 이러한 태그들은 컴퓨터 데이터 파일 또는 데이터베이스에 저장될 수 있고, 전자식 책과 연관될 수 있다. 대응 태그는 또한 오디오 파일에 연관된다. 하나 이상의 컴포저는 특정 감정이나 분위기를 이끌어내도록 하는 원본 음악을 쓰고 기록한다. 대안적으로, 이전에 기록된 음악이 선택될 수 있다. 이러한 오디오 파일들은 또한 이러한 태그와 연관되고, 데이터베이스에 저장될 수 있다. 텍스트의 일부와 연관된 태그는 동일한 태그를 갖는 대응 오디오 파일을 자동적으로 선택하는데 이용될 수 있다. 책에서 하나의 태그에 대해 복수의 오디오 파일이 식별되는 이벤트에서, 오디오 파일들 중 하나가 컴퓨터 또는 사람의 조정 중 어느 하나에 의해 선택될 수 있다. 이러한 구현예는, 전자식 책 및 오디오 파일과 연관된 태그들이 주어진 오디오 파일을 선택하는 과정을 자동화함으로써, 오디오 파일들이 데이터베이스에서 수집되도록 허용하고, 사운드트랙의 생성이 반자동적으로 완료되도록 한다.
오디오 파일이 전자식 책과 간접적으로 연관되도록 하는 구현예에서, 오디오 파일은 또한, 재생에 가까운 시간에 있는 태그를 사용하여 동적으로 선택될 수 있다.
태그를 전자식 책과 연관시키는 프로세스 또한 자동화될 수 있다. 특히, 텍스트의 단어의 의미(semantic) 분석에 기초하여 감정 디스크립터들을 텍스트의 일부와 연관시키기 위해, 텍스트는 컴퓨터에 의해 처리될 수 있다. 이러한 의미 분석의 예시적인 테크닉은, Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (2005 10월), 페이지 579-586에서 Cecilia Ovesdotter Alm 외에 의한 "Emotions from text: machine learning for text-based emotion prediction"에서 설명된 방법들을 포함하고, 이는 참조에 의해 구체화된다. 그러나 이에 제한되지는 않는다. 상기 태그들은 보여지고 있는 자료의 섹션을 지지하는 감정적 느낌 또는 또 다른 정서(sentiment)를 설명할 수 있다. 예를 들어, 이러한 감정적 느낌은 중간 긴장, 사랑의 관심, 긴장, 쾌활, 남성적인, 어두운, 음울한, 유령같은, 행복한, 슬픈, 아쉬운, 성적 순간, 밝고, 화창한 것과 같은 느낌을 포함할 수 있다. 그러나 이에 제한되지 않는다.
도 8은 그들과 연관된 태그를 갖는 주어진 오디오 파일, 전자식 책에 대한 사운드트랙을 생성하기 위해 완전히 자동화된 과정의 예시를 나타내는 데이터 흐름도이다. 전자식 책(800)은 책에 대한 텍스트 범위(804) 및 감정 디스크립터들을 출력하는 감정 디스크립터 생성기(802)로 입력된다. 감정 디스크립터는 책의 각 범위에 대해 감정 디스크립터들을 매치(match)하는 오디오 파일들(810)을, 오디오 데이터베이스(806)에서, 찾는데 이용된다. 오디오 선택기(808)는 큐 리스트(812)를 생성하기 위해 각 텍스트 범위에 대한 오디오 파일의 자동화되거나, 랜덤하거나 또는 반자동화된 선택을 고려한다. 고유한 식별자는 전자식 책에 대해 생성될 수 있고, 큐 리스트(812)와 함께 저장될 수도 있다.
이와 같은 전자식 책 및 그들의 사운드트랙은 소정의 다양한 방법으로 분배될 수 있으며, 이는 전자식 책의 상업적 분배를 위해 현재 이용되는 방법을 포함하되, 이에 제한되지 않는다. 구현예에서, 전자신 책 및 전자식 책 리더기는 종래 테크닉을 이용하여 최종 사용자에게 분배된다. 추가적인 사운드트랙의 분배 및 동적 오디오 재생기는 별도로 완료된다. 사운드트랙의 분배는 일반적으로 두 단계로 완료된다. 먼저 큐 리스트가 다운로드되고, 그 다음 각 오디오 파일이 다운로드된다. 오디오 파일은 요구에 따라서 다운로드될 수 있다. 동적 오디오 재생기는 전자식 책 리더기가 구동하는 동일한 장치에 저장될 수도 있고, 또는 분리되어 저장될 수도 있는 유효한 큐 파일들에 관한 정보를 유지하는 파일 매니저를 포함할 수 있다.
구현예에서, 전자식 책은 큐 리스트 및 동적 오디오 재생기와 함께 최종 사용자에게 분배된다.
또 다른 구현예에서, 전자식 책 및 이것의 연관된 큐 리스트는 함께 분배된다. 큐 리스트는 백그라운드 태스크(background task)로서 사운드트랙에 대한 오디오 파일을 다운로드하는데 이용된다. 구현예에서, 전자식 책은 먼저 다운로드되고 큐 리스트의 다운로드는 백그라운드 태스크로서 초기화되고, 제1 큐에 대한 제1 오디오 파일은 즉시 다운로드된다.
또 다른 구현예에서, 전자식 책 리더기는 로컬 포괄적인 큐들을 포함하는 로컬 저장장치를 갖는 디바이스이며, 큐 리스트에 따른 재생을 위해 선택될 수 있는 다양한 감정 디스크립터들을 포함한다. 만약 원격(remote) 오디오 파일이 이용불가능하게 된 경우, 이러한 포괄적인 큐들은 오디오의 재생을 허용할 것이다.
구현예에서, 전자식 책 리더기 어플리케이션은, 전자식 미디어의 분배기와 통신할 수 있는 것을 통해, 인터넷과 같은 네트워크로 접근하는 플랫폼에 로드(loaded)된다. 이러한 분배기는 사용자로부터 전자식 미디어를 구매 및/또는 다운로드하기 위한 요청을 수신할 수 있다. 상기 요청을 수신한 후, 분배기는 요청된 자료 및 이에 수반하는 사운드트랙 정보를 데이터베이스로부터 검색할 수 있다. 검색된 전자식 미디어는 암호화될 수 있고, 전자식 책 리더기 어플리케이션의 사용자에게 전송될 수 있다. 전자식 미디어는, 전자식 미디어가 단일 전자식 책 리더기에서만 재생될 수 있는 것과 같이, 암호화될 수 있다. 전형적으로, 자료와 관련된 디지털 권리 관리 정보 또한 사운드트랙 정보에 적용된다.
상기한 바와 같이, 저장 매체는 저장 데이터에 대해 하나 이상의 디바이스 나타낼 수 있으며, 이는 ROM(read-only memory), RAM(random access memory), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 디바이스 및/또는 정보 저장을 위한 또 다른 기기 판독 매체를 포함한다. "기기 판독 매체" 및 "컴퓨터 판독 매테"는 휴대형 또는 고정 저장 디바이스, 광학 저장 디바이스, 및/또는 인스트럭션 및/또는 데이터를 저장하거나 포함하거나 또는 전달할 수 있는 다양한 또 다른 형태의 매체들을 포함한다. 그러나 이에 제한되지 않는다.
추가적으로, 구현예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드(microcode) 또는 이들의 소정의 조합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드에서 구현된 경우, 필수 태스크(task)를 수행하기 위한 프로그램 코드 또는 코드 세그먼트(segment)들은 저장 매체 또는 또 다른 저장장치와 같은 기기 판독 매체에 저장될 수 있다. 프로세서는 상기 필수 태스크를 수행할 수 있다. 코드 세그먼트는 프로시져(procedure), 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스 또는 인스트럭션들의 소정의 조합, 데이터 구조, 또는 프로그램 스테이트먼트(statements). 코드 세그먼트는 정보, 데이터, 아규먼트(arguments), 파라미터 또는 메모리 컨텐츠를 패싱(passing) 및/또는 수신함으로써, 또 다른 코드 세그먼트 또는 하드웨어 회로와 커플링(coulped)될 수 있다. 정보, 아규먼트, 파라미터, 데이터 등은 메모리 공유, 메시지 패싱, 토큰 패싱, 네트워크 전달 등을 포함하는 소정의 적정 수단을 통해 패스(passed), 포워드(forwarded) 또는 전송될 수 있다.
개시된 예시와 연관되어 설명된 다양하게 나타난 논리 블록, 모듈, 회로, 요소, 및/또는 컴포넌트(components)는, 일반적인 목적의 프로세서, DSP(digital signal processor), ASIC(application specific integrated circuit), FPGA(field programmable gate array) 또는 또 다른 프로그램적인 논리 컴포넌트, 별도의 게이트(gate) 또는 트랜지스터 로직(transistor logic), 별도의 하드웨어 컴포넌트 또는 여기서 설명된 기능을 수행하기 위해 설계된 것의 소정의 조합에서 구현되거나 수행될 수 있다. 일반적인 목적의 프로세서는 마이크로프로세서일 수 있고, 대안적으로는 소정의 종래 프로세서, 제어기, 마이크로제어기, 회로 및/또는 스테이트 머신(state machine)일 수 있다. 프로세서는 컴퓨팅 컴포넌트의 조합으로서 구현될 수도 있는데, 예를 들어, DSP 및 마이크로프로세서의 조합, 많은 마이크로프로세서, DSP 코어(core)와 공조하는 마이크로프로세서들, 또는 또 다른 배열(configuration)이 있다.
여기서 설명된 예시와 함께 설명된 방법 또는 알고리즘은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 둘의 조합, 프로세싱 유닛, 프로그래밍 인스트럭션들 또는 또 다른 명령(directions)의 형태에서 직접적으로 구체화될 수 있고, 단일 디바이스에 포함될 수도 있고 또는 복수의 디바이스에 분배될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 분리가능한 디스크, CD-ROM 또는 기술 분야에서 알려진 소정 형태의 저장 매체에 존재할 수 있다. 저장 매체는, 프로세서가저장 매체로부터 정보를 읽거나 저장 매체로 정보를 쓸 수 있도록, 프로세서와 커플링될 수 있다. 대안적으로, 저장 매체는 프로세서와 통합(integral)될 수 있다.
특징을 나타내는 하나 이상의 컴포넌트 및 기능들은 단일 컴포넌트로 재배열 및/또는 조합될 수 있고, 또는 본 발명을 벗어나지 않으면서 복수의 컴포넌트에서 구체화될 수 있다. 추가적인 요소 또는 컴포넌트는 본 발명을 벗어나지 않으면서 추가될 수 있다. 추가적으로, 여기서 설명된 특징들은 상거래 방법으로서, 소프트웨어, 하드웨어 및/또는 이들의 조합으로 구현될 수 있다.
도면과 함께 표본적인 구현예들이 설명되고 표시되었으나, 이러한 구현예는 상기 예시와 같은 방법만으로 나타나 있으나, 이는 단지 일실시예를 나타내는 것이며, 넓은 발명을 제한하는 것이 아니라고 이해되어질 것이며, 본 발명이 속하는 분야의 당업자에 의해 다양한 변형이 일어날 수 있으므로, 본 발명은 상기에서 설명되고 나타난 특정 구조 또는 배열에 제한되지 않는다고 이해되어질 것이다.

Claims (9)

  1. 오디오의 동적 재생(dynamic playback)을 위한 컴퓨터 구현 프로세스에 있어서,
    전자식 시각자료(electronic visual work)의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
    상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부에 연관된 오디오재생의 지속시간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스.
  2. 청구항 1에 있어서,
    수신된 상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터에 따라, 상기 전자식 시각자료의 일부의 시각적 디스플레이를 위한 지속시간을 추정하는 단계; 및
    상기 추정된 지속시간 동안 오디오를 제공하기 위해 상기 전자식 시각자료의 일부와 연관된 오디오의 스템 믹스 시퀀스(a sequence of mixes of stems of audio)를 선택하는 단계를 더 포함하는 것을 특징으로 하는 프로세스.
  3. 청구항 2에 있어서, 상기 지속시간은 읽기 속도의 이력을 이용하여 추정되는 것을 특징으로 하는 프로세스.
  4. 전자식 시각자료의 디스플레이와 동기화된 사운드트랙(soundtrack)을 재생하기 위한 컴퓨터 구현 프로세스에 있어서,
    상기 전자식 시각자료를 메모리로 수신하는 단계;
    상기 전자식 시각자료의 일부와 태그를 연관시키는 정보를 메모리로 수신하는 단계;
    사용자 상호작용에 응답하여 상기 전자식 시각자료의 일부를 디스플레이하는 단계;
    태그를 갖는 오디오 파일로 접근하는 단계;
    프로세서를 이용하여, 상기 전자식 시각자료의 일부와 연관된 상기 태그에 따라 상기 전자식 시각자료의 일부와 연관될 오디오 파일을 선택하는 단계;
    상기 전자식 시각자료의 일부와의 사용자 상호작용에 관한 데이터를 수신하는 단계; 및
    상기 사용자 상호작용에 따라 상기 전자식 시각자료의 일부와 연관된 오디오 재생의 지속기간을 동적으로 조정하는 단계를 포함하는 것을 특징으로 하는 프로세스.
  5. 전자식 시각자료에 대한 사운드트랙을 생성하는 컴퓨터 구현 프로세스에 있어서,
    상기 전자식 시각자료를 메모리로 수신하는 단계;
    프로세서에 의해, 상기 메모리에서 상기 전자식 시각자료의 일부를 태그와 연관시킴으로써 상기 전자식 시각자료의 일부를 마킹(mark)하기 위해, 상기 메모리에서 상기 전자식 시각자료를 처리하는 단계;
    태그를 갖는 오디오 파일로 접근하는 단계;
    상기 전자식 시각자료의 일부와 연관된 태그에 따라 상기 전자식 시각자료의 일부에 대한 오디로 파일을, 상기 프로세서를 이용하여, 선택하는 단계를 포함하는 것을 특징으로 하는 프로세스.
  6. 청구항 5에 있어서, 상기 전자식 시각자료는 텍스트를 포함하고, 상기 처리하는 단계는 상기 텍스트를 처리하는 단계를 포함하는 것을 특징으로 하는 프로세스.
  7. 청구항 6에 있어서, 상기 태그는 감성 디스크립터(emotional descriptors)를 포함하는 것을 특징으로 하는 프로세스.
  8. 디지털 정보 제품으로서,
    컴퓨터 판독 매체;
    상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 전자식 시각자료 각각의 일부에 대해 감성 디스크립터를 갖는 큐 리스트(cue list)를 포함하는 컴퓨터 판독 파일을 정의하고, 상기 감성 디스크립터는 오디오 데이터와 또한 연관된 감성 디스크립터에 상응하는 것을 특징으로 하는 제품.
  9. 디지털 정보 제품으로서,
    컴퓨터 판독 매체;
    상기 컴퓨터 판독 매체에 저장된 컴퓨터 판독 데이터를 포함하고, 상기 컴퓨터 판독 데이터는 컴퓨터에 의해 처리될 때 그 컴퓨터에 의해 해석되어, 오디오 데이터를 제공하기 위하여 믹스될 수 있는 복수의 스템(stem)에 대한 오디오 데이터와 스템이 어떻게 반복되고 결합될 수 있는지를 나타내는 정보를 포함하는 오디오 큐(audio cue)를 정의하는 데이터를 구비한 컴퓨터 판독 파일을 정의하는 것을 특징으로 하는 제품.
KR1020127014737A 2009-11-10 2010-11-10 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생 KR20120091325A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25999509P 2009-11-10 2009-11-10
US61/259,995 2009-11-10

Publications (1)

Publication Number Publication Date
KR20120091325A true KR20120091325A (ko) 2012-08-17

Family

ID=43868382

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127014737A KR20120091325A (ko) 2009-11-10 2010-11-10 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생

Country Status (6)

Country Link
US (2) US8527859B2 (ko)
EP (1) EP2499626A1 (ko)
JP (1) JP2013511214A (ko)
KR (1) KR20120091325A (ko)
CN (1) CN102687182A (ko)
WO (1) WO2011060106A1 (ko)

Families Citing this family (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102124523B (zh) 2008-07-04 2014-08-27 布克查克控股有限公司 制作并播放音带的方法和系统
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101702659B1 (ko) * 2009-10-30 2017-02-06 삼성전자주식회사 동영상 콘텐츠와 전자책 콘텐츠의 동기화 장치와 방법 및 시스템
US8527859B2 (en) * 2009-11-10 2013-09-03 Dulcetta, Inc. Dynamic audio playback of soundtracks for electronic visual works
US20130297599A1 (en) * 2009-11-10 2013-11-07 Dulcetta Inc. Music management for adaptive distraction reduction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20120001923A1 (en) * 2010-07-03 2012-01-05 Sara Weinzimmer Sound-enhanced ebook with sound events triggered by reader progress
KR101058268B1 (ko) * 2010-08-03 2011-08-22 안명환 비가독부를 구비한 이동단말기
US9535884B1 (en) 2010-09-30 2017-01-03 Amazon Technologies, Inc. Finding an end-of-body within content
US9645986B2 (en) 2011-02-24 2017-05-09 Google Inc. Method, medium, and system for creating an electronic book with an umbrella policy
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8935259B2 (en) 2011-06-20 2015-01-13 Google Inc Text suggestions for images
CN103782342B (zh) 2011-07-26 2016-08-31 布克查克控股有限公司 电子文本的声道
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8612584B2 (en) * 2011-08-29 2013-12-17 Google Inc. Using eBook reading data to generate time-based information
US9141404B2 (en) 2011-10-24 2015-09-22 Google Inc. Extensible framework for ereader tools
GB2510744A (en) * 2011-11-04 2014-08-13 Barnesandnoble Com Llc System and method for creating recordings associated with electronic publication
US20130117670A1 (en) * 2011-11-04 2013-05-09 Barnesandnoble.Com Llc System and method for creating recordings associated with electronic publication
US9031493B2 (en) 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US20130131849A1 (en) * 2011-11-21 2013-05-23 Shadi Mere System for adapting music and sound to digital text, for electronic devices
US9183807B2 (en) 2011-12-07 2015-11-10 Microsoft Technology Licensing, Llc Displaying virtual data as printed content
US9229231B2 (en) 2011-12-07 2016-01-05 Microsoft Technology Licensing, Llc Updating printed content with personalized virtual data
US9182815B2 (en) 2011-12-07 2015-11-10 Microsoft Technology Licensing, Llc Making static printed content dynamic with virtual data
US9213705B1 (en) 2011-12-19 2015-12-15 Audible, Inc. Presenting content related to primary audio content
EP2608002A1 (en) * 2011-12-21 2013-06-26 France Telecom Method for determining a reading speed of a section of an electronic content
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130268826A1 (en) * 2012-04-06 2013-10-10 Google Inc. Synchronizing progress in audio and text versions of electronic books
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9165381B2 (en) 2012-05-31 2015-10-20 Microsoft Technology Licensing, Llc Augmented books in a mixed reality environment
US8933312B2 (en) * 2012-06-01 2015-01-13 Makemusic, Inc. Distribution of audio sheet music as an electronic book
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9141257B1 (en) * 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9535885B2 (en) 2012-06-28 2017-01-03 International Business Machines Corporation Dynamically customizing a digital publication
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140040715A1 (en) * 2012-07-25 2014-02-06 Oliver S. Younge Application for synchronizing e-books with original or custom-created scores
CN103680562B (zh) * 2012-09-03 2017-03-22 腾讯科技(深圳)有限公司 音频文件的布点实现方法和装置
US9047356B2 (en) 2012-09-05 2015-06-02 Google Inc. Synchronizing multiple reading positions in electronic books
US9544204B1 (en) * 2012-09-17 2017-01-10 Amazon Technologies, Inc. Determining the average reading speed of a user
US9575960B1 (en) * 2012-09-17 2017-02-21 Amazon Technologies, Inc. Auditory enhancement using word analysis
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9123053B2 (en) 2012-12-10 2015-09-01 Google Inc. Analyzing reading metrics to generate action information
CN103020226A (zh) * 2012-12-12 2013-04-03 北京百度网讯科技有限公司 一种获取搜索结果的方法和装置
US20140173441A1 (en) * 2012-12-19 2014-06-19 Hcl Technologies Limited Method and system for inserting immersive contents into eBook
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
CN104168174A (zh) * 2013-05-16 2014-11-26 阿里巴巴集团控股有限公司 一种传输信息的方法及装置
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9836271B2 (en) * 2013-07-17 2017-12-05 Booktrack Holdings Limited Delivery of synchronised soundtracks for electronic media content
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
IN2014DE02666A (ko) * 2013-09-18 2015-06-26 Booktrack Holdings Ltd
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150269133A1 (en) * 2014-03-19 2015-09-24 International Business Machines Corporation Electronic book reading incorporating added environmental feel factors
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
CN104166689B (zh) * 2014-07-28 2018-04-06 小米科技有限责任公司 电子书籍的呈现方法及装置
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US20160182435A1 (en) * 2014-12-23 2016-06-23 Sony Corporation Socially acceptable display of messaging
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105261374A (zh) * 2015-09-23 2016-01-20 海信集团有限公司 跨媒体的情感关联方法和系统
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170116047A1 (en) * 2015-10-25 2017-04-27 Khozem Z. Dohadwala Further applications of Reading State control - A method for repositioning reading material on electronic devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN106708894B (zh) * 2015-11-17 2019-12-20 腾讯科技(深圳)有限公司 电子书配置背景音乐的方法和装置
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9959343B2 (en) 2016-01-04 2018-05-01 Gracenote, Inc. Generating and distributing a replacement playlist
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US20180032611A1 (en) * 2016-07-29 2018-02-01 Paul Charles Cameron Systems and methods for automatic-generation of soundtracks for live speech audio
US10698951B2 (en) * 2016-07-29 2020-06-30 Booktrack Holdings Limited Systems and methods for automatic-creation of soundtracks for speech audio
US20180032305A1 (en) * 2016-07-29 2018-02-01 Paul Charles Cameron Systems and methods for automatic-creation of soundtracks for text
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106960051B (zh) * 2017-03-31 2019-12-10 掌阅科技股份有限公司 基于电子书的音频播放方法、装置和终端设备
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3646322A1 (en) * 2017-06-29 2020-05-06 Dolby International AB Methods, systems, devices and computer program products for adapting external content to a video stream
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109543671B (zh) * 2018-09-30 2021-03-02 阿里巴巴(中国)有限公司 点读方法、点读笔、服务器数据处理方法及点读系统
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109493839B (zh) * 2018-11-12 2024-01-23 平安科技(深圳)有限公司 基于语音合成的空气质量展示方法、装置及终端设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109994000B (zh) * 2019-03-28 2021-10-19 掌阅科技股份有限公司 一种伴读方法、电子设备及计算机存储介质
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12051133B2 (en) * 2021-06-01 2024-07-30 Apple Inc. Color treatment and color normalization for digital assets

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4305131A (en) * 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US5484292A (en) * 1989-08-21 1996-01-16 Mctaggart; Stephen I. Apparatus for combining audio and visual indicia
US5209665A (en) * 1989-10-12 1993-05-11 Sight & Sound Incorporated Interactive audio visual work
JP3120085B2 (ja) * 1991-11-21 2000-12-25 株式会社セガ 電子装置及び情報担体
US5437552A (en) * 1993-08-13 1995-08-01 Western Publishing Co., Inc. Interactive audio-visual work
US5649234A (en) * 1994-07-07 1997-07-15 Time Warner Interactive Group, Inc. Method and apparatus for encoding graphical cues on a compact disc synchronized with the lyrics of a song to be played back
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
US5897324A (en) * 1997-02-03 1999-04-27 Atop Technologies, Inc. Multimedia-book operable with removable data storage media implemented with universal interfacing book-adapting processor
US6424996B1 (en) * 1998-11-25 2002-07-23 Nexsys Electronics, Inc. Medical network system and method for transfer of information
US6529920B1 (en) * 1999-03-05 2003-03-04 Audiovelocity, Inc. Multimedia linking device and method
US7149690B2 (en) * 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6598074B1 (en) * 1999-09-23 2003-07-22 Rocket Network, Inc. System and method for enabling multimedia production collaboration over a network
WO2001091028A1 (en) * 2000-05-20 2001-11-29 Leem Young Hie On demand contents providing method and system
AU2002232928A1 (en) * 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
FI20002828A (fi) * 2000-12-22 2002-06-23 Nokia Corp Menetelmä ja järjestelmä tunnetilan ilmaisemiseksi puhelimella tapahtuvassa viestinnässä
US20060292049A1 (en) * 2003-09-04 2006-12-28 Tetsuya Nagasaka Process for producing rutile
US20050186548A1 (en) * 2004-02-25 2005-08-25 Barbara Tomlinson Multimedia interactive role play system
NO320758B1 (no) * 2004-07-23 2006-01-23 Telenor Asa Anordning og fremgangsmate for gjengivelse av audiovisuelt innhold
US7735012B2 (en) * 2004-11-04 2010-06-08 Apple Inc. Audio user interface for computing devices
US20080120342A1 (en) * 2005-04-07 2008-05-22 Iofy Corporation System and Method for Providing Data to be Used in a Presentation on a Device
US20080141180A1 (en) * 2005-04-07 2008-06-12 Iofy Corporation Apparatus and Method for Utilizing an Information Unit to Provide Navigation Features on a Device
JP4382045B2 (ja) * 2006-01-24 2009-12-09 シャープ株式会社 データ出力装置、データ出力方法、データ出力プログラム、および記録媒体
US7790974B2 (en) * 2006-05-01 2010-09-07 Microsoft Corporation Metadata-based song creation and editing
EP2179860A4 (en) 2007-08-23 2010-11-10 Tunes4Books S L METHOD AND SYSTEM FOR ADAPTING THE REPRODUCTION SPEED OF THE TEXT-ASSOCIATED AUDIO TAPE AT THE READING SPEED OF A USER
US20090191531A1 (en) 2007-12-21 2009-07-30 Joseph Saccocci Method and Apparatus for Integrating Audio and/or Video With a Book
CN102124523B (zh) 2008-07-04 2014-08-27 布克查克控股有限公司 制作并播放音带的方法和系统
US9386139B2 (en) * 2009-03-20 2016-07-05 Nokia Technologies Oy Method and apparatus for providing an emotion-based user interface
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US8527859B2 (en) * 2009-11-10 2013-09-03 Dulcetta, Inc. Dynamic audio playback of soundtracks for electronic visual works
US20110153330A1 (en) * 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8634701B2 (en) * 2009-12-04 2014-01-21 Lg Electronics Inc. Digital data reproducing apparatus and corresponding method for reproducing content based on user characteristics
US8564421B2 (en) * 2010-04-30 2013-10-22 Blackberry Limited Method and apparatus for generating an audio notification file
US8434001B2 (en) * 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item

Also Published As

Publication number Publication date
US8527859B2 (en) 2013-09-03
US20130346838A1 (en) 2013-12-26
EP2499626A1 (en) 2012-09-19
CN102687182A (zh) 2012-09-19
WO2011060106A1 (en) 2011-05-19
US20110195388A1 (en) 2011-08-11
JP2013511214A (ja) 2013-03-28

Similar Documents

Publication Publication Date Title
US8527859B2 (en) Dynamic audio playback of soundtracks for electronic visual works
US20210247954A1 (en) Audio Techniques for Music Content Generation
TWI388996B (zh) 用於控制複數個媒體玩家之瀏覽器可解釋文件與系統及其方法
US9355627B2 (en) System and method for combining a song and non-song musical content
US9142201B2 (en) Distribution of audio sheet music within an electronic book
US7394011B2 (en) Machine and process for generating music from user-specified criteria
US20080235588A1 (en) Media player playlist creation and editing within a browser interpretable document
US7945847B2 (en) Recasting search engine results as a motion picture with audio
US20090006965A1 (en) Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page
CA2639720A1 (en) Community based internet language training providing flexible content delivery
JP2019091014A (ja) マルチメディアを再生するための方法及び装置
US10694222B2 (en) Generating video content items using object assets
US11551652B1 (en) Hands-on artificial intelligence education service
US9626148B2 (en) Creating an event driven audio file
Knotts et al. AI-Lectronica: Music AI in clubs and studio production
US20110314370A1 (en) Tiered pageview generation for computing devices
Stolfi et al. Participatory musical improvisations with playsound. space
Goto OngaCREST Project: building a similarity-aware information environment for a content-symbiotic society
US20160212242A1 (en) Specification and deployment of media resources
US11740861B2 (en) Method and system for tagging and navigating through performers and other information on time-synchronized content
Muraki et al. Generation of Brass Band Animation Synchronized with the Motion of Conductor’s Hand
US9471205B1 (en) Computer-implemented method for providing a media accompaniment for segmented activities
GB2602118A (en) Generating and mixing audio arrangements
CN116434729A (zh) 音频内容的发布方法、装置、设备、存储介质及程序产品
KR100442417B1 (ko) 개념단위 오브젝트별 분기방식을 적용한 교육용 디지털 컨텐츠 및 이를 이용한 디지털 컨텐츠 처리방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application