KR20150085115A

KR20150085115A - 텍스트 데이터와 오디오 데이터 간의 맵핑 자동 생성

Info

Publication number: KR20150085115A
Application number: KR1020157017690A
Authority: KR
Inventors: 시앙 카오; 알란 씨. 칸니스트라로; 그레고리 에스. 로빈; 카세이 엠. 도허티; 멜리사 브릴리오 하지; 레이몬드 왈시
Original assignee: 애플 인크.
Priority date: 2011-06-03
Filing date: 2012-06-04
Publication date: 2015-07-22
Also published as: WO2012167276A1; US20120310649A1; KR20120135137A; CN103703431B; KR101700076B1; EP2593846A1; JP2014519058A; CN103703431A; AU2012261818B2; AU2012261818A1; US10672399B2; KR20140027421A; KR101674851B1; US20120310642A1; KR20160036077A; KR101622015B1; AU2016202974A1; AU2016202974B2; EP2593846A4; KR101324910B1

Abstract

오디오 데이터(예컨대, 오디오 북) 내의 위치들을 텍스트 데이터(예컨대, 전자책) 내의 대응하는 위치들로 맵핑하는 맵핑을 생성하는 기술을 제공한다. 맵핑이 자동으로 생성되는지 아니면 수동으로 생성되는지에 따라, 오디오 데이터와 텍스트 데이터 간의 맵핑을 이용하는 기술을 제공한다. 디지털 작품의 하나의 버전(예컨대, e-북)에 설정된 북마크가 디지털 작품의 다른 버전(예컨대, 오디오 북)의 대응하는 위치를 식별하는데 사용되는 북마크 스위칭에 맵핑을 이용할 수 있다. 대안으로, 맵핑은 사용자에 의해 선택된 텍스트에 대응하는 오디오를 재생하는데 이용될 수 있다. 대안으로, 맵핑은 재생되고 있는 텍스트에 대응하는 오디오에 응답하여 텍스트를 자동으로 강조 표시하는데 이용될 수 있다. 대안으로, 맵핑은 하나의 미디어 컨텍스트(예컨대, 오디오)에서 생성된 주석이 다른 미디어 컨텍스트(예컨대, 텍스트)에서 소모될 것임을 결정하는데 이용될 수 있다.

Description

텍스트 데이터와 오디오 데이터 간의 맵핑 자동 생성{AUTOMATICALLY CREATING A MAPPING BETWEEN TEXT DATA AND AUDIO DATA}

본 발명은 오디오 데이터를 분석하여 여기에 반영된 단어를 검출하고 이 단어를 문서 내의 단어와 비교함으로써, 텍스트 데이터와 오디오 데이터 간의 맵핑을 자동으로 생성하는 것에 관한 것이다.

배경기술

핸드헬드 전자 장치들의 비용이 감소하고 디지털 컨텐츠에 대한 요구가 커짐에 따라, 인쇄 매체 상에 한번 공표된 창조적인 작품들이 디지털 매체로서 점점 더 이용가능하게 되고 있다. 예를 들면, ("e-books"로도 알려진) 전자책들이, 전자책 리더들(또는 "e-readers")로서 알려진 특성화된 핸드헬드 전자 장치들과 함께, 점점 더 인기를 얻고 있다. 또한, 비록 전자책 리더만으로서 설계된 것은 아니지만, 태블릿 컴퓨터들 및 스마트 폰들과 같은 다른 핸드헬드 장치들이 전자책 리더들로서 동작되는 능력을 갖고 있다.

전자책들이 포맷되는 공통 표준은 EPUB 표준("electronic publication"의 약어)으로, 이 표준은 무료이고 IDPF(International Digital Publishing Forum)에 의한 공개적인 전자책 표준이다. EPUB 파일은 XHTML 1.1(또는 DTBook)을 사용하여 책의 컨텐츠를 구성한다. 스타일링 및 레이아웃은 OPS Style Sheets로 지칭되는 CSS의 서브세트를 이용하여 수행된다.

몇몇의 작품들, 특히 인기있는 작품들에 대해, 그 작품의 오디오 버전이 생성되어 있다. 예를 들면, 인기있는 개인(또는 호감있는 음성을 가진 사람)이 작품을 읽은 기록이 생성되어 있고, 온라인 스토어나 오프라인(brick and mortar) 스토어든지 간에 구매용으로 이용가능하게 되어 있다.

소비자들이 전자책(e-book)과 그 전자책의 오디오 버전(즉, "오디오 북") 모두를 구매하는 것은 드문일이 아니다. 몇몇의 경우에, 사용자는 전자책 전체를 읽은 다음 오디오 북을 듣고 싶어한다. 다른 경우에, 사용자는 그 사용자의 환경에 기초하여 그 책을 읽고 듣는 것을 바꾼다. 예를 들면, 스포츠에 참가하거나 통근 중에 운전하면서, 사용자는 그 책의 오디오 버전을 듣는 경향이 있을 것이다. 한편, 잠들기 전 소파 의자에 비스듬히 기대어 있을 때, 사용자는 그 책의 전자책 버전을 읽는 경향이 있을 것이다. 불행하게도, 그러한 변환은, 사용자가 전자책에서 중지한 곳을 기억한 다음 오디오 북의 어디에서 시작하는지를 수동으로 찾아야 하고, 그 역도 마찬가지이기 때문에, 고생스러울 수 있다. 사용자가 자신이 그만둔 지점에서 책에서 일어나는 해프닝을 명확히 기억하고 있더라도, 그러한 해프닝을 안다는 것이 그들 해프닝들에 대응하는 전자책 또는 오디오 북의 부분을 반드시 용이하게 찾게 하는 것은 아니기 때문에, 그러한 변환은 여전히 고생스러울 수 있다. 따라서, 전자책과 오디오 북 간의 변환에 매우 많은 시간을 소비할 수 있다.

명세 "EPUB Media Overlays 3.0"은 SMIL(Synchronized Multimedia Integration Language)의 사용, 패키지 다큐먼트, EPUB 스타일 시트, 및 동기화된 텍스트 및 오디오 출판물들을 표현하기 위한 EPUB 컨텐츠 다큐먼트를 정의한다. 출판물의 사전 기록된 나레이션은 각각 텍스트의 부분에 대응하는 일련의 오디오 클립들로 표현될 수 있다. 사전 기록된 나레이션을 구성하는 일련의 오디오 클립들에서 각각의 싱글 오디오 클립은 전형적으로 단일 어구 또는 문단을 나타내지만, 다큐먼트의 다른 클립들에 대한 또는 텍스트에 대한 순서를 추론하는 것은 아니다. 미디어 오버레이(Media Overlays)는 구성된 오디오 나레이션을 SMIL 마크업을 이용하여 EPUB 컨텐츠 다큐먼트 내의 대응하는 텍스트에 관련시킴으로써 동기화 문제를 해결한다. 미디어 오버레이는 이들 클립의 재생 시퀀스가 정의되게 하는 SMIL 3.0의 간략화된 서브세트이다.

불행하게도, 미디어 오버레이 파일들의 생성은 대규모의 수동적 프로세스이다. 결과적으로, 작품의 오디오 버전과 텍스트 버전 간의 맵핑의 입도(granularity)이 매우 거칠게 된다. 예를 들면, 미디어 오버레이 파일은 전자책 내의 각각의 문단의 시작을 그 전자책의 오디오 버전에서의 대응하는 위치와 관계시킬 수 있다. 특히 소설들에 대한 미디어 오버레이 파일들이 단어 대 단어와 같은 임의의 보다 정교한 레벨의 입도의 맵핑을 포함하지 않는 이유는 그러한 매우 정교한 미디어 오버레이 파일을 작성하는 것은 무수한 시간의 인간의 노동이 들어가기 때문이다.

일부 실시예에 따르면, 텍스트 버전이 존재하는 작품(work)의 오디오 버전을 반영한 오디오 데이터를 수신하는 단계와, 오디오 데이터의 부분에 대한 텍스트를 생성하기 위해 오디오 데이터의 음성-텍스트(speech-to-text) 분석을 수행하는 단계와, 오디오 데이터의 부분에 대해 생성된 텍스트에 기초하여, 오디오 데이터에서의 복수의 오디오 위치와 텍스트 버전의 작품에서의 대응하는 복수의 텍스트 위치 간에 맵핑을 생성하는 단계를 포함하는 방법이 제공된다. 이 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예에서, 오디오 데이터의 부분에 대한 텍스트를 생성하는 단계는 작품의 텍스트 컨텍스트(context)에 적어도 부분적으로 기초하여 오디오 데이터의 부분에 대한 텍스트를 생성하는 단계를 포함한다. 일부 실시예에서, 작품의 텍스트 컨텍스트에 적어도 부분적으로 기초하여 오디오 데이터의 부분에 대한 텍스트를 생성하는 단계는, 텍스트 버전의 작품에 사용되는 문법의 하나 이상의 규칙들에 적어도 부분적으로 기초하여 텍스트를 생성하는 단계를 포함한다. 일부 실시예에서, 작품의 텍스트 컨텍스트에 적어도 부분적으로 기초하여 오디오 데이터의 부분에 대한 텍스트를 생성하는 단계는, 단어가 텍스트 버전의 작품 또는 그 서브세트 내에 존재하는지에 기초하여 어느 단어 부분이 변환(translate)될 수 있는지를 제한하는 단계를 포함한다. 일부 실시예에서, 단어가 텍스트 버전의 작품 내에 존재하는 것에 기초하여 어느 단어 부분이 변환될 수 있는지를 제한하는 단계는, 오디오 데이터의 소정 부분에 대하여, 이 소정 부분에 대응하는 텍스트 버전의 작품의 서브섹션을 식별하는 단계와, 단어를 텍스트 버전의 작품의 서브섹션에서의 단어만으로 제한하는 단계를 포함한다. 일부 실시예에서, 텍스트 버전의 작품의 서브섹션을 식별하는 단계는, 오디오 데이터에서 현재 텍스트 위치를 음성-텍스트 분석의 현재 오디오 위치에 대응하는 텍스트 버전의 작품에서 유지하는 단계를 포함하며, 텍스트 버전의 작품의 서브섹션은 현재 텍스트 위치와 연관된 섹션이다.

일부 실시예에서, 부분들은 개별 단어에 대응하는 부분들을 포함하며, 맵핑은 개별 단어에 대응하는 부분들의 위치를 텍스트 버전의 작품에서의 개별 단어에 맵핑한다. 일부 실시예에서, 부분들은 개별 문장(sentence)에 대응하는 부분들을 포함하며, 맵핑은 개별 문장에 대응하는 부분들의 위치를 텍스트 버전의 작품에서의 개별 문장에 맵핑한다. 일부 실시예에서, 부분들은 고정량의 데이터에 대응하는 부분들을 포함하며, 맵핑은 고정량의 데이터에 대응하는 부분들의 위치를 텍스트 버전의 작품에서의 해당 위치에 맵핑한다.

일부 실시예에서, 맵핑을 생성하는 단계는, (1) 오디오 데이터에 앵커(anchor)를 삽입하는 단계, (2) 텍스트 버전의 작품에 앵커를 삽입하는 단계, 또는 (3) 오디오 데이터 또는 텍스트 버전의 작품과 연관돼서 저장되는 미디어 오버레이(media overlay)에서의 맵핑을 저장하는 단계를 포함한다.

일부 실시예에서, 복수의 텍스트 위치들 중 하나 이상의 텍스트 위치들 각각은 텍스트 버전의 작품에서의 상대 위치를 가리킨다. 일부 실시예에서, 복수의 텍스트 위치들 중 하나의 텍스트 위치는 텍스트 버전의 작품에서의 상대 위치를 가리키며, 복수의 텍스트 위치들 중 다른 텍스트 위치는 상대 위치로부터의 절대 위치를 가리킨다. 일부 실시예에서, 복수의 텍스트 위치들 중 하나 이상의 텍스트 위치들 각각은 텍스트 버전의 작품 내의 앵커를 가리킨다.

일부 실시예에 따르면, 텍스트 버전의 작품(textual version)을 수신하는 단계, 텍스트 버전의 텍스트-음성 분석을 수행하여 제1 오디오 데이터를 생성하는 단계, 제1 오디오 데이터 및 텍스트 버전에 기초하여 제1 오디오 데이터 내의 제1의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 복수의 텍스트 위치 간의 제1 맵핑을 생성하는 단계, 텍스트 버전이 존재하는 작품의 오디오 버전을 반영한 제2 오디오 데이터를 수신하는 단계, (1) 제1 오디오 데이터와 제2 오디오 데이터의 비교 및 (2) 제1 맵핑에 기초하여, 제2 오디오 데이터 내의 제2의 복수의 오디오 위치와 텍스트 버전의 작품 내의 복수의 텍스트 위치 간의 제2 맵핑을 생성하는 단계를 포함하는 방법이 제공된다. 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예에 따르면, 오디오 입력을 수신하는 단계, 오디오 입력의 음성-텍스트 분석을 수행하여 오디오 입력의 부분들에 대한 텍스트를 생성하는 단계, 오디오 입력의 부분들에 대해 생성된 텍스트가 현재 디스플레이되는 텍스트와 일치하는지 여부를 판정하는 단계, 텍스트가 현재 디스플레이되는 텍스트와 일치한다고 결정하는 것에 응답하여, 현재 디스플레이되는 텍스트가 강조 표시되게 하는 단계를 포함하는 방법이 제공된다. 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예에 따르면, 텍스트 버전이 존재하는 작품의 오디오 버전을 반영한 오디오 데이터를 수신하도록 구성된 오디오 데이터 수신 유닛을 포함하는 전자 디바이스가 제공된다. 전자 디바이스는 오디오 데이터 수신 유닛에 연결되는 프로세싱 유닛도 포함한다. 프로세싱 유닛은 오디오 데이터의 음성-텍스트 분석을 수행하여 오디오 데이터의 부분들에 대한 텍스트를 생성하고, 오디오 데이터의 부분들에 대해 생성된 텍스트에 기초하여 오디오 데이터 내의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 복수의 텍스트 위치 간의 맵핑을 생성하도록 구성된다.

일부 실시예에 따르면, 텍스트 버전의 작품을 수신하도록 구성된 텍스트 수신 유닛을 포함하는 전자 디바이스가 제공된다. 전자 디바이스는 텍스트 수신 유닛에 연결되는 프로세싱 유닛도 포함하며, 프로세싱 유닛은 텍스트 버전의 텍스트-음성 분석을 수행하여 제1 오디오 데이터를 생성하고, 제1 오디오 데이터와 텍스트 버전에 기초하여 제1 오디오 데이터 내의 제1의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 복수의 텍스트 위치 간의 제1 맵핑을 생성하도록 구성된다. 전자 디바이스는 텍스트 버전이 존재하는 작품의 오디오 버전을 반영하는 제2 오디오 데이터를 수신하도록 구성된 오디오 데이터 수신 유닛도 포함한다. 프로세싱 유닛은 또한 (1) 제1 오디오 데이터와 제2 오디오 데이터의 비교, 및 (2) 제1 맵핑에 기초하여 제2 오디오 데이터 내의 제2의 복수의 오디오 위치와 텍스트 버전의 작품 내의 복수의 텍스트 위치 간의 제2 맵핑을 생성하도록 구성된다.

일부 실시예에 따르면, 오디오 입력을 수신하도록 구성된 오디오 수신 유닛을 포함하는 전자 디바이스가 제공된다. 전자 디바이스는 오디오 입력 유닛에 연결되는 프로세싱 유닛도 포함한다. 프로세싱 유닛은 오디오 입력의 음성-텍스트 분석을 수행하여 오디오 입력의 부분들에 대한 텍스트를 생성하며, 오디오 입력의 부분들에 대해 생성된 텍스트가 현재 디스플레이되는 텍스트와 일치하는지 여부를 판정하며, 텍스트가 현재 디스플레이되는 텍스트와 일치한다고 결정한 것에 응답하여 현재 디스플레이되는 텍스트가 강조 표시되게 하도록 구성된다.

일부 실시예에 따르면, 텍스트 버전의 작품 내의 특정 위치를 나타내는 위치 데이터를 획득하는 단계, 작품의 오디오 버전 내의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 복수의 텍스트 위치 간의 맵핑을 검사하는 단계, 복수의 텍스트 위치 중에서 특정 위치에 대응하는 특정 텍스트 위치를 결정하는 단계, 특정 텍스트 위치에 기초하여 복수의 오디오 위치 중에서 특정 텍스트 위치에 대응하는 특정 오디오 위치를 결정하는 단계를 포함하는 방법이 제공된다. 상기 방법은, 미디어 플레이어가 특정 오디오 위치를 오디오 데이터의 현재 재생 위치로서 구축하게 야기하도록, 특정 텍스트 위치에 기초하여 결정된 특정 오디오 위치를 미디어 플레이어에 제공하는 단계를 포함한다. 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예에서, 획득하는 단계는 서버가 네트워크를 통해 제1 디바이스로부터 위치 데이터를 수신하는 단계를 포함하며, 검사하는 단계 및 제공하는 단계는 서버에 의해 수행되며, 제공하는 단계는 서버가 미디어 플레이어를 실행하는 제2 디바이스에 특정 오디오 위치를 송신하는 단계를 포함한다. 일부 실시예에서, 제2 디바이스와 제1 디바이스는 동일한 디바이스이다. 일부 실시예에서, 획득하는 단계, 검사하는 단계 및 제공하는 단계는 텍스트 버전의 작품을 디스플레이하도록 구성되며 미디어 플레이어를 실행하는 컴퓨팅 디바이스에 의해 수행된다. 일부 실시예에서, 상기 방법은 텍스트 버전의 작품을 디스플레이하도록 구성된 디바이스에서, 디바이스의 사용자로부터의 입력 없이 위치 데이터를 결정하는 단계를 더 포함한다.

일부 실시예에서, 상기 방법은 사용자로부터 입력을 수신하는 단계, 및 입력의 수신에 응답하여 입력에 기초하여 위치 데이터를 결정하는 단계를 더 포함한다. 일부 실시예에서, 특정 오디오 위치를 미디어 플레이어에 제공하는 단계는, 특정 오디오 위치를 미디어 플레이어에 제공하여 미디어 플레이어가 현재 재생 위치에서 시작하는 오디오 데이터를 처리하도록 야기하는 단계 - 이는 미디어 플레이어가 처리된 오디오 데이터로부터 오디오를 생성하게 함 - 를 포함하며, 미디어 플레이어가 오디오 데이터를 처리하게 하도록 야기하는 단계는 입력을 수신하는 것에 응답하여 수행된다.

일부 실시예에서, 입력은 텍스트 버전의 작품 내에서 다수의 단어들을 선택하며, 특정 위치는 제1 특정 위치이고, 위치 데이터는 또한 텍스트 버전의 작품 내에서 제1 특정 위치와는 상이한 제2 특정 위치를 나타내며, 검사하는 단계는 복수의 텍스트 위치 중에서 제2 특정 위치에 대응하는 제2 특정 텍스트 위치를 결정하고, 제2 특정 텍스트 위치에 기초하여 복수의 오디오 위치 중에서 제2 특정 텍스트 위치에 대응하는 제2 특정 오디오 위치를 결정하기 위해 맵핑을 검사하는 단계를 더 포함하며, 특정 오디오 위치를 미디어 플레이어에 제공하는 단계는 제2 특정 오디오 위치를 미디어 플레이어에 제공하여 미디어 플레이어로 하여금 현재 재생 위치가 제2 특정 오디오 위치 또는 그 부근에 도달했을 때 오디오 데이터를 처리하도록 야기하는 단계를 포함한다.

일부 실시예에서, 상기 방법은 사용자로부터의 입력에 기초하는 주석 데이터를 획득하는 단계, 특정 위치와 연관된 주석 데이터를 저장하는 단계, 및 주석 데이터에 관한 정보가 디스플레이되게 하는 단계를 더 포함한다. 일부 실시예에서, 특정 오디오 위치에 관한 정보 및 주석 데이터가 디스플레이되게 하는 단계는, 오디오 데이터의 현재 재생 위치가 특정 오디오 위치 또는 그 부근에 있는 때를 판정하는 단계, 및 오디오 데이터의 현재 재생 위치가 특정 오디오 위치 또는 그 부근에 있다고 결정한 것에 응답하여 주석 데이터에 관한 정보가 디스플레이 되게 하는 단계를 포함한다.

일부 실시예에서, 주석 데이터는 텍스트 데이터를 포함하며, 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는 텍스트 데이터를 디스플레이하는 단계를 포함한다. 일부 실시예에서, 주석 데이터는 음성 데이터를 포함하며, 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는 음성 데이터가 오디오를 생성하도록 처리하는 단계를 포함한다.

일부 실시예에 따르면, 텍스트 버전의 작품 내의 특정 위치를 나타내는 치 데이터를 획득하도록 구성된 위치 데이터 획득 유닛을 포함하는 전자 장치가 제공된다. 전자 장치는 위치 데이터 획득 유닛에 연결되는 프로세싱 유닛도 포함한다. 프로세싱 유닛은 작품의 오디오 버전 내의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 텍스트 위치 간의 맵핑을 검사하고, 복수의 텍스트 위치 중에서 특정 위치에 대응하는 특정 텍스트 위치를 결정하며, 특정 텍스트 위치에 기초하여 복수의 오디오 위치 중에서 특정 텍스트 위치에 대응하는 특정 오디오 위치를 결정하며, 특정 텍스트 위치에 기초하여 결정된 특정 오디오 위치를 미디어 플레이어에 제공하여 미디어 플레이어로 하여금 특정 오디오 위치를 오디오 데이터의 현재 재생 위치로서 구축하게 하도록 구성된다.

일부 실시예에 따르면, 오디오 데이터 내의 특정 위치를 나타내는 위치 데이터를 획득하는 단계, 오디오 데이터 내의 복수의 오디오 위치와 텍스트 버전의 작품 내의 대응하는 복수의 텍스트 위치 간의 맵핑을 검사하는 단계와, 복수의 오디오 위치 중에서 특정 위치에 대응하는 특정 오디오 위치를 결정하는 단계, 특정 오디오 위치에 기반하여 복수의 텍스트 위치 중에서 특정 오디오 위치에 대응하는 특정 텍스트 위치를 결정하는 단계, 및 미디어 플레이어가 특정 텍스트 위치에 관한 정보를 디스플레이하도록 야기하는 단계를 포함하는 방법이 제공된다. 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예에서, 획득하는 단계는 서버가 네트워크를 통해 제1 디바이스로부터 위치 데이터를 수신하는 단계를 포함하며, 검사하는 단계 및 야기하는 단계는 서버에 의해 수행되며, 야기하는 단계는, 서버가 특정 텍스트 위치를 미디어 플레이어를 실행하는 제2 디바이스에 송신하는 단계를 포함한다. 일부 실시예에서, 제2 디바이스 및 제1 디바이스는 동일한 디바이스이다. 일부 실시예에서, 획득하는 단계, 검사하는 단계 및 야기하는 단계는 텍스트 버전의 작품을 디스플레이하고 미디어 플레이어를 실행하는 컴퓨팅 디바이스에 의해 수행된다. 일부 실시예에서, 상기 방법은 오디오 데이터를 처리하도록 구성된 디바이스에서 디바이스의 사용자로부터의 입력 없이 위치 데이터를 결정하는 단계를 포함한다.

일부 실시예에서, 상기 방법은 사용자로부터 입력을 수신하는 단계, 및 입력의 수신에 응답하여 입력에 기초하여 위치 데이터를 결정하는 단계를 더 포함한다. 일부 실시예들에서, 야기하는 단계는 미디어 플레이어가 특정한 텍스트 위치에 대응하는 텍스트 버전의 작품의 부분을 디스플레이하도록 야기하는 단계; 및 미디어 플레이어가 입력을 수신하는 것에 응답하여 수행되는 텍스트 버전의 작품의 부분을 디스플레이하도록 야기하는 단계를 포함한다.

일부 실시예들에서, 입력은 오디오 데이터의 세그먼트를 선택하고, 특정된 위치는 제1 특정된 위치이고, 위치 데이터는 오디오 데이터 내에서 제1 특정된 위치와는 상이한 제2 특정된 위치를 또한 나타내고, 검사하는 단계는, 복수의 오디오 위치 중에서 제2 특정된 위치에 대응하는 제2 특정한 오디오 위치를 결정하고, 제2 특정한 오디오 위치에 기반하여 복수의 텍스트 위치 중에서 제2 특정한 오디오 위치에 대응하는 제2 특정한 텍스트 위치를 결정하기 위해 맵핑을 검사하는 단계를 더 포함하며, 미디어 플레이어가 특정한 텍스트 위치에 관한 정보를 디스플레이하도록 야기하는 단계는 미디어 플레이어가 제2 특정한 텍스트 위치에 관한 정보를 디스플레이하도록 야기하는 단계를 더 포함한다.

일부 실시예들에서, 특정된 위치는 오디오 데이터에서 현재의 재생 위치에 대응하고, 야기하는 단계는 특정된 위치에서의 오디오 데이터가 처리되어 오디오가 생성됨에 따라 수행되며, 야기하는 단계는 제2 미디어 플레이어가 특정한 텍스트 위치에서 또는 그 근방에서 텍스트 버전의 작품 내의 텍스트를 강조 표시하도록 야기하는 단계를 포함한다.

일부 실시예들에서, 이 방법은 사용자로부터의 입력에 기반한 주석 데이터를 획득하는 단계; 특정된 위치에 연관하여 주석 데이터를 저장하는 단계; 및 주석 데이터에 관한 정보가 디스플레이되도록 야기하는 단계를 더 포함한다. 몇몇 실시예들에서, 주석 데이터에 관한 정보가 디스플레이되도록 야기하는 단계는 특정한 텍스트 위치에 대응하는 텍스트 버전의 작품의 부분이 디스플레이되는 때를 결정하는 단계; 및 특정한 텍스트 위치에 대응하는 텍스트 버전의 작품의 부분이 디스플레이된다고 결정하는 것에 응답하여 주석 데이터에 관한 정보가 디스플레이되도록 야기하는 단계를 포함한다.

몇몇 실시예들에서, 주석 데이터는 텍스트 데이터를 포함하며, 주석 데이터에 관한 정보가 디스플레이되도록 야기하는 단계는 텍스트 데이터가 디스플레이되도록 야기하는 단계를 포함한다. 몇몇 실시예들에서, 주석 데이터는 음성 데이터를 포함하며, 주석 데이터에 관한 정보가 디스플레이되도록 야기하는 단계는 음성 데이터가 오디오를 생성하도록 처리되게 하는 단계를 포함한다.

일부 실시예들에 따르면, 작품의 오디오 버전의 재생 동안에, 오디오 버전 내에서 특정된 위치를 나타내는 위치 데이터를 획득하고, 또한 특정된 위치에 기반하여 오디오 버전의 재생을 일시정지할 때를 나타내는 일시정지 데이터와 연관되는 특정한 텍스트 위치를 텍스트 버전의 작품에서 결정하는 단계; 및 특정한 텍스트 위치가 일시정지 데이터와 연관된다고 결정하는 것에 응답하여 오디오 버전의 재생을 일시정지시키는 단계를 포함하는 방법이 제공된다. 이 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예들에서, 일시정지 데이터는 텍스트 버전의 작품 내에 있다. 일부 실시예들에서, 특정한 텍스트 위치를 결정하는 단계는, 복수의 오디오 위치 중에서 특정된 위치에 대응하는 특정한 오디오 위치를 결정하고, 특정한 오디오 위치에 기반하여 복수의 텍스트 위치 중에서 특정한 오디오 위치에 대응하는 특정한 텍스트 위치를 결정하기 위해 오디오 데이터에서의 복수의 오디오 위치와 텍스트 버전의 작품에서의 대응하는 복수의 텍스트 위치 간의 맵핑을 검사하는 단계를 포함한다.

일부 실시예들에서, 일시정지 데이터는 텍스트 버전의 작품에 반영되는 페이지의 끝에 대응한다. 몇몇 실시예들에서, 일시정지 데이터는 텍스트 버전의 작품 내에서 텍스트를 포함하지 않는 픽처에 바로 앞선 위치에 대응한다.

일부 실시예들에서, 이 방법은 사용자 입력을 수신하는 것에 응답하여 오디오 버전의 재생을 계속하는 단계를 더 포함한다. 일부 실시예들에서, 이 방법은 오디오 버전의 재생이 일시정지된 이후의 특정한 시간량의 경과에 응답하여 오디오 버전의 재생을 계속하는 단계를 더 포함한다.

일부 실시예들에 따르면, 작품의 오디오 버전의 재생 동안에, 오디오 버전 내에서 특정된 위치를 나타내는 위치 데이터를 획득하고, 또한 특정된 위치에 기반하여 텍스트 버전의 작품에 반영되는 제1 페이지의 끝을 나타내는 페이지 끝 데이터와 연관되는 특정한 텍스트 위치를 텍스트 버전의 작품에서 결정하는 단계; 및 특정한 텍스트 위치가 페이지 끝 데이터와 연관된다고 결정하는 것에 응답하여, 제1 페이지가 디스플레이되는 것을 중지시키도록 자동으로 야기하고 또한 제1 페이지에 후속하는 제2 페이지가 디스플레이되도록 자동으로 야기하는 단계를 포함하는 방법이 제공된다. 이 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예들에서, 이 방법은, 복수의 오디오 위치 중에서 특정된 위치에 대응하는 특정한 오디오 위치를 결정하고, 특정한 오디오 위치에 기반하여 복수의 텍스트 위치 중에서 특정한 오디오 위치에 대응하는 특정한 텍스트 위치를 결정하기 위해 오디오 데이터에서의 복수의 오디오 위치와 텍스트 버전의 작품에서의 대응하는 복수의 텍스트 위치 간의 맵핑을 검사하는 단계를 더 포함한다.

일부 실시예들에 따르면, 오디오 데이터 내에서 특정된 위치를 나타내는 위치 데이터를 획득하도록 구성된 위치 획득 유닛을 포함하는 전자 디바이스가 제공된다. 이 전자 디바이스는 위치 획득 유닛에 결합되는 프로세싱 유닛을 또한 포함한다. 프로세싱 유닛은, 복수의 오디오 위치 중에서 특정된 위치에 대응하는 특정한 오디오 위치를 결정하고, 또한 특정한 오디오 위치에 기반하여 복수의 텍스트 위치 중에서 특정한 오디오 위치에 대응하는 특정한 텍스트 위치를 결정하기 위해 오디오 데이터에서의 복수의 오디오 위치와 텍스트 버전의 작품에서의 대응하는 복수의 텍스트 위치 간의 맵핑을 검사하며, 미디어 플레이어가 특정한 텍스트 위치에 관한 정보를 디스플레이하게 야기하도록 구성된다.

일부 실시예들에 따르면, 작품의 오디오 버전의 재생 동안에 오디오 버전 내에서 특정된 위치를 나타내는 위치 데이터를 획득하도록 구성된 위치 획득 유닛을 포함하는 전자 디바이스가 제공된다. 이 전자 디바이스는, 위치 획득 유닛에 결합되는 프로세싱 유닛을 또한 포함하는데, 이 프로세싱 유닛은, 작품의 오디오 버전의 재생 동안에, 특정된 위치에 기반하여 텍스트 버전의 작품에 반영되는 제1 페이지의 끝을 나타내는 페이지 끝 데이터와 연관되는 특정한 텍스트 위치를 텍스트 버전의 작품에서 결정하고; 특정한 텍스트 위치가 페이지 끝 데이터와 연관된다고 결정하는 것에 응답하여, 제1 페이지가 디스플레이되는 것을 중지시키도록 자동으로 야기하고 또한 제1 페이지에 후속하는 제2 페이지가 디스플레이되도록 야기하도록 구성된다.

일부 실시예들에 따르면, 작품의 제1 버전이 프로세싱되는 동안, 사용자로부터의 입력에 기초하는 주석 데이터를 획득하는 단계; 상기 작품과 상기 주석 데이터를 연관시키는 연관 데이터를 저장하는 단계; 및 상기 작품의 제2 버전이 프로세싱되는 동안, 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계를 포함하는 방법이 제공되며, 상기 제2 버전은 상기 제1 버전과 상이하고, 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예들에서, 획득하는 단계는 상기 작품의 상기 제1 버전 내의 특정된 위치를 나타내는 위치 데이터를 결정하는 단계를 포함하고; 저장하는 단계는 상기 작품과 연관하여 상기 위치 데이터를 저장하는 단계를 포함하고; 상기 특정된 위치는 상기 작품의 제2 버전 내의 특정 위치에 대응하고; 디스플레이되게 하는 단계는, 상기 주석 데이터에 관한 정보가 상기 제2 버전 내의 상기 특정 위치와 연관하여 디스플레이되게 하는 단계를 포함한다.

일부 실시예들에서, 상기 제1 버전은 상기 작품의 오디오 버전이고, 상기 제2 버전은 상기 작품의 텍스트 버전이며; 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는, 상기 특정 위치에 대응하는 상기 작품의 텍스트 버전의 일부분이 디스플레이될 때를 결정하는 단계; 및 상기 특정 위치에 대응하는 상기 작품의 텍스트 버전의 일부분이 디스플레이된다고 결정한 것에 응답하여, 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계를 포함한다. 일부 실시예들에서, 상기 제1 버전은 상기 작품의 텍스트 버전이고, 상기 제2 버전은 상기 작품의 오디오 버전이며; 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는, 상기 특정 위치에 대응하는 상기 작품의 오디오 버전의 일부분이 플레이될 때를 결정하는 단계; 및 상기 특정 위치에 대응하는 상기 작품의 텍스트 버전의 일부분이 플레이된다고 결정한 것에 응답하여, 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계를 포함한다.

일부 실시예들에서, 상기 주석 데이터는 텍스트 데이터를 포함하고; 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는 상기 텍스트 데이터가 디스플레이되게 하는 단계를 포함한다. 일부 실시예들에서, 상기 주석 데이터는 음성 데이터를 포함하고; 상기 주석 데이터에 관한 정보가 디스플레이되게 하는 단계는 상기 음성 데이터가 오디오를 생성하도록 처리되게 하는 단계를 포함한다.

일부 실시예들에 따르면, 작품의 제1 버전이 프로세싱되는 동안, 사용자로부터의 입력에 기초하는 주석 데이터를 획득하도록 구성되는 주석 획득 유닛; 및 상기 주석 획득 유닛과 연관 데이터 저장 유닛에 연결되는 프로세싱 유닛을 포함하는 전자 디바이스가 제공되고, 상기 프로세싱 유닛은, 상기 작품과 상기 주석 데이터를 연관시키는 연관 데이터가 저장되게 하고; 상기 작품의 제2 버전이 프로세싱되는 동안, 상기 주석 데이터에 관한 정보가 디스플레이되게 하도록 구성되고, 상기 제2 버전은 상기 제1 버전과 상이하다.

일부 실시예들에 따르면, 작품의 제1 버전 내에 제1 북마크를 구축하는 데이터를 수신하는 단계를 포함하는 방법이 제공된다. 이 방법은, 상기 작품의 상기 제1 버전 내의 복수의 제1 위치들과 상기 작품의 제2 버전 내의 대응하는 복수의 제2 위치들 사이의 맵핑을 검사하여: 상기 복수의 제1 위치들 중에서 상기 제1 북마크에 대응하는 특정 제1 위치를 결정하고, 상기 특정 제1 위치에 기초하여, 상기 복수의 제2 위치들 중에서 상기 특정 제1 위치에 대응하는 특정 제2 위치를 결정하는 단계를 더 포함하고, 상기 작품의 상기 제1 버전은 상기 작품의 상기 제2 버전과 상이하다. 이 방법은, 상기 작품의 상기 제2 버전 내의 제2 북마크로서 상기 특정 제2 위치를 구축하는 데이터가 저장되게 하는 단계를 더 포함하고, 상기 방법은 하나 이상의 컴퓨팅 디바이스에 의해 수행된다.

일부 실시예들에서, 수신하는 단계는 서버가 네트워크를 통해 제1 디바이스로부터 입력을 수신하는 단계를 포함하고; 검사하는 단계는 상기 서버에 의해 수행되고; 저장되게 하는 단계는 상기 서버가 제2 디바이스에 상기 특정 제2 위치를 전송하는 단계를 포함한다. 일부 실시예들에서, 상기 제1 디바이스와 상기 제2 디바이스는 상이한 디바이스들이다. 일부 실시예들에서, 상기 작품의 상기 제1 버전은 상기 작품의 오디오 버전 또는 상기 작품의 텍스트 버전 중 하나이고, 상기 작품의 상기 제2 버전은 상기 오디오 버전 또는 상기 텍스트 버전 중 다른 하나이다.

일부 실시예들에 따르면, 작품의 제1 버전 내에 제1 북마크를 구축하는 데이터를 수신하도록 구성된 데이터 수신 유닛을 포함하는 전자 디바이스가 제공된다. 전자 디바이스는 또한 상기 데이터 수신 유닛에 연결된 프로세싱 유닛을 포함하고, 상기 프로세싱 유닛은, 상기 작품의 상기 제1 버전 내의 복수의 제1 위치들과 상기 작품의 제2 버전 내의 대응하는 복수의 제2 위치들 사이의 맵핑을 검사하여: 상기 복수의 제1 위치들 중에서 상기 제1 북마크에 대응하는 특정 제1 위치를 결정하고, 상기 특정 제1 위치에 기초하여, 상기 복수의 제2 위치들 중에서 상기 특정 제1 위치에 대응하는 특정 제2 위치를 결정하도록 구성되고, 상기 작품의 상기 제1 버전은 상기 작품의 상기 제2 버전과 상이하다. 상기 프로세싱 유닛은 또한 상기 작품의 상기 제2 버전 내의 제2 북마크로서 상기 특정 제2 위치를 구축하는 데이터가 저장되게 하도록 구성된다.

일부 실시예들에 따르면, 작품의 텍스트의 일부분이 디바이스에 의해 디스플레이되게 하는 단계; 상기 텍스트의 일부분이 디스플레이되는 동안: 상기 디바이스에서, 사용자로부터 오디오 입력을 수신하는 단계를 포함하는 방법이 제공된다. 이 방법은 또한 상기 오디오 입력을 수신하는 것에 응답하여: 상기 오디오 입력을 분석하여 하나 이상의 단어들을 식별하는 단계; 상기 하나 이상의 단어들이 상기 텍스트의 일부분에 반영되어 있는지를 결정하는 단계; 및 상기 하나 이상의 단어들이 상기 텍스트의 일부분에 반영되어 있다고 결정한 것에 응답하여, 시각적 표시가 상기 디바이스에 의해 디스플레이되게 하는 단계를 포함한다. 일부 실시예들에서, 상기 시각적 표시가 디스플레이되게 하는 단계는, 상기 하나 이상의 단어들에 대응하는 텍스트 데이터가 강조 표시되게 하는 단계를 포함한다.

일부 실시예들에 따르면, 작품의 텍스트의 일부분이 디바이스에 의해 디스플레이되게 하도록 구성되는 프로세싱 유닛; 및 상기 프로세싱 유닛에 연결되고, 상기 디바이스에서, 사용자로부터 오디오 입력을 수신하도록 구성되는 오디오 수신 유닛을 포함하는 전자 디바이스가 제공된다. 상기 프로세싱 유닛은 또한 상기 오디오 수신 유닛에서 상기 오디오 입력을 수신하는 것에 응답하여: 상기 오디오 입력을 분석하여 하나 이상의 단어들을 식별하고; 상기 하나 이상의 단어들이 상기 텍스트의 일부분에 반영되어 있는지를 결정하고; 상기 하나 이상의 단어들이 상기 텍스트의 일부분에 반영되어 있다고 결정한 것에 응답하여, 시각적 표시가 상기 디바이스에 의해 디스플레이되게 하도록 구성된다.

일부 실시예들에 따르면, 컴퓨터 판독가능 저장 매체가 제공되는데, 이 컴퓨터 판독가능 저장 매체는 전자 디바이스의 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하며, 이 하나 이상의 프로그램은 전술한 방법들 중 어느 하나를 수행하기 위한 명령어들을 포함한다. 일부 실시예들에 따르면, 전술한 방법들 중 어느 하나를 수행하기 위한 수단을 포함하는 전자 디바이스가 제공된다. 일부 실시예들에서는, 하나 이상의 프로세서, 및 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 전자 디바이스가 제공되며, 하나 이상의 프로그램은 전술한 방법들 중 어느 하나를 수행하기 위한 명령어들을 포함한다. 일부 실시예들에서는, 전자 디바이스에서 이용하기 위한 정보 프로세싱 장치가 제공되는데, 이 정보 프로세싱 장치는 전술한 방법들 중 어느 하나를 수행하기 위한 수단을 포함한다.

본 섹션에 설명된 접근법은, 추구될 수 있지만, 반드시 이전에 인식되거나 추구되어야 하는 것은 아닌 접근법이다. 따라서, 달리 지시되지 않는다면, 본 섹션에서 설명되는 어떠한 접근법들도 본 섹션에서의 단지 포괄에 의해 종래 기술로서 한정하는 것으로 가정되어서는 안 된다.

도 1은 본 발명의 일 실시예에 따라, 텍스트 데이터와 오디오 데이터 간의 맵핑을 자동으로 생성하기 위한 프로세스를 도시하는 흐름도.
도 2는 본 발명의 일 실시예에 따라, 텍스트 데이터와 오디오 데이터 간의 맵핑 생성시 오디오-텍스트 상관자를 수반하는 프로세스를 도시하는 블록도.
도 3은 본 발명의 일 실시예에 따라, 이러한 시나리오들 중 하나 이상에서 맵핑을 이용하기 위한 프로세스를 도시하는 흐름도.
도 4는 본 발명의 일 실시예에 따라, 본 명세서에서 설명된 프로세스들 중 몇몇을 구현하는데 이용될 수 있는 예시적인 시스템(400)을 도시하는 블록도.
도 5a 및 도 5b는 본 발명의 일 실시예에 따라, 북마크 스위칭을 위한 프로세스들을 도시하는 흐름도.
도 6은 본 발명의 일 실시예에 따라, 작품의 오디오 버전이 재생되면서 텍스트 버전의 작품으로부터 텍스트가 강조 표시되도록 야기하기 위한 프로세스를 도시하는 흐름도.
도 7은 본 발명의 일 실시예에 따라, 사용자로부터의 오디오 입력에 응답하여 디스플레이된 텍스트를 강조 표시하는 프로세스를 도시하는 흐름도.
도 8a 및 도 8b는 본 발명의 일 실시예에 따라, 하나의 미디어 컨텍스트로부터 다른 미디어 컨텍스트로 주석을 전달하기 위한 프로세스들을 도시하는 흐름도.
도 9는 본 발명의 일 실시예가 구현될 수 있는 컴퓨터 시스템을 나타내는 블록도.
도 10 내지 도 18은 몇몇 실시예들에 따른 전자 디바이스들의 기능 블록도.

다음 기재에서, 설명을 위해, 본 발명의 완전한 이해를 제공하도록 다수의 특정 상세가 개시된다. 그러나, 본 발명은 이들 특정 상세 없이도 실시될 수 있다는 것은 자명하다. 다른 예에서, 공지의 구조 및 장치들은 본 발명을 불필요하게 모호하게 하는 것을 피하기 위해 블록도 형태로 도시된다.

오디오-텍스트 맵핑의 자동 생성의 개요

하나의 접근법에 따르면, 맵핑이 자동으로 생성되고, 여기서 맵핑은 오디오 버전의 작품(예컨대, 오디오 북)내의 위치들을 텍스트 버전의 작품(예컨대, 전자책)내의 대응하는 위치에 맵핑한다. 오디오 버전내에 반영된 단어를 식별하기 위해 오디오 버전상에서 음성-텍스트 분석을 수행하여 맵핑이 생성된다. 식별된 워드들은 텍스트 버전의 작품의 대응하는 단어들과 매칭된다. 맵핑은 식별된 단어들의 (오디오 버전내의) 위치들을 텍스트 버전의 작품내의 위치들과 연관시키고, 여기서 식별된 단어들이 발견된다.

오디오 버전 포맷들

오디오 데이터는, 책, 웹 페이지, 팜플렛, 전단지(flyer) 등과 같은 텍스트 버전의 작품의 텍스트의 오디오 리딩을 반영한다. 오디오 데이터는 하나 이상의 오디오 파일에 저장될 수 있다. 하나 이상의 오디오 파일은 다수의 파일 포맷 중 하나가 될 수 있다. 오디오 파일 포맷의 비-제한적 예들은 AAC, MP3, WAV, 및 PCM을 포함한다.

텍스트 버전 포맷들

유사하게, 오디오 데이터가 맵핑되는 텍스트 데이터는 다수의 문서 파일 포맷 중 하나에 저장될 수 있다. 문서 파일 포맷의 비-제한적 예들은 DOC, TXT, PDF, RTF, HTML, XHTML 및 EPUB를 포함한다.

전형적인 EPUB 문서는, (a) 각각의 XHTML 컨텐츠 문서를 열거하고, (b) XHTML 컨텐츠 문서의 순서를 나타내는 파일을 수반한다. 예컨대, 책이 20 챕터들을 포함하면, 다음에 그 책에 대한 EPUB 문서는, 각 챕터 마다 하나씩, 20개의 상이한 XHTML 문서를 가질 수 있다. EPUB 문서를 수반하는 파일은 책 내의 챕터들의 순서에 대응하는 XHTML 문서들의 순서를 식별한다. 따라서, 하나의 (논리적) 문서(EPUB 문서 또는 다른 타입의 문서이든지)는 복수의 데이터 아이템 또는 파일을 포함할 수 있다.

텍스트 데이터 내에 반영된 단어 또는 문자는 하나 또는 복수의 언어들이 될 수 있다. 예컨대, 텍스트 데이터의 일부분은 영어가 될 수 있고, 텍스트 데이터의 다른 부분은 불어가 될 수 있다. 영어 단어들의 예들이 여기에 제공됨에도 불구하고, 본 발명의 실시예는 문자-기반 언어를 포함하는 다른 언어들에도 적용될 수 있다.

맵핑 내의 오디오 및 텍스트 위치들

여기 개시된 바와 같이, 맵핑은 한 세트의 맵핑 기록들을 포함하고, 여기서 각각의 맵핑 기록은 오디오 위치를 텍스트 위치와 관련시킨다.

각각의 오디오 위치는 오디오 데이터 내의 위치를 식별한다. 오디오 위치는 오디오 데이터 내의 절대 위치, 오디오 데이터 내의 상대 위치, 또는 절대 위치와 상대 위치의 조합을 표시할 수 있다. 절대 위치의 일례로서, 오디오 위치는 오디오 데이터로의 시간 오프셋(예컨대, 4시간 32분 24초를 나타내는 04:32:24), 또는 전술한 예 A에 나타난 바와 같은 시간 범위를 표시할 수 있다. 상대 위치의 일례로서, 오디오 위치는 챕터 번호, 문단 번호, 및 라인 번호를 표시할 수 있다. 절대 위치 및 상대 위치의 조합의 일례로서, 오디오 위치는 챕터 번호와 챕터 번호에 의해 표시되는 챕터에서의 시간 오프셋을 표시할 수 있다.

유사하게, 각각의 텍스트 위치는 텍스트 버전의 작품과 같은 텍스트 데이터 내의 위치를 식별한다. 텍스트 위치는 텍스트 버전의 작품 내의 절대 위치, 텍스트 버전의 작품 내의 상대 위치, 또는 절대 위치와 상대 위치의 조합을 표시할 수 있다. 절대 위치의 일례로서, 텍스트 위치는 텍스트 버전의 작품으로의 바이트 오프셋 및/또는 텍스트 버전의 작품 내의 "앵커"를 표시할 수 있다. 앵커는 텍스트의 특정 위치 또는 부분을 식별하는 텍스트 데이터 내의 메타데이터이다. 앵커는 엔드-사용자에게 디스플레이되는 텍스트 데이터 내의 텍스트로부터 별개로 저장될 수 있거나, 또는 엔드-사용자에게 디스플레이되는 텍스트 중에 저장될 수 있다. 예컨대, 텍스트 데이터는 다음 문장들을 포함할 수 있다: "Why did the chicken cross the road?" 여기서 ""은 앵커이다. 문장이 사용자에게 디스플레이되면, 사용자는 단지 "Why did the chicken cross the road?" 만을 보게된다. 유사하게, 동일한 문장은 다음과 같은 복수의 앵커들을 가질 수 있다: "Why did the chicken cross the road?" 이 예에서, 문장내의 각각의 단어 앞에 앵커가 존재한다.

상대 위치의 일례로서, 텍스트 위치는 페이지 번호, 챕터 번호, 문단 번호, 및/또는 라인 번호를 표시할 수 있다. 절대 위치 및 상대 위치의 조합의 일례로서, 텍스트 위치는 챕터 번호 및 챕터 번호에 의해 표시되는 챕터에서의 앵커를 표시할 수 있다.

텍스트 위치 및 오디오 위치를 나타내는 방법의 일례가 "EPUB Media Overlays 3.0"이란 명칭의 명세서 내에 제공되며, 이것은 SMIL(Synchronized Multimedia Integration Language), EPUB 스타일 시트, 및 EPUB 컨텐츠 문서의 사용을 정의한다. 텍스트 위치를 오디오 위치와 연관시키고 명세서 내에 제공되는 연관의 일례는 다음과 같다.

예시 A

예시 A에서, "par" 구성요소는 두 개의 자녀 구성요소를 포함한다: "text" 구성요소 및 "audio" 구성요소. 텍스트 구성요소는 책의 제1 챕터로부터의 컨텐츠를 포함하는 XHTML 문서 내의 특정 문장을 식별하는 속성(attribute) "src"를 포함한다. 오디오 구성요소는, 책의 제1 챕터의 오디오 버전을 포함하는 오디오 파일을 식별하는 "src" 속성, 오디오 파일 내의 오디오 클립이 시작하는 위치를 식별하는 "clipBegin" 속성, 및 오디오 파일 내의 오디오 클립이 종료하는 위치를 식별하는 "clipEnd" 속성을 포함한다. 따라서, 오디오 파일 내의 23 내지 45초가 책의 챕터 1 내의 제1 문장에 대응한다.

텍스트와 오디오 간의 맵핑 생성

실시예에 따르면, 텍스트 버전의 작품과 동일한 작품의 오디오 버전 간의 맵핑이 자동적으로 생성된다. 맵핑이 자동적으로 생성되기 때문에, 맵핑은 수동 텍스트-오디오 맵핑 기술들을 실질적으로 이용했을 때보다 훨씬 더 양호한 입도를 이용할 수 있다. 각각 자동적으로 생성된 텍스트-오디오 맵핑은 각각 텍스트 버전에서의 텍스트 위치와 오디오 버전에서의 오디오 위치를 연관시키는 여러 맵핑 기록을 포함한다.

도 1은 본 발명의 실시예에 따라 텍스트 버전의 작품과 동일한 작품의 오디오 버전 간의 맵핑을 자동적으로 생성하는 프로세스(100)를 묘사하는 흐름도이다. 단계 110에서, 음성-텍스트 분석기(speech-to-text analyzer)가 작품의 오디오 버전을 반영하는 오디오 데이터를 수신한다. 단계 120에서, 음성-텍스트 분석기가 오디오 데이터의 분석을 수행하면서, 음성-텍스트 분석기는 오디오 데이터의 부분에 대해 텍스트를 생성한다. 단계 130에서, 오디오 데이터의 부분들에 대해 생성된 텍스트에 기초하여, 음성-텍스트 분석기가 작품의 오디오 데이터 내의 복수의 오디오 위치와 텍스트 버전 내의 대응하는 복수의 텍스트 위치 간의 맵핑을 생성한다.

단계 130은 음성-텍스트 분석기가, 텍스트 버전의 작품 내에서 생성된 텍스트가 위치된 곳을 결정하도록, 생성된 텍스트를 텍스트 버전의 작품에서의 텍스트와 비교하는 단계를 수반할 수 있다. 텍스트 버전의 작품에서 발견되는 생성된 텍스트의 각각의 부분에 대해, 음성-텍스트 분석기는 오디오 데이터 내에서 대응하는 오디오 데이터의 부분이 발견되는 곳을 지시하는 오디오 위치(1)와 텍스트 버전의 작품 내에서 텍스트의 부분이 발견되는 곳을 지시하는 텍스트 위치(2)와 연관한다.

텍스트 컨텍스트

모든 문서는 "텍스트 컨텍스트(textual context)"를 가진다. 텍스트 버전의 작품의 텍스트 컨텍스트는 텍스트 버전의 작품의 내재적 특성들(예를 들어, 텍스트 버전의 작품이 쓰여진 언어, 텍스트 버전의 작품이 이용하는 특정 단어들, 텍스트 버전의 작품이 이용하는 문법 및 구두점(punctuation), 텍스트 버전의 작품이 구성되는 방식 등) 및 작품의 외재적 특성들(예를 들어, 작품이 생성되었던 연대, 작품이 속하는 장르, 작품의 저자 등)을 포함한다.

다른 작품들은 상당히 다른 텍스트 컨텍스트들을 가질 수 있다. 예를 들어, 고전 영어 소설에서 이용되는 문법은 현대 시의 문법과 크게 다를 수 있다. 따라서, 특정 단어 순서가 한 문법의 규칙을 따를 수는 있지만, 동일한 어순이 다른 문법의 규칙은 위반할 수 있다. 유사하게, 고전 영어 소설과 현대 시 모두에서 이용되는 문법은 십대들이 서로 주고받는 텍스트 메시지에서 채택되는 문법(또는 문법의 결여)과 다를 수 있다.

앞에서 언급한 바와 같이, 여기서 기술된 하나의 기술은 작품의 오디오 버전의 음성-텍스트 변환을 수행함으로써 작품의 오디오 버전과 동일한 텍스트 버전의 작품 간의 양호한 입도 맵핑을 자동으로 생성한다. 일 실시예에서, 작품의 텍스트 컨텍스트는 작품의 오디오 버전상에서 수행되는 음성-텍스트 분석의 정확도를 향상시키기 위해 이용된다. 예를 들어, 작품에서 채택된 문법을 결정하기 위해, 음성-텍스트 분석기는(또는 다른 프로세스는) 음성-텍스트 분석을 수행하기 전에 텍스트 버전의 작품을 분석할 수 있다. 음성-텍스트 분석기는 그러면 문법 정보를 이용할 수 있어서 그에 따라 작품의 오디오 버전의 음성-텍스트 분석의 정확성이 향상된다.

텍스트 버전의 작품에 기초하여 작품의 문법을 자동적으로 결정하는 것 대신에 또는 이것에 추가로, 사용자는 작품의 저자가 따르는 하나 이상의 문법의 규칙을 식별하는 입력을 제공할 수 있다. 식별된 문법과 연관된 규칙들은 작품의 오디오 버전에서의 단어들을 인식하는 데에 분석기를 돕기 위한 음성-텍스트 분석기로의 입력이다.

텍스트 버전에 기초하여 후보 사전을 제한

전형적으로, 음성-텍스트 분석기들은 영어로 된 사실상(virtually) 모든 단어 및 선택적으로는 다른 언어들로 된 몇몇 단어를 인식하도록 구성되거나 설계되어야만 한다. 따라서, 음성-텍스트 분석기들은 큰 단어 사전에 액세스해야만 한다. 음성-텍스트 분석기가 음성-텍스트 동작 동안에 단어들을 선택하는 사전은 여기서 음성-텍스트 분석기의 "후보 사전(candidate dictionary)"이라고 한다. 전형적인 후보 사전에서의 고유(unique) 단어들의 수는 약 500,000이다.

일 실시예에서, 텍스트 버전의 작품으로부터의 텍스트는 작품의 오디오 버전의 음성-텍스트 분석을 수행할 때에 고려된다. 구체적으로, 일 실시예에서, 작품의 오디오 버전의 음성-텍스트 분석 동안에, 음성-텍스트 분석기에 의해 이용되는 후보 사전은 텍스트 버전의 작품에 있는 단어들의 특정 세트로 제한된다. 다시 말하면, 작품의 오디오 버전상에서 수행되는 음성-텍스트 동작 동안에 "후보들"로 고려되는 단어들은 텍스트 버전의 작품에서 실제로 나타나는 그 단어들이다.

특정 작품의 음성-텍스트(speech-to-text) 변환에 사용되는 후보 사전을 텍스트 버전의 작품(textual version)에 나타나는 단어들로 제한함으로써 음성-텍스트 동작은 현저하게 개선될 수 있다. 예를 들어, 특정 작품에서 고유한 단어들의 수가 20,000개라고 가정한다. 종래의 음성-텍스트 분석기는 오디오의 특정 부분이 대응하는 부분을 500,000 단어의 후보 사전 중 어떤 특정한 단어로 결정할지 어려움을 가질 수 있다. 그러나, 텍스트 버전의 작품에 있는 오직 20,000개의 고유한 단어들이 고려되는 경우, 오디오의 동일한 부분은 명백하게 하나의 특정 단어에 대응할 수 있다. 따라서, 가능한 단어들에 대한 보다 작은 사전을 이용하여, 음성-텍스트 분석기의 정확도가 현저하게 개선될 수 있다.

현재 위치에 기초하여 후보 사전을 제한

정확성을 개선하기 위해, 텍스트 버전의 작품에서의 모든 단어들보다 훨씬 적은 단어들로 후보 사전이 제한될 수 있다. 일 실시예에서, 후보 사전은 텍스트 버전의 작품의 특정 부분에서 발견된 이러한 단어들로 제한된다. 예를 들어, 작품의 음성-텍스트 변환 동안에, 텍스트 버전의 작품에 대한 변환 동작의 "현재 변환 위치"를 대략적으로 추적하는 것이 가능하다. 예를 들어, 그러한 추적은 (a)지금까지 음성-텍스트 동작 동안에 생성된 텍스트를 (b)텍스트 버전의 작품과 비교함으로써 수행될 수 있다.

현재의 변환 위치가 결정되면, 후보 사전은 현재의 변환 위치에 기초하여 더 제한될 수 있다. 예를 들어, 일 실시예에서, 후보 사전은 현재의 변환 위치 이후의, 텍스트 버전의 작품 내에서 나타나는 그러한 단어들로만 제한된다. 따라서, 현재의 변환 위치 이후가 아닌, 현재의 변환 위치 이전에 발견된 단어들은 후보 사전으로부터 효과적으로 제거된다. 더 작은 후보 사전일수록, 음성-텍스트 분석기가 오디오 데이터의 일부를 잘못된 단어로 변환할 가능성이 적기 때문에, 그러한 제거는 음성-텍스트 분석기의 정확성을 증가시킬 수 있다.

다른 예로서, 음성-텍스트 분석 이전에, 오디오 북 및 디지털 북은 다수의 세그먼트 또는 섹션으로 분할될 수 있다. 오디오 북은 오디오 섹션 맵핑과 연관될 수 있고, 디지털 북은 텍스트 섹션 맵핑과 연관될 수 있다. 예를 들어, 오디오 섹션 맵핑과 텍스트 섹션 맵핑은 각각의 챕터가 시작하거나 종료하는 곳을 식별할 수 있다. 이들 각각의 맵핑들은 음성-텍스트 분석기에 의해 사용되어 후보 사전을 제한할 수 있다. 예를 들어, 음성-텍스트 분석기가, 오디오 섹션 맵핑에 기초하여, 음성-텍스트 분석기가 오디오 북의 4번째 챕터를 분석중임을 판정하면, 음성-텍스트 분석기는 텍스트 섹션 맵핑을 이용하여 디지털 북의 4번째 챕터를 식별하고 4번째 챕터에서 발견된 단어들로 후보 사전을 제한한다.

관련 실시예에서, 음성-텍스트 분석기는 현재의 변환 위치가 이동함에 따라 이동하는 슬라이딩 윈도우를 이용한다. 음성-텍스트 분석기가 오디오 데이터를 분석중일 때, 음성-텍스트 분석기는 작품의 테스트 버전을 "가로질러" 슬라이딩 윈도우를 이동시킨다. 슬라이딩 윈도우는 텍스트 버전의 작품 내의 2개의 위치를 나타낸다. 예를 들어, 슬라이딩 윈도우의 경계들은 (a) 현재의 변환 위치에 선행하는 단락의 시작 및 (b) 현재의 변환 위치 이후의 세 번째 단락의 종료일 수 있다. 후보 사전은 이들 2개의 위치들 사이에 나타나는 이러한 단어들만으로 한정된다.

특정 예가 전술되었으나, 윈도우는 텍스트 버전의 작품 내의 임의의 양의 텍스트를 스팬(span)할 수 있다. 예를 들어, 윈도우는 60개의 문자와 같이 절대적 양의 텍스트를 스팬할 수 있다. 다른 예에서는, 윈도우는 10개의 단어들, 텍스트의 3개의 "라인들", 2개의 문장들, 또는 텍스트의 1 "페이지"와 같이 상대적 양의 텍스트를 텍스트 버전의 작품으로부터 스팬할 수 있다. 상대적 양의 시나리오에서, 음성-텍스트 분석기는 텍스트 버전의 작품의 얼마나 많은 부분이 라인 또는 페이지를 이루는지를 판정하기 위해 텍스트 버전의 작품 내에서 포맷팅 데이터를 사용할 수 있다. 예를 들어, 텍스트 버전의 작품은 페이지 표시자(예를 들어, HTML 또는 XML 태그의 형식으로)를 포함할 수 있고, 이 페이지 표시자는 텍스트 버전의 작품의 컨텐츠 내에서 페이지의 시작 또는 페이지의 종료를 나타낸다.

실시예에서, 윈도우의 시작은 현재의 변환 위치에 대응한다. 예를 들어, 음성-텍스트 분석기는 텍스트 버전의 작품에서 가장 최근에 매칭된 단어를 나타내는 현재의 텍스트 위치를 유지하고, 오디오 데이터에서 가장 최근에 식별된 단어를 나타내는 현재의 오디오 위치를 유지한다. 화자(narrator)(화자의 음성이 오디오 데이터에 반영)가 녹음 중에, 텍스트 버전의 작품을 잘못 읽고, 그/그녀 자신의 컨텐츠를 부가하거나, 텍스트 버전의 작품의 일부분들을 건너뛰지 않는 한, 음성-텍스트 분석기가 오디오 데이터에서 검출하는 다음 단어(즉, 현재의 오디오 위치 이후)는 텍스트 버전의 작품에서 다음 단어일 가능성이 매우 높다(즉, 현재의 텍스트 위치 이후). 위치들 모두를 유지하는 것은 음성-텍스트 변환의 정확성을 현저하게 증가시킬 수 있다.

오디오-오디오 상관을 이용하는 맵핑 생성

실시예에서, 텍스트-음성 생성기 및 오디오-텍스트 상관기가 이용되어 오디오 버전의 작품과 텍스트 버전의 작품 간의 맵핑을 자동적으로 생성한다. 도 2는 맵핑을 생성하기 위해 이용된 데이터 및 이러한 분석기들을 도시하는 블록도이다. (EPUB 문서와 같은) 텍스트 버전의 작품(210)이 텍스트-음성 생성기(220)에 입력된다. 텍스트-음성 생성기(220)는 소프트웨어, 하드웨어, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 소프트웨어로 구현되든 또는 하드웨어로 구현되든, 텍스트-음성 생성기(220)는 단일의 컴퓨팅 디바이스 상에 구현될 수 있거나, 다수의 컴퓨팅 디바이스들 간에 분산될 수 있다.

텍스트-음성 생성기(220)는 문서(210)에 기초하여 오디오 데이터(230)를 생성한다. 오디오 데이터(230)의 생성 중에, 텍스트-음성 생성기(220)(또는 다른 도시되지 않은 컴포넌트)는 오디오-문서 맵핑(240)을 생성한다. 오디오-문서 맵핑(240)은 문서(210) 내의 다수의 텍스트 위치를 생성된 오디오 데이터(230) 내의 대응하는 오디오 위치들로 맵핑한다.

예를 들어, 텍스트-음성 생성기(220)는 문서(210) 내의 위치 Y에 위치된 단어에 대한 오디오 데이터를 생성한다고 가정한다. 또한, 작품에 대해 생성된 오디오 데이터가 오디오 데이터(230) 내의 위치 X에 위치된다고 가정한다. 문서(210) 내의 단어의 위치와 오디오 데이터(230)의 대응하는 오디오의 위치 사이의 상관을 반영하기 위해, 위치 X와 위치 Y 사이에 맵핑이 생성된다.

텍스트-음성 생성기(220)는 오디오의 대응하는 단어 또는 구문(phrase)이 생성되는 경우, 문서(210)에서 단어 또는 어구가 나타나는 곳을 알고 있으므로, 대응하는 단어들 또는 구문들 간의 각각의 맵핑이 쉽게 생성될 수 있다.

오디오-텍스트 상관기(260)는, 입력으로서, 생성된 오디오 데이터(230), 오디오 북(250), 및 오디오-문서 맵핑(240)을 받아들인다. 오디오-텍스트 상관기(260)는 2개의 주요 단계들을 수행하는데, 오디오-오디오 상관 단계 및 룩업(look-up) 단계이다. 오디오-오디오 상관 단계에서, 오디오-텍스트 상관기(260)는 생성된 오디오 데이터(230)와 오디오 북(250)을 비교하여 오디오 데이터(230)의 부분들과 오디오 북(250)의 부분들 간의 상관을 판정한다. 예를 들어, 오디오-텍스트 상관기(260)는, 오디오 데이터(230)에서 표현된 각각의 단어에 대해 오디오 북(250)의 대응하는 단어의 위치를 판정할 수 있다.

상관을 구축하기 위해, 오디오 데이터(230)가 분할되는 입도(granularity)는 구현마다 변화할 수 있다. 예를 들어, 오디오 데이터(230) 내의 각각의 단어와 오디오 북(250) 내의 각각의 대응하는 단어 사이에 상관이 구축될 수 있다. 대안으로, 고정 지속시간의 시간 간격들(예를 들어, 오디오의 매 1분마다 1개의 맵핑)에 기초하여 상관이 구축될 수 있다. 또 다른 대안으로, 단락 또는 챕터 경계들, 상당한 일시정지(pause)들(예를 들어, 3초보다 긴 무음(silence)), 또는 오디오 북(250) 내의 오디오 마커들과 같은 오디오 북(250) 내의 데이터에 기초한 다른 위치들 등의 다른 기준에 기초하여 구축된 오디오의 부분들에 대해 상관이 구축될 수 있다.

오디오 데이터(230)의 일부분과 오디오 북(250)의 일부분 사이의 상관이 식별된 후에, 오디오-텍스트 상관기(260)는 오디오-문서 맵핑(240)을 사용하여 생성된 오디오 데이터(230) 내의 오디오 위치에 대응하는 (맵핑(240)으로 표시된) 텍스트 위치를 식별한다. 다음으로, 오디오-텍스트 상관기(260)는 텍스트 위치를 오디오 북(250) 내의 오디오 위치와 연관시켜 문서-오디오 맵핑(270) 내에 맵핑 기록을 생성한다.

예를 들어, (위치 Z에 위치하는) 오디오 북(250)의 일부분이 위치 X에 위치하는 생성된 오디오 데이터(230)의 일부분과 매칭된다고 가정한다. 위치 X를 문서(210) 내의 위치 Y에 상관시키는 (오디오-문서 맵핑(240)에서의) 맵핑 기록에 기초하여, 오디오 북(250)의 위치 Z와 문서(210) 내의 위치 Y를 상관시키는 문서-오디오 맵핑(270)의 맵핑 기록이 생성될 수 있다.

*오디오 텍스트 상관기(260)는 오디오 데이터(230)의 각각의 부분에 대해 오디오-오디오 상관 및 룩업 단계들을 반복적으로 수행한다. 따라서, 문서-오디오 맵핑(270)은 복수의 맵핑 기록을 포함하고, 각각의 맵핑 기록은 문서(210) 내의 위치를 오디오 북(250) 내의 위치로 맵핑한다.

실시예에서, 오디오 데이터(230)의 각각의 부분에 대한 오디오-오디오 상관은 오디오의 그 부분에 대한 룩업 단계에 바로 후속한다. 따라서, 오디오 데이터(230)의 다음 부분으로 진행하기 전에 오디오 데이터(230)의 각각의 부분에 대해 문서-오디오 맵핑(270)이 생성될 수 있다. 대안으로, 임의의 룩업 단계가 수행되기 전에 오디오 데이터(230)의 부분들 모두 또는 오디오 데이터(230)의 다수의 부분들에 대해 오디오-오디오 상관 단계가 수행될 수 있다. 오대오-오디오 상관들 모두가 구축된 후에, 모든 부분들에 대한 룩업 단계들이 일괄적으로 수행될 수 있다.

맵핑 입도

맵핑은 다수의 속성들을 가지며, 속성들 중 하나는 맵핑의 크기이고, 맵핑의 크기는 맵핑에서 맵핑 기록들의 수를 지칭한다. 맵핑의 다른 속성은 맵핑의 "입도"이다. 맵핑의 "입도"는 디지털 작품의 크기에 대한 맵핑에서의 맵핑 기록들의 수를 지칭한다. 따라서, 맵핑의 입도는 디지털 작품마다 변화할 수 있다. 예를 들어, 200 "페이지들"을 포함하는 디지털 북에 대한 제1 맵핑은 디지털 북의 각각의 단락에 대하여만 맵핑 기록을 포함한다. 따라서, 제1 맵핑은 1000개의 맵핑 기록들을 포함할 수 있다. 반면에, 20페이지들을 포함하는 디지털 "아동용" 북에 대한 제2 맵핑은 아동용 북의 각각의 단어에 대한 맵핑 기록을 포함한다. 따라서, 제2 맵핑은 800개의 맵핑 기록들을 포함할 수 있다. 제1 맵핑이 제2 맵핑보다 더 많은 맵핑 기록들을 포함하지만, 제2 맵핑의 입도는 제1 맵핑의 입도보다 미세하다.

실시예에서, 맵핑의 입도는 맵핑을 생성하는 음성-텍스트 분석기로의 입력에 기초하여 지시될 수 있다. 예를 들어, 사용자는 음성-텍스트 분석기가 맵핑을 생성하도록 하기 전에 특정한 입도를 지정할 수 있다. 특정한 입도들의 비제한적인 예시들은 다음을 포함한다:

- 단어 입도 (즉, 각각의 단어에 대한 연관)

- 문장 입도 (즉, 각각의 문장에 대한 연관)

- 단락 입도 (즉, 각각의 단락에 대한 연관)

- 10 단어 입도 (즉, 디지털 작품에서 각각의 10 단어 부분에 대한 맵핑) 및

- 10초 입도 (즉, 오디오의 각 10초 동안의 맵핑).

다른 예시로서, 사용자는 디지털 작품(예를 들어, 소설, 아동용 북, 단편 소설)의 유형을 특정할 수 있고, 음성-텍스트 분석기(또는 다른 프로세스)는 작품의 유형에 기초하여 입도를 결정한다. 예를 들어, 아동용 북은 단어 입도와 연관될 수 있는 한편, 소설은 문장 입도와 연관될 수 있다.

맵핑의 입도는 동일한 디지털 작품 내에서도 변화할 수 있다. 예를 들어, 디지털 북의 처음 3개의 챕터들에 대한 맵핑은 문장 입도를 가질 수 있는 한편, 디지털 북의 나머지 챕터들에 대한 맵핑은 단어 입도를 갖는다.

텍스트-오디오 변환들 중에 온 더 플라이( on - the - fly ) 맵핑 생성

다수의 경우들에서, 사용자가 임의의 것에 의존하는 것을 필요로 하기 전에 오디오-텍스트 맵핑이 생성될 것이지만, 일 실시예에서, 오디오-텍스트 맵핑은 실행 시간에서 또는 사용자가 사용자 디바이스의 오디오 데이터 및/또는 텍스트 데이터의 소비를 개시한 후에 생성된다. 예를 들어, 사용자는 태블릿 컴퓨터를 이용하여 디지털 북의 텍스트 버전을 읽는다. 태블릿 컴퓨터는 태블릿 컴퓨터가 사용자에게 디스플레이한 디지털 북의 최근 페이지 또는 섹션에 대한 추적을 계속한다. 최근 페이지 또는 섹션은 "텍스트 북마크"에 의해 식별된다.

이후, 사용자는 동일한 작품의 오디오 북 버전을 재생하는 것을 선택한다. 재생 디바이스는 사용자가 디지털 북 또는 다른 디바이스를 읽고 있었던 동일한 태블릿 컴퓨터일 수 있다. 오디오 북이 재생되는 디바이스에 무관하게, 텍스트 북마크가 검색되고, 오디오 북의 적어도 일부분에 관한 음성-텍스트 분석이 수행된다. 음성-텍스트 분석 중에, 생성된 텍스트와 오디오 북 내의 대응하는 위치들 사이의 상관을 구축하기 위해 "일시적인" 맵핑 기록들이 생성된다.

텍스트 및 상관 기록들이 일단 생성되면, 텍스트-텍스트 비교를 이용하여 텍스트 북마크에 대응하는 생성된 텍스트를 결정한다. 다음으로, 일시적인 맵핑 기록들을 사용하여 텍스트 북마크에 대응하는 생성된 텍스트의 일부분에 대응하는 오디오 북의 일부분을 식별한다. 다음으로, 그 부분으로부터 오디오 북의 재생이 개시된다.

음성-텍스트 분석이 수행되는 오디오 북의 부분은 텍스트 북마크에 대응하는 부분으로 제한될 수 있다. 예컨대, 오디오 북의 특정 부분들이 어디서 시작되고 그리고/또는 끝나는지를 나타내는 오디오 섹션 맵핑이 이미 존재할 수 있다. 예컨대, 오디오 섹션 맵핑은 각각의 챕터가 어디서 시작하는지, 하나 이상의 페이지들이 어디서 시작하는지 등을 나타낼 수 있다. 그러한 오디오 섹션 맵핑은 오디오 북 전체에 대한 음석-텍스트 분석이 수행될 필요가 없도록, 음성-텍스트 분석을 어디에서 시작할지를 결정하는 데 유용할 수 있다. 예컨대, 텍스트 북마크가 디지털 북의 12 챕터 내의 위치를 나타내고, 오디오 데이터와 연관되는 오디오 섹션 맵핑이 오디오 데이터 내의 어디에서 12 챕터가 시작되는지를 식별한다면, 음성-텍스트 분석은 오디오 북의 처음 11개의 챕터들 중 어디에서도 수행될 필요가 없다. 예컨대, 오디오 데이터는 각각의 챕터에 대해 하나의 오디오 파일을 갖는 20개의 오디오 파일들로 구성될 수 있다. 따라서, 12번째 챕터에 대응하는 단 하나의 오디오 파일만이 음성-텍스트 분석기에 입력된다.

음성-텍스트 변환 동안의 온-더-플라이 맵핑 생성

음성-텍스트 변환들 뿐 아니라 텍스트-음성 변환들을 용이하게 하기 위해 맵핑 기록들이 온-더-플라이로 생성될 수 있다. 예컨대, 사용자가 스마트폰을 사용하여 오디오 북을 청취하고 있다고 가정한다. 스마트폰은 재생되고 있는 오디오 북 내의 현재의 위치를 계속 추적한다. 현재 위치는 "오디오 북마크"에 의해 식별된다. 이후, 사용자는 태블릿 컴퓨터를 들고 오디오 북의 디지털 북 버전이 표시되도록 선택한다. 태블릿 컴퓨터는 (예컨대, 태블릿 컴퓨터 및 스마트폰에 대해 원격인 중앙 서버로부터) 오디오 북마크를 수신하고, 오디오 북의 적어도 일부의 음성-텍스트 분석을 수행하고, 오디오 북마크에 대응하는 오디오 북의 텍스트 버전 내의 텍스트의 일부에 대응하는 부분을 오디오 북 내에서 식별한다. 그 후, 태블릿 컴퓨터는 텍스트 버전 내의 식별된 부분을 디스플레이하기 시작한다.

음성-텍스트 분석이 수행되는 오디오 북의 부분은 오디오 북마크에 대응하는 부분으로 제한될 수 있다. 예컨대, 음성-텍스트 분석은 오디오 북 내의 오디오 북마크 이전의 하나 이상의 시간 세그먼트(예컨대, 초)들 및/또는 오디오 북 내의 오디오 북마크 이후의 하나 이상의 시간 세그먼트들을 스팬하는 오디오 북의 일부에 대해 수행된다. 생성된 텍스트의 일련의 단어들 또는 구문들이 텍스트 버전의 텍스트와 어디에서 일치하는지를 알아내기 위해 그 부분에 대한 음성-텍스트 분석에 의해 생성된 텍스트를 텍스트 버전 내의 텍스트와 비교한다.

*텍스트 버전의 특정 부분들이 어디에서 시작되는지 또는 종료되는지를 나타내는 텍스트 섹션 맵핑이 존재하고, 오디오 북마크가 텍스트 섹션 맵핑 내의 섹션을 식별하는 데 이용될 수 있다면, 생성된 텍스트 내의 일련의 단어들 또는 구문들이 텍스트 버전 내의 텍스트와 어디에서 일치하는지를 알아내기 위해 텍스트 버전의 대부분이 분석될 필요가 없다. 예컨대, 오디오 북마크가 오디오 북의 제3 챕터 내의 위치를 나타내고, 디지털 북과 연관되는 텍스트 섹션 맵핑이 텍스트 버전 내의 제3 챕터가 시작되는 위치를 식별한다면, 음성-텍스트 분석은 오디오 북의 처음 두 챕터들 중 어느 챕터에 대하여도 수행될 필요가 없으며, 오디오 북의 제3 챕터 이후의 어느 챕터들에 대하여도 수행될 필요가 없다.

오디오-텍스트 맵핑 이용의 개요

일 방법에 따르면, 디지털 텍스트 버전의 작품(예컨대, 전자책) 내의 위치들에 대응하는 디지털 오디오 버전의 작품(예컨대, 오디오 북) 내의 위치들을 식별하기 위해 (수동으로 생성되었든 또는 자동으로 생성되었든) 맵핑이 이용된다. 예컨대, 맵핑은 오디오 북 내에 구축된 "북마크"에 기초하여 전자책 내의 위치를 식별하기 위해 사용될 수 있다. 다른 예로서, 음성 녹음이 재생되고 있을 때, 표시된 어떤 텍스트가 그 텍스트를 읽는 사람의 음성 녹음에 대응하는지를 식별하고, 식별된 텍스트가 강조 표시되도록 하기 위해 맵핑이 이용될 수 있다. 따라서, 오디오 북이 재생되는 동안, 전자책 리더(reader)의 사용자는 전자책 리더가 대응하는 텍스트를 강조 표시하는 것을 따라갈 수 있다. 다른 예로서, 맵핑은 오디오 데이터 내의 위치를 식별하고, 전자책으로부터 디스플레이되는 텍스트를 선택하는 입력에 응답하여 그 위치에서 오디오를 재생하도록 사용될 수 있다. 따라서, 사용자는 전자책 내의 단어를 선택할 수 있으며, 이 선택은 그 단어에 대응하는 오디오가 재생되도록 한다. 다른 예로서, 사용자는 디지털 작품의 한 버전(예컨대, 전자책)을 "소비하는" (예컨대, 읽거나 청취하는) 동안 주석을 생성하고, 사용자가 디지털 작품의 다른 버전(예컨대, 오디오 북)을 소비하는 동안 그 주석이 소비되도록 할 수 있다. 따라서, 사용자는 전자책의 "페이지" 상에 주석을 달 수 있으며, 전자책의 오디오 북을 청취하는 동안 그 주석들을 볼 수 있다. 유사하게, 사용자는 오디오 북을 청취하는 동안 주석을 만들고, 대응하는 전자책을 읽을 때 그 주석을 볼 수도 있다.

도 3은 본 발명의 실시예에 따른, 하나 이상의 이러한 시나리오들에서 맵핑을 사용하기 위한 프로세스를 예시하는 흐름도이다.

단계 310에서, 제1 미디어 아이템 내의 특정된 위치를 나타내는 위치 데이터가 취득된다. 제1 미디어 아이템은 텍스트 버전의 작품, 또는 텍스트 버전의 작품에 대응하는 오디오 데이터일 수 있다. 이 단계는 제1 미디어 아이템을 소비하는 (사용자에 의해 작동되는) 디바이스에 의해 수행될 수 있다. 대안적으로, 그 단계는 제1 미디어 아이템을 소비하는 디바이스에 대해 원격으로 위치하는 서버에 의해 수행될 수 있다. 따라서, 디바이스는 통신 프로토콜을 사용하여 네트워크를 통해 위치 데이터를 서버에 전송한다.

단계 320에서, 특정된 위치에 대응하는 제1 미디어 위치를 식별하기 위해 맵핑이 검사된다. 유사하게, 이 단계는 제1 미디어 아이템을 소비하는 디바이스에 의해 수행되거나, 디바이스에 대해 원격으로 위치하는 서버에 의해 수행될 수 있다.

단계 330에서, 제1 미디어 위치에 대응하고 맵핑 내에 표시되는 제2 미디어 위치가 결정된다. 예컨대, 특정된 위치가 오디오 "북마크"라면, 제1 미디어 위치는 맵핑에서 표시되는 오디오 위치이고 제2 미디어 위치는 맵핑 내의 오디오 위치와 연관되는 텍스트 위치이다. 유사하게, 예를 들어, 특정된 위치가 텍스트 "북마크"라면, 제1 미디어 위치는 맵핑에서 표시되는 텍스트 위치이고 제2 미디어 위치는 맵핑 내의 텍스트 위치와 연관되는 오디오 위치이다.

단계 340에서, 제2 미디어 위치에 기초하여 제2 미디어 아이템이 처리된다. 예컨대, 제2 미디어 아이템이 오디오 데이터라면, 제2 미디어 위치는 오디오 위치이며, 오디오 데이터 내의 현재 재생 위치로서 사용된다. 다른 예로서, 제2 미디어 아이템이 텍스트 버전의 작품이라면, 제2 미디어 위치는 텍스트 위치이며, 텍스트 버전의 작품의 어떤 부분을 디스플레이할지를 결정하는 데 이용된다.

특정 시나리오들에서 프로세스(300)를 사용하는 예들이 아래에 제공된다.

아키텍처 개요

상기 언급되고 아래에서 상세하게 기술되는 각각의 예시적인 시나리오들은 하나 이상의 컴퓨팅 디바이스들을 포함할 수 있다. 도 4는 본 발명의 일 실시예에 따라 본 명세서에서 기술되는 프로세스들의 일부를 구현하기 위해 사용될 수 있는 예시적인 시스템(400)의 블록도이다. 시스템(400)은 최종-사용자 디바이스(410), 중개 디바이스(420), 및 최종-사용자 디바이스(430)를 포함한다. 최종-사용자 디바이스들(410 및 430)의 제한되지 않는 예들은 데스크탑 컴퓨터들, 랩탑 컴퓨터들, 스마트폰들, 테블릿 컴퓨터들, 및 다른 휴대용 컴퓨팅 디바이스들을 포함한다.

도 4에 도시된 바와 같이, 디바이스(410)는 디지털 미디어 아이템(402)을 저장하고 텍스트 미디어 플레이어(412) 및 오디오 미디어 플레이어(414)를 실행한다. 텍스트 미디어 플레이어(412)는 전자 텍스트 데이터를 처리하고 디바이스(410)가 (예를 들면, 도시되지 않은, 디바이스(410)의 터치 스크린 상에) 텍스트를 디스플레이하게 하도록 구성된다. 따라서, 만일 디지털 미디어 아이템(402)이 전자책이면, 디지털 미디어 아이템(402)이 텍스트 미디어 플레이어(412)가 처리하도록 구성된 텍스트 포맷을 가지는 한, 텍스트 미디어 플레이어(412)는 디지털 미디어 아이템(402)을 처리하도록 구성될 수 있다. 디바이스(410)는 비디오와 같은 다른 유형들의 미디어를 처리하도록 구성된 (도시되지 않은) 하나 이상의 다른 미디어 플레이어들을 실행할 수 있다.

유사하게, 오디오 미디어 플레이어(414)는 오디오 데이터를 처리하고 디바이스(410)가 (예를 들면, 도시되지 않은, 디바이스(410) 상의 스티커들을 통하여) 오디오를 생성하게 하도록 구성된다. 따라서, 만일 디지털 미디어 아이템(402)이 오디오 북이면, 디지털 미디어 아이템(402)이 오디오 미디어 플레이어(414)가 처리하도록 구성된 오디오 포맷을 가지는 한, 오디오 미디어 플레이어(414)는 디지털 미디어 아이템(402)을 처리하도록 구성될 수 있다. 아이템(402)이 전자책이든지 아니면 오디오 북이든지, 아이템(402)은 오디오 파일들이든 텍스트 파일들이든 복수의 파일들을 포함할 수 있다.

디바이스(430)는 디지털 미디어 아이템(404)을 마찬가지로 저장하고, 오디오 데이터를 처리하고 디바이스(430)가 오디오를 생성하게 하도록 구성된 오디오 미디어 플레이어(432)를 실행한다. 디바이스(430)는 비디오 및 텍스트와 같은 다른 유형들의 미디어를 처리하도록 구성된 (도시되지 않은) 하나 이상의 다른 미디어 플레이어들을 실행할 수 있다.

중개 디바이스(420)는 오디오 데이터 내의 오디오 위치들을 텍스트 데이터 내의 텍스트 위치에 맵핑하는 맵핑(406)을 저장한다. 예를 들면, 맵핑(406)은 디지털 미디어 아이템(404) 내의 오디오 위치들을 디지털 미디어 아이템(402) 내의 텍스트 위치들에 맵핑할 수 있다. 비록 도 4에 도시되지 않았지만, 중개 디바이스(420)는, 하나의 맵핑이 각각 대응하는 오디오 데이터 및 텍스트 데이터 세트에 대한 것인 다수의 맵핑들을 저장할 수 있다. 또한, 중개 디바이스(420)는 도시되지 않은 다수의 최종-사용자 디바이스들과 상호작용할 수 있다.

또한, 중개 디바이스(420)는 사용자들이 그들의 각자의 디바이스들을 통하여 액세스할 수 있는 디지털 미디어 아이템들을 저장할 수 있다. 따라서, 디지털 미디어 아이템의 로컬 복사본을 저장하는 대신에, 디바이스(예를 들면, 디바이스(430))는 중개 디바이스(420)로부터의 디지털 미디어 아이템을 요구할 수 있다.

추가로, 중개 디바이스(420)는 사용자의 하나 이상의 디바이스들을 단일의 계정에 연관시키는 계정 데이터를 저장할 수 있다. 따라서, 그러한 계정 데이터는 디바이스들(410 및 430)이 동일한 계정 아래 동일한 사용자에 의해 등록된다는 것을 나타낼 수 있다. 중개 디바이스(420)는 또한 계정을 특정의 사용자에 의해 소유된 (또는 구매된) 하나 이상의 디지털 미디어 아이템들과 연관시키는 계정-아이템 연관 데이터를 저장할 수 있다. 따라서, 중개 디바이스(420)는 계정-아이템 연관 데이터가 디바이스(430)와 특정의 디지털 미디어 아이템이 동일한 계정에 연관된다는 것을 나타내는지 여부를 결정함으로써, 디바이스(430)가 특정의 디지털 미디어 아이템을 액세스할 수 있다는 것을 확인할 수 있다.

비록 단지 두 개의 최종-사용자 디바이스들이 도시되지만, 최종-사용자는 전자책들 및 오디오 북들과 같은 디지털 미디어 아이템들을 소비하는 다소간의 디바이스들을 소유하고 작동할 수 있다. 유사하게, 비록 단지 하나의 중개 디바이스(420)가 도시되지만, 중개 디바이스(420)를 소유하고 동작하는 엔티티는 각각이 동일한 서비스를 제공하거나 최종-사용자 디바이스들(410 및 430)의 사용자들에게 서비스를 제공하도록 함께 동작할 수 있는 복수의 디바이스들을 동작할 수 있다.

중개 디바이스(420)와 최종-사용자 디바이스들(410 및 430) 사이의 통신은 네트워크(440)를 통하여 가능하게 된다. 네트워크(440)는 다양한 컴퓨팅 디바이스들 사이의 데이터의 교환을 제공하는 임의의 매체 또는 메커니즘에 의해 구현될 수 있다. 그러한 네트워크의 예들은, 제한됨이 없이, 구내 정보 통신망(LAN), 광역 통신망(WAN), 이더넷 또는 인터넷, 또는 하나 이상의 지상, 위성, 또는 무선 링크들과 같은 네트워크를 포함한다. 네트워크는 상기 기술된 것들과 같은 네트워크들의 조합을 포함할 수 있다. 네트워크는 전송 컨트롤 프로토콜(TCP), 사용자 다이어그램 프로토콜(UDP), 및/또는 인터넷 프로토콜(IP)에 따라서 데이터를 송신할 수 있다.

맵핑의 저장 위치

맵핑은 그 맵핑이 생성된 텍스트 데이터 및 오디오 데이터와는 분리하여 저장될 수 있다. 예를 들면, 도 4에 도시된 바와 같이, 비록 맵핑(406)은 다른 디지털 미디어 아이템에서의 미디어 위치에 기초하여 하나의 디지털 미디어 아이템에서 미디어 위치를 식별하는데 사용될 수 있지만 맵핑(406)은 디지털 미디어 아이템들(402 및 404)로부터 분리하여 저장된다. 사실, 맵핑(406)은 디지털 미디어 아이템들(402 및 404)을 각자 저장하는 디바이스들(410 및 430)보다는 분리된 컴퓨팅 디바이스(중개 디바이스(420))에 저장된다.

추가로 또는 대안적으로, 맵핑은 대응하는 텍스트 데이터의 부분으로서 저장될 수 있다. 예를 들면, 맵핑(406)은 디지털 미디어 아이템(402)에 저장될 수 있다. 하지만, 비록 맵핑이 텍스트 데이터의 부분으로서 저장되더라도, 맵핑은 텍스트 데이터를 소비하는 최종-사용자에게 디스플레이되지 않을 수 있다. 또한 추가로 또는 대안적으로, 맵핑은 오디오 데이터의 부분으로서 저장될 수 있다. 예를 들면, 맵핑(406)은 디지털 미디어 아이템(404)에 저장될 수 있다.

북마크 스위칭

"북마크 스위칭"은 디지털 작품의 하나의 버전 내의 특정한 위치(즉 "북마크")를 설정하고 북마크를 사용하여 디지털 작품의 다른 버전 내에서 대응하는 위치를 찾는 것을 지칭한다. 두 가지의 유형의 북마크 스위칭: 텍스트-오디오(TA) 북마크 스위칭과 오디오-텍스트(AT) 북마크 스위칭이 있다. TA 북마크 스위칭은 전자책에 설정된 텍스트 북마크를 사용하여 오디오 북에서 대응하는 오디오 위치를 식별하는 것을 수반한다. 역으로, 본 명세서에서 AT 북마크 스위칭으로 지칭되는 다른 유형의 북마크 스위칭은 오디오 북에 설정된 오디오 북마크를 사용하여 전자책 내에서 대응하는 텍스트 위치를 식별하는 것을 수반한다.

텍스트 오디오 북마크 스위칭

도 5a는 본 발명의 일 실시예에 따른 TA 북마크 스위칭을 위한 프로세스(500)를 도시하는 흐름도이다. 도 5a는 도 4에 도시된 시스템(400)의 구성 요소들을 사용하여 설명된다.

단계 502에서, 텍스트 미디어 플레이어(412)(예를 들면, e-리더)는 디지털 미디어 아이템(402)(예를 들면, 디지털 북) 내의 텍스트 북마크를 결정한다. 디바이스(410)는 디지털 미디어 아이템(402)으로부터의 컨텐츠를 디바이스(410)의 사용자에게 디스플레이한다.

텍스트 북마크는 사용자로부터의 입력에 응답하여 결정될 수 있다. 예를 들면, 사용자는 디바이스(410)의 터치 스크린 상의 영역을 터치할 수 있다. 그 영역에 있는 또는 그 영역 근처의, 디바이스(410)의 디스플레이는 하나 이상의 단어를 디스플레이한다. 입력에 응답하여, 텍스트 미디어 플레이어(412)는 영역에 가장 가까이 있는 하나 이상의 단어를 결정한다. 텍스트 미디어 플레이어(412)는 결정된 하나 이상의 단어에 기초하여 텍스트 북마크를 결정한다.

대안적으로, 텍스트 북마크는 사용자에게 디스플레이되었던 마지막 텍스트 데이터에 기초하여 결정될 수 있다. 예를 들면, 디지털 미디어 아이템(402)은 200 전자 "페이지들"을 포함할 수 있고 페이지 110은 디스플레이되었던 마지막 페이지였다. 텍스트 미디어 플레이어(412)는 페이지 110이 디스플레이되었던 마지막 페이지였다고 결정한다. 텍스트 미디어 플레이어(412)는 페이지 110을 텍스트 북마크로서 설정할 수 있거나 또는 페이지 110의 시작 부분에 있는 지점을 텍스트 북마크로서 설정할 수 있는데, 그 이유는 사용자가 읽기를 멈춘 부분을 알 어떠한 방법도 없을 수 있기 때문이다. 사용자가 적어도 페이지 109 상의 마지막 문장을 읽었다고 가정하는 것이 안전할 수 있는데, 이는 문장이 페이지 109 상에서 끝날 수 있거나 또는 페이지 110 상에서 끝날 수 있기 때문이다. 따라서, 텍스트 미디어 플레이어(412)는 (페이지 110 상에서 시작하는) 다음 문장의 시작 부분을 텍스트 북마크로서 설정할 수 있다. 그러나, 맵핑의 입도(granularity)가 단락 레벨에 있는 경우, 텍스트 미디어 플레이어(412)는 페이지 109 상의 마지막 단락의 시작 부분을 설정할 수 있다. 마찬가지로, 맵핑의 입도가 문장 레벨에 있는 경우, 텍스트 미디어 플레이어(412)는 페이지 110을 포함하는 챕터의 시작 부분을 텍스트 북마크로서 설정할 수 있다.

단계 504에서, 텍스트 미디어 플레이어(412)는 네트워크(440)를 통해 중개 디바이스(420)에 텍스트 북마크를 나타내는 데이터를 보낸다. 중개 디바이스(420)는 디바이스(410) 및/또는 디바이스(410)의 사용자의 계정과 연관된 텍스트 북마크를 저장할 수 있다. 단계 502 전에, 사용자는 중개 디바이스(420)의 오퍼레이터와 계정을 설정할 수 있다. 사용자는 그 후 디바이스(410)를 포함하는 하나 이상의 디바이스를 오퍼레이터와 등록한다. 등록은 하나 이상의 디바이스 각각이 사용자의 계정과 연관되게 한다.

하나 이상의 팩터가 텍스트 미디어 플레이어(412)로 하여금 텍스트 북마크를 중개 디바이스(420)에 보내게 할 수 있다. 그러한 팩터들은 텍스트 미디어 플레이어(412)를 나가는 것(또는 종료하는 것), 사용자에 의한 텍스트 북마크의 설정, 또는 텍스트 북마크가 설정된 작품의 텍스쳐 버전에 대응하는 오디오 북을 들을 때 이용하기 위한 텍스트 북마크를 저장하라는 사용자에 의한 명시적 명령을 포함할 수 있다.

전술한 바와 같이, 중개 디바이스(420)는, 이 예에서, 디지털 미디어 아이템(404) 내의 다수의 오디오 위치들을 디지털 미디어 아이템(402) 내의 다수의 텍스트 위치들로 맵핑하는, 맵핑(406)에 액세스(예를 들면, 저장)한다.

단계 506에서, 중개 디바이스(420)는 텍스트 북마크에 대응하는, 다수의 텍스트 위치들 중의, 특정 텍스트 위치를 결정하기 위해 맵핑(406)을 검사한다. 텍스트 북마크는 맵핑(406) 내의 다수의 텍스트 위치들 중 임의의 것을 정확히 일치시키지 못할 수 있다. 그러나, 중개 디바이스(420)는 텍스트 북마크에 가장 가까운 텍스트 위치를 선택할 수 있다. 대안적으로, 중개 디바이스(420)는 텍스트 북마크 바로 전에 있는 텍스트 위치를 선택할 수 있고, 텍스트 위치는 텍스트 북마크에 가장 가까운 텍스트 위치일 수도 있고 또는 아닐 수도 있다. 예를 들면, 텍스트 북마크가 5번째 챕터, 3번째 단락, 5번째 문장을 나타내고, 맵핑(406) 내의 가장 가까운 텍스트 위치들이 (1) 5번째 챕터, 3번째 단락, 1번째 문장, 및 (2) 5번째 챕터, 3번째 단락, 6번째 문장이면, 텍스트 위치(1)가 선택된다.

단계 508에서, 일단 맵핑 내의 특정 텍스트 위치가 식별되면, 중개 디바이스(420)는 특정 텍스트 위치에 대응하는, 맵핑(406) 내의, 특정 오디오 위치를 결정한다.

단계 510에서, 중개 디바이스(420)는, 이 예에서, 디바이스(410)와는 다른, 디바이스(430)에 특정 오디오 위치를 보낸다. 예를 들면, 디바이스(410)는 태블릿 컴퓨터일 수 있고, 디바이스(430)는 스마트폰일 수 있다. 관련된 실시예들에서, 디바이스(430)는 수반되지 않는다. 따라서, 중개 디바이스(420)는 특정 오디오 위치를 디바이스(410)에 보낼 것이다.

단계 510는 자동적으로, 즉, 중개 디바이스(420)가 특정 오디오 위치를 결정하는 것에 응답하여 수행될 것이다. 대안적으로, 스탭(510) 또는 단계 506은, 디바이스(430)가 디지털 미디어 아이템(404)을 처리하는 것에 관한 것이라는 것을 나타내는 표시를, 디바이스(430)로부터, 수신하는 것에 응답하여 수행될 수 있다. 표시는 텍스트 북마크에 대응하는 오디오 위치에 대한 요청일 수 있다.

단계 512에서, 오디오 미디어 플레이어(432)는 디지털 미디어 아이템(404) 내의 오디오 데이터의 현재 재생 위치로서 특정 오디오 위치를 설정한다. 이러한 설정은 중개 디바이스(420)로부터 특정 오디오 위치를 수신하는 것에 응답하여 수행될 수 있다. 현재 재생 위치가 특정 오디오 위치가 되기 때문에, 오디오 미디어 플레이어(432)는 오디오 데이터 내의 특정 오디오 위치를 앞서는 오디오의 임의의 부분을 재생할 필요가 없다. 예를 들면, 특정 오디오 위치가 2:56:03(2시간, 56분, 3초)를 나타내면, 오디오 미디어 플레이어(432)는 오디오 데이터 내에서 그 시간을 현재 재생 위치로서 설정한다. 따라서, 디바이스(430)의 사용자가 디바이스(430) 상의 (그래픽적 또는 물리적인) "재생" 버튼을 선택하면, 오디오 미디어 플레이어(430)는 그 2:56:03 마크에서 오디오 데이터를 처리하는 것을 시작한다.

대안 실시예에서, 디바이스(410)는 맵핑(406)(또는 그의 카피)을 저장한다. 따라서, 단계 504-단계 508 대신에, 텍스트 미디어 플레이어(412)는 텍스트 북마크에 대응하는, 다수의 텍스트 위치들 중의, 특정 텍스트 위치를 결정하기 위해 맵핑(406)을 검사한다. 그 후, 텍스트 미디어 플레이어(412)는 특정 텍스트 위치에 대응하는, 맵핑(406) 내의, 특정 오디오 위치를 결정한다. 텍스트 미디어 플레이어(412)는 그 후 특정 오디오 위치가 중개 디바이스(420)에 보내지게 하여 디바이스(430)가 특정 오디오 위치를 검색하고 오디오 데이터 내의 현재 재생 위치를 특정 오디오 위치가 되도록 설정하게 할 수 있다. 텍스트 미디어 플레이어(412)는 또한 특정 텍스트 위치(또는 텍스트 북마크)가 중개 디바이스(420)에 보내지게 하여, 디바이스(410)(또는 도시되지 않은, 그외의 디바이스)가 나중에 특정 텍스트 위치를 검색하게 하여 다른 디바이스 상에서 실행하는 또 다른 텍스트 미디어 플레이어가 디지털 미디어 아이템(402)의 또 다른 카피의 일부(예를 들면, 페이지)(상기 일부는 특정 텍스트 위치에 대응함)를 디스플레이하게 할 수 있다.

또 다른 대안 실시예에서, 중개 디바이스(420) 및 디바이스(430)는 수반되지 않는다. 따라서, 단계들(504 및 510)은 수행되지 않는다. 따라서, 디바이스(410)는 단계들(506 및 508)을 포함하는, 도 5a 내의 모든 다른 단계들을 수행한다.

오디오-텍스트 북마크 스위칭

도 5b는 본 발명의 실시예에 따른 AT 북마크 스위칭을 위한 프로세스(550)를 나타내는 흐름도이다. 도 5a와 마찬가지로, 도 5b는 도 4에 도시된 시스템(400)의 요소를 이용하여 기술된다.

단계 552에서, 오디오 미디어 플레이어(432)는 디지털 미디어 아이템(404)(예를 들면, 오디오 북) 내의 오디오 북마크를 결정한다.

오디오 북마크는 사용자로부터의 입력에 응답하여 결정될 수 있다. 예를 들면, 사용자는 예를들면, 디바이스(430)의 터치 스크린 상에 디스플레이된 "정지" 버튼을 선택함으로써, 오디오 데이터의 재생을 정지할 수 있다. 오디오 미디어 플레이어(432)는 재생이 정지된 곳에 대응하는 디지털 미디어 아이템(404)의 오디오 데이터 내의 위치를 결정한다. 따라서, 오디오 북마크는 단순히 사용자가 디지털 미디어 아이템(404)으로부터 생성된 오디오를 듣기를 정지한 마지막 위치일 수 있다. 추가적으로 또는 대안적으로, 사용자는 디지털 미디어 아이템(404) 내의 특정 위치를 오디오 북마크로서 설정하기 위해 디바이스(430)의 터치 스크린 상에 하나 이상의 그래픽 버튼을 선택할 수 있다. 예를 들면, 디바이스(430)는 디지털 미디어 아이템(404)에서 오디오 데이터의 길이에 대응하는 타임라인을 디스플레이한다. 사용자는 타임라인 상의 포지션을 선택하고 오디오 북마크를 설정하기 위해 오디오 미디어 플레이어(432)에 의해 사용되는 하나 이상의 추가적인 입력들을 제공할 수 있다.

단계 554에서, 디바이스(430)는 네트워크(440)를 통해, 오디오 북마크를 나타내는 데이터를 중개 디바이스(420)에 송신한다. 중개 디바이스(420)는 디바이스(430)의 사용자의 계정 및/또는 디바이스(430)와 연관된 오디오 북마크를 저장할 수 있다. 단계 552 이전에, 사용자는 중개 디바이스(420)의 운영자와의 계정을 설정했다. 그 후 사용자는 디바이스(430)를 포함하는 하나 이상의 디바이스를 운영자에 등록한다. 등록은 하나 이상의 디바이스의 각각이 사용자의 계정과 연관되게 한다.

중개 디바이스(420)는 또한 매핑(406)에의 액세스(예를 들면, 저장하기)를 갖는다. 매핑(406)은 디지털 미디어 아이템(404)의 오디오 데이터에서의 다수의 오디오 위치들을 디지털 미디어 아이템(402)의 텍스트 데이터 내의 다수의 텍스트 위치와 매핑한다.

하나 이상의 팩터는 오디오 미디어 플레이어(432)가 오디오 북마크를 중개 디바이스(420)로 송신하게 할 수 있다. 그러한 팩터들은 오디오 미디어 플레이어(432)의 종료(또는 클로징 다운), 사용자에 의한 오디오 북마크의 설정, 또는 오디오 북마크가 설정된, 디지털 미디어 아이템(404)에 대응하는 (디지털 미디어 아이템(402)에 반영된) 텍스트 버전의 작품의 부분들을 디스플레이할 때의 사용을 위한 오디오 북마크를 저장하려는 사용자에 의한 외부 명령어를 포함할 수 있다.

단계 556에서, 중개 디바이스(420)는 오디오 북마크에 대응하는, 다수의 오디오 위치의, 특정 오디오 위치를 결정하기 위해 매핑(406)을 검사한다. 오디오 북마크는 매핑(406)에서 다수의 오디오 위치들 중 어느 것과도 정확히 매칭되지 않을 수 있다. 그러나, 중개 디바이스(420)는 오디오 북마크에 가장 가까운 오디오 위치를 선택할 수 있다. 대안적으로, 중개 다비아스(420)는 오디오 북마크 직전의 오디오 위치를 선택할 수 있고, 오디오 위치는 오디오 북마크에 가장 가까운 오디오 위치거나 그렇지 않을 수도 있다. 예를 들면, 오디오 북마크가 02:43:19(또는 2시간, 43분, 19초)를 가리키고 매핑(406)에서의 가장 가까운 오디오 위치들이 (1) 02:41:07 및 (2) 0:43:56을 가리키면, 오디오 위치(2)가 오디오 북마크에 가장 가깝더라도 오디오 위치(1)가 선택된다.

단계 558에서, 매핑에서의 특정한 오디오 위치가 식별되면, 중개 디바이스(420)는 매핑 (406)에서 특정 오디오 위치에 대응하는 특정 텍스트 위치를 결정한다.

단계 560에서, 중개 디바이스(420)는 이 예시에서는 디바이스(430)와 상이한 디바이스(410)에 특정 텍스트 위치를 송신한다. 예를 들면, 디바이스(410)는 테블릿 컴퓨터일 수 있고 디바이스(430)는 오디오 데이터를 처리하고 오디오 사운드를 생성하도록 구성된 스마트폰일 수 있다.

단계 560은 자동으로, 즉 특정 텍스트 위치를 결정하는 중개 디바이스(420)에 응답하여 수행될 수 있다. 대안적으로, 단계 560(또는 단계 556))은 디바이스(410)가 디지털 미디어 아이템(402)을 처리하려 한다는 지시를 디바이스(410)로부터 수신하는 것에 응답하여 수행될 수 있다. 지시는 오디오 북마크에 대응하는 텍스트 위치에 대한 요청일 수 있다.

단계 562에서, 텍스트 미디어 플레이어(412)는 특정 텍스트 위치에 관한 정보를 디스플레이한다. 단계 562은 중개 디바이스(420)로부터 특정 텍스트 위치를 수신하는 것에 응답하여 수행될 수 있다. 디바이스(410)는 디지털 미디어 아이템(402)에 반영된 텍스트 버전의 작품에서 특정 텍스트 위치에 선행하는 임의의 컨텐츠를 디스플레이하도록 요구되지 않는다. 예를 들면, 특정 텍스트 위치가 챕터 3, 단락 2, 문장 4를 가리키면, 디바이스(410)는 그 문장을 포함하는 페이지를 디스플레이한다. 텍스트 미디어 플레이어(412)는 마커가 디바이스(410)의 사용자에게, 페이지에서 리딩을 시작하는 곳을 시각적으로 가리키는 페이지의 특정 텍스트 위치에서 디스플레이되게 한다. 따라서, 사용자는 오디오 북에서 화자에 의해 말해지는 마지막 단어에 대응하는 위치에서 시작하는 텍스트 버전의 작품을 즉시 리딩할 수 있다.

대안적인 실시예에서, 디바이스(410)는 매핑(406)을 저장한다. 그러므로, 단계 556 - 560 대신에, 단계 554(디바이스(430)가 중개 디바이스(420)에 오디오 북마크를 가리키는 데이터를 송신함) 후에, 중개 디바이스(420)는 디바이스(410)에 오디오 북마크를 송신한다. 그 후, 텍스트 미디어 플레이어(412)는 오디오 북마크에 대응하는, 다수의 오디오 위치 중 특정 오디오 위치를 결정하기 위해 매핑(406)을 검사한다. 그 후, 텍스트 미디어 플레이어(412)는 특정 오디오 위치에 대응하는, 매핑(406)에서의 특정 텍스트 위치를 결정한다. 이러한 대안적인 프로세스는 전술한 단계 562으로 진행한다.

다른 대안적인 실시예에서, 중개 디바이스(420)는 포함되지 않는다. 따라서, 단계 554 및 560은 수행되지 않는다. 따라서, 디바이스(430)는 단계 556 및 558을 포함하는 도 5b에서의 모든 다른 단계들을 수행한다.

오디오 재생에 응답하는 텍스트의 강조 표시

실시예에서, 텍스트 버전의 작품의 부분으로터의 텍스트는 텍스트 버전의 작품에 대응하는 오디오 데이터가 재생되는 동안 강조 표시(highlighted) 또는 "발광(lit up)"한다. 전술된 바와 같이, 오디오 데이터는 텍스트 버전의 오디오 버전의 작품이고 인간 사용자에 의한, 텍스트 버전으로부터의 텍스트의 리딩을 반영할 수 있다. 본 명세서에서 사용된 바와 같이, 텍스트를 "강조 표시"하는 것은 텍스트를 동시에 디스플레이된 다른 텍스트로부터 강조 표시된 텍스트로 시각적으로 구별하는 미디어 플레이어(예를 들면, "e-리더")를 지칭한다. 텍스트를 강조 표시하는 것은 텍스트의 폰트를 바꾸는 것, 텍스트의 폰트 스타일(예를 들면, 이탤릭체, 볼드, 밑줄)을 바꾸는 것, 텍스트의 크기를 바꾸는 것, 텍스트의 색상을 바꾸는 것, 텍스트의 배경색을 바꾸는 것, 또는 텍스트와 연관된 애니메이션을 생성하는 것을 포함할 수 있다. 애니메이션의 생성의 예는 텍스트(또는 텍스트의 배경)가 깜박이거나 색상을 바꾸게 하는 것이다. 애니메이션을 생성하는 것의 다른 예는 텍스트 위로, 아래로, 또는 주위에 나타나는 그래픽을 생성하는 것이다. 예를 들면, 미디어 플레이어에 의해 재생되고 검출되는 단어 "토스터"에 응답하여, 미디어 플레이어는 디스플레이된 텍스트내의 단어 "토스터" 위에 토스터 이미지를 디스플레이한다. 애니메이션의 다른 예는 재생되는 오디오 데이터에서 그 부분이 검출될 때 텍스트의 일부를 "바운스"하는 바운싱 볼이다.

도 6은 본 발명의 일 실시예에 따라, 오디오 버전의 작품이 재생되고 있는 동안에, 텍스트 버전의 작품으로부터의 텍스트가 강조 표시되게 하기 위한 프로세스(600)를 묘사하는 흐름도이다.

단계 610에서, 오디오 버전의 오디오 데이터의 (끊임없이 변화하고 있는) 현재 재생 위치가 결정된다. 이 단계는 사용자의 디바이스 상에서 실행하는 미디어 플레이어에 의해 수행될 수 있다. 미디어 플레이어는 오디오 데이터를 처리하여 사용자를 위한 오디오를 생성한다.

단계 620에서는, 현재 재생 위치에 기초하여, 맵핑 내의 맵핑 기록이 식별된다. 현재 재생 위치는 맵핑 기록 내에서 식별된 오디오 위치와 매칭하거나 또는 거의 매칭할 수 있다.

단계 620은 미디어 플레이어가 오디오 데이터 내의 다수의 오디오 위치들을 텍스트 버전의 작품 내의 다수의 텍스트 위치들에 맵핑하는 맵핑에 대한 액세스를 가지면, 미디어 플레이어에 의해 수행될 수 있다. 대안적으로, 단계 620은 사용자의 디바이스 상에서 실행하는 다른 프로세스에 의해, 혹은 사용자의 디바이스로부터 네트워크를 통해 현재 재생 위치를 수신하는 서버에 의해 수행될 수 있다.

단계 630에서, 맵핑 기록 내에서 식별된 텍스트 위치가 식별된다.

단계 640에서, 텍스트 버전의 작품 중 텍스트 위치에 대응하는 부분이 강조 표시되게 된다. 이 단계는 미디어 플레이어에 의해, 또는 사용자의 디바이스 상에서 실행하는 다른 소프트웨어 애플리케이션에 의해 수행될 수 있다. 서버가 룩업 단계들(620과 630)을 수행하면, 단계 640은 서버가 텍스트 위치를 사용자의 디바이스로 전송하는 것을 더 수반할 수 있다. 이에 응답하여, 미디어 플레이어 또는 다른 소프트웨어 애플리케이션은 텍스트 위치를 입력으로서 받아들여, 대응하는 텍스트를 강조 표시되게 한다.

실시예에서, 미디어 플레이어에 의해 맵핑 내에서 식별된 상이한 텍스트 위치들은 상이한 유형들의 강조 표시와 연관된다. 예를 들면, 맵핑 내의 하나의 텍스트 위치는 폰트 색상이 검은색에서 붉은색으로 변경되는 것과 연관될 수 있는 한편, 맵핑 내의 또 다른 텍스트 위치는 토스터(toaster)로부터 "튀어나오는(popping)" 토스트를 보여주는 토스터 그래픽(toaster graphic)과 같은 애니메이션과 연관될 수 있다. 따라서, 맵핑 내의 각각의 맵핑 기록은 대응하는 텍스트 위치에 의해 식별된 텍스트가 어떻게 강조 표시되는지를 나타내는 "강조 표시 데이터"를 포함할 수 있다. 그러므로, 미디어 플레이어가 식별하고 강조 표시 데이터를 포함하는 맵핑 내의 각각의 맵핑 기록에 대해, 미디어 플레이어는 텍스트를 강조 표시하는 방법을 결정하기 위해 강조 표시 데이터를 사용한다. 맵핑 기록이 강조 표시 데이터를 포함하지 않으면, 미디어 플레이어는 대응하는 텍스트를 강조 표시 할 수 없다. 대안으로, 맵핑 내의 맵핑 기록이 강조 표시 데이터를 포함하지 않으면, 미디어 플레이어는 텍스트를 강조 표시 하기 위해 "디폴트(default)" 강조 표시 기술(예를 들면, 텍스트를 굵게하기)을 사용할 수 있다.

오디오 입력에 기초한 텍스트 강조 표시

도 7은 본 발명의 일 실시예에 따라, 사용자로부터의 오디오 입력에 응답하여, 디스플레이된 텍스트를 강조 표시하는 프로세스(700)를 묘사하는 흐름도이다. 이 실시예에서는, 맵핑이 요구되지 않는다. 사용자에게 동시에 디스플레이되고 있는 텍스트 버전의 작품의 부분 내의 텍스트를 강조 표시하기 위해 오디오 입력이 이용된다.

단계 710에서, 오디오 입력을 수신한다. 오디오 입력은 텍스트 버전의 작품으로부터의 텍스트를 사용자가 크게 읽는 것에 기초할 수 있다. 오디오 입력은 텍스트 버전의 부분을 디스플레이하는 디바이스에 의해 수신될 수 있다. 디바이스는 사용자로 하여금 단어, 구문, 또는 전체 문장을 큰소리로 읽도록 촉구할 수 있다. 그 촉구하는 것은 시각적일 수도 있고 청각적일 수도 있다. 시각적 촉구의 예로서, 디바이스는, 디바이스가 밑줄친 문장을 디스플레이하고 있는 동안에 또는 그 직전에, 다음의 문장: "밑줄친 텍스트를 읽어주십시오"가 디스플레이되게 할 수 있다. 오디오 촉구의 예로서, 디바이스는 컴퓨터 생성 음성으로 하여금 "밑줄친 텍스트를 읽어주십시오"를 읽게 하거나, 또는 동일한 명령을 제공하는 미리 녹음된 인간 음성이 재생되게 할 수 있다.

단계 720에서, 오디오 입력에 대해 음성-텍스트 분석을 수행하여 오디오 입력 내에 나타난 하나 이상의 단어들을 검출한다.

단계 730에서, 오디오 입력 내에 나타난 각각의 검출된 단어들에 대해, 그 검출된 단어를 특정 단어들 세트와 비교한다. 특정 단어들 세트는 컴퓨팅 디바이스(예를 들면, e-리더)에 의해 현재 디스플레이되는 모든 단어들일 수 있다. 대안으로, 특정 단어들 세트는 사용자로 하여금 읽기를 촉구하는 단어들 전체가 될 수 있다.

단계 740에서, 특정 세트 내의 단어와 매칭하는 각각의 검출된 단어에 대해, 디바이스는 그 매칭되는 단어가 강조 표시되게 할 수 있다.

프로세스(700)에 묘사된 단계들은 텍스트 버전의 작품으로부터의 텍스트를 디스플레이하는 단일 컴퓨팅 디바이스에 의해 수행될 수 있다. 대안으로, 프로세스(700)에 묘사된 단계들은 텍스트 버전으로부터의 텍스트를 디스플레이하는 컴퓨팅 디바이스와는 상이한 하나 이상의 컴퓨팅 디바이스에 의해 수행될 수 있다. 예를 들면, 단계 710에서 사용자로부터의 오디오 입력은 네트워크를 통해 사용자의 디바이스로부터 음성-텍스트 분석을 수행하는 네트워크 서버로 전송될 수 있다. 네트워크 서버는 그 후 강조 표시 데이터를 사용자의 디바이스로 전송하여 사용자의 디바이스가 적절한 텍스트를 강조 표시하게 할 수 있다.

텍스트 선택에 대한 응답으로 오디오 재생

실시예에서, 텍스트 버전의 작품의 부분들을 디스플레이하는 미디어 플레이어의 사용자는 디스플레이된 텍스트의 부분들을 선택하여, 대응하는 오디오가 재생되게 할 수 있다. 예를 들면, 디지털 북으로부터 디스플레이된 단어가 "도넛(donut)"이고 사용자가 그 단어를 (예를 들어, 해당 단어를 디스플레이하는 미디어 플레이어의 터치 스크린의 부분을 터치하는 것에 의해) 선택하면, "donut"이라는 오디오가 재생될 수 있다.

텍스트 버전의 작품 내의 텍스트 위치들을 오디오 데이터 내의 오디오 위치들로 맵핑하는 맵핑은 선택된 텍스트에 대응하는 오디오 데이터의 부분을 식별하기 위해 이용된다. 사용자는 단일의 단어, 구문, 또는 심지어 하나 이상의 문장들을 선택할 수 있다. 디스플레이된 텍스트의 부분을 선택하는 입력에 응답하여, 미디어 플레이어는 하나 이상의 텍스트 위치들을 식별할 수 있다. 예를 들면, 선택된 부분이 다수의 라인들 또는 문장들을 포함한다고 해도, 미디어 플레이어는 선택된 부분에 대응하는 단일의 텍스트 위치를 식별할 수 있다. 식별된 텍스트 위치는 선택된 부분의 시작에 대응할 수 있다. 다른 예로서, 미디어 플레이어는 선택된 부분의 시작에 대응하는 제1 텍스트 위치 및 선택된 부분의 끝에 대응하는 제2 텍스트 위치를 식별할 수 있다.

미디어 플레이어는 식별된 텍스트 위치를 이용하여 식별된 텍스트 위치에 가장 근접한 (또는 가장 근접한 선행) 텍스트 위치를 나타내는 맵핑 내의 맵핑 기록을 검색한다. 미디어 플레이어는 맵핑 기록에 표시된 오디오 위치를 이용하여, 오디오 데이터 내에서 오디오를 재생하기 위해 오디오 데이터의 처리를 시작할 지점을 식별한다. 오직 단일 텍스트 위치가 식별되면, 오디오 위치의 또는 오디오 위치 근방의 단어 또는 사운드만이 재생될 수 있다. 따라서, 단어 또는 사운드가 재생된 후에, 미디어 플레이어는 더 이상의 오디오를 재생하는 것을 멈춘다. 다른 방법으로, 미디어 플레이어는 오디오 위치에서 또는 오디오 위치 근방에서 재생하는 것을 시작하고, (a)오디오 데이터의 종료부분에 도달하거나, (b)사용자로부터 추가로 입력되거나(예를 들면, "정지" 버튼의 선택), 또는 (c)오디오 데이터 내의 미리 지정된 정지 지점(예를 들면, 진행되기 위해 추가의 입력을 필요로 하는 페이지 또는 챕터의 끝부분)이 될때까지, 오디오 위치를 뒤따라서 오디오를 재생하는 것을 중지하지 않는다.

미디어 플레이어가 선택된 부분에 기초한 2개의 텍스트 위치들을 식별하면, 2개의 오디오 위치들은 식별되어, 대응하는 오디오를 어디에서 재생하기 시작하고 어디에서 재생하는 것을 종료할지를 식별하는데 이용될 수 있다.

실시예에서, 오디오 위치에 의해 식별된 오디오 데이터는 천천히(즉, 느린 재생 속도로) 또는 오디오 데이터 내의 현재 재생 위치를 진행하지 않고 계속적으로 재생될 수 있다. 예를 들면, 태블릿 컴퓨터의 사용자가 디스플레이된 단어 "two"를 태블릿 컴퓨터의 터치 스크린을 그의 손가락으로 터치함으로써 선택하고 그 디스플레이된 단어를 계속적으로 터치하면(즉, 그의 손가락을 들어올리지 않고 그의 손가락을 다른 디스플레이된 단어로 이동하지 않음), 태블릿 컴퓨터는 단어 "twoooooooooooooooo"를 읽음으로써 나타내어진 사운드를 생성하는 대응하는 오디오를 재생한다.

유사한 실시예에서, 사용자가 미디어 플레이어의 터치 스크린 상의 디스플레이된 텍스트를 가로질러 그녀의 손가락을 드래그하는 속도는, 대응하는 오디오가 동시에 또는 유사한 속도로 재생되게 한다. 예를 들면, 사용자가 디스플레이된 단어 "donut"의 문자 "d"를 선택하고 그 다음에 그의 손가락을 표시된 단어를 가로질러 천천히 이동한다. 이러한 입력에 응답하여, 미디어 플레이어는 대응하는 오디오 데이터를 (맵핑을 이용하여) 식별하고, 사용자가 그의 손가락을 움직이는 속도와 동일한 속도로 대응하는 오디오를 재생한다. 따라서, 미디어 플레이어는 마치 텍스트 버전의 작품의 텍스트의 판독기가 단어 "donut"을 "dooooooonnnnnnuuuuuut"으로 발음하는 것처럼 사운드를 내는 오디오를 생성한다.

유사한 실시예에서, 사용자가 터치 스크린 상에 디스플레이된 단어를 "터치하는" 시간은 단어의 오디오 버전이 얼마나 빨리 또는 느리게 재생되는 지에 영향을 준다. 예를 들면, 디스플레이된 단어를 사용자의 손가락에 의해 빠르게 태핑(tap)하면 대응하는 오디오는 정상 속도로 재생되는 반면, 사용자가 선택된 단어 위에 그의 손가락을 1초 이상 내려놓고 있으면 대응하는 오디오는 정상 속도의 ½로 재생되게 한다.

사용자 주석을 전송

실시예에서, 사용자는 디지털 작품의 하나의 미디어 버전(예를 들면, 오디오)에 주석들을 생성하는 것을 시작하여, 주석들이 디지털 작품의 다른 미디어 버전(예를 들면, 텍스트)에 연관되게 한다. 따라서, 주석이 하나의 유형의 미디어의 컨텍스트에 생성될 수 있는 한편, 주석은 다른 유형의 미디어의 컨텍스트에서 활용될 수도 있다. 주석이 생성되고 활용되는 "컨텍스트(context)"는 생성 또는 활용이 발생할 때 텍스트가 디스플레이되고 있는지 또는 오디오가 재생되고 있는지를 지칭한다.

다음의 예시들은 주석이 생성되는 때에 오디오나 텍스트 위치 내의 위치를 결정하는 것을 수반하지만, 본 발명의 몇몇 실시예들은 이와 같이 제한되지는 않는다. 예를 들어, 오디오 컨텍스트에서 주석이 생성되는 때의 오디오 파일 내의 현재 재생 위치는, 텍스트 컨텍스트에서 주석을 활용하는 경우에 이용되지는 않는다. 대신에, 주석의 지시는 대응하는 텍스트 버전의 각각의 "페이지" 상에 또는 대응하는 텍스트 버전의 시작이나 끝에서 디바이스에 의해 디스플레이될 수 있다. 다른 예로서, 텍스트 컨텍스트에서 주석이 생성되는 때에 디스플레이되는 텍스트는, 오디오 컨텍스트에서 주석을 활용하는 경우에 이용되지는 않는다. 대신에, 주석의 지시는 대응하는 오디오 버전이 재생되고 있는 동안에 지속적으로 또는 대응하는 오디오 버전의 시작이나 끝에서 디바이스에 의해 디스플레이될 수 있다. 비주얼 지시에 부가적으로 또는 대안적으로, 주석의 오디오 지시가 재생될 수 있다. 예를 들어, 비프음(beep)과 오디오 트랙 모두가 들릴 수 있는 방식으로 오디오 트랙과 동시에 "비프음"이 재생된다.

도 8a 및 도 8b는 본 발명의 일 실시예에 따라 하나의 컨텍스트로부터 다른 컨텍스트로 주석을 전송하는 프로세스들을 도시하는 흐름도들이다. 상세하게는, 도 8a는 "텍스트" 컨텍스트에서 주석을 생성하며 "오디오" 컨텍스트에서 이 주석을 활용하는 프로세스(800)를 도시하는 흐름도인 한편, 도 8b는 "오디오" 컨텍스트에서 주석을 생성하며 "텍스트" 컨텍스트에서 이 주석을 활용하는 프로세스(850)를 도시하는 흐름도이다. 주석의 생성 및 활용은 동일한 컴퓨팅 디바이스(예를 들어, 디바이스(410)) 상에서 또는 별개의 컴퓨팅 디바이스들(예를 들어, 디바이스들(410 및 430)) 상에서 발생할 수 있다. 도 8a는 디바이스(410) 상에서 주석이 생성되며 활용되는 시나리오를 기술하는 한편, 도 8b는 디바이스(410) 상에서 주석이 생성되며 나중에 디바이스(430) 상에서 이 주석이 활용되는 시나리오를 기술한다.

도 8a의 단계 802에서, 디바이스(410) 상에서 실행되는 텍스트 미디어 플레이어(412)는 디지털 미디어 아이템(402)으로부터의 (예를 들어, 페이지 형태의) 텍스트가 디스플레이되게 한다.

단계 804에서, 텍스트 미디어 플레이어(412)는 디지털 미디어 아이템(402)에 반영된 저작물의 텍스트 버전 내의 텍스트 위치를 결정한다. 텍스트 위치는 결국 주석과 연관되어 저장된다. 텍스트 위치는 다수의 방식으로 결정될 수 있다. 예를 들어, 텍스트 미디어 플레이어(412)는 디스플레이된 텍스트 내의 텍스트 위치를 선택하는 입력을 수신할 수 있다. 이 입력은, 시간 기간 동안 사용자가 디바이스(410)의 (텍스트를 디스플레이하는) 터치 스크린을 터치하는 것일 수 있다. 이 입력은 특정 단어, 다수의 단어들, 페이지의 시작이나 끝, 문장의 이전이나 이후 등을 선택할 수 있다. 이 입력은, 텍스트 미디어 플레이어(412)가, 주석이 생성되며 텍스트 위치와 연관될 수 있는 "주석 생성" 모드로 변경하게 하는 버튼을 처음으로 선택하는 것을 더 포함할 수 있다.

텍스트 위치를 결정하는 다른 예로서, 텍스트 미디어 플레이어(412)는, (디지털 미디어 아이템(402)에 반영된) 저작물의 텍스트 버전의 어떤 부분이 디스플레이되고 있는지에 기초하여 자동으로 (사용자 입력 없이) 텍스트 위치를 결정한다. 예를 들어, 디바이스(410)가 저작물의 텍스트 버전의 페이지 20을 디스플레이하고 있는 경우, 주석은 페이지 20과 연관될 것이다.

단계 806에서, 텍스트 미디어 플레이어(412)는, 터치 스크린 상에 디스플레이될 수 있는 "주석 생성" 버튼을 선택하는 입력을 수신한다. 이러한 버튼은, 예를 들어 1초와 같은 시간 기간 동안 사용자가 터치 스크린을 터치하는, 텍스트 위치를 선택하는 단계 804에서의 입력에 응답하여 디스플레이될 수 있다.

단계 804가 단계 806 이전에 발생하는 것으로 도시되어 있지만, 대안적으로, "주석 생성" 버튼의 선택은 텍스트 위치의 결정 이전에 발생할 수 있다.

단계 808에서, 텍스트 미디어 플레이어(412)는 주석 데이터를 생성하는데 이용되는 입력을 수신한다. 이 입력은 (디바이스(410)의 마이크로폰으로 사용자가 말하는 것과 같은) 음성 데이터 또는 (물리적이든지 그래픽이든지 간에, 사용자가 키보드 상의 키들을 선택하는 것과 같은) 텍스트 데이터일 수 있다. 주석 데이터가 음성 데이터인 경우, 텍스트 미디어 플레이어(412)(또는 다른 프로세스)는 음성 데이터의 텍스트 버전을 생성하기 위하여 음성 데이터에 대한 음성-텍스트 분석을 수행할 수 있다.

단계 810에서, 텍스트 미디어 플레이어(412)는 텍스트 위치와 연관하여 주석 데이터를 저장한다. 텍스트 미디어 플레이어(412)는 맵핑(예를 들어, 맵핑(406)의 사본)을 이용하여, 맵핑에서, 텍스트 위치에 가장 가까운 특정 텍스트 위치를 식별한다. 그런 다음, 맵핑을 이용하여, 텍스트 미디어 플레이어는 특정 텍스트 위치에 대응하는 오디오 위치를 식별한다.

단계 810에 대안적으로, 텍스트 미디어 플레이어(412)는 네트워크(440)를 통해 중개 디바이스(420)로 주석 데이터 및 텍스트 위치를 송신한다. 이에 응답하여, 중개 디바이스(420)는 텍스트 위치와 연관하여 주석 데이터를 저장한다. 중개 디바이스(420)는 맵핑(예를 들어, 맵핑(406))을 이용하여, 맵핑(406)에서, 텍스트 위치에 가장 가까운 특정 텍스트 위치를 식별한다. 그런 다음, 맵핑(406)을 이용하여, 중개 디바이스(420)는 특정 텍스트 위치에 대응하는 오디오 위치를 식별한다. 중개 디바이스(420)는 네트워크(440)를 통해 디바이스(410)로 식별된 오디오 위치를 송신한다. 중개 디바이스(420)는, 디바이스(410)로부터의 특정 오디오 데이터와 연관된 주석들에 대한 그리고/또는 특정 오디오 데이터에 대한 요구에 응답하여 식별된 오디오 위치를 송신할 수 있다. 예를 들어, "The Tale of Two Cities"의 오디오 북 버전에 대한 요구에 응답하여, 중개 디바이스(420)는, 오디오 북과 연관된 임의의 주석 데이터가 존재하는지 여부를 판정하고, 그러한 경우 주석 데이터를 디바이스(410)로 송신한다.

단계 810은, 주석이 생성된 때를 나타내는 날짜 및/또는 시간 정보를 저장하는 단계를 더 포함할 수 있다. 이 정보는, 나중에 오디오 컨텍스트에서 주석이 활용되는 때에 디스플레이될 수 있다.

단계 812에서, 오디오 미디어 플레이어(414)는, (도시되지는 않았지만) 이 예에서 디바이스(410) 상에 저장될 수 있거나 또는 네트워크(440)를 통해 중개 디바이스(420)로부터 디바이스(410)로 스트리밍될 수 있는 디지털 미디어 아이템(404)의 오디오 데이터를 처리함으로써 오디오를 재생한다.

단계 814에서, 오디오 미디어 플레이어(414)는, 오디오 데이터에서의 현재 재생 위치가 맵핑(406)을 이용하여 단계 810에서 식별된 오디오 위치와 매칭되는지 또는 거의 매칭되는지를 결정한다. 대안적으로, 단계 812에 나타낸 바와 같이, 오디오 미디어 플레이어(414)는, 주석이 이용가능하다는 것을 나타내는 데이터가, 현재 재생 위치가 위치되는 곳에 관계없이 그리고 어떠한 오디오도 재생할 필요 없이 디스플레이되게 할 수 있다. 다시 말하면, 단계 812는 불필요하다. 예를 들어, 사용자는 오디오 미디어 플레이어(414)를 론칭하며, 오디오 미디어 플레이어(414)가 디지털 미디어 아이템(404)의 오디오 데이터를 로딩하게 할 수 있다. 오디오 미디어 플레이어(414)는, 주석 데이터가 오디오 데이터와 연관된다고 결정한다. 오디오 미디어 플레이어(414)는 오디오 데이터에 관한 정보(예를 들어, 제목, 아티스트, 장르, 길이 등)가 오디오 데이터와 연관된 어떠한 오디오도 생성하지 않고 디스플레이되게 한다. 이 정보는, 주석 데이터와 연관되는 오디오 데이터 내의 위치에 관한 정보 및 주석 데이터에 대한 레퍼런스를 포함할 수 있는데, 이 위치는 단계 810에서 식별된 오디오 위치에 대응한다.

단계 816에서, 오디오 미디어 플레이어(414)는 주석 데이터를 활용한다. 주석 데이터가 오디오 데이터인 경우에는, 주석 데이터를 활용하는 단계는, 음성 데이터를 처리하여 오디오를 생성하는 단계 또는 음성 데이터를 텍스트 데이터로 변환하며 텍스트 데이터를 디스플레이하는 단계를 수반할 수 있다. 주석 데이터가 텍스트 데이터인 경우에는, 주석 데이터를 활용하는 단계는, 예를 들어 GUI와 별개로 보이는 새로운 윈도우에 또는 재생되는 오디오 데이터의 속성들을 디스플레이하는 GUI의 측면 패널에 텍스트 데이터를 디스플레이하는 단계를 수반할 수 있다. 속성들의 비제한적인 예로는, 오디오 데이터의 시간 길이, 오디오 데이터 내의 절대 위치(예를 들어, 시간 오프셋) 또는 오디오 데이터 내의 상대 위치(예를 들어, 챕터나 섹션 번호)를 나타낼 수 있는 현재 재생 위치, 오디오 데이터의 파형, 및 디지털 저작물의 제목이 포함된다.

도 8b는 전술한 바와 같이 주석이 디바이스(430) 상에서 생성되며 나중에 디바이스(410) 상에서 활용되는 시나리오를 기술한다.

단계 852에서, 오디오 미디어 플레이어(432)는 디지털 미디어 아이템(404)으로부터의 오디오 데이터를 처리하여, 오디오를 재생한다.

단계 854에서, 오디오 미디어 플레이어(432)는 오디오 데이터 내의 오디오 위치를 결정한다. 오디오 위치는 결국 주석과 연관되어 저장된다. 오디오 위치는 다수의 방식으로 결정될 수 있다. 예를 들어, 오디오 미디어 플레이어(432)는 오디오 데이터 내의 오디오 위치를 선택하는 입력을 수신할 수 있다. 이 입력은, 시간 기간 동안 사용자가 디바이스(430)의 (오디오 데이터의 속성들을 디스플레이하는) 터치 스크린을 터치하는 것일 수 있다. 이 입력은, 챕터 번호 및 단락 번호와 같이, 오디오 데이터 내의 상대 위치 또는 오디오 데이터의 길이를 반영하는 타임라인 내의 절대 위치를 선택할 수 있다. 이 입력은, 오디오 미디어 플레이어(432)가, 주석이 생성되며 오디오 위치와 연관될 수 있는 "주석 생성" 모드로 변경하게 하는 버튼을 처음으로 선택하는 것을 더 포함할 수 있다.

오디오 위치를 결정하는 다른 예로서, 오디오 미디어 플레이어(432)는, 오디오 데이터의 어떤 부분이 처리되고 있는지에 기초하여 자동으로 (사용자 입력 없이) 오디오 위치를 결정한다. 예를 들어, 오디오 미디어 플레이어(432)가 디지털 미디어 아이템(404)에 반영된 디지털 저작물의 챕터 20에 대응하는 오디오 데이터의 일부를 처리하고 있는 경우, 오디오 미디어 플레이어(432)는, 오디오 위치가 적어도 챕터 20 내의 어딘가에 있다고 결정한다.

단계 856에서, 오디오 미디어 플레이어(432)는 디바이스(430)의 터치 스크린 상에 디스플레이될 수 있는 "주석 생성" 버튼을 선택하는 입력을 수신한다. 이러한 버튼은, 예를 들어 1초와 같은 시간 기간 동안 지속적으로 사용자가 터치 스크린을 터치하는, 오디오 위치를 선택하는 단계 854에서의 입력에 응답하여 디스플레이될 수 있다.

단계 854가 단계 856 이전에 발생하는 것으로 도시되어 있지만, 대안적으로, "주석 생성" 버튼의 선택은 오디오 위치의 결정 이전에 발생할 수 있다.

단계 858에서, 제1 미디어 플레이어는 단계 808과 유사하게 주석 데이터를 생성하는데 이용되는 입력을 수신한다.

단계 860에서, 오디오 미디어 플레이어(432)는 오디오 위치와 연관하여 주석 데이터를 저장한다. 오디오 미디어 플레이어(432)는 단계 854에서 결정된 오디오 위치에 가장 가까운 특정한 오디오 위치를 맵핑에서 식별하기 위해 맵핑(예컨대, 맵핑 406)을 이용한다. 그런 다음, 맵핑을 이용하여, 오디오 미디어 플레이어(432)는 특정 오디오 위치에 대응하는 텍스트 위치를 식별한다.

단계 860에 대안적으로, 오디오 미디어 플레이어(432)는, 네트워크(400)를 통해, 중개 디바이스(420)에, 주석 데이터 및 오디오 위치를 전송한다. 그에 응답하여, 중개 디바이스(420)는 오디오 위치와 연관하여 주석 데이터를 저장한다. 중개 디바이스(420)는 단계 854에서 결정된 오디오 위치에 가장 가까운 특정 오디오 위치를 맵핑에서 식별하기 위해 맵핑(406)을 이용한다. 그런 다음, 맵핑(406)을 이용하여, 중개 디바이스(420)가 특정 오디오 위치에 대응하는 텍스트 위치를 식별한다. 중개 디바이스(420)는 식별된 텍스트 위치를 네트워크(440)를 통해 디바이스(410)에 전송한다. 중개 디바이스(420)는 디바이스(410)로부터 특정 텍스트 데이터와 연관된 주석 및/또는 특정 텍스트 데이터에 대한 요청에 응답하여 식별된 텍스트 위치를 전송한다. 예를 들어, "The Grapes of Wrath"라는 디지털 북에 대한 요청에 응답하여, 중개 디바이스(420)는 그 디지털 북과 연관된 어떠한 주석 데이터가 있는지 판단하고, 만약 있다면, 주석 데이터를 디바이스(430)에 보낸다.

단계 860은 또한 주석이 생성되었을 때를 나타내는 데이터 및/또는 시간 정보를 저장하는 것을 포함한다. 이 정보는 주석이 텍스트 컨텍스트 내에서 소비될 때 추후에 디스플레이될 수 있다.

단계 862에서, 디바이스(410)는 디지털 미디어 아이템(404)의 텍스트 버전인 디지털 미디어 아이템(402)과 연관된 텍스트 데이터를 디스플레이한다. 디바이스(410)는 디지털 미디어 아이템(402)의 국부적으로 저장된 카피에 기초하여 디지털 미디어 아이템(402)의 텍스트 데이터를 디스플레이하거나, 국부적으로 저장된 카피가 존재하지 않는다면, 중개 디바이스(420)로부터 텍스트 데이터가 스트리밍되는 동안 텍스트 데이터를 디스플레이할 수 있다.

단계 864에서, 디바이스(410)는 텍스트 위치(단계 860에서 식별됨)를 포함하는 텍스트 버전의 작품(디지털 미디어 아이템(402)에 반영됨)의 일부가 디스플레이되는 때를 결정한다. 대안적으로 디바이스(410)는, 만약 있다면, 텍스트 버전의 작품의 어떤 부분이 디스플레이되는지에 관계 없이 주석이 이용가능하다는 것을 나타내는 데이터를 디스플레이할 수 있다.

*단계 866에서, 텍스트 미디어 플레이어(412)는 주석 데이터를 소비한다. 주석 데이터가 음성 데이터이면, 주석 데이터를 소비하는 것이 음성 데이터를 재생하거나 음성 데이터를 텍스트 데이터로 변환하여 텍스트 데이터를 디스플레이하는 것을 포함할 수 있다. 주석 데이터가 텍스트 데이터이면, 주석 데이터를 소비하는 것이, 예를 들면, 텍스트 버전의 작품의 일부를 디스플레이하는 GUI의 사이드 패널 또는 GUI와 분리되어 나타나는 새로운 윈도우 내에 텍스트 데이터를 디스플레이하는 것을 포함할 수 있다.

낭독 특징

전술한 바와 같이, 미디어 플레이어의 사용자는 작품의 텍스트 버전을 봄과 동시에 작품의 오디오 버전을 들을 수 있다. 이러한 시나리오를 본 명세서에서는 "낭독(read aloud)" 시나리오라고 한다. 미디어 플레이어가 동시에 작품의 텍스트 버전의 일부분을 디스플레이하고 작품의 오디오 버전의 일부분을 플레이할 때, 미디어 플레이어는 "낭독 모드"에 있다고 한다.

실시예에서, 미디어 플레이어는 미디어 플레이어가 낭독 모드에 있는지를 시각적으로 표시한다. 낭독 모드에 있다는 시각적 표시는 미디어 플레이어의 스크린 상의 어딘가에 나타나는 아이콘 또는 그래픽일 수 있다. 예를 들어, 미디어 플레이어가 낭독 모드에 있는 동안 미디어 플레이어에 의해 디스플레이되는 각각의 페이지 상에 내레이터 "캐릭터"의 이미지가 미디어 플레이어에 의해 디스플레이되어 애니메이션된다.

미디어 플레이어가 낭독 모드에 있는 동안, 사용자는 미디어 플레이어를 통해 제공되고 이 시나리오와 연관되는 다수의 세팅을 선택할 수 있다.

낭독 모드에서의 세팅의 일 예는 자동 페이지 전환 세팅(automatic page turn setting)이다. 미디어 플레이어가 자동 페이지 전환 세팅 하에서 동작하고 있다면, 오디오 데이터 내의 현재 재생 위치가 미디어 플레이어에 의해 디스플레이된 페이지의 끝에 대응할 때, 페이지는 자동으로, 즉, 사용자 입력 없이 "전환"된다. 디지털 페이지 "전환하기"는 제1 페이지의 디스플레이를 중단하고 제1 페이지에 후속하는 제2 페이지를 디스플레이하는 것을 수반한다. 그러한 "전환하기"는 제1 페이지가 전환되고 있는 실제 페이지임을 나타내는 그래픽을 디스플레이하는 것을 포함할 수 있다. 따라서, 자동 페이지 전환 세팅 하에서, 미디어 플레이어는 오디오 데이터의 현재 재생 위치가 디스플레이된 페이지 상의 마지막 단어에 대응할 때를 결정한다. 이러한 결정은 맵핑이 미디어 플레이어 상에 저장되든지 미디어 플레이어에 원격인 서버 상에 저장되든지, 본 명세서에 설명된 바와 같이, 맵핑을 이용하여 현재의 오디오 위치를 현재의 텍스트 위치로 변환함으로써 가능해진다.

낭독 모드에서의 세팅의 다른 예는 페이지 끝 세팅(end of page setting)이다. 미디어 플레이어가 페이지 끝 세팅 하에서 동작하고 있다면, 미디어 플레이어는 오디오 데이터의 현재 재생 위치가 미디어 플레이어에 의해 디스플레이되는 페이지의 끝에 있는 텍스트에 대응할 때를 검출한다. 이러한 검출에 응답하여, 미디어 플레이어는 오디오 데이터의 재생을 중단시킨다. 미디어 플레이어의 사용자로부터의 입력만이 미디어 플레이어가 오디오 데이터의 프로세싱을 계속하게 할 것이다. 또한, 입력은 미디어 플레이어가 페이지를 "전환"하게 할 수 있다. 그러한 입력은 미디어 플레이어의 터치 스크린을 통한 입력 또는 음성 입력일 수 있다.

낭독 모드에서의 세팅의 다른 예는 북 제어 세팅(book control setting)이다. 미디어 플레이어가 북 제어 세팅 하에서 동작하고 있다면, 작품의 텍스트 버전과 연관되는 데이터(예를 들어, 메타데이터)를 이용하여 대응하는 오디오 데이터의 재생을 제어한다. 따라서, 텍스트 데이터 또는 맵핑 내의 태그들과 같은 특정 데이터가, 페이지 위치에 상관없이, 오디오 데이터의 재생을 일시정지 또는 정지시킬 때를 나타낸다. 예를 들어, 어린이 책의 텍스트 버전은, 그 중 하나가 사과인, 객체들에 대한 복수의 픽처들을 갖는 페이지를 가질 수 있다. 어린이 책의 오디오 버전은, "사과를 찾을 수 있나요?"라고 물을 수 있고, 질문의 끝에 대응하는 텍스트 버전의 부분은 오디오 재생을 일시정지할 때를 나타내는 태그(또는 다른 데이터)를 갖는다. 미디어 플레이어는 그 태그를 읽고, 응답하여, 미디어 플레이어의 터치 스크린 상의 디스플레이된 사과의 사용자 선택과 같은, 사용자로부터의 부가적인 입력이 있을 때까지 재생을 일시정지한다. 대안적으로, 오디오 버전 및 텍스트 버전과 연관된 맵핑은 오디오를 일시정지할 때를 나타내는 일시정지 데이터를 포함할 수 있다. 따라서, 오디오 버전의 현재 재생 위치가 변화하고 있는 동안, 미디어 플레이어가 일시정지 데이터를 검출할 때, 미디어 플레이어는 터치 스크린 상의 디스플레이된 사과를 탭핑하는 것과 같이, 사용자가 입력을 제공할 때까지 재생을 일시정지한다. 일단 사용자가 요구된 입력을 제공하면, 오디오 버전의 재생이 재개된다.

오디오 데이터의 재생을 자동으로 일시정지

(전술한 페이지 끝 세팅에서와 같은 페이지의 끝에서와 다른) 일부 시나리오들에서, 작품의 텍스트 버전의 일부분이 디스플레이되고 있는 동안 작품의 오디오 버전의 재생을 자동으로 일시정지하는 것이 유익할 수 있다. 예를 들어, 일부 작품들에 대하여, 텍스트 버전들은 픽처들을 포함한다. 구체적으로, 작품의 텍스트 버전의 페이지는 임의의 텍스트 없이 픽처만을 포함할 수 있거나, 또는 픽처 및 텍스트를 포함할 수 있고, 텍스트 버전의 다른 페이지들은 어떤 픽처도 포함하지 않는다. 그러한 상황들에서는, 작품의 오디오 버전의 재생을 정지시켜서 독자가 조용히 픽처를 분석할 수 있게 하는 것이 유익할 수 있다.

실시예에서, 작품의 텍스트 버전은 작품의 오디오 버전의 재생이 일시정지되어야 하는 때를 나타내는 "일시정지 태그"를 포함한다. 예를 들어, 일시정지 태그는 텍스트 버전 내의 픽처에 선행할 수 있거나 텍스트 버전 내의 질문의 바로 다음에 올 수 있다. 따라서, 일시정지 태그는 작품의 텍스트 버전 내의 특정 텍스트 위치에 대응할 수 있다. 미디어 플레이어(또는 원격 서버)는 맵핑에 기초하여, 작품의 오디오 버전의 현재의 재생이 특정 텍스트 위치에 대응할 때를 결정한다. 결정에 응답하여, 미디어 플레이어는 오디오 데이터의 재생을 일시정지한다. 일시정지는 3초와 같이, 미리 결정될 수 있고, 그 후에 미디어 플레이어는 오디오 데이터의 재생을 자동으로 (즉, 추가 사용자 입력 없이) 다시 시작한다. 대안적으로, 일시정지하는 시간의 양은 텍스트 버전의 메타데이터 내의 정보 또는 일시정지 태그 자체 내의 정보에 기초하여 결정될 수 있고, 여기서 정보는 5초와 같은 시간의 양을 나타내고, 그 후에 미디어 플레이어는 미디어 플레이어가 재생을 정지했던 곳에서 다시 시작하여 오디오 데이터를 자동으로 재생한다. 또한 대안적으로, 미디어 플레이어는 미디어 플레이어가 재생을 일시정지한 후에 미디어 플레이어가 작품의 오디오 버전의 재생을 계속하게 하는 사용자 입력을 수신한다. 사용자 입력은 재생을 계속하기 위해 요구될 수 있거나 일시정지 시간을 단축하는 데 이용될 수 있다.

관련 실시예에서, 작품의 오디오 버전 및 텍스트 버전과 연관된 맵핑은, 오디오 버전에서, 특정 시간의 양 동안 또는 사용자 입력이 수신될 때까지 일시정지할 곳을 나타내는 일시정지 데이터를 포함한다. 예를 들어, 미디어 플레이어가 작품의 오디오 버전을 프로세싱하는 동안, 미디어 플레이어는 오디오 버전 내의 현재 재생 위치를 추적한다. 현재 재생 위치가 맵핑에서 일시정지 데이터와 연관되는 오디오 위치에 대응할 때, 미디어 플레이어는 오디오 데이터의 재생을 일시정지한다.

하드웨어 개요

일 실시예에 따르면, 여기에서 설명하는 기술은 하나 이상의 특수 목적 컴퓨팅 디바이스에 의해 구현된다. 특수 목적 컴퓨팅 디바이스는 기술을 수행하기 위해 하드-와이어드될 수 있거나, 기술을 수행하기 위해 영속적으로 프로그램된 하나 이상의 ASIC(application-specific integrated circuits) 또는 FPGA(field programmable gate arrays) 등의 디지털 전자 디바이스를 포함할 수 있거나, 펌웨어, 메모리, 다른 저장소, 또는 조합의 프로그램 명령어들에 따라 기술을 수행하도록 프로그램된 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 이러한 특수 목적 컴퓨팅 디바이스는 또한 커스텀 하드-와이어드 로직, ASIC, 또는 FPGA를 기술을 성취하기 위해 커스텀 프로그래밍과 조합할 수도 있다. 특수 목적 컴퓨팅 디바이스들은 데스크탑 컴퓨터 시스템, 포터블 컴퓨터 시스템, 핸드헬드 디바이스, 네트워킹 디바이스 또는 기술을 구현하기 위한 하드-와이어드 및/또는 프로그램 로직을 통합한 임의의 다른 디바이스일 수 있다.

예를 들어, 도 9는 본 발명의 일 실시예가 구현될 수 있는 컴퓨터 시스템(900)을 도시하는 블럭도이다. 컴퓨터 시스템(900)은 버스(902) 또는 정보를 통신하기 위한 다른 통신 메커니즘, 및 버스(902)와 연결되어 정보를 처리하는 하드웨어 프로세서(904)를 포함한다. 하드웨어 프로세서(904)는, 예를 들면, 범용 마이크로프로세서일 수 있다.

컴퓨터 시스템(900)은 또한 RAM(random access memory) 등의 주 메모리(906) 또는 버스(902)에 연결되며 프로세서(904)에 의해 실행될 명렁어 및 정보를 저장하는 다른 동적 저장 디바이스를 포함한다. 주 메모리(906)는 또한 프로세서(904)에 의해 실행될 명령어들의 실행 동안 일시적 변수 또는 다른 중간 정보를 저장하는데 이용될 수 있다. 이러한 명령어들은, 프로세서(904)에 액세스가능한 비-일시적 저장 매체에 저장될 때, 컴퓨터 시스템(900)을 명령어에서 특정된 동작들을 수행하도록 맞춤화되어 있는 특수 목적 머신이 되게 한다.

컴퓨터 시스템(900)은 또한 ROM(read only memory)(908) 또는 버스(902)에 연결되며, 프로세서(904)에 대한 정적 정보 및 명령어들을 저장하기 위한 다른 정적 저장 디바이스를 포함한다. 자기 디스크 또는 광학 디스크와 같은 정보 및 명령어들을 저장하기 위한 저장 디바이스(910)가 제공되며, 버스(902)에 연결된다.

컴퓨터 시스템(900)은 컴퓨터 사용자에게 정보를 디스플레이하기 위한 CRT(cathode ray tube)와 같은 디스플레이(912)에 버스(902)를 통해 연결될 수 있다. 영숫자 및 다른 키들을 포함하는 입력 디바이스(914)가 버스(902)에 연결되며, 프로세서(904)에 정보 및 커맨드 선택을 통신한다. 사용자 입력 디바이스의 또 다른 유형으로, 방향 정보 및 커맨드 선택을 프로세서(904)에 통신하고, 디스플레이(912) 상의 커서 움직임을 제어하기 위한 커서 방향키, 마우스 또는 트랙볼 등의 커서 컨트롤(916)이 있다. 이 입력 디바이스는, 전형적으로, 디바이스가 면 내의 위치들을 지정할 수 있게 해주는 제1 축(예컨대, x) 및 제2 축(예컨대, y)의 2개의 축 내의 2 자유도(2 degrees of freedom)를 갖는다.

컴퓨터 시스템(900)은, 여기서, 커스터마이즈화된 하드-와이어드 로직, 하나 이상의 ASIC 또는 FPGA, 컴퓨터 시스템과 조합하여 컴퓨터 시스템(900)을 특수 목적 머신이 되게 하거나 특수 목적 머신이 되도록 프로그램하는 펌웨어 및/또는 프로그램 로직을 이용하여 설명되는 기술을 구현할 수 있다. 일 실시예에 따르면, 여기서의 기술은 프로세서(904)가 주 메모리(906) 내에 포함된 하나 이상의 명령어들의 하나 이상의 시퀀스들을 실행하는 것에 응답하여 컴퓨터 시스템(900)에 의해 수행된다. 이러한 명령어들은 저장 디바이스(910) 등의 또 다른 저장 매체로부터 주 메모리(906)에 읽혀 들여질 수 있다. 주 메모리(906)에 포함된 명령어들의 시퀀스의 실행에 의해, 프로세서(904)가 여기에 설명된 처리 단계들을 수행하게 한다. 대안적인 실시예에서, 하드-와이어드 회로가 소프트웨어 명령어 대신에 또는 이와 조합하여 사용될 수 있다.

여기서 사용하는 "저장 매체"라는 용어는 머신을 특정한 방식으로 동작하게 하는 데이터 및/또는 명령어들을 저장하는 임의의 비-일시적인 매체를 말한다. 이러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비휘발성 매체는, 예를 들면, 저장 디바이스(910)와 같은 광 디스크 또는 자기 디스크를 포함한다. 휘발성 매체는 주 메모리(906)와 같은 동적 메모리를 포함한다. 일반적인 형태의 저장 매체로는, 예를 들면, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광학 데이터 저장 매체, 홀 패턴을 갖는 임의의 물리적 매체, RAM, PROM 및 EPROM, FLASH-EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지를 포함한다.

*저장 매체는 전송 매체와는 구별되지만, 이 전송 매체와 관련되어 사용될 수 있다. 전송 매체는 저장 매체들 간에 정보를 전송하는데 참여한다. 예를 들면, 전송 매체는 버스(902)를 포함하는 와이어를 비롯한 동축 케이블, 구리 와이어 및 파이버 옵틱을 포함한다. 전송 매체는 또한 무선파 및 적외선 데이터 통신 중에 생성된 것과 같은 음향 또는 광파의 형태를 취할 수도 있다.

프로세서(904)가 실행하기 위한 하나 이상의 명령어들의 하나 이상의 시퀀스를 운반하는데 다양한 형태의 매체가 수반될 수 있다. 예를 들어, 명령어들은 초기에는 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브에 있을 수 있다. 원격 컴퓨터는 명령어들을 그 동적 메모리에 로드하여 명령어들을 모뎀을 이용한 전화선을 통해 전송할 수 있다. 컴퓨터 시스템(900)에 로컬인 모뎀은 전화선을 통해 데이터를 수신하고, 적외선 송신기를 이용하여 데이터를 적외선 신호로 변환할 수 있다. 적외선 검출기는 적외선 신호에 운반되는 데이터를 수신할 수 있고, 적당한 회로가 데이터를 버스(902)에 배치할 수 있다. 버스(902)는 데이터를 주 메모리(906)에 운반하고, 이로부터 프로세서(904)가 명령어들을 검색하고 실행한다. 주 메모리(906)에 의해 수신되는 명령어들은 프로세서(904)에 의해 실행되기 전 또는 후에 저장 디바이스(910)에 선택적으로 저장될 수 있다.

컴퓨터 시스템(900)은 또한 버스(902)에 연결된 통신 인터페이스(918)를 포함한다. 통신 인터페이스(918)는 로컬 네트워크(922)에 접속된 네트워크 링크(920)에 양방향 데이터 통신 커플링을 제공한다. 예를 들면, 통신 인터페이스(918)는 ISDN(integrated services digital network) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선에 데이터 통신 접속을 제공하는 모뎀일 수 있다. 또 다른 예로, 통신 인터페이스(918)는 호환가능 LAN에 데이터 통신 접속을 제공하기 위한 LAN 카드일 수 있다. 무선 링크도 또한 구현될 수 있다. 임의의 이러한 구현에서, 통신 인터페이스(918)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 운반하는 전기, 전자기 또는 광학 신호들을 송신 및 수신한다.

네트워크 링크(920)는 통상 하나 이상의 네트워크를 통해 데이터 통신을 다른 데이터 디바이스에 제공한다. 예를 들어, 네트워크 링크(920)는 로컬 네트워크(922)를 통해 호스트 컴퓨터(924) 또는 ISP(Internet Service Provider)(926)에 의해 동작되는 데이터 장비에 접속을 제공할 수 있다. 그러면, ISP(926)는 현재 일반적으로 "인터넷(928)"이라고 부르는 월드와이드 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스를 제공한다. 로컬 네트워크(922) 및 인터넷(928)은 모두 디지털 데이터 스트림들을 운반(carry)하는 전기, 전자기 또는 광학 신호들을 사용한다. 컴퓨터 시스템(900)으로 디지털 데이터를 운반하고 컴퓨터 시스템(900)으로부터 디지털 데이터를 운반하는 각종 네트워크들을 통한 신호들, 네트워크 링크(920) 및 통신 인터페이스(918)를 통한 신호들이 전송 매체의 예시적인 형태들이다.

컴퓨터 시스템(900)은 네트워크(들), 네트워크 링크(920) 및 통신 인터페이스(918)를 통해 메시지들을 전송하고 프로그램 코드를 포함하는 데이터를 수신할 수 있다. 인터넷의 예에서, 서버(930)는 인터넷(928), ISP(926), 로컬 네트워크(922) 및 통신 인터페이스(918)를 통해 애플리케이션 프로그램을 위해 요청된 코드를 송신할 수 있다.

수신된 코드 저장 디바이스(910) 또는 나중의 실행을 위한 다른 비휘발성 저장소에서 수신되고 및/또는 저장됨에 따라, 프로세서(904)에 의해 실행될 수 있다.

일부 실시예들에 따라, 도 10 내지 도 15는 상술한 본원 발명의 원리들에 따른 전자 디바이스들(1000-1500)의 기능 블록도들을 도시한다. 디바이스의 기능 블록도들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합에 의해 구현되어, 본 발명의 원리들을 수행할 수 있다. 상술한 본원 발명의 원리들을 구현하기 위하여 도 10 내지 도 15에 개시된 기능 블록도들이 조합되거나 서브블록들로 분리될 수 있음이 당업자에게 이해될 것이다. 따라서, 본원 발명의 설명은 본원 발명에 개시된 기능 블록도들의 임의의 가능한 조합 또는 분리 또는 추가적인 정의를 지원할 수 있다.

도 10에 도시된 바와 같이, 전자 디바이스(1000)는 텍스트 버전이 존재하는 오디오 버전의 작품을 반영하는 오디오 데이터를 수신하도록 구성된 오디오 데이터 수신 유닛(1002)을 포함한다. 전자 디바이스(1000)는 또한 오디오 데이터 수신 유닛(1002)에 연결된 프로세싱 유닛(1006)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1006)은 텍스트 유닛(1008) 및 맵핑 유닛(1010)에 대한 음성을 포함한다.

프로세싱 유닛(1006)은 (예를 들어, 텍스트 유닛(1008)에 대한 음성에 의해) 오디오 데이터의 부분들에 대한 텍스트를 생성하기 위하여 오디오 데이터의 음성-텍스트 분석을 수행하고, 오디오 데이터의 부분들에 대해 생성된 텍스트에 기초하여, (예를 들어, 맵핑 유닛(1010)에 의해) 오디오 데이터의 복수의 오디오 위치와 텍스트 버전의 작품의 대응하는 복수의 텍스트 위치 사이의 맵핑을 생성하도록 구성된다.

도 11에 도시된 바와 같이, 전자 디바이스(1100)는 텍스트 버전의 작품을 수신하도록 구성된 텍스트 수신 유닛(1102)을 포함한다. 전자 디바이스(1100)는 또한 텍스트 버전이 존재하는 오디오 버전의 작품을 반영하는 제2 오디오 데이터를 수신하도록 구성된 오디오 데이터 수신 유닛(1104)을 포함한다. 전자 디바이스(1100)는 또한 텍스트 수신 유닛(1102)에 연결된 프로세싱 유닛(1106)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1106)은 음성 유닛(1108) 및 맵핑 유닛(1110)에 대한 텍스트를 포함한다.

프로세싱 유닛(1106)은 (예를 들어, 음성 유닛(1108)에 대한 텍스트에 의해) 제1 오디오 데이터를 생성하기 위하여 텍스트 버전의 텍스트-음성 분석을 수행하고, 제1 오디오 데이터 및 텍스트 버전에 기초하여, (예를 들어, 맵핑 유닛(1110)에 의해) 제1 오디오 데이터의 제1 복수의 오디오 위치와 텍스트 버전의 작품의 대응하는 복수의 텍스트 위치 사이의 제1 맵핑을 생성하도록 구성된다. 프로세싱 유닛(1106)은 (1) 제1 오디오 데이터와 제2 오디오 데이터의 비교, 및 (2) 제1 맵핑에 기초하여, (예를 들어, 맵핑 유닛(1110)에 의해) 제2 오디오 데이터의 제2 복수의 오디오 위치와 텍스트 버전의 작품의 복수의 텍스트 위치 사이의 제2 맵핑을 생성하도록 더 구성된다.

도 12에 도시된 바와 같이, 전자 디바이스(1200)는 오디오 입력을 수신하도록 구성된 오디오 수신 유닛(1202)을 포함한다. 전자 디바이스(1200)는 또한 오디오 수신 유닛(1202)에 연결된 프로세싱 유닛(1206)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1206)은 텍스트 유닛(1208), 텍스트 매칭 유닛(1209) 및 디스플레이 제어 유닛(1210)에 대한 음성을 포함한다.

프로세싱 유닛(1206)은 (예를 들어, 텍스트 유닛(1208)에 대한 음성에 의해) 오디오 입력의 부분들에 대한 텍스트를 생성하기 위하여 오디오 입력의 음성-텍스트 분석을 수행하고, 오디오 입력의 부분들에 대해 생성된 텍스트가 (예를 들어, 텍스트 매칭 유닛(1209)에 의해) 현재 디스플레이되는 텍스트와 매칭하는지를 결정하고, 텍스트가 현재 디스플레이되는 텍스트와 매칭하는 것으로 결정한 것에 응답하여, (예를 들어, 디스플레이 제어 유닛(1210)에 의해) 현재 디스플레이되는 텍스트가 강조 표시되도록 구성된다.

도 13에 도시된 바와 같이, 전자 디바이스(1300)는 텍스트 버전의 작품 내의 특정된 위치를 나타내는 위치 데이터를 획득하도록 구성된 위치 데이터 획득 유닛(1302)을 포함한다. 전자 디바이스(1300)는 또한 위치 데이터 획득 유닛(1302)에 연결된 프로세싱 유닛(1306)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1306)은 맵 검사 유닛(1308)을 포함한다.

프로세싱 유닛(1306)은 (예를 들어, 맵 검사 유닛(1308)에 의해) 오디오 버전의 작품의 복수의 오디오 위치와 텍스트 버전의 작품의 대응하는 복수의 텍스트 위치 사이의 맵핑을 검사하고, 복수의 텍스트 위치 중 특정된 위치에 대응하는 특정 텍스트 위치를 결정하고, 특정 텍스트 위치에 기초하여, 복수의 오디오 위치 중 특정 텍스트 위치에 대응하는 특정 오디오 위치를 결정하도록 구성된다. 프로세싱 유닛(1306)은 또한 미디어 플레이어가 오디오 데이터의 현재 재생 위치로서 특정 오디오 위치를 구축하게 하기 위하여 특정 텍스트 위치에 기초하여 결정된 특정 오디오 위치를 미디어 플레이어에 제공하도록 구성된다.

도 14에 도시된 바와 같이, 전자 디바이스(1400)는 오디오 데이터 내의 특정된 위치를 나타내는 위치 데이터를 획득하도록 구성된 위치 획득 유닛(1402)을 포함한다. 전자 디바이스(1400)는 또한 위치 획득 유닛(1402)에 연결된 프로세싱 유닛(1406)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1406)은 맵 검사 유닛(1408) 및 디스플레이 제어 유닛(1410)을 포함한다.

프로세싱 유닛(1406)은 (예를 들어, 맵 검사 유닛(1408)에 의해) 오디오 데이터의 복수의 오디오 위치와 텍스트 버전의 작품의 대응하는 복수의 텍스트 위치 사이의 맵핑을 검사하고, 복수의 오디오 위치 중 특정된 위치에 대응하는 특정 오디오 위치를 결정하고, 특정 오디오 위치에 기초하여, 복수의 텍스트 위치 중 특정 오디오 위치에 대응하는 특정 텍스트 위치를 결정하도록 구성된다. 프로세싱 유닛(1406)은 또한 (예를 들어, 디스플레이 제어 유닛(1410)에 의해) 미디어 플레이어가 특정 텍스트 위치에 대한 정보를 디스플레이하게 하도록 구성된다.

도 15에 도시된 바와 같이, 전자 디바이스(1500)는 오디오 버전의 작품의 재생 동안 오디오 버전 내의 특정된 위치를 나타내는 위치 데이터를 획득하도록 구성된 위치 획득 유닛(1502)을 포함한다. 전자 디바이스(1500)는 또한 위치 데이터 획득 유닛(1502)에 연결된 프로세싱 유닛(1506)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1506)은 텍스트 위치 결정 유닛(1508) 및 디스플레이 제어 유닛(1510)을 포함한다.

프로세싱 유닛(1506)은 오디오 버전의 작품의 재생 동안, 특정된 위치에 기초하여, (예를 들어, 텍스트 위치 결정 유닛(1508)에 의해) 텍스트 버전의 작품에서 텍스트 버전의 작품에 반영된 제1 페이지의 종료를 나타내는 페이지 종료 데이터와 연관되는 특정 텍스트 위치를 결정하고, 특정 텍스트 위치가 페이지 종료 데이터와 연관되는 것으로 결정한 것에 응답하여, (예를 들어, 디스플레이 제어 유닛(1510)에 의해) 자동으로 제1 페이지가 디스플레이되는 것을 중지시키고 디스플레이되는 제1 페이지에 후속하는 제2 페이지를 야기하도록 구성된다.

도 16에 도시된 바와 같이, 전자 디바이스(1600)는 작품의 제1 버전이 프로세싱되는 동안, 사용자로부터의 입력에 기초하는 주석 데이터를 획득하도록 구성되는 주석 획득 유닛(1602)을 포함한다. 전자 디바이스(1600)는 또한 연관 데이터 저장 유닛(1603)을 포함한다. 전자 디바이스(1600)는 또한 주석 획득 유닛(1602)과 연관 데이터 저장 유닛(1603)에 연결되는 프로세싱 유닛(1606)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1606)은 디스플레이 제어 유닛(1610)을 포함한다.

프로세싱 유닛(1606)은 (예를 들어, 연관 데이터 저장 유닛(1603)에) 작품과 주석 데이터를 연관시키는 연관 데이터가 저장되게 하고; 작품의 제2 버전이 프로세싱되는 동안, (예를 들어, 디스플레이 제어 유닛(1610)에 의해) 주석 데이터에 관한 정보가 디스플레이되게 하도록 구성되고, 제2 버전은 제1 버전과 상이하다.

도 17에 도시된 바와 같이, 전자 디바이스(1700)는 작품의 제1 버전 내에 제1 북마크를 구축하는 데이터를 수신하도록 구성된 데이터 수신 유닛(1702)을 포함한다. 전자 디바이스(1700)는 또한 위치 데이터 저장 유닛(1703)을 포함한다. 전자 디바이스(1700)는 또한 데이터 수신 유닛(1702) 및 위치 데이터 저장 유닛(1703)에 연결된 프로세싱 유닛(1706)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1706)은 맵 검사 유닛(1708)을 포함한다.

프로세싱 유닛(1706)은 (예를 들어, 맵 검사 유닛(1708)에 의해) 작품의 제1 버전 내의 복수의 제1 위치들과 작품의 제2 버전 내의 대응하는 복수의 제2 위치들 사이의 맵핑을 검사하여: 복수의 제1 위치들 중에서 제1 북마크에 대응하는 특정 제1 위치를 결정하고, 특정 제1 위치에 기초하여, 복수의 제2 위치들 중에서 특정 제1 위치에 대응하는 특정 제2 위치를 결정하고 - 작품의 제1 버전은 작품의 제2 버전과 상이함 - ; 및 (예를 들어, 위치 데이터 저장 유닛(1703)에) 작품의 제2 버전 내의 제2 북마크로서 특정 제2 위치를 구축하는 데이터가 저장되게 하도록 구성된다.

도 18에 도시된 바와 같이, 전자 디바이스(1800)는 디바이스에서, 사용자로부터 오디오 입력을 수신하도록 구성되는 오디오 수신 유닛(1802)을 포함한다. 전자 디바이스(1800)는 또한 오디오 수신 유닛(1802)에 연결되는 프로세싱 유닛(1806)을 포함한다. 일부 실시예들에서, 프로세싱 유닛(1806)은 단어 분석 유닛(1808) 및 디스플레이 제어 유닛(1810)을 포함한다.

프로세싱 유닛(1806)은 (예를 들어, 디스플레이 제어 유닛(1810)에 의해) 작품의 텍스트의 일부분이 디바이스에 의해 디스플레이되게 하고; 오디오 수신 유닛에서의 오디오 입력을 수신하는 것에 응답하여: (예를 들어, 단어 분석 유닛(1808)에 의해) 오디오 입력을 분석하여 하나 이상의 단어들을 식별하고; (예를 들어, 단어 분석 유닛(1808)에 의해) 하나 이상의 단어들이 텍스트의 일부분에 반영되어 있는지를 결정하고; 및 하나 이상의 단어들이 텍스트의 일부분에 반영되어 있다고 결정한 것에 응답하여, (예를 들어, 디스플레이 제어 유닛(1810)에 의해) 시각적 표시가 디바이스에 의해 디스플레이되게 하도록 구성된다.

상술한 명세서에서, 본 발명의 실시예들은 구현마다 변할 수 있는 다수의 특정 상세들을 참조하여 기술되었다. 따라서, 명세서 및 도면들은 제한적인 의미라기보다는 예시적인 것으로 고려된다. 본 발명의 범위의 유일하고 배타적인 표시자 및 본 발명의 범위인 것으로 출원인에 의해 의도된 것은 임의의 후속 보정을 포함하는 청구범위가 발행되는 구체적인 형태로 본 출원으로부터 발행되는 청구범위의 문자 그대로의 등가인 범위이다.

Claims

제1항에 기재된 장치.