KR20130059408A

KR20130059408A - 텍스트 대 스피치 변환을 위한 방법 및 시스템

Info

Publication number: KR20130059408A
Application number: KR1020137005649A
Authority: KR
Inventors: 링 준 웡; 트루 시옹
Original assignee: 소니 주식회사
Priority date: 2010-09-14
Filing date: 2011-06-22
Publication date: 2013-06-05
Also published as: TW201225064A; US20120065979A1; TWI470620B; CN103098124A; EP2601652A1; CN103098124B; KR101426214B1; WO2012036771A1; US8645141B2; EP2601652A4

Abstract

텍스트 대 스피치 변환을 위한 시스템 및 방법이 개시된다. 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계를 포함하며, 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트 대 스피치 변환이 텍스트의 일부에 대해 수행된다. 변환된 스피치는 휴대용 디바이스의 메모리 디바이스로 저장된다. 리더 어플리케이션이 실행되며, 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신된다. 실행하는 동안, 변환된 스피치는 메모리 디바이스로부터 액세스되고 사용자 요청에 응답하여 사용자에게 렌더링된다.

Description

텍스트 대 스피치 변환을 위한 방법 및 시스템{METHOD AND SYSTEM FOR TEXT TO SPEECH CONVERSION}

본 발명에 따른 실시예들은 일반적으로 텍스트 대 스피치 변환에 관한 것으로서, 특히 디지털 리더들을 위한 텍스트 대 스피치 변환에 관한 것이다.

텍스트 대 오디오 시스템은 입력 텍스트를 자연 스피치(natural speech)를 모방하는 출력 음향 신호로 변환할 수 있다. 텍스트 대 오디오 시스템들은 광범위한 적용들에 유용하다. 예를 들어, 텍스트 대 오디오 시스템들은 자동화 정보 서비스들, 무인 자동 중계들(auto-attendants), 컴퓨터 기반 명령어, 시각 장애인용 컴퓨터 시스템들, 및 디지털 리더들에 유용하다.

일부 간단한 텍스트 대 오디오 시스템들은 순수 텍스트 입력으로 동작하고 수신된 텍스트의 거의 없는 처리 또는 분석으로 대응하는 스피치 출력을 생성한다. 다른 더 복잡한 텍스트 대 오디오 시스템들은 텍스트의 발음에 영향을 끼치는 텍스트의 각종 의미론적 및 구문론적 속성들을 결정하기 위해 수신된 텍스트 입력들을 처리한다. 게다가, 다른 복잡한 텍스트 대 오디오 시스템들은 주석들로 수신된 텍스트 입력들을 처리한다. 주석 달린 텍스트 입력들은 더욱 부드럽고 인간적인 스피치를 생성하기 위해 텍스트 대 오디오 시스템에 의해 사용되는 발음 정보를 지정한다.

일부 텍스트 대 오디오 시스템들은 텍스트를 고품질 자연 사운드 스피치로 거의 실시간으로 변환한다. 그러나, 고품질 스피치를 생성하는 것은 다수의 잠재적인 음향 유닛들, 복잡한 규칙들, 및 유닛들을 조합하는 예외들을 필요로 한다. 따라서, 그러한 시스템들은 전형적으로 큰 저장 용량 및 높은 계산 능력을 필요로 하고 전형적으로 고량의 전력을 소비한다.

종종, 텍스트 대 오디오 시스템은 동일한 텍스트 입력을 다수 회 수신할 것이다. 그러한 시스템들은 각각 수신된 텍스트 입력을 완전히 처리하여, 그 텍스트를 스피치 출력으로 변환한다. 따라서, 각각 수신된 텍스트 입력은 동일한 텍스트 입력을 스피치로 이전에 변환한 것을 고려하지 않고, 동일한 텍스트 입력들이 얼마나 자주 텍스트 대 오디오 시스템에 의해 수신되는지를 고려하지 않고 대응하는 구두 출력을 구성하기 위해 처리된다.

예를 들어, 디지털 리더들의 경우에, 단일 텍스트 대 오디오 시스템은 사용자가 처음으로 북(book)을 경청했을 때, 및 사용자가 다음에 북의 경청을 다시 결정했을 때 텍스트 입력을 수신할 수 있다. 더욱이, 다수의 사용자들의 경우에, 단일 북은 많은 상이한 디지털 리더들에 의해 수천 회 변환될 수 있다. 그러한 중복 처리는 에너지 비효율적이고, 처리 자원을 소비하며, 시간을 낭비할 수 있다.

본 발명의 실시예들은 효율적인 텍스트 대 스피치 변환을 위한 방법 및 시스템에 관한 것이다. 일실시예에서, 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계; 변환된 스피치를 휴대용 디바이스의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션(reader application)을 실행하는 단계 - 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신됨 -; 및 실행하는 단계 동안, 변환된 스피치를 메모리 디바이스로부터 액세스하고 변환된 스피치를 사용자 요청에 응답하여 사용자에게 렌더링(rendering)하는 단계를 포함한다.

일실시예에서, 텍스트의 일부는 오디오 변환된 북을 포함한다. 일부 실시예들에서, 정보는 새롭게 추가된 북들의 식별을 포함하고, 텍스트의 일부는 새롭게 추가된 북들로부터 취해진다. 각종 실시예들에서, 텍스트는 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다.

추가 실시예들에서, 정보는 북들의 플레이리스트를 포함한다. 일부 실시예들에서, 북들의 플레이리스트는 사용자에 의해 생성된다. 다른 실시예들에서, 북들의 플레이리스트는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성된다.

다른 실시예에서, 텍스트 대 스피치 변환 방법은 북의 오디오 버전으로의 변환을 위해 북을 식별하는 단계 - 식별하는 단계는 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 디지털 리더가 전력원에 연결되는 동안, 북의 오디오 버전에 액세스하는 단계; 오디오 버전을 디지털 리더의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션을 실행하는 단계 - 북은 사용자에 의한 내레이션을 위해 요청됨 -; 및 실행하는 단계 동안, 자연 스피치를 모방하는 음향 신호를 디지털 리더의 메모리 디바이스 내의 오디오 버전으로부터 생성하는 단계를 포함한다.

일부 실시예들에서, 정보는 서버 상에 저장된 북들의 리스트를 포함하고, 북들의 리스트는 북의 식별을 포함한다. 각종 실시예들에서, 정보는 주제, 장르, 제목, 저자, 및 북의 날짜 중 하나를 포함한다.

일실시예에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함한다. 추가 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 일부 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 각종 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 직접 다운로드하는 단계를 포함한다.

다른 실시예에서, 텍스트 대 스피치 변환 시스템은 프로세서; 프로세서에 결합되는 디스플레이, 프로세서에 연결되는 입력 디바이스; 프로세서에 결합되는 오디오 출력 디바이스; 및 프로세서에 결합되는 메모리를 포함한다. 메모리는 실행될 때 시스템이 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하게 하는 명령어들을 포함한다. 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계; 변환된 스피치를 휴대용 디바이스의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션을 실행하는 단계 - 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신됨 -; 및 실행하는 단계 동안, 변환된 스피치를 메모리 디바이스로부터 액세스하고 변환된 스피치를 사용자 요청에 응답하여 사용자에게 렌더링하는 단계를 포함한다.

일부 실시예들에서, 텍스트의 일부는 오디오 변환된 북을 포함한다. 다른 실시예들에서, 정보는 새롭게 추가된 북들의 식별들을 포함하고, 텍스트의 일부는 새롭게 추가된 북들로부터 취해진다. 각종 실시예들에서, 텍스트은 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다. 추가 실시예들에서, 정보는 북들의 사용자 생성 플레이리스트 또는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 포함한다.

본 발명의 각종 실시예들의 이들 및 다른 목적들과 장점들은 각종 도면들에 예시되는 실시예들의 이하의 상세한 설명을 판독한 후에 당업자에 의해 인식될 것이다.

본 발명의 실시예들은 동일한 참조 숫자들이 유사한 요소들을 지칭하는 첨두 도면들의 도들에서 예로서 예시되고, 제한을 위한 것이 아니다.
도 1은 본 발명의 실시예에 따른 예시적 텍스트 대 스피치 시스템의 도면이다.
도 2는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템의 도면이다.
도 3은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 4는 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 5는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템의 도면이다.
도 6은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 7은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 8은 본 발명에 따른 텍스트 대 스피치 시스템이 구현될 수 있는 범용 컴퓨터 시스템의 일례의 블록도이다.
도 9는 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 예시적 방법의 순서도를 도시한다.
도 10은 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 다른 예시적 방법의 순서도를 도시한다.

이제 본 발명에 따른 실시예들에 대한 참조가 상세히 이루어질 것이며, 그의 예들은 첨부 도면들에 예시되어 있다. 본 발명이 이 실시예들과 함께 설명될 것일지라도, 그들은 본 발명을 이 실시예들에 한정하도록 의도되지 않은 것이 이해될 것이다. 이에 반하여, 본 발명은 첨부된 청구범위에 의해 정의된 바와 같이 본 발명의 사상 및 범위 내에 포함될 수 있는 대안들, 수정들 및 등가물들을 커버하도록 의도된다. 더욱이, 본 발명의 실시예들의 이하의 상세한 설명에서, 다수의 특정 상세들은 본 발명의 완전한 이해를 제공하기 위해 설명된다. 그러나, 본 발명은 이 특정 상세들없이 실시될 수 있는 것이 당업자에 의해 인식될 것이다. 다른 사례들에서, 잘 알려진 방법들, 절차들, 구성요소들, 및 회로들은 불필요하게 본 발명의 실시예들의 양태들을 모호하게 하지 않도록 상세히 설명되지 않았다.

시스템의 실시예들을 도시하는 도면들은 반도식적이고 축척에 따라 도시되지 않으며, 특히 치수들의 일부는 표시의 명료성을 위한 것이고 도면에서 과장되어 도시되어 있다. 또한, 다수의 실시예들은 일부 특징들을 공통으로 갖는 것으로 개시 및 설명될지라도, 그의 예시, 설명, 및 이해의 명료성 및 용이성을 위해, 어떤 것과 다른 것의 동일한 특징들은 동일한 참조 숫자들을 이용하여 통상 설명될 것이다.

이어지는 상세한 설명들의 일부 부분들(예를 들어 도 9 및 도 10)은 절차들, 단계들, 시뮬레이션들, 계산들, 논리 블록들, 처리, 및 컴퓨터 시스템 내의 데이터에 대한 조작들의 다른 기호 표현들에 관하여 제공된다. 이 설명들 및 표현들은 이 기술분야에서 숙련된 다른 사람들에게 작업의 내용을 가장 효과적으로 전달하기 위해 데이터 처리 기술분야에서 숙력된 사람들에 의해 사용되는 수단이다. 절차, 컴퓨터 실행 단계, 논리 블록, 프로세스 등은 여기서, 그리고 일반적으로 원하는 결과를 초래하는 단계들 또는 명령어들의 일관성있는 시퀀스인 것으로 생각된다. 단계들은 물리량들의 물리적 조작들을 필요로 하는 것들이다. 통상, 반드시 그런 것은 아닐지라도, 이 물리량들은 컴퓨터 시스템에 저장, 전송, 조합, 비교, 및 다르게 조작될 수 있는 전기 또는 자기 신호들의 형태를 취한다. 이 신호들을 비트들, 값들, 요소들, 기호들, 문자들, 용어들, 번호들 등으로서 지칭하는 것은 주로 일반적인 용법의 이유들 때문에 때때로 편리한 것으로 증명되었다.

그러나, 이들 및 유사한 용어들 모두는 적절한 물리량들과 관련되고 이 물리량에 적용되는 단지 편리한 라벨들인 것이 기억되어야 한다. 이하의 논의들로부터 명백해지는 바와 같이 구체적으로 다르게 지정되지 않으면, 본 발명의 도처에서, 논의들은 컴퓨터 시스템의 레지스터들 및 메모리들 내의 물리(전자) 양들로서 표시되는 데이터를 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장, 전송, 또는 디스플레이 디바이스들 내의 물리량들과 유사하게 표시되는 다른 데이터로 조작 및 변환하는 컴퓨터 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 동작들 및 처리들을 참조하는 것이 이해된다.

도 1은 본 발명의 실시예에 따른 예시적 텍스트 대 스피치 시스템(100)의 도면이다. 텍스트 대 스피치 시스템(100)은 입력 텍스트(102)를 자연 스피치를 모방하는 음향 신호(114)로 변환한다. 입력 텍스트(102)는 통상 구두, 약어들, 두문자어들, 및 비워드(non-word) 기호들을 포함한다. 텍스트 정규화 유닛(104)은 입력 텍스트(102)를 비단축 워드들의 시퀀스를 포함하는 정규화된 텍스트로 변환한다. 대부분의 구두는 적절한 운율을 제안하는데 유용하다. 그러므로, 텍스트 정규화 유닛(104)은 운율 생성 유닛(106)에 대한 입력으로서 사용되는 구두를 필터링 아웃한다. 일실시예에서, 일부 구두는 관계없고 필터링 아웃된다.

약어들 및 두문자어들은 문맥에 의존할 수 있거나 의존할 수 없는 그의 등가 워드 시퀀스들로 변환된다. 텍스트 정규화 유닛(104)은 또한 기호들을 워드 시퀀스들로 변환한다. 예를 들어, 텍스트 정규화 유닛(104)은 번호들, 유통량들, 날짜들, 시간들, 및 이메일 주소들을 검출한다. 그 다음, 텍스트 정규화 유닛(104)은 기호들을 문장 내의 기호의 위치에 의존하는 텍스트로 변환한다.

정규화된 텍스트는 그의 형태학적 표현을 결정하기 위해 각 워드를 분석하는 발음 유닛(108)에 송신된다. 이것은 통상 영어에 어렵지 않지만, 워드들이 함께 나열되는 언어, 예를 들어 독일어에서, 워드들은 기본 워드들, 접두사들, 및 접미사들로 분할되어야 한다. 그 다음, 최종 워드들은 음소 시퀀스 또는 그의 발음로 변환된다.

발음은 문장 또는 그의 문맥, 예를 들어 주위 워드들 내의 워드의 위치에 의존할 수 있다. 일실시예에서, 3개의 자원은 변환을 수행하기 위해 발음 유닛(108)에 의해 사용된다: 문자 대 사운드 규칙들; 문자 시퀀스들을 언어 통계에 기초하여 최고 확률 음소 시퀀스들로 변환하는 통계 표현들; 및 워드 및 발음 쌍들인 딕셔너리들(dictionaries).

변환은 통계적 표현들없이 수행될 수 있지만, 모든 3개의 자원이 전형적으로 사용된다. 규칙들은 그의 문맥에 따라 동일한 워드의 상이한 발음들을 구별할 수 있다. 다른 규칙들은 인지(human knowledge)에 기초하여 처음 보는 문자 조합들의 발음들을 예측하기 위해 사용된다. 딕셔너리들은 규칙들 및 통계적 방법들로부터 생성될 수 없는 예외들을 포함한다. 규칙들, 통계적 모델들, 및 딕셔너리의 수집은 발음 유닛(108)에 필요한 데이터베이스를 형성한다. 일실시예에서, 이 데이터베이스는 특히 고품질 텍스트 대 스피치 변환을 위해 대규모이다.

최종 음소들은 텍스트 정규화 유닛(104)으로부터 추출되는 구두와 함께, 운율 생성 유닛(106)에 송신된다. 운율 생성 유닛(106)은 문장 구조, 구두, 특정 워드들, 및 텍스트의 주위 문장들로부터 스피치 합성에 필요한 타이밍 및 피치 정보를 생성한다. 일례에서, 피치는 한 레벨에서 시작되고 문장의 끝을 향해서 감소된다. 피치 윤곽은 이 평균 궤도 둘레에서 변화될 수 있다.

날짜들, 시간들, 및 유통들은 스페셜 피스들(special pieces)로서 식별될 수 있는 문장의 부분들의 예들이다. 각각의 피치는 그 정보 타입을 위해 만들어지는 규칙 세트 또는 통계적 모델로부터 결정된다. 예를 들어, 번호 시퀀스 내의 최종 번호는 통상 이전 번호들보다 낮은 피치에 있다.

예를 들어 날짜 및 전화 번호의 리듬들, 또는 음소 지속시간들은 전형적으로 서로 상이하다. 일실시예에서, 규칙 세트 또는 통계적 모델은 실제 워드, 그의 문장 부분, 및 주위 문장들에 기초하여 음소 지속시간들을 결정한다. 이 규칙 세트들 또는 통계적 모델들은 운율 생성 유닛(106)에 필요한 데이터베이스를 형성한다. 일실시예에서, 데이터베이스는 더 많은 자연 사운드 합성기들을 위해 상당히 대규모일 수 있다.

음향 신호 합성 유닛(110)은 자연 스피치를 모방하는 음향 신호(114)를 생성하기 위해 발음 유닛(108) 및 운율 생성 유닛(106)으로부터 피치, 지속시간, 및 음소 정보를 조합한다. 음향 신호(114)는 본 발명의 실시예들에 따른 스마트 캐싱 유닛(112)에서 프리캐시(pre-cach)된다. 스마트 캐싱 유닛(112)은 사용자가 자연 스피치를 모방하는 음향 신호(114)의 경청을 요청할 때까지 음향 신호(114)를 저장한다.

본 발명의 실시예들에 따르면, 서버-클라이언트 시스템은 각종 스마트 캐싱 기법들을 사용할 수 있다. 일실시예에서, 최근에 플레이된 오디오 변환 북들은 서버 또는 클라이언트 상에 저장될 수 있다. 일부 실시예들에서, 새롭게 추가된 북들은 오디오 포맷으로 미리 변환될 수 있다. 다른 실시예들에서, 리스트는 서버 상에 준비될 수 있으며, 이는 그 다음에 클라이언트에 직접 스트리밍되거나 클라이언트에 미리 다운도르될 수 있다. 각종 실시예들에서, 클라이언트 또는 서버는 북 또는 사용자의 어떤 특징들, 예를 들어 주제, 장르, 제목, 저자, 날짜들, 이전에 읽은 북들, 사용자 데모그래픽(demographic) 정보 등에 기초하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트는 서버 또는 클라이언트 상에 프리캐시될 수 있다.

도 2는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템(200)의 도면이다. 서버-클라이언트 시스템(200)는 서버 머신(202) 상에서 텍스트를 스피치로 변환하고, 출력을 위해 변환된 텍스트를 준비하기 위해 스마트 캐싱 기법들을 사용하고, 변환된 텍스트를 서버 머신(202) 상에 저장하며, 변환된 텍스트를 출력을 위해 서버 머신(202)으로부터 클라이언트 머신(204)으로 분배한다. 일실시예에서, 클라이언트 머신(204)은 휴대용 디지털 리더일 수 있지만, 임의의 휴대용 컴퓨터 시스템일 수 있다. 서버 머신(202) 및 클라이언트 머신(204)은 클라이언트 머신(204)이 전력원에 연결될 때 또는 클라이언트 머신이 배터리 파워(battery power) 상에서 실행되고 있을 때 통신할 수 있다. 일실시예에서, 서버 머신(202) 및 클라이언트 머신(204)은 XML, HTTP, TCP/IP 등과 같은 프로토콜들에 의해 통신한다. 서버-클라이언트 시스템(200)은 인터넷 또는 근거리 통신망을 통해서 연결되는 다수의 서버들 및 다수의 클라이언트 머신들을 포함할 수 있다.

서버(202)의 서버 프로세서(206)는 서버 프로그램 코드(208)의 관리 하에 동작한다. 클라이언트(204)의 클라이언트 프로세서(210)는 클라이언트 프로그램 코드(212)의 관리 하에 동작한다. 서버(202)의 서버 전송 모듈(214) 및 클라이언트(204)의 클라이언트 전송 모듈(216)은 서로 통신한다. 일실시예에서, 서버(202)는 음향 신호 합성을 통해서 텍스트 대 스피치 시스템(100)(도 1)의 모든 단계들을 완료한다. 클라이언트(204)는 텍스트 대 스피치 시스템(100)(도 1)의 음향 신호의 스마트 캐싱 및 생성을 완료한다.

서버(202)의 발음 데이터베이스(218)는 발음을 결정하기 위해 3개의 타입들의 데이터 중 적어도 하나를 저장한다: 미지의 워드들에 대한 문맥 기반 규칙들 및 발음 예측들을 포함하는 문자 대 사운드 규칙들; 문자 시퀀스들을 언어 통계에 기초하여 최고 확률 음소 시퀀스들로 변환하는 통계적 모델들; 및 규칙들 또는 통계적 방법들로부터 유도될 수 없는 예외들을 포함하는 딕셔너리들. 서버(202)의 운율 데이터베이스(220)는 워드 및 그의 문맥에 기초하여 음소 지속시간들 및 피치를 결정하는 규칙 세트들 또는 통계적 모델들을 포함한다. 음향 유닛 데이터베이스(222)는 원하는 음소들을 획득하기 위해 선택되는 서브-표음(sub-phonetic), 표음, 및 보다 큰 다중-표음(multi-phonetic) 음향 유닛들을 저장한다.

서버(202)는 발음 데이터베이스(218), 운율 데이터베이스(220), 및 음향 유닛 데이터베이스(222)를 사용하여 텍스트 정규화, 발음, 운율 생성, 및 음향 신호 합성을 수행한다. 일실시예에서, 데이터베이스들은 조합되거나, 분리될 수 있거나, 또는 추가적인 데이터베이스들이 사용될 수 있다. 자연 스피치를 모방하는 음향 신호가 합성된 후에, 음향 신호는 서버(202)의 스토리지(224), 예를 들어 하드 디스크에 저장된다. 일실시예에서, 음향 신호가 압축될 수 있다.

따라서, 서버 머신(202)는 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 서버 머신(202)은 합성된 자연 스피치를 저장하고, 요청에 따라, 합성된 자연 스피치를 클라이언트 머신들(204) 중 하나 이상에 송신한다. 서버 머신(202)은 많은 북 변환들을 저장할 수 있다.

클라이언트 머신(204)은 서버 전송 모듈(214)로부터 클라이언트 전송 모듈(216)을 통해서 음향 신호를 수신한다. 음향 신호는 클라이언트 머신(204)의 캐시 메모리(226)에 저장된다. 사용자가 북의 경청을 요청할 때, 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다. 일부 실시예들에서, 리더 어플리케이션은 북에 대한 음향 신호를 내레이션한다.

일실시예에서, 서버(202)는 스토리지(224)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 다른 실시예들에서, 클라이언트(204)는 캐시 메모리(226)에 최근에 플레이된 오디오 변환 북들을 저장할 수 있다. 일부 실시예들에서, 서버(202)는 새롭게 추가된 북들을 오디오 포맷으로 미리 변환한다. 예를 들어, 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들이다.

일실시예에서, 서버(202)는 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트를 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트(204)에 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트(204)에 직접 스트리밍될 수 있다. 각종 실시예들에서, 서버(202) 또는 클라이언트(204)는 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트(204)는 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.

도 3은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(300)의 도면이다. 클라이언트-클라이언트 시스템(300)은 이미 변환된 스피치를 나타내는 음향 신호를 클라이언트 머신들(204) 사이에서 인터넷을 통해서 전송한다. 클라이언트 머신들(204)은 예컨대 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 인터넷(330)을 통해서 송신 및 수신한다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.

일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 인터넷을 통해서 클라이언트들(204) 사이에서 다운로드될 수 있거나, 오디오 변환 북들은 인터넷을 통해서 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.

도 4는 본 발명의 다른 실시예에 따른 예시적 클라이언트-클라이언트 시스템(400)의 도면이다. 클라이언트-클라이언트 시스템(400)은 이미 변환된 텍스트를 나타내는 음향 음향 신호들을 클라이언트 머신들(204) 사이에서 직접 전송한다. 클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 서로의 사이에서 직접 송신 및 수신한다. 예를 들어, 클라이언트 머신들은 임의의 수의 잘 알려진 기법들, 예를 들어 와이파이, 적외선, USB, 파이어와이어, SCSI, 이더넷 등에 의해 직접 통신할 수 있다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.

일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 직접 전송될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 책에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.

도 5는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템(500)의 도면이다. 서버-클라이언트 시스템(500)은 클라이언트 머신(204) 상에서 텍스트를 스피치로 변환하고, 출력을 위해 변환된 텍스트를 준비하기 위해 스마트 캐싱 기법들을 사용하고, 변환된 텍스트를 서버 머신(202) 상에 저장하며, 변환된 텍스트를 출력을 위해 서버 머신(202)으로부터 클라이언트 머신(204)으로 분배한다. 일실시예에서, 클라이언트 머신(204)은 휴대용 디지털 리더이지만 임의의 컴퓨터 시스템일 수 있다. 서버 머신(202) 및 클라이언트 머신(204)은 클라이언트 머신이 전력에 연결될 때 또는 클라이언트 머신이 배터리 파워 상에서 실행되고 있을 때 통신할 수 있다. 일실시예에서, 서버 머신(202) 및 클라이언트 머신(204)은 XML, HTTP, TCP/IP 등과 같은 프로토콜들에 의해 통신한다. 서버-클라이언트 시스템(500)은 인터넷 또는 근거리 통신망을 통해서 연결되는 다수의 서버들 및 다수의 클라이언트 머신들을 포함할 수 있다.

서버(202)의 서버 프로세서(206)는 서버 프로그램 코드(208)의 관리 하에 동작한다. 클라이언트(204)의 클라이언트 프로세서(210)는 클라이언트 프로그램 코드(212)의 관리 하에 동작한다. 서버(202)의 서버 전송 모듈(214) 및 클라이언트(204)의 클라이언트 전송 모듈(216)은 서로 통신한다. 일실시예에서, 클라이언트(204)는 텍스트 대 스피치 시스템(100)(도 1)의 모든 단계들을 완료한다. 서버(202)는 오디오 변환 북들을 나타내는 음향 신호들의 큰 라이브러리를 저장한다.

따라서, 클라이언트 머신(204)은 발음 데이터베이스(218), 운율 데이터베이스(220), 및 음향 유닛 데이터베이스(222)를 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 서버 머신(202)은 합성된 자연 스피치를 저정하고, 요청에 따라 합성된 자연 스피치를 클라이언트 머신들(204) 중 하나 이상에 송신한다. 서버 머신(202)은 스토리지(224)에 많은 북 변환들을 저장할 수 있다.

클라이언트 머신(204)은 음향 신호를 클라이언트 전송 모듈(216)을 통해서 서버 전송 모듈(214)에/로부터 송신/수신한다. 음향 신호는 클라이언트 머신(204)의 캐시 메모리(226)에 저장된다. 사용자가 북의 경청을 요청할 때, 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.

일실시예에서, 서버(202)는 스토리지(224)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 다른 실시예들에서, 클라이언트(204)는 캐시 메모리(226)에 최근에 플레이된 오디오 변환 북들을 저장할 수 있다. 일부 실시예들에서, 클라이언트(204)는 새롭게 추가된 북들을 오디오 포맷으로 미리 변환한다. 예를 들어, 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들이다.

일실시예에서, 서버(202)는 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트를 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트(204)에 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트(204)에 직접 스트리밍될 수 있다. 각종 실시예들에서, 서버(202) 또는 클라이언트(204)는 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트(204)는 사용자 또는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 프리캐시할 수 있다.

도 6은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(600)의 도면이다. 클라이언트-클라이언트 시스템(600)은 텍스트 대 스피치를 클라이언트 머신들(204) 상에서 변환하고 변환된 스피치를 클라이언트 머신들 사이에서 인터넷을 통해서 전송한다. 클라이언트 머신들(204)는 발음 데이터베이스들(218), 운율 데이터베이스들(220), 및 음향 유닛 데이터베이스들(222)을 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 일실시예에서, 클라이언트 머신들(204)은 북들을 변환하기 위해 함께 작업할 수 있다. 예를 들어, 각종 클라이언트 머신들(204)은 북의 상이한 부분들을 변환할 수 있다.

클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 인터넷(330)을 통해서 송신 및 수신한다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.

일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 인터넷을 통해서 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 인터넷을 통해서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 책에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 생성된 북들의 플레이리스트를 프리캐시할 수 있다.

도 7은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(700)의 도면이다. 클라이언트-클라이언트 시스템(600)은 텍스트 대 스피치를 클라이언트 머신들(204) 상에서 변환하고 변환된 스피치를 클라이언트 머신들 사이에서 직접 전송한다. 클라이언트 머신들(204)은 발음 데이터베이스들(218), 운율 데이터베이스들(220), 및 음향 유닛 데이터베이스들(222)을 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 일실시예에서, 클라이언트 머신들(204)은 북들을 변환하기 위해 함께 작업할 수 있다. 예를 들어, 각종 클라이언트 머신들(204)은 북의 상이한 부분들을 변환할 수 있다.

클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)을 통해서 서로의 사이에서 직접 송신 및 수신한다. 예를 들어, 클라이언트 머신들은 임의의 수의 잘 알려진 기법들, 예를 들어 와이파이, 적외선, USB, 파이어와이어, SCSI, 이더넷 등에 의해 직접 통신할 수 있다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.

일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 직접 전송될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 프리캐시할 수 있다.

도 8은 본 발명에 따른 텍스트 대 스피치 시스템이 구현될 수 있는 범용 컴퓨터 시스템(800)의 일례의 블록도이다. 도 8의 예에서, 시스템은 버스(806)를 통해서 GPU(graphics processing unit)(804)에 결합되는 호스트 CPU(central processing unit)(802)를 포함한다. 하나 이상의 CPU들뿐만 아니라 하나 이상의 GPU들도 사용될 수 있다.

CPU(802) 및 GPU(804) 둘 다가 메모리(808)에 결합된다. 도 8의 예에서, 메모리(808)는 공유 메모리일 수 있음으로써, 메모리는 CPU(802) 및 GPU(804) 둘 다에 대한 명령어들 및 데이터를 저장한다. 대안적으로, 각각 CPU(802) 및 GPU(804)에 전용되는 개별 메모리들이 존재할 수 있다. 일실시예에서, 메모리(808)는 본 발명에 따른 텍스트 대 스피치 시스템을 포함한다. 메모리(808)는 결합된 디스플레이(810)를 구동하는 화소 데이터를 저장하기 위한 비디오 프레임 버퍼를 포함할 수도 있다.

시스템(800)은 또한, 일 구현에서, 온스크린 커서 제어 디바이스를 포함하는 사용자 인터페이스(812)를 포함한다. 사용자 인터페이스는 키보드, 마우스, 조이스틱, 게임 컨트롤러, 및/또는 터치 스크린 디바이스(터치패드)를 포함할 수 있다.

일반적으로 말하면, 시스템(800)은 본 발명의 실시예들에 따른 기능성을 구현하는 컴퓨터 시스템 플랫폼의 기본 구성요소들을 포함한다. 시스템(800)은 예를 들어 다수의 상이한 타입들의 컴퓨터 시스템들(예를 들어, 서버들, 랩톱들, 데스크톱들, 노트북들, 및 게임 시스템들)뿐만 아니라, 셋톱 박스 또는 디지털 텔레비젼과 같은 홈 엔터테인먼트 시스템(예를 들어, DVD 플레이어), 또는 휴대용 또는 핸드헬드 전자 디바이스(예를 들어, 휴대 전화, 개인 휴대 정보 단말기, 핸드헬드 게임 디바이스, 또는 디지털 리더) 중 어느 하나로서 구현될 수 있다.

도 9는 본 발명의 실시예에 따른 효율적인 텍스트 대 스피치 변환의 예시적 컴퓨터 제어 방법의 순서도(900)를 도시한다. 특정 단계들이 순서도(900)에 개시될지라도, 그러한 단계들은 예시적이다. 즉, 본 발명의 실시예들은 순서도(900)에 열거되는 각종 다른 단계들 또는 단계들의 변형들을 수행하는데 적절하다.

단계 902에서, 텍스트의 일부들은 스피치 포맷으로의 변환을 위해 식별되며, 여기서 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 일실시예에서, 텍스트의 일부들은 오디오 변환 북들을 포함한다. 예를 들어, 도 2에서, 북들은 합성된 자연 스피치로 변환되고, 스마트 캐싱 기법들은 사용자가 요청할 수 있는 장래의 북들을 예상한다.

일부 실시예들에서, 정보는 새롭게 추가된 북들의 식별들을 포함하고, 텍스트의 일부는 새롭게 추가된 북으로부터 취해진다. 예를 들어, 도 2에서, 서버는 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들을 식별한다. 서버는 북을 요청하는 사용자를 예상하여, 북들을 오디오 포맷으로 변환하고 오디오 포맷을 클라이언트에 송신할 수 있다.

각종 실시예들에서, 텍스트는 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다. 예를 들어, 도 2에서, 예측들은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함하는 기준에 기초할 수 있다. 게다가, 정보는 북들의 사용자 생성 플레이리스트 및/또는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 포함할 수 있다.

단계 904에서, 텍스트 대 스피치 변환은 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부 상에 수행된다. 예를 들어, 도 2에서, 서버는 북들을 합성된 자연 스피치로 변환한다. 변환된 북은 클라이언트가 전력원에 연결되는 동안 클라이언트에 송신된 북이다.

단계 906에서, 변환된 스피치는 휴대용 디바이스의 메모리 디바이스로 저장된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리에 저장된다. 단계 908에서, 리더 어플리케이션이 실행되며, 여기서 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신된다. 예를 들어, 도 2에서, 사용자는 클라이언트 머신으로부터 북의 경청을 요청한다. 클라이언트 머신이 요청을 수신할 때, 클라이언트 머신 상의 리더 어플리케이션은 오디오 변환된 북을 내레이션한다. 단계 910에서, 실행하는 동안, 변환된 스피치는 메모리 디바이스로부터 액세스되고, 변환된 스피치는 사용자 요청에 응답하여 휴대용 디바이스 상에 렌더링된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리로부터 액세스된다. 음향 신호는 리더 어플리케이션에 의해 스피치 출력 유닛, 즉 스피커를 통해서 플레이된다.

도 10은 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 예시적 컴퓨터 제어 방법의 순서도(1000)를 도시한다. 특정 단계들이 순서도(1000)에 개시될지라도, 그러한 단계들은 예시적이다. 즉, 본 발명의 실시예들은 순서도(1000)에 열거되는 각종 다른 단계들 또는 단계들의 변형들을 수행하기에 적절하다.

단계 1002에서, 북은 북의 오디오 버전으로의 변환을 위해 식별되며, 여기서 식별하는 단계는 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 일실시예에서, 정보는 서버 상에 저장된 북들의 리스트를 포함하며, 여기서 북들의 리스트는 북의 식별을 포함한다. 예를 들어, 도 2에서, 서버는 북들 및 오디오 변환 북들의 리스트들을 저장한다. 클라이언트 머신 상의 오디오 변환 북들은 서버 상의 하나 이상의 리스트들에 포함될 수 있다. 일부 실시예들에서, 정보는 주제, 장르, 제목, 저자, 및 북의 날짜를 포함한다.

단계 1004에서, 북의 오디오 버전은 디지털 리더가 전력원에 연결되는 동안 액세스된다. 일부 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함한다. 예를 들어, 도 2에서, 오디오 변환 북들은 인터넷을 통해서 서버로부터 클라이언트로 스트리밍될 수 있다. 일부 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 예를 들어, 도 2에서, 오디오 변환 북들은 인터넷을 통해서 클라이언트에 다운로드될 수 있다.

각종 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 예를 들어, 도 3에서, 클라이언트-클라이언트 시스템은 오디오 변환 북들을 인터넷을 통해서 클라이언트로부터 클라이언트로 전송한다. 추가 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 오디오 버전을 직접 다운로드하는 단계를 포함한다. 예를 들어, 도 4에서, 클라이언트-클라이언트 시스템은 오디오 변환 북들을 와이파이, 적외선, USB, 파이어와이어, SCSI 등에 의해 클라이언트로부터 클라이언트로 직접 전송할 수 있다.

단계 1006에서, 오디오 버전은 디지털 리더의 메모리 디바이스로 저장된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리에 저장된다. 단계 1008에서, 리더 어플리케이션이 실행되며, 여기서 북은 사용자에 의한 내레이션을 위해 요청된다. 예를 들어, 도 2에서, 사용자는 클라이언트 머신으로부터 북의 경청을 요청한다. 클라이언트 머신이 요청을 수신할 때, 클라이언트 머신 상의 리더 어플리케이션은 오디오 변환된 북을 내레이션한다. 단계 1010에서, 실행하는 동안, 자연 스피치를 모방하는 음향 신호는 디지털 리더의 메모리 디바이스에서 오디오 버전으로부터 생성된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리로부터 액세스된다. 음향 신호는 리더 어플리케이션에 의해 스피치 출력 유닛, 즉 스피커를 통해서 플레이된다.

이전의 기재는 설명을 위해 특정 실시예들을 참조하여 설명되었다. 그러나, 상기 예시적 논의들은 모든 것을 망라하거나 본 발명을 개시된 정확한 형태들에 한정하도록 의도되지 않는다. 많은 수정들 및 변형들은 상기 교시들을 고려하여 가능하다. 실시예들은 본 발명의 원리들 및 그의 실제적인 적용들을 최상으로 설명하기 위해 선택 및 기재됨으로써, 예상된 특정 용도에 적절해질 수 있는 바와 같이 이 기술분야에서 숙련된 다른 사람들이 본 발명 및 각종 실시예들을 각종 수정들로 최상으로 이용할 수 있게 한다.

Claims

휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법으로서,
스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 상기 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
상기 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 상기 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계;
상기 변환된 스피치를 상기 휴대용 디바이스의 메모리 디바이스로 저장하는 단계;
리더 어플리케이션을 실행하는 단계 - 사용자 요청은 상기 텍스트의 일부의 내레이션을 위해 수신됨 -; 및
상기 실행하는 단계 동안, 상기 변환된 스피치를 상기 메모리 디바이스로부터 액세스하고 상기 변환된 스피치를 상기 사용자 요청에 응답하여 상기 휴대용 디바이스 상에 렌더링하는 단계
를 포함하는 방법.
제1항에 있어서, 상기 텍스트의 일부는 오디오 변환된 북을 포함하는 방법.
제1항에 있어서, 상기 정보는 새롭게 추가된 북들의 식별들을 포함하고, 상기 텍스트의 일부는 상기 새롭게 추가된 북들로부터 취해지는 방법.
제1항에 있어서, 상기 텍스트는 오디오 변환된 북을 포함하고, 상기 예측을 수행하는 단계는 상기 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함하는 방법.
제1항에 있어서, 상기 정보는 북들의 플레이리스트를 포함하는 방법.
제5항에 있어서, 상기 북들의 플레이리스트는 사용자에 의해 생성되는 방법.
제5항에 있어서, 상기 북들의 플레이리스트는 상기 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 방법.
방법으로서,
북의 오디오 버전으로의 변환을 위해 북을 식별하는 단계 - 상기 식별하는 단계는 상기 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
디지털 리더가 전력원에 연결되는 동안, 상기 북의 상기 오디오 버전에 액세스하는 단계;
상기 오디오 버전을 상기 디지털 리더의 메모리 디바이스로 저장하는 단계;
리더 어플리케이션을 실행하는 단계 - 상기 북은 사용자에 의한 내레이션을 위해 요청됨 -; 및
상기 실행하는 단계 동안, 자연 스피치를 모방하는 음향 신호를 상기 디지털 리더의 메모리 디바이스 내의 상기 오디오 버전으로부터 생성하는 단계
를 포함하는 방법.
제8항에 있어서, 상기 정보는 서버 상에 저장된 북들의 리스트를 포함하고, 상기 북들의 리스트는 상기 북의 식별을 포함하는 방법.
제8항에 있어서, 상기 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함하는 방법.
제8항에 있어서, 상기 액세스하는 단계는 서버로부터 인터넷을 통해서 상기 오디오 버전을 다운로드하는 단계를 포함하는 방법.
제8항에 있어서, 상기 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 상기 오디오 버전을 다운로드하는 단계를 포함하는 방법.
제8항에 있어서, 상기 액세스하는 단계는 다른 디지털 리더로부터 상기 오디오 버전을 직접 다운로드하는 단계를 포함하는 방법.
제8항에 있어서, 상기 정보는 주제, 장르, 제목, 저자, 및 상기 북의 날짜 중 하나를 포함하는 방법.
시스템으로서,
프로세서;
상기 프로세서에 결합되는 디스플레이;
상기 프로세서에 결합되는 입력 디바이스;
상기 프로세서에 결합되는 오디오 출력 디바이스; 및
상기 프로세서에 결합되는 메모리 - 상기 메모리는 실행될 때 상기 시스템이 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하게 하는 명령어들을 포함하고, 방법은,
스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 상기 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
상기 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 상기 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계;
상기 변환된 스피치를 상기 휴대용 디바이스의 메모리 디바이스로 저장하는 단계;
리더 어플리케이션을 실행하는 단계 - 사용자 요청은 상기 텍스트의 일부의 내레이션을 위해 수신됨 -; 및
상기 실행하는 단계 동안, 상기 변환된 스피치를 상기 메모리 디바이스로부터 액세스하고 상기 변환된 스피치를 상기 사용자 요청에 응답하여 상기 오디오 출력 디바이스 상에 렌더링하는 단계를 포함함 -
를 포함하는 시스템.
제15항에 있어서, 상기 텍스트의 일부는 오디오 변환된 북을 포함하는 시스템.
제15항에 있어서, 상기 정보는 새롭게 추가된 북들의 식별들을 포함하고, 상기 텍스트의 일부는 상기 새롭게 추가된 북들로부터 취해지는 시스템.
제15항에 있어서, 상기 텍스트는 오디오 변환된 북을 포함하고, 상기 예측을 수행하는 단계는 상기 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함하는 시스템.
제15항에 있어서, 상기 정보는 북들의 사용자 생성 플레이리스트를 포함하는 시스템.
제15항에 있어서, 상기 정보는 상기 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성된 북들의 플레이리스트를 포함하는 시스템.