KR20130059408A - 텍스트 대 스피치 변환을 위한 방법 및 시스템 - Google Patents

텍스트 대 스피치 변환을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20130059408A
KR20130059408A KR1020137005649A KR20137005649A KR20130059408A KR 20130059408 A KR20130059408 A KR 20130059408A KR 1020137005649 A KR1020137005649 A KR 1020137005649A KR 20137005649 A KR20137005649 A KR 20137005649A KR 20130059408 A KR20130059408 A KR 20130059408A
Authority
KR
South Korea
Prior art keywords
text
books
speech
book
audio
Prior art date
Application number
KR1020137005649A
Other languages
English (en)
Other versions
KR101426214B1 (ko
Inventor
링 준 웡
트루 시옹
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20130059408A publication Critical patent/KR20130059408A/ko
Application granted granted Critical
Publication of KR101426214B1 publication Critical patent/KR101426214B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

텍스트 대 스피치 변환을 위한 시스템 및 방법이 개시된다. 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계를 포함하며, 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트 대 스피치 변환이 텍스트의 일부에 대해 수행된다. 변환된 스피치는 휴대용 디바이스의 메모리 디바이스로 저장된다. 리더 어플리케이션이 실행되며, 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신된다. 실행하는 동안, 변환된 스피치는 메모리 디바이스로부터 액세스되고 사용자 요청에 응답하여 사용자에게 렌더링된다.

Description

텍스트 대 스피치 변환을 위한 방법 및 시스템{METHOD AND SYSTEM FOR TEXT TO SPEECH CONVERSION}
본 발명에 따른 실시예들은 일반적으로 텍스트 대 스피치 변환에 관한 것으로서, 특히 디지털 리더들을 위한 텍스트 대 스피치 변환에 관한 것이다.
텍스트 대 오디오 시스템은 입력 텍스트를 자연 스피치(natural speech)를 모방하는 출력 음향 신호로 변환할 수 있다. 텍스트 대 오디오 시스템들은 광범위한 적용들에 유용하다. 예를 들어, 텍스트 대 오디오 시스템들은 자동화 정보 서비스들, 무인 자동 중계들(auto-attendants), 컴퓨터 기반 명령어, 시각 장애인용 컴퓨터 시스템들, 및 디지털 리더들에 유용하다.
일부 간단한 텍스트 대 오디오 시스템들은 순수 텍스트 입력으로 동작하고 수신된 텍스트의 거의 없는 처리 또는 분석으로 대응하는 스피치 출력을 생성한다. 다른 더 복잡한 텍스트 대 오디오 시스템들은 텍스트의 발음에 영향을 끼치는 텍스트의 각종 의미론적 및 구문론적 속성들을 결정하기 위해 수신된 텍스트 입력들을 처리한다. 게다가, 다른 복잡한 텍스트 대 오디오 시스템들은 주석들로 수신된 텍스트 입력들을 처리한다. 주석 달린 텍스트 입력들은 더욱 부드럽고 인간적인 스피치를 생성하기 위해 텍스트 대 오디오 시스템에 의해 사용되는 발음 정보를 지정한다.
일부 텍스트 대 오디오 시스템들은 텍스트를 고품질 자연 사운드 스피치로 거의 실시간으로 변환한다. 그러나, 고품질 스피치를 생성하는 것은 다수의 잠재적인 음향 유닛들, 복잡한 규칙들, 및 유닛들을 조합하는 예외들을 필요로 한다. 따라서, 그러한 시스템들은 전형적으로 큰 저장 용량 및 높은 계산 능력을 필요로 하고 전형적으로 고량의 전력을 소비한다.
종종, 텍스트 대 오디오 시스템은 동일한 텍스트 입력을 다수 회 수신할 것이다. 그러한 시스템들은 각각 수신된 텍스트 입력을 완전히 처리하여, 그 텍스트를 스피치 출력으로 변환한다. 따라서, 각각 수신된 텍스트 입력은 동일한 텍스트 입력을 스피치로 이전에 변환한 것을 고려하지 않고, 동일한 텍스트 입력들이 얼마나 자주 텍스트 대 오디오 시스템에 의해 수신되는지를 고려하지 않고 대응하는 구두 출력을 구성하기 위해 처리된다.
예를 들어, 디지털 리더들의 경우에, 단일 텍스트 대 오디오 시스템은 사용자가 처음으로 북(book)을 경청했을 때, 및 사용자가 다음에 북의 경청을 다시 결정했을 때 텍스트 입력을 수신할 수 있다. 더욱이, 다수의 사용자들의 경우에, 단일 북은 많은 상이한 디지털 리더들에 의해 수천 회 변환될 수 있다. 그러한 중복 처리는 에너지 비효율적이고, 처리 자원을 소비하며, 시간을 낭비할 수 있다.
본 발명의 실시예들은 효율적인 텍스트 대 스피치 변환을 위한 방법 및 시스템에 관한 것이다. 일실시예에서, 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계; 변환된 스피치를 휴대용 디바이스의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션(reader application)을 실행하는 단계 - 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신됨 -; 및 실행하는 단계 동안, 변환된 스피치를 메모리 디바이스로부터 액세스하고 변환된 스피치를 사용자 요청에 응답하여 사용자에게 렌더링(rendering)하는 단계를 포함한다.
일실시예에서, 텍스트의 일부는 오디오 변환된 북을 포함한다. 일부 실시예들에서, 정보는 새롭게 추가된 북들의 식별을 포함하고, 텍스트의 일부는 새롭게 추가된 북들로부터 취해진다. 각종 실시예들에서, 텍스트는 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다.
추가 실시예들에서, 정보는 북들의 플레이리스트를 포함한다. 일부 실시예들에서, 북들의 플레이리스트는 사용자에 의해 생성된다. 다른 실시예들에서, 북들의 플레이리스트는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성된다.
다른 실시예에서, 텍스트 대 스피치 변환 방법은 북의 오디오 버전으로의 변환을 위해 북을 식별하는 단계 - 식별하는 단계는 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 디지털 리더가 전력원에 연결되는 동안, 북의 오디오 버전에 액세스하는 단계; 오디오 버전을 디지털 리더의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션을 실행하는 단계 - 북은 사용자에 의한 내레이션을 위해 요청됨 -; 및 실행하는 단계 동안, 자연 스피치를 모방하는 음향 신호를 디지털 리더의 메모리 디바이스 내의 오디오 버전으로부터 생성하는 단계를 포함한다.
일부 실시예들에서, 정보는 서버 상에 저장된 북들의 리스트를 포함하고, 북들의 리스트는 북의 식별을 포함한다. 각종 실시예들에서, 정보는 주제, 장르, 제목, 저자, 및 북의 날짜 중 하나를 포함한다.
일실시예에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함한다. 추가 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 일부 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 각종 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 직접 다운로드하는 단계를 포함한다.
다른 실시예에서, 텍스트 대 스피치 변환 시스템은 프로세서; 프로세서에 결합되는 디스플레이, 프로세서에 연결되는 입력 디바이스; 프로세서에 결합되는 오디오 출력 디바이스; 및 프로세서에 결합되는 메모리를 포함한다. 메모리는 실행될 때 시스템이 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하게 하는 명령어들을 포함한다. 방법은 스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -; 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계; 변환된 스피치를 휴대용 디바이스의 메모리 디바이스로 저장하는 단계; 리더 어플리케이션을 실행하는 단계 - 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신됨 -; 및 실행하는 단계 동안, 변환된 스피치를 메모리 디바이스로부터 액세스하고 변환된 스피치를 사용자 요청에 응답하여 사용자에게 렌더링하는 단계를 포함한다.
일부 실시예들에서, 텍스트의 일부는 오디오 변환된 북을 포함한다. 다른 실시예들에서, 정보는 새롭게 추가된 북들의 식별들을 포함하고, 텍스트의 일부는 새롭게 추가된 북들로부터 취해진다. 각종 실시예들에서, 텍스트은 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다. 추가 실시예들에서, 정보는 북들의 사용자 생성 플레이리스트 또는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 포함한다.
본 발명의 각종 실시예들의 이들 및 다른 목적들과 장점들은 각종 도면들에 예시되는 실시예들의 이하의 상세한 설명을 판독한 후에 당업자에 의해 인식될 것이다.
본 발명의 실시예들은 동일한 참조 숫자들이 유사한 요소들을 지칭하는 첨두 도면들의 도들에서 예로서 예시되고, 제한을 위한 것이 아니다.
도 1은 본 발명의 실시예에 따른 예시적 텍스트 대 스피치 시스템의 도면이다.
도 2는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템의 도면이다.
도 3은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 4는 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 5는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템의 도면이다.
도 6은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 7은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템의 도면이다.
도 8은 본 발명에 따른 텍스트 대 스피치 시스템이 구현될 수 있는 범용 컴퓨터 시스템의 일례의 블록도이다.
도 9는 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 예시적 방법의 순서도를 도시한다.
도 10은 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 다른 예시적 방법의 순서도를 도시한다.
이제 본 발명에 따른 실시예들에 대한 참조가 상세히 이루어질 것이며, 그의 예들은 첨부 도면들에 예시되어 있다. 본 발명이 이 실시예들과 함께 설명될 것일지라도, 그들은 본 발명을 이 실시예들에 한정하도록 의도되지 않은 것이 이해될 것이다. 이에 반하여, 본 발명은 첨부된 청구범위에 의해 정의된 바와 같이 본 발명의 사상 및 범위 내에 포함될 수 있는 대안들, 수정들 및 등가물들을 커버하도록 의도된다. 더욱이, 본 발명의 실시예들의 이하의 상세한 설명에서, 다수의 특정 상세들은 본 발명의 완전한 이해를 제공하기 위해 설명된다. 그러나, 본 발명은 이 특정 상세들없이 실시될 수 있는 것이 당업자에 의해 인식될 것이다. 다른 사례들에서, 잘 알려진 방법들, 절차들, 구성요소들, 및 회로들은 불필요하게 본 발명의 실시예들의 양태들을 모호하게 하지 않도록 상세히 설명되지 않았다.
시스템의 실시예들을 도시하는 도면들은 반도식적이고 축척에 따라 도시되지 않으며, 특히 치수들의 일부는 표시의 명료성을 위한 것이고 도면에서 과장되어 도시되어 있다. 또한, 다수의 실시예들은 일부 특징들을 공통으로 갖는 것으로 개시 및 설명될지라도, 그의 예시, 설명, 및 이해의 명료성 및 용이성을 위해, 어떤 것과 다른 것의 동일한 특징들은 동일한 참조 숫자들을 이용하여 통상 설명될 것이다.
이어지는 상세한 설명들의 일부 부분들(예를 들어 도 9 및 도 10)은 절차들, 단계들, 시뮬레이션들, 계산들, 논리 블록들, 처리, 및 컴퓨터 시스템 내의 데이터에 대한 조작들의 다른 기호 표현들에 관하여 제공된다. 이 설명들 및 표현들은 이 기술분야에서 숙련된 다른 사람들에게 작업의 내용을 가장 효과적으로 전달하기 위해 데이터 처리 기술분야에서 숙력된 사람들에 의해 사용되는 수단이다. 절차, 컴퓨터 실행 단계, 논리 블록, 프로세스 등은 여기서, 그리고 일반적으로 원하는 결과를 초래하는 단계들 또는 명령어들의 일관성있는 시퀀스인 것으로 생각된다. 단계들은 물리량들의 물리적 조작들을 필요로 하는 것들이다. 통상, 반드시 그런 것은 아닐지라도, 이 물리량들은 컴퓨터 시스템에 저장, 전송, 조합, 비교, 및 다르게 조작될 수 있는 전기 또는 자기 신호들의 형태를 취한다. 이 신호들을 비트들, 값들, 요소들, 기호들, 문자들, 용어들, 번호들 등으로서 지칭하는 것은 주로 일반적인 용법의 이유들 때문에 때때로 편리한 것으로 증명되었다.
그러나, 이들 및 유사한 용어들 모두는 적절한 물리량들과 관련되고 이 물리량에 적용되는 단지 편리한 라벨들인 것이 기억되어야 한다. 이하의 논의들로부터 명백해지는 바와 같이 구체적으로 다르게 지정되지 않으면, 본 발명의 도처에서, 논의들은 컴퓨터 시스템의 레지스터들 및 메모리들 내의 물리(전자) 양들로서 표시되는 데이터를 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장, 전송, 또는 디스플레이 디바이스들 내의 물리량들과 유사하게 표시되는 다른 데이터로 조작 및 변환하는 컴퓨터 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 동작들 및 처리들을 참조하는 것이 이해된다.
도 1은 본 발명의 실시예에 따른 예시적 텍스트 대 스피치 시스템(100)의 도면이다. 텍스트 대 스피치 시스템(100)은 입력 텍스트(102)를 자연 스피치를 모방하는 음향 신호(114)로 변환한다. 입력 텍스트(102)는 통상 구두, 약어들, 두문자어들, 및 비워드(non-word) 기호들을 포함한다. 텍스트 정규화 유닛(104)은 입력 텍스트(102)를 비단축 워드들의 시퀀스를 포함하는 정규화된 텍스트로 변환한다. 대부분의 구두는 적절한 운율을 제안하는데 유용하다. 그러므로, 텍스트 정규화 유닛(104)은 운율 생성 유닛(106)에 대한 입력으로서 사용되는 구두를 필터링 아웃한다. 일실시예에서, 일부 구두는 관계없고 필터링 아웃된다.
약어들 및 두문자어들은 문맥에 의존할 수 있거나 의존할 수 없는 그의 등가 워드 시퀀스들로 변환된다. 텍스트 정규화 유닛(104)은 또한 기호들을 워드 시퀀스들로 변환한다. 예를 들어, 텍스트 정규화 유닛(104)은 번호들, 유통량들, 날짜들, 시간들, 및 이메일 주소들을 검출한다. 그 다음, 텍스트 정규화 유닛(104)은 기호들을 문장 내의 기호의 위치에 의존하는 텍스트로 변환한다.
정규화된 텍스트는 그의 형태학적 표현을 결정하기 위해 각 워드를 분석하는 발음 유닛(108)에 송신된다. 이것은 통상 영어에 어렵지 않지만, 워드들이 함께 나열되는 언어, 예를 들어 독일어에서, 워드들은 기본 워드들, 접두사들, 및 접미사들로 분할되어야 한다. 그 다음, 최종 워드들은 음소 시퀀스 또는 그의 발음로 변환된다.
발음은 문장 또는 그의 문맥, 예를 들어 주위 워드들 내의 워드의 위치에 의존할 수 있다. 일실시예에서, 3개의 자원은 변환을 수행하기 위해 발음 유닛(108)에 의해 사용된다: 문자 대 사운드 규칙들; 문자 시퀀스들을 언어 통계에 기초하여 최고 확률 음소 시퀀스들로 변환하는 통계 표현들; 및 워드 및 발음 쌍들인 딕셔너리들(dictionaries).
변환은 통계적 표현들없이 수행될 수 있지만, 모든 3개의 자원이 전형적으로 사용된다. 규칙들은 그의 문맥에 따라 동일한 워드의 상이한 발음들을 구별할 수 있다. 다른 규칙들은 인지(human knowledge)에 기초하여 처음 보는 문자 조합들의 발음들을 예측하기 위해 사용된다. 딕셔너리들은 규칙들 및 통계적 방법들로부터 생성될 수 없는 예외들을 포함한다. 규칙들, 통계적 모델들, 및 딕셔너리의 수집은 발음 유닛(108)에 필요한 데이터베이스를 형성한다. 일실시예에서, 이 데이터베이스는 특히 고품질 텍스트 대 스피치 변환을 위해 대규모이다.
최종 음소들은 텍스트 정규화 유닛(104)으로부터 추출되는 구두와 함께, 운율 생성 유닛(106)에 송신된다. 운율 생성 유닛(106)은 문장 구조, 구두, 특정 워드들, 및 텍스트의 주위 문장들로부터 스피치 합성에 필요한 타이밍 및 피치 정보를 생성한다. 일례에서, 피치는 한 레벨에서 시작되고 문장의 끝을 향해서 감소된다. 피치 윤곽은 이 평균 궤도 둘레에서 변화될 수 있다.
날짜들, 시간들, 및 유통들은 스페셜 피스들(special pieces)로서 식별될 수 있는 문장의 부분들의 예들이다. 각각의 피치는 그 정보 타입을 위해 만들어지는 규칙 세트 또는 통계적 모델로부터 결정된다. 예를 들어, 번호 시퀀스 내의 최종 번호는 통상 이전 번호들보다 낮은 피치에 있다.
예를 들어 날짜 및 전화 번호의 리듬들, 또는 음소 지속시간들은 전형적으로 서로 상이하다. 일실시예에서, 규칙 세트 또는 통계적 모델은 실제 워드, 그의 문장 부분, 및 주위 문장들에 기초하여 음소 지속시간들을 결정한다. 이 규칙 세트들 또는 통계적 모델들은 운율 생성 유닛(106)에 필요한 데이터베이스를 형성한다. 일실시예에서, 데이터베이스는 더 많은 자연 사운드 합성기들을 위해 상당히 대규모일 수 있다.
음향 신호 합성 유닛(110)은 자연 스피치를 모방하는 음향 신호(114)를 생성하기 위해 발음 유닛(108) 및 운율 생성 유닛(106)으로부터 피치, 지속시간, 및 음소 정보를 조합한다. 음향 신호(114)는 본 발명의 실시예들에 따른 스마트 캐싱 유닛(112)에서 프리캐시(pre-cach)된다. 스마트 캐싱 유닛(112)은 사용자가 자연 스피치를 모방하는 음향 신호(114)의 경청을 요청할 때까지 음향 신호(114)를 저장한다.
본 발명의 실시예들에 따르면, 서버-클라이언트 시스템은 각종 스마트 캐싱 기법들을 사용할 수 있다. 일실시예에서, 최근에 플레이된 오디오 변환 북들은 서버 또는 클라이언트 상에 저장될 수 있다. 일부 실시예들에서, 새롭게 추가된 북들은 오디오 포맷으로 미리 변환될 수 있다. 다른 실시예들에서, 리스트는 서버 상에 준비될 수 있으며, 이는 그 다음에 클라이언트에 직접 스트리밍되거나 클라이언트에 미리 다운도르될 수 있다. 각종 실시예들에서, 클라이언트 또는 서버는 북 또는 사용자의 어떤 특징들, 예를 들어 주제, 장르, 제목, 저자, 날짜들, 이전에 읽은 북들, 사용자 데모그래픽(demographic) 정보 등에 기초하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트는 서버 또는 클라이언트 상에 프리캐시될 수 있다.
도 2는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템(200)의 도면이다. 서버-클라이언트 시스템(200)는 서버 머신(202) 상에서 텍스트를 스피치로 변환하고, 출력을 위해 변환된 텍스트를 준비하기 위해 스마트 캐싱 기법들을 사용하고, 변환된 텍스트를 서버 머신(202) 상에 저장하며, 변환된 텍스트를 출력을 위해 서버 머신(202)으로부터 클라이언트 머신(204)으로 분배한다. 일실시예에서, 클라이언트 머신(204)은 휴대용 디지털 리더일 수 있지만, 임의의 휴대용 컴퓨터 시스템일 수 있다. 서버 머신(202) 및 클라이언트 머신(204)은 클라이언트 머신(204)이 전력원에 연결될 때 또는 클라이언트 머신이 배터리 파워(battery power) 상에서 실행되고 있을 때 통신할 수 있다. 일실시예에서, 서버 머신(202) 및 클라이언트 머신(204)은 XML, HTTP, TCP/IP 등과 같은 프로토콜들에 의해 통신한다. 서버-클라이언트 시스템(200)은 인터넷 또는 근거리 통신망을 통해서 연결되는 다수의 서버들 및 다수의 클라이언트 머신들을 포함할 수 있다.
서버(202)의 서버 프로세서(206)는 서버 프로그램 코드(208)의 관리 하에 동작한다. 클라이언트(204)의 클라이언트 프로세서(210)는 클라이언트 프로그램 코드(212)의 관리 하에 동작한다. 서버(202)의 서버 전송 모듈(214) 및 클라이언트(204)의 클라이언트 전송 모듈(216)은 서로 통신한다. 일실시예에서, 서버(202)는 음향 신호 합성을 통해서 텍스트 대 스피치 시스템(100)(도 1)의 모든 단계들을 완료한다. 클라이언트(204)는 텍스트 대 스피치 시스템(100)(도 1)의 음향 신호의 스마트 캐싱 및 생성을 완료한다.
서버(202)의 발음 데이터베이스(218)는 발음을 결정하기 위해 3개의 타입들의 데이터 중 적어도 하나를 저장한다: 미지의 워드들에 대한 문맥 기반 규칙들 및 발음 예측들을 포함하는 문자 대 사운드 규칙들; 문자 시퀀스들을 언어 통계에 기초하여 최고 확률 음소 시퀀스들로 변환하는 통계적 모델들; 및 규칙들 또는 통계적 방법들로부터 유도될 수 없는 예외들을 포함하는 딕셔너리들. 서버(202)의 운율 데이터베이스(220)는 워드 및 그의 문맥에 기초하여 음소 지속시간들 및 피치를 결정하는 규칙 세트들 또는 통계적 모델들을 포함한다. 음향 유닛 데이터베이스(222)는 원하는 음소들을 획득하기 위해 선택되는 서브-표음(sub-phonetic), 표음, 및 보다 큰 다중-표음(multi-phonetic) 음향 유닛들을 저장한다.
서버(202)는 발음 데이터베이스(218), 운율 데이터베이스(220), 및 음향 유닛 데이터베이스(222)를 사용하여 텍스트 정규화, 발음, 운율 생성, 및 음향 신호 합성을 수행한다. 일실시예에서, 데이터베이스들은 조합되거나, 분리될 수 있거나, 또는 추가적인 데이터베이스들이 사용될 수 있다. 자연 스피치를 모방하는 음향 신호가 합성된 후에, 음향 신호는 서버(202)의 스토리지(224), 예를 들어 하드 디스크에 저장된다. 일실시예에서, 음향 신호가 압축될 수 있다.
따라서, 서버 머신(202)는 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 서버 머신(202)은 합성된 자연 스피치를 저장하고, 요청에 따라, 합성된 자연 스피치를 클라이언트 머신들(204) 중 하나 이상에 송신한다. 서버 머신(202)은 많은 북 변환들을 저장할 수 있다.
클라이언트 머신(204)은 서버 전송 모듈(214)로부터 클라이언트 전송 모듈(216)을 통해서 음향 신호를 수신한다. 음향 신호는 클라이언트 머신(204)의 캐시 메모리(226)에 저장된다. 사용자가 북의 경청을 요청할 때, 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다. 일부 실시예들에서, 리더 어플리케이션은 북에 대한 음향 신호를 내레이션한다.
일실시예에서, 서버(202)는 스토리지(224)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 다른 실시예들에서, 클라이언트(204)는 캐시 메모리(226)에 최근에 플레이된 오디오 변환 북들을 저장할 수 있다. 일부 실시예들에서, 서버(202)는 새롭게 추가된 북들을 오디오 포맷으로 미리 변환한다. 예를 들어, 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들이다.
일실시예에서, 서버(202)는 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트를 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트(204)에 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트(204)에 직접 스트리밍될 수 있다. 각종 실시예들에서, 서버(202) 또는 클라이언트(204)는 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트(204)는 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.
도 3은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(300)의 도면이다. 클라이언트-클라이언트 시스템(300)은 이미 변환된 스피치를 나타내는 음향 신호를 클라이언트 머신들(204) 사이에서 인터넷을 통해서 전송한다. 클라이언트 머신들(204)은 예컨대 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 인터넷(330)을 통해서 송신 및 수신한다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.
일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 인터넷을 통해서 클라이언트들(204) 사이에서 다운로드될 수 있거나, 오디오 변환 북들은 인터넷을 통해서 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.
도 4는 본 발명의 다른 실시예에 따른 예시적 클라이언트-클라이언트 시스템(400)의 도면이다. 클라이언트-클라이언트 시스템(400)은 이미 변환된 텍스트를 나타내는 음향 음향 신호들을 클라이언트 머신들(204) 사이에서 직접 전송한다. 클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 서로의 사이에서 직접 송신 및 수신한다. 예를 들어, 클라이언트 머신들은 임의의 수의 잘 알려진 기법들, 예를 들어 와이파이, 적외선, USB, 파이어와이어, SCSI, 이더넷 등에 의해 직접 통신할 수 있다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.
일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 직접 전송될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 책에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 편집되는 북들의 플레이리스트를 프리캐시할 수 있다.
도 5는 본 발명의 실시예에 따른 예시적 서버-클라이언트 시스템(500)의 도면이다. 서버-클라이언트 시스템(500)은 클라이언트 머신(204) 상에서 텍스트를 스피치로 변환하고, 출력을 위해 변환된 텍스트를 준비하기 위해 스마트 캐싱 기법들을 사용하고, 변환된 텍스트를 서버 머신(202) 상에 저장하며, 변환된 텍스트를 출력을 위해 서버 머신(202)으로부터 클라이언트 머신(204)으로 분배한다. 일실시예에서, 클라이언트 머신(204)은 휴대용 디지털 리더이지만 임의의 컴퓨터 시스템일 수 있다. 서버 머신(202) 및 클라이언트 머신(204)은 클라이언트 머신이 전력에 연결될 때 또는 클라이언트 머신이 배터리 파워 상에서 실행되고 있을 때 통신할 수 있다. 일실시예에서, 서버 머신(202) 및 클라이언트 머신(204)은 XML, HTTP, TCP/IP 등과 같은 프로토콜들에 의해 통신한다. 서버-클라이언트 시스템(500)은 인터넷 또는 근거리 통신망을 통해서 연결되는 다수의 서버들 및 다수의 클라이언트 머신들을 포함할 수 있다.
서버(202)의 서버 프로세서(206)는 서버 프로그램 코드(208)의 관리 하에 동작한다. 클라이언트(204)의 클라이언트 프로세서(210)는 클라이언트 프로그램 코드(212)의 관리 하에 동작한다. 서버(202)의 서버 전송 모듈(214) 및 클라이언트(204)의 클라이언트 전송 모듈(216)은 서로 통신한다. 일실시예에서, 클라이언트(204)는 텍스트 대 스피치 시스템(100)(도 1)의 모든 단계들을 완료한다. 서버(202)는 오디오 변환 북들을 나타내는 음향 신호들의 큰 라이브러리를 저장한다.
따라서, 클라이언트 머신(204)은 발음 데이터베이스(218), 운율 데이터베이스(220), 및 음향 유닛 데이터베이스(222)를 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 서버 머신(202)은 합성된 자연 스피치를 저정하고, 요청에 따라 합성된 자연 스피치를 클라이언트 머신들(204) 중 하나 이상에 송신한다. 서버 머신(202)은 스토리지(224)에 많은 북 변환들을 저장할 수 있다.
클라이언트 머신(204)은 음향 신호를 클라이언트 전송 모듈(216)을 통해서 서버 전송 모듈(214)에/로부터 송신/수신한다. 음향 신호는 클라이언트 머신(204)의 캐시 메모리(226)에 저장된다. 사용자가 북의 경청을 요청할 때, 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.
일실시예에서, 서버(202)는 스토리지(224)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 다른 실시예들에서, 클라이언트(204)는 캐시 메모리(226)에 최근에 플레이된 오디오 변환 북들을 저장할 수 있다. 일부 실시예들에서, 클라이언트(204)는 새롭게 추가된 북들을 오디오 포맷으로 미리 변환한다. 예를 들어, 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들이다.
일실시예에서, 서버(202)는 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트를 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트(204)에 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트(204)에 직접 스트리밍될 수 있다. 각종 실시예들에서, 서버(202) 또는 클라이언트(204)는 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트(204)는 사용자 또는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 프리캐시할 수 있다.
도 6은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(600)의 도면이다. 클라이언트-클라이언트 시스템(600)은 텍스트 대 스피치를 클라이언트 머신들(204) 상에서 변환하고 변환된 스피치를 클라이언트 머신들 사이에서 인터넷을 통해서 전송한다. 클라이언트 머신들(204)는 발음 데이터베이스들(218), 운율 데이터베이스들(220), 및 음향 유닛 데이터베이스들(222)을 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 일실시예에서, 클라이언트 머신들(204)은 북들을 변환하기 위해 함께 작업할 수 있다. 예를 들어, 각종 클라이언트 머신들(204)은 북의 상이한 부분들을 변환할 수 있다.
클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)에 의해 인터넷(330)을 통해서 송신 및 수신한다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.
일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 인터넷을 통해서 다운로드될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 인터넷을 통해서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 책에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 생성된 북들의 플레이리스트를 프리캐시할 수 있다.
도 7은 본 발명의 실시예에 따른 예시적 클라이언트-클라이언트 시스템(700)의 도면이다. 클라이언트-클라이언트 시스템(600)은 텍스트 대 스피치를 클라이언트 머신들(204) 상에서 변환하고 변환된 스피치를 클라이언트 머신들 사이에서 직접 전송한다. 클라이언트 머신들(204)은 발음 데이터베이스들(218), 운율 데이터베이스들(220), 및 음향 유닛 데이터베이스들(222)을 사용하여 텍스트, 예를 들어 북을 합성된 자연 스피치로 변환한다. 일실시예에서, 클라이언트 머신들(204)은 북들을 변환하기 위해 함께 작업할 수 있다. 예를 들어, 각종 클라이언트 머신들(204)은 북의 상이한 부분들을 변환할 수 있다.
클라이언트 머신들(204)은 음향 신호들을 클라이언트 전송 모듈들(216)을 통해서 서로의 사이에서 직접 송신 및 수신한다. 예를 들어, 클라이언트 머신들은 임의의 수의 잘 알려진 기법들, 예를 들어 와이파이, 적외선, USB, 파이어와이어, SCSI, 이더넷 등에 의해 직접 통신할 수 있다. 음향 신호들은 클라이언트 머신들(204)의 캐시 메모리들(226)에 저장된다. 사용자가 클라이언트 머신들(204) 중 하나로부터 북의 경청을 요청할 때, 대응하는 클라이언트 머신(204)은 캐시 메모리(226)로부터 음향 신호를 검색하고 자연 스피치를 모방하는 음향 신호를 스피치 출력 유닛(228), 예를 들어 스피커를 통해서 생성한다.
일실시예에서, 클라이언트 머신들(204)은 캐시 메모리들(226)에 최근에 플레이된 오디오 변환 북들의 음향 신호들을 저장할 수 있다. 일부 실시예들에서, 클라이언트들(204)은 각종 기준에 기초하여 함께 그룹화되는 오디오 변환 북들의 리스트들을 가질 수 있다. 예를 들어, 기준은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함할 수 있다. 일부 실시예들에서, 그룹들은 클라이언트들(204) 상에 하나 이상의 북들을 포함할 수 있는 북들의 리스트들이다. 오디오 변환 북들은 클라이언트들(204) 사이에서 직접 전송될 수 있거나, 오디오 변환 북들은 클라이언트들(204) 사이에서 스트리밍될 수 있다. 각종 실시예들에서, 클라이언트들(204)은 기준에 기초하여 사용자가 다음에 읽을 수 있는 어떤 북에 관하여 스마트한 추측들을 할 수 있다. 추가 실시예들에서, 클라이언트들(204)은 사용자 또는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 프리캐시할 수 있다.
도 8은 본 발명에 따른 텍스트 대 스피치 시스템이 구현될 수 있는 범용 컴퓨터 시스템(800)의 일례의 블록도이다. 도 8의 예에서, 시스템은 버스(806)를 통해서 GPU(graphics processing unit)(804)에 결합되는 호스트 CPU(central processing unit)(802)를 포함한다. 하나 이상의 CPU들뿐만 아니라 하나 이상의 GPU들도 사용될 수 있다.
CPU(802) 및 GPU(804) 둘 다가 메모리(808)에 결합된다. 도 8의 예에서, 메모리(808)는 공유 메모리일 수 있음으로써, 메모리는 CPU(802) 및 GPU(804) 둘 다에 대한 명령어들 및 데이터를 저장한다. 대안적으로, 각각 CPU(802) 및 GPU(804)에 전용되는 개별 메모리들이 존재할 수 있다. 일실시예에서, 메모리(808)는 본 발명에 따른 텍스트 대 스피치 시스템을 포함한다. 메모리(808)는 결합된 디스플레이(810)를 구동하는 화소 데이터를 저장하기 위한 비디오 프레임 버퍼를 포함할 수도 있다.
시스템(800)은 또한, 일 구현에서, 온스크린 커서 제어 디바이스를 포함하는 사용자 인터페이스(812)를 포함한다. 사용자 인터페이스는 키보드, 마우스, 조이스틱, 게임 컨트롤러, 및/또는 터치 스크린 디바이스(터치패드)를 포함할 수 있다.
일반적으로 말하면, 시스템(800)은 본 발명의 실시예들에 따른 기능성을 구현하는 컴퓨터 시스템 플랫폼의 기본 구성요소들을 포함한다. 시스템(800)은 예를 들어 다수의 상이한 타입들의 컴퓨터 시스템들(예를 들어, 서버들, 랩톱들, 데스크톱들, 노트북들, 및 게임 시스템들)뿐만 아니라, 셋톱 박스 또는 디지털 텔레비젼과 같은 홈 엔터테인먼트 시스템(예를 들어, DVD 플레이어), 또는 휴대용 또는 핸드헬드 전자 디바이스(예를 들어, 휴대 전화, 개인 휴대 정보 단말기, 핸드헬드 게임 디바이스, 또는 디지털 리더) 중 어느 하나로서 구현될 수 있다.
도 9는 본 발명의 실시예에 따른 효율적인 텍스트 대 스피치 변환의 예시적 컴퓨터 제어 방법의 순서도(900)를 도시한다. 특정 단계들이 순서도(900)에 개시될지라도, 그러한 단계들은 예시적이다. 즉, 본 발명의 실시예들은 순서도(900)에 열거되는 각종 다른 단계들 또는 단계들의 변형들을 수행하는데 적절하다.
단계 902에서, 텍스트의 일부들은 스피치 포맷으로의 변환을 위해 식별되며, 여기서 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 일실시예에서, 텍스트의 일부들은 오디오 변환 북들을 포함한다. 예를 들어, 도 2에서, 북들은 합성된 자연 스피치로 변환되고, 스마트 캐싱 기법들은 사용자가 요청할 수 있는 장래의 북들을 예상한다.
일부 실시예들에서, 정보는 새롭게 추가된 북들의 식별들을 포함하고, 텍스트의 일부는 새롭게 추가된 북으로부터 취해진다. 예를 들어, 도 2에서, 서버는 사용자가 최근에 구매한 북들, 새롭게 발매된 북들, 또는 오디오 변환에 새롭게 이용가능한 북들을 식별한다. 서버는 북을 요청하는 사용자를 예상하여, 북들을 오디오 포맷으로 변환하고 오디오 포맷을 클라이언트에 송신할 수 있다.
각종 실시예들에서, 텍스트는 오디오 변환된 북을 포함하고, 예측을 수행하는 단계는 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함한다. 예를 들어, 도 2에서, 예측들은 주제, 장르, 제목, 저자, 날짜들, 사용자에 의해 이전에 읽혀진 북들, 다른 사용자들에 의해 이전에 읽혀진 북들, 사용자 데모그래픽 정보 등을 포함하는 기준에 기초할 수 있다. 게다가, 정보는 북들의 사용자 생성 플레이리스트 및/또는 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 북들의 플레이리스트를 포함할 수 있다.
단계 904에서, 텍스트 대 스피치 변환은 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 텍스트의 일부 상에 수행된다. 예를 들어, 도 2에서, 서버는 북들을 합성된 자연 스피치로 변환한다. 변환된 북은 클라이언트가 전력원에 연결되는 동안 클라이언트에 송신된 북이다.
단계 906에서, 변환된 스피치는 휴대용 디바이스의 메모리 디바이스로 저장된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리에 저장된다. 단계 908에서, 리더 어플리케이션이 실행되며, 여기서 사용자 요청은 텍스트의 일부의 내레이션을 위해 수신된다. 예를 들어, 도 2에서, 사용자는 클라이언트 머신으로부터 북의 경청을 요청한다. 클라이언트 머신이 요청을 수신할 때, 클라이언트 머신 상의 리더 어플리케이션은 오디오 변환된 북을 내레이션한다. 단계 910에서, 실행하는 동안, 변환된 스피치는 메모리 디바이스로부터 액세스되고, 변환된 스피치는 사용자 요청에 응답하여 휴대용 디바이스 상에 렌더링된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리로부터 액세스된다. 음향 신호는 리더 어플리케이션에 의해 스피치 출력 유닛, 즉 스피커를 통해서 플레이된다.
도 10은 본 발명의 실시예에 따른 텍스트 대 스피치 변환의 예시적 컴퓨터 제어 방법의 순서도(1000)를 도시한다. 특정 단계들이 순서도(1000)에 개시될지라도, 그러한 단계들은 예시적이다. 즉, 본 발명의 실시예들은 순서도(1000)에 열거되는 각종 다른 단계들 또는 단계들의 변형들을 수행하기에 적절하다.
단계 1002에서, 북은 북의 오디오 버전으로의 변환을 위해 식별되며, 여기서 식별하는 단계는 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함한다. 일실시예에서, 정보는 서버 상에 저장된 북들의 리스트를 포함하며, 여기서 북들의 리스트는 북의 식별을 포함한다. 예를 들어, 도 2에서, 서버는 북들 및 오디오 변환 북들의 리스트들을 저장한다. 클라이언트 머신 상의 오디오 변환 북들은 서버 상의 하나 이상의 리스트들에 포함될 수 있다. 일부 실시예들에서, 정보는 주제, 장르, 제목, 저자, 및 북의 날짜를 포함한다.
단계 1004에서, 북의 오디오 버전은 디지털 리더가 전력원에 연결되는 동안 액세스된다. 일부 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함한다. 예를 들어, 도 2에서, 오디오 변환 북들은 인터넷을 통해서 서버로부터 클라이언트로 스트리밍될 수 있다. 일부 실시예들에서, 액세스하는 단계는 서버로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 예를 들어, 도 2에서, 오디오 변환 북들은 인터넷을 통해서 클라이언트에 다운로드될 수 있다.
각종 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 오디오 버전을 다운로드하는 단계를 포함한다. 예를 들어, 도 3에서, 클라이언트-클라이언트 시스템은 오디오 변환 북들을 인터넷을 통해서 클라이언트로부터 클라이언트로 전송한다. 추가 실시예들에서, 액세스하는 단계는 다른 디지털 리더로부터 오디오 버전을 직접 다운로드하는 단계를 포함한다. 예를 들어, 도 4에서, 클라이언트-클라이언트 시스템은 오디오 변환 북들을 와이파이, 적외선, USB, 파이어와이어, SCSI 등에 의해 클라이언트로부터 클라이언트로 직접 전송할 수 있다.
단계 1006에서, 오디오 버전은 디지털 리더의 메모리 디바이스로 저장된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리에 저장된다. 단계 1008에서, 리더 어플리케이션이 실행되며, 여기서 북은 사용자에 의한 내레이션을 위해 요청된다. 예를 들어, 도 2에서, 사용자는 클라이언트 머신으로부터 북의 경청을 요청한다. 클라이언트 머신이 요청을 수신할 때, 클라이언트 머신 상의 리더 어플리케이션은 오디오 변환된 북을 내레이션한다. 단계 1010에서, 실행하는 동안, 자연 스피치를 모방하는 음향 신호는 디지털 리더의 메모리 디바이스에서 오디오 버전으로부터 생성된다. 예를 들어, 도 2에서, 음향 신호는 클라이언트 머신의 캐시 메모리로부터 액세스된다. 음향 신호는 리더 어플리케이션에 의해 스피치 출력 유닛, 즉 스피커를 통해서 플레이된다.
이전의 기재는 설명을 위해 특정 실시예들을 참조하여 설명되었다. 그러나, 상기 예시적 논의들은 모든 것을 망라하거나 본 발명을 개시된 정확한 형태들에 한정하도록 의도되지 않는다. 많은 수정들 및 변형들은 상기 교시들을 고려하여 가능하다. 실시예들은 본 발명의 원리들 및 그의 실제적인 적용들을 최상으로 설명하기 위해 선택 및 기재됨으로써, 예상된 특정 용도에 적절해질 수 있는 바와 같이 이 기술분야에서 숙련된 다른 사람들이 본 발명 및 각종 실시예들을 각종 수정들로 최상으로 이용할 수 있게 한다.

Claims (20)

  1. 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하는 방법으로서,
    스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 상기 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
    상기 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 상기 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계;
    상기 변환된 스피치를 상기 휴대용 디바이스의 메모리 디바이스로 저장하는 단계;
    리더 어플리케이션을 실행하는 단계 - 사용자 요청은 상기 텍스트의 일부의 내레이션을 위해 수신됨 -; 및
    상기 실행하는 단계 동안, 상기 변환된 스피치를 상기 메모리 디바이스로부터 액세스하고 상기 변환된 스피치를 상기 사용자 요청에 응답하여 상기 휴대용 디바이스 상에 렌더링하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 텍스트의 일부는 오디오 변환된 북을 포함하는 방법.
  3. 제1항에 있어서, 상기 정보는 새롭게 추가된 북들의 식별들을 포함하고, 상기 텍스트의 일부는 상기 새롭게 추가된 북들로부터 취해지는 방법.
  4. 제1항에 있어서, 상기 텍스트는 오디오 변환된 북을 포함하고, 상기 예측을 수행하는 단계는 상기 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함하는 방법.
  5. 제1항에 있어서, 상기 정보는 북들의 플레이리스트를 포함하는 방법.
  6. 제5항에 있어서, 상기 북들의 플레이리스트는 사용자에 의해 생성되는 방법.
  7. 제5항에 있어서, 상기 북들의 플레이리스트는 상기 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성되는 방법.
  8. 방법으로서,
    북의 오디오 버전으로의 변환을 위해 북을 식별하는 단계 - 상기 식별하는 단계는 상기 북과 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
    디지털 리더가 전력원에 연결되는 동안, 상기 북의 상기 오디오 버전에 액세스하는 단계;
    상기 오디오 버전을 상기 디지털 리더의 메모리 디바이스로 저장하는 단계;
    리더 어플리케이션을 실행하는 단계 - 상기 북은 사용자에 의한 내레이션을 위해 요청됨 -; 및
    상기 실행하는 단계 동안, 자연 스피치를 모방하는 음향 신호를 상기 디지털 리더의 메모리 디바이스 내의 상기 오디오 버전으로부터 생성하는 단계
    를 포함하는 방법.
  9. 제8항에 있어서, 상기 정보는 서버 상에 저장된 북들의 리스트를 포함하고, 상기 북들의 리스트는 상기 북의 식별을 포함하는 방법.
  10. 제8항에 있어서, 상기 액세스하는 단계는 서버로부터 인터넷을 통해서 스트리밍 통신을 수신하는 단계를 포함하는 방법.
  11. 제8항에 있어서, 상기 액세스하는 단계는 서버로부터 인터넷을 통해서 상기 오디오 버전을 다운로드하는 단계를 포함하는 방법.
  12. 제8항에 있어서, 상기 액세스하는 단계는 다른 디지털 리더로부터 인터넷을 통해서 상기 오디오 버전을 다운로드하는 단계를 포함하는 방법.
  13. 제8항에 있어서, 상기 액세스하는 단계는 다른 디지털 리더로부터 상기 오디오 버전을 직접 다운로드하는 단계를 포함하는 방법.
  14. 제8항에 있어서, 상기 정보는 주제, 장르, 제목, 저자, 및 상기 북의 날짜 중 하나를 포함하는 방법.
  15. 시스템으로서,
    프로세서;
    상기 프로세서에 결합되는 디스플레이;
    상기 프로세서에 결합되는 입력 디바이스;
    상기 프로세서에 결합되는 오디오 출력 디바이스; 및
    상기 프로세서에 결합되는 메모리 - 상기 메모리는 실행될 때 상기 시스템이 휴대용 디바이스 상에서 텍스트 대 스피치 변환을 수행하게 하는 명령어들을 포함하고, 방법은,
    스피치 포맷으로의 변환을 위해 텍스트의 일부를 식별하는 단계 - 상기 식별하는 단계는 사용자와 관련되는 정보에 기초하여 예측을 수행하는 단계를 포함함 -;
    상기 휴대용 디바이스가 전력원에 연결되는 동안, 변환된 스피치를 생성하기 위해 상기 텍스트의 일부에 대해 텍스트 대 스피치 변환을 수행하는 단계;
    상기 변환된 스피치를 상기 휴대용 디바이스의 메모리 디바이스로 저장하는 단계;
    리더 어플리케이션을 실행하는 단계 - 사용자 요청은 상기 텍스트의 일부의 내레이션을 위해 수신됨 -; 및
    상기 실행하는 단계 동안, 상기 변환된 스피치를 상기 메모리 디바이스로부터 액세스하고 상기 변환된 스피치를 상기 사용자 요청에 응답하여 상기 오디오 출력 디바이스 상에 렌더링하는 단계를 포함함 -
    를 포함하는 시스템.
  16. 제15항에 있어서, 상기 텍스트의 일부는 오디오 변환된 북을 포함하는 시스템.
  17. 제15항에 있어서, 상기 정보는 새롭게 추가된 북들의 식별들을 포함하고, 상기 텍스트의 일부는 상기 새롭게 추가된 북들로부터 취해지는 시스템.
  18. 제15항에 있어서, 상기 텍스트는 오디오 변환된 북을 포함하고, 상기 예측을 수행하는 단계는 상기 오디오 변환된 북의 특징들에 기초하여 후속 북을 예상하는 단계를 포함하는 시스템.
  19. 제15항에 있어서, 상기 정보는 북들의 사용자 생성 플레이리스트를 포함하는 시스템.
  20. 제15항에 있어서, 상기 정보는 상기 사용자와 유사한 속성들을 갖는 다른 사용자들에 의해 생성된 북들의 플레이리스트를 포함하는 시스템.
KR1020137005649A 2010-09-14 2011-06-22 텍스트 대 스피치 변환을 위한 방법 및 시스템 KR101426214B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/881,979 2010-09-14
US12/881,979 US8645141B2 (en) 2010-09-14 2010-09-14 Method and system for text to speech conversion
PCT/US2011/041526 WO2012036771A1 (en) 2010-09-14 2011-06-22 Method and system for text to speech conversion

Publications (2)

Publication Number Publication Date
KR20130059408A true KR20130059408A (ko) 2013-06-05
KR101426214B1 KR101426214B1 (ko) 2014-08-01

Family

ID=45807562

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137005649A KR101426214B1 (ko) 2010-09-14 2011-06-22 텍스트 대 스피치 변환을 위한 방법 및 시스템

Country Status (6)

Country Link
US (1) US8645141B2 (ko)
EP (1) EP2601652A4 (ko)
KR (1) KR101426214B1 (ko)
CN (1) CN103098124B (ko)
TW (1) TWI470620B (ko)
WO (1) WO2012036771A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9240180B2 (en) * 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
CN104978121A (zh) * 2015-04-30 2015-10-14 努比亚技术有限公司 一种桌面控制应用软件的方法及设备
US10489110B2 (en) * 2016-11-22 2019-11-26 Microsoft Technology Licensing, Llc Implicit narration for aural user interface
US11347733B2 (en) * 2019-08-08 2022-05-31 Salesforce.Com, Inc. System and method for transforming unstructured numerical information into a structured format

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US6600814B1 (en) * 1999-09-27 2003-07-29 Unisys Corporation Method, apparatus, and computer program product for reducing the load on a text-to-speech converter in a messaging system capable of text-to-speech conversion of e-mail documents
US6886036B1 (en) 1999-11-02 2005-04-26 Nokia Corporation System and method for enhanced data access efficiency using an electronic book over data networks
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
US7401020B2 (en) 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US20040133908A1 (en) * 2003-01-03 2004-07-08 Broadq, Llc Digital media system and method therefor
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
KR20070093434A (ko) 2004-12-22 2007-09-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 휴대용 오디오 재생 장치 및 그 동작 방법
US7490775B2 (en) * 2004-12-30 2009-02-17 Aol Llc, A Deleware Limited Liability Company Intelligent identification of multimedia content for synchronization
WO2006076516A2 (en) * 2005-01-12 2006-07-20 Howard Friedman Customizable delivery of audio information
US7457915B2 (en) * 2005-04-07 2008-11-25 Microsoft Corporation Intelligent media caching based on device state
US8065157B2 (en) * 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US20070100631A1 (en) * 2005-11-03 2007-05-03 Bodin William K Producing an audio appointment book
CN1991826A (zh) * 2005-12-27 2007-07-04 鸿富锦精密工业(深圳)有限公司 电子书检索系统及方法
US7653761B2 (en) * 2006-03-15 2010-01-26 Microsoft Corporation Automatic delivery of personalized content to a portable media player with feedback
WO2008072045A2 (en) * 2006-12-11 2008-06-19 Hari Prasad Sampath A method and system for personalized content delivery for wireless devices
US20080306909A1 (en) * 2007-06-08 2008-12-11 Microsoft Corporation Intelligent download of media files to portable device
KR20090003533A (ko) * 2007-06-15 2009-01-12 엘지전자 주식회사 사용자 손수 저작물의 생성과 운용을 위한 방법 및 시스템
KR101445869B1 (ko) * 2007-07-11 2014-09-29 엘지전자 주식회사 미디어 인터페이스
CN101354840B (zh) * 2008-09-08 2011-09-28 众智瑞德科技(北京)有限公司 一种对电子书进行语音阅读控制的方法及装置
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8239201B2 (en) 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100088746A1 (en) 2008-10-08 2010-04-08 Sony Corporation Secure ebook techniques
US9104670B2 (en) * 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets

Also Published As

Publication number Publication date
TW201225064A (en) 2012-06-16
US20120065979A1 (en) 2012-03-15
TWI470620B (zh) 2015-01-21
CN103098124A (zh) 2013-05-08
EP2601652A1 (en) 2013-06-12
CN103098124B (zh) 2016-06-01
KR101426214B1 (ko) 2014-08-01
WO2012036771A1 (en) 2012-03-22
US8645141B2 (en) 2014-02-04
EP2601652A4 (en) 2014-07-23

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
KR101426214B1 (ko) 텍스트 대 스피치 변환을 위한 방법 및 시스템
EP2157570B1 (en) Automatic conversation system and conversation scenario editing device
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
US8712776B2 (en) Systems and methods for selective text to speech synthesis
CN108831437B (zh) 一种歌声生成方法、装置、终端和存储介质
US20100082329A1 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
CN104115221A (zh) 基于文本到语音转换以及语义的音频人类交互证明
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN112669815B (zh) 歌曲定制生成方法及其相应的装置、设备、介质
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
CN113705163A (zh) 实体提取方法、装置、设备及计算机可读存储介质
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2019035786A (ja) 言語モデル生成装置、及び言語モデル生成方法
CN113920981A (zh) 一种基于n元非自回归语音合成方法、装置及电子设备
CN117690411A (zh) 音频处理方法、装置、设备、介质和程序产品
CN114093340A (zh) 语音合成方法、装置、存储介质及电子设备
KR100873842B1 (ko) 이동형 단말기 및 음성합성 칩에 적합한 저전력 소모 및 저계산량 고음질 음성합성 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170713

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180713

Year of fee payment: 5