KR20090033474A - 오디오 정보를 전달하기 위한 개선된 방법 및 장치 - Google Patents

오디오 정보를 전달하기 위한 개선된 방법 및 장치 Download PDF

Info

Publication number
KR20090033474A
KR20090033474A KR1020097003153A KR20097003153A KR20090033474A KR 20090033474 A KR20090033474 A KR 20090033474A KR 1020097003153 A KR1020097003153 A KR 1020097003153A KR 20097003153 A KR20097003153 A KR 20097003153A KR 20090033474 A KR20090033474 A KR 20090033474A
Authority
KR
South Korea
Prior art keywords
information
speech
speech synthesis
broadcast
audio
Prior art date
Application number
KR1020097003153A
Other languages
English (en)
Inventor
프랑크 에이. 레인
라지브 라로이아
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20090033474A publication Critical patent/KR20090033474A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

향상된 오디오를 제공하기 위한 방법 및 장치가 개시된다. 어떤 실시예들에서, 언어, 음색, 속도, 성별 및 음량과 같은 수신된 방송 스피치의 속성들의 사용자 제어를 제공하기 위해 스피치 합성 정보가 사용된다. 다른 실시예들에서, 스피치 합성 정보는 방송 오디오 신호 전에 전송되어, 오디오 신호의 중단이 있는 경우에 수신 노드가 방송 오디오 신호에 대한 합성된 스피치를 치환할 수 있게 한다. 또 다른 구현들은 배경 정보, 관련 로컬 정보, 제목 저자 등과 같이, 방송 오디오 신호와는 다른 스피치의 합성을 가능하게 한다. 다른 실시예들은 단일 송신 스트림으로 다수의 스피치 프로그램의 동시 송신을 가능하게 하여, 사용자가 선택된 프로그램을 나타내는 스피치를 합성하기 위한 프로그램들의 전송된 세트로부터 하나의 프로그램을 선택할 수 있게 한다.

Description

오디오 정보를 전달하기 위한 개선된 방법 및 장치{IMPROVED METHODS AND APPARATUS FOR DELIVERING AUDIO INFORMATION}
본 발명은 통신 시스템에 관한 것으로, 보다 구체적으로는 향상된 오디오 정보의 전달을 개선하기 위한 방법 및 장치에 관한 것이다.
오디오 프로그래밍은 통상적으로 중심 포인트에서 다수의 수신 포인트로 방송된다. 라디오 및 TV(위성 또는 지상)와 같은 무선 시스템, 또는 무선 셀룰러 방송 시스템에서, 오디오 프로그래밍은 송신을 위해 샘플링 및 압축된다. 그 다음, 수신 단에서 처리되어 오디오 프로그래밍을 재생한다. 이 프로세스는 고 충실도(fidelity) 오디오 재생에 특히 상당한 송신 대역폭을 이용한다. 스피치(speech)가 오디오 프로그램인 경우에, 수신 단에서 재생되는 오디오로부터 화자가 식별 가능하다. 그러나 고 충실도 오디오를 전송하는데 필요한 높은 대역폭과 함께, 수신하는 디바이스들은 일반적으로 원본 오디오만을 재생한다. 수신 단의 사용자는 방송되는 오디오 스피치의 성별, 억양, 음색, 속도, 언어 등을 제어할 수 없다. 또한, 높은 대역폭이 필요하기 때문에 오디오 선택의 한정된 어레이를 전송하기 위해 이용 가능한 채널들은 한정된 수만 있다.
텍스트 또는 음성 기호로 오디오 스피치를 표현하는 것이 당업계에 잘 알려 져 있다. 이러한 표현들은 스피치 합성기에서 처리되어 가청 스피치를 생성할 수 있다. 성별, 억양, 속도, 음색, 음량 등과 같은 다양한 대안적인 속성을 갖는 스피치를 생성하기 위해 다양한 파라미터를 합성 프로세스에 적용하는 것 또한 공지되어 있다. 표현 기호들로부터의 스피치 합성은 대안적인 음성 표현들을 이용하는 등 기호학의 선택을 변경함으로써 임의의 언어로 이행될 수 있는 것으로도 공지되어 있다.
또한, TV 및 라디오 방송국은 흔히 네트워크화 및 신디케이트 조직화(syndicate)되어 있어, 전국적으로 방송되는 것으로 공지되어 있다. 이 프로세스에서, 로컬 정보(로컬 스포츠, 뉴스, 날씨 등)는 흔히 청취자나 시청자들에게 제공되지 않는다.
방송되는 오디오의 일반적인 문제점은 차량이 터널에 진입할 때나 구조물 뒤로 갈 때와 같이 송신이 중단될 가능성이다. 이것은 방송 상황(수신 디바이스가 일반적으로 재전송을 요청하는 방송 송신기에 신호를 전송할 수 없다)이기 때문에, 중단 도중 전송되는 오디오는 유실될 것이다.
상기 논의의 관점에서, 오디오 정보를 단독으로 또는 전송되는 비디오 프로그래밍과 조합하여 전송하는 새롭고 개선된 방법들에 대한 필요성이 있는 것으로 인식되어야 한다.
상기 문제점 및 한계들은 다양한 구현에 의해 상당히 완화된다. 어떤 실시예들은 통상적으로 방송 시나리오에 방송 오디오 대신 또는 이에 추가하여 스피치 함성 정보의 전송을 수반한다. 스피치 합성 정보는 스피치의 텍스트 또는 음성 표현일 수 있다. 텍스트 기반이라면, (스피치 파라미터들과 같은) 제어 정보가 수신 단에 인가되어 합성된 스피치의 표현을 수정할 수 있다. 예컨대, 결과적으로 합성된 스피치를 미용상 더욱 호감이 가게 하기 위해, 스피치 합성 정보는 대안으로 남성 또는 여성 보이스로서, 다양한 사투리(예를 들어, 미서부 억양)로, 다양한 음색(예를 들어, 거슬리는 요구 목소리, 또는 부드럽고 편안한 목소리)으로, 선택된 속도 등으로 제시될 수 있다. 이러한 파라미터들은 스피치 합성 정보와 함께 방송될 수 있으며, 또는 수신 디바이스에 의해 제공될 수도 있고, 또는 이 둘의 임의의 조합이 이루어진다. 수신된 스피치 합성 정보는 실시간으로 합성되거나 추후의 검색을 위해 저장될 수 있다. 추가로, 저장된 스피치 합성 정보는 사용자가 합성된 보이스를 중지, 되감기 또는 빨리 감기를 할 수 있도록 이용될 수 있다.
어떤 실시예들에서, 텍스트 기반 스피치 합성 정보가 다수의 수신 노드 또는 스테이션으로 전송되고, 각 스테이션은 어느 스피치 파라미터들이 스피치 합성 정보에 적용될지를 선택하여, 다양한 수신 노드에서 다양한 가능한 오디오 스피치 출력들을 산출할 수 있다. 오디오와 반대로 스피치 합성 정보를 전송하는데 필요한 대역폭이 비교적 작기 때문에, 다수의 프로그래밍이 동시에 전송될 수 있다(또는 효율적으로 동시에 전송됨으로써, 각 프로그램이 수신 단에서 "실시간"으로 합성될 수 있다). 예컨대, 스피치는 스피치 합성 정보를 전송함으로써 이루어진다면 최소 대역폭으로 여러 언어로 동시에 방송될 수 있다. 대안으로, 로컬 뉴스, 스포츠 및 날씨가 다수의 장소에 방송될 수 있으며, 각 수신 디바이스는 보이스 합성을 위해 어떤 프로그래밍을 사용할지를 선택할 수 있다. 대안으로, 뉴스 또는 스포츠와 함께 하나 이상의 책이 실시간 가청 묘사를 위해 전송되거나 추후의 청취를 위해 다운로드될 수 있다.
또한, 필요한 대역폭은 비교적 작기 때문에, 타깃 스피치를 표현하는 스피치 합성 정보와 함께 추가 정보가 전송될 수 있다. 예컨대, 제어 파라미터들은 텍스트 기반 스피치 합성 정보와 함께 전송될 수 있다. 프로그램에 관한 정보가 추가 스피치 합성 정보로서 포함되어 이 정보(예를 들어, 저자, 제목, 분류)가 수신 사용자의 요청시 스피치로 합성될 수 있다. 또한, 동기 정보, 암호화 제어, 저작권 정보 등이 스피치 합성 정보 송신에 포함될 수 있다.
다른 실시예는 방송 오디오와 매치하는 또는 부분적으로 매치하는 스피치 합성 정보와 함께 방송 오디오의 전송을 수반한다. 방송 오디오 신호와 매치하는 스피치 합성 정보가 대응하는 방송 오디오 전에 전송되고, 방송 오디오 송신이 중단된다면, 수신 디바이스는 미리 수신된 스피치 합성 정보로 되돌아가고, 이를 합성기에 전송하여, 방송 오디오가 중단된 포인트에 합성된 스피치로 픽업할 수 있다.
다른 실시예에서, 스피치 합성 정보는 다른 언어일 수 있다는 점을 제외하고, 비디오/오디오 방송의 오디오 부분과 같은 방송 오디오와 매치할 수 있다. 다수의 스피치 합성 정보 스트림들을 각각 다른 언어로 동시에 전송함으로써, 수신 사용자는 비디오 프로그래밍을 보면서 청취하고자 하는 언어를 (해당 언어와 관련된 스피치 합성 정보를 선택하고 그 정보를 스피치로 합성함으로써) 선택할 수 있다. 이는 예를 들어 MPEG 송신의 통신 채널에 스피치 합성 정보를 통합하는 등 기존 기술에서 이행될 수 있다.
본 발명의 추가 특징 및 이익이 다음의 상세한 설명에서 논의된다.
도 1은 다양한 실시예에 따라 구현되는 예시적인 통신 시스템의 네트워크 도면을 나타낸다.
도 2는 다양한 실시예에 따라 구현되는 예시적인 기지국을 나타낸다.
도 3은 다양한 실시예에 따라 구현되는 예시적인 모바일 노드를 나타낸다.
도 4는 다양한 실시예에 따른 오디오 자료 세그먼트화 프로세스를 나타낸다.
도 5는 다양한 실시예에 따른 오디오 자료 세그먼트화 프로세스를 나타낸다.
도 6은 다양한 실시예에 따라 전송된 스피치 합성 정보와 관련된 식별 정보를 나타낸다.
도 7은 다양한 실시예에 따라 오디오/비디오 및 관련 스피치 합성 정보를 세그먼트화하는 프로세스를 나타낸다.
도 8은 다양한 실시예에 따라 오디오 및 관련 스피치 합성 정보를 수신하여 표현하는 프로세스를 나타낸다.
도 9는 다양한 실시예에 따라 통신 디바이스, 예를 들어 기지국을 작동시키는 예시적인 방법의 흐름도이다.
도 10은 다양한 실시예에 따라 사용자 디바이스, 예를 들어 무선 단말을 작동시키는 예시적인 방법의 흐름도이다.
도 11은 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐 름도이다.
도 12는 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐름도이다.
도 13은 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐름도이다.
도 14는 다양한 실시예에 따라 구현되는 예시적인 기지국의 도면이다.
도 15는 다양한 실시예에 따라 구현되는 예시적인 무선 단말, 예를 들어 모바일 노드의 도면이다.
향상된 오디오 능력들에 대한 다양한 실시예의 방법 및 장치가 넓은 범위의 디지털 통신 시스템에 사용될 수 있다. 예를 들어, 발명은 디지털 위성 라디오/TV 방송, 디지털 지상 무선 라디오/TV 방송, 또는 디지털 셀룰러 무선 시스템에 사용될 수 있다. 모뎀이 장착된 노트북 컴퓨터, PDA 및 디바이스 이동성에 관심이 있는 무선 인터페이스들을 지원하는 다른 다양한 디바이스와 같은 모바일 통신 디바이스들을 지원하는 임의의 시스템들 또한 다양한 실시예의 방법 및 장치에 이용될 수 있다.
도 1은 통신 링크들에 의해 상호 접속된 다수의 노드를 포함하는, 다양한 실시예에 따라 구현되는 예시적인 통신 시스템(10), 예를 들어 셀룰러 통신 네트워크를 나타낸다. 통신 시스템은 도 1에 나타낸 타입의 다수의 셀을 포함할 수 있다. 통신 셀(10)은 하나의 기지국(12) 및 화살표(13, 15)로 표현된 것과 같이 방송에 의해 기지국(12)과 데이터 및 신호들을 교환하는 다수, 예를 들어 N개의 모바일 노드(14, 16)를 포함한다. 네트워크는 OFDM 신호들을 이용하여 무선 링크를 통해 정보를 교환할 수 있다. 그러나 다른 타입의 신호들, 예를 들어 CDMA 신호들이 대신 사용될 수도 있다. 예시적인 통신 시스템(100)의 노드들은 통신 프로토콜들, 예를 들어 인터넷 프로토콜(IP)을 기초로 신호들, 예를 들어 메시지들을 이용하여 정보를 교환한다.
시스템(10)의 통신 링크들은 예를 들어 와이어, 광섬유 케이블 및/또는 무선 통신 기술들을 이용하여 구현될 수 있다. 다양한 실시예에 따르면, 기지국(12) 및 모바일 노드(14, 16)는 전달되는 데이터 시그널링, 예를 들어 보이스 또는 다른 페이로드 정보와 무관하게 제어 시그널링을 수행 및/또는 유지할 수 있다. 제어 시그널링의 예들은 스피치 합성 정보를 포함하며, 이 정보는 스피치의 텍스트 또는 음성 표현, 타이밍 정보, 합성 파라미터들(음색, 성별, 음량, 스피치, 말하기 속도, 지방 억양 등) 및 배경 정보(주제 분류, 제목, 저자, 저작권, 디지털 저작권 관리 등)을 포함할 수 있다. 스피치의 표현들은 ASCII 또는 다른 기호학, 음소(音素) 또는 다른 발음 표현들을 이용할 수 있다.
도 2는 다양한 실시예에 따라 구현되는 예시적인 기지국(12)을 나타낸다. 도시된 바와 같이, 예시적인 기지국(12)은 각종 엘리먼트가 데이터 및 정보를 상호 교환할 수 있게 하는 버스(207)를 통해 서로 연결되는 수신기 모듈(202), 송신기 모듈(204), 프로세서(206), 메모리(210) 및 네트워크 인터페이스(208)를 포함한다. 수신기 모듈(202)은 모바일 노드들로부터 신호를 수신하기 위한 안테나(203)에 연 결된다. 송신기 모듈(204)은 모바일 노드들로 신호들을 방송하는데 사용될 수 있는 송신기 안테나(205)에 연결된다. 네트워크 인터페이스(208)는 하나 이상의 네트워크 엘리먼트, 예를 들어 라우터 및/또는 인터넷에 기지국(12)을 연결하는데 사용된다. 이런 식으로, 기지국(12)은 기지국(12)에 의해 서비스되는 모바일 노드들과 다른 네트워크 엘리먼트들 간의 통신 엘리먼트로서 작용할 수 있다. 어떤 실시예들은 방송 전용 모드로 구현될 수 있으며, 때때로 방송 전용 모드로 구현되고, 이러한 경우에는 모듈(202) 또는 안테나(203)를 수신할 필요가 없을 수도 있다.
기지국(12)의 동작은 메모리(21)에 저장된 하나 이상의 루틴의 지시 하에 프로세서(206)에 의해 제어된다. 메모리(210)는 통신 루틴(223), 데이터(220), 오디오 및 스피치 합성 정보 제어기(222) 및 활성 사용자 정보(212)(방송 전용 구현에는 불필요할 수도 있음)를 포함한다. 데이터(220)는 하나 이상의 모바일 노드로 전송될 데이터를 포함하고, (통상적으로는 샘플링된 압축 포맷으로) 방송 오디오 신호들 및 스피치 합성 정보를 포함한다. 방송 오디오는 관련 방송 오디오(예를 들어, MPEG 포맷화된 자료들)를 갖는 방송 비디오로 대체될 수도 있고, 어떤 실시예에서는 대체된다. 이 경우, 보이스 합성 정보는 이러한 송신의 제어 채널들로 운반될 수 있다.
오디오 및 스피치 합성 정보 제어기(222)는 활성 사용자 정보(212) 및 데이터(220)와 관련하여 동작한다. 제어기(222)는 모바일 노드들이 향상된 오디오 서비스를 필요로 하는지 그리고 언제 필요로 하는지의 결정을 담당한다. 이는 그 결정을 향상된 오디오, 가용 자원들, 가용 데이터, 모바일 우선순위 등을 요청하는 모바일 노드들로부터의 요청들과 같은 다양한 기준에 기초할 수 있다. 이들 기준은 기지국이 이에 접속된 모바일 노드들에 대해 서로 다른 서비스 품질(QOS)을 지원할 수 있게 한다. 대안으로, 기지국(12)은 방송 전용 모드로 동작할 수 있으며, 이 경우 모든 모바일 노드에 향상된 오디오 서비스들을 전송함으로써 활성 사용자 정보(212)에 대한 필요성을 없앨 수 있다.
향상된(스피치 합성 지원) 오디오 서비스들이 제공되어야 한다면, 제어기(222)는 (도 4 내지 도 7과 관련하여 훨씬 더 상세히 설명되는) 데이터(220)로부터 적절한 데이터를 추출하게 된다. 예컨대, 향상된 오디오의 한 가지 타입은 오디오 스피치의 선택을 나타내는 스피치 합성 정보를 다수의 모바일 노드에 다수의 언어로 방송하는 것을 포함할 수 있다. 이러한 시나리오 하에, 각 수신 모바일 노드는 바람직한 언어를 선택하고, 스피치 합성을 위해 해당 언어에 대응하는 스피치 합성 정보를 분해한다. 이를 위해, 제어기(222)는 데이터(220)로부터 적절한 데이터를 선택하여 송신기(204)에 의한 방송을 위해 적절한 스피치 합성 정보를 구성하게 된다.
향상된 스피치의 다른 타입은 오디오 스피치 신호(샘플링 및 압축된 오디오)의 시간 지연 방송이 이어지는 스피치의 일부에 대응하는 스피치 합성 정보를 다수의 모바일 노드에 방송하는 것일 수 있다. 이런 식으로, 수신 노드는 스피치의 수신된 스피치 합성 정보 표현을 저장한 다음, 오디오 스피치를 수신 노드 디바이스의 사용자에게 재생할 수 있다. 사용자가 착신되는 무선 신호들을 차단하는 터널에 진입하는 등으로 오디오 스피치의 수신이 중단되면, 수신 노드는 중단을 검출하 고 이전에 수신된 스피치의 스피치 합성 정보로부터의 스피치 합성을 시작할 수 있으며, 이는 중단일 발생한 포인트에서 시작한다. 이런 식으로, 모바일 노드의 사용자는 방송 오디오 스피치에 의해 표현되는 것과 같이, 합성된 스피치가 원래 화자의 보이스에 있지 않더라도 스피치의 어떠한 일부도 놓치지 않게 된다. 이러한 향상된 오디오 서비스의 구현으로, 제어기(222)는 데이터(220)로부터 적절한 스피치 합성 정보 및 대응하는 오디오 신호를 선택하게 되고, 2개의 스트림간 지연을 제어하며, 송신기(204)에 의한 두 스트림의 송신을 지시하게 된다.
향상된 오디오의 또 다른 타입은 오디오 스피치의 일부에 대응하는 스피치 합성 정보를 다수의 모바일 노드에 방송하는 것이며, 스피치 합성 제어 정보는 성별, 음색, 음량, 말하기 속도, 지방 억양 등을 다양하게 나타내는 합성 파라미터들을 포함한다. 대안으로, 합성 파라미터들의 일부 또는 전부는 모바일 노드에 의해 국소적으로 제공될 수 있다. 이런 식으로, 수신 모바일 노드는 스피치의 스피치 합성 정보 표현을 수신하고, 관련 파라미터들 중에서 선택하며, 선택된 파라미터(들)에 따라 스피치를 합성할 수 있다. 이런 식으로, 모바일 노드의 사용자는 기지국(12)으로부터의 오디오 정보 전달의 형태들을 제어할 수 있다. 이는 하나의 모바일 노드가 다른 모바일 노드와는 다른 스피치의 오디오 해석을 생성할 수 있게 한다. 예를 들어, 한 사용자는 화자를 남성으로서 합성할 수 있는 한편, 다른 사용자는 동일한 수신 콘텐츠를 여성의 보이스로 합성할 수 있다.
향상된 오디오의 또 다른 타입은 다수의 모바일 노드에 오디오 신호들을, 전송되는 스피치 합성 정보에 포함된 대응하는 배경 잡음 정보와 함께 방송하는 것이 다. 이러한 배경 정보는 오디오 분류(스포츠, 날씨, 도서 등), 제목, 저자, 저작권, 디지털 저작권 관리, 암호화 제어 등일 수 있다. 배경 정보는 또한 보안 제어, 암호화, 오디오 분류 등과 같은 합성 프로세스를 제어하기 위해 모바일 노드에 의해 사용될 데이터를 포함할 수도 있고, 또는 방송되는 또는 합성되는 오디오 프로그램 자료의 제목 또는 저자와 같이 모바일 노드의 사용자에게 이용 가능한 추가 오디오 자료로서 합성될 데이터일 수도 있다.
활성 사용자 정보(212)는 기지국(12)에 의해 서비스되는 모바일 노드 및/또는 각 활성 사용자에 대한 정보를 포함한다. 각 모바일 노드 및/또는 사용자에 대해, 해당 사용자에 이용 가능한 향상된 오디오 서비스들뿐 아니라 스피치 합성 파라미터들에 관한 임의의 사용자 기호(preference)들을 이들 파라미터가 기지국(12)에 구현될 범위까지 포함한다. 예컨대, 사용자들의 부분 집합은 스페인어로 빠르게 말하는 남성 보이스의 향상된 오디오를 선호할 수도 있다. 사용자들의 다른 부분 집합은 여성 보이스의 미서부 사투리 또는 억양의 영어로 된 향상된 오디오를 선호할 수도 있다. 기지국(12)은 상술한 다른 각각의 선호도에 대한 합성 제어 파라미터들과 함께 스피치 합성 정보를 각각의 언어로 모든 모바일 노드(방송 노드)에 전송할 수도 있고, 또는 비슷한 선호도를 갖는 수신기들의 부분 집합들에 송신을 맞출 수도 있다.
도 3은 다양한 실시예에 따라 구현되는 예시적인 무선 단말, 예를 들어 모바일 노드(14)를 나타낸다. 모바일 노드(14)는 도 3에 도시된 바와 같이, 서로 연결되는 수신기(302), 송신기(304), 스피치 합성기(308), 안테나(303, 305), 메모 리(310), 사용자 I/O 디바이스(309) 및 프로세서(206)를 포함한다. 모바일 노드는 송신기(306), 수신기(302) 및 안테나(303, 305)를 사용하여 기지국(12)에 대해 정보를 전송 및 수신한다. 또, 방송 전용 구현에서 송신기(304) 및 안테나(305)는 불필요하다.
메모리(310)는 사용자/디바이스 정보(312), 데이터(320), 세그먼트 또는 타이밍 제어 모듈(324), 오디오 및 스피치 합성 제어 모듈(326) 및 스피치 합성 파라미터 제어 모듈(328)을 포함한다. 모바일 노드(14)는 모듈들의 제어 하에 동작하며, 이는 프로세서(306)에 의해 실행된다. 사용자/디바이스 정보(312)는 디바이스 정보, 예를 들어 디바이스 식별자, 네트워크 어드레스 또는 전화 번호를 포함한다. 이 정보는 예를 들어 통신 채널들의 할당시 모바일 노드들을 식별하기 위해 기지국(12)에 의해 사용될 수 있다. 데이터(320)는 예를 들어 스피치 합성 파라미터들 중에서 선택에 관련된 사용자 선호도 및 (존재한다면) 국소 저장된 스피치 합성 파라미터들을 포함한다.
오디오 및 스피치 합성 제어 모듈(326)은 기지국(12)으로부터 수신된 신호들 및 사용자 입력 데이터(320)와 관련하여, 모바일 노드(14)가 향상된 오디오 서비스 신호들을 수신할지, 이러한 신호들의 포맷, 스피치 합성 파라미터들의 할당(어느 것들이 기지국(12)에서 제어될 것이고 어느 것들이 모바일 노드(14)에서 제어될 것인지), 및 임의의 배경 정보의 제어를 결정한다. 세그먼트 또는 타이밍 제어 모듈(324)과 관련하여, 모듈(326)은 프로세서(306)가 (수신 방송 오디오와 같은) 사용자에게 전달 및 스피치 합성기(308)로 전달(스피치 합성 정보)하기에, 또는 둘 다에 적절한 착신 데이터 스트림들을 선택하게 할 것이다.
스피치 합성 파라미터 제어 모듈(328)은 처리 및 모바일 디바이스(14)의 사용자에게 전달하기 위해 (기지국(12)으로부터 수신 및/또는 데이터(320)로부터 국소적으로 추출되는 것과 같이) 적절한 합성 파라미터들을 스피치 합성기(308)에 입력한다. 데이터(320)는 또한 나중에 합성 및 재생을 위해 수신된 스피치 합성 정보를 저장하는데 사용될 수도 있다.
도 4는 방송 오디오에 대응하는 세그먼트화된 방송 오디오 신호들 및 스피치 합성 정보의 표시이다. 상술한 바와 같이, 한 구현은 스피치 프로그램과 관련된 스피치 합성 정보를 다수의 수신 노드에 전송한 다음, 지연 후 오디오 스피치 프로그램을 수신 노드들에 방송하는 것이다. 이런 식으로, 수신 노드가 송신 노드와의 무선 접촉을 놓치는 등(예를 들어, 터널로 들어가거나 건물이나 언덕 뒤를 지남으로써)에 의해 방송 오디오 프로그램의 송신이 중단된다면, 수신 노드는 중단을 검출하고, 방송 오디오에 대응하는 수신 및 저장된 스피치 합성 정보로 중단 포인트를 식별하며, 합성을 시작하여 수신 디바이스의 사용자에게 중단 포인트에서 시작하여 합성된 오디오를 제시한다. 한편, 무선 접촉을 놓치지 않은 다른 수신 디바이스는 계속해서 방송 오디오를 사용자에게 제시하게 된다. 비슷한 방식으로, 중단을 겪은 수신 디바이스는 방송 오디오의 재개를 식별하고, 해당 신호로 즉시 되돌아갈 수 있다.
세그먼트화된 데이터(41)는 방송 오디오 프로그램과 관련된 스피치 합성 정보의 번호가 매겨진 세그먼트들을 나타낸다. 세그먼트화된 오디오 스트림(42)은 샘플링되어 압축된 방송 오디오 프로그램의 세그먼트화를 나타내며, 각 세그먼트는 번호가 매겨지고 동일한 번호의 스피치 합성 정보 세그먼트와 관련된다. 그러나 수신 노드들로의 스트림(42) 세그먼트들의 송신은 세그먼트 스트림(41)의 송신으로부터 시간 지연된다. 이 지연은 1초 미만에서부터 몇 분까지 얼마가 될 수도 있고, 이는 방송 오디오 수신의 중단 이벤트에서 합성된 오디오의 계속을 가능하게 하기 위한 것이다.
이를 달성하는 한 가지 방법은 적어도 송신의 가장 긴 예상 중단 동안 스트림(42)의 송신을 지연하는 것이다. 예컨대, 각 세그먼트가 2초 길이이고, 예상되는 중단이 4초 길이일 수 있다면, 지연은 도 4에 나타낸 것과 같이 4초 또는 2개의 세그먼트여야 한다. 도 4에서 합성 세그먼트(41)가 이들이 수신될 때 2개의 세그먼트 크기의 버퍼로 버퍼링되거나 저장되는 경우, 스트림(42)의 오디오 세그먼트 1 및 2의 송신(이에 따라 스트림(41)의 합성 정보 세그먼트 3 및 4)이 수신되지 않는다면, 버퍼는 합성 정보 세그먼트 1 및 2를 포함할 것이다. 수신 노드는 버퍼링된 세그먼트들(1 & 2)을 합성하고 이들을 사용자에게 재생하며, 스트림(43)의 오디오 세그먼트 3에서 송신이 복원될 때 해당 및 다음 오디오 세그먼트들로 되돌아가 사용자에게 재생할 수 있다. 이런 식으로, 사용자는 세그먼트 1 및 2가 오디오 세그먼트 스트림의 압축 오디오보다는 합성된 스피치에 있더라도 오디오 프로그램의 모든 세그먼트를 수신하게 된다.
대안으로, 스트림들을 물리적으로 세그먼트화하는 대신, 중단 포인트와 일치하도록 저장된 합성 정보가 사용자에게 재생되어야 하는 포인트를 지연을 기초로 지정하기 위해 타이밍이 사용될 수 있다. 또한, 수신 노드에 합성 정보 세그먼트들을 전송하고 이들을 오디오 세그먼트들을 전송하기 전에 저장하는 것은 다양한 실시예에 부합하게 된다. 이런 식으로, 오디오의 임의의 중단 길이가 중단된 부분의 합성된 오디오로 개선될 수 있다.
도 5는 대안적인 실시예들을 다루기 위한 접근을 나타낸다. 상술한 바와 같이, 프로그래밍은 MPEG 기술을 이용하는 등의 비디오 및 오디오일 수 있다. 이 설명은 데이터 시스템들을 통해 보이스와 같은 데이터를 동시에 전송하는 디지털 오디오 송신에 동일하게 적용될 수 있다. MPEG 비디오의 경우, 번호에 의해 세그먼트들로 해체된 비디오의 스트림(53) 및 대응하는 식별 번호들을 갖는 세그먼트들로 해체된 오디오의 동시 스트림(52)이 있다. 추가로, 오디오의 전부 또는 일부를 나타내며, 합성 제어 파라미터들 및/또는 배경 정보를 더 포함하는 (때때로 오버헤드, 유지 또는 저속 데이터 부분들로 지칭되는) 신호의 제어 데이터 부분에 스피치 합성 정보(세그먼트 스트림(51))의 동시 송신이 있을 수 있다.
이는 임의의 수신 노드-제공 합성 제어 파라미터들과 관련하여, 사용자에게 프로그램의 오디오 부분에 관한 다양한 향상된 옵션들이 제시될 수 있게 한다. 이들 옵션은 스피치의 언어, 성별, 음색, 속도의 선택, 및 제목, 저자, 분류, 로컬 뉴스 또는 날씨 등과 같은 프로그램에 관한 추가 정보의 제공을 포함할 수 있다. 이러한 선택들은 예컨대 키패드 또는 다른 제어 디바이스로부터 입력함으로써 사용자에 의해 이루어질 수 있다. 또한, 스피치 합성 정보에서 배경 정보는 키패드 또는 다른 제어 디바이스를 통해 사용자에게 제시될 선택들을 포함할 수 있다.
도 6은 기지국으로부터의 송신의 일 실시예의 구현을 나타낸다. 이 실시예에서, 스피치 합성 정보는 여러 스피치 프로그램의 많은 음성 표현들을 포함할 수 있다. (스피치의 텍스트 표현들뿐 아니라) 스피치의 음성 표현들은 스피치의 통상의 샘플링 및 압축된 오디오 해석과 비교하여 거의 대역폭을 사용하지 않기 때문에, 동일한 스피치 프로그램 또는 다른 스피치 프로그램들의 많은 버전이 다수의 수신 노드에 동시에 방송될 수 있다. 예컨대, 셀룰러 무선 환경에서, 오디오 스피치의 다양한 스트림을 나타내는 스피치 합성 정보의 다양한 스트림을 동시에 전송하기 위해 OFDM 기술이 사용될 수 있다. 추가로, 배경 정보 및/또는 합성 제어 정보가 동일한 송신에서 인터리빙 또는 얽힐 수 있다.
도 6은 수신 노드들에 방송되는 스피치 합성 정보의 배경 정보의 일부를 도표(600)에 나타낸다. 구체적으로, 도 6은 관련된 스피치 합성 정보의 식별 정보를 나타낸다. 각 행은 스피치 프로그램의 표현을 포함하는 스피치 합성 정보의 스트림과 관련된다. 스피치 프로그램은 관련된 합성 파라미터들과 함께, 스피치의 음성 표현들을 포함하는 스피치 합성 정보에 의해 또는 스피치의 텍스트 표현에 의해 표현될 수 있다. 음성 표현들의 경우, 스피치 합성기는 정보를 이용하여 스피치를 직접 제시하게 된다. 텍스트 표현들의 경우, 텍스트 표현들과 함께, 스피치 합성기에 의해 파라미터들이 사용되어 스피치를 제시할 수 있다. 합성 파라미터들이 사용된다면, 이들은 스피치 합성 정보의 일부로서 전송되거나, 수신 노드에 의해 제공되며 또는 이 둘의 조합일 수 있다.
각 행은 (스피치 합성기에 의해 생성되는 것과 같은) 결과적인 스피치의 다 양한 속성을 기술한다. 설명을 위해 특정한 예시적인 속성들이 처음 2개의 행에 기재되었다. 예를 들어, 행(610)은 관련 스피치 합성 정보가 말하기 속도는 스피치 번호 2로 설정되고, (예를 들어, 미서부와 같은) 지역 1의 사투리 또는 억양을 갖는 남성 보이스를 나타냄을 보여준다. 행(612)과 관련된 스피치 합성 정보는 역시 말하기 속도 2이지만 (예를 들어, 미동부와 같은) 지역 2의 사투리를 갖는 여성 보이스를 나타내는 것으로서 행(608)으로 식별된다. 상술한 바와 같이, 이러한 스피치 속성들의 세트들은 스피치의 음성 표현들에 통합될 수도 있고(이 경우, 행(610, 612) 속성들의 각 세트는 음성 기호들의 관련 송신 스트림을 갖게 됨), 또는 합성 파라미터들을 적용함으로써 스피치의 텍스트 표현에 추가될 수도 있다(이 경우, 행(610, 612)에 대한 스피치의 텍스트 표현의 단 하나의 송신이 있어, 합성기는 행(610, 612)과 관련된 속성들의 2개의 세트 중 어느 하나를 제시할 수 있다). 열(308)의 다른 행들(614, 616, 618, 620, 622)은 스피치 속성들의 다른 조합들, 또는 음량, 다른 언어 등과 같은 다른 속성들을 나타낸다.
열(602)은 각 행과 관련된 스피치 합성 정보와 관련된 지역의 식별을 (우편 번호, 이름 등으로) 나타낸다. 행(610)의 스피치 속성들은 지역 1의 사투리를 나타내기 때문에, 열(602)은 행(610)을 지역 1에 관한 것으로서 식별한다. 열(604)은 각 행과 관련된 스피치 합성 정보의 분류를 나타낸다. 스피치 속성들의 제 1 스트림(행(610))은 스포츠 프로그램을 포함한다. 스피치 속성들의 제 2 세트(행(612))는 날씨의 스피치 프로그램을 포함한다. 열(606)은 각 행에 나타낸 프로그램의 지리적 분류를 식별한다. 행(610)은 (열(604)로 식별되는) 스포츠가 국내 또는 국제와 반대로 로컬임을 보여준다. 마찬가지로, 열(606)의 행(612)은 관련 스피치가 국내 또는 국제 날씨와 반대로 지역 2로부터의 로컬 날씨에 관련됨을 보여준다.
도 6의 정보는 수신 노드가 사용자에게 선택을 제공할 수 있어 사용자가 도 6과 관련하여 상술한 속성들로부터 선택할 수 있도록 스피치 합성 정보 스트림(들)과 함께 방송된다. 예를 들어, 사용자가 지역 2에 대한 로컬 날씨를 여성 보이스로 "속도 2"로, 그리고 지역 2의 사투리로 청취하고자 한다면, 사용자는 행(612)의 속성들을 선택하게 된다. 스피치의 음성 표현들을 포함하는 스피치 합성 정보의 경우, 수신 노드는 행(612)과 관련된 스피치 합성 정보 스트림을 선택하여 이를 스피치 합성기에 전송하게 된다. 스피치의 텍스트 표현을 포함하는 스피치 합성 정보의 경우, 수신 노드는 행(612)과 관련된 스피치 합성 정보를 선택하고, (국소적으로 저장되거나 스피치 합성 정보 스트림의 일부로서 수신된) 열(608)의 파라미터들을 적용하여 둘 다 스피치 합성기에 제공하게 된다. 이런 식으로, 열(608), 행(610)의 속성들을 제시하기 위해 텍스트 스피치 합성 정보의 동일한 스트림이 하나의 수신 노드에 의해 사용될 수 있고, 다른 수신 노드는 열(608), 행(612)의 속성들로 스피치를 제시할 수 있다.
도 7a 및 도 7b의 조합을 포함하는 도 7은 도 4 및 도 5에 나타낸 것과 같은 방송 송신을 위한 오디오/비디오 자료 및 수반되는 정보를 세그먼트화하는 프로세스(700)를 나타낸다. 프로시저(7000의 동작은 단계 701에서 시작하여 단계 711로 진행한다. 702의 자료 및 정보의 제 1 부분이 단계 711에서 검색된다. 단계 703 에서 비디오 자료가 송신에 적합한 세그먼트로 처리 및 인코딩되고, 단계 704는 세그먼트의 타이밍, 세그먼트 식별 지정 등과 같은 세그먼트 동기 정보를 추가하게 된다. 단계 705에서 비디오 세그먼트가 저장된다.
단계 712에서 오디오 자료 부분이 처리되며, 이 부분은 송신에 적합한 세그먼트로 인코딩(샘플링, 압축 등)된다. 단계 713은 세그먼트의 타이밍, 세그먼트 식별 지정 등과 같은 세그먼트 동기 정보를 추가한다. 단계 714에서 오디오 세그먼트가 저장된다.
단계 712의 오디오 부분에 대응하는 스피치 합성 정보를 생성하기 위해 입력된 정보의 정보 부분이 단계 721에 사용된다. 예컨대, 스피치 합성 정보는 자료의 오디오 부분을 나타낼 수도 있고, 또는 비디오/오디오 자료들에 대한 다른 오디오(다른 언어, 배경 정보, 로컬 정보, 분류 또는 식별 정보 등)를 나타낼 수 있다. 또한, 정보는 보안을 목적으로, 또는 타이밍 및 동기화를 목적으로 관련 자료를 식별하거나 스피치 합성 파라미터들을 통합 또는 제어하기 위해 수신 노드 또는 수신 노드의 사용자에 의해 사용될 해당 정보를 포함할 수 있다. 단계 722는 세그먼트의 타이밍, 세그먼트 식별 지정 등과 같은 세그먼트 동기 정보를 추가할 수 있다. 단계 723에서 정보 세그먼트가 저장된다. 동작은 연결 노드 B(715)를 통해 단계 705, 714 및 723에서 단계 717로 진행한다. 단계 717에서, 송신을 목적으로 비디오, 오디오 및 정보 세그먼트가 조정된다. 대안으로, 세그먼트보다 타이밍 정보가 사용된다면, 단계 717은 이러한 타이밍 정보에 따라 자료 및 정보의 송신을 조정하게 된다.
도 8은 방송 오디오 신호 및 관련 스피치 합성 정보를 수신하여 표현하는 프로세스(800)를 나타낸다. 단계 802에서 신호 및 정보가 수신되고, 단계 803에서 타입(방송 오디오 및 스피치 합성 정보)에 의해 분석된다. 단계 810에서 오디오 신호가 인코딩된 상태로부터 복원되고, 단계 811에서 수신 디바이스의 스피커로 전송된다. 단계 812에서, 상태 신호가 제어기로 전송되어, 방송 오디오가 사용 가능한지, 그리고 스피커로 전송된 오디오의 타이밍/세그먼트를 식별한다.
한편, 단계 820은 각종 스피치 합성 정보 스트림들을 추출한다. 예를 들어, 어떤 스트림은 방송 오디오와 동일한 스피치를, 그러나 다른 언어로 포함할 수 있다. 다른 스트림은 합성되어 요청시 사용자에게 재생될 수 있는 방송에 관련된 추가 정보를 포함할 수 있다. 다른 스피치 합성 정보는 스피치 파라미터들, 보안 정보, 콘텐츠 분류 등을 포함할 수 있다.
단계 821에서 사용자 기호들 및 국소 저장된 파라미터들(830)이 검색된다. 사용자 기호들은 사용자에 의해 실시간으로 저장 또는 입력될 수 있다. 이러한 기호들 및 수신된 스피치 합성 정보의 다양한 타입을 기초로, 단계 822는 적절한 스피치 합성 정보를 보이스 합성기로 전송한다. 이는 로컬 저장소로부터의 또는 단계 802의 음성 합성 정보 내에 수신된 것과 같은 스피치의 텍스트 기반 또는 음성 표현, 및 임의의 적절한 스피치 파라미터들을 포함할 수 있다.
단계 823에서, 합성기 콘텐츠 및 관련 제어 스피치 합성 정보의 기술이 제어기로 전송된다. 제어기는 방송 오디오 대신 스피커에 합성기의 출력을 전송할지를 결정하기 위한 위치에 있다. 예를 들어, 단계 802에서 오디오의 수신 전에 방송 오디오의 소정 세그먼트와 관련된 스피치 합성 정보를 수신하도록 시스템이 셋업되고, 제어기가 단계 812에서 오디오가 중단되었음을 안다면, 제어기는 사용자가 어떠한 오디오 자료도 놓치지 않도록 합성기로부터의 적절한 출력을 스피커에 전송할 수 있다.
다른 실시예에서, 방송 오디오가 영어이고, 사용자가 단계 821에서 자신의 선호 언어로서 스페인어를 지정했다면(이에 따라 단계 822에서 방송 오디오와 동등한 스페인어와 관련된 스피치 합성 정보가 전송되었다면), 제어기는 방송 오디오 대신 스피커에 합성기의 출력을 전송할 수 있다.
또 다른 실시예에서, 단계 820에서 추출된 스피치 합성 정보가 로컬 날씨와 같은 로컬 정보를 포함하고, 사용자가 단계 821의 방송 오디오보다는 날씨를 듣고자 하는 기호를 지시했다면(이에 따라 단계 822에서 이 스피치 합성 정보가 합성기로 전송되었다면), 제어기는 방송 오디오 대신 스피커에 합성기로부터의 해당 출력을 전송할 수 있다.
도 9는 다양한 실시예에 따라 통신 디바이스, 예를 들어 기지국을 작동시키는 예시적인 방법의 흐름도(900)이다. 동작은 단계 902에서 시작하여, 통신 디바이스에 전원이 들어와 초기화된다. 동작은 단계 902에서 시작하여 단계 904로 진행한다. 단계 904에서, 통신 디바이스는 무선 통신 채널을 통해 스피치 합성 정보를 방송하며, 상기 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나와 스피치 합성기 제어 정보를 포함한다. 동작은 단계 904에서 단계 906으로 진행한다. 단계 906에서, 통신 디바이스는 상기 스피치 합 성 정보에 대응하는 오디오 신호를 방송한다.
어떤 실시예들에서, 스피치 합성 정보는 합성 파라미터들의 그룹으로부터의 적어도 하나의 합성 파라미터를 포함하며, 상기 합성 파라미터들의 그룹은 음색, 성별, 음량 및 말하기 속도는 포함한다. 어떤 실시예에서, 스피치 합성 정보는 도서 및 날씨 정보의 일부 콘텐츠 중 적어도 하나를 전달하는 정보를 포함한다.
어떤 실시예들에서, 방송 정보의 일부에 대응하는 스피치 합성 정보는 대응하는 방송 오디오 신호의 송신 전에 전송된다. 다양한 실시예에서, 스피치 합성 정보는 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함한다.
다양한 실시예에서, 스피치 합성 정보는 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함한다. 어떤 실시예들에서, 스피치 합성 정보는 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공한다. 다양한 실시예에서, 스피치 합성 정보는 대응하는 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 대응하는 오디오 정보에 포함되지 않는 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함한다.
어떤 실시예들에서, 스피치 합성 정보는 상기 오디오 방송과는 다른 언어로 전달하는 스피치를 합성하기 위한 정보를 포함하며, 상기 오디오 방송 신호에 의해 전달되는 상기 정보와 스피치를 합성하기 위한 해당 정보 중 적어도 일부는 동일하다.
도 10은 다양한 실시예에 따라 사용자 디바이스, 예를 들어 모바일 노드와 같은 무선 단말을 작동시키는 예시적인 방법의 흐름도(1000)이다. 동작은 단계 1002에서 시작하여, 사용자 디바이스에 전원이 들어와 초기화된다. 동작은 단계 1002에서 단계 1004로 진행한다. 단계 1004에서, 사용자 디바이스는 무선 통신 채널을 통해 스피치 합성 정보를 수신하며, 상기 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나와 스피치 합성기 제어 정보를 포함한다. 동작은 단계 1004에서 단계 1006으로 진행한다. 단계 1006에서, 사용자 디바이스는 오디오 정보 일부의 복원을 시도한다. 동작은 단계 1006에서 단계 1008로 진행하여, 사용자 디바이스는 오디오 정보의 일부가 성공적으로 복원되었는지를 결정한다. 오디오 정보의 일부가 성공적으로 복원되었다면, 동작은 단계 1008에서 단계 1010으로 진행하고, 오디오 정보의 일부가 성공적으로 복원되지 않았다면, 동작은 단계 1008에서 단계 1012로 진행한다.
단계 1010에서, 사용자 디바이스는 수신된 방송 오디오 신호 부분으로부터 오디오 신호를 생성한다. 동작은 단계 1010에서 단계 1014로 진행하여, 사용자 디바이스는 수신된 방송 오디오 신호 부분으로부터 생성된 오디오를 재생한다.
단계 1012에서, 사용자 디바이스는 성공적으로 수신되지 않은 상기 오디오 정보 부분 중 적어도 일부에 해당하는 스피치 합성 정보로부터 오디오 신호를 생성 한다. 동작은 단계 1012에서 단계 1016으로 진행하여, 사용자 디바이스는 스피치 합성 정보로부터 생성된 오디오를 재생한다.
동작은 단계 1014 또는 단계 1016에서 단계 1004로 진행하여, 사용자 디바이스가 추가 스피치 합성 정보를 수신한다.
도 11은 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐름도(1100)이다. 동작은 단계 1102에서 시작하여, 무선 단말에 전원이 켜지고 초기화된다. 동작은 단계 1102에서 단계 1104로 진행하여, 무선 단말이 스피치 합성 정보를 수신한다. 동작은 단계 1104에서 단계 1106으로 진행하여, 무선 단말이 방송 오디오 신호의 하나 이상의 세그먼트에 대응하는 수신된 스피치 합성 정보를 저장한다. 동작은 단계 1106에서 단계 1104 및 단계 1108로 진행한다. 따라서 단계 1104 및 단계 1106의 동작이 진행 단위로 반복된다.
단계 1108에서, 무선 단말은 오디오 정보의 세그먼트 수신을 시도한다. 단계 1108은 진행 단위로 수행된다. 각 오디오 세그먼트 복원 시도마다, 동작은 단계 1108에서 단계 1110으로 진행한다.
단계 1110에서, 무선 단말은 방송 오디오 정보의 세그먼트가 무선 단말에 의해 성공적으로 수신되었는지를 결정한다. 방송 오디오 정보의 세그먼트가 성공적으로 복원되었다면, 동작은 단계 1110에서 단계 1112로 진행하고, 방송 오디오 정보의 세그먼트가 성공적으로 복원되지 않았다면, 동작은 단계 1110에서 단계 1114로 진행한다.
단계 1112에서, 무선 단말은 수신된 방송 오디오 신호로부터 오디오 신호를 생성하고, 단계 1116에서 수신된 방송 오디오 신호 세그먼트로부터 생성된 오디오를 재생한다.
단계 1114에서, 무선 단말은 성공적으로 수신되지 않은 오디오 정보의 세그먼트 중 적어도 일부에 해당하는 스피치 합성 정보로부터 오디오 신호를 생성한다. 동작은 단계 1114에서 단계 1118로 진행하여, 무선 단말이 스피치 합성 정보로부터 생성된 오디오를 재생한다. 동작은 단계 1116 또는 단계 1118에서 단계 1120으로 진행하여, 무선 단말이 재생되는 세그먼트에 대응하는 저장된 수신 스피치 합성 정보를 삭제한다.
도 12는 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐름도(1300)이다. 동작은 단계 1302에서 시작하여, 무선 단말에 전원이 켜지고 초기화된다. 동작은 단계 1302에서 단계 1306 및 단계 1304로 진행한다. 단계 1306에서, 무선 단말은 무선 통신 채널을 통해 스피치 합성 정보를 수신한다. 단계 1304에서, 무선 단말은 로컬 사용자 기호를 수신하는데, 예를 들어 무선 단말의 사용자가 스피치 합성 동작에 관한 하나 이상의 선택을 수행하여, 사용자에 의해 스피치 합성 파라미터들이 설정된다(1306). 어떤 실시예에서는, 선택된 스피치 합성 파라미터의 적어도 일부는 사투리, 말하기 속도 및 보이스 성별 중 적어도 하나를 지시한다.
동작은 단계 1306에서 단계 1308로 진행한다. 단계 1308에서, 무선 단말은 상기 스피치 합성 정보로부터 가청 스피치를 생성한다. 단계 1308은 하위 단계 1310을 포함한다. 하위 단계 1310에서, 무선 단말은 무선 단말의 사용자에 의해 설정된 적어도 일부 스피치 합성 파라미터들을 적용한다.
도 13은 다양한 실시예에 따라 무선 단말을 작동시키는 예시적인 방법의 흐름도(1400)이다. 동작은 단계 1402에서 시작하여, 무선 단말에 전원이 켜지고 초기화된다. 동작은 단계 1402에서 단계 1404로 진행하여, 무선 단말이 스피치 합성 정보를 수신하고, 상기 스피치 합성 정보는 스피치에 대한 텍스트 표현을 포함한다. 어떤 실시예에서는, 스피치에 대한 텍스트 표현을 포함하는 수신된 방송 스피치 합성 정보에 추가로 또는 이 대신, 무선 단말이 스피치에 대한 음성 표현을 포함하는 방송 스피치 합성 정보를 수신한다. 어떤 실시예에서, 무선 단말은 스피치 합성기 제어 파라미터 정보를 포함하는 방송 스피치 합성 정보를 수신한다. 어떤 실시예에서, 동작은 또한 단계 1402에서 단계 1424로 진행하여, 무선 단말이 로컬 사용자 기호를 수신하여 사용자에 의해 스피치 합성 파라미터들이 설정된다(1425).
동작은 단계 1404에서 단계 1406으로 진행하여, 무선 단말은 방송 오디오 신호의 하나 이상의 세그먼트에 대응하는 수신된 스피치 합성 정보를 저장한다. 단계 1404 및 단계 1406의 동작은 순환을 기초로 수행된다. 동작은 단계 1406에서 단계 1408로 진행하며, 순환을 기초로 수행된다. 단계 1408에서, 무선 단말은 방송 오디오 정보의 세그먼트 수신을 시도한다. 각 오디오 세그먼트 복원 시도마다, 동작은 단계 1408에서 단계 1410으로 진행한다.
단계 1410에서, 무선 단말은 오디오 세그먼트가 성공적으로 수신되었는지를 결정한다. 방송 오디오 세그먼트가 성공적으로 수신되었다면, 동작은 단계 1410에서 단계 1412로 진행한다. 방송 오디오 세그먼트가 성공적으로 수신되지 않았다 면, 동작은 단계 1410에서 단계 1418로 진행한다.
단계 1412에서, 무선 단말은 수신된 방송 오디오 신호 세그먼트로부터 오디오 신호를 생성한다. 동작은 단계 1412에서 단계 1416 및 단계 1414로 진행한다. 단계 1414에서, 무선 단말은 예를 들어 보이스 모델 정보를 생성하는 수신된 방송 오디오 신호들의 함수로서 스피치 합성기 파라미터들을 생성 및/또는 업데이트한다. 단계 1414의 결과는 수신된 오디오의 함수로서 스피치 합성기 파라미터들이다(1417). 단계 1416으로 돌아가서, 단계 1416에서 무선 단말은 수신된 방송 오디오 신호 세그먼트로부터 생성된 오디오를 재생한다. 동작은 단계 1416에서 단계 1422로 진행한다.
단계 1418로 돌아가서, 단계 1418에서 무선 단말은 성공적으로 수신되지 않은 오디오 정보의 세그먼트 중 적어도 일부에 해당하는 스피치 합성 정보로부터 오디오 신호를 생성한다. 단계 1418은 오디오 신호의 생성에 저장된 디폴트 합성 파라미터(1413), 사용자에 의해 설정된 스피치 합성 파라미터들(1425) 및 수신된 오디오의 함수로서 스피치 합성 파라미터들(1417) 중 적어도 하나를 사용한다. 어떤 실시예들에서, 단계 1418에 사용되는 스피치 합성 파라미터들 중 적어도 일부는 필터링된 파라미터들이며, 예를 들어 필터링된 파라미터들은 수신된 방송 오디오 신호들을 기초로 생성된 보이스 모델과 관련된 품질 레벨에 응답하여 재조정된다.
동작은 단계 1418에서 단계 1420으로 진행한다. 단계 1420에서, 무선 단말은 스피치 합성 정보로부터 생성된 오디오를 재생한다. 동작은 단계 1420에서 단계 1422로 진행한다. 단계 1422에서, 무선 단말은 재생되는 오디오에 대응하는 저 장된 수신 스피치 합성 정보를 삭제한다.
다양한 실시예에서, 스피치 합성 파라미터들 중 적어도 일부는 사투리, 보이스 레벨, 억양, 말하기 속도, 보이스 성별 및 보이스 모델 중 적어도 하나를 지시한다.
다양한 실시예에서, 무선 단말은 OFDM 수신기를 포함하는 휴대용 통신 디바이스이다. 이러한 일부 실시예에서, 스피치 합성 정보 및 방송 오디오 정보 중 적어도 하나는 OFDM 신호들을 통해 전달된다. 이러한 일부 실시예에서, 상기 스피치 합성 정보 및 방송 오디오 정보 모두 OFDM 신호들, 예를 들어 서로 다른 통신 채널을 통해 전달된다.
도 14는 다양한 실시예에 따라 구현되는 예시적인 기지국(1500)의 도면이다. 예시적인 기지국(1500)은 도 1의 예시적인 기지국(12)일 수 있다. 예시적인 기지국(1500)은 도 9의 방법을 구현하는 예시적인 기지국일 수도 있다.
예시적인 기지국(1500)은 다양한 엘리먼트가 데이터 및 정보를 교환하게 하는 버스(1512)를 통해 서로 연결되는 수신기 모듈(1502), 송신기 모듈(1504), 프로세서(1506), I/O 인터페이스(1508) 및 메모리(1510)를 포함한다. 메모리(1510)는 루틴(1518) 및 데이터/정보(1520)를 포함한다. 프로세서(1506), 예를 들어 CPU는 루틴(1518)을 실행하고 메모리(1510)의 데이터/정보(1520)를 사용하여 기지국(1500)의 동작 및 구현 방법들을 제어한다.
수신기 모듈(1502), 예를 들어 OFDM 수신기는 기지국(1500)이 무선 단말들로부터 업링크 신호들을 수신하게 하는 수신 안테나(1503)에 연결된다. 어떤 실시예 들에서, 업링크 신호는 등록 요청 신호, 방송 채널 이용 가능성 및/또는 프로그래밍 정보에 대한 요청, 방송 채널들에 대한 액세스 요청, 키 정보에 대한 요청, 무선 단말 식별 정보, 사용자/디바이스 파라미터 정보, 다른 상태 정보 및/또는 페이퍼뷰(pay per view) 핸드쉐이킹 정보를 포함한다. 어떤 실시예들, 예를 들어 기지국이 무선 단말들에 대한 다운링크 방송 시그널링을 지원하지만 무선 단말들로부터의 업링크 시그널링 수신을 지원하지 않는 일부 실시예에서, 수신기 모듈(1502)은 포함되지 않는다. 수신기 모듈(1502)은 수신된 업링크 신호들 중 적어도 일부를 디코딩하기 위한 디코더(1514)를 포함한다.
송신기 모듈(1504), 예를 들어 OFDM 무선 송신기는 기지국이 다운링크 신호를 무선 단말에 전송하게 하는 송신 안테나(1505)에 연결된다. 송신기 모듈(1504)은 다운링크 신호들 중 적어도 일부를 인코딩하기 위한 인코더(1516)를 포함한다. 송신기 모듈(1504)은 저장된 스피치 합성 정보(1540)의 적어도 일부를 무선 통신 채널을 통해 전송한다. 송신기 모듈(1504)은 또한 저장된 압축 오디오 정보(1538) 중 적어도 일부를 무선 통신 채널을 통해 전송한다. 다운링크 신호들은 예를 들어, 타이밍/동기화 신호, 압축 오디오 정보를 전달하는 방송 신호 및 스피치 합성 정보를 전달하는 방송 신호를 포함한다. 어떤 실시예들에서, 다운링크 신호는 등록 응답 신호, 키 정보, 프로그래밍 이용 가능성 및/또는 프로그래밍 디렉터리 정보 및/또는 핸드쉐이킹 신호를 포함한다.
어떤 실시예들에서, 압축된 오디오 정보 및 스피치 합성 정보는 동일한 기술, 예를 들어 OFDM 시그널링을 이용하여 전달된다. 어떤 실시예들에서, 송신기 모듈(1504)은 다수의 시그널링 기술, 예를 들어 OFDM 및 CDMA를 지원한다. 이러한 어떤 실시예에서, 압축된 오디오 정보 및 스피치 합성 정보 중 하나는 한 가지 타입의 기술을 이용하여 전달되고 다른 하나는 다른 기술을 이용하여 전달된다.
I/O 인터페이스(1508)는 기지국을 네트워크 노드들, 예를 들어 라우터, 다른 기지국들, 콘텐츠 제공자 서버 등 및/또는 인터넷에 연결한다. 기지국(1500)을 통해 방송될 프로그램 정보는 인터페이스(1508)를 통해 수신된다.
루틴들(1518)은 통신 루틴(1522) 및 기지국 제어 루틴들(1524)을 포함한다. 통신 루틴(1522)은 기지국(1500)에 의해 사용되는 각종 통신 프로토콜을 구현한다. 기지국 제어 루틴들(1524)은 방송 송신 제어 모듈(1526), 오디오 압축 모듈(1528), 세그먼트화 모듈(1530), 프로그램 모듈(1532), I/O 인터페이스 제어 모듈(1534) 및 어떤 실시예에서는 사용자 제어 모듈(1535)을 포함한다.
방송 송신 제어 모듈(1526)은 저장된 압축 오디오 정보(1538) 및 저장된 스피치 합성 정보(1540)의 송신을 제어한다. 방송 송신 제어 모듈(1526)은 방송 송신 스케줄 정보(1542)에 따라 저장된 압축 오디오 정보 및 저장된 스피치 합성 정보의 송신을 제어한다. 방송 압축 오디오 정보 중 적어도 일부는 방송 스피치 합성 정보 중 적어도 일부에 대응한다. 어떤 실시예들에서, 방송 송신 제어 모듈(1526)은 방송 송신 모듈 구성 정보(1544)에 따라, 방송 압축 오디오 정보의 일부에 대응하는 스피치 합성 정보의 송신을 제어하도록 구성되어 스피치 합성 정보가 대응하는 방송 압축 오디오 신호의 송신 전에 전송되게 하는데, 예를 들어 스피치 합성 정보가 압축 오디오 정보의 해당 세그먼트 전에 전송되도록 제어된다.
오디오 압축 모듈(1528)은 오디오 정보(1536)를 압축 오디오 정보(1538)로 변환한다. 어떤 실시예들에서, 압축 오디오 정보는 I/O 인터페이스(1508)를 통해 직접 수신되어 모듈(1528)을 무시한다.
세그먼트화 모듈(1530)은 저장된 압축 오디오 정보(1538)의 세그먼트화 및 전송될 저장된 스피치 합성 정보(1540)의 세그먼트화, 예를 들어, 콘텐츠 제공자로부터 송신 세그먼트들로의 수신된 프로그램 정보의 세그먼트화에 관련된 동작들을 제어한다. 프로그램 모듈(1532)은 기지국(1500)에 의해 사용되는 각종 방송 무선 통신 채널들 상에서의 프로그램 콘텐츠의 추적 및 프로그램 디렉터리 관련 동작들을 제어한다.
I/O 인터페이스 제어 모듈(1534)은 I/O 인터페이스(1508)의 동작, 예를 들어 다음으로 방송될 프로그램 콘텐츠의 수신을 제어한다. 일부 실시예에서 수신기 모듈(1502)에 포함되는 사용자 제어 모듈(1535)은 무선 단말 등록, 무선 단말 액세스, 중요 송신, 페이퍼뷰, 디렉터리 전달 및 핸드쉐이크 동작들과 관련된 동작들을 제어한다.
데이터/정보(1520)는 저장된 오디오 정보(153), 저장된 압축 오디오 정보(1538), 저장된 스피치 종합 정보(1540), 저장된 방송 송신 스케줄 정보(1542), 및 어떤 실시예에서는 사용자 데이터/정보(1545)를 포함한다.
저장된 스피치 합성 정보(1540)는 스피치 정보의 음성 표현(1546), 스피치의 텍스트 표현(1548) 및 스피치 합성기 제어 정보(1550)를 포함한다. 스피치 합성기 제어 정보(1550)는 합성 파라미터 정보(1552)를 포함한다. 스피치 합성기 파라미 터 정보(1552)는 음색 정보(1554), 성별 정보(1556), 음량 정보(1558), 말하기 속도 정보(1560), 사투리 정보(1562), 보이스 정보(1563), 악센트 정보(1564) 및 지역 정보(1566)를 포함한다.
어떤 실시예들에서, 저장된 스피치 합성 정보(1540)는 도서 및 날씨 정보의 일부의 내용 중 적어도 일부를 전달하는 정보를 포함한다. 어떤 실시예들에서, 저장된 스피치 합성 정보(1540)는 도서의 일부, 기사의 일부, 사설 논평, 뉴스 정보, 날씨 정보 및 광고의 내용 중 적어도 일부를 전달하는 정보를 포함한다.
다양한 실시예에서, 스피치 합성 정보(1540)는 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용되는 정보를 포함한다. 다양한 실시예에서, 스피치 합성 정보(1540)는 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치 중 적어도 일부를 합성하는데 사용되는 정보를 포함한다. 어떤 실시예들에서, 스피치 합성 정보(1540)는 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용되는 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공한다. 어떤 실시예들에서, 스피치 합성 정보(1540)는 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용되는 정보를 포함하며, 상기 스피치 합성 정보는 대응하는 오디오 정보에 포함되지 않은 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 로컬 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함한다.
어떤 실시예들에서, 스피치 합성 정보는 상기 오디오 방송과는 다른 언어로 전달하는 스피치를 합성하기 위한 정보를 포함하며, 오디오 방송 신호에 의해 전달되는 정보 및 스피치를 합성하기 위한 해당 정보 중 적어도 일부는 동일하다.
일부 실시예에 포함되는 사용자 데이터/정보(1545)는 예를 들어, 등록 정보, 액세스 정보, 키, 세션 추적 정보와 같은 과금 정보, 프로그램 선택 정보, 비용 정보, 요금 정보, 사용자 식별 정보 및 다른 사용자 상태 정보를 포함한다. 사용자 데이터/정보(1545)는 기지국(1500) 부착 포인트를 이용하여 하나 이상의 무선 단말에 대응하는 정보를 포함한다.
도 15는 다양한 실시예에 따라 구현되는 예시적인 무선 단말(1600), 예를 들어 모바일 노드의 도면이다. 예시적인 무선 단말(1600)은 도 1의 시스템의 임의의 무선 단말일 수 있다. 예시적인 무선 단말(1600)은 도 10, 도 11, 도 12 또는 도 13에 따른 방법을 구현하는 임의의 무선 단말일 수도 있다.
예시적인 무선 단말(1600)은 다양한 엘리먼트가 데이터 및 정보를 교환하게 하는 버스(1612)를 통해 서로 연결되는 수신기 모듈(1602), 송신기 모듈(1604), 프로세서(1606), I/O 디바이스들(1608) 및 메모리(1610)를 포함한다. 메모리(1610)는 루틴들(1618) 및 데이터/정보(1620)를 포함한다. 프로세서(1606), 예를 들어 CPU는 루틴들(1618)을 실행하고 메모리(1610)의 데이터/정보(1620)를 사용하여 무선 단말의 동작 및 구현 방법들을 제어한다.
수신기 모듈(1602), 예를 들어 OFDM 수신기는 기지국들, 예를 들어 기지국(1500)으로부터 수신 안테나(1603)를 통해 다운링크 신호들을 수신한다. 수신된 다운링크 신호들은 타이밍/동기화 신호, 오디오 신호들, 예를 들어 압축 오디오 신 호들을 전달하는 방송 신호 및 스피치 합성 정보를 전달하는 방송 신호를 포함한다. 어떤 실시예들에서, 수신된 신호는 등록 응답 신호, 키 정보, 방송 프로그램 디렉터리 정보, 핸드쉐이킹 정보 및/또는 액세스 정보를 포함할 수 있다. 어떤 실시예들에서, 수신기 모듈(1602)은 많은 타입의 기술, 예를 들어 OFDM 및 CDMA를 지원한다. 수신기 모듈(1602)은 수신된 다운링크 신호들 중 적어도 일부를 디코딩하기 위한 디코더(1614)를 포함한다.
송신기 모듈(1604), 예를 들어 OFDM 무선 송신기는 무선 단말이 업링크 신호를 기지국들에 전송하게 하는 송신 안테나(1605)에 연결된다. 업링크 신호들은 예를 들어 등록 요청 신호, 방송 채널에 대한 액세스 요청, 키, 예를 들어 암호화 키에 대한 요청, 방송 디렉터리 정보 요청, 방송 프로그램, 세션 정보, 과금 정보, 식별 정보 등에 관한 선택 옵션들에 대한 요청을 포함한다. 어떤 실시예들에서는, 수신기와 송신기에, 예를 들어 듀플렉서 모듈과 관련하여 동일한 안테나가 사용된다. 어떤 실시예에서, 무선 단말(1600)은 송신기 모듈(1604)을 포함하지 않고 무선 단말은 다운링크 방송 정보를 수신하지만 다운링크 방송 신호들을 수신하고 있는 기지국에 업링크 신호들을 전달하지 않는다.
I/O 디바이스들(1608)은 사용자가 데이터/정보, 예를 들어 스피치 합성에 사용되는 제어 파라미터들을 포함하는 선택 옵션들을 입력하고, 데이터/정보를 출력, 예를 들어 오디오 출력을 청취하게 한다. I/O 디바이스들(1608)은 예를 들어 키패드, 키보드, 터치스크린, 마이크, 스피커, 디스플레이 등이다. 어떤 실시예들에서, 스피치 합성기는 하드웨어에 적어도 일부 구현되고 I/O 디바이스들(1608)의 일 부로서 포함된다.
루틴들(1618)은 통신 루틴(1622) 및 무선 단말 제어 루틴들(1624)을 포함한다. 통신 루틴(1622)은 무선 단말(1600)에 의해 사용되는 각종 통신 프로토콜을 구현한다. 무선 단말 제어 루틴들(1624)은 수신기 제어 모듈(1626), 방송 오디오 수신 품질 결정 모듈(1627), 오디오 신호 생성 모듈(1628), 재생 모듈(1630), 스피치 합성 정보 저장 모듈(1632), 스피치 합성 정보 삭제 모듈(1634), 사용자 기호 모듈(1636), 스피치 합성기 파라미터 생성/업데이트 모듈(1638) 및 액세스 제어 모듈(1640)을 포함한다.
수신기 제어 모듈(1624)은 수신기 모듈(1602) 동작을 제어한다. 수신기 제어 모듈(1626)은 스피치 합성 방송 정보 복원 모듈(1642) 및 오디오 방송 신호 복원 모듈(1644)을 포함한다. 스피치 합성 방송 정보 복원 모듈(1642)은 무선 단말을 제어하여 방송 스케줄 정보(1673)에 따라 방송 스피치 정보를 수신한다. 스피치 합성 정보 저장 모듈(1632)은 모듈(1642)로부터 복원된 정보를, 예를 들어 수신된 방송 스피치 합성 정보(세그먼트 1; 1660), … , 수신된 방송 스피치 합성 정보(세그먼트 N; 1662)로서 저장한다. 오디오 방송 신호 복원 모듈(1644)은 수신기 모듈(1602)을 제어하여 방송 스케줄 정보(1673)에 따라, 예를 들어 세그먼트에 대응하는 방송 오디오 신호들의 수신을 시도한다. 방송 오디오 수신 품질 결정 모듈(1627)은 예를 들어 방송 압축 오디오 정보의 세그먼트의 시도된 수신에 대해 복원이 성공적이었는지를 결정한다. 복원 결과는 오디오 세그먼트 복원 성공/실패 결정(1664)이며, 예를 들어 성공한 경우의 수신된 방송 오디오 신호 기반 생성 모 듈(1646) 또는 실패한 경우의 스피치 합성 기반 생성 모듈(1648) 중 하나에 동작 플로우를 지시하는데 사용된다. 따라서 모듈(1627)은 스위칭 모듈로 작용한다. 예를 들어, 실패는 터널, 지하도 또는 난청 지역에서의 이동으로 인해 일시적으로 약하거나 유실된 신호에 기인할 수 있다.
오디오 신호 생성 모듈(1628)은 수신된 방송 오디오 신호 기반 생성 모듈(1646) 및 스피치 합성 기반 생성 모듈(1648)을 포함한다. 수신된 방송 오디오 신호 기반 생성 모듈(1646)은 예를 들어 압축 해제 모듈 및 출력 스피커 디바이스를 구동하기 위한 신호를 생성하는 신호 생성 모듈이다. 복원된 방송 오디오 정보(1666)는 모듈(1646)에 대한 입력이고, 복원된 방송 오디오를 기초로 생성된 오디오 출력 정보(1668)는 모듈(1646)의 출력이다. 스피치 합성 기반 생성 모듈(1648), 예를 들어, 스피치 합성기는 수신된 방송 스피치 합성 정보 중 적어도 일부, 예를 들어 정보(1660)의 일부를 이용하여 합성을 기초로 생성된 오디오 출력 신호 정보(1670)를 생성한다. 어떤 실시예들에서는, 어떤 시간 동안 스피치 합성 기반 생성 모듈(1648) 또한 디폴트 스피치 합성 파라미터(1654), 사용자에 의해 설정된 스피치 합성 파라미터들(1656) 및 스피치 합성 파라미터들 중 적어도 하나를 수신된 방송 오디오(1658)의 함수로서 사용한다.
재생 모듈(1630)은 방송 오디오 신호 재생 모듈(1650) 및 스피치 합성 재생 모듈(1652)을 포함한다. 방송 오디오 신호 재생 모듈(1650)은 생성 모듈(1646)에 연결되며 정보(1668)를 사용하여, 예를 들어 성공적으로 복원된 방송 오디오 세그먼트에 대응하는 오디오를 재생한다. 스피치 합성 재생 모듈(1652)은 모듈(1648) 에 연결되며, 정보(1670)를 이용하여, 예를 들어 해당 방송 오디오 신호들이 성공적으로 수신되지 않았을 때 스피치 합성으로부터 생성된 오디오를 사용자에게 재생한다.
스피치 합성 정보 삭제 모듈(1634)은 세그먼트에 대응하는 사용자에게 오디오가 재생된 후 특정 세그먼트에 대응하는 정보(1660, … , 1662) 중 하나를 삭제한다. 사용자 기호 모듈(1636)은 예를 들어 메뉴를 통해 아이템들을 선택하는 무선 단말(1600)의 사용자로부터 얻은 로컬 사용자 기호들을 수신하여 모듈(1648)에 의해 사용될 스피치 합성 파라미터들 중 적어도 일부를 설정한다. 사용자(1656)에 의해 설정된 스피치 합성 파라미터들은 사용자 기호 모듈(1636)의 출력이다. 스피치 합성기 파라미터 생성/업데이트 모듈(1638)은 모듈(1648)에 의해 사용되는 스피치 합성 파라미터들 중 적어도 일부를 수신된 방송 오디오 정보를 기초로 생성 및/도는 업데이트한다. 예를 들어, 일부 실시예에서 모듈(1638)은 방송 오디오 신호 수신의 정전 시간 동안 구현되는 합성된 보이스가 방송 오디오 보이스와 밀접하게 닮도록 합성기에 의해 사용될 보이스 모델의 파라미터들을 생성한다. 수신된 오디오(1658)의 함수로서 스피치 합성 파라미터들은 모듈(1638)의 출력이다. 액세스 제어 모듈(1640)은 데이터가 복원되고 있는 선택된 방송 채널들을 제어한다. 어떤 실시예들에서, 액세스 제어 모듈(1640)은 또한 액세스 요청들, 키 요청, 디렉터리 정보에 대한 요청을 생성하고, 페이퍼뷰 요청들을 식별하여 생성하며, 응답들을 식별하고 그리고/또는 방송 프로그램들을 전송하는 기지국과의 핸드쉐이크 동작들을 수행한다.
데이터/정보(1620)는 디폴트 스피치 합성 파라미터(1654), 사용자에 의해 설정된 스피치 합성 파라미터들(1656), 수신된 방송 오디오(1658)의 함수로서 스피치 합성 파라미터들, 수신된 방송 스피치 합성 정보(세그먼트 1; 1660), … , 수신된 방송 스피치 합성 정보(세그먼트 N; 1662), 오디오 세그먼트 복원 성공/실패 결정(1664), 복원된 방송 오디오 정보(1666), 복원된 방송 오디오를 기초로 생성된 오디오 출력 정보(1668), 합성을 기초로 생성된 오디오 출력 정보(1670), 액세스 데이터/정보(1672) 및 방송 스케줄 정보(1673)를 포함한다.
수신된 방송 스피치 합성 정보(1660)는 스피치(1674)의 음성 표현, 스피치의 텍스트 표현(1676) 및 스피치 합성기 제어 정보(1678)를 포함한다. 스피치 합성기 제어 정보(1678)는 합성 파라미터 정보를 포함한다. 정보(1678, 1654, 1656 및/또는 1658)에 포함되는 합성 파라미터 정보는 음색 정보, 성별 정보, 음량 정보, 말하기 속도 정보, 악센트 정보, 사투리 정보, 지역 정보, 보이스 정보 및 인종 정보 중 적어도 하나를 포함한다.
어떤 실시예들에서, 스피치 합성 정보(1660, … , 1662)는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 전달하는 정보를 포함한다. 어떤 실시예들에서, 스피치 합성 정보(1660, … , 1662)는 도서의 일부, 기사의 일부, 사설 논평, 뉴스 정보, 날씨 정보 및 광고의 내용 중 적어도 일부를 전달하는 정보를 포함한다.
다양한 실시예에서, 스피치 합성 정보(1660, … , 1662)는 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용되는 정보를 포함한다. 다양한 실시예에서, 스피치 합성 정보(1660, … , 1662)는 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치 중 적어도 일부를 합성하는데 사용되는 정보를 포함한다. 어떤 실시예들에서, 스피치 합성 정보(1660, … , 1662)는 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용되는 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공한다. 어떤 실시예들에서, 스피치 합성 정보(1660, … , 1662)는 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용되는 정보를 포함하며, 상기 스피치 합성 정보는 대응하는 오디오 정보에 포함되지 않은 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 로컬 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함한다.
어떤 실시예들에서, 스피치 합성 정보(1660, … , 1662)는 상기 오디오 방송과는 다른 언어로 전달하는 스피치를 합성하기 위한 정보를 포함하며, 오디오 방송 신호에 의해 전달되는 정보 및 스피치를 합성하기 위한 해당 정보 중 적어도 일부는 동일하다.
다양한 실시예에서, 여기서 사용된 노드들은 하나 이상의 방법에 대응하는 단계들, 예를 들어 신호 처리, 스피치 합성 정보 처리 및/또는 스피치 합성 파라미터 및 타이밍 제어 단계들을 수행하기 위한 하나 이상의 모듈을 이용하여 구현된다. 따라서 어떤 실시예들에서 각종 특징은 모듈들 또는 제어기들을 이용하여 구현된다. 이러한 모듈들 또는 제어기들은 소프트웨어, 하드웨어 또는 소프트웨어와 하드웨어의 조합을 이용하여 구현될 수 있다. 상술한 방법들 또는 방법 단계들 중 다수는 기계, 예를 들어 추가 하드웨어를 구비한 또는 구비하지 않은 범용 컴퓨터를 제어하여 예를 들어 하나 이상의 노드에서 상술한 방법들의 전부 또는 일부를 구현하기 위해 메모리 소자, 예를 들어 RAM, 플로피디스크 등과 같은 기계 판독 가능 매체에 포함된 소프트웨어와 같은 기계 실행 가능 명령들을 이용하여 구현될 수 있다. 이에 따라, 무엇보다도 다양한 실시예는 기계, 예를 들어 프로세서 및 관련 하드웨어가 상술한 방법(들)의 단계들 중 하나 이상을 수행하게 하기 위한 기계 실행 가능 명령들을 포함하는 기계 판독 가능 매체에 관련된다.
상술한 각종 실시예의 방법 및 장치에 관한 다수의 추가 변형이 상기 설명의 관점에서 당업자들에게 명백할 것이다. 이러한 변형들은 범위 내에 있는 것으로 간주해야 한다. 상기 방법 및 장치는 CDMA, 직교 주파수 분할 다중화(OFDM), 또는 액세스 노드들과 모바일 노드들 간에 무선 통신 링크를 제공하기 위해 사용될 수 있는 다양한 다른 타입의 통신 기술에 사용될 수도 있고 다양한 실시예들에서는 사용된다. 다양한 실시예에서, 모바일 노드들, 또는 다른 방송 수신 디바이스들은 상기 방법을 구현하기 위한 노트북 컴퓨터, 개인 데이터 보조기기(PDA), 또는 수신기/송신기 회로들 및 로직 및/또는 루틴들을 포함하는 다른 휴대용 또는 비-휴대용 디바이스들로서 구현될 수 있다.

Claims (94)

  1. 정보를 전달하는 방법으로서,
    무선 통신 채널을 통해 스피치 합성(speech synthesis) 정보를 전송하는 단계를 포함하며, 상기 스피치 합성 정보는 ⅰ) 스피치의 음성(phonetic) 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나 및 스피치 합성기 제어 정보를 포함하는, 정보 전달 방법.
  2. 제 1 항에 있어서,
    상기 스피치 합성 정보는 음색, 성별, 음량 및 스피치 속도를 포함하는 합성 파라미터들의 그룹으로부터의 적어도 하나의 합성 파라미터를 포함하는, 정보 전달 방법.
  3. 제 2 항에 있어서,
    상기 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 전달하는 정보를 포함하는, 정보 전달 방법.
  4. 제 1 항에 있어서,
    상기 전송 단계는 상기 스피치 합성 정보를 다수의 사용자들에게 방송하는 단계를 포함하며,
    상기 방법은 상기 스피치 합성 정보 외에도, 상기 스피치 합성 정보에 대응하는 오디오 신호를 방송하는 단계를 더 포함하는, 정보 전달 방법.
  5. 제 4 항에 있어서,
    상기 방송 오디오 신호의 일부에 대응하는 스피치 합성 정보가 상기 대응하는 방송 오디오 신호의 전송 전에 전송되는, 정보 전달 방법.
  6. 제 4 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 정보 전달 방법.
  7. 제 4 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 정보 전달 방법.
  8. 제 4 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공하 는, 정보 전달 방법.
  9. 제 4 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 상기 대응하는 오디오 정보에 포함되지 않는 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 로컬 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함하는, 정보 전달 방법.
  10. 제 4 항에 있어서,
    상기 스피치 합성 정보는 상기 오디오 방송과는 다른 언어로 전달되는 스피치를 합성하기 위한 정보를 포함하며, 상기 오디오 방송 신호에 의해 전달되는 정보와 스피치를 합성하기 위한 해당 정보의 적어도 일부는 동일한, 정보 전달 방법.
  11. 제 1 항에 있어서,
    상기 스피치 합성 정보를 수신하도록 다수의 사용자 디바이스들을 작동시키는 단계; 및
    적어도 일부 로컬 스피치 합성 생성 정보를 이용하여 상기 스피치 합성 정보로부터 스피치를 생성하도록 상기 다수의 디바이스들 중 적어도 일부를 동작시키는 단계를 더 포함하는, 정보 전달 방법.
  12. 제 11 항에 있어서,
    상기 로컬 스피치 합성 생성 정보의 적어도 일부는 사투리, 스피치 속도, 보이스 성별 중 적어도 하나를 지시하는 사용자 선택 스피치 합성 파라미터들을 포함하는, 정보 전달 방법.
  13. 제 2 항에 있어서,
    상기 스피치 합성 정보를 수신하도록 사용자 디바이스를 작동시키는 단계;
    상기 오디오 정보의 일부를 수신하도록 상기 사용자 디바이스를 작동시키는 단계;
    상기 오디오 정보의 일부가 성공적으로 수신되지 않았음을 검출하도록 상기 사용자 디바이스를 작동시키는 단계; 및
    성공적으로 수신되지 않은 상기 오디오 정보의 일부 중 적어도 일부에 대응하는 스피치 합성 정보로부터 오디오 신호를 생성하는 단계를 더 포함하는, 정보 전달 방법.
  14. 제 13 항에 있어서,
    상기 사용자 디바이스는 방송 오디오 신호로부터 생성된 오디오의 재생과 상기 스피치 합성 정보로부터의 오디오 신호 생성 사이를 상기 오디오 신호의 수신 손실의 함수로서 스위칭하고, 상기 합성되는 오디오는 해당 오디오 신호의 수신이 유실되는 경우에 사용되는, 정보 전달 방법.
  15. 통신 디바이스로서,
    ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나 및 스피치 합성기 제어 정보를 포함하는, 저장된 스피치 합성 정보;
    저장된 오디오 정보 및 대응하는 스피치 합성 정보의 송신을 제어하기 위한 방송 송신 제어 모듈; 및
    무선 통신 채널을 통해 상기 저장된 스피치 합성 정보의 적어도 일부를 전송하기 위한 무선 송신기를 포함하는, 통신 디바이스.
  16. 제 15 항에 있어서,
    저장된 방송 송신 스케줄 정보를 더 포함하며,
    상기 방송 송신 제어 모듈은 상기 방송 송신 스케줄 정보에 따라 상기 저장된 스피치 정보의 송신을 제어하는, 통신 디바이스.
  17. 제 15 항에 있어서,
    상기 저장된 스피치 합성 정보의 적어도 일부에 대응하는 저장된 압축 오디오를 더 포함하며, 상기 방송 송신 제어 모듈은 상기 저장된 스피치 합성 정보의 적어도 일부의 송신 외에도, 전송된 합성 정보에 대응하는 저장된 압축 오디오의 송신을 제어하는, 통신 디바이스.
  18. 제 15 항에 있어서,
    상기 스피치 합성 정보는 음색, 성별, 음량 및 스피치 속도를 포함하는 합성 파라미터들의 그룹으로부터의 적어도 하나의 합성 파라미터를 포함하는, 통신 디바이스.
  19. 제 16 항에 있어서,
    상기 저장된 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 전달하는 정보를 포함하는, 통신 디바이스.
  20. 제 15 항에 있어서,
    상기 통신 디바이스는 기지국이고,
    상기 송신기는 OFDM 신호 송신기이며,
    상기 송신기는 상기 오디오와 상기 스피치 합성 정보를 모두 방송하는, 통신 디바이스.
  21. 제 20 항에 있어서,
    상기 방송 송신 제어 모듈은 방송 압축 오디오 신호의 일부에 대응하는 스피치 합성 정보가 해당 방송 압축 오디오 신호의 송신 전에 전송되도록 압축 오디오 정보에 대응하는 스피치 합성 정보의 송신을 제어하도록 구성되는, 통신 디바이스.
  22. 제 20 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 통신 디바이스.
  23. 제 20 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 통신 디바이스.
  24. 제 20 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공하는, 통신 디바이스.
  25. 제 20 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 상기 대응하는 오디오 정보에 포함되지 않는 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 로컬 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함하는, 통신 디바이스.
  26. 제 20 항에 있어서,
    상기 스피치 합성 정보는 상기 오디오 방송과는 다른 언어로 전달되는 스피치를 합성하기 위한 정보를 포함하며, 상기 오디오 방송 신호에 의해 전달되는 정보와 스피치를 합성하기 위한 해당 정보의 적어도 일부는 동일한, 통신 디바이스.
  27. 통신 디바이스로서,
    ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나 및 스피치 합성기 제어 정보를 포함하는, 저장된 스피치 합성 정보;
    저장된 오디오 정보 및 대응하는 스피치 합성 정보의 적어도 방송 송신을 제어하기 위한 방송 송신 제어 수단; 및
    무선 통신 채널을 통해 상기 저장된 스피치 합성 정보의 적어도 일부를 전송하기 위한 송신 수단을 포함하는, 통신 디바이스.
  28. 제 27 항에 있어서,
    저장된 방송 송신 스케줄 정보를 더 포함하며,
    상기 방송 송신 제어 수단은 상기 방송 송신 스케줄 정보에 따라 상기 저장된 스피치 정보의 송신을 제어하는, 통신 디바이스.
  29. 제 27 항에 있어서,
    상기 저장된 스피치 합성 정보의 적어도 일부에 대응하는 저장된 압축 오디오를 더 포함하며, 상기 방송 송신 제어 수단은 상기 저장된 스피치 합성 정보의 적어도 일부의 송신 외에도, 전송된 합성 정보에 대응하는 저장된 압축 오디오의 송신을 제어하는, 통신 디바이스.
  30. 제 27 항에 있어서,
    상기 스피치 합성 정보는 음색, 성별, 음량 및 스피치 속도를 포함하는 합성 파라미터들의 그룹으로부터의 적어도 하나의 합성 파라미터를 포함하는, 통신 디바이스.
  31. 제 28 항에 있어서,
    상기 저장된 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 전달하는 정보를 포함하는, 통신 디바이스.
  32. 제 27 항에 있어서,
    상기 통신 디바이스는 기지국이고,
    상기 송신 수단은 OFDM 신호 송신기를 포함하며,
    상기 송신 수단은 상기 오디오와 상기 스피치 합성 정보를 모두 방송하는, 통신 디바이스.
  33. 제 32 항에 있어서,
    상기 방송 송신 제어 수단은 방송 압축 오디오 신호의 일부에 대응하는 스피치 합성 정보가 해당 방송 압축 오디오 신호의 송신 전에 전송되도록 압축 오디오 정보에 대응하는 스피치 합성 정보의 송신을 제어하도록 구성되는, 통신 디바이스.
  34. 제 32 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 통신 디바이스.
  35. 제 32 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하지 않는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 통신 디바이스.
  36. 제 32 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 저자, 제목, 저작권 및 디지털 저작권 관리 정보 중 적어도 하나를 제공하는, 통신 디바이스.
  37. 제 32 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 존재하지 않는 정보를 전달하는 스피치를 합성하는데 사용될 정보를 포함하며, 상기 스피치 합성 정보는 상기 대응하는 오디오 정보에 포함되지 않는 적어도 일부 뉴스 정보를 제공하고, 상기 뉴스 정보는 지역 날씨 정보, 로컬 날씨 정보, 트래픽 정보, 헤드라인 뉴스 정보 및 주식 시장 정보 중 적어도 하나를 포함하는, 통신 디바이스.
  38. 제 32 항에 있어서,
    상기 스피치 합성 정보는 상기 오디오 방송과는 다른 언어로 전달되는 스피치를 합성하기 위한 정보를 포함하며, 상기 오디오 방송 신호에 의해 전달되는 정보와 스피치를 합성하기 위한 해당 정보의 적어도 일부는 동일한, 통신 디바이스.
  39. 다수의 사용자들에게 정보를 전달하는 방법을 수행하기 위한 기계 실행 가능 명령들을 포함하는 컴퓨터 판독 가능 매체로서, 상기 방법은,
    무선 통신 채널을 통해 스피치 합성 정보를 방송하는 단계를 포함하며, 상기 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나 및 스피치 합성기 제어 정보를 포함하는, 컴퓨터 판독 가능 매체.
  40. 제 39 항에 있어서,
    상기 스피치 합성 정보는 음색, 성별, 음량 및 스피치 속도를 포함하는 합성 파라미터들의 그룹으로부터의 적어도 하나의 합성 파라미터를 포함하는, 컴퓨터 판독 가능 매체.
  41. 제 40 항에 있어서,
    상기 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 전달하는 정보를 포함하는, 컴퓨터 판독 가능 매체.
  42. 제 39 항에 있어서,
    상기 스피치 합성 정보에 대응하는 오디오 신호를 방송하기 위한 기계 실행 가능 명령들을 더 포함하는, 컴퓨터 판독 가능 매체.
  43. 제 42 항에 있어서,
    상기 방송 오디오 신호의 일부에 대응하는 스피치 합성 정보가 상기 대응하는 방송 오디오 신호의 전송 전에 전송되는, 컴퓨터 판독 가능 매체.
  44. 제 42 항에 있어서,
    상기 스피치 합성 정보는 상기 대응하는 방송 오디오 신호에 이미 존재하는 스피치의 적어도 일부를 합성하는데 사용될 정보를 포함하는, 컴퓨터 판독 가능 매체.
  45. 무선 단말을 작동시키는 방법으로서,
    무선 통신 채널로부터 스피치 합성 정보를 수신하는 단계; 및
    상기 스피치 합성 정보로부터 가청 스피치를 생성하는 단계를 포함하며, 상기 가청 스피치를 생성하는 단계는 적어도 일부 스피치 합성 파라미터들을 적용하는 단계를 포함하는, 무선 단말 작동 방법.
  46. 제 45 항에 있어서,
    상기 스피치 합성 파라미터들의 적어도 일부는 상기 디바이스의 사용자에 의해 설정되고,
    상기 수신된 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나를 포함하는, 무선 단말 작동 방법.
  47. 제 46 항에 있어서,
    상기 수신된 스피치 합성 정보는 적어도 일부 스피치 합성기 제어 정보를 더 포함하는, 무선 단말 작동 방법.
  48. 제 46 항에 있어서,
    상기 디바이스의 사용자에 의해 설정되는 상기 적어도 일부 스피치 합성 파라미터를 적용하는 단계 전에,
    상기 적어도 일부 스피치 합성 파라미터들을 설정하는 사용자 기 호(preference) 정보를 상기 무선 단말의 사용자로부터 수신하는 단계를 수행하는 단계를 더 포함하는, 무선 단말 작동 방법.
  49. 제 48 항에 있어서,
    상기 무선 단말의 사용자에 의해 설정되는 상기 적어도 일부 스피치 합성 파라미터들은 사투리, 스피치 속도, 보이스 성별, 보이스 모델, 악센트, 음색 및 언어 중 적어도 하나를 지시하는, 무선 단말 작동 방법.
  50. 제 49 항에 있어서,
    무선 통신 채널로부터의 상기 수신된 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 포함하는, 무선 단말 작동 방법.
  51. 통신 디바이스로서,
    방송 스피치 합성 정보를 수신하기 위한 무선 수신기 모듈;
    스피치 합성기 제어 파라미터들의 사용자 기호(preference) 설정들을 수신하기 위한 사용자 기호 모듈; 및
    상기 수신된 방송 스피치 합성 정보 및 상기 사용자 기호에 응답하여 설정된 상기 스피치 합성기 제어 파라미터들을 이용하여 오디오 출력을 생성하기 위한 오디오 출력 생성 모듈을 포함하는, 통신 디바이스.
  52. 제 51 항에 있어서,
    상기 스피치 합성기 제어 파라미터들은 사투리, 스피치 속도, 보이스 성별, 보이스 모델, 악센트, 음색 및 언어 중 적어도 하나를 지시하는, 통신 디바이스.
  53. 제 51 항에 있어서,
    상기 무선 단말 수신기 모듈은 OFDM 수신기인, 통신 디바이스.
  54. 제 53 항에 있어서,
    상기 OFDM 수신기는 제 1 OFDM 통신 채널을 통해 스피치의 텍스트 표현을 포함하는 방송 스피치 합성 정보를 수신하고, 상기 OFDM 수신기는 제 2 OFDM 통신 채널을 통해 압축 오디오를 수신하는, 통신 디바이스.
  55. 제 54 항에 있어서,
    상기 텍스트 표현을 포함하는 방송 스피치 합성 정보의 적어도 일부는 전송되고 있는 방송 압축 오디오 신호들 중 상기 무선 단말이 복원을 시도하고 있는 일부와 동일한 정보를 나타내는, 통신 디바이스.
  56. 통신 디바이스로서,
    방송 스피치 합성 정보를 수신하는 수단;
    스피치 합성기 제어 파라미터들의 사용자 기호 설정들을 수신하는 수단; 및
    상기 수신된 방송 스피치 합성 정보 및 상기 사용자 기호에 응답하여 설정된 상기 스피치 합성기 제어 파라미터들을 이용하여 오디오 출력을 생성하는 수단을 포함하는, 통신 디바이스.
  57. 제 56 항에 있어서,
    상기 스피치 합성기 제어 파라미터들은 사투리, 스피치 속도, 보이스 성별, 보이스 모델, 악센트, 음색 및 언어 중 적어도 하나를 지시하는, 통신 디바이스.
  58. 제 56 항에 있어서,
    상기 수신하는 수단은 OFDM 수신기인, 통신 디바이스.
  59. 제 58 항에 있어서,
    상기 OFDM 수신기는 제 1 OFDM 통신 채널을 통해 스피치의 텍스트 표현을 포함하는 방송 스피치 합성 정보를 수신하고, 상기 OFDM 수신기는 제 2 OFDM 통신 채널을 통해 압축 오디오를 수신하는, 통신 디바이스.
  60. 제 59 항에 있어서,
    상기 텍스트 표현을 포함하는 방송 스피치 합성 정보의 적어도 일부는 전송되고 있는 방송 압축 오디오 신호들 중 상기 무선 단말이 복원을 시도하고 있는 일부와 동일한 정보를 나타내는, 통신 디바이스.
  61. 방법을 수행하도록 무선 단말을 제어하기 위한 기계 실행 가능 명령들을 포함하는 컴퓨터 판독 가능 매체로서, 상기 방법은,
    무선 통신 채널로부터 스피치 합성 정보를 수신하는 단계; 및
    상기 스피치 합성 정보로부터 가청 스피치를 생성하는 단계를 포함하며, 상기 가청 스피치를 생성하는 단계는 상기 디바이스의 사용자에 의해 설정되는 적어도 일부 스피치 합성 파라미터들을 적용하는 단계를 포함하는, 컴퓨터 판독 가능 매체.
  62. 제 61 항에 있어서,
    상기 수신된 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나를 포함하는, 컴퓨터 판독 가능 매체.
  63. 제 62 항에 있어서,
    상기 수신된 스피치 합성 정보는 적어도 일부 스피치 합성기 제어 정보를 더 포함하는, 컴퓨터 판독 가능 매체.
  64. 제 62 항에 있어서,
    상기 디바이스의 사용자에 의해 설정되는 적어도 일부 스피치 합성 파라미터를 적용하는 단계 전에,
    상기 적어도 일부 스피치 합성 파라미터들을 설정하는 사용자 기호 정보를 상기 무선 단말의 사용자로부터 수신하는 추가 단계를 수행하기 위한 명령들을 더 포함하는, 컴퓨터 판독 가능 매체.
  65. 제 64 항에 있어서,
    상기 무선 단말의 사용자에 의해 설정되는 상기 적어도 일부 스피치 합성 파라미터들은 사투리, 스피치 속도, 보이스 성별, 보이스 모델, 악센트, 음색 및 언어 중 적어도 하나를 지시하는, 컴퓨터 판독 가능 매체.
  66. 제 65 항에 있어서,
    무선 통신 채널로부터의 상기 수신된 스피치 합성 정보는 도서 및 날씨 정보의 일부의 내용 중 적어도 하나를 포함하는, 컴퓨터 판독 가능 매체.
  67. 사용자 디바이스를 작동시키는 방법으로서,
    스피치 합성 정보를 수신하는 단계;
    오디오 정보의 일부를 수신하는 단계;
    오디오 정보의 일부가 성공적으로 수신되지 않았음을 검출하는 단계; 및
    성공적으로 수신되지 않은 상기 오디오 정보의 일부 중 적어도 일부에 대응하는 스피치 합성 정보로부터 오디오 신호를 생성하는 단계를 포함하는, 사용자 디바이스 작동 방법.
  68. 제 67 항에 있어서,
    상기 사용자 디바이스는 방송 오디오 신호로부터 생성된 오디오의 재생과 상기 스피치 합성 정보로부터의 오디오 신호 생성 사이를 상기 오디오 신호의 수신 손실의 함수로서 스위칭하고, 상기 합성되는 오디오는 해당 오디오 신호의 수신이 유실되는 경우에 사용되는, 사용자 디바이스 작동 방법.
  69. 제 68 항에 있어서,
    상기 방송 오디오 신호의 세그먼트를 수신하기 전에 수신되는 상기 방송 오디오 신호의 해당 세그먼트에 대응하는 수신 스피치 합성 정보를 저장하는 단계를 더 포함하는, 사용자 디바이스 작동 방법.
  70. 제 69 항에 있어서,
    상기 해당 오디오 세그먼트의 성공적인 수신에 이어 상기 저장된 수신 스피치 합성 정보를 삭제하는 단계를 더 포함하는, 사용자 디바이스 작동 방법.
  71. 제 70 항에 있어서,
    상기 저장된 수신 스피치 합성 정보의 삭제는 상기 해당 방송 오디오 세그먼트가 상기 디바이스의 사용자에게 가청 신호로서 제공된 후 수행되는, 사용자 디바이스 작동 방법.
  72. 제 71 항에 있어서,
    상기 사용자 디바이스는 무선 단말인, 사용자 디바이스 작동 방법.
  73. 제 72 항에 있어서,
    상기 무선 단말은 OFDM 수신기를 포함하는 휴대용 통신 디바이스인, 사용자 디바이스 작동 방법.
  74. 제 68 항에 있어서,
    상기 수신된 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나를 포함하는, 사용자 디바이스 작동 방법.
  75. 제 74 항에 있어서,
    상기 수신된 스피치 합성 정보는 스피치 합성기 제어 정보를 더 포함하는, 사용자 디바이스 작동 방법.
  76. 제 68 항에 있어서,
    성공적으로 수신된 오디오 신호들의 함수로서 적어도 일부 스피치 합성 파라미터들을 업데이트하는 단계; 및
    스피치의 텍스트 표현을 포함하는 수신된 방송 스피치 합성기 정보를 이용한 오디오 신호들의 다음 생성에 상기 업데이트된 스피치 합성 파라미터들의 적어도 일부를 이용하는 단계를 더 포함하는, 사용자 디바이스 작동 방법.
  77. 무선 단말로서,
    방송 압축 오디오 신호들 및 방송 스피치 합성 정보를 수신하는 수신기 - 상기 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나를 포함함 -;
    저장된 방송 송신 스케줄 정보;
    상기 방송 송신 스케줄 정보에 따라 상기 방송 압축 오디오 신호들 및 상기 방송 스피치 합성 정보의 수신을 시도하도록 상기 수신기를 제어하는 수신기 제어 모듈;
    성공적으로 수신된 방송 압축 오디오 신호들을 기초로 오디오를 출력하기 위한 신호들을 생성하는 오디오 신호 기반 생성 모듈;
    수신된 스피치 합성 정보를 기초로 오디오를 출력하기 위한 신호들을 생성하는 스피치 합성 기반 생성 모듈; 및
    상기 무선 단말이 수신을 시도하고 있는 방송 오디오 신호의 일부가 성공적으로 수신되는지 여부를 결정하고, 상기 결정을 기초로 상기 오디오 신호 기반 생성 모듈과 상기 스피치 합성 기반 생성 모듈 사이에서 동작을 스위칭하는 오디오 신호 수신 품질 모듈을 포함하는, 무선 단말.
  78. 제 77 항에 있어서,
    상기 수신된 방송 스피치 합성 정보는 합성기 제어 파라미터 정보를 더 포함하는, 무선 단말.
  79. 제 77 항에 있어서,
    상기 방송 오디오 신호의 세그먼트를 수신하기 전에 수신되는 상기 방송 오디오 신호의 해당 세그먼트에 대응하는 수신 스피치 합성 정보를 저장하는 스피치 합성 저장 모듈을 더 포함하는, 무선 단말.
  80. 제 79 항에 있어서,
    방송 오디오 신호 재생 모듈;
    스피치 합성 신호 재생 모듈; 및
    상기 방송 오디오 신호 재생 모듈 및 상기 스피치 합성 재생 모듈 중 하나에 의해 세그먼트를 나타내는 오디오 표현을 상기 사용자에게 제공한 후 상기 세그먼트에 대응하는 스피치 합성 정보를 삭제하는 스피치 합성 정보 삭제 모듈을 더 포함하는, 무선 단말.
  81. 제 77 항에 있어서,
    성공적으로 수신된 압축 오디오 신호들의 함수로서 적어도 일부 스피치 합성기 제어 파라미터들을 생성 및/또는 업데이트하는 스피치 합성기 파라미터 업데이 트 모듈을 더 포함하는, 무선 단말.
  82. 제 77 항에 있어서,
    사용자 입력에 응답하여 적어도 일부 스피치 합성기 제어 파라미터들을 설정하는 사용자 기호 모듈을 더 포함하는, 무선 단말.
  83. 제 77 항에 있어서,
    상기 무선 단말은 이동 통신 디바이스이고 상기 수신기는 OFDM 수신기인, 무선 단말.
  84. 무선 단말로서,
    방송 압축 오디오 신호들 및 방송 스피치 합성 정보를 수신하는 수단 - 상기 스피치 합성 정보는 ⅰ) 스피치의 음성 표현 및 ⅱ) 스피치의 텍스트 표현 중 적어도 하나를 포함함 -;
    방송 송신 스케줄 정보를 저장하는 수단;
    상기 방송 송신 스케줄 정보에 따라 상기 방송 압축 오디오 신호들 및 상기 방송 스피치 합성 정보의 수신을 시도하도록 상기 수신기를 제어하는 수단;
    성공적으로 수신된 방송 압축 오디오 신호들을 기초로 오디오를 출력하기 위한 신호들을 생성하는 수단;
    수신된 스피치 합성 정보를 기초로 오디오를 출력하기 위한 신호들을 생성하 는 스피치 합성 수단; 및
    상기 무선 단말이 수신을 시도하고 있는 방송 오디오 신호의 일부가 성공적으로 수신되는지 여부를 결정하고, 상기 결정을 기초로 상기 오디오 신호 기반 생성 모듈과 상기 스피치 합성 기반 생성 모듈 사이에서 동작을 스위칭하는 오디오 신호 수신 품질 수단을 포함하는, 무선 단말.
  85. 제 84 항에 있어서,
    상기 수신된 방송 스피치 합성 정보는 합성기 제어 파라미터 정보를 더 포함하는, 무선 단말.
  86. 제 84 항에 있어서,
    상기 방송 오디오 신호의 세그먼트를 수신하기 전에 수신되는 상기 방송 오디오 신호의 해당 세그먼트에 대응하는 수신 스피치 합성 정보를 저장하는 스피치 합성 저장 수단을 더 포함하는, 무선 단말.
  87. 제 84 항에 있어서,
    성공적으로 수신된 압축 오디오 신호들의 함수로서 적어도 일부 스피치 합성기 제어 파라미터들을 생성 및/또는 업데이트하는 스피치 합성기 파라미터 업데이트 수단을 더 포함하는, 무선 단말.
  88. 제 84 항에 있어서,
    사용자 입력에 응답하여 적어도 일부 스피치 합성기 제어 파라미터들을 설정하는 수단을 더 포함하는, 무선 단말.
  89. 방법을 수행하도록 사용자 디바이스를 제어하기 위한 기계 실행 가능 명령들을 포함하는 컴퓨터 판독 가능 매체로서, 상기 방법은,
    스피치 합성 정보를 수신하는 단계;
    오디오 정보의 일부를 수신하는 단계;
    오디오 정보의 일부가 성공적으로 수신되지 않았음을 검출하는 단계; 및
    성공적으로 수신되지 않은 상기 오디오 정보의 일부 중 적어도 일부에 대응하는 스피치 합성 정보로부터 오디오 신호를 생성하는 단계를 포함하는, 컴퓨터 판독 가능 매체.
  90. 제 89 항에 있어서,
    기계 실행 가능 명령들은 방송 오디오 신호로부터 생성된 오디오의 재생과 상기 스피치 합성 정보로부터의 오디오 신호 생성 사이를 상기 오디오 신호의 수신 손실의 함수로서 스위칭하도록 상기 사용자 디바이스를 제어하고, 상기 합성되는 오디오는 해당 오디오 신호의 수신이 유실되는 경우에 사용되는, 컴퓨터 판독 가능 매체.
  91. 제 90 항에 있어서,
    상기 방송 오디오 신호의 세그먼트를 수신하기 전에 수신되는 상기 방송 오디오 신호의 해당 세그먼트에 대응하는 수신 스피치 합성 정보를 저장하는 추가 단계를 수행하도록 사용자 디바이스를 제어하기 위한 명령들을 더 포함하는, 컴퓨터 판독 가능 매체.
  92. 제 91 항에 있어서,
    상기 해당 오디오 세그먼트의 성공적인 수신에 이어 상기 저장된 수신 스피치 합성 정보를 삭제하는 추가 단계를 수행하도록 사용자 디바이스를 제어하기 위한 명령들을 더 포함하는, 컴퓨터 판독 가능 매체.
  93. 제 92 항에 있어서,
    상기 저장된 수신 스피치 합성 정보의 삭제는 상기 해당 방송 오디오 세그먼트가 상기 디바이스의 사용자에게 가청 신호로서 제공된 후 수행되는, 컴퓨터 판독 가능 매체.
  94. 제 93 항에 있어서,
    상기 사용자 디바이스는 무선 단말인, 컴퓨터 판독 가능 매체.
KR1020097003153A 2006-07-14 2007-07-13 오디오 정보를 전달하기 위한 개선된 방법 및 장치 KR20090033474A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/487,261 US7822606B2 (en) 2006-07-14 2006-07-14 Method and apparatus for generating audio information from received synthesis information
US11/487,261 2006-07-14

Publications (1)

Publication Number Publication Date
KR20090033474A true KR20090033474A (ko) 2009-04-03

Family

ID=38924250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097003153A KR20090033474A (ko) 2006-07-14 2007-07-13 오디오 정보를 전달하기 위한 개선된 방법 및 장치

Country Status (7)

Country Link
US (1) US7822606B2 (ko)
EP (1) EP2047458A2 (ko)
JP (1) JP2009544247A (ko)
KR (1) KR20090033474A (ko)
CN (1) CN101490739A (ko)
TW (1) TW200820216A (ko)
WO (1) WO2008008992A2 (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US8019276B2 (en) * 2008-06-02 2011-09-13 International Business Machines Corporation Audio transmission method and system
US9076145B2 (en) * 2008-11-05 2015-07-07 At&T Intellectual Property I, L.P. Systems and methods for purchasing electronic transmissions
EP2485212A4 (en) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
TWI416367B (zh) * 2009-12-16 2013-11-21 Hon Hai Prec Ind Co Ltd 電子裝置及音訊資料的版權保護方法
GB2484919A (en) * 2010-10-25 2012-05-02 Cambridge Silicon Radio Directional display device arranged to display visual content toward a viewer
TWI413105B (zh) 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
CN102324230A (zh) * 2011-06-09 2012-01-18 民航数据通信有限责任公司 面向空中交通管制服务的气象信息语音合成系统和方法
CN102426838A (zh) * 2011-08-24 2012-04-25 华为终端有限公司 语音信号处理方法和用户设备
US20130124190A1 (en) * 2011-11-12 2013-05-16 Stephanie Esla System and methodology that facilitates processing a linguistic input
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
US9628207B2 (en) * 2013-10-04 2017-04-18 GM Global Technology Operations LLC Intelligent switching of audio sources
US20150103016A1 (en) * 2013-10-11 2015-04-16 Mediatek, Inc. Electronic devices and method for near field communication between two electronic devices
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
US9633649B2 (en) * 2014-05-02 2017-04-25 At&T Intellectual Property I, L.P. System and method for creating voice profiles for specific demographics
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
JP5887446B1 (ja) * 2014-07-29 2016-03-16 ヤマハ株式会社 情報管理システム、情報管理方法およびプログラム
JP5871088B1 (ja) * 2014-07-29 2016-03-01 ヤマハ株式会社 端末装置、情報提供システム、情報提供方法およびプログラム
JP6484958B2 (ja) 2014-08-26 2019-03-20 ヤマハ株式会社 音響処理装置、音響処理方法およびプログラム
CN104200803A (zh) * 2014-09-16 2014-12-10 北京开元智信通软件有限公司 一种语音播放方法、装置及系统
CN105337897B (zh) * 2015-10-31 2019-01-22 广州海格通信集团股份有限公司 一种基于rtp报文的音频ptt同步传输系统
US11120342B2 (en) 2015-11-10 2021-09-14 Ricoh Company, Ltd. Electronic meeting intelligence
CN105451134B (zh) * 2015-12-08 2019-02-22 深圳天珑无线科技有限公司 一种音频传输方法和终端设备
US10079021B1 (en) * 2015-12-18 2018-09-18 Amazon Technologies, Inc. Low latency audio interface
US11307735B2 (en) 2016-10-11 2022-04-19 Ricoh Company, Ltd. Creating agendas for electronic meetings using artificial intelligence
US10572858B2 (en) 2016-10-11 2020-02-25 Ricoh Company, Ltd. Managing electronic meetings using artificial intelligence and meeting rules templates
US10860985B2 (en) 2016-10-11 2020-12-08 Ricoh Company, Ltd. Post-meeting processing using artificial intelligence
US10304447B2 (en) 2017-01-25 2019-05-28 International Business Machines Corporation Conflict resolution enhancement system
CN107437413B (zh) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 语音播报方法及装置
US11062271B2 (en) 2017-10-09 2021-07-13 Ricoh Company, Ltd. Interactive whiteboard appliances with learning capabilities
US10553208B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances using multiple services
US11030585B2 (en) 2017-10-09 2021-06-08 Ricoh Company, Ltd. Person detection, person identification and meeting start for interactive whiteboard appliances
US10552546B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances in multi-language electronic meetings
US10956875B2 (en) 2017-10-09 2021-03-23 Ricoh Company, Ltd. Attendance tracking, presentation files, meeting services and agenda extraction for interactive whiteboard appliances
US10757148B2 (en) * 2018-03-02 2020-08-25 Ricoh Company, Ltd. Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices
JP7119939B2 (ja) * 2018-11-19 2022-08-17 トヨタ自動車株式会社 情報処理装置、情報処理方法およびプログラム
CN109712646A (zh) * 2019-02-20 2019-05-03 百度在线网络技术(北京)有限公司 语音播报方法、装置和终端
US11270060B2 (en) 2019-03-15 2022-03-08 Ricoh Company, Ltd. Generating suggested document edits from recorded media using artificial intelligence
US11263384B2 (en) 2019-03-15 2022-03-01 Ricoh Company, Ltd. Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
US11080466B2 (en) 2019-03-15 2021-08-03 Ricoh Company, Ltd. Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11720741B2 (en) 2019-03-15 2023-08-08 Ricoh Company, Ltd. Artificial intelligence assisted review of electronic documents
US11573993B2 (en) 2019-03-15 2023-02-07 Ricoh Company, Ltd. Generating a meeting review document that includes links to the one or more documents reviewed
US11392754B2 (en) 2019-03-15 2022-07-19 Ricoh Company, Ltd. Artificial intelligence assisted review of physical documents
US11735156B1 (en) * 2020-08-31 2023-08-22 Amazon Technologies, Inc. Synthetic speech processing

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290061A (ja) * 1985-06-13 1987-04-24 Sumitomo Electric Ind Ltd 音声情報伝達方法
GB2246273A (en) 1990-05-25 1992-01-22 Microsys Consultants Limited Adapting teletext information for the blind
US5406626A (en) 1993-03-15 1995-04-11 Macrovision Corporation Radio receiver for information dissemenation using subcarrier
JPH11507775A (ja) * 1995-06-07 1999-07-06 イー−コム・インコーポレーテッド ホストコンピュータサーバのための低電力電気通信コントローラ
JP3805065B2 (ja) * 1997-05-22 2006-08-02 富士通テン株式会社 車載用音声合成装置
JP3287281B2 (ja) 1997-07-31 2002-06-04 トヨタ自動車株式会社 メッセージ処理装置
US7027568B1 (en) 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US20020055844A1 (en) 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
FI115868B (fi) 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
JP2002149320A (ja) * 2000-10-30 2002-05-24 Internatl Business Mach Corp <Ibm> 入力装置、通信用端末、携帯型通信用端末、音声フィードバックシステム、音声フィードバックサーバ
US6980953B1 (en) * 2000-10-31 2005-12-27 International Business Machines Corp. Real-time remote transcription or translation service
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US7610556B2 (en) * 2001-12-28 2009-10-27 Microsoft Corporation Dialog manager for interactive dialog with computer user
US7672436B1 (en) * 2004-01-23 2010-03-02 Sprint Spectrum L.P. Voice rendering of E-mail with tags for improved user experience

Also Published As

Publication number Publication date
JP2009544247A (ja) 2009-12-10
EP2047458A2 (en) 2009-04-15
TW200820216A (en) 2008-05-01
WO2008008992A2 (en) 2008-01-17
US7822606B2 (en) 2010-10-26
CN101490739A (zh) 2009-07-22
US20080015860A1 (en) 2008-01-17
WO2008008992A3 (en) 2008-11-06

Similar Documents

Publication Publication Date Title
US7822606B2 (en) Method and apparatus for generating audio information from received synthesis information
KR100764005B1 (ko) 방송 콘텐츠 제공 시스템 및 관련된 단말기, 방법 및컴퓨터 프로그램 생성물
KR20060095090A (ko) 이동통신 단말기를 이용하여 개인방송 서비스 제공 시스템및 서비스 제공 방법
US7631088B2 (en) System and method for minimizing perceived dead air time in internet streaming media delivery
JP2005516558A (ja) 携帯通信端末機用インターネット放送中継システムおよび放送中継方法
JP2002504775A (ja) 音響データをアドレスデータを含む他のデータと共に受信器へ送信する方法及びシステム
US20070174871A1 (en) Method and device for providing brief information on data broadcasting service in digital multimedia broadcasting receiving terminal
KR20160074529A (ko) 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
CN112201264A (zh) 音频处理方法、装置、电子设备、服务器及存储介质
KR20050033994A (ko) 디지털 멀티미디어 방송 수신용 이동통신 단말기의 오디오송출 장치 및 방법
WO2006011796A1 (en) Combined dab and gprs network and corresponding receiver
CN1972447A (zh) 基于流媒体技术的多画面播放器及其播放方法
WO2007007981A1 (en) Cell broadcasting service system using digital multimedia broadcasting and method of cell broadcasting service therefor
KR100783267B1 (ko) Dmb 부가 서비스 제공 시스템 및 방법
JP6733990B2 (ja) 解説音声再生装置、解説音声生成装置及び解説音声再生プログラム
CN110753232A (zh) 在线互动场景的音频处理方法、系统和存储介质
KR100563719B1 (ko) 이동통신 단말기의 다채널 스트리밍 제어방법
WO2006001600A1 (en) Dmb/mobile telecommunication integrated service terminal apparatus and method for network linkage between dmb and mobile telecommunication
KR20040063425A (ko) 멀티미디어 광고 서비스 시스템
KR20160041433A (ko) 자막을 포함하는 재송출용 방송 데이터 생성 방법 및 서버
KR100840908B1 (ko) 영상 통화 경로를 이용하여 실시간 tv 방송 시청서비스를 제공하는 통신 시스템 및 방법
JP4326686B2 (ja) 放送番組文字情報配信システム、放送番組文字情報配信用サーバおよび放送番組文字情報配信方法
US20070192662A1 (en) DMB system and method for downloading BIFS stream and DMB terminal
KR100800433B1 (ko) 휴대 이동 방송을 이용한 외부 프로그램의 동기화 방법
KR101306703B1 (ko) 전자 서비스 가이드 제공 방법 및 이를 위한 방송용 단말기및 이를 위한 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application