KR19990082755A

KR19990082755A - 싱글캐스트대화형라디오시스템

Info

Publication number: KR19990082755A
Application number: KR1019990008949A
Authority: KR
Inventors: 러멜스키레온
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-04-28
Filing date: 1999-03-17
Publication date: 1999-11-25
Also published as: GB2336974A; JP3037947B2; GB2336974B; GB9908965D0; US6246672B1; JP2000004485A; KR100303411B1

Abstract

본 발명의 싱글캐스트 대화형 라디오 시스템은 가입자의 요구에 따라 가입자에게 디지탈화된 오디오-기반 콘텐트를 사람의 음질로 경제적으로 전달한다. 이 시스템은 개인용 라디오 방송국 서버와 다수의 이용자 단말기를 포함하고 있으며, 기존의 무선 통신망들 중 하나를 전송 매체로서 이용한다. 인터넷 월드 와이드 웹 서버와 같은 데이터 네트워크 서버에 고도로 압축된 음성-기반 정보 콘텐트가 저장된다. 개인용 라디오 방송국 서버는 개인의 관심있는 토픽과 함께 복수 가입자의 프로파일을 저장하고, 토픽에 따라 다양한 웹 사이트로부터 콘텐트 자료를 조립하고, 그 콘텐트를 가입자의 요구에 따라 무선 디지탈 네트워크를 통해 가입자의 이용자 단말기로 전송한다. 이용자 단말기는 음성-기반 자료를 적어도 AM-라디오 음질로 복원하며, 이러한 자료의 전송 비용은, 적어도 선택된 압축 알고리즘의 결과로서, 기존의 음성 통신 방법에 비해 매우 낮다. 이용자 단말기는 선택적으로, 종래의 라디오를 셀룰러폰 장비와 함께 전기적 및 기계적으로 통합한다. 이용자는 단지 음성 명령을 발생함으로써 시스템 기능을 핸즈-프리로 제어할 수 있다. 이와 같은 기능은 셀룰러 전화 음성 다이얼링 및 제어, 음성 식별에 근거한 안전한 네트워크 로그-온, 종래의 라디오 방송국으로의 핸즈-프리 튜닝, 오디오 플레이백 레벨 변경, 및 이들 기능 사이의 스위칭을 포함할 수 있으며, 이것에 제한되는 것은 아니다. 이용자 단말기는 또한, 인터넷 또는 다른 데이터 리포지토리로부터 텍스트 자료를 검색하고, 그 자료를 컴퓨터-생성 음성으로서 재생하고, 이용자로부터의 음성응답을 디지탈화하고, 그 응답을 유선 네트워크를 포함하여 관련 네트워크를 통해 다른 E-메일 어드레스로 전달한다.

Description

싱글캐스트 대화형 라디오 시스템{SINGLECAST INTERACTIVE RADIO SYSTEM}

본 발명은 일반적으로 무선 통신 시스템 및 그 방법에 관한 것으로서, 특히, 본 발명은 사람 음질의 음성에 의한 콘텐트를 대화형으로 제어하는 방식으로 생성하고, 저장하고, 디지탈 무선 통신 인프라스트럭쳐(infrastructure)를 통해 핸드헬드 또는 차량에 장착가능한 무선 네트워크 컴퓨터로 전달하는 것을 포함하여, 개별화된 대화형 라디오 및 통신 서비스에 관한 것이다.

라디오 방송 산업에서, 활용가능한 대역폭을 이동(mobile) 고객까지 확장하고, 소정의 대화형(interactive) 제어 기능을 부가하고, 수신상태(reception)를 개선하고, 라디오 프로그래밍이 영숫자 데이터를 포함할 수 있도록 허용하는 등 매우 다양한 기술적 진보가 있었다. 이동 라디오(mobile radios)는 추가적인 서브시스템, 예를 들어, 차량 좌표를 찾기 위한 U.S. GPS(Global Positioning System) 수신기와, 서정시(song lyrics)나 페이징과 같은 영숫자 데이터를 디스플레이하거나 또는 상호관련된 CD-ROM으로부터 검색되는 특정 지역의 지도와 같은 그래픽 정보를 디스플레이하기 위한 LCD 스크린 등을 통합하기 시작했다.

그러나, 기본적인 라디오 기술은 그것이 창안된 이래로 변화가 매우 적었다. 이것은 아직도 채널화된 방송이라는 원시적인 아이디어에 기반을 두고 있으며, 따라서, 청취자에게 제공되는 개별화(customization) 개념이 거의 없다. 즉, 청취자는 단지 거의 활용가능하지 않은 대역폭으로 제한되는 소수의 채널 중에서 선택할수 있을 뿐이다.

최근에는 정보 기술분야에서 혁명적인 변화가 있었으며, 예를 들어, (1) 인터넷 및 다른 유사한 리포지토리(repository)의 진보로 인해 매우 많은 양의 정보를 활용할 수 있게 되었으며, (2) 예를 들어, 셀룰러 전화나 위성 통신과 같은 무선 기술의 진보로 인해 충분한 종합적인 통신 대역폭이 이동 고객까지 활용가능하게 되었다.

현재, 이러한 막대한 양의 정보는 기본적으로 컴퓨터 스크린 상의 시각적인 프리젠테이션을 위해 맞추어져 있다. 컴퓨터 이용자와 마찬가지로, 라디오 청취자도 그들이 청취하길 원하는 것과 그것을 청취하길 원하는 시기를 선택하는 능력에 대한 지속적으로 증가하는 필요성을 갖고 있다.

컴퓨터 이용자에게 요구에 따라 정보의 오디오 프리젠테이션을 전달하기 위한 종래의 컴퓨터-기반 시도가 있었다. 이러한 것을 실현하기 위한 종래의 방법은 오디오 압축 기술을 이용하고 있으며, 매우 직선적이다. 먼저, 사람이 텍스트 정보를 읽고, 사람의 음성이 오디오 파일로 작성되며, 다음에 오디오 파일은 압축되어, 소비자를 위해 네트워크-기반 정보 리포지토리에 저장된다. 다음에, 리포지토리와 동일한 배선 라인 네트워크에 고정배선된(hard-wired) 플레이백 장치가 리포지토리로부터 그 압축된 오디오 파일을 검색하고, 그것을 압축해제한 다음, 그것을 재생한다.

이와 같은 방식을 이용하면, 클라이언트가 약 14Kbps로 리얼 오디오 서버(Real Audio server)와 통신하는 경우에 리얼 오디오 기술(Real Audiotechnology)은 AM 음질의 오디오(음성 또는 음악)를 전달하고, 활용가능한 전송 속도가 약 28Kbps 또는 그 이상인 경우에는 FM 음질의 오디오를 제공한다. AM 음질의 음성 압축은 보다 낮은 속도로 실현될 수 있다. 압축 비율과 복원되는 오디오의 음질 사이에 트레이드-오프(trade-off)가 존재한다는 것은 명백하다. 오늘날, 무선 기술 산업분야에 수용되는 최대 음성 압축은 약 7-8 Kbps이다. 예를 들어, 압축 방식은 디지탈 셀룰러 전화기술 표준 IS-54에 의해 이용되며, 7.95 Kbps 데이터 속도를 실현하는 벡터-합 여기 선형 예측(vector-sum excited linear predition:VSELP) 코딩 기술에 기반을 두고 있다.

그러나, 이러한 주문형 라디오(radio on demand) 방식은 수시간 정도의 장시간에 걸쳐 대량의 디지탈 오디오 데이터를 전송하는 것을 가정하고 있다. 비교적 저렴한 통신 비용의 배선 라인을 이용하는 것은 디지탈 오디오 전송에 경제적으로 수용될 수 있다. 고객은 통상적으로 단일 로컬 전화 라인을 통해 14.4 Kbps 또는 28.8 Kbps 모뎀을 이용하여 인터넷 또는 그와 유사한 서비스에 접속된다. 그러므로, FM 음질의 오디오도 매우 저렴하게 고객에게 전달될 수 있다. 통상적으로, 요금은 로컬 호출의 비용(통상적으로는 기본 전화 접속 비용에 추가적인 요금이 초래되지 않는다)과 인터넷 서비스 공급 자(ISP) 몫의 요금을 포함한다. ISP 서비스 요금이 균일가인 경우에는, 후자도 역시 제로(추가적인 요금이 없음)로 간주될 수 있다.

대안으로, 널리 이용되는 AMPS(Advanced Mobile Phone Service:아날로그 셀룰러폰에 의해 이용되는 무선 네트워크) 모뎀을 기반으로 하는 최신의 시스템 조차도 차량의 속도, 지역의 지리적 환경 및 활용가능한 로컬 대역폭을 동시에 공유하는 이용자의 수에 따라 단지 약 4 Kbps 내지 8 Kbps 속도에서 신뢰성 있게 전달한다.

전체적으로, 무선 데이터 전송 비용은 유선 데이터 전송의 경우에서 보다 약 1배 또는 2배 정도 비싸다. 이와 같이 압축 음성을 전송하는 방법은 첫째로 무선 통신을 이용하는 목적을 헛되게 만드는데, 그 이유는 압축된 음성은 적어도 무선 전화 채널을 통해 전송될 수 있는 만큼 많은 데이터 대역폭을 이용하기 때문이다. 다시 말하면, AMPS를 통한 디지탈 음성 전송 비용은 압축이 없는 아날로그 소스의 전송 비용과 거의 동일하다.

이용자들이 무선 데이터 전송 비용을 분담할 수 있도록 하기 위해, 수개의 회사들이 소위 셀룰러 디지탈 패킷 데이터(CDPD) 기술을 도입했다. 이것은 복수의 이용자가 유휴(idle) AMPS 채널을 공유하고 유휴 AMPS 채널 사이를 호핑(hopping)함으로써 IP(인터넷 프로토콜) 네트워크에 지속적으로 접속될 수 있도록 한다. 한 CDPD 이용자당 평균 데이터 속도는 채널을 공유하는 이용자의 수에 의존한다. 예를 들어, 만일 20명의 이용자가 하나의 채널을 통해 동시에 송신 또는 수신한다면, 개인의 평균 데이터 속도는 약 400 bps가 되며, 이것은 E-메일 및 다른 비교적 짧은 메시지에는 충분하다. 한 바이트당 전송 비용은 AMPS를 이용하는 것보다 약간 높지만, 데이터 전송에 대한 패킷 접근방식으로 인해, 공급자들이 이용자에게 접속시간이 아닌 전송되는 데이터의 양에 대해 요금을 청구할 수 있도록 한다. 그러나, 전술한 종래의 압축 오디오 전송 방식은 CDPD 네트워크를 통해 오디오 소스에 접속된이용자들에게 활용가능한 것보다 훨씬 많은 대역폭을 필요로 한다.

수년간, 개인 휴대통신 시스템(PCS)은 AMPS 및 CDPD 보다 약간 양호한 디지탈 데이터 전송 속도를 실현하게 되었지만, 이것은 아직도 장시간 동안의 무선 디지탈 오디오 전송에 있어서는 경제적이지 못하다는 것을 알 수 있다.

전술한 논의로부터, 라디오 장치로 매우 많은 양의 디지탈 오디오 데이터를 전송하는 종래의 방법을 이용하는 것이 과중하게 비싸다는 것은 명백한 일인데, 그 이유는 무선 통신 매체의 비용이 예를 들어, 평균적인 음성 전화 호출 또는 E-메일과 같이 비교적 짧은 전송에 최적화되어 있기 때문이다.

가까운 미래에, 공지의 기술들은 수용가능한 방송 오디오 음질을 제공하면서, 무선 라인을 통해 오디오 데이터를 경제적으로 전송하는데 필요한 압축 비율을 산출하지 못할 것이다.

오늘날, 매우 많은 양의 데이터를 무선으로 전달하기 위한 유일한 공지된 방법은 음성 합성(speech synthesis) 방법을 이용하는 것이다. 텍스트-음성(TTS) 변환 기술을 이용하면 낮은 비트 속도를 얻을 수 있다. 보통의 텍스트는 초당 약 8-20 문자로 표현되거나 또는 최대로 160 bps의 데이터 전송 속도를 필요로하게 되지만, 그러나, 그 결과로서 생성되는 음성은 수용가능한 사람의 억양(intonation)을 전달하지 못한다.

비록 임의적인 음성 변환은 구문학 및 형태학적 분석 뿐만 아니라 운율학적(prosody) 규칙에 근거하고 있지만, 사람인 화자(speaker)의 음질을 실현하는 것은 지금까지는 가능하지 않았다. 라디오 전송 요건중 하나는 화자의 억양을정확하게 전송하는 것인데, 그 이유는 화자의 운율법(prosody)이 그 사람의 개성의 소정의 관점 및 화자의 마음 상태를 반영하기 때문이다. 음성 압축은 화자의 억양을 정확하게 전달하지만, 임의적인 음성 합성은 종종 그렇지 못하다.

실험에 의하면, 이러한 "합성(synthetic)" 억양은 대부분의 라디오 청취자에게 수용될 수 없다는 것을 보여주고 있다. 결과적으로, 대부분의 라디오 청취자들은 보통 수분동안 괴로움을 느끼거나 또는 그들의 주의력이 산만해지게 된다. 그 이유는 TTS는 아직까지 메시지가 짧지 않는한 널리보급된 용도를 발견하지 못했으며, E-메일 또는 주식시장 거래가격과 같은 것에 적절하기 때문이다.

전술한 많은 단점 및 특별히 언급되지 않은 다른 단점에도 불구하고, 몇몇 라디오 통신 서비스 시스템이 제안되었다. 다음은 그러한 종래의 라디오 통신 서비스 시스템의 예들이다.

Noreen 등의 미국 특허 제5,303,393호에는, 페이징 및 FM 채널의 전국적인 방송의 주요 기능을 포함하는 소위 라디오샛(RadioSat) 시스템이 기재되어 있다. 페이징과 같은 일부의 라디오샛 데이터 통신 서비스는 예를 들어, 개인 휴대통신 시스템(PCS)와 같은 지상파 통신을 이용하여 구현될 수 있지만, 단지 위성 방송 전송만이 전국적으로 충분한 수의 추가적인 FM 채널을 제공한다. 또한, 디지탈 오디오와 같은 상당한 양의 데이터는 단지 위성을 통해서만 라디오샛 이동 단말기로 전송될 수 있다. 양방향 음성 통신을 포함하여, 많은 중요한 대화형 라디오샛 애플리케이션은 위성이 회신 채널(이동 단말기로부터 위성으로)을 제공할 것을 요구하는데, 이것은 많은 국가적인 위성 시스템에 대한 경우는 아니다. 미국에서 조차도,전면적인 라디오샛 서비스를 제공하기 위해 필요한 위성 인프라스트럭쳐가 아직 구축되지 않았다. 다음으로, 이용자 인터페이스 및 정보 전달은 터치 스크린 방법에 근거하고 있는데, 이것은 정보를 수신하거나 명령을 발생하기 위해 이용자의 주의력이 도로로부터 단말기의 스크린으로 빈번하게 전환되어야 하기 때문에 안전성이 떨어진다. 마지막으로 말하지만 아주 중요한 것으로, 라디오샛 서비스의 범위 및 사상은 기본적으로 라디오 방송이라는 것이다. 라디오샛 기술은 단지 활용가능한 채널의 수를 확장시킨다. 따라서, 각각의 MSAT은 166개 정도의 FM-음질의 채널을 지원하거나 또는 4배 정도 많은 토크 채널(AM 음질)을 지원할 수 있다. Noreen 등의 시스템에 의해서는 수많은 이동 이용자에게 개별화된 서비스를 제공할 수 없다.

미국 브로드캐스터들의 USA 디지탈 라디오 재단은 방송 산업 AM 세그먼트의 인프라스트럭쳐 및 투자자본을 존속시키면서, 콤팩트 디스트 음질의 방송 라디오를 도입하기 위해 IBOC(in-band on-channel) 디지탈 오디오 방송(DAB)의 전달을 위한 시스템을 개발했다. 제한된 AM 대역 할당으로 IBOC DAB를 실현하는데 있어서의 주된 요소는 강력한 소스 압축 알고리즘이다. AM IBOC 오디오 소스 인코딩 방식은 MUSICAM(상표)에 근거하고 있는데, 이것은 다시 오디오 서브-밴드 인코딩을 위한 ISO/MPEG I Audio Layer Ⅱ(ISO 11172-3) 표준을 기반으로 하고 있다. 이 표준은 음악이 15 KHz 오디오 대역폭에서 16 비트 스테레오를 재생하기 위해 96 Kbps의 속도로 트랜스코딩(transcoded)될 수 있는 경우에 적절한 사이코-음향(psycho-acoustic) 모델의 개발을 통해 발전되었다. 그 결과로서 생성된 96 Kbps 비트 스트림은 압축된 음악뿐만 아니라, 2.4 Kbps의 보조 데이터 스트림을 포함한다. 음악을96 Kbps로 압축하는 것은 AM 할당에 활용될 수 있는 좁은 대역폭을 통한 DAB의 방송을 가능하게 한다.

AM은 고음질 오디오 방송 설비의 쉽게 활용가능한 네트워크를 DAB에 제공하며, 그 데이터 전달 능력은 노래제목, 아티스트, 앨범명칭, 교통 및 날씨 정보, 비상경보, 페이징 서비스, 주식시세 등을 전송하기 위해 이용될 수 있다. 그러나, IBOC DAB는 근본적으로, 개별화되고 대화형의 데이터 또는 오디오 전송을 위해 이용될 수 없는 방송 기술이다.

라디오 방송 데이터 시스템(RBDS)으로 불리는 또다른 접근방법은 FM 방송국이 지금 시장에 나오고 있는 새로운 세대의 "스마트 라디오"를 위한 보조 데이터를 전송할 수 있도록 한다. RBDS 표준은 미국의 라디오 시장을 위해 개발되었으며, 때때로 유럽에서 사용되었던 RDS의 부산물이다. RBDS 신호는 전송 에러 정정을 포함하여, 1187.5 bps의 전체적인 데이터 속도를 가진 바이페이즈(bi-phase) 코딩된 신호와 같이 57 KHz 부반송파(subcarrier) 상에서 FM 방송국에 의해 전송된다. 이용가능한 데이터 속도는 730 bps이다. 이 신호는 16개의 데이터 그룹으로 이루어진다. 각각의 그룹은 상이한 애플리케이션을 위한 데이터를 전달한다. 그러므로, 하나의 그룹은 GPS 위성에만 기반을 둔 위치측정(positioning)의 정확성을 증가시키기 위한 차동(Differencial) GPS 데이터에 이용된다. 다른 하나의 그룹은 라디오 페이징을 위해 이용된다. 또다른 그룹들은 방송국 식별을 위해 이용된다. 일부의 다른 그룹은 수신상태가 페이딩일 때 이용자가 동일한 프로그램에 동조를 유지할 수 있도록 대리 방송국 주파수를 리스트한다. 일부의 그룹은 64개 문자 메시지의수신을 허용하는 라디오 텍스트 그룹 및 라디오 페이징 그룹처럼 텍스트 전송을 위해 이용된다. 이 리스트는 완비된 것이 아니며, RDS 표준과 RDBS 표준에 대해 약간 다르다. 미국의 RDBS 버전은 방송국 소유자가 서비스 공급자에게 임대하기 위해 그룹3,5,6,7을 남겨두고 있다. 예를 들어, 콘텐트 공급자들은 신문 및 정기간행물, 판촉 메시지 및 광고, 아티스트의 성명 및 노래 제목을 전송할 수 있다.

전체적으로, 단일 그룹을 위한 유용한 데이터 전송 속도는 45.6 bps이다. 이데이터 속도는 주로 예를 들어, 노랫말과 같은 텍스트 메시지를 LCD 스크린 상에서 스크롤링하기 위해 이용될 수 있다. 또한, RDS 표준 창안자들은 라디오 텍스트 기능이 운전자에 대한 혼란스러운 영향으로 인해, 차량 수신기에 사용될 가능성이 없다는 것을 인정하고 있는 것으로 알려져 있다.

RDS/RDBS 표준에 전형적인 데이터 전송 속도는 오디오-관련 애플리케이션에는 너무 느리다는 것은 명백하다. 또한, 대화형 애플리케이션은 이들 표준의 범위를 완전히 벗어난다. 결과적으로, RDBS 또는 RDS 표준은 방송 서비스를 상당히 확장시키지만, 이들은 개별화되고 완전 대화형의 오디오 콘텐트 전송을 이용자에게 제공하지 못한다.

Martinez의 미국 특허 제5,321,514호에 기재된 다른 접근방법은 소비자 디지탈 수신기와 텔레비젼 송신기 사이의 양방향 데이터 전송을 위해 현재는 이용불가능한 "금지(taboo)" 주파수를 실제적으로 이용하는 것을 제안하고 있다. 소위 "T-NET" 시스템은 비어있는 텔레비젼 채널 상에서 양방향 디지탈 통신을 제공하기 위해 확산 스펙트럼 방법을 이용한다. 총계적인 업스트림(upstream) 데이터 속도는약 6마일의 서비스 영역 반경에서 약 3 Mbps를 실현할 수 있으며, 따라서, T-NET 시스템은 한 이용자당 약 300 bps의 개개의 업스트림 데이터 속도와 한 이용자당 약 200 bps의 다운스트림 데이터 속도를 약 10,000명의 이용자에게 제공할 수 있다. 이러한 접근방법은 개별화된 대화형 데이터 서비스를 제공할 수 있지만, 대화형 오디오 서비스는 여전히 이러한 시스템의 범위를 벗어난다. 또한, 이러한 주파수를 이용하는 것은 공중 텔레비젼 채널에 대해 수용불가능한 간섭을 발생할 수 있으며, 연방 통신 위원회(FCC)에 의해 허용되지 않을 수도 있다.

벨 애틀랜틱(Bell Atlantic)은 셀룰러 전화 이용자들이 미리 레코딩된 음성 메시지를 수신할 수 있도록 하는 서비스를 제공해왔다. 이러한 메시지들은 지방 뉴스, 날씨, 주식시장, 교통량에 관한 공표 및 다른 정보가 될 수 있다. 이용자는 먼저 특정 번호를 호출한 다음, 미리 레코딩된 음성을 통해 제공되는 메뉴를 통해 브라우징하기 위해 전화 키를 누름으로써 정보를 요구한다. 그러나, 셀룰러 호출의 높은 비용을 고려하면, 이러한 정보 시스템은 하루에 수분이상 이용하는 경우에 상당히 비싸다. 또한, 셀룰러폰을 통해 전달되는 음질이 통상적으로 AM 음질 보다도 낮다.

제너럴 모터스사는 1997 캐딜락 모델에 그의 온스타(OnStar) 시스템을 도입했다. 차량의 셀룰러폰을 GP(global positioning) 위성에 연결함으로써, 온스타는 그것이 차량의 에어백이 전개되었다는 것을 검출하자마자 의료보조자를 보내는 것을 포함하여, 오도가도 못하는 자동차운전자를 찾아내고 구조원을 보낼 수 있다. 온스타 서비스 센터의 오퍼레이터는 온스타 시스템을 장착한 자동차의 좌표를 수신하고, 셀룰러폰을 이용하여 연속적인 방향으로 그 이용자의 길안내를 할 수 있다.

본 발명의 목적은 유선 통신에 필적하는 가격 및 종래의 라디오에 필적하는 음질로 라디오 청취자에게 무선으로 많은 양의 정보를 전달하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 다른 목적은, 셀룰러 전화 및 디지탈 데이터 통신 서비스를 아날로그 방송 서비스와 통합하고, 예를 들어, 카 라디오나 또는 워크맨(소니사의 상표)과 같은 종래의 이동식 라디오 장치를 기계적으로 대체하고 기능적으로 확장시킨 저가의 음성-기반 무선 네트워크 컴퓨터 단말기를 이동하는 이용자에게 제공하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 예를 들어, 인터넷 브라우징, 영숫자 및 음성 페이징, 길안내, 오디오북과 같은 디지탈화된 음성 및 데이터 리포지토리에 대한 억세스, 지방의 날씨 및 교통 정보, 주식시세, 신문 및 잡지 내용 등 다양한 대화형 라디오 서비스를 라디오 이용자들에게 제공할 수 있도록 하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 차량내의 고객들에게 예를 들어, 방송국에의 튜닝, 셀룰러 전화 다이얼링, 다양한 활용가능한 응용기기 사이의 스위칭을 포함하여, 이용자의 이동 단말기와의 핸즈프리 음성-기반 인터페이스를 제공함으로써 고객들의 안전성을 향상시키기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 음성 속도 제어, 오디오 플레이백 레벨 변경, 후진(reverse), 전진(forward) 및 고속전진(fast forward) 명령과 같이 음성에 의해 활성화되는 명령을 통합하여, 오디오 플레이백 제어에 진보된 기능을 도입하기 위한 시스템 및 방법을 제공하는 것이다. 음성 레벨을 제외하고, 이와 같은 기능은 라디오 방송이 아닌 디지탈 오디오 플레이백에 적용될 수 있다.

본 발명의 또다른 목적은 예를 들어, E-메일이나 또는 인터넷 웹 사이트로부터 수신되는 텍스트 파일과 같은 텍스트 정보의 음성-기반 검색(voice-based retrieval)을 제공하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 키보드가 없거나 이용할 수 없을 때 또는 안전상의 이유의 관점에서, 이용자가 E-메일을 음성으로 작성할 수 있도록 하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 이용자가 관심있는 정보의 핫-리스트를 정의하고, 정보가 이용가능하게 되자마자 그 정보를 프리펫치(pre-fetch)할 수 있도록 하는 그러한 개인용 가상 라디오 방송국을 모든 이용자를 위해 만들 수 있도록 하기 위한 시스템 및 방법 - 이 시스템은 그러한 정보를 요구에 따라 이용자의 이동 단말기로 전달함 - 을 제공하는 것이다.

본 발명의 또다른 목적은, 다른 나라에서 급격히 증가되는 다양한 무선 통신망 - 예를 들어, 미국에서는 AMPS 기술이 가장 급증하는 무선 네트워크이며, 유럽에서 가장 일반적인 것은 GSM(Global System for Mobile Comminications)임 - 을 이용하여 대화형 라디오 서비스의 지리적 적용범위를 증가시키기 위한 시스템 및방법을 제공하는 것이다.

본 발명의 또다른 목적은, 매우 낮은 음성 압축 비율을 실현하고 저장 및 전송 기술을 이용함으로써, 디지탈 음성 및 데이터를 전달하기 위한 무선 데이터 통신 기술의 신뢰성을 향상시키고 그것을 이용하는 비용을 감소시키기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 또다른 목적은, 새로운 대화형 라디오 애플리케이션을 안출하는 것을 용이하게 하기 위해, 표준 및 산업 승인 툴, 프로토콜 및 인터페이스를 이용하여 개방된(open) 애플리케이션 개발 플랫폼을 제공하기 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 한 관점에 따르면, 정보 신호 전달 시스템은 정보 콘텐트 공급자로부터 수신되는 데이터에 응답하여 음성학적으로 인코딩된 오디오 정보 신호를 생성하기 위한 정보 신호 생성 수단; 상기 정보 신호 생성 수단에 동작가능하게 접속되어, 상기 음성학적으로 인코딩된 오디오 정보 신호를 저장하기 위한 저장 수단; 유선 통신망을 통해 상기 저장 수단에 동작가능하게 접속되어, 시스템 이용자에 의한 요구시 상기 저장 수단으로부터 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 검색하기 위한 정보 신호 검색 수단; 및 무선 통신망을 통해 상기 정보 신호 검색 수단에 동작가능하게 접속된 정보 요구 및 전달 수단을 포함하고, 여기서, 상기 정보 요구 및 전달 수단은 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 전달하기 위해 이용자에 의한 요구를 생성 및 전송하기 위한 수단과, 이용자에게 플레이백하기 위해 상기 정보 콘텐트 공급자로부터 수신되는 데이터의 적어도 일부분을 표현하는 오디오 신호를 생성하기 위해 상기 인코딩된 오디오 정보 신호의 적어도 일부분을 수신 및 디코딩하기 위한 수단을 포함하고, 또한, 상기 정보 요구 및 전달 수단은 이용자가 청취하는 오디오 신호와 연관될 다수의 나레이터 음성 중 하나를 선택하기 위한 수단을 포함한다.

본 발명의 다른 관점에 따르면, 적어도 하나의 정보 신호 콘텐트 공급자와 적어도 하나의 이용자 단말기를 포함하는 무선 정보 신호 전달 시스템에 사용하기 위한 이용자 단말기는, 제어 프로세싱 수단; 상기 제어 프로세싱 수단에 동작가능하게 접속된 메모리 수단; 상기 메모리 수단에 동작가능하게 접속되어, 상기 적어도 하나의 정보 신호 콘텐트 공급자에 의해 제공되는 오디오-기반 데이터를 표현하는 수신된 음성학적으로 인코딩된 정보 신호를 복조하고, 이용자에 의해 개시된 신호(user-initiated signal)를 변조하기 위한 무선 모뎀 수단; 상기 제어 프로세싱 수단에 동작가능하게 접속되어, 이용자에 의해 제공되는 말로한 발성음(spoken utterance)을 수신하기 위한 음성 입력 수단을 구비한 음성 인식 수단 - 여기서, 상기 말로한 발성음은 상기 적어도 하나의 정보 신호 콘텐트 공급자에 의해 제공되는 소정의 오디오-기반 데이터를 위한 적어도 하나의 요구를 표현하고, 상기 음성 인식 수단은 상기 말로한 발성음을 디코딩하여 그 디코딩된 발성음을 상기 제어 프로세싱 수단으로 제공하고, 상기 제어 프로세싱 수단은 그것에 응답하여 이용자-개시 신호(user-initiated signal)를 생성함 - ; 상기 메모리 수단에 동작가능하게 접속되어, 복조된 음성학적으로 인코딩된 정보 신호에 응답하여 합성된 음성 신호를 생성하기 위한 음성 합성 수단 - 여기서, 상기 음성 합성 수단은 이용자에게 플레이백하는 동안에 다수의 나레이터 음성 중 하나를 상기 합성된 음성 신호에 제공하기 위해 선택적으로 이용되는 다수의 미리 레코딩된 음성학 단위 사전을 포함함 - ; 및 상기 음성 합성 수단에 동작가능하게 접속되어, 이용자에게 플레이백하기 위해 상기 합성된 음성 신호에 응답하여 오디오 신호를 생성하기 위한 오디오 플레이백 수단을 포함한다.

본 발명의 또다른 관점에 따르면, 클라이언트/서버 시스템은, 이용자 요구에 따라 이용자-개시 신호를 생성하기에 적합한 적어도 하나의 클라이언트 단말기; 및 다양한 형태의 데이터를 포함하는 광역 네트워크에 동작가능하게 접속되고, 또한 무선 통신망을 통해 상기 적어도 하나의 클라이언트 단말기에 동작가능하게 접속된 정보 검색 및 전달 서버를 포함하고, 상기 정보 검색 및 전달 서버는, 메모리 수단; 및 상기 메모리 수단에 동작가능하게 접속된 프로세싱 수단을 포함하고, 상기 프로세싱 수단은, 상기 적어도 하나의 클라이언트 단말기로부터 이용자-관련 정보를 수신하고 그 이용자-관련 정보를 상기 메모리 수단에 저장하기 위한 수단; 상기 이용자-관련 정보 수신 및 저장 수단에 응답하여, 상기 광역 네트워크 상의 적어도 하나의 데이터 서버로부터 데이터를 검색하고 그 데이터를 상기 메모리 수단에 저장하기 위한 수단; 및 상기 검색된 데이터를 상기 적어도 하나의 클라이언트 단말기로 전송하기 위한 수단을 포함한다.

본 발명의 상기 및 다른 목적, 특징 및 장점은 첨부도면과 함께하는 실시예에 관한 다음의 상세한 설명으로부터 명백해질 것이다. 도면에서, 동일한 참조번호는 동일하거나 또는 유사한 구성요소를 나타내기 위해 사용된 것이다.

도1은 본 발명에 따른 싱글캐스트 대화형 라디오 시스템의 일실시예의 블록도.

도2a는 본 발명에 따른 오더링 시스템의 일실시예의 블록도.

도2b는 도2a의 오더링 시스템의 일실시예와 관련된 프로세스의 흐름도.

도3은 본 발명에 따른 개인용 라디오 방송국 서버의 일실시예의 블록도.

도4는 본 발명에 따른 이용자 단말기의 일실시예의 블록도.

* 도면의 주요 부분에 대한 부호의 설명

100:싱글캐스트 대화형 라디오 시스템 101:오더링 시스템

111:압축 엔진 112:CES 에디터

201:개인용 라디오 방송국 서버 301:이용자 단말기

312:라디오 수신기/송신기 313:시스템 메모리

314:압축해제 엔진 315:레코딩된 앨러폰 사전

317:제어 프로세서 401:데이터 리포지토리

402:데이터 통신망 403:무선 데이터 통신망

도1을 참조하면, 싱글캐스트(singlecast) 대화형 라디오 시스템(100)의 바람직한 실시예의 일반적인 블록도가 도시되어 있다. 이후 명백해지는 바와 같이, 용어 "싱글캐스트"는 본 발명이 많은 양의 정보를 대화형으로 수신할 뿐만 아니라, 정보 콘텐트 공급자와 시스템 이용자들 사이에 유일하게 설정된 단일 라디오 채널을 통해 정보를 전송하는 능력을 이용자에게 제공한다는 사실로부터 파생된 것이다. 이 시스템(100)은 3개의 주요 구성요소, 즉, 콘텐트 공급자로 하여금 고도로 압축된 음성 콘텐트를 생성할 수 있도록 하기 위한 오더링(authoring) 시스템(101), 이용자 요구를 검출하고 오디오 데이터를 조립하여 그 데이터를 이용자에게 전송하기 위한 개인용 라디오 방송국 서버(PRSS)(201), 및 수개의 프리로드된(preloaded) "음성(voices)" 중 하나를 이용하여 이용자에게 오디오 데이터를 재생시키기 위한 이용자 단말기(301)를 포함한다. 이 시스템 및 그 구성요소의 상기 및 다른 기능에 대해서는 상세하게 후술한다. 또한, 비록 오직 하나의 이용자 단말기(301)만이 도시되어 있지만, 이와 같은 시스템(100)은 다수의 유사한 이용자 단말기를 포함한다는 것을 이해할 것이다. 마찬가지로, 비록 오직 하나의 오더링 시스템(101) 및 하나의 PRSS(201)만이 도1에 도시되어 있지만, 이 시스템(100)은 하나 이상의 오더링 시스템(101)과 하나 이상의 PRSS(201)를 포함할 수 있다는 것을 이해할 것이다.

싱글캐스트 대화형 라디오 시스템(100)은 다음의 방식으로 상호접속되는 것이 바람직하다. 오더링 시스템(101)은 데이터 리포지토리(401)에 접속된다. 데이터리포지토리(401)는 예를 들어, 인터넷 상의 월드 와이드 웹 서버와 같이 기존의 광역 데이터 통신망(402)의 일부인 데이터 네트워크 서버가 될 수 있다. 또한, 비록 도1에는 단지 하나의 데이터 리포지토리(401)가 도시되어 있지만, 이러한 리포지토리의 수에는 제한이 없다는 것을 알 수 있을 것이다. PRSS(201)는 데이터 리포지토리(401)와 동일한 네트워크(402)에 접속된다. 데이터 네트워크(402)는 또한, 각각의 통상적인 데이터 루터(routers)(404)를 통해 무선 데이터 통신망(403)에 접속된다. 이들 루터(404) 사이의 링크는 유선 및/또는 무선이 될 수 있다. 바람직하게는 기존의 네트워크(예, AMPS, GSM, PCS)인 무선 데이터 통신망(403)은 기지국(base station)(405)을 통해 다수의 이용자 단말기(301)와의 통신상태를 유지한다. 명백하게 도시되진 않았지만, 이용자들과 서비스 공급자들 사이에 양방향 데이터 및 음성 통신을 제공하기 위해 다수의 유사한 기지국이 이용될 수 있다.

일반적으로, 싱글캐스트 대화형 라디오 시스템(100)은 디지탈화된 오디오-기반 콘텐트를 가입자들에게 그들의 요구에 따라 경제적으로 또한 사람의 음질로 전달한다. 전술한 바와 같이, 이 시스템은 하나 또는 그 이상의 개인용 라디오 방송국 서버(PRSS)(201), 다수의 이용자 단말기(301) 및 오더링 시스템(101)에 의해 제공되는 콘텐트 오더링 툴을 포함하는 것이 바람직하다. 이 시스템(100)은 또한, 전송 매체로서 기존의 무선 데이터 통신망 중 하나를 이용한다. 콘텐트 오더링 툴은 콘텐트 작성자(예, 뉴스 서비스 공급자)가 고도로 압축된 음성-기반 정보 콘텐트를 생성할 수 있도록 하며, 이러한 콘텐트는 데이터 리포지토리(401)와 같은 데이터 네트워크(예, 인터넷)에 저장되게 된다. PRSS(201)는 개개의 관심있는 토픽과 함께다수의 가입자들의 프로파일을 저장하고, 이들 토픽에 따라 다양한 웹 사이트로부터 콘텐트 자료를 조립하고, 가입자의 요구시 그 콘텐트를 무선 데이터 네트워크(403)를 통해 가입자의 이용자 단말기(301)로 전송한다. 이용자 단말기(301)는 음성-기반 자료를 AM-라디오 음질 또는 그 이상으로 복원한다. 유익하게도, 이와 같은 자료의 전송 비용은 적어도 선택된 압축 알고리즘의 결과로서 기존의 음성 통신 방법에 비해 매우 저렴하다.

이용자 단말기(301)는 컴퓨터-기반 단말기로서, 종래의 라디오를 셀룰러폰 장비와 함께 전기적 및 기계적으로 통합한 것이 바람직하다. 이용자 단말기는 이동형이 바람직하지만, 그러나, 대안으로 예를 들어, 차량이나 또는 고정 위치에 고정된 것과 같은 고정 위치 단말기가 될 수도 있다. 또한, 이용자는 단지 음성 명령을 발생함으로써 핸즈-프리 방식으로 시스템 기능을 제어할 수 있다. 이와 같은 기능으로는, 셀룰러 전화 음성 다이얼링 및 제어, 음성 식별에 근거한 안전한 네트워크 로그-온, 종래의 방송국에의 핸즈-프리 튜닝, 오디오 플레이백 레벨 변경, 및 이들 기능들 사이의 스위칭이 있으며, 이들 기능에 제한되는 것은 아니다. 이러한 핸즈-프리 기능은 이용을 용이하게 할 뿐만 아니라 이용시 안전성을 증가시키는데, 이용자가 자동차를 운전하고 있는 동안 이용자 단말기를 동작시키는 경우에 특히 그렇다. 또한, 각각의 이용자 단말기(301)는 인터넷 또는 다른 데이터 리포지토리로부터 텍스트 자료를 검색하고, 그 자료를 컴퓨터-생성 음성으로서 재생하고, 그것을 유선 네트워크를 포함하여 관련 네트워크를 통해 다른 E-메일 어드레스로 전달한다.

또한, 싱글캐스트 대화형 라디오 시스템(100)의 오더링 시스템(101)은 일반적으로 이식된 운율법에 따른 텍스트-음성(TTS) 변환에 근거한 음성 압축 수단을 포함한다. 효과적인 음성 데이터 속도는, 채택된 TTS 변환 기술, 코딩의 정밀도, 특정 언어에 대한 초당 음소(phonemes)의 평균수, 및 다른 파라미터에 의존한다는 것을 이해할 것이다. 예를 들어, Benbassat의 미국 특허 제4,912,768호(이것은 본 명세서에 참조로서 병합됨)를 보면, 이식된 운율법 파라미터에 의한 음성의 음성학적(phonetic) 표기 또는 앨러폰(allophone) 표기를 위한 최대 데이터 속도는 400 bps 이하가 되는 것으로 여겨지고 있으며, 120 bps에 달할 수도 있다고 기재되어 있다. 벨기에의 Lernout and Hauspie Speech Products에 의해 구현된, 운율법이 이식된 다른 TTS 시스템은 약 300 bps의 데이터 속도를 갖고 있다. 그러나, 상기 및 다른 TTS 기술도 본 발명의 싱글캐스트 대화형 라디오 시스템에 사용될 수 있다.

그럼에도 불구하고, 고도의 TTS 압축에 의해 구현되는 이와 같은 데이터 속도는 무선 데이터 통신 비용에서 주요한 돌파구를 연다. 도1에 도시된 바람직한 시스템과 관련하여 다음의 가정이 적용된다. 그러나, 본 발명은 이들 가정에 제한되는 것은 아니며, 이것은 단지 바람직한 실시예의 소정의 특징을 예시하기 위해 제공된 것이다. (1) 합성 인코딩된 음성(composite encoded speech:CES)의 최대 데이터 속도는 약 400 bps이고; (2) AMPS 아날로그 셀룰러 채널을 통한 통신 데이터 속도는 약 8 Kbps이고; 약 20명의 이용자가 동시에 CDPD 채널을 공유한다. 따라서, 통합 데이터 속도는 이용자의 충돌로 인해 약 19.2 Kbps에서 약 8 Kbps로 떨어진다.

약 8 Kbps의 데이터 속도로 AMPS 아날로그 셀룰러 네트워크와 같은 무선 데이터 네트워크를 통해 데이터를 전달하는 것은 소정의 저장된 데이터의 플랙이백 시간보다 약 20배 정도 더 빠르다. 그러므로, 로컬 호출의 비용이 분당 약 30센트라면, 본 발명에 의한 싱글캐스트 라디오 전송의 비용은 분당 약 1.5센트가 된다. 예를 들어, 1시간 동안의 서비스에 대해 단지 90센트의 비용이 고객에게 부과되며, 이것은 오늘날 인터넷 서비스 공급자(ISP)가 인터넷에 대한 유선 접속에 요금을 청구하는 현재의 가격에 대해 경쟁력이 있다.

CDPD 네트워크를 통해 음성을 전달하는 것은 약 20명의 이용자에게 약 400 bps의 속도로 서비스한다. CDPD 고객에게는 전달되는 정보의 바이트에 대해 요금이 청구되며, 따라서, 한 이용자당 요금도 그에 비례하여 떨어진다. CDPD 요금은 공급자들 사이에 변화가 있지만, 고객에 대한 비용은 동일 데이터량의 전송에 있어 AMPS를 이용하는 비용과 동일하거나 보다 양호해 질 수 있다.

또한, 본 발명의 싱글캐스트 라디오 시스템은 기존의 무선 네트워크의 인프라스트럭쳐의 확장없이, 음성 전달을 위해 기존의 무선 네트워크를 이용할 수 있는 이용자의 수를 실제적으로 배가시킨다. 1990년대의 아날로그 셀룰러 시스템은 60도 부채꼴 안테나를 사용하고 있으며, 여기서, 각각의 섹터는 약 30개의 채널을 서비스할 수 있다. 약 1.5개 또는 약 5%의 여분 용량이면, 안테나의 각 방향으로 본 발명의 싱글캐스트 라디오 시스템의 추가적인 30명의 이용자에게 서비스하기에 충분하다. 통상적으로, 네트워크는 이와 같은 증가를 쉽게 커버하도록 여분 용량을 위해 설계된다.

결과적으로, 본 발명은 유익하게도, 유선 통신에 필적하는 가격으로 또한 종래의 라디오에 필적하는 음질로 많은 양의 정보를 라디오 청취자들에게 무선으로 전달할 수 있는 시스템을 제공한다.

도1을 참조한 다음의 논의에서는 시스템(100)의 전반적인 기능에 대해 설명하게 되는데, 나머지 도면에 관해 이후에 이루어지는 논의에서는, 이 시스템(100)의 3개의 주요 구성요소, 즉, 오더링 시스템, PRSS 및 이용자 단말기에 대해 보다 상세하게 설명하게 된다.

도1은 나레이터의 음성 및 나레이터가 읽은 텍스트가 오더링 시스템(101)에 공급되는 것을 보여주고 있다. 특히, 음성 및 텍스트는 압축 엔진(111)으로 제공되며, 여기서, 음성 및 텍스트는 2개의 상호의존 데이터 스트림으로 변환된다. 나레이터는 정보/뉴스 서비스 공급자가 고용한 사람이 될 수 있으며, 예를 들어, 최종 이용자가 가입한 또는 그들이 원하는 정보 또는 뉴스와 같은 특정 데이터의 텍스트 표기를 읽는 사람이다. 제1 스트림은 압축 엔진(111)의 일부로서 제공되는 TTS 시스템(예를 들어, 이후 설명되는 바와 같은, 또는 Benbassat TTS 시스템 및 Lernout and Hauspie TTS 시스템과 같은)에 의해 텍스트(113)로부터 생성되는 음소(phonemes)의 스트링(115)이다. 제2 데이터 스트림(116)은 피치(pitch), 주파수, 진폭 및 지속기간과 같은, 나레이터 음성의 적어도 하나의 물리적인 또는 운율학적인 변화(variance) 파라미터를 표현한다. 운율학적 변화 데이터는 압축 엔진(111)에서 수행되는, 특정 데이터의 나레이터가 말한 버전과 TTS-기반 음성 합성기에 의해 생성된 합성 음성의 스펙트럼 비교로부터 파생된다. 스펙트럼 비교의결과는 이후 설명되는 바와 같이, 교정하는(corrective) 피드백을 통해 데이터의 TTS 음성학적 표기를 조정하기 위해 이용된다. 그 결과로서 조정된 TTS의 운율법 파라미터와 함께 음성학적으로 인코딩된 데이터는 합성 인코딩 음성(CES) 시퀀스(117)를 형성하며, 이 시퀀스는 CES 에디터(112)로 제공된다. 나레이터는 CES 스트림을 볼 수 있으며, CES 에디터(112)를 이용하여 그 파라미터를 정정할 수도 있다. CES 시퀀스를 편집하기 위한 에디터의 한 예는 Collier 등에 의해 Philips J. Rev. 47(1992), pp. 15-34에 게재된 "Speech Synthesis Today and Tomorrow"란 제목의 논문에 기재되어 있다. 오더링 시스템(101) 및 CES 인코딩 시퀀스에 관한 보다 특정한 세부사항에 대해서는 도2a 및 도2b와 관련하여 후술하게 된다.

인코딩된 음성 파일은 예를 들어, HTML 문서와 같은 소정의 구조를 가진 데이터 파일로서 데이터 리포지토리(401)에 저장된다. 이와 같은 문서의 제한없는 콜렉션(collection)이 콘텐트 공급자에 의해 만들어져 저장될 수 있다. 오더링 시스템에 의해 만들어 질 수 있는 다양한 형태의 정보 및 데이터는 제한이 없다는 것을 이해할 것이다. 관련 기술에 통상의 지식을 가진자는 여기서 제공되는 사상이 주어지면 본 발명의 오더링 시스템을 사용하기 위한 많은 애플리케이션을 이해하게 될 것이다.

다음에, 이용자들은 그들의 이용자 단말기(301)로부터의 호출을 PRSS(201)로 보냄으로써 CES-기반 문서를 요구한다. PRSS는 이후 설명되는 바와 같이, 관심있는 토픽의 개별 리스트를 포함하는 이용자 프로파일(212)을 유지관리하고 있다. 바람직하게는, PRSS 디렉토리 서비스를 통한 정보 검색의 2가지 구별되는 방법이 있다. 용어 "디렉토리 서비스"는 PRSS를 통해 이용자 및 이용자에 관한 엔트리를 찾기 위해 사용되는 메카니즘을 말한다(즉, 전화회사의 소위 "화이트 페이지"와 유사함). 서버-기반 환경에 이용되는 수개의 공지된 디렉토리 서비스 구성이 있다. 하나의 방법은 관심있는 모든 토픽에 관한 정보를 조립하는 것에 근거하고 있다. 모든 개개의 가입자는 첫 번째 셋업 통신 세션 동안에 이러한 프로파일을 설정할 수 있으며, 후속 세션 동안에 리스트를 수정할 수 있다. 후속 세션이 개시되면, 이용자는 그 이용자의 토픽 리스트에 열거된 모든 정보를 수신하게 되는데, 그 정보는 이용자가 선택한 관심있는 토픽에 관한 것이다. 두 번째 방법으로, 이용자는 일시적으로 설정된 검색 기준에 따라 모든 CES 문서 사이를 브라우징할 수 있다. 이들 방법의 조합이 이용될 수도 있다. 예를 들어, 이용자는 등록된 관심있는 토픽에 관한 추가적인 정보를 요구할 수 있으며, 따라서, 브라우징 프로세스를 초기화할 수 있다. PRSS를 통한 전술한 검색 및 브라우징 방법은 인터넷을 검색하고 브라우징하는 종래의 방법과 유사한 방식으로 구현될 수 있다. 예를 들어, "푸시 기술(push technology)"을 이용하면, 이용자는 프로파일을 작성하고, 이전에 설정된 검색 기준에 따라 그 프로파일에서 식별되는 토픽에 관한 정보를 수신할 수 있는 것으로 알려져 있다. 그러나, 또한, 인터넷 이용자는 예를 들어, 온-라인 세션 동안에 이용자가 특정 검색어(예, 날씨)를 입력하는 것과 같이, 임시적인 검색 기준을 이용하여 인터넷을 검색 또는 브라우징할 수도 있다는 것이 알려져 있다. PRSS는 이용자 단말기에 플레이백하기 위한 CES-기반 파일을 자동 또는 수동적인 방식으로 얻기 위한 이러한 검색 및 브라우징 방법을 지원한다.

PRSS(201)는 또한, CES-기반 파일의 암호화(encryption)를 제공하기 위한 인크립터(213)를 포함하는 것이 바람직하다. 이러한 방식으로, 단지 등록된 이용자들만이 적절한 암호해독 기능(즉, 도1의 디크립터(decryptor) 310)을 가진 이용자 단말기(301)를 이용하여 CES-기반 파일을 청취할 수 있다. 어떠한 종래의 암호법도 이용될 수 있다.

또한, PRSS는 이후 설명되는 바와 같이, 어떤 정보가 활용가능하게 될 때 그 정보를 프리펫치하고, 플레이백 시간의 짧은 일부가 될 수 있는 퀵 버스트(quick burst)로 로그-온할 때 이용자 단말기로 그 정보를 전달할 수 있도록 허용하는 시스템 캐시를 포함하는 것이 바람직하다. 이러한 접근방법은 전송 시간이 짧기 때문에 무선 전달을 매우 효율적으로 만들며, 데드 스폿(dead spots) 및 페이드-아웃(fade-outs)을 만날 가능성이 적다. PRSS(201)에 대한 보다 특정한 세부사항은 도3과 관련하여 후술되게 된다.

이용자는 그 이용자 단말기(301) 내의 제어 프로세서(317)로 로그-온 명령을 발생함으로써 통신 세션을 개시한다. 이용자 명령은 차량에 설치된 단말기에 가장 적절한 방법인 음성 명령이 될 수 있으며, 또는 이용자는 이용자 단말기 상의 적절한 제어키(도시 안됨)를 누를 수도 있다. 이용자 단말기의 프로세서(317)는 라디오 수신기/송신기(312)를 이용하여 무선 데이터 네트워크(403)를 통해 로그-온 요구를 PRSS(201)로 전송한다. 요구 데이터 패킷은 그 결과로서 가장가까운 이동 데이터 기지국(405)에 의해 등록되며, 예를 들어, AMPS, GSM, PCS 등과 같은 무선 데이터네트워크(403) 및 예를 들어, 인터넷과 같은 유선 통신망(402)을 통해 PRSS(201)로 루팅된다. PRSS(201)는 요구 데이터 패킷의 일부인 이용자의 네트워크 어드레스를 판단하고, 이용자 인증(authentication) 및 권한부여(authorization) 프로세스를 구현하고, 적절한 CES-기반 파일을 유선 네트워크(402) 및 무선 네트워크(403)를 통해 이용자 단말기(301)로 전송한다.

사용되는 특정 인증 및 권한부여 프로세스는 본 발명에 임계적인 것은 아니며, 결과적으로, 어떠한 적절한 프로세스도 구현될 수 있다. 예를 들어, 이용자 단말기는 전술한 바와 같이 그 단말기에 의해 판독되어 PRSS(201)로 전송되는 이용자 명세 정보(예, 이용자명, 이용자 ID, 이용자 패스워드 등)를 포함하는 스마트카드를 수용하도록 개조될 수 있다. 또한, 예를 들어, 이용자 ID 정보는 시스템 메모리에 저장된 그 자신의 유일한 단말기 ID 번호(이것은 자동적으로 전송 신호에 부가됨)를 각각의 이용자 단말기에 부여함으로써, 각각의 전송 신호로 영구적으로 코딩될 수 있다. 또한, 예를 들어, 이용자가 패스워드를 발성할 수 있도록 하는 음성 인식이 사용될 수 있으며, 이 발성된 패스워드는 PRSS에서 디코딩되어, 이용자가 말한 발성음(spoken utterances)의 이전에 저장된 음향 샘플과 비교가 이루어진다. 물론, 이러한 인증 및 권한부여 방법은 단지 예에 불과하며, 본 발명은 이것에 제한되지 않는다.

이용자 단말기(301)는 안테나(311) 및 라디오 수신기/송신기(312)를 통해 CES 파일을 수신하고, 암호화된 CES 파일을 디크립터(310)를 통해 해독한다. 다음에, 이용자 단말기(301)는 수신된 CES 파일을 시스템 메모리(313)에 저장한다. 제어 프로세서(317) 및 시스템 메모리(313)에 접속된 압축해제 엔진(314)은 이용자에 의해 개별적으로 선택될 수 있는 하나 또는 그 이상의 레코딩된 앨러폰 사전(dictionary)(315)을 이용하여 음성을 합성한다. 앨러폰(allophones)은 서라운딩 음성 사운드에 근거한 음소(phonemes)의 변형이라는 것을 이해할 것이다. 비록 텍스트-음성 합성에 앨러폰이 사용되는 것이 바람직하지만, 다른 형태의 음절 또는 음소 단위가 사용될 수도 있다. 이러한 수개의 사전은 이용자 단말기의 판독 전용 메모리(도시 안됨)로 프리로드(preloaded)될 수 있다. 사전(315)은 음성 합성 프로세스에 사용된다. 즉, 이들 사전에 레코딩된 앨러폰은 바람직한 나레이터 음성(316)을 각각 정의하며, 그 중 하나가 이용자에 의해 선택될 수 있다. 다시 말하면, 이용자는 음성 명령을 통해, 그가 요구된 압축해제된 정보를 나레이트하길 원하는 음성의 형태를 미리선택할 수 있으며, 그러한 선택에 따라, 적절한 앨러폰 사전이 정보의 음성 합성에 이용된다. 프로세서(317)를 제어하기 위해 바람직하게는 구두로 대응하는 명령을 발생함으로써, 이용자는 상호교환가능하게 이용될 수개의 사전 중에서 선택할 수 있을 뿐만 아니라, 플레이백 속도, 레벨, 반복, 고속 전진, 다음 파일로의 스킵, 및 다른 유사한 플레이백 관련 기능을 제어할 수 있으며, 이에 대해서는 보다 상세하게 후술되게 된다.

추가적인 특징으로서, MIDI(Musical Instrument Digital Interface) 파일로서 압축되어 PRSS에 의해 억세스되는 데이터 리포지토리에 저장된 음악(music)도 역시, CES 데이터와 혼합될 수 있으며, 이용자 단말기(301)에 의해 압축해제되어 재생될 수 있다. 또한, 이용자 단말기(301)는 정규 방송 신호(예, 공중 방송 뮤직방송국)을 수신할 수 있으며, 대화형 오디오 데이터가 재생되고있는 동안에 그것을 오디오 배경음악으로서 이용할 수 있다. 이용자 단말기(301)에 대한 보다 특정한 세부사항은 도4를 참조하여 후술되게 된다.

도2a 및 도2b를 참조하면, TTS 및 운율법에 기반하는 오더링 시스템(101)의 바람직한 실시예의 블록도 및 흐름도가 각각 도시되어 있다. 텍스트-음성 변환은 오퍼레이터 보조 유무에 따라 2가지 방법으로 이루어진다는 것을 이해할 것이다. 음성 메일 애플리케이션이나 다우 죤스 뉴스 브리프(Dow Johnes News Briefs)와 같은 적절한 애플리케이션에서, PROSE, DEC, Infovox, 및 AT&T Network Systems and Conversant Systems와 같은 기존의 텍스트-음성(TTS) 시스템은 제한받지 않는 텍스트-음성 변환을 제공한다. 이와 같은 합성 음성은 매우 지능적이지만, 때때로 일어나는 잘못된 발음, 즉, 특정 "머신 액센트"에 의해 훼손될 있으며, 남성의 음성 및 중성 액센트로 가장 잘 표현된다. 본 발명의 싱글캐스트 대화형 라디오 시스템은 원래의 음성이 활용불가능한 E-메일과 같은 수직적인(vertical) 애플리케이션을 위해 보통의 TTS 시스템을 이용한다. 이 경우에, 불필요한 정보(예, 메시지가 전달된 게이트웨이의 리스트 또는 인사말)를 제거하고, 텍스트의 우선순위를 정하고, 명칭, 주제 및 본질을 추출하는 소프트웨어 필터가 제공될 필요가 있다. 여기서, "본질(essence)"이란 E-메일 메시지의 실질적인 본체를 말한다.

그러나, 예를 들어, 광고, 뉴스 서비스, 전자 서적, 교육 자료 등과 같은, 많은 애플리케이션에서, 감동적인 내용이 없는 단조로운 제작은 잠재적인 이용자들에게 반대로 작용할 수도 있다. 이용자들은 메시지를 오해할 수도 있으며, 또는 그메시지를 이해하는데 요구되는 주의력 수준을 잃어버릴 수도 있다.

본 발명의 싱글캐스트 대화형 라디오 시스템은 사람이 저술한 TTS 시스템을 제공하며, 이것은 라이브 라디오 방송 음질과 상당히 근접한 텍스트-음성 변환 음질을 실현한다. 이 시스템은 플레이백 음성의 성별, 년령 및 액센트 특징을 변화시키고 혼합하는 것을 허용한다. 이것은 또한, 원래의 화자의 운율법에 매우 근접하는 음성 전달을 실현한다. 샘플링된 오디오를 전송하는 것에 의해서도 유사한 음질이 얻어질 수 있지만, 전술한 바와 같이, 샘플링되고 고도로 압축된 오디오의 전송에 요구되는 대역폭은 현재의 셀룰러 무선 통신 기술에 있어서는 너무 크다.

본 발명의 오더링 시스템은 억양을 교정하고, 오디오 전달에 감정적인 내용을 부가한다. 오더링 시스템은 텍스트를 음독하는 오퍼레이터(나레이터)에 의해 발생되는 오디오를 그와 동일한 텍스트로부터 인위적으로 합성된 음성과 비교하는 음성 처리 시스템을 구현한다. 이러한 비교 결과는 텍스트의 음성학적 표기를 개선하기 위해 이용된다. 다음에, 운율학적 정보는 텍스트 데이터의 음성학적 표기와 함께 고객의 단말기로 전송되며, 여기서, 이것은 최종적인 오디오 출력에 필요한 "인간성(humanity)"을 부가하는 작용을 한다.

사람들은 개개의 음소에 "운율법"을 부가함으로써 음성의 이해력을 향상시킨다. 용어 "운율법"은 음성의 기본적인 사운드의 가변적인 피치, 세기 및 지속기간을 말한다. 운율법은 2개의 부분, 즉, 피치 변화에 의해 특징지워지는 "억양" 및 지속기간과 진폭에서의 사운드 변화의 함수가 되는 "리듬"으로 이루어진 것으로 특징지워질 수 있다. 그러므로, 만일 운율법 변수가 자연적인 음성으로부터 추출되어텍스트의 음성학적 표기와 함께 전송되면, 음성 합성 시스템은 원래의 음성과 매우 가까운 억양 및 리듬을 가진 음성을 생성할 수 있다.

그러므로, 오더링 시스템의 한 목적은 개개의 음성에 근거하여 운율법 파라미터를 생성하고, 이용자 단말기에서의 음성 합성 동안에 그것을 이용하는 것이다. 오더링 시스템은 일반적으로 3가지 프로세스를 포함한다. 첫 번째로, 오더링 시스템은 메시지의 언어학적 구조에 따라 운율학적 특징을 생성하고, 합성 음성을 생성하기 위해 그것을 이용한다. 두 번째로, 오더링 시스템은 합성 음성을 실제로 발음된(자연) 음성과 비교하여, 운율학적 변수에 대한 교정하는 피드백을 판단한다. 세 번째로, 오더링 시스템은 원래의 텍스트로부터 파생된 음소와 운율학적 특징이 최종적으로 조합된 것을 이용자 단말기에 의해 저장, 전송 및 합성될 준비가 된 시퀀스로 생성한다.

도2a를 참조하면, 나레이터(120)는 메시지(예, 뉴스)를 말로 표현한 버전(121)을 오더링 시스템(101)으로 전달한다. 이 음성은 마이크로폰(107)에 의해 전기 신호로 변환되며, 이 전기 신호는 음성 분석기(speech analyzer)(122)에 의해 디지탈화되어 분석된다. 음성 분석기(122)는 통상적인 퓨리에(Fourier) 변환 또는 선형 예측 분석 방법을 이용하여 그 음성의 음성 스펙트럼 파라미터(133)를 제공한다. 바람직하게도, 음성 분석기(122)의 출력 음성 신호는 나레이터 음성에 관해 피치 등고선(pitch contour), 지속기간 및 소리의 세기와 같은 정보를 전달한다. 예를 들어, Collier 등의 논문에 기재된 피치 등고선 패턴과 같은, 어떠한 형태의 피치 등고선 패턴도 생성될 수 있다.

메시지의 텍스트-음성(TTS)의 음성학적 표기(음소)를 형성하기 위해 메시지의 정확한 텍스트 버전(125)이 운율법 분석기(126)에 의해 음소로 변환된다. 또한, 이 운율법 분석기(126)를 통해 운율법 파라미터도 발생된다. 이들 파라미터는 후술하는 바와 같이 교정하는 피드백 동안에 조정된다. 메시지의 텍스트 버전은 다양한 방식으로 제공될 수 있다는 것을 이해할 것이다. 도시된 바와 같이, 예를 들어, 메시지의 텍스트 버전은 나레이터의 컴퓨터(105)로부터 표준 텍스트 파일로 직접 판독된다. 나레이터의 컴퓨터는 독립형 개인용 컴퓨터나 또는 워크스테이션이 될 수도 있으며, 또는 대안으로, 오더링 시스템의 다른 기능 또는 특징을 수행하기 위해 사용되는 컴퓨터와 통합될 수도 있다.

다음으로, 앨러폰 콘텍스트 테이블 변환기(128)는 운율법 분석기(126)의 출력 데이터(음소)를 공지의 기술에 따라 앨러폰으로 변환한다. 이와 같은 공지의 변환 기술은 예를 들어, Malsheen 등의 미국 특허 제4,979,216호에 기재된 바와 같이 콘텍스트 의존 앨러폰을 이용하여 특정 텍스트 스트링을 그에 대응하는 자음 및 모음 음소의 스트링으로 변환하기 위한 텍스트-음성 변환 시스템을 포함할 수 있다. 다음에, 앨러폰 콘텍스트 테이블 변환기(128)는 수개의 레코딩된 앨러폰 사전(129,130)(즉, 사전 A,B)에 대한 레퍼런스를 제공하며, 여기서, 이전에 레코딩된 앨러폰은 앨러폰 콘텍스트 테이블 변환기(128)에 의해 출력된 앨러폰과 상기 앨러폰을 정합시킴으로써 선택된다. 미리 레코딩된 앨러폰은 후술하는 바와 같이, 나레이터에 의해 선택된 사전 기억장치에 의해 음성 합성기(124)로 출력된다. 음성 합성의 형태에 따라, 앨러폰은 합성기로 제공되기 이전에 소정의파라미터적인(parametric) 포맷으로 변환될 필요가 있을 수도 있다. 이러한 경우가 도2b에 도시되어 있다.

오더링 시스템의 개시 절차 동안에, 나레이터는 나레이터 제어 라인(134) 상에 제공되는 스위치 제어 신호를 발생한다. 이 스위치 제어 신호는 스위치(131)를 제어한다. 이 스위치 제어 신호는 나레이터의 컴퓨터(105)에 접속된 입력장치(예, 키보드, 마우스 등)에 의해 수신되는 나레이터의 입력 명령에 응답하여 나레이터의 컴퓨터(105)에 의해 발생된다. 나레이터는 그에게 이용가능한 다양한 옵션(예, 앨러폰 사전의 선택) 사이에서 선택하기 위해 그의 컴퓨터 디스플레이 상에 디스플레이되는 옵션 메뉴를 가질 수도 있다.

스위치(131)는 레코딩된 앨러폰 사전 A(129)와 B(130) 중에서 어느 것이 음성 합성기(124)로 출력되는지 판단한다. 이용자 단말기에서 요구된 메시지를 나레이트하기 위해 바람직한 "음성"을 선택할 수도 있는 이용자와 마찬가지로, 나레이터(120)도 역시 그 나레이터가 헤드셋(105)을 통해 합성된 음성을 청취하게 되는 음성을 선택할 수 있다. 대부분의 경우에, 사전(예, 사전 A)은 콘텐트 나레이터의 미리 레코딩된 음성(레코딩된 앨러폰)에 근거하여 선택된다. 그러나, 만일 나레이터가 다른 사전(사전 B)을 이용하고 싶어한다면, 그 결과로서 생성되는 합성된 음성은 나레이터의 음성과 다르게 되지만, 예를 들어, 말투를 흉내는 것처럼 그 나레이터의 운율학적 특징을 갖게 된다. 예를 들어, 남성인 나레이터가 음성 제공을 위해 여성의 음성을 이용하길 원할 수도 있다. 따라서, 나레이터 제어 라인(134)을 통해 제공되는 스위치 제어 신호는 다른 사전이 아닌 소정의 앨러폰 사전을 이용하길 원하는 나레이터의 희망을 나타내며, 이 제어 신호에 응답하여 스위치는 원하는 사전을 음성 합성기(124)와 선택적으로 접속한다.

음성 합성기(124)는 선택된 앨러폰 사전(129,130)에 의해 출력되는 신호의 합성 버전을 생성한다. 음성 합성기(124)의 기능을 수행하기 위해 어떤 공지된 형태의 음성 코더/디코더(codec)도 사용될 수 있다. 메시지의 합성 버전(합성 음성 신호)은 다음에 변환기/증폭기(136)로 제공되며, 이것은 음성의 합성 버전을 아날로그 형태로 변환하여, 그것을 헤드셋(108)을 통해 나레이터(120)에게 재생해준다. 또한, 음성 합성기(124)에 의해 출력되는 메시지의 합성 버전은 스펙트럼 비교기(123)에도 제공된다. 스펙트럼 비교기(123)는 음성 분석기(122)에 의해 출력되는 음성의 "말한(spoken)" 버전(133)의 스펙트럼 파라미터를 음성 합성기(124)에 의해 출력되는 메시지의 "합성" 버전과 비교하고, "말한" 버전과 "합성" 버전의 시간 프레임 사이의 스펙트럼 간격을 계산한다. 결과적으로, 운율법 변화 신호(137)가 계산되어 CES 에디터(112)로 제공된다. 이 운율법 변화 신호(137)는 분석기(122)에 의해 추출된 운율법 파라미터와 예를 들어, 피치, 소리의 세기, 지속기간과 같은 합성된 음성과 관련된 파라미터 사이의 간격 척도를 표현한다.

스펙트럼 비교기(123)로부터의 운율법 변화 신호(137)와 함께, 운율법 분석기(126)로부터의 음소(TTS 음성학적 표기)가 CES 에디터(112)의 입력으로서 작용한다. CES 에디터(112)는 이들 모든 데이터 신호를 CES 신호(117)로 포맷팅한다. 또한, 나레이터 제어 라인(134)은 나레이터에게 명령을 발생하고 그것에 의해 원하는 대로 CES 시퀀스를 편집하기 위한 능력을 제공하기 위해 에디터(112)에 접속된다.만일 CES 에디터가 나레이터의 컴퓨터(105) 상에 구현되면, 그의 컴퓨터 디스플레이 스크린은 필요한 편집 환경을 제공한다. CES 신호는 Collier 등의 논문에 기재된 EPT(enriched phonetic transcription)와 유사한 형태로 이루어질 수 있다는 것을 이해할 것이다. 그러나, 이 신호의 정확한 포맷은 본 발명에 임계적인 것이 아니며, 중요한 것은 신호의 내용이다(즉, TTS 음성학적 표기 및 운율법 파라미터). 전술한 바와 같이, CES 데이터(117)는 다음에 하나 또는 그 이상의 데이터 리포지토리(401)(도1)에 저장된다.

운율법 변화 신호는 나레이터가 원하는 경우에 그 정보를 보고 편집할 수 있도록 CES 에디터(112)로 제공된다. 그러나, 운율법 변화 신호는 계속해서 교정 피드백 신호로서 운율법 분석기(126)로 제공된다. 이 운율법 분석기(126)는 음성학적 표기를 더욱 정확하게 조정하기 위해 그 정보를 이용한다. 다음에는, 나레이터에 의해 제공되는 정보의 "말한" 버전을 보다 근접하게 표현하는 운율법 파라미터를 포함하는 포네틱 시퀀스를 생성하기 위해 합성 및 비교 프로세스가 또다시 수행된다. 이러한 교정 피드백 프로세스는 나레이터가 정확성에 만족하거나 정확성의 소정의 임계치가 충족될 때까지 반복될 수 있다.

또한, 예를 들어, MIDI 데이터와 같은 보조 데이터가 CES 트랜스크립션(117)에 포함될 수 있다. 이 데이터의 소스는 변화될 수 있다. 그러나, 도시된 바와 같이, 이 데이터는 표준 MIDI 파일로서 나레이터의 컴퓨터(105)에 저장되고 그로부터 판독된다. MIDI 데이터는 MIDI 플레이어(135)에 의해 오디오로 변환되어, 나레이터의 헤드셋(108)을 통해 나레이터에게 피드백되는 "합성" 음성 버전으로 음악적인배경으로서 재생될 수 있다. "합성" 음성 버전과 동시에 또는 그와 독립적으로 음악도 역시 나레이터에게 재생될 수 있다.

전술한 바와 같이, 나레이터(120)는 (예를 들어, 스위치(131)를 제어하기 위한 제어 신호가 발생되는 것과 유사한 방식으로) 제어 명령을 라인(134)을 통해 CES 에디터(112)로 발생함으로써 CES 데이터(117)를 편집할 수 있다. 편집 기능은 스트레싱 기능(stressing), 특정 워드 또는 센텐스를 가속(speed-up)시키거나 감속(slow-down)시키는 기능, 다른 나레이터에 의해 생성된 센텐스를 추가하는 기능, 수개의 음성의 다이얼로그를 준비하는 기능을 포함할 수 있는데, 그것에 제한되는 것은 아니다.

저장될 데이터의 음성학적 표기 및 운율법 파라미터와 관련하여 나레이터의 컴퓨터 단말기(이용자 인터페이스)에서 그에게 제공될 수 있는 정보의 형태는 제한이 없다는 것을 이해할 것이다. 즉, 음성 분석기(122) 및 운율법 분석기(126)는 그 데이터로부터 다양한 다른 형태의 정보를 추출하여, 그것을 CES 에디터(112)로 제공할 수 있다. 이 기술분야에 통상의 지식을 가진자는 이와 같은 다양한 정보 형태를 이해할 것이다. 예를 들어, 위에서 언급된 Collier 등의 논문은 분석된 음성으로부터 추출된 정보 형태의 예를 개시하고 있다. 이 정보는 그리드(grid) 포맷으로 제공되며, 센텐스의 범위 및 형태, 억양 구절의 범위, 각 워드의 음성의 부분들(parts), 센텐스의 액센트, 각 워드의 형태학적(morphological) 구조, 각 워드의 음절 구조 및 스트레스 패턴, 음소, 분절의 지속기간(segmental durations)(밀리초), 및 관련 피치 이동 파라미터와 같은 정보를 제공한다.

본 발명의 CES 에디터는 나레이터에게 그에게 제공되는 전보를 편집하기 위한 많은 기능을 제공한다. 에디터는 나레이터로 하여금 운율법 분석 프로세스 및 스펙트럼 비교 프로세스의 결과를 알기 위해 정보(예, 그리드)를 검사할 수 있도록 허용한다. 즉, 나레이터는 그 정보의 소정의 입력 엘리먼트(elements)를 삽입, 삭제, 또는 수정할 수 있으며, 그가 시스템에 의해 발생된 결과에 만족하는지 여부에 관계없이 그 자신의 입력 엘리먼트를 제공할 수도 있다. 비록 편집은 타이핑하여 입력된 명령을 이용하여 구현될 수도 있지만, 에디터는 편집 기능을 제어하기 위해 그래픽스-지향 툴을 이용하여 전술한 기능 및 다른 기능을 나레이터에게 제공하는 것이 바람직하다. 이 기술분야에 통상의 지식을 가진자는 예를 들어, Collier 등의 논문에 기재된 것이 될 수도 있는, 그러한 에디터가 제공할 수 있는 다른 기능 및 특징을 이해할 것이다. 또한, CES 에디터를 제외하고 도2a에 도시된 구성요소들은 일반적으로 도1에 도시된 압축 엔진(111)을 구성한다.

이제 도2b를 참조하면, 도2a의 오더링 시스템(101)의 구성요소의 일부에 의해 수행되는 특정 프로세스를 상술하는 흐름도가 도시되어 있다. ASCII 코드로 표현된 인입 텍스트 신호(125)는 운율법 분석 섹션(즉, 도2a의 운율법 분석기(126)에 의해 수행됨)에 공급된다. 텍스트는 공통 약어(common abbreviations), 수열(number sequences), 두문자어(acronyms) 등을 확장하기 위해 정규화된다(normalized)(블록 150). 이러한 확장은 금융, 전자, 주식시장 등과 같은 특정 부류의 정보에 근거하여 이루어지지만, 그러나, 이것은 나중에 원래의 음성 소스에 근거하여 프로세스 중에 교정될 수 있다.

텍스트는 다음에, 동일한 스펠링을 가진 상이한 워드가 적절하게 발음될 수 있도록 각 워드에 대한 음성의 일부분들을 식별하기 위해 문장론적으로 구문분석된다(syntactically parsed)(블록 151). 구문분석하는 단계는 또한, 예비 억양 패턴을 지정하는데 필요한 프레이즈 포커스(phrase focus)를 얻기 위한 문법적 구조를 정의한다. 또한, 텍스트의 프레이즈 하이어라키를 설정하기 위해 구문분석 동안에 의미론적 분석(semantic analysis)도 역시 수행되는데, 그 이유는 텍스트를 정확하게 구문분석하기 위해서는 일정한 양의 텍스트에 대한 이해가 필요하기 때문이다.

다음으로, 종래의 접사-제거(affix-stripping) 알고리즘과 함께 머프(morphs)(어근:word roots) 사전(153)을 이용하여 워드에 대한 형태학적 분석이 수행된다(블록 152). 이 머프 발음은 머프 사전에 저장되며, 어근과 접두사 및 접미사 분석에 근거하여, 전체적인 워드 발음이 정의된다(블록 154에서 "예"). 머프는 외국어, 일반적인 명칭 및 애플리케이션-특유의 예외를 커버하도록 기본 사전 및 수개의 추가적인 사전에 저장될 수 있다. 만일 접사-제거 알고리즘이 실패하면, 워드 또는 약어는 사전에서 커버되지 않으며, 리듀스드-투-머프(reduced-to-morph) 워드는 리스트되지 않으며(블록 154에서 "아니오"), 그 발음 및 스트레스 할당을 추측하기 위해 레터-투-사운드(letter-to-sounds) 규칙이 적용된다(블록 155).

다음에, 운율법 합성 단계(블록 156)는 패러그래프 내의 센텐스와 아이디어 사이의 관계를 정량화(quantify)하기 위해 운율법 규칙을 이용한다. 이러한 분석 형태는 워드 또는 프레이즈에 운율학적 특징을 할당하는데 도움을 주며, 또한 넓은 콘텐트 내의 아이디어를 명백하게 하는데 도움을 준다. 이 단계는 포즈(pause)가삽입되어야 하는 위치와 엠퍼시스(emphases)가 삽입 또는 제거되어야 하는 위치를 식별한다. 이 단계에서는 또한, CES 에디터로부터의 교정 피드백이 구현된다. 즉, 텍스트 메시지의 음성학적 표기의 정확성을 향상시키기 위해 운율법 변화 정보가 이용된다.

이 시점에서, 텍스트-음성 변환 프로세스는 음소, 운율법 및 음절 정보를 표현하는 일련의 음성학적 및 운율학적 심볼을 생성한다. 이러한 포네틱 트랜스크립션은 임의적인 텍스트-음성 변환 생성의 일반적인 경우처럼, 클라이언트로 전송할 준비가 된 것으로 간주된다. 그러나, 음성 사운드를 보다 자연스럽게 만들기 위해, 포네틱 트랜스크립션에 음성 인격화(personalizing) 프로세스를 수행한다.

인격화 프로세스는 (도2a의 음성 합성기(124), 앨러폰 텍스트 테이블 변환기(128) 및 사전(129,130)에 따라) 음성 합성 프로세스에 의한 음성의 생성과 함께 시작된다. 음성 합성 프로세스의 구축 블록(building blocks)은 미리 레코딩된 앨러폰 사전(사전 129,130)에 저장된다. 각각의 사전은 일반적으로, 한 사람의 피실험자에 의해 생성되는 음절 단위의 파라미터적으로 분석된 버전(예, 앨러폰)의 완비된 셋트(exhaustive set)(영어에 있어 약 10,000개)를 보유하고 있다. 도2a에 관해 전술한 바와 같이, 변환기(128)로부터의 앨러폰은 사전으로부터 대응하는 앨러폰을 검색하기 위해 이용된다(단계 157). 선택된 앨러폰은 다음에 연결, 즉 조합된다(단계 159). 선형 예측 코딩(LPC)이 사용되는 것이 바람직하기 때문에, 앨러폰은 도시된 바와 같이, 예측자 파라미터 계수(predictor parametric coefficients)로 변환되어야 한다(단계 160). 다음에는, LPC 합성이 수행된다(단계 161). LPC 대신에, 다른 방법, 예를 들어, MPLP(Multipulse-Excited Linear Prediction)나 또는 CELP(Code Excited Linear Prediction)도 사용될 수 있다. 그럼에도 불구하고, 파라미터 표기는 후속 조작을 용이하게 하기 위해 그들의 운율학적 내용에 관해 정규화된다. LPC 합성 단계의 출력은 합성 음성을 표현한다. 음성 합성을 위한 유사한 종래의 프로세스의 예는 캠브릿지 대학 출판부(1985)에 의해 발행된 R. Linggard의 "Electronic Synthesis of Speech"란 논문(97-105 페이지)에서 찾아 볼 수 있다.

또한, (도2a의 스펙트럼 비교기(123)에 의해 수행되는) 스펙트럼 비교 프로세스는 (도2a의 음성 분석기(122)로부터의) 원래의 나레이터-제공 음성과 합성 음성 모두의 스펙트럼 및 타이밍 파라미터를 분석하는 작용을 한다. 스펙트럼 비교 프로세스는 피치 패턴에서의 스트레스 변화(블록 162), 소리의 세기(블록 163) 및 사운드 및 포즈의 지속기간(블록 164)을 비교하는 것이 바람직하다. 비록 화자가 앨러폰 사전 컨트리뷰터(contributor)와 다를 수도 있지만, 변화 데이터가 측정될 수 있으며, 전술한 바와 같이, 운율법 합성 프로세스(블록 156)에 의해 생성되는 운율법 정보를 교정하기 위해 이용될 수 있다. 변화 데이터는 또한, 음성 합성기(124)에 의한 음성 합성 프로세스를 동기시키기 위해 이용될 수 있다.

원래의 음성과 합성된 음성 에러가 최소화되도록 스펙트럼 비교 프로세스와 운율법 합성 프로세스 사이에서의 교정 피드백에 의한 수번의 반복 이후에, 합성 인코딩 시퀀스 에디터(도2a의 CES 에디터 112)는 운율학적으로 조정된 포네틱 트랜스크립션 데이터를 수신한다(블록 165). 전술한 바와 같이, CES 편집 프로세스(블록 165)는 그래픽 또는 텍스트 에디터를 이용하는데, 이 에디터는 단말기 스크린(도2a의 나레이터 디스플레이 105) 상에서 나레이터 또는 오퍼레이터에게 표현하기 위해 통상적인 형태로 모든 분석 데이터를 조립한다. 이 데이터는 나레이터에게 어떠한 형태로도 제공될 수 있으며, 이러한 포맷은 본 발명에 임계적인 것이 아니다. 한가지 예시적인 방법은 예를 들어, 운율법 파라미터를 동반하는 하나의 센텐스로 이루어진 그리드와 같이, 템플릿으로서 도시될 데이터를 위한 것이 될 수 있다. 또한, 전술한 바와 같이, 그리드의 예는 Collier 등의 논문에서 찾아볼 수 있다. 훈련된 오퍼레이터(또는 나레이터)는 그가 운율법 변수의 자동적인 추출 결과에 완전히 만족하지 못하는 경우에, 파라미터의 일부 또는 전부를 교정(재타이핑)할 수도 있다. 오퍼레이터 또는 나레이터는 그의 헤드셋(108)에서의 플레이백 동안에, 이러한 판단을 할 수 있는데, 즉, 운율법 파라미터에 대한 만족 여부를 판단할 수 있다. CES 편집 프로세스의 두 번째 기능은 음소, 스트레스, 지속기간 및 피치 파라미터를 미리 설정된 데이터 구조에 따라 하나의 데이터 스트림으로 형성하고 혼합하는 것이며, 그러면, 이 데이터 스트림은 이용자 단말기(301)의 음성 합성기에 의해 이해될 수 있다. CES 시퀀스에 포함된 정보의 실질적인 포맷은 본 발명에 임계적인 것은 아니며, 중요한 것은 정보의 형태이다. CES 편집 프로세스의 세 번째 기능은 운율법 합성기(블록 156)로의 교정 피드백으로서 제공될 운율법 변화 데이터를 편집하는 능력을 나레이터에게 제공하는 것이다. 또한, 데이터의 포맷도 역시 본 발명에 임계적인 것이 아니다.

이러한 유일한 음성 오더링 프로세스의 결과로서, 이용자 단말기에서 출력되는 음성 신호는 앨러폰 사전이 근거를 두고 있는 사람에 의해 발생되는 음성처럼들린다. 시스템이 나레이터에게 플레이백하기 위해 수가지 상이한 음성으로 음성을 발생할 수 있도록, 추가적인 앨러폰 사전(129,130 등)이 만들어 진다는 것을 이해해야 한다.

또한, 도2b의 흐름도에 의해 도시된 프로세스는 대응하는 소프트웨어 모듈에 의해 호스트 컴퓨터 또는 워크스테이션 상에서 바람직하게 수행된다는 것을 이해할 것이다. 소프트웨어 코드를 구현하기 위한 컴퓨터 또는 워크스테이션은 통상적인 방식으로 소프트웨어 모듈을 저장, 로딩 및 실행하기 위해 관련 메모리(예, 컴퓨터 버스를 통해 프로세서에 접속된 RAM, ROM, 대량 기억장치)와 함께 하나 또는 그 이상의 프로세서(CPU)를 포함할 수 있다. 그러나, 음성 분석기(122) 기능 및 스펙트럼 비교기(123) 기능은 다른 기능적인 소프트웨어-기반 프로세스를 실행하는 컴퓨터 또는 워크스테이션 프로세서에 접속된 통상적인 전용 하드웨어(예, 하나 또는 그 이상의 디지탈 신호 처리기(DSP))에 의해 더욱 편리하게 구현될 수 있다.

도2b에 도시된 흐름도는 본 발명의 경우에 미리 레코딩된 음성의 세그먼트를 표현하는 앨러폰과 함께 바람직하게 동작한다는 것에 주목하자. 이들 세그먼트는 예를 들어, 앨러폰과 같이 매우 짧을 수도 있으며, 또는 다이폰(diphones) 또는 워드처럼 큰 세그먼트가 될 수도 있다. 그러나, 앨러폰을 이용하는 경우에는, 사전을 저장하기 위해 필요한 메모리가 수백 킬로바이트가 될 수 있는데, 그 이유는 특정 언어를 위한 앨러폰의 수가 매우 제한되어 있기 때문이다. 큰 세그먼트를 저장하는 것은 수십 메가바이트의 메모리를 필요로 할 수도 있으며, 그러한 시스템을 매우 비싸게 만들 수 있다. 말할 필요도 없이, 보다 긴 세그먼트를 이용하는 경우에 변환 성능이 약간 양호해질 수 있다. 선호도에 관한 문제지만, 본 발명은 Malsheen 등의 미국 특허 제4,979,216호에 기재되고 도2a 및 도4에 도시된 바와 같이, 앨러폰 콘텍스트 테이블 및 사전을 이용하는 것을 예시하고 있다.

이제 도3을 참조하면, 개인용 라디오 방송국 서버(PRSS)(201)의 바람직한 실시예의 블록도가 도시되어 있다. 이와 같은 서버는 시스템의 이용자(가입자)로 하여금 그들 고유의 개인용 라디오 방송국을 만들 수 있도록 허용한다. 그들의 이용자 단말기에서 간단한 다이얼로그형 인터페이스를 이용하여, 이용자는 그들에게 관심있는 정보의 부류를 정의한다. PRSS(201)는 PRSS 프로세서(202)와, 이 프로세서(202)에 접속된 PRSS 프로세서 메모리(204), 및 이 프로세서 메모리(204)에 접속된 PRSS 시스템 메모리(206)를 포함하고 있다. 시스템 메모리(206)는 다양한 기능적인 소프트웨어 모듈 및 데이터베이스를 위한 기억 용량을 포함하는 것이 바람직하다. PRSS가 여기에 설명된 기능을 수행할 때, PRSS 프로세서(202)는 로컬 프로세서 메모리(204)(예, RAM)와 협력하여 실행될 시스템 메모리(206)로부터 적절한 모듈을 선택(로딩)한다. 또한, 필요에 따라, 적절한 데이터가 시스템 메모리(206)로부터 검색되며, 그것에 저장된다.

PRSS(201)는 다음의 기능 모듈 및 관련 데이터 기억장치, 즉, 프로파일 관리자 모듈(211a) 및 이용자 프로파일 기억장치(211); 캐시 관리자 모듈(212a) 및 시스템 캐시(212)(이것은 RAM의 형태가 바람직함); 로그-온 관리자(213a) 및 이용자 데이터베이스 기억장치(213); 정보 스페셜리스트(specialist) 모듈(214a) 및 억세스 히스토리 기억장치(214); 무선 통신 관리자 모듈(215); 및 인터넷 통신 관리자모듈(216)을 포함하는 것이 바람직하다.

다음에는 PRSS(201)에 의해 수행되는 소정의 예시적인 관리상의(administrative) 기능에 대해 설명한다. 새로운 이용자가 시스템(100)에 등록되면, 그 이용자는 새로운 이용자-ID 및 패스워드를 수신한다. 이 정보는 로그-온 관리자 모듈(213a)에 의해 처리되어 이용자 데이터베이스 기억장치(213)에 저장된다. 중복(duplicate) 이용자 명칭은 허용되지 않는 것이 바람직하다. 이와 반대로, 등록된 이용자도 예를 들어, 그 이용자가 더 이상 서비스에 가입하지 않는 경우에는 시스템으로부터 제거될 수 있다. 이러한 경우에, 이용자 ID 및 패스워드는 이용자 데이터베이스 기억장치(213)로부터 제거된다. PRSS(201)에 억세스하는 시스템 오퍼레이터(도시 안됨)는 이러한 기능 뿐만 아니라 다른 관련 기능도 수행할 수 있다.

다음에는, PRSS(201)에 의해 수행되는 소정의 예시적인 프로파일 관리 기능에 대해 설명한다. 각각의 이용자와는 이용자의 관심있는 토픽 카테고리를 정의하는 프로파일이 관련되어 있다. 이 프로파일은 통상적으로, 예를 들어, 국제 뉴스, 스포츠 뉴스, 비지니스 뉴스 등과 같은 토픽 카테고리의 리스트에 관해 정의된다. 이 정보는 프로파일 관리자 모듈(211a)에 의해 처리되며, 이러한 프로파일은 프로파일 데이터베이스 기억장치(211)에 저장된다. 이용자는 원하는 바에 따라, 그의 프로파일의 정의를 변경할 수도 있다. 바람직하게는, 이용자 단말기는 이용자에게 메뉴 선택사항 중에서 토픽을 선택할 것을 음성으로 촉구한다. 그러나, 이용자 단말기는 이용자가 청각적인 것이 아닌 시각적인 프리젠테이션으로부터 그의 토픽을선택할 수 있도록 그의 이용자 단말기 상에 디스플레이를 구비할 수도 있다. 그럼에도 불구하고, 변경이 이루어질 때마다, 이전의 정의는 새로운 정의로 대체된다. 오늘날 시장에는 예를 들어, PCN(Point Communication Network)과 같은 수개의 프로파일 관리자 모듈이 있는데, 이러한 종래의 프로파일 관리자에 있어서는, 본 발명과 달리, 이용자 프로파일이 서버가 아닌 이용자 단말기에 저장된다.

다음에는, PRSS(201)에 의해 수행되는 소정의 예시적인 정보(예, 뉴스) 검색 기능에 대해 설명한다. 이용자가 처음으로 로그-온 하거나, 또는 이용자의 요구에 따라, PRSS(201)는 데이터 리포지토리(401)로부터 그 이용자의 관심있는 토픽과 관련된 정보를 검색하여, 그것을 이용자에게 전달한다. 만일 프리펫치 프로세스가 구현되면, 후술되는 바와 같이, 이용자에게 관심있는 정보가 이미 PRSS에 의해 저장되어 있을 수도 있다. 그럼에도 불구하고, 이것은 정보 스페셜리스트 모듈(214a)에 의해 처리된다. 이용자 프로파일 기억장치(211)에 저장된 이용자 프로파일은 검색을 위한 뉴스를 선택하기 위해 이용된다. 그러나, PRSS(201)는 이용자에게 동일한 정보를 반복적으로 전송하지 않는 것이 바람직하다. 따라서, 이용자가 정보를 요구할 때마다, 특정 정보에 관한 기록이 억세스 히스토리 기억장치(214)에서 유지관리된다. 이러한 방식으로, PRSS는 단지 이용자가 정보를 마지막으로 검색한 이후에 생성되거나 변경된 정보만을 전달하게 된다. 또한, 예를 들어, PointCast와 같이 시장에서 활용가능한 몇가지 정보 서비스도 있다. 이러한 기능들을 구현하기 위해 이용될 수 있는 유사한 접근방법이 존재한다.

다음에는, PRSS(201)에 의해 수행되는 소정의 예시적인 캐시 관리 기능에 대해 설명한다. PRSS(201)는 바람직하게는 여러 이용자에 의해 검색되는 정보를 포함하는 캐시(212)를 유지관리한다. PRSS에 의해 검색되는 정보는 시스템 성능을 증가시키기 위해 캐시(212)에 저장되게 되지만, 그러나, 콘텐트 공급자로부터의 데이터는 애플리케이션에 따라 PRSS를 통과하여 이용자 단말기로 전달될 수도 있다는 것을 이해해야 한다. 캐시 관리자 모듈(212a)은 캐시(212)의 유지관리(maintenance)(예, 데이터의 저장 및 검색)를 조정한다. 캐시를 이용함으로써, 시스템은 이용자들의 공통 관심사를 이용할 수 있다. 즉, 일단 특정 데이터를 한 이용자를 위해 인터넷 리포지토리로부터 PRSS로 가져오면, 그 데이터는 캐시(212)에 저장된다. 그러므로, 만일 다른 이용자가 그와 동일한 데이터를 요구하면, 또다시 동일한 데이터를 위해 네트워크(402)에 억세스하는 것이 아니라, 그 이용자에 대한 응답으로 그 데이터를 검색하기 위해 단지 캐시를 억세스하면 된다. 데이터는 바람직하게는 다음의 2가지 방법 중 하나의 방법으로 캐시(212)에 저장되는데, 즉, (1) 이용자 요구의 결과로서 검색된 데이터를 저장함으로써; 또는 (2) 프리펫칭 메카니즘을 통해, 즉, 이용자의 프로파일 및 억세스 패턴을 이용하여, PRSS는 가까운 미래에 어떤 정보가 관심의 대상이 될 수 있는지 예상하고, 이용자의 요구시에 그 데이터가 PRSS에서 활용될 수 있도록 그러한 데이터를 검색할 수 있다. 캐시를 이용하는 것은 시스템의 응답 시간을 향상시키는데 상당한 도움을 준다는 것을 이해할 것이다. 또한, 오늘날의 시장에는 본 발명에 사용될 수 있는, 예를 들어, 넷스케이프와 같은 수개의 캐시-기반 시스템이 존재한다.

인터넷 통신 관리자 모듈(216)은 데이터가 네트워크로부터 억세스될 수 있도록 허용하기 위해 PRSS(201)와 광역 통신망(402) 사이의 통신 기능을 제어하지만, 한편으로, 무선 통신 관리자 모듈(215)은 데이터 및 제어 정보가 PRSS와 이용자 단말기 사이에서 전송될 수 있도록 하기 위해 PRSS(201)와 무선 데이터 네트워크(403) 사이의 통신 기능을 제어한다는 것을 이해해야 한다. 이들 모듈은 통상적인 통신 기능을 수행하기 때문에, 본 발명의 이해를 위해 이에 대한 상세한 설명은 필요로 되지 않는다.

이제 도4를 참조하면, 이용자 단말기(301)의 바람직한 실시예의 블록도가 도시되어 있다. 이용자 단말기(301)는 바람직하게는 2개의 안테나, 즉, 방송 라디오 안테나(330) 및 무선 통신 안테나(311)를 포함한다. 라디오 수신기/송신기(312)에 의해 수신되는 무선 데이터는 무선 모뎀(320)에 의해 복조되어, 시스템 메모리(313)에 저장된다. 제어 프로세서(317)는 이 저장된 데이터로부터 텍스트 정보와 CES 및 MIDI 관련 시퀀스를 추출한다. CES 데이터는 시스템 메모리(313)로부터 검색되어, 앨러폰 콘텍스트 테이블 변환기(321)와, 스위치가능하게 레코딩된 앨러폰 사전(315) 및 음성 합성기(323)에 의해 순차적으로 처리된다. 변환기(321), 스위치가능한 사전(315) 및 음성 합성기(323)의 기능들은 일반적으로는 도1에 도시된 압축해제 엔진(316)을 구성하며, 근본적으로는 오더링 시스템(101)의 유사한 구성요소에 관해 전술한 음성 합성 프로세스를 반복하는 것이며, 따라서, 이에 관한 설명은 반복되지 않는다. 이용자 단말기에서 이러한 기능을 구현하기 위해 그와 비슷한 구성요소가 이용될 수 있다. 즉, 전송된 데이터의 음성학적 표기 및 운율법 파라미터를 포함하는 CES 시퀀스가 도2a에 도시된 바와 유사한 방식으로 앨러폰 콘텍스트 테이블 변환기로 제공된다.

비록 도2b의 이용자 단말기 내의 미리 레코딩된 앨러폰 사전의 구성을 예시하기 위해 단지 하나의 블록(315)이 이용되었지만, 이것은 바람직하게는 오더링 시스템(101)(도2a)에서의 구성과 유사하다. 즉, 음성 합성기로 데이터를 제공하기 위해 사용될 앨러폰 사전을 선택할 수 있도록 하는 이용자 제어 스위치(블록 315 내부에 있음)가 사전들 사이에 제공된다. 오더링 시스템과 마찬가지로, 이용자 단말기에서 선택된 사전은 요구된 데이터를 플레이백 동안에 이용자에게 제공하기 위해 이용될 나레이터 음성을 판단한다. 그러나, 이용자 단말기에서 이용자는 전술한 바와 같이, 음성 인식 엔진(329)에 의해 디코딩된 말로한 명령을 제공함으로써 원하는 음성을 선택할 수 있다. 음성 인식 엔진(329)은 다음에, 적절한 사전을 선택하도록 제어 신호를 스위치로 전송한다. 물론, 음성 인식 대신에, 이용자 단말기는 이와 동일한 기능을 수행하기 위한 제어 버튼을 포함할 수도 있다.

예를 들어, E-메일 또는 웹 페이지의 텍스트로된 콘텍스트와 같은, 텍스트 데이터는 통상적인 TTS 모듈(도시 안됨)을 이용하여 제어 프로세서(317)에 의해 CES 데이터로 변형되고, 다음에, 음성 합성을 위해 변환기(321)로 제공된다. MIDI 데이터는 MIDI 플레이어(332)에 의해 아날로그 음악으로 변환된다. MIDI 플레이어(332)와 음성 합성기(323)로부터의 두 신호는 증폭기/플레이백 제어기(324)에 의해 혼합되며, 이 제어기는 다음에, 요구된 데이터를 이용자에게 제공하기 위해 확성기(325)를 구동시킨다.

바람직하게는, 이용자 단말기(301)에 의해 처리될 수 있는 2개의 추가적인오디오 신호 소스, 즉, 방송 라디오와 셀룰러 전화를 위한 신호 소스가 있다. AM/FM 튜너(tuner)(311)는 제어 프로세서(317)의 제어하에, 이용자로 하여금 원하는 라디오 방송국 주파수에 튜닝할 수 있도록 한다. 라디오 방송국으로부터 수신되는 오디오 신호는 증폭기(324)로 제공되며, 다음에는 확성기(325)로 제공된다. 전화 통화의 경우에, 통상적인 무선 모뎀(320)은 아날로그 신호를 통상적인 무선 전화 인터페이스(323)로 전달하고, 이것은 다음에, 전화 신호를 통상적인 방식으로 증폭기(324)를 통해 확성기(325)로 제공한다. 이용자로부터의 전화 음성 데이터는, 마이크로폰(327), 음성 버퍼(328), 시스템 메모리(313), 무선 모뎀(320), 라디오 수신기/송신기(312) 및 안테나(311)를 통해 통상적인 방식으로 처리된다. 증폭기/플레이백 제어기(324)는 모두 4개의 라디오 신호, 즉, 음성 코덱(324), MIDI 플레이어(332), AM/FM 튜너(331) 및 무선 전화 인터페이스(323)로부터 수신되는 신호의 출력을 혼합하며, 따라서, 이용자에 의해 시작된 애플리케이션에 따라 이용자에게 플레이백을 제공한다.

이용자는 마이크로폰(327)을 통해 말함으로써, 다이얼로그 프로세스를 시작하고, 제어 프로세서로 제어 명령을 발생한다. 전술한 바와 같이, 이용자 음성은 음성 버퍼(328)에서 샘플링된다. 샘플링된 음성은 통상적인 음성 인식 엔진(329)에 의해 인식된다. 음성 인식 엔진(329)은 그 음성을 디코딩하고, 그 인식된 제어 명령을 제어 프로세서(317)로 제공한다. 이용자가 원하는 정보를 검색하기 위한 요구를 시스템(100)으로 제공하는 경우에, 말로 발성된 형태의 그 요구는 음성 버퍼(328)에 의해 샘플링되고, 음성 인식 엔진(329)에 의해 디코딩되어, 제어 프로세서(317)로 전송된다. 제어 프로세서(317)는 요구 신호를 라디오 송신기(321)를 통해 안테나(311)에 의해 적절한 무선 통신 프로토콜을 이용하여 전송하기 위해 모뎀(320)으로 제공한다. 시스템 로그-온 절차를 위해 이용자에 관한 적절한 식별 및 권한부여 정보(시스템 메모리(313)에 저장됨)를 포함하는 요구 신호는 다음에, 요구된 정보의 검색 및/또는 처리를 위해 무선 네트워크(403)를 거쳐 광역 통신망(402)을 통해 PRSS(201)로 전송된다. PRSS(201)는 전술한 바와 같이 그 정보를 검색하여, 그 데이터를 반대 방향으로 2개의 네트워크(402,403)를 통해 이용자 단말기(301)로 전송한다.

이용자 음성 입력이 E-메일에 부가된 음성으로서 전달되어야 하는 경우에, 버퍼(328)의 출력은 시스템 메모리(313)에 레코딩되며, E-메일 데이터의 잔여분과 함께 무선 모뎀(320)에 의해 처리되어, 송신기(312)에 의해 안테나(311)를 통해 적절한 무선 통신 프로토콜을 이용하여 전송된다. E-메일 메시지는 이용자 단말기 상의 영숫자 키(alphanumeric keys)(도시 안됨)에 의해 입력될 수도 있다. 또한, 이용자 단말기는 E-메일 또는 이용자에 의해 발생되는 다른 텍스트 메시지를 보기 위한 디스플레이(도시 안됨)를 포함할 수 있다. 또한, PRSS(201)로 전송된, 음성에 의해 개시된 이용자 요구는 음성 합성된 E-메일이나 또는 본 발명에 따라 PRSS(201)에 저장된 다른 텍스트 메시지(예, 다른 인터넷 웹 사이트로부터의 메시지)를 위한 요구를 포함할 수 있다.

이용자가 오디오 플레이백을 제어하기 위해 음성에 의해 활성화된 명령을 제공하는 경우에, 요구에 관해 전술한 바와 동일한 음성 디코딩 경로를 따라가지만,그러나, 제어 프로세서(317)는 이용자의 음성 제어에 응답하여 제어 신호를 생성하고, 이들 제어 신호를 증폭기/플레이백 제어기(324)로 제공한다. 이와 같은 음성-활성화 제어 기능은 음성 속도 제어, 오디오 플레이백 레벨 변경, 후진, 전진, 고속 전진 등을 포함할 수 있는데, 이것에 제한되는 것은 아니다. 다음에, 플레이백 제어기(324)는 제어 프로세서(317)로부터의 제어 신호에 응답하여 그것에 제공되는 오디오 신호에 대해 적절한 기능을 수행한다.

비록 본 발명의 실시예에 관해 첨부도면을 참조하여 설명되었지만, 본 발명은 이들 실시예에 제한되지 않으며, 본 발명의 범위 또는 사상을 벗어나지 않고, 이 기술분야에 통상의 지식을 가진자에 의해 다른 변형 및 수정이 이루어질 수도 있다는 것을 이해할 것이다.

따라서, 본 발명의 싱글캐스트 대화형 라디오 시스템은 종래의 시스템에서는 활용가능하지 않았던 많은 특징 및 장점을 제공한다는 것을 이해할 것이다. 예를 들어, 이 시스템은, 유선 통신에 가격으로 또한 종래의 라디오에 필적하는 음질로 많은 양의 정보를 라디오 청취자들에게 무선으로 전달하고; 바람직하게는 셀룰러 전화 및 디지탈 데이터 통신 서비스와 아날로그 방송 서비스를 통합하고, 또한 바람직하게는 이동 라디오 장치를 기계적으로 대체하고 기능적으로 확장하는, 저가의 음성-기반 무선 네트워크 단말기를 이동 이용자에게 제공하고; 예를 들어, 인터넷 브라우징, 영숫자 및 음성 페이징, 도로 안내, 오디오북과 같은 디지탈화된 음성및 데이터 리포지토리에 대한 억세스, 지역의 날씨 및 교통 정보, 주식 시세, 신문 및 잡지 내용과 같은, 다양한 분야의 대화형 라디오 서비스를 이동 이용자에게 제공할 수 있도록 허용하고; 예를 들어, 방송국에의 튜닝, 셀룰러폰 다이얼링, 다양한 이용가능한 응용기기 사이의 스위칭을 포함하여, 이용자 이동 단말기와의 핸즈-프리 음성-기반 인터페이스를 고객에게 제공함으로써 차량 내의 고객의 안전성을 향상시키고; 음성 속도 제어, 오디오 플레이백 레벨 변경, 후진, 전진 및 고속전진 명령과 같은 음성-활성화 명령을 병합시킴으로써 오디오 플레이백 제어에 진보된 기능을 도입하고; 예를 들어, E-메일이나 또는 인터넷 웹 사이트로부터 수신되는 텍스트 파일과 같은 텍스트 정보의 음성-기반 검색을 제공하고; 이용자로 하여금 키보드가 없거나 이용불가능한 경우에 또한, 안전성의 관점에서, 음성으로 E-메일을 생성할 수 있도록 허용하고; 이용자로 하여금 관심있는 정보의 핫-리스트를 정의하고, 그것이 활용가능하게 되자마자 그 정보를 프리-펫치할 수 있도록 허용하는(이때, 시스템은 그러한 정보를 요구에 따라 이용자의 이동 단말기로 전달함) 개인용 가상 라디오 방송국을 각 이용자를 위해 만들어 주고; 다른 나라에서 급속하게 증가하고 있는 다양한 무선 통신망을 이용함으로써 대화형 라디오 서비스의 지리적 적용범위를 증가시키고; 매우 낮은 압축 비율을 실현함으로써 디지탈 음성 및 데이터를 전달하기 위한 무선 데이터 통신 기술을 이용하고, 저장 및 전송 기술을 이용하는데 있어서 신뢰성은 향상시키고 비용은 감소시키고; 간단한 오더링 툴을 가진 콘텐트 공급자가 고도로 압축된 음성 콘텐트를 제공할 수 있도록 하고; 새로운 대화형 라디오 응용기기를 창안하는 것을 용이하게 하기 위해 표준 및 산업승인 툴, 프로토콜 및 인터페이스를 이용함으로써 개방된 애플리케이션 개발 플랫폼을 제공한다.

Claims

정보 콘텐트 공급자로부터 수신되는 데이터에 응답하여 음성학적으로 인코딩된 오디오 정보 신호를 생성하기 위한 오더링 시스템;

상기 오더링 시스템에 동작가능하게 접속되어, 상기 음성학적으로 인코딩된 오디오 정보 신호를 저장하기 위한 데이터 리포지토리;

유선 통신망을 상기 데이터 리포지토리에 동작가능하게 접속되어, 시스템 이용자에 의한 요구시 상기 데이터 리포지토리로부터 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 검색하기 위한 개인용 라디오 시스템 서버; 및

무선 통신망을 통해 상기 서버에 동작가능하게 접속된 적어도 하나의 이용자 단말기 - 여기서, 상기 이용자 단말기는 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 전달하기 위해 이용자에 의한 요구를 생성 및 전송하고, 이용자에게 플레이백하기 위해 상기 정보 콘텐트 공급자로부터 수신되는 데이터의 적어도 일부분을 표현하는 오디오 신호를 합성하기 위해 상기 인코딩된 오디오 정보 신호의 적어도 일부분을 수신 및 디코딩하기에 적합하게 되어 있으며, 또한, 상기 이용자 단말기는 이용자에게 플레이백하는 동안에 다수의 나레이터 음성 중 하나를 오디오 신호에 제공하기 위해 선택적으로 이용되는 다수의 미리 레코딩된 음성학 단위 사전(phonetic unit dictionaries)을 포함함 -

를 포함하는 싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 음성학적으로 인코딩된 오디오 정보 신호는 음성학적 및 운율학적(prosodic) 데이터를 포함하는

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 무선 통신망은 적어도 하나의 진보된 이동 전화 서비스(AMPS) 채널을 포함하는

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 무선 통신망은 적어도 하나의 셀룰러 디지탈 패킷 데이터(CDPD) 채널을 포함하는

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 이용자 단말기는 이동용(mobile)에 적합한

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 이용자 단말기는 고정용(stationary)에 적합한

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 이용자 단말기는 방송 라디오 신호를 처리하기 위한 방송 대역 라디오 튜너를 더 포함하는

싱글캐스트 대화형 라디오 시스템.
제 1 항에 있어서,

상기 이용자 단말기는 전화-관련 신호를 수신하고 송신하기 위한 무선 전화 인터페이스를 더 포함하는

싱글캐스트 대화형 라디오 시스템.
제 8 항에 있어서,

상기 전화-관련 신호는 음성 신호와 데이터 신호 중 하나를 포함하는

싱글캐스트 대화형 라디오 시스템.
정보 콘텐트 공급자로부터 수신되는 데이터에 응답하여 음성학적으로 인코딩된 오디오 정보 신호를 생성하기 위한 정보 신호 생성 수단;

상기 정보 신호 생성 수단에 동작가능하게 접속되어, 상기 음성학적으로 인코딩된 오디오 정보 신호를 저장하기 위한 저장 수단;

유선 통신망을 통해 상기 저장 수단에 동작가능하게 접속되어, 시스템 이용자에 의한 요구시 상기 저장 수단으로부터 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 검색하기 위한 정보 신호 검색 수단; 및

무선 통신망을 통해 상기 정보 신호 검색 수단에 동작가능하게 접속된 정보 요구 및 전달 수단 - 여기서, 상기 정보 요구 및 전달 수단은 상기 음성학적으로 인코딩된 오디오 정보 신호의 적어도 일부분을 전달하기 위해 이용자에 의한 요구를 생성 및 전송하기 위한 수단과, 이용자에게 플레이백하기 위해 상기 정보 콘텐트 공급자로부터 수신되는 데이터의 적어도 일부분을 표현하는 오디오 신호를 생성하기 위해 상기 인코딩된 오디오 정보 신호의 적어도 일부분을 수신 및 디코딩하기 위한 수단을 포함하고, 또한, 상기 정보 요구 및 전달 수단은 이용자가 청취하는오디오 신호와 연관될 다수의 나레이터 음성 중 하나를 선택하기 위한 수단을 포함함 -

을 포함하는 정보 신호 전달 시스템.
제 10 항에 있어서,

상기 정보 신호 검색 수단 및 상기 저장 수단은 각각, 유선 통신망 상에서의 통신에 적합한 네트워크 서버인

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 무선 통신망은 적어도 하나의 진보된 이동 전화 서비스(AMPS) 채널을 포함하는

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 무선 통신망은 적어도 하나의 셀룰러 디지탈 패킷 데이터(CDPD) 채널을 포함하는

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 정보 요구 및 전달 수단은 이동식 이용자 단말기를 포함하는

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 정보 요구 및 전달 수단은 고정식 이용자 단말기를 포함하는

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 정보 요구 및 전달 수단은 정규 방송 라디오 방송국 신호를 수신하고 복조하기 위한 수단을 더 포함하는

정보 신호 전달 시스템.
제 10 항에 있어서,

상기 정보 요구 및 전달 수단은 전화-관련 신호를 수신하고 송신하기 위한 수단을 더 포함하는

정보 신호 전달 시스템.
제 17 항에 있어서,

상기 전화-관련 신호는 음성 신호와 데이터 신호 중 하나를 포함하는

정보 신호 전달 시스템.
적어도 하나의 정보 신호 콘텐트 공급자와 적어도 하나의 이용자 단말기를 포함하는 무선 정보 신호 전달 시스템에 사용하기 위한 이용자 단말기에 있어서,

제어 프로세서;

상기 제어 프로세서에 동작가능하게 접속되어, 상기 적어도 하나의 정보 신호 콘텐트 공급자에 의해 제공되는 오디오-기반 데이터를 표현하는 수신된 음성학적으로 인코딩된 정보 신호를 복조하고, 이용자에 의해 개시된 신호(user-initiated signal)를 변조하기 위한 무선 모뎀;

상기 제어 프로세서에 동작가능하게 접속되어, 이용자에 의해 제공되는 말로한 발성음(spoken utterance)을 수신하기 위한 음성 입력부를 구비한 음성 인식기 - 여기서, 상기 말로한 발성음은 상기 적어도 하나의 정보 신호 콘텐트 공급자에의해 제공되는 소정의 오디오-기반 데이터를 위한 적어도 하나의 요구를 표현하고, 상기 음성 인식기는 상기 말로한 발성음을 디코딩하여 그 디코딩된 발성음을 상기 제어 프로세서로 제공하고, 상기 제어 프로세서는 그것에 응답하여 이용자-개시 신호(user-initiated signal)를 생성함 - ;

복조된 음성학적으로 인코딩된 정보 신호에 응답하여 합성된 음성 신호를 생성하기 위한 음성 합성 시스템 - 여기서, 상기 음성 합성 시스템은 이용자에게 플레이백하는 동안에 다수의 나레이터 음성 중 하나를 상기 합성된 음성 신호에 제공하기 위해 선택적으로 이용되는 다수의 미리 레코딩된 음성학 단위 사전을 포함함 - ; 및

상기 음성 합성 시스템에 동작가능하게 접속되어, 이용자에게 플레이백하기 위해 상기 합성된 음성 신호에 응답하여 오디오 신호를 생성하기 위한 오디오 플레이백 수단

을 포함하는 이용자 단말기.
제 19 항에 있어서,

상기 플레이백 수단에 의한 출력을 위해 상기 무선 모뎀에 의해 수신되는 전화-관련 통신을 처리하고, 상기 무선 모뎀에 의한 송신을 위해 이용자에 의해 제공되는 전화-관련 통신을 발생하기 위한 무선 전화 인터페이스

를 더 포함하는 이용자 단말기.
제 19 항에 있어서,

상기 제어 프로세서 및 상기 오디오 플레이백 수단에 동작가능하게 접속되어, 상기 오디오 플레이백 수단에 의한 출력을 위해 정규 방송 라디오 신호를 처리하기 위한 방송 라디오 신호 튜너

를 더 포함하는 이용자 단말기.
제 21 항에 있어서,

상기 정규 방송 라디오 신호 튜너는 AM 및 FM 튜너 중 하나를 포함하는

이용자 단말기.
제 19 항에 있어서,

상기 오디오 플레이백 수단에 동작가능하게 접속되어, 상기 합성된 음성 신호로부터 발생되는 오디오 신호와 함께 이용자에게 플레이백하기 위해 상기 음성학적으로 인코딩된 정보 신호와 함께 포함된 배경 오디오 신호를 처리하기 위한 배경 오디오 믹싱 수단

을 더 포함하는 이용자 단말기.
제 23 항에 있어서,

상기 배경 오디오 신호는 뮤지칼 인스투르먼트 디지탈 인터페이스(MIDI) 포맷으로 되어 있는

이용자 단말기.
제 19 항에 있어서,

상기 음성 합성 시스템은,

상기 복조된 음성학적으로 인코딩된 정보 신호와 관련된 음소(phonemes)를 앨러폰(allophones)으로 변환하기 위한 음소-앨러폰 변환기; 및

상기 다수의 미리 레코딩된 음성학 단위 사전에 동작가능하게 접속되어, 선택된 사전으로부터의 이전에 레코딩된 앨러폰에 응답하여 정보 신호를 나타내는 합성된 음성 신호를 생성하기 위한 음성 코덱(codec)

을 더 포함하고,

여기서, 상기 다수의 미리 레코딩된 음성학 단위 사전은 이용자-응답 스위칭 수단을 통해 상기 음소-앨러폰 변환기에 동작가능하게 접속되어, 나레이터 음성과 각각 관련된 이전에 레코딩된 앨러폰을 저장하고, 또한, 앨러폰 변환기에 의해 제공되는 앨러폰과 실질적으로 정합하는 이전에 레코딩된 앨러폰이 선택되는

이용자 단말기.
제 19 항에 있어서,

상기 말로한 발성음은 오디오 플레이백 명령을 표현하고, 상기 음성 인식기는 상기 말로한 발성음을 디코딩하여 그 디코딩된 발성음을 상기 제어 프로세서로 제공하고, 상기 제어 프로세서는 그것에 응답하여 제어 신호를 생성하고 그 제어 신호를 오디오 플레이백을 제어하기 위해 상기 오디오 플레이백 수단으로 제공하는

이용자 단말기.
적어도 하나의 정보 신호 콘텐트 공급자와 적어도 하나의 이용자 단말기를 포함하는 무선 정보 신호 전달 시스템에 사용하기 위한 이용자 단말기에 있어서,

제어 프로세싱 수단;

상기 제어 프로세싱 수단에 동작가능하게 접속된 메모리 수단;

상기 메모리 수단에 동작가능하게 접속되어, 상기 적어도 하나의 정보 신호 콘텐트 공급자에 의해 제공되는 오디오-기반 데이터를 표현하는 수신된 음성학적으로 인코딩된 정보 신호를 복조하고, 이용자에 의해 개시된 신호(user-initiated signal)를 변조하기 위한 무선 모뎀 수단;

상기 제어 프로세싱 수단에 동작가능하게 접속되어, 이용자에 의해 제공되는 말로한 발성음(spoken utterance)을 수신하기 위한 음성 입력 수단을 구비한 음성 인식 수단 - 여기서, 상기 말로한 발성음은 상기 적어도 하나의 정보 신호 콘텐트공급자에 의해 제공되는 소정의 오디오-기반 데이터를 위한 적어도 하나의 요구를 표현하고, 상기 음성 인식 수단은 상기 말로한 발성음을 디코딩하여 그 디코딩된 발성음을 상기 제어 프로세싱 수단으로 제공하고, 상기 제어 프로세싱 수단은 그것에 응답하여 이용자-개시 신호(user-initiated signal)를 생성함 - ;

상기 메모리 수단에 동작가능하게 접속되어, 복조된 음성학적으로 인코딩된 정보 신호에 응답하여 합성된 음성 신호를 생성하기 위한 음성 합성 수단 - 여기서, 상기 음성 합성 수단은 이용자에게 플레이백하는 동안에 다수의 나레이터 음성 중 하나를 상기 합성된 음성 신호에 제공하기 위해 선택적으로 이용되는 다수의 미리 레코딩된 음성학 단위 사전을 포함함 - ; 및

상기 음성 합성 수단에 동작가능하게 접속되어, 이용자에게 플레이백하기 위해 상기 합성된 음성 신호에 응답하여 오디오 신호를 생성하기 위한 오디오 플레이백 수단

을 포함하는 이용자 단말기.
제 27 항에 있어서,

상기 음성 입력 수단, 상기 무선 모뎀 수단 및 상기 오디오 플레이백 수단에 동작가능하게 접속되어, 상기 플레이백 수단에 의한 출력을 위해 상기 무선 모뎀에 의해 수신되는 전화-관련 통신을 처리하고, 상기 무선 모뎀에 의한 송신을 위해 상기 음성 입력 수단에서 이용자에 의해 제공되는 전화-관련 통신을 발생하기 위한무선 전화 수단

을 더 포함하는 이용자 단말기.
제 27 항에 있어서,

상기 제어 프로세싱 수단 및 상기 오디오 플레이백 수단에 동작가능하게 접속되어, 상기 오디오 플레이백 수단에 의한 출력을 위해 정규 방송 라디오 신호를 처리하기 위한 정규 방송 라디오 신호 처리 수단

을 더 포함하는 이용자 단말기.
제 29 항에 있어서,

상기 정규 방송 라디오 신호 처리 수단은 AM 및 FM 튜너 중 하나를 포함하는

이용자 단말기.
제 27 항에 있어서,

상기 메모리 수단 및 상기 오디오 플레이백 수단에 동작가능하게 접속되어, 상기 합성된 음성 신호로부터 발생되는 오디오 신호와 함께 이용자에게 플레이백하기 위해 상기 음성학적으로 인코딩된 정보 신호와 함께 포함된 배경 오디오 신호를처리하기 위한 배경 오디오 믹싱 수단

을 더 포함하는 이용자 단말기.
제 31 항에 있어서,

상기 배경 오디오 신호는 뮤지칼 인스투르먼트 디지탈 인터페이스(MIDI) 포맷으로 되어 있는

이용자 단말기.
제 27 항에 있어서,

상기 음성 합성 수단은,

상기 메모리 수단에 동작가능하게 접속되어, 상기 복조된 음성학적으로 인코딩된 정보 신호와 관련된 음소(phonemes)를 앨러폰(allophones)으로 변환하기 위한 음소-앨러폰 변환기; 및

상기 사전에 동작가능하게 접속되어, 선택된 사전으로부터의 이전에 레코딩된 앨러폰에 응답하여 정보 신호를 나타내는 합성된 음성 신호를 생성하기 위한 음성 디코딩 수단

을 더 포함하고,

여기서, 상기 다수의 미리 레코딩된 음성학 단위 사전은 이용자-응답 스위칭수단을 통해 상기 음소-앨러폰 변환기에 동작가능하게 접속되어, 나레이터 음성과 각각 관련된 이전에 레코딩된 앨러폰을 저장하고, 또한, 앨러폰 변환기에 의해 제공되는 앨러폰과 실질적으로 정합하는 이전에 레코딩된 앨러폰이 선택되는

이용자 단말기.
제 27 항에 있어서,

상기 말로한 발성음은 오디오 플레이백 명령을 표현하고, 상기 음성 인식 수단은 상기 말로한 발성음을 디코딩하여 그 디코딩된 발성음을 상기 제어 프로세싱 수단으로 제공하고, 상기 제어 프로세싱 수단은 그것에 응답하여 제어 신호를 생성하고 그 제어 신호를 오디오 플레이백을 제어하기 위해 상기 오디오 플레이백 수단으로 제공하는

이용자 단말기.
이용자 요구에 따라 이용자-개시 신호를 생성하기에 적합한 적어도 하나의 클라이언트 단말기; 및

다양한 형태의 데이터를 포함하는 광역 네트워크에 동작가능하게 접속되고, 또한 무선 통신망을 통해 상기 적어도 하나의 클라이언트 단말기에 동작가능하게 접속된 정보 검색 및 전달 서버

를 포함하고,

상기 정보 검색 및 전달 서버는,

메모리 수단; 및

상기 메모리 수단에 동작가능하게 접속된 프로세싱 수단을 포함하고,

상기 프로세싱 수단은,

상기 적어도 하나의 클라이언트 단말기로부터 이용자-관련 정보를 수신하고 그 이용자-관련 정보를 상기 메모리 수단에 저장하기 위한 수단;

상기 이용자-관련 정보 수신 및 저장 수단에 응답하여, 상기 광역 네트워크 상의 적어도 하나의 데이터 서버로부터 데이터를 검색하고 그 데이터를 상기 메모리 수단에 저장하기 위한 수단; 및

상기 검색된 데이터를 상기 적어도 하나의 클라이언트 단말기로 전송하기 위한 수단을 포함하는

클라이언트/서버 시스템.
제 35 항에 있어서,

상기 데이터 검색 수단은 이용자의 요구시에 네트워크로부터 데이터를 검색하는

클라이언트/서버 시스템.
제 35 항에 있어서,

상기 데이터 검색 수단은 네트워크로부터 데이터를 자율적으로(autonomously) 검색하는

클라이언트/서버 시스템.
제 35 항에 있어서,

상기 프로세싱 수단은, 상기 이용자-개시 신호에 응답하여, 상기 정보 서버가 네트워크로부터 데이터를 검색하기 전에 이용자를 식별하고 권한부여하기 위한 이용자 식별 및 권한부여 수단을 더 포함하는

클라이언트/서버 시스템.
제 35 항에 있어서,

상기 프로세싱 수단은, 한 이용자를 위해 상기 정보 서버에 의해 검색된 데이터를 네트워크로부터 새로 요구된 데이터를 검색하기 이전에 다른 이용자에 의해 요구된 데이터와 비교하기 위한 수단을 더 포함하는

클라이언트/서버 시스템.