KR20040047745A

KR20040047745A - 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치

Info

Publication number: KR20040047745A
Application number: KR10-2003-7010531A
Authority: KR
Inventors: 버크홀츠데일알; 제이노바샤르; 거슨아이라
Original assignee: 요모빌, 아이엔씨.
Priority date: 2001-02-09
Filing date: 2002-02-11
Publication date: 2004-06-05
Also published as: ATE376701T1; US7433822B2; EP1362341B1; CN1496555A; DE60223131T2; WO2002065452A1; DE60223131D1; KR100684572B1; US20020111812A1; US20050192812A1; CN1267886C; EP1362341A4; EP1362341A1; US6885987B2

Abstract

오디오 소스에서, 포즈 정보를 오디오 데이터(204)에 부가하고, 다음에 그것을 패킷화한다(510). 생성된 패킷은 상이한 패킷마다 지연 레벨의 변화를 겪을 수 있는 네트워크를 통해 오디오 목적지로 전송된다(512). 오디오 목적지에서, 포즈 정보를 이용하여, 패킷 전달시에 발생하는 지연을 수용하기에 적절한 시간에 포즈를 삽입할 수 있다(106). 일실시예에 있어서, 포즈는 포즈 타입 체계에 기초하여 삽입된다(302). 포즈 중에, 오디오 필러 정보가 삽입될 수 있다. 이와 같이, 재구성된 오디오에 대한 네트워크 지연 효과를 완화시킬 수 있다.

Description

포즈 정보를 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING PAUSE INFORMATION}

원격 통신 시스템, 특히 패킷 기반 시스템에 대해서는 본 기술 분야에 잘 알려져 있다. 유선 및 무선 패킷 기반 시스템의 경우, 많은 이점을 가지고 있지만, 등시성 데이터, 예컨대 오디오 데이터를 전달함에 있어서는 어느 정도의 문제점을 가지고 있다. 예컨대, 한 세트의 패킷이 어떤 경우에는 가능한 빨리 네트워크를 통과하고, 어떤 경우에는 액세스 지연, 전송(및 후속 재전송) 에러, 특히 무선 네트워크의 경우에는 커버리지 부족 등으로 인해 목적지에 도달하는 시간이 더 오래 걸릴 수도 있다. 전송 오디오(예컨대, 음성) 스트림을 청취하는 청취자는 패킷 지연 또는 손실로 인해 연속성을 잃은 이상한 사운딩 오디오를 듣게 될 수도 있다.

특히 오디오 응용에 있어서 적절한 데이터 전달의 손실을 방지할 수 있는 몇가지 해결책이 제안되었다. 첫번째 해결책은 목적지에서 재생 전에 상당한 양의 오디오 데이터를 버퍼링하는 것이다. 따라서, 그 후에 목적지로의 오디오 데이터 전달이 지연되더라도, 상기 버퍼링된 상당한 양의 오디오 데이터를 재생에 사용할 수 있기 때문에 연속성이 유지된다. 이러한 방법이 효과적일 수도 있지만, 상당한 양의 데이터를 버퍼링하는 데 필요한(즉, 예상 지연보다 오래 걸리는) 지연 및 메모리의 양이 엄청날 수도 있다.

두번째 해결책은 서비스 품질 매커니즘을 데이터 전달에 이용되는 네트워크 내에 구현하고, 소스와 네트워크 사이에 서비스 품질 계약을 협상하는 것이다. 서비스 품질을 네트워크 내에 도입하는 방법의 예로서, 인터넷 엔지니어링 태스크 포스(IETF)가 제안한 예약 프로토콜(RSVP), 차별화 서비스 및 통합 서비스 기술이 있다. 계약에 동의하게 되면, 네트워크 공급자는 일정한 레벨의 스루풋, 종단간 지연, 지연 변화 및 에러율 성능을 제공해야만 한다. 이와 같이, 소정의 데이터 소스는 일정한 레이트로 데이터를 전송할 수 있다고 확신하고 데이터 목적지는 적절하게 데이터를 수신할 것으로 확신한다. 그러한 서비스 품질 매커니즘 때문에, 목적지에 대용량의 버퍼를 설치할 필요가 없게 된다. 그러나, 소스와 목적지간의 경로에 따른 네트워크 내의 모든 라우팅 요소가 그러한 서비스 품질 매커니즘을 구현해야만 한다. 이것은 네트워크 구현 비용, 결과적으로 데이터 전달을 위한 단위 비용을 증가시킨다. 따라서, 패킷 기반 네트워크에 고유한 성능 변화를 수용하고 종래의 해결책과 관련된 문제점을 회피할 수 있는 기술이라면 그 기술은 기술의 진보를 의미한다.

본 발명은 일반적으로 통신 시스템에 관한 것으로서, 구체적으로는 특히 디지털 오디오에 대하여 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.

도 1은 본 발명의 적용으로 이득을 얻을 수 있는 통신 시스템의 블록도이다.

도 2는 본 발명에 따라 디지털 오디오 데이터에 포즈 정보를 부가한 바람직한 패킷 포맷을 도시한다.

도 3은 본 발명에 따라 포즈 정보를 나타내는 바람직한 포맷을 도시한다.

도 4는 본 발명에 따라 포즈 정보를 나타내는 또 다른 포맷을 도시한다.

도 5는 본 발명에 따른 인코딩 장치의 블록도이다.

도 6은 본 발명에 따른 디코딩 장치의 블록도이다.

본 발명은 송신된 디지털 오디오 신호에 부가되는 포즈 정보를 이용하여 재구성된 오디오에 대한 네트워크 지연 효과를 완화시키는 기술을 제공한다. 본 발명은 TTS 서버 구성에 특히 적용 가능하다. 본 발명에 따라, 포즈 정보는 오디오 신호의 분석을 통해 얻거나, TTS 환경에서는 입력 텍스트의 분석을 통해 얻는다. 포즈 정보는 순차적으로 디지털 오디오 신호에 부가된다. TTS 환경에서, 오디오 신호는 합성된 음성이다. 본 발명의 일실시예에 있어서, 상이한 타입의 포즈들이 식별된다. 포즈 정보는 바람직하게는 각각이 포즈 타입과 오디오 데이터 내의 포즈 위치를 지시하는 포인터를 포함하는 세트 또는 튜플 배열을 포함한다. 다음에 오디오 데이터 및 대응하는 포즈 정보는 유한 길이 패킷으로 조립된다. 바람직하게는, 가능하다면 패킷이 포즈의 경계에서 개시 및 종료하도록 패킷을 형성한다.

수신된 오디오 데이터를 재구성할 때, 포즈 정보를 이용하여, 패킷 전달시에 발생하는 지연을 수용하기에 적절한 시간에 포즈를 삽입한다. 일실시예에 있어서, 포즈는 포즈 타입 체계에 기초하여 삽입된다. 예컨대, 표시화된 음성의 버퍼가 단어, 구 및 문장 경계에 대한 포인터를 포함하면, 포즈는 주 경계, 즉 문장 및 구에 더 자연히 삽입되고, 이 때 네트워크 성능은 더 커진다. 포즈 중에, 오디오 필러 정보, 예컨대 보고 메시지 또는 컴포트 오디오 등이 삽입될 수 있다. 또한, 오디오 데이터의 세그먼트가 쓰이질 않아 무시 가능할 때를 판정하기 위한 매커니즘이 제공된다. 재생은 그 세그먼트에 이어 계속된다. 또한, 포즈 정보를 이용하여, 재구성할 오디오 타입이 무엇이고 무시할 타입이 무엇인지를 관리할 수 있다. 이러한 이점 및 다른 이점은 다음의 상세한 설명으로부터 명백해질 것이다.

도 1 내지 도 6을 참조하여 본 발명을 더 상세하게 설명한다. 도 1은 네트워크(102)를 통해 서로 통신하는 복수의 오디오 소스(104)와 복수의 오디오 목적지(106)를 포함하는 통신 시스템(100)을 도시한다. 바람직한 실시예에 있어서, 네트워크(102)는 패킷 기반 네트워크로서, 그곳에 전달된 데이터는 전달 지연 레벨이 변화되기 쉽다. 네트워크(102)는 유선 네트워크 또는 무선 네트워크이거나 그 조합일 수 있다. 따라서, 오디오 소스(104)와 오디오 목적지(106)는 유선(예컨대, 전화선 또는 케이블선) 또는 무선 경로를 통해 네트워크(102)에 결합될 수 있다. 마찬가지로, 네트워크 내, 즉 라우팅 포인트간의 통신 경로도 유선 또는 무선 경로일 수 있다. 또한, 네트워크(102)는 인터넷이나 월드 와이드 웹과 같은 공중 네트워크 또는 사설 네트워크이거나 그 조합을 포함할 수 있다. 바람직하게는, 각 오디오 소스(104)와 오디오 목적지(106)는 네트워크(102) 내에서 개별적으로 어드레스 지정 가능하다. 그러한 패킷 기반 네트워크는 당업자에게 잘 알려져 있으므로, 더이상의 상세한 설명은 생략한다.

각 오디오 소스(104)는 하나 이상의 오디오 목적지(106)에게 전달하기 위한 오디오 데이터 또는 디지털 오디오 및 이것에 대응하는 포즈 정보를 최소한 제공한다. 바람직하게는, 각 오디오 소스(104)는 오디오 데이터 및 대응하는 포즈 정보를 유한 길이 패킷들로 분할하여 네트워크(102)를 통해 전송한다. 바람직한 실시예에 있어서, 각 오디오 소스(104)는 네트워크를 통해 요청을 수신하여 서비스를 제공하거나 다른 방법으로 응답하는 오디오 서버를 포함한다. 그러한 오디오 서버 구현에 적합한 플랫폼으로는 윈도우/NT나 선 솔라리스 워크스테이션이 있다. 도시한 바와 같이, 각 오디오 소스(104)는 휘발성 또는 비휘발성의 전기 또는 자기 저장 장치와 같은 메모리(112)에 결합되는 예컨대 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서 등이나 그 조합인 프로세서(110)를 포함한다. 통상의 구현예에 있어서, 메모리(112)는 프로세서(110)가 실행하는 명령어를 저장한다. 그 저장된 명령어를 실행할 때 프로세서(110)가 사용하는 조작적 변수도 통상 메모리(112)에 저장된다. 또한, 각 오디오 소스(104)는 네트워크(102)와의 통신을 가능하게 해주는 인터페이스 회로(도시 생략)를 포함한다. 바람직한 실시예에 있어서, 이하 더 상세하게 설명하겠지만, 하나 이상의 오디오 소스(104)는 텍스트 데이터를 음성 데이터로 변환시키는 TTS(text-to-speech) 서버를 포함한다. 일반적으로는, 오디오 소스(104)의 특정 구현예는 디자인 선택에 관한 문제이며, 본 발명을 이것으로 한정하지 않는다.

각 오디오 목적지(106)는 오디오 소스(104)가 생성한 패킷을 수신하여 디코딩할 수 있다. 특히, 이하에 더 상세하게 설명하겠지만, 각 오디오 목적지(106)는 전송된 오디오 데이터를 처리하여 오디오 신호로 재구성하여 오디오 목적지의 사용자에게 재생한다. 또한, 각 오디오 목적지(106)는 연속적으로 전달되는 오디오 데이터가 중단 또는 지연되는 조건의 발생을 인지할 수 있다. 따라서, 각 오디오 목적지(106)는 각 전송 패킷에 포함된 포즈 정보에 기초하여 재구성된 오디오에 포즈를 삽입할 수 있다. 오디오 소스(104)와 마찬가지로, 각 오디오 목적지(106)도 휘발성 또는 비휘발성의 전기 또는 자기 저장 장치와 같은 메모리(112)에 결합되는 예컨대 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서 등이나 그 조합인 프로세서(110)를 포함한다. 통상의 구현예에 있어서, 메모리(112)는 프로세서(110)가 실행하는 명령어를 저장한다. 그 저장된 명령어를 실행할 때 프로세서(110)가 사용하는 조작적 변수도 통상 메모리(112)에 저장된다. 바람직한 실시예에 있어서, 각 오디오 목적지(106)는 오디오 데이터 요청을 네트워크(112)를 통해 오디오 서버(104)에 전송할 수 있는 오디오 클라이언트를 포함한다. 통상적으로, 오디오 클라이언트는 하층의 처리 플렛폼이 실행하는 애플리케이션 프로세스로서 구현된다. 예컨대, 오디오 목적지(106a)는 오디오 클라이언트 애플리케이션이 실행되는 퍼스널 컴퓨터를 포함한다. 바람직한 실시예에 있어서, 하나 이상의 오디오 목적지(106)는 통신 기반 시설, 즉 네트워크(102)와 통신할 수 있는 무선 통신 장치, 예컨대 셀룰러폰 등을 포함한다. 본 발명을 오디오 목적지(106)의 특정 하드웨어 구현예로 한정하지 않는다.

전술한 바와 같이, 본 발명에 따른 오디오 소스는 디지털 오디오 데이터 및그 디지털 오디오 데이터에 관한 포즈 정보를 포함하는 패킷을 생성한다. 본 발명에 따른 패킷에 대한 바람직한 실시예를 도 2에 도시하였다. 특히, 각 패킷(200)은 바람직하게는 디지털 오디오(202) 및 포즈 정보(204)를 포함한다. 도시한 바와 같이, 포즈 정보(204)는 헤더로서 디지털 오디오(202) 앞에 배치된다. 이러한 기술은 디지털 오디오(202)를 임의 소스, 즉 기록형 오디오 또는 음성, TTS 생성기 등으로부터 얻을 수 있기 때문에 선호된다. 그러나, 포즈 정보(204)는 디지털 오디오(202) 뒤에 배치되거나, 디지털 오디오(202) 내에 산재될 수도 있다. 후자의 경우, 유일한 회피 코드(예컨대, 연속된 3개의 제로 바이트)를 임의의 포즈 정보보다 먼저 발생하도록 디지털 오디오 내에 배치함으로써 그 포즈 정보는 디지털 오디오의 연속 부분으로 인식될 것이다.

여하튼, 포즈 정보를 헤더로서 디지털 오디오에 부가하는 바람직한 실시예에 있어서, 오디오 개시 포인터(206)를 선택적으로 첨부할 수 있다. 오디오 개시 포인터(206)는 디지털 오디오(202)의 제1 옥텟을 지시한다. 오디오 개시 포인터(206)의 값이 제로인 경우에는 패킷에 어떠한 디지털 음성도 포함되어 있지 않다는 것을 의미한다. 그 값이 1인 경우에는 패킷에 포즈 정보가 포함되어 있지 않다는 것을 의미한다. 이것은 예컨대 디지털 오디오가 단일 음절의 단어를 나타내어 쉽게 포즈를 포함할 수 없는 경우일 것이다. 바람직하게는, 본 발명에 따른 패킷은 가능하다면 디지터 오디오(202)가 포즈 경계에서 개시 종료할 수 있도록 구성된다. 전술한 바와 같이, 구어 단어를 대표하는 음성 신호가 패킷보다 긴 경우는 제외할 수 있다. 그 경우, 그 단어의 처음 패킷을 포즈로 개시하고 마지막 패킷을 포즈로 종료하며,중간 패킷에는 포즈가 없다. 바람직한 실시예에 있어서, 포즈 정보(204)는 패킷 뒤에 있는 포즈를 지시하여 오디오 요소가 패킷 경계에서 종료하는 때를 지시해야만 한다.

패킷(200)은 또한 라우팅 정보(208)도 선택적으로 포함할 수 있다. 라우팅 정보(208)는 하층의 전송 매커니즘에 의해 패킷 앞이나 뒤에 부가될 수 있다. 예컨대, 패킷(200)은 네트워크를 통과하기 위해서 TCP/IP 또는 UDP/IP 헤더 및 테일러를 포함할 수 있다. 패킷(200)에 부가되는 라우팅 정보(208)의 특정 형식은 통상 사용되는 하층의 전송 기술에 따른 디자인 선택에 관한 문제임을 당업자는 인식할 것이다.

적어도, 포즈 정보(204)는 관련 디지털 음성(202)에서 포즈가 발생하는 위치를 나타낸다. 포즈는 당연히 발생하거나 오디오 스트림 내에 삽입된 단절(break)이다. 오디오 신호의 특정한 하위 분류는 음성 신호이다. 음성 신호의 경우에는, 단어(word), 구(phrase), 문장(sentence), 단락(paragraph) 등의 사이에서 당연히 포즈가 발생한다. 디지털 오디오(202)를 제공하는 데 TTS 서버가 사용되는 경우, 입력 텍스트 스트링 분석에 기초하여 포즈를 쉽게 식별할 수 있다. 예컨대, 개개의 단어 사이의 공간은 단어 포즈, 콤마는 구 포즈, 그리고 마침표, 느낌표 또는 물음표는 문장 포즈에 해당된다. 본질적으로, TTS 서버는 입력 텍스트 스트링을 구문 분석(parse)하여 포즈 위치를 찾고, 그 텍스트의 적용 의미(semantics)와 정황(context) 및 취지(meaning)에 따라 포즈 발생 위치를 디지털 음성 스트림에 표시(mark)한다.

바람직한 실시예에 있어서, 포즈 정보는 표시되는 각 포즈에 대한 튜플(tuple) {타입, 포인터}로 구성된다. 이것을 도 3에 도시하였는데, 여기서는 N개의 튜플을 보여준다. 포인터는 디지털 오디오 내에서 포즈가 발생하는 위치를 나타내는, 바람직하게는 디지털 오디오의 개시점에 대한, 오프셋 값이다. 포즈 타입에는 화자(speaker) 포즈, 화제(topic) 포즈, 서두(heading) 포즈, 단락 포즈, 문장 포즈, 구 포즈, 단어 포즈, 결미(end) 포즈 및 라이브 오디오 포즈 등이 있으며, 이것들로 한정하지 않는다. 라이브 오디오 포즈는 라이브 오디오 중에 검출되는 무음 기간에 해당된다. 이것은 일부 다른 포즈 타입(예컨대, 단어, 문장, 화자 등의 포즈)과 같은 포즈 정황을 나타내지는 않지만, 무음의 발생은 포즈를 표시하기에 좋은 위치를 나타낸다. 결미 포즈를 사용하는 이유는 문장 집합(예컨대, 단락 등) 뒤에 삽입되는 포즈의 길이가 문장 사이의 포즈와 다를 수 있기 때문이다. 예컨대, 적절한 포즈 위치를 찾는 데 사용하는 디코더측의 알고리즘(도 6에 관한 이하의 설명을 참조)은 현재 결미 타입의 포즈가 수신 버퍼에서 나중에 발견된다면 포즈를 삽입하지 않기로 결정할 것이다. 단어, 구, 문장, 단락 및 서두 포즈는 표준 문서 개념에서 얻은 것이다. 단어 포즈는 단어 사이의 공간에서 얻은 것이고, 구 포즈는 콤마, 세미콜론, 콜론 등과 같은 단어 사이의 구두점에서 얻은 것이며, 문장 포즈는 마침표, 느낌표 또는 물음표와 같은 문장 결미 구두점에서 얻은 것이고, 단락 포즈는 단락표에서 얻은 것이며, 서두 포즈는 형식 및 간격 표시자(formatting and spacing indicia)에서 얻은 것이고, 화제 및 화자 포즈는 더 잘 구어 대화를 나타내고 정황 정보를 나타내는 것이다. 대화 도중에, 화자 및화제는 변한다. 이것들은 재생시 포즈를 삽입할 당연한 위치이다. TTS의 경우, 몇몇 타입의 표시자를 사용하여 그러한 위치를 검출할 수 있다. 예컨대, Q&A 시나리오에 있어서, 물음(question)은 흔히 Q: 또는 화자의 이니셜(예컨대 DB, CM 등)에 의해서, 또는 서체 변경에 의해서 차별화된다. 이와 같이, 물음 후에(화자 변경) 또는 대답 후에(물음마다 새로운 화제를 이끈다는 가정 하에서의 화제 변경) 포즈를 삽입할 것이다. 기록형 오디오의 경우, 편집 기능에 의해서 편집기의 자유 재량으로 화자 및 화제 표시자를 삽입한다. 당업자라면 화제 및 화자 포즈를 식별하는 데 다른 방법을 사용할 수 있다는 것을 알 것이다. 상기 포즈 타입들은 구어 및 문어 영어에 맞추어진 것이다. 그러나 다른 언어에서도 유사한 포즈 타입들을 얻을 수 있을 것이다. 이러한 기술은 또한 텍스트로부터 얻은 것과는 다른 오디오 스트림에도 사용될 수 있다. 주의할 점은 포즈 발생 위치를 모두 식별할 필요는 없다는 것이다. 오히려, 포즈 정보를 조립할 때에 일정한 타입의 포즈만을 식별하도록 하는 것이 바람직할 수도 있다. 여하튼, 바람직한 실시예에 있어서는, 타입 데이터 및 포인터 데이터를 각각 4 비트 및 12 비트로 인코딩함으로써, 16개의 포즈 타입과 4096개의 옥텟에 달하는 디지털 음성이 가능하다. 물론, 디자인 선택에 관한 문제로서, 다른 비트 길이로 인코딩하는 것도 가능하다.

바람직한 실시예에 있어서는, 발생 순서에 따라 튜플을 수집 배열한다. 제일 먼저 발생하는 포즈는 그 포즈 정보가 헤더(204)의 제일 처음에 배치된다. 이것을 도 3에 도시하였는데, 여기서 제1 튜플(302)의 포인터(포인터₁)는 디지털오디오(202)의 개시점에 가장 가까운 위치를 지시한다. 반대로, 제N 튜플(308)의 포인터(포인터_N)는 디지털 오디오(202)의 종료점에 가장 가까운 위치를 지시한다. 도 3에 도시한 바와 같이, 제1 튜플(302)과 제N 튜플(308)은 "타입 1"(단지 예시적인 것임)에 대응하는 포즈 타입을 포함한다. 또한, 제2 튜플(304)과 제3 튜플(306)은 "타입 2"에 대응하는 포즈 타입을 포함한다. 도 3에 도시한 예는 바람직한 실시예에 있어서는 어떠한 튜플도 다양한 포즈 타입을 포함할 수 있다는 더 일반적인 원칙을 예시하기 위한 특정예이다. 그러나, 다른 실시예도 가능하다. 예컨대, 다른 실시예를 도 4에 도시하였는데, 여기서 각 포즈 타입은 그 타입의 포즈마다 하나 이상의 포인트와 관련되어 있다. 이와 같이, 튜플은 {타입, 길이, 포인터들}의 형식을 취한다. 길이 파라미터는 그 포즈 타입과 관련된 포인트의 수를 나타낸다. 도시한 예에서는, M개의 상이한 포즈 타입이 있다고 가정한다. 이와 같이, 제1 포즈 타입이 제1 튜플(402)에 포함된 경우, 길이 파라미터는 그 튜플에 j개의 포인터가 있다는 것을 나타내며, 그 포인터들이 그 뒤에 위치한다. 또한, 제M 포즈 타입이 제M 튜플(404)에 포함된 경우에는, 길이 파라미터는 그 튜플에 k개의 포인터가 있다는 것을 나타내며, 그 포인터들이 그 뒤에 위치한다. 주의할 점은 j가 k와 같아서는 안된다는 점이다. 또한, 디지털 오디오 내에 소정의 포즈 타입의 포즈가 없는 간단한 경우에는, 그 포즈 타입에 대응하는 튜플을 포함할 필요가 없다. 이와 달리, 그 포즈 타입의 튜플은 0의 길이를 포함할 수 있다. 또 주의할 점은 이 실시예에 있어서는 포인터들을 반드시 순차적으로 배열할 필요가 없다는 점이다. 즉, 제1튜플(402)에 대응하는 제1 포인터(포인터₁)는 실제로는 제M 튜플(404)의 제1 포인터(포인터₁) 후에 발생하는 디지털 오디오 내의 위치를 지시할 수도 있다. 여하튼, 당업자라면 포즈 타입 및 포인터를 다양한 형식으로 인코딩할 수 있다(예컨대, 필드 사이즈를 크게 하여 더 많은 포즈 타입 또는 더 긴 패킷을 수용할 수 있고, 그 타입들에 대한 비트 맵을 한 타입이 몇가지 특성, 예컨대 단어, 구 등을 갖게 할 수 있다)는 것을 알 것이다.

이제 도 5를 참조해 보면, 본 발명에 따라 디지털 오디오를 인코딩하는 장치가 도시되어 있다. 인코더(500)는 각 오디오 소스(104)에 포함되어 있다. 후술하는 인코더(500)의 동작에 따르면, 당업자라면 디자인 선택에 관한 문제로서 소프트웨어, 하드웨어 또는 그 조합으로 인코더(500)를 구현할 수 있다는 것을 알 것이다. 또한, 디자인 선택에 관한 문제로서 도 5에 도시한 기능 요소들 중 많은 것들을 서로 결합하거나, 더 분할할 수도 있고, 또는 존재하지 않을 수도 있다. 인코더(500)는 표시기(marker)(508)에 결합되는 오디오 및 포즈 정보 소스(501, 503, 505)를 포함한다. 3개의 특정 타입의 오디오 및 포즈 정보 소스를 도 5에 도시하였다. 그러나, 일반적으로는, 오디오 정보를 나타내는 입력 데이터를 분석하고 그것에 대응하는 포즈 정보를 제공할 수 있는 소스라면 어떤 것도 가능하다. 표시기(508)는 포즈 정보(524, 542, 552)를 조립하고 그것을 오디오 데이터(526, 544, 554)와 적절하게 상관시키는데, 이는 오디오 데이터를 제공될 때 제1 중간 버퍼에 저장하고, 이와 마찬가지로 대응하는 포즈 정보를 제2 중간 버퍼에 저장하고, 제2 중간 버퍼의 각 포즈 사이를 제1 중간 버퍼의 적절한 위치에 연결시킴으로써 달성된다. 이렇게 표시된 오디오 데이터(528)는 패킷화기(packetizer)(510)에 제공된다. 전술한 바와 같이, 패킷화기는 양단 중 어느 한 단에 포즈를 갖는 패킷을 생성한다. 바람직하게는, 패킷화기는 패킷 길이를 최소화하려고 하는데, 이를 위해서, 제1 중간 버퍼에서 최대 데이터 길이 바로 전의 제1 포즈를 찾는다. 다음에, 패킷화기는 제1 중간 버퍼의 처음부터 식별된 포즈까지의 데이터를 패킷으로 배치하고, 관련 포즈 정보를 제2 중간 버퍼로부터 패킷 헤더로 복사하여, 필요한 포인터 번역을 행한다. 이 프로세스는 연속적으로 반복하여 각 식별된 포즈 바로 뒤의 오디오 데이터에서 시작한다. 다음에, 패킷화되고 표시화된 오디오 데이터(530)는 바람직하게는 도 2 내지 도 4에 도시한 패킷 구조에 따라 송신 패킷(532)을 제공하는 송신기(512)로 라우팅된다. 송신기(512)의 특정 형식은 패킷을 전달하는 데 사용되는 특정 매체에 따라 달라진다. 예컨대, 인코더(500)가 인터넷 또는 월드 와이드 웹과 같이 네트워크에 무선으로 접속된 네트워크 서버에 상주하는 경우, 송신기(512)는 TCP/IP 호환성 인터페이스 보드 또는 유사한 장치를 포함할 수 있다. 한편, 인코더(500)가 무선 채널을 이용하는 경우에는, 송신기(512)는 무선 패킷 데이터 호환성 송신기를 포함한다.

본 발명의 바람직한 실시예에 있어서, 오디오 데이터(526) 및 포즈 정보(524)는 TTS 서버(506)를 통해 제공된다. 특히, 애플리케이션(502a)은 구문 분석기(520)에 대한 입력으로서 텍스트 데이터(520)를 제공한다. 애플리케이션(502a)은 임의의 텍스트 스트링 데이터 소스를 포함할 수 있다. 샘플 음성 기반 애플리케이션 및 디벨로퍼 메뉴얼을 애플리케이션 디벨로퍼 킷의 부품으로서 주 음성 인식 및 TTS 기술 제조업자, 예컨대 Nuance, Speech Works, IBM 및 Lernout & Hauspie로부터 입수 가능하다. 다른 애플리케이션(502)도 당업계에 잘 알려져 있고 본 발명과 함께 사용하기 위해서 쉽게 통합될 수 있다. 바람직하게는, 애플리케이션(502a)이 제공하는 텍스트 데이터(520)는 포즈와 관련될 수 있는 모든 표시자를 포함한다. 즉, 구두점, 단락 단절, 서두, 공간 또는 다른 정황 결정 정보를 나타내는 데이터가 텍스트 데이터(520)에 포함된다. 또한, 애플리케이션(502)은 인코더(500)와 함께 상주할 필요는 없다.

구문 분석기(504)는 입력 텍스트 데이터(520)를 분석하고 선택적으로 그 중 일부분(522)을 TTS 서버(506)에 제공한다. 특히, 구문 분석기는 단어, 구, 문장 등을 TTS 서버에 제공한다. 구문 분석기가 TTS 서버에 제공한 입력 텍스트 데이터의 일부분의 종류에 따라, 생성된 음성 스트링이 적절히 표시된다. 예컨대, 단어가 TTS 서버에 제공되면, TTS 서버의 출력은 그 단어를 합성한 음성이 되고, 표시기는 그 음성에 단어 포즈를 표시할 수 있다. 또 다른 예로서, 구문 분석기가 구를 제공하면, TTS 서버의 출력은 구가 되고, 그 합성된 음성에 구 포즈가 표시된다. 더 복잡한 부분의 텍스트가 TTS 서버에 제공되는 경우에는, 음성 내의 단일 위치에 하나 이상의 포즈 타입이 표시될 가능성이 있다. 예컨대, 전체 문장이 TTS 서버에 제공되면, 그 합성된 음성(바람직하게는 디지털 형식)의 끝에는 결미 포즈, 단락 포즈, 문장 포즈, 단어 포즈 또는 이것들을 조합한 포즈가 표시될 수 있다. 전술한 기술은 구문 분석기, 표시기 및 TTS 서버가 통합되지 않은 경우에 가장 적합하다. 이러한 기능들이 더 조밀하게 통합되면(예컨대, 이러한 기능들이 단일 소프트웨어 패키지 또는 통합 소프트웨어 모듈 세트에 포함되는 경우), 통합된 기능이 상이한 포즈 타입에 대응하는 표시자를 인식하고 합성된 음성 스트림을 실시간으로 표시함으로써 단어 포즈, 구 포즈 또는 문장 포즈를 표시할 수 있다. TTS 서버의 적합한 구현예로는 Lernout and Hauspie사의 RealSpeak 소프트웨어, Speech Works사의 Speechify 및 Sproat(편집자)의 1997년도 "Multilingual Test-To-Speech Synthesis : The Bell Labs Approach"(참조로서 본 명세서에 포함됨)에 기재된 구현예가 있다. 또한, 구문 분석기(504)는 텍스트 데이터(520)에 포함된 모든 포즈 관련 표시자를 인식한다. 구문 분석기는 그러한 표시자에 기초하여, 포즈 정보(524)를 포즈 타입의 형식으로 표시기(508)에 제공할 수 있다. 예컨대, 단어 사이의 공간의 발생은 단어 타입 포즈를 발생시키고, 마침표, 물음표 또는 느낌표는 문장 타입 포즈를 발생시킨다. 이와 같이, 표시기(508)는 전술한 바와 같이 서로 관련될 수 있는 오디오 데이터(526)와 대응하는 포즈 정보(524)를 동시에 수신한다.

다른 실시예에 있어서, 오디오 데이터(544)와 포즈 정보(542)는 오디오 편집기(514)를 통해 제공된다. 특히, 애플리케이션(502b)은 오디오 데이터(540)를 오디오 편집기(514)에 제공한다. 오디오 데이터(540)는 기록형 디지털 오디오인 것이 바람직하다. 특히, 적합한 오디오 편집기(514)는 Voice Information Systems사의 VFEdit, Parity Software사의 VOX Studio, BitWorks사의 Audio Work Station, 사용자가 오디오 데이터 내의 포즈를 식별할 수 있도록 변형한 Farpoint Software사의 Digitized Voice Programmer's Toolkit과 같은 적합한 오디오 처리 패키지를 실행하는 퍼스널 컴퓨터이다. 사용자는 오디오 편집기(514)를 이용하여, 오디오 데이터(514)[애플리케이션(502b)에 제공되는 제어 신호(541)를 통해 제어됨]에 대하여, 포즈를 식별하고, 포즈 정보(542) 및 대응하는 오디오 데이터(544)를 표시기(508)에 제공하는 단계를 밟을 수 있다. 이러한 절차는 포즈를 식별하는 데에 사람의 간섭을 필요로 하기 때문에, 오프 라인에서 수행할 때, 즉 실시간이 아닐 때 가장 효과적이다. 이 경우, 표시화된 오디오(528) 또는 패킷화되고 표시화된 오디오(530)는 추후 검색을 위해서 저장될 수 있다.

또 다른 변형례에 있어서, 포즈 분석기(570)를 사용함으로써, 라이브 오디오 데이터(554) 및 이에 대응하는 포즈 정보(552)가 제공된다. 특히, 라이브 오디오 소스(560)가 라이브 오디오 데이터(550)를 포즈 분석기(570)에 제공한다. 라이브 오디오 소스(560)는 그러한 오디오의 임의의 소스를 포함해도 좋으며, 라이브 오디오 데이터(550)는 디지털 형태로 제공되는 것이 바람직하다. 포즈 분석기(570)는, 예정된 길이보다 더 긴 무음 기간을 검색하여 라이브 오디오 데이터(550) 내의 포즈들을 찾는다. 예컨대, 1989년 영국 윕스위치에서 개최된 International Conference on Acoustics, Speech and Signal Processing에서 발표된 British Telecom Res. Lab.의 Freeman 등의 논문 "The Voice Activity Detector For The Pan-European Digital Cellular Mobile Telephone Service"에서 입증될 수 있는 바와 같이 당업계에서 잘 알려져 있는데, 그 내용은 본 명세서에 참고로 인용된다. 무음 기간은 통상 자연적인 포즈를 나타내기 때문에, 특히 음성에 대하여 포즈를 삽입할 가능성이 있는 영역이다. 그것이 분석됨에 따라, 라이브 오디오데이터(550)는 라이브 오디오 데이터(554)를 통해서 표시기(558)로 전달된다. 아울러, 포즈 분석기(570)는 적절한 무음 기간을 인식하는 곳마다 포즈 정보를 표시기(508)에 제공한다. 포즈 분석기(570)는 통상 그것이 배치하는 포즈의 형태를 인식할 수는 없을 것이기 때문에 (예컨대, TTS 서버의 경우에서처럼), 비록 길이가 다른 포즈가 다른 포즈 타입으로 분류될 수 있기는 하지만, 포즈 정보(552)는 단지 라이브 오디오 타입의 포즈만 포함하게 된다.

포즈 분석기(570)을 채용하는 특정 형태의 실시예는 보이스 액티비티 검출기(Voice Activity Detector:VAD)를 사용하는 것을 포함한다. 원거리 통신 분야에서 알려져 있는 바와 같이, VAD는 종종 음성 신호를 적절히 처리하기 위하여 필요하다. 예를 들면, 대부분의 패킷 전환 및 압축 시스템(packet-switched and compression system)에 있어서는 무음 기간이 데이터 전송 속도(data rates)를 낮추는 수단으로서의 음성 신호 처리 기간과 동일한 방법으로 인코딩되지 않는다. 그러므로, 음성 인코더(즉, 음성 압축 알고리듬)는 종종 무음 기간을 감지하기 위하여 VAD를 사용한다. 무음을 감지하면, 인코더는 때로는 인코딩된 무음을 나타내는 보다 고속의 패킷과 대비되게 무음 기술(silence description: SID) 패킷으로도 불리는 무음 배경 노이즈(silence background-noise)의 설명을 주기적으로 출력함으로써 전송 패킷 속도를 낮추는 것이 통상적이다. 그러므로, 본 발명의 한 가지 실시예에 있어서는, 보이스 액티비티 검출기가 포즈 분석기(570)를 구현한다. 이 경우, 포즈 분석기(570)는 오디오 데이터(554)를 패킷 형태로 출력하고, 필요한 경우 포즈 정보(552)를 SID 패킷 형태로 출력한다. 본질적으로, SID 패킷들은 그러한 목적으로 명시적으로 생성되는 일이 없이 포즈 정보를 나타낸다. 이 경우, 분석기(570)에 의하여 출력되는 인코딩된 오디오 패킷(554) 및 SID 패킷(552)의 형태에 따라 표시기(508) 및 패킷화기(510)가 불필요할 수도 있다. 그러므로, 본 실시예에서는 도 5에 도시되어 있는 바와 같이, 인코딩된 오디오 패킷(554)과 SID 패킷(552)을 직접 송신기(512)에 제공할 수도 있다. 디코더에서는, 무음을 재생하기 위해서뿐만 아니라 오디오 스트림에 있어서의 잠재적인 포즈 지점을 나타내기 위하여 그러한 하나 이상의 SID 패킷의 수신이 이용될 수도 있다.

도 6에는 포즈 정보를 포함하는 디지털화된 오디오를 디코딩하기 위한 장치가 도시되어 있다. 디코더(600)는 각 오디오 목적지(106)에 포함된다. 디코더(600)는 수신기(604)에 결합된 제어기(602), 버퍼(606), 오디오 재구성기(608), 오디오 필 생성기(612), 사용자 인터페이스(620) 및 송신기(622)를 포함한다. 수신기(604)는 버퍼(606)에 결합되고, 이 버퍼는 다시 오디오 재구성기(608)에 결합된다. 마찬가지로, 오디오 필 생성기(612)는 오디오 재구성기(608)에 결합된다. 디코더(600) 및 그것의 구성 요소들의 동작을 아래에서 더 자세하게 설명한다. 당업계의 통상적인 지식을 가지고 있는 자는 디코더(600)가 설계상의 선택의 문제로서 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다는 것을 인식할 것이다. 또한, 설계상의 문제로서, 도 6에 도시된 기능 요소들 중 여러 가지의 것들이 함께 조합되거나 또는 더 세분될 수 있다.

수신기(604)는 전송된 패킷(630)을 전송하는 데 사용되는 네트워크 프로토콜과 호환성을 갖는다. 송신기(512)의 경우처럼, 수신기(604)의 특정 형태는 패킷을전달하는 데 사용되는 네트워크에 종속된다. 예를 들면, 패킷이 인터넷 또는 월드 와이드 웹을 매개로 전송되는 경우, 수신기(604)는 TCP/IP 호환성 네트워크 카드 및 대응하는 소프트웨어를 포함할 수도 있다. 마찬가지로, 수신기(604)는 네트워크가 무선인 경우 무선 수신기를 포함할 수도 있다. 그럼에도 불구하고, 수신기(604)는 전송된 패킷(630)을 디지털화된 오디오 스트림으로 조립한다. 이는 네트워크가 순서에서 벗어나서 패킷을 전달하거나 패킷이 소실될 수도 있기 때문에 필요하다. 재조립 과정은 소실 패킷의 재전송을 요청하는 것을 포함할 수도 있다. 에러가 없는 조건 하에서, 디지털화된 오디오 스트림(634)은 재조립되어 버퍼(606)에 저장된 후 재생을 위하여 재구성된다. 아울러, 수신기(604)은 포즈 정보(622)을 스트립핑하여 제어기(602)에 제공한다. 별법으로, 포즈 정보(652)는 오디오 데이터(634)와 병렬로 상기 제어기(602)에 액세스할 수 있는 다른 하나의 버퍼(도시하지 않음)에 저장될 수 있다.

버퍼(606)는 메모리에 있는 저장 공간을 포함한다. 정규의 조건 하에서는, 오디오 재구성기(608)가 스피커(610)를 통하여 재구성 오디오(640)의 재생 개시의 명령을 받기 전에 예정된 양의 오디오 데이터(634)가 버퍼(606)에 저장된다. 바람직한 실시예에 있어서는, 재생 전에 오디오 데이터의 3초값(3 seconds worth)이 버퍼(606)에 저장된다. 그러나, 그것은 더 커도 좋고, 음성이 재생 속도보다 더 빠른 속도로 네트워크를 통해서 전달될 수도 있다고 하는 장점을 취할 수도 있다. 이 경우, 음성은 필요한 것 보다 훨씬 더 신속하게 디코더에 축적된다. 이에 따라, 디코더는 후술되는 선행 스킴(precedence scheme)을 기초로 미래를 예측하고(to lookinto the future) 포즈할 보다 적절한 위치를 결정한다. 바람직한 실시예에 있어서, 음성 버퍼는 10초까지의 오디오 데이터를 보유할 수 있다. 오디오 재구성기(608)는 오디오 데이터를 조작하여 스피커(610)를 통한 재생에 적합한 아날로그 신호를 합성한다. 오디오 재구성기(608)가 아날로그 신호를 합성하는 특별한 방법은 적어도 부분적으로는 오디오 데이터(636)의 포맷에 종속된다. 예를 들면, 오디오 데이터가 64 Kbps 펄스 코드 변조(pulse code modulation: PCM) 샘플을 포함하는 경우, 오디오 재구성기(608)는 적절한 디지털대 아날로그(D/A) 변환기를 포함해도 좋다. 별법으로, 오디오 데이터가 압축된 디지털 오디오를 포함하는 경우, 재구성기(608)는 우선 그 데이터를 D/A 변환기에 제공할 적절한 포맷으로 압축을 풀어줘야 한다.

네트워크가, 예컨대 혼잡, 열악한 에러 조건 또는 접속성(connectivity) 결여로 인하여 패킷을 전달하는 데 어려움을 겪고 있는 경우, 디코더(600)는 그 조건을 인식하고 전송된 패킷(630)에 포함된 포즈 정보(652)를 가초로 재생을 중지한다. 한 가지 실시예에 있어서, 수신기(604)는 네트워크 조건(632)의 통지를 받는다. 즉, 수신기(604)는 서비스 품질의 변화와 같은 통지를 신청 및 수신하여 네트 워크 성능이 열화 또는 향상되는 시기를 확인한다. 이처럼 통지를 제공하는 것은 당업계에서 잘 알려져 있는 것으로 더 자세히 설명할 필요는 없다. 열화된 서비스의 표시를 받으면, 수신기(604)는 열화 조건을 나타내는 메시지(650)를 제어기(602)로 보낸다. 변형예에 있어서, 수신기(604)는 전송된 패킷(630)의 하위 전달 프로토콜로부터의 전달을 모니터링한다. 패킷의 전달이 지연되거나 중단되는경우, 수신기(604)는 메시지(650)를 제어기로 전송한다. 바람직한 실시예에 있어서, 메시지(650)는 버퍼 언더플로우 조건 표시기(buffer underflow condition indicator), 버퍼에 남은 오디오 데이터 양의 표시, 최종 수신 메시지의 식별자 및 다음 메시지의 시작 포인트(예컨대, 디코더가 최종 수신과 추후 수신 사이에서 일부 패킷을 드롭하기로 결정한 경우) 중 어느 것을 포함할 수 있다. 또 다른 하나의 실시예에서, 제어기(602)는 링크(653)에 의하여 나타낸 바와 같이 버퍼(606)를 직접 모니터링하여 버퍼의 상태를 결정할 수도 있다. 예를 들면, 버퍼(606)가 시작 또는 헤드 포인터와 말단 또는 테일 포인터를 갖는 원형 버퍼(circular buffer)로서 구현되어 있는 경우, 제어기(602)는 두 포인터의 접근도를 모니터링할 수 있다. 포인터들이 서로 너무 접근해 있는 경우에 하류 조건이 감지된다.

제어기(602)는 전송된 패킷들의 전달에 악영향을 미치는 조건이 발생하였다고 하는 메시지(650)를 받으면 전송된 패킷(630)에 포함된 포즈 정보(652)를 기초로 재구성된 오디오(640)에 하나 이상의 포즈를 삽입할 것을 결정할 수 있다. 도 6을 참고하면, 이는 오디오 재구성기(608)에 포즈 제어 신호(654)를 발행 또는 주장하는 제어기(602)에 의하여 성취된다. 제어 신호(654)는 오디오 재구성기(608)가 버퍼(606)로부터 검색된 오디오 데이터(636)의 재생을 중단시키게 한다. 특히, 그리고 전술한 포즈 타입을 참고하면, 제어기(602)는 화자 또는 화제 레벨에 우선 포즈를 삽입한 후, 서두, 문단 또는 문장 레벨에 포즈를 삽입하며, 마지막으로는 구 또는 단어 레벨에 포즈를 삽입하려 한다. 결미 포즈 또는 라이브 오디오 포즈에는 설계상의 선택의 문제로서 이 계층(hierarchy) 내의 어느 곳에서든 선행 레벨이 할당될 수도 있다. 사용되는 포즈 타입은 재생 버퍼에서 사용 가능한 디지털화된 음성 신호의 양에 종속되며, 성능은 재생 버퍼의 사이즈에 의하여 영향을 받는다. 큰 버퍼가 바람직한 레벨, 즉 토픽 또는 스피커 레벨의 포즈를 제공할 기회를 더 많이 제공하기 쉽다. 역으로, 작은 버퍼는 열악한 네트워크 성능 하에서 단어 또는 구 레벨에서 더욱 빈번한 포즈를 초래하기 쉽다. 버퍼 사이즈와 성능을 절충하는 것은 설계상의 선택의 문제이다.

따라서, 제어기(602)는 하나 이상의 포즈를 삽입할 필요가 있을 때, 버퍼(606)에 현재 저장된 오디오 데이터에 대응하는 포즈 정보(652)를 검사할 수가 있다. 제1 가용 포즈를 이용하거나 또는 전술한 선행 방법에 기초하여 제어기는 오디오 재구성기(608)에 지시하여 고정 시간 길이 또는 가변 시간 길이 동안 재생을 멈추도록 지시한다. 즉, 제어기(602)는 그의 판독 포인터가 임의점에 이르렀을 때 다수의 오디오 샘플 주기 동안에 재생을 중단할 것을 재구성기(608)에 지시할 수가 있다. 다수의 주기가 경과한 후 자동적으로 재생이 재개된다. 양호한 실시예에 있어서, 제어기(602)는 재구성기(608)에 지시하여 재생을 재개하도록 명령을 받을 때까지 재생을 중단하게 한다. 후자의 방법이 양호한 접근 방법인데, 왜냐하면 재구성기(608)는 샘플 카운터, 타이머 등을 유지하지 않아도 되기 때문이다. 삽입된 포즈가 단축되거나 길어질 필요가 있는 조건이 변화하면 샘플 카운터 또는 타이머는 변화하지 않아도 된다. 마지막으로, 재생을 재개하라는 명령은 재생이 중단되는 경우 이외의 시점에서 재개하기 위한 표시를 포함할 수 있다. 이런 식으로, 포즈는 여전히 버퍼링되거나 앞서 스킵되면 일부 음성을 재생하도록 사용 가능하다. 하나이상의 포즈가 오디오 데이터의 지연을 야기하는 조건이 지속되는 경우 삽입되면, 제어기(602)는 제1 포즈가 만료된 후 재생을 재개하도록 재구성기(608)에 지시할 수 있고 다시 재구성기에 지시하여 다음의 가용한 포즈 또는 사전 선택된 포즈에 이르렀을 때 멈추게한다. 이러한 프로세스는 충분한 오디오 데이터가 버퍼(606)에 남아있다면 필요에 따라 종종 반복될 수가 있다.

그 경우, 도 5와 관련하여 전술한 바와 같이, 보이스 엑티비티 검출기(VAD)를 이용하여 포즈 분석기(570)를 구현하는 경우, 포즈 정보는 무음 기술(SID) 패킷의 형태로 고유적으로 전송된다. 이 경우, 수신기(604)는 SID 패킷의 도달을 인식하고 이것을 제어기(602)에 표시한다. 이런 식으로 제어기(602)는 수신된 SID 패킷에 대응하는 오디오 스트림 내의 위치에서 포즈를 삽입할 수가 있다.

전술한 바와 같이, 삽입된 포즈이 길이는 소정의 길이로 설정 가능하다. 예컨대, 모든 포즈는 지속 기간 동안 1 초로 고정될 수 있다. 이 실시예에서 논리 극단은 그 조건이 지속하는 한 포즈 길이를 무한 길이로서 설정하는 것이다. 일단 더 이상 그러한 조건이 존재하지 않는다고 판단되면 포즈는 중단될 것이다. 제2 실시예에서 포즈의 길이는 삽입되는 포즈 타입에 따른다. 예컨대, 단어 및 구의 포즈는 비교적 짧은 지속기간, 서두, 구일 수 있으며, 문장 포즈는 길어질 수가 있고, 화자 및 화제 포즈는 더욱 길어질 수가 있다. 제3 실시예에서, 포즈의 길이는 상기 조건이 검출될 때 버퍼에 잔존하는 오디오 데이터의 양에 의존하도록 할 수 있다. 즉, 포즈 지속 기간은 버퍼에 잔존하는 오디오 데이터의 양에 반비례할 수 있다. 예컨대, 포즈는 버퍼가 3/4 이상 채워져 있으면 0.5초로, 1/2 에서 3/4 사이로 채워진 경우 1초로, 1/4에서 1/2 사이로 채워진 경우 2초로, 1/4 미만으로 채워진 경우 4초로 정해질 수 있다. 더욱이, 상기 세가지 접근 방법의 조합을 혼합할 수 있다. 예컨대, 포즈 지속 기간은 포즈 타입과 버퍼링된 오디오 데이터의 잔존량에 의존하도록 할 수 있다.

네트워크 접속이 상실되거나 재전송에 매우 긴 시간이 소요되고 있는 경우에, 추가 정보(오디오 필러)가 상기 포즈외에 추가로 도입될 수 있다. 이러한 목적으로, 제어기(602)는 오디오 필 생성기(612)에 제어 신호(656)를 발행 내지는 인가(assert)한다. 제어 신호(656)는 생성기(612)가 오디오 필러 데이터(658)를 생성하도록 지시하며, 생성할 데이터의 유형을 선택적으로 지시한다. 예컨대, 오디오 필러는 일시적 네트워크 곤란(difficulty)을 표시하는 음성 프롬프트를 포함할 수 있다. 대안으로서, 필러 데이터는 광고, 음악 또는 컴포트 노이즈(comfort noise)와 같은 기타 정보를 포함할 수 있다. 본 발명은 이러한 관점에 한정되지 않는다. 오디오 필러 데이터(658)는 전술한 바와 동일한 방법으로 오디오 재구성기(608)에 의해 청취 가능하게 된다.

버퍼 언더플로우(underflow)가 존재하는 경우, 즉 패킷들이 수신기(604)에 충분히 신속하게 도달하지 않는 경우에, 제어기(602)는 송신기(622)를 통해, 오디오 소스에 가능하다면 전진하여 점프하거나 전송 속도를 상향시킬 것을 지시하는 요청을 전송할 수도 있다. 이는 엄밀히 필요한 것은 아니며, 왜냐하면 제어기(602)가 이미 포즈를 유발하였을 것이고, 단지 추가 패킷의 도달을 대기할 수 있기 때문이다. 버퍼가 음성 스트림의 완료 이전에 비어 있으면, 버퍼는 미리 지정된 양의오디오 데이터가 재축적되거나 오디오 스트림의 끝이 결미 타입 포즈 표시에 의해 결정된 대로 도달한 후에만 포즈를 삽입하고 재생(playback)을 재개할 것이다. 디코더(600)가 이용할 수 있는 송신기(622)는 인코더(500)가 이용할 수 있는 송신기(512)와 실질적으로 동일함을 유의해야 한다.

버퍼 오버플로우(overflow)가 존재하는 경우에, 즉 패킷들이 수신기(604)에 너무 신속하게 도달하고 있는 경우에, 제어기(602)는 송신기(622)를 통해, 오디오 소스에 전송을 중단하거나 전송 속도를 조정하거나 또는 양자 모두를 지시하는 메시지를 전송할 수 있다. 이러한 시나리오의 결과로, 중간 패킷이 손상되는 경우에, 제어기(602)는 그 손상된 패킷의 전송 중단을 오디오 소스에 지시하며, 이에 따라 순간적으로 오디오 데이터를 과도하게 이동시키는 오디오 재생이 일어날 수 있다. 음성 버퍼가 비워질 때, 제어기(602)는 오디오 소스에 전송 프로세스를 회복하기 위한 요청을 하여, 오디오 데이터의 공급을 채울 수 있다. 바람직한 실시예에 있어서, 이러한 요청은 음성 버퍼가 10초 동안에 버퍼(10)를 50% 채운 경우에 전송된다. 이것은 일반적으로 바람직하게는 버퍼에서 3초 이상의 음성을 발생할 것이다.

지연 길이가 충분하거나, 네트워크 접속이 완전히 끊어진 경우에, 버퍼(606)의 현재 정보는 진부하거나 쓸모없는 것이 될 수 있다. 이러한 경우에, 제어기 (602)(예를 들면, 타임 아웃 타이머의 종료시)는 오디오 소스 및 오디오 채움 발생기(612)에 중지 요청을 보내서, 스피커(610)의 기동을 중지시킨다. 추가적으로, 제어기는 예를 들면 버퍼(606)에 그 데이터를 겹쳐쓰거나, 적합한 버퍼 포인터를 재설정하는 수단에 의해 버퍼(606)를 완전히 비울 수 있다. 손상된 네트워크 접속의결과로, 제어기(602)는 중지 메세지를 발생시켜, 버퍼(606)를 완전히 비우며, 수신기(604)에 명령하여 그 접속과 관련된 오디오 소스로부터 더 이상의 패킷을 거부하고, 그 네트워크 접속의 재기동을 요청함으로써, 오디오 소스 및 디코더(600)를 재동기시킨다.

전술한 바와 동일한 매커니즘을 이용하여, 제어기(602)는 또한 중지의 삽입을 요청하는 상태가 완화 또는 중지되는 시점을 검출한다. 예를 들면, 제어기(602)는 수신기(604)를 통해 서비스질을 개선했는지를 나타내는 네트워크 통지를 수신할 수 있다. 대안으로, 수신기(604)는, 오디오 패킷의 전송을 모니터링함으로써, 하부 전송 프로토콜이 그 패킷을 충분한 속도로 재전송하고 있는지를 확인할 수 있다. 그럼에도 불구하고, 제어기(602)는 오디오 재구성기(608)에 버퍼에 저장된 오디오 데이터(636)의 재생을 지시하며, 바람직하게는 마지막 펄스가 삽입되는 지점에서 재생을 시작하는게 좋다.

포즈 정보(652)는 그 밖의 다양한 기능을 가능하게 한다. 예컨대, 사용자는 포즈가 도입되는 시기를 제어할 수 있다. 오디오 데이타를 재구성할 경우, 사용자는 사용자 인터페이스(620)를 통하여 재생을 중지시키고 이후에 재생을 재개할 것을 요청할 수 있다. 이러한 중지 요청은, 제어기(602)로 하여금 예정된 기간 동안 또는 재생을 재개하라는 명령이 하달될 때까지 특정 타입의 포즈 상태로 재생을 중지하게 한다. 선택적으로, 제어기(602)는 예정된 기간 동안 또는 계속 전송에 관한 후속 요청이 수신될 때까지 패킷의 전송을 일시적으로 중단할 것을 명령하는 요청을 오디오 소스에 전송한다. 사용자 인터페이스(620)는 임의의 통상적인 사용자 입력 장치, 예컨대 문자 숫자식 키패드, 터치 스크린, 마우스 및 포인터 디스플레이, 드롭 다운 메뉴, 보이스 액티베이션 등을 포함할 수 있다.

또한, 사용자 요청에 응답하여, 제어기(602)는 오디어 재구성기(608)로 하여금 적절한 포즈 타입에 의해 결정되는 바에 따라 이전 문장, 단락, 서두, 화제 또는 화자를 반복하게 할 것을 명령할 수 있다. 이는 버퍼(606)가 이전에 재생된 오디오를 유지할 정도로 충분히 크다는 것을 암시한다. 버퍼가 충분히 크지 않은 경우에, 제어기(602)는 바로 전의 문장, 단락, 서두, 화제 또는 화자의 재전송을 요청할 수도 있고, 오디오 필 생성기(612)로 하여금 현재의 요청을 충족시킬 수 없다는 메세지를 재생하게 할 수도 있다. 또한, 사용자의 요청에 응답하여 제어기(602)는 오디오 재구성기(608)로 하여금 포즈 정보(652)에 의해 확인되는 바에 따라 다음 문장, 단락, 제목, 화제 또는 화자를 건너뛰게 할 것을 명령할 수 있다. 상기 데이터를 버퍼(606)에서 이용할 수 있다면, 현재의 재생은 중단되고 새로운 오디오 데이터가 스피커(610)로 재생될 것이다.

본 발명은 전송 오디오 데이타에 부가된 포즈 정보의 이용을 통해 재구성된 오디오에 네트워크 지연이 미치는 영향을 완화시키는 기술을 제공한다. 포즈 정보는 오디오 데이터의 불연속 또는 일시적인 지연을 나타내는 상태를 검출할 경우 상기 재구성된 오디오에 포즈를 지능적으로 부가하는 데 사용된다. 이러한 방식에서는, 재구성된 오디오에 있어서 비정상적인 인위적 결과 및 불연속이 회피되며, 상기 일시적인 상태를 완화할 수 있게 된다. 전술한 내용은 단지 본 발명의 원리의 적용을 단지 예시하는 것이다. 당업자라면, 본 발명의 정신 및 범위를 벗어나지 않는 그 밖의 장치 및 방법을 구현할 수 있을 것이다.

Claims

디지털 오디오와,

상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 나타내는 포즈 정보

를 포함하는 데이터 구조가 저장된 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 디지털 오디오는 디지털 음성을 포함하는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 적어도 하나의 포즈 위치는 상기 디지털 오디오의 처음이거나, 상기 디지털 오디오의 끝이거나, 또는 그 양단인 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 컴퓨터로 판독 가능한 매체.
제4항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 포즈 정보는 적어도 하나의 튜플을 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치에 유일하게 대응하고, 각 튜플은,

상기 하나의 포즈 위치에 대응하는 포즈 타입과,

상기 하나의 포즈 위치를 지시하는 포인터

를 포함하는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 포즈 정보는 적어도 하나의 튜플을 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나 이상의 포즈 위치에 유일하게 대응하고, 각 튜플은,

상기 하나 이상의 포즈 위치에 대응하는 포즈 타입과,

상기 하나 이상의 포즈 위치를 지시하는 적어도 하나의 포인터와,

상기 포즈 타입과 관련된 포인터의 수를 나타내는 길이 파라미터

를 포함하는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 포즈 정보는 상기 디지털 오디오에 첨부되는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 포즈 정보는 상기 디지털 오디오 내에 산재되는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 데이터 구조는 상기 디지털 오디오의 처음을 지시하는 개시 포인터를 더 포함하는 것인 컴퓨터로 판독 가능한 매체.
제1항에 있어서, 상기 데이터 구조는 상기 데이터 구조를 목적지에 전달하는 데 사용되는 라우팅 정보를 더 포함하는 것인 컴퓨터로 판독 가능한 매체.
디지털 오디오 내에 포즈를 표시하는 방법에 있어서,

상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 식별하는 단계와,

상기 디지털 오디오 내의 상기 적어도 하나의 포즈 위치를 지시하는 포즈 정보를 상기 디지털 오디오에 부가하는 단계

를 포함하는 포즈 표시 방법.
제12항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 방법.
제13항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 포즈 표시 방법.
제12항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 포즈 표시 방법.
제12항에 있어서, 상기 텍스트로부터 상기 디지털 오디오를 얻는 단계와,

상기 적어도 하나의 포즈 위치를 확인하기 위해서 상기 텍스트를 분석하는 단계를 더 포함하는 포즈 표시 방법.
제16항에 있어서, 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 결정하기 위해서 상기 텍스트를 분석하는 단계를 더 포함하는 포즈 표시 방법.
제12항에 있어서, 상기 부가 단계는 상기 디지털 오디오에 적어도 하나의 튜플을 부가하는 단계를 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치에 유일하게 대응하고, 각 튜플은,

상기 하나의 포즈 위치에 대응하는 포즈 타입과,

상기 하나의 포즈 위치를 지시하는 포인터

를 포함하는 것인 포즈 표시 방법.
제12항에 있어서, 상기 부가 단계는 상기 디지털 오디오에 적어도 하나의 튜플을 부가하는 단계를 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나 이상의 포즈 위치에 유일하게 대응하고, 각 튜플은,

상기 하나 이상의 포즈 위치에 대응하는 포즈 타입과,

상기 하나 이상의 포즈 위치를 지시하는 적어도 하나의 포인터와,

상기 포즈 타입과 관련된 포인터의 수를 나타내는 길이 파라미터

를 포함하는 것인 포즈 표시 방법.
제12항에 있어서, 상기 부가 단계는 상기 포즈 정보를 상기 디지털 오디오에 첨부하는 단계를 더 포함하는 포즈 표시 방법.
제12항에 있어서, 상기 부가 단계는 상기 포즈 정보를 상기 디지털 오디오 내에 산재시키는 단계를 더 포함하는 포즈 표시 방법.
제12항에 있어서, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 단계와,

상기 패킷을 디코더에 전송하는 단계를 더 포함하는 포즈 표시 방법.
제22항에 있어서, 패킷마다, 포즈는 상기 패킷의 처음이나, 상기 패킷의 끝이나, 또는 그 양단에서 발생하는 것인 포즈 표시 방법.
제12항에 기재한 포즈 표시 방법의 단계들을 수행하기 위한 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터로 판독 가능한 매체.
포즈 정보가 부가된 디지털 오디오를 디코딩하는 방법에 있어서,

상기 디지털 오디오를 수신하는 단계와,

상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 단계와,

상기 재구성된 오디오의 적어도 일시적인 중단을 요구하는 조건을 검출하는 단계와,

상기 조건에 응답하여 상기 포즈 정보에 기초하여 상기 재구성된 오디오의 제공을 중지하는 단계

를 포함하는 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 검출 단계는 상기 디지털 오디오의 연속 수신의 손상을 검출하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 검출 단계는 상기 재구성된 오디오 중단 요청을 수신하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 조건이 더 이상 유효하지 않음을 판정하는 단계와,

상기 재구성된 오디오의 제공을 계속하는 단계를 더 포함하는 디지털 오디오디코딩 방법.
제25항에 있어서, 상기 중지 단계는 소정의 기간 동안 중지하는 단계를 더 포함하며,

상기 소정의 기간이 만기하면 상기 재구성된 오디오의 제공을 계속하는 단계를 더 포함하는 디지털 오디오 디코딩 방법.
제29항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 타입을 포함하며, 상기 소정의 기간의 길이는 상기 적어도 하나의 포즈 타입에 기초하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 재구성된 오디오를 제공하는 단계 전에 상기 디지털 오디오의 소정량을 버퍼에 저장하는 단계를 더 포함하며,

상기 재구성된 오디오는 상기 버퍼에 저장된 디지털 오디오에 기초하고,

상기 중지 단계는 상기 버퍼에 남은 디지털 오디오의 양에 기초하여 소정의 기간 동안 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 포즈 정보는 상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 포함하며, 상기 중지 단계는,

상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치를 식별하는 단계와,

상기 포즈 위치까지 상기 재구성된 오디오의 제공을 계속하는 단계와,

상기 포즈 위치에 도달하면 상기 재구성된 오디오의 제공을 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제32항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하며, 상기 식별 단계는 상기 포즈 위치에 대응하는 포즈 타입에 기초하여 상기 포즈 위치를 식별하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제33항에 있어서, 상기 중지 단계는 상기 포즈 타입에 기초하여 소정의 기간 동안 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
제33항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 디지털 오디오 디코딩 방법.
제25항에 있어서, 상기 재구성된 오디오를 중지하는 동안에 필러 오디오를제공하는 단계를 더 포함하는 디지털 오디오 디코딩 방법.
제25항에 기재한 디지털 오디오 디코딩 방법의 단계들을 수행하기 위한 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터로 판독 가능한 매체.
디지털 오디오 내에 포즈를 표시하는 장치에 있어서,

상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 식별하는 수단과,

상기 디지털 오디오 내의 상기 적어도 하나의 포즈 위치를 지시하는 포즈 정보를 상기 디지털 오디오에 부가하는 수단

을 포함하는 포즈 표시 장치.
제39항에 있어서, 상기 부가 수단은 부가하는 기능을 더 하며, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 더 포함하는 것인 포즈 표시 장치.
제40항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 포즈 표시 장치.
제39항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 포즈표시 장치.
제39항에 있어서, 상기 부가 수단은 상기 포즈 정보를 상기 디지털 오디오에 첨부하는 기능을 더 하는 것인 포즈 표시 장치.
제39항에 있어서, 상기 부가 수단은 상기 포즈 정보를 상기 디지털 오디오 내에 산재시키는 기능을 더 하는 것인 포즈 표시 장치.
제39항에 있어서, 상기 부가 수단에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,

상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
디지털 음성에 포즈를 표시하는 장치에 있어서,

입력으로서 텍스트 스트링을 취하여 상기 텍스트 스트링 내의 포즈를 식별하고, 출력으로서 상기 텍스트 스트링의 일부와 상기 텍스트 스트링의 일부에 대응하는 포즈 정보를 제공하는 구문 분석기와,

상기 구문 분석기에 결합되고, 출력으로서 상기 디지털 음성을 제공하기 위해서 상기 텍스트 스트링의 일부를 변환시키는 TTS 변환기와,

상기 구문 분석기와 상기 TTS 변환기에 결합되고, 상기 포즈 정보를 상기 디지털 음성에 부가하는 표시기

를 포함하는 포즈 표시 장치.
제46항에 있어서, 상기 구문 분석기가 제공하는 포즈 정보는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
제47항에 있어서, 상기 구문 분석기가 제공하는 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 장치.
제46항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,

상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
디지털 오디오에 포즈를 표시하는 장치에 있어서,

입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 포즈를 식별하고, 출력으로서 상기 디지털 오디오와 상기 디지털 오디오에 대응하는 포즈 정보를 제공하는 오디오 편집기와,

상기 오디오 편집기에 결합되고, 상기 포즈 정보를 상기 디지털 오디오에 부가하는 표시기

를 포함하는 포즈 표시 장치.
제50항에 있어서, 상기 오디오 편집기가 제공하는 포즈 정보는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
제51항에 있어서, 상기 오디오 편집기가 제공하는 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 장치.
제50항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,

상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
디지털 오디오에 포즈를 표시하는 장치에 있어서,

입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 소정의 길이보다 긴 적어도 하나의 무음 기간을 식별하고, 출력으로서 상기 디지털 오디오와 상기 디지털 오디오에 대응하는 포즈 정보를 제공하는 포즈 분석기와,

상기 포즈 분석기에 결합되고, 상기 포즈 정보를 상기 디지털 오디오에 부가하는 표시기

를 포함하는 포즈 표시 장치.
제54항에 있어서, 상기 포즈 분석기가 제공하는 포즈 정보는 상기 적어도 하나의 무음 기간에 대응하는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
제54항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,

상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
포즈 정보가 부가된 디지털 오디오를 디코딩하는 장치에 있어서,

제어기와,

상기 제어기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 수신하여 상기 디지털 오디오를 오디오 버퍼에 저장하는 수신기와,

상기 제어기와 상기 오디오 버퍼에 결합되고, 상기 오디오 버퍼에 저장된 상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 오디오 재구성기

를 포함하며,

상기 제어기는 상기 재구성된 오디오의 적어도 일시적인 중단을 요구하는 조건을 검출하고, 상기 조건에 응답하여 상기 포즈 정보에 기초하여 상기 재구성된 오디오를 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 제어기가 검출하는 상기 조건은 상기 디지털 오디오의 연속 수신의 손상인 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 제어기에 결합되는 사용자 인터페이스를 더 포함하며, 상기 제어기가 검출하는 상기 조건은 상기 사용자 인터페이스를 통해 수신되는 상기 재구성된 오디오 중단 요청인 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 제어기는 소정의 기간 동안 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제60항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 타입을 포함하며, 상기 소정의 기간의 길이는 상기 적어도 하나의 포즈 타입에 기초하는 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 제어기는 상기 버퍼에 남은 디지털 오디오의 양에 기초한 소정의 기간 동안 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 위치를 포함하며, 상기 제어기는 상기 적어도 하나의 포즈 위치에 기초하여 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하며, 상기 제어기는 상기 적어도 하나의 포즈 위치에 대응하는 상기 적어도 하나의 포즈 타입에 기초하여 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제57항에 있어서, 상기 제어기와 상기 오디오 재구성기에 결합되는 오디오 필 생성기를 더 포함하며,

상기 제어기는 상기 재구성된 오디오를 중지하는 동안에 상기 오디오 재구성기에 필러 오디오를 제공할 것을 상기 오디오 필 생성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
제57항에 기재한 디지털 오디오 디코딩 장치를 포함하는 클라이언트 서버 통신 시스템 내의 클라이언트.
제66항에 있어서, 상기 수신기는 무선 수신기인 것인 클라이언트.
디지털 오디오에 포즈를 표시하는 시스템에 있어서,

입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 소정의 길이보다 긴 적어도 하나의 무음 기간을 식별하는 보이스 액티비티 검출기와,

출력으로서 상기 디지털 오디오를 제공하고, 상기 보이스 액티비티 검출기가 상기 적어도 하나의 무음 기간을 식별한 때에는 출력으로서 무음 기술 정보를 제공하는 인코더와,

상기 인코더에 결합되고, 상기 디지털 오디오와 상기 무음 기술 정보를 전송하는 송신기와,

상기 송신기와 통신하여, 상기 송신기로부터 상기 디지털 오디오와 상기 무음 기술 정보를 수신하는 수신기와,

상기 수신기에 결합되고, 상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 오디오 재구성기와,

상기 재구성된 오디오의 제공을 적어도 일시적으로 중단시키고, 상기 무음 기술 정보에 기초하여 상기 재구성된 오디오를 중지할 것을 상기 오디오 재구성기에게 지시하는 제어기

를 포함하는 포즈 표시 시스템.