KR20040047745A - 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치 - Google Patents

포즈 정보를 인코딩 및 디코딩하는 방법 및 장치 Download PDF

Info

Publication number
KR20040047745A
KR20040047745A KR10-2003-7010531A KR20037010531A KR20040047745A KR 20040047745 A KR20040047745 A KR 20040047745A KR 20037010531 A KR20037010531 A KR 20037010531A KR 20040047745 A KR20040047745 A KR 20040047745A
Authority
KR
South Korea
Prior art keywords
pose
audio
digital audio
information
pause
Prior art date
Application number
KR10-2003-7010531A
Other languages
English (en)
Other versions
KR100684572B1 (ko
Inventor
버크홀츠데일알
제이노바샤르
거슨아이라
Original Assignee
요모빌, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요모빌, 아이엔씨. filed Critical 요모빌, 아이엔씨.
Publication of KR20040047745A publication Critical patent/KR20040047745A/ko
Application granted granted Critical
Publication of KR100684572B1 publication Critical patent/KR100684572B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

오디오 소스에서, 포즈 정보를 오디오 데이터(204)에 부가하고, 다음에 그것을 패킷화한다(510). 생성된 패킷은 상이한 패킷마다 지연 레벨의 변화를 겪을 수 있는 네트워크를 통해 오디오 목적지로 전송된다(512). 오디오 목적지에서, 포즈 정보를 이용하여, 패킷 전달시에 발생하는 지연을 수용하기에 적절한 시간에 포즈를 삽입할 수 있다(106). 일실시예에 있어서, 포즈는 포즈 타입 체계에 기초하여 삽입된다(302). 포즈 중에, 오디오 필러 정보가 삽입될 수 있다. 이와 같이, 재구성된 오디오에 대한 네트워크 지연 효과를 완화시킬 수 있다.

Description

포즈 정보를 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING PAUSE INFORMATION}
원격 통신 시스템, 특히 패킷 기반 시스템에 대해서는 본 기술 분야에 잘 알려져 있다. 유선 및 무선 패킷 기반 시스템의 경우, 많은 이점을 가지고 있지만, 등시성 데이터, 예컨대 오디오 데이터를 전달함에 있어서는 어느 정도의 문제점을 가지고 있다. 예컨대, 한 세트의 패킷이 어떤 경우에는 가능한 빨리 네트워크를 통과하고, 어떤 경우에는 액세스 지연, 전송(및 후속 재전송) 에러, 특히 무선 네트워크의 경우에는 커버리지 부족 등으로 인해 목적지에 도달하는 시간이 더 오래 걸릴 수도 있다. 전송 오디오(예컨대, 음성) 스트림을 청취하는 청취자는 패킷 지연 또는 손실로 인해 연속성을 잃은 이상한 사운딩 오디오를 듣게 될 수도 있다.
특히 오디오 응용에 있어서 적절한 데이터 전달의 손실을 방지할 수 있는 몇가지 해결책이 제안되었다. 첫번째 해결책은 목적지에서 재생 전에 상당한 양의 오디오 데이터를 버퍼링하는 것이다. 따라서, 그 후에 목적지로의 오디오 데이터 전달이 지연되더라도, 상기 버퍼링된 상당한 양의 오디오 데이터를 재생에 사용할 수 있기 때문에 연속성이 유지된다. 이러한 방법이 효과적일 수도 있지만, 상당한 양의 데이터를 버퍼링하는 데 필요한(즉, 예상 지연보다 오래 걸리는) 지연 및 메모리의 양이 엄청날 수도 있다.
두번째 해결책은 서비스 품질 매커니즘을 데이터 전달에 이용되는 네트워크 내에 구현하고, 소스와 네트워크 사이에 서비스 품질 계약을 협상하는 것이다. 서비스 품질을 네트워크 내에 도입하는 방법의 예로서, 인터넷 엔지니어링 태스크 포스(IETF)가 제안한 예약 프로토콜(RSVP), 차별화 서비스 및 통합 서비스 기술이 있다. 계약에 동의하게 되면, 네트워크 공급자는 일정한 레벨의 스루풋, 종단간 지연, 지연 변화 및 에러율 성능을 제공해야만 한다. 이와 같이, 소정의 데이터 소스는 일정한 레이트로 데이터를 전송할 수 있다고 확신하고 데이터 목적지는 적절하게 데이터를 수신할 것으로 확신한다. 그러한 서비스 품질 매커니즘 때문에, 목적지에 대용량의 버퍼를 설치할 필요가 없게 된다. 그러나, 소스와 목적지간의 경로에 따른 네트워크 내의 모든 라우팅 요소가 그러한 서비스 품질 매커니즘을 구현해야만 한다. 이것은 네트워크 구현 비용, 결과적으로 데이터 전달을 위한 단위 비용을 증가시킨다. 따라서, 패킷 기반 네트워크에 고유한 성능 변화를 수용하고 종래의 해결책과 관련된 문제점을 회피할 수 있는 기술이라면 그 기술은 기술의 진보를 의미한다.
본 발명은 일반적으로 통신 시스템에 관한 것으로서, 구체적으로는 특히 디지털 오디오에 대하여 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.
도 1은 본 발명의 적용으로 이득을 얻을 수 있는 통신 시스템의 블록도이다.
도 2는 본 발명에 따라 디지털 오디오 데이터에 포즈 정보를 부가한 바람직한 패킷 포맷을 도시한다.
도 3은 본 발명에 따라 포즈 정보를 나타내는 바람직한 포맷을 도시한다.
도 4는 본 발명에 따라 포즈 정보를 나타내는 또 다른 포맷을 도시한다.
도 5는 본 발명에 따른 인코딩 장치의 블록도이다.
도 6은 본 발명에 따른 디코딩 장치의 블록도이다.
본 발명은 송신된 디지털 오디오 신호에 부가되는 포즈 정보를 이용하여 재구성된 오디오에 대한 네트워크 지연 효과를 완화시키는 기술을 제공한다. 본 발명은 TTS 서버 구성에 특히 적용 가능하다. 본 발명에 따라, 포즈 정보는 오디오 신호의 분석을 통해 얻거나, TTS 환경에서는 입력 텍스트의 분석을 통해 얻는다. 포즈 정보는 순차적으로 디지털 오디오 신호에 부가된다. TTS 환경에서, 오디오 신호는 합성된 음성이다. 본 발명의 일실시예에 있어서, 상이한 타입의 포즈들이 식별된다. 포즈 정보는 바람직하게는 각각이 포즈 타입과 오디오 데이터 내의 포즈 위치를 지시하는 포인터를 포함하는 세트 또는 튜플 배열을 포함한다. 다음에 오디오 데이터 및 대응하는 포즈 정보는 유한 길이 패킷으로 조립된다. 바람직하게는, 가능하다면 패킷이 포즈의 경계에서 개시 및 종료하도록 패킷을 형성한다.
수신된 오디오 데이터를 재구성할 때, 포즈 정보를 이용하여, 패킷 전달시에 발생하는 지연을 수용하기에 적절한 시간에 포즈를 삽입한다. 일실시예에 있어서, 포즈는 포즈 타입 체계에 기초하여 삽입된다. 예컨대, 표시화된 음성의 버퍼가 단어, 구 및 문장 경계에 대한 포인터를 포함하면, 포즈는 주 경계, 즉 문장 및 구에 더 자연히 삽입되고, 이 때 네트워크 성능은 더 커진다. 포즈 중에, 오디오 필러 정보, 예컨대 보고 메시지 또는 컴포트 오디오 등이 삽입될 수 있다. 또한, 오디오 데이터의 세그먼트가 쓰이질 않아 무시 가능할 때를 판정하기 위한 매커니즘이 제공된다. 재생은 그 세그먼트에 이어 계속된다. 또한, 포즈 정보를 이용하여, 재구성할 오디오 타입이 무엇이고 무시할 타입이 무엇인지를 관리할 수 있다. 이러한 이점 및 다른 이점은 다음의 상세한 설명으로부터 명백해질 것이다.
도 1 내지 도 6을 참조하여 본 발명을 더 상세하게 설명한다. 도 1은 네트워크(102)를 통해 서로 통신하는 복수의 오디오 소스(104)와 복수의 오디오 목적지(106)를 포함하는 통신 시스템(100)을 도시한다. 바람직한 실시예에 있어서, 네트워크(102)는 패킷 기반 네트워크로서, 그곳에 전달된 데이터는 전달 지연 레벨이 변화되기 쉽다. 네트워크(102)는 유선 네트워크 또는 무선 네트워크이거나 그 조합일 수 있다. 따라서, 오디오 소스(104)와 오디오 목적지(106)는 유선(예컨대, 전화선 또는 케이블선) 또는 무선 경로를 통해 네트워크(102)에 결합될 수 있다. 마찬가지로, 네트워크 내, 즉 라우팅 포인트간의 통신 경로도 유선 또는 무선 경로일 수 있다. 또한, 네트워크(102)는 인터넷이나 월드 와이드 웹과 같은 공중 네트워크 또는 사설 네트워크이거나 그 조합을 포함할 수 있다. 바람직하게는, 각 오디오 소스(104)와 오디오 목적지(106)는 네트워크(102) 내에서 개별적으로 어드레스 지정 가능하다. 그러한 패킷 기반 네트워크는 당업자에게 잘 알려져 있으므로, 더이상의 상세한 설명은 생략한다.
각 오디오 소스(104)는 하나 이상의 오디오 목적지(106)에게 전달하기 위한 오디오 데이터 또는 디지털 오디오 및 이것에 대응하는 포즈 정보를 최소한 제공한다. 바람직하게는, 각 오디오 소스(104)는 오디오 데이터 및 대응하는 포즈 정보를 유한 길이 패킷들로 분할하여 네트워크(102)를 통해 전송한다. 바람직한 실시예에 있어서, 각 오디오 소스(104)는 네트워크를 통해 요청을 수신하여 서비스를 제공하거나 다른 방법으로 응답하는 오디오 서버를 포함한다. 그러한 오디오 서버 구현에 적합한 플랫폼으로는 윈도우/NT나 선 솔라리스 워크스테이션이 있다. 도시한 바와 같이, 각 오디오 소스(104)는 휘발성 또는 비휘발성의 전기 또는 자기 저장 장치와 같은 메모리(112)에 결합되는 예컨대 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서 등이나 그 조합인 프로세서(110)를 포함한다. 통상의 구현예에 있어서, 메모리(112)는 프로세서(110)가 실행하는 명령어를 저장한다. 그 저장된 명령어를 실행할 때 프로세서(110)가 사용하는 조작적 변수도 통상 메모리(112)에 저장된다. 또한, 각 오디오 소스(104)는 네트워크(102)와의 통신을 가능하게 해주는 인터페이스 회로(도시 생략)를 포함한다. 바람직한 실시예에 있어서, 이하 더 상세하게 설명하겠지만, 하나 이상의 오디오 소스(104)는 텍스트 데이터를 음성 데이터로 변환시키는 TTS(text-to-speech) 서버를 포함한다. 일반적으로는, 오디오 소스(104)의 특정 구현예는 디자인 선택에 관한 문제이며, 본 발명을 이것으로 한정하지 않는다.
각 오디오 목적지(106)는 오디오 소스(104)가 생성한 패킷을 수신하여 디코딩할 수 있다. 특히, 이하에 더 상세하게 설명하겠지만, 각 오디오 목적지(106)는 전송된 오디오 데이터를 처리하여 오디오 신호로 재구성하여 오디오 목적지의 사용자에게 재생한다. 또한, 각 오디오 목적지(106)는 연속적으로 전달되는 오디오 데이터가 중단 또는 지연되는 조건의 발생을 인지할 수 있다. 따라서, 각 오디오 목적지(106)는 각 전송 패킷에 포함된 포즈 정보에 기초하여 재구성된 오디오에 포즈를 삽입할 수 있다. 오디오 소스(104)와 마찬가지로, 각 오디오 목적지(106)도 휘발성 또는 비휘발성의 전기 또는 자기 저장 장치와 같은 메모리(112)에 결합되는 예컨대 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서 등이나 그 조합인 프로세서(110)를 포함한다. 통상의 구현예에 있어서, 메모리(112)는 프로세서(110)가 실행하는 명령어를 저장한다. 그 저장된 명령어를 실행할 때 프로세서(110)가 사용하는 조작적 변수도 통상 메모리(112)에 저장된다. 바람직한 실시예에 있어서, 각 오디오 목적지(106)는 오디오 데이터 요청을 네트워크(112)를 통해 오디오 서버(104)에 전송할 수 있는 오디오 클라이언트를 포함한다. 통상적으로, 오디오 클라이언트는 하층의 처리 플렛폼이 실행하는 애플리케이션 프로세스로서 구현된다. 예컨대, 오디오 목적지(106a)는 오디오 클라이언트 애플리케이션이 실행되는 퍼스널 컴퓨터를 포함한다. 바람직한 실시예에 있어서, 하나 이상의 오디오 목적지(106)는 통신 기반 시설, 즉 네트워크(102)와 통신할 수 있는 무선 통신 장치, 예컨대 셀룰러폰 등을 포함한다. 본 발명을 오디오 목적지(106)의 특정 하드웨어 구현예로 한정하지 않는다.
전술한 바와 같이, 본 발명에 따른 오디오 소스는 디지털 오디오 데이터 및그 디지털 오디오 데이터에 관한 포즈 정보를 포함하는 패킷을 생성한다. 본 발명에 따른 패킷에 대한 바람직한 실시예를 도 2에 도시하였다. 특히, 각 패킷(200)은 바람직하게는 디지털 오디오(202) 및 포즈 정보(204)를 포함한다. 도시한 바와 같이, 포즈 정보(204)는 헤더로서 디지털 오디오(202) 앞에 배치된다. 이러한 기술은 디지털 오디오(202)를 임의 소스, 즉 기록형 오디오 또는 음성, TTS 생성기 등으로부터 얻을 수 있기 때문에 선호된다. 그러나, 포즈 정보(204)는 디지털 오디오(202) 뒤에 배치되거나, 디지털 오디오(202) 내에 산재될 수도 있다. 후자의 경우, 유일한 회피 코드(예컨대, 연속된 3개의 제로 바이트)를 임의의 포즈 정보보다 먼저 발생하도록 디지털 오디오 내에 배치함으로써 그 포즈 정보는 디지털 오디오의 연속 부분으로 인식될 것이다.
여하튼, 포즈 정보를 헤더로서 디지털 오디오에 부가하는 바람직한 실시예에 있어서, 오디오 개시 포인터(206)를 선택적으로 첨부할 수 있다. 오디오 개시 포인터(206)는 디지털 오디오(202)의 제1 옥텟을 지시한다. 오디오 개시 포인터(206)의 값이 제로인 경우에는 패킷에 어떠한 디지털 음성도 포함되어 있지 않다는 것을 의미한다. 그 값이 1인 경우에는 패킷에 포즈 정보가 포함되어 있지 않다는 것을 의미한다. 이것은 예컨대 디지털 오디오가 단일 음절의 단어를 나타내어 쉽게 포즈를 포함할 수 없는 경우일 것이다. 바람직하게는, 본 발명에 따른 패킷은 가능하다면 디지터 오디오(202)가 포즈 경계에서 개시 종료할 수 있도록 구성된다. 전술한 바와 같이, 구어 단어를 대표하는 음성 신호가 패킷보다 긴 경우는 제외할 수 있다. 그 경우, 그 단어의 처음 패킷을 포즈로 개시하고 마지막 패킷을 포즈로 종료하며,중간 패킷에는 포즈가 없다. 바람직한 실시예에 있어서, 포즈 정보(204)는 패킷 뒤에 있는 포즈를 지시하여 오디오 요소가 패킷 경계에서 종료하는 때를 지시해야만 한다.
패킷(200)은 또한 라우팅 정보(208)도 선택적으로 포함할 수 있다. 라우팅 정보(208)는 하층의 전송 매커니즘에 의해 패킷 앞이나 뒤에 부가될 수 있다. 예컨대, 패킷(200)은 네트워크를 통과하기 위해서 TCP/IP 또는 UDP/IP 헤더 및 테일러를 포함할 수 있다. 패킷(200)에 부가되는 라우팅 정보(208)의 특정 형식은 통상 사용되는 하층의 전송 기술에 따른 디자인 선택에 관한 문제임을 당업자는 인식할 것이다.
적어도, 포즈 정보(204)는 관련 디지털 음성(202)에서 포즈가 발생하는 위치를 나타낸다. 포즈는 당연히 발생하거나 오디오 스트림 내에 삽입된 단절(break)이다. 오디오 신호의 특정한 하위 분류는 음성 신호이다. 음성 신호의 경우에는, 단어(word), 구(phrase), 문장(sentence), 단락(paragraph) 등의 사이에서 당연히 포즈가 발생한다. 디지털 오디오(202)를 제공하는 데 TTS 서버가 사용되는 경우, 입력 텍스트 스트링 분석에 기초하여 포즈를 쉽게 식별할 수 있다. 예컨대, 개개의 단어 사이의 공간은 단어 포즈, 콤마는 구 포즈, 그리고 마침표, 느낌표 또는 물음표는 문장 포즈에 해당된다. 본질적으로, TTS 서버는 입력 텍스트 스트링을 구문 분석(parse)하여 포즈 위치를 찾고, 그 텍스트의 적용 의미(semantics)와 정황(context) 및 취지(meaning)에 따라 포즈 발생 위치를 디지털 음성 스트림에 표시(mark)한다.
바람직한 실시예에 있어서, 포즈 정보는 표시되는 각 포즈에 대한 튜플(tuple) {타입, 포인터}로 구성된다. 이것을 도 3에 도시하였는데, 여기서는 N개의 튜플을 보여준다. 포인터는 디지털 오디오 내에서 포즈가 발생하는 위치를 나타내는, 바람직하게는 디지털 오디오의 개시점에 대한, 오프셋 값이다. 포즈 타입에는 화자(speaker) 포즈, 화제(topic) 포즈, 서두(heading) 포즈, 단락 포즈, 문장 포즈, 구 포즈, 단어 포즈, 결미(end) 포즈 및 라이브 오디오 포즈 등이 있으며, 이것들로 한정하지 않는다. 라이브 오디오 포즈는 라이브 오디오 중에 검출되는 무음 기간에 해당된다. 이것은 일부 다른 포즈 타입(예컨대, 단어, 문장, 화자 등의 포즈)과 같은 포즈 정황을 나타내지는 않지만, 무음의 발생은 포즈를 표시하기에 좋은 위치를 나타낸다. 결미 포즈를 사용하는 이유는 문장 집합(예컨대, 단락 등) 뒤에 삽입되는 포즈의 길이가 문장 사이의 포즈와 다를 수 있기 때문이다. 예컨대, 적절한 포즈 위치를 찾는 데 사용하는 디코더측의 알고리즘(도 6에 관한 이하의 설명을 참조)은 현재 결미 타입의 포즈가 수신 버퍼에서 나중에 발견된다면 포즈를 삽입하지 않기로 결정할 것이다. 단어, 구, 문장, 단락 및 서두 포즈는 표준 문서 개념에서 얻은 것이다. 단어 포즈는 단어 사이의 공간에서 얻은 것이고, 구 포즈는 콤마, 세미콜론, 콜론 등과 같은 단어 사이의 구두점에서 얻은 것이며, 문장 포즈는 마침표, 느낌표 또는 물음표와 같은 문장 결미 구두점에서 얻은 것이고, 단락 포즈는 단락표에서 얻은 것이며, 서두 포즈는 형식 및 간격 표시자(formatting and spacing indicia)에서 얻은 것이고, 화제 및 화자 포즈는 더 잘 구어 대화를 나타내고 정황 정보를 나타내는 것이다. 대화 도중에, 화자 및화제는 변한다. 이것들은 재생시 포즈를 삽입할 당연한 위치이다. TTS의 경우, 몇몇 타입의 표시자를 사용하여 그러한 위치를 검출할 수 있다. 예컨대, Q&A 시나리오에 있어서, 물음(question)은 흔히 Q: 또는 화자의 이니셜(예컨대 DB, CM 등)에 의해서, 또는 서체 변경에 의해서 차별화된다. 이와 같이, 물음 후에(화자 변경) 또는 대답 후에(물음마다 새로운 화제를 이끈다는 가정 하에서의 화제 변경) 포즈를 삽입할 것이다. 기록형 오디오의 경우, 편집 기능에 의해서 편집기의 자유 재량으로 화자 및 화제 표시자를 삽입한다. 당업자라면 화제 및 화자 포즈를 식별하는 데 다른 방법을 사용할 수 있다는 것을 알 것이다. 상기 포즈 타입들은 구어 및 문어 영어에 맞추어진 것이다. 그러나 다른 언어에서도 유사한 포즈 타입들을 얻을 수 있을 것이다. 이러한 기술은 또한 텍스트로부터 얻은 것과는 다른 오디오 스트림에도 사용될 수 있다. 주의할 점은 포즈 발생 위치를 모두 식별할 필요는 없다는 것이다. 오히려, 포즈 정보를 조립할 때에 일정한 타입의 포즈만을 식별하도록 하는 것이 바람직할 수도 있다. 여하튼, 바람직한 실시예에 있어서는, 타입 데이터 및 포인터 데이터를 각각 4 비트 및 12 비트로 인코딩함으로써, 16개의 포즈 타입과 4096개의 옥텟에 달하는 디지털 음성이 가능하다. 물론, 디자인 선택에 관한 문제로서, 다른 비트 길이로 인코딩하는 것도 가능하다.
바람직한 실시예에 있어서는, 발생 순서에 따라 튜플을 수집 배열한다. 제일 먼저 발생하는 포즈는 그 포즈 정보가 헤더(204)의 제일 처음에 배치된다. 이것을 도 3에 도시하였는데, 여기서 제1 튜플(302)의 포인터(포인터1)는 디지털오디오(202)의 개시점에 가장 가까운 위치를 지시한다. 반대로, 제N 튜플(308)의 포인터(포인터N)는 디지털 오디오(202)의 종료점에 가장 가까운 위치를 지시한다. 도 3에 도시한 바와 같이, 제1 튜플(302)과 제N 튜플(308)은 "타입 1"(단지 예시적인 것임)에 대응하는 포즈 타입을 포함한다. 또한, 제2 튜플(304)과 제3 튜플(306)은 "타입 2"에 대응하는 포즈 타입을 포함한다. 도 3에 도시한 예는 바람직한 실시예에 있어서는 어떠한 튜플도 다양한 포즈 타입을 포함할 수 있다는 더 일반적인 원칙을 예시하기 위한 특정예이다. 그러나, 다른 실시예도 가능하다. 예컨대, 다른 실시예를 도 4에 도시하였는데, 여기서 각 포즈 타입은 그 타입의 포즈마다 하나 이상의 포인트와 관련되어 있다. 이와 같이, 튜플은 {타입, 길이, 포인터들}의 형식을 취한다. 길이 파라미터는 그 포즈 타입과 관련된 포인트의 수를 나타낸다. 도시한 예에서는, M개의 상이한 포즈 타입이 있다고 가정한다. 이와 같이, 제1 포즈 타입이 제1 튜플(402)에 포함된 경우, 길이 파라미터는 그 튜플에 j개의 포인터가 있다는 것을 나타내며, 그 포인터들이 그 뒤에 위치한다. 또한, 제M 포즈 타입이 제M 튜플(404)에 포함된 경우에는, 길이 파라미터는 그 튜플에 k개의 포인터가 있다는 것을 나타내며, 그 포인터들이 그 뒤에 위치한다. 주의할 점은 j가 k와 같아서는 안된다는 점이다. 또한, 디지털 오디오 내에 소정의 포즈 타입의 포즈가 없는 간단한 경우에는, 그 포즈 타입에 대응하는 튜플을 포함할 필요가 없다. 이와 달리, 그 포즈 타입의 튜플은 0의 길이를 포함할 수 있다. 또 주의할 점은 이 실시예에 있어서는 포인터들을 반드시 순차적으로 배열할 필요가 없다는 점이다. 즉, 제1튜플(402)에 대응하는 제1 포인터(포인터1)는 실제로는 제M 튜플(404)의 제1 포인터(포인터1) 후에 발생하는 디지털 오디오 내의 위치를 지시할 수도 있다. 여하튼, 당업자라면 포즈 타입 및 포인터를 다양한 형식으로 인코딩할 수 있다(예컨대, 필드 사이즈를 크게 하여 더 많은 포즈 타입 또는 더 긴 패킷을 수용할 수 있고, 그 타입들에 대한 비트 맵을 한 타입이 몇가지 특성, 예컨대 단어, 구 등을 갖게 할 수 있다)는 것을 알 것이다.
이제 도 5를 참조해 보면, 본 발명에 따라 디지털 오디오를 인코딩하는 장치가 도시되어 있다. 인코더(500)는 각 오디오 소스(104)에 포함되어 있다. 후술하는 인코더(500)의 동작에 따르면, 당업자라면 디자인 선택에 관한 문제로서 소프트웨어, 하드웨어 또는 그 조합으로 인코더(500)를 구현할 수 있다는 것을 알 것이다. 또한, 디자인 선택에 관한 문제로서 도 5에 도시한 기능 요소들 중 많은 것들을 서로 결합하거나, 더 분할할 수도 있고, 또는 존재하지 않을 수도 있다. 인코더(500)는 표시기(marker)(508)에 결합되는 오디오 및 포즈 정보 소스(501, 503, 505)를 포함한다. 3개의 특정 타입의 오디오 및 포즈 정보 소스를 도 5에 도시하였다. 그러나, 일반적으로는, 오디오 정보를 나타내는 입력 데이터를 분석하고 그것에 대응하는 포즈 정보를 제공할 수 있는 소스라면 어떤 것도 가능하다. 표시기(508)는 포즈 정보(524, 542, 552)를 조립하고 그것을 오디오 데이터(526, 544, 554)와 적절하게 상관시키는데, 이는 오디오 데이터를 제공될 때 제1 중간 버퍼에 저장하고, 이와 마찬가지로 대응하는 포즈 정보를 제2 중간 버퍼에 저장하고, 제2 중간 버퍼의 각 포즈 사이를 제1 중간 버퍼의 적절한 위치에 연결시킴으로써 달성된다. 이렇게 표시된 오디오 데이터(528)는 패킷화기(packetizer)(510)에 제공된다. 전술한 바와 같이, 패킷화기는 양단 중 어느 한 단에 포즈를 갖는 패킷을 생성한다. 바람직하게는, 패킷화기는 패킷 길이를 최소화하려고 하는데, 이를 위해서, 제1 중간 버퍼에서 최대 데이터 길이 바로 전의 제1 포즈를 찾는다. 다음에, 패킷화기는 제1 중간 버퍼의 처음부터 식별된 포즈까지의 데이터를 패킷으로 배치하고, 관련 포즈 정보를 제2 중간 버퍼로부터 패킷 헤더로 복사하여, 필요한 포인터 번역을 행한다. 이 프로세스는 연속적으로 반복하여 각 식별된 포즈 바로 뒤의 오디오 데이터에서 시작한다. 다음에, 패킷화되고 표시화된 오디오 데이터(530)는 바람직하게는 도 2 내지 도 4에 도시한 패킷 구조에 따라 송신 패킷(532)을 제공하는 송신기(512)로 라우팅된다. 송신기(512)의 특정 형식은 패킷을 전달하는 데 사용되는 특정 매체에 따라 달라진다. 예컨대, 인코더(500)가 인터넷 또는 월드 와이드 웹과 같이 네트워크에 무선으로 접속된 네트워크 서버에 상주하는 경우, 송신기(512)는 TCP/IP 호환성 인터페이스 보드 또는 유사한 장치를 포함할 수 있다. 한편, 인코더(500)가 무선 채널을 이용하는 경우에는, 송신기(512)는 무선 패킷 데이터 호환성 송신기를 포함한다.
본 발명의 바람직한 실시예에 있어서, 오디오 데이터(526) 및 포즈 정보(524)는 TTS 서버(506)를 통해 제공된다. 특히, 애플리케이션(502a)은 구문 분석기(520)에 대한 입력으로서 텍스트 데이터(520)를 제공한다. 애플리케이션(502a)은 임의의 텍스트 스트링 데이터 소스를 포함할 수 있다. 샘플 음성 기반 애플리케이션 및 디벨로퍼 메뉴얼을 애플리케이션 디벨로퍼 킷의 부품으로서 주 음성 인식 및 TTS 기술 제조업자, 예컨대 Nuance, Speech Works, IBM 및 Lernout & Hauspie로부터 입수 가능하다. 다른 애플리케이션(502)도 당업계에 잘 알려져 있고 본 발명과 함께 사용하기 위해서 쉽게 통합될 수 있다. 바람직하게는, 애플리케이션(502a)이 제공하는 텍스트 데이터(520)는 포즈와 관련될 수 있는 모든 표시자를 포함한다. 즉, 구두점, 단락 단절, 서두, 공간 또는 다른 정황 결정 정보를 나타내는 데이터가 텍스트 데이터(520)에 포함된다. 또한, 애플리케이션(502)은 인코더(500)와 함께 상주할 필요는 없다.
구문 분석기(504)는 입력 텍스트 데이터(520)를 분석하고 선택적으로 그 중 일부분(522)을 TTS 서버(506)에 제공한다. 특히, 구문 분석기는 단어, 구, 문장 등을 TTS 서버에 제공한다. 구문 분석기가 TTS 서버에 제공한 입력 텍스트 데이터의 일부분의 종류에 따라, 생성된 음성 스트링이 적절히 표시된다. 예컨대, 단어가 TTS 서버에 제공되면, TTS 서버의 출력은 그 단어를 합성한 음성이 되고, 표시기는 그 음성에 단어 포즈를 표시할 수 있다. 또 다른 예로서, 구문 분석기가 구를 제공하면, TTS 서버의 출력은 구가 되고, 그 합성된 음성에 구 포즈가 표시된다. 더 복잡한 부분의 텍스트가 TTS 서버에 제공되는 경우에는, 음성 내의 단일 위치에 하나 이상의 포즈 타입이 표시될 가능성이 있다. 예컨대, 전체 문장이 TTS 서버에 제공되면, 그 합성된 음성(바람직하게는 디지털 형식)의 끝에는 결미 포즈, 단락 포즈, 문장 포즈, 단어 포즈 또는 이것들을 조합한 포즈가 표시될 수 있다. 전술한 기술은 구문 분석기, 표시기 및 TTS 서버가 통합되지 않은 경우에 가장 적합하다. 이러한 기능들이 더 조밀하게 통합되면(예컨대, 이러한 기능들이 단일 소프트웨어 패키지 또는 통합 소프트웨어 모듈 세트에 포함되는 경우), 통합된 기능이 상이한 포즈 타입에 대응하는 표시자를 인식하고 합성된 음성 스트림을 실시간으로 표시함으로써 단어 포즈, 구 포즈 또는 문장 포즈를 표시할 수 있다. TTS 서버의 적합한 구현예로는 Lernout and Hauspie사의 RealSpeak 소프트웨어, Speech Works사의 Speechify 및 Sproat(편집자)의 1997년도 "Multilingual Test-To-Speech Synthesis : The Bell Labs Approach"(참조로서 본 명세서에 포함됨)에 기재된 구현예가 있다. 또한, 구문 분석기(504)는 텍스트 데이터(520)에 포함된 모든 포즈 관련 표시자를 인식한다. 구문 분석기는 그러한 표시자에 기초하여, 포즈 정보(524)를 포즈 타입의 형식으로 표시기(508)에 제공할 수 있다. 예컨대, 단어 사이의 공간의 발생은 단어 타입 포즈를 발생시키고, 마침표, 물음표 또는 느낌표는 문장 타입 포즈를 발생시킨다. 이와 같이, 표시기(508)는 전술한 바와 같이 서로 관련될 수 있는 오디오 데이터(526)와 대응하는 포즈 정보(524)를 동시에 수신한다.
다른 실시예에 있어서, 오디오 데이터(544)와 포즈 정보(542)는 오디오 편집기(514)를 통해 제공된다. 특히, 애플리케이션(502b)은 오디오 데이터(540)를 오디오 편집기(514)에 제공한다. 오디오 데이터(540)는 기록형 디지털 오디오인 것이 바람직하다. 특히, 적합한 오디오 편집기(514)는 Voice Information Systems사의 VFEdit, Parity Software사의 VOX Studio, BitWorks사의 Audio Work Station, 사용자가 오디오 데이터 내의 포즈를 식별할 수 있도록 변형한 Farpoint Software사의 Digitized Voice Programmer's Toolkit과 같은 적합한 오디오 처리 패키지를 실행하는 퍼스널 컴퓨터이다. 사용자는 오디오 편집기(514)를 이용하여, 오디오 데이터(514)[애플리케이션(502b)에 제공되는 제어 신호(541)를 통해 제어됨]에 대하여, 포즈를 식별하고, 포즈 정보(542) 및 대응하는 오디오 데이터(544)를 표시기(508)에 제공하는 단계를 밟을 수 있다. 이러한 절차는 포즈를 식별하는 데에 사람의 간섭을 필요로 하기 때문에, 오프 라인에서 수행할 때, 즉 실시간이 아닐 때 가장 효과적이다. 이 경우, 표시화된 오디오(528) 또는 패킷화되고 표시화된 오디오(530)는 추후 검색을 위해서 저장될 수 있다.
또 다른 변형례에 있어서, 포즈 분석기(570)를 사용함으로써, 라이브 오디오 데이터(554) 및 이에 대응하는 포즈 정보(552)가 제공된다. 특히, 라이브 오디오 소스(560)가 라이브 오디오 데이터(550)를 포즈 분석기(570)에 제공한다. 라이브 오디오 소스(560)는 그러한 오디오의 임의의 소스를 포함해도 좋으며, 라이브 오디오 데이터(550)는 디지털 형태로 제공되는 것이 바람직하다. 포즈 분석기(570)는, 예정된 길이보다 더 긴 무음 기간을 검색하여 라이브 오디오 데이터(550) 내의 포즈들을 찾는다. 예컨대, 1989년 영국 윕스위치에서 개최된 International Conference on Acoustics, Speech and Signal Processing에서 발표된 British Telecom Res. Lab.의 Freeman 등의 논문 "The Voice Activity Detector For The Pan-European Digital Cellular Mobile Telephone Service"에서 입증될 수 있는 바와 같이 당업계에서 잘 알려져 있는데, 그 내용은 본 명세서에 참고로 인용된다. 무음 기간은 통상 자연적인 포즈를 나타내기 때문에, 특히 음성에 대하여 포즈를 삽입할 가능성이 있는 영역이다. 그것이 분석됨에 따라, 라이브 오디오데이터(550)는 라이브 오디오 데이터(554)를 통해서 표시기(558)로 전달된다. 아울러, 포즈 분석기(570)는 적절한 무음 기간을 인식하는 곳마다 포즈 정보를 표시기(508)에 제공한다. 포즈 분석기(570)는 통상 그것이 배치하는 포즈의 형태를 인식할 수는 없을 것이기 때문에 (예컨대, TTS 서버의 경우에서처럼), 비록 길이가 다른 포즈가 다른 포즈 타입으로 분류될 수 있기는 하지만, 포즈 정보(552)는 단지 라이브 오디오 타입의 포즈만 포함하게 된다.
포즈 분석기(570)을 채용하는 특정 형태의 실시예는 보이스 액티비티 검출기(Voice Activity Detector:VAD)를 사용하는 것을 포함한다. 원거리 통신 분야에서 알려져 있는 바와 같이, VAD는 종종 음성 신호를 적절히 처리하기 위하여 필요하다. 예를 들면, 대부분의 패킷 전환 및 압축 시스템(packet-switched and compression system)에 있어서는 무음 기간이 데이터 전송 속도(data rates)를 낮추는 수단으로서의 음성 신호 처리 기간과 동일한 방법으로 인코딩되지 않는다. 그러므로, 음성 인코더(즉, 음성 압축 알고리듬)는 종종 무음 기간을 감지하기 위하여 VAD를 사용한다. 무음을 감지하면, 인코더는 때로는 인코딩된 무음을 나타내는 보다 고속의 패킷과 대비되게 무음 기술(silence description: SID) 패킷으로도 불리는 무음 배경 노이즈(silence background-noise)의 설명을 주기적으로 출력함으로써 전송 패킷 속도를 낮추는 것이 통상적이다. 그러므로, 본 발명의 한 가지 실시예에 있어서는, 보이스 액티비티 검출기가 포즈 분석기(570)를 구현한다. 이 경우, 포즈 분석기(570)는 오디오 데이터(554)를 패킷 형태로 출력하고, 필요한 경우 포즈 정보(552)를 SID 패킷 형태로 출력한다. 본질적으로, SID 패킷들은 그러한 목적으로 명시적으로 생성되는 일이 없이 포즈 정보를 나타낸다. 이 경우, 분석기(570)에 의하여 출력되는 인코딩된 오디오 패킷(554) 및 SID 패킷(552)의 형태에 따라 표시기(508) 및 패킷화기(510)가 불필요할 수도 있다. 그러므로, 본 실시예에서는 도 5에 도시되어 있는 바와 같이, 인코딩된 오디오 패킷(554)과 SID 패킷(552)을 직접 송신기(512)에 제공할 수도 있다. 디코더에서는, 무음을 재생하기 위해서뿐만 아니라 오디오 스트림에 있어서의 잠재적인 포즈 지점을 나타내기 위하여 그러한 하나 이상의 SID 패킷의 수신이 이용될 수도 있다.
도 6에는 포즈 정보를 포함하는 디지털화된 오디오를 디코딩하기 위한 장치가 도시되어 있다. 디코더(600)는 각 오디오 목적지(106)에 포함된다. 디코더(600)는 수신기(604)에 결합된 제어기(602), 버퍼(606), 오디오 재구성기(608), 오디오 필 생성기(612), 사용자 인터페이스(620) 및 송신기(622)를 포함한다. 수신기(604)는 버퍼(606)에 결합되고, 이 버퍼는 다시 오디오 재구성기(608)에 결합된다. 마찬가지로, 오디오 필 생성기(612)는 오디오 재구성기(608)에 결합된다. 디코더(600) 및 그것의 구성 요소들의 동작을 아래에서 더 자세하게 설명한다. 당업계의 통상적인 지식을 가지고 있는 자는 디코더(600)가 설계상의 선택의 문제로서 소프트웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다는 것을 인식할 것이다. 또한, 설계상의 문제로서, 도 6에 도시된 기능 요소들 중 여러 가지의 것들이 함께 조합되거나 또는 더 세분될 수 있다.
수신기(604)는 전송된 패킷(630)을 전송하는 데 사용되는 네트워크 프로토콜과 호환성을 갖는다. 송신기(512)의 경우처럼, 수신기(604)의 특정 형태는 패킷을전달하는 데 사용되는 네트워크에 종속된다. 예를 들면, 패킷이 인터넷 또는 월드 와이드 웹을 매개로 전송되는 경우, 수신기(604)는 TCP/IP 호환성 네트워크 카드 및 대응하는 소프트웨어를 포함할 수도 있다. 마찬가지로, 수신기(604)는 네트워크가 무선인 경우 무선 수신기를 포함할 수도 있다. 그럼에도 불구하고, 수신기(604)는 전송된 패킷(630)을 디지털화된 오디오 스트림으로 조립한다. 이는 네트워크가 순서에서 벗어나서 패킷을 전달하거나 패킷이 소실될 수도 있기 때문에 필요하다. 재조립 과정은 소실 패킷의 재전송을 요청하는 것을 포함할 수도 있다. 에러가 없는 조건 하에서, 디지털화된 오디오 스트림(634)은 재조립되어 버퍼(606)에 저장된 후 재생을 위하여 재구성된다. 아울러, 수신기(604)은 포즈 정보(622)을 스트립핑하여 제어기(602)에 제공한다. 별법으로, 포즈 정보(652)는 오디오 데이터(634)와 병렬로 상기 제어기(602)에 액세스할 수 있는 다른 하나의 버퍼(도시하지 않음)에 저장될 수 있다.
버퍼(606)는 메모리에 있는 저장 공간을 포함한다. 정규의 조건 하에서는, 오디오 재구성기(608)가 스피커(610)를 통하여 재구성 오디오(640)의 재생 개시의 명령을 받기 전에 예정된 양의 오디오 데이터(634)가 버퍼(606)에 저장된다. 바람직한 실시예에 있어서는, 재생 전에 오디오 데이터의 3초값(3 seconds worth)이 버퍼(606)에 저장된다. 그러나, 그것은 더 커도 좋고, 음성이 재생 속도보다 더 빠른 속도로 네트워크를 통해서 전달될 수도 있다고 하는 장점을 취할 수도 있다. 이 경우, 음성은 필요한 것 보다 훨씬 더 신속하게 디코더에 축적된다. 이에 따라, 디코더는 후술되는 선행 스킴(precedence scheme)을 기초로 미래를 예측하고(to lookinto the future) 포즈할 보다 적절한 위치를 결정한다. 바람직한 실시예에 있어서, 음성 버퍼는 10초까지의 오디오 데이터를 보유할 수 있다. 오디오 재구성기(608)는 오디오 데이터를 조작하여 스피커(610)를 통한 재생에 적합한 아날로그 신호를 합성한다. 오디오 재구성기(608)가 아날로그 신호를 합성하는 특별한 방법은 적어도 부분적으로는 오디오 데이터(636)의 포맷에 종속된다. 예를 들면, 오디오 데이터가 64 Kbps 펄스 코드 변조(pulse code modulation: PCM) 샘플을 포함하는 경우, 오디오 재구성기(608)는 적절한 디지털대 아날로그(D/A) 변환기를 포함해도 좋다. 별법으로, 오디오 데이터가 압축된 디지털 오디오를 포함하는 경우, 재구성기(608)는 우선 그 데이터를 D/A 변환기에 제공할 적절한 포맷으로 압축을 풀어줘야 한다.
네트워크가, 예컨대 혼잡, 열악한 에러 조건 또는 접속성(connectivity) 결여로 인하여 패킷을 전달하는 데 어려움을 겪고 있는 경우, 디코더(600)는 그 조건을 인식하고 전송된 패킷(630)에 포함된 포즈 정보(652)를 가초로 재생을 중지한다. 한 가지 실시예에 있어서, 수신기(604)는 네트워크 조건(632)의 통지를 받는다. 즉, 수신기(604)는 서비스 품질의 변화와 같은 통지를 신청 및 수신하여 네트 워크 성능이 열화 또는 향상되는 시기를 확인한다. 이처럼 통지를 제공하는 것은 당업계에서 잘 알려져 있는 것으로 더 자세히 설명할 필요는 없다. 열화된 서비스의 표시를 받으면, 수신기(604)는 열화 조건을 나타내는 메시지(650)를 제어기(602)로 보낸다. 변형예에 있어서, 수신기(604)는 전송된 패킷(630)의 하위 전달 프로토콜로부터의 전달을 모니터링한다. 패킷의 전달이 지연되거나 중단되는경우, 수신기(604)는 메시지(650)를 제어기로 전송한다. 바람직한 실시예에 있어서, 메시지(650)는 버퍼 언더플로우 조건 표시기(buffer underflow condition indicator), 버퍼에 남은 오디오 데이터 양의 표시, 최종 수신 메시지의 식별자 및 다음 메시지의 시작 포인트(예컨대, 디코더가 최종 수신과 추후 수신 사이에서 일부 패킷을 드롭하기로 결정한 경우) 중 어느 것을 포함할 수 있다. 또 다른 하나의 실시예에서, 제어기(602)는 링크(653)에 의하여 나타낸 바와 같이 버퍼(606)를 직접 모니터링하여 버퍼의 상태를 결정할 수도 있다. 예를 들면, 버퍼(606)가 시작 또는 헤드 포인터와 말단 또는 테일 포인터를 갖는 원형 버퍼(circular buffer)로서 구현되어 있는 경우, 제어기(602)는 두 포인터의 접근도를 모니터링할 수 있다. 포인터들이 서로 너무 접근해 있는 경우에 하류 조건이 감지된다.
제어기(602)는 전송된 패킷들의 전달에 악영향을 미치는 조건이 발생하였다고 하는 메시지(650)를 받으면 전송된 패킷(630)에 포함된 포즈 정보(652)를 기초로 재구성된 오디오(640)에 하나 이상의 포즈를 삽입할 것을 결정할 수 있다. 도 6을 참고하면, 이는 오디오 재구성기(608)에 포즈 제어 신호(654)를 발행 또는 주장하는 제어기(602)에 의하여 성취된다. 제어 신호(654)는 오디오 재구성기(608)가 버퍼(606)로부터 검색된 오디오 데이터(636)의 재생을 중단시키게 한다. 특히, 그리고 전술한 포즈 타입을 참고하면, 제어기(602)는 화자 또는 화제 레벨에 우선 포즈를 삽입한 후, 서두, 문단 또는 문장 레벨에 포즈를 삽입하며, 마지막으로는 구 또는 단어 레벨에 포즈를 삽입하려 한다. 결미 포즈 또는 라이브 오디오 포즈에는 설계상의 선택의 문제로서 이 계층(hierarchy) 내의 어느 곳에서든 선행 레벨이 할당될 수도 있다. 사용되는 포즈 타입은 재생 버퍼에서 사용 가능한 디지털화된 음성 신호의 양에 종속되며, 성능은 재생 버퍼의 사이즈에 의하여 영향을 받는다. 큰 버퍼가 바람직한 레벨, 즉 토픽 또는 스피커 레벨의 포즈를 제공할 기회를 더 많이 제공하기 쉽다. 역으로, 작은 버퍼는 열악한 네트워크 성능 하에서 단어 또는 구 레벨에서 더욱 빈번한 포즈를 초래하기 쉽다. 버퍼 사이즈와 성능을 절충하는 것은 설계상의 선택의 문제이다.
따라서, 제어기(602)는 하나 이상의 포즈를 삽입할 필요가 있을 때, 버퍼(606)에 현재 저장된 오디오 데이터에 대응하는 포즈 정보(652)를 검사할 수가 있다. 제1 가용 포즈를 이용하거나 또는 전술한 선행 방법에 기초하여 제어기는 오디오 재구성기(608)에 지시하여 고정 시간 길이 또는 가변 시간 길이 동안 재생을 멈추도록 지시한다. 즉, 제어기(602)는 그의 판독 포인터가 임의점에 이르렀을 때 다수의 오디오 샘플 주기 동안에 재생을 중단할 것을 재구성기(608)에 지시할 수가 있다. 다수의 주기가 경과한 후 자동적으로 재생이 재개된다. 양호한 실시예에 있어서, 제어기(602)는 재구성기(608)에 지시하여 재생을 재개하도록 명령을 받을 때까지 재생을 중단하게 한다. 후자의 방법이 양호한 접근 방법인데, 왜냐하면 재구성기(608)는 샘플 카운터, 타이머 등을 유지하지 않아도 되기 때문이다. 삽입된 포즈가 단축되거나 길어질 필요가 있는 조건이 변화하면 샘플 카운터 또는 타이머는 변화하지 않아도 된다. 마지막으로, 재생을 재개하라는 명령은 재생이 중단되는 경우 이외의 시점에서 재개하기 위한 표시를 포함할 수 있다. 이런 식으로, 포즈는 여전히 버퍼링되거나 앞서 스킵되면 일부 음성을 재생하도록 사용 가능하다. 하나이상의 포즈가 오디오 데이터의 지연을 야기하는 조건이 지속되는 경우 삽입되면, 제어기(602)는 제1 포즈가 만료된 후 재생을 재개하도록 재구성기(608)에 지시할 수 있고 다시 재구성기에 지시하여 다음의 가용한 포즈 또는 사전 선택된 포즈에 이르렀을 때 멈추게한다. 이러한 프로세스는 충분한 오디오 데이터가 버퍼(606)에 남아있다면 필요에 따라 종종 반복될 수가 있다.
그 경우, 도 5와 관련하여 전술한 바와 같이, 보이스 엑티비티 검출기(VAD)를 이용하여 포즈 분석기(570)를 구현하는 경우, 포즈 정보는 무음 기술(SID) 패킷의 형태로 고유적으로 전송된다. 이 경우, 수신기(604)는 SID 패킷의 도달을 인식하고 이것을 제어기(602)에 표시한다. 이런 식으로 제어기(602)는 수신된 SID 패킷에 대응하는 오디오 스트림 내의 위치에서 포즈를 삽입할 수가 있다.
전술한 바와 같이, 삽입된 포즈이 길이는 소정의 길이로 설정 가능하다. 예컨대, 모든 포즈는 지속 기간 동안 1 초로 고정될 수 있다. 이 실시예에서 논리 극단은 그 조건이 지속하는 한 포즈 길이를 무한 길이로서 설정하는 것이다. 일단 더 이상 그러한 조건이 존재하지 않는다고 판단되면 포즈는 중단될 것이다. 제2 실시예에서 포즈의 길이는 삽입되는 포즈 타입에 따른다. 예컨대, 단어 및 구의 포즈는 비교적 짧은 지속기간, 서두, 구일 수 있으며, 문장 포즈는 길어질 수가 있고, 화자 및 화제 포즈는 더욱 길어질 수가 있다. 제3 실시예에서, 포즈의 길이는 상기 조건이 검출될 때 버퍼에 잔존하는 오디오 데이터의 양에 의존하도록 할 수 있다. 즉, 포즈 지속 기간은 버퍼에 잔존하는 오디오 데이터의 양에 반비례할 수 있다. 예컨대, 포즈는 버퍼가 3/4 이상 채워져 있으면 0.5초로, 1/2 에서 3/4 사이로 채워진 경우 1초로, 1/4에서 1/2 사이로 채워진 경우 2초로, 1/4 미만으로 채워진 경우 4초로 정해질 수 있다. 더욱이, 상기 세가지 접근 방법의 조합을 혼합할 수 있다. 예컨대, 포즈 지속 기간은 포즈 타입과 버퍼링된 오디오 데이터의 잔존량에 의존하도록 할 수 있다.
네트워크 접속이 상실되거나 재전송에 매우 긴 시간이 소요되고 있는 경우에, 추가 정보(오디오 필러)가 상기 포즈외에 추가로 도입될 수 있다. 이러한 목적으로, 제어기(602)는 오디오 필 생성기(612)에 제어 신호(656)를 발행 내지는 인가(assert)한다. 제어 신호(656)는 생성기(612)가 오디오 필러 데이터(658)를 생성하도록 지시하며, 생성할 데이터의 유형을 선택적으로 지시한다. 예컨대, 오디오 필러는 일시적 네트워크 곤란(difficulty)을 표시하는 음성 프롬프트를 포함할 수 있다. 대안으로서, 필러 데이터는 광고, 음악 또는 컴포트 노이즈(comfort noise)와 같은 기타 정보를 포함할 수 있다. 본 발명은 이러한 관점에 한정되지 않는다. 오디오 필러 데이터(658)는 전술한 바와 동일한 방법으로 오디오 재구성기(608)에 의해 청취 가능하게 된다.
버퍼 언더플로우(underflow)가 존재하는 경우, 즉 패킷들이 수신기(604)에 충분히 신속하게 도달하지 않는 경우에, 제어기(602)는 송신기(622)를 통해, 오디오 소스에 가능하다면 전진하여 점프하거나 전송 속도를 상향시킬 것을 지시하는 요청을 전송할 수도 있다. 이는 엄밀히 필요한 것은 아니며, 왜냐하면 제어기(602)가 이미 포즈를 유발하였을 것이고, 단지 추가 패킷의 도달을 대기할 수 있기 때문이다. 버퍼가 음성 스트림의 완료 이전에 비어 있으면, 버퍼는 미리 지정된 양의오디오 데이터가 재축적되거나 오디오 스트림의 끝이 결미 타입 포즈 표시에 의해 결정된 대로 도달한 후에만 포즈를 삽입하고 재생(playback)을 재개할 것이다. 디코더(600)가 이용할 수 있는 송신기(622)는 인코더(500)가 이용할 수 있는 송신기(512)와 실질적으로 동일함을 유의해야 한다.
버퍼 오버플로우(overflow)가 존재하는 경우에, 즉 패킷들이 수신기(604)에 너무 신속하게 도달하고 있는 경우에, 제어기(602)는 송신기(622)를 통해, 오디오 소스에 전송을 중단하거나 전송 속도를 조정하거나 또는 양자 모두를 지시하는 메시지를 전송할 수 있다. 이러한 시나리오의 결과로, 중간 패킷이 손상되는 경우에, 제어기(602)는 그 손상된 패킷의 전송 중단을 오디오 소스에 지시하며, 이에 따라 순간적으로 오디오 데이터를 과도하게 이동시키는 오디오 재생이 일어날 수 있다. 음성 버퍼가 비워질 때, 제어기(602)는 오디오 소스에 전송 프로세스를 회복하기 위한 요청을 하여, 오디오 데이터의 공급을 채울 수 있다. 바람직한 실시예에 있어서, 이러한 요청은 음성 버퍼가 10초 동안에 버퍼(10)를 50% 채운 경우에 전송된다. 이것은 일반적으로 바람직하게는 버퍼에서 3초 이상의 음성을 발생할 것이다.
지연 길이가 충분하거나, 네트워크 접속이 완전히 끊어진 경우에, 버퍼(606)의 현재 정보는 진부하거나 쓸모없는 것이 될 수 있다. 이러한 경우에, 제어기 (602)(예를 들면, 타임 아웃 타이머의 종료시)는 오디오 소스 및 오디오 채움 발생기(612)에 중지 요청을 보내서, 스피커(610)의 기동을 중지시킨다. 추가적으로, 제어기는 예를 들면 버퍼(606)에 그 데이터를 겹쳐쓰거나, 적합한 버퍼 포인터를 재설정하는 수단에 의해 버퍼(606)를 완전히 비울 수 있다. 손상된 네트워크 접속의결과로, 제어기(602)는 중지 메세지를 발생시켜, 버퍼(606)를 완전히 비우며, 수신기(604)에 명령하여 그 접속과 관련된 오디오 소스로부터 더 이상의 패킷을 거부하고, 그 네트워크 접속의 재기동을 요청함으로써, 오디오 소스 및 디코더(600)를 재동기시킨다.
전술한 바와 동일한 매커니즘을 이용하여, 제어기(602)는 또한 중지의 삽입을 요청하는 상태가 완화 또는 중지되는 시점을 검출한다. 예를 들면, 제어기(602)는 수신기(604)를 통해 서비스질을 개선했는지를 나타내는 네트워크 통지를 수신할 수 있다. 대안으로, 수신기(604)는, 오디오 패킷의 전송을 모니터링함으로써, 하부 전송 프로토콜이 그 패킷을 충분한 속도로 재전송하고 있는지를 확인할 수 있다. 그럼에도 불구하고, 제어기(602)는 오디오 재구성기(608)에 버퍼에 저장된 오디오 데이터(636)의 재생을 지시하며, 바람직하게는 마지막 펄스가 삽입되는 지점에서 재생을 시작하는게 좋다.
포즈 정보(652)는 그 밖의 다양한 기능을 가능하게 한다. 예컨대, 사용자는 포즈가 도입되는 시기를 제어할 수 있다. 오디오 데이타를 재구성할 경우, 사용자는 사용자 인터페이스(620)를 통하여 재생을 중지시키고 이후에 재생을 재개할 것을 요청할 수 있다. 이러한 중지 요청은, 제어기(602)로 하여금 예정된 기간 동안 또는 재생을 재개하라는 명령이 하달될 때까지 특정 타입의 포즈 상태로 재생을 중지하게 한다. 선택적으로, 제어기(602)는 예정된 기간 동안 또는 계속 전송에 관한 후속 요청이 수신될 때까지 패킷의 전송을 일시적으로 중단할 것을 명령하는 요청을 오디오 소스에 전송한다. 사용자 인터페이스(620)는 임의의 통상적인 사용자 입력 장치, 예컨대 문자 숫자식 키패드, 터치 스크린, 마우스 및 포인터 디스플레이, 드롭 다운 메뉴, 보이스 액티베이션 등을 포함할 수 있다.
또한, 사용자 요청에 응답하여, 제어기(602)는 오디어 재구성기(608)로 하여금 적절한 포즈 타입에 의해 결정되는 바에 따라 이전 문장, 단락, 서두, 화제 또는 화자를 반복하게 할 것을 명령할 수 있다. 이는 버퍼(606)가 이전에 재생된 오디오를 유지할 정도로 충분히 크다는 것을 암시한다. 버퍼가 충분히 크지 않은 경우에, 제어기(602)는 바로 전의 문장, 단락, 서두, 화제 또는 화자의 재전송을 요청할 수도 있고, 오디오 필 생성기(612)로 하여금 현재의 요청을 충족시킬 수 없다는 메세지를 재생하게 할 수도 있다. 또한, 사용자의 요청에 응답하여 제어기(602)는 오디오 재구성기(608)로 하여금 포즈 정보(652)에 의해 확인되는 바에 따라 다음 문장, 단락, 제목, 화제 또는 화자를 건너뛰게 할 것을 명령할 수 있다. 상기 데이터를 버퍼(606)에서 이용할 수 있다면, 현재의 재생은 중단되고 새로운 오디오 데이터가 스피커(610)로 재생될 것이다.
본 발명은 전송 오디오 데이타에 부가된 포즈 정보의 이용을 통해 재구성된 오디오에 네트워크 지연이 미치는 영향을 완화시키는 기술을 제공한다. 포즈 정보는 오디오 데이터의 불연속 또는 일시적인 지연을 나타내는 상태를 검출할 경우 상기 재구성된 오디오에 포즈를 지능적으로 부가하는 데 사용된다. 이러한 방식에서는, 재구성된 오디오에 있어서 비정상적인 인위적 결과 및 불연속이 회피되며, 상기 일시적인 상태를 완화할 수 있게 된다. 전술한 내용은 단지 본 발명의 원리의 적용을 단지 예시하는 것이다. 당업자라면, 본 발명의 정신 및 범위를 벗어나지 않는 그 밖의 장치 및 방법을 구현할 수 있을 것이다.

Claims (68)

  1. 디지털 오디오와,
    상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 나타내는 포즈 정보
    를 포함하는 데이터 구조가 저장된 컴퓨터로 판독 가능한 매체.
  2. 제1항에 있어서, 상기 디지털 오디오는 디지털 음성을 포함하는 것인 컴퓨터로 판독 가능한 매체.
  3. 제1항에 있어서, 상기 적어도 하나의 포즈 위치는 상기 디지털 오디오의 처음이거나, 상기 디지털 오디오의 끝이거나, 또는 그 양단인 것인 컴퓨터로 판독 가능한 매체.
  4. 제1항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 컴퓨터로 판독 가능한 매체.
  5. 제4항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 컴퓨터로 판독 가능한 매체.
  6. 제1항에 있어서, 상기 포즈 정보는 적어도 하나의 튜플을 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치에 유일하게 대응하고, 각 튜플은,
    상기 하나의 포즈 위치에 대응하는 포즈 타입과,
    상기 하나의 포즈 위치를 지시하는 포인터
    를 포함하는 것인 컴퓨터로 판독 가능한 매체.
  7. 제1항에 있어서, 상기 포즈 정보는 적어도 하나의 튜플을 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나 이상의 포즈 위치에 유일하게 대응하고, 각 튜플은,
    상기 하나 이상의 포즈 위치에 대응하는 포즈 타입과,
    상기 하나 이상의 포즈 위치를 지시하는 적어도 하나의 포인터와,
    상기 포즈 타입과 관련된 포인터의 수를 나타내는 길이 파라미터
    를 포함하는 것인 컴퓨터로 판독 가능한 매체.
  8. 제1항에 있어서, 상기 포즈 정보는 상기 디지털 오디오에 첨부되는 것인 컴퓨터로 판독 가능한 매체.
  9. 제1항에 있어서, 상기 포즈 정보는 상기 디지털 오디오 내에 산재되는 것인 컴퓨터로 판독 가능한 매체.
  10. 제1항에 있어서, 상기 데이터 구조는 상기 디지털 오디오의 처음을 지시하는 개시 포인터를 더 포함하는 것인 컴퓨터로 판독 가능한 매체.
  11. 제1항에 있어서, 상기 데이터 구조는 상기 데이터 구조를 목적지에 전달하는 데 사용되는 라우팅 정보를 더 포함하는 것인 컴퓨터로 판독 가능한 매체.
  12. 디지털 오디오 내에 포즈를 표시하는 방법에 있어서,
    상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 식별하는 단계와,
    상기 디지털 오디오 내의 상기 적어도 하나의 포즈 위치를 지시하는 포즈 정보를 상기 디지털 오디오에 부가하는 단계
    를 포함하는 포즈 표시 방법.
  13. 제12항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 방법.
  14. 제13항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 포즈 표시 방법.
  15. 제12항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 포즈 표시 방법.
  16. 제12항에 있어서, 상기 텍스트로부터 상기 디지털 오디오를 얻는 단계와,
    상기 적어도 하나의 포즈 위치를 확인하기 위해서 상기 텍스트를 분석하는 단계를 더 포함하는 포즈 표시 방법.
  17. 제16항에 있어서, 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 결정하기 위해서 상기 텍스트를 분석하는 단계를 더 포함하는 포즈 표시 방법.
  18. 제12항에 있어서, 상기 부가 단계는 상기 디지털 오디오에 적어도 하나의 튜플을 부가하는 단계를 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치에 유일하게 대응하고, 각 튜플은,
    상기 하나의 포즈 위치에 대응하는 포즈 타입과,
    상기 하나의 포즈 위치를 지시하는 포인터
    를 포함하는 것인 포즈 표시 방법.
  19. 제12항에 있어서, 상기 부가 단계는 상기 디지털 오디오에 적어도 하나의 튜플을 부가하는 단계를 더 포함하며, 상기 적어도 하나의 튜플의 각 튜플은 상기 적어도 하나의 포즈 위치 중 하나 이상의 포즈 위치에 유일하게 대응하고, 각 튜플은,
    상기 하나 이상의 포즈 위치에 대응하는 포즈 타입과,
    상기 하나 이상의 포즈 위치를 지시하는 적어도 하나의 포인터와,
    상기 포즈 타입과 관련된 포인터의 수를 나타내는 길이 파라미터
    를 포함하는 것인 포즈 표시 방법.
  20. 제12항에 있어서, 상기 부가 단계는 상기 포즈 정보를 상기 디지털 오디오에 첨부하는 단계를 더 포함하는 포즈 표시 방법.
  21. 제12항에 있어서, 상기 부가 단계는 상기 포즈 정보를 상기 디지털 오디오 내에 산재시키는 단계를 더 포함하는 포즈 표시 방법.
  22. 제12항에 있어서, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 단계와,
    상기 패킷을 디코더에 전송하는 단계를 더 포함하는 포즈 표시 방법.
  23. 제22항에 있어서, 패킷마다, 포즈는 상기 패킷의 처음이나, 상기 패킷의 끝이나, 또는 그 양단에서 발생하는 것인 포즈 표시 방법.
  24. 제12항에 기재한 포즈 표시 방법의 단계들을 수행하기 위한 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터로 판독 가능한 매체.
  25. 포즈 정보가 부가된 디지털 오디오를 디코딩하는 방법에 있어서,
    상기 디지털 오디오를 수신하는 단계와,
    상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 단계와,
    상기 재구성된 오디오의 적어도 일시적인 중단을 요구하는 조건을 검출하는 단계와,
    상기 조건에 응답하여 상기 포즈 정보에 기초하여 상기 재구성된 오디오의 제공을 중지하는 단계
    를 포함하는 디지털 오디오 디코딩 방법.
  26. 제25항에 있어서, 상기 검출 단계는 상기 디지털 오디오의 연속 수신의 손상을 검출하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  27. 제25항에 있어서, 상기 검출 단계는 상기 재구성된 오디오 중단 요청을 수신하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  28. 제25항에 있어서, 상기 조건이 더 이상 유효하지 않음을 판정하는 단계와,
    상기 재구성된 오디오의 제공을 계속하는 단계를 더 포함하는 디지털 오디오디코딩 방법.
  29. 제25항에 있어서, 상기 중지 단계는 소정의 기간 동안 중지하는 단계를 더 포함하며,
    상기 소정의 기간이 만기하면 상기 재구성된 오디오의 제공을 계속하는 단계를 더 포함하는 디지털 오디오 디코딩 방법.
  30. 제29항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 타입을 포함하며, 상기 소정의 기간의 길이는 상기 적어도 하나의 포즈 타입에 기초하는 것인 디지털 오디오 디코딩 방법.
  31. 제25항에 있어서, 상기 재구성된 오디오를 제공하는 단계 전에 상기 디지털 오디오의 소정량을 버퍼에 저장하는 단계를 더 포함하며,
    상기 재구성된 오디오는 상기 버퍼에 저장된 디지털 오디오에 기초하고,
    상기 중지 단계는 상기 버퍼에 남은 디지털 오디오의 양에 기초하여 소정의 기간 동안 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  32. 제25항에 있어서, 상기 포즈 정보는 상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 포함하며, 상기 중지 단계는,
    상기 적어도 하나의 포즈 위치 중 하나의 포즈 위치를 식별하는 단계와,
    상기 포즈 위치까지 상기 재구성된 오디오의 제공을 계속하는 단계와,
    상기 포즈 위치에 도달하면 상기 재구성된 오디오의 제공을 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  33. 제32항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하며, 상기 식별 단계는 상기 포즈 위치에 대응하는 포즈 타입에 기초하여 상기 포즈 위치를 식별하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  34. 제33항에 있어서, 상기 중지 단계는 상기 포즈 타입에 기초하여 소정의 기간 동안 중지하는 단계를 더 포함하는 것인 디지털 오디오 디코딩 방법.
  35. 제33항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 디지털 오디오 디코딩 방법.
  36. 제25항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 디지털 오디오 디코딩 방법.
  37. 제25항에 있어서, 상기 재구성된 오디오를 중지하는 동안에 필러 오디오를제공하는 단계를 더 포함하는 디지털 오디오 디코딩 방법.
  38. 제25항에 기재한 디지털 오디오 디코딩 방법의 단계들을 수행하기 위한 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터로 판독 가능한 매체.
  39. 디지털 오디오 내에 포즈를 표시하는 장치에 있어서,
    상기 디지털 오디오 내의 적어도 하나의 포즈 위치를 식별하는 수단과,
    상기 디지털 오디오 내의 상기 적어도 하나의 포즈 위치를 지시하는 포즈 정보를 상기 디지털 오디오에 부가하는 수단
    을 포함하는 포즈 표시 장치.
  40. 제39항에 있어서, 상기 부가 수단은 부가하는 기능을 더 하며, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 더 포함하는 것인 포즈 표시 장치.
  41. 제40항에 있어서, 상기 적어도 하나의 포즈 타입은 단어 포즈, 구 포즈, 문장 포즈, 단락 포즈, 서두 포즈, 화제 포즈, 화자 포즈, 결미 포즈 및 오디오 스트림 포즈로 구성되는 임의 그룹을 포함하는 것인 포즈 표시 장치.
  42. 제39항에 있어서, 상기 포즈 정보는 무음 기술 패킷을 포함하는 것인 포즈표시 장치.
  43. 제39항에 있어서, 상기 부가 수단은 상기 포즈 정보를 상기 디지털 오디오에 첨부하는 기능을 더 하는 것인 포즈 표시 장치.
  44. 제39항에 있어서, 상기 부가 수단은 상기 포즈 정보를 상기 디지털 오디오 내에 산재시키는 기능을 더 하는 것인 포즈 표시 장치.
  45. 제39항에 있어서, 상기 부가 수단에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,
    상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
  46. 디지털 음성에 포즈를 표시하는 장치에 있어서,
    입력으로서 텍스트 스트링을 취하여 상기 텍스트 스트링 내의 포즈를 식별하고, 출력으로서 상기 텍스트 스트링의 일부와 상기 텍스트 스트링의 일부에 대응하는 포즈 정보를 제공하는 구문 분석기와,
    상기 구문 분석기에 결합되고, 출력으로서 상기 디지털 음성을 제공하기 위해서 상기 텍스트 스트링의 일부를 변환시키는 TTS 변환기와,
    상기 구문 분석기와 상기 TTS 변환기에 결합되고, 상기 포즈 정보를 상기 디지털 음성에 부가하는 표시기
    를 포함하는 포즈 표시 장치.
  47. 제46항에 있어서, 상기 구문 분석기가 제공하는 포즈 정보는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
  48. 제47항에 있어서, 상기 구문 분석기가 제공하는 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 장치.
  49. 제46항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,
    상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
  50. 디지털 오디오에 포즈를 표시하는 장치에 있어서,
    입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 포즈를 식별하고, 출력으로서 상기 디지털 오디오와 상기 디지털 오디오에 대응하는 포즈 정보를 제공하는 오디오 편집기와,
    상기 오디오 편집기에 결합되고, 상기 포즈 정보를 상기 디지털 오디오에 부가하는 표시기
    를 포함하는 포즈 표시 장치.
  51. 제50항에 있어서, 상기 오디오 편집기가 제공하는 포즈 정보는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
  52. 제51항에 있어서, 상기 오디오 편집기가 제공하는 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하는 것인 포즈 표시 장치.
  53. 제50항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,
    상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
  54. 디지털 오디오에 포즈를 표시하는 장치에 있어서,
    입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 소정의 길이보다 긴 적어도 하나의 무음 기간을 식별하고, 출력으로서 상기 디지털 오디오와 상기 디지털 오디오에 대응하는 포즈 정보를 제공하는 포즈 분석기와,
    상기 포즈 분석기에 결합되고, 상기 포즈 정보를 상기 디지털 오디오에 부가하는 표시기
    를 포함하는 포즈 표시 장치.
  55. 제54항에 있어서, 상기 포즈 분석기가 제공하는 포즈 정보는 상기 적어도 하나의 무음 기간에 대응하는 적어도 하나의 포즈 위치를 포함하는 것인 포즈 표시 장치.
  56. 제54항에 있어서, 상기 표시기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 패킷으로 분할하는 패킷화기와,
    상기 패킷화기에 결합되고, 상기 패킷을 디코더에 전송하는 송신기를 더 포함하는 포즈 표시 장치.
  57. 포즈 정보가 부가된 디지털 오디오를 디코딩하는 장치에 있어서,
    제어기와,
    상기 제어기에 결합되고, 상기 디지털 오디오와 상기 포즈 정보를 수신하여 상기 디지털 오디오를 오디오 버퍼에 저장하는 수신기와,
    상기 제어기와 상기 오디오 버퍼에 결합되고, 상기 오디오 버퍼에 저장된 상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 오디오 재구성기
    를 포함하며,
    상기 제어기는 상기 재구성된 오디오의 적어도 일시적인 중단을 요구하는 조건을 검출하고, 상기 조건에 응답하여 상기 포즈 정보에 기초하여 상기 재구성된 오디오를 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  58. 제57항에 있어서, 상기 제어기가 검출하는 상기 조건은 상기 디지털 오디오의 연속 수신의 손상인 것인 디지털 오디오 디코딩 장치.
  59. 제57항에 있어서, 상기 제어기에 결합되는 사용자 인터페이스를 더 포함하며, 상기 제어기가 검출하는 상기 조건은 상기 사용자 인터페이스를 통해 수신되는 상기 재구성된 오디오 중단 요청인 것인 디지털 오디오 디코딩 장치.
  60. 제57항에 있어서, 상기 제어기는 소정의 기간 동안 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  61. 제60항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 타입을 포함하며, 상기 소정의 기간의 길이는 상기 적어도 하나의 포즈 타입에 기초하는 것인 디지털 오디오 디코딩 장치.
  62. 제57항에 있어서, 상기 제어기는 상기 버퍼에 남은 디지털 오디오의 양에 기초한 소정의 기간 동안 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  63. 제57항에 있어서, 상기 포즈 정보는 적어도 하나의 포즈 위치를 포함하며, 상기 제어기는 상기 적어도 하나의 포즈 위치에 기초하여 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  64. 제57항에 있어서, 상기 포즈 정보는 상기 적어도 하나의 포즈 위치에 대응하는 적어도 하나의 포즈 타입을 포함하며, 상기 제어기는 상기 적어도 하나의 포즈 위치에 대응하는 상기 적어도 하나의 포즈 타입에 기초하여 중지할 것을 상기 오디오 재구성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  65. 제57항에 있어서, 상기 제어기와 상기 오디오 재구성기에 결합되는 오디오 필 생성기를 더 포함하며,
    상기 제어기는 상기 재구성된 오디오를 중지하는 동안에 상기 오디오 재구성기에 필러 오디오를 제공할 것을 상기 오디오 필 생성기에게 지시하는 것인 디지털 오디오 디코딩 장치.
  66. 제57항에 기재한 디지털 오디오 디코딩 장치를 포함하는 클라이언트 서버 통신 시스템 내의 클라이언트.
  67. 제66항에 있어서, 상기 수신기는 무선 수신기인 것인 클라이언트.
  68. 디지털 오디오에 포즈를 표시하는 시스템에 있어서,
    입력으로서 상기 디지털 오디오를 취하여 상기 디지털 오디오 내의 소정의 길이보다 긴 적어도 하나의 무음 기간을 식별하는 보이스 액티비티 검출기와,
    출력으로서 상기 디지털 오디오를 제공하고, 상기 보이스 액티비티 검출기가 상기 적어도 하나의 무음 기간을 식별한 때에는 출력으로서 무음 기술 정보를 제공하는 인코더와,
    상기 인코더에 결합되고, 상기 디지털 오디오와 상기 무음 기술 정보를 전송하는 송신기와,
    상기 송신기와 통신하여, 상기 송신기로부터 상기 디지털 오디오와 상기 무음 기술 정보를 수신하는 수신기와,
    상기 수신기에 결합되고, 상기 디지털 오디오에 기초하여 재구성된 오디오를 제공하는 오디오 재구성기와,
    상기 재구성된 오디오의 제공을 적어도 일시적으로 중단시키고, 상기 무음 기술 정보에 기초하여 상기 재구성된 오디오를 중지할 것을 상기 오디오 재구성기에게 지시하는 제어기
    를 포함하는 포즈 표시 시스템.
KR1020037010531A 2001-02-09 2002-02-11 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치 KR100684572B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/780,916 2001-02-09
US09/780,916 US6885987B2 (en) 2001-02-09 2001-02-09 Method and apparatus for encoding and decoding pause information
PCT/US2002/003953 WO2002065452A1 (en) 2001-02-09 2002-02-11 Method and apparatus for encoding and decoding pause information

Publications (2)

Publication Number Publication Date
KR20040047745A true KR20040047745A (ko) 2004-06-05
KR100684572B1 KR100684572B1 (ko) 2007-02-22

Family

ID=25121081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037010531A KR100684572B1 (ko) 2001-02-09 2002-02-11 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치

Country Status (7)

Country Link
US (2) US6885987B2 (ko)
EP (1) EP1362341B1 (ko)
KR (1) KR100684572B1 (ko)
CN (1) CN1267886C (ko)
AT (1) ATE376701T1 (ko)
DE (1) DE60223131T2 (ko)
WO (1) WO2002065452A1 (ko)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7363269B2 (en) * 2001-01-03 2008-04-22 Ebs Group Limited Conversational dealing system
US7185105B2 (en) * 2001-05-11 2007-02-27 Bea Systems, Inc. Application messaging system with flexible message header structure
GB2382266B (en) * 2001-11-14 2004-03-17 Toshiba Res Europ Ltd Data transmission system
US20060153389A1 (en) * 2002-06-28 2006-07-13 Micronas Gmbh Wireless audio signal transmission method for a three-dimensional sound system
US20040039796A1 (en) * 2002-08-08 2004-02-26 Virtual Radio, Inc. Personalized cyber disk jockey and Internet radio advertising
US7548585B2 (en) * 2003-02-10 2009-06-16 At&T Intellectual Property I, L.P. Audio stream adaptive frequency scheme
US7630612B2 (en) * 2003-02-10 2009-12-08 At&T Intellectual Property, I, L.P. Video stream adaptive frame rate scheme
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
EP1665769B1 (en) * 2003-09-12 2014-03-19 OpenTV, Inc. Method and system for controlling recording and playback of interactive applications
US9185228B1 (en) 2003-09-25 2015-11-10 Smith Micro Software, Inc. Buffering voice data in network-based instant connect communication
US7809388B1 (en) 2004-02-26 2010-10-05 Core Mobility, Inc. Selectively replaying voice data during a voice communication session
JP4498011B2 (ja) * 2004-05-27 2010-07-07 キヤノン株式会社 配信装置及びその処理方法及びプログラム及び記憶媒体
US7779163B2 (en) * 2004-09-08 2010-08-17 Fisher-Rosemount Systems, Inc. Management of event order of occurrence on a network
EP1840877A4 (en) * 2005-01-18 2008-05-21 Fujitsu Ltd ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE
KR100684918B1 (ko) * 2005-04-01 2007-02-22 삼성전자주식회사 음악 파일을 재생하는 이동 통신 단말기 및 그 방법
US20060253279A1 (en) * 2005-05-04 2006-11-09 Sung Chih-Ta S Method and apparatus of wireless audio playback system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8045454B2 (en) * 2005-09-12 2011-10-25 Cisco Technology, Inc. Multimedia data flow dropping
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080109556A1 (en) * 2006-11-07 2008-05-08 Sony Ericsson Mobile Communications Ab Adaptive insertion of content in streaming media
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US8355484B2 (en) * 2007-01-08 2013-01-15 Nuance Communications, Inc. Methods and apparatus for masking latency in text-to-speech systems
KR101445869B1 (ko) * 2007-07-11 2014-09-29 엘지전자 주식회사 미디어 인터페이스
JP2009180972A (ja) * 2008-01-31 2009-08-13 Panasonic Corp オーディオレジューム再生装置及びオーディオレジューム再生方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN101834964B (zh) * 2010-03-31 2013-07-03 耿直 语音数据传输处理方法
US8755921B2 (en) * 2010-06-03 2014-06-17 Google Inc. Continuous audio interaction with interruptive audio
US20120035922A1 (en) * 2010-08-05 2012-02-09 Carroll Martin D Method and apparatus for controlling word-separation during audio playout
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102760440A (zh) * 2012-05-02 2012-10-31 中兴通讯股份有限公司 语音信号的发送、接收装置及方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104813306B (zh) * 2012-11-21 2017-07-04 相干逻辑公司 具有散布处理器dma‑fifo的处理系统
US20140153410A1 (en) * 2012-11-30 2014-06-05 Nokia Siemens Networks Oy Mobile-to-mobile radio access network edge optimizer module content cross-call parallelized content re-compression, optimization, transfer, and scheduling
JP6244658B2 (ja) * 2013-05-23 2017-12-13 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN103577148A (zh) * 2013-11-28 2014-02-12 南京奇幻通信科技有限公司 语音朗读方法及装置
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9680905B2 (en) * 2013-12-23 2017-06-13 David Arthur Yost System for intelligible audio conversation over unreliable digital transmission media
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9558736B2 (en) * 2014-07-02 2017-01-31 Bose Corporation Voice prompt generation combining native and remotely-generated speech data
JP6724782B2 (ja) * 2014-09-04 2020-07-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置
US10063609B2 (en) * 2015-08-19 2018-08-28 Qualcomm Incorporated Methods and apparatus for multimedia conferences using single source multi-unicast
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9949027B2 (en) * 2016-03-31 2018-04-17 Qualcomm Incorporated Systems and methods for handling silence in audio streams
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20190034554A1 (en) * 2017-07-28 2019-01-31 Lenovo (Singapore) Pte. Ltd. Extend conversational session waiting time
US10459686B1 (en) * 2018-08-08 2019-10-29 Nuance Communications, Inc. Audio stream mixing system and method
IL285331B2 (en) * 2019-02-05 2024-10-01 Igentify Ltd A system and methodology for modulating dynamic gaps in speech
CN110970013A (zh) * 2019-12-23 2020-04-07 出门问问信息科技有限公司 一种语音合成方法、装置以及计算机可读存储介质
US11817117B2 (en) * 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications
US11823713B1 (en) 2022-10-03 2023-11-21 Bolt-On Ip Solutions, Llc System and method for editing an audio stream

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0162173B1 (fr) * 1984-05-23 1989-08-16 International Business Machines Corporation Sytème numérique de transmission de la voix par paquets
US5220565A (en) * 1991-05-30 1993-06-15 Motorola, Inc. Selective transmission of encoded voice information representing silence
DE69327774T2 (de) * 1992-11-18 2000-06-21 Canon Information Systems, Inc. Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
CN1032391C (zh) 1994-04-01 1996-07-24 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
JPH08328590A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd 音声合成装置
US5615214A (en) * 1995-10-30 1997-03-25 Motorola, Inc. System and method of compensating propagation time variations and substituting for lost packets in a packetized voice communication system
US5870394A (en) * 1996-07-23 1999-02-09 Northern Telecom Limited Method and apparatus for reassembly of data packets into messages in an asynchronous transfer mode communications system
JPH10341256A (ja) * 1997-06-10 1998-12-22 Logic Corp 音声から有音を抽出し、抽出有音から音声を再生する方法および装置
US6175820B1 (en) * 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
US6650652B1 (en) * 1999-10-12 2003-11-18 Cisco Technology, Inc. Optimizing queuing of voice packet flows in a network

Also Published As

Publication number Publication date
ATE376701T1 (de) 2007-11-15
US7433822B2 (en) 2008-10-07
EP1362341B1 (en) 2007-10-24
CN1496555A (zh) 2004-05-12
DE60223131T2 (de) 2008-08-14
WO2002065452A1 (en) 2002-08-22
DE60223131D1 (de) 2007-12-06
KR100684572B1 (ko) 2007-02-22
US20020111812A1 (en) 2002-08-15
US20050192812A1 (en) 2005-09-01
CN1267886C (zh) 2006-08-02
EP1362341A4 (en) 2005-06-22
EP1362341A1 (en) 2003-11-19
US6885987B2 (en) 2005-04-26

Similar Documents

Publication Publication Date Title
KR100684572B1 (ko) 포즈 정보를 인코딩 및 디코딩하는 방법 및 장치
US7453897B2 (en) Network media playout
JP4504429B2 (ja) 端末間のボイスオーバインターネットプロトコルのメディアの待ち時間を管理する方法および装置
US8279884B1 (en) Integrated adaptive jitter buffer
KR20040031035A (ko) 토크 스퍼트 동안의 재동기화를 이용하여 패킷-기반 음성단말기 내의 동기화 지연을 감소시키기 위한 방법 및 장치
US7908147B2 (en) Delay profiling in a communication system
CN101636990A (zh) 在通信系统中传输数据的方法
KR101411197B1 (ko) 패킷 스트림 내의 지터 보상 방법
US7110416B2 (en) Method and apparatus for reducing synchronization delay in packet-based voice terminals
US20100195490A1 (en) Audio packet receiver, audio packet receiving method and program
US9571425B2 (en) Method and apparatus for voice communication based on voice activity detection
JP2006222893A (ja) Dtmf信号処理方法、処理装置、中継装置、及び通信端末装置
Chen et al. Experiments on QoS adaptation for improving end user speech perception over multi-hop wireless networks
JP2007274369A (ja) 通信システム、送信装置および受信装置
US9231814B2 (en) Communication device, method for generating a transport protocol message, and method for processing a transport protocol message
JP4454255B2 (ja) 音声/fax通信システム、音声/fax受信装置および揺らぎ吸収バッファ量制御方法
EP3039848B1 (en) Methods and apparatus for conducting internet protocol telephony communications
Huang et al. Robust audio transmission over internet with self-adjusted buffer control
Fredholm et al. Implementing an application for communication and quality measurements over UMTS networks
Zafeiropoulos Packetised low bit rate speech coding: An investigation of error concealment techniques
Norlund Voice over IP in PDC Packet Data Network
Fredholm et al. Implementing an application for communication and quality measurements over UMTS networks
JPH07154362A (ja) 時分割多重通信システム
WO2009078535A1 (en) Apparatus and method for generating fixed delay of variable-bandwidth multicodec
JP2001251342A (ja) パケット受信装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130117

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140121

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150128

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160126

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180131

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20200131

Year of fee payment: 14