KR100722707B1

KR100722707B1 - 멀티미디어 신호를 전송하기 위한 전송 시스템

Info

Publication number: KR100722707B1
Application number: KR1020007009777A
Authority: KR
Inventors: 라케쉬 타오리; 와너알.티. 텐케이트
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-01-06
Filing date: 1999-12-21
Publication date: 2007-06-04
Also published as: WO2000041400A3; JP4485690B2; CN1302513A; EP1058997A1; WO2000041400A2; US20030179757A1; JP2002534922A; KR20010083780A; CN1127857C

Abstract

통신 시스템에서, 멀티미디어 신호가 엔코더(1)에서 엔코딩되고, 이어서 터미널(6)로 패킷 교환 네트워크(4)를 통해 반송된다. 터미널(6)은 출력이 수신 버퍼(210)에 연결되는 수신기(8)를 포함한다. 수신 버퍼(210)의 출력은 디코더(216) 및 프리젠테이션 장치(218)를 포함하는 프리젠테이션 수단(214)에 인가된다. 패킷 교환 네트워크(4)에서의 지연 변화들을 다루기 위해서, 상기 멀티미디어 신호의 반송 지연에 따라 상기 멀티미디어 신호의 프리젠테이션 속도를 변화시키는 것이 제안되어 있다. 이것은 상기 버퍼(210) 내의 많은 패킷들을 결정하며, 따라서, 멀티미디어 신호의 상기 디코딩율 및 상기 재생율에 적응하는 제어기(212)에 의해 행해진다.

엔코더, 디코더, 터미널, 프리젠테이션, 패킷 교환 네트워크, 인토네이션

Description

멀티미디어 신호를 전송하기 위한 전송 시스템{Transmission system for transmitting a multimedia signal}

본 발명은 사용자에게 멀티미디어 신호를 프리젠팅하기 위한 프리젠테이션 수단을 포함하는 멀티미디어 신호 재생 장치에 관한 것이다. 또한, 본 발명은 멀티미디어 신호 재생 방법에 관한 것이다.

그러한 시스템은 1995년 5월 4일 URL:http://www.isoc.org/HMP/PAPER/2070/ html/paper.html의 ISOC 웹 사이트에 발표된 브이. 하드만 등(V.Hardman et al)에 의한 논문 "인터넷 상에서의 사용을 위한 신뢰할 수 있는 오디오{Reliable Audio for Use over the Internet}"로부터 알려져 있다.

상기 논문에서 설명된 것과 같은 시스템들은 예를 들어, 인터넷, ATM 네트워크 또는 MPEG-2 전송 스트림(transport stream)과 같은 패킷 교환 네트워크 상으로 오디오 및 비디오 정보와 같은 멀티미디어 신호들을 전송하기 위해 사용된다.

패킷 교환 네트워크 상의 멀티미디어 신호들의 실시간 전송과 관련된 주요 문제점들은 패킷 손실, 패킷 지연 및 패킷 지연 확산(packet delay spread)의 발생이다. 패킷 손실은 패킷들이 사용자에게 프리젠팅되기 전에 패킷들의 불완전 시퀀스를 완성하기 위한 복원 기술들을 사용함으로써 제거된다.

패킷 지연 확산은 사용자에게 프리젠팅되기 위해 항상 사용 가능한 패킷들을 갖는 큰 수신 버퍼(buffer)들을 사용함으로써 처리된다. 이것을 가능하게 하기 위해, 수신 버퍼들은 발생할 수 있는 최대의 지연 확산을 다루기 위해 충분히 크게 만들어져야 한다. 이것은 사용자에게 프리젠팅되기 전에 멀티미디어 신호의 실질적 지연을 유발한다.

그 멀티미디어 신호의 큰 지연은 화상 회의 시스템들 및 네트워크 게임들과 같은 멀티-파티(multi-party) 시스템들과 인터넷 전화 시스템들 같은 전이중 통신(full duplex communication) 시스템들에서 특히 문제가 된다.

본 발명의 목적은 전체의 엔드-투-엔드(end-to-end) 지연이 실질적으로 감소되는 프리엠블(preamble)에 따른 전송 시스템을 제공하는 것이다.

상기 목적을 달성하기 위해, 본 발명들에 따른 전송 시스템은 제 2 스테이션이 멀티미디어 신호를 반송하는 패킷들의 도착 지연을 결정하기 위한 지연 결정 수단을 포함하고, 프리젠테이션 수단이 멀티미디어 신호를 반송하는 패킷들의 상기 도착 지연에 따라 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 한다.

패킷 지연을 결정하고 프리젠테이션 속도를 상기 팩킹된(packed) 지연에 따르게 함으로써, 지연 확산을 다루기 위해 제 2 스테이션에서 더 작은 크기들의 버퍼들이 사용될 수 있다. 제 2 스테이션의 더 작은 버퍼 크기들 때문에, 전체 엔드-투-엔드 지연이 실질적으로 감소된다.

실험들은 약 240%의 프리젠테이션 속도의 변동이 사용자에 의해 거의 인지되지 않다는 것을 보였다.

11월 런던의 IEEE Globecom 219296 회의에서 발표되고, 글로벌 인터넷 '296 회의 기록, pp.248-252에 공개된 에이치. 사네크 등(H. Sanneck et al)에 의한 논문 "새로운 오디오 패킷 손실 은폐(A New for Audio Packet Loss Concealment)"가 원신호의 스트레칭 시간에 의해 잃어버린 패킷들을 복원하기 위한 방법을 제시한다는 것에 주목한다. 그러나 위의 논문은 멀티미디어 신호들을 전송하기 위한 통신 시스템의 엔드-투-엔드 지연을 감소시키기 위한 도구로서 스트레칭 시간의 사용을 언급하지 않는다는 것에 주목한다.

본 발명의 사상은 멀티미디어 신호 내의 지터(jitter)를 도입하는 네트워크들 상에서 멀티미디어 신호들의 전송에 적용할 수 있을 뿐 아니라, 몇몇 지터들에서 보여진 멀티미디어의 유용성이 모든 상황들에서 적용할 수 있다는 것에 주목한다.

이것의 제 1 예는 멀티미디어 신호의 컨텐트가 프로그래밍 가능 프로세서 (processor)에서 계산되어야 하는 경우이다. 그 계산 시간은 멀티미디어의 실제 컨텐트에 따를 것이고, 따라서, 멀티미디어 신호는 정확히 규칙적인 순간들에 항상 사용 가능한 것은 아닐 것이다. 이것은 예를 들어, 멀티태스킹 운영 시스템(multitasking operating system)들을 실행하는 컴퓨터들의 경우이며, 멀티미디어 신호의 계산이 모든 최신 기술의 컴퓨터 게임들의 경우인 상세한 3D 영상들의 렌더링(rendering)을 포함할 때이다. 제 2 예는 CD-ROM 또는 하드 디스크와 같은 저장 장치로부터 멀티미디어 신호를 검색하는 것이다.

판독 헤드(read head)의 실제 위치에 따라, 액세스 시간은 변경될 수 있어, 멀티미디어 신호에서 지터의 유입을 야기한다.

만일, 프리젠테이션 속도가 멀티미디어 신호의 유용성에 따라 이루어지면, 멀티미디어 신호의 더 매끄러운 프리젠테이션이 될 수 있다.

본 발명의 실시예는 멀티미디어 신호가 오디오 신호를 포함하고, 프리젠테이션 수단이 상기 오디오 신호의 감지된 인토네이션(intonation)을 실질적으로 변화시키지 않고 오디오 신호의 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 한다.

오디오 신호의 인토네이션을 변화시키지 않고, 프리젠테이션 속도를 변화시키는 것은 변화된 프리젠테이션 속도의 가청도(audibility)를 감소시킨다. 오디오 신호의 인토네이션을 변화시키지 않고, 프리젠테이션 속도를 변화시키는 몇 가지 방법들이 종래 기술로부터 알려져 있다. 한 예는 전술된 글로브컴(Globecom) 논문에 제공된다.

본 발명에 따른 통신 시스템의 바람직한 실시예는 오디오 신호가 적어도 그들의 진폭 및 주파수에 의해 설명되는 복수의 신호들을 포함하는 복수의 세그먼트들(segments)에 의해 표현되고, 프리젠테이션 수단이 상기 패킷들의 유용성에 따라 상기 세그먼트들의 지속 기간(duration)을 변화시키도록 구성되는 것을 특징으로 한다.

오디오 신호의 표현(representation)의 사용은 오디오 신호의 인토네이션을 변화시키지 않고, 프리젠테이션 속도의 매우 쉬운 변화를 가능하게 한다. 이 프리젠테이션에서, 오디오 신호의 기본 주파수(fundamental frequency)는 신호를 표현하기 위해 사용되는 신호들의 특성 그리고, 오디오 신호의 복원 단계가 프리젠테이션 속도를 정의할 때 사용되는 세그먼트들의 길이에 의해 정의된다.

복원 장치에서 사용되는 세그먼트들의 길이가 세그먼트들의 공칭(nominal) 길이보다 더 클 때, 재생(play back) 프리젠테이션 속도는 본래의 프리젠테이션 속도보다 더 늦다.

복원 장치에서 사용되는 세그먼트들의 길이가 세그먼트들의 공칭 길이보다 더 작을 때, 재생 프리젠테이션 속도는 본래의 프리젠테이션 속도보다 더 빠르다.

본 발명의 다른 실시예는 프리젠테이션 수단이 지연 측정량과 기준값(reference value) 사이의 차를 표현하는 차 신호를 결정하기 위한 비교 수단을 갖는 제어 수단을 포함하고, 프리젠테이션 수단이 차이값(difference value)에 따라 프리젠테이션 속도를 조절하기 위한 조절 수단을 포함하는 것을 특징으로 한다.

이 실시예는 지연 측정량으로부터 프리젠테이션 속도를 결정하기 위한 쉽고 효과적인 방법을 제공한다.

본 발명의 다른 실시예는 프리젠테이션 수단이 차이값의 변동들에 따라 기준값을 적응시키기 위한 적응 수단을 포함하는 것을 특징으로 한다.

차이값의 변동들에 따라 기준값을 변화시킴으로써, 평균 버퍼의 크기가 멀티미디어 신호 내에 존재하는 실제의 지터 양에 따라 만들어질 수 있다. 만일, 지터가 높다면, 기준값은 버퍼에 존재하는 복수의 패킷들을 초래하는 높은 값을 가질 것이다. 만일, 지터가 낮다면, 기준값은 버퍼에 존재하는 소수의 패킷들을 초래하는 낮은 값을 가질 것이다.

이 방법에서, 버퍼의 실제 크기는 멀티미디어 신호에 존재하는 실제의 지터양을 다루기 위해 요구되는 것보다 결코 더 커지지 않는다.

본 발명의 다른 실시예는 멀티미디어 신호가 비디오 신호를 포함할 때 유용하며, 비디오 신호가 적어도 하나의 오브젝트에 의해 표현되고, 프리젠테이션 수단이 비디오 신호에서 적어도 하나의 오브젝트의 운동 속도를 조절시킴으로써 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 한다.

본 발명의 이 실시예는 MPEG-4 비디오 신호에서의 경우와 같이 id가 복수의 분리된 오브젝트들에 의해 표현되는 비디오 신호에 대하여 유용하다. 그러한 비디오 신호에서, 프리젠테이션 속도는 하나 이상의 오브젝트들의 운동 속도를 조절함으로써 쉽게 변경될 수 있다. 이 프리젠테이션 속도를 변화시키는 방법은 상기 장치의 사용자에 의해 거의 눈에 띄지 않는다.

본 발명의 다른 실시예는 멀티미디어 신호가 적어도 두 개의 성분들을 포함하고, 지연 측정량이 상기 적어도 두 개의 성분들 사이의 시간 차를 표현하고, 프리젠테이션 수단이 상기 시간 차를 감소시키기 위해 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 한다.

본 발명은 또한 멀티미디어 신호의 둘 또는 그 이상의 성분들을 동조시키기에(synchronize) 알맞다. 그 후, 지연 측정량은 두 성분들의 사이의 시간 차를 표현한다. 이 시간 차는 예를 들어, 멀티미디어 신호의 각각의 성분들에 포함된 타임 스탬프(time stamp)들로부터 유도될 수 있다.

삭제

도 1은 본 발명에 따른 통신 시스템의 블록도.

도 2는 도 1에 따른 통신 시스템에 사용될 제어기(12)를 도시한 도면.

도 3은 도 1에 따른 시스템에 사용될 제어기(12)의 다른 실시예를 도시한 도면.

도 4는 도 1에 따른 통신 시스템에 사용될 엔코더(1)의 블록도.

도 5는 도 1에 따른 통신 시스템에 사용될 디코더(16)의 블록도.

도 6은 디코더(16)에 사용된 고조파 음성 신시사이저(synthesizer)(94)를 더 상세하게 도시한 도면.

도 7은 합성 프레임(synthesis frame)의 길이가 일정할 때, 고조파 음성 신시사이저(94)에서의 다른 파형들을 도시한 도면.

도 8은 합성 프레임의 길이가 두 개의 인접한 합성 프레임들 사이에서 변화할 때, 고조파 음성 신시사이저(94)에서의 다른 파형들을 도시한 도면.

도 9는 디코더(16)에 사용되는 무성음 신시사이저(96)를 더 상세하게 도시한 도면.

도 10은 비디오 신호를 디코딩하기 위하여 도 1에 따른 시스템에 사용될 디코더(16)의 블록도.

본 발명은 이제 도면들에 관련하여 설명될 것이다.
도 1에 따른 통신 시스템에서, 전송될 멀티미디어 신호는 제 1 스테이션(station)(3)의 엔코더(1)에 인가된다. 엔코더(1)는 입력 신호로부터 엔코딩된 멀티미디어 신호를 유도하도록 구성된다. 엔코더(1)의 출력은 송신기(2)의 입력에 연결된다. 송신기(2)는 전송에 알맞은 반송 신호를 유도하도록 구성된다. 송신기의 출력은 제 1 스테이션의 출력을 구성하며, 패킷 교환 전송 네트워크(4)에 연결된다.

또한, 제 2 스테이션(6)은 패킷 교환 네트워크(4)에 연결된다. 제 2 스테이션(6)은 네트워크(4)로부터 엔코딩된 멀티미디어 신호를 포함하는 패킷들을 수신하기 위한 수신기(8)를 포함한다. 그 수신기(4)는 멀티미디어 신호를 포함하는 패킷들을 버퍼 메모리(10)로 보낸다. 버퍼 메모리(10)는 일반적으로 패킷들이 버퍼 메모리(10)에 기록된 것과 같은 순서로 버퍼 메모리(10)로부터 판독되는 FIFO 메모리일 것이다. 버퍼 메모리(10)에서 일시적으로 저장된 버퍼링된 패킷들을 반송하는 버퍼 메모리(10)의 제 1 출력은 프리젠테이션 수단(14)에 연결된다.

멀티미디어 신호를 반송하는 패킷들의 도착 지연을 표현하는 지연 측정량을 반송하는 버퍼 메모리(10)의 제 2 출력은 제어 장치(12)의 제 1 입력에 연결된다. 도착 지연을 표현하는 측정은 현재 버퍼에서 패킷들의 수를 포함할 수 있다. 만일, 지연이 증가하면, 버퍼(10)에 존재하는 패킷들의 수는 감소할 것이며, 지연이 감소할 때, 버퍼의 패킷들의 수는 증가할 것이다. 버퍼에 존재하는 패킷들의 수는 판독 포인터(read pointer) 및 기록 포인터(write pointer)의 위치들 간의 차이를 계산함으로써 쉽게 결정될 수 있다.

만일, 멀티미디어 신호가 타임 스탬프들을 포함한다면, 멀티미디어 신호의 미리 결정된 부분의 실제 도착 시간과 멀티미디어 신호의 소정된 부분과 관련한 타임 스탬프의 비교로부터 지연 측정량을 유도하는 것도 또한 가능하다.

판독 제어 신호를 반송하는 제어 장치(12)의 제 1 출력은 버퍼 메모리(10)의 제 2 입력에 연결된다. 판독 제어 신호는 그것의 출력에 다음 패킷을 프리젠팅하기 위해 버퍼 메모리(10)에 지시한다. 상기 프리젠테이션 속도를 표현하는 신호를 반송하는 제어 장치(12)의 제 2 출력은 프리젠테이션 수단(14)의 디코더(16)의 제어 입력에 연결된다. 본 발명의 발명 개념에 의해, 제어 장치(12)는 전송 지연을 표현하는 지연 측정량에 따라 프리젠테이션 속도를 결정한다. 반송 지연을 위한 이 지연 측정량은 버퍼(10)에 존재하는 패킷들의 수이다. 세그먼트 길이 지시기는 합성될 세그먼트의 실제 길이에 대하여 디코더(16)에 알려준다.

디코더(16)는 버퍼(10)로부터 수신된 엔코딩된 신호로부터 멀티미디어 신호 샘플들의 세그먼트들을 유도한다. 세그먼트의 지속 기간은 일정할 필요는 없지만, 멀티미디어 신호의 프리젠테이션 속도를 변화시키기 위하여 세그먼트 길이 지시기에 응하여 변화시킬 수 있다. 디코더(16)의 출력은, 멀티미디어 신호가 오디오 신호를 포함하는 경우에 라우드스피커(loudspeaker)일 수 있으며, 멀티미디어 신호가 비디오 신호를 포함할 경우에 디스플레이 장치일 수 있는 프리젠테이션 장치(18)에 연결된다.

도 2에 따른 제어 장치(12)에서, 반송 지연을 표현하는 입력 신호는 비교기(20)의 제 1 입력에 인가된다. 본 실시예에서, 이 입력 신호는 버퍼 내의 패킷들의 수를 표현한다. 비교기(20)는 버퍼에서의 패킷들의 수와 기준값 REF를 비교한다. 비교기(20)의 출력은 클록(clock) 신호 발생기(24)의 제어 입력에 저역 통과 필터(22)를 통해 연결된다. 클록 신호 발생기(24)는 버퍼(10)를 위한 판독 제어 신호 및 디코더(16)를 위한 프레임 길이 지시기를 발생시킨다.

만일 버퍼 내의 패킷들의 수가 기준값보다 작으면, 전송 지연이 증가되었다는 것을 의미한다. 따라서, 비교기(20)는 클록 신호 발생기가 판독 제어 신호의 주파수를 감소시키고, 프레임 길이 지시기에 의해 지시되는 프레임 길이를 증가시키는 출력 신호를 발생시킨다. 이것은 감소된 프리젠테이션 속도를 초래할 것이다. 이 감소된 프리젠테이션 속도 때문에, 버퍼는 패킷들을 채울 기회를 덜 자주 줌으로써 판독된다. 따라서, 버퍼 내의 패킷들의 수는 몇 시간 후 증가할 것이다.

만일 버퍼 내의 패킷들의 수가 기준값 REF를 초과한다면, 비교기의 출력 신호는 클록 신호 발생기가 판독 제어 신호의 주파수를 증가시키고, 프레임 길이 지시기에 의해 지시된 프레임 길이를 감소시키게 하는 출력 신호를 발생시킬 것이다. 기준값의 초과는 예를 들어, 갑자기 감소된 전송 지연에 의해 야기될 수 있다. 판독 제어 신호의 증가된 주파수는 증가된 프리젠테이션 속도를 초래할 것이다. 이 증가된 프리젠테이션 속도 때문에, 버퍼 내의 패킷들의 수는 몇 시간 후 감소할 것이다.

이러한 방식으로, 프리젠테이션 속도를 변화에 따라서 지연 변동들을 보상하는 제어 루프가 획득된다. 필터(22)는 클록 신호 발생기에 적용되기 전에 비교기의 출력 신호의 약간의 매끄러움을 획득하기 위해 비교기(20)와 클록 신호 발생기 사이에 존재한다. 필터(22)는 불필요할 수도 있다.

버퍼(10)의 최소 지연을 갖는 지연 변동들의 보상을 달성하기 위해서, 기준값 REF는 (평균화됨) 지연 확산의 함수로서 변화될 수 있다.

만일 프리젠테이션 속도가 거의 어떤 지연 확산도 보여주지 않는 반송 채널 때문에 거의 일정하면, 버퍼의 크기는 매우 작아질 수 있다. 이 경우에, 기준값은 낮은 값으로 설정될 수 있다.

만일 프리젠테이션 속도가 실질적 지연 확산을 보여주는 전송 채널 때문에 큰 변동들을 보여준다면, 버퍼의 크기는 버퍼가 텅 비게 되는 것을 막기 위해 더 커야 한다. 이 경우에, 기준값 REF는 실질적으로 더 높은 값으로 설정되어야 한다.

프리젠테이션 속도에서 변동들에 따른 값 REF를 만듦으로써, 지연 확산에 대응하는 버퍼 크기가 사용된다. 이들 지연 측정량들은 멀티미디어 신호에서 인지할 수 있는 일시적 하락 없이 낮은 엔드-투-엔드 지연을 초래한다.

지연 확산이 지연 측정량의 최대값과 최소값 사이의 차이를 계산함으로써 쉽게 결정될 수 있다. 이 최대 및 최소 지연값들은 주어진 측정 시간을 통해 결정된다.

빠른 응답을 획득하기 위해서 멀티미디어 신호의 재생의 초기에는 낮은 값으로 기준값을 설정하는 것도 또한 가능하다. 이 방법에서 수십 개의 패킷의 지속 기간에 대해 응답 시간을 감소시키는 것이 가능하며, ±200 ms에 대응한다.

도 3에 따른 제어기(12)의 다른 실시예에서, 각각의 패킷들이 타임 스탬프를 포함한다고 가정된다. 카운터(353)에 의하여, 인공 타임 스탬프(timestamp)가 또한 프리젠테이션 속도를 결정하는 클록 오실레이터(oscillator)(352)에 의해 발생된 클록 신호로부터 유도된다. 가산기(350)는 패킷 내의 실제 타임 스탬프와 카운터(353)의 출력에 사용가능한 인공 타임 스탬프 사이의 차이를 결정한다. 이 차이는 본 발명의 발명 개념 따른 지연 측정량이다.

만일 실제 타임 스탬프가 인공 타임 스탬프보다 크다면, 프리젠테이션 속도는 새 패킷들이 도착한 속도보다 더 늦다. 버퍼의 오버플로우(overflow)를 방지하기 위해서, 프리젠테이션 속도는 증가된다. 만일 실제 타임 스탬프가 인공 타임 스탬프보다 작다면, 프리젠테이션 속도는 새 패킷들이 도착한 속도보다 더 빠르다. 버퍼가 텅 비는 것을 막기 위해서, 프리젠테이션 속도는 감소된다. 상기 저역 통과 필터(351)는 프리젠테이션 속도의 변동들을 매끄럽게 하기 위해 존재한다. 수신율 f_r범위 밖의 프리젠테이션율 f_p를 결정하기 위한 다른 알고리즘(algorithm)은 아래에 표현된다. 수신율 f_r은 1/(T_receive[k]-T_receive[k-1])에 의해 정의되며, T_receive[k]-T_receive[k-1]는 두 개의 바로 이어 도착하는 패킷들의 도착 시간 사이의 차이다. 상기 프리젠테이션율 f_p은 1/(T_presentation[k]-T_presentation[k-1])에 의해 정의되며, T_presentation[k]-T_presentation[k-1]는 두 개의 바로 이어 도착하는 패킷들의 프리젠테이션 시간 사이의 차이다.

다음에 바로 이어 도착하는 두 개의 패킷들의 도착 시간 차이값이 이전의 두 도착 시간 차이값의 합보다 결코 더 커질 수 없다고 가정된다. 이것은 아래와 같이 쓰여질 수 있다.

(1)

상기 알고리즘에서 버퍼에 3개의 패킷들을 유지하려 한다. 알고리즘은 아래와 같이 작동된다.

A. 만일, 시간 T_P[i-2]에서 버퍼 내에 3개의 패킷들(패킷 i-1, 패킷 i-2 및 패킷 i)이 있다면, 패킷 i-2는 버퍼로부터 얻어지고, 이전의 패킷 i-3이 수신된 비율로 표현된다. 이것은 f_P[i-2]=f_r[i-3]으로 표현될 수 있다.

B. 시간 T_P[i-1]에서 패킷 i-2의 프리젠테이션은 완성된다. T_P[i-1]에 관해 아래와 같이 쓰여질 수 있다.

(2)

이제 두 가지 상황들이 구별될 수 있다. 만일 시간 T_P[i-1]에서 패킷i+1이 이미 도착되었다면, 다시 3개의 패킷들은 버퍼 내에 있게 되고, 다음 패킷i-1을 위해 사용될 프리젠테이션율은 A에 의해 결정된다. 패킷i+1이 아직 도착하지 않았고, 그 결과 f_r[i]가 아직 알려지지 않았을 때, 가정(1)은 패킷i+1의 도착 시간 T_R[i+1]을 늦어도 아래의 시간에 바운드(bound)한다.

(3)

이 경우, 패킷i-1은 버퍼로부터 얻어지고, 다음의 비율로 표현된다.

(4)

패킷i-1은 이전 패킷이 스트레치 텀(stretch term)으로 확장되어 수신된 비율로 표현한다.

C. 시간 T_P[i]에서 패킷i-1의 프리젠테이션이 완성된다. T_P[i]는 다음과 같다.

(5)

패킷i는 여전히 버퍼 내에서 대기하고 있다. (3)에 따라, 적어도 패킷i+1 또한 T_P[i]에 도착했다. 버퍼 내에 버퍼들이 두 개 이상이 있는지에 따라, 다음 패킷을 위한 프리젠테이션율은 A(3개의 패킷 또는 그 이상) 또는 B(2개의 패킷들)에 의해 결정된다.

상기 알고리즘은 버퍼가 결코 언더플로우(underflow)하지 않을 것이라는 것을 보장하며, 가정(1)을 유지한다. 그것은 버퍼 오버플로우에 대해 바운드하지 않는다. 상상할 수 있는 몇 가지 다른 접근법들이 있다.

버퍼 내의 3개의 패킷들에 대하여 상기 규칙을 수행하라. 패킷들이 평균적으로 일정 비율로 도착한다고 가정하면, f_p가 f_r에 고정된 것처럼, 버퍼는 안정화될 것이다.

f_p[i]=f_r[i], 즉, △T BUF= 불변량. 버퍼는 수신율이 감소할 때, 텅 비게 될 것이다. 그렇지 않으면, 일정하게 유지될 것이다.

f_p[i]=max{f_p[i-1]f_r[i]f_r[i+1],....}

f_p[i]는 일정한 비트율(bitrate)로 출력율을 안정화시키는 버퍼 내의 모든 패킷들의 모든 f_r 평균이다.

버퍼 내의 패킷들의 수가 증가할 때, 프리젠테이션율을 증가시키기 위해 줄어든 텀을 사용하라.

도 4에 다른 음성 엔코더(1)의 입력 신호 s_s[n]은 입력으로부터 바라지 않았던 DC 오프셋(offset)들을 제거하기 위해 DC 노치 필터(notch filter)(210)에 의해 여과된다. DC 노치 필터는 15 Hz의 차단 주파수(cut-off frequency)(-3dB)를 갖는다. DC 노치 필터(210)의 출력 신호는 버퍼(211)의 입력에 인가된다. 버퍼(211)는 유성음 엔코더(216)에 400 DC 여과된 음성 샘플들의 블록들을 표현한다. 상기 400 샘플들의 블록은 음성의 10 ms의 5 프레임(각각 80 샘플들)을 포함한다. 그것은 현재 엔코딩될 프레임, 두 개의 앞선 그리고, 두 개의 바로 이어 도착하는 프레임들을 포함한다. 버퍼(211)는 200 Hz의 고역 통과 필터(212)의 입력에 가장 최근에 수신된 80개의 샘플들의 프레임을 각각의 프레임 간격에 프리젠팅한다. 고역 통과 필터(212)의 출력은 무성음 엔코더(214)의 입력과, 유성/무성 검출기(228)의 입력에 연결된다. 고역 통과 필터(212)는 유성/무성 검출기(228)에 360 샘플들의 블록들을 그리고 무성음 엔코더(214)에 160 샘플들(만일, 음성 엔코더(4)가 5.2 kbit/sec 모드에서 동작한다면) 또는 240 샘플들의 블록들(만일, 음성 엔코더(4)가 3.2 kbit/sec 모드에서 동작한다면)을 제공한다. 상기 표현된 샘플들의 다른 블록들과 버퍼(211)의 출력 사이의 관계는 아래 테이블에 표현된다.

유성/무성 검출기(228)는 현재 프레임이 유성음인지 또는 무성음인지를 결정하며, 유성/무성 플래그(flag)로서, 결과를 표현한다. 이 플래그는 멀티플렉서(222), 무성음 엔코더(214) 및 유성음 엔코더(216)로 통과된다. 유성/무성 플래그(flag)의 값에 따라, 유성음 엔코더(216) 또는 무성음 엔코더(214)는 활성화될 수 있다.

유성음 엔코더(216)에서, 입력 신호는 복수의 고조파 관련 정현 신호들로서 표현된다. 유성음 엔코더의 출력은 (216)의 피치(pitch)값, 이득값 및 예측 변수들의 표현을 제공한다. 피치값(pitch value) 및 이득값은 멀티플렉서(multiplexer)(222)의 입력에 대응하기 위해 적용된다.

5.2 kbit/sec 모드에서, LPC 계산 결과는 10 ms마다 수행된다. 3.2 kbit/sec 에서, LPC 계산 결과는 유성음에서 무성음으로 또는 무성음에서 유성음으로 간의 변화가 일어날 때를 제외하고, 20 ms마다 수행된다. 만일 3.2 kbit/sec 모드에서, 그러한 변화가 발생하면, LPC 계산은 또한 10 msec 마다 수행된다.

유성음 엔코더의 출력의 LPC 계수들은 멀티플렉서(222)의 입력에 대응하기 위해 통과된다.

무성음 엔코더(14)에서, 이득값 및 6 예측(prediction) 계수들은 무성음 신호를 표현하기 위해 결정된다. 이득값 및 6 LPC 계수들은 멀티플렉서(222)의 입력에 대응하기 위해 통과된다. 멀티플렉서(222)는 유성/무성 검출기(228)의 결정에 따라, 엔코딩된 유성음 신호 또는 엔코딩된 무성음 신호를 선택하도록 구성된다. 멀티플렉서(222)의 출력에서 엔코딩된 음성 신호는 사용가능하다.

도 5에 따른 음성 디코더(216)에서, 엔코딩된 LPC 코드들 및 유성/무성 플래그는 디멀티플렉서(92)로 통과된다. 이득값 및 수신 정교한(refined) 피치값 또한 디멀티플렉서(92)로 통과된다.

만일 유성/무성 플래그가 유성음 프레임을 지시한다면, 디멀티플렉서(92)는 정교한 피치, 이득, 16 LPC 코드들을 고조파 음성 신시사이저(94)로 보낸다. 만일 유성/무성 플래그가 무성음 플래그를 지시한다면, 디멀티플렉서(92)는 이득 및 6 LPC 코드들을 무성음 신시사이저(96)로 보낸다. 고조파 음성 신시사이저(94)의 출력에서 동조된 유성음 신호

및 무성음 신시사이저(96)의 출력에서 동조된 무성음 신호

[n]는 멀티플렉서(98)의 대응 입력에 인가된다.

유성음 모드에서, 멀티플렉서(98)는 고조파 음성 신시사이저(94)의 출력 신호

[n]를 오버랩 및 애드 합성 블록(Add Synthesis block)(100)의 입력으로 보낸다. 무성음 모드에서, 멀티플렉서(98)는 무성음 신시사이저(96)의 출력 신호

[n]를 오버랩 및 애드 합성 블록(100)의 입력으로 보낸다. 오버랩 및 애드 합성 블록(100)에서, 유성 및 무성음 세그먼트들을 부분적으로 오버래핑하는 것이 추가된다. 오버랩 및 애드 합성 블록(100)의 출력 신호

에 대해 아래와 같이 쓸 수 있다.

(6)

(6)에서, N_S는 음성 프레임의 길이이며, v_k-i는 이전의 음성 프레임을 위한 유성/무성 플래그이고, v_k는 현재 음성 프레임을 위한 유성/무성 플래그이다. 길이 N_S가 희망했던 프리젠테이션 속도에 의해 변화할 수 있다는 것이 관찰되었다. 만일 프레임 k-1의 길이가 N_k-1과 동등하다면, (6)은 다음으로 변화한다.

(7)

상기 오버랩 및 애드 합성(100)의 출력 신호

는 포스트필터 (postfilter)(102)에 적용된다. 포스트필터는 포르만트(formant) 영역들의 외부의 소음을 억제함으로써 감지된 음질을 개선하도록 구성된다.

도 6에 따른 유성음 디코더(94)에서, 디멀티플렉서(92)로부터 수신된 엔코딩된 피치는 피치 디코더(104)에 의해 디코딩되고, 피치 주파수로 변환된다. 피치 디코더(104)에 의해 결정된 피치 주파수는 위상 신시사이저(106)의 입력에, 고조파 오실레이터 뱅크(Harmonic Oscillator Bank)(108)의 입력 및 LPC 스펙트럼 인벨로프 샘플러(Spectrum Envelope Sampler)(110)에 인가된다.

디멀티플렉서(92)로부터 수신된 LPC 계수들은 LPC 디코더(112)에 의해 디코딩된다. LPC 계수들을 디코딩하는 방법은 현재 음성 프레임이 유성음인지 아니면 무성음인지에 의존한다. 따라서, 유성/무성 플래그는 LPC 디코더(112)의 제 2 입력에 적용된다. LPC 디코더는 복원된 a-변수들을 LPC 스펙트럼 인벨로프 샘플러(110)의 제 2 입력으로 보낸다. LPC 스펙트럼 인벨로프 샘플러(110)의 동작은 같은 동작이 정교한 피치 컴퓨터(Refined Pitch Computer)(32)에서 수행되기 때문에 (13), (14) 및 (15)에 의해 설명된다.

위상 신시사이저(106)는 음성 신호를 표현하는 L 신호들의 i 번째 정현 신호의 위상

를 계산하도록 구성된다. 위상

는 i번째 정현 신호가 한 프레임에서 다음 프레임까지 계속 남아 있도록 선택된다. 유성음 신호는 오버래핑 프레임들을 결합함으로써 합성되며, 윈도우(window)로 나눠진 샘플들의 N_S를 각각 포함한다. 도 7에서의 그래프(219) 및 그래프(223)로부터 보여질 수 있는 것처럼 두 개의 인접한 프레임들 간에 50%의 오버랩이 있다. 그래프들(219, 223)에서, 사용된 윈도우는 점선들로 도시되어 있다. 위상 신시사이저는 이제 오버랩이 그것의 최대의 충돌을 갖는 위치에서 연속적인 위상을 제공하기 위해 조정된다. 사용된 윈도우 함수를 가진 이 위치는 샘플(119)에 있다. 현재 프레임의 위상

에 관해 이제는 아래와 같이 쓰여질 수 있다.

(8)

현재 설명된 음성 엔코더에서, N_S의 값은 160과 동등하다. 바로 그 제 1 유성음 프레임 때문에,

의 값은 미리 결정된 값으로 초기화된다.

고조파 오실레이터 뱅크(108)는 음성 신호들을 표현하는 복수의 고조파 관련 신호들

[n]을 발생시킨다. 이 계산은 고조파 진폭들

, 주파수

, 및 아래에 의해 합성된 위상들

을 사용하여 수행된다.

(9)

상기 신호

[n]는 시간 영역 윈도잉 블록(Time Domain Windowing Block)(114)에서 핸닝(Hanning) 윈도우를 사용하여 윈도우로 나눠진다. 이 윈도우로 나눠진 신호는 도 7의 그래프(221)에 도시된다. 신호

+1[n]는 제 시간에 이동된 N_S/2 샘플들인 핸닝 윈도우를 사용하여 윈도우로 나눠진다. 이 윈도우로 나눠진 신호는 도 7의 그래프(225)에 도시된다. 시간 영역 윈도잉 블록(114)의 출력 신호들은 전술된 윈도우로 나눠진 신호들을 추가함으로써 획득된다. 이 출력 신호는 도 7의 그래프(227)에 도시된다. 이득 디코더(118)는 입력 신호로부터 이득값 g_V을 유도하고, 시간 영역 윈도잉 블록(114)의 출력 신호는 복원된 유성 신호

를 획득하기 위해서 신호 스케일링 블록(Signal Scaling Block)(116)에 의한 이득 요소 g_V에 의해 스케일링된다.

만일 본 발명의 발명 개념에 따라, 멀티미디어 프리젠테이션 속도가 변화되면, 몇몇 변화들이 위에서 설명된 합성 과정으로 만들어져야 한다. 다음에서, 프레임 길이 지시기는, i가 프레임의 수인, 많은 샘플들 N_i에 의해 표현된다. 제 1 위상

은 합성된 현재 프레임을 진행시키는 프레임들의 샘플들 N_i-1및 N_i-2의 수로부터 결정되어야 한다. 이들 위상들은 다음에 의해 계산된다.

(10)

그 결과 신호

는 다음에 의해 합성된다.

(11)

시간 영역 윈도잉 블록(114)의 동작은 또한 프레임 내의 복수의 샘플들이 공칭(nominal)값 N_s와 다를 때, 약간 변화한다. 신호

[n]를 윈도우로 나누기 위해 사용되는 핸닝 윈도우의 길이는 N_s대신에 N_k와 동등하다.

도 8에서, 도 7과 같은 신호들이 도시되지만, 이젠 프리젠테이션 속도가 두 세그먼트들의 경계선(boundary)에서 변화된다. 그래프(418)에 의해 표현된 세그먼트는 실질적으로 그래프(422)에 의해 표현된 세그먼트보다 더 짧다. 그래프들(420, 424)에 따른 윈도우로 나눠진 신호들을 윈도잉(windowing) 및 애딩(adding)한 후에, 그래프(426)에 의한 신호가 획득된다.

도 9에 따른 무성음 신시사이저(96)에서, LPC 코드들 및 유성/무성 플래그는 LPC 디코더(130)에 인가된다. LPC 디코더(130)는 복수의 6 a-변수들을 LPC 합성 필터(134)에 제공한다. 가우스 백색 잡음 발생기(Gaussian White-Noise Generator)(132)의 출력은 LPC 합성 필터(134)의 입력에 연결된다. LPC 합성 필터(134)의 출력 신호는 시간 영역 윈도잉 블록(140)에서 핸닝 윈도우에 의해 윈도우로 나눠진다.

무성 이득 디코더(136)는 본 무성 프레임의 요구된 에너지를 표현하는 이득값

을 유도한다. 이 윈도우로 나눠진 신호의 이득 및 에너지로부터, 윈도우로 나눠진 음성 신호 이득을 위한 스케일링 요소

가 올바른 에너지를 갖는 음성 신호를 획득하기 위해 결정된다. 이 스케일링 요소에 관해 아래와 같이 쓸 수 있다.

(12)

신호 스케일링 블록(142)은 시간 영역 윈도우 블록(140)의 출력 신호에 스케일링 요소

를 곱함으로써 출력 신호

를 결정한다.

현재 설명된 음성 엔코딩 시스템은 더 낮은 비트율 또는 더 높은 음질을 요구하도록 변경될 수 있다. 더 낮은 비트율을 요구하는 음성 엔코딩 시스템의 예는 2 kbit/sec 엔코딩 시스템이다. 그러한 시스템은 (16)에서 (12)까지의 유성음을 위해 사용되는 예측(prediction) 계수들의 수를 감소시킴으로써 그리고, 예측 계수들, 이득 및 정교한 피치의 차분(differential) 엔코딩을 사용함으로써 획득될 수 있다. 차분 코딩은 엔코딩될 날짜가 개별적으로 엔코딩되지 않지만, 단지 후속 프레임들로부터의 데이터 대응 간의 차이가 전송된다는 것을 의미한다. 유성음에서 무성음까지 또는 무성음에서 유성음까지의 변화에 의해, 제 1 새로운 프레임에서 모든 계수들은 디코딩을 위한 초기값을 제공하도록 개별적으로 엔코딩된다.

6 kbit/s의 비트율로 증가된 음질을 갖는 음성 코더를 획득하는 것 또한 가능하다. 변경들은 복수의 고조파 관련 정현 신호들의 제 8 고조파 위상을 결정한다. 위상

는 다음에 의해 계산된다.

(13)

여기서,

는 다음과 동등하다.

(14)

및

(15)

획득된 제 8 위상들

은 6 bits로 균일하게 양자화되고, 출력 비트스트림(bitstream)에 포함된다.

6 kbit/sec 엔코더에서 다른 변경은 무성 모드에서 추가적 이득값들의 전송이다. 일반적으로 프레임당 한번 대신에 2 msec 마다 이득이 반송된다. 제 1 프레임에서, 변화 후 즉시 10개의 이득값들이 전송되고, 현재 무성 프레임으로 표현한 그들 중 5개, 및 이전에 유성 프레임으로 표현한 그들 중 5개는 무성음 엔코더에 의해 처리된다. 그 이득들은 4 msec 오버래핑 윈도우들로부터 결정된다.

도 10에 따른 비디오 디코더(16)에서, 복수의 비디오 프레임들을 구성하는 비디오 신호를 반송하는 제 1 입력은 보간기(interpolator)(304)의 제 1 입력에 그리고, 프레임 메모리(302)의 입력에 연결된다. 프레임 메모리(302)는 이전에 버퍼(10)로부터 수신된 비디오 프레임을 저장하도록 구성된다. 프레임 메모리(302)의 출력은 보간기(304)의 제 2 입력에 연결된다.

보간기(304)는 버퍼(10)로부터 수신된 이전의 비디오 프레임 및 현재의 비디오 프레임을 보간하도록 구성된다. 보간기는 프리젠테이션 장치(18)에 의한 사용을 위해 일정 프레임율을 갖는 비디오 신호를 그것의 출력에 제공한다.

본 발명의 발명 개념에 따르면, 프리젠테이션 속도는 지연 측정량에 의존한다. 이 경우, 버퍼(10)로부터 수신된 비디오 프레임들이 항상 같은 간격으로 디스플레이되지는 않는다는 것을 의미한다. 두 프레임들 간의 간격은 지연 측정량에 의존한다.

프리젠테이션 장치에 실질적으로 일정한 프레임율을 갖는 비디오 신호를 표현할 수 있기 위해서, 보간기(304)는 버퍼(10)로부터 수신된 비디오 프레임들 간의 간격에 따르는 많은 보간된 프레임들을 결정한다.

계산 수단(306)은 도 2의 클록 발생기(24)에 의해 제공된 프리젠테이션 속도로부터, 보간된 프레임들의 수를 계산한다. 타임 스탬프들이 비디오 신호에서 사용되는 경우, 현재 및 이전의 타임 스탬프들 간의 차이 △는 계산 수단(306)에 제공된다. 이것은 계산 수단(306)이 비디오 프레임들의 하나 이상이 잃어버렸을 때, 보간되기 위해 올바른 프레임들의 수를 결정할 수 있도록 한다.

적당한 보간기(304)는 1998년 3월에 올란도(Orlando)에서 개최된 윈헤크 98 회의(Winhec 98 conference)에서 논문 "Judder free video on PC's"에 지.데 한(G. de Haan)에 의해 설명된다.

Claims

멀티미디어 신호를 재생하기 위한 장치로서, 사용자에게 상기 멀티미디어 신호를 프리젠팅하기 위한 프리젠테이션 수단과, 상기 멀티미디어 신호를 반송하는 패킷들의 도착 지연을 표현하는 지연 측정량(delay measure)을 결정하기 위한 지연 결정 수단을 포함하는, 상기 멀티미디어 신호 재생 장치에 있어서:

상기 프리젠테이션 수단은 상기 지연 측정량과 기준값 사이의 차를 표현하는 차 신호를 결정하기 위한 비교 수단을 구비한 제어 수단을 포함하고, 상기 프리젠테이션 수단은 상기 차 신호에 따라 프리젠테이션 속도를 조정하기 위한 조정 수단을 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
제 1 항에 있어서,

상기 멀티미디어 신호는 오디오 신호를 포함하고, 상기 프리젠테이션 수단은 상기 오디오 신호의 감지된 인토네이션(intonation)을 실질적으로 변화시키지 않고 상기 오디오 신호의 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
제 2 항에 있어서,

상기 오디오 신호는 적어도 그들의 진폭 및 주파수에 의해 기술되는 복수의 신호들을 포함하는 복수의 세그먼트들에 의해 표현되고, 상기 프리젠테이션 수단은 상기 지연 측정량에 따라 상기 세그먼트들의 지속 기간을 변화시키도록 구성되는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
삭제
제 3 항에 있어서,

상기 프리젠테이션 수단은 상기 차 신호의 변동들에 따라 상기 기준값을 적응시키기 위한 적응 수단을 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
제 1 항에 있어서,

상기 멀티미디어 신호는 비디오 신호를 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
제 6 항에 있어서,

상기 비디오 신호는 적어도 하나의 오브젝트(object)에 의해 표현되고, 상기 프리젠테이션 수단은 상기 비디오 신호에서 적어도 하나의 오브젝트의 움직임 속도를 조정함으로써 상기 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
제 1 항에 있어서,

상기 멀티미디어 신호는 적어도 두 개의 성분들을 포함하고, 상기 지연 측정량은 상기 적어도 두 개의 성분들 사이의 시간 차를 표현하고, 상기 프리젠테이션 수단은 상기 시간 차를 감소시키기 위해 상기 프리젠테이션 속도를 변경하도록 구성되는 것을 특징으로 하는, 멀티미디어 신호 재생 장치.
멀티미디어 신호를 재생하기 위한 방법으로서, 사용자에게 상기 멀티미디어 신호를 프리젠팅하는 단계와, 상기 멀티미디어 신호를 반송하는 패킷들의 도착 지연을 표현하는 지연 측정량을 결정하는 단계를 포함하는, 상기 멀티미디어 신호 재생 방법에 있어서:

상기 지연 측정량과 기준값 사이의 차를 표현하는 차 신호를 결정하는 단계; 및

상기 차 신호에 따라 프리젠테이션 속도를 조정하는 단계를 더 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 방법.
제 9 항에 있어서,

상기 멀티미디어 신호는 오디오 신호를 포함하고, 상기 방법은 상기 오디오 신호의 감지된 인토네이션을 실질적으로 변화시키지 않고 상기 오디오 신호의 상기 프리젠테이션 속도를 변경하는 단계를 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 방법.
제 10 항에 있어서,

상기 오디오 신호는 적어도 그들의 진폭 및 주파수에 의해 기술되는 복수의 파형들을 포함하는 복수의 세그먼트들에 의해 표현되고, 상기 방법은 상기 지연 측정량에 따라 상기 세그먼트들의 지속 기간을 변화시키는 단계를 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 방법.
제 9 항에 있어서,

상기 멀티미디어 신호는 비디오 신호를 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 방법.
제 12 항에 있어서, 상기 비디오 신호는 적어도 하나의 오브젝트에 의해 표현되고, 상기 방법은 상기 비디오 신호에서 적어도 하나의 오브젝트의 움직임 속도를 조정함으로써 상기 프리젠테이션 속도를 변경하는 단계를 포함하는 것을 특징으로 하는, 멀티미디어 신호 재생 방법.
제 9 항에 있어서,

상기 차 신호의 변동들에 따라 상기 기준값을 적응시키는 단계를 더 포함하는, 멀티미디어 신호 재생 방법.