KR20010020147A

KR20010020147A - 범용 직렬버스 접속을 위한 2중 압축 비디오 비트 스트림

Info

Publication number: KR20010020147A
Application number: KR1019997009704A
Authority: KR
Inventors: 시이피터; 가잘리한산
Original assignee: 윈본드 일렉트로닉스 코오포레이션 아메리카
Priority date: 1998-02-20
Filing date: 1999-02-17
Publication date: 2001-03-15
Also published as: EP0978195A1; CA2287388A1; CN1140133C; AU2684399A; WO1999043147A2; WO1999043147A3; JP2001525150A; EP0978195A4; CN1266589A; US5995150A

Abstract

로컬 모티터(318) 및 원격 모니터(300')상에 비디오를 표시하는 방법은 최초 비디오 신호(V)를 인코딩(312)하여 제 1 압축 비디오 신호(LLV_l)를 발생시키는 단계를 포함한다. 상기 제 1 압축 비디오 신호를 이용하여 상기 비디오 신호가 인코딩 처리되어 제 2 압축 비디오 신호(ELV_l)가 발생된다. 상기 제 1 및 제 2 압축 비디오 신호는 디코딩 처리되는 로컬 터미널(314)에 전송되어 제 1(DVL_l) 및 제 2 디코딩 비디오 신호가 발생된다. 제 1 디코딩 버전의 비디오 신호(DVE_l)는 상기 제 1 및 제 2 디코딩 비디오 신호의 조합으로부터 발생된다. 제 2 디코딩 버전의 비디오 신호(DVL_r)가 제 1 압축 비디오 신호(LLV_l)로 부터만 복구되는 상기 원격 터미널에는 제 1 압축 비디오 신호(LLV_l;LLV_r )만이 전송된다. 상기 제 1 압축 비디오 신호는 최초의 비디오 신호(V)를 시간 동작 보상 인코딩 과정(460) 및 공간 인코딩 과정(430)을 통해 발생될 수 있다. 상기 제 2 압축 비디오 신호는, 상기 제 1 압축 비디오 신호를 공간 및 시간 동작 보상 디코딩 처리하고 그 각각의 화상 픽셀을 상기 최초 비디오 신호(V)의 대응하는 공간 및 시간 정렬 화상 픽셀로부터 감산 처리함으로써 발생되어 차 비디오 신호가 형성될 수 있다. 이때, 상기 차 비디오 신호는 공간적으로만 제 2 압축 비디오 신호가 발생된다. 제 1 디코딩 버전의 최초 비디오 신호를 발생시키기 위해, 상기 제 1 압축 비디오 신호는 공간(504,506,508) 및 시간 동작 보상(510,512,SW) 디코딩 처리되고, 상기 제 2 압축 비디오 신호는 공간적으로만 디코딩 처리될 수 있다. 제 2 디코딩 비디오 신호의 각 화상 픽셀은 상기 제 1 디코딩 비디오 신호의 대응하는 공간 및 시간 정렬 화상 픽셀에 가산 처리될 수 있다.

Description

범용 직렬버스 접속을 위한 2중 압축 비디오 비트 스트림 카메라{Dual Compressed Video Bitstream Camera for Universal Serial Bus Connection}

압축 비디오 신호를 발생시키기 위해 비디오를 인코딩(즉, 압축)하고 상기 압축된 신호를 디코딩하기 위한 여러 기술은 이미 공지되어 있다. ISO/IEC IS 13818-1,2,3; 동화상 및 관련 오디오의 일반적인 부호화 과정; 시스템, 비디오 및 오디오(MPEG-2)을 참조할 것. 도 1은 MPEG-1 또는 MPEG-2의 주 프로파일 인코딩 및 디코딩 표준에 따른 인코더(encoder) 10 및 디코더(decoder) 12를 도시한 블록도이다. 최초 디지털 비디오 신호 V는 상기 인코더 10에 입력된다. 상기 비디오 신호 V는 매크로블록(macroblocks)으로 분할 구성된다. 각각의 매크로블록은 다수의 휘도 블록(luminance block) 및 다수의 크로미넌스(chrominance) 블록을 포한한다. 각각의 블록은 8×8 픽셀 어레이 구조를 갖는다.

일부 매크로블록은 상기 인코더(10)의 공간 인코더(14)에 의해 공간적으로만 인코딩된다. 다른 매크로블록들은 상기 인코더(10)의 상기 공간 인코더 (14) 및 시간 인코더()16를 사용하여 공간 및 시간적으로 인코딩된다. 공간적으로만 인코딩되는 매크로블록은 출력 A를 통해 상기 공간 인코더(14)에 직접 출력된다 (상기 출력은 소프트웨어, 제어 신호등을 사용하여 구현될 수도 있는 스위치(13)에 의해 달성되는 것과 같이 도시된다). 시간적으로 인코딩된 매크로블록은 상기 시간 인코더(16)의 감산기(18)에 입력되어 예측 오류 매크로블록(prediction error macroblocks)을 발생시킨다. 상기 예측 오류 매크로블록은 출력 B를 통해 상기 공간 인코더(14)에 입력된다. 상기 공간 인코더(14)는 각각의 매크로블록의 각 블록을 공간 주파수 계수로 변환하는 이산 코사인 변환기(DST: discrete cosine transfomer)(20)을 포함한다. 상기 공간 주파수 계수는 양자화기(quantizer)(22)의해 양자화되고 (일부 예정된 "지그-재그(zig-zag)'또는 "교번 주사(alternate scan)" 명령(odering)에 따라 주사된다).

매크로블록을 시간적으로 인코딩함에 있어, 예측 매크로블록은 각각의 인코딩 예정 매크로블록(to-be-encoded macroblock)을 위해 선택되고, 이러한 예측 매크로블록은 상기 감산기(18)에서 상기 인코딩 예정 매크로블록으로부터 감산 처리된다. 인코딩 예정 화상에 선행하고 상기 인코딩 예정 화상에 후속하는 하나 이상의 하상은 예측 매크로블록을 선택할 수 있는 기준 화상으로 지정될 수도 있다. (여기서, "화상(picture)"이란 용어는 MPEG-2 전문용어로 사용된는 필드 또는 프레임을 의미한다. 그러한 기준 화상은 상기 인코더(10)을 사용하여 인코딩 및 디코딩되고 (시간적으로 인코딩될 수도 있다). 상기 인코딩 예정 화상의 상기 인코딩 예정 매크로블록과 가장 근접하게 정합하는 매크로블록을 확인하기 위해 각각의 이용가능한 기준 화상에 대한 검색이 수행된다. 이러한 최상의 정합 매크로블록은 상기 인코딩 예정 매크로블록을 위한 예측 매크로블록으로서 선택된다. 상기 예측 매크로블록은 상기 인코딩 예정 화상에 선행하는 기준 화상, 상기 인코딩 예정 화상에 후속하거나 상이한 기준 화상을 각각 형성하는 다수의 이용가능한 후보 예측 매크로블록의 보간이 될 수도 있는 기준 화상내에 위치할 수도 있다. 소위 P-화상이라 불리우는 일부 화상의 경우, 상기 예측 매크로블록 후보는 단지 하나 이상의 선행화상 (또는 그 보간(interpolation)에서만 생성될 수도 있다. 소위 B-화상이라 불리우는 다른 화상의 경우, 상기 예측 매크로블록 후보는 선행 또는 후속 화상 (또는 그 보간)으로부터 선택될 수도 있다. 소위 I-화상이라 불리우는 또 다른 화상의 경우에는, 전술한 화상들과는 달리 예측이 형성되지 않는다. 오히려, 각각의 매크로블록은 공간적으로만 인코딩된다. (이와같이 공간적으로만 인코딩된 매크로블록은 가끔 인트라 매크로블록(intra macroblocks)이라 불리우는 반면, 동작이 보상되고 시간적으로 인코딩되는 매크로블록은 가끔 "인터 매크로블록(inter macroblocks)이라 불리운다. 또한, P 또는 B 화상의 매크로블록에 대해 어떤 적절한 예측 매크로블록 후보도 발견되지 않을 경우, 상기 매크로블록은 공간적으로만 인코딩될 수도 있다.

상기 시간 인코더(16)은 디코더(24)를 포함한다. 상기 디코더(24)는 상기 공간 인코더(14)에서 출력된 계수들을 탈양자화시키기 위한 탈양자화기(dequantizer)(26)을 구비한다. 상기 탈양자화된 계수들은 역 이산 코사인 변환기(inverse discrete cosine transformer)(28)에 의해 역 이산 코사인 변환 처리되어 픽셀 값이 생성시킨다. 만약, 상기 디코딩된 매크로블록이 공간적으로만 인코딩되었다면, 상기 디코딩된 매크로블록은 출력 C를 통해 화상 메모리 30에 직접 저장될 수도 있다. 만약, 상기 디코딩된 매크로블록이 예측 오류 매크로블록인 경우, 적절한 예측 매크로블록은 상기 화상 메모리(30)(이하에서 설명됨)으로부터 검색되고 가산기 32에서 상기 디코딩된 예측 오류 매크로블록에 가산된다. 그에 따라 형성된 픽셀의 매크로블록은 출력 D를 통해 상기 화상 메모리 30에 저장된다. 기준 화상의 디코딩된 매크로블록만이 상기 화상 메모리 30에 저장된다.

상기 예측 매크로블록의 선택은 다음과 같이 달성된다. 최근에 인코딩된 화상의 다음번 인코딩 예정 매크로블록은 동작 보상기(34)에 입력된다. 또한, 상기 동작 보상기(34)는 상기 화상 메모리(30)로부터 상기 다음번 인코딩 예정 매크로블록을 예측하는데 사용될 수 있는 기준 화상의 픽셀 데이터를 수신하기도 한다. 상기 동작 보상기(34)는 상기 기준 화상으로부터 최상의 정합 매크로블록 (또는 보간 처리된 매크로블록)을 확인하기 위해 블록 정합 기술(block matching technique)을 이용한다. 상기 기술에 따르면, 다수의 후보 예측 매크로블록은 상기 이용 가능한 기준 화상으로부터 추출되고, 상기 인코딩 예정 매크로블록과 비교된다. 각각의 후보 예측 매크로블록은, (상기 후보 예측 매크로블록이 상기 인코딩 예정 블록보다는 시간적으로 상이한 화상으로부터 생성되기 때문에), 상기 인코딩된 매크로블록에 대해 시간적으로 이동되고 상기 인코딩 예정 매크로블록에 대해 1/2 픽셀만큼 낮은 증분치로 공간적으로 이동된다. 상기 인코딩 예정 매크로블록과 최상으로 정합하는 상기 후보 예측 매크로블록은 상기 인코딩 예정 매크로블록을 시간적으로 인코딩하기 위한 예측 매크로블록으로서 선택된다. 상기 예측 매크로블록은 운동 벡터(motion vector) MV라 불리우는 시간 및 공간 이동에 의해 확인된다. 상기 운동 벡터 MV는 상기 시간 인코더 16로부터 출력된다. 또한, 상기 운동 벡터 MV는 상기 디코더 24에서 화상을 디코딩할 때 상기 예측 매크로블록의 추후 확인을 위해 (예컨대, 상기 화상 메모리(30)에) 저장될 수도 있다.

더욱이, 상기 공간적으로 인코딩된 매크로블록 및 예측 오류 매크로블록 계수 데이터와 상기 운동 벡터 MV는 실행 레벨의 가변 길이 인코더(variable length encoder) 36에 의해 인코딩되는 엔트로피이다. 상기 데이터는 상기 디코더에서 공지된 크기의 버퍼 점유를 모델링하는 버퍼 37에 저장될 수도 있다. 상기 디코더의 버퍼가 오버플로 도는 언더플로되지 않도록 보장하기 위해, 인코딩된 매크로블록 또는 예측 오류 매크로블록당 생성되는 비트의수는 양자화 어댑터 39에 의해 조절되수도 있다( 또한, 화상은 스킵(skip)처리되고 스터핑 데이터(stuffing data)는 인코딩 화상의 선택 시작 전에 추가될 수도 있다). 그에 따라 생성된 압축 비디오 신호(비트스트림)는 (전송 매체 또는 (자기 디스크, 광 디스크, 메모리등과 같은) 디지털 저장 매체/기록 캐리어일 수도 있는)채널을 통해 상기 디코더 12에 출력된다. (기재의 간결성을 위해, 이송 스트림(transport stream) 또는 프로그램 스트림 및 채널 층 포맷channel layer format)과 같은 시스템 층 스트림으로된 압축 비디오 및 오디오 신호의 캡슐화 및 오디오 데이터의 인코딩에 대한 설명은 본 논의에서 생략되었음).

상기 디코더(12)는 상기 수신된 압축 비디오 신호가 시간적으로 저장되는 버퍼(33)을 구비한다. 상기 압축 비디오 신호의 비트는 실행 레벨의 가변 길이 디코더(38)로 출력되어 상기 가변 길이 인코더(36)와 반대인 동작을 수행함으로써 상기 운동 벡터 MV 및 매크로블록과 예측 오류 매크로블록 계수 데이터가 복구된다. 상기 운동 벡터 MV 및 매크로블록 계수 데이터는 상기 디코더 24와 유사한 디코더 부회로(40)에 입력된다. 상기 디코터 부회로(40)는 프레젠테이션(presentation)용의 디코딩 비디오 DV를 발생시키기 위한 비디오를 디코딩처리한다.

또한, MPEG-2는 크기 조정성 층(scalability layer)을 제공한다. B.HASKELL, A.PURI ＆ A.NETRAVALI, 디지털 비디오; MPEG-2의 도입(AN INTRODUCTION TO MPEG-2), ch.9, p.83-229(1997년판)을 참조할 것. 도 2는 공간 크기 조정성 인코더(42) 및 디코더(44) 와 (46)의 구성을 도시한 블록도이다. 상기 크기조정 인코더(42)는 다음과 같이 간단히 구성될 수도 있다. 비디오 신호가 공간 저역 필터 또는 부분 제거기(decimator)에 입력되어 낮은 공간 해상도 버전을 갖는 상기 비디오 신호가 발생한다. 낮은 베이스 층 인코더(12)는 상기 낮은 공간 해상도 버전을 갖는 상기 비디오 신호를 인코딩하여 저층 또는 베이스 층 압축 비디오 신호 LLV를 발생시킨다. 상기 베이스 층 압축 비디오 신호 LLV는 전적으로 독립적으로 디코딩가능하고 프리젠테이션 가능한 비디오 신호이다.

다음으로, 증강 층(enhancement layer) 압축 비디오 신호 ELV는 다음과 같이 형성된다.

전체 해상도 버전의 비디오 신호 V는 상기 공간 증강 인코더(spatial enhancement encoder)(51)에서 예측 가능하게 인코딩된다. 그러나, 상기 공간 증강 인코더(51)의 상기 동작 보상기(34)에 의해 발생된 각각의 시간 예측 매크로블록은 감산기(52)에 입력된다. 상기 베이스 층 압축 비디오 신호 LLV는 디코더(12)에서 디코딩되고 공간 보간기(50)에서 전체 해상도 버전의 최초 비디오 신호 V로 보간된다. 이러한 베이스 층 디코딩 비디오 신호는, 상기 베이스 층 압축 비디오 신호로부터 재구성된 것으로, 공간 예측기로 사용되는 재구성된 매크로블록을 포함하고 있다. 즉, 상기 재구성된 매트로블록은 상기 감산기(52)에 공급되어 상기 동작 보상기(34)에 의해 발생된 대응 시간 예측 매크로블록으로부터 감산된다. (상기 공간 예측 매크로블록은 상기 시간 예측 매크로블록으로부터 감산되기 전에 상기 감산기52에 의해 가중될 수도 있다). 그 결과로서 형성된 상기 예측 오류 매크로블록은 전술한 바와같이 공간적으로 인코딩되어 증강 층 압축 비디오 신호 ELV를 형성하게 된다.

상기 증강 층 및 베이스 층 인코더 10 및 51은 전술한 것과 유사하고 시간 예측을 형성한다는 사실에 주목해야 한다. 이것은 공간 크기 조정 능력 인코더 10 및 51이 두 개의 화상 메모리 30 및 30'(즉, 상기 베이스 층 및 증강 층에서 블록정합 과정을 수행하기 위해 기준 화상을 저장할 수 있는 용량)을 구비해야 한다는 것을 의미한다.

상기 공간 크기 조정성 프로파일 인코딩 비디오 신호를 위해 두가지 타입의 디코더가 이용될 수 있다. 첫 번째 타입의 디코더(44)는 도 1에 도시된 것과 유사한 구성의 디코더를 사용함으로써, 상기 베이스 층 압축 비디오 신호LLV만을 디코딩하여 충실도가 낮은 디코딩 베이스 층 비디오 신호를 발생시킨다. 두 번째 타입의 디코더(46)는 상기 베이스 층 압축 비디오 신호 LLV 및 상기 증강 층 압축 비디오 신호 ELV를 디코딩한다. 상기 디코더 46의 베이스 층 디코더(12)는 상기 베이스 층 압축 비디오 신호 LLV를 디코딩한다. 공간 보간기(50)는 상기 베이스 층 디코딩 비디오 신호를 전체 해상도 버전의 최초 비디오 신호 V로 보간 처리한다. 증강 층 디코더(53)는 상기 증강 층 압축 비디오 신호를 디코딩한다. 가산기(54)는 상기 보간 처리되어 디코딩된 베이스 층 비디오 신호의 (가중)재구성된 매크로블록을 상기 증강 층 압축 비디오 신호로부터 재구성된 예측 매크로블록에 선택적으로 가산함으로써, 충실도가 향상된 증강 층 비디오 신호 DVE가 재구성된다.

도 3은 SNR 크기 조정성 인코더(56) 및 디코더 58과 60의 구성을 도시한 블록도이다. 상기 인코더(56)는 다음과 같은 차이점을 제외하고 전술한 것과 매우 유사하다. 전술한 바와같이, 상기 공간 인코더는 양자화된 계수 신호들을 실행 레벨의 가변 길이 인코더(36)에 출력하는 양자화기(22)를 구비한다. 상기 양자화된 계수 신호는 탈양자화기(26)에 의해 탈양자화 처리된다. 상기 탈양자화된 계수 신호는 감산기(64)에서 (상기 이산 코사인 변환기(20)로부터 출력된) 최초 계수 신호로부터 감산 처리된다. 그 결과로서 발생된 오류 신호는 제 2 양자화기(22')에서 양자화되어 양자화기 오류 신호가 발생한다. 상기 양자화기 오류 신호는 제 2 실행 레벨의 가변 길이 인코더(36')에서 실행 레벨의 가변 길이로 인코딩된다.

상기 인코더(56)의 시간 인코더(68)의 디코더(66)은 상기 양자화기(22)에서 출력된 상기 양자화 계수 신호를 수신하여 탈양자화 처리하는 제 1 탈양자화기(26)을 구비한다. 또한, 상기 디코더(66)은 양자화기(22')에서 출력된 양자화 오류 계수 신호를 수신하여 탈양자화 처리하는 제 2 탈양자화기(22')를 구비한다. 이들 두개의 탈양자화 계수 신호들은 가산기(70)에서 함께 가산 처리된다. 상기 인코더(56)의 나머지 구성은 도 1의 구성과 동일하다.

상기 인코더(56)의 실행 레벨의 가변 길이 인코더(36)에서 출력된 인코더 신호는 전적으로 독립적으로 디코딩 가능한 베이스 층 압축 비디오 신호 LLV이다. 그러한 신호는 디코더(12)의 구성과 유사한 구성을 갖는 베이스 층 디코더(60)에서 수신될 수 있다.

상기 인코더(56)의 가변 길이 인코더(36')에서 출력되는 인코더 신호는 상기 베이스 층 압축 비디오 신호 LLV와 함께 디코딩될 수 있는 증강 층 압축 비디오 신호 ELV이다. 증강 층 디코더(58)는 상기 베이스 층 압축 비디오 신호 LLV 및 상기 증강 층 압축 비디오 신호 ELV를 각각 실행 레벨의 가변 길이로 디코딩하기 위한 실행 레벨의 가변 길이 디코더(38 및 38')를 구비한다. 이들 디코딩된 비디오 신호들은 상기 신호들을 탈양자화 처리하는 탈양자화기(26 및 26')에 공급된다. 그런다음, 가산기(70)는 역 이산 코사인 변환에 앞서 상기 두 개의 탈양자화 처리된 신호를 함께 가산한다. 상기 디코딩 처리과정중 나머지 과정은 전술한 내용과 유사하다.

또한, MPEG-2는 데이터 분할 프로파일(data partitioning profile) 및 시간 크기 조정성 프로파일(temporal scalability profile)을 구비한다. 상기 데이터 분할 프로파일의 경우, 선택된 양자화 계수 신호의 비트는 저 정밀도부(low precision portion) 및 정밀도 확장부(precision extension portion)로 분할된다. 근사한 양자화 계수 레벨을 구별하는 역할만을 수행하는 상기 정밀도 확장부는 증강 층 압축 비디오 신호로 형성되는 반면, 최초의 인코딩된 비디오 신호의 나머지는 베이스 층 압축 비디오 신호를 형성한다. 상기 시간 크기조정성 프로파일에 따르면, 최초의 비디오 신호는 적시에 부분 제거되어 시간 해상도가 낮은 비디오 신호를 형성한다. 상기 시간 해상도가 낮은 비디오 신호는 상기 인코더(12)와 유사한 베이스 층 인코더에서 인코딩 처리된다. 상기 최초의 시간 해상도 비디오 신호 및 충실도가 낮은 디코딩 베이스 층 비디오 신호는 증강 층 인코더에 입력된다. 상기 충실도가 낮은 디코딩 베이스 층 비디오 신호의 디코딩 기준 화상은 추가로 예측 신호를 형성하기 위해 상기 증강 층 압축 비디오 신호의 디코딩 화상으로 사용된다.

상기 크기 조정성 층의 각각은 동일한 비트 스트림을 사용하여 두 개 의 해상도 또는 품질 레벨을 제공할 목적으로 제안되었다. 베이스 층 디코더는 상기 베이스 층 압축 비디오 신호만을 디코딩 처리하여 신뢰도가 낮은 디코딩 베이스 층 비디오 신호를 발생시킨다. 그럼에도 불구하고, 베이스 층 디코더 및 증강 층 디코더는 동일한 비트 스트림을 디코딩 처리할 수 있다.

컴퓨터를 비디오 통신 터미널로 사용하는 것이 바람직하다. 고품질의 컬러 및 단색 디지털 비디오를 발생시킬 수 있는 저가의 카메라를 입수 할 수 있다. 그러나, 그러한 디지털 비디오 신호의 비트 전송율이 일반 퍼스널 컴퓨터상의 포트의 최대 데이터 입력 비트 전송율을 크게 초과한다는 문제점이 있다. 이러한 문제점을 해결하기 위한 종래의 해소방법으로, 컴퓨터 버스에 접속되는 전용 인터페이스 및 비디오 캡처 카드를 구비한 카메라를 사용하는 방법을 들수 있다.

미국 특허 출원 제 08/708,388 호 및 08/792,683 호에는 상기 문제점에 대한 대안 해결방법이 제안되어 있다. 이들 미국 특허 출원에서는 내장용 인코더 또는 종래의 비디오 카메라용의 인코더 어댑터를 구비한 카메라가 개시되어 있다. 상기 인코더 또는 인코더 어댑터를 구비한 상기 카메라는 범용 시리얼 버스(USB: Universal Serial Bus)표준에 따르는 인터페이스를 갖추고 있다. 범용 시리얼 버스 명세서 버전 1.0(1996년 1월 19일)인 0pen HCI를 참조할 것. 도 4는 두 가지 방식의 카메라 부착 아키텍처를 구비한 시스템(100)을 도시한 블록도이다. 예시된 대로, 상기 시스템(100)은 실시간 양방향 동화상 통신 응용분야, 실시간 비양방향 화상 통신 응용분야, 정지 또는 동화상 캡처 응용분야 등에서 사용될 수 있다. 도시된 바와 같이, 카메라(110)는 외부에서 상기 컴퓨터 시스템(120)의 하우징 156을 통해 상기 컴퓨터 시스템(120) 연결된다. 상기 컴퓨터 시스템(120)은 CPU 버스(122)(예컨대, PCI 버스), 시스템 버스 (124), 및 I/O 확장 버스(126)(예컨대, ISA 버스)를 포함한다. 적어도 하나의 프로세서(128) 및 "노스(north)" 브리지(bridge) 또는 메모리 컨트롤러(130)는 상기 CPU 버스(122)에 연결된다. 상기 노스 브리지(130)는 상기 CPU 버스(122)를 통해 캐쉬 메모리(132) 및 주메모리(134)를 상기 프로세서(128)에 연결시켜 준다. 또한, 상기 노스 브리지(130)는 상기 시스템 버스(124)상의 디바이스들과 상기 메모리(132,134) 또는 상기 프로세서(128)간에 데이터의 전송을 가능하게 해준다. 또한, 그래픽 어댑터(136)가 상기 시스템 버스(124)에 연결된다. 디스플레이 모니터(138)는 상기 그래픽 어댑터(136)에 연결될 수도 있다. 도시된 바와같이, 이더뎃 어댑터(160)는 상기 시스템 버스(124)에 연결될 수도 있다. I/O 확장 버스(126)에는 디스크 메모리(140), IDE 인터페이스와 같은 인터페이스, 모뎀(158), 키보드(144)와 같은 입력장치(142), 및 마우스(146)가 연결된다. (이와는 달리, 상기 키보드(144) 및 마우스(146)가 상기 USB 허브(hub)(150)에 연결될 수도 있음). 또한, 상기 시스템 버스(124)와 상기 I/O 확장 버스(126)사이에 사우스 브리지(south bridge)(148) 또는 I/0 브리지가 연결된다. 상기 사우스 브리지(148)는 모뎀(158)과 같은 상기 I/0 확장 버스(126)상의 장치와, 상기 시스템 버스(124)상의 장치 또는 상기 USB(200)상의 장치사이에서 데이터의 전송을 가능하게 해준다. 예시된 대로, 본 발명에 따르면, 상기 사우스 브리지(148)는 또한, USB 허브(150)를 구비한다. 상기 USB 허브(150)는 상기 컴퓨터 시스템의 상기 하우징(156)에 전체가 외부에서 연결되는 표준 USB 준수 커넥터(standard USB compliant connectors)(154)에 연결되는 하나 이상의 직렬 포트(152)를 구비한다. 예시된 대로, 상기 USB 허브(150,117,168,190) 및 케이블(119)은 상기 USB 버스(200)를 형성한다.

상기 카메라(110)는 비디오 영상이 주사되는 튜브 CMOS 광 센서 또는 CCD와 같은 이미징 장치(111)를 구비한다. 상기 이미징 장치(111)는 상기 비디오 영상을, 상기 비디오 영상을 나타내는 동화상 비디오 신호로 변환한다. 상기 비디오 신호는 ADC(113)에서 디지털 형태로 변환된다. 상기 ADC(113)에서 출력되는 상기 디지털 신호는 비트 전송율 감소 회로(bit rate reduction circuit)(115)에서 수신된다. 상기 비트 전송율 감소 회로(115)는 프로그램 가능한 프레임 전송율/해상도 감소 회로(programmable frame rate/resolution reduction circuit)일 수도 있다. 그러나, 상기 비트 전송율 감소 회로는 프로그램 가능한 비디오 인코더인 것이 바람직하다. 상기 비트 전송율이 감소된 비디오 신호는 USB 허브 회로(117)에 출력된다. 상기 USB 허브 회로(117)는 상기 케이블(119)을 통해 상기 비디오 신호를 직렬 비트 스트림으로서 출력할 수 있는 직렬 포트(118)를 구비한다. 상기 커넥터(154)(외부에서 상기 컴퓨터 하우징(156)에 연결됨)속에 삽입되는 상기 케이블(119)은 상기 비디오 신호를 상기 사우스 브리지(148)의 상기 허브 회로(150)의 직렬 포트(152)로 보낸다.

상기 비디오 인코더(115)에 의해 상기 비트 전송율이 감소함으로써, 상기 비디오 신호는 상기 USB 직렬 포트(152)에 의해 수신될 충분히 낮은 대역폭을 갖는 것을 보장해 준다. MPEG-1,MPEG-2, H.263등과 같은 여러 가지 압축 표준이 상기 비디오 신호를 인코딩하기 위해 상기 비트 전송율 감소 회로(115)의 사용될 수도 있다.

상기 USB(200), 특히 상기 허브(150,117,168)의 상기 직렬포트(152,118,170)는 양방향 신호 전송을 지원한다. 상기 허브(117)로부터 비디오 신호를 전송하는 것 이외에도, 데이터는, 상기 비디오 신호 및 비디오 전송 신호를 일정간격 배치함으로써, 상기 허브(150)에서 상기 허브(117)로 전송될 수도 있다. 이러한 데이터 전송은 상기 비디오 인코더(115)를 프로그램/조정하는데 사용될 수 있다. 예컨대, 상기 비디오 인코더(115)는 H.263, MPEG-1, MPEG-2, JPEG, 동작 JPEG등과 같은 여러가지 압축 표준에 따라 비디오를 인코딩하도록 프로그래밍될 수 있다. 더욱이, 주어진 표준내에서, 양자화 단계 크기, 인터/인트라 결정 임계값, 포맷 화상 그룹, 비트 전송율등과 같은 다양한 파라미터들이 조절될 수도 있고, 산술 부호화와 같은 다양한 인코딩 옵션이 선택될 수도 있다.

마이크로폰(162)은 가청음을 수신하고, 상기 수신된 가청음을 상기 카메라(110)가 영상을 수신함에 따라 실시간으로 오디오 신호로 변환하는 것이 유리하다. ADC(164)는 상기 오디오 신호를 디지털화하고, 오디오 인코더(166)는 상기 오디오 신호를 인코딩 처리한다. 예시된 대로, USB 허브 회로(168)는 상기 압축된 오디오 신호를 수신하고, 비트 직렬 형태의 상기 수신된 오디오 신호를 상기 직렬포트(170)에서 상기 허브(117)로 전송하고, 상기 허브(117)에는 상기 카메라(110)에서 출력된 비디오 신호와 상기 USB(200)상에서 전송된 어떤 다른 데이터 신호가 일정 간격으로 배치된다.

상기 허브(150)는 비트 전송율이 감소된 비디오( 및 압축 오디오 신호)를 수신한다. 상기 수신된 신호는 상기 사우스 브리지(148), 상기 시스템 버스(124), 및 상기 노스 브리지(130)를 통해 상기 메모리(132 또는 134)에 전송될 수도 있다. 상기 메모리에서 출력된 비디오 및/또는 오디오 신호는 상기 프로세서(128)에 의해 처리될 수도 있고, 오류는 필요시에 인코딩되는 오류 보호 코드(error protection code)를 사용하여 보호된다. 상기 비디오 및/또는 오디오 신호는, (멀티플렉싱 형태로) 상기 노스 브리지(130), 상기 시스템 버스(124), 이더넷 어댑터(160), 및 이더넷 네트워크를 통해 상기 비디오 회의 시스템(100)과 유사한 아키텍처로 구성되는 (즉, 컴퓨터 시스템(120') 및 카메라(110')를 갖는) 원단 원격 비디오 회의 시스템(far end, remote video conferencing system)(100')에 출력될 수도 있다. 이와는 달리, 부연하여 설명하면, 상기 압축 비디오 및/또는 압축 오디오 신호는 상기 노스 브리지(130), 상기 시스템 버스(124), 상기 사우스 브리지(148), I/0 확장 버스(126), 상기 모뎀(158), 및 공중 전화 네트워크를 통해 상기 원단 원격 비디오 회의 시스템(100')에 출력될 수 있다. 또 다른 실시예의 경우, 상기 허브(150)에서 수신된 상기 압축 비디오 및/또는 압축 오디오 신호는 상기 이더텟 어댑터(160) 또는 상기 모뎀(158)에 직접 출력되고, 상기 이더넷 어댑터(160) 또는 상기 모뎀(158)은 상기 USB(200)에 연결될 수 있다.

압축 비디오 및/또는 압축 오디오 신호는 도 4에 도시된 근단 로컬 비디오 회의 시스템(near end, local video conferencing system)(100)의 상기 원단 원격 비디오 회의 시스템(100')으로부터 수신될 수도 있다. 상기 압축 비디오 및/또는 압축 오디오 신호는 이더넷 어댑터(160) 또는 상기 모뎀(153)에서 수신될 수도 있다. 상기 이더넷 어댑터(160)에서 수신된 압축 비디오 및/또는 압축 오디오 신호는 상기 시스템 버스(124) 및 상기 노스 브리지(130)을 통해 상기 주 메모리(132) 또는 캐시 메모리(134)에 전송될 수도 있다. 이와는 달리, 만약, 상기 압축 비디오 및 압축 오디오 신호가 상기 모뎀(158)에서 수신되는 경우, 상기 압축 비디오 및 압축 오디오 신호는 상기 I/0 확장 버스(126), 상기 사우스 브리지(148), 상기 시스템 버스(124), 및 상기 노스 브리지(130)를 통해 상기 메모리(132,134)에 전송된다. 상기 프로세서(128)는 오류 정정, 암호화해제(decryption), 및 디코딩과 같은 추가 과정을 위해 상기 압축 비디오 및 압축 오디오 신호를 분리할 수도 있다. 이와는 달리, 특수 목적용 프로세서(도시생략)가 적어도 상기 비디오 신호 디코딩 과정을 수행하기 위해 상기 시스템 버스(124)에 연결될 수도 있다. 또 다른 실시예의 경우, 비디오 디코딩 과정을 수행하기 위한 특수 프로세서가 상기 압축 비디오 신호가 (즉, 상기 모뎀(158) 또는 상기 이더넷 어댑터(160)으로부터) 직접 전송될 수도 있다. 상기 디코딩된 비디오 신호는 상기 그래픽 어댑터(136)에 전송되거나 (상기 그래픽 어댑터에 나타난다). 상기 그래픽 어댑터(136)는 상기 디스플레이 모니터(138)상으로 상기 디코딩 비디오 신호를 출력한다. 또한, 상기 디코딩 오디오 신호는 상기 그래픽 어댑터(136)을 통해 수신되고 상기 디스플레이 모니터(138)에 내장된 스피커로 출력된다.

또 다른 디지털 비디오 캡쳐 실시예의 경우, 카메라(110')에 의해 발생된 디지털 또는 아날로그 비디오 신호는 어댑터(180)에 출력된다. 상기 어댑터(180)는 내장 USB 허브(190)를 갖는 비디오 인코더(195)를 구비한다. 상기 USB 허브(190)는 상기 USB(200)의 일부이다. 상기 비디오 인코더(195)는 디지털 형태의 상기 수신된 비디오 신호를 아날로그 형태로 인코딩하고, 상기 USB 허브(190) 및 USB(117)을 통해 상기 압축된 비디오 신호를 상기 컴퓨터 시스템(200)에 전송한다.

따라서, 상기 시스템(100)은 퍼스널 컴퓨터 시스템(120)상에서 비디오 통신을 제공하기 위한 경제적이고 유용한 방식을 제공한다. 전형적인 가정 또는 사업장의 경우, 상기 통신 시스템(100,100')은 통상적으로 통신하기 위한 모뎀 및 전화 네트워크를 사용한다. 상기 시스템 100과 100'사이에 "청정(clean)(즉, 저잡음) 회로"가 설치되고 상기 시스템(100,100')가 상기한 능력을 갖는 컴플라이언트 모뎀(compliant modem)을 갖는다고 가정해 보면, 최근의 통신 기술의 발전으로 말미암아 통상적인 음성 연결 기술을 사용하여 3.6Kbits/sec의 속도에 달하는 듀플렉스 통신이 가능하다. 종종, 비디오 회의를 주재하기 위해 단일 ISDN 접속 기술이 사용됨으로써, 통신할 때마다 128 Kbits/sec에 달하는 전송 속도를 제공할 수 있다.

그렇게 느린 비트 전송율로, 실시간의 더딘 잠재시간으로 압축된 동화상 비디오 신호를 발생시키기 위해 고 레벨의 압축이 필요하다. 상기 압축 비디오 신호로부터 디코딩된 동화상은 사람이 감지할 수 있는 정도의 다량의 압축 아티팩트(artifact)를 갖는다. 그러한 아티팩트로 인해 상기비디오 신호의 질이 저하된다. 원격 발신 압축 비디오 신호의 디코딩된 화상을 상기 로컬 시스템(100)에서 나타내는 것(디스플레이하는 것)이외에도, 국부 발신 비디오 신호의 디코딩된 화상을 나타내는 것도 바람직하다. 예컨대, 상기 디스플레이 모니터(138)의 표시화면는 두 개의 영역으로 분할되거나 두 개의 윈도우를 표시할 수도 있다. 그 중 제 1 윈도우 또는 영역에서는 상기 원격 발신 압축 비디오 신호로부터 디코딩된 화상이 표시된다. 제 2 윈도우 또는 영역에서는 상기 국부 발신 압축 비디오 신호(상기 원격 시스템(100')에 전송됨)로부터 디코딩된 화상이 표시된다. 그러나, 상기 국부 발신 압축 비디오 신호의 표시 화상은 상기 원격 시스템(100')에 전송된 바로 그 동일한 국부 압축 비디오 신호로부터 재구성된다는 문제점이 있다. 전술한 바와 같이, 상기 국부 발신 압축 비디오 신호가 전송되는 통신 채널은 제한된 대역폭을 갖는다. 그 결과, 상기 국부 발신 압축 비디오 신호는 충실도가 저하된 압축 아티팩트가 상기 재구성된 화상속에 도입되도록 고도로 압축되어야 한다. 상기 국부 발신 압축 비디오 신호가 수신되는 통신 채널의 대역폭 제한 요건을 고려해 볼 때, (국부 발신 압축 비디오 신호로부터 재구성된 화상에 있는) 상기 압축 아티팩트는 상기 원격 시스템(100')에서 허용되어야 하는 반면, 상기 채널 대역폭의 제한 요건은 상기 국부 발신 압축 비디오 신호와 비교해 볼 때 상기 로컬 시스템 100에는 존재하지 않는다. 따라서, 상기 로컬 시스템 100에서 상기 국부 발신 압축 비디오 신호로부터 재구성된 국부 표시 화상의 충실도가 저하되는 것은 불리하게 작용하고 불필요한 것이다.

본 발명은 (1)"범용 직렬 버스 인터페이스를 구비한 동화상 카메라(Moving Picture Camera with Universal Serial Bus Interface)"라는 발명의 명칭으로 1996년 9월 4일자로 출원된 Peter H.Hsieh 및 Shyh-Rong Wang(발명자)의 미합중국 특허출원 제 08/708,388호 및,(2) "동화상 카메라용 디지털 동화상 및 정지화상 카메라 어댑터(Digital Moving and Still Picture Camera Adaptor for Moving Picture Video Camera)"라는 발명의 명칭으로 1997년 1월 29일자로 출원된 Peter H.Hsieh 및 Hasan Gadjali(발명자)의 미합중국 특허 출원 제 08/792,683호의 기술에 관한 것으로서, 전술한 특허 출원은 본 출원의 동일 양수인에게 양도되었고, 본 발명의 명세서에 참고로 언급된다.

본 발명은 예컨대, 실시간 양방향 통신을 위한 압축 비디오 신호(compressed video)의 송수신에 관한 것이다.

도 1은 종래의 MPEG-2 호환성 인코더 및 디코더의 구성을 도시한 블록도이다.

도 2는 종래의 MPEG-2 공간 크기 조정성 인코더 및 디코더의 구성을 도시한 블록도이다.

도 3은 종래의 MPEG-2 SNR 크기 조정성 인코더 및 디코더의 구성을 도시한 블록도이다.

도 4는 카메라 및 PC를 로컬 및 원격 터미널로서 이용한 비디오 통신 시스템의 구성을 도시한 블록도이다.

도 5는 본 발명의 실시예에 따른 비디오 통신 터미널의 구성을 도시한 블록도이다.

도 6은 본 발명의 실시예에 따른 비디오 인코더의 구성을 도시한 블록도이다.

도 7은 본 발명의 실시예에 따른 비디오 디코더의 구성을 도시한 블록도이다.

따라서, 본 발명의 목적은 종래기술의 전술한 문제점들을 극복하는데 있다.

상기 목적을 달성하기 위해, 본 발명의 일실시예에 따르면, 로컬 모니터 및 원격 모니터상에 비디오를 나타내기 위한, 즉 표시하기 위한 방법이 제공된다. 비디오 신호는 예컨대, 비디오 신호 소스에 의해 발생된다. 상기 비디오 신호는 비디오 인코더에 의해 인코딩되어 제 1 압축 비디오 신호가 발생된다. 상기 제 1 압축 비디오 신호를 사용하여, 상기 비디오 신호 소스에 의해 발생된 상기 비디오 신호 역시 인코딩되어 제 2 압축 비디오 신호가 발생된다. 상기 제 1 및 제 2 압축 비디오 신호는 로컬 터미널(local terminal)에 전송된다. 상기 로컬 터미널에서, 상기 제 1 및 제 2 압축 비디오 신호는 디코더를 사용하여 디코딩 처리되어 제 1 및 제 2 디코딩 비디오 신호가 발생된다. 제 1 디코딩 비디오 신호는 상기 디코딩된 제 1 및 제 2 비디오 신호의 조합으로부터 발생된다. 상기 제 1 압축 비디오 신호만이 통신 채널을 통해 원격 터미널에 전송됨으로써, 상기 원격 터미널은 상기 제 1 압축 비디오 신호로부터만 제 2 디코딩 비디오 신호을 복구할 수 있다.

이상에서 알 수 있는 바와 같이, 상기 로컬 터미널과 상기 원격 터미널간의 통신 채널은 상기 제 2 압축 비디오 신호가 아닌 상기 제 1 압축 비디오 신호를 전송하기 위한 충분한 대역폭을 가질 수도 있다. 그럼에도 불구하고, 상기 인코더와 상기 로컬 터미널간의 통신 채널은 상기 제 1 및 제 2 압축 비디오 신호 모두를 전송하기 위한 충분한 대역폭을 갖는다. 그것으로서, 상기 로컬 터미널은 상기 제 1 및 제 2 압축 비디오 신호를 사용하여 보다 고품질의 상기 국부 발신 화상을 디코딩하고 재구성할 수 있다. 반면에, 앞서 이미 인코딩된 제 1 압축 비디오 신호는 상기 원격 터미널에 간단히 전송하기 위해 이용될 수 있다.

본 발명의 또 다른 실시예에 따르면, 예컨대, 비디오 신호 소스를 사용하여 발신 화상 시퀀스를 갖는 비디오 신호를 발생시키는 단계를 포함하는 비디오 신호 인코딩 방법이 제공된다. 상기 비디오 신호는 예컨대, 인코더에 의해 인코딩되어 제 1 압축 비디오 신호가 발생된다. 상기 제 1 압축 비디오 신호를 발생시키기 위해 상기 발신 비디오 신호를 인코딩함에 있어, 동작 보상 시간 인코딩 기술(motion compensation temporal encoding)은 적어도 상기 발신 비디오 신호의 일부를 위해 사용된다. 또한, 공간 인코딩 기술(spatial encoding) 역시 상기 제 1 압축 비디오 신호를 발생시키기 위해 상기 발신 비디오 신호를 인코딩하는데 사용된다. 상기 제 1 압축 비디오 신호는 예컨대, 디코더를 사용하여 공간 및 동작 보상 시간 디코딩 처리되어 디코딩 비디오 신호가 발생된다. 상기 디코딩된 비디오 신호의 각 화상의 각각의 픽셀은 공간 및 시간적으로 정렬된 상기 발신 비디오 신호의 대응 화상 픽셀로부터 감산 처리된다. 차 비디오 신호(difference video signal)는 상기 차 비디오 신호의 각 화상에 대한 공간 인코딩 기술을 사용하여 인코딩된다.

이상에서와 같이, 본 발명의 기술은 상기 제 1 및 제 2 압축 비디오 신호를 발생시키는데 사용될 수 있고, 상기 압축된 차 비디오 신호는 상기 원격 터미널에는 전송되지 않는 상기 제 2 비디오 신호이다. 본 발명의 또 다른 실시예에 따르면, 디코딩 처리된 비디오 신호를 표시하는 방법이 제공된다. 제 1 및 제 2 압축 비디오 신호는 디코더에서 수신된다. 상기 디코더는 상기 제 1 압축 비디오 신호를 공간 및 동작 보상 시간 디코딩 처리하여 제 1 디코딩 비디오 신호를 발생시킨다. 상기 제 2 압축 비디오 신호는 공간적으로 디코딩 처리되어 제 2 공간 다코딩 비디오 신호가 발생된다. 가산기는 상기 제 2 공간 디코딩 비디오 신호의 각 화상의 각각의 픽셀을 공간 및 시간적으로 정렬된 상기 제 1 디코딩 비디오 신호의 대응 화상 픽셀에 가산하여 재구성된 비디오 신호를 재구성한다. 상기 재구성된 비디오 신호가 나타난다(즉, 표시된다).

첨부도면을 참조하여, 본 발명의 양호한 실시예가 이하에 설명된다.

첨부 도면에서, 동일한 참조 번호는 동일한 구성요소를 나타낸다. 이하에서, 비디오 신호는 순차 주사되거나 디인터레이싱(deinterlaced)되는 것으로 가정한다. 따라서, 상기 비디오 신호의 각 화상은 프레임이다. 그러나, 본 발명은 필드 화상을 갖는 비월 비디오 신호(interlaced video signals)에 동등하게 적용될 수 있다. 또한, MPEG-1, MPEG-2 또는 H.263 공간 및 동작 보상 시간 인코딩 모델(spatial and motion compensated temporal encoding model)이 본 명세서에서 사용된다. 이들 모델에서, 공간 인코딩 과정은 직교 변환과 같은 이산 코사인 변환 과정, 양자화 및 엔트로피 인코딩 과정을 포함한다. 동작 보상 시간 인코딩 과정은 매크로블록 또는 부 화상(sub picture)에 기초하여 수행되고, 예측 매크로블록은 동작 벡터에 따라 시간 및 공간적으로 오프셋된다. 따라서, 상기 예측 매크로블록은, 인코딩 예정 매크로블록을 포함하고 있는 화상(에 선행하거나 후속하는)과 다른 화상으로부터 생성되기 때문에, 그것이 예측하는 상기 인코딩 예정 매크로블록과는 시간적으로 정렬되지 않는다. 더욱이, 적어도 하나의 예측 매크로블록 역시 그것이 예측하는 상기 인코딩 예정 매크로블록과 공간적으로 정렬되지 않는다. 이것은 상기 예측 매크로블록이 상기 인코딩 예정 매크로블록의 인코딩 예정 화상내의 시작 및 종료 행 및/또는 열과 동일한 기준 화상내의 행 및/또는 열에서 시작 및 종료되지 않는다는 것을 의미한다.

도 5는 본 발명에 따른 비디오 통신 터미널(300)의 구성을 도시한 블록도이다. 상기 터미널(300)은 로컬 터미널이다, 상기 로컬 터미널(300)은 터미널간 통신 채널(inter-terminal communication channel)(322)을 통해 유사 원격 터미널(300')에 연결된다. 상기 통신 채널(322)은 네트워크, 근거리 지역 통신망, 전화 통신망, 지상 네트워크 또는 인공위성 방송 네트워크(공간)등으로 구현될 수 있다.

상기 로컬 터미널(300)은 이미징 장치(CCD, CMOS 광센서, 튜브등), 디지털 저장 매체등과 같은 비디오 신호 소스(310)를 포함한다. 상기 비디오 신호 소스(310)는 국부 발신 비디오 신호를 인코더(312)에 출력한다. 상기 비디오 신호는 연속적이고 실시간으로 캡쳐링되며 인코딩 처리되지만, 디지털 저장 매체에 저장된 비실시간(non-real time)으로 예비적으로 또는 "오프-라인(off-line)" 인코딩되어 재생될 수도 있다. 상기 비디오 신호는 디지털화되고 블록 및 매크로블록으로 포맷된다. 상기 인코더(312)는 상기 비디오 신호를 인코딩 처리하여 베이스 층 압축 비디오 신호 LLV_1 및 증강 층 압축 비디오 신호 ELV_1을 발생시킨다. 상기 베이스 층 압축 비디오 신호 LLV_1 및 증강 층 압축 비디오 신호 ELV_1은 비록 도면에서는 분리된채 도시되어 있지만, 단일 스트림 또는 신호로 함께 멀티플렉싱처리되는 것이 유리하다. 이들 신호 LLV_1 및 ELV_1은 컴퓨터 시스템(324)의 하우징(314)를 통해 전송된다. 도면에 예시된 대로, 상기 신호 LLV_1 및 ELA_1??의 조합 비트 전송율은 시간 분할 멀티플렉싱될 정도로 충분히 낮고, USB 형태의 접속부를 통해 직렬로 전송된다. 상기 신호 LLV_1 및 ELV_1는 디코더(316)에서 수신된다. 상기 디코더(316)는 상기 신호 LLV_1을 공간 및 동작 보상 시간적으로 디코딩하여 상기 디코딩 베이스 층 비디오 신호 DLV_1을 발생시킨다. 또한, 상기 디코더(316)는 상기 신호 ELV_1만을 공간적으로 디코딩한다. 상기 디코더(316)는 즉, 상기 디코딩 신호 ELV_1의 각 화상 픽셀을, 동일한 순차 화상의 동일한 행 및 열로 공간 및 시간적으로 정렬되어 있는 상기 디코딩 신호 DLV_1의 대응 화상 픽셀에 가산한다. 이렇게 함으로써, 상기 디코딩 증강 층 비디오 신호 DVE_1가 발생된다.

한편, 상기 베이스 층 압축 비디오 신호 LLV_1역시 RF 방송 송신기, 모뎀, 네트워크 어댑터등일 수 있는 송수신기(320)에 (디멀플렉싱 처리되어) 전송된다. 상기 송수신기(320)는 상기 통신 채널(320)을 통해 상기 베이스 층 압축 비디오 신호 LLV_1을 상기 원격 터미널 (300')에 송신한다. 상기 송수신기(320)는 또한 상기 통신 채널(322)을 통해 상기 원격 터미널(300')로부터 베이스 층 압축 비디오 신호 LLV_r을 수신한다. 베이스 층 압축 비디오 신호 LLV_r은 상기 원격 터미널(300')에서 발생되고, (디코딩되어 표시될 때) 상기 원격 터미널(300')에서 화상 또는 장면(scene)의 실시간 캡쳐링되고 디코딩된 동화상 비디오를 나타낸다.

상기 디코더(316)는 상기 송수신기(320)로부터 상기 베이스 층 압축 비디오 신호 LLV_r을 수신한다. 상기 디코더(316)는 상기 베이스 층 압축 비디오 신호 LLV_r을 디코딩하여 충실도가 낮은 디코딩 베이스 층 비디오 신호 DVL_r을 발생시킨다. 상기 두 개의 국부 디코딩 비디오 신호, 즉 DVE_l 및 DVL_r은 상기 디스플레이 모니터(318)상에서 표시된다. 상기 디코딩 비디오 신호 DVE_l 및 DVL_r은 상기 디스플레이 모니터(318)의 표시 화면의 절반 크기로 표시될 수도 있다. 이와는 달리, 상기 디코딩 비디오 신호 DVE_l 및 DVL_r은 상기 디스플레이 모니터(318)의 표시 화면상의 다른(동적으로 이동가능하고 조절 가능한) 윈도우로 표시된다.

상기 로컬 터미널(300)은 도 4의 카메라(110 또는 110") 및 퍼스널 컴퓨터 시스템(120)을 사용하여 하드웨어측면에서 물리적으로 구현될 수도 있다. 그러한 경우, 상기 비디오 신호 소스(310)은 상기 이미징 장치(111), 또는 카메라(110"), 하드 디스크(140)등을 사용하여 구현될 수도 있고, 상기 인코더(312)는 상기 비트 전송율 감소기(115) 또는 상기 프로세서(195)를 사용하여 구현될 수도 있고, 상기 하우징(312)은 상기 하우징(156)에 대응하며, 상기 송수신기(320)는 상기 모뎀(158) 또는 이더넷 어댑터(160)를 사용하여 구형될 수도 있고, 상기 디스플레이 모니터(318)는 상기 디스플레이 모니터(138)에 대응한다. 상기 디코더(316)는 상기 프로세서(128) 및 메모리(132,134), 그래픽 어댑터(136) 또는 상기 버스(126, 124 또는 122)중 하나에 접속되는 또 다른 소정의 디코딩 회로로 구현될 수 있다. 상기 국부 발신 압축 비디오 신호 LLV_l 및 ELV_l는 USB(200)을 통해 상기 디코더(316)에 입력될 수도 있다.

검출, 인코딩, 송신, 수신, 디코딩 및 오디오 표시를 위한 하드웨어는 도 5에 도시되지 않는다. 그러나, 전술한 바와 같이, 도 4의 마이크로폰(162), 압축기(166), USB(200), 상기 디스플레이 모니터(138)의 스피커 또는 외부 스피커등과 같은 소정의 회로가 사용될 수도 있다.

전술한 바와 같이, 상기 USB는 12 Mbit/sec에 달하는 데이터 전송 속도를 지원한다. 반면에, 상기 통신 채널(322)은 33.6 Kbit/sec보다 빠르지 않은 듀플렉스전송 비트 속도를 가질 수도 있다. 적어도 대역폭의 일부는 오디오로 할당되어야 한다. 따라서, 각각의 신호 LLV_l 및 ELV_r은 상기 USB의 최대 대역폭의 5% 이하로 할당될 수도 있다. 따라서, 실제로 더 높은 대역폭이 상기 인코더(312)와 상기 디코더(316)간의 접속을 위해 지원될 수 있다. 많은 양의 초과 대역폭은 국부 발신 증강 층 압축 비디오 신호 ELV_l로 할당될 수도 있다. 그로서, 상기 국부 발신 증강 층 압축 비디오 신호 ELV_l 및 상기 국부 발신 베이스 층 압축 비디오 신호 LLV-1로부터 재생된 상기 디코딩 증강 비디오 신호 DVE_l은, 상기 원격 발신 베이스 층 압축 비디오 신호 LLV_r (또는 상기 국부 발신 베이스 층 압축 비디오 신호 LLV_l)로부터 재생된 상기 디코딩 베이스 층 비디오 신호 DVL_r에 비해 매우 높은 충실도(LLV_l용으로 사용되지 않은 얼마나 많은 양의 초과 USB 대역폭이 ELV_l용으로 할당되는지의 여부에 좌우됨)를 가질 수 있다.

상기 디코더(316)는 3 개의 신호, 즉 LLV_l, ELV_l 및 LLV_r을 동시에 디코딩 처리한다. 따라서, 상기 디코더(316)의 처리 요건을 줄이기 위해서는 가능한 한 많이 이들 신호의 디코딩 과정을 단순화하는 것이 바람직하다. 본 발명의 또 다른 실시예에 따르면, 이것은 상기 신호 ELV_l의 인코딩 및 디코딩 처리 과정을 단순화 함으로서 달성된다. 더 복잡한 인코딩 기술 또는 아키텍처는 특수 충실도를 갖는 디코딩 증강 비디오 신호 DVE_l를 재구성하기 위해 디코딩될 수 있는 증강 층 압축 비디오 신호 ELV_l를 발생시킬 때 대역폭을 보존할 수도 있는 반면, 상기 USB는 ELV_l로 할당될 수도 있는 큰 초과 용량을 갖는다. 따라서, 간단한 디코딩 기술 또는 아키텍처에 순응할 수 있는 간단한 인코딩 기술 또는 아키텍처는, 인코딩 및 디코딩 자원을 보존하고 상기 인코더 및 디코더 아키텍처를 단순화한다는 유리한 면으로 볼 때, 상기한 USB 대역폭의 제거를 정당화한다. 또한, 본 발명은 메모리 공간을 보존한다.

도 6은 본 발명의 실시예에 따른 인코더(400)의 구성을 도시한 블록도이다. 상기 인코더(400)는 베이스 층 공간 인코더(430), 베이스 층 시간 인코더(460), 및 증강 층 인코더(470)를 포함한다. 상기 공간 인코더(430)는 이산 코사인 변환기(404), 양자화기(406), 양자화기 어댑터(430), 실행 레벨의 가변 길이 인코더(도시 생락됨), 및 레이트 버퍼(rate buffer)(도시생략됨)를 포함한다. 상기 시간 인코더(460)는 공간 디코더(440), 동작 보상기(416), 및 감산기(404)를 포함한다. 상기 공간 디코더(440)는 탈양자화기(403), 역 이산 코사인 변환기(410), 가산기(412), 및 화상 메모리(414)를 포함한다. 상기 증강 층 인코더(470)는 탈양자화기(408), 상기 역 이산 코사인 변환기(410), 가산기(412), 감산기(418), 상기 이산코사인 변환기(404), 상기 양자화기(406), 상기 양자화기 이댑터(420), 실행 레벨의 가변 길이 인코더(도시 생략됨), 및 레이트 버퍼(도시 생략됨)를 포함한다. 또한, 블록 포맷터(block formatter)(402)가 제공되기도 하지만, 만약, 상기 비디오 신호가 이미 블록 및 매크로블록으로 포맷팅된 경우에는 제거될 수도 있다.

상기 베이스 층 압축 비디오 신호 LLV_l은 도 1의 인코더(10)에서와 같이 유사하게 발생한다. 상기 베이스 층 압축 비디오 신호의 신호 흐름은 도 6의 가는 실선으로 도시된다. 디지털 비디오 V는 상기 블록 포맷터(402)에 입력되어 상기 입력된 디지털 비디오가 블록 및 매크로블록으로 형성된다. 선택된 인코딩 예정 프레임에 있는 인코딩 매크로블록은 상기 감산기(404) 및 상기 공간 인코더(460)의 동작 보상기(416)에 입력 처리된다. 만약, 적당한 예측 매크로블록이 상기 동작 보상기(416)에 의해 상기 인코딩 예정 매크로블록용으로 발견되면, 상기 예측 매크로블록의 블록들은 상기 감산기(404)로 출력 처리된다. 상기 동작 보상기(416)는 출력을 위해 제공되는 동작 벡터 MV에 의해 상기 선택된 예측 매크로블록을 확인한다. 만약, 상기 예측이 형성되는 상기 인코딩 예정 매크로블록이 기준 프레임내에 존재하면, 상기 동작 벡터 MV는 역시 상기 기준 프레임을 재구성하기 위한 상기 시간 인코더(460)의 디코더(440)에 의해 사용된다. 상기 감산기(404)는 상기 인코딩 예정 매크로블록의 대응 블록으로부터 상기 예측 매크로블록의 각 블록을 감산 처리한다. 스위치는 출력 B를 통해 상기 감산기(404)에서 출력된 예측 오류 매크로블록으로 구성된 블록들을 선택하거나 출력 A를 통해 상기 인코딩 예정 매크로블록으로 구성된 블록들을 선택한다. 상기 스위치는 적당한 정합 예측 매크로블록이 발견될 수 없거나, (슬라이스내 재생(intra-slice refresh)인 경우에서와 같이) 상기 매크로블록에 대해 공간 인코딩 결정이 내려지는 경우, I-프레임용의 인코딩 예정 매크로블록으로 구성된 블록 및 다른 프레임용의 인코딩 예정 매크로블록으로 구성된 블록들을 선택한다.

상기 선택된 블록들은 상기 이산 코사인 변환기(404)에서 이산 코사인 변환 처리된다. 각각의 계수들은 양자화 매트릭스 또는 양자화 단계 크기 즉 "양자화기 스케일 인자(quantizer scale factor)"와 같은 조절 가능한 양자화 파라미터를 사용하여 상기 양자화기(405)에서 양자화 처리된다. 상기 양자화 스케일 인자는 "q_scale_l"로 표시되는 파라미터를 사용하여 상기 양자화기 어댑터(420)에 의해 베이스 층용으로 특별히 조절된다. 그 결과로서 발생된 계수들은 일부 소정의(지그-재그 또는 교번 주사(alternate scan)에 따라 시퀀스로 주사된다.

상기 시간 인코더(460)의 상기 디코더(440)는 상기 베이스 층 압축 비디오 신호의 기준 프레임을 디코딩 처리한다. 상기 프레임의 상기 양자화된 베이스 층 매크로블록 계수들은 (상기 양자화기(406)와 동일한 q_scale_l와 같은 양자화기 파라미터를 사용하는) 탈양자화기(408)에서 탈양자화 처리된다. 탈양자화된 상기 계수들은 블록으로 역 주사된다. 상기 탈양자화 계수의 블록들은 상기 역 이산 코사인 변환기(410)에서 역 이산 코사인 변환 처리되어 픽셀의 블록(매크로블록)이 발생된다. 만약, 그에 따라 발생된 매크로블록이 사전에 미리 단지 공간적으로만 인코딩되었다면, 스위치는 출력 C를 통해 출력된 상기 매크로블록들을 선택한다. 그러나, 만약, 상기 매크로블록이 동작 보상 시간 인코딩 및 공간 인코딩 처리되었다면(즉, 예측 오류 매크로블록인 경우), 상기 디코딩된 예측 오류 매크로블록과 관련있는 동작 벡터 MV에 의해 확인된 적당한 예측 매크로블록은 상기 화상 메모리(414)로부터 검색된다. 그 결과의 합은 출력 D를 통해 출력되어 상기 스위치에 의해 선택된다. 상기 스위치에 의해 선택된 재구성 매크로블록은 그 상대적인 공간 위치(픽셀의 행 및 열) 및 시간 위치(그것이 대응하는 프레임)에 대응하는 적절한 화상 메모리(414)에 저장된다.

Q_l로 표시된 베이스 층 양자화 계수의 시퀀스, 상기 양자화기 스케일 파라미터 q_scale_l, 및 동작 벡터 MV는 물론, 다른 계층 플래그(hierarchical flags) 및 (시퀀스, 화상, 매크로블록, 층 헤더(layer headers) 및 플래그와 같은) 식별자들은 MPEG-1, MPEG-2, H.263등과 같은 기준에 따르는 베이스 층 압축 비디오 신호 LLV_l로 멀티플렉싱 처리된다.

상기 증강 인코더(470)를 사용하여 상기 증강 층 압축 비디오 신호 ELV_l를 발생시키는 것에 대해 이하에서 설명하기로 한다. 상기 탈양자화기(408)는 기준 프레임 및 비기준 프레임(non-reference frame)의 상기 베이스 층 매크로블록 양자화 계수 데이터 Q_l을 탈양자화 처리한다. 상기 역 이산 코사인 변환기(410)는 상기 탈양자화된 베이스 층 매크로블록 계수 데이터를 역 이산 코사인 변환 처리하여 픽셀 데이터로 구성된 매크로블록 및 예측 오류 매크로블록을 재구성한다. 만약, 그 결과로서 발생된 매크로블록이 단지 공간적으로만 인코딩되었다면, 상기 매크로블록은 상기 출력 C를 통해 상기 스위치에 의해 선택된다. 반면에, 만약, 상기 매크로블록이 동작 보상 시간 인코딩 및 공간 인코딩 처리된 예측 오류 매크로블록인 경우에는, 상기 예측 오류 매크로블록은 상기 가산기(412)에 출력 처리된다. 이를 위한 적절한 예측 매크로블록은 대응 동작 벡터 MV에 의해 확인된 것과 같이 상기 화상 메모리(414)로부터 검색된다. 상기 예측 매크로블록은 상기 예측 오류 매크로블록에 가산 처리되고 상기 출력 D를 통해 상기 스위치에 의해 선택된다.

상기 탈양자화기(408), 상기 역 이산 코사인 변환기(410), 상기 가산기(412) 및 상기 화상 메모리(414)MSS 상기 베이스 층 시간 인코더(460)의 상기 디코더(440)의 일부 구성 요소들임을 유념해야 한다. 상기 디코더(440)는 단지 기준 프레임상에서만 전술한 것과 동일한 기능을 수행한다. 그에 따라 재구성된 상기 기준 프레임은 예측 형성에 사용하기 위해 상기 화상 메모리(414)에 저장된다. 상기 베이스 층에서 동작 보상 시간 예측을 발생시키고 증강 층을 발생시키기 위한 디코딩 과정은 동시에 수행될 수 있다는 사실에 유념해야 한다. 즉, 상기 베이스 층의 모든 프레임은 상기 증강 층 인코더(470) 및 상기 베이스 층 시간 인코더(460)에서 사용하기 위해 한번에 재구성된다. 그러나, 기준 프레임만이 상기 화상 메모리(414)에 저장되고 이 기준 프레임은 실제로 상기 베이스 층 시간 인코더(460)에서 시간 동작 보상 예측 형성을 위해 사용된다.

각각의 매크로블록이 상기 스위치에 의해 선택되고 (상기 화상 메모리(414)에 저장됨)에 따라, 상기 선택된 매크로블록은 상기 감산기(418)로 출력 처리된다. 또한, 상기 감산기(418)는 상기 입력 비디오 신호 V로부터 상기 시간 및 공간 정렬된 최초 버전의 동일 매크로블록을 수신하고 차 매크로블록(difference macroblock)을 발생시킨다. 또 다른 방법으로서, 상기 입력 비디오 신호는 최초 매크로블록 MB(x,y,t)(여기서, x는 상기 최초 매크로블록 MB(x,y,t)의 수평 픽셀 위치이고, y는 상기 최초 매크로블록 MB(x,y,t)의 수직 픽셀 위치이며, t는 상기 최초 매크로블록 MB(x,y,t)을 포함하는 최초 비디오 신호의 특정 프레임(또는 화상)을 나타냄)으로 형성된다. 각각의 최초의 매크로블록 MB(x,y,t)은 베이스 층 인코딩 매크로블록 MB_LLV(x,y,t)로 인코딩 처리된다. 상기 베이스 층 인코딩 매크로블록 MB_LLV(x,y,t)은 디코딩 처리되어 재구성된 매크로블록 MB_DVL(x,y,t)을 형성한다. 상기 감산기(418)는 상기 최초 매크로블록 MB(x,y,t)으로부터 상기 재구성 매크로블록 MB_DVL(x,y,t)을 감산 처리하여 차 매크로블록 MB_d(x,y,t)가 형성된다(여기서, MB_d(x,y,t)=MB(x,y,t)-MB_DVL(x,y,t)). 이러한 감산 처리과정은 각각의 x,y,t에 대해 상기 최초 입력 비디오 신호 V의 각각의 최초 매크로블록을 위해 수행된다. 상기 감산기(418)에 의해 수행되는 감산 과정은 픽셀-픽셀 구조에 기초하여 통상적인 매트릭스 수리과정에 따라 수행된다. 따라서, 행, 열 및 화상은 MB_DVL(x,y,t)을 감산한 MB(x,y,t)의 대응 픽셀 및 MB_DVL(x,y,t)의 각각의 픽셀의 경우에 동일하다.

또 다른 경우, 상기 베이스 층 압축 비디오 신호 LLV_l 로부터 재구성된 각 프레임(화상)으로 구성된 각 매크로블록의 각 픽셀은 상기 신호 LLV_l을 감산한 최초 비디오 신호 V와 공간 및 시간적으로 정렬된다.

이러한 방식으로 형성된 차 매크로블록은 상기 이산 코사인 변환기(404)에서 이산 코사인 변환 처리되어 차 매크로블록 계수 데이터가 발생된다. 이렇게 형성된 차 매크로블록 계수는 상기 양자화기(406)에 의해 양자화 처리되고 (시퀀스로 주사된다). 일반적으로 q_scale_l과는 다른 양자화 스케일 파라미터 "q_scale_e"는 상기 양자화 어댑터(420)에서 상기 양자화기(406)으로 출력되어 양자화 과정을 제어하게 된다. Q_e로 표시되는 상기 양자화 차 매크로블록 계수 및 파라미터 q_scale_e는 증강 층 압축 비디오 tgls호 ELV_l로 형성된다. 그러한 스트림을 형성함에 있어, 상기 양자화 차 매크로블록 계수는 엔트로피 인코딩(예컨대, 실행 레벨의 가변 길이 인코딩) 처리된다. 추가의 인디케이터 및 플래그 정보(예컨대, 화상, 시퀀스, 매크로블록 헤더 및 플래그)는 증강 층 스트림속에 삽입될 수도 있다. 상기 추가의 인디케이터 및 플래그 정보에 대해 엄격하게 규정하고 있지 않은 구문 및 의미가 본 명세서에서 제공되고 있지만, (상기 베이스 층 압축 비디오 신호와 달리, MPEG-1, MPEG-2, H.263등과 같은 공지된 종래의 표준에 따라 엄격하게 규정되는 것은 없음) 상기 베이스 층 압축 비디오 신호 또는 일부 다른 형태의 증강 층 압축 비디오 신호(공간, SNS, 시간 또는 데이터 분할 크기조정성)에서 사용되는 것과 유사한 구문 및 의미가 상기 증강 층 압축 비디오 신호 ELV_l에서 사용될 수도 있다. 이러한 구문 및 의미는 당업계에서 통상의 기술속에 내포되어 있으므로 본 명세서에서는 설명하지 않는다.

상기 증강 층 압축 비디오 신호 ELV_l를 인코딩하기 위해서는 동작 보상 및 시간 예측이 사용되지 않는다는 사실에 유념해야 한다.

오히려, 동작 보상 시간 디코딩 과정은 상기 베이스 층 압축 비디오 신호 LLV_l를 디코딩하는데 사용되고, 상기 디코딩 비디오 신호는 시간 및 공간 정렬 방식으로 상기 최초 비디오 신호 V로부터 감산 처리되어 차 비디오 신호를 형성하게 된다. 이때, 상기 차 비디오 신호는 공간적으로만 인코딩 처리된다. 그로서, 상기 인코더(400)은 상기 증강 층 압축 비디오 신호 ELV_l를 디코딩하는데 필요하지 않고, 상기 증강 층 압축 비디오 신호 ELV_l로부터 재구성된 프레임(화상)을 위해 상기 화상 메모리(414)에서 메모리 공간이 할당될 필요가 없다. 상기 베이스 층 및 증강 층 압축 비디오 신호를 구성한 후, 상기 인코더(400)는 이들 두 개의 신호가 용이하게 구별되고 디멀티플렉싱(demultiplexed) 처리되는 방식으로 상기 두 신호를 멀티플랙싱 처리한다.

상기 디코더(500)는 상기 원격 발신(충실도가 낮은)베이스 층 압축 비디오 신호 LLV_r를 디코딩하기 위해 전술한 공지된 방식에 따라 동작할 수 있다. 또한, 상기 디코더(500)는 상기 국부 발신 베이스 및 증강 층 압축 비디오 신호 LLV_l 및 ELV_l를 다음과 같이 디코딩 처리한다.

도 7은 본 발명에 따른 디코더(500)의 상세한 구성을 도시한 블록도이다. 상기 베이스 층 압축 비디오 신호 및 상기 증강 층 압축 비디오 신호를 포함하는 비트스트림은 상기 디멀티플렉서(demultiplexer)(502)에 의해 디멀티플렉싱 과정을 거친다. 상기 디멀티플렉서(502)는 베이스 층 압축 비디오 신호 LLV_l을 발생시켜 상기 송수신기(320)(도 5 참조)에 출력할 수 있다. 또한, 상기 디멀플렉서(502)는 상기 베이스 층 및 증강 층 압축 비디오 신호 LLV_l 및 ELV_l의 엔트로피 인코딩된 양자화 계수 신호, 상기 동작 벡터 MV, 및 상기 베이스 층 및 증강 층 압축 비디오 신호의 상기 양자화기 스케일 파라미터 q_scale_l 및 q_scale_e을 각각 구별해낸다.

상기 베이스 층 및 증강 층 압축 비디오 신호의 상기 엔트로피 인코딩된 양자화 계수는 엔트로피(실행 레벨의 가변 길이)디코더(504)에 입력처리된다.

상기 엔트로피 디코더(504)는 증강 층 압축 비디오 신호의 양자화 차 매크로블록 계수 Q_e 및 베이스 층 압축 비디오 신호의 상기 양자화 매크로블록 및 예측 오류 매크로블록 계수 Q_l를 발생시킨다. 상기 양자화 차 매크로블록 계수 Q_e 및 상기 양자화 매크로블록 및 예측 오류 매크로블록 계수 Q_l는 탈양자화기(506)에 입력 처리된다. 또한, 상기 양자화기 스케일 파라미터 q_scale_l 및 q_scale_e역시 상기 탈양자화기(506)에 입력 처리된다. 상기 양자화기 스케일 파라미터 q_scale_e를 사용하면, 상기 탈양자화기(506)는 상기 양자화 차 매크로블록 계수 Q_e를 탈양자화 처리하여 상기 탈양자화 차 매크로블록 계수(dequantized difference macroblock coefficients)를 발생시킨다. 상기 양자화기 스케일 파라미터 q_scale_l을 사용하면, 상기 탈양자화기(506)는 상기 양자화 매크로블록 및 예측 오류 매크로블록 계수 Q_l을 탈양자화 처리하여 상기 탈양자화 매크로블록 및 예측 오류 매크로블록 계수(dequantized macroblock and prediction error macroblock coefficients)를 발생시킨다. 상기 신호의 탈양자화 계수 Q_e 및 Q_l는 예정된 순서에 따라 주사되어 차 매크로블록, 매크로블록 및 예측 오류 매크로블록으로 구성된 탈양자화 블록이 발생된다. 이때, 상기 탈양자화된 블록들은 상기 역 이산 코사인 변환기(508)에서 역 이산 코사인 변환처리되어 공간 디코딩 차 매크로블록, 매크로블록 및 예측 오류 매크로블록이 발생된다.

상기 디코딩 베이스 층 비디오 신호는 다음과 같이 형성된다. 각각의 공간 디코딩 매크로블록은 출력 C를 경유하여 스위치를 통해 재구성된 매크로블록으로서 출력 처리된다. 각각의 공간 디크딩 예측 오류 매크로블록은 가산기(550)에 출력 처리된다. 상기 공간 디코딩 예측 오류 매크로블록과 관련이 있는 하나 이상의 동작 벡터 MV는 이에 대응하는 예측 매크로블록을 검색하기 위한 목적으로 화상 메모리(512)에 출력 처리된다. 상기 검색된 예측 매크로블록은 상기 가산기(510)에 출력된다. 상기 가산기(510)는 상기 예측 오류 매크로블록을 상기 검색된 예측 매크로블록에 가산처리하여 재구성된 매크로블록을 형성한다. 상기 재구성된 매크로블록은 출력 D를 경유하여 상기 스위치를 통해 출력된다. 기준 프레임의 각각의 재구성 매크로블록은 상기 화상 메모리(512)에 저장된다.

각각의 공간 디코딩 차 매크로블록은 상기 역 이산 코사인 변환기(508)에서 상기 가산기(514)로 출력 처리된다. 상기 가산기(514)는 상기 각각의 공간 디코딩 차 매크로블록을 상기 베이스 층 압축 비디오 신호로부터 재구성된 그 대응 공간 및 시간 정렬 매크로블록에 가산 처리하여 상기 스위치를 통해 출력된다. 그 결과로서 발생된 매크로블록의 합은 상기 디코딩 증강 층 비디오 신호 DVE_l의 증강 재구성 매크로블록이 된다. 상기 증강 재구성 매크로블록은, 상기 디코딩 증강 층 비디오 신호 DVE_l의 전체 프레임이 디코딩 처리될 때 까지, 디스플레이 버퍼(도시 생략됨)에 임시로 저장될 수도 있다. 이때, 신호 DVE_l의 디코딩 프레임이 표시될 수 있다.

이하에 도시된 표1은 베이스 층 압축 비디오 신호로부터 재구성된 비디오 신호의 선택된 프레임의 크로미넌스 및 휘도(chrominance and luminance) 성분에 대한 신호대 잡음 비율을 나타낸 것이다. 도 1은 비디오 신호, 프레임 방식, 및 "Intra MB"로 표시되고 공간적으로만 인코딩되거나, 각 프레임에 대해 " Inter MB"로 표시되고 공간 및 시간적으로 인코딩되는 매크로블록의 수로 구성되는 각 프레임을 전송하는데 필요한 비트 전송율으 나타낸 것이다. 각 프레임은 99개의 매크로블록을 갖는다. 양자화 계수는 P(또는 B)프레임의 각 매크로블록에 대해 제공될 필요가 없다. 만약, 상기 예측 오류 매크로블록이 0 값의 계수만을 포함하고 있다면, 상기 매크로블록을 위한 상기 압축 비디오 신호속에는 계수 데이터가 존재하지 않는다. 그 대신, 디코딩 처리된 매크로블록이 예측 매크로블록으로서 재구성된다.

표 2는 본 발명에 따라 증강 층 압축 비디오 신호를 이용하여 구성된 비디오 신호의 유사 시뮬레이션 결과를 도시한 표이다.

이상에서 알수 있는 바와 같이, 상기 디코딩 증강 층 비디오 신호 DVE에서의 휘도 신호대 잡음 비율은 상기 디코딩 베이스 층 비디오 신호 DVL의 경우에서 보다 약 15 dB 더 높다. 이와 마찬가지로, 상기 디코딩 증강 층 비디오 신호 DVE에서의 크로미넌스 신호대 잡음 비율은 상기 디코딩 베이스 층 비디오 신호 DVL의 경우에서 보다 약 8-10 dB 더 높다. 비디오 대역폭 요건을 위해서는 상기 베이스 층 압축 비디오 신호 LLV_l의 경우의 30.98 kbps에서 상기 증강 및 베이스 층 압축 비디오 신호 ELV_l 및 LLV_l의 경우의 798 kbps로 증가해야 한다. 상기 증가된 대역폭 요건은 최근의 모뎀 기술하에서 통상적으로 평이한 전화 시스템의 전화선을 이용한 접속시 필요한 대역폭보다 더 크다. 그러나, 상기 증가된 대역폭 요건은 상기 USB의 최대 12Mbps 대역폭내에 있다.

지금까지, 특정의 바람직한 실시예및 그 대체 실시예와 관련하여 본 발명이 상세히 개시되고 설명되었지만, 상기 본 발명에 대한 개시는 단지 본 발명의 적용예에 불과한 것이고, 본 발명을 수행하기 위한 최상 모드로서 본 명세서에 개시된 특정 실시예에 국한되는 것은 아니다.

또한, 하기 특허청구의 범위에 의해 마련되는 본 발명의 정신이나 분야를 일탈하지 않는 범위내에서 본 발명이 다양하게 개조및 변경될 수 있다는 것을 당업계에서 통상의 지식을 가진자라면 용이하게 이해할 수 있을 것이다.

Claims

로컬 모니터 및 원격 모니터상에 비디오를 표시하는 방법에 있어서, (a) 비디오 신호를 제공하는 단계와;

(b) 상기 비디오 신호를 인코딩 처리하여 제 1 압축 비디오 신호를 발생시키는 단계와;

(c) 상기 제 1 압축 비디오 신호를 이용하여 상기 비디오 신호를 인코딩 처리하여 제 2 압축 비디오 신호를 발생시키는 단계와;

(d) 상기 제 1 및 제 2 압축 비디오 신호를 로컬 터미널에 전송하는 단계와;

(e) 상기 로컬 터미널에서, 상기 제 1 및 제 2 압축 비디오 신호를 디코딩 처리하여 제 1 및 제 2 디코딩 비디오 신호를 발생시키고, 상기 제 1 및 제 2 디코딩 비디오 신호의 조합으로부터 상기 비디오 신호의 제 1 디코딩 버전을 복구하는 단계와;

(f) 통신 채널을 통해 원격 터미널에 상기 제 1 압축 비디오 신호만을 전송하여 상기 원격 터미널이 단지 상기 제 1 압축 비디오 신호로부터만 상기 비디오 신호의 제 2 디코딩 버전을 복구할 수 있게 하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 단계(c)는

(c1) 상기 제 1 압축 비디오 신호를 디코딩 처리하여 상기 제 1 디코딩 비디오 신호를 발생시키는 단계와;

(c2) 상기 제 1 디코딩 비디오 신호를 상기 비디오 신호로부터 감산하여 차 비디오 신호를 발생시키는 단계와;

(c3) 상기 차 비디오 신호를 공간적으로만 인코딩하여 상기 제 2 비디오 신호를 발생시키는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서,

상기 단계(c2)에서, 상기 제 1 디코딩 비디오 신호의 각 픽셀은 그와 공간 및 시간적으로 정렬되는 상기 비디오 신호의 픽셀로부터 감산 처리되는 것을 특징으로 하는 방법.
제 2 항에 있어서,

상기 단계(c1)는

(c1a) 상기 제 1 압축 비디오 신호의 각각의 매크로블록 및 각각의 예측 오류 매크로블록를 공간적으로 디코딩 처리하는 단계와;

(c1b) 상기 예측 오류 매크로블록과 관련한 적어도 하나의 동작 벡터를 사용하여 상기 예측 매크로블록을 확인하고 상기 확인된 예측 매크로블록을 상기 공간 디코딩된 예측 오류 매크로블록에 가산함으로써, 상기 각각의 공간 디코딩된 예측 오류 매크로블록을 시간적으로 디코딩 처리하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서,

상기 단계(b)는 상기 제 1 압축 비디오 신호와 관련한 제 1 양자화 스케일 파라미터를 이용하여 상기 비디오 신호를 양자화하는 단계를 포함하고, 상기 단계(c3)는 상기 제 2 압축 비디오 신호와 관련한 제 2 양자화 스케일 파라미터를 이용하여 상기 차 비디오 신호를 양자화하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

(c1) 상기 단계(d) 이전에, 상기 제 1 및 제 2 압축 비디오 신호를 함께 멀티플렉싱 처리하는 단계와; (d1) 상기 단계(e) 이전에, 상기 제 1 및 제 2 비디오 신호를 상기 로컬 터미널에서 디멀티플렉싱 처리하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

(f) 상기 로컬 터미널의 상기 원격 터미널로부터 제 3 압축 비디오 신호를 수신하는 단계와;

(g) 상기 디코딩된 제 3 비디오 신호를 얻기 위해 상기 제 3 압축 비디오 신호를 디코딩 처리하는 단계와;

(h) 상기 디코딩된 제 3 비디오 신호 및 상기 제 1 디코딩 버전의 상기 비디오 신호를 동일한 디스플레이 화면상에 표시하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 7 항에 있어서,

상기 제 1 디코딩 버전의 상기 비디오 신호는 상기 디스플레이 화면의 제 1 부분상에 표시되고 국부 발신 화상을 나타내고, 상기 디코딩된 제 3 비디오 신호는 상기 디스플레이 화면의 제 2 부분상에 표시되고 원격 발신 화상을 나타내는 것을 특징으로 하는 방법.
제 7 항에 있어서,

(i) 상기 원격 터미널의 오디오 신호를 상기 로컬 터미널에서 수신하는 단계와;

(j) 상기 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 발생시키는 단계와;

(k) 상기 오디오 신호를 상기 로컬 터미널에 표시하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
로컬 모니터 및 원격 모니터상에 비디오를 표시하는 장치에 있어서,

(a) 비디오 신호를 제공하기 위한 비디오 신호 소스와;

(b) 상기 비디오 신호 소스에 연결되고, 상기 비디오 신호를 인코딩하여 제 1 압축 비디오 신호를 발생시키고, 상기 비디오 신호를 인코딩하기 위한 상기 제 1 압축 비디오 신호를 이용하여 제 2 압축 비디오 신호를 발생시키는 인코더와;

(c) 로컬 터미널에 배치되고 상기 인코더에 연결되며, 상기 제 1 압축 비디오 신호를 디코딩 처리하여 제 1 디코딩 비디오 신호를 발생시키고, 상기 제 2 압축 비디오 신호를 디코딩 처리하여 제 2 디코딩 비디오 신호를 발생시키며, 상기 제 1 및 제 2 디코딩 비디오 신호를 조합하여 제 1 디코딩 버전의 상기 제 1 비디오 신호를 발생시키는 디코더와;

(d) 상기 제 1 압축 비디오 신호만을 원격 터미널에 전송하여 상기 원격 터미널이 단지 상기 제 1 압축 비디오 신호로부터만 상기 비디오 신호의 제 2 디코딩 버전을 복구할 수 있게 하는 송신기를 구비하는 것을 특징으로 하는 장치.
제 10 항에 있어서,

상기 인코더는

상기 제 1 디코딩 비디오 신호를 발생시키기 위해 상기 제 1 압축 비디오 신호를 디코딩하는 제 2 디코더와;

상기 비디오 신호 소스 및 상기 제 2 디코더에 연결되고, 상기 제 1 디코딩 비디오 신호를 상기 비디오 신호로부터 감산하여 차 비디오 신호를 발생시키는 감산기와;

상기 감산기에 연결되고 상기 제 2 비디오 신호를 발생시키기 위해 상기 차 비디오 신호를 공간적으로만 인코딩하는 공간 인코더를 추가로 구비하는 것을 특징으로 하는 장치.
제 11 항에 있어서,

상기 감산기는 상기 제 1 디코딩 비디오 신호의 각 픽셀을 상기 비디오 신호의 공간 및 시간 정렬 픽셀로부터 감산 처리하는 것을 특징으로 하는 장치.
제 11 항에 있어서,

상기 제 2 디코더는

상기 제 1 압축 비디오 신호의 각 매크로블록 및 각 예측 오류 매크로블록을 공간적으로 디코딩 처리하는 공간 디코더와;

상기 예측 오류 매크로블록과 관련한 적어도 하나의 동작 벡터를 이용하여 각 공간 디코딩 예측 오류 매크로블록을 위한 예측 매크로블록을 확인하는 화상 메모리와;

상기 확인된 예측 매크로블록을 상기 공간 디코딩 예측 오류 매크로블록에 가산 처리하는 가산기를 추가로 구비하고,

상기 화상 메모리 및 상기 가산기는 상기 제 1 압축 비디오 신호의 각 예측 오류 매크로블록을 시간적으로 디코딩 처리하는 것을 특징으로 하는 장치.
제 11 항에 있어서,

상기 제 1 압축 비디오 신호와 관련한 제 1 양자화 스케일 파라미터를 이용하여 상기 비디오 신호를 양자화하고, 상기 제 2 압축 비디오 신호와 관련한 제 2 양자화 스케일 파라미터를 이용하여 상기 차 비디오 신호를 양자화하는 양자화기를 추가로 구비하는 것을 특징으로 하는 장치.
제 10 항에 있어서,

상기 인코더는 상기 제 1 및 제 2 압축 비디오 신호를 함께 멀티플렉싱 처리하고, 상기 디코더는 상기 제 1 및 제 2 비디오 신호를 상기 로컬 터미널에서 디멀티플렉싱 처리하는 것을 특징으로 하는 장치.
제 10 항에 있어서,

상기 로컬 터미널의 상기 원격 터미널로부터 제 3 압축 비디오 신호를 수신하는 수신기와;

상기 로컬 터미널에 배치되는 디스플레이 화면을 추가로 구비하고,

상기 디코더는 디코딩된 제 3 비디오 신호를 얻기 위해 상기 제 3 비디오 신호를 디코딩 처리하고, 상기 디스플레이 화면에는 상기 디코딩된 제 3 비디오 신호 및 상기 제 1 디코딩 버전의 상기 비디오 신호가 동시에 표시되는 것을 특징으로 하는 장치.
제 16 항에 있어서,

상기 제 1 디코딩 버전의 상기 비디오 신호는 상기 디스플레이 화면의 제 1 부분상에 표시되고 국부 발신 화상을 나타내고, 상기 디코딩된 제 3 비디오 신호는 상기 디스플레이 화면의 제 2 부분상에 표시되고 원격 발신 화상을 나타내는 것을 특징으로 하는 장치.
제 10 항에 있어서,

오디오 신호를 상기 로커 터미널의 상기 원격 터미널로부터 수신하는 수신기와;

디코딩된 오디오 신호를 얻기 위해 상기 오디오 신호를 디코딩 처리하는 오디오 디코더와;

상기 오디오 신호를 상기 로컬 터미털에 나타내는 스피커를 추가로 구비하는 것을 특징으로 하는 장치.
비디오 신호를 인코딩 처리하는 방법에 있어서,

(a) 발신 화상 시퀀스를 포함하는 비디오 신호를 제공하는 단계와;

(b) 적어도 상기 비디오 신호의 일부분을 선택적으로 시간적으로 동작 보상하고 상기 비디오 신호를 공간적으로 인코딩 처리하는 단계를 포함하고, 제 1 압축 비디오 신호를 발생시키기 위해 상기 비디오 신호를 인코딩 처리하는 단계와:

(c) 상기 제 1 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여 디코딩된 표시 가능한 화상을 포함하는 디코딩 비디오 신호를 발생시키는 단계와;

(d) 차 비디오 신호를 형성하기 위해 상기 비디오 신호의 최초 화상의 대응하는 공간 및 시간 정렬 픽셀로부터 상기 디코딩 비디오 신호의 각 화상 픽셀을 감산 처리하는 단계와;

(e) 제 2 압축 비디오 신호를 발생시키기 위해 상기 차 비디오의 각 화상에 대해 공간적으로만 인코딩하는 과정을 이용하여 상기 차 비디오 신호를 인코딩 처리하는 단계를 포함하는 것을 특징으로 하는 방법.
제 19 항에 있어서,

상기 단계(b)는 상기 제 1 압축 비디오 신호와 관련한 제 1 양자화 스케일 파라미터를 이용하여 상기 비디오 신호를 양자화하는 단계를 추가로 포함하고, 상기 단계(e)는 상기 제 2 압축 비디오 신호와 관련한 제 2 양자화 스케일 파라미터를 이용하여 상기 비디오 신호를 양자화하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
비디오 신호를 인코딩 하는 장치에 있어서,

최초 화상의 시퀀스를 포함하는 비디오 신호를 제공하는 비디오 신호 소스와;

상기 비디오 신호를 시간적으로 동작 보상 인코딩 처리하는 시간 인코더와;

제 1 압축 비디오 신호를 발생시키기 위해 상기 제 1 압축 비디오 신호를 공간 및 시간적으로 동작 보상 디코딩 처리하는 디코더와; 상기 디코딩 비디오 신호의 각 화상 픽셀을 상기 비디오 신호의 최초 화상의 대응하는 공간 및 시간 정렬 픽셀로부터 감산 처리하여 차 비디오 신호를 형성하는 감산기를 구비하고, 상기 공간 인코더는, 상기 차 비디오 신호를 공간적으로만 압축함으로써 제 2 압축 비디오 신호가 발생하도록 상기 감산기와 함께 상기 차 신호를 인코딩 처리는 것을 특징으로 하는 장치.
제 21 항에 있어서, 상기 공간 인코더는 상기 제 1 압축 비디오 신호 발생시 상기 제 1 압축 비디오 신호와 관련한 제 1 양자화 스케일 파라미터를 이용하여 계수들을 양자화하고, 상기 제 2 압축 비디오 신호 발생시 상기 제 2 압축 비디오 신호와 관련한 제 2 양자화 스케일 파라미터를 이용하여 계수들을 양자화하는 양자화기를 추가로 구비하는 것을 특징으로 하는 장치.
재현된 비디오 신호를 표시하는 방법에 있어서,

(a) 제 1 및 제 2 압축비디오 신호들을 수신하는 단계와,

(b) 상기 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여 제 1 디코딩 비디오 신호를 발생시키는 단계와,

(c) 제 1 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여 제 1 압축해제 비디오 신호를 발생시키고, 상기 제 2 압축 비디오 신호를 공간적으로 디코딩하여 공간적으로만 디코딩 처리된 제 2 디코딩 비디오 신호를 발생시키는 단계와,

(d) 공간적으로만 디코딩 처리된 상기 제 2 디코딩 비디오 신호의 각 화상 픽셀을 그 화상 픽셀과 공간 및 시간적으로 정렬되는 상기 제 1 디코딩 비디오 신호의 대응 화상 픽셀에 가산하여 제 3 디코딩 비디오 신호를 재현하는 단계와,

(e) 상기 제 3 디코딩 비디오 신호를 표시하는 단계를 포함하는 것을 특징으로 하는 재현 비디오 신호 표시 방법.
제 23 항에 있어서,

상기 단계 (b)는 상기 제 1 압축 비디오 신호와 관련된 제 1 양자화 스케일 파라미터를 사용하여 상기 비디오 신호를 역 양자화시키는 단계를 추가로 포함하고, 상기 단계 (c)는 상기 제 2 압축 비디오 신호와 관련된 제 2 양자화 스케일 파라미터를 사용하여 상기 차 비디오 신호를 역 양자화시키는 단계를 추가로 포함하는 것을 특징으로 하는 재현 비디오 신호 표시 방법.
제 23 항에 있어서,

상기 제 1 디코딩 비디오 신호의 선택된 기준 화상들이 상기 제 1 압축 비디오 신호의 다른 화상들을 예측하기 위해 저장되나, 상기 제 2 디코딩 비디오 신호는 상기 제 2 압축 비디오 신호의 화상 예측을 목적으로 저장되는 화상을 갖지 않는 것을 특징으로 하는 재현 비디오 신호 표시 방법.
재현된 비디오 신호를 표시하기 위한 장치에 있어서,

제 1 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여 제 1 압축해제 비디오 신호를 발생시키고, 제 2 압축 비디오 신호를 공간적으로 디코딩하여 공간적으로만 디코딩 처리된 제 2 디코딩 비디오 신호를 발생시키는 디코더와,

공간적으로만 디코딩 처리된 상기 제 2 디코딩 비디오 신호의 각 화상 픽셀을 그 화상 픽셀과 공간 및 시간적으로 정렬되는 상기 제 1 디코딩 비디오 신호의 대응 화상 픽셀에 가산하여 디코딩 비디오 신호를 재현하는 가산기와,

상기 디코딩 비디오 신호를 표시하는 디스플레이 스크린을 포함하는 것을 특징으로 하는 재현 비디오 신호 표시 장치.
제 26 항에 있이서, 상기 디코더는 상기 제 1 압축 비디오 신호와 관련된 제 1 양자화 스케일 파라미터를 사용하여 상기 제 1 압축 비디오 신호를 역 양자화시키고, 상기 제 2 압축 비디오 신호와 관련된 제 2 양자화 스케일 파라미터를 사용하여 상기 제 2 압축 비디오 신호를 역 양자화시키는 역 양자화기를 추가로 포함하는 것을 특징으로 하는 재현 비디오 신호 표시 장치.
제 26 항에 있어서, 상기 제 1 디코딩 비디오 신호의 선택된 기준 화상들을 상기 제 1 압축 비디오 신호의 다른 화상들을 예측하기 위해 저장하고, 상기 제 2 압축 비디오 신호의 화상 예측을 목적으로 상기 제 2 디코딩 비디오 신호의 화상들이 저장되지 않게 구성된 메모리를 추가로 포함하는 것을 특징으로 하는 재현 비디오 신호 표시 장치.
비트스트림에 있어서,

(a) 원래의 화상 시퀀스를 포함하는 비디오 신호를 제공하는 단계와,

(b) 상기 비디오 신호를 인코딩하여 제 1 압축 비디오 신호를 발생시키는 단계로서, 상기 비디오 신호의 최소한 일부를 선택적으로 시간적으로 동작 보상시킴과 동시에 상기 비디오 신호를 공간적으로 압축하는 단계를 포함하는 단계와,

(c) 상기 제 1 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여, 디코딩된 표시가능한 화상들을 포함하는 디코딩 비디오 신호를 발생시키는 단계와,

(d) 상기 디코딩 비디오 신호의 각 화상 픽셀을 그 화상 픽셀과 공간 및 시간적으로 정렬되는 상기 디코딩 비디오 신호에 대한 원래의 대응 화상 픽셀로부터 감산하여 차 비디오 신호를 형성하는 단계와,

(e) 상기 차 비디오 신호의 각 화상에 대한 공간 압축만을 이용하여 상기 차 비디오 신호를 인코딩하여 제 3 압축 비디오 신호를 발생시키는 단계에 의해 형성된 비트 스트림.
디코딩처리된 비디오 신호에 있어서,

(a) 제 1 및 제 2 압축 비디오 신호들을 수신하는 단계와,

(b) 상기 제 1 압축 비디오 신호를 공간적으로 디코딩함과 동시에 시간적으로 동작 보상 디코딩하여 제 1 압축해제 비디오 신호를 발생시키는 단계와,

(c) 상기 제 2 압축 비디오 신호를 공간적으로 디코딩하여 공간적으로만 압축해제된 제 2 압축해제 비디오 신호를 발생시키는 단계와,

(d) 공간적으로만 디코딩 처리된 상기 제 2 압축해제 비디오 신호의 각 화상 픽셀을 그 화상 픽셀과 공간 및 시간적으로 정렬되는 상기 제 1 압축해제 비디오 신호의 대응 화상 픽셀에 가산하여 디코딩 비디오 신호를 재현하는 단계에 의해 형성된 디코딩 비디오 신호.