KR100481572B1

KR100481572B1 - Atv에서의시간및해상도계층화

Info

Publication number: KR100481572B1
Application number: KR10-1998-0705826A
Authority: KR
Inventors: 개리 이. 데모스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 1996-01-30
Filing date: 1997-01-24
Publication date: 2005-07-25
Also published as: SG79277A1; US5988863A; CN100352285C; JP4225518B2; CA2245172A1; KR19990082104A; CA2245172C; EP1012738A1; EP1012738A4; CN1219255A; WO1997028507A1; JP2001500674A; US5852565A

Abstract

본 발명에 따르면, 높은 프레임 레이트에서도 고품질로 1000 주사선을 넘는해상도의 영상 압축을 확실히 달성하는 영상 압축 방법 및 장치가 제공된다. 이어서, MPEG-2 데이터 스트림이 생성된다. 이 데이터 스트림은,

(1) 양호하게는 MPEG-2 P 프레임만을 이용하여 인코딩되고, 해상도가 낮고(예컨대, 1O24× 512 픽셀) 프레임 레이트가 낮은 (24 또는 36 Hz) 비트 스트림을 포함하는 기본 계층(base layer, 100)과, (2) 선택 사양으로서, MPEG-2 B프레임만을 이용하여 인코딩되며, 해상도가 낮고(예컨대, 1O24× 512 픽셀) 프레임 레이트가 높은 (72 Hz) 비트 스트림을 포함하는 기본 해상도 및 시간 보강 계층(base resolution temporal enhancement layer, 102)과, (3) 선택 사양으로서, 양호하게는 MPEG-2 P 프레임만을 이용하여 인코딩되며, 해상도가 높고(예컨대, 2k× 1k 픽셀) 프레임 레이트가 낮은 (24 또는 36 Hz) 비트 스트림을 포함하는 기본 시간 및 고해상도 보강 계층(base temporal high resolution enhancement layer, 104)과, (4) 선택 사양으로서, MPEG-2 B 프레임만을 이용하여 인코딩되며, 해상도가 높고(예컨대, 2k× 1k 픽셀) 프레임 레이트도 높은 (72 Hz) 비트 스트링을 포함하는 고해상도 및 시간 보강 계층(high resolution temporal enhancement layer, 106)을 포함하고 있다.

Description

ATV에서의 시간 및 해상도 계층화

본 발명은 전자 통신 시스템에 관한 것으로서, 보다 구체적으로는, 압축 영상 프레임의 시간 및 해상도를 계층화한 ATV 전자 시스템에 관한 것이다. (본 명세서에서 ATV(Advanced TeleVision)라 함은, 미연방 통신위원회에 의해 방송 채널과 케이블 TV 상에 비디오 및 오디오 정볼르 디지털로 전송하는 디지털 TV에 붙여진 이름이다.)

현재, 미국에서는 텔레비전 전송에 NTSC 표준 방식을 사용하고 있다. 그러나, 이 NTSC 표준 방식을 ATV 표준 방식으로 대체하자는 제안이 있었다. 예를 들어, 본 명세서의 작성에 즈음하여, ATV 서비스 자문 위원회(ACATS: Advisory Committee on Advanced Television Service)에 의해, 미국에서 24 Hz, 30 Hz, 60 Hz 및 인터레이스된 60 Hz(60 Hz interlaced)의 레이트(rate)를 갖는 디지털 표준-선명도(standard-definition) 형식 및 ATV 형식을 채택하고자 제안하였다. 이들 레이트가 고려된 것은, 기존의 60 Hz(또는 59.94 Hz)의 NTSC 텔레비전 표시 레이트(display rate)를 존손시키려는 (따라서, 이와 호환되도록 하려는) 의도임이 분명하다. 또한, 분명한 것은, "3-2 풀다운(pulldown)"은 초당 24 프레임(24 fps: 24 frame per second)의 시간 레이트(temporal rate)를 갖는 영화를 방영할 때 60 Hz의 디스플레이(display)에 표시하기 위해 고려되고 있다. 그러나, ACATS의 제안에서는 여러 가지 형식(format)들로 구성된 메뉴를 제공하여 그로부터 선택하도록 하고 있지만, 각각의 형식에서는 단일 해상도 및 프레임 레이트(frame rate)를 인코딩하고 디코딩하고 있을 뿐이다. 이들 형식의 표시 레이트(display rate) 또는 움직임 레이트(motion rate)는 서로간에 통일된 관련성이 없기(not integrally related) 때문에, 한 형식에서 다른 형식으로의 변환이 어렵다.

더욱이, 현행의 ACATS 제안에서는 컴퓨터 디스플레이와의 호환성이라는 중요한 기능을 제공하지 않는다. 이들 제안된 영상 움직임 레이트(image motion rate)는 20세기 초기까지 거슬러 역사상 실재했던 레이트들에 근거하고 있다. 만일 "백지 상태(clean-slate)"에서 시작했더라면, 이들 레이트를 선택하지 않았을지도 모른다. 컴퓨터 산업에서는 지난 십년 동안 디스플레이에 임의의 레이트를 이용할 수 있었으며, 70 내지 80 Hz 범위의 레이트가 최적이라는 것이 판명되었고, 그 중에서도 72 Hz 및 75 Hz가 가장 널리 사용되는 레이트이다. 불행하게도, ACATS에 의해 제안된 30 Hz 및 60 Hz의 레이트는 72 또는 75 Hz의 레이트와 유용하게 상호 운용할 수 없고, 그 결과 시간 성능(temporal performance)이 저하된다.

게다가, 몇몇 당업자에 의해 시사되고 있는 바이지만, 해상도가 약 1000 주사선이고 프레임 레이트(frame rate)가 높아야 하기 때문에, 프레임 인터레이스(frame interlace)가 필요하지만, 종래의 6 MHz 방송 텔레비전 채널의 이용 가능한 18-19 메가비트/초 이내에 이러한 영상을 압축할 수 없다고 생각되고 있다.

요망되는 표준 방식 및 고선명의 해상도를 그 안에 포함하는 단일 신호 형식이 채택된다면, 훨씬 더 바람직했을 것이다. 그러나, 종래의 6 MHz 방송 텔레비전 채널이라는 대역폭의 제약 내에서 이와 같은 하기 위해서는, 프레임 레이트(시간) 및 해상도(공간) 양쪽 모두의 압축[또는 "스켈러빌리티(scalability)"]을 필요로 한다. 특별히 이러한 스케러빌리티를 제공하는 것을 목적으로 하는 한 가지 방법이 MPEG-2 표준이다. 그러나 불행하게도, MPEG-2 표준 내에 규정되어 있는 시간 및 공간의 스켈러빌리티 기능은 미국의 ATV의 요구 사항들을 만족시킬 정도로 충분히 효율적이지 못하다. 이와 같이, 미국의 ATV에 대한 현행의 ACATS 제안에서는, 시간(프레임 레이트) 및 공간(해상도) 계층화의 효율의 나쁘기 때문에, 형식을 불연속으로 할 수 밖에 없다는 전제에 기초를 두고 있다.

본 발명은 ACATS 제안의 이들 및 다른 문제점들을 극복한다.

도 1은 60 Hz로 표시되는 24 fps 및 36 fps 자료의 풀다운 레이트(pulldown rate)를 나타낸 타이밍도.

도 2는 제1의 양호한 MPEG-2 인코딩 패턴(coding pattern)을 나타낸 도면.

도 3은 제2의 양호한 MPEG-2 인코딩 패턴을 나타낸 도면.

도 4는 본 발명의 양호한 실시예에 따른 시간 계층 디코딩(temporal layer decoding)를 나타낸 블록도.

도 5는 36 Hz 및 72 Hz 프레임 양쪽 모두를 출력할 수 있는 변환기로의 60 Hz의 인터레이스된 입력(interlaced input)을 나타낸 블록도.

도 6은 24 또는 36 Hz의 기본 MPEG-2 계층에 대한 "마스터 템플릿"(master template)을 나타낸 도면.

도 7은 MPEG-2를 이용하는 계층 구조의 해상도 스켈러빌리티(hierarchical resolution scalability)를 이용하여 기본 해상도 템플릿(base resolution template)의 보강(enhancement)를 나타낸 도면.

도 8은 계층화된 해상도 인코딩 처리의 양호한 일례를 나타낸 도면.

도 9는 계층화된 해상도 디코딩 처리의 양호한 일례를 나타낸 도면.

도 10은 본 발명에 따른 디코딩기의 해상도 및 시간 스켈러빌리티 옵션들 (resolution and temporal scalable option)의 조합을 나타낸 블록도.

본 발명에 따르면, 높은 프레임 레이트에서도 고품질로 1000 주사선을 넘는해상도의 영상 압축을 확실히 달성하는 영상 압축 방법 및 장치가 제공된다. 또한,본 발명은 종래의 텔레비전 방송 채널에서 이용 가능한 대역폭 내에서 높은 프레임 레이트에서도 1000 라인을 넘는 해상도를 유지하면서 시간 및 해상도 스켈러빌리티양쪽 모두를 달성한다. 본 발명의 기술은 ATV용으로 ACATS가 제안하고 있는 압축비의 2배 이상을 효과적으로 달성한다.

영상 자료는 초기 또는 기본 프레임 레이트(initial or primary framing rate) 72 fps로 캡쳐(capture)하는 것이 바람직하다. 이어서, MPEG-2 데이터 스트 림이 생성된다. 이 데이터 스트림은,

(1) 양호하게는 MPEG-2 P 프레임만을 이용하여 인코딩되고, 해상도가 낮고 (예컨대, 1024× 512 픽셀) 프레임 레이트가 낮은 (24 또는 36 Hz) 비트 스트림을 포함하는 기본 계층(base layer)과,

(2) 선택 사양으로서, MPEG-2 B 프레임만을 이용하여 인코딩되며, 해상도가 낮고(예컨대, 1024× 512 픽셀) 프레임 레이트가 높은 (72 Hz) 비트 스트림을 포함하는 기본 해상도 및 시간 보강 계층(base resolution temporal enhancement layer)과,

(3) 선택 사양으로서, 양호하게는 MPEG-2 P 프레임만을 이용하여 인코딩되며, 해상도가 높고(예컨대, 2k×1k 픽셀) 프레임 레이트가 낮은 (24 또는 36 Hz)비트 스트림을 포함하는 기본 시간 및 고해상도 보강 계층(base temporal high resolution enhancement layer)과,

(4) 선택 사양으로서, MPEG-2 B 프레임만을 이용하여 인코딩되며, 해상도가 높고 (예컨대, 2k×1k 픽셀) 프레임 레이트가 높은 (72 Hz) 비트 스트림을 포함하는 고해상도 및 시간 보강 계층(high resolution temporal enhancement layer)을 포함하고 있다.

본 발명에서는, 주요 기술 속성을 다수 제공하여, ACATS 제안에 대해 실질적인 개선을 부가하여, 다수의 해상도 및 프레임 레이트를 단일 계층화된 해상도 및 프레임 레이트로 대체하고, 6 MHz의 텔레비전 채널 내에서 프레임 레이트를 높게(72 Hz) 유지하면서 2 메가픽셀 영상에 대해 1000 주사선 이상의 해상도를 달성하기 위해 인터레이스를 실시할 필요가 없으며, 72 fps의 기본 프레임 레이트를 사용하여 컴퓨터 디스플레이와 호환성을 가지고, ATV에 대한 현행의 비계층화된 ACATS 형식의 제안보다도 더 안정성(robustness)이 있다. 그 이유는, "부담을 주는"(stressful) 영상 자료를 만난 경우, 이용 가능한 비트 모두를 해상도가 낮은 기본 계층에 할당할 수 있기 때문이다.

본 발명의 양호한 실시예에 대해서는 첨부 도면과 이하의 기재에서 상술되어 있다. 본 발명에 대해 상세히 알게 되면, 수많은 기술 혁신 및 변경을 부가할 수 있다는 것은 당업자에게는 자명할 것이다.

각 도면 중의 동일한 참조 번호와 명칭은 동일 요소를 나타낸다.

본 명세서를 통해, 도시한 양호한 실시예와 일례들은 본 발명에 대한 한정이라기보다는 전형적 일례로 여져져야 한다.

시간 레이트 계보(Temporal Rate Family)의 목표

종래 기술의 문제점들을 고려한 후에, 본 발명을 수행함에 있어서, 장래의 디지털 텔레비전 시스템의 시간적 특징을 규정하기 위해 이하 목표를 정하였다.

* 초당 24 프레임의 영화라는 고해상도의 유산(legacy)을 최적으로 표현하는것.

* 스포츠와 같이 빠르게 움직이는 영상을 원활하게 움직임 캡쳐(smooth motion capture)하는 것.

* 스포츠 및 이와 유사한 영상을 기존의 아날로그 NTSC 디스플레이 및 72 또는 75 Hz로 동작하는 컴퓨터 호환 디스플레이에서 원활하게 움직임 표현(smooth motion presentation)하는 것.

* 뉴스나 생방송 드라마(live drama)와 같이 그다지 움직임이 빠르지 않은 영상을 적절하지만 더욱 효율좋게 움직임 캡쳐하는 것.

* 모든 새로운 디지털 형태의 영상을 변환기 박스(converter box)를 통해 기존의 NTSC 디스플레이상에 적절하게 표현하는 것.

* 모든 새로운 디지털 형태의 영상을 컴퓨터 호환 디스플레이상에 고품질로 표현하는 것.

* 60 Hz의 디지털 표준 또는 고해상도 디스플레이가 시판되어도, 이들 디스플레이상에 적절하고 고품질로 표현하는 것.

60 Hz 및 72/75 Hz 디스플레이는 24 Hz의 영화 레이트 이외의 어떤 레이트에서도 기본적으로 호환성이 없기 때문에, 72/75 또는 60 Hz가 표시 레이트로서 배제되어 있는 경우라면 최상의 상황이 될 것이다. 72 또는 75 Hz는 N.I.I.(National Information Infrastructure, 미국 정보 기반)와 컴퓨터 애플리케이션 프로그램에 필요한 레이트이기 때문에, 기본적으로 시대에 뒤떨어진 60 Hz의 레이트를 배제하는 것이 선견지명이 있는 것으로 될 것이다. 그러나, 방송 및 텔레비전 장비 업계에는 많은 이해 관계들이 경합하고 있고, 새로운 디지털 텔레비전 기반은 어느 것이라도 60 Hz(그리고 30 Hz)에 기초해야 한다는 강력한 요구가 있다. 이것은 텔레비전 업계, 방송 업계 및 컴퓨터 업계간에 열띤 논쟁을 불러왔다.

또한, 인터레이스된(interlaced) 60 Hz 형식에 관한 방송 업계 및 텔레비전업계의 몇몇 관계자에 의한 주장은 컴퓨터 표시 요건에서 더 멀어지고 있다. 디지털 텔레비전 시스템을 컴퓨터 등에 적용하기 위해서는 인터레이스되지 않은 (non-interlaced) 디스플레이가 필요하기 때문에, 인터레이스된 신호를 표시할 때에는 디인터레이서(de-interlacer)가 필요하다. 그러나 디인터레이서의 가격과 품질에 관해서 상당한 논쟁이 있으며, 그 이유는, 디인터레이서는 이러한 수신 장치모두에 필요하게 될 것이기 때문이다. 디인터레이싱(de-interlacing)에 더하여, 프레임 레이트 변환에 의해 가격이 더욱 상승하고 품질에 악영향을 미치게 된다. 예를 들어, NTSC와 PAL 양자간의 변환기는 여전히 아주 고가이며, 게다가 변환 성능도 많은 일반적인 형태의 장면에 대해 신뢰할만한 정도가 못된다. 쟁점이 되고 있는 인터레이스는 복잡하며 문제점을 안고 있는 주제이기 때문에, 시간 레이트의 문제점이나 쟁점을 해소하기 위하여, 본 발명에서는 인터레이스가 없는 디지털 텔레비전 표준에 관련하여 기술한다.

최적 시간 레이트의 선택

맥놀이(beat) 문제. 72 또는 75 Hz의 디스플레이는 그의 표시 레이트(각각 72 또는 75 Hz)와 동일한 움직임 레이트를 갖는 카메라 영상 또는 시뮬레이션된 영상이 작성된 경우에 최적의 표시를 실현할 것이다. 또한, 그 역도 마찬가지이다. 이와 유사하게, 60 Hz의 디스플레이에서의 최적의 움직임 충실도(fidelity)는 60 Hz의 카메라 영상 또는 시뮬레이션된 영상으로부터 얻어진다. 60 Hz의 디스플레이에서 72 Hz 또는 75 Hz의 생성 레이트(generation rate)를 사용하면, 각각 12 Hz 또는 15 Hz의 맥놀이 주파수(beat frequency)가 생긴다. 이러한 맥놀이는 움직임 분석을 통해 제거될 수 있지만, 움직임 분석은 비용이 많이 들고 부정확하며, 때로는 시각상의 아티팩트(visible artifact) 및 시간상의 엘리어싱(temporal aliasing)을 일으키게 된다. 움직임 분석을 하지 않으면, 맥놀이 주파수는 지각되는 표시 레이트(perceived display rate)를 상회하여, 12 또는 15 Hz의 맥놀이가 나타나 24 Hz에도 미치지 못하는 정확도의 움직임을 제공하게 된다. 이와 같이, 24 Hz는 60 Hz와 72 Hz 사이의 자연 시간 공통 분모(natural temporal common denominator)를 형성한다. 75 Hz는 60 Hz 보다 약간 높고 15 Hz의 맥놀이를 갖지만, 그 움직임은 24 Hz만큼 원활하지 않으며, 75 Hz와 24 Hz 사이에는 24 Hz의 레이트가 25 Hz까지 증가하지 않는 한 어떤 통일된 관련성(integral relationship)이 없다(유럽의 50 Hz를 사용하는 국가에서는, 영화는 종종 4% 빠른 25 Hz로 상영되며, 이것에 의해 75 Hz 디스플레이상에 영화를 방영할 수 있게 된다).

각 수신 장치에서 움직임 분석을 하지 않으면, 72 또는 75 Hz 디스플레이에 서의 60 Hz의 움직임 및 60 Hz 디스플레이에서의 75 또는 72 Hz의 움직임은 24 Hz영상만큼은 원활하지 않을 것이다. 따라서, 72/75 Hz의 움직임도 60 Hz의 움직임도 72 또는 75 Hz 디스플레이 및 60 Hz 디스플레이 양쪽 모두를 포함하는 혼성 디스플레이 계통(heterogeneous display population)에 사용하기에는 적당하지 않다.

3-2 풀다운(pulldown). 텔레시네(telecine) (영화에서 비디오로) 변환 처리동안 비디오 효과와 함께 "3-2 풀다운"을 사용하기 때문에, 최적의 프레임 레이트를 선택할 때에 더 복잡한 문제가 발생한다. 이러한 변환 동안에, 3-2 풀다운 패턴은 제1 프레임(또는 필드)을 3번, 이어서 다음 프레임을 2번, 그 다음 프레임을 3번, 그 다음 프레임을 2번, .... , 반복하게 된다. 이와 같이 하여, 24 fps의 영화를 60 Hz(실제로, NTSC 컬러에서는 59.94 Hz)로 텔레비전에 표시한다. 즉, 영화의 1초 동안에 12개의 2 프레임 쌍 각각이 5번 표시되어, 초당 60개의 영상이 나타난다. 3-2 패턴은 도 1에 도시되어 있다.

대충 계산해보아도, 비디오로 나온 모든 영화의 절반 이상에서는, 24 fps의 영화를 59.94 Hz의 비디오 필드 레이트로 조정한 부분이 상당히 있다. 이러한 조정으로서는, "팬-스캔(pan-and-scan)", 컬러 보정 및 자막 스크롤링이 있다. 게다가,프레임을 누락시키거나 장면의 시작 부분과 끝부분을 클리핑(clipping)하여 주어진 방송 스케줄에 맞추도록 시간 조정된 영화가 많이 있다. 59.94 Hz와 24 Hz의 양쪽움직임이 다 있기 때문에, 이러한 동작으로는 3-2 풀다운 처리를 역으로 하는 것은 불가능하다. 이 때문에, MPEG-2 표준을 이용하여 영화를 압축하는 것이 매우 어렵게 된다. 다행스러운 것은, 이 문제가 기존의 MTSC 해상도의 자료에 한정된다는 것이며, 그 이유는, 3-2 풀다운을 이용하는 해상도가 더 높은 디지털 영화 중 그렇게 중요한 라이브러리가 없기 때문이다.

움직임 흐려짐(Motion Blur). 24 Hz 보다 높은 공통 시간 레이트(common temporal rate)를 찾아야 한다는 쟁점에 대해 더 살펴보기 위해서는, 움직이는 영상(moving image)을 캡쳐할 때의 움직임 흐려짐에 관해 기술해보는 것이 도움이 된다. 카메라 센서와 영화 필름은 각 프레임의 지속 기간의 일부 동안에 움직이는 영상을 감지하기 위해 노출된다. 영화용 카메라나 많은 비디오 카메라에서는, 이 노출의 지속 기간을 조정할 수 있다. 영화 카메라는 필름을 전진시키기 위해 일정 시간 구간을 필요로 하며, 360°중 약 210°정도만, 즉 약 58%의 듀티비 정도만을 노출되도록 통상 제한되어 있다. CCD 센서를 갖는 비디오 카메라에서는, 프레임 시간의 어느 부분이 센서로부터 영상을 "독출"하기 위해 필요한 경우가 있다. 이 독출시간은 프레임 시간의 10%내지 50%에서 변할 수 있다. 일부 센서에서는, 이 독출 시간 동안에 광을 차단하기 위해 전자 셔터를 사용해야만 한다. 이와 같이, CCD 센서의 "듀티비"는 통상 50% 내지 90%에서 변하며, 카메라에 맞게 조절이 가능하다.필요한 경우, 듀티리를 더 감소시키기 위해 광 셔터를 때때로 조절할 수 있다. 그러나, 영화에서도 비디오에서도, 가장 일반적인 센서의 듀티비의 지속 기간은 50%이다.

양호한 레이트. 이 논점을 염두에 두고, 60, 72 또는 75 Hz로 캡쳐한 영상 시퀀스(image sequence)로부터 일부 프레임만을 사용하는 것을 생각해 볼 수 있다. 2, 3, 4, ...개의 프레임에서 한 개의 프레임을 이용하면, 표 1에 도시된 하위 레이트(subrate)를 유도할 수 있다.

[표 1]

15 Hz의 레이트는 60 Hz와 75 Hz간을 하나로 묶는 레이트(unifying rate)이다. 12 Hz의 레이트는 60 Hz와 72 Hz간을 하나로 묶는 레이트이다. 그러나, 24 Hz이상의 레이트를 원하면, 이들 레이트가 배제되어 버린다. 24 Hz가 공통인 것은 아니지만, 업계에서는 60 Hz 디스플레이상에 표시를 하기 위해 3-2 풀다운의 사용을 채택하고 있다. 따라서, 유일한 후보 레이트는 30, 36 및 37.5 Hz 이다. 30 Hz는 75 Hz에 대해 7.5 Hz 맥놀이를 가지며, 72 Hz에 대해 6 Hz 맥놀이를 가지기 때문에, 이것은 후보로서 쓸모가 없다.

36 Hz와 37.5 Hz의 움직임 레이트는 60 Hz와 72/75 Hz 디스플레이상에 표시될 때에는 24 Hz의 자료보다 더 원활한 움직임을 위한 강력한 후보가 된다. 이들 레이트는 양쪽 모두 24 Hz에 비해 약 50% 더 빠르고 더 원활하다. 37.5 Hz의 레이트는 60 또는 72 Hz의 어느 한쪽과 함에 사용하기에는 적당하지 않기 때문에, 반드시 배제시켜야 하며, 36 Hz 만이 소망의 시간 레이트 특성을 갖는 것으로서 남는다. [37.5 Hz의 움직임 레이트는 텔레비전의 60 Hz 표시 레이트가 4% 이동하여 62.5 Hz로 될 수 있으면 사용가능하게 된다. 60Hz 배후의 이점을 생각하면, 62.5 Hz는 가능성이 낮은 것으로 생각된다. 새로운 텔레비전 시스템에 극히 오래된 59.94 Hz 레이트를 제안하는 사람들조차 있다. 그러나, 만일 이러한 변경이 이루어진다면, 본 발명의 다른 측면들이 37.5 Hz 레이트에 적용될 수 있다].

24, 36, 60 및 72 Hz의 레이트가 시간 레이트 계보(time rate family)의 후보로서 남아 있다. 72 및 60 Hz의 레이트는 분배 레이트(distribution rate)에는 사용될 수 없다. 왜냐하면, 전술한 바와 같이 이들 2개의 레이트간에 변환을 행할 때에는, 24 Hz가 분배 레이트로서 사용되는 경우만큼 움직임이 원활하지 않기 때문이다. 전제한 바와 같이, 24 Hz 보다 빠른 레이트를 찾고 있다. 따라서, 36 Hz가 60 및 72/75 Hz 디스플레이에 사용하기 위한 움직임 캡쳐및 영상 분배를 하나로 묶는 마스터 레이트(master, unifying motion capture and image distribution rate)의 강력한 후보가 된다.

전술한 바와 같이, 24 Hz 자료에 대한 3-2 풀다운 패턴은 첫번째 프레임(또는 필드)을 3번, 이어서 다음 프레임을 2번, 이어서 다음 프레임을 3번, 이어서 다음 프레임을 2번, ... , 반복한다. 36 Hz를 이용할 경우, 각 패턴은 2-1-2 패턴으로 반복되는 것이 최적이다. 이것이 표 2에 나타나 있으며, 도 l에 도시되어 있다.

[표 2]

36 Hz와 60 Hz 사이의 관계는 정확하게 36 Hz인 자료에만 해당된다. 60 Hz 자료는 인터레이스된 경우에는, 36 Hz로 "저장"될 수 있지만, 36 Hz는 움직임 분석과 재구성이 없는 때에는 60 Hz로부터 적절하게 작성될 수 없다. 그러나, 움직임 캡쳐를 위한 새로운 레이트를 찾고 있다면, 36 Hz는 60 Hz 디스플레이상에서 24 Hz보다도 약간 더 원활한 움직임을 제공하며, 72 Hz 디스플레이상에서 한층 더 원활한 영상 움직임을 제공한다. 따라서, 36 Hz가 60 및 72/75 Hz 디스플레이와 함께 사용하기 위한 움직임 캡쳐와 영상 분배를 하나로 묶는 마스터 레이트로서 최적인 레이트이고, 이러한 디스플레이상에 표시된 24 Hz의 자료보다도 더 원활한 움직임을 나타낸다.

36 Hz가 상기한 목표에 부합되지만, 그것이 적절한 캡쳐 레이트로서 유일한것은 아니다. 36 Hz는 60 Hz로부터 간단하게 추출할 수 없기 때문에, 60 Hz는 적절한 캡쳐 레이트를 제공하지 못한다. 그러나, 72 Hz는 캡쳐에 사용할 수 있고, 그 경우 한 프레임씩 걸러내어 36 Hz 분배의 기초로서 사용된다. 72 Hz 자료를 한 프레임씩 걸러 사용한 경우의 움직임 흐려짐은 36 Hz의 캡쳐에서의 움직임 흐려짐의절반으로 된다. 72 Hz로부터 3 프레임씩 걸러 나타나는 움직임 흐려짐의 검사에 의하면, 24 Hz에서의 스타카토 스트로브(staccato strobing)는 바람직하지 않을 정도라는 것을 보여준다. 그러나, 36 Hz 디스플레이의 경우 72 Hz로부터 한 프레임씩 걸러내어 이용하는 것은 36 Hz의 원래의 캡처와 비교할 때, 눈으로 보아서는 괜찮을 정도이다.

따라서, 36 Hz는 72 Hz로 캡처함으로써 72 Hz 디스플레이에서 매우 원활한 움직임을 제공할 가능성이 있지만, 72 Hz의 원래의 캡쳐 자료를 한 프레임씩 걸러(alternate frame) 사용하여 36 Hz의 분배 레이트를 달성하고, 2-1-2 풀다운을 이용하여 60 Hz 영상을 도출함으로써, 60 Hz 디스플레이에서는 24 Hz 자료보다도 움직임이 양호하게 된다. 요약하면, 표 3은 본 발명에 따른 캡쳐와 분배에 있어서 양호한 최적 시간 레이트를 나타낸 것이다.

[표 3]

양호한 레이트

또한, 36 Hz 분배 레이트를 달성하기 위해 72 Hz 카메라로부터 한 프레임씩걸려 이용하는 기술에서는 움직임 흐려짐의 듀티비가 보강하면 도움이 될 수 있다는 것도 유의해야 한다. 72 Hz에서의 통상적인 50%의 듀티비는 36 Hz에서 25%의 듀 티비를 나타내며 또한 적합하다는 것이 입증되었으며, 60 Hz 및 72 Hz 디스플레이에서 24 Hz보다 상당한 개선을 나타낸다. 그러나, 듀티비가 75-90% 범위로 증가되면, 36 Hz의 샘플은 한층 더 일반적인 50% 듀티비에 근접하기 시작하게 된다. 듀티비를 증가시키는 것은, 예를 들어 블랭킹 시간(blanking time)이 짧은 "보조 기억장치(backing store)" CCD 설계를 이용하여 높은 듀티비를 나타내도록 함으로써 달성될 수 있다. 이중 CCD 멀티플렉싱 설계(dual CCD multiplexed design)를 포함한 다른 방법을 사용할 수도 있다.

수정된 MPEG-2 압축

효율적인 저장과 분배를 위해, 36 Hz의 양호한 시간 레이트를 갖는 디지털 소스 자료를 압축하여야 한다. 본 발명의 압축의 바람직한 형식은 MPEG-2 표준의 신규한 변형 형식을 이용함으로써 달성된다.

MPEG-2기본 원리. MPEG-2는 영상 시퀀스를 보다 콤팩트한 인코딩된 데이터(coded data)의 형태로 표현하는 효율적인 방법을 제공하는 비디오 신택스(video syntax)를 정의한 국제 비디오 압축 표준이다. 인코딩된 비트(coded bit)의 언어를 "신택스"(syntax)라 한다. 예를 들어, 2, 3개의 토큰(token)만으로 64 샘플로 이루어진 블록 전체를 나타낼 수 있다. 또한, MPEG은 디코딩 (재구성) 처리에 대해 기술한 것으로서, 인코딩된 비트는 콤팩트한 표현으로부터 영상 시퀀스의 원래의 "가공 이전의" 형식(original, "raw" format)으로 매핑(mapping)된다. 예컨대, 인코딩된 비트 스트림내의 플래그는 그 다음에 오는 비트들을 이산 코사인 변환(DCT) 알고리즘으로 디코딩 처리를 해야 하는지 또는 예측 알고리즘으로 디코딩 처리를 해야 하는지를 알려준다. 디코딩 처리를 포함하는 알고리즘들은 MPEG에 의해 정의된 시맨틱스(semantics)에 의해 규제된다. 이 신택스는 공간 용장성(spatial redundancy), 시간 용장성(temporal redundancy), 균일한 움직임(unifrom motion), 공간 마스킹(spatial masking) 등과 같은 일반적인 비디오 특징을 이용하기 위해 적용될 수 있다. 실제로, MPEG-2는 데이터 형식 뿐만 아니라 프로그래밍 언어도 정의한다. MPEG-2 디코딩기는 입력되는 데이터 스트림을 파싱(parsing) 및 디코딩할 수 있어야 하지만, 데이터 스트림이 MPEG-2 신택스를 따르고 있는 한, 매우 다양한 데이터 구조와 압축 기술이 사용될 수 있다. 본 발명은 MPEG-2 표준을 이용하여 시간 및 해상도를 축소/확대(scaling)하는 신규한 수단 및 방법을 고안함으로써 이러한 유연성(flexibility)을 활용한다.

MPEG-2는 프레임내(intraframe) 그리고 프레임간(interframe) 압축 방법을 사용한다. 대부분의 비디오 장면에서, 배경은 비교적 안정되어 있는 반면, 움직임은 전경(foreground)에서 일어난다. 배경도 이동될 수 있지만, 장면의 대부분은 용장 성분이다(redundant). MPEG-2는 I 프레임(Intra frame, 인트라프레임을 말함)이라고 하는 기준 프레임(reference frame)을 작성하는 것으로 그 압축을 시작한다. I 프레임은 다른 프레임을 참조하지 않고 압축되기 때문에, 그 프레임의 비디오 정보 전체를 포함하고 있다. I 프레임은 랜덤 억세스(random access)를 위한 데이터비트 스트립으로의 엔트리 포인트(entry point)를 제공하고 있지만, 단지 약간만 압축될 수 있을 뿐이다. 통상, I 프레임을 나타내는 데이터는 10 내지 15 프레임마다 비트 스트림에 배치된다. 그 이후에는, 기준 I 프레임들 사이에 있는 프레임들의 극히 일부분만이 동일 그룹에 속하는 I 프레임(bracketing I frame)과 상이하기때문에, 그 차분(difference)만을 캡쳐, 압축 및 저장한다. 이러한 차분에 대해 2가지 종류의 프레임, 즉 P (예측) 프레임과 B (쌍방향 보간) 프레임을 사용한다.

P 프레임은 통상 과거 프레임(I 프레임이나 이전 P 프레임 중 어느 하나)을 참조하여 인코딩되며, 이를 장래의 P 프레임에 대한 기준으로서 사용하는 것이 일반적이다. P 프레임은 상당히 높은 정도로 압축된다. B 프레임 화상은 가장 높은 정도로 압축되어 있지만, 인코딩을 위해서는 일반적으로 과거 기준 및 미래 기준 양쪽 모두를 필요로 한다. 쌍방향 프레임은 기준 프레임으로 결코 사용되지 않는다.

P 프레임 내의 매크로블록(macroblock)은 프레임내 인코딩(intra-frame coding)를 이용하여 개별적으로 인코딩될 수도 있다. B 프레임 내의 매크로 블록은 프레임내 인코딩, 전방 예측 인코딩(forward predicted coding), 후방 예측 인코딩(backward predicted coding) 또는 전후방 예측 인코딩, 즉 쌍방향 보간 예측 인코딩을 이용하여 개별적으로 인코딩될 수도 있다. 매크로블록이라는 것은, P 프레임용으로 하나의 움직임 벡터 그리고 B 프레임용으로 하나 또는 두 개의 움직임 벡터를 갖는 4개의 8× 8 DCT블록으로 이루어진 l6× 16픽셀의 그룹이다.

인코딩 후에, MPEG 데이터 비트 스트림은 I, P및 B프레임의 시퀀스를 포함한다. 이 시퀀스는 I, P 및 B 프레임으로 된 거의 모든 패턴을 포함할 수도 있다(이들 패턴의 배치에 사소한 시맨틱상의 제약이 몇가지 있음). 그러나, 통상의 당업계의 실시에서는 고정 패턴을 가지고 있다(예를 들면, IBBPBBPBBPBBPBB).

본 발명의 중요한 부분으로서, MPEG-2 데이터 스트림이 작성되며, 이는 기본계층(base layer), 선택 사양으로서 적어도 하나의 시간 보강 계층(temporal enhancement layer) 및 선택 사양으로서 해상도 보강 계층(resolution enhancement layer)을 포함하고 있다. 이들 총 각각에 대해 이하에서 상세히 설명한다.

시간 스캘러빌리티(temporal scalability)

기본 계층. 기본 계층은 36 Hz의 소스 자료를 전달하는데 사용된다. 양호한 실시예에서는, 2개의 MPEG-2 프레임 시퀀스, 즉 IBPBPBP 또는 IPPPPPP 중 하나가 기본 계층에 사용될 수 있다. 후자의 패턴이 가장 바람직하며, 그 이유는 디코딩기가 P 프레임을 디코딩하는 데에만 필요할 뿐이고, 24 Hz 영화가 B 프레임 없이 디코딩되는 경우에 필요한 메모리 대역폭을 감소시키게 된다.

72 Hz 신간 보강 계층. MPEG-2 압축을 사용할 때에, P 프레임 거리(frame distance)가 동등하다면 36 Hz 기본 계층의 MPEG-2 시퀀스 내에 36 Hz의 시간 보강계층을 다수의 B 프레임으로서 매립하는 것이 가능하다. 이에 따라, 단일 데이터 스트림은 36 Hz 디스플레이 및 72 Hz 디스플레이 양쪽 모두를 지원할 수 있다. 예를 들어, 이 두 계층이 디코딩되어 컴퓨터 모니터용의 72 Hz 신호를 발생시킬 수 있지만, 기본 계층만이 디코딩 및 변환되어 텔레비전용의 60 Hz 신호를 생성할 수도 있다.

양호한 실시예에서는, IPBBBPBBBPBBBP또는 IPBPBPBPB의 MPEG-2 인코딩 패턴의 양쪽 모두에 의해, 시간 보강 B 프레임만을 포함하는 개별적인 스트림 내에 프레임을 교대로 배치하면 36 Hz에서 72 Hz로 할 수 있다. 이러한 인코딩 패턴은 도 2 및 도 3에 각각 도시되어 있다. 도 3의 2-프레임 P 간격 인코딩 패턴(2-Frame P spacing coding pattern)에서는, P 프레임을 디코딩하기 위해서는 36 Hz 디코딩기가 필요할 뿐이고, 24 Hz 영화가 B 프레임 없이 디코딩되는 경우에는 필요한 메모리 대역폭이 감소하게 된다는 부가의 이점을 갖는다. 고해상도의 영상에 대한 실험에 의하면, 도 3의 2-프레임 P 간격이 대부분의 영상 타입에 최적이라는 것을 알 수 있다. 즉, 도 3에 있는 구성은 현대의 72 Hz 컴퓨터 호환 디스플레이에서도 훌륭한 결과를 나타내면서도 60 Hz 및 72 Hz 양쪽 모두를 지원하는 최적의 시간 구조를 제공할 수 있다. 이 구성에 의해 2개의 디지털 스트림, 즉 기본 계층에 대한 36 Hz의 스트림 및 보강 계층 B 프레임에 대한 36 Hz의 스트림이 72 Hz를 달성할 수 있다. 이것은 도 4에 도시되어 있으며, 동 도면은 36 Hz 기본 계층 MPEG-2 디코딩기(50)가 P 프레임을 간단하게 디코딩하여 36 Hz 출력을 발생시키기는 것을 나타낸 구성도이다. 그 다음에, 이 36 Hz 출력은 60 Hz 또는 72 Hz 표시로 용이하게 변환 된다. 선택 사양인 제2 디코딩기(52)는 B 프레임을 간단하게 디코딩하여 제2의 36 Hz 출력을 생성하고, 이 제2의 36 Hz 출력은 기본 계층 디코딩기(50)의 36 Hz 출력과 합성되어 72 Hz 출력으로 된다(합성 방법은 이하에서 기술함). 다른 실시예에서는, 1개의 고속 MPEG-2 디코딩기(50)는 기본 계층용의 P 프레임과 보강 계층용의 B프레임 양쪽 모두를 디코딩할 수 있다.

최적의 마스터 형식(Optimal Master Format). 다수의 회사가 초당 약 11 M(메가) 픽셀로 동작하는 MPEG-2 디코딩 칩을 제조하고 있다. MPEG-2 표준은 해상도 및 프레임 레이트에 대해 몇개의 "프로파일(profile)"을 정의하였다. 이들 프로파일이 60 Hz, 사각형이 아닌 픽셀 및 인터레이스와 같은 컴퓨터와 호환되지 않은 형식 파라미터에 지나치게 편협되어 있지만, 많은 칩 제조업자들은 "주 프로파일(main profile), 주 레벨(main level)"에서 동작하는 디코딩기 칩을 개발하고 있다고 생각된다. 이 프로파일은 최고 25 Hz에서 최대 720 픽셀의 임의의 수평 해상도와 최대 576 라인의 임의의 수직 해상도 및 최고 30 Hz에서 최대 480 주사선의 임의의 프레임 레이트로 정의된다. 약 1.5 메가비트/초로부터 약 10 메가비트/초에 이르는 넓은 범위의 데이터 레이트도 지정된다. 그러나, 칩의 관점에서 보면, 주요쟁점은 픽셀이 디코딩되는 레이트이다. 주 레벨에서 주 프로파일 픽셀 레이트는 약10.5 메가픽셀/초이다.

칩 제조업자간에는 차이가 있지만, 대부분의 MPEG-2 디코딩기 칩은 고속 보조 메모리(fast support memory)가 있다면 실제로 최대 13 메가픽셀/초로 동작한다. 20 메가픽셀/초 이상의 속도로 동작하는 디코딩기 칩도 있다. CPU 칩이 주어진 가격에서 매년 50% 이상의 개선되는 추세라면, MPEG-2 디코딩기 칩의 픽셀 레이트에는 조만간 유연성을 기대할 수 있다.

표 4는 바람직한 해상도, 프레임 레이트 및 이들의 대응 픽셀 레이트를 나타낸 것이다.

[표 4]

이러한 형식 모두는 적어도 초당 12.6 메가픽셀을 발생시킬 수 있는 MPEG-2디코딩기 칩에서 이용될 수 있다. 36 Hz에서 아주 바람직한 640x 480은 현재의 거의 모든 칩에 의해 달성될 수 있다. 왜냐하면, 이 형식의 레이트는 초당 11.1 메가픽셀이기 때문이다. 광폭 화면(wide screen)의 1024× 512 영상은 1.5 : 1 화면 압축(squeeze)을 이용하여 680× 512로 압축될 수 있으며, 초당 12.5 메가픽셀을 처리할 수 있다면, 36 Hz에서 지원될 수 있다. 1024× 512의 매우 바람직한 사각형 픽셀 광폭 화면 템플릿(template)은 MPEG-2 디코딩기 칩이 초당 약 18.9 메가픽셀을 처리할 수 있을 경우 36 Hz를 달성할 수 있다. 24 Hz 및 36 Hz 자료가 P 프레임으로만 인코딩되어 있는 경우에 이것은 한층 실현가능하게 되며, B 프레임은 72 Hz 시간 보강 계층 디코딩기에서만 필요할 뿐이다. P 프레임만을 사용하는 디코딩기는더 작은 메모리와 메모리 대역폭을 필요로 하므로, 19 메가픽셀/초의 목표에 도달하기 용이하다. 1024× 512의 해상도 템플릿은 24 fps의 2.35 : 1과 1.85 : 1의 종횡비(aspect ratio) 영화에서 아주 빈번하게 사용될 것이다. 이 자료는 초당 11.8메가픽셀을 필요로 할 뿐이며, 현존하는 대부분의 주 레벨-주 프로파일 디코딩기의범위내에서 적합하다.

이러한 형식 모두를 도 6에서 24 Hz 또는 36 Hz의 기본 계층용의 "마스터 템플릿"에 도시하고 있다. 따라서, 본 발명은 종래 기술에 비해 매우 다양한 종횡비및 시간 해상도를 수용하는 고유의 방법을 제공한다(마스터 템플릿에 대해서는 이하에 더욱 상세히 기술함).

72 Hz를 발생시키기 위한 B 프레임의 시간 보강 계층은 상기에서 특정한 픽셀 레이트의 2 배를 갖는 칩을 이용하던가 또는 디코딩기 메모리에의 추가 억세스와 병렬로 제2 칩을 이용하여 디코딩될 수 있다. 본 발명에 의하면, 보강 및 기본계층 데이터 스트림을 병합하여 하나 걸러 B프레임을 삽입하기 위해서는 적어도 2가지 방법이 있다. 첫째로, MPEG-2 트랜스포트 계층(transport layer)을 이용하여 병합을 눈에 보이지 않게 디코딩기 칩에 대해 실행할 수 있다. 2개의 PID(프로그램 ID)에 대한 MPEG-2 트랜스포트 패킷은 기본 계층과 보강 계층을 포함하는 것으로 인식될 수 있으며, 이들 패킷의 스트림 내용은 이중 레이트가 가능한 디코딩기 칩에, 또는 통상 레이트 디코딩기의 적절하게 구성된 쌍에 간단하게 전달(pass)될 수 있다. 둘째로, MPEG-2 시스템으로부터 트랜스포트 층 대신에 MPEG-2 데이터 스트림내에 "데이턴 분할(data partitioning)" 기능을 사용하는 것이 가능하다. 데이터 분할 기능에 의해, B 프레임은 MPEG-2로 압축된 데이터 스트링 내의 상이한 클래스(class)에 속하는 것으로 표시할 수 있기 때문에, 시간 기본 계층 레이트만을 지원하는 36 Hz 디코딩기에 의해 무시되도록 플래그를 둘 수 있다.

MPEG-2 비디오 압축에 의해 정의된 바와 같이, 시간 스켈러빌리티는 본 발명의 단순한 B 프레임 분할만큼은 최적이 아니다. MPEG-2 시간 스켈러빌리티는 이전의 P 또는 B 프레임으로부터 전방으로만 참조되기 때문에 본 명세서에서 제안한 B프레임 인코딩에서 이용가능한 효율성을 결여하고 있다. B 프레임 인코딩은 전방 및 후방으로 참조된다. 따라서, B 프레임을 시간 보강 계층으로서 단순히 사용하면, MPEG-2 내에서 정의된 시간 스켈러빌리티를 실행하는 보다 더 단순하고 효율적인 시간 스켈러빌리티를 제공한다. 그럼에도 불구하고, B 프레임을 시간 스켈러빌리티를 위한 메커니즘으로 사용하는 것은 MPEG-2와 완전하게 부합한다. 데이터 분할을 통해 또는 B 프레임의 교호 PID를 통해 이러한 B 프레임을 보강 계층으로 식별하는 2 가지 방법도 역시 완전하게 부합한다.

50/60 HZ 시간 보강 계층. (36 Hz 신호를 인코딩하는) 상기의 72 Hz 시간 보강 계층에 부가하여 또는 그에 대체하여, (24 Hz 신호를 인코딩하는) 60 Hz 시간 보강 계층이 36 Hz 기본 계층과 유사한 방식으로 부가될 수 있다. 60 Hz 시간 보강계층은 기존의 60 Hz 인터레이스된 비디오 자료에 특히 유용하다.

현존하는 대부분의 60 Hz 인터레이스된 자료는 아날로그, D1 또는 D2 형식의 NTSC용 비디오 테이프이다. 또한 일본 HDTV(SMPTE 240/260M)도 약간 있다. 이 형식으로 동작하는 카메라도 있다. 이러한 60 Hz 인터레이스된 형식은 어느 것이라도 신호가 디인터레이스(de-interlacing)되어 프레임 레이트가 변화되도록 공지된 방식으로 처리될 수 있다. 이 처리에는 로봇의 시각(robot vision)과 유사한 매우 복잡한 영상 이해 기술이 포함되어 있다. 매우 정교한 기술을 사용함에도 불구하고, 시간 엘리어싱은 일반적으로 알고리즘의 "오해"를 가져오고 때로는 아티팩트를 생기게 한다. 영상 캡쳐의 통상의 듀티비가 50%라는 것은 카메라가 시간의 절반 동안은 "보고 있지 않는다"는 것을 의미한다는 것에 유의한다. 영화에서의 "차바퀴가 거꾸로 도는 현상(backward wagon wheel)"은 통상의 시간 언더샘플링(temporal undersampling)의 실시에 의한 시간 엘리어싱의 일례를 나타낸다. 이러한 아티팩트는 일반적으로 사람에 의한 재구성 없이는 제거될 수 없다. 따라서, 자동적으로 보정될 수 없는 경우가 항상 있는 것이다. 그러나, 현재의 기술에서 이용 가능한 움직임 변환의 결과라면 대부분의 자료에 대해 적절한 것일 것이다.

고선명 카메라 또는 테이프 장치 1대의 가격은 이러한 변환기의 가격과 비슷할 것이다. 이와 같이, 복수 개의 카메라와 테이프 장치를 갖는 스튜디오에서, 이러한 변환의 가격은 온당하다. 그러나, 이러한 처리를 적절하게 수행하게 되면, 현재로는 가정과 사무실 제품의 예산을 넘고 있다. 따라서, 인터레이스를 제거하고 기존의 자료의 프레임 레이트를 변환하기 위한 복잡한 처리는 창작 스튜디오에서 실행하는 것이 바람직하다. 이것에 대해서는 도 5에 도시하였으며, 카메라(60) 또는 다른 소스(예컨대, 영화가 아닌 다른 비디오 테이프)(62)로부터 36 Hz 신호(36 Hz 기본 계층만) 및 72 Hz 신호(36 Hz 기본 계층 + 시간 보강 계층으로부터의 36 Hz)를 출력할 수 있는 디인터레이서 기능 및 프레임 변환 기능을 갖는 변환기(64)로의 60 Hz 인터레이스된 입력을 나타낸 블록도이다.

72 Hz 신호(36 Hz 기본 계층 + 시간 보강 계층으로부터의 36 Hz)를 출력하는 대신에, 이 변환 처리는 36 Hz 기본 계층상에 제2 MPEG-2 24 Hz 시간 보강 계층을 작성하는 데도 적용될 수 있다. 이에 의해 디인터레이스된 것이긴 하지만 원래의 60 Hz 신호가 재생될 것이다. 60 Hz 시간 보강 계층의 B 프레임에 대해 유사한 양자화(quantization)가 사용된다면, B 프레임이 더 적게 있기 때문에 데이터 레이트는 72 Hz 시간 보강 계층 보다 약간 더 적게 된다.

미국이 관심을 갖는 자료의 대다수는 저해상도의 NTSC 이다. 현재, 대부분의 NTSC 신호는 대부분의 가정 텔레비전으로 시청할 때 어느 정도의 손실이 있다. 더욱이, 시청자들은 텔레비전으로 영화를 방영하기 위해 3-2 풀다운을 사용함에 있어서 고유의 시간 손상을 용납하게 되었다. 거의 모든 황금시간대의 텔레비전 프로그램은 초당 24 프레임의 영화로 되어 있다. 따라서, 스포츠, 뉴스 및 다른 비디오 촬영된 쇼만이 이 방식으로 처리될 필요가 있다. 이러한 쇼를 36/72 Hz 형식으로 변환하는 것과 관련된 아티팩트 및 손실들은 신호의 고품질의 디인터레이스와 관련하는 개선에 의해 상쇄될 것이다.

60 Hz(또는 59.94 Hz) 필드에서 본래 있는 움직임 흐려짐은 72 Hz 프레임에서의 움직임 흐려짐과 매우 유사하다는 것에 주의한다. 그러므로, 기준 계층 및 보강 계층을 제공하는 기술은 움직임 흐려짐에 관련해서는 72 Hz의 창작(origination)과 비슷한 것 같다. 따라서, 인터레이스된 60 Hz NTSC 자료를 36 Hz 기본 계층 + 시간 보강 계층으로부터 24 Hz로 처리하여 60 Hz로 디스플레이에 표시할 때 아마도 약간의 개선 이외에는 그 차이를 인지하는 시청자들은 거의 없을 것이다. 그러나, 새로운 비인터레이스된 72 Hz 디지털 텔레비전을 구입한 사람들은 NTSC를 시청할 때는 약간 개선되었다고 느끼지만, 72 Hz로 캡쳐되거나 창작된 새로운 자료를 시청할 때 크게 개선되었다고 느낄 것이다. 72 Hz 디스플레이에 제공되는 디코딩된 36 Hz 기본 계층조차 고품질의 디지털 NTSC와 마찬가지로 보일 것이며, 인터레이스 아티팩트를 더 느린 프레임 레이트로 교체한다.

동일 처리는 기존의 PAL 50 Hz 자료를 제2 MPEG-2 보강 계층으로 변환하는 데에도 적용될 수 있다. PAL 비디오 테이프는 이러한 변환에 앞서 48 Hz로 저속화된다. 동시 촬영의 PAL은 비교적 관련이 없는 50, 36 및 72 Hz의 레이트를 사용하는 변환을 필요로 한다. 이러한 변환기 장치는 현재로는 방송 신호원에서 밖에 이용할 수 없고, 가정과 사무실에 있는 각각의 수신 장치에서는 현재로는 실용적이지못하다.

해상도 스켈러빌리티

MPEG-2를 이용하는 계층 구조의 해상도 스켈러빌리티를 사용해 기본 해상도 템플릿을 보강하여 기본 계층상에 구축된 보다 높은 해상도를 달성하는 것은 가능하다. 보강을 사용하면, 기본 계층의 1.5배 및 2배의 해상도를 달성할 수 있다. 이중 해상도는 3/2 다음에 4/3을 이용하여 2 단계로 구축되거나, 인수가 2인 하나의 단계로 될 수 있다. 이것은 도 7에 도시되어 있다.

해상도 보강의 처리는 독립적인 MPEG-2스트림으로서 해상도 보강 계층을 작성하고, 이 보강 계층에 MPEG-2 압축을 적용함으로써 달성될 수 있다. 이 기술은 MPEG-2에서 정의된 "공간 스켈러빌리티"(spatial scalability)와는 상이한 것으로서, 극히 비효율적이라고 판명되었다. 그러나, MPEG-2는 효율적인 계층화된 해상도를 구성하여 공간 스켈러빌리티를 제공하기 위한 툴(tool) 모두를 포함하고 있다.본 발명의 양호한 계층화된 해상도 인코딩 처리는 도 8에 도시되어 있다. 본 발명의 양호한 디코딩 처리는 도 9에 도시되어 있다.

해상도 계층 인코딩. 도 8에서, 원래의 2k×1k 영상(80)을 각 차원에서 종래의 방식으로 l/2 해상도로 필터링하여 1024× 512 기본 계층(81)을 작성한다. 기본계층(81)은 종래의 MPEG-2 알고리즘에 따라 압축되고, 전송에 적합한 MPEG-2 기본계층(82)을 생성한다. 중요한 것은, 이 압축 단계 동안에 완전 MPEG-2 움직임 보상(full MPEG-2 motion compensation)을 사용할 수 있다는 것이다. 다음에, 바로 그 신호를 종래의 MPEG-2 알고리즘을 이용하여 다시 1024× 512 영상(83)으로 압축해제(decompress)된다. 1024× 512 영상(83)은 제1의 2k×1k 확대 영상(84)으로 (예를 들어, 픽셀 복제에 의해 또는 양호하게는 스플라인(spline) 보간과 같은 한층 우수한 필터에 의해) 확대된다.

한편, 선택 사양인 단계로서, 필터링된 1024× 512 기본 계층(81)은 제2의 2k×1k 확대 영상(85)으로 확대된다. 원래의 2k×1k 영상(80)에서 제2의 2k×1k 확대 영상(85)을 차분하여, 원래의 고해상도 영상(80)과 원래의 기본 계층 영상(81) 간의 해상도의 최상 옥타브(top octave)를 나타내는 영상을 생성한다. 그 결과 얻어지는 영상은 선택에 따라 선명도 계수나 가중치를 승산한 다음에, 이를 원래의 2k×1k 영상(80)과 제2의 2k×1k 확대 영상(85)간의 차분에 가산하여, 중심이 가중된 2k×1k 보강 계층 소스 영상(86)을 생성한다. 그 다음에, 이 보강 계층 소스 영상(86)은 종래의 MPEG-2 알고리즘에 따라 압축되어, 전송에 적합한 개개의 MPEG-2 해상도 보강 계층(87)을 생성한다. 중요한 것은, 완전 MPEG-2움직임 보상을 이 압축 단계 동안 사용할 수 있다는 것이다.

해상도 계층 디코딩. 도 9에서, 기본 계충(82)은 종래의 MPEG-2 알고리즘을 이용하여 다시 1024× 512 영상(90)으로 압축해제된다. 1024× 512 영상(90)은 제1의 2k×1k 영상(91)으로 확대된다. 한편, 해상도 보강 계층(87)은 종래의 MPEG-2 알고리즘을 이용하여 다시 제2의 2k×1k 영상(92)으로 다시 압축해제된다. 그 다음에, 제1의 2k×1k 영상(91)과 제2의 2k×1k 영상(92)을 가산하여 고해상도의 2k×1k 영상(93)을 생성한다.

MPEG-2의 개선. 본질적으로, 보강 계층은 디코딩된 기본 계층을 확대하고, 원래의 영상과 디코딩된 기본 계층간의 차분을 취하여 압축함으로써 생성된다. 그러나, 압축된 해상도 보강 계층은 디코딩을 끝낸 후에 선택에 따라 기본 계층에 가산되어, 디코딩기에서 더 높은 해상도의 영상을 생성할 수 있다. 본 발명의 계층화 된 해상도 인코딩 처리 과정은 여러 가지 측면에서 MPEG-2 공간 스켈러빌리티와 다르다.

* 보강 계층 차분(difference) 화상은 I, B 및 P프레임을 사용하여 그 자체의 MPEG-2 데이터 스트림으로서 압축된다. MPEG-2 공간 스켈러빌리티가 효과적이지 못한 경우에 본 명세서에서 제안하고 있는 해상도 스켈러빌리티가 효과적이라는 주된 이유가 바로 이 차분이다. MPEG-2 내에 정의되어 있는 공간 스켈러빌리티에 의해, 상위 계층(upper layer)은 이 상위 계충과 확대된 기본 계층간의 차분으로서 인코딩되거나, 실제 화상(actual picture)의 움직임 보상된 MPEG-2 데이터 스트림으로서 인코딩되거나, 또는 이들 양자의 조합으로서 인코딩될 수 있다. 그러나, 이들 인코딩은 그 어느 것도 효율적이지 못하다. 기본 계층과의 차분은 그 차분의 I 프레임으로 생각할 수도 있지만, 이것도 본 발명에서와 같은 움직임 보상된 차분 화상에 비해서는 효율적이지 못하다. MPEG-2 내에 정의되어 있는 상위 계층 인코딩도 역시 효율적이지 못하며, 그 이유는 그것도 상위 계층의 완전한 인코딩은 동일하기 때문이다. 따라서, 차분 화상의 움직임 보상된 인코딩은, 본 발명에서와 같이, 보다 효율적이다.

* 보강 계층은 독립적인 MPEG-2 데이터 스트림이기 때문에, 기본 계층과 보강 계층을 멀티플렉싱하기 위해서는 MPEG-2 시스템 트랜스포트 계층(또는 다른 유사한 메커니즘)을 사용해야만 한다.

* 확대 및 해상도 감축 필터링은 가우스 또는 스플라인(spline) 함수가 될 수 있으며, 이것은 MPEG-2 공간 스켈러빌리티에서 규정된 양선형 보간법(bilinear interpolation) 보다 더욱 바람직하다.

* 영상의 종횡비는 양호한 실시예에서 상하 계층 사이에서 반드시 일치되어야 한다. MPEG-2 공간 스켈러빌리티에 있어서, 폭 및/또는 높이의 확대가 허용된다. 이러한 확대는 양호한 실시예에서는 효율성의 요건 때문에 허용되지 않는다.

* 효율성 요건 및 보강 계층에서 사용된 극단적인 압축량으로 인해, 보강 계층의 영역 전체가 인코딩되지는 않는다. 통상, 보강에서 제외된 영역이 경계 영역이 된다. 그러므로, 양호한 실시예에서의 2k×1k 보강 계층 소스 영상(86)은 중심부가 가중된다. 양호한 실시예에서는, (선형적 가중치 부여와 같은) 페이딩(fading) 기능을 사용하여, 보강 계층에 대해 그 영상의 중심 쪽으로 또한 경계선(border edge)에서 멀어지는 쪽으로 "페더링 처리"(feathering)를 하여 영상에서의 갑작스런 변화를 회피하고 있다. 더욱이, 사람의 눈이 따라갈 세부(detail)를 갖는 영역을 결정하는 수동 또는 자동 방법을 이용하여, 세부가 필요한 영역은 선택하고 여분의 세부가 필요하지 않은 영역은 제외시킬 수 있다. 영상 전체는 기본 계층 레벨까지 세부를 가지고 있기 때문에, 영상 전체가 나타난다. 특별히 관심을 갖는 영역만이 보강 계층에서 득을 본다. 다른 기준이 없는 경우에는, 프레임의 가장자리 또는 경계는 전술한 중심부가 가중된 실시예에서와 같이, 보강(enhancement)로부터 제외될 수 있다. 부호가 있는 음의 정수(signed negative integer)로서 사용되는 파라미터인 MPEG-2 파라미터 "lower_layer_prediction_ horizontal&vertical offset"를 "horizontal&vertical_subsampling_ factor_m&n" 값과 함께 사용하여 보강 계층 사각형의 전체 크기 및 확대된 기본 계층 내에서의 배치를 지정하는데 사용될 수 있다.

* 선명도 계수(sharpness factor)를 보강 계층에 가산하여 양자화 동안 발생하는 선명도의 손실을 상쇄(offset)한다. 이 파라미터는 원래 화상의 선명도를 복원하는 데만 이용할 뿐이며 영상을 보강하는 데 이용해서는 안된다는 것에 주의해야 한다. 도 8과 관련하여 전술한 바와 같이, 선명도 계수는 원래의 고해상도 영상(80)과 (확대 후의) 원래의 기본 계층 영상(81)간의 해상도의 "상위 옥타브"(high octave)이다. 이 상위 옥타브 영상은 매우 잡음이 많으며, 게다가 해상도의 상위 옥타브의 선명도와 세부를 포함하고 있다. 이러한 영상을 지나치게 많이 가산하게 되면, 보강 계층의 움직임 보상된 인코딩이 불안정하게 될 수 있다. 가산해야 될 양은 원래의 영상의 잡음 레벨에 따라 좌우된다. 대표적인 가중치는 0.25 이다. 잡음이 많은 영상에 있어서는, 선명도를 가산해서는 안되며, 세부를 보존하는 종래의 잡음 억제 기술을 이용하여 압축하기 전에 보강 계층에 대한 원래의 영상에서의 잡음을 억제하는 것이 보다 바람직할 수 있다.

* 시간 및 해상도 스켈러빌리티는 기본 보강 계층 및 해상도 보강 계층 양쪽모두에서 36 Hz로부터 72 Hz으로의 시간 보강(temporal enhancement)을 위해 B 프레임을 이용함으로써 혼합된다. 이러한 방식으로, 2가지 레벨의 시간 스켈러빌리티에서 이용 가능한 옵션들로 인해 2가지 계층의 해상도 스켈러빌리티로도 4가지 레벨의 디코딩 성능이 가능하게 된다.

이러한 차이가 MPEG-2 공간 및 시간 스켈러빌리티에 대한 실질적인 개선을 나타낸다. 그러나, 이러한 차이에도 MPEG-2 디코딩기 칩과는 여전히 부합되고 있지만, 도 9에 도시된 해상도 보강 디코딩 처리에서 확대 및 가산을 행하기 위해 디코명기에는 부가의 논리 회로가 필요할 수도 있다. 이러한 부가의 논리 회로는 그다지 효율적이지 못한 MPEG-2 공간 스켈러빌리티가 필요로 하는 논리 회로와 거의 같다.

선택 사양인 해상도 보강 계층의 비MPEG-2 인코딩. 해상도 보강 계충에 대해 MPEG-2 이외의 다른 압축 기술을 이용하는 것은 가능하다. 게다가, 해상도 보강 계층에 대해 기본 계층과 동일한 압축 기술을 이용할 필요는 없다. 예를 들어, 움직임-보상된 블록 웨이브렛(block wavelet)을 이용하여, 차분 계층이 인코딩될 때 아주 효율적으로 세부를 매칭 및 추적(match and track)할 수 있다. 웨이브렛의 배치를 위한 가장 효율적인 위치가 차분량의 변화로 인해 스크린에서 이러저리 돌아다니는 경우조차도, 진폭이 작은 보강 계층에서는 이를 알아채지 못한다. 게다가, 영상 전체를 커버할 필요는 없다. 즉, 세부에 웨이브렛을 배치하기만 하면 된다. 웨이브렛은 영상에서의 자신의 배치를 세부 영역에 의해 안내되도록 할 수 있다. 이 배치는 또한 가장자리에서 멀리 떨어진 쪽으로 치우치게 될 수 있다.

다중 해상도 보강 계층. 본 명세서에 기술하고 있는 비트 레이트에서는, 즉 초당 72 프레임의 2 메가픽셀(2048× 1024)이 초당 18.5 메가비트로 인코딩되는 경우에는, 기본 계층(72 fps의 1024× 512) 및 단 하나의 해상도 보강 계층만이 성공적으로 표시되었다. 그러나, 더욱 개량된 해상도 보강 계층의 인코딩로부터 효율성의 개선이 가능하다는 것이 예상됨에 따라, 다중 해상도 보강 계층이 가능하게 될것이다. 예를 들어, 512× 256의 기본 계층이 4개의 계층에 의해 1024× 512, 1536× 768 및 2048× 1024로 해상도가 보강될 수 있다는 것을 알 수 있다. 이것은 초당 24 프레임의 영화 프레임 레이트에서 기존의 MPEG-2 인코딩로 가능하다. 초당 72 프레임 레이트와 같은 높은 프레임 레이트에서, MPEG-2는 현재로서는 이러한 많은 계층이 가능할 정도로 해상도 보강 계층의 인코딩에서 충분한 효율성을 제공하지 못한다.

마스터 형식(mastering format)

2048× 1024 픽셀로 또는 그 근방의 템플릿을 이용하게 되면, 다양한 발매 형식(release format)에 대해 단일의 디지털 동화상 마스터 형식 소스(single digital moving image master format source)를 작성하는 것이 가능하다. 도 6에 도시된 바와 같이, 2k×1k 템플릿은 1.85 : 1과 2.35 : 1의 통상의 광폭 화면의 종횡비를 효율적으로 지원할 수 있다. 2k×1k 템플릿은 1.33 : 1, 그리고 다른 종횡비도 역시 수용할 수 있다.

정수(특히, 계수 2)와 간단한 분수(3/2 및 4/3)가 해상도 계층화에서 가장 효율적인 스텝 크기이지만, 임의의 필요한 해상도 계층화를 달성하기 위해 임의의 비율을 사용할 수도 있다. 그러나, 2048× 1024 템플릿이나 그 근방의 어떤 것을 이용하게 되면, 고품질의 디지털 마스터 형식을 제공할 뿐만 아니라 미국 텔레비전표준 방식인 NTSC를 포함한 계수가 2인 기본 계층(1k× 512)으로부터 많은 다른 편리한 해상도를 제공한다.

4k× 2k, 4k× 3k 또는 4k× 4k와 같은 더 높은 해상도로 영화를 주사할 수도 있다. 선택 사양인 해상도 보강을 이용하면, 이들 보다 높은 해상도는 2k×1k 근방의 중심 마스터 형식 해상도(central master format resolution)로부터 생성될 수 있다. 이러한 영화에 대한 보강 계층은 영상 세부, 그레인(grain) 및 (스캐너 잡음과 같은) 다른 잡음 소스로 이루어진다. 이와 같이 잡음이 많기 때문에, 이들 매우 높은 해상도의 보강 계층에서 압축 기술을 사용하려면 MPEG-2 타입의 압축이 아닌 다른 압축 기술이 필요하다. 다행스럽게도, 이와 같이 잡음이 많은 신호를 압축하면서도 영상 중에 소망의 세부를 계속 보유하기 위해 이용할 수 있는 다른 압축 기술이 존재한다. 이러한 압축 기술 중 하나가 움직임 보상된 웨이브렛(motion compensated wavelet) 또는 움직임 보상된 프랙탈(motion compensated fractal)이다.

디지털 마스터 형식은 기존의 영화(즉, 초당 24 프레임)로부터라면 영화의 프레임 레이트로 생성되는 것이 바람직하다. 3-2 풀다운과 인터레이스 양쪽을 공통으로 사용하는 것은 디지털 영화 마스터에는 부적당하다. 새로운 디지털 전자 자료의 경우, 60 Hz의 인터레이스의 사용은 가까운 장래에 사라지고, 본 명세서에서 제안된 72 Hz와 같은 컴퓨터와 더욱 호환성이 있는 프레임 레이트로 대체되기를 원하고 있다. 영상이 어떤 프레임 레이트, 72 Hz, 60 Hz, 36 Hz, 37.5 Hz, 75 Hz, 50 Hz 또는 다른 레이트에서 행해지더라도, 디지털 영상 마스터는 작성되어야만 한다.

모든 전자 발매 형식에 대한 단일 디지털 소스 화상 형식으로서의 마스터 형식의 개념은 기존의 관행과는 다르다. 기존의 관행에서는, PAL, NTSC, 레터박스(letterbox), 팬-스캔(pan-and-scan), HDTV 및 다른 마스터들은 모두 영화 원본과는 독립적으로 만들어지는 것이 일반적이다. 마스터 형식을 사용함으로써, 영화 및 디지털/전자 쇼 양쪽 모두는 다양한 해상도와 형식으로 발매하기 위해 한 번에 마스터링할 수 있다.

해상도 보강 계층과 시간 보강 계층의 합성(Combined Resolution and Temporal Enhancement Layers)

전술한 바와 같이, 시간 및 해상도 보강 계층 양쪽 모두는 합성될 수 있다.시간 보강은 B프레임을 디코딩함으로써 제공된다. 해상도 보강도 2개의 시간 계층을 가지기 때문에 역시 B 프레임을 포함한다.

24 fps 영화의 경우, 가장 효율적이고 최저가의 디코딩기는 P프례임만을 이용하기 때문에, B 프레임의 디코딩을 제외함으로써 디코딩기를 단순화시킬 뿐만 아니라 메모리 및 메모리 대역폭 양쪽 모두를 감축시키게 된다. 이와 같이, 본 발명에 따르면, 24 fps의 영화를 디코딩하는 것과 36 fps의 ATV를 디코딩하는 것은 B 프레임 기능이 없는 디코딩기를 이용할 수 있다. B 프레임은 도 3에 도시된 바와 같이 72 Hz의 더 높은 시간 계층을 제공하기 위해 P 프레임들 간에 이용될 수 있으며, 이것은 제2 디코딩기에 의해 디코딩될 수 있다. 이 제2 디코딩기는 B 프레임을 디코딩하기만 하면 되기 때문에 단순화될 수 있다.

이러한 계층화는 보강된 해상도 계층에도 적용되어, 24 및 36 fps 레이트에대해서는 P 및 I 프레임만을 유사하게 이용할 수 있다. 해상도 보강 계층은 그 자체내에 B프레임 디코딩을 부가함으로써 높은 해상도에서 72Hz의 완전 시간 레이트(full temporal rate of 72 Hz)를 부가할 수 있다.

디코딩기에서의 해상도 스켈러빌리티 및 시간 스켈러빌리티 옵션의 합성에 대해서 도 10에 도시하였다. 이 예에서도, 본 발명의 공간-시간 계층화된 ATV를 달성하기 위해 약 18 메가비트/초의 데이터 스트림의 여러 부분의 할당에 대해 나타내고 있다.

도 10에서는, 기본 계층 MPEG-2 1024× 512 픽셀 데이터 스트림(양호한 실시예에서는 P 프레임만으로 구성됨)은 기본 해상도 디코딩기(100)에 인가된다. P 프패임에는 약 5- 메가비트/초의 대역폭이 필요하다. 기본 해상도 디코딩기(100)는 24 또는 36 fps로 디코딩할 수 있다. 기본 해상도 디코딩기(100)의 출력은 해상도가 낮고 프레임 레이트도 낮은 영상(24 또는 36 Hz의 1024× 512픽셀)을 포함한다.

동일한 데이터 스트림으로부터의 B 프레임은 파싱(parsing)되어, 기본 해상도 시간 보강 계층 디코딩기(102)에 인가된다. 이러한 B 프레임에는 약 3 메가비트/초의 대역폭이 필요하다. 기본 해상도 디코딩기(100)의 출력은 또한 시간 보강 계층 디코딩기(102)에도 연결되어 있다. 시간 보강 계층 디코딩기(102)는 36 fps로 디코딩할 수 있다. 시간 보강 계층 디코딩기(102)의 합성된 출력은 해상도는 낮지만 프레임 레이트가 높은 영상(72 Hz의 1024× 512픽셀)을 포함한다.

또한, 도 10에서, 해상도 보강 계층의 MPEG-2 2k×1k 픽셀 데이터 스트림(양호한 실시예에서는 P 프레임만으로 구성됨)은 기본 시간 고해상도 보강 계층 디코딩기(104)에 인가된다. P 프레임에 대해서는 약 6 메가비트/초의 대역폭이 필요하다. 기본 해상도 디코딩기(100)의 출력은 또한 고해상도 보강 계층 디코딩기(104)에도 연결되어 있다. 고해상도 보강 계층 디코딩기(104)는 24 또는 36 fps로 디코명할 수 있다. 고해상도 보강 계층 디코딩기(104)의 출력은 해상도는 높지만 프레임 레이트가 낮은 영상(24 또는 36 Hz의 2k×1k 픽셀)을 포함한다.

동일한 데이터 스트림으로부터의 B 프레임은 파싱되어, 고해상도 시간 보강계층 디코딩기(106)에 인가된다. 이러한 B 프레임에 대해서는 약 4 메가비트/초의 대역폭이 필요하다. 고해상도 보강 계층 디코딩기(104)의 출력은 고해상도 시간 브강 계층 디코딩기(106)에 연결되어 있다. 시간 보강 계층 디코딩기(102)의 출력도 역시 고해상도 보강 계층 디코딩기(106)에 연결되어 있다. 고해상도 시간 보강 계층 디코딩기(106)는 36 fps로 디코딩할 수 있다. 고해상도 시간 보강 계층 디코딩기(106)의 합성된 출력은 해상도가 높고 프레임 레이트도 높은 영상(72 Hz에서 2k×1k)을 포함한다.

여기서 주목할 것은, 이러한 스켈러빌리티가 있는 인코딩 메커니즘을 통해 달성된 압축비는 매우 높으며, 이는 압축 효율이 우수하다는 것을 나타낸다는 것이다. 이들 압축비에 대해서는, 도 10의 예로부터의 시간 및 스켈러빌러티 옵션 각각에 대해 표 5에 나타내었다. 이들 압축비는 24 비트/픽셀의 소스 RGB 픽셀에 기반을 두고 있다[종래 4:2:2 인코딩의 16 비트/픽셀 또는 종래 4:2:0 인코딩의 12 비트/픽셀을 포함시키면, 압축비는 나타낸 값들의 각각 3/4와 1/2가 될 것임).

[표 5]

이러한 높은 압축비는 2가지 요인에 의해 가능하다.

(1) 높은 프레임 레이트 72 Hz 영상의 높은 시간 코히어런스(temporal coherence)와,

(2) 고해상도 2k×1k 영상의 높은 공간 코히어런스(spatial coherence)와,

(3) 해상도 세부 보강을 영상의 중요한 부분(예컨대, 중심부)에 적용하고, 그다지 중요하지 않은 부분(예컨대, 프레임의 경계)에는 적용하지 않음.

이들 요인은 MPEG-2 인코딩 신택스의 강점을 취함으로써 본 발명의 계층화된압축 기술에서 이용되고 있다. 이들 강점은 시간 스켈러빌리티를 위한 쌍방향 보간 된 B 프레임을 포함한다는 것이다. MPEG-2 신택스는 기본 계층 및 보강 계층 양쪽모두에서 움직임 벡터의 사용을 통해 효율적인 움직임 표현을 제공한다. 높은 잡음과 급격한 영상 변화의 어떤 임계값에 이를 때까지는, MPEG-2도 DCT 양자화와 관련된 움직임 보상을 통해 보강 계층 내의 잡음 대신에 세부를 인코딩하는 데에 효율적이다. 이러한 임계값 이상에서는, 데이터 대역폭은 최대한 기본 계층에 할당된다. 이러한 MPEG-2 메커니즘들은 본 발명에 따라 사용되면 함께 동작하여 시간적 및 공간적 양쪽 모두에서 스켈러빌리티가 있는 매우 효율적이고 효과적인 인코딩을 제공한다.

CCIR 601 디지털 비디오의 5메가비트/초에 비하면, 표 5에서의 압축비는 매우 높다. 이것은 인터레이스로 인한 일부 코히어런스의 손실 때문이다. 인터레이스는 이후의 프레임과 필드를 예측하는 능력 및 수직으로 인접한 픽셀돌간의 상관 관계에 악영향을 미친다. 이와 같이, 본 명세서에 기술된 압축 효율성에서의 이득의주요 부분은 인터레이스가 결여되어 있다는 것에 의한 것이다.

본 발명에 의해 달성된 높은 압축비를 각각의 MPEG-2 매크로볼록을 인코딩하는데 사용 가능한 비트수의 관점에서 생각해볼 수 있다. 전술한 바와 같이, 매크로블록은 P 프레임에 대한 하나의 움직임 벡터와 B 프레임에 대한 하나 또는 2개의 움직임 벡터를 갖는 4개의 8× 8 DCT 블록으로 된 16× 16 픽셀 그룹이다. 각 계층에서 매크로블록당 이용 가능한 비트에 대해서는 표 6에 나타내었다.

[표 6]

각각의 매크로블록을 인코딩하는 데 이용 가능한 비트의 수는 기본 계층에서보다 보강 계층에서 더 적다. 이것은 적절하다. 왜냐하면, 기본 계층은 가능한 한높은 품질을 갖는 것이 바람직하기 때문이다. 움직임 벡터는 약 8 비트를 필요로 하며, 매크로블록 타입 코드를 위해, 또한 4개의 8× 8 DCT 블록에 대한 DC 및 AC계수를 위해 10 내지 25개의 비트를 남겨둔다. 이것은 약간의 "전략적인" AC 계수만을 위한 여지밖에 남지 않는다. 그러므로, 통계적으로는, 각 매크로볼록에 이용가능한 대부분의 정보는 보강 계충의 이전 프레임으로부터 얻어야 한다.

MPEG-2 공간 스켈러빌리티가 이러한 압축비에서는 효율적이지 못한 이유는 쉽게 알 수 있다. 왜냐하면, 보강 차분 영상에 의해 표현된 세부의 상위 옥타브(high octave)를 나타낼 수 있을 정도로 충분한 DC 및 AC 계수를 인코딩하는데 이용가능한 데이터 공간이 충분하지 않기 때문이다. 상위 옥타브는 주로 5번째 내지 8번째의 수평 및 수직 AC 계수로 표현된다. DCT 블록당 이용 가능한 비트가 몇 개 밖에 없는 경우에는, 이들 계수에 도달할 수 없다.

본 명세서에서 기술된 시스템은 이전의 보강 차분 프레임으로부터의 움직임보상된 예측을 이용함으로써 그의 효율성을 달성한다. 이것이 시간 및 해상도 (공간) 계층화된 인코딩에 있어서 우수한 결과를 가져오는 데 효율적이라는 것은 분명하다.

순차적 화질 감소(graceful degradation) 본 명세서에서 기술된 시간 스케일 링(temporal scaling)과 해상도 스케일링(resolution scaling) 기술은 2k×1k인 원래의 소스를 이용하여 초당 72 프레임의 레이트에서 정상적으로 동작하는 자료에 대해 잘 동작한다. 이들 기술은 24 fps에서 동작하는 영화에 기초한 자료에 대해서도 역시 잘 동작한다. 그러나, 높은 프레임 레이트에서는, 꼭 잡음 같은 영상(noise-like image)이 인코딩되는 경우 또는 영상 스트림 내에 다수의 숏컷(shot cut)이 있는 경우, 보강 계층은 효율적인 인코딩을 위해 필요한 프레임간의 코히어런스를 상실할 수 있다. 이러한 상실은 용이하게 검출된다. 왜냐하면, 통상의 MPEG-2 인코더/디코딩기의 버퍼-충만/레이트-제어 메커니즘(buffer-fullness/rate-control mechanism)은 양자화기를 매우 조악한 설정치(coarse setting)로 설정하기 때문이다. 이 상태를 만나면, 해상도 보강 계충을 인코딩하는 데 통상 사용된 모든 비트는 기본 계층에 할당될 수 있다. 왜냐하면, 기본 계층은 부담을 주는 자료(stressful material)를 인코딩하기 위해 가능한 한 많은 비트를 필요로 하기 때문이다. 예를 들어, 기본 계층에 대해 프레임당 약 0.5 내지 0.33 메가픽셀이고, 또한 초당 72 프레임의 레이트일 때는, 그 결과 얻어지는 픽셀 레이트는 24 내지 36 메가픽셀/초가 된다. 이용 가능한 모든 비트를 기본 계층에 적용하면, 부가적으로 프레임당 약 0.5내지 0.67× 10⁶의 부가 비트가 1.85 메가비트/초로 제공되며, 이것은 부담을 주는 자료에 대해서도 아주 만족할 정도로 인코딩하기에 충분한 것이다.

더욱 극단적인 경우에서는, 모든 프레임이 잡음 같거나 및/또는 몇 프레임마다 발생하는 컷(cut)이 있는 경우, 기본 계층의 해상도를 상실함이 없이 순차적으로 화질 감소시키는 것이 가능하다. 이것은 시간 보강 계층을 인코딩하는 B 프레임을 제거하는 것으로 실행되고, 따라서 기본 계층의 I 및 P 프레임에 대해 이용 가능한 모든 대역폭(비트)을 36 fps로 사용할 수 있다. 이것에 의해, 각 기본 계층의 프레임에 대해 이용 가능한 데이터의 양은 약 1.0 내지 1.5 메가비트/프레임(기본계층의 해상도에 따라 다름)으로 증가된다. 이렇게 한 결과, 여전히 기본 계층의 아주 고품질의 해상도로 36 fps의 매우 양호한 움직임 묘사 레이트가 얻어지게 되어 극히 부담을 주는 인코딩 조건이 된다. 그러나, 기본 계층 양자화기가 여전히 36 fps에서 약 18.5 메가비트/초의 조건하에서 조악한 레벨로 동작한다면, 기본 계층 프레임 레이트는 초당 24, 18 또는 12 프레임으로까지 동적으로 감소될 수 있어(매 프레임마다 1.5 내지 4 메가비트를 이용할 수 있음), 가장 병적인 동영상 타입도 다를 수 있게 된다. 이러한 환경에서 프레임 레이트를 변경하는 방법은 당업계에 공지되어 있다.

미국의 ATV에 대한 현재의 제안에서는 순차적 화질 감소 방법이 가능하지 않기 때문에, 부담을 주는 자료에 대해 본 발명의 시스템만큼 만족스럽게 기능하지 못한다.

대부분의 MPEG-2 인코더에 있어서, 적응 양자화 레벨(adaptive quantization level)은 출력 버퍼 충만(output buffer fullness)에 의해 제어된다. 본 발명의 해상도 보강 계층에 연관된 높은 압축비에서, 이 메커니즘은 최적으로 기능하지 못할지도 모른다. 가장 적절한 영상 영역으로의 데이터의 할당을 최적화하기 위해 다양한 기술이 사용될 수 있다. 개념적으로 가장 간단한 기술은 통계를 수집하여 보존되어야 하는 세부를 찾아내기 위해 해상도 보강 계층 전체에 걸쳐 인코딩의 프리 패스(pre-pass of encoding)를 수행하는 것이다. 프리-패스로부터의 결과를 사용하여 해상도 보강 계층에서의 세부의 보존을 최적화하도록 적응 양자화를 설정할 수 있다. 이 설정치는 영상 전체에 걸쳐 불균일하도록 인위적으로 편중되게 할 수 있기 때문에, 영상 세부는 주 화면 영역에서의 할당으로 편중되어, 프레임의 양끝 가장자리에서는 매크로블록으로부터 떨어져 있게 된다.

보강 계층 경계를 높은 프레임 레이트로 해두는 경우를 제외하고는, 이러한조정은 어느 것도 할 필요하지 않다. 왜냐하면, 기존의 디코딩기는 이러한 개선 없이도 잘 동작하기 때문이다. 그러나, 보강 계층 인코더에 약간의 노력을 더하면 이러한 추가의 개선이 가능하다.

결론

새로운 공통의 기본 시간 레이트로서 36 Hz를 선택하는 것이 최적이라고 생각된다. 이 프레임 레이트를 사용하면 60 Hz 및 72 Hz 디스플레이의 경우 24 Hz 보다 상당한 개선을 제공한다는 것이 실증되어 있다. 36 Hz의 영상은 72 Hz 영상 캡쳐로부터 한 프레임씩 걸러 이용함으로써 작성될 수 있다. 이렇게 함으로써, 36 Hz(양호하게는 P프레임을 이용함)의 기본 계층과 36 Hz (B 프레임을 이용함)의 시간 보강 계층을 합성하여 72 Hz 표시를 달성하는 것이 가능하게 된다.

"장래성이 있어 보이는" 72 Hz의 레이트가 본 발명의 방법에 의해 악영향을 받지는 않지만, 60 Hz 아날로그 NTSC 표시에 변화를 가져올 것이다. 또한, 본 발명에 의해 연구 중에 있는 다른 수동의 오락 전용(컴퓨터와 호환되지 않음) 60 Hz 형식이 받아들여진다면, 다른 60 Hz 표시에도 변화를 가져올 수 있다.

해상도 스켈러빌리티는 해상도 보강 계층에 대해 개별적인 MPEG-2 영상 데이터 스트림을 이용함으로써 달성될 수 있다. 해상도 스켈러빌리티는 기본 해상도 계층 및 보강 해상도 계층 양쪽 모두에서 시간 스켈러빌리티를 제공하기 위해 B 프레임 방법을 이용할 수 있다.

명세서에 기술된 본 발명은 다수의 매우 바람직한 특징들을 달성한다. 미국의 ATV 처리에 관여했던 사람의 주장에 의하면, 해상도 및 시간 스켈러빌리티는 지상 방송에서 이용 가능한 약 18.5 메가비트/초 이내의 고선명도의 해상도에서 모두달성될 수 없다고 한다. 그러나, 본 발명은 이용 가능한 데이터 레이트 내에서 시간 및 공간-해상도 스켈러빌리티 모두를 달성한다.

높은 프레임 레이트의 2 메가픽셀을 달성하기 위해서는, 이용 가능한 18.5 메가비트/초의 데이터 레이트 내의 인터레이스를 사용하지 않을 수 없다고도 주장하고 있다. 그러나 해상도 (공간)-및 시간 스켈러빌리티를 달성하면, 초당 72 프레임 레이트로 2 메가픽셀을 제공할 수 있다.

이러한 기능의 제공에 더하여, 본 발명은 ATV에 대한 현행의 제안과 특히 비교해 볼 때 매우 안정성이 있다. 큰 부담을 주는 영상 자료를 만나는 경우, 대부분 또는 모든 비트를 기본 계층에 할당함으로써, 이것이 가능하게 된다. 이러한 부담을 주는 자료는 특성상 잡음 같고 매우 급격하게 변한다. 이러한 경우, 사람의 눈은 해상도의 보강 계층과 관련된 세부를 보지 못한다. 비트들이 기본 계층에 적응되기 때문에, 재생된 프레임은 단일의 항상 높은 해상도를 사용하는 현재 제안된 ATV시스템보다 실질적으로 더 정확하다.

따라서, 본 발명의 시스템은 최대의 시각적 효과를 제공하면서, 지각 효율과 인코딩 효율을 최적화한다. 본 발명의 시스템은 많은 사람들이 불가능하다고 여겨왔던 해상도와 프레임 레이트 성능에서 매우 깨끗한 영상을 제공한다. 본 발명의 시스템은 ACATS에 의해 제안된 ATV 형식보다 뛰어난 성능을 갖는 것으로 믿어진다.이 예상되는 뛰어난 성능에 더하여, 본 발명은 시간 및 해상도 계층화라는 아주 귀중한 특징도 제공한다.

본 발명은 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 그러나, 본 발명은 프로세서, 데이터 저장 시스템(휘발성, 불휘발성 메모리 및/또는 기억 소자 포함), 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치를 각각 구비하는 프로그램 가능한 컴퓨터에서 실행되는 컴퓨터 프로그램으로 구현되는 것이 바람직하다. 프로그램 코드(program code)를 입력 데이터에 주어, 본 명세서에서 기술된 기능들을 수행하고 출력 정보를 발생한다. 이 출력 정보는 공지된 방식으로 하나 이상의 출력 장치에 제공된다.

각 프로그램은 컴퓨터 시스템과 통신을 수행하기 위해 고레벨의 절차 언어 또는 객체 지향 프로그래밍 언어로 구현되는 것이 바람직하다. 그러나, 이들 프로그램은 소망에 따라 어셈블리어 또는 기계어로 구현될 수도 있다. 어떤 경우든지,그 언어는 컴파일된 또는 인터프리트된 언어(complied or interpreted language)일수 있다.

이러한 각 컴퓨터 프로그램은 양호하게는 범용 또는 전용의 프로그램 가능한 컴퓨터에 의해 판독 가능한 저장 매체 또는 장치(예컨대, ROM 또는 자기 디스켓)에 저장되어 있으며, 저장 매체 또는 저장 장치가 컴퓨터에 의해 판독될 때 본 명세서에서 기술된 절차를 수행하도록 그 컴퓨터를 구성하고 동작시키게 된다. 본 발명의 시스템은 컴퓨터 프로그램으로 구성된 컴퓨터 판독 가능한 저장 매체로서 구현하는것도 생각해볼 수 있으며, 그와 같이 구성된 저장 매체는 본 명세서예 기술된 기능들을 수행하도록 컴퓨터를 특정의 그리고 소정의 방식으로 동작시킨다.

본 발명의 다수의 실시예가 기재되었지만, 본 발명의 정신 및 범위를 벗어나지 않고 다양한 변형이 가능하라는 것을 잘 알 것이다. 예를 들어, 양호한 실시예는 MPEG-2 인코딩 및 디코딩을 사용하지만, 본 발명은 B 프레임, P 프레임 및 계층의 등가물을 제공하는 어떤 대등한 표준에서도 잘 동작할 것이다. 게다가, 상기 주어진 정확한 주파수와 프레임 레이트로부터의 (1 Hz 미만의) 적은 편차는 본 발명에 그다지 영향을 주지 않을 것이다. 따라서, 본 발명은 구체적으로 기술된 실시예에 제한되는 것이 아니라, 첨부된 청구항들의 범위에 의해서만 한정된다는 것을 잘 알 것이다.

Claims

비디오 정보를 캡쳐하고 압축하는 방법에 있어서,

(a) 대략 36 fps, 72 fps 및 75 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트(initial framing rate)로 복수 개의 프레임에서 비디오 영상을 캡쳐(capture)하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계를 포함하고,

상기 압축된 데이터 스트림은,

(1) 비교적 낮은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 기본 계층(base layer)과,

(2) 선택적인 적어도 하나의 시간 보강 계층(temporal enhancement layer)과, 선택적인 적어도 하나의 고해상도 보강 계층(high resolution enhamcement layer)과, 선택적인 적어도 하나의 고해상도 시간 보강 계층(high resolution temporal enhancement layer) 중 적어도 하나의 계층을 포함하고,

(A) 상기 적어도 하나의 시간 보강 계층은 비교적 낮은 해상도 및 상기 기본계층과 결합될 때 대략 60 Hz, 72 Hz, 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 인코딩된 비트 스트링을 포함하고,

(B) 상기 적어도 하나의 고해상도 보강 계층은 비교적 높은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하며,

(C) 상기 적어도 하나의 고해상도 시간 보강 계층은 비교적 높은 해상도 및 상기 고해상도 보강 계층과 결합될 때 대략 60 Hz, 72 Hz, 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제1항에 있어서, 상기 압축된 데이터 스트림은 약 19 메가비트/초 이하의 전체 비트 레이트(total bit rate)를 갖는 것인 비디오 정보의 캡처 및 압축 방법.
제1항에 있어서, 상기 압축된 데이터 스트림은 MPEG-2 압축을 이용하여 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제3항에 있어서, 상기 기본 계층은 MPEG-2 압축의 P 프레임만을 이용하여 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제3항에 있어서, 상기 각각의 시간 보강 계층은 MPEG-2 압축의 B프레임만을이용하여 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제3항에 있어서, 상기 각각의 고해상도 보강 계층은 MPEG-2 압축의 B 프레임을 사용하지 않고 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제3항에 있어서, 상기 각각의 고해상도 시간 보강 계층은 MPEC-2 압축의 B 프레임만을 이용하여 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제1항에 있어서, 2-1-2 풀다운 비율(pulldown ratio)을 이용하여, 상기 압축된 데이터 스트링의 상기 기본 계층으로부터 약 60 Hz로 표시하기 위한 프레임을 추출하는 단계를 더 포함하는 것인 비디오 정보의 캡처 및 압축 방법.
제1항에 있어서, 상기 기본 계층은 약 640× 480픽셀, 약 720× 486픽셀, 약 704× 480 픽셀, 약 680× 512 픽셀 및 약 1024× 512 픽셀 중 하나로부터 선택된 해상도를 갖는 것인 비디오 정보의 캡쳐 및 압축 방법.
제1항에 있어서, 상기 적어도 하나의 해상도 보강 계층은 각 차원 (dimension)에서 상기 기본 계층의 2 배의 해상도를 갖는 것인 비디오 정보의 캡쳐및 압축 방법.
제1항에 있어서, 상기 적어도 하나의 해상도 보강 계층은 상기 기본 계층의 중심부 영역에서만 상기 기본 계층의 픽셀들을 보강(enhance)한 것인 비디오 정보의 캡쳐 및 압축 방법.
대략 36 fps, 72 fps 및 75 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 캡쳐한 비디오 정보를 압축하기 위한 것으로, 상기 캡쳐된 비디오 프레임을 압축된 데이터 스트림으로 인코딩하여 출력하는 인코더를 포함하는 비디오 정보의 캡처 및 압축 장치로서,

상기 압축된 데이터 스트림은,

(a) 비교적 낮은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 기본 계층(base layer)과,

(b) 선택적인 적어도 하나의 시간 보강 계충(temporal enhancement layer),선택적인 적어도 하나의 고해상도 보강 계층(high resolution enhancement layer)및 선택적인 적어도 하나의 고해상도 시간 보강 계층(high resolution temporal enhancement layer) 중 적어도 하나의 계층을 포함하며,

(1) 상기 적어도 하나의 시간 보강 계층은 비교적 낮은 해상도 및 상기 기본계층과 결합될 때 대략 60 Hz, 72 Hz 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포항하고,

(2) 상기 적어도 하나의 고해상도 보강 계층은 비교적 높은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하며,

(3) 상기 적어도 하나의 고해상도 시간 보강 계층은 비교적 높은 해상도 및 상기 고해상도 보강 계층과 결합될 때 대략 60 Hz, 72 Hz 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 것인 비디오 정보의 캡쳐 및 압축 장치.
대략 36 fps, 72 fps 및 75 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 캡쳐된 비디오 정보를 압측하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독가능한 기록 매체에 있어서,

상기 프로그램은 상기 캡쳐된 비디오 프레임을 압축된 데이터 스트림으로 인코딩하기 위한 명령어들과 상기 압축된 데이터 스트림을 출력하기 위한 명령어들을 포함하고,

(a) 상기 압축된 데이터 스트림은,

(1) 비교적 낮은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 기본 계층(base layer)과,

(2) 선택적인 적어도 하나의 시간 보강 계층(temporal enhancement layer),선택적인 적어도 하나의 고해상도 보강 계층(high resolution enhancement layer)및 선택적인 적어도 하나의 고해상도 시간 보강 계층(high resolution temporal enhancement layer) 중 적어도 하나의 계층을 포함하고,

(A) 상기 적어도 하나의 시간 보강 계층은 비교적 낮은 해상도 및 상기 기본계층과 결합될 때, 대략 60 Hz, 72 Hz 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하고,

(B) 상기 적어도 하나의 고해상도 보강 계층은 비교적 높은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하며,

(C) 상기 적어도 하나의 고해상도 시간 보강 계층은 비교적 높은 해상도 및 상기 고해상도 보강 계층과 결합될 때 대략 60 Hz, 72 Hz 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 것인 컴퓨터로 판독가능한 기록 매체.
제1항에 있어서, 상기 복수 개의 프레임을 적어도 75 %의 듀티 사이클로 캡 쳐하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제1항에 있어서, 상기 인코딩 단계 이전에, 상기 복수 개의 프레임을 디인터레이스(de-interlace)하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
비디오 정보를 캡쳐하고 압축하는 방법에 있어서,

(a) 대략 36 fps, 72 fps 및 75 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 비디오 영상을 캡쳐하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계를 포함하고,

상기 압축된 데이터 스트림은,

(1) 쌍방향 예측된(bidirectionally predicted) 압축 B 프레임을 사용하지 않고 인코딩되며, 비교적 낮은 해상도 및 약 36 Hz의 프레임 레이트를 갖는 비트 스트림을 포함하는 기본 계층과,

(2) 전방 예측된(forward predicted) 압축 P프레임을 이용하지 않고 인코딩되며, 비교적 낮은 해상도 및 약 24 Hz의 프레임 레이트를 갖는 비트 스트림을 포함하는 시간 보강 계층을 포함하고,

상기 압축된 데이터 스트림은 디코딩 후에 60 Hz 또는 72 Hz 중 어느 하나의비디오 디스플레이상에 표시될 수 있는 것인 비디오 정보의 캡처 및 압축 방법.
제16항에 있어서, 2-1-2 풀다운 비율(pulldown ratio)을 이용하여, 상기 압축된 데이터 스트림의 상기 기본 계층으로부터 약 60 Hz로 표시하기 위한 프레임을추출하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
비디오 정보를 캡쳐하고 압축하는 방법에 있어서,

(a) 대략 36 fps, 72 fps 및 75 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트(initial framing rate)로 복수 개의 프레임에서 비디오 영상을 캡쳐(capture)하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계를 포함하고,

상기 압축된 데이터 스트림은,

(1) 쌍방향 예측된 압축 B프레임을 사용하지 않고 인코딩되며, 비교적 낮은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 기본 계층(base layer)과,

(2) 적어도 하나의 시간 보강 계층(temporal enhancement layer) 및 적어도 하나의 고해상도 보강 계층(high resolution enhancement layer) 중 적어도 하나의 계층을 포함하고,

(A) 상기 적어도 하나의 시간 보강 계층은, 전방 예측된 압축 P 프레임을 사용하지 않고 인코딩되며, 비교적 낮은 해상도 및 상기 기본 계층과 결합될 때 대략 60 Hz, 72 Hz, 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 비트 스트링을 포함하고,

(B) 상기 적어도 하나의 고해상도 보강 계층은 비교적 높은 해상도 및 대략 24 Hz, 36 Hz 및 37.5 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제18항에 있어서, 상기 압축된 데이터 스트림은 적어도 하나의 고해상도 시간 보강 계층을 더 포함하고,

상기 적어도 하나의 고해상도 시간 보강 계층은 전방 예측된 압축 P 프레임을 사용하지 않고 인코딩되며, 비교적 높은 해상도 및 상기 고해상도 보강 계층과 결합될 때 대략 60 Hz, 72 Hz 또는 75 Hz인 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제18항 또는 제19항에 있어서, 상기 고해상도 보강 계층은 쌍방향 예측된 압축 B 프레임을 이용하지 않고 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
비디오 정보를 캡쳐하고 압축하는 방법에 있어서,

(a) 대략 36 fps 및 72 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 비디오 영상을 캡쳐하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계와,

상기 압축된 데이터 스트림은,

(1) 쌍방향 예측된 압축 B 프레임을 사용하지 않고 인코딩되며, 약 1024 × 512 이하의 해상도 및 대략 24 Hz 및 36 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 기본 계층(base layer)과,

(2) 적어도 하나의 시간 보강 계층(temporal enhancement layer) 및 적어도 하나의 고해상도 보강 계층(high resolution enhancement layer) 중 적어도 하나의 계층을 포함하며,

(A) 상기 적어도 하나의 시간 보강 계층은 전방 예측된 압축 P 프레임을 사용하지 않고 인코딩되며, 약 1024 × 512 이하의 해상도 및 약 72 Hz의 프레임 레이트를 갖는 비트 스트림을 포함하고,

(B) 상기 적어도 하나의 고해상도 보강 계충은 적어도 약 1536 × 768인 해상도 및 대략 24 Hz 및 36 Hz인 프레임 레이트들 중의 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 것인 비디오 정보의 캡쳐 및 압축

방법.
제21항에 있어서, 상기 압축된 데이터 스트림은 전방 예측된 압축 P 프레임을 이용하지 않고 인코딩되며, 적어도 약 1536× 768의 해상도 및 상기 고해상도 보강 계층과 결합될 때 약 72 Hz의 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 적어도 하나의 고해상도 시간 보강 계층을 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제21항 또는 제22항에 있어서, 상기 고해상도 보강 계층은 쌍방향 예측된 압축 B 프레임을 이용하지 않고 인코딩되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제23항에 있어서, 상기 압축된 데이터 스트림은 약 19 메가비트/초 이하의 전체 비트 레이트를 갖는 것인 비디오 정보의 캡쳐 및 압축 방법.
제23항에 있어서, 상기 압축된 데이터 스트림은 약 72 fps의 유효 표시 레이트(effective display rate)에서 약 2 메가픽셀의 프레임 해상도를 제공하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제23항에 있어서, 상기 압축된 데이터 스트림 중의 각 계층에는 선택된 수의비트가 할당되며,

상기 기본 계층에 할당된 비트의 수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제1 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 고해상도 보강 계층에 할당된 모든 비트를 상기 기본 계층에 할당하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제26항에 있어서, 상기 제1 판정 단계 후에 상기 기본 계층에 할당된 비트와 수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제2 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 시간 해상도 보강 계층에 할당된 모든 비트를 상기 기본 계층에 할당하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제27항에 있어서, 상기 제2 판정 단계 후에 상기 기본 계층에 할당된 비트의수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제3 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 상기 기본 계층의 프레임 레이트를 저감시키는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제1항에 있어서, 상기 압축된 데이터 스트림의 각 계층에는 선택된 수의 비트가 할당되며,

상기 기본 계층에 할당된 비트의 수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제1 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 고해상도 보강 계층에 할당된 모든 비트를 상기 기본 계층에 할당하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제29항에 있어서, 상기 제1 판정 단계 후에 상기 기본 계층에 할당된 비트의수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제2 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 시간 해상도 보강 계층에 할당된 모든 비트를 상기 기본 계층에 할당하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제30항에 있어서, 상기 제2 판정 단계 후에 상기 기본 계층에 할당된 비트의수가 상기 캡쳐된 비디오 영상 내의 일련의 프레임을 만족스럽게 인코딩하기에 불충분한지 여부를 판정하는 제3 판정 단계 및 상기 비트의 수가 불충분한 것으로 판정된 경우, 상기 기본 계층의 프레임 레이트를 저감시키는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
비디오 정보를 캡쳐하고 압축하는 방법에 있어서,

(a) 대략 36 fps 및 72 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 비디오 영상을 캡쳐하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계를 포함하고,

상기 압축된 데이터 스트림은,

(1) 쌍방향 예측된 압축 B 프레임을 이용하지 않고 인코딩되며, 약 1024 ×512 이하의 해상도 및 대략 24 Hz 및 36 Hz인 프레임 레이트들 중 하나로부터 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 기본 계층과,

(2) 적어도 약 1536× 768의 해상도 및 대략 24 Hz와 36 Hz인 프레임 레이트들 중 하나로부터 선택된 프레임 레이트를 갖는 인코딩된 비트 스트림을 포함하는 적어도 하나의 고해상도 보강 계층을 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
비디오 정보를 캡처하고 압축하는 방법에 있어서,

(a) 대략 36 fps 및 72 fps인 프레임 레이트들 중 하나로부터 선택된 초기 프레임 레이트로 복수 개의 프레임에서 비디오 영상을 캡쳐하는 단계와,

(b) 상기 캡쳐된 비디오 영상을 압축된 데이터 스트림으로 인코딩하는 단계를 포함하고,

상기 압축된 데이터 스트림은,

(1) 쌍방향 예측된 압축 B 프레임을 이용하지 않고 인코딩되며, 약 1024 × 512 이하의 해상도 및 대략 24 Hz 및 36 Hz인 프레임 레이트들 중 하나로부터 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 기본 계층 및

(2) 전방 예측된 압축 P 프레임을 이용하지 않고 인코딩되며, 약 1024× 512이하의 해상도 및 상기 기본 계층과 결합될 때 약 72 Hz의 최종 프레임 레이트를 달성하도록 선택된 프레임 레이트를 갖는 비트 스트림을 포함하는 적어도 하나의 시간 보강 계층을 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제33항에 있어서, 인코딩 단계 이전에 상기 기본 계층을 더 낮은 해상도로 압축(squeeze)하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축 방법.
제34항에 있어서, 상기 기본 계층을 압축하는 단계는 상기 캡쳐된 비디오 영상의 프레임에 비대칭적으로 적용되는 것인 비디오 정보의 캡쳐 및 압축 방법.
제33항에 있어서, 인코딩 단계 이전에 상기 적어도 하나의 시간 보강 계층을 더 낮은 해상도로 압축하는 단계를 더 포함하는 것인 비디오 정보의 캡쳐 및 압축방법.