KR100319916B1

KR100319916B1 - 계층구조를갖는스케일러블디지탈화상압축/복원방법및장치

Info

Publication number: KR100319916B1
Application number: KR1019950036849A
Authority: KR
Inventors: 신재섭; 이시화; 서양석
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1995-10-24
Filing date: 1995-10-24
Publication date: 2002-04-22
Also published as: KR970025149A

Abstract

본 발명은 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법 및 장치에 관한 것으로서, 연속적으로 입력되는 화상시퀀스에 대하여 N개의 계층으로 분류하는 단계, 분류된 N개의 계층에서 화상을 구성하는 휘도신호와 색신호를 이용하여 컨텐트를 분리하는 단계, 컨텐트를 계층적으로 배열하여 각 계충을 독립적으로 부호화하여 비트스트림으로 출력하는 단계, 비트스트림에 대하여 계층 플래그신호를 이용하여 계층 및 컨텐트를 독립적으로 복원하는 단계를 포함한다. 따라서, 프레임내에 존재하는 각각의 컨텐트를 기본으로 하기 때문에 프레임내에서 컨텐트 단위로 컨텐트의 중요도에 따라 비트량을 할당하는 것이 가능하다.

Description

계층구조를 갖는 스케일러블 디지탈 화상 압축/복원방법 및 장치

본 발명은 계층구조를 갖는 스케일러블 디지탈 화상 압축/복원방법 및 장치에 관한 것으로서, 특히 프레임내에 존재하는 각각의 컨텐트를 기본으로 하여 화상을 압축 및 복원하기 위한 디지탈 화상 압축/복원방법 및 장치에 관한 것이다.

디지탈 화상 압축방식에는 여러가지가 있지만, 최근 들어 화상의 구조를 해석하여 데이타의 양을 줄이는 방법에 대하여 많은 연구가 진행되고 있다. 종래의 디지탈 화상 압축방식에는 화상의 경계성분과 경계성분에 둘러싸여 있는 내부성분들을 분석하여 압축에 이용하는 컨투어-텍스쳐 코딩(Contour-Texture Coding), 화상에서 동질성이 높은 부분끼리 함께 묶어서 표현해 주는 세그멘테이션(Segmentation), 미리 정해진 모델을 준비하고 입력되는 화상을 모델에 기준해서 묘사하는 모델에 근거한 코딩(Model-based Coding), 변환을 이용하는 웨이브렛(Wavelet) 및 프랙탈(Fractal) 코딩 등이 있다.

기존에 사용되고 있는 압축방식 중 가장 일반화되어 있고 우수한 방식은 현재 ISO/IEC JTC1/SC29/WG11(MPEG;Moving Picture Experts Group)에서 표준화가 완료된 MPEG-2 방식으로 프레임간 DPCM(Difference Pulse Code Modulation) 및 DCT(Discrete Cosine Transform)에 근거한 변환부호화방식이다. 이 방식은 연속되는 비디오 시퀀스에서 움직임을 예측하여 다음 프레임에서 소량의 움직임 벡터만으로 화상을 복원한 다음 오차신호에 대해서만 추가로 정보를 보내 줌으로써 데이타량을 상당히 감축할 수 있을뿐 아니라 화질도 매우 우수한 방식으로 널리 알려져 있다. 그러나, 상기의 방식은 화상을 단순히 2차원적인 신호로만 생각하여 처리함으로써 화상내에 컨텐트(content)의 중요도를 전혀 고려할 수 없다. 여기서, 컨텐트란 독립된 물체로서 의미를 갖는 것을 말한다. 따라서 상기의 방식은 중요한 부분을 더욱 좋게 처리하는 것 예를 들어, 컨텐트 단위의 처리 등의 능력이 요구되는 차세대 멀티미디어 응용에 많은 한계점을 갖는다.

또한, 미국특허 US 5,253,058 및 US 5,214,506에 개시된 압축방식도 모두 변환부호화를 이용하여 보다 저전송률에서도 효율적인 데이타 압축이 가능하도록 하는 방식이다. 미국특허 US 5,253,058에서는 화상을 각각의 주파수 대역별로 분할하여 서브밴드(sub-band)별로 독립된 처리를 행하고, 채널에서 허용하는 밴드에 따라 전송하는 정보량을 가감할 수 있도록 하는 방식으로 저전송율의 채널에서도 화질의 열화가 비교적 적게 발생하는 장점이 있지만 화상을 일정한 크기의 블럭 단위로 처리하기 때문에 이 방식 역시 실질적인 컨텐트를 고려하고 있지 못하다. 한편, 미국특허 US 5,214,506은 MPEG-2 방식과 거의 유사한 것으로, 공간좌표상의 화상데이타를 주파수 영역으로 변환할 때 이를 미리 주어진 순서로 양자화하여 순서적으로 전송하면 필요한 데이타만을 사용하여 효율적으로 화상을 재현할 수 있다고 하는 방식으로 이미 많이 알려진 일반화된 기술이다. 종래의 화상 압축/복원방식에 대하여 제1도와 제2도를 참조하여 좀 더 상세히 설명하면 다음과 같다.

제1도에 있어서, 연속하는 동화상의 입력시퀀스(1)가 들어오면 이를 미리 정해진 프레임 구조에 따라 재배열하는 프레임 재배열부(2)를 거친후, 움직임추정부(3)에서 일정한 블럭을 기본 단위로 하는 움직임 추정을 하게 되며, 이 단위를 기본으로 하여 움직임 보상 및 오차신호 복원과정을 거치게 된다.

즉, 기존의 방식은 제3A도에서와 같이 연속하는 프레임 중에서 임의의 한 프레임(31)을 가정할 때, 일정크기의 블럭(32)을 기본 단위로 하여 블럭내에 존재하는 불필요한 정보를 최대한 제거하는 것이 목적이다. 그러므로, 화상내에 존재하는 의미있는 컨텐트인 집(33)을 구성하는 상관관계는 고려하지 않는다. 그리고, 이전프레임과 이후프레임을 이용하여 움직임을 추정하는 경우에도 기본단위인 제3B도의 블럭(35)을 이용하여 상, 하, 좌, 우의 일정범위(36,37,38,39)를 움직이면서 가장 오차가 적은 부분을 찾는 방식을 이용하고 있다. 이때, 블럭내에 존재하는 신호의 중복성을 제거하기 위해서는 DCT(6)를 사용하며, 보다 많은 정보량의 감축을 위해서 이 값을 다시 일정한 비율로 줄여주는 양자화기(7)를 통과하여 양자화를 실시한다.

양자화된 신호는 통계적인 특성을 이용하여 정보량을 줄여주는 가변장 부호화기(8)를 통해 더욱 압축된 다음, 멀티플렉서(MUX:9)예서 움직임 정보와 함께 조합되어 버퍼(10)를 통해 수신단으로 전송된다. 이때, 시스템의 안정된 동작을 위하여 출력되는 데이타의 양을 일정하게 유지시켜 주어야 하는데 이 역할을 하는 것이 레귤레이터(11)로서, 버퍼(10)에 오버플로우(overflow)나 언더플로우(underflow)가 발생하지 않도록 한다. 한편, 복잡도 계산부(4)는 현재 블럭의 복잡도를 계산하고 현재 블럭이 중요한 블럭인지 그렇지 않은 블럭인지를 판단하여 양자화되는 양을 결정하는데 변수로 참여하게 된다.

이렇게 하여 전송되는 비트스트림 데이타는 제2도의 버퍼(21)를 거쳐서 디멀티플렉서(DEMUX;22)에서 필요한 신호들로 분리된 다음, 가변장 복호화기(23)에서 일정한 크기의 데이타들로 변환된다. 제1도의 압축장치의 역순으로 역양자화기(24)에서 역양자화과정을 거친 신호는 IDCT2(Inverse DCT2:25)에서 역변환을 하여 원래의 화상신호에 가까운 신호를 재생해 낸다. 물론 양자화과정을 거치기 때문에 원화상의 정보를 완전히 재생하는 것은 불가능하다.

제1도와 제2도에 도시된 방식은 최근 국제적으로 관심을 불러 일으키고 있는 동화상 압축 및 복원에 관련된 국제표준방식인 MPEG-2에 채택된 것으로 기존의 방식들 중에서는 가장 최적의 것으로 알려져 있다.

그러나, 이 방식들은 임의의 크기를 갖는 블럭을 기본 단위로 하여 화상을 압축하고 복원하기 때문에 화상의 컨텐트를 전혀 고려하지 않는다. 그러므로 화상으로 부터 특정한 부분을 선택하거나, 특정부분만을 압축하여 전송한 다음 복원하는 것과 같은 기능들을 제공할 수 없기 때문에 미래의 중요한 응용분야인 멀티미디어 데이타 베이스 억세스(Multimedia Database Access) 시스템 등에 적용이 불가능한 단점이 있다.

현재 컨텐트 자체를 화상으로 부터 독립적으로 분리하여 의미있는 구조로 재배열한 다음 이를 일련의 비트스트림으로 전송하여 수신단에서 해석할 수 있도록 하는 방식은 제안된 것이 없으며, 이러한 방식은 새로운 개념의 비디오 압축 및 조작(manipulation) 방식이라고 볼 수 있다.

따라서 본 발명의 목적은 상술한 문제점을 해결하기 위하여 화상에 존재하는균일성과 경계성을 근거로 하여 화소 단위로 화상의 분포특성에 따라 분할한 다음 그에 가장 적합한 근사화된 값과 영역의 모양을 묘사하는 컨투어 정보만을 보내주어 송신단에서 의도하는 화상을 적은 정보량으로 수신단에서 재현할 수 있도록 하는 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법을 제공하는데 있다.

본 발명의 다른 목적은 상기 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법을 실현하는데 가장 적합한 장치를 제공하는데 있다.

상기 목적을 달성하기 위하여 본 발명에 의한 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법은

연속적으로 입력되는 화상시퀀스에 대하여 N개의 계충으로 분류하는 단계;

상기 분류된 N개의 계층에서 화상을 구성하는 휘도신호와 색신호를 이용하여 컨텐트를 분리하는 단계;

상기 컨텐트를 계층적으로 배열하여 각 계층을 독립적으로 부호화하여 비트스트림으로 출력하는 단계: 및

상기 비트스트림에 대하여 계층 플래그신호를 이용하여 계층 및 컨텐트를 독립적으로 복원하는 단계를 포함하는 것을 특징으로 한다.

상기 다른 목적을 달성하기 위하여 본 발명에 의한 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원장치는

연속적으로 입력되는 화상시퀀스에 대하여 프레임 단위로 N개의 계층으로 분류하기 위한 계층분류기:

N개의 계층화상 각각에 대하여 휘도신호와 색신호를 이용하여 분할하고, 모양별로 그루핑하여 컨텐트를 형성하기 위한 N개의 세그멘테이션부:

상기 형성된 컨텐트를 구성하는 화소값을 각각 근사화시켜 N개의 계층에 해당하는 계수값을 생성하기 위한 N개의 텍스쳐 근사화기:

상기 형성된 컨텐트의 컨투어를 추출하여 경계값을 출력하기 위한 N개의 컨투어 추출부;

상기 형성된 컨텐트에 대하여 독립적으로 움직임을 예측하여 컨텐트 단위로 움직임 정보를 출력하기 위한 움직임 추정부:

상기 N개의 텍스쳐 근사화기에서 출력되는 계수값을 부호화하기 위한 N개의 계수값 코딩부;

상기 N개의 컨투어 추출부에서 출력되는 경계값을 상기 움직임 추정부에서 출력되는 움직임정보를 이용하여 체인 코딩하기 위한 N개의 체인 코딩부;

상기 N개의 계수값 코딩부와 N개의 체인 코딩부에서 각각 코딩되어 출력되는 계수값과 경계값 및 상기 움직임 추정부에 출력되는 움직임 정보를 계충별로 비트스트림으로 형성하고, 상기 비트스트림의 전송률을 주어진 전송로의 상태에 따라 제어하기 위한 레이트 제어기:

상기 비트스트림으로부터 움직임정보, 모양정보와 색정보를 분류하기 위한 디멀티플렉서:

상기 분류된 움직임정보, 모양정보와 색정보를 이용하여 상기 비트스트림을 N개의 계층데이타로 분류하기 위한 계층분류기;

상기 계층분류기에서 분류된 N개의 계층데이타를 재생하여 원화상에 가까운정보들로 복원하기 위한 N개의 계층재생기; 및

상기 N개의 계층재생기에서 복원된 정보를 하위 계층에서 부터 상위계층으로 누적하여 필요로 하는 해상도 및 정보를 추출하기 위한 N개의 누적기를 포함하는 것을 특징으로 한다.

이하 본 발명의 일실시예에 대하여 침투된 도면을 참조하여 상세히 설명 하기로 한다.

제4도는 본 발명에 의한 디지탈 화상 압축장치를 나타낸 블럭도로서, 계층분류기(102), N개의 세그맨세이션부(106,107,108), N개의 텍스쳐 근사화기(110,130,150), N개의 컨투어 추출부(120,140,160), N개의 계수값 코딩부(170,191,193), N개의 체인 코딩부(180,192,194), 레이트제어기(195)와 움직임 추정부(200)로 구성된다.

제5도는 본 발명에 의한 디지탈 화상 복원장치를 나타낸 블럭도로서, 버퍼(251), 디멀티플렉서(BEMUX:252), 계층선택기(260), N개의 계층재생기(270,280,290)와 N개의 누적기(256,257,258)로 구성 된다.

그러면 제4도 내지 제12도를 참조하여 본 발명의 작용 및 효과를 설명하면 다음과 같다.

제4도에 있어서, 계층 분류기(102)에서는 연속되는 입력시퀀스(101)에 대하여 각각의 프레임을 기본단위로 하여 필요한 계층의 수를 선택한다. 이때 선택된 계층에 따라 계층 0(103)에서 계층 N-1(105)까지 N개의 계층으로 분류될 수 있다. 각각의 계층은 세그멘테이션부 0(106)에서 부터 세그멘테이션부 N-1(108)까지 N개의 세그멘테이션부를 가진다. 이들은 화상을 컨텐트의 구성에 따라 모양별로 그루핑(grooping)하여 하나의 의미있는 오브젝트(object)인 컨텐트를 분리한다. 여기서, 컨텐트는 휘도신호와 색신호의 유사성을 이용하여 화소값이 서로 비슷하도록 배열해 주는 비선형 필터링을 거친 화소들에 대하여 유사한 성질을 갖는 화소들을 하나의 영역으로 묶어주는 세그멘테이션에 의해 분리된다. 즉, 제6A도에 도시한 바와 같이 임의의 한 프레임(111)예서 기존의 방식이 일정 크기의 블럭을 사용하는 것에 반에 본 발명에서는 화상을 구성하는 밝기성분(휘도라고 함) 혹은 색성분이 유사한 것들을 모아서 컨텐트 단위로 분리한다.

즉, 제6A도에서 집이 지붕(112), 벽(113), 원으로 된 공간(114) 및 창문들(115)로 분리되어 찾아지게 되며, 이들 각각은 움직임 추정부(200)에서 독립된 움직임 예측을 실행한다. 한편, 제6B도에서와 같이 지붕(112)은 그의 외곽 경계화소들로 이루어진 컨투어(contour;203)를 이용하여 상하(202), 좌우(204)로 이동하면서 움직임을 예측한다.

상기한 바와 같은 방법으로 움직임을 예측하면 컨텐트의 형태에 따라 움직임을 예측할 수 있기 때문에 기존의 방식에 비해서 매우 우수한 움직임 보상결과를 얻을 수 있다.

한편, 각각의 컨텐트들을 구성하는 화소값은 텍스쳐 근사화기 0(110)에서 텍스쳐 근사화기 N-1(150)까지 N개의 독립된 근사화 과정을 거쳐서 각각의 계층에 맞는 계수값들을 구하게 된다. 이와 동시에 각각의 컨텐트들은 그들의 모양정보를 전송하기 위하여 컨투어 추출부 0(120)에서 부터 컨투어 추출부 N-1(160)을 통하여각각의 계층에서 발생하는 컨텐트들의 컨투어 정보를 구하게 된다.

이때 구해진 텍스쳐 근사화기의 결과값은 계수값 코딩부 0(170)에서 부터 계수값 코딩부 N-1(194)를 통해 계층별로 레이트 제어기(195)로 입력되고, 이와 동시에 컨텐트의 모양정보인 경계값들은 체인코딩부 0(180)에서 부터 체인 코딩부 N-1(193)을 통하여 체인 코딩(chain coding)된 후 레이트 제어기(195)에 입력되어 주어진 전송로의 상태에 따라 정보의 양을 조절하게 된다.

이렇게 하여 생성된 비트스트림은 제5도에서와 같이 버퍼(251)를 통하여 디멀티플렉서(DEMUX:252)에서 각각의 필요한 데이타들로 분류된 다음 레이어 선택기(260)에서 각각의 레이어 데이타들로 분류된다. 이때 각각의 레이어를 구성하는 정보는 상기한 제4도의 화상압축장치에서의 컨텐트를 기본으로 하여 세가지 중요한 구성요소가 있는데, 첫째는 움직임정보(253)이고, 둘째는 모양정보(254)이고, 셋째는 색정보(255)이다. 이들 각각은 레이어 재생기 0(270)에서 부터 레이어 재생기 N-1(290)들을 통하여 원화상에 가까운 정보들로 복원된 다음 각각의 누적기(256,257,258)을 통하여 필요한 해상도 및 필요한 정보만을 추출할 수 있게 된다.

상기한 방식은 화상에 존재하는 컨텐트들을 기본단위로 압축한 다음, 이를 복원하는 방식이기 대문에 필요한 컨텐트만을 추출해 낼 수 있을 뿐 아니라 전송시에 중요한 컨텐트에는 비트량을 많이 할당하고 중요하지 않은 컨텐트에는 비트량을 적게 할당하는 스케일러블 코딩기법을 적용할 수 있다.

한편, 본 발명의 핵심 사항인 스케일러블 비트스트림을 생성하는 과정을 제7도 내지 제11도를 참조하여 설명하면 다음과 같다.

입력되는 각각의 시퀀스 화상데이타는 제7도의 (a)에 도시된 바와같이 I 프레임(Intraframe:301)에서 임의의 갯수의 P 프레임(Interframe 혹은 Predicted frame:302)을 거켜 다음 I 프레임이 나오기 까지의 단위인 GOP(Group Of Picture)가 고정된 프레임 구조(303 혹은 304)를 갖는 것도 있고, 제7도의 (b)에 도시된 바와 같이 가변 프레임 구조(305)를 갖는 것도 존재하게 된다.

제7도에 도시된 바와 같은 프레임 구조에서 하나의 프레임을 보면 제8도에 도시된 바와 같이 하나의 프레임을 3개의 레이어(layer)로 분류하여 각각의 레이어에 따라 추출되어지는 컨텐트의 복잡도를 달리하여 화질을 제어할 수 있도록 한다.

즉, 제8도의 (a)에 도시된 레이어 0(306)에서 추출된 컨텐트는 배경(100), 마름모(200), 원(300) 및 사각형(400)이다. 이들은 다음 레이어인 레이어 1(307:제8도의 (b))에서 마름모(200)가 두개의 다른 컨텐트 즉, 사각형(210)과 타원(220)을 포함하고 있으며, 원(306)은 세개의 부분(310,320,330)으로 분할되었고, 사각형(400)은 내부에 사각형(410)과 타원(420)을 포함하는 구조로 되어 있음을 알 수 있다. 레이어 1(307)에서와 같은 방법으로 레이어 2(308;제8도의 (c))도 더 작은 부분(331,332,411,412,421,422)들로 분할하게 된다. 이들은 각각의 상호관계가 나무구조(tree structure)로 연결되어 상호간의 관계를 나타낼 수 있게 배열된다.

즉, 전체 프레임(1)은 배경(100), 마름모(200), 원(300) 및 사각형(400)으로 구성되며(이를 레이어 0(322)이라 함), 마름모(200)는 사각형(210)과 타원(220)을 포함하며, 원(300)은 3개의 부분(310,320,330)으로 분리되고, 사각형(400)은 사각형(410)과 타원(420)을 포함하는 구조를 가지며(이를 레이어 1(323)이라 함), 분할된 원(330)은 다시 2개의 부분(331,332)으로 분할되고, 사각형 (410)은 2개의 부분(411,412)으로 분할되며, 타원(420)은 2개의 부분(421,422)으로 분할되는 구조를 갖고 있다(이를 레이어 2(324)라 함).

이와 같이 분리된 데이타들은 제9도에 도시된 바와 같은 비트스트림의 형태를 취하게 된다. 즉, 전체 비트스트림(331)은 제9도의 (a)에서와 같이 각각의 레이어 헤더(335)와 각각의 세그먼트 헤더(334)ㅌ를 포함하며, 각각의 컨텐트가 가진 고유한 데이타영역을 가지게 된다. 한편, 인트라프레임(332)의 경우 제9도의 (b)에서와 같이 컨텐트의 고유 ID, 컨투어의 시작이 되는 Y,X 조표값, 체인코드, 색정보, 레이어플래그 등의 정보로 구성되어 있으며, 인터프레임의 경우 제9도의 (c)에서와 같이 컨텐트의 고유 ID, 움직임 벡터성분 및 움직임 보상후의 오차성분과 레이어 플래그 등의 정보로 구성된다. 상호간의 정보 구성관계를 제10도를 참조하여 좀 더 상세히 설명하면 다음과 같다.

제10도에 있어서 우선 5개의 레이어 구조를 가지는 것으로 가정하며, 첫번째 프레임은 인트라프레임(341)으로 레이어 0에서는 컨텐트를 근사화하여 F1'을 만들고, 이것을 원화상(341)과의 차(①)를 구하고, 그것으로 부터 근사화된 신호를 생성하여 이것과 원화상(341)과의 차(②)를 구하는 과정을 레이어 4가지 반복한다.

다음으로, 인터프레임(342,343,344,345)들은 바로 이전에 복원된 프레임의 데이타를 참조로 하는 것이 인트라프레임과 다른 점이다. 인터프레임(342)을 예로 들면, 먼저 F1'과 F2'에 있는 컨텐트들을 이용하여 각각의 컨텐트가 움직임 거리(모션벡터)를 구하고, 이것으로 부터 움직임이 보상된 신호를 구해서 이것과 원화상(342)과의 차(⑤)를 구하고, 이것을 인트라프레임의 레이어 1에서 구한 값을 이용하여 움직임 보상을 행한 다음 원화상(342)과의 차(⑥)를 구하는 과정을 반복하여 제9도에 도시된 바와 같은 비트스트림을 생성한다.

상기한 바와 같은 구조를 갖는 시스템에서 비트스트림을 생성해내는 과정과 이때 사용되는 신택스(syntax)를 제11도에 도시하였다. 즉, 상위 레이어로 부터 하위 레이어로 ID(357)들을 상호 유기적으로 할당하여 레이어들간의 상호관계를 ID 만으로 구별할 수 있도록 하고 있다. 가운데 그림은 레이어가 연속된 경우와 그렇지 못하고 건너뛴 경우에도 모두 관련을 가질 수 있음을 보여 주기 위해서 도시한 것으로, 두번째 레이어(353)에서 타원은 세번째 레이어(354)에 곧바로 이어지는 것이 아니라 네번째 레이어(355)에서 또 다른 삼각형을 포함하고 있으므로 이들의 상호관계를 효율적으로 구분지을 수 있는 ID가 필요하다. 또한, 좌측의 신택스(351)는 각각의 레이어에 존재하는 컨텐트들의 비트스트림 구조를 만드렁내는데 사용된 것으로 시퀀스 시작 플래그에서 부터 시퀀스가 끝나는 플래그 세팅까지 모두 다루고 있다.

다음 표1은 본 발명에 의해 생성된 비트스트림의 형태를 나타낸 것으로서, 좀 더 큰 폰트의 숫자는 레이어의 경계를 나타내며 짙은 글씨로 되어 있는 것이 각각의 컨텐트의 ID들을 보여 주는 것이다. 그 뒤가 경계성분의 체인코드의 시작 Y, X 좌표이고, 이어서 체인코드가 반복되고 9를 만나면 다음에 색정보가 들어있게 된다.

(표 1)

한 프레임을 각각의 레이어별로 세그멘테이션한 결과를 보여 주는 것으로서, 제12도 (a)의 레이어 0에서 부터 제12도 (d)의 레이어 3에 이르기까지 각각의 영역들이 점점 다 세분화되어 가는 것을 알 수 있다.

본 발명은 가정용 디지탈 화상전화기, 화상 데이타베이스 서비스, 홈 쇼핑, 차량용 화상정보 서비스 등에 적용할 수 있다. 또한, 본 발명은 한장으로 구성된 정지화상 및 여러장으로 구성된 동화상에 모두 적용가능하다.

상술한 바와 같이 본 발명에 의한 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법 및 장치에서는 프레임내에 존재하는 각각의 컨텐트를 기본으로 하기 때문에 프레임내에서 컨텐트 단위로 컨텐트의 중요도에 따라 비트량을 할당하는 것이 가능하다. 또한, 기존의 방식은 프레임 단위로의 조작만이 가능하지만 본 발명에 의하면 컨텐트 단위로의 조작이 가능하다. 또한, 화상 전송시 기존의 방식은 프레임내의 불필요한 정보도 함께 전송해야 하지만 본 발명에 의하면 필요한 컨텐트만을 코딩하여 전송하는 것이 가능하다. 또한 이미 만들어져 있는 데이타와의 합성도 가능하며, 사용자와의 대화형(interactivity) 시스템 구성이 가능하다. 또한, 비디오 데이타 베이스 구성시, 기존의 방식은 프레임 단위로의 저장 및 검색이 가능하였지만 본 발명에 의하면 프레임 단위 뿐만 아니라 컨텐트 단위의 저장 및 검색이 가능하다.

제1도는 종래의 일반적인 디지탈 화상 압축장치를 나타낸 블럭도.

제2도는 종래의 일반적인 디지탈 화상 복원장치를 나타낸 블럭도.

제3A,3B도는 제1도와 제2도에 도시된 화상 압축/복원장치에 의한 처리의 기본과정을 나타낸 도면.

제4도는 본 발명에 의한 디지탈 화상 압축장치를 나타낸 블럭도.

제5도는 본 발명에 의한 디지탈 화상 복원장치를 나타낸 블럭도.

제6A,6B도는 제4도와 제5도에 도시된 화상 압축/복원장치에 의한 처리의 기본과정을 나타낸 도면.

제7도는 본 발명에서 고려하는 프레임의 배열구조를 나타낸 도면.

제8도는 계충구조의 전형적인 예를 나타낸 도면.

제9A∼9C도는 본 발명에 의해 생성되는 압축된 데이타의 구성형태를 나타낸 도면.

제10도는 각 프레임의 상관관계 및 요구되는 데이타의 형태를 나타낸 도면.

제11도는 본 발명에서 제시한 비트스트림을 생성하는 과정 및 이에 필요한 신택스를 나타낸 도면.

제12도는 각 레이어의 세그멘테이션 결과를 나타낸 도면.

Claims

연속적으로 입력되는 화상시퀀스에 대하여 N개의 계층으로 분류하는 단계.

상기 분류된 N개의 계층에서 화상을 구성하는 휘도신호와 색신호를 이용하여 컨텐트를 분리하는 단계;

상기 컨텐트를 계층적으로 배열하여 각 계층을 독립적으로 부호화하여 비트스트림으로 출력하는 단계; 및

상기 비트스트림에 대하여 계층 플래그신호를 이용하여 계층 및

컨텐트를 독립적으로 복원하는 단계를 포함하는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법.
제1항에 있어서, 상기 컨텐트 분리단계는 상기 휘도신호와 색신호의 유사성을 이용하여 화소값이 서로 비슷하도록 배열해 주는 비선형 필터링을 거친 화소들에 대하여 유사한 성질을 갖는 화소들을 하나의 영역으로 묶어주는 세그멘테이션에 의해 수행되는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 비디오 압축/복원방법.
연속적으로 입력되는 화상시퀀스에 대하여 프레임 단위로 N개의 계층으로 분류하기 위한 계층분류기;

N개의 계층화상 각각에 대하여 휘도신호와 색신호를 이용하여 분할하고 모양별로 그루핑하여 컨텐트를 형성하기 위한 N개의 세그멘테이션부;

상기 형성된 컨텐트를 구성하는 화소값을 각각 근사화시켜 N개의 계층에 해당하는 계수값을 생성하기 위한 N개의 텍스쳐 근사화기:

상기 형성된 컨텐트의 컨투어를 추출하여 경계값을 출력하기 위한 N개의 컨투어 추출부;

상기 형성된 컨텐트에 대하여 독립적으로 움직임을 예측하여 컨텐트 단위로 움직임 정보를 출력하기 위한 움직임 추정부:

상기 N개의 텍스쳐 근사화기에서 출력되는 계수값을 부호화하기 위한 N개의 계수값 코딩부:

상기 N개의 컨투어 추출부에서 출력되는 경계값을 상긴 움직임 추정부에서 출력되는 움직임정보를 이용하여 체인 코딩하기 위한 N개의 체인 코딩부: 및

상기 N개의 계수값 코딩부와 N개의 체인 코딩부에서 각각 코딩되어 출력되는 계수값 및 경계값 및 상기 움직임 추정부에 출력되는 움직임 정보를 계층별로 비트스트림으로 형성하고, 상기 비트스트림의 전송률을 주어진 전송로의 상태에 따라 제어하기 위한 레이트 제어기를 포함하는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 화상 압축장치
연속적으로 입력되는 화상시퀀스를 N개의 계층으로 분류하고, N개의 계층에서 분리된 컨텐트를 기본으로 하여 계층별로 부호화되어 출력되는 비트스트림을 복원하기 위한 디지탈 화상 복원장치에 있어서, 상기 비트스트림으로부터 움직임정보, 모양정보와 색정보를 분류하기 위한 디멀티플렉서:

상기 분류된 움직임정보, 모양정보와 색정보를 이용하여 상기 비트스트림을 N개의 계층데이타로 분류하기 위한 계층분류기;

상기 계층분류기에서 분류된 N개의 계층데이타를 재생하여 원화상에 가까운 정보들로 복원하기 위한 N개의 계층재생기: 및

상기 N개의 계층재생기에서 복원된 정보를 하위 계층에서 부터 상위계충으로 누적하여 필요로 하는 해상도 및 정보를 추출하기 위한 N개의 누적기를 포함하는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 화상 복원장치.
연속적으로 입력되는 화상시퀀스에 대하여 프레임 단위로 N개의 계층으로 분류하기 위한 계층분류기;

N개의 계층화상 각각에 대하여 휘도신호와 색신호를 이용하여 분할하고, 모양별로 그루핑하여 컨텐트를 형성하기 위한 N개의 세그멘테이션부;

상기 형성된 컨텐트를 구성하는 화소값을 각각 근사화시켜 N개의 계충에 해당하는 계수값을 생성하기 위한 N개의 텍스쳐 근사화기;

상기 형성된 컨텐트의 컨투어를 추출하여 경계값을 출력하기 위한 N개의 컨투어 추출부:

상기 형성된 컨텐트에 대하여 독립적으로 움직임을 예측하여 컨텐트 단위로 움직임 정보를 출력하기 위한 움직임 추정부;

상기 N개의 텍스쳐 근사화기에서 출력되는 계수값을 부호화하여 색정보를 출력하기 위한 N개의 계수값 코딩부;

상기 N개의 컨투어 추출부에서 출력되는 경계값을 상기 움직임 추정부에서 출력되는 움직임정보를 이용, 체인 코딩하여 모양정보를 출력하기 위한 N개의 체인 코딩부;

상기 N개의 계수값 코딩부와 N개의 체인 코딩부에서 각각 코딩되어 출력되는 색정보와 모양정보 및 상기 움직임 추정부에 출력되는 움직임 정보를 계층별로 비트스트림으로 형성하고, 상기 비트스트림의 전송률을 주어진 전송로의 상태에 따라 제어하기 위한 레이트 제어기;

상기 비트스트림으로부터 움직임정보, 모양정보와 색정보를 분류하기 위한 디멀티플렉서;

상기 분류된 움직임정보, 모양정보와 색정보를 이용하여 상기 비트스트림을 N개의 계층데이타로 분류하기 위한 계층분류기;

상기 계층분류기에서 분류된 N개의 계충데이타를 재생하여 원화상에 가까운 정보들로 복원하기 위한 N개의 계층재생기; 및

상기 N개의 계층재생기에서 복원된 정보를 하위 계층에서 부터 상위계층으로 누적하여 필요로 하는 해상도 및 정보를 추출하기 위한 N개의 누적기를 포함하는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 화상 압축/복원장치.
제3항, 제4항 또는 제5항에 있어서, 상기 비트스트림은 인트라프레임인 경우, 각 컨텐트에 대하여 컨텐트 ID, 컨텐트 시작점의 X,Y 조표값, 체인코드 및 근사화된 휘도신호와 색신호 데이타로 구성되는 것을 특징으로 하는 계층구조를 갖는 스케일러블 디지탈 화상 압축/복원장치.
제3항, 제4항 또는 제5항에 있어서, 상기 비트스트림은 인터프레임인 경우, 각 컨텐트에 대하여 컨텐트 ID, 이전프레임에서 참조한 컨텐트 ID, 움직임 벡터, 오차신호의 체인코드로 구성되는 것을 특징으로 하는 계충구조를 갖는 스케일러블 디지탈 화상 압축/복원장치.