KR20020047031A

KR20020047031A - 효율적인 화상 처리 방법 및 장치

Info

Publication number: KR20020047031A
Application number: KR1020017013264A
Authority: KR
Inventors: 프라카쉬아디툐; 프라카쉬에니코에프
Original assignee: 펄센트 코포레이션
Priority date: 1999-04-17
Filing date: 2000-04-17
Publication date: 2002-06-21
Also published as: JP4943586B2; IL145956A0; JP2011142663A; AU4468000A; AU4468500A; EP1180308A1; WO2000064148A1; JP5130381B2; WO2000064167A1; WO2000064148A9; JP2003524314A; EP1180308A4

Abstract

본 발명에 따른 화상 압축 방법 및 장치는 액티브 디코더를 사용한다. 대응하는 인코더는 이미지에 대한 고유의 구조 정보(예컨대, 이미지 세그먼테이션, 기하학, 칼러 및/또는 밝기)에 기초하여 기준 프레임(102)을 인코딩함으로써 크게 감소된 오버헤드를 갖는 감소된 비트스트림을 생성할 수 있으며, 그 후 이 구조 정보에 관련되는 다른 프레임을 예측한다. 통상적으로, 예측 프레임의 설명은 키네틱 정보(예컨대, 세그먼트 모션 데이터 및/또는 이전의 폐색된 영역의 정보를 나타내는 관련 잔여물 및/또는 부정확한 매칭 및 새로운 정보의 출현, 및 모션 그 자체에 의해 캡쳐링되지 않은 세그먼트 진화부 등)를 포함한다. 디코더가 예측된 프레임을 기초로 하는 구조 정보(및 이들 사이의 관련성)를 독립적으로 결정할 수 있기 때문에, 이러한 정보는 디코더로 명시적으로 전송될 필요는 없다. 차라리, 인코더는 디코더가 그 자체 상에서 판정할 수 없다는 것을 인지하는 전송 정보만을 필요로 한다.

Description

효율적인 화상 처리 방법 및 장치{METHOD AND APPARATUS FOR EFFICIENT VIDEO PROCESSING}

1. 간략한 소개

소비자들이 보다 화상 집약적인 통신 모드를 소망함에 따라, 제한된 대역폭의 현 전송 모드(예컨대, 방송, 케이블, 전화선 등)는 사용이 금지되어 가고 있다. 인터넷의 도입 및 그 후속되는 월드 와이드 웹, 화상 회의 및 디지털 & 대화형 텔레비젼의 대중화는 기존의 대역폭을 보다 효율적으로 이용할 수 있는 방법을 필요로 한다. 또한, 화상 집약적인 어플리케이션에는 방대한 저장 능력이 필요한다. 대부분의 컴퓨터 시스템에서의 멀티미디어 능력의 출현은 하드 드라이브와 같은 통상적인 저장 장치에 극단적으로 무거운 부담을 지운다.

압축은 디지털 동화상이 효율적이고 저렴하게 표시될 수 있게 한다. 압축의 잇점은 더 많은 정보가 정해진 시간 내에 전송되거나 소정의 저장 매체에 저장될 수 있게 한다는 것이다. 화상 압축의 궁극적인 목표는 가능한 많은 화상 시퀀스(video sequence)의 비트스트림 또는 화상 정보 플로우를 감소시키는 한편, 디코더 또는 수신기가 텔레비젼, 화상 회의 등과 같은 특정 어플리케이션에 적절한 방식으로 화상 이미지 시퀀스를 재현할 수 있는 충분한 정보를 보유하는 것이다.

대부분의 디지털 신호는 상당량의 필요치않은 과잉 정보를 포함한다. 예를 들면, 정지 화면(stationary video scene)은 각 장면(scene)에서 거의 동일한 이미지를 생성한다. 대부분의 화상 압축 루틴이 과잉 정보를 제거하려고 시도하기 때문에, 관련 이미지 프레임(image frame)은 이전의 이미지 프레임(들)에 관해서 표시될 수 있고, 이에 따라 각 화상 프레임의 장면 전체를 전송할 필요가 없게 된다. 이와 달리, 모션 JPEG(motion JPEG)과 같은 루틴은 각 화상 프레임을 각각 코딩하고 시간적 용장성(temporal redundancy)을 무시한다.

2. 종래예

화상 이미지를 적절히 압축하려고 수많은 시도가 있었다. 이들 방법은, 일반적으로 다음 두 개의 카테고리로 나뉘는데, 두 개의 카테고리로는 1) 공간적 용장성(spatial redundancy) 감소와 2) 시간적 용장성(temporal redundancy) 감소이다.

2.1 공간적 용장성 감소

화상 압축의 제1 유형은 공간적 용장성의 감소, 즉 이미지 프레임에 중요한 정보의 보다 효율적인 표시를 유도하기 위해서 인접하는 화소 사이의 상관성의 잇점을 취하는 것에 초점을 맞추고 있다. 상기 방법들이 개별적인 화상 이미지 프레임 상에서 적당히 잘 동작하지만 섹션 2.2에서 설명된 바와 같이 시간적 용장성 또는 프레임 대 프레임 용장성의 문제를 호칭하려는 시도가 없기 때문에, 이들 방법은 정지 화상 압축 루틴(still-image compression routine)이라고 보다 적절히 불리운다. 공통적인 정지 화상의 압축 체계(scheme)는 JPEG, 웨이브릿(wavelet) 및 프랙탈(fractal)을 포함한다.

2.1.1 JPEG/DCT 기초형 이미지 압축

정지 화상 압축의 최초의 공통적으로 사용된 방법 중 하나의 방법은 JPEG의 요체인 DCT 압축 시스템이다.

DCT는 일련의 코사인파 또는 주파수로서 각 디지털 이미지 프레임을 표시함으로써 동작한다. 그 후, 코사인 시리즈의 계수가 양자화된다. 고주파수의 계수가 저주파수의 계수보다 더욱 엄격히 양자화된다. 이 양자화의 결과는 매우 효과적으로 인코딩될 수 있는 다수의 제로 계수(zero coefficient)이다. 그러나, JPEG 및 유사한 압축 체계는 시간적 용장성의 결정적인 문제라고 칭하여지지 않는다.

2.1.2 웨이브릿

DCT 압축 체계를 약간 개선하면, 웨이브릿 변환의 압축 체계가 고안된다. DCT와 유사한 이러한 시스템은, 이미지 프레임이 일련의 코사인파로서가 아니라 일련의 웨이브릿 또는 윈도우형 진동(windowed oscillation)으로서 표시되는 점에서주로 상이하다.

2.1.3 프랙탈

다른 압축 기술로는 프랙탈 압축이 알려져 있다. 프랙탈 압축의 목표는 이미지를 취하고, 이미지 프레임을 전체적으로 기술하는 단일 함수(function) 또는 한 쌍의 함수들을 결정하는 것이다. 프랙탈은 상이한 스케일(scale) 또는 해상도에서 자기 유사(self-similar)한 오브젝트(object), 즉 해상도가 어떻든지 간에 눈으로 볼 때 오브젝트가 동일한 채로이다. 이론에 있어서, 프랙탈이 간단한 방정식으로 복잡한 이미지를 설명할 수 있는 경우, 매우 높은 압축율이 달성될 수 있다.

불행하게도, 프랙탈 압축은 일반적인 압축 중 실용적인 방법이 아니다. 높은 압축율은 특별히 구성된 이미지에 대해서와 압축 프로세스를 지도하는 사람으로부터의 상당한 도움에 의해서만 달성 가능할 뿐이다. 또한, 프랙탈 압축은 매우 계산적으로 집약적이다.

2.2 시간적 및 공간적 용장성 감소

적절한 동화상 압축에는 화상을 포함하는 프레임의 시퀀스 내에 있는 시간적 및 공간적 용장성 양쪽 모두를 감소시킬 필요가 있다. 시간적 용장성의 제거는 이전의 이미지 프레임에 이미 코딩된 정보의 비트스트림의 제거와 관련된다. 블럭 매칭(block matching)은 가장 최근에 사용되는 효율적인 시간적인 용장성 제거 수단을 위한 기초이다.

2.2.1 블럭 기초형 모션 평가

블럭 매칭에 있어서, 이미지는 균일한 크기의 블럭(보다 일반적으로, 다각형)으로 나뉘고, 각 블럭은 하나의 블럭으로부터 또 다른 블럭으로 추적되며, 재코딩된 블럭을 갖는 대신에 모션 벡터(motion vector)에 의해 표시되고, 또 다시 비트스트림 내에 위치된다. 블럭 매칭을 사용하는 압축 루틴의 예는 MPEG 및 MPEG의 변형을 포함한다.

MPEG은 MPEG 전체에 있어서 관련 프레임의 시퀀스에 제1 프레임을, 소위 인트라 프레임(intra-frame)(또는 I-프레임)으로서 인코딩한다. I-프레임은 키 프레임(key frame)의 한 유형으로, 완전히 자기 포함(self-contain)되고 소정의 다른 이미지 프레임에 대한 관련성이 설명되지 않은 이미지 프레임을 의미한다. I-프레임을 생성하기 위해서는, MPEG은 제1 프레임 상에서 정지 화상의 압축을 수행하며, 제1 프레임을 16 화소 ×16 화소의 평방 블럭 내에 나누는 것을 포함한다. 다른 [소위, 예측된(predicted)] 프레임은 I-프레임의 대응 블럭에 관하여 다른 프레임의 대응 블럭을 예측함으로써 I-프레임에 대해 인코딩된다. 즉, MPEG은 다른 프레임 내에 있는 I-프레임의 각 블럭을 찾으려고 시도한다. 다른 프레임 내에 여전히 존재하는 각 블럭에 대해서는, MPGE은 블럭 식별 정보에 따라 블럭의 모션 벡터 또는 모멘트(moment)를 전송한다. 그러나, 블럭이 프레임간을 이동하기 때문에 블럭이 약간 변경될 수 있다. I-프레임에 관련되는 차이는 잔여물(residue)로서 알려져 있다. 추가적으로, 블럭이 이동함에 따라, 이전에 숨겨진 영역이 처음에 가시적으로 될 수 있다. 이러한 이전에 숨겨진 영역은 또한 잔여물로서 알려져 있다. 즉, 블럭 모션이 전달된 후 집합적인 잔여 정보는 JPEG를 사용하여 코딩되어 이미지 프레임을 완결시키기 위해 수신기로 전달되는 잔여물로서 알려져 있다.

추후의 프레임은 I-프레임 또는 이전에 예측된 프레임 중 어느 하나의 프레임에 대해서 예측된다. 또한, 예측은 양방향(bi-directional), 즉 이전 및 추후의 I-프레임 또는 예측된 프레임 양쪽 모두에 대해서일 수 있다. 예측 프로세스는 새로운 I-프레임이 인코딩되고 그 프로세스 자체가 반복되는 포인트에서 새로운 키 프레임이 삽입될 때까지 계속된다.

비록 종래기술이긴 하지만, 블럭 매칭은 매우 비효율적이고 알려져 있는 일반적인 물리적 특성 또는 이미지의 고유한 다른 정보의 정보를 취할 수 없게 된다. 블럭 방법은 블럭이 이미지의 실제의 오브젝트(real object)와 소정의 관계를 갖지 않기 때문에 임의적이고 가공되지 않았다. 소정의 블럭이 오브젝트의 일부, 오브젝트 전체 또는 모션과 연관이 없는 다중의 유사하지 않은 오브젝트를 포함할 수 있다. 또한, 인접하는 오브젝트는 흔히 유사한 모션을 갖는다. 그러나, 블럭이 실제의 오브젝트에 대응하지 않기 때문에, 블럭 기초형 시스템은 비트스트림을 더 감소시키기 위해 이러한 정보를 사용할 수 없다.

블럭 기초형 시스템의 또 다른 주된 제한은 블럭 기초형 매칭에 의해 생성되는 잔여물이 일반적으로 노이즈(noisy) 및 부조화(patchy) 때문에 발생한다. 따라서, 블럭 기초형 잔여물은 DCT, 웨이브릿 또는 프랙탈과 같은 표준 이미지 압축 체계를 통하여 양호한 압축을 위해 그 자신을 전송하지 못한다.

2.3 대안

종래기술이, 특히 블럭 기초형 방법이 대단히 비효율적이고 동화상 정보에 대해 최적으로 압축된 비트스트림을 생성하지 못하기에 개선책을 필요로 한다. 상기한 바를 실현하기 위해서는, MPEG4와 같은 가장 최근의 압축 체계는 단지 임의 크기의 블럭을 사용하는 것보다는 프레임 내의 선택된 항목(item)의 제한된 구조 정보(만일 이용 가능하다면)를 허용한다. 몇몇 압축 이득이 달성되는 반면, 또한 모션 및 잔여물 정보 때문에 관련 오버헤드(overhead) 정보가 상당히 증가되고, 프레임 내의 각 오브젝트에 대한 구조 또는 형상 정보를 필요로 하는 이러한 체계가 또한 수신기로 전송되어야 한다. 그 이유로는 모든 현 압축 체계가 단순 수신기(dumb receiver)(이 단순 수신기는 스스로 이미지의 구조에 대한 소정의 결정을 수행할 수 없음)를 사용하기 때문이다.

추가적으로, 상기한 바와 같이 현 압축 방법은 다른 보다 효율적인 방법이 가능한지 여부를 결정하려는 시도도 없이, 고정된 압축 기술을 사용하는 JPEG에 의해 압축될 단지 또 다른 이미지 프레임으로서 잔여물을 처리한다.

3. 본 발명의 잇점

본 발명은 화상 압축 문제에 관한 여러 가지 잇점을 나타낸다. 상기한 바와 같이, 화상 압축의 목표는 최소 비트스트림을 갖는 화상 프레임의 시퀀스 또는 화상 정보 플로우를 정밀하게 표시하는 것이다. 상기한 바와 같이, 상기 공간적 용장성 감소 방법은 동화상 압축에 대해 부적절하다. 또한, MPEG과 같은 현 시간적 및 공간적 용장성 감소 방법은 많은 오버헤드 정보를 전송함으로 인해 이전의 비트스트림 공간을 낭비한다.

따라서, 증가된 압축 효율, 감소된 오버헤드 및 보다 작은 인코딩된 비트스트림을 보이는 화상 데이터를 인코딩(및 디코딩)하는 개선된 기술에 대한 요구가있다.

관련 출원에 대한 상호 관련

본 출원은 1999년 4월 17일자로 출원된 미국 가출원 번호 제60/129,853호 및 1999년 4월 17일자로 출원된 미국 가출원 번호 제60/129,854호를 우선권으로 주장한다.

본 발명은, 일반적으로 화상 데이터(video data)의 압축에 관한 것으로, 특히 동화상 데이터(motion video data)를 효율적으로 전송 및 저장하기 위한 동기화된 인코더 및 스마트 디코더 시스템에 관한 것이다.

도 1은 본 발명의 일 실시예에 따른 인코더를 도시하는 블럭도.

도 2는 본 발명의 일 실시예에 다른 인코더의 동작을 도시하는 플로우차트.

도 3은 본 발명의 일 실시예에 따른 디코더를 도시하는 블럭도.

도 4는 본 발명의 일 실시예에 따른 디코더의 동작을 도시하는 플로우차트.

도 5는 본 발명의 일 실시예에 따른 코덱을 도시하는 블럭도.

도 6은 본 발명의 일 실시예에 따른 코덱의 동작을 도시하는 플로우차트.

도 7은 기준 프레임을 도시하는 도면.

도 8은 본 발명의 일 실시예에 따른 기준 프레임을 처음에 처리하는 인코더에 의한 절차를 도시하는 플로우차트.

도 9는 본 발명의 일 실시예에 따라 재현된 기준 프레임을 세그먼팅하는 인코더에 의한 절차를 도시하는 플로우차트.

도 10은 본 발명의 일 실시예에 따른 세그먼테이션을 도시하는 도면.

도 11은 본 발명의 일 실시예에 따른 모션 매칭을 도시하는 도면.

도 12는 본 발명의 일 실시예에 따라 그룹화가 수행되는지 여부를 결정하는 인코더에 의한 절차를 도시하는 플로우차트.

도 13은 본 발명의 일 실시예에 다른 모션 벡터 그룹화를 도시하는 플로우차트.

도 14는 본 발명의 일 실시예에 따른 모션 예측을 도시하는 플로우차트.

도 15는 본 발명의 일 실시예에 다른 다중 스케일 그룹화를 도시하는 플로우차트.

도 16은 세그먼트 모션에 기인하여 가시화될 수 있는 이전의 숨겨진 영역을 도시하는 도면.

도 17은 본 발명의 일 실시예에 따라 이전의 숨겨진 정보의 구조를 예측하는 절차를 도시하는 플로우차트.

도 18은 국부적인 잔여물을 도시하는 도면.

도 19는 본 발명의 일 실시예에 따라 국부적인 잔여물의 인코딩을 도시하는 플로우차트.

도 20은 본 발명의 일 실시예에 따라 커맨드를 내장하기 위한 절차를 도시하는 플로우차트.

도 21은 본 발명의 일 실시예에 따라 프레임을 전송하기 위한 절차를 도시하는 플로우차트.

도 22는 본 발명의 일 실시예에 따라 참조 프레임을 수신하는 디코더에 의한 절차를 도시하는 플로우차트.

도 23은 본 발명의 일 실시예에 따른 디코더에 의한 세그먼테이션을 도시하는 플로우차트.

도 24는 본 발명의 일 실시예에 따라 모션 관련 정보를 수신하는 디코더를 위한 절차를 도시하는 플로우차트.

도 25는 본 발명의 일 실시예에 따라 그룹화가 수행될지 여부를 결정하는 디코더를 위한 절차를 도시하는 플로우차트.

도 26은 본 발명의 일 실시예에 따라 모션 벡터 그룹화를 수행하는 디코더를 위한 절차를 도시하는 플로우차트.

도 27은 본 발명의 일 실시예에 따라 배경 잔여물을 처리하는 디코더를 위한 절차를 도시하는 플로우차트.

도 28은 본 발명의 일 실시예에 따라 국부적인 잔여물을 처리하는 디코더를 위한 절차를 도시하는 플로우차트.

도 29는 본 발명의 일 실시예에 따라 커맨드를 내장하기 위한 절차를 도시하는 플로우차트.

도 30은 본 발명의 일 실시예에 따라 사용자 구동형 이벤트를 핸들링하기 위한 절차를 도시하는 플로우차트.

특정 실시예에 대한 설명

1. 개요

다음 섹션에서는 인코더, 디코더 및 이 실시예에 대해 특정한 상세한 사항을 포함하지만 본 발명의 다른 실시예에서 반드시 필요치 않은 구조 정보[이하, 이 실시예에서는 "세그먼트(segment)"라 칭함]를 사용하는 본 발명의 일 실시예를 설명한다.

1.1 인코더

도 1은 도 3 및 도 4에 대해서 이후에 기술되는 바와 같은 호환성 디코더를 사용하기 위한 예시적인 인코더를 도시하는 블럭도이며, 도 2는 도 1에 도시된 인코더의 동작을 개략적으로 도시하는 도면이다. 단계(201)에서, 인코더(100)는제1(예컨대, 기준) 이미지 프레임을 얻는다. 단계(202)에서, 인코더(100)의 기능성 블럭(102)은 단계(201)에서의 이미지 프레임을 인코딩한다. 단계(203)에서, 단계(202)에서의 인코딩된 이미지는 디코더가 이미지를 재현하는 방식과 동일한 방식으로 인코더(100)의 기능성 블럭(103)에 의해 재현한다. 단계(204)에서, 인코더(100)의 기능성 블럭(104)은 재현되는 이미지를 세그먼팅(즉, 재현되는 이미지로부터 구조 정보를 얻음)하며, 이 세그먼트는 세그먼트의 키네틱(예컨대, 모션 및/또는 잔여물 데이터)에 관하여 추후의 프레임을 예측하기 위한 기초로서 사용된다. 당업자라면, 본 명세서에서 상세히 기술될 필요는 없는 모서리 검출(edge detection), 모서리 연결(edge linking), 영역 머징(region merging) 또는 워터셰이드 방법(watershed method)와 같은 기술을 사용하여 이미지 세그먼테이션을 수행하는 방법을 용이하게 이해할 것이다. 이와 달리, 단계(203)는 스킵(skip)되며, 인코더는 단계(201)에서의 원래의 기준 이미지 프레임을 세그먼팅한다. 상기한 바는 세그먼트 재현 단계를 제거함으로써 인코더의 효율을 어느 정도 증가시킬 수 있는 한편, 중요한 에러를 피하기 위해 디코더 재현형 이미지와 여전히 상당히 유사한 예측을 위한 기초를 제공한다. 단계(205)에서, 단게(204)에서 결정되는 세그먼트는 디코더가 세그먼트를 배치하는 방법과 동일한 방식으로 인코더(100)의 기능성 블럭(105)에 의해 배치된다. 일 실시예에 있어서, 상기한 바는 인코더와 디코더 양쪽 모두에 알려져 있는 사전결정된 정규 배치 체계(canonical ordering scheme)에 따라 수행된다.

단계(206)에서, 인코더(100)의 기능성 블럭(106)은 세그먼팅된 기준 프레임에 관련되어 인코딩될 새로운(예컨대, 제2) 이미지 프레임을 얻는다. 단계(207)에서, 단계(204)에서 발생되는 각 세그먼트를 위한 모션 관련 정보는 모션 매칭(즉, 모션 매칭은 이미지 세그먼트의 위치를 하나의 프레임으로부터 다른 프레임으로 변경을 결정하는 프로세스임)에 의해 인코더(100)의 기능성 블럭(107)에 의해 결정된다. 모션 매칭은 순방향(forward), 역방향(backward)으로 및/또는 비순차 프레임에 적용될 수 있다.

단계(208)에서, 인코더(100)의 기능성 블럭(108)은 모션 관련 정보를 인코딩한다.

단계(209)에서, 기준 프레임에서의 이전의 숨겨진 영역(이하, 배경 잔여물이라 칭함)이 단계(208)에서의 모션 관련 정보를 기초하여 새로운 프레임에 노출될 수 있다. 단계(210)에서, 인코더(100)의 기능성 블럭(110)은 디코더가 공통의 사전결정된 정규의 배치 체계를 사용하는 방법과 동일한 방식으로 배경 잔여물을 배치한다. 단계(211)에서, 인코더(100)는 선형(linear), 다각형(polynomial) 또는 다른 예측 기술과 같은 기술을 사용하는 알려져 있는 세그먼트값으로부터 외삽함으로써 각 배경 잔여물을 충전하려고 시도한다. 또한, 충전은 새로이 노출되는 영역 주위 세그먼트의 배치 또는 계층(hierarchy)에 관한 정보를 고려함으로써 도움을 받는다. 세그먼트의 배치는 Z-배치(Z-ordering)로서 알려져 있는 깊이(depth) 정보를 정의한다. 예를 들면, 이미지가 도 7에 도시된 자동차의 모션에 대한 항공 관측(aerial view)인 경우, 자동차를 나타내는 세그먼트의 모션에 의해 노출되는 영역[세그먼트(71)]은 자동차 아래에 있는 도로를 나타내는세그먼트[세그먼트(72)]에 기초하여 예측될 수 있다. 단계(212)에서, 인코더는 각 배경의 잔여 영역의 실제값과 예측값 사이의 차를 결정한다.

이전의 폐색된 영역의 노출에 의해 야기되는 배경 잔여물에 덧붙여, 예를 들어 부정확한 매칭에 연관되는 국부적인 잔여물 및 새로운 정보의 출현이 있을 수 있다. 이하, 세그먼트의 전체적인 키네틱스의 전체적인 설명에는 모션 데이터 및 모두 키네틱 정보로서 집합적으로 칭하여지는 잔여물 데이터(residue data)에 대한 고려를 포함한다. 단계(213)에서, 인코더는 세그먼트 모션 관련 정보로부터의 제2 이미지 정보에 있어서의 국부적인 잔여물 정보를 결정한다. 단계(214)에서, 인코더(100)의 기능성 블럭(110)은 디코더가 공통적인 사전결정된 정규의 배치 체계를 사용하는 방법과 동일한 방식으로 단계(113)에서의 국부적인 잔여물을 배치한다. 단계(215)에서, 인코더(100)의 기능성 블럭(115)은 단계(212)에서의 배경 잔여물 및 단계(213)에서의 국부적인 잔여물을 인코딩한다. 일 실시예에 있어서, 인코딩은 디코더에 의해 즉각적으로 결정됨으로써 잔여물의 특정 구조에 기초하여 선택되는 수많은 이용 가능한 기술 중 하나의 기술을 사용할 수 있다.

제2 프레임의 이미지가 잔여물 정보의 도움을 받아 모션 관련 정보로부터 우선적으로 정당하게 재현될 수 있다면, 그 후, 단계(216)에서 인코더는 직접(예컨대, 화상 회의 어플리케이션에서) 또는 간접(예컨대, 이후 재생시에 디코딩될 저장 매체에 기입된) 중 어느 하나로 디코딩하기 위한 다음 정보를 전송하는데, 그 정보는 (a) 프레밍이 키 프레임이 아닌 것을 지시하는 플래그, (b) 세그먼트를 위한 모션 관련 정보, (c) 필요하다면(선택적으로, 사용되는 코딩 기술을 지시하는 플래그에 따라), 배경 잔여물 정보 및 (d) 필요하다면(선택적으로, 사용되는 코딩 기술을 지시하는 플래그에 따라), 국부적인 잔여물 정보이다. 상기 정보를 전송한 후, 인코더는 이전의 기준 프레임에 대해서 인코딩될 새로운(예컨대, 제3) 이미지 프레임에 의해 단계(206)에서 개시되는 사이클을 반복한다. 이전의 기준 프레임이 기존의 키 프레임 또는 키가 아닌 프레임(non-key frame)(즉, 재현되는 화상 프레임)일 수 있지만, 제2 이미지가 잔여물 정보의 도움을 받아 모션 관련 정보로부터 우선적으로 정당하게 재현될 수 없다면, 단계(217)에서 이미지는 키 프레임으로서 인코딩되고, 그 프레임이 키 프레임인 것을 지시하는 플래그에 따라 디코더로 전송된다. 인코딩된 이미지를 전송한 후, 인코더는 단계(203)에서 개시되는 사이클을 반복한다.

또한, 전송은 프레임과 관련된 소정의 공간적 인스트럭션의 [기능성 블럭(118)에 의한] 전송을 포함할 수 있다.

이와 달리, 제1 프레임의 세그먼트로부터의 키네틱 정보를 결정하는 대신에, 도면 1 및 도 2에서 설명한 바와 같이, 디코더는 제1 프레임으로부터의 구조 정보를 사용하여 최상의 기초 기능 세트를 결정하거나 제2 프레임을 기술하기 위해 블럭을 구성한다. 따라서, 디코더와 같은 동일한 세트인 이러한 기초 기능 세트는 인코더로부터 디코더로 전송할 필요가 있는 제2 프레임에 대한 계수만을 결정한다.

1.2 디코더

도 3은 도 1 및 도 2에서 설명된 바와 같은 호환성 인코더를 사용하기 위한 예시적인 디코더를 도시하는 블럭도이며, 도 4는 도 3에 도시된 디코더의 동작을개략적으로 도시하는 도면이다. 단계(401)에서, 디코더(300)의 기능성 블럭(301)은 인코딩된 이미지 프레임[예컨대, 인코딩된 기준 프레임은 도 2에 도시된 단계(202)에서 생성됨]을 수신한다. 단계(402)에서, 단계(401)에서의 인코딩된 이미지 프레임은 인코더에서와 동일한 방식으로 디코더(300)의 기능성 블럭(302)에 의해 재현된다. 단계(403)에서, 단계(402)에서의 재현된 이미지 프레임의 구조 정보는 디코더(300)의 기능성 블럭(303)에 의해 인코더에서와 동일한 방식으로 결정되어 배치된다. 단계(404)에서, 디코더는 추후의 이미지 프레임[예컨대, 인코더 설명에 대한 단계(206) 참조]이 키 프레임인지 여부를 기술하는 인코더로부터 플래그를 수신한다. 추후의 이미지 프레임이 키 프레임이면, 디코더는 단계(401)로 복귀한다. 추후의 이미지 프레임이 키 프레임이 아니면, 디코더는 단계(405)로 계속된다.

단계(405)에서, 디코더(300)의 기능성 블럭(305)은 세그먼트를 위한 모션 관련 정보(예컨대, 모션 및/또는 잔여물 정보)를 수신한다. 단계(406)에서, 디코더는 단계(403)에서 얻어지는 세그먼트를 사용하여 추후의 이미지를 재현하기 시작하며, 키네틱 정보의 모션부가 단계(405)에서 얻어진다.

단계(407)에서, 디코더는 단계(403)에서 결정되는 세그먼트에 관한 단계(404)에서의 모션 관련 정보에 기초하여 이전의 숨겨진 이미지부의 위치를 결정하는데, 이전의 숨겨진 이미지부의 위치가 결정되면, 이 때 공개된다. 배경 잔여물 위치로서 알려져 있다. 단계(408)에서, 단계(407)에서의 계산된 배경 잔여물의 위치가 공통적인 사전결정된 정규의 프로토콜을 사용하는 인코더에 의해서와 동일한 방식으로 배치된다. 단계(409)에서, 디코더는 인코더에 의해 사용되는 것과 같은 동일한 유형의 예측 충진 기술을 사용하여 배경 잔여물의 위치(즉, 배경 잔여물 정보를 예측함)를 충전하려고 시도한다. 단계(410)에서, 디코더는 (예측된 배경 잔여물 정보와 관련되는) 인코딩된 배경 잔여물 정보에 덧붙여, 인코더로부터의 인코딩된 배경 잔여물 정보에 대한 코딩 방법을 지시하는 플래그를 수신한다[도 2에 도시된 단계(216의 (c)) 참조]. 단계(411)에서, 디코더(300)의 기능성 블럭(311)은 수신된 배경 잔여물 정보를 디코딩한다. 단계(412)에서, 예측된(계산된) 배경 잔여물 정보가 존재한다면, 수신된 배경 잔여물 정보에 덧붙여져 그 후 제2 이미지 프레임에 부가되는 전체적인 배경 잔여물 정보를 결정한다.

단계(413)에서, 기능성 블럭(300)에서 디코더는 단계(403)에서 결정되는 세그먼트에 관한 단계(404)에서 수신되는 모션 관련 정보에 기초하여 국부적인 잔여물이 존재하면 국부적인 잔여물의 위치를 결정한다. 단계(414)에서, 국부적인 잔여물의 위치는 공통적인 사전결정된 정규의 배치 체계를 사용하는 인코더에 의해서와 동일한 방식으로 배치된다. 단계(415)에서, 디코더는 인코딩된 국부적인 잔여물 정보에 덧붙여 각 국부적인 잔여물의 위치를 위한 코딩 방법을 지시하는 플래그를 수신한다. 단계(416)에서, 디코더는 국부적인 잔여물 정보를 디코딩한다. 단계(417)에서, 디코딩된 국부적인 잔여물 정보는 제2 프레임에 부가된다. 단계(418)에서, 디코더(300)의 기능성 블럭(318)은 소정의 특정 인스트럭션을 수신하며, 수신된 소정의 특정 인스트럭션을 제2 프레임에 부가한다. 단계(419)에서, 기능성 블럭(319)은 제2 프레임의 재현을 완결한다.

단계(420)에서, 프레임이 더 존재하면, 루틴이 단계(404)에서 계속된다.

이와 달리, 제1 프레임의 세그먼트로부터 키네틱 정보를 수신하는 대신에, 도 3 및 도 4에서 설명한 바와 같이, 디코더는 제1 프레임으로부터의 구조 정보를 사요하여 최상의 기초 기능 세트를 결정하거나 제2 프레임을 기술하도록 블럭을 구성한다. 따라서, 인코더와 같은 동일한 세트인 이러한 기초 기능 세트는 재현을 개시하기 위해 이러한 기초 기능의 계수를 수신하는데 필요할 뿐인 디코더를 결정한다.

1.3 인코더-디코더

비록 상기 섹션에는 인코더와 디코더 별도로 기술되어 있지만, 인코더와 디코더는 인코더가 호환성 디코더(에 의해 디코딩되도록 하기 위해 이미지를 인코딩함) 존재를 전제로 하며, 디코더가 호환성 인코더 존재를 전제로 하는 점에서 밀접한 관련이 있다. 따라서, 도 2 및 도 4에 도시된 여러 단계 사이의 상호 관련성을 고려할 필요가 있다. 따라서, 도 5는 본 발명의 예시적인 인코더-디코더[코덱(codec)]의 아키텍처를 도시하며, 도 6은 도 5에 도시된 예시적인 코덱의 동작을 도시한다. 단계(601)에서, 인코더는 기준 프레임을 얻고 인코딩하여 전송한다. 단계(602)에서, 단계(602)에서의 기준 프레임은 인코더와 디코더 양쪽 모두에 의해 재현된다. 단계(603)에서, 기준 프레임에서의 동일한 세그먼트는 인코더와 디코더 양쪽 모두에 의해 결정된다. 단계(604)에서, 단계(603)에서의 세그먼트는 인코더와 디코더 양쪽 모두에 의해 동일한 방식으로 배치된다.

단계(605)에서, 인코더는 새로운 이미지 프레임을 얻는다. 단계(606)에서,인코더는 단계(605)에서의 프레임에 대한 모션 매칭에 의해 단계(603)에서의 세그먼트의 모션 관련 정보를 결정한다. 단계(607)에서, 인코더는 모션 관련 정보를 인코딩한다.

단계(608)에서, 인코더는 단계(606)에서의 모션 관련 정보에 기초하여 이제 제2 프레임에서 노출되는 이전의 숨겨진 영역의 위치(배경 잔여물의 위치)를 결정한다. 단계(609)에서, 인코더는 배경 잔여물의 위치를 배치한다. 단계(610)에서, 인코더는 배경 잔여물의 영역에서 이미지를 수학적으로 예측하려고 시도한다. 단계(611)에서, 인코더는 사전결정된 정규의 배치 체계를 결정한다. 단계(611)에서, 인코더는 수학적인 예측이 양호한지를 예측 및 실제 배경 잔여물 정보 사이의 차이를 기초하여 결정한다. 인코더는 필요하다면, 계산된 부가적인 배경 잔여물 정보로서 이 차이를 전송할 것이다.

단계(612)에서, 인코더는 단계(606)에서의 모션 관련 정보를 기초하여 국부적인 잔여물에 대한 구조 정보를 결정한다. 단계(613)에서, 단계(612)에서의 국부적인 잔여물에 대한 구조 정보는 인코더에 의해 배치된다. 단계(614)에서, 인코더는 국부적인 잔여물을 인코딩한다.

단계(615)에서, 단계(601)에서 전송되고 수신된 프레임이 키네틱(모션 및 잔여물) 정보를 사용하여 나타내어지는지 또는 키 프레임으로서 나타내어지는를 식별하는 플래그를, 인코더는 전송하고 디코더가 수신한다. 키 프레임이면, 시스템은 단계(601)로 되돌아간다. 키 프레임이 아니면, 시스템은 단계(616)에서 계속된다.

단계(616)에서, 인코더로부터의 세그먼트 모션 관련 정보를 인코더는 전송하고 디코더가 수신한다. 단계(617)에서, 디코더는 인코더가 단계(608, 609)에서 행한 바와 동일한 방식으로 배경 잔여물 위치를 결정하여 배치한다. 단계(618)에서, 디코더는 인코더가 단계(610)에서 행한, 배경 잔여물에 관한 동일한 예측을 행할수 있다. 단계(619)에서, 부가적인 배경 잔여물 정보(만약 있다면) 및 코딩 체계(coding scheme)를 나타내는 플래그를 인코더는 전송하고 디코더가 수신한다. 단계(620)에서, 디코더는 인코더가 단계(612, 613)에서 행한 바와 동일한 방식으로 국부적인 잔여물 위치를 결정하여 배치한다. 단계(621)에서, 국부적인 잔여물 정보 및 코딩 체계를 지시하는 플래그를 인코더는 전송하고 디코더가 수신한다. 단계(622)에서, 특정 인스트럭션(만약 있다면)을 인코더는 전송하고 디코더가 수신한다. 단계(632)에서, 인코더 및 디코더 양자 모두는 키네틱 정보를 기초하여 프레임을 동일하게 재현한다. 단계(624)에서, 부가적인 프레임이 인코딩된다면, 단계(622)에서 재현된 프레임은 기준 프레임이 되고, 루틴은 단계(605)에서 계속된다.

이와 달리, 인코더-디코더 시스템은 제1 프레임의 세그먼트로부터의 키네틱 정보를 활용하는 대신에, 최적의 기초 기능 셋트를 결정하기 위해 제1 프레임으로부터의 구조 정보, 또는 제2 프레임을 설명하기 위해 블럭을 만드는 구조 정보를 사용한다. 인코더 및 디코더 양자 모두는 이러한 기초 기능을 독립적으로 결정할 수 있어, 기초 기능의 계수만을 전송할 필요가 있다.

2. 인코더

비록 인코더의 모션에 대해 일반적으로 상기하였지만, 이것은 인코딩 과정의특정 단계를 상세히 설명하는 것은 물론, 일부 특정 이미지 예에 대하여 이 모션을 설명하는데도 또한 유익할 것이다.

2.1 기준 프레임 전송

도 7을 참조하면, 인코더는 기준 프레임(이 경우, 배경에 태양이 있고 좌측에서 우측으로 움직이는 자동차 화상)을 수신한다. 기준 프레임은 일반적으로 소정의 다른 프레임이 나타내진 것에 관련된 프레임을 지칭한다. 인코더 사이클을 통한 제1 경로에 있어서, 기준 프레임은 일반적으로 키 프레임이 될 것이다. 이와 달리, 추후의 경로들에 대해서, 기준 프레임은 이전의 인코딩된 키가 아닌 프레임일 수 있다.

도 8은 인코더가 초기에 키 프레임을 처리하는데 사용되는 과정을 도시하는 플로우차트이다. 단계(810)에서, 인코더는 도 7에 도시된 프레임을 수신한다. 단계(820)에서, 인코더는 프레임을 인코딩한다. 단계(830)에서, 인코더는 리셉터(예컨대, 디코더 또는 다음 디코딩을 위한 저장 매체)로 인코딩된 프레임을 전송한다. 인코더는 단계(840)에서 인코딩된 프레임을 재현한다.

2.2 세그먼테이션

세그먼테이션은 디지털 이미지가 구성 요소, 즉 세그먼트로 세그먼팅되는 과정이며, 여기서 각 세그먼트는 도 10에 도시한 바와 같은 이미지 내에서의 값의 급진적 또는 급준한 변경에 의해 제한된 영역을 나타낸다.

컴퓨터 비젼의 당업자는 이 세그먼테이션이 여러 방법으로 시행될 수 있음을 알고 있을 것이다. 예를 들면, 이러한 방법 중 하나의 방법은 소위 "워터셰드방법(watershed method)"이며, 이 방법은 www.csu.edu.au/ci/vol3/csc96f/csc96f.html 에 기술되어 있다. 본 발명에 사용할 수 있는 이 방법 및 다른 세그먼테이션 기술은 당업자에게 알려져 있는 방법이므로, 여기서 상세히 기술할 필요는 없을 것이다.

도 9를 참조하면, 단계(910)에서, 인코더는 이미지 고유의 구조적 특징을 결정하기 위해 재현된 기준 프레임을 세그먼테이션한다. 이와 달리, 단계(910)에서 인코더는 동일한 목적을 위해 원래의 이미지를 세그먼테이션할 수 있다. 인코더는 도 7의 세그먼트가 자동차, 뒷바퀴, 앞바퀴, 뒤창문, 앞창문, 길거리, 태양 및 배경임을 결정한다. 이와 달리, 단계(910)에서, 인코더는 원래 프레임 및 재현된 프레임 양자 모두를 세그먼테이션하고, 두 프레임 사이의 세그먼테이션의 차이를 결정한다. 이 경우에, 인코더는 모션 관련 정보의 일부로서 이 차이를 디코더에 전송한다. 이 차이는 여기서 세그먼테이션 증강(segmentation augmentation)으로서 지칭된다.

단계(920)에서, 인코더는 소정의 사전결정된 기준을 기초하여 세그먼트를 배치하고 도 10에 도시한 바와 같이 세그먼트(1001 내지 1008)로 각각 표시한다.

세그먼테이션은 인코더가 효율적인 모션 매칭, Z-배치, 모션 예측, 본 설명에서 더 설명되는 바와 같은 효율적인 잔여물 코딩을 실행하게 한다.

2.3 키네틱 정보

일단 세그먼테이션이 달성되면, 인코더는 프레임마다의 각 세그먼트의 진화(evolution)를 고려한 키네틱 정보를 결정하여 인코딩한다. 키네틱 정보는 모션 관련 정보 및 잔여물 정보의 설명을 포함한다. 모션 관련 정보는 세그먼트, Z-배치 정보 및 필요하다면, 세그먼테이션 증가 등을 위한 모션 데이터로 구성될 수 있다. 잔여물 정보는 미리 폐색된 영역 및/또는 새로운 정보의 부정확한 매칭 및 출현 정보, 및 모션 그 자체에 의해 캡춰링되지 않은 세그먼트 진화부 등의 정보로 구성된다.

2.3.1 매칭 및 세그먼트 모션 데이터

키네틱 정보의 모션 부분은 모션 매칭으로 알려진 과정을 통하여 결정된다. 모션 매칭은 프레임과 프레임 사이에서 흔히 세그먼트라는 유사 영역의 매칭 과정이다.

디지털 이미지 프레임 내의 각 화소에서, 이미지는 수적인 값으로 표현된다. 매칭은 하나의 프레임 내의 영역이 다른 프레임 내의 영역 내의 값과 동일하거나 충분하게 유사한 화소 값을 가질 때 발생한다.

제1 세그먼트가 제2 세그먼트를 넘어 적절히 이동되어 배치되고, 화소값의 차이의 절대값의 평균이 계산되고 이 평균값이 사전결정된 임계값 이하인 경우, 예를 들어 세그먼트는 다른 프레임 내의 다른 세그먼트와 매칭되도록 고려될 수 있다. 화소 차이의 절대값의 평균은 이것이 유사성의 단순한 측정이기 때문에 종종 사용되지만, 다른 이러한 측정의 어떤 수라도 충족시킬 수 있다. 매칭을 결정하기 위해 사용될 수 있는 이러한 측정은 당업자에게는 명백한 것일 것이며, 여기서 더 상세히 기술할 필요가 없을 것이다.

도 11은 프레임(1110)과 프레임(1120) 사이의 회색 핫 풍선(grey hot airbaloon)의 모션 매칭의 예를 예시한다. 프레임(1110)에서, 회색 핫 풍선(1111)이 얻어진다. 프레임(1120)에서, 백색 공(1122)이 얻어지며, 이 후 회색 핫 풍선(1121)이 얻어지는데, 이것은 회색 핫 풍선(1120)과 약간 유사하며 일그러져 있다. 회색 핫 풍선(1111)을 백색 공(1122) 위로 이동시키는, 프레임(1110) 내의 회색 핫 풍선(1121) 내에 포함된 화소값으로부터 프레임(1120) 내의 백색 공(1122) 내에 포함된 화소값의 차감은 영이 아닌 차이의 셋트를 생성한다. 그러므로, 회색 핫 풍선 및 백색 공은 매칭되지 않을 것이다. 그러나, 회색 핫 풍선(1110)을 회색 핫 풍선(1120) 위로 이동시키는, 프레임(1110) 내의 회색 핫 풍선(1111)으로부터 프레임(1120) 내의 회색 핫 풍선(1121)의 차감은 모서리 및 바구니 근처의 작은 영역을 제외하면, 거의 영이고 영값에 가까운 셋트를 생성한다. 그러므로, 두 개의 회색 핫 풍선은 매칭된 것으로 간주될 것이다.

2.3.2 그룹화

관련된 세그먼트가 단일 그룹으로 간주되어, 무엇인가 필요한 때, 인코더는 단지 각각의 세그먼트에 대한 소정의 더 많은 개량과 함께 그룹에 모션 관련 정보를 전송하는 것이 필요하다면, 디코더로 전송된 모션 관련 정보는 감소될 수 있다. 이를테면, 세그먼트 모션 데이터에 대해, 그룹 내의 각 세그먼트의 개별적인 모션을 나타내기 위해 인코더는 만약 있다면, 단지 대표적 또는 특징적 모션 벡터를 모션 벡터 오프셋과 함께 디코더에 전송할 필요가 있다. 특징적인 모션 벡터는 예컨대, 단일, 베이스 세그먼트의 형태 또는 전체 그룹에 대한 평균인 실질적으로 소정의 형태 일 수 있다.

세그먼트에 관한 이전의 키네틱 정보가 있거나, 세그먼트에 관한 다중 스케일 정보가 있다면 그룹화는 가능하다. 다중 스케일링은 아래의 섹션(2.3.4)에서 설명될 것이다. 본 발명의 이 특정 실시예에 있어서 더 이상의 제한 없이, 단지 모션 벡터 그룹화만이 더 상세히 기술될 것이다.

도 12를 참조하면, 단계(1210)에서 인코더는 제1 프레임이 키 프레임인지 즉, 다른 프레임에 관하여 기술되지 않았는지를 결정한다. 제1 프레임이 키 프레임이면, 모션 그룹화 루틴은 세그먼트를 그룹화하기 위해 가능하다면, 다중 스케일링 정보를 사용할 것이다. 제1 프레임이 키 프레임이 아니면, 거기에는 세그먼트를 그룹화하는데 사용할 수 있는 약간의 이전의 모션 데이터가 존재할 것이다. 그러므로, 제1 프레임이 키 프레임이 아니면, 단계(1220)에서 아래의 섹션(2.3.2)에서 기술된 모션 그룹화 루틴이 실행된다. 그러나, 이전의 모션 데이터의 사용은 부가적인 그룹화를 위한 다중 스케일링의 사용을 배제하지 않는다.

그러나, 제1 프레임이 키 프레임이면, 그 후 단계(1230)에서 인코더는 쓸모 있는 소정의 다중 스케일 정보가 있는지를 결정한다. 만일 있다면, 그 후 단계(1240)에서 아래의 섹션(2.3.4)에서 기술된 다중 스케일링 루틴이 실행된다. 그렇지 않다면, 단계(1250)에서, 인코더는 어떠한 세그먼트도 그룹화하지 않는다.

2.3.2.1 모션 기반 그룹화

모션 기반 그룹화는, 어떤 세그먼트를 결합시킬지를 인코더가 결정할 수 있도록, 이전의 모션 관련 정보가 존재할 때에만 발생할 수 있다. 또한, 디코더는 인코더와 마찬가지로 동일하거나 유사한 형태로 세그먼트를 그룹화할 것이다. 모션기반 그룹화는 도 13의 단계(1310)에서 개시되고, 여기서 각 세그먼트의 이전의 모션 데이터가 참작될 것이다. 유사한 모션 벡터를 나타내는 세그먼트는 단계(1320)에서 함께 그룹화된다.

2.3.2.2 다중 스케일 그룹화

다중 스케일링 그룹화는 이전의 모션에 의해 세그먼트를 그룹화하는 대안이다. 또한, 다중 스케일링은 모션 그룹화과 함께 사용될 수 있다. 다중 스케일링은 이미지의 낮은 해상도 버전을 생성하는 과정이다. 다중 스케일을 생성하는 예는 완충 기능의 반복된 적용을 거친다. 낮은 해상도 이미지 생성의 결과는 해상도 감소와 같이 단지 크고 더 지배적인 특징(dominant feature)들이 가시적으로 남는다는 것이다. 그러므로 예를 들어, 축구공 자체는 식별 가능한 상태일지라도 축구공의 바느질 자리는 낮은 해상도에서는 안보이게 될 수 있다.

다중 스케일 과정들의 예는 다음과 같다. 도 15를 참조하면, 단계(1510)에서 인코더는 프레임에 대한 거친 이미지 스케일(즉, 가장 낮은 해상도)을 참조하고, 단계(1520)에서 어떤 세그먼트가 보이도록 남겨질지 결정한다. 이러한 거친 이미지 스케일은, (일반적으로 주체를 구성하는 특징에 대응하는) 작고 덜 지배적인 세그먼트를 식별할 수 없는 동안에는 일반적으로 단지 가장 크고 가장 지배적인 (일반적으로 주체의 외선에 의해 경계가 지어지는) 특징만을 볼 수 있는 상태로 남는다. 단계(1530)에서 거친 스케일에서 볼 수 없는 세그먼트 및 소정의 가시적인 세그먼트를 함께 포함하는 세그먼트가 하나의 그룹 내에 결합되어 있다. 이것은 더 작은 지금 보이지 않는 세그먼트는 종종 더 큰 객체와 관계를 공유하고 유사한 키네틱정보를 구비할 것이기 때문이다. 그러므로, 이미지의 거친 스케일 표현은 정교한 스케일의 클러스터를 표현하기 위해 고려될 수 있다. 결정이 단계(1540)에서 이루어진다. 또한, 가시적인 세그먼트가 존재한다면, 단계(1550)에서 인코더는 다음 세그먼트를 참조하고 단계(1530)로 계속된다. 그 밖의 경우, 다중 스케일링 그룹화는 종료로 진행한다.

상기한 예시적인 실시예는 거친 이미지 스케일을 사용하고 이것은 물론 특정 이미지에 사용된 다중 스케일링의 특정 범위에 의존한다. 명백하게, 다른 예시적인 실시예에 있어서도, 하나 이상의 다른 스케일들이 또한 사용될 수 있다.

디코더는 인코더가 행하는 바와 마찬가지 또는 유사한 방법으로 그룹화를 수행할 것이다.

2.3.3 모션 예측

도 14를 참조하면, 단계(1410)에서 인코더는 세그먼트를 참조한다. 단계(1420)에서, 인코더는 모션이 예측될 수 있도록, 세그먼트에 대한 이전의 모션 관련 정보가 있는지를 결정한다. 디코더는 인코더가 행하는 바와 마찬가지 또는 유사한 방법으로 세그먼트의 모션 또는 세그먼트의 그룹을 예측할 것이다. 이전의 모션 관련 정보가 없다면, 인코더는 후술하는 바와 같이 단계(1460)로 계속된다.

이전의 모션 관련 정보가 있다면, 인코더는 단계(1430)에서 세그먼트의 모션을 예측하고, 예측한 것을 세그먼트의 실제 모션과 비교한다. 모션 벡터 오프셋은 실제 및 예측 모션 벡터 사이의 차이로서, 단계(1440)에서 최초로 계산된다. 단계(1450)에서 인코더는 이것과 관련 특징(또는 그룹) 모션 벡터 사이의 차이로서모션 벡터 오프셋을 더 표현할 수 있다.

단계(1460)에서 인코더는 세그먼트가 더 있는지 여부를 결정하고, 세그먼트가 더 있다면, 단계(1470)에서, 인코더는 다음 세그먼트를 참조하고, 단계(1420)로 계속된다. 그렇지 않다면, 예측 루틴은 종료된다.

2.3.2.1.1 모션 관련 정보 코딩

일단 그룹화 및 예측이 발생되면, 다수의 모션 관련 정보를 인코딩하는데 있어서의 총경비를 줄이는 지레대로 작용할 수 있다. 예를 들어, 세그먼테이션 증가는 개별적인 세그먼트 대신에 그룹에 대하여 더 효과적으로 기술될 수 있다. 모션 벡터 코딩의 경우에 있어서, 단계(1330)에서, 그룹에 대한 모션 벡터는 그룹 내의 모든 모션 벡터에 대한 특징적인 대표물을 계산함으로써 얻어진다. 그러므로, 그룹 내의 각 세그먼트에 대해, 만약 있다면, 모션 벡터 차이만이, 즉 세그먼트의 모션 벡터 사이의 차이, 및 특징적인(또는 그룹) 모션 벡터가 마침내 전송될 것이다[단계(1340) 참조]. 특징적인 모션 벡터의 하나의 예는 평균 모션 벡터이다. 모션 벡터 인코딩의 더 나아간 개선은 모션 예측의 사용과 예측된 모션에 대하여 단지 인코딩 모션 오프셋을 통하여 달성될 수 있다.

2.3.4 Z-배치

Z-배치는 각 이미지가 점유한 이미지 프레임 내의 관련 깊이 위치를 지칭한다. 인코더는 하나의 프레임에서 다른 프레임으로 구조 정보가 변하는 바와 같이 구조 정보 내에 포함된 깊이 정보가 보존되도록, Z-배치 정보를 결정하고 전송한다.

2.3.5 잔여물 코딩

잔여물 정보는 이전에 폐색된 영역 및/또는 새로운 정보의 부정확한 매치 및 출현에 있어서의 정보 및 모션 자체 등에 의해 캡춰되지 않는 세그먼트 진화의 부분으로 구성된다.)

2.3.5.1 배경 잔여물

도 16에 도시한 바와 같이, 세그먼트가 움직임에 따라, 이전에 숨겨지거나 차단된 영역은 처음으로 보이게 될 것이다. 도 16에서, 3개의 영역이 자동차가 이동함에 따라 보이게 된다. 이것들은 차 뒤에 숨겨진 영역 및 바퀴 뒤의 2개의 영역이다. 이들은 영역(1601 내지 1630)으로 각각 표시되었다.

도 17을 참조하면, 단계(1710)에서, 인코더는 이전에 숨겨진 이미지 영역이 어디서 발생되는지를 결정한다. 단계(1720)에서, 인코더는 사전결정된 배치 시스템을 사용하여 영역을 배치한다. 단계(1730)에서, 영역을 둘러싸는 영역(들)에 대응하는 정보를 사용하여, 인코더는 이전에 숨겨진 영역의 구조에 대해 수학적 예측을 한다. 또한, 인코더는 또한 영역에 어떤 이미지가 드러나게 될지 정확하게 알고 있다. 그러므로, 단계(1740)에서, 인코더는 영역을 고려하여 수학적인 예측이 예측된 이미지를 실제 이미지와 비교하기에 충분한지를 결정한다. 예측이 완료되지 않으면, 그 후 단계(1770)에서 인코더는 영역 또는 차이를 인코딩할 것이고, 단계(1780)에서, 코딩 메카니즘을 의미하는 플래그로 인코딩된 정보를 저장한다. 그렇지 않으면, 예측이 충분히 완료되었다면, 인코더는 그 사실을 나타내는 플래그를 단계(1745)에서 저장한다.

단계(1750)에서, 인코더는 소정의 새롭게 차단되지 않은 영역이 더 있는지를 결정한다. 존재한다면, 다음 영역이 고려되고 루틴은 단계(1760)로 계속된다. 존재하지 않는 경우, 루틴은 종료된다.

2.3.5.2 국부적인 잔여물

국부적인 잔여물 정보는 새로운 정보 등의 부정확한 매치 및 출현으로부터의 정보로 구성된다. 예를 들면, 도 18에 있어서, 자동차 및 태양은 프레임(1801)에서보다 프레임(1802)에서 더 작게 나타난다. 잔여물의 구조는 새로운 세그먼트가 이전 세그먼트와 얼마나 다른지에 의존할 것이다. 이것은 잘 규정된 영역 또는 영역의 셋트일 것이며, 또는 이것은 아마 부조화일 것이다. 다른 형태의 코딩 방법은 국부적인 잔여물의 다른 형태에 대해 이상적이다. 디코더는 세그먼트 모션을 알고 있으므로, 국부 잔여물의 대부분이 어디에 위치할지를 디코더는 알고 있다. 인코더는 국부적인 잔여물 코딩의 효과를 개선하기 위해 고려될 수 있는 세그먼트 경계의 위치를 포함하는 구조 정보의 디코더의 지식을 사용한다.

도 19를 참조하면, 단계(1910)에서 인코더는 국부적인 잔여물의 위치를 결정한다. 단계(1920)에서, 인코더는 국부적인 잔여물이 사전결정된 배치 체계를 사용하여 발생되는 영역을 배치한다. 단계(1930)에서, 인코더는 제1 국부 잔여물을 고려하고, 이것을 코딩하는 가장 효율적인 방법으로서 결정하고, 그 후 단계(1940)에서 이것을 인코딩한다. 단계(1950)에서, 인코더는 코딩된 잔여물 및 코딩 메카니즘을 나타내는 플래그를 저장한다. 단계(1960)에서, 더 이상의 국부적인 잔여물 위치가 있다면, 그 후 단계(1970)에서 다음 국부적인 잔여물 위치가 고려되고 루틴은단계(1940)으로 계속된다. 그렇지 않으면, 루틴은 종료된다.

2.3.6 특정 인스트럭션

인코더는 필요에 따라 비트 스트림 내로 각 세그먼트에 관련된 커맨드 및 인스트럭션을 포함하고 있다. 이러한 커맨드의 예는 정적인 웹 페이지를 얻는 것, 다른 비트 스트림을 얻는 것 및 텍스트를 기다리는 것 등을 포함하지만, 이에 한정되지 않는다.

인코더는 세그먼트를 결정하는 인코더에 이어서 비트 스트림 내의 소정의 포인트에 이러한 커맨드를 포함할 수 있고, 인코더가 결정할 수 있는 지식의 이점을 취할 수 있다. 도 20은 하나의 포인트의 예로서, 여기서 커맨드는 데이터 스트림에 포함된다.

도 20을 참조하면, 단계(2010)에서, 인코더는 제1 세그먼트를 고려한다. 단계(2020)에서, 인코더는 특정 인스트럭션의 플래그를 전송한다. 단계(2030)에서, 인코더는 세그먼트를 위한 소정의 특정 인스트럭션이 있는지를 결정한다. 만일 있다면, 그 후 단계(2040)에서, 인스트럭션은 디코더에 전송되고, 단계(2050)에서, 인코더는 세그먼트가 더 있는지 결정한다. 단계(1730)에서, 세그먼트와 관련된 특정 인스트럭션이 없다면, 인코더는 곧바로 단계(2050)로 진행된다. 단계(2050)에서, 세그먼트가 더 있다면, 단계(2060)에서, 인코더는 단계(2060)에서 다음 세그먼트를 고려하고, 단계(2020)로 계속되며, 그렇지 않으면 루틴은 종료된다.

2.4 전송

키네틱(모션 및 잔여물) 정보의 결정 및 인코딩에 따라, 프레임 정보의 전송과 관련된 결정이 이루어진다. 도 21을 참조하면, 단계(2110)에서, 잔여물 정보의 도움을 받아 우선적으로 모션 관련 정보로부터 이미지가 합리적으로 재현될 수 있다면, 그 후 단계(2190)에서 인코더는 프레임에 대한 키네틱 정보를 전송할 것이다. 그렇지 않으면, 프레임은 키 프레임으로서 코딩되고, 단계(2185)에서 키네틱 정보는 폐기된다.

2.5 대안

이와 달리, 인코더는 제1 프레임 세그먼트로부터의 키네틱 정보를 사용하는 대신에, 예를 들어 생성되는 제1 프레임으로부터의 세그먼테이션을 포함하는 구조 정보를 사용하여, 최상의 기초 기능 셋트 또는 제2 프레임에서 설명되는 빌딩 블럭을 배치한다. 상기한 바는 디코더에 이용 가능한 구조 정보를 기초하여 기초 기능 또는 적절한 빌딩 블럭 셋트를 생성하는 디코더 능력의 인코더의 지식을 기초하여하나의 적절한 코딩 또는 적절한 변환 코딩 방법으로서 지칭될 수 있다. 인코더 및 디코더 양자 모두는 이러한 기초 기능을 독립적으로 결정하여, 기초 기능의 계수만이 전송될 필요가 있다.

3. 디코더

3.1 기준 프레임 수신

도 22는 디코더가 기준 프레임을 수신하는 과정을 예시한다. 기준 프레임은 통상적으로, 다른 이어지는 다음 프레임이 기술된 것에 관련된 프레임이다. 단계(2210)에서, 인코더는 인코딩된 기준 프레임을 수신한다. 단계(2220)에서, 디코더는 인코딩된 기준 프레임을 재현한다.

단계(2230)에서, 디코더는 키 프레임 플래그를 수신한다. 이 플래그는 다음 프레임이 키 프레임인지 또는 키네틱 정보로부터 재현될 수 있는지를 나타낸다. 다름 프레임이 키 프레임이면, 그 후 디코더는 다음 프레임을 수신하기 위해 단계(2210)로 되돌아간다. 그렇지 않으면, 이 루틴은 종료한다.

3.2 세그먼테이션

상기한 바와 같이, 세그먼테이션은 디지털 이미지가 이 이미지의 구성 부분으로, 즉 세그먼트로 세그먼팅되는 과정으로, 여기서 각 세그먼트는 이미지 내의 값의 기본적 또는 뚜렷한 변화에 의해 경계지어진 영역을 나타낸다

도 23을 참조하면, 단계(2310)에서, 디코더는 이미지 고유의 구조적 특징을 결정하기 위해 재현된 기준 프레임을 세그먼테이션한다. 예를 들면, 디코더는 도 7에 도시된 세그먼트인 자동차, 뒷바퀴, 앞바퀴, 뒷창, 앞창, 길거리, 태양 및 배경을 결정한다. 단계(2320)에서, 디코더는 인코더에 의해 사용된 것과 동일한 사전결정된 기준을 기초하여 세그먼트를 배치하고, 도 10에 도시한 바와 같이, 세그먼트(1001 내지 1007)를 각각 마킹한다.

3.3 모션 관련 정보

일단 세그먼테이션이 달성되면, 디코더는 각 프레임의 이동에 관련된 모션 관련 정보를 수신한다. 모션 관련 정보는 이전 프레임 내의 세그먼트의 위치에 관련된 새로운 프레임 내의 세그먼트의 위치를 디코더에 알려준다.

도 24는 모션 관련 정보 과정을 예시한다. 단계(2410)에서, 디코더는 세그먼트를 참조한다. 단계(2420)에서, 디코더는 세그먼트에 대한 이전의 모션 데이터가있는지를 결정한다, 이전의 모션 데이터가 없다면, 디코더는 단계(2450)로 계속된다. 이전의 모션 데이터가 있다면, 디코더는 단계(2430)에서 세그먼트 모션을 예측하고, 단계(2440)에서 모션 벡터 수정을 수신하며, 그 후 단계(2450)로 계속된다. 단계(2450)에서, 디코더는 세그먼트가 더 있는지를 결정한다. 세그먼트가 더 있다면, 디코더는 단계(2460)에서 다음 세그먼트를 참조하고, 그 후 단계(2420)로 계속된다. 세그먼트가 더 이상 없다면, 루틴은 종료된다.

키네틱 정보는 모션과 관련된 세그먼트가 함께 그룹화되거나 하나의 모션 벡터에 의해 표현된다면 감소될 수 있다. 디코더에 의해 수신된 키네틱 정보는 여러 요인, 즉 1) 이전의(기준) 프레임이 키 프레임인지, 2) 아니면, 사용 가능한 다중 스케일링 정보인지에 의존한다.

도 25를 참조하면, 단계(2510)에서, 디코더는 기준 프레임이 키 프레임인지, 즉 프레임이 어떤 다른 프레임과 관련하여 규정되지 않았는지를 결정한다. 기준 프레임이 키 프레임이라면, 세그먼트의 잠재적 그룹화를 위한 이전의 모션 관련 정보는 존재하지 않는다. 그러나, 디코더는, 가능하다면 세그먼트 그룹화를 위한 다중 스케일 정보를 사용하도록 시도한다. 단계(2520)에서, 디코더는 이용할 수 있는 다중 스케일 정보가 있는지를 결정한다. 기준 프레임이 키 프레임이고 디코더에 이용할 수 있는 다중 스케일 정보가 있다면, 그 후 단계(2530)에서 디코더는 인코더에 관하여 상기한 바와 같이, 다중 스케일 루틴을 사용하여 처음으로 관련 세그먼트를 함께 그룹화할 것이다. 그 후, 단계(2540)에서 디코더는 모션 벡터 및 모션 벡터 오프셋을 수신한다. 역으로, 기준 프레임에 대한 이용할 수 있는 다중 스케일 정보가 없다면, 그 후 단계(2550)에서 (오프셋 이외의) 모션 벡터는 디코더에 의해 수신된다.

그러나, 단계(2510)에서, 디코더가 제1 프레임이 키 프레임이 아님을 결정한 경우, 그 후 단계(2560)에서, 디코더는 아래에 기술하는 바와 같이, 모션 벡터 그룹화 루틴을 실행한다. 이와 달리 또는 부가적으로 상기한 다중 스케일 그룹화를 사용할 수 있다.

도 26은 모션 벡터 그룹화 루틴을 도시한다. 단계(2610)에서, 디코더는 각 세그먼트의 이전의 모션 벡터를 참조한다. 단계(2620)에서, 디코더는 유사한 이전의 모션벡터를 갖는 세그먼트를 함께 그룹화한다. 단계(2630)에서, 디코더는 그룹 모션이 예측 가능한지를 결정한다. 예측 가능하지 않다면, 그 후 단계(2680)에서, 디코더는 모션 벡터 및 오프셋(만약 있다면)을 수신하고, 그 후 단계(2660)로 계속된다. 예측 가능하다면, 디코더는 단계(2640)에서, 그룹 모션을 예측하고, 그 후 단계(2650)에서 예측 보정을 수신하며, 그 후 단계(2660)로 계속된다. 단계(2660)에서, 디코더는 그룹이 더 있는지를 결정한다. 있다면, 디코더는 단계 2670에서 다음 그룹을 참조하고 단계(2630)로 계속된다. 그룹이 더 없다면, 루틴은 종료된다.

3.4 잔여물

모션 관련 정보가 수신된 후, 디코더는 잔여물 정보를 수신한다. 잔여물은 두 개의 분류, 즉 배경 및 국부적인 잔여물로 된다.

3.4.1 배경 잔여물

도 16에 도시한 바와 같이, 자동차가 이동함에 따라, 이전이 숨겨지거나 차단된 영역은 처음으로 보이게될 것이다. 디코더는 이러한 영역이 어디인지 알고, 사전결정된 배치 체계를 사용하여 이들을 배치한다. 도 16에 있어서, 3개의 영역이 개방되게되며, 명확하게는 차의 뒤 및 두 개의 바퀴 뒤이다. 이러한 영역은 영역(1601 내지 1603)으로 표시되어 있다.

도 27을 참조하면, 단계(2710)에서, 디코더는 배경 잔여물 영역을 참조하고, 그 후 단계(2720)에서 상기 영역들을 배치한다. 단계(2730)에서, 디코더는 제1 배경 잔여물 영역의 구조에 관하여 수학적 예측을 한다. 단계(2740)에서, 디코더는 예측이 얼마나 양호한지 보정이 필요한지를 나타내는 플래그를 수신한다. 단계(2750)에서, 디코더는 예측이 충분한지를 결정한다. 예측이 충분하다면, 루틴은 단계(2770)로 계속된다. 예측이 충분하지 않다면, 그 후 단계(2760)에서 디코더는 인코딩된 영역 및 코딩 체계를 나타내는 플레그를 수신하여, 필요에 따라 재현하고, 그 후 단계(2770)로 계속된다. 단계(2770)에서 디코더는 배경 잔여물 영역이 더 있는지를 결정한다. 배경 잔여물이 더 있다면, 디코더는 단계(2780)에서 다음 영역을 참조하고 단계(2730)로 계속된다. 그 밖의 경우, 루틴은 종료된다.

3.4.2 국부적인 잔여물

잔여물 정보는 새로운 정보의 부정확한 매치 및 출현으로 초래되는 정보로 구성된다. 도 18에 있어서, 자동차 및 태양이 프레임(1801)에서 보다 프레임(1802)에서 더 작게 나타난다. 잔여물의 구조는 새로운 세그먼트가 이전의 세그먼트와 얼마나 다른지에 의존할 것이다. 디코더는 국부적인 잔여물의 대부분이 세그먼트 경계에 나타날 것이라는 것을 알고 있다. 세그먼트 경계의 위치를 포함하는 디코더의구조 정보의 지식은 국부적인 잔여물 코딩의 효율을 개선하기 위해 참조될 수 있다.

도 28을 참조하면, 단계(2810)에서, 디코더는 제1 세그먼트를 참조한다. 단계(2820)에서, 디코더는 필요하다면, 코딩 체계를 나타내는 플래그를 수신하고, 그 세그먼트에 대한 인코딩된 국부적인 잔여물을 수신한다. 단계(2830)에서, 디코더는 세그먼트가 더 있는지를 결정한다. 세그먼트가 더 있다면, 디코더는 단계(2840)에서 다음 세그먼트를 참조하고, 그 후 단계(2820)로 계속된다. 그 밖의 경우, 루틴은 종료된다.

3.4 Z-배치

Z-배치는 이미지 프레임 내의 각 세그먼트의 깊이 위치를 칭한다. 디코더는 어떤 세그먼트가 완벽하게 보이게 될지 및 어느 하나가 부분적으로 또는 전체적으로 숨겨질지를 결정하기 위해 Z-배치 정보를 사용한다.

3.5 재현

최종적으로, 프레임은 결정된 모션 관련 정보 및 잔여물을 기초하여 재현된다.

3.6 특정 인스트럭션 및 객체 기반 이미지 조작

이미지에 관련된 구조 정보에 부가하여, 디코더는 비트 스트림 내에 간직되고 여러 세그먼트와 관련된 커맨드를 수신 및 실행하기에 적합하다. 인코더 및 디코더가 동기되고, 동일한 기준 프레임으로 움직인다면, 인코더가 커맨드에 관련된 구조 정보를 전송할 것이 요구되지 않는다. 또한, 간직된 커맨드는 사용자 구동 이벤트, 즉 마우스 클릭이 발생할 때까지 정지된 상태에 있을 수 있다.

도 29는 본 발명의 하나의 실시예에 따르는 간직된 커맨드를 처리하는 과정을 예시한다. 단계(2910)에서, 디코더는 제1 세그먼트를 참조한다. 단계(2920)에서, 디코더는 특정 인스트럭션 플래그를 수신한다. 단계(2930)에서, 디코더는 세그먼트에 관련된 특정 인스트럭션 또는 커맨드가 있는지를 결정한다. 특정 인스트럭션 또는 커맨드가 있다면, 그 후 단계(2940)에서 디코더는 커맨드(들)를 수신하고, 단계(2950)로 계속된다. 특정 인스트럭션 또는 커맨드가 없다면, 디코더는 직접 단계(2950)로 진행되고, 여기서 디코더는 세그먼트가 더 있는지를 결정한다. 세그먼트가 더 있다면, 디코더는 단계(2960)에서 다음 세그먼트를 참조하고, 그 후 단계(2920)로 되돌려진다. 세그먼트가 더 이상 없다면, 루틴은 종료된다.

도 30은 본 발명의 하나의 실시예에 따르는 사용자 구동 이벤트를 취급하기 위한 과정을 예시한다. 단계(3010)에서, 디코더는 사용자 구동 이벤트가 발생되었는지를 결정한다. 사용자 구동 이벤트가 발생되었다면, 단계(3020)에서 디코더는 사용자 구동 이벤트에 관련된 세그먼트가 무엇인지를 결정한다. 그 후, 단계(3030)에서, 관련된 커맨드가 실행된다. 그 후, 단계(3040)에서, 디코더는 종결 시퀀스가 발생되었는지를 결정한다. 종결 시퀀스가 발생되었다면, 루틴은 다시 단계(3010)에서 개시된다. 종결 시퀀스가 발생되지 않았다면, 루틴은 종료된다.

단계(3010)에서, 디코더가 사용자 구동 이벤트가 발생하지 않았음을 결정하면, 그 후, 디코더는 직접 단계(3040)로 진행된다.

세그먼테이션과 같은 구조 정보를 계산하는 디코더의 능력은 정보에 첨부될수 있는 특정 인스트럭션을 따라 많은 구조 정보를 전송하기 위해 구비해야 하는 총 경비를 크게 감소시키는 지레대로 작용할 수 있다.

예를 들면, 분리된 세그먼트에 의해 표현되는 이미지 내의 객체 또는 구별되는 특징은 분리된 존재로서 손쉽게 조작될 수 있다. 이러한 조작은 제한 없이 1) 프레임 내에서의 편집, b) 다른 이미지 또는 어플리케이션으로의 표출 및 c) 사용자 입력 기반의 상호 작용 동작을 포함할 수 있다. 인코더 및 디코더가 동기되는 시스템에 있어서, 조작된 객체 또는 특징은 현재의 또는 어떤 다른 영상 스트림 내로의 재도입을 위해 즉시 재인코딩될 수 있다. 이러한 형태로, 본 발명의 기술은 전통적인 영상 인코딩의 비트 또는 화소 기반 한계를 극복하고, 이를 실제 객체 모델링을 위한 툴로서 유용하게 만든다.

3.7 이와 달리, 디코더는 일단 영상 프레임의 구조 정보가 결정되면, 제2 영상 프레임을 기술하는데 사용될 수 있는 최적의 기초 기능 셋트를 결정한다. 그 후, 디코더는 인코더로부터 계수를 수신하고, 제2 이미지 프레임을 재현한다. 인코더 및 디코더 양자 모두는 이용 가능한 구조 정보로부터 동일한 기초 기능을 독립적으로 생성하고 배치하여, 단지 기초 기능의 계수만이 전송될 필요가 있다. 이것은 부가적인 코딩 또는 부가적인 전송 코딩 방법이다.

4.0 영상 포멧

여기서 기술된 발명은 또한 영상 데이터 전송을 위한 새로운 영상 포맷을 기술하였다. 이 영상 포맷은 이미지 프레임의 구조 정보와 관련된 키네틱 정보로 구성된다. 이 구조 정보는 모션 관련 정보, 잔여물 정보 및 특정 인스트럭션을 포함하지만 이에 한정되지 않는다.

이와 달리, 이 새로운 영상 포맷은 기초 기능의 셋트로부터 유도된 계수의 시퀀스로 구성될 수 있다.

5.0 결론

상기한 섹션은 실질적으로 소정의 컴퓨터 기반 환경에서 당업자가 실행할 수 있는 방법으로, 플로우차트를 사용하여 인코더 및 디코더의 동작을 일반적으로 기술하였다.

이러한 실행은 특정 소프트웨어 및/또는 하드웨어 환경에 한정되지 않는다. 예를 들면, 이것들은 범용 컴퓨터 상의 일련의 함수 모듈로서(예컨대, I/O 모듈, 모션 매칭 모듈, 잔여물 모듈 등), 실제의 소정의 프로그래밍 언어를 사용하여 소프트웨어로 완벽하게 실행될 수 있다. 이와 달리, 빠른 동작을 위해, 이것들은 하드웨어로서, 예를 들어 주문형 VLSI 칩 내에서 완벽하게 실행될 수 있다. 또 다른 실행이 특정 동작 환경을 요구하는 특정 속도, 비용 및 이동성에 의해 요구됨에 따라 실제로 소정의 소프트웨어와 하드웨어의 조합이 포함될 수 있다.

상기된 모든 것은 본 발명의 예시적인 실시예 및 응용을 예시한다. 이로부터의 관련된 변형, 확장 및 변경이 본 발명의 정신 및 범주을 벗어나는 일이 없이 행해질 수 있다는 것은 명백한 사실이다. 그러므로, 본 발명은 상기한 설명에 의해 제한되지 않으며, 오히려 여기에 첨부된 청구 범위에 의해 해석된다.

디지털 동화상의 압축은 관련 화상 프레임의 시퀀스 내에 포함되는 과잉 또는 용장성 정보(공간적 및 시간적 양쪽 모두)를 제거하는 프로세스이다. 화상 압축은 감소된 비트스트림에 의해 표시될 프레임의 시퀀스 또는 데이트 플로우를 허용하는 반면, 가시적으로 충분한 방법으로 재현될 화상 압축 능력을 보유한다.

종래의 화상 압축 방법은 대부분의 압축 부담(예컨대, 계산 및/또는 전송) 을 인코더 상에 두는 반면, 디코더를 최소한으로 사용한다. 종래의 화상 인코더/디코더 시스템에 있어서, 디코더는 "단순" 또는 수동(passive)이다. 인코더는 모든 계산을 실시하여, 인코더의 결정을 통지하며, 그 후 화상 데이터를 각 이미지를 재현하기 위한 인스트럭션에 따라 인코더로 전송한다.

그에 비해, 본 발명은 다른 방법으로 인코더를 필요로 하는 많은 전송 및 인스트럭션 부담(instructional burden)을 수행하는 "스마트(smart)" 또는 액티브(active) 인코더이며, 이에 따라 오버헤드를 크게 감소시킨 결과 많은 보다 작은 인코딩된 비트스트림으로 귀결된다. 따라서, 본 발명에 따른 대응하는(즉, 호환성) 인코더는 크게 감소된 오버헤드를 갖는 인코딩된 비트스트림을 생성할 수 있다. 상기한 바는 이미지에 대한 고유의 구조 정보에 기초하여 기준 프레임을 인코딩함으로써 달성되며, 그 후 구조 정보에 관련된 다른 프레임을 예측한다. 통상적으로, 예측 프레임의 설명은 기초가 되는 기준 프레임으로부터 대응하는 구조(예컨대, 이미지 세그먼트)의 키네틱스(kinetics)를 나타내는 키네틱 정보(예컨대, 세그먼트 모션 데이터 및/또는 이전의 폐색된 영역(occluded area)의 노출 및/또는 부정확한 매칭 및 새로운 정보의 출현에 따른 관련 잔여물 등)를 포함한다. 디코더가 예측 프레임을 기초로 하는 구조 정보(및 그들 사이의 관련성)를 독립적으로 판정할 수 있기 때문에, 이러한 정보는 디코더로 명시적으로 전송될 필요는 없다. 차라리, 인코더는 디코더가 그 자체 상에서 판정할 수 없다는 것을 인지하는 전송 정보만을 필요로 한다.

본 발명의 또 다른 측면 또는 실시예에 있어서, 관련 이미지의 과거 시퀀스에 기초하는 추후의 이미지에 관한 동일한 예측 및 (구조 정보 그 자체보다 또는 이외에) 이들 예측 양쪽 모두를 실시하는 디코더 및 인코더는 차후의 이미지의 실제값을 인코딩하기 위한 기본으로서 사용된다. 따라서, 인코더는 예측값과 실제값 사이의 차를 간단히 전달할 수 있고, 또한 비트스트림을 감소시킨다.

본 발명의 또 다른 측면 또는 실시예에 있어서, 디코더는 세그먼트 배치(segment ordering) 또는 세그먼트 결합/분리(segment association/disassociation)에 대해서 인코더에 의해 이루어지는 결정을 재현할 수 있기 때문에, 이러한 결정이 디코더로 전송될 필요는 없다.

본 발명의 또 다른 측면 또는 실시예에 있어서, 인코더는 여러 가지 압축 기술을 사용하여 예측을 인코딩할 수 있고, 대응하는 압축 해제 기술을 사용하도록 디코더에 지시한다.

본 발명의 상기한 측면, 다른 측면 및 실시예는 이하에 보다 상세히 기술된다.

Claims

화상 정보를 전송하는 방법에 있어서,

(a) 이미지 데이터를 포함하는 제1 화상 프레임을 얻는 단계와;

(b) 상기 이미지 데이터에 고유한 구조 정보를 얻는 단계와;

(c) 상기 제1 화상 프레임에 관련되는 인코딩될 제2 화상 프레임을 얻는 단계와;

(d) 상기 제1 화상 프레임의 상기 구조 정보에 관하여 상기 제2 화상 프레임을 설명하기 위한 키네틱 정보(kinetic information)를 계산하는 단계와;

(e) 디코더가 발생하는 상기 제1 화상 프레임의 상기 구조 정보에 기초하여 상기 제2 화상 프레임을 재현하는데 사용하기 위해 디코더에 상기 키네틱 정보를 전송하는 단계를 포함하는 화상 정보 전송 방법.
화상 정보를 전송하기 위한 방법에 있어서,

(a) 이미지 데이터를 포함하는 제1 화상 프레임을 얻는 단계와;

(b) 상기 이미지 데이터에 고유한 구조 정보를 얻는 단계와;

(c) 상기 제1 화상 프레임에 관련되는 인코딩될 제2 화상 프레임을 얻는 단계와;

(d) 상기 구조 정보에 따라 적응성 코딩(adaptive coding)을 사용하여 제2 화상 프레임을 인코딩하는 단계와;

(e) 상기 제2 화상 프레임을 디코더로 전송하는 단계를 포함하는 화상 정보 전송 방법.
화상 정보를 수신하는 방법에 있어서,

(a) 인코딩된 제1 화상 프레임을 수신하는 단계와;

(b) 상기 인코딩된 제1 화상 프레임으로부터 제1 화상 프레임을 재현하는 단계와;

(c) 이미지 데이터에 고유한 구조 정보를 얻는 단계와;

(d) 상기 제1 화상 프레임의 상기 구조 정보에 관하여 제2 화상 프레임을 설명하는 키네틱 정보를 수신하는 단계와;

(e) 상기 제2 화상 프레임을 재현하는 단계를 포함하는 화상 정보 수신 방법.
인코더와 디코더를 포함하는 화상 코덱에 있어서,

상기 인코더는,

이미지 데이터를 포함하는 제1 화상 프레임을 얻고;

상기 이미지 데이터에서 고유의 구조 정보를 얻도록 상기 제1 화상 프레임을 세그먼팅하며;

상기 제1 화상 프레임에 관련되는 인코딩될 제2 화상 프레임을 얻고;

상기 제1 화상 프레임의 상기 구조 정보에 관하여 상기 제2 화상 프레임을설명하기 위한 키네틱 정보를 계산하며;

디코더가 발생하는 상기 제1 화상 프레임의 상기 구조 정보에 기초하여 상기 제2 화상 프레임을 재현하는데 사용하기 위해 디코더에 상기 키네틱 정보를 전송하도록 구성되고,

상기 디코더는,

상기 인코딩된 제1 화상 프레임을 수신하며;

상기 인코딩된 제1 화상 프레임으로부터 상기 제1 화상 프레임을 수신하고;

상기 구조 정보를 얻기 위해 상기 제1 화상 프레임을 세그먼팅하며;

상기 키네틱 정보를 수신하고;

상기 구조 정보를 갖는 상기 키네틱 정보를 결합하여 상기 제2 화상 프레임을 재현하도록 구성되어 있는 화상 코덱.
인코더에 있어서,

(a) 제1 화상 프레임을 수신하도록 구성되는 제1 모듈과;

(b) 상기 제1 화상 프레임을 인코딩하도록 구성되는 제2 모듈과;

(c) 상기 제1 화상 프레임을 디코딩하도록 구성되는 제3 모듈과;

(d) 상기 제1 화상 프레임의 구조 특성을 결정하도록 구성되는 제4 모듈과;

(e) 상기 제1 화상 프레임의 상기 구조 특성을 배치하도록 구성되는 제5 모듈과;

(f) 제2 화상 프레임을 얻도록 구성되는 제6 모듈과;

(g) 상기 제1 화상 프레임의 상기 구조 특성과 상기 제2 화상 프레임의 구조 특성 사이의 차이를 코딩하도록 구성되는 제7 모듈과;

(h) 상기 차이를 전송하도록 구성되는 제8 모듈을 포함하는 인코더.
디코더에 있어서,

(a) 제1 화상 프레임을 수신하도록 구성되는 제1 모듈과;

(b) 상기 제1 화상 프레임을 디코딩하도록 구성되는 제2 모듈과;

(c) 상기 제1 화상 프레임의 구조 특성을 결정하도록 구성되는 제3 모듈과;

(d) 상기 제1 화상 프레임의 상기 구조 특성을 배치하도록 구성되는 제4 모듈과;

(e) 상기 제1 화상 프레임의 상기 구조 특성과 제2 화상 프레임의 구조 특성 사이의 차이를 수신하기 위한 제5 모듈과;

(f) 상기 차이를 디코딩하기 위한 모듈을 포함하는 디코더.
화상 정보를 인코딩 및 디코딩하도록 동기화하기 위한 장치에 있어서,

(a) 제1 화상 프레임을 얻고, 상기 제1 화상 프레임을 인코딩하며, 상기 제1 화상 프레임을 디코딩하며, 상기 제1 화상 프레임을 위한 구조 정보를 얻도록 구성되는 인코더와;

(b) 상기 제1 화상 프레임을 얻고, 상기 제1 화상 프레임을 디코딩하며, 상기 제1 화상 프레임을 위한 상기 구조 정보를 얻도록 구성되는 디코더를 포함하는장치.
제1 화상 프레임의 구조 정보에 관하여 제2 화상 프레임을 설명하는 키네틱 정보를 포함하는 반송파에 포함된 신호.
제1 화상 프레임의 구조 정보에 관하여 제2 화상 프레임을 설명하는 기초 기능 세트로부터 유도되는 계수를 포함하는 반송파에 포함된 신호.