KR20080066720A

KR20080066720A - 랜덤 필드 모델을 사용한 사진 및 비디오 압축과 프레임레이트 업 변환을 개선시키는 방법 및 장치

Info

Publication number: KR20080066720A
Application number: KR1020087010085A
Authority: KR
Inventors: 세이풀라 할리트 오구즈; 비자얄라크시미 알 라빈드란
Original assignee: 퀄컴 인코포레이티드
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2008-07-16
Also published as: EP1938613B1; KR100974177B1; WO2007038696A3; WO2007038696A2; EP1938613A2; DE602006018345D1; ATE488962T1; US20070074251A1

Abstract

멀티미디어 데이터 프로세싱을 위한 방법 및 장치는 복수의 파티션들로 데이터를 분할, 제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리 중 하나로 복수의 파티션들 각각을 할당, 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 이용하여 인코딩 그리고 제 2 카테고리로 할당된 복수의 파티션들을 텍스처 모델로 인코딩을 포함한다. 멀티미디어 데이터 프로세싱을 위한 방법 및 장치는 제 1 카테고리에 속하는 제 1 파티션들을 알고리즘을 이용하여 디코딩하고, 제 2 카테고리에 속하는 제 2 파티션들을 텍스처 모델을 이용하여 디코딩하고, 경계 정보, 복수의 제 1 파티션들 및 복수의 제 2 파티션들을 이용하여 멀티미디어 데이터를 생성을 포함한다.

비디오 프레임, 인코딩, 디코딩

Description

랜덤 필드 모델을 사용한 사진 및 비디오 압축과 프레임 레이트 업 변환을 개선시키는 방법 및 장치{METHOD AND APPARATUS FOR USING RANDOM FIELD MODELS TO IMPROVE PICTURE AND VIDEO COMPRESSION AND FRAME RATE UP CONVERSION}

35 U.S.C §119 에 따른 우선권 주장

본 특허 출원은, 2005년 9월 27일자로 출원된 발명의 명칭이 "마코브 랜덤 필드 모델 (MARKOV RANDOM FIELD MODELS) 사용을 고려한 EA-FRUC IDF 드래프트 문서" 인 가출원 제 60/721,374 호 및 2006년 2월 10일자로 출원된 발명의 명칭이 "랜덤 필드 모델을 사용한 사진 및 비디오 압축과 프레임 레이트 업 변환을 개선시키는 방법 및 장치" 인 가출원 제 60/772,158 호를 우선권 주장하고, 이 문서의 양수인에게 모두 양도되어 있으며, 여기서 참조로서 명백하게 포함된다.

본 발명은 사진 및 비디오 압축과 관련된다. 더 자세하게는, 본 발명은 랜덤 필드 모델을 사용한 사진 및 비디오 압축과 프레임 레이트 업 변환을 개선시키는 방법 및 장치와 관련된다.

디지털 카메라들, 디지털 비디오 레코더들, 위상 방송 디지털 텔레비전 (DTV) 서비스들 및 비디오 스트리밍과 같은 디지털 제품들 및 서비스들은 점점 대중화되고 있다. 디지털 데이터/정보 저장 용량 및 공유 전송 대역폭들의 제한 으로 인해, 디지털 사진들 및 비디오 프레임들의 효율적인 저장과 전송을 위한 디지털 사진들과 비디오 프레임들의 압축 필요성이 더 커졌다. 이런 이유로, 디지털 사진들 및 디지털 비디오 신호들을 인코딩하고 디코딩하는 많은 표준들이 개발되었다. 예를 들어, 국제 전기 통신 연합 (ITU) 은 디지털 비디오 인코딩을 위한 H.261, H.262, H.263 및 H.264 를 공표하였다. 또한, 국제 표준화 기구 (ISO) 는 그들의 전문가 스터디 그룹인 동영상 전문가 그룹 (MPEG) 을 통해 디지털 비디오 인코딩을 위한 MPEG-1, MPEG-2 및 MPEG-4 표준들의 비디오 압축 관련된 부분을 공표하였다. 예를 들어, MPEG-2 비디오 (MPEG-2 Video) 는 현재 디지털 TV 위성 방송, 지상 또는 케이블 전파 연결에 사용되는 표준 인코딩 기술이다. 디지털 사진 압축의 영역에서, ISO 및 ITU 가 같이 설립한 공동 사진 전문가 모임 (JPEG) 은 JPEG 및 JPEG2000 표준들을 공표하였다.

이들 표준들은 인코딩된 디지털 비디오 신호들의 신택스와 이들 신호가 상연 또는 재생을 위해 어떻게 디코딩되는지 명확하게 한다. 그러나, 이들 표준들은, 다양하고 상이한 기술들 (예를 들어, 알고리즘들 또는 압축 툴들) 이 디지털 비디오 신호들을 압축되지 않은 형식에서 압축 또는 인코딩된 형식으로 변환시키도록 융통성있게 사용되도록 허용한다. 그러므로, 많은 상이한 디지털 비디오 신호 인코더들은 현재 사용가능하다. 이들 디지털 비디오 신호 인코더들은 상이한 품질 수준에서 상이한 압축 정도들을 얻을 수 있다. 현재의 표준들에 의해 제공되고 현재 인코더들에 의해 사용되는 압축 기술들은 텍스처가 아닌 객체들 및 이미지들의 압축에 가장 적합하다.

그러나, 사진들 및 비디오 프레임들은, 다양한 규모를 거쳐 고려해야할 디테일을 나타내는 텍스처된 비주얼 객체들 및 영역들을 종종 포함한다. 이들 객체들의 예로는 잔디, 꽃들, 잎들, 물 등을 포함한다. 조명 조건 및/또는 움직임의 작은 양 (즉, 위치 변화) 의 가벼운 변화가 결합되면, 그들의 높은-레벨의 인상이 동일하게 유지되어도 이들 객체들의 정밀한 미세 디테일들은 변한다. 이들 각 객체들은, 작은 공간상 주변들 (예를 들어, 적은 픽셀 안에서) 내의 밝기 (Y) 및/또는 색상 (U,V) 에 의해 급격한 변화를 보이는 확률적인, 어쩌면 주기적인, 이차원 픽셀 영역 (예를 들어, 사진 또는 비디오 프레임의 부분) 으로 여겨지는 텍스처로 볼 수 있다. 상기 압축 알고리즘들은 텍스처들의 압축에는 매우 효과적이지는 않다.

다른 것은 물론 이러한 이유로, 텍스처를 포함하는 비주얼 객체들 및 영역들의 효과적인 압축 방법들 및 시스템들의 존재가 필요하다.

요약

멀티미디어 데이터 프로세싱 방법은 데이터를 복수의 파티션들로 분할하는 단계, 제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리 중 하나에 복수의 파티션들 각각을 할당하는 단계, 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 인코딩하는 단계 및 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하는 단계를 포함한다.

멀티미디어 데이터 프로세싱 장치는 데이터를 복수의 파티션들로 분할하도록 구성된 분할 모듈, 제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리 중 하나에 복수의 파티션들 각각을 할당하도록 구성된 할당 모듈 및 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 인코딩하고 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 구성된 인코더를 포함한다.

멀티미디어 데이터 프로세싱 방법은 제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하는 단계, 제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하는 단계 및 경계 정보, 복수의 제 1 파티션 및 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하는 단계를 포함한다.

멀티미디어 데이터 프로세싱 장치는 제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하고 제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하는 디코더 및 경계 정보, 복수의 제 1 파티션 및 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하는 생성 모듈을 포함한다.

본 발명의 특성, 본질 및 이점은 도면과 함께 취해졌을 때 아래에 진술된 상세한 설명으로부터 더 명백하게 된다.

도 1 은 본 발명의 일 실시형태에 따라 사진들 및 비디오 프레임들을 전송 및 수신하는 시스템의 블록 다이어그램이다.

도 2 는 본 발명의 일 실시형태에 따라 사진들 및 비디오 프레임들을 전송 및 수신하는 시스템의 블록 다이어그램이다.

도 3 은 본 발명의 일 실시형태에 따라 사진들 및 비디오 프레임들을 인코딩하는 방법을 설명하는 플로우 차트이다.

도 4a, 4b 및 4c 는 본 발명의 다양한 실시형태에 따른 마코브 랜덤 필드의 정의를 위한 8 접속 주변(8 connected neighborhood), 4 접속 주변(4 connected neighborhood) 및 사선 주변(oblique neighborhood) 들의 예들이다.

도 5 는 MRF 모델의 4 개의 상이한 실현을 보여주는 사진으로 각 실현은 본 발명의 다양한 실시형태에 따라 상이한 주변 정의를 포함한다.

도 6 은 본 발명의 일 실시형태에 따라 사진들 및 비디오 프레임들을 디코딩하는 방법을 설명하는 플로우 차트이다.

도 7 은 본 발명의 일 실시형태에 따른 멀티미디어 데이터 프로세싱 장치의 블록 다이어그램이다.

도 8 은 본 발명의 일 실시형태에 따른 멀티미디어 데이터 프로세싱 장치의 블록 다이어그램이다.

도 9 는 멀티미디어 데이터 프로세싱 장치를 위한 수단들에 대한 예시적인 컴포넌트들을 설명하는 블록 다이어그램이다.

도 10 은 멀티미디어 데이터 프로세싱 장치를 위한 수단들에 대한 예시적인 컴포넌트들을 설명하는 블록 다이어그램이다.

본 발명의 다양한 모습의 실시형태를 구현하는 방법들 및 시스템들은 도면을 참조하여 이하 서술된다. 도면 및 관련 서술은 본 발명의 실시형태를 설명하기 위해 제공되고, 본 발명의 범위를 제한하지 않는다. "하나의 실시형태" 또는 "일 실시형태" 인 명세서 내 언급은 실시형태와 관련지어 서술된 특정 모습, 구조 또는 특성이 적어도 본 발명의 실시형태에 포함됨을 가리키기 위한 의도이다. 상세한 설명 내의 다양한 위치에서의 "하나의 실시형태에서" 또는 "일 실시형태" 구절은 반드시 모두 같은 실시형태를 언급하는 것은 아니다. 도면을 통틀어, 참조 번호는 참조된 요소들간에 대응됨을 가리키기 위해 재사용된다. 또한, 각 참조 번호의 첫번째 자리는 그 요소가 처음 나타나는 도면을 가리킨다.

도 1 은 비디오 데이터 (예를 들어, 사진들 및 비디오 프레임들) 를 전송 및 수신하는 시스템 (100) 의 블록 다이어그램이다. 시스템 (100) 은 또한 사진들 및 비디오 프레임들을 인코딩 (예를 들어, 압축) 및 디코딩 (예를 들어, 복원) 하는데 사용될 수도 있다. 시스템 (100) 은 서버 (102), 디바이스 (104) 및 서버 (102) 와 디바이스 (104) 를 연결하는 통신 채널 (106) 을 포함할 수도 있다. 시스템 (100) 은 사진들 및 비디오 프레임들을 인코딩 및 디코딩하기 위해 후술될 방법을 설명하는데 사용되는 예시적인 시스템이다. 시스템 (100) 은 하드웨어, 소프트웨어 및 그들의 조합으로 구현될 수도 있다. 당업자는 본 발명의 사상과 범주를 벗어나지 않고 시스템 (100) 을 대신해 다른 시스템들을 사용할 수 있음을 알 수 있다.

서버 (102) 는 프로세서 (108), 메모리 (110), 인코더 (112) 및 I/O 디바이스 (114; 예를 들어, 트랜스시버) 를 포함할 수도 있다. 서버 (102) 는 하나 이상의 프로세서들 (108), 하나 이상의 메모리들 (110), 하나 이상의 인코더들 (112) 및 하나 이상의 I/O 디바이스들 (114; 예를 들어, 트랜스시버) 을 포함할 수도 있다. 프로세서 (108) 및/또는 인코더 (112) 는 일련의 비디오 프레임들의 형태로 비디오 데이터 및 사진들을 수신하도록 구성될 수도 있다. 프로세서 (108) 및/또는 인코더 (112) 는 저장을 위해 메모리 (110) 로 사진들 및 일련의 비디오 프레임들을 전송할 수 있거나/있고 사진들 및 일련의 비디오 프레임들을 압축할 수도 있다. 메모리 (110) 는 서버 (102) 의 동작과 기능을 통제하도록 프로세서 (108) 및/또는 인코더 (112) 에 의해 사용되는 컴퓨터 명령어들을 저장할 수도 있다. 메모리 (110) 로부터 수신된 컴퓨터 명령어들을 사용하는 인코더 (112) 는 일련의 비디오 프레임들의 병렬 또는 순차적 프로세싱 (예를 들어, 압축) 모두를 수행하도록 구성될 수도 있다. 컴퓨터 명령어들은 후술하는 방법대로 구현될 수도 있다. 일련의 프레임들이 인코딩되었을 때, 통신 채널 (106) 을 통해 디바이스 (104) 로 전송되기 위해 인코딩된 데이터는 I/O 디바이스 (114) 로 보내질 수도 있다.

디바이스 (104) 는 프로세서 (116), 메모리 (118), 디코더 (120), I/O 디바이스 (122; 예를 들어, 트랜스시버) 및 디스플레이 디바이스 또는 스크린 (124) 을 포함할 수도 있다. 디바이스 (104) 는 하나 이상의 프로세서들 (116), 하나 이상의 메모리들 (118), 하나 이상의 디코더들 (120), 하나 이상의 I/O 디바이스들 (122; 예를 들어, 트랜스시버) 및 하나 이상의 디스플레이 디바이스들 또는 스크린들 (124) 을 포함할 수도 있다. 디바이스 (104) 는 컴퓨터, 디지털 비디오 레코더, 휴대용 디바이스 (예를 들어, 휴대폰, 블랙베리 등), 셋 탑 박스, 텔레비전 및 일련의 비디오 프레임들을 수신, 프로세싱 (예를 들어, 복원) 및/또는 디스플레이하는 것이 가능한 다른 디바이스들일 수도 있다. I/O 디바이스 (122) 는 인코딩된 데이터를 수신하고 인코딩 데이터를 메모리 (118) 및/또는 복원을 위한 디코더 (120) 로 보낸다. 디코더 (120) 는 인코딩된 데이터를 사용하여 사진들 및/또는 일련의 비디오 프레임들을 재생산하도록 구성된다. 한번 디코딩되면, 사진 및/또는 일련의 비디오 프레임들은 메모리 (118) 에 저장될 수 있다. 메모리 (118) 로부터 얻어낸 컴퓨터 명령어들을 사용하는 디코더 (120) 는 사진들 및/또는 일련의 비디오 프레임들을 재생산하기 위해 인코딩된 데이터의 병렬 또는 순차적 프로세싱 (예를 들어, 복원) 을 수행하도록 구성될 수도 있다. 컴퓨터 명령어들은 후술하는 방법처럼 구현될 수도 있다. 프로세서 (116) 는 메모리 (118) 및/또는 디코더 (120) 로부터 사진들 및/또는 일련의 비디오 프레임들을 수신하고 디스플레이 디바이스 (124) 에 사진들 및/또는 일련의 비디오 프레임들을 디스플레이하도록 구성될 수도 있다. 메모리 (118) 는 또한 디바이스 (104) 의 동작 및 기능을 제어하기 위해 프로세서 (116) 및/또는 디코더 (120) 가 사용하는 컴퓨터 명령어들을 저장할 수도 있다.

통신 채널 (106) 은 서버 (102) 및 디바이스 (104) 사이에 인코딩된 데이터를 전송하기 위해 사용될 수도 있다. 통신 채널 (106) 은 유선 네트워크 및/또는 무선 네트워크일 수도 있다. 예를 들어, 통신 채널 (106) 은 인터넷, 동축 케이블, 광섬유, 위성 링크, 지상 링크, 무선 링크 및 신호 전파 가능한 다른 미디어를 포함할 수 있다.

도 2 는 사진들 및 비디오 프레임들을 전송 및 수신을 위한 시스템 (200) 의 블록 다이어그램이다. 시스템 (200) 은 또한 사진들 및 비디오 프레임들을 인코딩 (예를 들어, 압축) 및 디코딩 (예를 들어, 복원) 하는데 사용될 수도 있다. 시스템 (200) 은 수신 모듈 (202), 분할 모듈 (204), 할당 모듈 (206), 제 1 인코딩 모듈 (208), 제 2 인코딩 모듈 (210) 및 전송 모듈 (212) 을 포함할 수도 있다. 도 2 에서 보여진 모듈은 도 1 에서 보여진 하나 이상의 디바이스들의 일부가 될 수 있다. 예를 들어, 수신 모듈 (202) 및 전송 모듈 (212) 은 I/O 디바이스들 (114 및 122) 의 일부가 될 수 있다. 또한, 분할 모듈 (204), 할당 모듈 (206), 제 1 인코딩 모듈 (208) 및 제 2 인코딩 모듈 (210) 은 인코더 (112) 의 일부가 될 수 있다. 시스템 (200) 은 사진들 및 비디오 프레임들을 인코딩 및 디코딩하는 후술하는 방법을 설명하기 위해 사용된 예시적인 시스템이다. 시스템 (200) 은 하드웨어, 소프트웨어 및 그들의 조합으로 구현될 수도 있다. 당업자는 본 발명의 사상과 범주를 벗어나지 않고 시스템 (200) 을 대신해 다른 시스템들이 사용할 수 있음을 알 수 있다.

도 3 은 멀티미디어 데이터 (예를 들어, 오디오, 비디오, 이미지들 등) 인코딩 방법 (300) 을 설명하는 플로우 차트이다. 비디오는 일반적으로 많은 비디오 프레임들로 이루어져 있는데, 각 사진 및 비디오 프레임은 많은 픽셀들로 이루어져 있다. 각 픽셀은 많은 비트들 (예를 들어, 24 비트) 로 표현되는데, 예를 들어, 8 비트는 빨간색상 컴포넌트를 표현, 8 비트는 초록색상 컴포넌트를 표현하고 8 비트는 파란색상 컴포넌트를 표현한다. 각 사진 및/또는 비디오 프레임을 나타내는데 사용되는 픽셀들의 수는 사진 및/또는 비디오 프레임의 해상도 (예를 들어, 고해상도) 에 의존한다. 각 픽셀을 나타내는데 사용되는 비트들의 수는 사진 및 비디오 프레임의 성능 (예를 들어, 고성능) 에 의존한다. 하나 이상의 사진들 또는 비디오 프레임들을 나타내는데 사용되는 비트들의 완전한 세트는 소스 데이터 비트들로 간주할 수 있다. 본 개시의 목적에 따라 비디오 프레임이란 용어는 사진 및/또는 비디오의 프레임을 서술하기 위해 사용될 수도 있다.

인코더 (112) 는 소스 데이터 비트들을 수신하고 (단계 302) 소스 데이터를 제 1 색상 공간 (예를 들어, RGB) 에서 제 2 색상 공간 (예를 들어, YUV 또는 YCbCr) 으로 변환 (단계 304) 한다. 색상 공간은 일반적으로 세 개의 색상 컴포넌트로 이루어진다. 다수의 색상 공간들, 색상 공간 변환 알고리즘 및 매트릭스들은 제 1 색상 공간에서 제 2 색상 공간으로 변환을 수행하기 위한 기술에 존재한다. 색상 공간 변환 매트릭스의 예이다:

제 1 색상 공간에서 제 2 색상 공간으로의 변환은, 소스 데이터 비트들이 압축을 위한 더 나은 형식이 되는 것을 허용한다.

인코더 (112) 는 이웃한 비디오 프레임들간의 유사도 또는 중복성이 존재하는지 여부를 결정하기 위해 소스 데이터를 분석할 수도 있다 (단계 306). 인코더 (112) 는 일반적으로, 비디오 프레임 (때때로 중간 비디오 프레임으로 참조됨) 과 이전 및 다음의 비디오 프레임들과의 유사도 및 중복성을 비교한다. 예를 들어, 프레임 3 은 프레임 2 및 프레임 4 와 유사도가 비교될 수도 있다. 유사도, 중복성 및/또는 디코더 (120) 의 능력에 따라, 인코더 (112) 는 소스 데이터 비트들에 프레임 레이트 업 변환 (frame rate up conversion; FRUC) 또는 인코더 보조-프레임 레이트 업 변환 (encoder assisted-frame rate up conversion; EA-FRUC) 프로세싱을 수행할 수도 있다.

인코더 (112) 는 이웃한 프레임들간 유사도를 결정하는 유사도 값 (S) 을 계산 또는 생산할 수 있다. 유사도 값은, 예를 들어, 소스 데이터의 픽셀들의 Y 컴포넌트들을 사용하여 계산될 수 있다. 유사도 값은 S (Y₂,Y₃,Y₄) 로 표현될 수 있는데, Y₂ 는 이전 프레임에 속하는 픽셀 (휘도/밝기) 값들의 매트릭스, Y₃ 는 중간 또는 타겟 프레임에 속하는 픽셀 (휘도/밝기) 값들의 매트릭스 및 Y₄ 는 다음 프레임에 속하는 픽셀 (휘도/밝기) 값들의 매트릭스이다. 유사도 값을 생산하는 방법의 한 예는 차의 절대값 합 (sum of absolute differences; SAD) 알고리즘을 사용한다. 유사도를 생산하는 방법의 다른 예로 모션 보상 SAD (motion compensated SAD; MCSAD) 알고리즘을 사용한다.

유사도 척도 S(.) 는 {...,Y_-1,Y₀,Y₁,Y₂ _,} 과 같은 이전 프레임들을 하나 이상을 고려할 수도 있고, 마찬가지로 {Y₄,Y₅,Y₆,...} 과 같은 다음 프레임들을 하나 이상을 고려할 수도 있다. 이러한 멀티 프레임 분석 (특히 일반적인 방향으로) 은 최첨단 비디오 압축 기술과 더 일치하고, 시간 분할 성능 및 정확성을 개선할 수도 있다.

유사도 척도 S(.) 는 비디오 신호를 나타낸 것에 관하여 하나 이상 또는 모든 색상 공간 차원들을 고려할 수도 있다. 이러한 멀티 차원 분석은 시간 분할 성능및 정확성을 개선시킬 수도 있다.

유사도 척도 S(.) 는 스칼라 또는 벡터값인 유사도 정도를 리턴할 수도 있다. 벡터값인 유사도 정도는 다중의 스칼라 컴포넌트들을 가질 수도 있다. 예를 들어, 일 실시형태에서, 이들 각 스칼라 컴포넌트들은, 프레임들의 상이한 쌍 사이의 유사도 값을 반영할 수도 있는 하나는 전형적인 현재 프레임 (중간 또는 타겟 프레임) 이고 다른 하나는 이전 주변들의 리스트 또는 다음 주변들의 리스트로부터인 프레임이다. 일 실시형태에서, 벡터값인 유사도 정도의 다중 스칼라 컴포넌트들은 상이한 색상 공간 차원들에 관하여 계산된 유사도 값을 반영할 수도 있다.

유사도 척도 값의 시퀀스는 인코더 (112) 에 의해 생성될 수도 있다. 인코더 (112) 는 값들의 시퀀스를 분석 모듈에 입력할 수도 있다. 분석 모듈은 프로세서 (108) 및/또는 인코더 (112) 의 일부가 될 수도 있다. 분석 모듈은 제공된 유사도 척도 값들의 부분집합 또는 모두를 프로세스하기 위해 시간에 따라 변화하는 사이즈의 일반적이지 않은 윈도우를 일반적으로 활용할 수도 있어, 각 프레임이 (1) 씬 변화 (scene-change) /샷 경계 (shot-boundary) 인지 아닌지와 같은 시간 분할 결정 또는 (2) 레귤러 인코딩 (regular encoding) 또는 인코더-보조 프레임 보간 (EA_FRUC) 또는 건너뛰기 (프레임 보간 (FRUC) 만 하는 디코더) 와 같은 인코딩 모드 결정 또는 (3) 둘 다를 결정하도록 한다.

분석 모듈은 인지 모델 (perceptual model) (Human Visual System model) 을 활용할 수도 있다. 분석 모듈은, 분석 모듈의 이전 입력들의 히스토리 함수가 현재 상태인 메모리를 가지는 시스템을 포함하는 회귀 분석 기술을 역시 사용할 수도 있다. 분석 모듈은, 각 새로운 프레임 결정이 반드시 최종은 아니고 유사도 척도 진화에 대한 새롭거나 갱신된 이해를 기초로 후에 갱신될 수도 있고 재고될 수도 있는, 반복 분석 기술을 역시 사용할 수도 있다. 분석 모듈은 그에 입력된 유사도 척도 값에 필터링 또는 다른 매핑을 역시 적용할 수도 있다. 일 실시형태에서, 분석 모듈은 유사도 척도 값을 어떤 비유사도 정도에 매핑할 수도 있다.

일 실시형태에서, 인코더 (112) 는 하나 이상의 임계치들에 유사도 값을 비교할 수도 있다 (단계 308). 유사도 값이 제 1 임계치 (T1) 미만이면 이웃 프레임들은 유사하지 않다 (단계 310 으로 이동). 위의 예를 사용하여, 프레임 3 은 프레임 2 또는 4 또는 프레임 2,4 모두와 유사하지 않다. 유사도 값이 제 1 임계치 (T1) 이상이고 제 2 임계치 (T2) 미만이면 이웃한 프레임들은 유사하다 (단계 312 로 이동). 위 예를 사용하여, 프레임 3 은 프레임 2 및 4 와 유사하다. 유사도 값이 제 2 임계치 (T2) 와 이상인 경우 이웃한 프레임들은 매우 유사하다 (단계 314 로 이동). 위 예를 이용하여, 프레임 3 은 프레임 2 및 4 와 매우 유사하다. 인코더 (112) 가 비디오 프레임들의 순서나 시퀀스를 추적하는 방법은 각 비디오 프레임에 타임 스탬프 또는 프레임 번호를 붙이는 것이다.

일 실시형태에서, 인코더 (112) 는 분석 태스크를 형식적 가설 테스팅 문제로 공식화하기 위해 유사도 척도 값들의 시퀀스들 (벡터들) 에 정적 또는 동적 (적용가능한) 확률 모델들을 활용할 수도 있다. 이는 시간 분할 또는 인코딩 모드들의 최적화된 (통계적인 면에서) 결정을 내는 것을 가능하게 한다. 인코더 (112) 에 의해 활용되는 분석 모듈은, 그들의 결정 결과의 본질에 관해서 일반 불린 로직 (boolean logic) 보다 다가의 (many-valued) (퍼지) 로직 원리에 기초할 수도 있다. 이는 복합 (시간상 및 공간상 모두) 비디오 프레임의 동역학을 더 정확한 표현 및 더 높은 성능 정보 보존을 가능하게 한다.

단계 310 에서, 인코더 (112) 는 다음 프레임으로 이동시키기 위해 프레임 카운터를 1 로 증가시킨다. 위의 예를 사용하여, 중간 프레임은 프레임 4 가 된다.

단계 312 에서, 인코더 (112) 는 EA-FRUC 를 수행한다. EA-FRUC 를 위해, 인코더 (112) 는 디코더 (120) 에서 수행되는 프레임 보간 알고리즘을 인식한다. 이웃 비디오 프레임들이 유사한 경우, 이웃한 비디오 프레임들로부터 반복적인 데이터를 보내는 대신에 인코더 (112) 는 타켓 프레임 즉, 중간 프레임을 위해 지원 정보를 생산하거나 타겟 프레임으로부터 지원 정보를 회수한다 (단계 312). 지원 정보는 디코더 (120) 에 의해 수행되는 보간 프로세스의 품질을 강화하고/하거나 계산 복잡도를 감소시킨다. 지원 정보를 가지고, 인코더 (112) 는 모든 타겟 프레임을 위해 데이터를 보낼 필요가 없으나, 타겟 프레임의 재생성을 위해 디코더 (120) 로 지원 정보를 보내야한다. 그러므로, 지원 정보는 디코더 (120) 로 하여금 최소의 정보로, 즉, 지원 정보를 사용하여 타겟 비디오 프레임을 재생성하게 한다.

단계 314 에서, 인코더 (112) 는 프레임 제거 동작을 유발하는 FRUC 를 수행한다. FRUC 는 디바이스 (104) 에서 일부 또는 전체 비디오 프레임의 보간을 인에이블하게 한다. 이웃 비디오 프레임들이 매우 유사한 경우, 이웃한 프레임들로부터 반복/중복 데이터를 보내는 대신, 인코더 (112) 는 디코더 (120) 로 보내지는 타겟 프레임을 폐기하거나 제거한다 (단계 314). FRUC 은 가능하다면 비디오 프레임들의 선택된 부분 집합을 위해 어떠한 데이터도 전송하지 않음으로써 압축 효율을 증가시키는 것과 같은 상이한 목적에 사용될 수도 있거나, 비디오 프레임들의 확장된 부분 또는 비디오 프레임들 전부를 위한 압축 데이터가 채널 저하로 사라졌을 때 에러 은닉을 위해 사용될 수 있다. 다른 경우, 디바이스 (104) 는 이미 수신된 다른 프레임으로부터 그 로컬 자원들 및 사용 가능한 정보를 사용하여 사라진 비디오 프레임들을 보간 (일부 또는 전체적으로) 한다. FRUC 로, 디바이스 (104) 는 보간될 비디오 프레임을 위한 확장/보조 데이터를 수신하지 않는다. EA-FRUC 및 FRUC 을 위한 분류 프로세싱은 일반적으로 모든 비디오 프레임에 수행된다 (단계 310 및 316).

인코더 (112) 는 비디오 프레임을 시간 또는 공간 분할하고, 텍스처로 정확히 묘사될 수 있는 비디오 프레임들에서의 영역을 식별하기 위해 하나 이상의 픽셀 도메인 속성 (예를 들어, 하나 이상의 색상 채널들) 또는 트랜스폼 도메인 속성 (예를 들어, DC 계수 값 및 소정의 서브밴드들에서 AC 계수 세기에 기초한 블록 분류) 에 기초한 비디오 프레임들에 씬 (scene) 분석을 수행한다 (단계 318). 제 2 색상 공간 (단계 304) 이 YUV 이면, 한 색상 채널은 가급적이면 Y 일 것이다. 인코더 (112) 는 적어도 하나의 색상 채널 (즉, 색상 공간 컴포넌트) 에 기초하여 소스 데이터를 다수의 파티션들 또는 영역들로 분할할 수도 있다. 각 파티션 또는 영역은 m 과 n 이 정수인 nxn 픽셀 또는 mxn 픽셀과 같은 임의의, 랜덤 또는 특정 사이즈를 가질 수 있거나, 구름 또는 정사각형 형상의 임의의, 랜덤 또는 특정 형상을 가질 수 있다. 각 파티션 또는 영역은 상이한 임의의, 랜덤 또는 특정 사이즈 및/또는 형상을 가질 수 있다.

인코더 (112) 는 8x8 픽셀 블록의 이산 코사인 변환 (Discrete Cosine Transform; DCS) 으로부터 도출한 DC 계수 값 및 소정의 서브밴드들 내, 즉, 같은 8x8 픽셀 블록의 같은 (DCT) 변환으로부터 도출한 AC 계수들의 소정의 부분집합 내 총 신호 세기와 같은 소스 데이터의 트랜스폼 도메인 속성을 포함한 특징 벡터 (feature vector) 를 채택할 수도 있다. 이들 서브밴드들은, 예를 들어, 순수한 수평 주파수, 즉, 수직 에지, 순수 수직 주파수 즉, 수평 에지, 사선 에지 및 텍스처 모양 공간 주파수 (spatial frequency) 패턴들에 대응될 수도 있다. 인코더는 소스 데이터 내의 각 8x8 픽셀 블록을 위한 특징 벡터를 계산/생성할 수도 있고, 많은 파티션들 영역들 중 하나로 각 8x8 픽셀 블록을 분류하기 위해 특징 공간 내에서 데이터 군집 알고리즘을 사용할 수도 있다.

다수의 상이한 분할 알고리즘들 (예를 들어, 공간적 및/또는 시간적) 은 소스 데이터를 분할하는데 사용될 수 있다. 공간 분할은 사진들 및 비디오 프레임들에 사용될 수 있고, 시간 분할 또한 비디오 프레임들에 사용될 수 있다. 공간 및 시간 분할 모두가 비디오 프레임들에 사용된다면, 공간 분할의 결과가 시간 분할을 위한 큐로 사용될 수 있기 때문에, 공간 분할은 일반적으로 시간 분할에 우선적으로 수행된다.

공간 분할은 사진 또는 비디오 프레임을 많은 파티션으로 분할하는데 관여한다. 공간 분할에서, 한 파티션은 다른 파티션과 겹치지 않으나, 모든 파티션들의 합집합은 사진 또는 비디오 프레임 전체를 포함한다. 일 실시형태에서, 분할은 사진 또는 비디오 프레임을 많은 임의의 형상 및 사이즈의 파티션들로 나누는데 관여한다. 사진 또는 비디오 프레임을 많은 임의의 형상 및 사이즈의 파티션들로 나누는 다수의 공간 분할 알고리즘은 C.Pantofaru 및 M.Hebert, "A Comparison of Image Segmenatation Algorithms", tech. report CMU-RI-TR-05-40, Robotics Institute, Carnegie Mellon University, 9 월, 2005 에서 서술된 것과 같은 기술에 존재한다. 물론, 영역 성장 (region growth) 은 공간 분할 알고리즘으로 알려져 있다. 다른 실시형태에서, 분할은 사진 또는 비디오 프레임을 많은 정사각형 형상이나 임의의 사이즈의 파티션들로 나누는데 관여할 수도 있다. 예를 들어, 이미지 프로세싱 분야에서 잘 알려진 쿼드트리 (quadtree) 분할 알고리즘은 이를 얻는 하나의 방법이다.

시간 분할은 하나 이상의 비디오 프레임들을 같이 결합 또는 그룹핑하는데 관여한다. 씬 변화 감지 및 샷 경계 감지와 같은 다수의 상이한 시간 분할 알고리즘들은 비디오 프레임들을 시간 분할하는데 사용될 수 있다. 씬 변화 감지는 같은 씬 부분인 모든 비디오 프레임들을 같이 그룹핑하는데 관여한다. 씬 (예를 들어, 특정 스포츠 이벤트를 포함하는 비디오 프레임들) 이 변화하면, 비디오 프레임들의 그 다음 그룹핑, 즉, 그 다음 씬이 시작한다. 샷 경계 감지는 같은 샷 부분인 모든 비디오 프레임들을 같이 그룹핑하는데 관여한다. 샷 (예를 들어, 특정 사람을 포함한 비디오 프레임들) 이 변화하면, 비디오 프레임들의 그 다음 그룹핑, 즉, 그 다음 샷이 시작된다. 컨텍스트 (context) 는 씬을 결정하고, 콘텐트 (content) 는 샷을 결정한다.

3 차원 랜덤-필드/텍스처 모델들에 기초한 것들과 같은 분할 방식들은 공간 및 시간 분할 모두를 동시적으로 얻는데 활용할 수 있다.

정사각형 또는 직사각형 형상 및 균일적인 사이즈의 파티션들의 코딩을 지원하는 압축 알고리즘들은 일반적으로 블록 트랜스폼 코딩 툴들 (예를 들어, 8x8 이산 코사인 변환 (DCT) 알고리즘) 및 블록-기반 동적 보상 시간 예측 (motion compensated temporal prediction; MCTP) 알고리즘 (예를 들어, MPEG-4 비디오 압축 알고리즘) 을 활용한다. 8x8 DCT 알고리즘의 사용은 비주얼 데이터의 공간 압축에 일반적이었다. 8x8 DCT 알고리즘은, 비주얼 데이터를 서서히 변화 (예를 들어, 낮은 디테일) 하기 위한 평균 제곱 오차에 있어서는 최적의 선형 변환이지만, 텍스처를 포함하는 사진 또는 비디오 프레임의 영역들에는 매우 효과적이지 못한 Karhunen-Loeve 변환 (KLT) 를 간단히 하기 위해 보여질 수 있다. 텍스처는 다중 스케일/해상도를 걸쳐 상당한 디테일/변화를 나타내는 비주얼 객체로 묘사될 수 있다. 매크로-블록 사이즈들 (예를 들어, 16x16) 에서의 MCTP 알고리즘 사용은 병진 운동을 겪는 강체들 또는 객체들에 좋다. 그러나, 이들 알고리즘들은 비-병진운동 (예를 들어, 풀, 꽃밭들 또는 잎을 갖는 나무 가지들과 같은 동적인 텍스처) 을 겪는 비-강체들 (변형체들) 또는 객체들에는 적합하지 않은데, 이는 그들의 변형 및 비-병진 운동이 한 프레임부터 또 다른 프레임으로 모습을 매칭하기 어렵게 만들기 때문이다. 또한, 텍스처 디테일 및 경계는 일반적으로 사각의 형상으로 형성되어있지 않다. 그러므로, 이들 압축 툴들은 대중적이나, 텍스처들을 압축하는데 매우 좋지는 않다.

인코더 (112) 가 소스 데이터를 많은 파티션들로 분할한 후, 각 파티션들은 많은 카테고리들 중 하나로 분류된다 (단계 320). 일 실시형태에서, 카테고리의 개수는, 하이브리드 (즉, 트랜스폼 코딩 및 MCTP 를 기반한) 코딩 카테고리와 같은 제 1 카테고리 및 텍스처 코딩 카테고리와 같은 제 2 카테고리를 포함하여 둘 이다. 분류는 각 특정 파티션이 텍스처를 포함하는지 여부에 기반할 수 있다. 파티션이 텍스처를 포함하지 않는다면, 파티션은 제 1 카테고리로 분류된다. 파티션이 텍스처를 포함한다면, 파티션은 제 2 카테고리로 분류된다. 텍스처를 포함하는 파티션과 텍스처를 포함하지 않는 파티션을 구분하는 이유는, 어떤 알고리즘은 파라미터로 나타낸 모델들의 사용을 통한 텍스처 압축에 좋고, 어떤 알고리즘들은 텍스처 압축에 좋지 않기 때문이다. 예를 들어, 텍스처 모델링 알고리즘들은 텍스처 압축에 좋은 반면, 일반적인 비디오 또는 사진 압축 알고리즘들은 텍스처 압축에 좋지 않으나 비-텍스처 객체들 또는 이미지들을 압축하는데 좋다 (단계 322 및 324). 그러므로, 같은 알고리즘을 사용하여 모든 파티션들을 압축하는 것은 비효율적이고 실용적이지 못하다. 더 나은 전체 압축은 파티션에 텍스처가 있는지 여부에 기반하여 각 파티션을 분류함으로써 얻을 수 있다.

다수의 상이한 방법들은 특정 파티션이 텍스처를 포함하는지 여부를 결정하는데 사용될 수 있다. 일 예시적 방법은, 원하는 품질 및 비트 레이트 동작 점을 생산하는 파티션 압축인지 여부를 결정하기 위해 각 파티션들에 압축 알고리즘 (예를 들어, 하이브리드 코딩 알고리즘) 을 적용한 인코더 (112) 를 포함한다. 즉, (a) 비트 레이트가 비트 레이트 임계치 미만이고 (b) 품질이 품질 임계치 초과이면, 파티션은 제 1 카테고리로 분류된다. (a) 또는 (b) 어느 것도 만족되지 않으면, 파티션은 제 2 카테고리로 분류된다.

다른 실시형태에서, (a) 또는 (b) 어느 것도 만족되지 않으면, 파티션의 컨텐트는 그 본래 디테일의 '적절함' 을 위해 평가된다. '적절함' 분석의 결과로서, 비록 텍스처로 생각되는게 더 적절하더라도, 파티션이 본래 디테일에 특정 정보를 운반하는 것으로 결정되면, 즉, '적절함' 이면 파티션은 제 1 카테고리로 분류된다. 반대로, 파티션이 본래 디테일에 특정 정보를 운반하지 않는 것으로 결정되면 즉, '부적절함' 이면, 제 2 카테고리로 분류된다.

비트 레이트 임계치는 소스 포맷 (즉, 프레임 사이즈 및 프레임 레이트), 어플리케이션 타입, 파티션 또는 프레임의 컨테트 및 파티션의 (상대적인) 사이즈와 같은 다중 인자들의 함수이다. 일 실시형태에서, 비트 레이트 임계치는 각 파티션 또는 프레임에 대해 상이할 수도 있다. 프레임 사이즈는 이미지의 공간적 해상도, 즉, 각 열에 몇 개의 픽셀들이 있는지 및 프레임에 몇 개의 픽셀 열들이 존재하는지에 의존한다. 예를 들어, 이미지는 표준 화질 (SD, 예를 들어 720x486), 고화질 (HD, 예를 들어 1920x1080), 비디오 그래픽 배열 (VGA, 예를 들어 640x480), 쿼터 VGA (QVGA, 예를 들어 320x240) 등이 될 수도 있다. 어플리케이션의 타입은 방송 텔레비전, 이동 디바이스를 위한 스트리밍 비디오, 인터넷을 통한 스트리밍 비디오 등일 수 있다. 파티션 또는 프레임의 컨텐트는 파티션 또는 프레임 내 비주얼 데이터의 복잡도의 결정 인자이다.

품질 임계치는 주관적 품질 척도 또는 객관적 품질 척도와 관련하여 결정될 수 있다.

주관적 품질 척도는 상이한 사이코비주얼 (psychovisual) 테스트들을 통해 결정될 수 있는 지각된 품질의 정도이다. 주관적 품질 임계치는, 예를 들어, 1 에서 5 까지 단위의 감지된 품질 단위에서 (전형적인 해석으로 1 : "매우 거슬림"/"나쁨", 2 : "거슬림"/"부족", 3 : "가볍게 거슬림"/"보통", 4 : "감지할 수 있으나 거슬리지 않음"/"좋음", 5 : "감지할 수 없음"/"우수") 의견 점수 평균 (Mean Opinion Score; MOS) 4.0 로 설정될 수 있다.

객관적 품질 척도는 많은 상이한 방법들을 사용하여 유도될 수도 있다. 객관적 품질 척도를 얻는 하나의 방법은. 특정 파티션 또는 프레임에 대한 채널들 중 하나의 채널 (예를 들어, Y 채널) 의 피크 신호 대 잡음비 (peak signal-to-noise ratio; PSNR) 을 결정하는 것이다. orig(i,j) 는 원래 이미지 데이터 (즉, i번째 행 및 j번째 열에서의 원래 픽셀 값) 를 나타내고, comp(i,j) 는 압축된 이미지 데이터 (즉, i번째 행 및 j번째 열에서의 압축 후의 픽셀 값) 를 나타낸다. PSNR 은 다음의 식을 사용하여 결정될 수 있다.

그 후 , 품질 임계치는 예를 들어, 33 dB 로 설정될 수 있다. 이 예에서, 품질 (즉, PSNR_Y) 이 33 dB 초과이면, 압축된 이미지는 만족한/좋은 품질을 갖는다.

다른 객관적 척도는, 사용된 유사도 척도에 관련되고 영향을 주는 블러 (blur), 봉쇄성 (blockiness), 링잉 (ringing) 및 다른 왜곡들의 양을 정하는 것을 목표로 하는 결정론적 또는 통계적 정도를 결합한 레퍼런스-기반, 감소된 레퍼런스 기반 또는 비-레퍼런스 양일 수 있다.

파티션이 제 1 카테고리로 분류된다면, 파티션 컨텐트는 비-텍스처 객체 및 이미지를 위한 좋은 압축 결과를 제공하는 비디오 또는 사진 압축 알고리즘 또는 모델 (예를 들어, 하이브리드 코딩 알고리즘) 을 사용하여 묘사되거나 압축된다 (단계 322).

파티션이 제 2 카테고리로 분류된다면, 파티션은 텍스처된 객체들 및 영역들을 위한 좋은 분석 및 합성 결과를 제공하는 알고리즘 또는 모델 (예를 들어, 텍스처 모델) 을 사용하여 묘사되거나 압축된다 (단계 324). 알고리즘 또는 모델은 후술에서 하나 이상 포함할 수도 있다: 트랜스폼 코딩, 공간 코딩 및 시간 코딩. 제 2 카테고리로 분류된 파티션들을 위해, 압축은 무손실인 (정확한) 또는 손실된 (대략적인) 표현 및 모델 파라미터들의 전송을 통해 얻을 수 있다. 텍스처 모델은 이 차원의 랜덤 필드를 생성하기 위해 사용된 확률적인 수학적 모델이다. 그러한 모델의 결과의 정확한 확률적 특성은 모델을 통제하는 파라미터의 값에 의존한다. 주어진 이 차원 랜덤 필드 샘플에서 출발할 때, 그 데이터를 사용하여 주어진 샘플과 유사하게 보이는 이 차원 랜덤 필드를 생성하기 위해 모델을 조정하기 위한 노력으로, 텍스처 모델의 파라미터 값들을 평가하는 것이 가능하다. 이들 파라미터 평가 프로세스는 모델 피팅 (fitting) 으로 알려져 있다.

코딩에 기반한 텍스처 모델은 비주얼하게 매우 유사한 텍스처를 재생산하는 것이 가능하게 하면서, 텍스처를 만족할만하게 나타내기 위해 요구되는 비트들을 크게 감소시키는 것을 허용한다. 텍스처 모델들은 텍스처를 묘사하고 생산하는 것을 가능하게 하는 수학적 툴들이다. 텍스처 모델들의 어떤 예들은 마코브 랜덤 필드 (MRF), 깁스 랜덤 필드 (GRF), 셀룰라 오토마타 및 프랙탈을 포함한다. MRF 는 융통성있으면서 유용한 텍스처 모델을 제공하고, 코딩에 기반한 텍스처 모델을 설명하기 위해 서술될 수도 있다.

MRF 모델들에서 각각의 픽셀의 확률적 특성은, 주변 N 이 모델의 조정가능한 파라미터로 이루어진, 그 주변 픽셀들의 상태에 의해 결정되거나 영향을 받는다. MRF 모델들은 결과 이미지의 세기, 일관성 및 군집의 방향 (즉, 유사한 밝기 및 색상들을 그룹핑) 을 통제하는 많은 상이한 조정가능한/조절가능한 파라미터들을 포함한다. 예를 들어, P 는 사이트들 또는 픽셀 위치들의 세트, N 은 주변, N_p 는 픽셀 p 의 대응되는 주변, F 는 픽셀 값들을 나타내는 사이트들에서 정의된 랜덤 변수들의 세트, 및 F_p 는 픽셀 p 의 위치에서 정의된 랜덤 변수이다. 주변 N 의 예들은 8 연결된 주변 (도 4a), 4 연결된 주변 (도 4b) 및 사선 주변 (도 4c) 을 포함한다.

이 특정 모델에 그 이름을 부여하는 마코브 프로퍼티 (Markov property) 는 P(F_p = f|F(P＼{p})) = P(F_p = f|F(N_p)) 를 의미한다. 이 식에서, P 는 확률 정도를 나타내고, ＼ 은 세트 상이 동작을 나타낸다. 즉, 픽셀 p 의 확률적 특성에 관하여, 픽셀 p 의 N_p 주변 내의 주변 픽셀 값에 대한 지식은, 픽셀 p 를 제외한 사이트들의 전체 세트 P 내의 모든 픽셀 값에 대한 지식과 확률적으로 동일하다.

도 5 는 각 실현이 상이한 주변 정의들에 대응되는, MRF 모델의 네 상이한 실현을 묘사한 사진이다. MRF 모델들은 블러 (blurry) 또는 또렷함, 선 모양 또는 블롭 (blob) 모양 랜덤 필드들과 같은 넓은 범위의 텍스처들을 생성 및 묘사할 수 있다. 텍스처는 MRF 모델들을 위한 그들의 파라미터를 결정 또는 평가하기 위해 분석될 수 있다.

도 1 및 3 을 다시 참조하면, 파티션의 컨텐트의 압축이 완료되면, I/O 디바이스 (114) 를 사용하는 프로세서 (108) 는 디바이스 (104) 로 각 파티션들에 대응되는 압축된 데이터들을 전송 (단계 326) 및 각 파티션들의 경계 정보를 전송한다 (단계 328). 압축된 데이터는 압축 알고리즘 또는 파라미터로 나타낸 모델이 적용된 후의 소스데이터이고, 파라미터로 나타낸 모델의 경우, 파라미터들은 평가되고 정확히 또는 대략적으로 표현된다. 경계 정보는 각 파티션들의 경계를 정의하는데 사용되는 정보를 포함한다. 직사각형 형상 및 임의의 사이즈인 파티션들을 위해, 경계 정보는 각 직사각형의 맨 위 왼쪽 구석 및 맨 아래 오른쪽 구석의 좌표를 포함한다. 직사각형 (정사각형) 형상 및 임의의 사이즈의 파티션들을 운반하는 또 다른 예는 쿼드트리 표현을 사용하는 것이다. 임의의 형상 및 임의의 사이즈를 갖는 파티션들을 위해, 경계 정보는 예를 들어, Shipeng Li (Microsoft Research, China) 및 Iraj Sodagar (Sarnoff Corporation), "Generic, Scalable and Efficient Shape Coding for Visual Texture Objects in MPEG-4" 을 사용함으로써 결정되고 표현될 수 있다.

프로세서 (108) 는 I/O 디바이스 (114) 를 사용하여 각 파티션을 위한 카테고리 정보를 디바이스 (104) 로 전송한다 (단계 330). 위 예에서, 프로세서 (108) 는 특정 파티션이 제 1 카테고리 또는 제 2 카테고리로 포함됨을 표시할 수도 있다. 카테고리 정보는 또한 알고리즘 또는 모델 (예를 들어, 하이브리드 코딩 알고리즘 또는 텍스처 모델) 의 타입 및 모델의 파라미터들을 포함할 수도 있다.

도 6 은 사진들 및 비디오 프레임들을 디코딩하는 방법 (600) 을 서술하는 플로우 차트이다. 디바이스 (104) 는 각 파티션들을 위해 인코딩된/압축된 데이터, 경계 정보 및 카테고리 정보를 수신한다 (단계 602). 인코딩된/압축된 데이터는 제 1 카테고리 또는 제 2 카테고리에 포함되는 파티션들 및/또는 비디오 프레임들을 위한 지원 정보를 포함할 수도 있다. 디코더 (120) 는 제 1 카테고리 또는 제 2 카테고리에 포함되는 각 파티션들 및/또는 비디오 프레임이 디코딩 또는 보간되어야 하는지 여부를 결정한다 (단계 604).

제 1 카테고리 또는 제 2 카테고리에 포함되는 파티션 또는 비디오 프레임이 디코딩되려면, 디코더는 다음과 같이 진행한다. 디코더 (120) 는 인코딩된 데이터를 디코딩하고, 디코딩된 데이터, 경계 정보 및 카테고리 정보를 사용하여 제 1 카테고리에 포함되는 각 파티션을 재현한다 (단계 606). 디코더 (120) 는 텍스처 합성을 수행하고, 디코딩된 데이터, 경계 정보 및 카테고리 정보를 사용하여 제 2 카테고리에 포함되는 각 파티션을 재현한다 (단계 608).

제 1 카테고리 또는 제 2 카테고리에 포함되는 파티션 또는 비디오 프레임이 보간되려면, 디코더는 다음과 같이 진행한다. 디코더 (120) 는, 보간될 제 1 카테고리 또는 제 2 카테고리에 포함되는 파티션 또는 비디오 프레임을 위해 지원 정보의 사용 가능 여부를 결정한다 (단계 610). 지원 정보가 사용 가능하지 않다면, 디코더 (120) 은 이미 수신되고 프로세스된 것들 즉, 디코딩된, 압축된 데이터, 경계 정보 및 카테고리 정보를 사용하여 압축된 소스데이터를 효과적으로 (즉, 낮은 계산 복잡도 및 높은 주관 및 객관 품질을 가지는) 보간하도록 FRUC 을 사용할 수 있다 (단계 612). 일 실시형태에서, 없어진 프레임 전체 또는 부분적으로 사용가능한 프레임의 없어진 영역 내의, 제 1 카테고리 또는 제 2 카테고리에 속하는 모든 추정되는 파티션들은 보간된다. 하이브리드 코딩 표현에 기반한 보간 방식은, 예를 들어, R. Castagno, P.Haavisto, 및 G.Ramponi, "A Method for Motion Adaptive Frame Rate Up-conversion," IEEE Transactions on Circuits and System for Video Technology, Volume 6, Issue 5, October 1996, Page(s) 436-446 에 서술된 바와 같이 당업계에 알려져 있다. 지원 정보가 사용 가능하다면, 디코더 (120) 은 이미 수신되고 프로세스된 것들 즉, 디코딩된, 입축된 데이터, 경계 정보 및 카테고리 정보를 사용하여 압축된 소스데이터를 효과적으로 (즉, 낮은 계산 복잡도 및 높은 주관 및 객관 품질를 가지는) 보간하도록 EA-FRUC 을 사용할 수 있다 (단계 614).

디코딩 및/또는 보간이 수행되었다면, 프로세서 (116) 는 비디오 프레임을 디스플레이할 수 있다 (단계 616). 프로세서 (116) 또는 디코더 (120) 는 프로세스해야 할 사진 또는 비디오 프레임이 더 있는지를 알기 위해 체크한다 (단계 618). 프로세스해야 할 사진 또는 비디오 프레임 데이터가 더 있다면, 디코더 (120) 는 디코딩 또는 보간을 하고, 사진 또는 비디오 프레임을 디스플레이하는 프로세스의 시작으로 되돌아간다 (단계 604). 그렇지 않으면, 현재 디코딩 작업은 종료한다 (단계 620).

도 7 은 멀티미디어 데이터 프로세싱 장치 (700) 의 블록 다이어그램이다. 장치 (700) 는 복수의 파티션들로 데이터를 분할하도록 구성된 분할 모듈 (702), 텍스처로 표현될 수 있는 복수의 파티션들을 식별하도록 구성된 식별 모듈 (704), 이웃한 비디오 프레임들의 적어도 두 파티션들간의 유사도를 계산하도록 구성된 계산 모듈 (706) 및 유사도 값을 기초로 인코딩하려는 파티션을 선택하도록 구성된 선택 모듈 (708) 을 포함할 수도 있다. 장치 (700) 는 제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리 중 하나에 복수의 파티션들 각각을 할당하도록 구성된 할당 모듈 (710), 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 인코딩하고, 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 구성된 하나 이상의 인코더들 (712), 복수의 파티션들과 관련하여 인코딩된 데이터, 경계 정보, 카테고리 정보를 전송하도록 구성된 전송 모듈 (714) 을 포함할 수도 있다. 하나 이상의 모듈들은 장치 (700) 의 구성에 따라 추가 또는 제거될 수도 있다. 각 모듈은 하드웨어, 소프트웨어 또는 그들의 조합으로 구현될 수도 있다. 분할, 식별, 계산, 선택, 할당, 인코딩 및 전송의 수단은 하드웨어, 소프트웨어 또는 그들의 조합으로 구현될 수도 있다. 예를 들어, 범용 프로세싱 디바이스, 디지털 신호 프로세싱 디바이스 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 기타 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다.

도 8 은 멀티미디어 데이터 프로세싱 장치 (800) 의 블록 다이어그램이다. 장치 (800) 는 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 디코딩하고, 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 디코딩하도록 구성된 디코더 (802), 경계 정보, 복수의 제 1 파티션들 및 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하도록 구성된 생산 모듈 (804) 및 보간된 멀티미디어 데이터를 생산하도록 멀티미디어 데이터를 보간하도록 구성된 보간 모듈 (806) 을 포함할 수도 있다. 디코딩, 생성 및 보간의 수단은 하드웨어, 소프트웨어 또는 그들의 조합으로 구현될 수도 있다. 예를 들어, 범용 프로세싱 디바이스, 디지털 신호 프로세싱 디바이스 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 기타 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다.

도 9 는 멀티미디어 데이터 프로세싱 장치에 대한 수단의 예시적인 컴포넌트를 서술하는 블록 다이어그램 (900) 이다. 도 9 에서 보여진 하나 이상의 모듈들은 분할, 할당 및 인코딩 수단에 대한 컴포넌트들로 사용될 수도 있다. 모듈들은 하드웨어, 소프트웨어 또는 그들의 조합으로 구현될 수도 있다. 하나 이상의 모듈들은 장치 (900) 의 구성에 따라 추가되거나 제거될 수도 있다. 예를 들어, 범용 프로세싱 디바이스, 디지털 신호 프로세싱 디바이스 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 기타 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 소프트웨어 모듈들 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다.

장치 (900) 는 복수의 파티션들로 데이터를 분할하도록 구성된 분할을 위한 모듈 (902), 제 1 카테고리와 제 2 카테고리를 구비하는 복수의 카테고리들 중 하나에 복수의 파티션들 각각을 할당하도록 구성된 할당을 위한 모듈 (904) 및 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 인코딩하고 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 구성된 인코딩을 위한 모듈 (906) 을 포함한다.

도 10 은 멀티미디어 데이터 프로세싱 장치에 대한 수단의 예시적인 컴포넌트를 서술하는 블록 다이어그램이다. 도 10 에서 보여진 하나 이상의 모듈들은 디코딩 및 생성의 수단을 위한 컴포넌트들로 사용될 수도 있다. 모듈들은 하드웨어, 소프트웨어 또는 그들의 조합으로 구현될 수도 있다. 하나 이상의 모듈들은 장치 (1000) 의 구성에 따라서 추가되거나 제거될 수도 있다. 예를 들어, 그 범용 프로세싱 디바이스, 디지털 신호 프로세싱 디바이스 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 신호 (FPGA), 또는 기타 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 소프트웨어 모듈들 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다.

장치 (1000) 는 제 1 카테고리에 할당된 복수의 파티션들을 알고리즘을 사용하여 디코딩하고 제 2 카테고리에 할당된 복수의 파티션들을 텍스처 모델을 사용하여 디코딩하도록 구성된 디코딩을 위한 모듈 (1002) 및 경계 정보, 복수의 제 1 파티션들 및 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하도록 구성된 생성을 위한 모듈 (1004) 을 포함할 수도 있다.

당업자는 여기에서 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 로직 블록들, 모듈들, 회로들, 및 알고리즘들을 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로 구현할 수도 있음을 알 수 있다. 하드웨어와 소프트웨어의 이러한 대체 가능성을 설명하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 알고리즘들을 주로 그들의 기능의 관점에서 상술하였다. 그러한 기능이 하드웨어로 구현될지 소프트웨어로 구현될지는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약 조건들에 의존한다. 당업자는 설명된 기능을 각각의 특정 애플리케이션에 대하여 다양한 방식으로 구현할 수도 있지만, 그러한 구현의 결정이 본 발명의 범주를 벗어나도록 하는 것으로 해석하지는 않아야 한다.

여기에서 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 로직 블록들, 모듈들, 회로들은 범용 프로세싱 디바이스, 디지털 신호 프로세싱 디바이스 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 기타 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다. 범용 프로세싱 디바이스는 마이크로프로세싱 디바이스일 수도 있지만, 다른 방법으로, 그 프로세싱 디바이스는 임의의 종래 프로세싱 디바이스, 프로세싱 디바이스, 마이크로 프로세싱 디바이스, 또는 상태 머신일 수도 있다. 또한, 프로세싱 디바이스는 컴퓨팅 디바이스들의 결합, 예를 들어, DSP 와 마이크로프로세싱 디바이스의 결합, 복수의 마이크로프로세싱 디바이스들, DSP 코어와 결합된 하나 이상의 마이크로프로세싱 디바이스들 또는 임의의 기타 다른 구성물로 구현될 수도 있다.

여기에 개시된 실시형태들과 관련하여 설명된 장치, 방법 또는 알고리즘들은 프로세싱 디바이스에 의해 실행되는 하드웨어, 소프트웨어, 또는 그들의 조합으로 직접 구체화될 수도 있다. 소프트웨어의 방법 또는 알고리즘은 프로세싱 디바이스에 의해 실행될 수도 있는 하나 이상의 명령어들로 구체화될 수도 있다. 그 명령어들은 RAM 메모리, 플래쉬 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세싱 디바이스에 커플링되며, 그 프로세싱 디바이스는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세싱 디바이스와 일체형일 수도 있다. 프로세싱 디바이스 및 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 은 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세싱 디바이스 및 저장 매체는 사용자 단말기 내에 이산 컴포넌트로 상주할 수도 있다.

개시되어 있는 실시형태들에 대한 상기의 설명은 당업자로 하여금 본 발명을 제조 또는 이용할 수 있도록 제공된다. 당업자는 이들 실시형태에 대한 다양한 변형들을 명백히 알 수 있으며, 여기에서 정의된 일반적인 원리들은 본 발명의 사상 또는 범주를 벗어나지 않고도 다른 실시형태들에 적용될 수도 있다. 따라서, 본 개시는 여기에서 설명된 실시형태들을 제한하려는 것이 아니라, 여기에서 개시된 원리 및 신규한 특징들과 부합하는 최광의 범주를 부여하려는 것이다.

본 발명은 그 사상 또는 본질적인 특성과 분리하지 않고 다른 특정 형태로 구체화될 수도 있다. 설명된 실시형태는 예시적인 관점에서 고려된 것이고, 제한적인 것이 아니며, 따라서, 본 발명의 범위는 앞의 설명보다 첨부된 청구항에 의해 나타난다. 청구항들의 균등한 의미 및 범위 내의 모든 변화는 그들의 범주 내로 채택된다.

Claims

데이터를 복수의 파티션들로 분할하는 단계;

제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 단계;

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 알고리즘을 사용하여 인코딩하는 단계; 및

상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하는 단계를 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 복수의 파티션들과 관련된 인코딩된 데이터, 경계 정보, 및 카테고리 정보를 전송하는 단계를 더 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 분할하는 단계는, 상기 데이터를 공간 분할, 시간 분할, 또는 시간과 공간 모두를 분할하는 단계를 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

텍스처들로서 표현할 수 있는 상기 복수의 파티션들을 식별하는 단계를 더 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 단계는, 상기 파티션이 텍스처를 포함하는지 여부에 기초하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 단계는,

결과 데이터를 생산하도록 상기 복수의 파티션들 중 적어도 하나에 알고리즘을 적용하는 단계;

상기 결과 데이터가 제 1 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 1 카테고리에 할당하는 단계; 및

상기 결과 데이터가 제 2 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 2 카테고리에 할당하는 단계를 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 6 항에 있어서,

상기 결과 데이터가 품질 기준 및 비트 레이트 기준 중 적어도 하나를 충족 하면 상기 제 1 기준을 만족하고, 상기 결과 데이터가 상기 품질 기준 및 상기 비트 레이트 기준 중 상기 적어도 하나를 충족하지 않으면 상기 제 2 기준을 만족하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 복수의 파티션들 각각은 임의의 형상 또는 임의의 사이즈를 갖는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 인코딩하는 단계는, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 인코딩하는 단계는, 상기 복수의 파티션들의 상기 데이터에 상기 텍스처 모델을 피팅하는 것을 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드 (Markov random fields), 깁스 랜덤 필드 (Gibbs random fields), 셀룰라 오토마타 (Cellular Automata) 및 프랙탈 (Fractals) 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 방법.
제 1 항에 있어서,

이웃한 비디오 프레임들의 적어도 두 개의 파티션들 사이의 유사도 값을 계산하는 단계;

상기 유사도 값에 기초하여 인코딩하려는 파티션을 선택하는 단계; 및

상기 선택된 파티션이 상기 제 1 카테고리 또는 상기 제 2 카테고리에 할당되었는지 여부에 기초하여 상기 알고리즘 및 상기 텍스처 모델 중 적어도 하나를 사용하여 상기 선택된 파티션을 인코딩하는 단계를 더 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 12 항에 있어서,

상기 유사도 값을 계산하는 단계는, 차의 절대값 합 (sum of absolute differences; SAD) 알고리즘, 차의 제곱 합 (sum of square differences; SSD) 알고리즘 및 모션 보상 (motion compensated) 알고리즘 중 적어도 하나를 사용하는 것을 포함하는, 멀티미디어 데이터 프로세싱 방법.
데이터를 복수의 파티션들로 분할하도록 구성된 분할 모듈;

제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하도록 구성된 할당 모듈; 및

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 알고리즘을 사용하여 인코딩하고, 상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 구성된 인코더를 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

상기 복수의 파티션들과 관련된 인코딩된 데이터, 경계 정보, 및 카테고리 정보를 전송하도록 구성된 전송 모듈을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

데이터를 분할하는 것은, 상기 데이터를 공간 분할, 시간 분할, 또는 시간과 공간 모두를 분할하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

텍스처들로서 표현할 수 있는 상기 복수의 파티션들을 식별하도록 구성된 식별 모듈을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 것은, 상기 파티션이 텍스처를 포함하는지 여부에 기초하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 것은,

결과 데이터를 생산하도록 상기 복수의 파티션들 중 적어도 하나에 알고리즘을 적용하도록 구성된 적용 모듈; 및

상기 결과 데이터가 제 1 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 1 카테고리에 할당하고, 상기 결과 데이터가 제 2 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 2 카테고리에 할당하도록 구성된 할당 모듈을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 19 항에 있어서,

상기 결과 데이터가 품질 기준 및 비트 레이트 기준 중 적어도 하나를 충족하면 상기 제 1 기준을 만족하고, 상기 결과 데이터가 상기 품질 기준 및 상기 비트 레이트 기준 중 상기 적어도 하나를 충족하지 않으면 상기 제 2 기준을 만족하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

상기 복수의 파티션들 각각은 임의의 형상 또는 임의의 사이즈를 갖는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

상기 제 1 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 것은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

상기 제 2 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 것은, 상기 복수의 파티션들의 상기 데이터에 상기 텍스처 모델을 피팅하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 장치.
제 14 항에 있어서,

이웃한 비디오 프레임들의 적어도 두 개의 파티션들 사이의 유사도 값을 계산하도록 구성된 계산 모듈; 및

상기 유사도 값에 기초하여 인코딩하려는 파티션을 선택하도록 구성된 선택 모듈을 더 포함하고,

상기 인코더는, 상기 선택된 파티션이 상기 제 1 카테고리 또는 상기 제 2 카테고리에 할당되었는지 여부에 기초하여, 상기 알고리즘 및 상기 텍스처 모델 중 적어도 하나를 사용하여 상기 선택된 파티션을 인코딩하도록 구성된, 멀티미디어 데이터 프로세싱 장치.
제 25 항에 있어서,

유사도 값을 계산하는 것은, 차의 절대값 합 알고리즘, 차의 제곱 합 알고리즘 및 모션 보상 알고리즘 중 적어도 하나를 사용하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
데이터를 복수의 파티션들로 분할하는 수단;

제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 수단; 및

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 알고리즘을 사용하여 인코딩하고, 상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하는 수단을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 복수의 파티션들과 관련된 인코딩된 데이터, 경계 정보, 및 카테고리 정보를 전송하는 수단을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 분할하는 수단은, 상기 데이터를 공간 분할, 시간 분할, 또는 시간과 공간 모두를 분할하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

텍스처들로서 표현할 수 있는 상기 복수의 파티션들을 식별하는 수단을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 수단은, 상기 파티션이 텍스처를 포함하는지 여부에 기초하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 수단은,

결과 데이터를 생산하도록 상기 복수의 파티션들 중 적어도 하나에 알고리즘을 적용하는 수단; 및

상기 결과 데이터가 제 1 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 1 카테고리에 할당하고, 상기 결과 데이터가 제 2 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 2 카테고리에 할당하는 수단을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 32 항에 있어서,

상기 결과 데이터가 품질 기준 및 비트 레이트 기준 중 적어도 하나를 충족하면 상기 제 1 기준을 만족하고, 상기 결과 데이터가 상기 품질 기준 및 상기 비트 레이트 기준 중 상기 적어도 하나를 충족하지 않으면 상기 제 2 기준을 만족하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 복수의 파티션들 각각은 임의의 형상 또는 임의의 사이즈를 갖는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 제 1 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 수단은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 제 2 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 수단은, 상기 복수의 파티션들의 상기 데이터에 상기 텍스처 모델을 피팅하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 장치.
제 27 항에 있어서,

이웃한 비디오 프레임들의 적어도 두 개의 파티션들 사이의 유사도 값을 계산하는 수단;

상기 유사도 값에 기초하여 인코딩하려는 파티션을 선택하는 수단; 및

상기 선택된 파티션이 상기 제 1 카테고리 또는 상기 제 2 카테고리에 할당되었는지 여부에 기초하여, 상기 알고리즘 및 상기 텍스처 모델 중 적어도 하나를 사용하여 상기 선택된 파티션을 인코딩하는 수단을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 38 항에 있어서,

상기 유사도 값을 계산하는 수단은, 차의 절대값 합 알고리즘, 차의 제곱 합 알고리즘 및 모션 보상 알고리즘 중 적어도 하나를 사용하는 것을 포함하는, 멀티미디어 데이터 프로세싱 장치.
명령어들을 포함하는 머신 판독가능 매체로서, 상기 명령어들은 실행시 머신으로 하여금:

데이터를 복수의 파티션들로 분할하고;

제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하고;

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 알고리즘을 사용하여 인코딩하고; 그리고

상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 명령어들은 상기 복수의 파티션들과 관련된 인코딩된 데이터, 경계 정보, 및 카테고리 정보를 전송하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 명령어들은 상기 데이터를 공간 분할, 시간 분할, 또는 시간과 공간 모두를 분할하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 명령어들은 텍스처들로서 표현할 수 있는 상기 복수의 파티션들을 식별하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 명령어들은, 상기 파티션이 텍스처를 포함하는지 여부에 기초하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하는 명령어들은:

결과 데이터를 생산하도록 상기 복수의 파티션들 중 적어도 하나에 알고리즘을 적용하고;

상기 결과 데이터가 제 1 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 1 카테고리에 할당하고; 그리고

상기 결과 데이터가 제 2 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 2 카테고리에 할당하는 것을 포함하는, 머신 판독가능 매체.
제 45 항에 있어서,

상기 결과 데이터가 품질 기준 및 비트 레이트 기준 중 적어도 하나를 충족하면 상기 제 1 기준을 만족하고, 상기 결과 데이터가 상기 품질 기준 및 상기 비트 레이트 기준 중 상기 적어도 하나를 충족하지 않으면 상기 제 2 기준을 만족하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 복수의 파티션들 각각은 임의의 형상 또는 임의의 사이즈를 갖는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 제 1 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 명령어들은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 제 2 카테고리에 할당된 상기 복수의 파티션들을 인코딩하는 명령어들은, 상기 복수의 파티션들의 상기 데이터에 상기 텍스처 모델을 피팅하는 것을 포함하는, 머신 판독가능 매체.
제 40 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 머신 판독가능 매체.
제 40 항에 있어서,

이웃한 비디오 프레임들의 적어도 두 개의 파티션들 사이의 유사도 값을 계산하고;

상기 유사도 값에 기초하여 인코딩하려는 파티션을 선택하고; 그리고

상기 선택된 파티션이 상기 제 1 카테고리 또는 상기 제 2 카테고리에 할당되었는지 여부에 기초하여, 상기 알고리즘 및 상기 텍스처 모델 중 적어도 하나를 사용하여 상기 선택된 파티션을 인코딩하는 명령어들을 더 포함하는, 머신 판독가능 매체.
제 51 항에 있어서,

상기 유사도 값을 계산하는 명령어들은, 차의 절대값 합 알고리즘, 차의 제곱 합 알고리즘 및 모션 보상 알고리즘 중 적어도 하나를 사용하는 것을 포함하는, 머신 판독가능 매체.
멀티미디어 데이터를 프로세싱하는 프로세서로서, 상기 프로세서는:

데이터를 복수의 파티션들로 분할하고;

제 1 카테고리 및 제 2 카테고리를 포함하는 복수의 카테고리들 중 하나에 상기 복수의 파티션들 각각을 할당하고; 그리고

상기 제 1 카테고리로 할당된 상기 복수의 파티션들을 알고리즘을 사용하여 인코딩하고, 상기 제 2 카테고리로 할당된 상기 복수의 파티션들을 텍스처 모델을 사용하여 인코딩하도록 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 복수의 파티션들과 관련된 인코딩된 데이터, 경계 정보, 및 카테고리 정보를 전송하도록 더 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 분할은, 상기 데이터를 공간 분할, 시간 분할, 또는 시간과 공간 모두를 분할하도록 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

텍스처들로서 표현할 수 있는 상기 복수의 파티션들을 식별하도록 더 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 복수의 카테고리들 중 하나에 복수의 파티션들 각각을 할당하는 것은, 상기 파티션이 텍스처를 포함하는지 여부에 기초하는, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 복수의 카테고리들 중 하나에 복수의 파티션들 각각을 할당하는 것은,

결과 데이터를 생산하도록 상기 복수의 파티션들 중 적어도 하나에 알고리즘을 적용하고; 그리고

상기 결과 데이터가 제 1 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 1 카테고리에 할당하고 상기 결과 데이터가 제 2 기준에 만족한다면 상기 복수의 파티션들 중 상기 적어도 하나를 상기 제 2 카테고리에 할당하는 것을 포함하는, 멀티미디어 데이터 프로세싱 프로세서.
제 58 항에 있어서,

상기 결과 데이터가 품질 기준 및 비트 레이트 기준 중 적어도 하나를 충족하면 상기 제 1 기준을 만족하고, 상기 결과 데이터가 상기 품질 기준 및 상기 비트 레이트 기준 중 상기 적어도 하나를 충족하지 않으면 상기 제 2 기준을 만족하는, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 복수의 파티션들 각각은 임의의 형상 또는 임의의 사이즈를 갖는, 멀티 미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 제 1 카테고리에 할당된 복수의 파티션들을 인코딩하는 것은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 제 2 카테고리에 할당된 복수의 파티션들을 인코딩하는 것은, 상기 복수의 파티션들의 상기 데이터에 상기 텍스처 모델을 피팅하는 것을 포함하는, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 프로세서.
제 53 항에 있어서,

이웃한 비디오 프레임들의 적어도 두 개의 파티션들 사이의 유사도 값을 계산하고;

상기 유사도 값에 기초하여 인코딩하려는 파티션을 선택하고; 그리고

상기 선택된 파티션이 상기 제 1 카테고리 또는 상기 제 2 카테고리에 할당 되었는지 여부에 기초하여 상기 알고리즘 및 상기 텍스처 모델 중 적어도 하나를 사용하여 상기 선택된 파티션을 인코딩하도록 더 구성된, 멀티미디어 데이터를 프로세싱하는 프로세서.
제 64 항에 있어서,

상기 유사도 값을 계산하는 것은, 차의 절대값 합 알고리즘, 차의 제곱 합 알고리즘 및 모션 보상 알고리즘 중 적어도 하나를 사용하는 것을 포함하는, 멀티미디어 데이터를 프로세싱하는 프로세서.
제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하는 단계;

제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하는 단계; 및

경계 정보, 상기 복수의 제 1 파티션들, 및 상기 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하는 단계를 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 66 항에 있어서,

보간된 멀티미디어 데이터를 생산하도록 상기 멀티미디어 데이터를 보간하는 단계를 더 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 66 항에 있어서,

복수의 보간된 제 1 파티션들을 생산하도록 상기 복수의 제 1 파티션들을 보간하고 복수의 보간된 제 2 파티션들을 생산하도록 상기 복수의 제 2 파티션들을 보간하는 단계를 더 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 66 항에 있어서,

상기 제 1 카테고리에 속하는 복수의 제 1 파티션들을 디코딩하는 단계는, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 방법.
제 66 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 방법.
제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하고, 제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하도록 구성된 디코더; 및

경계 정보, 상기 복수의 제 1 파티션들, 및 상기 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하도록 구성된 생산 모듈을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 71 항에 있어서,

보간된 멀티미디어 데이터를 생산하도록 상기 멀티미디어 데이터를 보간하도록 구성된 보간 모듈을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 71 항에 있어서,

복수의 보간된 제 1 파티션들을 생산하도록 상기 복수의 제 1 파티션들을 보간하고 복수의 보간된 제 2 파티션들을 생산하도록 상기 복수의 제 2 파티션들을 보간하도록 구성된 보간 모듈을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 71 항에 있어서,

상기 제 1 카테고리에 속하는 복수의 제 1 파티션들을 디코딩하는 것은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 71 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 장치.
명령어들을 포함하는 머신 판독가능 매체로서, 상기 명령어들은 실행시 머신 으로 하여금:

제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하고;

제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하고; 그리고

경계 정보, 상기 복수의 제 1 파티션들 및 상기 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하도록 하는, 머신 판독가능 매체.
제 76 항에 있어서,

상기 명령어들은 보간된 멀티미디어 데이터를 생산하도록 상기 멀티미디어 데이터를 보간하는, 머신 판독가능 매체.
제 76 항에 있어서,

상기 명령어들은 복수의 보간된 제 1 파티션들을 생산하도록 상기 복수의 제 1 파티션들을 보간하고 복수의 보간된 제 2 파티션들을 생산하도록 상기 복수의 제 2 파티션들을 보간하는, 머신 판독가능 매체.
제 76 항에 있어서,

상기 제 1 카테고리에 속하는 복수의 제 1 파티션들을 디코딩하는 명령어들은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 머신 판독가능 매체.
제 76 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 머신 판독가능 매체.
제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하고, 제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하는 수단; 및

경계 정보, 상기 복수의 제 1 파티션들, 및 상기 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하는 수단을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 81 항에 있어서,

보간된 멀티미디어 데이터를 생산하도록 상기 멀티미디어 데이터를 보간하는 수단을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 81 항에 있어서,

복수의 보간된 제 1 파티션들을 생산하도록 상기 복수의 제 1 파티션들을 보간하고, 복수의 보간된 제 2 파티션들을 생산하도록 상기 복수의 제 2 파티션들을 보간하는 수단을 더 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 81 항에 있어서,

상기 제 1 카테고리에 속하는 복수의 제 1 파티션들을 디코딩하는 수단은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 장치.
제 81 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 장치.
멀티미디어 데이터를 프로세싱하는 프로세서로서, 상기 프로세서는:

제 1 카테고리에 속하는 복수의 제 1 파티션들을 알고리즘을 사용하여 디코딩하고 제 2 카테고리에 속하는 복수의 제 2 파티션들을 텍스처 모델을 사용하여 디코딩하며; 그리고

경계 정보, 상기 복수의 제 1 파티션들, 및 상기 복수의 제 2 파티션들을 사용하여 멀티미디어 데이터를 생성하도록 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 86 항에 있어서,

보간된 멀티미디어 데이터를 생산하도록 상기 멀티미디어 데이터를 보간하도 록 더 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 86 항에 있어서,

복수의 보간된 제 1 파티션들을 생산하도록 상기 복수의 제 1 파티션들을 보간하고, 복수의 보간된 제 2 파티션들을 생산하도록 상기 복수의 제 2 파티션들을 보간하도록 더 구성된, 멀티미디어 데이터 프로세싱 프로세서.
제 86 항에 있어서,

상기 제 1 카테고리에 속하는 복수의 제 1 파티션들을 디코딩하는 것은, 트랜스폼 코딩 또는 하이브리드 코딩을 포함하는, 멀티미디어 데이터 프로세싱 프로세서.
제 86 항에 있어서,

상기 텍스처 모델은 마코브 랜덤 필드, 깁스 랜덤 필드, 셀룰라 오토마타 및 프랙탈 중 적어도 하나와 관련된, 멀티미디어 데이터 프로세싱 프로세서.