KR100971834B1

KR100971834B1 - 화상 부호화 방법 및 장치

Info

Publication number: KR100971834B1
Application number: KR1020087008107A
Authority: KR
Inventors: 시게유끼 오까다; 가즈히꼬 다께따
Original assignee: 산요덴키가부시키가이샤
Priority date: 2004-10-29
Filing date: 2005-10-25
Publication date: 2010-07-22
Also published as: WO2006046551A1; US20070230658A1; KR100971833B1; US8150173B2; TW200620141A; US20080075373A1; KR20080043391A; TWI436287B; KR20080043390A; CN101175208A; KR100971835B1; CN101049006B; JP2006129249A; US8208738B2; JP4656912B2; TW200830196A; TWI436286B; KR20070063048A; TWI319163B; TW200830195A

Abstract

화상의 일부에 주목하는 영역이 지정되는 경우에, 복호측에서 그것을 살린 여러 처리를 실현한다. 화상 부호화 장치(100)에서, ROI 설정부(20)는, 화상 내에 ROI 영역을 설정한다. 엔트로피 부호화부(14)는, 화상을 엔트로피 부호화한다. ROI 정보 부호화부(24)는, ROI 영역을 특정하기 위한 정보를 부호화한다. 부호화 스트림 생성부(16)는, 부호화한 화상과, 부호화한 상기 정보를 명시적으로 포함시켜, 부호화 스트림을 생성한다. 그 정보에는, 화상 내에 복수의 ROI 영역이 설정된 경우, 그 우선도가 포함되어도 된다.

엔트로피 부호화부, ROI 정보 부호화부, ROI 설정부, 부호화 스트림 생성부

Description

화상 부호화 방법 및 장치{IMAGE CODING METHOD AND APPARATUS}

본 발명은 화상 부호화 기술, 화상 복호 기술에 관한 것으로, 특히 화상의 일부의 영역을 우선적으로 복호할 수 있도록, 부호화하는 방법 및 장치, 그것을 복호하는 방법 및 장치에 관한 것이다.

ISO/ITU-T에서, 정지 화상의 압축 부호화의 표준 기술인 JPEG(Joint Photographic Expert Group)의 후계로서, 이산 웨이브레트 변환(DWT)을 이용한 JPEG2000이 표준화되어 있다. JPEG2000에서는, 저비트 레이트 부호화로부터 무손실 압축까지 광범위한 화질을 고성능으로 부호화할 수 있어, 화질을 서서히 높이는 확장성(scalability) 기능도 실현이 용이하다. 또한, JPEG2000에는, 종래의 JPEG 표준에는 없던 다양한 기능이 준비되어 있다.

JPEG2000의 기능의 하나로서, 화상의 주목 영역(Region of Interest; ROI)을 다른 영역보다도 우선해서 부호화하고, 전송하는 ROI 부호화가 규격화되어 있다. ROI 부호화에 의해, 부호화 레이트에 상한이 있는 경우에, 주목 영역의 재생 화질을 우선적으로 고품질로 할 수 있는 것 외에, 부호화 스트림을 순서대로 복호할 때에, 주목 영역을 조기에 고품질로 재생할 수 있도록 된다.

특허 문헌 1은, 조작자가 지정한 중요한 범위의 화상에 대하여, 부호화 시에, 중점적으로 화질 향상을 도모하는 기술을 개시한다.

[특허 문헌1] 일본 특개평 7-203434호 공보

그러나, 상기 특허 문헌 1은, 지정된 범위와 그 이외의 범위의 화상을, 각각 지정된 화질로 부호화하고 있기 때문에, 복호할 때, 그 화질로 제한되게 되어, 여러 해상도로 복호하는 것이 어려웠다. 또한, 예를 들면 지정된 범위만을 재생한다고 하는 재생 처리를 실현하는 것도 곤란하였다.

본 발명은 이러한 과제를 감안하여 이루어진 것으로, 그 목적은, 화상의 일부에 주목하는 영역이 지정되는 경우에, 복호측에서 그것을 살린 여러 처리를 실현할 수 있는 화상 부호화 방법 및 장치와 화상 복호 방법 및 장치를 제공하는 것에 있다.

상기 과제를 해결하기 위해, 본 발명의 임의의 양태의 화상 부호화 방법은, 화상 상에 정의된 주목 영역을 특정하기 위한 정보를, 화상의 부호화 데이터를 포함하는 부호화 스트림 내에 명시적으로 기술한다. 「주목 영역을 특정하기 위한 정보」는, 프레임간의 차분 정보를 참조해서 부호화한 정보이어도 된다. 이 「차분 정보」는, 주목 영역의 위치, 크기, 및 형상 중 적어도 하나를, 프레임간의 변화량으로 나타낸 것이어도 된다. 또한, 각 프레임에서의 주목 영역의 위치, 크기, 및 형상을 나타내는 값 중 적어도 하나의 평균값과, 부호화 대상의 프레임의 그들의 대응하는 값과의 차분이어도 된다. 혹은, 주목 영역의 위치, 크기, 및 형상을 나타내는 값 중 적어도 하나의 프레임간의 변화량의 평균값과, 부호화 대상의 프레 임에서의 프레임간의 대응하는 값의 변화량과의 차분이어도 된다. 또한, 프레임간의 변화량의 평균값과, 각 프레임에서의 주목 영역의 위치, 크기, 및 형상을 나타내는 값 중 적어도 하나와의 차분이어도 된다. 이들은, 주목 영역이 커서 확대 축소하는 경우 등에 유효하다. 「화상 상에 정의된 주목 영역을 특정하기 위한 정보」를, 시간에 대한 함수로서 부호화하여도 된다. 주목 영역이 일정한 규칙성을 갖고서 변화되는 경우 등에 유효하다.

이 양태에 따르면, 전술한 정보를 부호화 스트림 내에 명시적으로 기술함으로써, 화상 내에 주목 영역이 설정되는 경우에, 복호측에 유익한 정보를 제공할 수 있어, 주목 영역에 관한 각종의 처리를 실현시킬 수 있다.

본 발명의 다른 양태는, 화상 부호화 장치이다. 이 장치는, 화상 상에 주목 영역을 정의하는 주목 영역 설정부와, 화상을 부호화하는 화상 부호화부와, 주목 영역을 특정하기 위한 정보를 부호화하는 주목 영역 정보 부호화부와, 부호화한 화상과, 상기 정보를 명시적으로 포함시키고, 부호화 스트림을 생성하는 부호화 스트림 생성부를 구비한다. 「주목 영역 설정부」는, 유저의 지정에 의해, 또는 오브젝트 등을 자동 인식함으로써, 화상 상에 주목 영역을 정의하여도 된다.

이 양태에 따르면, 전술한 정보를 부호화 스트림 내에 명시적으로 기술해서 부호화 스트림을 생성함으로써, 화상 내에 주목 영역이 설정되는 경우에, 복호측에 유익한 정보를 제공할 수 있어, 주목 영역에 관한 각종의 처리를 실현시킬 수 있다.

전술한 정보에는, 화상 내에 복수의 주목 영역이 설정된 경우, 그 우선도가 포함된다. 이 양태에 따르면, 복호측에서 복수의 주목 영역의 우선도를 인식할 수 있어, 보다 섬세한 처리도 가능하게 된다.

화상 상에 복수의 주목 영역이 정의된 경우, 그 우선도의 순으로 전술한 정보를 기술하여도 된다. 이 양태에 따르면, 적은 부호량으로, 복수의 주목 영역의 우선도를 복호측에 인식시킬 수 있다.

본 발명의 또 다른 양태는, 화상 복호 방법이다. 이 방법은, 화상의 부호화 데이터를 포함하는 부호화 스트림 내에 명시적으로 기술된, 화상 상에 정의된 주목 영역을 특정하기 위한 정보를 참조하여, 주목 영역을 포함하는 영역을 부호화 스트림으로부터 복호한다. 「주목 영역을 포함하는 영역」은, 주목 영역, 주목 영역과 그 주변 영역을 포함하는 영역, 또는 화상 전체의 영역이어도 된다.

이 양태에 따르면, 부호화 스트림 내에 명시적으로 기술된 상기 정보를 참조하여, 주목 영역에 관한 각종의 처리를 실현시킬 수 있다.

본 발명의 또 다른 양태는, 화상 복호 장치이다. 이 장치는, 화상의 부호화 데이터를 포함하는 부호화 스트림 내에 명시적으로 기술된, 화상 상에 정의된 주목 영역을 특정하기 위한 정보를 복호하는 주목 영역 정보 복호부와, 복호한 정보를 참조하여, 주목 영역을 포함하는 영역을 부호화 스트림으로부터 복호하는 화상 복호부를 구비한다.

또한, 이상의 구성 요소의 임의의 조합, 본 발명의 표현을 방법, 장치, 시스 템, 컴퓨터 프로그램, 기록 매체 등의 사이에서 변환한 것도 또한, 본 발명의 양태로서 유효하다.

본 발명에 따르면, 화상의 일부에 주목하는 영역이 지정되는 경우에, 복호측에서 그것을 살린 여러 처리를 실현할 수 있다.

실시 형태 1

도 1은, 실시 형태 1에 따른 화상 부호화 장치(100)의 구성도이다. 화상 부호화 장치(100)의 구성은, 하드웨어적으로는, 임의의 컴퓨터의 CPU, 메모리, 그 밖의 LSI로 실현할 수 있으며, 소프트웨어적으로는 메모리에 로드된 부호화 기능이 있는 프로그램 등에 의해 실현되지만, 여기에서는 그들의 제휴에 의해 실현되는 기능 블록을 그리고 있다. 따라서, 이들 기능 블록이 하드웨어만, 소프트웨어만, 또는 그들의 조합에 의해 여러 형태로 실현할 수 있는 것은, 당업자라면 이해되는 부분이다.

화상 부호화 장치(100)는, 입력된 원화상을 일례로서 JPEG2000 방식에 의해 압축 부호화한다. 화상 부호화 장치(100)에 입력되는 원화상은, 동화상의 프레임이다. 화상 부호화 장치(100)는, 동화상의 각 프레임을 JPEG2000 방식으로 연속적으로 부호화하여, 동화상의 부호화 스트림을 생성할 수 있다.

웨이브레트 변환부(10)는, 입력된 원화상을 서브밴드 분할하고, 각 서브밴드 화상의 웨이브레트 변환 계수를 계산하고, 계층화된 웨이브레트 변환 계수를 생성 한다. 구체적으로는, 웨이브레트 변환부(10)는, 원화상의 ｘ, y 각각의 방향에서 로우패스 필터 및 하이패스 필터를 적용하고, 4개의 주파수 서브밴드로 분할해서 웨이브레트 변환한다. 이들 서브밴드는, x, y의 양 방향에서 저주파 성분을 갖는 LL 서브밴드와, x, y 중 어느 하나의 방향에서 저주파 성분을 갖고, 또한 다른 한쪽의 방향에서 고주파 성분을 갖는 HL 및 LH 서브밴드와, x, y의 양 방향에서 고주파 성분을 갖는 HH 서브밴드이다. 각 서브밴드의 종횡의 화소수는 처리 전의 화상의 각각 1/2이며, 일회의 필터링으로 해상도, 즉 화상 사이즈가 1/4인 서브밴드 화상이 얻어진다.

웨이브레트 변환부(10)는, 이렇게 해서 얻어진 서브 밴드 중, LL 서브밴드에 대하여 재차 필터링 처리를 행하고, 이를 더욱 LL, HL, LH, HH의 4개의 서브밴드로 분할해서 웨이브레트 변환한다. 웨이브레트 변환부(10)는, 이 필터링을 소정의 횟수 행하여, 원화상을 서브밴드 화상으로 계층화하고, 각 서브밴드의 웨이브레트 변환 계수를 출력한다. 양자화부(12)는, 웨이브레트 변환부(10)로부터 출력된 웨이브레트 변환 계수를 소정의 양자화 폭으로 양자화한다.

엔트로피 부호화부(14)는, 양자화부(12)에 의해 양자화된 양자화 값을 엔트로피 부호화한다. 예를 들면, 상위 비트 플레인으로부터 순서대로 스캔하면서 부호화한다. 이와 같이, 엔트로피 부호화부(14)의 부호화 대상은 원화상으로, 화상 부호화부로서 기능한다.

ROI 설정부(20)는, 원화상의 일부의 영역에 ROI 영역을 설정한다. ROI 영역의 형상은, 사각형, 동그라미, 그 외의 복잡한 형태이어도 된다. 그 형상은, 고정 이어도 되고 동적으로 변화되는 것이어도 된다. 예를 들면, 화상의 중심 부분과 주변 부분에서 ROI 영역의 형상을 변화시켜도 된다. 또한, ROI 영역은, 1매의 화상으로 복수 설정되어도 된다.

이와 같은 ROI 영역을 유저가 수동으로 설정하여도 되고, 시스템이 움직임이 있는 영역 등을 자동 인식하여, 설정하여도 된다. 구체적으로는, 유저 또는 시스템은, ROI 영역의 위치, 크기, 형상, 복수 설정되는 경우의 우선 순위 등을, 초기값으로서 ROI 설정부(20)에 설정한다. 또한, 유저가 오브젝트를 지정한 경우, 혹은 시스템이 자동 인식한 경우, ROI 설정부(20)가 그 오브젝트를 포함하는 소정의 범위를 ROI 영역에 자동 설정하여도 된다. 유저 또는 시스템은, 동화상의 경우, 프레임마다 ROI 영역을 설정하여도 되고, 처음에 ROI 영역을 지정하고, 이 후, 그 ROI 영역 내의 오브젝트의 움직임에 ROI 영역을 추종시켜도 된다. 이는, 오브젝트의 움직임 벡터를 검출함으로써 실현할 수 있다.

ROI 설정부(20)는, ROI 영역의 개시 위치, 크기 등, ROI 영역을 특정하기 위한 정보(이하, ROI 정보라고 함)를 ROI 예측 처리부(22)에 출력한다. 전술한 추종 처리를 행하는 경우, 오브젝트의 움직임 벡터에 기초하여 설정한 ROI 영역의 움직임 벡터를 출력하여도 된다.

ROI 예측 처리부(22)는, ROI 정보에 대하여, 프레임간 예측 처리를 행한다. ROI 예측 처리부(22)는, ROI 정보를 기억하기 위한 메모리를 구비하고, 예를 들면, 그곳에 기준으로 되는 프레임의 ROI 정보를 기억하고, 현 프레임과의 차분 정보를 산출한다.

도 2는, ROI 영역의 천이의 일례를 도시하는 도면이다. 도 2의 (a)는, 화상 내에 ROI 영역 R이 설정된 상태를 나타낸다. 이 ROI 영역 R은, 직사각형이기 때문에, 좌상의 정점 좌표와, 수평 방향의 크기, 및 수직 방향의 크기로 표현할 수 있다. 여기에서는, 이것을, 좌표(A, B), 크기(X, Y)라고 표기한다. 우선, ROI 예측 처리부(22)는, 이들 정보를 ROI 정보로서, ROI 정보 부호화부(24)에 출력함과 함께, 상기 메모리에 기억한다. 이 프레임이, 다음 프레임에 대한 기준으로 된다.

도 2의 (b)는, 도 2의 (a)에 도시한 프레임의 다음의 프레임을 나타내고, ROI 영역 R이 이동한 상태를 나타낸다. 여기에서, 화상 내에서, ROI 영역 R이 우측으로 M1 화소분 이동하였다. 이 ROI 영역 R의 ROI 정보를 상기한 바와 마찬가지의 방법에 의해 표현하면, 좌표(A+M1, B), 크기(X, Y)로 표기하게 된다. 이 점에서, ROI 예측 처리부(22)는, 상기 메모리에 기억된 전 프레임의 ROI 정보를 이용하여, 그 차분에 의해 현 프레임의 ROI 정보를 표현할 수 있다. 예를 들면, 현 프레임 내에서 생성한 ROI 정보로부터 전 프레임의 ROI 정보를 빼면, 좌표 Δ(M1, 0), 크기 Δ(0, 0)이라고 표현할 수 있다. ROI 예측 처리부(22)는, 이 ROI 정보를 ROI 정보 부호화부(24)에 다시 출력함과 함께, 상기 메모리에 기억한다.

도 2의 (c)는, 도 2의 (b)에 도시한 프레임의 다음의 프레임을 나타내고, ROI 영역 R이 이동하고, ROI 영역 R 자체의 형상이 변화된 상태를 나타낸다. 여기에서, 화상 내에서, ROI 영역 R이 아래로 N2 화소분 이동하여, ROI 영역 R이 수평방향으로 M2 화소분 커졌다. ROI 예측 처리부(22)는, 상기 메모리에 기억된 전 프레임의 ROI 정보를 이용하여, 상기한 바와 마찬가지의 방법으로 현 프레임의 ROI 정보를 표현하면, 좌표 Δ(0, -N2), 크기 Δ(M2, 0)로 표현할 수 있다. ROI 예측 처리부(22)는, 이 ROI 정보를 ROI 정보 부호화부(24)에 다시 출력함과 함께, 상기 메모리에 기억한다.

이와 같이, 프레임간 예측 처리를 이용하면, 0 및 그 근방의 값의 출현 빈도가 높아져서, ROI 정보에 통계적 편차를 갖게 할 수 있다. 이와 같은 ROI 정보를, 후술하는 ROI 정보 부호화부(24)에서 엔트로피 부호화를 행하면, 그 부호량을 삭감할 수 있다. 엔트로피 부호화는, 출현 빈도의 편차가 클수록, 부호량을 삭감할 수 있다.

또한, 프레임간 예측 처리는, 전술한 단순하게 전의 프레임과의 차분을 취하는 처리에 한하지 않고, 예를 들면, 움직임 보상 예측 처리를 이용하여도 된다. 움직임 보상 예측 처리는, ROI 영역 R이 움직인 방향이나 거리를 나타내는 움직임 벡터를 구하고, 이 움직임 벡터에 의해 나타내어지는 위치 정보와 현 프레임과의 차분을 ROI 정보로 할 수 있다. 특히, ROI 영역 R의 움직임이 큰 동화상에 대하여, 0 및 그 근방의 값의 출현 빈도를 높일 수 있다. 이와 같이, 프레임간 예측의 대상으로 되는 프레임은, 1개 전의 프레임에 한하지 않고, 1개 후의 장래의 프레임이어도 된다. 또한, 전후 1프레임에 한하지 않고, 전후 수 프레임을 이용하여, 그 평균값을 이용하는 처리 등도 실현 가능하다.

물론, 프레임간 예측 처리를 사용하지 않고, 각 프레임 내에서 ROI 정보를 생성하는 것도 가능하다. 그 경우, 메모리 용량이나 계산량을 저감할 수 있다. 따라서, 유저는, 동화상의 특성에 따라서, 프레임간 예측 처리를 이용할지의 여부 를 선택할 수 있어도 된다. 특히 움직임이 빠른 동화상에서는, 프레임간 예측 처리를 이용하여도, 연산량 증가에 비해 부호량을 그다지 삭감할 수 없는 경우도 발생한다. 그와 같은 경우, 단순하게 프레임마다 ROI 정보를 생성하여도 된다.

ROI 정보 부호화부(24)는, ROI 예측 처리부(22)로부터 입력된 ROI 정보를 부호화한다. 예를 들면, 엔트로피 부호화를 행한다. 그리고, 부호화한 ROI 정보를 부호화 스트림 생성부(16)에 출력한다.

부호화 스트림 생성부(16)는, 엔트로피 부호화부(14)로부터 입력되는 화상의 부호화 데이터, ROI 정보 부호화부(24)로부터 입력되는 ROI 정보의 부호화 데이터등에 기초하여, 부호화 스트림을 생성한다. 그리고, 생성한 부호화 스트림을 기록 매체나 네트워크에 출력한다. 여기에서, 기록 매체로서, SDRAM이나 플래시 하드 디스크 드라이브 등을 이용할 수 있다.

ROI 정보의 부호화 데이터는, 헤더에 기술된다. 헤더에도 여러 레벨이 존재하지만, 어떠한 레벨로 기술하여도 된다. 예를 들면, 스트림 헤더, 시퀀스 헤더, GOP(Group of Picture) 헤더, 프레임 헤더, 픽쳐 헤더, 영역 단위로 붙여지는 헤더 등에 ROI 정보를 기술할 수 있다.

상기 영역 단위로 붙여지는 헤더란, 이하와 같은 헤더를 가리킨다. 예를 들면 1매의 프레임이나 픽쳐에 복수의 ROI 영역이 설정되는 경우에, ROI 영역 1의 화상 데이터→ROI 영역 2의 화상 데이터→…→주변 영역의 화상 데이터의 순으로 프레임이나 픽쳐를 배열한 것으로 한다. 상기 헤더란, 이와 같은 때의 ROI 영역 1의 화상 데이터나 ROI 영역 2의 화상 데이터마다 붙여지는 헤더이다.

도 3은, 부호화 스트림의 일례를 도시하는 도면이다. 여기에서는, 부호화 스트림을 MPEG(Moving Picture Experts Group)에서 사용되는 시퀀스라고 하는 용어로 나타내고 있다. MPEG에서는, 1개의 비디오 프로그램 전체의 부호화 신호를 시퀀스라고 부른다. 시퀀스는, 도 3에 도시한 바와 같이 시퀀스 헤더에서 시작되어, 시퀀스 엔드에서 끝나며, 그 동안에 복수의 GOP를 기술한다. GOP는, GOP 헤더와 복수의 픽쳐를 기술한다. 도 3의 예에서는, 이 GOP 헤더에 복수의 ROI 정보를 기술 하고 있다. GOP 헤더에는, 부호화 조건 등 복호에 필요한 각종 파라미터가 기술된다. 본 실시 형태에서는, 거기에 ROI 정보도 기술하고 있다.

전술한 ROI 정보는, 정점 좌표와 크기를 나타내는 정보이었다. 이러한 점에서, ROI 정보는, 그와 같은 정보에 한하지 않고, 여러 정보를 포함할 수 있으며, 이와 같은 정보에 의해 ROI 정보를 특정할 수 있다. 이하, 그 예를 든다.

우선, 기본으로 되는 좌표가 필요하다. 전술한 바와 같이 정점의 좌표나, 중심점 좌표, 무게 중심 좌표 등이 해당한다. 이들 중으로부터, ROI 영역의 형상에 알맞은 좌표를 이용할 수 있다. 예를 들면, ROI 영역이 원인 경우, 중심점 좌표가 최적의 좌표로 된다. 다음으로, 각 프레임 내의 정보에 의해 ROI 영역을 특정하는 경우, 크기가 필요하다. 예를 들면, 수평 방향의 크기, 수직 방향의 크기가 필요하다. 다음으로, 프레임간 예측 처리를 사용하는 경우, 전의 프레임과의 차분 데이터, 움직임 벡터를 이용한, 후의 프레임과의 차분 데이터, 아핀 변환 계수 등의 각종 함수의 계수 등을 이용할 수 있다.

다음으로, 1매의 화상에 ROI 영역이 복수 설정되는 경우, 그 우선도를 ROI 정보에 포함시켜도 된다. 예를 들면, 그 우선 순위뿐만 아니라, 그 ROI 영역의 표시가 필수인지의 여부 등의 정보를 포함시켜도 된다. 또한, 이 우선 순위를 ROI 정보의 배열순으로 표현하여도 된다. 즉, 우선 순위가 높은 ROI 영역의 정보일수록 앞에 기술한다고 하는 방법이 가능하다. 또한, 각 ROI 영역의 정보량을 포함시켜도 된다. 예를 들면 그 ROI 영역의 부호량이나 압축율, 연산량 등이다. 또한, ROI 영역마다 화질이나, 그 이외의 영역과의 화질비를 포함시켜도 된다.

또한, 그 ROI 영역이 독립해서 복호 가능한지의 여부를 나타내는 정보를 포함시켜도 된다. 예를 들면, JPEG2000 방식에서는, 비트 플레인 내의 각 계수 비트로서, S 패스(significance propagation pass), R 패스(magnitude refinement pass), C 패스(cleanup pass)의 3종류의 처리 패스가 사용된다. S 패스에서는, 유의인 계수가 주위에 존재하는 유의가 아닌 계수의 복호가 행해지고, R 패스에서는, 유의인 계수의 복호가 행해지고, C 패스에서는, 나머지의 계수의 복호가 행해진다. S 패스, R 패스, C 패스의 각 처리 패스는 이 순으로 화상의 화질에의 기여도가 크다. 각 처리 패스는 이 순으로 실행되고, 각 계수의 컨텍스트가 근방 계수의 정보를 고려해서 결정된다. 따라서, 패스마다 독립해서 부호화되어 있는 경우에는, 가변 길이의 복호를 도중에 중단하는 것도 가능하게 된다. 이와 같은 정보는, 복호측에서 유익한 정보이다. 그 외, 복호 시에 유익한 정보로서 이용할 수 있는 정보이면, 상기 예로 든 이외의 정보를 ROI 정보에 포함시켜도 된다. 또한, ROI 정보 를 헤더에 기술하는 예를 설명했지만, 유저가 자유롭게 사용 가능한 유저 영역에 기술하여도 된다.

이상 설명한 바와 같이 실시 형태 1에 따르면, ROI 영역의 복호에 필요한, 또는 유익한 정보를 ROI 정보로서 부호화 스트림에 명시적으로 포함시킴으로써, 복호측에서 그 정보를 살린 여러 처리를 실현할 수 있다. 예를 들면, 앞으로 감기 재생 등을 하는 경우, ROI 영역, 또는 그 주변 수 화소를 포함하는 영역을 취출하고, 그것을 용이하게 재생 표시시킬 수 있다.

또한, ROI 정보를 프레임간 예측 처리를 이용해서 부호화함으로써, ROI 정보 의 부호량을 삭감시킬 수 있다. 예를 들면, JPEG2000에서는, 화상을 정지 화상으로서 취급하고, 부호화를 행하고 있기 때문에, ROI 영역의 부호화 시에는 ROI 정보 를 화상 1매마다 부여해야만 한다. 이 때문에, 움직임이 없는 화상에 대하여 ROI 부호화를 행하도록 한 경우, 연속하는 각 화상 데이터에 대하여 완전히 동일한 ROI 정보를 부가하게 되어, 전체로서는 쓸데없는 부호를 생성하게 된다. 이와 같은 경우에, 프레임간 예측 처리를 이용하는 양태는, 특히 효과를 발휘한다. 또한, 부호량을 삭감시킴으로써, 처리를 고속화할 수가 있어, 소비 전력을 삭감할 수도 있다.

실시 형태 2

도 4는, 실시 형태 2에 따른 화상 복호 장치(200)의 구성도이다. 실시 형태 2에서는, 화상 복호 장치(200)는, 실시 형태 1에서 부호화된 부호화 스트림을 복호 한다. 부호화 스트림으로서 입력되는 동화상의 각 부호화 프레임을 연속적으로 복호함으로써 동화상을 재생할 수 있다.

ROI 정보 복호부(40)는, 부호화 스트림 내에 기술된 ROI 정보를 복호하고, ROI 예측 처리부(42)에 출력한다. ROI 정보는, 부호화 스트림 중의 어느 하나의 레벨의 헤더에 기술되어 있다.

ROI 예측 처리부(42)는, 복호한 ROI 정보에 대하여, 프레임간 예측 처리를 행한다. ROI 예측 처리부(42)는, ROI 정보를 기억하기 위한 메모리를 구비하고, 예를 들면, 거기에 기준으로 되는 프레임의 ROI 정보를 기억한다. 차분 정보에 의해 주어져 있는 현 프레임의 ROI 정보와, 메모리에 기억되어 있는 ROI 정보를 가산 함으로써, 현 프레임의 ROI 정보를 원시적인 데이터 형식으로 복원한다.

예를 들면, 기준으로 되는 프레임의 ROI 영역이 직사각형인 경우, 그 ROI 영역을 좌상의 정점 좌표(A, B)와, 수평 방향의 크기 및 수직 방향의 크기(X, Y)로 표현할 수 있다. 우선, ROI 예측 처리부(42)는, 이들 정보를 ROI 정보로서, ROI 영역 제어부(44)에 출력함과 함께, 상기 메모리에 기억한다. 이 프레임이, 다음 프레임에 대한 기준으로 된다.

실시 형태 1의 방법을 이용해서 ROI 정보가 부호화되어 있는 경우, 다음의 프레임에서 해당 ROI 영역이 우측으로 M1 화소분 이동했다고 하면, 그 차분 정보로서 좌표 Δ(M1, 0), 크기 Δ(0, 0)과 ROI 정보가 주어진다. ROI 예측 처리부(42)는, 상기 메모리에 기억된 전 프레임의 ROI 정보에 이 차분 정보를 가산함으로써, 현 프레임의 절대적인 좌표(A+M1, B), 크기(X, Y)를 구할 수 있다.

ROI 예측 처리부(42)는, 이와 같이 하여, 화상을 복호하기 전에 다음 화면의 ROI 정보를 복호하여 취득한다. 이에 의해, ROI 영역에 관한 여러 처리가 가능하게 된다. 또한, 다른 프레임간 예측 부호화가 이용되고 있는 경우, 그에 대응한 복원 방법을 이용한다.

ROI 영역 제어부(44)는, 유저 또는 시스템의 요구에 의해 ROI 영역에 관한 각종의 처리를 설정한다. 예를 들면, ROI 영역의 화상만, 또는 그 주변 화소를 포함하는 영역을 재생하는 처리도 가능하다. 이 주변 화소를 결정하는 방법은 후술한다. 또한, 임의의 씬을 오브젝트 인식을 이용해서 서치하는 경우, ROI 영역 내의 오브젝트만을 대상으로 한 검색 처리도 가능하다. 어느 것이나, 고속 처리가 가능하다. 이들 처리를 행할 때, ROI 정보에 포함되는 우선 순위 정보를 참조하여, 처리를 행할 수 있다. 예를 들면, 표시가 필수가 아니거나, 또는 우선 순위가 낮은 ROI 영역을 표시시키지 않거나, 검색 대상으로부터 벗어날 수도 있다.

그 외에, ROI 영역 제어부(44)는, ROI 정보에 의한 지정, 유저 또는 시스템의 요구에 의해, ROI 영역의 화질이나 그 밖의 영역과의 화질비를 설정할 수 있다.

부호화 데이터 추출부(30)는, 입력된 부호화 스트림으로부터 부호화 데이터를 추출한다. 그 때, ROI 영역 제어부(44)로부터 지정된 영역의 부호화 데이터만을 추출하는 경우도 있다. 엔트로피 복호부(32)는, 추출된 부호화 데이터를 비트 플레인마다 복호하고, 복호의 결과 얻어지는 양자화된 웨이브레트 변환 계수를 취득한다. 역양자화부(34)는, 웨이브레트 변환 계수를 역양자화한다. 웨이브레트 역변환부(36)는, 역양자화된 웨이브레트 변환 계수를 역변환하고, 얻어진 복호 화상을 출력한다.

다음으로, ROI 영역 제어부(44)에서 ROI 영역과 그 주변 영역을 포함하는 영역의 좌표와 크기를 결정하기 위한 방법을 설명한다. 도 5는, 웨이브레트 변환 계수의 각 분할 레벨에서의 ROI 영역을 도시하는 도면이다. 도 5의 (a)는 분할 레벨 0의 원화상(80) 상에 ROI 영역(90)이 설정된 상태를 나타낸다. 도 5의 (b)는, 원화상(80)을 1회만 웨이브레트 변환함으로써 얻어지는 분할 레벨 1의 변환 화상(82)을 나타낸다. 분할 레벨 1의 변환 화상(82)은, 4개의 서브밴드 LL1, HL1, LH1, HH1로 구성된다. ROI 영역 제어부(44)는, 원화상(80)의 ROI 영역(90)을 복원하기 위해서 필요한 분할 레벨 1의 변환 화상(82) 상의 ROI 영역(91∼94)을, 분할 레벨 1의 각 서브밴드 LL1, HL1, LH1, HH1에서 특정한다.

도 5의 (c)는, 도 5의 (b)의 변환 화상(82)의 최저 주파수 성분의 서브밴드 LL1을 더욱 웨이브레트 변환함으로써 얻어지는 분할 레벨 2의 변환 화상(84)을 나타낸다. 분할 레벨 2의 변환 화상(84)은, 도 5와 같이 , 분할 레벨 1의 3개의 서브밴드 HL1, LH1, HH1 외에, 분할 레벨 2의 4개의 서브밴드 LL2, HL2, LH2, HH2를 포함한다. ROI 영역 제어부(44)는, 분할 레벨 1의 변환 화상(82)의 서브밴드 LL1에서의 ROI 영역(91)을 복원하기 위해서 필요한 분할 레벨 2의 변환 화상(84) 상의ROI 영역(95∼98)을 각 서브밴드 LL2, HL2, LH2, HH2에서 특정한다.

마찬가지로 해서, 웨이브레트 변환의 횟수만큼 원화상(80)의 ROI 영역(90)에 대응하는 ROI 영역을 각 분할 레벨에서 재귀적으로 특정해 감으로써, 최종 분할 레벨의 변환 화상에서, ROI 영역(90)을 복원하기 위해서 필요한 ROI 변환 영역을 모두 특정할 수 있다.

ROI 영역 제어부(44)는, 원화상(80) 상에서 설정된 ROI 영역의 주변 영역에 노이즈를 발생시키는 일 없이 원화상(80)까지 복호하도록, 각 분할 레벨에서의 각 서브밴드 내에서, 복호할 웨이브레트 변환 계수의 대상 영역의 개시 위치와 크기를 결정한다. 그것을 부호화 데이터 추출부(30)에 설정한다.

원화상(80)에서의 ROI 영역이 개시하는 x 또는 y 좌표를 P, ROI 영역의 x 또는 y 방향의 크기를 Q로 했을 때, 각 분할 레벨에서의 복호 대상 영역의 개시 좌표 및 크기는 이하와 같이 된다.

분할 레벨 1 … 개시 좌표 P/2-α, 크기 Q/2+β

분할 레벨 2 … 개시 좌표(P/2-α)/2-α, 크기(Q/2+β)/2+β

분할 레벨 3 … 개시 좌표 {(P/2-α)/2-α}/2-α,

크기{(Q/2+β)/2+β}/2+β

분할 레벨 J … 개시 좌표 […]/2-α, 크기 […]/2+β

상기의 계산을 x 및 y에 대해서 행함으로써, 각 분할 레벨에서의 복호 대상 영역의 개시 좌표 및 크기를 구할 수 있다. 개시 좌표에서는, 최후의 α를 빼기 직전의 값에 소수점 이하가 발생한 경우, 그것을 잘라버린다. 한편, 크기에서는, 최후의 β을 더하기 직전의 값에 소수점 이하가 발생한 경우, 그것을 반올림한다. α, β의 값은, 설계자가 임의로 설정 가능하지만, 예를 들면, α=1, β=2나 α=2, β=4와 같은 설정이 가능하다. 주변 영역을 ROI 영역의 상하 좌우로 대칭으로 형성하는 경우, β는 α의 2배의 값으로 된다. 이 값은, 사용하는 필터에 의존한다.필터링 횟수가 많을수록, 주변 영역의 화소를 많이 취하면 된다.

이상 설명한 바와 같이 실시 형태 2에 따르면, 부호화 스트림에 명시적으로 기술된 ROI 정보를 복호하고, 그 정보를 살려서 여러 처리를 실현할 수 있다. 예를 들면, ROI 영역, 또는 그 주변 화소를 포함하는 영역을 추출하고, 그것을 용이 하게 재생 표시시킬 수 있다. 또한, ROI 영역, 및 그 이외의 영역을 각각 원하는 화질로 재생할 수도 있다.

이상, 본 발명을 실시 형태에 기초하여 설명했다. 실시 형태는 예시로서, 그들의 각 구성 요소나 각 처리 프로세스의 조합에 다양한 변형예가 가능한 것, 또한 그러한 변형예도 본 발명의 범위에 있는 것은 당업자라면 이해되는 부분이다. 그러한 변형예를 이하에 기재한다.

상기의 실시 형태에서, ROI 영역은, 오브젝트만의 영역이어도 된다. 이 경우, 시스템은, ROI 정보로서, 오브젝트를 특정하기 위한 정보를 헤더 등에 기술할 수 있다. 실시 형태와 마찬가지로, 이 오브젝트의 형상 변화에 관한 정보 등을 프레임간 예측 처리를 이용해서 기술함으로써, 해당 정보의 부호량을 삭감할 수 있다.

상기의 실시 형태에서는, JPEG2000 방식으로 연속적으로 부호화한 동화상의 부호화 스트림을 복호하고 있지만, JPEG2000 방식에 한하지 않고, 요컨대, 동화상의 부호화 스트림을 복호하는 방식이면 된다.

상기의 실시 형태에서, 화상의 부호화를 위한 공간 필터링으로서 웨이브레트 변환을 설명했지만, 다른 공간 주파수 변환을 이용하여도 된다. 예를 들면, JPEG 표준에서 이용되는 이산 코사인 변환을 이용하여도 된다.

본 발명은, 화상을 부호화하는 장치 또는 화상을 복호하는 장치에 이용 가능하다.

도 1은 실시 형태 1에 따른 화상 부호화 장치의 구성도.

도 2는 ROI 영역의 천이의 일례를 도시하는 도면.

도 3은 부호화 스트림의 일례를 도시하는 도면.

도 4는 실시 형태 2에 따른 화상 복호 장치의 구성도.

도 5는 각 분할 레벨에서의 ROI 영역을 도시하는 도면.

<도면의 주요 부분에 대한 부호의 설명>

10 : 웨이브레트 변환부

12 : 양자화부

14 : 엔트로피 부호화부

16 : 부호화 스트림 생성부

20 : ROI 설정부

22 : ROI 예측 처리부

24 : ROI 정보 부호화부

30 : 부호화 데이터 추출부

32 : 엔트로피 복호부

34 : 역양자화부

36 : 웨이브레트 역변환부

40 : ROI 정보 복호부

42 : ROI 예측 처리부

44 : ROI 영역 제어부

100 : 화상 부호화 장치

200 : 화상 복호 장치

Claims

동화상 상에 복수의 주목 영역(ROI: region of interest)을 정의하는 주목 영역 설정 단계와,

상기 동화상의 프레임을 공간 주파수 변환하는 화상 변환 단계와,

공간 주파수 변환된 상기 동화상의 프레임을 양자화하는 양자화 단계와,

양자화된 상기 동화상을 부호화하는 화상 부호화 단계와,

동화상 상에 정의된 복수의 주목 영역을 특정하기 위한 정보를 동화상의 복수의 프레임의 통합 단위로, 상기 동화상의 부호화 데이터를 포함하는 부호화 스트림 내에 명시적으로 기술하는 단계를 포함하고,

상기 복수의 주목 영역을 특정하기 위한 정보에는, 복수의 주목 영역 간의 우선 순위를 나타내는 정보가 포함되는 것을 특징으로 하는 화상 부호화 방법.
제1항에 있어서,

상기 복수의 주목 영역을 특정하기 위한 정보에는, 상기 복수의 주목 영역에 대한 표시가 필수인지의 여부에 관한 정보가 포함되는 것을 특징으로 하는 화상 부호화 방법.
제1항 또는 제2항에 있어서,

상기 복수의 주목 영역을 특정하기 위한 정보는 복호시에 이용되는 것임을 특징으로 하는 화상 부호화 방법.
제1항 또는 제2항에 있어서,

상기 복수의 주목 영역의 화질을 우선 순위에 따라서 다르게 하여 부호화하는 것을 특징으로 하는 화상 부호화 방법.
동화상 상에 복수의 주목 영역을 정의하는 주목 영역 설정부와,

상기 동화상의 프레임을 공간 주파수 변환하는 화상 변환부와,

공간 주파수 변환된 상기 동화상의 프레임을 양자화하는 양자화부와,

양자화된 상기 동화상을 부호화하는 화상 부호화부와,

상기 주목 영역을 특정하기 위한 정보가 동화상의 복수의 프레임의 통합 단위로 명시적으로 기술된, 상기 동화상의 부호화 데이터를 포함하는 부호화 스트림을 생성하는 부호화 스트림 생성부를 구비하고,

상기 복수의 주목 영역을 특정하기 위한 정보에는, 복수의 주목 영역 간의 우선 순위를 나타내는 정보가 포함되는 것을 특징으로 하는 화상 부호화 장치.
제5항에 있어서,

상기 복수의 주목 영역을 특정하기 위한 정보에는, 상기 복수의 주목 영역에 대한 표시가 필수인지의 여부에 관한 정보가 포함되는 것을 특징으로 하는 화상 부호화 장치.
제5항 또는 제6항에 있어서,

상기 복수의 주목 영역을 특정하기 위한 정보는 복호시에 이용되는 것임을 특징으로 하는 화상 부호화 장치.
제5항 또는 제6항에 있어서,

상기 부호화부는, 상기 복수의 주목 영역의 화질을 우선 순위에 따라서 다르게 하여 부호화하는 것을 특징으로 하는 화상 부호화 장치.