KR101552664B1 - 화상 부호화 방법 및 장치, 화상 복호 방법 및 장치, 및 그 프로그램 - Google Patents
화상 부호화 방법 및 장치, 화상 복호 방법 및 장치, 및 그 프로그램 Download PDFInfo
- Publication number
- KR101552664B1 KR101552664B1 KR1020137007041A KR20137007041A KR101552664B1 KR 101552664 B1 KR101552664 B1 KR 101552664B1 KR 1020137007041 A KR1020137007041 A KR 1020137007041A KR 20137007041 A KR20137007041 A KR 20137007041A KR 101552664 B1 KR101552664 B1 KR 101552664B1
- Authority
- KR
- South Korea
- Prior art keywords
- subject
- image
- pixel value
- pixel
- decoding
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/003—Aspects relating to the "2D+depth" image format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
화상을 전송 또는 축적할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 부호화하는 화상 부호화 방법. 처리 영역내에 존재하는 피사체마다 각 피사체를 대표하는 1개의 화소치를, 해당 피사체를 식별하는 피사체 식별자에 대응시켜 피사체 화소치로서 설정하는 단계와, 처리 영역내의 각 화소의 화소치와 피사체 화소치로부터, 처리 영역내의 각 화소에 어느 피사체가 촬영되어 있는지를 피사체 식별자로 나타내는 피사체 맵을 생성하는 단계와, 상기 피사체 맵에 따라 각 화소에 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 단계와, 상기 피사체 맵을 부호화하는 단계와, 상기 피사체 화소치를 부호화하는 단계와, 상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화하는 단계를 가진다.
Description
본 발명은 화상의 부호화 및 복호 기술에 관한 것으로서, 특히 거리 화상과 같은 화상의 부호화에 적합한 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치 및 그 프로그램에 관한 것이다.
본원은 2010년 9월 29일에 출원된 일본 특원2010-218036호에 기초하여 우선권을 주장하고 그 내용을 본원에서 원용한다.
거리 화상이란, 카메라에서 피사체에 이르기까지의 거리를 화소치로서 표현한 화상이다. 카메라에서 피사체에 이르기까지의 거리는 씬(scene)의 깊이라고도 볼 수 있기 때문에 거리 화상은 깊이 화상으로 불리기도 한다. 또한 깊이(Depth)라는 점에서 뎁스맵(Depth Map)으로 불리기도 한다. 컴퓨터 그래픽스 분야에서는, 뎁스는 Z버퍼(화면 전체의 심도를 통합 저장하는 메모리 영역)에 축적된 정보가 되기 때문에 Z화상이나 Z맵으로 불리기도 한다. 아울러 카메라에서 피사체에 이르기까지의 거리 외에 표현 대상으로서의 공간상으로 연장된 3차원 좌표계의 Z축에 대한 좌표치를 거리(뎁스)로서 이용하기도 한다.
일반적으로, 촬영된 화상에 대해 수평 방향을 X축, 수직 방향을 Y축으로 하기 때문에 Z축은 카메라의 방향과 일치하지만, 복수의 카메라에 대해 공통의 좌표계를 이용하는 경우 등 Z축이 카메라의 방향과 일치하지 않는 경우도 있다.
이하에서는, 거리·깊이·Z치(깊이 정보)를 구별하지 않고 거리 정보라고 부르고, 거리 정보를 화소치로서 표시한 화상을 거리 화상이라고 부른다.
거리 정보를 화소치로서 표시할 때 물리량에 대응하는 값을 그대로 화소치로 하는 방법과, 최소치와 최대치 사이를 소정의 이산수(離散數)로 양자화하여 얻어지는 값을 이용하는 방법과, 최소치로부터의 차(差)를 소정의 스텝폭으로 양자화하여 얻어지는 값을 이용하는 방법이 있다. 표현하고자 하는 범위가 한정되어 있는 경우에는 최소치 등의 부가 정보를 이용하는 것이 거리 정보를 고정밀도로 표현하는 것일 수 있다.
또한 등간격으로 양자화할 때 물리량을 그대로 양자화하는 방법과 물리량의 역수를 양자화하는 방법이 있다. 일반적으로 거리 정보의 역수는 시차에 비례한 값이 되기 때문에 거리 정보를 고정밀도로 표현할 필요가 있는 경우에는 전자가 사용되고, 시차 정보를 고정밀도로 표현할 필요가 있는 경우에는 후자가 사용되는 경우가 많다.
이하에서는, 거리 정보의 화소치화 방법이나 양자화 방법과 관계없이 거리 정보가 화상으로서 표현된 것을 모두 거리 화상이라고 한다.
거리 화상의 이용 용도 중 하나로서 입체 화상이 있다. 일반적인 입체 화상의 표현으로는, 관측자의 우안(右眼)용 화상과 좌안(左眼)용 화상으로 이루어진 스테레오 화상이 있는데, 소정 카메라에서의 화상과 그 거리 화상을 이용하여 입체 화상을 표현하는 것이 가능하다(세부 기술은 비특허문헌 1을 참조함).
이러한 1 시점(視點)에서의 영상과 거리 화상을 이용하여 표현된 입체 영상을 부호화하는 방식에는, MPEG-C Part. 3(IS0/IEC 23002-3)을 사용할 수 있다(세부 내용은 비특허문헌 2를 참조함).
또한 영상과 거리 화상을 복수 시점에 대해 가짐으로써 단시점(單視點)의 경우에 표현 가능한 입체 영상보다 큰 시차를 가진 입체 영상을 표현하는 것이 가능하게 된다(세부 내용은 비특허문헌 3을 참조함).
또한 이러한 입체 영상을 표현하는 용도 이외에 거리 화상은, 감상자가 촬영 카메라의 배치를 신경쓰지 않고 자유롭게 시점을 이동할 수 있는 자유 시점 영상을 생성하는 데이터 중 하나로서도 사용된다. 이러한, 촬영 카메라와는 다른 카메라로 씬을 볼 때의 합성 화상을 가상 시점 화상이라고 부르는 경우도 있으며, Image-based Rendering 분야에서 그 생성법이 활발히 검토되고 있다. 다시점(多視點) 영상과 거리 화상에서 가상 시점 영상을 생성하는 대표적인 수법으로는, 비특허문헌 4에 기재된 수법이 있다.
거리 화상은 1개의 콤포넌트로 구성되어 있기 때문에 그레이 스케일 화상으로 간주할 수 있다. 또한 피사체가 실공간상에서 연속적으로 존재하다가 순간적으로 이격된 위치로 이동할 수 없기 때문에 화상 신호와 동일하게 공간적 상관 및 시간적 상관을 갖는다고 볼 수 있다. 따라서 통상의 화상 신호나 영상 신호를 부호화하기 위해 이용되는 화상 부호화 방식이나 동영상 부호화 방식에 의해 거리 화상이나 거리 동영상은 공간적 리던던시나 시간적 리던던시를 제거하면서 효율적으로 부호화할 수 있다. 실제로 MPEG-C Part. 3에서는 기존의 동영상 부호화 방식을 이용하여 거리 동영상을 부호화하였다.
여기서 종래의 일반적인 영상 신호의 부호화 방식에 대해 설명하기로 한다.
일반적으로 피사체가 실공간상에서 공간적 및 시간적 연속성을 갖기 때문에 그를 보이는 방법은 공간적으로 그리고 시간적으로 높은 상관을 가진다. 영상 신호의 부호화에서는 그러한 상관성을 이용하여 높은 부호화 효율을 달성하였다.
구체적으로는, 부호화 대상 블록의 영상 신호를 이미 부호화 완료된 영상 신호로부터 예측하여 그 예측 잔차만을 부호화함으로써 부호화할 필요가 있는 정보를 줄여 높은 부호화 효율을 달성한다.
대표적인 영상 신호 예상 수법으로는, 인접한 블록으로부터 공간적으로 예측 신호를 생성하는 화면내 예측이나, 다른 시각에 촬영된 부호화 완료된 프레임으로부터 피사체의 움직임을 추정하여 시간적으로 예측 신호를 생성하는 움직임 보상 예측이 있다.
또한 예측 잔차 신호로 불리는 예측의 오차도 공간적인 상관과 인간의 시각 특성을 이용하기 때문에, DCT 등을 이용하여 예측 잔차 신호를 주파수 공간에서의 데이터로 변환하여 저주파 영역에 잔차 신호의 에너지를 집중시킴으로써 효율적으로 부호화한다.
각 수법의 세부 내용은 동영상 부호화 국제 표준규격의 MPEG-2나 H.264/MPEG-4 AVC(비특허문헌 5)를 참조하기 바란다.
비특허문헌 1: C.Fehn, P.Kauff, M.Op de Beeck, F.Emst, W.IJsselsteijn, M.Pollefeys, L.Van Gool, E.Ofek and I.Sexton, "An Evolutionary and Optimised Approach on 3D-TV", Proceedings of International Broadcast Conference, pp.357-365, Amsterdam, The Netherlands, September 2002.
비특허문헌 2: W.H.A.Bruls, C.Varekamp, R.Klein Gunnewiek, B.Barenbrug and A.Bourge, "Enabling Introduction of Stereoscopic(3D) Video: Formats and Compression Standards", Proceedings of IEEE International Conference on Image Processing, pp.I-89-I-92, San Antonio, USA, September 2007.
비특허문헌 3: A.Smolic, K.Mueller, P.Merkle, N.Atzpadin, C.Fehn, M.Mueller, O.Schreer, R.Tanger, P.Kauff and T.Wiegand, "Multi-view video plus depth(MVD) format for advanced 3D video systems", Joint Video Team of IS0/IEC JTC1/SC29/WGll and ITU-T SG16 Q.6, Doc.JVT-W100, San Jose, USA, April 2007.
비특허문헌 4: C.L.Zitnick, S.B.Kang, M.Uyttendaele, S.A.J.Winder, and R.Szeliski, "High-quality Video View Interpolation Using a Layered Representation", ACM Transactions on Graphics, vol.23, no.3, pp.600-608, August 2004.
비특허문헌 5: Recommendation ITU-T H.264, "Advanced video coding for generic audiovisual services", March 2009.
피사체는 실공간상에서 연속되므로 높은 공간 상관을 가짐과 동시에 순간적으로 이격된 위치로 이동할 수 없기 때문에 높은 시간 상관을 가진다. 따라서 공간 상관과 시간 상관을 이용하는 기존의 동영상 부호화 방식을 이용함으로써 그레이 스케일 화상으로서 나타낸 거리 화상을 효율적으로 부호화할 수 있다.
그러나 거리 정보는 피사체 내부에서는 변화가 적고 피사체 사이에는 매우 큰 차이가 있기 때문에 공간적 또는 시간적인 예측 결과, 정확한 예측을 달성할 수 있어 예측 잔차가 매우 작아질 수도 있고 완전히 유효한 예측이 불가능하여 예측 잔차가 매우 커질 수도 있다. 즉, 예측 잔차 신호에 강한 엣지가 생성된다. 그러한 강한 엣지는, DCT 등을 이용하여 주파수 공간에서의 데이터로 변환되면 저주파 영역에 잔차 신호의 에너지를 집중시킬 수 없어 많은 고주파 성분이 생기게 된다. 그 결과, 잔차 신호를 효율적으로 부호화하는 것이 가능하지 않다.
도 23에, 소정 거리 화상의 9×9 화소의 블록의 일례를 도시하였다. 이 블록에는 2개의 피사체가 존재하며 한쪽 피사체의 화소치가 50 전후이고, 다른 한쪽 피사체의 화소치가 200 전후이다.
공간적인 예측에서는, 이 블록의 1행째와 1열째 정보를 이용하여 나머지 8×8 화소를 예측한다. 예측의 방법에는 여러가지가 있는데, 여기에서는 H.264에 채용되는 대표적인 2가지 예측 방법, 수평 예측과 수직 예측의 2가지 예를 도시하였다.
도면의 우측에 도시된 바와 같이 예측 잔차에는 크게 분류하여 -150 전후, 0 전후, 150 전후의 3종류의 값밖에 존재하고 있지 않아서 상당히 큰 엣지가 생긴다.
도 24a 및 도 24b는, 도 23에 도시한 예측 잔차에 8×8의 이차원 DCT를 곱한 결과를 보여주고 있다. 직류(DC) 성분은 도면의 가장 안쪽이 되어 안쪽에서 멀어질수록 고주파를 나타낸다.
도면으로부터 알 수 있듯이 어느 경우에도 대부분의 고주파 영역에 큰 신호가 생겨 잔차 신호의 컴팩트화에 실패하였음을 알 수 있다.
예측을 하지 않고 DCT 등의 변환만을 이용하여 부호화할 수도 있지만, 다른 블록과의 공간적 상관을 제거하지 못하여 부호화 효율이 더욱 악화된다.
또한 DCT 등의 변환을 수행하지 않고 부호화할 수도 있지만, 그 경우에는 블록내의 국소적인 상관을 이용할 수 없어 효율적인 부호화를 달성할 수 없다.
본 발명은 이상과 같은 사정을 감안하여 이루어진 것으로서, 거리 화상과 같은 화소치가 오브젝트에 크게 의존하는 화상을 효율적으로 부호화하는 화상 부호화기술, 및 부호화된 비트 스트림을 복호하는 화상 복호 기술을 제공하는 것을 목적으로 한다.
본 발명은 상기 과제를 해결하기 위해 화상을 전송 또는 축적할 때 화상 프레임을 미리 정해진 크기의 처리 영역(이하, 블록이라고도 한다)으로 분할하고 블록마다 각 화소의 화소치를 예측하면서 부호화하는 화상 부호화에서, 블록내에 고정수의 피사체 또는 블록마다 가변수의 피사체가 존재한다고 가정하고, 각 블록의 화상을 「각 피사체를 대표하는 화소치(이하, 피사체 화소치라고 한다)」, 「각 화소의 피사체 식별 정보」라는 정보로 표현한다.
즉, 블록내의 1개의 화소에 대해 어느 피사체인지를 나타내는 1개의 피사체 식별 정보가 할당되고 1개의 피사체 식별 정보에는 1개의 피사체 화소치가 대응된다.
이 정보에 따라 화소마다 가장 유사한 값을 할당하기 때문에 복잡한 엣지 형상을 유지한 예측 화상을 생성할 수 있다. 아울러 블록내에 포함되는 피사체의 수는 많아도 몇 개로 한정되기 때문에 이 정보의 양은 한정된다.
여기서 말하는 피사체란, 촬영되는 각각의 물체나 인물 그 자체를 의미하는 것이 아니라 정보를 부여하는 대상으로서, 예를 들면 유사한 화상 신호(휘도, 색채, 뎁스 등)를 가진 영역이다. 즉, 단일 물체여도 좋고 장소에 따라 다른 색을 갖는 경우에는 복수의 피사체로 간주한다.
또한 화상 신호를 부호화할 필요가 없는 물체나 물체의 일부분은 피사체로는 간주하지 않는다. 즉, 피사체는 프레임내의 실(實)오브젝트(피사체)와는 관계없이 정보가 부여되지 않는 실오브젝트는 본 발명에서 말하는 "피사체"는 아니다.
또한 1개의 실오브젝트에 대해 2개의 정보가 부여될 경우에는 각각 다른 피사체로 취급된다.
본 발명 및 그 실시형태의 설명에서 사용하는 용어를 설명하기로 한다. 이하에서는, 처리 영역을 대표적으로 블록으로서 설명하기로 한다.
「피사체 수」: 피사체 수는, 블록내에 존재하는 "피사체"의 수로서, 정보를 부여하는 대상의 갯수이다. 피사체 수는 블록내의 화소치를 해석함으로써 생성할 수 있다.
예를 들면, 블록내의 화소를 화소치나 위치 등의 정보를 이용하여 클러스터링하고, 각 클러스터의 평가치(예를 들면, 화소치의 분산)가 일정치 이하가 되는 클러스터수의 최대치를 피사체 수로 할 수 있다. 또한 경험 등에 기초하여 외부에서 주거나 미리 정해진 값을 이용할 수도 있다.
이 피사체 수는, 부가 정보의 하나인 피사체 화소치의 갯수를 표현하기 위해 이용된다. 또한 피사체 맵에 등장하는 피사체 식별자의 최대치를 표현하기 위해서도 이용된다.
「피사체 화소치」: 피사체 화소치는, 각각의 "피사체"에 대해 1개 정의되는 값으로서, 그 "피사체"를 대표하는 화소치이다. 화소치로는, 휘도치나 색차치, R 값 등을 이용할 수 있다. 또한 RGB 값 등 복수의 색컴퍼넌트치의 집합을 이용하는 경우도 있다.
피사체 화소치는 블록내의 화소치를 해석함으로써 생성한다. 구체적으로는, 블록내의 화소를 화소치나 위치 등의 정보를 이용하여 "피사체 수"의 클러스터에 클러스터링하고, 각 클러스터마다 포함되는 화소의 화소치에 대한 평균치나 중앙치를 계산함으로써 얻는다.
블록내의 각 화소에 대해 그 화소의 "피사체"에 대응하는 피사체 화소치를 할당함으로써 그 블록의 예측 화상을 생성하기 위해 이용된다.
「피사체 맵」: 피사체 맵은, 블록내의 각 화소에 어느 "피사체"가 존재하고 있는지를 나타낸 것이다. 구체적으로는 각 화소를 "피사체"(피사체 화소치)에 대응한 피사체 식별자로 표현한 것이다. 가장 단순한 표현으로는 2차원 정보로서 표현할 수 있는데, 트리 구조를 이용하여 표현할 수도 있다. 피사체 맵은 블록내의 각 화소에 대해 그 화소치에 가장 가까운 피사체 화소치에 대응하는 피사체 식별자를 할당함으로써 생성한다.
아울러 화소치와 피사체 화소치의 유사도뿐 아니라 피사체 맵 자체의 표현에 필요한 비트수도 감안하여 생성하기도 한다. 피사체 맵은 예측 화소를 생성할 때 블록내의 각 화소에 대해 어느 피사체 화소치를 할당할지를 나타내기 위해 이용된다.
「부가 정보」: 본 발명에서 처리 대상 프레임의 화상(영상) 신호를 예측하기 위해 이용하는 정보를 부가 정보라고 부른다. 부가 정보는 처리를 하는 블록 단위로 생성된다. 부가 정보는, 기본적으로는 피사체 수·피사체 화소치·피사체 맵의 3가지 정보로 구성된다.
본 발명의 화상 부호화에서는, 전형적으로 이하의 처리를 수행한다.
(1) 처리 영역내에 존재하는 피사체의 수를 피사체 수로서 설정한다.
(2) 처리 영역내에 피사체 수만의 피사체가 존재한다고 가정하여 피사체마다 1개의 화소치를 피사체 화소치로서 설정한다.
(3) 피사체를 식별하는 피사체 식별자와 피사체 화소치를 대응시켜 처리 영역내의 각 화소의 화소치와 피사체 화소치로부터, 처리 영역내의 각 화소에 어느 피사체가 촬영되어 있는지를 피사체 식별자로 나타내는 피사체 맵을 생성한다.
(4) 피사체 맵에 따라 각 화소에 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성한다.
(5) 피사체 맵을 부호화한다.
(6) 피사체 화소치를 부호화한다.
(7) 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화한다.
(8) 피사체 맵의 부호 데이터, 피사체 화소치의 부호 데이터, 화상 신호의 부호 데이터를 다중화하여 출력한다.
이상과 같이 본 발명에서는, 예측 화상을 생성하기 위해 피사체의 대표적인 화소치인 피사체 화소치, 및 어느 피사체 화소치를 이용하여 예측 화상을 생성할지를 화소마다 나타내는 피사체 맵의 2가지 부가 정보를 이용한다.
예측 화상의 생성에 「예측 방향」이라는 정보를 이용한 종래 기술에 비해 본 발명은 부가 정보의 부호량이 증가하는데, 정확한 예측 화상을 생성함으로써 예측 잔차의 부호화에 필요한 부호량을 대폭 줄여 전체적으로 블록 등 처리 영역당 필요한 부호량을 삭감할 수 있다.
또한 본 발명은, 상기 (1)의 피사체 수를 설정하는 단계에서, 처리 영역내의 화소 정보로부터 처리 영역내의 피사체 수를 추정하여 피사체 수로 하는 처리를 수행하고, 이 피사체를 부호화하여 피사체 수의 부호 데이터를 부가 정보로서 다른 부호 데이터와 다중화하여 출력하도록 해도 좋다.
이로써 처리 영역마다 최적의 피사체 수를 설정하여 예측 정밀도를 높일 수 있다.
또한 본 발명은 상기 (6)의 피사체 화소치를 부호화하는 단계에서, 피사체 식별자마다 피사체 맵에서 해당 피사체 식별자가 사용되는지 여부를 체크하여, 사용되는 경우에는 해당 피사체 식별자에 대응하는 피사체 화소치를 부호화하고, 사용되지 않는 경우에는 해당 피사체 식별자에 대응하는 피사체 화소치의 부호화를 생략할 수도 있다.
처리 영역내의 화소 예측에서 사용되지 않은 피사체 화소치의 부호화를 생략함으로써 부호량을 더욱 삭감할 수 있게 된다.
또한 본 발명은 상기 (7)의 화상 신호를 예측 부호화하는 단계에서, 예측 화상에 대해 디서(dither)를 가하고 디서를 가한 예측 화상을 이용하여 부호화 대상의 처리 영역에 대한 화상 신호를 예측 부호화해도 좋다.
예측 화상에 디서를 가함으로써 피사체의 갯수가 한정되어 있어도 자연 화상에 더욱 가까운 변화를 줄 수 있다.
본 발명의 화상 복호에서는, 전형적으로 이하의 처리를 수행한다.
(1) 처리 영역내에 존재하는 피사체의 수를 피사체 수로서 설정한다.
(2) 복호 대상이 되는 부호 데이터로부터 피사체 맵을 복호한다.
(3) 각 피사체 식별자마다 1개 설정된 피사체 화소치를 부호 데이터로부터 복호한다.
(4) 피사체 맵에 따라 각 화소에 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성한다.
(5) 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 부호 데이터로부터 복호한다.
이로써 상기 화상 부호화에 의해 부호화된 화상을 복호할 수 있다.
또한 본 발명은 상기 (1)의 피사체 수를 설정하는 단계에서, 피사체 수를 부호 데이터로부터 복호하여 설정해도 좋다.
또한 본 발명은 상기 (3)의 피사체 화소치를 복호하는 단계에서, 피사체 맵에 나타난 피사체 식별자에 대응하는 피사체 화소치만을 복호하도록 해도 좋다.
또한 본 발명은 상기 (5)의 화상 신호를 복호하는 단계에서, 예측 화상에 대해 디서를 가하고 디서를 가한 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 부호 데이터로부터 복호하도록 해도 좋다.
본 발명에 의하면, 거리 화상과 같은, 화소치가 피사체에 크게 의존하여 국소적으로는 한정된 수의 피사체만 존재하는 화상에 대해 피사체별 대표 화소치와 피사체 식별 정보를 이용함으로써 고정밀도의 예측을 실현할 수 있게 되어 효율적인 화상 부호화를 실현할 수 있다.
즉, 본 발명을 이용함으로써 복잡한 형상을 가진 피사체에 대해 정확하게 엣지를 유지한 정확한 예측 화상을 제공함으로써 예측 잔차 부호화에 필요한 부호량을 삭감할 수 있다.
도 1은, 본 발명의 제1 실시형태에 의한 화상 부호화 장치의 구성을 도시한 블록도이다.
도 2는, 제1 실시형태에 의한 화상 부호화 장치의 처리 흐름도이다.
도 3은, 제1 실시형태에 의한 화상 부호화 장치의 다른 구성예를 도시한 블록도이다.
도 4는, 피사체 맵의 예를 도시한 도면이다.
도 5는, 피사체 식별자를 부호화하는 예를 설명하는 도면이다.
도 6은, 트리 구조 피사체 맵의 예를 도시한 도면이다.
도 7은 트리 구조 피사체 맵의 다른 예를 도시한 도면이다.
도 8은, 피사체 맵에 나타난 피사체 식별자에 대한 피사체 화소치만을 부호화할 경우의 처리 흐름도이다.
도 9는, 피사체 화소치를 예측하여 피사체 화소치를 부호화할 경우의 처리 흐름도이다.
도 10은, 제2 실시형태에 의한 화상 복호 장치의 구성을 도시한 블록도이다.
도 11은, 제2 실시형태에 의한 화상 복호 장치의 처리 흐름도이다.
도 12는, 제2 실시형태에 의한 화상 복호 장치의 다른 구성예를 도시한 블록도이다.
도 13은, 복호된 트리 구조 피사체 맵의 예를 도시한 도면이다.
도 14는, 복호된 피사체 맵의 예를 도시한 도면이다.
도 15는, 부호 데이터의 블록별 신택스의 일례를 도시한 도면이다.
도 16a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 1을 도시한 도면이다
도 16b는, 상기 데이터 구조의 예 1의 구체예를 도시한 도면이다.
도 17a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 2를 도시한 도면이다
도 17b는, 상기 데이터 구조의 예 2의 구체예를 도시한 도면이다.
도 18a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 3을 도시한 도면이다
도 18b는, 상기 데이터 구조의 예 3의 구체예를 도시한 도면이다.
도 19a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 4를 도시한 도면이다
도 19b는, 상기 데이터 구조의 예 4의 구체예를 도시한 도면이다.
도 20은, 화상 부호화 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한 도면이다.
도 21은, 화상 복호 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한 도면이다.
도 22a는, 본 수법과 종래 수법을 이용하여 부호화한 경우의 발생 부호량의 비교를 도시한 도면이다.
도 22b는, 본 수법과 종래 수법을 이용하여 부호화한 경우의 화상 품질의 비교를 도시한 도면이다.
도 23은, 본 발명의 과제를 설명하는 도면으로서, 소정의 거리 화상에 대한 수평 예측과 수직 예측의 예이다.
도 24a는, 도 23에 도시한 수평 예측 잔차에 8×8의 이차원 DCT를 곱한 결과를 도시한 도면이다.
도 24b는, 도 23에 도시한 수직 예측 잔차에 8×8의 이차원 DCT를 곱한 결과를 도시한 도면이다.
도 2는, 제1 실시형태에 의한 화상 부호화 장치의 처리 흐름도이다.
도 3은, 제1 실시형태에 의한 화상 부호화 장치의 다른 구성예를 도시한 블록도이다.
도 4는, 피사체 맵의 예를 도시한 도면이다.
도 5는, 피사체 식별자를 부호화하는 예를 설명하는 도면이다.
도 6은, 트리 구조 피사체 맵의 예를 도시한 도면이다.
도 7은 트리 구조 피사체 맵의 다른 예를 도시한 도면이다.
도 8은, 피사체 맵에 나타난 피사체 식별자에 대한 피사체 화소치만을 부호화할 경우의 처리 흐름도이다.
도 9는, 피사체 화소치를 예측하여 피사체 화소치를 부호화할 경우의 처리 흐름도이다.
도 10은, 제2 실시형태에 의한 화상 복호 장치의 구성을 도시한 블록도이다.
도 11은, 제2 실시형태에 의한 화상 복호 장치의 처리 흐름도이다.
도 12는, 제2 실시형태에 의한 화상 복호 장치의 다른 구성예를 도시한 블록도이다.
도 13은, 복호된 트리 구조 피사체 맵의 예를 도시한 도면이다.
도 14는, 복호된 피사체 맵의 예를 도시한 도면이다.
도 15는, 부호 데이터의 블록별 신택스의 일례를 도시한 도면이다.
도 16a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 1을 도시한 도면이다
도 16b는, 상기 데이터 구조의 예 1의 구체예를 도시한 도면이다.
도 17a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 2를 도시한 도면이다
도 17b는, 상기 데이터 구조의 예 2의 구체예를 도시한 도면이다.
도 18a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 3을 도시한 도면이다
도 18b는, 상기 데이터 구조의 예 3의 구체예를 도시한 도면이다.
도 19a는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 4를 도시한 도면이다
도 19b는, 상기 데이터 구조의 예 4의 구체예를 도시한 도면이다.
도 20은, 화상 부호화 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한 도면이다.
도 21은, 화상 복호 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한 도면이다.
도 22a는, 본 수법과 종래 수법을 이용하여 부호화한 경우의 발생 부호량의 비교를 도시한 도면이다.
도 22b는, 본 수법과 종래 수법을 이용하여 부호화한 경우의 화상 품질의 비교를 도시한 도면이다.
도 23은, 본 발명의 과제를 설명하는 도면으로서, 소정의 거리 화상에 대한 수평 예측과 수직 예측의 예이다.
도 24a는, 도 23에 도시한 수평 예측 잔차에 8×8의 이차원 DCT를 곱한 결과를 도시한 도면이다.
도 24b는, 도 23에 도시한 수직 예측 잔차에 8×8의 이차원 DCT를 곱한 결과를 도시한 도면이다.
본 발명에서는, 처리 영역내에 설정된 각 피사체마다 1개의 화소치를 설정하고 처리 영역내의 각 화소에 대해 피사체를 식별하기 위한 정보를 주어 예측 화상을 생성한다. 따라서 임의의 피사체 형상에 대응하여 고정밀도의 예측 화상을 생성할 수 있게 된다. 특히 화소치가 피사체에 따라 크게 다른 경우, 참조처와 예측처의 피사체를 일치시켜 화소별 예측 정밀도를 거의 동등하게 할 수 있게 된다.
또한 화상 전체에서는 다수의 화소치가 존재하더라도 국소적으로는 한정된 수의 화소치밖에 없다고 생각되므로 작은 영역마다 피사체로서의 화소치를 설정함으로써 본 발명에서는 피사체의 국소적인 특징을 이용하여 효율적인 부호화를 실시할 수 있다.
이하, 본 발명의 일실시형태를 도면을 참조하여 설명하기로 한다.
〔제1 실시형태: 화상 부호화 장치〕
우선, 제1 실시형태에 대해 설명하기로 한다.
도 1은, 본 발명의 제1 실시형태에 의한 화상 부호화 장치의 구성을 도시한 블록도이다.
화상 부호화 장치(100)는, 도 1에 도시한 바와 같이 부호화 대상 프레임 입력부(101), 부호화 대상 프레임 메모리(102), 피사체 수 설정부(103), 피사체 화소치 설정부(104), 피사체 화소치 부호화부(105), 피사체 맵 생성부(106), 피사체 맵 부호화부(107), 예측 화상 생성부(108), 화상 신호 부호화부(109) 및 다중화부(110)를 구비하고 있다.
부호화 대상 프레임 입력부(101)는 부호화 대상이 되는 화상 프레임을 입력한다.
부호화 대상 프레임 메모리(102)는 입력된 부호화 대상 프레임을 축적한다.
피사체 수 설정부(103)는 미리 정해진 크기의 처리 영역에 포함되는 피사체 수를 설정한다.
피사체 화소치 설정부(104)는 처리 영역에 주어진 수의 피사체가 존재한다고 가정하고 각 피사체에 대해 1개의 화소치를 설정한다.
피사체 화소치 부호화부(105)는 주어진 피사체별 화소치를 부호화한다. 이하, 어느 영역에 대해 생성된 피사체별 화소치를 피사체 화소치라고 부른다.
피사체 맵 생성부(106)는, 처리 영역내의 각 화소에 촬영되어 있는 피사체를 식별하여 후술하는 피사체 맵을 생성한다.
피사체 맵 부호화부(107)는 생성된 피사체 맵을 부호화한다.
예측 화상 생성부(108)는 처리 영역에 대해 생성된 피사체 화소치와 피사체 맵으로부터 처리 영역에 대한 예측 화상을 생성한다.
화상 신호 부호화부(109)는, 처리 영역마다 예측 화상을 이용하여 부호화 대상 프레임의 화상 신호를 부호화한다.
다중화부(110)는, 피사체 화소치의 부호 데이터와 피사체 맵의 부호 데이터와 부호화 대상 프레임의 화상 신호의 부호 데이터를 다중화하여 출력한다.
도 2는, 제1 실시형태에 의한 화상 부호화 장치(100)의 동작을 설명하기 위한 흐름도이다. 이 흐름도에 따라 화상 부호화 장치(100)가 실행하는 처리에 대해 상세히 설명하기로 한다.
우선, 부호화 대상 프레임 입력부(101)에 의해 부호화 대상 프레임을 입력하고 부호화 대상 프레임 메모리(102)에 저장한다(단계 S101).
부호화 대상 프레임의 저장이 종료되면 부호화 대상 프레임을 분할하고, 분할한 영역마다 부호화 대상 프레임의 화상 신호를 부호화한다(단계들 S102 ~ S112).
즉, 부호화 대상 블록 인덱스를 blk, 총부호화 대상 블록수를 numBlks로 나타낸다면 blk를 0으로 초기화하고(단계 S102), 그 후 blk에 1을 가산하면서(단계 S111), blk가 numBlks가 될 때까지(단계 S112) 이하의 처리(단계들 S103 ~ S110)를 반복한다.
부호화 대상 블록마다 반복되는 처리에서는, 우선 피사체 수 설정부(103)에서 블록 blk에 포함되는 피사체의 수(피사체 수 num0bjs)를 설정한다(단계 S103).
피사체 수는 복호측과 같은 처리라면 어떠한 처리를 이용하여 결정해도 상관없다. 예를 들면 항상 미리 정해진 수를 설정해도 상관없다.
또한 부호화 대상 블록마다 다른 값을 피사체 수로서 설정해도 상관없다. 부호화 대상 블록마다 다른 값을 설정하는 방법으로는, 부호화 대상 블록의 화소치에 따라 피사체 수를 설정하는 방법이 있다.
구체적으로는, 부호화 대상 블록의 화소에 대해 k-means법이나 Affinity Propagation 등의 클러스터링 수법을 이용하여 각 클러스터내의 화소치 분산이 미리 정해진 값 이하가 되는 클러스터링 결과 중 최소 클러스터수를 피사체 수로 하는 방법이 있다. 클러스터링에 이용하는 척도로서는, 화소치만을 이용해도 상관없고, 화소치와 화소 위치로 이루어진 값을 이용해도 상관없다.
다른 방법으로서는, 피사체 수의 후보마다 그 피사체 수를 설정하여 부호화한 경우의 부호량과 왜곡량의 가중 합으로 주어지는 레이트 왜곡 코스트를 계산하고, 그 코스트가 최소가 되는 피사체 수를 설정하는 방법이 있다.
피사체 수가 많아지면 부호화 효율이 저하되는 경우가 있기 때문에 피사체 수의 최대치를 미리 정해 두고 피사체 수가 일정치 이상이 되는 것을 방지해도 상관없다.
아울러 부호화 대상 블록마다 다른 값을 피사체 수로 할 경우, 피사체 수는 부호 데이터를 복호할 때에 필요하기 때문에 설정한 피사체 수를 부호 데이터에 포함시킬 필요가 있다.
도 3은, 피사체 수를 부호화할 경우의 화상 부호화 장치의 블록도이다.
피사체 수를 부호화할 경우에는, 도 1에 도시한 화상 부호화 장치(100)에서의 피사체 수 설정부(103) 뒤에 피사체 수 설정부(103)가 설정한 피사체 수를 부호화하는 피사체 수 부호화부(111)를 추가한다.
피사체 수를 부호화할 경우, 설정한 피사체 수를 그대로 부호화해도 상관없고 부호화 대상 블록에 인접한 이미 부호화 완료된 영역의 정보를 이용하여 예측한 피사체 수와의 차분치를 부호화해도 상관없다.
예측의 방법으로는, 이미 부호화 완료된 인접 블록을 부호화할 때에 이용된 피사체 수의 평균치나 중앙치를 예측치로 하는 방법이 있다.
또한 피사체를 부호화할 경우, 블록마다 부호화하는 것이 아니라 프레임이나 슬라이스로 불리는 복수 블록의 집합마다 피사체 수를 설정·부호화해도 상관없다. 이와 같이 함으로써 피사체 수가 영역에 따라 변화하는 경우에 효율적으로 피사체 수를 부호화할 수 있다.
아울러 프레임 또는 슬라이스 단위의 피사체 수의 설정·부호화와 블록별 피사체 수의 설정·부호화를 조합할 수도 있다.
그 경우, 프레임 또는 슬라이스 단위에서는 그 프레임 또는 슬라이스에 포함되는 복수 블록 대부분에 적합하다고 생각되는 피사체 수를 설정·부호화하고 블록마다 그 피사체 수로부터의 변화량을 설정·부호화한다. 블록마다 설정·부호화하는 변화량은, 인접한 이미 부호화 완료된 영역의 정보를 이용하여 예측하고 변화량의 예측 차분으로서 부호화할 수도 있다.
피사체 수의 설정이 종료되면, 다음으로 피사체 화소치 설정부(104)에서 블록 blk 내의 피사체마다 1개의 화소치를 설정하여 피사체 화소치 Value(i)로 한다(단계 S104).
여기서 i는, 피사체를 식별하기 위한 피사체 식별자로서, 0 이상 numObjs 미만의 정수이다. 또한 피사체 식별자는 미리 정해진 규칙에 따라 할당한다. 여기에서는 피사체 화소치가 작은 순서로 할당되는 것으로 한다.
피사체마다 1개의 화소치를 설정하는 방법으로는 어떠한 방법을 이용해도 상관없다. 예를 들면 화소치의 치역(値域)을 피사체 수만큼의 구간으로 균등하게 구분하고(예를 들면, 화소치 범위가 0 ~ 255이고 피사체 수가 4인 경우 0 ~ 63, 64 ~ 127, 128 ~ 191, 192 ~ 255의 4 개의 구간을 설정함), 각 범위의 중앙치를 설정해도 상관없다.
다른 방법으로는, 블록 blk의 화소를 전술한 바와 같은 클러스터링 수법을 이용하여 numObjs개의 클러스터로 분할하고, 각 클러스터에 포함되는 화소의 화소치의 평균치나 중앙치를 피사체 화소치로 하는 방법이 있다.
아울러 피사체 수를 설정할 때에 블록 blk의 화소를 클러스터링하는 경우에는 피사체 수의 설정과 동시에 피사체 화소치를 설정해도 상관없다.
또 다른 방법으로는, numObjs개 이하의 클러스터 수에서 클러스터 내의 화소치 분산치의 최대치가 별도로 정해진 문턱값보다 작게 되는 최소 클러스터 수로 분할하여 클러스터별 평균치나 중앙치를 피사체 화소치로 설정하고, numObjs개에 부족한 만큼은 적절히 피사체 화소치를 설정하는 방법이 있다.
항상 피사체 수가 일정한 경우, 본래는 단일 오브젝트만 존재하는 경우에도 복수의 피사체가 존재한다고 가정함으로써 과도한 고정밀도의 예측을 제공하여 피사체 맵(블록 blk의 각 화소에 대해 피사체 식별자를 할당한 것)의 부호량이 증대될 가능성이 있다.
그러나 타겟이 되는 비트 레이트에 대해 문턱값을 정하여 numObjs에 의하지 않고 피사체 식별자를 정함으로써 부호량이 지나치게 많아지는 것을 방지할 수 있게 된다.
예를 들면, 타겟 비트 레이트가 (i) 문턱값 A보다 작은 경우에는 설정된 피사체 수와 상관 없이 피사체 맵에는 1 종류의 피사체 식별자만 나타나도록 하고, (ii) 문턱값 A보다 크고 문턱값 B보다 작은 경우에는 피사체 맵에는 피사체 식별자가 2 종류까지 나타나도록 피사체 맵의 생성을 제어할 수 있다.
이러한 조건을 두지 않는 경우, 예를 들면 피사체 수가 비교적 많게(예: 10) 설정된 경우, 후술하는 처리를 그대로 적용하면 피사체 맵의 부호량이 방대해질 가능성도 있다.
피사체 화소치를 얻었으면 다음으로 피사체 맵 생성부(106)에서 블록 blk에 대해 피사체 맵을 생성한다(단계 S105).
피사체 맵은, 예를 들면 도 4와 같은 2차원 정보이다.
각 화소에 대해 피사체 식별자를 할당하는 방법으로는, 각 화소에 대해 그 화소치에 가장 가까운 피사체 화소치를 가진 피사체 식별자를 할당하는 방법이 있다.
또 다른 방법으로 피사체 화소치를 설정할 때에 클러스터링을 실시하는 경우에는, 그 결과를 이용하여 클러스터마다 할당된 피사체 식별자를 그 클러스터에 속한 화소에 대해 설정하는 방법이 있다.
또 다른 방법으로는, 복수의 피사체 맵 후보를 생성하고 피사체 맵 후보별로 그 피사체 맵 후보를 이용하여 부호화했을 때의 부호량과 왜곡량의 가중 합으로 주어지는 레이트 왜곡 코스트를 계산하여 그 값이 최소가 되는 것을 피사체 맵으로서 설정하는 방법이 있다.
가능성이 있는 모든 피사체 맵을 피사체 맵 후보로 해도 좋고, 한정하고자 하는 몇개의 특징적인 피사체 맵만을 피사체 맵 후보로 해도 상관없다.
특징적인 피사체 맵으로는, 각 화소에 대해 그 화소치에 가장 가까운 피사체 화소치를 가진 피사체 식별자를 할당하여 생성한 피사체 맵이나, 모든 화소가 같은 피사체 식별자가 되는 피사체 맵이나, 수평이나 수직으로 2 분할된 피사체 맵 등이 있다.
다음으로, 생성된 피사체 맵을 피사체 맵 부호화부(107)에서 부호화한다(단계 S106).
부호화에는 어떠한 방법을 이용해도 상관없다. 예를 들면 피사체 수에 따라 각 피사체 식별자에 고정장(長) 또는 가변장의 부호를 할당하고 래스터 스캔이나 지그재그 스캔 등을 이용하여 2차원의 맵 정보를 1차원의 바이너리 데이터로 변환함으로써 부호화해도 상관없다.
다른 방법으로서는, 미리 정해진 순서로 스캔하면서 블록 blk 내의 각 화소에 대한 피사체 식별자를 부호화할 때에 각 화소에 대해 주위의 이미 부호화 완료된 화소를 참조 화소로 설정하고, 그 참조 화소에서의 피사체 식별자에 따라 확률 테이블을 변화시키면서 산술 부호화하는 방법이 있다.
예를 들면, 피사체 수가 3일 때 도 5와 같이 부호화 대상 화소(도면중 x)에 대해 3개의 참조 화소를 정의할 경우에는, 참조 화소에서의 피사체 식별자를 조합할 때마다 부호화 대상 화소에서의 피사체 식별자의 확률 테이블을 정의할 수 있다.
즉, 이 경우에는 27가지의 확률 테이블을 이용하여 부호화한다. 이 확률 테이블은 복호측에서 같은 것을 얻을 수 있는 한, 고정된 것이어도 좋고 지금까지의 부호화 이력에 따라 갱신하는 가변의 확률 테이블이어도 상관없다.
일반적으로 같은 피사체는 연속 출현하기 때문에 이와 같이 (주변 화소에 의한) 주변의 상황을 이용함으로써 부호화 대상 심볼의 발생 확률을 보다 고정밀도로 표현할 수 있게 되어 산술 부호화시에 부호화 효율을 향상시킬 수 있게 된다.
아울러 보다 광범위한 주변 화소의 정보를 이용함으로써 발생 확률을 보다 고정밀도로 예측할 수 있게 된다.
아울러 참조 화소의 설정 방법에 따라서는, 화면단에서 일부 참조 화소가 존재하지 않는 경우나, H.264/AVC와 같이 블록마다 다른 예측 모드로 절환하여 이용할 때 참조 화소에서 피사체 식별자가 존재하지 않는 경우가 있다.
그러한 화소에 대해서는 미리 정해진 피사체 식별자를 할당하거나, 별도로 불분명한 라벨을 할당하여 다른 확률 테이블을 정의함으로써 상기와 같은 경우를 고려하여 피사체 맵의 산술 부호화의 부호화 효율을 향상시킬 수 있다.
또 다른 방법으로 피사체 맵을 트리 구조의 정보로 변환한 후 부호화하는 방법이 있다. 구체적으로는, 블록 blk를 루트로 하고 각 노드의 자식 노드에는 부모 노드(루트)의 블록을 분할한 복수의 서브 블록을 대응시킨 트리 구조를 이용한다. 이러한 트리 구조를 이용함으로써 통합되어 존재하는 단일 오브젝트의 화소 집합을 효율적으로 표현할 수 있게 되어 부호화 효율을 향상시킬 수 있게 된다.
트리 구조로는, 임의로 정의한 것을 이용할 수 있다.
예를 들면, 각 노드에 대해 그 노드에 대응하는 블록내의 모든 화소의 피사체 식별자가 같은지 여부를 나타내는 바이너리 정보를 부가하고, 자식 노드로서 피사체 식별자가 모두 같은 경우에는 그 피사체 식별자의 번호를 가진 리프, 피사체 식별자가 모두 같지 않은 경우에는 자신의 블록을 4 분할하여 생성한 서브 블록에 대응하는 4개의 노드를 정의하여 트리 구조의 정보를 생성할 수 있다.
아울러 대응하는 블록이 1 화소가 된 경우에는, 모든 화소의 피사체 식별자가 같은지 여부를 나타내는 바이너리 정보의 노드를 생략할 수 있다.
도 4의 피사체 맵에 대해 이상의 방법에 의해 생성한 트리 구조를 도 6에 도시한다.
도 6에서는, 각 노드에 대해 그 노드에 대응하는 블록내 모든 화소의 피사체 식별자가 같은 경우에는 바이너리 정보의 「1」, 그렇지 않은 경우는 바이너리 정보의 「0」을 부가하였다.
다른 정의로서는, 각 노드에 대해 그 노드에 대응하는 블록내 모든 화소의 피사체 식별자가 동일한 경우에는 그 피사체 식별자의 번호에 1을 더한 수, 그렇지 않은 경우에는 0을 정보로서 부여하고 정보 0이 부여된 노드에 대해서만 그 블록을 4 분할한 서브 블록에 대한 자식 노드를 정의하는 방법도 있다.
도 4의 피사체 맵에 대해 이 방법으로 생성한 트리 구조가 도 7이다.
생성된 트리를 부호화할 때 트리를 깊이 우선 탐색 또는 폭 우선 탐색하여 스캔하고 스캔 순서대로 각 노드가 가진 정보를 부호화한다.
깊이 우선 탐색은, 탐색 대상이 되는 트리의 최초의 노드에서 목적의 노드가 발견되거나 자식이 없는 노드에 도착할 때까지 깊게 연장되고, 그 후에는 가장 가까운 탐색이 끝나지 않은 노드까지 되돌아오는 탐색이다.
한편 폭 우선 탐색은, 깊이가 얕은 점(정점에서부터 더듬어 찾는 노드의 수가 적은 점)부터 순서대로인, 또한 좌측에 있는 정점부터 순서대로인 규칙을 가진 탐색이다.
아울러 리프와 리프 이외를 구분하여 부호화할 수도 있다.
도 6을 트리의 깊이 우선 탐색에 의해 스캔한 결과의 수열(數列)은 01001000222110221201011000011111이 된다.
이것을 리프와 기타로 나누면, 리프는 0002221221201000111, 리프 이외는 0101010011011이 된다.
도 7을 트리의 깊이 우선 탐색에 의해 스캔한 결과의 수열은 0101013332033230120111222가 된다.
수열은 그대로 2 치화하여 부호 데이터로 해도 좋고, 인접 화소에서의 피사체 식별자의 상황에 따라 확률 테이블을 절환하면서 산술 부호화해도 상관없다.
예를 들면, 도 6의 리프 이외를 부호화할 경우, 각 노드에 대응하는 블록에 인접한 화소의 피사체 식별자를 조사하여 가장 화소수가 많은 피사체 식별자에 대한 화소수에 따라 확률 테이블을 절환하는 방법이 있다.
또한 도 6의 리프를 부호화할 경우에는, 각 노드에 대응하는 블록에 인접한 화소의 피사체 식별자의 상황에 따라 확률 테이블을 절환하는 방법이 있다.
아울러 확률 테이블은 복호측에서 같은 것을 얻을 수 있는 한, 고정의 것이어도 좋고, 지금까지의 부호화 이력에 따라 갱신하는 가변의 확률 테이블이어도 상관없다.
피사체 맵의 부호화가 종료되면, 다음으로 피사체 화소치 부호화부(105)에서 피사체 식별자마다 피사체 화소치를 부호화한다(단계 S107).
피사체 화소치를 그대로 부호화해도 상관없고, 인접 블록에서의 피사체 화소치나 이미 부호화된 같은 블록의 피사체 화소치를 이용하여 예측하고 예측 잔차만을 부호화해도 상관없다.
인접 블록으로부터 예측하는 방법으로는, 같은 피사체 식별자의 인접 블록의 피사체 화소치의 평균치나 중앙치를 예측치로 하는 방법이 있다.
이미 부호화된 같은 블록의 피사체 화소치를 이용하여 예측하는 방법으로는, 피사체 화소치가 작은 순서대로 부호화할 경우, 직전에 부호화된 피사체 화소치에 1을 더한 값을 예측치로 하는 방법이나, 직전에 부호화된 피사체 화소치와 나머지 부호화에 필요한 피사체 화소치의 수를 이용하여 예측치를 생성하는 방법이 있다.
이 마지막 방법은, 직전에 부호화된 피사체 화소치에 1을 더한 값을 최소치, 취할 수 있는 화소치의 최대 값을 최대치로 한 범위를, 나머지 부호화가 필요한 피사체 화소치 수와 거의 같은 크기를 가진 부분 범위로 분할하고, 그 중에서 최소치를 포함한 부분 범위에서의 중앙치를 예측치로 하는 방법이다.
예를 들면, 직전에 피사체 화소치로서 51을 부호화하고 나머지 피사체 화소치의 수가 3개인 경우 [52, 255]를 같은 크기를 가진 3부분 범위로 분할함으로써 [52, 119], [120, 187], [188, 255]를 얻어 최소치를 포함한 [52, 119] 범위의 중앙치 85를 예측치로 한다.
완전히 동일한 크기의 부분 범위가 되지 않는 경우에는, 미리 정해진 규칙에 따라 정수를 양단에 가진 부분 범위를 생성해도 좋고, 소수 등을 이용하여 표현해도 상관없다. 아울러 예측치는 정수일 필요가 있기 때문에 중앙치를 요구할 때에는 끝수를 잘라 버리거나 사사오입을 한다.
또한 범위를 분할할 때 사전 지식을 이용하여 등간격 이외의 일정한 규칙에 따른 분할을 해도 상관없다. 예를 들면 부분 범위의 크기가 N, 2N, 3N,…으로 커지게 되도록 분할하는 방법이나, N, N/2, N/3,…으로 작아지게 되도록 분할하는 방법이 있다.
또한 인접 블록으로부터 예측하는 방법과 이미 부호화된 같은 블록의 피사체 화소치를 이용하여 예측하는 방법을 조합하여 예측하는 방법도 있다.
예를 들면, 최초의 피사체 화소치를 부호화할 경우에는 인접 블록으로부터 예측하고, 그 이외의 피사체 화소치를 부호화할 경우에는 같은 블록에서 직전에 부호화된 피사체 화소치를 이용하여 예측하는 방법이 있다.
다른 방법으로는, 같은 블록에서 직전에 부호화된 피사체 화소치와 인접 블록으로부터 예측한 값을 비교하여 그 비교 결과에 따라 예측치를 결정하는 방법이 있다.
또 다른 방법으로는, 어느 예측 방법을 이용했는지를 나타내는 정보를 별도로 부호화하여 예측 방법을 절환하는 방법이 있다.
아울러 피사체 화소치를 부호화할 때에 피사체 맵에 나타난 피사체 식별자에 대한 피사체 화소치만을 부호화하도록 해도 상관없다. 그 경우의 상세한 처리 흐름을 도 8에 도시한다.
이 흐름에서는, 피사체 식별자(obj)를 0으로 초기화하고(단계 S121), 피사체 식별자마다 그 피사체 식별자가 피사체 맵에서 사용되는지 여부를 체크한다(단계 S122).
사용되는 경우에는 그 피사체 식별자에 대한 피사체 화소치를 부호화하고(단계 S123), 다음 피사체 식별자로 진행한다(단계 S124). 한편 사용되지 않는 경우에는 부호화를 수행하지 않고 곧바로 다음 피사체 식별자로 진행한다(단계 S124).
이상의 처리를 모든 피사체 식별자에 대해 반복했으면 처리를 종료한다(단계 S125).
도 9는, 피사체 화소치를 예측하는 경우의 흐름도이다.
도 8과의 차이는, 피사체 식별자가 피사체 맵에서 사용되는 경우에 그 피사체 식별자에 대한 피사체 화소치의 예측치를 생성하여(단계 S133), 그 예측치와 피사체 화소치와의 차분치를 부호화하는(단계 S134) 것이다.
어느 피사체 식별자가 피사체 맵에서 사용되는지 여부를 체크하는 방법으로는 임의의 방법을 이용해도 상관없다.
예를 들면, 피사체 맵을 생성·부호화했을 때 등 도 8이나 도 9의 흐름에 들어가기 전에 각 피사체 식별자가 사용되는지 여부를 나타내는 플래그를 생성해 두고 체크시에는 그 플래그를 체크함으로써 판정하는 방법이 있다.
이와 같이 피사체 맵을 체크하여 피사체 화소치의 부호화 실행을 제어함으로써 사용되지 않는 정보를 부호화할 때 필요한 부호량을 삭감할 수 있다.
예를 들면 블록 blk의 화상 신호에 의하지 않고 항상 일정한 피사체 수를 설정하는 경우 등 피사체 화소치의 설정 방법이나 피사체 맵의 생성 방법에 의해 사용하지 않는 피사체 식별자가 생기기 때문에 이와 같이 사용하지 않는 피사체 식별자에 대한 피사체 화소치의 부호화를 생략함으로써 부호량을 줄일 수 있게 된다.
또한 상기 설명에서는, 피사체 화소치나 피사체 화소치의 예측 잔차는 그대로 부호화하였으나, 부호량이나 품질의 타겟에 대해 설정된 양자화 파라미터를 이용하여 양자화된 값을 부호화해도 상관없다. 그 경우, 예측치를 생성할 때에는 양자화·역양자화를 거쳐 복호에 의해 얻어지는 값을 참조할 필요가 있다.
다음으로, 피사체 맵과 피사체 화소치를 이용하여 예측 화상 생성부(108)에서 블록 blk에 대한 예측 화상을 생성한다(단계 S108).
구체적으로는, 각 화소에 대해 피사체 맵으로부터 얻어지는 피사체 식별자에 대응하는 피사체 화소치를 할당함으로써 예측 화상을 생성한다. 아울러 피사체 화소치가 양자화되어 부호화되는 경우에는, 양자화·역양자화하여 복호측에서 얻어지는 값을 이용하여 예측 화상을 생성할 필요가 있다.
아울러 상기와 같이 만들어진 예측 화상에 대해 디서를 부가적으로 가해도 상관없다.
피사체 맵과 피사체 화소치를 이용한 예측 화상에서는 피사체 수와 같은 수의 화소치만 존재하기 때문에 자연 화상과는 다른 성질을 가진 화상이 된다. 따라서 디서를 가함(존재하는 화소치를 조합하여 전체 화상 중에서 중간의 화소치를 표현함)으로써 자연 화상에 가까운 변화를 줄 수 있다.
디서 생성에는 임의의 방법을 이용할 수 있는데, 복호측에서 같은 것을 발생할 수 있도록 할 필요가 있다. 따라서 복수의 디서 생성법을 절환하거나 디서 생성법에 초기값 등의 파라미터가 필요한 경우에는 그러한 정보를 부호화할 필요가 있다.
예측 화상이 얻어지면 화상 신호 부호화부(109)에서 블록 blk에 대한 화상 신호를 예측 부호화한다(단계 S109).
부호화에는 어떠한 방법을 이용해도 상관없다. MPEG-2나 H.264/AVC 등 일반적인 부호화에서는 블록 blk의 화상 신호와 예측 화상의 차분 신호에 대해 DCT 등의 주파수 변환, 양자화, 2 치화, 엔트로피 부호화를 순서대로 실시함으로써 부호화한다.
마지막으로, 다중화부(110)에서 피사체 맵의 부호 데이터와, 피사체 화소치의 부호 데이터와, 화상 신호의 부호 데이터를 다중화하여 출력한다(단계 S110). 피사체 수를 부호화할 때에는 피사체 수에 대한 부호 데이터도 부호화한다.
아울러 여기에서는 블록마다 다중화되어 있는데, 프레임 단위로 다중화해도 상관없다. 단, 그 경우에는 복호시에 1 프레임분의 부호 데이터를 버퍼링한 후 복호할 필요가 발생한다.
특수한 상황으로서 피사체 수가 1인 경우, 피사체 맵은 한가지밖에 존재하지 않기 때문에 피사체 맵 설정 단계는 그 유일한 피사체 맵 후보를 설정하기만 하면 되고 피사체 맵을 부호화할 필요는 없다.
〔제2 실시형태: 화상 복호 장치〕
다음으로, 본 발명의 제2 실시형태에 대해 설명하기로 한다.
도 10은, 제2 실시형태에 의한 화상 복호 장치의 구성을 도시한 블록도이다.
화상 복호 장치(200)는, 도 10에 도시한 바와 같이 부호 데이터 입력부(201), 부호 데이터 메모리(202), 분리부(203), 피사체 수 설정부(204), 피사체 맵 복호부(205), 피사체 화소치 복호부(206), 예측 화상 생성부(207) 및 화상 신호 복호부(208)를 구비한다.
부호 데이터 입력부(201)는, 복호 대상이 되는 화상 프레임의 부호 데이터를 입력한다.
부호 데이터 메모리(202)는, 입력된 부호 데이터를 축적한다.
분리부(203)는, 다중화된 부호 데이터를 복수의 다른 정보가 부호화되는 부호 데이터로 분리한다.
피사체 수 설정부(204)는, 미리 정해진 크기의 처리 영역에 포함되는 피사체 수를 설정한다.
피사체 맵 복호부(205)는, 부호 데이터로부터 피사체 맵을 복호한다.
피사체 화소치 복호부(206)는, 부호 데이터로부터 피사체마다 피사체 화소치를 복호한다.
예측 화상 생성부(207)는, 처리 영역에 대해 복호된 피사체 화소치와 피사체 맵으로부터 처리 영역에 대한 예측 화상을 생성한다.
화상 신호 복호부(208)는, 처리 영역마다 예측 화상을 이용하여 부호 데이터로부터 복호 대상 프레임의 화상 신호를 복호한다.
도 11은, 제2 실시형태에 의한 화상 복호 장치(200)의 동작을 설명하기 위한 흐름도이다. 이 흐름도에 따라 화상 복호 장치(200)가 실행하는 처리에 대해 상세히 설명하기로 한다.
우선 부호 데이터 입력부(201)는 복호 대상 프레임에 대한 부호 데이터를 입력하여 부호 데이터 메모리(202)에 저장한다(단계 S201).
부호 데이터의 저장이 종료되면, 복호 대상 프레임을 분할하고 분할한 영역마다 복호 대상 프레임의 화상 신호를 복호한다(단계들 S202 ~ S210).
즉, 복호 대상 블록 인덱스를 blk, 총 복호 대상 블록수를 numBlks로 나타낸다면, blk를 0으로 초기화하고(단계 S202), 그 후 blk에 1을 가산하면서(단계 S209) blk가 numBlks가 될 때까지(단계 S210) 이하의 처리(단계들 S203 ~ S208)를 반복한다.
복호 대상 블록마다 반복되는 처리에서는, 우선 분리부(203)에서, 입력된 부호 데이터를 복수 정보의 부호 데이터로 분리한다(단계 S203).
제2 실시형태에서는, 복수 정보의 부호 데이터가 블록 단위로 인터리브되는(블록마다 각 정보의 부호 데이터가 순서대로 기억되는) 예로 설명하였으나, 프레임 등 다른 단위로 인터리브되는 경우에는 이 부호 데이터의 분리를 블록 단위로 반복할 필요는 없다.
부호 데이터의 분리가 종료되면, 다음으로 피사체 수 설정부(204)에서 블록 blk에 포함되는 피사체의 수 numObjs를 설정한다(단계 S204).
피사체 수의 설정은, 부호화측과 같은 처리를 이용하여 실시한다. 예를 들면 부호화측에서 항상 미리 정해진 수를 설정하는 경우에는 여기에서도 같은 수를 설정한다.
다른 예로서는, 블록마다 다른 피사체 수를 설정하기 위해 피사체 수가 부호화되어 부호 데이터에 포함되는 경우에는, 피사체 수 설정부(204)는 피사체 수의 부호 데이터를 받아 복호한 결과의 값을 피사체 수로서 설정한다.
아울러 피사체 수를 설정하지 않도록 할 수도 있으며, 이 경우에도 이하에 설명하는 바와 같이 피사체 맵을 복호하여 거기에 나타나는 피사체 식별자마다 피사체 화소치를 복호하면 문제 없이 화상을 복호할 수 있다.
피사체 수를 설정할 경우에는 피사체 식별자의 최대치를 알고 있기 때문에 피사체 맵을 적은 부호량으로 복호(표현)할 수 있게 된다.
도 12는, 피사체 수가 부호화되는 경우의 화상 복호 장치의 블록도이다.
피사체 수가 부호화되는 경우에는, 도 12에 도시한 바와 같이 피사체 수 설정부(204')는, 분리부(203)에서 분리된 피사체 수의 부호 데이터를 받아 그것을 복호하여 피사체 수를 취득한다.
아울러 부호화시에 블록 blk에 인접한 이미 처리 완료된 블록을 부호화할 때에 이용한 피사체 수의 평균치 또는 중앙치를 예측치로 하여 블록 blk의 피사체 수가 예측 부호화되는 경우에는, 같은 방법으로 예측치를 생성하고 그 값에 부호 데이터로부터 복호된 값을 더한 것을 피사체 수로서 설정한다.
또한 블록마다가 아닌, 프레임이나 슬라이스로 불리는 복수 블록의 집합마다 피사체 수가 부호화되는 경우도 있다. 그러한 경우에는 프레임이나 슬라이스 단위로 한번만 피사체 수 부호 데이터를 복호하고, 그 결과를 일시적으로 축적함으로써 다음 갱신 타이밍까지 반복하여 같은 값을 설정한다.
또한 프레임 또는 슬라이스 단위로 글로벌한 피사체 수가 부호화되어 블록마다 거기부터의 변화량이 부호화되는 경우도 있다. 그러한 경우에는 프레임이나 슬라이스 단위로 한번만 글로벌 피사체 수 부호 데이터를 복호하여 그 결과를 일시적으로 축적하고 그 값에 블록마다 복호되는 변화량의 값을 더하여 그 블록에서 이용하는 피사체 수를 얻는다.
또한 그 변화량이 인접한 블록으로부터 예측되는 경우에는, 블록마다 피사체 변화량 예측 차분을 복호하고 그 값에 글로벌 피사체 수와 인접 블록으로부터의 변화량 예측치를 더함으로써 그 블록에서 이용하는 피사체 수를 얻는다.
피사체 수의 설정이 종료되면, 다음으로 피사체 맵 복호부(205)에서, 분리된 부호 데이터로부터 피사체 맵을 복호한다(단계 S205).
여기서 피사체 맵이란, 전술한 바와 같이 블록 blk의 각 화소에 대해 피사체 식별자를 할당한 것이다. 예를 들면, 도 4와 같은 2차원 정보이다. 피사체 맵의 복호는 부호화시에 이용된 방법에 따라 다르다.
예를 들면, 피사체 수에 따라 각 피사체 식별자에 고정장 또는 가변장의 부호를 할당하고 래스터 스캔이나 지그재그 스캔 등을 이용하여 2차원의 맵 정보를 1차원 바이너리 데이터로 변환함으로써 부호화하는 경우가 있다.
그 경우에는, 부호 데이터로서 주어진 1차원의 바이너리 데이터를 순서대로 주사하여 대응하는 피사체 식별자가 발견될 때마다 래스터 스캔이나 지그재그 스캔 등 부호화시와 같은 순서대로 화소마다 피사체 식별자를 할당함으로써 복호를 수행한다.
다른 방법으로서 미리 정해진 순서로 스캔하면서 블록 blk 내의 각 화소에 대한 피사체 식별자를 부호화할 때에 각 화소에 대해 주위의 이미 부호화 완료된 화소를 참조 화소로 설정하고 그 참조 화소에서의 피사체 식별자에 따라 확률 테이블을 변화시키면서 산술 부호화를 수행하는 경우가 있다.
그러한 경우에는 사용된 스캔 순서와 같은 순서로 화소마다 주위의 이미 복호 완료된 화소를 참조 화소로 설정하고 그 화소에서의 피사체 식별자에 따라 확률 테이블을 변화시키면서 산술 복호를 수행한다.
확률 테이블의 수나 초기치, 갱신 방법, 설정 방법은 부호화시와 같은 수법을 이용함으로써 올바르게 복호할 수 있다.
아울러 참조 화소의 설정 방법에 따라서는 화면단에서 일부의 참조 화소가 존재하지 않는 경우나, H.264/AVC와 같이 블록마다 다른 예측 모드를 절환하여 이용할 때에 참조 화소에서 피사체 식별자가 존재하지 않는 경우가 있다.
그러한 화소에 대해서는, 부호화시와 같은 방법으로 미리 정해진 피사체 식별자를 할당하거나 별도로 불분명한 라벨을 할당하여 다른 확률 테이블을 정의함으로써 상기와 같은 경우를 고려하여 효율적으로 부호화된 피사체 맵의 부호 데이터를 올바르게 복호할 수 있다.
또 다른 방법으로 트리 구조의 데이터를 이용하여 피사체 맵이 부호화되는 경우가 있다. 그 경우도 부호화시의 방법에 대응한 방법을 이용함으로써 부호 데이터로부터 피사체 맵을 복호할 수 있다.
주어진 부호 데이터로부터 트리 구조의 데이터를 통해 피사체 맵을 복호하는 처리에서는, 우선 부호 데이터의 바이너리열에서 트리 구조의 데이터를 나타내는 수열을 복호한다. 바이너리열에서 트리 구조 데이터 수열의 복호에는, 부호화시에 이용된 방법에 대응한 방법을 이용할 필요가 있다.
예를 들면, 가변 확률 테이블을 이용한 산술 부호화가 이루어지는 경우에는, 부호화시와 같은 방법으로 확률 테이블을 갱신하면서 부호 데이터로부터 비압축의 바이너리열을 복호한다. 비압축의 바이너리열은, 부호화시에 이용한 것과 같은 고정장 또는 가변장의 테이블을 참조하여 역변환을 실시하여 부호화 전의 수열을 복호한다.
트리 구조 데이터를 나타내는 수열을 복호할 수 있다면 그 수열을 해독하여 트리 구조의 데이터를 구축한다. 여기에서는 부호화시에 트리 구조로부터 수열을 생성한 것과 반대로 변환할 필요가 있다.
아울러 트리 구조의 정의도 부호화측과 공유할 필요가 있다. 예를 들면, 블록 blk를 루트로 하여 각 노드는 0 ∼ numObjs의 숫자를 가지고, 0이 할당되어 있는 노드는 4개의 자식 노드를 가진 트리 구조가 정의되어 트리를 깊이 우선 탐색으로 스캔하여 수열을 생성하는 경우, 수열 0100133332O33231020232222가 주어진 경우에는 도 13과 같은 트리가 복원된다.
트리 구조 데이터가 얻어졌으면 그로부터 피사체 맵을 복원한다. 이 복원에는, 부호화측과 트리 구조의 정의를 공유할 필요가 있으며, 그 정의를 이용하여 복원을 수행한다.
예를 들면, 트리의 루트는 블록 blk 전체를 나타내며, 자식 노드는 부모 노드를 종횡 2 등분하여 생기는 4개의 서브 블록(래스터 스캔 순서)에 대응하며, 각 노드에 할당된 0 이외의 숫자에서 1을 뺀 수가, 대응하는 블록에 포함되는 모든 화소에 대한 피사체 식별자를 나타내는 경우, 도 13의 트리에서는 도 14의 피사체 맵을 복호할 수 있다.
아울러 여기에서 나타낸 트리 구조나 수열의 정의 등은 일례이며, 부호화측과 정의를 공유할 수 있다면 어떠한 방법을 이용해도 상관없다.
피사체 맵의 복호가 종료되면, 다음으로 피사체 화소치 복호부(206)에서, 분리된 부호 데이터로부터 피사체 식별자마다 피사체 화소치를 복호한다(단계 S206).
피사체 식별자별 피사체 화소치의 복호는, 부호화시에 이용된 방법에 따라 다르다. 이하에서는, 간단하게 하기 위해 피사체 식별자가 작은 순서대로 피사체 화소치가 부호화되는 것으로 한다.
예를 들면, 피사체 화소치가 그대로 부호화되는 경우에는 복호하여 얻어지는 값을 순서대로 피사체 식별자에 할당한다.
또한 인접 블록에서의 피사체 화소치나, 이미 복호된 같은 블록의 피사체 화소치를 이용하여 예측을 하고, 예측 잔차만이 부호화되는 경우에는 생성한 예측치에 대해 부호 데이터에서 복호되는 값을 더한 값을 피사체 화소치로서 순서대로 피사체 식별자에 할당한다.
예측치의 생성에는 부호화시와 같은 방법을 이용할 필요가 있다.
예를 들면, 인접 블록으로부터 예측하는 방법으로는, 같은 피사체 식별자의 인접 블록의 피사체 화소치의 평균치나 중앙치를 예측치로 하는 방법이 있다.
이미 복호된 같은 블록의 피사체 화소치를 이용하여 예측하는 방법으로는, 피사체 화소치가 작은 순서대로 복호되는 경우, 직전에 복호된 피사체 화소치에 1을 더한 값을 예측치로 하는 방법이나, 직전에 복호된 피사체 화소치와 나머지 복호가 필요한 피사체 화소치의 수를 이용하여 예측치를 생성하는 방법이 있다.
직전에 복호된 피사체 화소치와 나머지 복호가 필요한 피사체 화소치의 수를 이용하여 예측치를 생성하는 방법의 구체예로서는, 다음과 같은 것이 있다.
우선, 직전에 복호된 피사체 화소치에 1을 더한 값을 최소치, 취할 수 있는 화소치의 최대 값을 최대치로 한 범위를, 나머지 복호가 필요한 피사체 화소치의 수와 거의 같은 크기를 가진 부분 범위로 분할한다. 그리고 그 중에서 최소치를 포함한 부분 범위에서의 중앙치를 예측치로 한다.
예를 들면, 직전에 피사체 화소치로서 51을 복호하고 나머지 피사체 화소치의 수가 3개인 경우, [52, 255]를 같은 크기를 가진 3개의 부분 범위로 분할함으로써 [52, 119], [120, 187], [188, 255]를 얻어 최소치를 포함한 [52, 119] 범위의 중앙치 85를 예측치로 한다.
완전히 같은 크기의 부분 범위가 되지 않는 경우에는, 미리 정해진 규칙에 따라 정수를 양단에 가진 부분 범위를 생성해도 상관없고, 소수 등을 이용하여 표현해도 상관없다. 예를 들면 부분 범위의 크기가 N, 2N, 3N,…으로 커지게 되도록 분할하는 방법이나, N, N/2, N/3,…으로 작아지게 되도록 분할하는 방법이 있다.
올바르게 복호하기 위해서는, 분할의 규칙은 부호화시에 이용한 것과 같은 것일 필요가 있다.
또한 인접 블록으로부터 예측하는 방법과 이미 복호된 같은 블록의 피사체 화소치를 이용하여 예측하는 방법을 조합하여 예측하는 방법도 있다.
예를 들면, 최초의 피사체 화소치를 복호하는 경우에는 인접 블록으로부터 예측하고, 기타 피사체 화소치를 복호하는 경우에는 같은 블록에서 직전에 복호된 피사체 화소치를 이용하여 예측하는 방법이 있다.
다른 방법으로는, 같은 블록에서 직전에 복호된 피사체 화소치와 인접 블록으로부터 예측한 값을 비교하여, 그 비교 결과에 따라 예측치를 결정하는 방법이 있다.
또 다른 방법으로는, 어느 예측 방법을 이용했는지를 나타내는 정보를 별도로 부호화하여 예측 방법을 절환하는 경우가 있다. 그 경우에는, 예측 수법을 나타내는 정보를 복호한 후에 그 결과에 따라 예측치를 생성하게 된다.
아울러 피사체 맵에 나타난 피사체 식별자에 대한 피사체 화소치만 부호화되는 경우가 있다. 그러한 경우, 피사체 맵의 결과로부터 결번이 되는 피사체 식별자를 판정하여 그 피사체 식별자는 건너뛰고 복호 순서대로 피사체 화소치를 할당한다.
또한 상기의 설명에서는 피사체 화소치나 피사체 화소치의 예측 잔차는 그대로 부호화된다고 설명하였으나, 부호량이나 품질의 타겟에 대해 설정된 양자화 파라미터를 이용하여 양자화한 값이 부호화되는 경우가 있다.
그러한 경우에는, 복호하여 얻어진 값을 역양자화함으로써 피사체 화소치의 복호치를 얻는다.
피사체 화소치의 복호가 종료되면, 다음으로 예측 화상 생성부(207)에서, 블록 blk에 대한 예측 화상을 생성한다(단계 S207).
구체적으로는, 각 화소에 대해 피사체 맵으로부터 얻어지는 피사체 식별자에 대응하는 피사체 화소치를 할당함으로써 예측 화상을 생성한다.
아울러 상기와 같이 만들어진 예측 화상에 대해 디서를 부가적으로 가해도 상관없다.
피사체 맵과 피사체 화소치를 이용한 예측 화상에서는, 피사체 수와 같은 수의 화소치만 존재하기 때문에 자연 화상과는 다른 성질을 가진 화상이 된다. 따라서 디서를 가함으로써 자연 화상에 더욱 가까운 변화를 줄 수 있다.
디서 생성에는 임의의 방법을 이용할 수 있는데, 부호화측과 같은 수법을 이용할 필요가 있다. 아울러 부호 데이터에 디서 생성 장치의 초기화 등에 필요한 파라미터가 포함되어 있는 경우에는 그것을 복호하여 이용한다.
예측 화상이 얻어졌으면 화상 신호 복호부(208)에서 블록 blk에 대한 화상 신호를 복호한다(단계 S208).
화상 신호의 복호는 부호화시에 이용된 방법에 따라 다르다. 예를 들면 MPEG-2나 H.264/AVC 등 일반적인 부호화가 이용되는 경우에는, 부호 데이터에 대해 엔트로피 복호, 역 2 치화, 역양자화, IDCT 등의 주파수 역변환을 실시함으로써 예측 잔차를 복호하고 그 결과에 예측 화상을 더함으로써 블록 blk의 화상 신호를 복원한다.
특수한 상황으로서 피사체 수가 1인 경우, 피사체 맵은 1 가지밖에 존재하지 않기 때문에, 그 블록에 대한 피사체 맵을 부호화하지 않음으로써 부호량을 삭감하는 경우가 있다. 그러한 경우에는 피사체 맵 부호 데이터를 복호하지 않고 그 유일한 피사체 맵 후보를 그 블록에 대한 피사체 맵으로서 설정하기만 하면 된다. 아울러 피사체 수가 1인 경우에 피사체 맵을 복호할지 여부는 부호화시의 처리에 맞출 필요가 있다.
도 15에, 상술한 제1 실시형태에서 생성되는 부호 데이터 및 제2 실시형태에서 입력되는 부호 데이터의 블록별 신택스의 일례를 도시한다.
여기서 num_objects는 피사체 수, map_object는 피사체 맵, exist(i,j)는 피사체 맵 j 내에 피사체 식별자 i가 존재할 경우에 TRUE, 그렇지 않은 경우에 FALSE를 되돌려주는 함수, residual_value_object[i]는 피사체 식별자가 i인 피사체 화소치의 예측 잔차, residuals는 화상 신호의 예측 잔차를 나타낸다.
다음으로, 본 실시형태에서 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예를 설명하기로 한다.
[부가 정보의 데이터 구조의 예 1]
도 16a 및 도 16b는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 1을 도시한 도면들이다.
부호화/복호 대상의 화상 신호의 예측을 위해, 도 16a에 도시한 바와 같이 피사체 수와 피사체 맵과 각 피사체 식별자별 피사체 화소치가 설정된다.
피사체 수 N은 정수이다. 피사체 맵은, 블록 내의 화소수와 같은 길이의 0 ~ N-1의 정수열이다. 피사체 화소치는, 예측이 없는 경우에 부호 없는 정수이며, 예측이 있는 경우에 부호 있는 정수(음의 수를 고려함)이다.
도 16b는, 부가 정보의 구체예를 보여준다. 피사체 수는 4인데, 피사체 맵에는 피사체 식별자가 2인 화소가 1개도 없다. 따라서 피사체 식별자 2에 대응하는 피사체 화소치의 데이터는 생략되었다.
[부가 정보의 데이터 구조의 예 2]
도 17a 및 도 17b는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 2를 도시한 도면들이다.
이 예에서는, 피사체 맵 전에 단일 피사체 블록 식별 정보가 부가되어 있다. 단일 피사체 블록 식별 정보는 0 ~ N의 정수이며, 블록 내가 단일 피사체인 경우, 즉 블록 내의 전체 화소가 같은 피사체 식별자인 경우 1 ~ N의 값이며, 복수의 피사체를 포함한 경우에는 0이다.
단일 피사체 블록 식별 정보가 0인 경우, 이후의 피사체 맵 및 피사체 화소치의 데이터는 전술한 데이터 구조의 예 1과 같다.
단일 피사체 블록 식별 정보가 1 ~ N인 경우, 이 수를 마이너스 1 한 수가 피사체 식별자이다. 다시 말하면, 블록 내의 피사체 식별자가 모두 같은 경우에는 그 피사체 식별자에 1을 가산한 값이 단일 피사체 블록 식별 정보로서 부가 정보에 설정된다.
도 17b는, 부가 정보의 구체예를 도시한다. 이 예에서는, 피사체 수는 2인데, 단일 피사체 블록이므로 피사체 맵의 데이터는 없다. 또한 단일 피사체 식별자는 1 - 1 = 0이 되므로, 그 피사체 화소치「31」만 설정되고 그 이외(피사체 식별자 = 1)의 피사체 화소치는 없다.
[부가 정보의 데이터 구조의 예 3]
도 18a 및 도 18b는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 3을 도시한 도면들이다.
이 예에서는, 피사체 맵을 트리 구조 형식으로 유지한다. 이 트리 구조 피사체 맵은, 피사체 맵을 트리 구조로 표현하고 각 노드의 값을 미리 정해진 순서대로 스캔한 것으로서, 가변장의 정수열이다.
도 18b는, 부가 정보의 구체예를 도시한다. 이 예에서는 피사체 수는 3이며, 트리 구조 피사체 맵은, 도 7에서 설명한 피사체 맵 형식으로 유지되어 있다. 또한 피사체 화소치는 예측이 있는 경우로서, 마이너스의 값도 포함한다.
[부가 정보의 데이터 구조의 예 4]
도 19a 및 도 19b는, 예측 화상의 생성에 이용하는 부가 정보의 데이터 구조의 예 4를 도시한 도면들이다.
이 예에서는, 트리 구조 피사체 맵을 블록 분할 정보와 블록내 피사체 식별자 정보로 나누어 유지한다. 블록 분할 정보는, 트리 구조 피사체 맵을 이용했을 때의 리프 이외의 노드를 스캔한 결과를 나타내고, 블록내 피사체 식별자 정보는, 트리 구조 피사체 맵을 이용했을 때의 리프를 스캔한 결과를 나타낸다.
도 19b는, 부가 정보의 구체예를 도시한다. 이 예는, 트리 구조 피사체 맵으로서 도 6에서 설명한 트리 구조 피사체 맵을 리프 이외의 노드와 리프의 노드로 나누어 스캔한 경우의 값이 설정되어 있다.
상술한 제1, 제2 실시형태에서는, 1 프레임 중의 모든 블록을 본 발명에 의해 부호화 및 복호하는 처리를 설명하였으나, 일부 블록에만 적용하고 그 외의 블록에서는 H.264/AVC 등에서 이용되는 화면내 예측 부호화나 움직임 보상 예측 부호화 등을 이용하여 부호화해도 좋다.
그 경우에는 블록마다 어느 방법을 이용하여 부호화했는지를 나타내는 정보를 부호화 및 복호할 필요가 있다.
상술한 제1, 제2 실시형태에서는, 1 프레임을 부호화 및 복호하는 처리를 설명하였으나, 복수 프레임 반복함으로써 동영상 부호화에도 적용할 수 있다. 또한 동영상의 일부 프레임이나 일부 블록에만 적용할 수도 있다.
그 경우, 피사체의 존재에는 공간적뿐 아니라 시간적인 연속성이 있기 때문에 피사체 맵의 부호화에 이용하는 참조 화소나 피사체 화소치의 예측에 이용하는 인접 블록의 정의를, 공간 방향뿐 아니라 시간 방향으로도 확장하여 이용한다는 것은 용이하게 유추 가능하다.
이상 설명한 화상 부호화 및 화상 복호의 처리는, 컴퓨터와 소프트웨어 프로그램에 의해서도 실현할 수 있으며 그 프로그램을 컴퓨터로 읽을 수 있는 기록 매체에 기록하여 제공할 수도 있고, 네트워크를 통해 제공할 수도 있다.
도 20에, 화상 부호화 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한다. 본 시스템은,
·프로그램을 실행하는 CPU(50)
·CPU(50)가 액세스하는 프로그램이나 데이터가 저장되는 RAM등의 메모리(51)
·카메라 등으로부터의 부호화 대상의 화상 신호를 입력하는 부호화 대상 프레임 입력부(52)(디스크 장치 등에 의한 화상 신호를 기억하는 기억부이여도 좋다)
·제1 실시형태에서 설명한 처리를 CPU(50)에 실행시키는 소프트웨어 프로그램인 화상 부호화 프로그램(531)이 저장된 프로그램 기억장치(53)
·CPU(50)가 메모리(51)에 로드된 화상 부호화 프로그램(531)을 실행함으로써 생성된 다중화 부호 데이터를, 예를 들면 네트워크를 통해 출력하는 다중화 부호 데이터 출력부(54)(디스크 장치 등에 의한 다중화 부호 데이터를 기억하는 기억부이여도 좋다)
가 버스로 접속된 구성으로 되어 있다.
도시는 생략되었으나, 그 밖에 피사체 수 기억부, 피사체 맵 기억부, 피사체 화소치 기억부, 예측 화상 기억부, 피사체 수 부호 데이터 기억부, 피사체 맵 부호 데이터 기억부, 피사체 화소치 부호 데이터 기억부, 화상 정보 부호 데이터 기억부등의 하드웨어가 설치되어 본 수법의 실시에 이용된다.
도 21에, 화상 복호 장치를 컴퓨터와 소프트웨어 프로그램으로 구성하는 경우의 하드웨어 구성예를 도시한다. 본 시스템은,
·프로그램을 실행하는 CPU(60)
·CPU(60)가 액세스하는 프로그램이나 데이터가 저장되는 RAM 등의 메모리(61)
·화상 부호화 장치가 상술한 수법에 의해 부호화된 다중화 부호 데이터를 입력하는 다중화 부호 데이터 입력부(62)(디스크 장치 등에 의한 다중화 부호 데이터를 기억하는 기억부이여도 좋다)
·제2 실시형태에서 설명한 처리를 CPU(60)에 실행시키는 소프트웨어 프로그램인 화상 복호 프로그램(631)이 저장된 프로그램 기억장치(63)
·CPU(60)가 메모리(61)에 로드된 화상 복호 프로그램(631)을 실행함으로써 다중화 부호 데이터를 복호하여 얻어진 복호 화상 데이터를 재생장치 등에 출력하는 복호 화상 데이터 출력부(64)
가 버스로 접속된 구성으로 되어 있다.
도시는 생략되었으나, 그 밖에 피사체 수 기억부, 피사체 맵 기억부, 피사체 화소치 기억부, 예측 화상 기억부, 피사체 수 부호 데이터 기억부, 피사체 맵 부호 데이터 기억부, 피사체 화소치 부호 데이터 기억부, 화상 정보 부호 데이터 기억부 등의 하드웨어가 설치되어 본 수법의 실시에 이용된다.
〔효과의 검증〕
종래 수법(예를 들면, H.264/AVC)과 본 발명을 이용한 수법(본 수법이라고 한다)의 부호량을 비교한다.
1.개념적인 부호량의 비교
1.1.부가 정보의 부호량
부가 정보는, 종래 수법에서는 엣지의 방향을 나타내는 정보로서, 2차원 벡터이다. 이에 반해 본 수법에 의한 부가 정보는, 피사체 수만큼의 피사체 화소치(스칼라치 또는 색 벡터)와 피사체 맵(2차원 정보)으로서, 조건에 따라 다르지만 처리 블록을 16×16, 피사체 수를 4로 한 경우 비트량은 약 68배가 된다(단, 엔트로피 부호화함으로써 약 5배 정도로 할 수 있다).
1.2.예측 잔차의 부호량
엣지가 강한 화상에서는, 예측 화상과 입력 화상에서 물체 형상이 크게 다르면, 그 예측 잔차를 주파수 영역으로 변환해도 정보를 효율적으로 저역에 집중시킬 수 없어 예측 잔차의 부호량이 매우 많아진다.
즉, 직선적인 표현밖에 할 수 없는 종래 수법보다, 임의의 형상을 표현할 수 있는 본 수법이 예측 잔차의 부호량을 줄일 수 있다. 대상 화상이나 부호화 조건에 따라서 다르지만 예측 잔차의 부호량은 약 3분의 1 정도로 할 수 있다.
1.3.전체 부호량
일반적인 부호화 레이트에서 종래 수법의 예측 잔차의 부호량은 부호량 전체의 약 9할을 차지한다. 즉, 전체 부호량을 100으로 하면, 부가 정보가 10, 예측 잔차가 90이 된다.
한편 본 수법에 의해 부가 정보가 5배, 예측 잔차가 1/3이 된다면 본 수법에 의해 전체 부호량은 80으로 할 수 있다.
2.실험예
도 22a 및 도 22b에, 어느 샘플 화상(ballet)에 대해 본 수법과 종래 수법을 이용하여 부호화한 경우의 발생 부호량 및 화상 품질의 비교를 도시한다.
도 22a 및 도 22b에 도시한 그래프에서 세로축의 Y-PSNR은 화상의 품질(단위는 dB임), 횡축의 bitrate는 부호량(단위는 bps/view임)을 나타낸다. Y-PSNR의 값은 클수록 깨끗한 화상임을 나타낸다.
도 22a 및 도 22b에서 L1의 곡선이 본 수법에 의한 부호량과 화상 품질의 관계를 보여주고 있으며, L2의 곡선이 종래 수법에 의한 부호량과 화상 품질의 관계를 보여주고 있다. 아울러 도 22a 및 도 22b는 같은 그래프이다.
2.1.부호량 삭감 효과로서의 해석(도 22a 참조)
도 22a의 그래프로부터, Y-PSNR가 43dB가 될 때 종래 수법(H.264/AVC)에서는 약 650kbps의 부호량이 필요하고, 본 수법에서는 약 400kbps의 부호량이 필요하다는 것을 알 수 있다. 이로써 같은 품질로 부호화할 경우 본 수법에 따라 부호량을 약 4할 삭감할 수 있다는 것을 알 수 있다.
2.2.품질 개선 효과로서의 해석(도 22b 참조)
도 22b의 그래프로부터, bitrate가 400kbps가 될 때 종래 수법(H.264/AVC)에서는 약 39dB의 품질이며, 본 수법에서는 약 43dB의 품질이라는 것을 알 수 있다. 이로부터, 같은 부호량으로 부호화할 경우 본 수법에 따라 4dB만큼 화질을 개선(왜곡량을 약 6할 삭감함)할 수 있다는 것을 알 수 있다.
이상, 도면을 참조하여 본 발명의 실시형태를 설명하였으나, 상기 실시형태는 본 발명의 예시에 불과하며 본 발명이 상기 실시형태로 한정되지 않는다는 것은 분명하다. 따라서 본 발명의 정신 및 기술적 범위를 벗어나지 않는 범위에서 구성요소의 추가, 생략, 치환, 기타 변경을 실시해도 좋다.
<산업상 이용 가능성>
본 발명을 이용함으로써 복잡한 형상을 가진 피사체에 대해 정확하게 엣지를 유지한 정확한 예측 화상을 제공함으로써 예측 잔차 부호화에 필요한 부호량을 삭감할 수 있다.
100 화상 부호화 장치
101 부호화 대상 프레임 입력부
102 부호화 대상 프레임 메모리
103 피사체 수 설정부
104 피사체 화소치 설정부
105 피사체 화소치 부호화부
106 피사체 맵 생성부
107 피사체 맵 부호화부
108 예측 화상 생성부
109 화상 신호 부호화부
110 다중화부
111 피사체 수 부호화부
200 화상 복호 장치
201 부호 데이터 입력부
202 부호 데이터 메모리
203 분리부
204 피사체 수 설정부
205 피사체 맵 복호부
206 피사체 화소치 복호부
207 예측 화상 생성부
208 화상 신호 복호부
101 부호화 대상 프레임 입력부
102 부호화 대상 프레임 메모리
103 피사체 수 설정부
104 피사체 화소치 설정부
105 피사체 화소치 부호화부
106 피사체 맵 생성부
107 피사체 맵 부호화부
108 예측 화상 생성부
109 화상 신호 부호화부
110 다중화부
111 피사체 수 부호화부
200 화상 복호 장치
201 부호 데이터 입력부
202 부호 데이터 메모리
203 분리부
204 피사체 수 설정부
205 피사체 맵 복호부
206 피사체 화소치 복호부
207 예측 화상 생성부
208 화상 신호 복호부
Claims (26)
- 화상을 전송 또는 축적할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 부호화하는 화상 부호화 방법으로서,
처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 단계,
처리 영역내에 존재하는 피사체마다 각 피사체를 대표하는 1개의 화소치를, 해당 피사체를 식별하는 피사체 식별자에 대응시켜 피사체 화소치로서 설정하는 피사체 화소치 설정 단계,
처리 영역내의 각 화소의 화소치와 각 피사체의 피사체 화소치의 근사성으로부터, 처리 영역내의 각 화소에 어느 피사체가 촬영되어 있는지를 피사체 식별자로 나타내는 피사체 맵을 생성하는 피사체 맵 생성 단계,
상기 피사체 맵에 따라 각 화소에 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 단계,
상기 피사체 맵을 부호화하는 피사체 맵 부호화 단계,
상기 피사체 화소치를 부호화하는 피사체 화소치 부호화 단계,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화하는 화상 신호 부호화 단계,를 갖는
것을 특징으로 하는 화상 부호화 방법. - 청구항 1에 있어서, 상기 피사체 수 설정 단계에서 설정한 피사체 수를 부호화하는 피사체 수 부호화 단계를 더 포함하는
것을 특징으로 하는 화상 부호화 방법. - 청구항 1에 있어서, 상기 피사체 수 설정 단계에서는, 처리 영역내의 화소 정보로부터 처리 영역내의 피사체 수를 추정하여 피사체 수로 하는
것을 특징으로 하는 화상 부호화 방법. - 청구항 1에 있어서, 상기 피사체 화소치 부호화 단계에서는, 상기 피사체 식별자마다 상기 피사체 맵에서 해당 피사체 식별자가 사용되는지 여부를 체크하여, 사용되는 경우에는 해당 피사체 식별자에 대응하는 상기 피사체 화소치를 부호화하고, 사용되지 않는 경우에는 해당 피사체 식별자에 대응하는 상기 피사체 화소치의 부호화를 생략하는
것을 특징으로 하는 화상 부호화 방법. - 청구항 1에 있어서, 상기 예측 화상에 대해 디서(dither)를 가하는 디서 부가 단계를 더 포함하고,
상기 화상 신호 부호화 단계에서는, 상기 디서를 가한 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화하는
것을 특징으로 하는 화상 부호화 방법. - 화상의 부호 데이터를 복호할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 복호하는 화상 복호 방법으로서,
처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 단계,
피사체 맵을 상기 부호 데이터로부터 복호하는 피사체 맵 복호 단계로서, 상기 피사체 맵은 처리 영역내의 각 화소에 촬영되어 있는 피사체를, 각 피사체를 식별하는 피사체 식별자를 각 화소에 할당하여 나타낸 것인, 단계,
상기 피사체 식별자마다 1개 설정된 피사체 화소치를 상기 부호 데이터로부터 복호하는 피사체 화소치 복호 단계,
상기 피사체 맵에 따라, 상기 피사체 맵 상의 각 화소에, 해당 화소에 할당된 상기 피사체 식별자에 대응하는 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 단계,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 복호하는 화상 신호 복호 단계,를 갖는
것을 특징으로 하는 화상 복호 방법. - 청구항 6에 있어서, 상기 피사체 수 설정 단계에서는, 상기 피사체 수를 상기 부호 데이터로부터 복호하여 설정하는
것을 특징으로 하는 화상 복호 방법. - 화상의 부호 데이터를 복호할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 복호하는 화상 복호 방법으로서,
피사체 맵을 상기 부호 데이터로부터 복호하는 피사체 맵 복호 단계로서, 상기 피사체 맵은 처리 영역내의 각 화소에 촬영되어 있는 피사체를, 각 피사체를 식별하는 피사체 식별자를 각 화소에 할당하여 나타낸 것인, 단계,
상기 피사체 식별자마다 1개 설정된 피사체 화소치를 상기 부호 데이터로부터 복호하는 피사체 화소치 복호 단계,
상기 피사체 맵에 따라, 상기 피사체 맵 상의 각 화소에, 해당 화소에 할당된 상기 피사체 식별자에 대응하는 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 단계,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 복호하는 화상 신호 복호 단계,를 갖는
것을 특징으로 하는 화상 복호 방법. - 청구항 8에 있어서, 처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 단계를 더 포함하고,
상기 피사체 수 설정 단계에서는, 상기 피사체 수를 상기 부호 데이터로부터 복호하여 설정하는
것을 특징으로 하는 화상 복호 방법. - 청구항 6 또는 8에 있어서, 상기 피사체 화소치 복호 단계에서는, 상기 피사체 맵에 나타난 피사체 식별자에 대응하는 피사체 화소치만을 복호하는
것을 특징으로 하는 화상 복호 방법. - 청구항 6 또는 8에 있어서, 상기 예측 화상에 대해 디서(dither)를 가하는 디서 부가 단계를 더 포함하고,
상기 화상 신호 복호 단계에서는, 상기 디서를 가한 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 상기 부호 데이터로부터 복호하는
것을 특징으로 하는 화상 복호 방법. - 화상을 전송 또는 축적할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 부호화하는 화상 부호화 장치로서,
처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 수단,
처리 영역내에 존재하는 피사체마다 각 피사체를 대표하는 1개의 화소치를, 해당 피사체를 식별하는 피사체 식별자에 대응시켜 피사체 화소치로서 설정하는 피사체 화소치 설정 수단,
처리 영역내의 각 화소의 화소치와 각 피사체의 피사체 화소치의 근사성으로부터, 처리 영역내의 각 화소에 어느 피사체가 촬영되어 있는지를 피사체 식별자로 나타내는 피사체 맵을 생성하는 피사체 맵 생성 수단,
상기 피사체 맵에 따라 각 화소에 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 수단,
상기 피사체 맵을 부호화하는 피사체 맵 부호화 수단,
상기 피사체 화소치를 부호화하는 피사체 화소치 부호화 수단,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화하는 화상 신호 부호화 수단,을 구비하는
것을 특징으로 하는 화상 부호화 장치. - 청구항 12에 있어서, 상기 피사체 수를 부호화하는 피사체 수 부호화 수단을 더 포함하는 것을 특징으로 하는 화상 부호화 장치.
- 청구항 12에 있어서, 상기 피사체 수 설정 수단은, 처리 영역내의 화소 정보로부터 처리 영역내의 피사체 수를 추정하여 피사체 수로 하는
것을 특징으로 하는 화상 부호화 장치. - 청구항 12에 있어서, 상기 피사체 화소치 부호화 수단은, 상기 피사체 식별자마다 상기 피사체 맵에서 해당 피사체 식별자가 사용되는지 여부를 체크하여, 사용되는 경우에는 해당 피사체 식별자에 대응하는 상기 피사체 화소치를 부호화하고, 사용되지 않는 경우에는 해당 피사체 식별자에 대응하는 상기 피사체 화소치의 부호화를 생략하는
것을 특징으로 하는 화상 부호화 장치. - 청구항 12에 있어서, 상기 예측 화상에 대해 디서(dither)를 가하는 디서 부가 수단을 더 포함하고,
상기 화상 신호 부호화 수단은, 상기 디서를 가한 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 예측 부호화하는
것을 특징으로 하는 화상 부호화 장치. - 화상의 부호 데이터를 복호할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 복호하는 화상 복호 장치로서,
처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 수단,
피사체 맵을 상기 부호 데이터로부터 복호하는 피사체 맵 복호 수단으로서, 상기 피사체 맵은 처리 영역내의 각 화소에 촬영되어 있는 피사체를, 각 피사체를 식별하는 피사체 식별자를 각 화소에 할당하여 나타낸 것인, 수단,
상기 피사체 식별자마다 1개 설정된 피사체 화소치를 상기 부호 데이터로부터 복호하는 피사체 화소치 복호 수단,
상기 피사체 맵에 따라, 상기 피사체 맵 상의 각 화소에, 해당 화소에 할당된 상기 피사체 식별자에 대응하는 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 수단,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 복호하는 화상 신호 복호 수단을 구비하는
것을 특징으로 하는 화상 복호 장치. - 청구항 17에 있어서, 상기 피사체 수 설정 수단은, 상기 피사체 수를 상기 부호 데이터로부터 복호하여 설정하는
것을 특징으로 하는 화상 복호 장치. - 화상의 부호 데이터를 복호할 때 화상 프레임을 미리 정해진 크기의 처리 영역으로 분할하고 처리 영역마다 각 화소의 화소치를 예측하면서 복호하는 화상 복호 장치로서,
피사체 맵을 상기 부호 데이터로부터 복호하는 피사체 맵 복호 수단으로서, 상기 피사체 맵은 처리 영역내의 각 화소에 촬영되어 있는 피사체를, 각 피사체를 식별하는 피사체 식별자를 각 화소에 할당하여 나타낸 것인, 수단,
상기 피사체 식별자마다 1개 설정된 피사체 화소치를 상기 부호 데이터로부터 복호하는 피사체 화소치 복호 수단,
상기 피사체 맵에 따라, 상기 피사체 맵 상의 각 화소에, 해당 화소에 할당된 상기 피사체 식별자에 대응하는 상기 피사체 화소치의 값을 할당함으로써 처리 영역에 대한 예측 화상을 생성하는 예측 화상 생성 수단,
상기 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 복호하는 화상 신호 복호 수단,을 구비하는
것을 특징으로 하는 화상 복호 장치. - 청구항 19에 있어서, 처리 영역내에 존재하는 피사체의 수를 피사체 수로 설정하는 피사체 수 설정 수단을 더 포함하고,
상기 피사체 수 설정 수단은, 상기 피사체 수를 상기 부호 데이터로부터 복호하여 설정하는
것을 특징으로 하는 화상 복호 장치. - 청구항 17 또는 19에 있어서, 상기 피사체 화소치 복호 수단은, 상기 피사체 맵에 나타난 피사체 식별자에 대응하는 피사체 화소치만을 복호하는
것을 특징으로 하는 화상 복호 장치. - 청구항 17 또는 19에 있어서, 상기 예측 화상에 대해 디서(dither)를 가하는 디서 부가 수단을 더 포함하고,
상기 화상 신호 복호 수단은, 상기 디서를 가한 예측 화상을 이용하여 처리 영역에 대한 화상 신호를 상기 부호 데이터로부터 복호하는
것을 특징으로 하는 화상 복호 장치. - 삭제
- 삭제
- 청구항 1에 기재된 화상 부호화 방법을 컴퓨터에 실행시키기 위한 화상 부호화 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
- 청구항 6 또는 8에 기재된 화상 복호 방법을 컴퓨터에 실행시키기 위한 화상 복호 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2010-218036 | 2010-09-29 | ||
JP2010218036A JP5281623B2 (ja) | 2010-09-29 | 2010-09-29 | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム |
PCT/JP2011/071463 WO2012043330A1 (ja) | 2010-09-29 | 2011-09-21 | 画像符号化方法および装置、画像復号方法及び装置、およびそれらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130059422A KR20130059422A (ko) | 2013-06-05 |
KR101552664B1 true KR101552664B1 (ko) | 2015-09-11 |
Family
ID=45892788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137007041A KR101552664B1 (ko) | 2010-09-29 | 2011-09-21 | 화상 부호화 방법 및 장치, 화상 복호 방법 및 장치, 및 그 프로그램 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9031338B2 (ko) |
EP (1) | EP2624566A4 (ko) |
JP (1) | JP5281623B2 (ko) |
KR (1) | KR101552664B1 (ko) |
CN (1) | CN103098475B (ko) |
BR (1) | BR112013008046A2 (ko) |
CA (1) | CA2811898A1 (ko) |
TW (1) | TWI508529B (ko) |
WO (1) | WO2012043330A1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5281624B2 (ja) | 2010-09-29 | 2013-09-04 | 日本電信電話株式会社 | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム |
JP5357199B2 (ja) | 2011-03-14 | 2013-12-04 | 日本電信電話株式会社 | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム |
US20150296198A1 (en) * | 2012-11-27 | 2015-10-15 | Intellectual Discovery Co., Ltd. | Method for encoding and decoding image using depth information, and device and image system using same |
WO2015105385A1 (ko) * | 2014-01-09 | 2015-07-16 | 삼성전자 주식회사 | 스케일러블 비디오 부호화/복호화 방법 및 장치 |
EP3404927A1 (en) * | 2016-01-13 | 2018-11-21 | Sony Corporation | Information processing device and information processing method |
WO2018174591A1 (ko) | 2017-03-22 | 2018-09-27 | 김기백 | 영상을 구성하는 화소값 범위를 이용한 영상 부호화/복호화 방법 |
CN113641915B (zh) * | 2021-08-27 | 2024-04-16 | 北京字跳网络技术有限公司 | 对象的推荐方法、装置、设备、存储介质和程序产品 |
CN116506629B (zh) * | 2023-06-27 | 2023-08-25 | 上海伯镭智能科技有限公司 | 用于矿山无人驾驶矿车协同控制的路况数据压缩方法 |
CN118075457B (zh) * | 2024-04-18 | 2024-06-21 | 山西顺达胜业通信工程有限公司 | 一种基于视频监测的设备智能控制方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008228337A (ja) | 1996-10-31 | 2008-09-25 | Toshiba Corp | 画像符号化装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838455A (en) | 1919-05-11 | 1998-11-17 | Minolta Co., Ltd. | Image processor with image data compression capability |
JP3231618B2 (ja) * | 1996-04-23 | 2001-11-26 | 日本電気株式会社 | 3次元画像符号化復号方式 |
US6055330A (en) * | 1996-10-09 | 2000-04-25 | The Trustees Of Columbia University In The City Of New York | Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information |
JP3237582B2 (ja) | 1997-08-28 | 2001-12-10 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理方法 |
WO1999030280A1 (en) * | 1997-12-05 | 1999-06-17 | Dynamic Digital Depth Research Pty. Ltd. | Improved image conversion and encoding techniques |
US6385337B1 (en) | 1998-12-21 | 2002-05-07 | Xerox Corporation | Method of selecting colors for pixels within blocks for block truncation encoding |
AUPQ416699A0 (en) * | 1999-11-19 | 1999-12-16 | Dynamic Digital Depth Research Pty Ltd | Depth map compression technique |
US6404814B1 (en) | 2000-04-28 | 2002-06-11 | Hewlett-Packard Company | Transcoding method and transcoder for transcoding a predictively-coded object-based picture signal to a predictively-coded block-based picture signal |
US8374237B2 (en) | 2001-03-02 | 2013-02-12 | Dolby Laboratories Licensing Corporation | High precision encoding and decoding of video images |
US20050063596A1 (en) * | 2001-11-23 | 2005-03-24 | Yosef Yomdin | Encoding of geometric modeled images |
JP2003304562A (ja) * | 2002-04-10 | 2003-10-24 | Victor Co Of Japan Ltd | オブジェクト符号化方法、オブジェクト符号化装置、及びオブジェクト符号化用プログラム |
US20040022322A1 (en) * | 2002-07-19 | 2004-02-05 | Meetrix Corporation | Assigning prioritization during encode of independently compressed objects |
US6954501B2 (en) * | 2003-02-17 | 2005-10-11 | Xvd Corporation | Method and apparatus for object based motion compensation |
KR100647294B1 (ko) | 2004-11-09 | 2006-11-23 | 삼성전자주식회사 | 화상 데이터 부호화 및 복호화 방법 및 장치 |
TWI323129B (en) | 2006-05-17 | 2010-04-01 | Novatek Microelectronics Corp | Block truncation coding (btc) method and apparatus |
KR101023262B1 (ko) * | 2006-09-20 | 2011-03-21 | 니폰덴신뎅와 가부시키가이샤 | 화상 부호화 방법 및 복호 방법, 이들의 장치 및 이들의 프로그램과 프로그램을 기록한 기억매체 |
JP2009094828A (ja) | 2007-10-10 | 2009-04-30 | Hitachi Ltd | 画像符号化装置及び画像符号化方法、画像復号化装置及び画像復号化方法 |
CN101953166B (zh) | 2008-02-21 | 2013-06-05 | 法国电信公司 | 被划分为像素块的图像或图像序列的编码和解码 |
JP4838275B2 (ja) | 2008-03-03 | 2011-12-14 | 日本電信電話株式会社 | 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 |
JP4964827B2 (ja) | 2008-06-05 | 2012-07-04 | 日本電信電話株式会社 | 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 |
JP4821846B2 (ja) * | 2008-12-26 | 2011-11-24 | 日本ビクター株式会社 | 画像符号化装置、画像符号化方法およびそのプログラム |
KR101260613B1 (ko) * | 2008-12-26 | 2013-05-03 | 닛뽕빅터 가부시키가이샤 | 화상 부호화 장치, 화상 부호화 방법 및 그 프로그램 및 화상 복호화 장치, 화상 복호화 방법 및 그 프로그램 |
US8798158B2 (en) * | 2009-03-11 | 2014-08-05 | Industry Academic Cooperation Foundation Of Kyung Hee University | Method and apparatus for block-based depth map coding and 3D video coding method using the same |
JP5310247B2 (ja) | 2009-05-13 | 2013-10-09 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
US10198792B2 (en) * | 2009-10-14 | 2019-02-05 | Dolby Laboratories Licensing Corporation | Method and devices for depth map processing |
EP2360927A3 (en) * | 2010-02-12 | 2011-09-28 | Samsung Electronics Co., Ltd. | Image encoding/decoding system using graph based pixel prediction and encoding system and method |
JP5281624B2 (ja) | 2010-09-29 | 2013-09-04 | 日本電信電話株式会社 | 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム |
-
2010
- 2010-09-29 JP JP2010218036A patent/JP5281623B2/ja active Active
-
2011
- 2011-09-21 US US13/822,836 patent/US9031338B2/en active Active
- 2011-09-21 CN CN201180045385.8A patent/CN103098475B/zh active Active
- 2011-09-21 CA CA 2811898 patent/CA2811898A1/en not_active Abandoned
- 2011-09-21 KR KR1020137007041A patent/KR101552664B1/ko active IP Right Grant
- 2011-09-21 EP EP20110828887 patent/EP2624566A4/en not_active Withdrawn
- 2011-09-21 WO PCT/JP2011/071463 patent/WO2012043330A1/ja active Application Filing
- 2011-09-21 BR BR112013008046A patent/BR112013008046A2/pt not_active IP Right Cessation
- 2011-09-26 TW TW100134543A patent/TWI508529B/zh active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008228337A (ja) | 1996-10-31 | 2008-09-25 | Toshiba Corp | 画像符号化装置 |
Also Published As
Publication number | Publication date |
---|---|
TWI508529B (zh) | 2015-11-11 |
US9031338B2 (en) | 2015-05-12 |
EP2624566A1 (en) | 2013-08-07 |
JP5281623B2 (ja) | 2013-09-04 |
CA2811898A1 (en) | 2012-04-05 |
JP2012074917A (ja) | 2012-04-12 |
CN103098475B (zh) | 2016-06-01 |
EP2624566A4 (en) | 2014-07-16 |
US20130170763A1 (en) | 2013-07-04 |
CN103098475A (zh) | 2013-05-08 |
WO2012043330A1 (ja) | 2012-04-05 |
BR112013008046A2 (pt) | 2016-06-21 |
TW201225677A (en) | 2012-06-16 |
KR20130059422A (ko) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101550283B1 (ko) | 화상 부호화 방법 및 장치, 화상 복호 방법 및 장치, 및 그 프로그램 | |
KR101552664B1 (ko) | 화상 부호화 방법 및 장치, 화상 복호 방법 및 장치, 및 그 프로그램 | |
KR101592535B1 (ko) | 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램 및 화상 복호 프로그램 | |
JP6542206B2 (ja) | マルチビュービデオをデコードするビデオデコード方法及び装置 | |
TWI499277B (zh) | 多視點畫像編碼方法、多視點畫像解碼方法、多視點畫像編碼裝置、多視點畫像解碼裝置及這些程式 | |
JP6571646B2 (ja) | マルチビュービデオのデコード方法及び装置 | |
JP5729825B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム | |
KR20160045864A (ko) | 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램 | |
WO2015141977A1 (ko) | 3d 비디오 부호화/복호화 방법 및 장치 | |
JP5711636B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム | |
KR20150020593A (ko) | 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 동화상 복호 프로그램 및 기록매체 | |
WO2015098827A1 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180831 Year of fee payment: 4 |