KR20140021952A - 멀티뷰 비디오 시퀀스 코딩을 위한 적응형 프레임 예측 방법 - Google Patents
멀티뷰 비디오 시퀀스 코딩을 위한 적응형 프레임 예측 방법 Download PDFInfo
- Publication number
- KR20140021952A KR20140021952A KR1020127015121A KR20127015121A KR20140021952A KR 20140021952 A KR20140021952 A KR 20140021952A KR 1020127015121 A KR1020127015121 A KR 1020127015121A KR 20127015121 A KR20127015121 A KR 20127015121A KR 20140021952 A KR20140021952 A KR 20140021952A
- Authority
- KR
- South Korea
- Prior art keywords
- block
- coding
- frame
- prediction
- encoded
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000003044 adaptive effect Effects 0.000 title description 11
- 230000006835 compression Effects 0.000 abstract description 16
- 238000007906 compression Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 abstract description 4
- 230000033001 locomotion Effects 0.000 description 42
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000011914 asymmetric synthesis Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/573—Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
씬 뎁스(scene depth)에 대한 데이터를 추가하여 멀티뷰 비디오를 디지털 압축 처리하는 발명이 개시된다. 멀티뷰 비디오 시퀀스의 각 프레임은 소정(predefined)의 코딩 순서에 따라서 서로 오버랩 되지 않은(non-overlapping) 블록들로 다시 인코딩된다. 주어진 시퀀스(view)에 대응되는 적어도 하나의 인코딩된 프레임이 검출되면, 상기 인코딩된 프레임은 레퍼런스 프레임으로 지정되고, 레퍼런스 프레임에 대한 합성된 프레임은 인코딩 프레임의 서로 겹치지 않는 블록들의 픽셀과는 상이하고, 합성된 프레임에서 인코딩 블록과 공간적으로 결합된 블록은 인코딩 프레임에 다라서 버추얼 블록으로 지정된다. 버추얼 블록의 합성된 프레임에서의 위치는 레퍼런스 프레임에 따라서 결정된다.
Description
본 발명은 디지털 신호 처리에 관한 것으로, 좀더 구체적으로는 씬의 깊이(scene depth)에 대한 추가 데이터에 의해 멀티뷰 비디오(Multiview Video, 이하 MVV라 함)를 처리하는 기술에 관한 것이다.
이러한 과정의 특징은 촬영 카메라의 공간적 위치에 대응되는 각각의 스트림(view)이 특정 씬의 깊이(scene depth)에 대한 정보에 의해 완성된 비디오 스트림으로 나타나는 것이다. 따라서, 씬의 깊이에 대한 정보는 프레임의 시퀀스의 형태로 표현된다. 각 프레임은 적절한 순간의 특정 공간적 위치에서의 깊이에 대한 정보를 저장한다. 프레임에서 깊이에 대한 정보는 저장에 있어 특별한 정확성을 두는 회색의 그라데이션(gradation)의 사용과 같이 깊이 맵(depth map)에 의해 지정되어 일반적으로 픽셀의 밝기에 대한 정보와 유사하게 표시된다.
MVV의 압축을 위하여 하이브리드(hybrid)적 접근 방식이 기본적으로 적용된다. 하이브리드 접근 방식은 특정한 순간에 특정 시퀀스 또는 특정 깊이에 속하는 프레임은 공간 변환(spatial conversion), 양자화 단계 및 통계적 코딩의 결과로 이미 인코딩된 프레임과의 차이(나머지)로 나타난다는 것을 의미한다. 따라서, 압축에서 서비스 정보(모션 벡터의 영역, 블록 분할의 규칙 등)는 연속적인 디코딩을 위해 형성되고, 인코딩되고, 전송된다. MVV가 씬의 깊이에 대한 정보에 의해 완성되는 경우에, 합성된 시퀀스와 하이브리드 코딩 스킴에서 추가적인 예측을 사용하는 것이 가능하다.
그러나, 합성된 프레임의 품질이 불충분한 경우가 많다. 그리고, 레퍼런스 프레임의 리스트를 생성하여 예측을 선택하는 방법이 사용되는 경우에는 추가적인 데이터의 코딩을 요구한다. 본 명세서에서 제시된 방법은 압축 정도의 증가를 요구하지 않는다.
가장 널리 사용되는 비디오 코딩 표준인 H.264/MPEG-4 AVC는 연속적 디코딩을 위한 서비스 정보의 전송과 레퍼런스 프레임의 적응적 선택에 의하여 시퀀스 간의 중복 프레임, 시간에서의 중복 프레임을 제거하여 멀티뷰 비디오를 코딩한다. 이러한 방법의 문제점은 모션 벡터(motion vector), 예측 모드에 대한 정보, 인접한 시퀀스 간의 3차원 씬의 서로 상대적인 프로젝션(projection)들의 상대적인 쉬프트와 같은 서비스 정보의 불필요한 전송이다. 또한, 시퀀스 간의 유사성을 충분히 이용하지 못하는 점도 문제이다. 이 점으로 인하여 각 시퀀스를 독립적으로 코딩하는 경우와 비교하여 압축 정도(degree of compression)가 다소간 증가한다. 상기 단점을 극복하기 위하여 프레임의 예측과 모션 데이터의 코딩에 대한 다양한 방법들이 제안되었다. 실제로, 일반 비디오 스트림을 코딩하는 하이브리드 스킴(S. Kamp, M. Evertz, and M. Wien, "Decoder side motion vector derivation for inter frame video coding", in Proc. ICIP2008, October 2008, pp.1120-1123 [2], S. Klomp, M. Munderloh, Y. Vatis, and J. Ostermann, "Decoder-Side Block Motion Estimation for H.264 / MPEG-4 AVC Based Video Coding", IEEE International Symposium on Circuits and Systems, Taipei, Taiwan, May 2009, pp.1641-1644 [3])에 적용된 특정 프레임 예측 방법은 상기 특저안 단점들을 상당부분 제거하였다.
MVV의 코딩에 있어서, 상기 적용된 방법들의 주된 컨셉은 씬의 깊이에 대한 정보를 이용하는 것이다(S. Shimizu and H. Kimata, "Improved view synthesis prediction using decoder-side motion derivation for multi-view video coding", 3DTV Conference, June 2010 [4]).
상기 방법은 하기의 단계로 구성된다.
1) 인코딩된 프레임에 대응되는 합성된 프레임을 생성하고, 합성된 프레임과 시간적으로 인접한 프레임을 레퍼런스 프레임으로 고려함.
2) 합성된 프레임에 대하여 모션 추정(estimation of motion) 절차를 적용하여, 모션 정보를 생성함.
3) 레퍼런스 프레임과 이전 모션 정보를 이용하여 인코딩된 프레임의 예측값(prediction)에 대하여 모션 보상 절차를 적용함.
4) 프레임을 고정된 크기의 블록들로 분할(split)하고, 각 블록에 대한 연속적인 코딩, H.264/MPEG-4 AVC 표준에 따른 코딩 표준 리소스를 이용, 인코딩된 프레임에의 이전 예측치에 속하고, 동일한 공간에 위치하는 인코딩된 블록의 픽셀 단위(by-pixel)의 근사화 등을 이용하여 코딩함.
인코딩된 프레임에 대한 예측이 충분히 정확히 수행된다는 사실에도 불구하고, 압축 정도의 향상은 2.5%에 불과하다. 게다가, 프레임에 대한 예측치를 생성하는 방법은 시간적으로 인접한 레퍼런스 프레임으로부터 예측의 정확성을 향상시키는 방법을 포함하지 않는다. 그리고, 인코딩된 프레임과 공간적으로 결합된(spatial-combined)프레임에 대하여 특정 코딩 오더와 특정 예측 방법을 사용하여 공MVV 시퀀스의 압축 효율을 향상시키기 위한 방법(미국특허출원 2007/0109409)이 알려져 있다.
코딩된 데이터당 비트 비용(bit expenses)를 감소시키기 위하여 모션 벡터 이전의 정보에 기반하거나, 깊이 맵(depth map) 과 시퀀스에 공통되는 모션 벡터에 기반하여 모션 벡터를 우회하여 재계산하는 방법들(예를 들면 PCT출원 WO2009/020542)이 제공되었다. 또한 이미 인코딩된 시퀀스의 모션 벡터를 사용하는 방법(예를 들면 PCT 출원 WO2009/020542) 또한 제공되었다. MVV 시퀀스에서 인코딩된 프레임에 대한 예측의 효율성을 향상시키기 위하여 인코딩된 프레임과 레퍼런스 프레임간의 차이를 보상하여 인접한 시퀀스로부터 수신한 레퍼런스 프레임을 수정하는 방법(예를 들면 PCT 출원 WO2010/095471)이 제공되었다.
그러나, 결과적으로 서비스 정보를 효율적으로 코딩하는 것과 특정 각도에서의 예측 오차(prediction error)를 감소시키는 것이 어렵기 때문에, MVV 비디오 시퀀스에 내재된 중복된 정보를 완전히 제거하는 기법은 제공되지 않는다.
예시적 실시예에 따르면, 인코딩된 프레임에 대한 적응적 예측, 예측의 정확성 향상을 위한 추가 자원 확보, 서비스 정보의 전송을 요구하지 않는 효율적인 압축 메커니즘을 포함하는 향상된 압축 기법이 제공된다.
깊이 맵의 멀티뷰 시퀀스가 포함된 멀티뷰 비디오 시퀀스를 서로 겹치지 않는 복수의 블록들로 코딩하는 인코딩 방법의 적용에 따라서 기술적 효과가 얻어진다. 이미 인코딩된 프레임이 감지되면, 주어진 시퀀스와 레퍼런스에 따라서 각 인코딩 프레임 및 각 레퍼런스 프레임에 대하여 합성된 프레임이 생성된다. 합성된 프레임은 인코딩 프레임의 서로 겹치지 않는 픽셀 블록과는 상이하다.
MVV에서의 중복된 정보들은 일반적인 싱글 뷰 비디오 보다 특히 더 많은 것으로 알려졌다. 일반적인 방법으로 MVV를 코딩하는 시스템은 H.264 코딩 표준 의 확장 버전에서 MVC(Multi View Coding)과 같은 문헌에 따라서 구현된다. 또한, 디퍼런스 코딩(difference coding)이 적용되는 하나 또는 여러 개의 추가 레퍼런스 프레임을 사용한다.
추가된 프레임들은 이미 인코딩된 시퀀스에 기반하여 형성되고, 인코딩된 프레임에 대한 예측의 정확성을 향상시키기 위하여 사용된다. 예측은 인코딩된 시퀀스와 공간적으로 결합된 시퀀스를 합성함으로써 수행된다. 합성된 시퀀스들의 정확성은 합성에 사용된 알고리즘과 입력된 데이터의 정확성에 따라서 결정된다. 이미 인코딩된 시퀀스으로부터의 최선의 예측의 블록 추정에 기반하여, 합성 절차가 적용되지 않은 좀더 간단한 방법이 사용될 수 있다. 이 방법들은 고전적인 시간적 움직임 보상(temporal motion estimation) 절차에 기반한다. 일반적으로, 이러한 방법들은 차이 보상(disparity compensation) 방법이라고 지정된다. 추가적인 레퍼런스 프레임을 사용하는 것은 예측 모드의 코딩을 위해 때때로 추가적인 서비스 정보의 전송이 필요한 것으로 알려졌다. 추가적인 서비스 정보의 전송으로 인하여 압축 효율은 감소한다. 어떤 경우에, 추가적인 레퍼런스 프레임들은 인코딩된 프레임과 충분히 유사하지 않으므로, 압축 정도의 향상을 가져오지 못한다고 알려져있다.
상기 언급된 문제들에 대한 알려진 접근법들과는 달리, 본 발명은 예측 모드와 프레임 에서의 모션 정보를 정의하고, 각 순간에서의 서로 인접한 시퀀스간의 공간적 연결을 등록하고, 상기 등록에 따른 적은 용량의 서비스 정보를 이용하여 프레임에 대한 디퍼런스 코딩을 수행한다.
본 발명의 특징은 코딩 모드를 적응적으로 선택하고, 로컬 텍스쳐간의 상관도를 제거하여 서비스 정보의 양을 감소시킴으로써, 현재 인코딩된 프레임을 간단히 표현하는 것이다. 전송해야할 서비스 정보의 양이 감소하고, 코딩 모드가 증가됨에 따라서 데이터 코딩의 정확성이 향상되므로, 표준적인 코딩 시스템과 비교하여 코딩 효율이 향상된다. 제안된 방법은 MVV 코딩에 적용되는 전통적인 하이브리드 코딩 방법과 호환될 수 있다.
본 발명에서는 인코딩된 프레임에 대한 최적 예측치(best prediction)를 추정하여 MVV 코딩을 향상시키는 방법이 제안된다. MVV가 물리적인 씬의 깊이(physical scene depth:PSD)에 대한 정보를 나타내는 N개의 인접한 시퀀스와 N개의 비디오 스트림으로 구성된다고 가정하자. MVV를 코딩하는 버추얼적인 시스템을 고려하자. 이 시스템은 K-1번째 시퀀스 및 이 시퀀스에 대응되는 깊이 맵은 이미 인코딩된 상태이고, K번째 시퀀스를 인코딩할 상태인 것으로 가정하자. K번째 프레임에서 M번째 프레임에 대하여, M-1 번째의 적어도 하나 이상의 이전 프레임들이 존재하고, 시간적으로 후행하는 (예를 들면 M+1번째의 프레임들) 프레임들이 이미 인코딩 된것으로 생각한다. 시간 M에서, K번째 시퀀스에 포함된 프레임을 F(K, M)이라 하기로 한다. 여기서, 제안된 방법은 인코딩 프레임내의 모든 컬러 콤포넌트에 적용된다. 또한, 본 발명에 따른 변수, 계산은 하나의 컬러 채널, 밝기 채널에 적용될 수 있으며, 다른 콤포넌트에 대해서도 유사하게 적용될 수 있다.
본 발명의 특징은 인코딩 프레임 F(K, M)에 대한 블록 단위 처리이다. 일반적으로, 블록은 16x16 픽셀 크기와 같이 고정된 크기를 가진다. 본 발명에 따르면, 프레임 F(K, M)은 서로 겹치지 않는 블록들로 균일하게 분할된다. 프레임 F(K, M)에 속하는 처리 블록 B(K, M)에 대한 예측값의 추정을 수신하면, 처리 블록 B(K, M)과 공간적으로 결합된 합성된 블록이 형성된다. 합성된 블록은 VB(K, M)로 지정되며, 하기 수학식에 따라 기술되는 합성된(버추얼의) 시퀀스 VF(K, M)에 속한다.
VF (K, M) = VS [F (K-1, M), F (K+1, M), D (K-1, M), D (K+1, M)]
여기서, VS는 시퀀스 합성을 위한 과정을 의미한다.
D(K-1, M), D(K+1, M) 는 현재 시퀀스 M에서, K-1 번째 시퀀스 및 K 번째 시퀀스의 깊이 정보를 나타낸다.
즉, VS의 합성을 위해서 추가적인 요구사항이 없으며, 단지 하나의 시퀀스만이 사용된다. 이러한 합성을 "한 방향" 합성이라고 하며, 비대칭 합성이다.
이 경우에, 주어진 프레임보다 시간적으로 선행하는 버추얼 프레임이 형성된다. 이 버추얼 프레임을 VF(K, M-1)이라 한다. 합성된 블록 VB(K, M)을 위하여 레퍼런스 버추얼 블록 VB(K, M-1)이 결정된다. 결정을 위하여 모션 추정 알고리즘이 사용된다. 레퍼런스 버추얼 블록 VB(K, M-1)는 시간 M-1의 버추얼 프레임에 속하고, 블록 VB(K, M)에 대하여 SAD (Sum of Absolute Differences) 또는 MSE (Mean Square Error) 등의 수학적 기준으로 최적의 근사값이다. 블록 VB(K, M)은 모션 벡터(dx, dy)에 의해 블록 VB(K, M-1)와 연결된다. 모션 벡터 (dx, dy)는 인코딩 블록과 관련된 레퍼런스 블록의 수평, 수직 이동을 나타낸다. 프레임 F(K, M-1)에 속한 블록 B(K, M)에 대한 레퍼런스 이고, 블록 VB(K, M-1)과 공간적으로 결합된 블록이 결정된다. 따라서, 링크를 이용하여 서로 연결된 3개의 블록 VB(K,M), VB(K,M-1), B(K,M-1)이 결정된다. 여기서, VB(K,M)은 이전에 결정된 블록들에 따라서 공간적으로 조정된다. 상기 각 블록들은 각 블록이 속한 시퀀스에 대하여 결정될 수 있다. 그러나, 간단히 설명하기 위하여, 다른 시퀀스들에 대한 설명은 생략된다.
본 발명의 또 다른 측징은 인코딩 블록 B(K, M)에 대하여 시간적 예측 모드(Temporal mode of Prediction)와 시차적 예측 모드(Parallax mode of Prediction)의 두 가지 예측 모드 중에서, 예측 모드가 결정되는 것이다. 인코딩 블록 B(K,M)에 대한 예측 모드를 추정하기 위하여 블록 VB(K,M-1)의 최적 예측 모드가 추정된다.
블록 VB(K,M-1)의 시간적 예측 모드는 블록 VB(K,M)으로부터 추정된다.
블록 VB(K,M-1)의 시차적 예측 모드는 블록 B(K,M-1)으로부터 추정된다.
블록 VB(K,M-1)의 최적 예측 모드는 블록 VB(K,M)과 블록 B(K,M-1)의 예측 오차의 계산과 분석에 기반하여 결정된다. 만약 블록 VB(K,M)을 사용한 예측 오차가 최소라면, 시간적 예측 모드로 결정된다. 그렇지 않다면, 시차적 예측 모드로 결정된다. 이것으로부터, 블록 B(K,M)에 대한 최적의 프리딕터(predictor)는 다음의 규칙에 따라 결정된다.
시차적 예측 모드로 결정된 경우에, 블록 VB(K,M)이 최적의 프리딕터로 사용된다.
시간적 예측 모드로 결정된 경우에, 블록 B(K,M-1)이 최적의 프리딕터로 사용된다.
이 선택은 블록 VB(K,M)의 예측 모드가 블록 VB(K,M-1)을 프리딕터로 사용하여 명확히 결정될 수 있다는 가정에 기반한다. 이 경우에, 예측 모드의 집합을 분명히 하기 위한 추가 정보의 결정이 불필요하다. 따라서, 모션 파라미터의 결정에 따라서 압축 효율이 향상된다. 또한, 인코딩 블록의 예측 모드에 대한 정보의 전송이 불필요하며, 인코딩 블록의 예측 정확성이 향상된다.
본 발명의 또 다른 특징은 B(K,M)의 코딩 모드가 명확히 결정되는 것이다. 코딩 코드는 시간적, 시차적 모드에 따라서 계산되고, 오차가 최소화 되는 모드로 코딩 모드가 결정된다. 따라서, 프리딕터들은 상기 설명된 특정한 모드와 규칙에 따라서 선택된다. 블록 VB(K, M-1)의 예측 모드는 프리딕션 정보와 코딩에 필요한 추가적인 정보의 전송을 감소시키기 위하여 사용된다. 방법의 하나에 따르면, 블록 VB(K, M-1)의 예측 모드는 결정된 모드의 통계적인 코딩을 위한 추가적인 컨텍스튜얼 정보(contextual information)로 사용된다.
본 발명의 또 다른 측징은 추가 적인 코딩 모드가 제공되는 것이다. 추가적인 코딩 모드는 인코딩 블록 B(K, M)과 인코딩 블록 B(K, M)와 공간적으로 결합된 블록 VB(K, M)간의 차이값을 예측하여 제공될 수 있다. 예측은 다음과 같이 수행도니다.
VB(K,M-1) - RB(K,M-1) @ VB(K,M) - B(K,M)
여기서, 블록 B(K,M) 의 프리딕터 PB(K,M) 는 다음과 같이 계산될 수 있다.
PB(K,M) =VB(K,M) - VB(K,M-1) + B(K,M-1)
여기서, 예측 모드의 추가적인 제공은 블록에 대하여 좀더 정확히 예측할 수 있게 해준다.
추가적인 예측 모드의 사용을 위하여 선택된 모드에 대한 서비스 정보의 전송이 필요하다. 그러나, 추가적인 정보의 전송이 반드시 필요하지는 않은 것으로 확인되었다. 결과적으로 본 발명에 따라서, 프레임에 대한 적응형 예측을 수행하는 코딩 방법은 인코딩된 프레임간의 상관도를 낮게 유지하고, MVV의 압축률 증가와 비교하여 추가되는 비트를 최소한으로 유지할 수 있다. 제안된 방법은 MVV의 전통적인 코딩 시스템과 호환되며, 코딩 표준에 결합될 수 있다.
도 1은 MVC와 호환되는 비트 스트림을 형성하는 MVV 시퀀스의 인코딩 및 디코딩 블록도이다.
도 2는 예시적 실시예에 따라서, 타임 라인(time line)과 복수의 시퀀스에서 할당된 프레임을 도시한 도면이다.
도 3은 2개의 프레임에서 공간적으로 결합된(spatial-combined) 블록을 도시한 도면이다.
도 4의 3.1은 MVC 인코더 및 디코더를 사용하여 깊이 정보(information of depth) 및 시퀀스를 독립적으로 코딩한 MVV 시퀀스의 코딩 및 디코딩 기법을 도시한 블록도이다.
도 4의 3.2는 MVC 인코더 및 디코더에 기반하고, 프레임 합성 절차에 의해 부분적으로 형성된 추가 프레임을 사용한 MVV 시퀀스의 하이브리드 코딩 스킴 및 하이브리드 디코딩 스킴을 도시한 블록도이다.
도 5의 4.1은 한 방향(one-sided)으로 합성된 프레임을 도시한 도면이다.
도 5의 4.2는 양 방향(double-sided)으로 합성된 프레임을 도시한 도면이다.
도 6은 각각의 코딩 오더에 따라서 프레임과 깊이 맵(maps of depth)를 구분하는 것을 도시한 도면이다.
도 7은 프레임을 적응적으로 예측하는 것과 필요한 서비스 정보를 결정하는 것을 도시한 도면이다.
도 8은 특정 인코딩된 블록에 대하여 프레임을 적응적으로 예측하는 것과 필요한 서비스 정보를 결정하는 것을 도시한 도면이다.
도 9는 시험용 MVV 시퀀스에 대한 2개의 인접한 시퀀스로부터의 프레임을 도시한 도면이다.
도 10은 T-1, T 시간에서의 예측 모드(modes of prediction)을 비주얼화한 것이다.
도 11은 변경된 예측 모드를 단계별로 설명한 순서도이다.
도 12는 Dir 모드와 MDir 모드를 비주얼화한 것이다.
도 13은 Dir 모드와 MDir 모드, 그리고 MDir+DD 모드를 비주얼화한 것이다.
도 14의 12.1은 기 인코딩, 디코딩된 씬의 깊이에 대한 정보를 고려하고, MVC 인코더에 기반한 MVV 시퀀스의 표준 인코더 구조를 도시한 도면이다.
도 15의 12.2는 적응적 예측 기법을 제공하는 MVV 시퀀스의 인코더 구조를 도시한 도면이다.
도 2는 예시적 실시예에 따라서, 타임 라인(time line)과 복수의 시퀀스에서 할당된 프레임을 도시한 도면이다.
도 3은 2개의 프레임에서 공간적으로 결합된(spatial-combined) 블록을 도시한 도면이다.
도 4의 3.1은 MVC 인코더 및 디코더를 사용하여 깊이 정보(information of depth) 및 시퀀스를 독립적으로 코딩한 MVV 시퀀스의 코딩 및 디코딩 기법을 도시한 블록도이다.
도 4의 3.2는 MVC 인코더 및 디코더에 기반하고, 프레임 합성 절차에 의해 부분적으로 형성된 추가 프레임을 사용한 MVV 시퀀스의 하이브리드 코딩 스킴 및 하이브리드 디코딩 스킴을 도시한 블록도이다.
도 5의 4.1은 한 방향(one-sided)으로 합성된 프레임을 도시한 도면이다.
도 5의 4.2는 양 방향(double-sided)으로 합성된 프레임을 도시한 도면이다.
도 6은 각각의 코딩 오더에 따라서 프레임과 깊이 맵(maps of depth)를 구분하는 것을 도시한 도면이다.
도 7은 프레임을 적응적으로 예측하는 것과 필요한 서비스 정보를 결정하는 것을 도시한 도면이다.
도 8은 특정 인코딩된 블록에 대하여 프레임을 적응적으로 예측하는 것과 필요한 서비스 정보를 결정하는 것을 도시한 도면이다.
도 9는 시험용 MVV 시퀀스에 대한 2개의 인접한 시퀀스로부터의 프레임을 도시한 도면이다.
도 10은 T-1, T 시간에서의 예측 모드(modes of prediction)을 비주얼화한 것이다.
도 11은 변경된 예측 모드를 단계별로 설명한 순서도이다.
도 12는 Dir 모드와 MDir 모드를 비주얼화한 것이다.
도 13은 Dir 모드와 MDir 모드, 그리고 MDir+DD 모드를 비주얼화한 것이다.
도 14의 12.1은 기 인코딩, 디코딩된 씬의 깊이에 대한 정보를 고려하고, MVC 인코더에 기반한 MVV 시퀀스의 표준 인코더 구조를 도시한 도면이다.
도 15의 12.2는 적응적 예측 기법을 제공하는 MVV 시퀀스의 인코더 구조를 도시한 도면이다.
본 발명은 MVV의 프레임간의 상관된 링크들은 적응적 예측을 이용하여 제거하는 코딩 및 디코딩 기법에 관한 것이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1에서, 다수의 카메라 시스템으로부터 수신한 복수의 비디오 시퀀스들과 각 비디오 시퀀스에 대응되는 복수의 깊이 맵들은 코딩 시스템(100)에 입력된다. 일반적으로, 코딩 시스템(100)은 깊이 맵 코딩 서브 시스템(101)과 비디오 시퀀스 코딩 서브 시스템(102, 103)을 포함한다. 여기서, 블록(102)는 H.264/MPEG-4 AVC 표준과 호환되는 비디오 시퀀스를 코딩한다. 또한, 블록(103)은 추가 비디오 시퀀스를 코딩한다. 제안된 발명은 추가 비디오 시퀀스를 코딩하는 서브 시스템의 구현에 적용될 수 있다.
모든 인코딩된 비디오 시퀀스의 프레임들은 상대적인 시간에 따라서 도2와 같이 분류될 수 있다. 앞으로의 설명을 간단히 하기 위하여 몇 가지를 정의한다. 본 발명에 적용되는 공간 결합의 원칙(collocation)은 다음과 같이 구성된다. 만약 제1 프레임(200)에 속하는 블록(201)이 제1 프레임(200)의 좌상단으로부터 (y, x)의 좌표를 가지는 경우에, 제2 프레임(202)에서 공간적으로 결합된 블록(203)은 제2 프레임(202)의 좌상단으로부터 동일한 좌표(y, x)를 가진다.
도 4는 깊이 정보(information of depth) 및 비디오 시퀀스들을 독립적으로 코딩하는 구조를 도시한 도면이다. 코딩 도중에, 공통된 파라미터들이 양자화 QpD와QpV(304)의 계수의 초기값으로 사용된다. 공통된 파라미터들은 압축 정도 및 품질에 영향을 준다. 따라서, QpV 의 파라미터는 비디오 시퀀스를 코딩하기 위하여 사용되는, ITU-T H264 표준에 따른 MVV 인코더(301)에 의해 사용되는 양자화 계수로 지정된다. QpD의 파라미터는 깊이 맵을 코딩하기 위하여 사용되는, ITU-T H264 표준에 따른 MVV인코더(306)에 의해 사용되는 양자화 계수로 지정된다.
좀더 복잡한 코딩 스킴은 프레임 합성(309, 310)을 적용함에 따라 추가적인 레퍼런스 프레임을 포함한다. 추가된 레퍼런스 프레임들은 레퍼런스 프레임 목록에 포함된다. 프레임 목록에서 레퍼런스 프레임들을 선택하는 순서는 코딩시에 결정된다. 순서의 변경은 순차적인 디코딩을 위하여 인코딩된 데이터와 함께 전송된다. 프레임 합성은 레퍼런스 프레임의 형성에 의하여 코딩 효율을 향상시키기 위하여 사용된다. 일반적으로, 도 5의 4.1에 도시된 한 방향 합성(one-sided synthesis)과 도 5의 4.2에 도시된 양 방향 합성(double-sided synthesis)는 구분된다. 한 방향 합성의 경우 하나의 비디오 시퀀스에 속한 프레임(400)과 그에 대응되는 깊이 맵(401)이 사용된다. 이미 인코딩 되거나, 디코딩된 데이터가 사용될 수 있다. 양 방향 합성의 경우, 프레임(400)과 프레임(404)로부터의 정보와 인접한 비디오 시퀀스에 속한 깊이맵(401, 405)가 사용된다. 프레임과 깊이 맵의 코딩 오더에 따른 구분이 도 6에 도시된다.
합성의 효과 및 결과의 정확성은 본 발명의 관심분야가 아니다. 그럼에도 불구하고, 입력 비디오 시퀀스들과 깊이 맵 시퀀스들의 구조, 합성된 프레임의 개수는 본 발명을 구현하는데 있어 고려될 필요가 있다.
본 발명에 대한 좀더 구체적인 분석을 위하여, 도 7에 도시된 버추얼적인 프레임 코딩 시스템을 고려한다. 시간 T에서의 프레임(600)이 이미 인코딩된 것으로 가정한다. 현재 인코딩된 프레임(608)을 F(시간 T에서의 중앙 시퀀스)라 한다. 또한, 시간 T-1에서 인코딩된 프레임을 F(시간 T-1에서의 중앙 시퀀스)라 하고, 시간 T-1과 T에서의 왼쪽 시퀀스의 프레임(602, 604)이 이미 인코딩된 것으로 가정한다. 이 경우에, 합성된 프레임(601, 607)은 각각 시간 T, T-1의 중앙 시퀀스에 대하여 구성된다. 합성된 프레임(601, 607)을 각각 VF(시간 T-1에서의 중앙 시퀀스)와 VF(시간 T에서의 중앙 시퀀스)로 지정한다. 합성된 프레임들(601, 607)과 프레임 F(시간 T-1에서의 중앙 시퀀스), 프레임 F(시간 T에서의 중앙 시퀀스)가 공간적으로 결합된다. 동시에, 합성된 프레임들은 분석 과정에서의 오차, 각 측면으로부터 씬의 밝기에서의 차이 등을 포함한다. 그럼에도 불구하고 프레임 합성의 효율성을 고려하면, 합성된 프레임은 기하학적인 측면, 특히 디스플레이된 씬에 있어 충분히 정밀한 것으로 판단된다.
현재 인코딩된 프레임을 고정된 크기 bl_h, bl_w의 블록들의 집합으로 표현하자.
합성된 프레임 VF(시간 T에서의 중앙 시퀀스)도 또한 프레임 F(시간 T에서의 중앙 시퀀스)의 블록들과 공간적으로 결합된 블록들의 집합으로 표현될 수 있다.
시간 T에서 합성된 프레임에 포함된 각각의 블록들에 대하여 합성된 프레임(601)에 대한 모션 추정 기법을 적용한 예측이 수행된다. 여기서, 예측을 위하여 어떤 모션 추정 기법이 사용되는지는 문제가 되지 않는다. 프레임(607)내의 블록과 프레임(601)의 특정 레퍼런스 블록간의 연결을 감지하는 것은 중요하다. 프레임(601)과 프레임(607)은 코딩과 디코딩 과정의 동기화에 필요한 추가적인 정보의 코딩을 피하기 위하여 디코딩시에 접근될 수 있다. 모션 추정시에 결정된 레퍼런스 블록은 합성된 프레임 VF(시간 T-1에서 중앙 시퀀스)에 포함되고, 프레임 F(시간 T-1에서 중앙 시퀀스)내의 블록과 공간적으로 결합된다. 그러므로, 코딩 중에 그리고 디코딩 중에 생성될 수 있는 3개의 블록들이 존재한다.
도 7은 현재 인코딩 중인 블록(703)을 도시한다. 이하 블록(703)을 블록 B(시간 T에서 중앙 시퀀스의 좌표 y, x)라고 지정한다. 또한, 블록(703)과 공간적으로 결합되고, 프레임 VF(시간 T에서 중앙 시퀀스)에 포함된 블록(702)를 블록 VB(시간 T에서 중앙 시퀀스의 좌표 y, x)라고 지정한다. 모션 추정의 결과로 시간 T-1에서의 합성된 프레임에 속하는 블록(701)이 생성된다. 그리고, 블록(701)은 블록 VB(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)라고 지정된다. 여기서, (dy, dx)는 버추얼 모션 벡터(virtual motion vector)라고 정의된다. 레퍼런스 블록(701)은 프레임 F(시간 T-1에서 중앙 시퀀스)에서의 블록(700)과 공간적으로 결합된다. 레퍼런스 블록(701)은 노멀 프리딕터(normal predictor) B(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)라고 지정된다.
본 발명의 제1단계는 블록(703)에 대한 최적의 예측 모드를 결정하는 것이다. 전통적인 방법에 따르면, 시간 축 또는 시퀀스 축에 따른 두 가지 가능한 프리딕터를 선택할 수 있다.
시간 축에 따라서 예측을 수행하는 경우, 차이값(differences)은 하기 수학식에 따라서 결정된다.
시퀀스 축에 따라서 예측을 수행하는 경우에, 차이값(differences)은 하기 수학식에 따라서 결정된다.
종래의 연구에 따르면, 예측 모드는 추가 차이값의 분석에 기반하여 차이값이 최소가 되도록 결정될 수 있다.
하기 수학식에 따라서 시간 축에 따른 버추얼적인 차이값 및 시퀀스 축에 따른 버추얼적인 차이값을 계산할 수 있다.
이제 수신된 버추얼적인 차이값의 크기를 측정할 수 있다. 본 발명의 구현에 있어서, 차이값의 절대값의 합이 차이값의 크기로 사용될 수 있다. 차이값의 절대값의 합은 계산에 있어서의 복잡성과 추정의 효율성간의 균형을 제공하는 파라미터이다.
블록 B(시간 T에서 중앙 시퀀스의 좌표 y, x)에 대한 예측 모드를 결정하기 위하여 블록 VB(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)에 대한 예측치의 버추얼 모드(virtual mode)를 추정한다. 이를 위하여 와를 비교한다.
여기서, <temporal>이라고 지정된 예측 모드는 블록 VB(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)이 블록 VB(시간 T에서 중앙 시퀀스의 좌표 y, x)를 이용하여 예측되는 예측 모드를 의미한다. 결과적으로 블록 B(시간 T에서 중앙 시퀀스의 좌표 y, x)는 레퍼런스 블록 B(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)를 이용하여 예측된다. <parallax>이라고 지정된 예측 모드는 블록 VB(시간 T-1에서 중앙 시퀀스의 좌표 y+dy, x+dx)가 블록 VB(시간 T에서 중앙 시퀀스의 좌표 y, x)를 이용하여 예측되고, 블록 B(시간 T에서 중앙 시퀀스의 좌표 y, x)는 레퍼런스 블록 VB(시간 T에서 중앙 시퀀스의 좌표 y, x)을 이용하여 예측되는 예측 모드를 의미한다. <VDir>은 합성된 프레임과 비디오 시퀀스의 이미 인코딩된 프레임에 의해 감지되는 예측 모드를 지정한다. (dy, dx)는 합성된 프레임을 이용하여 결정되는 모션 벡터를 나타낸다.
이 사실로부터 다음을 알 수 있다.
- 순차적인 디코딩(subsequent decoding)을 위한 추가 정보의 전송은 모션 추정을 위해서는 불필요함.
- 수신된 모션 추정의 정확성은 전통적인 모션 추정 방법을 적용한 경우보다 낮은 것으로 나타남.
- 디코딩 동안에 디코딩 복잡도를 감소시킬 수 있는 특별한 방법의 모션 추정을 수행하는 것이 필요함.
차이값은 다음과 같이 결정된다.
상기 설명한 바에 따르면, 예측 모드의 결정을 위한 추가 데이터의 전송은 불필요하다. 예측 모드는 코딩 및 디코딩 도중에 접근할 수 있는 프레임에 기반하여 선택될 수 있기 때문이다.
일반적인 경우에, 모션 추정에 사용되는 블록의 크기와 적응형 예측에 사용되는 블록의 크기들은 서로 동일하지는 않다. 예를 들어 모션 추정은 16x16 픽셀 크기의 블록에 대하여 수행되고, 적응형 예측은 8x8 픽셀 크기의 블록에 대하여 수행될 수 있다. 도 9에서는 <BookArrival>이라는 MVV의 일부인 두 개의 비디오 시퀀스의 프레임들이 도시된다. <BookArrival>은 MPEG에 의하여 추천된 테스트 MVV들 중의 하나이다(Description of Exploration Experiments in 3D Video Coding", MPEG2010/N11630 Guangzhou, China October 2010). 예측 모드의 예들이 도 10에 도시된다. 시간 축에서의 예측 및 시퀀스 축에서의 예측 모드들 중에서 선택된 예측 모드가 회색 톤의 블록으로 도시된다.
예측의 효율의 향상시키기 위하여, 최적의 예측 모드를 선택할 수 있다. 최적의 예측 모드는 위에서 정의된 VDir 예측 모드로 결정된다. 차이값을 계산하고, 하기 수학식에 따른 시간 축 와 시퀀스 축 에서의 예측값을 수신하는 단계가 추가적으로 수행된다.
VDir 값에 기반한 예측 모드는 추정에 기반하여 결정된다. 예측 모드의 선택은 VDir 모드와 Dir 모드 중에서 예측 오차가 정해진 범위에 포함되는지에 따라서 선택될 수 있다. 이 경우에, 예측 모드는 하기 표현에 따라서 결정될 수 있다.
이 경우에, MDir의 예측 모드는 하기와 같이 변경될 수 있다.
여기서, Vdir은 위에서 설명된 합성된 프레임을 사용하는 예측 모드로 선택되고, TH는 Dir의 코딩 모드를 변경하는 조건에 대한 임계값이다. 예측 모드를 변경하는 방법은 도 11과 같이 Vdir 값을 사용한다. 예를 들어, VDir (y, x)과 MDir (y, x, VDir)에 대한 수학식에 따라서 수신된 예측 모드들이 도 12에 도시된다. 여기서, 임계값 TH의 값은 로 결정된다. 는 블록에 포함된 픽셀의 개수이다.
위에서 설명된 방법들은 MVV의 특징인 시퀀스간의 의존성(dependences)에 기반하여 분리된 블록에 대한 적응적인 예측 메커니즘을 제공한다. 이 예측 방법들은 시간 축에서의 예측 또는 시퀀스 축에서의 예측 중에서 어느 하나로 선택된다.
게다가 위에서 설명될 두 개의 예측 방법들에 부가하여, 본 발명은 인코딩된 블록에 포함된 픽셀들의 값을 나타내는 추가적인 방법을 제안한다. 이 방법은 이미 계산된 값에 의하여 시퀀스 축에 대하여 정의되는 차이값 의 값에 대한 예측에 기반한다. 기본적인 경우에의 값은 다음과 같이 결정된다.
그러므로, 하기 수학식과 같이 나타낼 수 있다.
본 발명에 따른 예측 방법은 인코딩된 프레임의 낮은 상관도를 추가적으로 이용할 수 있다. 이 경우에, 선택된 예측 모드에서의 추가 정보는 각 블록에 대하여 인코딩되고 전송되어야 한다. 그럼에도 불구하고, 이 경우에 선택된 예측 모드는 상관도가 낮지 않고, 엔트로피 인코더에서 컨텍스튜얼 모델(contextual models)을 사용하여 효율적으로 인코딩될 수 있는 것으로 실험되었다. 세가지 예측 모드를 사용한 예측 모드 맵이 도 13에 도시되었다.
디코딩된 프레임의 품질 추정은 프레임의 낮은 상관도에 대한 수학적 효율성 추정을 통해 달성된다. 품질 추정을 위해서 PSNR(peak-to-peak signal-to-noise ratio)의 측정이 사용된다. 실제로, 프레임 내의 픽셀들이 본 발명에서 제안된 방법에 의해 인코딩, 디코딩된다. 그리고, 인코딩, 디코딩도니 픽셀들의 품질이 데시벨로 결정된다. 게다가, 시간 축에서의 예측을 사용하는 경우. 단지 합성된 프레임만을 사용하는 경우, 시간 축에서의 예측과 시퀀스 축에서의 예측을 결합한 경우의 품질 추정이 수행된다. 현재 비디오 시퀀스에서 왼쪽의 비디오 시퀀스에 포함된 프레임과 깊이 맵의 품질이 예측의 품질에 직접적으로 영향을 미친다는 것이 강조될 필요가 있으며, 분석에 있어 고려되어야 한다. 모션 추정은 전통적인 방법(. Furht, J. Greenberg, R. Westwater <<Motion Estimation Algorithms for Video Compression>> Massachusetts: Kluwer Academic Publishers, 1997, pp 64-65 에 기대된 바와 같이 탐색 영역의 크기는 [-16, 16] 픽셀 크기이고, 블록의 크기는 16x16 픽셀 크기이다)으로 수행될 수 있다. 예측은 크기가 8x8 픽셀 크기인 블록 단위로 수행될 수 있다. 수행된 분석 결과가 표 1, 2, 3에 기재되었다. 여기서, <예측 모드>라는 열은 사용된 예측 모드를 나타낸다.
<시간적 예측: 버추얼 ME/MC>는 합성된 프레임을 이용하여 획득된 버추얼 모션 벡터를 이용하는 방법이 사용되었음을 나타낸다. 획득된 버추얼 모션 벡터는 일반 프레임을 코딩하기 위하여 적용된다.
<시간적 예측: 인코딩된 프레임의 ME/MC>는 일반 프레임을 이용하여 획득된 모션 벡터를 이용하는 방법이 사용되었음을 나타낸다. 획득된 모션 벡터는 일반 프레임을 코딩하기 위하여 적용된다.
인코딩된 프레임의 근사값이 정확해질 수 있도록 시간 축에서의 예측과 시퀀스 축에서의 예측 중에서 예측 모드가 선택될 수 있다.
표 1, 2, 3에서는 다양한 압축 정도에 대한 프레임간 예측의 효율성이 기재되었다.
얻어진 실험 결과에 따르면, 본 발명에 따른 방법은 프레임간 상관도에 기반한 방법과 비교하여 품질의 향상을 제공한다.
본 발명은 MVV의 3차원 특성을 이용하는 것이 특징이다. 인코딩된 프레임과 그 인접하는 이웃 프레임에 대응하여 합성된 프레임은 일반 비디오 시퀀스의 코딩시 또는 MVV의 각 비디오 시퀀스를 독립적으로 코딩하는 경우 이용 불가능한 코잘 컨텍스트(causal context)를 형성한다. 이 컨텍스트는 코딩시/디코딩시 억세스 할 수 있으며, 인코딩 프레임에서 연속된 블록에 대한 예측 모드를 선택하기 위하여 사용된다. 따라서, 각 데이터간의 상관도가 낮아도 되며, 순차적으로 디코딩을 수행하는 경우 추가적인 정보의 크기가 작아도 된다. 따라서, 본 발명에 따르면 코딩의 효율이 향상된다.
도 14 및 도 15는 하이브리드 코딩 방법에 기반한, MVV 디코딩 장치의 블록도를 도시한 도면이다. 코딩 장치는 MVV 코딩을 위한 H.264/MPEG-4 AVC 표준에 따라서 구현된다. 일반 비디오 시퀀스의 코딩을 위한 장치의 표준에 따라서, 프레임간 변환(1205), 공간 변환(1211), 제어 유닛(1202) 등 MVV 코딩을 위한 블록이 도시된다.
블록(1210)은 하나의 MVV 시퀀스들의 서로 다른 비디오 시퀀스의 프레임에 대하여 모션 추정하여 예측을 수행한다.
블록(1207)은 예측을 수행하는 동안에 레퍼런스로 사용되는 프레임을 합성한다.
예측 모드를 선택할 수 있는 준 최적(suboptimal)의 방법은 프레임 예측의 리스트를 사용하여 수행된다. 이 방법은 예측을 선택하는 오더가 고정되어 있어 준 최적이라고 불리운다. 코딩 중에 이 오더를 변경하기 위해서 코딩의 효율을 향상시킬 수 있는 추가 정보가 전송된다.
적응형 예측을 적용하도록 변경된 코딩장치의 구조가 도 15에 도시된다. 프레임 예측의 리스트를 사용한 예측 모드의 선택이 블록(1215)의 적응형 예측으로 교체되었다. 이 블록의 기능은 위에서 설명된 것이며, 프레임내의 모션에 대한 추가 정보를 생성하지 않는다.
청구된 방법은 3D MVV를 코딩하는 경우에, 추가적인 정보의 양과 프레임의 상관도를 감소시킬 수 있는 가변적인 메커니즘을 제공한다. 청구된 방법은 인코더와 디코더에서 접근 가능한 정보가 추가되고 코딩 오더가 증가되면, H.264/MPEG-4 AVC에 기반된 현재 존재하는 인코딩 시스템이나, 향후에 개발될 인코딩 시스템에 유기적으로 포함될 수 있다. 청구된 방법은 일반적인 표준 H.264/MPEG-4 AVC 시스템과의 포환 모드를 지원한다. 청구된 방법에 따르면, 디코딩이 수행되지 않는 시간 동안에, 적은 컴퓨팅 비용을 소모하는 특별한 방법의 모션 추정 기법을 사용함으로써 추가적인 컴퓨팅 로드(load)가 발생된다. 청구된 방법은 구형에 있어 가능한 모든 변종(variants)들을 포함하고, 향후 개선될 MVV 코딩 기법과 결합될 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
101: 깊이 맵 코딩 서브 시스템
102: 비디오 시퀀스 코딩부
103: 추가 비디오 시퀀스 코딩부
104: MVV 디코딩 시스템
102: 비디오 시퀀스 코딩부
103: 추가 비디오 시퀀스 코딩부
104: MVV 디코딩 시스템
Claims (5)
- 깊이 맵(depth map)을 포함하는 멀티뷰 비디오 시퀀스의 코딩 방법에 있어서,
서로 오버랩 되지 않은(non-overlapping) 블록들의 집합을 프리셋 코딩 오더(order)에 따라서 상기 멀티뷰 비디오 시퀀스의 인코딩된 프레임들로 구성하는 단계;
주어진 시퀀스에 대응되는 적어도 하나의 인코딩된 프레임이 검출되면 상기 인코딩된 프레임을 레퍼런스 프레임으로 지정하는 단계;
상기 인코딩된 프레임의 서로 오버랩 되지 않은 블록들을 인코딩될 블록으로 지정하여 상기 레퍼런스 프레임에 대하여 합성된(synthesized) 프레임을 생성하는 단계;
상기 합성된 프레임 내에서 상기 인코딩된 프레임에 대응하는 공간적으로 결합된 블록을 버추얼 블록으로 지정하고, 상기 버추얼 블록의 상기 합성된 프레임 내에서의 공간적 위치는 상기 레퍼런스 프레임에 대응하여 결정하는 단계;
상기 버추얼 블록을 수학적 근사화하여 레퍼런스 버추얼 블록을 결정하고, 상기 레퍼런스 프레임에 속하고, 상기 레퍼런스 버추얼 블록과 공간적으로 결합된 블록이 레퍼런스 블록으로 결정되는 단계;
상기 버추얼 블록과 상기 레퍼런스 버추얼 블록간의 오차를 계산하고, 상기 레퍼런스 버추얼 블록과 상기 레퍼런스 블록간의 오차를 계산하고, 상기 오차들 중에서 최소값을 선택하고, 상기 최소값에 기반하여 디퍼런스 코딩의 모드를 결정하는 단계;
인코딩될 블록의 순차적 디퍼런스 코딩을 위한 프리딕션의 생성에 필요한 이전 단계에서의 블록을 결정하는 단계
를 포함하는 비디오 시퀀스의 코딩 방법. - 제1항에 있어서,
상기 버추얼 블록과 상기 레퍼런스 버추얼 블록간의 오차(error)가 상기 버추얼 블록과 상기 레퍼런스 블록간의 오차보다 작은 경우에, 상기 디퍼런스(difference) 코딩의 모드는 상기 레퍼런스 블록이 상기 예측치(prediction)로 사용되는 모드 또는 상기 버추얼 블록이 예측치로 사용되는 모드로 선택되는 것을 특징으로 하는 코딩 방법. - 제2항에 있어서,
상기 버추얼 블록과 상기 블록간의 오차가 계산되고, 상기 레퍼런스 블록과 상기 블록간의 오차가 계산되고,
상기 버추얼 블록과 상기 블록간의 오차가 상기 레퍼런스 블록과 상기 블록간의 오차보다 작은 경우에, 상기 버추얼 블록이 상기 예측치로 선택되거나, 상기 레퍼런스 블록이 상기 예측치로 선택되고,
상기 선택된 차이 코딩의 모드와 상기 선택된 블록에 기반하여 상기 선택된 블록의 데이터의 코딩이 수행되고, 상기 인코딩된 블록의 차이의 코딩이 수행되는 것을 특징으로 하는 코딩 방법. - 제3항에 있어서,
상기 레퍼런스 블록에 대하여 선택된 디퍼런스 코딩의 모드와 관련된 오차가 프리딕션으로 선택되고, 상기 검출된 오차의 최소값이 상기 버추얼 블록과 상기 인코딩 블록간의 오차이고, 상기 오차들간의 차이값의 절대값이 소정의 임계값을 초과하지 않는 경우에, 상기 레퍼런스 블록이 프리딕션으로 선택되고,
상기 버추얼 블록에 대하여 선택된 디퍼런스 코딩의 모드와 관련된 오차가 프리딕션으로 선택되고, 상기 검출된 오차의 최소값이 상기 레퍼런스 블록과 상기 인코딩 블록간의 오차이고, 상기 오차들간의 차이값의 절대값이 소정의 임계값을 초과하지 않는 경우에, 상기 버추얼 블록이 프리딕션으로 선택되고,
상기 특정 코딩 모드에 따라서 상기 블록이 프리딕션으로 선택된 경우에, 상기 선택된 블록의 데이터에 대한 코딩이 수행되면 상기 인코딩 블록의 디퍼런스 코딩이 또한 수행되는 코딩 방법. - 제4항에 있어서,
상기 레퍼런스 버추얼 블록과 상기 레퍼런스 블록은 상기 차이 블록의 계산에 사용되고, 상기 차이 블록은 상기 레퍼런스 버추얼 블록과 상기 레퍼런스 블록간의 픽셀 단위의 차이로 계산되는 단계;
상기 감지된 차이 블록과 상기 인코딩 블록이 계산되는 단계;
상기 감지된 오차가 이전 단계에서 프리딕터로 선택된 상기 블록의 오차보다 작은 경우에, 상기 감지된 차이 블록이 프리딕터로 사용되는 단계; 상기 선택된 블록의 데이터에 대한 코딩이 수행되고, 상기 인코딩 블록에 대한 디퍼런스 코딩이 수행되는 단계
를 포함하는 것을 특징으로 하는 코딩 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011102033/07A RU2480941C2 (ru) | 2011-01-20 | 2011-01-20 | Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности |
RU2011102033 | 2011-01-20 | ||
PCT/KR2012/000553 WO2012099438A2 (en) | 2011-01-20 | 2012-01-20 | Method of adaptive frame prediction for multiview video sequence coding |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140021952A true KR20140021952A (ko) | 2014-02-21 |
Family
ID=46516269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127015121A KR20140021952A (ko) | 2011-01-20 | 2012-01-20 | 멀티뷰 비디오 시퀀스 코딩을 위한 적응형 프레임 예측 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9538182B2 (ko) |
KR (1) | KR20140021952A (ko) |
RU (1) | RU2480941C2 (ko) |
WO (1) | WO2012099438A2 (ko) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983835B2 (en) | 2004-11-03 | 2011-07-19 | Lagassey Paul J | Modular intelligent transportation system |
CN102790895B (zh) * | 2012-07-30 | 2015-03-25 | 武汉大学 | 一种基于最小二乘的多视点视频编码视点合成预测方法 |
US9596446B2 (en) * | 2013-02-06 | 2017-03-14 | Koninklijke Philips N.V. | Method of encoding a video data signal for use with a multi-view stereoscopic display device |
WO2014139069A1 (zh) * | 2013-03-11 | 2014-09-18 | 华为技术有限公司 | 视频文件修复方法及装置 |
CN104768019B (zh) * | 2015-04-01 | 2017-08-11 | 北京工业大学 | 一种面向多纹理多深度视频的相邻视差矢量获取方法 |
KR20170139560A (ko) | 2015-04-23 | 2017-12-19 | 오스텐도 테크놀로지스 인코포레이티드 | 완전 시차 광 필드 디스플레이 시스템들을 위한 방법들 및 장치들 |
US11609427B2 (en) | 2015-10-16 | 2023-03-21 | Ostendo Technologies, Inc. | Dual-mode augmented/virtual reality (AR/VR) near-eye wearable displays |
US11106273B2 (en) | 2015-10-30 | 2021-08-31 | Ostendo Technologies, Inc. | System and methods for on-body gestural interfaces and projection displays |
US10448030B2 (en) | 2015-11-16 | 2019-10-15 | Ostendo Technologies, Inc. | Content adaptive light field compression |
US10345594B2 (en) | 2015-12-18 | 2019-07-09 | Ostendo Technologies, Inc. | Systems and methods for augmented near-eye wearable displays |
US10578882B2 (en) | 2015-12-28 | 2020-03-03 | Ostendo Technologies, Inc. | Non-telecentric emissive micro-pixel array light modulators and methods of fabrication thereof |
SG11201806865YA (en) * | 2016-03-15 | 2018-09-27 | Mediatek Inc | Method and apparatus of video coding with affine motion compensation |
US10353203B2 (en) | 2016-04-05 | 2019-07-16 | Ostendo Technologies, Inc. | Augmented/virtual reality near-eye displays with edge imaging lens comprising a plurality of display devices |
US10453431B2 (en) * | 2016-04-28 | 2019-10-22 | Ostendo Technologies, Inc. | Integrated near-far light field display systems |
US10522106B2 (en) | 2016-05-05 | 2019-12-31 | Ostendo Technologies, Inc. | Methods and apparatus for active transparency modulation |
US10560712B2 (en) | 2016-05-16 | 2020-02-11 | Qualcomm Incorporated | Affine motion prediction for video coding |
US10448010B2 (en) * | 2016-10-05 | 2019-10-15 | Qualcomm Incorporated | Motion vector prediction for affine motion models in video coding |
US10491917B2 (en) * | 2017-03-22 | 2019-11-26 | Qualcomm Incorporated | Decoder-side motion vector derivation |
US11051039B2 (en) * | 2017-06-02 | 2021-06-29 | Ostendo Technologies, Inc. | Methods for full parallax light field compression |
US11877001B2 (en) | 2017-10-10 | 2024-01-16 | Qualcomm Incorporated | Affine prediction in video coding |
US10931956B2 (en) | 2018-04-12 | 2021-02-23 | Ostendo Technologies, Inc. | Methods for MR-DIBR disparity map merging and disparity threshold determination |
US11172222B2 (en) | 2018-06-26 | 2021-11-09 | Ostendo Technologies, Inc. | Random access in encoded full parallax light field images |
CN110719496B (zh) * | 2018-07-11 | 2023-02-07 | 杭州海康威视数字技术股份有限公司 | 一种多路码流封装、播放方法、装置及系统 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10191393A (ja) | 1996-12-24 | 1998-07-21 | Sharp Corp | 多視点画像符号化装置 |
US6807231B1 (en) * | 1997-09-12 | 2004-10-19 | 8×8, Inc. | Multi-hypothesis motion-compensated video image predictor |
RU2296379C2 (ru) * | 2002-10-15 | 2007-03-27 | Самсунг Электроникс Ко., Лтд. | Носитель для хранения информации со структурой данных для многоракурсного показа и устройство для этого носителя |
US7778328B2 (en) * | 2003-08-07 | 2010-08-17 | Sony Corporation | Semantics-based motion estimation for multi-view video coding |
DE602004007682T2 (de) | 2003-10-27 | 2008-04-30 | Nxp B.V. | Leistungsoptimiertes colokalisiertes bewegungschätzverfahren |
US7671894B2 (en) | 2004-12-17 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for processing multiview videos for view synthesis using skip and direct modes |
US8823821B2 (en) * | 2004-12-17 | 2014-09-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for processing multiview videos for view synthesis using motion vector predictor list |
US7728877B2 (en) * | 2004-12-17 | 2010-06-01 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for synthesizing multiview videos |
JP4937741B2 (ja) * | 2005-01-07 | 2012-05-23 | 日本電信電話株式会社 | 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体 |
KR100716992B1 (ko) * | 2005-02-04 | 2007-05-10 | 삼성전자주식회사 | 스테레오 영상 부호화 및 복호화 방법과 그 장치 |
US7903737B2 (en) * | 2005-11-30 | 2011-03-08 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for randomly accessing multiview videos with known prediction dependency |
KR100934674B1 (ko) | 2006-03-30 | 2009-12-31 | 엘지전자 주식회사 | 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치 |
KR20080015714A (ko) | 2006-08-16 | 2008-02-20 | 엘지전자 주식회사 | 비디오 신호의 디코딩/인코딩 방법 및 장치 |
KR101023262B1 (ko) * | 2006-09-20 | 2011-03-21 | 니폰덴신뎅와 가부시키가이샤 | 화상 부호화 방법 및 복호 방법, 이들의 장치 및 이들의 프로그램과 프로그램을 기록한 기억매체 |
JP4999853B2 (ja) | 2006-09-20 | 2012-08-15 | 日本電信電話株式会社 | 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体 |
ES2439444T3 (es) | 2006-10-30 | 2014-01-23 | Nippon Telegraph And Telephone Corporation | Método de codificación y método de descodificación de vídeo, aparatos para los mismos, programas para los mismos y medios de almacenamiento que almacenan los programas |
KR100893930B1 (ko) | 2006-12-04 | 2009-04-21 | 한국전자통신연구원 | 다시점 비디오 부호화를 위한 시간 직접예측 방법 |
JP2010526455A (ja) * | 2007-01-23 | 2010-07-29 | ユークリッド・ディスカバリーズ・エルエルシー | 画像データを処理するコンピュータ方法および装置 |
KR100801968B1 (ko) * | 2007-02-06 | 2008-02-12 | 광주과학기술원 | 변위를 측정하는 방법, 중간화면 합성방법과 이를 이용한다시점 비디오 인코딩 방법, 디코딩 방법, 및 인코더와디코더 |
KR101301181B1 (ko) | 2007-04-11 | 2013-08-29 | 삼성전자주식회사 | 다시점 영상의 부호화, 복호화 방법 및 장치 |
TW200910975A (en) | 2007-06-25 | 2009-03-01 | Nippon Telegraph & Telephone | Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs |
US8804839B2 (en) | 2007-06-27 | 2014-08-12 | Korea Electronics Technology Institute | Method for image prediction of multi-view video codec and computer-readable recording medium thereof |
CN101690231A (zh) | 2007-06-28 | 2010-03-31 | 汤姆森特许公司 | 多视图编码视频的单环解码 |
JP5303556B2 (ja) * | 2007-08-06 | 2013-10-02 | トムソン ライセンシング | 複数のインタービュー参照ピクチャを用いたモーションスキップモードのための方法及び装置 |
CN101785317B (zh) * | 2007-08-15 | 2013-10-16 | 汤姆逊许可证公司 | 使用区域视差向量的多视角编码视频中的运动跳过模式的方法和装置 |
EP2061005A3 (en) * | 2007-11-16 | 2010-02-17 | Gwangju Institute of Science and Technology | Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same |
CN102017632B (zh) | 2008-03-04 | 2013-06-12 | 汤姆逊许可证公司 | 虚拟基准视图 |
EP2269378A2 (en) | 2008-04-25 | 2011-01-05 | Thomson Licensing | Multi-view video coding with disparity estimation based on depth information |
US9973739B2 (en) | 2008-10-17 | 2018-05-15 | Nokia Technologies Oy | Sharing of motion vector in 3D video coding |
KR101344425B1 (ko) | 2009-02-23 | 2013-12-23 | 고쿠리츠 다이가쿠 호우징 나고야 다이가쿠 | 다시점 화상 부호화 방법, 다시점 화상 복호 방법, 다시점 화상 부호화 장치, 다시점 화상 복호 장치, 다시점 화상 부호화 프로그램 및 다시점 화상 복호 프로그램 |
US9648346B2 (en) | 2009-06-25 | 2017-05-09 | Microsoft Technology Licensing, Llc | Multi-view video compression and streaming based on viewpoints of remote viewer |
US8537200B2 (en) * | 2009-10-23 | 2013-09-17 | Qualcomm Incorporated | Depth map generation techniques for conversion of 2D video data to 3D video data |
CN103181171B (zh) * | 2010-11-04 | 2016-08-03 | 皇家飞利浦电子股份有限公司 | 深度指示图的产生 |
US20120114036A1 (en) * | 2010-11-10 | 2012-05-10 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method and Apparatus for Multiview Video Coding |
-
2011
- 2011-01-20 RU RU2011102033/07A patent/RU2480941C2/ru active
-
2012
- 2012-01-20 KR KR1020127015121A patent/KR20140021952A/ko not_active Application Discontinuation
- 2012-01-20 US US13/978,842 patent/US9538182B2/en not_active Expired - Fee Related
- 2012-01-20 WO PCT/KR2012/000553 patent/WO2012099438A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
RU2480941C2 (ru) | 2013-04-27 |
US20130294504A1 (en) | 2013-11-07 |
US9538182B2 (en) | 2017-01-03 |
WO2012099438A3 (en) | 2012-12-06 |
RU2011102033A (ru) | 2012-07-27 |
WO2012099438A2 (en) | 2012-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20140021952A (ko) | 멀티뷰 비디오 시퀀스 코딩을 위한 적응형 프레임 예측 방법 | |
US11546627B2 (en) | Moving picture decoding method and moving picture encoding method | |
US10051273B2 (en) | Video decoder and video decoding method | |
JP5970609B2 (ja) | 3dビデオ符号化における統一された視差ベクトル導出の方法と装置 | |
CN110741640B (zh) | 用于视频代码化中的运动补偿预测的光流估计 | |
US10798416B2 (en) | Apparatus and method for motion estimation of three dimension video | |
KR100772576B1 (ko) | 비디오 정보를 부호화 및 복호화하기 위한 방법, 움직임보상 비디오 부호기 및 대응하는 복호기 | |
JP6005157B2 (ja) | 深度マップ符号化および復号化 | |
KR101653118B1 (ko) | 3d 장면의 하나 이상의 비디오를 처리하는 방법 | |
US8768086B2 (en) | Apparatus and method for depth-image encoding with rate-distortion optimization | |
EP1927249B1 (en) | Apparatus and method for encoding and decoding multi-view video | |
US8229233B2 (en) | Method and apparatus for estimating and compensating spatiotemporal motion of image | |
CN110312130B (zh) | 基于三角模式的帧间预测、视频编码方法及设备 | |
CN103096080A (zh) | 用于估计当前块的运动矢量的设备 | |
CA2672924A1 (en) | Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media which store the programs | |
WO2010093430A1 (en) | System and method for frame interpolation for a compressed video bitstream | |
US20150189276A1 (en) | Video encoding method and apparatus, video decoding method and apparatus, and programs therefor | |
KR20120095611A (ko) | 다시점 비디오 부호화/복호화 방법 및 장치 | |
JP5706291B2 (ja) | 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム | |
RU2822447C2 (ru) | Способ и оборудование взаимного прогнозирования | |
KR20130105402A (ko) | 추가의 비트 레이트 오버헤드 없이 참조 블록의 로컬 조명 및 콘트라스트 보상에 기초한 멀티 뷰 비디오 코딩 및 디코딩 방법 | |
KR20140011002A (ko) | 움직임벡터 부호화/복호화 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |