KR102500199B1 - Method and device of processing multi-view video - Google Patents

Method and device of processing multi-view video Download PDF

Info

Publication number
KR102500199B1
KR102500199B1 KR1020210150072A KR20210150072A KR102500199B1 KR 102500199 B1 KR102500199 B1 KR 102500199B1 KR 1020210150072 A KR1020210150072 A KR 1020210150072A KR 20210150072 A KR20210150072 A KR 20210150072A KR 102500199 B1 KR102500199 B1 KR 102500199B1
Authority
KR
South Korea
Prior art keywords
image
view image
quantization
view
atlas
Prior art date
Application number
KR1020210150072A
Other languages
Korean (ko)
Other versions
KR20220059929A (en
Inventor
류은석
이순빈
정종범
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Publication of KR20220059929A publication Critical patent/KR20220059929A/en
Application granted granted Critical
Publication of KR102500199B1 publication Critical patent/KR102500199B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어질 수 있다.A multi-view image encoding method according to an embodiment includes dividing an image of a plurality of views into a base view image and an additional view image; calculating a ratio of an additional view image to a background view image; obtaining transform coefficients by performing a prediction operation and a transform operation on the base view image and the additional view image, and obtaining a quantization transform coefficient by quantizing the transform coefficients of the base view image and the additional view image in a plurality of quantization steps, respectively; selecting quantization transform coefficients quantized in a first quantization step and a second quantization step for a base view image and an additional view image, respectively, from among quantization transform coefficients quantized in a plurality of quantization steps, based on the ratio; and entropy-coding the selected quantization transform coefficients.

Description

다시점 영상 처리 방법 및 장치 {METHOD AND DEVICE OF PROCESSING MULTI-VIEW VIDEO}Multi-view image processing method and apparatus {METHOD AND DEVICE OF PROCESSING MULTI-VIEW VIDEO}

이 명세서는 다시점 영상을 처리하는 방법과 장치에 관한 것이다.This specification relates to a method and apparatus for processing a multi-view image.

몰입형 비디오(Immersive Video)는 여러 시점의 영상과 깊이 지도 정보를 활용하여 사용자에게 보다 높은 자유도로 감상할 수 있게 하는 기술이다. 이러한 몰입형 비디오 서비스를 원활히 제공하기 위해서는 다수의 영상이 필요하므로 보다 높은 대역폭을 요구하게 된다.Immersive video is a technology that allows users to enjoy with a higher degree of freedom by using images from multiple viewpoints and depth map information. In order to smoothly provide such an immersive video service, since a large number of images are required, a higher bandwidth is required.

현재 표준화 단체 MPEG(moving picture experts group)에서는 여러 위치에 다양한 시점으로 존재하는 영상들을 취득하고 처리하여 사용자에게 화면 전환 이동에 따른 운동 시차(motion parallax)를 제공할 수 있는 몰입형 미디어 기술에 관한 표준화가 진행되고 있다.Currently, the moving picture experts group (MPEG), a standardization organization, standardizes immersive media technology that can provide users with motion parallax according to screen switching by acquiring and processing images that exist in various locations at various times. is in progress

이러한 표준화의 일환으로 2019년 3월 MPEG 126차 회의에서 MPEG-I (Immersive) 서브그룹은 6DoF(degrees of freedom)을 제공하는 몰입형 미디어를 지원하는 테스트 모델(Test Model for Immersive Video, TMIV)를 정의하였다.As part of this standardization, at the MPEG 126th meeting in March 2019, the MPEG-I (Immersive) subgroup developed a Test Model for Immersive Video (TMIV) that supports immersive media that provides 6 degrees of freedom (DoF). defined.

6DoF 몰입형 미디어 기술 표준화는 몰입형 미디어를 위한 다수의 영상 처리를 목적으로 MIV(Model for Immersive Video) 기술에 대한 성능 탐색을 현재도 지속적으로 수행하고 있다. 6DoF 기술은 자유로운 사용자의 시선과 움직임에 따른 시점을 지원하므로, 이를 위해 여러 위치에서 취득된 영상들을 동시에 압축 및 전송하여 사용자 시점의 영상을 취득하고 합성하는 과정에서 높은 대역폭과 연산량이 요구된다.6DoF immersive media technology standardization continues to explore the performance of MIV (Model for Immersive Video) technology for the purpose of processing multiple images for immersive media. Since 6DoF technology supports viewpoints according to the user's free gaze and movement, high bandwidth and computation are required in the process of acquiring and synthesizing images from the user's viewpoint by simultaneously compressing and transmitting images acquired from various locations.

현재 MPEG-I에서는 다수의 영상 처리에 따라 요구되는 비디오 부호화기/복호화기의 개수를 절감하기 위하여, 다수의 영상을 바탕 시점(또는 기본 시점)(Basic view)과 추가 시점(또는 부가 시점)(Additional view)으로 분할하여 인코딩 하는 방식을 채택하고 있다.In the current MPEG-I, in order to reduce the number of video encoders/decoders required for processing multiple images, multiple images are combined into a basic view (or basic view) and an additional view (or additional view) (Additional view). view) and encoding method is adopted.

하지만, 현재까지는 바탕 시점과 추가 시점을 단일 영상으로 처리하여 적응적인 스트리밍 시나리오에서 효율적인 대역폭 조절에 어려움이 있다.However, until now, it has been difficult to efficiently adjust the bandwidth in an adaptive streaming scenario by processing the base view and the additional view as a single image.

이 명세서는 이러한 상황을 감안한 것으로, 이 명세서의 목적은 제한된 대역폭 상황에서 최종 출력 영상의 품질 손실을 줄이면서 바탕 시점 영상과 추가 시점 영상을 효율적으로 전송하는 방법을 제공하는 데 있다.This specification takes this situation into account, and an object of this specification is to provide a method for efficiently transmitting a background view image and an additional view image while reducing quality loss of a final output image in a limited bandwidth situation.

이 명세서의 다른 목적은 전송 대역폭 절감을 위해 바탕 시점 영상과 추가 시점 영상에 대한 최적의 양자화 단계를 선택하는 방법을 제공하는 데 있다.Another object of this specification is to provide a method for selecting an optimal quantization step for a base view image and an additional view image in order to save transmission bandwidth.

이 명세서의 일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계인 것을 특징으로 한다.A multi-view image encoding method according to an embodiment of the present specification includes dividing an image of a plurality of views into a base view image and an additional view image; calculating a ratio of an additional view image to a background view image; obtaining transform coefficients by performing a prediction operation and a transform operation on the base view image and the additional view image, and obtaining a quantization transform coefficient by quantizing the transform coefficients of the base view image and the additional view image in a plurality of quantization steps, respectively; Selecting quantization transform coefficients quantized in the first quantization step and the second quantization step for the base view image and the additional view image, respectively, from among the quantization transform coefficients quantized in a plurality of quantization steps based on the ratio. do.

이 명세서의 다른 실시예에 따른 다시점 영상 인코딩 장치는, 복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 선택되지 않은 나머지 시점의 추가 시점 영상에서 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 바탕 시점 영상과 패치 영상의 비율을 계산하기 위한 아틀라스 생성부; 바탕 시점 아틀라스에 포함된 바탕 시점 영상과 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고, 텍스처 인코더는, 바탕 시점 영상과 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 시점 영상 및 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 비율을 근거로 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 바탕 시점 영상과 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 선택된 양자화 변환 계수를 엔트로피 코딩하는 것을 특징으로 하는 한다.A multi-view image encoding apparatus according to another embodiment of the present specification overlaps a background view image in a background view atlas including a background view image selected as a background view among images of a plurality of views and additional view images of remaining unselected views. an atlas generation unit for generating a background view atlas including a patch image generated by removing a patch image and calculating a ratio between the background view image and the patch image; a texture encoder for encoding the base view image included in the base view atlas and the patch image included in the additional view atlas using a 2D codec; and a metadata construction unit for encoding configuration information of the base view atlas and the additional view atlas and/or control information for controlling a synthesis process of the base view atlas and the additional view atlas, and outputting the encoded metadata as metadata, wherein the texture encoder is configured. obtains transformation coefficients by performing a prediction operation and transformation operation on the background view image and the patch image, obtains a quantization transformation coefficient by quantizing the transformation coefficients of the background view image and the patch image in a plurality of quantization steps, respectively, and calculates the ratio Based on this, quantization transform coefficients quantized in the first quantization step and the second quantization step are selected for the background view image and the patch image among the quantization transform coefficients quantized in a plurality of quantization steps, respectively, and the selected quantization transform coefficients are entropy-coded. to be characterized.

이 명세서의 다른 실시예에 따른 다시점 영상 디코딩 장치는, 2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더; 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서; 메타데이터를 이용하여 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및 메타데이터와 패치 점유 지도를 이용하여 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고, 메타데이터는 바탕 시점 영상과 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고, 텍스처 디코더는 양자화 단계와 관련된 정보를 이용하여 바탕 시점 영상과 패치 영상의 양자화 변환 계수를 역양자화하고, 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 바탕 시점 영상과 패치 영상을 복원하고, 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 패치 영상의 변환 계수에 적용된 양자화 단계는 바탕 시점 영상과 패치 영상의 비율을 근거로 서로 다른 값으로 결정되는 것을 특징으로 한다.A multi-view image decoding apparatus according to another embodiment of the present specification includes a texture decoder for generating a base view atlas and an additional view atlas by decoding encoded texture data of a base view and an additional view using a 2D codec; a metadata parser for interpreting metadata including configuration information of the base view atlas and the additional view atlas and/or control information for controlling a synthesis process of the base view atlas and the additional view atlas; an atlas patch occupancy map generation unit for generating a patch occupancy map by determining a location and direction in which a patch image included in an additional viewpoint atlas is to be placed using metadata; and a reproduction unit for generating an image corresponding to the motion of the viewer from the base view atlas and the additional view atlas using the metadata and the patch occupancy map, wherein the metadata is a quantization conversion coefficient of the base view image and the patch image. It further includes information related to the quantization step applied to the generation, and the texture decoder uses the information related to the quantization step to inverse quantize the quantization transform coefficients of the base view image and the patch image, and inverse transform the inverse quantized transform coefficients to obtain residual samples. and restores the base view image and the patch image by generating reconstructed samples using the residual samples and prediction samples generated by the prediction operation, and the quantization step applied to the transform coefficient of the base view image and the transform coefficient of the patch image The quantization step applied to is characterized in that different values are determined based on the ratio of the background view image and the patch image.

따라서, 품질 손실을 최소화하면서 전송 대역폭을 절감할 수 있게 된다. 또한, 영상의 특성이나 중요도에 따라 적응적으로 양자화 단계를 선택하여 고품질의 영상을 보다 효율적인 대역폭을 사용하여 전송할 수 있게 된다.Accordingly, it is possible to reduce transmission bandwidth while minimizing quality loss. In addition, it is possible to transmit a high-quality video using a more efficient bandwidth by adaptively selecting a quantization step according to the characteristics or importance of the video.

도 1은 이 명세서의 일 실시예에 따른 다시점 영상 인코더의 구성을 기능 블록으로 도시한 것이고,
도 2는 이 명세서의 일 실시예에 따른 다시점 영상 디코더의 구성을 기능 블록으로 도시한 것이고,
도 3은 MPEG 몰입형 비디오(MIV: MPEG Immersive Video) 기술이 다시점 영상을 바탕 시점 영상과 추가 시점 영상으로 나누어 처리하는 예를 도시한 것이고,
도 4는 바탕 시점 영상과 추가 시점 영상의 중복이 많아 추가 시점 영상의 정보량이 적은 예를 도시한 것이고,
도 5는 바탕 시점 영상과 추가 시점 영상의 중복이 적어 추가 시점 영상의 정보량이 많은 예를 도시한 것이고,
도 6은 이 명세서의 일 실시예에 따른 텍스처 인코더의 구성을 도시한 것이고,
도 7은 이 명세서의 일 실시예에 따라 시점에 따라 다른 양자화 단계를 적용한 데이터를 선택하는 방법에 대한 동작 흐름도를 도시한 것이고,
도 8은 바탕 시점 영상과 추가 시점 영상 모두 각각 단일하게 QP1과 QP2로 압축하였을 때의 합성 영상의 차이를 도시한 것이고,
도 9는 바탕 시점 영상은 QP1으로 추가 시점 영상은 QP2로 품질을 낮추어 압축하였을 때 합성 영상의 차이를 도시한 것이다.
1 shows the configuration of a multi-view video encoder according to an embodiment of this specification in functional blocks;
2 shows the configuration of a multi-view image decoder according to an embodiment of this specification in functional blocks;
3 illustrates an example in which MPEG Immersive Video (MIV) technology divides a multi-viewpoint image into a base viewpoint image and an additional viewpoint image and processes it.
FIG. 4 shows an example in which the amount of information of the additional viewpoint image is small due to the large overlap between the background viewpoint image and the additional viewpoint image.
5 shows an example in which the amount of information of the additional view image is large because the overlap between the background view image and the additional view image is small,
6 shows the configuration of a texture encoder according to an embodiment of this specification,
7 is an operational flowchart of a method of selecting data to which different quantization steps are applied according to viewpoints according to an embodiment of the present specification;
8 shows the difference between synthesized images when both the background view image and the additional view image are compressed singly with QP1 and QP2, respectively.
9 illustrates a difference between synthesized images when a background view image is compressed by QP1 and an additional view image is compressed by lowering the quality to QP2.

이하 첨부된 도면을 참조하여 이 명세서에 따른 다시점 영상 처리 방법 및 장치에 대한 바람직한 실시예들을 상세히 설명한다.Hereinafter, preferred embodiments of a multi-view image processing method and apparatus according to this specification will be described in detail with reference to the accompanying drawings.

본 명세서에 개시된 기술은 사용자 시점 기반 가상 현실 영상 전송 기술에 적용될 수 있다. 그러나 본 명세서에 개시된 기술은 이에 한정되지 않고, 상기 기술의 기술적 사상이 적용될 수 있는 모든 전자 장치 및 방법에도 적용될 수 있다. The technology disclosed in this specification can be applied to a virtual reality image transmission technology based on a user's point of view. However, the technology disclosed in this specification is not limited thereto, and may be applied to all electronic devices and methods to which the technical spirit of the technology may be applied.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다. It should be noted that technical terms used in this specification are only used to describe specific embodiments and are not intended to limit the spirit of the technology disclosed in this specification. In addition, technical terms used in this specification should be interpreted in terms commonly understood by those of ordinary skill in the field to which the technology disclosed in this specification belongs, unless specifically defined otherwise in this specification. It should not be interpreted in an overly comprehensive sense or in an excessively reduced sense. In addition, when the technical terms used in this specification are incorrect technical terms that do not accurately express the spirit of the technology disclosed in this specification, it is a technical term that can be correctly understood by those of ordinary skill in the field to which the technology disclosed in this specification belongs. should be replaced with In addition, general terms used in this specification should be interpreted as defined in advance or according to context, and should not be interpreted in an excessively reduced sense.

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.Terms including ordinal numbers such as first and second used herein may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. Hereinafter, the embodiments disclosed in this specification will be described in detail with reference to the accompanying drawings, but the same or similar components are assigned the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted.

또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. In addition, in describing the technology disclosed in this specification, if it is determined that a detailed description of a related known technology may obscure the gist of the technology disclosed in this specification, the detailed description will be omitted. In addition, it should be noted that the accompanying drawings are only intended to facilitate understanding of the spirit of the technology disclosed in this specification, and should not be construed as limiting the spirit of the technology by the accompanying drawings.

최근 국제 표준화 단체 MPEG의 서브그룹인 MPEG-I 에서는 복수 시점의 영상들을 처리하여 사용자에게 360도 영상을 넘어 사용자의 위치와 화면 전환에 따른 시점을 대응하는 6DoF(degrees of freedom) 기술에 대해 '몰입형 비디오(Immersive Video)라는 이름으로 표준화가 이루어지고 있다.Recently, MPEG-I, a subgroup of MPEG, an international standardization organization, has developed 'immersion' for 6DoF (degrees of freedom) technology, which processes images from multiple viewpoints and responds to the user's location and viewpoint according to screen transitions beyond 360-degree images. Standardization is underway under the name of Immersive Video.

단순한 360 VR 영상을 넘어 6DoF 영상 스트리밍을 구현하기 위해서는 다양한 시점에서 취득한 영상들과 깊이 영상(또는 깊이 맵)을 이용하여 감상자의 모든 위치와 시야각에 대하여 대응하여야 한다. 이러한 감상자의 시점에 대응하기 위해 여러 시점에 대한 영상을 합성하고 처리하는 가상 시점 합성 과정이 이루어지게 된다.In order to implement 6DoF video streaming beyond simple 360 VR video, it is necessary to respond to all positions and viewing angles of the viewer using images acquired from various viewpoints and depth images (or depth maps). In order to correspond to the viewer's point of view, a virtual point of view synthesizing process of synthesizing and processing images for various points of view is performed.

현재 MIV에서는 깊이 맵 기반 이미지 렌더링(DIBR) 기법을 바탕으로 하여 다수의 영상들을 깊이 맵과 함께 취득한 후, 깊이 맵을 바탕으로 각 영상의 시점과 거리를 계산하여 가상의 영상 시점을 합성하는 방식으로 진행된다. 따라서 사용자의 시선과 위치에 맞도록 시점을 합성해낼 수 있으며, 이로 인해 사용자는 보다 상호작용이 가능하고 몰입감 있는 미디어를 감상할 수 있게 된다.In the current MIV, after acquiring multiple images with a depth map based on the depth map-based image rendering (DIBR) technique, based on the depth map, the viewpoint and distance of each image are calculated to synthesize virtual image viewpoints. It goes on. Therefore, it is possible to synthesize a viewpoint to match the user's line of sight and position, and as a result, the user can enjoy more interactive and immersive media.

이를 위해 MPEG-I에서는 다수의 영상을 바탕 시점과 추가 시점으로 분할하는 방식을 채택하고 있다.To this end, MPEG-I adopts a method of dividing a plurality of images into a base view and an additional view.

도 1은 이 명세서의 일 실시예에 따른 다시점 영상 인코더의 구성을 기능 블록으로 도시한 것이고, 도 2는 이 명세서의 일 실시예에 따른 다시점 영상 디코더의 구성을 기능 블록으로 도시한 것이다.FIG. 1 illustrates the configuration of a multi-view image encoder according to an embodiment of this specification in functional blocks, and FIG. 2 illustrates the configuration of a multi-view image decoder according to an embodiment of this specification in functional blocks.

도 1을 참조하면, 다시점 영상 인코더(100)는, 시점 최적화부(View Optimizer)(110), 아틀라스 생성부(Atlas Constructor)(120), 인코더(Encoder)(130) 및 메타데이터 구성부(Metadata Composer)(140)를 포함하여 구성될 수 있다.Referring to FIG. 1 , a multi-view image encoder 100 includes a view optimizer 110, an atlas constructor 120, an encoder 130, and a metadata configuration unit ( Metadata Composer) 140 may be included.

시점 최적화부(110)는, 여러 시점에서의 소스 영상과 깊이 영상(Source Views(T+D))을 입력 받아, 방향 편차, 시야, 거리 및 시야 사이 겹침을 고려하여 필요한 바탕 시점의 개수를 결정하고, 시점 사이의 위치와 서로 겹치는 것을 고려하여 바탕 시점을 선택할 수 있다.The viewpoint optimization unit 110 receives source images and depth images (Source Views (T+D)) from various viewpoints, and determines the number of background viewpoints necessary by considering direction deviation, field of view, distance, and overlap between viewpoints In addition, the background viewpoint can be selected by considering the position between viewpoints and overlapping with each other.

아틀라스 생성부(120)는, 시점 최적화부(110)가 선택한 바탕 시점을 하나의 완전한 단일 아틀라스로 구성하고, 추가 시점에 대해 바탕 시점을 기준으로 중복된 부분을 제거한 나머지 패치(또는 잔차 패치)로 구성할 수 있다.The atlas generation unit 120 configures the background viewpoints selected by the viewpoint optimization unit 110 as one complete single atlas, and generates the remaining patches (or residual patches) after removing overlapping parts based on the background viewpoints for the additional viewpoints. can be configured.

아틀라스 생성부(120)는, 아틀라스를 생성하는 동안에 마스크를 사용하여 바탕 시점들을 보존하고 추가 시점들의 중복된 부분을 제거하고, 시간적 순서에 따라 비디오 프레임에 사용한 마스크를 업데이트 하고, 각 패치 아틀라스들을 패킹하여 최종적으로 추가 시점의 아틀라스를 생성할 수 있다.The atlas generator 120 preserves background viewpoints using a mask while generating the atlas, removes overlapping parts of additional viewpoints, updates the mask used in the video frame according to the temporal order, and packs each patch atlas. Finally, an atlas of additional viewpoints can be created.

도 3에 도시한 것과 같이, 바탕 시점의 영상(또는 아틀라스)(BV)은 텍스처(깊이 정보도 포함)는 모든 픽셀을 그대로 포함하여 원본과 같이 구성하지만, 추가 시점의 영상(또는 아틀라스)(AV)은 바탕 시점 및 선순위의 추가 시점 영상을 기준으로 중첩되는 픽셀을 제거하고 중첩되지 않고 남은 텍스처(깊이 정보도 포함하여)만을 모두 블록 패치 형태로 구성할 수 있다. 디코더는 블록 패치를 재구성하여 추가 시점의 비디오 프레임을 복원할 수 있다.As shown in FIG. 3, the original view image (or atlas) (BV) includes all pixels in the texture (including depth information) as it is, but the image (or atlas) (AV of the additional view) ) can remove overlapping pixels based on the background view and the additional view images of the prior order, and configure only the remaining non-overlapping textures (including depth information) in the form of a block patch. The decoder may reconstruct a block patch to reconstruct a video frame of an additional view.

도 3에는 16개 시점의 소스 영상과 깊이 영상이 있고, 그 중에서 4개 시점의 영상이 바탕 시범으로 선택되어 하나의 아틀라스로 결합되어 하나의 바탕 시점 영상(텍스처와 깊이 영상을 각각 포함)으로 생성되고, 나머지 12개 시점의 영상이 추가 영상으로 결정되어 바탕 시점과 차이나는 부분만 패치 형태로 하나의 추가 시점 영상(텍스처와 깊이 영상을 각각 포함)으로 생성되고 있다.In FIG. 3, there are source images and depth images of 16 viewpoints, and among them, images of 4 viewpoints are selected as a prototype and combined into one atlas to generate a single background viewpoint image (including texture and depth images, respectively). The images of the remaining 12 viewpoints are determined as additional images, and only the part different from the background viewpoint is generated as one additional viewpoint image (including texture and depth images, respectively) in the form of a patch.

인코더(130)는, 2D 코덱, 예를 들어 HEVC(High Efficiency Video Coding)나 VVC(Versatile Video Coding)를 이용하여, 바탕 시점(BV)과 추가 시점(AV)의 텍스처 영상(T)과 깊이 영상(D)을 부호화하여 비트스트림을 생성할 수 있다.The encoder 130 uses a 2D codec, for example, High Efficiency Video Coding (HEVC) or Versatile Video Coding (VVC), to generate a texture image T and a depth image of a base view (BV) and an additional view (AV). A bitstream can be generated by encoding (D).

메타데이터 구성부(140)는, 다시점 영상 디코더(200)가 후처리와 시점 합성을 통해 시청자의 움직임에 따라 동적으로 끊어짐 없이 뷰포트(viewport) 영상을 재생할 수 있도록, 바탕 시점과 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점과 추가 시점 아틀라스의 의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 생성할 수 있다.The metadata constructing unit 140 is configured to generate a base view and an additional view atlas so that the multi-view image decoder 200 can dynamically reproduce a viewport image without interruption according to the viewer's motion through post-processing and view synthesis. Configuration information and/or control information for controlling the synthesis process of the atlas of the basic viewpoint and the additional viewpoint may be encoded and generated as metadata.

도 2를 참조하면, 다시점 영상 디코더(200)는, 디코더(210), 메타데이터 파서(Metadata Parser)(220), 아틀라스 패치 점유 지도 생성부(Atlas Patch Occupancy Map Generator)(230) 및 재생부(Renderer)(240)를 포함하여 구성될 수 있다.Referring to FIG. 2 , the multiview image decoder 200 includes a decoder 210, a metadata parser 220, an atlas patch occupancy map generator 230, and a playback unit. (Renderer) 240 may be included.

디코더(210)은, HEVC나 VVC를 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터와 깊이 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성할 수 있다.The decoder 210 may generate a base view atlas and an additional view atlas by decoding encoded texture data and depth data of the base view and the additional view using HEVC or VVC.

메타데이터 파서(220)는 메타데이터를 해석하여 아틀라스 패치 점유 지도 생성부(230)와 재생부(240)에 제공할 수 있다.The metadata parser 220 may interpret metadata and provide the atlas patch occupancy map generation unit 230 and playback unit 240 .

아틀라스 패치 점유 지도 생성부(240)는, 메타데이터 파서(220)가 제공하는 메타데이터를 이용하여 추가 시점 아틀라스의 패치가 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하고, 이를 재생부(240)에 제공할 수 있다.The atlas patch occupancy map generation unit 240 determines the position and direction of the patch of the atlas of the additional viewpoint using the metadata provided by the metadata parser 220 to generate a patch occupancy map, and reproduces the patch occupancy map 240 ) can be provided.

재생부(240)는, 메타데이터 파서(220)가 제공하는 메타데이터와 아틀라스 패치 점유 지도 생성부(240)가 제공하는 패치 점유 지도를 이용하여, 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하여 출력할 수 있다.The playback unit 240 uses the metadata provided by the metadata parser 220 and the patch occupancy map provided by the atlas patch occupancy map generator 240 to determine the movement of the viewer from the base view atlas and the additional view atlas. A corresponding image may be generated and output.

한편, 추가 시점 영상은 서로 분절된 영상으로, 고주파수를 많이 포함하고 있어서 비트율이 높지만, 전체 영상에서 차지하는 비율은 컨텐츠마다 서로 다르다. 또한, 바탕 시점 영상과 추가 시점 영상이 디코더에서 합성하는 합성 영상의 화질에 미치는 영향은 추가 시점 영상이 디코더에서 복원되는 또는 합성되는 영상에서 차지하는 비율에 따라 달라질 수 있다.Meanwhile, the additional view images are segmented images, and have a high bit rate because they contain a lot of high frequencies, but their ratios in the entire image are different for each content. In addition, the effect of the base view image and the additional view image on the image quality of the synthesized image synthesized by the decoder may vary according to the ratio of the additional view image in the image reconstructed or synthesized by the decoder.

도 4는 바탕 시점 영상과 추가 시점 영상의 중복이 많아 추가 시점 영상의 정보량이 적은 예를 도시한 것이고, 도 5는 바탕 시점 영상과 추가 시점 영상의 중복이 적어 추가 시점 영상의 정보량이 많은 예를 도시한 것이다. 도 4와 도 5에서 왼쪽은 바탕 시점의 영상이고 오른쪽은 추가 시점의 영상이다.FIG. 4 illustrates an example in which the amount of information of the additional view image is small due to the large amount of overlap between the background view image and the additional view image, and FIG. it is depicted In FIGS. 4 and 5, the image on the left is a background view and the image on the right is an image of an additional view.

도 4에서는 바탕 시점 영상과 추가 시점 영상 사이 중복되는 픽셀이 많아 추가 시점 영상의 정보가 적은 반면, 도 5에서는 바탕 시점 영상과 추가 시점 영상 사이 중복되는 픽셀이 많지 않아 추가 시점 영상의 정보가 많다.In FIG. 4 , information of the additional view image is small because there are many pixels overlapping between the background view image and the additional view image, whereas in FIG. 5 there are not many overlapping pixels between the background view image and the additional view image, so the information of the additional view image is large.

도 4의 경우, 추가 시점 영상에 포함된 정보량이 적기 때문에, 추가 시점 영상이 디코더가 합성한 합성 영상의 화질에 미치는 영향이 작을 수밖에 없다. 반면, 도 5의 경우, 추가 시점 영상에 포함된 정보량이 상대적으로 많기 때문에, 추가 시점 영상이 합성 영상의 화질에 미치는 영향이 클 수 있다.In the case of FIG. 4 , since the amount of information included in the image of the additional view is small, the effect of the image of the additional view on the image quality of the synthesized video synthesized by the decoder is inevitably small. On the other hand, in the case of FIG. 5 , since the amount of information included in the image of the additional viewpoint is relatively large, the effect of the image of the additional viewpoint on the image quality of the synthesized image may be great.

몰입형 비디오에서는 일반적인 360도 영상과는 달리 영상의 합성 과정이 존재하여, 중요도가 낮은 영상들은 품질을 낮추더라도 최종 합성 영상에 미치는 영향이 작아 최종 합성 영상에서 손실을 비교적 줄일 수 있다.In immersive video, unlike general 360-degree video, there is an image synthesis process, so even if the quality of low-important images is lowered, the effect on the final synthesized image is small, and the loss in the final synthesized image can be relatively reduced.

디코더 편에서 영상을 합성할 때 바탕 시점과 추가 시점의 영상이 전체 합성 영상에 미치는 영향이 콘텐츠에 따라 및/또는 바탕 시점과 추가 시점의 정보량에 따라 달라질 수밖에 없기 때문에, 바탕 시점 영상과 추가 시점 영상을 하나의 영상으로 간주하여 텍스처 인코딩하는 것은 효율적이지 않다.When synthesizing images on the decoder side, since the effect of the images of the background view and the additional view on the entire synthesized image is inevitably different depending on the content and/or the amount of information of the background and additional view, the image of the background view and the additional view It is not efficient to encode the texture by considering it as one image.

이러한 점을 고려하면, 시점에 따라, 즉 영상이 바탕 시점인지 추가 시점인지에 따라 영상을 별도의 영상으로 간주하여 텍스처 인코딩을 수행하되, 디코더 편에서 전체 합성 영상이 높은 화질을 가질 수 있도록, 각 시점의 중요도에 따라 적응적으로 영상의 품질을 가변하여 전체 비트 레이트를 조절할 수 있다.Considering this point, texture encoding is performed by considering the image as a separate image according to the viewpoint, that is, depending on whether the image is a base viewpoint or an additional viewpoint. The overall bit rate may be adjusted by adaptively varying the image quality according to the importance of the viewpoint.

각 시점의 중요도는 바탕 시점 영상의 픽셀 대비 추가 시점 영상의 픽셀 수 비율 또는 바탕 시점 영상의 픽셀과 추가 시점 영상의 픽셀이 복원된 영상에서 차지하는 비율로 계산할 수 있고, 이를 고려하여 바탕 시점 영상과 추가 시점 영상의 인코딩 품질을 서로 다르게 조절할 수 있다.The importance of each view can be calculated as the ratio of the number of pixels in the background view image to the number of pixels in the additional view image or the ratio of pixels in the background view image and pixels in the additional view image to the reconstructed image. Encoding quality of viewpoint images may be adjusted differently.

이 명세서의 일 실시예에서는, 바탕 시점 영상과 추가 시점 영상을 비대칭으로 양자화함으로써 바탕 시점 영상과 추가 시점 영상의 인코딩 품질을 다르게 조절할 수 있는데, 이 때 바탕 시점 영상의 픽셀 수 대비 추가 시점 영상의 픽셀 수 비율을 고려하여 양자화 단계를 조절하되, 목표로 하는 율-왜곡 비용(RD-cost: Rate Distortion cost) 조건을 만족하는 범위 안에서 양자화 단계를 조절할 수 있다.In an embodiment of this specification, the encoding quality of the base view image and the additional view image can be adjusted differently by asymmetrically quantizing the base view image and the additional view image. In this case, the number of pixels of the base view image versus the pixels of the additional view image The quantization step is adjusted in consideration of the number ratio, but the quantization step can be adjusted within a range that satisfies a target rate-distortion cost (RD-cost) condition.

도 6은 이 명세서의 일 실시예에 따른 텍스처 인코더의 구성을 도시한 것이다.6 illustrates the configuration of a texture encoder according to an embodiment of this specification.

텍스처 인코더(130)는, 바탕 시점 영상(또는 아틀라스)과 추가 시점 영상(또는 아틀라스)뿐만 아니라 바탕/추가 시점의 깊이 영상(또는 맵)을 HEVC나 VVC를 적용하여 비트스트림을 생성하는데, 바탕 및 추가 시점 영상을 별개의 영상으로 구분하여 처리할 수 있다.The texture encoder 130 generates a bitstream by applying HEVC or VVC to the background view image (or atlas) and the additional view image (or atlas) as well as the background/additional view depth image (or map). The additional viewpoint image may be divided into separate images and processed.

텍스처 인코더(130)는, 예측부(131), 변환부(132), 양자화부(133) 및 엔트로피 인코딩부(134)를 포함하여 구성될 수 있다.The texture encoder 130 may include a prediction unit 131, a transform unit 132, a quantization unit 133, and an entropy encoding unit 134.

예측부(131)는, 영상 분할부(미도시)에 의해 쿼드 트리 구조 및/또는 바이너리 트리 구조를 기반으로 복수의 코딩 유닛으로 분할된 코딩 유닛(이후부터는 간단하게 블록으로 표현함)에 대한 예측 샘플(또는 예측 블록)을 생성하고, 원래 샘플과 예측 샘플의 차이에 해당하는 레지듀얼 샘플(레지듀얼 또는 잔차 블록)을 생성할 수 있다.The prediction unit 131 is a prediction sample for a coding unit (hereinafter simply expressed as a block) divided into a plurality of coding units based on a quad tree structure and/or a binary tree structure by an image segmentation unit (not shown). (or prediction block), and a residual sample (residual or residual block) corresponding to the difference between the original sample and the predicted sample may be generated.

예측부(131)는, HEVC나 VVC에 사용되는 기법들, 예를 들어 현재 픽쳐 내 현재 블록의 이웃 샘플들을 참조하는 인트라 예측 기법, 현재 픽쳐가 아닌 다른 픽쳐의 샘플을 참조하는 인터 예측 기법 및 현재 픽쳐 내 다른 블록의 샘플을 참조하는 인트라 블록 복사(IBC: Intra Block Copy) 기법 등을 적용할 수 있다.The prediction unit 131 includes techniques used in HEVC or VVC, for example, an intra-prediction technique referring to neighboring samples of a current block within a current picture, an inter-prediction technique referring to samples of a picture other than the current picture, and a current picture. An intra block copy (IBC) technique that refers to samples of other blocks in a picture may be applied.

변환부(132)는 레지듀얼 샘플에 변환 기법을 적용하여 변환 계수들을 생성할 수 있는데, 변환 기법은 DCT(discrete cosine transform), DST(discrete sine transform), KLT(Karhunen-Loeve transform), GBT(graph-based transform), 또는 CNT(conditionally non-linear transform) 중 적어도 하나를 포함할 수 있다.The transform unit 132 may generate transform coefficients by applying a transform technique to residual samples. The transform technique may include discrete cosine transform (DCT), discrete sine transform (DST), Karhunen-Loeve transform (KLT), GBT ( graph-based transform), or conditionally non-linear transform (CNT).

양자화부(133)는, 변환 계수들을 양자화하는데, 계수 스캔 순서(scan order)를 기반으로 블록 형태의 양자화된 변환 계수들을 1차원 벡터 형태로 재정렬할 수 있고, 1차원 벡터 형태의 양자화된 변환 계수들을 기반으로 양자화된 변환 계수들에 관한 정보를 생성할 수 있다.The quantization unit 133 quantizes transform coefficients. Based on a coefficient scan order, the quantized transform coefficients in block form may be rearranged into a 1D vector form, and the quantized transform coefficients in 1D vector form may be rearranged. Information on quantized transform coefficients may be generated based on .

엔트로피 인코딩부(134)는 양자화된 변환 계수들에 관한 정보를 인코딩하여 비트스트림으로 출력하는데, 예를 들어 지수 골롬(exponential Golomb), CAVLC(context-adaptive variable length coding), CABAC(context-adaptive binary arithmetic coding) 등과 같은 다양한 인코딩 방법을 적용할 수 있고, 양자화된 변환 계수들을 제외하고 비디오/이미지 복원에 필요한 정보들(예들 들어 신택스 요소들(syntax elements)의 값 등)을 함께 또는 별도로 인코딩할 수도 있다.The entropy encoding unit 134 encodes information about quantized transform coefficients and outputs it as a bitstream. For example, exponential Golomb, CAVLC (context-adaptive variable length coding), CABAC (context-adaptive binary) arithmetic coding), etc., and information necessary for video/image reconstruction (eg values of syntax elements, etc.) may be encoded together or separately, except for quantized transform coefficients. there is.

비트스트림은 네트워크를 통하여 전송될 수 있고, 또는 디지털 저장 매체에 저장될 수 있는데, 여기서 네트워크는 방송망 및/또는 통신망 등을 포함할 수 있고, 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다.The bitstream may be transmitted through a network or may be stored in a digital storage medium, where the network may include a broadcasting network and/or a communication network, and the digital storage medium may include USB, SD, CD, DVD, and Blu-ray. , HDD, SSD, etc. may include various storage media.

이 명세서의 실시예에 따른 양자화부(133)는 품질 제어부(Quality controller)를 포함하여, 바탕 시점 영상과 추가 시점 영상의 샘플들(레지듀얼 샘플들)을 복수 개의 양자화 단계(또는 양자화 파라미터)로 양자화하여 저장하고(도 6에서 QP1, QP2, QP3 등), 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율(또는 디코더에서 합성되는 합성 영상의 픽셀 수와 추가 시점 영상의 픽셀 수 비율)을 기준으로 서로 다른 양자화 단계가 적용된 바탕 시점 영상과 추가 시점 영상을 선택할 수 있다.The quantization unit 133 according to an embodiment of this specification includes a quality controller, and converts samples (residual samples) of a base view image and an additional view image into a plurality of quantization steps (or quantization parameters). It is quantized and stored (QP1, QP2, QP3, etc. in FIG. 6), and based on the ratio of the number of pixels between the base view image and the additional view image (or the ratio of the number of pixels of the synthesized image synthesized in the decoder and the number of pixels of the additional view image) A base view image and an additional view image to which different quantization steps are applied can be selected.

도 6에서 양자화부(133)의 품질 제어부는, 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고, 추가 시점 영상(AV)에 대해서는 QP2로 양자화된 데이터를 선택하고 있다.In FIG. 6 , the quality control unit of the quantization unit 133 selects data quantized by QP1 for the background view image BV, and selects data quantized by QP2 for the additional view image AV.

또한, 양자화부(133)의 품질 제어부는 프레임 단위로 바탕 시점 영상(BV)과 추가 시점 영상(AV)에 대해 양자화 단계를 바꿀 수 있는데, 예를 들어 제1 프레임 때는 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고 추가 시점 영상(AV)에 대해서는 QP2로 양자화된 데이터를 선택하고, 제2 프레임 때는 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고 추가 시점 영상(AV)에 대해서는 QP3으로 양자화된 데이터를 선택할 수 있다.In addition, the quality control unit of the quantization unit 133 may change the quantization step of the background view image (BV) and the additional view image (AV) on a frame-by-frame basis. For example, in the first frame, the background view image (BV) For the second frame, select the data quantized by QP1 for the additional viewpoint image (AV), select the data quantized by QP2 for the additional viewpoint image (AV), and select the data quantized by QP1 for the background viewpoint image (BV) in the second frame, and select the additional viewpoint image ( AV), data quantized with QP3 can be selected.

또한, 양자화부(133)의 품질 제어부는, 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 각각 적합한 양자화 단계를 정하고 이를 적용할 수 있다.In addition, the quality control unit of the quantization unit 133 divides the ratio of the number of pixels between the base view image and the additional view image into a plurality of ranges, determines a quantization step suitable for each of the base view image and the additional view image for each range, and determines the quantization step. can be applied

예를 들어 픽셀 수 비율이 1:0.5인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP2로 하고, 픽셀 수 비율이 1:0.25인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP3(QP2보다 품질이 더 낮은 양자화 단계)로 하고, 픽셀 수 비율이 1:0.125인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP4(QP3보다 품질이 더 낮은 양자화 단계)로 할 수 있다.For example, if the pixel number ratio is 1:0.5, the quantization steps of the base and additional view images are set to QP1 and QP2, and if the pixel ratio is 1:0.25, the quantization steps of the base and additional view images are set to QP1. and QP3 (a quantization step with lower quality than QP2), and when the pixel count ratio is 1:0.125, the quantization steps of the base view image and the additional view image are set to QP1 and QP4 (quantization step with a lower quality than QP3). can

또는, 양자화부(133)의 품질 제어부는, 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 적합한 양자화 단계의 차이 값을 마련하여 적용할 수 있는데, 픽셀 수 비율이 1:0.5인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP2로 하되 QP2가 QP1보다 한 단계 낮은 품질에 해당하고, 픽셀 수 비율이 1:0.25인 경우 QP1과 QP2보다 한 단계 낮은 품질의 QP3로 하고, 픽셀 수 비율이 1:0.125인 경우 QP1과 QP3보다 한 단계 낮은 품질의 QP4로 할 수 있다.Alternatively, the quality control unit of the quantization unit 133 divides the ratio of the number of pixels between the background view image and the additional view image into a plurality of ranges, and for each range, a difference value of a quantization step suitable for the base view image and the additional view image is determined. It can be prepared and applied. When the pixel number ratio is 1:0.5, the quantization steps of the base view image and the additional view image are QP1 and QP2, but QP2 corresponds to a quality lower than QP1 by one level, and the pixel number ratio is 1: In the case of 0.25, QP3 has a quality lower than that of QP1 and QP2, and when the pixel number ratio is 1:0.125, QP4 has a quality lower than QP1 and QP3.

위에서 바탕 시점 영상의 양자화 단계가 QP1로 고정되고 추가 시점 영상의 양자화 단계가 바뀌는 예를 들었지만, RD-cost나 네트워크 대역폭, 요청되는 전체 비트레이트 등의 제한 요건에 따라 바탕 시점 영상의 양자화 단계가 바뀌고 바뀌는 바탕 시점 영상의 양자화 단계에 따라 추가 시점 영상의 양자화 단계도 추가로 바뀔 수 있다.In the above example, the quantization step of the background view image is fixed to QP1 and the quantization step of the additional view image is changed. Depending on the quantization step of the base view image that is changed, the quantization step of the additional view image may be additionally changed.

위 예에서 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율의 값이나 바탕 시점 영상과 추가 시점 영상에 적합한 양자화 단계의 값이나 그 차이 값은, 단순히 예를 들기 위한 것으로, 이 명세서의 실시예는 이러한 값에 제한되지 않는다.In the above example, the pixel number ratio value of the background view image and the additional view image, the value of the quantization step suitable for the background view image and the additional view image, or the difference value thereof are merely examples, and the embodiments of this specification value is not limited.

바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율은 도 1의 다시점 영상 인코더(100)를 구성하는 아틀라스 생성부(120)로부터 전달될 수 있다. 아틀라스 생성부(120)는 GOP(Group Of Picture) 단위로 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 계산하여 텍스처 인코더(130)에 전달할 수 있다.The pixel number ratio of the base view image and the additional view image may be transmitted from the atlas generator 120 constituting the multi-view image encoder 100 of FIG. 1 . The atlas generator 120 may calculate a pixel number ratio of the base view image and the additional view image in units of GOP (Group Of Picture) and transmit the calculated ratio to the texture encoder 130 .

양자화부(133)는 바탕 시점 영상과 추가 시점 영상에 적용된 양자화 단계와 관련된 정보를 메타데이터 구성부(140)에 전달하여, 메타데이터 구성부(140)가 비대칭 양자화 단계와 관련된 정보를 메타데이터에 포함시킬 수 있다.The quantization unit 133 transfers information related to the quantization step applied to the base view image and the additional view image to the metadata constructing unit 140, so that the metadata constructing unit 140 converts the information related to the asymmetric quantization step into the metadata. can include

또는, 양자화 단계와 관련된 정보는, 메타데이터 구성부(140)에 전달되는 대신, 예를 들어 신택스 요소로 기록되어 엔트로피 인코딩부(134)에 의해 해당 시점 영상의 양자화된 변환 계수에 함께 인코딩 될 수도 있다.Alternatively, information related to the quantization step may be recorded as, for example, a syntax element instead of being transmitted to the metadata constructing unit 140 and encoded together with the quantized transform coefficient of the video of the corresponding viewpoint by the entropy encoding unit 134. there is.

다시점 영상 디코더(200)는, 메타데이터 및/또는 텍스처 데이터에 엔트로피 인코딩된 신택스 요소로부터 양자화 단계와 관련된 정보를 추출하고, 추출된 양자화 단계 관련 정보를 기초로 바탕 시점 영상의 양자화된 계수와 추가 시점 영상의 양자화된 계수를 역양자화할 수 있다.The multi-view image decoder 200 extracts information related to a quantization step from syntax elements entropy-encoded into metadata and/or texture data, and adds quantized coefficients of a base view image based on the extracted quantization step related information. The quantized coefficients of the viewpoint image may be inversely quantized.

또한, 다시점 영상 디코더(200)는, 바탕 시점과 추가 시점에 대해, 역양자화된 계수를 역변환하여 현재 블록의 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 현재 블록에 대해 예측한 예측 샘플들을 기초로 현재 블록의 복원 샘플을 생성하여 바탕 시점 영상과 추가 시점 영상(추가 시점의 패치 영상)을 생성할 수 있다.In addition, the multi-view image decoder 200 reconstructs residual samples of the current block by inverse transforming the inverse quantized coefficients for the base view and the additional view, and restores the residual samples and the predicted samples predicted for the current block. Based on the reconstructed sample of the current block, a base view image and an additional view image (patch image of the additional view) may be generated.

이후, 다시점 영상 디코더(200)는, 메타데이터를 근거로 생성된 패치 점유 지도를 기초로 바탕 시점 영상과 추가 시점의 패치 영상을 결합하여 시청자의 움직임에 대응하는 시점에 대응하는 영상을 생성할 수 있다.Thereafter, the multi-view image decoder 200 generates an image corresponding to a viewpoint corresponding to the motion of the viewer by combining the base viewpoint image and the patch image of the additional viewpoint based on the patch occupancy map generated based on the metadata. can

도 7은 이 명세서의 일 실시예에 따라 시점에 따라 다른 양자화 단계를 적용한 데이터를 선택하는 방법에 대한 동작 흐름도를 도시한 것이다.7 is a flowchart illustrating an operation of a method of selecting data to which different quantization steps are applied depending on viewpoints according to an embodiment of the present specification.

아틀라스 생성부(120)는, 입력되는 복수 시점의 영상에 대해 시점 최적화부(110)에 의해 선택된 바탕 시점에 대한 아틀라스와 추가 시점에 대한 아틀라스를 생성한다(S710). 아틀라스 생성부(120)는, 목표로 하는 영상 픽셀 수(디코더 측 단말의 환경을 고려하여 디스플레이에 표시되는 합성 영상의 픽셀 수)를 고려하여 바탕 시점 영상의 픽셀 수를 결정하고, 바탕 시점 영상과 중복을 제거한 추가 시점 영상을 생성하되, 목표로 하는 영상 픽셀 수를 고려하여 추가 시점 영상의 픽셀 수를 결정할 수 있다.The atlas generating unit 120 generates an atlas for a basic viewpoint selected by the viewpoint optimizing unit 110 and an atlas for additional viewpoints with respect to input images of multiple viewpoints (S710). The atlas generating unit 120 determines the number of pixels of the background view image in consideration of the number of target image pixels (the number of pixels of the synthesized image displayed on the display considering the environment of the decoder-side terminal), and determines the number of pixels of the background view image and An additional viewpoint image from which redundancy is removed is generated, and the number of pixels of the additional viewpoint image may be determined in consideration of the number of target image pixels.

예를 들어, 2048x2048 해상도의 16 시점의 영상에서 바탕 시점 영상을 4개의 시점으로 구성하고 나머지 추가 시점 영상을 중간 정도의 해상도로 생성하거나, 또는 바탕 시점 영상을 8개의 시점으로 구성하고 나머지 추가 시점 영상을 낮은 정도의 해상도로 생성할 수 있다. 바탕 시점 영상을 4개 시점으로 구성하는 경우는 8개 시점으로 구성하는 경우보다 픽셀 수가 많지 않아 단말에서 낮은 복잡도로 처리할 수 있지만 복원 정확도(화질)는 떨어지게 된다.For example, in an image of 16 viewpoints with a resolution of 2048x2048, the background viewpoint image is composed of 4 viewpoints and the remaining additional viewpoint images are generated at medium resolution, or the background viewpoint image is composed of 8 viewpoints and the remaining additional viewpoint images are generated. can be created at a low degree of resolution. In the case of configuring the background view image with 4 views, the number of pixels is not greater than in the case of configuring the image with 8 views, so the terminal can process it with low complexity, but the restoration accuracy (image quality) is degraded.

따라서, 아틀라스 생성부(120)는, 타겟으로 하는 디코더 단말의 하드웨어 구성 또는 디코더 단말의 요청에 따라 바탕 시점 영상의 해상도를 결정하고, 이에 맞추어 입력되는 소정 개수 시점의 영상을 바탕 시점과 추가 시점으로 구분하여 아틀라스 영상을 생성할 수 있다.Therefore, the atlas generator 120 determines the resolution of the background view image according to the hardware configuration of the target decoder terminal or the request of the decoder terminal, and converts the input images of a predetermined number of views into the base view and the additional view. It is possible to create an atlas image by dividing the image.

아틀라스 생성부(120)는, 바탕 시점 영상과 추가 시점 영상의 비율, 즉 프레임 당 바탕 시점 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율을 계산하는데(S720), 예를 들어 프레임 당 바탕 시점 영상의 픽셀 수가 2,073,600이고 추가 시점 영상의 픽셀 수가 298,741일 때, 디코더에서 합성(또는 복원) 영상의 픽셀 수와 바탕 시점 영상의 픽셀 수 비율은 298,741/(2,073,600 + 298,741)로 계산할 수 있다.The atlas generating unit 120 calculates the ratio between the background view image and the additional view image, that is, the ratio between the number of pixels of the background view image and the number of pixels of the additional view image per frame (S720). For example, the background view per frame. When the number of pixels of the image is 2,073,600 and the number of pixels of the additional view image is 298,741, the ratio of the number of pixels of the synthesized (or reconstructed) image to the number of pixels of the base view image in the decoder can be calculated as 298,741/(2,073,600 + 298,741).

아틀라스 생성부(120)는, GOP 단위로 바탕 시점 영상과 추가 시점 영상의 비율을 결정할 수 있고, 이에 따라 프레임 당 바탕 시점 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율을 계산할 수 있다.The atlas generator 120 may determine the ratio between the background view image and the additional view image in units of GOPs, and accordingly calculate the ratio between the number of pixels of the background view image and the number of pixels of the additional view image per frame.

텍스처 인코더(130)는 바탕 시점 영상과 추가 시점 영상의 텍스처를 HEVC나 VVC 또는 그 밖의 영상 코딩 기법에 따라 인코딩 하여 비트스트림을 생성하되, 양자화부(133)는 바탕 시점 영상과 추가 시점 영상의 변환된 계수들을 복수 개의 양자화 단계(QP)로 양자화하여 양자화 계수 데이터를 생성할 수 있다(S730).The texture encoder 130 encodes the textures of the base-view image and the additional-view image according to HEVC, VVC, or other video coding techniques to generate a bitstream, and the quantization unit 133 converts the base-view image and the additional-view image Quantization coefficient data may be generated by quantizing the quantized coefficients through a plurality of quantization steps (QP) (S730).

양자화부(133)의 품질 제어부는, 복수 개의 양자화 단계로 양자화된 데이터 중에서, 바탕 시점 영상에 대한 양자화 계수 데이터와 추가 시점 영상에 대한 양자화 계수 데이터를 각각 선택하여 하나의 타이밍의(해당 타이밍의 프레임을 구성하는) 양자화 계수 데이터를 구성하되, 바탕 및 추가 시점 영상의 픽셀 수 비율을 근거로 바탕 시점 영상에 대해 선택한 양자화 계수 데이터에 적용된 양자화 단계와는 다른 양자화 단계가 적용된 추가 시점 영상의 양자화 계수 데이터를 선택할 수 있는데(S740), 이때 바탕 및 추가 시점 영상의 양자화 계수 데이터는 목표로 하는 RD-cost 조건을 만족해야 한다.The quality control unit of the quantization unit 133 selects quantization coefficient data for a base view image and quantization coefficient data for an additional view image from among data quantized in a plurality of quantization steps, and selects one timing (frame at the corresponding timing). Constructing) quantization coefficient data, but quantization coefficient data of the additional viewpoint image to which a quantization step different from that applied to the quantization coefficient data selected for the base viewpoint image is applied based on the pixel number ratio of the base and additional viewpoint images can be selected (S740). At this time, the quantization coefficient data of the background and additional view images must satisfy the target RD-cost condition.

양자화부(133)의 품질 제어부는, 픽셀 수 비율에 따라 바탕 시점 영상과 추가 시점 영상에 대해 비대칭으로 양자화 단계를 선택하고, 선택된 양자화 단계에 의해 양자화된 양자화 변환 데이터가 RD-cost 조건을 만족하는지 확인하고, RD-cost 조건을 만족하지 않는 경우 RD-cost 조건을 만족할 때까지 바탕 시점 영상과 추가 시점 영상에 대한 양자화 단계를 선택할 수 있다. RD-cost 조건의 만족 여부는 프레임 단위로 이루어질 수 있다.The quality control unit of the quantization unit 133 asymmetrically selects a quantization step for the base view image and the additional view image according to the ratio of the number of pixels, and determines whether the quantized transformation data quantized by the selected quantization step satisfies the RD-cost condition. After checking, and when the RD-cost condition is not satisfied, quantization steps for the base view image and the additional view image may be selected until the RD-cost condition is satisfied. Satisfaction of the RD-cost condition may be performed in units of frames.

어떤 값으로 바탕 시점 영상과 추가 시점 영상에 대한 양자화 단계를 선택하더라도 설정된 RD-cost 조건을 만족하지 못하는 경우, 바탕 시점 영상의 픽셀 수의 목표 값을 조정하여 S710 단계부터 바탕 시점 영상과 추가 시점 영상을 생성하는 과정부터 다시 수행할 수 있다.If the set RD-cost condition is not satisfied even though the quantization step for the background and additional view images is selected with a certain value, the target value of the number of pixels of the background view image is adjusted to obtain the base view image and the additional view image from step S710. It can be performed again from the process of creating .

양자화부(133)는 바탕 시점 영상과 추가 시점 영상에 적용된 양자화 단계와 관련된 정보를 메타데이터 구성부(140)에 전달하고, 메타데이터 구성부(140)는 양자화 단계와 관련된 정보를 메타데이터에 반영하여 메타 데이터를 변경하고, 다시점 영상 인코더(100)는 인코더(130)와 메타데이터 구성부(140)가 생성한 데이터를 다시점 영상 포맷의 비트스트림으로 생성하여 출력할 수 있다(S750).The quantization unit 133 transfers information related to the quantization step applied to the base view image and the additional view image to the metadata constructing unit 140, and the metadata constructing unit 140 reflects the information related to the quantization step to the metadata. to change the metadata, and the multi-view image encoder 100 may generate and output the data generated by the encoder 130 and the metadata configuration unit 140 as a bit stream in a multi-view image format (S750).

다시점 영상 인코더(100)가 생성된 비트스트림은 네트워크를 통하여 다시점 영상 디코더가 포함된 클라이언트 장치에 전송되거나 또는 디지털 저장 매체에 저장될 수 있다.The bitstream generated by the multi-view image encoder 100 may be transmitted to a client device including a multi-view image decoder through a network or stored in a digital storage medium.

도 8은 바탕 시점 영상과 추가 시점 영상 모두 각각 단일하게 QP1과 QP2로 압축하였을 때의 합성 영상의 차이를 도시한 것이고, 도 9는 바탕 시점 영상은 QP1으로 추가 시점 영상은 QP2로 품질을 낮추어 압축하였을 때 합성 영상의 차이를 도시한 것이다.8 shows the difference between synthetic images when both the background view image and the additional view image are individually compressed with QP1 and QP2, respectively, and FIG. It shows the difference of the synthesized image when it is done.

이 명세서의 실시예가 제안하는 방법의 효율을 검증하기 위해 MPEG-I에서 정의되어 있는 공통 실험 조건(Common Test Conditions) 영상 3개를 선정하여 시뮬레이션을 진행하였다. 영상 부호화에는 HEVC test model (HM) 16.20 버전을 사용하였고, 패치를 1개 이상 포함하는 영상을 추가 시점으로 정의하였다.In order to verify the efficiency of the method proposed by the embodiments of this specification, three images of Common Test Conditions defined in MPEG-I were selected and simulated. HEVC test model (HM) version 16.20 was used for image encoding, and an image including one or more patches was defined as an additional viewpoint.

바탕 및 추가 시점 영상의 변환 데이터에 적용한 양자화 파라미터는 QP1에서 QP5까지로 구성하였고, 추가 시점의 경우 바탕 시점보다 양자화 파라미터의 값을 1단계 높여(더 낮은 품질의 양자화 파라미터로) 부호화를 진행하였다.The quantization parameters applied to the transformation data of the background and additional view images consisted of QP1 to QP5, and in the case of the additional view, the value of the quantization parameter was increased by one step (with a quantization parameter of lower quality) than the background view, and encoding was performed.

도 8과는 달리 도 9에서는 오직 합성에서 영향을 끼치는 부분에 대해서만 손실이 일어난 것을 확인할 수 있고, 이는 추가 시점 영상의 정보량에 따라 압축에 있어서의 품질 손실이 기존의 영상들과는 다른 방식으로 일어날 수 있음을 시사한다.Unlike FIG. 8, in FIG. 9, it can be confirmed that loss occurs only in the part that has an effect on synthesis, and this means that the quality loss in compression may occur in a different way from existing images according to the amount of information of the image of the additional view point. suggests

공통 실험 조건을 따라 바탕 시점과 추가 시점을 부호화하고, 이를 다시 복호화한 뒤 바탕 시점과 추가 시점으로 다시 각 시점의 원본 영상들을 복원했을 때의 평균에 대하여 품질 평가를 계산하였는데, 양자화 파라미터를 바탕 시점 영상과 추가 시점 영상에 비대칭으로 적용하여 압축을 진행하였을 때 기존 대비 -10~30%의 비트레이트 이득을 얻을 수 있는 것을 확인하였다.Based on the common experimental conditions, the base view and the additional view were encoded, decoded again, and the quality evaluation was calculated on the average when the original images of each view were reconstructed with the base and additional view. It was confirmed that a bitrate gain of -10 to 30% compared to the previous method could be obtained when compression was applied asymmetrically to the video and the additional view video.

즉, 몰입형 비디오에서는 일반적인 360 영상과는 달리 영상의 합성 과정이 존재하여 중요도가 낮은 영상들은 품질을 낮추더라도 최종 합성 영상에서는 그 손실이 비교적 적을 수 있음을 확인하고, 중요도가 떨어지는 추가 시점 영상을 품질을 낮추어 전송하였을 때 실제로 품질 대비 대역폭 전송 효율이 증가함을 확인할 수 있다.That is, in immersive video, unlike general 360 video, there is an image synthesis process, so even if the quality of low-important images is lowered, it is confirmed that the loss can be relatively small in the final synthesized image, and additional viewpoint images of low importance are created. It can be seen that the bandwidth transmission efficiency compared to the quality actually increases when the quality is lowered.

본 명세서에 개시된 비대칭 양자화 할당 기법 및 전송 기술은 6DoF 몰입형 비디오 영상 스트리밍에 활용될 수 있다. 사용자의 시점에 대응할 가상 시점을 합성하기 위해 다수의 영상이 필요한 만큼 요구되는 대역폭도 매우 큰 단점이 있다. 이 명세서의 실시예에 따른 기법을 통해 각 영상의 중요도에 따라 적응적으로 감상하는 영상의 품질의 손실을 최소화하면서도 전송되는 비트레이트를 효과적으로 절감할 수 있다.The asymmetric quantization allocation technique and transmission technique disclosed in this specification can be used for 6DoF immersive video image streaming. As many images are needed to synthesize a virtual viewpoint corresponding to the user's viewpoint, the required bandwidth is also very large. Through the technique according to the embodiment of this specification, it is possible to effectively reduce the transmitted bit rate while minimizing the quality loss of the video adaptively enjoyed according to the importance of each video.

이 명세서에 개시된 실시예의 기술은, 비트스트림을 분할하여 전송하는 스트리밍 서비스인 MPEG DASH, 마이크로소프트의 Smooth 스트리밍(Smooth Streaming), 애플의 HLS(HTTP Live Streaming) 등에도 적용이 가능하다.The technology of the embodiment disclosed in this specification can also be applied to MPEG DASH, which is a streaming service that divides and transmits a bitstream, Microsoft's Smooth Streaming, Apple's HLS (HTTP Live Streaming), and the like.

이 명세서의 다시점 영상 처리 방법과 장치에 대한 다양한 실시예들을 간단하고 명료하게 설명하면 다음과 같다.Various embodiments of the multi-view image processing method and apparatus of this specification will be briefly and clearly described as follows.

일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어질 수 있다.A multi-view image encoding method according to an embodiment includes dividing an image of a plurality of views into a base view image and an additional view image; calculating a ratio of an additional view image to a background view image; obtaining transform coefficients by performing a prediction operation and a transform operation on the base view image and the additional view image, and obtaining a quantization transform coefficient by quantizing the transform coefficients of the base view image and the additional view image in a plurality of quantization steps, respectively; selecting quantization transform coefficients quantized in a first quantization step and a second quantization step for a base view image and an additional view image, respectively, from among quantization transform coefficients quantized in a plurality of quantization steps, based on the ratio; and entropy-coding the selected quantization transform coefficients.

일 실시예에서, 비율은 디코더가 바탕 시점 영상과 추가 시점 영상을 이용하여 합성하는 합성 영상에서 추가 시점 영상이 차지하는 비율로 계산될 수 있다.In an embodiment, the ratio may be calculated as a ratio occupied by an additional view image in a synthesized image synthesized by a decoder using a base view image and an additional view image.

일 실시예에서, 비율은 합성 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율일 수 있다.In an embodiment, the ratio may be a ratio of the number of pixels of the synthesized image to the number of pixels of the additional viewpoint image.

일 실시예에서, 선택하는 단계는 목표로 하는 율-왜곡 비용을 만족하도록 하는 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택할 수 있다.In one embodiment, the selecting step may select quantization transform coefficients quantized by the first quantization step and the second quantization step to satisfy a target rate-distortion cost.

일 실시예에서, 율-왜곡 비용의 만족 여부는 프레임 단위로 이루어질 수 있다.In one embodiment, whether or not the rate-distortion cost is satisfied may be made in units of frames.

일 실시예에서, 선택하는 단계에서 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 율-왜곡 비용을 만족하도록 하는 양자화 단계로 양자화된 양자화 변환 계수가 없을 때, 바탕 시점 영상의 픽셀 수를 변경하고, 변경된 픽셀 수를 적용하여, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 다시 분할하고, 비율을 계산하고, 양자화 변환 계수를 얻고, 양자화 변환 계수를 선택하는 단계를 다시 수행할 수 있다.In one embodiment, when there is no quantization transform coefficient quantized in a quantization step satisfying a rate-distortion cost among quantization transform coefficients quantized in a plurality of quantization steps in the selection step, changing the number of pixels of a base view image; By applying the changed number of pixels, the steps of dividing images of a plurality of views into a base view image and an additional view image, calculating a ratio, obtaining quantization transform coefficients, and selecting quantization transform coefficients may be performed again.

일 실시예에서, 계산하는 단계는 GOP(Group Of Picture) 단위로 비율을 계산할 수 있다.In one embodiment, the calculating step may calculate the ratio in units of GOP (Group Of Picture).

일 실시예에서, 선택하는 단계는, 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 대해 각각 정해진 양자화 단계를 적용하여 양자화 변환 계수를 결정할 수 있다.In an embodiment, in the selecting step, a quantization transform coefficient may be determined by dividing the ratio into a plurality of ranges and applying a predetermined quantization step to each of the base view image and the additional view image for each range.

일 실시예에서, 비율이 각각 제1 값 및 제1 값보다 작은 제2 값이고, 추가 시점 영상에 대해 제1 값과 제2 값을 근거로 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 제2-2 단계는 제2-1 단계보다 품질이 더 낮은 양자화 단계일 수 있다.In an embodiment, the ratio is a first value and a second value smaller than the first value, respectively, and a second value applied when generating a quantization transform coefficient selected based on the first value and the second value for the additional view image. When the quantization steps are the 2-1st step and the 2-2nd step, respectively, the 2-2nd step may be a quantization step with lower quality than the 2-1st step.

일 실시예에서, 분할하는 단계는, 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상을 선택하여 바탕 시점 아틀라스를 생성하고, 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상으로 선택되지 않은 나머지 시점의 영상에서 바탕 시점 영상과 중복을 제거하고 남은 패치 영상으로 추가 시점 아틀라스를 생성할 수 있다.In an embodiment, the dividing step may include selecting one or more background view images from among a plurality of view images to generate a background view atlas, and images of remaining views that are not selected as one or more background view images from among the plurality of view images. In this method, an additional viewpoint atlas can be created with the remaining patch image after removing overlap with the background viewpoint image.

일 실시예에서, 다시점 영상 인코딩 방법은, 바탕 시점 영상과 추가 시점 영상의 구성 정보 및/또는 바탕 시점 영상과 추가 시점 영상으로부터 합성 영상을 생성하기 위한 제어 정보를 포함하는 메타데이터에 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 단계를 더 포함하여 이루어질 수 있다.In an embodiment, the multi-view image encoding method includes quantization transformation selected for metadata including configuration information of a base view image and an additional view image and/or control information for generating a synthesized image from the base view image and the additional view image. A step of reflecting information related to a quantization step applied to generation of coefficients may be further included.

다른 실시예에 따른 다시점 영상 인코딩 장치는, 복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 선택되지 않은 나머지 시점의 추가 시점 영상에서 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 바탕 시점 영상과 패치 영상의 비율을 계산하기 위한 아틀라스 생성부; 바탕 시점 아틀라스에 포함된 바탕 시점 영상과 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고, 텍스처 인코더는, 바탕 시점 영상과 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 시점 영상 및 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 비율을 근거로 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 바탕 시점 영상과 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 선택된 양자화 변환 계수를 엔트로피 코딩할 수 있다.An apparatus for encoding a multi-view image according to another embodiment includes a background view atlas including a background view image selected as a background view among images of a plurality of views and a portion overlapping with a background view image in additional view images of the remaining unselected views. an atlas generation unit for generating a background view atlas including the patch image generated by removing the patch, and calculating a ratio between the background view image and the patch image; a texture encoder for encoding the base view image included in the base view atlas and the patch image included in the additional view atlas using a 2D codec; and a metadata construction unit for encoding configuration information of the base view atlas and the additional view atlas and/or control information for controlling a synthesis process of the base view atlas and the additional view atlas, and outputting the encoded metadata as metadata, wherein the texture encoder is configured. obtains transformation coefficients by performing a prediction operation and transformation operation on the background view image and the patch image, obtains a quantization transformation coefficient by quantizing the transformation coefficients of the background view image and the patch image in a plurality of quantization steps, respectively, and calculates the ratio Based on this, quantization transform coefficients quantized in the first quantization step and the second quantization step are selected for the background view image and the patch image, respectively, among the quantization transform coefficients quantized in a plurality of quantization steps, and the selected quantization transform coefficients can be entropy-coded. there is.

일 실시예에서, 비율은 디코더가 바탕 시점 아틀라스와 추가 시점 아틀라스를 이용하여 합성하는 합성 영상에서 추가 시점 아틀라스가 차지하는 비율로 계산될 수 있다.In an embodiment, the ratio may be calculated as a ratio occupied by the additional view atlas in a synthesized image synthesized by the decoder using the base view atlas and the additional view atlas.

일 실시예에서, 비율은 합성 영상의 픽셀 수와 추가 시점 아틀라스의 픽셀 수의 비율일 수 있다.In an embodiment, the ratio may be a ratio of the number of pixels of the synthesized image to the number of pixels of the additional viewpoint atlas.

일 실시예에서, 텍스처 인코더는 목표로 하는 율-왜곡 비용을 만족하도록 하는 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택할 수 있다.In one embodiment, the texture encoder may select quantization transform coefficients quantized in the first quantization step and the second quantization step to satisfy a target rate-distortion cost.

일 실시예에서, 텍스처 인코더는 율-왜곡 비용의 만족 여부를 결정하는 동작을 프레임 단위로 수행할 수 있다.In one embodiment, the texture encoder may perform an operation of determining whether a rate-distortion cost is satisfied in units of frames.

일 실시예에서, 아틀라스 생성부는 GOP(Group Of Picture) 단위로 비율을 계산할 수 있다.In one embodiment, the atlas generating unit may calculate the ratio in units of Group Of Pictures (GOP).

일 실시예에서, 텍스처 인코더는, 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 패치 영상에 대해 각각 정해진 양자화 단계를 적용하여 양자화 변환 계수를 결정할 수 있다.In an embodiment, the texture encoder may divide the ratio into a plurality of ranges and determine quantization transform coefficients by applying predetermined quantization steps to each of the base view image and the patch image for each range.

일 실시예에서, 비율이 각각 제1 값 및 제1 값보다 작은 제2 값이고, 추가 시점 영상에 대해 제1 값과 제2 값을 근거로 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 제2-2 단계는 제2-1 단계보다 품질이 더 낮은 양자화 단계일 수 있다.In an embodiment, the ratio is a first value and a second value smaller than the first value, respectively, and a second value applied when generating a quantization transform coefficient selected based on the first value and the second value for the additional view image. When the quantization steps are the 2-1st step and the 2-2nd step, respectively, the 2-2nd step may be a quantization step with lower quality than the 2-1st step.

일 실시예에서, 메타데이터 구성부는 메타데이터에 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영할 수 있다.In one embodiment, the metadata configuration unit may reflect information related to a quantization step applied to generation of the selected quantization transform coefficient in metadata.

또 다른 실시예에 따른 다시점 영상 디코딩 장치는, 2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더; 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서; 메타데이터를 이용하여 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및 메타데이터와 패치 점유 지도를 이용하여 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고, 메타데이터는 바탕 시점 영상과 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고, 텍스처 디코더는 양자화 단계와 관련된 정보를 이용하여 바탕 시점 영상과 패치 영상의 양자화 변환 계수를 역양자화하고, 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 바탕 시점 영상과 패치 영상을 복원하고, 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 패치 영상의 변환 계수에 적용된 양자화 단계는 바탕 시점 영상과 패치 영상의 비율을 근거로 서로 다른 값으로 결정될 수 있다.An apparatus for decoding a multi-view image according to another embodiment includes a texture decoder configured to generate a base view atlas and an additional view atlas by decoding encoded texture data of a base view and an additional view using a 2D codec; a metadata parser for interpreting metadata including configuration information of the base view atlas and the additional view atlas and/or control information for controlling a synthesis process of the base view atlas and the additional view atlas; an atlas patch occupancy map generation unit for generating a patch occupancy map by determining a location and direction in which a patch image included in an additional viewpoint atlas is to be placed using metadata; and a reproduction unit for generating an image corresponding to the motion of the viewer from the base view atlas and the additional view atlas using the metadata and the patch occupancy map, wherein the metadata is a quantization conversion coefficient of the base view image and the patch image. It further includes information related to the quantization step applied to the generation, and the texture decoder uses the information related to the quantization step to inverse quantize the quantization transform coefficients of the base view image and the patch image, and inverse transform the inverse quantized transform coefficients to obtain residual samples. and restores the base view image and the patch image by generating reconstructed samples using the residual samples and prediction samples generated by the prediction operation, and the quantization step applied to the transform coefficient of the base view image and the transform coefficient of the patch image The quantization step applied to can be determined as different values based on the ratio of the background view image and the patch image.

이 명세서의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 이 명세서의 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.The embodiments of this specification may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. Computer readable media may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the medium may be those specially designed and configured for the embodiments of this specification, or those known and usable to those skilled in computer software.

컴퓨터 판독 가능 기록 매체의 예로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, BD와 같은 광 기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 롬(ROM), 램(RAM), 플래시 메모리 등이 포함될 수 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 이 명세서의 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs, DVDs, and BDs, and magneto-optical media such as floptical disks. -optical), ROM (ROM), RAM (RAM), flash memory, etc. may be included. Examples of the program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those produced by a compiler. A hardware device may be configured to act as one or more software modules to perform the operations of the embodiments herein, and vice versa.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정해져야만 할 것이다.Through the above description, those skilled in the art will know that various changes and modifications are possible without departing from the spirit of the present invention. Therefore, the technical scope of the present invention is not limited to the contents described in the detailed description of the specification, but should be defined by the claims.

100: 다시점 영상 인코더 110: 시점 최적화부
120: 아틀라스 생성부 130: 인코더
131: 예측부 132: 변환부
133: 양자화부 134: 엔트로피 인코딩부
140: 메타데이터 구성부 200: 다시점 영상 디코더
210: 디코더 220: 메타데이터 파서
230: 아틀라스 패치 점유 지도 생성부
240: 재생부
100: Multi-View Video Encoder 110: View Optimization Unit
120: atlas generator 130: encoder
131: prediction unit 132: conversion unit
133: quantization unit 134: entropy encoding unit
140: metadata construction unit 200: multi-view image decoder
210: decoder 220: metadata parser
230: Atlas patch occupancy map generation unit
240: regeneration unit

Claims (21)

복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계;
상기 바탕 시점 영상 대비 상기 추가 시점 영상의 비율을 계산하는 단계;
상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 상기 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계;
상기 비율을 근거로, 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및
상기 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어지고,
상기 비율은 디코더가 상기 바탕 시점 영상과 상기 추가 시점 영상을 이용하여 합성하는 합성 영상에서 상기 합성 영상의 픽셀 수와 상기 추가 시점 영상의 픽셀 수의 비율인 것을 특징으로 하는 다시점 영상 인코딩 방법.
dividing an image of a plurality of viewpoints into a base viewpoint image and an additional viewpoint image;
calculating a ratio of the background view image to the additional view image;
obtaining transform coefficients by performing a prediction operation and a transform operation on the base view image and the additional view image, and obtaining a quantization transform coefficient by quantizing the transform coefficients of the base and additional view images in a plurality of quantization steps, respectively;
Selecting quantized transform coefficients quantized in a first quantization step and a second quantization step for the base view image and the additional view image, respectively, from among the quantized transform coefficients quantized in the plurality of quantization steps, based on the ratio. ; and
Entropy coding the selected quantization transform coefficients,
The ratio is a ratio of the number of pixels of the synthesized image to the number of pixels of the additional view image in a synthesized image synthesized by a decoder using the base view image and the additional view image.
삭제delete 삭제delete 제1 항에 있어서,
상기 선택하는 단계는, 목표로 하는 율-왜곡 비용을 만족하도록 하는 상기 제1 양자화 단계와 상기 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
The selecting step selects quantization transform coefficients quantized in the first quantization step and the second quantization step to satisfy a target rate-distortion cost.
제4 항에 있어서,
상기 율-왜곡 비용의 만족 여부는 프레임 단위로 이루어지는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 4,
The multi-view video encoding method, characterized in that whether the rate-distortion cost is satisfied is performed in units of frames.
제4 항에 있어서,
상기 선택하는 단계에서 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 상기 율-왜곡 비용을 만족하도록 하는 양자화 단계로 양자화된 양자화 변환 계수가 없을 때, 상기 바탕 시점 영상의 픽셀 수를 변경하고, 상기 변경된 픽셀 수를 적용하여, 상기 복수 개 시점의 영상을 상기 바탕 시점 영상과 추가 시점 영상으로 다시 분할하고, 상기 비율을 계산하고, 상기 양자화 변환 계수를 얻고, 상기 양자화 변환 계수를 선택하는 단계를 다시 수행하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 4,
In the selecting step, when there is no quantization transform coefficient quantized in the quantization step satisfying the rate-distortion cost among the quantization transform coefficients quantized in the plurality of quantization steps, the number of pixels of the base view image is changed; The steps of dividing the images of the plurality of views into the base view image and the additional view image by applying the changed number of pixels, calculating the ratio, obtaining the quantization transform coefficients, and selecting the quantization transform coefficients again. A multi-view video encoding method characterized in that it is performed.
제1 항에 있어서,
상기 계산하는 단계는 GOP(Group Of Picture) 단위로 상기 비율을 계산하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
The calculating step is a multi-view video encoding method, characterized in that for calculating the ratio in units of GOP (Group Of Picture).
제1 항에 있어서,
상기 선택하는 단계는, 상기 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 각각 정해진 양자화 단계를 적용하여 상기 양자화 변환 계수를 결정하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
The selecting step divides the ratio into a plurality of ranges, and determines the quantization transform coefficient by applying a predetermined quantization step to each of the base view image and the additional view image for each range. Point image encoding method.
제1 항에 있어서,
상기 비율이 각각 제1 값 및 상기 제1 값보다 작은 제2 값이고, 상기 추가 시점 영상에 대해 상기 제1 값과 제2 값을 근거로 상기 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 상기 제2-2 단계는 상기 제2-1 단계보다 품질이 더 낮은 양자화 단계인 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
A second value applied when the ratio is a first value and a second value smaller than the first value, and the selected quantization transform coefficient is generated based on the first value and the second value for the additional view image. When the quantization steps are steps 2-1 and 2-2, respectively, the step 2-2 is a quantization step having a lower quality than the step 2-1.
제1 항에 있어서,
상기 분할하는 단계는, 상기 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상을 선택하여 바탕 시점 아틀라스를 생성하고, 상기 복수 개의 시점의 영상 중에서 상기 하나 이상의 바탕 시점 영상으로 선택되지 않은 나머지 시점의 영상에서 상기 바탕 시점 영상과 중복을 제거하고 남은 패치 영상으로 추가 시점 아틀라스를 생성하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
The dividing step may include selecting one or more background viewpoint images from among the plurality of viewpoint images to generate a background viewpoint atlas, and generating a background viewpoint atlas from images of remaining viewpoints not selected as the one or more background viewpoint images among the plurality of viewpoint images. A method of encoding a multi-view image, characterized in that an additional view atlas is generated from the patch image remaining after removing the overlap with the background view image.
제1 항에 있어서,
상기 바탕 시점 영상과 상기 추가 시점 영상의 구성 정보 및/또는 상기 바탕 시점 영상과 상기 추가 시점 영상으로부터 합성 영상을 생성하기 위한 제어 정보를 포함하는 메타데이터에 상기 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 다시점 영상 인코딩 방법.
According to claim 1,
A quantization step applied to generation of the selected quantization transform coefficient to metadata including configuration information of the base view image and the additional view image and/or control information for generating a synthesized image from the base view image and the additional view image. A multi-view video encoding method characterized in that it further comprises the step of reflecting information related to.
복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 상기 선택되지 않은 나머지 시점의 추가 시점 영상에서 상기 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 상기 바탕 시점 영상과 상기 패치 영상의 비율을 계산하기 위한 아틀라스 생성부;
상기 바탕 시점 아틀라스에 포함된 상기 바탕 시점 영상과 상기 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및
상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 구성 정보 및/또는 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고,
상기 텍스처 인코더는, 상기 바탕 시점 영상과 상기 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 상기 바탕 시점 영상 및 상기 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 상기 비율을 근거로 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 상기 바탕 시점 영상과 상기 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 상기 선택된 양자화 변환 계수를 엔트로피 코딩하고,
상기 비율은 디코더가 상기 바탕 시점 영상과 상기 추가 시점 영상을 이용하여 합성하는 합성 영상에서 상기 합성 영상의 픽셀 수와 상기 추가 시점 영상의 픽셀 수의 비율인 것을 특징으로 하는 다시점 영상 인코딩 장치.
A background view atlas including a background view image selected as a background view from among images of a plurality of view points and a background view including a patch image generated by removing portions overlapping with the background view image from additional view images of the remaining unselected views an atlas generator for generating a viewpoint atlas and calculating a ratio between the background viewpoint image and the patch image;
a texture encoder for encoding the background view image included in the background view atlas and the patch image included in the additional view atlas using a 2D codec; and
It is configured to include a metadata configuration unit for encoding configuration information of the base view atlas and the additional view atlas and/or control information for controlling a process of synthesizing the base view atlas and the additional view atlas and outputting them as metadata; ,
The texture encoder obtains transform coefficients by performing a prediction operation and a transform operation on the base view image and the patch image, and quantizes the transform coefficients of the base view image and the patch image in a plurality of quantization steps, respectively. A transform coefficient is obtained, and based on the ratio, quantized transform coefficients quantized in the first quantization step and the second quantization step are selected for the background view image and the patch image, respectively, from among the quantized transform coefficients quantized in the plurality of quantization steps. and entropy-coding the selected quantization transform coefficients.
The ratio is a ratio of the number of pixels of the synthesized image to the number of pixels of the additional view image in a synthesized image synthesized by a decoder using the base view image and the additional view image.
삭제delete 삭제delete 제12 항에 있어서,
상기 텍스처 인코더는 목표로 하는 율-왜곡 비용을 만족하도록 하는 상기 제1 양자화 단계와 상기 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 12,
The texture encoder selects quantized transform coefficients quantized in the first quantization step and the second quantization step to satisfy a target rate-distortion cost.
제15 항에 있어서,
상기 텍스처 인코더는 상기 율-왜곡 비용의 만족 여부를 결정하는 동작을 프레임 단위로 수행하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 15,
The multi-view video encoding apparatus of claim 1 , wherein the texture encoder performs an operation of determining whether the rate-distortion cost is satisfied in units of frames.
제12 항에 있어서,
상기 아틀라스 생성부는 GOP(Group Of Picture) 단위로 상기 비율을 계산하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 12,
The atlas generating unit calculates the ratio in a group of picture (GOP) unit.
제12 항에 있어서,
상기 텍스처 인코더는, 상기 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 상기 바탕 시점 영상과 상기 패치 영상에 대해 각각 정해진 양자화 단계를 적용하여 상기 양자화 변환 계수를 결정하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 12,
The texture encoder divides the ratio into a plurality of ranges, and determines the quantization transform coefficient by applying a predetermined quantization step to each of the base view image and the patch image for each range. encoding device.
제12 항에 있어서,
상기 비율이 각각 제1 값 및 상기 제1 값보다 작은 제2 값이고, 상기 추가 시점 영상에 대해 상기 제1 값과 제2 값을 근거로 상기 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 상기 제2-2 단계는 상기 제2-1 단계보다 품질이 더 낮은 양자화 단계인 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 12,
A second value applied when the ratio is a first value and a second value smaller than the first value, and the selected quantization transform coefficient is generated based on the first value and the second value for the additional view image. When the quantization steps are the 2-1 step and the 2-2 step, respectively, the multi-view video encoding apparatus, characterized in that the 2-2 step is a quantization step with lower quality than the 2-1 step.
제12 항에 있어서,
상기 메타데이터 구성부는 상기 메타데이터에 상기 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
According to claim 12,
The multi-view video encoding apparatus of claim 1 , wherein the metadata construction unit reflects information related to a quantization step applied to the generation of the selected quantization transformation coefficient in the metadata.
2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더;
상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 구성 정보 및/또는 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서;
상기 메타데이터를 이용하여 상기 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및
상기 메타데이터와 상기 패치 점유 지도를 이용하여 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고,
상기 메타데이터는 상기 바탕 시점 영상과 상기 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고,
상기 텍스처 디코더는 상기 양자화 단계와 관련된 정보를 이용하여 상기 바탕 시점 영상과 상기 패치 영상의 양자화 변환 계수를 역양자화하고, 상기 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 상기 바탕 시점 영상과 상기 패치 영상을 복원하고,
상기 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 상기 패치 영상의 변환 계수에 적용된 양자화 단계는 상기 바탕 시점 영상과 상기 패치 영상의 비율을 근거로 서로 다른 값으로 결정되고,
상기 비율은 디코더가 상기 바탕 시점 영상과 상기 추가 시점 영상을 이용하여 합성하는 합성 영상에서 상기 합성 영상의 픽셀 수와 상기 추가 시점 영상의 픽셀 수의 비율인 것을 특징으로 하는 다시점 영상 디코딩 장치.
a texture decoder for generating a basic view atlas and an additional view atlas by decoding encoded texture data of a basic view and an additional view using a 2D codec;
a metadata parser for interpreting metadata including configuration information of the basic view atlas and the additional view atlas and/or control information for controlling a synthesis process of the basic view atlas and the additional view atlas;
an atlas patch occupancy map generating unit configured to generate a patch occupancy map by determining a position and direction in which a patch image included in the atlas of the additional viewpoint is to be placed using the metadata; and
A playback unit configured to generate an image corresponding to a motion of a viewer from the base view atlas and the additional view atlas using the metadata and the patch occupancy map;
The metadata further includes information related to a quantization step applied to generation of quantization transformation coefficients of the base view image and the patch image;
The texture decoder inversely quantizes quantization transform coefficients of the base view image and the patch image using information related to the quantization step, inversely transforms the inversely quantized transform coefficient, and restores residual samples, Restoring the base view image and the patch image by generating reconstructed samples using prediction samples generated by the prediction operation and the prediction operation;
A quantization step applied to a transform coefficient of the background view image and a quantization step applied to a transform coefficient of the patch image are determined to be different values based on a ratio between the background view image and the patch image;
The ratio is a ratio of the number of pixels of the synthesized image to the number of pixels of the additional view image in a synthesized image synthesized by a decoder using the base view image and the additional view image.
KR1020210150072A 2020-11-03 2021-11-03 Method and device of processing multi-view video KR102500199B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200145447 2020-11-03
KR1020200145447 2020-11-03

Publications (2)

Publication Number Publication Date
KR20220059929A KR20220059929A (en) 2022-05-10
KR102500199B1 true KR102500199B1 (en) 2023-02-16

Family

ID=81591967

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210150072A KR102500199B1 (en) 2020-11-03 2021-11-03 Method and device of processing multi-view video

Country Status (1)

Country Link
KR (1) KR102500199B1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786861B1 (en) * 2002-10-02 2007-12-20 삼성에스디아이 주식회사 Autostereoscopic display device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허1*

Also Published As

Publication number Publication date
KR20220059929A (en) 2022-05-10

Similar Documents

Publication Publication Date Title
JP7446988B2 (en) Method and apparatus for configuring conversion for video compression
JP7053947B2 (en) How to decode video sequences, equipment and computer programs
KR101687863B1 (en) Encoder and method
JP7262602B2 (en) Techniques for generalized TRISOUP geometry encoding
US11778232B2 (en) Video decoding method using residual information in video coding system, and apparatus thereof
JP2021513302A (en) Decoding or encoding methods, equipment and media
JP2021520144A (en) Methods for decoding or encoding as well as equipment and computer programs
JP2022530765A (en) How to code attributes for point cloud coding
JP2022514548A (en) Point cloud decompression method, point cloud compression method and equipment
KR20150129095A (en) Decoder and method
CN111641834B (en) Method and device for point cloud coding, computer equipment and storage medium
CN114586353A (en) Image coding method and device based on transformation
CN114747220B (en) Image coding method based on transformation and device thereof
JP2022551250A (en) Signaling-based picture or video coding of transform skip and palette coding related information
CN114930847A (en) Image coding method and device based on transformation
KR102500199B1 (en) Method and device of processing multi-view video
CN114930848A (en) Image coding method based on transformation and apparatus thereof
US20240048764A1 (en) Method and apparatus for multi view video encoding and decoding, and method for transmitting bitstream generated by the multi view video encoding method
CN114731434A (en) Image coding method and device based on transformation
CN114846799A (en) Image coding method based on transformation and apparatus thereof
CN114930845A (en) Image coding method and device based on transformation
CN114930846A (en) Image coding method and device based on transformation
CN114762343A (en) Image coding method and device based on transformation
CN114342393A (en) Image compiling method based on transformation and equipment thereof
KR20240019021A (en) Method and apparatus for multi view video encoding and decoding, and method for transmitting a bitstream generated by the multi view video encoding method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right