KR20220059929A - 다시점 영상 처리 방법 및 장치 - Google Patents

다시점 영상 처리 방법 및 장치 Download PDF

Info

Publication number
KR20220059929A
KR20220059929A KR1020210150072A KR20210150072A KR20220059929A KR 20220059929 A KR20220059929 A KR 20220059929A KR 1020210150072 A KR1020210150072 A KR 1020210150072A KR 20210150072 A KR20210150072 A KR 20210150072A KR 20220059929 A KR20220059929 A KR 20220059929A
Authority
KR
South Korea
Prior art keywords
image
atlas
additional
quantization
base view
Prior art date
Application number
KR1020210150072A
Other languages
English (en)
Other versions
KR102500199B1 (ko
Inventor
류은석
이순빈
정종범
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Publication of KR20220059929A publication Critical patent/KR20220059929A/ko
Application granted granted Critical
Publication of KR102500199B1 publication Critical patent/KR102500199B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어질 수 있다.

Description

다시점 영상 처리 방법 및 장치 {METHOD AND DEVICE OF PROCESSING MULTI-VIEW VIDEO}
이 명세서는 다시점 영상을 처리하는 방법과 장치에 관한 것이다.
몰입형 비디오(Immersive Video)는 여러 시점의 영상과 깊이 지도 정보를 활용하여 사용자에게 보다 높은 자유도로 감상할 수 있게 하는 기술이다. 이러한 몰입형 비디오 서비스를 원활히 제공하기 위해서는 다수의 영상이 필요하므로 보다 높은 대역폭을 요구하게 된다.
현재 표준화 단체 MPEG(moving picture experts group)에서는 여러 위치에 다양한 시점으로 존재하는 영상들을 취득하고 처리하여 사용자에게 화면 전환 이동에 따른 운동 시차(motion parallax)를 제공할 수 있는 몰입형 미디어 기술에 관한 표준화가 진행되고 있다.
이러한 표준화의 일환으로 2019년 3월 MPEG 126차 회의에서 MPEG-I (Immersive) 서브그룹은 6DoF(degrees of freedom)을 제공하는 몰입형 미디어를 지원하는 테스트 모델(Test Model for Immersive Video, TMIV)를 정의하였다.
6DoF 몰입형 미디어 기술 표준화는 몰입형 미디어를 위한 다수의 영상 처리를 목적으로 MIV(Model for Immersive Video) 기술에 대한 성능 탐색을 현재도 지속적으로 수행하고 있다. 6DoF 기술은 자유로운 사용자의 시선과 움직임에 따른 시점을 지원하므로, 이를 위해 여러 위치에서 취득된 영상들을 동시에 압축 및 전송하여 사용자 시점의 영상을 취득하고 합성하는 과정에서 높은 대역폭과 연산량이 요구된다.
현재 MPEG-I에서는 다수의 영상 처리에 따라 요구되는 비디오 부호화기/복호화기의 개수를 절감하기 위하여, 다수의 영상을 바탕 시점(또는 기본 시점)(Basic view)과 추가 시점(또는 부가 시점)(Additional view)으로 분할하여 인코딩 하는 방식을 채택하고 있다.
하지만, 현재까지는 바탕 시점과 추가 시점을 단일 영상으로 처리하여 적응적인 스트리밍 시나리오에서 효율적인 대역폭 조절에 어려움이 있다.
이 명세서는 이러한 상황을 감안한 것으로, 이 명세서의 목적은 제한된 대역폭 상황에서 최종 출력 영상의 품질 손실을 줄이면서 바탕 시점 영상과 추가 시점 영상을 효율적으로 전송하는 방법을 제공하는 데 있다.
이 명세서의 다른 목적은 전송 대역폭 절감을 위해 바탕 시점 영상과 추가 시점 영상에 대한 최적의 양자화 단계를 선택하는 방법을 제공하는 데 있다.
이 명세서의 일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계인 것을 특징으로 한다.
이 명세서의 다른 실시예에 따른 다시점 영상 인코딩 장치는, 복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 선택되지 않은 나머지 시점의 추가 시점 영상에서 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 바탕 시점 영상과 패치 영상의 비율을 계산하기 위한 아틀라스 생성부; 바탕 시점 아틀라스에 포함된 바탕 시점 영상과 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고, 텍스처 인코더는, 바탕 시점 영상과 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 시점 영상 및 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 비율을 근거로 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 바탕 시점 영상과 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 선택된 양자화 변환 계수를 엔트로피 코딩하는 것을 특징으로 하는 한다.
이 명세서의 다른 실시예에 따른 다시점 영상 디코딩 장치는, 2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더; 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서; 메타데이터를 이용하여 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및 메타데이터와 패치 점유 지도를 이용하여 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고, 메타데이터는 바탕 시점 영상과 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고, 텍스처 디코더는 양자화 단계와 관련된 정보를 이용하여 바탕 시점 영상과 패치 영상의 양자화 변환 계수를 역양자화하고, 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 바탕 시점 영상과 패치 영상을 복원하고, 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 패치 영상의 변환 계수에 적용된 양자화 단계는 바탕 시점 영상과 패치 영상의 비율을 근거로 서로 다른 값으로 결정되는 것을 특징으로 한다.
따라서, 품질 손실을 최소화하면서 전송 대역폭을 절감할 수 있게 된다. 또한, 영상의 특성이나 중요도에 따라 적응적으로 양자화 단계를 선택하여 고품질의 영상을 보다 효율적인 대역폭을 사용하여 전송할 수 있게 된다.
도 1은 이 명세서의 일 실시예에 따른 다시점 영상 인코더의 구성을 기능 블록으로 도시한 것이고,
도 2는 이 명세서의 일 실시예에 따른 다시점 영상 디코더의 구성을 기능 블록으로 도시한 것이고,
도 3은 MPEG 몰입형 비디오(MIV: MPEG Immersive Video) 기술이 다시점 영상을 바탕 시점 영상과 추가 시점 영상으로 나누어 처리하는 예를 도시한 것이고,
도 4는 바탕 시점 영상과 추가 시점 영상의 중복이 많아 추가 시점 영상의 정보량이 적은 예를 도시한 것이고,
도 5는 바탕 시점 영상과 추가 시점 영상의 중복이 적어 추가 시점 영상의 정보량이 많은 예를 도시한 것이고,
도 6은 이 명세서의 일 실시예에 따른 텍스처 인코더의 구성을 도시한 것이고,
도 7은 이 명세서의 일 실시예에 따라 시점에 따라 다른 양자화 단계를 적용한 데이터를 선택하는 방법에 대한 동작 흐름도를 도시한 것이고,
도 8은 바탕 시점 영상과 추가 시점 영상 모두 각각 단일하게 QP1과 QP2로 압축하였을 때의 합성 영상의 차이를 도시한 것이고,
도 9는 바탕 시점 영상은 QP1으로 추가 시점 영상은 QP2로 품질을 낮추어 압축하였을 때 합성 영상의 차이를 도시한 것이다.
이하 첨부된 도면을 참조하여 이 명세서에 따른 다시점 영상 처리 방법 및 장치에 대한 바람직한 실시예들을 상세히 설명한다.
본 명세서에 개시된 기술은 사용자 시점 기반 가상 현실 영상 전송 기술에 적용될 수 있다. 그러나 본 명세서에 개시된 기술은 이에 한정되지 않고, 상기 기술의 기술적 사상이 적용될 수 있는 모든 전자 장치 및 방법에도 적용될 수 있다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
최근 국제 표준화 단체 MPEG의 서브그룹인 MPEG-I 에서는 복수 시점의 영상들을 처리하여 사용자에게 360도 영상을 넘어 사용자의 위치와 화면 전환에 따른 시점을 대응하는 6DoF(degrees of freedom) 기술에 대해 '몰입형 비디오(Immersive Video)라는 이름으로 표준화가 이루어지고 있다.
단순한 360 VR 영상을 넘어 6DoF 영상 스트리밍을 구현하기 위해서는 다양한 시점에서 취득한 영상들과 깊이 영상(또는 깊이 맵)을 이용하여 감상자의 모든 위치와 시야각에 대하여 대응하여야 한다. 이러한 감상자의 시점에 대응하기 위해 여러 시점에 대한 영상을 합성하고 처리하는 가상 시점 합성 과정이 이루어지게 된다.
현재 MIV에서는 깊이 맵 기반 이미지 렌더링(DIBR) 기법을 바탕으로 하여 다수의 영상들을 깊이 맵과 함께 취득한 후, 깊이 맵을 바탕으로 각 영상의 시점과 거리를 계산하여 가상의 영상 시점을 합성하는 방식으로 진행된다. 따라서 사용자의 시선과 위치에 맞도록 시점을 합성해낼 수 있으며, 이로 인해 사용자는 보다 상호작용이 가능하고 몰입감 있는 미디어를 감상할 수 있게 된다.
이를 위해 MPEG-I에서는 다수의 영상을 바탕 시점과 추가 시점으로 분할하는 방식을 채택하고 있다.
도 1은 이 명세서의 일 실시예에 따른 다시점 영상 인코더의 구성을 기능 블록으로 도시한 것이고, 도 2는 이 명세서의 일 실시예에 따른 다시점 영상 디코더의 구성을 기능 블록으로 도시한 것이다.
도 1을 참조하면, 다시점 영상 인코더(100)는, 시점 최적화부(View Optimizer)(110), 아틀라스 생성부(Atlas Constructor)(120), 인코더(Encoder)(130) 및 메타데이터 구성부(Metadata Composer)(140)를 포함하여 구성될 수 있다.
시점 최적화부(110)는, 여러 시점에서의 소스 영상과 깊이 영상(Source Views(T+D))을 입력 받아, 방향 편차, 시야, 거리 및 시야 사이 겹침을 고려하여 필요한 바탕 시점의 개수를 결정하고, 시점 사이의 위치와 서로 겹치는 것을 고려하여 바탕 시점을 선택할 수 있다.
아틀라스 생성부(120)는, 시점 최적화부(110)가 선택한 바탕 시점을 하나의 완전한 단일 아틀라스로 구성하고, 추가 시점에 대해 바탕 시점을 기준으로 중복된 부분을 제거한 나머지 패치(또는 잔차 패치)로 구성할 수 있다.
아틀라스 생성부(120)는, 아틀라스를 생성하는 동안에 마스크를 사용하여 바탕 시점들을 보존하고 추가 시점들의 중복된 부분을 제거하고, 시간적 순서에 따라 비디오 프레임에 사용한 마스크를 업데이트 하고, 각 패치 아틀라스들을 패킹하여 최종적으로 추가 시점의 아틀라스를 생성할 수 있다.
도 3에 도시한 것과 같이, 바탕 시점의 영상(또는 아틀라스)(BV)은 텍스처(깊이 정보도 포함)는 모든 픽셀을 그대로 포함하여 원본과 같이 구성하지만, 추가 시점의 영상(또는 아틀라스)(AV)은 바탕 시점 및 선순위의 추가 시점 영상을 기준으로 중첩되는 픽셀을 제거하고 중첩되지 않고 남은 텍스처(깊이 정보도 포함하여)만을 모두 블록 패치 형태로 구성할 수 있다. 디코더는 블록 패치를 재구성하여 추가 시점의 비디오 프레임을 복원할 수 있다.
도 3에는 16개 시점의 소스 영상과 깊이 영상이 있고, 그 중에서 4개 시점의 영상이 바탕 시범으로 선택되어 하나의 아틀라스로 결합되어 하나의 바탕 시점 영상(텍스처와 깊이 영상을 각각 포함)으로 생성되고, 나머지 12개 시점의 영상이 추가 영상으로 결정되어 바탕 시점과 차이나는 부분만 패치 형태로 하나의 추가 시점 영상(텍스처와 깊이 영상을 각각 포함)으로 생성되고 있다.
인코더(130)는, 2D 코덱, 예를 들어 HEVC(High Efficiency Video Coding)나 VVC(Versatile Video Coding)를 이용하여, 바탕 시점(BV)과 추가 시점(AV)의 텍스처 영상(T)과 깊이 영상(D)을 부호화하여 비트스트림을 생성할 수 있다.
메타데이터 구성부(140)는, 다시점 영상 디코더(200)가 후처리와 시점 합성을 통해 시청자의 움직임에 따라 동적으로 끊어짐 없이 뷰포트(viewport) 영상을 재생할 수 있도록, 바탕 시점과 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점과 추가 시점 아틀라스의 의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 생성할 수 있다.
도 2를 참조하면, 다시점 영상 디코더(200)는, 디코더(210), 메타데이터 파서(Metadata Parser)(220), 아틀라스 패치 점유 지도 생성부(Atlas Patch Occupancy Map Generator)(230) 및 재생부(Renderer)(240)를 포함하여 구성될 수 있다.
디코더(210)은, HEVC나 VVC를 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터와 깊이 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성할 수 있다.
메타데이터 파서(220)는 메타데이터를 해석하여 아틀라스 패치 점유 지도 생성부(230)와 재생부(240)에 제공할 수 있다.
아틀라스 패치 점유 지도 생성부(240)는, 메타데이터 파서(220)가 제공하는 메타데이터를 이용하여 추가 시점 아틀라스의 패치가 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하고, 이를 재생부(240)에 제공할 수 있다.
재생부(240)는, 메타데이터 파서(220)가 제공하는 메타데이터와 아틀라스 패치 점유 지도 생성부(240)가 제공하는 패치 점유 지도를 이용하여, 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하여 출력할 수 있다.
한편, 추가 시점 영상은 서로 분절된 영상으로, 고주파수를 많이 포함하고 있어서 비트율이 높지만, 전체 영상에서 차지하는 비율은 컨텐츠마다 서로 다르다. 또한, 바탕 시점 영상과 추가 시점 영상이 디코더에서 합성하는 합성 영상의 화질에 미치는 영향은 추가 시점 영상이 디코더에서 복원되는 또는 합성되는 영상에서 차지하는 비율에 따라 달라질 수 있다.
도 4는 바탕 시점 영상과 추가 시점 영상의 중복이 많아 추가 시점 영상의 정보량이 적은 예를 도시한 것이고, 도 5는 바탕 시점 영상과 추가 시점 영상의 중복이 적어 추가 시점 영상의 정보량이 많은 예를 도시한 것이다. 도 4와 도 5에서 왼쪽은 바탕 시점의 영상이고 오른쪽은 추가 시점의 영상이다.
도 4에서는 바탕 시점 영상과 추가 시점 영상 사이 중복되는 픽셀이 많아 추가 시점 영상의 정보가 적은 반면, 도 5에서는 바탕 시점 영상과 추가 시점 영상 사이 중복되는 픽셀이 많지 않아 추가 시점 영상의 정보가 많다.
도 4의 경우, 추가 시점 영상에 포함된 정보량이 적기 때문에, 추가 시점 영상이 디코더가 합성한 합성 영상의 화질에 미치는 영향이 작을 수밖에 없다. 반면, 도 5의 경우, 추가 시점 영상에 포함된 정보량이 상대적으로 많기 때문에, 추가 시점 영상이 합성 영상의 화질에 미치는 영향이 클 수 있다.
몰입형 비디오에서는 일반적인 360도 영상과는 달리 영상의 합성 과정이 존재하여, 중요도가 낮은 영상들은 품질을 낮추더라도 최종 합성 영상에 미치는 영향이 작아 최종 합성 영상에서 손실을 비교적 줄일 수 있다.
디코더 편에서 영상을 합성할 때 바탕 시점과 추가 시점의 영상이 전체 합성 영상에 미치는 영향이 콘텐츠에 따라 및/또는 바탕 시점과 추가 시점의 정보량에 따라 달라질 수밖에 없기 때문에, 바탕 시점 영상과 추가 시점 영상을 하나의 영상으로 간주하여 텍스처 인코딩하는 것은 효율적이지 않다.
이러한 점을 고려하면, 시점에 따라, 즉 영상이 바탕 시점인지 추가 시점인지에 따라 영상을 별도의 영상으로 간주하여 텍스처 인코딩을 수행하되, 디코더 편에서 전체 합성 영상이 높은 화질을 가질 수 있도록, 각 시점의 중요도에 따라 적응적으로 영상의 품질을 가변하여 전체 비트 레이트를 조절할 수 있다.
각 시점의 중요도는 바탕 시점 영상의 픽셀 대비 추가 시점 영상의 픽셀 수 비율 또는 바탕 시점 영상의 픽셀과 추가 시점 영상의 픽셀이 복원된 영상에서 차지하는 비율로 계산할 수 있고, 이를 고려하여 바탕 시점 영상과 추가 시점 영상의 인코딩 품질을 서로 다르게 조절할 수 있다.
이 명세서의 일 실시예에서는, 바탕 시점 영상과 추가 시점 영상을 비대칭으로 양자화함으로써 바탕 시점 영상과 추가 시점 영상의 인코딩 품질을 다르게 조절할 수 있는데, 이 때 바탕 시점 영상의 픽셀 수 대비 추가 시점 영상의 픽셀 수 비율을 고려하여 양자화 단계를 조절하되, 목표로 하는 율-왜곡 비용(RD-cost: Rate Distortion cost) 조건을 만족하는 범위 안에서 양자화 단계를 조절할 수 있다.
도 6은 이 명세서의 일 실시예에 따른 텍스처 인코더의 구성을 도시한 것이다.
텍스처 인코더(130)는, 바탕 시점 영상(또는 아틀라스)과 추가 시점 영상(또는 아틀라스)뿐만 아니라 바탕/추가 시점의 깊이 영상(또는 맵)을 HEVC나 VVC를 적용하여 비트스트림을 생성하는데, 바탕 및 추가 시점 영상을 별개의 영상으로 구분하여 처리할 수 있다.
텍스처 인코더(130)는, 예측부(131), 변환부(132), 양자화부(133) 및 엔트로피 인코딩부(134)를 포함하여 구성될 수 있다.
예측부(131)는, 영상 분할부(미도시)에 의해 쿼드 트리 구조 및/또는 바이너리 트리 구조를 기반으로 복수의 코딩 유닛으로 분할된 코딩 유닛(이후부터는 간단하게 블록으로 표현함)에 대한 예측 샘플(또는 예측 블록)을 생성하고, 원래 샘플과 예측 샘플의 차이에 해당하는 레지듀얼 샘플(레지듀얼 또는 잔차 블록)을 생성할 수 있다.
예측부(131)는, HEVC나 VVC에 사용되는 기법들, 예를 들어 현재 픽쳐 내 현재 블록의 이웃 샘플들을 참조하는 인트라 예측 기법, 현재 픽쳐가 아닌 다른 픽쳐의 샘플을 참조하는 인터 예측 기법 및 현재 픽쳐 내 다른 블록의 샘플을 참조하는 인트라 블록 복사(IBC: Intra Block Copy) 기법 등을 적용할 수 있다.
변환부(132)는 레지듀얼 샘플에 변환 기법을 적용하여 변환 계수들을 생성할 수 있는데, 변환 기법은 DCT(discrete cosine transform), DST(discrete sine transform), KLT(Karhunen-Loeve transform), GBT(graph-based transform), 또는 CNT(conditionally non-linear transform) 중 적어도 하나를 포함할 수 있다.
양자화부(133)는, 변환 계수들을 양자화하는데, 계수 스캔 순서(scan order)를 기반으로 블록 형태의 양자화된 변환 계수들을 1차원 벡터 형태로 재정렬할 수 있고, 1차원 벡터 형태의 양자화된 변환 계수들을 기반으로 양자화된 변환 계수들에 관한 정보를 생성할 수 있다.
엔트로피 인코딩부(134)는 양자화된 변환 계수들에 관한 정보를 인코딩하여 비트스트림으로 출력하는데, 예를 들어 지수 골롬(exponential Golomb), CAVLC(context-adaptive variable length coding), CABAC(context-adaptive binary arithmetic coding) 등과 같은 다양한 인코딩 방법을 적용할 수 있고, 양자화된 변환 계수들을 제외하고 비디오/이미지 복원에 필요한 정보들(예들 들어 신택스 요소들(syntax elements)의 값 등)을 함께 또는 별도로 인코딩할 수도 있다.
비트스트림은 네트워크를 통하여 전송될 수 있고, 또는 디지털 저장 매체에 저장될 수 있는데, 여기서 네트워크는 방송망 및/또는 통신망 등을 포함할 수 있고, 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다.
이 명세서의 실시예에 따른 양자화부(133)는 품질 제어부(Quality controller)를 포함하여, 바탕 시점 영상과 추가 시점 영상의 샘플들(레지듀얼 샘플들)을 복수 개의 양자화 단계(또는 양자화 파라미터)로 양자화하여 저장하고(도 6에서 QP1, QP2, QP3 등), 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율(또는 디코더에서 합성되는 합성 영상의 픽셀 수와 추가 시점 영상의 픽셀 수 비율)을 기준으로 서로 다른 양자화 단계가 적용된 바탕 시점 영상과 추가 시점 영상을 선택할 수 있다.
도 6에서 양자화부(133)의 품질 제어부는, 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고, 추가 시점 영상(AV)에 대해서는 QP2로 양자화된 데이터를 선택하고 있다.
또한, 양자화부(133)의 품질 제어부는 프레임 단위로 바탕 시점 영상(BV)과 추가 시점 영상(AV)에 대해 양자화 단계를 바꿀 수 있는데, 예를 들어 제1 프레임 때는 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고 추가 시점 영상(AV)에 대해서는 QP2로 양자화된 데이터를 선택하고, 제2 프레임 때는 바탕 시점 영상(BV)에 대해서는 QP1으로 양자화된 데이터를 선택하고 추가 시점 영상(AV)에 대해서는 QP3으로 양자화된 데이터를 선택할 수 있다.
또한, 양자화부(133)의 품질 제어부는, 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 각각 적합한 양자화 단계를 정하고 이를 적용할 수 있다.
예를 들어 픽셀 수 비율이 1:0.5인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP2로 하고, 픽셀 수 비율이 1:0.25인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP3(QP2보다 품질이 더 낮은 양자화 단계)로 하고, 픽셀 수 비율이 1:0.125인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP4(QP3보다 품질이 더 낮은 양자화 단계)로 할 수 있다.
또는, 양자화부(133)의 품질 제어부는, 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 적합한 양자화 단계의 차이 값을 마련하여 적용할 수 있는데, 픽셀 수 비율이 1:0.5인 경우 바탕 시점 영상과 추가 시점 영상의 양자화 단계를 QP1과 QP2로 하되 QP2가 QP1보다 한 단계 낮은 품질에 해당하고, 픽셀 수 비율이 1:0.25인 경우 QP1과 QP2보다 한 단계 낮은 품질의 QP3로 하고, 픽셀 수 비율이 1:0.125인 경우 QP1과 QP3보다 한 단계 낮은 품질의 QP4로 할 수 있다.
위에서 바탕 시점 영상의 양자화 단계가 QP1로 고정되고 추가 시점 영상의 양자화 단계가 바뀌는 예를 들었지만, RD-cost나 네트워크 대역폭, 요청되는 전체 비트레이트 등의 제한 요건에 따라 바탕 시점 영상의 양자화 단계가 바뀌고 바뀌는 바탕 시점 영상의 양자화 단계에 따라 추가 시점 영상의 양자화 단계도 추가로 바뀔 수 있다.
위 예에서 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율의 값이나 바탕 시점 영상과 추가 시점 영상에 적합한 양자화 단계의 값이나 그 차이 값은, 단순히 예를 들기 위한 것으로, 이 명세서의 실시예는 이러한 값에 제한되지 않는다.
바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율은 도 1의 다시점 영상 인코더(100)를 구성하는 아틀라스 생성부(120)로부터 전달될 수 있다. 아틀라스 생성부(120)는 GOP(Group Of Picture) 단위로 바탕 시점 영상과 추가 시점 영상의 픽셀 수 비율을 계산하여 텍스처 인코더(130)에 전달할 수 있다.
양자화부(133)는 바탕 시점 영상과 추가 시점 영상에 적용된 양자화 단계와 관련된 정보를 메타데이터 구성부(140)에 전달하여, 메타데이터 구성부(140)가 비대칭 양자화 단계와 관련된 정보를 메타데이터에 포함시킬 수 있다.
또는, 양자화 단계와 관련된 정보는, 메타데이터 구성부(140)에 전달되는 대신, 예를 들어 신택스 요소로 기록되어 엔트로피 인코딩부(134)에 의해 해당 시점 영상의 양자화된 변환 계수에 함께 인코딩 될 수도 있다.
다시점 영상 디코더(200)는, 메타데이터 및/또는 텍스처 데이터에 엔트로피 인코딩된 신택스 요소로부터 양자화 단계와 관련된 정보를 추출하고, 추출된 양자화 단계 관련 정보를 기초로 바탕 시점 영상의 양자화된 계수와 추가 시점 영상의 양자화된 계수를 역양자화할 수 있다.
또한, 다시점 영상 디코더(200)는, 바탕 시점과 추가 시점에 대해, 역양자화된 계수를 역변환하여 현재 블록의 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 현재 블록에 대해 예측한 예측 샘플들을 기초로 현재 블록의 복원 샘플을 생성하여 바탕 시점 영상과 추가 시점 영상(추가 시점의 패치 영상)을 생성할 수 있다.
이후, 다시점 영상 디코더(200)는, 메타데이터를 근거로 생성된 패치 점유 지도를 기초로 바탕 시점 영상과 추가 시점의 패치 영상을 결합하여 시청자의 움직임에 대응하는 시점에 대응하는 영상을 생성할 수 있다.
도 7은 이 명세서의 일 실시예에 따라 시점에 따라 다른 양자화 단계를 적용한 데이터를 선택하는 방법에 대한 동작 흐름도를 도시한 것이다.
아틀라스 생성부(120)는, 입력되는 복수 시점의 영상에 대해 시점 최적화부(110)에 의해 선택된 바탕 시점에 대한 아틀라스와 추가 시점에 대한 아틀라스를 생성한다(S710). 아틀라스 생성부(120)는, 목표로 하는 영상 픽셀 수(디코더 측 단말의 환경을 고려하여 디스플레이에 표시되는 합성 영상의 픽셀 수)를 고려하여 바탕 시점 영상의 픽셀 수를 결정하고, 바탕 시점 영상과 중복을 제거한 추가 시점 영상을 생성하되, 목표로 하는 영상 픽셀 수를 고려하여 추가 시점 영상의 픽셀 수를 결정할 수 있다.
예를 들어, 2048x2048 해상도의 16 시점의 영상에서 바탕 시점 영상을 4개의 시점으로 구성하고 나머지 추가 시점 영상을 중간 정도의 해상도로 생성하거나, 또는 바탕 시점 영상을 8개의 시점으로 구성하고 나머지 추가 시점 영상을 낮은 정도의 해상도로 생성할 수 있다. 바탕 시점 영상을 4개 시점으로 구성하는 경우는 8개 시점으로 구성하는 경우보다 픽셀 수가 많지 않아 단말에서 낮은 복잡도로 처리할 수 있지만 복원 정확도(화질)는 떨어지게 된다.
따라서, 아틀라스 생성부(120)는, 타겟으로 하는 디코더 단말의 하드웨어 구성 또는 디코더 단말의 요청에 따라 바탕 시점 영상의 해상도를 결정하고, 이에 맞추어 입력되는 소정 개수 시점의 영상을 바탕 시점과 추가 시점으로 구분하여 아틀라스 영상을 생성할 수 있다.
아틀라스 생성부(120)는, 바탕 시점 영상과 추가 시점 영상의 비율, 즉 프레임 당 바탕 시점 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율을 계산하는데(S720), 예를 들어 프레임 당 바탕 시점 영상의 픽셀 수가 2,073,600이고 추가 시점 영상의 픽셀 수가 298,741일 때, 디코더에서 합성(또는 복원) 영상의 픽셀 수와 바탕 시점 영상의 픽셀 수 비율은 298,741/(2,073,600 + 298,741)로 계산할 수 있다.
아틀라스 생성부(120)는, GOP 단위로 바탕 시점 영상과 추가 시점 영상의 비율을 결정할 수 있고, 이에 따라 프레임 당 바탕 시점 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율을 계산할 수 있다.
텍스처 인코더(130)는 바탕 시점 영상과 추가 시점 영상의 텍스처를 HEVC나 VVC 또는 그 밖의 영상 코딩 기법에 따라 인코딩 하여 비트스트림을 생성하되, 양자화부(133)는 바탕 시점 영상과 추가 시점 영상의 변환된 계수들을 복수 개의 양자화 단계(QP)로 양자화하여 양자화 계수 데이터를 생성할 수 있다(S730).
양자화부(133)의 품질 제어부는, 복수 개의 양자화 단계로 양자화된 데이터 중에서, 바탕 시점 영상에 대한 양자화 계수 데이터와 추가 시점 영상에 대한 양자화 계수 데이터를 각각 선택하여 하나의 타이밍의(해당 타이밍의 프레임을 구성하는) 양자화 계수 데이터를 구성하되, 바탕 및 추가 시점 영상의 픽셀 수 비율을 근거로 바탕 시점 영상에 대해 선택한 양자화 계수 데이터에 적용된 양자화 단계와는 다른 양자화 단계가 적용된 추가 시점 영상의 양자화 계수 데이터를 선택할 수 있는데(S740), 이때 바탕 및 추가 시점 영상의 양자화 계수 데이터는 목표로 하는 RD-cost 조건을 만족해야 한다.
양자화부(133)의 품질 제어부는, 픽셀 수 비율에 따라 바탕 시점 영상과 추가 시점 영상에 대해 비대칭으로 양자화 단계를 선택하고, 선택된 양자화 단계에 의해 양자화된 양자화 변환 데이터가 RD-cost 조건을 만족하는지 확인하고, RD-cost 조건을 만족하지 않는 경우 RD-cost 조건을 만족할 때까지 바탕 시점 영상과 추가 시점 영상에 대한 양자화 단계를 선택할 수 있다. RD-cost 조건의 만족 여부는 프레임 단위로 이루어질 수 있다.
어떤 값으로 바탕 시점 영상과 추가 시점 영상에 대한 양자화 단계를 선택하더라도 설정된 RD-cost 조건을 만족하지 못하는 경우, 바탕 시점 영상의 픽셀 수의 목표 값을 조정하여 S710 단계부터 바탕 시점 영상과 추가 시점 영상을 생성하는 과정부터 다시 수행할 수 있다.
양자화부(133)는 바탕 시점 영상과 추가 시점 영상에 적용된 양자화 단계와 관련된 정보를 메타데이터 구성부(140)에 전달하고, 메타데이터 구성부(140)는 양자화 단계와 관련된 정보를 메타데이터에 반영하여 메타 데이터를 변경하고, 다시점 영상 인코더(100)는 인코더(130)와 메타데이터 구성부(140)가 생성한 데이터를 다시점 영상 포맷의 비트스트림으로 생성하여 출력할 수 있다(S750).
다시점 영상 인코더(100)가 생성된 비트스트림은 네트워크를 통하여 다시점 영상 디코더가 포함된 클라이언트 장치에 전송되거나 또는 디지털 저장 매체에 저장될 수 있다.
도 8은 바탕 시점 영상과 추가 시점 영상 모두 각각 단일하게 QP1과 QP2로 압축하였을 때의 합성 영상의 차이를 도시한 것이고, 도 9는 바탕 시점 영상은 QP1으로 추가 시점 영상은 QP2로 품질을 낮추어 압축하였을 때 합성 영상의 차이를 도시한 것이다.
이 명세서의 실시예가 제안하는 방법의 효율을 검증하기 위해 MPEG-I에서 정의되어 있는 공통 실험 조건(Common Test Conditions) 영상 3개를 선정하여 시뮬레이션을 진행하였다. 영상 부호화에는 HEVC test model (HM) 16.20 버전을 사용하였고, 패치를 1개 이상 포함하는 영상을 추가 시점으로 정의하였다.
바탕 및 추가 시점 영상의 변환 데이터에 적용한 양자화 파라미터는 QP1에서 QP5까지로 구성하였고, 추가 시점의 경우 바탕 시점보다 양자화 파라미터의 값을 1단계 높여(더 낮은 품질의 양자화 파라미터로) 부호화를 진행하였다.
도 8과는 달리 도 9에서는 오직 합성에서 영향을 끼치는 부분에 대해서만 손실이 일어난 것을 확인할 수 있고, 이는 추가 시점 영상의 정보량에 따라 압축에 있어서의 품질 손실이 기존의 영상들과는 다른 방식으로 일어날 수 있음을 시사한다.
공통 실험 조건을 따라 바탕 시점과 추가 시점을 부호화하고, 이를 다시 복호화한 뒤 바탕 시점과 추가 시점으로 다시 각 시점의 원본 영상들을 복원했을 때의 평균에 대하여 품질 평가를 계산하였는데, 양자화 파라미터를 바탕 시점 영상과 추가 시점 영상에 비대칭으로 적용하여 압축을 진행하였을 때 기존 대비 -10~30%의 비트레이트 이득을 얻을 수 있는 것을 확인하였다.
즉, 몰입형 비디오에서는 일반적인 360 영상과는 달리 영상의 합성 과정이 존재하여 중요도가 낮은 영상들은 품질을 낮추더라도 최종 합성 영상에서는 그 손실이 비교적 적을 수 있음을 확인하고, 중요도가 떨어지는 추가 시점 영상을 품질을 낮추어 전송하였을 때 실제로 품질 대비 대역폭 전송 효율이 증가함을 확인할 수 있다.
본 명세서에 개시된 비대칭 양자화 할당 기법 및 전송 기술은 6DoF 몰입형 비디오 영상 스트리밍에 활용될 수 있다. 사용자의 시점에 대응할 가상 시점을 합성하기 위해 다수의 영상이 필요한 만큼 요구되는 대역폭도 매우 큰 단점이 있다. 이 명세서의 실시예에 따른 기법을 통해 각 영상의 중요도에 따라 적응적으로 감상하는 영상의 품질의 손실을 최소화하면서도 전송되는 비트레이트를 효과적으로 절감할 수 있다.
이 명세서에 개시된 실시예의 기술은, 비트스트림을 분할하여 전송하는 스트리밍 서비스인 MPEG DASH, 마이크로소프트의 Smooth 스트리밍(Smooth Streaming), 애플의 HLS(HTTP Live Streaming) 등에도 적용이 가능하다.
이 명세서의 다시점 영상 처리 방법과 장치에 대한 다양한 실시예들을 간단하고 명료하게 설명하면 다음과 같다.
일 실시예에 따른 다시점 영상 인코딩 방법은, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계; 바탕 시점 영상 대비 추가 시점 영상의 비율을 계산하는 단계; 바탕 시점 영상과 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계; 비율을 근거로, 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 바탕 시점 영상과 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어질 수 있다.
일 실시예에서, 비율은 디코더가 바탕 시점 영상과 추가 시점 영상을 이용하여 합성하는 합성 영상에서 추가 시점 영상이 차지하는 비율로 계산될 수 있다.
일 실시예에서, 비율은 합성 영상의 픽셀 수와 추가 시점 영상의 픽셀 수의 비율일 수 있다.
일 실시예에서, 선택하는 단계는 목표로 하는 율-왜곡 비용을 만족하도록 하는 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택할 수 있다.
일 실시예에서, 율-왜곡 비용의 만족 여부는 프레임 단위로 이루어질 수 있다.
일 실시예에서, 선택하는 단계에서 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 율-왜곡 비용을 만족하도록 하는 양자화 단계로 양자화된 양자화 변환 계수가 없을 때, 바탕 시점 영상의 픽셀 수를 변경하고, 변경된 픽셀 수를 적용하여, 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 다시 분할하고, 비율을 계산하고, 양자화 변환 계수를 얻고, 양자화 변환 계수를 선택하는 단계를 다시 수행할 수 있다.
일 실시예에서, 계산하는 단계는 GOP(Group Of Picture) 단위로 비율을 계산할 수 있다.
일 실시예에서, 선택하는 단계는, 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 추가 시점 영상에 대해 각각 정해진 양자화 단계를 적용하여 양자화 변환 계수를 결정할 수 있다.
일 실시예에서, 비율이 각각 제1 값 및 제1 값보다 작은 제2 값이고, 추가 시점 영상에 대해 제1 값과 제2 값을 근거로 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 제2-2 단계는 제2-1 단계보다 품질이 더 낮은 양자화 단계일 수 있다.
일 실시예에서, 분할하는 단계는, 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상을 선택하여 바탕 시점 아틀라스를 생성하고, 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상으로 선택되지 않은 나머지 시점의 영상에서 바탕 시점 영상과 중복을 제거하고 남은 패치 영상으로 추가 시점 아틀라스를 생성할 수 있다.
일 실시예에서, 다시점 영상 인코딩 방법은, 바탕 시점 영상과 추가 시점 영상의 구성 정보 및/또는 바탕 시점 영상과 추가 시점 영상으로부터 합성 영상을 생성하기 위한 제어 정보를 포함하는 메타데이터에 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 단계를 더 포함하여 이루어질 수 있다.
다른 실시예에 따른 다시점 영상 인코딩 장치는, 복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 선택되지 않은 나머지 시점의 추가 시점 영상에서 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 바탕 시점 영상과 패치 영상의 비율을 계산하기 위한 아틀라스 생성부; 바탕 시점 아틀라스에 포함된 바탕 시점 영상과 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고, 텍스처 인코더는, 바탕 시점 영상과 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 바탕 시점 영상 및 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 비율을 근거로 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 바탕 시점 영상과 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 선택된 양자화 변환 계수를 엔트로피 코딩할 수 있다.
일 실시예에서, 비율은 디코더가 바탕 시점 아틀라스와 추가 시점 아틀라스를 이용하여 합성하는 합성 영상에서 추가 시점 아틀라스가 차지하는 비율로 계산될 수 있다.
일 실시예에서, 비율은 합성 영상의 픽셀 수와 추가 시점 아틀라스의 픽셀 수의 비율일 수 있다.
일 실시예에서, 텍스처 인코더는 목표로 하는 율-왜곡 비용을 만족하도록 하는 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택할 수 있다.
일 실시예에서, 텍스처 인코더는 율-왜곡 비용의 만족 여부를 결정하는 동작을 프레임 단위로 수행할 수 있다.
일 실시예에서, 아틀라스 생성부는 GOP(Group Of Picture) 단위로 비율을 계산할 수 있다.
일 실시예에서, 텍스처 인코더는, 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 바탕 시점 영상과 패치 영상에 대해 각각 정해진 양자화 단계를 적용하여 양자화 변환 계수를 결정할 수 있다.
일 실시예에서, 비율이 각각 제1 값 및 제1 값보다 작은 제2 값이고, 추가 시점 영상에 대해 제1 값과 제2 값을 근거로 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 제2-2 단계는 제2-1 단계보다 품질이 더 낮은 양자화 단계일 수 있다.
일 실시예에서, 메타데이터 구성부는 메타데이터에 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영할 수 있다.
또 다른 실시예에 따른 다시점 영상 디코딩 장치는, 2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더; 바탕 시점 아틀라스와 추가 시점 아틀라스의 구성 정보 및/또는 바탕 시점 아틀라스와 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서; 메타데이터를 이용하여 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및 메타데이터와 패치 점유 지도를 이용하여 바탕 시점 아틀라스와 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고, 메타데이터는 바탕 시점 영상과 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고, 텍스처 디코더는 양자화 단계와 관련된 정보를 이용하여 바탕 시점 영상과 패치 영상의 양자화 변환 계수를 역양자화하고, 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 바탕 시점 영상과 패치 영상을 복원하고, 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 패치 영상의 변환 계수에 적용된 양자화 단계는 바탕 시점 영상과 패치 영상의 비율을 근거로 서로 다른 값으로 결정될 수 있다.
이 명세서의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 이 명세서의 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 기록 매체의 예로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, BD와 같은 광 기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 롬(ROM), 램(RAM), 플래시 메모리 등이 포함될 수 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 이 명세서의 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정해져야만 할 것이다.
100: 다시점 영상 인코더 110: 시점 최적화부
120: 아틀라스 생성부 130: 인코더
131: 예측부 132: 변환부
133: 양자화부 134: 엔트로피 인코딩부
140: 메타데이터 구성부 200: 다시점 영상 디코더
210: 디코더 220: 메타데이터 파서
230: 아틀라스 패치 점유 지도 생성부
240: 재생부

Claims (21)

  1. 복수 개 시점의 영상을 바탕 시점 영상과 추가 시점 영상으로 분할하는 단계;
    상기 바탕 시점 영상 대비 상기 추가 시점 영상의 비율을 계산하는 단계;
    상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 상기 바탕 및 추가 시점 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻는 단계;
    상기 비율을 근거로, 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서, 상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 단계; 및
    상기 선택된 양자화 변환 계수를 엔트로피 코딩하는 단계를 포함하여 이루어지는 다시점 영상 인코딩 방법.
  2. 제1 항에 있어서,
    상기 비율은 디코더가 상기 바탕 시점 영상과 상기 추가 시점 영상을 이용하여 합성하는 합성 영상에서 상기 추가 시점 영상이 차지하는 비율로 계산되는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  3. 제2 항에 있어서,
    상기 비율은 상기 합성 영상의 픽셀 수와 상기 추가 시점 영상의 픽셀 수의 비율인 것을 특징으로 하는 다시점 영상 인코딩 방법.
  4. 제1 항에 있어서,
    상기 선택하는 단계는, 목표로 하는 율-왜곡 비용을 만족하도록 하는 상기 제1 양자화 단계와 상기 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  5. 제4 항에 있어서,
    상기 율-왜곡 비용의 만족 여부는 프레임 단위로 이루어지는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  6. 제4 항에 있어서,
    상기 선택하는 단계에서 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 상기 율-왜곡 비용을 만족하도록 하는 양자화 단계로 양자화된 양자화 변환 계수가 없을 때, 상기 바탕 시점 영상의 픽셀 수를 변경하고, 상기 변경된 픽셀 수를 적용하여, 상기 복수 개 시점의 영상을 상기 바탕 시점 영상과 추가 시점 영상으로 다시 분할하고, 상기 비율을 계산하고, 상기 양자화 변환 계수를 얻고, 상기 양자화 변환 계수를 선택하는 단계를 다시 수행하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  7. 제1 항에 있어서,
    상기 계산하는 단계는 GOP(Group Of Picture) 단위로 상기 비율을 계산하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  8. 제1 항에 있어서,
    상기 선택하는 단계는, 상기 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 상기 바탕 시점 영상과 상기 추가 시점 영상에 대해 각각 정해진 양자화 단계를 적용하여 상기 양자화 변환 계수를 결정하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  9. 제1 항에 있어서,
    상기 비율이 각각 제1 값 및 상기 제1 값보다 작은 제2 값이고, 상기 추가 시점 영상에 대해 상기 제1 값과 제2 값을 근거로 상기 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 상기 제2-2 단계는 상기 제2-1 단계보다 품질이 더 낮은 양자화 단계인 것을 특징으로 하는 다시점 영상 인코딩 방법.
  10. 제1 항에 있어서,
    상기 분할하는 단계는, 상기 복수 개의 시점의 영상 중에서 하나 이상의 바탕 시점 영상을 선택하여 바탕 시점 아틀라스를 생성하고, 상기 복수 개의 시점의 영상 중에서 상기 하나 이상의 바탕 시점 영상으로 선택되지 않은 나머지 시점의 영상에서 상기 바탕 시점 영상과 중복을 제거하고 남은 패치 영상으로 추가 시점 아틀라스를 생성하는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  11. 제1 항에 있어서,
    상기 바탕 시점 영상과 상기 추가 시점 영상의 구성 정보 및/또는 상기 바탕 시점 영상과 상기 추가 시점 영상으로부터 합성 영상을 생성하기 위한 제어 정보를 포함하는 메타데이터에 상기 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 다시점 영상 인코딩 방법.
  12. 복수 개 시점의 영상 중에서 바탕 시점으로 선택된 바탕 시점 영상을 포함하는 바탕 시점 아틀라스 및 상기 선택되지 않은 나머지 시점의 추가 시점 영상에서 상기 바탕 시점 영상과 중복되는 부분을 제거하여 생성되는 패치 영상을 포함하는 바탕 시점 아틀라스를 생성하고, 상기 바탕 시점 영상과 상기 패치 영상의 비율을 계산하기 위한 아틀라스 생성부;
    상기 바탕 시점 아틀라스에 포함된 상기 바탕 시점 영상과 상기 추가 시점 아틀라스에 포함된 패치 영상을 2차원 코덱을 이용하여 부호화하기 위한 텍스처 인코더; 및
    상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 구성 정보 및/또는 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 부호화하여 메타데이터로 출력하기 위한 메타데이터 구성부를 포함하여 구성되고,
    상기 텍스처 인코더는, 상기 바탕 시점 영상과 상기 패치 영상에 대해 예측 동작과 및 변환 동작을 수행하여 변환 계수를 얻고, 상기 바탕 시점 영상 및 상기 패치 영상의 변환 계수를 각각 복수 개의 양자화 단계로 양자화하여 양자화 변환 계수를 얻고, 상기 비율을 근거로 상기 복수 개의 양자화 단계로 양자화된 양자화 변환 계수 중에서 상기 바탕 시점 영상과 상기 패치 영상에 대해 각각 제1 양자화 단계와 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하고, 상기 선택된 양자화 변환 계수를 엔트로피 코딩하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  13. 제12 항에 있어서,
    상기 비율은 디코더가 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스를 이용하여 합성하는 합성 영상에서 상기 추가 시점 아틀라스가 차지하는 비율로 계산되는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  14. 제13 항에 있어서,
    상기 비율은 상기 합성 영상의 픽셀 수와 상기 추가 시점 아틀라스의 픽셀 수의 비율인 것을 특징으로 하는 다시점 영상 인코딩 장치.
  15. 제12 항에 있어서,
    상기 텍스처 인코더는 목표로 하는 율-왜곡 비용을 만족하도록 하는 상기 제1 양자화 단계와 상기 제2 양자화 단계로 양자화된 양자화 변환 계수를 선택하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  16. 제15 항에 있어서,
    상기 텍스처 인코더는 상기 율-왜곡 비용의 만족 여부를 결정하는 동작을 프레임 단위로 수행하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  17. 제12 항에 있어서,
    상기 아틀라스 생성부는 GOP(Group Of Picture) 단위로 상기 비율을 계산하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  18. 제12 항에 있어서,
    상기 텍스처 인코더는, 상기 비율을 복수 개의 범위로 구분하고, 각 범위에 대해 상기 바탕 시점 영상과 상기 패치 영상에 대해 각각 정해진 양자화 단계를 적용하여 상기 양자화 변환 계수를 결정하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  19. 제12 항에 있어서,
    상기 비율이 각각 제1 값 및 상기 제1 값보다 작은 제2 값이고, 상기 추가 시점 영상에 대해 상기 제1 값과 제2 값을 근거로 상기 선택되는 양자화 변환 계수를 생성할 때 적용되는 제2 양자화 단계가 각각 제2-1 단계와 제2-2 단계일 때, 상기 제2-2 단계는 상기 제2-1 단계보다 품질이 더 낮은 양자화 단계인 것을 특징으로 하는 다시점 영상 인코딩 장치.
  20. 제12 항에 있어서,
    상기 메타데이터 구성부는 상기 메타데이터에 상기 선택된 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 반영하는 것을 특징으로 하는 다시점 영상 인코딩 장치.
  21. 2차원 코덱을 이용하여 바탕 시점과 추가 시점의 부호화된 텍스처 데이터를 복호화하여 바탕 시점 아틀라스와 추가 시점 아틀라스를 생성하기 위한 텍스처 디코더;
    상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 구성 정보 및/또는 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스의 합성 과정을 제어하기 위한 제어 정보를 포함하는 메타데이터를 해석하기 위한 메타데이터 파서;
    상기 메타데이터를 이용하여 상기 추가 시점 아틀라스에 포함된 패치 영상이 놓일 위치와 방향을 결정하여 패치 점유 지도를 생성하기 위한 아틀라스 패치 점유 지도 생성부; 및
    상기 메타데이터와 상기 패치 점유 지도를 이용하여 상기 바탕 시점 아틀라스와 상기 추가 시점 아틀라스로부터 시청자의 움직임에 대응하는 영상을 생성하기 위한 재생부를 포함하여 구성되고,
    상기 메타데이터는 상기 바탕 시점 영상과 상기 패치 영상의 양자화 변환 계수의 생성에 적용된 양자화 단계와 관련된 정보를 더 포함하고,
    상기 텍스처 디코더는 상기 양자화 단계와 관련된 정보를 이용하여 상기 바탕 시점 영상과 상기 패치 영상의 양자화 변환 계수를 역양자화하고, 상기 역양자화된 변환 계수를 역변환하여 레지듀얼 샘플들을 복원하고, 레지듀얼 샘플들과 예측 동작으로 생성한 예측 샘플들을 이용하여 복원 샘플들을 생성하여 상기 바탕 시점 영상과 상기 패치 영상을 복원하고,
    상기 바탕 시점 영상의 변환 계수에 적용된 양자화 단계와 상기 패치 영상의 변환 계수에 적용된 양자화 단계는 상기 바탕 시점 영상과 상기 패치 영상의 비율을 근거로 서로 다른 값으로 결정되는 것을 특징으로 하는 다시점 영상 디코딩 장치.
KR1020210150072A 2020-11-03 2021-11-03 다시점 영상 처리 방법 및 장치 KR102500199B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200145447 2020-11-03
KR1020200145447 2020-11-03

Publications (2)

Publication Number Publication Date
KR20220059929A true KR20220059929A (ko) 2022-05-10
KR102500199B1 KR102500199B1 (ko) 2023-02-16

Family

ID=81591967

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210150072A KR102500199B1 (ko) 2020-11-03 2021-11-03 다시점 영상 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102500199B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029755A (ko) * 2002-10-02 2004-04-08 삼성에스디아이 주식회사 입체 영상 디스플레이 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029755A (ko) * 2002-10-02 2004-04-08 삼성에스디아이 주식회사 입체 영상 디스플레이 장치

Also Published As

Publication number Publication date
KR102500199B1 (ko) 2023-02-16

Similar Documents

Publication Publication Date Title
KR101687863B1 (ko) 인코더 및 방법
KR101758954B1 (ko) 디코더 및 방법
JP2021513302A (ja) 復号化または符号化の方法、装置および媒体
JP2022514548A (ja) 点群解凍用方法、点群圧縮用方法及び装置
CN114731434A (zh) 基于变换的图像编码方法及其装置
JP2021520144A (ja) デコードまたはエンコードのための方法並びに装置およびコンピュータプログラム
CN114424247A (zh) 用于点云编码的方法及装置
CN111641834B (zh) 点云编码的方法和装置、计算机设备和存储介质
CN114982239A (zh) 基于变换的图像编码方法及其装置
US20220150497A1 (en) Coding of information about transform kernel set
CN112019845B (zh) 对点云进行编码的方法、装置以及存储介质
CN114009023A (zh) 基于变换的图像编码方法及其装置
JP2022512110A (ja) 点群圧縮の方法および装置
CN114930848A (zh) 基于变换的图像编码方法及其设备
CN114930846A (zh) 基于变换的图像编码方法及其装置
CN114342393A (zh) 基于变换的图像编译方法及其设备
KR102500199B1 (ko) 다시점 영상 처리 방법 및 장치
CN111587575B (zh) 基于高频归零确定变换系数扫描顺序的方法及其设备
US20240048764A1 (en) Method and apparatus for multi view video encoding and decoding, and method for transmitting bitstream generated by the multi view video encoding method
CN114930845A (zh) 基于变换的图像编码方法及其装置
CN114846799A (zh) 基于变换的图像编码方法及其设备
CN114651445A (zh) 基于变换的视频编码方法及其装置
KR20240019021A (ko) 다시점 영상 부호화/복호화 방법 및 장치와, 다시점 영상 부호화 방법에 의해 생성된 비트스트림을 전송하는 방법
US20240242389A1 (en) Displacement vector coding for 3d mesh
US20240233271A1 (en) Bitstream syntax for mesh displacement coding

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right