KR20230119694A - 온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스 - Google Patents

온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스 Download PDF

Info

Publication number
KR20230119694A
KR20230119694A KR1020237023968A KR20237023968A KR20230119694A KR 20230119694 A KR20230119694 A KR 20230119694A KR 1020237023968 A KR1020237023968 A KR 1020237023968A KR 20237023968 A KR20237023968 A KR 20237023968A KR 20230119694 A KR20230119694 A KR 20230119694A
Authority
KR
South Korea
Prior art keywords
texture
block
frame
mesh
compressing
Prior art date
Application number
KR1020237023968A
Other languages
English (en)
Inventor
미쉴 아담
클레망 메니에
Original Assignee
4디 뷰 솔루션스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4디 뷰 솔루션스 filed Critical 4디 뷰 솔루션스
Publication of KR20230119694A publication Critical patent/KR20230119694A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

복수의 프레임을 포함하는 볼류메트릭 비디오 스트림(172)을 압축하기 위한 방법(300)으로서, 각각의 프레임은 메시 및 텍스처와 연관되고, 프레임 그룹이 정의되고, 각각의 그룹은 키 프레임 및 해당 키 프레임의 메시에 대해 정의된 메시를 갖는 인터프레임을 포함하고, 상기 방법은: 텍스처를 나타내는 정보를 압축하는 단계를 포함하고, 상기 압축하는 단계는, 각 프레임 그룹에 대해, 각 프레임의 텍스처를 나타내는 정보를 압축하여, 픽셀 블록을 정의하는 단계(302); 키 프레임의 복합 텍스처를 형성할 수 있는 제1 블록을 결정하고, 대략적인 인터프레임을 형성하기 위해, 반복적인 대체를 통해 이 복합 텍스처를 수정할 수 있는 제2 블록을 결정하는 단계(304); 및 상기 키 프레임의 복합 텍스처 및 상기 제2 블록에 기반하여 인터프레임 텍스처를 인코딩하는 단계(310)를 포함한다.

Description

온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭 3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스
본 발명은 최종 사용자에 의한 볼류메트릭 비디오의 온라인 시청을 위한 실시간 디코딩을 위해 볼류메트릭 3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스에 관한 것이다.
본 발명의 목적은 최종 사용자에 의한 "온라인" 시청을 위해 3차원 장면을 나타내는 볼류메트릭 데이터를 압축하는 것이다.
이러한 목적을 목표로 하는 방법은 문헌["High-quality streamable free-viewpoint video", ACM Trans. Graphics (SIGGRAPH), 34 (4), 2015]에 설명되어 있다.
상기 방법에 따르면, 볼류메트릭 데이터(volumetric data)는 사진측량법에 의해, 즉 이 경우에서는 106대의 카메라로 구성되며 각 카메라가 해당 장면의 이미지를 특정 각도에서 초당 30 내지 60개 정도의 이미지를 캡처하는 빈도로 캡처하는 한 세트의 카메라들에 의해, 3차원 장면을 캡처함으로써 획득된다.
상기 이미지들은 해당 장면의 각 캡처 순간, 또는 프레임에 대한 포인트 클라우드(point cloud)를 계산함으로써 해당 장면의 동작을 재현하는 데 사용된다.
상기 포인트 클라우드는 카메라에 의해 보여지는 해당 장면의 요소의 표면을 나타내며, 제1 단계에서 각 프레임에 대해 독립적으로 텍스처가 적용되는 서로 연속적으로 연결된 삼각형 메시에 의한 장면 모델링의 기초 역할을 한다.
이 단계에서, 이용되는 삼각형의 수와 그 연결성은 프레임마다 서로 다르다.
제2 단계에서, 결과 데이터의 압축을 유리하게 하기 위해, "키 프레임"이라고 지칭되는 프레임에 속하는 참조 메시를 변형함으로써 프레임을 구성하는 메시를 수렴시키는 것에 있는 메시의 기하학적 추적을 시간에 따라 수행하여서, 후속 프레임의 메시가 상기 참조 메시와 동일한 수의 삼각형 및 동일한 연결을 갖도록 한다.
참조 프레임의 메시를 변형하는 것에 의해 메시를 만족스럽게 근사화할 수 없는 경우, 새로운 참조 프레임에 대해 새로운 메시를 정의하고, 모든 프레임의 메시를 처리할 때까지 동작을 반복한다.
키 프레임의 메시를 기반으로 메시를 정의하고 두 개의 키 프레임 사이에 위치하는 프레임을 "인터프레임"이라고 지칭한다.
메시와 관련된 데이터의 압축은, 메시가 동일 키 프레임의 메시를 기반으로 하는 이웃하는 프레임들 간의 시간적 중복성으로부터 이점을 얻는다.
키 프레임의 메시는 전체적으로 인코딩되지만, 인터프레임에 대해서는 메시 변형만 인코딩되므로, 각 프레임의 메시의 전체 인코딩 및 디코딩은 물론 결과 데이터의 양과 그 디코딩을 위한 계산 강도의 측면에서 더 경제적이다.
그러나, 메시 데이터의 인코딩도 개선될 수 있다.
메시 상으로 압착된 텍스처와 관련하여, 텍스처의 전체 아틀라스는 각 프레임에 해당하며, 상기 아틀라스는 MPEG 및 H.264 압축 표준의 원리에 따라, 압축 및 압축해제 동안, 제각기 완전히 인코딩된 다음 디코딩되어야 한다.
상기 텍스처 아틀라스의 데이터의 처리 및 전송은 계산 비용 및 높은 대역폭을 나타내므로, 줄이는 것이 바람직할 수 있다.
또한, 이용되는 방법은 원래는 일반 배경 상에 패치로 구성된 이미지인 텍스처가 아닌 영화의 이미지와 같은 "전통적인" 이미지로 비디오를 생성할 목적으로 개발되었다.
텍스처 아틀라스를 압축하기 위한 보다 적합한 방법이 필요하다.
오디오/비디오 압축 분야에서는, 이하의 문헌이 알려져 있다:
-문헌["[V-PCC][EE2.6-related] Proposition of an anchor and a test model for coding animated meshes", by Jean-Eudes Marvie et al., 132. MPEG MEETING; 20201012 - 20201016; ONLINE; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), no. m55327, 5 October 2020 (2020-10-05), XP030292836];
-문헌["Mesh Coding Extensions to MPEG-I V-PCC", by Faramarzi Esmaeil et al., 2020 IEEE 22ND INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING (MMSP), [Online ], 21 September 2020 (2020-09-21), pages 1-5, XP055837185]; 및
-문헌["Real-time compression and streaming of 4D performances", by Tang Danhang et al., ACM TRANSACTIONS ON GRAPHICS, ACM, NY, US, vol. 37, no. 6, 4 December 2018 (2018-12-04), pages 1-11, XP058464802].
이러한 문헌은 MPEG, JPEG, HEVC(High Efficiency Video Coding), 또는 h.264와 같은 일반적으로 AVC 유형(Advanced Video Coding)의 방법인 압축 방법을 처리한다.
이러한 유형의 방법의 시간적 비디오 압축은, 순서 상, 이미지를 잘라서 블록을 정의하고, 인접한 두 프레임의 블록을 비교한 다음, 두 블록 간의 차이를 인코딩/압축하는 것에 의존하며; 디코딩하는 동안, 이 차이는 각 픽셀에 개별적으로 적용된다.
이러한 유형의 방법의 목적은, 이러한 이미지 데이터 스트림을 처리하는 컴퓨터의 프로세서와 그래픽 카드 간의 이미지 전송을 고려하지 않거나, 그래픽 카드의 메모리의 활용을 고려하지 않고, 컴퓨터 네트워크를 통해 최저의 가용 전송 레이트를 제공하는 것이다.
따라서, 이러한 유형의 방법은 본 특허 출원에 의해 해결되는 과제에는 대응하지 않는다.
본 발명의 목적은 첫째로 볼류메트릭 비디오 스트림의 프레임의 메시에 관한 정보의 압축을 개선하고, 둘째로 상기 동일 프레임과 관련된 텍스처에 관한 정보를 개선하는 것이다.
보다 구체적으로, 본 발명은 복수의 프레임으로 표현되는 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법에 관한 것으로, 이 방법은 컴퓨터로 구현되며, 상기 방법에 의해 장면의 각 프레임마다 메시 및 텍스처가 생성되고, 키 프레임 및 인터 프레임을 각각 포함하는 프레임 그룹이 정의되고, 그의 메시는 해당 키 프레임의 메시와 관련하여 정의되고, 상기 방법은 텍스처를 나타내는 정보를 압축하는 단계 - 상기 텍스처 압축 단계는 각 프레임 그룹마다, DXT, ASTC 또는 PVRTC와 같은 표준 알고리즘에 따라 종래의 그래픽 처리 장치에 의해 직접 사용 가능한 블록을 형성할 수 있는 블록 압축 방법에 따라 그룹의 각 프레임의 텍스처를 나타내는 정보를 압축하고, 따라서 종래의 그래픽 처리 장치에 의해 직접 사용 가능하고, 키 프레임과 연관된 블록 및 각각의 인터프레임과 제각기 연관된 블록을 포함하는 픽셀 블록을 정의하는 단계를 포함함 -; 키 프레임과 연관된 블록 및 인터프레임과 연관된 블록으로부터, 한편으로는 키 프레임의 복합 텍스처를 형성할 수 있는 제1 블록을 결정하고, 다른 한편으로는 인터프레임의 대략적인 텍스처를 형성하기 위해, 블록의 반복 교체에 의해 키 프레임의 복합 텍스처를 수정할 수 있는 제2 블록을 결정하는 단계; 키 프레임과 연관된 제1 블록 및 인터프레임과 연관된 제1 블록으로부터 프레임 그룹의 키 프레임의 복합 텍스처를 형성하고, 상기 복합 텍스처를 인코딩하는 단계; 및 키 프레임의 복합 텍스처 및 제2 블록에 기초하여 인터프레임의 텍스처를 인코딩하는 단계를 포함한다.
본 발명에 따른 텍스처를 나타내는 정보의 압축은 특히 볼류메트릭 비디오 스트림을 형성하는 연속 프레임의 텍스처 사이에 존재하는 시간적 대응성(temporal correspondence)을 이용하여, 중복성 정보의 인코딩, 전송, 및 디코딩을 방지한다.
본 발명에 따른 압축 방법에 의한 인코딩된 비디오 스트림의 압축해제는 계산 비용이 낮으며, 압축 레벨이 간단한 파라미터에 의해 쉽게 선택될 수 있으므로, 압축 레벨과 압축해제 용이성 간의 절충을 사용자의 요구사항에 맞게 조정할 수 있게 하고, 그에 따라 실시간 판독에 특히 적합한 볼류메트릭 비디오 스트림을 얻을 수 있게 한다.
본 발명에 따른 볼류메트릭 비디오 스트림의 압축 방법은 다음과 같은 특징을 가질 수 있다:
- 키 프레임의 복합 텍스처와 인터프레임의 텍스처를 인코딩하는 단계는 엔트로피 코딩에 의한 압축을 포함할 수 있는 특징;
- 제1 블록 및 제2 블록을 결정하는 단계는 주어진 위치의 프레임 그룹의 블록들에 대한 서로 간의 양자화된 그래픽 차이를 평가하는 단계를 포함할 수 있고, 상기 평가하는 단계는 2개의 고려된 블록 간의 PSNR(Peak Signal to Noise Ratio) 계산치와 같은 계산치에 의존하여, 상기 2개의 고려된 블록 간의 그래픽 변형을 각각 나타내는 숫자를 생성하는 특징;
- 프레임 그룹의 각 블록에 대해, 그래픽 차이는 프레임 그룹의 다른 모든 블록에 대해 평가되는 특징;
- 제1 블록 및 제2 블록을 결정하는 단계는 행과 열을 따라 상호 연결된 노드를 포함하는 그래프를 구성하는 단계 - 두 노드 사이의 행을 따른 변위 비용에는 양자화된 그래픽 차이가 할당되고, 열을 따른 변위에는 비용이 할당됨 -; 및 상기 그래프에서 최저 비용 경로를 결정하는 단계를 더 포함할 수 있고, 열에서 각 경로의 시작은 제1 블록 중 하나와 연관되고, 열을 따른 각각의 변위는 제2 블록 중 하나와 연관되며, 최저 비용은 각각이 동일 행 상의 두 노드 사이에 있는 변위의 비용과 각각이 하나의 동일 열 내의 두 노드 사이에 있는 변위의 비용의 합계이고, 경로는 각각이 동일 행 상의 두 노드 사이에 있는 변위와 각각이 동일 열 내의 두 노드 사이에 있는 변위로 구성되는 특징;
- 경로를 결정하는 단계는 디익스트라 알고리즘(Dijkstra algorithm)을 구현할 수 있는 특징;
- 상기 방법은 메시를 나타내는 정보를 양자화에 의해 압축하는 단계를 포함하는, 메시를 나타내는 정보를 압축하는 단계; 키 프레임의 메시의 삼각형을 나타내는 정보를 에지브레이커 알고리즘(Edgebreaker algorithm)에 따라 압축하는 단계를 포함하는 압축 방법에 따라, 양자화된 메시를 나타내는 정보를 압축하는 단계; 키 프레임의 메시의 포인트를 나타내는 정보를 예측 알고리즘에 따라 압축하는 단계; 키 프레임의 텍스처 좌표를 나타내는 정보를 선형 선택적 예측 알고리즘(linear selective prediction algorithm)에 따라 압축하는 단계; 인터프레임 메시의 포인트를 나타내는 정보를 차등 인코딩에 의해 압축하는 단계; 및 상기 메시의 포인트, 상기 삼각형, 및 키 프레임의 텍스처 좌표를 나타내는 압축된 정보 및 인터프레임의 메시의 포인트를 나타내는 정보를 엔트로피 계산 알고리즘에 의해 압축하는 단계를 더 포함할 수 있는 특징.
본 발명은 다음으로 확장될 수 있다:
- 방법의 단계들을 수행하기 위한 수단을 포함하는 데이터 처리 시스템 데이터;
- 컴퓨터 프로그램이 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 방법의 단계들을 구현하게 하는 명령어를 포함하는 컴퓨터 프로그램; 및
- 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 방법의 단계들을 구현하게 하는 명령어를 포함하는 컴퓨터 판독가능 매체.
본 발명은, 첨부된 도면으로부터 비제한적인 예로서 취해지며 첨부된 도면에 의해 예시된 실시예의 상세한 설명을 읽을 때, 더 잘 이해될 것이고 다른 장점이 명백해질 것이다.
- 도 1a는 카메라를 포함하는 비디오 측량 스튜디오(videogrammetry studio)를 도시한 것이다.
- 도 1b는 도 1a에 있는 카메라의 이미지 캡처 및 데이터 처리 시스템의 다이어그램이다.
- 도 1c는 장면의 볼류메트릭 비디오를 생성하기 위한 방법의 다이어그램이다.
- 도 1d는 도 1c의 방법에서 정의된 포인트 클라우드를 도시한 것이다.
- 도 1e는 도 1d의 포인트 클라우드에 대응하는 메시를 예시한 것이다.
- 도 2a는 일련의 프레임을 도시한 것이다.
- 도 2b는 도 2a의 프레임의 분포를 그룹으로 도시한 것이다.
- 도 2c는 텍스처를 도시한 것이다.
- 도 2d는 본 발명에 따른 키 프레임(a)에 대한 전체 텍스처 및 인터프레임(b)에 대한 부분 텍스처를 도시한 것이다.
- 도 3a는 본 발명에 따른 방법의 다이어그램이다. - 도 3b는 본 발명에 따른 방법의 특정 단계의 다이어그램이다.
- 도 4a는 오차 값의 테이블이다.
- 도 4b는 도 4a의 테이블에 기초하여 구성된 그래프이다.
- 도 5a는 본 발명에 따른 처리 후의 도 4b의 그래프의 특정한 경우이다.
- 도 5b는 도 5a의 결과를 요약한 테이블이다.
- 도 5c는 일련의 프레임의 비압축 텍스처와 압축 텍스처를 도시한 것이다.
- 도 6은 본 발명에 따른 압축된 볼류메트릭 비디오 데이터 스트림의 압축해제를 예시하는 다이어그램이다.
볼류메트릭 동작 장면, 즉 시간이 지남에 따라 세 방향의 공간에서 발생하는 장면을 재구성하기 위해, 녹색 배경을 가진 비디오 측량 스튜디오(100)에서 배우(105)가 장면을 연기한다.
이러한 스튜디오는 무대(120)를 둘러싸는 구조물(110)로 구성되며, 다양한 투시 지점(viewing point)에 따라 장면(125)을 관찰하는 한 세트의 카메라들(130)을 지원하는 기능을 갖는다.
카메라들(130)은 데이터 저장 및 처리 시스템(140)에 연결될 뿐만 아니라 사용자 인터페이스(150)에도 연결된다.
스튜디오(100)를 사용하여 볼류메트릭 비디오를 생성하기 위한 방법은 도 1c의 다이어그램(155)의 하기 단계들을 포함한다.
단계 160에서, 카메라들은 각각의 고유한 투시 지점에서 장면을 동기화된 방식으로, 예를 들어 초당 30 내지 60개의 이미지의 빈도로, 캡처하는데, 이는 장면을 전체적으로 재구성할 수 있게 한다.
단계 162에서, 카메라에 의해 캡처된 이미지는 종래의 방법에 따라, 교정을 위해, 편향 또는 다른 오차를 수정하고, 그리고 그로부터 배경을 제외하기 위해, 선택적으로 처리된다.
단계 164에서, 이들 재처리된 이미지는 데이터 처리 시스템(140)에 의해 구현되는 당업자에게 알려진 알고리즘에 공급되어, 서로 다른 시야각에서 서로 다른 카메라에 의해 캡처된 동일 물리적 표면의 이미지들을 비교하여 입체 원리에 따라 물체의 가시 표면의 깊이 맵을 설정하는 것에 의해, 장면을 구성하는 물체를 나타내는 도 1d에 예시된 바와 같은 포인트 클라우드(C)가 생성되도록 한다.
단계 166에서, 프레임마다 독립적으로, 각 프레임에 대해, 각각 포아송 표면의 재구성과 Microsoft Corporation이 저작권자인 UVAtlas 소스 코드의 사용과 같은 종래의 방법에 따라, 획득된 포인트 클라우드 및 이에 적용될 텍스처로부터 도 1e에 예시된 바와 같은 메시 M이 생성된다.
이 단계에서, 장면은 일련의 프레임 F로 표현되며, 각 프레임은, 프레임마다 독립적으로, 한편으로는 각각의 텍스처 T를 나타내는 정보와 연관되고, 다른 한편으로는 각각의 메시 M을 나타내는 정보와 연관된다.
따라서, 도 2a는 5개의 프레임 F1 내지 F5를 연속적으로 도시하고 있는데, 각각의 프레임은 메시 M1 내지 M5와 텍스처 T1 내지 T5와 각각 연관된다.
각 메시는 삼각형으로 상호 연결된 한 세트의 포인트들로 구성되어 장면의 물체의 표면을 재현하며, 각 삼각형은 텍스처를 삼각형에 올바르게 적용할 수 있도록 텍스처 좌표 테이블을 통해 텍스처 좌표와 연관되어 있다.
삼각형은 카메라에 의해 보여지는 물체의 표면을 구성하는 기본 표면으로 사용된다.
다른 유형의 기본 표면이 사용될 수 있지만, 설명의 명확성을 위해 삼각형을 기반으로 하는 본 발명의 구현예를 계속 이용할 것이다.
키 프레임 KF 및 복수의 인터프레임 IF를 각각 포함하는 프레임 그룹 FGr에 프레임 F를 분포시키기 위해 기하학적 및 광도 측정 추적 단계 168이 구현된다.
따라서, 도 2b는 3개의 프레임 그룹 FGr1 내지 FGr3에 분포된 18개의 프레임 F1 내지 F18을 도시한 것으로, 각 프레임 그룹은 키 프레임 KF 및 그룹에 따른 가변 개수의 인터프레임을 포함하고, 프레임은 출력 단계 170의 스트림(172)에서 획득된다.
참조 메시는 각 키 프레임과 연관되고, 인터프레임의 메시는 참조 메시의 변형에 의해, 즉 해당 키 프레임과 연관된 메시의 변형을 나타내는 정보를 통해 정의되며, 텍스처는 각 프레임과 연관되어 있다.
각 텍스처는 도 2c에 예시된 바와 같이, 균일한 배경 상에서 패치를 포함하는 이미지로 표현될 수 있다.
메시를 나타내는 정보는 키 프레임의 경우, 메시의 포인트를 나타내는 정보, 즉 3차원 공간에서 상기 포인트를 찾기 위한 데이터; 메시의 삼각형을 나타내는 정보, 즉 메시의 3개의 포인트 사이에 각각 포함된 표면의 데이터; 및 메시의 각각의 삼각형과 연관된 텍스처를 나타내는 정보, 즉 텍스처 좌표 데이터로 구성된다.
전술한 단계들은 당업자에게 공지되어 있으며, 예를 들어, 문헌["High-quality streamable free-viewpoint video", ACM Trans. Graphics (SIGGRAPH), 34(4), 2015]에 설명되어 있다.
이하의 단계들은, 각각 도 3a 및 도 3b의 다이어그램(300 및 304)을 사용하여 아래에서 상세히 설명되는 바와 같은 후속 압축해제 단계를 고려하면, 한편으로는 텍스처를 나타내는 정보의 압축과 관련하여, 다른 한편으로는 메시를 나타내는 정보의 압축과 관련하여, 종래의 볼류메트릭 비디오 압축 방법에 대한 개선으로 이어진다.
텍스처의 압축
이전 단계의 종료 시에, 각 프레임은 텍스처 데이터 T 및 메시 데이터 M을 포함하는 비디오 데이터의 스트림(172) 내에서 각 프레임에 특정된 텍스처와 연관되며, 각 텍스처는 디지털 이미지이다.
테스트 단계 301에서, 수신 데이터가 메시 데이터 M인지 텍스처 데이터 T인지가 결정된다.
단계 302에서, 블록 압축은 프레임 스트림의 프레임과 연관된 각각의 텍스처에 적용되며, 텍스처는 텍스처 데이터 T에서 검색되므로, 각 프레임의 텍스처는 한 세트의 블록들과 연관된다.
블록 압축은 색상 데이터를 저장하는 데 필요한 메모리 양을 줄이는 것을 가능하게 하는 종래의 압축 방법이며, 픽셀 블록(예컨대, 4개의 픽셀 x 4개의 픽셀 또는 8개의 픽셀 x 8개의 픽셀의 정사각형)은 DXT, ASTC 또는 PVRTC와 같은 표준 알고리즘에 따르면 하나의 동일 블록 내 변동이 매우 낮다는 것을 고려하여 압축된다.
본 문서에서, "블록"이라는 용어는, 이전 단락에서 언급한 유형의 알고리즘에 의해 획득되고, 즉, 압축해제 또는 다른 처리 동작을 필요로 하지 않고, 종래의 그래픽 처리 장치 또는 GPU에 의해 직접 사용될 수 있는 블록을 지칭한다.
따라서, 본 발명에 따른 방법에서 고려되는 "블록"은 위의 "선행 기술" 부분에서 언급된 AVC(Advanced Video Coding)인 JPEG 및 MPEG 인코딩의 것과 같은 압축 방법에서 사용되는 "블록"과는 구별된다.
실제로, AVC 유형 방법에 사용되는 블록은 이미지 절단의 직접적인 결과이므로, 각각 픽셀 그룹이 된다.
따라서, 그러한 블록의 속성은 상기 픽셀에 적용된 압축 동작의 결과인 본 발명에 따른 방법의 블록의 속성과는 상이하며, 따라서 그러한 블록의 속성은 압축 동작에 사용되는 압축의 원리에 의존할 것이지만, 픽셀 그룹의 블록은 아닐 것이다.
AVC 유형의 방법의 블록의 한 가지 특징은, 이들 블록이 본 발명에 따른 방법의 블록과 달리, 일반적으로 그래픽 처리 장치에 의해 직접 사용 가능한 것으로 간주되지 않는다는 것이다.
실제로, 본 발명에 따른 블록 압축은 종래의 그래픽 처리 장치에 의해 직접 디코딩될 수 있는 데이터를 생성한다.
따라서, 디코딩 중에 데이터 처리 장치의 중앙 컴퓨팅 장치 또는 CPU가 블록으로 압축된 텍스처를 그래픽 처리 장치 또는 GPU로 전송하기 전에 압축해제할 필요가 없게 될 것이고, 이는 CPU 상에서 수행될 계산량을 제한할 수 하며 GPU로 전송될 데이터의 양을 크게 줄일 수 있게 한다.
볼류메트릭 비디오 스트림의 실시간 판독의 맥락에서, 이러한 특징은 전송될 데이터의 양과 전송된 데이터의 압축해제의 계산 비용을 줄임으로써 결정적인 이점을 나타낸다.
따라서, 종래의 방법과 비교하여 본 발명에 따른 방법의 강력한 이점은 GPU의 용량을 이용하여 블록에 대한 압축해제 동작을 수행함으로써 획득된 비디오 스트림의 처리를 가능하게 하는 것이다.
또한, 본 발명의 의미 내에서의 블록 압축은 텍스처, 특히 아틀라스 유형의 텍스처의 압축에 특히 적합하며, JPEG 및 MPEG 코딩에서 사용되는 것과 같은 이미지 압축보다 훨씬 더 적합하다.
그러나, 본 발명에서 고려되는 바와 같이 GPU에 의해 직접 설명 가능한 블록은 차이에 의한 블록 수정이 불가능하다는 사실로 인해 압축하기가 어렵다.
따라서 차이에 의한 압축에 의존하는 종래 기술은 적용될 수 없다.
각 프레임 그룹에 대해, 부분 텍스처에 의한 축소라고 지칭되는 이하의 오리지널 방법에 따라 단계 304 동안 텍스처를 감소시키는 방법이 적용된다.
이 단계에서, 프레임 그룹 중 키 프레임과 연관된 블록 및 인터프레임과 연관된 블록 중에서, 제1 블록의 제1 세트(210)는 키 프레임의 복합 텍스처를 형성할 수 있고, 제2 블록의 제2 세트(220)는 키 프레임의 복합 텍스처를 수정하여 인터프레임의 대략적인 텍스처를 형성할 수 있다.
따라서, 프레임과 연관된 각 텍스처의 모든 블록을 전체 인코딩하는 대신, 각 키 프레임의 재구성된 텍스처의 블록만이 전체적으로 인코딩되지만, 인터프레임과 관련하여 상당히 새로운 정보를 제공하는 블록만이 인코딩된다.
이러한 특징을 사용하면, 압축 중에 인코딩된 다음, 비디오의 온라인 시청 시, 전송 및 디코딩할 텍스처 데이터의 양을 상당히 줄일 수 있다.
인터프레임용으로 인코딩된 블록은, 허용 가능한 시각적 품질을 유지하는 데 필요한 경우, 각 새 프레임에 대한 반복을 통해 키 프레임의 복합 텍스처를 수정하는 데 사용된다.
도 2d는 키 프레임의 전체 텍스처, 256개의 블록의 세트(210)에 의해 형성된 전체 텍스처, 및 상기 키 프레임에 대응하는 인터프레임의 부분 텍스처를 형성하는 92개의 블록의 세트(220)를 이용하여, 이러한 상황을 예시한 것이고, 누락된 블록은 다시 인코딩될 필요가 없도록 키 프레임의 블록과 충분히 가까운 것으로 간주된다.
인코딩되지 않은 블록 대신에, 시각적 품질 측면의 저하가 허용 가능한 것으로 유지되는 한, 상기 인코딩되지 않은 블록에 그래픽적으로 가까운 이미 인코딩된 블록이 사용된다.
이미 인코딩된 블록은 키 프레임의 블록이거나 키 프레임의 블록에 대한 대체물로서 이미 존재하는 부분 텍스처의 블록이므로, 인터프레임의 텍스처에 가까운 텍스처는 연속적인 반복에 의해 키 프레임의 텍스처를 수정함으로써 획득된다.
이 원리는 도 3b 및 도 4a 내지 도 5c의 도움으로 아래에 설명된 특정 실시예에 따라 사용될 수 있다.
프레임 스트림의 데이터는 프레임 그룹으로 구성되고, 각 그룹은 키 프레임과 시간적 연속성으로 이에 후속하는 인터프레임으로 구성된다.
동일 그룹의 프레임과 연관된 텍스처는 기하학적 및 광도 측정 추적에 의한 그룹 자체의 정의의 결과로 자연스럽게 나타나므로, 여러 번 다시 인코딩할 필요가 없는 많은 수의 공통 블록을 가지며, 키 프레임에 대해 재구성된 텍스처와 인터프레임용으로 선택된 특정 블록의 초기 인코딩은 충분하다.
부분 텍스처 축소의 문제는 키 프레임의 텍스처에 사용될 블록과 각 프레임 그룹 내에서 업데이트가 필요한 블록을 결정하여, 최종 비디오의 허용 가능한 시각적 품질을 유지하면서, 인코딩될 블록의 수를 최소화하는 것이다.
주어진 블록 위치에 대해, 각 프레임의 블록들의 서로 간의, 즉 아래에 설명된 바와 같이, 직접적으로 블록 간의, 또는 블록과 블록에 대응하는 비압축 텍스처 간의, 그래픽 차이가 서브 단계 304-1 동안 평가된다.
Nf개의 프레임의 그룹을 고려하면, 텍스처 이미지의 각 픽셀 블록 위치에 대해 잠재적으로 Nf개의 가용 변형이 존재한다.
사실상, Nf개의 상이한 블록 B1 내지 BNf는 프레임 F1 내지 FNf 동안 각각 동일 위치에서 서로를 따르며, 고려되는 Nf개의 프레임 F1 내지 FNf 동안 주어진 블록의 시간적 변화로 간주될 수 있다.
예시를 위해, Nf개의 프레임의 시퀀스의 그룹을 나타내는 도 5c가 참조될 것이며, 각각의 프레임은 비압축 텍스처 Tnc 및 압축 텍스처 Tc와 연관되며, 블록 131 내지 BNf는 각각의 압축 텍스처 Tc 내의 동일 위치 Pos에 대응하고, 그리고 각각의 비압축 텍스처 Tnc내의 상기 동일 위치에 대응하는 이미지(또는 픽셀 세트) I1 내지 INf에 대응한다.
블록 B1 내지 BnF 및 이미지 I1 내지 INf는 동일 위치, 동일 기하형태, 및 동일 차원의 픽셀들의 세트로 구성된다.
블록들 간의 그래픽 변형을 평가하기 위해, 피크 신호 대 잡음비(Peak Signal to Noise Ratio)를 나타내는 PSNR은 오리지널 이미지에 대한 압축 이미지의 재구성 품질을 평가하기 위해 디지털 이미징에서 일반적으로 사용된다.
블록의 그래픽 변형을 평가하기 위한 다른 방법이 이용될 수 있으며, PSNR은 한 가지 가능성만을 나타낸다.
압축 텍스처 Tc의 주어진 블록 위치에 대해, 각각의 프레임 F1 내지 FNf의 블록 B1 내지 BNf와 동일 그룹의 해당 프레임의 비압축 텍스처의 동일 위치의 이미지 I1 내지 INf 간의 PSNR이 계산되고, 이는 NfxNf개의 PSNR 계산이 수행될 수 있게 한다.
이러한 방식으로, 프레임 그룹의 각 블록이 고려되는 경우, 그래픽 차이는 프레임 그룹의 다른 모든 블록뿐만 아니라, 본원의 경우, 고려되는 블록의 비압축 이미지에 대해서도 평가된다.
오리지널 이미지에 대한 인코딩된 비디오의 충실도를 보장하기 위해 본원에서는 비압축 텍스처를 참조하지만, 주어진 프레임의 각 블록과 다른 프레임의 압축 텍스처의 대응하는 블록들 사이의 PSNR을 계산하는 것도 가능할 것이다.
PSNR은, 여기서는 블록 압축 단계 중에 한정된 블록의 이미지인 제1 이미지와 비압축 이미지의 블록에 대응하는 픽셀 그룹에 의해 형성된 제2 이미지인, 두 개의 이미지 사이의 유사도 표시를 구성한다.
또한, PSNR은 로그 스케일로 표현되며, PSNR의 값이 크다는 것은 두 개의 이미지 간의 유사도가 높다는 것을 나타낸다.
따라서, 한 프레임에서 다른 프레임까지의 블록들 간의 차이의 진폭을 선형 스케일 상에서 시간에 따라 수치적으로 표현하기 위해, 단계 304-1에서 계산된 NfxNf개의 PSNR 각각에 대한 오차 값 ErrVal이 단계 304-2 동안 계산된다.
단계 304-3은 Nf개의 프레임의 그룹의 각 블록 위치에 대해 NfxNf개의 항목 - 각 항목은 단계 304-2에서 계산된 오차 값들 ErrVal 중 하나로 구성됨 - 을 포함하는 정사각형 테이블(400)을 구성하는 것에 있다.
테이블(400)의 각 행은 Nf개의 프레임 F1 내지 FNf - 이는 여기서는 대응하는 비압축 텍스처의 블록들에 대응하는 이미지 I1 내지 INf를 지칭함 - 에 걸친 주어진 위치 블록에 대한 시간적 변화를 평가하는 데 전용된다.
테이블(400)의 각 열은 프레임에 전용되며, 프레임들은 볼류메트릭 비디오 스트림에서 나타나는 순서대로 분류되고 F1 내지 FN으로 식별된다.
테이블의 항목은 다음과 같이 단계 304-2에서 계산된 오차 값 ErrVal을 삽입함으로써 채워진다.
테이블(400)의 p번째 행과 q번째 열의 좌표(p;q)의 항목은 p번째 프레임의 압축 텍스처의 주어진 위치에서의 p번째 블록과, q번째 프레임 Fq로 압축되지 않은 텍스처의 상기 주어진 위치에서의 한 세트의 픽셀들의 이미지 Iq와의 사이에서 계산된 오차 값 ErrVal(Bp/Iq)에 대응하고, 상기 p번째 블록과 상기 한 세트의 픽셀들 사이의 그래픽 차이의 진폭을 변환한다.
예를 들어, 테이블의 제1 행의 제2 항목은 제1 프레임(F1)에 대응하는 제1 블록(B1)과 제2 프레임(F2)에서의 비압축 텍스처 중의 상기 블록에 대응하는 한 세트의 픽셀(I2)과의 사이에서 블록별 압축 전에 계산되는 오차 값 ErrVal(B1/I2)에 해당하고, 상기 제1 블록(B1)과 상기 한 세트의 대응하는 픽셀(I2) 사이의 그래픽 차이의 진폭을 변환한다.
테이블의 대각선 (B1;F1) 내지 (BNf/FNf)의 항목은 하나의 동일 프레임의 비압축 텍스처의 한 블록과 대응하는 픽셀 그룹 사이의 그래픽 차이 - 이는 블록 압축 단계로 인해 비디오 이미지 품질의 저하가 유도되었음을 나타냄 - 의 진폭을 변환한다.
인코딩되고 그 후에 비디오 스트림의 판독 시에 디코딩될 데이터의 양을 최소화하기 위해 본 발명자들이 규정한 가능한 접근법은, 블록의 주어진 위치에 대해 동일 그룹의 프레임 내에서뿐만 아니라 프레임들 사이에서 단계 302의 블록 압축에 의해 유도된 오차를 나타내는 테이블(400)을 통해 블록들 중에서 선택을 행함으로써 인코딩될 블록의 수를 최소화하는 것에 있다.
이러한 선택은, 테이블 내에서, 고려된 그룹의 제1 프레임에 해당하는 테이블의 왼쪽에 있는 제1 열의 임의의 항목에서 고려된 그룹의 최종 프레임에 해당하는 오른쪽에 있는 최종 열의 임의의 항목으로, 그리고 오른쪽으로 또는 수직으로(상방으로 또는 하방으로) 이동하기 위한 최저 가용 비용을 갖는 경로를, 각 수평 변위에 대한 비용과 각 수직 변위에 대한 비용을 도입하고, 추적된 경로에 의해 도입된 전체 비용을 최소화하도록 노력함으로써, 결정하는 것에 해당한다.
수평 변위 동안, 이전 프레임이라고 지칭되는 해당 프레임으로의 변위의 시작 포인트에 위치한 블록이 인코딩된 블록으로서 선택되고, 상기 블록은 생성될 비디오 스트림의 중간 블록을 인코딩하지 않고, 연속적인 개별 수평 변위 이후에 후속 프레임이라고 지칭되는 변위 목적지로 유지된다.
블록이 연속적인 이미지를 인코딩하는 데 사용되는 경우, 인코딩된 이미지의 시각적 품질은 해당 블록을 생성하는 데 사용된 이미지로부터의 시간적 거리에 따라 저하되는 경향이 있다.
따라서, 오차 값 ErrVal은 수평 변위의 길이에 따라 증가하는 경향이 있다.
결과적으로, 새로운 프레임의 이미지를 인코딩하는 데 보다 적합한 새로운 블록의 인코딩에 해당하는 수직 변위를 부과하여 수평 변위의 진폭을 제한할 필요가 있으며, 이러한 것은 시각적 품질의 관점에서는 유리하지만, 데이터 압축률, 그의 전송, 및 비디오 스트림의 시각화 동안의 압축해제의 관점에서는 바람직하지 않다.
경로를 최적화하는 한 가지 방법은 여러 프레임의 이미지를 인코딩하기 위해 동일 블록을 재사용하는 것에 의해 유도되는 시각적 품질의 저하에 대해 제1 비용을 할당하고, 인코딩될 데이터의 양의 증가에 해당하는 계산 강도에 대해 제2 비용을 할당하고, 그 후 제1 비용과 제2 비용의 합계를 나타내는 전체 비용인 최소화 경로를 결정하는 것이다.
최적의 경로는 종래의 그래프 이론 방법에 의해, 예를 들어, 테이블(400)로부터 플롯된 도 4b의 그래프(450)에 의해, 실무자가 목표와 우선 순위에 따라 정의하는 파라미터, 여기에서는 위에서 언급한 비용의 함수로서 경로를 결정함으로써 결정될 수 있으며, 상기 그래프는 노드들 및 상기 노드들 간의 가능한 변위로 구성된다.
그래프(450)의 중심 노드는 Up, q에 의해 식별되고, 테이블(400)의 p번째 열과 q번째 행의 항목에 해당한다.
그래프의 노드 Up, q는 q번째 프레임의 텍스처를 인코딩하기 위해 p번째 프레임의 텍스처에서 고려된 블록 위치로부터의 블록을 사용하는 것에 해당한다.
노드는 테이블의 항목과 동일한 방식으로 Nf개의 행과 Nf개의 열로 배열되며, 더미 시작 노드 Ud는 테이블의 제1 열의 항목 ErrVal(B1/I1) 내지 ErrVal(BFn/I1)에 해당하는 각 노드에 행을 따라 연결되며, 이 예에서 프레임 수 Nf는 4이다.
그래프(450)에서, 각각의 타원은 하나의 노드를 나타내고, 각각의 화살표는 두 노드 사이의 가능한 변위를 나타낸다.
그래프에서 가능한 변위는 동일 행 내에서 수평이거나 동일 열 내에서 수직이다.
가능한 수평 변위는 고려된 변위의 종점 노드에 해당하는 테이블 항목의 값 ErrVal 값에 해당하는 것으로 간주되는 시각적 열화 비용으로 인해, 그래프(400)의 실선 화살표로 표시된 바와 같이, 주어진 노드에서 오른쪽에 바로 인접한 노드로 수행된다.
가능한 수직 변위는 사용자에 의해 정의된 계산 비용 Ccalc로 인해, 점선 화살표로 표시된 바와 같이, 바로 인접하거나 인접하지 않은, 하나가 다른 하나 위에 위치한 두 개의 노드 사이에서 이루어진다.
여기에서, 예를 들어, 노드 U1,3에서 노드 U1,4로 이동하는 비용은 ErrVal(B1/I4)이고, 노드 U1,3에서 노드 U3,3으로 또는 U3,4로 이동하는 비용은 Ccalc이다.
그래프의 모양과 변위 규칙이 정의되면, 찾는 최적의 경로는, 많은 종래의 방법들 중에서도 특히, 그래프(450)의 경우인 상호 연결된 복수의 노드로 구성된 그래프의 두 포인트 사이의 최단 경로를 결정하는 데 일반적으로 사용되는 디익스트라(Dijkstra) 알고리즘의 구현예에 의해 결정될 수 있다.
전체 비용이 가장 낮은 최적의 경로는 허용 가능한 비디오 품질과 호환가능하게 인코딩될 데이터의 양을 최소화할 수 있는 경로로 간주된다.
비디오 품질은 실무자가 우선 순위에 의존적인 기준에 따라 Ccalc 비용을 선택함으로써 결정되고, 높은 Ccalc 비용은 높은 압축률을 촉진하고, 낮은 Ccalc 비용은 높은 시각적 품질로 이어지고, 중간 Ccalc 비용은 압축률과 시각적 품질 간의 절충으로 이어진다.
종래의 압축 동작의 경우, Ccalc 비용은 바람직하게는, 예를 들어 0.00001과 0.001 사이인 0.0001 정도이거나, 또는, 예를 들어 오차 값 ErrVal의 평균값에서 초기화될 수 있다.
예를 들어, 도 5a는 주어진 블록 위치에 대한 5개 프레임의 그룹의 특별한 경우에 대한 그래프(450)의 적용을 도시한 것으로, 최적 경로 Popt는 노드 U2,1, U2,3, U4,3 및 U4,5를 통과하며, 따라서 노드 U2,3과 U4,3 사이의 행 변경을 포함한다.
주어진 블록 위치에 대해, 제2 프레임의 블록 B2가 인코딩되고, 비디오 코딩 중에 제1 및 제2 프레임 F1 및 F2용으로 사용되며, 즉 키 프레임 및 제1 인터프레임의 복합 텍스처용으로 사용된다.
이 블록 B2는 제1 프레임에 대해 이미 인코딩되었기 때문에 제2 프레임에 대해 다시 인코딩될 필요는 없다.
제4 프레임의 블록 B4는 인코딩되고, 프레임 3 및 후속 프레임 F3, F4 및 F5에 대한 블록 B2를 대체한다.
블록 B4는 한 번만 인코딩되지만 3개의 프레임에 대해 사용된다.
실제의 관점에서, 실무자는 최대 수십 개의 프레임으로 구성된 프레임 그룹을 처리할 것으로 예상할 수 있다.
전술한 바와 같은 단계 304는 각 프레임 그룹의 인터프레임의 텍스처 내의 주어진 블록 위치에만 적용된다.
따라서 상기 단계 304는 각 블록 위치에 적용되도록 반복되어, 다이어그램(300)에서 루프(L)로 표시된 바와 같이, 텍스처를 전체적으로 인코딩하는 데 사용될 블록을 결정한다.
테스트 단계 306에서, 프레임이 키 프레임 KF인지 인터프레임 IF인지가 결정된다.
단계 308에서, 각 블록 위치에 대해 단계 304에서 결정된 바와 같으며 키 프레임과 연관된 전체 텍스처를 인코딩하는 데 필요한 블록 세트가 복구되므로, 상기 키 프레임에 대해 복합 텍스처가 형성되며, 엔트로피 압축 방법과 같은 종래의 압축 방법이, 예를 들어, 허프만(Huffman) 코딩에 의해 상기 복합 텍스처에 적용된다.
따라서, 각각의 키 프레임에 대해, 위에서 설명한 바와 같이, 고려되는 키 프레임의 프레임 그룹의 각 프레임과 연관된 상이한 텍스처의 블록을 사용하여 전체 복합 텍스처가 인코딩된다.
이 점은 종래의 텍스처 인코딩과 관련한 제1 차이점을 나타내고, 키 프레임과 연관된 텍스처는 이웃 프레임의 텍스처와 관계없이, 블록 단위로 압축된 블록으로만 인코딩된다.
단계 310에서, 단계 304에서 결정된 각 인터프레임에 대해 새로 인코딩된 블록이 상기 인터프레임에 대해 복구된다.
따라서, 각각의 인터프레임에 대해, 상기 프레임 및 선택적으로 후속 프레임에 대해 인코딩될 블록으로 구성된 부분 텍스처만이 인코딩될 것이다.
이러한 방식으로, 키 프레임에 대한 전체 텍스처 대신에, 이 인터프레임의 텍스처 블록의 일부만이 인코딩된다.
또한 블록을 전송하기 전에 종래의 엔트로피 코딩 방법으로 블록을 압축하여 비디오 스트림 내에서 스트리밍하는 것이 유리하다.
따라서, 위에서 설명되고 도 2d에 예시된 바와 같이, 각각의 키 프레임의 재구성된 텍스처의 블록만이 전체적으로 인코딩되지만, 인터프레임과 관련하여, 인코딩된 유일한 블록은 상당히 새로운 정보를 제공하는 블록이다.
이러한 특징은, 비디오 스트림의 판독 동안 더 적은 수의 블록을 인코딩한 다음 전송 및 디코딩하는 것이 틀림없으므로, 비디오를 판독하는 동안 압축률을 크게 개선하고 계산을 절약하는 결과를 가져온다.
메시의 압축
이전 단계의 종료 시에, 각 프레임은 메시 데이터 T 및 메시 데이터 M을 포함하는 볼류메트릭 비디오 데이터의 스트림(172) 내에서 각 프레임에 특정된 메시와 연관되며, 참조 메시는 각 키 프레임, 및 주어진 프레임 그룹의 각 인터프레임에 대한 참조 메시의 수정에 관한 정보와 연관된다.
테스트 단계 301에서, 수신 데이터가 메시 데이터 M인지 텍스처 데이터 T인지가 결정된다.
단계 350에서, 메모리 점유를 줄이기 위해, 서브세트의 값들과 연관된 텍스처의 좌표 및 메시를 정의하는 포인트의 좌표를 이산화하는 것에 있는 종래의 압축 방법이 메시 데이터 M에서 검색된 각각의 메시에 적용된다.
테스트 단계 352에서, 주어진 메시가 키 프레임 또는 인터프레임과 연관되는지 여부가 결정된다.
단계 354에서, 전체적으로 고려했을 때 키 프레임의 메시를 정의하는 특정 유형의 데이터에 각각이 적응되는 서브 단계 354-1, 354-2, 및 354-3을 포함하는 압축 방법이 키 프레임의 메시를 나타내는 정보에 적용된다.
단계 354-1에서, 키 프레임의 삼각형을 나타내는 정보는, 예를 들어, 문헌[J. Rossignac, "Edgebreaker; Connectivity compression for triangle meshes", IEEE Transactions on Visualization and Computer Graphics, Vol. 5, No.1, pp. 47-61]에서 알려진 "에지브레이커(Edgebreaker)" 알고리즘을 사용하여 압축된다.
단계 354-2에서, 키 프레임의 포인트 또는 정점을 나타내는 정보는, 예를 들어, 참조 문헌[C. Touma and C. Gotsman, Triangle Mesh Compression, Proceedings Graphics Interface 98, pp. 26-34,1998]에서 설명된 바와 같이, 알려진 방법에 따라 예측 알고리즘을 적용하여 압축된다.
단계 354-3에서, 키 프레임의 삼각형의 텍스처 좌표를 나타내는 정보는 예를 들어, 문헌[Isenburg, M, and Snoyeink, J. in "Compressing texture coordinates with selective linear predictions", Proceedings of Computer Graphics International 2003]에서 설명된 바와 같이, 선형 선택적 예측 알고리즘에 의해 압축된다.
상기 "선형 선택적 예측" 알고리즘은 포인트(정점)마다 텍스처 좌표를 인코딩하는 반면, 이들 좌표는 일반적으로 삼각형마다 인코딩되며, 이는 수를 줄이고, 더 나은 압축 및 디코딩 동안 계산의 최적화를 허용한다.
단계 356에서, 차등 코딩에 의해 인터프레임의 포인트 또는 정점을 나타내는 정보에 압축 방법이 적용된다.
프레임 그룹 내에서, 인터프레임의 삼각형 및 텍스처 좌표는 해당 키 프레임의 것과 동일하므로, 각 프레임 그룹 내에서 그 차이는 0이며 상기 정보는 다시 인코딩될 필요는 없다.
프레임마다 다를 수 있는 포인트의 위치에 관한 정보만이 인코딩될 필요가 있고, 차등 코딩의 원리에 따라 프레임 간의 변화만이 인코딩되어야 한다.
델타 또는 델타 인코딩이라고도 하는 차등 코딩은 일련의 연속적인 데이터 차이로 데이터를 변환하는 것에 있는 무손실 데이터 압축 기술인데, 본원의 경우에 특히 효과적인 기술이다.
단계 358에서, 단계 354-1 내지 354-3 및 356 동안 압축된 정보는 다시 압축되며, 이번에는 엔트로피 계산 알고리즘에 의해 압축된다.
FSE(Finite State Entropy)와 같은 산술 압축으로 엔트로피 계산을 수행하는 것이 특히 유리하여, 처리되는 데이터 유형에 대한 압축률이 우수하다.
당업자에게 이미 공지된 단계 354-1 내지 354-3, 356 및 358이 개별적으로 취해지더라도, 본원에 기술된 바와 같은 이들의 조합은 신규하고, 온라인으로 시청 가능한 압축 비디오 스트림을 얻기 위한 광학 분야의 기존 방법의 알려진 조합에 비해 더 우수한 결과를 가져온다는 점에 유의해야 한다.
실제로, 메시에 관한 비디오 데이터는 본 발명에 따라 압축될 때 종래의 계산 시스템에 의해 실시간으로 쉽게 디코딩될 수 있다.
단계 360 동안, 단계 308, 310 및 358로부터 생성된 데이터 스트림은 컴퓨터 네트워크를 통한 시청을 위해 스트리밍 모드에서 디코딩될 수 있는 비디오 파일로 결합된다.
디코딩
단계 360의 비디오 파일 형태로 저장된 비디오의 스트리밍 동안, 프레임을 나타내는 정보는 컴퓨터 네트워크를 통해 전송되고, 도 6의 다이어그램에 따라, 압축 데이터 스트림(602)의 형태로 사용자의 컴퓨터 시스템에 도착함에 따라, 순차적으로 디코딩된다.
각 프레임을 나타내는 데이터는 비디오 스트림에서 각 프레임의 순서에 따라 순차적으로 도착하고, 이 순서대로 디코딩되며, 텍스처 데이터 T와 메시 데이터 M은 분리되어 있다.
프레임은 도면에서 각각 KF와 IF로 식별되는 키 프레임과 인터프레임으로 구성되며, 디코딩될 정보 항목을 나타내고, M과 T는 각각 메시와 텍스처를 나타내는 정보에 대한 것이다.
테스트 단계 604 동안, 메시 및 텍스처를 나타내는 데이터가 각각 식별되고, 후속하여 개별적으로 디코딩된다.
단계 610 동안, 텍스처 T를 나타내는 데이터가 엔트로피 디코딩된다.
테스트 단계 612 동안, 단계 610의 디코딩된 데이터 및 키 프레임 KF 및 인터프레임 IF에 각각 대응하는 데이터가 식별된다.
키 프레임 KF의 텍스처를 나타내는 데이터는 항상 압축된 형식이고, 단계 302의 블록 압축이며, 종래의 그래픽 처리 장치에서 직접 그 결과를 처리할 수 있기 때문에, 추가 처리가 필요하지 않다.
그러나, 단계 614 동안, 다른 프레임의 데이터에 의존하는 인터프레임 IF의 텍스처를 나타내는 데이터는 선행 프레임의 데이터를 다시 취하고, 단계 310에 따라 새로운 블록이 인코딩된 블록들로부터의 것을 대응하는 새로운 블록으로 교체함으로써 이들 데이터를 수정하도록 처리된다.
이것은 사소하고 매우 빠른 연산의 전산적 관점이다.
단계 620 동안, 메시 M을 나타내는 데이터는 우선 FSE에 의한 엔트로피 인코딩의 디코딩을 거치게 되는데, 이는 매우 빠른 실행을 위해 종래의 알고리즘에 따라 수행된다.
테스트 단계 622 동안, 키 프레임 KF 및 인터프레임 IF에 각각 대응하는 데이터가 식별된다.
단계 624 동안, 단계 354-1, 354-2 및 354-3에 따라 획득된 키 프레임 KF의 메시를 나타내는 데이터 M은 해당 데이터에 사용되는 압축 유형(예측 또는 에지브레이커(Edgebreaker))에 대해 신속하게 종래의 방법에 따라 다른 프레임의 데이터와는 독립적으로 디코딩된다.
단계 626 동안, 단계 354에 따라 획득된 인터프레임 IF의 메시 M을 나타내는 데이터, 및 각각 의존하는 키 프레임 KF의 이전에 디코딩된 데이터에 의존하는 데이터는 종래의 매우 신속한 방법에 따라 디코딩되는데, 그 이유는 해당 데이터가 정점의 위치에 대한 델타 압축일 뿐이기 때문이다.
단계 628 동안, 단계 624 및 626로부터의 메시 데이터의 역양자화가 종래의 방법에 따라 수행된다.
마지막으로, 동작 610, 614, 및 628에 뒤이어 획득된 데이터는 비디오의 디스플레이(630)를 진행하기 위해 종래의 방식으로 데이터 처리 장치 및/또는 그래픽 처리 장치에 의해 처리된다.
비디오 데이터를 인코딩하는 데 사용되는 특정 방법 덕분에, 데이터의 가중치와 디코딩 속도가 상당히 개선되었으며, 디코딩은 종래의 컴퓨팅 장치로 구현될 수 있다.
본 발명은 위에 개시된 실시예에 한정되지 않고, 본 발명의 범위를 벗어나지 않는 범위에서 수정이 가능함은 물론이다.

Claims (10)

  1. 복수의 프레임(F)으로 표현되는 3차원 동작 장면(125)의 볼류메트릭 비디오 스트림(172)을 압축하기 위한 방법(300)으로서, 상기 방법은 컴퓨터로 구현되며, 상기 방법에 따라 상기 장면(125)의 각 프레임에 대한 메시(M) 및 텍스처(T)가 생성되고, 각각이 키 프레임(KF) 및 인터프레임(IF)을 포함하는 프레임 그룹(FGr1, FGr2, FGr3)의 메시가 대응하는 키 프레임의 메시에 대해 정의되고, 상기 방법은 상기 텍스처를 나타내는 정보를 압축하는 단계를 포함하고, 상기 텍스처 압축 단계가, 각 프레임 그룹에 대해,
    - DXT, ASTC 또는 PVRTC와 같은 표준 알고리즘에 따라 종래의 그래픽 처리 장치에 의해 직접 사용될 수 있는 블록을 형성할 수 있는 블록 압축 방법에 따라 상기 그룹의 각 프레임의 텍스처를 나타내는 정보를 압축하고, 따라서 종래의 그래픽 처리 장치에 의해 직접 사용될 수 있고, 상기 키 프레임과 연관된 블록 및 각 인터프레임과 각각 연관된 블록을 포함하는 픽셀의 블록(B1, B2, B3, BNf)을 정의하는 단계(302);
    - 상기 키 프레임과 연관된 블록 및 상기 인터프레임과 연관된 블록으로부터, 한편으로는 상기 키 프레임의 복합 텍스처를 형성할 수 있는 제1 블록(210)을 결정하고, 다른 한편으로는 상기 인터프레임의 대략적인 텍스처를 형성하기 위해, 블록의 반복 교체에 의해 상기 키 프레임의 복합 텍스처를 수정할 수 있는 제2 블록(220)을 결정하는 단계(304);
    - 상기 키 프레임과 연관된 제1 블록 및 상기 인터프레임과 연관된 제1 블록으로부터 상기 프레임 그룹의 키 프레임의 복합 텍스처를 형성하고, 상기 복합 텍스처를 인코딩하는 단계(308); 및
    - 상기 키 프레임의 복합 텍스처와 상기 제2 블록에 기반하여 상기 인터프레임의 텍스처를 인코딩하는 단계(310)를 포함하는 것을 특징으로 하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  2. 제1항에 있어서, 상기 키 프레임의 복합 텍스처와 상기 인터프레임의 텍스처를 인코딩하는 단계는 엔트로피 코딩에 의한 압축을 포함하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  3. 제1항 또는 제2항에 있어서, 상기 제1 블록 및 상기 제2 블록을 결정하는 단계는 주어진 위치의 프레임 그룹의 블록들에 대한 서로 간의 양자화된 그래픽 차이를 평가하는 단계(304-1, 304-2)를 포함하고, 상기 평가하는 단계는 2개의 고려된 블록 간의 PSNR(Peak Signal to Noise Ratio) 계산치와 같은 계산치에 의존하여, 상기 2개의 고려된 블록 간의 그래픽 변형을 각각 나타내는 숫자를 생성하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  4. 제3항에 있어서, 상기 프레임 그룹의 각 블록에 대해, 상기 그래픽 차이가 상기 프레임 그룹의 다른 모든 블록에 대해 평가되는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  5. 제3항 또는 제4항에 있어서, 상기 제1 블록 및 상기 제2 블록을 결정하는 단계는:
    - 행과 열을 따라 상호 연결된 노드를 포함하는 그래프(450)를 구성하는 단계 - 상기 양자화된 그래픽 차이는 2개의 노드 사이에서 행을 따라 변위 비용(ErrVal)에 할당되고, 비용(Ccalc)은 열을 따라 변위에 할당됨 -, 및
    - 이 그래프에서 최저 비용 경로(Popt)를 결정하는 단계 - 열 내의 각 경로 시작은 상기 제1 블록(B2) 중 하나와 연관되고, 열에 따른 각각의 변위는 상기 제2 블록(B4) 중 하나와 연관되고, 상기 최저 비용은 각각이 동일 행 상의 2개의 노드 사이에 있는 변위의 비용(ErrVal)과 각각이 하나의 동일 열 상의 2개의 노드 사이에 있는 변위의 비용(Ccalc)의 합계와 동일하며, 상기 경로는 각각이 동일 행 상의 2개의 노드 사이에 있는 변위와 각각이 동일 열 상의 2개의 노드 사이에 있는 변위로 구성됨 - 를 더 포함하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  6. 제5항에 있어서, 경로를 결정하는 단계는 디익스트라 알고리즘을 구현하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 메시를 나타내는 정보를 압축하는 단계를 더 포함하고, 상기 정보를 압축하는 단계는:
    - 상기 메시를 나타내는 정보를 양자화에 의해 압축하는 단계(350);
    - 상기 양자화된 메시를 나타내는 정보를,
    - 상기 키 프레임의 메시의 삼각형을 나타내는 정보를 에지브레이커 알고리즘에 따라 압축하는 단계(354-1);
    - 상기 키 프레임의 메시의 포인트를 나타내는 정보를 예측 알고리즘에 따라 압축하는 단계(354-2); 및
    - 상기 키 프레임의 텍스처 좌표를 나타내는 정보를 선형 선택적 예측 알고리즘에 따라 압축하는 단계(354-3)를 포함하는 압축 방법에 따라 압축하는 단계(354);
    - 인터프레임 메시의 메시 포인트를 나타내는 정보를 차등 코딩에 의해 압축하는 단계(356); 및
    - 상기 메시 포인트, 상기 삼각형 및 상기 키 프레임의 상기 텍스처 좌표를 나타내는 압축된 정보뿐만 아니라 상기 인터프레임의 메시의 포인트를 나타내는 정보를 엔트로피 계산 알고리즘에 의해 압축하는 단계(358)를 포함하는, 3차원 동작 장면의 볼류메트릭 비디오 스트림을 압축하기 위한 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 방법의 단계를 수행하기 위한 수단을 포함하는 데이터 처리 시스템.
  9. 프로그램이 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항에 따른 방법의 단계를 구현하게 하는 명령어를 포함하는 컴퓨터 프로그램.
  10. 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항에 따른 방법의 단계를 구현하게 하는 명령어를 포함하는 컴퓨터 판독가능 매체.
KR1020237023968A 2020-12-17 2021-12-09 온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스 KR20230119694A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR2013513A FR3118379B1 (fr) 2020-12-17 2020-12-17 Procédé et dispositif de compression de données représentatives d'une scène tridimensionnelle volumétrique en vue d’une décompression en temps réel pour un visionnage en ligne.
FRFR2013513 2020-12-17
PCT/FR2021/052252 WO2022129737A1 (fr) 2020-12-17 2021-12-09 Procédé et dispositif de compression de données représentatives d' une scène tridimensionnelle volumétrique en vue d'une décompression en temps réel pour un visionnage en ligne

Publications (1)

Publication Number Publication Date
KR20230119694A true KR20230119694A (ko) 2023-08-16

Family

ID=74871569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237023968A KR20230119694A (ko) 2020-12-17 2021-12-09 온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스

Country Status (7)

Country Link
US (1) US20240040101A1 (ko)
JP (1) JP2024503787A (ko)
KR (1) KR20230119694A (ko)
DE (1) DE112021006478T5 (ko)
FR (1) FR3118379B1 (ko)
GB (1) GB2616566A (ko)
WO (1) WO2022129737A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129011A (zh) * 2023-02-01 2023-05-16 珠海普罗米修斯视觉技术有限公司 视频处理方法、装置及计算机可读存储介质
JP2024110336A (ja) * 2023-02-02 2024-08-15 Kddi株式会社 メッシュ符号化装置、メッシュ復号装置、メッシュ符号化方法及びプログラム

Also Published As

Publication number Publication date
FR3118379B1 (fr) 2024-03-15
US20240040101A1 (en) 2024-02-01
GB2616566A (en) 2023-09-13
JP2024503787A (ja) 2024-01-29
FR3118379A1 (fr) 2022-06-24
WO2022129737A1 (fr) 2022-06-23
DE112021006478T5 (de) 2023-11-02

Similar Documents

Publication Publication Date Title
JP4878451B2 (ja) 空間および時間符号化を使用して複数の階層化ビデオ・ストリームの圧縮および圧縮解除を行うためのシステムおよびプロセス
Cohen et al. Attribute compression for sparse point clouds using graph transforms
JP4572010B2 (ja) マスクおよび丸め平均値を使用したオブジェクトベースの符号化システムのためのスプライト生成に関する方法
JP2018534881A (ja) 点群を圧縮する方法
US10827161B2 (en) Depth codec for 3D-video recording and streaming applications
He et al. Best-effort projection based attribute compression for 3D point cloud
JP2023513564A (ja) 点群圧縮のためのティア化階層コード化の使用
KR100574702B1 (ko) 화상부호/복호방법 및 그 프로그램을 기록한 기록매체
CN111432210B (zh) 一种基于填充的点云属性压缩方法
RU2767771C1 (ru) Способ и оборудование для кодирования/декодирования облака точек, представляющего трехмерный объект
KR20210114046A (ko) 포인트 클라우드 압축을 위한 양자화 단차 파라미터
KR20230119694A (ko) 온라인 시청을 위한 실시간 압축해제를 위해 볼류메트릭3차원 장면을 나타내는 데이터를 압축하기 위한 방법 및 디바이스
JP3592168B2 (ja) 画像データの符号化復号化方法及び装置
Marvie et al. Compression of time-varying textured meshes using patch tiling and image-based tracking
KR100475041B1 (ko) 화상 정보 고속 압축 방법 및 이를 이용한 실시간 동화상전송 방법
Yang et al. Real-time 3d video compression for tele-immersive environments
Zhang et al. Scalable Point Cloud Attribute Compression
WO2023110592A1 (en) Reduction of redundant data in immersive video coding
US11259005B1 (en) Method for compressing light-field data
JP4729304B2 (ja) 交互に入れ替わるビデオショットからなるビデオシーケンスのデジタルデータを圧縮する方法
WO2012128209A1 (ja) 画像符号化装置、画像復号装置、プログラムおよび符号化データ
EP3699867A1 (en) An apparatus, a method and a computer program for volumetric video
JP7504298B2 (ja) 3次元(3d)メッシュのuv座標を処理するための方法、装置及びコンピュータプログラム
Krantz et al. Programmatic Compression of Natural Video.
Cao et al. Affine Transformation-Based Color Compression For Dynamic 3D Point Clouds

Legal Events

Date Code Title Description
A201 Request for examination