KR20220113501A - 몰입형 미디어 프로세싱의 순위 정보 - Google Patents
몰입형 미디어 프로세싱의 순위 정보 Download PDFInfo
- Publication number
- KR20220113501A KR20220113501A KR1020227024012A KR20227024012A KR20220113501A KR 20220113501 A KR20220113501 A KR 20220113501A KR 1020227024012 A KR1020227024012 A KR 1020227024012A KR 20227024012 A KR20227024012 A KR 20227024012A KR 20220113501 A KR20220113501 A KR 20220113501A
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- information
- ranking information
- segment
- segments
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 41
- 238000005192 partition Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 241000023320 Luma <angiosperm> Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 101150114515 CTBS gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/16—Spatio-temporal transformations, e.g. video cubism
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234309—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Library & Information Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
대역폭 소비를 줄이면서 사용자에게 일관된 몰입형 미디어 시청 경험을 제공하기 위한 방법, 장치, 및 시스템이 개시된다. 일 예시적인 양태에서, 멀티미디어 콘텐츠를 프로세싱하기 위한 방법은 다수의 세그먼트를 포함하는 파노라마 미디어 콘텐츠의 프레임과 파노라마 미디어 콘텐츠의 프레임의 비트스트림 표현 사이의 변환을 위해, 프레임과 연관된 다수의 순위 정보 세트를 결정하는 단계를 포함한다. 각각의 순위 정보 세트는 파노라마 미디어 콘텐츠의 프레임의 세그먼트를 프로세싱하기 위한 스트림 스위치를 나타낸다. 방법은 또한 다수의 순위 파라미터에 기초하여 변환을 수행하는 단계를 포함한다.
Description
본 특허문헌은 개괄적으로 멀티미디어 콘텐츠 프로세싱에 관한 것이다.
사용자들은 자신들이 실제 생활에서 보는 방식으로 콘텐츠를 경험하기를 좋아한다. 기술의 발전으로 몰입형 미디어는 그 어느 때보다 사실적인 콘텐츠를 제공한다. 몰입형 미디어는 360도 이미지 및 비디오, 가상 현실(VR, virtual reality), 증강 현실(AR, augmented reality), 혼합 현실(MR, mixed reality)뿐만 아니라, 웨어러블 및 사물 인터넷(IoT, internet of things)과 같은 새로운 기술 플래폼이 주도하는 비전통적 포맷을 포함한다.
본 특허문헌은 무엇보다도 몰입형 미디어에 대한 대역폭 소비를 저감하면서사용자에게 일관된 시청 경험을 제공할 수 있는 기술을 설명한다.
일 예시적인 양태에서, 멀티미디어 콘텐츠를 프로세싱하기 위한 방법은 다수의 세그먼트를 포함하는 파노라마 미디어 콘텐츠(panoramic media content)의 프레임과 파노라마 미디어 콘텐츠의 프레임의 비트스트림 표현(bitstream representation) 사이의 변환을 위해, 프레임과 연관된 다수의 순위 정보 세트를 결정하는 단계를 포함한다. 각각의 순위 정보 세트는 적어도 우선순위 레벨, 품질 레벨, 또는 파노라마 미디어 콘텐츠의 프레임의 세그먼트를 프로세싱하기 위한 스트림 스위치를 나타낸다. 방법은 또한 다수의 순위 파라미터에 기초하여 변환을 수행하는 단계를 포함한다.
다른 예시적인 양태에 있어서, 멀티미디어 시스템의 장치가 개시된다. 본 장치는 전술한 방법을 구현하도록 구성되는 프로세서를 포함한다.
또 다른 예시적인 양태에 있어서, 컴퓨터 프로그램 저장 매체가 개시된다. 컴퓨터 프로그램 저장 매체는 저장된 코드를 포함한다. 코드는 프로세서에 의해 실행될 때에, 프로세서로 하여금 전술한 방법을 구현하게 한다.
전술한 양태들과 기타의 것들이 본 문헌에서 설명된다.
도 1은 본 기술에 따른 멀티미디어 콘텐츠를 프로세싱하기 위한 방법의 대표 흐름도이다.
도 2는 본 기술에 따른 순위 정보를 표현하는 상이한 수치 값을 갖는 예시적인 파노라마 이미지를 도시한다.
도 3은 본 기술에 따른 순위 정보를 표현하는 비연속적 정수값을 갖는 예시적인 파노라마 이미지를 도시한다.
도 4는 본 기술에 따른 순위 정보를 표현하는 상이한 문자를 갖는 예시적인 파노라마 이미지를 도시한다.
도 5는 본 기술에 따른 파노라마 이미지의 예시적인 불균등 분할을 도시한다.
도 6은 본 기술에 따른 파노라마 이미지의 또 다른 예시적인 불균등 분할을 도시한다.
도 7a는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 예시적인 파노라마 이미지를 도시한다.
도 7b는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 또 다른 예시적인 파노라마 이미지를 도시한다.
도 8은 본 기술에 따른 순위 정보의 예시적인 캐스캐이드 표현을 도시한다.
도 9는 본 기술에 따른 비디오 인코딩 장치의 일례의 블록도이다.
도 10은 본 기술에 따른 비디오 디코딩 장치의 일례의 블록도이다.
도 11은 본원에서 설명하는 방법을 구현하기 위한 하드웨어 플랫폼의 실시형태의 블록도이다.
도 2는 본 기술에 따른 순위 정보를 표현하는 상이한 수치 값을 갖는 예시적인 파노라마 이미지를 도시한다.
도 3은 본 기술에 따른 순위 정보를 표현하는 비연속적 정수값을 갖는 예시적인 파노라마 이미지를 도시한다.
도 4는 본 기술에 따른 순위 정보를 표현하는 상이한 문자를 갖는 예시적인 파노라마 이미지를 도시한다.
도 5는 본 기술에 따른 파노라마 이미지의 예시적인 불균등 분할을 도시한다.
도 6은 본 기술에 따른 파노라마 이미지의 또 다른 예시적인 불균등 분할을 도시한다.
도 7a는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 예시적인 파노라마 이미지를 도시한다.
도 7b는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 또 다른 예시적인 파노라마 이미지를 도시한다.
도 8은 본 기술에 따른 순위 정보의 예시적인 캐스캐이드 표현을 도시한다.
도 9는 본 기술에 따른 비디오 인코딩 장치의 일례의 블록도이다.
도 10은 본 기술에 따른 비디오 디코딩 장치의 일례의 블록도이다.
도 11은 본원에서 설명하는 방법을 구현하기 위한 하드웨어 플랫폼의 실시형태의 블록도이다.
부분별 표제는 가독성을 높이기 위해서만 본 문헌에서 사용되며, 각 부분 내의 개시하는 실시형태 및 기술의 범위는 해당 부분에만 제한되지 않는다. 개시하는 기술은 다양한 HEVC(High Efficiency Video Coding, 고효율 비디오 코딩) 표준 및 VVC(Versatile Video Coding, 다용도 비디오 코딩) 표준을 포함하지만 이에 제한되지 않는 다양한 이미징 및/또는 비디오 표준에 적용 가능하다.
몰입형 미디어는 오디오 및 비디오와 같은 멀티미디어 기술을 사용하여 사용자에게 완전히 다른 몰입형 미디어 경험을 제공하는 것을 말한다. 몰입형 미디어 콘텐츠를 시청할 경우에 사용자는 (예컨대, 가상 현실 헤드셋을 착용함으로써) 실시간으로 미디어에 참여할 수 있다. 몰입형 미디어는 영화, 게임, 뉴스, 및/또는 의료 등의 다수의 분야로 성공적으로 확장되고 있다. 몰입형 미디어 콘텐츠는 기존 미디어 콘텐츠와는 다음이 다르다: 시각적 콘텐츠는 큰 이미지 영역과 넓은 시야를 포함하는 일반적인 360도 파노라마 영상 데이터(panoramic visual data)로서, 사용자에게 사용자 자신의 취향에 따라 콘텐츠를 조정할 수 있는 유연성을 제공한다. 파노라마 영상 데이터는 여러 대의 카메라로부터 동시에 수집된 데이터를 사용하는 것에 의해 또는 한 대의 카메라로부터의 여러 이미지를 변환 및/또는 회전 작업을 통해 스티칭하는 것에 의해 이루어질 수 있다. 파노라마 영상 데이터는 인공적으로 합성될 수도 있다(예컨대, 기존의 통상적 및/또는 파노라마 이미지 데이터를 기반으로 함). 파노라마 영상 데이터는 매핑 후 360도 구형(spherical) 또는 직사각형 이미지(예컨대, 등직각 투영(Equirectangular Projection) 이미지)로서 표현될 수 있다. 대안으로, 파노라마 영상 데이터는 매핑 및 재배열 후 직사각형 이미지(예컨대, 큐브 맵 투영(Cube Map Projection) 이미지)로서 표현될 수 있다.
몰입형 미디어 콘텐츠를 디스플레이하려면 통상의 미디어 콘텐츠에 비해 더 높은 대역폭이 필요하다. 대역폭 요건은 모바일 네트워크의 급속한 발전에도 불구하고 문제로 남아 있다. 따라서, 합리적인 대역폭 사용을 유지하면서 몰입형 미디어 콘텐츠를 디스플레이할 수 있는 효과적인 방법을 제공해야 한다.
통신 시스템에 불합리한 대역폭 요건을 부과하지 않고 고품질의 몰입형 미디어 콘텐츠를 사용자에게 제공하기 위해 다양한 실시형태에서 구현될 수 있는 기술이 본원에 개시된다. 몰입형 미디어 콘텐츠는 사용자에게 360도 파노라마 시야를 제공하지만 인간의 시야는 일반적으로 어느 시간에서도 120도 이내이다. 또한 사용자는 좁은 시야 내에서 매우 특정한 피처(feature)에 집중하기를 원할 수 있다. 따라서 전체 파노라마 콘텐츠에 걸쳐 균일한 시각적 품질을 유지할 필요가 없다. 파노라마 미디어 콘텐츠의 상이한 영역 또는 세그먼트는 사용자 선호도, 장면의 특징, 및/또는 대역폭 할당을 고려한 우선순위 세트에 따라 프로세싱될 수 있으므로 대역폭 소비를 최소화하면서 우수한 사용자 경험을 제공할 수 있다. 본 특허문헌에서는 우선순위를 시각적 콘텐츠의 순위 정보(rank information)라고 언급한다. 예를 들어, 사용자가 몰입형 콘서트 비디오를 시청할 경우 사용자의 시선은 주로 무대 위의 연주자에게 집중된다. 따라서 사용자에게 더 높은 시각적 품질을 제공하기 위해 연주자를 보여주는 콘텐츠의 일부에는 더 높은 순위가 부여되고 주변 뷰에는 더 낮은 순위가 부여될 수 있다. 사용자의 시점이나 연주자의 위치가 변할 경우에 미디어 콘텐츠를 적절하게 조정하여 사용자의 시청 영역에 높은 우선순위를 부여함으로써 일관된 시청 경험을 제공할 수 있다.
파노라마 영상 데이터의 효율적인 프로세싱을 용이하게 하기 위해, 순위 정보는 파노라마 비디오 콘텐츠를 표현하는 비트스트림에 인코딩될 수 있다. 고해상도 비디오에 대한 수요 증가는 현대 기술에서 유비쿼터스 이미지 및 비디오 코딩 기술로 이어지고 있다. 예를 들어, 비디오 코덱은 미압축 비디오를 압축 포맷으로 또는 그 반대로 변환한다. 비디오 품질, 비디오를 나타내는 데 사용되는 데이터의 양(비트 레이트에 의해 결정됨), 인코딩 및 디코딩 알고리즘의 복잡성, 데이터 손실 및 에러에 대한 감도, 편집 용이성, 랜덤 액세스와, 종단간 지연(레이턴시) 간에는 복잡한 관계가 있다. 압축 포맷은 일반적으로 ISO/IEC 기본 미디어 파일 포맷, HEVC 표준(H.265 또는 MPEG-H 파트 2라고도 함), VVC 표준(임시로 H.266 또는 MPEG-I 파트 3라고도 함), 또는 기타 현재 및/또는 미래의 비디오 코딩 표준과 같은 표준 비디오 압축 사양을 준수한다. 코딩 표준의 다수는 공간적 중복성 및 시간적 중복성을 제거하기 위해 인트라 예측 및/또는 인터 예측 코딩 기술을 사용하는 것과 같은 하이브리드 코딩을 사용한다. 즉, 예측 코딩 기술을 사용하여 코딩된 상이한 영역들은 서로 관련되어 있다. 비디오 인코딩 프로세스에서 인코더는 이들 영역을 인코딩하기 전에 먼저 이미지/프레임을 하나 이상의 영역으로 분할한다. 병렬 프로세싱을 용이하게 하기 위해 영역은 독립적으로 디코딩될 수 있는 이미지의 단위에 해당한다. 영역은 H.264/AVC 표준에서는 슬라이스 그룹, H.265/HEVC 표준에서는 타일, 서브픽처, 직사각형 슬라이스, 또는 H.266/VVC 표준에서는 타일일 수 있다.
한 프레임의 상이한 영역들 및/또는 세그먼트들은 최적의 사용자 시청 경험을 보장하기 위해 상이한 순위에 따라 우선순위가 지정될 수 있다. 도 1은 본 기술에 따른 멀티미디어 콘텐츠를 프로세싱하기 위한 방법(100)의 대표 흐름도이다. 방법(100)은 동작 110에서, 다수의 세그먼트를 포함하는 파노라마 미디어 콘텐츠의 프레임과 파노라마 미디어 콘텐츠의 프레임의 비트스트림 표현 사이의 변환을 위해, 프레임과 연관된 다수의 순위 정보 세트를 결정하는 단계를 포함한다. 각각의 순위 정보 세트는 적어도 우선순위 레벨, 품질 레벨, 또는 파노라마 미디어 콘텐츠의 프레임의 세그먼트를 프로세싱하기 위한 스트림 스위치를 나타낸다. 방법(100)은 또한 동작 120에서, 다수의 순위 파라미터에 기초하여 변환을 수행하는 단계를 포함한다. 파노라마 미디어 콘텐츠의 프레임과 비트스트림 표현 사이의 변환은 인코딩 및/또는 디코딩 프로세스를 포함한다. 인코딩 시에, 순위 정보는 파노라마 미디어 콘텐츠가 실시간으로 그리고/또는 콘텐츠의 특징 및 사용자 선호도에 따라 수집될 때에 비트스트림에 인코딩될 수 있다.
일부 실시형태에서, 각각의 순위 정보 세트는 파노라마 미디어 콘텐츠의 대응하는 세그먼트를 프로세싱하기 위한 우선순위 레벨을 나타내는 정수를 포함한다. 일부 실시형태에서, 다수의 순위 정보 세트는 파노라마 미디어 콘텐츠의 다수의 세그먼트를 프로세싱하기 위한 우선순위 레벨을 나타내는 연속적인 정수들을 포함한다. 일부 실시형태에서, 각각의 순위 정보 세트는 파노라마 미디어 콘텐츠의 대응하는 세그먼트를 프로세싱하기 위한 우선순위 레벨을 나타내는 하나 이상의 문자를 포함한다.
일부 실시형태에서, 프레임 내의 다수의 세그먼트는 동일한 크기를 갖는다. 예를 들어, 다수의 세그먼트는 직사각형 형상을 갖는다. 일부 실시형태에서, 적어도 하나의 세그먼트는 프레임 내의 다른 세그먼트와는 상이한 크기를 갖는다. 예를 들어, 적어도 하나의 세그먼트는 비직사각형 형상을 갖는다.
일부 실시형태에서, 비트스트림 표현은 다수의 순위 정보 세트의 수를 나타내는 파라미터를 포함한다. 일부 실시형태에서, 각각의 순위 정보 세트는 대응하는 세그먼트의 차원을 나타내는 하나 이상의 파라미터를 포함한다. 일부 실시형태에서, 프레임 내의 적어도 하나의 세그먼트는 대응하는 순위 정보 세트가 부족하다.
일부 실시형태에서, 비트스트림 표현은 다수의 순위 정보 세트가 프레임에 적용 가능한 때를 나타내는 타이밍 정보를 포함한다. 일부 실시형태에서, 비트스트림 표현은 다수의 순위 정보 세트가 프레임에 적용 가능한 하나 이상의 시점(viewpoint)을 나타내는 시점 정보를 포함한다.
일부 실시형태에서, 제1 우선순위 레벨이 제2 우선순위 레벨보다 더 높은 값을 갖는 경우에 제1 우선순위 레벨에 대응하는 제1 세그먼트는 제2 우선순위 레벨에 대응하는 제2 세그먼트에 앞서 프로세싱된다. 일부 실시형태에서, 세그먼트의 서브세트만이 변환을 위해 프로세싱된다. 세그먼트의 서브세트의 우선순위 레벨은 미리 정의된 임계치 이상의 값을 가질 수 있다. 일부 실시형태에서, 세그먼트의 서브세트의 우선순위 레벨은 프레임 내의 그 세그먼트의 서브세트의 위치에 기초하여 비트스트림 표현에 포함된다. 일부 실시형태에서, 각각의 순위 정보 세트는 대응하는 세그먼트 내의 복수의 서브세그먼트에 대한 순위 정보를 포함한다.
일부 실시형태에서, 방법은 또한 파노라마 미디어 콘텐츠의 후속 프레임과 비트스트림 표현 사이의 변환을 위해, 파노라마 미디어 콘텐츠의 후속 프레임과 연관된 추가 순위 정보 세트를 결정하는 단계를 포함한다. 일부 실시형태에서, 후속 프레임과 연관된 추가 순위 정보 세트는 프레임과 연관된 다수의 순위 정보 세트에 대한 값을 포함한다. 일부 실시형태에서, 프레임과 연관된 다수의 순위 정보 세트 중 적어도 하나는 파노라마 미디어 콘텐츠의 후속 프레임에 적용 가능하다.
일부 실시형태에서, 영역은 코딩 트리 단위, 코딩 트리 블록, 타일, 매크로브록, 또는 서브픽처를 포함한다. 일부 실시형태에서, 다수의 순위 정보 세트는 비트스트림 표현에서 부가 개선 정보(Supplemental Enhancement Information) 또는 비디오 사용성 정보(Video Usability Information)로 표현된다. 일부 실시형태에서, 파노라마 미디어 콘텐츠의 비트스트림 표현은 ISO/IEC 14496에 따라 포맷된다.
일부 실시형태에서, 변환을 수행하는 것은 비디오의 현재 블록에 기초하여 비트스트림 표현을 생성하는 것을 포함한다. 일부 실시예에서, 변환을 수행하는 것은 비트스트림 표현으로부터 비디오의 현재 블록을 생성하는 것을 포함한다.
개시하는 기술의 일부 예들을 다음의 예시적인 실시형태에서 더 설명한다.
실시형태 1
순위 정보는 비트스트림에서 상이한 형태로 표현될 수 있다. 일부 실시형태에서, 순위 정보는 하나 이상의 수치 값을 사용하여 표현될 수 있다. 도 2는 본 기술에 따른 순위 정보를 표현하는 상이한 수치 값을 갖는 예시적인 파노라마 이미지(200)를 도시한다. 도 2에서, 파노라마 이미지는 9개의 직사각형 영역(또는 세그먼트)로 분할된다. 각각의 영역에는 1 내지 3의 영역의 값이 지정된다. 상이한 값들은 대응하는 영역에 대한 상이한 이미지 품질 레벨 및/또는 상이한 프로세싱 우선순위를 표현할 수 있다. 예를 들어, 1은 높은 이미지 품질을 나타내고, 2는 중간 이미지 품질을 나타내며, 3은 낮은 이미지 품질을 나타낸다. 다른 예로, 1은 인코딩/디코딩 프로세스에서 대응하는 영역이 먼저 프로세싱되는 것을 지시하는 최고 프로세싱 우선순위를 나타낸다. 2는 중간 프로세싱 우선순위를 나타내고, 3은 최하 프로세싱 우선순위를 나타낸다.
일부 실시형태에서, 레벨 정보의 값들은 상이한 디렉터스 컷(director's cut)을 나타낼 수 있다. 예를 들어, 1은 제1 디렉터스 컷을 나타내고 2는 제2 디렉터스 컷을 나타낸다. 사용자는 상이한 컷에 대응하는 상이한 레벨 값을 선택함으로써 상이한 픽처를 볼 수 있다. 비디오 비트스트림을 프로세싱할 때에, 디코더는 해당 영역에 대한 순위 정보를 파싱하고 결정할 수 있다. 그런 다음 디코더는 순위 정보에 기초하여 이 영역의 후속 비디오 스트림을 획득한다. 예를 들어, 사용자가 제1 디렉터스 컷(예를 들어, 순위 값이 1임)을 볼 것을 선택할 경우, 디코더는 시간 T에서 비디오 스트림을 취득하고 제1 디렉터스 컷을 보여주기 위해 순위 값 1에 대응하는 스트림을 획득한다. 사용자가 제2 디렉터스 클립(예를 들어, 순위 값이 2임)을 볼 것을 선택할 경우, 디코더는 시간 T에서 비디오 스트림을 취득하고 제2 디렉터스 컷을 보여주기 위해 순위 값 2에 대응하는 후속 스트림을 획득한다.
일부 실시형태에서, 순위 정보의 값은 비연속적 정수일 수 있다. 도 3은 본 기술에 따른 순위 정보를 표현하는 비연속적 정수값들을 갖는 예시적인 파노라마 이미지(300)를 도시한다. 도 3에 도시한 바와 같이, 비연속적 정수값 23, 26, 30이 파노라마 이미지에서 대응하는 영역에 대한 상이한 품질 및/또는 우선순위 레벨을 지시하는 데 사용된다.
일부 실시형태에서, 순위 정보는 하나 이상의 문자를 사용하여 표현되는 장면 특징을 포함할 수 있다. 도 4는 본 기술에 따른 순위 정보를 표현하는 상이한 문자들을 갖는 예시적인 파노라마 이미지(400)를 도시한다. 도 4에 도시한 바와 같이, 상이한 문자들은 연관된 영역의 장면 특징 또는 속성을 표현할 수 있다. 예를 들어, 문자 'P'는 People을 의미하며, 대응하는 영역이 하나 이상의 사람을 보여주는 것을 나타낸다. 문자 'C'는 Car를 의미하며, 대응하는 영역이 하나 이상의 자동차를 보여주는 것을 나타낸다. 마찬가지로, 문자 'B'는 Background를 의미하며, 대응하는 영역이 장면 배경을 디스플레이하는 것을 나타낸다. 일부 실시형태에서는, 다수의 문자를 포함하는 문자열도 사용될 수 있다.
실시형태 2
파라노마 이미지 내의 영역/세그먼트는 상이한 크기 및/또는 형상을 가질 수 있다. 도 2 내지 도 4에 도시한 바와 같이, 파노라마 이미지는 다수의 영역/세그먼트로 균등하게 분할될 수 있다. 일부 실시형태에서, 파노라마 이미지는 불균등한 형상의 영역으로 분할될 수 있다. 도 5는 본 기술에 따른 파노라마 이미지(500)의 예시적인 불균등 분할을 도시한다. 이 예에서, 영역/세그먼트는 불균등한 크기의 직사각형 영역이다. 도 6은 본 기술에 따른 파노라마 이미지(600)의 또 다른 예시적인 불균등 분할을 도시한다. 이 예에서, 영역/세그먼트는 불균등한 형상을 갖는다. 세그먼트 중 적어도 하나는 파노라마 이미지 내의 다른 세그먼트와는 상이한 크기 및/또는 형상을 갖는다.
실시형태 3
전술한 바와 같이, (예컨대, 디코딩측에서) 파노라마 이미지의 프로세싱을 가속화하기 위해, 순위 정보가 비트스트림 표현에 인코딩되어 추가 계산 및/또는 프로세싱 시간을 단축할 수 있다. 순위 정보는 영역/세그먼트에 따라 정리될 수 있다. 표 1은 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 1: 순위 정보의 표현예
여기서, num_ranks는 순위 정보의 수를 나타낸다. 이 값은 파노라마 이미지 내의 세그먼트의 수와 동일하다.
표 2는 본 기술에 따른 비트스트림 내의 순위 정보의 다른 표현예를 보여준다.
표 2: 순위 정보의 다른 표현예
여기서, rank_cnt_minus1는 순위 정보의 수(예컨대, rank_cnt_minums1 + 1)를 나타낸다. 이 값은 파노라마 이미지 내의 세그먼트의 수와 동일하다.
표 1과 표 2에서, segment_top_left_x[i]는 파노라마 이미지 내의 i번째 세그먼트의 상부 왼쪽 픽셀의 수평 좌표를 나타낸다. segment_top_left_y[i]는 파노라마 이미지 내의 i번째 세그먼트의 상부 왼쪽 픽셀의 수직 좌표를 나타낸다. segment_width[i]는 i번째 세그먼트의 픽셀 폭을 나타낸다. segment_height[i]는 i번째 세그먼트의 픽셀 높이를 나타낸다. segment_rank[i]는 i번째 세그먼트의 순위 값을 나타낸다.
일부 실시형태에서, 세그먼트의 중심점의 좌표는 세그먼트의 상부 왼쪽 점의 좌표 대신에 세그먼트의 위치결정 포인트로서 사용될 수 있다. 일부 실시형태에서, 세그먼트의 좌표 및 위치결정 포인트는 360도 구면 파노라마 3D 좌표(예컨대 방위각 범위, 고도 범위)에 대해 조정될 수 있다.
본원에 개시하는 세그먼트는 상이한 표준에 기초하여 상이한 위치결정 단위와 연관될 수 있다. 예를 들어, 세그먼트는 HEVC/H.265 표준의 CTU(Coding Tree Unit, 코딩 트리 단위)와 같은 그리드 단위일 수 있다. HEVC/H.265 표준에서, 코딩 트리 블록(CTB)은 루마 및/또는 크로마 샘플의 NxN 블록이며, 여기서 N은 16, 32, 64, 등이다. CTU는 하나의 루마 CTB와 2개의 크로마 CTB를 포함하며 독립적인 코딩 단위이다. VVC/H.265의 CTU는 HEVC/H.265의 CTU의 개념과 일치하면서 또한 독립적인 코딩 단위이다. 그리드 단위는 또한 AVC/H.264 표준에서 매크로블록일 수 있다. 매크로블록은 그것의 대응하는 크로마 블록을 갖는 16x16 루마 블록이다. 매크로블록은 AVC/H.264 표준에서 독립적인 코딩 단위이다.
상이한 표준들은 프레임을 구획하는 상이한 방식들을 채택한다. 예를 들어, HEVC/H.265과 VVC/H.266 표준에서, 파티션은 타일의 형태로 표현될 수 있다. 타일은 이미지를 수평 및 수직 방향으로부터 여러 개의 직사각형 영역으로 분할한다. 타일은 픽처에서 특정 타일 열과 특정 타일 행 내의 CTU의 직사각형 영역이다. 하나 이상의 타일은 이미지의 파티션에 대응할 수 있다. HEVC/H.265 표준에서, 파티션은 슬라이스로도 표현될 수 있다. 하나 이상의 슬라이스는 파티션에 대응하고 다수 행의 CUT를 포함한다. VVC/H.266 표준에서, 파티션은 래스터 스캔 슬라이스의 형태로 표현될 수 있다. 하나 이상의 래스터 슬라이스는 파티션에 대응하고 다수 행의 CUT를 포함한다. 파티션은 또한 직사각형 슬라이스에 의해 표현될 수도 있다. 하나 이상의 직사각형 슬라이스가 파티션에 대응할 수 있다. 파티션은 서브픽처로도 표현될 수 있다. 하나 이상의 서브픽처가 파티션에 대응할 수 있다.
표 3은 본 기술에 따른 비트스트림 내의 순위 정보의 다른 표현예를 보여준다.
표 3: 순위 정보의 다른 표현예
표 4는 본 기술에 따른 비트스트림 내의 순위 정보의 다른 표현예를 보여준다.
표 4: 순위 정보의 다른 표현예
각 세그먼트의 순위 정보는 소정의 미리 결정된 방식으로(예컨대, 지그재그 스캐닝 순서, 오림차순 또는 내림차순)으로 배열될 수 있다. 일부 실시형태에서, 순위 정보는 임의의 순서로 랜덤으로 배열될 수 있다.
일부 실시형태에서, 순위 정보는 위치결정 포인트 및/또는 세그먼트의 크기와 같은, 세그먼트에 관한 특정 정보를 배제할 수 있다. 표 5는 본 기술에 따른 비트스트림 내의 순위 정보의 다른 표현예를 보여준다. 표 5에서 보다시피 세그먼트에 관한 특정 정보가 RankMap에 포함되지 않는다. 표 6은 본 기술에 따른 비트스트림 내의 순위 정보의 또 다른 표현예를 보여준다. 마찬가지로 세그먼트에 관한 특정 정보가 포함되지 않는다.
표 5: 순위 정보의 다른 표현예
표 6: 순위 정보의 다른 표현예
세그먼트에 관한 특정 정보는 비트스트림 내에 별도로 배치할 수 있다(예컨대, 순위 정보 앞에). 일부 실시형태에서, 비트스트림 내에 그러한 정보를 포함시킬 필요를 없애기 위해 디폴트 세그먼트를 사용할 수 있다.
일부 실시형태에서, 순위 정보에 대응하는 세그먼트는 VVC/H.266 표준에서 정의되는 서브픽처일 수 있다. 세그먼트 위치 및 크기 정보는 서브픽처의 위치 및 크기 정보이다. 그러한 경우에, rank_cnt_minus1와 sps_num_subpics_minus1는 같다. 각각의 segment_rank[i] 및 sps_subpic_id[i]는 1 대 1 대응관계를 갖는다.
표 7: 순위 정보의 다른 표현예
일부 실시형태에서, 순위 정보에 대응하는 세그먼트는 H.265/HEVC 표준에서 정의되는 시간적 모션 제약 타일 세트(MCTS, motion-constrained tile set)일 수 있다. 표 8은 본 기술에 따른 MCTS의 일부인 순위 정보의 표현예를 보여준다.
표 8: 순위 정보의 다른 표현예
실시형태 4
일부 실시형태에서, 순위 정보만이 세그먼트의 서브세트에 대한 특정 정보를 포함한다. 예를 들어, 표 1과 표 2에 나타내는 num_ranks는 파노라마 이미지 내의 세그먼트의 총 수보다 작을 수 있다. 도 7a는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 예시적인 파노라마 이미지(700)를 도시한다. 도 7a에 나타내는 바와 같이, 파노라마 이미지의 하부 오른쪽 코너에 있는 9개의 세그먼트만이 대응하는 순위 정보를 갖는다. 세그먼트의 서브세트가 서로 인접해 있을 필요는 없는 것을 알아야 한다. 도 7b는 본 기술에 따라 세그먼트의 서브세트가 대응하는 순위 정보를 갖는 또 다른 예시적인 파노라마 이미지(750)를 도시한다.
일부 실시형태에서, 특정 순위 정보를 갖지 않는 나머지 세그먼트를 프로세싱하기 위해 디폴트 순위 값을 사용할 수 있다.
실시형태 5
일부 실시형태에서, 순위 정보는 시간과 연관된다. 예를 들어, 순위 정보는 특정 시간 기간 내에서의 파노라마 이미지의 프로세싱에만 적용될 수 있다. 표 9는 본 기술에 따른 대응하는 시간 정보를 갖는 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 9: 순위 정보의 다른 표현예
변수 time_flag가 1인 것은 순위 정보와 연관된 시간 정보가 있음을 나타낸다. 그것의 값이 0인 것은 관련된 시간 정보가 없음을 나타낸다. TimeInfoStruct는 순위 정보의 유효 시간 간격을 기술하는 정보를 포함할 수 있다. 예를 들어, TimeInfoStruct는 절대적 시작 시간과 종료 시간을 포함할 수 있다. 다른 예에서는, 절대적 시작 시간 및 지속시간 간격이 사용될 수 있다. 일부 실시형태에서, 최종 유효 순위 정보에 대한 상대적 시작/종료 시간이 표시될 수 있다(세부내용은 후술하는 실시형태 7 참조).
순위 정보가 유효한 시간 지속기간 내에 새로운 순위 정보가 획득되면, 새로운 순위 정보는 미리 설정된 규칙에 따라 채택될 수 있다. 대안으로, 새로운 순위 정보는 현재 순위 정보의 시간 지속시간이 종료될 때까지 무시될 수도 있다. 표 10은 본 기술에 따른 대응하는 시간 정보를 갖는 비트스트림 내의 순위 정보의 표현예를 보여준다. 변수 rank_map_info_cancel_flag가 1인 것은 현재 순위 정보를 유지하는 것을 나타내고; 그 값이 0인 것은 새로운 순위 정보를 채택하는 것을 나타낸다. 변수 rank_map_info_persistence_flag가 0이 것은 현재 순위 정보가 현재 프레임/이미지에만 적용 가능한 것을 나타내고; 그 값이 1인 것은 현재 순위 정보가 후속 프레임/이미지에 적용 가능한 것을 나타낸다.
표 10: 순위 정보의 다른 표현예
실시형태 6
일부 실시형태에서, 순위 정보는 사용자의 시점(viewpoint)과 연관된다. 표 11은 본 기술에 따른 대응하는 시간 정보를 갖는 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 11: 순위 정보의 다른 표현예
(viewpoint_pos_x, viewpoint_pos_y, viewpoint_pos_z)는 시점의 위치이다. 시점 위치는 또한 GPS 좌표 정보(경도, 위도, 고도)를 사용할 수 있고, 시점의 위치는 3차원 극좌표(요, 피치, 롤)일 수도 있다. 변수 rankmap_flag가 1인 것은 순위 정보가 존재하는 것을 나타내고; 그 값이 0인 것은 순위 정보가 존재하지 않는 것을 나타낸다.
또한 순위 정보는 시점이 스위칭될 때에 변할 수 있다. 표 12는 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 12: 순위 정보의 다른 표현예
여기서, num_viewpoint_switching는 시점 스위칭 수를 나타내고, destination_viewpoint_id는 타겟 시점의 일련 번호를 나타낸다. 변수 timeline_switching_offset_flag가 1인 것은 스위칭 시간 정보가 있는 것을 나타내고; 그 값이 0인 것은 스위칭 정보가 없는 것을 나타낸다. 변수 rankmap_flag가 1인 것은 순위 정보가 존재하는 것을 나타내고; 그 값이 0인 것은 순위 정보가 존재하지 않는 것을 나타낸다. ViewpointTimelineSwitchStruct는 시점 스위칭 시간을 나타낸다.
일부 실시형태에서, 순위 정보는 시점이 변할 때마다 변하지 않을 수도 있다. 시점 스위칭이 특정 순위 정보 세트와 연관되지 않으면, 현재 유효 순위 정보나 사전 정의된 디폴트 정보가 사용될 수 있다.
실시형태 7
순위 정보 내의 순위 값은 절대값 또는 상대값일 수 있다. 표 13은 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다. 절대값 또는 상대값의 사용 여부를 나타내기 위해 변수 rank_diff_flag가 추가될 수 있다. 해당 값이 1일 경우, 상대 순위값이 사용될 수 있다. 해당 값이 0일 경우, 절대 순위값이 사용될 수 있다.
표 13: 순위 정보의 다른 표현예
실시형태 8
순위 정보는 캐스케이드 형태로 표현될 수 있다. 도 8은 본 기술에 따른 순위 정보의 예시적인 캐스캐이드 표현(800)을 도시한다. 도 8에 표시하는 굵은 실선은 세그먼트를 나타내고, 얇은 실선은 서브세그먼트를 나타낸다. 예를 들어, 11은 세그먼트 1의 1 하위분할(sub-division)을 나타낸다. 표 14는 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 14: 순위 정보의 다른 표현예
여기서, sub_segment_cnt_minus1은 서브세그먼트 순위 정보의 수를 나타낸다. sub_segment_top_left_x[j]는 이미지의 수평 방향으로 j번째 서브세그먼트의 상부 왼쪽 픽셀의 좌표이다. sub_segment_top_left_y[j]는 이미지의 j번째 서브세그먼트의 상부 왼쪽 픽셀의 수직 좌표이다. sub_segment_width[j]는 j번째 서브세그먼트의 픽셀 폭이다. sub_segment_height[j]는 j번째 서브세그먼트의 픽셀 높이이다. sub_segment_rank[j]는 j번째 서브세그먼트의 순위값이다.
일부 실시형태에서, 세그먼트는 대응하는 순위 값이 없다(예컨대, segment_rank[i] 정보는 존재하지 않는다). 서브세그먼트 순위값만이 사용된다.
실시형태 9
일부 실시형태에서, 순위 정보는 비디오 스트림에서 부가 개선 정보(SEI, Supplemental Enhancement Information)로 표현된다. 표 15는 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다.
표 15: 순위 정보의 다른 표현예
일부 실시형태에서, 순위 정보는 비디오 스트림에서 비디오 사용성 정보(VUI, Video Usability Information)로 표현된다. 표 16은 본 기술에 따른 비트스트림 내의 순위 정보의 표현예를 보여준다. 변수 rank_map_info_flag는 rank_map_info 사용 여부를 나타낼 수 있다. 해당 값이 1일 경우, rank_map_info를 사용할 수 있다. 해당 값이 0일 경우, rank_map_info를 생략할 수 있다.
표 16: 순위 정보의 다른 표현예
실시형태 10
전술한 실시형태들의 미디어 코드 스트림은 예컨대 ISO(국제 표준화 기구) 기본 미디어 파일 포맷에 기초하여 미디어 파일에 저장될 수 있다.
ISO 기본 파일 포맷의 모든 데이터는 박스 내에 패킹된다. 즉, MP4 파일로 표현되는 ISO 기본 파일 포맷은, 각각 소정의 타입 및 길이를 갖고 데이터 객체로서 간주될 수 있는 여러 개의 박스로 구성된다. 박스는 컨테이너 박스라고 불리는 다른 박스를 포함할 수 있다. MP4 파일은, 파일 포맷의 사인(sign) 역할을 하고 파일에 대한 일부 정보를 포함하는 하나의 "ftyp" 타입 박스만 갖는다. 또한 컨테이너 박스인 "MOOV" 타입 박스(Movie Box)만 하나 있다. Movie Box의 서브박스는 미디어의 메타데이터 정보를 포함한다. MP4 파일의 미디어 데이터는 컨테이너 박스이기도 한 "mdat" 타입 박스(Media Data Box)에 포함된다. 또한, 특정 샘플과 연관된 타이밍 메타데이터를 설정하기 위해 ISO 기본 미디어 파일 포맷(ISOBMFF) 내의 메커니즘인 타이밍 메타데이터 트랙이 사용된다.
예를 들어, 표 17은 트랙 엔트리 타입을 'vipo'로서 사용하는 시점예를 보여준다. 순위 정보는 시점 정보와 조합될 수 있다(예컨대, ViewpointPosStruct 또는 ViewpointSwitchingStruct 내에 배치됨)
표 17: 시점 정의예
도 9는 본 기술에 따른 비디오 인코딩 장치(900)의 일례의 블록도이다. 장치(900)는 구면 파노라마 비디오 이미지 정보를 수집하도록 구성된 획득 모듈(901)을 포함한다. 이 모듈은 메모리로부터 또는 카메라 프레임 버퍼로부터 비디오 데이터를 판독하기 위한 입출력 컨트롤러 회로부를 포함할 수 있다. 이 모듈은 비디오 데이터를 판독하기 위한 프로세서 실행 가능 명령어를 포함할 수 있다. 장치(900)는 세그먼트/영역과 연관된 순위 정보를 결정하도록 구성되는 순위 정보 프로세싱 모듈(902)을 포함한다. 이 모듈은 프로세서 실행 가능 소프트웨어 코드로서 구현될 수 있다. 장치(900)는 또한 순위 정보에 따라 비디오 이미지를 인코딩하도록 구성된 비디오 인코더 모듈(903)을 포함한다. 비디오 인코더 모듈(903)은 예컨대 통상의 H.264/H.265 또는 형상이 직사각형인 비디오 및 이미지의 인코딩에 적합한 다른 코덱일 수 있다. 비디오 인코더 모듈(903)은 모션 추정/보상 또는 인트라-이미지 코딩 기술을 사용하는 기술을 사용할 수 있다. 장치는 비디오 인코딩된 데이터 또는 미디어 데이터에 대해 저장 또는 네트워크 전송 계층 코딩 중 하나를 수행하도록 구성된 저장/전송 모듈(904)을 더 포함한다.
전술한 획득 모듈(901), 순위 정보 프로세싱 모듈(902), 비디오 인코더(903), 및 전송 모듈(904)은 전용 하드웨어, 또는 적절한 소프트웨어와 조합하여 프로세싱을 수행할 수 있는 전용 하드웨어 또는 하드웨어를 사용하여 구현될 수 있다. 이러한 하드웨어 또는 특수 목적 하드웨어는 ASIC(application specific integrated circuit), 다양한 기타 회로, 다양한 프로세서 등을 포함할 수 있다. 프로세서에 의해 구현될 때 해당 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 다중 독립 프로세서에 의해 제공될 수 있으며, 이들 중 일부는 공유될 수 있다. 또한 프로세서는 소프트웨어를 실행할 수 있는 하드웨어를 의미하는 것으로 이해되어서는 안 되며, 제한 없이 DSP(디지털 신호 프로세서) 하드웨어, 소프트웨어를 저장하기 위한 랜덤 온리 메모리(ROM), 랜덤 액세스 메모리(RAM)뿐만 아니라 비휘발성 저장 디바이스를 내재적으로 포함할 수 있다.
도 9에 도시하는 장치(900)는 휴대폰, 컴퓨터, 서버, 셋톱박스, 휴대용 이동 단말기, 디지털 비디오 카메라, 텔레비전 방송 시스템 디바이스 등과 같은 비디오 애플리케이션의 디바이스일 수 있다.
도 10은 본 기술에 따른 비디오 디코딩 장치(1000)의 일례의 블록도이다. 장치(1000)는, 네트워크로부터 비트스트림을 취득하고 비디오 인코딩된 데이터 또는 미디어 데이터를 포함한 네트워크 전송 계층 데이터로부터 디코딩을 수행하도록 구성된 획득 모듈(1001)를 포함하고, 영역 인접 정보 데이터를 제안만 하거나 영역 인접 정보를 포함한 비디오 데이터를 추출할 수 있다. 순위 정보 프로세싱 모듈(1002)은 순위 정보를 파싱하도록 구성된다. 비디오 디코더(1003)는 비디오 데이터 정보를 디코딩하거나 파노라마 비디오를 디코딩하거나, 디코딩을 위해 관심 영역이 위치한 독립적인 디코딩 단위를 추출하도록 구성된다. 디스플레이 디바이스(1004)는 파노라마 비디오 이미지를 생성하거나 디스플레이하거나 부분 인접 영역 이미지 디스플레이를 선택하도록 구성된다.
전술한 획득 모듈(1001), 순위 정보 프로세싱 모듈(1002), 비디오 디코더(1003), 및 디스플레이 디바이스(1004)는 전용 하드웨어, 또는 적절한 소프트웨어와 조합하여 프로세싱을 수행할 수 있는 전용 하드웨어 또는 하드웨어를 사용하여 실현될 수 있다. 이러한 하드웨어 또는 특수 목적 하드웨어는 ASIC(application specific integrated circuit), 다양한 기타 회로, 다양한 프로세서 등을 포함할 수 있다. 프로세서에 의해 구현될 때 해당 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 다중 독립 프로세서에 의해 제공될 수 있으며, 이들 중 일부는 공유될 수 있다. 또한 프로세서는 소프트웨어를 실행할 수 있는 하드웨어를 의미하는 것으로 이해되어서는 안 되며, 제한 없이 DSP(디지털 신호 프로세서) 하드웨어, 소프트웨어를 저장하기 위한 랜덤 온리 메모리(ROM), 랜덤 액세스 메모리(RAM)뿐만 아니라 비휘발성 저장 디바이스를 내재적으로 포함할 수 있다.
도 10에 도시하는 장치는 휴대폰, 컴퓨터, 서버, 셋톱박스, 휴대용 이동 단말기, 디지털 비디오 카메라, 텔레비전 방송 시스템 디바이스 등과 같은 비디오 애플리케이션의 디바이스일 수 있다.
도 11은 본 문헌에서 설명하는 인코더측 또는 디코더층 기술을 구현하는 데 사용될 수 있는 예시적인 장치(1100)를 도시한다. 장치(1100)는 인코더측 또는 디코더측 기술 또는 양쪽 기술을 수행하도록 구성될 수 있는 프로세서(1102)를 포함한다. 장치(1100)는 또한 프로세서 실행 가능 명령어를 저장하기 위한 그리고 비디오 비트스트림 및/또는 디스플레이 데이터를 저장하기 위한 메모리(도시 생략)를 포함할 수 있다. 장치(1100)는 변환 회로, 산술 코딩/디코딩 회로 등과 같은 비디오 프로세싱 회로부(도시 생략)를 포함할 수 있다. 비디오 프로세싱 회로부는 프로세서에 일부 그리고/또는 그래픽 프로세서, 필드 프로그래머블 게이트 어레이(FPGA) 등과 같은 기타 전용 회로부에 일부 포함될 수 있다.
본 문헌이 대역폭 요건을 저감하면서 일관된 몰입형 콘텐츠 시청 경험을 사용자에게 제공하기 위해 다양한 실시형태에서 구체화될 수 있는 기술을 개시하는 것을 이해할 것이다. 개시하는 미디어 콘텐츠 프로세싱 시스템 및 다른 실시형태, 모듈, 및 기능적 동작 및 기타는 본 문헌에 개시한 구조 및 그 구조적 등가물, 또는 이들 중 하나 이상의 조합물을 포함해, 디지털 전자 회로부로, 또는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로 구현될 수 있다. 개시한 실시형태 및 기타 실시형태는 하나 이상의 컴퓨터 프로그램 제품, 즉 실행을 위해 데이터 프로세싱 장치에 의해 또는 데이터 프로세싱 장치의 동작을 제어하기 위해 컴퓨터 판독 가능 매체 상에 인코딩된 컴퓨터 프로그램 명령어의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독 가능 매체는 머신 판독 가능 저장 디바이스, 머신 판독 가능 저장 기판, 메모리 디바이스, 머신 판독 가능 전파 신호를 달성하는 혼성 물체, 또는 하나 이상의 이들의 조합일 수 있다. "데이터 프로세싱 장치"란 용어는 예시적으로 프로그래밍 프로세서, 컴퓨터, 또는 멀티플 프로세서 또는 컴퓨터를 포함해, 데이터를 프로세싱하기 위한 모든 장치, 디바이스, 및 머신을 망라한다. 장치는 하드웨어 외에도, 당해 컴퓨터 프로그램을 위한 실행 환경을 작성하는 코드, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영체제, 또는 이들 중 하나 이상의 조합을 포함할 수 있다. 전파 신호는 적절한 수신기 장치에 전송할 정보를 인코딩하도록 생성되는, 인공으로 생성되는 신호, 예컨대 머신 생성된 전기, 광학, 도는 전자기 신호이다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트, 또는 코드)은 컴파일링 또는 인터프리팅된 언어를 포함해, 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 스탠트얼론 프로그램으로서 또는 모듈, 컴퓨넌트, 서브루틴, 또는 컴퓨팅 환경에 사용하기에 적절한 기타 유닛으로서 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템 내의 파일에 대응할 필요는 없다. 프로그램은 다른 프로그램 또는 데이터(예컨대, 마크업 언어로 저장된 하나 이상의 스크립트)를 유지하는 파일의 일부로, 해당 프로그램 전용의 단일 파일로, 또는 다수의 조정된 파일(예컨대, 하나 이상의 모듈, 하위 프로그램, 또는 코드의 부분을 저장한 파일)로, 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 또는 한 지점에 위치하거나 다수의 지점에 걸쳐 분산되고 통신 네트워크에 의해 상호 접속되는 다수의 컴퓨터 상에서 실행되도록 배치될 수 있다.
본 문헌에서 설명한 프로세스 및 로직 플로우는 입력 데이터에 대해 작동하고 출력을 생성하는 함수를 수행하는 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 프로세서에 의해 수행될 수 있다. 프로세스 및 로직 플로우는 또한 특수 용도 로직 회로부, 예컨대 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)로서 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 프로세서는 예컨대 일반 용도 및 특수 용도 양쪽의 마이크로프로세서, 및 임의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 리드 온리 메모리 또는 랜덤 액세스 메모리, 또는 이들 양쪽으로부터 명령어 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트는 명령어를 수행하기 위한 프로세서와 명령어 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예컨대 자기, 광자기 디스크, 또는 광학 디스크를 포함하거나 이들에 대해 데이터를 송수신하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터가 그러한 디바이스를 구비할 필요는 없다. 컴퓨터 프로그램 명령어 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는, 예를 들면 반도체 메모리 디바이스, 예컨대, EPROM, EEPROM, 및 플래시 메모리 디바이스; 자기 디스크, 예컨대 내부 하드 디스크 또는 착탈형 디스크; 광자기 디크스; 그리고 CD ROM 및 DVD-ROM 디스크를 포함해, 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 용도 로직 회로부에 의해 보완될 수도 또는 이들에 합체될 수도 있다.
본 특허문헌이 다수의 상세를 포함하고 있지만, 이들은 청구 대상 또는 임의의 발명의 범주에 대한 제한으로서 해석되는 것이 아니라 특정 발명의 특정 실시형태에 고유할 수 있는 특징들의 설명으로서 해석되어야 한다. 본 특허문헌에서 개별 실시형태의 맥락에서 설명되는 특정 특징들은 단일 실시형태에서 조합으로도 구현될 수 있다. 반면, 단일 실시형태의 맥락에서 설명되는 다양한 특징들도 다수의 실시형태에서 별도로 또는 임의의 적절한 하위조합으로 구현될 수 있다. 그러나, 특징들이 특정 조합으로 설명되고 심지어 처음에 그렇게 주장될 수도 있지만, 청구되는 조합 중의 하나 이상의 특징이 어떤 경우에는 조합으로부터 삭제될 수도 있고, 청구되는 조합이 하위 조합 또는 하위 조합의 변형에 관한 것일 수 도 있다.
마찬가지로, 동작들이 도면에 특정 순서로 도시되지만, 이는 바람직한 결과를 달성하기 위해, 그러한 동작이 도시된 특정 순서로 또는 순차적 순서로 수행되는 것을, 또는 모든 예시 동작들이 수행되는 것을 요구하는 것으로 이해되어서는 안 된다. 더욱이, 본 특허문헌에 설명한 실시형태에서의 다양한 시스템 컴포넌트들의 분리는 모든 실시형태들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 된다.
소수의 구현예 및 예시만이 설명되었지만, 본 특허문헌에서 설명하고 예시한 것에 기초하여 다른 구현예, 개선예 및 변형예가 이루어질 수 있다.
Claims (27)
- 멀티미디어 콘텐츠를 프로세싱하기 위한 방법에 있어서,
다수의 세그먼트를 포함하는 파노라마 미디어 콘텐츠(panoramic media content)의 프레임과 상기 파노라마 미디어 콘텐츠의 비트스트림 표현(bitstream representation) 사이의 변환을 위해, 상기 프레임과 연관된 다수의 순위 정보 세트를 결정하는 단계 - 각각의 순위 정보 세트는 적어도 우선순위 레벨, 품질 레벨, 또는 상기 파노라마 미디어 콘텐츠의 프레임의 세그먼트를 프로세싱하기 위한 스트림 스위치를 나타냄 - ; 및
상기 다수의 순위 파라미터에 기초하여 상기 변환을 수행하는 단계
를 포함하는, 방법. - 제1항에 있어서, 상기 각각의 순위 정보 세트는 상기 파노라마 미디어 콘텐츠의 대응하는 세그먼트를 프로세싱하기 위한 우선순위 레벨을 나타내는 정수를 포함하는, 방법.
- 제2항에 있어서, 상기 다수의 순위 정보 세트는 상기 파노라마 미디어 콘텐츠의 다수의 세그먼트를 프로세싱하기 위한 우선순위 레벨을 나타내는 연속적 또는 비연속적 정수들을 포함하는, 방법.
- 제1항에 있어서, 상기 각각의 순위 정보 세트는 상기 파노라마 미디어 콘텐츠의 대응하는 세그먼트에 대한 우선순위 레벨을 나타내는 하나 이상의 문자를 포함하는, 방법.
- 제1 내지 제4항 중 어느 하나 이상의 항에 있어서, 상기 프레임 내의 다수의 세그먼트는 크기가 동등한, 방법.
- 제5항에 있어서, 상기 다수의 세그먼트는 직사각형 형상을 갖는, 방법.
- 제1항 내지 제6항 중 어느 하나의 항에 있어서, 적어도 하나의 세그먼트는 상기 프레임 내의 다른 세그먼트와는 상이한 크기를 갖는, 방법.
- 제7항에 있어서, 상기 적어도 하나의 세그먼트는 비직사각형 형상을 갖는, 방법.
- 제1항 내지 제8항 중 어느 하나 이상의 항에 있어서, 상기 비트스트림 표현은 상기 다수의 순위 정보 세트의 수를 나타내는 파라미터를 포함하는, 방법.
- 제1항 내지 제9항 중 어느 하나 이상의 항에 있어서, 상기 각각의 순위 정보 세트는 상기 대응하는 세그먼트의 차원을 나타내는 하나 이상의 파라미터를 포함하는, 방법.
- 제1항 내지 제10항 중 어느 하나의 항에 있어서, 상기 프레임 내의 적어도 하나의 세그먼트는 대응하는 순위 정보 세트가 부족한, 방법.
- 제1항 내지 제11항 중 어느 하나 이상의 항에 있어서, 상기 비트스트림 표현은 상기 다수의 순위 정보 세트가 상기 프레임에 적용 가능한 때를 나타내는 타이밍 정보를 포함하는, 방법.
- 제1항 내지 제11항 중 어느 하나 이상의 항에 있어서, 상기 비트스트림 표현은 상기 다수의 순위 정보 세트가 상기 프레임에 적용 가능한 하나 이상의 시점을 나타내는 시점 정보를 포함하는, 방법.
- 제1항 내지 제13항 중 어느 하나 이상의 항에 있어서, 제1 우선순위 레벨이 제2 우선순위 레벨보다 더 높은 값을 갖는 경우에 상기 제1 우선순위 레벨에 대응하는 제1 세그먼트는 상기 제2 우선순위 레벨에 대응하는 제2 세그먼트에 앞서 프로세싱되는, 방법.
- 제1항 내지 제14항 중 어느 하나 이상의 항에 있어서, 세그먼트의 서브세트만이 상기 변환을 위해 프로세싱되고, 상기 세그먼트의 서브세트의 우선순위 레벨은 미리 정의된 임계치 이상의 값을 갖는, 방법.
- 제1항 내지 제14항 중 어느 하나 이상의 항에 있어서, 세그먼트의 서브세트만이 상기 변환을 위해 프로세싱되고, 상기 세그먼트의 서브세트의 우선순위 레벨은 상기 프레임 내의 상기 세그먼트의 서브세트의 위치에 기초하여 상기 비트스트림 표현에 포함되는, 방법.
- 제1항 내지 제16항 중 어느 하나 이상의 항에 있어서, 상기 각각의 순위 정보 세트는 대응하는 세그먼트 내의 복수의 서브세그먼트에 대한 순위 정보를 포함하는, 방법.
- 제1항 내지 제17항 중 어느 하나 이상의 항에 있어서,
파노라마 미디어 콘텐츠의 후속 프레임과 상기 비트스트림 표현 사이의 변환을 위해, 상기 파노라마 미디어 콘텐츠의 후속 프레임과 연관된 추가 순위 정보 세트를 결정하는 단계를 더 포함하는, 방법. - 제18항에 있어서, 상기 후속 프레임과 연관된 추가 순위 정보 세트는 상기 프레임과 연관된 다수의 순위 정보 세트에 대한 값을 포함하는, 방법.
- 제18항에 있어서, 상기 프레임과 연관된 다수의 순위 정보 세트 중 적어도 하나는 상기 파노라마 미디어 콘텐츠의 후속 프레임에 적용 가능한, 방법.
- 제1항 내지 제20항 중 어느 하나 이상의 항에 있어서, 영역이 코딩 트리 단위, 코딩 트리 블록, 타일, 매크로블록, 또는 서브픽처를 포함하는, 방법.
- 제1항 내지 제21항 중 어느 하나 이상의 항에 있어서, 상기 다수의 순위 정보 세트는 상기 비트스트림 표현에서 부가 개선 정보(Supplemental Enhancement Information) 또는 비디오 사용성 정보(Video Usability Information)로 표현되는, 방법.
- 제1항 내지 제22항 중 어느 하나 이상의 항에 있어서, 상기 파노라마 미디어 콘텐츠의 비트스트림 표현은 ISO/IEC 14496에 따라 포맷팅되는, 방법.
- 제1항 내지 제23항 중 어느 하나 이상의 항에 있어서, 상기 변환을 수행하는 단계는 비디오의 현재 블록에 기초하여 상기 비트스트림 표현을 생성하는 단계를 포함하는, 방법.
- 제1항 내지 제23항 중 어느 하나 이상의 항에 있어서, 상기 변환을 수행하는 단계는 상기 비트스트림 표현으로부터 비디오의 현재 블록을 생성하는 단계를 포함하는, 방법.
- 프로세서 및 명령어를 구비한 비일시적 메모리를 포함하는 멀티미디어 시스템의 장치에 있어서, 상기 명령어는 상기 프로세서에 의한 실행 시에 상기 프로세서로 하여금 제1항 내지 제25항 중 어느 한 항의 방법을 구현하게 하는, 장치.
- 비일시적 컴퓨터 판독 가능 매체 상에 저장된 컴퓨터 프로그램 제품에 있어서, 제1항 내지 제25항 중 어느 한 항의 방법을 수행하기 위한 프로그램 코드를 포함하는, 컴퓨터 프로그램 제품.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/084137 WO2021109397A1 (en) | 2020-04-10 | 2020-04-10 | Rank information in immersive media processing |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220113501A true KR20220113501A (ko) | 2022-08-12 |
KR102719787B1 KR102719787B1 (ko) | 2024-10-18 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
EP4074029A1 (en) | 2022-10-19 |
US12100116B2 (en) | 2024-09-24 |
AU2020395346B2 (en) | 2024-03-21 |
WO2021109397A1 (en) | 2021-06-10 |
AU2020395346A1 (en) | 2022-07-28 |
US20220343457A1 (en) | 2022-10-27 |
JP7443536B2 (ja) | 2024-03-05 |
EP4074029A4 (en) | 2023-01-18 |
JP2023510571A (ja) | 2023-03-14 |
CN114788267A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113615206B (zh) | 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法 | |
EP3926960A1 (en) | Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method | |
US20200153885A1 (en) | Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and/or a method for receiving point cloud data | |
US11259049B2 (en) | Area-based processing method and apparatus for 360-degree video | |
KR20160034889A (ko) | 정보 처리 장치 및 방법 | |
CN112956201B (zh) | 使用句法来执行编码的句法设计方法和设备 | |
US20220007028A1 (en) | Method and device for signaling information on chroma format | |
CN114556931B (zh) | 基于调色板模式的图像或视频编码 | |
KR20150074040A (ko) | 디지털 비디오를 코딩 및 디코딩하기 위한 방법, 및 관련된 코딩 및 디코딩 디바이스들 | |
CN114556933A (zh) | 基于调色板转义编码的图像或视频编码 | |
CN114424548A (zh) | 基于调色板编码的图像或视频编码 | |
ES2976723T3 (es) | Método y dispositivo de codificación de imagen/vídeo | |
CN113545060A (zh) | 视频编码中的空瓦片编码 | |
US20230308674A1 (en) | Method and apparatus for encoding/decoding image on basis of cpi sei message, and recording medium having bitstream stored therein | |
KR102719787B1 (ko) | 몰입형 미디어 프로세싱의 순위 정보 | |
AU2020395346B2 (en) | Rank information in immersive media processing | |
CN116325759A (zh) | 用于处理媒体文件的方法及其设备 | |
WO2020175908A1 (ko) | 시그널링된 정보에 기반한 픽처 파티셔닝 방법 및 장치 | |
CN118435607A (zh) | 特征编码/解码方法和设备、在其上存储比特流的记录介质、以及用于发送比特流的方法 | |
CN116210223A (zh) | 媒体文件处理方法及其装置 | |
CN118354066A (zh) | 用于编译关于合并数据的信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |