KR102307819B1 - 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림 - Google Patents

레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림 Download PDF

Info

Publication number
KR102307819B1
KR102307819B1 KR1020170062900A KR20170062900A KR102307819B1 KR 102307819 B1 KR102307819 B1 KR 102307819B1 KR 1020170062900 A KR1020170062900 A KR 1020170062900A KR 20170062900 A KR20170062900 A KR 20170062900A KR 102307819 B1 KR102307819 B1 KR 102307819B1
Authority
KR
South Korea
Prior art keywords
mapping
immersive
information
region
video
Prior art date
Application number
KR1020170062900A
Other languages
English (en)
Other versions
KR20170132098A (ko
Inventor
프랑크 갈팡
세바스티앙 라쎄르
삐에르 앙드리봉
Original Assignee
인터디지털 브이씨 홀딩스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터디지털 브이씨 홀딩스 인코포레이티드 filed Critical 인터디지털 브이씨 홀딩스 인코포레이티드
Publication of KR20170132098A publication Critical patent/KR20170132098A/ko
Application granted granted Critical
Publication of KR102307819B1 publication Critical patent/KR102307819B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T3/16
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • G06T17/205Re-meshing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • G06T3/18
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/395Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving distributed video coding [DVC], e.g. Wyner-Ziv video coding or Slepian-Wolf video coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/95Arrangements characterised by the broadcast information itself characterised by a specific format, e.g. MP3 (MPEG-1 Audio Layer 3)
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

본 개시는 역방향 호환 몰입형 비디오 스트림을 생성, 송신 및 디코딩하기 위한 방법, 장치 또는 시스템에 관한 것이다. 스트림은 직사각형 매핑에 따라 인코딩된 제1 영역, 직사각형 매핑으로부터 몰입형 매핑으로의 매핑 전이에 따라 인코딩된 제2 영역 및 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 프레임으로 구성된 몰입형 비디오를 나타내는 데이터를 운반한다. 역방향 호환을 위해, 스트림은 비디오 프레임 내의 제1 영역의 크기 및 위치를 나타내는 제1 정보 및 적어도 선택된 레이아웃의 타입, 제1 부분의 시야, 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 더 포함한다.

Description

레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림{METHOD, APPARATUS AND STREAM OF FORMATTING AN IMMERSIVE VIDEO FOR LEGACY AND IMMERSIVE RENDERING DEVICES}
본 개시는 예로서 몰입형 비디오를 나타내는 역방향 호환 스트림이 이종 클라이언트 디바이스 세트에 분배될 때 그러한 스트림을 포맷팅하는 분야에 관한 것으로서, 클라이언트 디바이스 중 일부는 레거시 직사각형 비디오를 표시하도록 구성되고, 다른 일부는 몰입형 비디오를 표시하도록 구성된다.
비디오는 최소한 하나의 이미지의 시퀀스이다. 실제로, 이미지는 정지 비디오로 간주될 수 있다. 비디오는 이차원 픽셀 어레이(즉, 컬러 정보 요소)인 직사각형 프레임 상에 인코딩된다. 시퀀스의 이미지당 하나의 프레임이 인코딩된다. 이미지는 매핑 함수에 따라 인코딩된다. 직사각형 스크린에 표시되도록 의도된 레거시 비디오는 직사각형 매핑에 따라 인코딩된다. 몰입형 비디오는 시청자 주변에 렌더링되도록 의도되며, 즉 시청자는 전체 픽처를 볼 수 없고, 그의 시야 밖의 이미지 부분을 보기 위해서는 그의 머리를 돌려야 한다(또는 움직이거나 제어기, 예로서 조이스틱이나 마우스를 사용해야 한다). 몰입형 비디오는 직사각형 프레임 상에 인코딩될 때 몰입형 매핑 함수, 예로서 정방형 매핑, 큐브 매핑 또는 피라미드 매핑을 필요로 한다.
비디오 스트림은 비디오가 렌더링되도록 의도된 렌더링 디바이스의 타입에 따라 준비되고 포맷팅된다. 레거시 비디오 렌더링 디바이스는 단지 직사각형 매핑에 따라 비디오 프레임을 디코딩하도록 구성되므로 몰입형 비디오를 적절히 표시하지 못한다. 반면, 몰입형 비디오 렌더링 디바이스는 몰입형 투영에 따라 인코딩된 프레임을 예상하므로 레거시 비디오를 적절히 표시하지 못한다. 레거시 및 몰입형 비디오 렌더링 디바이스 양자에 의해 적절하게 표시될 수 있는 역방향 호환 몰입형 비디오 스트림에 대한 포맷이 부족하다.
발명의 요약
본 개시의 목적은 레거시 및 몰입형 비디오 렌더링 디바이스 양자에 의해 적절하게 표시될 수 있는 역방향 호환 몰입형 비디오 스트림에 대한 포맷의 부족을 극복하는 것이다. 본 개시는 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하는 방법에 관한 것으로서, 방법은
비디오 스트림으로부터 소스 비디오 프레임을 획득하는 단계,
비디오 스트림으로부터 제1 정보를 획득하는 단계 - 상기 제1 정보는 상기 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타냄 -,
렌더링 디바이스가 레거시 비디오 렌더링 디바이스일 때, 소스 비디오 프레임의 상기 제1 영역으로 상기 비디오 프레임을 구성하는 단계,
렌더링 디바이스가 몰입형 비디오 렌더링 디바이스일 때:
비디오 스트림으로부터 제2 정보를 획득하는 단계 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 부분의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -,
상기 제1 및 제2 정보에 따라 그리고 상기 소스 비디오 프레임을 사용하여 매핑된 표면을 형성하는 단계,
상기 매핑된 표면의 일부를 캡처하는 적어도 하나의 가상 카메라로 비디오 프레임을 구성하는 단계
를 포함한다.
특정 특성에 따르면, 레이아웃은 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑 세트에 속하는 몰입형 매핑에 기초한다.
특정 실시예에 따르면, 스트림은 고효율 비디오 코딩(HEVC)에 따라 디코딩되며, 제1 정보는 적합 윈도우 파라미터에 의해 운반되고, 제2 정보는 보완 향상 정보(SEI)에 의해 운반된다.
본 개시는 또한 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하도록 구성된 장치에 관한 것으로, 장치는
비디오 스트림으로부터 소스 비디오 프레임을 획득하는 수단,
비디오 스트림으로부터 제1 정보를 획득하는 수단 - 상기 제1 정보는 상기 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타냄 -,
렌더링 디바이스가 레거시 비디오 렌더링 디바이스일 때, 소스 비디오 프레임의 상기 제1 영역으로 상기 비디오 프레임을 구성하도록 구성된 프로세서,
렌더링 디바이스가 몰입형 비디오 렌더링 디바이스일 때:
비디오 스트림으로부터 제2 정보를 획득하는 수단 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 부분의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -,
상기 제1 및 제2 정보에 따라 그리고 상기 소스 비디오 프레임을 사용하여 매핑된 표면을 형성하도록 구성된 프로세서,
상기 매핑된 표면의 일부를 캡처하는 적어도 하나의 가상 카메라로 비디오 프레임을 구성하도록 구성된 프로세서
를 포함한다.
본 개시는 또한 몰입형 비디오로부터 비디오 스트림을 생성하는 방법에 관한 것으로서, 방법은
직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하는 단계;
상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 몰입형 비디오 프레임의 제2 부분을 인코딩하는 단계;
상기 몰입형 매핑에 따라 몰입형 비디오 프레임의 제3 부분을 인코딩하는 단계;
상기 제1 부분을 제1 영역으로, 상기 제2 부분을 제2 영역으로 그리고 상기 제3 부분을 제3 영역으로 포함하는 레이아웃에 따라 비디오 프레임을 구성하는 단계;
상기 형성된 비디오 프레임, 상기 제1 영역의 크기 및 위치에 관한 제1 정보 및 적어도 상기 레이아웃의 타입, 상기 제1 부분의 시야와, 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 비디오 스트림을 생성하는 단계
를 포함한다.
특정 실시예에 따르면, 레이아웃은 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑 세트에 속하는 몰입형 매핑에 기초한다.
특정 특성에 따르면, 스트림은 고효율 비디오 코딩(HEVC)에 기초하며, 제1 정보는 적합 윈도우 파라미터에 의해 운반되고, 제2 정보는 보완 향상 정보(SEI)에 의해 운반된다.
본 개시는 또한 몰입형 비디오로부터 비디오 스트림을 생성하도록 구성된 장치에 관한 것으로,
직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하도록 구성된 인코더;
상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 몰입형 비디오 프레임의 제2 부분을 인코딩하도록 구성된 인코더;
상기 몰입형 매핑에 따라 몰입형 비디오 프레임의 제3 부분을 인코딩하도록 구성된 인코더;
상기 제1 부분을 제1 영역으로, 상기 제2 부분을 제2 영역으로 그리고 상기 제3 부분을 제3 영역으로 포함하는 레이아웃에 따라 비디오 프레임을 구성하도록 구성된 프로세서;
상기 형성된 비디오 프레임, 상기 제1 영역의 크기 및 위치에 관한 제1 정보 및 적어도 상기 레이아웃의 타입, 상기 제1 부분의 시야와, 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 비디오 스트림을 생성하도록 구성된 비디오 스트림 생성기
를 포함한다.
본 개시는 또한 몰입형 비디오를 나타내는 데이터를 운반하는 스트림에 관한 것으로,
직사각형 매핑에 따라 인코딩된 제1 영역, 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 인코딩된 제2 영역 및 상기 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 비디오 프레임,
비디오 프레임 내의 상기 제1 영역의 크기 및 위치를 나타내는 제1 정보,
적어도 상기 레이아웃의 타입, 제1 부분의 시야, 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보
를 포함한다.
아래의 설명을 읽을 때 본 개시가 더 잘 이해될 것이고, 다른 특정 특징 및 장점이 분명해질 것이며, 설명은 첨부된 도면을 참조한다. 도면에서:
도 1은 본 원리의 특정 실시예에 따른, 비디오 프레임의 직사각형 매핑 인코딩을 도시한다.
도 2는 본 원리의 특정 실시예에 따른, 도 1의 직사각형 매핑과 비교한 정방형 매핑 함수의 예를 도시한다.
도 3은 본 원리의 특정 실시예에 따른, 도 1 및 2의 다른 가능한 매핑과 비교한 큐브 매핑 함수의 레이아웃 예를 도시한다.
도 4는 본 원리의 특정 실시예에 따른, 상이한 매핑, 예를 들어 도 1, 2 및 3의 매핑에 따라 인코딩되고, 레거시 비디오 렌더링 디바이스에 의해 렌더링되는 이미지의 예를 도시한다.
도 5는 본 원리의 특정 실시예에 따른, 도 4의 정방형 매핑으로 관심 영역의 원치 않는 왜곡을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃을 도시한다.
도 6은 본 원리의 특정 실시예에 따른, 정방형 매핑에 따라 인코딩된 몰입형 프레임을 도 5의 예시적인 레이아웃으로 인코딩된 역방향 호환 프레임으로 변환하는 예를 도시한다.
도 7은 본 원리의 특정 실시예에 따른, 도 5 및 6에 도시된 비디오 프레임을 포함하는 역방향 호환 몰입형 비디오를 나타내는 데이터를 운반하는 스트림의 데이터 구조의 특정 실시예를 도시한다.
도 8은 본 원리의 특정 실시예에 따른, 도 3의 큐브 매핑으로 관심 영역 내의 원치 않는 불연속성을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃을 도시한다.
도 9는 본 원리의 특정 실시예에 따른, 도 10 또는 11과 관련하여 설명된 방법을 구현하도록 구성된 장치의 하드웨어 실시예를 도시한다.
도 10은 비한정적인 유리한 실시예에 따른 디바이스와 같은 도 9의 처리 디바이스에서 구현되는 역방향 호환 몰입형 비디오 스트림을 생성하는 방법의 실시예를 도식적으로 도시한다.
도 11은 비한정적인 유리한 실시예에 따른, 도 9의 디바이스와 같은 처리 디바이스에서 구현되는 주어진 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오 프레임을 구성하는 방법의 실시예를 도식적으로 도시한다.
이제, 도면을 참조하여 본 주제를 설명하며, 도면 전반에서 동일한 참조 번호는 동일한 요소를 지칭하는 데 사용된다. 이하의 설명에서, 설명의 목적으로, 본 주제에 대한 완전한 이해를 제공하기 위해 많은 특정 세부 사항이 설명된다. 본 주제의 실시예는 이러한 특정 세부 사항 없이도 실시될 수 있음을 이해한다.
본 개시의 비한정적인 실시예에 따르면, 역방향 호환 몰입형 비디오를 인코딩하는 스트림이 개시된다. 이러한 스트림을 디코딩하는 방법 및 장치가 또한 개시된다. 이러한 스트림은 레거시 비디오 렌더링 디바이스뿐만 아니라 몰입형 비디오 렌더링 디바이스에 의해서도 디코딩되고 렌더링될 수 있다. 이러한 스트림은 이를 디코딩할 디바이스에 상관없이 예를 들어 네트워크(예를 들어, 방송 네트워크, VoD 네트워크 또는 인터넷)로부터 전달되거나 매체(예를 들어, DVD, 블루레이 디스크 또는 메모리 스틱) 상에 저장된다.
레거시 비디오 렌더링 디바이스는 MPEG2, H.264/AVC 또는 H.265/HEVC와 같은 표준 포맷으로 인코딩된 레거시 비디오 스트림을 디코딩할 수 있는 디바이스이다. 레거시 비디오 렌더링 디바이스는 디코딩된 비디오를 이차원 직사각형 스크린(예로서, TV 세트, 비디오 투영기, 태블릿 또는 스마트폰)으로 렌더링한다. 렌더링은 이미지가 디스플레이 디바이스에 의해 적절히 표시될 수 있는 방식으로 이미지를 준비하는 동작이라는 점에 유의해야 한다. 비디오 스트림을 디코딩하도록 구성된 셋톱 박스 및 프로세서도 비디오 렌더링 디바이스로 간주된다. 하나의 특정 실시예에서, 역방향 호환 비디오 스트림은 H.265/HEVC의 표준 파라미터를 사용하며, 사전 변경 없이 기존 레거시 비디오 렌더링 디바이스에 의해 디코딩 가능하다는 이점을 갖는다.
몰입형 비디오 렌더링 디바이스를 위한 방법이 본 개시에서 더 상술된다. 몰입형 비디오는 시청자 주위에 렌더링되도록 의도되는데, 즉 시청자는 전체 픽처를 볼 수 없으며, 그의 시야 밖의 이미지 부분을 보기 위해서는 그의 머리를 회전(또는 이동)해야 한다. 예를 들어 "캐이브(cave)"는 여러 개의 비디오 투영기로 구성된 몰입형 비디오 렌더링 디바이스이며; 투영기는 디코딩된 비디오를 시청자 주위에 여러 방향으로 표시한다. 예를 들어, 헤드 장착형 디스플레이 디바이스(HMD), 태블릿 또는 스마트폰은 적어도 공간 내의 디바이스의 배향을 추적하는 관성 측정 유닛을 구비함에 따라 몰입형 비디오 렌더링 디바이스로서 구성될 수 있다. 디바이스의 배향은 보는 방향을 결정하고, 가상 카메라가 디바이스의 직사각형 스크린 상에 렌더링되어야 하는 주변 몰입형 비디오의 부분을 캡처한다.
소스 몰입형 비디오로부터 역방향 호환 몰입형 비디오 스트림을 생성하는 방법 및 장치가 또한 개시된다. 비디오 프레임은 적어도 하나의 매핑 함수에 따라 인코딩된다. 매핑 함수는 매핑 표면의 각 점을 프레임으로부터의 컬러 정보와 관련시킨다. 랜더링되기 위해, 매핑된 이미지를 선택하고/하거나 그가 표시되어야 하는 스크린에 적응시키기 위해 매핑 표면에 투영 함수가 적용된다. 매핑 함수는 비디오 렌더링 디바이스의 함수이다. 투영 함수는 디스플레이 디바이스와 관련된다. 특정 실시예에 따르면, 비디오 렌더링 디바이스에 링크된 특정 디스플레이 디바이스에 의해 예상되는 프레임을 준비하기 위해, 비디오 렌더링 디바이스에 의해 매핑 표면에 투영 함수가 적용된다.
도 1은 직사각형 매핑 인코딩 모드를 나타낸다. 비디오 시퀀스의 이미지는 직사각형 표면(11) 상에 렌더링되도록 의도된 직사각형 프레임(10) 내에 인코딩된다. 매핑 함수(12)는 프레임(10) 및 매핑 표면(11)이 동일할 때 간단하다. 스크린(13)은 매핑 표면(11)과 동일한 해상도 및/또는 선명도를 갖지 않을 수 있다. 결과적으로, 투영 함수(14)는 매핑 표면(11) 측에서 블랙 바를 리스케일링 및/또는 절단(cropping) 또는 표시할 수 있다. 도 1에서, 프레임(10)과 매핑 표면(11)은 4:3의 종횡비를 갖는 반면, 스크린은 16:9의 종횡비를 갖는다. 이 예에서, 투영 함수(14)는 이미지의 중간에서 절단을 행하여 스크린(13)에 맞는 비디오를 생성한다. 변형에서, 투영 함수(14)는 매핑 표면(11)의 좌측 및 우측에 블랙 바를 추가하여 스크린(13)에 맞는 비디오를 획득한다. 다른 실시예에서, 도 1의 비디오는 입체적이다. 이러한 변형에서, 프레임(10)은 2개의 별개의 매핑 표면(11) 상에 매핑되는 2개의 별개의 이미지를 포함한다. 매핑 표면들은 입체 효과를 렌더링하기 위해 스크린의 타입에 따라 결합된다.
도 2는 정방형 매핑 함수의 예를 나타낸다. 이미지의 시퀀스는 구 매핑 표면(21) 상에 매핑되도록 의도된 직사각형 프레임(20) 상에 인코딩된다. 매핑 함수(22)는 프레임(20)의 각 픽셀과 매핑 표면(21) 상의 점 사이의(그리고 그 반대의) 매핑을 설정한다. 도 2에서, 매핑 함수(22)는 정방형 투영(등거리 원통 투영이라고도 함)에 기초한다. 프레임(20) 상의 이미지는 왜곡된다. 거리는 적도에서 줄어들고 극에서 늘어난다. 직선은 더 이상 직선이 아니며 원근이 왜곡된다. 변형에서, 매핑 함수(22)는 예를 들어 등거리 원뿔 투영에 기초한다. 헤드 장착형 디스플레이 디바이스(HMD) 또는 태블릿 또는 스마트폰과 같이, 스크린(23)이 직사각형인 경우, 매핑 표면(21)의 일부가 선택된다. 투영 함수(24)는 구의 중심에 위치하는 카메라에 의해 관찰되는 바와 같이 매핑 표면(21)의 일부를 선택하는 것으로 구성되며, 카메라는 시야 및 해상도의 관점에서 스크린(23)에 바로 맞는 이미지를 생성하도록 구성된다. 선택된 시야는 디스플레이 디바이스의 특성에 의존한다. HMD의 경우, 유리하게, 시야각은 사람 입체 시야에 가깝고, 이는 약 120도이다. 카메라의 조준 방향은 사용자가 바라보고 있는 방향에 대응하며, 몰입형 비디오 렌더링 디바이스의 가상 카메라 제어기는 카메라의 조준 방향을 변경하는 데 사용된다. 변형에서, 도 2의 비디오는 입체적이다. 그러한 변형에서, 프레임(20)은 2개의 별개의 매핑 표면(21) 상에 매핑되는 2개의 별개의 이미지를 포함한다. 매핑 표면들은 입체 효과를 렌더링하기 위해 스크린의 타입에 따라 결합된다.
도 3은 큐브 매핑 함수의 레이아웃 예를 나타낸다. 이미지 시퀀스는 큐브 매핑 표면(31) 상에 매핑되도록 의도된 직사각형(또는 정사각형) 프레임(30) 상에 인코딩된다. 매핑 함수(32)는 프레임(30) 내의 정사각형과 큐브(31)의 면 간의 대응을 설정한다. 반대로, 매핑 함수는 큐브(31)의 면이 프레임(30)의 표면 내에서 어떻게 조직되는지를 결정한다. 각 면 상의 이미지는 왜곡되지 않는다. 그러나, 프레임(30)의 전체 이미지에서, 선은 구분적으로 직선이고 원근은 파괴된다. 이미지는 빈 정사각형(디폴트 또는 랜덤 컬러 정보, 도 3의 예에서는 흰색으로 채워짐)을 포함할 수 있다. 투영 함수는 도 2의 투영 함수로서 작용한다. 카메라는 큐브(31)의 중앙에 배치되고 렌더링 디바이스의 스크린에 맞는 이미지를 캡처한다.
변형에서, 다른 매핑 표면 및/또는 매핑 함수가 사용되어 비디오 프레임을 예로서 원통 또는 피라미드 상에 매핑한다.
도 4는 상이한 매핑 함수에 따라 인코딩되고 레거시 비디오 렌더링 디바이스에 의해 렌더링되는 이미지의 예를 도시한다. 레거시 비디오 렌더링 디바이스에 의해 렌더링됨에 따라 도 4의 모든 이미지는 직사각형 매핑에 따라 인코딩된다. 그러나 그들은 다른 투영 함수에 따라 투영된다. 이미지(40)는 통상적인 레거시 비디오(즉, 사용자가 TV 세트 또는 영화관에서 볼 때 사용되는 비디오)로부터 추출된다. 이미지(40)를 캡처한 카메라는 원근 투영 함수를 사용한다. 원근 투영의 경우, 직선은 직선이고, 각도 및 비율은 실제의 각도 및 비율에 대응하고, 원근이 지켜진다. 카메라는 주변 환경의 일부를 캡처했다. 이 부분은 영화 제작자가 보여주려고 선택한 부분이므로 관심 영역(RoI)이라고 한다. 원근 직사각형 이미지의 수평 시야는 예를 들어 70도(70°)이며, 이는 양호한 컬러 판별력을 갖는 가까운 주변 사람의 시력에 근사적으로 대응하는 각도이다.
이미지(41)는 광각 카메라로 캡처되었다. 이러한 투영 함수의 경우, 평면 스크린에 렌더링될 때, 직선은 더 이상 직선이 아니며, 각도 및 비율은 더 이상 현실에 대응하지 않으며, 원근은 왜곡된다. 관심 영역은 이미지(41)보다 크다. 수평 시야는 60도(60°)를 넘는다.
이미지(42)는 정방형 매핑에 따라 인코딩된 몰입형 이미지로부터 추출된 절단물이다. 원래의 몰입형 이미지는 원근 투영에 따라(즉, 직선, 각도, 비율 및 원근에 관하여) 몰입형 비디오 렌더링 디바이스에 의해 렌더링되도록 의도된다. 이미지(42)는 정방형 매핑으로 인코딩되고 직사각형 매핑으로 디코딩된 이미지의 일부이다. 결과적으로, 표시된 관심 영역은 임의의 수평 시야에 대해 왜곡된다. 왜곡은 원래 이미지의 절단 위치 및 시야에 따라 국부적으로 변한다. 이미지(43)는 큐브 매핑으로 인코딩되고 직사각형 매핑으로 디코딩된 이미지의 일부이다. 여기서, 원근은 유지되지만, 관심 영역이 큐브의 에지와 겹칠 때 연속성이 파괴된다.
도 5는 정방형 매핑으로 관심 영역의 원하지 않는 왜곡을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃(50)을 도시한다. 이 레이아웃(50)은 주어진 크기, 예를 들어 720 X 576 픽셀(PAL 선명도), 720 X 480(NTSC 선명도), 1280 X 720(HD1 선명도), 1920 x 1080 픽셀(HD2 선명도) 또는 4096 X 2160(4K)의 직사각형 프레임이다. 레이아웃(50)은 3개의 부분으로 구성된다.
부분(51)은 예를 들어 원근 투영에 따라 캡처되고 직사각형 매핑에 따라 인코딩되는 소스 몰입형 콘텐츠의 관심 영역에 대응한다. 이 서브프레임(51)은 레거시 비디오 렌더링 디바이스 상에 렌더링되도록 준비된다. 서브프레임(51)의 크기는 소정의 선명도, 예를 들어 프레임(50)이 4K 프레임인 경우 1920 X 1080 픽셀이다. 서브프레임(51)의 좌상 코너는 프레임(50) 내의 위치(x, y), 예를 들어 x = 1088 및 y = 540에 위치한다. 서브프레임(51)의 크기 및 위치는 비디오의 지속기간에 걸쳐 일정하다. 변형에서, 서브프레임(51)의 크기 및/또는 위치는 시간에 따라 변한다.
부분(52)은 정방형 매핑에 따라 소스 몰입형 콘텐츠를 인코딩하는 직사각형 프레임이다. 부분(53)에 대응하는 영역이 이 프레임으로부터 절단된다. 부분(53)은 이미지가 직사각형 매핑(그의 중앙 측)으로부터 정방형 매핑(그의 주변 측)으로 연속적으로 진행하는 전이 영역이다.
도 6은 도 5의 예시적인 레이아웃으로 인코딩된 역방향 호환 프레임(50)으로의 정방형 매핑에 따라 인코딩된 몰입형 프레임(60)의 변환의 예를 도시한다. 관심 영역은 예를 들어 감독에 의해 수동으로 선택되거나, 예를 들어, 이미지의 돌출 맵(saliency map)에 기초한 이미지 처리 알고리즘을 사용하여 자동으로 선택된다. 관심 영역은 몰입형 콘텐츠의 시야(최대 360°)의 일부에 대응한다. 전술한 바와 같이, 원근 투영이 관심 영역에 대해 선택되면, 시야는 최대 70도이다. 변형에서, 광각이 관심 영역의 투영 함수로서 선택된다.
다음의 예에서, 프레임(50) 내의 서브프레임(51)의 위치 (x,y)는 서브프레임(51)을 프레임의 중앙에 갖도록 선택되었다. 이 예의 변형에서, 식은 기준 프레임을 병진 이동시킴으로써 적응될 수 있다.
수평 시야가 주어지면 수직 시야는 다음 식에 의해 결정된다.
<수학식 1>
Figure 112017050426605-pat00001
여기서, w 및 h는 각각 서브프레임(51)의 폭 및 높이이다. 프레임(50)의 점 Me(ie, je)에 대해, 서브프레임(51)의 좌표 MS는 식 2에 따라 결정된다.
<수학식 2>
Figure 112017050426605-pat00002
여기서, we 및 he는 각각 프레임(50)의 폭 및 높이이다. 서브프레임(51)의 각 픽셀 Ms(i,j)에 대해, 관련 3D 점 Mv가 계산된다(식 3). 구 상의 점의 정규화를 투영함으로써 프레임(60) 내의 대응 픽셀의 좌표 M이 얻어진다(식 4).
<수학식 3>
Figure 112017050426605-pat00003
<수학식 4>
Figure 112017050426605-pat00004
함수 f는 이미지 공간에서 표면의 중간 파라미터 공간으로 매핑하는 함수이다. 예를 들어, 정방형 매핑의 경우, 함수 f는 다음과 같이 정의될 수 있다.
<수학식 4a>
Figure 112017050426605-pat00005
함수 ∂는 중간 파라미터 공간에서 표면의 3D 공간으로 매핑하는 함수이다. 정방형 매핑의 경우, 3D 표면은 구이며, 델타는 다음과 같이 정의될 수 있다.
Figure 112017050426605-pat00006
서브프레임(51)의 시야가 서브프레임(51)에 의해 점유된 몰입형 프레임(50, 60)의 시야 부분보다 작은 경우, 픽셀은 전이 영역(53)에서 "압축"된다. 이것은 서브프레임(51)이 차지하는 공간이 168.75도(1920 X 360/4096)일 때 서브프레임(51)의 수평 시야가 60도인 도 6의 예에서 그러하다. 반대로, 서브프레임(51)의 시야가 서브프레임(51)에 의해 점유된 몰입형 프레임(50, 60)의 시야 부분보다 크면, 픽셀은 전이 영역(53)에서 "신장"된다.
전이 영역(53)을 채우는 예시적인 방법은 직사각형 매핑 서브프레임(51)으로부터 정방형 매핑 부분(52)으로의 매끄러운 보간을 예를 들어 프레임의 두 부분(51 및 52) 사이의 거리에 따라 가중치를 결정함으로써 계산하는 것이다.
<수학식 5>
Figure 112017050426605-pat00007
여기서, mx 및 my는 각각 서브프레임(51) 주위의 부분(53)을 정의하는 마진의 폭 및 높이이다. 구 상의 점의 좌표는 가중치의 함수에 따라 계산되고(식 6), 사용할 프레임(60)의 픽셀의 좌표는 식 7에 의해 얻어진다.
<수학식 6>
Figure 112017050426605-pat00008
<수학식 7>
Figure 112017050426605-pat00009
함수 h는 두 매핑 간의 전이 기울기를 변경하는 데 사용된다. 1 이상의 양의 상수 α가 주어지면 함수 h는 예를 들어 다음 중 하나이다.
Figure 112017050426605-pat00010
Figure 112017050426605-pat00011
다른 실시예에서, 매끄러운 보간은 위에서 상술한 바와 같이 파라미터 표면 대신에 삼차원(3D) 공간에서 수행된다.
도 7은 도 5 및 6에 도시된 비디오 프레임을 포함하는 역방향 호환 몰입형 비디오를 나타내는 데이터를 운반하는 스트림(70)의 데이터 구조의 특정 실시예를 도시한다. 도 5 및 6의 프레임(50)은 스트림의 페이로드 부분(71) 내에 인코딩된다. 콘텐츠에 관련된 글로벌 또는 일반 정보가 헤더 부분(72)에 포함된다. 변경 또는 반복 정보는 각 페이로드 부분(71)의 헤더 부분(73)에 저장된다.
프레임(50)은 레거시 비디오 렌더링 디바이스에 적응되는 서브프레임(51)을 포함한다. 이들 디바이스가 서브프레임(51)을 디코딩하는 데 필요한 유일한 정보는 프레임(60) 내의 그의 위치 및 크기이며, 이는 본 명세서에서 제1 정보라고도 한다. 제1 정보가 시간에 걸쳐 변할 수 있음에 따라, 또는 콘텐츠 헤더가 (예를 들어 방송의 경우) 클라이언트 디바이스에 의해 수신되지 않았을 수 있기 때문에, 제1 정보는 각 페이로드 부분(71)의 헤더 부분(73)에 포함된다. 변형에서, 제1 정보는 콘텐츠 헤더 부분(72)에 포함된다. 다른 변형에서, 제1 정보는 변경시에만 또는 예를 들어 5 또는 10개의 페이로드 부분(71)마다 한 번씩 반복적으로 페이로드 부분(71)의 헤더(73) 부분에 포함된다.
특정 실시예에서, 프레임(50)은 H.265/HEVC 코덱(DVB 표준의 문서 ETSI TS 101 154 v2.2.1 참조)에 따라 인코딩된다. 이 코덱의 파라미터 "윈도우 적합성"은 메인 프레임에서 서브프레임의 위치 및 크기 정보를 운반하기 위해 예약된다. 스트림에 존재할 때, 렌더링 디바이스에 의한 적합성 윈도우 파라미터의 사용은 DVB 표준의 사양에서 필수적이다. 종횡비 적응은 디바이스의 사전 변경 없이 평소와 같이 레거시 비디오 렌더링 디바이스에 의해 관리된다.
몰입형 비디오 렌더링 디바이스(예를 들어, 태블릿, 스마트폰 또는 HMD)에 의해 디코딩될 때, 프레임(60)을 검색하기 위해 프레임(50)의 역변환이 수행된다. 도 6의 예에서, 역변환은 식 8 및 식 9의 역함수에 기초할 수 있다.
<수학식 8>
Figure 112017050426605-pat00012
Figure 112017050426605-pat00013
Figure 112017050426605-pat00014
<수학식 9>
Figure 112017050426605-pat00015
Figure 112017050426605-pat00016
Figure 112017050426605-pat00017
이 역변환에 필요한 파라미터는 변환에 필요한 것: 한편으로, 서브프레임(51)의 위치 및 크기를 포함하는 제1 정보 및 다른 한편으로, 프레임(50)(이 예에서 도 5의 것)을 준비하는 데 사용되는 매핑 레이아웃의 타입, 서브프레임(51)을 계산하는 데 사용된 시야, 전이 영역의 크기 및 기준 방향을 포함하는 제2 정보와 동일하며; 전이 영역의 위치는 매핑 레이아웃의 타입과 상관된다. 기준 방향은 몰입형 시청에서 렌더링시 매핑 표면의 절대 0 위치를 아는 데 유용할 수 있다. 제2 정보는 시간에 걸쳐 일정하며, 이러한 이유 때문에 콘텐츠의 헤더 부분(72)에 인코딩된다. 다른 실시예에서, 예를 들어 스트림이 방송될 때, 콘텐츠 헤더(72)는 클라이언트에 의해 누락될 수 있으며; 결과적으로, 제2 정보는 스트림 내에, 예를 들어 페이로드 부분(71)의 헤더 부분(73)에 반복적으로 인코딩된다. 변형에서, 제2 정보의 일부 데이터(예를 들어, 전이 영역의 크기)는 시간에 걸쳐 변경될 수 있으며, 이 때문에, 제2 정보는 스트림의 페이로드 부분(71)의 헤더 부분(73)에 인코딩된다.
이어서, 재구성된 프레임(60)은 구 상에 매핑되고, 몰입형 비디오 렌더링 디바이스는 표시할 몰입형 콘텐츠의 일부를 렌더링하기 위해 그의 정규 투영 함수를 사용한다. 다른 실시예에서, 몰입형 비디오 렌더링 디바이스는 상기 제1 및 제2 정보에 따라 프레임(50)에 고유한 매핑 표면을 형성했다. 예를 들어, 고유 매핑 표면은 (서브프레임(51)에 대한) 평면, (전이 부분(53)에 대한) 타원형 부분 및 (정방형 부분(52)에 대한) 부분적 구 부분으로 구성된다. 프레임(50)은 고유 매핑 표면 상에 매핑되고, 몰입형 비디오 렌더링 디바이스의 정규 투영 함수는 디바이스와 관련된 적어도 하나의 스크린에 적응된 몰입형 콘텐츠의 일부를 자동으로 절단한다.
특정 실시예에서, 프레임(50) 및 제1 및 제2 정보는 별개의 동기화된 스트림에 인코딩된다.
도 8은 큐브 매핑으로 관심 영역의 원치 않는 불연속성을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃(80)을 도시한다. 이 예시적인 레이아웃에서, 3D 표면의 각 면의 크기와 비율이 적응된다. 도 5 및 6의 예시적인 정방형 레이아웃과 동일한 이유 때문에, 레거시 비디오 렌더링 디바이스에 의해 직접 디코딩될 수 있도록 서브프레임(81)이 준비된다. 이 예시적인 레이아웃(80)은 주어진 크기, 예를 들어 720 X 576 픽셀(PAL 선명도), 720 X 480(NTSC 선명도), 1280 X 720(HD1 선명도), 1920 X 1080 픽셀(HD2 선명도) 또는 4096 X 2160(4K)의 직사각형 프레임이다. 큐브의 6개의 면은 레이아웃의 세 부분, 즉 직사각형 매핑 부분(81), 몰입형 매핑 부분(82) 및 전이 매핑 영역(83)을 구성한다.
부분(81)은 예를 들어 원근 투영에 따라 캡처되고 직사각형 매핑에 따라 인코딩되는 소스 몰입형 콘텐츠의 관심 영역에 대응한다. 관심 영역은 큐브의 한 면을 차지한다. 서브프레임(51)의 크기는 주어진 선명도, 예를 들어 프레임(80)이 4K 프레임이면 1920 X 1080 픽셀이다. 이러한 표준 크기는 사전 변경 없이 기존 레거시 비디오 렌더링 디바이스에 의해 디코딩되고 렌더링되는 이점을 갖는다. 그러나 (정사각형이 아니라) 직사각형이기 때문에 매핑 레이아웃 내의 큐브의 다른 면의 크기가 적응되어야 한다. 도 8의 예에서, 부분(81)은 (규약에 의해) 정면으로 표시되며 프레임(80)의 폭의 절반과 그의 높이의 절반을 차지한다. 상면, 하면 및 배면은 정사각형을 유지한다. 우측 면과 좌측 면은 예를 들어 하면보다 작은 직사각형이다. 몰입형 큐브 매핑에서 큐브의 각 면은 수평 시야(360도)의 90도(90°)와 수직 시야의 90도를 받는다. 도 8의 예시적인 역방향 호환 레이아웃에서, 정면의 시야는 관심 영역의 시야에 대응한다. 이 시야가 90°보다 작으면, 좌측 면, 우측 면, 상면 및 하면은 좌측 면 및 우측 면의 더 작은 영역에서 90°를 넘는 시야를 인코딩해야 한다. 결과적으로, 픽셀은 상기 4개의 면 상에 분포된 전이 영역(83)에서 "압축"된다. 프레임(80)의 나머지는 큐브 매핑에 따라 몰입형 프레임을 인코딩하는 데 사용된다.
도 8의 레이아웃으로 준비된 역방향 호환 몰입형 비디오는 도 5의 레이아웃에 대해 도 7에 도시된 바와 같이 스트림 내에 인코딩된다. 준비된 프레임은 스트림(70)의 페이로드 부분(71)에 인코딩된다. 서브프레임(81)의 위치 및 크기를 포함하는 제1 정보는 페이로드 부분(71)의 헤더 부분(73) 및/또는 콘텐츠의 헤더 부분(72)에 동일한 변형에 따라 인코딩된다. 제2 영역은 프레임(50)(이 예에서 도 8의 것)을 준비하는 데 사용되는 매핑 레이아웃의 타입, 서브프레임(81)을 계산하기 위해 사용되는 시야, 전이 영역의 크기 및 기준 방향을 포함하며; 전이 영역의 위치는 매핑 레이아웃의 타입과 상관된다.
도 9는 도 10 또는 11과 관련하여 설명된 방법을 구현하도록 구성된 장치(70)의 하드웨어 실시예를 도시한다. 이 예에서, 디바이스(90)는 클럭 신호도 운반하는 어드레스 및 데이터의 버스(91)에 의해 서로 접속되는 다음의 요소를 포함한다:
예를 들어 DSP(즉 디지털 신호 프로세서)인 마이크로프로세서(92)(또는 CPU);
ROM(판독 전용 메모리) 타입의 비휘발성 메모리(93);
랜덤 액세스 메모리 또는 RAM(94);
애플리케이션으로부터 전송할 데이터의 수신을 위한 I/O 인터페이스(95); 및
랜덤 액세스 메모리의 레지스터를 내장할 수 있는 그래픽 카드(96);
전원(97).
일례에 따르면, 전원(97)은 디바이스 외부에 있다. 언급된 각각의 메모리에서, 명세서에서 사용된 "레지스터"라는 단어는 작은 용량(몇몇 비트)의 영역에 또는 매우 큰 영역(예를 들어, 전체 프로그램 또는 대량의 수신 또는 디코딩된 데이터)에 대응할 수 있다. ROM(93)은 적어도 프로그램 및 파라미터를 포함한다. ROM(93)은 본 원리에 따라 기술을 수행하기 위한 알고리즘 및 명령어를 저장할 수 있다. 스위치 온될 때, CPU(92)는 프로그램을 RAM에 업로드하고 대응하는 명령어를 실행한다.
RAM(94)은 레지스터 내에 CPU(92)에 의해 실행되고 디바이스(90)의 스위치 온 후에 업로드되는 프로그램, 레지스터 내에 입력 데이터, 레지스터 내에 방법의 다른 상태에서의 중간 데이터 그리고 레지스터 내에 방법의 실행에 사용되는 다른 변수를 포함한다.
본 명세서에서 설명된 구현들은 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현(예를 들어, 방법 또는 디바이스로서만 논의됨)의 맥락에서만 논의되어도, 논의된 특징들의 구현은 다른 형태들(예를 들어, 프로그램)로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능 논리 디바이스를 포함하는 일반적으로 처리 디바이스를 지칭하는, 예를 들어 프로세서와 같은 예를 들어, 장치에서 구현될 수 있다. 프로세서들은 또한 예를 들어 컴퓨터, 셀폰, 휴대용/개인용 디지털 보조기("PDA"), 셋톱 박스, 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.
도 10에 도시된 바와 같이 역방향 호환 몰입형 비디오 스트림을 생성하는 일례에 따르면, 소스 몰입형 비디오 및 소스 몰입형 비디오의 관심 영역을 나타내는 데이터가 소스로부터 얻어진다. 예를 들어, 소스는 다음을 포함하는 세트에 속한다:
로컬 메모리(93, 94 또는 96), 예로서 비디오 메모리 또는 RAM(즉 랜덤 액세스 메모리), 플래시 메모리, ROM(즉 판독 전용 메모리), 하드 디스크;
저장 인터페이스(95), 예로서 대용량 저장소, RAM, 플래시 메모리, ROM, 광디스크 또는 자기 서포트와의 인터페이스; 및
통신 인터페이스(95), 예로서 유선 인터페이스(예로서, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 네트워크 인터페이스) 또는 무선 인터페이스(예로서, IEEE 802.11 인터페이스 또는 Bluetooth® 인터페이스).
하나의 특정 실시예에 따르면, 역방향 호환 몰입형 비디오 스트림을 생성하는 방법의 단계를 구현하고 이하 도 10에서 설명되는 알고리즘은 이들 단계를 구현하는 디바이스(90)와 관련된 그래픽 카드(96)의 메모리(GRAM)에 저장된다. 변형에 따르면, RAM(94)의 일부는 알고리즘 저장을 위해 CPU(92)에 의해 할당된다. 이러한 단계들은 로컬 메모리, 예로서 비디오 메모리(94), RAM(94), ROM(93), 플래시 메모리(93) 또는 하드 디스크(93), 저장 인터페이스(95), 예로서 대용량 저장소, RAM, ROM, 플래시 메모리, 광디스크 또는 자기 서포트와의 인터페이스를 포함하는 세트에 속하는 목적지로 전송되고/되거나 통신 인터페이스(95), 예로서 점대점 링크, 버스, 점 대 다점 링크 또는 방송 네트워크에 대한 인터페이스로부터 수신되는 비디오 스트림의 생성을 유도한다.
예들에 따르면, 도 10과 관련하여 설명된 역방향 호환 몰입형 비디오 스트림을 생성하는 방법을 구현하도록 구성된 디바이스(90)는
모바일 디바이스;
통신 디바이스;
게임 디바이스;
태블릿(또는 태블릿 컴퓨터);
랩탑;
인코딩 칩;
정지 픽처 서버; 및
비디오 서버(예로서, 방송 서버, 주문형 비디오 서버 또는 웹 서버)
를 포함하는 세트에 속한다.
역방향 호환 몰입형 비디오 스트림으로부터 비디오를 구성하는 예에 따르면, 역방향 호환 몰입형 비디오를 나타내는 스트림이 소스로부터 얻어진다. 예시적으로, 스트림은 로컬 메모리, 예를 들어 비디오 메모리(94), RAM(94), ROM(73), 플래시 메모리(93) 또는 하드 디스크(93)로부터 판독된다. 변형에서, 스트림은 저장 인터페이스(95), 예로서 대용량 저장소, RAM, ROM, 플래시 메모리, 광디스크 또는 자기 서포트와의 인터페이스로부터 수신되고/되거나, 통신 인터페이스(95), 예로서 점대점 링크, 버스, 점 대 다점 링크 또는 방송 네트워크에 대한 인터페이스로부터 수신된다.
하나의 특정 실시예에 따르면, 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오를 구성하는 방법의 단계들을 구현하고, 이하 도 11에서 설명되는 알고리즘은 이들 단계를 구현하는 디바이스(90)와 관련된 그래픽 카드(96)의 메모리(GRAM)에 저장된다. 변형에 따르면, RAM(94)의 일부는 알고리즘 저장을 위해 CPU(92)에 의해 할당된다. 이 단계는 다음을 포함하는 세트에 속하는 목적지로 전송되는 비디오의 구성을 유도한다:
모바일 디바이스;
통신 디바이스;
게임 디바이스;
셋톱 박스;
TV 세트;
태블릿(또는 태블릿 컴퓨터);
랩탑;
디스플레이; 및
디코딩 칩.
도 10은 비한정적인 유리한 실시예에 따른 디바이스(90)와 같은 처리 디바이스에서 구현되는 바와 같이 역방향 호환 몰입형 비디오 스트림을 생성하는 방법(100)의 실시예를 도식적으로 도시한다.
단계 101에서, 몰입형 비디오의 관심 영역을 나타내는 몰입형 비디오 및 데이터가 소스로부터 얻어진다. 몰입형 비디오는 몰입형 매핑, 예를 들어 (도 6의 프레임(60)과 같이) 정방형 매핑, (예로서, 도 3의 프레임(30)과 같이) 큐브 매핑 또는 피라미드 매핑에 따라 인코딩된 프레임을 포함한다. 몰입형 비디오는 오디오 트랙 또는 메타데이터와 같은 역방향 호환 몰입형 비디오 스트림을 생성할 때 변경 없이 사용되는 다른 데이터를 포함할 수 있다.
단계 102에서, 역방향 호환 프레임의 준비를 위해 레이아웃, 예를 들어, 도 5와 같은 정방형 매핑에 기초한 레이아웃 또는 도 8의 것과 같은 큐브 매핑에 기초한 레이아웃 또는 피라미드 매핑에 기초한 레이아웃이 선택된다.
단계 103은 역방향 호환 프레임을 형성하는 단계로 구성된다. 이 단계는 3개의 하위 단계 104, 105 및 106을 포함한다. 이들 3개의 하위 단계는 순차적으로 또는 병렬로 실행될 수 있다. 단계 104는 직사각형 매핑에 따라 프레임을 인코딩하는 단계로 구성된다. 이 단계 104는 역방향 호환되는 프레임의 부분을 생성하기 때문에 모든 레이아웃에 공통적이다. 프레임의 컬러 정보(즉, 픽셀)는 관심 영역의 설명에 따라 몰입형 비디오 프레임으로부터 결정된다. 단계 105 및 106은 관심 영역 밖에 있는 몰입형 비디오의 부분을 준비하는 단계로 구성된다. 레이아웃의 몰입형 매핑은 몰입형 비디오의 몰입형 매핑과 다를 수 있다. 전이 영역의 크기가 결정된다. 전이 영역의 위치는 선택한 레이아웃에 의존한다. 전이 영역은 역방향 호환 프레임을 계속한다. 단계 105에서, 전이 영역의 컬러 정보가 결정된다. 이 부분에 사용되는 매핑은 직사각형 매핑에서 레이아웃의 몰입형 매핑으로 계속적으로 전이한다. 단계 106에서, 몰입형 부분의 컬러 정보가 결정된다. 몰입형 비디오 프레임의 세 부분에 대응하는 세 영역은 선택한 레이아웃에 따라 역방향 호환 프레임을 구성하는 데 사용된다. 단계 103의 실행에 대해 결정된 값은 단계 107의 입력으로서 전송된다. 이들 값은 제1 영역의 크기 및 위치, 레이아웃 타입, 제1 부분의 시야, 전이 영역의 크기 및 기준 방향이라고도 하는 렌더링시 매핑 표면의 절대 0 위치의 방향이다.
단계 107은 역방향 호환 몰입형 비디오 스트림의 생성으로 구성된다. 스트림은 역방향 호환 비디오 프레임, 제1 영역의 크기 및 위치에 관한 제1 정보 및 레이아웃의 타입, 제1 부분의 시야, 전이 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함한다.
도 11은 비한정적인 유리한 실시예에 따른 디바이스(90)와 같은 처리 디바이스에서 구현되는 주어진 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오 프레임을 구성하는 방법(110)의 실시예를 개략적으로 도시한다. 렌더링 디바이스는 TV 세트, 태블릿 또는 스마트폰과 같은 레거시 비디오 렌더링 디바이스 또는 몰입형 비디오를 렌더링하도록 구성된 케이브, HMD 또는 태블릿 또는 스마트폰과 같은 몰입형 비디오 렌더링 디바이스이다. 방법의 처음 세 단계는 양 타입의 렌더링 디바이스에 공통적이다.
단계 111에서, 스트림이 소스로부터 얻어진다. 스트림은 역방향 호환되므로, 사전 변경 없이 표준 레거시 비디오 렌더링 디바이스로 파싱될 수 있다. 단계 112에서, 스트림의 비디오 프레임이 획득된다. 실시예에 따르면, 프레임은 이 단계에서 디코딩된다. 다른 실시예에서, 프레임의 인코딩된 데이터가 액세스되고 인코딩된 상태로 유지된다. 그러한 실시예는 프레임의 제1 영역만이 단계 114에서 디코딩될 레거시 비디오 렌더링 디바이스에 유용하다. 이러한 실시예는 예를 들어 타일의 사용에 의해 구현될 수 있다. 독립적인 타일은 전용 보완 향상 정보(SEI)가 각각 다른 타일로부터 독립적으로 디코딩될 타일의 크기와 위치를 알리기 위해 예약되는 HEVC의 특징이다. 단계 113에서, 제1 영역의 크기 및 위치를 포함하는 제1 정보가 스트림으로부터 파싱된다.
이 시점에서, 렌더링 디바이스가 레거시 비디오 렌더링 디바이스이면, 제1 영역에 대응하는 프레임의 부분은 렌더링될 프레임을 구성하는 데 사용된다. 제1 영역은 직사각형 매핑에 따라 인코딩되므로, 레거시 비디오 렌더링 디바이스는 이를 사전 변경 없이 렌더링할 수 있다. 실시예에 따르면, 프레임은 제1 영역만을 유지하기 위해 제1 정보에 따라 절단된다. 다른 실시예에 따르면, 제1 영역의 일부만이 예를 들어 타일 특징을 사용함으로써 디코딩된다.
렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우, 단계 115에서 제2 정보가 스트림으로부터 파싱된다. 이 정보는 단계 116에서 매핑된 표면을 형성하기 위해 제1 정보에 추가하여 사용된다. 실시예에 따르면, 매핑 표면, 예를 들어 구, 큐브 또는 피라미드가 선택된다. 이 매핑 표면은 예를 들어 텍스처 좌표와 관련된 메시이다. 이러한 텍스처 좌표는 입력 프레임과 매칭하도록 계산된다. 변형에서, 메시의 정점들은 그들의 위치가 입력 프레임 내의 그들의 텍스처 좌표 어드레스의 위치와 매칭하도록 변위된다. 다른 변형에서, 프레임이 매핑 표면의 텍스처 좌표와 매칭하도록 중간 프레임이 계산된다.
단계 117은 매핑된 표면의 중심에 배치된 가상 카메라로부터 렌더링될 비디오를 캡처하는 단계로 구성된다. 이것은 몰입형 비디오 렌더링 디바이스의 정규 단계이다. 적어도 하나의 가상 카메라가 매핑된 표면의 중심에 배치되고 투영 디바이스로 전송되도록 의도된 프레임을 캡처한다. 헤드 장착 디바이스의 경우, 투영 디바이스는 디바이스의 스크린이다. 케이브의 경우, 각 광 투영기는 투영 디바이스이다.
당연히, 본 개시는 전술한 실시예로 한정되지 않는다.
특히, 본 개시는 몰입형 비디오 콘텐츠를 처리하는 방법에 한정되지 않는 것이 아니라, 처리된 비디오 프레임을 표시하는 임의의 방법 및 이 표시 방법을 구현하는 임의의 디바이스에도 확장된다. 프레임 및 스트림을 생성하는 데 필요한 계산의 구현은 셰이더 타입 마이크로프로그램에서의 구현으로 한정되는 것이 아니라, 임의의 프로그램 타입, 예로서 CPU 타입 마이크로프로세서에 의해 실행될 수 있는 프로그램에서의 구현으로 확장된다. 본 개시내용의 방법들의 사용은 라이브 이용에 제한되는 것이 아니라, 임의의 다른 이용, 예를 들어, 레코딩 스튜디오에서의 후반 제작 처리로서 알려진 처리에 대해 또한 확장한다.
본 명세서에서 설명된 구현들은, 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현(예를 들어, 방법 또는 디바이스로서만 논의됨)의 맥락에서만 논의되어도, 논의된 특징들의 구현은 다른 형태들(예를 들어, 프로그램)로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능 논리 디바이스를 포함하는 일반적으로 처리 디바이스를 지칭하는, 예를 들어 프로세서와 같은 예를 들어, 장치에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 스마트폰, 태블릿, 컴퓨터, 이동 전화, 개인 정보 단말기("PDA")와 같은 통신 디바이스, 및 최종-사용자들 간에 정보 통신을 가능하게 하는 다른 디바이스들을 포함한다.
여기에 설명된 다양한 프로세스들 및 특징들의 구현들은 다양한 상이한 장비 또는 애플리케이션들, 특히 예를 들면 데이터 인코딩, 데이터 디코딩, 뷰 생성, 텍스처 처리, 및 이미지들 및 관련된 텍스처 정보 및/또는 깊이 정보의 다른 처리와 관련된 장비 또는 애플리케이션들에서 실시될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 포스트 프로세서, 인코더에 입력을 제공하는 프리 프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀 폰, PDA, 및 다른 통신 디바이스들을 포함한다. 명료해야 하는 바와 같이, 장비는 이동형이며, 심지어 자동차 내에 설치될 수 있다.
추가적으로, 방법들은 프로세서에 의해 수행되는 명령들에 의해 구현될 수 있고, 그러한 명령들(및/또는 구현에 의해 생성된 데이터 값들)은 예를 들면 집적 회로, 소프트웨어 캐리어, 또는 예를 들면 하드디스크, 컴팩트 디스켓("CD"), 광 디스크(예를 들면, 종종 디지털 다기능 디스크 또는 디지털 비디오 디스크로 지칭되는 DVD), 랜덤 액세스 메모리("RAM"), 또는 판독전용 메모리("ROM")와 같은 다른 저장 디바이스와 같은 프로세서-판독가능한 매체 상에 저장될 수 있다. 명령어들은 프로세서 판독가능한 매체 상에 유형적으로 구현되는 애플리케이션 프로그램을 형성할 수 있다. 명령어들은, 예를 들어, 하드웨어, 펌웨어, 소프트웨어, 또는 조합 내에 존재할 수 있다. 명령어들은, 예를 들어, 운영 체제, 별도의 애플리케이션, 또는 이 둘의 조합에서 발견될 수 있다. 따라서, 프로세서는, 예를 들어 프로세스를 수행하도록 구성된 디바이스와 프로세스를 수행하기 위한 명령어들을 갖는 프로세서 판독가능한 매체를 포함하는 디바이스(예컨대, 저장 디바이스) 양자 모두로서 특성화될 수 있다. 또한, 프로세서 판독가능한 매체는, 명령어들에 더하여 또는 명령어들 대신, 구현에 의해 생성되는 데이터 값들을 저장할 수 있다.
본 기술분야의 통상의 기술자에게 명백할 바와 같이, 구현들은, 예를 들어, 저장되거나 송신될 수 있는 정보를 반송하도록 포맷팅되는 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 설명된 구현들 중 하나에 의해 생성되는 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 신택스를 기입하거나 판독하기 위한 규정들을 데이터로서 반송하거나, 또는 설명된 실시예에 의해 기입되는 실제 신택스-값들을 데이터로서 반송하도록 포맷팅될 수 있다. 이러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 라디오 주파수 부분을 사용하여), 또는 베이스밴드 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어, 데이터 스트림을 인코딩하는 것 및 인코딩된 데이터 스트림을 이용하여 캐리어를 변조하는 것을 포함한다. 신호가 반송하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 공지된 바와 같이, 신호는 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능한 매체 상에 저장될 수 있다.
다수의 구현이 설명되었다. 그럼에도 불구하고, 다양한 변형이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현들의 요소는 조합되고, 보충되고, 수정되거나, 또는 제거되어 다른 구현들을 생성할 수 있다. 추가로, 통상의 기술자는, 다른 구조들 및 프로세스들이 개시된 것들에 대해 치환될 수 있으며, 결과적인 구현들이 적어도 실질적으로 동일한 기능(들)을, 적어도 실질적으로 동일한 방식(들)으로 수행하여, 개시된 구현들과 적어도 실질적으로 동일한 결과(들)를 달성할 것임을 이해할 것이다. 따라서, 이러한 그리고 다른 구현들이 이 출원에 의해 참작된다.

Claims (16)

  1. 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하는 방법(110)으로서,
    상기 비디오 스트림으로부터 제1 정보를 획득하는 단계(113) - 상기 제1 정보는 상기 비디오 스트림으로부터 획득된 소스 비디오 프레임에서의 제1 영역의 크기 및 위치를 나타내고, 상기 제1 영역은 직사각형임 -;
    직사각형 매핑에 따라 상기 제1 영역을 디코딩하는 단계;
    상기 렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우:
    상기 비디오 스트림으로부터 제2 정보를 획득하는 단계(115) - 상기 제2 정보는 레이아웃의 타입, 상기 제1 영역의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -;
    상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 제2 영역을 디코딩하는 단계;
    상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 몰입형 매핑에 따라 상기 소스 비디오 프레임의 제3 영역을 디코딩하는 단계;
    디코딩된 상기 제1 영역, 디코딩된 상기 제2 영역 및 디코딩된 상기 제3 영역으로 상기 비디오 프레임을 구성하는 단계(117)
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 방법.
  4. 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하도록 구성된 장치(90)로서,
    상기 장치는 프로세서를 포함하고,
    상기 프로세서는:
    상기 비디오 스트림으로부터 제1 정보를 획득하고 - 상기 제1 정보는 상기 비디오 스트림으로부터 획득된 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타내고, 상기 제1 영역은 직사각형임 -, 직사각형 매핑에 따라 상기 제1 영역을 디코딩하도록 구성되고,
    상기 렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우, 상기 프로세서는:
    상기 비디오 스트림으로부터 제2 정보를 획득하고 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 영역의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -;
    상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 제2 영역을 디코딩하고;
    상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 몰입형 매핑에 따라 상기 소스 비디오 프레임의 제3 영역을 디코딩하고;
    디코딩된 상기 제1 영역, 디코딩된 상기 제2 영역 및 디코딩된 상기 제3 영역으로 상기 비디오 프레임을 구성하도록
    더 구성되는 것을 특징으로 하는 장치.
  5. 제4항에 있어서,
    상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 장치.
  6. 제4항 또는 제5항에 있어서,
    상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 장치.
  7. 제4항 또는 제5항에 있어서,
    상기 장치는, 모바일 디바이스, 통신 디바이스, 게임 디바이스, 태블릿 컴퓨터, 랩탑, 인코딩 칩, 정지 픽처 서버, 비디오 서버, 방송 서버, 주문형 비디오 서버 및 웹 서버를 포함하는 장치의 세트에 속하는 장치.
  8. 몰입형 비디오로부터 비디오 스트림을 생성하는 방법(100)으로서,
    직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하는 단계(104);
    상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 몰입형 비디오 프레임의 제2 부분을 인코딩하는 단계(105);
    상기 몰입형 매핑에 따라 상기 몰입형 비디오 프레임의 제3 부분을 인코딩하는 단계(106);
    상기 제1 부분을 제1 영역으로서, 상기 제2 부분을 제2 영역으로서 그리고 상기 제3 부분을 제3 영역으로서 포함하는 레이아웃에 따라 비디오 프레임을 구성하는 단계(103) - 상기 제1 영역은 직사각형임 -;
    상기 구성된 비디오 프레임, 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보, 및 상기 레이아웃의 타입, 상기 제1 부분의 시야, 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 상기 비디오 스트림을 생성하는 단계(107)
    를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 방법.
  11. 몰입형 비디오로부터 비디오 스트림을 생성하도록 구성된 장치(90)로서,
    직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하도록 구성된 인코더;
    상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 몰입형 비디오 프레임의 제2 부분을 인코딩하도록 구성된 인코더;
    상기 몰입형 매핑에 따라 상기 몰입형 비디오 프레임의 제3 부분을 인코딩하도록 구성된 인코더;
    상기 제1 부분을 제1 영역으로서, 상기 제2 부분을 제2 영역으로서 그리고 상기 제3 부분을 제3 영역으로서 포함하는 레이아웃에 따라 비디오 프레임을 구성하도록 구성된 프로세서 - 상기 제1 영역은 직사각형임 -;
    상기 구성된 비디오 프레임, 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보, 및 상기 레이아웃의 타입, 상기 제1 부분의 시야, 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 상기 비디오 스트림을 생성하도록 구성된 비디오 스트림 생성기
    를 포함하는 것을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 장치.
  13. 제11항 또는 제12항에 있어서,
    상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 장치.
  14. 몰입형 비디오를 나타내는 데이터를 저장하는 비일시적 매체로서,
    상기 데이터는:
    직사각형 매핑에 따라 인코딩된 제1 영역, 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 인코딩된 제2 영역, 및 상기 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 비디오 프레임,
    상기 비디오 프레임 내의 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보,
    상기 레이아웃의 타입, 상기 제1 영역의 시야, 상기 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 적어도 포함하는 제2 정보
    를 포함하는 것을 특징으로 하는 비일시적 매체.
  15. 제14항에 있어서,
    상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 비일시적 매체.
  16. 제14항 또는 제15항에 있어서,
    상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 비일시적 매체.
KR1020170062900A 2016-05-23 2017-05-22 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림 KR102307819B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16305592.4A EP3249928A1 (en) 2016-05-23 2016-05-23 Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
EP16305592.4 2016-05-23

Publications (2)

Publication Number Publication Date
KR20170132098A KR20170132098A (ko) 2017-12-01
KR102307819B1 true KR102307819B1 (ko) 2021-10-05

Family

ID=56101403

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170062900A KR102307819B1 (ko) 2016-05-23 2017-05-22 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림

Country Status (9)

Country Link
US (1) US10523980B2 (ko)
EP (2) EP3249928A1 (ko)
JP (1) JP7017866B2 (ko)
KR (1) KR102307819B1 (ko)
CN (1) CN107454468B (ko)
BR (1) BR102017010791A2 (ko)
CA (1) CA2967418A1 (ko)
MX (1) MX2017006677A (ko)
RU (1) RU2742344C2 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018025660A1 (ja) * 2016-08-05 2018-02-08 ソニー株式会社 画像処理装置および画像処理方法
US10818087B2 (en) * 2017-10-02 2020-10-27 At&T Intellectual Property I, L.P. Selective streaming of immersive video based on field-of-view prediction
US11272209B2 (en) 2018-04-03 2022-03-08 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
EP3595319A1 (en) * 2018-07-12 2020-01-15 InterDigital VC Holdings, Inc. Methods and apparatus for volumetric video transport
CN110944109B (zh) * 2018-09-21 2022-01-14 华为技术有限公司 一种拍照方法、装置与设备
AU2019377829A1 (en) 2018-11-06 2021-05-27 Lucasfilm Entertainment Company Ltd. Immersive content production system
CN111198734B (zh) * 2018-11-20 2024-03-15 西安诺瓦星云科技股份有限公司 窗口设置方法和装置、电子设备和非易失性存储介质
MX2021008347A (es) 2019-01-09 2021-10-13 Huawei Tech Co Ltd Un codificador de video, un decodificador de video y metodos correspondientes.
EP3761647A1 (en) 2019-07-05 2021-01-06 Tiledmedia B.V. Methods and devices for rendering a video on a display
EP3977723B1 (en) * 2019-07-08 2024-01-10 Huawei Technologies Co., Ltd. Handling of multiple picture size and conformance windows for reference picture resampling in video coding
EP4018655A4 (en) * 2019-08-19 2022-08-24 Telefonaktiebolaget Lm Ericsson (Publ) MULTIMEDIA DATA FLOW MANAGEMENT METHODS AND DEVICES
CN110910485B (zh) * 2019-12-16 2023-07-25 山东东艺数字科技有限公司 一种沉浸式cave影像制作方法
US20210258590A1 (en) * 2020-04-09 2021-08-19 Intel Corporation Switchable scalable and multiple description immersive video codec
CN111729283B (zh) * 2020-06-19 2021-07-06 杭州赛鲁班网络科技有限公司 一种基于混合现实技术的训练系统及其方法
US11887251B2 (en) 2021-04-23 2024-01-30 Lucasfilm Entertainment Company Ltd. System and techniques for patch color correction for an immersive content production system
WO2023070387A1 (zh) * 2021-10-27 2023-05-04 深圳市大疆创新科技有限公司 一种图像处理方法、装置、拍摄设备及可移动平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095608A2 (en) 2000-06-09 2001-12-13 Interactive Imaging Systems Inc. A method and apparatus for mapping images and video to create navigable, immersive video and images
US20080158226A1 (en) * 2006-12-19 2008-07-03 California Institute Of Technology Imaging model and apparatus
US20150016504A1 (en) 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
US20150304666A1 (en) * 2014-04-18 2015-10-22 Qualcomm Incorporated Conformance window information in multi-layer coding
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249616B1 (en) * 1997-05-30 2001-06-19 Enroute, Inc Combining digital images based on three-dimensional relationships between source image data sets
US7308131B2 (en) * 2002-12-03 2007-12-11 Ntt Docomo, Inc. Representation and coding of panoramic and omnidirectional images
JP2005347813A (ja) * 2004-05-31 2005-12-15 Olympus Corp 画像変換方法および画像変換装置、並びにマルチプロジェクションシステム
US8730130B1 (en) * 2008-12-04 2014-05-20 RPA Electronic Solutions, Inc. System and method for automatically aligning immersive displays
JP2010192971A (ja) 2009-02-16 2010-09-02 Nippon Telegr & Teleph Corp <Ntt> 選択領域符号化映像データ配信方法、符号化映像データ復号方法、配信サーバ、再生端末、プログラムおよび記録媒体
US10440329B2 (en) * 2009-05-22 2019-10-08 Immersive Media Company Hybrid media viewing application including a region of interest within a wide field of view
IT1399417B1 (it) * 2010-04-12 2013-04-16 Sisvel Technology Srl Metodo per la generazione e ricostruzione di un flusso video stereoscopico compatibile e relativi dispositivi di codifica e decodifica.
US9167289B2 (en) 2010-09-02 2015-10-20 Verizon Patent And Licensing Inc. Perspective display systems and methods
US8908103B2 (en) * 2010-10-01 2014-12-09 Sony Corporation Content supplying apparatus, content supplying method, content reproduction apparatus, content reproduction method, program and content viewing system
US9397338B2 (en) * 2010-12-22 2016-07-19 Enevate Corporation Electrodes, electrochemical cells, and methods of forming electrodes and electrochemical cells
JP5790345B2 (ja) * 2011-09-07 2015-10-07 株式会社リコー 画像処理装置、画像処理方法、プログラムおよび画像処理システム
EP2645713A1 (en) 2012-03-30 2013-10-02 Alcatel Lucent Method and apparatus for encoding a selected spatial portion of a video stream
US20150172544A1 (en) 2012-07-04 2015-06-18 Zhipin Deng Panorama based 3d video coding
CN102945563B (zh) * 2012-09-26 2017-05-24 天津游奕科技有限公司 一种全景视频的展示与交互系统及方法
EP2713593B1 (en) * 2012-09-28 2015-08-19 Alcatel Lucent, S.A. Immersive videoconference method and system
FR3004881B1 (fr) * 2013-04-19 2015-04-17 Kolor Procede de generation d'un flux video de sortie a partir d'un flux video large champ
US9908048B2 (en) * 2013-06-08 2018-03-06 Sony Interactive Entertainment Inc. Systems and methods for transitioning between transparent mode and non-transparent mode in a head mounted display
CN103777455B (zh) * 2014-02-25 2016-08-17 浙江大学 基于光场拼接的球形沉浸式三维显示方法及系统
US10764655B2 (en) * 2014-04-03 2020-09-01 Nbcuniversal Media, Llc Main and immersive video coordination system and method
US10204658B2 (en) * 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
DE112016002377T5 (de) * 2015-05-27 2018-02-08 Google Llc Streamen von sphärischem video
US10043237B2 (en) * 2015-08-12 2018-08-07 Gopro, Inc. Equatorial stitching of hemispherical images in a spherical image capture system
US10491711B2 (en) * 2015-09-10 2019-11-26 EEVO, Inc. Adaptive streaming of virtual reality data
KR102301352B1 (ko) * 2016-02-09 2021-09-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 효율적인 감소성 또는 효율적인 랜덤 액세스를 허용하는 픽처/비디오 데이터 스트림들에 대한 개념
US10334224B2 (en) * 2016-02-19 2019-06-25 Alcacruz Inc. Systems and method for GPU based virtual reality video streaming server
EP3223524A1 (en) * 2016-03-22 2017-09-27 Thomson Licensing Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095608A2 (en) 2000-06-09 2001-12-13 Interactive Imaging Systems Inc. A method and apparatus for mapping images and video to create navigable, immersive video and images
US20080158226A1 (en) * 2006-12-19 2008-07-03 California Institute Of Technology Imaging model and apparatus
US20150016504A1 (en) 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
US20150304666A1 (en) * 2014-04-18 2015-10-22 Qualcomm Incorporated Conformance window information in multi-layer coding
WO2015197818A1 (en) * 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Hevc-tiled video streaming

Also Published As

Publication number Publication date
EP3249928A1 (en) 2017-11-29
CA2967418A1 (en) 2017-11-23
RU2742344C2 (ru) 2021-02-04
BR102017010791A2 (pt) 2017-12-05
EP3249930B1 (en) 2020-09-09
CN107454468B (zh) 2021-09-14
JP7017866B2 (ja) 2022-02-09
RU2017115882A (ru) 2018-11-06
RU2017115882A3 (ko) 2020-08-26
MX2017006677A (es) 2018-08-28
US10523980B2 (en) 2019-12-31
CN107454468A (zh) 2017-12-08
EP3249930A1 (en) 2017-11-29
JP2018033123A (ja) 2018-03-01
US20170339440A1 (en) 2017-11-23
KR20170132098A (ko) 2017-12-01

Similar Documents

Publication Publication Date Title
KR102307819B1 (ko) 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림
US20210120219A1 (en) Suggested viewport indication for panoramic video
CN109983500B (zh) 重新投影全景视频图片的平板投影以通过应用进行渲染
CN117768653A (zh) 编码和解码体积视频的方法和设备
KR20200051784A (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
KR20190095430A (ko) 360 비디오 처리 방법 및 그 장치
RU2733218C2 (ru) Способ, аппарат и поток для форматирования иммерсивного видеоизображения для традиционных и иммерсивных устройств воспроизведения
KR20200047726A (ko) 카메라 렌즈 정보를 포함한 360도 비디오를 송수신하는 방법 및 그 장치
US20230199225A1 (en) Media bitstream having backwards compatibility
KR20210027483A (ko) 3 자유도 및 볼류메트릭 호환 가능한 비디오 스트림을 인코딩 및 디코딩하기 위한 방법들 및 디바이스들
KR20220066328A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
EP3709659A1 (en) A method and apparatus for encoding and decoding volumetric video
US20220345681A1 (en) Method and apparatus for encoding, transmitting and decoding volumetric video
US20230215080A1 (en) A method and apparatus for encoding and decoding volumetric video
US20230217006A1 (en) A method and apparatuses for delivering a volumetric video content

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant