WO2018062641A1 - Provision of virtual reality service with consideration of area of interest - Google Patents
Provision of virtual reality service with consideration of area of interest Download PDFInfo
- Publication number
- WO2018062641A1 WO2018062641A1 PCT/KR2017/001087 KR2017001087W WO2018062641A1 WO 2018062641 A1 WO2018062641 A1 WO 2018062641A1 KR 2017001087 W KR2017001087 W KR 2017001087W WO 2018062641 A1 WO2018062641 A1 WO 2018062641A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video data
- information
- base layer
- data
- service
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/332—Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/366—Image reproducers using viewer tracking
- H04N13/383—Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/155—Conference systems involving storage of or access to video conference sessions
Definitions
- This specification relates to providing a virtual reality service considering a region of interest.
- Video conferencing services are examples of services implemented on the basis of virtual reality technology.
- a user may use a device for processing multimedia data including video information of a conference participant for a video conference.
- the present specification provides image processing in consideration of ROI information in virtual reality.
- the present specification provides image processing of different quality according to the gaze information of the user.
- the present disclosure provides image processing in response to a change in the gaze of the user.
- the present disclosure provides signaling corresponding to a change in gaze of a user.
- An image receiving apparatus includes a communication unit configured to receive a bitstream including video data for a virtual reality service, wherein the video data includes at least base layer video data for a base layer and predicted from the base layer. At least one enhancement layer video data for one enhancement layer; A base layer decoder for decoding the base layer video data; And an enhancement layer decoder that decodes the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data is video data for at least one region of interest in a virtual space. Can be.
- the image receiving apparatus includes a communication unit for receiving base layer video data for the base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer; A first processor for decoding the base layer video data; And a second processor electrically coupled with the first processor to decode the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data is within a virtual space. It may be video data for at least one region of interest.
- the image transmission apparatus includes a base layer encoder for generating base layer video data; An enhancement layer encoder for generating at least one enhancement layer video data based on the base layer video data; And a communication unit configured to transmit a bitstream including video data for a virtual reality service, wherein the video data is the at least one of the base layer video data for a base layer and the at least one enhancement layer predicted from the base layer.
- One enhancement layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- an image receiving method includes receiving a bitstream including video data for a virtual reality service, wherein the video data is predicted from base layer video data for the base layer and the base layer At least one enhancement layer video data for at least one enhancement layer; Decoding the base layer video data; And decoding the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- the image transmission method comprises the steps of generating the base layer video data; Generating at least one enhancement layer video data based on the base layer video data; And transmitting a bitstream comprising video data for the virtual reality service, wherein the video data is for the base layer video data for the base layer and the at least one for the at least one enhancement layer predicted from the base layer.
- One enhancement layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- the image processing apparatus may apply different image processing methods based on the eyes of the user.
- the video conferencing device for example, HMD
- the bandwidth (BW) for image transmission There is an effect of reducing the power consumption through the improvement of the image processing performance.
- FIG. 1 is a diagram illustrating an exemplary video conferencing system.
- FIG. 2 is a diagram illustrating an exemplary video conferencing service.
- FIG. 3 is a diagram illustrating an example scalable video coding service.
- FIG. 4 is a diagram illustrating an exemplary configuration of a server device.
- 5 is a diagram illustrating an exemplary structure of an encoder.
- FIG. 6 illustrates an example video conferencing service using scalable video coding.
- FIG. 7 is a diagram illustrating an exemplary image transmission method.
- FIG. 8 is a diagram illustrating an example method of signaling a region of interest.
- FIG. 9 is a diagram illustrating an exemplary configuration of a client device.
- FIG. 10 is a diagram illustrating an exemplary configuration of a controller.
- 11 is a diagram illustrating an exemplary configuration of a decoder.
- FIG. 12 is a diagram illustrating an exemplary method of generating and / or transmitting image configuration information.
- FIG. 13 is a diagram illustrating an example method for a client device to signal image configuration information.
- FIG. 14 is a diagram illustrating an exemplary method of transmitting a high / low level image.
- 15 is a diagram illustrating an exemplary image decoding method.
- 16 is a diagram illustrating an exemplary video encoding method.
- FIG. 17 is a diagram illustrating an exemplary syntax of ROI information.
- FIG. 18 is a diagram illustrating exemplary ROI information and an exemplary SEI message in XML format.
- 19 illustrates an example protocol stack of a client device.
- SLT service layer signaling
- 21 is a diagram illustrating an example SLT.
- 22 is a diagram illustrating an example code value of a serviceCategory attribute.
- FIG. 23 illustrates an example SLS bootstrapping and example service discovery process.
- 24 is a diagram illustrating an exemplary USBD / USD fragment for ROUTE / DASH.
- FIG. 25 is a diagram illustrating an example S-TSID fragment for ROUTE / DASH.
- FIG. 26 illustrates an exemplary MPD fragment.
- FIG. 27 is a diagram illustrating an exemplary process of receiving a virtual reality service through a plurality of ROUTE sessions.
- 28 is a diagram illustrating an exemplary configuration of a client device.
- 29 is a diagram illustrating an exemplary configuration of a server device.
- FIG. 30 is a diagram illustrating an exemplary operation of a client device.
- FIG. 31 is a diagram illustrating an exemplary operation of a server device.
- first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
- first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
- FIG. 1 is a diagram illustrating an exemplary video conferencing system.
- the video conferencing system may provide video conferencing services to at least one user located at a remote location.
- Video conferencing service is a service that allows people in different regions to have a meeting while looking at each other's faces on the screen without meeting each other directly.
- the video conferencing system can be configured in two forms.
- a video conferencing system can be achieved using direct N: N communication between client devices (eg, HMDs) of each user.
- client devices eg, HMDs
- the video conferencing system can provide an optimal video for each user.
- the video conferencing system may further include a server device (or relay system) for video conferencing.
- the server device may receive at least one video image from each client device, and collect / select at least one video image to serve each client device.
- Video conferencing system 100 may include at least one client device 120, and / or server device 130 for at least one user 110 in a remote location.
- the client device 120 may obtain user data from the user 110 using the client device 120.
- the user data may include image data, audio data, and additional data of the user.
- the client device 120 may include at least one of a 2D / 3D camera and an immersive camera that acquire image data of the user 110.
- the 2D / 3D camera may capture an image having a viewing angle of 180 degrees or less.
- Immersive cameras can capture images with a viewing angle of less than 360 degrees.
- the client device 120 may acquire the user data of the first user 111 located in the first place (Place 1), the first client device 121 and the second located in the second place (Place 2). At least one of a second client device 123 for acquiring user data of the user 113 and a third client device 125 for acquiring user data of the third user 115 located in the third place (Place 3) It may include.
- each client device 120 may transmit the obtained user data to the server device 130 via the network.
- the server device 130 may receive at least one user data from the client device 120.
- the server device 130 may generate the entire image for the video conference in the virtual space based on the received user data.
- the entire image may represent an immersive image providing an image in a 360 degree direction in the virtual space.
- the server device 130 may generate the entire image by mapping the image data included in the user data to the virtual space.
- the server device 130 may transmit the entire image to each user.
- Each client device 120 may receive the entire image and render and / or display as much as the area viewed by each user in the virtual space.
- FIG. 2 is a diagram illustrating an exemplary video conferencing service.
- the first user 210, the second user 220, and the third user 230 may exist in the virtual space.
- the first user 210, the second user 220, and the third user 230 may perform a conference while looking at each other in a virtual space.
- the description will be given based on the first user 210.
- the video conferencing system may determine the line of sight of the speaker and / or the first user 210 speaking in the virtual space.
- the second user 220 may be a speaker, and the first user 210 may look at the second user.
- the video conferencing system may transmit an image of the second user 220 viewed by the first user 210 to the first user 210 as a high quality video image.
- the video conferencing system may transmit an image of the third user 230 which is invisible or partially visible in the direction of the first user 220 to the first user 210 as a low quality video image.
- the video conferencing system makes a difference in the image processing method based on the user's eyes, and saves the bandwidth (BW) for video transmission, compared to the conventional method of transmitting all the images as high quality video images.
- Image processing performance can be improved.
- FIG. 3 is a diagram illustrating an example scalable video coding service.
- the scalable video coding service is a video compression method for providing various services in a scalable manner in terms of time, space, and picture quality in accordance with various user environments such as network conditions or terminal resolutions in various multimedia environments.
- Scalable video coding services generally provide scalability in terms of spatial resolution, quality, and temporal.
- Spatial scalability can be serviced by encoding different resolutions for the same image for each layer. It is possible to provide image content adaptively to devices having various resolutions such as digital TVs, laptops, and smart phones by using spatial hierarchies.
- the scalable video coding service may simultaneously support a TV having one or more different characteristics from a VSP (Video Service Provider) through a home gateway in a home.
- VSP Video Service Provider
- the scalable video coding service may simultaneously support high-definition TV (HDTV), standard-definition TV (SDTV), and low-definition TV (LDTV) having different resolutions.
- HDTV high-definition TV
- SDTV standard-definition TV
- LDTV low-definition TV
- Temporal scalability may adaptively adjust a frame rate of an image in consideration of a network environment or content of a terminal through which content is transmitted. For example, by providing a service at a high frame rate of 60 frames per second (FPS) when using a local area network, and providing a content at a low frame rate of 16 frames by using a wireless broadband network such as a 3G mobile network, The service can be provided so that the user can receive the video without interruption.
- FPS frames per second
- the scalable video coding service may include a base layer and one or more enhancement layer (s), respectively.
- the receiver When the receiver receives only the base layer, the receiver may provide a general image quality, and when the receiver receives both the base layer and the enhancement layer, it may provide high quality. That is, when there is a base layer and one or more enhancement layers, the more enhancement layers (for example, enhancement layer 1, enhancement layer 2,..., enhancement layer n) are received when the base layer is received, the quality of the image or the quality of the provided image is increased. This gets better.
- the receiver receives a small amount of base layer data quickly, processes and plays back the image of general quality, and adds the enhancement layer image data if necessary. Can improve the quality of service.
- FIG. 4 is a diagram illustrating an exemplary configuration of a server device.
- the server device 400 may include a control unit 410 and / or a communication unit 420.
- the controller 410 may generate an entire image for a video conference in the virtual space and encode the generated entire image. In addition, the controller 410 may control all operations of the server device 400. Details are described below.
- the communication unit 420 may transmit and / or receive data to an external device and / or a client device.
- the communicator 420 may receive user data and / or signaling data from at least one client device.
- the communication unit 420 may transmit the entire image for the video conference to the client device in the virtual space.
- the controller 410 may include at least one of a signaling data extractor 411, an image generator 413, an ROI determiner 415, a signaling data generator 417, and / or an encoder 419. have.
- the signaling data extractor 411 may extract signaling data from data received from the client device.
- the signaling data may include image configuration information.
- the image configuration information may include gaze information indicating a user's gaze direction and a zoom region information indicating a user's viewing angle in the virtual space.
- the image generator 413 may generate the entire image for the video conference in the virtual space based on the image received from the at least one client device.
- the ROI determiner 417 may determine an ROI corresponding to the user's gaze direction in the entire area of the virtual space for the video conference service. For example, the ROI determiner 417 may determine the ROI based on the gaze information and / or the zoom region information. For example, the region of interest may be the location of a tile in the virtual space that the user will see (eg, where a new enemy appears in a game, a speaker's location in the virtual space), and / or the user's location. It may be where your eyes look. Also, the region of interest determination unit 417 may determine a virtual space for a video conference service.
- the ROI may be generated to indicate the ROI corresponding to the direction of the user's gaze in the entire region.
- the signaling data generator 413 may generate signaling data for processing the entire image.
- the signaling data may transmit the ROI information.
- the signaling data may be transmitted through at least one of a Supplement Enhancement Information (SEI), a video usability information (VUI), a Slice Header, and a file describing video data.
- SEI Supplement Enhancement Information
- VUI video usability information
- Slice Header a file describing video data.
- the encoder 419 may encode the entire video based on the signaling data. For example, the encoder 419 may encode the entire image in a customized manner for each user based on each user's gaze direction. For example, when the first user looks at the second user in the virtual space, the encoder encodes an image corresponding to the second user in high quality based on the first user's gaze in the virtual space, and corresponds to the third user.
- the video can be encoded with low quality.
- the encoder 419 may include at least one of the signaling data extractor 411, the image generator 413, the ROI determiner 415, and / or the signaling data generator 417. have.
- 5 is a diagram illustrating an exemplary structure of an encoder.
- the encoder 500 may include at least one of a base layer encoder 510, at least one enhancement layer encoder 520, and a multiplexer 530.
- the encoder 500 may encode the entire image using a scalable video coding method.
- the scalable video coding method may include scalable video coding (SVC) and / or scalable high efficiency video coding (SHVC).
- the scalable video coding method is a video compression method for providing various services in a scalable manner in terms of time, space, and picture quality according to various user environments such as network conditions or terminal resolution in various multimedia environments.
- the encoder 500 may generate a bitstream by encoding two or more different quality (or resolution, frame rate) images for the same video image.
- the encoder 500 may use inter-layer prediction tools, which are encoding methods using inter-layer redundancy, to increase compression performance of a video image.
- the inter-layer prediction tool improves the extrusion efficiency in the enhancement layer by removing redundancy of images existing between layers.
- the enhancement layer may be encoded by referring to information of a reference layer using an inter-layer prediction tool.
- the reference layer refers to a lower layer referenced when encoding the enhancement layer.
- the bitstreams of all the lower layers referred to are required.
- the bitstream of the lowest layer is a base layer and may be encoded by an encoder such as H.264 / AVC, HEVC, or the like.
- the base layer encoder 510 may generate base layer video data (or base layer bitstream) for the base layer by encoding the entire image.
- the base layer video data may include video data for the entire area that the user views within the virtual space.
- the image of the base layer may be the image of the lowest quality.
- the enhancement layer encoder 520 may include at least one enhancement layer for at least one enhancement layer that is predicted from the base layer by encoding the entire picture based on the signaling data (eg, region of interest information) and the base layer video data.
- Video data (or enhancement layer bitstream) may be generated.
- the enhancement layer video data may include video data for the region of interest in the entire region.
- the multiplexer 530 may multiplex base layer video data, at least one enhancement layer video data, and / or signaling data, and generate one bitstream corresponding to the entire image.
- FIG. 6 illustrates an example video conferencing service using scalable video coding.
- the client device receives the entire video as one compressed video bitstream, decodes it, and renders the image as much as the user views in the virtual space.
- the prior art transmits and / or receives the entire image (eg, 360 degree immersive image) as a high resolution (or high quality) image, so the total bandwidth of the bitstream where the high resolution image is collected is very large. .
- the server device may use a scalable video coding method.
- exemplary techniques are described in detail.
- the virtual user 611 may include a first user 611, a second user 613, and a third user 615.
- the first user 611, the second user 613, and the third user 615 may have a meeting in the virtual space area 610.
- the client device may determine the line of sight of the speaker and the user in the virtual space and generate image configuration information.
- the client device may transmit the image configuration information to the server device and / or another client device when the image composition information is generated for the first time or when the gaze of the user does not face the speaker.
- the server device may receive a video image and signaling data from at least one client device, and generate an entire image of the virtual space 610.
- the server device may then encode the at least one video image based on the signaling data.
- the server device may differently encode the quality of the video image corresponding to the gaze direction (or the region of interest) and the video image not corresponding to the gaze direction based on the image configuration information (for example, gaze information and middle region information). Can be.
- the server device may encode a video image corresponding to the user's gaze direction with high quality, and encode a video image corresponding to the user's gaze direction with low quality.
- the first video image 630 is a video image of the ROI corresponding to the eyeline direction of the first user 611.
- the first video image 630 needs to be provided to the first user 611 in high quality.
- the server device may encode the first video image 630 to generate base layer video data 633, and generate at least one enhancement layer video data 635 using inter-layer prediction.
- the second video image 650 is a video image of a non-interested region that does not correspond to the eye direction of the first user 611.
- the second video image 650 needs to be provided to the first user 611 in low quality.
- the server device may encode the second video image 650 to generate only base layer video data 653.
- the server device can then send the encoded at least one bitstream to the client device used by the first user 611.
- the server device is the second user.
- the image of 613 may be transmitted as base layer video data and at least one enhancement layer video data in scalable video coding.
- the server device may transmit only the base layer video data for the image of the third user 615.
- FIG. 7 is a diagram illustrating an exemplary image transmission method.
- the server device may receive a video image and signaling data from at least one client device using a communication unit.
- the server device may extract the signaling data using the signaling data extractor.
- the signaling data may include view information and zoom area information.
- the gaze information may indicate whether the first user looks at the second user or the third user.
- the gaze information may indicate a direction from the first user to the second user.
- the zoom area information may indicate an enlargement range and / or a reduction range of the video image corresponding to the user's gaze direction.
- the zoom area information may indicate a viewing angle of the user.
- the server device may then generate the entire video for the video conference in the virtual space using the video generating unit.
- the server device may grasp image configuration information about a viewpoint and a zoom region viewed by each user in the virtual space based on the signaling data using the ROI determiner.
- the server device may determine the ROI of the user based on the image configuration information using the ROI determiner.
- the video image corresponding to the gaze direction viewed by the first user occupies a large area of the second user, and the third user occupies a small area or may not be included in the video image. It may be.
- the ROI may be an area including the second user. The ROI may be changed according to the gaze information and the zoom area information.
- the server device may receive new signaling data.
- the server device may determine a new region of interest based on the new signaling data.
- the server device may determine whether the data currently processed based on the signaling data is data corresponding to the ROI, using the control unit.
- the server device may determine whether the data currently being processed is data corresponding to the ROI based on the new signaling data.
- the server device may encode a video image (eg, the region of interest) corresponding to the viewpoint of the user with high quality by using an encoder (740).
- the server device may generate base layer video data and enhancement layer video data for the corresponding video image and transmit them.
- the server device may transmit a video image (new region of interest) corresponding to a new view as a high quality image. If the server device is transmitting a low quality image, but the signaling data is changed and the server device transmits the high quality image, the server device may further generate and / or transmit enhancement layer video data.
- the server device may encode a video image (eg, the non-ROI) that does not correspond to the user's viewpoint with low quality (750). For example, the server device may generate only base layer video data for a video image that does not correspond to a user's viewpoint, and transmit the base layer video data.
- a video image eg, the non-ROI
- the server device may generate only base layer video data for a video image that does not correspond to a user's viewpoint, and transmit the base layer video data.
- the server device may transmit a video image (new non-interest region) that does not correspond to the viewpoint of the new user as a low quality image. If the server device was previously transmitting high quality video but the signaling data changed and the server device transmitted the low quality video, the server device no longer generates and / or transmits at least one enhancement layer video data. Only hierarchical video data may be generated and / or transmitted.
- Enhancement layer video data may be received for a video image (eg, a region of interest) corresponding to a gaze direction of.
- the client device may provide a user with a high quality video image within a short time.
- the exemplary method of the present specification has a great advantage over the simple pre-caching method of receiving only data of some additional area in advance, or a method of receiving only data of an area corresponding to a user's gaze direction.
- Exemplary methods herein can lower the overall bandwidth as compared to conventional methods of sending all data in high quality.
- the exemplary method herein may speed up video processing in response to user eye movement in real time.
- the conventional method is a video for expressing a third user by grasping this movement with a client device (for example, a sensor of an HMD) when the first user looks at the second user and turns to the third user. Process the information and play it on the screen. Since the conventional method is difficult to process the image of a new area very quickly, the conventional method uses an inefficient method of receiving all data in advance.
- a client device for example, a sensor of an HMD
- the exemplary technique of the present specification performs adaptive video transmission through the above scalable video
- the user quickly responds to the user by using the existing base layer data. can do.
- Exemplary techniques herein can reproduce video images faster than when processing full high definition data.
- the example techniques herein can process video images in rapid response to eye movement.
- FIG. 8 is a diagram illustrating an example method of signaling a region of interest.
- FIG. (A) it illustrates a method of signaling a region of interest in scalable video.
- the server device may divide one video image (or picture) into several tiles having a rectangular shape.
- the video image may be partitioned on the basis of a Coding Tree Unit (CTU) unit.
- CTU Coding Tree Unit
- one CTU may include Y CTB, Cb CTB, and Cr CTB.
- the server device may encode video layers of the base layer as a whole without segmenting them into tiles for fast user response.
- the server device may encode a video image of one or more enhancement layers by dividing a part or the whole into several tiles as necessary.
- the server device may divide the video image of the enhancement layer into at least one tile and encode tiles corresponding to a region of interest (ROI).
- ROI region of interest
- the region of interest 810 is the position of the tiles where the important object to be seen by the user in the virtual space (eg, a position where a new enemy appears in a game, a speaker's position in the virtual space), and And / or where the user's gaze looks.
- the server device may generate the ROI information including tile information for identifying at least one tile included in the ROI.
- the ROI information may be generated by the ROI determiner, the signaling data generator, and / or an encoder.
- the tile information of the region of interest 810 may be effectively compressed even if all the tiles are not numbered.
- the tile information may include not only the numbers of all tiles corresponding to the ROI, but also the start and end numbers of the tiles, coordinate point information, a list of coding unit (CU) numbers, and a tile number expressed by a formula.
- the tile information of the non-interested region may be sent to other client devices, image processing computing equipment, and / or servers after undergoing Entropy coding provided by the encoder.
- the ROI information can be transmitted through a high-level syntax protocol that carries Session information.
- the ROI information may be transmitted in packet units such as Supplementary Enhancement Information (SEI), video usability information (VUI), and Slice Header (Slice Header) of the video standard.
- SEI Supplementary Enhancement Information
- VUI video usability information
- Slice Header Slice Header
- the ROI information may be delivered as a separate file describing the video file (e.g. DASH MPD).
- the video conferencing system can lower overall bandwidth and reduce video processing time by transmitting and / or receiving only necessary tiles of the enhancement layer between client devices and / or between client and server devices through signaling of region of interest information. This is important to ensure fast HMD user response time.
- FIG. (B) shows a method of signaling a region of interest in a single screen video.
- An exemplary technique of the present specification may use a technique of degrading image quality by downscaling (downsampling) a region that is not a region of interest (ROI) in a single screen image that is not scalable video.
- the prior art does not share filter information 820 written for downscaling between terminals using a service, and promises only one technology from the beginning, or only the encoder knows the filter information.
- the server device may transmit the filter information 820 used at the time of encoding to the client device in order to improve the quality of the region outside the region of interest downscaled by the client device (or the HMD terminal) receiving the encoded image. Can be. This technology can actually significantly reduce image processing time and provide picture quality improvement.
- the server device may generate the region of interest information.
- the ROI information may further include filter information as well as tile information.
- the filter information may include the number of promised filter candidates and values used in the filter.
- FIG. 9 is a diagram illustrating an exemplary configuration of a client device.
- the client device 900 may include an image input unit 910, an audio input unit 920, a sensor unit 930, an image output unit 940, an audio output unit 950, a communication unit 960, and / or a controller 970. It may include at least one of.
- the client device 900 may be a head mounted display (HMD).
- the controller 970 of the client device 900 may be included in the client device 900 or may exist as a separate device.
- the image input unit 910 may capture a video image.
- the image input unit 910 may include at least one of a 2D / 3D camera and / or an immersive camera that acquires an image of a user.
- the 2D / 3D camera may capture an image having a viewing angle of 180 degrees or less.
- Immersive cameras can capture images with a viewing angle of less than 360 degrees.
- the audio input unit 920 may record a user's voice.
- the audio input unit 920 may include a microphone.
- the sensor unit 930 may acquire information about the movement of the user's gaze.
- the sensor unit 930 may include a gyro sensor for detecting a change in azimuth of an object, an acceleration sensor for measuring an acceleration or impact strength of a moving object, and an external sensor for detecting a user's gaze direction.
- the sensor unit 930 may include an image input unit 910 and an audio input unit 920.
- the image output unit 940 may output image data received from the communication unit 960 or stored in a memory (not shown).
- the audio output unit 950 may output audio data received from the communication unit 960 or stored in a memory.
- the communication unit 960 may communicate with an external client device and / or server device through a broadcast network and / or broadband.
- the communication unit 960 may include a transmitter (not shown) for transmitting data and / or a receiver (not shown) for receiving data.
- the controller 970 may control all operations of the client device 900.
- the controller 970 may process video data and signaling data received from the server device. Details of the controller 970 will be described below.
- FIG. 10 is a diagram illustrating an exemplary configuration of a controller.
- the controller 1000 may process signaling data and / or video data.
- the controller 1000 may include at least one of a signaling data extractor 1010, a decoder 1020, a speaker determiner 1030, a gaze determiner 1040, and / or a signaling data generator 1050. .
- the signaling data extractor 1010 may extract signaling data from data received from the server device and / or another client device.
- the signaling data may include ROI information.
- the decoder 1020 may decode video data based on the signaling data. For example, the decoder 1020 may decode the entire image in a customized manner for each user based on the gaze direction of each user. For example, when the first user looks at the second user in the virtual space, the decoder 1020 of the first user may decode the image corresponding to the second user in high definition based on the first user's gaze in the virtual space. The video corresponding to the third user may be decoded with low quality. According to an embodiment, the decoder 1020 may include at least one of a signaling data extractor 1010, a speaker determiner 1030, a gaze determiner 1040, and / or a signaling data generator 1050. .
- the speaker determination unit 1030 may determine who the speaker is in the virtual space based on the voice and / or the given option.
- the gaze determiner 1040 may determine the gaze of the user in the virtual space and generate image configuration information.
- the image configuration information may include gaze information indicating a gaze direction and / or zoom area information indicating a viewing angle of a user.
- the signaling data generator 1050 may generate signaling data for transmission to the server device and / or another client device.
- the signaling data may transmit image configuration information.
- the signaling data may be transmitted through at least one of a Supplement Enhancement Information (SEI), a video usability information (VUI), a Slice Header, and a file describing video data.
- SEI Supplement Enhancement Information
- VUI video usability information
- Slice Header a file describing video data.
- 11 is a diagram illustrating an exemplary configuration of a decoder.
- Decoder 1100 may include at least one of extractor 1110, base layer decoder 1120, and / or at least one enhancement layer decoder 1130.
- the decoder 1100 may decode a bitstream (video data) using an inverse process of the scalable video coding method.
- the extractor 1110 may receive a bitstream (video data) including video data and signaling data and selectively extract a bitstream according to the image quality of an image to be reproduced.
- the bitstream (video data) is a base layer bitstream (base layer video data) for the base layer and at least one enhancement layer bitstream (enhancement layer video data) for at least one enhancement layer predicted from the base layer. ) May be included.
- the base layer bitstream (base layer video data) may include video data for the entire area of the virtual space.
- At least one enhancement layer bitstream (enhanced layer video data) may include video data for the region of interest within the entire region.
- the signaling data may include ROI information indicating an ROI corresponding to the gaze direction of the user in the entire area of the virtual space for the video conference service.
- the base layer decoder 1120 may decode a bitstream (or base layer video data) of a base layer for a low quality image.
- the enhancement layer decoder 1130 may decode at least one bitstream (or enhancement layer video data) of at least one enhancement layer for high quality video based on the signaling data and / or the bitstream (or base layer video data) of the base layer. have.
- FIG. 12 is a diagram illustrating an exemplary method of generating and / or transmitting image configuration information.
- the image configuration information may include at least one of gaze information indicating a gaze direction of a user and / or zoom area information indicating a viewing angle of the user.
- the user's gaze refers to the direction that the user looks in the virtual space, not the real space.
- the gaze information may include not only information indicating a direction of a gaze of the current user, but also information indicating a gaze direction of the user in the future (for example, information about a gaze point expected to receive attention).
- the client device may sense an operation of looking at another user located in a virtual space centered on the user and process the same.
- the client device may receive the sensing information from the sensor unit by using the controller and / or the gaze determination unit.
- the sensing information may be an image photographed by a camera and a voice recorded by a microphone.
- the sensing information may be data sensed by a gyro sensor, an acceleration sensor, and an external sensor.
- the client device may identify a movement of the user's gaze based on the sensing information by using the controller and / or the gaze determination unit. For example, the client device may check the movement of the user's gaze based on the change in the value of the sensing information.
- the client device may generate image configuration information in the virtual conference space by using the controller and / or the gaze determiner. For example, when the client device physically moves or the user's gaze moves, the client device may calculate the gaze information and / or the zoom area information of the user in the virtual conference space based on the sensing information.
- the client device may transmit image configuration information to the server device and / or another client device using the communication unit.
- the client device may transfer the image configuration information to its other components.
- the present invention is not limited thereto, and the server device may receive sensing information from the client device and generate image configuration information.
- an external computing device connected with the client device may generate the image configuration information, and the computing device may deliver the image configuration information to its client device, another client device, and / or a server device.
- FIG. 13 is a diagram illustrating an example method for a client device to signal image configuration information.
- the part of signaling image configuration information (including viewpoint information and / or zoom region information) is very important. If the signaling of the video configuration information is too frequent, it may burden the client device, the server device, and / or the entire network.
- the client device may signal the image configuration information only when the image configuration information (or the gaze information and / or the zoom area information) of the user is changed. That is, the client device may transmit the gaze information of the user to other client devices and / or server devices only when the gaze information of the user is changed.
- the gaze information may be signaled to the client device or the server device of another user only when the speaker who makes the voice differs from the user's gaze direction by using the point that the speaker is usually noticed in the video conference.
- the client device may have options on the system (eg, speaker and / Alternatively, the lecturer may obtain information on the speaker through setting as the second user.
- the client device may determine who is the speaker in the virtual space area for the video conference by using the controller and / or the speaker determination unit (1310). For example, the client device may determine who is the speaker based on the sensing information. In addition, the client device may determine who is the speaker according to the given options.
- the client device may determine the gaze of the user by using the controller and / or the gaze determination unit (1320). For example, the client device may generate image configuration information based on the gaze of the user using the controller and / or the gaze determiner.
- the client device may determine whether the user's eyes are directed to the speaker by using the controller and / or the gaze determination unit (1330).
- the client device may not signal the image configuration information using the communication unit (1340). In this case, the client device may continue to receive the image of the speaker in the user's gaze direction with high quality, and may receive the image that is not in the user's gaze direction with the low quality.
- the client device may signal the image configuration information using the communicator (1350). For example, if the user's gaze first directed to the speaker but later changed to another place, the client device may signal image configuration information for the user's new gaze direction. That is, the client device may transmit image configuration information for the new gaze direction to other client devices and / or server devices. In this case, the client device may receive the image corresponding to the new gaze of the user with high quality, and the image corresponding to the new gaze of the user (for example, the video corresponding to the speaker) may be received with low quality. have.
- the client device generates and / or transmits the image configuration information.
- the server device receives the sensing information from the client device, generates the image configuration information based on the sensing information, and generates the image configuration information. It can also be sent to one client device.
- the video conference system may display the speaker's video information in the base layer data and the enhancement layer data. Can be transmitted as scalable video data.
- the video conferencing system may receive signaling from a user looking at a user other than the speaker, and may transmit video information of the other user as scalable video data of base layer data and enhancement layer data. Through this, the video conferencing system can provide fast and high quality video information to the user while greatly reducing the signaling on the entire system.
- the above-mentioned signaling may be signaling between a server device, a client device, and / or an external computing device (if present).
- the above-mentioned signaling may be signaling between a client device and / or an external computing device (if present).
- FIG. 14 is a diagram illustrating an exemplary method of transmitting a high / low level image.
- the method of transmitting a high / low level image based on the user's gaze information is a method of switching a scalable codec layer (1410), a rate control method using a single bitstream and a QP (Quantization Parameter) in real time encoding. (1420), a single bitstream such as DASH switching in units of chunks (1430), Down Scaling / Up Scaling method (1440), and / or in the case of Rendering high definition rendering method using more resources (1450) It may include.
- the quantization coefficient (1420, Quantization Parameter) or Down / Up scaling Adjusting the degree 1440 may provide advantages such as lowering the overall bandwidth, quickly responding to user eye movement, and the like.
- the exemplary technique of the present specification switches between high level images and low level images in chunks. It may provide (1430).
- the present specification takes a video conferencing system as an example, the present specification may be equally applicable to VR (Augmented Reality), AR (Augmented Reality) game, etc. using the HMD. That is, all of the techniques for providing a high level image of an area corresponding to the user's gaze and signaling only when the user looks at an area other than an area or an object that the user is expected to see. The same applies as in the example.
- 15 is a diagram illustrating an exemplary image decoding method.
- the image decoding apparatus may include at least one of an extractor, a base layer decoder, and / or an enhancement layer decoder.
- the contents of the image decoding apparatus and / or the image decoding method may include all related contents among the above descriptions of the server device and / or the image decoding apparatus (or the decoder).
- the image decoding apparatus may use the extractor to receive a bitstream including video data and signaling data (1510).
- the image decoding apparatus may extract signaling data, base layer video data, and / or at least one enhancement layer video data from the video data.
- the image decoding apparatus may decode base layer video data using a base layer decoder (1520).
- the image decoding apparatus may decode at least one enhancement layer video data based on the signaling data and the base layer video data using the enhancement layer decoder (1530).
- video data may include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
- the signaling data may include ROI information indicating an ROI corresponding to the gaze direction of the user in the entire area of the virtual space for the video conference service.
- the base layer video data may include video data for the entire region
- the at least one enhancement layer video data may include video data for the region of interest in the entire region.
- the at least one enhancement layer may be divided into at least one tile having a rectangular shape for each layer, and the ROI information may include tile information for identifying at least one tile included in the ROI.
- the ROI information is generated based on the image configuration information
- the image configuration information may include gaze information indicating a direction of the user's gaze in a virtual space and zoom area information indicating the user's viewing angle.
- the image configuration information may be signaled when the gaze direction of the user does not face the speaker.
- the signaling data may be transmitted through at least one of Supplementary Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
- SEI Supplementary Enhancement Information
- VUI video usability information
- Slice Header a file describing the video data.
- 16 is a diagram illustrating an exemplary video encoding method.
- the image encoding apparatus may include at least one of a base layer encoder, an enhancement layer encoder, and / or a multiplexer.
- the contents of the image encoding apparatus and / or the image encoding method may include all related contents among the descriptions of the client device and / or the image encoding apparatus (or the encoder) described above.
- the image encoding apparatus may generate base layer video data using the base layer encoder (1610).
- the apparatus for encoding an image may generate at least one enhancement layer video data based on the signaling data and the base layer video data using the enhancement layer encoder.
- the apparatus for encoding an image may generate a bitstream including video data and signaling data using a multiplexer.
- the image encoding apparatus and / or the image encoding method may perform an inverse process of the image decoding apparatus and / or the image decoding method.
- common features may be included for this purpose.
- FIG. 17 is a diagram illustrating an exemplary syntax of ROI information.
- the ROI information (sighted_tile_info) for each video picture is shown.
- the ROI information may include at least one of info_mode information, tile_id_list_size information, tile_id_list information, cu_id_list_size information, cu_id_list information, user_info_flag information, user_info_size information, and / or user_info_list.
- the info_mode information may indicate a mode of information expressing a region of interest for each picture.
- the info_mode information may be represented by 4 bits of unsigned information.
- the info_mode information may indicate the mode of the included information. For example, when the value of the info_mode information is '0', the info_mode information may indicate that the previous information mode is used as it is. If the value of the info_mode information is '1', the info_mode information may indicate a list of all tile numbers corresponding to the ROI. If the value of info_mode information is '2', info_mode information is the start number of consecutive tiles corresponding to the region of interest.
- the info_mode information may indicate the number of the upper left and lower right tiles of the ROI. If the value of the info_mode information is '4', the info_mode information may indicate the number of tiles corresponding to the ROI and the number of coding units included in the tiles.
- the tile_id_list_size information may indicate the length of the tile number list.
- the tile_id_list_size information may be represented by 8 bits of unsigned information.
- the tile_id_list information may include a tile number list based on the info_mode information. Each tile number may be represented by unsigned 8 bits of information.
- the cu_id_list_size information may indicate the length of a coding unit list.
- the cu_id_list_size information may be represented by unsigned 16 bits of information.
- the cu_id_list information may include a list of coding unit numbers based on the info_mode information. Each coding unit number may be represented by unsigned 16 bits of information.
- the user_info_flag information may be a flag indicating additional user information mode.
- the user_info_flag information may indicate whether there is tile-related information that the user and / or provider additionally want to transmit.
- the user_info_flag information may be represented by unsigned 1 bit information. For example, if the value of the user_info_flag information is '0', it may be indicated that there is no additional user information. If the value of the user_info_flag information is '1', it may indicate that there is additional user information.
- the user_info_size information may indicate the length of additional user information.
- the user_info_size information may be represented by unsigned 16 bits of information.
- the user_info_list information may include a list of additional user information. Each additional user information may be represented by information of an unsignable changeable bit.
- the ROI information for each file, chunk, and video picture group is shown.
- the ROI information may include at least one of a version information field, an entire data size field, and / or at least one unit information field.
- the region of interest information (sighted_tile_info) for each file, chunk, and video picture group is shown.
- the ROI information may include at least one of version_info information, file_size information, and / or unit information.
- the version_info information may indicate a version of the ROI information (or signaling standard).
- the version_info information may be represented by unsigned 8 bits of information.
- the file_size information may indicate the size of the unit information.
- the file_size information may be represented by unsigned 64-bit information.
- the file_size information may indicate a file size, chunk size, and video picture group size.
- the unit information may include region of interest information for each file unit, chunk unit, and / or video picture group unit.
- the unit information may include at least one of poc_num information, info_mode information, tile_id_list_size information, tile_id_list information, cu_id_list_size information, cu_id_list information, user_info_flag information, user_info_size information, and / or user_info_list information.
- the poc_num information may indicate the number of a video picture.
- the picture number field may indicate a picture order count (POC) in HEVC and a corresponding picture (frame) number in a general video codec.
- POC picture order count
- the poc_num information may be represented by unsigned 32 bits of information.
- the tile_id_list_size information the tile_id_list information, the cu_id_list_size information, the cu_id_list information, the user_info_flag information, the user_info_size information, and / or the user_info_list information is the same as the above description, detailed description thereof will be omitted.
- the ROI information may be generated at the server device (or an image transmitting apparatus) and transmitted to at least one client device (or an image receiving apparatus).
- the ROI information may be generated in at least one client device (or image receiving apparatus) and transmitted to at least one client device (or image receiving apparatus) and / or server device (or image transmitting apparatus).
- the client device and / or the controller of the client device may further include the above-described signaling data extractor, image generator, ROI determiner, signaling data generator, and / or encoder.
- FIG. 18 is a diagram illustrating exemplary ROI information and an exemplary SEI message in XML format.
- the ROI information (sighted_tile_info) may be expressed in an XML form.
- the ROI information (sighted_tile_info) may include info_mode information ('3'), tile_id_list_size information ('6'), and / or tile_id_list information ('6, 7, 8, 9, 10, 11, 12'). It may include.
- the payload syntax (Syntax) of the Supplemental Enhancement Information (SEI) message in the international video standard is shown.
- the SEI message indicates additional information that is not essential in the decoding process of the video coding layer (VCL).
- the region of interest information (sighted_tile_info, 1810) may be included in an SEI message of high efficiency video encoding (HEVC), MPEG-4 (MPEG-4), and / or advanced video encoding (AVC) and transmitted through a broadcast network and / or broadband.
- HEVC high efficiency video encoding
- MPEG-4 MPEG-4
- AVC advanced video encoding
- the SEI message may be included in the compressed video data.
- 19 illustrates an example protocol stack of a client device.
- the broadcast stack protocol stack is divided into a portion transmitted through a service list table (SLT) and a MPEG Media Transport Protocol (MMTP), and a portion transmitted through a real time object delivery over Unidirectional Transport (ROUTE). Can lose.
- SLT service list table
- MMTP MPEG Media Transport Protocol
- ROUTE Unidirectional Transport
- the SLT 1910 may be encapsulated through a User Datagram Protocol (UDP) and an Internet Protocol (IP) layer.
- MPEG Media Transport Protocol (MMTP) may transmit data 1920 formatted in MPU (Media Processing Unit) format defined in MPEG media transport (MMT) and signaling data 1930 according to MMTP. These data can be encapsulated over the UDP and IP layers.
- ROUTE is a non-timed data such as data 1960 and signaling data 1940 formatted in the form of a dynamic adaptive streaming over HTTP (DASH) segment, and a non-real time (NRT).
- DASH dynamic adaptive streaming over HTTP
- NRT non-real time
- timed data 1950 may be transmitted. These data can also be encapsulated over the UDP and IP layers.
- the part transmitted through SLT and MMTP and the part transmitted through ROUTE may be encapsulated again in the data link layer after being processed in the UDP and IP layers.
- the broadcast data processed in the link layer may be multicast as a broadcast signal through a process such as encoding / interleaving in the physical layer.
- the broadband protocol stack portion may be transmitted through the HyperText Transfer Protocol (HTTP) as described above.
- HTTP HyperText Transfer Protocol
- Data 1960 formatted in the form of a DASH segment, signaling data 1980, and data 1970 such as an NRT may be transmitted through HTTP.
- the signaling data shown here may be signaling data regarding a service.
- This data can be processed via the Transmission Control Protocol (TCP), IP layer, and then encapsulated at the link layer. Subsequently, the processed broadband data may be unicast to broadband through processing for transmission in the physical layer.
- TCP Transmission Control Protocol
- IP layer IP layer
- a service can be a collection of media components that are shown to the user as a whole, a component can be of multiple media types, a service can be continuous or intermittent, a service can be real time or non-real time, and a real time service can be a sequence of TV programs. It can be configured as.
- the service may include the aforementioned virtual reality service and / or augmented reality service.
- the video data and / or audio data may include at least one of data 1920 formatted in MPU format, non timed data 1950 such as NRT, and / or data 1960 formatted in DASH segment form. It can be included in one.
- the signaling data (eg, the first signaling data, the second signaling data) may be included in at least one of the SLT 1910, the signaling data 1930, the signaling data 1940, and / or the signaling data 1980. Can be.
- SLT service layer signaling
- Service signaling provides service discovery and description information and includes two functional components. These are bootstrap signaling through SLT 2010 and SLS 2020 and 2030. For example, SLS in MMTP may be represented by MMT signaling components 2030. These represent the information needed to discover and obtain user services. SLT 2010 allows the receiver to build a basic list of services and bootstrap the discovery of SLSs 2020 and 2030 for each service.
- SLT 2010 enables very fast acquisition of basic service information.
- SLS 2020 and 2030 allow the receiver to discover and access the service and its content components (such as video data or audio data).
- the SLT 2010 may be transmitted through UDP / IP.
- data corresponding to the SLT 2010 may be delivered through the most robust method for this transmission.
- the SLT 2010 may have access information for accessing the SLS 2020 carried by the ROUTE protocol. That is, the SLT 2010 may bootstrap the SLS 2020 according to the ROUTE protocol.
- the SLS 2020 is signaling information located in a layer above ROUTE in the above-described protocol stack and may be transmitted through ROUTE / UDP / IP. This SLS 2020 may be delivered via one of the LCT sessions included in the ROUTE session.
- the SLS 2020 may be used to access a service component 2040 corresponding to a desired service.
- the SLT 2010 may also have access information for accessing the SLM (MMT signaling component) 2030 carried by the MMTP.
- the SLT 2010 may bootstrap to the SLM (MMT signaling component) 2030 according to the MMTP.
- This SLS (MMT signaling component) 2030 may be carried by an MMTP signaling message defined in MMT.
- the SLS (MMT signaling component) 2030 may be used to access a streaming service component (MPU) 2050 corresponding to a desired service.
- the NRT service component 2060 is ROUTE.
- the SLS (MMT signaling component) 2030 according to MMTP may also include information for accessing it.
- SLS is carried over HTTP (S) / TCP / IP.
- the service may be included in at least one of the service components 2040, the streaming service components 2050, and / or the NRT service components 2060.
- the signaling data (eg, the first signaling data and the second signaling data) may be included in at least one of the SLT 2010, the SLS 2020, and / or the MMT signaling components 2030.
- 21 is a diagram illustrating an example SLT.
- SLT supports fast channel scan that allows the receiver to build a list of all the services it can receive by channel name, channel number, and so on.
- the SLT also provides bootstrap information that allows the receiver to discover the SLS for each service.
- the SLT may include at least one of @bsid, @sltCapabilities, sltInetUrl element, and / or Service element.
- @bsid may be a unique identifier of the broadcast stream.
- the value of @bsid can be unique at the local level.
- @sltCapabilities means the specifications required for meaningful broadcasting in all services described in the SLT.
- the sltInetUrl element refers to a URL (Uniform Resource Locator) value which can download ESG (Electronic Service Guide) data or service signaling information providing guide information of all services described in the corresponding SLT through a broadband network.
- the sltInetUrl element may include @URLtype.
- @URLtype refers to the type of file that can be downloaded through the URL indicated by the sltInetUrl element.
- the service element may include service information.
- the service element may include at least one of @serviceId, @sltSvcSeqNum, @protected, @majorChannelNo, @minorChannelNo, @serviceCategory, @shortServiceName, @hidden, @broadbandAccessRequired, @svcCapabilities, BroadcastSignaling element, and / or svcInetUrl element.
- @serviceId is a unique identifier of the service.
- @sltSvcSeqNum has a value that indicates information about whether the contents of each service defined in the SLT have changed.
- @protected has a value of “true”, it means that one of the components that make up a service is protected in order to show the service on the screen.
- @majorChannelNo means the major channel number of the service.
- @minorChannelNo means that the service is minor channel number.
- @serviceCategory indicates the type of service.
- @hidden indicates whether the service should be shown to the user when scanning the service.
- @broadbandAccessRequired indicates whether to connect to the broadband network in order to show the service meaningfully to the user.
- @svcCapabilities specifies the specifications that must be supported to make the service meaningful to the user.
- the BroadcastSignaling element includes a definition of a transport protocol, a location, and identifier values of signaling transmitted to a broadcast network.
- the BroadcastSignaling element may include at least one of @slsProtocol, @slsMajorProtocolVersion, @slsMinorProtocolVersion, @slsPlpId, @slsDestinationIpAddress, @slsDestinationUdpPort, and / or @slsSourceIpAddress.
- @slsProtocol represents the protocol over which the SLS of the service is transmitted.
- @slsMajorProtocolVersion represents the major version of the protocol over which the SLS of the service is transmitted.
- @slsMinorProtocolVersion represents the minor version of the protocol over which the SLS of the service is transmitted.
- @slsPlpId indicates the PLP identifier through which the SLS is transmitted.
- @slsDestinationIpAddress represents the destination IP address of SLS data.
- @slsDestinationUdpPort represents the destination Port value of SLS data.
- @slsSourceIpAddress represents the source IP address of SLS data.
- the svcInetUrl element indicates a URL value for downloading ESG service or signaling data related to the service.
- the svcInetUrl element may contain @URLtype.
- @URLtype refers to the type of file that can be downloaded through the URL indicated by the svcInetUrl element.
- 22 is a diagram illustrating an example code value of a serviceCategory attribute.
- the service may not be specified. If the value of the serviceCategory attribute is '1', the service may be a linear audio / video service. If the value of the serviceCategory attribute is '2', the service may be a linear audio service. If the value of the serviceCategory attribute is '3', the service may be an app-based service. If the value of the serviceCategory attribute is '4', the service may be an electronic service guide (ESG) service. If the value of the serviceCategory attribute is '5', the service may be an emergency alert service (EAS).
- ESG electronic service guide
- EAS emergency alert service
- the corresponding service may be a virtual reality and / or augmented reality service.
- the value of the serviceCategory attribute may be '6' (2210).
- FIG. 23 illustrates an example SLS bootstrapping and example service discovery process.
- the receiver can obtain the SLT.
- SLT is used to bootstrap SLS acquisition, and then SLS is used to acquire service components carried in a ROUTE session or an MMTP session.
- the SLT provides SLS bootstrapping information such as PLPID (# 1), source IP address (sIP1), destination IP address (dIP1), and destination port number (dPort1). .
- the SLT provides SLS bootstrapping information such as PLPID (# 2), destination IP address (dIP2), and destination port number (dPort2).
- a broadcast stream is a concept of an RF channel defined in terms of carrier frequencies concentrated within a specific band.
- PLP physical layer pipe
- Each PLP has specific modulation and coding parameters.
- the receiver can obtain the SLS fragments delivered to the PLP and IP / UDP / LCT sessions.
- SLS fragments include a User Service Bundle Description / User Service Description (USBD / USD) fragment, a Service-based Transport Session Instance Description (S-TSID) fragment, and a Media Presentation Description (MPD) fragment. They are related to a service.
- USBD / USD User Service Bundle Description / User Service Description
- S-TSID Service-based Transport Session Instance Description
- MPD Media Presentation Description
- the receiver may obtain SLS fragments that are delivered in PLP and MMTP sessions. These SLS fragments may include USBD / USD fragments, MMT signaling messages. They are related to a service.
- the receiver may obtain a video component and / or an audio component based on the SLS fragment.
- one ROUTE or MMTP session may be delivered through a plurality of PLPs. That is, one service may be delivered through one or more PLPs. As described above, one LCT session may be delivered through one PLP. Unlike shown, components constituting one service may be delivered through different ROUTE sessions. In addition, according to an embodiment, components constituting one service may be delivered through different MMTP sessions. According to an embodiment, components constituting one service are connected to a ROUTE session and an MMTP session.
- a component constituting one service may be delivered separately.
- a component constituting one service may be delivered through a broadband (hybrid delivery).
- service data eg, video component and / or audio component
- signaling data eg, SLS fragment
- 24 is a diagram illustrating an exemplary USBD / USD fragment for ROUTE / DASH.
- the USBD / USD (User Service Bundle Description / User Service Description) fragment describes the service layer characteristics and provides a Uniform Resource Identifier (URI) reference for the S-TSID fragment and a URI reference for the MPD fragment. That is, the USBD / USD fragment may refer to the S-TSID fragment and the MPD fragment, respectively.
- the USBD / USD fragment can be expressed as a USBD fragment.
- the USBD / USD fragment can have a bundleDescription root element.
- the bundleDescription root element may have a userServiceDescription element.
- the userServiceDescription element may be an instance of one service.
- the userServiceDescription element may include at least one of @globalServiceId, @serviceId, @serviceStatus, @fullMPDUri, @sTSIDUri, name element, serviceLanguage element, deliveryMethod element, and / or serviceLinakge element.
- @globalServiceId can indicate a globally unique URI that identifies the service.
- @serviceId is a reference to the corresponding service entry in the SLT.
- @serviceStatus can specify the status of the service. The value indicates whether the service is enabled or disabled.
- @fullMPDUri may reference an MPD fragment containing a description of the content component of the service delivered over broadcast and / or broadband.
- @sTSIDUri may refer to an S-TSID fragment that provides access-related parameters to a transport session that delivers the content of the service.
- the name element may indicate a name of a service.
- the name element may include @lang indicating the language of the service name.
- the serviceLanguage element may indicate an available language of the service.
- the deliveryMethod element may be a container of transports related to information pertaining to the content of the service on broadcast and (optionally) broadband modes of access.
- the deliveryMethod element may include a broadcastAppService element and a unicastAppService element.
- Each subelement may have a basePattern element as a subelement.
- the broadcastAppService element may be a DASH presentation delivered on a multiplexed or non-multiplexed form of broadcast containing corresponding media components belonging to the service over the duration of the media presentation to which it belongs. That is, each of the present fields may mean DASH presentations delivered through the broadcasting network.
- the unicastAppService may be a DASH presentation delivered on a multiplexed or non-multiplexed form of broadband including constituent media content components belonging to the service over all durations of the media presentation to which it belongs. That is, each of the present fields may mean DASH representations delivered through broadband.
- the basePattern may be a character pattern used by the receiver to match against all parts of the fragment URL used by the DASH client to request media segmentation of the parent presentation in the included period.
- the serviceLinakge element may include service linkage information.
- FIG. 25 is a diagram illustrating an example S-TSID fragment for ROUTE / DASH.
- the Service-based Transport Session Instance Description (S-TSID) fragment provides a transport session description for one or more ROUTE / LCT sessions to which the media content component of the service is delivered and a description of the delivery object delivered in that LCT session.
- the receiver may obtain at least one component (eg, video component and / or audio component) included in the service based on the S-TSID fragment.
- the S-TSID fragment may include an S-TSID root element.
- the S-TSID root element may include @serviceId and / or at least one RS element.
- @serviceID may be a reference corresponding to a service element in USD.
- the RS element may have information about a ROUTE session for delivering corresponding service data.
- the RS element may include at least one of @bsid, @sIpAddr, @dIpAddr, @dport, @PLPID and / or at least one LS element.
- @bsid may be an identifier of a broadcast stream to which the content component of broadcastAppService is delivered.
- @sIpAddr may indicate the source IP address.
- the source IP address may be a source IP address of a ROUTE session for delivering a service component included in a corresponding service.
- @dIpAddr may indicate a destination IP address.
- the destination IP address may be a destination IP address of a ROUTE session for delivering a service component included in a corresponding service.
- @dport can represent a destination port.
- the destination port may be a destination port of a ROUTE session for delivering a service component included in a corresponding service.
- @PLPID may be an ID of a PLP for a ROUTE session represented by an RS element.
- the LS element may have information about an LCT session that carries corresponding service data.
- the LS element may include @tsi, @PLPID, @bw, @startTime, @endTime, SrcFlow and / or RprFlow.
- @tsi may indicate a TSI value of an LCT session in which a service component of a corresponding service is delivered.
- @PLPID may have ID information of a PLP for a corresponding LCT session. This value may override the default ROUTE session value.
- @bw may indicate the maximum bandwiss value.
- @startTime can indicate the start time of the LCT session.
- @endTime may indicate an end time of the corresponding LCT session.
- the SrcFlow element may describe the source flow of ROUTE.
- the RprFlow element may describe the repair flow of ROUTE.
- the S-TSID may include ROI information.
- the RS element and / or the LS element may include ROI information.
- FIG. 26 illustrates an exemplary MPD fragment.
- the media presentation description (MPD) fragment may include a formal description of the DASH media presentation corresponding to the linear service of a given duration determined by the broadcaster. MPD fragments are primarily associated with linear services for the delivery of DASH fragments as streaming content.
- the MPD provides the source identifiers for the individual media components of the linear / streaming service in the form of fragment URLs, and the context of the identified resource within the media presentation. MPD may be transmitted over broadcast and / or broadband.
- the MPD fragment may include a period element, an adaptation set element, and a presentation element.
- Period elements contain information about periods.
- the MPD fragment may include information about a plurality of periods.
- a period represents a continuous time interval of media content presentation.
- the adaptation set element includes information about the adaptation set.
- the MPD fragment may include information about a plurality of adaptation sets.
- An adaptation set is a collection of media components that includes one or more media content components that can be interchanged.
- the adaptation set may include one or more representations.
- Each adaptation set may include audio of different languages or subtitles of different languages.
- the representation element contains information about the representation.
- the MPD may include information about a plurality of representations.
- a representation is a structured collection of one or more media components, where there may be a plurality of representations encoded differently for the same media content component.
- the electronic device may switch the received presentation to another presentation based on the updated information during media content playback. In particular, the electronic device may convert the received representation into another representation according to the bandwidth environment.
- the representation is divided into a plurality of segments.
- a segment is a unit of media content data.
- the representation may be transmitted as a segment or part of a segment according to a request of the electronic device using the HTTP GET or HTTP partial GET method defined in HTTP 1.1 (RFC 2616).
- the segment may include a plurality of sub-segments.
- the subsegment may mean the smallest unit that can be indexed at the segment level.
- the segment may include an Initialization Segment, a Media Segment, an Index Segment, and a BitstreamSwitching Segment.
- the MPD fragment may include ROI information.
- the period element, the adaptation set element, and / or the presentation element may include ROI information.
- FIG. 27 is a diagram illustrating an exemplary process of receiving a virtual reality service through a plurality of ROUTE sessions.
- the client device may receive the bitstream through the broadcast network.
- the bit stream may include video data and second signaling data for the service.
- the second signaling data may include an SLT 2710 and an SLS 2730.
- the service may include a virtual reality service.
- the service data may include base layer service data 2740 and enhancement layer service data 2750.
- the bitstream may include at least one physical layer frame.
- the physical layer frame may include at least one PLP.
- the SLT 2710 may be transmitted through the PLP # 0.
- the PLP # 1 may include a first ROUTE session ROUTE # 1.
- the 1 ROUTE session ROUTE # 1 may include a first LCT session tsi-sls, a second LCT session tsi-bv, and a third LCT session tsi-a.
- the SLS 2730 is transmitted through the first LCT session tsi-sls
- the base layer video data 2740 is transmitted through the second LCT session tsi-bv
- the third LCT session (tsi-sls). Audio data may be transmitted through tsi-a.
- the PLP # 2 may include a second ROUTE session ROUTE # 2
- the second ROUTE session ROUTE # 2 may include a fourth LCT session tsi-ev.
- Enhancement layer video data (Video Segment) 2750 may be transmitted through a fourth LCT session tsi-ev.
- the client device can then obtain the SLT 2710.
- the SLT 2710 may include bootstrap information 2720 for obtaining the SLS 2730.
- the client device may then obtain the SLS 2730 for the virtual reality service based on the bootstrap information 2720.
- the SLS may include a USBD / USD fragment, an S-TSID fragment, and / or an MPD fragment.
- At least one of the USBD / USD fragment, the S-TSID fragment, and / or the MPD fragment may include ROI information.
- the MPD fragment includes ROI information.
- the client device may then obtain the S-TSID fragment and / or the MPD fragment based on the USBD / USD fragment.
- the client device may match the representation of the MPD fragment with the media component transmitted over the LCT session based on the S-TSID fragment and the MPD fragment.
- the client device can then obtain the base layer video data 2740 and audio data based on the RS element (ROUTE # 1) of the S-TSID fragment.
- the client device may also obtain enhancement layer video data 2750 and audio data based on the RS element (ROUTE # 2) of the S-TSID fragment.
- the client device can then decode the service data (eg, base layer video data, enhancement layer video data, audio data) based on the MPD fragment.
- service data eg, base layer video data, enhancement layer video data, audio data
- the client device may decode the enhancement layer video data based on the base layer video data and / or region of interest information.
- the enhancement layer video data is transmitted through the second ROUTE session (ROUTE # 2).
- the enhancement layer video data may be transmitted through the MMTP session.
- 28 is a diagram illustrating an exemplary configuration of a client device.
- the client device A2800 may include at least one of an image input unit, an audio input unit, a sensor unit, an image output unit, an audio output unit, a communication unit A2810, and / or a controller A2820. Can be.
- the details of the client device A2800 may include all the contents of the above-described client device.
- the controller A2820 may include at least one of a signaling data extractor, a decoder, a speaker determiner, a gaze determiner, and / or a signaling data generator.
- the details of the controller A2820 may include all of the above-described contents of the controller.
- a client device may include a communication unit A2810 and / or a controller A2820.
- the controller A2820 may include a base layer decoder A2821 and / or an enhancement layer decoder A2825.
- the communication unit A2810 may receive a bitstream including video data for a virtual reality service.
- the communication unit A2810 may receive a bitstream through a broadcast network and / or broadband.
- the video data may include base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
- the base layer decoder A2821 may decode the base layer video data.
- the enhancement layer decoder A2825 may decode the at least one enhancement layer video data based on the base layer video data.
- the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- controller A2820 may further include a signaling data generator that generates first signaling data.
- the first signaling data may include image configuration information.
- the image configuration information may include at least one of gaze information indicating a gaze direction of the user and a zoom area information indicating the viewing angle of the user in the virtual space.
- the controller A2820 may further include a gaze determination unit that determines whether a gaze area corresponding to the gaze information is included in the at least one ROI.
- the communication unit A2810 may transmit the first signaling data to a server (or a server device, a transmitter, an image transmission device) and / or at least one client.
- the server, the server device, and / or the at least one client device receiving the first signaling data may correspond to the gaze information corresponding to the gaze information in the at least one ROI. It may include. That is, the region of interest may include at least one of a region including the speaker in the virtual space, a region that is predetermined by using at least one enhancement layer video data, and a region of gaze corresponding to the gaze information.
- the bitstream may further include second signaling data.
- the communication unit A2810 may independently receive the base layer video data and the at least one enhancement layer video data based on the second signaling data through a plurality of sessions.
- the communication unit A2810 may receive base layer video data through a first ROUTE session and receive at least one enhancement layer video data through at least one second ROUTE session.
- the communication unit A2810 may receive base layer video data through a ROUTE session and receive at least one enhancement layer video data through at least one MMTP session.
- the second signaling data may include at least one of service layer signaling data (or SLS) including information for acquiring the video data and a service list table (or SLT) including information for acquiring the service layer signaling data. It may include one.
- SLS service layer signaling data
- SLT service list table
- the service list table may include a service category attribute indicating a category of a service.
- the service category attribute may indicate the virtual reality service.
- the service layer signaling data may include the ROI information.
- the service layer signaling data may be included in an S-TSID fragment including information on a session in which at least one media component for the virtual reality service is transmitted, and in the at least one media component (video data and / or audio data). It may include at least one of an MPD fragment including information about, and a USBD / USD fragment including a URI value connecting the S-TSID fragment and the MPD fragment.
- the MPD fragment may include ROI information indicating a location of the at least one ROI in the entire area of the virtual space.
- the bitstream may further include region of interest information indicating a location of the at least one region of interest within the entire region of the virtual space.
- the ROI information may be transmitted and / or received through at least one of a Supplemental Enhancement Information (SEI) message, a Video Usability Information (VUI) message, a slice header, and a file describing the video data.
- SEI Supplemental Enhancement Information
- VUI Video Usability Information
- the at least one enhancement layer video data may be generated (encoded) and / or decoded based on the base layer video data and the ROI information.
- the ROI information may include at least one of an information mode field indicating a mode of information representing the ROI for each picture and a tile number list field including a number of at least one tile corresponding to the ROI.
- the information mode field may be the above-described info_mode information
- the tile number list field may be the above-described tile_id_list information.
- the tile number list field may include a number of all tiles corresponding to the ROI, starting numbers and ending numbers of consecutive tiles, and numbers of upper and lower right tiles of the ROI, based on the information mode field. It may include the number of the at least one tile in one of the manner.
- the ROI information may further include a coding unit number list field indicating the ROI.
- the coding unit number list field may be the above-described cu_id_list information.
- the coding unit number list field may indicate the number of tiles corresponding to the ROI and the number of coding units included in the tile based on the information mode field.
- the client device B2800 may include at least one of an image input unit, an audio input unit, a sensor unit, an image output unit, an audio output unit, a communication unit B2810, and / or a controller B2820.
- the details of the client device B2800 may include all the contents of the client device A2800 described above.
- controller B2820 may include at least one of the first processor B2821 and / or the second controller B2825.
- the first processor B2821 may decode base layer video data.
- the first processor B2821 may be a video processing unit (VPU) and / or a digital signal processor (DSP).
- VPU video processing unit
- DSP digital signal processor
- the second processor B2825 may be electrically connected to the first processor to decode the at least one enhancement layer video data based on the base layer video data.
- the second processor B2825 may be a central processing unit (CPU) and / or a graphics processing unit (GPU).
- 29 is a diagram illustrating an exemplary configuration of a server device.
- At least one client device may perform all operations of the server device (or image transmitting apparatus).
- the server device or image transmitting apparatus.
- the server device A2900, a transmitter, and an image transmission device may include a controller A2910 and / or a communicator A2920.
- the controller A2920 may include at least one of a signaling data extractor, an image generator, an ROI determiner, a signaling data generator, and / or an encoder. Details of the server device A2900 may include all the contents of the server device described above.
- the controller A2910 of the server device A2900 may include a base layer encoder A2911 and / or an enhancement layer encoder A2915.
- the base layer encoder A2911 may generate base layer video data.
- the enhancement layer encoder A2915 may generate at least one enhancement layer video data based on the base layer video data.
- the communicator A2920 may transmit a bitstream including video data for a virtual reality service.
- the communication unit A2920 may transmit a bitstream through a broadcast network and / or broadband.
- the video data may also include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
- the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- the communication unit A2920 may further receive the first signaling data.
- the first signaling data may include image configuration information.
- the ROI determiner of the controller A2910 may include the gaze area corresponding to the gaze information in the at least one ROI.
- the signaling data generator of the controller A2910 may generate second signaling data.
- the communication unit A2920 may independently transmit the base layer video data and the at least one enhancement layer video data through a plurality of sessions based on the second signaling data.
- the second signaling data and / or the ROI information may include all of the above contents.
- the server device B2900, a transmitter, and an image transmission device may include at least one of the controller B2910 and / or the communicator B2920.
- the controller B2920 may include at least one of a signaling data extractor, an image generator, an ROI determiner, a signaling data generator, and / or an encoder. Details of the server device B2900 may include all the contents of the server device described above.
- the controller B2910 of the server device B2900 may include a first processor B2911 and / or a second processor B2915.
- the first processor B2911 may include a base layer encoder that generates base layer video data.
- the second processor B2915 may be electrically connected to the first processor to generate (or encode) the at least one enhancement layer video data based on the base layer video data.
- FIG. 30 is a diagram illustrating an exemplary operation of a client device.
- the client device may include a communication unit and / or a control unit.
- the control unit may include a base layer decoder and / or an enhancement layer decoder.
- the controller may include a first processor and / or a second processor.
- the client device may use the communication unit to receive a bitstream including video data for the virtual reality service (3010).
- the video data may include base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
- the client device may then decode (3020) the base layer video data using a base layer decoder and / or a first processor.
- the client device may then decode (3030) the at least one enhancement layer video data based on the base layer video data using an enhancement layer decoder and / or a second processor.
- the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- the contents related to the operation of the client device may include all the contents of the client device described above.
- FIG. 31 is a diagram illustrating an exemplary operation of a server device.
- the server device may include a control unit and / or a communication unit.
- the control unit may include a base layer encoder and / or an enhancement layer encoder.
- the controller may include a first processor and / or a second processor.
- the server device may generate base layer video data using the base layer encoder and / or the first processor (3110).
- the server device may then use the enhancement layer encoder and / or the second processor to generate at least one enhancement layer video data based on the base layer video data (3120).
- the server device may then use the communication unit to transmit the bitstream containing the video data for the virtual reality service.
- the video data may include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
- the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
- the contents related to the operation of the server device may include all the contents of the server device described above.
- the above-described method may be implemented as code that can be read by a processor in a medium in which a program is recorded.
- the processor-readable medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may be implemented in the form of downloadable file.
- the electronic device described above is not limited to the configuration and method of the above-described embodiments, but the embodiments may be configured by selectively combining all or some of the embodiments so that various modifications may be made. It may be.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Disclosed is a method for receiving a video comprising the steps of: receiving a bitstream comprising video data for a virtual reality service, the video data comprising base layer video data for a base layer, and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer; decoding the base layer video data; and decoding the at least one enhancement layer video data on the basis of the base layer video data, wherein the at least one enhancement layer video data is video data for at least one area of interest in a virtual space.
Description
본 명세서는 관심 영역을 고려한 가상 현실 서비스 제공에 관한 것이다.This specification relates to providing a virtual reality service considering a region of interest.
최근 가상현실(Virtual Reality, VR) 기술 및 장비가 발전함에 따라 다양한 서비스가 실현되고 있다. 화상 회의 서비스는 가상 현실 기술을 기초로 구현되는 서비스의 예이다. 사용자가 화상 회의를 위하여 회의 참가자의 영상 정보를 포함한 멀티미디어 데이터를 처리하는 장치를 사용할 수 있다.Recently, with the development of virtual reality (VR) technology and equipment, various services have been realized. Video conferencing services are examples of services implemented on the basis of virtual reality technology. A user may use a device for processing multimedia data including video information of a conference participant for a video conference.
본 명세서는 가상 현실 내의 관심 영역 정보를 고려한 영상 처리를 제공한다.The present specification provides image processing in consideration of ROI information in virtual reality.
또한, 본 명세서는 사용자의 시선 정보에 따라 서로 다른 품질의 영상 처리를 제공한다.In addition, the present specification provides image processing of different quality according to the gaze information of the user.
또한, 본 명세서는 사용자의 시선의 변동에 반응하는 영상 처리를 제공한다.In addition, the present disclosure provides image processing in response to a change in the gaze of the user.
또한, 본 명세서는 사용자의 시선 변동에 대응하는 시그널링을 제공한다.In addition, the present disclosure provides signaling corresponding to a change in gaze of a user.
본 명세서에 개시된 일 실시예에 따른 영상 수신 장치는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 통신부, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고; 상기 기본 계층 비디오 데이터를 디코딩하는 기본 계층 디코더; 및 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 향상 계층 디코더를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.An image receiving apparatus according to an embodiment of the present disclosure includes a communication unit configured to receive a bitstream including video data for a virtual reality service, wherein the video data includes at least base layer video data for a base layer and predicted from the base layer. At least one enhancement layer video data for one enhancement layer; A base layer decoder for decoding the base layer video data; And an enhancement layer decoder that decodes the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data is video data for at least one region of interest in a virtual space. Can be.
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 수신 장치는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 수신하는 통신부; 상기 기본 계층 비디오 데이터를 디코딩하는 제1 프로세서; 및 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 제2 프로세서를 포함하되, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, the image receiving apparatus according to another embodiment disclosed in the present specification includes a communication unit for receiving base layer video data for the base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer; A first processor for decoding the base layer video data; And a second processor electrically coupled with the first processor to decode the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data is within a virtual space. It may be video data for at least one region of interest.
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 전송 장치는 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더; 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 향상 계층 인코더; 및 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 통신부를 포함하고, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, the image transmission apparatus according to another embodiment disclosed in the present specification includes a base layer encoder for generating base layer video data; An enhancement layer encoder for generating at least one enhancement layer video data based on the base layer video data; And a communication unit configured to transmit a bitstream including video data for a virtual reality service, wherein the video data is the at least one of the base layer video data for a base layer and the at least one enhancement layer predicted from the base layer. One enhancement layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
또한, 본 명세서에 개시된 다른 실시예에 다른 영상 수신 방법은 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고; 상기 기본 계층 비디오 데이터를 디코딩하는 단계; 및 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, according to another embodiment of the present disclosure, an image receiving method includes receiving a bitstream including video data for a virtual reality service, wherein the video data is predicted from base layer video data for the base layer and the base layer At least one enhancement layer video data for at least one enhancement layer; Decoding the base layer video data; And decoding the at least one enhancement layer video data based on the base layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space. .
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 전송 방법은 기본 계층 비디오 데이터를 생성하는 단계; 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 단계; 및 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 단계를 포함하고, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, the image transmission method according to another embodiment disclosed in the present specification comprises the steps of generating the base layer video data; Generating at least one enhancement layer video data based on the base layer video data; And transmitting a bitstream comprising video data for the virtual reality service, wherein the video data is for the base layer video data for the base layer and the at least one for the at least one enhancement layer predicted from the base layer. One enhancement layer video data, wherein the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
본 명세서에 개시된 기술에 따르면, 영상 처리 장치는 사용자의 시선을 기초로 서로 다른 영상 처리 방법을 적용할 수 있다. 또한 본 명세서에 개시된 기술에 따르면, 사용자의 시선 정보를 고려한 영상 처리 방법에 의하여, 화상 회의 장치, 예를 들어 HMD, 착용자가 느끼는 화질의 변화는 최소화하며, 영상 전송을 위한 대역폭(BW) 절약, 영상 처리 성능의 개선을 통한 소모 전력 감소 등의 효과가 있다.According to the technology disclosed herein, the image processing apparatus may apply different image processing methods based on the eyes of the user. In addition, according to the technology disclosed herein, by the image processing method in consideration of the user's eye information, the video conferencing device, for example, HMD, to minimize the change in the image quality felt by the wearer, to reduce the bandwidth (BW) for image transmission, There is an effect of reducing the power consumption through the improvement of the image processing performance.
도 1은 예시적인 화상 회의 시스템을 나타낸 도면이다.1 is a diagram illustrating an exemplary video conferencing system.
도 2는 예시적인 화상 회의 서비스를 나타낸 도면이다.2 is a diagram illustrating an exemplary video conferencing service.
도 3은 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.3 is a diagram illustrating an example scalable video coding service.
도 4는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.4 is a diagram illustrating an exemplary configuration of a server device.
도 5는 인코더의 예시적인 구조를 나타낸 도면이다.5 is a diagram illustrating an exemplary structure of an encoder.
도 6은 스케일러블 비디오 코딩을 이용한 예시적인 화상 회의 서비스를 나타낸 도면이다.6 illustrates an example video conferencing service using scalable video coding.
도 7은 예시적인 영상 전송 방법을 나타낸 도면이다.7 is a diagram illustrating an exemplary image transmission method.
도 8은 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.8 is a diagram illustrating an example method of signaling a region of interest.
도 9는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.9 is a diagram illustrating an exemplary configuration of a client device.
도 10은 제어부의 예시적인 구성을 나타낸 도면이다.10 is a diagram illustrating an exemplary configuration of a controller.
도 11은 디코더의 예시적인 구성을 나타낸 도면이다.11 is a diagram illustrating an exemplary configuration of a decoder.
도 12은 영상 구성 정보를 생성 및/또는 전송하는 예시적인 방법을 나타낸 도면이다.12 is a diagram illustrating an exemplary method of generating and / or transmitting image configuration information.
도 13은 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 예시적인 방법을 나타낸 도면이다.13 is a diagram illustrating an example method for a client device to signal image configuration information.
도 14는 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 나타낸 도면이다.14 is a diagram illustrating an exemplary method of transmitting a high / low level image.
도 15는 예시적인 영상 복호화 방법을 나타낸 도면이다.15 is a diagram illustrating an exemplary image decoding method.
도 16은 예시적인 영상 부호화 방법을 나타낸 도면이다. 16 is a diagram illustrating an exemplary video encoding method.
도 17은 관심 영역 정보의 예시적인 신택스를 나타낸 도면이다.17 is a diagram illustrating an exemplary syntax of ROI information.
도 18은 XML 포맷의 예시적인 관심 영역 정보, 및 예시적인 SEI 메시지를 나타낸 도면이다..18 is a diagram illustrating exemplary ROI information and an exemplary SEI message in XML format.
도 19는 클라이언트 디바이스의 예시적인 프로토콜 스택을 도시한 도면이다.19 illustrates an example protocol stack of a client device.
도 20은 SLT 와 SLS (service layer signaling) 의 예시적인 관계를 도시한 도면이다.20 is a diagram illustrating an exemplary relationship between SLT and service layer signaling (SLS).
도 21은 예시적인 SLT 를 도시한 도면이다. 21 is a diagram illustrating an example SLT.
도 22는 serviceCategory 속성의 예시적인 코드 벨류를 나타낸 도면이다.22 is a diagram illustrating an example code value of a serviceCategory attribute.
도 23은 예시적인 SLS 부트스트래핑과 예시적인 서비스 디스커버리 과정을 도시한 도면이다.FIG. 23 illustrates an example SLS bootstrapping and example service discovery process.
도 24는 ROUTE/DASH 를 위한 예시적인 USBD/USD 프래그먼트를 도시한 도면이다. 24 is a diagram illustrating an exemplary USBD / USD fragment for ROUTE / DASH.
도 25는 ROUTE/DASH 를 위한 예시적인 S-TSID 프래그먼트를 도시한 도면이다.FIG. 25 is a diagram illustrating an example S-TSID fragment for ROUTE / DASH. FIG.
도 26은 예시적인 MPD 프래그먼트를 나타낸 도면이다.FIG. 26 illustrates an exemplary MPD fragment. FIG.
도 27은 가상 현실 서비스를 복수의 ROUTE 세션을 통해서 수신하는 예시적인 과정을 나타낸 도면이다.27 is a diagram illustrating an exemplary process of receiving a virtual reality service through a plurality of ROUTE sessions.
도 28는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.28 is a diagram illustrating an exemplary configuration of a client device.
도 29는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.29 is a diagram illustrating an exemplary configuration of a server device.
도 30은 클라이언트 디바이스의 예시적인 동작을 나타낸 도면이다.30 is a diagram illustrating an exemplary operation of a client device.
도 31은 서버 디바이스의 예시적인 동작을 나타낸 도면이다.31 is a diagram illustrating an exemplary operation of a server device.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It is to be noted that the technical terms used herein are merely used to describe particular embodiments and are not intended to limit the spirit of the technology disclosed herein. In addition, the technical terms used herein should be construed as meanings generally understood by those skilled in the art to which the technology disclosed herein belongs, unless defined otherwise in this specification. It should not be interpreted in a comprehensive sense, or in an overly reduced sense. In addition, when the technical terms used herein are incorrect technical terms that do not accurately express the spirit of the technology disclosed herein, technical terms that can be properly understood by those skilled in the art to which the technology disclosed herein belongs. It should be replaced by. In addition, the general terms used herein should be interpreted as defined in the dictionary, or according to the context before and after, and should not be interpreted in an excessively reduced sense.
본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 기술의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.As used herein, terms including ordinal numbers such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the right of description, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments disclosed herein will be described in detail with reference to the accompanying drawings, and the same or similar components will be given the same reference numerals regardless of the reference numerals, and redundant description thereof will be omitted.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In addition, in describing the technology disclosed herein, if it is determined that the detailed description of the related known technology may obscure the gist of the technology disclosed herein, the detailed description thereof will be omitted. In addition, it is to be noted that the accompanying drawings are only for easily understanding the spirit of the technology disclosed in this specification, and the spirit of the technology should not be construed as being limited by the accompanying drawings.
도 1은 예시적인 화상 회의 시스템을 나타낸 도면이다.1 is a diagram illustrating an exemplary video conferencing system.
화상 회의 시스템은 원격의 장소에 위치한 적어도 하나의 사용자에게 화상 회의 서비스를 제공할 수 있다. 화상 회의 서비스는 서로 다른 지역에 있는 사람들이 상대방을 직접 만나지 않고도 화면을 통해 서로의 얼굴을 보면서 회의를 할 수 있는 서비스를 말한다.The video conferencing system may provide video conferencing services to at least one user located at a remote location. Video conferencing service is a service that allows people in different regions to have a meeting while looking at each other's faces on the screen without meeting each other directly.
화상 회의 시스템은 두 가지의 모습으로 구성될 수 있다. 첫 째, 화상 회의 시스템은 각 사용자의 클라이언트 디바이스(예를 들어, HMD)끼리 직접 N:N 통신을 이용해서 이루어질 수 있다. 이 경우, 여러 시그널링과 영상 전송이 각각 이루어지므로 전체 대역폭은 많이 차지하지만, 화상 회의 시스템은 각 사용자에게 최적의 영상을 제공할 수 있다.The video conferencing system can be configured in two forms. First, a video conferencing system can be achieved using direct N: N communication between client devices (eg, HMDs) of each user. In this case, since various signaling and video transmissions are performed, the entire bandwidth takes up a lot, but the video conferencing system can provide an optimal video for each user.
둘 째, 화상 회의 시스템은 화상 회의를 위한 서버 디바이스(또는 중계 시스템)를 더 포함할 수 있다. 이 경우, 서버 디바이스는 각 클라이언트 디바이스로부터 적어도 하나의 비디오 영상을 수신하고, 적어도 하나의 비디오 영상을 취합/선별하여 각 클라이언트 디바이스로 서비스할 수 있다.Second, the video conferencing system may further include a server device (or relay system) for video conferencing. In this case, the server device may receive at least one video image from each client device, and collect / select at least one video image to serve each client device.
본 명세서에 설명된 예시적인 기술은 위의 두 가지 화상 회의 시스템에 모두 적용될 수 있으며, 이하에서는 두 번째 실시예를 중심으로 설명한다.The example technique described herein can be applied to both of the above video conferencing systems, and will be described below with reference to the second embodiment.
화상 회의 시스템(100)은 원격의 위치에 있는 적어도 하나의 사용자(110)를 위한 적어도 하나의 클라이언트 디바이스(120), 및/또는 서버 디바이스(130)를 포함할 수 있다. Video conferencing system 100 may include at least one client device 120, and / or server device 130 for at least one user 110 in a remote location.
클라이언트 디바이스(120)는 해당 클라이언트 디바이스(120)를 사용하는 사용자(110)로부터 사용자 데이터를 획득할 수 있다. 사용자 데이터는 사용자의 영상 데이터, 음성 데이터, 및 부가 데이터를 포함할 수 있다.The client device 120 may obtain user data from the user 110 using the client device 120. The user data may include image data, audio data, and additional data of the user.
예를 들어, 클라이언트 디바이스(120)는 사용자(110)의 영상 데이터를 획득하는 2D/3D 카메라 및 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.For example, the client device 120 may include at least one of a 2D / 3D camera and an immersive camera that acquire image data of the user 110. The 2D / 3D camera may capture an image having a viewing angle of 180 degrees or less. Immersive cameras can capture images with a viewing angle of less than 360 degrees.
예를 들어, 클라이언트 디바이스(120)는 제1 장소(Place 1)에 위치한 제1 사용자(111)의 사용자 데이터를 획득하는 제1 클라이언트 디바이스(121), 제2 장소(Place 2)에 위치한 제2 사용자(113)의 사용자 데이터를 획득하는 제2 클라이언트 디바이스(123), 및 제3 장소(Place 3)에 위치한 제3 사용자(115)의 사용자 데이터를 획득하는 제3 클라이언트 디바이스(125) 중에서 적어도 하나를 포함할 수 있다.For example, the client device 120 may acquire the user data of the first user 111 located in the first place (Place 1), the first client device 121 and the second located in the second place (Place 2). At least one of a second client device 123 for acquiring user data of the user 113 and a third client device 125 for acquiring user data of the third user 115 located in the third place (Place 3) It may include.
그리고 나서, 각각의 클라이언트 디바이스(120)는 획득한 사용자 데이터를 네트워크를 통하여 서버 디바이스(130)로 전송할 수 있다. Then, each client device 120 may transmit the obtained user data to the server device 130 via the network.
서버 디바이스(130)는 클라이언트 디바이스(120)로부터 적어도 하나의 사용자 데이터를 수신할 수 있다. 서버 디바이스(130)는 수신한 사용자 데이터를 기초로 가상 공간에서의 화상 회의를 위한 전체 영상을 생성할 수 있다. 전체 영상은 가상 공간 내에서 360도 방향의 영상을 제공하는 immersive 영상을 나타낼 수 있다. 서버 디바이스(130)는 사용자 데이터에 포함된 영상 데이터를 가상 공간에 매핑하여 전체 영상을 생성할 수 있다..The server device 130 may receive at least one user data from the client device 120. The server device 130 may generate the entire image for the video conference in the virtual space based on the received user data. The entire image may represent an immersive image providing an image in a 360 degree direction in the virtual space. The server device 130 may generate the entire image by mapping the image data included in the user data to the virtual space.
그리고 나서, 서버 디바이스(130)는 전체 영상을 각 사용자에게 전송할 수 있다. Thereafter, the server device 130 may transmit the entire image to each user.
각각의 클라이언트 디바이스(120)는 전체 영상을 수신하고, 각 사용자가 바라보는 영역 만큼을 가상 공간에 렌더링 및/또는 디스플레이할 수 있다.Each client device 120 may receive the entire image and render and / or display as much as the area viewed by each user in the virtual space.
도 2는예시적인 화상 회의 서비스를 나타낸 도면이다.2 is a diagram illustrating an exemplary video conferencing service.
도면을 참고하면, 가상 공간 내에는 제1 사용자(210), 제2 사용자(220), 및 제3 사용자(230)가 존재할 수 있다. 제1 사용자(210), 제2 사용자(220), 및 제3 사용자(230)는 가상 공간 내에서 서로 상대방을 바라보면서 회의를 수행할 수 있다. 이하에서는, 제1 사용자(210)을 중심으로 설명한다.Referring to the drawing, the first user 210, the second user 220, and the third user 230 may exist in the virtual space. The first user 210, the second user 220, and the third user 230 may perform a conference while looking at each other in a virtual space. Hereinafter, the description will be given based on the first user 210.
화상 회의 시스템은 가상 공간 내에서 말을 하고 있는 화자 및/또는 제1 사용자(210)의 시선을 판단할 수 있다. 예를 들어, 제2 사용자(220)가 화자이고, 제1 사용자(210)는 제2 사용자를 바라볼 수 있다.The video conferencing system may determine the line of sight of the speaker and / or the first user 210 speaking in the virtual space. For example, the second user 220 may be a speaker, and the first user 210 may look at the second user.
이 경우, 화상 회의 시스템은 제1 사용자(210)가 바라보는 제2 사용자(220)에 대한 영상은 고 품질의 비디오 영상으로 제1 사용자(210)에게 전송할 수 있다. 또한, 화상 회의 시스템은 제1 사용자(220)의 시선 방향에서 보이지 않거나 일부만 보이는 제3 사용자(230)에 대한 영상은 저 품질의 비디오 영상으로 제1 사용자(210)에게 전송할 수 있다.In this case, the video conferencing system may transmit an image of the second user 220 viewed by the first user 210 to the first user 210 as a high quality video image. In addition, the video conferencing system may transmit an image of the third user 230 which is invisible or partially visible in the direction of the first user 220 to the first user 210 as a low quality video image.
그 결과, 전체 영상을 모두 고품질의 비디오 영상으로 전송하는 종래의 방식에 비하여, 화상 회의 시스템은 사용자의 시선을 기초로 영상 처리 방법에 차이를 두어, 영상 전송을 위한 대역폭(BW)을 절약하고, 영상 처리 성능을 개선할 수 있다.As a result, the video conferencing system makes a difference in the image processing method based on the user's eyes, and saves the bandwidth (BW) for video transmission, compared to the conventional method of transmitting all the images as high quality video images. Image processing performance can be improved.
도 3은 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.3 is a diagram illustrating an example scalable video coding service.
스케일러블 비디오 코딩 서비스는 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라 시간적, 공간적, 그리고 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 스케일러블 비디오 코딩 서비스는 일반적으로 해상도(Spatial resolution), 품질(Quality), 및 시간(Temporal) 측면에서의 계층성(Scalability)을 제공한다.The scalable video coding service is a video compression method for providing various services in a scalable manner in terms of time, space, and picture quality in accordance with various user environments such as network conditions or terminal resolutions in various multimedia environments. Scalable video coding services generally provide scalability in terms of spatial resolution, quality, and temporal.
공간적 계층성(Spatial scalability)은 동일한 영상에 대해 각 계층별로 다른 해상도를 가지고 부호화함으로써 서비스할 수 있다. 공간적 계층성을 이용하여 디지털 TV, 노트북, 스마트 폰 등 다양한 해상도를 갖는 디바이스에 대해 적응적으로 영상 콘텐츠를 제공하는 것이 가능하다.Spatial scalability can be serviced by encoding different resolutions for the same image for each layer. It is possible to provide image content adaptively to devices having various resolutions such as digital TVs, laptops, and smart phones by using spatial hierarchies.
도면을 참고하면, 스케일러블 비디오 코딩 서비스는 VSP(비디오 서비스 프로바이더; Video Service Provider)로부터 가정 내의 홈 게이트웨이 (Home Gateway)를 통해 동시에 하나 이상의 서로 다른 특성을 가진 TV를 지원할 수 있다. 예를 들어, 스케일러블 비디오 코딩 서비스는 서로 다른 해상도(Resolution)를 가지는 HDTV (High-Definition TV), SDTV (Standard-Definition TV), 및 LDTV (Low-Definition TV)를 동시에 지원할 수 있다.Referring to the drawings, the scalable video coding service may simultaneously support a TV having one or more different characteristics from a VSP (Video Service Provider) through a home gateway in a home. For example, the scalable video coding service may simultaneously support high-definition TV (HDTV), standard-definition TV (SDTV), and low-definition TV (LDTV) having different resolutions.
시간적 계층성(Temporal scalability)은 콘텐츠가 전송되는 네트워크 환경 또는 단말기의 성능을 고려하여 영상의 프레임 레이트(Frame rate)를 적응적으로 조절할 수 있다. 예를 들어, 근거리 통신망을 이용하는 경우에는 60FPS(Frame Per Second)의 높은 프레임 레이트로 서비스를 제공하고, 3G 모바일 네트워크와 같은 무선 광대역 통신망을 사용하는 경우에는 16FPS의 낮은 프레임 레이트로 콘텐츠를 제공함으로써, 사용자가 영상을 끊김 없이 받아볼 수 있도록 서비스를 제공할 수 있다.Temporal scalability may adaptively adjust a frame rate of an image in consideration of a network environment or content of a terminal through which content is transmitted. For example, by providing a service at a high frame rate of 60 frames per second (FPS) when using a local area network, and providing a content at a low frame rate of 16 frames by using a wireless broadband network such as a 3G mobile network, The service can be provided so that the user can receive the video without interruption.
품질 계층성(Quality scalability) 또한 네트워크 환경이나 단말기의 성능에 따라 다양한 화질의 콘텐츠를 서비스함으로써, 사용자가 영상 콘텐츠를 안정적으로 재생할 수 있도록 한다.Quality scalability In addition, by providing content of various image quality according to the network environment or the performance of the terminal, the user can reliably play the video content.
스케일러블 비디오 코딩 서비스는 각각 기본 계층 (Base layer)과 하나 이상의 향상 계층 (Enhancement layer(s))을 포함할 수 있다. 수신기는 기본 계층만 받았을 때는 일반 화질의 영상을 제공하고, 기본 계층 및 향상 계층을 함께 받으면 고화질을 제공할 수 있다. 즉, 기본 계층과 하나 이상의 향상 계층이 있을 때, 기본 계층을 받은 상태에서 향상 계층 (예: Enhancement layer 1, enhancement layer 2, …, enhancement layer n)을 더 받으면 받을수록 화질이나 제공하는 영상의 품질이 좋아진다.The scalable video coding service may include a base layer and one or more enhancement layer (s), respectively. When the receiver receives only the base layer, the receiver may provide a general image quality, and when the receiver receives both the base layer and the enhancement layer, it may provide high quality. That is, when there is a base layer and one or more enhancement layers, the more enhancement layers (for example, enhancement layer 1, enhancement layer 2,…, enhancement layer n) are received when the base layer is received, the quality of the image or the quality of the provided image is increased. This gets better.
이와 같이, 스케일러블 비디오 코딩 서비스의 영상은 복수개의 계층으로 구성되어 있으므로, 수신기는 적은 용량의 기본 계층 데이터를 빨리 전송 받아 일반적 화질의 영상을 빨리 처리하여 재생하고, 필요 시 향상 계층 영상 데이터까지 추가로 받아서 서비스의 품질을 높일 수 있다.In this way, since the video of the scalable video coding service is composed of a plurality of layers, the receiver receives a small amount of base layer data quickly, processes and plays back the image of general quality, and adds the enhancement layer image data if necessary. Can improve the quality of service.
도 4는서버 디바이스의 예시적인 구성을 나타낸 도면이다.4 is a diagram illustrating an exemplary configuration of a server device.
서버 디바이스(400)는 제어부(410) 및/또는 통신부(420)을 포함할 수 있다.The server device 400 may include a control unit 410 and / or a communication unit 420.
제어부(410)은 가상 공간 내에서 화상 회의를 위한 전체 영상을 생성하고, 생성된 전체 영상을 인코딩할 수 있다. 또한, 제어부(410)는 서버 디바이스(400)의 모든 동작을 제어할 수 있다. 구체적인 내용은 이하에서 설명한다.The controller 410 may generate an entire image for a video conference in the virtual space and encode the generated entire image. In addition, the controller 410 may control all operations of the server device 400. Details are described below.
통신부(420)는 외부 장치 및/또는 클라이언트 디바이스로 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 통신부(420)는 적어도 하나의 클라이언트 디바이스로부터 사용자 데이터 및/또는 시그널링 데이터를 수신할 수 있다. 또한, 통신부(420)은 가상 공간에서 화상 회의를 위한 전체 영상을 클라이언트 디바이스로 전송할 수 있다.The communication unit 420 may transmit and / or receive data to an external device and / or a client device. For example, the communicator 420 may receive user data and / or signaling data from at least one client device. In addition, the communication unit 420 may transmit the entire image for the video conference to the client device in the virtual space.
제어부(410)는 시그널링 데이터 추출부(411), 영상 생성부(413), 관심 영역 판단부(415), 시그널링 데이터 생성부(417), 및/또는 인코더(419) 중에서 적어도 하나를 포함할 수 있다.The controller 410 may include at least one of a signaling data extractor 411, an image generator 413, an ROI determiner 415, a signaling data generator 417, and / or an encoder 419. have.
시그널링 데이터 추출부(411)는 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.The signaling data extractor 411 may extract signaling data from data received from the client device. For example, the signaling data may include image configuration information. The image configuration information may include gaze information indicating a user's gaze direction and a zoom region information indicating a user's viewing angle in the virtual space.
영상 생성부(413)는 적어도 하나의 클라이언트 디바이스로부터 수신한 영상을 기초로 가상 공간에서 화상 회의를 위한 전체 영상을 생성할 수 있다.The image generator 413 may generate the entire image for the video conference in the virtual space based on the image received from the at least one client device.
관심 영역 판단부(417)는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역 판단부(417)는 시선 정보 및/또는 줌 영역 정보를 기초로 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역은 사용자가 보게 될 가상의 공간에서 중요 오브젝트가 위치할 타일의 위치(예를 들어, 게임 등에서 새로운 적이 등장하는 위치, 가상 공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳일 수 있다. 또한, 관심 영역 판단부(417)는 화상 회의 서비스를 위한 가상 공간의 The ROI determiner 417 may determine an ROI corresponding to the user's gaze direction in the entire area of the virtual space for the video conference service. For example, the ROI determiner 417 may determine the ROI based on the gaze information and / or the zoom region information. For example, the region of interest may be the location of a tile in the virtual space that the user will see (eg, where a new enemy appears in a game, a speaker's location in the virtual space), and / or the user's location. It may be where your eyes look. Also, the region of interest determination unit 417 may determine a virtual space for a video conference service.
전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 생성할 수 있다.The ROI may be generated to indicate the ROI corresponding to the direction of the user's gaze in the entire region.
시그널링 데이터 생성부(413)는 전체 영상을 처리하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.The signaling data generator 413 may generate signaling data for processing the entire image. For example, the signaling data may transmit the ROI information. The signaling data may be transmitted through at least one of a Supplement Enhancement Information (SEI), a video usability information (VUI), a Slice Header, and a file describing video data.
인코더(419)는 시그널링 데이터를 기초로 전체 영상을 인코딩할 수 있다. 예를 들어, 인코더(419)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 인코딩할 수 있다. 예를 들어, 가상 공간 내에서 제1 사용자가 제2 사용자를 바라보는 경우, 인코더는 가상 공간 내의 제1 사용자 시선을 기초로 제2 사용자에 해당하는 영상은 고화질로 인코딩하고, 제3 사용자에 해당하는 영상은 저화질로 인코딩할 수 있다. 실시예에 따라서, 인코더(419)는 시그널링 데이터 추출부(411), 영상 생성부(413), 관심 영역 판단부(415), 및/또는 시그널링 데이터 생성부(417) 중에서 적어도 하나를 포함할 수 있다.The encoder 419 may encode the entire video based on the signaling data. For example, the encoder 419 may encode the entire image in a customized manner for each user based on each user's gaze direction. For example, when the first user looks at the second user in the virtual space, the encoder encodes an image corresponding to the second user in high quality based on the first user's gaze in the virtual space, and corresponds to the third user. The video can be encoded with low quality. According to an embodiment, the encoder 419 may include at least one of the signaling data extractor 411, the image generator 413, the ROI determiner 415, and / or the signaling data generator 417. have.
도 5는 인코더의 예시적인 구조를 나타낸 도면이다.5 is a diagram illustrating an exemplary structure of an encoder.
인코더(500, 영상 부호화 장치)는 기본 계층 인코더(510), 적어도 하나의 향상 계층 인코더(520), 및 다중화기(530) 중에서 적어도 하나를 포함할 수 있다.The encoder 500 (the image encoding apparatus) may include at least one of a base layer encoder 510, at least one enhancement layer encoder 520, and a multiplexer 530.
인코더(500)는 스케일러블 비디오 코딩 방법을 사용하여 전체 영상을 인코딩할 수 있다. 스케일러블 비디오 코딩 방법은 SVC(Scalable Video Coding) 및/또는 SHVC(Scalable High Efficiency Video Coding)를 포함할 수 있다.The encoder 500 may encode the entire image using a scalable video coding method. The scalable video coding method may include scalable video coding (SVC) and / or scalable high efficiency video coding (SHVC).
스케일러블 비디오 코딩 방법은 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라서 시간적, 공간적, 및 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 예를 들어, 인코더(500)는 동일한 비디오 영상에 대하여 두 가지 이상의 다른 품질(또는 해상도, 프레임 레이트)의 영상들을 인코딩하여 비트스트림을 생성할 수 있다.The scalable video coding method is a video compression method for providing various services in a scalable manner in terms of time, space, and picture quality according to various user environments such as network conditions or terminal resolution in various multimedia environments. For example, the encoder 500 may generate a bitstream by encoding two or more different quality (or resolution, frame rate) images for the same video image.
예를 들어, 인코더(500)는 비디오 영상의 압축 성능을 높이기 위해서 계층 간 중복성을 이용한 인코딩 방법인 계층간 예측 툴(Inter-layer prediction tools)을 사용할 수 있다. 계층 간 예측 툴은 계층 간에 존재하는 영상의 중복성을 제거하여 향상 계층(Enhancement Layer)에서의 압출 효율을 높이는 기술이다.For example, the encoder 500 may use inter-layer prediction tools, which are encoding methods using inter-layer redundancy, to increase compression performance of a video image. The inter-layer prediction tool improves the extrusion efficiency in the enhancement layer by removing redundancy of images existing between layers.
향상 계층은 계층 간 예측 툴을 이용하여 참조 계층(Reference Layer)의 정보를 참조하여 인코딩될 수 있다. 참조 계층이란 향상 계층 인코딩 시 참조되는 하위 계층을 말한다. 여기서, 계층 간 툴을 사용함으로써 계층 사이에 의존성(Dependency)이 존재하기 때문에, 최상위 계층의 영상을 디코딩하기 위해서는 참조되는 모든 하위 계층의 비트스트림이 필요하다. 중간 계층에서는 디코딩 대상이 되는 계층과 그 하위 계층들의 비트스트림 만을 획득하여 디코딩을 수행할 수 있다. 최하위 계층의 비트스트림은 기본 계층(Base Layer)으로써, H.264/AVC, HEVC 등의 인코더로 인코딩될 수 있다.The enhancement layer may be encoded by referring to information of a reference layer using an inter-layer prediction tool. The reference layer refers to a lower layer referenced when encoding the enhancement layer. Here, since there is a dependency between the layers by using the inter-layer tool, in order to decode the image of the uppermost layer, the bitstreams of all the lower layers referred to are required. In the middle layer, only the bitstream of the layer to be decoded and the lower layers thereof may be obtained and decoded. The bitstream of the lowest layer is a base layer and may be encoded by an encoder such as H.264 / AVC, HEVC, or the like.
기본 계층 인코더(510)는 전체 영상을 인코딩하여 기본 계층을 위한 기본 계층 비디오 데이터(또는 기본 계층 비트스트림)를 생성할 수 있다. 예를 들어, 기본 계층 비디오 데이터는 사용자가 가상 공간 내에서 바라보는 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 기본 계층의 영상은 가장 낮은 화질의 영상일 수 있다.The base layer encoder 510 may generate base layer video data (or base layer bitstream) for the base layer by encoding the entire image. For example, the base layer video data may include video data for the entire area that the user views within the virtual space. The image of the base layer may be the image of the lowest quality.
향상 계층 인코더(520)는, 시그널링 데이터(예를 들어, 관심 영역 정보) 및 기본 계층 비디오 데이터를 기초로, 전체 영상을 인코딩하여 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터(또는 향상 계층 비트스트림)를 생성할 수 있다. 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.The enhancement layer encoder 520 may include at least one enhancement layer for at least one enhancement layer that is predicted from the base layer by encoding the entire picture based on the signaling data (eg, region of interest information) and the base layer video data. Video data (or enhancement layer bitstream) may be generated. The enhancement layer video data may include video data for the region of interest in the entire region.
다중화기(530)는 기본 계층 비디오 데이터, 적어도 하나의 향상 계층 비디오 데이터, 및/또는 시그널링 데이터를 멀티플렉싱하고, 전체 영상에 해당하는 하나의 비트스트림을 생성할 수 있다.The multiplexer 530 may multiplex base layer video data, at least one enhancement layer video data, and / or signaling data, and generate one bitstream corresponding to the entire image.
도 6은 스케일러블 비디오 코딩을 이용한 예시적인 화상 회의 서비스를 나타낸 도면이다.6 illustrates an example video conferencing service using scalable video coding.
클라이언트 디바이스는 전체 영상을 하나의 압축된 영상 비트스트림(Bitstream)으로 받아서, 이를 디코딩(decoding)하고, 사용자가 바라보는 영역 만큼을 가상의 공간에 렌더(render)한다. 종래의 기술은 전체 영상(예를 들어, 360도immersive 영상)을 모두 고해상도(또는 높은 품질)의 영상으로 전송 및/또는 수신하므로, 고해상도의 영상이 모인 비트스트림의 총 대역폭은 매우 클 수 밖에 없다.The client device receives the entire video as one compressed video bitstream, decodes it, and renders the image as much as the user views in the virtual space. The prior art transmits and / or receives the entire image (eg, 360 degree immersive image) as a high resolution (or high quality) image, so the total bandwidth of the bitstream where the high resolution image is collected is very large. .
서버 디바이스는 스케일러블 비디오 코딩 방법을 사용할 수 있다. 이하에서는, 예시적인 기술을 구체적으로 설명한다.The server device may use a scalable video coding method. In the following, exemplary techniques are described in detail.
가상 공간(610)에는 제1 사용자(611), 제2 사용자(613), 및 제3 사용자(615)가 존재할 수 있다. 제1 사용자(611), 제2 사용자(613), 및 제3 사용자(615)는 가상 공간 영역(610) 내에서 회의를 할 수 있다.The virtual user 611 may include a first user 611, a second user 613, and a third user 615. The first user 611, the second user 613, and the third user 615 may have a meeting in the virtual space area 610.
클라이언트 디바이스(미도시)는 가상 공간 내에서 화자 및 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 클라이언트 디바이스는 영상 구성 정보를 처음으로 생성한 경우 또는 사용자의 시선이 화자를 향하지 않는 경우에 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다. The client device (not shown) may determine the line of sight of the speaker and the user in the virtual space and generate image configuration information. The client device may transmit the image configuration information to the server device and / or another client device when the image composition information is generated for the first time or when the gaze of the user does not face the speaker.
서버 디바이스(미도시)는 적어도 하나의 클라이언트 디바이스로부터 비디오 영상 및 시그널링 데이터를 수신하고, 가상 공간(610)에 대한 전체 영상을 생성할 수 있다.The server device (not shown) may receive a video image and signaling data from at least one client device, and generate an entire image of the virtual space 610.
그리고 나서, 서버 디바이스는 시그널링 데이터를 기초로 적어도 하나의 비디오 영상을 인코딩할 수 있다. 서버 디바이스는 영상 구성 정보(예를 들어, 시선 정보 및 중 영역 정보)를 기초로 상기 시선 방향에 해당하는 비디오 영상(또는 관심 영역)과 상기 시선 방향에 해당하지 않는 비디오 영상의 품질을 다르게 인코딩할 수 있다. 예를 들어, 서버 디바이스는 사용자의 시선 방향에 해당하는 비디오 영상은 고품질로 인코딩하고, 사용자의 시선 방향에 해당하지 않는 비디오 영상은 저품질로 인코딩할 수 있다.The server device may then encode the at least one video image based on the signaling data. The server device may differently encode the quality of the video image corresponding to the gaze direction (or the region of interest) and the video image not corresponding to the gaze direction based on the image configuration information (for example, gaze information and middle region information). Can be. For example, the server device may encode a video image corresponding to the user's gaze direction with high quality, and encode a video image corresponding to the user's gaze direction with low quality.
도면을 참고하면, 제1 비디오 영상(630)은 제1 사용자(611)의 시선 방향에 해당하는 관심 영역의 비디오 영상이다. 제1 비디오 영상(630)은 고품질로 제1 사용자(611)에게 제공될 필요가 있다. 따라서, 서버 디바이스는 제1 비디오 영상(630)을 인코딩하여, 기본 계층 비디오 데이터(633)을 생성하고, 계층간 예측을 이용하여 적어도 하나의 향상 계층 비디오 데이터(635)를 생성할 수 있다.Referring to the drawing, the first video image 630 is a video image of the ROI corresponding to the eyeline direction of the first user 611. The first video image 630 needs to be provided to the first user 611 in high quality. Thus, the server device may encode the first video image 630 to generate base layer video data 633, and generate at least one enhancement layer video data 635 using inter-layer prediction.
제2 비디오 영상(650)은 제1 사용자(611)의 시선 방향에 해당하지 않는 비-관심영역의 비디오 영상이다. 제2 비디오 영상(650)은 저품질로 제1 사용자(611)에게 제공될 필요가 있다. 따라서, 서버 디바이스는 제2 비디오 영상(650)을 인코딩하여, 기본 계층 비디오 데이터(653)만을 생성할 수 있다.The second video image 650 is a video image of a non-interested region that does not correspond to the eye direction of the first user 611. The second video image 650 needs to be provided to the first user 611 in low quality. Thus, the server device may encode the second video image 650 to generate only base layer video data 653.
그리고 나서, 서버 디바이스는 인코딩된 적어도 하나의 비트스트림을 제1 사용자(611)가 사용하는 클라이언트 디바이스로 전송할 수 있다.The server device can then send the encoded at least one bitstream to the client device used by the first user 611.
결론적으로, 제1 사용자(611)가 제2 사용자(613) 만을 바라보거나 제3 사용자(615)가 제1 사용자(611)의 시야각 내에서 아주 작은 영역만 차지하고 있을 경우, 서버 디바이스는 제2 사용자(613)의 영상은 스케일러블 비디오 코딩에서 기본 계층 비디오 데이터 및 적어도 하나의 향상 계층 비디오 데이터로 전송할 수 있다. 또한, 서버 디바이스는 제3 사용자(615)의 영상은 기본 계층 비디오 데이터만을 전송할 수 있다.In conclusion, if the first user 611 looks only at the second user 613 or if the third user 615 occupies only a very small area within the viewing angle of the first user 611, the server device is the second user. The image of 613 may be transmitted as base layer video data and at least one enhancement layer video data in scalable video coding. In addition, the server device may transmit only the base layer video data for the image of the third user 615.
도 7은예시적인 영상 전송 방법을 나타낸 도면이다.7 is a diagram illustrating an exemplary image transmission method.
서버 디바이스는, 통신부를 이용하여, 적어도 하나의 클라이언트 디바이스로부터 비디오 영상 및 시그널링 데이터를 수신할 수 있다. 또한, 서버 디바이스는, 시그널링 데이터 추출부를 이용하여, 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 시점 정보 및 줌 영역 정보를 포함할 수 있다.The server device may receive a video image and signaling data from at least one client device using a communication unit. In addition, the server device may extract the signaling data using the signaling data extractor. For example, the signaling data may include view information and zoom area information.
시선 정보는 제1 사용자가 제2 사용자를 바라보는지 제3 사용자를 바라보는지 여부를 지시할 수 있다. 가상 공간 내에서 제1 사용자가 제2 사용자의 방향을 바라보면, 시선 정보는 제1 사용자에서 제2 사용자로 향하는 방향을 지시할 수 있다.The gaze information may indicate whether the first user looks at the second user or the third user. When the first user views the direction of the second user in the virtual space, the gaze information may indicate a direction from the first user to the second user.
줌 영역 정보는 사용자의 시선 방향에 해당하는 비디오 영상의 확대 범위 및/또는 축소 범위를 지시할 수 있다. 또한, 줌 영역 정보는 사용자의 시야각을 지시할 수 있다. 줌 영역 정보의 값을 기초로 비디오 영상이 확대되면, 제1 사용자는 제2 사용자만을 볼 수 있다. 줌 영역 정보의 값을 기초로 비디오 영상이 축소되면, 제1 사용자는 제2 사용자뿐만 아니라 제3 사용자의 일부 및/또는 전체를 볼 수 있다.The zoom area information may indicate an enlargement range and / or a reduction range of the video image corresponding to the user's gaze direction. In addition, the zoom area information may indicate a viewing angle of the user. When the video image is enlarged based on the value of the zoom area information, the first user can see only the second user. When the video image is reduced based on the value of the zoom area information, the first user may view part and / or all of the third user as well as the second user.
그리고 나서, 서버 디바이스는, 영상 생성부를 이용하여, 가상 공간에서 화상 회의를 위한 전체 영상을 생성할 수 있다. The server device may then generate the entire video for the video conference in the virtual space using the video generating unit.
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 시그널링 데이터를 기초로 가상 공간 내에서 각 사용자가 바라보는 시점 및 줌(zoom) 영역에 대한 영상 구성 정보를 파악할 수 있다(710).In operation 710, the server device may grasp image configuration information about a viewpoint and a zoom region viewed by each user in the virtual space based on the signaling data using the ROI determiner.
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 영상 구성 정보를 기초로 사용자의 관심 영역을 결정할 수 있다(720).In operation 720, the server device may determine the ROI of the user based on the image configuration information using the ROI determiner.
제1 사용자가 제2 사용자를 바라볼 경우, 제1 사용자가 바라보는 시선 방향에 해당하는 비디오 영상은 제2 사용자가 많은 영역을 차지하고, 제3 사용자는 적은 영역을 차지하거나 비디오 영상에 포함되지 않을 수도 있다. 이 경우, 관심 영역은 제2 사용자를 포함하는 영역이 될 수 있다. 관심 영역은 상기 시선 정보 및 줌 영역 정보에 따라서 변경될 수 있다.When the first user views the second user, the video image corresponding to the gaze direction viewed by the first user occupies a large area of the second user, and the third user occupies a small area or may not be included in the video image. It may be. In this case, the ROI may be an area including the second user. The ROI may be changed according to the gaze information and the zoom area information.
시그널링 데이터(예를 들어, 시점 정보 및 줌 영역 정보 중에서 적어도 하나)가 변경될 경우, 서버 디바이스는 새로운 시그널링 데이터를 수신할 수 있다. 이 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 새로운 관심 영역을 결정할 수 있다..When the signaling data (eg, at least one of the viewpoint information and the zoom region information) is changed, the server device may receive new signaling data. In this case, the server device may determine a new region of interest based on the new signaling data.
그리고 나서, 서버 디바이스는, 제어부를 이용하여, 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.Then, the server device may determine whether the data currently processed based on the signaling data is data corresponding to the ROI, using the control unit.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.When the signaling data is changed, the server device may determine whether the data currently being processed is data corresponding to the ROI based on the new signaling data.
관심 영역에 해당하는 데이터일 경우, 서버 디바이스는, 인코더를 이용하여, 사용자의 시점에 해당하는 비디오 영상(예를 들어, 관심 영역)은 고품질로 인코딩할 수 있다(740). 예를 들어, 서버 디바이스는 해당 비디오 영상에 대하여 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 생성하고, 이들을 전송할 수 있다.In the case of data corresponding to the region of interest, the server device may encode a video image (eg, the region of interest) corresponding to the viewpoint of the user with high quality by using an encoder (740). For example, the server device may generate base layer video data and enhancement layer video data for the corresponding video image and transmit them.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시점에 해당하는 비디오 영상(새로운 관심 영역)은 고품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 저품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 고품질의 영상을 전송하는 경우, 서버 디바이스는 향상 계층 비디오 데이터를 추가로 생성 및/또는 전송할 수 있다.When the signaling data is changed, the server device may transmit a video image (new region of interest) corresponding to a new view as a high quality image. If the server device is transmitting a low quality image, but the signaling data is changed and the server device transmits the high quality image, the server device may further generate and / or transmit enhancement layer video data.
관심 영역에 해당하지 않는 데이터일 경우, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 영상(예를 들어, 비-관심 영역)은 저품질로 인코딩할 수 있다(750). 예를 들어, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 영상에 대하여 기본 계층 비디오 데이터만 생성하고, 이들을 전송할 수 있다.If the data does not correspond to the ROI, the server device may encode a video image (eg, the non-ROI) that does not correspond to the user's viewpoint with low quality (750). For example, the server device may generate only base layer video data for a video image that does not correspond to a user's viewpoint, and transmit the base layer video data.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 사용자의 시점에 해당하지 않는 비디오 영상(새로운 비-관심 영역)은 저품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 고품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 저품질의 영상을 전송하는 경우, 서버 디바이스는 더 이상 적어도 하나의 향상 계층 비디오 데이터를 생성 및/또는 전송하지 않고, 기본 계층 비디오 데이터만을 생성 및/또는 전송할 수 있다.When the signaling data is changed, the server device may transmit a video image (new non-interest region) that does not correspond to the viewpoint of the new user as a low quality image. If the server device was previously transmitting high quality video but the signaling data changed and the server device transmitted the low quality video, the server device no longer generates and / or transmits at least one enhancement layer video data. Only hierarchical video data may be generated and / or transmitted.
즉, 기본 계층 비디오 데이터를 수신했을 때의 비디오 영상의 화질은 향상 계층 비디오 데이터까지 받았을 때의 비디오 영상의 화질보다는 낮으므로, 클라이언트 디바이스는 사용자가 고개를 돌린 정보를 센서 등으로부터 얻는 순간에, 사용자의 시선 방향에 해당하는 비디오 영상(예를 들어, 관심 영역)에 대한 향상 계층 비디오 데이터를 수신할 수 있다. 그리고, 클라이언트 디바이스는 짧은 시간 내에 고화질의 비디오 영상을 사용자에게 제공할 수 있다.That is, the quality of the video image when the base layer video data is received is lower than that of the video image when the enhancement layer video data is received. Enhancement layer video data may be received for a video image (eg, a region of interest) corresponding to a gaze direction of. The client device may provide a user with a high quality video image within a short time.
본 명세서의 예시적인 방법은 사전에 일부 추가 영역의 데이터만 전송 받는 단순 pre-caching 방법이나, 사용자의 시선 방향에 해당하는 영역의 데이터만을 전송 받는 방법에 비해 큰 장점을 가진다.The exemplary method of the present specification has a great advantage over the simple pre-caching method of receiving only data of some additional area in advance, or a method of receiving only data of an area corresponding to a user's gaze direction.
본 명세서의 예시적인 방법은 모든 데이터를 고화질로 보내는 종래의 방식에 비하여 전체 대역폭을 낮출 수 있다.Exemplary methods herein can lower the overall bandwidth as compared to conventional methods of sending all data in high quality.
또한, 본 명세서의 예시적인 방법은 사용자 시선 움직임에 실시간으로 반응하여 비디오 프로세싱 속도를 높일 수 있다.In addition, the exemplary method herein may speed up video processing in response to user eye movement in real time.
기존의 방법은 제1 사용자가 제2 사용자를 바라보다가 제3 사용자로 고개를 돌렸을 때, 클라이언트 디바이스(예를 들어, HMD의 센서 등)로 이 움직임을 파악하여 제3 사용자를 표현하기 위한 비디오 정보를 처리하고 화면에 재생한다. 기존의 방법은 매우 빨리 새로운 영역의 영상을 처리하는 것이 어렵기 때문에, 기존의 방법은 모든 데이터를 미리 받아두는 비효율적 방법을 사용했다.The conventional method is a video for expressing a third user by grasping this movement with a client device (for example, a sensor of an HMD) when the first user looks at the second user and turns to the third user. Process the information and play it on the screen. Since the conventional method is difficult to process the image of a new area very quickly, the conventional method uses an inefficient method of receiving all data in advance.
하지만, 본 명세서의 예시적인 기술은 위의 스케일러블 비디오를 통한 적응적 비디오 전송을 하기 때문에, 제1 사용자가 제3 사용자로 고개를 돌렸을 때, 이미 가지고 있는 베이스 레이어 데이터를 이용하여 빠르게 사용자에게 응답할 수 있다. 본 명세서의 예시적인 기술은 전체 고화질 데이터를 처리할 때보다 더 빨리 비디오 영상을 재생할 수 있다. 따라서, 본 명세서의 예시적인 기술은 시선 움직임에 빠르게 반응하여 비디오 영상을 처리할 수 있다. However, since the exemplary technique of the present specification performs adaptive video transmission through the above scalable video, when the first user turns his head to the third user, the user quickly responds to the user by using the existing base layer data. can do. Exemplary techniques herein can reproduce video images faster than when processing full high definition data. Thus, the example techniques herein can process video images in rapid response to eye movement.
도 8은 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.8 is a diagram illustrating an example method of signaling a region of interest.
도 (a)를 참조하면, 스케일러블 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.Referring to FIG. (A), it illustrates a method of signaling a region of interest in scalable video.
서버 디바이스(또는 인코더)는 하나의 비디오 영상(또는 픽처)을 직사각형 모양을 갖는 여러 타일(Tile)들로 분할할 수 있다. 예를 들어, 비디오 영상은 Coding Tree Unit(CTU) 단위를 경계로 분할될 수 있다. 예를 들어, 하나의 CTU는 Y CTB, Cb CTB, 및 Cr CTB를 포함할 수 있다.The server device (or encoder) may divide one video image (or picture) into several tiles having a rectangular shape. For example, the video image may be partitioned on the basis of a Coding Tree Unit (CTU) unit. For example, one CTU may include Y CTB, Cb CTB, and Cr CTB.
서버 디바이스는 빠른 사용자 응답을 위해서 기본 계층의 비디오 영상은 타일(Tile)로 분할하지 않고 전체적으로 인코딩할 수 있다. 그리고, 서버 디바이스는 하나 이상의 향상 계층들의 비디오 영상은 필요에 따라서 일부 또는 전체를 여러 타일(Tile)들로 분할하여 인코딩할 수 있다.The server device may encode video layers of the base layer as a whole without segmenting them into tiles for fast user response. In addition, the server device may encode a video image of one or more enhancement layers by dividing a part or the whole into several tiles as necessary.
즉, 서버 디바이스는 향상 계층의 비디오 영상은 적어도 하나의 타일로 분할하고, 관심 영역(810, ROI, Region of Interest)에 해당하는 타일들을 인코딩할 수 있다.That is, the server device may divide the video image of the enhancement layer into at least one tile and encode tiles corresponding to a region of interest (ROI).
이 때, 관심 영역(810)은 가상 공간에서 사용자가 보게 될 중요 오브젝트(Object)가 위치할 타일들의 위치 (e.g. 게임 등에서 새로운 적이 등장하는 위치, 화상 통신에서 가상공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳에 해당할 수 있다.At this time, the region of interest 810 is the position of the tiles where the important object to be seen by the user in the virtual space (eg, a position where a new enemy appears in a game, a speaker's position in the virtual space), and And / or where the user's gaze looks.
또한, 서버 디바이스는 관심 영역에 포함 되는 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더에 의해서 생성될 수 있다. In addition, the server device may generate the ROI information including tile information for identifying at least one tile included in the ROI. For example, the ROI information may be generated by the ROI determiner, the signaling data generator, and / or an encoder.
관심 영역(810)의 타일 정보는 연속적이므로 모든 타일의 번호를 다 갖지 않더라도 효과적으로 압축될 수 있다. 예를 들어, 타일 정보는 관심 영역에 해당하는 모든 타일의 번호들뿐만 아니라 타일의 시작과 끝 번호, 좌표점 정보, CU (Coding Unit) 번호 리스트, 수식으로 표현된 타일 번호를 포함할 수 있다.Since the tile information of the region of interest 810 is continuous, the tile information of the region of interest 810 may be effectively compressed even if all the tiles are not numbered. For example, the tile information may include not only the numbers of all tiles corresponding to the ROI, but also the start and end numbers of the tiles, coordinate point information, a list of coding unit (CU) numbers, and a tile number expressed by a formula.
비-관심 영역의 타일 정보는 인코더가 제공하는 Entropy coding 을 거친 후 다른 클라이언트 디바이스, 영상 프로세싱 컴퓨팅 장비, 및/또는 서버로 전송될 수 있다.The tile information of the non-interested region may be sent to other client devices, image processing computing equipment, and / or servers after undergoing Entropy coding provided by the encoder.
관심 영역 정보는 Session 정보를 실어나르는 high-level syntax 프로토콜을 통해 전해질 수 있다. 또한, 관심 영역 정보는 비디오 표준의 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header) 등의 패킷 단위에서 전해질 수 있다. 또한, 관심 영역 정보는 비디오 파일을 서술하는 별도의 파일로(e.g. DASH의 MPD) 전달될 수 있다.The ROI information can be transmitted through a high-level syntax protocol that carries Session information. In addition, the ROI information may be transmitted in packet units such as Supplementary Enhancement Information (SEI), video usability information (VUI), and Slice Header (Slice Header) of the video standard. In addition, the ROI information may be delivered as a separate file describing the video file (e.g. DASH MPD).
화상 회의 시스템은 관심 영역 정보의 시그널링을 통해 향상계층의 필요한 타일만 클라이언트 디바이스 간에 및/또는 클라이언트 디바이스와 서버 디바이스 간에 전송 및/또는 수신함으로써, 전체적인 대역폭을 낮추고, 비디오 프로세싱 시간을 줄일 수 있다. 이는 빠른 HMD 사용자 응답시간을 보장하는데 중요하다.The video conferencing system can lower overall bandwidth and reduce video processing time by transmitting and / or receiving only necessary tiles of the enhancement layer between client devices and / or between client and server devices through signaling of region of interest information. This is important to ensure fast HMD user response time.
도 (b)를 참조하면, 단일 화면 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.Referring to FIG. (B), it shows a method of signaling a region of interest in a single screen video.
본 명세서의 예시적인 기술은 스케일러블 비디오가 아닌 단일 화면 영상에서는 일반적으로 관심 영역(ROI)이 아닌 영역을 Downscaling (Downsampling)하는 방식으로 화질을 떨어뜨리는 기법을 사용할 수 있다. 종래 기술은 서비스를 이용하는 단말 간에 downscaling 을 위해 쓴 필터(filter) 정보(820)를 공유하지 않고, 처음부터 한가지 기술로 약속을 하거나 인코더만 필터 정보를 알고 있다. An exemplary technique of the present specification may use a technique of degrading image quality by downscaling (downsampling) a region that is not a region of interest (ROI) in a single screen image that is not scalable video. The prior art does not share filter information 820 written for downscaling between terminals using a service, and promises only one technology from the beginning, or only the encoder knows the filter information.
하지만, 서버 디바이스는, 인코딩 된 영상을 전달 받는 클라이언트 디바이스(또는 HMD 단말)에서 downscaling된 관심 영역 외 영역의 화질을 조금이라도 향상 시키기 위해, 인코딩 시에 사용된 필터 정보(820)를 클라이언트 디바이스로 전달할 수 있다. 이 기술은 실제로 영상 처리 시간을 상당히 줄일 수 있으며, 화질 향상을 제공할 수 있다.However, the server device may transmit the filter information 820 used at the time of encoding to the client device in order to improve the quality of the region outside the region of interest downscaled by the client device (or the HMD terminal) receiving the encoded image. Can be. This technology can actually significantly reduce image processing time and provide picture quality improvement.
전술한 바와 같이, 서버 디바이스는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 타일 정보뿐만 아니라 필터 정보를 더 포함할 수 있다. 예를 들어, 필터 정보는 약속된 필터 후보들의 번호, 필터에 사용된 값들을 포함할 수 있다. As described above, the server device may generate the region of interest information. For example, the ROI information may further include filter information as well as tile information. For example, the filter information may include the number of promised filter candidates and values used in the filter.
도 9는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.9 is a diagram illustrating an exemplary configuration of a client device.
클라이언트 디바이스(900)는 영상 입력부(910), 오디오 입력부(920), 센서부(930), 영상 출력부(940), 오디오 출력부(950), 통신부(960), 및/또는 제어부(970) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(900)는 HMD(Head Mounted Display)일 수 있다. 또한, 클라이언트 디바이스(900)의 제어부(970)은 클라이언트 디바이스(900)에 포함될 수도 있고, 별도의 장치로 존재할 수도 있다.The client device 900 may include an image input unit 910, an audio input unit 920, a sensor unit 930, an image output unit 940, an audio output unit 950, a communication unit 960, and / or a controller 970. It may include at least one of. For example, the client device 900 may be a head mounted display (HMD). In addition, the controller 970 of the client device 900 may be included in the client device 900 or may exist as a separate device.
영상 입력부(910)는 비디오 영상을 촬영할 수 있다. 영상 입력부(910)는 사용자의 영상을 획득하는 2D/3D 카메라 및/또는 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.The image input unit 910 may capture a video image. The image input unit 910 may include at least one of a 2D / 3D camera and / or an immersive camera that acquires an image of a user. The 2D / 3D camera may capture an image having a viewing angle of 180 degrees or less. Immersive cameras can capture images with a viewing angle of less than 360 degrees.
오디오 입력부(920)는 사용자의 음성을 녹음할 수 있다. 예를 들어, 오디오 입력부(920)는 마이크를 포함할 수 있다.The audio input unit 920 may record a user's voice. For example, the audio input unit 920 may include a microphone.
센서부(930)는 사용자 시선의 움직임에 대한 정보를 획득할 수 있다. 예를 들어, 센서부(930)는 물체의 방위 변화를 감지하는 자이로 센서, 이동하는 물체의 가속도나 충격의 세기를 측정하는 가속도 센서, 및 사용자의 시선 방향을 감지하는 외부 센서를 포함할 수 있다. 실시예에 따라서, 센서부(930)는 영상 입력부(910) 및 오디오 입력부(920)를 포함할 수도 있다.The sensor unit 930 may acquire information about the movement of the user's gaze. For example, the sensor unit 930 may include a gyro sensor for detecting a change in azimuth of an object, an acceleration sensor for measuring an acceleration or impact strength of a moving object, and an external sensor for detecting a user's gaze direction. . In some embodiments, the sensor unit 930 may include an image input unit 910 and an audio input unit 920.
영상 출력부(940)는 통신부(960)로부터 수신되거나 메모리(미도시)에 저장된 영상 데이터를 출력할 수 있다.The image output unit 940 may output image data received from the communication unit 960 or stored in a memory (not shown).
오디오 출력부(950)는 통신부(960)로부터 수신되거나 메모리에 저장된 오디오 데이터를 출력할 수 있다.The audio output unit 950 may output audio data received from the communication unit 960 or stored in a memory.
통신부(960)는 방송망 및/또는 브로드밴드를 통해서 외부의 클라이언트 디바이스 및/또는 서버 디바이스와 통신할 수 있다. 예를 들어, 통신부(960)는 데이터를 전송하는 전송부(미도시) 및/또는 데이터를 수신하는 수신부(미도시)를 포함할 수 있다.The communication unit 960 may communicate with an external client device and / or server device through a broadcast network and / or broadband. For example, the communication unit 960 may include a transmitter (not shown) for transmitting data and / or a receiver (not shown) for receiving data.
제어부(970)는 클라이언트 디바이스(900)의 모든 동작을 제어할 수 있다. 제어부(970)는 서버 디바이스로부터 수신한 비디오 데이터 및 시그널링 데이터를 처리할 수 있다. 제어부(970)에 대한 구체적인 내용은 이하에서 설명한다.The controller 970 may control all operations of the client device 900. The controller 970 may process video data and signaling data received from the server device. Details of the controller 970 will be described below.
도 10은 제어부의 예시적인 구성을 나타낸 도면이다.10 is a diagram illustrating an exemplary configuration of a controller.
제어부(1000)는 시그널링 데이터 및/또는 비디오 데이터를 처리할 수 있다. 제어부(1000)는 시그널링 데이터 추출부(1010), 디코더(1020), 화자 판단부(1030), 시선 판단부(1040), 및/또는 시그널링 데이터 생성부(1050) 중에서 적어도 하나를 포함할 수 있다.The controller 1000 may process signaling data and / or video data. The controller 1000 may include at least one of a signaling data extractor 1010, a decoder 1020, a speaker determiner 1030, a gaze determiner 1040, and / or a signaling data generator 1050. .
시그널링 데이터 추출부(1010)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 포함할 수 있다.The signaling data extractor 1010 may extract signaling data from data received from the server device and / or another client device. For example, the signaling data may include ROI information.
디코더(1020)는 시그널링 데이터를 기초로 비디오 데이터를 디코딩할 수 있다. 예를 들어, 디코더(1020)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 디코딩할 수 있다. 예를 들어, 가상 공간 내에서 제1 사용자가 제2 사용자를 바라보는 경우, 제1 사용자의 디코더(1020)는 가상 공간 내의 제1 사용자 시선을 기초로 제2 사용자에 해당하는 영상은 고화질로 디코딩하고, 제3 사용자에 해당하는 영상은 저화질로 디코딩할 수 있다. 실시예에 따라서, 디코더(1020)는 시그널링 데이터 추출부(1010), 화자 판단부(1030), 시선 판단부(1040), 및/또는 시그널링 데이터 생성부(1050) 중에서 적어도 하나를 포함할 수 있다.The decoder 1020 may decode video data based on the signaling data. For example, the decoder 1020 may decode the entire image in a customized manner for each user based on the gaze direction of each user. For example, when the first user looks at the second user in the virtual space, the decoder 1020 of the first user may decode the image corresponding to the second user in high definition based on the first user's gaze in the virtual space. The video corresponding to the third user may be decoded with low quality. According to an embodiment, the decoder 1020 may include at least one of a signaling data extractor 1010, a speaker determiner 1030, a gaze determiner 1040, and / or a signaling data generator 1050. .
화자 판단부(1030)는 음성 및/또는 주어진 옵션을 기초로 가상 공간 내에서 화자가 누구인지 여부를 판단할 수 있다.The speaker determination unit 1030 may determine who the speaker is in the virtual space based on the voice and / or the given option.
시선 판단부(1040)는 가상 공간 내에서 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 예를 들어, 영상 구성 정보는 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.The gaze determiner 1040 may determine the gaze of the user in the virtual space and generate image configuration information. For example, the image configuration information may include gaze information indicating a gaze direction and / or zoom area information indicating a viewing angle of a user.
시그널링 데이터 생성부(1050)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.The signaling data generator 1050 may generate signaling data for transmission to the server device and / or another client device. For example, the signaling data may transmit image configuration information. The signaling data may be transmitted through at least one of a Supplement Enhancement Information (SEI), a video usability information (VUI), a Slice Header, and a file describing video data.
도 11은 디코더의 예시적인 구성을 나타낸 도면이다.11 is a diagram illustrating an exemplary configuration of a decoder.
디코더(1100)는 추출기(1110), 기본 계층 디코더(1120), 및/또는 적어도 하나의 향상 계층 디코더(1130) 중에서 적어도 하나를 포함할 수 있다. Decoder 1100 may include at least one of extractor 1110, base layer decoder 1120, and / or at least one enhancement layer decoder 1130.
디코더(1100)는 스케일러블 비디오 코딩 방법의 역 과정을 이용하여 비트스트림(비디오 데이터)을 디코딩할 수 있다.The decoder 1100 may decode a bitstream (video data) using an inverse process of the scalable video coding method.
추출기(1110)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림(비디오 데이터)을 수신하고, 재생하고자 하는 영상의 화질에 따라서 비트스트림을 선택적으로 추출할 수 있다. 예를 들어, 비트스트림(비디오 데이터)은 기본 계층을 위한 기본 계층 비트스트림(기본 계층 비디오 데이터) 및 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)을 포함할 수 있다. 기본 계층 비트스트림(기본 계층 비디오 데이터)는 가상 공간의 전체 영역을 위한 위한 비디오 데이터를 포함할 수 있다. 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.The extractor 1110 may receive a bitstream (video data) including video data and signaling data and selectively extract a bitstream according to the image quality of an image to be reproduced. For example, the bitstream (video data) is a base layer bitstream (base layer video data) for the base layer and at least one enhancement layer bitstream (enhancement layer video data) for at least one enhancement layer predicted from the base layer. ) May be included. The base layer bitstream (base layer video data) may include video data for the entire area of the virtual space. At least one enhancement layer bitstream (enhanced layer video data) may include video data for the region of interest within the entire region.
또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.In addition, the signaling data may include ROI information indicating an ROI corresponding to the gaze direction of the user in the entire area of the virtual space for the video conference service.
기본 계층 디코더(1120)는 저화질 영상을 위한 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 디코딩할 수 있다.The base layer decoder 1120 may decode a bitstream (or base layer video data) of a base layer for a low quality image.
향상 계층 디코더(1130)는 시그널링 데이터 및/또는 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 기초로 고화질 영상을 위한 적어도 하나의 향상 계층의 비트스트림(또는 향상 계층 비디오 데이터)를 디코딩할 수 있다. The enhancement layer decoder 1130 may decode at least one bitstream (or enhancement layer video data) of at least one enhancement layer for high quality video based on the signaling data and / or the bitstream (or base layer video data) of the base layer. have.
도 12은 영상 구성 정보를 생성 및/또는 전송하는 예시적인 방법을 나타낸 도면이다.12 is a diagram illustrating an exemplary method of generating and / or transmitting image configuration information.
이하에서는, 사용자 시선의 움직임에 실시간으로 대응하기 위한 영상 구성 정보를 생성하는 방법에 대하여 설명한다. Hereinafter, a method of generating image configuration information for responding to the movement of the user's eye in real time will be described.
영상 구성 정보는 사용자의 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다. 사용자 시선이란 실제 공간이 아닌 가상 공간 내에서 사용자가 바라보는 방향을 의미한다. 또한, 시선 정보는 현재 사용자의 시선 방향을 지시하는 정보뿐만 아니라, 미래에 사용자의 시선 방향을 지시하는 정보(예를 들어, 주목을 받을 것이라 예상되는 시선 지점에 대한 정보)를 포함할 수 있다. The image configuration information may include at least one of gaze information indicating a gaze direction of a user and / or zoom area information indicating a viewing angle of the user. The user's gaze refers to the direction that the user looks in the virtual space, not the real space. In addition, the gaze information may include not only information indicating a direction of a gaze of the current user, but also information indicating a gaze direction of the user in the future (for example, information about a gaze point expected to receive attention).
클라이언트 디바이스는 사용자를 중심으로 가상 공간에 위치한 다른 사용자를 바라보는 동작을 센싱하고, 이를 처리할 수 있다.The client device may sense an operation of looking at another user located in a virtual space centered on the user and process the same.
클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센서부로부터 센싱 정보를 수신할 수 있다. 센싱 정보는 카메라에 의해 촬영된 영상, 마이크에 의해 녹음된 음성일 수 있다. 또한, 센싱 정보는 자이로 센서, 가속도 센서, 및 외부 센서에 의해서 감지된 데이터일 수 있다.The client device may receive the sensing information from the sensor unit by using the controller and / or the gaze determination unit. The sensing information may be an image photographed by a camera and a voice recorded by a microphone. In addition, the sensing information may be data sensed by a gyro sensor, an acceleration sensor, and an external sensor.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센싱 정보를 기초로 사용자 시선의 움직임을 확인할 수 있다(1210). 예를 들어, 클라이언트 디바이스는 센싱 정보가 가지는 값의 변화를 기초로 사용자 시선의 움직임을 확인할 수 있다.In operation 1210, the client device may identify a movement of the user's gaze based on the sensing information by using the controller and / or the gaze determination unit. For example, the client device may check the movement of the user's gaze based on the change in the value of the sensing information.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 가상 회의 공간에서의 영상 구성 정보를 생성할 수 있다(1220). 예를 들어, 클라이언트 디바이스가 물리적으로 움직이거나 사용자의 시선이 움직이는 경우, 클라이언트 디바이스는 센싱 정보를 기초로 가상 회의 공간에서의 사용자의 시선 정보 및/또는 줌 영역 정보를 계산할 수 있다.In operation 1220, the client device may generate image configuration information in the virtual conference space by using the controller and / or the gaze determiner. For example, when the client device physically moves or the user's gaze moves, the client device may calculate the gaze information and / or the zoom area information of the user in the virtual conference space based on the sensing information.
또한, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다(1230). 또한, 클라이언트 디바이스는 영상 구성 정보를 자신의 다른 구성요소로 전달할 수도 있다.In operation 1230, the client device may transmit image configuration information to the server device and / or another client device using the communication unit. In addition, the client device may transfer the image configuration information to its other components.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성하는 방법을 설명하였다. 다만 이에 한정되지 않으며, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 영상 구성 정보를 생성할 수도 있다. In the above, the method for generating image configuration information by the client device has been described. However, the present invention is not limited thereto, and the server device may receive sensing information from the client device and generate image configuration information.
또한, 클라이언트 디바이스와 연결된 외부의 컴퓨팅 디바이스가 영상 구성 정보를 생성할 수 있으며, 컴퓨팅 디바이스는 영상 구성 정보를 자신의 클라이언트 디바이스, 다른 클라이언트 디바이스, 및/또는 서버 디바이스로 전달할 수도 있다.In addition, an external computing device connected with the client device may generate the image configuration information, and the computing device may deliver the image configuration information to its client device, another client device, and / or a server device.
도 13은 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 예시적인 방법을 나타낸 도면이다.13 is a diagram illustrating an example method for a client device to signal image configuration information.
영상 구성 정보(시점 정보 및/또는 줌 영역 정보를 포함)를 시그널링하는 부분은 매우 중요하다. 영상 구성 정보의 시그널링이 너무 잦을 경우, 클라이언트 디바이스, 서버 디바이스, 및/또는 전체 네트워크에 부담을 줄 수 있다.The part of signaling image configuration information (including viewpoint information and / or zoom region information) is very important. If the signaling of the video configuration information is too frequent, it may burden the client device, the server device, and / or the entire network.
따라서, 클라이언트 디바이스는 사용자의 영상 구성 정보(또는 시선 정보 및/또는 줌 영역 정보)가 변경되는 경우에만 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 사용자의 시선 정보가 변경되는 경우에만 사용자의 시선 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다.Therefore, the client device may signal the image configuration information only when the image configuration information (or the gaze information and / or the zoom area information) of the user is changed. That is, the client device may transmit the gaze information of the user to other client devices and / or server devices only when the gaze information of the user is changed.
일 실시예로, 화상 회의에서 통상 화자가 주목되는 경우가 대부분인 점을 이용하여 목소리를 내는 화자가 사용자의 시선 방향과 다를 경우에만 시선 정보를 다른 사용자의 클라이언트 디바이스나 서버 디바이스로 시그널링 할 수 있다. In one embodiment, the gaze information may be signaled to the client device or the server device of another user only when the speaker who makes the voice differs from the user's gaze direction by using the point that the speaker is usually noticed in the video conference.
비록 말을 하고 있는 화자는 아니지만, 퍼포먼스를 하고 있거나(온라인 강의의 경우) 칠판에 무엇인가를 쓰는 등 현재 주목을 받아야 할 사용자의 경우는, 클라이언트 디바이스는 시스템상의 옵션(예를 들어, 화자 및/또는 강의자는 제2 사용자로 설정)을 통해서 화자에 대한 정보를 획득할 수 있다.Although not the speaker who is speaking, for users who are currently performing attention (in the case of online lectures) or writing something on the board, the client device may have options on the system (eg, speaker and / Alternatively, the lecturer may obtain information on the speaker through setting as the second user.
도면을 참고하면, 클라이언트 디바이스는, 제어부 및/또는 화자 판단부를 이용하여, 화상 회의를 위한 가상 공간 영역 내에서 화자가 누군지를 판단할 수 있다(1310). 예를 들어, 클라이언트 디바이스는 센싱 정보를 기초로 화자가 누구인지를 판단할 수 있다. 또한, 클라이언트 디바이스는 주어진 옵션에 따라서 화자가 누구인지를 판단할 수 있다.Referring to the drawing, the client device may determine who is the speaker in the virtual space area for the video conference by using the controller and / or the speaker determination unit (1310). For example, the client device may determine who is the speaker based on the sensing information. In addition, the client device may determine who is the speaker according to the given options.
그리고 나서, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선을 판단할 수 있다(1320). 예를 들어, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선을 기초로 영상 구성 정보를 생성할 수 있다.Thereafter, the client device may determine the gaze of the user by using the controller and / or the gaze determination unit (1320). For example, the client device may generate image configuration information based on the gaze of the user using the controller and / or the gaze determiner.
그리고 나서, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선이 화자를 향하는지 여부를 판단할 수 있다(1330).Then, the client device may determine whether the user's eyes are directed to the speaker by using the controller and / or the gaze determination unit (1330).
사용자의 시선이 화자를 향하는 경우, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 시그널링하지 않을 수 있다(1340). 이 경우, 클라이언트 디바이스는 사용자의 시선 방향에 있는 화자에 대한 영상은 계속 고품질로 수신할 수 있고, 사용자의 시선 방향에 없는 영상들은 계속 저품질로 수신할 수 있다.When the gaze of the user faces the speaker, the client device may not signal the image configuration information using the communication unit (1340). In this case, the client device may continue to receive the image of the speaker in the user's gaze direction with high quality, and may receive the image that is not in the user's gaze direction with the low quality.
사용자의 시선이 화자를 향하지 않는 경우, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 시그널링할 수 있다(1350). 예를 들어, 처음에는 사용자의 시선이 화자를 향했으나 나중에 다른 곳으로 변경된 경우, 클라이언트 디바이스는 사용자의 새로운 시선 방향에 대한 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 새로운 시선 방향에 대한 영상 구성 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다. 이 경우, 클라이언트 디바이스는 사용자의 새로운 시선 방향에 해당하는 영상은 고품질로 수신할 수 있고, 사용자의 새로운 시선 방향에 해당하지 않는 영상(예를 들어, 화자에 해당하는 영상)은 저품질로 수신할 수 있다.When the gaze of the user does not face the speaker, the client device may signal the image configuration information using the communicator (1350). For example, if the user's gaze first directed to the speaker but later changed to another place, the client device may signal image configuration information for the user's new gaze direction. That is, the client device may transmit image configuration information for the new gaze direction to other client devices and / or server devices. In this case, the client device may receive the image corresponding to the new gaze of the user with high quality, and the image corresponding to the new gaze of the user (for example, the video corresponding to the speaker) may be received with low quality. have.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성 및/또는 전송하는 것을 중심으로 설명하였지만, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 센싱 정보를 기초로 영상 구성 정보를 생성하고, 영상 구성 정보를 적어도 하나의 클라이언트 디바이스로 전송할 수도 있다.In the above description, the client device generates and / or transmits the image configuration information. However, the server device receives the sensing information from the client device, generates the image configuration information based on the sensing information, and generates the image configuration information. It can also be sent to one client device.
상술한 바와 같이, 클라이언트 디바이스(예를 들어, HMD)를 이용한 가상 공간에서의 화상 회의에서 사용자들이 모두 화자를 바라보고 있는 상황에서는, 화상 회의 시스템은 화자의 영상정보를 기본 계층 데이터 및 향상 계층 데이터의 스케일러블 비디오 데이터로 전송할 수 있다. 또한, 화상 회의 시스템은 화자가 아닌 다른 사용자를 바라보는 사용자로부터는 시그널링을 받아서 다른 사용자의 영상정보를 기본 계층 데이터 및 향상 계층 데이터의 스케일러블 비디오 데이터로 전송할 수 있다. 이를 통해서, 화상 회의 시스템은 전체 시스템 상의 시그널링을 크게 줄이면서도 사용자에게 빠르고 고화질의 영상 정보를 서비스할 수 있다.As described above, in a situation where users are all looking at a speaker in a video conference in a virtual space using a client device (eg, an HMD), the video conference system may display the speaker's video information in the base layer data and the enhancement layer data. Can be transmitted as scalable video data. In addition, the video conferencing system may receive signaling from a user looking at a user other than the speaker, and may transmit video information of the other user as scalable video data of base layer data and enhancement layer data. Through this, the video conferencing system can provide fast and high quality video information to the user while greatly reducing the signaling on the entire system.
이상에서 언급한 시그널링은 서버 디바이스, 클라이언트 디바이스, 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다. 또한, 이상에서 언급한 시그널링은 클라이언트 디바이스 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다.The above-mentioned signaling may be signaling between a server device, a client device, and / or an external computing device (if present). In addition, the above-mentioned signaling may be signaling between a client device and / or an external computing device (if present).
도 14는 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 나타낸 도면이다.14 is a diagram illustrating an exemplary method of transmitting a high / low level image.
사용자의 시선 정보를 기초로 높고/낮은 수준의 영상을 전송하는 방법은 스케일러블 코덱의 계층을 스위칭하는 방법(1410), 싱글 비트스트림 및 실시간 인코딩의 경우 QP(Quantization Parameter) 등을 이용한 Rate Control 방법(1420), DASH 등의 단일 비트스트림의 경우 Chunk 단위로 스위칭하는 방법(1430), Down Scaling/Up Scaling 방법(1440), 및/또는 Rendering 의 경우 더 많은 리소스를 활용한 고화질 Rendering 방법(1450)을 포함할 수 있다.The method of transmitting a high / low level image based on the user's gaze information is a method of switching a scalable codec layer (1410), a rate control method using a single bitstream and a QP (Quantization Parameter) in real time encoding. (1420), a single bitstream such as DASH switching in units of chunks (1430), Down Scaling / Up Scaling method (1440), and / or in the case of Rendering high definition rendering method using more resources (1450) It may include.
전술한 예시적인 기술은 비록 비록 스케일러블 비디오를 통한 차별적 전송 기법(1410)을 이야기하고 있지만, 단일 계층을 갖는 일반 비디오 코딩 기술을 사용할 경우에도, 양자화 계수 (1420, Quantization Parameter)나 Down/Up scaling 정도(1440)를 조절함으로써, 전체 대역폭을 낮추고, 빠르게 사용자 시선 움직임에 응답하는 등의 장점을 제공할 수 있다. 또한 미리 여러 비트레이트(bitrate)를 갖는 비트스트림(bitstream)으로 트랜스코딩 된 파일들을 사용할 경우, 본 명세서의 예시적인 기술은 청크(Chunk) 단위로 높은 수준의 영상과 낮은 수준의 영상 사이를 스위칭하여 제공할 수 있다(1430).Although the example technique described above refers to a differential transmission technique over scalable video 1410, even when using a general video coding technique with a single layer, the quantization coefficient (1420, Quantization Parameter) or Down / Up scaling Adjusting the degree 1440 may provide advantages such as lowering the overall bandwidth, quickly responding to user eye movement, and the like. In addition, when using files that are transcoded into bitstreams having several bitrates in advance, the exemplary technique of the present specification switches between high level images and low level images in chunks. It may provide (1430).
또한, 본 명세서는 화상 회의 시스템을 예로 들고 있지만, 본 명세서는 HMD를 이용한 VR (Virtual Reality), AR (Augmented Reality) 게임 등에서도 똑같이 적용될 수 있다. 즉, 사용자가 바라보는 시선에 해당하는 영역을 높은 수준의 영상으로 제공하고, 사용자가 바라볼 것으로 예상되는 영역이나 오브젝트(Object)가 아닌 곳을 바라 볼 경우만 시그널링하는 기법 모두가 화상 회의 시스템의 예에서와 똑같이 적용될 수 있다.In addition, although the present specification takes a video conferencing system as an example, the present specification may be equally applicable to VR (Augmented Reality), AR (Augmented Reality) game, etc. using the HMD. That is, all of the techniques for providing a high level image of an area corresponding to the user's gaze and signaling only when the user looks at an area other than an area or an object that the user is expected to see. The same applies as in the example.
도 15는 예시적인 영상 복호화 방법을 나타낸 도면이다.15 is a diagram illustrating an exemplary image decoding method.
영상 복호화 장치(또는 디코더)는 추출기, 기본 계층 디코더, 및/또는 향상 계층 디코더 중에서 적어도 하나를 포함할 수 있다. 영상 복호화 장치 및/또는 영상 복호화 방법에 대한 내용은 전술한 서버 디바이스 및/또는 영상 복호화 장치(또는 디코더)에 대한 설명 중에서 관련된 내용을 모두 포함할 수 있다.The image decoding apparatus (or decoder) may include at least one of an extractor, a base layer decoder, and / or an enhancement layer decoder. The contents of the image decoding apparatus and / or the image decoding method may include all related contents among the above descriptions of the server device and / or the image decoding apparatus (or the decoder).
영상 복호화 장치는, 추출기를 이용하여, 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 수신할 수 있다(1510). 영상 복호화 장치는 비디오 데이터로부터 시그널링 데이터, 기본 계층 비디오 데이터, 및/또는 적어도 하나의 향상 계층 비디오 데이터를 추출할 수 있다.The image decoding apparatus may use the extractor to receive a bitstream including video data and signaling data (1510). The image decoding apparatus may extract signaling data, base layer video data, and / or at least one enhancement layer video data from the video data.
또한, 영상 복호화 장치는, 기본 계층 디코더를 이용하여, 기본 계층 비디오 데이터를 디코딩할 수 있다(1520).In addition, the image decoding apparatus may decode base layer video data using a base layer decoder (1520).
또한, 영상 복호화 장치는, 향상 계층 디코더를 이용하여, 시그널링 데이터 및 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다(1530).In addition, the image decoding apparatus may decode at least one enhancement layer video data based on the signaling data and the base layer video data using the enhancement layer decoder (1530).
예를 들어, 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.For example, video data may include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.In addition, the signaling data may include ROI information indicating an ROI corresponding to the gaze direction of the user in the entire area of the virtual space for the video conference service.
또한, 기본 계층 비디오 데이터는 전체 영역을 위한 비디오 데이터를 포함하고, 적어도 하나의 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.In addition, the base layer video data may include video data for the entire region, and the at least one enhancement layer video data may include video data for the region of interest in the entire region.
또한, 적어도 하나의 향상 계층은 각 계층별로 직사각형 모양의 적어도 하나의 타일로 분할되고, 관심 영역 정보는 관심 영역에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.The at least one enhancement layer may be divided into at least one tile having a rectangular shape for each layer, and the ROI information may include tile information for identifying at least one tile included in the ROI.
또한, 관심 영역 정보는 영상 구성 정보를 기초로 생성되고, 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.In addition, the ROI information is generated based on the image configuration information, and the image configuration information may include gaze information indicating a direction of the user's gaze in a virtual space and zoom area information indicating the user's viewing angle.
또한, 영상 구성 정보는 사용자의 시선 방향이 화자를 향하지 않는 경우에 시그널링될 수 있다. Also, the image configuration information may be signaled when the gaze direction of the user does not face the speaker.
또한, 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.In addition, the signaling data may be transmitted through at least one of Supplementary Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
도 16은 예시적인 영상 부호화 방법을 나타낸 도면이다. 16 is a diagram illustrating an exemplary video encoding method.
영상 부호화 장치(또는 인코더)는 기본 계층 인코더, 향상 계층 인코더,및/또는 다중화기 중에서 적어도 하나를 포함할 수 있다. 영상 부호화 장치 및/또는 영상 부호화 방법에 대한 내용은 전술한 클라이언트 디바이스 및/또는 영상 부호화 장치(또는 인코더)에 대한 설명 중에서 관련된 내용을 모두 포함할 수 있다.The image encoding apparatus (or encoder) may include at least one of a base layer encoder, an enhancement layer encoder, and / or a multiplexer. The contents of the image encoding apparatus and / or the image encoding method may include all related contents among the descriptions of the client device and / or the image encoding apparatus (or the encoder) described above.
영상 부호화 장치는, 기본 계층 인코더를 이용하여, 기본 계층 비디오 데이터를 생성할 수 있다(1610).The image encoding apparatus may generate base layer video data using the base layer encoder (1610).
또한, 영상 부호화 장치는, 향상 계층 인코더를 이용하여, 시그널링 데이터 및 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다.In addition, the apparatus for encoding an image may generate at least one enhancement layer video data based on the signaling data and the base layer video data using the enhancement layer encoder.
또한, 영상 부호화 장치는, 다중화기를 이용하여, 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 생성할 수 있다.In addition, the apparatus for encoding an image may generate a bitstream including video data and signaling data using a multiplexer.
영상 부호화 장치 및/또는 영상 부호화 방법은 영상 복호화 장치 및/또는 영상 복호화 방법의 역 과정의 동작을 수행할 수 있다. 또한, 이를 위해서 공통된 특징을 포함할 수 있다.The image encoding apparatus and / or the image encoding method may perform an inverse process of the image decoding apparatus and / or the image decoding method. In addition, common features may be included for this purpose.
도 17은 관심 영역 정보의 예시적인 신택스를 나타낸 도면이다.17 is a diagram illustrating an exemplary syntax of ROI information.
도 (a)를 참조하면, 비디오 픽쳐 별 관심 영역 정보(sighted_tile_info)가 나타나 있다. 예를 들어, 관심 영역 정보는 info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 중에서 적어도 하나를 포함할 수 있다.Referring to FIG. (A), the ROI information (sighted_tile_info) for each video picture is shown. For example, the ROI information may include at least one of info_mode information, tile_id_list_size information, tile_id_list information, cu_id_list_size information, cu_id_list information, user_info_flag information, user_info_size information, and / or user_info_list.
info_mode 정보는 픽쳐 별로 관심 영역을 표현하는 정보의 모드를 지시할 수 있다. info_mode 정보는 부호 없는 4 비트의 정보로 표현될 수 있다. 또는 info_mode 정보는 포함하고 있는 정보의 모드를 지시할 수 있다. 예를 들어, info_mode 정보의 값이 ‘0’이면, info_mode 정보는 이전의 정보의 모드를 그대로 사용한다고 지시할 수 있다. info_mode 정보의 값이 ‘1’이면, info_mode 정보는 관심 영역에 해당하는 모든 타일 번호 리스트를 지시할 수 있다. info_mode 정보의 값이 ‘2’이면, info_mode 정보는 관심 영역에 해당하는 연속된 타일의 시작 번The info_mode information may indicate a mode of information expressing a region of interest for each picture. The info_mode information may be represented by 4 bits of unsigned information. Alternatively, the info_mode information may indicate the mode of the included information. For example, when the value of the info_mode information is '0', the info_mode information may indicate that the previous information mode is used as it is. If the value of the info_mode information is '1', the info_mode information may indicate a list of all tile numbers corresponding to the ROI. If the value of info_mode information is '2', info_mode information is the start number of consecutive tiles corresponding to the region of interest.
호 및 끝 번호를 지시할 수 있다. info_mode 정보의 값이 3’이면, info_mode 정보는 관심 영역의 좌상단 및 우하단 타일의 번호를 지시할 수 있다. info_mode 정보의 값이 ‘4’이면, info_mode 정보는 관심 영역에 해당하는 타일의 번호 및 타일에 포함되는 코딩 유닛(Coding Unit)의 번호를 지시할 수 있다. Call and end number can be indicated. If the value of the info_mode information is 3 ', the info_mode information may indicate the number of the upper left and lower right tiles of the ROI. If the value of the info_mode information is '4', the info_mode information may indicate the number of tiles corresponding to the ROI and the number of coding units included in the tiles.
tile_id_list_size 정보는 타일 번호 리스트의 길이를 지시할 수 있다. tile_id_list_size 정보는 부호 없는 8 비트의 정보로 표현될 수 있다. The tile_id_list_size information may indicate the length of the tile number list. The tile_id_list_size information may be represented by 8 bits of unsigned information.
tile_id_list 정보는, info_mode 정보를 기초로, 타일 번호 리스트를 포함할 수 있다. 각각의 타일 번호는 부호 없는 8 비트의 정보로 표현될 수 있다. tile_id_list 정보는, info_mode 정보를 기초로, 관심 영역에 해당하는 모든 타일의 번호(info_mode 정보=1 인 경우), 연속된 타일의 시작 번호 및 끝 번호(info_mode 정보=2 인 경우), 및 관심 영역의 좌상단 및 우하단 타일의 번호(info_mode 정보=3 인 경우) 중에서 하나를 포함할 수 있다.The tile_id_list information may include a tile number list based on the info_mode information. Each tile number may be represented by unsigned 8 bits of information. The tile_id_list information is based on the info_mode information, and the number of all tiles corresponding to the region of interest (if info_mode information = 1), the start number and end number of consecutive tiles (if info_mode information = 2), and the region of interest. One of the upper left and lower right tiles may be included (when info_mode information = 3).
cu_id_list_size 정보는 코딩 유닛(Coding Unit) 리스트의 길이를 지시할 수 있다. cu_id_list_size 정보는 부호 없는 16 비트의 정보로 표현될 수 있다.The cu_id_list_size information may indicate the length of a coding unit list. The cu_id_list_size information may be represented by unsigned 16 bits of information.
cu_id_list 정보는, info_mode 정보를 기초로, 코딩 유닛 번호의 리스트를 포함할 수 있다. 각각의 코딩 유닛 번호는 부호 없는 16 비트의 정보로 표현될 수 있다. 예를 들어, cu_id_list 정보는, info_mode 정보를 기초로, 관심 영역에 해당하는 코딩 유닛 번호의 리스트(예를 들어, info_mode 정보=4 인 경우)를 지시할 수 있다.The cu_id_list information may include a list of coding unit numbers based on the info_mode information. Each coding unit number may be represented by unsigned 16 bits of information. For example, the cu_id_list information may indicate a list of coding unit numbers corresponding to the ROI (for example, if info_mode information = 4) based on the info_mode information.
user_info_flag 정보는 추가 사용자 정보 모드를 지시하는 플래그일 수 있다. user_info_flag 정보는 사용자 및/또는 제공자가 추가로 전송하려는 타일 관련 정보가 있는지 여부를 지시할 수 있다. user_info_flag 정보는 부호 없는 1 비트의 정보로 표현될 수 있다. 예를 들어, user_info_flag 정보의 값이 ‘0’이면, 추가 사용자 정보가 없다고 지시할 수 있다. user_info_flag 정보의 값이 ‘1’이면, 추가 사용자 정보가 있다고 지시할 수 있다.The user_info_flag information may be a flag indicating additional user information mode. The user_info_flag information may indicate whether there is tile-related information that the user and / or provider additionally want to transmit. The user_info_flag information may be represented by unsigned 1 bit information. For example, if the value of the user_info_flag information is '0', it may be indicated that there is no additional user information. If the value of the user_info_flag information is '1', it may indicate that there is additional user information.
user_info_size 정보는 추가 사용자 정보의 길이를 지시할 수 있다. user_info_size 정보는 부호 없는 16 비트의 정보로 표현될 수 있다.The user_info_size information may indicate the length of additional user information. The user_info_size information may be represented by unsigned 16 bits of information.
user_info_list 정보는 추가 사용자 정보의 리스트를 포함할 수 있다. 각각의 추가 사용자 정보는 부호 없는 변화 가능한 비트의 정보로 표현될 수 있다.The user_info_list information may include a list of additional user information. Each additional user information may be represented by information of an unsignable changeable bit.
도 (b)를 참조하면, 파일, 청크, 비디오 픽쳐 그룹별 관심 영역 정보가 나타나 있다. 예를 들어, 관심 영역 정보는 버전 정보 필드, 전체 데이터 크기 필드, 및/또는 적어도 하나의 단위 정보 필드 중에서 적어도 하나를 포함할 수 있다.Referring to FIG. (B), the ROI information for each file, chunk, and video picture group is shown. For example, the ROI information may include at least one of a version information field, an entire data size field, and / or at least one unit information field.
도면을 참조하면, 파일, 청크, 비디오 픽쳐 그룹별 관심 영역 정보(sighted_tile_info)가 나타나 있다. 예를 들어, 관심 영역 정보는 version_info 정보, file_size 정보, 및/또는 단위 정보 중에서 적어도 하나를 포함할 수 있다. Referring to the figure, the region of interest information (sighted_tile_info) for each file, chunk, and video picture group is shown. For example, the ROI information may include at least one of version_info information, file_size information, and / or unit information.
version_info 정보는 관심 영역 정보(또는 시그널링 규격)의 버전을 지시할 수 있다. version_info 정보는 부호 없는 8 비트의 정보로 표현될 수 있다.The version_info information may indicate a version of the ROI information (or signaling standard). The version_info information may be represented by unsigned 8 bits of information.
file_size 정보는 단위 정보의 사이즈를 지시할 수 있다. file_size 정보는 부호 없는 64 비트의 정보로 표현될 수 있다. 예를 들어, file_size 정보는 파일 사이즈, 청크 사이즈, 비디오 픽쳐 그룹 사이즈를 지시할 수 있다. The file_size information may indicate the size of the unit information. The file_size information may be represented by unsigned 64-bit information. For example, the file_size information may indicate a file size, chunk size, and video picture group size.
단위 정보는 파일 단위, 청크 단위, 및/또는 비디오 픽쳐 그룹 단위 별로 관심 영역 정보를 포함할 수 있다.The unit information may include region of interest information for each file unit, chunk unit, and / or video picture group unit.
단위 정보는 poc_num 정보, info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 정보 중에서 적어도 하나를 포함할 수 있다.The unit information may include at least one of poc_num information, info_mode information, tile_id_list_size information, tile_id_list information, cu_id_list_size information, cu_id_list information, user_info_flag information, user_info_size information, and / or user_info_list information.
poc_num 정보는 비디오 픽쳐의 번호를 지시할 수 있다. 예를 들어, 픽처 번호 필드는 HEVC에서는 POC(Picture Order Count)를 지시할 수 있으며, 일반 비디오 코덱에서는 해당 픽쳐(프레임) 번호를 지시할 수 있다. poc_num 정보는 부호 없는 32 비트의 정보로 표현될 수 있다.The poc_num information may indicate the number of a video picture. For example, the picture number field may indicate a picture order count (POC) in HEVC and a corresponding picture (frame) number in a general video codec. The poc_num information may be represented by unsigned 32 bits of information.
info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 정보에 대한 구체적인 내용은 전술한 내용과 동일하므로 구체적인 설명은 생략한다. Since detailed information about the info_mode information, the tile_id_list_size information, the tile_id_list information, the cu_id_list_size information, the cu_id_list information, the user_info_flag information, the user_info_size information, and / or the user_info_list information is the same as the above description, detailed description thereof will be omitted.
관심 영역 정보는 서버 디바이스(또는 영상 전송 장치)에서 생성되고, 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치)로 전송될 수 있다.The ROI information may be generated at the server device (or an image transmitting apparatus) and transmitted to at least one client device (or an image receiving apparatus).
또한, 관심 영역 정보는 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치) 에서 생성되고, 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치) 및/또는 서버 디바이스(또는 영상 전송 장치)로 전송될 수 있다. 이 경우, 클라이언트 디바이스 및/또는 클라이언트 디바이스의 제어부는 전술한 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더를 더 포함할 수 있다.In addition, the ROI information may be generated in at least one client device (or image receiving apparatus) and transmitted to at least one client device (or image receiving apparatus) and / or server device (or image transmitting apparatus). In this case, the client device and / or the controller of the client device may further include the above-described signaling data extractor, image generator, ROI determiner, signaling data generator, and / or encoder.
도 18은 XML 포맷의 예시적인 관심 영역 정보, 및 예시적인 SEI 메시지를 나타낸 도면이다.18 is a diagram illustrating exemplary ROI information and an exemplary SEI message in XML format.
도 (a)를 참조하면, 관심 영역 정보(sighted_tile_info)는 XML 형태로 표현될 수 있다. 예를 들어, 관심 영역 정보(sighted_tile_info)는 info_mode 정보(‘3’), tile_id_list_size 정보(‘6’), 및/또는 tile_id_list 정보(‘6, 7, 8, 9, 10, 11, 12’)를 포함할 수 있다.Referring to FIG. (A), the ROI information (sighted_tile_info) may be expressed in an XML form. For example, the ROI information (sighted_tile_info) may include info_mode information ('3'), tile_id_list_size information ('6'), and / or tile_id_list information ('6, 7, 8, 9, 10, 11, 12'). It may include.
도 (b)를 참고하면, 국제 비디오 표준에서의 Supplemental Enhancement Information(SEI) 메시지의 페이로드 (payload) 구문 (Syntax)이 나타나 있다. SEI 메시지는 동영상 부호화 계층(VCL)의 복호화 과정에서 필수가 아닌 부가정보를 나타낸다.Referring to FIG. (B), the payload syntax (Syntax) of the Supplemental Enhancement Information (SEI) message in the international video standard is shown. The SEI message indicates additional information that is not essential in the decoding process of the video coding layer (VCL).
관심 영역 정보(sighted_tile_info, 1810)는 고효율 비디오 부호화(HEVC), 엠펙-4 (MPEG-4), 및/또는 고급 비디오 부호화(AVC)의 SEI 메시지에 포함되어 방송망 및/또는 브로드밴드를 통하여 전송될 수 있다. 예를 들어, SEI 메시지는 압축된 비디오 데이터에 포함될 수 있다.The region of interest information (sighted_tile_info, 1810) may be included in an SEI message of high efficiency video encoding (HEVC), MPEG-4 (MPEG-4), and / or advanced video encoding (AVC) and transmitted through a broadcast network and / or broadband. have. For example, the SEI message may be included in the compressed video data.
이하에서는 가상 현실 서비스를 위한 비디오 데이터 및/또는 시그널링 데이터를 방송망 및/또는 브로드밴드를 통해서 전송 및/또는 수신하는 방법에 대하여 설명한다.Hereinafter, a method of transmitting and / or receiving video data and / or signaling data for a virtual reality service through a broadcast network and / or broadband will be described.
도 19는 클라이언트 디바이스의 예시적인 프로토콜 스택을 도시한 도면이다.19 illustrates an example protocol stack of a client device.
본 도면에서 방송(broadcast) 쪽 프로토콜 스택 부분은, SLT(service list table) 와 MMTP(MPEG Media Transport Pprotocol) 를 통해 전송되는 부분, ROUTE(Real time Object delivery over Unidirectional Transport) 를 통해 전송되는 부분으로 나뉘어질 수 있다.In the figure, the broadcast stack protocol stack is divided into a portion transmitted through a service list table (SLT) and a MPEG Media Transport Protocol (MMTP), and a portion transmitted through a real time object delivery over Unidirectional Transport (ROUTE). Can lose.
SLT(1910) 는 UDP(User Datagram Protocol), IP(Internet Protocol ) 레이어를 거쳐 인캡슐레이션될 수 있다. MMTP(MPEG media transport Protocol) 는 MMT(MPEG media transport) 에서 정의되는 MPU(Media Processing Unit) 포맷으로 포맷된 데이터(1920)들과 MMTP 에 따른 시그널링 데이터(1930)들을 전송할 수 있다. 이 데이터들은 UDP, IP 레이어를 거쳐 인캡슐레이션될 수 있다. ROUTE 는 DASH(Dynamic Adaptive Streaming over HTTP) 세그먼트 형태로 포맷된 데이터들(1960)과 시그널링 데이터(1940)들, 그리고 NRT(Non-Real Time) 등의 논 타임드(non The SLT 1910 may be encapsulated through a User Datagram Protocol (UDP) and an Internet Protocol (IP) layer. MPEG Media Transport Protocol (MMTP) may transmit data 1920 formatted in MPU (Media Processing Unit) format defined in MPEG media transport (MMT) and signaling data 1930 according to MMTP. These data can be encapsulated over the UDP and IP layers. ROUTE is a non-timed data such as data 1960 and signaling data 1940 formatted in the form of a dynamic adaptive streaming over HTTP (DASH) segment, and a non-real time (NRT).
timed) 데이터들(1950)을 전송할 수 있다. 이 데이터들 역시 UDP, IP 레이어를 거쳐 인캡슐레이션될 수 있다. timed) data 1950 may be transmitted. These data can also be encapsulated over the UDP and IP layers.
SLT 와 MMTP 를 통해 전송되는 부분, ROUTE 를 통해 전송되는 부분은 UDP, IP 레이어에서 처리된 후 링크 레이어(Data Link Layer)에서 다시 인캡슐레이션될 수 있다. 링크 레이어에서 처리된 방송 데이터는 피지컬 레이어에서 인코딩/인터리빙 등의 과정을 거쳐 방송 신호로서 멀티캐스트될 수 있다.The part transmitted through SLT and MMTP and the part transmitted through ROUTE may be encapsulated again in the data link layer after being processed in the UDP and IP layers. The broadcast data processed in the link layer may be multicast as a broadcast signal through a process such as encoding / interleaving in the physical layer.
본 도면에서 브로드밴드(broadband) 쪽 프로토콜 스택 부분은, 전술한 바와 같이 HTTP(HyperText Transfer Protocol) 를 통하여 전송될 수 있다. DASH 세그먼트 형태로 포맷된 데이터들(1960)과 시그널링 데이터들(1980), NRT 등의 데이터(1970)가 HTTP 를 통하여 전송될 수 있다. 여기서 도시된 시그널링 데이터들(signaling)은 서비스에 관한 시그널링 데이터일 수 있다. 이 데이터들은 TCP(Transmission Control Protoco), IP 레이어를 거쳐 프로세싱된 후, 링크 레이어에서 인캡슐레이션될 수 있다. 이 후 처리된 브로드밴드 데이터는 피지컬 레이어에서 전송을 위한 처리를 거쳐 브로드밴드로 유니캐스트될 수 있다.In the figure, the broadband protocol stack portion may be transmitted through the HyperText Transfer Protocol (HTTP) as described above. Data 1960 formatted in the form of a DASH segment, signaling data 1980, and data 1970 such as an NRT may be transmitted through HTTP. The signaling data shown here may be signaling data regarding a service. This data can be processed via the Transmission Control Protocol (TCP), IP layer, and then encapsulated at the link layer. Subsequently, the processed broadband data may be unicast to broadband through processing for transmission in the physical layer.
서비스는 전체적으로 사용자에게 보여주는 미디어 컴포넌트의 컬렉션일 수 있고, 컴포넌트는 여러 미디어 타입의 것일 수 있고, 서비스는 연속적이거나 간헐적일 수 있고, 서비스는 실시간이거나 비실시간일 수 있고, 실시간 서비스는 TV 프로그램의 시퀀스로 구성될 수 있다.A service can be a collection of media components that are shown to the user as a whole, a component can be of multiple media types, a service can be continuous or intermittent, a service can be real time or non-real time, and a real time service can be a sequence of TV programs. It can be configured as.
서비스는 전술한 가상 현실 서비스 및/또는 증강 현실 서비스를 포함할 수 있다. 또한, 비디오 데이터 및/또는 오디오 데이터는 MPU 포맷으로 포맷된 데이터(1920), NRT 등의 논 타임드(non timed) 데이터(1950), 및/또는 DASH 세그먼트 형태로 포맷된 데이터(1960) 중에서 적어도 하나에 포함될 수 있다. 또한, 시그널링 데이터(예를 들어, 제1 시그널링 데이터, 제2 시그널링 데이터)는 SLT(1910), 시그널링 데이터(1930), 시그널링 데이터(1940), 및/또는 시그널링 데이터(1980) 중에서 적어도 하나에 포함될 수 있다.The service may include the aforementioned virtual reality service and / or augmented reality service. In addition, the video data and / or audio data may include at least one of data 1920 formatted in MPU format, non timed data 1950 such as NRT, and / or data 1960 formatted in DASH segment form. It can be included in one. In addition, the signaling data (eg, the first signaling data, the second signaling data) may be included in at least one of the SLT 1910, the signaling data 1930, the signaling data 1940, and / or the signaling data 1980. Can be.
도 20은 SLT 와 SLS (service layer signaling) 의 예시적인 관계를 도시한 도면이다.20 is a diagram illustrating an exemplary relationship between SLT and service layer signaling (SLS).
서비스 시그널링은 서비스 디스커버리 및 디스크립션 정보를 제공하고, 두 기능 컴포넌트를 포함한다. 이들은 SLT(2010)를 통한 부트스트랩 시그널링과 SLS(2020, 2030)이다. 예를 들어, MMTP에서의 SLS는 MMT 시그널링 컴포넌츠(2030)로 표현할 수 있다. 이들은 사용자 서비스를 발견하고 획득하는 데 필요한 정보를 나타낸다. SLT(2010)는 수신기가 기본 서비스 리스트를 작성하고 각 서비스에 대한 SLS(2020, 2030)의 발견을 부트스트랩 할 수 있게 해준다.Service signaling provides service discovery and description information and includes two functional components. These are bootstrap signaling through SLT 2010 and SLS 2020 and 2030. For example, SLS in MMTP may be represented by MMT signaling components 2030. These represent the information needed to discover and obtain user services. SLT 2010 allows the receiver to build a basic list of services and bootstrap the discovery of SLSs 2020 and 2030 for each service.
SLT(2010)는 기본 서비스 정보의 매우 빠른 획득을 가능하게 한다. SLS(2020, 2030)는 수신기가 서비스와 그 컨텐츠 컴포넌트(비디오 데이터 또는 오디오 데이터 등)를 발견하고 이에 접속할 수 있게 해준다. SLT 2010 enables very fast acquisition of basic service information. SLS 2020 and 2030 allow the receiver to discover and access the service and its content components (such as video data or audio data).
전술한 바와 같이 SLT(2010) 는 UDP/IP 를 통해 전송될 수 있다. 이 때, 실시예에 따라 이 전송에 있어 가장 강건한(robust) 방법을 통해 SLT(2010) 에 해당하는 데이터가 전달될 수 있다.As described above, the SLT 2010 may be transmitted through UDP / IP. At this time, according to an embodiment, data corresponding to the SLT 2010 may be delivered through the most robust method for this transmission.
SLT(2010) 는 ROUTE 프로토콜에 의해 전달되는 SLS(2020) 에 접근하기 위한 액세스 정보를 가질 수 있다. 즉 SLT(2010) 는 ROUTE 프로토콜에 따른 SLS(2020) 에 부트스트래핑할 수 있다. 이 SLS(2020) 는 전술한 프로토콜 스택에서 ROUTE 윗 레이어에 위치하는 시그널링 정보로서, ROUTE/UDP/IP 를 통해 전달될 수 있다. 이 SLS(2020) 는 ROUTE 세션에 포함되는 LCT 세션들 중 하나를 통하여 전달될 수 있다. 이 SLS(2020) 를 이용하여 원하는 서비스에 해당하는 서비스 컴포넌트(2040)에 접근할 수 있다.The SLT 2010 may have access information for accessing the SLS 2020 carried by the ROUTE protocol. That is, the SLT 2010 may bootstrap the SLS 2020 according to the ROUTE protocol. The SLS 2020 is signaling information located in a layer above ROUTE in the above-described protocol stack and may be transmitted through ROUTE / UDP / IP. This SLS 2020 may be delivered via one of the LCT sessions included in the ROUTE session. The SLS 2020 may be used to access a service component 2040 corresponding to a desired service.
또한 SLT(2010) 는 MMTP 에 의해 전달되는 SLS(MMT 시그널링 컴포넌트, 2030)에 접근하기 위한 액세스 정보를 가질 수 있다. 즉, SLT(2010) 는 MMTP 에 따른 SLS(MMT 시그널링 컴포넌트, 2030) 에 부트스트래핑할 수 있다. 이 SLS(MMT 시그널링 컴포넌트, 2030) 는 MMT 에서 정의하는 MMTP 시그널링 메시지(Signaling Message)에 의해 전달될 수 있다. 이 SLS(MMT 시그널링 컴포넌트, 2030) 를 이용하여 원하는 서비스에 해당하는 스트리밍 서비스 컴포넌트(MPU, 2050) 에 접근할 수 있다. 전술한 바와 같이, 본 명세서에서는 NRT 서비스 컴포넌트(2060)는 ROUTE The SLT 2010 may also have access information for accessing the SLM (MMT signaling component) 2030 carried by the MMTP. In other words, the SLT 2010 may bootstrap to the SLM (MMT signaling component) 2030 according to the MMTP. This SLS (MMT signaling component) 2030 may be carried by an MMTP signaling message defined in MMT. The SLS (MMT signaling component) 2030 may be used to access a streaming service component (MPU) 2050 corresponding to a desired service. As described above, in the present specification, the NRT service component 2060 is ROUTE.
프로토콜을 통해 전달되는데, MMTP 에 따른 SLS(MMT 시그널링 컴포넌트, 2030) 는 이에 접근하기 위한 정보도 포함할 수 있다. 브로드밴드 딜리버리에서, SLS는 HTTP(S)/TCP/IP로 전달된다.Passed through a protocol, the SLS (MMT signaling component) 2030 according to MMTP may also include information for accessing it. In broadband delivery, SLS is carried over HTTP (S) / TCP / IP.
서비스는 서비스 컴포넌츠(2040), 스트리밍 서비스 컴포넌츠(2050), 및/또는 NRT 서비스 컴포넌츠(2060) 중에서 적어도 하나에 포함될 수 있다. 또한, 시그널링 데이터(예를 들어, 제1 시그널링 데이터, 제2 시그널링 데이터)는 SLT(2010), SLS(2020), 및/또는 MMT 시그널링 컴포넌츠(2030) 중에서 적어도 하나에 포함될 수 있다.The service may be included in at least one of the service components 2040, the streaming service components 2050, and / or the NRT service components 2060. In addition, the signaling data (eg, the first signaling data and the second signaling data) may be included in at least one of the SLT 2010, the SLS 2020, and / or the MMT signaling components 2030.
도 21은 예시적인 SLT 를 도시한 도면이다. 21 is a diagram illustrating an example SLT.
SLT는 수신기가 채널 이름, 채널 넘버 등으로 그것이 수신할 수 있는 모든 서비스의 리스트를 구축할 수 있게 하는 빠른 채널 스캔을 지원한다. 또한 SLT는 수신기가 각 서비스에 대해 SLS를 발견할 수 있게 하는 부트스트랩 정보를 제공한다.SLT supports fast channel scan that allows the receiver to build a list of all the services it can receive by channel name, channel number, and so on. The SLT also provides bootstrap information that allows the receiver to discover the SLS for each service.
SLT는 @bsid, @sltCapabilities, sltInetUrl 엘레멘트, 및/또는 Service 엘레멘트 중에서 적어도 하나를 포함할 수 있다.The SLT may include at least one of @bsid, @sltCapabilities, sltInetUrl element, and / or Service element.
@bsid는 브로드캐스트 스트림의 고유 식별자일 수 있다. @bsid의 값은 지역적인 단계에서 고유한 값을 가질 수 있다.@bsid may be a unique identifier of the broadcast stream. The value of @bsid can be unique at the local level.
@sltCapabilities는 해당 SLT에서 기술하는 모든 서비스에서 의미 있는 방송을 하기 위해 요구되는 사양을 의미한다.@sltCapabilities means the specifications required for meaningful broadcasting in all services described in the SLT.
sltInetUrl 엘레멘트는 해당 SLT에서 기술하는 모든 서비스의 가이드 정보를 제공하는 ESG(Electronic Service Guide) 데이터 혹은 서비스 시그널링 정보를 브로드밴드망을 통해서 다운 받을 수 있는 URL(Uniform Resource Locator) 값을 의미한다. sltInetUrl 엘리먼트는 @URLtype을 포함할 수 있다. The sltInetUrl element refers to a URL (Uniform Resource Locator) value which can download ESG (Electronic Service Guide) data or service signaling information providing guide information of all services described in the corresponding SLT through a broadband network. The sltInetUrl element may include @URLtype.
@URLtype은 sltInetUrl엘레멘트가 지시하는 URL을 통해 다운 받을 수 있는 파일의 종류를 의미한다.@URLtype refers to the type of file that can be downloaded through the URL indicated by the sltInetUrl element.
Service 엘레멘트는 서비스 정보를 포함할 수 있다. 서비스 엘레멘트는 @serviceId, @sltSvcSeqNum, @protected, @majorChannelNo, @minorChannelNo, @serviceCategory, @shortServiceName, @hidden, @broadbandAccessRequired, @svcCapabilities, BroadcastSignaling 엘레멘트, 및/또는 svcInetUrl 엘레멘트 중에서 적어도 하나를 포함할 수 있다.The service element may include service information. The service element may include at least one of @serviceId, @sltSvcSeqNum, @protected, @majorChannelNo, @minorChannelNo, @serviceCategory, @shortServiceName, @hidden, @broadbandAccessRequired, @svcCapabilities, BroadcastSignaling element, and / or svcInetUrl element.
@serviceId는 서비스의 고유 식별자이다.@serviceId is a unique identifier of the service.
@sltSvcSeqNum는 SLT에서 정의하는 각 서비스의 내용이 변경된 바 있는지에 대한 정보를 의미하는 값을 가진다.@sltSvcSeqNum has a value that indicates information about whether the contents of each service defined in the SLT have changed.
@protected는 “true” 값을 가질 경우, 해당 서비스를 화면에 보여주기 위해서는 서비스를 구성하는 컴포넌트 중 하나라도 보호가 되어있음을 의미한다.If @protected has a value of “true”, it means that one of the components that make up a service is protected in order to show the service on the screen.
@majorChannelNo는 해당 서비스의 major 채널 넘버를 의미한다.@majorChannelNo means the major channel number of the service.
@minorChannelNo는 해당 서비스이 minor 채널 넘버를 의미한다.@minorChannelNo means that the service is minor channel number.
@serviceCategory는 해당 서비스의 종류를 지시한다.@serviceCategory indicates the type of service.
@shortServiceName는 해당 서비스의 이름을 지시한다.@shortServiceName indicates the name of the service.
@hidden는 해당 서비스가 서비스 스캔 시, 사용자에게 보여져야 하는지 아닌지를 지시한다.@hidden indicates whether the service should be shown to the user when scanning the service.
@broadbandAccessRequired는 해당 서비스를 사용자에게 의미있게 보여주기 위해서 브로드밴드망에 접속을 해야하는지를 지시한다.@broadbandAccessRequired indicates whether to connect to the broadband network in order to show the service meaningfully to the user.
@svcCapabilities는 해당 서비스를 사용자에게 의미 있게 보여주기 위해 지원 해야 하는 사양을 지시한다.@svcCapabilities specifies the specifications that must be supported to make the service meaningful to the user.
BroadcastSignaling 엘레멘트는 방송망으로 전송되는 시그널링의 전송 프로토콜, 위치, 식별자 값들에 대한 정의를 포함한다. BroadcastSignaling 엘레멘트는 @slsProtocol, @slsMajorProtocolVersion, @slsMinorProtocolVersion, @slsPlpId, @slsDestinationIpAddress, @slsDestinationUdpPort, 및/또는 @slsSourceIpAddress중에서 적어도 하나를 포함할 수 있다.The BroadcastSignaling element includes a definition of a transport protocol, a location, and identifier values of signaling transmitted to a broadcast network. The BroadcastSignaling element may include at least one of @slsProtocol, @slsMajorProtocolVersion, @slsMinorProtocolVersion, @slsPlpId, @slsDestinationIpAddress, @slsDestinationUdpPort, and / or @slsSourceIpAddress.
@slsProtocol는 해당 서비스의 SLS가 전송되는 프로토콜을 나타낸다.@slsProtocol represents the protocol over which the SLS of the service is transmitted.
@slsMajorProtocolVersion는 해당 서비스의 SLS가 전송되는 프로토콜의 major 버전을 나타낸다.@slsMajorProtocolVersion represents the major version of the protocol over which the SLS of the service is transmitted.
@slsMinorProtocolVersion는 해당 서비스의 SLS가 전송되는 프로토콜의 minor 버전을 나타낸다.@slsMinorProtocolVersion represents the minor version of the protocol over which the SLS of the service is transmitted.
@slsPlpId는 SLS가 전송되는 PLP 식별자를 나타낸다.@slsPlpId indicates the PLP identifier through which the SLS is transmitted.
@slsDestinationIpAddress는 SLS 데이터의 destination IP 주소값을 나타낸다.@slsDestinationIpAddress represents the destination IP address of SLS data.
@slsDestinationUdpPort는 SLS 데이터의 destination Port 값을 나타낸다.@slsDestinationUdpPort represents the destination Port value of SLS data.
@slsSourceIpAddress는 SLS 데이터의 source IP 주소값을 나타낸다.@slsSourceIpAddress represents the source IP address of SLS data.
svcInetUrl 엘레멘트는 ESG 서비스 혹은 해당 서비스와 연관된 시그널링 데이터를 다운받을 수 있는 URL 값을 나타낸다. svcInetUrl 엘레멘트는 @URLtype을 포함할 수 있다.The svcInetUrl element indicates a URL value for downloading ESG service or signaling data related to the service. The svcInetUrl element may contain @URLtype.
@URLtype는 svcInetUrl 엘레먼트가 지시하는 URL을 통해 다운 받을 수 있는 파일의 종류를 의미한다.@URLtype refers to the type of file that can be downloaded through the URL indicated by the svcInetUrl element.
도 22는 serviceCategory 속성의 예시적인 코드 벨류를 나타낸 도면이다.22 is a diagram illustrating an example code value of a serviceCategory attribute.
예를 들어, serviceCategory 속성의 값이 ‘0’이면, 서비스는 특정되지 않을 수 있다. serviceCategory 속성의 값이 ‘1’이면, 해당 서비스는 리니어 오디오/비디오 서비스일 수 있다. serviceCategory 속성의 값이 ‘2’이면, 해당 서비스는 리니어 오디오 서비스일 수 있다. serviceCategory 속성의 값이 ‘3’이면, 해당 서비스는 앱-베이스드 서비스일 수 있다. serviceCategory 속성의 값이 ‘4’이면, 해당 서비스는 전자 서비스 가이드(ESG) 서비스일 수 있다. serviceCategory 속성의 값이 ‘5’이면, 해당 서비스는 긴급 경보 서비스(EAS)일 수 있다. For example, if the value of the serviceCategory attribute is '0', the service may not be specified. If the value of the serviceCategory attribute is '1', the service may be a linear audio / video service. If the value of the serviceCategory attribute is '2', the service may be a linear audio service. If the value of the serviceCategory attribute is '3', the service may be an app-based service. If the value of the serviceCategory attribute is '4', the service may be an electronic service guide (ESG) service. If the value of the serviceCategory attribute is '5', the service may be an emergency alert service (EAS).
serviceCategory 속성의 값이 ‘6’이면, 해당 서비스는 가상 현실 및/또는 증강 현실 서비스일 수 있다.If the value of the serviceCategory attribute is '6', the corresponding service may be a virtual reality and / or augmented reality service.
화상 회의 서비스의 경우, serviceCategory 속성의 값은 ‘6’일 수 있다(2210).For the video conferencing service, the value of the serviceCategory attribute may be '6' (2210).
도 23은 예시적인 SLS 부트스트래핑과 예시적인 서비스 디스커버리 과정을 도시한 도면이다.FIG. 23 illustrates an example SLS bootstrapping and example service discovery process.
수신기는 SLT를 획득할 수 있다. SLT는 SLS 획득을 부트스트랩 하는데 사용되고, 그 후 SLS는 ROUTE 세션 또는 MMTP 세션에서 전달되는 서비스 컴포넌트를 획득하는 데 사용된다.The receiver can obtain the SLT. SLT is used to bootstrap SLS acquisition, and then SLS is used to acquire service components carried in a ROUTE session or an MMTP session.
ROUTE 세션에서 전달되는 서비스와 관련하여, SLT는 PLPID(#1), 소스 IP 어드레스 (sIP1), 데스티네이션 IP 어드레스 (dIP1), 및 데스티네이션 포트 넘버 (dPort1)와 같은 SLS 부트스트래핑 정보를 제공한다. MMTP 세션에서 전달되는 서비스와 관련하여, SLT는 PLPID(#2), 데스티네이션 IP 어드레스 (dIP2), 및 데스티네이션 포트 넘버 (dPort2)와 같은 SLS 부트스트래핑 정보를 제공한다.With respect to the service delivered in the ROUTE session, the SLT provides SLS bootstrapping information such as PLPID (# 1), source IP address (sIP1), destination IP address (dIP1), and destination port number (dPort1). . With regard to the service delivered in the MMTP session, the SLT provides SLS bootstrapping information such as PLPID (# 2), destination IP address (dIP2), and destination port number (dPort2).
참고로, 브로드캐스트 스트림은 특정 대역 내에 집중된 캐리어 주파수 측면에서 정의된 RF 채널의 개념이다. PLP (physical layer pipe)는 RF 채널의 일부에 해당된다. 각 PLP는 특정 모듈레이션 및 코딩 파라미터를 갖는다.For reference, a broadcast stream is a concept of an RF channel defined in terms of carrier frequencies concentrated within a specific band. PLP (physical layer pipe) is a part of the RF channel. Each PLP has specific modulation and coding parameters.
ROUTE를 이용한 스트리밍 서비스 딜리버리에 대해, 수신기는 PLP 및 IP/UDP/LCT 세션으로 전달되는 SLS 프래그먼트를 획득할 수 있다. 이들 SLS 프래그먼트는 USBD/USD(User Service Bundle Description/User Service Description) 프래그먼트, S-TSID(Service-based Transport Session Instance Description) 프래그먼트, MPD(Media Presentation Description) 프래그먼트를 포함한다. 그것들은 하나의 서비스와 관련이 있다.For streaming service delivery using ROUTE, the receiver can obtain the SLS fragments delivered to the PLP and IP / UDP / LCT sessions. These SLS fragments include a User Service Bundle Description / User Service Description (USBD / USD) fragment, a Service-based Transport Session Instance Description (S-TSID) fragment, and a Media Presentation Description (MPD) fragment. They are related to a service.
MMTP를 이용한 스트리밍 서비스 딜리버리에 대해, 수신기는 PLP 및 MMTP 세션으로 전달되는 SLS 프래그먼트를 획득할 수 있다. 이들 SLS 프래그먼트는 USBD/USD 프래그먼트, MMT 시그널링 메시지를 포함할 수 있다. 그것들은 하나의 서비스와 관련이 있다. For streaming service delivery using MMTP, the receiver may obtain SLS fragments that are delivered in PLP and MMTP sessions. These SLS fragments may include USBD / USD fragments, MMT signaling messages. They are related to a service.
수신기는 SLS 프래그먼트를 기초로 비디오 컴포넌트 및/또는 오디오 컴포넌트를 획득할 수 있다.The receiver may obtain a video component and / or an audio component based on the SLS fragment.
도시된 실시예와는 달리, 하나의 ROUTE 또는 MMTP 세션은 복수개의 PLP 를 통해 전달될 수 있다. 즉, 하나의 서비스는 하나 이상의 PLP 를 통해 전달될 수도 있다. 전술한 바와 같이 하나의 LCT 세션은 하나의 PLP 를 통해 전달될 수 있다. 도시된 것과 달리 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 서로 다른 ROUTE 세션들을 통해 전달될 수도 있다. 또한, 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 서로 다른 MMTP 세션들을 통해 전달될 수도 있다. 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 ROUTE 세션과 MMTP 세션에 Unlike the illustrated embodiment, one ROUTE or MMTP session may be delivered through a plurality of PLPs. That is, one service may be delivered through one or more PLPs. As described above, one LCT session may be delivered through one PLP. Unlike shown, components constituting one service may be delivered through different ROUTE sessions. In addition, according to an embodiment, components constituting one service may be delivered through different MMTP sessions. According to an embodiment, components constituting one service are connected to a ROUTE session and an MMTP session.
나뉘어 전달될 수도 있다. 도시되지 않았으나, 하나의 서비스를 구성하는 컴포넌트가 브로드밴드를 통해 전달(하이브리드 딜리버리)되는 경우도 있을 수 있다.It may be delivered separately. Although not shown, a component constituting one service may be delivered through a broadband (hybrid delivery).
또한, 서비스 데이터(예를 들어, 비디오 컴포넌트 및/또는 오디오 컴포넌트) 및/또는 시그널링 데이터(예를 들어, SLS 프래그먼트)는 방송망 및/또는 브로드밴드를 통해서 전송될 수 있다.In addition, service data (eg, video component and / or audio component) and / or signaling data (eg, SLS fragment) may be transmitted through a broadcast network and / or broadband.
도 24는 ROUTE/DASH 를 위한 예시적인 USBD/USD 프래그먼트를 도시한 도면이다. 24 is a diagram illustrating an exemplary USBD / USD fragment for ROUTE / DASH.
USBD/USD (User Service Bundle Description/User Service Description) 프래그먼트는 서비스 레이어 특성을 서술하고, S-TSID 프래그먼트에 대한 URI(Uniform Resource Identifier) 레퍼런스 및 MPD 프래그먼트에 대한 URI 레퍼런스를 제공한다. 즉, USBD/USD 프래그먼트는 S-TSID 프래그먼트와 MPD 프래그먼트를 각각 레퍼런싱할 수 있다. USBD/USD 프래그먼트는 USBD 프래그먼트로 표현할 수 있다.The USBD / USD (User Service Bundle Description / User Service Description) fragment describes the service layer characteristics and provides a Uniform Resource Identifier (URI) reference for the S-TSID fragment and a URI reference for the MPD fragment. That is, the USBD / USD fragment may refer to the S-TSID fragment and the MPD fragment, respectively. The USBD / USD fragment can be expressed as a USBD fragment.
USBD/USD 프래그먼트는 bundleDescription 루트 엘레멘트를 가질 수 있다. bundleDescription 루트 엘레멘트는 userServiceDescription 엘레멘트를 가질 수 있다. userServiceDescription 엘레멘트는 하나의 서비스에 대한 인스턴스일 수 있다.The USBD / USD fragment can have a bundleDescription root element. The bundleDescription root element may have a userServiceDescription element. The userServiceDescription element may be an instance of one service.
userServiceDescription 엘레멘트는 @globalServiceId, @serviceId, @serviceStatus, @fullMPDUri, @sTSIDUri, name 엘레멘트, serviceLanguage 엘레멘트, deliveryMethod 엘레멘트, 및/또는 serviceLinakge 엘레멘트 중에서 적어도 하나를 포함할 수 있다.The userServiceDescription element may include at least one of @globalServiceId, @serviceId, @serviceStatus, @fullMPDUri, @sTSIDUri, name element, serviceLanguage element, deliveryMethod element, and / or serviceLinakge element.
@globalServiceId는 서비스를 식별하는 글로벌적으로 고유한 URI를 지시할 수 있다.@globalServiceId can indicate a globally unique URI that identifies the service.
@serviceId는 SLT에 있는 해당하는 서비스 엔트리에 대한 레퍼런스이다.@serviceId is a reference to the corresponding service entry in the SLT.
@serviceStatus는 해당 서비스의 상태는 특정할 수 있다. 그 값은 해당 서비스가 활성화되어 있는지 비활성화되어 있는지를 나타낸다.@serviceStatus can specify the status of the service. The value indicates whether the service is enabled or disabled.
@fullMPDUri는 브로드캐스트 및/또는 브로드밴드 상에서 전달되는 서비스의 컨텐츠 컴포넌트에 대한 디스크립션을 포함하는 MPD 프래그먼트를 레퍼런싱할 수 있다.@fullMPDUri may reference an MPD fragment containing a description of the content component of the service delivered over broadcast and / or broadband.
@sTSIDUri는 해당 서비스의 컨텐츠를 전달하는 전송 세션에 액세스 관련 파라미터를 제공하는 S-TSID 프래그먼트를 레퍼런싱할 수 있다.@sTSIDUri may refer to an S-TSID fragment that provides access-related parameters to a transport session that delivers the content of the service.
name 엘레먼트는 서비스의 네임을 나타낼 수 있다. name 엘레먼트는 서비스 네임의 언어를 나타내는 @lang을 포함할 수 있다.The name element may indicate a name of a service. The name element may include @lang indicating the language of the service name.
serviceLanguage 엘레먼트는 서비스의 이용 가능한 언어를 나타낼 수 있다. The serviceLanguage element may indicate an available language of the service.
deliveryMethod 엘레먼트는 액세스의 브로드캐스트 및 (선택적으로) 브로드밴드 모드 상에서 서비스의 컨텐츠에 속하는 정보에 관련된 트랜스포트의 컨테이너일 수 있다. deliveryMethod 엘레멘트는 broadcastAppService 엘레멘트와 unicastAppService 엘레멘트를 포함할 수 있다. 각각의 하위 엘레멘트들은 basePattern 엘레멘트를 하위 엘레멘트로 가질 수 있다.The deliveryMethod element may be a container of transports related to information pertaining to the content of the service on broadcast and (optionally) broadband modes of access. The deliveryMethod element may include a broadcastAppService element and a unicastAppService element. Each subelement may have a basePattern element as a subelement.
broadcastAppService 엘레멘트는 소속된 미디어 프레젠테이션의 모든 기간에 걸쳐 서비스에 속하는 해당 미디어 컴포넌트를 포함하는 다중화된 또는 비다중화된 형태의 브로드캐스트 상에서 전달되는 DASH 레프레젠테이션일 수 있다. 즉, 각각의 본 필드들은, 방송망을 통해 전달되는 DASH 레프레젠테이션(representation) 들을 의미할 수 있다.The broadcastAppService element may be a DASH presentation delivered on a multiplexed or non-multiplexed form of broadcast containing corresponding media components belonging to the service over the duration of the media presentation to which it belongs. That is, each of the present fields may mean DASH presentations delivered through the broadcasting network.
unicastAppService는 소속된 미디어 프레젠테이션의 모든 기간에 걸쳐 서비스에 속하는 구성 미디어 컨텐츠 컴포넌트를 포함하는 다중화된 또는 비다중화된 형태의 브로드밴드 상에서 전달되는 DASH 레프레젠테이션일 수 있다. 즉, 각각의 본 필드들은, 브로드밴드를 통해 전달되는 DASH 레프레젠테이션(representation) 들을 의미할 수 있다.The unicastAppService may be a DASH presentation delivered on a multiplexed or non-multiplexed form of broadband including constituent media content components belonging to the service over all durations of the media presentation to which it belongs. That is, each of the present fields may mean DASH representations delivered through broadband.
basePattern은 포함된 기간에 페어런트 레프레젠테이션의 미디어 분할을 요구하기 위해 DASH 클라이언트에 의해 사용되는 분할 URL의 모든 부분에 대해 매칭되도록 수신기에 의해 사용되는 문자 패턴일 수 있다.The basePattern may be a character pattern used by the receiver to match against all parts of the fragment URL used by the DASH client to request media segmentation of the parent presentation in the included period.
serviceLinakge 엘레멘트는 서비스 링키지 정보를 포함할 수 있다.The serviceLinakge element may include service linkage information.
도 25는 ROUTE/DASH 를 위한 예시적인 S-TSID 프래그먼트를 도시한 도면이다.FIG. 25 is a diagram illustrating an example S-TSID fragment for ROUTE / DASH. FIG.
S-TSID(Service-based Transport Session Instance Description) 프래그먼트는 서비스의 미디어 컨텐츠 컴포넌트가 전달되는 하나 이상의 ROUTE/LCT 세션에 대한 전송 세션 디스크립션 및 해당 LCT 세션에서 전달되는 딜리버리 오브젝트의 디스크립션을 제공한다. 수신기는 S-TSID 프래그먼트를 기초로 서비스에 포함되는 적어도 하나의 컴포넌트(예를 들어, 비디오 컴포넌트 및/또는 오디오 컴포넌트)를 획득할 수 있다.The Service-based Transport Session Instance Description (S-TSID) fragment provides a transport session description for one or more ROUTE / LCT sessions to which the media content component of the service is delivered and a description of the delivery object delivered in that LCT session. The receiver may obtain at least one component (eg, video component and / or audio component) included in the service based on the S-TSID fragment.
S-TSID 프래그먼트는 S-TSID 루트 엘레멘트를 포함할 수 있다. S-TSID 루트 엘레멘트는 @serviceId 및/또는 적어도 하나의 RS 엘레멘트를 포함할 수 있다.The S-TSID fragment may include an S-TSID root element. The S-TSID root element may include @serviceId and / or at least one RS element.
@serviceID는 USD에서 서비스 엘레멘트에 해당하는 레퍼런스일 수 있다.@serviceID may be a reference corresponding to a service element in USD.
RS 엘레멘트는 해당 서비스 데이터들을 전달하는 ROUTE 세션에 대한 정보를 가질 수 있다.The RS element may have information about a ROUTE session for delivering corresponding service data.
RS 엘레멘트는 @bsid, @sIpAddr, @dIpAddr, @dport, @PLPID 및/또는 적어도 하나의 LS 엘레멘트 중에서 적어도 하나를 포함할 수 있다.The RS element may include at least one of @bsid, @sIpAddr, @dIpAddr, @dport, @PLPID and / or at least one LS element.
@bsid는 broadcastAppService의 컨텐츠 컴포넌트가 전달되는 브로드캐스트 스트림의 식별자일 수 있다.@bsid may be an identifier of a broadcast stream to which the content component of broadcastAppService is delivered.
@sIpAddr은 소스 IP 어드레스를 나타낼 수 있다. 여기서 소스 IP 어드레스는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 소스 IP 어드레스일 수 있다.@sIpAddr may indicate the source IP address. Here, the source IP address may be a source IP address of a ROUTE session for delivering a service component included in a corresponding service.
@dIpAddr은 데스티네이션 IP 어드레스를 나타낼 수 있다. 여기서 데스티네이션 IP 어드레스는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 데스티네이션 IP 어드레스일 수 있다.@dIpAddr may indicate a destination IP address. Here, the destination IP address may be a destination IP address of a ROUTE session for delivering a service component included in a corresponding service.
@dport는 데스티네이션 포트를 나타낼 수 있다. 여기서 데스티네이션 포트는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 데스티네이션 포트일 수 있다.@dport can represent a destination port. Here, the destination port may be a destination port of a ROUTE session for delivering a service component included in a corresponding service.
@PLPID 는 RS 엘레멘트로 표현되는 ROUTE 세션을 위한 PLP 의 ID 일 수 있다.@PLPID may be an ID of a PLP for a ROUTE session represented by an RS element.
LS 엘레멘트는 해당 서비스 데이터들을 전달하는 LCT 세션에 대한 정보를 가질 수 있다.The LS element may have information about an LCT session that carries corresponding service data.
LS 엘레멘트는 @tsi, @PLPID, @bw, @startTime, @endTime, SrcFlow 및/또는 RprFlow 를 포함할 수 있다.The LS element may include @tsi, @PLPID, @bw, @startTime, @endTime, SrcFlow and / or RprFlow.
@tsi 는 해당 서비스의 서비스 컴포넌트가 전달되는 LCT 세션의 TSI 값을 지시할 수 있다.@tsi may indicate a TSI value of an LCT session in which a service component of a corresponding service is delivered.
@PLPID 는 해당 LCT 세션을 위한 PLP 의 ID 정보를 가질 수 있다. 이 값은 기본 ROUTE 세션 값을 덮어쓸 수도 있다.@PLPID may have ID information of a PLP for a corresponding LCT session. This value may override the default ROUTE session value.
@bw 는 최대 밴드위스 값을 지시할 수 있다. @startTime 은 해당 LCT 세션의 스타트 타임(Start time)을 지시할 수 있다. @endTime 은 해당 LCT 세션의 엔드 타임(End time)을 지시할 수 있다. SrcFlow 엘레멘트는 ROUTE 의 소스 플로우에 대해 기술할 수 있다. RprFlow 엘레멘트는 ROUTE 의 리페어 플로우에 대해 기술할 수 있다.@bw may indicate the maximum bandwiss value. @startTime can indicate the start time of the LCT session. @endTime may indicate an end time of the corresponding LCT session. The SrcFlow element may describe the source flow of ROUTE. The RprFlow element may describe the repair flow of ROUTE.
S-TSID는 관심 영역 정보를 포함할 수 있다. 구체적으로 RS 엘레멘트 및/또는 LS 엘레멘트는 관심 영역 정보를 포함할 수 있다.The S-TSID may include ROI information. In more detail, the RS element and / or the LS element may include ROI information.
도 26은 예시적인 MPD 프래그먼트를 나타낸 도면이다.FIG. 26 illustrates an exemplary MPD fragment. FIG.
MPD(Media Presentation Description) 프래그먼트는 방송사에 의해 정해진 주어진 듀레이션의 리니어 서비스에 해당하는 DASH 미디어 프레젠테이션의 공식화된 디스크립션을 포함할 수 있다. MPD 프래그먼트는 주로 스트리밍 컨텐츠로서의 DASH 프래그먼트의 딜리버리를 위한 리니어 서비스와 관련된다. MPD는 프래그먼트 URL 형태의 리니어/스트리밍 서비스의 개별 미디어 컴포넌트에 대한 소스 식별자, 및 미디어 프레젠테이션 내의 식별된 리소스의 컨텍스트를 제공한다. MPD는 브로드캐스트 및/또는 브로드밴드를 통해서 전송될 수 있다.The media presentation description (MPD) fragment may include a formal description of the DASH media presentation corresponding to the linear service of a given duration determined by the broadcaster. MPD fragments are primarily associated with linear services for the delivery of DASH fragments as streaming content. The MPD provides the source identifiers for the individual media components of the linear / streaming service in the form of fragment URLs, and the context of the identified resource within the media presentation. MPD may be transmitted over broadcast and / or broadband.
MPD 프래그먼트는 피리어드(Period) 엘레멘트, 어뎁테이션 셋(Adaptation Set) 엘레멘트 및 레프리젠테이션 (Representation) 엘레멘트를 포함할 수 있다.The MPD fragment may include a period element, an adaptation set element, and a presentation element.
피리어드 엘레멘트는 피리어드에 대한 정보를 포함한다. MPD 프래그먼트는 복수의 피리어드에 대한 정보를 포함할 수 있다. 피리어드는 미디어 컨텐츠 재생(presentation)의 연속한 시간 구간을 나타낸다.Period elements contain information about periods. The MPD fragment may include information about a plurality of periods. A period represents a continuous time interval of media content presentation.
어뎁테이션 셋 엘레멘트는 어뎁테이션 셋에 대한 정보를 포함한다. MPD 프래그먼트는 복수의 어뎁테이션 셋에 대한 정보를 포함할 수 있다. 어뎁테이션 셋은 상호전환 가능한 하나 또는 그 이상의 미디어 컨텐츠 컴포넌트를 포함하는 미디어 컴포넌트의 집합이다. 어뎁테이션 셋은 하나 또는 그 이상의 레프리젠테이션을 포함할 수 있다. 어뎁테이션 셋 각각은 서로 다른 언어의 오디오를 포함하거나 서로 다른 언어의 자막을 포함할 수 있다.The adaptation set element includes information about the adaptation set. The MPD fragment may include information about a plurality of adaptation sets. An adaptation set is a collection of media components that includes one or more media content components that can be interchanged. The adaptation set may include one or more representations. Each adaptation set may include audio of different languages or subtitles of different languages.
레프리젠테이션 엘레멘트는 레프리젠테이션에 대한 정보를 포함한다. MPD는 복수의 레프리젠테이션에 대한 정보를 포함할 수 있다. 레프리젠테이션은 하나 또는 그 이상의 미디어 컴포넌트들의 구조화된 모음으로서, 동일한 미디어 컨텐츠 컴포넌트에 대하여 서로 달리 인코딩된 복수의 레프리젠테이션이 존재할 수 있다. 한편, 비트스트림 스위칭(bitstream switching)이 가능한 경우, 전자 장치는 미디어 컨텐츠 재생 도중 업데이트된 정보에 기초하여 수신되는 레프리젠테이션을 다른 레프리젠테이션으로 전환할 수 있다. 특히 전자 장치는 대역폭의 환경에 따라 수신되는 레프리젠테이션을 다른 레프리젠테이션으로 전환할 수 있다. 레프리젠테이션은 복수의 세그먼트들로 분할된다.The representation element contains information about the representation. The MPD may include information about a plurality of representations. A representation is a structured collection of one or more media components, where there may be a plurality of representations encoded differently for the same media content component. On the other hand, when bitstream switching is possible, the electronic device may switch the received presentation to another presentation based on the updated information during media content playback. In particular, the electronic device may convert the received representation into another representation according to the bandwidth environment. The representation is divided into a plurality of segments.
세그먼트는 미디어 컨텐츠 데이터의 단위이다. 레프리젠테이션은 HTTP 1.1(RFC 2616)에서 정의된 HTTP GET 또는 HTTP partial GET method를 이용한 전자 장치의 요청에 따라 세그먼트 또는 세그먼트의 일부분으로 전송될 수 있다.A segment is a unit of media content data. The representation may be transmitted as a segment or part of a segment according to a request of the electronic device using the HTTP GET or HTTP partial GET method defined in HTTP 1.1 (RFC 2616).
또한, 세그먼트는 복수의 서브 세그먼트들을 포함하여 구성될 수 있다. 서브세그먼트는 세그먼트 레벨에서 인덱스될 수 있는 가장 작은 단위(unit)를 의미할 수 있다. 세그먼트는 초기화 세그먼트(Initialization Segment), 미디어 세그먼트(Media Segment), 인덱스 세그먼트 Index Segment), 비트스트림 스위칭 세그먼트(BitstreamSwitching Segment) 등을 포함할 수 있다.In addition, the segment may include a plurality of sub-segments. The subsegment may mean the smallest unit that can be indexed at the segment level. The segment may include an Initialization Segment, a Media Segment, an Index Segment, and a BitstreamSwitching Segment.
MPD 프래그먼트는 관심 영역 정보를 포함할 수 있다. 구체적으로 피리어드(Period) 엘레멘트, 어뎁테이션 셋(Adaptation Set) 엘레멘트 및/또는 레프리젠테이션 (Representation) 엘레멘트는 관심 영역 정보를 포함할 수 있다.The MPD fragment may include ROI information. In more detail, the period element, the adaptation set element, and / or the presentation element may include ROI information.
도 27은 가상 현실 서비스를 복수의 ROUTE 세션을 통해서 수신하는 예시적인 과정을 나타낸 도면이다.27 is a diagram illustrating an exemplary process of receiving a virtual reality service through a plurality of ROUTE sessions.
클라이언트 디바이스(또는 수신기)는 방송망을 통하여 비트스트림을 수신할 수 있다. 예를 들어, 비트 스트림은 서비스를 위한 비디오 데이터 및 제2 시그널링 데이터를 포함할 수 있다. 예를 들어, 제2 시그널링 데이터는 SLT(2710) 및 SLS(2730)를 포함할 수 있다. 서비스는 가상 현실 서비스를 포함할 수 있다. 서비스 데이터는 기본 계층 서비스 데이터(2740) 및 향상 계층 서비스 데이터(2750)를 포함할 수 있다. The client device (or receiver) may receive the bitstream through the broadcast network. For example, the bit stream may include video data and second signaling data for the service. For example, the second signaling data may include an SLT 2710 and an SLS 2730. The service may include a virtual reality service. The service data may include base layer service data 2740 and enhancement layer service data 2750.
비트스트림은 적어도 하나의 물리 계층 프레임을 포함할 수 있다. 물리 계층 프레임은 적어도 하나의 PLP를 포함할 수 있다. 예를 들어, PLP(#0)을 통하여 SLT(2710)가 전송될 수 있다.The bitstream may include at least one physical layer frame. The physical layer frame may include at least one PLP. For example, the SLT 2710 may be transmitted through the PLP # 0.
또한, PLP(#1)은 제1 ROUTE 세션(ROUTE #1)을 포함할 수 있다. 1 ROUTE 세션(ROUTE #1)은 제1 LCT 세션(tsi-sls), 제2 LCT 세션(tsi-bv), 및 제3 LCT 세션(tsi-a)를 포함할 수 있다. 제1 LCT 세션(tsi-sls)을 통해서 SLS(2730)가 전송되고, 제2 LCT 세션(tsi-bv)을 통해서 기본 계층 비디오 데이터(Video Segment, 2740)가 전송되고, 및 제3 LCT 세션(tsi-a)를 통해서 오디오 데이터(Audio Segment)가 전송될 수 있다.In addition, the PLP # 1 may include a first ROUTE session ROUTE # 1. The 1 ROUTE session ROUTE # 1 may include a first LCT session tsi-sls, a second LCT session tsi-bv, and a third LCT session tsi-a. The SLS 2730 is transmitted through the first LCT session tsi-sls, the base layer video data 2740 is transmitted through the second LCT session tsi-bv, and the third LCT session (tsi-sls). Audio data may be transmitted through tsi-a.
또한, PLP(#2)는 제2 ROUTE 세션(ROUTE #2)을 포함할 수 있고, 제2 ROUTE 세션(ROUTE #2)은 제4 LCT 세션(tsi-ev)를 포함할 수 있다. 제4 LCT 세션(tsi-ev)을 통해서 향상 계층 비디오 데이터(Video Segment, 2750)가 전송될 수 있다.In addition, the PLP # 2 may include a second ROUTE session ROUTE # 2, and the second ROUTE session ROUTE # 2 may include a fourth LCT session tsi-ev. Enhancement layer video data (Video Segment) 2750 may be transmitted through a fourth LCT session tsi-ev.
그리고 나서, 클라이언트 디바이스는 SLT(2710)를 획득할 수 있다. 예를 들어, SLT(2710)는 SLS(2730)를 획득하기 위한 부트스트랩 정보(2720)를 포함할 수 있다.The client device can then obtain the SLT 2710. For example, the SLT 2710 may include bootstrap information 2720 for obtaining the SLS 2730.
그리고 나서, 클라이언트 디바이스는, 부트스트랩 정보(2720)을 기초로, 가상 현실 서비스를 위한 SLS(2730)를 획득할 수 있다. 예를 들어, SLS는 USBD/USD 프래그먼트, S-TSID 프래그먼트, 및/또는 MPD 프래그먼트를 포함할 수 있다. USBD/USD 프래그먼트, S-TSID 프래그먼트, 및/또는 MPD 프래그먼트 중에서 적어도 하나는 관심 영역 정보를 포함할 수 있다. 이하에서는 MPD 프래그먼트가 관심 영역 정보를 포함하는 것을 전제로 설명한다.The client device may then obtain the SLS 2730 for the virtual reality service based on the bootstrap information 2720. For example, the SLS may include a USBD / USD fragment, an S-TSID fragment, and / or an MPD fragment. At least one of the USBD / USD fragment, the S-TSID fragment, and / or the MPD fragment may include ROI information. In the following description, it is assumed that the MPD fragment includes ROI information.
그리고 나서, 클라이언트 디바이스는, USBD/USD 프래그먼트를 기초로 S-TSID 프래그먼트 및/또는 MPD 프래그먼트를 획득할 수 있다. 클라이언트 디바이스는, S-TSID 프래그먼트 및 MPD 프래그먼트를 기초로, LCT 세션을 통해서 전송되는 미디어 컴포넌트와 MPD 프래그먼트의 레프리젠테이션을 매칭시킬 수 있다.The client device may then obtain the S-TSID fragment and / or the MPD fragment based on the USBD / USD fragment. The client device may match the representation of the MPD fragment with the media component transmitted over the LCT session based on the S-TSID fragment and the MPD fragment.
그리고 나서, 클라이언트 디바이스는, S-TSID 프래그먼트의 RS 엘리먼트(ROUTE #1)를 기초로 기본 계층 비디오 데이터(2740) 및 오디오 데이터를 획득할 수 있다. 또한, 클라이언트 디바이스는, S-TSID 프래그먼트의 RS 엘리먼트(ROUTE #2)를 기초로 향상 계층 비디오 데이터(2750) 및 오디오 데이터를 획득할 수 있다.The client device can then obtain the base layer video data 2740 and audio data based on the RS element (ROUTE # 1) of the S-TSID fragment. The client device may also obtain enhancement layer video data 2750 and audio data based on the RS element (ROUTE # 2) of the S-TSID fragment.
그리고 나서, 클라이언트 디바이스는, MPD 프래그먼트를 기초로, 서비스 데이터(예를 들어, 기본 계층 비디오 데이터, 향상 계층 비디오 데이터, 오디오 데이터)를 디코딩할 수 있다.The client device can then decode the service data (eg, base layer video data, enhancement layer video data, audio data) based on the MPD fragment.
보다 구체적으로, 클라이언트 디바이스는, 기본 계층 비디오 데이터 및/또는를 관심 영역 정보를 기초로, 향상 계층 비디오 데이터를 디코딩할 수 있다.More specifically, the client device may decode the enhancement layer video data based on the base layer video data and / or region of interest information.
이상에서는 향상 계층 비디오 데이터가 제2 ROUTE 세션(ROUTE #2)를 통해서 전송되는 것으로 설명하였지만, 향상 계층 비디오 데이터는 MMTP 세션을 통해서 전송될 수도 있다.In the above description, the enhancement layer video data is transmitted through the second ROUTE session (ROUTE # 2). However, the enhancement layer video data may be transmitted through the MMTP session.
도 28는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.28 is a diagram illustrating an exemplary configuration of a client device.
도 (a)를 참조하면, 따른 클라이언트 디바이스(A2800)는 영상 입력부, 오디오 입력부, 센서부, 영상 출력부, 오디오 출력부, 통신부(A2810), 및/또는 제어부(A2820) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(A2800)에 대한 구체적인 내용은 전술한 클라이언트 디바이스의 내용을 모두 포함할 수 있다.Referring to FIG. (A), the client device A2800 may include at least one of an image input unit, an audio input unit, a sensor unit, an image output unit, an audio output unit, a communication unit A2810, and / or a controller A2820. Can be. For example, the details of the client device A2800 may include all the contents of the above-described client device.
제어부(A2820)는 시그널링 데이터 추출부, 디코더, 화자 판단부, 시선 판단부, 및/또는 시그널링 데이터 생성부 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 제어부(A2820)에 대한 구체적인 내용은 전술한 제어부의 내용을 모두 포함할 수 있다.The controller A2820 may include at least one of a signaling data extractor, a decoder, a speaker determiner, a gaze determiner, and / or a signaling data generator. For example, the details of the controller A2820 may include all of the above-described contents of the controller.
도면을 참조하면, 클라이언트 디바이스(또는 수신기, 영상 수신 장치)는 통신부(A2810), 및/또는 제어부(A2820)를 포함할 수 있다. 제어부(A2820)는 기본 계층 디코더(A2821) 및/또는 향상 계층 디코더(A2825)를 포함할 수 있다.Referring to the drawings, a client device (or a receiver or an image receiving apparatus) may include a communication unit A2810 and / or a controller A2820. The controller A2820 may include a base layer decoder A2821 and / or an enhancement layer decoder A2825.
통신부(A2810)는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신할 수 있다. 통신부(A2810)는 방송망 및/또는 브로드밴드를 통하여 비트스트림을 수신할 수 있다.The communication unit A2810 may receive a bitstream including video data for a virtual reality service. The communication unit A2810 may receive a bitstream through a broadcast network and / or broadband.
상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.The video data may include base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
기본 계층 디코더(A2821)는 상기 기본 계층 비디오 데이터를 디코딩할 수 있다.The base layer decoder A2821 may decode the base layer video data.
향상 계층 디코더(A2825)는 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다.The enhancement layer decoder A2825 may decode the at least one enhancement layer video data based on the base layer video data.
상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.The at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
또한, 제어부(A2820)는 제1 시그널링 데이터를 생성하는 시그널링 데이터 생성부를 더 포함할 수 있다.In addition, the controller A2820 may further include a signaling data generator that generates first signaling data.
상기 제1 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다.The first signaling data may include image configuration information. The image configuration information may include at least one of gaze information indicating a gaze direction of the user and a zoom area information indicating the viewing angle of the user in the virtual space.
또한, 제어부(A2820)는 상기 시선 정보에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역에 포함되는지 판단하는 시선 판단부를 더 포함할 수 있다.The controller A2820 may further include a gaze determination unit that determines whether a gaze area corresponding to the gaze information is included in the at least one ROI.
또한, 상기 통신부(A2810)는, 상기 시선 영역이 상기 적어도 하나의 관심 영역 외의 영역에 포함되면, 상기 제1 시그널링 데이터를 서버(또는 서버 디바이스, 송신기, 영상 전송 장치) 및/또는 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치)로 전송할 수 있다.이 경우, 제1 시그널링 데이터를 수신한 서버, 서버 디바이스 및/또는 적어도 하나의 클라이언트 디바이스는 상기 적어도 하나의 관심 영역에 상기 시선 정보에 대응되는 시선 영역을 포함시킬 수 있다. 즉, 관심 영역은 가상 공간 내에서의 화자를 포함하는 영역, 적어도 하나의 향상 계층 비디오 데이터를 이용하여 표현되는 것으로 미리 정해진 영역, 시선 정보에 대응되는 시선 영역 중에서 적어도 하나를 포함할 수 있다.In addition, when the gaze area is included in an area other than the at least one region of interest, the communication unit A2810 may transmit the first signaling data to a server (or a server device, a transmitter, an image transmission device) and / or at least one client. In this case, the server, the server device, and / or the at least one client device receiving the first signaling data may correspond to the gaze information corresponding to the gaze information in the at least one ROI. It may include. That is, the region of interest may include at least one of a region including the speaker in the virtual space, a region that is predetermined by using at least one enhancement layer video data, and a region of gaze corresponding to the gaze information.
또한, 상기 비트스트림은 제2 시그널링 데이터를 더 포함할 수 있다.The bitstream may further include second signaling data.
상기 통신부(A2810)는 상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 수신할 수 있다.The communication unit A2810 may independently receive the base layer video data and the at least one enhancement layer video data based on the second signaling data through a plurality of sessions.
예를 들어, 통신부(A2810)는 기본 계층 비디오 데이터를 제1 ROUTE 세션을 통해서 수신하고, 적어도 하나의 향상 계층 비디오 데이터를 적어도 하나의 제2 ROUTE 세션을 통해서 수신할 수 있다. 또는, 통신부(A2810)는 기본 계층 비디오 데이터를 ROUTE 세션을 통해서 수신하고, 적어도 하나의 향상 계층 비디오 데이터를 적어도 하나의 MMTP 세션을 통해서 수신할 수 있다.For example, the communication unit A2810 may receive base layer video data through a first ROUTE session and receive at least one enhancement layer video data through at least one second ROUTE session. Alternatively, the communication unit A2810 may receive base layer video data through a ROUTE session and receive at least one enhancement layer video data through at least one MMTP session.
또한, 상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터(또는 SLS) 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블(또는 SLT) 중에서 적어도 하나를 포함할 수 있다.The second signaling data may include at least one of service layer signaling data (or SLS) including information for acquiring the video data and a service list table (or SLT) including information for acquiring the service layer signaling data. It may include one.
또한, 상기 서비스 리스트 테이블은 서비스의 카테고리를 지시하는 서비스 카테고리 속성을 포함할 수 있다. 예를 들어, 상기 서비스 카테고리 속성은 상기 가상 현실 서비스를 지시할 수 있다.In addition, the service list table may include a service category attribute indicating a category of a service. For example, the service category attribute may indicate the virtual reality service.
또한, 상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함할 수 있다. 구체적으로 상기 서비스 레이어 시그널링 데이터는 상기 가상 현실 서비스를 위한 적어도 하나의 미디어 컴포넌트들이 전송되는 세션에 대한 정보를 포함하는 S-TSID 프래그먼트, 상기 적어도 하나의 미디어 컴포넌트(비디오 데이터 및/또는 오디오 데이터)에 대한 정보를 포함하는 MPD 프래그먼트, 및 상기 S-TSID 프래그먼트 및 상기 MPD 프래그먼트를 연결하는 URI 값을 포함하는 USBD/USD 프래그먼트 중에서 적어도 하나를 포함할 수 있다.In addition, the service layer signaling data may include the ROI information. Specifically, the service layer signaling data may be included in an S-TSID fragment including information on a session in which at least one media component for the virtual reality service is transmitted, and in the at least one media component (video data and / or audio data). It may include at least one of an MPD fragment including information about, and a USBD / USD fragment including a URI value connecting the S-TSID fragment and the MPD fragment.
또한, 상기 MPD 프래그먼트는 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함할 수 있다.The MPD fragment may include ROI information indicating a location of the at least one ROI in the entire area of the virtual space.
또한, 상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 더 포함할 수 있다. 예를 들어, 상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송 및/또는 수신될 수 있다.The bitstream may further include region of interest information indicating a location of the at least one region of interest within the entire region of the virtual space. For example, the ROI information may be transmitted and / or received through at least one of a Supplemental Enhancement Information (SEI) message, a Video Usability Information (VUI) message, a slice header, and a file describing the video data.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 생성(인코딩) 및/또는 디코딩될 수 있다.The at least one enhancement layer video data may be generated (encoded) and / or decoded based on the base layer video data and the ROI information.
또한, 상기 관심 영역 정보는 픽쳐 별로 상기 관심 영역을 표현하는 정보의 모드를 지시하는 정보 모드 필드 및 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 정보 모드 필드는 전술한 info_mode 정보일 수 있고, 타일 번호 리스트 필드는 전술한 tile_id_list 정보일 수 있다.The ROI information may include at least one of an information mode field indicating a mode of information representing the ROI for each picture and a tile number list field including a number of at least one tile corresponding to the ROI. Can be. For example, the information mode field may be the above-described info_mode information, and the tile number list field may be the above-described tile_id_list information.
예를 들어, 상기 타일 번호 리스트 필드는 상기 정보 모드 필드를 기초로 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함할 수 있다. For example, the tile number list field may include a number of all tiles corresponding to the ROI, starting numbers and ending numbers of consecutive tiles, and numbers of upper and lower right tiles of the ROI, based on the information mode field. It may include the number of the at least one tile in one of the manner.
또한, 상기 관심 영역 정보는 상기 관심 영역을 지시하는 코딩 유닛 번호 리스트 필드를 더 포함할 수 있다. 예를 들어, 코딩 유닛 번호 리스트 필드는 전술한 cu_id_list 정보일 수 있다.The ROI information may further include a coding unit number list field indicating the ROI. For example, the coding unit number list field may be the above-described cu_id_list information.
예를 들어, 상기 코딩 유닛 번호 리스트 필드는 상기 정보 모드 필드를 기초로 상기 관심 영역에 해당하는 타일의 번호 및 상기 타일에 포함되는 코딩 유닛의 번호를 지시할 수 있다.For example, the coding unit number list field may indicate the number of tiles corresponding to the ROI and the number of coding units included in the tile based on the information mode field.
도 (b)를 참조하면, 클라이언트 디바이스(B2800)는 영상 입력부, 오디오 입력부, 센서부, 영상 출력부, 오디오 출력부, 통신부(B2810), 및/또는 제어부(B2820) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(B2800)에 대한 구체적인 내용은 전술한 클라이언트 디바이스(A2800)의 내용을 모두 포함할 수 있다.Referring to FIG. (B), the client device B2800 may include at least one of an image input unit, an audio input unit, a sensor unit, an image output unit, an audio output unit, a communication unit B2810, and / or a controller B2820. have. For example, the details of the client device B2800 may include all the contents of the client device A2800 described above.
추가적으로, 제어부(B2820)는 제1 프로세서(B2821) 및/또는 제2 제어부(B2825) 중에서 적어도 하나를 포함할 수 있다.In addition, the controller B2820 may include at least one of the first processor B2821 and / or the second controller B2825.
제1 프로세서(B2821)는 기본 계층 비디오 데이터를 디코딩할 수 있다. 예를 들어, 제1 프로세서(B2821)는 비디오 처리 유닛(VPU, Video Processing Unit) 및/또는 DSP(Digital Signal Processor)일 수 있다.The first processor B2821 may decode base layer video data. For example, the first processor B2821 may be a video processing unit (VPU) and / or a digital signal processor (DSP).
제2 프로세서(B2825)는 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다. 예를 들어, 제2 프로세서(B2825)는 중앙처리장치(CPU, Central Processing Unit) 및/또는 그래픽 처리 장치(GPU, Grapic Processing Unit)일 수 있다.The second processor B2825 may be electrically connected to the first processor to decode the at least one enhancement layer video data based on the base layer video data. For example, the second processor B2825 may be a central processing unit (CPU) and / or a graphics processing unit (GPU).
도 29는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.29 is a diagram illustrating an exemplary configuration of a server device.
클라이언트 디바이스 사이에서만 통신을 수행하는 경우, 적어도 하나의 클라이언트 디바이스(또는 HMD, 영상 수신 장치)가 서버 디바이스(또는 영상 전송 장치)의 동작을 모두 수행할 수도 있다. 이하에서는 서버 디바이스가 존재하는 경우를 중심으로 설명하지만, 본 명세서의 내용이 이에 한정되는 것은 아니다.When communicating only between client devices, at least one client device (or HMD, image receiving apparatus) may perform all operations of the server device (or image transmitting apparatus). Hereinafter, a description will be given of a case where a server device exists, but the contents of the present specification are not limited thereto.
도 (a)를 참조하면, 서버 디바이스(A2900, 송신기, 영상 전송 장치)는 제어부(A2910) 및/또는 통신부(A2920)을 포함할 수 있다. 제어부(A2920)는 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더 중에서 적어도 하나를 포함할 수 있다. 서버 디바이스(A2900)에 대한 구체적인 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.Referring to FIG. (A), the server device A2900, a transmitter, and an image transmission device may include a controller A2910 and / or a communicator A2920. The controller A2920 may include at least one of a signaling data extractor, an image generator, an ROI determiner, a signaling data generator, and / or an encoder. Details of the server device A2900 may include all the contents of the server device described above.
도면을 참조하면, 서버 디바이스(A2900)의 제어부(A2910)는 기본 계층 인코더(A2911) 및/또는 향상 계층 인코더(A2915)를 포함할 수 있다.Referring to the drawings, the controller A2910 of the server device A2900 may include a base layer encoder A2911 and / or an enhancement layer encoder A2915.
기본 계층 인코더(A2911)는 기본 계층 비디오 데이터를 생성할 수 있다.The base layer encoder A2911 may generate base layer video data.
향상 계층 인코더(A2915)는 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다.The enhancement layer encoder A2915 may generate at least one enhancement layer video data based on the base layer video data.
통신부(A2920)는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송할 수 있다. 통신부(A2920)는 방송망 및/또는 브로드밴드를 통하여 비트스트림을 전송할 수 있다.The communicator A2920 may transmit a bitstream including video data for a virtual reality service. The communication unit A2920 may transmit a bitstream through a broadcast network and / or broadband.
또한, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.The video data may also include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
또한, 통신부(A2920)는 제1 시그널링 데이터를 더 수신할 수 있다. 예를 들어, 상기 제1 시그널링 데이터는 영상 구성 정보를 포함할 수 있다.In addition, the communication unit A2920 may further receive the first signaling data. For example, the first signaling data may include image configuration information.
제어부(A2910)의 관심 영역 판단부는 상기 적어도 하나의 관심 영역에 상기 시선 정보에 대응되는 시선 영역을 포함시킬 수 있다.The ROI determiner of the controller A2910 may include the gaze area corresponding to the gaze information in the at least one ROI.
또한, 제어부(A2910)의 시그널링 데이터 생성부는 제2 시그널링 데이터를 생성할 수 있다.In addition, the signaling data generator of the controller A2910 may generate second signaling data.
또한, 상기 통신부(A2920)는 상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 전송할 수 있다.In addition, the communication unit A2920 may independently transmit the base layer video data and the at least one enhancement layer video data through a plurality of sessions based on the second signaling data.
또한, 제2 시그널링 데이터 및/또는 관심 영역 정보는 전술한 내용을 모두 포함할 수 있다.In addition, the second signaling data and / or the ROI information may include all of the above contents.
도 (b)를 참조하면, 서버 디바이스(B2900, 송신기, 영상 전송 장치)는 제어부(B2910), 및/또는 통신부(B2920) 중에서 적어도 하나를 포함할 수 있다. 제어부(B2920)는 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더 중에서 적어도 하나를 포함할 수 있다. 서버 디바이스(B2900)에 대한 구체적인 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.Referring to FIG. (B), the server device B2900, a transmitter, and an image transmission device may include at least one of the controller B2910 and / or the communicator B2920. The controller B2920 may include at least one of a signaling data extractor, an image generator, an ROI determiner, a signaling data generator, and / or an encoder. Details of the server device B2900 may include all the contents of the server device described above.
서버 디바이스(B2900)의 제어부(B2910)는 제1 프로세서(B2911) 및/또는 제2 프로세서(B2915)를 포함할 수 있다.The controller B2910 of the server device B2900 may include a first processor B2911 and / or a second processor B2915.
제1 프로세서(B2911)는 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더를 포함할 수 있다.The first processor B2911 may include a base layer encoder that generates base layer video data.
제2 프로세서(B2915)는 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 생성(또는 인코딩)할 수 있다.The second processor B2915 may be electrically connected to the first processor to generate (or encode) the at least one enhancement layer video data based on the base layer video data.
도 30은 클라이언트 디바이스의 예시적인 동작을 나타낸 도면이다.30 is a diagram illustrating an exemplary operation of a client device.
클라이언트 디바이스(또는 수신기, 영상 수신 장치)는 통신부, 및/또는 제어부를 포함할 수 있다. 제어부는 기본 계층 디코더 및/또는 향상 계층 디코더를 포함할 수 있다. 또한, 제어부는 제1 프로세서 및/또는 제2 프로세서를 포함할 수 있다.The client device (or receiver, image receiving apparatus) may include a communication unit and / or a control unit. The control unit may include a base layer decoder and / or an enhancement layer decoder. In addition, the controller may include a first processor and / or a second processor.
클라이언트 디바이스는, 통신부를 이용하여, 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신할 수 있다(3010).The client device may use the communication unit to receive a bitstream including video data for the virtual reality service (3010).
예를 들어, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.For example, the video data may include base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
그리고 나서, 클라이언트 디바이스는, 기본 계층 디코더 및/또는 제1 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 디코딩할 수 있다(3020).The client device may then decode (3020) the base layer video data using a base layer decoder and / or a first processor.
그리고 나서, 클라이언트 디바이스는, 향상 계층 디코더 및/또는 제2 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다(3030).The client device may then decode (3030) the at least one enhancement layer video data based on the base layer video data using an enhancement layer decoder and / or a second processor.
예를 들어, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.For example, the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
클라이언트 디바이스의 동작에 관련된 내용은 전술한 클라이언트 디바이스의 내용을 모두 포함할 수 있다.The contents related to the operation of the client device may include all the contents of the client device described above.
도 31은 서버 디바이스의 예시적인 동작을 나타낸 도면이다.31 is a diagram illustrating an exemplary operation of a server device.
서버 디바이스는 제어부 및/또는 통신부를 포함할 수 있다. 제어부는 기본 계층 인코더 및/또는 향상 계층 인코더를 포함할 수 있다. 또한, 제어부는 제1 프로세서 및/또는 제2 프로세서를 포함할 수 있다.The server device may include a control unit and / or a communication unit. The control unit may include a base layer encoder and / or an enhancement layer encoder. In addition, the controller may include a first processor and / or a second processor.
서버 디바이스는, 기본 계층 인코더 및/또는 제1 프로세서를 이용하여, 기본 계층 비디오 데이터를 생성할 수 있다(3110).The server device may generate base layer video data using the base layer encoder and / or the first processor (3110).
그리고 나서, 서버 디바이스는, 향상 계층 인코더 및/또는 제2 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다(3120).The server device may then use the enhancement layer encoder and / or the second processor to generate at least one enhancement layer video data based on the base layer video data (3120).
그리고 나서, 서버 디바이스는, 통신부를 이용하여, 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송할 수 있다.The server device may then use the communication unit to transmit the bitstream containing the video data for the virtual reality service.
예를 들어, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.For example, the video data may include the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.In addition, the at least one enhancement layer video data may be video data for at least one region of interest in a virtual space.
서버 디바이스의 동작에 관련된 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.The contents related to the operation of the server device may include all the contents of the server device described above.
또한, 본 명세서에 개시된 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현할 수 있다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 다운로드 가능한 파일의 형태로 구현되는 것도 포함한다.In addition, according to an embodiment disclosed herein, the above-described method may be implemented as code that can be read by a processor in a medium in which a program is recorded. Examples of the processor-readable medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may be implemented in the form of downloadable file.
상기와 같이 설명된 전자 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.The electronic device described above is not limited to the configuration and method of the above-described embodiments, but the embodiments may be configured by selectively combining all or some of the embodiments so that various modifications may be made. It may be.
이상에서 본 명세서의 기술에 대한 바람직한 실시 예가 첨부된 도면들을 참조하여 설명되었다. 여기서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 본 기술의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.Preferred embodiments of the technology of the present disclosure have been described with reference to the accompanying drawings. Here, the terms or words used in the present specification and claims should not be construed as being limited to ordinary or dictionary meanings, but should be interpreted as meanings and concepts corresponding to the technical spirit of the present technology.
본 기술의 범위는 본 명세서에 개시된 실시 예들로 한정되지 아니하고, 본 기술은 본 기술명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.The scope of the present technology is not limited to the embodiments disclosed herein, and the present technology may be modified, changed, or improved in various forms within the scope of the spirit and claims of the present technology.
Claims (23)
- 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계,Receiving a bitstream including video data for a virtual reality service,상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고;The video data includes base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer;상기 기본 계층 비디오 데이터를 디코딩하는 단계; 및Decoding the base layer video data; And상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계를 포함하되,Decoding the at least one enhancement layer video data based on the base layer video data,상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 수신 방법.And the at least one enhancement layer video data is video data for at least one region of interest in a virtual space.
- 제1 항에 있어서,According to claim 1,제1 시그널링 데이터를 생성하는 단계를 포함하되,Generating first signaling data;상기 제1 시그널링 데이터는 상기 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보를 포함하는 영상 수신 방법.The first signaling data includes gaze information indicating a gaze direction of a user in the virtual space.
- 제2 항에 있어서,The method of claim 2,상기 시선 정보에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역에 포함되는지 판단하는 단계; 및Determining whether a gaze area corresponding to the gaze information is included in the at least one ROI; And상기 시선 영역이 상기 적어도 하나의 관심 영역 외의 영역에 포함되면, 상기 제1 시그널링 데이터를 전송하는 단계를 포함하되,If the gaze area is included in an area other than the at least one region of interest, transmitting the first signaling data,상기 시선 영역은 상기 적어도 하나의 관심 영역에 추가되는 영상 수신 방법.And the gaze area is added to the at least one ROI.
- 제1 항에 있어서,According to claim 1,상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함하고,The bitstream includes region of interest information indicating a location of the at least one region of interest in the entire region of the virtual space,상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 디코딩되는 영상 수신 방법.And the at least one enhancement layer video data is decoded based on the base layer video data and the ROI information.
- 제4 항에 있어서,The method of claim 4, wherein상기 관심 영역 정보는 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드를 포함하는 영상 수신 방법.The ROI information includes a tile number list field including a number of at least one tile corresponding to the ROI.
- 제5 항에 있어서,The method of claim 5,상기 타일 번호 리스트 필드는 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함하는 영상 수신 방법.The tile number list field may include the number of all tiles corresponding to the ROI, a start number and an end number of consecutive tiles, and a number of upper left and lower right tiles of the ROI. Image receiving method comprising a number.
- 제4 항에 있어서,The method of claim 4, wherein상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 수신되는 영상 수신 방법.The ROI information is received through at least one of a Supplemental Enhancement Information (SEI) message, a Video Usability Information (VUI) message, a slice header, and a file describing the video data.
- 제4 항에 있어서,The method of claim 4, wherein상기 비트스트림은 제2 시그널링 데이터를 포함하고,The bitstream includes second signaling data,상기 비트스트림을 수신하는 단계는,Receiving the bitstream,상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 수신하는 영상 수신 방법.And receiving the base layer video data and the at least one enhancement layer video data independently through a plurality of sessions based on the second signaling data.
- 제8 항에 있어서,The method of claim 8,상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블을 포함하는 영상 수신 방법.The second signaling data includes a service layer signaling data including information for obtaining the video data and a service list table including information for obtaining the service layer signaling data.
- 제9 항에 있어서,The method of claim 9,상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함하는 영상 수신 방법.The service layer signaling data includes the ROI information.
- 기본 계층 비디오 데이터를 생성하는 단계;Generating base layer video data;상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 단계; 및Generating at least one enhancement layer video data based on the base layer video data; And가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 단계를 포함하되,Transmitting a bitstream including video data for the virtual reality service,상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고,The video data includes the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer,상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 전송 방법.And the at least one enhancement layer video data is video data for at least one region of interest in a virtual space.
- 제11 항에 있어서,The method of claim 11, wherein제1 시그널링 데이터를 수신하는 단계를 포함하되,Receiving first signaling data,상기 제1 시그널링 데이터는 상기 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보를 포함하고,The first signaling data includes gaze information indicating a gaze direction of a user in the virtual space.상기 제1 시그널링 데이터는 상기 시선 정보에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역 외의 영역에 포함되면 수신되는 영상 전송 방법.And the first signaling data is received when a gaze area corresponding to the gaze information is included in an area other than the at least one ROI.
- 제12 항에 있어서,The method of claim 12,상기 시선 영역은 상기 적어도 하나의 관심 영역에 추가되는 영상 전송 방법. And the gaze area is added to the at least one ROI.
- 제11 항에 있어서,The method of claim 11, wherein상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함하고,The bitstream includes region of interest information indicating a location of the at least one region of interest in the entire region of the virtual space,상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 인코딩되는 영상 전송 방법.And the at least one enhancement layer video data is encoded based on the base layer video data and the ROI information.
- 제14 항에 있어서,The method of claim 14,상기 관심 영역 정보는 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드를 포함하는 영상 전송 방법.The region of interest information includes a tile number list field including a number of at least one tile corresponding to the region of interest.
- 제15 항에 있어서,The method of claim 15,상기 타일 번호 리스트 필드는 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함하는 영상 전송 방법.The tile number list field may include the number of all tiles corresponding to the ROI, a start number and an end number of consecutive tiles, and a number of upper left and lower right tiles of the ROI. Image transmission method including the number.
- 제14 항에 있어서,The method of claim 14,상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송되는 영상 전송 방법.The region of interest information is transmitted through at least one of a Supplemental Enhancement Information (SEI) message, a Video Usability Information (VUI) message, a slice header, and a file describing the video data.
- 제14 항에 있어서,The method of claim 14,제2 시그널링 데이터를 생성하는 단계를 더 포함하되,Generating second signaling data;상기 비트스트림을 전송하는 단계는,Transmitting the bitstream,상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 전송하는 영상 전송 방법.And transmitting the base layer video data and the at least one enhancement layer video data independently through a plurality of sessions based on the second signaling data.
- 제18 항에 있어서,The method of claim 18,상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블을 포함하는 영상 전송 방법.The second signaling data includes a service layer signaling data including information for acquiring the video data and a service list table including information for acquiring the service layer signaling data.
- 제19 항에 있어서,The method of claim 19,상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함하는 영상 전송 방법.The service layer signaling data includes the ROI information.
- 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 통신부,A communication unit receiving a bitstream including video data for a virtual reality service,상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고;The video data includes base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer;상기 기본 계층 비디오 데이터를 디코딩하는 기본 계층 디코더; 및A base layer decoder for decoding the base layer video data; And상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 향상 계층 디코더를 포함하되,An enhancement layer decoder that decodes the at least one enhancement layer video data based on the base layer video data,상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 수신 장치. And the at least one enhancement layer video data is video data for at least one region of interest in a virtual space.
- 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 수신하는 통신부;A communication unit for receiving base layer video data for a base layer and at least one enhancement layer video data for at least one enhancement layer predicted from the base layer;상기 기본 계층 비디오 데이터를 디코딩하는 제1 프로세서; 및A first processor for decoding the base layer video data; And상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 제2 프로세서를 포함하되,A second processor electrically coupled with the first processor to decode the at least one enhancement layer video data based on the base layer video data,상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 수신 장치.And the at least one enhancement layer video data is video data for at least one region of interest in a virtual space.
- 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더;A base layer encoder for generating base layer video data;상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 향상 계층 인코더; 및An enhancement layer encoder for generating at least one enhancement layer video data based on the base layer video data; And가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 통신부를 포함하되,Including a communication unit for transmitting a bitstream containing video data for the virtual reality service,상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고,The video data includes the base layer video data for a base layer and the at least one enhancement layer video data for at least one enhancement layer predicted from the base layer,상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 전송 장치.And the at least one enhancement layer video data is video data for at least one region of interest in a virtual space.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0125145 | 2016-09-28 | ||
KR1020160125145A KR101861929B1 (en) | 2016-09-28 | 2016-09-28 | Providing virtual reality service considering region of interest |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018062641A1 true WO2018062641A1 (en) | 2018-04-05 |
Family
ID=61760922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2017/001087 WO2018062641A1 (en) | 2016-09-28 | 2017-02-01 | Provision of virtual reality service with consideration of area of interest |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101861929B1 (en) |
WO (1) | WO2018062641A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019199025A1 (en) | 2018-04-09 | 2019-10-17 | 에스케이텔레콤 주식회사 | Method and device for encoding/decoding image |
CN112292855B (en) | 2018-04-09 | 2024-06-04 | Sk电信有限公司 | Method and apparatus for encoding/decoding image |
KR102183895B1 (en) * | 2018-12-19 | 2020-11-27 | 가천대학교 산학협력단 | Indexing of tiles for region of interest in virtual reality video streaming |
KR102278748B1 (en) * | 2019-03-19 | 2021-07-19 | 한국전자기술연구원 | User interface and method for 360 VR interactive relay |
KR102261739B1 (en) * | 2019-06-19 | 2021-06-08 | 주식회사 엘지유플러스 | System and method for adaptive streaming of augmented reality media content |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120041769A (en) * | 2009-07-28 | 2012-05-02 | 소니 컴퓨터 엔터테인먼트 인코포레이티드 | Image file generation device, image processing device, image file generation method, and image processing method |
KR101540113B1 (en) * | 2014-06-18 | 2015-07-30 | 재단법인 실감교류인체감응솔루션연구단 | Method, apparatus for gernerating image data fot realistic-image and computer-readable recording medium for executing the method |
KR20150122781A (en) * | 2013-04-08 | 2015-11-02 | 소니 주식회사 | Region of interest scalability with shvc |
-
2016
- 2016-09-28 KR KR1020160125145A patent/KR101861929B1/en active IP Right Grant
-
2017
- 2017-02-01 WO PCT/KR2017/001087 patent/WO2018062641A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120041769A (en) * | 2009-07-28 | 2012-05-02 | 소니 컴퓨터 엔터테인먼트 인코포레이티드 | Image file generation device, image processing device, image file generation method, and image processing method |
KR20150122781A (en) * | 2013-04-08 | 2015-11-02 | 소니 주식회사 | Region of interest scalability with shvc |
KR101540113B1 (en) * | 2014-06-18 | 2015-07-30 | 재단법인 실감교류인체감응솔루션연구단 | Method, apparatus for gernerating image data fot realistic-image and computer-readable recording medium for executing the method |
Non-Patent Citations (2)
Title |
---|
LEE , J-H ET AL: "Multi-channel Adaptive SVC Video Streaming with ROI", JOURNAL OF BROADCAST ENGINEERING, vol. 13, no. 1, 30 January 2008 (2008-01-30), pages 34 - 42, XP055603045, DOI: 10..5909/BE_2008.13.1.34 * |
YAGO SANCHEZ ET AL: "Compressed Domain Video Processing for Tile Based Panorami c Streaming using SHVC", PROCEEDING IMMERSIVEME '15 PROCEEDINGS OF THE 3R D INTERNATIONAL WORKSHOP ON IMMERSIVE MEDIA EXPERIENCES, 30 October 2015 (2015-10-30), Brisbane, Australi, pages 13 - 18, XP058074928, DOI: 10.1145/2814347.2814353 * |
Also Published As
Publication number | Publication date |
---|---|
KR101861929B1 (en) | 2018-05-28 |
KR20180035089A (en) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017188714A1 (en) | Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, apparatus for receiving 360-degree video | |
WO2015126144A1 (en) | Method and apparatus for transreceiving broadcast signal for panorama service | |
WO2018038520A1 (en) | Method for transmitting omnidirectional video, method for receiving omnidirectional video, apparatus for transmitting omnidirectional video, and apparatus for receiving omnidirectional video, | |
WO2018174387A1 (en) | Method for transmitting 360 video, method for receiving 360 video, 360 video transmitting device, and 360 video receiving device | |
WO2012023789A2 (en) | Apparatus and method for receiving digital broadcasting signal | |
WO2012036532A2 (en) | Method and apparatus for processing a broadcast signal for 3d (3-dimensional) broadcast service | |
WO2018062641A1 (en) | Provision of virtual reality service with consideration of area of interest | |
WO2016182371A1 (en) | Broadcast signal transmitter, broadcast signal receiver, broadcast signal transmitting method, and broadcast signal receiving method | |
WO2009151265A2 (en) | Method and system for receiving broadcast signals | |
WO2010021525A2 (en) | A method for processing a web service in an nrt service and a broadcast receiver | |
WO2015034306A1 (en) | Method and device for transmitting and receiving advanced uhd broadcasting content in digital broadcasting system | |
WO2014109594A1 (en) | Method for encoding inter-layer video for compensating luminance difference and device therefor, and method for decoding video and device therefor | |
WO2012030158A2 (en) | Method and apparatus for processing and receiving digital broadcast signal for 3-dimensional display | |
WO2015080414A1 (en) | Method and device for transmitting and receiving broadcast signal for providing trick play service | |
WO2016171518A2 (en) | Broadcasting signal transmission device, broadcasting signal reception device, broadcasting signal transmission method, and broadcasting signal reception method | |
WO2015199468A1 (en) | Method and device for transmitting/receiving broadcast signal | |
WO2012030176A2 (en) | Broadcast signal processing method and device for 3-dimensional (3d) broadcasting service | |
WO2015133770A1 (en) | Apparatus and methods for transmitting / receiving a broadcast signal | |
WO2017135673A1 (en) | Device for transmitting broadcast signal, device for receiving broadcast signal, method for transmitting broadcast signal, and method for receiving broadcast signal | |
WO2017061796A1 (en) | Broadcast signal transmission device, broadcast signal reception device, broadcast signal transmission method, and broadcast signal reception method | |
WO2012030177A2 (en) | Digital receiver and method for processing 3d content in the digital receiver | |
WO2011132879A2 (en) | Method for transmitting/receving internet-based content and transmitter/receiver using same | |
WO2016064150A1 (en) | Broadcasting signal transmission device, broadcasting signal reception device, broadcasting signal transmission method, and broadcasting signal reception method | |
WO2021242066A1 (en) | Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image | |
WO2016171528A1 (en) | Apparatus for transmitting broadcasting signal, apparatus for receiving broadcasting signal, method for transmitting broadcasting signal, and method for receiving broadcasting signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17856527 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17856527 Country of ref document: EP Kind code of ref document: A1 |