WO2019117628A1 - Virtual reality video quality calibration - Google Patents

Virtual reality video quality calibration Download PDF

Info

Publication number
WO2019117628A1
WO2019117628A1 PCT/KR2018/015794 KR2018015794W WO2019117628A1 WO 2019117628 A1 WO2019117628 A1 WO 2019117628A1 KR 2018015794 W KR2018015794 W KR 2018015794W WO 2019117628 A1 WO2019117628 A1 WO 2019117628A1
Authority
WO
WIPO (PCT)
Prior art keywords
quality
image
video
data
image data
Prior art date
Application number
PCT/KR2018/015794
Other languages
French (fr)
Korean (ko)
Inventor
류은석
류영일
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Publication of WO2019117628A1 publication Critical patent/WO2019117628A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/327Calibration thereof
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes

Definitions

  • This specification relates to controlling the quality of virtual reality video.
  • the 360-degree image transmission system acquires a 360-degree image using a plurality of cameras, codes the acquired image, and transmits the image to a head-mounted imaging apparatus worn by a user.
  • the transmitted image is mapped to a 360-degree virtual space after being decoded and provided to the user.
  • UHD Ultra High Definition
  • the 360-degree image transmission system selectively transmits only the specific sub-
  • tilting technology and scalable video encoding technology are applied, if user's gaze change is fast and frequently occurs, high quality image information to be transmitted increases, and the effect of reducing bandwidth required for image transmission is lowered. Therefore, there is no need to utilize the tiling technology and the scalable image coding technique to secure the bandwidth and to support the fast response speed. Therefore, a method for solving the problem has become necessary.
  • the present specification discloses a method of controlling image quality of a wearable video display device.
  • the image quality control method of the wearable image display device may include: determining a threshold value of a visual movement speed for image quality switching according to characteristics of the wearable image display device; Measuring an eye movement speed of a user of the wearable image display device; And requesting quality adjustment of the video image to be transmitted according to the comparison result of the gaze speed and the threshold value.
  • the method and other embodiments may include the following features.
  • the image data of the first quality may include at least one of high image quality data, base layer image data, and enhancement layer image data for a currently transmitted video image
  • the image data of the second quality may include at least one of Low-quality image data for a video image, and base layer image data.
  • the quality of the first quality image data and the quality of the second quality image data may differ depending on the image quality factors including the image quality, the number of frames of the image, the resolution of the image, and the scan method of the image .
  • the base station transmits the upsampled base layer image data of the video image for the delay time during the delay time occurring when the transmission quality is switched, When the data is received, the video image of the first quality can be output.
  • an operation of requesting transmission of a video image whose quality is adjusted according to a result of comparison between the speed of movement of the line of sight and the threshold value may include requesting transmission of image data of a first quality when the eye movement speed is smaller than the threshold value And to request transmission of video data having a second quality lower than the first quality if the gaze movement speed is equal to or greater than the threshold value.
  • the image data of the first quality may include at least one of high-definition image data, base-layer image data, and enhancement-layer image data for a video image currently being transmitted
  • the image data of the second quality may include at least one of the currently- The low-resolution image data for the image, and the base layer image data.
  • the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
  • the present specification discloses a video transmission method of a video server.
  • the method comprising: receiving a transmission request message of a first quality video data from a wearable video display device; Transmitting the video data of the first quality to a video image corresponding to the transmission request of the video data of the first quality to the wearable video display device; Receiving a transmission request message of video data of a second quality lower than the first quality from the wearable video display device; And transmitting the video data of the second quality for the video image to the wearable video display device in response to a request for transmission of the video data of the second quality,
  • the upsampled video data of the video data of the second quality is transmitted to the wearable And transmits the image data of the first quality to the wearable display device after transmitting the image data to the image display device.
  • the method and other embodiments may include the following features.
  • the image data of the first quality includes base layer image data and enhancement layer image data of a currently transmitted video image and the image data of the second quality includes the base layer image data, May be upsampled image data of the base layer image data.
  • the present specification proposes a method of controlling image quality.
  • the image quality control method includes: determining a threshold value of a line-of-sight movement speed for switching a video quality according to a device characteristic of the wearable video display device; The wearable video display device measuring an eye movement speed of a user; Requesting the video server to transmit the quality-adjusted video image according to the comparison result of the gaze speed and the threshold value; And transmitting the quality-adjusted video image to the wearable image display device in response to a transmission request of the video image by the video server.
  • the method and other embodiments may include the following features.
  • the wearable video display device requests the video server to transmit video data of a first quality when the gazing speed is lower than the threshold value as a result of the comparison, And requests the video server to transmit video data of a second quality lower than the first quality if the gaze movement speed is increased and if the gaze movement speed is not increased, Quality video data to the video server.
  • the video server transmits the video data of the first quality to the video image corresponding to the transmission request of the video data of the first quality to the wearable video display device, And transmits the video data of the second quality to the video image corresponding to the transmission request to the wearable video display device.
  • the image data of the first quality may be transmitted to the wearable display device after the upsampled image data of the image data of the second quality is transmitted to the wearable display device.
  • the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
  • the wearable video display device includes a critical speed determining unit for determining a threshold value of a visual movement speed for switching an image quality according to a wearable video display device characteristic; A line-of-sight movement speed measuring unit for measuring a line-of-sight movement speed of a user of the wearable image display device; A control unit for generating a message for requesting adjustment of the quality of a video image to be transmitted according to a result of comparison between the gaze speed and the threshold value; And a communication unit for transmitting the quality adjustment request message to the outside and receiving the video image.
  • the apparatus and other embodiments may include the following features.
  • the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
  • the image quality control method of the wearable image display device may include: determining a threshold value of a visual movement speed for image quality switching according to characteristics of the wearable image display device; Measuring an eye movement speed of a user of the wearable image display device; And requesting quality adjustment for a scalable video image to be transmitted according to a result of the comparison of the gaze speed and the threshold value, wherein when the gaze speed is smaller than the threshold value, And when the speed of sight line movement is not increased, it is possible to request the transmission of the enhancement layer video data of the scalable video image.
  • the method and other embodiments may include the following features.
  • the method includes receiving up-sampled base layer image data of the scalable video image during a delay time occurring when a transmission quality is switched when the base layer video data is transmitted and requesting transmission of the enhancement layer video data, And receiving the enhancement layer image data.
  • the amount of video data to be transmitted can be efficiently controlled even with frequent eye movement and quick gaze movement of the user.
  • FIG. 1 illustrates an exemplary virtual reality system for providing a virtual reality image.
  • FIG. 2 is a diagram illustrating an exemplary scalable video coding service.
  • FIG. 3 is a diagram showing an exemplary configuration of a server device.
  • FIG. 4 is a diagram showing an exemplary structure of an encoder.
  • Figure 5 is an illustration of an exemplary method of signaling a region of interest
  • FIG. 6 is a diagram showing an exemplary configuration of a client device.
  • control unit 7 is a diagram showing an exemplary configuration of the control unit.
  • FIG. 8 is a diagram showing an exemplary configuration of a decoder.
  • FIG. 9 is a diagram illustrating an exemplary method of controlling image quality in a wearable video display device.
  • FIG. 10 is a diagram illustrating an example in which the image quality is controlled according to a change in the line-of-sight movement speed.
  • 11 is a diagram illustrating an exemplary method of error concealment when an enhancement layer video data enters a retransmission mode.
  • FIG. 12 illustrates an exemplary method of transmitting a virtual reality image in a video server.
  • FIG. 13 exemplarily illustrates a video quality control method in a virtual reality system.
  • FIG. 14 is a diagram showing an exemplary configuration of a wearable image display device capable of controlling the quality of a transmission image according to a visual movement speed.
  • Figure 15 shows an OMAF syntax in an exemplary international video standard for signaling for image quality control.
  • Figure 16 shows an exemplary tile information syntax expressed in XML form.
  • first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
  • FIG. 1 illustrates an exemplary virtual reality system for providing a virtual reality image.
  • the virtual reality system includes a virtual reality image generation device that generates a virtual reality image, a server device that encodes and transmits the input virtual reality image, and one or more client devices that decode the transmitted virtual reality image and output the decoded virtual reality image to a user .
  • an exemplary virtual reality system 100 includes a virtual reality image generation device 110, a server device 120, and one or more client devices 130, Are not limited to these numbers.
  • the virtual reality system 100 may also be referred to as a 360 degree image providing system.
  • the virtual reality image generating apparatus 110 may include one or more camera modules and generate a spatial image by photographing an image of a space in which the virtual reality image generating apparatus 110 is located.
  • the server device 120 generates a 360-degree image by stitching, projecting, and mapping spatial images generated and input in the virtual reality image generating apparatus 110, A 360-degree image can be encoded with video data of a desired quality and then encoded.
  • the server device 120 may transmit the bitstream including the video data and the signaling data for the encoded 360-degree image to the client device 130 through the network (communication network).
  • the client device 130 may decode the received bit stream and output a 360-degree image to a user wearing the client device 130.
  • the client device 130 may be a near-eye display device such as a head-mounted display (HMD).
  • HMD head-mounted display
  • the virtual reality image generating apparatus 110 may be configured as a computer system to generate an image of a virtual 360-degree space implemented by computer graphics.
  • the virtual reality image generating apparatus 110 may be a provider of virtual reality contents such as a virtual reality game.
  • the client device 130 may obtain user data from a user using the client device 130.
  • the user data may include user's image data, voice data, viewport data (sight line data), region of interest data, and additional data.
  • the client device 130 may include at least one of a 2D / 3D camera and an Immersive camera for acquiring image data of a user.
  • the 2D / 3D camera can shoot an image having a viewing angle of 180 degrees or less.
  • Immersive cameras can capture images with a viewing angle of 360 degrees or less.
  • the client device 130 may include a first client device 131 that obtains user data of a first user located at a first location, a second client device 130 that obtains user data of a second user located at a second location, A second client device 133, and a third client device 135 that obtains user data of a third user located at a third location.
  • Each client device 130 may transmit user data obtained from the user to the server device 120 via the network.
  • Server device 120 may receive at least one user data from client device 130.
  • the server device 120 can generate a full image of the virtual reality space based on the received user data.
  • the entire image generated by the server device 120 may represent an immersive image providing a 360-degree image in the virtual reality space.
  • the server device 120 may generate the entire image by mapping the image data included in the user data to the virtual reality space.
  • the server device 120 may transmit the generated whole image to each user.
  • Each client device 130 may receive the entire image and render and / or display only the area that each user views in the virtual reality space.
  • FIG. 2 is a diagram illustrating an exemplary scalable video coding service.
  • Scalable video coding service is an image compression method for providing various services in a scalable manner in terms of temporal, spatial, and image quality according to various user environments such as a network situation or a terminal resolution in various multimedia environments.
  • Scalable video coding services generally provide scalability in terms of spatial resolution, quality, and temporal aspects.
  • Spatial scalability can be provided by encoding the same image with different resolution for each layer. It is possible to adaptively provide image contents to devices having various resolutions such as a digital TV, a notebook, and a smart phone using spatial hierarchy.
  • a scalable video coding service can support one or more TVs having different characteristics from a video service provider (VSP) through a home gateway in the home.
  • VSP video service provider
  • the scalable video coding service can simultaneously support HDTV (High-Definition TV), SDTV (Standard-Definition TV), and LDTV (Low-Definition TV) having different resolutions.
  • Temporal scalability can adaptively adjust the frame rate of an image in consideration of the network environment in which the content is transmitted or the performance of the terminal. For example, when a local area network is used, a service is provided at a high frame rate of 60 frames per second (FPS). When a wireless broadband communication network such as a 3G mobile network is used, a content is provided at a low frame rate of 16 FPS, A service can be provided so that the user can receive the video without interruption.
  • FPS frames per second
  • the scalable video coding service may each include a base layer and one or more enhancement layers (s).
  • the receiver provides a normal image quality when receiving only the base layer, and can provide a high image quality when the base layer and the enhancement layer are received together.
  • an enhancement layer for example, enhancement layer 1, enhancement layer 2, ..., enhancement layer n
  • Is better when there is a base layer and one or more enhancement layers, when an enhancement layer (for example, enhancement layer 1, enhancement layer 2, ..., enhancement layer n) is further received while receiving a base layer, Is better.
  • the receiver since the scalable video coding service is composed of a plurality of hierarchical layers, the receiver receives the base layer data of a small capacity at a high speed and processes and reproduces the basic image quickly, The service quality can be increased.
  • FIG. 3 is a diagram showing an exemplary configuration of a server device.
  • the server device 300 may include a control unit 310 and / or a communication unit 320.
  • the controller 310 may generate a full image of the virtual space and encode the entire image.
  • the control unit 310 can control all the operations of the server device 300. Details will be described below.
  • the communication unit 320 may transmit and / or receive data to an external device and / or a client device.
  • the communication unit 320 may receive user data and / or signaling data from at least one client device.
  • the communication unit 320 may transmit the entire image of the virtual space and / or the image of the partial region to the client device.
  • the control unit 310 may include at least one of a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, a signaling data generation unit 317, and / or an encoder 319 have.
  • the signaling data extracting unit 311 can extract signaling data from the data received from the client device.
  • the signaling data may include image configuration information.
  • the image configuration information may include gaze information indicating a gaze direction of a user and zoom area information indicating a viewing angle of a user in a virtual space.
  • the image configuration information may include the viewport information of the user in the virtual space.
  • the image generating unit 313 may generate a full image of the virtual space and an image of a specific region in the virtual space.
  • the ROI determining unit 315 may determine a ROI corresponding to the user's viewing direction in the entire area of the virtual space.
  • the user's viewport can be determined within the entire area of the virtual space.
  • the ROI determiner 315 may determine the ROI based on the sight line information and / or the zoom area information.
  • the region of interest may include a location of a tile where the important object is located in a virtual space to be viewed by the user (for example, a location where a new enemy appears in a game or the like, a position of a speaker in a virtual space) It can be a place to look at.
  • the ROI determining unit 315 may generate ROI information indicating the ROI corresponding to the user's viewing direction and information about the user's viewport in the entire area of the virtual space.
  • the signaling data generation unit 317 can generate signaling data for processing the entire image.
  • the signaling data may transmit the region of interest information and / or the viewport information.
  • the signaling data may be transmitted via at least one of Supplement Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
  • SEI Supplement Enhancement Information
  • VUI video usability information
  • Slice Header a file describing the video data.
  • the encoder 319 may encode the entire image based on the signaling data. For example, the encoder 319 may encode the entire image in a customized manner for each user based on the viewing direction of each user. For example, when the user looks at a specific point in the virtual space, the encoder encodes the image corresponding to the specific point in high quality on the basis of the user's gaze in the virtual space, and the corresponding image other than the specific point is encoded can do.
  • the encoder 319 may include at least one of a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, and / or a signaling data generation unit 317 have.
  • the control unit 310 includes a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, a signaling data generation unit 317, and an encoder 319 as well as a processor ), A memory (not shown), and an input / output interface (not shown).
  • the processor may include one or more of a central processing unit (CPU), an application processor (AP), or a communication processor (CP).
  • the processor may perform, for example, operations or data processing related to control and / or communication of at least one other component of the controller 310. For example,
  • the processor may be implemented as a system on chip (SoC), for example.
  • the processor may further comprise a graphics processing unit (GPU) and / or an image signal processor.
  • GPU graphics processing unit
  • the processor may control a plurality of hardware or software components connected to the processor, for example, by driving an operating system or an application program, and may perform various data processing and operations.
  • the processor may also load or process instructions or data received from at least one of the other components (e.g., non-volatile memory) into volatile memory and store the various data in non-volatile memory have.
  • the other components e.g., non-volatile memory
  • the memory may include volatile and / or non-volatile memory.
  • the memory may, for example, store instructions or data related to at least one other component of the controller 310. [ According to one embodiment, the memory may store software and / or programs.
  • the input / output interface may serve as an interface through which commands or data input from, for example, a user or another external device can be transmitted to the other component (s) of the control unit 310.
  • the input / output interface may output commands or data received from other component (s) of the controller 310 to a user or another external device.
  • the server device can receive video data and signaling data from at least one client device using a communication unit. Further, the server device can extract the signaling data using the signaling data extracting unit.
  • the signaling data may include viewpoint information and zoom region information.
  • the gaze information can indicate which area (point) the user sees in the virtual space.
  • the line of sight information can indicate the direction from the user to the specific area.
  • the zoom area information may indicate an enlarged range and / or a reduced range of the video data corresponding to the viewing direction of the user.
  • the zoom area information can indicate the viewing angle of the user. If the video data is enlarged based on the value of the zoom area information, the user can view only the specific area. If the video data is reduced based on the value of the zoom area information, the user can view not only the specific area but also a part and / or the entire area other than the specific area.
  • the server device can generate the entire image of the virtual space using the image generating unit.
  • the server device can use the region-of-interest determination unit to grasp the video configuration information of the point of view and the zoom region of each user in the virtual space based on the signaling data.
  • the server device can determine the region of interest of the user based on the image configuration information using the region of interest determination unit.
  • the server device can receive new signaling data.
  • the server device can determine a new region of interest based on the new signaling data.
  • the server device can use the control unit to determine whether the data currently processed based on the signaling data is data corresponding to the region of interest.
  • the server device can determine whether or not the data currently processed based on the new signaling data is data corresponding to the region of interest.
  • the server device can encode video data (for example, a region of interest) corresponding to the user's viewpoint at a high quality using an encoder.
  • the server device may generate base layer video data and enhancement layer video data for the video data and transmit them.
  • the server device can transmit the video data corresponding to the new time point (new interest area) as a high-quality image. If the server device is transmitting a low-quality image but the signaling data is changed so that the server device transmits a high-quality image, the server device can additionally generate and / or transmit enhancement layer video data.
  • the server device can encode video data (e.g., non-interest area) that does not correspond to the user's viewpoint at a low quality.
  • the server device may generate only base layer video data for video data that does not correspond to a user's viewpoint, and may transmit them.
  • the server device can transmit video data (new non-interest area) that does not correspond to the new user's viewpoint with a low quality image.
  • video data new non-interest area
  • the server device does not generate and / or transmit at least one enhancement layer video data, Only hierarchical video data can be generated and / or transmitted.
  • the client device since the image quality of the video data when the base layer video data is received is lower than the image quality of the video data received when the enhancement layer video data is received, the client device, at the moment when the user obtains the information, (E.g., a region of interest) corresponding to the viewing direction of the video data. Then, the client device can provide high quality video data to the user in a short time.
  • the information E.g., a region of interest
  • FIG. 4 is a diagram showing an exemplary structure of an encoder.
  • the encoder 400 may include at least one of a base layer encoder 410, at least one enhancement layer encoder 420, and a multiplexer 430.
  • the encoder 400 may encode the entire image using a scalable video coding method.
  • the scalable video coding method may include Scalable Video Coding (SVC) and / or Scalable High Efficiency Video Coding (SHVC).
  • SVC Scalable Video Coding
  • SHVC Scalable High Efficiency Video Coding
  • the scalable video coding method is an image compression method for providing a variety of services in a scalable manner in terms of temporal, spatial, and image quality according to various user environments such as a network situation or a terminal resolution in various multimedia environments.
  • the encoder 400 may encode images of two or more different qualities (or resolution, frame rate) for the same video data to generate a bitstream.
  • the encoder 400 may use an inter-layer prediction tool, which is an encoding method using intra-layer redundancy, in order to increase the compression performance of video data.
  • the inter-layer prediction tool is a technique for enhancing the extrusion efficiency in an enhancement layer (EL) by eliminating redundancy of images existing between layers.
  • EL enhancement layer
  • the enhancement layer can be encoded by referring to information of a reference layer using an inter-layer prediction tool.
  • the reference layer refers to the lower layer that is referred to in the enhancement layer encoding.
  • a bitstream of all lower layers to be referred to is required.
  • decoding can be performed by acquiring only a bitstream of a layer to be decoded and its lower layers.
  • the bitstream of the lowest layer is a base layer (BL), and can be encoded by an encoder such as H.264 / AVC or HEVC.
  • the base layer encoder 410 may encode the entire image to generate base layer video data (or base layer bitstream) for the base layer.
  • the base layer video data may include video data for the entire area viewed by the user in the virtual space.
  • the image of the base layer may be the image of the lowest image quality.
  • the enhancement layer encoder 420 encodes the entire image based on signaling data (e.g., region of interest information) and base layer video data to generate at least one enhancement layer for at least one enhancement layer, Video data (or enhancement layer bitstream).
  • the enhancement layer video data may include video data for a region of interest within the entire region.
  • the multiplexer 430 may multiplex the base layer video data, the at least one enhancement layer video data, and / or the signaling data, and may generate one bitstream corresponding to the entire image.
  • FIG. 5 is a diagram illustrating an exemplary method of signaling a region of interest.
  • FIG. 5 there is shown a method of signaling a region of interest in scalable video.
  • video data can be partitioned into Coding Tree Unit (CTU) units.
  • CTU Coding Tree Unit
  • one CTU may include Y CTB, Cb CTB, and Cr CTB.
  • the server device can encode the video data of the base layer BL as a whole without dividing the data into tiles for fast user response.
  • the server device may divide and encode video data of one or more enhancement layers into a plurality of tiles, some or all, as needed. That is, the server device may divide the video data of the enhancement layer into at least one tile and encode tiles corresponding to the region of interest 520 (ROI, Region of Interest).
  • ROI region of interest
  • the region of interest 520 may include a location of a tile where an important object (Object) to be viewed by the user is located in the virtual reality space (for example, a location where a new enemy appears in the game, Location), and / or where the user's gaze is viewed.
  • Object an important object to be viewed by the user is located in the virtual reality space (for example, a location where a new enemy appears in the game, Location), and / or where the user's gaze is viewed.
  • the server device may also generate region of interest information including tile information identifying at least one tile included in the region of interest.
  • region of interest information may be generated by a region of interest determination unit, a signaling data generation unit, and / or an encoder included in the server device.
  • the tile information in the area of interest 520 is continuous, it can be effectively compressed without having all the numbers of tiles.
  • the tile information may include not only the numbers of all the tiles corresponding to the area of interest but also the starting and ending numbers of the tiles, the coordinate point information, the CU (Coding Unit) number list, .
  • the area of interest 520 may be the current viewport of the user.
  • the tile information in the non-interest region may be sent to another client device, image processing computing device, and / or server after entropy coding provided by the encoder.
  • the region of interest may be delivered via a High-Level Syntax Protocol carrying the session information.
  • the region of interest may be transmitted in packet units such as SEI (Supplement Enhancement Information), VUI (video usability information), and slice header of a video standard.
  • the region of interest information may be transferred to a separate file describing the video file (e.g., MPD of DASH).
  • An exemplary technique of the present disclosure can use a technique of downscaling an image in a non-scalable video rather than down-scaling (downsampling) an area, rather than a region of interest (ROI) have.
  • the prior art does not share the filter information used for downscaling between the terminals using the service, but makes an appointment from the beginning with only one technique, or only the encoder knows the filter information.
  • the server device may be configured such that the client device (or the HMD terminal) that receives the encoded image uses the filter information used at the time of encoding to slightly improve the image quality of the downscaled out- To the client device.
  • This technique can actually reduce image processing time significantly and can provide image quality enhancement.
  • the server device may generate the region of interest information.
  • the area of interest information may further include filter information as well as tile information.
  • the filter information may include the number of promised filter candidates, the values used in the filter.
  • FIG. 6 is a diagram showing an exemplary configuration of a client device.
  • the client device 600 includes an image input unit 610, an audio input unit 620, a sensor unit 630, an image output unit 640, an audio output unit 650, a communication unit 660, and / As shown in FIG.
  • the client device 600 may be an HMD (Head-Mounted Display).
  • the control unit 670 of the client device 600 may be included in the client device 600 or may be a separate device.
  • the video input unit 610 can capture video data.
  • the image input unit 610 may include at least one of a 2D / 3D camera and / or an immersive camera for acquiring a user's image.
  • the 2D / 3D camera can shoot an image having a viewing angle of 180 degrees or less.
  • Immersive cameras can capture images with a viewing angle of 360 degrees or less.
  • the audio input unit 620 can record the user's voice.
  • the audio input 620 may include a microphone.
  • the sensor unit 630 can acquire information on the movement of the user's gaze.
  • the sensor unit 630 may include a gyro sensor for sensing a change in the azimuth of the object, an acceleration sensor for measuring the acceleration of the moving object or the intensity of the impact, and an external sensor for sensing the direction of the user's gaze .
  • the sensor unit 630 may include an image input unit 610 and an audio input unit 620.
  • the video output unit 640 can output video data received from the communication unit 660 or stored in a memory (not shown).
  • the audio output unit 650 can output audio data received from the communication unit 660 or stored in the memory.
  • the communication unit 660 can communicate with an external client device and / or a server device through a broadcasting network, a wireless communication network, and / or broadband.
  • the communication unit 660 may include a transmitting unit (not shown) for transmitting data and / or a receiving unit (not shown) for receiving data.
  • the control unit 670 can control all operations of the client device 600. [ The control unit 670 can process the video data and the signaling data received from the server device. Details of the control unit 670 will be described below.
  • control unit 7 is a diagram showing an exemplary configuration of the control unit.
  • the control unit 700 may process the signaling data and / or the video data.
  • the control unit 700 may include at least one of a signaling data extractor 710, a decoder 720, a line of sight determiner 730, and / or a signaling data generator 740.
  • the signaling data extracting unit 710 may extract signaling data from data received from the server device and / or another client device.
  • the signaling data may include region of interest information.
  • Decoder 720 may decode the video data based on the signaling data. For example, the decoder 720 may decode the entire image in a customized manner for each user based on the viewing direction of each user. For example, when the user looks at a specific area in the virtual space, the decoder 720 decodes the image corresponding to the specific area with high image quality based on the user's gaze in the virtual space, Lt; / RTI > The decoder 720 may include at least one of a signaling data extractor 710, a line of sight determiner 730, and / or a signaling data generator 740 according to an embodiment of the present invention.
  • the gaze determining unit 730 can determine the user's gaze in the virtual space and generate the image configuration information.
  • the image configuration information may include gaze information indicating a gaze direction and / or zoom area information indicating a viewing angle of a user.
  • the signaling data generation unit 740 may generate signaling data for transmission to a server device and / or another client device.
  • the signaling data may transmit image configuration information.
  • the signaling data may be delivered via a High-Level Syntax Protocol carrying the session information.
  • the signaling data may be transmitted via at least one of Supplement Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
  • SEI Supplement Enhancement Information
  • VUI video usability information
  • Slice Header a file describing the video data.
  • FIG. 8 is a diagram showing an exemplary configuration of a decoder.
  • the decoder 800 may include at least one of an extractor 810, a base layer decoder 820, and / or at least one enhancement layer decoder 830.
  • the decoder 800 may decode the bitstream (video data) using an inverse process of the scalable video coding method.
  • the extractor 810 receives the bitstream (video data) including the video data and the signaling data, and can selectively extract the bitstream according to the image quality of the video to be reproduced.
  • a bitstream (video data) may include a base layer bitstream (base layer video data) for a base layer and at least one enhancement layer bitstream for at least one enhancement layer predicted from the base layer ).
  • the base layer bitstream (base layer video data) may include video data for the entire area of the virtual space.
  • At least one enhancement layer bitstream (enhancement layer video data) may include video data for a region of interest within the entire region.
  • the signaling data may also include region of interest information indicating a region of interest corresponding to the direction of the user's gaze within the entire region of the virtual space for the video conferencing service.
  • the base layer decoder 820 can decode a base layer bitstream (or base layer video data) for a low-quality image.
  • the enhancement layer decoder 830 can decode at least one enhancement layer bitstream (or enhancement layer video data) for the high-definition video based on the signaling data and / or the bitstream (or base layer video data) have.
  • the image configuration information may include at least one of gaze information indicating a gaze direction of a user and / or zoom area information indicating a viewing angle of a user.
  • the user's gaze is the direction that the user looks in the virtual space, not the actual space.
  • the gaze information may include information indicating the gaze direction of the user in the future (for example, information on gaze points that are expected to receive attention), as well as information indicating the gaze direction of the current user.
  • the client device can sense the operation of looking at a specific area located in the virtual space around the user and process the operation.
  • the client device can receive the sensing information from the sensor unit using the control unit and / or the sight line determination unit.
  • the sensing information may be a video shot by a camera, or a voice recorded by a microphone.
  • the sensing information may be data sensed by a gyro sensor, an acceleration sensor, and an external sensor.
  • the client device can confirm the movement of the user's gaze based on the sensing information by using the control unit and / or the visual-line determining unit. For example, the client device can check the movement of the user's gaze based on the change of the value of the sensing information.
  • the client device can generate image configuration information in the virtual reality space using the control unit and / or the visual determination unit. For example, when the client device physically moves or the user's gaze moves, the client device can calculate the gaze information and / or the zoom area information of the user in the virtual reality space based on the sensing information.
  • the client device can transmit image configuration information to the server device and / or another client device using the communication unit.
  • the client device may forward the video configuration information to its other components.
  • the server device may receive the sensing information from the client device and generate the image configuration information.
  • an external computing device connected to the client device may generate image configuration information, and the computing device may communicate image configuration information to its client device, another client device, and / or a server device.
  • Signaling the video configuration information is very important. If the signaling of the video configuration information is too frequent, it may place a burden on the client device, the server device, and / or the entire network.
  • the client device can signal image configuration information only when the image configuration information (or gaze information and / or zoom area information) of the user is changed. That is, the client device can transmit the gaze information of the user to another client device and / or the server device only when the gaze information of the user is changed.
  • the client device generates and / or transmits the image configuration information.
  • the server device may receive the sensing information from the client device, generate the image configuration information based on the sensing information, It may be transmitted to one client device.
  • the above-mentioned signaling may be signaling between a server device, a client device, and / or an external computing device (if present).
  • the above-mentioned signaling may be signaling between the client device and / or an external computing device (if present).
  • a method of transmitting a high / low level image based on a user's gaze information includes a method of switching layers of a scalable codec, a rate control method using QP (quantization parameter) in case of single bit stream and real time encoding, DASH A method of switching in units of chunks in the case of a single bit stream of a bit stream, a down scaling / up scaling method and / or a high quality rendering method utilizing more resources in the case of rendering can do.
  • QP quantization parameter
  • the above-described exemplary techniques describe a differential transmission scheme using scalable video, even when using a general video coding technique with a single layer, by adjusting the quantization parameter and the degree of downscaling / upscaling, Lowering overall bandwidth, and quickly responding to user gaze movements.
  • the exemplary technique of the present invention switches between a high-level image and a low-level image on a chunk basis .
  • the present specification assumes a virtual reality system
  • the present specification can be equally applied to a VR (Virtual Reality) game using an HMD, an Augmented Reality (AR) game, and the like. That is, all of the techniques for providing a high-level region corresponding to the line of sight that the user is looking at, and signaling only when the user looks at an area or an object that is not expected to be viewed, It can be applied just as in the example.
  • VR Virtual Reality
  • AR Augmented Reality
  • FIG. 9 is a diagram illustrating an exemplary method of controlling image quality in a wearable video display device.
  • FIG. 10 is a diagram illustrating an example in which the image quality is controlled according to a change in the line-of-sight movement speed.
  • the human eye has a characteristic that, even when an image having a different quality at a specific speed is displayed on the screen, the difference in quality can not be recognized when the eye moves. Therefore, by using these characteristics, the threshold value is set as the gaze speed at which the image quality is changed during the movement of the line of sight but does not recognize the difference. Since the threshold value varies depending on the characteristics of the wearable image display device, the threshold value may be different for each wearable image display device.
  • the wearable video display device determines a threshold value of the visual movement speed for switching the image quality according to the characteristics of the apparatus (901).
  • the wearable video display device measures the user's gaze movement speed (903).
  • the wearable video display device compares the measured eye movement speed with a threshold value (905), and requests adjustment of the quality of video data to be transmitted to the wearable display device according to the comparison result.
  • the wearable video display device requests the server device to transmit high quality video data if the gaze speed is smaller than the threshold value (e.g., time t 0 ) (907).
  • the threshold value e.g., time t 0
  • the wearable image display apparatus measures a change tendency of the gaze movement speed (909).
  • the wearable video display device displays a low quality tile (for example, a time interval of 1000, i.e., t 1 time) as a result of the measurement of the change tendency of the visual movement speed, BL) data to the server device (911).
  • a low quality tile for example, a time interval of 1000, i.e., t 1 time
  • the wearable video display requests the server device to transmit high quality tile (BL + EL) data (907).
  • the user's gaze movement speed can track the user's head movement and / or the pupil's movement through a sensor provided on the wearable display device or an external sensor, and can use the gaze movement speed to obtain the gaze movement speed. Also, only high-quality video data is transmitted in an area in the virtual reality space corresponding to the viewport of the user.
  • the quality control of the virtual reality image requests the server device to transmit high quality image data when the gaze movement speed is smaller than the threshold value, , It can be achieved by requesting the server device to transmit the image data of low quality.
  • high quality video data such as high quality video data UHD (Ultra High Definition) and low quality video data may be relatively low quality video data such as HD and SD.
  • the quality of the first quality image data and the quality of the second quality image data may be different from each other due to differences in image quality factors including image quality, image frame number, image resolution, and image scanning method.
  • the video data may be scalable video data, and the high quality video data may include base layer video data and enhancement layer video data of currently transmitted video data, Only the base layer image data excluding the data can be included.
  • the high quality video data transmission request step is referred to as an EL layer request mode
  • the low quality video data transmission request step is referred to as an EL layer mode.
  • the wearer-type video display device when the wearer-type video display device is in the process of transferring low-quality video data, if the speed of the user's gaze movement is smaller than the threshold value or the speed of gaze movement is not changed or decreased, that is, , It is possible to request the server device to transmit the high quality video data again.
  • the wearable video display device requests the server device to transmit the enhancement layer video data of the video data.
  • the tiles corresponding to the viewport currently viewed by the user provide high quality (high image quality) image information.
  • the tiles which are required to provide new high-quality image information due to the movement of the user's viewport should receive image information of the enhancement layer and proceed with image decoding. Due to the limitation of the image motion prediction structure, It may be impossible to proceed.
  • 11 is a diagram illustrating an exemplary method of error concealment when an enhancement layer video data enters a retransmission mode.
  • the technique of error concealment using the upsampled base layer of the reference picture is to replace the base layer image information of the reference image instead of the image information of the enhancement layer of the reference image, It can be used for motion compensation by sampling.
  • the wearable video display device reproduces the upsampled base layer image data during the delay time during the delay time occurring when the transmission quality is changed from the low quality video data to the high quality video data,
  • the high quality video data may be output, thereby alleviating the unpleasantness / fatigue of the user due to rapid change in the video quality.
  • the corresponding technique uses only the base layer image information of the reference image and the enhancement layer image of the current tile during the corresponding delay time, And provides the user with image information of a higher quality than that provided by the user.
  • FIG. 12 illustrates an exemplary method of transmitting a virtual reality image in a video server.
  • the video server When the video server receives a transmission request message of high quality video data from the wearable video display device in operation 1201, the video server transmits high quality video data to the virtual reality space in response to the transmission request of the high quality video data Type image display apparatus (1203).
  • the video server receives a transmission request message of low quality video data from the wearable video display device in step 1205, the video server transmits low quality video data to the virtual reality space in response to the transmission request of the low quality video data To the wearable video display device (1207).
  • the video server when the video server receives the transmission request message of the high quality video data while transmitting the low quality video data to the wearable video display device (1209), the video server transmits the low quality video data during the delay time After the up-sampled image data of the data is transmitted to the wearable display device, high-quality image data is transmitted to the wearable display device (1211).
  • the high-quality image data includes the base layer image data and the enhancement layer image data of the currently transmitted video data
  • the low-quality image data may include only the base layer image data
  • the upsampled image data may be upsampled image data of the base layer image data.
  • FIG. 13 exemplarily illustrates a video quality control method in a virtual reality system.
  • the wearable video display device 1330 determines a threshold value of the line-of-sight movement speed for switching image quality according to device characteristics (1331).
  • the wearable video display 1330 measures the eye movement speed of the user (1333).
  • the wearable display 1330 requests 1315 the video server to transmit video data whose quality has been adjusted according to the comparison result of the gaze speed and the threshold value. Eye line information is transmitted (1337).
  • the video server 1310 obtains the user's viewport from the received sight line information, adjusts the quality of the video corresponding to the viewport in response to the transmission request of the video data whose quality is adjusted, (Step 1339). In step 1339, the video data having the adjusted quality is transmitted.
  • the wearable video display device 1330 decodes and outputs the received video data (1341)
  • the wearable display 1330 may request the video server to transmit 1335b the high quality image data if the eye movement speed is less than the threshold value as a result of the comparison 1335a.
  • the wearable display device (1330) looks at a change trend of the eye movement speed (1335c).
  • the wearable display device 1330 requests the video server to transmit low quality video data if the gaze speed is increasing 1335d and if the gaze speed is not increasing, Quality video data to the video server 1310 (1335b).
  • FIG. 14 is a diagram showing an exemplary configuration of a wearable image display device capable of controlling the quality of a transmission image according to a visual movement speed.
  • an exemplary wearable video display device capable of saving bandwidth by controlling the quality of a transmission image according to the visual movement speed in the virtual reality system will be described.
  • the wearable display 1400 may include a critical speed determiner 1410, a visual-movement speed measuring unit 1430, a controller 1450, and a communication unit 1470.
  • the critical speed determiner 1410 can determine the threshold value of the visual line moving speed for switching the image quality in consideration of the characteristics of the wearable image display device 1400.
  • the eye movement speed measuring unit 1430 may measure the eye movement speed of the user of the wearable display 1400.
  • the user's gaze movement speed may track the user's head movement and / or the pupil's movement through a sensor or an external sensor provided in the wearable display device, and may use the gaze movement speed to obtain the gaze movement speed.
  • the control unit 1450 may generate a message requesting to adjust the quality of the video data to be transmitted to the viewport according to the result of the comparison between the speed of sight movement and the threshold value.
  • the gaze movement speed is smaller than the threshold value and when the gaze movement speed is equal to or greater than the threshold value, when the gaze movement speed does not increase, Quality of video data to be transmitted can be adjusted by requesting transmission of high quality video data among video data of different quality.
  • the communication unit 1470 may transmit the quality control request message to the external video server and receive the video data from the video server.
  • the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different qualities when the user moves the gaze,
  • the size may vary depending on the characteristics of the apparatus.
  • the exemplary signaling method is based on a point in time at which the user's gaze movement speed is fast and a section in which high-quality image information is omitted (referred to as an enhancement layer skip interval)
  • the quality control information is transmitted only when a section for requesting high quality video information is requested again (referred to as an enhancement layer request section), thereby reducing the burden on the entire network, the user terminal, or the video transmission system.
  • Figure 15 shows an OMAF syntax in an exemplary international video standard for signaling for image quality control.
  • OMAF Omnidirectional Media Application Format
  • reference numeral 1500 in the drawing is a new addition to the embodiment of the present specification, and all the other syntaxes are existing standard syntax.
  • unsigned (n) means the number of unsigned 'n' bits in a normal programming language.
  • the center_yaw syntax specifies the viewport orientation relative to the global coordinate axis and represents the center of the viewport.
  • the range should be within -180 * 2 ⁇ 16 ⁇ 180 * 2 ⁇ 16 - 1.
  • the center_pitch statement specifies the viewport orientation relative to the global coordinate axis and represents the center of the viewport.
  • the range should be within -90 * 2 ⁇ 16 ⁇ 90 * 2 ⁇ 16 - 1.
  • the center_roll statement specifies the viewport orientation relative to the global coordinate axis and represents the roll coordinates of the viewport.
  • the range should be within -180 * 2 ⁇ 16 ⁇ 180 * 2 ⁇ 16 - 1.
  • the hor_range statement represents the horizontal extent in the sphere.
  • the range is specified through the center point of the sphere and must be within 0 ⁇ 720 * 2 ⁇ 16.
  • the ver_range syntax indicates a vertical range in the sphere.
  • the range is specified through the center point of the sphere and must be within 0 ⁇ 180 * 2 ⁇ 16.
  • the interpolate syntax indicates whether linear interpolation is applied. A value of 1 indicates that linear interpolation is applied.
  • the EL_skip_flag syntax indicates an EL request mode when the value is 0.
  • the EL_skip_flag syntax indicates an EL skip mode. .
  • the above defined syntax and semantics information can be expressed in XML format in HTTP based video communication such as MPEG DASH.
  • Figure 16 shows an exemplary tile information syntax expressed in XML form.
  • an information mode, a total number of tiles, and transmission / non-transmission information of EL (enhancement layer) video data for each tile may be expressed as XML as a Tile information syntax expressed in XML form.
  • the virtual reality system can be implemented as computer readable code on a computer readable recording medium.
  • a computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like.
  • the computer-readable recording medium may be distributed over network-connected computer systems so that computer readable codes can be stored and executed in a distributed manner.
  • functional programs, codes, and code segments for implementing the present invention can be easily deduced by programmers skilled in the art to which the present description belongs.

Abstract

An image quality calibration method for a wearable image display device disclosed in the present specification comprises: determining of a threshold of a gaze movement speed for image quality conversion in accordance with the characteristics of a wearable image display device; measuring of a gaze movement speed of a user of the wearable image display device; and requesting of quality adjustment with respect to a video image to be transmitted in accordance with a comparison result of the gaze movement speed and the threshold.

Description

가상 현실 비디오 품질 제어Virtual reality video quality control
관련출원과의 상호인용Mutual citation with related application
본 출원은 2017년 12월 12일자 한국특허출원 제10-2017-0170822호에 기초한 우선권의 이익을 주장하며, 해당 한국특허출원의 문헌에 개시된 모든 내용은 본 명세서의 일부로서 포함된다.This application claims the benefit of priority based on Korean Patent Application No. 10-2017-0170822, filed December 12, 2017, the entire contents of which are incorporated herein by reference.
기술분야Technical field
본 명세서는 가상 현실 비디오의 품질을 제어하는 것에 관한 것이다.This specification relates to controlling the quality of virtual reality video.
최근 가상 현실 기술 및 장비의 발달과 함께 머리장착형 영상장치(Head-Mounted Display; HMD)와 같은 착용 가능한 기기들이 선보이고 있다. 머리장착형 영상장치를 통한 여러 서비스 시나리오 중에는 가장 대표적으로 실시간 360도 영상 전송 서비스가 있다. 360도 영상 전송 시스템은 다수의 카메라를 사용하여 360도 영상을 취득하고, 취득된 영상을 부호화 하여 사용자가 착용하고 있는 머리장착형 영상장치로 전송한다. 전송된 영상은 복호화 후, 360도 가상공간에 맵핑(Mapping) 되어 사용자에게 제공되게 된다. 이 때, HMD가 사용자의 눈과 매우 가까운 위치에서 영상을 재생하기 때문에 이질감 없는 몰입감을 사용자에게 제공하기 위해서는 UHD (Ultra High Definition) 급 이상의 영상을 이용할 필요성이 있는데, 이 경우 증가된 비디오 데이터의 양으로 인하여 사용자 단말 및 영상전송 시스템에서 대역폭을 확보하고 빠른 응답속도를 지원하기 위한 방법에 대한 필요성이 발생하게 되었다.Recently, wearable devices such as a head-mounted display (HMD) have been introduced along with the development of virtual reality technology and equipment. Among the many service scenarios through head-mounted imaging devices, there are real-time 360-degree image transmission services. The 360-degree image transmission system acquires a 360-degree image using a plurality of cameras, codes the acquired image, and transmits the image to a head-mounted imaging apparatus worn by a user. The transmitted image is mapped to a 360-degree virtual space after being decoded and provided to the user. In this case, since the HMD reproduces the image at a position very close to the user's eyes, it is necessary to use an image of UHD (Ultra High Definition) or higher in order to provide the user with immersive feeling of immersion. In this case, There is a need for a method for securing a bandwidth and supporting a fast response speed in a user terminal and a video transmission system.
360도 영상전송 시스템은, 증가된 비디오 데이터의 양을 처리하기 위한 사용자 단말 및 영상전송 시스템의 대역폭 확보와 빠른 응답속도 지원을 위해서 360도 영상을 서브영역으로 분할하여 특정 서브영역들만 선택적으로 전송하는 타일링 기술과 스케일러블 영상 부호화 기술을 적용하는데, 사용자의 시선변화가 빠르고 자주 일어나면, 전송해야 하는 고품질 영상 정보가 증가하게 되어 영상전송 요구 대역폭 절감효과가 저하된다. 따라서, 대역폭 확보와 빠른 응답속도 지원을 위해서 타일링 기술과 스케일러블 영상 부호화 기술을 활용하는 의미가 없어지게 되기 때문에 이러한 문제를 해결하기 위한 방법이 필요하게 되었다.In order to secure the bandwidth of the user terminal and the image transmission system for processing the increased amount of video data and to support the fast response speed, the 360-degree image transmission system selectively transmits only the specific sub- When tilting technology and scalable video encoding technology are applied, if user's gaze change is fast and frequently occurs, high quality image information to be transmitted increases, and the effect of reducing bandwidth required for image transmission is lowered. Therefore, there is no need to utilize the tiling technology and the scalable image coding technique to secure the bandwidth and to support the fast response speed. Therefore, a method for solving the problem has become necessary.
본 명세서는 착용형 영상 표시 장치의 영상 품질 제어 방법을 제시한다. 상기 착용형 영상 표시 장치의 영상 품질 제어 방법은 착용형 영상 표시 장치의 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작; 상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 동작; 및 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작을 포함할 수 있다.The present specification discloses a method of controlling image quality of a wearable video display device. The image quality control method of the wearable image display device may include: determining a threshold value of a visual movement speed for image quality switching according to characteristics of the wearable image display device; Measuring an eye movement speed of a user of the wearable image display device; And requesting quality adjustment of the video image to be transmitted according to the comparison result of the gaze speed and the threshold value.
상기 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.The method and other embodiments may include the following features.
상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작은 상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 요청하고, 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 시선 이동 속력이 증가하고 있으면, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 요청하고, 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청할 수 있다.Requesting quality control of a video image to be transmitted according to a result of comparison between the gaze speed and the threshold value; requesting transmission of image data of a first quality if the gaze speed is lower than the threshold; Requesting transmission of video data of a second quality lower than the first quality if the gaze movement speed is equal to or greater than the threshold value and if the gaze movement speed is not increasing , And may request transmission of the image data of the first quality.
또한, 상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상에 대한 고화질의 영상 데이터, 기본 계층 영상 데이터 및 향상 계층 영상 데이터 중 적어도 하나를 포함하고, 상기 제2 품질의 영상 데이터는 상기 현재 전송 중인 비디오 영상에 대한 저화질 영상 데이터, 상기 기본 계층 영상 데이터 중 적어도 하나를 포함할 수 있다.In addition, the image data of the first quality may include at least one of high image quality data, base layer image data, and enhancement layer image data for a currently transmitted video image, and the image data of the second quality may include at least one of Low-quality image data for a video image, and base layer image data.
또한, 상기 제1 품질의 영상 데이터와 상기 제2 품질의 영상 데이터는 영상의 화질, 영상의 프레임 수, 영상의 해상도, 영상의 스캔 방식을 포함하는 영상 품질 요소의 차이로 품질이 서로 달라질 수 있다.In addition, the quality of the first quality image data and the quality of the second quality image data may differ depending on the image quality factors including the image quality, the number of frames of the image, the resolution of the image, and the scan method of the image .
또한, 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작은 상기 제2 품질의 영상 데이터가 전송되는 중에 상기 시선 이동 속력이 상기 임계 값보다 작아지거나, 또는 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청할 수 있다.According to another aspect of the present invention, there is provided a method of controlling quality of a video image to be transmitted according to a comparison result between a speed of movement of a line of sight and a threshold value, , Or if the gaze movement speed is not increasing, transmission of the image data of the first quality may be requested.
또한, 상기 제2 품질의 영상 데이터가 전송되는 중에 상기 시선 이동 속력이 상기 임계 값보다 작아지거나, 또는 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청하는 것은 상기 비디오 영상의 향상 계층 영상 데이터의 전송을 요청하되, 전송 품질 전환 시 발생하는 지연시간동안 상기 비디오 영상의 업샘플링된 기본 계층(Upsampled Base Layer) 영상 데이터를 상기 지연시간동안 재생하고, 상기 향상 계층 영상 데이터가 수신되면, 상기 제1 품질의 비디오 영상을 출력할 수 있다.In addition, requesting the transmission of the image data of the first quality when the visual-movement speed is less than the threshold value or the visual-movement speed is not increasing while the image data of the second quality is being transmitted, The base station transmits the upsampled base layer image data of the video image for the delay time during the delay time occurring when the transmission quality is switched, When the data is received, the video image of the first quality can be output.
또한, 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 품질이 조절된 비디오 영상의 전송을 요청하는 동작은 상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 요청하고, 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 요청할 수 있다.In addition, an operation of requesting transmission of a video image whose quality is adjusted according to a result of comparison between the speed of movement of the line of sight and the threshold value may include requesting transmission of image data of a first quality when the eye movement speed is smaller than the threshold value And to request transmission of video data having a second quality lower than the first quality if the gaze movement speed is equal to or greater than the threshold value.
또한, 상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상에 대한 고화질 영상 데이터, 기본 계층 영상 데이터 및 향상 계층 영상 데이터 중 적어도 하나를 포함하고, 상기 제2 품질의 영상 데이터는 상기 현재 전송 중인 비디오 영상에 대한 저화질 영상 데이터, 상기 기본 계층 영상 데이터 중 적어도 하나를 포함할 수 있다.Also, the image data of the first quality may include at least one of high-definition image data, base-layer image data, and enhancement-layer image data for a video image currently being transmitted, and the image data of the second quality may include at least one of the currently- The low-resolution image data for the image, and the base layer image data.
또한, 상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라질 수 있다.The threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
한편, 본 명세서는 비디오 서버의 영상 전송 방법을 제시한다. 상기 비디오 서버의 영상 전송 방법은 착용형 영상 표시 장치로부터 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하는 동작; 상기 제1 품질의 영상 데이터의 전송 요청에 대응하여 비디오 영상에 대한 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 동작; 상기 착용형 영상 표시 장치로부터 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송 요청 메시지를 수신하는 동작; 및 상기 제2 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 동작을 포함하되, 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 중에 상기 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하면, 전송 품질 전환 시 발생하는 지연시간동안 상기 제2 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치로 전송한 후, 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송할 수 있다.Meanwhile, the present specification discloses a video transmission method of a video server. The method comprising: receiving a transmission request message of a first quality video data from a wearable video display device; Transmitting the video data of the first quality to a video image corresponding to the transmission request of the video data of the first quality to the wearable video display device; Receiving a transmission request message of video data of a second quality lower than the first quality from the wearable video display device; And transmitting the video data of the second quality for the video image to the wearable video display device in response to a request for transmission of the video data of the second quality, When receiving the transmission request message of the first quality video data during transmission to the wearable video display device, the upsampled video data of the video data of the second quality is transmitted to the wearable And transmits the image data of the first quality to the wearable display device after transmitting the image data to the image display device.
상기 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.The method and other embodiments may include the following features.
상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상의 기본 계층 영상 데이터 및 향상 계층 영상 데이터를 포함하고, 상기 제2 품질의 영상 데이터는 상기 기본 계층 영상 데이터를 포함하되, 상기 업샘플링된 영상 데이터는 상기 기본 계층 영상 데이터의 업샘플링된 영상 데이터일 수 있다.Wherein the image data of the first quality includes base layer image data and enhancement layer image data of a currently transmitted video image and the image data of the second quality includes the base layer image data, May be upsampled image data of the base layer image data.
한편, 본 명세서는 영상 품질 제어 방법을 제시한다. 상기 영상 품질 제어 방법은 착용형 영상 표시 장치가 장치 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작; 상기 착용형 영상 표시 장치가 사용자의 시선 이동 속력을 측정하는 동작; 상기 착용형 영상 표시 장치가 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 품질이 조절된 비디오 영상의 전송을 비디오 서버에 요청하는 동작; 및 상기 비디오 서버가 상기 비디오 영상의 전송 요청에 대응하여 상기 착용형 영상 표시 장치로 상기 품질이 조절된 비디오 영상을 전송하는 동작을 포함할 수 있다.On the other hand, the present specification proposes a method of controlling image quality. Wherein the image quality control method includes: determining a threshold value of a line-of-sight movement speed for switching a video quality according to a device characteristic of the wearable video display device; The wearable video display device measuring an eye movement speed of a user; Requesting the video server to transmit the quality-adjusted video image according to the comparison result of the gaze speed and the threshold value; And transmitting the quality-adjusted video image to the wearable image display device in response to a transmission request of the video image by the video server.
상기 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.The method and other embodiments may include the following features.
상기 착용형 영상 표시 장치는, 상기 비교 결과 상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하고, 상기 비교 결과 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 시선 이동 속력이 증가하고 있으면, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하고, 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청할 수 있다.Wherein the wearable video display device requests the video server to transmit video data of a first quality when the gazing speed is lower than the threshold value as a result of the comparison, And requests the video server to transmit video data of a second quality lower than the first quality if the gaze movement speed is increased and if the gaze movement speed is not increased, Quality video data to the video server.
또한, 상기 비디오 서버는 상기 제1 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하고, 상기 제2 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송할 수 있다.In addition, the video server transmits the video data of the first quality to the video image corresponding to the transmission request of the video data of the first quality to the wearable video display device, And transmits the video data of the second quality to the video image corresponding to the transmission request to the wearable video display device.
또한, 상기 비디오 서버는 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 중에 상기 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하면, 전송 품질 전환 시 발생하는 지연시간동안 상기 제2 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치로 전송한 후, 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송할 수 있다.When the video server receives the video data transmission request message of the first quality while transmitting the video data of the second quality to the wearable video display device, The image data of the first quality may be transmitted to the wearable display device after the upsampled image data of the image data of the second quality is transmitted to the wearable display device.
또한, 상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라질 수 있다.The threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
한편, 본 명세서는 착용형 영상 표시 장치를 제시한다. 상기 착용형 영상 표시 장치는 착용형 영상 표시 장치 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 임계 속력 판단부; 상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 시선 이동 속력 측정부; 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상의 품질 조절을 요청하는 메시지를 생성하는 제어부; 및 상기 비디오 영상의 품질 조절 요청 메시지를 외부로 전송하고, 상기 비디오 영상을 수신하는 통신부를 포함할 수 있다.On the other hand, the present specification discloses a wearable video display device. The wearable video display device includes a critical speed determining unit for determining a threshold value of a visual movement speed for switching an image quality according to a wearable video display device characteristic; A line-of-sight movement speed measuring unit for measuring a line-of-sight movement speed of a user of the wearable image display device; A control unit for generating a message for requesting adjustment of the quality of a video image to be transmitted according to a result of comparison between the gaze speed and the threshold value; And a communication unit for transmitting the quality adjustment request message to the outside and receiving the video image.
상기 장치 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.The apparatus and other embodiments may include the following features.
상기 제어부는 상기 시선 이동 속력이 상기 임계 값보다 작은 경우 및 상기 시선 이동 속력이 상기 임계 값과 같거나 클 때, 상기 시선 이동 속력이 증가하고 있지 않는 경우, 상기 비디오 영상에 대한 서로 다른 품질의 영상 데이터 중 높은 품질의 영상 데이터의 전송을 요청할 수 있다.When the gaze movement speed is less than the threshold value and when the gaze movement speed is equal to or greater than the threshold value and when the gaze movement speed is not increasing, It is possible to request transmission of high quality video data among the data.
또한, 상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라질 수 있다.The threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different quality when the user moves the gaze, And may vary depending on the characteristics of the image display device.
한편, 본 명세서에는 착용형 영상 표시 장치의 영상 품질 제어 방법이 제시된다. 상기 착용형 영상 표시 장치의 영상 품질 제어 방법은 착용형 영상 표시 장치의 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작; 상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 동작; 및 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 스케일러블 비디오 영상에 대한 품질 조절을 요청하는 동작을 포함하되, 상기 시선 이동 속력이 상기 임계 값보다 작은 경우 및 상기 시선 이동 속력이 상기 임계 값과 같거나 클 때, 상기 시선 이동 속력이 증가하고 있지 않는 경우, 상기 스케일러블 비디오 영상의 향상 계층 영상 데이터의 전송을 요청할 수 있다.Meanwhile, in this specification, a method of controlling the image quality of a wearable video display device is presented. The image quality control method of the wearable image display device may include: determining a threshold value of a visual movement speed for image quality switching according to characteristics of the wearable image display device; Measuring an eye movement speed of a user of the wearable image display device; And requesting quality adjustment for a scalable video image to be transmitted according to a result of the comparison of the gaze speed and the threshold value, wherein when the gaze speed is smaller than the threshold value, And when the speed of sight line movement is not increased, it is possible to request the transmission of the enhancement layer video data of the scalable video image.
상기 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.The method and other embodiments may include the following features.
기본 계층 영상 데이터가 전송되는 중에 상기 향상 계층 영상 데이터의 전송을 요청하면, 전송 품질 전환 시 발생하는 지연시간동안 상기 스케일러블 비디오 영상의 업샘플링된 기본 계층 영상 데이터를 수신하고, 상기 지연시간 이후, 상기 향상 계층 영상 데이터를 수신하는 동작을 더 포함할 수 있다.The method includes receiving up-sampled base layer image data of the scalable video image during a delay time occurring when a transmission quality is switched when the base layer video data is transmitted and requesting transmission of the enhancement layer video data, And receiving the enhancement layer image data.
본 명세서에 개시된 실시 예들에 의하면, 360도 영상을 제공하는 가상 현실 영상 제공 시스템에서, 사용자의 시선 이동으로 인해 증가된 비디오 데이터의 양을 처리하기 위한 영상 수신 장치 및 영상 전송 시스템의 대역폭을 확보할 수 있고, 빠른 응답속도를 지원할 수 있게 된다.According to embodiments of the present invention, in a virtual reality image providing system that provides a 360-degree image, a bandwidth of the image receiving apparatus and the image transmitting system for processing the amount of video data increased due to the movement of the user's gaze And can support a fast response speed.
또한, 본 명세서에 개시된 실시 예들에 의하면, 가상 현실 영상 제공 시스템에서, 사용자의 잦은 시선 이동 및 빠른 시선 이동에도 전송될 비디오 데이터의 양을 효율적으로 조절할 수 있는 효과가 있다.In addition, according to the embodiments disclosed in the present specification, in the virtual reality image providing system, the amount of video data to be transmitted can be efficiently controlled even with frequent eye movement and quick gaze movement of the user.
도 1은 가상 현실 영상을 제공하는 예시적인 가상 현실 시스템을 도시한다.1 illustrates an exemplary virtual reality system for providing a virtual reality image.
도 2는 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.2 is a diagram illustrating an exemplary scalable video coding service.
도 3은 서버 디바이스의 예시적인 구성을 나타낸 도면이다.3 is a diagram showing an exemplary configuration of a server device.
도 4는 인코더의 예시적인 구조를 나타낸 도면이다.4 is a diagram showing an exemplary structure of an encoder.
도 5는 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다Figure 5 is an illustration of an exemplary method of signaling a region of interest
도 6은 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.6 is a diagram showing an exemplary configuration of a client device.
도 7은 제어부의 예시적인 구성을 나타낸 도면이다.7 is a diagram showing an exemplary configuration of the control unit.
도 8은 디코더의 예시적인 구성을 나타낸 도면이다.8 is a diagram showing an exemplary configuration of a decoder.
도 9는 착용형 영상 표시 장치에서 영상 품질을 제어하는 예시적인 방법을 나타낸 도면이다.9 is a diagram illustrating an exemplary method of controlling image quality in a wearable video display device.
도 10은 시선 이동 속력의 변화에 따라 영상 품질이 제어되는 예를 도시한 도이다.FIG. 10 is a diagram illustrating an example in which the image quality is controlled according to a change in the line-of-sight movement speed.
도 11은 향상 계층 비디오 데이터의 재전송 모드 진입 시, 에러 은닉하는 예시적인 방법을 나타낸 도면이다.11 is a diagram illustrating an exemplary method of error concealment when an enhancement layer video data enters a retransmission mode.
도 12는 비디오 서버에서의 가상 현실 영상을 전송하는 예시적인 방법에 대해서 설명한다.12 illustrates an exemplary method of transmitting a virtual reality image in a video server.
도 13은 가상현실 시스템에서의 영상 품질 제어 방법을 예시적으로 설명한다.FIG. 13 exemplarily illustrates a video quality control method in a virtual reality system.
도 14는 시선 이동 속력에 따라 전송 영상의 품질을 제어할 수 있는 착용형 영상 표시 장치의 예시적인 구성을 나타낸 도면이다.FIG. 14 is a diagram showing an exemplary configuration of a wearable image display device capable of controlling the quality of a transmission image according to a visual movement speed.
도 15는 영상 품질 조절을 위한 신호 체계를 위한 예시적인 국제 비디오 표준에서의 OMAF 구문을 도시한다.Figure 15 shows an OMAF syntax in an exemplary international video standard for signaling for image quality control.
도 16은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한다.Figure 16 shows an exemplary tile information syntax expressed in XML form.
본 명세서에 개시된 기술은 가상 현실 시스템에 적용될 수 있다. 그러나 본 명세서에 개시된 기술은 이에 한정되지 않고, 상기 기술의 기술적 사상이 적용될 수 있는 모든 전자 장치 및 방법에도 적용될 수 있다.The techniques disclosed herein can be applied to a virtual reality system. However, the technology disclosed in this specification is not limited thereto, and can be applied to all electronic devices and methods to which the technical idea of the above-described technology can be applied.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It is noted that the technical terms used herein are used only to describe specific embodiments and are not intended to limit the scope of the technology disclosed herein. Also, the technical terms used herein should be interpreted as being generally understood by those skilled in the art to which the presently disclosed subject matter belongs, unless the context clearly dictates otherwise in this specification, Should not be construed in a broader sense, or interpreted in an oversimplified sense. It is also to be understood that the technical terms used herein are erroneous technical terms that do not accurately represent the spirit of the technology disclosed herein, it is to be understood that the technical terms used herein may be understood by those of ordinary skill in the art to which this disclosure belongs And it should be understood. Also, the general terms used in the present specification should be interpreted in accordance with the predefined or prior context, and should not be construed as being excessively reduced in meaning.
본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.As used herein, terms including ordinals, such as first, second, etc., may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, wherein like reference numerals denote like or similar elements, and redundant description thereof will be omitted.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.Further, in the description of the technology disclosed in this specification, a detailed description of related arts will be omitted if it is determined that the gist of the technology disclosed in this specification may be obscured. It is to be noted that the attached drawings are only for the purpose of easily understanding the concept of the technology disclosed in the present specification, and should not be construed as limiting the spirit of the technology by the attached drawings.
도 1은 가상 현실 영상을 제공하는 예시적인 가상 현실 시스템을 도시한다.1 illustrates an exemplary virtual reality system for providing a virtual reality image.
가상 현실 시스템은 가상 현실 영상을 생성하는 가상 현실 영상 생성 장치, 상기 입력된 가상 현실 영상을 인코딩하여 전송하는 서버 디바이스, 및 상기 전송된 가상 현실 영상을 디코딩하여 사용자에게 출력하는 하나 이상의 클라이언트 디바이스를 포함하도록 구성될 수 있다.The virtual reality system includes a virtual reality image generation device that generates a virtual reality image, a server device that encodes and transmits the input virtual reality image, and one or more client devices that decode the transmitted virtual reality image and output the decoded virtual reality image to a user .
도 1을 참조하면, 예시적인 가상 현실 시스템(100)은 가상 현실 영상 생성 장치(110), 서버 디바이스(120), 및 하나 이상의 클라이언트 디바이스(130)를 포함하며, 도 1에 도시된 각 구성요소들의 수는 예시적인 것일 뿐 이에 제한되지 아니한다. 상기 가상 현실 시스템(100)은 360도 영상 제공 시스템으로도 불릴 수 있다.1, an exemplary virtual reality system 100 includes a virtual reality image generation device 110, a server device 120, and one or more client devices 130, Are not limited to these numbers. The virtual reality system 100 may also be referred to as a 360 degree image providing system.
상기 가상 현실 영상 생성 장치(110)는 하나 이상의 카메라 모듈을 포함하여 자신이 위치하고 있는 공간에 대한 영상을 촬영함으로써 공간 영상을 생성할 수 있다.The virtual reality image generating apparatus 110 may include one or more camera modules and generate a spatial image by photographing an image of a space in which the virtual reality image generating apparatus 110 is located.
상기 서버 디바이스(120)는 상기 가상 현실 영상 생성 장치(110)에서 생성되어 입력된 공간 영상을 스티칭(Image stitching), 프로젝션(Projection), 맵핑(Mapping)하여 360도 영상을 생성하고, 상기 생성된 360도 영상을 원하는 품질의 비디오 데이터로 조절한 뒤 인코딩(Encoding; 부호화)할 수 있다.The server device 120 generates a 360-degree image by stitching, projecting, and mapping spatial images generated and input in the virtual reality image generating apparatus 110, A 360-degree image can be encoded with video data of a desired quality and then encoded.
또한, 상기 서버 디바이스(120)는 상기 인코딩된 360도 영상에 대한 비디오 데이터와 시그널링 데이터를 포함하는 비트스트림을 네트워크(통신망)을 통해서 클라이언트 디바이스(130)로 전송할 수 있다.Also, the server device 120 may transmit the bitstream including the video data and the signaling data for the encoded 360-degree image to the client device 130 through the network (communication network).
상기 클라이언트 디바이스(130)는 수신된 비트스트림을 디코딩(Decoding; 복호화)하여 상기 클라이언트 디바이스(130)를 착용한 사용자에게 360도 영상을 출력할 수 있다. 상기 클라이언트 디바이스(130)는 머리장착형 영상장치(Head-Mounted Display; HMD)와 같은 근안 디스플레이(Near-eye display) 장치일 수 있다.The client device 130 may decode the received bit stream and output a 360-degree image to a user wearing the client device 130. [ The client device 130 may be a near-eye display device such as a head-mounted display (HMD).
한편, 상기 가상 현실 영상 생성 장치(110)는 컴퓨터 시스템으로 구성되어 컴퓨터 그래픽으로 구현된 가상의 360도 공간에 대한 영상을 생성할 수도 있다. 또한, 상기 가상 현실 영상 생성 장치(110)는 가상 현실 게임 등의 가상 현실 콘텐츠의 공급자 일 수 있다.Meanwhile, the virtual reality image generating apparatus 110 may be configured as a computer system to generate an image of a virtual 360-degree space implemented by computer graphics. In addition, the virtual reality image generating apparatus 110 may be a provider of virtual reality contents such as a virtual reality game.
클라이언트 디바이스(130)는 해당 클라이언트 디바이스(130)를 사용하는 사용자로부터 사용자 데이터를 획득할 수 있다. 사용자 데이터는 사용자의 영상 데이터, 음성 데이터, 뷰포트 데이터(시선 데이터), 관심 영역 데이터 및 부가 데이터를 포함할 수 있다.The client device 130 may obtain user data from a user using the client device 130. The user data may include user's image data, voice data, viewport data (sight line data), region of interest data, and additional data.
예를 들어, 클라이언트 디바이스(130)는 사용자의 영상 데이터를 획득하는 2D/3D 카메라 및 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.For example, the client device 130 may include at least one of a 2D / 3D camera and an Immersive camera for acquiring image data of a user. The 2D / 3D camera can shoot an image having a viewing angle of 180 degrees or less. Immersive cameras can capture images with a viewing angle of 360 degrees or less.
예를 들어, 클라이언트 디바이스(130)는 제1 장소에 위치한 제1 사용자의 사용자 데이터를 획득하는 제1 클라이언트 디바이스(131), 제2 장소에 위치한 제2 사용자의 사용자 데이터를 획득하는 제2 클라이언트 디바이스(133), 및 제3 장소에 위치한 제3 사용자의 사용자 데이터를 획득하는 제3 클라이언트 디바이스(135) 중에서 적어도 하나를 포함할 수 있다.For example, the client device 130 may include a first client device 131 that obtains user data of a first user located at a first location, a second client device 130 that obtains user data of a second user located at a second location, A second client device 133, and a third client device 135 that obtains user data of a third user located at a third location.
각각의 클라이언트 디바이스(130)는 사용자로부터 획득한 사용자 데이터를 네트워크를 통하여 서버 디바이스(120)로 전송할 수 있다.Each client device 130 may transmit user data obtained from the user to the server device 120 via the network.
서버 디바이스(120)는 클라이언트 디바이스(130)로부터 적어도 하나의 사용자 데이터를 수신할 수 있다. 서버 디바이스(120)는 수신한 사용자 데이터를 기초로 가상 현실 공간에 대한 전체 영상을 생성할 수 있다. 서버 디바이스(120)가 생성한 전체 영상은 가상 현실 공간 내에서 360도 방향의 영상을 제공하는 immersive 영상을 나타낼 수 있다. 서버 디바이스(120)는 사용자 데이터에 포함된 영상 데이터를 가상 현실 공간에 매핑하여 전체 영상을 생성할 수 있다. Server device 120 may receive at least one user data from client device 130. The server device 120 can generate a full image of the virtual reality space based on the received user data. The entire image generated by the server device 120 may represent an immersive image providing a 360-degree image in the virtual reality space. The server device 120 may generate the entire image by mapping the image data included in the user data to the virtual reality space.
서버 디바이스(120)는 상기 생성된 전체 영상을 각 사용자에게 전송할 수 있다.The server device 120 may transmit the generated whole image to each user.
각각의 클라이언트 디바이스(130)는 전체 영상을 수신하고, 각 사용자가 바라보는 영역만을 가상 현실 공간에 렌더링 및/또는 디스플레이할 수 있다.Each client device 130 may receive the entire image and render and / or display only the area that each user views in the virtual reality space.
도 2는 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.2 is a diagram illustrating an exemplary scalable video coding service.
스케일러블 비디오 코딩 서비스는 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라 시간적, 공간적, 그리고 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 스케일러블 비디오 코딩 서비스는 일반적으로 해상도(Spatial resolution), 품질(Quality), 및 시간(Temporal) 측면에서의 계층성(Scalability)을 제공한다.Scalable video coding service is an image compression method for providing various services in a scalable manner in terms of temporal, spatial, and image quality according to various user environments such as a network situation or a terminal resolution in various multimedia environments. Scalable video coding services generally provide scalability in terms of spatial resolution, quality, and temporal aspects.
공간적 계층성(Spatial scalability)은 동일한 영상에 대해 각 계층별로 다른 해상도를 가지고 부호화함으로써 서비스할 수 있다. 공간적 계층성을 이용하여 디지털 TV, 노트북, 스마트 폰 등 다양한 해상도를 갖는 디바이스에 대해 적응적으로 영상 콘텐츠를 제공하는 것이 가능하다.Spatial scalability can be provided by encoding the same image with different resolution for each layer. It is possible to adaptively provide image contents to devices having various resolutions such as a digital TV, a notebook, and a smart phone using spatial hierarchy.
도면을 참고하면, 스케일러블 비디오 코딩 서비스는 VSP(비디오 서비스 프로바이더; Video Service Provider)로부터 가정 내의 홈 게이트웨이 (Home Gateway)를 통해 동시에 하나 이상의 서로 다른 특성을 가진 TV를 지원할 수 있다. 예를 들어, 스케일러블 비디오 코딩 서비스는 서로 다른 해상도(Resolution)를 가지는 HDTV (High-Definition TV), SDTV (Standard-Definition TV), 및 LDTV (Low-Definition TV)를 동시에 지원할 수 있다.Referring to the drawings, a scalable video coding service can support one or more TVs having different characteristics from a video service provider (VSP) through a home gateway in the home. For example, the scalable video coding service can simultaneously support HDTV (High-Definition TV), SDTV (Standard-Definition TV), and LDTV (Low-Definition TV) having different resolutions.
시간적 계층성(Temporal scalability)은 콘텐츠가 전송되는 네트워크 환경 또는 단말기의 성능을 고려하여 영상의 프레임 레이트(Frame rate)를 적응적으로 조절할 수 있다. 예를 들어, 근거리 통신망을 이용하는 경우에는 60FPS(Frame Per Second)의 높은 프레임 레이트로 서비스를 제공하고, 3G 모바일 네트워크와 같은 무선 광대역 통신망을 사용하는 경우에는 16FPS의 낮은 프레임 레이트로 콘텐츠를 제공함으로써, 사용자가 영상을 끊김 없이 받아볼 수 있도록 서비스를 제공할 수 있다.Temporal scalability can adaptively adjust the frame rate of an image in consideration of the network environment in which the content is transmitted or the performance of the terminal. For example, when a local area network is used, a service is provided at a high frame rate of 60 frames per second (FPS). When a wireless broadband communication network such as a 3G mobile network is used, a content is provided at a low frame rate of 16 FPS, A service can be provided so that the user can receive the video without interruption.
품질 계층성(Quality scalability) 또한 네트워크 환경이나 단말기의 성능에 따라 다양한 화질의 콘텐츠를 서비스함으로써, 사용자가 영상 콘텐츠를 안정적으로 재생할 수 있도록 한다.Quality scalability In addition, by providing contents of various image quality according to the network environment or the performance of the terminal, the user can stably reproduce the image contents.
스케일러블 비디오 코딩 서비스는 각각 기본 계층 (Base layer)과 하나 이상의 향상 계층 (Enhancement layer(s))을 포함할 수 있다. 수신기는 기본 계층만 받았을 때는 일반 화질의 영상을 제공하고, 기본 계층 및 향상 계층을 함께 받으면 고화질을 제공할 수 있다. 즉, 기본 계층과 하나 이상의 향상 계층이 있을 때, 기본 계층을 받은 상태에서 향상 계층 (예: Enhancement layer 1, enhancement layer 2, … , enhancement layer n)을 더 받으면 받을수록 화질이나 제공하는 영상의 품질이 좋아진다.The scalable video coding service may each include a base layer and one or more enhancement layers (s). The receiver provides a normal image quality when receiving only the base layer, and can provide a high image quality when the base layer and the enhancement layer are received together. In other words, when there is a base layer and one or more enhancement layers, when an enhancement layer (for example, enhancement layer 1, enhancement layer 2, ..., enhancement layer n) is further received while receiving a base layer, Is better.
이와 같이, 스케일러블 비디오 코딩 서비스의 영상은 복수개의 계층으로 구성되어 있으므로, 수신기는 적은 용량의 기본 계층 데이터를 빠른 속도로 전송 받아 기본 화질의 영상을 빨리 처리하여 재생하고, 필요 시 향상 계층 영상 데이터까지 추가로 받아서 서비스의 품질을 높일 수 있다.Thus, since the scalable video coding service is composed of a plurality of hierarchical layers, the receiver receives the base layer data of a small capacity at a high speed and processes and reproduces the basic image quickly, The service quality can be increased.
도 3은 서버 디바이스의 예시적인 구성을 나타낸 도면이다.3 is a diagram showing an exemplary configuration of a server device.
서버 디바이스(300)는 제어부(310) 및/또는 통신부(320)를 포함할 수 있다.The server device 300 may include a control unit 310 and / or a communication unit 320.
제어부(310)는 가상 공간에 대한 전체 영상을 생성하고, 생성된 전체 영상을 인코딩할 수 있다. 또한, 제어부(310)는 서버 디바이스(300)의 모든 동작을 제어할 수 있다. 구체적인 내용은 이하에서 설명한다.The controller 310 may generate a full image of the virtual space and encode the entire image. In addition, the control unit 310 can control all the operations of the server device 300. Details will be described below.
통신부(320)는 외부 장치 및/또는 클라이언트 디바이스로 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 통신부(320)는 적어도 하나의 클라이언트 디바이스로부터 사용자 데이터 및/또는 시그널링 데이터를 수신할 수 있다. 또한, 통신부(320)는 가상 공간에 대한 전체 영상 및/또는 일부의 영역에 대한 영상을 클라이언트 디바이스로 전송할 수 있다.The communication unit 320 may transmit and / or receive data to an external device and / or a client device. For example, the communication unit 320 may receive user data and / or signaling data from at least one client device. In addition, the communication unit 320 may transmit the entire image of the virtual space and / or the image of the partial region to the client device.
제어부(310)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 시그널링 데이터 생성부(317), 및/또는 인코더(319) 중에서 적어도 하나를 포함할 수 있다.The control unit 310 may include at least one of a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, a signaling data generation unit 317, and / or an encoder 319 have.
시그널링 데이터 추출부(311)는 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 상기 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다. 또한, 상기 영상 구성 정보는 가상 공간 내에서 사용자의 뷰포트 정보를 포함할 수 있다.The signaling data extracting unit 311 can extract signaling data from the data received from the client device. For example, the signaling data may include image configuration information. The image configuration information may include gaze information indicating a gaze direction of a user and zoom area information indicating a viewing angle of a user in a virtual space. In addition, the image configuration information may include the viewport information of the user in the virtual space.
영상 생성부(313)는 가상 공간에 대한 전체 영상 및 가상 공간 내의 특정 영역에 대한 영상을 생성할 수 있다.The image generating unit 313 may generate a full image of the virtual space and an image of a specific region in the virtual space.
관심 영역 판단부(315)는 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 판단할 수 있다. 또한, 가상 공간의 전체 영역 내에서 사용자의 뷰포트를 판단할 수 있다. 예를 들어, 관심 영역 판단부(315)는 시선 정보 및/또는 줌 영역 정보를 기초로 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역은 사용자가 보게 될 가상의 공간에서 중요 오브젝트가 위치할 타일의 위치(예를 들어, 게임 등에서 새로운 적이 등장하는 위치, 가상 공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳일 수 있다. 또한, 관심 영역 판단부(315)는 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보와 사용자의 뷰포트에 대한 정보를 생성할 수 있다.The ROI determining unit 315 may determine a ROI corresponding to the user's viewing direction in the entire area of the virtual space. In addition, the user's viewport can be determined within the entire area of the virtual space. For example, the ROI determiner 315 may determine the ROI based on the sight line information and / or the zoom area information. For example, the region of interest may include a location of a tile where the important object is located in a virtual space to be viewed by the user (for example, a location where a new enemy appears in a game or the like, a position of a speaker in a virtual space) It can be a place to look at. In addition, the ROI determining unit 315 may generate ROI information indicating the ROI corresponding to the user's viewing direction and information about the user's viewport in the entire area of the virtual space.
시그널링 데이터 생성부(317)는 전체 영상을 처리하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보 및/또는 뷰포트 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.The signaling data generation unit 317 can generate signaling data for processing the entire image. For example, the signaling data may transmit the region of interest information and / or the viewport information. The signaling data may be transmitted via at least one of Supplement Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
인코더(319)는 시그널링 데이터를 기초로 전체 영상을 인코딩할 수 있다. 예를 들어, 인코더(319)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 인코딩할 수 있다. 예를 들어, 가상 공간 내에서 사용자가 특정 지점을 바라보는 경우, 인코더는 가상 공간 내의 사용자 시선을 기초로 특정 지점에 해당하는 영상은 고화질로 인코딩하고, 상기 특정 지점 이외에 해당하는 영상은 저화질로 인코딩할 수 있다. 실시예에 따라서, 인코더(319)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 및/또는 시그널링 데이터 생성부(317) 중에서 적어도 하나를 포함할 수 있다.The encoder 319 may encode the entire image based on the signaling data. For example, the encoder 319 may encode the entire image in a customized manner for each user based on the viewing direction of each user. For example, when the user looks at a specific point in the virtual space, the encoder encodes the image corresponding to the specific point in high quality on the basis of the user's gaze in the virtual space, and the corresponding image other than the specific point is encoded can do. The encoder 319 may include at least one of a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, and / or a signaling data generation unit 317 have.
또한, 제어부(310)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 시그널링 데이터 생성부(317), 및 인코더(319) 이 외에 프로세서(도시하지 않음), 메모리(도시하지 않음), 및 입출력 인터페이스(도시하지 않음)를 포함할 수 있다.The control unit 310 includes a signaling data extraction unit 311, an image generation unit 313, a region of interest determination unit 315, a signaling data generation unit 317, and an encoder 319 as well as a processor ), A memory (not shown), and an input / output interface (not shown).
상기 프로세서는 중앙처리장치(Central Processing Unit; CPU), 어플리케이션 프로세서(Application Processor; AP), 또는 커뮤니케이션 프로세서(Communication Processor; CP) 중 하나 또는 그 이상을 포함할 수 있다. 상기 프로세서는, 예를 들어, 상기 제어부(310)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.The processor may include one or more of a central processing unit (CPU), an application processor (AP), or a communication processor (CP). The processor may perform, for example, operations or data processing related to control and / or communication of at least one other component of the controller 310. For example,
또한, 상기 프로세서는, 예를 들어, SoC(system on chip)로 구현될 수 있다. 일 실시예에 따르면, 상기 프로세서는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다.In addition, the processor may be implemented as a system on chip (SoC), for example. According to one embodiment, the processor may further comprise a graphics processing unit (GPU) and / or an image signal processor.
또한, 상기 프로세서는, 예를 들어, 운영 체제 또는 응용 프로그램을 구동하여 상기 프로세서에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다.In addition, the processor may control a plurality of hardware or software components connected to the processor, for example, by driving an operating system or an application program, and may perform various data processing and operations.
또한, 상기 프로세서는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.The processor may also load or process instructions or data received from at least one of the other components (e.g., non-volatile memory) into volatile memory and store the various data in non-volatile memory have.
상기 메모리는 휘발성(volatile) 및/또는 비휘발성(non-volatile) 메모리를 포함할 수 있다. 상기 메모리는, 예를 들어, 상기 제어부(310)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시예에 따르면, 상기 메모리는 소프트웨어 및/또는 프로그램을 저장할 수 있다.The memory may include volatile and / or non-volatile memory. The memory may, for example, store instructions or data related to at least one other component of the controller 310. [ According to one embodiment, the memory may store software and / or programs.
상기 입출력 인터페이스는, 예를 들어, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 상기 제어부(310)의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다. 또한, 상기 입출력 인터페이스는 상기 제어부(310)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.The input / output interface may serve as an interface through which commands or data input from, for example, a user or another external device can be transmitted to the other component (s) of the control unit 310. The input / output interface may output commands or data received from other component (s) of the controller 310 to a user or another external device.
이하에서는 관심 영역을 이용한 예시적인 영상 전송 방법을 설명한다.Hereinafter, an exemplary image transmission method using a region of interest will be described.
서버 디바이스는, 통신부를 이용하여, 적어도 하나의 클라이언트 디바이스로부터 비디오 데이터 및 시그널링 데이터를 수신할 수 있다. 또한, 서버 디바이스는, 시그널링 데이터 추출부를 이용하여, 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 시점 정보 및 줌 영역 정보를 포함할 수 있다.The server device can receive video data and signaling data from at least one client device using a communication unit. Further, the server device can extract the signaling data using the signaling data extracting unit. For example, the signaling data may include viewpoint information and zoom region information.
시선 정보는 사용자가 가상 공간 내에서 어느 영역(지점)을 바라보는지 여부를 지시할 수 있다. 가상 공간 내에서 사용자가 특정 영역을 바라보면, 시선 정보는 사용자에서 상기 특정 영역으로 향하는 방향을 지시할 수 있다.The gaze information can indicate which area (point) the user sees in the virtual space. When the user looks at a specific area within the virtual space, the line of sight information can indicate the direction from the user to the specific area.
줌 영역 정보는 사용자의 시선 방향에 해당하는 비디오 데이터의 확대 범위 및/또는 축소 범위를 지시할 수 있다. 또한, 줌 영역 정보는 사용자의 시야각을 지시할 수 있다. 줌 영역 정보의 값을 기초로 비디오 데이터가 확대되면, 사용자는 특정 영역만을 볼 수 있다. 줌 영역 정보의 값을 기초로 비디오 데이터가 축소되면, 사용자는 특정 영역뿐만 아니라 상기 특정 영역 이외의 영역 일부 및/또는 전체를 볼 수 있다.The zoom area information may indicate an enlarged range and / or a reduced range of the video data corresponding to the viewing direction of the user. In addition, the zoom area information can indicate the viewing angle of the user. If the video data is enlarged based on the value of the zoom area information, the user can view only the specific area. If the video data is reduced based on the value of the zoom area information, the user can view not only the specific area but also a part and / or the entire area other than the specific area.
그리고 나서, 서버 디바이스는, 영상 생성부를 이용하여, 가상 공간에 대한 전체 영상을 생성할 수 있다.Then, the server device can generate the entire image of the virtual space using the image generating unit.
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 시그널링 데이터를 기초로 가상 공간 내에서 각 사용자가 바라보는 시점 및 줌(zoom) 영역에 대한 영상 구성 정보를 파악할 수 있다.Then, the server device can use the region-of-interest determination unit to grasp the video configuration information of the point of view and the zoom region of each user in the virtual space based on the signaling data.
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 영상 구성 정보를 기초로 사용자의 관심 영역을 결정할 수 있다.Then, the server device can determine the region of interest of the user based on the image configuration information using the region of interest determination unit.
시그널링 데이터(예를 들어, 시점 정보 및 줌 영역 정보 중에서 적어도 하나)가 변경될 경우, 서버 디바이스는 새로운 시그널링 데이터를 수신할 수 있다. 이 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 새로운 관심 영역을 결정할 수 있다.When the signaling data (for example, at least one of the view information and the zoom area information) is changed, the server device can receive new signaling data. In this case, the server device can determine a new region of interest based on the new signaling data.
그리고 나서, 서버 디바이스는, 제어부를 이용하여, 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.Then, the server device can use the control unit to determine whether the data currently processed based on the signaling data is data corresponding to the region of interest.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.When the signaling data is changed, the server device can determine whether or not the data currently processed based on the new signaling data is data corresponding to the region of interest.
관심 영역에 해당하는 데이터일 경우, 서버 디바이스는, 인코더를 이용하여, 사용자의 시점에 해당하는 비디오 데이터(예를 들어, 관심 영역)는 고품질로 인코딩할 수 있다. 예를 들어, 서버 디바이스는 해당 비디오 데이터에 대하여 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 생성하고, 이들을 전송할 수 있다.In the case of data corresponding to the region of interest, the server device can encode video data (for example, a region of interest) corresponding to the user's viewpoint at a high quality using an encoder. For example, the server device may generate base layer video data and enhancement layer video data for the video data and transmit them.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시점에 해당하는 비디오 데이터(새로운 관심 영역)는 고품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 저품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 고품질의 영상을 전송하는 경우, 서버 디바이스는 향상 계층 비디오 데이터를 추가로 생성 및/또는 전송할 수 있다.When the signaling data is changed, the server device can transmit the video data corresponding to the new time point (new interest area) as a high-quality image. If the server device is transmitting a low-quality image but the signaling data is changed so that the server device transmits a high-quality image, the server device can additionally generate and / or transmit enhancement layer video data.
관심 영역에 해당하지 않는 데이터일 경우, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 데이터(예를 들어, 비-관심 영역)은 저품질로 인코딩할 수 있다. 예를 들어, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 데이터에 대하여 기본 계층 비디오 데이터만 생성하고, 이들을 전송할 수 있다.In the case of data not corresponding to the area of interest, the server device can encode video data (e.g., non-interest area) that does not correspond to the user's viewpoint at a low quality. For example, the server device may generate only base layer video data for video data that does not correspond to a user's viewpoint, and may transmit them.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 사용자의 시점에 해당하지 않는 비디오 데이터(새로운 비-관심 영역)은 저품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 고품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 저품질의 영상을 전송하는 경우, 서버 디바이스는 더 이상 적어도 하나의 향상 계층 비디오 데이터를 생성 및/또는 전송하지 않고, 기본 계층 비디오 데이터만을 생성 및/또는 전송할 수 있다.When the signaling data is changed, the server device can transmit video data (new non-interest area) that does not correspond to the new user's viewpoint with a low quality image. In the case where the server device is transmitting a high quality image but the signaling data is changed and the server device transmits a low quality image, the server device does not generate and / or transmit at least one enhancement layer video data, Only hierarchical video data can be generated and / or transmitted.
즉, 기본 계층 비디오 데이터를 수신했을 때의 비디오 데이터의 화질은 향상 계층 비디오 데이터까지 받았을 때의 비디오 데이터의 화질보다는 낮으므로, 클라이언트 디바이스는 사용자가 고개를 돌린 정보를 센서 등으로부터 얻는 순간에, 사용자의 시선 방향에 해당하는 비디오 데이터(예를 들어, 관심 영역)에 대한 향상 계층 비디오 데이터를 수신할 수 있다. 그리고, 클라이언트 디바이스는 짧은 시간 내에 고화질의 비디오 데이터를 사용자에게 제공할 수 있다.That is, since the image quality of the video data when the base layer video data is received is lower than the image quality of the video data received when the enhancement layer video data is received, the client device, at the moment when the user obtains the information, (E.g., a region of interest) corresponding to the viewing direction of the video data. Then, the client device can provide high quality video data to the user in a short time.
도 4는 인코더의 예시적인 구조를 나타낸 도면이다.4 is a diagram showing an exemplary structure of an encoder.
인코더(400, 영상 부호화 장치)는 기본 계층 인코더(410), 적어도 하나의 향상 계층 인코더(420), 및 다중화기(430) 중에서 적어도 하나를 포함할 수 있다.The encoder 400 may include at least one of a base layer encoder 410, at least one enhancement layer encoder 420, and a multiplexer 430.
인코더(400)는 스케일러블 비디오 코딩 방법을 사용하여 전체 영상을 인코딩할 수 있다. 스케일러블 비디오 코딩 방법은 SVC(Scalable Video Coding) 및/또는 SHVC(Scalable High Efficiency Video Coding)를 포함할 수 있다.The encoder 400 may encode the entire image using a scalable video coding method. The scalable video coding method may include Scalable Video Coding (SVC) and / or Scalable High Efficiency Video Coding (SHVC).
스케일러블 비디오 코딩 방법은 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라서 시간적, 공간적, 및 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 예를 들어, 인코더(400)는 동일한 비디오 데이터에 대하여 두 가지 이상의 다른 품질(또는 해상도, 프레임 레이트)의 영상들을 인코딩하여 비트스트림을 생성할 수 있다.The scalable video coding method is an image compression method for providing a variety of services in a scalable manner in terms of temporal, spatial, and image quality according to various user environments such as a network situation or a terminal resolution in various multimedia environments. For example, the encoder 400 may encode images of two or more different qualities (or resolution, frame rate) for the same video data to generate a bitstream.
예를 들어, 인코더(400)는 비디오 데이터의 압축 성능을 높이기 위해서 계층 간 중복성을 이용한 인코딩 방법인 계층간 예측 툴(Inter-layer prediction tools)을 사용할 수 있다. 계층 간 예측 툴은 계층 간에 존재하는 영상의 중복성을 제거하여 향상 계층(Enhancement Layer; EL)에서의 압출 효율을 높이는 기술이다.For example, the encoder 400 may use an inter-layer prediction tool, which is an encoding method using intra-layer redundancy, in order to increase the compression performance of video data. The inter-layer prediction tool is a technique for enhancing the extrusion efficiency in an enhancement layer (EL) by eliminating redundancy of images existing between layers.
향상 계층은 계층 간 예측 툴을 이용하여 참조 계층(Reference Layer)의 정보를 참조하여 인코딩될 수 있다. 참조 계층이란 향상 계층 인코딩 시 참조되는 하위 계층을 말한다. 여기서, 계층 간 툴을 사용함으로써 계층 사이에 의존성(Dependency)이 존재하기 때문에, 최상위 계층의 영상을 디코딩하기 위해서는 참조되는 모든 하위 계층의 비트스트림이 필요하다. 중간 계층에서는 디코딩 대상이 되는 계층과 그 하위 계층들의 비트스트림 만을 획득하여 디코딩을 수행할 수 있다. 최하위 계층의 비트스트림은 기본 계층(Base Layer; BL)으로써, H.264/AVC, HEVC 등의 인코더로 인코딩될 수 있다.The enhancement layer can be encoded by referring to information of a reference layer using an inter-layer prediction tool. The reference layer refers to the lower layer that is referred to in the enhancement layer encoding. Here, since there is a dependency between layers by using a layer-to-layer tool, in order to decode the image of the highest layer, a bitstream of all lower layers to be referred to is required. In the middle layer, decoding can be performed by acquiring only a bitstream of a layer to be decoded and its lower layers. The bitstream of the lowest layer is a base layer (BL), and can be encoded by an encoder such as H.264 / AVC or HEVC.
기본 계층 인코더(410)는 전체 영상을 인코딩하여 기본 계층을 위한 기본 계층 비디오 데이터(또는 기본 계층 비트스트림)를 생성할 수 있다. 예를 들어, 기본 계층 비디오 데이터는 사용자가 가상 공간 내에서 바라보는 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 기본 계층의 영상은 가장 낮은 화질의 영상일 수 있다.The base layer encoder 410 may encode the entire image to generate base layer video data (or base layer bitstream) for the base layer. For example, the base layer video data may include video data for the entire area viewed by the user in the virtual space. The image of the base layer may be the image of the lowest image quality.
향상 계층 인코더(420)는, 시그널링 데이터(예를 들어, 관심 영역 정보) 및 기본 계층 비디오 데이터를 기초로, 전체 영상을 인코딩하여 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터(또는 향상 계층 비트스트림)를 생성할 수 있다. 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.The enhancement layer encoder 420 encodes the entire image based on signaling data (e.g., region of interest information) and base layer video data to generate at least one enhancement layer for at least one enhancement layer, Video data (or enhancement layer bitstream). The enhancement layer video data may include video data for a region of interest within the entire region.
다중화기(430)는 기본 계층 비디오 데이터, 적어도 하나의 향상 계층 비디오 데이터, 및/또는 시그널링 데이터를 멀티플렉싱하고, 전체 영상에 해당하는 하나의 비트스트림을 생성할 수 있다.The multiplexer 430 may multiplex the base layer video data, the at least one enhancement layer video data, and / or the signaling data, and may generate one bitstream corresponding to the entire image.
도 5는 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.5 is a diagram illustrating an exemplary method of signaling a region of interest.
도 5를 참조하면, 스케일러블 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.Referring to FIG. 5, there is shown a method of signaling a region of interest in scalable video.
서버 디바이스(또는 인코더)는 기본 계층(BL)과 적어도 하나의 향상 계층(EL)으로 구성되는 스케일러블 비디오 데이터(500)에서 향상 계층으로 구성된 하나의 비디오 데이터(또는 픽처)를 직사각형 모양을 갖는 여러 타일(Tile)들(510)로 분할할 수 있다. 예를 들어, 비디오 데이터는 Coding Tree Unit(CTU) 단위를 경계로 분할될 수 있다. 예를 들어, 하나의 CTU는 Y CTB, Cb CTB, 및 Cr CTB를 포함할 수 있다.A server device (or an encoder) converts one video data (or picture) composed of an enhancement layer into scalable video data 500 composed of a base layer BL and at least one enhancement layer (EL) Tiles < RTI ID = 0.0 > 510 < / RTI > For example, video data can be partitioned into Coding Tree Unit (CTU) units. For example, one CTU may include Y CTB, Cb CTB, and Cr CTB.
서버 디바이스는 빠른 사용자 응답을 위해서 기본 계층(BL)의 비디오 데이터는 타일로 분할하지 않고 전체적으로 인코딩할 수 있다.The server device can encode the video data of the base layer BL as a whole without dividing the data into tiles for fast user response.
서버 디바이스는 하나 이상의 향상 계층들의 비디오 데이터는 필요에 따라서 일부 또는 전체를 여러 타일들로 분할하여 인코딩할 수 있다. 즉, 서버 디바이스는 향상 계층의 비디오 데이터는 적어도 하나의 타일로 분할하고, 관심 영역(520, ROI, Region of Interest)에 해당하는 타일들을 인코딩할 수 있다.The server device may divide and encode video data of one or more enhancement layers into a plurality of tiles, some or all, as needed. That is, the server device may divide the video data of the enhancement layer into at least one tile and encode tiles corresponding to the region of interest 520 (ROI, Region of Interest).
이 때, 관심 영역(520)은 가상 현실 공간에서 사용자가 보게 될 중요 오브젝트(Object)가 위치할 타일들의 위치(예를 들어, 게임에서 새로운 적이 등장하는 위치, 화상 통신에서 가상공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳에 해당할 수 있다.In this case, the region of interest 520 may include a location of a tile where an important object (Object) to be viewed by the user is located in the virtual reality space (for example, a location where a new enemy appears in the game, Location), and / or where the user's gaze is viewed.
또한, 서버 디바이스는 관심 영역에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 서버 디바이스에 포함된 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더에 의해서 생성될 수 있다.The server device may also generate region of interest information including tile information identifying at least one tile included in the region of interest. For example, the region of interest information may be generated by a region of interest determination unit, a signaling data generation unit, and / or an encoder included in the server device.
관심 영역(520)의 타일 정보는 연속적이므로 모든 타일의 번호를 다 갖지 않더라도 효과적으로 압축될 수 있다. 예를 들어, 타일 정보는 관심 영역에 해당하는 모든 타일의 번호들뿐만 아니라 타일의 시작 번호와 끝 번호, 좌표점 정보, CU (Coding Unit) 번호 리스트, 수식으로 표현된 타일 번호를 포함할 수 있다.Since the tile information in the area of interest 520 is continuous, it can be effectively compressed without having all the numbers of tiles. For example, the tile information may include not only the numbers of all the tiles corresponding to the area of interest but also the starting and ending numbers of the tiles, the coordinate point information, the CU (Coding Unit) number list, .
또한, 관심 영역(520)은 사용자의 현재 뷰포트 일 수 있다.In addition, the area of interest 520 may be the current viewport of the user.
비-관심 영역의 타일 정보는 인코더가 제공하는 Entropy coding을 거친 후 다른 클라이언트 디바이스, 영상 프로세싱 컴퓨팅 장비, 및/또는 서버로 전송될 수 있다.The tile information in the non-interest region may be sent to another client device, image processing computing device, and / or server after entropy coding provided by the encoder.
관심 영역 정보는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol)을 통해 전해질 수 있다. 또한, 관심 영역 정보는 비디오 표준의 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header) 등의 패킷 단위에서 전해질 수 있다. 또한, 관심 영역 정보는 비디오 파일을 서술하는 별도의 파일로(e.g. DASH의 MPD) 전달될 수 있다.The region of interest may be delivered via a High-Level Syntax Protocol carrying the session information. In addition, the region of interest may be transmitted in packet units such as SEI (Supplement Enhancement Information), VUI (video usability information), and slice header of a video standard. In addition, the region of interest information may be transferred to a separate file describing the video file (e.g., MPD of DASH).
이하에서는, 단일 화면 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.Hereinafter, a method of signaling a region of interest in single-screen video is shown.
본 명세서의 예시적인 기술은 스케일러블 비디오가 아닌 단일 화면 영상에서는 일반적으로 관심 영역(ROI)이 아닌 영역을 다운스케일링(downscaling)(다운샘플링(Downsampling))하는 방식으로 화질을 떨어뜨리는 기법을 사용할 수 있다. 종래 기술은 서비스를 이용하는 단말 간에 다운스케일링(downscaling)을 위해 쓴 필터(filter) 정보를 공유하지 않고, 처음부터 한가지 기술로 약속을 하거나 인코더만 필터 정보를 알고 있다.An exemplary technique of the present disclosure can use a technique of downscaling an image in a non-scalable video rather than down-scaling (downsampling) an area, rather than a region of interest (ROI) have. The prior art does not share the filter information used for downscaling between the terminals using the service, but makes an appointment from the beginning with only one technique, or only the encoder knows the filter information.
하지만, 본 명세서의 서버 디바이스는, 인코딩 된 영상을 전달 받는 클라이언트 디바이스(또는 HMD 단말)에서 다운스케일링(downscaling)된 관심 영역 외 영역의 화질을 조금이라도 향상 시키기 위해, 인코딩 시에 사용된 필터 정보를 클라이언트 디바이스로 전달할 수 있다. 이 기술은 실제로 영상 처리 시간을 상당히 줄일 수 있으며, 화질 향상을 제공할 수 있다.However, the server device according to the present invention may be configured such that the client device (or the HMD terminal) that receives the encoded image uses the filter information used at the time of encoding to slightly improve the image quality of the downscaled out- To the client device. This technique can actually reduce image processing time significantly and can provide image quality enhancement.
전술한 바와 같이, 서버 디바이스는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 타일 정보뿐만 아니라 필터 정보를 더 포함할 수 있다. 예를 들어, 필터 정보는 약속된 필터 후보들의 번호, 필터에 사용된 값들을 포함할 수 있다.As described above, the server device may generate the region of interest information. For example, the area of interest information may further include filter information as well as tile information. For example, the filter information may include the number of promised filter candidates, the values used in the filter.
도 6은 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.6 is a diagram showing an exemplary configuration of a client device.
클라이언트 디바이스(600)는 영상 입력부(610), 오디오 입력부(620), 센서부(630), 영상 출력부(640), 오디오 출력부(650), 통신부(660), 및/또는 제어부(670) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(600)는 HMD(Head-Mounted Display)일 수 있다. 또한, 클라이언트 디바이스(600)의 제어부(670)는 클라이언트 디바이스(600)에 포함될 수도 있고, 별도의 장치로 존재할 수도 있다.The client device 600 includes an image input unit 610, an audio input unit 620, a sensor unit 630, an image output unit 640, an audio output unit 650, a communication unit 660, and / As shown in FIG. For example, the client device 600 may be an HMD (Head-Mounted Display). The control unit 670 of the client device 600 may be included in the client device 600 or may be a separate device.
영상 입력부(610)는 비디오 데이터를 촬영할 수 있다. 영상 입력부(610)는 사용자의 영상을 획득하는 2D/3D 카메라 및/또는 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.The video input unit 610 can capture video data. The image input unit 610 may include at least one of a 2D / 3D camera and / or an immersive camera for acquiring a user's image. The 2D / 3D camera can shoot an image having a viewing angle of 180 degrees or less. Immersive cameras can capture images with a viewing angle of 360 degrees or less.
오디오 입력부(620)는 사용자의 음성을 녹음할 수 있다. 예를 들어, 오디오 입력부(620)는 마이크를 포함할 수 있다.The audio input unit 620 can record the user's voice. For example, the audio input 620 may include a microphone.
센서부(630)는 사용자 시선의 움직임에 대한 정보를 획득할 수 있다. 예를 들어, 센서부(630)는 물체의 방위 변화를 감지하는 자이로 센서, 이동하는 물체의 가속도나 충격의 세기를 측정하는 가속도 센서, 및 사용자의 시선 방향을 감지하는 외부 센서를 포함할 수 있다. 실시예에 따라서, 센서부(630)는 영상 입력부(610) 및 오디오 입력부(620)를 포함할 수도 있다.The sensor unit 630 can acquire information on the movement of the user's gaze. For example, the sensor unit 630 may include a gyro sensor for sensing a change in the azimuth of the object, an acceleration sensor for measuring the acceleration of the moving object or the intensity of the impact, and an external sensor for sensing the direction of the user's gaze . According to an embodiment, the sensor unit 630 may include an image input unit 610 and an audio input unit 620.
영상 출력부(640)는 통신부(660)로부터 수신되거나 메모리(미도시)에 저장된 영상 데이터를 출력할 수 있다.The video output unit 640 can output video data received from the communication unit 660 or stored in a memory (not shown).
오디오 출력부(650)는 통신부(660)로부터 수신되거나 메모리에 저장된 오디오 데이터를 출력할 수 있다.The audio output unit 650 can output audio data received from the communication unit 660 or stored in the memory.
통신부(660)는 방송망, 무선통신망 및/또는 브로드밴드를 통해서 외부의 클라이언트 디바이스 및/또는 서버 디바이스와 통신할 수 있다. 예를 들어, 통신부(660)는 데이터를 전송하는 전송부(미도시) 및/또는 데이터를 수신하는 수신부(미도시)를 포함할 수 있다.The communication unit 660 can communicate with an external client device and / or a server device through a broadcasting network, a wireless communication network, and / or broadband. For example, the communication unit 660 may include a transmitting unit (not shown) for transmitting data and / or a receiving unit (not shown) for receiving data.
제어부(670)는 클라이언트 디바이스(600)의 모든 동작을 제어할 수 있다. 제어부(670)는 서버 디바이스로부터 수신한 비디오 데이터 및 시그널링 데이터를 처리할 수 있다. 제어부(670)에 대한 구체적인 내용은 이하에서 설명한다.The control unit 670 can control all operations of the client device 600. [ The control unit 670 can process the video data and the signaling data received from the server device. Details of the control unit 670 will be described below.
도 7은 제어부의 예시적인 구성을 나타낸 도면이다.7 is a diagram showing an exemplary configuration of the control unit.
제어부(700)는 시그널링 데이터 및/또는 비디오 데이터를 처리할 수 있다. 제어부(700)는 시그널링 데이터 추출부(710), 디코더(720), 시선 판단부(730), 및/또는 시그널링 데이터 생성부(740) 중에서 적어도 하나를 포함할 수 있다.The control unit 700 may process the signaling data and / or the video data. The control unit 700 may include at least one of a signaling data extractor 710, a decoder 720, a line of sight determiner 730, and / or a signaling data generator 740.
시그널링 데이터 추출부(710)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 포함할 수 있다.The signaling data extracting unit 710 may extract signaling data from data received from the server device and / or another client device. For example, the signaling data may include region of interest information.
디코더(720)는 시그널링 데이터를 기초로 비디오 데이터를 디코딩할 수 있다. 예를 들어, 디코더(720)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 디코딩할 수 있다. 예를 들어, 가상 공간 내에서 사용자가 특정 영역을 바라보는 경우, 디코더(720)는 가상 공간 내의 사용자 시선을 기초로 특정 영역에 해당하는 영상은 고화질로 디코딩하고, 특정 영역 이외에 해당하는 영상은 저화질로 디코딩할 수 있다. 실시예에 따라서, 디코더(720)는 시그널링 데이터 추출부(710), 시선 판단부(730), 및/또는 시그널링 데이터 생성부(740) 중에서 적어도 하나를 포함할 수 있다. Decoder 720 may decode the video data based on the signaling data. For example, the decoder 720 may decode the entire image in a customized manner for each user based on the viewing direction of each user. For example, when the user looks at a specific area in the virtual space, the decoder 720 decodes the image corresponding to the specific area with high image quality based on the user's gaze in the virtual space, Lt; / RTI > The decoder 720 may include at least one of a signaling data extractor 710, a line of sight determiner 730, and / or a signaling data generator 740 according to an embodiment of the present invention.
시선 판단부(730)는 가상 공간 내에서 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 예를 들어, 영상 구성 정보는 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.The gaze determining unit 730 can determine the user's gaze in the virtual space and generate the image configuration information. For example, the image configuration information may include gaze information indicating a gaze direction and / or zoom area information indicating a viewing angle of a user.
시그널링 데이터 생성부(740)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 전송할 수 있다. 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol)을 통해 전해질 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.The signaling data generation unit 740 may generate signaling data for transmission to a server device and / or another client device. For example, the signaling data may transmit image configuration information. The signaling data may be delivered via a High-Level Syntax Protocol carrying the session information. The signaling data may be transmitted via at least one of Supplement Enhancement Information (SEI), video usability information (VUI), Slice Header, and a file describing the video data.
도 8은 디코더의 예시적인 구성을 나타낸 도면이다.8 is a diagram showing an exemplary configuration of a decoder.
디코더(800)는 추출기(810), 기본 계층 디코더(820), 및/또는 적어도 하나의 향상 계층 디코더(830) 중에서 적어도 하나를 포함할 수 있다.The decoder 800 may include at least one of an extractor 810, a base layer decoder 820, and / or at least one enhancement layer decoder 830.
디코더(800)는 스케일러블 비디오 코딩 방법의 역 과정을 이용하여 비트스트림(비디오 데이터)을 디코딩할 수 있다.The decoder 800 may decode the bitstream (video data) using an inverse process of the scalable video coding method.
추출기(810)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림(비디오 데이터)을 수신하고, 재생하고자 하는 영상의 화질에 따라서 비트스트림을 선택적으로 추출할 수 있다. 예를 들어, 비트스트림(비디오 데이터)은 기본 계층을 위한 기본 계층 비트스트림(기본 계층 비디오 데이터) 및 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)을 포함할 수 있다. 기본 계층 비트스트림(기본 계층 비디오 데이터)는 가상 공간의 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.The extractor 810 receives the bitstream (video data) including the video data and the signaling data, and can selectively extract the bitstream according to the image quality of the video to be reproduced. For example, a bitstream (video data) may include a base layer bitstream (base layer video data) for a base layer and at least one enhancement layer bitstream for at least one enhancement layer predicted from the base layer ). The base layer bitstream (base layer video data) may include video data for the entire area of the virtual space. At least one enhancement layer bitstream (enhancement layer video data) may include video data for a region of interest within the entire region.
또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.The signaling data may also include region of interest information indicating a region of interest corresponding to the direction of the user's gaze within the entire region of the virtual space for the video conferencing service.
기본 계층 디코더(820)는 저화질 영상을 위한 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 디코딩할 수 있다.The base layer decoder 820 can decode a base layer bitstream (or base layer video data) for a low-quality image.
향상 계층 디코더(830)는 시그널링 데이터 및/또는 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 기초로 고화질 영상을 위한 적어도 하나의 향상 계층의 비트스트림(또는 향상 계층 비디오 데이터)를 디코딩할 수 있다.The enhancement layer decoder 830 can decode at least one enhancement layer bitstream (or enhancement layer video data) for the high-definition video based on the signaling data and / or the bitstream (or base layer video data) have.
이하에서는, 사용자 시선의 움직임에 실시간으로 대응하기 위한 영상 구성 정보를 생성하는 방법에 대하여 설명한다.Hereinafter, a method of generating image configuration information for responding to the movement of the user's gaze in real time will be described.
영상 구성 정보는 사용자의 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다. 사용자 시선이란 실제 공간이 아닌 가상 공간 내에서 사용자가 바라보는 방향을 의미한다. 또한, 시선 정보는 현재 사용자의 시선 방향을 지시하는 정보뿐만 아니라, 미래에 사용자의 시선 방향을 지시하는 정보(예를 들어, 주목을 받을 것이라 예상되는 시선 지점에 대한 정보)를 포함할 수 있다.The image configuration information may include at least one of gaze information indicating a gaze direction of a user and / or zoom area information indicating a viewing angle of a user. The user's gaze is the direction that the user looks in the virtual space, not the actual space. In addition, the gaze information may include information indicating the gaze direction of the user in the future (for example, information on gaze points that are expected to receive attention), as well as information indicating the gaze direction of the current user.
클라이언트 디바이스는 사용자를 중심으로 가상 공간 내에 위치하는 특정한 영역을 바라보는 동작을 센싱하고, 이를 처리할 수 있다.The client device can sense the operation of looking at a specific area located in the virtual space around the user and process the operation.
클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센서부로부터 센싱 정보를 수신할 수 있다. 센싱 정보는 카메라에 의해 촬영된 영상, 마이크에 의해 녹음된 음성일 수 있다. 또한, 센싱 정보는 자이로 센서, 가속도 센서, 및 외부 센서에 의해서 감지된 데이터일 수 있다.The client device can receive the sensing information from the sensor unit using the control unit and / or the sight line determination unit. The sensing information may be a video shot by a camera, or a voice recorded by a microphone. In addition, the sensing information may be data sensed by a gyro sensor, an acceleration sensor, and an external sensor.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센싱 정보를 기초로 사용자 시선의 움직임을 확인할 수 있다. 예를 들어, 클라이언트 디바이스는 센싱 정보가 가지는 값의 변화를 기초로 사용자 시선의 움직임을 확인할 수 있다.Further, the client device can confirm the movement of the user's gaze based on the sensing information by using the control unit and / or the visual-line determining unit. For example, the client device can check the movement of the user's gaze based on the change of the value of the sensing information.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 가상 현실 공간에서의 영상 구성 정보를 생성할 수 있다. 예를 들어, 클라이언트 디바이스가 물리적으로 움직이거나 사용자의 시선이 움직이는 경우, 클라이언트 디바이스는 센싱 정보를 기초로 가상 현실 공간에서의 사용자의 시선 정보 및/또는 줌 영역 정보를 계산할 수 있다.Further, the client device can generate image configuration information in the virtual reality space using the control unit and / or the visual determination unit. For example, when the client device physically moves or the user's gaze moves, the client device can calculate the gaze information and / or the zoom area information of the user in the virtual reality space based on the sensing information.
또한, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다. 또한, 클라이언트 디바이스는 영상 구성 정보를 자신의 다른 구성요소로 전달할 수도 있다.Further, the client device can transmit image configuration information to the server device and / or another client device using the communication unit. In addition, the client device may forward the video configuration information to its other components.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성하는 방법을 설명하였다. 다만 이에 한정되지 않으며, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 영상 구성 정보를 생성할 수도 있다.In the foregoing, a method of generating image configuration information by a client device has been described. However, the present invention is not limited thereto, and the server device may receive the sensing information from the client device and generate the image configuration information.
또한, 클라이언트 디바이스와 연결된 외부의 컴퓨팅 디바이스가 영상 구성 정보를 생성할 수 있으며, 컴퓨팅 디바이스는 영상 구성 정보를 자신의 클라이언트 디바이스, 다른 클라이언트 디바이스, 및/또는 서버 디바이스로 전달할 수도 있다.In addition, an external computing device connected to the client device may generate image configuration information, and the computing device may communicate image configuration information to its client device, another client device, and / or a server device.
이하에서는, 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 방법을 설명한다.Hereinafter, a method for the client device to signal image configuration information will be described.
영상 구성 정보(시점 정보 및/또는 줌 영역 정보를 포함)를 시그널링하는 부분은 매우 중요하다. 영상 구성 정보의 시그널링이 너무 잦을 경우, 클라이언트 디바이스, 서버 디바이스, 및/또는 전체 네트워크에 부담을 줄 수 있다.Signaling the video configuration information (including viewpoint information and / or zoom area information) is very important. If the signaling of the video configuration information is too frequent, it may place a burden on the client device, the server device, and / or the entire network.
따라서, 클라이언트 디바이스는 사용자의 영상 구성 정보(또는 시선 정보 및/또는 줌 영역 정보)가 변경되는 경우에만 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 사용자의 시선 정보가 변경되는 경우에만 사용자의 시선 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다.Accordingly, the client device can signal image configuration information only when the image configuration information (or gaze information and / or zoom area information) of the user is changed. That is, the client device can transmit the gaze information of the user to another client device and / or the server device only when the gaze information of the user is changed.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성 및/또는 전송하는 것을 중심으로 설명하였지만, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 센싱 정보를 기초로 영상 구성 정보를 생성하고, 영상 구성 정보를 적어도 하나의 클라이언트 디바이스로 전송할 수도 있다.In the above description, the client device generates and / or transmits the image configuration information. However, the server device may receive the sensing information from the client device, generate the image configuration information based on the sensing information, It may be transmitted to one client device.
이상에서 언급한 시그널링은 서버 디바이스, 클라이언트 디바이스, 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다. 또한, 이상에서 언급한 시그널링은 클라이언트 디바이스 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다.The above-mentioned signaling may be signaling between a server device, a client device, and / or an external computing device (if present). In addition, the above-mentioned signaling may be signaling between the client device and / or an external computing device (if present).
이하에서는, 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 설명한다.In the following, an exemplary method of transmitting high / low level images is described.
사용자의 시선 정보를 기초로 높고/낮은 수준의 영상을 전송하는 방법은 스케일러블 코덱의 계층을 스위칭하는 방법, 싱글 비트스트림 및 실시간 인코딩의 경우 QP(Quantization Parameter) 등을 이용한 Rate Control 방법, DASH 등의 단일 비트스트림의 경우 청크(Chunk) 단위로 스위칭하는 방법, 다운스케일링/업스케일링방법(Down Scaling/Up Scaling), 및/또는 렌더링(Rendering)의 경우 더 많은 리소스를 활용한 고화질 렌더링 방법을 포함할 수 있다.A method of transmitting a high / low level image based on a user's gaze information includes a method of switching layers of a scalable codec, a rate control method using QP (quantization parameter) in case of single bit stream and real time encoding, DASH A method of switching in units of chunks in the case of a single bit stream of a bit stream, a down scaling / up scaling method and / or a high quality rendering method utilizing more resources in the case of rendering can do.
전술한 예시적인 기술은 비록 스케일러블 비디오를 통한 차별적 전송 기법을 이야기하고 있지만, 단일 계층을 갖는 일반 비디오 코딩 기술을 사용할 경우에도, 양자화 계수(Quantization Parameter)나 다운스케일링/업스케일링 정도를 조절함으로써, 전체 대역폭을 낮추고, 빠르게 사용자 시선 움직임에 응답하는 등의 장점을 제공할 수 있다. 또한 미리 여러 비트레이트(bitrate)를 갖는 비트스트림(bitstream)으로 트랜스코딩 된 파일들을 사용할 경우, 본 명세서의 예시적인 기술은 청크(Chunk) 단위로 높은 수준의 영상과 낮은 수준의 영상 사이를 스위칭하여 제공할 수 있다.Although the above-described exemplary techniques describe a differential transmission scheme using scalable video, even when using a general video coding technique with a single layer, by adjusting the quantization parameter and the degree of downscaling / upscaling, Lowering overall bandwidth, and quickly responding to user gaze movements. In addition, when using files that are transcoded into a bitstream having several bitrates in advance, the exemplary technique of the present invention switches between a high-level image and a low-level image on a chunk basis .
또한, 본 명세서는 가상 현실 시스템을 예로 들고 있지만, 본 명세서는 HMD를 이용한 VR (Virtual Reality) 게임, AR (Augmented Reality) 게임 등에서도 똑같이 적용될 수 있다. 즉, 사용자가 바라보는 시선에 해당하는 영역을 높은 수준의 영상으로 제공하고, 사용자가 바라볼 것으로 예상되는 영역이나 오브젝트(Object)가 아닌 곳을 바라볼 경우만 시그널링하는 기법 모두가 가상 현실 시스템의 예에서와 똑같이 적용될 수 있다.In addition, although the present specification assumes a virtual reality system, the present specification can be equally applied to a VR (Virtual Reality) game using an HMD, an Augmented Reality (AR) game, and the like. That is, all of the techniques for providing a high-level region corresponding to the line of sight that the user is looking at, and signaling only when the user looks at an area or an object that is not expected to be viewed, It can be applied just as in the example.
도 9는 착용형 영상 표시 장치에서 영상 품질을 제어하는 예시적인 방법을 나타낸 도면이다.9 is a diagram illustrating an exemplary method of controlling image quality in a wearable video display device.
도 10은 시선 이동 속력의 변화에 따라 영상 품질이 제어되는 예를 도시한 도이다.FIG. 10 is a diagram illustrating an example in which the image quality is controlled according to a change in the line-of-sight movement speed.
이하에서는, 도 9 및 도 10을 참조하여 HMD 등의 착용형 영상 표시 장치에서 시선 이동 속력이 변하는 경우에 표시될 가상 현실 영상의 품질을 제어하는 방법에 대해서 설명한다.Hereinafter, a method for controlling the quality of a virtual reality image to be displayed when the gaze movement speed changes in a wearable image display device such as an HMD will be described with reference to FIGS.
인간의 눈은 시선 이동을 할 때, 특정 속력에서는 품질이 서로 다른 영상을 화면에 표시하여도, 그 품질의 차이를 인지하지 못하는 특성을 가지고 있다. 따라서, 이러한 특성을 이용하여, 시선의 이동 중에 영상 품질이 바뀌어도 그 차이를 인지하지 못하는 시선 이동 속력을 임계 값으로 정한다. 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라지는 특성을 가지고 있으므로, 상기 임계 값은 착용형 영상 표시 장치 별로 서로 다른 값을 적용할 수 있다.The human eye has a characteristic that, even when an image having a different quality at a specific speed is displayed on the screen, the difference in quality can not be recognized when the eye moves. Therefore, by using these characteristics, the threshold value is set as the gaze speed at which the image quality is changed during the movement of the line of sight but does not recognize the difference. Since the threshold value varies depending on the characteristics of the wearable image display device, the threshold value may be different for each wearable image display device.
먼저, 착용형 영상 표시 장치는 장치의 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단한다(901).First, the wearable video display device determines a threshold value of the visual movement speed for switching the image quality according to the characteristics of the apparatus (901).
또한, 착용형 영상 표시 장치는 사용자의 시선 이동 속력을 측정한다(903).In addition, the wearable video display device measures the user's gaze movement speed (903).
이 후, 착용형 영상 표시 장치는 측정된 시선 이동 속력과 임계 값을 비교하고(905), 그 비교 결과에 따라 착용형 영상 표시 장치로 전송될 비디오 데이터에 대한 품질 조절을 요청한다.Thereafter, the wearable video display device compares the measured eye movement speed with a threshold value (905), and requests adjustment of the quality of video data to be transmitted to the wearable display device according to the comparison result.
먼저, 착용형 영상 표시 장치는, 상기 시선 이동 속력이 상기 임계 값보다 작은 경우(예를 들어, t 0 시각), 높은 품질의 영상 데이터를 전송해 줄 것을 서버 디바이스에 요청한다(907).First, the wearable video display device requests the server device to transmit high quality video data if the gaze speed is smaller than the threshold value (e.g., time t 0 ) (907).
반면, 상기 착용형 영상 표시 장치는, 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우(1000, 1010)에는, 상기 시선 이동 속력의 변화 추세를 측정한다(909).Meanwhile, in the case where the gaze movement speed is equal to or greater than the threshold value (1000, 1010), the wearable image display apparatus measures a change tendency of the gaze movement speed (909).
상기 착용형 영상 표시 장치는 상기 시선 이동 속력의 변화 추세의 측정 결과, 그 속력이 증가하고 있으면(예를 들어, 시간구간 1000, 즉, t 1 시각), 가상 현실 공간에 대한 낮은 품질의 타일(BL) 데이터를 전송해 줄 것을 서버 디바이스에 요청한다(911).The wearable video display device displays a low quality tile (for example, a time interval of 1000, i.e., t 1 time) as a result of the measurement of the change tendency of the visual movement speed, BL) data to the server device (911).
반면, 상기 착용형 영상 표시 장치는 상기 시선 이동 속력이 증가하고 있지 않으면(1010), 고품질의 타일(BL+EL) 데이터를 전송해 줄 것을 서버 디바이스에 요청한다(907).On the other hand, if the viewing speed does not increase (1010), the wearable video display requests the server device to transmit high quality tile (BL + EL) data (907).
여기서, 사용자의 시선 이동 속력은 착용형 영상 표시 장치에 구비된 센서 또는 외부의 센서를 통해 사용자의 머리 움직임 또는/및 눈동자의 움직임을 추적하고, 이를 이용하여 시선 이동 속력을 구할 수 있다. 또한, 사용자의 뷰포트에 대응되는 가상 현실 공간 내의 영역만 높은 품질의 영상 데이터가 전송된다.Here, the user's gaze movement speed can track the user's head movement and / or the pupil's movement through a sensor provided on the wearable display device or an external sensor, and can use the gaze movement speed to obtain the gaze movement speed. Also, only high-quality video data is transmitted in an area in the virtual reality space corresponding to the viewport of the user.
다른 실시 예에 따라, 시선 이동 속력이 변하는 경우에 가상 현실 영상의 품질 제어는 시선 이동 속력이 임계 값보다 작은 경우에는 높은 품질의 영상 데이터의 전송을 서버 디바이스에 요청하고, 시선 이동 속력이 임계 값과 같거나 큰 경우에는 낮은 품질의 영상 데이터의 전송을 서버 디바이스에 요청함으로써 달성할 수 있다.According to another embodiment, when the gaze movement speed changes, the quality control of the virtual reality image requests the server device to transmit high quality image data when the gaze movement speed is smaller than the threshold value, , It can be achieved by requesting the server device to transmit the image data of low quality.
여기서, 높은 품질의 영상 데이터 UHD(Ultra High Definition) 등의 초고화질 비디오 영상 데이터이고, 낮은 품질의 영상 데이터는 HD, SD 등의 상대적으로 저화질 비디오 영상 데이터일 수 있다.Here, high quality video data such as high quality video data UHD (Ultra High Definition) and low quality video data may be relatively low quality video data such as HD and SD.
또한, 제1 품질의 영상 데이터와 제2 품질의 영상 데이터는 영상의 화질, 영상의 프레임 수, 영상의 해상도, 영상의 스캔 방식을 포함하는 영상 품질 요소의 차이로 품질이 서로 달라질 수 있다.Also, the quality of the first quality image data and the quality of the second quality image data may be different from each other due to differences in image quality factors including image quality, image frame number, image resolution, and image scanning method.
또한, 비디오 데이터는 스케일러블 비디오 데이터 일 수 있으며, 상기 높은 품질의 영상 데이터는 현재 전송 중인 비디오 데이터의 기본 계층 영상 데이터 및 향상 계층 영상 데이터를 포함하고, 상기 낮은 품질의 영상 데이터는 상기 향상 계층 영상 데이터를 제외한 기본 계층 영상 데이터만을 포함할 수 있다.The video data may be scalable video data, and the high quality video data may include base layer video data and enhancement layer video data of currently transmitted video data, Only the base layer image data excluding the data can be included.
또한, 높은 품질의 영상 데이터 전송 요청 단계를 향상 계층 요청 모드(EL Request mode)라하고, 낮은 품질의 영상 데이터 전송 요청 단계를 향상 계층 생략 모드(EL Skip Mode)라 할 수 있다.In addition, the high quality video data transmission request step is referred to as an EL layer request mode, and the low quality video data transmission request step is referred to as an EL layer mode.
또한, 착용형 영상 표시 장치는 낮은 품질의 영상 데이터가 전송되는 중에, 사용자의 시선 이동 속력이 임계 값보다 작아지거나, 또는 시선 이동 속력이 변화 없거나 감소하고 있으면, 즉, 시선 이동 속력이 증가하고 있지 않으면, 높은 품질의 영상 데이터를 다시 전송해 줄 것을 서버 디바이스에 요청할 수 있다.In addition, when the wearer-type video display device is in the process of transferring low-quality video data, if the speed of the user's gaze movement is smaller than the threshold value or the speed of gaze movement is not changed or decreased, that is, , It is possible to request the server device to transmit the high quality video data again.
이 때, 착용형 영상 표시 장치는 서버 디바이스에 상기 비디오 데이터의 향상 계층 영상 데이터의 전송을 요청한다.At this time, the wearable video display device requests the server device to transmit the enhancement layer video data of the video data.
스케일러블 비디오 기술 및 타일링 기법이 적용된 가상 현실 영상 전송 시스템의 경우, 현재 사용자가 바라보고 있는 뷰포트에 해당하는 타일들만 높은 품질(고화질)의 영상 정보를 제공한다. 이 때, 사용자의 뷰포트 이동으로 인하여 새롭게 고화질 영상 정보를 제공해야 하는 타일들은 향상 계층의 영상 정보를 전달받아 영상 복호화를 진행해야 하는데, 영상 움직임 예측 구조의 제약 때문에 향상 계층 영상들 간의 움직임 보상 및 복호화 진행이 불가한 경우가 발생한다.In the case of the virtual reality image transmission system using the scalable video technique and the tiling technique, only the tiles corresponding to the viewport currently viewed by the user provide high quality (high image quality) image information. At this time, the tiles which are required to provide new high-quality image information due to the movement of the user's viewport should receive image information of the enhancement layer and proceed with image decoding. Due to the limitation of the image motion prediction structure, It may be impossible to proceed.
이러한 현상은 영상 내 예측 기법만 적용하여 인접 영상들과 복호화를 진행하는 데에 있어 종속성이 제거된 인트라 픽쳐(Intra Picture, I-Picture)가 전송될 때까지 계속되며, 고화질 영상 정보를 제공할 때까지 지연을 발생시킨다. 발생된 지연시간동안 사용자는 낮은 품질의 영상 정보만을 제공받을 수 있으며, 이로 인하여 멀미 등과 같은 불쾌감을 느낄 수 있다.This phenomenon continues until the intra picture (Intra Picture, I-Picture) whose dependency has been removed is transmitted in order to apply the intra-picture prediction technique only and to decode the neighboring pictures. When providing the high picture quality information . During the generated delay time, the user can receive only the low quality image information, and the user may feel uncomfortable feeling such as motion sickness.
이러한 점을 해결하기 위하여, 본 명세서에서는 도 10에 도시한 바와 같이 향상 계층 전송요청 모드의 재진입 시, 참조 영상(Reference Picture)의 업샘플링된 기본계층(Upsampled Base Layer)을 활용하여 에러 은닉하는 기법을 사용한다.In order to solve this problem, as shown in FIG. 10, in the re-entry of the enhancement layer transmission request mode, an error concealment technique using an upsampled base layer of a reference picture Lt; / RTI >
도 11은 향상 계층 비디오 데이터의 재전송 모드 진입 시, 에러 은닉하는 예시적인 방법을 나타낸 도면이다.11 is a diagram illustrating an exemplary method of error concealment when an enhancement layer video data enters a retransmission mode.
상기 참조 영상(Reference Picture)의 업샘플링된 기본계층(Upsampled Base Layer)을 활용하여 에러 은닉하는 기법은 전송되지 않아 활용할 수 없는 참조 영상의 향상 계층의 영상 정보 대신 참조 영상의 기본 계층 영상 정보를 업샘플링 하여 움직임 보상에 활용할 수 있다. The technique of error concealment using the upsampled base layer of the reference picture is to replace the base layer image information of the reference image instead of the image information of the enhancement layer of the reference image, It can be used for motion compensation by sampling.
착용형 영상 표시 장치는 낮은 품질의 영상 데이터에서 높은 품질의 영상 데이터로의 전송 품질 전환 시 발생하는 지연시간동안 업샘플링된 기본 계층(Upsampled Base Layer) 영상 데이터를 상기 지연시간동안 재생하고, 상기 향상 계층 영상 데이터가 수신되면, 상기 높은 품질의 비디오 데이터를 출력함으로써 급격한 영상 품질 변화로 인한 사용자의 멀미 등과 같은 불쾌감/피로감을 완화시킬 수 있다.The wearable video display device reproduces the upsampled base layer image data during the delay time during the delay time occurring when the transmission quality is changed from the low quality video data to the high quality video data, When the hierarchical video data is received, the high quality video data may be output, thereby alleviating the unpleasantness / fatigue of the user due to rapid change in the video quality.
전술한 것처럼 기존 방식은 인트라 픽쳐가 전송될 때까지 고품질 영상제공에 지연이 존재하지만, 해당 기법은 해당 지연시간 동안 참조 영상의 기본 계층 및 현재 타일의 향상 계층 영상 정보를 활용하여 기본 계층 영상 정보만을 제공하는 경우보다 더 향상된 품질의 영상 정보를 사용자에게 제공한다.As described above, there is a delay in providing a high-quality image until the intra picture is transmitted. However, the corresponding technique uses only the base layer image information of the reference image and the enhancement layer image of the current tile during the corresponding delay time, And provides the user with image information of a higher quality than that provided by the user.
이로 인해 평균적인 서비스의 영상 품질을 향상시킬 수 있고, 급격한 영상 품질 변화로 인한 사용자의 멀미 등과 같은 불쾌감/피로감을 완화시켜주는 효과를 가져올 수 있다.This can improve the image quality of the average service, and can alleviate the discomfort / fatigue of the user due to rapid changes in the image quality.
도 12는 비디오 서버에서의 가상 현실 영상을 전송하는 예시적인 방법에 대해서 설명한다.12 illustrates an exemplary method of transmitting a virtual reality image in a video server.
이하에서는, 도 12를 참조하여 비디오 서버에서 HMD 등의 착용형 영상 표시 장치로 가상 현실 영상의 품질을 조절하면서 전송하는 방법에 대해서 설명한다.Hereinafter, with reference to FIG. 12, a description will be given of a method of transmitting a virtual reality image while controlling the quality of a virtual reality image in a wearable image display device such as an HMD in a video server.
비디오 서버는 착용형 영상 표시 장치로부터 높은 품질의 영상 데이터의 전송 요청 메시지를 수신하면(1201), 상기 높은 품질의 영상 데이터의 전송 요청에 대응하여 가상 현실 공간에 대한 높은 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송한다(1203).When the video server receives a transmission request message of high quality video data from the wearable video display device in operation 1201, the video server transmits high quality video data to the virtual reality space in response to the transmission request of the high quality video data Type image display apparatus (1203).
또한, 비디오 서버는 착용형 영상 표시 장치로부터 낮은 품질의 영상 데이터의 전송 요청 메시지를 수신하면(1205), 상기 낮은 품질의 영상 데이터의 전송 요청에 대응하여 상기 가상 현실 공간에 대한 낮은 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송한다(1207).In addition, if the video server receives a transmission request message of low quality video data from the wearable video display device in step 1205, the video server transmits low quality video data to the virtual reality space in response to the transmission request of the low quality video data To the wearable video display device (1207).
여기에서, 비디오 서버는 낮은 품질의 영상 데이터를 착용형 영상 표시 장치로 전송하는 중에 높은 품질의 영상 데이터의 전송 요청 메시지를 수신하면(1209), 전송 품질 전환 시 발생하는 지연시간동안 낮은 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치로 전송한 후, 이어서 높은 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송한다(1211).Here, when the video server receives the transmission request message of the high quality video data while transmitting the low quality video data to the wearable video display device (1209), the video server transmits the low quality video data during the delay time After the up-sampled image data of the data is transmitted to the wearable display device, high-quality image data is transmitted to the wearable display device (1211).
여기에서, 높은 품질의 영상 데이터는 현재 전송 중인 비디오 데이터의 기본 계층 영상 데이터 및 향상 계층 영상 데이터를 포함하고, 낮은 품질의 영상 데이터는 상기 기본 계층 영상 데이터만을 포함할 수 있다.Here, the high-quality image data includes the base layer image data and the enhancement layer image data of the currently transmitted video data, and the low-quality image data may include only the base layer image data.
또한, 업샘플링된 영상 데이터는 기본 계층 영상 데이터의 업샘플링된 영상 데이터일 수 있다.Also, the upsampled image data may be upsampled image data of the base layer image data.
도 13은 가상현실 시스템에서의 영상 품질 제어 방법을 예시적으로 설명한다.FIG. 13 exemplarily illustrates a video quality control method in a virtual reality system.
도 13을 참조하여 가상 현실 시스템에서 영상 품질 제어를 통해 대역폭을 낮출 수 있는 방법을 설명한다.Referring to FIG. 13, a description will be made of a method for lowering the bandwidth through image quality control in a virtual reality system.
착용형 영상 표시 장치(1330)가 장치 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단한다(1331).The wearable video display device 1330 determines a threshold value of the line-of-sight movement speed for switching image quality according to device characteristics (1331).
착용형 영상 표시 장치(1330)는 사용자의 시선 이동 속력을 측정한다(1333).The wearable video display 1330 measures the eye movement speed of the user (1333).
착용형 영상 표시 장치(1330)는 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 품질이 조절된 비디오 데이터의 전송을 비디오 서버에 요청하고(1335). 시선 정보를 전송한다(1337).The wearable display 1330 requests 1315 the video server to transmit video data whose quality has been adjusted according to the comparison result of the gaze speed and the threshold value. Eye line information is transmitted (1337).
비디오 서버(1310)는 수신된 시선 정보에서 사용자의 뷰포트를 구한 뒤, 품질이 조절된 비디오 데이터의 전송 요청에 대응하여 상기 뷰포트에 해당하는 비디오의 품질을 조절하고, 상기 착용형 영상 표시 장치(1330)로 상기 품질이 조절된 비디오 데이터를 전송한다(1339).The video server 1310 obtains the user's viewport from the received sight line information, adjusts the quality of the video corresponding to the viewport in response to the transmission request of the video data whose quality is adjusted, (Step 1339). In step 1339, the video data having the adjusted quality is transmitted.
다음으로, 착용형 영상 표시 장치(1330)는 수신된 비디오 데이터를 디코딩하여 출력한다(1341)Next, the wearable video display device 1330 decodes and outputs the received video data (1341)
여기에서, 상기 착용형 영상 표시 장치(1330)는, 상기 비교(1335a) 결과 상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 높은 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청한다(1335b).Here, the wearable display 1330 may request the video server to transmit 1335b the high quality image data if the eye movement speed is less than the threshold value as a result of the comparison 1335a.
한편, 상기 착용형 영상 표시 장치(1330)는, 상기 비교(1335a) 결과 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 시선 이동 속력의 변화 추세를 살펴본다(1335c).Meanwhile, if the eye movement speed is equal to or greater than the threshold value as a result of the comparison (1335a), the wearable display device (1330) looks at a change trend of the eye movement speed (1335c).
상기 착용형 영상 표시 장치(1330)는, 상기 시선 이동 속력이 증가하고 있으면, 낮은 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하고(1335d), 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 높은 품질의 영상 데이터의 전송을 상기 비디오 서버(1310)에 요청한다(1335b).The wearable display device 1330 requests the video server to transmit low quality video data if the gaze speed is increasing 1335d and if the gaze speed is not increasing, Quality video data to the video server 1310 (1335b).
여기에서, 상기 비디오 서버(1310)는, 낮은 품질의 영상 데이터를 상기 착용형 영상 표시 장치(1330)로 전송하는 중에 상기 높은 품질의 영상 데이터의 전송 요청 메시지를 수신하면, 전송 품질의 전환 시 발생하는 지연시간동안 낮은 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치(1330)로 전송한 후, 상기 높은 품질의 영상 데이터를 상기 착용형 영상 표시 장치(1330)로 전송한다.When the video server 1310 receives the transmission request message of the high quality video data while transmitting the low quality video data to the wearable video display device 1330, Sampled image data of the low quality image data to the wearable image display device 1330 during the delay time for transmitting the high quality image data to the wearable image display device 1330. [
따라서, 본 명세서에 개시된 예시적인 가상현실 시스템의 영상 전송 방법을 통해, 사용자의 시선 이동 속력에 따라 뷰포트에 해당하는 가상 현실 영상의 품질을 조절함으로써, 영상 데이터의 전송에 필요한 대역폭을 절약할 수 있게 된다.Therefore, by adjusting the quality of the virtual reality image corresponding to the viewport according to the speed of the user's gaze movement through the image transmission method of the exemplary virtual reality system disclosed in the present specification, it is possible to save the bandwidth required for the transmission of the image data do.
도 14는 시선 이동 속력에 따라 전송 영상의 품질을 제어할 수 있는 착용형 영상 표시 장치의 예시적인 구성을 나타낸 도면이다.FIG. 14 is a diagram showing an exemplary configuration of a wearable image display device capable of controlling the quality of a transmission image according to a visual movement speed.
이하에서는 도 14를 참조하여 가상 현실 시스템에서 시선 이동 속력에 따라 전송 영상의 품질을 제어함으로써 대역폭을 절약할 수 있는 예시적인 착용형 영상 표시 장치를 설명한다.Hereinafter, with reference to FIG. 14, an exemplary wearable video display device capable of saving bandwidth by controlling the quality of a transmission image according to the visual movement speed in the virtual reality system will be described.
착용형 영상 표시 장치(1400)는 임계 속력 판단부(1410), 시선 이동 속력 측정부(1430), 제어부(1450), 및 통신부(1470)를 포함할 수 있다.The wearable display 1400 may include a critical speed determiner 1410, a visual-movement speed measuring unit 1430, a controller 1450, and a communication unit 1470.
임계 속력 판단부(1410)는 착용형 영상 표시 장치(1400)의 특성을 고려하여, 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단할 수 있다.The critical speed determiner 1410 can determine the threshold value of the visual line moving speed for switching the image quality in consideration of the characteristics of the wearable image display device 1400. [
시선 이동 속력 측정부(1430)는 상기 착용형 영상 표시 장치(1400)의 사용자의 시선 이동 속력을 측정할 수 있다. 여기에서, 사용자의 시선 이동 속력은 착용형 영상 표시 장치에 구비된 센서 또는 외부의 센서를 통해 사용자의 머리 움직임 또는/및 눈동자의 움직임을 추적하고, 이를 이용하여 시선 이동 속력을 구할 수 있다.The eye movement speed measuring unit 1430 may measure the eye movement speed of the user of the wearable display 1400. Here, the user's gaze movement speed may track the user's head movement and / or the pupil's movement through a sensor or an external sensor provided in the wearable display device, and may use the gaze movement speed to obtain the gaze movement speed.
제어부(1450)는 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 뷰포트에 대해서 전송될 비디오 데이터의 품질 조절을 요청하는 메시지를 생성할 수 있다. 또한, 제어부(1450)는 상기 시선 이동 속력이 상기 임계 값보다 작은 경우와, 상기 시선 이동 속력이 상기 임계 값과 같거나 클 때에는 상기 시선 이동 속력이 증가하고 있지 않는 경우에는, 상기 비디오 데이터에 대한 서로 다른 품질의 영상 데이터 중 높은 품질의 영상 데이터의 전송을 요청함으로써, 전송될 비디오 데이터의 품질을 조절할 수 있다.The control unit 1450 may generate a message requesting to adjust the quality of the video data to be transmitted to the viewport according to the result of the comparison between the speed of sight movement and the threshold value. In addition, when the gaze movement speed is smaller than the threshold value and when the gaze movement speed is equal to or greater than the threshold value, when the gaze movement speed does not increase, Quality of video data to be transmitted can be adjusted by requesting transmission of high quality video data among video data of different quality.
통신부(1470)는 상기 비디오 데이터의 품질 조절 요청 메시지를 외부의 비디오 서버로 전송하고, 상기 비디오 서버로부터 비디오 데이터를 수신할 수 있다.The communication unit 1470 may transmit the quality control request message to the external video server and receive the video data from the video server.
상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 그 크기가 달라질 수 있다.Wherein the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different qualities when the user moves the gaze, The size may vary depending on the characteristics of the apparatus.
이하에서는 도 15 내지 도 16을 참조하여, 영상 품질 조절을 위한 신호 체계를 설명한다.Hereinafter, a signal system for controlling image quality will be described with reference to FIG. 15 to FIG.
전술한 바와 같이, 사용자의 시선 이동 속력에 기반하여 영상 품질 조절 신호를 전달함으로써, 최소한의 전송 대역폭에서 최대한의 고품질 영상 서비스를 제공할 수 있다. 그러나, 사용자가 시선을 이동할 때마다 그 이동 속력 정보를 서버 측으로 전달하는 것은 전체 네트워크 및 사용자 단말 또는 영상 전송 시스템에 부담을 준다.As described above, by transmitting the image quality adjustment signal based on the user's gaze speed, it is possible to provide the maximum quality image service in the minimum transmission bandwidth. However, transmitting the moving speed information to the server side whenever the user moves his or her gaze places a burden on the entire network, the user terminal, or the image transmission system.
따라서, 예시적인 시그널링 방법(신호 체계)은 사용자의 시선 이동 속력이 빨라 고품질 영상 정보를 생략하는 구간(향상 계층 생략(Enhancement Layer Skip) 구간이라고 함)이 시작되는 시점과 사용자의 시선 이동 속력이 감소하여 고품질 영상 정보를 다시 요청하는 구간(향상 계층 요청(Enhancement Layer Request) 구간이라고 함)이 시작되는 시점에서만 영상 품질 조절 정보를 전송함으로써 전체 네트워크 및 사용자 단말 또는 영상 전송 시스템에 부담을 줄일 수 있다.Therefore, the exemplary signaling method (signaling scheme) is based on a point in time at which the user's gaze movement speed is fast and a section in which high-quality image information is omitted (referred to as an enhancement layer skip interval) The quality control information is transmitted only when a section for requesting high quality video information is requested again (referred to as an enhancement layer request section), thereby reducing the burden on the entire network, the user terminal, or the video transmission system.
도 15는 영상 품질 조절을 위한 신호 체계를 위한 예시적인 국제 비디오 표준에서의 OMAF 구문을 도시한다.Figure 15 shows an OMAF syntax in an exemplary international video standard for signaling for image quality control.
도 15를 참조하면, H.264 AVC나 H.265 HEVC와 같은 국제 비디오 표준에서의 예시적인 OMAF(Omnidirectional Media Application Format) 구문(syntax)을 보여주고 있다.Referring to FIG. 15, there is shown an exemplary Omnidirectional Media Application Format (OMAF) syntax in an international video standard such as H.264 AVC or H.265 HEVC.
도면의 참조번호 1500의 구문은 본 명세서의 실시예로 새로 추가되어야 할 내용이며, 이 외의 구문은 모두 기존의 표준 구문이다.The syntax of reference numeral 1500 in the drawing is a new addition to the embodiment of the present specification, and all the other syntaxes are existing standard syntax.
unsigned (n)는 통상 프로그래밍 언어에서 부호가 없는 (unsigned) 'n' 비트 수를 의미한다.unsigned (n) means the number of unsigned 'n' bits in a normal programming language.
center_yaw 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 중심을 나타낸다. 범위는 -180 * 2^16 ~ 180 * 2^16 - 1 내에 있어야 한다.The center_yaw syntax specifies the viewport orientation relative to the global coordinate axis and represents the center of the viewport. The range should be within -180 * 2 ^ 16 ~ 180 * 2 ^ 16 - 1.
center_pitch 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 중심을 나타낸다. 범위는 -90 * 2^16 ~ 90 * 2^16 - 1 내에 있어야 한다.The center_pitch statement specifies the viewport orientation relative to the global coordinate axis and represents the center of the viewport. The range should be within -90 * 2 ^ 16 ~ 90 * 2 ^ 16 - 1.
center_roll 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 roll 좌표를 나타낸다. 범위는 -180 * 2^16 ~ 180 * 2^16 - 1 내에 있어야 한다.The center_roll statement specifies the viewport orientation relative to the global coordinate axis and represents the roll coordinates of the viewport. The range should be within -180 * 2 ^ 16 ~ 180 * 2 ^ 16 - 1.
hor_range 구문은 구 영역에서 수평 범위를 나타낸다. 구체 영역의 중심점을 통해 범위를 지정하며 0 ~ 720*2^16 내에 있어야 한다.The hor_range statement represents the horizontal extent in the sphere. The range is specified through the center point of the sphere and must be within 0 ~ 720 * 2 ^ 16.
ver_range 구문은 구 영역에서 수직 범위를 나타낸다. 구체 영역의 중심점을 통해 범위를 지정하며 0 ~ 180*2^16 내에 있어야 한다.The ver_range syntax indicates a vertical range in the sphere. The range is specified through the center point of the sphere and must be within 0 ~ 180 * 2 ^ 16.
interpolate 구문은 선형 보간의 적용 여부를 나타낸다. 값이 1일 경우 선형 보간이 적용 됨을 나타낸다.The interpolate syntax indicates whether linear interpolation is applied. A value of 1 indicates that linear interpolation is applied.
el_skip_flag 구문은 각 타일의 대응하는 영역의 EL 전송 여부를 나타내는 플래그를 나타내며, 값이 0일 경우, EL요청모드 (EL request mode)를 나타내고, 값이 1일 경우, EL생략모드 (EL skip mode)를 나타낸다.The EL_skip_flag syntax indicates an EL request mode when the value is 0. When the EL_skip_flag value is 1, the EL_skip_flag syntax indicates an EL skip mode. .
이상 정의된 구문과 의미론에 관한 정보들은 MPEG DASH와 같은 HTTP 기반의 영상 통신에서 각각 XML 형태로 표현이 될 수도 있다.The above defined syntax and semantics information can be expressed in XML format in HTTP based video communication such as MPEG DASH.
도 16은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한다.Figure 16 shows an exemplary tile information syntax expressed in XML form.
도 16을 참조하면, XML 형태로 표현된 티일 정보 구문으로서 XML에 정보 모드, 전체 타일 개수, 및 각 타일 별 EL(향상 계층) 비디오 데이터의 전송여부 정보를 포함하여 표현할 수 있다.Referring to FIG. 16, an information mode, a total number of tiles, and transmission / non-transmission information of EL (enhancement layer) video data for each tile may be expressed as XML as a Tile information syntax expressed in XML form.
본 명세서에 개시된 실시예들에 따른 가상 현실 시스템은 컴퓨터로 읽을 수 있는 기록 매체에서 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 명세서의 기술이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The virtual reality system according to the embodiments disclosed herein can be implemented as computer readable code on a computer readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like. In addition, the computer-readable recording medium may be distributed over network-connected computer systems so that computer readable codes can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present invention can be easily deduced by programmers skilled in the art to which the present description belongs.
이상에서 본 명세서의 기술에 대한 바람직한 실시 예가 첨부된 도면들을 참조하여 설명되었다. 여기서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.In the foregoing, preferred embodiments of the present invention have been described with reference to the accompanying drawings. Here, the terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary meanings, but should be construed in a meaning and a concept consistent with the technical idea of the present invention.
본 발명의 범위는 본 명세서에 개시된 실시 예들로 한정되지 아니하고, 본 발명은 본 발명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.The scope of the present invention is not limited to the embodiments disclosed herein, and the present invention can be modified, changed, or improved in various forms within the scope of the present invention and the claims.

Claims (21)

  1. 착용형 영상 표시 장치의 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작;Determining a threshold value of a line-of-sight traveling speed for switching the image quality according to a characteristic of the wearable video display device;
    상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 동작; 및Measuring an eye movement speed of a user of the wearable image display device; And
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작을 포함하는 착용형 영상 표시 장치의 영상 품질 제어 방법.And requesting a quality adjustment of a video image to be transmitted according to a result of the comparison between the gaze speed and the threshold value.
  2. 제1 항에 있어서,The method according to claim 1,
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작은The operation of requesting the quality adjustment of the video image to be transmitted according to the result of the comparison between the gaze speed and the threshold value
    상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 요청하고,Requesting transmission of image data of a first quality if the gaze movement speed is smaller than the threshold value,
    상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우,If the gaze movement speed is equal to or greater than the threshold value,
    상기 시선 이동 속력이 증가하고 있으면, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 요청하고,Requesting transmission of video data of a second quality lower than the first quality if the gaze movement speed is increasing,
    상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청하는 착용형 영상 표시 장치의 영상 품질 제어 방법.And requests transmission of the image data of the first quality if the gaze movement speed does not increase.
  3. 제2 항에 있어서,3. The method of claim 2,
    상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상에 대한 고화질의 영상 데이터, 기본 계층 영상 데이터 및 향상 계층 영상 데이터 중 적어도 하나를 포함하고,Wherein the image data of the first quality includes at least one of high-quality image data, base-layer image data, and enhancement-layer image data for a video image currently being transmitted,
    상기 제2 품질의 영상 데이터는 상기 현재 전송 중인 비디오 영상에 대한 저화질 영상 데이터, 상기 기본 계층 영상 데이터 중 적어도 하나를 포함하는 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the image data of the second quality includes at least one of low-quality image data for the currently transmitted video image and the base layer image data.
  4. 제3 항에 있어서,The method of claim 3,
    상기 제1 품질의 영상 데이터와 상기 제2 품질의 영상 데이터는 영상의 화질, 영상의 프레임 수, 영상의 해상도, 영상의 스캔 방식을 포함하는 영상 품질 요소의 차이로 품질이 서로 달라지는 것인 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the image data of the first quality and the image data of the second quality differ in quality due to differences in image quality factors including the image quality, the number of frames of the image, the resolution of the image, A method of controlling image quality of a video display device.
  5. 제3 항에 있어서,The method of claim 3,
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상에 대한 품질 조절을 요청하는 동작은The operation of requesting the quality adjustment of the video image to be transmitted according to the result of the comparison between the gaze speed and the threshold value
    상기 제2 품질의 영상 데이터가 전송되는 중에 상기 시선 이동 속력이 상기 임계 값보다 작아지거나, 또는 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청하는 착용형 영상 표시 장치의 영상 품질 제어 방법.A wearable video display requesting transmission of the video data of the first quality if the gaze movement speed is less than the threshold value or the gaze movement speed is not increasing while the video data of the second quality is being transmitted A method for controlling image quality of a device.
  6. 제5 항에 있어서,6. The method of claim 5,
    상기 제2 품질의 영상 데이터가 전송되는 중에 상기 시선 이동 속력이 상기 임계 값보다 작아지거나, 또는 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 요청하는 것은Requesting transmission of the image data of the first quality when the visual-movement speed is lower than the threshold value or the visual-movement speed is not increasing while the image data of the second quality is being transmitted
    상기 비디오 영상의 향상 계층 영상 데이터의 전송을 요청하되, 전송 품질 전환 시 발생하는 지연시간동안 상기 비디오 영상의 업샘플링된 기본 계층(Upsampled Base Layer) 영상 데이터를 상기 지연시간동안 재생하고, 상기 향상 계층 영상 데이터가 수신되면, 상기 제1 품질의 비디오 영상을 출력하는 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the upsampled base layer image data of the video image is reproduced during the delay time during a delay time which occurs when a transmission quality is switched, And outputting the video image of the first quality when the video data is received.
  7. 제1 항에 있어서,The method according to claim 1,
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 품질이 조절된 비디오 영상의 전송을 요청하는 동작은The operation of requesting transmission of the video image whose quality is adjusted according to the result of the comparison between the speed of sight movement and the threshold value
    상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 요청하고,Requesting transmission of image data of a first quality if the gaze movement speed is smaller than the threshold value,
    상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 요청하는 착용형 영상 표시 장치의 영상 품질 제어 방법.And transmits the image data of the second quality lower than the first quality when the gaze speed is equal to or greater than the threshold value.
  8. 제7 항에 있어서,8. The method of claim 7,
    상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상에 대한 고화질 영상 데이터, 기본 계층 영상 데이터 및 향상 계층 영상 데이터 중 적어도 하나를 포함하고,Wherein the image data of the first quality includes at least one of high-quality image data, base-layer image data, and enhancement-layer image data for a video image currently being transmitted,
    상기 제2 품질의 영상 데이터는 상기 현재 전송 중인 비디오 영상에 대한 저화질 영상 데이터, 상기 기본 계층 영상 데이터 중 적어도 하나를 포함하는 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the image data of the second quality includes at least one of low-quality image data for the currently transmitted video image and the base layer image data.
  9. 제1 항에 있어서,The method according to claim 1,
    상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라지는 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different qualities when the user moves the gaze, A method of controlling image quality of a wearable video display device, the method being dependent on characteristics of the device.
  10. 착용형 영상 표시 장치로부터 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하는 동작;Receiving a transmission request message of video data of a first quality from a wearable video display device;
    상기 제1 품질의 영상 데이터의 전송 요청에 대응하여 비디오 영상에 대한 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 동작;Transmitting the video data of the first quality to a video image corresponding to the transmission request of the video data of the first quality to the wearable video display device;
    상기 착용형 영상 표시 장치로부터 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송 요청 메시지를 수신하는 동작; 및Receiving a transmission request message of video data of a second quality lower than the first quality from the wearable video display device; And
    상기 제2 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 동작을 포함하되,And transmitting the image data of the second quality to the video image corresponding to the transmission request of the video data of the second quality to the wearable video display device,
    상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 중에 상기 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하면,When receiving the transmission request message of the image data of the first quality while the image data of the second quality is being transmitted to the wearable display,
    전송 품질 전환 시 발생하는 지연시간동안 상기 제2 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치로 전송한 후, 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 비디오 서버의 영상 전송 방법.Sampling image data of the image data of the second quality to the wearable image display device for a delay time that occurs when the transfer quality is switched, and then transmits the image data of the first quality to the wearable image display device The method comprising the steps of:
  11. 제10 항에 있어서,11. The method of claim 10,
    상기 제1 품질의 영상 데이터는 현재 전송 중인 비디오 영상의 기본 계층 영상 데이터 및 향상 계층 영상 데이터를 포함하고,Wherein the image data of the first quality includes base layer image data and enhancement layer image data of a currently transmitted video image,
    상기 제2 품질의 영상 데이터는 상기 기본 계층 영상 데이터를 포함하되The video data of the second quality includes the base layer video data
    상기 업샘플링된 영상 데이터는 상기 기본 계층 영상 데이터의 업샘플링된 영상 데이터인 비디오 서버의 영상 전송 방법.Wherein the upsampled image data is upsampled image data of the base layer image data.
  12. 착용형 영상 표시 장치가 장치 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작;An operation of the wearable video display device to determine a threshold value of a visual movement speed for switching an image quality according to a device characteristic;
    상기 착용형 영상 표시 장치가 사용자의 시선 이동 속력을 측정하는 동작;The wearable video display device measuring an eye movement speed of a user;
    상기 착용형 영상 표시 장치가 상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 품질이 조절된 비디오 영상의 전송을 비디오 서버에 요청하는 동작; 및Requesting the video server to transmit the quality-adjusted video image according to the comparison result of the gaze speed and the threshold value; And
    상기 비디오 서버가 상기 비디오 영상의 전송 요청에 대응하여 상기 착용형 영상 표시 장치로 상기 품질이 조절된 비디오 영상을 전송하는 동작을 포함하는 영상 품질 제어 방법.And transmitting the quality-adjusted video image to the wearable display device in response to a request for transmission of the video image by the video server.
  13. 제12 항에 있어서, 상기 착용형 영상 표시 장치는,13. The wearable video display device according to claim 12,
    상기 비교 결과 상기 시선 이동 속력이 상기 임계 값보다 작은 경우, 제1 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하고,Requesting the video server to transmit video data of a first quality if the gazing speed is smaller than the threshold,
    상기 비교 결과 상기 시선 이동 속력이 상기 임계 값과 같거나 큰 경우, 상기 시선 이동 속력이 증가하고 있으면, 상기 제1 품질보다 낮은 제2 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하고, 상기 시선 이동 속력이 증가하고 있지 않으면, 상기 제1 품질의 영상 데이터의 전송을 상기 비디오 서버에 요청하는 영상 품질 제어 방법.Requesting the video server to transmit video data of a second quality lower than the first quality if the gaze speed is equal to or greater than the threshold value and the gaze movement speed is increasing, And transmits the video data of the first quality to the video server if the moving speed is not increasing.
  14. 제13 항에 있어서, 상기 비디오 서버는,14. The video server of claim 13,
    상기 제1 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하고,Transmitting the image data of the first quality to the video image corresponding to the transmission request of the video data of the first quality to the wearable video display device,
    상기 제2 품질의 영상 데이터의 전송 요청에 대응하여 상기 비디오 영상에 대한 상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 영상 품질 제어 방법.And transmitting image data of the second quality to the video image in response to a request for transmission of the video data of the second quality to the wearable video display device.
  15. 제14 항에 있어서, 상기 비디오 서버는,15. The video server of claim 14,
    상기 제2 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 중에 상기 제1 품질의 영상 데이터의 전송 요청 메시지를 수신하면,When receiving the transmission request message of the image data of the first quality while the image data of the second quality is being transmitted to the wearable display,
    전송 품질 전환 시 발생하는 지연시간동안 상기 제2 품질의 영상 데이터의 업샘플링된 영상 데이터를 상기 착용형 영상 표시 장치로 전송한 후, 상기 제1 품질의 영상 데이터를 상기 착용형 영상 표시 장치로 전송하는 영상 품질 제어 방법.Sampling image data of the image data of the second quality to the wearable image display device for a delay time that occurs when the transfer quality is switched, and then transmits the image data of the first quality to the wearable image display device A method of controlling image quality.
  16. 제12 항에 있어서,13. The method of claim 12,
    상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라지는 착용형 영상 표시 장치의 영상 품질 제어 방법.Wherein the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different qualities when the user moves the gaze, A method of controlling image quality of a wearable video display device, the method being dependent on characteristics of the device.
  17. 착용형 영상 표시 장치 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 임계 속력 판단부;A critical speed determining unit for determining a threshold value of a line-of-sight traveling speed for switching an image quality according to a wearable video display device characteristic;
    상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 시선 이동 속력 측정부;A line-of-sight movement speed measuring unit for measuring a line-of-sight movement speed of a user of the wearable image display device;
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 비디오 영상의 품질 조절을 요청하는 메시지를 생성하는 제어부; 및A control unit for generating a message for requesting adjustment of the quality of a video image to be transmitted according to a result of comparison between the gaze speed and the threshold value; And
    상기 비디오 영상의 품질 조절 요청 메시지를 외부로 전송하고, 상기 비디오 영상을 수신하는 통신부를 포함하는 착용형 영상 표시 장치.And a communication unit for transmitting the quality adjustment request message to the outside and receiving the video image.
  18. 제17 항에 있어서, 상기 제어부는18. The apparatus of claim 17, wherein the control unit
    상기 시선 이동 속력이 상기 임계 값보다 작은 경우 및 상기 시선 이동 속력이 상기 임계 값과 같거나 클 때, 상기 시선 이동 속력이 증가하고 있지 않는 경우, 상기 비디오 영상에 대한 서로 다른 품질의 영상 데이터 중 높은 품질의 영상 데이터의 전송을 요청하는 착용형 영상 표시 장치.When the gaze movement speed is less than the threshold value and when the gaze movement speed is equal to or greater than the threshold value and when the gaze movement speed is not increasing, Quality video data is requested to be transmitted.
  19. 제17 항에 있어서,18. The method of claim 17,
    상기 영상 품질 전환을 위한 시선 이동 속력의 임계 값은 상기 사용자가 시선 이동을 할 때, 서로 다른 품질의 영상에 대해 품질의 차이를 인지하지 못하는 시선 이동 속력이며, 상기 임계 값은 상기 착용형 영상 표시 장치의 특성에 따라 달라지는 착용형 영상 표시 장치.Wherein the threshold value of the gaze movement speed for switching the image quality is a gaze movement speed at which the user can not perceive a difference in quality with respect to images of different qualities when the user moves the gaze, A wearable image display device which varies depending on the characteristics of the device.
  20. 착용형 영상 표시 장치의 특성에 따른 영상 품질 전환을 위한 시선 이동 속력의 임계 값을 판단하는 동작;Determining a threshold value of a line-of-sight traveling speed for switching the image quality according to a characteristic of the wearable video display device;
    상기 착용형 영상 표시 장치의 사용자의 시선 이동 속력을 측정하는 동작; 및Measuring an eye movement speed of a user of the wearable image display device; And
    상기 시선 이동 속력과 상기 임계 값의 비교 결과에 따라 전송될 스케일러블 비디오 영상에 대한 품질 조절을 요청하는 동작을 포함하되,And requesting quality adjustment for a scalable video image to be transmitted according to a result of the comparison of the gaze speed and the threshold value,
    상기 시선 이동 속력이 상기 임계 값보다 작은 경우 및 상기 시선 이동 속력이 상기 임계 값과 같거나 클 때, 상기 시선 이동 속력이 증가하고 있지 않는 경우, 상기 스케일러블 비디오 영상의 향상 계층 영상 데이터의 전송을 요청하는 착용형 영상 표시 장치의 영상 품질 제어 방법.The transmission of the enhancement layer image data of the scalable video image is performed when the visual line moving speed is less than the threshold value and when the visual line moving speed is equal to or greater than the threshold value, And controlling the image quality of the wearable video display device.
  21. 제20 항에 있어서,21. The method of claim 20,
    기본 계층 영상 데이터가 전송되는 중에 상기 향상 계층 영상 데이터의 전송을 요청하면,If transmission of the enhancement layer video data is requested while base layer video data is being transmitted,
    전송 품질 전환 시 발생하는 지연시간동안 상기 스케일러블 비디오 영상의 업샘플링된 기본 계층 영상 데이터를 수신하고, 상기 지연시간 이후, 상기 향상 계층 영상 데이터를 수신하는 동작을 더 포함하는 착용형 영상 표시 장치의 영상 품질 제어 방법.Further comprising: receiving up-sampled base layer video data of the scalable video image during a delay time occurring during transmission quality change, and receiving the enhancement layer video data after the delay time Method for controlling image quality.
PCT/KR2018/015794 2017-12-12 2018-12-12 Virtual reality video quality calibration WO2019117628A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170170822A KR101981868B1 (en) 2017-12-12 2017-12-12 Virtual reality video quality control
KR10-2017-0170822 2017-12-12

Publications (1)

Publication Number Publication Date
WO2019117628A1 true WO2019117628A1 (en) 2019-06-20

Family

ID=66819401

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/015794 WO2019117628A1 (en) 2017-12-12 2018-12-12 Virtual reality video quality calibration

Country Status (2)

Country Link
KR (1) KR101981868B1 (en)
WO (1) WO2019117628A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176663A (en) * 2009-01-28 2010-08-12 Internatl Business Mach Corp <Ibm> Method for updating acceleration data structure of ray tracing between frames based on changing view field
JP2012129847A (en) * 2010-12-16 2012-07-05 Mega Chips Corp Image processing system, operation method of image processing system, host device, program, and creation method of the program
KR20140059767A (en) * 2014-04-10 2014-05-16 경희대학교 산학협력단 Method and equipment for hybrid multiview and scalable video coding
KR101713492B1 (en) * 2016-06-27 2017-03-07 가천대학교 산학협력단 Method for image decoding, method for image encoding, apparatus for image decoding, apparatus for image encoding
KR20170123656A (en) * 2015-05-27 2017-11-08 구글 엘엘씨 Spherical video streaming

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176663A (en) * 2009-01-28 2010-08-12 Internatl Business Mach Corp <Ibm> Method for updating acceleration data structure of ray tracing between frames based on changing view field
JP2012129847A (en) * 2010-12-16 2012-07-05 Mega Chips Corp Image processing system, operation method of image processing system, host device, program, and creation method of the program
KR20140059767A (en) * 2014-04-10 2014-05-16 경희대학교 산학협력단 Method and equipment for hybrid multiview and scalable video coding
KR20170123656A (en) * 2015-05-27 2017-11-08 구글 엘엘씨 Spherical video streaming
KR101713492B1 (en) * 2016-06-27 2017-03-07 가천대학교 산학협력단 Method for image decoding, method for image encoding, apparatus for image decoding, apparatus for image encoding

Also Published As

Publication number Publication date
KR101981868B1 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
WO2018004239A1 (en) Image decoding method, image encoding method, image decoding device, and image encoding device
WO2019194434A1 (en) Method and device for transceiving metadata for plurality of viewpoints
WO2015009107A1 (en) Method and apparatus for generating 3k-resolution display image for mobile terminal screen
WO2020197236A1 (en) Image or video coding based on sub-picture handling structure
WO2021096057A1 (en) Image coding method on basis of entry point-related information in video or image coding system
WO2014038905A2 (en) Image decoding method and apparatus using same
WO2021118295A1 (en) Image coding device and method for controlling loop filtering
WO2020180159A1 (en) Image encoding/decoding method and apparatus, and method for transmitting bitstream
WO2018236050A1 (en) Tile-based video streaming for mobile vr
WO2019117629A1 (en) Virtual reality video streaming using viewport information
WO2021194307A1 (en) Image encoding/decoding method and apparatus based on wrap-around motion compensation, and recording medium storing bitstream
WO2021141400A1 (en) Attribute transfer in v-pcc
WO2021145728A1 (en) In-loop filtering-based image coding apparatus and method
WO2021118293A1 (en) Filtering-based image coding device and method
WO2019117628A1 (en) Virtual reality video quality calibration
WO2022060113A1 (en) Method for processing media file and device therefor
WO2021246791A1 (en) Method and apparatus for processing high level syntax in image/video coding system
WO2021091214A1 (en) Video decoding method and device for coding chroma quantization parameter offset-related information
WO2022039513A1 (en) Method and apparatus for encoding/decoding image on basis of cpi sei message, and recording medium having bitstream stored therein
WO2021145725A1 (en) Image coding device and method based on filtering-related information signaling
WO2021201463A1 (en) In-loop filtering-based image coding device and method
WO2021145726A1 (en) Adaptive loop filtering-based image coding apparatus and method
WO2021091253A1 (en) Slice type-based image/video coding method and apparatus
WO2020209478A1 (en) Method and device for partitioning picture into plurality of tiles
WO2022139260A1 (en) Method and apparatus for generating and processing media file

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18888775

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18888775

Country of ref document: EP

Kind code of ref document: A1