WO2020204253A1 - 관심 영역 기반의 vr 영상 수신 장치 및 방법 - Google Patents
관심 영역 기반의 vr 영상 수신 장치 및 방법 Download PDFInfo
- Publication number
- WO2020204253A1 WO2020204253A1 PCT/KR2019/005774 KR2019005774W WO2020204253A1 WO 2020204253 A1 WO2020204253 A1 WO 2020204253A1 KR 2019005774 W KR2019005774 W KR 2019005774W WO 2020204253 A1 WO2020204253 A1 WO 2020204253A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- region
- tiles
- interest
- resolution
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23614—Multiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4348—Demultiplexing of additional data and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Definitions
- the present invention relates to a content streaming technology, and more particularly, to a region-of-interest (ROI) based VR image receiving apparatus and method for minimizing the computational load and receiving high-quality VR content.
- ROI region-of-interest
- MPEG DASH-SRD technology that divides high-quality video into spatial units, encodes HEVC (High Efficiency Video Coding), and then divides into time units to reproduce high-quality images only in the user's region of interest and low-quality images in the remaining regions. Also appeared, but this still has a problem that only solves the problem of 2D images.
- HEVC High Efficiency Video Coding
- a high-definition video of at least 8K is required to be considered a high-quality video.
- VR content does not project a single image onto a single plane, but represents the entire sphere, even if the same 4K video is viewed from within the VR space, the image quality is significantly lower than that of ordinary 2D video.
- the resolution size of the video played in the VR space has to be increased, which incurs an excessive load on the client end that actually plays the video.
- An object of the present invention is to provide an apparatus and method for receiving a VR image based on a region of interest for receiving VR content by minimizing a computational load based on the region of interest.
- the apparatus for receiving a VR image based on a region of interest includes an interface unit for communicating with a streaming server and a VR player, and an interest in an image related to a media presentation description (MPD) provided by the streaming server.
- a region of interest (ROI) is detected, and the region of interest information is transmitted to the streaming server to be transmitted from the streaming server to the divided image tiles of a first resolution corresponding to the region of interest information and the first resolution.
- a control unit for controlling to receive a full image of a second resolution having a low resolution, and controlling the synthesis of the entire image of the second resolution and the divided image tiles of the first resolution to be transmitted to the VR player; Calculates the coordinates of each vertex of the region of interest in the space of the entire VR image using the uppermost coordinates of the two-dimensional coordinates for the space of the VR image received from the VR player, and uses the calculated vertex coordinates It is characterized by detecting area information.
- it characterized in that it further comprises a storage unit for storing the received MPD file divided by resolution and time period.
- control unit searches all image tiles having a relatively high resolution among the MPD files based on the information parsed from the MPD file, and determines whether the searched tiles are included in a region of interest in a virtual rectangular shape to which the vertex coordinates are connected. Thus, candidate tiles are selected.
- control unit calculates the area of each candidate tile included in the area of interest, and performs descending order based on the calculated area to calculate the center tiles that become the center of the area of interest, and selects the calculated center tiles. It is characterized by designating with tiles.
- the controller may compare the area width of the +n tile group (n is a natural number) and the -n tile group based on the center tiles to designate tiles of a wider group as selection tiles.
- the method for receiving a VR image based on a region of interest includes the steps of: a VR image receiving device detecting an ROI of an image related to an MPD provided by a streaming server, and the VR image receiving device transmitting the ROI information to the streaming server. Transmitting and receiving split image tiles of a first resolution corresponding to the ROI information from the streaming server and a full image of a second resolution lower than the first resolution, and the entire image of the second resolution and the Comprising the step of synthesizing the divided image tiles of the first resolution and transmitting them to the VR player, wherein the detecting of the region of interest comprises: the uppermost left-most coordinates of the two-dimensional coordinates for the space of the VR image received from the VR player.
- the step of detecting the region of interest may include searching for all image tiles having a relatively high resolution among the MPD files based on the information parsed from the MPD file, and the searched tile is a virtual rectangular type of interest to which the vertex coordinates are connected. It is characterized in that candidate tiles are selected by determining whether they are included in the region.
- the area of each candidate tile included in the region of interest is calculated, and the center tiles that are the center of the region of interest are calculated by performing descending order based on the calculated area, and the calculation It is characterized in that the selected center tiles are designated as selection tiles.
- the detecting of the region of interest may include comparing a +n tile group (n is a natural number) and a region width of a -n tile group based on the center tiles, and designating tiles of a wider group as selection tiles. do.
- the apparatus and method for receiving a VR image based on a region of interest of the present invention can receive high-quality VR content in real time by minimizing a computational load by differentially assigning a resolution to a region of interest and a region other than the region of interest.
- the cost can be reduced by reducing the amount of computation and the size of transmitted data, and even when the cost is the same, a better image quality can be provided to the user.
- FIG. 1 is a block diagram illustrating a streaming system according to an embodiment of the present invention.
- FIG. 2 is a block diagram illustrating a VR image receiving apparatus according to an embodiment of the present invention.
- FIG. 3 is a diagram for describing the media cache of FIG. 2.
- FIG. 4 is a diagram for describing a relationship between an ROI and a high-quality image area according to an embodiment of the present invention.
- FIG. 5 is a view for explaining a tile selection process according to an embodiment of the present invention.
- FIG. 6 is a flowchart illustrating a VR image receiving method according to an embodiment of the present invention.
- FIG. 1 is a block diagram illustrating a streaming system according to an embodiment of the present invention.
- the streaming system 400 includes a VR image receiving device 100, a streaming server 200, and a VR player 300.
- the streaming system 400 may further include a transcoder (not shown) that provides split images to the streaming server 200.
- the transcoder may divide an image (or a media file) into a plurality of spaces having the same resolution, a plurality of spaces having different resolutions, or divide the image (or media file) into a plurality of spaces having different resolutions according to a specified policy and rule.
- the divided media files eg, HEVC tiled encoded files
- the streaming server 13 may include a transcoder.
- the transcoder may transmit a specific media file, for example, a 360 VR (Virtual Reality) video or a live broadcast video, to the streaming server 13 by tiled encoding (HEVC) or encoding (HEVC).
- the transcoder may create Tiled information (MetaInfo) corresponding to tiled-encoded media files, and transmit the created Tiled information (MetaInfo) to the streaming server 200 together when transmitting the media file.
- the transcoder may perform HEVC Tiled Encoding for high quality video in real time or HEVC Tiled Encoding for VOD content at a specified time.
- the transcoder may divide one image into units of a predetermined size (or space), sequentially perform HEVC Tiled Encoding on the divided media files, and transmit them to the streaming server 200.
- the video transmitted by the transcoder to the streaming server 200 is, for example, HQ (HEVC Tiled Encoded high quality video of 8K level or higher), MQ (HEVC Tiled Encoding medium quality video of 2K or 4K level or higher), FullMQ (2K or 4K level HEVC-encoded medium-quality video).
- MetaInfo (or Tiled information) may include Meta information (Tile, Bitrate, FPS, bandwidth, etc.) for the aforementioned HQ and MQ files.
- the streaming server 200 generates a Media Presentation Description (MPD) file for the divided image fragments, delivers it to the VR image receiving device 100, and requests Region Of Interest (ROI) information from the VR image receiving device 100. To receive. Based on this, the streaming server 200 may transmit divided image fragments having different resolutions to the VR image receiving device 100.
- the MPD file is a manifest that includes information such as contents available to the VR image receiving device 100, alternative bit rates provided, and URL address values. Can correspond to files.
- the URL address value is composed of a template form in which each variable is combined, and the structure is as follows, and the description is given in [Table 1].
- the streaming server 3 can store and manage divided image pieces of different resolutions.
- the streaming server 130 may receive segmented image fragments of different resolutions from the transcoder in real time.
- the streaming server 200 may transmit divided image fragments of different resolutions stored in response to a request from the VR image receiving device 100 to the VR image receiving device 100.
- the VR image receiving device 100 may obtain information such as program timing, media-content availability, media type, quality, minimum and maximum bandwidths, usable encoded-alternatives, DRM, etc. while parsing the MPD file. have.
- the VR image receiving apparatus 100 may perform streaming through an HTTP GET request after selecting an encoding suitable for a network state or a state of a terminal.
- the VR image receiving device 100 may establish a communication channel with the streaming server 200 according to a user input.
- the VR image receiving device 100 may receive divided image fragments of different resolutions from the streaming server 200 in response to set scheduling information or a user input.
- the VR image receiving apparatus 100 generates one image by combining the received divided image pieces of different resolutions.
- the VR image receiving apparatus 100 may acquire region of interest (ROI) information on the image and transmit the acquired ROI information to the streaming server 200.
- the VR image receiving apparatus 100 may receive segmented image fragments corresponding to a relatively high-resolution ROI region from the streaming server 13, synthesize the received segmented image fragments, and transmit them to the VR player 300.
- ROI region of interest
- the VR player 300 is a device capable of outputting a VR image, and outputs an image transmitted from the VR image receiving device 100.
- the VR player 300 may include a smartphone, a tablet PC, a handheld PC, a desktop, a laptop, a head mounted display (HMD) device, and the like.
- HMD head mounted display
- the streaming system 400 of the present invention outputs the resolution of areas that the user is interested in or is currently concentrating in or to be focused on as a higher resolution image than the surrounding area, and outputs a relatively low-resolution image in the surrounding area. can do. Accordingly, it is possible to minimize the delay in the data transmission and output state by reducing the burden of data transmission while watching high-resolution portions of the user's interest.
- FIG. 2 is a block diagram illustrating a VR image receiving apparatus according to an embodiment of the present invention
- FIG. 3 is a diagram illustrating a media cache of FIG. 2.
- the VR image receiving apparatus 100 includes an interface unit 10 and a control unit 30, and may further include a storage unit 50.
- the interface unit 10 communicates with the streaming server 200 and the VR player 300.
- the interface unit 10 may include an HTTP interface for communicating with the streaming server 200 and a player interface for communicating with the VR player 300.
- the controller 30 minimizes the computational load by differentially assigning the resolution of the image received from the streaming server 200 to an ROI and a region other than the ROI.
- the control unit 30 includes an image receiving unit 31 and an image request processing unit 33.
- the image receiving unit 31 uses a configuration file such as the host name or IP address and service port number of the streaming server providing the corresponding image to receive the VR image. Requests an MPD file to and receives the requested MPD file.
- the image receiving unit 31 stores and parses the received MPD file in the storage unit 50.
- the image receiving unit 31 may obtain information on an image provided by the streaming server 200 through parsing that decomposes the MPD file according to a specified rule.
- the acquired information includes URL information for receiving each image and information on time and space of each media data.
- the URL information is configured in the form of a template in which each variable is combined.
- the image receiving unit 31 generates a valid URL according to the playback time of each video based on the template, requests the video from the streaming server 200, and receives the requested video. This process is performed sequentially according to the video playback time sequence, and may be continuously repeated until playback is arbitrarily stopped.
- the image request processing unit 33 converts the image requested from the VR player 300 into a VR image in which a basic low-quality image and a high-quality image corresponding to a specific region are synthesized according to the ROI.
- the image request processing unit 33 detects the ROI using the top leftmost coordinates of the two-dimensional coordinates for the space currently gaze before or during playback of the VR image received from the VR player 300, and the detected ROI information Control to be transmitted to the streaming server 200.
- the image request processing unit 33 calculates a range for the ROI that the current user mainly views in the entire VR space based on the upper-left coordinates, and calculates information on a high-quality image portion located within the calculated range.
- the image request processing unit 33 uses the currently acquired coordinates based on the parsed information and resolution information (the horizontal and vertical size of the ROI area) that can be expressed by the VR player 300 to provide a rectangular ROI area within the entire image.
- the position of and the coordinates of each vertex are calculated, and the ROI for the tile to be finally output in high resolution is detected using the calculated position of the rectangular ROI area and the coordinates of each vertex.
- the image request processing unit 33 controls the detected ROI information to be transmitted to the streaming server 200 so that the divided image tiles of a first resolution corresponding to the ROI information from the streaming server 200 and a resolution lower than the first resolution are It is possible to control so that the entire image of the second resolution is received.
- the first resolution means high resolution of high quality
- the second resolution means low resolution of low quality.
- the image request processing unit 33 generates a composite VR image by synthesizing the entire image of the second resolution and the divided image tiles of the first resolution, and controls the generated composite VR image to be transmitted to the VR player 300.
- the storage unit 50 stores a program or an application including an algorithm for driving the VR image receiving device 100.
- the storage unit 50 stores an image received from the streaming server 200.
- the storage unit 50 may include a media cache 51, and the media cache 51 may store all received images.
- the media cache 51 may periodically delete the image already transmitted to the VR player 300.
- the media cache 51 is configured to store high-quality and low-quality images for each time period.
- the media cache 51 includes a first dash block 61, a second dash block 63 to an n-th dash block 69, and each dash block includes a first tileset 71 and a second tileset.
- the storage unit 50 is a flash memory type, a hard disk type, a media card micro type, a card type memory (eg, SD or XD memory, etc.), RAM (Random Access Memory, RAM), SRAM (Static Random Access Memory), ROM (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, It may include at least one storage medium of a magnetic disk and an optical disk.
- FIG. 4 is a diagram for explaining a relationship between an ROI and a high-quality image region according to an embodiment of the present invention
- FIG. 5 is a diagram for explaining a tile selection process according to an embodiment of the present invention.
- 5(a) to 5(d) are views sequentially showing a process of selecting a tile.
- the image request processing unit 33 converts a basic low-quality image and a high-quality image corresponding to a specific region into a VR image synthesized according to the ROI.
- the image request processing unit 33 After calculating the coordinates of each vertex of the ROI, the image request processing unit 33 searches all image tiles having a relatively high resolution among the MPD files based on the information parsed from the MPD file. The image request processing unit 33 determines whether the searched tile is included in a virtual rectangular ROI connected by vertex coordinates, and selects candidate tiles. At this time, the image request processing unit 33 satisfies the criteria for determining the candidate tiles that the coordinate points of the horizontal and vertical corners of each tile satisfy the minimum and maximum values of the horizontal and vertical directions of the ROI. Can be set as case.
- the image request processing unit 33 After the candidate tiles are obtained, the image request processing unit 33 performs a high-quality tile region selection process to provide the largest high-quality image with the smallest amount of data.
- the parameters used in the selection may be the number of high-quality area tiles to be expressed by the VR player 300 and the number of high-quality images that can be divided among all VR images.
- the image request processing unit 33 calculates the area of each candidate tile included in the ROI, and performs descending order based on the calculated area to calculate the center tiles that are the center of the ROI.
- the image request processing unit 33 designates the calculated center tiles as selection tiles.
- the image request processing unit 33 compares the size of the tiles of a-1 and c+1 in the ROI when the center tiles are respectively a, b, and c. Designate a selection tile. In addition, when the number of columns and the number of center tiles match, the image request processing unit 33 designates a selection tile by selecting at least one of the left and right according to an option.
- the image request processing unit 33 compares the area widths of the +n tile group and the -n tile group based on the center tiles and designates tiles of a wider group as the selection tiles.
- the image request processing unit 33 controls to transmit ROI information in which the selected tiles are sorted in ascending order based on each tile number to the streaming server 200.
- FIG. 6 is a flowchart illustrating a VR image receiving method according to an embodiment of the present invention.
- a high-quality VR content can be received in real time by minimizing a computational load by differentially providing a resolution to a region of interest and a region other than the region of interest. That is, in the case of using the independent VR player 300 or performing cloud rendering, the VR image reception method reduces the cost by reducing the amount of computation and the size of the transmitted data, and provides a better image quality to the user even at the same cost. Can provide.
- step S110 the VR image receiving device 100 requests an MPD file from the streaming server 200.
- the VR image receiving apparatus 100 may establish a communication channel with the streaming server 200 and request an MPD file from the streaming server 200 according to a user input or pre-scheduled information.
- step S120 the VR image receiving device 100 checks whether an MPD file is received.
- the VR image receiving apparatus 100 may check whether to end, and if there is no request to end, wait for reception of the MPD file.
- the VR image receiving apparatus 100 performs step S130.
- step S130 the VR image receiving device 100 parses the MPD file.
- the VR image receiving apparatus 100 may obtain information on an image provided from the streaming server 200 by decomposing the MPD file according to a specified rule.
- step S140 the VR image receiving device 100 updates the parsed data.
- the VR image receiving apparatus 100 may perform data update by storing the parsed data in a media cache.
- step S150 the VR image receiving apparatus 100 detects an ROI.
- the VR image receiving apparatus 100 detects the ROI using the uppermost left-most coordinates of the two-dimensional coordinates for the space currently gaze during or before playing the VR image received from the VR player 300. Also, the VR image receiving apparatus 100 may distinguish between a main object and a background object in an image, and detect the main object as an ROI.
- step S160 the VR image receiving apparatus 100 requests a tile set (eg, segmented image fragments of a first resolution in a region corresponding to an ROI) from the streaming server 200.
- a tile set eg, segmented image fragments of a first resolution in a region corresponding to an ROI
- the VR image receiving apparatus 100 may receive split image tiles of a first resolution corresponding to the ROI information from the streaming server 200 and a full image of a second resolution that is lower than the first resolution.
- step S170 the VR image receiving device 100 checks whether a tile set is received. If the requested tile set is not received, the VR image receiving apparatus 100 may check whether to end, and if there is no request to end, wait for reception of the tile set. When the requested tile set is received, the VR image receiving apparatus 100 performs step S180.
- step S180 the VR image receiving apparatus 100 stitches and demuxs the tile set, and then outputs the corresponding image to the VR player 300.
- the VR image receiving apparatus 100 performs stitching of divided image pieces having a first resolution, and performs demuxing of the entire image and audio information of the second resolution.
- the VR image receiving device 100 transmits the demuxed image to be output from the VR player 300.
- step S190 the VR image receiving apparatus 100 checks whether an event for requesting service termination occurs.
- the VR image receiving apparatus 100 may receive, as an end event, whether a user input requesting the end of viewing occurs or whether the last image pieces of the corresponding content are received.
- the VR image receiving apparatus 100 may branch to step S120, step S170, or the like according to the execution of the previous operation.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 발명은 관심 영역 기반의 VR 영상 수신 장치 및 방법이 개시된다. 본 발명의 VR 영상 수신 장치는 스트리밍 서버 및 VR 플레이어와 통신을 수행하는 인터페이스부 및 스트리밍 서버가 제공하는 MPD와 관련한 영상의 관심 영역을 검출하고, 관심 영역 정보를 상기 스트리밍 서버에 전송되도록 제어하여 상기 스트리밍 서버로부터 상기 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상이 수신되도록 제어하며, 제2 해상도의 전체 영상과 상기 제1 해상도의 분할 영상 타일들을 합성하여 상기 VR 플레이어에 전송되도록 제어하는 제어부를 포함하되, 제어부는, VR 플레이어로부터 수신된 VR 영상의 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 전체 VR 영상의 공간상에서 관심 영역의 각 꼭지점 좌표를 산출하고, 산출된 꼭지점 좌표를 이용하여 관심 영역 정보를 검출하는 것을 특징으로 한다.
Description
본 발명은 콘텐츠 스트리밍 기술에 관한 것으로, 더욱 상세하게는 관심 영역(Region of Interest, ROI) 기반으로 연산 부하를 최소화하며 고품질 VR 콘텐츠를 수신하는 관심 영역 기반의 VR 영상 수신 장치 및 방법에 관한 것이다.
빠르게 변화하는 IT 기술의 발전에 힘입어 우리의 생활 양식과 데이터 소비 방식이 변화함에 따라 데이터 소비의 중심이 콘텐츠와 콘텐츠를 제공하는 플랫폼을 중심으로 하는 단계에 접어들게 되었다. 특히 스마트폰의 보급이 기본이 되면서 개개인의 콘텐츠를 소비할 수 있는 창구를 만드는 것을 넘어 이제는 고화질, 실감형 콘텐츠를 요구하는 수요가 점차 늘어나고 있는 추세이다.
근래에는 고품질 영상을 공간 단위로 분할하여 HEVC(High Efficiency Video Coding) 인코딩한 후 다시 시간 단위로 분할하여 사용자의 관심 영역만 고품질 영상을 재생하고, 나머지 영역은 저품질 영상으로 재생하는 MPEG DASH-SRD 기술도 등장하였으나, 이는 여전히 2D 영상에 대한 문제만을 해결하고 있는 문제점이 있었다.
한편 VR 콘텐츠의 경우, 고품질 영상으로 여겨지기 위해서는 최소 8K 이상의 고화질의 영상을 필요로 한다. 즉 VR 콘텐츠는 하나의 영상을 하나의 평면에 투사하는 것이 아니라 구(sphere) 전체를 나타내기 때문에 같은 4K 영상이더라도 VR 공간 내에서 보면 일반 2D 영상보다 화질이 확연하게 떨어진다. 이러한 문제를 해결하기 위해 VR 공간 내에 재생되는 영상의 해상도 크기를 크게 할 수밖에 없으며, 이는 영상을 실제로 재생하는 클라이언드 단에 과도한 부하를 발생되었다.
최근 5G 네트워크망과 클라우드 렌더링을 접목하여 고 연산이 이루어지는 렌더링 작업을 클라우드에서 처리하고 클라이언트에는 일반 영상과 같은 저용량의 영상 데이터를 재생 장치로 전달하려는 시도도 있었으나, 렌더링이라는 많은 연산량을 필요로 하는 작업이 클라우드에서 이어지기 때문에 결국 절대적인 연산량은 줄이지 못하고 클라우드 서비스 이용 비용만 증가하는 결과를 초래하였다.
본 발명이 이루고자 하는 기술적 과제는 관심 영역 기반으로 연산 부하를 최소화하여 VR 콘텐츠를 수신하는 관심 영역 기반의 VR 영상 수신 장치 및 방법을 제공하는데 목적이 있다.
상기 목적을 달성하기 위해, 본 발명에 따른 관심 영역 기반의 VR 영상 수신 장치는 스트리밍 서버 및 VR 플레이어와 통신을 수행하는 인터페이스부 및 상기 스트리밍 서버가 제공하는 MPD(Media Presentation Description)와 관련한 영상의 관심 영역(Region Of Interest, ROI)을 검출하고, 상기 관심 영역 정보를 상기 스트리밍 서버에 전송되도록 제어하여 상기 스트리밍 서버로부터 상기 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 상기 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상이 수신되도록 제어하며, 상기 제2 해상도의 전체 영상과 상기 제1 해상도의 분할 영상 타일들을 합성하여 상기 VR 플레이어에 전송되도록 제어하는 제어부;를 포함하되, 상기 제어부는, 상기 VR 플레이어로부터 수신된 VR 영상의 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 전체 VR 영상의 공간상에서 관심 영역의 각 꼭지점 좌표를 산출하고, 상기 산출된 꼭지점 좌표를 이용하여 상기 관심 영역 정보를 검출하는 것을 특징으로 한다.
또한 상기 수신된 MPD 파일을 해상도별, 시간대별로 구분하여 저장하는 저장부를 더 포함하는 것을 특징으로 한다.
또한 상기 제어부는, 상기 MPD 파일에서 파싱된 정보를 기초로 상기 MPD 파일 중 상대적으로 해상도가 높은 영상 타일을 모두 검색하고, 상기 검색된 타일이 상기 꼭지점 좌표이 연결된 가상의 직사각형 형태의 관심 영역에 포함되는지 판단하여 후보 타일들을 선별하는 것을 특징으로 한다.
또한 상기 제어부는, 각 후보 타일들이 관심 영역 내에 포함되는 넓이를 각각 산출하고, 산출된 넓이를 기초로 내림차순정렬을 하여 관심 영역 중 가장 중심이 되는 중심 타일들을 산출하며, 상기 산출된 중심 타일들을 선별 타일로 지정하는 것을 특징으로 한다.
또한 상기 제어부는, 상기 중심 타일들을 기준으로 +n 타일 그룹(n은 자연수)과 -n 타일 그룹의 영역 넓이를 비교하여 더 넓은 그룹의 타일들을 선별 타일로 지정하는 것을 특징으로 한다.
본 발명에 따른 관심 영역 기반의 VR 영상 수신 방법은 VR 영상 수신 장치가 스트리밍 서버가 제공하는 MPD와 관련한 영상의 관심 영역을 검출하는 단계, 상기 VR 영상 수신 장치가 상기 관심 영역 정보를 상기 스트리밍 서버에 전송시켜 상기 스트리밍 서버로부터 상기 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 상기 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상을 수신하는 단계 및 상기 제2 해상도의 전체 영상과 상기 제1 해상도의 분할 영상 타일들을 합성하여 상기 VR 플레이어로 전송하는 단계를 포함하되, 상기 관심 영역을 검출하는 단계는, 상기 VR 플레이어로부터 수신된 VR 영상의 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 전체 VR 영상의 공간상에서 관심 영역의 각 꼭지점 좌표를 산출하고, 상기 산출된 꼭지점 좌표를 이용하여 상기 관심 영역 정보를 검출하는 것을 특징으로 한다.
또한 상기 관심 영역을 검출하는 단계는, 상기 MPD 파일에서 파싱된 정보를 기초로 상기 MPD 파일 중 상대적으로 해상도가 높은 영상 타일을 모두 검색하고, 상기 검색된 타일이 상기 꼭지점 좌표이 연결된 가상의 직사각형 형태의 관심 영역에 포함되는지 판단하여 후보 타일들을 선별하는 것을 특징으로 한다.
또한 상기 관심 영역을 검출하는 단계는, 각 후보 타일들이 관심 영역 내에 포함되는 넓이를 각각 산출하고, 산출된 넓이를 기초로 내림차순정렬을 하여 관심 영역 중 가장 중심이 되는 중심 타일들을 산출하며, 상기 산출된 중심 타일들을 선별 타일로 지정하는 것을 특징으로 한다.
또한 상기 관심 영역을 검출하는 단계는, 상기 중심 타일들을 기준으로 +n 타일 그룹(n은 자연수)과 -n 타일 그룹의 영역 넓이를 비교하여 더 넓은 그룹의 타일들을 선별 타일로 지정하는 것을 특징으로 한다.
본 발명의 관심 영역 기반의 VR 영상 수신 장치 및 방법은 관심 영역 및 관심 영역 이외의 영역으로 해상도를 차등 부여하여 연산 부하를 최소화함으로써, 실시간으로 고품질의 VR 콘텐츠를 수신할 수 있다.
즉 독립적인 VR 플레이어를 사용하는 경우 또는 클라우드 렌더링을 하는 경우 모두 연산량 및 전송 데이터의 크기를 줄여 비용을 감소하고, 동일한 비용인 경우에도 더 좋은 화질의 영상을 사용자에게 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 스트리밍 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 VR 영상 수신 장치를 설명하기 위한 블록도이다.
도 3은 도 2의 미디어 캐시를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 관심 영역과 고품질 영상 영역 간의 관계를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 타일 선별 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 VR 영상 수신 방법을 설명하기 위한 순서도이다.
이하 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 당업자에게 자명하거나 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 스트리밍 시스템을 설명하기 위한 구성도이다.
도 1을 참조하면, 스트리밍 시스템(400)은 VR 영상 수신 장치(100), 스트리밍 서버(200) 및 VR 플레이어(300)를 포함한다. 스트리밍 시스템(400)은 스트리밍 서버(200)에 분할 영상을 제공하는 트랜스코더(미도시)를 더 포함할 수도 있다.
트랜스코더는 지정된 정책 및 룰에 따라 영상(또는 Media 파일)을 동일한 해상도의 복수의 공간들로 분할하거나 또는 서로 다른 해상도의 복수의 공간들로 분할하거나 또는 지정된 시간 단위로 분할할 수 있다. 분할된 미디어 파일들(예: HEVC 타일드 인코딩된 파일들)은 스트리밍 서버(200)에 제공될 수 있다. 또는, 스트리밍 서버(13)는 트랜스코더를 포함할 수도 있다.
트랜스코더는 특정 미디어 파일 예컨대, 360 VR(Virtual Reality) 영상 또는 라이브 중계 영상 등을 타일드 인코딩(Tiled Encoding(HEVC)) 또는 Encoding(HEVC) 하여 스트리밍 서버(13)에 전송할 수 있다. 트랜스코더는 타일드 인코딩된 미디어 파일들에 대응하는 Tiled 정보(MetaInfo)를 작성하고, 작성된 Tiled 정보(MetaInfo)를 미디어 파일 전송 시 함께 스트리밍 서버(200)에 전송할 수 있다. 트랜스코더는 고품질 영상에 대해 실시간으로 HEVC Tiled Encoding을 수행하거나 VOD 컨텐츠에 대해 지정된 시간에 HEVC Tiled Encoding을 수행할 수 있다. 이 동작에서 트랜스코더는 하나의 영상을 일정 크기(또는 공간) 단위로 분할하고, 분할된 미디어 파일에 대하여 순차적으로 HEVC Tiled Encoding을 수행하여 스트리밍 서버(200)에 전송할 수 있다. 트랜스코더가 스트리밍 서버(200)에 전송하는 영상은 예컨대, HQ(8K 급 이상의 HEVC Tiled Encoding된 고품질 영상), MQ(2K 또는 4K 급 이상의 HEVC Tiled Encoding된 중품질 영상), FullMQ(2K 또는 4K급의 HEVC Encoding된 중품질 영상) 중 적어도 하나를 포함할 수 있다. MetaInfo(또는 Tiled 정보)는 상술한 HQ, MQ 파일에 대한 Meta 정보(Tile, Bitrate, FPS, bandwidth 등)를 포함할 수 있다.
스트리밍 서버(200)는 분할 영상 조각들에 대한 MPD(Media Presentation Description) 파일을 생성하여 VR 영상 수신 장치(100)로 전달하고, VR 영상 수신 장치(100)에 ROI(Region Of Interest) 정보를 요청하여 수신한다. 이를 기반으로 스트리밍 서버(200)는 서로 다른 해상도의 분할 영상 조각들을 VR 영상 수신 장치(100)로 전송할 수 있다. MPD 파일은 VR 영상 수신 장치(100)가 이용 가능한 컨텐츠, 제공하는 alternative bit rates, URL 주소 값 등의 정보를 포함하는 Manifest. 파일에 대응될 수 있다.
예를 들어 URL 주소 값은 각 변수들의 조합된 템플릿 형태로 구성되어 있으며 그 구조는 하기와 같으며, 해당 설명은 [표 1]과 같다.
[제1 URL 주소값]
$BASE_URL$/$INDEX_NUM$/$DST_ID$_$PERIOD_ID$_dash_track$TRACK_NUM$_init.mp4
[제2 URL 주소값]
$BASE_URL$/$INDEX_NUM$/$DST_ID$_$PERIOD_ID$_dash_track$TRACK_NUM$_$SEGMENT_NUM$.m4s
변수명 | 설명 | 예시 |
$BASE_URL$ | 호스트 명 혹은 IP 주소로 치환 | www.abc.com,192.168.0.1 |
$INDEX_NUM$ | 하나의 영상 set이 위치한 index 값 | [0-n] |
$DST_ID$ | 대상 미디어에 대한 ID 값 | [0-n] |
$PERIOD_ID$ | MPD 내 영상 정보 단위인 period를 나타내는 값. 이 값으로 해당 영상이 HQ인지 LQ인지 혹은 다른 미디어인지 구별 | [0-n] |
$TRACK_NUM$ | 미디어의 트랙 번호. 공간 단위로 나뉜 미디어의 경우 타일의 번호를 의미하며, 나뉘지 않은 미디어인 경우 0으로 고정됨 | [0-n] |
$SEGMENT_NUM$ | 하나의 index 내에서 더 작은 시간 단위로 나눈 단위. segment의 총합이 하나의 index를 이룸 | [1-n] |
스트리밍 서버(3)는 서로 다른 해상도의 분할 영상 조각들을 저장 관리할 수 있다. 또는, 스트리밍 서버(130)는 서로 다른 해상도의 분할 영상 조각들을 트랜스코더로부터 실시간 수신할 수도 있다. 스트리밍 서버(200)는 VR 영상 수신 장치(100) 요청에 대응하여 저장된 서로 다른 해상도의 분할 영상 조각들을 VR 영상 수신 장치(100)로 전송할 수 있다. VR 영상 수신 장치(100)는 MPD 파일을 파싱(parsing)하면서, 프로그램 타이밍, media-content availability, media type, 화질, 최소 및 최대 bandwidths, 사용할 수 있는 encoded-alternatives, DRM 등의 정보를 획득할 수 있다. VR 영상 수신 장치(100)는 네트워크 상태 또는 단말의 상태에 맞는 encoding을 선택한 후 HTTP GET Request를 통해서 스트리밍을 수행할 수 있다. 예를 들어, VR 영상 수신 장치(100)는 사용자 입력에 따라 스트리밍 서버(200)와 통신 채널을 형성할 수 있다. VR 영상 수신 장치(100)는 설정된 스케줄링 정보 또는 사용자 입력에 대응하여 스트리밍 서버(200)로부터 서로 다른 해상도의 분할 영상 조각들을 수신할 수 있다. VR 영상 수신 장치(100)는 수신된 서로 다른 해상도의 분할 영상 조각들을 조합하여 하나의 영상을 생성한다. 이 동작에서, VR 영상 수신 장치(100)는 영상에 대한 ROI(Region of interest) 정보를 획득하고, 획득된 ROI 정보를 스트리밍 서버(200)에 전달할 수 있다. VR 영상 수신 장치(100)는 스트리밍 서버(13)로부터 상대적으로 고해상도의 ROI 영역에 대응하는 분할 영상 조각들을 수신하고, 수신된 분할 영상 조각들을 합성하여 VR 플레이어(300)로 전송할 수 있다.
VR 플레이어(300)는 VR 영상을 출력할 수 있는 장치로써, VR 영상 수신 장치(100)로부터 전송된 영상을 출력한다. VR 플레이어(300)는 스마트폰, 태블릿 PC, 핸드헬드 PC, 데스크톱, 랩톱, HMD(Head mounted display) 장치 등을 포함할 수 있다.
상술한 바와 같이, 본 발명의 스트리밍 시스템(400)은 사용자가 관심을 가지고 있는 또는 현재 영상에서 집중하고 있거나 집중할 영역들의 해상도를 주변 영역보다 고해상도 영상으로 출력하고, 주변 영역은 상대적으로 저해상도 영상을 출력할 수 있다. 이에 따라, 사용자가 관심 있어 하는 부분은 고해상도를 시청하면서도 데이터 전송의 부담을 저감시켜 데이터 전송 및 출력 상태에서의 지연을 최소화할 수 있다.
도 2는 본 발명의 실시예에 따른 VR 영상 수신 장치를 설명하기 위한 블록도이고, 도 3은 도 2의 미디어 캐시를 설명하기 위한 도면이다.
도 1 내지 도 3을 참조하면, VR 영상 수신 장치(100)는 인터페이스부(10) 및 제어부(30)를 포함하고, 저장부(50)를 더 포함할 수 있다.
인터페이스부(10)는 스트리밍 서버(200) 및 VR 플레이어(300)와 통신을 수행한다. 인터페이스부(10)는 스트리밍 서버(200)와의 통신을 수행하는 HTTP 인터페이스 및 VR 플레이어(300)와의 통신을 수행하는 플레이어 인터페이스를 포함할 수 있다.
제어부(30)는 스트리밍 서버(200)로부터 수신된 영상을 관심 영역 및 관심 영역 이외의 영역으로 해상도를 차등 부여하여 연산 부하를 최소화한다. 제어부(30)는 영상 수신부(31) 및 영상 요청 처리부(33)를 포함한다.
영상 수신부(31)는 기 저장된 스트리밍 서버(200)로부터 VR 영상을 수신하기 위해 해당 영상을 제공하는 스트리밍 서버의 호스트 이름 혹은 IP 주소와 서비스 포트 번호와 같은 설정 파일을 이용하여 해당 스트리밍 서버(200)에 MPD 파일을 요청하고, 요청된 MPD 파일을 수신한다. 영상 수신부(31)는 수신된 MPD 파일을 저장부(50)에 저장하고, 파싱한다. 영상 수신부(31)는 MPD 파일을 지정된 규약에 따라 분해하는 파싱을 통해 스트리밍 서버(200)에서 제공하는 영상에 대한 정보들을 획득할 수 있다. 이때 획득된 정보는 각각의 영상을 수신할 수 있는 URL 정보 및 각 미디어 데이터가 가지고 있는 시간, 공간 등에 대한 정보를 포함한다. 여기서 URL 정보는 각 변수들이 조합된 템플릿 형태로 구성된다.
즉 영상 수신부(31)는 템플릿 기반으로 각 영상의 재생 시간에 따라 유효한 URL을 생성하여 스트리밍 서버(200)로 영상을 요청하고, 요청된 영상을 수신하게 된다. 이러한 과정은 영상 재생 시간 순서에 따라 순차적으로 이루어지며 재생이 임의로 중지될 때까지 지속적으로 반복될 수 있다.
영상 요청 처리부(33)는 VR 플레이어(300)로부터 요청받은 영상을 ROI에 따라 기본 저품질 영상 및 특정 영역에 해당하는 고품질 영상이 합성된 VR 영상로 변환한다. 여기서 영상 요청 처리부(33)는 VR 플레이어(300)로부터 수신된 VR 영상을 재생하기 전 또는 재생 중에 현재 주시 중인 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 ROI를 검출하고, 검출된 ROI 정보를 스트리밍 서버(200)에 전송되도록 제어한다.
상세하게는 영상 요청 처리부(33)는 최좌상단 좌표를 기초로 전체 VR 공간 상에서 현재 사용자가 주로 바라보는 ROI에 대한 범위를 산출하고, 산출된 범위 내에 위치한 고품질 영상 부분에 대한 정보를 산출한다. 영상 요청 처리부(33)는 파싱된 정보를 기반으로 현재 획득된 좌표와 VR 플레이어(300)에서 표현할 수 있는 해상도 정보(ROI 영역의 가로 및 세로의 크기)를 통해 전체 영상 내에서 직사각형 형태의 ROI 영역의 위치 및 각 꼭지점의 좌표를 산출하고, 산출된 직사각형 형태의 ROI 영역의 위치 및 각 꼭지점의 좌표를 이용하여 최종적으로 고해상도로 출력될 타일에 대한 ROI를 검출한다. 영상 요청 처리부(33)는 검출된 ROI 정보를 스트리밍 서버(200)로 전송되도록 제어하여 스트리밍 서버(200)로부터 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상이 수신되도록 제어할 수 있다. 여기서 제1 해상도는 고품질의 고해상도를 의미하고, 제2 해상도는 저품질의 저해상도를 의미한다.
영상 요청 처리부(33)는 제2 해상도의 전체 영상과 제1 해상도의 분할 영상 타일들을 합성하여 복합 VR 영상을 생성하고, 생성된 복합 VR 영상을 VR 플레이어(300)에 전송되도록 제어한다.
저장부(50)는 VR 영상 수신 장치(100)가 구동하기 위한 알고리즘을 포함하는 프로그램 또는 어플리케이션이 저장된다. 저장부(50)는 스트리밍 서버(200)로부터 수신된 영상이 저장된다. 이때 저장부(50)는 미디어 캐시(51)를 포함할 수 있으며, 미디어 캐시(51)는 수신된 영상이 모두 저장될 수 있다. 이때 미디어 캐시(51)는 주기적으로 이미 VR 플레이어(300)로 전달한 영상을 삭제할 수 있다. 미디어 캐시(51)는 고품질, 저품질 영상 등이 각 시간대별로 저장되도록 구성된다. 이를 위해 미디어 캐시(51)는 제1 대쉬블럭(61), 제2 대쉬블럭(63) 내지 제n 대쉬블럭(69)을 포함하고, 각 대쉬블럭은 제1 타일셋(71), 제2 타일셋(73), 제3 타일셋(73) 내지 제n 타일셋(79)을 포함하며, 각 타일셋은 고화질 영상과 저화질 영상을 복수의 트랙 형태로 포함할 수 있다. 저장부(50)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.
도 4는 본 발명의 실시예에 따른 관심 영역과 고품질 영상 영역 간의 관계를 설명하기 위한 도면이고, 도 5는 본 발명의 실시예에 따른 타일 선별 과정을 설명하기 위한 도면이다. 도 5(a) 내지 도 5(d)는 타일을 선별하는 과정을 순차적으로 나타낸 도면이다.
도 2, 제4 및 도 5를 참조하면, 영상 요청 처리부(33)는 ROI에 따라 기본 저품질 영상 및 특정 영역에 해당하는 고품질 영상이 합성된 VR 영상로 변환한다.
영상 요청 처리부(33)는 ROI의 각 꼭지점 좌표가 산출된 후, MPD 파일에서 파싱된 정보를 기초로 MPD 파일 중 상대적으로 해상도가 높은 영상 타일을 모두 검색한다. 영상 요청 처리부(33)는 검색된 타일이 꼭지점 좌표로 연결된 가상의 직사각형 형태의 ROI에 포함되는지 판단하여 후보 타일들을 선별한다. 이때 영상 요청 처리부(33)는 후보 타일을 판단하는 기준을 각 타일이 가지는 가로 방향의 모서리와 세로 방향의 모서리에 대한 좌표점이 ROI의 각 가로방향 및 세로방향의 최소값 이상 및 최대값 이하를 만족하는 경우로 설정할 수 있다.
영상 요청 처리부(33)는 후보 타일들이 획득된 후, 가장 적은 데이터양으로 가장 큰 고품질 영상을 제공하기 위해 고품질 타일 영역 선별 과정을 수행한다. 이때 선별에서 사용되는 매개 변수는 VR 플레이어(300)에서 표현될 고품질 영역 타일의 개수 및 전체 VR 영상 중 분할 가능한 고품질 영상의 개수일 수 있다. 영상 요청 처리부(33)는 각 후보 타일들이 ROI 내에 포함되는 넓이를 각각 산출하고, 산출된 넓이를 기초로 내림차순정렬을 하여 ROI 중 가장 중심이 되는 중심 타일들을 산출한다. 영상 요청 처리부(33)는 산출된 중심 타일들을 선별 타일로 지정한다.
한편 VR 플레이어(300)에서 사용할 고품질 타일 배치 구성에서 열의 개수를 n(n은 자연수)인 경우, 중심 타일의 개수(m)는 최소 n-1개가 보장된다. 따라서 열의 개수와 중심 타일의 개수가 일치하지 않는 경우, 영상 요청 처리부(33)는 중심 타일들을 각각 a,b,c라고 할 때, a-1과 c+1의 타일의 ROI 내 크기를 비교하여 선별 타일을 지정한다. 또한 열의 개수와 중심 타일의 개수가 일치하는 경우, 영상 요청 처리부(33)는 옵션에 따라 좌우 중 적어도 하나를 선택하여 선별 타일을 지정한다.
영상 요청 처리부(33)는 중심 타일들을 기준으로 선별 타일이 지정되면 중심 타일들을 기준으로 +n 타일 그룹과 -n 타일 그룹의 영역 넓이를 비교하여 더 넓은 그룹의 타일들을 선별 타일로 지정한다. 영상 요청 처리부(33)는 선별 타일들을 다시 각각의 타일 번호를 기준으로 오름차순 정렬한 ROI 정보를 스트리밍 서버(200)로 전송되도록 제어한다.
도 6은 본 발명의 실시예에 따른 VR 영상 수신 방법을 설명하기 위한 순서도이다.
도 1 및 도 6을 참조하면, VR 영상 수신 방법은 관심 영역 및 관심 영역 이외의 영역으로 해상도를 차등 부여하여 연산 부하를 최소화함으로써, 실시간으로 고품질의 VR 콘텐츠를 수신할 수 있다. 즉 VR 영상 수신 방법은 독립적인 VR 플레이어(300)를 사용하는 경우 또는 클라우드 렌더링을 하는 경우 모두 연산량 및 전송 데이터의 크기를 줄여 비용을 감소하고, 동일한 비용인 경우에도 더 좋은 화질의 영상을 사용자에게 제공할 수 있다.
S110단계에서, VR 영상 수신 장치(100)는 MPD 파일을 스트리밍 서버(200)로 요청한다. VR 영상 수신 장치(100)는 스트리밍 서버(200)와의 통신 채널을 형성하고, 사용자 입력에 따라 또는 사전 스케줄링된 정보에 따라 MPD 파일을 스트리밍 서버(200)에 요청할 수 있다.
S120단계에서, VR 영상 수신 장치(100)는 MPD 파일의 수신여부를 확인한다. MPD 파일이 수신되지 않은 경우, VR 영상 수신 장치(100)는 종료 여부를 확인하고, 종료 요청이 없는 경우 MPD 파일 수신을 대기할 수 있다. MPD 파일을 수신한 경우, VR 영상 수신 장치(100)는 S130단계를 수행한다.
S130단계에서, VR 영상 수신 장치(100)는 MPD 파일을 파싱한다. VR 영상 수신 장치(100)는 MPD 파일을 지정된 규약에 따라 분해하여 스트리밍 서버(200)로부터 제공된 영상에 대한 정보를 획득할 수 있다.
S140단계에서, VR 영상 수신 장치(100)는 파싱된 데이터를 갱신한다. VR 영상 수신 장치(100)는 파싱된 데이터를 미디어 캐시에 저장하여 데이터 갱신을 수행할 수 있다.
S150단계에서, VR 영상 수신 장치(100)는 ROI를 검출한다. VR 영상 수신 장치(100)는 VR 플레이어(300)로부터 수신된 VR 영상을 재생하기 전 또는 재생 중에 현재 주시 중인 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 ROI를 검출한다. 또한 VR 영상 수신 장치(100)는 영상에서 주 객체와 배경 객체를 구분하고, 주 객체를 ROI로 검출할 수 있다.
S160단계에서, VR 영상 수신 장치(100)는 타일 셋(예: ROI에 대응되는 영역의 제1 해상도의 분할 영상 조각들)을 스트리밍 서버(200)로 요청한다. 이를 통해 VR 영상 수신 장치(100)는 스트리밍 서버(200)로부터 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상을 수신할 수 있다.
S170단계에서, VR 영상 수신 장치(100)는 타일 셋의 수신여부를 확인한다. 요청된 타일 셋이 수신되지 않은 경우, VR 영상 수신 장치(100)는 종료 여부를 확인하고, 종료 요청이 없는 경우 타일 셋의 수신을 대기할 수 있다. 요청된 타일 셋이 수신된 경우, VR 영상 수신 장치(100)는 S180 단계를 수행한다.
S180단계에서, VR 영상 수신 장치(100)는 타일 셋을 스티칭 및 디먹싱을 한 후, 해당 영상을 VR 플레이어(300)로 출력한다. VR 영상 수신 장치(100)는 제1 해상도의 분할 영상 조각들의 스티칭 작업을 수행하고, 제2 해상도의 전체 영상과 오디오 정보의 디먹싱을 수행한다. VR 영상 수신 장치(100)는 디먹싱된 영상을 VR 플레이어(300)에서 출력되도록 전송한다.
S190단계에서, VR 영상 수신 장치(100)는 서비스의 종료를 요청하는 이벤트가 발생하는지 확인한다. VR 영상 수신 장치(100)는 시청 종료를 요청하는 사용자 입력이 발생하는지 또는 해당 컨텐츠의 마지막 영상 조각들을 수신하였는지 등을 종료 이벤트로서 수신할 수 있다. 종료 이벤트 발생이 없는 경우, VR 영상 수신 장치(100)는 이전 동작 수행에 따라 S120단계, S170단계 이전 등으로 분기할 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
[부호의 설명]
10: 인터페이스부
30: 제어부
31: 영상 수신부
33: 영상 요청 처리부
50: 저장부
51: 미디어 캐시
100: VR 영상 수신 장치
200: 스트리밍 서버
300: VR 플레이어
Claims (9)
- 스트리밍 서버 및 VR 플레이어와 통신을 수행하는 인터페이스부; 및상기 스트리밍 서버가 제공하는 MPD(Media Presentation Description)와 관련한 영상의 관심 영역(Region Of Interest, ROI)을 검출하고,상기 관심 영역 정보를 상기 스트리밍 서버에 전송되도록 제어하여 상기 스트리밍 서버로부터 상기 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 상기 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상이 수신되도록 제어하며,상기 제2 해상도의 전체 영상과 상기 제1 해상도의 분할 영상 타일들을 합성하여 상기 VR 플레이어에 전송되도록 제어하는 제어부;를 포함하되,상기 제어부는,상기 VR 플레이어로부터 수신된 VR 영상의 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 전체 VR 영상의 공간상에서 관심 영역의 각 꼭지점 좌표를 산출하고, 상기 산출된 꼭지점 좌표를 이용하여 상기 관심 영역 정보를 검출하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 장치.
- 제 1항에 있어서,상기 수신된 MPD 파일을 해상도별, 시간대별로 구분하여 저장하는 저장부;를 더 포함하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 장치.
- 제 1항에 있어서,상기 제어부는,상기 MPD 파일에서 파싱된 정보를 기초로 상기 MPD 파일 중 상대적으로 해상도가 높은 영상 타일을 모두 검색하고, 상기 검색된 타일이 상기 꼭지점 좌표이 연결된 가상의 직사각형 형태의 관심 영역에 포함되는지 판단하여 후보 타일들을 선별하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 장치.
- 제 3항에 있어서,상기 제어부는,각 후보 타일들이 관심 영역 내에 포함되는 넓이를 각각 산출하고, 산출된 넓이를 기초로 내림차순정렬을 하여 관심 영역 중 가장 중심이 되는 중심 타일들을 산출하며, 상기 산출된 중심 타일들을 선별 타일로 지정하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 장치.
- 제 4항에 있어서,상기 제어부는,상기 중심 타일들을 기준으로 +n 타일 그룹(n은 자연수)과 -n 타일 그룹의 영역 넓이를 비교하여 더 넓은 그룹의 타일들을 선별 타일로 지정하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 장치.
- VR 영상 수신 장치가 스트리밍 서버가 제공하는 MPD와 관련한 영상의 관심 영역을 검출하는 단계;상기 VR 영상 수신 장치가 상기 관심 영역 정보를 상기 스트리밍 서버에 전송시켜 상기 스트리밍 서버로부터 상기 관심 영역 정보에 대응하는 제1 해상도의 분할 영상 타일들 및 상기 제1 해상도보다 낮은 해상도인 제2 해상도의 전체 영상을 수신하는 단계; 및상기 제2 해상도의 전체 영상과 상기 제1 해상도의 분할 영상 타일들을 합성하여 상기 VR 플레이어로 전송하는 단계;를 포함하되,상기 관심 영역을 검출하는 단계는,상기 VR 플레이어로부터 수신된 VR 영상의 공간에 대한 2차원 좌표의 최좌상단 좌표를 이용하여 전체 VR 영상의 공간상에서 관심 영역의 각 꼭지점 좌표를 산출하고, 상기 산출된 꼭지점 좌표를 이용하여 상기 관심 영역 정보를 검출하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 방법.
- 제 6항에 있어서,상기 관심 영역을 검출하는 단계는,상기 MPD 파일에서 파싱된 정보를 기초로 상기 MPD 파일 중 상대적으로 해상도가 높은 영상 타일을 모두 검색하고, 상기 검색된 타일이 상기 꼭지점 좌표이 연결된 가상의 직사각형 형태의 관심 영역에 포함되는지 판단하여 후보 타일들을 선별하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 방법.
- 제 7항에 있어서,상기 관심 영역을 검출하는 단계는,각 후보 타일들이 관심 영역 내에 포함되는 넓이를 각각 산출하고, 산출된 넓이를 기초로 내림차순정렬을 하여 관심 영역 중 가장 중심이 되는 중심 타일들을 산출하며, 상기 산출된 중심 타일들을 선별 타일로 지정하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 방법.
- 제 8항에 있어서,상기 관심 영역을 검출하는 단계는,상기 중심 타일들을 기준으로 +n 타일 그룹(n은 자연수)과 -n 타일 그룹의 영역 넓이를 비교하여 더 넓은 그룹의 타일들을 선별 타일로 지정하는 것을 특징으로 하는 관심 영역 기반의 VR 영상 수신 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0039379 | 2019-04-04 | ||
KR1020190039379A KR102251576B1 (ko) | 2019-04-04 | 2019-04-04 | 관심 영역 기반의 vr 영상 수신 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020204253A1 true WO2020204253A1 (ko) | 2020-10-08 |
Family
ID=72666786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/005774 WO2020204253A1 (ko) | 2019-04-04 | 2019-05-14 | 관심 영역 기반의 vr 영상 수신 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102251576B1 (ko) |
WO (1) | WO2020204253A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116761019A (zh) * | 2023-08-24 | 2023-09-15 | 瀚博半导体(上海)有限公司 | 视频处理方法、系统、计算机设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345749B2 (en) * | 2009-08-31 | 2013-01-01 | IAD Gesellschaft für Informatik, Automatisierung und Datenverarbeitung mbH | Method and system for transcoding regions of interests in video surveillance |
KR20160125708A (ko) * | 2015-04-22 | 2016-11-01 | 삼성전자주식회사 | 가상현실 스트리밍 서비스를 위한 영상 데이터를 송수신하는 방법 및 장치 |
KR20180029344A (ko) * | 2016-09-12 | 2018-03-21 | 삼성전자주식회사 | 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치 |
KR20180112708A (ko) * | 2017-04-03 | 2018-10-12 | 한국전자통신연구원 | 고화질 360도 vr 영상 처리 장치 및 방법 |
US20180310010A1 (en) * | 2017-04-20 | 2018-10-25 | Nokia Technologies Oy | Method and apparatus for delivery of streamed panoramic images |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101945082B1 (ko) * | 2016-07-05 | 2019-02-01 | 안규태 | 미디어 컨텐츠 송신 방법, 미디어 컨텐츠 송신 장치, 미디어 컨텐츠 수신 방법, 및 미디어 컨텐츠 수신 장치 |
-
2019
- 2019-04-04 KR KR1020190039379A patent/KR102251576B1/ko active IP Right Grant
- 2019-05-14 WO PCT/KR2019/005774 patent/WO2020204253A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345749B2 (en) * | 2009-08-31 | 2013-01-01 | IAD Gesellschaft für Informatik, Automatisierung und Datenverarbeitung mbH | Method and system for transcoding regions of interests in video surveillance |
KR20160125708A (ko) * | 2015-04-22 | 2016-11-01 | 삼성전자주식회사 | 가상현실 스트리밍 서비스를 위한 영상 데이터를 송수신하는 방법 및 장치 |
KR20180029344A (ko) * | 2016-09-12 | 2018-03-21 | 삼성전자주식회사 | 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치 |
KR20180112708A (ko) * | 2017-04-03 | 2018-10-12 | 한국전자통신연구원 | 고화질 360도 vr 영상 처리 장치 및 방법 |
US20180310010A1 (en) * | 2017-04-20 | 2018-10-25 | Nokia Technologies Oy | Method and apparatus for delivery of streamed panoramic images |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116761019A (zh) * | 2023-08-24 | 2023-09-15 | 瀚博半导体(上海)有限公司 | 视频处理方法、系统、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102251576B1 (ko) | 2021-05-14 |
KR20200118282A (ko) | 2020-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11032588B2 (en) | Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback | |
US20240214540A1 (en) | Method for transmitting panoramic videos, terminal and server | |
CN109417624B (zh) | 用于提供和显示内容的装置和方法 | |
CN101588488B (zh) | 多机位流媒体播放方法及系统 | |
EP3782368A1 (en) | Processing video patches for three-dimensional content | |
KR101668858B1 (ko) | 다채널 비디오 스트림 전송 방법, 그리고 이를 이용한 관제 시스템 | |
US11076162B2 (en) | Method and network equipment for encoding an immersive video spatially tiled with a set of tiles | |
WO2018186646A1 (ko) | 고화질 360도 vr 영상 처리 장치 및 방법 | |
WO2012157886A2 (en) | Apparatus and method for converting 2d content into 3d content, and computer-readable storage medium thereof | |
Chen et al. | Live360: Viewport-aware transmission optimization in live 360-degree video streaming | |
KR20150029461A (ko) | 파노라마 영상의 스트리밍 서비스 제공 시스템에서 타일링 영상 동기화 방법 | |
CN110741648A (zh) | 用于多频道画像的传输系统及其控制方法、多频道画像的播放方法及其装置 | |
US20190166391A1 (en) | Method of providing streaming service based on image segmentation and electronic device supporting the same | |
US9596435B2 (en) | Distribution control apparatus, distribution control method, and computer program product | |
CN111432223A (zh) | 一种实现多视角视频传输和播放的方法、终端及系统 | |
CN114816308B (zh) | 信息分区显示方法及相关设备 | |
KR102118334B1 (ko) | 분할 영상 기반의 vr 컨텐츠 라이브 스트리밍 서비스를 지원하는 전자 장치 | |
WO2020116740A1 (ko) | 실시간 방송 편집 시스템 및 편집 방법 | |
WO2020204253A1 (ko) | 관심 영역 기반의 vr 영상 수신 장치 및 방법 | |
JP2017123503A (ja) | 映像配信装置、映像配信方法及びコンピュータプログラム | |
JP2024504513A (ja) | 組み合わせて伝送される複数のストリーミングメディアから特定のストリーミングメディアを抽出し再生するシステムとその方法 | |
EP3528500B1 (en) | Method and apparatus for allocating differential bandwidth for each screen region by using image complexity information | |
WO2011093629A2 (ko) | 미디어 스트리밍을 이용한 리치미디어 서비스 방법 및 시스템 | |
JP7216588B2 (ja) | 動画ストリームを配信する配信サーバ、受信端末及びプログラム | |
WO2020096119A1 (ko) | 분할 영상 다중 채널 재생을 하는 전자장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19922551 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19922551 Country of ref document: EP Kind code of ref document: A1 |