WO2020022687A1 - 영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치 - Google Patents

영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치 Download PDF

Info

Publication number
WO2020022687A1
WO2020022687A1 PCT/KR2019/008759 KR2019008759W WO2020022687A1 WO 2020022687 A1 WO2020022687 A1 WO 2020022687A1 KR 2019008759 W KR2019008759 W KR 2019008759W WO 2020022687 A1 WO2020022687 A1 WO 2020022687A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
packing
picture
images
projected
Prior art date
Application number
PCT/KR2019/008759
Other languages
English (en)
French (fr)
Inventor
황성희
이학주
정경훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2020022687A1 publication Critical patent/WO2020022687A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2385Channel allocation; Bandwidth allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols

Definitions

  • a method and apparatus for efficiently transmitting a plurality of images also relates to a method and an apparatus for receiving a plurality of images transmitted efficiently.
  • the autonomous driving system may automatically control the car based on images acquired by the car equipped with a plurality of cameras.
  • the vehicle may be used as information for safe driving by receiving images acquired from other vehicles in the vicinity.
  • the disclosed embodiments are to enable the efficient transmission and reception of a plurality of images using limited resources.
  • an image transmitting method includes: receiving a plurality of input images, generating a packed image by combining the plurality of input images based on a packing structure, the The method may include generating a bitstream including packing structure information and the packing image, and transmitting an IP stream including the bitstream.
  • the image transmission device receives a plurality of images, generates a packing image by combining the plurality of images based on a packing structure, the packing structure information and the packing image It may include a processor for generating a bitstream including a, and a transmitter for transmitting an IP stream including the bitstream.
  • an image receiving method includes receiving a bitstream, extracting packing structure information and an encoded packing image from the bitstream, and packing by decoding the encoded packing image.
  • the method may include obtaining an image, obtaining a plurality of output images from the packing image based on the packing structure information, and outputting the plurality of output images.
  • an image receiving apparatus includes: a receiving unit receiving an IP stream including a bitstream, and receiving the IP stream from the receiving unit, and receiving the IP stream from the bitstream included in the IP stream. And extracting packing structure information and an encoded packing image, obtaining a packing image by decoding the encoded packing image, and obtaining a plurality of output images from the packing image based on the packing structure information. It may include an output unit for outputting the output images.
  • it may include a storage medium for storing computer program code for performing the above-described image transmission method or image receiving method.
  • the video communication system may maximize the amount of information received by the user by packing and transmitting and receiving the input images in one packing image regardless of the number of the input images.
  • the video communication system may display images by reflecting the time difference between the images, thereby delivering more realistic images to the user.
  • FIG. 1 is a diagram illustrating a remotely controlled autonomous driving system according to an embodiment.
  • FIG. 2 is a diagram illustrating a video communication system according to an exemplary embodiment.
  • FIG. 3 illustrates a process of negotiating an image transmission condition by a video communication system according to an exemplary embodiment.
  • FIG. 4 illustrates a structure of an image transmission apparatus according to an embodiment.
  • FIG. 5 illustrates a structure of a packing part according to an embodiment.
  • 6 and 7 illustrate offset information transmitted together with a packing image, according to an exemplary embodiment.
  • FIG. 8 through 11 illustrate examples of packing structure information delivered with a packing image, according to an exemplary embodiment.
  • FIG. 12 illustrates a structure of an encoder according to an embodiment.
  • FIG. 13 illustrates an example of a protocol stack of a video communication system according to an embodiment.
  • FIG. 14 illustrates an example of an overall protocol structure of a video communication system according to an embodiment.
  • FIG. 15 illustrates a structure of an image receiving apparatus according to an embodiment.
  • 16 illustrates a structure of a decoder according to an embodiment.
  • FIG. 17 illustrates a structure of a depacking unit according to an embodiment.
  • 18A and 18B are diagrams for describing a plurality of output images output by applying offset information, according to an exemplary embodiment.
  • 19 is a flowchart illustrating an image transmission method, according to an exemplary embodiment.
  • 20 is a flowchart illustrating a method of receiving an image according to an exemplary embodiment.
  • an image transmitting method includes: receiving a plurality of input images, generating a packed image by combining the plurality of input images based on a packing structure, the The method may include generating a bitstream including packing structure information and the packing image, and transmitting an IP stream including the bitstream.
  • an image receiving method includes receiving a bitstream, extracting packing structure information and an encoded packing image from the bitstream, and packing by decoding the encoded packing image.
  • the method may include obtaining an image, obtaining a plurality of output images from the packing image based on the packing structure information, and outputting the plurality of output images.
  • Some embodiments of the present disclosure may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented in various numbers of hardware and / or software configurations that perform particular functions.
  • the functional blocks of the present disclosure may be implemented by one or more microprocessors or by circuit configurations for a given function.
  • the functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • the functional blocks may be implemented in algorithms running on one or more processors.
  • the present disclosure may employ the prior art for electronic configuration, signal processing, and / or data processing.
  • connecting lines or connecting members between the components shown in the drawings are merely illustrative of functional connections and / or physical or circuit connections. In an actual device, the connections between components may be represented by various functional connections, physical connections, or circuit connections that are replaceable or added.
  • image may include all still images, moving images, video frames, and / or video streams captured and transmitted by a camera or a sensor.
  • image refers to various forms of video image information that may be known in the related field, such as “picture”, “frame”, “field” or “slice” as well as the term “image” itself. It is used as a generic term to describe them.
  • image may mean one of a plurality of pictures or a plurality of frames constituting a video stream, or may mean an entire video stream including a plurality of pictures or a plurality of frames.
  • the term “projected image” may mean each of a plurality of images constituting a “packed image”.
  • the projected image may be a partial image of the packing image generated by projecting the input image onto the packing image.
  • the "projected video” may also be described as “sub video” or "partial video”.
  • FIG. 1 is a diagram illustrating a remotely controlled autonomous driving system according to an embodiment.
  • the autonomous driving system may collect, process, process, store or transmit information or commands related to autonomous driving of the host vehicle, or control autonomous driving.
  • the host vehicle may mean a vehicle that supports the autonomous driving system and is controlled by the autonomous driving system.
  • the autonomous driving system may be mounted on the host vehicle, but may remotely control the host vehicle from outside the host vehicle.
  • the autonomous driving system may detect the surrounding situation and control the host vehicle by using information collected from a plurality of cameras mounted on the host vehicle. Alternatively, the information collected by the host vehicle is transmitted to the autonomous driving system of the other vehicle, thereby enabling safe autonomous driving of the other vehicle.
  • the autonomous driving system it may be required to stop autonomous driving and to be controlled by a person remotely in case of an emergency.
  • images 30 of surrounding conditions of the host vehicle 10 need to be transmitted to the user 20. .
  • images of all directions around the host vehicle 10 should be transmitted without delay.
  • the present disclosure is applicable not only to the autonomous driving field shown in FIG. 1 but also to various fields for efficiently transmitting a plurality of images.
  • FIG. 2 is a diagram illustrating a video communication system according to an exemplary embodiment.
  • the video communication system may include an image transmitting device 400 and an image receiving device 1500.
  • the image transmitting apparatus 400 and the image receiving apparatus 1500 may be connected through a network and may transmit and receive images and signals.
  • the apparatus is classified into a transmission apparatus for transmitting an image and a reception apparatus for receiving the transmitted image.
  • both the image transmission apparatus 400 and the image receiving apparatus 1500 are user terminals (UE). It may mean an electronic device.
  • the user terminal may be a personal computer, a cellular phone, a smart phone, a TV, a tablet, a notebook, a PDA (Personal Digital Assistants), a PMP (Portable Multimedia Player), navigation, an MP3 player, a digital camera, or a black box.
  • a device in a vehicle a module in a device mounted in a vehicle, or the vehicle itself.
  • it is not limited to the above examples, and may include various electronic devices.
  • the image communication system may include an electronic device included in a vehicle equipped with a plurality of cameras as the image transmission device 400, and display a remote control device for remotely controlling the vehicle. It may be included as the receiving device 1500.
  • the surrounding images of the vehicle captured by the plurality of cameras mounted on the vehicle are transmitted through a network and displayed on the display of the remote control device, thereby being used for remote control of the vehicle.
  • the image transmitting apparatus 400 and the image receiving apparatus 1500 may be connected by using various communication methods.
  • 4G Long Term Evolution (LTE)
  • 5G or, New Radio (NR)
  • Wifi may be connected using various communication schemes.
  • the video transmitting apparatus 400 and the video receiving apparatus 1500 may be connected to an LTE base station eNodeB, and the eNodeB is an EPC (Evolved) which is a core network of the LTE communication system. Packet Core) can be connected.
  • EPC Evolved
  • Packet Core Packet Core
  • the video communication system may be connected to a next generation base station gNodeB, and the gNodeB may be connected to a 5G Core (5 Generation Core), which is a core network of the NR communication system.
  • 5G Core 5 Generation Core
  • the image transmitting apparatus 400 and the image receiving apparatus 1500 may be connected through a radio access network (RAN), and a data network (eg, a data server, the Internet, etc.) through the radio access network. Can be accessed.
  • RAN radio access network
  • data network eg, a data server, the Internet, etc.
  • the image transmission apparatus 400 may obtain a plurality of pictures from a plurality of picture sources and process the pictures acquired by the processor 410.
  • the plurality of picture sources may mean a plurality of cameras.
  • the image transmission apparatus 400 may include a picture source unit and acquire or generate a plurality of pictures in the picture source unit.
  • the meaning of "picture” herein is not limited to one frame constituting the video stream, but may include a video stream composed of consecutive frames.
  • a picture source may be used to capture various sensors (e.g., radar sensors, lidar sensors, etc.) mounted on a vehicle, and a vehicle that captures information around the vehicle. It may include a mounted camera, other surrounding vehicles, other electronic devices connected through a network, a server, and the like.
  • sensors e.g., radar sensors, lidar sensors, etc.
  • the picture source is a camera
  • the embodiment is not limited to the case where the picture source is a camera, and the following description may be applied to the case of receiving pictures from various picture sources.
  • the image transmission apparatus 400 may generate one packed picture from a plurality of pictures and generate information related to a packing structure.
  • the image transmission apparatus 400 may generate an encoded packing picture by compressing the packing picture using a video codec, and may output an IP stream including the encoded packing picture and packing structure information.
  • the packing structure information may be included in description metadata describing the packing picture.
  • the transmitter 430 of the image transmitting apparatus 400 may transmit the IP stream including the encoded packing picture and the packing structure information to the image receiving apparatus 1500 through a network.
  • the transmitter 430 may be a RAN transmitter that transmits an IP stream through the RAN.
  • the image transmission device 400 may negotiate and determine a video parameter (eg, codec, data rate, resolution, packing structure, etc.) necessary for transmitting the packing picture with the receiving system, and transmit the packing picture according to the negotiation result.
  • a video parameter eg, codec, data rate, resolution, packing structure, etc.
  • FIG. 1 an image receiving apparatus 1500 is illustrated as an example of a receiving system.
  • the image receiving apparatus 1500 may include a receiver 1510 that outputs an IP stream by processing data received through a network.
  • the receiver 1510 may be a RAN receiver that outputs an IP stream received through the RAN.
  • the processor 1530 of the image receiving apparatus 1500 may process an IP stream received from the receiver 1510 and output a plurality of pictures.
  • the image receiving apparatus 1500 may decode the encoded packing picture included in the IP stream to obtain the decoded packing picture, and the decoded packing picture may be decoded using the packing structure information included in the IP stream.
  • a plurality of pictures may be output by performing depacking.
  • the image receiving apparatus 1500 may include at least one display unit that displays a plurality of pictures.
  • the image receiving apparatus 1500 negotiates and determines a video parameter (eg, codec, data rate, resolution, packing structure, etc.) necessary for receiving the packing picture, and receives the packing picture according to the negotiation result.
  • a video parameter eg, codec, data rate, resolution, packing structure, etc.
  • an image transmission device 400 is shown as an example of a transmission system.
  • the image transmission apparatus 400 may determine information on a video parameter of a packing picture to be transmitted through negotiation with the image receiving apparatus 1500 and control transmission of the packing picture based on this. . After the negotiation, if the update of the video parameter is required while transmitting the packing picture (for example, the data structure is changed, the packing structure is changed, etc.), the image transmission apparatus 400, through a new negotiation, The relevant information may be updated, and transmission of the packing picture may be controlled according to the updated information.
  • the video communication system may transmit and receive a packing picture through a user plane and transmit or process control data such as a Session Description Protocol (SDP) through a control plane.
  • the user plane may refer to a configuration that delivers and processes user data (eg, packets, flows, traffic, etc.) in a network.
  • the control plane may mean a configuration for transmitting and processing control data.
  • Negotiation between the image transmission apparatus 400 and the image reception apparatus 1500 may be performed through a control plane such as an SDP or a control channel such as a Real-time Transport Protocol Control Protocol (RTCP) in the user plane.
  • RTCP Real-time Transport Protocol Control Protocol
  • FIG. 3 illustrates a process of negotiating an image transmission condition by a video communication system according to an exemplary embodiment.
  • the image receiving apparatus 1500 may, for example, describe information such as a type, a bit rate, an image size, etc. of an image compressor in a Session Description Protocol (SDP) offer, and describe the SDP offer in a Session Initiation Protocol (SIP).
  • SDP Session Description Protocol
  • SIP Session Initiation Protocol
  • the terminal may start negotiation with each other by transmitting the message to the image transmission apparatus 400.
  • the SDP offer may include information about video parameters required for transmission of a packing picture.
  • a SIP message including an SDP offer may be delivered to a counterpart terminal through an IP Multimedia Subsystem (IMS) in a network in which quality of LTE, 5G, or the like is guaranteed.
  • IMS IP Multimedia Subsystem
  • the image transmission apparatus 400 receives an SDP offer, prepares an SDP answer by reviewing image processing capability, service policy, bit rate, and image size of the on-board image compressors, and generates an image reception apparatus ( 1500 may be transmitted (S320).
  • the SDP answer may include information about video parameters required for transmission of the packing picture.
  • the image receiving apparatus 1500 receiving the SDP answer receives the SDP answer
  • the image is compressed and the image compressed by the image transmitting apparatus 400 is transferred from the image transmitting apparatus 400 to the image receiving apparatus 1500.
  • the vehicle may perform mutual negotiation with the remote control system and transmit the packed image to the remote control system based on the negotiation result.
  • the remote control system may transmit a control signal for controlling the vehicle based on the packing image received from the vehicle.
  • the image receiving apparatus 1500 may perform negotiation again by transmitting a SIP UPDATE message to the image transmitting apparatus 400. There is (S330).
  • the image transmission apparatus 400 receives an SDP UPDATE message, prepares a second SDP answer by reviewing image processing capability, service policy, bit rate, and image size of the on-board image compressors, and receives an image.
  • the device may transmit the data to the device 1500.
  • the Ack message may be transmitted to the image transmitting apparatus 400 (S350).
  • the image compressed by the image transmitting apparatus 400 may be transferred from the image transmitting apparatus 400 to the image receiving apparatus 1500 (S360).
  • the embodiment is not limited to that shown in FIG. 3, and the transmission condition negotiation may be started by the image transmitting apparatus 400 first transmitting the SDP offer to the image receiving apparatus 1500.
  • the image communication system may pack and transmit and receive the input images in one packing image regardless of the number of input images, thereby maximizing the amount of information received by the user.
  • one video encoder In order to transmit a plurality of input images without packing, one video encoder must sequentially compress and transmit the input images, or a plurality of encoders must simultaneously compress and transmit the input images. Therefore, when the image transmission apparatus transmits a plurality of input images without packing, a transmission time delay occurs or the complexity of the transceiver is complicated by the number of input images.
  • the video communication system has an advantage that the complexity of the transceiver can be simply implemented without a transmission time delay, regardless of the number of the plurality of input images.
  • the video communication system may display images by reflecting the difference in capture time between the images, thereby delivering more realistic images to the user.
  • the operation of the video transmission apparatus included in the video communication system according to the disclosed embodiment will be described in detail.
  • FIG. 4 illustrates a structure of an image transmission apparatus according to an embodiment.
  • the image transmission apparatus 400 may include a processor 410 and a transmitter 430 that acquire a plurality of input images and output an IP stream.
  • the processor 410 may control the overall operation of the image transmission device 400.
  • the processor 410 may control the transmitter 430.
  • the image transmission device 400 includes one processor 410, but the embodiment is not limited thereto, and the image transmission device 400 may include a plurality of processors 410.
  • the processor 410 may negotiate an image transmission condition with a processor of the image receiving apparatus 1500.
  • the processor 410 may generate a packing image by acquiring a plurality of input images from the plurality of picture sources and combining the plurality of input images based on the packing structure.
  • the processor 410 may generate a plurality of input images from data received from the outside or data stored therein.
  • the image transmission apparatus 400 may include a picture source and generate a plurality of input images.
  • the image transmission device 400 may receive an image captured by a camera mounted on a vehicle and transmit it to the processor 410.
  • the processor 410 may generate a bitstream including packing structure information and a packing image. As shown in FIG. 4, the processor 410 according to an embodiment may include a packing unit 411 and an encoding unit 413.
  • the packing unit 411 and the encoder 413 illustrated in FIG. 4 may be hardware configurations or functional blocks implemented by the processor 410. Therefore, operations of the packing unit 411 and the encoding unit 413 described below may be performed by the processor 410.
  • the packing unit 411 may obtain a plurality of input images and generate a packing image by combining the plurality of input images based on the packing structure. 4 illustrates an example of receiving N input images.
  • the packing unit 411 generates or outputs a plurality of projected images by adjusting or rotating a size of at least one of the plurality of input images based on the packing structure. By combining, a packing image can be generated.
  • the packing unit 411 may generate a packing image by combining a plurality of projected images based on the packing structure.
  • the packing unit 411 may generate the packing image by disposing each projected image at a position in the packing image determined based on the packing structure.
  • the packing unit 411 may generate packing structure information.
  • the packing structure information may include at least one of information on an apparatus for photographing a plurality of input images, information indicating characteristics of a packing image, and information indicating characteristics of a projected image constituting the packing image. Can be.
  • the information representing the characteristics of the projected image constituting the packing image according to an embodiment may include information on the size of one projected image among the plurality of projected images constituting the packing image, and the projected image in the packing image. This information may include at least one of information about the location, and information about whether the projected image is the rotated image of the input image.
  • the packing unit 411 may determine a packing structure based on state information of a device photographing a plurality of input images. For example, if the image transmission device 400 of FIG. 4 is an electronic device mounted in a vehicle and supports remote control, the packing structure may be such that the resolution of the image corresponding to the moving direction of the vehicle is higher than that of other images. Can be determined. Regarding the specific method of determining the packing structure, it will be described in detail later with reference to FIG.
  • the packing unit 411 may generate, as packing structure information, offset information indicating a difference between times at which a plurality of input images are captured.
  • the packing structure information may offset the difference between the time when the first input image is captured and the time when the second input image is captured. It can be included as information. Regarding the offset information, it will be described in detail later with reference to FIGS. 6 and 7.
  • the packing unit 411 may generate a packing image and packing structure information, and output the packing image and the packing structure information to the encoder 413.
  • the encoder 413 may encode the packing image.
  • the encoder 413 may generate a bitstream including the packing structure information and the encoded packing image.
  • the encoder 413 may generate an SEI message including packing structure information, and generate a bitstream including NAL UNITS including an encoded packing image and an SEI message.
  • the encoder 413 may generate and output an IP stream including the bitstream.
  • the transmitter 430 may transmit an IP stream including a bitstream.
  • the transmitter 430 may transmit the IP stream to the image receiving apparatus 1500.
  • the transmitter 430 may support various communication schemes.
  • the transmitter 430 may support various communication schemes such as 4G (or Long Term Evolution (LTE), 5G (or NR, New Radio), and Wifi.
  • LTE Long Term Evolution
  • 5G or NR, New Radio
  • Wifi Wifi
  • FIG. 5 illustrates a structure of a packing part according to an embodiment.
  • the packing unit 411 may receive a plurality of input images from a plurality of cameras, and generate and output a packing image and packing structure information.
  • the packing unit 411 may include a projected image generator 510, a packing image generator 530, and a packing structure information generator 550.
  • the projected image generator 510 may generate and output projected images from input images based on packing structure information.
  • the projected image generator 510 may generate a plurality of projected images by adjusting or rotating the size of each input image based on the packing structure.
  • the packing image generator 530 may generate and output a packing image by combining the projected images based on the packing structure information.
  • the packing structure information generator 550 may generate information about a packing structure including a video parameter of a packing image.
  • the projected image generator 510 may transmit a capture time of each input image to the packing structure information generator 550.
  • the packing structure information generation unit 550 through negotiation with the packing image generation unit 530, packs the information about the capture time offset of each projected image included in the packing image based on the capture time of each input image. Can be generated as information.
  • nal_unit_type Name of nal_unit_type Content of NAL unit and RBSP syntax structure NAL unit type class ... ... ... ... 3940 PREFIX_SEI_NUTSUFFIX_SEI_NUT Supplemental enhancement informationsei_rbsp () non-VCL
  • Table 1 shows NAL unit type codes and NAL unit type classes.
  • the image transmission apparatus 400 may generate an SEI message including packing structure information, and generate a bitstream including NAL units including an encoded packing image and a supplemental enhancement information (SEI) message.
  • SEI supplemental enhancement information
  • the packing structure information may be included in a non-VCL NAL unit of a type defined as 39 or 40 in the HEVC standard.
  • NAL may mean a Network Abstraction Layer
  • NUT may mean a NAL Unit Type.
  • RBSP means Raw Byte Sequence Payload and means syntax that is byte aligned and encapsulated in NAL unit.
  • VCL stands for Video Coding Layer.
  • Table 2 shows the syntax of general SEI messages.
  • the image receiving apparatus 1500 may read packing structure information mv2x_packing_structure_info (payloadSize) when nal_unit_type is PREFIX_SEI_NUT or SUFFIX_SEI_NUT.
  • Table 3 shows a syntax structure mV2X Packing Structure Info SEI message syntax of an SEI message including packing structure information.
  • u (n) (n is an integer) is a function that reads n bits from the bitstream and interprets the first bit of the read bit string as MSB without sign.
  • vehicle_position_latitude (32 bits) is a field indicating the geographical latitude of the vehicle when a packing picture associated with the vehicle is generated.
  • Latitude is a 32-bit value expressed in 1/10 th integer microdegrees and used and provides a positive minus 90 degree range (ie, -900000000 to 900000001) relative to the horizontal datum in use. The value 900000001 should be used when it is not available.
  • the MSB in this field must indicate the sign of the number, setting MSB to zero is for positive (i.e. plus value) or positive zero, and setting MSB to 1 is for negative or negative zero.
  • vehicle_position_longitude (32 bits) is a field indicating the geographical longitude of the vehicle when a packing picture associated with the vehicle is generated.
  • Longitude is a 32-bit value expressed in 1/10 th integer microdegrees and used to provide a plus or minus 180 degree range (ie, -1799999999 to 1800000001) based on the horizontal datum in use. The value 1800000001 should be used when it is not available.
  • the MSB in this field must indicate the sign of the number, setting MSB to zero is for positive (i.e. plus value) or positive zero, and setting MSB to 1 is for negative or negative zero.
  • vehicle_position_elevation (16 bits) is a field indicating the geographical position of the vehicle above or below the reference ellipsoid (generally, WSG-84) when a packing picture associated with the vehicle is generated.
  • the 16-bit number has a resolution of 1 decimeter and represents an asymmetric range of positive and negative values. This field may be encoded as follows.
  • the range 0x0000 to 0xEFFF are positive numbers representing an altitude from 0 to +6143.9 meters (ie above the reference ellipsoid). Ranges from 0xF001 to 0xFFFF are negative numbers representing altitudes from -409.5 meters to -0.1 meters (ie below the reference ellipsoid). Altitudes higher than +6143.9 meters are indicated as 0xEFFF. Altitudes below -409.5 meters are indicated by 0xF001. If the transmitting device does not know the altitude of the transmitting device, the altitude data element should be coded 0xF000.
  • 0 meters of altitude is coded 0x0000 and -0.1 meters of altitude is coded 0xFFFF.
  • Altitude +100.0 meters is encoded as 0x03E8.
  • vehicle_transmission_state (3 bits) is a field used to provide a state of the vehicle transmission when a packing picture associated with the vehicle is generated.
  • the semantics of the 3-bit value representing the vehicle transmission status are shown in Table 4 below.
  • number_of_pictures (5 bits) is a field indicating the number of projected pictures in the packing picture associated with this field.
  • packed_picture_capture_time_base (32 bits) is a field indicating a base time to provide a time difference of each picture in a packing picture based on a base time when a packing picture associated with this field is generated. This value is the unit of clock running at packed_picture_time_scale Hz.
  • packed_picture_width (16 bits) is a field indicating the luma width of the packed picture associated with this field. The value must be greater than zero.
  • packed_picture_height (16 bits) is a field that indicates the luma height of the packed picture associated with this field. The value must be greater than zero.
  • packed_picture_num_units_in_tick 32-bit is the number of time units of a clock operating at a frequency packed_picture_time_scale Hz corresponding to one increment of the clock tick counter (called a clock tick). at the frequency packed_picture_time_scale Hz). The value must be greater than zero.
  • the clock tick in seconds is equal to the quotient of packed_picture_num_units_in_tick divided by packed_picture_time_scale. For example, when the packing picture rate of the video signal is 25 Hz, packed_picture_time_scale may be 27 000 000, packed_picture_num_units_in_tick may be equal to 1 080 000, and thus the clock tick may be 0.04 seconds.
  • packed_picture_time_scale (32 bits) is a field indicating the number of time units to pass in 1 second. For example, a time coordinate system that measures time using a 27 MHz clock has a packed_picture_time_scale of 27 000 000. The value of packed_picture_time_scale must be greater than zero.
  • guard_band_flag (1 bit) is a field indicating whether the packing picture associated with this field applies a guard band.
  • camera_location_virtual_id (i) (5 bits) provides the camera location in the vehicle for the projected picture i as a virtual ID.
  • the virtual ID is mapped to the actual location of the camera in the vehicle. Mapping information between the actual position of the camera and the virtual ID may be provided through a separate channel such as a control plane.
  • picture_capture_time_offset (i) (32-bit) is a field indicating the time difference (ie tick difference) between picture_capture_time_base and the capture time of the projected picture (i) associated with this field in clock units operating at the frequency packed_picture_time_scale Hz.
  • FIG. 6 shows an example of timing of generating a packing picture from a plurality of pictures based on the picture capture time of each picture.
  • a plurality of pictures obtained from a plurality of picture sources may have a different picture capture time and a frame rate of the picture.
  • the frame rate of Picture 1 (611, 612, 613, 614, 615, 616) is 60 frames per second, and the frame rate of Picture 2 (621, 622, 623) per second. 30 frames, and the frame rate of the picture 3 (631, 632, 633, 634, 635, 636) is 60 frames per second.
  • the packing unit 411 may generate the packing pictures 651, 652, 653, 654, 655, and 656 having 60 frames per second.
  • the number of projected pictures included in the packed picture may vary.
  • the odd-numbered packing pictures 651, 653, and 655 include three projected pictures
  • the even-numbered packing pictures 652, 654, and 656 include two projected pictures.
  • the projected picture included in the packing picture may be generated by reducing or enlarging or rotating the size of at least one picture included in the picture 1, the picture 2, and the picture 3.
  • the image transmission apparatus 400 may transmit the number of projected pictures included in the corresponding packing picture as packing structure information related to the transmitted packing image.
  • the number_of_pictures field of Table 3 may be used.
  • the capture time of the plurality of pictures obtained from the plurality of picture sources may be different.
  • the capture time is a time at which a picture source acquires a picture (for example, a time at which a camera captures a picture), a time at which the image transmission device 400 receives a picture from the picture source, or a packing unit according to an embodiment ( It may be time 411 obtains the picture to generate the packing picture.
  • the capture times of the picture 1, the picture 2, and the picture 3 are different, and the capture time may not be synchronized. Therefore, when pictures whose synchronization is not synchronized are packed and transmitted in one packing picture, there is a problem in that the time difference between the capture times of each picture is not reflected.
  • the image transmission apparatus 400 may transmit offset information indicating a difference in capture time between projected pictures included in the corresponding packing picture as packing structure information related to the transmitted packing image.
  • the packing unit 411 may generate a difference between a capture time of a packing picture and a capture time of a projected picture included in the packing picture as offset information included in the packing structure information.
  • the capture reference time of the packing picture may be recorded in the packed_picture_capture_time_base, and the difference between the capture reference time and the captured time of the projected picture may be recorded in picture_capture_time_offset.
  • FIG. 6 illustrates a picture in which a packing unit 411 is received within a predetermined time prior to the capture reference time based on the capture reference times Tb1, Tb2, Tb3, Tb4, Tb5, and Tb6 at predetermined time intervals.
  • the packing unit 411 generates the packing picture 651 by packing the pictures 611, 621, and 631 received within a predetermined time from the Tb1 based on the capture reference time Tb1.
  • the packing unit 411 packs the pictures 612 and 632 received within a predetermined time from the Tb2 based on the capture reference time Tb2 to generate the packing picture 652.
  • the packing unit 411 may include an input picture corresponding to the capture reference time Tb of the packing picture and the projected picture 1 721 included in the packing picture 720.
  • the difference Tb-T1 between the capture times T1 of 1 701 can be generated as offset information of the projected picture 1 721.
  • the packing unit 411 may include a capture reference time Tb of the packing picture and a capture time T2 of the input picture 2 702 corresponding to the projected picture 2 722 included in the packing picture 720.
  • the difference Tb-T2 may be generated as offset information of projected picture 2 722.
  • the packing unit 411 is configured between the capture reference time Tb of the packing picture and the capture time T3 of the input picture 3 703 corresponding to the projected picture 3 723 included in the packing picture 720.
  • the difference Tb-T3 may be generated as offset information of the projected picture 3 723.
  • the embodiment is not limited to the example shown in FIGS. 6 and 7.
  • the packing unit 411 may repeatedly generate an packing picture by packing the pictures received within a predetermined time interval, thereby generating the packing picture at predetermined time intervals.
  • the capture reference time may be a start time, an intermediate time, or an end time of a predetermined time interval.
  • the packing unit 411 may wait until at least one picture is received from all picture sources connected to the packing unit 411.
  • the packing unit 411 may generate one packing picture by packing the received pictures.
  • the capture reference time may be a reception time of the first received picture, or a reception time of the latest received picture.
  • the image transmission system itself including the camera may grasp the picture capture time differences between the cameras in advance, and may set the capture reference time by referring to the image transmission time according to the disclosed embodiment.
  • the image transmission apparatus according to the disclosed embodiment knows the picture capturing time of each camera in advance, and when the plurality of images are packed, the reception time of the first received picture among the captured capturing times, or The reception time of the latest received picture may be set as a capture reference time.
  • the image transmission apparatus may generate the packing picture and the packing structure information by setting a capture reference time with reference to the packing picture and the packing.
  • the image transmission apparatus according to the disclosed embodiment may be included in an autonomous driving system supporting remote control, and may grasp the picture capture time of each camera mounted in the vehicle in advance during autonomous driving of the vehicle.
  • the projected_picture_width (i) (16 bits) is a field indicating a luma width of the projected picture (i).
  • projected_picture_height (i) (16 bits) is a field indicating the height (luma height) of the projected picture (i).
  • projected_picture_num_units_in_tick (32 bits) is a field indicating the number of time units of a clock operating at a frequency projected_picture_time_scale (i) Hz corresponding to one increment of the clock tick counter (called a clock tick). . The value must be greater than zero. The clock tick in seconds is equal to the quotient of projected_picture_num_units_in_tick (i) divided by projected_picture_time_scale (i).
  • projected_picture_time_scale (i) may be 27 000 000
  • projected_picture_num_units_in_tick (i) may be equal to 1 080 000
  • the clock tick may be 0.04 seconds.
  • projected_picture_time_scale (i) (32 bits) is a field indicating the number of time units that pass in one second. For example, a time coordinate system that measures time using a 27 MHz clock has a projected_picture_time_scale (i) of 27 000 000. The value of projected_picture_time_scale (i) must be greater than zero.
  • projected_picture_location_top (i) (16 bits) is a field that provides the vertical coordinates for the position of the projected picture i in the packing picture associated with this field. It indicates the top offset of the projected picture (i) in the packing picture associated with this field.
  • projected_picture_location_left (16 bits) is a field that provides horizontal coordinates for the location of the projected picture i in the packing picture associated with this field. It indicates the left offset of the projected picture (i) in the packing picture associated with this field.
  • the size information of the packing picture and the location information of the projected picture included in the packing structure information according to an embodiment will be described in detail with reference to FIG. 8.
  • the packing unit 411 may include the height 811 and the packing picture 810 of the packing picture 810 as size information of the packing picture 810 included in the packing structure information. At least one value of the width 813 may be determined.
  • the packing unit 411 records the height 811 of the packing picture 810 in the packed_picture_heght field as the size information of the packing picture 810, and packs the width 813 of the packing picture 810 into packed_picture_width. You can write in the field.
  • the packing unit 411 may include the height 821 of the projected picture 820 and the width 823 of the projected picture 820 as size information of the projected picture included in the packing structure information. At least one value of can be determined. According to an embodiment, the packing unit 411 records the height 821 of the projected picture 820 as the size information of the projected picture 820 in the projected_picture_heght field, and the width 823 of the projected picture 820. ) In the projected _picture_width field.
  • the packing unit 411 may include the upper offset 825 of the projected picture 820 and the left offset of the projected picture 820 as position information of the projected picture included in the packing structure information. 827 may determine the value of at least one. According to an embodiment, the packing unit 411 records the top offset 825 of the projected picture 820 as the location information of the projected picture 820 in the projected_picture_location_top field, and the left offset of the projected picture 820. 827 may be recorded in the projected_picture_location_left field.
  • projected_picture_rotation (i) (2 bits) of [Table 3] is a field for providing a rotated state of the projected picture in 90 degree units in the packing picture associated with this field. Setting this value to 0 indicates that the projected picture (i) does not rotate. Setting this value to 1 indicates that the projected picture (i) is rotated 90 degrees (counterclockwise). Setting this value to 2 rotates the projected picture (i) 180 degrees (counterclockwise). Setting this value to 3 indicates that the projected picture i is rotated 270 degrees (counterclockwise).
  • the packing unit 411 may determine a value corresponding to a state in which the projected picture is rotated as rotation information of the projected picture included in the packing structure information.
  • the packing unit 411 may record 0 as rotation information of the projected picture 901 corresponding to the input picture in the projected_picture_rotation field when the input picture is not rotated and projected onto the packing picture. have.
  • the packing unit 411 records 1 in the projected_picture_rotation field as rotation information of the projected picture 903 corresponding to the input picture. can do.
  • the packing unit 411 records 2 as the rotation information of the projected picture 905 corresponding to the input picture in the projected_picture_rotation field. can do.
  • the packing unit 411 records 3 as the rotation information of the projected picture 907 corresponding to the input picture in the projected_picture_rotation field. can do.
  • left_gb_width (i) (8 bits) of [Table 3] is a field specifying the luma width of the left guard band of the projected picture (i) associated with this field.
  • the luma height of the left guard band is equal to the height of the projected picture (i) associated with this field.
  • right_gb_width (i) (8 bits) is a field that specifies the luma width of the right guard band of the projected picture i associated with this field.
  • the luma height of the right guard band is equal to the height of the projected picture (i) associated with this field.
  • top_gb_height (i) (8 bits) is a field that specifies the luma height of the top guard band of the projected picture i associated with this field.
  • the luma width of the upper guard band is equal to the width of the projected picture (i) associated with this field.
  • bottom_gb_height (i) (8 bits) is a field that specifies the luma height of the bottom guard band of the projected picture i associated with this field.
  • the luma width of the lower guard band is equal to the width of the projected picture (i) associated with this field.
  • guard_band_type (2 bits) is a field that specifies the type of guard band applied to the projected picture (i). Setting this value to 0 specifies that the content of the guard band is unspecified. Setting this value to 1 indicates that the boundary samples of the projected picture (i) are copied horizontally or vertically to the guard band. Other values of this field are reserved.
  • the packing unit 411 may output the size information of the guard band surrounding the projected picture 1020 as packing structure information.
  • the packing part 411 may include the width 1031 of the left guard band, the width 1032 of the right guard band, and the height 1033 of the upper guard band as size information of the guard band included in the packing structure information. And at least one value of the height 1044 of the lower guard band may be determined.
  • the packing unit 411 records the width 1031 of the left guard band in the left_gb_width field as the size information of the guard band, the width 1032 of the right guard band in the right_gb_width field, and the upper guard.
  • the height 1033 of the band may be recorded in the top_gb_height field, and the height 1044 of the lower guard band may be recorded in the bottom_gb_height field.
  • the image transmission apparatus 400 may determine a packing structure based on state information of a device photographing a plurality of input images. For example, the driving state of a vehicle equipped with cameras capturing a plurality of input images may be recorded in the vehicle_transmission_state field.
  • the image transmission apparatus 400 of FIG. 4 is an electronic device mounted in a vehicle and transmits images around the vehicle, resolutions of the projected images having different resolutions of the projected images corresponding to the direction in which the vehicle moves.
  • the packing structure may be determined to be included in the packing image higher than.
  • the resolution of the projected image representing the situation in front of the vehicle is increased, and the resolution of the projected image representing the situation in the rear of the vehicle when driving backwards, thereby driving safely during remote control. Can be planned.
  • the image transmission apparatus 400 may not only adjust the resolution of the projected image, but also generate and project the projected image in which the input image is rotated in order to make the most of the space of the packed image. have.
  • Resolution and rotation information of the projected image included in the packing image may be included in the packing structure information and transmitted.
  • the plurality of input pictures may include a first input picture and a second input picture.
  • the first input picture may be a picture received from a camera mounted in front of an apparatus for photographing a plurality of input pictures (for example, a vehicle equipped with a plurality of cameras).
  • the second input picture may be a picture received from a camera mounted behind the apparatus for capturing the plurality of input pictures.
  • the image transmission device 400 may determine the packing structure such that the first input picture is included in the packing picture to be larger than the second input picture. .
  • the image transmission apparatus 400 may determine the packing structure such that the second input picture is included in the packing picture to be larger than the first input picture when the apparatus for photographing the plurality of input pictures moves backward. .
  • the image transmission apparatus 400 may adjust the resolution of the projected picture to be transmitted by adjusting the size of the projected picture in the packing picture.
  • the image transmission apparatus 400 may increase the resolution of the projected picture by increasing the size of a specific projected picture in the packing picture.
  • the image transmission apparatus 400 may reduce the resolution of the projected picture by reducing the size of a specific projected picture in the packing picture.
  • the packing picture 1110 may be generated by combining a plurality of projected pictures 111, 112, 113, 114, and 115.
  • the plurality of projected pictures 111, 112, 113, 114, and 115 respectively adjust or rotate the sizes of input pictures received from cameras installed in the front left, front right, left, rear, and right sides of the vehicle. It may be pictures generated by.
  • the packing unit 411 of the image transmission apparatus 400 may generate projected pictures constituting the packing picture by adjusting or rotating the size of at least one input picture among the input pictures.
  • the image transmission apparatus 400 when the vehicle moves forward, the image transmission apparatus 400 according to the exemplary embodiment may have a projected picture (1111, 1112) indicating the situation in front of the projected picture (the situation in the other direction).
  • the packing structure may be determined to be included in the packing picture 1110 larger than 1113, 1114, and 1115.
  • the image transmission apparatus 400 projects a picture 1113 indicating a situation in a rear direction when the vehicle moves backwards 1113, 1132, 1133, and 1135 indicating a situation in a different direction.
  • the packing structure may be determined to be included in the packing picture 1130 greater than).
  • the image transmission apparatus 400 according to an exemplary embodiment may generate the projected picture by adjusting and rotating the sizes of the input pictures based on the determined packing structure.
  • the packing image and the packing structure information generated according to the above-described embodiments may be encoded and transmitted to the image receiving apparatus 1500 according to the following description.
  • FIG. 12 illustrates a structure of an encoder according to an embodiment.
  • the encoder 413 may receive packing image and packing structure information from the packing unit 411.
  • the encoder 413 may generate and output an IP stream based on the input packing image and the packing structure information.
  • the encoder 413 may include a video compressor 1210 that generates an encoded picture stream, outputs NAL units, and a protocol protocol encapsulator 1220 that generates and outputs an IP stream. .
  • the video compressor 1210 may include, for example, an HEVC encoder.
  • the video compressor 1210 may receive the packing image and the packing structure information from the packing unit 411, and generate the encoded packing image by video compressing the packing image.
  • the video compressor 1210 may generate packing structure information as an SEI message and output a bitstream including NAL units for a compressed video stream including an encoded packing image.
  • the video compressor 1210 includes all of conventional data such as an SEI message and a coded image for compression transmission and reception of video data, similarly to a conventional video codec (eg, HEVC, H.264, etc.).
  • a bitstream consisting of NAL units can be output.
  • the video compressor 1210 may further include generating NAL units by adding packing structure information to the SEI message.
  • the protocol encapsulator 1220 may receive bitstreams composed of NAL units from the video compressor 1210.
  • the protocol encapsulator 1220 may generate and output an IP stream by encapsulating the input bitstreams into a delivery protocol (for example, TS, RTP, MMT, FLUS, etc.).
  • a delivery protocol for example, TS, RTP, MMT, FLUS, etc.
  • the transmitter 430 of the image transmitter 400 may transmit the IP stream generated by the encoder 413 to the image receiver 1500.
  • the transmitter 430 may receive an IP stream from the encoder 413, transmit the IP stream through a network, and the image receiving apparatus 1500 may receive the IP stream through the network.
  • FIG. 13 illustrates an example of a protocol stack of a video communication system according to an embodiment.
  • Real Time Control Protocol can be used to control real-time data transmission in IP-based networks.
  • RTCP may be control packets for handling congestion of multi-channel audio or wide angle video.
  • Real-time transport protocol is a transport layer communication protocol for transmitting and receiving voice or call in real time.
  • Transmission Control Protocol is a transport layer protocol that supports connection services over the IP protocol
  • UDP User Datagram Protocol
  • IP stands for Internet Protocol.
  • negotiation between the image transmission apparatus 400 and the image reception apparatus 1500 may be performed through a control channel such as a Real-time Transport Protocol Control Protocol (RTCP).
  • RTCP Real-time Transport Protocol Control Protocol
  • the image transmitting device 400 may be an electronic device mounted in an autonomous vehicle
  • the image receiving apparatus 1500 may be a remote control device for remotely controlling the autonomous vehicle.
  • a 5G framework may also be used in the video communication system according to one embodiment.
  • the NR modem illustrated in FIG. 14 may support 5G communication scheme.
  • Packet Data Convergence Protocol (PDCP), Radio Link Control (RLC), Media Access Control (MAC), and Physical Layer (PHY) are communication protocols that constitute the NR modem of the terminal and the base station.
  • PDCP Packet Data Convergence Protocol
  • RLC Radio Link Control
  • MAC Media Access Control
  • PHY Physical Layer
  • UPF, DN, etc. are nodes that constitute a core network.
  • the processing order of the transmitting unit 430 of the image transmitting apparatus 400 is a sequence of SDAP ⁇ PDCP ⁇ RLC ⁇ MAC ⁇ PHY, and the processing sequence of the receiving unit 1510 of the image receiving apparatus 1500 is the reverse. to be.
  • the IP Multimedia Subsystem may include procedures for negotiating an image transmission condition including packing structure information.
  • the video communication system according to an embodiment may negotiate packing structure information through an IMS.
  • the video communication system according to an embodiment includes an IMS before performing full-scale video communication (eg, before the remote control device receives a packing image from the vehicle and remotely controls the vehicle based on the received packing image). Through the QoS of the transmission path can be set, necessary radio resources can be secured.
  • Video and audio for determining road conditions are transmitted from the image transmitting apparatus 400 to the image receiving apparatus 1500 through uplink, and control data for controlling the vehicle is transmitted from the image receiving apparatus 1500 through the downlink. 400).
  • control data can be transmitted over TCP and (RTP /) UDP.
  • a service data adaptation protocol SDAP
  • S-GW serving gateway
  • P-GW packet data network gateway
  • Nodes can be replaced with UPF, DN.
  • the interval between the IP backbone and the image receiving apparatus 1500 may be regarded as a fixed value with a packet loss rate of 0 and a very small delay.
  • the image receiving apparatus 1500 receives an IP stream transmitted from the image transmitting apparatus 400 and outputs a plurality of output images from the IP stream.
  • the image receiving apparatus 1500 receives an IP stream transmitted from the image transmitting apparatus 400 and outputs a plurality of output images from the IP stream.
  • FIG. 15 illustrates a structure of an image receiving apparatus according to an embodiment.
  • the image receiving apparatus 1500 may include a receiver 1510 that processes data received through a network and outputs an IP stream, and a processor 1530 that outputs a plurality of images based on the IP stream. Can be.
  • the image receiving apparatus 1500 may output a plurality of output images to at least one display device.
  • the image receiving apparatus 1500 may include at least one display apparatus for displaying a plurality of output images.
  • the processor 1530 may control the overall operation of the image receiving apparatus 1500.
  • the processor 1530 may control the receiver 1510.
  • the image receiving apparatus 1500 is illustrated as including one processor 1530 in FIG. 15, the embodiment is not limited thereto, and the image receiving apparatus 1500 may include a plurality of processors 1530.
  • the processor 1530 may negotiate an image transmission condition with the processor 410 of the image transmission apparatus 400.
  • the processor 1530 may include a decoder 1531 and a depacking unit 1533.
  • the decoder 1531 and the depacking unit 1533 illustrated in FIG. 15 may be a hardware configuration or may be functional blocks implemented by the processor 1530. Therefore, operations of the decoder 1531 and the depacking unit 1533 described below may be performed by the processor 1530.
  • the processor 1530 receives the IP stream including the bitstream from the receiver 1510 and extracts packing structure information and the encoded packing image from the bitstream included in the IP stream. ) May be included.
  • the decoder 1531 may extract an encoded packing video and an SEI message from a bitstream configured of NAL units, and extract packing structure information from the SEI message.
  • the decoder 1531 may obtain a packing image by decoding the encoded packing image.
  • the processor 1530 may include a depacking unit 1533 that generates a plurality of output images based on the packing structure information and the packing image.
  • the packing structure information may include at least one of information on an apparatus for photographing input images included in a packing image, information indicating characteristics of a packing image, and information indicating characteristics of a sub image constituting the packing image. It may include.
  • the depacking unit 1533 may obtain a plurality of output images from the packing image based on the packing structure information.
  • the processor 1530 may obtain a plurality of projected images from the packing image based on the packing structure information.
  • the processor 1530 may generate a plurality of output images by adjusting or rotating the size of at least one projected image among the plurality of projected images based on the packing structure information.
  • the packing structure information may include information about a size of a projected image of one of a plurality of projected images constituting a packing image, and a location where the projected image is disposed in a packing image. And information about whether the projected image is the rotated image of the input image.
  • the image receiving apparatus 1500 may be configured based on state information of an apparatus (hereinafter, referred to as a 'photographing apparatus') of photographing input images used to generate projected images included in a packing image.
  • a plurality of output images may be obtained from the packing image.
  • the image receiving apparatus 1500 may obtain a plurality of projected images of which the size is adjusted or rotated based on the state information of the photographing apparatus, from the packing image.
  • the image receiving apparatus 1500 may obtain a plurality of output images by adjusting or rotating the sizes of the plurality of projected images.
  • the packing structure information may include state information of the photographing apparatus, and the plurality of output images may include a first output image and a second output image.
  • the first output image may be an image corresponding to an input image captured by a camera mounted in front of the photographing apparatus.
  • the second output image may be an image corresponding to the input image captured from the camera mounted behind the photographing apparatus.
  • the processor 1530 may include the first output image larger than the second output image (or a higher resolution). A plurality of output images can be obtained.
  • the processor 1530 may include the second output image larger than the first output image (or a higher resolution). A plurality of output images can be obtained.
  • the size or resolution of the output image output by the image receiving apparatus 1500 varies according to the state information of the image capturing apparatus, as described above with reference to FIG. 11. This is because the packing structure is determined based on the state information of.
  • the image receiving apparatus 1500 may output a plurality of output images based on offset information included in the packing structure information.
  • the plurality of output images may include a first output image and a second output image.
  • the image receiving apparatus 1500 may output the first output image and output the second output image after a time determined based on the offset information included in the packing structure information.
  • the contents of the offset information described with reference to FIGS. 6 and 7 may be applied. Duplicate explanations are omitted. A detailed method of outputting an output image based on the offset information by the image receiving apparatus 1500 will be described in detail later with reference to FIGS. 18A and 18B.
  • the decoder 1531 may include a parser 1630 extracting packing structure information and an encoded packing image from a bitstream included in an input IP stream, and a video decompressor for decoding the encoded packing image ( 1650).
  • the decoder 1531 may include a protocol decapsulator 1610 that de-capsulates an input IP stream and outputs a bitstream composed of NAL units. have.
  • the parser 1630 may extract the encoded packing image and the SEI message from the NAL units of the input bitstream, and may obtain and output packing structure information from the SEI message.
  • the video decompressor 1650 may output the decoded packing image through de-compression on the input encoded packing image.
  • the video decompressor 1650 may correspond to the video compressor 1210 of the image transmission device 400.
  • the video decompressor 1650 may include an HEVC decoder.
  • the packing image and the packing structure information output from the decoder 1531 according to an embodiment are input to the depacking unit 1533 of FIG. 17.
  • FIG. 17 illustrates a structure of a depacking unit according to an embodiment.
  • the depacking unit 1533 may perform depacking based on the decoded packing image and packing structure information output from the decoding unit 1531, and then output the output images through rendering. .
  • the depacking unit 1533 may output output images to at least one display.
  • the depacking unit 1533 may include a packing image depacking unit 1710 for outputting projected images by depacking a decoded packing image based on packing structure information, and a project based on the packing structure information.
  • the projected image rendering unit 1720 may generate output images by rendering the image.
  • the packing image depacking unit 1710 may acquire and output the projected images based on the position information, the rotation state, and the like of each projected image included in the packing image, based on the packing structure information.
  • the projected image rendering unit 1720 may output the output images based on the rotation state, the resolution, the frame rate, and the image capture time offset of each projected image determined based on the packing structure information.
  • 18A and 18B are diagrams for describing a plurality of output images output by applying offset information, according to an exemplary embodiment.
  • 18A illustrates an example of a timing at which the depacking unit 1533 outputs output images to a display based on offset information included in packing structure information.
  • the image receiving apparatus 1500 may output the output images based on the offset information, so that the output images may be reproduced to have the same time difference as the capture time difference of the plurality of images captured from the plurality of cameras. Can be provided. Therefore, by providing the time difference between the images as they are at the time of capture, it is possible to deliver more realistic images to the user.
  • FIG. 18A illustrates a process of depacking a packing image 720 generated through the process illustrated in FIG. 7 based on packing structure information.
  • the image receiving apparatus 1500 may obtain, as packing structure information included in a bitstream, offset information of a plurality of projected images included in a packing image.
  • the image receiving apparatus 1500 is packing structure information corresponding to the packing image 720 of FIG. 18A, and is offset information about Offset 1, Offset 2, and Projected Picture 1, Projected Picture 2, and Projected Picture 3, respectively. Offset 3 can be obtained.
  • the image receiving apparatus 1500 outputs Picture 1 having the largest Picture Capture time offset value as Offset 1 first, and then outputs Picture 3 having the Large Picture capture time offset value (Offset 1-Offset 3). ) Output after time, and picture 2 can be output after (Offset 1-Offset 2) time.
  • the capture timings of the picture 1, the picture 2, and the picture 3 shown in FIG. 7 and the display timing of the picture 1, the picture 2, and the picture 3 may be maintained the same.
  • FIG. 18B illustrates a capture timing of input images and a capture timing of output images in the video communication system according to an exemplary embodiment. As shown in FIG. 18B, according to an embodiment, except for the codec, network, and processing delay, all images may be displayed to have the same delay as Offset 1.
  • FIG. 18B illustrates a capture timing of input images and a capture timing of output images in the video communication system according to an exemplary embodiment. As shown in FIG. 18B, according to an embodiment, except for the codec, network, and processing delay, all images may be displayed to have the same delay as Offset 1.
  • FIG. 18B illustrates a capture timing of input images and a capture timing of output images in the video communication system according to an exemplary embodiment. As shown in FIG. 18B, according to an embodiment, except for the codec, network, and processing delay, all images may be displayed to have the same delay as Offset 1.
  • FIG. 18B illustrates a capture timing of input images and a capture timing of output images in the video communication system according to an exemplary embodiment
  • 19 is a flowchart illustrating an image transmission method, according to an exemplary embodiment.
  • Each step of the method described below may be performed by respective components of the image transmission apparatus 400 shown in FIG. 4.
  • the above description with regard to the image transmission apparatus 400 may also be applied to each step of the following methods.
  • the image transmission apparatus 400 may acquire a plurality of input images.
  • the image transmission apparatus 400 may generate a packing image by combining a plurality of input images based on the packing structure.
  • the image transmission apparatus 400 may generate or output a plurality of projected images by adjusting or rotating the size of at least one of the plurality of input images based on the packing structure.
  • the image transmission apparatus 400 may generate a packing image by combining a plurality of projected images.
  • the image transmission apparatus 400 may determine a packing structure related to how to combine a plurality of input images to generate a packing image. For example, the image transmission device 400 may determine a packing structure based on state information of a device photographing a plurality of input images.
  • the plurality of input images include the first input image and the second input image will be described as an example.
  • the image transmission apparatus 400 may adjust the sizes of the first input image and the second input image based on state information of a device for capturing a plurality of input images, and thereby adjust the first input image and the second input image. It may be determined whether to pack the input image into the packing image.
  • the image transmission apparatus 400 may determine the packing structure such that the first input image is larger than the second input image in the packing image when the apparatus for photographing the plurality of input images moves forward. .
  • the image transmitting apparatus 400 determines the packing structure such that the second input image is larger than the first input image in the packing image. Can be.
  • the image transmission apparatus 400 may generate and output packing structure information.
  • the packing structure information may include at least one of information about an apparatus for photographing a plurality of input images, information indicating characteristics of a packing image, and information indicating characteristics of a projected image constituting the packing image. have.
  • the packing structure information may include information about a size of one projected image among a plurality of projected images constituting a packing image, information about a location where the projected image is disposed in a packing image, and a projected image. It may include at least one of information on whether the input image is a rotated image.
  • the image transmission apparatus 400 may generate packing structure information including a difference between a time when the first input image is captured and a time when the second input image is captured as offset information.
  • the image transmission apparatus 400 may generate a bitstream including packing structure information and a packing image.
  • the image transmission apparatus 400 may encode a packing image generated in operation S1920 and generate an SEI message including packing structure information.
  • the image transmission apparatus 400 may generate a bitstream including NAL UNITS including an encoded packing image and an SEI message.
  • the image transmission apparatus 400 may transmit an IP stream including a bitstream.
  • the image transmission device 400 may transmit an IP stream to the image reception device 1500 via a network.
  • 20 is a flowchart illustrating a method of receiving an image according to an exemplary embodiment.
  • Each step of the method described below may be performed by components of the image receiving apparatus 1500 illustrated in FIG. 15.
  • the above description with respect to the image receiving apparatus 1500 may also be applied to each step of the following methods.
  • the image reception apparatus 1500 may receive a bitstream.
  • the image receiving apparatus 1500 may receive an IP stream including a bitstream by processing data received through a network.
  • the image receiving apparatus 1500 may extract packing structure information and an encoded packing image from the bitstream.
  • the image receiving apparatus 1500 may extract the encoded packing image and the SEI message from the bitstream configured of the NAL units, and extract the packing structure information from the SEI message.
  • the packing structure information may be information generated and transmitted by the image transmission device 400 according to an embodiment.
  • a description overlapping with the description of the packing structure information described with respect to the method of transmitting the image by the image transmitting apparatus 400 will be omitted.
  • the packing structure information may include state information or offset information of an apparatus photographing input images included in a packing image.
  • the image receiving apparatus 1500 may obtain a packing image by decoding the encoded packing image.
  • the image receiving apparatus 1500 may obtain a plurality of output images from the packing image based on the packing structure information.
  • the image receiving apparatus 1500 may acquire a plurality of projected images from the packing image based on the packing structure information.
  • the image receiving apparatus 1500 may generate a plurality of output images by adjusting or rotating the size of at least one projected image among the plurality of projected images.
  • an apparatus for photographing input images included in a packing image may move forward.
  • a plurality of output images may be acquired such that the first output image is larger than the second output image.
  • the image receiving apparatus 1500 may acquire a plurality of output images such that the second output image is larger than the first output image when the photographing apparatus moves backward.
  • the image receiving apparatus 1500 may output a plurality of output images.
  • the image receiving apparatus 1500 may output the first output image and output the second output image after a time determined based on the offset information included in the packing structure information.
  • the image receiving apparatus 1500 may output the plurality of output images to the at least one display apparatus such that the plurality of output images are displayed on the at least one display apparatus.
  • the disclosed embodiments may be implemented as S / W programs that include instructions stored in computer-readable storage media.
  • the computer is a device capable of calling a stored command from a storage medium and operating according to the disclosed embodiment according to the called command, and may include an image transmitting device and an image receiving device according to the disclosed embodiments.
  • the computer-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary' means that the storage medium does not include a signal and is tangible, and does not distinguish that data is stored semi-permanently or temporarily on the storage medium.
  • the electronic device or method according to the disclosed embodiments may be provided included in a computer program product.
  • the computer program product may be traded between the seller and the buyer as a product.
  • the computer program product may include a S / W program and a computer readable storage medium storing the S / W program.
  • a computer program product may include a product (eg, a downloadable app) in the form of a S / W program distributed electronically through a manufacturer of an electronic device or an electronic market (eg, Google Play Store, App Store). have.
  • the storage medium may be a server of a manufacturer, a server of an electronic market, or a storage medium of a relay server that temporarily stores a SW program.
  • the computer program product may include a storage medium of a server or a storage medium of a terminal in a system consisting of a server and a terminal (for example, an image transmitting apparatus or an image receiving apparatus).
  • a third device eg, a smartphone
  • the computer program product may include a storage medium of the third device.
  • the computer program product may include the S / W program itself transmitted from the server to the terminal or the third device, or transmitted from the third device to the terminal.
  • one of the server, the terminal and the third device may execute a computer program product to perform the method according to the disclosed embodiments.
  • two or more of the server, the terminal, and the third device may execute a computer program product to distribute and perform the method in accordance with the disclosed embodiments.
  • a server eg, a cloud server or an artificial intelligence server, etc.
  • a server may execute a computer program product stored in the server to control a terminal connected to the server to perform the method according to the disclosed embodiments.
  • a third device may execute a computer program product to control a terminal in communication with the third device to perform the method according to the disclosed embodiment.
  • the third apparatus may control to transmit or receive the packing image by remotely controlling the image transmitting apparatus or the image receiving apparatus.
  • the third device may download the computer program product from the server and execute the downloaded computer program product.
  • the third apparatus may execute the provided computer program product in a preloaded state to perform the method according to the disclosed embodiments.

Abstract

복수의 영상들을 효율적으로 전송하는 방법 및 장치에 관한 것이다. 또한, 효율적으로 전송된 복수의 영상들을 수신하는 방법 및 장치에 관한 것이다. 복수의 입력 영상들을 획득하고, 패킹 구조에 기초하여 복수의 입력 영상들을 조합함으로써 패킹 영상을 생성하고, 패킹 구조 정보 및 패킹 영상을 포함하는 비트스트림을 생성하고 전송하는 영상 전송 방법을 개시한다.

Description

영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치
복수의 영상들을 효율적으로 전송하는 방법 및 장치에 관한 것이다. 또한, 효율적으로 전송된 복수의 영상들을 수신하는 방법 및 장치에 관한 것이다.
통신 기술이 발전함에 따라 고속으로 대용량의 데이터 전송이 가능해지면서, 무선 통신 시스템에 의해 더 다양한 서비스를 제공할 수 있게 되었다. 예를 들어, 자율 주행 시스템은, 복수의 카메라들을 탑재한 자동차가 획득한 영상들에 기초하여 자동차를 자동으로 제어할 수 있다. 또는, 자동차가 주변의 다른 자동차에서 획득한 영상들을 수신함으로써 안전한 운행을 위한 정보로 이용할 수 있다.
개시된 실시예들은 제한된 자원을 이용하여 복수의 영상들을 효율적으로 전송하고 수신할 수 있도록 하기 위한 것이다.
본 개시의 일 실시예의 일 측면에 따르면, 영상 전송 방법은, 복수의 입력 영상들을 수신하는 단계, 패킹 구조에 기초하여 상기 복수의 입력 영상들을 조합함으로써 패킹 영상(packed image)을 생성하는 단계, 상기 패킹 구조 정보 및 상기 패킹 영상을 포함하는 비트스트림을 생성하는 단계, 및 상기 비트스트림을 포함하는 IP 스트림을 전송하는 단계를 포함할 수 있다.
본 개시의 일 실시예의 다른 일 측면에 따르면, 영상 전송 장치는, 복수의 영상들을 수신하고, 패킹 구조에 기초하여 상기 복수의 영상들을 조합함으로써 패킹 영상을 생성하고, 상기 패킹 구조 정보 및 상기 패킹 영상을 포함하는 비트스트림을 생성하는 프로세서, 및 상기 비트스트림을 포함하는 IP 스트림을 전송하는 송신부를 포함할 수 있다.
본 개시의 일 실시예의 다른 일 측면에 따르면, 영상 수신 방법은, 비트스트림을 수신하는 단계, 상기 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하는 단계, 상기 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득하는 단계, 상기 패킹 구조 정보에 기초하여 상기 패킹 영상으로부터 복수의 출력 영상들을 획득하는 단계, 및 상기 복수의 출력 영상들을 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시예의 다른 일 측면에 따르면, 영상 수신 장치는, 비트스트림을 포함하는 IP 스트림을 수신하는 수신부, 및 상기 수신부로부터 상기 IP 스트림을 수신하고, 상기 IP 스트림에 포함된 상기 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하고, 상기 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득하고, 상기 패킹 구조 정보에 기초하여 상기 패킹 영상으로부터 복수의 출력 영상들을 획득하는, 프로세서, 및 상기 복수의 출력 영상들을 출력하는, 출력부를 포함할 수 있다.
본 개시의 일 실시예의 다른 일 측면에 따르면, 상술한 영상 전송 방법 또는 영상 수신 방법을 수행하는 컴퓨터 프로그램 코드를 저장하는 저장 매체를 포함할 수 있다.
개시된 실시예들에 따르면, 영상 통신 시스템은, 입력 영상들의 개수에 관계없이 입력 영상들을 하나의 패킹 영상 내에 패킹하여 전송 및 수신할 수 있게 됨으로써, 사용자가 전달받는 정보의 양을 극대화할 수 있다. 또한, 영상 통신 시스템은, 영상들 간의 시간 차이를 반영하여 영상들을 디스플레이할 수 있게됨으로써, 보다 현장감 있는 영상들을 사용자에게 전달할 수 있다.
도 1은 일 실시 예에 따라 원격으로 제어되는 자율 주행 시스템을 설명하는 도면이다.
도 2는 일 실시예에 따른 영상 통신 시스템을 나타내는 도면들이다.
도 3은 일 실시예에 따른 영상 통신 시스템이 영상 전송 조건을 교섭하는 과정을 도시한다.
도 4는 일 실시예에 따른 영상 전송 장치의 구조를 도시한다.
도 5는 일 실시예에 따른 패킹부의 구조를 도시한다.
도 6 및 도 7은 일 실시예에 따라 패킹 영상과 함께 전달되는 오프셋 정보를 설명하기 위한 도면이다.
도 8 내지 도 11은 일 실시예에 따라 패킹 영상과 함께 전달되는 패킹 구조 정보의 예를 도시한다.
도 12는 일 실시예에 따른 부호화부의 구조를 도시한다.
도 13은 일 실시예에 따른 영상 통신 시스템의 프로토콜 스택의 예를 도시한다.
도 14는 일 실시예에 따른 영상 통신 시스템의 전체 프로토콜 구조의 예를 도시한다.
도 15는 일 실시예에 따른 영상 수신 장치의 구조를 도시한다.
도 16은 일 실시예에 따른 복호화부의 구조를 도시한다.
도 17은 일 실시예에 따른 디패킹부의 구조를 도시한다.
도 18a 및 도 18b는 일 실시예에 따라 오프셋 정보를 적용하여 출력되는 복수의 출력 영상들을 설명하기 위한 도면이다.
도 19는 일 실시예에 따른 영상 전송 방법을 나타내는 흐름도이다.
도 20은 일 실시예에 따른 영상 수신 방법을 나타내는 흐름도이다.
본 개시의 일 실시예의 일 측면에 따르면, 영상 전송 방법은, 복수의 입력 영상들을 수신하는 단계, 패킹 구조에 기초하여 상기 복수의 입력 영상들을 조합함으로써 패킹 영상(packed image)을 생성하는 단계, 상기 패킹 구조 정보 및 상기 패킹 영상을 포함하는 비트스트림을 생성하는 단계, 및 상기 비트스트림을 포함하는 IP 스트림을 전송하는 단계를 포함할 수 있다.
본 개시의 일 실시예의 다른 일 측면에 따르면, 영상 수신 방법은, 비트스트림을 수신하는 단계, 상기 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하는 단계, 상기 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득하는 단계, 상기 패킹 구조 정보에 기초하여 상기 패킹 영상으로부터 복수의 출력 영상들을 획득하는 단계, 및 상기 복수의 출력 영상들을 출력하는 단계를 포함할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
본 명세서에서 “영상”이란, 카메라 또는 센서에서 캡쳐되어 전송되는 정지 영상, 동영상, 비디오 프레임, 및/또는 비디오 스트림을 모두 포함할 수 있다.
본 명세서 전반에 걸쳐 사용되는 "영상"이라는 용어는 "영상"이라는 용어 자체뿐만 아니라, "픽쳐", "프레임", "필드" 또는 "슬라이스"등 관련 분야에서 알려질 수 있는 비디오 이미지 정보의 다양한 형태들을 설명하기 위한 포괄적인 용어로서 사용된다. 예를 들어, "영상"은 비디오 스트림을 구성하는 복수의 픽쳐들 또는 복수의 프레임들 중 하나를 의미할 수도 있고, 복수의 픽쳐들 또는 복수의 프레임들을 포함하는 비디오 스트림 전체를 의미할 수도 있다.
본 명세서 전반에 걸쳐 사용되는 "프로젝티드 영상"이라는 용어는, "패킹 영상"을 구성하는 복수의 영상들 각각을 의미할 수 있다. 프로젝티드 영상은, 입력 영상을 패킹 영상 상에 투사(project)함으로써 생성된 패킹 영상의 부분 영상일 수 있다. "프로젝티드 영상"은, "서브 영상" 또는 "부분 영상"이라고도 서술할 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일 실시 예에 따라 원격으로 제어되는 자율 주행 시스템을 설명하는 도면이다.
자율 주행 시스템은, 호스트 차량의 자율 주행과 관련된 정보 또는 명령을 수집, 처리, 가공, 저장 또는 전송하거나, 자율 주행을 제어할 수 있다. 호스트 차량이란, 자율 주행 시스템을 지원하고, 자율 주행 시스템에 의해 제어되는 차량을 의미할 수 있다. 자율 주행 시스템은 호스트 차량에 탑재될 수도 있지만, 호스트 차량의 외부에서 호스트 차량을 원격으로 제어할 수도 있다. 자율 주행 시스템은 호스트 차량에 탑재된 복수의 카메라들로부터 수집한 정보를 이용하여, 주변 상황을 감지하고 호스트 차량을 제어할 수 있다. 또는, 호스트 차량에서 수집된 정보는, 다른 차량의 자율 주행 시스템에게 전송됨으로써, 다른 차량의 안전한 자율 주행을 도모할 수 있다.
다만, 자율 주행 시스템에 있어서, 위급 상황의 경우 자율 주행을 중단하고 원격으로 사람에 의해 제어되는 것이 요구될 수 있다. 도 1에 도시된 바와 같이, 호스트 차량(10)이 원격으로 사용자(20)에 의해 제어되기 위해서는, 호스트 차량(10)의 주변 상황에 대한 영상들(30)을 사용자(20)에게 전달하여야 한다.
사용자(20)가 호스트 차량(10)을 원격으로 안전하게 제어하기 위해서는, 호스트 차량(10) 주위의 모든 방향의 영상들이 지연없이 전송되어야 한다. 다만, 제한된 주파수 자원으로 인해 모든 방향의 영상들을 개별적으로 지연없이 전송하는 것은 어려울 수 있으므로, 복수의 영상들을 하나의 영상으로 패킹하여 효율적으로 전송하는 기술이 이용될 수 있다.
본 개시는 도 1에 도시된 자율 주행 분야 뿐만 아니라, 복수의 영상들을 효율적으로 전송하기 위한 다양한 분야에 적용 가능하다.
도 2는 일 실시예에 따른 영상 통신 시스템을 나타내는 도면들이다.
일 실시예에 따른 영상 통신 시스템은 영상 전송 장치(400) 및 영상 수신 장치(1500)를 포함할 수 있다. 영상 전송 장치(400) 및 영상 수신 장치(1500)는, 네트워크를 통해 연결되고, 영상 및 신호를 송수신할 수 있다.
본 명세서에서는 설명의 편의를 위하여 영상을 전송하는 전송 장치 및 전송된 영상을 수신하는 수신 장치로 구분하였으나, 영상 전송 장치(400) 및 영상 수신 장치(1500)는, 모두 사용자 단말 UE(User Equipment)과 같은 전자 장치를 의미할 수 있다.
사용자 단말은, 퍼스널 컴퓨터(Personal Computer), 휴대폰(Cellular Phone), 스마트 폰, TV, 타블렛, 노트북, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 디지털 카메라, 블랙박스, 자동차에 탑재 디바이스, 자동차에 탑재된 디바이스 내의 모듈, 또는 자동차 그 자체를 포함할 수 있다. 물론 상기 예시에 제한되지 않으며, 다양한 전자 디바이스들을 포함할 수 있다.
예를 들어, 일 실시예에 따른 영상 통신 시스템은, 복수의 카메라들을 탑재한 차량에 포함된 전자 장치를 영상 전송 장치(400)로서 포함할 수 있고, 차량을 원격으로 제어하는 원격 제어 장치를 영상 수신 장치(1500)로서 포함할 수 있다. 차량에 탑재된 복수의 카메라들에서 캡쳐된 차량의 주변 영상들은 네트워크를 통해 전송되어 원격 제어 장치의 디스플레이 상에 디스플레이 됨으로써, 차량의 원격 제어에 이용될 수 있다.
일 실시예에 따른 영상 전송 장치(400) 및 영상 수신 장치(1500)는 다양한 통신 방식을 이용하여 연결될 수 있다. 예를 들어, 4G(또는, LTE(Long Term Evolution)), 5G(또는, NR(New Radio)), Wifi 등 다양한 통신 방식을 이용하여 연결될 수 있다.
일 실시예에 따른 영상 통신 시스템이 LTE 통신 방식을 사용할 때는, 영상 전송 장치(400) 및 영상 수신 장치(1500)는 LTE 기지국 eNodeB와 연결될 수 있고, eNodeB는 LTE 통신 시스템의 코어 네트워크인 EPC(Evolved Packet Core)와 연결될 수 있다. 일 실시예에 따른 영상 통신 시스템이 차세대 이동 통신 방식(New Radio: NR)을 사용할 때는 차세대 기지국 gNodeB와 연결될 수 있고, gNodeB는 NR 통신 시스템의 코어 네트워크인 5G Core(5Generation Core)와 연결될 수 있다.
또한, 영상 전송 장치(400) 및 영상 수신 장치(1500)는 무선 액세스 네트워크(Radio Access Network: RAN)를 통해 연결될 수 있으며, 무선 액세스 네트워크를 통해 데이터 네트워크(예를 들면, 데이터 서버, 인터넷 등)에 접속할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 복수 개의 픽쳐 소스(Picture Source)들로부터 복수 개의 픽쳐들을 획득하고, 프로세서(410)에서 획득된 픽쳐들을 처리할 수 있다. 예를 들어, 복수 개의 픽쳐 소스들은 복수 개의 카메라들을 의미할 수 있다. 또는, 도면에 도시되지 않았으나 영상 전송 장치(400)는, 픽쳐 소스부를 포함하고, 픽쳐 소스부에서 복수의 픽쳐들을 획득하거나 생성할 수 있다. 본 명세서에서 "픽쳐"의 의미는 비디오 스트림을 구성하는 한장의 프레임에 한정되지 않고, 연속적인 프레임들로 구성되는 비디오 스트림을 포함할 수 있다.
예를 들어, 차량의 원격 제어 시스템에 있어서, 픽쳐 소스는, 차량에 탑재된 각종 센서(예를 들어, 레이더(Radar) 센서, 라이더(Lidar) 센서 등), 차량 주변의 정보를 캡쳐하는 차량에 탑재된 카메라, 주변의 다른 차량, 네트워크를 통해 연결된 다른 전자 장치, 서버 등을 포함할 수 있다. 이하에서는, 설명의 편의를 위해 픽쳐 소스가 카메라인 경우를 예로 들어 설명한다. 그러나, 실시예는 픽쳐 소스가 카메라인 경우에 제한되지 않으며, 이하의 설명은 다양한 픽쳐 소스로부터 픽쳐를 수신하는 경우에도 적용될 수 있다.
영상 전송 장치(400)는, 복수 개의 픽쳐들로부터 하나의 패킹 픽쳐(Packed Picture)를 생성하고, 패킹 구조와 관련된 정보를 생성할 수 있다. 영상 전송 장치(400)는, 패킹 픽쳐를 비디오 코덱을 이용하여 압축함으로써 부호화된 패킹 픽쳐를 생성하고, 부호화된 패킹 픽쳐와 패킹 구조 정보를 포함하는 IP 스트림을 출력할 수 있다. 패킹 구조 정보는 패킹 픽쳐를 서술하는 서술 메타 데이터(description metadata)에 포함될 수 있다. 영상 전송 장치(400)의 전송부(430)는, 부호화된 패킹 픽쳐와 패킹 구조 정보를 포함하는 IP 스트림을 네트워크를 통해 영상 수신 장치(1500)에게 전송할 수 있다. 예를 들어, 전송부(430)는, IP 스트림을 RAN을 통해 전송하는 RAN 전송부(Ran Transmitter)일 수 있다.
영상 전송 장치(400)는, 패킹 픽쳐의 전송에 필요한 비디오 파라미터(예를 들어, 코덱, 데이터 레이트, 해상도, 패킹 구조 등)를 수신 시스템과 교섭하여 결정하고, 교섭 결과에 따라 패킹 픽쳐를 전송할 수 있다. 도 1에서는, 영상 수신 장치(1500)가 수신 시스템의 예로서 도시되었다.
일 실시예에 따른 영상 수신 장치(1500)는, 네트워크를 통해 수신된 데이터를 처리하여 IP 스트림을 출력하는 수신부(1510)를 포함할 수 있다. 예를 들어, 수신부(1510)는, RAN을 통해 수신된 IP 스트림을 출력하는 RAN 수신부(Ran Receiver)일 수 있다.
일 실시예에 따른 영상 수신 장치(1500)의 프로세서(1530)는, 수신부(1510)로부터 수신된 IP 스트림을 처리하고, 복수 개의 픽쳐들을 출력할 수 있다. 일 실시예에 따른 영상 수신 장치(1500)는, IP 스트림에 포함된 부호화된 패킹 픽쳐를 복호화하여 복호화된 패킹 픽쳐를 회득하고, IP 스트림에 포함된 패킹 구조 정보를 이용하여 복호화된 패킹 픽쳐에 대한 디패킹(depacking)을 수행함으로써 복수 개의 픽쳐들을 출력할 수 있다. 도 1에는 도시되지 않았지만, 영상 수신 장치(1500)는, 복수 개의 픽쳐들을 디스플레이하는 적어도 하나의 디스플레이부를 포함할 수 있다.
영상 수신 장치(1500)는, 패킹 픽쳐의 수신에 필요한 비디오 파라미터(예를 들어, 코덱, 데이터 레이트, 해상도, 패킹 구조 등)를 전송 시스템과 교섭하여 결정하고, 교섭 결과에 따라 패킹 픽쳐를 수신할 수 있다. 도 1에서는, 영상 전송 장치(400)가 전송 시스템의 예로서 도시되었다.
본 발명의 일 실시예에 따른 영상 전송 장치(400)는 전송할 패킹 픽쳐의 비디오 파라미터에 관한 정보들을 영상 수신 장치(1500)와의 교섭을 통해 확정하고, 이를 기반으로 패킹 픽쳐의 전송을 제어할 수 있다. 교섭 이후 패킹 픽쳐를 전송하는 중에 비디오 파라미터에 관한 업데이트가 필요한 경우(예를 들어, 데이터 레이트가 변경되는 경우, 패킹 구조가 변경되는 경우 등), 영상 전송 장치(400)는, 새로운 교섭을 통해, 관련 정보를 업데이트 하고, 업데이트된 정보에 따라 패킹 픽쳐의 전송을 제어할 수 있다.
일 실시예에 따른 영상 통신 시스템은, 유저 플레인(user plane)을 통해 패킹 픽쳐를 송수신하고, 컨트롤 플레인(control plane)을 통해 SDP(Session Description Protocol)와 같은 제어 데이터를 전달 또는 처리할 수 있다. 유저 플레인이란, 네트워크에서 사용자 데이터(예를 들면 패킷, 플로우, 트래픽 등)를 전달 및 처리하는 구성을 의미할 수 있다. 컨트롤 플레인이란, 제어 데이터를 전달 및 처리하는 구성을 의미할 수 있다. 영상 전송 장치(400) 및 영상 수신 장치(1500) 간의 교섭은, SDP와 같은 컨트롤 플레인이나 유저 플레인 내의 RTCP(Real-time Transport Protocol Control Protocol)와 같은 컨트롤 채널을 통해 이루어 질 수 있다.
일 실시예에 따른 영상 통신 시스템이 영상을 송수신하기에 앞서 영상 전송 조건을 교섭하는 구체적인 방법은 도 3을 참조하여 설명한다.
도 3은 일 실시예에 따른 영상 통신 시스템이 영상 전송 조건을 교섭하는 과정을 도시한다.
일 실시예에 따른 영상 수신 장치(1500)는, 예를 들어, 영상 압축기의 종류, 비트 레이트, 영상 크기 등의 정보를 SDP(Session Description Protocol) offer에 서술하고, SDP offer를 SIP(Session Initiation Protocol) message에 탑재하여 영상 전송 장치(400)에게 전송하여 상호 교섭을 시작할 수 있다(S310). SDP offer는 패킹 픽쳐의 전송에 필요한 비디오 파라미터에 대한 정보를 포함할 수 있다.
도 3에 도시된 바와 같이, 일 실시예에 따르면, SDP offer를 포함한 SIP message는 LTE, 5G 등의 품질이 보장되는 네트워크의 경우 IP Multimedia Subsystem (IMS)를 경유하여 상대 단말에게 전달될 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, SDP offer를 수신하고, 탑재하고 있는 영상 압축기들의 영상 처리 능력과 서비스 정책, 비트 레이트, 영상 크기 등을 검토하여 SDP answer를 작성하여 영상 수신 장치(1500)에게 전송할 수 있다(S320). SDP answer는 패킹 픽쳐의 전송에 필요한 비디오 파라미터에 대한 정보를 포함할 수 있다.
SDP answer를 수신한 영상 수신 장치(1500)가 SDP answer를 수용할 경우 상호 확인 과정을 거쳐, 영상 전송 장치(400)에서 압축된 영상이 영상 전송 장치(400)로부터 영상 수신 장치(1500)로 전달될 수 있다. 예를 들어, 자동차는, 원격 제어 시스템과의 상호 교섭을 수행하고, 교섭 결과에 기초하여 패킹된 영상을 원격 제어 시스템에게 전달할 수 있다. 원격 제어 시스템은 자동차로부터 수신된 패킹 영상에 기초하여, 자동차를 제어하기 위한 제어 신호를 전송할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 영상의 압축 및/또는 전송 조건이 변경될 필요가 있을 때에는, SIP UPDATE 메시지를 영상 전송 장치(400)에게 전송함으로써, 다시 상호 교섭을 수행할 수 있다(S330).
일 실시예에 따른 영상 전송 장치(400)는, SDP UPDATE 메시지를 수신하고, 탑재하고 있는 영상 압축기들의 영상 처리 능력과 서비스 정책, 비트 레이트, 영상 크기 등을 검토하여 두번째 SDP answer를 작성하여 영상 수신 장치(1500)에게 전송할 수 있다(S340).
두번째 SDP answer를 수신한 영상 수신 장치(1500)가 두번째 SDP answer를 수용할 경우, Ack 메시지를 영상 전송 장치(400)에게 전송할 수 있다(S350). 상호 확인 과정을 거쳐, 영상 전송 장치(400)에서 압축된 영상이 영상 전송 장치(400)로부터 영상 수신 장치(1500)로 전달될 수 있다(S360).
그러나, 실시예는 도 3에 도시된 바에 제한되지 않으며, 영상 전송 장치(400)가 영상 수신 장치(1500)에게 먼저 SDP offer를 전송함으로써, 전송 조건 교섭이 시작될 수 있다.
개시된 실시예들에 따르면, 영상 통신 시스템은 입력 영상들의 개수에 관계없이 입력 영상들을 하나의 패킹 영상 내에 패킹하여 전송 및 수신할 수 있게 됨으로써, 사용자가 전달받는 정보의 양을 극대화할 수 있다. 패킹 없이 복수의 입력 영상들을 전송하기 위해서는, 하나의 비디오 인코더가 입력 영상들을 순차적으로 압축 및 전송하거나, 복수의 인코더들이 입력 영상들을 동시에 압축 및 전송해야 한다. 따라서, 영상 전송 장치가 패킹 없이 복수의 입력 영상들을 전송하는 경우, 전송 시간 지연이 발생하거나 송수신기의 복잡도가 입력 영상들의 수 만큼 복잡해진다.
그러나, 개시된 실시예들에 따르면, 영상 통신 시스템은 복수의 입력 영상들의 개수에 관계없이, 전송 시간 지연 없이 송수신기의 복잡도가 간단하게 구현될 수 있다는 장점이 있다. 또한, 영상 통신 시스템은, 영상들 간의 캡쳐 시간 차이를 반영하여 영상들을 디스플레이할 수 있게됨으로써, 보다 사실감 있는 영상들을 사용자에게 전달할 수 있다. 이하에서는, 개시된 실시예에 따른 영상 통신 시스템에 포함되는 영상 전송 장치의 동작을 구체적으로 설명한다.
도 4는 일 실시예에 따른 영상 전송 장치의 구조를 도시한다.
일 실시예에 따른 영상 전송 장치(400)는 복수의 입력 영상들을 획득하고 IP 스트림을 출력하는 프로세서(410) 및 전송부(430)를 포함할 수 있다.
일 실시예에 따른 프로세서(410)는 영상 전송 장치(400)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(410)는, 전송부(430)를 제어할 수 있다. 도 4에는 영상 전송 장치(400)가 하나의 프로세서(410)를 포함하는 것으로 도시되나, 실시예는 이에 제한되지 않으며, 영상 전송 장치(400)는 복수의 프로세서(410)들을 포함할 수 있다. 또한, 프로세서(410)는 영상 수신 장치(1500)의 프로세서와 영상 전송 조건을 교섭할 수 있다.
일 실시예에 따른 프로세서(410)는, 복수의 픽쳐 소스들로부터 복수의 입력 영상들을 획득하고, 패킹 구조에 기초하여 복수의 입력 영상들을 조합함으로써 패킹 영상을 생성할 수 있다. 또는, 일 실시예에 따른 프로세서(410)는, 외부로부터 수신된 데이터 또는 내부에 저장된 데이터로부터 복수의 입력 영상들을 생성할 수 있다. 일 실시예에 따른 영상 전송 장치(400)는, 픽쳐 소스를 포함하고, 복수의 입력 영상들을 생성할 수 있다.
예를 들어, 자율 주행 시스템에 있어서, 일 실시예에 따른 영상 전송 장치(400)는, 차량에 탑재된 카메라에서 캡쳐된 영상을 수신하고 프로세서(410)로 전달할 수 있다.
일 실시예에 따른 프로세서(410)는, 패킹 구조 정보 및 패킹 영상을 포함하는 비트스트림을 생성할 수 있다. 도 4에 도시된 바와 같이, 일 실시예에 따른 프로세서(410)는, 패킹부(411) 및 부호화부(413)를 포함할 수 있다. 도 4에 도시된 패킹부(411) 및 부호화부(413)는, 하드웨어적인 구성일 수도 있고, 프로세서(410)에 의해 구현되는 기능 블록들일 수 있다. 따라서, 이하에서 서술하는 패킹부(411) 및 부호화부(413)의 동작은 프로세서(410)에서 수행되는 것일 수 있다.
일 실시예에 따른 패킹부(411)는, 복수의 입력 영상들을 획득하고, 패킹 구조에 기초하여 복수의 입력 영상들을 조합함으로써 패킹 영상을 생성할 수 있다. 도 4에서는 N개의 입력 영상들을 수신하는 경우를 예로 들어 도시하였다.
일 실시예에 따른 패킹부(411)는, 패킹 구조에 기초하여 복수의 입력 영상들 중 적어도 하나의 영상의 사이즈를 조절하거나 회전함으로써, 복수의 프로젝티드 영상들을 생성하고, 복수의 프로젝티드 영상들을 조합함으로써 패킹 영상을 생성할 수 있다. 패킹부(411)는, 패킹 구조에 기초하여 복수의 프로젝티드 영상들을 조합함으로써 패킹 영상을 생성할 수 있다. 패킹부(411)는, 패킹 구조에 기초하여 결정된 패킹 영상 내의 위치에 각 프로젝티드 영상을 배치함으로써 패킹 영상을 생성할 수 있다.
패킹부(411)는 패킹 구조 정보를 생성할 수 있다. 일 실시예에 따른 패킹 구조 정보는, 복수의 입력 영상들을 촬영하는 장치에 대한 정보, 패킹 영상의 특성을 나타내는 정보, 및 패킹 영상을 구성하는 프로젝티드 영상의 특성을 나타내는 정보 중 적어도 하나를 포함할 수 있다. 일 실시예에 따른 패킹 영상을 구성하는 프로젝티드 영상의 특성을 나타내는 정보는, 패킹 영상을 구성하는 복수의 프로젝티드 영상들 중 하나의 프로젝티드 영상의 크기에 대한 정보, 패킹 영상 내에서 프로젝티드 영상이 배치되는 위치에 대한 정보, 및 프로젝티드 영상이 입력 영상이 회전된 영상인지 여부에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 패킹부(411)는, 복수의 입력 영상들을 촬영하는 장치의 상태 정보에 기초하여 패킹 구조를 결정할 수 있다. 예를 들어, 도 4의 영상 전송 장치(400)가 차량에 탑재되어 원격 제어를 지원하는 전자 장치인 경우, 차량이 이동하는 방향에 대응하는 영상의 해상도가 다른 영상들의 해상도에 비해 높도록 패킹 구조가 결정될 수 있다. 패킹 구조를 결정하는 구체적인 방법과 관련하여서는, 후에 도 11을 참조하여 구체적으로 설명한다.
또한, 일 실시예에 따른 영상 전송 장치(400)가 복수의 카메라들로부터 복수의 입력 영상들을 획득하는 경우, 각 카메라가 각 입력 영상을 캡쳐하는 시간이 다를 수 있고, 각 입력 영상의 프레임 레이트가 상이할 수 있다. 따라서, 일 실시예에 따른 패킹부(411)는, 복수의 입력 영상들이 캡쳐되는 시간들 간의 차이를 나타내는 오프셋 정보를 패킹 구조 정보로서 생성할 수 있다. 예를 들어, 복수의 입력 영상들이, 제1 입력 영상 및 제2 입력 영상을 포함하는 경우, 패킹 구조 정보는, 제1 입력 영상이 캡쳐되는 시간과 제2 입력 영상이 캡쳐되는 시간 간의 차이를 오프셋 정보로서 포함할 수 있다. 오프셋 정보와 관련하여서는, 후에 도 6 및 도 7을 참조하여 구체적으로 설명한다.
패킹부(411)는 패킹 영상 및 패킹 구조 정보를 생성하고, 부호화부(413)에게 출력할 수 있다.
일 실시예에 따른 부호화부(413)는, 패킹 영상을 부호화할 수 있다. 부호화부(413)는, 패킹 구조 정보 및 부호화된 패킹 영상을 포함하는 비트스트림을 생성할 수 있다. 예를 들어, 일 실시예에 따른 부호화부(413)는, 패킹 구조 정보를 포함하는 SEI 메시지를 생성하고, 부호화된 패킹 영상 및 SEI 메시지를 포함하는 NAL UNITS으로 구성된 비트스트림을 생성할 수 있다. 부호화부(413)는, 비트스트림을 포함하는 IP 스트림을 생성하고 출력할 수 있다.
일 실시예에 따른 전송부(430)는, 비트스트림을 포함하는 IP 스트림을 전송할 수 있다. 전송부(430)는, IP 스트림을 영상 수신 장치(1500)에게 전송할 수 있다. 일 실시예에 따른 전송부(430)는 다양한 통신 방식을 지원할 수 있다. 예를 들어, 전송부(430)는 4G(또는, LTE(Long Term Evolution)), 5G(또는, NR(New Radio)), Wifi 등 다양한 통신 방식을 지원할 수 있다. 전송부(430)가 IP 스트림을 전송하는 구체적인 과정은 후에 도 14를 참조하여 설명한다.
도 5는 일 실시예에 따른 패킹부의 구조를 도시한다.
도 5에 도시된 바와 같이, 일 실시예에 따른 패킹부(411)는, 복수의 카메라들로부터 복수의 입력 영상들을 입력 받아 패킹 영상과 패킹 구조 정보를 생성하고 출력할 수 있다. 일 실시예에 따른, 패킹부(411)는, 프로젝티드 영상 생성부(510), 패킹 영상 생성부(530) 및 패킹 구조 정보 생성부(550)를 포함할 수 있다.
일 실시예에 따른 프로젝티드 영상 생성부(510)는, 패킹 구조 정보에 기초하여, 입력 영상들로부터 프로젝티드 영상들을 생성하여 출력할 수 있다. 프로젝티드 영상 생성부(510)는, 패킹 구조에 기초하여 각 입력 영상의 사이즈를 조절하거나 회전함으로써, 복수의 프로젝티드 영상들을 생성할 수 있다.
일 실시예에 따른 패킹 영상 생성부(530)는, 패킹 구조 정보에 기초하여 프로젝티드 영상들을 조합함으로써 패킹 영상을 생성하여 출력할 수 있다. 일 실시예에 따른 패킹 구조 정보 생성부(550)는, 패킹 영상의 비디오 파라미터 등을 포함한 패킹 구조에 관한 정보를 생성할 수 있다.
일 실시예에 따른 프로젝티드 영상 생성부(510)는, 각 입력 영상의 캡쳐 시간을 패킹 구조 정보 생성부(550)에게 전달할 수 있다. 패킹 구조 정보 생성부(550)는, 패킹 영상 생성부(530)와의 교섭을 통해, 각 입력 영상의 캡쳐 시간에 기초하여 패킹 영상에 포함되는 각 프로젝티드 영상의 캡쳐 시간 오프셋에 관한 정보를 패킹 구조 정보로서 생성할 수 있다.
이하에서는, 일 실시예에 따른 패킹 구조 정보 생성부(550)가 생성하는 패킹 구조 정보에 관하여 구체적으로 설명한다.
nal_unit_type Name of nal_unit_type Content of NAL unit and RBSP syntax structure NAL unit type class
... ... ... ...
3940 PREFIX_SEI_NUTSUFFIX_SEI_NUT Supplemental enhancement informationsei_rbsp() non-VCL
[표 1]은 NAL unit type codes 및 NAL unit type classes를 나타낸다.
일 실시예에 따른 영상 전송 장치(400)는, 패킹 구조 정보를 포함하는 SEI 메시지를 생성하고, 부호화된 패킹 영상 및 SEI(Supplemental Enhancement Information) 메시지를 포함하는 NAL units으로 구성된 비트스트림을 생성할 수 있다. 패킹 구조 정보는, HEVC 규격에서 39번 또는 40번으로 정의된 타입의 non-VCL NAL unit 내에 포함될 수 있다. NAL은 네트워크 추상화 계층(Network Abstraction Layer)을 의미하고, NUT은 NAL Unit Type을 의미할 수 있다. RBSP는 Raw Byte Sequence Payload를 의미하고, 바이트 정렬(Byte aligned)되어 NAL unit으로 캡슐화되는 신택스를 의미한다. VCL은 Video Coding Layer를 의미한다.
sei_payload (payloadType, payloadSize) { Descriptor
if (nal_unit_type == PREFIX_SEI_NUT || SUFFIX_SEI_NUT)
...
if (payloadType == 135)
mv2x_packing_structure_info (payloadSize)
...
}
[표 2]는 일반적인 SEI 메시지의 신택스를 나타낸다.
일 실시예에 따른 영상 수신 장치(1500)는, nal_unit_type이 PREFIX_SEI_NUT 또는 SUFFIX_SEI_NUT인 경우, 패킹 구조 정보 mv2x_packing_structure_info(payloadSize)를 읽어들일 수 있다.
Descriptor
mv2x_packing_structure_info (payloadSize) { vehicle_position_latitude vehicle_position _longitude vehicle_position_elevation vehicle_transmission_state number_of_pictures packed_picture_capture_time_base packed_picture_width packed_picture_height packed_picture_num_units_in_tick packed_picture_time_scale guard_band_flag for (i=0; i< number_of_pictures; i++) { camera_location_virtual_id(i) picture_capture_time_offset(i) projected_picture_width(i) projected_picture_height(i) projected_picture_num_units_in_tick(i) projected_picture_time_scale(i) projected_picture_location_top(i) projected_picture_ location_left(i) projected_picture_rotation (i) if (guard_band_flag == 1) { left_gb_width(i) right_gb_width(i) top_gb_height(i) bottom_gb_height(i) guard_band_type(i) } }} u(32)u(32)u(16)u(3)u(5)u(32)u(16)u(16)u(32)u(32)u(1)u(5)u(32)u(16)u(16)u(32)u(32)u(16)u(16)u(2)u(8)u(8)u(8)u(8)u(2)
[표 3]은 패킹 구조 정보를 포함하는 SEI 메시지의 신택스 구조 mV2X Packing Structure Info SEI message syntax 를 나타낸다. [표 3]에서 u(n) (n은 정수)은 비트스트림으로부터 n 비트를 읽어온 후 읽어온 비트열에서 첫번째 비트를 MSB로 간주하여 부호 없이 해석하는 함수이다.
이하, [표 3]에 포함되는 각 syntax 요소의 시맨틱(semantic)을 설명한다.
vehicle_position_latitude (32 비트) 는 차량과 연관된 패킹 픽쳐가 생성될 때 차량의 지리적인 위도를 나타내는 필드이다. 위도는, 32 비트 값으로 1/10 th 정수 마이크로 도(microdegrees)로 표현되며 사용되고, 사용중인 수평 데이텀(horizontal datum)을 기준으로 플러스 마이너스 90도 범위(즉, -900000000 ~ 900000001)를 제공한다. 값 900000001은 사용할 수 없을 때(unavailable) 사용되어야 한다. 이 필드의 MSB는 숫자의 부호를 나타내야 하고, MSB를 0으로 설정하는 것은 양수(즉, 플러스 값) 또는 양수 0에 대한 것이고, MSB를 1로 설정하는 것은 음수 또는 음수 0에 대한 것이다.
vehicle_position_longitude (32 비트) 는 차량과 연관된 패킹 픽쳐가 생성 될 때, 차량의 지리적인 경도를 나타내는 필드이다. 경도는 32 비트 값으로 1/10 th 정수 마이크로 도(microdegrees)로 표현되며 사용되고, 사용중인 수평 데이텀을 기준으로 플러스 마이너스 180도 범위 (즉, -1799999999 ~ 1800000001)를 제공한다. 1800000001 값은 사용할 수 없을 때 사용되어야 한다. 이 필드의 MSB는 숫자의 부호를 나타내야 하고, MSB를 0으로 설정하는 것은 양수 (즉, 플러스 값) 또는 양수 0에 대한 것이고, MSB를 1로 설정하는 것은 음수 또는 음수 0에 대한 것이다.
vehicle_position_elevation (16 비트) 는 차량과 연관된 패킹 픽쳐가 생성될 때, 기준 타원체(일반적으로, WSG-84)의 위 또는 아래의 차량의 지리적 위치를 나타내는 필드이다. 16 비트 수는 1 데시 미터의 분해능을 가지며 양의 값과 음의 값의 비대칭 범위를 나타낸다. 이 필드는 다음과 같이 인코딩될 수 있다.
범위 0x0000에서 0xEFFF(십진수 0에서 61439까지)는 0에서 +6143.9 미터까지의 고도(즉, 기준 타원체 위)를 나타내는 양수들이다. 범위 0xF001에서 0xFFFF까지의 범위는 -409.5 미터에서 -0.1 미터까지의 고도(즉, 기준 타원체 아래)를 나타내는 음수들이다. +6143.9 미터보다 높은 고도는 0xEFFF로 표시된다. -409.5 미터보다 낮은 고도는 0xF001로 표시된다. 만약, 송신 디바이스가 송신 디바이스의 고도를 모르는 경우, 고도 데이터 요소는 0xF000로 부호화되어야 한다.
예를 들어, 고도 0 미터는 0x0000으로 부호화되고, 고도 -0.1 미터는 0xFFFF로 부호화된다. 고도 +100.0 미터는 0x03E8로 부호화된다.
vehicle_transmission_state (3 비트) 는 차량과 연관된 패킹 픽쳐가 생성 될 때, 차량 전송 상태(state of the vehicle transmission)를 제공하기 위해 이용되는 필드이다. 차량 전송 상태를 나타내는 3 비트 값의 시맨틱은 아래의 [표 4]에 보여진다.
값(Value) 의미(Semantics)
0 중립(Neutral)
1 주차(Park)
2 전진 기어(Forward gears)
3 후진 기어(Reverse gears)
4 Reserved
5 Reserved
6 Reserved
7 사용 불가(unavailable)
number_of_pictures (5 비트) 는 이 필드와 연관된 패킹 픽쳐 내의 프로젝티드 픽쳐의 개수를 나타내는 필드이다.
packed_picture_capture_time_base (32 비트) 는, 이 필드와 연관된 패킹 픽쳐가 생성될 때, 기본 시간(base time)에 기초하여 패킹 픽쳐 내의 각 픽쳐의 시간 차를 제공하기 위해 기본 시간을 나타내는 필드이다. 이 값은 packed_picture_time_scale Hz에서 작동하는 클럭의 단위이다.
packed_picture_width (16 비트) 는 이 필드와 연관된 패킹 픽쳐의 폭(luma width)을 나타내는 필드이다. 값은 0보다 커야 한다.
packed_picture_height (16 비트) 는 이 필드와 연관된 패킹 픽쳐의 높이(luma height)를 나타내는 필드이다. 값은 0보다 커야한다.
packed_picture_num_units_in_tick (32 비트) 는 클럭 틱 카운터의 하나의 증가분(하나의 클럭 틱(a clock tick)이라고 함)에 해당하는 주파수 packed_picture_time_scale Hz에서 작동하는 클럭의 시간 단위 수(the number of time units of a clock operating at the frequency packed_picture_time_scale Hz)를 나타내는 필드이다. 값은 0보다 커야한다. 초 단위의 클럭 틱은 packed_picture_num_units_in_tick을 packed_picture_time_scale로 나눈 몫과 같다. 예를 들어, 비디오 신호의 패킹 픽쳐 레이트가 25Hz 일 때, packed_picture_time_scale은 27 000 000이고, packed_picture_num_units_in_tick은 1 080 000과 같을 수 있고, 따라서 클럭 틱은 0.04 초일 수있다.
packed_picture_time_scale (32 비트) 는 1 초에 통과하는 시간 단위 수를 나타내는 필드이다. 예를 들어, 27MHz 클럭을 사용하여 시간을 측정하는 시간 좌표계는 27 000 000의 packed_picture_time_scale을 갖는다. packed_picture_time_scale의 값은 0보다 커야 한다.
guard_band_flag (1 비트) 는 이 필드와 연관된 패킹 픽쳐가 가드 밴드를 적용하는지 여부를 나타내는 필드이다.
camera_location_virtual_id (i) (5 비트)는 프로젝티드 픽쳐(i)에 대한 차량 내의 카메라 위치를 가상 ID로서 제공한다. 가상 ID는 차량 내의 카메라의 실제 위치에 매핑된다. 카메라의 실제 위치와 가상 ID 간의 매핑 정보는 컨트롤 플레인과 같은 별도의 채널을 통해 제공될 수 있다.
picture_capture_time_offset (i) (32 비트)은 picture_capture_time_base와 이 필드와 연관된 프로젝티드 픽쳐(i)의 캡쳐 시간 간의 시간 차이(즉, 틱 차이)를 주파수 packed_picture_time_scale Hz에서 동작하는 클럭 단위로 나타내는 필드이다.
일 실시예에 따른 패킹 구조 정보에 포함되는 오프셋 정보와 관련하여서, 이하 도 6 및 도 7을 참조하여 구체적으로 설명한다.
도 6은 각 픽쳐의 픽쳐 캡쳐 시간에 기초해서, 복수의 픽쳐들로부터 패킹 픽쳐가 생성되는 타이밍에 관한 예시를 나타낸다. 도 6에 도시된 바와 같이, 복수의 픽쳐 소스들로부터 획득된 복수의 픽쳐들은 픽쳐 캡쳐 시간 및 픽쳐의 프레임 레이트가 서로 다를 수 있다.
도 6에 도시된 바와 같이, 픽쳐 1(611, 612, 613, 614, 615, 616)의 프레임 레이트는 1초에 60프레임이고, 픽쳐 2(621, 622, 623)의 프레임 레이트는 1초에 30 프레임이고, 픽쳐 3(631, 632, 633, 634, 635, 636)의 프레임 레이트는 1초에 60프레임이다.
일 실시예에 따른 패킹부(411)는, 1초에 60프레임으로 구성된 패킹 픽쳐(651, 652, 653, 654, 655, 656)를 생성할 수 있다. 이 때, 픽쳐 1 및 픽쳐 3과 픽쳐 2는 프레임 레이트가 상이하기 때문에, 패킹 픽쳐 내에 포함되는 프로젝티드 픽쳐의 개수가 달라질 수 있다. 도 6에 도시된 바와 같이, 홀수 번째 패킹 픽쳐(651, 653, 655)는 3개의 프로젝티드 픽쳐를 포함하고, 짝수 번째 패킹 픽쳐(652, 654, 656)는 2개의 프로젝티드 픽쳐를 포함한다. 패킹 픽쳐 내에 포함되는 프로젝티드 픽쳐는, 픽쳐 1, 픽쳐 2, 픽쳐 3에 포함되는 적어도 하나의 픽쳐의 사이즈를 축소 또는 확대하거나, 회전함으로써 생성될 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 전송되는 패킹 영상과 관련된 패킹 구조 정보로서 해당 패킹 픽쳐 내에 포함되는 프로젝티드 픽쳐의 개수를 전송할 수 있다. [표 3]의 number_of_pictures 필드가 이용될 수 있다.
일 실시예에 따르면, 복수의 픽쳐 소스들로부터 획득되는 복수의 픽쳐들의 캡쳐 시간은 상이할 수 있다. 캡쳐 시간이란, 픽쳐 소스가 픽쳐를 획득하는 시간(예를 들어, 카메라가 픽쳐를 캡쳐하는 시간), 영상 전송 장치(400)가 픽쳐 소스로부터 픽쳐를 수신하는 시간 또는 일 실시예에 따른 패킹부(411)가 패킹 픽쳐를 생성하기 위해 픽쳐를 획득하는 시간일 수 있다.
도 6에 도시된 바와 같이, 픽쳐 1, 픽쳐 2, 픽쳐 3 각각의 캡쳐 타임이 상이하고, 캡쳐 타임이 동기화 되어 있지 않을 수 있다. 따라서 캡쳐 타임이 동기화 되어 있지 않은 픽쳐들이 하나의 패킹 픽쳐 내에 패킹되어 전송될 경우, 각 픽쳐의 캡쳐 시간 간의 시간 차가 반영되지 않는다는 문제점이 있다.
따라서, 일 실시예에 따른 영상 전송 장치(400)는, 전송되는 패킹 영상과 관련된 패킹 구조 정보로서 해당 패킹 픽쳐 내에 포함되는 프로젝티드 픽쳐들 간의 캡쳐 시간 차이를 나타내는 오프셋 정보를 전송할 수 있다. 예를 들어, 패킹부(411)는, 패킹 픽쳐의 캡쳐 기준 시간(Capture Time Base)과 해당 패킹 픽쳐에 포함되는 프로젝티드 픽쳐의 캡쳐 시간 간의 차이를 패킹 구조 정보에 포함되는 오프셋 정보로서 생성할 수 있다. 일 실시예에 따르면, 패킹 픽쳐의 캡쳐 기준 시간은 packed_picture_capture_time_base 에 기록되고, 캡쳐 기준 시간과 프로젝티드 픽쳐의 캡쳐 시간 간의 차이는 picture_capture_time_offset에 기록될 수 있다.
도 6에는, 일 실시예에 따른 패킹부(411)가 소정 시간 간격의 캡쳐 기준 시간(Tb1, Tb2, Tb3, Tb4, Tb5, Tb6)을 기준으로, 캡쳐 기준 시간에 앞서 소정 시간 이내에 수신된 픽쳐들을 패킹하여 패킹 픽쳐를 생성하는 경우가 예로서 도시된다. 예를 들어, 패킹부(411)는 캡쳐 기준 시간 Tb1을 기준으로, Tb1으로부터 소정 시간 이내에 수신된 픽쳐들(611, 621, 631)을 패킹하여 패킹 픽쳐(651)를 생성한다. 예를 들어, 패킹부(411)는 캡쳐 기준 시간 Tb2를 기준으로, Tb2로부터 소정 시간 이내에 수신된 픽쳐들(612, 632)을 패킹하여 패킹 픽쳐(652)를 생성한다.
도 7에 도시된 바와같이, 일 실시예에 따른 패킹부(411)는, 패킹 픽쳐의 캡쳐 기준 시간(Tb)과 패킹 픽쳐(720)에 포함되는 프로젝티드 픽쳐 1(721)에 대응되는 입력 픽쳐 1(701)의 캡쳐 시간(T1) 간의 차이(Tb-T1)를 프로젝티드 픽쳐 1(721)의 오프셋 정보로서 생성할 수 있다. 또한, 패킹부(411)는, 패킹 픽쳐의 캡쳐 기준 시간(Tb)과 패킹 픽쳐(720)에 포함되는 프로젝티드 픽쳐 2(722)에 대응되는 입력 픽쳐 2(702)의 캡쳐 시간(T2) 간의 차이(Tb-T2)를 프로젝티드 픽쳐 2(722)의 오프셋 정보로서 생성할 수 있다. 또한, 패킹부(411)는, 패킹 픽쳐의 캡쳐 기준 시간(Tb)과 패킹 픽쳐(720)에 포함되는 프로젝티드 픽쳐 3(723)에 대응되는 입력 픽쳐 3(703)의 캡쳐 시간(T3) 간의 차이(Tb-T3)를 프로젝티드 픽쳐 3(723)의 오프셋 정보로서 생성할 수 있다.
다만, 실시예는 도 6 및 도 7에 도시된 예에 제한되지 않는다. 일 예로서, 일 실시예에 따른 패킹부(411)는, 소정 시간 간격 내에 수신되는 픽쳐들을 패킹함으로써 하나의 패킹 픽쳐를 생성하는 동작을 반복 수행함으로써, 소정 시간 간격으로 패킹 픽쳐를 생성할 수 있다. 이 때, 캡쳐 기준 시간은 소정 시간 간격의 시작 시간, 중간 시간, 또는 종료 시간일 수 있다.
다른 예로서, 일 실시예에 따른 패킹부(411)는, 패킹부(411)와 연결된 모든 픽쳐 소스들로부터 적어도 하나의 픽쳐가 수신될 때까지 기다릴 수 있다. 패킹부(411)는, 모든 픽쳐 소스들로부터 적어도 하나의 픽쳐가 수신되면, 수신된 픽쳐들을 패킹함으로써 하나의 패킹 픽쳐를 생성할 수 있다. 이 때, 캡쳐 기준 시간은, 제일 먼저 수신된 픽쳐의 수신 시간, 또는 가장 늦게 수신된 픽쳐의 수신 시간일 수 있다.
또는 카메라를 포함한 영상 전송 시스템 자체가 카메라들간의 픽쳐 캡쳐 시간 차이들을 미리 파악하고 있다가, 개시된 실시예에 따른 영상 전송시 이를 참고하여 캡쳐 기준 시간을 설절할 수 있다. 예를 들어, 개시된 실시예에 따른 영상 전송 장치는, 각 카메라의 픽쳐 캡쳐 시간을 미리 파악하고 있다가, 복수 영상을 패킹할 때 미리 파악된 캡쳐 시간들 중에서 가장 먼저 수신된 픽쳐의 수신 시간, 또는 가장 늦게 수신된 픽쳐의 수신 시간을 캡쳐 기준 시간으로 설정할 수 있다. 개시된 실시예에 영상 전송 장치는 패킹 픽쳐와 패킹을 참고로 하여 캡쳐 기준 시간을 설정하여 패킹 픽쳐와 패킹 구조 정보를 생성할 수 있다. 예를 들어, 개시된 실시예에 따른 영상 전송 장치는, 원격 제어를 지원하는 자율 주행 시스템에 포함될 수 있으며, 차량의 자율 주행 시 차량에 탑재된 각 카메라의 픽쳐 캡쳐 시간을 미리 파악하고 있을 수 있다.
다시 [표 3]으로 돌아와서 mV2X Packing Structure Info SEI message syntax를 설명하면, projected_picture_width (i) (16 비트)는 프로젝티드 픽쳐(i)의 폭(luma width)를 나타내는 필드이다.
projected_picture_height (i) (16 비트)는 프로젝티드 픽쳐(i)의 높이(luma height)를 나타내는 필드이다.
projected_picture_num_units_in_tick (i) (32 비트)는 클럭 틱 카운터의 하나의 증가분(하나의 클럭 틱 (a clock tick)이라고 함)에 대응하는 주파수 projected_picture_time_scale(i) Hz로 동작하는 클럭의 시간 단위 수를 가리키는 필드이다. 값은 0보다 커야한다. 초 단위의 클럭 틱은 projected_picture_num_units_in_tick(i)을 projected_picture_time_scale(i)으로 나눈 몫과 같다. 예를 들어, 비디오 신호의 팩킹 픽처 레이트가 25Hz 일 때, projected_picture_time_scale(i)는 27 000 000이고, projected_picture_num_units_in_tick (i)는 1 080 000과 같을 수 있고, 따라서 클럭 틱은 0.04 초일 수있다.
projected_picture_time_scale (i) (32 비트)는 1 초에 통과하는 시간 단위 수(the number of time units that pass in one second)를 나타내는 필드이다. 예를 들어, 27 MHz 클럭을 사용하여 시간을 측정하는 시간 좌표계는 27 000 000의 projected_picture_time_scale(i)를 갖는다. projected_picture_time_scale(i)의 값은 0보다 커야한다.
projected_picture_location_top (i) (16 비트)는 이 필드와 연관된 패킹 픽쳐 내의 프로젝티드 픽쳐(i)의 위치에 대한 수직 좌표를 제공하는 필드이다. 이 필드와 연관된 패킹 픽쳐 내에서 프로젝티드 픽쳐(i)의 상단 오프셋을 나타낸다.
projected_picture_location_left (i) (16 비트)는 이 필드와 연관된 패킹 픽쳐 내의 프로젝티드 픽쳐(i)의 위치에 대한 수평 좌표를 제공하는 필드이다. 이 필드와 연관된 패킹 픽쳐 내에서 프로젝티드 픽쳐(i)의 좌측 오프셋을 나타낸다.
일 실시예에 따른 패킹 구조 정보에 포함되는 패킹 픽쳐의 크기 정보 및 프로젝티드 픽쳐의 위치 정보와 관련하여서, 이하 도 8을 참조하여 구체적으로 설명한다.
도 8을 참조하면, 일 실시예에 따른 패킹부(411)는, 패킹 구조 정보에 포함되는 패킹 픽쳐(810)의 크기 정보로서 패킹 픽쳐(810)의 높이(811) 및 패킹 픽쳐(810)의 폭(813) 중 적어도 하나의 값을 결정할 수 있다. 일 실시예에 따른 패킹부(411)는, 패킹 픽쳐(810)의 크기 정보로서 패킹 픽쳐(810)의 높이(811)를 packed_picture_heght 필드에 기록하고, 패킹 픽쳐(810)의 폭(813)을 packed_picture_width 필드에 기록할 수 있다.
또한, 일 실시예에 따른 패킹부(411)는, 패킹 구조 정보에 포함되는 프로젝티드 픽쳐의 크기 정보로서 프로젝티드 픽쳐(820)의 높이(821) 및 프로젝티드 픽쳐(820)의 폭(823) 중 적어도 하나의 값을 결정할 수 있다. 일 실시예에 따른 패킹부(411)는, 프로젝티드 픽쳐(820)의 크기 정보로서 프로젝티드 픽쳐(820)의 높이(821)를 projected_picture_heght 필드에 기록하고, 프로젝티드 픽쳐(820)의 폭(823)을 projected _picture_width 필드에 기록할 수 있다.
또한, 일 실시예에 따른 패킹부(411)는, 패킹 구조 정보에 포함되는 프로젝티드 픽쳐의 위치 정보로서 프로젝티드 픽쳐(820)의 상단 오프셋(825) 및 프로젝티드 픽쳐(820)의 좌측 오프셋(827) 중 적어도 하나의 값을 결정할 수 있다. 일 실시예에 따른 패킹부(411)는, 프로젝티드 픽쳐(820)의 위치 정보로서 프로젝티드 픽쳐(820)의 상단 오프셋(825)을 projected_picture_location_top 필드에 기록하고, 프로젝티드 픽쳐(820)의 좌측 오프셋(827)을 projected_picture_location_left 필드에 기록할 수 있다.
한편, [표 3]의 projected_picture_rotation(i) (2 bits)은 이 필드와 연관된 패킹 픽쳐 내에서 프로젝티드 픽쳐의 회전된 상태를 90도 단위로 제공하는 필드이다. 이 값을 0으로 설정하면 프로젝티드 픽쳐(i)가 회전하지 않음을 나타낸다. 이 값을 1로 설정하면 프로젝티드 픽쳐(i)가 90도 회전 (반 시계 방향)한 것을 나타내고, 이 값을 2로 설정하면 프로젝티드 픽쳐(i)를 180도 (시계 반대 방향)로 회전한 것을 나타내고, 이 값을 3으로 설정하면 프로젝티드 픽쳐(i)가 270도(시계 반대 방향)로 회전한 것을 나타낸다.
도 9를 참조하면, 일 실시예에 따른 패킹부(411)는, 패킹 구조 정보에 포함되는 프로젝티드 픽쳐의 회전 정보로서 프로젝티드 픽쳐가 회전된 상태에 대응하는 값을 결정할 수 있다.
일 실시예에 따른 패킹부(411)는, 입력 픽쳐가 회전되지 않은 상태로 패킹 픽쳐에 프로젝션 되는 경우, 입력 픽쳐에 대응하는 프로젝티드 픽쳐(901)의 회전 정보로서 0을 projected_picture_rotation 필드에 기록할 수 있다. 또한, 패킹부(411)는, 입력 픽쳐가 반시계 방향으로 90도 회전된 상태로 패킹 픽쳐에 프로젝션 되는 경우, 입력 픽쳐에 대응하는 프로젝티드 픽쳐(903)의 회전 정보로서 1을 projected_picture_rotation 필드에 기록할 수 있다. 또한, 패킹부(411)는, 입력 픽쳐가 반시계 방향으로 180도 회전된 상태로 패킹 픽쳐에 프로젝션 되는 경우, 입력 픽쳐에 대응하는 프로젝티드 픽쳐(905)의 회전 정보로서 2를 projected_picture_rotation 필드에 기록할 수 있다. 또한, 패킹부(411)는, 입력 픽쳐가 반시계 방향으로 270도 회전된 상태로 패킹 픽쳐에 프로젝션 되는 경우, 입력 픽쳐에 대응하는 프로젝티드 픽쳐(907)의 회전 정보로서 3을 projected_picture_rotation 필드에 기록할 수 있다.
한편, [표 3]의 left_gb_width (i) (8 비트)는 이 필드와 연관된 프로젝티드 픽쳐(i)의 좌측 가드 밴드의 폭(luma width)를 특정하는 필드이다. 좌측 가드 밴드의 높이(luma height)는 이 필드와 관련된 프로젝티드 픽쳐(i)의 높이와 동일하다.
right_gb_width (i) (8 비트)는 이 필드와 연관된 프로젝티드 픽쳐(i)의 우측 가드 밴드의 폭(luma width)를 특정하는 필드이다. 우측 가드 밴드의 높이(luma height)는 이 필드와 관련된 프로젝티드 픽쳐(i)의 높이와 동일하다.
top_gb_height (i) (8 비트)는 이 필드와 연관된 프로젝티드 픽쳐(i)의 상측 가드 밴드(top guard band)의 높이(luma height)를 특정하는 필드이다. 상측 가드 밴드의 폭(luma width)는 이 필드와 관련된 프로젝티드 픽쳐(i)의 폭과 동일하다.
bottom_gb_height (i) (8 비트)는 이 필드와 연관된 프로젝티드 픽쳐(i)의 하측 가드 밴드(bottom guard band)의 높이(luma height)를 특정하는 필드이다. 하측 가드 밴드의 폭(luma width)은 이 필드와 관련된 프로젝티드 픽쳐(i)의 폭과 동일하다. 일 실시예에 따른 패킹 구조 정보에 포함되는 가드 밴드의 크기 정보 및 위치 정보와 관련하여서, 이하 도 10을 참조하여 구체적으로 설명한다.
guard_band_type (i) (2 비트)은 프로젝티드 픽쳐(i)에 적용되는 가드 밴드의 타입을 지정하는 필드이다. 이 값을 0으로 설정하면 가드 밴드의 내용(content)이 지정되지 않은 것으로 지정되며, 이 값을 1로 설정하면 프로젝티드 픽쳐(i)의 경계 샘플이 가드 밴드에 가로 또는 세로로 복사됨을 나타내고, 이 필드의 다른 값은 reserved된다.
도 10을 참조하면, 일 실시예에 따른 패킹부(411)는, 패킹 구조 정보로서 프로젝티드 픽쳐(1020)를 둘러싸는 가드 밴드의 크기 정보를 출력할 수 있다.
일 실시예에 따른 패킹부(411)는, 패킹 구조 정보에 포함되는 가드 밴드의 크기 정보로서 좌측 가드 밴드의 폭(1031), 우측 가드 밴드의 폭(1032), 상측 가드 밴드의 높이(1033), 및 하측 가드 밴드의 높이(1044) 중 적어도 하나의 값을 결정할 수 있다. 일 실시예에 따른 패킹부(411)는, 가드 밴드의 크기 정보로서 좌측 가드 밴드의 폭(1031)을 left_gb_width 필드에 기록하고, 우측 가드 밴드의 폭(1032)을 right_gb_width 필드에 기록하고, 상측 가드 밴드의 높이(1033)를 top_gb_height 필드에 기록하고, 하측 가드 밴드의 높이(1044)를 bottom_gb_height 필드에 기록할 수 있다.
한편, 일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 촬영하는 장치의 상태 정보에 기초하여 패킹 구조를 결정할 수 있다. 예를 들어, 복수의 입력 영상들을 촬영하는 카메라들을 탑재한 차량의 주행 상태가 vehicle_transmission_state 필드에 기록될 수 있다.
예를 들어, 도 4의 영상 전송 장치(400)가 차량에 탑재되어 차량 주변의 영상들을 전송하는 전자 장치인 경우, 차량이 이동하는 방향에 대응하는 프로젝티드 영상의 해상도가 다른 프로젝티드 영상들의 해상도에 비해 높게 패킹 영상 내에 포함되도록 패킹 구조가 결정될 수 있다. 일 실시예에 따르면, 자율 주행 차량이 전진하고 있는 경우는 전방의 상황을 나타내는 프로젝티드 영상의 해상도를 올리고, 후진 하는 경우 후방의 상황을 나타내는 프로젝티드 영상의 해상도를 올림으로써, 원격 제어시 안전한 주행을 도모할 수 있다.
또한, 일 실시예에 따른 영상 전송 장치(400)는, 프로젝티드 영상의 해상도 조절뿐만 아니라, 패킹 영상의 공간을 최대한 활용하기 위해서 입력 영상이 회전된 프로젝티드 영상을 생성하여 패킹 영상 내에 배치할 수 있다. 패킹 영상 내에 포함되는 프로젝티드 영상의 해상도 및 회전 정보는 패킹 구조 정보에 포함되어 전송될 수 있다.
예를 들어, 일 실시예에 따른 복수의 입력 픽쳐들은 제1 입력 픽쳐 및 제2 입력 픽쳐를 포함할 수 있다. 제1 입력 픽쳐는, 복수의 입력 픽쳐들을 촬영하는 장치(예를 들어, 복수의 카메라들이 탑재된 차량)의 전방에 탑재된 카메라로부터 수신되는 픽쳐일 수 있다. 제2 입력 픽쳐는, 복수의 입력 픽쳐들을 촬영하는 장치의 후방에 탑재된 카메라로부터 수신되는 픽쳐일 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 픽쳐들을 촬영하는 장치가 전방으로 이동하는 경우, 패킹 픽쳐 내에 제1 입력 픽쳐가 제2 입력 픽쳐보다 크게 포함되도록 패킹 구조를 결정할 수 있다. 일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 픽쳐들을 촬영하는 장치가 후방으로 이동하는 경우, 패킹 픽쳐 내에 제2 입력 픽쳐가 제1 입력 픽쳐보다 크게 포함되도록 패킹 구조를 결정할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 패킹 픽쳐 내에서 프로젝티드 픽쳐의 크기를 조절함으로써, 전송되는 프로젝티드 픽쳐의 해상도를 조절할 수 있다. 예를 들어, 일 실시예에 따른 영상 전송 장치(400)는, 패킹 픽쳐 내에서 특정 프로젝티드 픽쳐의 크기를 크게함으로써, 해당 프로젝티드 픽쳐의 해상도를 높일 수 있다. 또한, 영상 전송 장치(400)는, 패킹 픽쳐 내에서 특정 프로젝티드 픽쳐의 크기를 작게함으로써, 해당 프로젝티드 픽쳐의 해상도를 낮출 수 있다.
도 11에 도시된 바와 같이 패킹 픽쳐(1110)는 복수의 프로젝티드 픽쳐(111, 112, 113, 114 및 115)를 조합함으로써 생성될 수 있다. 이 때, 복수의 프로젝티드 픽쳐(111, 112, 113, 114 및 115)는 각각 차량의 전방 좌측, 전방 우측, 좌측, 후방, 및 우측에 설치된 카메라들로부터 수신된 입력 픽쳐들의 크기를 조절하거나 회전함으로써 생성된 픽쳐들일 수 있다. 일 실시예에 따른 영상 전송 장치(400)의 패킹부(411)는, 입력 픽쳐들 중 적어도 하나의 입력 픽쳐의 사이즈를 조절하거나 회전함으로써 패킹 픽쳐를 구성하는 프로젝티드 픽쳐들을 생성할 수 있다.
도 11에 도시된 바와 같이, 일 실시예에 따른 영상 전송 장치(400)는 차량이 전진할 경우에는 전방의 상황을 나타내는 프로젝티드 픽쳐(1111, 1112)가 다른 방향의 상황을 나타내는 프로젝티드 픽쳐(1113, 1114, 1115)보다 크게 패킹 픽쳐(1110) 내에 포함되도록 패킹 구조를 결정할 수 있다.
반면에, 일 실시예에 따른 영상 전송 장치(400)는 차량이 후진할 경우에는 후방의 상황을 나타내는 프로젝티드 픽쳐(1134)가 다른 방향의 상황을 나타내는 프로젝티드 픽쳐(1131, 1132, 1133, 1135)보다 크게 패킹 픽쳐(1130) 내에 포함되도록, 패킹 구조를 결정할 수 있다. 일 실시예에 따른 영상 전송 장치(400)는, 결정된 패킹 구조에 기초하여 입력 픽쳐들의 크기를 조절하고 회전함으로써 프로젝티드 픽쳐를 생성할 수 있다.
상술한 실시예들에 따라서 생성된 패킹 영상 및 패킹 구조 정보는 이하의 설명에 따라서 부호화되고 영상 수신 장치(1500)에게 전송될 수 있다.
도 12는 일 실시예에 따른 부호화부의 구조를 도시한다.
도 12에 도시된 바와 같이, 일 실시예에 따른 부호화부(413)는 패킹부(411)로부터 패킹 영상 및 패킹 구조 정보를 수신할 수 있다.
일 실시예에 따른 부호화부(413)는, 입력되는 패킹 영상과 패킹 구조 정보에 기초하여 IP 스트림을 생성하여 출력할 수 있다. 부호화부(413)는, 부호화된 픽쳐 스트림을 생성하고, NAL units을 출력하는 비디오 컴프레서(1210) 및 IP 스트림을 생성하여 출력하는 프로토콜 인캡슐레이터(Delivery Protocol Encapsulator)(1220)를 포함할 수 있다.
비디오 컴프레서(1210)는, 예를 들어, HEVC 부호화기(encoder)를 포함할 수 있다. 비디오 컴프레서(1210)는, 패킹부(411)로부터 패킹 영상과 패킹 구조 정보를 입력 받고, 패킹 영상을 비디오 압축함으로써 부호화된 패킹 영상을 생성할 수 있다. 또한, 비디오 컴프레서(1210)는, 패킹 구조 정보를 SEI message로 생성하고, 부호화된 패킹 영상을 포함하는 압축된 비디오 스트림을 위한 NAL units으로 구성된 비트스트림을 출력할 수 있다.
비디오 컴프레서(1210)는, 통상적인 비디오 코덱(예를 들어, HEVC, H.264 등)과 동일하게, 비디오 데이터의 압축 전송 및 수신을 위한 부호화된 영상과 SEI message등 통상적인 데이터를 모두 포함하는 NAL units들로 구성된 비트스트림을 출력할 수 있다. 다만, 일 실시예에 따르면, 비디오 컴프레서(1210)는 패킹 구조 정보를 SEI message에 추가하여 NAL units들을 생성하는 과정을 추가로 포함할 수 있다.
일 실시예에 따른 프로토콜 인캡슐레이터(1220)는 비디오 컴프레서(1210)로부터 NAL units들로 구성된 비트스트림들을 입력받을 수 있다. 프로토콜 인캡슐레이터(1220)는 입력받은 비트스트림들을 딜리버리 프로토콜(예를 들어, TS, RTP, MMT, FLUS 등)로 캡슐화(Encapsulation)함으로써 IP 스트림을 생성하여 출력할 수 있다.
일 실시예에 따른 영상 전송 장치(400)의 전송부(430)는, 부호화부(413)에서 생성된 IP 스트림을 영상 수신 장치(1500)에게 전송할 수 있다. 일 실시예에 따른 전송부(430)는, 부호화부(413)로부터 IP 스트림을 입력 받아 네트워크를 통해 전송하고, 영상 수신 장치(1500)는 네트워크를 통해 IP 스트림을 수신할 수 있다.
도 13은 일 실시예에 따른 영상 통신 시스템의 프로토콜 스택의 예를 도시한다.
RTCP(Real Time Control Protocol)는 IP 기반 네트워크에서 실시간 데이터 전송을 제어하기 위해 사용될 수 있다. RTCP는, 멀티-채널 오디오 또는 광각 비디오의 혼잡(congestion)을 다루기(handling) 위한 제어 패킷들일 수 있다. RTP(Real-time transport protocol)는 실시간으로 음성이나 통화를 송수신하기 위한 전송 계층 통신 프로토콜이다.
TCP(Transmission Control Protocol) 는 IP 프로토콜 위에서 연결형 서비스를 지원하는 전송계층 프로토콜이고, UDP(User Datagram Protocol)는 하부의 IP 프로토콜을 이용해 비연결형 서비스를 지원하는 프로토콜이다. IP는 인터넷 프로토콜(Internet Protocol)을 의미한다.
예를 들어, 일 실시예에 따른 영상 전송 장치(400) 및 영상 수신 장치(1500) 간의 교섭은, RTCP(Real-time Transport Protocol Control Protocol)와 같은 컨트롤 채널을 통해 이루어 질 수 있다.
도 14는 일 실시예에 따른 영상 통신 시스템의 전체 프로토콜 구조의 예를 도시한다. 예를 들어, 도 14에서 영상 전송 장치(400)는, 자율 주행 차량에 탑재된 전자 장치이고, 영상 수신 장치(1500)는 자율 주행 차량을 원격으로 제어하는 원격 제어 장치일 수 있다.
5G의 체계(framework)가 일 실시예에 따른 영상 통신 시스템에도 이용될 수 있다. 도 14에 도시되는 NR Modem은 5G 통신 방식을 지원할 수 있다. Packet Data Convergence Protocol (PDCP), Radio Link Control (RLC), Media Access Control (MAC), Physical Layer (PHY) 등은 단말과 기지국의 NR 모뎀을 구성하는 통신 프로토콜들이다. UPF, DN 등은 코어 (Core) 네트워크를 구성하는 노드 (Node) 들이다.
도 14에서 영상 전송 장치(400)의 전송부(430)의 프로세싱 순서는, SDAP → PDCP → RLC→ MAC→ PHY 의 순서이며, 영상 수신 장치(1500)의 수신부(1510)의 프로세싱 순서는 그 역순이다.
IMS(IP Multimedia Subsystem)는, 패킹 구조 정보를 포함하는 영상 전송 조건을 교섭하기 위한 절차들을 포함할 수 있다. 일 실시예에 따른 영상 통신 시스템은, 패킹 구조 정보를 IMS를 통해 교섭할 수 있다. 일 실시예에 따른 영상 통신 시스템은, 본격적인 영상 통신을 수행하기 전에(예를 들어, 원격 제어 장치가 차량으로부터 패킹 영상을 수신하고, 수신된 패킹 영상에 기초하여 원격으로 차량을 제어하기 전에) IMS를 통해 전송 경로의 QoS를 설정하고, 필요한 무선 자원을 확보할 수 있다.
도로 상황 파악을 위한 비디오 및 오디오는 uplink를 통해 영상 전송 장치(400)로부터 영상 수신 장치(1500)에게 전송되고, 차량 제어를 위한 컨트롤 데이터는 downlink를 통해 영상 수신 장치(1500)로부터 영상 전송 장치(400)에게 전송될 수 있다. 요구되는 지연 속도(latency)와 무결성(integrity)에 따라 컨트롤 데이터는 TCP, (RTP/)UDP을 통해 전송될 수 있다.
도 14에 도시된 바와 같이 5G에서는 4G 방식과 비교하여, UP 프로토콜 스택 최상단에 SDAP(Service Data Adaptation Protocol)이 추가되며, Serving Gateway (S-GW), Packet Data Network Gateway (P-GW) 등의 노드들이 UPF, DN으로 대체될 수 있다. IP backbone과 영상 수신 장치(1500) 사이의 구간은 패킷 손실율(packet loss rate)은 0으로, 딜레이(delay)는 매우 작은 고정된 값으로 간주될 수 있다.
이하에서는 도 15 내지 도 18을 참조하여, 일 실시예에 따른 영상 수신 장치(1500)가 영상 전송 장치(400)로부터 전송된 IP 스트림을 수신하고, IP 스트림으로부터 복수의 출력 영상들을 출력하는 동작을 설명한다.
도 15는 일 실시예에 따른 영상 수신 장치의 구조를 도시한다.
일 실시예에 따른 영상 수신 장치(1500)는, 네트워크를 통해 수신된 데이터를 처리하여 IP 스트림을 출력하는 수신부(1510) 및 IP 스트림에 기초하여 복수 개의 영상들을 출력하는 프로세서(1530)를 포함할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 복수의 출력 영상들을 적어도 하나의 디스플레이 장치에게 출력할 수 있다. 또는, 일 실시예에 따른 영상 수신 장치(1500)는, 복수의 출력 영상들을 디스플레이 하기 위한 적어도 하나의 디스플레이 장치를 포함할 수 있다.
일 실시예에 따른 프로세서(1530)는 영상 수신 장치(1500)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1530)는, 수신부(1510)를 제어할 수 있다. 도 15에는 영상 수신 장치(1500)가 하나의 프로세서(1530)를 포함하는 것으로 도시되나, 실시예는 이에 제한되지 않으며, 영상 수신 장치(1500)는 복수의 프로세서(1530)들을 포함할 수 있다. 또한, 프로세서(1530)는 영상 전송 장치(400)의 프로세서(410)와 영상 전송 조건을 교섭할 수 있다.
일 실시예에 따른 프로세서(1530)는, 복호화부(1531) 및 디패킹부(1533)를 포함할 수 있다. 도 15에 도시된 복호화부(1531) 및 디패킹부(1533)는, 하드웨어적인 구성일 수도 있고, 프로세서(1530)에 의해 구현되는 기능 블록들일 수 있다. 따라서, 이하에서 서술하는 복호화부(1531) 및 디패킹부(1533)의 동작은 프로세서(1530)에서 수행되는 것일 수 있다.
일 실시예에 따른 프로세서(1530)는, 수신부(1510)로부터 비트스트림을 포함하는 IP 스트림을 수신하고, IP 스트림에 포함된 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하는 복호화부(1531)를 포함할 수 있다. 복호화부(1531)는, NAL units으로 구성된 비트스트림으로부터 부호화된 패킹 영상 및 SEI 메시지를 추출하고, SEI 메시지로부터 패킹 구조 정보를 추출할 수 있다. 복호화부(1531)는, 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득할 수 있다.
일 실시예에 따른 프로세서(1530)는, 패킹 구조 정보 및 패킹 영상에 기초하여, 복수의 출력 영상들을 생성하는, 디패킹부(1533)를 포함할 수 있다.
일 실시예에 따른 패킹 구조 정보는, 패킹 영상에 포함되는 입력 영상들을 촬영하는 장치에 대한 정보, 패킹 영상의 특성을 나타내는 정보, 및 패킹 영상을 구성하는 서브 영상의 특성을 나타내는 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 디패킹부(1533)는, 패킹 구조 정보에 기초하여 패킹 영상으로부터 복수의 출력 영상들을 획득할 수 있다. 프로세서(1530)는, 패킹 구조 정보에 기초하여, 패킹 영상으로부터 복수의 프로젝티드 영상을 획득할 수 있다. 프로세서(1530)는, 패킹 구조 정보에 기초하여, 복수의 프로젝티드 영상들 중 적어도 하나의 프로젝티드 영상의 사이즈를 조절하거나 회전함으로써, 복수의 출력 영상들을 생성할 수 있다.
예를 들어, 일 실시예에 따른 패킹 구조 정보는, 패킹 영상을 구성하는 복수의 프로젝티드 영상들 중 하나의 프로젝티드 영상의 크기에 대한 정보, 패킹 영상 내에서 상기 프로젝티드 영상이 배치되는 위치에 대한 정보, 및 프로젝티드 영상이 입력 영상이 회전된 영상인지 여부에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 패킹 영상에 포함되는 프로젝티드 영상들을 생성하기 위해 이용되는 입력 영상들을 촬영하는 장치(이하, '촬영 장치'라고 함)의 상태 정보에 기초하여, 패킹 영상으로부터 복수의 출력 영상들을 획득할 수 있다. 영상 수신 장치(1500)는, 촬영 장치의 상태 정보에 기초하여 크기가 조절되거나 회전된 복수의 프로젝티드 영상들을 패킹 영상으로부터 획득할 수 있다. 영상 수신 장치(1500)는, 복수의 프로젝티드 영상들의 크기를 조절하거나 회전함으로써 복수의 출력 영상들을 획득할 수 있다.
예를 들어, 일 실시예에 따른 패킹 구조 정보는, 촬영 장치의 상태 정보를 포함하고, 복수의 출력 영상들은, 제1 출력 영상 및 제2 출력 영상을 포함할 수 있다. 제1 출력 영상은, 촬영 장치의 전방에 탑재된 카메라로부터 캡쳐된 입력 영상에 대응하는 영상일 수 있다. 제2 출력 영상은, 촬영 장치의 후방에 탑재된 카메라로부터 캡쳐된 입력 영상에 대응하는 영상일 수 있다.
일 실시예에 따른, 프로세서(1530)는, 패킹 구조 정보에 기초하여 촬영 장치가 전방으로 이동하는 것으로 판단되는 경우, 제1 출력 영상이 제2 출력 영상보다 크도록(또는 해상도가 높도록), 복수의 출력 영상들을 획득할 수 있다. 일 실시예에 따른, 프로세서(1530)는, 패킹 구조 정보에 기초하여 촬영 장치가 후방으로 이동하는 것으로 판단되는 경우, 제2 출력 영상이 제1 출력 영상보다 크도록(또는 해상도가 높도록), 복수의 출력 영상들을 획득할 수 있다. 촬영 장치의 상태 정보에 따라 영상 수신 장치(1500)가 출력하는 출력 영상의 크기 또는 해상도가 달라지는 것은, 앞서 도 11을 참조하여 설명한 바와 같이, 일 실시예에 따른 영상 전송 장치(400)가 촬영 장치의 상태 정보에 기초하여 패킹 구조를 결정하기 때문이다.
또한, 일 실시예에 따른 영상 수신 장치(1500)는, 패킹 구조 정보에 포함되는 오프셋 정보에 기초하여 복수의 출력 영상들을 출력할 수 있다. 예를 들어, 복수의 출력 영상들은, 제1 출력 영상 및 제2 출력 영상을 포함할 수 있다. 영상 수신 장치(1500)는, 제1 출력 영상을 출력하고, 패킹 구조 정보에 포함되는 오프셋 정보에 기초하여 결정된 시간 뒤에 제2 출력 영상을 출력할 수 있다.
영상 수신 장치(1500)가 복수의 출력 영상들을 출력하기 위해 이용하는 오프셋 정보와 관련하여서는, 도 6 및 도 7과 관련하여서 설명한 오프셋 정보에 대한 내용이 적용될 수 있다. 중복되는 설명은 생략한다. 영상 수신 장치(1500)가 오프셋 정보에 기초하여 출력 영상을 출력하는 구체적인 방법과 관련하여서는 후에 도 18a 및 도 18b를 참조하여 구체적으로 설명한다.
도 16은 일 실시예에 따른 복호화부의 구조를 도시한다. 일 실시예에 따른 복호화부(1531)는, 입력되는 IP 스트림에 포함되는 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하는 파싱부(1630) 및 부호화된 패킹 영상을 복호화하는 비디오 디컴프레서(1650)를 포함할 수 있다.
일 실시예에 따른 복호화부(1531)는, 입력되는 IP 스트림을 디캡슐화(De-capsulation)하여 NAL units으로 구성된 비트스트림을 출력하는 프로토콜 디캡슐레이터(Delivery Protocol Decapsulator)(1610)를 포함할 수 있다. 파싱부(1630)는, 입력되는 비트스트림의 NAL units들로부터 부호화된 패킹 영상과 SEI message를 추출하고, SEI message로부터 패킹 구조 정보를 획득하여 출력할 수 있다. 비디오 디컴프레서(1650)는, 입력되는 부호화된 패킹 영상에 대한 디컴프레션(De-compression)을 통해 복호화된 패킹 영상을 출력할 수 있다. 비디오 디컴프레서(1650)는, 영상 전송 장치(400)의 비디오 컴프레서(1210)에 대응할 수 있다. 예를 들어, 비디오 디컴프레서(1650)는, HEVC 복호화기를 포함할 수 있다.
일 실시예에 따른 복호화부(1531)로부터 출력된 패킹 영상 및 패킹 구조 정보는 도 17의 디패킹부(1533)로 입력된다.
도 17은 일 실시예에 따른 디패킹부의 구조를 도시한다.
일 실시예에 따른 디패킹부(1533)는, 복호화부(1531)로 부터 출력되는 복호화된 패킹 영상과 패킹 구조 정보에 기초하여 디패킹을 수행한 후, 렌더링을 통해 출력 영상들을 출력할 수 있다. 예를 들어, 디패킹부(1533)는, 적어도 하나의 디스플레이에게 출력 영상들을 출력할 수 있다.
일 실시예에 따른 디패킹부(1533)는, 패킹 구조 정보를 바탕으로 복호화된 패킹 영상을 디패킹함으로써 프로젝티드 영상들을 출력하는 패킹 영상 디패킹부(1710), 및 패킹 구조 정보에 기초하여 프로젝티드 영상들을 렌더링함으로써 출력 영상들을 생성하는 프로젝티드 영상 렌더링부(1720)를 포함할 수 있다.
패킹 영상 디패킹부(1710)는 패킹 구조 정보를 바탕으로, 패킹 영상 내에 포함되는 각 프로젝티드 영상의 위치 정보, 회전 상태 등에 기초하여 프로젝티드 영상들을 획득하고 출력할 수 있다. 프로젝티드 영상 렌더링부(1720)는, 패킹 구조 정보를 바탕으로 결정된 각 프로젝티드 영상의 회전 상태, 해상도, 프레임 레이트, 영상 캡쳐 시간 오프셋에 기초하여 출력 영상들을 출력할 수 있다.
도 18a 및 도 18b는 일 실시예에 따라 오프셋 정보를 적용하여 출력되는 복수의 출력 영상들을 설명하기 위한 도면이다.
도 18a는 일 실시예에 따른 디패킹부(1533)가 패킹 구조 정보에 포함되는 오프셋 정보에 기초하여 출력 영상들을 디스플레이에 출력하는 타이밍의 예를 도시한다.
일 실시예에 따른 영상 수신 장치(1500)는, 오프셋 정보에 기초하여 출력 영상들을 출력함으로써, 복수의 카메라들로부터 캡쳐되는 복수의 영상들의 캡쳐 시간 차이와 동일한 시간차를 갖도록 출력 영상들을 재생할 수 있는 기능을 제공할 수 있다. 따라서, 캡쳐 당시의 상황 그대로 영상들 간의 시간 차를 유지하여 제공함으로써, 보다 사실감 있는 영상들을 사용자에게 전달할 수 있다.
도 18a는 도 7에 도시된 과정을 거쳐 생성된 패킹 영상(720)을 패킹 구조 정보에 기초하여 디패킹하는 과정을 도시한다.
일 실시예에 따른 영상 수신 장치(1500)는, 비트스트림에 포함된 패킹 구조 정보로서, 패킹 영상 내에 포함되는 복수의 프로젝티드 영상들의 오프셋 정보를 획득할 수 있다. 예를 들어, 영상 수신 장치(1500)는 도 18a의 패킹 영상(720)에 대응하는 패킹 구조 정보로서, projected picture 1, projected picture 2, projected picture 3 각각에 대한 오프셋 정보로서 Offset 1, Offset 2, Offset 3을 획득할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 픽쳐 캡쳐 시간 오프셋 값이 Offset 1로 가장 큰 픽쳐 1을 가장 먼저 출력하고, 다음으로 픽쳐 캡쳐 시간 오프셋 값이 큰 픽쳐 3을 (Offset 1-Offset 3) 시간 이후 출력하고, 픽쳐 2를 (Offset 1-Offset 2) 시간 이후 출력할 수 있다. 일 실시예에 따르면, 도 7에 도시된 픽쳐 1, 픽쳐 2, 픽쳐 3의 캡쳐 타이밍과 픽쳐 1, 픽쳐 2, 픽쳐 3의 디스플레이 타이밍을 동일하게 유지할 수 있다.
도 18b는 일 실시예에 따른 영상 통신 시스템에 있어서, 입력 영상들의 캡쳐 타이밍과 출력 영상들의 캡쳐 타이밍을 도시한다. 도 18b에 도시된 바와 같이, 일 실시예에 따르면, 코덱, 네트워크, 프로세싱 딜레이를 제외하면, 모든 영상들은 Offset 1만큼의 동일한 delay를 갖도록 디스플레이될 수 있다.
도 19는 일 실시예에 따른 영상 전송 방법을 나타내는 흐름도이다.
이하에서 서술하는 방법의 각 단계는, 도 4에 도시된 영상 전송 장치(400)의 각 구성들에 의해 수행될 수 있다. 영상 전송 장치(400)와 관련하여 상술한 설명은 이하의 방법들의 각 단계에도 적용될 수 있다.
S1910에서 일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 획득할 수 있다.
S1920에서 일 실시예에 따른 영상 전송 장치(400)는, 패킹 구조에 기초하여 복수의 입력 영상들을 조합함으로써 패킹 영상을 생성할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 패킹 구조에 기초하여 복수의 입력 영상들 중 적어도 하나의 입력 영상의 사이즈를 조절하거나 회전함으로써, 복수의 프로젝티드 영상들을 생성할 수 있다. 일 실시예에 따른 영상 전송 장치(400)는, 복수의 프로젝티드 영상들을 조합함으로써 패킹 영상을 생성할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 어떻게 조합하여 패킹 영상을 생성할 것인지와 관련된 패킹 구조를 결정할 수 있다. 예를 들어, 영상 전송 장치(400)는, 복수의 입력 영상들을 촬영하는 장치의 상태 정보에 기초하여 패킹 구조를 결정할 수 있다.
복수의 입력 영상들이, 제1 입력 영상 및 제2 입력 영상을 포함하는 경우를 예로 들어 설명한다.
일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 촬영하는 장치의 상태 정보에 기초하여, 제1 입력 영상 및 제2 입력 영상의 크기를 어떻게 조절하여 제1 입력 영상 및 제2 입력 영상을 패킹 영상 내에 패킹할지 결정할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 촬영하는 장치가 전방으로 이동하는 경우, 패킹 영상 내에 제1 입력 영상이 제2 입력 영상보다 크게 포함되도록 패킹 구조를 결정할 수 있다. 또한, 일 실시예에 따른 영상 전송 장치(400)는, 복수의 입력 영상들을 촬영하는 장치가 후방으로 이동하는 경우, 패킹 영상 내에 제2 입력 영상이 제1 입력 영상보다 크게 포함되도록 패킹 구조를 결정할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 패킹 구조 정보를 생성하고 출력할 수 있다. 예를 들어, 패킹 구조 정보는, 복수의 입력 영상들을 촬영하는 장치에 대한 정보, 패킹 영상의 특성을 나타내는 정보, 및 패킹 영상을 구성하는 프로젝티드 영상의 특성을 나타내는 정보 중 적어도 하나를 포함할 수 있다.
또한, 패킹 구조 정보는, 패킹 영상을 구성하는 복수의 프로젝티드 영상들 중 하나의 프로젝티드 영상의 크기에 대한 정보, 패킹 영상 내에서 상기 프로젝티드 영상이 배치되는 위치에 대한 정보, 및 프로젝티드 영상이 입력 영상이 회전된 영상인지 여부에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 제1 입력 영상이 캡쳐되는 시간과 제2 입력 영상이 캡쳐되는 시간 간의 차이를 오프셋 정보로서 포함하는 패킹 구조 정보를 생성할 수 있다.
S1930에서 일 실시예에 따른 영상 전송 장치(400)는, 패킹 구조 정보 및 패킹 영상을 포함하는 비트스트림을 생성할 수 있다.
일 실시예에 따른 영상 전송 장치(400)는, 단계 S1920에서 생성된 패킹 영상을 부호화하고, 패킹 구조 정보를 포함하는 SEI 메시지를 생성할 수 있다. 영상 전송 장치(400)는, 부호화된 패킹 영상 및 SEI 메시지를 포함하는 NAL UNITS으로 구성된 비트스트림을 생성할 수 있다.
S1940에서 일 실시예에 따른 영상 전송 장치(400)는, 비트스트림을 포함하는 IP 스트림을 전송할 수 있다. 영상 전송 장치(400)는, 네트워크를 통해 영상 수신 장치(1500)에게 IP 스트림을 전송할 수 있다.
도 20은 일 실시예에 따른 영상 수신 방법을 나타내는 흐름도이다.
이하에서 서술하는 방법의 각 단계는, 도 15에 도시된 영상 수신 장치(1500)의 각 구성들에 의해 수행될 수 있다. 영상 수신 장치(1500)와 관련하여 상술한 설명은 이하의 방법들의 각 단계에도 적용될 수 있다.
S2010에서 일 실시예에 따른 영상 수신 장치(1500)는 비트스트림을 수신할 수 있다. 영상 수신 장치(1500)는 네트워크를 통해 수신된 데이터를 처리하여 비트스트림을 포함하는 IP 스트림을 수신할 수 있다.
S2020에서 일 실시예에 따른 영상 수신 장치(1500)는 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는 NAL units으로 구성된 비트스트림으로부터 부호화된 패킹 영상 및 SEI 메시지를 추출하고, SEI 메시지로부터 패킹 구조 정보를 추출할 수 있다.
일 실시예에 따른 패킹 구조 정보는, 일 실시예에 따른 영상 전송 장치(400)가 생성하여 전송한 정보일 수 있다. 영상 전송 장치(400)가 영상을 전송하는 방법과 관련하여 설명한 패킹 구조 정보에 대한 설명과 중복되는 설명은 생략한다. 예를 들어, 패킹 구조 정보는, 패킹 영상에 포함되는 입력 영상들을 촬영하는 장치의 상태 정보 또는 오프셋 정보를 포함할 수 있다.
S2030에서 일 실시예에 따른 영상 수신 장치(1500)는 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득할 수 있다.
S2040에서 일 실시예에 따른 영상 수신 장치(1500)는 패킹 구조 정보에 기초하여 패킹 영상으로부터 복수의 출력 영상들을 획득할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는 패킹 구조 정보에 기초하여, 패킹 영상으로부터 복수의 프로젝티드 영상을 획득할 수 있다. 영상 수신 장치(1500)는, 복수의 프로젝티드 영상들 중 적어도 하나의 프로젝티드 영상의 사이즈를 조절하거나 회전함으로써, 복수의 출력 영상들을 생성할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 복수의 출력 영상들이 제1 출력 영상 및 제2 출력 영상을 포함하는 경우에 있어서, 패킹 영상에 포함되는 입력 영상들을 촬영하는 장치가 전방으로 이동하는 경우, 제1 출력 영상이 제2 출력 영상보다 크도록, 복수의 출력 영상들을 획득할 수 있다. 영상 수신 장치(1500)는, 촬영 장치가 후방으로 이동하는 경우, 제2 출력 영상이 제1 출력 영상보다 크도록, 복수의 출력 영상들을 획득할 수 있다.
S2050에서 일 실시예에 따른 영상 수신 장치(1500)는 복수의 출력 영상들을 출력할 수 있다.
일 실시예에 따른 영상 수신 장치(1500)는, 제1 출력 영상을 출력하고, 패킹 구조 정보에 포함되는 오프셋 정보에 기초하여 결정된 시간 뒤에 제2 출력 영상을 출력할 수 있다.
영상 수신 장치(1500)는 적어도 하나의 디스플레이 장치 상에 복수의 출력 영상들이 디스플레이 되도록 적어도 하나의 디스플레이 장치에게 복수의 출력 영상들을 출력할 수 있다.
개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 영상 전송 장치 및 영상 수신 장치를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시예들에 따른 전자 장치 또는 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 단말(예로, 영상 전송 장치 또는 영상 수신 장치)로 구성되는 시스템에서, 서버의 저장매체 또는 단말의 저장매체를 포함할 수 있다. 또는, 서버 또는 단말과 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 단말 또는 제3 장치로 전송되거나, 제3 장치로부터 단말로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 단말 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 단말 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 단말이 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 단말이 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다. 구체적인 예로, 제3 장치는 영상 전송 장치 또는 영상 수신 장치를 원격 제어하여, 패킹 영상을 전송 하거나 수신하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.

Claims (15)

  1. 복수의 입력 영상들을 획득하는 단계;
    패킹 구조에 기초하여 상기 복수의 입력 영상들을 조합함으로써 패킹 영상(packed image)을 생성하는 단계;
    상기 패킹 구조 정보 및 상기 패킹 영상을 포함하는 비트스트림을 생성하는 단계; 및
    상기 비트스트림을 포함하는 IP 스트림을 전송하는 단계를 포함하는, 영상 전송 방법.
  2. 제1 항에 있어서,
    상기 패킹 영상을 생성하는 단계는,
    상기 패킹 구조에 기초하여 상기 복수의 입력 영상들 중 적어도 하나의 입력 영상의 사이즈를 조절하거나 회전함으로써, 복수의 프로젝티드 영상들을 생성하는 단계; 및
    상기 복수의 프로젝티드 영상들을 조합함으로써 상기 패킹 영상을 생성하는 단계를 포함하는, 영상 전송 방법.
  3. 제1 항에 있어서,
    상기 복수의 입력 영상들을 촬영하는 장치의 상태 정보에 기초하여 상기 패킹 구조를 결정하는 단계를 더 포함하는, 영상 전송 방법.
  4. 제3 항에 있어서,
    상기 복수의 입력 영상들은, 제1 입력 영상 및 제2 입력 영상을 포함하고,
    상기 패킹 구조를 결정하는 단계는,
    상기 복수의 입력 영상들을 촬영하는 장치가 전방으로 이동하는 경우, 상기 패킹 영상 내에 상기 제1 입력 영상이 상기 제2 입력 영상보다 크게 포함되도록 상기 패킹 구조를 결정하는 단계; 및
    상기 복수의 입력 영상들을 촬영하는 장치가 후방으로 이동하는 경우, 상기 패킹 영상 내에 상기 제2 입력 영상이 상기 제1 입력 영상보다 크게 포함되도록 상기 패킹 구조를 결정하는 단계를 포함하는, 영상 전송 방법.
  5. 제1 항에 있어서,
    상기 복수의 입력 영상들은, 제1 입력 영상 및 제2 입력 영상을 포함하고,
    상기 패킹 구조 정보는,
    상기 제1 입력 영상이 캡쳐되는 시간과 상기 제2 입력 영상이 캡쳐되는 시간 간의 차이를 오프셋 정보로서 포함하는, 영상 전송 방법.
  6. 제1 항에 있어서,
    상기 패킹 구조 정보는,
    상기 복수의 입력 영상들을 촬영하는 장치에 대한 정보, 상기 패킹 영상의 특성을 나타내는 정보, 및 상기 패킹 영상을 구성하는 프로젝티드 영상의 특성을 나타내는 정보 중 적어도 하나를 포함하는, 영상 전송 방법.
  7. 제2 항에 있어서,
    상기 패킹 구조 정보는,
    상기 패킹 영상을 구성하는 복수의 프로젝티드 영상들 중 하나의 프로젝티드 영상의 크기에 대한 정보, 상기 패킹 영상 내에서 상기 프로젝티드 영상이 배치되는 위치에 대한 정보, 및 상기 프로젝티드 영상이 입력 영상이 회전된 영상인지 여부에 대한 정보 중 적어도 하나를 포함하는, 영상 전송 방법.
  8. 제1 항에 있어서,
    상기 비트스트림을 생성하는 단계는,
    상기 패킹 영상을 부호화하는 단계;
    상기 패킹 구조 정보를 포함하는 SEI 메시지를 생성하는 단계; 및
    상기 부호화된 패킹 영상 및 상기 SEI 메시지를 포함하는 NAL UNITS으로 구성된 상기 비트스트림을 생성하는 단계를 포함하는, 영상 전송 방법.
  9. 복수의 입력 영상들을 획득하고, 패킹 구조에 기초하여 상기 복수의 입력 영상들을 조합함으로써 패킹 영상(packed image)을 생성하고, 상기 패킹 구조 정보 및 상기 패킹 영상을 포함하는 비트스트림을 생성하는 프로세서; 및
    상기 비트스트림을 포함하는 IP 스트림을 전송하는 전송부를 포함하는, 영상 전송 장치.
  10. 제9 항에 있어서,
    상기 프로세서는,
    상기 패킹 구조에 기초하여 상기 복수의 입력 영상들 중 적어도 하나의 영상의 사이즈를 조절하거나 회전함으로써, 복수의 프로젝티드 영상들을 생성하고, 상기 복수의 프로젝티드 영상들을 조합함으로써 상기 패킹 영상을 생성하는 패킹부; 및
    상기 패킹 영상을 부호화하고, 상기 패킹 구조 정보를 포함하는 SEI 메시지를 생성하고, 상기 부호화된 패킹 영상 및 상기 SEI 메시지를 포함하는 NAL UNITS으로 구성된 상기 비트스트림을 생성하는 부호화부를 포함하고,
    상기 패킹 구조 정보는,
    상기 복수의 입력 영상들을 촬영하는 장치에 대한 정보, 상기 패킹 영상의 특성을 나타내는 정보, 및 상기 패킹 영상을 구성하는 프로젝티드 영상의 특성을 나타내는 정보 중 적어도 하나를 포함하는, 영상 전송 장치.
  11. 비트스트림을 수신하는 단계;
    상기 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하는 단계;
    상기 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득하는 단계;
    상기 패킹 구조 정보에 기초하여 상기 패킹 영상으로부터 복수의 출력 영상들을 획득하는 단계; 및
    상기 복수의 출력 영상들을 출력하는 단계를 포함하는, 영상 수신 방법.
  12. 제11 항에 있어서,
    상기 복수의 출력 영상들을 획득하는 단계는,
    상기 패킹 구조 정보에 기초하여, 상기 패킹 영상으로부터 복수의 프로젝티드 영상을 획득하는 단계; 및
    상기 복수의 프로젝티드 영상들 중 적어도 하나의 프로젝티드 영상의 사이즈를 조절하거나 회전함으로써, 상기 복수의 출력 영상들을 생성하는 단계를 포함하는, 영상 수신 방법.
  13. 제11 항에 있어서,
    상기 패킹 구조 정보는,
    상기 패킹 영상에 포함되는 입력 영상들을 촬영하는 장치의 상태 정보를 포함하고,
    상기 복수의 출력 영상들은, 제1 출력 영상 및 제2 출력 영상을 포함하고,
    상기 복수의 출력 영상들을 획득하는 단계는,
    상기 장치가 전방으로 이동하는 경우, 상기 제1 출력 영상이 상기 제2 출력 영상보다 크도록, 상기 복수의 출력 영상들을 획득하는 단계; 및
    상기 장치가 후방으로 이동하는 경우, 상기 제2 출력 영상이 상기 제1 출력 영상보다 크도록, 상기 복수의 출력 영상들을 획득하는 단계를 포함하는, 영상 수신 방법.
  14. 비트스트림을 포함하는 IP 스트림을 수신하는 수신부; 및
    상기 수신부로부터 상기 IP 스트림을 수신하고, 상기 IP 스트림에 포함된 상기 비트스트림으로부터 패킹 구조 정보 및 부호화된 패킹 영상을 추출하고, 상기 부호화된 패킹 영상을 복호화함으로써 패킹 영상을 획득하고, 상기 패킹 구조 정보에 기초하여 상기 패킹 영상으로부터 복수의 출력 영상들을 획득하는, 프로세서를 포함하는, 영상 수신 장치.
  15. 제1 항 또는 제11 항의 방법을 수행하는 컴퓨터 프로그램 코드를 저장하는 저장 매체를 포함하는 컴퓨터 프로그램 제품.
PCT/KR2019/008759 2018-07-24 2019-07-16 영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치 WO2020022687A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0086218 2018-07-24
KR1020180086218A KR20200011305A (ko) 2018-07-24 2018-07-24 영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2020022687A1 true WO2020022687A1 (ko) 2020-01-30

Family

ID=69180657

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/008759 WO2020022687A1 (ko) 2018-07-24 2019-07-16 영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20200011305A (ko)
WO (1) WO2020022687A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009225333A (ja) * 2008-03-18 2009-10-01 Toshiba Corp 映像データ転送システム、映像データ転送方法及び映像蓄積装置
WO2012157443A1 (ja) * 2011-05-16 2012-11-22 ソニー株式会社 画像処理装置、及び、画像処理方法
WO2013150944A1 (ja) * 2012-04-06 2013-10-10 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
US20170236260A1 (en) * 2016-02-12 2017-08-17 Samsung Electronics Co., Ltd Method and apparatus for creating, streaming, and rendering hdr images
KR20180028950A (ko) * 2016-09-09 2018-03-19 삼성전자주식회사 3차원 이미지를 프로세싱하기 위한 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009225333A (ja) * 2008-03-18 2009-10-01 Toshiba Corp 映像データ転送システム、映像データ転送方法及び映像蓄積装置
WO2012157443A1 (ja) * 2011-05-16 2012-11-22 ソニー株式会社 画像処理装置、及び、画像処理方法
WO2013150944A1 (ja) * 2012-04-06 2013-10-10 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
US20170236260A1 (en) * 2016-02-12 2017-08-17 Samsung Electronics Co., Ltd Method and apparatus for creating, streaming, and rendering hdr images
KR20180028950A (ko) * 2016-09-09 2018-03-19 삼성전자주식회사 3차원 이미지를 프로세싱하기 위한 방법 및 장치

Also Published As

Publication number Publication date
KR20200011305A (ko) 2020-02-03

Similar Documents

Publication Publication Date Title
WO2021002657A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2013089437A1 (ko) 미디어 컨텐트를 수신하는 장치 및 방법
WO2019147008A1 (ko) 카메라 렌즈 정보를 포함한 360도 비디오를 송수신하는 방법 및 그 장치
WO2018169139A1 (ko) 360도 비디오의 영역 정보 전달 방법 및 장치
WO2016093623A1 (ko) Wfd에서 보조 컨텐츠를 출력하는 방법 및 장치
WO2018043905A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2019009473A1 (ko) 360도 비디오의 영역 기반 처리 방법 및 장치
WO2017003248A1 (en) Apparatus and method for transmitting and receiving signal in multimedia system
EP3314906A1 (en) Method and apparatus for transmitting and receiving signal in multimedia system
WO2016208988A1 (en) Method and apparatus for transmitting and receiving signal in multimedia system
WO2021066445A1 (en) Method, apparatus and computer-readable recording medium for transmitting or receiving vpcc data
WO2015199460A1 (ko) 통신 시스템에서 프레임 송수신 방법 및 장치
WO2020022687A1 (ko) 영상을 전송하는 방법 및 장치, 영상을 수신하는 방법 및 장치
WO2017043943A1 (ko) 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
WO2015194904A1 (ko) Ip 기반 방송 망에서 전송 패킷 압축 기법
WO2020101146A1 (ko) 차량에 탑재되는 단말 장치가 영상을 전송하는 방법 및 차량의 주행을 제어하는 원격 제어 장치가 영상을 수신하는 방법
WO2022005116A1 (ko) 무선 통신 시스템에서 데이터의 송수신을 제어하기 위한 방법 및 장치
WO2018101554A1 (ko) 스트리밍 서비스 제공 방법 및 이를 위한 장치
WO2017200319A1 (ko) 적응형 스트리밍 서비스 제공 방법 및 이를 위한 장치
WO2017193374A1 (en) System and method for presenting a video via transcode
WO2020251250A1 (ko) 영상 스트리밍 방법 및 이를 지원하는 전자 장치
WO2016200078A1 (ko) 멀티미디어 컨텐츠를 공유하는 방법 및 장치
WO2020209478A1 (ko) 픽처를 복수의 타일들로 분할하는 방법 및 장치
WO2020209477A1 (ko) 픽처 파티셔닝에 기반한 코딩 방법 및 장치
WO2019112224A1 (ko) 전자 장치 및 전자 장치의 영상 데이터 전송 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19842033

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19842033

Country of ref document: EP

Kind code of ref document: A1