WO2019098728A1 - 3차원 영상을 처리하는 방법 및 장치 - Google Patents

3차원 영상을 처리하는 방법 및 장치 Download PDF

Info

Publication number
WO2019098728A1
WO2019098728A1 PCT/KR2018/014059 KR2018014059W WO2019098728A1 WO 2019098728 A1 WO2019098728 A1 WO 2019098728A1 KR 2018014059 W KR2018014059 W KR 2018014059W WO 2019098728 A1 WO2019098728 A1 WO 2019098728A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
erp
color
depth
Prior art date
Application number
PCT/KR2018/014059
Other languages
English (en)
French (fr)
Inventor
유성열
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020207017271A priority Critical patent/KR102642418B1/ko
Priority to US16/764,172 priority patent/US11212507B2/en
Publication of WO2019098728A1 publication Critical patent/WO2019098728A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/363Image reproducers using image projection screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/254Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/388Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • This disclosure relates to a method and apparatus for projecting stereoscopic images.
  • the Internet has evolved into the Internet of Things (IoT) network, where information is exchanged between distributed components such as objects in a human-centered connection network where humans generate and consume information.
  • IoT Internet of Things
  • IoE Internet of Everything
  • IoT technology can be an example of the combination of IoT technology with big data processing technology through connection with cloud servers.
  • IoT In order to implement IoT, technology elements such as sensing technology, wired / wireless communication and network infrastructure, service interface technology and security technology are required. In recent years, sensor network, machine to machine , M2M), and MTC (Machine Type Communication).
  • an intelligent IT (Internet Technology) service can be provided that collects and analyzes data generated from connected objects to create new value in human life.
  • IoT can be applied to fields such as smart home, smart building, smart city, smart car or connected car, smart grid, health care, smart home appliances and advanced medical service through fusion and combination of existing IT technology and various industries have.
  • MAF Multimedia Application Format
  • the point cloud information means information stored as a point.
  • Another method of projecting a stereoscopic image onto a plane is to create a patch by mapping the points closest to the XY plane, the YZ plane, and the XZ plane.
  • the process of mapping the patches as much as possible on the 2D plane at intervals of 16x16 is referred to as a " packing process ".
  • point information on a three-dimensional coordinate is mapped onto a 2D plane in a state in which one piece of three-dimensional information such as XY, YZ, and XZ is subtracted.
  • this method can be mapped to a patch only within a section (0 to 255, 8 bits) that maps a distance of a point mapped to a plane. Therefore, in order to map a point at a longer distance, There is uncertainty about the need to launch new patches.
  • the present disclosure provides a method and apparatus for stereoscopic image projection that maps points to blocks within less intervals.
  • the present disclosure provides a stereoscopic image projection method and apparatus for mapping points to blocks using blocks having free angles.
  • the present disclosure provides a method and apparatus for stereoscopic image projection that maps points to blocks using a predetermined pattern.
  • a method of transmitting an image according to the present disclosure includes the steps of acquiring a three-dimensional image, generating an ERP image and a deep ERP image from the three-dimensional image, And transmitting the ERP image and the depth ERP image.
  • Pixels of the color ERP image correspond to pixels of the depth ERP image
  • pixels of the color ERP image include color information
  • pixels of the depth ERP image correspond to depth information of a corresponding pixel of the color ERP image .
  • the step of generating the color ERP image and the depth ERP image from the three-dimensional stereoscopic image comprises the steps of: forming a concentric sphere having a central point on a three-dimensional coordinate point as a center point; Generating the color ERP image based on the color information of the mapped points and generating the depth ERP image based on the depth information of the mapped points, have.
  • the three-dimensional stereoscopic image may include three-dimensional position information of points and color information of the points.
  • the three-dimensional image may further include at least one of texture information of the points, reflectance information of the points, and transparency information of the points.
  • the method of transmitting an image according to the present disclosure may further include transmitting data including occupancy map information.
  • the occupancy map information may include information indicating a location where there is no image data of the color ERP image and the depth ERP image.
  • the occupancy map information is generated as metadata or an ERP image.
  • a method for reconstructing a 3D stereoscopic image according to the present disclosure includes receiving a color ERP image and a deep ERP image, and restoring a 3D stereoscopic image based on the color ERP image and the depth ERP image , Pixels of the color ERP image correspond to pixels of the depth ERP image, pixels of the color ERP image include color information, pixels of the depth ERP image correspond to depth information of corresponding pixels of the color ERP image .
  • the step of reconstructing the three-dimensional stereoscopic image based on the color ERP image and the depth ERP image comprises the step of reconstructing the three-dimensional stereoscopic image based on the depth information of the depth ERP image and the position of the pixel of the depth ERP image, Acquiring position information of a point of the three-dimensional image, acquiring position information of a point of the three-dimensional image, combining color information of a pixel of the color ERP image corresponding to the pixel of the depth ERP image with position information of the corresponding point, And restoring the color information.
  • a method of projecting a stereoscopic image comprising: checking a point value corresponding to an object of the stereoscopic image; And mapping the point value to a block based on the pattern, wherein the pattern is determined based on the distance of the point values orthogonal to the plane and the offset value of the pattern.
  • a method of projecting a stereoscopic image comprising: checking a point value corresponding to an object of the stereoscopic image; And mapping the point value to an angle-based block, wherein the angle is determined to map the point value to a sum of distances having as small a value as possible.
  • an apparatus for projecting a stereoscopic image comprising: a transmitter / receiver for transmitting and receiving data; And a controller for checking a point value corresponding to an object of the stereoscopic image and mapping the point value to a block based on a pattern, the pattern including a distance between point values orthogonal to the plane, And is determined based on the offset value of the pattern.
  • an apparatus for projecting a stereoscopic image comprising: a transmitter / receiver for transmitting and receiving data; And a controller for checking a point value corresponding to an object of the stereoscopic image, and mapping the point value to a block based on an angle, wherein the angle is a distance To the sum of the first and second threshold values.
  • a method is a method of decoding a stereoscopic image, the method comprising: receiving data; A process of determining a pattern; Obtaining angle information and block-point distance information of the block based on the pattern; Acquiring a point value corresponding to an object of the stereoscopic image based on the angle information and the block-point distance information; And decoding the data based on the point value, wherein the pattern is determined based on a distance of the point value orthogonal to the plane and an offset value of the pattern.
  • a method is a method of decoding a stereoscopic image, the method comprising: receiving data; Obtaining angle information and block-point distance information of the block from the block included in the data; Obtaining a point value based on the angle information and the block-point distance information; And decoding the data based on the point value, wherein the angle is determined to map the point value to a sum of distances having the smallest possible value.
  • an apparatus for decoding a stereoscopic image comprising: a transceiver for transmitting and receiving data; And a controller for receiving the data, determining a pattern, obtaining angle information and block-point distance information of the block based on the pattern, and outputting a point value corresponding to the object of the stereoscopic image, And a control unit for controlling the decoding unit to decode the data based on the point value, wherein the pattern includes a distance of the point value orthogonal to the plane and an offset value of the pattern As shown in FIG.
  • an apparatus for decoding a stereoscopic image comprising: a transceiver for transmitting and receiving data; And receiving the data, obtaining angle information and block-point distance information of the block from the block included in the data, obtaining a point value based on the angle information and the block-point distance information, The angle is determined so as to map the point value to a sum of distances having the smallest value as much as possible.
  • This disclosure is capable of mapping points to blocks using fewer intervals.
  • the present disclosure can reduce the size of information because the distance between the pattern and the point applied to the block is smaller than the plane.
  • the present disclosure can reduce the energy required for a representation by expressing points using blocks with free angles.
  • the present disclosure can effectively project a stereoscopic image onto a 2D plane by mapping points to blocks using a predetermined pattern.
  • the present disclosure can project an object in a real space onto a virtual space.
  • FIG. 1 is a view showing an object surface in a three-dimensional space according to the present disclosure
  • FIG. 2 is a view showing an object surface in a three-dimensional space when the first block according to the present disclosure is inclined in an arbitrary direction.
  • FIG 3 is a view showing an object surface in a three-dimensional space when the first block according to the present disclosure is inclined in an arbitrary direction and the first block has another block.
  • FIG. 4 is a diagram showing a first block according to the present disclosure and a case where there are a plurality of child blocks having the parent block as the parent block.
  • FIG. 5 is a diagram showing a first block according to the present disclosure, and child blocks having the parent block as a parent block and a child block as a parent block.
  • FIG. 5 is a diagram showing a first block according to the present disclosure, and child blocks having the parent block as a parent block and a child block as a parent block.
  • FIG. 6 is a diagram illustrating information included in a parent block when a parent block and a child block according to the present disclosure exist.
  • FIG. 7 is a view showing an example in which the parent block and the child block according to the present disclosure exist on the same plane.
  • FIG. 8 is a diagram showing another example in which the parent block and the child block according to the present disclosure exist on the same plane.
  • FIG. 9 is a block diagram and a point diagram according to the present disclosure.
  • Fig. 10 is a diagram showing mapping points 1001 on a three-dimensional space according to the present disclosure to a block.
  • FIG. 11 is a diagram illustrating a stereoscopic image projection method according to the present disclosure.
  • FIG. 12 is a detailed view illustrating a stereoscopic image projection method according to the present disclosure.
  • FIGS. 13A and 13B are views showing another example of a stereoscopic image projection method according to the present disclosure in detail.
  • 16 is a flow chart of operations in a receiver according to the present disclosure.
  • 17 is a flowchart of the operation in the receiver according to the present disclosure.
  • FIG. 18 shows a block diagram of a transmitter according to the present disclosure.
  • FIG. 19 shows a block diagram of a receiver according to the present disclosure.
  • Figure 20 illustrates an example of a dynamically acquired point cloud image according to the present disclosure.
  • 21 is an exemplary diagram for explaining a method of processing a point cloud image according to the present disclosure.
  • FIG. 22 is an exemplary diagram showing a virtual concentric circle corresponding to a point cloud image.
  • FIG. 23 is an exemplary diagram for explaining a method of processing a point cloud image based on a color ERP image and a depth ERP image according to the present disclosure.
  • 25 is an exemplary diagram illustrating a color ERP image, a depth ERP image, and a time ERP image according to the present disclosure.
  • 26 is an exemplary view showing an arrangement of an image capturing apparatus according to the present disclosure.
  • FIG. 27 is an exemplary view showing the arrangement of a plurality of image capturing devices 2710 and 2720 according to the present disclosure.
  • 29 is an exemplary view for explaining a method of determining centers of a plurality of concentric spheres according to the present disclosure
  • FIG. 30 is an exemplary view for explaining a method of determining the center of a concentric circle according to the present disclosure
  • 31 is an exemplary view for explaining a method of determining the center of a concentric circle according to the present disclosure
  • 32 is an exemplary view for explaining a method of representing depth information on a concentric sphere according to the present disclosure
  • 33 is an exemplary view for explaining a method of representing depth information on a concentric sphere according to the present disclosure
  • 34 is an exemplary diagram for explaining a method of processing image information according to the present disclosure.
  • 35 is an exemplary diagram for explaining a method of processing image information according to the present disclosure.
  • 36 is a schematic diagram for explaining an intra frame compression process according to the present disclosure.
  • 38 is an exemplary view for explaining a method of inserting patches into a grid according to the present disclosure.
  • 39 is a flowchart of a procedure for explaining an image acquisition method according to the present disclosure.
  • the present disclosure provides a method and apparatus for mapping point information on a three-dimensional space to a two-dimensional plane block (a pixel block sized 2 n x 2 m ). To this end, in the first embodiment of the present disclosure, points are mapped to blocks based on free angles.
  • points are mapped to blocks based on a pattern.
  • the present disclosure proposes a pattern usage method for effectively indicating the distance of a point projected on a planar block.
  • FIG. 1 is a view showing an object surface in a three-dimensional space according to the present disclosure
  • an object surface 100 in a three-dimensional space such as a pixel of a 2D image, is recognized in points and mapped on a virtual space.
  • the point has coordinate information indicating coordinates (X, Y, Z) of an object and color information such as R, G and B and other attributes (for example, reflectance, transparency, etc.).
  • the information on the 3D space includes coordinate information such as X, Y, and Z, and color information such as R, G, and B with reference to Table 1 above.
  • 211, 63, 61, 210, 63, 63, 211, 62, 63, 211, 63, 62, 211, 63, 63 in Table 1 are the same as X, Y, Z Coordinate information.
  • FIG. 2 is a view showing an object surface in a three-dimensional space when the first block according to the present disclosure is inclined in an arbitrary direction.
  • FIG. 2 assumes that there is only one block, and block 201 is referred to as the first block.
  • the first block 201 at the object surface 201 may be tilted in any direction and one point 205 at the top of the block 207 and another point at the bottom of the block 207 (205) are mapped closest to each other.
  • the direction and angle of a block on a 3D coordinate system are less error as the degree of freedom is increased, and the number of bits of the data constant for representing the direction increases.
  • the angle may be divided into the 45 degree angle or the 22.5 degree angle, but the angle may be further divided into a finer angle (for example, 10 degrees).
  • FIG 3 is a view showing an object surface in a three-dimensional space when the first block according to the present disclosure is inclined in an arbitrary direction and the first block has another block.
  • FIG. 3 assumes that there are two blocks, block 201 is the first block, and block 301 is the next block.
  • the block 301 is a block adjacent to the block 201 and has an angle of, for example, 22.5 degrees with respect to the block 201, for example.
  • FIG. 4 is a diagram showing a first block according to the present disclosure and a case where there are a plurality of child blocks having the parent block as the parent block.
  • Blocks 401a to 401b are arranged in a direction extending from the upper end, the lower end, the left end, and the right end as an example of the first block 201, and the first block 201 is referred to as a parent ) Is a child block.
  • FIG. 5 is a diagram showing a first block according to the present disclosure, and child blocks having the parent block as a parent block and a child block as a parent block.
  • FIG. 5 is a diagram showing a first block according to the present disclosure, and child blocks having the parent block as a parent block and a child block as a parent block.
  • the child blocks are arranged in a direction extending from the upper end, the lower end, the left end, and the right end, as an example of the first block 201.
  • the child block (block 1) 501 of the child blocks may have another child block (block 2) 503, wherein the block 1 501 is a parent block of the block 2 503 do.
  • FIG. 6 is a diagram illustrating information included in a parent block when a parent block and a child block according to the present disclosure exist.
  • the parent block includes information indicating whether a child block exists in three or four directions, and includes the progress angle information of the child block from one direction of the parent block when the child block exists.
  • FIG. 7 is a view showing an example in which the parent block and the child block according to the present disclosure exist on the same plane.
  • angleChildOnRight 22.5
  • angleChildOnRight 22.5
  • the child block has child block information for the direction of the parent block and the remaining three directions among the four directions.
  • FIG. 8 is a diagram showing another example in which the parent block and the child block according to the present disclosure exist on the same plane.
  • FIG. 9 is a block diagram and a point diagram according to the present disclosure.
  • FIG. 9 (a) is a planar block diagram of a three-dimensional space image
  • FIG. 9 (b) is a point drawing of a three-dimensional space image.
  • Fig. 9 (a) shows planar blocks covering the three-dimensional object
  • Fig. 9 (b) shows a cross section of Fig. 9 (a).
  • the block is located on a three-dimensional space in the vicinity of the object, and the angle of the block is determined such that the sum of the distances between the points on the surface of the object existing on the three-dimensional space and the block is minimum. If the angle of the block is determined such that the sum of the distances between the points of the object and the block is minimized, the compression effect can be enhanced by mapping the points to the block.
  • the points of the object may be points on the surface of the object, and may be points within the object. Typically, the points on the surface of the object are mapped to patches, and the points within the object are sequentially mapped to patches. The points of the object are mapped to the patches until the processing is completed for all the points.
  • FIG. 10 is a diagram for explaining a method of mapping a point 1005 of an object existing in a three-dimensional space to the block 1003 according to the present disclosure.
  • 10 (a) is a cross-sectional view showing that blocks are arranged so that points of an object existing in a three-dimensional space can be mapped to a block (patch).
  • 10 (b) is an enlarged view of a portion 1001 of FIG. 10 (a).
  • the sum of the block-point distances is determined based on the sum of the orthogonal distances between the plane 1003 and the points 1005 of the block.
  • the sum of the orthogonal distances between the plane 1003 of the block and the points 1005 means the sum of the distances of the points 1005 orthogonal to the plane 1003 of each block 1005.
  • the information of the block 1003 includes the information of the first block information and the child blocks. That is, the information of the block 1003 includes, for example, the first block information and the position information (i.e., angle) of the child blocks.
  • the position information of the blocks in this specification includes angle information.
  • the information of the block may be included in the metadata or included in the block data.
  • FIG. 11 is a diagram illustrating a stereoscopic image projection method according to the present disclosure.
  • a point is mapped to a block based on a pattern
  • Fig. 11 shows a pattern 1101.
  • the block may be configured to have one of the predefined patterns 1101.
  • the patterns in this disclosure are shareable at the transmitter and receiver and can be stored at the transmitter and receiver, respectively.
  • the pattern 1101 is determined by the number of sums in the case of configuring the offset value of each coordinate constituting the block from 0 to 2 k steps.
  • the horizontal and vertical lengths of the blocks are the same, and the coordinates are, for example, divided into eight steps. For example, eight offset values are given, and thus 64 patterns can be generated.
  • mapping of the block and the point is determined by a pattern in which the sum of the residuals is the smallest by limiting the distance of each point orthogonal to the plane of the block to the offset value of the pattern.
  • FIG. 12 is a detailed view illustrating a stereoscopic image projection method according to the present disclosure.
  • Fig. 12 (a) determines one of 64 patterns 1101. Fig.
  • the pattern is determined based on the distance of the point value orthogonal to the plane and the offset value of the pattern, and the position information of the block and the block-point distance can be known through the determined pattern.
  • Block 1201 maps points to blocks based on the determined pattern. It is preferable that the mapping of the block and the point is determined by limiting the distance of each point orthogonal to the plane of the block to the offset value of the pattern, and summing the residuals into one pattern having the smallest result value.
  • FIG. 12C shows another block from the block of FIG. 12B.
  • FIG. 12D shows a process of obtaining exclusive OR (XOR) for the block of FIG. 12B and another block of FIG. 12C.
  • XOR exclusive OR
  • Taking the XOR is an example, and may be omitted.
  • the method of taking absolute values and subtracting them can also be omitted.
  • the point values can be obtained through the block of FIG. 12 (d).
  • FIGS. 13A and 13B are views showing another example of a stereoscopic image projection method according to the present disclosure in detail.
  • FIG. 13A shows a pattern in which a pattern is inverted in a positive direction or a negative direction (1301, 1303) so that the pattern and the point are mapped as much as possible.
  • FIG. 13B then subtracts the offset and point distance of the pattern and determines a difference value between positive and negative.
  • the block may include its pattern number and the pattern direction (positive direction / negative direction), and additionally may include a positive / negative difference value.
  • the information of the block can have information of the pattern used by the blocks.
  • the information of the pattern may include the width and height of the pattern and the number of the patterns, or the pattern itself.
  • a block is developed for the points to be stored and mapped according to the distance between the block and the point. If there are remaining points except for the mapped points through the development of the primary block, the development of the secondary block is performed. If the point to be mapped is not left after the development of the repeated block, the development of the block is stopped. And stores the first block information and child block information for each expansion.
  • step 1401 the transmitter checks the point value.
  • the transmitter maps the point value to the block in step 1403, and obtains the block information and the block-point distance information from the block.
  • the block information includes angle information.
  • the angle information is determined to map the point value to a sum of distances having the smallest possible value.
  • the transmitter checks the point value in step 1501. [ The transmitter determines the pattern in step 1503. The pattern is determined based on the distance of the point values orthogonal to the plane and the offset value of the pattern.
  • the transmitter may map the point value to the determined pattern in step 1505 and obtain block information and block-point distance information from the pattern.
  • 16 is a flow chart of operations in a receiver according to the present disclosure.
  • step 1601 the receiver receives the data.
  • step 1603 the receiver obtains block information and block-point distance information from the block.
  • the receiver decodes the data based on the information obtained in step 1605.
  • 17 is a flowchart of the operation in the receiver according to the present disclosure.
  • step 1701 the receiver receives data from the transmitter.
  • the receiver checks the pattern in step 1703.
  • the pattern is determined based on the distance of the point value orthogonal to the plane and the offset value of the pattern.
  • step 1705 the receiver obtains block information and block-point distance information from the determined pattern.
  • the receiver decodes the data based on the information obtained in step 1707.
  • FIG. 18 shows a block diagram of a transmitter according to the present disclosure.
  • the transmitter includes a transmitter / receiver 1820, a memory 1830, and a controller 1810.
  • the transmitter / receiver 1820 includes a transmitter module and a receiver module for transmitting / receiving data to / from a receiver according to the present disclosure.
  • the controller 1810 performs the operations of the transmitter illustrated in FIGS. That is, the controller 1810 confirms a point value corresponding to an object, maps the point value to a block based on a pattern, and the pattern includes a distance of a point value orthogonal to the plane, Based on the offset value.
  • the memory unit 1030 stores various data of the transmitter.
  • FIG. 19 shows a block diagram of a receiver according to the present disclosure.
  • the receiver includes a transmitter / receiver 1920, a memory 1930, and a controller 1910.
  • the transmitter / receiver 1920 includes a transmitter module and a receiver module for transmitting / receiving data to / from the centralized remote channel monitor according to the present disclosure.
  • the controller 1910 performs operations of the receiver illustrated in FIGS. 1 to 13 and 16 to 17. That is, the controller 1910 receives the data, determines a pattern, obtains angle information and block-point distance information of the block on the basis of the pattern, and calculates a point corresponding to an object of the stereoscopic image Obtaining a value based on the angle information and the block-point distance information; And to decode the data based on the point value.
  • the pattern is determined based on the distance of the point value orthogonal to the plane and the offset value of the pattern.
  • the controller 1910 receives the data, obtains the angle information and the block-point distance information of the block from the block included in the data, and calculates the point value based on the angle information and the block- And to decode the data based on the point value, and the angle is determined to map the point value to a sum of distances having a value with the smallest possible value.
  • Figure 20 illustrates an example of a dynamically acquired point cloud image according to the present disclosure.
  • TMC3 test model category 3
  • PCC point cloud compression
  • TMC2 test model category 2
  • the three-dimensional image information can be divided into object image information and scene image information.
  • the object image information combines omnidirectional image data obtained by photographing one object in all directions using a plurality of cameras to generate three-dimensional image information.
  • the object image information usually includes image information on the surface of the objects or image information from the surface to a certain depth.
  • a three-dimensional image including internal structure information of an object can be generated through X-ray radiography with high transparency.
  • Scene image information can acquire omnidirectional information at the current position using an image acquisition device such as LiDAR (light detection and ranging).
  • the object image information is mainly used for image information obtained by photographing an object with a plurality of cameras existing outside the object, whereas the scene image information differs in that the image information for all directions is acquired at a specific position (center point).
  • the scene image information also includes the three-dimensional position information of the object, but differs from the object image information in that the position information of only the portion of the object visible at the center point is obtained. It is a matter of course that a plurality of LiDAR devices can be used in order to widen the visible region of the scene image information.
  • the object image information separates the surface of the object into a patch shape and reconstructs it as a two-dimensional image. Since the position of each patch is determined as a three-dimensional position according to the three-dimensional shape of the object, the position information of each patch is stored in association with the two-dimensional image or as separate metadata.
  • the scene image information can be processed by using the method of processing the object image information.
  • the scene image information may be a point cloud image.
  • the central hollow portion indicates the position where the LiDAR device is placed, and the LiDAR device can emit the laser and measure the laser reflected by the objects to obtain the position of the object.
  • the scene image information can be expressed on the surface of the concentric sphere around the LiDAR position.
  • the LiDAR device mounts the LiDAR device on the vehicle, to acquire the scene images in real time by the LiDAR device while the vehicle is moving, and to generate the three-dimensional map data based on the position of the vehicle and the acquired scene images.
  • the position information of the vehicle and the position of the vehicle can be obtained using a global position system (GPS) mounted on the vehicle.
  • GPS global position system
  • necessary scene image information may be sufficient as a portion visible at the corresponding position, so that scene image information can be efficiently stored by mapping scene image information on the surface of the concentric sphere.
  • a color ERP (equiretangular projection) image and a deep ERP image can be generated.
  • the image acquisition device may acquire one or more point cloud images.
  • the one or more point cloud images may be displayed superimposed on one three-dimensional coordinate.
  • the one or more point cloud images may be dynamically acquired images.
  • the image acquisition device is capable of acquiring the one or more point cloud images, and the image acquisition device is mounted on a vehicle, and while the vehicle is moving, Images can be acquired dynamically.
  • the point cloud images may include color, distance, and time information.
  • 21 is an exemplary diagram for explaining a method of processing a point cloud image according to the present disclosure.
  • TMC1, TMC2 and TMC3 are defined and discussed in MPEG (moving picture expert group). However, TMC3 has not been actively discussed. A method capable of processing image data of TMC3 is proposed using a processing method defined by TMC2.
  • the TMC (Test Model Category) includes TMC1, TMC2, and TMC3 for processing point cloud images using the MPEG standard.
  • TMC1 discloses a method for processing static objects and scenes
  • TMC2 discloses a method for processing 3D object dynamic objects
  • TMC3 uses 3D dynamic data acquisition The method comprising:
  • the surface of the three-dimensional object image is divided into patches and processed in the patch generation process.
  • a first two-dimensional image including patches separated during packing is reconstructed, and a second two-dimensional image including position information and depth information corresponding to the reconstructed first two-dimensional image is generated.
  • a geometric image may be generated based on the first two-dimensional image and the second two-dimensional image, and a texture image may be generated.
  • padding data is added to the generated geometric image and the generated texture image to generate a padded geometric image and a padded texture image.
  • the padded geometry image and the padded texture image are output as a bitstream through video compression.
  • occupancy map information may be generated.
  • the occupancy map information may be compressed and transmitted.
  • additional patch information can be generated and compressed.
  • the occupancy map information and the additional patch information may be included in the bitstream or transmitted in separate metadata.
  • FIG. 22 is an exemplary diagram showing a virtual concentric circle corresponding to a point cloud image.
  • the three-dimensional map data is represented by a point cloud image.
  • a virtual concentric sphere 2210 having the position of the image acquisition device as a center point is generated to acquire the position on the concentric circle corresponding to each point of the point cloud image of the three-dimensional map data.
  • the method includes generating a color equi-angular projection image by associating image information of each point of the point cloud image with a position on the concentric circle 2210 and extracting depth information of each point of the point- To generate a deep equi-angled projection image.
  • Each point of the generated color ERP image corresponds to each point of the created depth ERP image.
  • the ERP image can restore the 3D map data using the color ERP image and the depth ERP image.
  • the color ERP image and the depth ERP image can be generated by mapping all the points of the three-dimensional map data to corresponding points on the concentric sphere.
  • the ERP method represents a method of projecting an image of a spherical surface onto a two-dimensional plane by a method similar to the Mercator projection of a map projection method.
  • the concept of latitude and longitude is used in the ERP method, as well as in terms of latitude and longitude, according to latitude and longitude.
  • the ERP image according to the ERP method shows the unit of the vertical length from -90 degrees (south pole) to +90 degrees (north pole) as a latitude unit, and the unit of the horizontal length is expressed in units of hardness from -180 degrees to +180 degrees Or from 0 to 360 degrees.
  • the ERP images according to the ERP method are overestimated in the vicinity of the North Pole and the Antarctic, and relatively close to the equator.
  • ERP images near the equator are used as they are, and ERP images in the vicinity of the north and south poles are further compressed and packed according to the triangle or trapezoid packing method, Can be used.
  • the ERP image since the ERP image includes positional information in the image itself, it has a merit of being capable of high compression rate and fast processing. However, information about the vicinity of the North and South poles is overestimated, and distortions .
  • FIG. 23 is an exemplary diagram for explaining a method of processing a point cloud image based on a color ERP image and a depth ERP image according to the present disclosure.
  • the color ERP image is processed in a process of generating a geometric image of TMC2 of MPEG
  • the deep ERP image may be processed in a process of generating a texture image of TMC2 of MPEG.
  • the color ERP image 2310 and the deep ERP image 2320 can be generated from the three-dimensional image information 2330. That is, the color ERP image 2310 can be generated in the geometric image generation process 2350 And the deep ERP image 2320 can be generated in the texture image generation process 2360. [ It will be appreciated that the depth ERP image 2320 may be generated in the geometric image generation process 2350 or the color ERP image 2310 may be generated in the texture image generation process 2360 since it is an exemplary one.
  • the pixels of the color ERP image can be processed according to the method of ARGB (alpha-red-green-blue), and the pixels of the depth ERP image contain depth information.
  • the depth information of the pixels of the deep ERP image may have a value of a linear scale, and may have a value of a logarithmic scale. Since the depth information of the pixels of the depth ERP image may have a value between the minimum depth value and the maximum depth value, the minimum depth value and the maximum depth value may be transmitted as separate metadata or recorded in the header of the deep ERP image, It is possible to increase the precision between the minimum depth value and the maximum depth value in proportion to the allowed data size.
  • the depth information can be stored according to the log scale method to increase the data storage efficiency.
  • the density of the object is uniform between the minimum depth value and the maximum depth value, The depth information can be stored according to the linear scale method, thereby increasing the data storage efficiency.
  • a logarithmic scale method may be suitable.
  • the vehicle is moving using the LiDAR mounted on the vehicle to acquire a plurality of scene images and generate three-dimensional map data based on the plurality of scene images, it is preferable that the density of the objects is relatively uniform In this case, a linear scale method may be suitable.
  • the points on the concentric spheres correspond to the three-dimensional map data.
  • LiDAR Light detection and ranging
  • the LiDAR is rotated and scanned along the spherical surface perpendicular to the direction of the end point (south pole) from the starting point (north pole) of the concentric sphere.
  • FIG. 24A shows that the scanning direction of LiDAR is shifted from the north pole to the south pole. According to the scanning order, three-dimensional map data can be obtained.
  • An equipotential projection (ERP) method can be used as a method of processing an omnidirectional image.
  • the ERP method is a method of projecting an image of a spherical surface onto a rectangular area. Since the ERP image is over-represented in the North and South directions and the equatorial part is expressed relatively accurately, various methods of packing ERP images have been proposed.
  • Fig. 24A shows a scanning sequence of LiDAR in a three-dimensional concentric circle
  • Fig. 24B shows a scanning sequence in 360 two-dimensional image (ERP image)
  • Fig. 24C shows a scanning sequence in an ERP image Time ERP image in which the scanning order is represented by time data.
  • the initial time value and the last time value can be recorded in separate meta data or written in the header of the time ERP image.
  • the initial time may be represented by 0
  • the last time may be represented by 255
  • the interval between the initial time value and the last time value may be divided by 255.
  • the initial time value and the last time value can be determined according to the inherent characteristics of the LiDAR device, so that the scanning time of the LiDAR device can be estimated experimentally in accordance with latitude and longitude.
  • the time corresponding to the color ERP image and the depth ERP image is known by writing the scanning time in each pixel of the time ERP image have.
  • the position information of the three-dimensional image can be more accurately restored based on the color ERP image, the depth ERP image, and the time ERP image when the vehicle equipped with the LiDAR device moves or the observed objects move.
  • Each pixel in Fig. 24 (c) is represented by a number indicating the scanning time. The darker the color, the more likely it was injected. The lighter the color, the later the injection, or vice versa. This is for the sake of understanding, and the method of data sampling of the scanning time may vary. For example, it can be applied similarly to the actual time, and the scan time can be expressed in the time unit of the log scale.
  • 25 is an exemplary diagram illustrating a color ERP image, a depth ERP image, and a time ERP image according to the present disclosure.
  • the color ERP image 2510, the deep ERP image 2520 and the time ERP image 2530 can be subjected to prior data processing, encoding, compression, multiplexing, and transmission according to the MPEG standard as a method of processing a two- .
  • three-dimensional map data can be generated.
  • the color ERP image 2510, the deep ERP image 2520, and the time ERP image 2530 may correspond to concentric spheres having the same origin.
  • the method using the color ERP image 2510, the deep ERP image 2520 and the time ERP image 2530 has been described as a method of processing the three-dimensional map data.
  • the three-dimensional map data, A color ERP image 2510, a deep ERP image 2520, and a time ERP image 2530 can be used for the image. Since three-dimensional map data acquired using LiDAR often does not contain shielded rear three-dimensional information, one color ERP image (2510) and one depth ERP image 2520 to restore the three-dimensional map data.
  • a plurality of color ERP images 2510 and a plurality of depth ERP images 2520 can be used by using a plurality of concentric spheres.
  • a three-dimensional point cloud image can be represented by superimposing three-dimensional information, so that it is difficult for a three-dimensional point cloud image to be expressed using one concentric sphere.
  • a three-dimensional point cloud image is obtained by making a surface of a three-dimensional data exist as a two-dimensional data piece in the form of a patch, processing the data in the form of adding depth information to the corresponding piece, Dimensional data pieces, and generates and transmits the generated two-dimensional data pieces as two-dimensional image data.
  • the received two-dimensional image data is separated and rearranged again to rearrange the three-dimensional point cloud image.
  • the radius of the plurality of concentric spheres may correspond to the resolution of the ERP image.
  • the radius of the plurality of concentric spheres may be constant and the radius of the concentric spheres corresponding to the objects distant from the center point may be shorter.
  • Projections are made from the parts of objects that are close to the surface of one concentric sphere to the parts of objects that are at a great distance. Since the objects are projected from just visible objects, the distant object shielded by the near object is projected on the surface of the other concentric sphere.
  • the object included in the concentric sphere of the near region can be located farther from the center point than the object contained in the concentric sphere of the distant region due to the shielding of the objects.
  • concentric sphere groups can be created according to the distance from the center point of each concentric sphere. In this case, since objects can be processed according to the distance from the center point, data can be processed quickly, but a larger number of concentric spheres must be created.
  • the centers of the plurality of concentric spheres included in the same group may be the same or different.
  • the radii of the plurality of concentric spheres included in one group may be the same or different, and the radius of the concentric spheres may be determined as a value for effectively storing the attribute value.
  • the radius of the concentric sphere may correspond to the resolution of the ERP image.
  • the properties of the concentric sphere and the magnitude of the radius of the concentric sphere may be stored or transmitted as separate meta data, and stored or transmitted in the header of the ERP image.
  • the image acquisition device for acquiring the point cloud image may be LiDAR.
  • a plurality of concentric spheres can be used, and the centers of the plurality of concentric spherical groups can be plural.
  • the center point information of the concentric sphere may be provided from the image acquisition device, and the number of the image acquisition devices and information of the coordinates may be provided from the image acquisition device.
  • 26 is an exemplary view showing an arrangement of an image capturing apparatus according to the present disclosure.
  • Information on the center point of the concentric sphere can be acquired based on the information provided from the image acquisition device.
  • the center point coordinate information of the concentric sphere and the radius information of the concentric sphere may be provided from the image acquisition apparatus.
  • the image capturing apparatus may be a LiDAR (light detection and ranging) apparatus.
  • the image capturing device may be mounted on a vehicle for image acquisition such as an automobile.
  • the information provided from the image acquisition device may include the number of image acquisition devices and the positions of the image acquisition devices in the vehicle.
  • the obtaining vehicle may include a GPS device, and may acquire position information and time information of the vehicle from the GPS device.
  • FIG. 27 is an exemplary view showing the arrangement of a plurality of image capturing devices 2710 and 2720 according to the present disclosure.
  • Points have additional properties as to which concentric sphere or acquisition device they belong to.
  • Information of the plurality of image capturing devices may be obtained according to the plurality of image capturing devices 2710 and 2720 and the point cloud points 2730 and 2740.
  • the first image acquiring device 2710 is located at the center point of the first concentric circle 2730 and the second image acquiring device 2720 is located at the center point of the second concentric circle 2740.
  • 29 is an exemplary view for explaining a method of determining centers of a plurality of concentric spheres according to the present disclosure
  • the center point of the concentric sphere can be obtained.
  • the center point of the concentric sphere may be two or more.
  • the concentric sphere is specified according to the plurality of center points. The points are separated according to the specified concentric spheres, and the points can be processed for each concentric spherical.
  • the center points of the concentric spheres differ from each other depending on the position where each image capturing apparatus is disposed. Points can be separated and processed in concentric segments.
  • FIG. 30 is an exemplary view for explaining a method of determining the center of a concentric circle according to the present disclosure
  • the points represent a structure located on the same straight line as the building, when the normals with the adjacent points are calculated, the normals are parallel to each other, and an error may occur in the center point prediction of the concentric sphere.
  • the points have a straight line shape (3010), the center point of the concentric sphere can be more accurately predicted by not being used for predicting the center point of the concentric sphere.
  • 31 is an exemplary view for explaining a method of determining the center of a concentric circle according to the present disclosure
  • the points are too far away from the center point of the concentric sphere, it may be inappropriate to predict the center of the concentric sphere.
  • the center point of the concentric sphere can be more accurately predicted.
  • a point can be selected as the center point of the concentric sphere where possible points can be observed without overlapping. If there are far points shielded by near points, the number of concentric sphere must be plural. The capacity of data required by the number of concentric spheres increases. However, the center of gravity of the concentric sphere can be determined so that the number of distant objects shielded by the closest object is reduced, because the distance object shielded by the near object is less important in the omnidirectional image observed at the center point of the concentric sphere.
  • a plurality of planes can be determined by grouping points.
  • Each of the plurality of planes includes grouped points.
  • a position at which a maximum number of planes among the plurality of planes can be seen can be determined as a center point of the concentric sphere.
  • the plurality of point cloud images can be continuously arranged temporally or spatially.
  • Individual point cloud images can be referred to as point cloud frames according to temporal order or spatial order.
  • One point cloud frame can have one center point. It is possible to determine the movement path of the center point by connecting the center points of successive point cloud frames.
  • the center point of the point cloud frames can be adjusted to exist on a continuous line.
  • Each of the plurality of concentric spheres has one center point, and the center points of the different concentric spheres may be the same or different.
  • the image acquisition method according to the present disclosure proposes a method of generating a color ERP image, a depth ERP image, and a time ERP image corresponding to each concentric sphere.
  • 32 is an exemplary view for explaining a method of representing depth information on a concentric sphere according to the present disclosure
  • Figure 32 (a) shows the distance from the center point of the planes containing the grouped points. Some of the planes are at a relatively short distance from the center point, and some of the planes may be at a relatively large distance from the center point.
  • the images projected onto the spherical surface may include a color spherical image, a deep spherical image, and a time spherical image.
  • the color spherical image may be transformed into a color ERP image
  • the depth spherical image may be transformed into a deep ERP image
  • the time spherical image may be transformed into a time ERP image.
  • the color ERP image does not include depth information but represents the color projected on the spherical surface, but depth information of each pixel of the color ERP image can be obtained from the depth ERP image.
  • the depth ERP image can represent depth information as a number as shown in FIG. 32 (b), and for the sake of understanding, the depth value differs according to the brightness of the color. Referring to Figs. 32 (a) and 32 (b), the larger the color, the larger the depth value, and the darker the color, the smaller the depth value.
  • 33 is an exemplary view for explaining a method of representing depth information on a concentric sphere according to the present disclosure
  • the depth value can be set in the range from the minimum depth value to the maximum depth value.
  • the minimum depth value and the maximum depth value may be predetermined values, the maximum depth value may be a considerably large value, and the minimum depth value may be a suitably selected small value.
  • the maximum depth value will be greater than the minimum depth value.
  • Fig. 33 (a) shows a linear depth representation method
  • Fig. 33 (b) shows a log depth representation method
  • the scale of the depth value may have a linear depth scale as shown in FIG. 33 (a) and may have a log depth scale as shown in FIG. 33 (b). Determining the scale of the depth value may be determined according to the distribution of the object along the depth. It may be appropriate to determine an area where the object density is high according to a dense depth value scale and determine an area where the object density is low according to a somewhat coarse depth value scale. However, it is difficult to adjust the scale of the depth value for each region before analyzing the density of the object in each region in the three-dimensional image, and it may be appropriate to generate the deep ERP image by processing the depth value according to the linear scale or the log scale.
  • the scale of the time value can be expressed as a linear scale or a log scale with respect to the initial time value and the maximum time value.
  • the initial time value and the maximum time value may be stored as separate metadata, and the metadata may further include information on a scale of the depth value.
  • the scale of the depth value may be either a linear scale, a log scale, or a user-defined scale.
  • the attributes related to the concentric spheres may include at least one of occupancy map information, group information of concentric spheres, conversion information of concentric spheres, and compression structure information of concentric spheres.
  • Occupancy map information indicates whether or not there is information mapped on the surface of the concentric sphere. That is, the occupancy map information indicates an area where there is no information to be mapped on the concentric spherical surface. The presence or absence of the mapped information on the concentric spherical surface can be determined based on the occupancy map information.
  • the color spherical surface information, depth spherical surface information, time spherical surface information, and reflectivity spherical surface information corresponding to the surface of one concentric sphere can constitute individual concentric spheres.
  • the concentric spheres corresponding to the color spherical information, the deep spherical information, the time spherical information, and the reflectance spherical information can be referred to as a color concentric sphere, a depth concentric sphere, a time concentric sphere, and a reflectance concentric sphere.
  • the information mapped to the surface of the concentric sphere can be transformed into two-dimensional information according to various projection methods.
  • the projection method used can be stored and transmitted using signaling or metadata.
  • the two-dimensional information in which the information of the concentric spheres is transformed may be omnidirectional image information.
  • the omnidirectional image information may be compressed by a video encoder.
  • the omnidirectional image information can be expressed as an ERP image.
  • the plurality of concentric spheres are respectively converted into omnidirectional image information.
  • the plurality of concentric spheres are adjacent to each other, that is, the center points of the concentric spheres are adjacent to each other and the concentric spheres overlap each other, And the like.
  • 34 is an exemplary diagram for explaining a method of processing image information according to the present disclosure.
  • the center points of the image acquisition devices are different from each other, and the points acquired by the respective image acquisition devices are separated according to different center points.
  • the first image capturing device 3410 corresponds to the first concentric circle 3430 and the second image capturing device 3420 corresponds to the second concentric circle 3440.
  • the first concentric circle 3430 and the second concentric circle 3440 overlap each other.
  • the three-dimensional information of the region 3450 overlapping each other can be obtained while simultaneously considering the information of the first concentric circle 3430 and the information of the second concentric circle 3440.
  • 35 is an exemplary diagram for explaining a method of processing image information according to the present disclosure.
  • any one of a scalable codec method, a subchannel method, and a frame crossing method may be used.
  • a first ERP image in which information of a first concentric sphere is enhanced by adding information of a second concentric sphere to information of a first concentric sphere is generated, and a second ERP image is generated based on only information of the first concentric sphere And generate a scalable image.
  • a third ERP image can be generated based on the information of the first concentric sphere, and a fourth ERP image can be generated based on the second concentric sphere information. It is possible to process the first ERP image using the main channel and process the second ERP image using the subchannel.
  • the second ERP image frames generated based on the information of the first and second concentric spheres generated based on the information of the first concentric sphere are arranged in an intersecting manner, And the second ERP image frame may be combined to efficiently process the overlapping area 3450.
  • the color ERP image, the depth ERP image, and the time ERP image corresponding to one concentric sphere may be encoded together, and may be separately encoded by grouping by color ERP image, depth ERP image, and time ERP image. That is, only color ERP images are separately encoded, only depth ERP images are separately encoded, and only color ERP images can be encoded separately.
  • 36 is a schematic diagram for explaining an intra frame compression process according to the present disclosure.
  • the method of encoding a dynamic point cloud image according to the present disclosure has three separate video sequences, and methods of using the existing video codec for geometric image information, texture image information, and attribute image information of a dynamic point cloud have been proposed.
  • the separate metadata needed to interpret the three video sequences is separately compressed.
  • the metadata may include occupancy map information and auxiliary patch information.
  • the metadata is a small amount of the entire bitstream and can be efficiently encoded and decoded using a software implementation. A large amount of information (geometry image information, texture image information, and attribute image information) can be performed by video compression.
  • the patch generation process aims to minimize the reconstruction error while decomposing the point cloud into a minimum number of patches with smooth boundaries.
  • the encoders may perform various methods to generate the decomposition described above.
  • the normal at each point can be predicted. Based on the predicted normals, the initial clustering of the point cloud can be obtained by associating each point with either the XY plane, the YZ plane, or the ZX plane.
  • each point may be associated with a plane having the nearest normal.
  • the initial clustering is improved.
  • the final step involves extracting the patches by applying a connected component extraction process.
  • the packing process can be performed based on the extracted patches.
  • the packing process maps the extracted patches to a two-dimensional grid. Minimizes the unused area of the two-dimensional grid, and maps the extracted patches to the two-dimensional grid to ensure that all MxM (e.g., 16x16) blocks of the two-dimensional grid are associated with unique patches.
  • the unused area is stored as occupancy map information.
  • the M is a parameter defined by an encoder and encoded in a bitstream.
  • the M is set to the decoder.
  • 38 is an exemplary view for explaining a method of inserting patches into a grid according to the present disclosure.
  • W and H are user defined parameters. W and H are determined to correspond to the resolution of the encoded geometry video image, the texture video image, and the motion video image. For example, the images of the surface of the object can be extracted by the patch unit 16x16 and sequentially arranged on the WxH grid. By arranging the extracted patches adjacent to the WxH grid according to the adjacent positions of the extracted patches, it is possible to improve the operation speed by processing adjacent patches at the time of restoration.
  • the location of the patches is usually determined through an exhaustive search applied in raster scan order.
  • the first position that ensures the insertion of non-overlapping patches is selected, and the grid cells covered by the patches are marked as used. If the current space of the current resolution image is not suitable for the patch, the height H of the grid can be increased to enlarge the WxH grid.
  • the search applied to the enlarged WxH grid in raster scan order is applied again. When all patches are inserted into the WxH grid, adjust the H value to match the grid cell used. That is, reduce the height of the WxH grid. In the case of a video sequence, a separate process can be performed to determine W and H for the entire GOP (goal of production).
  • the geometry image information, the texture image information, and the motion image information of the point cloud image can be generated.
  • the geometry image, texture image, and motion image are stored as video frames and may be compressed using a video codec.
  • the three-dimensional image processing method according to the present disclosure may further include generating occupancy map information.
  • the occupancy map includes, for each cell of the grid, a binary map indicating whether each cell is empty or belongs to a point cloud.
  • One cell of the two-dimensional grid creates one pixel during the image creation process.
  • Metadata can be encoded and decoded for all patches.
  • the metadata may include at least one of an index of a projection plane, a 2D bounding box, and a three-dimensional location of the patch.
  • mapping information providing a patch index associated with each MxM block for each MxM block may be encoded and decoded.
  • the resampling block is used in the inter frame encoding process. Modify the reference frame to make it look the same as the target frame to be encoded, while making the transformation field as smooth as possible.
  • the modified reference frame is ultimately re-painted and considered as a resampled version of the target frame.
  • the 3D motion compensation operation can be performed in the interframe encoding / decoding process.
  • the difference between the location of the reference point cloud and the modified version of the point cloud location may be calculated and the obtained motion field may include the 3D motion vectors associated with the point of the reference frame.
  • the 2D mapping in 3D of the reference frame can be used to convert the motion field to a 2D image.
  • a scale map that provides a scaling factor for each block of the motion image may be encoded.
  • the encoder may use as input a set of files describing one or more frames of the dynamic point cloud.
  • the location (geometry) and color (texture, texture) of a point cloud are all integer values.
  • the output of the encoder is a binary stream that is written to the disc.
  • the decoder takes the compressed bitstream file as input and generates a set of files that are reconstructed with integer positions and colors.
  • the parameters can be obtained from command line arguments, and the video codec can be used as an external process.
  • the path to the encoder / decoder executable file may be passed as parameters.
  • the metadata may include the above parameters.
  • the parameters used to encode the video stream of the geometry image, the texture image, and the motion image may be described in a separate configuration file (e.g., metadata).
  • the path associated with the configuration file may also be conveyed as parameters.
  • 39 is a flowchart illustrating a method of transmitting an image according to the present disclosure.
  • a method for transmitting an image according to the present disclosure includes the steps of acquiring a 3D stereoscopic image, generating an ERP (Equiretangular Projection) image from the 3D stereoscopic image, A step of generating a deep ERP image, and a step of transmitting the color ERP image and the depth ERP image.
  • ERP Equiretangular Projection
  • each pixel of the color ERP image corresponds to each pixel of the depth ERP image
  • each pixel of the color ERP image includes color information
  • each pixel of the depth ERP image corresponds to a depth of each pixel of the color ERP image, Information.
  • the 3D stereoscopic image may be any one of object image information and scene image information.
  • the object image information includes three-dimensional image information of one or more objects.
  • a two-dimensional image can be generated by arranging patches covering the one or more objects externally, mapping points of an object to any one of the patches, and arranging the mapped patches.
  • the patch can be positioned by positioning the patch near a specific point of the object and adjusting the angle of the patch so that the sum of the distances between the patches and the patches is minimized. It is possible to generate more patches in the up, down, left, and right directions based on the first patch, and no patches are generated in the direction in which the points do not exist.
  • the generated patches are stored in a two-dimensional image, and depth information, transparency information, and reflectance information of the generated patches can be stored in another two-dimensional image.
  • a two-dimensional image including color information of patches is referred to as a color two-dimensional image
  • a two-dimensional image including depth information of patches may be referred to as a depth two-dimensional image.
  • the color two-dimensional image may be generated in a process of generating a geometric image.
  • the depth two-dimensional image can be generated in the texture image generation process.
  • the generated color 2-dimensional image and the depth 2-dimensional image can be padded, compressed, and output as a bitstream.
  • the scene image information captures the light reflected from the object emitted from the image capturing device (e.g., LiDAR) and measures the distance to the reflected position of the object.
  • LiDAR is generally used to detect reflected light while rotating the reflector 360 degrees.
  • Dimensional image data can be obtained by changing the vertical angle of the reflector every time the reflector rotates 360 degrees horizontally. With LiDAR, depth information can be obtained.
  • Directional camera can be used to acquire a color omnidirectional image.
  • the omnidirectional camera may include one or more cameras, and the one or more cameras may include a fisheye lens or a wide-angle lens.
  • Dimensional scene information based on the color forward direction image and the depth direction forward direction image, and obtain the color ERP image and the depth ERP image from the 3D scene image information.
  • the depth omnidirectional image acquired from LiDAR can be converted into a deep ERP image
  • the color omnidirectional image can be converted into a color ERP image.
  • the above-described operations can be realized by providing a memory device storing the program code in an entity, a function, a base station, a terminal, or any component in the vehicle apparatus of a communication or broadcasting system. That is, the control unit of the entity, the function, the base station, the terminal or the vehicle apparatus can execute the above-described operations by reading and executing the program code stored in the memory device by the processor or the CPU (Central Processing Unit).
  • the control unit of the entity, the function, the base station, the terminal or the vehicle apparatus can execute the above-described operations by reading and executing the program code stored in the memory device by the processor or the CPU (Central Processing Unit).
  • the CPU Central Processing Unit
  • the various components, modules, and the like of the entities, functions, base stations, terminals, or vehicle devices described herein may be implemented as hardware circuits, for example, complementary metal oxide semiconductor Circuitry, firmware, and / or hardware circuitry, such as a combination of hardware and firmware and / or software embedded in a machine-readable medium.
  • the various electrical structures and methods may be implemented using electrical circuits such as transistors, logic gates, and custom semiconductors.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Electromagnetism (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Abstract

본 개시에 따른 영상을 전송하는 방법은, 3차원 입체 영상을 획득하는 과정과, 상기 3차원 입체 영상으로부터 색상 등장방형 투영(ERP, equiretangular projection) 영상 및 깊이 ERP 영상을 생성하는 과정과, 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 전송하는 과정을 포함한다. 상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함한다. 상기 상기 3차원 입체 영상으로부터 색상 ERP 영상 및 깊이 ERP 영상을 생성하는 과정은, 3차원 좌표 상의 특정점을 중심점으로 하는 동심구를 형성하는 과정과, 상기 3차원 입체 영상의 포인트들을 상기 동심구의 표면에 매핑하는 과정과, 상기 매핑된 포인트들의 색상 정보에 기초하여, 상기 색상 ERP 영상을 생성하는 과정과, 상기 매핑된 포인트들의 깊이 정보에 기초하여, 상기 깊이 ERP 영상을 생성하는 과정을 포함할 수 있다. 상기 3차원 입체 영상은, 포인트들의 3차원 위치 정보 및 상기 포인트들의 색상 정보를 포함할 수 있다.

Description

3차원 영상을 처리하는 방법 및 장치
본 개시는 입체 영상의 투영 방법 및 장치에 관한 것이다.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 사물인터넷(Internet of Things, IoT) 망으로 진화하고 있다. IoE(Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터(Big data) 처리 기술 등이 IoT 기술에 결합된 하나의 예가 될 수 있다.
IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication) 등의 기술이 연구되고 있다.
IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT(Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT 기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.
한편, 멀티미디어 관련 국제 표준화 기구인 MPEG(Moving Picture Experts Group)은 1988년 MPEG-1을 시작으로 현재까지, MPEG-2, MPEG-4, MPEG-7, MPEG-21의 표준화 작업을 진행하고 있다. 또한 멀티미디어 응용 형식(Multimedia Application Format, MAF)은 기존의 MPEG 표준들뿐만 아니라, 비 MPEG 표준들을 함께 사용하여, 산업의 요구를 적극적으로 대응하여 표준의 활용 가치를 높이고자 한다. 상기 MAF 표준화의 주요 목적은 MPEG 기술을 쉽게 산업에서 이용 할 수 있는 기회를 제공하는데 있다. 즉, MAF 표준화의 주요 목적은 특정한 어플리케이션을 위한 표준화된 파일 포맷을 제공함으로써, 해당 어플리케이션의 범용적인 사용 및 MPEG 표준의 보급 등을 목적으로 한다.
한편, 입체 영상을 평면상에 투영하는 방법으로, 3차원 좌표상의 포인트 클라우드(point cloud) 정보를 다른 3차원 좌표계로 매핑하는 방법이 있다. 여기서, 포인트 클라우드 정보는 포인트로 저장된 정보를 의미한다.
입체 영상을 평면상에 투영하는 다른 방법으로, XY평면, YZ평면, XZ평면 상에 가장 가까운 포인트를 매핑시켜 패치(patch)를 생성한다. 여기서, 패치를 16x16의 간격으로 2D 평면상에 최대한 매핑시키는 과정을 "패킹(packing) 과정"이라 칭한다. 종래에는 3차원 좌표상의 포인트 정보를 XY, YZ, XZ 등 3차원상의 한 정보를 뺀 상태에서 2D 평면상에 매핑한다. 그러나 이러한 방법은 평면에 매핑되는 포인트의 거리를 매핑하는 구간(0~255구간, 8 비트) 내에서만 패치로 매핑할 수 있으므로, 더 먼 거리의 포인트를 매핑하기 위해서는 256 이상의 구간(9비트 이상)이 필요하거나 새로운 패치를 개시해야 하는 불확실성이 있다.
본 개시는, 보다 적은 구간내에서 포인트를 블럭에 매핑하는 입체 영상 투영 방법 및 장치를 제공한다.
본 개시는, 자유 각도를 갖는 블럭을 사용하여 포인트를 블럭에 매핑하는 입체 영상 투영 방법 및 장치를 제공한다.
본 개시는, 미리 결정된 패턴을 사용하여 포인트를 블럭에 매핑하는 입체 영상 투영 방법 및 장치를 제공한다.
본 개시에 따른 영상을 전송하는 방법은, 3차원 입체 영상을 획득하는 과정과, 상기 3차원 입체 영상으로부터 색상 등장방형 투영(ERP, equiretangular projection) 영상 및 깊이 ERP 영상을 생성하는 과정과, 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 전송하는 과정을 포함한다.
상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함한다.
상기 상기 3차원 입체 영상으로부터 색상 ERP 영상 및 깊이 ERP 영상을 생성하는 과정은, 3차원 좌표 상의 특정점을 중심점으로 하는 동심구를 형성하는 과정과, 상기 3차원 입체 영상의 포인트들을 상기 동심구의 표면에 매핑하는 과정과, 상기 매핑된 포인트들의 색상 정보에 기초하여, 상기 색상 ERP 영상을 생성하는 과정과, 상기 매핑된 포인트들의 깊이 정보에 기초하여, 상기 깊이 ERP 영상을 생성하는 과정을 포함할 수 있다. 상기 3차원 입체 영상은, 포인트들의 3차원 위치 정보 및 상기 포인트들의 색상 정보를 포함할 수 있다. 상기 3차원 입체 영상은, 상기 포인트들의 텍스처 정보, 상기 포인트들의 반사율 정보 및 상기 포인트들의 투명도 정보 중 적어도 하나를 더 포함할 수 있다.
본 개시에 따른 영상을 전송하는 방법은 점유 지도 정보를 포함하는 데이터를 전송하는 과정을 더 포함할 수 있다. 상기 점유 지도 정보는 색상 ERP 영상 및 깊이 ERP 영상의 영상 데이터가 없는 위치를 지시하는 정보를 포함할 수 있다. 상기 점유 지도 정보는 메타데이터 또는 ERP 영상으로 생성된다.
본 개시에 따른 3차원 입체 영상을 복원하는 방법은, 색상 ERP 영상과 깊이 ERP 영상을 수신하는 과정과, 상기 색상 ERP 영상과 상기 깊이 ERP 영상에 기초하여 3차원 입체 영상을 복원하는 과정을 포함하고, 상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함한다.
상기 색상 ERP 영상과 상기 깊이 ERP 영상에 기초하여 3차원 입체 영상을 복원하는 과정은, 상기 깊이 ERP 영상의 픽셀의 깊이 정보와 상기 깊이 ERP 영상의 상기 픽셀의 위치에 기초하여, 상기 픽셀에 대응되는 포인트의 위치 정보를 획득하고, 상기 깊이 ERP 영상의 상기 픽셀에 대응하는 상기 색상 ERP 영상의 픽셀의 색상 정보를 상기 대응되는 포인트의 위치 정보와 결합하여, 상기 3차원 입체 영상의 포인트의 위치 정보 및 색상 정보를 복원하는 과정을 포함할 수 있다.
본 개시에 따른 방법은, 입체 영상의 투영 방법에 있어서, 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 확인하는 과정; 및 상기 포인트 값을 패턴에 기반으로 한 블럭에 매핑하는 과정을 포함하고, 상기 패턴은 평면상에 직교하는 포인트 값들의 거리와 패턴의 옵셋값을 기반으로 결정됨을 특징으로 한다.
본 개시에 따른 방법은, 입체 영상의 투영 방법에 있어서, 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 확인하는 과정; 및 상기 포인트 값을 각도를 기반으로 한 블럭에 매핑하는 과정을 포함하고, 상기 각도는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정됨을 특징으로 한다.
본 개시에 따른 장치는, 입체 영상의 투영 장치에 있어서, 데이터를 송수신하는 송/수신부; 및 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 확인하고, 및 상기 포인트 값을 패턴에 기반으로 한 블럭에 매핑하는 제어부를 포함하고, 상기 패턴은 평면상에 직교하는 포인트 값들의 거리와 패턴의 옵셋값을 기반으로 결정됨을 특징으로 한다.
본 개시에 따른 장치는, 입체 영상의 투영 장치에 있어서, 데이터를 송수신하는 송/수신부; 및 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 확인하고, 및 상기 포인트 값을 각도를 기반으로 한 블럭에 매핑하는 제어부를 포함하고, 상기 각도는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정됨을 특징으로 한다.
본 개시에 따른 방법은, 입체 영상의 복호 방법에 있어서, 데이터를 수신하는 과정; 패턴을 결정하는 과정; 상기 패턴을 기반으로 하여 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하는 과정; 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 획득하는 과정; 및 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하는 과정을 포함하고, 상기 패턴은 평면상에 직교하는 상기 포인트 값의 거리와 패턴의 옵셋값을 기반으로 결정된 것임을 특징으로 한다.
본 개시에 따른 방법은, 입체 영상의 복호 방법에 있어서, 데이터를 수신하는 과정; 상기 데이터에 포함된 블럭으로부터 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하는 과정; 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 포인트 값을 획득하는 과정; 및 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하는 과정을 포함하고, 상기 각도는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정된 것임을 특징으로 한다.
본 개시에 따른 장치는, 입체 영상의 복호 장치에 있어서, 데이터를 송수신하는 송수신부; 및 상기 데이터를 수신하고, 패턴을 결정하고, 상기 패턴을 기반으로 하여 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하고, 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 획득하고, 및 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하도록 제어하는 제어부를 포함하고, 상기 패턴은 평면상에 직교하는 상기 포인트 값의 거리와 패턴의 옵셋값을 기반으로 결정된 것임을 특징으로 한다.
본 개시에 따른 장치는, 입체 영상의 복호 장치에 있어서, 데이터를 송수신하는 송수신부; 및 상기 데이터를 수신하고, 상기 데이터에 포함된 블럭으로부터 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하고, 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 포인트 값을 획득하고, 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하도록 제어하는 제어부를 포함하고, 상기 각도는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정된 것임을 특징으로 한다.
본 개시는 보다 적은 구간을 사용해 포인트를 블럭에 매핑이 가능하다.
본 개시는 블럭에 적용된 패턴과 포인트간의 거리가 평면 보다 작아서 정보의 크기를 줄일 수 있다.
본 개시는 자유 각도를 갖는 블럭을 사용하여 포인트를 표현함으로써, 표현에 필요한 에너지를 감소시킬 수 있다.
본 개시는 미리 결정된 패턴을 사용하여 포인트를 블럭에 매핑함으로써 입체 영상을 2D 평면상에 효과적으로 투영할 수 있다.
본 개시는 실제 공간상의 물체가 가상의 공간상에 투영될 수 있다.
그 밖에, 본 개시에서 얻을 수 있는 효과는 언급한 효과들로 제한되지 않으며, 언급하지 않은 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있다.
도 1은 본 개시에 따른 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 2는 본 개시에 따른 최초의 블럭이 임의의 방향으로 기울어진 경우, 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 3은 본 개시에 따른 최초의 블럭이 임의의 방향으로 기울어져 있고, 최초의 블럭 다른 블럭(next block)이 있는 경우, 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 4는 본 개시에 따른 최초의 블럭, 및 상기 최초의 블럭을 부모 블럭으로 하는 복수의 자식 블럭들이 있는 경우를 나타낸 도면이다.
도 5는 본 개시에 따른 최초의 블럭, 및 상기 최초의 블럭을 부모 블럭으로 하는 자식 블럭들과 상기 자식 블럭들 중 하나의 자식 블럭이 부모 블럭이 되는 경우를 나타낸 도면이다.
도 6은 본 개시에 따른 부모 블럭과 자식 블럭이 존재할 경우 부모 블럭이 포함하는 정보를 나타낸 도면이다.
도 7은 본 개시에 따른 부모 블럭과 자식 블럭이 동일한 평면상에 존재하는 일 예를 나타낸 도면이다.
도 8은 본 개시에 따른 부모 블럭과 자식 블럭이 동일한 평면상에 존재하는 또 다른 예를 나타낸 도면이다.
도 9는 본 개시에 따른 블럭과 포인트를 나타낸 도면이다.
도 10은 본 개시에 따른 3차원 공간상의 포인트(1001)를 블럭에 매핑하는 것을 나타내는 도면이다.
도 11은 본 개시에 따른 입체 영상 투영 방법을 나타낸 도면이다.
도 12는 본 개시에 따른 입체 영상 투영 방법을 상세히 나타낸 도면이다.
도 13a, b는 본 개시에 따른 입체 영상 투영 방법의 다른 예를 상세히 나타낸 도면이다.
도 14는 본 개시에 따른 송신기에서의 동작 흐름도이다.
도 15는 본 개시에 따른 송신기에서의 동작 흐름도이다.
도 16은 본 개시에 따른 수신기에서의 동작 흐름도이다.
도 17은 본 개시에 따른 수신기에서의 동작 흐름도이다.
도 18은 본 개시에 따른 송신기의 블럭 구성도를 나타낸다.
도 19는 본 개시에 따른 수신기의 블럭 구성도를 나타낸다.
도 20은 본 개시에 따른 동적으로 취득된 포인트 클라우드 영상의 예시를 나타낸다.
도 21은 본 개시에 따른 포인트 클라우드 영상을 처리하는 방법을 설명하기 위한 예시도이다.
도 22는 포인트 클라우드 영상에 대응되는 가상의 동심구를 나타내는 예시도이다.
도 23은 본 개시에 따른 색상 ERP 영상과 깊이 ERP 영상에 기초하여, 포인트 클라우드 영상을 처리하는 방법을 설명하기 위한 예시도이다.
도 24(a), (b) 및 (c)는 본 개시에 따른 시간 ERP 영상을 생성하는 방법을 설명하기 위한 예시도들을 나타낸다.
도 25는 본 개시에 따른 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상을 나타내는 예시도이다.
도 26은 본 개시에 따른 영상 취득 장치의 배치를 나타내는 예시도이다.
도 27은 본 개시에 따른 복수의 영상 취득 장치들(2710, 2720)의 배치들을 나타내는 예시도이다.
도 28은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
도 29는 본 개시에 따른 복수의 동심구들의 중심들을 결정하는 방법을 설명하기 위한 예시도이다.
도 30은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
도 31은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
도 32는 본 개시에 따른 동심구 상의 깊이 정보를 나타내는 방법을 설명하기 위한 예시도이다.
도 33은 본 개시에 따른 동심구 상의 깊이 정보를 나타내는 방법을 설명하기 위한 예시도이다.
도 34는 본 개시에 따른 영상 정보를 처리하는 방법을 설명하기 위한 예시도이다.
도 35는 본 개시에 따른 영상 정보를 처리하는 방법을 설명하기 위한 예시도이다.
도 36은 본 개시에 따른 프레임 내 압축 과정(intra frame compression process)을 설명하기 위한 모식도이다.
도 37은 본 개시에 따른 프레임 간 압축 과정(inter frame compression process)을 설명하기 위한 모식도이다.
도 38은 본 개시에 따라서, 패치들을 그리드에 삽입하는 방법을 설명하기 위한 예시도이다.
도 39는 본 개시에 따른 영상 취득 방법을 설명하기 위한 절차흐름도이다.
이하, 첨부된 도면들을 참조하여 본 개시의 실시 예를 상세하게 설명한다. 하기에서 본 개시를 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로써 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 개시의 자세한 설명에 앞서, 본 명세서에서 사용되는 몇 가지 용어들에 대해 해석 가능한 의미의 예를 제시한다. 하지만, 아래 제시하는 해석 예로 한정되는 것은 아님을 주의하여야 한다. 본 개시의 자세한 설명에 앞서, 본 명세서에서 사용되는 포인트 정보 및 포인트 값은 동일한 의미임은 물론이다. 본 명세서에서의 물체(object)는 3차원 공간상의 물체를 의미한다.
본 개시는 3차원 공간상의 포인트 정보를 2차원 평면 블럭(2n x 2m 크기의 픽셀 블럭)에 매핑하기 위한 방법 및 장치를 제공한다. 이를 위해 본 개시의 제1 실시 예에서는 포인트를 자유 각도를 기반으로 한 블럭에 매핑한다.
본 개시에서는 포인트를 패턴을 기반으로 한 블럭에 매핑한다. 본 개시에서는 평면 블럭에 투영되는 포인트의 거리를 효과적으로 나타내기 위한 패턴 사용 방법을 제안한다.
도 1은 본 개시에 따른 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 1을 참조하면, 2D 이미지의 픽셀과 같이, 3차원 공간상의 물체 표면(100)이 포인트 단위로 인식되어 가상의 공간상에 매핑된다.
상기 포인트는 물체(object)의 좌표(X, Y, Z)를 나타내는 좌표 정보와, R, G, B와 같은 색상 정보와, 그 밖의 속성(예를 들어, 반사율, 투명도 등) 등을 가진다.
3D 공간상의 정보를 하기 [표 1]과 같이 나타낼 수 있다.
Figure PCTKR2018014059-appb-T000001
3D 공간상의 정보는 상기 [표 1]을 참조하면, X, Y, Z와 같은 좌표 정보, R, G, B와 같은 색상 정보를 포함한다. 여기서, 그리고 일 예로, 상기 [표 1]에서의 211, 63, 61, 210, 63, 63, 211, 62, 63, 211, 63, 62, 211, 63, 63은 X, Y, Z와 같은 좌표 정보를 나타낸다. 반면에 일 예로, 상기 [표 1]에서의 133, 104, 77, 128, 97, 69, 126, 97, 71, 130, 100, 73, 129, 98, 71은 R, G, B와 같은 색상 정보를 나타낸다.
도 2는 본 개시에 따른 최초의 블럭이 임의의 방향으로 기울어진 경우, 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 2는 블럭이 하나일 경우를 가정한 것이고, 블럭(201)을 최초의 블럭이라 칭한다.
물체 표면(201)에서 최초의 블럭(201)은 임의의 방향으로 기울어질 수 있으며 일 예로, 블럭(207))의 상단에 1 포인트(205)가, 그리고 블럭(207)의 하단에 다른 1 포인트(205)가 가장 가깝게 매핑되도록 배치할 수 있다. 3차원 좌표계상에서 블럭이 가지는 방향과 각도는 완전 자유도를 가질수록 오차가 적은 대신, 이를 표현하기 위한 데이터 상수의 bit 수가 증가한다. 따라서 본 개시에서는 45도 각도 또는 22.5도의 단계로 각도를 구분하지만 더 세분화된 각도(예를 들어, 10도)로 구분할 수 있음은 물론이다.
도 3은 본 개시에 따른 최초의 블럭이 임의의 방향으로 기울어져 있고, 최초의 블럭 다른 블럭(next block)이 있는 경우, 3차원 공간상의 물체 표면을 나타낸 도면이다.
도 3은 블럭이 두 개일 경우를 가정한 것이고, 블럭(201)은 최초의 블럭이고, 블럭(301)은 다음 블럭(next block)이라 칭한다.
블럭(301)은 블럭(201)과 인접된 블럭으로, 블럭(201)과 예를 들어, 22.5도 만큼의 각도를 가지고 있다.
도 4는 본 개시에 따른 최초의 블럭, 및 상기 최초의 블럭을 부모 블럭으로 하는 복수의 자식 블럭들이 있는 경우를 나타낸 도면이다.
블럭(다음 블럭(next blocks))(401a 내지 401b)은 최초의 블럭(201)의 일 예로, 상단, 하단, 좌단, 우단으로부터 뻗어나오는 방향으로 배치되며, 최초의 블럭(201)을 부모(parent)로 하는 자식(child) 블럭이 된다.
도 5는 본 개시에 따른 최초의 블럭, 및 상기 최초의 블럭을 부모 블럭으로 하는 자식 블럭들과 상기 자식 블럭들 중 하나의 자식 블럭이 부모 블럭이 되는 경우를 나타낸 도면이다.
자식 블럭들은 최초의 블럭(201)의 일 예로, 상단, 하단, 좌단, 우단으로부터 뻗어나오는 방향으로 배치된다. 그리고, 상기 자식 블럭들 중 자식 블럭(블럭 1)(501)은 또 다른 자식 블럭(블럭 2)(503)을 가질 수 있으며, 이 때 블럭 1(501)은 블럭 2(503)의 부모 블럭이 된다.
도 6은 본 개시에 따른 부모 블럭과 자식 블럭이 존재할 경우 부모 블럭이 포함하는 정보를 나타낸 도면이다.
부모 블럭은 3 또는 4방향으로 자식 블럭의 존재 여부를 나타내는 정보를 포함하며, 자식 블럭이 존재하는 경우 부모 블럭의 1 방향으로부터 자식 블럭의 진행 각도 정보를 포함한다.
도 6의 (a)는 일 예로, 부모 블럭(601)이 포함하는 정보(hasChildOnTop=true)는 자식 블럭이 맨 위(top)에 존재함을 나타내고, 부모 블럭(601)이 포함하는 정보(hasChildOnLeft=false)는 자식 블럭이 왼쪽에 없음을 나타낸다. 또한 부모 블럭(601)이 포함하는 정보(hasChildOnRight=true)는 자식 블럭이 오른쪽에 존재함을 나타내고, 부모 블럭(601)이 포함하는 정보(hasChildOnBottom=true)는 자식 블럭이 맨 아래(bottom)에 존재함을 나타낸다.
도 6의 (b)는 일 예로, 부모 블럭(601)이 포함하는 정보(angleChildOnTop=22.5)는 자식 블럭이 22.5 각도로 맨 위(top)에 존재함을 나타내고, 부모 블럭(601)이 포함하는 정보(hasChildOnLeft=false)는 자식 블럭이 왼쪽에 없음을 나타낸다. 부모 블럭(601)이 포함하는 정보(angleChildOnRight=22.5)는 자식 블럭이 22.5 각도로 부모 블럭(601)의 오른쪽에 존재함을 나타내고, 부모 블럭(601)이 포함하는 정보(angleChildOnBottom=-90)는 자식 블럭이 -90도 각도로 맨 아래(bottom)에 존재함을 나타낸다.
도 7은 본 개시에 따른 부모 블럭과 자식 블럭이 동일한 평면상에 존재하는 일 예를 나타낸 도면이다.
부모 블럭(701)이 포함하는 정보(angleChildOnTop=22.5)는 자식 블럭이 22.5 각도로 맨 위(top)에 존재함을 나타내고, 부모 블럭(701)이 포함하는 정보(angleChildOnRight=22.5)는 자식 블럭이 22.5 각도로 부모 블럭(701)의 오른쪽에 존재함을 나타내고, 부모 블럭(701)이 포함하는 정보(angleChildOnBottom=-90)는 자식 블럭이 -90도 각도로 맨 아래(bottom)에 존재함을 나타낸다.
여기서, 자식 블럭(703)과 또 다른 자식 블럭(705)이 동일한 평면상에 존재하는 경우 또 다른 자식 블럭(705)의 진행 각도는 0도이다. 따라서, 자식 블럭(703)이 포함하는 정보는 "angleChildOnBottom=0"으로 나타낼 수 있다.
또한, 자식 블럭은 4방향 중 부모 블럭의 방향과 나머지 3방향에 대해 자식 블럭의 정보를 가진다.
도 8은 본 개시에 따른 부모 블럭과 자식 블럭이 동일한 평면상에 존재하는 또 다른 예를 나타낸 도면이다.
부모 블럭(801)이 포함하는 정보(angleChildOnTop=22.5)는 자식 블럭이 22.5 각도로 맨 위(top)에 존재함을 나타내고, 부모 블럭(801)이 포함하는 정보(angleChildOnRight=22.5)는 자식 블럭이 22.5 각도로 부모 블럭(801)의 오른쪽에 존재함을 나타내고, 부모 블럭(801)이 포함하는 정보(angleChildOnBottom=-90)는 자식 블럭이 -90도 각도로 맨 아래(bottom)에 존재함을 나타낸다.
여기서, 자식 블럭(803)과 또 다른 자식 블럭(805)이 동일한 평면상에 존재하는 경우 또 다른 자식 블럭(805)의 진행 각도는 0도이다. 따라서, 자식 블럭(803)이 포함하는 정보는 "angleChildOnBottom=0"으로 나타낼 수 있다. 게다가 또 다른 자식 블럭(805)에 포함된 정보는 부모 블럭이 맨 위(top)에 존재함을 나타낸다. 따라서, 다른 자식 블럭(805)이 포함하는 정보는 "parent=onTOP"로 나타낼 수 있다.
도 9는 본 개시에 따른 블럭과 포인트를 나타낸 도면이다.
도 9의 (a)는 3차원 공간상을 평면 블럭으로 나타낸 것이고, 도 9의 (b)는 3차원 공간상을 포인트로 나타낸 것이다.
도 9의 (a)는 3차원 오브젝트를 덮는 평면 블럭들을 나타낸 것이고, 도 9의 (b)는 도 9의 (a)의 단면을 나타낸다.
블럭은 오브젝트 근방의 3차원 공간상에 위치하며, 상기 3차원 공간상에 존재하는 상기 오브젝트의 표면 상의 포인트들과 상기 블럭 사이의 거리의 합이 최소가 되도록 상기 블럭의 각도가 결정된다. 상기 오브젝트의 포인트들과 상기 블럭 사이의 거리의 합이 최소가 되도록 상기 블럭의 각도가 결정되면, 상기 포인트들을 상기 블럭에 매핑함으로써, 압축 효과를 높일 수 있다. 상기 오브젝트의 포인트들은 상기 오브젝트의 표면상의 포인트들일 수 있고, 상기 오브젝트 내부의 포인트들일 수 있다. 통상, 상기 오브젝트의 표면상의 포인트들부터 패치에 매핑되며, 순차적으로 오브젝트 내부의 포인트들을 패치에 매핑할 것이다. 모든 포인트들에 대하여 처리가 완료될 때까지, 오브젝트의 포인트들을 패치에 매핑한다.
도 10은 본 개시에 따른 3차원 공간상에 존재하는 오브젝트의 포인트(1005)를 블럭(1003)에 매핑하는 방법을 설명하기 위한 도면이다.
도 10의 (a)는 3차원 공간상에 존재하는 오브젝트의 포인트들을 블럭(패치)에 매핑할 수 있도록, 블럭들을 배치한 것을 나타내는 단면도이다. 도 10의 (b)는 도 10의 (a)의 일부분(1001)을 확대한 것이다.
도 10의 (b)를 참조하면, 블럭-포인트 거리의 총합은 블럭의 평면(1003)과 포인트(1005)들간의 직교 거리의 합을 기반으로 하여 결정된다. 상기 블럭의 평면(1003)과 포인트(1005)들간의 직교 거리의 합은 각 블럭(1005)의 평면(1003)상에 직교하는 포인트들(1005)의 거리의 합을 의미한다.
또한 블럭(1003)의 정보는 최초의 블럭 정보, 자식 블럭들의 정보를 포함한다. 즉, 블럭(1003)의 정보는 예를 들어, 최초의 블럭 정보 및 자식 블럭들의 위치 정보(즉, 각도)를 포함한다. 본 명세서에서의 블럭들의 위치 정보는 각도 정보를 포함한다. 상기 블럭의 정보는 메타 데이터에 포함되거나, 블럭 데이터에 포함될 수 있다.
도 11은 본 개시에 따른 입체 영상 투영 방법을 나타낸 도면이다.
본 개시에 따르면, 포인트를 패턴에 기반으로 한 블럭에 매핑하는 것이고, 도 11은 패턴(1101)을 도시한 것이다.
블럭은 미리 정의된 패턴들(1101) 중 하나를 갖도록 구성될 수 있다. 본 개시에서의 패턴은 송신기 및 수신기에서 공유 가능하고, 송신기 및 수신기 각각에서 저장할 수 있다.
패턴(1101)은 도 11과 같이, 블럭을 구성하는 각 좌표의 offset 값을 0에서 2k 단계로 구성하는 경우의 수의 합의 개수로 정해진다. 도 11에서 블럭의 가로, 세로는 동일하고, 좌표는 예컨대, 8단계로 구분되며, offset 값은 예를 들어, 8개가 주어지며 이에 따라 64개의 패턴을 생성할 수 있다.
블럭과 포인트의 매핑은, 블럭의 평면상에 직교하는 각 포인트들의 거리를 패턴의 offset값으로 제한 나머지들의 합이 가장 작은 일 패턴으로 결정하는 것이 바람직하다.
도 12는 본 개시에 따른 입체 영상 투영 방법을 상세히 나타낸 도면이다.
도 12의 (a)는 64개의 패턴(1101) 중 하나의 패턴을 결정한다. 여기서 상기 패턴은 평면상에 직교하는 상기 포인트 값의 거리와 패턴의 옵셋값을 기반으로 결정되고, 상기 결정된 패턴을 통해서 블럭의 위치 정보 및 블럭-포인트 거리를 알 수 있다.
도 12의 (b)에 기재된 블럭(1201)은 결정된 패턴을 기반으로 하여 포인트를 블럭에 매핑하는 것을 나타낸다. 블럭과 포인트의 매핑은, 블럭의 평면상에 직교하는 각 포인트들의 거리를 패턴의 offset값으로 제한 나머지들의 합이 그 결과값이 가장 작은 일 패턴으로 결정하는 것이 바람직하다.
도 12의 (c)는 도 12의 (b)의 블럭과 또 다른 블럭을 나타낸다.
도 12의 (d)는 도 12의 (c)에서 도 12의 (b)의 블럭과 또 다른 블럭에 대해 exclusive or(XOR)를 취한 결과를 나타낸 과정을 나타낸다. XOR을 취하는 것은 일 예이고, 생략될 수도 있다. XOR을 취하는 방법 외에도 절대값을 취한 후 빼는 방법이 있다. 절대값을 취한 후 빼는 방법 또한 생략될 수 있다.
도 12의 (d)의 블럭을 통해서 포인트 값들을 획득할 수 있다.
도 13a, b는 본 개시에 따른 입체 영상 투영 방법의 다른 예를 상세히 나타낸 도면이다.
도 13a는 패턴과 포인트가 최대한 매핑되도록 패턴을 양의 방향 또는 음의 방향으로 반전시킨 후(1301, 1303), 도 13b는 패턴의 offset과 포인트 거리를 빼고 양/음의 차분값을 결정한다. 이때, 블럭은 자신의 패턴 번호와 패턴의 방향(양의 방향/ 음의 방향)을 포함할 수 있고, 추가적으로, 양/음의 차분값을 포함할 수 있다. 블럭의 정보는 블럭들이 사용한 패턴의 정보를 가질 수 있다. 패턴의 정보에는 패턴의 가로, 세로 크기와 패턴의 개수, 또는 패턴 자체가 포함될 수 있다.
본 개시에 따르면, 저장하고자 하는 포인트들에 대해 블럭을 전개하고 블럭과 포인트간 거리에 따라 매핑한다. 제 1차 블럭의 전개를 통해 매핑된 포인트들을 제외하고 남은 포인트가 있을 경우 제 2차 블럭의 전개를 수행한다. 반복된 블럭의 전개 후 매핑할 포인트가 남지 않으면 블럭의 전개를 중지한다. 각 전개 별로 최초의 블럭 정보와 자식 블럭 정보를 저장한다.
도 14는 본 개시에 따른 송신기에서의 동작 흐름도이다.
송신기는 1401 단계에서 포인트 값을 확인한다.
송신기는 1403 단계에서 포인트 값을 블럭에 매핑하고, 상기 블럭으로부터 블럭 정보 및 블럭-포인트 거리 정보를 획득한다. 상기 블럭 정보는 각도 정보를 포함한다. 상기 각도 정보는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정된다.
도 15는 본 개시에 따른 송신기에서의 동작 흐름도이다.
송신기는 1501 단계에서 포인트 값을 확인한다. 송신기는 1503 단계에서 패턴을 결정한다. 상기 패턴은 평면상에 직교하는 포인트 값들의 거리와 패턴의 옵셋값을 기반으로 결정된다.
송신기는 1505 단계에서 포인트 값을 결정된 패턴에 매핑하고, 상기 패턴으로부터 블럭 정보 및 블럭-포인트 거리 정보를 획득할 수 있다.
도 16은 본 개시에 따른 수신기에서의 동작 흐름도이다.
수신기는 1601 단계에서 데이터를 수신한다.
수신기는 1603 단계에서 블럭으로부터 블럭 정보 및 블럭-포인트 거리 정보를 획득한다.
수신기는 1605 단계에서 획득된 정보를 기반으로 하여 데이터를 복호한다.
도 17은 본 개시에 따른 수신기에서의 동작 흐름도이다.
수신기는 1701 단계에서 송신기로부터 데이터 수신한다. 수신기는 1703 단계에서 패턴을 확인한다. 상기 패턴은 평면상에 직교하는 상기 포인트 값의 거리와 패턴의 옵셋값을 기반으로 결정된 것이다. 수신기는 1705 단계에서 상기 결정된 패턴으로부터 블럭 정보 및 블럭-포인트 거리 정보를 획득한다.
수신기는 1707 단계에서 획득된 정보를 기반으로 하여 데이터를 복호한다.
도 18은 본 개시에 따른 송신기의 블럭 구성도를 나타낸다.
도 18을 참조하면, 송신기는 송/수신부(1820), 메모리부(1830), 제어부(1810)를 포함한다.
상기 송/수신부(1820)는 송신기에서 본 개시에 따라 수신기와 데이터를 송수신하기 위한 송신 모듈과 수신 모듈을 각각 포함한다.
상기 제어부(1810)는 도 1 내지 도 15에서 설명한 송신기의 동작을 수행한다. 즉, 상기 제어부(1810)는 오브젝트(object)에 대응하는 포인트 값을 확인하고, 상기 포인트 값을 패턴에 기반으로 한 블럭에 매핑하고, 상기 패턴은 평면상에 직교하는 포인트 값들의 거리와 패턴의 옵셋값을 기반으로 결정한다.
상기 메모리부(1030)는 송신기의 각종 데이터를 저장한다.
도 19는 본 개시에 따른 수신기의 블럭 구성도를 나타낸다.
도 19를 참조하면, 수신기는 송/수신부(1920), 메모리부(1930), 제어부(1910)를 포함한다.
상기 송/수신부(1920)는 수신기에서 본 개시에 따라 중앙 집중형 원격 채널 모니터와 데이터를 송수신하기 위한 송신 모듈과 수신 모듈을 각각 포함한다.
상기 제어부(1910)는 도 1 내지 13, 도 16 내지 도 17에서 설명한 수신기의 동작을 수행한다. 즉, 상기 제어부(1910)는 상기 데이터를 수신하고, 패턴을 결정하고, 상기 패턴을 기반으로 하여 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하고, 상기 입체 영상의 오브젝트(object)에 대응하는 포인트 값을 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 획득하고; 및 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하도록 제어한다. 여기서 상기 패턴은 평면상에 직교하는 상기 포인트 값의 거리와 패턴의 옵셋값을 기반으로 결정된다.
즉, 상기 제어부(1910)는 상기 데이터를 수신하고, 상기 데이터에 포함된 블럭으로부터 블럭의 각도 정보 및 블럭-포인트 거리 정보 획득하고, 상기 각도 정보 및 상기 블럭-포인트 거리 정보를 기반으로 하여 포인트 값을 획득하고, 상기 포인트 값을 기반으로 하여 상기 데이터를 복호하도록 제어하고, 상기 각도는 상기 포인트 값을 최대한 적은 값을 가지는 거리의 총합으로 매핑하도록 결정된다.
도 20은 본 개시에 따른 동적으로 취득된 포인트 클라우드 영상의 예시를 나타낸다.
본 개시에 따르면, 테스트 모델 카테고리 2(Test Model Category 2, TMC2)를 사용한 테스트 모델 카테고리 3(Test Model Category 3, TMC3) 포인트 클라우드 압축(point cloud compression, PCC)를 제안한다.
영상 처리 방법에 따라, 3차원 영상 정보는 오브젝트 영상 정보와 장면 영상 정보로 구분할 수 있다.
오브젝트 영상 정보(object image information)는 복수의 카메라를 이용하여, 하나의 오브젝트를 전방위에서 촬영한 영상(omnidirectional image) 데이터를 조합하여, 3차원 영상 정보를 생성한다. 일반적으로 전방위에서 촬영한 영상이라 하여도, 오브젝트의 표면의 영상 정보만을 획득하는 경우가 많다. 즉, 오브젝트 영상 정보는 오브젝트들의 표면의 영상 정보 내지 표면으로부터 일정 깊이까지의 영상 정보를 포함하는 것이 보통이다. 다만, 투명성 및 투과성에 따라, 물리적 표면과 달리, 일정 깊이까지 측정하는 것이 가능하다. 예컨대, 투과성이 좋은 X선 촬영을 통하여, 오브젝트의 내부 구조 정보를 포함하는 3차원 영상을 생성할 수 있고, 3차원 영상을 소프트웨어를 이용하여 생성할 경우, 촬영된 영상과 달리, 완전한 3차원 정보를 가지는 3차원 영상 정보를 생성할 수 있다.
장면 영상 정보(scene image information)은 LiDAR (Light detection and ranging)등의 영상 취득 장치를 이용하여 현재 위치에서 전방향 정보를 획득할 수 있다. 오브젝트 영상 정보는 오브젝트 외부에 존재하는 복수의 카메라로 오브젝트를 촬영한 영상 정보를 주로 이용하는 반면, 장면 영상 정보는 특정 위치(중심점)에서 전방향의 영상 정보를 취득한다는 점에서 차이가 있다. 장면 영상 정보도 오브젝트의 3차원 위치 정보를 포함하나, 상기 중심점에서 보이는 오브젝트의 부분만의 위치 정보를 획득한다는 점에서 오브젝트 영상 정보와 차이가 있다. 장면 영상 정보도 가시 영역을 넓히기 위하여, 복수의 LiDAR 장치들을 이용할 수 있음은 물론이다.
장면 영상 정보를 처리하는 명확한 표준은 아직 결정되지 아니하였다. 오브젝트 영상 정보는 오브젝트의 표면을 패치형태로 분리하여 2차원 이미지로 재구성한다. 오브젝트의 3차원 형상에 따라, 각 패치의 위치는 3차원 위치로서 결정되므로, 각 패치의 위치 정보는 2차원 이미지와 연결되어 저장되거나, 별도의 메타데이터로서 저장된다. 이러한 오브젝트 영상 정보를 처리하는 방법을 이용하여 장면 영상 정보를 처리할 수 있다.
도 20은 본 개시에 따른 3차원 영상을 처리하는 방법에서 이용하는 장면 영상 정보를 나타낸다. 상기 장면 영상 정보는 포인트 클라우드 영상일 수 있다. 중앙의 비어 있는 부분은 LiDAR 장치가 놓여 있는 위치를 나타내며, LiDAR 장치가 레이저를 방출하고, 오브젝트들에 의하여 반사된 레이저를 측정함으로써, 오브젝트의 위치들을 획득할 수 있다. 하나의 LiDAR 장치를 이용할 경우, LiDAR의 위치로부터, 보이는 오브젝트에 한하여, 영상을 취득할 수 있으므로, 장면 영상 정보는 LiDAR의 위치를 중심으로 하는 동심구의 표면에 표현할 수 있다.
또한, 차량에 LiDAR 장치를 탑재하고, 차량이 이동 중에 LiDAR 장치에 의하여 장면 영상들을 실시간으로 취득하여, 차량의 위치와 취득한 장면 영상들에 기초하여, 3차원 맵 데이터를 생성하는 것도 가능하다. 이때, 차량에 탑재된 GPS(global position system) 등을 이용하여, 상기 차량의 위치와 상기 차량의 위치가 측정된 시간 정보를 획득할 수 있다.
그러나, 특정 위치에 있어서, 필요한 장면 영상 정보는 해당 위치에서 보이는 부분으로 충분할 수 있으므로, 동심구의 표면상에 장면 영상 정보를 매핑함으로써 장면 영상 정보를 효율적으로 저장할 수 있다.
도 20에서 나타나는 장면 영상 정보에 기초하여, 색상 ERP (equiretangular projection) 영상과 깊이 ERP 영상을 생성할 수 있다.
본 개시에 따른 영상 취득 방법에 있어서, 영상 취득 장치는 하나 이상의 포인트 클라우드 영상들을 획득할 수 있다. 상기 하나 이상의 포인트 클라우드 영상들은 하나의 3차원 좌표상에 중첩되어 표시될 수 있다. 상기 하나 이상의 포인트 클라우드 영상들은 동적으로 취득되는 영상일 수 있다. 구체적으로, 상기 영상 취득 장치는 상기 하나 이상의 포인트 클라우드 영상들을 획득할 수 있고, 상기 영상 취득 장치가 차량에 장착되고, 상기 차량이 이동하면서, 차량에 장착된 상기 영상 취득 장치가 상기 하나 이상의 포인트 클라우드 영상들을 동적으로 획득할 수 있다. 상기 포인트 클라우드 영상들은 색상, 거리 및 시간 정보를 포함할 수 있다.
도 21은 본 개시에 따른 포인트 클라우드 영상을 처리하는 방법을 설명하기 위한 예시도이다.
포인트 클라우드 영상을 처리하기 위하여 MPEG(moving picture expert group)에서는 TMC1, TMC2 및 TMC3를 정의하여 논의하고 있다. 그러나, TMC3에 대하여는 논의가 활발하지 아니한 측면이 있다. TMC2에서 정의하고 있는 처리 방법을 이용하여, TMC3의 영상 데이터를 처리할 수 있는 방법이 제안된다.
MPEG의 규격을 이용하여, 포인트 클라우드 영상을 처리하기 위하여 TMC(Test Model Category)는 TMC1, TMC2, TMC3를 포함한다. TMC1은 3차원 정적 이미지(static objects and scenes)를 처리하는 방법을 개시하고, TMC2는 3차원 오브젝트 동영상(dynamic objects)을 처리하기 위한 방법을 개시하고, TMC3는 3차원 맵 데이터(dynamic acquisition)를 처리하는 방법을 개시한다.
이하, TMC2의 규격을 이용하여 TMC3의 데이터를 처리하는 방법을 설명한다.
예컨대, TMC2에 있어서, 패치 생성 과정에서 3차원 오브젝트 영상의 표면을 패치 형태로 분리하여 처리한다. 또한, 패킹 과정에서 분리된 패치들을 포함하는 제1 2차원 영상을 재구성하고, 재구성된 제1 2차원 영상에 대응되는 위치 정보 및 깊이 정보를 포함하는 별도의 제2 2차원 영상을 생성한다.
상기 제1 2차원 영상과 상기 제2 2차원 영상에 기초하여, 지오메트리 영상을 생성하고, 텍스처 영상을 생성할 수 있다. 영상 패딩 과정에서는 상기 생성된 지오메트리 영상과 상기 생성된 텍스처 영상에 패딩 데이터를 부가하여, 패딩된 지오메트리 영상과 패딩된 텍스처 영상을 생성한다. 상기 패딩된 지오메트리 영상과 상기 패딩된 텍스처 영상은 비디오 압축을 거쳐 비트스트림으로 출력된다.
상기 제1 2차원 영상과 상기 제2 2차원 영상의 패치들의 분포에 따라, 점유 지도(occupancy map) 정보를 생성할 수 있다. 상기 점유 지도 정보는 압축되어 전송될 수 있다. 또한, 부가적인 패치 정보를 생성하고 압축할 수 있다. 상기 점유 지도 정보와 부가적인 패치 정보는 비트스트림에 포함하여 전송되거나, 별도의 메타데이터에 포함시켜 전송될 수 있다.
도 22는 포인트 클라우드 영상에 대응되는 가상의 동심구를 나타내는 예시도이다.
도 22를 참고하면, 3차원 맵 데이터를 포인트 클라우드 영상으로 나타내고 있다. 영상 취득 장치의 위치를 중심점으로 하는 가상의 동심구(2210)를 생성하여 3차원 맵 데이터의 포인트 클라우드 영상의 각 점들에 대응하는 상기 동심구 상의 위치를 획득한다. 상기 포인트 클라우드 영상의 각 점들의 영상 정보를 동심구(2210) 상의 위치에 대응시켜 색상 ERP 영상(color equiretangular projection image)를 생성하고, 상기 포인트 클라우드 영상의 각 점들의 깊이 정보를 동심구 상의 위치에 대응시켜 깊이 ERP 영상(depth equiretangular projection image)를 생성한다. 생성된 색상 ERP 영상의 각 점들은 생성된 깊이 ERP 영상의 각 점들과 대응된다.
동심구(2210)의 중심점으로부터 3차원 맵 데이터의 한 점 방향(2220)으로 연장하여, 동심구 상의 한 점에 매핑시킨다. 상기 3차원 맵 데이터의 상기 한 점의 색상 정보는 상기 색상 ERP 영상의 대응되는 위치에 기록하고, 상기 3차원 맵 데이터의 상기 한 점의 깊이 정보는 상기 깊이 ERP 영상의 대응되는 위치에 기록한다. ERP 영상은 2차원 영상(2D image)의 위치에 따라, 동심구의 표면의 위치가 특정되므로, 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 이용하여 상기 3차원 맵 데이터를 복원할 수 있다. 상기 3차원 맵 데이터의 모든 점을 동심구 상의 대응되는 점에 매핑시킴으로써, 상기 색상 ERP 영상 및 상기 깊이 ERP 영상을 생성할 수 있다.
ERP 방법이란, 지도 투영법 중 메르카토르 투영법(Mercator projection)과 유사한 방법으로 구면의 영상을 2차원 평면으로 투영하는 방법을 나타낸다. 메르카토르 투영법에서 위도와 경도에 따라, 가로와 세로를 구분하는 것처럼 ERP 방법에서도 위도와 경도의 개념을 사용한다. ERP 방법에 따른 ERP 영상은 세로 길이의 단위를 위도의 단위로서 -90도(남극)에서 +90도(북극)까지 나타내며, 가로 길이의 단위를 경도의 단위로서 -180도에서 +180도의 단위로 나타내거나, 0도에서 360도의 단위로 나타낸다.
ERP 방법에 따른 ERP 영상은 북극과 남극 근방은 과대 평가되고, 적도 근방은 비교적 정확히 나타난다. ERP 방법을 기초로 ERP 영상을 패킹하는 방법으로서, 적도 근방은 ERP 영상을 그대로 사용하고, 북극과 남극 근방의 ERP 영상은 삼각형 또는 사다리꼴 패킹 방법에 따라 북극과 남극에 가까울수록 더 압축하여 패킹하는 방법을 사용할 수 있다.
상술한 바와 같이 ERP 영상은 영상 자체에 위치 정보를 포함하고 있으므로, 높은 압축률과 빠른 처리가 가능하다는 장점이 있으나, 북극과 남극 근방의 정보는 과대 평가되고, 영상들을 스티칭하고 패킹하는 과정에서 왜곡이 발생한다는 단점이 있다.
도 23은 본 개시에 따른 색상 ERP 영상과 깊이 ERP 영상에 기초하여, 포인트 클라우드 영상을 처리하는 방법을 설명하기 위한 예시도이다.
상기 색상 ERP 영상은 MPEG의 TMC2의 지오메트리 영상 생성 과정에서 처리되고, 상기 깊이 ERP 영상은 MPEG의 TMC2의 텍스처 영상 생성 과정에서 처리될 수 있다.
도 23을 참고하면, 3차원 영상 정보(2330)로부터 색상 ERP 영상(2310)과 깊이 ERP 영상(2320)을 생성할 수 있고, 즉, 색상 ERP 영상(2310)은 지오메트리 영상 생성 과정(2350)에서 생성될 수 있고, 깊이 ERP 영상(2320)은 텍스처 영상 생성 과정(2360)에서 생성될 수 있다. 이는 예시적인 것으므로, 깊이 ERP 영상(2320)이 지오메트리 영상 생성 과정(2350)에서 생성되거나, 색상 ERP 영상(2310)은 텍스처 영상 생성 과정(2360)에서 생성될 수 있음은 물론이다.
색상 ERP 영상의 픽셀들은 ARGB(alpha-red-green-blue)의 방법에 따라서 처리될 수 있고, 깊이 ERP 영상의 픽셀들은 깊이 정보를 포함한다. 깊이 ERP 영상의 픽셀들의 깊이 정보는 선형 스케일의 값을 가질 수 있고, 로그 스케일의 값을 가질 수 있다. 통상 깊이 ERP 영상의 픽셀들의 깊이 정보는 최소 깊이 값과 최대 깊이 값 사이의 값을 가질 수 있으므로, 최소 깊이 값 및 최대 깊이 값을 별도의 메타데이터로 전송하거나, 깊이 ERP 영상의 헤더에 기록함으로써, 허용되는 데이터 크기에 비례하여 최소 깊이 값과 최대 깊이 값 사이에 정밀도를 높일 수 있다.
3차원 영상이 중심점 근방의 오브젝트의 밀도가 높을 경우, 로그 스케일 방법에 따라 깊이 정보를 저장하여, 데이터 저장 효율을 높일 수 있고, 최소 깊이 값과 최대 깊이 값 사이에 오브젝트의 밀도가 균일할 경우, 선형 스케일 방법에 따라 깊이 정보를 저장할 수 하여 데이터 저장 효율을 높일 수 있다.
일반적으로 LiDAR를 이용하여 3차원 장면 영상을 획득한 경우, 중심점 근방의 오브젝트들에 의하여 원거리의 오브젝트들이 차폐되기 때문에, 로그 스케일 방법이 적당할 수 있다. 차량에 탑재된 LiDAR를 이용하여 차량이 이동하면서, 복수의 장면 영상들을 획득하고, 복수의 장면 영상들에 기초하여 3차원 맵 데이터를 생성한 경우라면, 일정 범위 내에서, 오브젝트의 밀도가 비교적 균일할 수 있으므로, 이와 같은 경우라면, 선형 스케일의 방법이 적당할 수 있다.
도 24(a), (b) 및 (c)는 본 개시에 따른 시간 ERP 영상을 생성하는 방법을 설명하기 위한 예시도들을 나타낸다.
동심구 상의 포인트들은 3차원 맵 데이터에 대응되는데, 상기 맵 데이터를 획득하기 위하여, 라이다(LiDAR, Light detection and ranging)를 이용할 수 있다. 상기 LiDAR는 동심구의 시작점(북극)에서 끝점(남극) 방향에 수직되는 구면에 따라 회전하며 주사되며, 도 24(a)는 LiDAR의 주사 방향은 회전하면서 북극에서 남극 방향으로 이동되는 것을 나타내고 있다. 주사 순서에 따라, 3차원 맵 데이터를 획득할 수 있다.
전방향 영상(omnidirectional image)를 처리하는 방법으로서 등장방형 투영(ERP, equiretangular projection) 방법을 이용할 수 있다. ERP 방법은 구면의 영상을 직사각형의 영역에 투영하는 방법이다. ERP 영상은 북극과 남극 방향으로 과대하게 표현되고, 적도 부분은 비교적 정확히 표현되므로, ERP 영상을 패킹하는 다양한 방법들이 제안되고 있다.
도 24(a)는 3차원 동심구에서의 LiDAR의 주사 순서를 나타내고, 도 24(b)는 360 2차원 영상(ERP 영상)에서의 주사 순서를 나타내고, 도 24(c)는 ERP 영상에서의 주사 순서를 시간 데이터로 표현한 시간 ERP 영상을 나타낸다.
LiDAR의 회전 속도에 따라, LiDAR의 주사 시간에는 미세한 차이가 있으며, 도 24(a), 24(b) 및 24(c)를 참고하면, 주사 순서를 나타내기 위하여, 해당 위치의 주사 시간을 나타낼 수 있다. 이때, 최초 시각 값과 최후 시각 값은 별도의 메타데이터에 기록하거나, 시간 ERP 영상의 헤더에 기재할 수 있다. 예컨대, 시각 값으로 1바이트를 사용할 경우, 최초 시각을 0으로 표시하고, 최후 시각을 255로 표시하여, 최초 시각 값과 최후 시각 값 사이를 255등분하여 표시할 수 있다. 통상 최초 시각 값 및 최후 시각 값은 LiDAR 장치의 고유한 특성에 따라 결정될 수 있는 것이므로, LiDAR 장치의 주사 시간을 위도와 경도에 따라 실험적으로 미리 산정할 수 있다. 다만, LiDAR 장치의 주사 시간은 오브젝트의 밀도에 따라 변경될 필요도 존재하므로, 이 경우, 주사 시각을 시간 ERP 영상의 각 픽셀에 기재함으로써, 색상 ERP 영상 및 깊이 ERP 영상에 대응되는 시각을 알 수 있다. LiDAR 장치를 장착한 차량이 이동하거나, 관측되는 오브젝트들이 이동하는 경우, 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상에 기초하여, 3차원 영상의 위치 정보를 보다 정확하게 복원할 수 있다.
도 24(c)의 각 픽셀은 주사 시각을 나타내는 숫자로 표현된다. 어두운 색일수록 먼저 주사된 것이며, 밝은 색일수록 나중에 주사된 것을 의미할 수 있고, 반대로 표시할 수도 있다. 이는 이해의 편의를 위하여, 제시된 것이며, 주사 시간을 데이터화하는 방법은 다양할 수 있다. 예컨대, 실제 시간과 유사하게 적용할 수 있고, 로그 스케일의 시간 단위로 주사 시간을 나타낼 수 있다.
도 25는 본 개시에 따른 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상을 나타내는 예시도이다.
3차원 맵 데이터으로부터 색상 ERP 영상(2510), 깊이 ERP 영상(2520) 및 시간 ERP 영상(2530)을 획득할 수 있다. 상기 색상 ERP 영상(2510), 깊이 ERP 영상(2520) 및 시간 ERP 영상(2530)을 2차원 영상을 처리하는 방법으로 MPEG의 규격에 따라 사전 데이터 처리, 인코딩, 압축, 멀티 플렉싱 및 전송할 수 있다.
또한 수신된 색상 ERP 영상(2510), 깊이 ERP 영상(2520) 및 시간 ERP 영상에 기초하여, 3차원 맵 데이터를 생성할 수 있다.
상기 색상 ERP 영상(2510), 깊이 ERP 영상(2520), 시간 ERP 영상(2530)은 동일 원점을 가지는 동심구에 대응될 수 있다.
지금까지 3차원 맵 데이터를 처리하는 방법으로서, 색상 ERP 영상(2510), 깊이 ERP 영상(2520) 및 시간 ERP 영상(2530)을 이용하는 방법을 설명하였으나, 3차원 맵 데이터가 아닌, 3차원 포인트 클라우드 영상에 대하여도 색상 ERP 영상(2510), 깊이 ERP 영상(2520) 및 시간 ERP 영상(2530)을 이용할 수 있다. LiDAR를 이용하여 획득한 3차원 맵 데이터는 차폐되는 후방의 3차원 정보는 존재하지 않는 경우가 많으므로, 1개의 동심구를 이용하여, 1개의 색상 ERP 영상(2510) 및 1개의 깊이 ERP 영상(2520)으로 3차원 맵 데이터를 복원할 수 있다. 물론, 복수의 동심구들을 이용하여 복수의 색상 ERP 영상들(2510) 및 복수의 깊이 ERP 영상들(2520)을 이용할 수 있음은 물론이다. 그러나, 3차원 포인트 클라우드 영상은 3차원 정보가 중첩되어 표현될 수 있어서, 3차원 포인트 클라우드 영상은 한 개의 동심구를 이용하여 표현되기 어려운 측면이 있다.
3차원 포인트 클라우드 영상은 3차원 데이터가 존재하는 표면을 패치 형태로 2차원 데이터 조각으로 만들고, 해당 조각에 깊이 정보를 부가하는 형태로 데이터를 가공한 후, 모든 3차원 데이터에 대하여 깊이 정보를 포함하는 복수의 2차원 데이터 조각들을 생성한 후 생성된 복수의 2차원 데이터 조각들을 2차원 영상 데이터로 생성하여 전송한다. 수신된 2차원 영상 데이터는 다시 패치들을 분리하고 재배치하여 3차원 포인트 클라우드 영상으로 재배치한다.
이때, 상기 복수의 2차원 데이터 조각들을 복수의 동심구 상에 배치하여, 색상 ERP 영상과 깊이 ERP 영상을 생성하는 것을 고려할 수 있다. 복수의 동심구를 이용하여, 3차원 포인트 클라우드 영상을 처리할 경우, 복수의 동심구를 이용하기 때문에 압축률이 낮아지는 단점이 있으나, 2차원 데이터 조각들을 재배치할 필요가 없으므로, 빠르게 영상 처리를 할 수 있는 장점이 있다.
복수의 동심구들에 기초하여, 색상 ERP 영상들(2510)과 깊이 ERP 영상들(2520)을 생성하는 경우, 상기 복수의 동심구들의 반지름은 ERP 영상의 해상도에 대응될 수 있다. 상기 복수의 동심구들의 반지름은 일정할 수 있고, 중심점으로부터 거리가 먼 오브젝트들에 대응되는 동심구의 반지름이 더 짧을 수 있다. ERP 영상의 해상도를 낮춤으로써, 중심점으로부터 먼 거리에 존재하는 오브젝트에 대하여, 가중치를 낮게 설정할 수 있다. 하나의 동심구의 표면에 가까운 거리에 있는 오브젝트들의 부분들부터 먼 거리에 있는 오브젝트들의 부분들까지 투영된다. 다만 보이는 오브젝트들부터 투영되는 것이므로, 근거리 오브젝트에 의하여 차폐되는 원거리 오브젝트는 다른 동심구 표면에 투영되는 것이다. 보이는 부분에서 가장 가까운 오브젝트들의 부분부터 최초의 동심구에 투영되고, 가장 가까운 오브젝트들이 제거된 3차원 영상 중에 보이는 부분의 존재하는 오브젝트들의 부분들을 순차적으로 새로운 동심구에 투영하는 것을 반복한다. 3차원 영상에 존재하는 모든 오브젝트를 투영하면 비로서, 동심구들을 생성하는 것을 종료한다.
가까운 영역의 동심구부터 순차적으로 생성하나, 오브젝트들의 차폐에 의하여, 가까운 영역의 동심구에 포함된 오브젝트가 먼 영역의 동심구에 포함된 오브젝트보다 중심점으로부터 더 멀리 위치할 수 있는 것은 당연하다.
중심점으로부터 떨어진 거리에 따라 오브젝트들을 처리하기 위하여, 각 동심구의 중심점으로부터 떨어진 거리에 따라 동심구 그룹을 생성할 수 있다. 이 경우, 중심점으로부터의 거리에 따라 오브젝트들을 처리할 수 있어서, 빠르게 데이터를 처리할 수 있는 장점이 있으나, 보다 많은 동심구를 생성해야 하므로, 데이터 저장 효율은 떨어지는 단점이 있다.
동일 그룹에 포함되는 복수의 동심구들의 중심들은 동일하거나 다를 수 있다.
하나의 그룹에 포함되는 복수의 동심구들의 반지름들은 같거나 다를 수 있고, 동심구의 반지름은 속성값을 효과적으로 저장하기 위한 값으로 결정하는 것을 특징으로 한다. 예컨대, 동심구의 반지름은 ERP 영상의 해상도에 대응될 수 있다.
각 동심구에 대하여, 해당 동심구의 속성 및 해당 동심구의 반지름의 크기 정보는 별도의 메타데이터로 저장되거나 전송될 수 있고, ERP 영상의 헤더에 포함되어 저장되거나 전송될 수 있다.
포인트 클라우드 영상을 취득하는 영상 취득 장치는 LiDAR일 수 있다. 복수의 LiDAR들을 이용하여, 포인트 클라우드 영상을 취득할 때, 복수의 동심구들을 이용할 수 있고, 복수의 동심구 그룹들의 중심은 복수개가 될 수 있다.
하나의 동심구 그룹은 중심점의 위치가 같으므로, 동심구 그룹이 복수개 존재하면, 동심구 그룹별로 동심구의 중심점의 위치가 저장 및 전송된다.
동심구의 중심점 정보는 영상 취득 장치로부터 제공될 수 있고, 영상 취득 장치로부터 영상 취득 장치의 개수와 좌표들의 정보가 제공될 수 있다.
도 26은 본 개시에 따른 영상 취득 장치의 배치를 나타내는 예시도이다.
영상 취득 장치로부터 제공된 정보에 기초하여 동심구의 중심점에 관한 정보를 획득할 수 있다.
동심구의 중심점 좌표 정보 및 동심구의 반지름 정보는 영상 취득 장치로부터 제공될 수 있다. 영상 취득 장치는 LiDAR(Light detection and ranging) 장치일 수 있다.
영상 취득 장치는 자동차와 같은 영상 취득 차량(vehicle)에 장착될 수 있다.
영상 취득 장치로부터 제공되는 정보에는 영상 취득 장치들의 개수와 영상 취득 장치들의 차량에서의 위치들이 포함될 수 있다.
상기 취득 차량은 GPS 장치를 포함할 수 있고, GPS 장치로부터 차량의 위치 정보 및 시간 정보를 획득할 수 있다.
도 27은 본 개시에 따른 복수의 영상 취득 장치들(2710, 2720)의 배치들을 나타내는 예시도이다.
포인트들은 어떤 동심구 또는 취득 장치에 속한 것인지에 해당하는 정보를 추가 속성으로 가진다.
복수의 영상 취득 장치들(2710, 2720)과 포인트 클라우드의 포인트들(2730, 2740)에 따라 상기 복수의 영상 취득 장치들의 정보가 획득될 수 있다.
제1 영상 취득 장치(2710)는 제1 동심구(2730)의 중심점에 위치하고, 제2 영상 취득 장치(2720)는 제2 동심구(2740)의 중심점에 위치한다. 이는 예시적인 도면이고, 영상 취득 장치들의 개수는 3 이상일 수 있다.
도 28은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
동심구 상에 존재하는 포인트들(2830)로부터 노멀들을 획득할 수 있다. 상기 노멀들을 연장하고, 노멀들의 교점을 이용하여 동심구의 중심점을 산출할 수 있다.
동심구 상의 하나의 포인트를 특정하고, 근방에 존재하는 동일한 거리에 존재하는 포인트를 획득하여, 두 포인트들의 중심점에서 두 포인트들을 연결한 선분과 수직인 수선을 생성하고, 다른 포인트들에 대하여 동일한 작업을 수행하여, 동심구의 중심점을 획득할 수 있다. 이때, 상기 수선을 노멀이라 칭한다.
도 29는 본 개시에 따른 복수의 동심구들의 중심들을 결정하는 방법을 설명하기 위한 예시도이다.
포인트들을 노멀에 기초하여, 동심구의 중심점을 획득할 수 있다.
이때, 동심구의 중심점이 2개 이상일 수 있다. 동심구의 중심점이 2개 이상인 경우, 복수의 중심점들에 따라 동심구들을 특정한다. 포인트들은 특정된 동심구들에 따라 분리되고, 각 동심구 별로 포인트들을 처리할 수 있다.
복수의 영상 취득 장치들을 사용하는 경우, 각 영상 취득 장치가 배치된 위치에 따라서, 동심구들의 중심점들은 서로 다르게 된다. 포인트들을 동심구 별로 분리하여 처리할 수 있다.
도 30은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
포인트들이 건물과 같은 일직선 상에 위치되는 구조물을 나타내는 경우, 인접 포인들과의 노멀을 산출할 경우, 노멀들이 서로 평행하여, 동심구의 중심점 예측에 오차가 발생할 수 있다. 포인트들이 직선 형태를 가지는 경우(3010)는 동심구의 중심점을 예측하는데 사용하지 않음으로써, 동심구의 중심점을 보다 정확하게 예측할 수 있다.
도 31은 본 개시에 따른 동심구의 중심을 결정하는 방법을 설명하기 위한 예시도이다.
포인트들이 동심구의 중심점으로부터 너무 멀리 떨어져 있는 경우, 동심구의 중심을 예측하는 것이 부적절할 수 있다. 가까운 거리에 존재하는 포인트들을 사용함으로써, 동심구의 중심점을 보다 정확하게 예측할 수 있다.
동심구의 중심점을 결정하는 방법으로서, 포인트들이 가능한 겹치지 않고 관측될 수 있는 위치를 동심구의 중심점으로 선택할 수 있다. 근거리 포인트들에 의하여 차폐되는 원거리 포인트들이 존재할 경우, 동심구의 개수가 복수이어야 한다. 동심구의 개수만큼 필요로 하는 데이터의 용량이 증가한다. 그러나, 동심구의 중심점에서 관측되는 전방향 영상에서 근거리 오브젝트에 의하여 차폐되는 원거리 오브젝트는 그 중요도가 떨어지므로, 가능한 근거리 오브젝트에 의하여 차폐되는 원거리 오브젝트의 수가 작아지도록 동심구의 중심점을 결정할 수 있다.
동심구의 중심점을 결정하는 다른 방법으로서, 포인트들을 그루핑(grouping)함으로써, 복수의 평면들을 결정할 수 있다. 상기 복수의 평면들 각각은 그루핑된 포인트들을 포함한다. 상기 복수의 평면들 중 최대한 많은 개수의 평면들을 볼 수 있는 위치를 동심구의 중심점으로 결정할 수 있다. 복수의 포인트 클라우드 영상들은 시간적 또는 공간적으로 연속적으로 배치될 수 있다. 시간적 순서 또는 공간적 순서에 따라 개별 포인트 클라우드 영상을 포인트 클라우드 프레임이라 칭할 수 있다. 하나의 포인트 클라우드 프레임은 하나의 중심점을 가질 수 있다. 연속적인 포인트 클라우드 프레임들의 중심점들을 연결하여 중심점의 이동 경로를 결정할 수 있다.
포인트 클라우드 프레임들의 중심점은 연속된 선상에 존재하도록 조정할 수 있다.
복수의 동심구들 각각은 하나의 중심점을 가지고, 서로 다른 동심구들의 중심점은 같거나 다를 수 있다. 본 개시에 따른 영상 취득 방법은 각 동심구에 대응하는 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상을 생성하는 방법을 제안한다.
도 32는 본 개시에 따른 동심구 상의 깊이 정보를 나타내는 방법을 설명하기 위한 예시도이다.
도 32(a)는 그루핑되는 포인트들을 포함하는 평면들의 중심점으로부터 떨어진 거리를 나타낸다. 상기 평면들 중 일부는 중심점으로부터 비교적 가까운 거리에 존재하며, 상기 평면들 중 일부는 중심점으로부터 비교적 먼 거리에 존재할 수 있다.
도 32(b)는 상기 평면들이 하나의 구면 위에 투영된 것을 나타낸다. 구면 위에 투영된 영상들은 색상 구면 영상, 깊이 구면 영상 및 시간 구면 영상을 포함할 수 있다. 상기 색상 구면 영상은 색상 ERP 영상으로 변환될 수 있고, 상기 깊이 구면 영상은 깊이 ERP 영상으로 변환될 수 있고, 상기 시간 구면 영상은 시간 ERP 영상으로 변환될 수 있다.
상기 색상 ERP 영상은 깊이 정보를 포함하지 않고, 상기 구면에 투영된 색상을 나타내는 것이나, 상기 깊이 ERP 영상으로부터 상기 색상 ERP 영상의 각 픽셀의 깊이 정보를 획득할 수 있다. 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 토대로 3차원 맵 데이터를 복원할 수 있다. 상기 깊이 ERP 영상은 도 32(b)에 나타나는 것처럼 깊이 정보를 숫자로서 표현할 수 있고, 이해의 편의를 위하여, 색의 명도에 따라 깊이 값이 상이한 것을 나타내고 있다. 도 32(a) 및 도 32(b)를 참고하면, 색이 밝을 수록 깊이 값이 큰 것이고, 색이 어두울수록 깊이 값이 작은 것을 나타낸다.
도 33은 본 개시에 따른 동심구 상의 깊이 정보를 나타내는 방법을 설명하기 위한 예시도이다.
깊이 값은 최소 깊이 값부터 최대 깊이 값까지의 범위에서 정하여 질 수 있다. 상기 최소 깊이 값 및 최대 깊이 값은 미리 결정된 값일 수 있고, 상기 최대 깊이 값은 상당히 큰 값일 수 있으며, 상기 최소 깊이 값은 적절하게 선택된 작은 값일 수 있다. 상기 최대 깊이 값은 상기 최소 깊이 값보다 클 것이다.
도 33(a)는 선형(linear) 깊이 표현 방법을 나타내고, 도 33(b)는 로그(log) 깊이 표현 방법을 나타낸다.
상기 최대 깊이 값과 상기 최소 깊이 값이 결정되면, 깊이 값의 스케일은 도 33(a)와 같이 선형 깊이 스케일을 가질 수 있고, 도 33(b)와 같이 로그 깊이 스케일을 가질 수도 있다. 깊이 값의 스케일을 결정하는 것은 깊이에 따른 오브젝트의 분포에 따라서 결정될 수 있다. 오브젝트의 밀도가 높은 영역은 촘촘한 깊이 값 스케일에 따라 결정하고, 오브젝트의 밀도가 낮은 영역은 다소 성긴 깊이 값 스케일에 따라 결정하는 것이 적절할 수 있다. 다만, 3차원 영상에서 영역 별로 오브젝트의 밀도를 분석하기 전에는 영역 별로 깊이 값의 스케일을 조정하기 어렵고, 선형 스케일 또는 로그 스케일에 따라 깊이 값을 처리함으로써, 깊이 ERP 영상을 생성하는 것이 적절할 수 있다.
시간 ERP 영상에 있어서, 최초 시각 값과 최대 시각 값에 대하여, 시각 값의 스케일을 선형 스케일 또는 로그 스케일로 표현할 수 있다.
상기 최초 시각 값과 최대 시각 값은 별도의 메타데이터로 저장할 수 있고, 상기 메타데이터는 깊이 값의 스케일에 관한 정보를 더 포함할 수 있다. 상기 깊이 값의 스케일은 선형 스케일, 로그 스케일 또는 사용자 정의 스케일 중 어느 하나 일 수 있다.
동심구과 관련된 속성(attribute)은 점유 지도(occupancy map) 정보, 동심구의 그룹 정보, 동심구의 변환 정보 및 동심구의 압축 구조 정보 중 적어도 하나를 포함할 수 있다.
점유 지도 정보란, 동심구의 표면에 매핑되는 정보의 존재 여부를 나타낸다. 즉, 점유 지도 정보는 동심구 표면에 매핑되는 정보가 없는 영역을 지시한다. 점유 지도 정보에 기초하여 동심구 표면상의 매핑된 정보의 존재 여부를 판단할 수 있다.
하나의 동심구의 표면에 대응되는 색상 구면 정보, 깊이 구면 정보, 시간 구면 정보 및 반사율 구면 정보는 각각 개별적인 동심구를 구성할 수 있다. 색상 구면 정보, 깊이 구면 정보, 시간 구면 정보 및 반사율 구면 정보에 대응되는 동심구를 각각 색상 동심구, 깊이 동심구, 시간 동심구 및 반사율 동심구라 칭할 수 있다.
동심구의 표면에 매핑되는 정보들은 다양한 투영 방법에 따라 2차원 정보로 변환될 수 있다. 사용된 투영 방법은 시그널링 또는 메타데이터를 이용하여 저장하고 전송될 수 있다.
동심구의 정보가 변환된 2차원 정보는 전방향 영상 정보(omnidirectional image information)일 수 있다. 상기 전방향 영상 정보는 비디오 인코더에 의하여, 압축될 수 있다. 상기 전방향 영상 정보는 ERP 영상으로 표현할 수 있다.
복수의 동심구들은 각각 전방향 영상 정보들로 변환되는데, 복수의 동심구들이 인접하여 위치할 경우, 즉, 동심구들의 중심점이 인접하여, 동심구들이 서로 겹치는 경우, 동심구 표면의 정보들은 중복되는 정보를 포함할 수 있다.
이때, 비디오 인코더에 의하여, 압축될 때, 복수의 동심구들의 중복되는 정보에 기초하여, 중복되는 영역의 영상 데이터를 처리할 수 있다.
도 34는 본 개시에 따른 영상 정보를 처리하는 방법을 설명하기 위한 예시도이다.
차량에 복수의 영상 취득 장치들(3410, 3420)이 장착된 경우, 영상 취득 장치들의 중심점은 서로 상이하고, 각 영상 취득 장치에 의하여 취득된 포인트들은 서로 다른 중심점에 따라 분리된다. 도 34를 참고하면, 제1 영상 취득 장치(3410)는 제1 동심구(3430)에 대응되고, 제2 영상 취득 장치(3420)는 제2 동심구(3440)에 대응된다. 제1 동심구(3430)와 제2 동심구(3440)는 서로 겹치는 영역(3450)이 존재한다. 제1 동심구(3430)의 정보와 제2 동심구(3440)의 정보를 동시에 고려하여, 서로 겹치는 영역(3450)의 3차원 정보를 취득할 수 있다.
도 35는 본 개시에 따른 영상 정보를 처리하는 방법을 설명하기 위한 예시도이다.
도 34의 겹치는 영역(3450)에 대한 3차원 정보를 처리하기 위하여, 스케일러블 코덱 방법, 서브 채널 방법 또는 프레임의 교차 배정 방법 중 어느 하나의 방법을 사용할 수 있다.
상기 스케일러블 코덱 방법에 따르면, 제1 동심구의 정보에 제2 동심구의 정보를 부가하여 제1 동심구의 정보를 강화한 제1 ERP 영상을 생성하고, 제1 동심구의 정보만에 기초하여 제2 ERP 영상을 생성하여, 스케일러블 영상을 생성할 수 있다.
상기 서브 채널 방법에 따르면, 제1 동심구의 정보에 기초하여 제3 ERP 영상을 생성하고, 제2 동심구 정보에 기초하여 제4 ERP 영상을 생성할 수 있다. 메인 채널을 이용하여 제1 ERP 영상을 처리하고, 서브 채널을 이용하여 제2 ERP 영상을 처리할 수 있다.
상기 프레임의 교차 배정 방법에 따르면, 제1 동심구의 정보를 토대로 생성된 제1 ERP 영상 프레임들과 제2 동심구의 정보를 토대로 생성된 제2 ERP 영상 프레임들은 교차하여 배열함으로써, 제1 ERP 영상 프레임과 제2 ERP 영상 프레임을 조합하여, 겹쳐진 영역(3450)을 효율적으로 처리할 수 있다.
하나의 동심구에 대응하는 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상은 함께 인코딩될 수 있고, 색상 ERP 영상, 깊이 ERP 영상 및 시간 ERP 영상 별로 그루핑되어 별도로 인코딩될 수도 있다. 즉, 색상 ERP 영상들만이 따로 인코딩되고, 깊이 ERP 영상들만이 따로 인코딩되고, 색상 ERP 영상들만이 따로 인코딩될 수 있다.
도 36은 본 개시에 따른 프레임 내 압축 과정(intra frame compression process)을 설명하기 위한 모식도이다.
본 개시에 따른 동적 포인트 클라우드 영상의 인코딩 방법은 3가지 별개의 비디오 시퀀스들로서, 동적 포인트 클라우드의 지오메트리 영상 정보, 텍스처 영상 정보 및 속성 영상 정보를 기존의 비디오 코덱을 이용하는 방법들이 제안되고 있다.
상기 세가지 비디오 시퀀스들을 해석하기 위하여 필요한 별개의 메타데이터는 분리되어 압축된다. 상기 메타데이터는 점유 지도 정보(occupancy map information)와 보조 패치 정보(auxiliary patch information)을 포함할 수 있다. 상기 메타데이터는 전체 비트스트림 중 작은 양이고, 소프트웨어 구현을 사용하여, 효율적으로 인코딩되고 디코딩될 수 있다. 대량의 정보들(지오메트리 영상 정보, 텍스처 영상 정보 및 속성 영상 정보)은 비디오 코덱(video compression)에 의하여 수행될 수 있다.
도 37은 본 개시에 따른 프레임 간 압축 과정(inter frame compression process)을 설명하기 위한 모식도이다.
패치 생성 과정은 포인트 클라우드를 부드러운 경계들을 가지는 최소의 패치들로 분해하면서, 재구성 에러를 최소하는 것을 목적으로 한다. 인코더들은 상술한 분해를 생성하기 위하여 다양한 방법을 실행할 수 있다.
각 포인트에서의 노멀이 예측될 수 있다. 예측된 노멀들에 기초하여, 각 포인트와 XY 평면, YZ 평면 또는 ZX 평면 중 어느 하나와 연관시킴으로써, 포인트 클라우드의 초기 클러스터링이 획득될 수 있다.
보다 자세하게, 각 포인트는 가장 가까운 노멀을 가지는 평면과 연관될 수 있다.
각 포인트의 노멀과 가장 가까운 이웃들의 클러스터 인덱스들에 기초하여 각 포인트와 연관된 클러스터 인덱스를 반복적으로 업데이트함으로써, 초기 클러스터링은 개량된다.
마지막 과정은 연결된 컴포넌트 추출 과정을 적용함으로써, 패치들을 추출하는 것을 포함한다.
추출된 패치들에 기초하여 패킹 과정을 수행할 수 있다. 상기 패킹 과정은 추출된 패치들을 2차원 그리드(grid)에 매핑한다. 상기 2차원 그리드의 사용되지 않는 영역을 최소화하고, 상기 2차원 그리드의 모든 MxM(예컨대, 16x16) 블럭이 고유한 패치와 연관되는 것을 보장하도록 추출된 패치들을 상기 2차원 그리드에 매핑한다. 상기 사용되지 않는 영역은 점유 지도 정보로서 저장된다.
상기 M은 인코더에 의하여 정의되고, 비트스트림에 인코딩되는 파라미터이다. 상기 M은 디코더에게 설정된다.
도 38은 본 개시에 따라서, 패치들을 그리드에 삽입하는 방법을 설명하기 위한 예시도이다.
단순하게, 패치들을 WxH 그리드에 반복적으로 삽입할 수 있다. W와 H는 사용자 정의 파라미터들이다. 인코딩되는 지오메트리 비디오 이미지, 텍스처 비디오 이미지 및 동작 비디오 이미지의 해상도에 대응되도록 W와 H가 결정된다. 예컨대, 오브젝트의 표면의 영상들을 패치 단위(16x16)로 추출하여, WxH 그리드에 순차적으로 배치할 수 있다. 추출된 패치들의 인접한 위치에 따라 WxH 그리드에 추출된 패치들이 인접하도록 배치함으로써, 복원시 인접한 패치들을 동시에 처리하여 연산 속도를 개선할 수 있다.
통상 패치들의 위치는 래스터 스캔 순서로 적용되는 철저한 검색을 통해 결정된다. 중첩되지 않는 패치의 삽입을 보장 할 수 있는 첫 번째 위치가 선택되고 패치로 덮힌 격자 셀이 사용 된 것으로 표시된다. 현재 해상도 이미지의 빈 공간이 패치에 적합하지 않으면 그리드의 높이 H를 증가시켜서, WxH 그리드를 확대할 수 있다. 확대된 WxH 그리드에 대하여 래스터 스캔 순서로 적용되는 검색이 다시 적용된다. 모든 패치들을 WxH 그리드에 삽입하면 사용된 그리드 셀에 맞추어 H 값을 조정한다. 즉, WxH 그리드의 높이를 줄인다. 비디오 시퀀스의 경우 전체 GOP(goal of production)에 대해 W 및 H를 결정하기 위하여 별도의 프로세스를 수행할 수 있다.
모든 패치들을 그리들에 매핑한 후, 포인트 클라우드 영상의 지오메트리 영상 정보, 텍스처 영상 정보 및 동작 영상 정보를 생성할 수 있다.
상기 지오메트리 영상, 텍스처 영상 및 동작 영상은 비디오 프레임들로서 저장되고, 비디오 코덱을 사용하여 압축될 수 있다.
본 개시에 따른 3차원 영상 처리 방법은 점유 지도(occupancy map) 정보를 생성하는 과정을 더 포함할 수 있다.
점유 지도는 그리드의 각 셀에 대하여, 각 셀이 빈 것인지 포인트 클라우드에 속하는지를 지시하는 이진 지도(binary map)을 포함한다.
2차원 그리드의 하나의 셀은 이미지 생성 과정 동안 하나의 픽셀을 생성한다.
메타데이터는 모든 패치에 대하여 인코딩되고, 디코딩될 수 있다.
상기 메타데이터는 투영 평면의 인덱스, 2차원 경계 상자(2D bounding box) 및 패치의 3차원 위치 중 적어도 하나를 포함할 수 있다.
또한, 각 MxM 블럭을 위한 각 MxM 블럭과 관련된 패치 인덱스를 제공하는 매핑 정보가 인코딩되고 디코딩될 수 있다.
리샘플링 블럭은 프레임 간 인코딩 프로세스(inter frame encoding process)에서 사용된다. 변형 필드가 가능한 한 매끄럽도록 하면서 참조 프레임을 변형하여 인코딩될 대상 프레임과 동일한 모양으로 만든다. 변형된 참조 프레임은 최종적으로 다시 채색되어 대상 프레임의 리샘플링된 버전으로 간주된다.
프레임 간 인코딩/디코딩 과정에서 3차원 동작 보상(3D motion compensation) 동작이 수행될 수 있다. 참조 포인트 클라우드의 위치와 변형된 버전의 포인트 클라우드 위치 사이의 차이를 계산하고, 획득된 동작 필드는 참조 프레임의 포인트와 연관된 3D 동작 벡터들을 포함할 수 있다. 참조 프레임의 3D에서 2D 매핑은 동작 필드를 2D 이미지로 변환하는 데 사용될 수 있다.
동작 영상의 각각의 블럭에 대한 스케일링 팩터를 제공하는 스케일 맵이 인코딩될 수 있다.
인코더는 동적 포인트 클라우드의 하나 이상의 프레임들을 기술하는 파일들의 집합을 입력으로 사용할 수 있다. 포인트 클라우드의 위치(지오메트리)와 색상(텍스처, 질감)은 모두 정수 값들이다. 인코더의 출력은 디스크에 기록되는 이진 스트림(binary stream)이다.
디코더는 압축 비트 스트림 파일을 입력으로 받아, 정수 위치들과 색상들로 재구성된 파일들의 집합을 생성한다.
파라미터들은 명령 행 변수들(command line arguments)로부터 획득될 수 있고, 비디오 코덱은 외부 프로세스로 활용될 수 있다. 인코더/디코더 실행 파일에 대한 경로는 파라미터들로 전달될 수 있다. 메타데이터는 상기 파라미터들을 포함할 수 있다. 지오메트리 영상, 텍스처 영상 및 동작 영상의 비디오 스트림을 인코딩하는데 사용되는 파라미터들은 별도의 구성 파일(예컨대, 메타데이터)에 기술될 수 있다. 상기 구성 파일과 연관된 경로도 파라미터들로서 전달될 수 있다.
도 39는 본 개시에 따른 영상을 전송하는 방법을 설명하기 위한 절차흐름도이다.
본 개시에 따른 영상을 전송하는 방법은, 3차원 입체 영상을 획득하는 과정과, 상기 3차원 입체 영상으로부터 색상 등장방형 투영(ERP, equiretangular projection) 영상을 생성하는 과정과, 상기 3차원 입체 영상으로부터 깊이 ERP 영상을 생성하는 과정과 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 전송하는 과정을 포함할 수 있다.
상기 색상 ERP 영상의 각 픽셀은 상기 깊이 ERP 영상의 각 픽셀에 대응되고, 상기 색상 ERP 영상의 각 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 각 픽셀은 상기 색상 ERP 영상의 각 픽셀의 깊이 정보를 포함할 수 있다.
상기 3차원 입체 영상은 오브젝트 영상 정보 및 장면 영상 정보 중 어느 하나일 수 있다.
오브젝트 영상 정보는 하나 이상의 오브젝트들의 3차원 영상 정보를 포함한다. 상기 하나 이상의 오브젝트들을 외부에서 커버하는 패치들을 배치시켜, 오브젝트의 포인트들을 상기 패치들 중 어느 하나의 패치에 매핑시키고, 상기 매핑된 패치를 배열함으로써, 2차원 영상을 생성할 수 있다. 오브젝트의 특정 포인트 근방에 패치를 위치시키고, 패치에 대응되는 포인트들과 패치 사이의 거리의 합이 최소가 되도록 패치의 각도를 조정하여 패치를 배치할 수 있다. 최초의 패치를 기준으로 상하좌우 방향으로 패치를 더 생성할 수 있으며, 포인트들이 존재하지 않는 방향으로는 패치를 더 생성하지 아니한다.
오브젝트의 모든 포인트들을 매핑할 수 있도록 계속하여 패치를 생성한다. 생성된 패치들은 2차원 영상에 저장되며, 생성된 패치들의 깊이 정보, 투명도 정보, 반사율 정보 등은 다른 2차원 영상에 저장될 수 있다.
패치들의 색상 정보를 포함하는 2차원 영상은 색상 2차원 영상이라 하고, 패치들의 깊이 정보를 포함하는 2차원 영상은 깊이 2차원 영상이라고 할 수 있다.
상기 색상 2차원 영상은 지오메트리 영상 생성 과정에서 생성될 수 있다. 상기 깊이 2차원 영상은 텍스처 영상 생성 과정에서 생성될 수 있다. 상기 생성된 색상 2차원 영상과 상기 깊이 2차원 영상은 패딩되고, 압축되어 비트스트림으로 출력될 수 있다.
장면 영상 정보는 영상 취득 장치(예컨대, LiDAR)로부터 방출된 빛이 오브젝트에 의하여 반사된 것을 캡처하여, 오브젝트의 반사된 위치까지의 거리를 측정한다. LiDAR는 일반적으로 반사경을 360도 회전시키면서 반사된 빛을 감지하는 것이다. 반사경이 360도 수평 회전할 때마다, 반사경의 수직 각도를 변경시켜서 3차원 영상 데이터를 획득할 수 있다. LiDAR를 이용하여, 깊이 정보를 획득할 수 있다.
전방향 카메라를 이용하여 색상 전방향 영상을 획득할 수 있다. 전방향 카메라는 하나 이상의 카메라를 포함할 수 있고, 상기 하나 이상의 카메라는 어안(fisheye) 렌즈 또는 광각 렌즈를 포함할 수 있다. 색상 전방향 영상과 깊이 전방향 영상에 기초하여, 3차원 장면 영상 정보를 생성할 수 있고, 상기 3차원 장면 영상 정보로부터 상기 색상 ERP 영상과 깊이 ERP 영상을 획득할 수도 있다. 또는, LiDAR로부터 획득한 깊이 전방향 영상을 깊이 ERP 영상으로 변환하고, 색상 전방향 영상을 색상 ERP 영상으로 변환할 수 있다.
앞서 설명한 동작들은 해당 프로그램 코드를 저장한 메모리 장치를 통신 또는 방송 시스템의 엔터티, 기능(Function), 기지국, 단말 또는 차량 장치 내의 임의의 구성부에 구비함으로써 실현될 수 있다. 즉, 엔터티, 기능(Function), 기지국, 단말 또는 차량 장치의 제어부는 메모리 장치 내에 저장된 프로그램 코드를 프로세서 혹은 CPU(Central Processing Unit)에 의해 읽어내어 실행함으로써 앞서 설명한 동작들을 실행할 수 있다.
본 명세서에서 설명되는 엔터티, 기능(Function), 기지국, 단말 또는 차량 장치의 다양한 구성부들과, 모듈(module)등은 하드웨어(hardware) 회로, 일 예로 상보성 금속 산화막 반도체(complementary metal oxide semiconductor) 기반 논리 회로와, 펌웨어(firmware)와, 소프트웨어(software) 및/혹은 하드웨어와 펌웨어 및/혹은 머신 판독 가능 매체에 삽입된 소프트웨어의 조합과 같은 하드웨어 회로를 사용하여 동작될 수도 있다. 일 예로, 다양한 전기 구조 및 방법들은 트랜지스터(transistor)들과, 논리 게이트(logic gate)들과, 주문형 반도체와 같은 전기 회로들을 사용하여 실시될 수 있다.
한편, 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (14)

  1. 영상을 전송하는 방법에 있어서,
    3차원 입체 영상을 획득하는 과정과,
    상기 3차원 입체 영상으로부터 색상 등장방형 투영(ERP, equiretangular projection) 영상 및 깊이 ERP 영상을 생성하는 과정과,
    상기 색상 ERP 영상과 상기 깊이 ERP 영상을 전송하는 과정
    을 포함하고,
    상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함하는 영상을 전송하는 방법.
  2. 제1항에 있어서,
    상기 3차원 입체 영상으로부터 색상 ERP 영상 및 깊이 ERP 영상을 생성하는 과정은,
    3차원 좌표 상의 특정점을 중심점으로 하는 동심구를 형성하는 과정과,
    상기 3차원 입체 영상의 포인트들을 상기 동심구의 표면에 매핑하는 과정과,
    상기 매핑된 포인트들의 색상 정보에 기초하여, 상기 색상 ERP 영상을 생성하는 과정과,
    상기 매핑된 포인트들의 깊이 정보에 기초하여, 상기 깊이 ERP 영상을 생성하는 과정을 포함하는 영상을 전송하는 방법.
  3. 제1항에 있어서,
    상기 3차원 입체 영상은,
    포인트들의 3차원 위치 정보 및 상기 포인트들의 색상 정보를 포함하는 것인 영상을 전송하는 방법.
  4. 제3항에 있어서,
    상기 3차원 입체 영상은,
    상기 포인트들의 텍스처 정보, 상기 포인트들의 반사율 정보 및 상기 포인트들의 투명도 정보 중 적어도 하나를 더 포함하는 영상을 전송하는 방법.
  5. 제1항에 있어서,
    점유 지도 정보를 포함하는 메타 데이터를 전송하는 과정을 더 포함하고,
    상기 점유 지도 정보는 색상 ERP 영상 및 깊이 ERP 영상의 영상 데이터가 없는 위치를 지시하는 정보를 포함하는 영상을 전송하는 방법.
  6. 3차원 입체 영상을 복원하는 방법에 있어서,
    색상 ERP 영상과 깊이 ERP 영상을 수신하는 과정과,
    상기 색상 ERP 영상과 상기 깊이 ERP 영상에 기초하여 3차원 입체 영상을 복원하는 과정을 포함하고,
    상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함하는 영상을 복원하는 방법.
  7. 제6항에 있어서,
    상기 색상 ERP 영상과 상기 깊이 ERP 영상에 기초하여 3차원 입체 영상을 복원하는 과정은,
    상기 깊이 ERP 영상의 픽셀의 깊이 정보와 상기 깊이 ERP 영상의 상기 픽셀의 위치에 기초하여, 상기 픽셀에 대응되는 포인트의 위치 정보를 획득하고, 상기 깊이 ERP 영상의 상기 픽셀에 대응하는 상기 색상 ERP 영상의 픽셀의 색상 정보를 상기 대응되는 포인트의 위치 정보와 결합하여, 상기 3차원 입체 영상의 포인트의 위치 정보 및 색상 정보를 복원하는 과정을 포함하는 영상을 복원하는 방법.
  8. 제6항에 있어서,
    상기 3차원 입체 영상은,
    포인트들의 3차원 위치 정보 및 상기 포인트들의 색상 정보를 포함하는 것인 영상을 복원하는 방법.
  9. 제8항에 있어서,
    상기 3차원 입체 영상은,
    상기 포인트들의 텍스처 정보, 상기 포인트들의 반사율 정보 및 상기 포인트들의 투명도 정보 중 적어도 하나를 더 포함하는 영상을 복원하는 방법.
  10. 제6항에 있어서,
    점유 지도 정보를 포함하는 메타 데이터를 수신하는 과정을 더 포함하고,
    상기 점유 지도 정보는 색상 ERP 영상 및 깊이 ERP 영상의 영상 데이터가 없는 위치를 지시하는 정보를 포함하는 영상을 복원하는 방법.
  11. 영상을 전송하는 장치에 있어서,
    송수신기와,
    상기 송수신기와 연결되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    3차원 입체 영상을 획득하고, 상기 3차원 입체 영상으로부터 색상 등장방형 투영(ERP, equiretangular projection) 영상 및 깊이 ERP 영상을 생성하고, 상기 색상 ERP 영상과 상기 깊이 ERP 영상을 전송하도록 구성되고,
    상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함하는 영상을 전송하는 장치.
  12. 제11항에 있어서,
    상기 적어도 하나의 프로세서는,
    제2항 내지 제5항의 방법 중 어느 하나의 방법을 수행하는 영상을 전송하는 장치.
  13. 3차원 입체 영상을 복원하는 장치에 있어서,
    송수신기와,
    상기 송수신기와 연결되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    색상 ERP 영상과 깊이 ERP 영상을 수신하고, 상기 색상 ERP 영상과 상기 깊이 ERP 영상에 기초하여 3차원 입체 영상을 복원하도록 구성되고,
    상기 색상 ERP 영상의 픽셀들은 상기 깊이 ERP 영상의 픽셀들에 대응되고, 상기 색상 ERP 영상의 픽셀은 색상 정보를 포함하고, 상기 깊이 ERP 영상의 픽셀은 상기 색상 ERP 영상의 대응되는 픽셀의 깊이 정보를 포함하는 영상을 복원하는 장치.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서는,
    제7항 내지 제10항의 방법 중 어느 하나의 방법을 수행하는 영상을 복원하는 장치.
PCT/KR2018/014059 2017-11-16 2018-11-16 3차원 영상을 처리하는 방법 및 장치 WO2019098728A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020207017271A KR102642418B1 (ko) 2017-11-16 2018-11-16 3차원 영상을 처리하는 방법 및 장치
US16/764,172 US11212507B2 (en) 2017-11-16 2018-11-16 Method and apparatus for processing three-dimensional images

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170153346 2017-11-16
KR10-2017-0153346 2017-11-16

Publications (1)

Publication Number Publication Date
WO2019098728A1 true WO2019098728A1 (ko) 2019-05-23

Family

ID=66539823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/014059 WO2019098728A1 (ko) 2017-11-16 2018-11-16 3차원 영상을 처리하는 방법 및 장치

Country Status (3)

Country Link
US (1) US11212507B2 (ko)
KR (1) KR102642418B1 (ko)
WO (1) WO2019098728A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023112105A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 符号化装置、符号化方法及びプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220130075A1 (en) * 2019-03-15 2022-04-28 Lg Electronics Inc. Device and method for processing point cloud data
WO2020230710A1 (ja) * 2019-05-10 2020-11-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置
WO2021045536A1 (en) 2019-09-04 2021-03-11 Wilus Institute Of Standards And Technology Inc. Video encoding and decoding acceleration utilizing imu sensor data for cloud virtual reality
KR102495926B1 (ko) * 2020-11-26 2023-02-06 주식회사 라온솔루션 연산량을 분배할 수 있는 스마트 아이티 레퍼런스 보드 시스템
CN113393572B (zh) * 2021-06-17 2023-07-21 北京千丁互联科技有限公司 点云数据生成方法、装置、移动终端和可读存储介质
US11961184B2 (en) * 2021-09-17 2024-04-16 Samsung Electronics Co., Ltd. System and method for scene reconstruction with plane and surface reconstruction
US12017657B2 (en) * 2022-01-07 2024-06-25 Ford Global Technologies, Llc Vehicle occupant classification using radar point cloud
KR102700729B1 (ko) * 2022-11-09 2024-08-28 네이버 주식회사 3차원 빌딩 모델 및 도로 모델을 이용한 3차원 거리뷰 모델 생성 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160107357A (ko) * 2009-02-19 2016-09-13 톰슨 라이센싱 3d 비디오 포맷
KR20170017700A (ko) * 2015-08-07 2017-02-15 삼성전자주식회사 360도 3d 입체 영상을 생성하는 전자 장치 및 이의 방법
US20170084075A1 (en) * 2015-09-17 2017-03-23 Thomson Licensing Reflectance parameter estimation in real scenes using an rgb-d sequence
KR20170043791A (ko) * 2015-10-14 2017-04-24 한국전자통신연구원 360 가상 현실 서비스를 위한 영상 포맷 및 그 장치
KR20180108106A (ko) * 2017-03-24 2018-10-04 주식회사 씨오티커넥티드 360도 동영상에서의 가상현실 재생 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723421B1 (ko) * 2006-03-13 2007-05-30 삼성전자주식회사 포인트 보간에 의한 렌더링 방법, 포인트 보간에 의한 렌더링 장치 및 기록매체
US9183631B2 (en) 2012-06-29 2015-11-10 Mitsubishi Electric Research Laboratories, Inc. Method for registering points and planes of 3D data in multiple coordinate systems
US9930315B2 (en) * 2015-04-29 2018-03-27 Lucid VR, Inc. Stereoscopic 3D camera for virtual reality experience
US20190304160A1 (en) * 2016-07-29 2019-10-03 Sony Corporation Image processing apparatus and image processing method
US10375375B2 (en) * 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160107357A (ko) * 2009-02-19 2016-09-13 톰슨 라이센싱 3d 비디오 포맷
KR20170017700A (ko) * 2015-08-07 2017-02-15 삼성전자주식회사 360도 3d 입체 영상을 생성하는 전자 장치 및 이의 방법
US20170084075A1 (en) * 2015-09-17 2017-03-23 Thomson Licensing Reflectance parameter estimation in real scenes using an rgb-d sequence
KR20170043791A (ko) * 2015-10-14 2017-04-24 한국전자통신연구원 360 가상 현실 서비스를 위한 영상 포맷 및 그 장치
KR20180108106A (ko) * 2017-03-24 2018-10-04 주식회사 씨오티커넥티드 360도 동영상에서의 가상현실 재생 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BYEONGDOO CHOI ET AL.: "WD on ISO/IEC 23000-20 Omnidirectional Media Application Format", ISO/IEC JTC1/SC29/WG11 N16189, 3 June 2016 (2016-06-03), Geneva, Switzerland, XP055517901 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023112105A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 符号化装置、符号化方法及びプログラム

Also Published As

Publication number Publication date
US11212507B2 (en) 2021-12-28
KR102642418B1 (ko) 2024-03-04
US20200389639A1 (en) 2020-12-10
KR20200078666A (ko) 2020-07-01

Similar Documents

Publication Publication Date Title
WO2019098728A1 (ko) 3차원 영상을 처리하는 방법 및 장치
WO2019093834A1 (en) Point cloud compression using non-orthogonal projection
EP3695386A1 (en) Point cloud compression using non-orthogonal projection
WO2020189982A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2020189976A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2020242244A1 (ko) 포인트 클라우드 데이터 처리 방법 및 장치
WO2021002604A1 (ko) 포인트 클라우드 데이터 처리 방법 및 장치
WO2018048078A1 (ko) 공간적 구조 정보를 이용한 동기화된 다시점 영상의 부호화/복호화 방법 및 그 장치
WO2020190090A1 (ko) 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020242077A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2020246689A1 (ko) 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020189943A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020256308A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2021002558A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법.
WO2020197086A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2021002594A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2021029511A1 (ko) 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020013631A1 (ko) 3차원 영상을 부호화 하는 방법 및 장치, 및 3차원 영상을 복호화 하는 방법 및 장치
WO2023287220A1 (ko) 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 수신 방법 및 포인트 클라우드 데이터 수신 장치
WO2021029575A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020189891A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2023182762A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2019083119A1 (ko) 360도 비디오에 대한 영상 코딩 시스템에서 회전 파라미터를 사용한 영상 디코딩 방법 및 장치
WO2022119208A1 (ko) 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 수신 방법 및 포인트 클라우드 데이터 수신 장치
WO2022055167A1 (ko) 포인트 클라우드 데이터 전송장치, 포인트 클라우드 데이터 전송방법, 포인트 클라우드 데이터 수신장치 및 포인트 클라우드 데이터 수신방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18878226

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20207017271

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 18878226

Country of ref document: EP

Kind code of ref document: A1