WO2012002033A1 - 画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 - Google Patents
画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 Download PDFInfo
- Publication number
- WO2012002033A1 WO2012002033A1 PCT/JP2011/059961 JP2011059961W WO2012002033A1 WO 2012002033 A1 WO2012002033 A1 WO 2012002033A1 JP 2011059961 W JP2011059961 W JP 2011059961W WO 2012002033 A1 WO2012002033 A1 WO 2012002033A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- depth
- image
- depth value
- value
- distribution
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
Definitions
- the present invention relates to an image conversion device that converts a depth image indicating a depth value of an image, a control method for the image conversion device, a program, and a recording medium.
- multi-viewpoint images images from a plurality of viewpoints
- video expression using a plurality of viewpoint images include stereoscopic image display and arbitrary viewpoint image display.
- FIG. 9 is an explanatory diagram showing an overview of stereoscopic image display. As shown in FIG. 9, by viewing the image 501 with the left eye and the image 502 with the right eye for the two images 501 and 502 with parallax, the image 501, It feels as if the objects 504 and 505 in 502 exist three-dimensionally.
- the arbitrary viewpoint image display is to create and display a subject image at an arbitrary viewpoint from a plurality of viewpoint images having different viewpoints and the distance between the camera and the subject in each viewpoint image.
- FIG. 10 is an explanatory diagram showing an overview of arbitrary viewpoint image display.
- images 601v, 602v, and 603v having different viewpoints and depth images 601d, 602d, and 603d that indicate the distance between the camera and the subject in each viewpoint image.
- Images in the example shown in FIG. 10, viewpoint images 604v and 605v
- Non-Patent Document 1 describes a method of generating a viewpoint image (arbitrary viewpoint image) at an arbitrary viewpoint.
- the method described in Non-Patent Document 1 generates an arbitrary viewpoint image using two viewpoint images and depth images corresponding to them. Specifically, (1) the depth image is projected onto the virtual viewpoint, (2) the projected depth image is smoothed, and (3) the pixel value of the actual image is mapped to the smoothed depth image. (4) A method of repairing a pixel at a remaining position by using surrounding pixels. As described above, by using the viewpoint images of the two viewpoints and the depth image thereof, it is possible to generate an image from an arbitrary viewpoint near the viewpoints.
- FIG. 11 is a diagram for explaining a principle that leads to improvement of stereoscopic display by an arbitrary viewpoint image generation technique.
- FIG. 11 it is assumed that subjects 704 and 705 are photographed by two cameras 701 and 702 that are installed with a distance 706 apart, and viewpoint images 701v and 702v are obtained. If the distance 706 is larger than the distance between the left and right eyes of a human (generally said to be around 65 mm), even if the viewpoint image 701v is viewed with the left eye and the viewpoint image 702v is viewed with the right eye, it is blurred. It becomes a three-dimensional image or an image that cannot be seen as a three-dimensional image.
- a viewpoint image 703v in which a subject is viewed at a viewpoint position 703 that is separated from the camera 701 by the same distance 707 as the distance between the left and right eyes of a human is created, and an appropriate stereoscopic image is obtained by using the viewpoint image 701v and the viewpoint image 703v. Can be observed.
- the distance between the two cameras 701 and 702 is too small compared to the distance between the left and right eyes of the human, it corresponds to the distance between the left and right eyes of the human from the point of the camera 701 or the camera 702.
- Patent Document 1 when transmitting depth information, a transmission amount is preferentially assigned to frequency components with high perceptual sensitivity according to temporal frequency and spatial frequency characteristics with respect to changes in visual depth. Discloses a technique for encoding a depth value.
- a viewpoint image generated by using the depth information quality that is, using the depth information
- assigning a code amount by paying attention to the sensitivity of human depth perception. Quality while reducing the amount of information.
- Patent Document 1 analyzes the time frequency characteristics and the spatial frequency characteristics of the depth information in order to encode the depth information, the amount of processing increases compared to the method of encoding the depth information as it is. , Processing time will be delayed. In particular, in order to obtain time-frequency characteristics, it is necessary to analyze depth information over a plurality of frames, and a delay of several frames or more is inevitably caused in processing.
- the present invention has been made in view of the above-described problems, and its object is to reduce the amount of information in the depth image by a simple process with little delay while maintaining the perspective relationship of the subject in the depth image. It is to realize an image conversion apparatus and the like that can perform the above.
- an image conversion apparatus is an image conversion apparatus that converts a depth image by converting a depth value
- the acquisition unit that acquires the depth image and the acquisition unit include A depth value distribution creating unit that creates a distribution of the number of occurrences of depth values in the acquired depth image, and a depth value distribution created by the depth value distribution creating unit is divided into a plurality of sections according to the continuity of the depth values in the distribution.
- a depth value distribution dividing means for dividing the depth value distribution, a representative value determining means for determining a representative value of each section of the depth value distribution divided by the depth value distribution dividing means, and a depth value distribution divided by the depth value distribution dividing means.
- Image conversion means for converting the depth image by converting the depth value included in each section into the representative value determined by the representative value determination means; It is a symptom.
- the image conversion device control method is a method of controlling an image conversion device that converts a depth image by converting a depth value, and includes an acquisition step of acquiring the depth image, and an acquisition step of the depth image.
- a depth value distribution creating step for creating a distribution of the number of occurrences of depth values in the acquired depth image, and the depth value distribution created in the depth value distribution creating step are divided into a plurality of sections according to the continuity of the depth values in the distribution.
- the depth image is changed by converting the depth value included in each section into the representative value determined in the representative value determining step. It is characterized in that it comprises an image conversion step of, a.
- the distribution of the number of occurrences of depth values in the depth image is divided into a plurality of sections according to the continuity of the depth values in the distribution, and the depth values in the divided sections are converted into representative values. To convert the depth image.
- the depth value can be converted into a representative value while maintaining the shape feature of the distribution of the number of occurrences of the depth value in each depth image, so the information amount of the depth image while maintaining the perspective relationship of the depth image Can be reduced.
- the depth value can be reduced by converting the depth value without using the depth image before and after the depth image to be converted, so the depth value is converted using the depth image before and after. As in the case, it is possible to prevent the conversion process from being delayed.
- the image conversion apparatus includes an acquisition unit that acquires a depth image, a depth value distribution generation unit that generates a distribution of the number of appearances of depth values in the depth image acquired by the acquisition unit, and the above Depth value distribution dividing means for dividing the depth value distribution created by the depth value distribution creating means into a plurality of sections according to the shape of the distribution, and representative values of each section of the depth value distribution divided by the depth value distribution dividing means Representative value determining means for determining the depth image, and by converting the depth value included in each section of the depth value distribution divided by the depth value distribution dividing means into the representative value determined by the representative value determining means, And an image conversion means for conversion.
- the image conversion apparatus control method includes an acquisition step of acquiring a depth image, a depth value distribution generation step of generating a distribution of the number of appearances of depth values in the depth image acquired in the acquisition step, and A depth value distribution dividing step for dividing the depth value distribution created in the depth value distribution creating step into a plurality of sections according to the shape of the distribution, and representative values of each section of the depth value distribution divided in the depth value distribution dividing step
- the depth image is converted by converting the depth value included in each section of the depth value distribution divided in the depth value distribution dividing step into the representative value determined in the representative value determining step.
- the depth value can be converted into the representative value while maintaining the shape feature of the distribution of the number of occurrences of the depth value in the depth image, so the information amount of the depth image can be reduced while maintaining the perspective relationship of the depth image. There is an effect that it can be reduced.
- the depth image can be converted by reducing the depth information without using the front and back depth images
- the conversion processing can be performed as in the case of converting the depth value using the front and back depth images. There is an effect that the delay can be prevented.
- FIG. 1 illustrates an embodiment of the present invention and is a block diagram illustrating a main configuration of an image encoding device. It is a flowchart which shows the flow of the process in the said image coding apparatus. It is a flowchart which shows the flow of the matching process in the said image coding apparatus. It is a flowchart which shows the flow of the pixel classification
- FIG. 1 It is a figure for demonstrating this Embodiment, It is a figure which shows the viewpoint image for left eyes, the viewpoint image for right eyes, and the depth image for right eyes and the depth image for left eyes corresponding to these, (A) is a diagram showing a left eye viewpoint image, (b) is a diagram showing a left eye depth image corresponding to the left eye viewpoint image, and (c) is a right eye viewpoint image. (D) of the figure which shows the right-eye viewpoint image corresponding to the right-eye viewpoint image. It is a figure for demonstrating this Embodiment, and is a figure which shows depth value distribution in the block area
- (A), (b) of the same figure is a figure (histogram) which shows depth value distribution in a block area
- FIGS. 1 to 8 An embodiment of the present invention will be described with reference to FIGS. 1 to 8 as follows.
- FIG. 1 is a block diagram illustrating a main configuration of the image encoding device 10.
- the image encoding device 10 acquires depth images corresponding to a plurality of viewpoint images (for example, right-eye images and left-eye images), performs an encoding process on these images, reduces the amount of information, and transmits the images. It is.
- the right-eye image is an image assumed to be viewed by the observer with the right eye
- the left-eye image is an image assumed to be viewed by the observer with the left eye.
- the observer can see the subject displayed in the image in three dimensions.
- the case where there are two depth images will be described.
- the present invention is not limited to this, and there may be three or more depth images.
- the depth image is an image in which each pixel is expressed only by the luminance indicating the depth value, which is the distance between the camera and the subject.
- the luminance indicating the depth value
- a subject closer to the camera is expressed with higher luminance, and the luminance is decreased as the distance from the camera increases.
- a method for creating a depth image for example, a method of creating a depth image by irradiating infrared rays or ultrasonic waves from a camera and measuring the distance between the camera and a subject using the reflection to obtain a depth value, Images are taken with multiple cameras, and the arrangement and context of each area in the viewpoint image are estimated from the information about the camera arrangement and shooting conditions at the time of shooting, and the correspondence between the viewpoint images taken with multiple cameras.
- a method of creating a depth image by obtaining a depth value can be given.
- the image encoding device 10 includes a dividing unit (acquiring unit, image dividing unit) 11, a matching unit (corresponding divided image determining unit) 12, and a depth value distribution creating unit (depth value distribution creating unit) 13. , Pixel classification unit (depth value distribution dividing unit, representative value determining unit, occupied area calculating unit) 14, occlusion region specifying unit (occlusion region specifying unit) 15, depth value converting unit (image converting unit) 16, and encoding unit 17 , And a multiplexing unit 18.
- the dividing unit 11 acquires a right-eye depth image and a left-eye depth image corresponding to the right-eye image and the left-eye image, and each of the blocks (divided images) of a predetermined size (for example, 16 ⁇ 16 pixels). ). Then, the respective depth images (right-eye image and left-eye image) divided into a plurality of blocks are transmitted to the matching unit 12 and the depth value distribution creating unit 13.
- the depth image is composed of a plurality of pieces of pixel information, and the pixel information is composed of coordinate information indicating the position in the image and luminance information. Note that the depth image may be a moving image composed of a plurality of frames, or may be a still image.
- the luminance information is described as being expressed by 8 bits, but the present invention is not limited to this.
- the matching unit 12 performs block matching with the other depth image for each of the right-eye depth image and the left-eye depth image obtained by the division unit 11 and divided into a plurality of blocks, and has the highest degree of matching. The block is determined. Then, the blocks determined to have the highest degree of coincidence are associated with each other and transmitted to the occlusion area specifying unit 15.
- the matching unit 12 calculates, for each block of the left-eye depth image, a cumulative sum AE of absolute difference values for a block within a predetermined range (for example, ⁇ 16 pixels) centering on the same position block of the right-eye depth image. . Then, the block having the smallest cumulative sum AE of difference absolute values is determined as a block having a high degree of coincidence.
- a predetermined range for example, ⁇ 16 pixels
- the depth value distribution creating unit 13 counts the number of appearances of the luminance information (depth value) in each block for the right-eye depth image and the left-eye depth image divided into the plurality of blocks acquired from the dividing unit 11, A depth value distribution indicating the relationship between the depth value and the number of appearances (number of pixels) is generated. Then, the generated depth value distribution in each block is transmitted to the pixel classification unit 14 in association with each block.
- the pixel classification unit 14 uses the depth value distribution in each block of the right-eye depth image and the left-eye depth image acquired from the depth value distribution creation unit 13 to convert the pixels of each block into one or more pixel groups. Classify into: Then, a representative value and an occupied area (feature amount) of each pixel group are calculated. Then, the representative value and the occupied area of each pixel group are transmitted to the occlusion area specifying unit 15 in association with each block.
- a pixel group classification method, a representative value, and an occupied area calculation method will be described later.
- the occlusion area specifying unit 15 correlates each block between the right-eye depth image and the left-eye depth image acquired from the matching unit 12 and the right-eye depth image and left-eye acquired from the pixel classification unit 14.
- the region where the occlusion occurs is specified using the representative value and the occupied area of the pixel group in each block of the depth image for use.
- Occlusion means that a subject that exists at a short distance from the camera hides part or all of a subject that is located farther than this.
- an occlusion area is defined as an area where the displayed range of the subject differs between the right-eye image and the left-eye image due to occlusion.
- specification part 15 will transmit the position in the depth image of the pixel group in which the occlusion has generate
- a method for identifying the region where the occlusion has occurred will be described later.
- the depth value conversion unit 16 uses the representative value and the occupied area of the pixel group for each block acquired from the pixel classification unit 14 and the position where the occlusion acquired from the occlusion region specifying unit 15 is generated. A process of converting the depth value to reduce the resolution of the block is performed and transmitted to the encoding unit 17. Details of the conversion process will be described later.
- the encoding unit 17 compresses and encodes the depth image whose depth value has been converted by the depth value converting unit 16 based on a predetermined encoding method.
- the encoding method include JPEG (Joint ⁇ Photographic Experts Group) and JPEG2000 if the image to be encoded is a still image. Also, if the image to be encoded is a moving image, MPEG (Moving Picture Experts Group) -2, MPEG-4 AVC (Advanced Video Coding) / H. H.264 or the like can be cited. Then, the compression-encoded depth image is transmitted to the multiplexing unit 18.
- the multiplexing unit 18 multiplexes the encoded data of each depth image encoded by the encoding unit 17 according to a predetermined format, and transmits the multiplexed data to a recording device or an external communication unit (not shown).
- a predetermined format for multiplexing there is an MVC (Multi-view Video Coding) format.
- FIG. 2 is a flowchart showing the flow of processing of the image encoding device 10.
- the dividing unit 11 converts these depth images, respectively. Divide into predetermined sizes (S2).
- the matching unit 12 performs block matching with the right-eye depth image for each block of the left-eye depth image divided by the dividing unit 11, and for each block of the right-eye depth image, the left-eye depth. Perform block matching with the image. Then, a matching pair is determined for each block of the right-eye depth image and the left-eye depth image (S3). Details of the process of determining a matching pair will be described later.
- the depth value distribution creating unit 13 creates a depth value distribution for each block divided by the dividing unit 11 (S4, depth value distribution creating step), and the pixel classifying unit 14 creates each block divided by the dividing unit 11. Then, the pixel groups are classified (depth value distribution division step), representative values in each pixel group are determined (representative value determination step), and the occupied area is calculated (S5). Details of the processing for classifying the pixel groups will be described later.
- the occlusion area specifying unit 15 determines the presence / absence of occlusion by using the matching value determined by the matching unit 12 and the representative value and the occupied area of each pixel group calculated by the pixel classification unit 14 (S6). Details of the occlusion area specifying process will be described later.
- the depth value conversion unit 16 converts the depth value according to the presence or absence of the occlusion specified by the occlusion region specifying unit 15 (S7, image conversion step), and the encoding unit 17 uses the depth value conversion unit 16 to change the depth.
- the depth image whose value has been converted is encoded (S8), and the multiplexing unit 18 multiplexes the encoded depth images (the left-eye depth image and the right-eye depth image) (S8) and records them. It is transmitted to a device or an external communication device. Details of the depth value conversion processing will be described later. Above, the process in the image coding apparatus 10 is complete
- FIG. 3 is a flowchart showing the flow of the matching process.
- the matching unit 12 sets the same position block in the right-eye depth image and a block existing within a predetermined range ( ⁇ 16 pixels) from the block as reference blocks ( S31).
- the matching unit 12 calculates an accumulated sum AE of absolute differences between the block of the left-eye depth image and the reference block in the set right-eye depth image (S32).
- a block pair having the smallest accumulated absolute value AE is determined as a matching block ( S34).
- the matching process is terminated.
- FIG. 4 is a flowchart showing the flow of pixel classification processing. In the following description, processing for one block in the depth image will be described. However, the pixel classification unit 14 performs the following processing on all blocks of the depth image (the left-eye depth image and the right-eye depth image). Is what you do.
- the pixel classification unit 14 determines whether or not there is a discontinuous section in the depth value distribution for each block created by the depth value distribution creation unit 13 (S51). If there is a discontinuous section (YES in S1), it is classified into two pixel groups with the discontinuous section as a boundary (S52).
- a pixel group refers to a group of pixel information (information having coordinates and depth values) having depth values classified into the group.
- the pixel classification unit 14 creates each block created by the depth value distribution creation unit 13.
- the maximum value of the number of appearances in the continuous section of each depth value distribution is extracted (S53). If the number of extracted maximum values is one (NO in S54), the continuous section of the depth value distribution is set as one group (S55). That is, pixel information having each depth value in the continuous section of the depth value distribution is classified into one pixel group.
- the pixel classification unit 14 has a predetermined ratio (for example, 20) with respect to both maximum values in a distribution sandwiched between two adjacent maximum values. It is determined whether there are depth values with the number of appearances less than (%) (S55). Then, if there are depth values with the number of appearances less than a predetermined ratio (for example, 20%) with respect to both local maximum values (YES in S55), two pixels with the depth value with the smallest number of appearances as the boundary among the depth values. Sort into groups (S56).
- pixel information having depth values in a range including the respective local maximum values with the depth value having the smallest occurrence number as a boundary is classified into two groups.
- the depth values in the range including the maximum values are set to one group (S57).
- the pixel classification unit 14 determines a representative value for each classified pixel group and calculates an occupation area (S58).
- the representative value of the pixel group is determined as follows. When only one depth value having the maximum number of appearances exists in the pixel group, the depth value is determined as a representative value. When there are a plurality of depth values having the maximum number of appearances, the central value of the depth values in the pixel group is determined as a representative value.
- the occupied area of the pixel group is calculated by integrating the depth value distribution in the section of the pixel group.
- category part 14 is complete
- FIGS. 5 to 7 are diagrams for explaining an example of processing in the pixel classification unit 14.
- FIG. 5 shows a left-eye viewpoint image and a right-eye viewpoint image, and a corresponding left-eye depth image and right-eye depth image.
- 5A shows the left eye viewpoint image 210
- FIG. 5B shows the left eye depth image 211 corresponding to the left eye viewpoint image 210.
- FIG. 5C shows a right-eye viewpoint image 220
- FIG. 5D shows a right-eye depth image 221 corresponding to the right-eye viewpoint image 220.
- FIGS. 5 (a) and 5 (b) are images of a space including two subjects 201 and 202, respectively. However, since the parallax is generated due to the difference in viewpoint, the subject 202 in the right-eye viewpoint image 220 is shown in FIGS. Although all are displayed without being hidden by the subject 201, a part of the subject 202 is not hidden by the subject 201 in the left eye viewpoint image 210. This is a state where the above-described occlusion occurs.
- the block region 203a and the block region 203b are a pair of blocks (matching pair) that is divided by the dividing unit 11 and determined to have the highest degree of matching in the matching unit 12.
- the block area 203a of the left-eye depth image 211 includes the subject 202, but the block area 203b of the right-eye depth image 221 includes the subject. 202 is not included. That is, the depth value in the block area 203b of the right-eye depth image 221 is composed of the subject 201 and the background portion.
- FIG. 6 is a diagram showing the depth value distribution in the block area 203a and the block area 203b shown in FIG.
- the horizontal axis indicates the depth value
- the vertical axis indicates the number of appearances.
- FIG. 6A is a diagram (histogram) showing the depth value distribution in the block region 203a
- FIG. 6B is a diagram showing the depth value distribution in the block region 203b.
- the pixel classification unit 14 When the depth value distribution in the block region 203a of the depth image 211 for the left eye in FIG. 5 is a depth value distribution as shown in FIG. 6A, the pixel classification unit 14 first determines that the depth value distribution is invalid. It is determined whether or not there is a continuous section. In the depth value distribution shown in FIG. 6A, a discontinuous section 603 exists. Therefore, the pixel classification unit 14 classifies the depth value distribution into the pixel group 301a and the pixel group 302 with the discontinuous section 603 as a boundary. Then, it is determined whether or not there are a plurality of maximum values of the number of appearances in the depth value distribution classified into each of the pixel group 301a and the pixel group 302.
- the depth value distribution classified into the pixel group 301a has only one maximum value (maximum value 601), the depth value distribution classified into the pixel group 301a is not further classified into a plurality.
- the depth value distribution classified into the pixel group 302 has only one maximum value (maximum value 602), the depth value distribution classified into the pixel group 302 is not further classified into a plurality of values. .
- the depth value distribution shown in FIG. 6A is classified into the pixel group 301a including the local maximum value 601 and the pixel group 302 including the local maximum value 602.
- the pixel classification unit 14 determines the representative value of the pixel group 301 a as a depth value corresponding to the maximum value 601, and determines the representative value of the pixel group 302 as a depth value corresponding to the maximum value 602. Further, by integrating the sections of the pixel group 301a and the pixel group 302 in the depth value distribution, the occupation area of each pixel group is calculated.
- the pixel classification unit 14 first determines the depth value. It is determined whether or not a discontinuous section exists in the distribution. In the depth value distribution shown in FIG. 6B, a discontinuous section 606 exists. Therefore, the pixel classification unit 14 classifies the depth value distribution into the pixel group 301b and the pixel group 303 with the discontinuous section 606 as a boundary. Then, it is determined whether or not there are a plurality of maximum values of the number of appearances in the depth value distribution classified into each of the pixel group 301b and the pixel group 303.
- the depth value distribution classified into the pixel group 301a has only one maximum value (maximum value 604), the depth value distribution classified into the pixel group 301b is not further classified into a plurality. In addition, since there is no maximum value in the depth value distribution classified into the pixel group 303, the depth value distribution classified into the pixel group 303 is not classified into a plurality of depth values.
- the depth value distribution shown in FIG. 6A is classified into the pixel group 301 b and the pixel group 303 including the maximum value 604.
- the pixel classification unit 14 determines the representative value of the pixel group 301b as a depth value corresponding to the local maximum value 604, and sets the representative value of the pixel group 303 as an intermediate value 605 that is an intermediate value of the depth values in the pixel group 303. To decide. Further, by integrating the sections of the pixel group 301b and the pixel group 303 in the depth value distribution, the occupation area of each pixel group is calculated.
- the pixel classification unit 14 performs classification as follows. This will be described with reference to FIG. FIG. 7 is an example showing a depth value distribution in which there is no discontinuous section.
- the pixel classification unit 14 first extracts the local maximum value of the depth value distribution.
- the maximum value 401 and the maximum value 402 are extracted.
- the pixel classifying unit 14 classifies the pixel group 305 including the maximum value 401 and the pixel group 304 including the maximum value 402 with the minimum value 403 as a boundary. Then, the representative value and the occupied area of each pixel group are calculated by the method described above.
- FIG. 8 is a flowchart showing the flow of processing in the occlusion area specifying unit 15.
- the occlusion area specifying unit 15 first determines whether or not the matching pair block determined by the matching unit 12 has been classified into a plurality of pixel groups by the pixel classifying unit 14 (S61). If there is one pixel group in the block (NO in S61), it is determined that no occlusion has occurred (S64). This is because a single pixel group means that there is only one subject area in the block.
- the representative value of the pixel group in each block is compared with the occupied area to determine whether there is a matching pixel group. Whether or not the pixel groups match is determined, for example, by determining whether or not there is a pixel group that matches a block to be compared for a certain pixel group (a region made up of pixels having a depth value included in the target section). In this case, the difference between the representative value and the occupied area is calculated for all pixel groups included in the comparison target block, and there are pixel groups whose difference values are less than 10% of the original value. It is determined whether or not. If there are pixel groups having a difference value of less than 10%, it is determined that the pixel groups match.
- the block area 203a in FIG. 5B and the block area 203b in FIG. 5D are matching pairs, and occlusion occurs. In this case, for these blocks, it is determined whether or not the pixel groups match, and whether or not occlusion has occurred is determined as follows.
- the block region 203a is classified into a pixel group 301a and a pixel group 302
- the block region 203b is classified into a pixel group 301b and a pixel group 303. Therefore, both the block area 203a and the block area 203b are classified into a plurality of pixel groups.
- the occlusion area specifying unit 15 determines that occlusion has occurred in the area of the pixel group 302 in the block area 203a and the area of the pixel group 303 in the block area 203b. Then, the occlusion area specifying unit 15 specifies the area of the pixel group 302 and the area of the pixel group 303 as an area where occlusion occurs, and transmits the area to the depth value conversion unit 16.
- the depth value conversion unit 16 converts the depth value as follows using the representative value and the occupied area of the pixel group in each block, and the occlusion generation region. (1) When there are a plurality of pixel groups in the block and no occlusion occurs, the depth value included in each pixel group is replaced with a representative value of each group. (2) When there are a plurality of pixel groups in a block and occlusion occurs, the depth value included in the pixel group in which occlusion occurs is maintained as it is, and the depth included in other pixel groups. The value is replaced with a representative value for each group. (3) When there is one pixel value group in the block, all the depth values in the block are replaced with representative values of the pixel group.
- the depth value is made uniform in an area where no occlusion has occurred, whereby the data amount and the redundancy of the data are obtained. Is reduced. Therefore, when the depth image whose depth value has been converted by the depth value conversion unit 16 is compressed and encoded by the encoding unit 17, an effect of improving the compression rate can be achieved.
- the depth value of the block is single. This means that the spatial resolution of the depth image is reduced.
- all 256 pixels can be expressed with the same depth value. Therefore, the depth value of 256 pixels can be expressed by the depth value of one pixel, and the data amount can be reduced to 1/256.
- the depth value conversion unit 16 performs depth value conversion using a criterion of whether or not the region is an occlusion region.
- the criteria for converting the depth value are not limited to this, and other criteria may be used.
- the depth value may be converted based on variations in the depth value distribution. That is, the depth value variance ⁇ in the pixel group is obtained. When the variance ⁇ is larger than the predetermined value R, the depth value is not converted (that is, the depth value is maintained as it is), and when the depth value is equal to or smaller than the predetermined value R Depth values included in the pixel group are converted into representative values.
- the conversion is not performed, and when the subject has a small change in the depth direction ( ⁇ ⁇ R), the conversion is performed (the depth value is a representative value). Therefore, the amount of information can be reduced without greatly reducing the reproducibility of the perspective of the subject.
- depth values can be converted while maintaining the perspective relationship of a plurality of subjects overlapping in the depth direction, so that the amount of information can be reduced while suppressing distortion of perspective in the image. it can.
- the depth image information amount is reduced by reducing the information amount of the depth value and encoding the depth image while maintaining the context of the plurality of subjects. be able to.
- processing can be performed without using a plurality of image frames in the time direction, so that processing delay can be suppressed and encoding can be performed in real time. .
- each block of the image encoding device 10 in particular, a dividing unit 11, a matching unit 12, a depth value distribution creating unit 13, a pixel classifying unit 14, an occlusion area specifying unit 15, a depth value converting unit 16, an encoding unit 17,
- the multiplexing unit 18 may be realized in hardware by a logic circuit formed on an integrated circuit (IC chip), or may be realized in software using a CPU (central processing unit).
- the image encoding device 10 includes a CPU that executes instructions of a control program that realizes each function, a ROM (read only memory) that stores the program, a RAM (random access memory) that develops the program, the above
- a storage device such as a memory for storing programs and various data is provided.
- An object of the present invention is a recording medium in which a program code (execution format program, intermediate code program, source program) of a control program of the image encoding device 10 which is software for realizing the functions described above is recorded so as to be readable by a computer. Can also be achieved by reading the program code recorded on the recording medium and executing it by the computer (or CPU or MPU (micro processing unit)).
- the recording medium examples include tapes such as a magnetic tape and a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, a CD-ROM (compact disk-read-only memory) / MO (magneto-optical) / Discs including optical discs such as MD (Mini Disc) / DVD (digital versatile disc) / CD-R (CD Recordable), IC cards (including memory cards) / optical cards, mask ROM / EPROM (erasable) Programmable read-only memory) / EEPROM (electrically erasable and programmable programmable read-only memory) / semiconductor memory such as flash ROM, or logic circuits such as PLD (Programmable logic device) and FPGA (Field Programmable Gate Array) be able to.
- a magnetic disk such as a floppy (registered trademark) disk / hard disk
- the image encoding device 10 may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
- the communication network is not particularly limited as long as it can transmit the program code.
- Internet intranet, extranet, LAN (local area network), ISDN (integrated area services digital area), VAN (value-added area network), CATV (community area antenna television) communication network, virtual area private network (virtual area private network), A telephone line network, a mobile communication network, a satellite communication network, etc. can be used.
- the transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type.
- IEEE institute of electrical and electronic engineers 1394, USB, power line carrier, cable TV line, telephone line, ADSL (asynchronous digital subscriber loop) line, etc. wired such as IrDA (infrared data association) or remote control , Bluetooth (registered trademark), IEEE802.11 wireless, HDR (high data rate), NFC (Near field communication), DLNA (Digital Living Network Alliance), mobile phone network, satellite line, terrestrial digital network, etc. Is possible.
- the image conversion apparatus is an image conversion apparatus that converts a depth image by converting a depth value, the acquisition unit acquiring the depth image, and the depth acquired by the acquisition unit.
- a depth value distribution creating unit that creates a distribution of the number of occurrences of depth values in an image, and a depth value distribution created by the depth value distribution creating unit is divided into a plurality of sections according to the continuity of the depth values in the distribution.
- Depth value distribution dividing means for determining representative values of each section of the depth value distribution divided by the depth value distribution dividing means, and each section of the depth value distribution divided by the depth value distribution dividing means Image conversion means for converting the depth image by converting the included depth value into the representative value determined by the representative value determination means. .
- the image conversion device control method is a method of controlling an image conversion device that converts a depth image by converting a depth value, and includes an acquisition step of acquiring the depth image, and an acquisition step of the depth image.
- a depth value distribution creating step for creating a distribution of the number of occurrences of depth values in the acquired depth image, and the depth value distribution created in the depth value distribution creating step are divided into a plurality of sections according to the continuity of the depth values in the distribution.
- the depth image is changed by converting the depth value included in each section into the representative value determined in the representative value determining step. It is characterized in that it comprises an image conversion step of, a.
- the distribution of the number of occurrences of depth values in the depth image is divided into a plurality of sections according to the continuity of the depth values in the distribution, and the depth values in the divided sections are converted into representative values. To convert the depth image.
- the depth value can be converted into a representative value while maintaining the shape feature of the distribution of the number of occurrences of the depth value in each depth image, so the information amount of the depth image while maintaining the perspective relationship of the depth image Can be reduced.
- the depth value can be reduced by converting the depth value without using the depth image before and after the depth image to be converted, so the depth value is converted using the depth image before and after. As in the case, it is possible to prevent the conversion process from being delayed.
- the depth value distribution dividing unit includes a discontinuous section in the depth value distribution created by the depth value distribution creating unit
- the depth value distribution is divided by using the discontinuous section as a boundary.
- the maximum value of the number of occurrences in the continuous section is detected, and when there are a plurality of maximum values, the minimum value of the number of appearances in the section between adjacent maximum values is The depth value distribution is divided with the depth value taking the minimum value as a boundary when the smaller maximum value across the interval is less than a value obtained by multiplying the smaller maximum value by a predetermined ratio of less than 1. Is preferred.
- the depth value distribution is divided on the basis of the discontinuity interval or the depth value of the number of appearances less than the value obtained by multiplying the maximum value sandwiched between the maximum values by a predetermined ratio.
- the depth value distribution is divided on the basis of the depth value where the number of appearances is small or the number of appearances is zero, so even if the depth values in each section after the division are converted into representative values, the shape of the depth value distribution is It can be maintained accurately. Therefore, it is possible to convert the depth image while accurately maintaining the perspective relationship of the depth image.
- the representative value determining unit corresponds to the maximum value when there is one maximum value of the number of appearances in the section of the depth value distribution divided by the depth value distribution dividing unit. It is preferable that the depth value is determined as a representative value of the section.
- the depth value corresponding to the maximum value represents the depth value of the section.
- the representative value determining unit displays the representative value of the section of the depth value distribution divided by the depth value distribution dividing unit, and the depth corresponding to the maximum value when the maximum number of occurrences is one. Decide on a value.
- the representative value determining means has a constant number of occurrences or a plurality of maximum values of the number of appearances in the section of the depth value distribution divided by the depth value distribution dividing means. In this case, it is preferable that the depth value at the center of the section is determined as the representative value.
- the representative value determining unit has a constant number of appearances or a plurality of maximum values of the number of appearances of the representative values of the section of the depth value distribution divided by the depth value distribution dividing unit. If so, the depth value at the center of the section is determined.
- the acquisition unit acquires a plurality of depth images having different viewpoints, and identifies an occlusion region that is a region where the subject overlaps in the plurality of depth images acquired by the acquisition unit.
- Occlusion area specifying means for performing the processing, and the image converting means may not convert the depth values of the areas specified by the occlusion area specifying means as occlusion areas.
- the occlusion area is an area where the subject overlaps in a plurality of depth images with different viewpoints, and the perspective relationship is greatly different in a narrow area. Therefore, if the depth value is converted into the representative value in this region, there is a possibility that the perspective relationship that is greatly different is lost and the depth value becomes flat.
- the image conversion means does not convert the respective depth values for the area that the occlusion area specifying means specifies as the occlusion area.
- the depth image can be converted while maintaining the quality of the depth image.
- the image conversion apparatus includes image dividing means for dividing the plurality of depth images obtained by the obtaining means into a plurality of divided images at the same division position, and the depth value distribution creating means includes the image dividing means.
- the means creates a distribution of the number of appearances of the depth value of each divided image divided by the means, and further determines a divided image of another depth image corresponding to the divided image of a certain depth image among the depth images.
- Corresponding occlusion area specifying means, and the occlusion area specifying means includes 1 for all sections of the depth value distribution of a certain divided image between the corresponding divided images determined by the corresponding divided image determining means.
- each section is regarded as the attention section.
- the difference between Te is larger than a predetermined value, an area composed of pixels having a depth value belonging to the section of interest, or may be specified as occlusion region.
- the occlusion area is an area having different perspective relationships among a plurality of depth images, the depth value distribution of the occlusion area in a certain depth image and the depth value distribution of other depth images corresponding to this area are also different.
- the feature amount in the section of the depth value distribution between the corresponding divided images is greatly different. In other words, if it is not an occlusion region, the feature amount in the section of the depth value distribution of the corresponding divided image does not change so much.
- whether or not the region is an occlusion region can be determined by looking at the difference between the feature amount of the section of the depth value distribution in a certain divided image and the feature amount of the section of the depth value distribution in the corresponding divided image.
- the occlusion area specifying unit sets the attention section of the attention section while setting each section of the depth value distribution of a certain divided image as the attention section one by one.
- the difference between the feature amount and the feature amount of all the sections of the depth value distribution of the corresponding divided image is calculated, and when all the calculated differences are larger than a predetermined value, the pixel having the depth value belonging to the section of interest is calculated.
- This area is specified as the occlusion area, so that the occlusion area can be specified accurately.
- the representative value determining means determines a representative value of each section of the depth value distribution of each depth image divided by the image dividing means, and each division of each depth image. For all images, all the sections obtained by dividing the area occupied by the pixels having the depth values belonging to one section divided by the depth value distribution dividing means in the divided image by the depth value distribution dividing means.
- the occlusion area specifying means may calculate at least one of the representative value and the occupied area as the feature amount.
- the representative value and occupied area of each section of the depth value distribution represent the characteristics of the depth value distribution of the section. Therefore, the occlusion area specifying unit can accurately specify the occlusion area by using the representative value and the occupied area as the feature amount.
- the image conversion apparatus may be realized by a computer.
- an image conversion apparatus control program for causing the image conversion apparatus to be realized by a computer by causing the computer to operate as the above-described means, and this A computer-readable recording medium on which is recorded also falls within the scope of the present invention.
- the depth value corresponding to the viewpoint image can be compressed by a simple process with little delay, it is suitable for an apparatus that processes an image using the depth value, for example, an apparatus that creates a stereoscopic image or an image at an arbitrary viewpoint.
- Image encoding device image conversion device
- Dividing unit acquiring means, image dividing means)
- Matching part corresponding divided image determining means
- Depth value distribution creation unit depth value distribution creation means
- Pixel classification unit depth value distribution dividing means, representative value determining means, occupied area calculating means
- Occlusion area specifying part Occlusion area specifying means
- Encoding unit 18 Multiplexing unit
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
画像符号化装置(10)は、奥行き画像を取得する分割部(11)と、分割部(11)が取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成部(13)と、奥行き値分布作成部(13)が作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割し、奥行き値分布の各区間の代表値を決定する画素分類部(14)と、画素分類部(14)が分割した奥行き値分布の各区間に含まれる奥行き値を、代表値に変換することにより奥行き画像を変換する奥行き値変換部(16)と、を備えている。
Description
本発明は、画像の奥行き値を示す奥行き画像を変換する画像変換装置、画像変換装置の制御方法、プログラムおよび記録媒体に関するものである。
近年、複数の視点からの画像(複数視点画像)を用いることにより、1視点方向からの画像である単一視点画像のみでは得ることのできない臨場感の高い映像表現が実現されている。複数視点画像を用いた映像表現としては、例えば、立体画像表示や任意視点画像表示が挙げられる。
立体画像表示は、視差のある2つの画像を用い、観察者が右眼で一方の画像を左眼で他方の画像を見ることにより、それぞれの画像は平面画像であるにもかかわらず、観察者の脳内ではあたかも立体的な三次元空間を見ているような感覚を与えるものである。具体的に図9を用いて説明する。図9は、立体画像表示の概要を示す説明図である。図9に示すように、視差のある2つの画像501、502に対し、観察者は左眼で画像501を、右眼で画像502を見ることにより、観察者の脳内503では、画像501、502内の物体504、505が立体的に存在しているように感じられる。
また、任意視点画像表示は、視点の異なる複数の視点画像およびそれぞれの視点画像におけるカメラと被写体との距離から、任意の視点における被写体の画像を作成し、表示するものである。具体的に図10を用いて説明する。図10は、任意視点画像表示の概要を示す説明図である。図10に示すように、視点の異なる複数の視点画像601v、602v、603vと、それぞれの視点画像におけるカメラと被写体との距離を示す奥行き画像601d、602d、603dとから、任意の視点における被写体の画像(図10に示す例では、視点画像604v、605v)を作成し、表示する。これにより、撮影していない視点からの被写体の画像を表示させることができる。
非特許文献1に、任意の視点における視点画像(任意視点画像)を生成する方法が記載されている。非特許文献1に記載の方法は、2つの視点画像、およびこれらに対応する奥行き画像を利用して任意視点画像を生成するものである。具体的には、(1)仮想視点に対して奥行き画像を投影し、(2)投影した奥行き画像を平滑化し、(3)平滑化した奥行き画像に対して、実画像の画素値をマッピングし、(4)残った位置の画素を周囲の画素を利用して修復する、という方法である。このように、2視点の視点画像とその奥行き画像を利用することで、それら視点の近傍にある任意視点からの画像を生成することが可能となる。
また、任意視点画像の生成技術を用いることにより、上述した立体画像表示の改善につながる。図11を用いて説明する。図11は、任意視点画像の生成技術により立体表示の改善につながる原理を説明するための図である。図11に示すように、間隔706だけ離れて設置されている2つのカメラ701、702で被写体704、705を撮影し、視点画像701v、702vを得たとする。そして、間隔706が人間の左右の眼の間隔(一般に65mm前後と言われている)よりも大きい場合、視点画像701vを左の眼で、視点画像702vを右の眼で見たとしても、ぼやけた立体画像となるか、あるいは全く立体としては見えない画像となってしまう。
そこで、カメラ701から人間の左右の眼の間隔と同じ間隔707だけ離れた視点位置703において被写体をみた視点画像703vを作成し、視点画像701vと視点画像703vとを用いることで、適正な立体画像として観察することが可能となる。
また、2つのカメラ701、702の間隔が、人間の左右の眼の間隔と比較して狭すぎる場合であっても、カメラ701、またはカメラ702の地点から人間の左右の眼の間隔に相当する地点における視点画像を生成することにより、十分な立体感が得られる立体画像を観察することが可能になる。
さらに、上述した原理を用いることで、任意視点からの立体画像を観察することや、任意視点における立体画像の観察時の立体感を調整することが可能となる。
以上のように、複数の視点画像および対応する奥行き画像(奥行き情報)を利用すれば、画像表示の表現機能を向上させることができる。しかしながら、奥行き画像を必要とするため、記録・伝送時のデータ量が増えるという問題が生じる。
この問題を解決するため、特許文献1では、奥行き情報を伝送するときに、視覚の奥行き変化に対する時間周波数および空間周波数特性に従い、知覚感度の高い周波数成分に対して優先的に伝送量を割り当てるように奥行き値を符号化する技術が開示されている。特許文献1では、奥行き情報の情報量を圧縮するときに、人の奥行き知覚の感度に着目して符号量を割り当てることによって、奥行き情報の品質(すなわち奥行き情報を利用して生成される視点画像の品質)を保ちつつ、情報量の削減を可能にしている。
森、他:奥行き画像を用いた3D warpingによる自由視点画像生成,電子情報通信学会総合大会 情報・システム講演論文集2,D-11-7,2008年3月5日
しかしながら、上記特許文献1の方法では、奥行き情報を符号化するために、奥行き情報の時間周波数特性および空間周波数特性を分析するため、奥行き情報をそのまま符号化する方法に比べて処理量が増加し、処理時間が遅延してしまう。特に、時間周波数特性を得るためには、複数のフレームにわたって奥行き情報を分析する必要があり、必ず処理に数フレーム以上の遅延が生じてしまう。
そして、数フレーム以上の遅延が生じてしまうため、リアルタイムに符号化・復号するようなアプリケーションには適用することができない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、奥行き画像における被写体の遠近関係を維持したまま、遅延が少なく、簡便な処理で、奥行き画像の情報量を減らすことができる画像変換装置等を実現することにある。
上記課題を解決するために、本発明に係る画像変換装置は、奥行き値を変換することによって奥行き画像を変換する画像変換装置であって、上記奥行き画像を取得する取得手段と、上記取得手段が取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成手段と、上記奥行き値分布作成手段が作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間の代表値を決定する代表値決定手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定手段が決定した代表値に変換することにより上記奥行き画像を変換する画像変換手段と、を備えたことを特徴としている。
また、本発明に係る画像変換装置の制御方法は、奥行き値を変換することによって奥行き画像を変換する画像変換装置の制御方法であって、上記奥行き画像を取得する取得ステップと、上記取得ステップで取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成ステップと、上記奥行き値分布作成ステップで作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間の代表値を決定する代表値決定ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定ステップで決定した代表値に変換することにより上記奥行き画像を変換する画像変換ステップと、を含むことを特徴としている。
上記の構成または方法によれば、奥行き画像における奥行き値の出現数の分布を、該分布における奥行き値の連続性に応じて複数の区間に分割し、分割した区間における奥行き値を代表値に変換して奥行き画像を変換する。
これにより、各奥行き画像における奥行き値の出現数の分布の形状の特徴を維持したまま、奥行き値を代表値に変換することができるので、奥行き画像の遠近関係を維持したまま奥行き画像の情報量を減らすことができる。
また、変換の対象となる奥行き画像の前後の奥行き画像を用いることなく、奥行き値を変換して奥行き画像の情報量を減らすことができるので、前後の奥行き画像を用いて奥行き値の変換を行う場合のように、変換処理が遅延してしまうことを防止することができる。
以上のように、本発明に係る画像変換装置は、奥行き画像を取得する取得手段と、上記取得手段が取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成手段と、上記奥行き値分布作成手段が作成した奥行き値分布を該分布の形状に応じて複数の区間に分割する奥行き値分布分割手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間の代表値を決定する代表値決定手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定手段が決定した代表値に変換することにより上記奥行き画像を変換する画像変換手段と、を備えた構成である。
また、本発明に係る画像変換装置の制御方法は、奥行き画像を取得する取得ステップと、上記取得ステップで取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成ステップと、上記奥行き値分布作成ステップで作成した奥行き値分布を該分布の形状に応じて複数の区間に分割する奥行き値分布分割ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間の代表値を決定する代表値決定ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定ステップで決定した代表値に変換することにより上記奥行き画像を変換する画像変換ステップと、を含む方法である。
これにより、奥行き画像における奥行き値の出現数の分布の形状の特徴を維持したまま、奥行き値を代表値に変換することができるので、奥行き画像の遠近関係を維持したまま奥行き画像の情報量を減らすことができるという効果を奏する。
また、前後の奥行き画像を用いることなく、奥行き値を変換して奥行き画像の情報量を減らすことができるので、前後の奥行き画像を用いて奥行き値の変換を行う場合のように、変換処理が遅延してしまうことを防止することができるという効果を奏する。
本発明の一実施の形態について図1~図8に基づいて説明すれば、以下のとおりである。
(画像符号化装置の構成)
まず、本実施の形態に係る画像符号化装置(画像変換装置)10について説明する。図1は、画像符号化装置10の要部構成を示すブロック図である。画像符号化装置10は、複数の視点画像(例えば、右眼用画像および左眼用画像)に対応する奥行き画像を取得し、これらに符号化処理を施して情報量を削減し、送信する装置である。なお、右眼用画像とは、観察者が右眼で見ることを想定している画像であり、左眼用画像とは、観察者が左眼で見ることを想定している画像である。観察者が、右眼用画像と左眼用画像とを同時に見ることで、画像に表示されている被写体を立体的に見ることができる。また、本実施の形態では、奥行き画像が2つの場合を説明するが、本発明はこれに限られるものではなく、奥行き画像が3つ以上であってもよい。
まず、本実施の形態に係る画像符号化装置(画像変換装置)10について説明する。図1は、画像符号化装置10の要部構成を示すブロック図である。画像符号化装置10は、複数の視点画像(例えば、右眼用画像および左眼用画像)に対応する奥行き画像を取得し、これらに符号化処理を施して情報量を削減し、送信する装置である。なお、右眼用画像とは、観察者が右眼で見ることを想定している画像であり、左眼用画像とは、観察者が左眼で見ることを想定している画像である。観察者が、右眼用画像と左眼用画像とを同時に見ることで、画像に表示されている被写体を立体的に見ることができる。また、本実施の形態では、奥行き画像が2つの場合を説明するが、本発明はこれに限られるものではなく、奥行き画像が3つ以上であってもよい。
なお、奥行き画像とは、各画素を、カメラと被写体との距離である奥行き値を示す輝度のみで表現した画像である。通常、カメラに近い被写体ほど大きい輝度で表現され、カメラからの距離が離れるにつれて、輝度が小さくなるように、表現される。
奥行き画像の作成方法としては、例えば、カメラから赤外線や超音波を照射し、その反射を利用してカメラと被写体との距離を実測して奥行き値を求めることにより奥行き画像を作成する方法や、複数のカメラにより撮影を行い、撮影時のカメラ配置および撮影条件に関する情報と、複数のカメラで撮影したそれぞれの視点画像の対応関係とから、視点画像内の各領域の配置と前後関係を推定して奥行き値を求めることにより奥行き画像を作成する方法などを挙げることができる。
図1に示すように、画像符号化装置10は、分割部(取得手段、画像分割手段)11、マッチング部(対応分割画像決定手段)12、奥行き値分布作成部(奥行き値分布作成手段)13、画素分類部(奥行き値分布分割手段、代表値決定手段、占有面積算出手段)14、オクルージョン領域特定部(オクルージョン領域特定手段)15、奥行き値変換部(画像変換手段)16、符号化部17、および多重化部18を含む構成である。
分割部11は、右眼用画像および左眼用画像に対応する右眼用奥行き画像および左眼用奥行き画像を取得し、それぞれ、所定のサイズ(例えば、16×16画素)のブロック(分割画像)に分割するものである。そして、複数のブロックに分割したそれぞれの奥行き画像(右眼用画像および左眼用画像)をマッチング部12、および奥行き値分布作成部13へ送信する。また、奥行き画像は、複数の画素情報によって構成されており、画素情報は、当該画像における位置を示す座標情報と輝度情報とによって構成されている。なお、奥行き画像は、複数のフレームで構成される動画像であってもよいし、静止画像であってもよい。また、本実施の形態では、輝度情報は、8ビットで表現されるものとして説明するが、これに限られるものではない。
マッチング部12は、分割部11から取得した、複数のブロックに分割された右眼用奥行き画像および左眼用奥行き画像のそれぞれについて、他方の奥行き画像とのブロックマッチングを行い、最も一致度が高いブロックを判定するものである。そして、最も一致度が高いと判定したブロック同士を相互に対応付けてオクルージョン領域特定部15へ送信する。
ブロック同士の一致度の判定方法について、より具体的に説明する。マッチング部12は、左眼用奥行き画像の各ブロックについて、右眼用奥行き画像の同位置ブロックを中心に所定範囲内(例えば±16画素)のブロックに対し、差分絶対値の累積和AEを求める。そして、差分絶対値の累積和AEが最も小さいブロックを一致度が高いブロックと判定する。
奥行き値分布作成部13は、分割部11から取得した複数のブロックに分割された右眼用奥行き画像および左眼用奥行き画像について、各ブロックにおける輝度情報(奥行き値)の出現数を計数し、奥行き値と出現数(画素数)との関係を示す奥行き値分布を生成する。そして、生成した、各ブロックにおける奥行き値分布を、それぞれのブロックと対応付けて画素分類部14へ送信する。
画素分類部14は、奥行き値分布作成部13から取得した、右眼用奥行き画像および左眼用奥行き画像の各ブロックにおける奥行き値分布を用いて、各ブロックの画素を、1つ以上の画素グループに分類する。そして、各画素グループの代表値および占有面積(特徴量)を算出する。そして、各画素グループの代表値および占有面積を、それぞれのブロックを対応付けてオクルージョン領域特定部15へ送信する。なお、画素グループの分類方法、代表値および占有面積の算出方法については後述する。
オクルージョン領域特定部15は、マッチング部12から取得した、右眼用奥行き画像と左眼用奥行き画像との各ブロックの対応関係と、画素分類部14から取得した、右眼用奥行き画像および左眼用奥行き画像の各ブロックにおける画素グループの代表値および占有面積を用いて、オクルージョンが発生している領域の特定を行う。オクルージョンとは、カメラから近い距離に存在している被写体が、これよりも遠くに存在している被写体の一部または全部を隠すことをいう。本実施の形態では、オクルージョンによって、右眼用画像と左眼用画像とで、被写体の表示されている範囲が異なっている領域を、オクルージョン領域と定義する。そして、オクルージョン領域特定部15は、オクルージョンが発生している領域を特定すると、オクルージョンが発生している画素グループの奥行き画像における位置を、それぞれのブロックと対応付けて奥行き値変換部16へ送信する。なお、オクルージョンが発生している領域の特定方法については後述する。
奥行き値変換部16は、画素分類部14から取得したブロック毎の画素グループの代表値および占有面積と、オクルージョン領域特定部15から取得したオクルージョンが発生している位置とを用いて、各ブロックにおける奥行き値を変換して当該ブロックの解像度を落とす処理を行い、符号化部17へ送信するものである。変換処理の詳細については後述する。
符号化部17は、奥行き値変換部16で奥行き値が変換された奥行き画像を所定の符号化方式に基づいて、圧縮符号化するものである。符号化方式としては、符号化の対象となる画像が静止画像であればJPEG(Joint Photographic Experts Group)やJPEG2000などの方式を挙げることができる。また、符号化の対象となる画像が動画像であればMPEG(Moving Picture Experts Group)-2、MPEG-4AVC(Advanced Video Coding)/H.264などの方式を挙げることができる。そして、圧縮符号化した奥行き画像を多重化部18へ送信する。
多重化部18は、符号化部17で符号化された各奥行き画像の符号化データを、所定のフォーマットに従い多重化して、図示しない記録装置や外部通信手段などへ送信する。多重化の所定のフォーマットとしては、MVC(Multi-view Video Coding)フォーマットを挙げることができる。
(画像符号化装置における処理の流れ)
次に、図2を用いて画像符号化装置10における処理の流れを説明する。図2は、画像符号化装置10の処理の流れを示すフローチャートである。
次に、図2を用いて画像符号化装置10における処理の流れを説明する。図2は、画像符号化装置10の処理の流れを示すフローチャートである。
図2に示すように、画像符号化装置10は、奥行き画像(左眼用奥行き画像および右眼用奥行き画像)を取得すると(S1、取得ステップ)、分割部11が、これらの奥行き画像をそれぞれ所定のサイズに分割する(S2)。次に、マッチング部12は、分割部11が分割した左眼用奥行き画像の各ブロックについて、右眼用奥行き画像とブロックマッチングを行うとともに、右眼用奥行き画像の各ブロックについて、左眼用奥行き画像とブロックマッチングを行う。そして、右眼用奥行き画像および左眼用奥行き画像それぞれの各ブロックについて、マッチングペアを決定する(S3)。マッチングペアを決定する処理の詳細については後述する。
そして、奥行き値分布作成部13は、分割部11が分割したブロックごとに、奥行き値分布を作成し(S4、奥行き値分布作成ステップ)、画素分類部14は、分割部11が分割したブロックごとに画素グループの分類を行い(奥行き値分布分割ステップ)、それぞれの画素グループにおける代表値を決定し(代表値決定ステップ)、占有面積を算出する(S5)。画素グループを分類する処理の詳細については後述する。
次に、オクルージョン領域特定部15は、マッチング部12が決定したマッチングペアおよび画素分類部14が算出したそれぞれの画素グループの代表値および占有面積を用いてオクルージョンの有無を判定する(S6)。オクルージョン領域の特定処理の詳細については後述する。
その後、奥行き値変換部16は、オクルージョン領域特定部15が特定したオクルージョンの有無に応じて、奥行き値を変換し(S7、画像変換ステップ)、符号化部17は、奥行き値変換部16によって奥行き値が変換された奥行き画像を符号化し(S8)、多重化部18は、符号化されたそれぞれの奥行き画像(左眼用奥行き画像および右眼用奥行き画像)を多重化して(S8)、記録装置や外部通信装置等に送信する。なお、奥行き値の変換処理の詳細については後述する。以上で、画像符号化装置10における処理が終了する。
(マッチング部における処理)
次に、図3を用いて、マッチング部12における処理の流れを説明する。図3は、マッチング処理の流れを示すフローチャートである。
次に、図3を用いて、マッチング部12における処理の流れを説明する。図3は、マッチング処理の流れを示すフローチャートである。
まず、マッチング部12は、左眼用奥行き画像における各ブロックについて、右眼用奥行き画像における同位置ブロックおよび当該ブロックから所定の範囲内(±16画素)に存在するブロックを参照ブロックに設定する(S31)。次に、マッチング部12は、左眼用奥行き画像のブロックと、設定された右眼用奥行き画像における参照ブロックとの差分絶対値の累積和AEを算出する(S32)。そして、設定した全ての参照ブロックについて、差分絶対値の累積和AEの算出が終了すると(S33でYES)、差分絶対値の累積和AEが最小であったブロックのペアをマッチングブロックとして決定する(S34)。そして、左眼用奥行き画像の全てのブロックについて、マッチングペアが決定すると(S35でYES)、マッチング処理を終了する。
なお、右眼用奥行き画像についても、同様の処理を行う。
(画素分類部における処理)
次に、図4~7を用いて、画素分類部14における処理について説明する。図4は、画素分類処理の流れを示すフローチャートである。なお、以下の説明では、奥行き画像における1つのブロックに対する処理について説明するが、画素分類部14は、以下の処理を、奥行き画像(左眼用奥行き画像および右眼用奥行き画像)の全てのブロックに対して行うものである。
次に、図4~7を用いて、画素分類部14における処理について説明する。図4は、画素分類処理の流れを示すフローチャートである。なお、以下の説明では、奥行き画像における1つのブロックに対する処理について説明するが、画素分類部14は、以下の処理を、奥行き画像(左眼用奥行き画像および右眼用奥行き画像)の全てのブロックに対して行うものである。
まず、画素分類部14は、奥行き値分布作成部13が作成した各ブロックごとの奥行き値分布に不連続区間があるか否かを判定する(S51)。そして、不連続区間があれば(S1でYES)、当該不連続区間を境として2つの画素グループに分類する(S52)。画素グループとは、当該グループに分類された奥行き値を持つ画素情報(座標および奥行き値を持つ情報)のグループのことをいう。
一方、奥行き値分布に不連続区間が存在しない場合(S51でNO)、または、ステップS52で画素グループの分類を行った後、画素分類部14は、奥行き値分布作成部13が作成した各ブロックごとの奥行き値分布の連続区間における出現数の極大値を抽出する(S53)。そして、抽出した極大値の個数が1つであれば(S54でNO)、当該奥行き値分布の連続区間を1グループとする(S55)。すなわち、当該奥行き値分布の連続区間におけるそれぞれの奥行き値を持つ画素情報を、1つの画素グループに分類する。
一方、抽出した極大値が複数であれば(S54でYES)、画素分類部14は、隣接する2つの極大値に挟まれた分布の中に、両極大値に対して所定の比率(例えば20%)未満の出現数の奥行き値があるか否かを判定する(S55)。そして、両極大値に対して所定の比率(例えば20%)未満の出現数の奥行き値があれば(S55でYES)、当該奥行き値のうち出現数が最小の奥行き値を境界として2つの画素グループに分類する(S56)。すなわち、当該出現数が最小の奥行き値を境界として、それぞれの極大値を含む範囲の奥行き値を持つ画素情報を、2つのグループに分類する。他方、両極大値に対して所定の比率未満の出現数の奥行き値がなければ(S55でNO)、当該両極大値を含む範囲の奥行き値については1グループとする(S57)。
そして、画素分類部14は、分類したそれぞれの画素グループについて、代表値を決定し、占有面積を算出する(S58)。画素グループの代表値は、以下のように決定する。画素グループ内に出現数が最大の奥行き値が1つだけ存在する場合は、当該奥行き値を代表値として決定する。また、出現数が最大の奥行き値が複数存在する場合は、当該画素グループにおける奥行き値の中央の値を代表値として決定する。
また、画素グループの占有面積は、奥行き値分布を、当該画素グループの区間で積分して算出する。以上で、画素分類部14における処理が終了する。
次に、図5~7を用いて、画素分類部14における処理の例を説明する。図5~7は、画素分類部14における処理の例を説明するための図である。
図5は、左眼用視点画像および右眼用視点画像と、これらに対応する左眼用奥行き画像および右眼用奥行き画像を示すものである。図5の(a)は、左眼用視点画像210を示し、図5の(b)は、左眼用視点画像210と対応する左眼用奥行き画像211を示している。また、図5の(c)は、右眼用視点画像220を示し、図5の(d)は、右眼用視点画像220と対応する右眼用奥行き画像221を示している。
図5(a)および(b)は、それぞれ、2つの被写体201、202を含む空間を撮影したものであるが、視点の違いから視差が生じるために、右眼用視点画像220では被写体202は被写体201に隠れずに全て表示されているが、左眼用視点画像210では被写体202の一部分が被写体201に隠れて表示されていない。これが、上述したオクルージョンが発生している状態である。
ここで、左眼用奥行き画像211のブロック領域203aと右眼用奥行き画像221のブロック領域203bとに注目する。ブロック領域203aとブロック領域203bとは、分割部11によって分割され、マッチング部12において最も一致度が高いと判定されたブロックのペア(マッチングペア)である。
図5の(b)および(d)に示すように、左眼用奥行き画像211のブロック領域203aには、被写体202が含まれているが、右眼用奥行き画像221のブロック領域203bには被写体202は含まれていない。すなわち、右眼用奥行き画像221のブロック領域203b内の奥行き値は、被写体201と背景部分とで構成されている。
また、図6は、図5に示すブロック領域203aおよびブロック領域203bにおける奥行き値分布を示す図である。図6に示す奥行き値分布では、横軸に奥行き値、縦軸に出現数が示されている。図6の(a)は、ブロック領域203aにおける奥行き値分布を示す図(ヒストグラム)であり、図6の(b)は、ブロック領域203bにおける奥行き値分布を示す図である。
図5の左眼用奥行き画像211のブロック領域203aにおける奥行き値分布が、図6の(a)に示すような奥行き値分布であった場合、画素分類部14は、まず、奥行き値分布に不連続区間が存在するか否かを判定する。図6の(a)に示す奥行き値分布では、不連続区間603が存在する。そこで、画素分類部14は、不連続区間603を境として奥行き値分布を画素グループ301aと画素グループ302とに分類する。そして、画素グループ301aおよび画素グループ302のそれぞれに分類された奥行き値分布に、出現数の極大値が複数存在するか否かを判定する。画素グループ301aに分類された奥行き値分布には、極大値は1つ(極大値601)しかないので、画素グループ301aに分類された奥行き値分布は、これ以上複数には分類されない。また、同様に、画素グループ302に分類された奥行き値分布にも極大値は1つ(極大値602)しかないので、画素グループ302に分類された奥行き値分布は、これ以上複数には分類されない。
以上より、図6の(a)に示す奥行き値分布は、極大値601を含む画素グループ301aと極大値602を含む画素グループ302とに分類される。
そして、画素分類部14は、画素グループ301aの代表値を極大値601に対応する奥行き値に決定し、画素グループ302の代表値を極大値602に対応する奥行き値に決定する。さらに、奥行き値分布における、画素グループ301aおよび画素グループ302の区間について、積分することにより、それぞれの画素グループの占有面積を算出する。
同様に、図5の右眼用奥行き画像221のブロック領域203bにおける奥行き値分布が、図6の(b)に示すような奥行き値分布であった場合、画素分類部14は、まず、奥行き値分布に不連続区間が存在するか否かを判定する。図6の(b)に示す奥行き値分布では、不連続区間606が存在する。そこで、画素分類部14は、不連続区間606を境として奥行き値分布を画素グループ301bと画素グループ303とに分類する。そして、画素グループ301bおよび画素グループ303のそれぞれに分類された奥行き値分布に、出現数の極大値が複数存在するか否かを判定する。画素グループ301aに分類された奥行き値分布には、極大値は1つ(極大値604)しかないので、画素グループ301bに分類された奥行き値分布は、これ以上複数には分類されない。また、画素グループ303に分類された奥行き値分布には、極大値は存在しないので、画素グループ303に分類された奥行き値分布も、これ以上複数には分類されない。
以上より、図6の(a)に示す奥行き値分布は、極大値604を含む画素グループ301bと画素グループ303とに分類される。
そして、画素分類部14は、画素グループ301bの代表値を極大値604に対応する奥行き値に決定し、画素グループ303の代表値を、画素グループ303における奥行き値の中間の値である中間値605に決定する。さらに、奥行き値分布における、画素グループ301bおよび画素グループ303の区間について、積分することにより、それぞれの画素グループの占有面積を算出する。
なお、奥行き値分布に不連続区間が存在しない場合は、画素分類部14は、以下のように分類を行う。図7を用いて説明する。図7は、不連続区間が存在しない奥行き値分布を示す例である。図7に示すような奥行き値分布が存在した場合、画素分類部14は、まず、奥行き値分布の極大値を抽出する。ここでは、極大値401、極大値402が抽出される。そして、複数の極大値が抽出されたので、両極大値に挟まれた区間に両極大値に対する比率が20%未満の出現数の奥行き値が存在するか否かを判定する。図7に示す例では極小値403が存在する。そこで、画素分類部14は、極小値403を境界として、極大値401を含む画素グループ305と、極大値402を含む画素グループ304とに分類する。そして、それぞれの画素グループの代表値と占有面積を上述した方法で算出する。
(オクルージョン領域特定部における処理)
次に、図5、6、8を用いてオクルージョン領域特定部15における処理について説明する。図8は、オクルージョン領域特定部15における処理の流れを示すフローチャートである。
次に、図5、6、8を用いてオクルージョン領域特定部15における処理について説明する。図8は、オクルージョン領域特定部15における処理の流れを示すフローチャートである。
オクルージョン領域特定部15は、まず、マッチング部12が決定したマッチングペアのブロックについて、画素分類部14で複数の画素グループに分類されたか否かを判定する(S61)。そして、当該ブロックの画素グループが1つの場合は(S61でNO)、オクルージョンは発生していないと判定する(S64)。画素グループが1つの場合は、当該ブロック内には被写体領域が一つしかないことを意味するためである。
一方、複数の画素グループに分類されている場合は(S61でYES)、それぞれのブロックにおける画素グループの代表値と占有面積とを比較し、一致する画素グループがあるか否かを判定する。画素グループが一致するか否かは、例えば、或る画素グループ(注目区間に含まれる奥行き値を有する画素よりなる領域)について比較対象となるブロックに一致する画素グループがあるか否かを判定する場合、代表値と占有面積とのそれぞれについて差分を、比較対象となるブロックに含まれる全ての画素グループについて計算し、その差分値が元の値に対してそれぞれ10%未満の画素グループが存在するか否かを判定する。そして、差分値が10%未満の画素グループが存在すれば、その画素グループ同士は一致すると判定する。
そして、マッチングペアのブロック間で、一致しない画素グループがあるか否かを判定し(S62)、一致しない画素グループがあれば(S62でYES)、当該画素グループの領域をオクルージョン領域と特定する(S63)。以上で、オクルージョン領域特定部15における処理が終了する。
次に、図5、6を用いて、オクルージョン領域特定部15における処理の例を具体的に説明する。上述したように、図5(b)のブロック領域203aと図5(d)のブロック領域203bとがマッチングペアであり、オクルージョンが発生している。この場合に、これらのブロックについて、画素グループが一致するか否かを判定し、オクルージョンが発生しているか否かを判定すると以下のようになる。
図6の(a)および(b)に示すように、ブロック領域203aは、画素グループ301aおよび画素グループ302に分類されており、ブロック領域203bは、画素グループ301bおよび画素グループ303に分類されているので、ブロック領域203aおよびブロック領域203bは、ともに複数の画素グループに分類されている。
そして、画素グループ301a、画素グループ302と画素グループ301b、画素グループ303との、それぞれの代表値および占有面積を比較すると、画素グループ301aと画素グループ301bとが一致し、画素グループ302と画素グループ303とは一致しないことがわかる。そこで、オクルージョン領域特定部15は、ブロック領域203aの画素グループ302の領域と、ブロック領域203bの画素グループ303の領域とにオクルージョンが発生していると判定する。そして、オクルージョン領域特定部15は、画素グループ302の領域と画素グループ303の領域とをオクルージョンが発生している領域として特定し、奥行き値変換部16へ送信する。
(奥行き値変換部における処理)
次に、奥行き値変換部16における処理について説明する。奥行き値変換部16は、各ブロック内の画素グループの代表値と占有面積、および、オクルージョンの発生領域を用いて、次のように奥行き値を変換する。
(1)ブロック内に、画素グループが複数あり、かつ、オクルージョンが発生していない場合、各画素グループに含まれる奥行き値は、それぞれのグループの代表値に置き換える。
(2)ブロック内に、画素グループが複数あり、かつ、オクルージョンが発生している場合、オクルージョンが発生している画素グループに含まれる奥行き値はそのまま維持し、それ以外の画素グループに含まれる奥行き値は、それぞれのグループの代表値に置き換える。
(3)ブロック内に、画素値グループが1つの場合、ブロック内の奥行き値は全て、画素グループの代表値に置き換える。
次に、奥行き値変換部16における処理について説明する。奥行き値変換部16は、各ブロック内の画素グループの代表値と占有面積、および、オクルージョンの発生領域を用いて、次のように奥行き値を変換する。
(1)ブロック内に、画素グループが複数あり、かつ、オクルージョンが発生していない場合、各画素グループに含まれる奥行き値は、それぞれのグループの代表値に置き換える。
(2)ブロック内に、画素グループが複数あり、かつ、オクルージョンが発生している場合、オクルージョンが発生している画素グループに含まれる奥行き値はそのまま維持し、それ以外の画素グループに含まれる奥行き値は、それぞれのグループの代表値に置き換える。
(3)ブロック内に、画素値グループが1つの場合、ブロック内の奥行き値は全て、画素グループの代表値に置き換える。
以上のように変換処理を行うことによって、奥行き方向に重なり合う複数の被写体を含む画像に関して、オクルージョンが発生していない領域については、奥行き値が均一化されることにより、データ量およびデータの冗長度が削減される。よって、奥行き値変換部16で奥行き値が変換された奥行き画像を符号化部17において圧縮符号化を行うときに、圧縮率が向上するという効果を奏することができる。
また、上記(3)の処理を行った場合、当該ブロックの奥行き値は単一となる。これは、奥行き画像の空間解像度が削減されることを意味する。例えば、ブロックサイズが16×16=256画素の場合、(3)の処理を行うことによって256画素のすべてが同一の奥行き値で表現できることになる。よって、1画素分の奥行き値で256画素の奥行き値を表現できることになり、データ量を256分の1に削減することができる。
なお、上述した実施の形態では、奥行き値変換部16は、オクルージョンが発生している領域か否かという基準を用いて奥行き値の変換を行っている。しかしながら、奥行き値の変換の基準は、これに限られず、他の基準を用いて行ってもよい。例えば、奥行き値分布のばらつきから、奥行き値の変換を行ってもよい。すなわち、画素グループにおける奥行き値の分散σを求め、分散σが所定値Rより大きい場合には奥行き値の変換を行わず(すなわち、奥行き値をそのまま維持する)、所定値R以下の場合には当該画素グループに含まれる奥行き値を代表値に変換する。
これにより、奥行き方向の変化が大きい被写体の場合(σ>R)は、変換が行われず、奥行き方向の変化が小さい被写体の場合(σ≦R)は、変換が行われる(奥行き値が代表値に変換される)ので、被写体の遠近感の再現性を大きく損なわずに、情報量を減らすことができる。
このような方法により、奥行き方向に重なる複数の被写体の遠近関係を維持したまま、奥行き値の変換を行うことができるので、画像内の遠近感の歪みを抑えたまま、情報量を減らすことができる。
以上のように、本実施の形態によれば、奥行き画像に関して、複数被写体の前後関係を維持しながら、奥行き値の情報量を削減して符号化することで、奥行き画像の情報量を削減することができる。また、奥行き画像の情報量を削減するときに、時間方向に複数の画像フレームを用いることなく処理を行うことができるので、処理の遅延を抑えることができ、リアルタイムに符号化を行うことができる。
本発明は上述した実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、画像符号化装置10の各ブロック、特に分割部11、マッチング部12、奥行き値分布作成部13、画素分類部14、オクルージョン領域特定部15、奥行き値変換部16、符号化部17、および多重化部18は、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(central processing unit)を用いてソフトウェア的に実現してもよい。
後者の場合、画像符号化装置10は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像符号化装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記の画像符号化装置10に供給し、そのコンピュータ(またはCPUやMPU(micro processing unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM(compact disc read-only memory)/MO(magneto-optical)/MD(Mini Disc)/DVD(digital versatile disk)/CD-R(CD Recordable)等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM(erasable programmable read-only memory)/EEPROM(electrically erasable and programmable read-only memory)/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable logic device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。
また、画像符号化装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN(local area network)、ISDN(integrated services digital network)、VAN(value-added network)、CATV(community antenna television)通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE(institute of electrical and electronic engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(asynchronous digital subscriber loop)回線等の有線でも、IrDA(infrared data association)やリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(high data rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。
以上のように、本発明に係る画像変換装置は、奥行き値を変換することによって奥行き画像を変換する画像変換装置であって、上記奥行き画像を取得する取得手段と、上記取得手段が取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成手段と、上記奥行き値分布作成手段が作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間の代表値を決定する代表値決定手段と、上記奥行き値分布分割手段が分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定手段が決定した代表値に変換することにより上記奥行き画像を変換する画像変換手段と、を備えたことを特徴としている。
また、本発明に係る画像変換装置の制御方法は、奥行き値を変換することによって奥行き画像を変換する画像変換装置の制御方法であって、上記奥行き画像を取得する取得ステップと、上記取得ステップで取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成ステップと、上記奥行き値分布作成ステップで作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間の代表値を決定する代表値決定ステップと、上記奥行き値分布分割ステップで分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定ステップで決定した代表値に変換することにより上記奥行き画像を変換する画像変換ステップと、を含むことを特徴としている。
上記の構成または方法によれば、奥行き画像における奥行き値の出現数の分布を、該分布における奥行き値の連続性に応じて複数の区間に分割し、分割した区間における奥行き値を代表値に変換して奥行き画像を変換する。
これにより、各奥行き画像における奥行き値の出現数の分布の形状の特徴を維持したまま、奥行き値を代表値に変換することができるので、奥行き画像の遠近関係を維持したまま奥行き画像の情報量を減らすことができる。
また、変換の対象となる奥行き画像の前後の奥行き画像を用いることなく、奥行き値を変換して奥行き画像の情報量を減らすことができるので、前後の奥行き画像を用いて奥行き値の変換を行う場合のように、変換処理が遅延してしまうことを防止することができる。
本発明に係る画像変換装置では、上記奥行き値分布分割手段は、上記奥行き値分布作成手段が作成した奥行き値分布に不連続区間が存在する場合、該不連続区間を境として奥行き値分布を分割し、上記奥行き値分布の連続区間については、該連続区間における出現数の極大値を検出し、極大値が複数存在する場合に、隣接する極大値に挟まれた区間における出現数の最小値が、該区間を挟む極大値のうちの小さい方の極大値に1未満の所定比率を乗じた値未満であるとき、該最小値をとる奥行き値を境として奥行き値分布を分割するものであることが好ましい。
上記の構成によれば、奥行き値分布を、不連続区間または極大値に挟まれた極大値に対して所定の比率を乗じた値未満の出現数の奥行き値を境として分割する。
これにより、出現数が少ない、または出現数がゼロの奥行き値を境として奥行き値分布を分割するので、分割後の各区間における奥行き値を代表値に変換しても、奥行き値分布の形状を正確に維持することができる。よって、奥行き画像の遠近関係を正確に維持したまま奥行き画像を変換することができる。
本発明に係る画像変換装置では、上記代表値決定手段は、上記奥行き値分布分割手段が分割した奥行き値分布の区間において、出現数の極大値が1つ存在する場合、該極大値に対応する奥行き値を当該区間の代表値に決定するものであることが好ましい。
分割された区間において、出現数の極大値が1つの場合、該極大値に対応する奥行き値が最も当該区間の奥行き値を表現しているということができる。
そして、上記の構成によれば、代表値決定手段は、奥行き値分布分割手段が分割した奥行き値分布の区間の代表値を、出現数の極大値が1つの場合は該極大値に対応する奥行き値に決定する。
これにより、分割された区間の奥行き値を変換する代表値を的確に決定することができる。
本発明に係る画像変換装置では、上記代表値決定手段は、上記奥行き値分布分割手段が分割した奥行き値分布の区間において、出現数が一定である場合、または出現数の極大値が複数存在する場合、当該区間の中央の奥行き値を代表値に決定するものであることが好ましい。
分割された区間において、出現数が一定であるか、または出現数の極大値が複数存在する場合、出現数が偏っていないと考えられるため、当該区間の中間の奥行き値が、最も当該区間の奥行き値を表現しているということができる。
そして、上記の構成によれば、代表値決定手段は、奥行き値分布分割手段が分割した奥行き値分布の区間の代表値を、出現数が一定であるか、または出現数の極大値が複数存在する場合は、当該区間の中央の奥行き値に決定する。
これにより、分割された区間の奥行き値を変換する代表値を的確に決定することができる。
本発明に係る画像変換装置では、上記取得手段は、視点の異なる複数の奥行き画像を取得し、上記取得手段が取得した複数の奥行き画像において、被写体の重なり方が異なる領域であるオクルージョン領域を特定するオクルージョン領域特定手段を備え、上記画像変換手段は、上記オクルージョン領域特定手段がオクルージョン領域と特定した領域については、それぞれの奥行き値を変換しないものであってもよい。
オクルージョン領域は、視点の異なる複数の奥行き画像において被写体の重なり方が異なる領域であり、狭い領域で遠近関係が大きく異なる。よって、この領域で奥行き値を代表値に変換してしまうと、大きく異なっていた遠近関係がなくなり、平坦になってしまう可能性がある。
そこで、上記の構成によれば、オクルージョン領域特定手段がオクルージョン領域と特定した領域について、画像変換手段は、それぞれの奥行き値を変換しない。
よって、オクルージョン領域については、そのままの遠近関係を維持したまま奥行き画像を変換することができる。すなわち、奥行き画像の品質を維持したまま奥行き画像を変換することができる。
本発明に係る画像変換装置では、上記取得手段が取得した複数の奥行き画像を、同じ分割位置でそれぞれ複数の分割画像に分割する画像分割手段を備え、上記奥行き値分布作成手段は、上記画像分割手段が分割した各分割画像の奥行き値の出現数の分布を作成するものであって、さらに、上記奥行き画像のうち、或る奥行き画像の分割画像と対応する他の奥行き画像の分割画像を決定する対応分割画像決定手段を備え、上記オクルージョン領域特定手段は、上記対応分割画像決定手段が決定した、対応する分割画像同士の間で、或る分割画像の奥行き値分布のすべての区間について、1区間ずつ注目区間としながら、該注目区間の特徴量と、対応する分割画像の奥行き値分布のすべての区間の特徴量との差分をそれぞれ算出し、算出したすべての差分が所定値より大きいとき、当該注目区間に属する奥行き値を有する画素よりなる領域を、オクルージョン領域と特定するものであってもよい。
オクルージョン領域は、複数の奥行き画像間で遠近関係が異なる領域なので、或る奥行き画像におけるオクルージョン領域の奥行き値分布と、この領域に対応する他の奥行き画像の奥行き値分布も異なる。
よって、オクルージョン領域では、対応する分割画像間の奥行き値分布の区間における特徴量が大きく異なることになる。逆に言えば、オクルージョン領域でなければ、対応する分割画像の奥行き値分布の区間における特徴量は、それほど変わらない。
したがって、ある分割画像における奥行き値分布の区間の特徴量と対応する分割画像における奥行き値分布の区間の特徴量との差分をみれば、オクルージョン領域か否かを特定することができる。
そこで、上記の構成によれば、オクルージョン領域特定手段は、対応する分割画像同士の間で、或る分割画像の奥行き値分布のすべての区間について、1区間ずつ注目区間としながら、該注目区間の特徴量と、対応する分割画像の奥行き値分布のすべての区間の特徴量との差分をそれぞれ算出し、算出したすべての差分が所定値より大きいとき、当該注目区間に属する奥行き値を有する画素よりなる領域を、オクルージョン領域と特定するので、オクルージョン領域の特定を正確に行うことができる。
本発明に係る画像変換装置では、上記代表値決定手段は、上記画像分割手段が分割した各奥行き画像の奥行き値分布の各区間の代表値を決定するものであって、各奥行き画像の各分割画像について、上記奥行き値分布分割手段が分割した1つの区間に属する奥行き値を有する画素よりなる領域が当該分割画像において占める面積である占有面積を、上記奥行き値分布分割手段が分割したすべての区間について算出する占有面積算出手段を備え、上記オクルージョン領域特定手段は、上記特徴量として、上記代表値および上記占有面積の少なくともいずれか一方を用いるものであってもよい。
奥行き値分布の各区間の代表値および占有面積は、当該区間の奥行き値分布の特徴を表すものである。よって、オクルージョン領域特定手段は、特徴量として、代表値および占有面積を用いることで、オクルージョン領域の特定を正確に行うことができる。
なお、上記画像変換装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記画像変換装置をコンピュータにて実現させる画像変換装置の制御プログラム、およびこれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
視点画像に対応する奥行き値を、遅延が少なく簡便な処理で圧縮できるので、奥行き値を用いて画像を処理する装置、例えば、立体画像や任意の視点における画像を作成する装置に好適である。
10 画像符号化装置(画像変換装置)
11 分割部(取得手段、画像分割手段)
12 マッチング部(対応分割画像決定手段)
13 奥行き値分布作成部(奥行き値分布作成手段)
14 画素分類部(奥行き値分布分割手段、代表値決定手段、占有面積算出手段)
15 オクルージョン領域特定部(オクルージョン領域特定手段)
16 奥行き値変換部(画像変換手段)
17 符号化部
18 多重化部
11 分割部(取得手段、画像分割手段)
12 マッチング部(対応分割画像決定手段)
13 奥行き値分布作成部(奥行き値分布作成手段)
14 画素分類部(奥行き値分布分割手段、代表値決定手段、占有面積算出手段)
15 オクルージョン領域特定部(オクルージョン領域特定手段)
16 奥行き値変換部(画像変換手段)
17 符号化部
18 多重化部
Claims (11)
- 奥行き値を変換することによって奥行き画像を変換する画像変換装置であって、
上記奥行き画像を取得する取得手段と、
上記取得手段が取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成手段と、
上記奥行き値分布作成手段が作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割手段と、
上記奥行き値分布分割手段が分割した奥行き値分布の各区間の代表値を決定する代表値決定手段と、
上記奥行き値分布分割手段が分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定手段が決定した代表値に変換することにより上記奥行き画像を変換する画像変換手段と、を備えたことを特徴とする画像変換装置。 - 上記奥行き値分布分割手段は、
上記奥行き値分布作成手段が作成した奥行き値分布に不連続区間が存在する場合、該不連続区間を境として奥行き値分布を分割し、
上記奥行き値分布の連続区間については、該連続区間における出現数の極大値を検出し、極大値が複数存在する場合に、隣接する極大値に挟まれた区間における出現数の最小値が、該区間を挟む極大値のうちの小さい方の極大値に1未満の所定比率を乗じた値未満であるとき、該最小値をとる奥行き値を境として奥行き値分布を分割することを特徴とする請求項1に記載の画像変換装置。 - 上記所定比率は、0.2であることを特徴とする請求項2に記載の画像変換装置。
- 上記代表値決定手段は、上記奥行き値分布分割手段が分割した奥行き値分布の区間において、出現数の極大値が1つ存在する場合、該極大値に対応する奥行き値を当該区間の代表値に決定することを特徴とする請求項1~3のいずれか1項に記載の画像変換装置。
- 上記代表値決定手段は、上記奥行き値分布分割手段が分割した奥行き値分布の区間において、出現数が一定である場合、または出現数の極大値が複数存在する場合、当該区間の中央の奥行き値を代表値に決定することを特徴とする請求項1~4のいずれか1項に記載の画像変換装置。
- 上記取得手段は、視点の異なる複数の奥行き画像を取得し、
上記取得手段が取得した複数の奥行き画像において、被写体の重なり方が異なる領域であるオクルージョン領域を特定するオクルージョン領域特定手段を備え、
上記画像変換手段は、上記オクルージョン領域特定手段がオクルージョン領域と特定した領域については、奥行き値を変換しないことを特徴とする請求項1~5のいずれか1項に記載の画像変換装置。 - 上記取得手段が取得した複数の奥行き画像を、同じ分割位置でそれぞれ複数の分割画像に分割する画像分割手段を備え、
上記奥行き値分布作成手段は、上記画像分割手段が分割した各分割画像の奥行き値の出現数の分布を作成するものであって、
さらに、
上記奥行き画像のうち、或る奥行き画像の分割画像と対応する他の奥行き画像の分割画像を決定する対応分割画像決定手段を備え、
上記オクルージョン領域特定手段は、
上記対応分割画像決定手段が決定した、対応する分割画像同士の間で、
或る分割画像の奥行き値分布のすべての区間について、1区間ずつ注目区間としながら、該注目区間の特徴量と、対応する分割画像の奥行き値分布のすべての区間の特徴量との差分をそれぞれ算出し、
算出したすべての差分が所定値より大きいとき、当該注目区間に属する奥行き値を有する画素よりなる領域を、オクルージョン領域と特定することを特徴とする請求項6に記載の画像変換装置。 - 上記代表値決定手段は、上記画像分割手段が分割した各奥行き画像の奥行き値分布の各区間の代表値を決定するものであって、
各奥行き画像の各分割画像について、上記奥行き値分布分割手段が分割した1つの区間に属する奥行き値を有する画素よりなる領域が当該分割画像において占める面積である占有面積を、上記奥行き値分布分割手段が分割したすべての区間について算出する占有面積算出手段を備え、
上記オクルージョン領域特定手段は、上記特徴量として、上記代表値および上記占有面積の少なくともいずれか一方を用いることを特徴とする請求項7に記載の画像変換装置。 - 請求項1~8に記載の画像変換装置を動作させる画像変換装置制御プログラムであって、コンピュータを上記の各手段として機能させるための画像変換装置制御プログラム。
- 請求項9に記載の画像変換装置制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 奥行き値を変換することによって奥行き画像を変換する画像変換装置の制御方法であって、
上記奥行き画像を取得する取得ステップと、
上記取得ステップで取得した奥行き画像における奥行き値の出現数の分布を作成する奥行き値分布作成ステップと、
上記奥行き値分布作成ステップで作成した奥行き値分布を、該分布における奥行き値の連続性に応じて複数の区間に分割する奥行き値分布分割ステップと、
上記奥行き値分布分割ステップで分割した奥行き値分布の各区間の代表値を決定する代表値決定ステップと、
上記奥行き値分布分割ステップで分割した奥行き値分布の各区間に含まれる奥行き値を、上記代表値決定ステップで決定した代表値に変換することにより上記奥行き画像を変換する画像変換ステップと、を含むことを特徴とする画像変換装置の制御方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-146316 | 2010-06-28 | ||
JP2010146316A JP4806088B1 (ja) | 2010-06-28 | 2010-06-28 | 画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012002033A1 true WO2012002033A1 (ja) | 2012-01-05 |
Family
ID=45044112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/059961 WO2012002033A1 (ja) | 2010-06-28 | 2011-04-22 | 画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4806088B1 (ja) |
WO (1) | WO2012002033A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106134198A (zh) * | 2014-03-28 | 2016-11-16 | 庆熙大学校产学协力团 | 利用深度信息的视频编码装置及其方法 |
JPWO2019167453A1 (ja) * | 2018-02-28 | 2021-03-18 | 富士フイルム株式会社 | 画像処理装置、画像処理方法、およびプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140044347A1 (en) * | 2011-04-25 | 2014-02-13 | Sharp Kabushiki Kaisha | Mage coding apparatus, image coding method, image coding program, image decoding apparatus, image decoding method, and image decoding program |
KR102126530B1 (ko) * | 2013-06-28 | 2020-06-25 | 엘지디스플레이 주식회사 | 3d 변환방법과 이를 이용한 입체영상 표시장치 |
JPWO2015037473A1 (ja) * | 2013-09-11 | 2017-03-02 | ソニー株式会社 | 画像処理装置および方法 |
US10510155B1 (en) * | 2019-06-11 | 2019-12-17 | Mujin, Inc. | Method and processing system for updating a first image generated by a first camera based on a second image generated by a second camera |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366963A (ja) * | 2001-06-12 | 2002-12-20 | Ricoh Co Ltd | 画像処理方法、画像処理装置、撮像装置及びコンピュータプログラム |
WO2004071102A1 (ja) * | 2003-01-20 | 2004-08-19 | Sanyo Electric Co,. Ltd. | 立体視用映像提供方法及び立体映像表示装置 |
JP2008167282A (ja) * | 2006-12-28 | 2008-07-17 | Canon Inc | 撮像装置及び画像記録方法 |
-
2010
- 2010-06-28 JP JP2010146316A patent/JP4806088B1/ja not_active Expired - Fee Related
-
2011
- 2011-04-22 WO PCT/JP2011/059961 patent/WO2012002033A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366963A (ja) * | 2001-06-12 | 2002-12-20 | Ricoh Co Ltd | 画像処理方法、画像処理装置、撮像装置及びコンピュータプログラム |
WO2004071102A1 (ja) * | 2003-01-20 | 2004-08-19 | Sanyo Electric Co,. Ltd. | 立体視用映像提供方法及び立体映像表示装置 |
JP2008167282A (ja) * | 2006-12-28 | 2008-07-17 | Canon Inc | 撮像装置及び画像記録方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106134198A (zh) * | 2014-03-28 | 2016-11-16 | 庆熙大学校产学协力团 | 利用深度信息的视频编码装置及其方法 |
JPWO2019167453A1 (ja) * | 2018-02-28 | 2021-03-18 | 富士フイルム株式会社 | 画像処理装置、画像処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4806088B1 (ja) | 2011-11-02 |
JP2012010255A (ja) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6027034B2 (ja) | 立体映像エラー改善方法及び装置 | |
JP7320352B2 (ja) | 三次元モデル送信方法、三次元モデル受信方法、三次元モデル送信装置及び三次元モデル受信装置 | |
JP7277372B2 (ja) | 三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法 | |
JP5241500B2 (ja) | カメラパラメータを利用した多視点動画符号化及び復号化装置並びに方法と、これを行うためのプログラムの記録された記録媒体 | |
EP2299726B1 (en) | Video communication method, apparatus and system | |
JP5977752B2 (ja) | 映像変換装置およびそれを利用するディスプレイ装置とその方法 | |
JP6283108B2 (ja) | 画像処理方法及び装置 | |
KR101340911B1 (ko) | 다중 뷰들의 효율적인 인코딩 방법 | |
JP2013527646A5 (ja) | ||
JP4806088B1 (ja) | 画像変換装置、画像変換装置の制御方法、画像変換装置制御プログラムおよび記録媒体 | |
WO2019107181A1 (ja) | 送信装置、送信方法、および受信装置 | |
WO2019198501A1 (ja) | 画像処理装置、画像処理方法、プログラム、および画像伝送システム | |
US11415935B2 (en) | System and method for holographic communication | |
WO2012060156A1 (ja) | 多視点画像符号化装置及び多視点画像復号装置 | |
MX2014008979A (es) | Dispositivo de codificacion y metodo de codificacion, y dispositivo de codificacion y metodo de decodificacion. | |
CN104284193A (zh) | 编码装置和编码方法、以及解码装置和解码方法 | |
JP2013128260A (ja) | 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法 | |
JP4860763B2 (ja) | 画像符号化装置、画像符号化装置の制御方法、制御プログラムおよび記録媒体 | |
JP4815004B2 (ja) | 多視点画像符号化装置 | |
EP2932466B1 (en) | Method and apparatus for segmentation of 3d image data | |
WO2011158562A1 (ja) | 多視点画像符号化装置 | |
Kukolj et al. | 3D content acquisition and coding | |
Dehkordi | 3D Video Quality Assessment | |
Zhang et al. | A 3D subjective quality prediction model based on depth distortion | |
WO2020054605A1 (ja) | 映像表示装置、映像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11800503 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 11800503 Country of ref document: EP Kind code of ref document: A1 |