WO2001039512A1 - Device and method for converting two-dimensional video to three-dimensional video - Google Patents

Device and method for converting two-dimensional video to three-dimensional video Download PDF

Info

Publication number
WO2001039512A1
WO2001039512A1 PCT/JP2000/008315 JP0008315W WO0139512A1 WO 2001039512 A1 WO2001039512 A1 WO 2001039512A1 JP 0008315 W JP0008315 W JP 0008315W WO 0139512 A1 WO0139512 A1 WO 0139512A1
Authority
WO
WIPO (PCT)
Prior art keywords
amount
parallax
region
video signal
phase
Prior art date
Application number
PCT/JP2000/008315
Other languages
English (en)
French (fr)
Inventor
Syugo Yamashita
Haruhiko Murata
Toshiya Iinuma
Mitsuo Nakashima
Takayuki Mori
Original Assignee
Sanyo Electric Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2000109211A external-priority patent/JP2001320731A/ja
Priority claimed from JP2000109210A external-priority patent/JP4036599B2/ja
Application filed by Sanyo Electric Co., Ltd. filed Critical Sanyo Electric Co., Ltd.
Priority to EP00977933A priority Critical patent/EP1235438B1/en
Priority to US10/130,427 priority patent/US7161614B1/en
Priority to DE60014420T priority patent/DE60014420T2/de
Priority to AT00977933T priority patent/ATE278298T1/de
Publication of WO2001039512A1 publication Critical patent/WO2001039512A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0085Motion estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Definitions

  • the present invention relates to an apparatus and a method for converting a 2D image into a 3D image.
  • the motion vectors between each image such as the motion vector when moving from image 1 to image 2 and the motion vector for moving from image 2 to image 3, are set in the screen. Is extracted for each motion vector detection area. Next, the subject (bird) region and the background (mountain) region are determined from the extracted motion vector. Then, the reference image is determined as one of the right and left eye images so that the subject is in front of the background, and the image delayed by the number of fields corresponding to the size of the motion vector is determined as the other.
  • the current image which is the reference image
  • an image (delayed image) delayed by a predetermined number of fields according to the size of the motion vector obtained from image 3 and image 4 is image 2.
  • the reference image (image 4) is presented as the left-eye image
  • the delayed image (image 2) is presented as the right-eye image from the direction of the motion vector.
  • this method is referred to as the MTD method.
  • the two-dimensional image is divided into a plurality of regions, and image features such as color components, high-frequency components, and contrast are extracted for each divided region.
  • grouping is performed for each region to which the same object belongs.
  • the depth is estimated based on information such as the average contrast and the average high-frequency component of the region, and the amount of parallax is calculated.
  • a left-eye image and a right-eye image are horizontally shifted in opposite directions for each of the divided regions to generate a three-dimensional image.
  • the left-eye image and the right-eye image created in this way are displayed on the three-dimensional display means and displayed three-dimensionally. This method will be referred to as the CID method.
  • the optimal (target) field delay for the video is the average value of the horizontal vector obj-xvec [pixel] of the subject area obtained by subject background discrimination. / field] and the horizontal vector of the background area bg—xvec [pixel I field], and is determined by the following equation (1).
  • the vector takes a positive value for rightward movement.
  • d — target Mdly_sisa / (obj_xvec-bg_xvec) [field] ⁇ ⁇ ⁇ (1)
  • Mdly-sisa represents a parallax amount [pi xel] that determines the stereoscopic effect generated by the MTD method, and its value is set in advance via a user interface or the like.
  • the delay amount has been described using the target delay amount as an example, but in actual control, the number of fields to be delayed and the delay direction are determined by the actual delay amount delay obtained by temporally smoothing the target delay amount.
  • the subject position control is used to correct the ambiguity of the object presentation position with respect to the tube surface that occurs when the MTD method is performed. That is, in the MTD method, the appearance differs depending on whether the subject moves or the background moves as shown in FIG. Therefore, in the subject position control, when the subject moves, the presenting position of the right-eye image is shifted to the right, and the presenting position of the left-eye image is shifted to the left to move the entire screen to the back.
  • the number of pixels from the subject to the tube surface is equal to the number of pixels from the tube surface to the background.
  • the presenting position of the right-eye image is shifted to the left, and the presenting position of the left-eye image is shifted to the right, so that the entire screen is brought forward.
  • the number of pixels in the background is equal to the number of pixels in the background.
  • the right eye water 51 ⁇ phase amount t_jhr and left eye horizontal phase amount t_phl calculated by the subject position control are the subject phase amount obj_sisa and the background phase amount bg—
  • sisa is expressed by the following equation (3), it is expressed by the following equation (4).
  • obj_sisa obj_xvec * delay [pixel] (3)
  • bg-one sisa bg-one xvec * delay [pixel]
  • t _phr (obj_sisa + bg—sisa) / 2 [pixel]
  • the CID method divides a screen into multiple regions, estimates the depth of each region from image information and composition obtained from each region, and shifts each pixel in the screen based on the estimated depth. This is a technique for generating binocular parallax.
  • the present applicant has also developed a CID method which is a further improvement of the CID method already developed.
  • FIG. 3 shows a control procedure of the improved CID method (not known).
  • one screen is divided into a plurality of areas, and information on high frequency, luminance contrast, and color (B-Y, R-Y components) is obtained from each area (step 1). Then, an estimated depth value of each area estimated from the information and the composition is obtained (step 2). If the obtained estimated depth value is simply converted to a shift amount, the distortion is noticeable in the converted image, so that distortion suppression processing is performed (step 3). A distance scale conversion is performed on the depth estimation value after the distortion suppression processing (step 4).
  • the distortion suppression processing will be described.
  • the difference in the amount of phase between adjacent regions is determined by the distortion tolerance h-supp-lev [Pixel ] It is controlled to be below. That is, first, the estimated depth is obtained by assigning it between Mfront and rear. The difference between the phase amounts of adjacent regions is determined from the phase amounts of the respective regions. Then, the maximum value of this difference is defined as h-dvma Lpixel].
  • h-dv-max force distortion is greater than ⁇ -enclosure h-sup-lev [pixel]
  • the following equation (5) is satisfied. Make Mfront and Mrear smaller toward 0 [pixe 1].
  • the distance scale conversion method will be described.
  • the parallax W between the corresponding points of the right-eye image (R image) and the left-eye image (L image) and the fusion position (distance from the tube surface that is actually seen) Yp are There is a nonlinear relationship.
  • each variable represents the following value.
  • W Parallax amount of corresponding point between left-eye image and right-eye image on display surface [ ⁇ ]
  • Yp Distance from tube surface to fusion position [bandon]
  • the maximum protrusion amount Ymax 'from the screen and the maximum depth Ymin' from the screen are specified, it will be supported if the estimated depth d mark th (having a value of 0 to 100) is determined.
  • the depth Yp can be obtained by a simple scale conversion expressed by the following equation (12).
  • the parallax amount ⁇ corresponding to Yp is obtained by the above equation (11).
  • the depth estimation value can be converted into pixel units in consideration of spatial distortion.
  • W "[255] is the disparity amount corresponding to Ymax '
  • W" [0] is the disparity amount corresponding to Ymin.
  • lev 255 depth / 100... (14)
  • Dlev is defined by the following equation (17) and represents the number of steps on the parallax conversion table corresponding to the screen surface.
  • the values actually used are determined Ymax ', Ymin', and C so that the inclination (step width) of the depth parallax conversion table before and after the screen does not greatly differ.
  • the above-described distortion suppression processing using the linear operation is effective for pixel scale conversion, but cannot be said to be an effective means for distance scale conversion.
  • the depth Yp and the disparity amount W [pixel] are not equal. It is linear and has the property that even if the depth estimation is the same value, for example, "1", the parallax is greatly different before and after the tube face. This tendency is noticeable in large-screen displays.
  • the polygonal distance scale which is an improved version of the complete distance scale, introduces the pop-out ratio C to alleviate this characteristic.
  • the maximum value h-dv—max [pixel] of the phase difference between adjacent regions is completely within the distortion tolerance h-supp—lev [pixel] even on a polygonal distance scale where the pop-out ratio C can be controlled. It cannot be suppressed (the principle of distortion suppression on the pixel scale cannot be faithfully realized). In order to realize this principle of distortion suppression, it is necessary to perform distortion suppression processing after distance scale conversion.
  • a person perceives a sense of distance in stereoscopic vision due to a difference (occlusion) in a blind spot of an image entering each of the right and left eyes caused by a difference in the position of the left and right eyes.
  • the MTD method could cover, but could not successfully convert a motionless video or a video with complicated motion into a 3D video.
  • the parallax amount of the left and right eye images can be freely changed by the CID method, it is impossible for the left and right eyes of a person to make the blind spot portion that becomes a shadow of the subject look different due to the parallax.
  • the disparity of the MTD method and the disparity of the CID method are reflected in the converted video, but if the input image is a still image, there is no disparity of the MTD method but only the disparity of the CID method.
  • This invention uses the MTD method and the CID method together to convert 2D images to 3D images. It is an object of the present invention to provide a method for converting a 2D video to a 3D video, which can avoid a large difference in a stereoscopic effect of a converted video depending on an input video. Further, the present invention provides a method of converting a two-dimensional video into a three-dimensional video, which can suppress distortion of a converted image when converting a depth estimation amount into a parallax amount using a distance scale conversion. With the goal.
  • An apparatus for converting a two-dimensional video to a three-dimensional video includes a field memory for storing a two-dimensional video signal input from a video signal source for each field, and a motion base corresponding to a motion between fields of the input video signal.
  • the reading means for reading the video signal delayed from the field memory by the delay amount obtained from the motion vector of the area, and the direction of the horizontal component of the motion vector of each area detected by the motion vector detecting means
  • One of the input video signal and the video signal read from the field memory is used as the left-eye video signal, and the other video signal is used as the right-eye video signal.
  • Switching means for outputting as an image signal; image characteristic amount extracting means for extracting an image characteristic amount from the input image signal for each region of the input image; image characteristic amount for each region extracted by the characteristic amount extracting means.
  • a parallax amount calculating unit that calculates a depth amount for each region of the input video, and calculates a parallax amount for each region from the calculated depth amount for each region; a parallax for each region calculated by the parallax amount calculating unit.
  • the parallax amount correcting means for correcting the amount according to the size of the motion vector for each area detected by the motion vector detecting means, and the parallax amount of each area corrected by the parallax amount correcting means, It is characterized by comprising phase control means for correcting the phase of each area of the right-eye video and the left-eye video output by the switching means and outputting the corrected three-dimensional video signal.
  • each area calculated by the parallax amount calculating means is used.
  • Means for calculating the difference parallax amount for each region by subtracting the parallax amount corresponding to the size of the motion vector of the corresponding region from the parallax amount for each region, and the maximum difference parallax amount between adjacent regions The one provided with means for changing the dynamic range so as to calculate the difference parallax amount for each region so that the value falls within a predetermined range is used.
  • the surplus amount of parallax is calculated as It is preferable to provide a means for reducing the amount of delay by a corresponding amount.
  • the first step is to store the video signal in the field memory for each field.
  • the second step is to detect the motion vector corresponding to the movement between the fields of the input video signal for each area of the input video. 3rd step of reading out from the field memory a video signal that is delayed from the input video signal by the amount of delay obtained from the motion vector of each area detected in the 2nd step from the input video signal. The difference between the input video signal and the video signal read from the field memory is determined based on the direction of the horizontal component of the motion vector of each area detected in the second step.
  • the seventh step for example, for each area calculated in the sixth step Calculating the difference amount of parallax for each region by subtracting the amount of parallax corresponding to the magnitude of the motion vector of the corresponding region from the amount of parallax of the corresponding region, and determining the maximum value of the difference of the amount of difference parallax between adjacent regions.
  • a method including a step of calculating a difference parallax amount for each region by changing a dynamic range so as to fall within a range is used.
  • the method includes a step of reducing the amount of delay by an appropriate amount.
  • the first feature is to extract image feature amounts related to perspective of a video for each of a plurality of parallax calculation regions set in the screen, and to generate a depth estimation value for each parallax calculation region based on the extracted image feature amounts. Step, performing a distance scale conversion using a dynamic range defined by a predetermined maximum pop-out amount and a predetermined maximum depth amount on each of the estimated depth values, thereby obtaining a tentative target phase for each parallax calculation region.
  • a second step for obtaining the amount a third step for obtaining the maximum value of the phase difference between adjacent parallax calculation areas based on the provisional target phase amount for each parallax calculation area, phase A force in which the maximum value of the difference is within a predetermined allowable distortion range, a fourth step of determining whether or not the force is different, and the maximum value of the phase difference between adjacent parallax calculation regions is out of the predetermined allowable distortion range.
  • a dynamic range in which the phase difference between the parallax calculation regions is within the distortion allowable range is searched, and a distance scale conversion is performed on each of the estimated depth values using the searched dynamic range, After a temporary target phase amount is obtained for each parallax calculation area, a fifth step is performed to shift to a third step.
  • the distance scale conversion is a method of converting the estimated depth value into a pixel unit (amount of parallax) in consideration of the fusion position.
  • a method of linearly converting the estimated depth value into pixel units (parallax) is called pixel scale conversion.
  • FIG. 1 is a schematic diagram for explaining a conventional MTD method.
  • FIG. 2 is a schematic diagram for explaining subject position control.
  • FIG. 3 is a flowchart showing a control processing procedure of the conventional CID method.
  • FIG. 4 is a schematic diagram for explaining dynamic range suppression processing in the conventional CID method.
  • FIG. 5 is a graph showing the relationship between the amount of parallax W and its fusion position Yp.
  • FIG. 6 is a graph for explaining the complete distance scale conversion.
  • FIG. 7 is a graph for explaining the polygonal distance scale conversion.
  • Fig. 8 is a graph showing the characteristic that the depth Yp and the amount of parallax W [pixel] are non-linear, so that even if the estimated depth is the same value, for example, "1", the amount of parallax greatly differs before and after the tube surface. It is.
  • FIG. 9 is a flowchart showing a control procedure of the CID method according to the first embodiment of the present invention.
  • FIG. 10 is a flowchart showing details of the distance scale conversion and distortion suppression processing in step 13 of FIG.
  • Fig. 11 is a graph showing that the depth relationship between the front and back of the tube surface is maintained even when the dynamic range changes by introducing the method of maintaining the distance ratio.
  • FIG. 12 is a schematic diagram showing a case where the polygonal line distance scale conversion only for maintaining the ratio of the ratio is performed and a case where the process for maintaining the ratio of the distance is further performed.
  • FIG. 13 is a diagram illustrating a schematic configuration of a 2DZ3D conversion device according to the second embodiment.
  • FIG. 14 is a flowchart showing the operation of the 2DZ3D conversion device of FIG.
  • FIG. 15 is a diagram illustrating a schematic configuration of a 2DZ3D conversion device according to the second embodiment.
  • FIG. 16 is a flowchart showing the overall control processing procedure of the integrated phase control.
  • FIG. 17 is a schematic diagram showing the overall behavior of the integrated phase control.
  • FIG. 18 is a schematic diagram showing the behavior of each area during the integrated phase control.
  • FIG. 19 is a flowchart showing a detailed processing procedure of steps 53, 54, and 55 in FIG.
  • FIG. 20 is a schematic diagram showing an example of distortion suppression performed in integrated phase control.
  • FIG. 21 is a schematic diagram showing a case where the phase adjustment by the MTD method is necessary and a case where it is not necessary.
  • FIG. 22 is a schematic diagram for explaining the phase suppression processing of the MTD method.
  • FIG. 23 is a flowchart illustrating a delay amount suppression processing procedure.
  • FIG. 9 shows a control procedure of the CID method according to the first embodiment of the present invention.
  • one screen is divided into a plurality of areas, and information on high frequency, luminance contrast, and color (B-Y, R-Y components) is obtained from each area (step 11).
  • an estimated depth value of each area estimated from the information and the composition is obtained (step 12).
  • a target phase amount is obtained (step 13).
  • FIG. 10 shows details of the distance scale conversion and distortion suppression processing in step 13 of FIG.
  • distance scale conversion is performed in the dynamic range specified by Mfront and Mrear to obtain a tentative target phase amount (steps 21 and 22). Provisional eyes obtained The maximum value h-dv-max [pixel] of the phase difference between adjacent regions is calculated based on the target phase amount (step 23).
  • step 24 It is determined whether or not the maximum value h-dv-max [pixel] of the phase difference between the adjacent regions is within the distortion allowable range h-supp-lev [pixel] (step 24). If it is within the allowable range, the provisional target phase amount is set as the true target phase (step 27).
  • step 25 the processing of step 25 is referred to as a sequential search processing. Details of the sequential search processing will be described later.
  • step 26 After changing front and rear so that the distance ratio between front and rear determined by the sequential search processing becomes the distance ratio specified by the user (step 26), return to step 22 and perform further distance scale conversion. .
  • Step 2 Perform the processing of 2, 2, 3, 24, 25, and 26 so that the maximum value of the phase difference between adjacent regions, h—dv—max [pixel], is within the distortion tolerance h—supp—lev [pixel]. Repeat until the final target phase amount is obtained. Whenever the dynamic range is changed in this way, the distance scale conversion is performed so that the observer perceives a stereoscopic image according to the estimated depth without being influenced by the spatial distortion of the stereoscopic display. This is in order to accurately realize Kale's principle.
  • the range is determined by a sequential search process in order to increase the dynamic range defined by the front and rear values.
  • the amount of parallax can be calculated using the depth parallax conversion equation (Equation 15), but it is more efficient to use the previously calculated parallax conversion table W ⁇ as shown below. is there.
  • phase W "(lev) ⁇ ⁇ ⁇ (19)
  • the optimal method of searching for the front value and the rear value depends on the relationship between the phase amounts of the two regions where the phase difference between adjacent regions is the largest. There are three types below.
  • Max — lev and Min — lev are set so as to maintain the distance ratio specified by the user in the sequential search process, that is, to maintain the relationship of the following equation (2 0). Get closer to Dlev.
  • the above equation (20) is synonymous with the processing of step 26 in FIG. In the first case and the second case, in order to reduce the amount of computation, the distance ratio change processing is not performed during the sequential search processing, but is performed in step 26 in FIG.
  • the reason for maintaining this distance ratio on the distance scale is to maintain the depth relationship before and after the tube surface even when the dynamic range changes. Specifically, as shown in Fig. 11, if the distance before the screen is reduced by 20% in the first case, the distance after the screen is also reduced by 20%, Maintain the relationship before and after. If this distance ratio is maintained on the parallax amount conversion table, the relationship of the pop-out amount ratio C can also be maintained. As a result, a viewer who tends to perceive the space based on the relative depth can be presented with a converted image that does not cause any discomfort.
  • the distance ratio is not maintained in the first and second cases, but only the ratio ratio is maintained.
  • FIG. 12 shows a case in which the polygonal distance scale conversion is performed only for maintaining the ratio, and a case in which processing for maintaining the distance ratio is further performed.
  • the depth estimation value and the parallax conversion table are correlated by separate range conversion using the screen depth estimation value as a boundary.
  • the parallax amount conversion table of the estimated depth value can be handled by one range conversion.
  • the figure The function lev (phase) in 1 2 represents the inverse function of the above equation (1 9), and means that the number of stages in the disparity amount conversion table is obtained from the phase amount phase [pixel].
  • 1 is a video supply source serving as a video signal supply means for a VTR, CD-ROM, TV broadcast, etc.
  • 2 is a two-dimensional video signal supplied from the video source 1, that is, a three-dimensional video signal.
  • 2D to 3D conversion device that converts to left-eye video signal L and right-eye video signal R
  • 3 is a 2D / 3D converter 2
  • 2 is an image splitter system that displays 3D video signals output from 2 This is a three-dimensional display means using.
  • Reference numeral 4 denotes a field memory for storing a video signal from the video source 1 in units of one finolade unit
  • 5 denotes a motion vector detecting means for detecting a motion vector from the video signal from the video source 1.
  • the color extracting means 6, the contrast extracting means 7, and the high-frequency component extracting means 8 constitute an image feature extracting means.
  • Reference numeral 9 denotes a motion vector calculation means for obtaining the direction of motion and the motion amount (magnitude of the motion vector) from the motion vector detected by the motion vector detection means 5 and outputting the motion vector; and 10 denotes a current image.
  • Memory control means for reading the delayed image (delayed image) from the field memory 4 by the number of fields corresponding to the motion amount output from the motion amount calculation means 9 with reference to the motion amount calculation means 9.
  • Switching means for switching which of the reference image (current image) and the delayed image is output as the left-eye video signal L and which is output as the right-eye video signal R based on the direction of the output motion. It is.
  • 14 is a second depth map creating means for calculating depth information from the contrast information extracted by the contrast extracting means 7 for each area grouped by the grouping means 12 and creating a depth map
  • 15 is a grouping means 1
  • Third depth map creating means for calculating depth information from the high frequency component information extracted by the high frequency component extracting means 8 for each area grouped in 2 and creating a depth map
  • 16 is predetermined composition information and group
  • the fourth depth map creating means calculates depth information from the area information grouped by the grouping means 12 and creates a depth map.
  • the combined map created by the combined map creation unit 17, the disparity amount calculation unit that calculates the amount of parallax for each of the predetermined disparity amount calculation areas, and 19 is each disparity amount calculated by the disparity amount calculation unit 18
  • This is a water-standing setting means for shifting the left and right eye images output from the switching means 11 on a pixel-by-pixel basis in the horizontal direction, based on the amount of parallax for each area, and combining them.
  • parallax amount calculation unit 18 outputs to the horizontal position setting unit 19 according to the amount of motion in order to consider the amount of frame delay performed based on the amount of motion calculated by the amount of motion calculation unit 9.
  • the amount of parallax has been corrected, that is, reduced.
  • FIG. 14 shows the operation of the 2D / 3D conversion device 2.
  • the video signal of the video source 1 is stored in the field memory 4 on a field-by-field basis (step 31).
  • the motion vector is detected from the two-dimensional video signal of the video source 1 by the motion vector detection means 5, and the motion amount and the direction of the motion vector are calculated by the motion amount calculation means 9 (step 3). 2).
  • the motion vector detection means 5 compares the current image with the image one field before, and The movement amount and the direction of the subject in the image are extracted as a motion vector.
  • the switching means 11 outputs one of the reference image and the delayed image as a left-eye video signal L and the other as a right-eye video signal based on the direction of motion of the motion vector detected in step 3 2. Output as R.
  • steps 31 to 33 correspond to the operations of the MTD method.
  • an image feature is extracted based on the two-dimensional video signal from the video source 1 (step 34).
  • the color extracting means 6 extracts color information for each image feature amount detection area.
  • the contrast extracting means 7 extracts a contrast for each image feature amount detection area.
  • the high frequency extraction unit 8 extracts a high frequency component for each image feature amount detection area.
  • the grouping means 12 includes color information for each image feature amount detection area extracted by the color extraction means 6 and motion information detected in step 32 for use in discriminating a subject or a background. Group amounts and regions in the image.
  • a depth map is created (step 35). That is, the first depth map creating means 13 generates the first depth map based on the motion amount of the motion vector calculated by the motion amount calculating means 9 and the group data obtained by the grouping means 12. create.
  • the second depth map creating means 14 is configured to generate a second depth map based on the contrast for each image feature amount detection area extracted by the contrast extracting means 7 and the grouping information obtained by the grouping means 12. Create a map.
  • the third depth map creating means 15 is configured to generate a third depth map based on the high frequency components for each image feature amount detection area extracted by the high frequency extracting means 8 and the grouping information obtained by the grouping means 12. Create a map.
  • the fourth depth map creating means 16 uses a predetermined screen composition (for example, if a landscape image is mainly used, the lower part of the screen is the ground, the upper part of the screen is empty, and the subject is the object in the center of the screen). And a fourth depth map is created based on the group information obtained by the grouping means 12.
  • a synthetic depth map is created (step 36).
  • the composite map creating means 17 weights and adds the first to fourth depth maps created by the first to fourth depth map creating means 13, 14, 15, and 16, Create a composite depth map.
  • the parallax amount calculating means 18 calculates the parallax amount between the left-eye image and the right-eye image for each predetermined parallax amount calculation area based on the synthetic depth map created by the synthetic map creating means 17. calculate. Steps 34 and 37 described above correspond to the operation of the CID method.
  • the parallax calculating means 18 corrects the parallax for each parallax calculating area calculated in step 37 according to the motion vector of the motion vector calculated by the motion calculating means 9. Specifically, each parallax amount calculated in step 37 is reduced by the parallax amount corresponding to the delay amount of the delayed image with respect to the reference image.
  • the left-eye image L and the right-eye image R are shifted horizontally according to the corrected amount of parallax (step 39).
  • the horizontal position setting unit 19 shifts the left-eye image L and the right-eye image R output from the switching unit 11 based on the amount of parallax corrected in step 38, for example, by horizontal shift for each pixel. I do.
  • Figure 15 shows a device that converts 2D video to 3D video (2DZ 3D conversion device). 1 shows the configuration.
  • reference numeral 101 denotes a video supply source serving as a video signal supply means for VTR, CD-ROM, TV broadcast, etc.
  • reference numeral 102 denotes a two-dimensional video signal supplied from the video source 1 for three-dimensional video.
  • 2D / 3D converter for converting signals, that is, left-eye video signal L and right-eye video signal R, 103 is an image splitter that displays a 3D video signal output from 2DZ 3D converter 2 This is a three-dimensional display means using a method or the like.
  • the configuration of the conversion device 102 will be described.
  • 104 is a field memory that stores the video signal from the video source 101 in units of one field
  • 105 is a motion vector that detects a motion vector from the video signal from the video source 101. It is a detecting means.
  • Reference numeral 106 denotes an image feature amount extraction unit that extracts image feature amounts such as color components, contrast, and high-frequency components from the video supplied from the video supply source 101 for each region.
  • Reference numeral 110 denotes a delay amount calculating unit that calculates a delay amount from the motion vector detected by the motion vector detecting unit 105.
  • Reference numeral 107 denotes a memory control means for reading, from the field memory 104, an image (delayed image) delayed by the number of fields corresponding to the delay amount calculated by the delay amount calculating means 110 based on the current input image. It is.
  • Reference numeral 108 denotes a left-eye video signal L and any one of a right-eye video signal R of the input image and the delayed image based on the direction of motion output from the delay amount calculating means 110. This is switching means for switching whether or not to perform.
  • Reference numeral 109 denotes a depth estimation value calculation unit that calculates a depth estimation value for each region based on the image feature amount for each region extracted by the image feature extraction unit 106.
  • 1 1 1 calculates the parallax amount (phase amount) by the CID method for each area based on the depth estimation value for each area calculated by the depth estimation value calculation means, and outputs the parallax amount (phase amount) from the delay amount calculation means 110.
  • each of the regions (for example, pixels) of the image for the left and right eyes output from the switching means 108 is horizontally shifted. This is a stereoscopic video compositing means that allows the user to fit the footage.
  • the 112 is a disparity amount for controlling a delay amount based on the integrated disparity amount calculated by the disparity amount calculation unit 111 and the MTD method disparity amount output from the delay amount calculation unit 110. It is a monitoring means.
  • a three-dimensional space is reproduced based on a depth estimation value obtained by the CID method.
  • a stereoscopic video is presented by adding occlusion by the MTD method to the CID method.
  • the phase of the MTD method (the amount of parallax: the phase generated as a result of the field delay) is subtracted from the phase (the amount of parallax) of each region calculated by the CID method.
  • the phase of each region should be the same as the phase by the CID method even after using both the CID method and the CID method. For this reason, the amount of phase generated by the MTD method and the CID method is controlled by the following priorities.
  • Priority 1 Maximum range of phase amount set by user Urange [pixel]
  • Priority 2 Restriction of image distortion due to phase shift in converted image h_supp one lev [pixe ⁇ ]
  • Priority 4 Phase amount generated by MTD method that does not exceed Urange dly—s isa [pixel]
  • Priority 1 the highest priority, ensures that the combined phase does not exceed the maximum range Urange of the phase amount set by the user.
  • Priority 2 ensures that image distortions produced by integrated phase control (especially the CID method) are within certain limits (h-supp-lev).
  • Priority 3 means that the depth estimate (depth shape) for each region calculated by the CID method is preserved even after using both the MTD method and the CID method.
  • Priority 4 is that the amount of disparity generated by the MTD method does not exceed Urange Guarantee.
  • Priority 5 which has the lowest priority, means that the phase generated by the CID method has a different value from the phase generated by the CID method alone when used in combination with the MTD method.
  • FIG. 16 shows an integrated phase control processing procedure that maintains the depth shape of the CID method.
  • FIG. 17 shows the phase behavior at the time of implementation.
  • an image feature amount is extracted by the image feature extraction means 106 (step 51).
  • the estimated depth value calculating means 109 estimates the depth of the CID method based on the image feature amount extracted by the image feature extracting means 106 (step 52). That is, the calculated frequency, contrast, composition weight, and subject background discrimination result weight are added at an appropriate ratio to obtain an estimated depth value.
  • the addition ratio is made variable according to the speed of movement in the video. Specifically, in order to compensate for the tendency of the value of the high frequency component falling due to fast movement, the rate of addition of the high frequency component is reduced as the movement becomes faster.
  • the depth estimation value obtained in this way is subjected to distance scale conversion (complete distance scale conversion or polygonal distance scale conversion) in Ufront and Urear, and the phase amount of each region is obtained by the CID method (step 53).
  • Distortion suppression processing is performed so that the difference between the quantities is less than h—supp—lev [pixel] (Step 55) 0
  • the phase after the distortion suppression processing in FIG. 17 indicates that the distortion suppression processing is performed on the differential phase.
  • the maximum projecting phase ufront [pixel] and the maximum depth phase urear [pixel] of the phase (integrated phase) obtained by integrating the MTD method and the CID method after the above-described distortion suppression processing are represented by the loop shown in Fig. 19 Required by processing.
  • FIG. 19 shows details of the processing of steps 53, 54, and 55 in FIG. These processes are performed by the parallax amount calculation means 111.
  • Ufront and Urear set by the user are set in the variables Ufront 'and Urear' (step 61), and then distance scale conversion is performed using the dynamic range defined by Ufront 'and Urear' to determine the CID phase amount.
  • Get step 62.
  • a temporary difference phase is obtained by subtracting the MTD phase from the CID phase (step 63).
  • the maximum value of the phase difference between adjacent regions obtained from the provisional difference phase amount, h—dv-max [pixe 1], (the maximum value of the difference in the amount of difference phase between adjacent regions) is obtained (step 6 4). Then, go to Step 65.
  • step 65 when such a loop processing is performed, the maximum value of the phase difference calculated in the previous step 64 h—dv—max [pixel] force The phase difference calculated in the current step 64 J is smaller than the maximum value of h-dv-max [pixel].
  • step 65 When the above loop processing is not performed, the result of step 65 is NO, and the maximum value of the phase difference calculated in step 64 of this time h—dv—max [pixel] I distortion tolerance h—suppp—lev It is determined whether it is within [pixel] (step 66). If it is within the range, the provisional difference phase is set as the true target phase (step 72). Conversely, if it is out of the range, it is determined whether or not the number of loops is within the limit number of loops in order to reduce the CPU load (step 67). If the number of loops is larger than the limit number of loops, a true target phase is obtained by forced distortion suppression processing for the provisional difference phase, which will be described later (step 73).
  • the temporary difference phase is saved (step 68), and Ufront 'and Urear use the phase difference between adjacent regions until h-supp-lev or less.
  • the optimum ufront and urear values are obtained by gradually reducing the specified dynamic range (step 69). This process is hereinafter referred to as a sequential search process. Details of the sequential search processing will be described later.
  • the distance ratio between ufront and urear obtained in the sequential search process is changed so as to be the distance ratio specified by the user (step 70).
  • the dynamic range is changed by setting the obtained ufront and urear to Ufront 'and Urear' (step 71), and the process returns to step 62 to perform distance scale conversion again.
  • Step 6 Steps 2 to 7 Repeat the series of steps 1 to 1 until the maximum value of the phase difference h — dv_max [pixel] within the allowable range of distortion h —supp—lev [pixel] is reached. The final target phase amount is obtained.
  • the first interruption occurs when the number of loops reaches the limited number of loops in step 67 to reduce the CPU load.
  • the temporary difference phase is subjected to pixel-scale distortion suppression processing as shown in the following equation (21), which is synonymous with equation (6), and the ufront and urear values are determined.
  • df ufront and df urear are the maximum and minimum values of the temporary difference phase, respectively. And is obtained at the stage of calculating the maximum phase difference between adjacent regions with respect to the difference phase. Then, the differential phase falls within the range newly obtained in this way. It should be noted that there is no problem even if the processing of maintaining the distance ratio represented by the following equation (2 2) is performed on ufront and urear in the above equation (2 1).
  • Dlev flev (ufront)-Dlev ⁇ : fDlev-lev (urear) ⁇ ⁇ ⁇ -(22)
  • the second interruption is that in step 65, when the loop processing of step 62 to step 71 is performed, the maximum value of the phase difference calculated in the previous step 64 h 1 d V—max [pixel] Force Occurs when the phase difference calculated in step 64 of this time is smaller than the maximum value h—dv—max [pixel].
  • This interruption occurs when the phase difference between adjacent regions in the current loop, h_dv__max, is not smaller than the value obtained in the previous loop, even though the dynamic range is sufficiently reduced. It is. This occurs because the phase generated by the MTD method is not changed by the distortion suppression processing. That is, as shown in Fig. 20, when the phase difference between the subject and the background generated by the MTD method is large, even if the number of loops is increased, the phase difference of the MTD phase hinders the dynamic range. Consequently, the difference phase will not be less than h-supp-lev. In such a case, the processing is interrupted, and the dynamic range is changed by the same processing as in step 73 (step 74).
  • the dynamic range is changed for the temporary save difference phase saved in step 68.
  • the dynamic range is changed with respect to the temporary save difference phase because the phase of the MTD method affects the shape of the difference phase and the dynamic range of the difference phase each time the distortion suppression loop is repeated. This is to reduce the tendency to decrease.
  • the disparity amount (two-field delay amount X horizontal motion vector value of the region) that the region originally has is smoothed between adjacent regions as the MTD phase ph—ratdj of each region.
  • the latter value is used.
  • the phases of the MTD method and the CID method must be similar. For this reason, as shown in Fig. 16, in the integrated phase, depth estimation is performed in consideration of the result of subject background discrimination so that the CID phase increases in the region where the MTD phase increases.
  • the search direction is determined according to the values of the CID phase in the two regions where the phase difference determined in (1) is maximum.
  • phase difference h-dv-max obtained in 76 is determined in the following order.
  • the object position control is not used in the MTD method.
  • the phase generated by the MTD method is determined in advance by the user. It may exceed the specified maximum projecting phase amount Ufront Cpixel] and the maximum depth phase amount Urear [pixel].
  • Figure 21 shows the phase behavior when such a phenomenon occurs.
  • the OK mark at the right end in the figure indicates that the integrated phase, which is the sum of the MTD phase and the difference phase, is within the dynamic range Urange predetermined by the user, and the NG mark indicates that the integrated phase indicates the dynamic range Urange. Indicates exceeding.
  • Urear is about the same as the distance between the eyes, the distance scale cannot define the depth beyond the distance between the eyes. If the NG phenomenon is maintained even after the distortion suppression processing, the principle of stereoscopic reproduction in Urange, which is a major premise of integrated phase, is not maintained.
  • the parallax amount Mdly-sisa which determines the stereoscopic effect generated by the MTD method, to be small beforehand so that the NG phenomenon does not occur. It is hard to say that it is preferable because the three-dimensional effect by the MTD method is lost. Therefore, in order to compensate for the large Mdly-sisa, the occurrence of the NG phenomenon is recognized to some extent, and control is required to reduce the target delay dly-target only when a phase exceeding Ufront and Urear occurs (Fig. 22)).
  • FIG. 23 shows a control processing procedure for realizing the processing of FIG. 22 (a control processing procedure performed by the parallax amount monitoring means 112).
  • the target delay is reduced when the integrated phase of each region (sum of the actual phase and the phase based on the actual delay) exceeds Ufront and Urear.
  • step 81 it is necessary to calculate the phase amount by the MTD method for each field subject region and background region (step 81).
  • To calculate the phase amount of the current field In order to improve the accuracy, we use the actual phase phase [pixel] and the actual delay amount delay [field].
  • the actual parallax obj_s isa '[pixe] of the subject area and the actual parallax bg—sisa' [pixel] of the background area caused by the field delay of the MTD method are unknown NG.
  • the actual parallax ng—si sa '[piexel] of the region is calculated by the following equation (23).
  • obj— sisa ' obj— vect * delay
  • nasej ⁇ (u _j? hasej-Urear) for Urear> u _phasej
  • the over-max p obtained by the above equation (25) is subtracted from the absolute value of the actual field disparity dly — sisa '[pixel] generated by the field delay, and the MTD method is used.
  • the magnitudes of dly-target 'and the target delay amount before suppression dly-target are compared.
  • phase of the MTD method is suppressed based on the actual delay amount and the actual parallax. It is possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

明 細 書
2次元映像を 3次元映像に変換する装置及びその方法 <技術分野〉 、
本発明は、 2次元映像を 3次元映像に変換する装置とその方法に関する。
<背景技術〉
2次元映像を 3次元映像に変換する方法として、 特開平 9一 1 0 7 5 6 2号公 報、 および特開平 1 0— 5 1 8 1 2号公報に開示されている方法が知られている。 まず、 特開平 9 _ 1 0 7 5 6 2号公報に開示されている 2次元映像を 3次元映 像に変換する方法の概要を、 図 1に基づいて説明する。
2次元映像 (2 D映像) では、 鳥が山の前を左から右へ飛んでいる様子を画像 1から 5に示すように、 撮像したとする。
まず、 画像 1から画像 2に移行する際の動きベク トル、 画像 2から画像 3に移 行するための動きべクトル等のように、 各画像間の動きべクトルを画面内に設定 された複数の動きべクトル検出領域毎に抽出する。 次に、 抽出した動きべクトル から被写体 (鳥) 領域と背景 (山) 領域とを決定する。 そして、 被写体が背景の 前に来るように基準画像を右または左目画像の一方に決め、 動きべクトルの大き さに応じたフィールド数分だけ遅延させた画像を他方として決める。
例えば、 基準画像である現在の画像が画像 4とし、 画像 3と画像 4とから得ら れた動きべクトルの大きさに応じて所定フィールド数分遅延させた画像 (遅延画 像) が画像 2であるとすると、 動きべクトルの方向から基準画像 (画像 4 ) を左 目用画像として提示し、 遅延画像 (画像 2 ) を右目用画像として提示する。
この動作を繰り返し実行することにより、 立体感のある映像、 即ち 3次元映像 を表示するのである。 以下、 この方法を MT D法と呼ぶことにする。
特開平 1 0— 5 1 8 1 2号公報に開示されている 2次元映像を 3次元映像に変 換する方法の概要を説明する。
まず、 2次元画像を複数の領域に分割し、 各分割領域毎に色成分、 高周波成分、 コントラスト等の画像特徴量を抽出する。 次に各分割領域毎に色成分に基づいて、 同じ物体が属する領域毎にグループ化する。 そして、 グループ化された領域単位 で、 その領域の平均コントラスト及び平均高周波成分等の情報により、 奥行き推 定を行って、 視差量を算出する。 算出した視差量に基づいて、 各分割領域毎に左 目用画像と右目用画像を反対方向に水平シフトさせて、 3次元映像を生成する。 このようにして作成した左目用映像及び右目用映像を立体表示手段に表示させ て立体表示するのである。 この方法は、 C I D法と呼ぶことにする。
MT D法および C I D法について、 さらに詳しく説明する。
1 . MT D法
MT D法では、 画面内の動きに応じて、 左右いずれかの目に入る映像を遅延さ せて立体感を作りだす。 この際、 映像にとって最適である (目標となる) フィー ルド遅延量 (目標遅延量 dly 一 target) は、 被写体背景判別によって得た被写 体領域の水平方向べクトルの平均値 obj 一 xvec [pixel / field]と背景領域の 水平方向べクトル bg— xvec [pixel I field]を用い、 次式 (1 ) により決定す る。 なお、 べクトルは右方向の動きに対して正の値を取る。 d — target = Mdly_sisa / ( obj_xvec - bg_xvec) [field] · · · (1)
ここで、 Mdly— sisaは MT D法によって生成する立体感を決定する視差量 [pi xel] を表し、 その値はユーザーインタ一フェース等を介し予め設定される。
なお、 左右いずれの目を遅延させるかを示す遅延方向は、 目標遅延量 dly— t argetを用い次式 (2 ) により決定される。 dly arget > 0 右目遅延 (2)
dly_target < 0 左目遅延
dlyjarget ― 0 遅延無し
ここでは、 便宜上、 目標遅延量を例に遅延量の説明を行ったが実際の制御では、 目標遅延量を時間的に平滑化した実遅延量 delay により遅延するブイールド数 と遅延方向を決定する。
2 . 被写体位置制御
被写体位置制御は、 M T D法を行った場合に生じる管面に対する物体呈示位置 のあいまいさを是正するために使用する。 すなわち、 M T D法では、 図 2に示す ように被写体が動くか背景が動くかによつて、 見え方が異なる。 このため、 被写 体位置制御では、 被写体が動く場合は、 右眼映像の呈示位置を右にシフトし、 左 目映像の呈示位置を左にシフトすることで画面全体を奥方向にもっていくことに よって、 被写体から管面の画素数と管面から背景の画素数が等しくなるようにし ている。 また、 背景が動く場合は、 右眼映像の呈示位置を左にシフトし、 左目映 像の呈示位置を右にシフトすることで画面全体を手前方向にもっていくことによ つて、 被写体から管面の画素数と管面から背景の画素数が等しくなるようにして いる。
この被写体位置制御によって算出される右眼の水 51 ^立相量 t _jhr と左眼の 水平位相量 t _phl は、 フィールド遅延により発生する被写体の位相量 obj _s i saと背景の位相量 bg— sisaを次式 (3 ) で表した場合、 次式 (4 ) で表現で さる。 obj_sisa = obj_xvec * delay [pixel] (3)
bg一 sisa = bg一 xvec * delay [pixel] t _phr = ( obj_sisa + bg—sisa) / 2 [pixel] (
t _phl = - t _phr [pixel]
なお、 実遅延量 delay は目標遅延量 dly—targetを時間的に平滑化している ため、 MT D法により生成される視差量 dly— sisa (=obj — sisa - bg— sisa) [pixel] (dly— sisaは飛び出している場合は正の値を、 奥まっている場合は負 の値を取る。 ) の絶対値とユーザ設定によって予め決定した Mdly— sisa [pixel] とは完全に一致しない。 また、 遅延がない (dly—target = 0) 場合は、 dly 一 sisa=0となる。
3 . C I D法
C I D法は、 一画面を複数の領域に分割し、 各々の領域から得た画像情報及び 構図から各領域の奥行きを推定し、 この推定した奥行きを基に画面内の各画素を シフトすることによって両眼視差を生成する手法である。
また、 本出願人は、 既に開発した C I D法をさらに改良した C I D法をも開発 している。
図 3は、 改良後の C I D法 (公知ではない) の制御手順を示している。
まず、 一画面を複数の領域に分割し、 各々の領域から高周波、 輝度コントラス ト、 色 (B - Y、 R-Y成分) の情報を得る (ステップ 1 ) 。 そして、 これらの情報及 び構図から推定した各領域の奥行き推定値を求める (ステップ 2 ) 。 求めた奥行 き推定値を単にシフト量に変換すると変換画像に歪みが目立っため、 歪み抑圧処 理を行う (ステップ 3 ) 。 歪み抑圧処理後の奥行き推定値に距離スケール変換を 施す (ステップ 4 ) 。
歪み抑圧処理について説明する。 C I D法では、 2 D画像を変形し左右画像を 生成する。 この変形が大きくなりすぎると不自然な映像となるため、 C I D法で は、 隣接する領域間の位相量の差が、 ユーザによって予め定められた変換画像の 歪み許容範囲 h—supp—lev [Pixel]以下になるよう制御している。 すなわち、 まず、 推定した奥行きを Mfrontと rear との間に割り当てることによって求め た各領域の位相量から、 隣接する領域の位相量の差を求める。 そして、 この差の 展大値を h― dv ma Lpixel]とし、 h― dv一 max 力歪み午容肇 β囲 h― sup― lev [pixel]を越える場合は、 次式 (5 ) を満足するまで Mfront と Mrear を 0 [pixe 1] に近づける方向に小さくする。 h—dv—max≤ h_supp_iev · · · (5)
従って、 h— dv— max が h—supp— lev より大きい場合は、 図 4の右側の図 に示すように、 変換映像の飛び出し位相量 front [Pixel]と奥まり位相量 rear [Pi xel] を、 次式 (6 ) の線形演算により、 ユーザが予め定めた最大飛び出し位相 量 Mfront [Pixel] および最大奥まり位相量 Mrear [Pixel]より小さくする。
front = Mfront * h_supp_lev / n—dv—max
· · · (6)
for h_dv_max > h_s pp_lev rear = Mrear * h— supp— lev / h_dv_max
for h—dv—max > h— supp— lev
逆に、 h— dv— max が h—supp— lev より小さい場合は、 変換画像の歪みは 許容範囲内であるから、 図 4の左側の図に示すように、 次式 (7 ) が成り立つ。 front - Mfront for h—dv—max < h一 supp一 lev … (7)
rear = Mrear for h—dv—max < h_supp_tev
つまり、 h— dv— max が h _supp_lev より小さい場合は、 変換映像の位相 のダイナミックレンジ dv— range (=front rear) と、 ユーザが予め定めた位相 のダイナミックレンジ Mdv range (=Mfront Mrear) とは等しくなる。 なお、 実機におけるこのダイナミックレンジを抑圧する歪み抑圧処理では、 C P U負荷を軽減するため、 h — supp— lev を、 推定した奥行きの単位に置き換え て行っているが、 ここでは便宜上、 画素の単位系を用いて説明を行った。
距離スケール変換方法について説明する。
2眼式立体ディスプレイでは、 右眼用画像 (R画像) と左眼用画像 (L画像) の対応点の視差量 Wとその融像位置 (実際に見える管面からの距離) Ypとは、 非線形の関係にある。
すなわち、 ディスプレイ面上で視差 W[mra]を持つ R画像および L画像を管面か ら距離 K [mm]離れた位置から観察した場合、 管面からの融像位置までの距離 Yp [mm]は次式 (8 ) で表される。
Yp = KW /(W - 2E) … (8)
上記式 (8 ) において、 各変数は以下の値を表す。
K :ディスプレイ管面からの観察者までの距離 [mm]
E :眼間の 1/2 の長さ [ram]
W :ディスプレイ面上での左眼用画像と右眼用画像の対応点の視差量 [删] Yp:管面から融像位置までの距離 [匪]
K^lOOOmra, 2E=65mm として上記式 (8 ) をグラフで表すと、 図 5のようになる。 図 5より、 奥行き推定値を線形的に画素の単位に置き換えただけでは、 融像す る映像には空間的な歪みを生じることが分かる。 そこで、 距離スケール手法では、 空間歪みを考慮して、 奥行き推定値を画素の単位に変換する。
以下、 距離スケール変換手法について簡単に説明する。
今、 ディスプレイ上の 1画素の幅を U[mra] とし、 対応点が α画素分の視差 W があるとすると、 視差 Wは次式 (9 ) で表される。
W = U ■·■ (9) 上記式 (9) を上記式 (8) に代入することにより、 次式 (10) に示すよう に、 画素と融像位置の関係が求まる。
Yp = KaU /( U -2E) ··· (10)
また、 上記式 (1 0) を変形し次式 (1 1) を得る。 a = 2E*YP/UYp-K)U} ■■■ (11)
完全距離スケール変換では、 管面からの最大飛び出し量 Ymax' と管面からの 最大奥まり量 Ymin' を指定すると、 奥行き推定値 d印 th (0〜100の値を持 つ) が決まれば対応する奥行き Ypは、 次式 (12) で表される単純なスケール 変換で得ることができる。
Yp = (Ymax' - Ymin ' )xdepth / 100 ··· (12)
そして、 Ypに対応する視差量 αは、 上記式 (1 1) により求められる。 これ により、 空間歪みを考慮して、 奥行き推定値を画素の単位に変換することができ る。
完全距離スケール変換において、 256段の視差量変換テーブル W" を用いる 場合は、 図 6に示すように、 まず、 Ymax' 〜Ymin' の間を 256等分し、 各奥行 き値 Yp毎に対応した視差量変換テーブル [pixel]を上記式 (1 1) に基づい て求める。
この場合、 W"[255] が Ymax' に対応した視差量となり、 W"[0] が Ymin に対 応した視差量となる。 そして、 奥行き推定値 depth が決まれば、 対応する視差 量 αは次式 (13) より求まる。 = W" [lev] · ·■ (13)
ここで、 lev は視差量変換テーブル上の段数を表し、 次式 (1 4 ) で与えられ る。 lev = 255 depth / 100 … (14)
ここまで、 2 D Z 3 D変換における完全距離スケール変換手法について述べた 力 この手法には以下に示す 2つの問題がある。
(1) 奥行き Ypが飽和する所まで最大飛び出し量 Ymax' を大きくすると、 Ymax ' 近傍の奥行き値を持つ部分において、 変換画像自体の歪み( R画像、 L画像自 体の歪み) が大きくなる。
(2) 奥行き再現空間のダイナミックレンジを大きく取ろうとすると、 最大奥ま り量 Ymin' を小さくするしかないので、 管面より前に飛び出す領域が極端に少 なくなる。
上記の問題を回避するためには、 奥行きと視差量がある程度比例関係にある領 域のみ使用して変換する必要がある。 し力、し、 それでは画素スケール変換とほぼ 同じになってしまい、 複雑な処理を行う関係上、 完全距離スケール変換はもはや 有用とは言い難い。
そこで、 考案したのが次に紹介する折れ線距離スケール変換である。 折れ線距 離スケール変換では、 図 7に示すように、 飛び出し量比 C [H を導入し、 Ymax' 〜0 を 255*C/100等分し、 0〜Ymin' を 255 { (1-O/100) } 等分することで、 視差量変換テ一ブルを求める。
すなわち、 飛び出し量比 Cを制御することで、 管面より前の飛び出し量を変え、 かつ、 最大飛び出しとなる部分での変換画像自体の歪みを抑えることができる。 なお、 折れ線距離スケール変換において上記式 (1 2 ) に対応する式は、 次式 (1 5) となる。
Yp = Ymax'x {depth - (100 -C)}/C for depth ≥ (100 - C) (15)
Yp = f-Ymin ' x depth / (100 -C)} + Ymin ' for depth < C
また、 視差量変換テーブル W〃 の段数を表す上記式 (14) に対応する式は、 次式 (16) となる。
lev ^(255 - Dlev) xf depth - (100 -C)}/C + Dlev for depth ≥ (100 - C) . .
··· (16) lev = Dlev x depth /(100-C) for depth < (100 - C)
ここで、 Dlevは、 次式 (1 7) で定義され、 管面に対応する視差量変換テー ブル上の段数を表す。
Dlev = (100-C)x255/ 100 … (17)
折れ線距離スケール変換は管面より前と、 管面より奥において、 それぞれ空間 的な歪みが出ないようになつている。 逆に言えば、 管面において空間的な歪みが でることになる。 これは、 「立体映像を見た場合、 管面前後で見え方が違う。 」 という多くの視聴者から得た言葉より、 空間的な歪みは管面近傍で最も分かりづ らくなるという仮説に基づいている。
なお、 実際に使用している値は、 管面前後での奥行き視差量変換テーブルの傾 向 (ステップ幅) が大きく違わないよう Ymax',Ymin',C を決定している。
ところで、 上述した線形演算を用いた歪み抑圧処理は画素スケール変換には有 効であるが、 距離スケール変換に対しては有効な手段とは言えない。 これは、 図 8に示すように、 距離スケール変換では、 奥行き Ypと視差量 W [pixel] とが非 線形であり、 奥行き推定量が同じ値、 たとえば" 1 " でも管面の前後ではその視 差量が大きく異なるという性質を持っためである。 なお、 この傾向は、 大画面デ イスプレイにおいて顕著になる。 完全距離スケールの改良型である折れ線距離ス ケールでは、 この特性を緩和する意味でも、 飛び出し量比 Cを導入している。 し力 し、 飛び出し量比 Cを制御可能な折れ線距離スケールでも、 隣接領域間の 位相差の最大値 h—dv— max [pixel]を歪み許容範囲 h—supp— lev [pixel]内に 完全に抑えることはできない (画素スケールにおける歪み抑圧の原理を忠実に実 現することはできない) 。 この歪み抑圧の原理を実現するためには、 歪み抑圧処 理を距離スケール変換後に行う必要がある。
4 . MT D法と C I D法との併用
一般に、 人は、 左右の目の位置の違いにより生じる左右各々の目に入ってくる 像の死角部の差 (ォクルージョン) などにより立体視時の距離感などを知覚して いる。 この点、 MT D法では、 カバーできる反面、 動きのない映像や動きの複雑 な映像ではうまく 3次元映像に変換できなかった。 また、 C I D法では左右目用 画像の視差量は自由に変更できる反面、 人の左右の目にはその視差により被写体 の影になる死角部分が異なって見えるように見せることができなかった。
そこで、 動画に対して効果的な MT D法と、 静止画も変換可能な C I D法を併 用して、 2 D/ 3 D変換を行なうことが考えられる。 この場合には、 MT D法で 得られた視差と C I D法で得られた視差を単純に加算することが考えられる。 しかしながら、 MT D法による視差と C I D法による視差を個別に制御してい るため、 変換によって生成される視差は入力映像の動きの有無によって大きく左 右される。 すなわち、 入力映像が動画の場合は MT D法の視差と C I D法の視差 が変換映像に反映されるが、 静止画の場合は MT D法の視差はなく C I D法の視 差のみとなる。
このように入力映像により変換映像の立体感が大きく異なる現象は、 ユーザー が立体感を調整する際に都合が悪レ、。
この発明は、 MT D法と C I D法とを併用して 2次元映像を 3次元映像に変換 する場合に、 入力映像により変換映像の立体感が大きく異なるといったことを回 避できる 2次元映像を 3次元映像に変換する方法を提供することを目的とする。 また、 この発明は、 距離スケール変換を用いて奥行き推定量を視差量に変換す る場合に、 変換画像の歪みを押さえることができる 2次元映像を 3次元映像に変 換する方法を提供することを目的とする。
<発明の開示〉
〔1〕 この発明による 2次元映像を 3次元映像に変換する装置の説明
この発明による 2次元映像を 3次元映像に変換する装置は、 映像信号源から入 力された 2次元映像信号をフィールド毎に記憶するフィールドメモリ、 入力映像 信号のフィールド間の動きに応じた動きべク トルを、 入力映像の各領域毎に検出 する動きべク トル検出手段、 フィールドメモリに格納された映像信号のうちから、 入力映像信号に対して、 動きべク トル検出手段によって検出された各領域の動き べク トルから求められた遅延量だけ遅延した映像信号をフィールドメモリから読 み出す読み出し手段、 動きべク トル検出手段で検出された各領域の動きべク トル の水平成分の方向に基づいて、 入力映像信号とフィールドメモリから読み出され た映像信号とのうち、 一方の映像信号を左目映像信号として、 他方の映像信号を 右目映像信号として出力する切替手段、 入力映像信号から映像特徴量を、 入力映 像の各領域毎に抽出する特徴量抽出手段、 特徴量抽出手段で抽出された各領域毎 の画像特徴量に基づいて、 入力映像の各領域毎に奥行き量を算出し、 算出した各 領域毎の奥行き量から各領域毎の視差量を算出する視差量算出手段、 視差量算出 手段で算出された各領域毎の視差量を動きべクトル検出手段で検出された各領域 毎の動きべクトルの大きさに応じて修正する視差量修正手段、 ならびに視差量修 正手段で修正された各領域の視差量に基づいて、 切替手段で出力された右目用映 像及び左目用映像の各領域の位相を修正して、 立体映像信号として出力する位相 制御手段を備えていることを特徴とする。
視差量修正手段としては、 たとえば、 視差量算出手段によって算出された各領 域毎の視差量から、 対応する領域の動きべク トルの大きさに応じた視差量を減算 した差分視差量を各領域毎に算出する手段、 および隣接領域間の差分視差量の差 の最大値が所定範囲内となるように、 ダイナミックレンジを変更して各領域毎の 差分視差量を算出する手段を備えているものが用いられる。
視差量修正手段によつて得られた各領域毎の差分視差量と対応する領域の動き べクトルの大きさに応じた視差量との和が所定範囲を越える場合には、 その余剰 視差量に応じた量だけ、 遅延量を減少させる手段を設けることが好ましい。 〔 2〕 この発明による第 1の 2次元映像を 3次元映像に変換する方法の説明 この発明による第 1の 2次元映像を 3次元映像に変換する方法は、 映像信号源 から入力された 2次元映像信号をフィールド毎にフィールドメモリに記憶させる 第 1ステップ、 入力映像信号のフィールド間の動きに応じた動きべク トノレを、 入 力映像の各領域毎に検出する第 2ステップ、 フィールドメモリに格納された映像 信号のうちから、 入力映像信号に対して、 第 2ステップによって検出された各領 域の動きべク トルから求められた遅延量だけ遅延した映像信号をフィールドメモ リから読み出す第 3ステップ、 第 2ステップで検出された各領域の動きベク トル の水平成分の方向に基づいて、 入力映像信号とフィールドメモリから読み出され た映像信号とのうち、 一方の映像信号を左目映像信号として、 他方の映像信号を 右目映像信号として出力する第 4ステップ、 入力映像信号から映像特徴量を、 入 力映像の各領域毎に抽出する第 5ステップ、 第 5ステップで抽出された各領域毎 の画像特徴量に基づいて、 入力映像の各領域毎に奥行き量を算出し、 算出した各 領域毎の奥行き量から各領域毎の視差量を算出する第 6ステップ、 第 6ステップ で算出された各領域毎の視差量を第 2ステツプで検出された各領域毎の動きべク トルの大きさに応じて修正する第 7ステップ、 ならびに第 7ステツプで修正され た各領域の視差量に基づいて、 第 4ステップで出力された右目用映像及び左目用 映像の各領域の位相を修正して、 立体映像信号として出力する第 8ステップを備 えていることを特徴とする。
第 7ステップとしては、 たとえば、 第 6ステップによって算出された各領域毎 の視差量から、 対応する領域の動きべクトルの大きさに応じた視差量を減算した 差分視差量を各領域毎に算出するステップ、 および隣接領域間の差分視差量の差 の最大値が所定範囲内となるように、 ダイナミックレンジを変更して各領域毎の 差分視差量を算出するステップを備えているものが用いられる。
第 7ステップによつて得られた各領域毎の差分視差量と対応する領域の動きベ クトルの大きさに応じた視差量との和が所定範囲を越える場合には、 その余剰視 差量に応じた量だけ、 遅延量を減少させるステップを備えていることが好ましレ、。 〔 3〕 この発明による第 2の 2次元映像を 3次元映像に変換する方法の説明 この発明による第 2の 2次元映像を 3次元映像に変換する方法は、 2次元映像 信号に基づいて、 1画面内に設定された複数の視差算出領域それぞれに対して映 像の遠近に関する画像特徴量を抽出し、 抽出した画像特徴量に基づいて、 各視差 算出領域毎の奥行き推定値を生成する第 1ステップ、 各奥行き推定値に対して、 所定の最大飛び出し量と所定の最大奥行き量とによって規定されるダイナミック レンジを用いた距離スケール変換を施すことにより、 各視差算出領域毎に仮の目 標位相量を求める第 2ステップ、 各視差算出領域毎の仮の目標位相量に基づいて、 隣接する視差算出領域間での位相差の最大値を求める第 3ステップ、 隣接する視 差算出領域間での位相差の最大値が予め定められた歪み許容範囲内である力、否か を判定する第 4ステップ、 ならびに隣接する視差算出領域間での位相差の最大値 が予め定められた歪み許容範囲外である場合には、 上記視差算出領域間での位相 差が歪み許容範囲内となるようなダイナミックレンジを探索し、 各奥行き推定値 に対して、 探索したダイナミックレンジを用いた距離スケール変換を施し、 各視 差算出領域毎に仮の目標位相量を求めた後、 第 3ステツプに移行する第 5ステツ プを備えていることを特徴とする。
ここで、 距離スケール変換とは、 奥行き推定値を融像位置を考慮して画素の単 位 (視差量) に変換する手法をいう。 これに対して、 奥行き推定値を線形的に画 素の単位 (視差量) に変換する手法を画素スケール変換という。
上記第 5ステップにおいて、 探索したダイナミックレンジによって規定される 最大飛び出し量と最大奥行き量との比が、 予め定められた比となるように、 ダイ ナミックレンジを補正した後、 補正後のダイナミックレンジを用いた距離スケー ル変換を各奥行き推定値に施すようにしてもよい。 <図面の簡単な説明 >
図 1は、 従来の MT D法を説明するための模式図である。
図 2は、 被写体位置制御を説明するための模式図である。
図 3は、 従来の C I D法の制御処理手順を示すフローチヤ一トである。
図 4は、 従来の C I D法におけるダイナミックレンジの抑圧処理を説明するた めの模式図である。
図 5は、 視差量 Wとその融像位置 Ypとの関係を示すグラフである。
図 6は、 完全距離スケール変換を説明するためのグラフである。
図 7は、 折れ線距離スケール変換を説明するためのグラフである。
図 8は、 奥行き Ypと視差量 W [pixel] とが非線形であるため、 奥行き推定量 が同じ値、 たとえば" 1 " でも管面の前後ではその視差量が大きく異なるという 性質を示すためのグラフである。
図 9は、 この発明の第 1の実施の形態による C I D法の制御手順を示すフロー チヤ一トである。
図 1 0は、 図 9のステップ 1 3の距離スケール変換および歪み抑圧処理の詳細 を示すフローチャートである。
図 1 1は、 距離比維持の手法を導入することにより、 ダイナミックレンジが変 わっても管面の前後の奥行き関係が保持されることを示すグラフである。
図 1 2は、 量比維持のみの折れ線距離スケール変換を行なった場合と、 さらに 距離比維持のための処理を行なった場合とを示す模式図である。
図 1 3は、 第 2の実施の形態である 2 DZ 3 D変換装置の概略構成を示す図で ある。
図 1 4は、 図 1の 2 DZ 3 D変換装置の動作を示すフローチヤ一トである。 図 1 5は、 第 2の実施の形態である 2 DZ 3 D変換装置の概略構成を示す図で ある。
図 1 6は、 統合位相制御の全体的な制御処理手順を示すフローチャートである。 図 1 7は、 統合位相制御の全体的な振る舞いを示す模式図である。
図 1 8は、 統合位相制御時の各領域の振る舞いを示す模式図である。
図 1 9は、 図 1 6のステップ 5 3、 5 4、 5 5の詳細な処理手順を示すフロー チヤ一トである。
図 2 0は、 統合位相制御において行なわれる歪み抑圧例を示す模式図である。 図 2 1は、 MT D法による位相の調整が必要な場合と必要でない場合とを示す 模式図である。
図 2 2は、 MT D法の位相抑圧処理を説明するための模式図である。
図 2 3は、 遅延量抑圧処理手順を示すフローチャートである。
<発明を実施するための最良の形態 >
〔1〕 第 1の実施の形態についての説明
以下、 図 9〜図 1 2を参照して、 この発明の第 1の実施の形態について説明す る。
図 9は、 この発明の第 1の実施の形態による C I D法の制御手順を示している。 まず、 一画面を複数の領域に分割し、 各々の領域から高周波、 輝度コントラス ト、 色 (B- Y、 R-Y 成分) の情報を得る (ステップ 1 1 ) 。 そして、 これらの情報 及び構図から推定した各領域の奥行き推定値を求める (ステップ 1 2 ) 。 求めた 奥行き推定値に対して距離スケール変換および歪み抑圧処理を施すことにより、 目標位相量を得る (ステップ 1 3 ) 。
図 1 0は、 図 9のステップ 1 3の距離スケール変換おょぴ歪み抑圧処理の詳細 を示している。
まず、 Mfrontと Mrear によって規定されるダイナミックレンジで距離スケー ル変換を施し、 仮の目標位相量を得る (ステップ 2 1、 2 2 ) 。 得られた仮の目 標位相量に基づいて、 隣接領域間の位相差の最大値 h一 dv— max [pixel] を算 出する (ステップ 2 3 ) 。
隣接領域間の位相差の最大値 h—dv— max [pixel] が歪み許容範囲 h— supp —lev [pixel] であるか否かを判定する (ステップ 2 4 ) 。 許容範囲内である場 合には、 仮の目標位相量を真の目標位相とする (ステップ 2 7 ) 。
隣接領域間の位相差の最大値が歪み許容範囲外である場合には、 当該位相差の 最大値が h—supp— lev以下になるまで、 Mfrontと Mrear によって規定される ダイナミックレンジを段階的に小さくすることによって最適な front 、 rear値 を得る (ステップ 2 5 ) 。 以下、 便宜上、 ステップ 2 5の処理を逐次探索処理と いうことにする。 逐次探索処理の詳細については後述する。
逐次探索処理によって求めた front と rearとの距離比を、 ユーザ指定の距離 比になるよう、 front と rearとを変更した後 (ステップ 2 6 ) 、 ステップ 2 2 に戻り、 更に距離スケール変換を行う。
ステップ 2 2、 2 3、 2 4、 2 5、 2 6の処理を、 隣接領域間の位相差の最大 値 h—dv— max [pixel]が歪み許容範囲 h—supp— lev [pixel] 内になるまで繰 り返し、 最終的な目標位相量を得る。 なお、 このようにダイナミックレンジが変 更する都度、 距離スケール変換を施すのは、 立体ディスプレイの空間的な歪みに 左右されず奥行き推定量に従つた立体映像を観察者に知覚させるという、 距離ス ケールの原理を正確に実現するためである。
次に、 逐次探索処理について説明する。
奥行き推定値と位相量とが非線形である距離スケールでは、 front と rear値 で規定されるダイナミックレンジを大きくするため、 レンジの決定は逐次探索処 理によって行なわれる。
逐次探索処理において、 視差量の算出は、 奥行き視差量変換式 (式 1 5 ) を用 いても可能だが、 以下に示すように予め算出した視差量変換テーブル W〃 を用い た方が効率的である。 この方法について、 0 〜100 の間に奥行き推定値が規格化 された場合の管面レベルの奥行き推定値を surface depth (= 100- C) として、 説明する。
front 値と rear値に対応する視差量変換テーブル W〃 上の段数をそれぞれ Ma X—lev (=255〜!) lev) 、 in—lev (=Dlev 〜0 ) とした場合、 ある奥行き推 定値 V depth の視差量変換テーブルの段数 lev は、 次式 (1 8 ) で表される。
lev = (v_depth - surface— depth)* (Max— lev - Dlev)/ ( 100 - surface— depth) + Diev
… (18) for v一 depth > surface _depth lev - ( v—depth - Minjev )* ( Dlev - 0) / ( surface一 depth - Min— lev )
for v— depth < surface— depth lev― Dlev for v_depth = surface— depth
lev に対応する位相量 phase は、 視差量変換テーブル W〃 により一意で求ま るので、 次式 (1 9 ) で表すことができる。 phase = W" (lev ) · · · (19)
逐次探索処理では、 隣接領域間の位相差の最大となる 2つの領域の位相差が h ― sup― lev 以下になる front 直と rear値を、 Max ― lev や km― lev を 徐々に変化させことによって見つけることができる。
上記式 (1 8 ) から明らかなように、 逐次探索処理では、 隣接領域間の位相差 が最大となる 2つの領域が持つ位相量の関係に応じ、 最適な front 値と rear値 の探索方法は以下の 3種類となる。
第 1ケース :両領域が共に管面より前の位相量を持つ場合は、 front 値を 0に 近づけて行く (Max _lev を Dlevに近づけていく) 。
第 2ケース :両領域が共に管面より後ろの位相量を持つ場合は、 rear値を 0 に近づけて行く (Min lev を Dlevに近づけていく) 。 第 3ケース :一方の領域が管面より前の位相量を持ち、 もう一方の領域が管面 より後ろの位相量を持つ場合は、 front, rear値を共に 0に近づけて行く(Max— 1 ev, in —lev を Dlevに近づけていく) 。
第 3ケースの場合には、 逐次探索処理時に、 ユーザが予め指定した距離比を保 持するように、 つまり次式 (2 0 ) の関係を保持するように、 Max —lev と Min —lev を Dlevに近づけていく。
(255 - Dlev): Dlev = (Maxjev - Dlev): (Dlev - Minjev) - · · (20)
上記式 (2 0 ) は、 図 1 0のステップ 2 6の処理と同義である。 第 1ケースと 第 2ケースでは、 演算量を減らすため、 距離比の変更処理を逐次探索処理時に行 わず図 1 0のステップ 2 6で行う。
距離スケールにおいてこの距離比維持の手法を導入しているのは、 ダイナミッ クレンジが変わっても管面の前後の奥行き関係を保持するためである。 具体的に は、 図 1 1に示すように、 第 1ケースで管面より前の距離を 2 0 %減少させた場 合には、 管面より後ろの距離も 2 0 %減少させ、 管面前後の関係を維持している。 視差量変換テーブル上でこの距離比維持を行うと、 飛び出し量比 Cの関係も維 持することができる。 これにより、 相対的な奥行きで空間を認知する傾向がある 観察者には違和感のない変換映像を提示することができる。
し力、し、 観察者の目の特性によっては、 全体のダイナミックレンジを広げた方 が良い映像とみなす場合がある。 このような場合は、 第 1ケース、 第 2ケースに おいて距離比維持を行わず、 量比維持のみを行う。
図 1 2は、 量比維持のみの折れ線距離スケール変換を行なった場合と、 さらに 距離比維持のための処理を行なった場合とを示している。 量比維持のみの折れ線 距離スケール変換では、 管面の奥行き推定値を境に別個のレンジ変換により奥行 き推定値と視差量変換テーブルの対応を取る。 なお、 距離比維持をした場合は、 奥行き推定値の視差量変換テーブルは 1つのレンジ変換で対応できる。 なお、 図 1 2における関数 lev (phase)は上記式 (1 9 ) の逆関数を表し、 位相量 phase [p ixel]から視差量変換テーブルの段数を求めることを意味する。
〔2〕 第 2の実施の形態の説明
以下、 図 1 3および図 1 4を参照して、 この発明の第 2の実施の形態について 説明する。
図 1 3において、 1は V T R、 C D - R OM, T V放送等の映像信号供給手段 となる映像供給源、 2は映像供給源 1から供給された 2次元映像信号を 3次元映 像信号、 即ち左目用映像信号 L及び右目用映像信号 Rに変換する 2 D Ζ 3 D変換 装置、 3は 2 D/ 3 D変換装置 2から出力された 3次元映像信号を表示するィメ 一ジスプリッター方式等を使用した立体表示手段である。
2 D/ 3 D変換装置 2の構成について説明する。
4は、 該映像供給源 1からの映像信号を 1フィーノレド単位で映像を記憶するフ ィールドメモリ、 5は映像供給源 1からの映像信号から動きべクトルを検出する 動きべク トル検出手段である。
6は映像供給源 1から供給される映像から色成分を抽出する色抽出手段、 7は 映像供給源 1の映像からコントラストを抽出するコントラスト抽出手段、 8は映 像信号源 1の映像から高周波成分を抽出する高周波成分抽出手段である。 色抽出 手段 6、 コントラスト抽出手段 7および高周波成分抽出手段 8は、 画像特徴量抽 出手段を構成する。
9は動きべクトル検出手段 5で検出した動きべク トルから動きの方向とその動 き量 (動きベクトルの大きさ) とを求めて、 出力する動き量算出手段、 1 0は現 在の画像を基準として動き量算出手段 9から出力された動き量に応じたフィール ド数分、 遅延した画像 (遅延画像) をフィールドメモリ 4から読みだすメモリ制 御手段、 1 1は動き量算出手段 9から出力された動きの方向に基づいて、 基準画 像 (現在の画像) および遅延画像のうち、 いずれを左目用映像信号 Lとし、 いず れを右目用映像信号 Rとして出力するかを切り替える切換手段である。
1 2は映像供給源 1の映像から色抽出手段 6の色成分及び動き量算出手段 9で 算出した動き量及び方向により被写体や背景などのように同じ物体と判断できる 部分をグループィヒし、 グループ化情報を出力するグループィヒ手段、 1 3は動き量 算出手段 9で算出した動き量とグループィヒ手段で得られたグループ化情報とから 奥行き情報を算出し、 奥行きマップを作成する第 1奥行きマツプ作成手段である。
1 4はグループ化手段 1 2でグループィヒした領域毎にコントラス ト抽出手段 7 で抽出したコントラスト情報から奥行き情報を算出し、 奥行きマップを作成する 第 2奥行きマツプ作成手段、 1 5はグループ化手段 1 2でグループィヒした領域毎 に高周波成分抽出手段 8で抽出した高周波成分情報より奥行き情報を算出し、 奥 行きマップを作成する第 3奥行きマップ作成手段、 1 6は予め設定された構図情 報とグループ化手段 1 2でグループィヒされた領域情報とから奥行き情報を算出し、 奥行きマツプを作成する第 4奥行きマツプ作成手段である。
1 7は第 1〜第 4奥行きマップ作成手段 1 3、 1 4、 1 5, 1 6で作成した奥 行きマツプを加重加算して合成し、 合成マツプを作成する合成マップ作成手段、 1 8は合成マップ作成手段 1 7で作成した合成マップょり、 予め設定された視差 量算出領域毎の視差量を算出する視差量算出手段、 1 9は視差量算出手段 1 8で 算出した各視差量算出領域毎の視差量に基づき、 切換手段 1 1から出力された左 右目用画像を、 たとえば画素単位で水平方向にシフトさせ、 合成する水^立置設 定手段である。
なお、 視差量算出手段 1 8は、 動き量算出手段 9で算出された動き量に基づい てフレーム遅延が行われる分を考慮するため、 前記動き量に応じて水平位置設定 手段 1 9に出力する視差量を修正、 即ち減少させている。
図 1 4は、 2 D/ 3 D変換装置 2の動作を示している。
映像供給源 1の映像信号が、 1フィールド単位でフィールドメモリ 4に記憶せ しめられる (ステップ 3 1 ) 。 動きベク トル検出手段 5によって、 映像供給源 1 の 2次元映像信号から動きベク トルが検出され、 動き量算出手段 9によって、 動 きべク トルの動き量及びその方向が算出される (ステップ 3 2 ) 。 具体的には、 動きべクトル検出手段 5は、 現在の画像と 1フィールド前の画像とを比較し、 画 像内の被写体の移動量とその方向とを動きべクトルとして抽出する。
次に、 ステップ 3 2で検出された動きベク トルの動き量に応じて、 映像供給源 1からの 2次元映像信号 (基準画像) に対して所定フィールド数分遅延した画像 (遅延画像) 1S フィールドメモリ 4から読み出されて、 切換手段 1 1に送られ る (ステップ 3 3 ) 。 切換手段 1 1は、 ステップ 3 2で検出された動きベク トル の動きの方向に基づいて、 基準画像および遅延画像のうちの一方を左目用映像信 号 Lとして出力し、 他方を右目用映像信号 Rとして出力する。
上記ステップ 3 1〜ステップ 3 3の動作は、 MT D法の動作に相当する。
次に、 映像供給源 1からの 2次元映像信号に基づいて画像特徴量が抽出される (ステップ 3 4 ) 。 1フィールドの画像領域が複数の領域に分割されることによ り、 1フィールドの画像領域内に、 複数の画像特徴量検出領域が設定されている。 色抽出手段 6は、 各画像特徴量検出領域毎に色情報を抽出する。 コントラス ト抽 出手段 7は、 各画像特徴量検出領域毎にコントラス トを抽出する。 高周波抽出手 段 8は、 各画像特徴量検出領域毎に高周波成分を抽出する。 また、 グループ化手 段 1 2は、 被写体や背景などの判別に使用するために、 色抽出手段 6によって抽 出された画像特徴量検出領域毎の色情報と、 ステップ 3 2で検出された動き量と 画像内の領域をグループ化する。
次に、 奥行きマップが作成される (ステップ 3 5 ) 。 つまり、 第 1奥行きマツ プ作成手段 1 3は、 動き量算出手段 9によって算出された動きべク トルの動き量 およびグループ化手段 1 2によって得られたグループィヒ情報に基づいて第 1奥行 きマップを作成する。
また、 第 2奥行きマップ作成手段 1 4は、 コントラスト抽出手段 7によって抽 出された各画像特徴量検出領域毎のコントラストおよびグループ化手段 1 2によ つて得られたグループィヒ情報に基づいて第 2奥行きマップを作成する。 第 3奥行 きマップ作成手段 1 5は、 高周波抽出手段 8によって抽出された各画像特徴量検 出領域毎の高周波成分およびグループ化手段 1 2によって得られたグループ化情 報に基づいて第 3奥行きマツプを作成する。 さらに、 第 4奥行きマップ作成手段 1 6は、 予め設定された画面の構図 (たと えば風景画が主体であれば画面下部が地面で、 画面上部が空、 画面中央部に被写 体という構図) およびグループ化手段 1 2によって得られたグループィヒ情報に基 づいて第 4奥行きマップを作成する。
次に、 合成奥行きマップが作成される (ステップ 3 6 ) 。 つまり、 合成マップ 作成手段 1 7は、 第 1〜第 4奥行きマップ作成手段 1 3、 1 4、 1 5、 1 6によ つて作成された第 1〜第 4奥行きマップを加重加算することによって、 合成奥行 きマップを作成する。
次に、 視差量が算出される (ステップ 3 7 ) 。 つまり、 視差量算出手段 1 8は、 合成マップ作成手段 1 7によって作成された合成奥行きマップに基づいて、 予め 定められた視差量算出領域毎に、 左目用画像と右目用画像との視差量を算出する。 以上ステップ 3 4及びステップ 3 7は、 C I D法の動作に相当する。
次に、 視差量が修正される (ステップ 3 8 ) 。 つまり、 視差量算出手段 1 8は、 動き量算出手段 9によって算出された動きべクトルの動き量に応じて、 ステップ 3 7で算出した各視差量算出領域毎の視差量を修正する。 具体的には、 基準画像 に対する遅延画像の遅延量に対応する視差量分だけ、 ステップ 3 7で算出した各 視差量を減少させる。
次に、 修正後の視差量に応じて、 左目用画像 Lおよび右目用画像 Rが水平シフ トせしめられる (ステップ 3 9 ) 。 つまり、 水平位置設定手段 1 9は、 切替手段 1 1から出力される左目用画像 Lおよび右目用画像 Rを、 ステップ 3 8で修正さ れた視差量に基づいて、 たとえば、 画素毎に水平シフトする。
そして、 水平位置設定手段 1 9によって水平シフトされた後の左目用画像 お よび右目用画像 Rが、 立体表示手段 3によって表示される (ステップ 4 0 ) 。 〔3〕 第 3の実施の形態の説明
以下、 図 1 5〜図 2 3を参照して、 この発明の第 3の実施の形態について説明 する。
図 1 5は、 2次元映像を 3次元映像に変換する装置 (2 DZ 3 D変換装置) の 構成を示している。
図 1 5において、 1 0 1は V T R、 C D - R OM, T V放送等の映像信号供給 手段となる映像供給源、 1 0 2は映像供給源 1から供給された 2次元映像信号を 3次元映像信号、 即ち左目用映像信号 L及び右目用映像信号 Rに変換する 2 D/ 3 D変換装置、 1 0 3は 2 DZ 3 D変換装置 2から出力された 3次元映像信号を 表示するイメージスプリツター方式等を使用した立体表示手段である。
2 073 0変換装置1 0 2の構成について説明する。
1 0 4は、 該映像供給源 1 0 1からの映像信号を 1フィールド単位で記憶する フィールドメモリ、 1 0 5は映像供給源 1 0 1からの映像信号から動きべクトル を検出する動きべクトル検出手段である。
1 0 6は映像供給源 1 0 1から供給される映像から色成分、 コントラス ト、 高 周波成分等の画像特徴量を領域毎に抽出する画像特徴量抽出手段である。
1 1 0は、 動きべクトル検出手段 1 0 5で検出した動きべクトルから遅延量を 算出する遅延量算出手段である。 1 0 7は現在の入力画像を基準として遅延量算 出手段 1 1 0によって算出された遅延量に応じたフィールド数分遅延した画像 (遅延画像) をフィールドメモリ 1 0 4から読みだすメモリ制御手段である。 1 0 8は遅延量算出手段 1 1 0から出力された動きの方向に基づいて、 入力画像お よび遅延画像のうちの、 いずれを左目用映像信号 Lとし、 いずれを右目用映像信 号 Rとするかを切り換える切換手段である。
1 0 9は画像特徴抽出手段 1 0 6によって抽出された領域毎の画像特徴量に基 づいて、 奥行き推定値を領域毎に算出する奥行き推定値算出手段である。 1 1 1 は奥行き推定値算出手段によって算出された領域毎の奥行き推定値に基づいて、 領域毎の C I D法による視差量 (位相量) を算出するとともに、 遅延量算出手段 1 1 0から出力された MT D法の視差量に基づいて、 C I D法による視差量を修 正して統合視差量 (統合位相量) を算出する視差量算出手段である。
1 1 3は視差量算出手段 1 1 1で算出した統合視差量に基づき、 切換手段 1 0 8から出力された左右目用画像の各領域 (たとえば画素単位) を、 水平方向にシ フ トさせ、 合成する立体映像合成手段である。
1 1 2は、 視差量算出手段 1 1 1で算出した統合視差量および遅延量算出手段 1 1 0から出力された MT D法の視差量に基づいて、 遅延量を制御するための視 差量監視手段である。
この実施の形態では、 C I D法で得た奥行き推定値をベースに立体空間の再現 を行う。 すなわち、 C I D法に MT D法によるォクルージョンを付加した立体映 像の提示を行う。 具体的な方法としては、 C I D法で算出した各領域の位相 (視 差量) から MT D法の位相 (視差量:フィールド遅延によって結果として生成さ れる位相) を減算することによって、 MT D法と C I D法を併用した後でも各領 域の位相は C I D法による位相と等しくなるようにする。 このため、 下記の優先 順位により MT D法と C I D法によって生成される位相量を制御する。
優先順位 1 ユーザが設定する位相量の最大レンジ Urange [pixel] 優先順位 2 変換画像における位相シフトに伴う画像歪みの制限 h _supp 一 lev[pixe丄」
優先順位 3 C I D法によって推定される奥行き形状 (奥行き推定値の形 状)
優先順位 4 Urangeを越えない MT D法によって生成される位相量 dly— s isa[pixel]
優先順位 5 C I D法によって生成される位相量 [pixel]
以下、 この優先順位の意味づけについて説明する。
最も優先順位が高い優先順位 1は、 統合位相がユーザが設定する位相量の最大 レンジ Urangeを越えないことを保証する。
優先順位 2は、 統合位相制御 (特に C I D法) によって生成される画像の歪み 、 ある限界値内 (h— supp— lev 以内) であることを保証する。
優先順位 3は、 C I D法によって算出される各領域に対する奥行き推定値 (奥 行きの形状) が MT D法と C I D法を併用した後も保全されることを意味する。 優先順位 4は、 MT D法によって生成される視差量が Urangeを越えないこと を保証する。
最も優先順位が低い優先順位 5は、 C I D法によって生成される位相は、 MT D法と併用することによって C I D法単独で生成した位相と異なる値になること を意味する。
図 1 6は、 C I D法の奥行き形状を保った統合位相制御処理手順を示している。 また、 図 1 7は、 実施時の位相の振る舞いを示している。
まず、 画像特徴抽出手段 1 0 6によって画像特徴量を抽出する (ステップ 5 1 ) 。 奥行き推定値算出手段 1 0 9は、 画像特徴抽出手段 1 0 6によって抽出さ れた画像特徴量に基づいて、 C I D法の奥行き推定を行なう (ステップ 5 2 ) 。 すなわち、 算出周波数、 コントラス ト、 構図重み、 被写体背景判別結果重みを適 当な割合で加算し、 奥行き推定値を求める。
なお、 統合位相制御では、 C I D法は動画に対しても使用するため、 この加算 比率は映像内の動きの速さに応じ可変とする。 具体的には、 速い動きによる高周 波成分の値が下がる傾向を補償するため、 動きが速くなる程、 高周波成分を加算 する割合を減らしている。
そして、 このようにして求めた奥行き推定値を Ufrontと Urear 内に距離スケ ール変換 (完全距離スケール変換または折れ線距離スケール変換) し、 C I D法 による各領域の位相量を求める (ステップ 5 3 ) 。 この C I D法の位相から MT D法の位相 (=フィールド遅延量 Xその領域の水平方向動きベクトル値) を引い た差分位相を求め (ステップ 5 4 ) 、 この差分位相に対して隣接する領域の位相 量の差が h—supp— lev [pixel]以下となるよう歪み抑圧処理を施す (ステップ 5 5 ) 0
なお、 図 1 7の差分位相 (= C I D位相— MT D位相) において MT D位相の 右端と C I D位相の左端がオーバラップしているのは、 領域毎に両手法の位相が 異なるためである。 これは、 図 1 8に示す C I D法の各領域の位相 ph— cidj力、 ら MT D法の各領域の位相 ph— mtdjを引いた各領域の差分位相 ph— diff j (= ph— cidj— ph— mtdj) の振る舞いから明らかである。 jは領域番号を表す。 図 1 8では、 上側の 3行 4列の値は各領域の位相量 [pixel] を表し、 下側の図 で各領域の位相量を一列に並べて視覚的に分かりやすくしている。
また、 図 1 7の歪み抑圧処理後の位相は、 差分位相に対して歪み抑圧処理を行 うことを示している。 上記の歪み抑圧処理後の MT D法と C I D法を統合した位 相 (統合位相) の最大飛び出し位相量 ufront [pixel] と最大奥まり位相量 urear [pixel]とは、 図 1 9に示すループ処理によって求められる。
図 1 9は、 図 1 6のステップ 5 3、 5 4、 5 5の処理の詳細を示している。 こ れらの処理は、 視差量算出手段 1 1 1によって行なわれる。
まず、 変数 Ufront' と Urear'に、 ユーザが設定した Ufrontと Urear を設定 した後 (ステップ 6 1 ) 、 Ufront' と Urear'とによって規定されるダイナミツ クレンジで距離スケール変換を施し、 C I D位相量を得る (ステップ 6 2 ) 。 次 に、 C I D位相から MT D位相を引いた仮の差分位相を求める (ステップ 6 3 ) 。 この仮の差分位相量から求めた隣接領域間の位相差の最大値 h— dv一 max [pixe 1] 、 (各隣接領域間での差分位相量の差のうちの最大値) を求める (ステップ 6 4 ) 。 そして、 ステップ 6 5に進む。
後述するように、 隣接領域間の位相差の最大値 h—dv— max [pixel] が歪み 許容範囲 h— supp—lev [pixel] 内でない場合には、 当該隣接領域間の位相差 が歪み許容範囲内になるように、 ダイナミックレンジが小さくした後、 再び上記 ステップ 6 2、 6 3、 6 4の処理が行なわれる。
ステップ 6 5では、 このようなループ処理が行なわれた場合に前回のステップ 6 4で算出された位相差の最大値 h—dv— max [pixel] 力 今回のステップ 6 4で算出された位相差の最大値 h 一 dv— max [pixel] より小さいか否かを判別 する。
上記ループ処理が行なわれてない時点では、 ステップ 6 5で N Oとなり、 今回 のステップ 6 4で算出された位相差の最大値 h—dv— max [pixel] I 歪み許 容範囲 h— supp— lev [pixel] 内であるか否かを判定する (ステップ 6 6 ) 。 範囲内であるなら、 仮の差分位相を真の目標位相とする (ステップ 7 2 ) 。 逆に、 範囲外であるなら、 C P U負荷を軽減するために、 ループ回数が制限ル ープ回数内であるか否かを判定する (ステップ 6 7 ) 。 ループ回数が制限ループ 回数より大きい場合は、 仮の差分位相に対する後述する強制歪み抑圧処理により 真の目標位相を求める (ステップ 7 3 ) 。
また、 ループ回数が制限ループ回数より少ない場合は、 仮の差分位相を退避し た後 (ステップ 6 8 ) 、 隣接領域間の位相差が h — supp— lev 以下になるまで、 Ufront' と Urear によって規定されるダイナミックレンジを段階的に小さくす ることによって最適な ufront、 urear値を得る (ステップ 6 9 ) 。 この処理を、 以下、 逐次探索処理ということにする。 逐次探索処理の詳細については後述する。 逐次探索処理で求めた ufront と urear との距離比がユーザ指定の距離比にな るよう変更する (ステップ 7 0 ) 。 そして、 得られた ufrontおよび urear を、 Ufront' および Urear'に設定することにより、 ダイナミックレンジを変更した 後 (ステップ 7 1 ) 、 ステップ 6 2に戻って、 再度、 距離スケール変換を行う。 ステップ 6 2〜ステップ 7 1の一連の処理を隣接領域間の位相差の最大値 h —dv_max [pixel]が歪み許容範囲 h —supp— lev [pixel] 内になる力 途中で 中断されるまで繰り返し、 最終的な目標位相量を得る。
図 1 9における 2種類のループの中断について順に説明する。
まず、 第 1の中断は、 ステップ 6 7において、 C P U負荷を軽減するためにル ープ回数が制限ループ回数に達したときに発生する。 この条件によって中断した 場合は、 仮の差分位相に対し、 次式 (2 1 ) に示すような、 上記式 (6 ) と同意 義の画素スケール的な歪み抑圧処理を行い ufront, urear値を決定し、 このレン ジ内に奥行き推定値をレンジ変換する。 ufront二 df— ufront * h— supp—lev /
Figure imgf000029_0001
for n_dv_max > h一 supp—lev urear = df_urear * h_supp_lev / h—dv—max for h—dv—max > h— supp— lev ■· · (21)
ここで、 df ufront, df urear はそれぞれ仮の差分位相の最大値と最小値を 表し、 差分位相に対する隣接領域間の最大位相差を算出する段階で取得するもの とする。 そして、 このようにして新たに求められたレンジ内に差分位相が収まる ようにする。 なお、 上記式 (2 1 ) の ufrontと urear に対し、 次式 (2 2 ) で 表される距離比維持の処理を行っても何等問題はなレ、。
(255 - Dlev): Dlev = flev(ufront) - Dlev}: fDlev - lev (urear)} · · - (22)
第 2の中断は、 ステップ 6 5において、 ステップ 6 2〜ステップ 7 1のループ 処理が行なわれた場合に前回のステップ 6 4で算出された位相差の最大値 h 一 d V— max [pixel] 力 今回のステップ 6 4で算出された位相差の最大値 h—dv— max [pixel] より小さい場合に発生する。
この中断が起こるのは、 現ループでの隣接領域間の位相差の最大値 h _dv__m ax 、 ダイナミックレンジを十分小さくしたにも関わらず、 1つ前のループで 得た際の値より小さくならない場合である。 これは、 歪み抑圧処理により MT D 法によって生成される位相が変更されないことにより起こる。 すなわち、 図 2 0 に示すように、 MT D法によって生成される被写体と背景の位相の差が大きい場 合は、 ループ数を増やしても MT D位相の位相差が邪魔をしダイナミックレンジ が小さくならず、 結果として差分位相が、 h— supp— lev 以下にはならない。 このような場合は、 処理を中断し、 ステップ 7 3と同様な処理によって、 ダイ ナミックレンジ変更を行う (ステップ 7 4 ) 。 ただし、 この場合には、 ステップ 6 8で退避された仮の退避差分位相に対しダイナミックレンジ変更を行う。 ここ で仮の退避差分位相に対してダイナミックレンジを変更しているのは、 歪み抑圧 のループを重ねるごとに MT D法の位相が差分位相の形状に影響を及ぼしかつ差 分位相のダイナミックレンジが減少する傾向を緩和するためである。
しかし、 このような手法はあくまで対症療法であり、 根本的に MT D法の位相 によって引き起こされる強制歪み抑圧処理の発生頻度を下げるまでには至らなレヽ。
このような現象の発生頻度を下げるためには、 MT D位相自体の隣接領域間の 位相差を小さくする必要がある。 このため、 統合位相制御では、 各領域の MT D 位相 ph— ratdjとして、 本来その領域が持つ視差量 (二フィールド遅延量 Xその 領域の水平方向動きべクトル値) を隣接領域間と平滑化した後の値を用いている。 また、 強制歪み抑圧処理の発生頻度を下げるためには、 MT D法と C I D法の 位相の形状を似せる必要がある。 このため、 統合位相では図 1 6に示すように、 MT D位相が大きくなる領域では C I D位相も大きくなるように被写体背景判別 の結果を考慮して奥行き推定を行っている。
図 1 9のステップ 6 9のダイナミックレンジの逐次探索処理について説明する。 ①差分位相の隣接領域間の位相差が最大となる領域を決定する。
②探索の方向を決定する。 具体的には、 ①で決定した位相差が互いに最大とな る 2領域の C I D位相の値に応じて探索の方向を決定する。
③ ufront値ないし urear値を管面の値に近づける。
④上記 2領域に対して、 更新後の ufront値および urear値で規定されるダイ ナミックレンジを用いた距離スケール変換を行なって、 上記 2領域の C I D位相 を算出する。
⑤ 2領域の差分位相 (=C I D位相一 MT D位相) を算出する。
⑥両領域間の差分位相の位相差 h 一 dv— max を算出する。
⑦⑥で求めた位相差 h 一 dv— max を下記の順で判定する。
1) . h— dv— max が h— supp— lev以下の場合は、 処理を終了する。
2) . h— dv— max が 1つ前のループの h— dv— max より大きくなる場合は、 求める値を 1つ前のループで使用した ufront値ないし urear値として、 処理を 終了する。
3) . h— dv— max が h— su卯— lev より大きい場合は、 ③に飛ぶ。
次に、 視差量監視手段 1 1 2によって行なわれる、 MT D法によって生成され る視差 (位相) の制御方法について説明する。
C I D法の立体再現性を保った統合位相制御では、 MT D法では被写体位置制 御を用いていない。 このため、 MT D法によって生成される位相はユーザが予め 定めた最大飛び出し位相量 Ufront Cpixel] と最大奥まり位相量 Urear [pixel]を 越えることがある。 このような現象が起きる場合の位相の振る舞いを図 2 1に示 す。 図中の右端の O Kマークは、 MT D位相と差分位相との和である統合位相が、 ユーザによって予め定められたダイナミックレンジ Urange内であることを表し、 N Gマークは統合位相がダイナミックレンジ Urangeを越えることを表す。
N Gのケースでは、 以下に示す問題が発生する。
Urear が眼間と同程度である場合、 距離スケールでは眼間以上の奥行きが規定 できない。 また、 N Gの現象が歪み抑圧処理後も維持する場合は、 統合位相はそ の大前提である Urange内の立体再現の原則が守られない。
このような問題を解決するため、 MT D法によって生成する立体感を決定する 視差量 Mdly— sisaを予め小さく設定し、 N Gの現象が起こらないようにするこ とも可能であるが、 この方法は MT D法による立体感を損なうため好ましいとは 言い難い。 そこで、 Mdly— sisaを大きく取る代償として N Gの現象の発生をあ る程度認め、 Ufront、 Urear を越える位相が発生した場合にのみ目標遅延量 dly —targetを小さくするという制御が必要となる (図 2 2参照) 。
なお、 この方法で Urange内に位相を抑えるためには、 最初からュ一ザ設定値 の Ufront、 Urear の代わりに、 MT D併用時に発生する Urangeのオーバー分を 見込んで、 各々の値より絶対値が小さくなるような値を内部的な Ufrontと Urea r として処理する必要がある。 また、 視差量変換テーブルを用いて距離スケール 変換を行う手法では、 変換テーブル外となる位相量に対しては変換テーブルに収 まるよう丸める必要がある。
図 2 3は、 図 2 2の処理を実現する制御処理手順 (視差量監視手段 1 1 2によ つて行なわれる制御処理手順) を示している。
図 2 3では、 各領域の統合位相 (実位相と実遅延量による位相との和) が Ufr ont、 Urear を越える場合に目標遅延量を小さくする。
このため、 毎フィールド被写体領域及び背景領域それぞれの MT D法による位 相量を算出する必要がある (ステップ 8 1 ) 。 現フィールドの位相量の算出には、 精度を高めるため実位相 phase [pixel]及ぴ実遅延量 delay [field] を用いて行 う。
実際の制御では、 まず、 MT D法のフィールド遅延によって生じる被写体領域 の実視差 obj _s isa' [pixe] 及び背景領域の実視差 bg— sisa' [pixel]、 いずれ の領域に属するか不明の N G領域の実視差 ng— si sa' [piexel ] を、 次式 (2 3 ) で求める。 obj— sisa' = obj— vect * delay
bg—sisa ' - bg_vect * delay ■■■ (23)
ng—sisa ' = ( obj一 sisa ' + bg—sisa ' )/ 2
次式 (2 4 ) に示すように、 これらと各領域の真の目標位相量を時間的に平滑 化した実位相量 rph — diffj [pixel]を加算することによって、 各領域の実統合 位相量 u jahasej [pixel]を求める (ステップ 8 2 ) 。 u _phasej = obj_sisa' + ph_dijfj for 被 体部の領域
u ^phasej = bg_sisa' + ph_diffj for 背景部の領域 (24) u _phasej = ng_sisa' + ph_diffj for NGの領域
そして、 この実統合位相量 u _phase がユーザの設定した Ufrontから Urear の範囲に入る力否かを計るため、 範囲外の場合はその領域の位相がユーザ設定か らどのくらい離れているかを表す位相量 over__phase [pixel]を次式 (2 5 ) に より求める (ステップ 8 3 ) 。 over _phasei = u _phasej - U front for u _phasej > Ufront
over _j>nasej = ~ (u _j?hasej - Urear) for Urear > u _phasej
… (25) over ^phasej = 0 for Ufront ≥ u _phasej≥ Urear 次に 1画面を構成する各領域の over— phase の最大値 over— maxp [pixel] を 求め、 over_maxpが 0でない場合は、 目標遅延量を小さくする目標遅延量抑圧 処理を行う (ステップ 8 4 ) 。
目標遅延量抑圧処理では、 まずフィ一ルド遅延によって発生する現フィールド の実視差量 dly — sisa' [pixel]の絶対値から上記式 (2 5 ) で求めた over— max pを引き、 M T D法が生成可能な視差量 dly —sisa" を次式 (2 6 ) により求め る。 dly一 sisa " = I diy_sisa ' I - over一 maxp
= I obj一 sisa' - bg sisa' I - over一 maxp
そして、 この dly —si sa" を基に抑圧した目標遅延量 dly _tartget'を次式 ( 2 7 ) により求める。 dly_target ' = dly_sisa " / ( obj_xvec - bg_xvec) [field] … (27)
実遅延量の推移速度が実遅延量と目標遅延量との差に応じて変化する手法に備 え、 dly —target' と抑圧前の目標遅延量 dly —targetの大きさを比較し、 よ り小さい方を最終的な抑圧後の目標遅延量 dly 一 target" とする。 つまり、 最 終的な抑圧後の目標遅延量 dly —targe は、 次式 (2 8 ) で表される。 dly— target" = delay - 1 for 0 < delayぐ dly— target'
dly_target" = delay + 1 for 0 > delay > dly一 tar get' … (28) dly—target" = dly— target' for \ delay ] > I dly Jar get' \
ここでは、 実遅延量と実視差により MT D法の位相の抑圧を行ったが、 精度よ り C P Uへの負荷を優先させる場合は、 目標位相、 目標遅延量により行うことも 可能である。

Claims

請 求 の 範 囲
1 . 映像信号源から入力された 2次元映像信号をフィールド毎に記憶するフィ 一ノレドメモリ、
入力映像信号のフィールド間の動きに応じた動きベク トルを、 入力映像の各領 域毎に検出する動きべク トル検出手段、
フィーノレドメモリに格納された映像信号のうち力ゝら、 入力映像信号に対して、 動きべク トル検出手段によって検出された各領域の動きべク トルから求められた 遅延量だけ遅延した映像信号をフィールドメモリから読み出す読み出し手段、 動きべク トル検出手段で検出された各領域の動きべク トルの水平成分の方向に 基づいて、 入力映像信号とフィールドメモリから読み出された映像信号とのうち、 一方の映像信号を左目映像信号として、 他方の映像信号を右目映像信号として出 力する切替手段、
入力映像信号から映像特徴量を、 入力映像の各領域毎に抽出する特徴量抽出手 段、
特徴量抽出手段で抽出された各領域毎の画像特徴量に基づいて、 入力映像の各 領域毎に奥行き量を算出し、 算出した各領域毎の奥行き量から各領域毎の視差量 を算出する視差量算出手段、
視差量算出手段で算出された各領域毎の視差量を動きべクトル検出手段で検出 された各領域毎の動きベク トルの大きさに応じて修正する視差量修正手段、 なら びに
視差量修正手段で修正された各領域の視差量に基づいて、 切替手段で出力され た右目用映像及ぴ左目用映像の各領域の位相を修正して、 立体映像信号として出 力する位相制御手段、
を備えていることを特徴とする 2次元映像を 3次元映像に変換する装置。
2 . 視差量修正手段は、
視差量算出手段によつて算出された各領域毎の視差量から、 対応する領域の動 きべクトルの大きさに応じた視差量を減算した差分視差量を各領域毎に算出する 手段、 および
隣接領域間の差分視差量の差の最大値が所定範囲内となるように、 ダイナミッ クレンジを変更して各領域毎の差分視差量を算出する手段、
を備えていることを特徴とする請求項 1に記載の 2次元映像を 3次元映像に変 換する装置。
3 . 視差量修正手段によって得られた各領域毎の差分視差量と対応する領域の 動きべクトルの大きさに応じた視差量との和が所定範囲を越える場合には、 その 余剰視差量に応じた量だけ、 遅延量を減少させる手段を備えていることを特徴と する請求項 2に記載の 2次元映像を 3次元映像に変換する装置。
4 . 映像信号源から入力された 2次元映像信号をフィールド毎にフィールドメ モリに記憶させる第 1ステップ、
入力映像信号のフィールド間の動きに応じた動きべクトノレを、 入力映像の各領 域毎に検出する第 2ステップ、
フィールドメモリに格納された映像信号のうちから、 入力映像信号に対して、 第 2ステップによって検出された各領域の動きべクトルから求められた遅延量だ け遅延した映像信号をフィールドメモリから読み出す第 3ステツプ、
第 2ステツプで検出された各領域の動きべクトルの水平成分の方向に基づいて、 入力映像信号とフィールドメモリから読み出された映像信号とのうち、 一方の映 像信号を左目映像信号として、 他方の映像信号を右目映像信号として出力する第 4ステップ、
入力映像信号から映像特徴量を、 入力映像の各領域毎に抽出する第 5ステップ、 第 5ステップで抽出された各領域毎の画像特徴量に基づいて、 入力映像の各領 域毎に奥行き量を算出し、 算出した各領域毎の奥行き量から各領域毎の視差量を 算出する第 6ステップ、
第 6ステップで算出された各領域毎の視差量を第 2ステップで検出された各領 域毎の動きべクトルの大きさに応じて修正する第 7ステップ、 ならびに 第 7ステツプで修正された各領域の視差量に基づレ、て、 第 4ステツプで出力さ れた右目用映像及び左目用映像の各領域の位相を修正して、 立体映像信号として 出力する第 8ステップ、
を備えていることを特徴とする 2次元映像を 3次元映像に変換する方法。
5 . 第 7ステップは、
第 6ステップによって算出された各領域毎の視差量から、 対応する領域の動き べクトルの大きさに応じた視差量を減算した差分視差量を各領域毎に算出するス テツプ、 および
隣接領域間の差分視差量の差の最大値が所定範囲内となるように、 ダイナミッ クレンジを変更して各領域毎の差分視差量を算出するステップ、
を備えていることを特徴とする請求項 5に記載の 2次元映像を 3次元映像に変 換する方法。
6 . 第 7ステップによって得られた各領域毎の差分視差量と対応する領域の動 きべクトルの大きさに応じた視差量との和が所定範囲を越える場合には、 その余 剰視差量に応じた量だけ、 遅延量を減少させるステップを備えていることを特徴 とする請求項 5に記載の 2次元映像を 3次元映像に変換する方法。
7 . 2次元映像信号に基づいて、 1画面内に設定された複数の視差算出領域そ れぞれに対して映像の遠近に関する画像特徴量を抽出し、 抽出した画像特徴量に 基づいて、 各視差算出領域毎の奥行き推定値を生成する第 1ステップ、
各奥行き推定値に対して、 所定の最大飛び出し量と所定の最大奥行き量とによ つて規定されるダイナミックレンジを用いた距離スケール変換を施すことにより、 各視差算出領域毎に仮の目標位相量を求める第 2ステップ、
各視差算出領域毎の仮の目標位相量に基づいて、 隣接する視差算出領域間での 位相差の最大値を求める第 3ステップ、
隣接する視差算出領域間での位相差の最大値が予め定められた歪み許容範囲内 である力否かを判定する第 4ステップ、
隣接する視差算出領域間での位相差の最大値が予め定められた歪み許容範囲外 である場合には、 上記視差算出領域間での位相差が歪み許容範囲内となるような ダイナミックレンジを探索し、 各奥行き推定値に対して、 探索したダイナミック レンジを用いた距離スケール変換を施し、 各視差算出領域毎に仮の目標位相量を 求めた後、 第 3ステップに移行する第 5ステップ、
を備えている 2次元映像を 3次元映像に変換する方法。
8 . 上記第 5ステップにおいて、 探索したダイナミックレンジによって規定さ れる最大飛び出し量と最大奥行き量との比が、 予め定められた比となるように、 ダイナミックレンジを補正した後、 補正後のダイナミックレンジを用いた距離ス ケール変換を各奥行き推定値に施すようにしたことを特徴とする請求項 7に記載 の 2次元映像を 3次元映像に変換する方法。
PCT/JP2000/008315 1999-11-26 2000-11-24 Device and method for converting two-dimensional video to three-dimensional video WO2001039512A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP00977933A EP1235438B1 (en) 1999-11-26 2000-11-24 Method for converting two-dimensional video to three-dimensional video
US10/130,427 US7161614B1 (en) 1999-11-26 2000-11-24 Device and method for converting two-dimensional video to three-dimensional video
DE60014420T DE60014420T2 (de) 1999-11-26 2000-11-24 Verfahren zur 2d/3d videoumwandlung
AT00977933T ATE278298T1 (de) 1999-11-26 2000-11-24 Verfahren zur 2d/3d videoumwandlung

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP33682499 1999-11-26
JP11/336824 1999-11-26
JP2000-58047 2000-03-02
JP2000058047 2000-03-02
JP2000109211A JP2001320731A (ja) 1999-11-26 2000-04-11 2次元映像を3次元映像に変換する装置及びその方法
JP2000-109210 2000-04-11
JP2000-109211 2000-04-11
JP2000109210A JP4036599B2 (ja) 2000-04-11 2000-04-11 2次元映像を3次元映像に変換する方法

Publications (1)

Publication Number Publication Date
WO2001039512A1 true WO2001039512A1 (en) 2001-05-31

Family

ID=27480553

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/008315 WO2001039512A1 (en) 1999-11-26 2000-11-24 Device and method for converting two-dimensional video to three-dimensional video

Country Status (6)

Country Link
US (1) US7161614B1 (ja)
EP (1) EP1235438B1 (ja)
AT (1) ATE278298T1 (ja)
DE (1) DE60014420T2 (ja)
TW (1) TW521519B (ja)
WO (1) WO2001039512A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1489857A1 (en) * 2002-03-27 2004-12-22 Sanyo Electric Co., Ltd. 3-dimensional image processing method and device
CN101815225A (zh) * 2009-02-25 2010-08-25 三星电子株式会社 生成深度图的方法及其设备
US8131064B2 (en) 2002-03-27 2012-03-06 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
CN102427550A (zh) * 2011-12-09 2012-04-25 彩虹集团公司 一种实现2d转3d的方法

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003018619A (ja) * 2001-07-03 2003-01-17 Olympus Optical Co Ltd 立体映像評価装置およびそれを用いた表示装置
EP1370075B1 (en) * 2002-06-06 2012-10-03 Accenture Global Services Limited Dynamic replacement of the face of an actor in a video movie
CN1675937B (zh) 2002-08-20 2011-08-24 江良一成 生成立体图像的方法和装置
US20060103664A1 (en) * 2002-08-27 2006-05-18 Sharp Kabushiki Kaisha Contents reproduction device capable of reproducing a contents in optimal reproduction mode
EP1587329B1 (en) * 2003-01-20 2015-04-15 Sanyo Electric Co., Ltd. Three-dimensional video providing method and three-dimensional video display device
JP3700707B2 (ja) * 2003-03-13 2005-09-28 コニカミノルタホールディングス株式会社 計測システム
KR100505334B1 (ko) * 2003-03-28 2005-08-04 (주)플렛디스 운동 시차를 이용한 입체 영상 변환 장치
AU2004237705B2 (en) * 2003-05-02 2009-09-03 Yoostar Entertainment Group, Inc. Interactive system and method for video compositing
US8027531B2 (en) * 2004-07-21 2011-09-27 The Board Of Trustees Of The Leland Stanford Junior University Apparatus and method for capturing a scene using staggered triggering of dense camera arrays
KR100649523B1 (ko) * 2005-06-30 2006-11-27 삼성에스디아이 주식회사 입체 영상 표시 장치
US8330801B2 (en) * 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion
EP2289235A4 (en) 2008-05-20 2011-12-28 Pelican Imaging Corp RECORDING AND PROCESSING IMAGES BY MONOLITHIC CAMERA ARRANGEMENT WITH HETEROGENIC IMAGE TRANSFORMER
US11792538B2 (en) 2008-05-20 2023-10-17 Adeia Imaging Llc Capturing and processing of images including occlusions focused on an image sensor by a lens stack array
US8866920B2 (en) 2008-05-20 2014-10-21 Pelican Imaging Corporation Capturing and processing of images using monolithic camera array with heterogeneous imagers
JP5083052B2 (ja) * 2008-06-06 2012-11-28 ソニー株式会社 立体視画像生成装置、立体視画像生成方法およびプログラム
EP2292017A1 (en) * 2008-06-13 2011-03-09 Thomson Licensing System and method for marking a stereoscopic film
WO2010024479A1 (en) * 2008-08-26 2010-03-04 Enhanced Chip Technology Inc. Apparatus and method for converting 2d image signals into 3d image signals
WO2010025458A1 (en) * 2008-08-31 2010-03-04 Mitsubishi Digital Electronics America, Inc. Transforming 3d video content to match viewer position
CN101673395B (zh) * 2008-09-10 2012-09-05 华为终端有限公司 图像拼接方法及装置
US20110169824A1 (en) * 2008-09-29 2011-07-14 Nobutoshi Fujinami 3d image processing device and method for reducing noise in 3d image processing device
US8233664B2 (en) * 2008-11-12 2012-07-31 Eastman Kodak Company Determining relative depth of points in multiple videos
CN103607585A (zh) * 2009-01-21 2014-02-26 株式会社尼康 图像处理装置、图像处理方法
WO2010085549A1 (en) * 2009-01-21 2010-07-29 Vision Iii Imaging, Inc. System and method for three-dimensional visualization of geographical data
US9172940B2 (en) * 2009-02-05 2015-10-27 Bitanimate, Inc. Two-dimensional video to three-dimensional video conversion based on movement between video frames
CN101631256B (zh) * 2009-08-13 2011-02-09 浙江大学 用于三维电视系统中2d视频到3d视频的转换方法
JP2011101230A (ja) * 2009-11-06 2011-05-19 Sony Corp 表示制御装置、表示制御方法、プログラム、出力装置、および送信装置
WO2011063347A2 (en) 2009-11-20 2011-05-26 Pelican Imaging Corporation Capturing and processing of images using monolithic camera array with heterogeneous imagers
US9398289B2 (en) * 2010-02-09 2016-07-19 Samsung Electronics Co., Ltd. Method and apparatus for converting an overlay area into a 3D image
WO2011115142A1 (ja) * 2010-03-19 2011-09-22 Okiセミコンダクタ株式会社 画像処理装置、方法、プログラム及び記録媒体
US8928793B2 (en) 2010-05-12 2015-01-06 Pelican Imaging Corporation Imager array interfaces
US8421847B2 (en) * 2010-05-21 2013-04-16 Mediatek Inc. Apparatus and method for converting two-dimensional video frames to stereoscopic video frames
JP5530322B2 (ja) * 2010-09-22 2014-06-25 オリンパスイメージング株式会社 表示装置および表示方法
US8878950B2 (en) 2010-12-14 2014-11-04 Pelican Imaging Corporation Systems and methods for synthesizing high resolution images using super-resolution processes
TWI454130B (zh) * 2010-12-28 2014-09-21 Himax Media Solutions Inc 二維轉三維的顏色補償系統及其方法
WO2012104759A1 (en) 2011-02-04 2012-08-09 Koninklijke Philips Electronics N.V. Method of recording an image and obtaining 3d information from the image, camera system
US9300947B2 (en) * 2011-03-24 2016-03-29 Kodak Alaris Inc. Producing 3D images from captured 2D video
WO2012155119A1 (en) 2011-05-11 2012-11-15 Pelican Imaging Corporation Systems and methods for transmitting and receiving array camera image data
EP2525581A3 (en) * 2011-05-17 2013-10-23 Samsung Electronics Co., Ltd. Apparatus and Method for Converting 2D Content into 3D Content, and Computer-Readable Storage Medium Thereof
TR201104918A2 (tr) 2011-05-20 2012-12-21 Vestel Elektroni̇k Sanayi̇ Ve Ti̇caret A.Ş. Derinlik haritası ve 3d video oluşturmak için yöntem ve aygıt.
US20130265459A1 (en) 2011-06-28 2013-10-10 Pelican Imaging Corporation Optical arrangements for use with an array camera
KR101888672B1 (ko) * 2011-07-27 2018-08-16 엘지디스플레이 주식회사 입체영상 표시장치와 그 구동방법
JP5095850B1 (ja) * 2011-08-31 2012-12-12 株式会社東芝 オブジェクト探索装置、映像表示装置およびオブジェクト探索方法
WO2013043761A1 (en) 2011-09-19 2013-03-28 Pelican Imaging Corporation Determining depth from multiple views of a scene that include aliasing using hypothesized fusion
KR102002165B1 (ko) 2011-09-28 2019-07-25 포토내이션 리미티드 라이트 필드 이미지 파일의 인코딩 및 디코딩을 위한 시스템 및 방법
IN2014CN03412A (ja) 2011-11-01 2015-10-09 Koninkl Philips Nv
JP5303692B1 (ja) * 2011-11-28 2013-10-02 パナソニック株式会社 立体画像処理装置及び立体画像処理方法
TWI483612B (zh) * 2011-12-22 2015-05-01 Nat Univ Chung Cheng Converting the video plane is a perspective view of the video system
DE102012100848B4 (de) 2012-02-01 2019-05-29 Hans Pfriem System und Verfahren zur stereoskopischen Darstellung von Aufnahmen eines Endoskops
US9412206B2 (en) 2012-02-21 2016-08-09 Pelican Imaging Corporation Systems and methods for the manipulation of captured light field image data
US9210392B2 (en) 2012-05-01 2015-12-08 Pelican Imaging Coporation Camera modules patterned with pi filter groups
CN104508681B (zh) 2012-06-28 2018-10-30 Fotonation开曼有限公司 用于检测有缺陷的相机阵列、光学器件阵列和传感器的系统及方法
US20140002674A1 (en) 2012-06-30 2014-01-02 Pelican Imaging Corporation Systems and Methods for Manufacturing Camera Modules Using Active Alignment of Lens Stack Arrays and Sensors
CN104662589B (zh) 2012-08-21 2017-08-04 派力肯影像公司 用于使用阵列照相机捕捉的图像中的视差检测和校正的系统和方法
EP2888698A4 (en) 2012-08-23 2016-06-29 Pelican Imaging Corp PROPERTY-BASED HIGH-RESOLUTION MOTION ESTIMATION FROM LOW-RESOLUTION IMAGES RECORDED WITH AN ARRAY SOURCE
WO2014043641A1 (en) 2012-09-14 2014-03-20 Pelican Imaging Corporation Systems and methods for correcting user identified artifacts in light field images
US9250653B2 (en) 2012-09-28 2016-02-02 City University Of Hong Kong Capturing, processing, and reconstructing audio and video content of mobile devices
WO2014052974A2 (en) 2012-09-28 2014-04-03 Pelican Imaging Corporation Generating images from light fields utilizing virtual viewpoints
WO2014078443A1 (en) 2012-11-13 2014-05-22 Pelican Imaging Corporation Systems and methods for array camera focal plane control
WO2014130849A1 (en) 2013-02-21 2014-08-28 Pelican Imaging Corporation Generating compressed light field representation data
US9374512B2 (en) 2013-02-24 2016-06-21 Pelican Imaging Corporation Thin form factor computational array cameras and modular array cameras
WO2014138695A1 (en) 2013-03-08 2014-09-12 Pelican Imaging Corporation Systems and methods for measuring scene information while capturing images using array cameras
US8866912B2 (en) 2013-03-10 2014-10-21 Pelican Imaging Corporation System and methods for calibration of an array camera using a single captured image
US9521416B1 (en) 2013-03-11 2016-12-13 Kip Peli P1 Lp Systems and methods for image data compression
US9106784B2 (en) 2013-03-13 2015-08-11 Pelican Imaging Corporation Systems and methods for controlling aliasing in images captured by an array camera for use in super-resolution processing
WO2014164550A2 (en) 2013-03-13 2014-10-09 Pelican Imaging Corporation System and methods for calibration of an array camera
US9888194B2 (en) 2013-03-13 2018-02-06 Fotonation Cayman Limited Array camera architecture implementing quantum film image sensors
US9519972B2 (en) 2013-03-13 2016-12-13 Kip Peli P1 Lp Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
US9578259B2 (en) 2013-03-14 2017-02-21 Fotonation Cayman Limited Systems and methods for reducing motion blur in images or video in ultra low light with array cameras
US9100586B2 (en) 2013-03-14 2015-08-04 Pelican Imaging Corporation Systems and methods for photometric normalization in array cameras
WO2014150856A1 (en) 2013-03-15 2014-09-25 Pelican Imaging Corporation Array camera implementing quantum dot color filters
EP2973476A4 (en) 2013-03-15 2017-01-18 Pelican Imaging Corporation Systems and methods for stereo imaging with camera arrays
US10122993B2 (en) 2013-03-15 2018-11-06 Fotonation Limited Autofocus system for a conventional camera that uses depth information from an array camera
US9445003B1 (en) 2013-03-15 2016-09-13 Pelican Imaging Corporation Systems and methods for synthesizing high resolution images using image deconvolution based on motion and depth information
US9633442B2 (en) 2013-03-15 2017-04-25 Fotonation Cayman Limited Array cameras including an array camera module augmented with a separate camera
US9497429B2 (en) 2013-03-15 2016-11-15 Pelican Imaging Corporation Extended color processing on pelican array cameras
CA2909245C (en) * 2013-04-09 2018-02-27 Bitanimate, Inc. Two-dimensional video to three-dimensional video conversion method and system
WO2015048694A2 (en) 2013-09-27 2015-04-02 Pelican Imaging Corporation Systems and methods for depth-assisted perspective distortion correction
US9967546B2 (en) 2013-10-29 2018-05-08 Vefxi Corporation Method and apparatus for converting 2D-images and videos to 3D for consumer, commercial and professional applications
US20150116458A1 (en) 2013-10-30 2015-04-30 Barkatech Consulting, LLC Method and apparatus for generating enhanced 3d-effects for real-time and offline appplications
EP3066690A4 (en) 2013-11-07 2017-04-05 Pelican Imaging Corporation Methods of manufacturing array camera modules incorporating independently aligned lens stacks
US10119808B2 (en) 2013-11-18 2018-11-06 Fotonation Limited Systems and methods for estimating depth from projected texture using camera arrays
WO2015081279A1 (en) 2013-11-26 2015-06-04 Pelican Imaging Corporation Array camera configurations incorporating multiple constituent array cameras
WO2015134996A1 (en) 2014-03-07 2015-09-11 Pelican Imaging Corporation System and methods for depth regularization and semiautomatic interactive matting using rgb-d images
CN103824303A (zh) * 2014-03-14 2014-05-28 格科微电子(上海)有限公司 基于被摄物的位置、方向调整图像透视畸变的方法和装置
US9247117B2 (en) 2014-04-07 2016-01-26 Pelican Imaging Corporation Systems and methods for correcting for warpage of a sensor array in an array camera module by introducing warpage into a focal plane of a lens stack array
WO2015191767A1 (en) * 2014-06-10 2015-12-17 Bitanimate, Inc. Stereoscopic depth adjustment and focus point adjustment
US9591290B2 (en) * 2014-06-10 2017-03-07 Bitanimate, Inc. Stereoscopic video generation
US9693042B2 (en) 2014-06-10 2017-06-27 Bitanimate, Inc. Foreground and background detection in a video
US9661309B2 (en) * 2014-06-10 2017-05-23 Bitanimate, Inc. Stereoscopic video zooming
WO2015191768A1 (en) * 2014-06-10 2015-12-17 Bitanimate, Inc Stereoscopic video zooming and foreground and background detection in a video
AU2014397095B2 (en) * 2014-06-12 2018-07-05 Eizo Corporation Haze removal device and image generation method
US9521319B2 (en) 2014-06-18 2016-12-13 Pelican Imaging Corporation Array cameras and array camera modules including spectral filters disposed outside of a constituent image sensor
US10158847B2 (en) 2014-06-19 2018-12-18 Vefxi Corporation Real—time stereo 3D and autostereoscopic 3D video and image editing
EP3201877B1 (en) 2014-09-29 2018-12-19 Fotonation Cayman Limited Systems and methods for dynamic calibration of array cameras
US9942474B2 (en) 2015-04-17 2018-04-10 Fotonation Cayman Limited Systems and methods for performing high speed video capture and depth estimation using array cameras
DE102015112411A1 (de) 2015-07-29 2017-02-02 Universal Consulting GmbH System zur stereoskopischen Darstellung von Aufnahmen eines Endoskops
US10277879B2 (en) 2015-11-13 2019-04-30 Vefxi Corporation 3D system including rendering with eye displacement
US10242448B2 (en) 2015-11-13 2019-03-26 Vefxi Corporation 3D system including queue management
US10277880B2 (en) 2015-11-13 2019-04-30 Vefxi Corporation 3D system including rendering with variable displacement
US10148933B2 (en) 2015-11-13 2018-12-04 Vefxi Corporation 3D system including rendering with shifted compensation
US10284837B2 (en) 2015-11-13 2019-05-07 Vefxi Corporation 3D system including lens modeling
US10121280B2 (en) 2015-11-13 2018-11-06 Vefxi Corporation 3D system including rendering with three dimensional transformation
WO2017083509A1 (en) * 2015-11-13 2017-05-18 Craig Peterson Three dimensional system
US10277877B2 (en) 2015-11-13 2019-04-30 Vefxi Corporation 3D system including a neural network
US10148932B2 (en) 2015-11-13 2018-12-04 Vefxi Corporation 3D system including object separation
US20170140571A1 (en) * 2015-11-13 2017-05-18 Craig Peterson 3d system including rendering with curved display
US10122987B2 (en) 2015-11-13 2018-11-06 Vefxi Corporation 3D system including additional 2D to 3D conversion
US10225542B2 (en) 2015-11-13 2019-03-05 Vefxi Corporation 3D system including rendering with angular compensation
US10154244B2 (en) 2016-02-18 2018-12-11 Vefxi Corporation 3D system including a marker mode
US10482618B2 (en) 2017-08-21 2019-11-19 Fotonation Limited Systems and methods for hybrid depth regularization
CN110673114B (zh) * 2019-08-27 2023-04-18 三赢科技(深圳)有限公司 校准三维相机深度的方法、装置、计算机装置及存储介质
WO2021055585A1 (en) 2019-09-17 2021-03-25 Boston Polarimetrics, Inc. Systems and methods for surface modeling using polarization cues
MX2022004163A (es) 2019-10-07 2022-07-19 Boston Polarimetrics Inc Sistemas y metodos para la deteccion de estandares de superficie con polarizacion.
MX2022005289A (es) 2019-11-30 2022-08-08 Boston Polarimetrics Inc Sistemas y metodos para segmentacion de objetos transparentes usando se?ales de polarizacion.
WO2021154386A1 (en) 2020-01-29 2021-08-05 Boston Polarimetrics, Inc. Systems and methods for characterizing object pose detection and measurement systems
US11797863B2 (en) 2020-01-30 2023-10-24 Intrinsic Innovation Llc Systems and methods for synthesizing data for training statistical models on different imaging modalities including polarized images
WO2021243088A1 (en) 2020-05-27 2021-12-02 Boston Polarimetrics, Inc. Multi-aperture polarization optical systems using beam splitters
US11290658B1 (en) 2021-04-15 2022-03-29 Boston Polarimetrics, Inc. Systems and methods for camera exposure control
US11954886B2 (en) 2021-04-15 2024-04-09 Intrinsic Innovation Llc Systems and methods for six-degree of freedom pose estimation of deformable objects
US11689813B2 (en) 2021-07-01 2023-06-27 Intrinsic Innovation Llc Systems and methods for high dynamic range imaging using crossed polarizers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1198527A (ja) * 1997-09-18 1999-04-09 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置および方法
JPH1198530A (ja) * 1997-09-22 1999-04-09 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100358021B1 (ko) 1994-02-01 2003-01-24 산요 덴키 가부시키가이샤 2차원영상을3차원영상으로변환시키는방법및입체영상표시시스템
JP3214688B2 (ja) * 1994-02-01 2001-10-02 三洋電機株式会社 2次元映像を3次元映像に変換する方法及び3次元映像信号生成装置
JP2846830B2 (ja) * 1994-11-22 1999-01-13 三洋電機株式会社 2次元映像を3次元映像に変換する方法
AUPO894497A0 (en) * 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1198527A (ja) * 1997-09-18 1999-04-09 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置および方法
JPH1198530A (ja) * 1997-09-22 1999-04-09 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369607B2 (en) 2002-03-27 2013-02-05 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8472702B2 (en) 2002-03-27 2013-06-25 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8879824B2 (en) 2002-03-27 2014-11-04 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8131064B2 (en) 2002-03-27 2012-03-06 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8724886B2 (en) 2002-03-27 2014-05-13 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8254668B2 (en) 2002-03-27 2012-08-28 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
EP1489857A4 (en) * 2002-03-27 2007-07-25 Sanyo Electric Co THREE-DIMENSIONAL IMAGE PROCESSING METHOD AND DEVICE
EP1489857A1 (en) * 2002-03-27 2004-12-22 Sanyo Electric Co., Ltd. 3-dimensional image processing method and device
US8577127B2 (en) 2002-03-27 2013-11-05 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8559703B2 (en) 2002-03-27 2013-10-15 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8417024B2 (en) 2002-03-27 2013-04-09 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8577128B2 (en) 2002-03-27 2013-11-05 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
CN101815225A (zh) * 2009-02-25 2010-08-25 三星电子株式会社 生成深度图的方法及其设备
CN102427550A (zh) * 2011-12-09 2012-04-25 彩虹集团公司 一种实现2d转3d的方法

Also Published As

Publication number Publication date
EP1235438A4 (en) 2003-03-05
EP1235438B1 (en) 2004-09-29
ATE278298T1 (de) 2004-10-15
TW521519B (en) 2003-02-21
DE60014420T2 (de) 2005-10-13
DE60014420D1 (de) 2004-11-04
US7161614B1 (en) 2007-01-09
EP1235438A1 (en) 2002-08-28

Similar Documents

Publication Publication Date Title
WO2001039512A1 (en) Device and method for converting two-dimensional video to three-dimensional video
JP2001320731A (ja) 2次元映像を3次元映像に変換する装置及びその方法
KR100445619B1 (ko) 2차원 영상을 3차원 영상으로 변환하는 장치 및 방법
US6466255B1 (en) Stereoscopic video display method and apparatus, stereoscopic video system, and stereoscopic video forming method
US8472704B2 (en) Image processing apparatus and image processing method
KR100414629B1 (ko) 3차원표시화상생성방법,깊이정보를이용한화상처리방법,깊이정보생성방법
US8687041B2 (en) Stereoscopic panorama image creating apparatus, stereoscopic panorama image creating method, stereoscopic panorama image reproducing apparatus, stereoscopic panorama image reproducing method, and recording medium
KR101856805B1 (ko) 화상 처리 장치 및 화상 처리 방법, 및 프로그램
US20130215107A1 (en) Image processing apparatus, image processing method, and program
JP2012257022A (ja) 画像処理装置および方法、並びにプログラム
JP2012138787A (ja) 画像処理装置、および画像処理方法、並びにプログラム
US20120026165A1 (en) Image Processing Apparatus and Method, and Program
KR20110071528A (ko) 스테레오 영상, 다시점 영상 및 깊이 영상 획득 카메라 장치 및 그 제어 방법
US20130293533A1 (en) Image processing apparatus and image processing method
JP5669599B2 (ja) 画像処理装置及びその制御方法
KR100924432B1 (ko) 다시점 영상의 인식 깊이감 조절 장치 및 방법
US9386291B2 (en) Video signal processing device
US9210396B2 (en) Stereoscopic image generation apparatus and stereoscopic image generation method
Kim et al. Stereoscopic conversion of monoscopic video by the transformation of vertical-to-horizontal disparity
JP3197801B2 (ja) 二次元表示画像生成方法
JP5127973B1 (ja) 映像処理装置、映像処理方法および映像表示装置
JP4036599B2 (ja) 2次元映像を3次元映像に変換する方法
JP3540626B2 (ja) 2次元映像を3次元映像に変換する装置および方法
KR101329069B1 (ko) 깊이 추정 데이터 생성 장치, 깊이 추정 데이터 생성 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 및, 의사 입체 화상 표시 장치
KR20140119999A (ko) 깊이값 조정을 통한 입체영상 제공 시스템 및 방법

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10130427

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2000977933

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2000977933

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2000977933

Country of ref document: EP