WO2013015217A1 - 立体画像処理装置および立体画像処理方法 - Google Patents

立体画像処理装置および立体画像処理方法 Download PDF

Info

Publication number
WO2013015217A1
WO2013015217A1 PCT/JP2012/068445 JP2012068445W WO2013015217A1 WO 2013015217 A1 WO2013015217 A1 WO 2013015217A1 JP 2012068445 W JP2012068445 W JP 2012068445W WO 2013015217 A1 WO2013015217 A1 WO 2013015217A1
Authority
WO
WIPO (PCT)
Prior art keywords
parallax
stereoscopic image
image
frame
distance
Prior art date
Application number
PCT/JP2012/068445
Other languages
English (en)
French (fr)
Inventor
永雄 服部
山本 健一郎
久雄 熊井
郁子 椿
幹生 瀬戸
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2013015217A1 publication Critical patent/WO2013015217A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/10Special adaptations of display systems for operation with variable images
    • G09G2320/103Detection of image changes, e.g. determination of an index representative of the image change
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/001Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes using specific devices not provided for in groups G09G3/02 - G09G3/36, e.g. using an intermediate record carrier such as a film slide; Projection systems; Display of non-alphanumerical information, solely or in combination with alphanumerical information, e.g. digital display on projected diapositive as background
    • G09G3/003Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes using specific devices not provided for in groups G09G3/02 - G09G3/36, e.g. using an intermediate record carrier such as a film slide; Projection systems; Display of non-alphanumerical information, solely or in combination with alphanumerical information, e.g. digital display on projected diapositive as background to produce spatial visual effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to a stereoscopic image processing apparatus and a stereoscopic image processing method.
  • This application claims priority based on Japanese Patent Application No. 2011-161576 filed in Japan on July 25, 2011, the contents of which are incorporated herein by reference.
  • a stereoscopic image display device that displays a right-eye image and a left-eye image on the right eye is prepared, and an image with parallax is provided as a right-eye image and a left-eye image. It is known that stereoscopic viewing is possible. Here, a plurality of images provided with parallax for the purpose of stereoscopic viewing are referred to as stereoscopic images.
  • the distance to the object is expressed as “depth”. If the shooting conditions of the camera are known, the parallax and the depth can be converted to each other.
  • a shift in the right direction parallax of the subject on the right eye image on the basis of the left eye image will be described as a positive parallax.
  • the parallax value is a positive value
  • the subject appears far away from the display screen.
  • the parallax value is 0, it appears to be at the same distance as the display screen.
  • the parallax value is a negative value, that is, when the subject on the right-eye image is shifted to the left with reference to the left-eye image, it appears in the foreground direction from the display screen.
  • the amount of parallax for example, the number of pixels in the image can be used.
  • the parallax value is too large in the positive direction, and the parallax value exceeds the distance between the eyes of the observer, more precisely the distance between the pupils when looking at infinity, it will not occur in nature. Even if stereoscopic viewing becomes impossible or stereoscopic viewing is possible, a heavy burden is imposed on the human body. On the other hand, if the parallax value is increased too much in the negative direction, extreme crossing will be forced on the observer, and comfortable stereoscopic viewing will not be possible. In any case, as the parallax value increases in the positive or negative direction, the difference between the convergence and the eye focus adjustment increases, resulting in an unnatural state.
  • stereoscopic viewing can be comfortably performed within a certain range of the parallax amount of the stereoscopic image.
  • the parallax amount increases, the images of both eyes are not fused, and stereoscopic viewing becomes difficult or impossible.
  • Patent Document 1 discloses a solution to this problem.
  • FIG. 17 illustrates the main part of Patent Document 1, which will be described below.
  • the parallax calculation unit 500 calculates a parallax map obtained by calculating parallax at each coordinate for the entire screen from the left and right eye images.
  • a correlation matching method for calculating a correlation between luminance patterns of the left and right images is used.
  • the gazing point calculation unit 501 calculates the maximum parallax value of the stereoscopic image, that is, the farthest view parallax value, and the parallax control unit 502 indicates the left and right shift amount on the display screen of the screen display unit 503, and the farthest view parallax value is Set so that the distance between the eyes of the observer is not exceeded.
  • the distance between eyes is about 65 mm for adults. Thereby, the line of sight of the observer does not spread more than parallel, and control can be performed so that the parallax of the images of both eyes is within the range where they are fused.
  • the gaze point calculation unit 501 calculates the minimum parallax value of the stereoscopic image, that is, the closest scene parallax value
  • the parallax control unit 502 calculates the right and left shift amount on the display screen of the screen display unit 503 as the nearest scene parallax.
  • a method is disclosed in which the value is set so as not to be less than or equal to a predetermined size ⁇ .
  • the observer's viewpoint is located very close, and it is possible to eliminate a large mismatch state between the focus information of the eyes from the 3D image display surface and the convergence angle of the line of sight.
  • the left and right images can be controlled so as to be easier. That is, by such processing, it is possible to present a stereoscopic image that is always easy for the viewer to see.
  • Patent Document 1 when performing such parallax control, when the change in parallax control amount is too fast in time and the display screen moves frequently, this signal is subjected to low-pass filtering processing, that is, A method of performing a low-pass filter process and controlling a display image using only slow movement is disclosed.
  • stereoscopic images can be viewed by broadcasting, package media such as DVD and BD, digital cameras and digital video cameras capable of shooting stereoscopic images, image files published on the Internet, etc. Most of them consist only of images that are a combination of a right-eye image and a left-eye image. There are almost no stereoscopic images to which information on parallax is added.
  • the parallax adjustment processing must be performed by calculating the parallax amount from the input stereoscopic image.
  • a calculation error occurs in the process of calculating the amount of parallax. If the parallax adjustment process is performed using the value including an error as it is, the parallax adjustment amount varies greatly from frame to frame, which makes it difficult to see.
  • the low-pass filter process described above can reduce the influence of such errors.
  • Patent Document 1 discloses a depth adjustment method by shifting left and right images. This principle will be described with reference to FIGS.
  • FIG. 18 shows a three-dimensional image composed of left and right images in which two objects of a circle and a triangle are shown.
  • FIG. 19 shows how the depth of each object is perceived when a human views this stereoscopic image using a stereoscopic image display device. Due to the positional relationship between the objects on the displayed left and right images, a triangular object is perceived in front of the stereoscopic image display device, and a round object is perceived in the back.
  • FIG. 21 shows the perception of the depth of each object by a stereoscopic image in which the left-eye image shown in FIG. 20 is shifted to the left and the right-eye image is shifted to the right.
  • FIG. 19 shows the perception of the depth of each object by a stereoscopic image in which the left-eye image shown in FIG. 22 is shifted to the right and the right-eye image is shifted to the left.
  • FIG. 19 shows the perception of the depth of each object by a stereoscopic image in which the left-eye image shown in FIG. 22 is shifted to the right and the right-eye image is shifted to the left.
  • FIG. 19 it can be seen that any object appears to move in the near-field direction.
  • Patent Document 2 a right-eye image and its depth information are input, the maximum value and the minimum value of the depth are obtained from the depth information, and the amount of change between frames of the average value of the maximum value and the minimum value of the depth A method for determining a scene change if the absolute value of is greater than or equal to a predetermined threshold is disclosed.
  • JP-A-7-167633 Japanese Patent Laid-Open No. 10-40420
  • a video work is usually composed by connecting multiple scenes.
  • the amount of parallax may change discontinuously.
  • the low-pass filter processing described in Patent Document 1 becomes a problem.
  • the low-pass filter processing described in Patent Document 1 removes a quick movement from the change in the amount of parallax, there is a problem in that the tracking of the parallax adjustment amount is delayed at the time of a scene change.
  • the scene change detection method described in Patent Document 2 uses a parallax amount. However, it is assumed that depth information is input from the outside, and a scene change is detected using the maximum value and the minimum value of the depth obtained from the depth information. Usually, since information about parallax is not added in advance to a stereoscopic image, the amount of parallax is calculated from the input stereoscopic image, and the farthest view parallax value is calculated therefrom, as in the method described in Patent Document 1 above. Recently, the scene parallax value must be detected. As described above, these amounts of parallax include errors.
  • a stereoscopic image processing apparatus inputs a stereoscopic image, calculates a multidimensional statistical amount related to parallax for each frame or field of the stereoscopic image, and a specific frame or A distance calculation unit that calculates the distance between the field and the multi-dimensional statistics related to the parallax of the frame or field adjacent to the field, and an output signal indicating that a scene change has occurred when the distance is equal to or greater than a threshold value A distance threshold value comparison unit.
  • an interval between the specific frame or field and a frame or field adjacent thereto may be one frame or field.
  • the specific frame or field and the interval between adjacent frames or fields may be two frames or fields.
  • the multidimensional statistic related to the parallax may be a parallax histogram.
  • the multi-dimensional statistic related to the parallax may be an average parallax amount for each region obtained by dividing an image into a plurality of regions.
  • the distance may be a square root of a sum of squares of differences for each element of the multidimensional statistics.
  • the distance may be a sum of absolute differences for each element of the multidimensional statistics.
  • the stereoscopic image processing apparatus receives a stereoscopic image and calculates a farthest view / most-view parallax amount calculation unit that calculates a most distant view parallax value and a closest view parallax value of the stereoscopic image, an output signal from the distance threshold comparison unit, and the A parallax adjustment amount calculation unit that calculates a parallax adjustment amount of the stereoscopic image based on a farthest-view parallax value and a closest-view parallax value, and a stereoscopic that has been subjected to parallax adjustment on the stereoscopic image based on the parallax adjustment amount You may have a parallax adjustment part which produces
  • a stereoscopic image processing method includes a step of inputting a stereoscopic image, calculating a multidimensional statistic relating to a parallax for each frame or field of the stereoscopic image, a specific frame or field, and Calculating a distance between the multi-dimensional statistics related to the parallax of a frame or field adjacent thereto, and outputting an output signal indicating that a scene change has occurred when the distance is equal to or greater than a threshold value.
  • the specific frame or field and the interval between adjacent frames or fields may be one frame or field.
  • the specific frame or field and the interval between adjacent frames or fields may be two frames or fields.
  • the multi-dimensional statistic related to the parallax may be a parallax histogram.
  • the multi-dimensional statistic regarding the parallax may be an average parallax amount for each region obtained by dividing an image into a plurality of regions.
  • the distance may be a square root of a sum of squared differences for each element of the multidimensional statistics.
  • the distance may be a sum of absolute differences for each element of the multidimensional statistics.
  • the stereoscopic image processing method includes the steps of inputting a stereoscopic image and calculating the farthest view parallax value and the most recent scene parallax value of the stereoscopic image, an output signal indicating that the scene change has occurred, the farthest view parallax value, and Calculating a parallax adjustment amount of the stereoscopic image based on a recent scene parallax value; and generating a stereoscopic image obtained by performing parallax adjustment on the stereoscopic image based on the parallax adjustment amount. May be.
  • the stereoscopic image processing apparatus realizes a scene change detection means that can detect a change in the parallax amount of the stereoscopic image and is not easily affected by an error in the parallax amount.
  • FIG. 19 is a diagram illustrating a stereoscopic image in which the left-eye image in FIG. 18 is shifted to the left and the right-eye image is shifted to the right. It is a figure explaining the depth perception by the three-dimensional image of FIG. It is the figure which shifted the image for left eyes of FIG. 18 to the right, and showed the stereo image which shifted the image for right eyes to the left. It is a figure explaining the depth perception by the three-dimensional image of FIG.
  • FIG. 1A shows a left-eye image (L) in which the horizontal resolution is halved to the normal half on the left half of one image, and the horizontal resolution to the normal half in the right half.
  • 3 is a stereoscopic image in a format storing a right-eye image (R) 2. It is called side-by-side format.
  • one image composed of the left-eye image (L) and the right-eye image (R) is one frame.
  • the frame rate is X frames / second
  • X images of the above format are required per second, that is, the same number as the frame rate.
  • FIG. 1B shows a left-eye image (L) in which the vertical resolution is halved in the upper half of one image, and the vertical resolution in the lower half of the normal 1 /. 3 is a stereoscopic image in a format storing a right-eye image (R) 2. It is called the top and bottom format. Also in this case, one image composed of the left-eye image (L) and the right-eye image (R) is one frame. Similarly to the side-by-side format, the number of images in this format is the same as the frame rate per second. In addition to this, there is also a method called frame packing in which the left-eye image and the right-eye image are connected to each other as they are to form a single large image. In the case of a moving image, the same number of images of this format as the frame rate is required per second.
  • FIG. 1 (c) is a stereoscopic image in a form in which left-eye images (L) and right-eye images (R) are alternately arranged on the time axis. It is called the frame sequential format.
  • the frame sequential format In this case, in the present application, as shown in FIG. 1C, one left-eye image (L) and one right-eye image (R) are counted as one frame. Therefore, in the case of a moving image, assuming that the frame rate is X frames / second, the left-eye image (L) is alternately arranged X times per second, and the right-eye image (R) X times per second. The total is 2X images.
  • the set of the left-eye image and the right-eye image is considered as one frame regardless of the actual storage format of the image. Furthermore, in the case of an n-eye image composed of images of n viewpoints (where n> 2), the image for n eyes is set as one frame.
  • the scene in the present invention refers to a series of frames taken by a single camera.
  • the parallax of the stereoscopic image continuously changes in accordance with the movement of the subject and the movement of the camera in the same scene.
  • the camera and the subject may be stationary.
  • a stereoscopic image in which parallax is added to the caption of the end roll of a movie and the caption appears to be in front of or behind the screen is also conceivable.
  • a subtitle as a subject in the virtual space is captured by a virtual camera.
  • the subject is not a caption but a simple figure such as a triangle or a rectangle.
  • a single color image such as black, gray, red, and blue can be treated similarly because it can be regarded as a stereoscopic image obtained by photographing such a single color space with a camera.
  • a scene change when a scene ends and changes to the next scene is called a scene change.
  • the parallax of a stereoscopic image usually changes discontinuously before and after a scene change. This is because the subject changes for each scene, or the positional relationship between the subject and the camera changes.
  • various modes can be considered for the scene, but any scene before and after the scene change may be used. For example, a scene change from one live-action image to another, a scene change from a live-action image to a subtitle image, a scene change from a CG image to a live-action image, a scene from a live-action image to a black single color image Any of these changes is a scene change.
  • Embodiment of this invention is a stereo image processing apparatus, Comprising: The depth of this stereo image is adjusted so that the range of the parallax of the nearest view and the farthest view of the input stereo image may be settled in a safe parallax range. Is. This will be described below with reference to the drawings.
  • FIG. 2 is a block diagram showing the configuration of the stereoscopic image display apparatus according to the present embodiment. As shown in FIG. 2, the stereoscopic image display apparatus according to the present embodiment performs input processing 10 for receiving image data, and image processing for processing input image data and generating display data that can be stereoscopically displayed.
  • a stereoscopic image processing unit 100 to perform, an image analysis unit 20 to analyze an image, an image delay unit 101 to hold and output an image for one frame, a parallax adjustment unit to adjust parallax of the image,
  • a display control unit 103 that controls display according to an image displayed on the display unit 104, a display unit 104 that displays an image, a system control unit 105 that controls the entire system, a user input unit 106 that a user inputs, and shutter glasses
  • the eyeglass synchronization unit 107 that synchronizes the shutter and the shutter glasses 108 worn by the user.
  • the user input unit 106 receives an input of a user instruction to the stereoscopic image processing apparatus. For example, an input of an operation such as selecting a still image of a stereoscopic image that the user wants to view or a television broadcast of a stereoscopic image is received.
  • the system control unit 105 receives a user instruction input from the user input unit 106, and transmits control information and control data between the input unit 10, the image analysis unit 20, the parallax adjustment unit 102, and the display control unit 103. Send and receive. Also, arithmetic processing is performed on the received data. Details will be described in the description of each part below.
  • the input unit 10 designates a stereoscopic image that the user wants to view using the user input unit 106, and when the control information is transmitted to the input unit 10 by the system control unit 105, the input of the designated stereoscopic image is received. Then, the input unit 10 sends the input image data to the stereoscopic image processing unit 100. Further, the input unit 10 determines the frame rate of the input stereoscopic image and sends the frame rate information to the system control unit 105.
  • the input stereoscopic image data may be any data such as data based on broadcast waves, data read electronically from a recording medium, or data acquired by communication.
  • the input unit 10 may be a broadcast radio receiver device, or may have a semiconductor memory reading device, an optical disk or magnetic disk reading device, or a communication function with a network.
  • the input unit 10 only needs to be able to input data that can be interpreted as a stereoscopic image.
  • the stereoscopic image data may be composed of right-eye image data and left-eye image data, or may be multi-view image data for multi-view display. Further, it may be composed of image data and depth data or parallax data.
  • the stereoscopic image processing unit 100 receives image data input from the input unit 10 and develops it into left-eye image data and right-eye image data.
  • the stereoscopic image data input to the input unit 10 may have various formats in addition to the right-eye image data and the left-eye image data. If the stereoscopic image data is composed of right-eye image data and left-eye image data, they are used as they are. In the case where the stereoscopic image data is multi-viewpoint image data, the stereoscopic image processing unit 100 selects data for two viewpoints from them and sets them as right-eye image data and left-eye image data.
  • the stereoscopic image processing unit 100 When the stereoscopic image data is composed of image data and depth data or parallax data, the stereoscopic image processing unit 100 synthesizes the right-eye image data and the left-eye image data therefrom. If the input image data includes additional information, the stereoscopic image processing unit 100 extracts the additional information and transmits it to the system control unit 105.
  • the additional information may be parameters at the time of shooting, parallax information, depth information, and the like.
  • the image analysis unit 20 When receiving the control information from the system control unit 105, the image analysis unit 20 receives the left-eye image data and the right-eye image data from the stereoscopic image processing unit 100. Further, the image analysis unit 20 calculates parallax values corresponding to the most recent view and the farthest view in the image and detects a scene change using the control data input from the system control unit 105. More specifically, the control data is a threshold value Td used when deriving a parallax value corresponding to the nearest / farthest view in the image. Then, the image analysis unit 20 outputs the parallax values Dn and Df corresponding to the nearest and farthest views in the image and the scene change detection flag Fs to the system control unit 105. Details of these processes of the image analysis unit 20 will be described later.
  • the system control unit 105 receives the parallax values Dn and Df corresponding to the latest scene and the farthest view and the scene change detection flag Fs from the image analysis unit 20, and calculates the parallax adjustment amount using them. More specifically, when the parallax range of the stereoscopic image determined by the parallax value corresponding to the nearest scene or the farthest view in the image causes fatigue in the visual system, the system control unit 105 appropriately sets the parallax range. The amount of parallax adjustment for moving to a proper range is calculated.
  • the system control unit 105 temporarily stops the smoothing process and newly sets a parallax adjustment amount optimal for the scene after switching. Then, the system control unit 105 sends the parallax adjustment amount to the parallax adjustment unit 102. Details of the parallax adjustment amount calculation processing will also be described later.
  • the image delay unit 101 has a memory for holding the left-eye image data and the right-eye image data input from the stereoscopic image processing unit 100, and outputs the input image data with a delay of one frame. That is, when the (n + 1) th frame image is input, the image delay unit 101 outputs the nth frame image.
  • the parallax value and scene change detection flag corresponding to the most recent view and the farthest view in the image output by the image analysis unit 20 with respect to the nth frame image, and the parallax adjustment amount output by the system control unit 105 are the nth frame. It can only be obtained after all the images have been processed.
  • the image delay unit 101 holds the n-th frame image data. Therefore, it is necessary to output with delay.
  • the parallax adjustment unit 102 generates a stereoscopic image in which the parallax is adjusted according to the parallax adjustment amount input from the system control unit 105, and sends the stereoscopic image to the display control unit 103. More specifically, as described in the background section above, the distance between the corresponding points of the left and right images is changed by relatively shifting the left and right images constituting the stereoscopic image to the left and right to adjust the parallax. The part that protrudes from the screen is deleted by shifting the image. Further, a portion where the image disappears by shifting the image is filled with, for example, black.
  • the parallax adjustment amount when the parallax adjustment amount is a positive value, the parallax value of the subject in the screen is increased and the left and right images are shifted so as to move in the distant direction, that is, the left-eye image is moved to the left and the right-eye image is moved. Slide to the right. If the amount of parallax adjustment is a negative value, the parallax value of the subject on the screen is decreased and the left and right images are shifted so that they move in the foreground direction, that is, the left-eye image is moved to the right and the right-eye image is moved to the left Shift to
  • the display control unit 103 receives a stereoscopic image whose parallax has been adjusted by the parallax adjusting unit 102. Further, the display control unit 103 receives frame rate information of the input image from the system control unit 105. And the display control part 103 outputs data by the system according to the presentation method of a stereo image. For example, in this embodiment, a liquid crystal display panel is used as the display unit 104, and a left-eye image and a right-eye image are alternately displayed, and a stereoscopic view is performed in synchronization with the shutter glasses 108 worn by the observer. .
  • the left eye image is displayed on the display unit 104
  • the left eye image of the shutter glasses 108 is opened and the right eye shutter is closed, so that the left eye image is presented to the left eye.
  • the right-eye image is displayed on the display unit 104
  • the left-eye shutter is closed and the right-eye shutter is opened, so that the right-eye image is presented to the right eye to realize stereoscopic viewing.
  • the display control unit 103 alternately outputs the left eye image and the right eye image to the display unit 104.
  • the frequency of output depends on the frame rate of the input image.
  • the left-eye image and the right-eye image may be displayed at 60 images per second, for a total of 120 images, or each of the left-eye image and the right-eye image may be displayed.
  • a double frame rate conversion process may be performed to generate 120 images per second and display a total of 240 images.
  • the input image is a movie
  • the frame rate is 24 frames per second, so the left-eye image and the right-eye image may each be displayed 24 frames per second, for a total of 48 frames.
  • the left-eye image Each of the right eye image and the right eye image may be subjected to a frame rate conversion process of 5 times to generate 120 images per second, and a total of 240 images may be displayed.
  • the display control unit 103 outputs a synchronization signal for controlling the shutter glasses 108 as described above in accordance with the image display timing to the glasses synchronization unit 107.
  • the display unit 104 displays an image sent from the display control unit 103 at any time.
  • the glasses synchronization unit 107 transmits the synchronization signal transmitted from the display control unit 103 to the shutter glasses 108 using infrared rays, radio waves, or the like.
  • the shutter glasses 108 receive the synchronization signal transmitted from the glasses synchronization unit 107, and open and close the shutters for the right eye and the left eye accordingly.
  • FIG. 3 shows a basic configuration of the image analysis unit 20.
  • the image analysis unit 20 receives a stereoscopic image, receives a stereoscopic image, and receives a stereoscopic image and a multidimensional statistical amount calculation unit 201 that calculates a multidimensional statistical amount related to the parallax for each frame or field of the stereoscopic image.
  • the communication / control unit 200 receives control information from the system control unit 105 and sends it to the farthest view / most recent view parallax amount calculation unit 202 and the scene change detection unit 203. Specifically, the communication / control unit 200 sends the threshold value Td to the farthest / most recent scene parallax amount calculation unit 202 and the threshold value Ts to the scene change detection unit 203 as control information. These will be described later.
  • the communication / control unit 200 also detects the farthest view parallax amount Df and the most recent view parallax amount Dn calculated by the farthest view / most recent view parallax amount calculation unit 202 and the scene change detection information Fs detected by the scene change detection unit 203. Are output to the system control unit 105.
  • FIG. 4 An example of a more specific configuration of the image analysis unit 20 is shown in FIG.
  • the image analysis unit illustrated in FIG. 4 is referred to as an image analysis unit 20A.
  • the image analysis unit 20A expands the multidimensional statistic calculation unit 201 into a parallax calculation unit 204 and a parallax histogram creation unit 205, and the farthest view / most recent
  • the view parallax amount calculation unit 202 is expanded into a parallax calculation unit 206, a parallax histogram creation unit 207, and a parallax threshold comparison unit 208.
  • the parallax calculation unit 204 calculates a shift, that is, a parallax, between corresponding points of the right-eye image and the left-eye image constituting the stereoscopic image for each frame with respect to the left-eye image data and the right-eye image data received from the stereoscopic image processing unit 100. Then, it is obtained over the entire image using block matching or the like. At this time, the parallax may be obtained for each pixel in the image, or the parallax may be obtained for each block of a predetermined size (for example, an 8 ⁇ 8 pixel block).
  • parallax information is obtained from the system control unit 105 via the communication / control unit 200.
  • additional information includes depth information for each pixel or block of a predetermined size and information on the camera interval and focal length at the time of shooting, information on the camera interval and focal length is used, The depth information may be converted into parallax information.
  • the parallax histogram creation unit 205 creates a frequency distribution, that is, a parallax histogram, from the parallax data of the entire image obtained by the parallax calculation unit 204.
  • a depth histogram may be used instead of the parallax histogram.
  • any display may be used as long as the parallax of the display object represented in the stereoscopic image or a frequency distribution of the same amount is displayed.
  • a calculation error exists in each piece of parallax data of the entire screen obtained by the parallax calculation unit 204.
  • this data By converting this data into a parallax histogram by statistical processing, the influence of errors in individual data is reduced, and the overall tendency of the parallax amount is extracted. That is, by using the parallax histogram, it is possible to make it less susceptible to an error in the parallax amount.
  • FIG. 5 shows various examples of parallax histograms.
  • the horizontal axis of each histogram is the amount of parallax, and the vertical axis is the frequency.
  • FIG. 5A shows a parallax histogram of an image in which there is no depth bias in the image and the subject is present.
  • no bias means a state in which a normal distribution is expected in an ordinary natural state.
  • This image includes an image from a near view to a distant view, and landscape images and the like often have such a distribution.
  • FIG. 5B shows a parallax histogram in the case where there is a subject (group) with no depth bias in the image, and there is a subject at a slight distance in front of the subject (group). Such distribution is often obtained.
  • FIG. 5C shows a parallax histogram in the case where there is a subject (group) with no depth bias in the image, and there is a subject at a slight distance from the subject. In many cases, an image including the image has such a distribution.
  • FIG. 5D shows a parallax histogram in the case where two groups of subjects (groups) are included in the image, and an image including two main subjects having different positions in the depth direction has such a distribution. There are many.
  • FIG. 5E shows a parallax histogram in the case where an image includes a subject (group) that is widely distributed in the depth direction from a foreground to a distant view, and an image taken close to the subject has such a distribution. Often becomes.
  • 5 (f) shows a parallax histogram when a subject (group) having a uniform depth is included in the image.
  • An image of a long-distance subject such as a landscape photograph, a two-dimensional image, or the like is shown. In many cases, such a distribution is obtained.
  • the outline of the parallax histogram changes depending on what object is present at what distance in the image. Therefore, by capturing a change in the outline of the parallax histogram, it is possible to detect a scene change, that is, a scene change in a moving image of a stereoscopic image.
  • the scene change detection unit 203 detects a scene change using the parallax histogram created by the parallax histogram creation unit 205 and the threshold Ts sent from the communication / control unit 200.
  • FIG. 6 shows a detailed configuration of the scene change detection unit 203.
  • the scene change detection unit 203 includes a data delay unit 300, a distance calculation unit 301, and a distance threshold comparison unit 302.
  • the data delay unit 300 stores the input parallax histogram for one frame, and then sends the parallax histogram obtained by delaying the input parallax histogram by one frame to the distance calculation unit 301.
  • the distance calculation unit 301 receives the input parallax histogram and the parallax histogram delayed by one frame output from the data delay unit 300, calculates a distance Dist between these parallax histograms using a predetermined distance function, The calculated distance Dist is output to the distance threshold comparison unit 302. That is, the distance calculation unit 301 calculates the distance between the parallax histogram of the (n + 1) th frame and the parallax histogram of the nth frame, as described in FIG.
  • the distance function will be described in further detail.
  • a scene change that is, a scene change in a moving image of a stereoscopic image.
  • the distance between the parallax histogram of the (n + 1) th frame and the parallax histogram of the nth frame can be used as an index.
  • distance refers to the amount of length measured between two points.
  • the distance when two points in a three-dimensional space are connected by a straight line is the distance.
  • the space in which the points exist may be a multidimensional space larger than three dimensions.
  • the parallax histogram is a multidimensional quantity. This will be described in detail later.
  • the length measured in accordance with the measurement method of some distance other than connecting with a straight line may be used.
  • the distance between two points on the earth can be defined as the length of a straight line penetrating the ground, or the length of a curve along the ground surface.
  • the definition of the distance measurement method is the distance function. A specific example of the distance function will also be described later.
  • H (n) (H ( ⁇ 1, n), H ( ⁇ 1 + 1, n),..., H (0, n),..., H (m ⁇ 1, n), H (m, n)) ... (1) That is, H (n) is a multidimensional statistic composed of (l + m + 1) elements from ⁇ l to m.
  • the distance comparison unit 302 receives the distance Dist input from the distance calculation unit 301 and the threshold Ts sent from the communication / control unit 200, compares the size of Dist and Ts, and outputs a scene change detection flag Fs. To do.
  • the distance comparison unit 302 determines whether Dist> Ts is satisfied, that is, whether the inter-histogram distance Dist is larger than the threshold Ts (S1). When Dist> Ts is satisfied, the distance comparison unit 302 substitutes 1 for the scene change detection flag Fs (S2). This means that a scene change has been detected between n frames and (n + 1) frames of the stereoscopic image. On the other hand, if Dist> Ts is not satisfied, the distance comparison unit 302 substitutes 0 for Fs (S3). This means that no scene change has been detected.
  • the outline of the parallax histogram reflects what object is present at what distance in the image. Therefore, by capturing a change in the parallax histogram, it is possible to detect a change in a subject in which a scene is switched in a moving image of a stereoscopic image, that is, a scene change. Since the parallax histogram is a multidimensional quantity having (l + m + 1) elements from ⁇ l to m, the distance between the parallax histogram of the (n + 1) th frame and the parallax histogram of the nth frame is expressed as a distance. It is calculated using a function, and the magnitude of change in the parallax histogram is determined based on the magnitude of the distance.
  • the parallax histogram is not the parallax amount itself but its statistics. Therefore, the influence of the detection error included in each parallax amount is reduced. As a statistic, for example, an average value of all parallax amounts can be considered. However, with only one statistic, information such as what kind of subject is present in the image is lost, and it is impossible to accurately detect that the scene has been switched in the moving image of the stereoscopic image. Therefore, it is desirable that the statistics are multidimensional to some extent.
  • the parallax histogram is one such multidimensional statistic.
  • parallax calculation unit 206 has the same function as the parallax calculation unit 204 and the parallax histogram creation unit 207 has the same function as the parallax histogram creation unit 205, description thereof will be omitted.
  • the parallax threshold comparison unit 208 uses the parallax histogram output from the parallax histogram creation unit 207 and the threshold Td output from the communication / control unit 200 to calculate the farthest view / most recent view parallax amount.
  • An example of the method will be described with reference to FIG.
  • FIG. 8 shows a more detailed example of the parallax histogram.
  • FIG. 8 shows an example of a histogram in the case where there is a subject (group) with no deviation in depth in the image and there is a subject at a slight distance in front of the subject, as in FIG.
  • the horizontal axis is the amount of parallax
  • the vertical axis is the frequency.
  • the parallax amount is displayed as positive parallax in the right direction of the image with reference to the image for the left eye as described in the background art section.
  • the threshold value Td is used as a threshold value on the vertical axis of the parallax histogram.
  • the parallax amount of the point having the maximum parallax amount at the intersection of the histogram and the threshold value Td is the farthest view parallax amount Df
  • the parallax amount of the point having the minimum parallax amount is the closest view parallax amount Dn. This means that even when there are a plurality of intersections as shown in FIG. 8, the parallax amounts at the intersections with the largest and smallest parallax are Df and Dn.
  • the parallax threshold comparison unit 208 sends the farthest view parallax amount Df and the most recent view parallax amount Dn thus obtained to the communication / control unit 200.
  • the parallax calculation unit 206 has the same function as the parallax calculation unit 204, and the parallax histogram creation unit 207 has the same function as the parallax histogram creation unit 205. Therefore, it is possible to integrate these and simplify the configuration with fewer components.
  • An example is shown in FIG.
  • the image analysis unit illustrated in FIG. 9 is referred to as an image analysis unit 20B.
  • the parallax calculation unit 206 and the parallax histogram creation unit 207 in the image analysis unit 20A are removed, and data is input to the parallax threshold comparison unit 208 from the parallax histogram creation unit 205. Even in such a configuration, the same operation as that of the image analysis unit 20A is performed.
  • FIG. 10 shows a flow of processing for calculating the parallax adjustment amount S.
  • the process for calculating the parallax adjustment amount S includes a provisional value calculation process for the parallax adjustment amount (S11) and a process for smoothing the parallax adjustment amount (S12).
  • the provisional value calculation process (S11) of the parallax adjustment amount includes the farthest view parallax amount Df and the most recent view parallax amount Dn calculated by the image analysis unit 20, and the tolerance of the farthest view parallax amount held by the system control unit 105.
  • the provisional value Stmp of the parallax adjustment amount for making the stereoscopic image easy to see is calculated by using the value Tf and the allowable value Tn of the recent scene parallax amount.
  • the farthest view parallax amount allowable value Tf is, for example, a parallax amount such that when the parallax amount is larger than that, the parallax on the screen exceeds the distance between the eyes of the observer and stereoscopic viewing becomes difficult.
  • the allowable value Tn of the recent view parallax amount is, for example, an amount of parallax that makes it difficult to achieve stereoscopic viewing due to an extreme misalignment when the parallax amount becomes smaller than that.
  • such a parallax amount does not have to be set.
  • Tf may be set to a small value and Tn may be set to a large value with a margin. If the parallax of the stereoscopic image is within the range of the allowable value Tn of the most distant view parallax amount to the allowable value Tf of the farthest view parallax amount, the stereoscopic image can be safely viewed. On the other hand, if the parallax of the stereoscopic image protrudes from the safe parallax range, it means that the stereoscopic image is difficult to stereoscopically view.
  • the provisional value Stmp is calculated so that the farthest view parallax amount Df does not exceed the allowable value Tf of the farthest view parallax amount, and the closest view parallax amount Dn exceeds the allowable value Tn of the closest view parallax amount.
  • the parallax adjustment amount smoothing process (S12), the provisional value Stmp of the parallax adjustment amount is smoothed to calculate the actual parallax adjustment amount S.
  • the scene change detection flag detected by the image analysis unit 20 is calculated.
  • the smoothing process is reset and the actual parallax adjustment amount S is calculated.
  • FIG. 11 shows a detailed flow of the parallax adjustment amount smoothing process (S12).
  • the smoothing process is performed to calculate the actual parallax adjustment amount S (S22).
  • Sold is a variable for holding the actual parallax adjustment amount S in the previous frame. The holding process will be described later in the description of S24.
  • the actual parallax adjustment amount S is calculated by the following equation (5).
  • Increasing ⁇ increases the contribution of the provisional value Stmp of the parallax adjustment amount to the actual parallax adjustment amount S, that is, the degree of smoothing decreases, and decreasing ⁇ reduces the parallax adjustment amount of the actual parallax adjustment amount S to the actual parallax adjustment amount S.
  • the contribution of the provisional value Stmp becomes small, that is, smoothing works strongly. In this way, the strength of smoothing can be adjusted by adjusting the values of ⁇ and ⁇ .
  • the processing based on the mathematical expression shown in S22 is IIR filter processing.
  • the provisional value Stmp of the parallax adjustment amount for the past several frames can be held, and the actual parallax adjustment amount S can be calculated by performing FIR filter processing on the provisional value Stmp.
  • the provisional value Stmp of the parallax adjustment amount is directly substituted for the actual parallax adjustment amount S (S23). That is, the actual parallax adjustment amount S is determined without performing the smoothing process.
  • the parallax adjustment amount smoothing process is performed after the parallax adjustment amount provisional value calculation process (S11) is performed as the parallax adjustment amount S calculation process, as described with reference to FIG. (S12) is performed.
  • smoothing processing is performed on the farthest view parallax amount Df and the most recent view parallax amount Dn used for calculating the parallax adjustment amount.
  • the parallax adjustment amount S can also be calculated using the parallax amount.
  • a scene change is detected using a multidimensional statistic relating to parallax for each frame of a moving image, specifically, a parallax histogram.
  • a multidimensional statistic relating to parallax have a clue as to what object is present at what distance in the image, so scene change detection that captures changes in the parallax amount of a stereoscopic image Means can be realized.
  • the statistic in this way, it is possible to realize a scene change detection unit that is hardly affected by the parallax amount error.
  • the low pass filter processing of the parallax adjustment amount in the parallax adjustment processing is reset, and the parallax adjustment amount of the first frame of the scene from the beginning of the scene after the scene change is not passed through the low pass filter.
  • the parallax adjustment amount can be smoothly changed by low-pass filter processing for the parallax amount except during a scene change to prevent unsightly, and the scene parallax adjustment amount can be changed quickly after a scene change. It is possible to realize a parallax adjusting means that balances the above.
  • the second embodiment of the present invention is a stereoscopic image processing apparatus, and the parallax range between the nearest and farthest views of the input stereoscopic image is within the safe parallax range. The depth of the stereoscopic image is adjusted.
  • the configuration of the stereoscopic image display apparatus according to the second embodiment is the same as the block diagram shown in FIG. The difference is that the more specific configuration of the image analysis unit 20 in FIG. 2 has a different configuration from the image analysis unit 20A shown in FIG. 4 and the image analysis unit 20B shown in FIG. Therefore, the description of the same part is omitted below, and a more specific configuration of the image analysis unit 20 in the second embodiment will be described.
  • FIG. 12 shows an example of a more specific configuration of the image analysis unit 20 according to the second embodiment.
  • the image analysis unit illustrated in FIG. 12 is referred to as an image analysis unit 20C.
  • the image analysis unit 20 ⁇ / b> C expands the multidimensional statistic calculation unit 201 into a parallax calculation unit 204 and an average disparity calculation unit 209 for each region, and the farthest view.
  • the difference is that the recent scene parallax amount calculation unit 202 is expanded into a parallax calculation unit 206, a parallax histogram creation unit 207, and a parallax threshold comparison unit 208.
  • the scene change detection unit 203 is changed to a scene change detection unit 210.
  • the parallax calculation unit 204, the parallax calculation unit 206, the parallax histogram creation unit 207, and the parallax threshold comparison unit 208 are the same as those described in the first embodiment, and thus the description thereof is omitted. To do.
  • the average parallax calculation unit 209 for each region uses the parallax data for the entire image obtained by the parallax calculation unit 204, divides the image into a plurality of regions, and calculates the average parallax for each region.
  • FIG. 13 is a diagram for explaining an example of image area division.
  • the image is divided into a horizontal p region and a vertical q region.
  • the average parallax can be calculated in a small area of the remainder, or the remainder can be ignored.
  • region can also be used as a substitute of the average parallax for every area
  • a calculation error exists in each piece of parallax data of the entire screen obtained by the parallax calculation unit 204.
  • this data By converting this data into an average parallax for each area by statistical processing, the influence of errors in individual data is reduced, and the overall tendency of the parallax amount is extracted. That is, by using the average parallax for each region, it is possible to make it less susceptible to an error in the parallax amount.
  • the scene change detection unit 210 detects a scene change using the average parallax R for each region created by the average parallax calculation unit for each region 209 and the threshold Ts sent from the communication / control unit 200.
  • FIG. 14 shows a detailed configuration of the scene change detection unit 210 according to the second embodiment. The difference from the scene change detection unit 203 according to the first embodiment shown in FIG. 7 is that the data delay unit 300 is changed to a data delay unit 303 and the distance calculation unit 301 is changed to a distance calculation unit 304. Only the changed parts will be described below.
  • the data delay unit 303 stores the input average parallax for each region for one frame, and then sends the average parallax for each region delayed by one frame to the input average parallax for each region to the distance calculation unit 304.
  • the distance calculation unit 304 receives the input average disparity for each region and the average disparity for each region output from the data delay unit 303 by one frame, and uses the predetermined distance function to calculate the average disparity between these regions.
  • the distance Dist is calculated and output to the threshold comparison unit 302. That is, as described in FIG. 14, the distance between the average parallax for each area in the (n + 1) th frame and the average parallax for each area in the nth frame is calculated. This process will be further described in detail.
  • the average parallax for each region in the n-th frame image is expressed as R (n), and each element thereof is expressed as R (p, q, n). That is, R is a multidimensional statistic composed of (p ⁇ q) elements.
  • R is a multidimensional statistic composed of (p ⁇ q) elements.
  • Dist sqrt ( ⁇ (R (i, j, n + 1) ⁇ R (i, j, n)) 2 ) (7)
  • i takes a value from 1 to p
  • j takes a value from 1 to q.
  • the average parallax for each region is a coarse parallax map, it is an amount reflecting the position in the image where the subject is present and the distance at which the subject is present. Therefore, by capturing the change in the average parallax for each region, it is possible to detect that a scene has been switched in a stereoscopic image moving image, that is, a scene change. Since the average disparity for each region is a multidimensional quantity having (p ⁇ q) elements, the distance between the average disparity for each region in the (n + 1) th frame and the average disparity for each region in the nth frame is large. The distance is calculated using a predetermined distance function, and the magnitude of the change in the average parallax for each region is determined based on the magnitude of the distance.
  • the average parallax for each region is not the parallax amount itself but its statistic. Therefore, the influence of the detection error included in each parallax amount is reduced.
  • a statistic for example, an average value of all parallax amounts can be considered. However, with only one statistic, information on where the subject is in the image and what distance they are located is lost, and the scene switches in the stereoscopic video Cannot be detected accurately. Therefore, it is desirable that the statistics are multidimensional to some extent.
  • the average parallax per region is one such multidimensional statistic.
  • the parallax calculation unit 206 has the same function as the parallax calculation unit 204. Therefore, it is possible to integrate these and simplify the configuration with fewer components.
  • An example is shown in FIG.
  • the image analysis unit illustrated in FIG. 15 is referred to as an image analysis unit 20D.
  • the parallax calculation unit 206 in the image analysis unit 20C is removed, and data is input to the parallax histogram creation unit 207 from the parallax calculation unit 204. Even in such a configuration, the same operation as the image analysis unit 20C is performed.
  • a scene change is detected using a multidimensional statistic related to the parallax for each frame of the moving image, specifically, the average parallax for each region.
  • These multi-dimensional values related to parallax have clues as to where the subject is in the image and what distance they are in.
  • a scene change detection unit that captures a change in the amount of parallax can be realized.
  • the statistic in this way, it is possible to realize a scene change detection unit that is hardly affected by the parallax amount error.
  • the low-pass filter processing of the parallax adjustment amount in the parallax adjustment processing is reset so that the parallax adjustment amount of the first frame of the scene from the beginning of the scene is used without passing through the low-pass filter. Yes.
  • the parallax adjustment amount is smoothly changed by a low-pass filter process for the parallax adjustment amount except during a scene change to prevent unsightly, and at the time of a scene change, the parallax adjustment amount of the scene after the scene change is quickly changed. It is possible to realize a parallax adjusting unit that achieves both.
  • the scene is obtained by using the distance between the (n + 1) th frame multidimensional statistic and the nth frame multidimensional statistic of the stereoscopic image. A change was detected.
  • the detection method is not limited to this.
  • the distance between the (n + 1) th frame multidimensional statistic and the (n ⁇ 1) th frame multidimensional statistic, the (n + 1) th frame multidimensional statistic, -2) It is also possible to detect a scene change by the distance of the multidimensional statistics between two or more frames, such as the distance between the multidimensional statistics of the frame. In such a case, a scene change between a frame that is later in time and a frame immediately before the two frames used for distance calculation is detected.
  • FIG. 16 the relationship between the frame used for scene change detection and the position of the scene change detected thereby will be further described.
  • the frames from the (n ⁇ 2) frame to the (n + 2) frame are shown in chronological order. Illustrate the situation where (n-2) frames to n frames are one scene, there is a scene change between n frames and (n + 1) frames, and (n + 1) frames to (n + 2) frames are different scenes. Yes.
  • processing is performed in the following order as time passes.
  • (1) Calculate the distance of multidimensional statistics between (n-2) and (n-1) frames
  • (2) Calculate the distance of multidimensional statistics between (n-1) frames and n frames
  • (3) Calculate the distance of multidimensional statistics between n frames and (n + 1) frames ... Since the distance calculated in the processes (1) and (2) is small and the distance calculated in the process (3) is large, a scene change is detected in the process (3).
  • the distance between the multi-dimensional statistics is increased twice for one scene change. Since this is an erroneous detection, for example, when a scene change is detected in a process at a certain time point, it can be solved by ignoring the process result in the next frame.
  • the scene change is detected using the property that if the scene is continuous, the multidimensional statistics related to the parallax between neighboring frames are similar, and that property is lost between frames that are too far apart. Because. For example, if there are about 1 to 3 frames between frames, a scene change can be detected without any problem. However, if there is 1 minute between frames, appropriate scene change detection will not be possible.
  • each component for realizing the function is described as being a different part, but it must actually have such a part that can be clearly separated and recognized. It doesn't have to be.
  • the stereoscopic image processing apparatus that realizes the functions of the above-described embodiments may configure each component for realizing the function, for example, using actually different parts, or may configure all the components. It may be mounted on one LSI. That is, what kind of mounting form should just have each component as a function.
  • a program for realizing the functions described in the present embodiment is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to execute processing of each unit. May be performed.
  • the “computer system” here includes an OS and hardware such as peripheral devices.
  • the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
  • the “computer-readable recording medium” means a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case is also used to hold a program for a certain period of time.
  • the program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
  • the present invention can be used in a wide range of apparatuses and methods related to stereoscopic images, such as stereoscopic image processing apparatuses, stereoscopic image display apparatuses, stereoscopic image editing apparatuses, stereoscopic image processing methods, stereoscopic image display methods, and stereoscopic image editing methods. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

 立体画像処理装置は、立体画像の入力を受けて、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出し、特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの前記視差に関する多次元統計量の間の距離を算出し、該距離が閾値以上の場合に、シーンチェンジが発生したことを示す出力信号を出力する。

Description

立体画像処理装置および立体画像処理方法
 本発明は、立体画像処理装置および立体画像処理方法に関するものである。
 本願は、2011年7月25日に、日本に出願された特願2011-161576号に基づき優先権を主張し、その内容をここに援用する。
 人間は、一定の間隔を持つ2つの目により得られる視覚情報の違いから、空間を把握する能力を持つ。左右の眼による異なる視点から得られる像のずれを視差と呼ぶ。人間は、視差を手掛かりの一つとして、物体までの距離を把握している。実際、物体までの距離は視差から算出することが可能である。このことを利用して、右目用画像を右目に表示し、左目用画像を左目に表示する立体画像表示装置を用意し、右目用画像、左目用画像として視差を設けた画像を提示することにより立体視が可能であることが知られている。ここでは、立体視を意図して視差を設けた複数の画像のことを立体画像と称する。また、物体までの距離を「奥行」と表現する。カメラの撮影条件が既知であれば、視差と奥行は互いに変換可能である。
 人間は、立体視において、視差に応じた両眼の光軸のなす角度、すなわち輻輳角の大きさを対象物までの距離に対応付けていると言われている。よって、左目用画像上のある被写体の位置より、右目用画像上のその被写体の位置の方が、左目用画像上から見て相対的に右側にずれるよう視差を付けた画像を見せると、被写体が実際の表示面より遠景側にあるように知覚させることができる。逆に、左目用画像上のある被写体の位置より、右目用画像上のその被写体の位置の方が、左目用画像上から見て相対的に左側にずれるよう視差を付けた画像を見せると、被写体が実際の表示面より近景側にあるように知覚させることができる。
 以下では、左目用画像を基準として右目用画像上の被写体の右方向の視差のずれを、正の視差として説明する。被写体は、視差値が正の値を取ると表示画面より遠景方向に見える。視差値が0の場合はちょうど表示画面と同じ距離にあるように見える。視差値が負の値になる場合、すなわち左目用画像を基準として右目用画像上の被写体が左方向にずれている場合は、表示画面より近景方向に見える。視差量の単位としては、例えば画像におけるピクセル数を用いることができる。
 しかし、視差値を正の方向に大きくしすぎ、観察者の目の間隔、正確には無限遠を見ている時の瞳孔間の距離を超えた視差値とすると、自然界では起き得ない状態となり、立体視が不可能となるか、立体視できたとしても人体に強い負担を強いることになる。一方、視差値を負の方向に大きくしすぎると、極度な寄り目を観察者に強いることとなり、快適な立体視ができなくなる。また、いずれの場合においても、視差値が正又は負の方向に大きくなるほど輻輳と目の焦点の調節との乖離が大きくなり、不自然な状態となるので、違和感を生じる。このように、立体画像の視差量がある一定の範囲では快適に立体視が可能であるが、視差量が大きくなると両目の画像が融合しなくなり、立体視が困難あるいは不可能となる。
 特許文献1には、これに対する解決手段が開示されている。図17は特許文献1の要部を図解したものであり、これを用いて説明する。図17においては、視差計算部500は左右眼用の画像から、画面全体について各座標における視差を計算した視差地図を計算する。計算方法は、左右画像の輝度パターンの相関を計算する相関マッチング法等を用いる。注視点計算部501において立体画像の視差の最大値、すなわち最遠景視差値を計算し、視差制御部502が画面表示部503の表示画面上での左右のずれ量を、その最遠景視差値が観察者の両眼間隔を越えないように設定する。両眼間隔は、成人の場合約65mmである。これにより、観察者の視線が平行より広がることがなくなり、両目の画像の視差が融合する範囲内になるように制御することができる。あるいは、注視点計算部501において立体画像の視差の最小値、すなわち最近景視差値を計算し、視差制御部502が画面表示部503の表示画面上での左右のずれ量を、その最近景視差値が、ある所定の大きさβ以下にならないように設定する方法が開示されている。これにより、観察者の視点が非常に近い位置になり3次元画像表示面からの目のピント情報と視線の輻輳角の大きな不一致状態をなくすことが出来、観察者が表示画像を両眼融合しやすくなるように左右画像を制御することができる。つまり、このような処理により、常に視聴者に見やすい立体画像を呈示できる。
 また、特許文献1には、このような視差の制御を行う際、視差制御量の変化が時間的に速すぎて、表示画面が頻繁に運動するときには、この信号に低域ろ波処理、すなわちローパスフィルタ処理を行い、ゆっくりとした動きのみを用いて表示画像を制御する方法が開示されている。現状では立体画像は、放送、DVDやBDなどのパッケージメディア、立体画像を撮影可能なデジタルカメラやデジタルビデオカメラ、インターネット上に公開された画像ファイル等により見ることができるが、これらの立体画像は右目用画像と左目用画像を組にした画像のみからなるものがほとんどである。視差に関する情報が付加された立体画像はほとんど無い。従って、上記の視差計算部500における処理のように、入力された立体画像から視差量を計算して視差調整処理を行わなければならない。視差量の計算の処理においては、計算エラーが発生する。エラーを含む値をそのまま用いて視差調整処理を行うと、視差調整量がフレーム毎に大きく変動し、かえって見難くなる。上記のローパスフィルタ処理は、このようなエラーの影響を軽減することができる。
 さらに、特許文献1には、左右の画像をそれぞれシフトさせることによる奥行調整方法が開示されている。図18~図23を用いて、この原理を説明する。図18は、丸と三角の二つの物体が写っている左右の画像からなる立体画像を示している。人間がこの立体画像を立体画像表示装置を用いて見たときに各物体の奥行がどのように知覚されるかを示したのが図19である。表示された左右の画像上の各物体の位置関係により、三角の物体は立体画像表示装置より手前に、丸の物体は奥に知覚される。
 次に、図20に示した左目用画像を左にずらし右目用画像を右にずらした立体画像による各物体の奥行の知覚を図21に示す。図19と比較すると、いずれの物体もより遠景方向に移動して見えることがわかる。逆に、図22に示した左目用画像を右にずらし右目用画像を左にずらした立体画像よる各物体の奥行の知覚を図23に示す。図19と比較すると、いずれの物体もより近景方向に移動して見えることがわかる。
 このように、単純に右目用画像と左目用画像の位置関係を水平方向にずらして視差を一様に増減させるだけでも、画像中の物体の奥行感を変えることが可能である。この原理を用いると、物体が手前に飛び出しすぎて見える画像は奥にずらすように調整し、物体が奥すぎて見える画像は手前にずらすように調整する、といったことが可能である。
 一方、特許文献2には、右目用画像とその奥行情報を入力し、その奥行情報から奥行の最大値と最小値を求め、その奥行の最大値と最小値の平均値のフレーム間の変化量の絶対値が所定の閾値以上ならシーンチェンジと判定する方法が開示されている。
特開平7-167633号公報 特開平10-40420号公報
 ところで、映像作品は通常、複数のシーンをつなぎ合わせて構成されている。シーンチェンジの前後においては、視差量が不連続に大きく変化する場合がある。この時、上記の特許文献1に記載のローパスフィルタ処理が問題となる。すなわち、常に視聴者に見やすい立体画像を呈示するには、シーンチェンジが発生して視差量が不連続に大きく変化した場合には、前記の視差調整処理において、視差調整量を視差量の大きな変化に素早く追従させなければならない。しかし、上記の特許文献1に記載のローパスフィルタ処理は、視差量の変化のうち素早い動きを除去してしまうため、シーンチェンジ時には視差調整量の追従を遅らせてしまうという課題がある。
 また、上記課題はシーンチェンジの前後において視差量が大きく変化した場合に問題となることから、これに対処するためには視差量の変化を捉えることのできるシーンチェンジ検出方法が必要である、という課題も有している。
 これに対して、例えば画像の輝度情報の変化を用いたシーンチェンジ検出を行う従来技術があるが、この方法では視差量の変化を捉えることはできない。
 一方、特許文献2に記載のシーンチェンジ検出方法は、視差量を用いた方法である。しかし、奥行情報を外部から入力することを前提としており、その奥行情報から求めた奥行の最大値と最小値を用いてシーンチェンジを検出している。通常、立体画像には視差に関する情報があらかじめ付加されていないことから、上記の特許文献1に記載の方法のように、入力された立体画像から視差量を算出し、そこから最遠景視差値と最近景視差値を検出しなければならない。これらの視差量がエラーを含むことは上述の通りである。従って、特許文献1に記載の視差算出方法により算出した視差量を用いて、特許文献2に記載のシーンチェンジ検出方法を実施しても、視差量のエラーにより正しくシーンチェンジ検出できない可能性が高いとの課題がある。
 本発明はこのような課題に対して、視差量の変化を捉えることができ、かつ視差量のエラーの影響を受け難いシーンチェンジ検出手段を実現することを目的とする。また、視差調整量に対するローパスフィルタ処理がシーンチェンジ時に視差調整に与える悪影響を防止した視差調整手段を実現することを目的とする。
 本発明の一態様に係る立体画像処理装置は、立体画像を入力し、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出する多次元統計量算出部と、特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの前記視差に関する多次元統計量の間の距離を算出する距離算出部と、前記距離が閾値以上の場合に、シーンチェンジが発生したことを示す出力信号を出力する距離閾値比較部とを備える。
 本発明の別の一態様によれば、前記特定のフレーム又はフィールド及びそれに近接するフレーム又はフィールドの間隔が、1フレーム又はフィールドであっても良い。
 上記立体画像処理装置において、前記特定のフレーム又はフィールド及びそれに近接するフレーム又はフィールドの間隔が、2フレーム又はフィールドであっても良い。
 上記立体画像処理装置において、前記視差に関する多次元統計量が、視差ヒストグラムであっても良い。
 上記立体画像処理装置において、前記視差に関する多次元統計量が、画像を複数領域に分割して求めた領域毎の平均視差量であっても良い。
 上記立体画像処理装置において、前記距離が、多次元統計量の各要素毎の差分二乗和の平方根であっても良い。
 上記立体画像処理装置において、前記距離が、多次元統計量の各要素毎の差分絶対値和であっても良い。
 上記立体画像処理装置は、立体画像を入力し、該立体画像の最遠景視差値及び最近景視差値を算出する最遠景・最近景視差量算出部と、前記距離閾値比較部による出力信号と前記最遠景視差値及び最近景視差値に基づいて、前記立体画像の視差調整量を算出する視差調整量算出部と、前記立体画像に対して、前記視差調整量に基づいて視差調整を行った立体画像を生成する視差調整部とを有しても良い。
 本発明の別の一態様に係る立体画像処理方法は、立体画像を入力し、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出するステップと、特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの前記視差に関する多次元統計量の間の距離を算出するステップと、前記距離が閾値以上の場合に、シーンチェンジが発生したことを示す出力信号を出力するステップとを含む。
 上記立体画像処理方法において、前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、1フレーム又はフィールドであっても良い。
 上記立体画像処理方法において、前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、2フレーム又はフィールドであっても良い。
 上記立体画像処理方法において、前記視差に関する多次元統計量が、視差ヒストグラムであっても良い。
 上記立体画像処理方法において、前記視差に関する多次元統計量が、画像を複数領域に分割して求めた領域毎の平均視差量であっても良い。
 上記立体画像処理方法において、前記距離が、多次元統計量の各要素毎の差分二乗和の平方根であっても良い。
 上記立体画像処理方法において、前記距離が、多次元統計量の各要素毎の差分絶対値和であっても良い。
 上記立体画像処理方法は、立体画像を入力し、該立体画像の最遠景視差値及び最近景視差値を算出するステップと、前記シーンチェンジが発生したことを示す出力信号と前記最遠景視差値及び最近景視差値に基づいて、前記立体画像の視差調整量を算出するステップと、前記立体画像に対して、前記視差調整量に基づいて視差調整を行った立体画像を生成するステップとを有しても良い。
 上記手段により、本発明の一態様に係る立体画像処理装置は、立体画像の視差量の変化を捉えることができ、かつ視差量のエラーの影響を受け難いシーンチェンジ検出手段を実現する。
立体画像のフレームの概念を説明する図である。 第1の実施形態に係る立体画像表示装置の構成を示すブロック図である。 第1の実施形態に係る画像解析部の基本的構成を示すブロック図である。 第1の実施形態に係る画像解析部のより具体的な構成の例を示すブロック図である。 視差ヒストグラムの様々な例を示す図である。 第1の実施形態に係るシーンチェンジ検出部の詳細な構成を示す図である。 シーンチェンジ検出フラグの算出の流れを示す図である。 視差ヒストグラムのより詳細な一例を示す図である。 第1の実施形態に係る画像解析部を簡略化した構成のブロック図である。 視差調整量の算出処理の流れを示す図である。 視差調整量の平滑化処理の流れを示す図である。 第2の実施形態に係る画像解析部のより具体的な構成の例を示すブロック図である。 画像の領域分割例を説明する図である。 第2の実施形態に係るシーンチェンジ検出部の詳細な構成を示す図である。 第2の実施形態に係る画像解析部を簡略化した構成のブロック図である。 シーンチェンジ検出に用いるフレームと、それによって検出されるシーンチェンジの位置の関係を説明する図である。 特許文献1に記載の視差制御方法を説明する図である。 左眼用と右目用の画像からなる立体画像の例を示した図である。 図18の立体画像による奥行き知覚を説明する図である。 図18の左目用画像を左にずらし、右目用画像を右にずらした立体画像を示した図である。 図20の立体画像による奥行き知覚を説明する図である。 図18の左目用画像を右にずらし、右目用画像を左にずらした立体画像を示した図である。 図22の立体画像による奥行き知覚を説明する図である。
 以下、添付図面を参照しながら本発明の好適な立体画像処理装置の実施の形態について詳細に説明する。本発明は、フィールド信号とフレーム信号のいずれに対しても適用できるものであるが、フィールドとフレームは互いに類似の関係にあるため、フレーム信号を代表例として説明するものとする。
 まず、図1を参照して、本発明における、右目用画像データと左目用画像データからなる立体画像の、フレームの概念について説明する。図1(a)に示すのは、1枚の画像の左半分に横方向の解像度を通常の1/2にした左目用画像(L)を、右半分に横方向の解像度を通常の1/2にした右目用画像(R)を格納した形式での立体画像である。サイドバイサイド形式と呼ばれている。この場合は、左目用画像(L)と右目用画像(R)からなる1枚の画像が1フレームになる。動画の場合は、フレームレートをXフレーム/秒とすると、上記形式の画像が1秒間にX枚、すなわちフレームレートと同一の枚数必要である。
 図1(b)に示すのは、1枚の画像の上半分に縦方向の解像度を通常の1/2にした左目用画像(L)を、下半分に縦方向の解像度を通常の1/2にした右目用画像(R)を格納した形式での立体画像である。トップアンドボトム形式と呼ばれている。この場合も、左目用画像(L)と右目用画像(R)からなる1枚の画像が1フレームになる。動画もサイドバイサイド形式と同様、この形式の画像が1秒間にフレームレートと同一の枚数必要である。また、この他にも、左目用画像と右目用画像を、解像度はそのまま上下につないで大きな1枚の画像とする、フレームパッキングと呼ばれる方式もある。これも動画の場合は、この形式の画像が1秒間にフレームレートと同一の枚数必要である。
 一方、図1(c)に示すのは、左目用画像(L)と右目用画像(R)を時間軸上で交互に並べた形式での立体画像である。フレームシーケンシャル形式と呼ばれている。この場合は本願では図1(c)に示すように、1枚の左目用画像(L)と1枚の右目用画像(R)をセットにして1フレームと数える。よって動画の場合は、フレームレートをXフレーム/秒とすると、左目用画像(L)が1秒間にX枚、右目用画像(R)が1秒間にX枚、交互に並んでいることから、合計で2X枚の画像となる。
 このように、本願においては、画像の実際の格納形式に関わらず、左目用画像と右目用画像のセットで1フレームと考える。さらには、n視点(ただしn>2とする)の映像からなるn眼画像の場合も、n眼分の画像をセットにして1フレームと考える。
 次に、本発明における、シーン及びシーンチェンジの定義について説明する。
 本発明におけるシーンとは、単一のカメラで撮影された一連のフレームを指すものとする。立体画像の視差は、同一のシーン内においては、被写体の動きやカメラの動きに応じて連続的に変化する。もちろん、カメラや被写体が静止していてもかまわない。CGによる立体画像のように、実際にカメラで撮影されたものではない画像に関しても、仮想的なカメラにより仮想的な被写体を撮影した画像を生成していることから、これに準じる。また、例えば、映画のエンドロールの字幕に視差が付けられ、字幕が画面より手前または奥にあるように見える立体画像も考えられる。これも、仮想的なカメラにより、仮想空間における被写体としての字幕を撮影したものとみなせるので、同様に扱うことができる。被写体が字幕ではなく、単純な図形、例えば三角形や四角形である場合も、同様である。さらには、黒、灰色、赤、青等の単一色の画像に関しては、そのような単一色の空間をカメラで撮影した立体画像であるとみなせるので、同様に扱うことができる。
 また、あるシーンが終わり次のシーンへと変わることを、シーンチェンジと呼ぶ。立体画像の視差は通常、シーンチェンジの前後においては不連続に変化する。シーンごとに、被写体が変わったり、被写体とカメラとの位置関係が変わったりするためである。上記の通り、シーンには様々な態様が考えられるが、シーンチェンジ前後の各シーンは、どのようなものであってもかまわない。例えば、ある実写画像から別の実写画像へのシーンの変化、実写画像から字幕画像へのシーンの変化、CG画像から実写画像へのシーンの変化、実写画像から黒の単一色の画像へのシーンの変化のいずれも、シーンチェンジである。
<第1の実施形態>
 本発明の第1の実施形態は、立体画像処理装置であって、入力された立体画像の最近景と最遠景の視差の範囲が安全視差範囲内に収まるよう、該立体画像の奥行を調整するものである。以下に図面を参照して説明する。
 図2は、本実施形態による立体画像表示装置の構成を示すブロック図である。図2に示すように、本実施形態による立体画像表示装置は、画像データを受け付ける入力部10と、入力された画像データを処理し、立体表示が可能な表示データを生成するための画像処理を行う立体画像処理部100と、画像の解析を行う画像解析部20と、画像を1フレーム分保持して遅延させて出力する画像遅延部101と、画像の視差を調整する視差調整部102と、画像を表示部104に合わせ表示制御を行う表示制御部103と、画像を表示する表示部104と、システム全体を制御するシステム制御部105と、ユーザが入力を行うユーザ入力部106と、シャッタメガネの同期を行うメガネ同期部107と、ユーザが装着するシャッタメガネ108と、から構成される。
 ユーザ入力部106は、この立体画像処理装置に対するユーザの指示の入力を受ける。例えば、ユーザが見たい立体画像の静止画や立体画像のテレビ放送を選択する、といった操作の入力を受ける。
 システム制御部105は、ユーザ入力部106から入力されたユーザの指示を受け、入力部10、画像解析部20、視差調整部102、表示制御部103との間で、制御情報や制御用データを送受信する。また、受信したデータに対して演算処理を施す。詳細は以下の各部の説明で述べる。
 入力部10は、ユーザが見たい立体画像をユーザ入力部106を用いて指定し、その制御情報がシステム制御部105により入力部10に送信されると、指定された立体画像の入力を受ける。そして、入力部10は、入力された画像データを立体画像処理部100に送る。また、入力部10は、入力された立体画像のフレームレートを判別し、そのフレームレート情報をシステム制御部105に送る。ここで、入力される立体画像データは、放送波によるもの、記録メディアから電子的に読みだされたもの、通信により取得されたものなど、どのようなものでも構わない。すなわち、入力部10は、放送電波の受信機装置であっても良いし、半導体メモリ読み出し装置、光ディスクや磁気ディスクの読み出し装置、ネットワークとの通信機能を持つものであっても良い。要するに、入力部10は、立体画像として解釈可能なデータを入力できるものであればよい。また、立体画像データは、右目用画像データと左目用画像データからなるものであっても良いし、多眼表示用の多視点画像データであっても良い。また、画像データと奥行データ又は視差データからなるものであっても良い。
 立体画像処理部100は、入力部10により画像データの入力を受け、左目用画像データと右目用画像データに展開する。前記の通り、入力部10に入力される立体画像データは、右目用画像データと左目用画像データからなるもののほか、様々な形式がありうる。立体画像データが右目用画像データと左目用画像データからなるものの場合は、それをそのまま用いる。立体画像データが多視点画像データである場合、立体画像処理部100は、そこから2視点分のデータを選択し右目用画像データと左目用画像データとする。立体画像データが画像データと奥行データ又は視差データからなるものである場合は、立体画像処理部100は、そこから右目用画像データと左目用画像データを合成する。また、入力された画像データに付加情報がある場合、立体画像処理部100は付加情報を抽出し、システム制御部105に伝送する。付加情報は、撮影時のパラメータや視差情報、奥行き情報等であっても良い。
 画像解析部20は、制御情報をシステム制御部105より受信すると、立体画像処理部100より左目用画像データと右目用画像データを受ける。また、画像解析部20は、システム制御部105から入力された前記制御データを用いて、画像中の最近景・最遠景に対応する視差値の算出、シーンチェンジの検出を行う。前記制御データは、より具体的には、画像中の最近景・最遠景に対応する視差値を導出する際に用いる閾値Tdである。そして、画像解析部20は、画像中の最近景及び最遠景に対応する視差値Dn及びDfと、シーンチェンジ検出フラグFsをシステム制御部105に出力する。画像解析部20のこれらの処理の詳細については後述する。
 システム制御部105は、画像解析部20から最近景及び最遠景に対応する視差値Dn及びDfとシーンチェンジ検出フラグFsを受け、これらを用いて視差調整量を算出する。より具体的には、画像中の最近景・最遠景に対応する視差値によって定められる立体画像の視差範囲が視覚系に疲労をもたらすものであった場合、システム制御部105は、視差範囲を適切な範囲に移動させるための視差調整量を算出する。このとき、急激に視差範囲を移動させると視覚の疲労を誘発させる場合があるので、視差範囲の移動の時間変化をなだらかにする平滑化処理が有効であるが、シーンチェンジが発生した場合、システム制御部105は、平滑化処理を一旦停止し、切り替え後のシーンに最適な視差調整量を新たに設定する。そして、システム制御部105は、その視差調整量を視差調整部102に送る。この視差調整量の算出処理の詳細についても後述する。
 画像遅延部101は、立体画像処理部100より入力された左目用画像データと右目用画像データを保持するメモリを有し、入力された画像データを1フレーム分遅延させて出力する。すなわち、(n+1)フレーム目の画像が入力されているときは、画像遅延部101は、nフレーム目の画像を出力する。nフレーム目の画像に対して画像解析部20が出力する画像中の最近景・最遠景に対応する視差値やシーンチェンジ検出フラグ、およびシステム制御部105が出力する視差調整量は、nフレーム目の画像を全て処理した後でなければ得られない。よって、システム制御部105から出力される視差調整量を用いて視差調整部102が同じnフレーム目の画像に視差調整処理を施すためには、画像遅延部101がnフレーム目の画像データを保持して遅延して出力することが必要となる。
 視差調整部102は、システム制御部105から入力された視差調整量に従って視差を調整した立体画像を生成し、表示制御部103に送る。より具体的には前記の背景技術の欄で述べたように、立体画像を構成する左右画像を相対的に左右にずらすことによって左右画像の対応点間の距離を変更し、視差を調整する。画像をずらすことにより画面からはみ出した部分は削除する。また、画像をずらすことにより画像がなくなった部分は、例えば黒で埋める。本願では、視差調整量が正の値の場合は、画面内の被写体の視差値を大きくして左右画像を遠景方向に移動するようにずらす、すなわち、左目用画像を左方向に、右目用画像を右方向にずらす。視差調整量が負の値の場合は、画面内の被写体の視差値を小さくして左右画像を近景方向に移動するようにずらす、すなわち、左目用画像を右方向に、右目用画像を左方向にずらす。
 表示制御部103は、視差調整部102により視差を調整された立体画像を受ける。また、表示制御部103は、システム制御部105より入力画像のフレームレート情報を受ける。そして、表示制御部103は、立体画像の提示方法に合わせた方式でデータを出力する。例えば本実施例では、表示部104に液晶表示パネルを用い、左目用画像と右目用画像を交互に表示し、観察者の装着したシャッタメガネ108と同期して立体視を行う方式を使っている。表示部104に左目用画像が表示されているときはシャッタメガネ108の左目用シャッタを開とし、右目用シャッタを閉とすることにより左目用画像を左目に呈示する。一方、表示部104に右目用画像が表示されているときには左目用シャッタを閉とし、右目用シャッタを開とすることにより右目用画像を右目に呈示して、立体視を実現する。この場合、表示制御部103は表示部104に対し、左目用画像と右目用画像を交互に出力する。出力の頻度は、入力画像のフレームレートに依存する。例えば入力画像のフレームレートが毎秒60枚であった場合は、左目用画像と右目用画像をそれぞれ毎秒60枚、合計120枚表示しても良いし、あるいは左目用画像と右目用画像のそれぞれに2倍のフレームレート変換処理を施してそれぞれ毎秒120枚の画像を生成し、合計240枚表示しても良い。また、入力画像が映画であった場合、フレームレートは毎秒24枚であるので、左目用画像と右目用画像をそれぞれ毎秒24枚、合計48枚表示しても良いし、あるいは、例えば左目用画像と右目用画像のそれぞれに5倍のフレームレート変換処理を施してそれぞれ毎秒120枚の画像を生成して、合計240枚表示しても良い。さらに、表示制御部103は、メガネ同期部107に対し画像の表示タイミングに合わせて前記のようにシャッタメガネ108を制御するための同期信号を出力する。
 表示部104は、表示制御部103から送られる画像を随時表示する。メガネ同期部107は、表示制御部103から送られた同期信号を、赤外線や電波等を用いて、シャッタメガネ108に対して送信する。シャッタメガネ108は、メガネ同期部107から送信された同期信号を受信し、それに従って右目用及び左目用のシャッタを開閉する。
 次に、画像解析部20についてより詳細に説明する。図3に画像解析部20の基本的構成を示す。画像解析部20は、立体画像の入力を受けて、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出する多次元統計量算出部201と、立体画像の入力を受けて該立体画像の最遠景視差値及び最近景視差値を算出する最遠景・最近景視差量算出部202と、多次元統計量算の入力を受けてシーンチェンジを検出するシーンチェンジ検出部203と、検出値や設定値を通信・制御する通信・制御部200と、から構成される。
 通信・制御部200は、システム制御部105から制御情報を受けて、それを最遠景・最近景視差量算出部202及びシーンチェンジ検出部203に送る。具体的には、通信・制御部200は、制御情報として、閾値Tdを最遠景・最近景視差量算出部202に送り、閾値Tsをシーンチェンジ検出部203に送る。これらについては後述する。また、通信・制御部200は、最遠景・最近景視差量算出部202によって算出された最遠景視差量Dfと最近景視差量Dn、およびシーンチェンジ検出部203によって検出されたシーンチェンジ検出情報Fsを受け、それらをシステム制御部105に出力する。
 画像解析部20のより具体的な構成の例を図4に示す。図4に示す画像解析部を、画像解析部20Aとする。画像解析部20Aは、図3で示した画像解析部20の基本的構成と比較すると、多次元統計量算出部201を視差算出部204と視差ヒストグラム作成部205とに展開し、最遠景・最近景視差量算出部202を視差算出部206と視差ヒストグラム作成部207と視差閾値比較部208とに展開した構成となっている。
 視差算出部204は、立体画像処理部100から受けた左目用画像データと右目用画像データに対し、フレーム毎に、立体画像を構成する右目用画像及び左目用画像の対応点のずれ即ち視差を、ブロックマッチング等を用いて画像全域にわたって求める。この時、画像内の画素毎に視差を求めても良いし、所定の大きさのブロック(例えば8×8ピクセルのブロック)毎に視差を求めても良い。なお、入力部10に入力される立体画像データの付加情報として、画素毎あるいは所定の大きさのブロック毎の視差情報が付加されていた場合は、視差算出部204における処理をスキップしても良い。この場合は、視差情報をシステム制御部105から通信・制御部200を経て得る。また、付加情報として画素毎あるいは所定の大きさのブロック毎の奥行情報及び撮影時のカメラの間隔と焦点距離の情報が付加されていた場合は、カメラの間隔と焦点距離の情報を用いて、奥行情報を視差情報に変換しても良い。
 視差ヒストグラム作成部205は、視差算出部204で求めた画像全域の視差のデータから、その度数分布、すなわち視差ヒストグラムを作成する。また、視差ヒストグラムの代用として奥行きをヒストグラムにしたものでも良い。すなわち立体画像に表現されている表示物の視差またはそれと同等の量の度数分布が表されているものであればよい。
 視差算出部204で求めた画面全域の視差の個々のデータには、算出エラーが存在する。このデータを統計処理により視差ヒストグラムに変換することで、個々のデータのエラーの影響は減少し、視差量の全体的な傾向が抽出される。すなわち、視差ヒストグラムを用いることで、視差量のエラーの影響を受け難くすることができる。
 図5に視差ヒストグラムの様々な例を示す。各ヒストグラムの横軸は視差量、縦軸は度数である。図5(a)は、画像中に奥行きの偏りが無く被写体が存在する画像の視差ヒストグラムを示している。ここで「偏りが無い」とは、普通の自然な状態で、正規分布が期待されるような状態を意味する。この画像は、近景から遠景までを含む画像であり、風景画などがこのような分布になることが多い。図5(b)は、画像中に奥行きの偏りが無い被写体(群)があり、それより手前にやや距離を置いて被写体がある場合の視差ヒストグラムを示しており、飛び出す被写体を含む画像などがこのような分布になることが多い。図5(c)は、画像中に奥行きの偏りが無い被写体(群)があり、それより奥にやや距離を置いて被写体がある場合の視差ヒストグラムを示しており、主要被写体以外に一部背景を含む画像などがこのような分布になることが多い。図5(d)は、画像中に被写体(群)を2群含む場合の視差ヒストグラムを示しており、奥行方向に位置の異なる主要な被写体を2つ含む画像などがこのような分布になることが多い。図5(e)は、画像中に近景から遠景まで奥行方向に幅広く分布する被写体(群)を含む場合の視差ヒストグラムを示しており、被写体に接近して撮影された画像などがこのような分布になることが多い。図5(f)は、画像中に一様な奥行きの被写体(群)を含む場合の視差ヒストグラムを示しており、風景写真のように遠距離の被写体を撮影した画像や2次元画像などがこのような分布になることが多い。このように、画像内にどのような被写体がどのような距離に存在しているかにより、視差ヒストグラムの概形は変わる。従って、視差ヒストグラムの概形の変化を捉えることで、立体画像の動画においてシーンが切り替わったこと、すなわちシーンチェンジを検出できる。
 シーンチェンジ検出部203は、視差ヒストグラム作成部205で作成した視差ヒストグラムと、通信・制御部200から送られた閾値Tsを用いて、シーンチェンジを検出する。図6にシーンチェンジ検出部203の詳細な構成を示す。シーンチェンジ検出部203は、データ遅延部300と、距離算出部301と、距離閾値比較部302とからなる。
 データ遅延部300は、入力された視差ヒストグラムを1フレーム分保存し、次に入力された視差ヒストグラムに対して1フレーム遅延させた視差ヒストグラムを距離算出部301に送る。
 距離算出部301は、入力された視差ヒストグラム及びデータ遅延部300から出力された1フレーム分遅延した視差ヒストグラムを受けて、所定の距離函数を用いてそれらの視差ヒストグラム間の距離Distを算出し、算出した距離Distを距離閾値比較部302に出力する。すなわち、距離算出部301は、図6に記載のあるように、(n+1)フレーム目の視差ヒストグラムと、nフレーム目の視差ヒストグラムとの間の距離を算出する。
 ここで、距離函数に関してさらに詳述する。上記で図5に関して説明したように、視差ヒストグラムの概形の変化を捉えることで、立体画像の動画においてシーンが切り替わったこと、すなわちシーンチェンジを検出できる。視差ヒストグラムの概形の変化を捉える具体的手段としては例えば、(n+1)フレーム目の視差ヒストグラムと、nフレーム目の視差ヒストグラムとの間の距離を指標とすることができる。この距離が小さければ、フレーム間で視差ヒストグラムの概形が余り変わっていないことがわかり、この距離が大きければ、フレーム間で視差ヒストグラムの概形が大きく変わった、すなわちシーンチェンジが発生したことがわかる。
 一般に距離とは、ある2点間に対して測定した長さの量をいう。例えば、3次元空間における2点間を直線でつないだ場合の長さが距離である。これをより一般化して考えると、点が存在する空間は3次元より大きな多次元空間でもかまわない。視差ヒストグラムは多次元の量である。これに関しては後で詳しく述べる。また、直線でつなぐこと以外の何らかの距離の測定方法を定義してそれに従って計測した長さであっても良い。例えば、地球上のある2点間の距離は、地中を貫通する直線の長さと定義することもできるし、地表面に沿った曲線の長さと定義することもできる。距離の測定方法の定義が、距離函数である。距離函数の具体例についても後述する。
 ここで、距離算出部301の処理に関してさらに詳述する。立体画像における視差ヒストグラムに関して、l、mは自然数であって、近景方向の最大の視差値を-l、遠景方向の最大の視差量をm、ヒストグラムの各ビンの幅を1、nフレーム目の視差ヒストグラムをH(n)とする。そして、その各ビンの値を次式(1)のように表記する。
(数1)
       H(n)=(H(-l,n),H(-l+1,n),・・・,H(0,n),・・・,H(m-1,n),H(m,n))                              …(1)
つまり、H(n)は、-lからmまでの(l+m+1)個の要素からなる多次元統計量である。
 (n+1)フレーム目の視差ヒストグラムと、nフレーム目の視差ヒストグラムとの間の距離Distは、距離函数を一般的にd(x,y)と表記すると、次式(2)のようになる。
(数2)
       Dist=d(H(n+1),H(n))                  …(2)
 具体的な距離函数としては様々なものが考えられるが、最も一般的なものが、距離ヒストグラムのビンごとの差分二乗和の平方根を求める、ユークリッド距離である。これを式で表すと次式(3)のようになる。
(数3)
       Dist=sqrt(Σ(H(i,n+1)-H(i,n)))…(3)
ここで、sqrt()は平方根を求めることを意味する。以下でも同様である。また、iは-lからmまでの値を取る。
 しかし、ユークリッド距離では二乗や平方根の計算を行う必要があり、実際にハードウェアの論理回路に実装する上では多くのリソースを必要とする。CPUで計算する場合も多くの処理量を必要とする。そこで、より実装においてリソースが少なくて済む、あるいは処理量の少ない距離函数として、マンハッタン距離が考えられる。これは距離ヒストグラムのビンごとの差分の絶対値の和を求めるものである。これを式で表すと次式(4)のようになる。
(数4)
       Dist=Σ|H(i,n+1)-H(i,n)|          …(4)
ここで、iは-lからmまでの値を取る。
 この他にも、必要に応じて他の距離函数を用いてもかまわない。
 距離比較部302は、距離算出部301より入力された距離Distと通信・制御部200から送られた閾値Tsを入力とし、DistとTsの大きさの比較を行ってシーンチェンジ検出フラグFsを出力する。
 その処理を図7に示す。まず、距離比較部302は、Dist>Tsが満たされるか、つまり閾値Tsよりもヒストグラム間距離Distの方が大きいかを判定する(S1)。Dist>Tsが満たされる場合、距離比較部302は、シーンチェンジ検出フラグFsに1を代入する(S2)。これは、立体画像のnフレームと(n+1)フレームの間でシーンチェンジを検出したことを意味する。一方、Dist>Tsが満たされない場合、距離比較部302は、Fsに0を代入する(S3)。これは、シーンチェンジが検出されなかったことを意味する。
 図5に関して上記で説明したように、視差ヒストグラムの概形は、画像内にどのような被写体がどのような距離に存在しているかを反映している。従って、視差ヒストグラムの変化を捉えることで、立体画像の動画においてシーンが切り替わり写っている被写体が変化したこと、すなわちシーンチェンジを検出できる。視差ヒストグラムは-lからmまでの(l+m+1)個の要素を持つ多次元の量であるので、(n+1)フレーム目の視差ヒストグラムとnフレーム目の視差ヒストグラムとの間の距離の大きさを距離函数を用いて算出し、その距離の大きさで、視差ヒストグラムの変化の大きさを判断する。
 視差ヒストグラムは、視差量そのものではなく、その統計量である。よって、各視差量に含まれる検出エラーの影響は緩和される。統計量としては、例えば、全ての視差量の平均値も考えられる。しかし、一つの統計量だけでは、画像内にどのような被写体がどのような距離に存在しているかといった情報が失われ、立体画像の動画においてシーンが切り替わったことを的確に検出できなくなる。従って、ある程度多次元の統計量であることが望ましい。視差ヒストグラムはそのような多次元統計量の一つである。
 視差算出部206は視差算出部204と、視差ヒストグラム作成部207は視差ヒストグラム作成部205と同じ機能を持つため、説明は割愛する。
 視差閾値比較部208は、視差ヒストグラム作成部207から出力された視差ヒストグラム及び通信・制御部200から出力された閾値Tdを用いて、最遠景・最近景視差量を算出する。図8を用いてその方法の一例を説明する。図8は、視差ヒストグラムのより詳細な一例を示したものである。図8は、図5(b)と同様、画像中に奥行きの偏りが無い被写体(群)があり、それより手前にやや距離を置いて被写体がある場合のヒストグラムの例を示している。横軸は視差量、縦軸は度数である。視差量は、背景技術の欄で述べたように、左目用画像を基準として画像の右方向を正の視差として表示している。閾値Tdは視差ヒストグラムの縦軸の閾値として用いる。ヒストグラムと閾値Tdの交点の中で最大の視差量を持つ点の視差量を最遠景視差量Dfとし、最小の視差量を持つ点の視差量を最近景視差量Dnとする。これは、図8のように複数の交点がある場合でも視差が最大及び最小の交点の視差量をDf及びDnとするということである。視差閾値比較部208は、このようにして求めた最遠景視差量Df、最近景視差量Dnを通信・制御部200に送る。
 図4に示した画像解析部20Aの構成においては、視差算出部206は視差算出部204と、視差ヒストグラム作成部207は視差ヒストグラム作成部205と同じ機能を持っている。そこで、これらを統合して、より構成要素を少なくして簡略化することも可能である。図9にその例を示す。図9に示す画像解析部を画像解析部20Bとする。画像解析部20Bにおいては、画像解析部20Aにおける視差算出部206と視差ヒストグラム作成部207を除去し、視差閾値比較部208には、視差ヒストグラム作成部205からデータを入力するよう構成する。このような構成でも、画像解析部20Aと同じ動作をする。
 次に、システム制御部105における、視差調整部102に送るための視差調整量Sの算出処理について説明する。図10に視差調整量Sの算出処理の流れを示す。視差調整量Sの算出処理は、視差調整量の暫定値算出処理(S11)と、視差調整量の平滑化処理(S12)からなる。視差調整量の暫定値算出処理(S11)は、画像解析部20で算出された最遠景視差量Df、最近景視差量Dnと、システム制御部105が保持している、最遠景視差量の許容値Tfと、最近景視差量の許容値Tnを用いて、立体画像を見やすくするための視差調整量の暫定値Stmpを算出する。最遠景視差量の許容値Tfは、例えば、視差量がそれ以上になると画面上の視差が観察者の目の間隔を越えて立体視が困難になるような視差量である。また、最近景視差量の許容値Tnは、例えば、視差量がそれ以下になると極端な寄り目となって立体視が困難になるような視差量である。厳密にこのような視差量に設定しなければならないわけではなく、例えば余裕を見てTfは小さめの値を、Tnは大き目の値を取るなど、適宜設定すればよい。立体画像の視差が、最近景視差量の許容値Tnから最遠景視差量の許容値Tfの範囲内に収まっていれば、その立体画像は安全に見ることができる。逆に、立体画像の視差が安全視差範囲からはみ出していれば、その立体画像は立体視が困難であることを意味する。
 暫定値Stmpの算出は、より具体的には、最遠景視差量Dfが最遠景視差量の許容値Tfを超えないように、また最近景視差量Dnが最近景視差量の許容値Tnを超えないように、画像のシフトによって視差を調整するための視差調整量の暫定値Stmpを設定する。最遠景視差量Dfと最近景視差量Dnの値によっては、視差をどう調整しても上記の2つの条件のいずれかが満たされない場合がある。そのような場合は、例えばいずれか片方の条件だけでも満たすようにStmpを設定することができる。あるいは、視差の調整は不可能として、Stmp=0とすることもできる。
 視差調整量の平滑化処理(S12)は、視差調整量の暫定値Stmpに対し平滑化処理を施して実際の視差調整量Sを算出するが、画像解析部20で検出されたシーンチェンジ検出フラグFsを見て、シーンチェンジが発生している場合は平滑化処理をリセットして実際の視差調整量Sを算出する。
 図11に視差調整量の平滑化処理(S12)の詳細な流れを示す。まず、シーンチェンジ検出フラグFsが0かを判定する(S21)。Yesの場合は、シーンチェンジが発生していないことを意味するので平滑化処理を行って実際の視差調整量Sを算出する(S22)。ここで、Soldは、一つ前のフレームにおける実際の視差調整量Sを保持しておく変数である。保持する処理については後のS24の説明で述べる。実際の視差調整量Sは、次式(5)により算出する。
(数5)
       S=α×Stmp+β×Sold                          …(5)
α、βは所定の定数であるが、α+β=1、0<α、β<1となるよう定める。αを大きくすれば実際の視差調整量Sに対する視差調整量の暫定値Stmpの寄与が大きくなる、すなわち平滑化の度合いが少なくなり、αを小さくすれば実際の視差調整量Sに対する視差調整量の暫定値Stmpの寄与が小さくなる、すなわち平滑化が強く働く。このようにα、βの値を調整することで平滑化の強さを調整できる。なお、S22で示した数式による処理はIIRフィルタ処理である。この代わりに、過去数フレーム分の視差調整量の暫定値Stmpを保持し、それらに対してFIRフィルタ処理を施して実際の視差調整量Sを算出することもできる。
 S21においてNoであった場合、すなわちFs=1で、シーンチェンジが発生していた場合は、実際の視差調整量Sに視差調整量の暫定値Stmpをそのまま代入する(S23)。すなわち、平滑化処理を施さずに実際の視差調整量Sを決定する。
 S22又はS23の処理で実際の視差調整量Sが決まった後は、その値を一つ前のフレームにおける実際の視差調整量Soldに代入する(S24)。この値は次のフレームにおける処理で用いる。以上で視差調整量の平滑化処理(S12)を終了する。
 上記の第1の実施例においては、視差調整量Sの算出処理として、図10を用いて説明したように、視差調整量の暫定値算出処理(S11)を行った後に、視差調整量の平滑化処理(S12)を行っている。しかし、この順序を逆にして、まず視差調整量の算出に用いる最遠景視差量Df、最近景視差量Dnに対して平滑化処理を行い、その平滑化処理後の最遠景視差量・最近景視差量を用いて視差調整量Sを算出することもできる。
 以上のように、本発明の第1の実施形態においては、動画像の各フレーム毎の視差に関する多次元統計量、具体的には視差ヒストグラムを用いてシーンチェンジを検出している。このような視差に関する多次元の値は、画像内にどのような被写体がどのような距離に存在しているかの手がかりを有しているため、立体画像の視差量の変化を捉えたシーンチェンジ検出手段を実現できる。また、このように統計量を用いることで、視差量のエラーの影響を受け難いシーンチェンジ検出手段を実現できる。
 さらに、シーンチェンジが検出された時は、視差調整処理における視差調整量のローパスフィルタ処理をリセットし、シーンチェンジ後のシーンの先頭からシーンの先頭のフレームの視差調整量をローパスフィルタを通さずに用いる。これにより、シーンチェンジ時以外は視差量に対するローパスフィルタ処理により視差調整量を滑らかに変化させることで見苦しさを防止することと、シーンチェンジ時にはシーンチェンジ後のシーンの視差調整量に素早く変更することを両立させた視差調整手段を実現できる。
<第2の実施形態>
 本発明の第2の実施形態は、第1の実施形態と同様に、立体画像処理装置であって、入力された立体画像の最近景と最遠景の視差の範囲が安全視差範囲内に収まるよう、該立体画像の奥行を調整するものである。
 第2の実施形態による立体画像表示装置の構成は、図2に示したブロック図と同一である。異なるのは、図2における画像解析部20のより具体的な構成が、図4に示した画像解析部20Aや図9に示した画像解析部20Bとは異なる別の構成を有することである。従って、以下では同一部分の説明は省略し、第2の実施形態における、画像解析部20のより具体的な構成に関して説明を行う。
 第2の実施形態に係る画像解析部20のより具体的な構成の例を図12に示す。図12に示す画像解析部を画像解析部20Cとする。画像解析部20Cは、図3で示した画像解析部20の基本的構成と比較すると、多次元統計量算出部201を視差算出部204と領域毎平均視差算出部209とに展開し、最遠景・最近景視差量算出部202を視差算出部206と視差ヒストグラム作成部207と視差閾値比較部208とに展開した構成となっている点が異なる。また、シーンチェンジ検出部203はシーンチェンジ検出部210に変わっている。これらの構成要素のうち、視差算出部204、視差算出部206、視差ヒストグラム作成部207、視差閾値比較部208は、前記の第1の実施形態において説明したものと同一であるため、説明を割愛する。
 領域毎平均視差算出部209は、視差算出部204で求めた画像全域の視差のデータを用い、画像を複数領域に分割しその領域毎の平均視差を算出する。図13は、画像の領域分割例を説明する図である。画像は、横p領域、縦q領域に分割される。p、qは自然数である。例えば、総画素数が1920×1080画素の画像を、120×120画素の大きさの領域に分割した場合、p=16、q=9、すなわち横16領域、縦9領域に分割できる。このようにして分割した領域ごとに、領域内の視差量の平均値を求める。なお、領域の大きさによっては、分割すると画像端で余りが出る場合がある。この場合は、余りの部分の小さな領域で平均視差を算出することもできるし、余りの部分を無視することもできる。また、領域毎の平均視差の代用として、領域毎の平均奥行を用いることもできる。この領域毎平均視差をRとする。
 視差算出部204で求めた画面全域の視差の個々のデータには、算出エラーが存在する。このデータを統計処理により領域毎の平均視差に変換することで、個々のデータのエラーの影響は減少し、視差量の全体的な傾向が抽出される。すなわち、領域毎の平均視差を用いることで、視差量のエラーの影響を受け難くすることができる。
 シーンチェンジ検出部210は、領域毎平均視差算出部209で作成した領域毎平均視差Rと、通信・制御部200から送られた閾値Tsを用いて、シーンチェンジを検出する。図14に第2の実施形態に係るシーンチェンジ検出部210の詳細な構成を示す。図7に示した第1の実施形態に係るシーンチェンジ検出部203との違いは、データ遅延部300がデータ遅延部303に、距離算出部301が距離算出部304に変わったことである。以下に、変わった部分のみ説明する。
 データ遅延部303は、入力された領域毎平均視差を1フレーム分保存し、次に入力された領域毎平均視差に対して1フレーム遅延させた領域毎平均視差を距離算出部304に送る。
 距離算出部304は、入力された領域毎平均視差及びデータ遅延部303から出力された1フレーム分遅延した領域毎平均視差を受けて、所定の距離函数を用いてそれらの領域毎平均視差間の距離Distを算出し、それを閾値比較部302に出力する。すなわち、図14に記載のあるように、(n+1)フレーム目の領域毎平均視差と、nフレーム目の領域毎平均視差との間の距離を算出する。この処理に関してさらに詳述する。
 nフレーム目の画像における領域毎平均視差をR(n)、その各要素をR(p,q,n)と表記する。つまりRは(p×q)個の要素からなる多次元統計量である。(n+1)フレーム目の領域毎平均視差と、nフレーム目の領域毎平均視差との間の距離Distは、距離函数を一般的にd(x,y)と表記すると、次式(6)のようになる。
(数6)
       Dist=d(R(n+1),R(n))                  …(6)
 具体的な距離函数としては、第1の実施形態と同様、様々なものが考えられる。例えば、領域毎の平均視差の要素毎の差分二乗和の平方根、すなわちユークリッド距離を用いた場合、Distを式で表すと次式(7)のようになる。
(数7)
Dist=sqrt(ΣΣ(R(i,j,n+1)-R(i,j,n)))…(7)
ここで、iは1からpまでの値を、jは1からqまでの値を取る。
 しかし、第1の実施形態と同様、ユークリッド距離では二乗や平方根の計算を行う必要があり、実際にハードウェアの論理回路に実装する上では多くのリソースを必要とする。CPUで計算する場合も多くの処理量を必要とする。そこで、より実装においてリソースが少なくて済む、あるいは処理量の少ない距離函数として、マンハッタン距離が考えられる。これは領域毎平均視差の要素毎の差分の絶対値の1和を求めるものである。これを式で表すと次式(8)のようになる。
(数8)
       Dist=ΣΣ|R(i,j,n+1)-R(i,j,n)| …(8)
ここで、iは1からpまでの値を、jは1からqまでの値を取る。
 この他にも、必要に応じて他の距離函数を用いてもかまわない。
 領域毎平均視差は粗い視差マップであるので、画像内のどのような位置に被写体が写っており、それらがどのような距離に存在しているかを反映した量である。従って、領域毎平均視差の変化を捉えることで、立体画像の動画においてシーンが切り替わったこと、すなわちシーンチェンジを検出できる。領域毎平均視差は、(p×q)個の要素を持つ多次元の量であるので、(n+1)フレーム目の領域毎平均視差とnフレーム目の領域毎平均視差との間の距離の大きさを所定の距離函数を用いて算出し、その距離の大きさで、領域毎平均視差の変化の大きさを判断する。
 領域毎平均視差は、視差量そのものではなくその統計量である。よって、各視差量に含まれる検出エラーの影響は緩和される。第1の実施形態の説明において述べたように、統計量としては、例えば、全ての視差量の平均値も考えられる。しかし、一つの統計量だけでは、画像内のどのような位置に被写体が写っており、それらがどのような距離に存在しているかといった情報が失われ、立体画像の動画においてシーンが切り替わったことを的確に検出できなくなる。従って、ある程度多次元の統計量であることが望ましい。領域毎平均視差はそのような多次元統計量の一つである。
 図12に示した画像解析部20Cの構成においては、視差算出部206は視差算出部204と同じ機能を持っている。そこで、これらを統合して、より構成要素を少なくして簡略化することも可能である。図15にその例を示す。図15に示す画像解析部を画像解析部20Dとする。画像解析部20Dにおいては、画像解析部20Cにおける視差算出部206を除去し、視差ヒストグラム作成部207には、視差算出部204からデータを入力するよう構成する。このような構成でも、画像解析部20Cと同じ動作をする。
 以上のように、本発明の第2の実施形態においては、動画像の各フレーム毎の視差に関する多次元統計量、具体的には領域毎平均視差を用いてシーンチェンジを検出している。このような視差に関する多次元の値は、画像内のどのような位置に被写体が写っており、それらがどのような距離に存在しているかというような手がかりを有しているため、立体画像の視差量の変化を捉えたシーンチェンジ検出手段を実現できる。また、このように統計量を用いることで、視差量のエラーの影響を受け難いシーンチェンジ検出手段を実現できる。
 さらに、シーンチェンジが検出された時は、視差調整処理における視差調整量のローパスフィルタ処理をリセットし、シーンの先頭からシーンの先頭のフレームの視差調整量をローパスフィルタを通さずに用いるようにしている。これにより、シーンチェンジ時以外は視差調整量に対するローパスフィルタ処理により視差調整量を滑らかに変化させることで見苦しさを防止することと、シーンチェンジ時にはシーンチェンジ後のシーンの視差調整量に素早く変更することを両立させた視差調整手段を実現できる。
 ところで、上記第1の実施形態及び第2の実施形態の説明においては、立体画像の(n+1)フレーム目の多次元統計量とnフレーム目の多次元統計量との間の距離を用いてシーンチェンジを検出した。しかし、検出方法はこれに限らない。例えば、立体画像の(n+1)フレーム目の多次元統計量と、(n-1)フレーム目の多次元統計量との間の距離や、(n+1)フレーム目の多次元統計量と、(n-2)フレーム目の多次元統計量との間の距離のように、2以上離れたフレーム間での多次元統計量の距離によりシーンチェンジを検出することも可能である。このような場合、距離算出に用いる2つのフレームのうち、時間的に遅いほうのフレームとその一つ前のフレームとの間のシーンチェンジを検出することになる。例えば、(n+1)フレーム目の多次元統計量と、(n-1)フレーム目の多次元統計量との間の距離によりシーンチェンジ検出する場合は、時間的に遅い(n+1)フレーム目と、その一つ前のnフレーム目との間のシーンチェンジを検出することになる。
 図16を用いて、シーンチェンジ検出に用いるフレームと、それによって検出されるシーンチェンジの位置の関係をさらに説明する。図16においては、(n-2)フレームから(n+2)フレームまでの各フレーム目を時系列順に示している。(n-2)フレームからnフレームまでが1つのシーン、nフレームと(n+1)フレームの間でシーンチェンジがあり、(n+1)フレームから(n+2)フレームが別のシーンである状況を図示している。
 隣接するフレーム間の多次元統計量の距離によりシーンチェンジを検出する場合、時間の経過につれ下記の順で処理を行う。
(1)(n-2)フレームと(n-1)フレームの間の多次元統計量の距離を算出
(2)(n-1)フレームとnフレームの間の多次元統計量の距離を算出
(3)nフレームと(n+1)フレームの間の多次元統計量の距離を算出
・・・
(1)、(2)の処理で算出した距離は小さく、(3)の処理で算出した距離は大きくなるため、(3)の処理においてシーンチェンジを検出する。
 一方、一つ離れたフレーム間の多次元統計量の距離によりシーンチェンジを検出する場合、時間の経過につれ下記の順で処理を行う。
(1’)(n-2)フレームとnフレームの間の多次元統計量の距離を算出
(2’)(n-1)フレームと(n+1)フレームの間の多次元統計量の距離を算出
(3’)nフレームと(n+2)フレームの間の多次元統計量の距離を算出
・・・
(1’)の処理で算出した距離は小さく、(2’)の処理で算出した距離は大きくなるため、(2’)の処理においてシーンチェンジを検出する。なお、その次の(3’)の処理で算出した距離も、nフレームと(n+2)フレームが違うシーンに属していることから、大きくなる。このように、一つ離れたフレーム間の多次元統計量の距離によりシーンチェンジを検出する場合、一つのシーンチェンジに対し2度多次元統計量の距離が大きくなる。これは誤検出となるため、例えば、ある時点の処理でシーンチェンジ検出すると、その次のフレームでの処理結果は無視するようにすることで解決できる。
 上記のように、2以上離れたフレーム間での視差に関する多次元統計量の距離によりシーンチェンジを検出することも可能であるが、いくらでも離れたフレーム間で距離を求めてよいわけではない。シーンが連続しているなら近傍のフレーム同士の視差に関する多次元統計量は類似している、という性質を用いてシーンチェンジを検出しているのであり、余りに離れたフレーム間ではその性質が失われるためである。例えば、フレーム間が1~3フレーム程度なら問題なくシーンチェンジが検出可能であるが、フレーム間が時間にして1分もある場合は、適切なシーンチェンジ検出は不可能であろう。
 以上、第1の実施形態及び第2の実施形態について具体的に説明を行ったが、本発明はそれらに限定されるものではない。上述した2つの実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 また、上記の実施の形態において、添付図面に図示されている構成等については、あくまで一例であり、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。上記の実施の形態の説明では、機能を実現するための各構成要素をそれぞれ異なる部位であるとして説明を行っているが、実際にこのように明確に分離して認識できる部位を有していなければならないわけではない。上記の実施形態の機能を実現する立体画像処理装置が、機能を実現するための各構成要素を、例えば実際にそれぞれ異なる部位を用いて構成していてもかまわないし、あるいは、全ての構成要素を一つのLSIに実装していてもかまわない。すなわち、どういう実装形態であれ、機能として各構成要素を有していれば良い。
 また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
 本発明は、立体画像処理装置、立体画像表示装置、立体画像編集装置、立体画像処理方法、立体画像表示方法、立体画像編集方法等、立体画像に関する幅広い装置及び方法に利用することが可能である。
 10  入力部
 20  画像解析部
 20A  画像解析部
 20B  画像解析部
 20C  画像解析部
 20D  画像解析部
 100  立体画像処理部
 101 画像遅延部
 102  視差調整部
 103  表示制御部
 104  表示部
 105  システム制御部
 106  ユーザ入力部
 107  メガネ同期部
 108  シャッタメガネ
 200  通信・制御部
 201  多次元統計量算出部
 202  最遠景・最近景視差量算出部
 203  シーンチェンジ検出部
 204  視差算出部
 205  視差ヒストグラム作成部
 206  視差算出部
 207  視差ヒストグラム作成部
 208  視差閾値比較部
 209  領域毎平均視差算出部
 210  シーンチェンジ検出部
 300  データ遅延部
 301  距離算出部
 302  閾値比較部
 303  データ遅延部
 304  距離算出部
 500  視差計算部
 501  注視点計算部
 502  視差制御部
 503  画面表示部

Claims (16)

  1.  立体画像を入力し、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出する多次元統計量算出部と、
     特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの前記視差に関する多次元統計量の間の距離を算出する距離算出部と、
     前記距離が閾値以上の場合に、シーンチェンジが発生したことを示す出力信号を出力する距離閾値比較部と
     を備えた立体画像処理装置。
  2.  前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、1フレーム又はフィールドである請求項1に記載の立体画像処理装置。
  3.  前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、2フレーム又はフィールドである請求項1に記載の立体画像処理装置。
  4.  前記視差に関する多次元統計量が、視差ヒストグラムである請求項1乃至3に記載の立体画像処理装置。
  5.  前記視差に関する多次元統計量が、画像を複数領域に分割して求めた領域毎の平均視差量である請求項1乃至3に記載の立体画像処理装置。
  6.  前記距離が、多次元統計量の各要素毎の差分二乗和の平方根である請求項1乃至5に記載の立体画像処理装置。
  7.  前記距離が、多次元統計量の各要素毎の差分絶対値和である請求項1乃至5に記載の立体画像処理装置。
  8.  立体画像を入力し、該立体画像の最遠景視差値及び最近景視差値を算出する最遠景・最近景視差量算出部と、
     前記距離閾値比較部による出力信号と前記最遠景視差値及び最近景視差値に基づいて、前記立体画像の視差調整量を算出する視差調整量算出部と、
     前記立体画像に対して、前記視差調整量に基づいて視差調整を行った立体画像を生成する視差調整部と
     を有する、前記請求項1乃至7に記載の立体画像処理装置。
  9.  立体画像を入力し、該立体画像の各フレーム又はフィールド毎の視差に関する多次元統計量を算出するステップと、
     特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの前記視差に関する多次元統計量の間の距離を算出するステップと、
     前記距離が閾値以上の場合に、シーンチェンジが発生したことを示す出力信号を出力するステップと
     を含む立体画像処理方法。
  10.  前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、1フレーム又はフィールドである請求項9に記載の立体画像処理方法。
  11.  前記特定のフレーム又はフィールド、及びそれに近接するフレーム又はフィールドの間隔が、2フレーム又はフィールドである請求項9に記載の立体画像処理方法。
  12.  前記視差に関する多次元統計量が、視差ヒストグラムである請求項9乃至11に記載の立体画像処理方法。
  13.  前記視差に関する多次元統計量が、画像を複数領域に分割して求めた領域毎の平均視差量である請求項9乃至11に記載の立体画像処理方法。
  14.  前記距離が、多次元統計量の各要素毎の差分二乗和の平方根である請求項9乃至13に記載の立体画像処理方法。
  15.  前記距離が、多次元統計量の各要素毎の差分絶対値和である請求項9乃至13に記載の立体画像処理方法。
  16.  立体画像を入力し、該立体画像の最遠景視差値及び最近景視差値を算出するステップと、
     前記シーンチェンジが発生したことを示す出力信号と前記最遠景視差値及び最近景視差値に基づいて、前記立体画像の視差調整量を算出するステップと、
     前記立体画像に対して、前記視差調整量に基づいて視差調整を行った立体画像を生成するステップと
     を有する、前記請求項9乃至15に記載の立体画像処理方法。
PCT/JP2012/068445 2011-07-25 2012-07-20 立体画像処理装置および立体画像処理方法 WO2013015217A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-161576 2011-07-25
JP2011161576A JP2013026943A (ja) 2011-07-25 2011-07-25 立体画像処理装置および立体画像処理方法

Publications (1)

Publication Number Publication Date
WO2013015217A1 true WO2013015217A1 (ja) 2013-01-31

Family

ID=47601064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/068445 WO2013015217A1 (ja) 2011-07-25 2012-07-20 立体画像処理装置および立体画像処理方法

Country Status (2)

Country Link
JP (1) JP2013026943A (ja)
WO (1) WO2013015217A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074092B2 (en) 2015-12-18 2021-07-27 Intel Corporation Virtual machine batch live migration

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256846A (ja) * 2002-03-05 2003-09-12 Sony Corp 画像処理装置と画像処理方法および画像処理プログラム
JP2009239388A (ja) * 2008-03-26 2009-10-15 Fujifilm Corp 立体動画像処理装置および方法並びにプログラム
WO2009154033A1 (ja) * 2008-06-18 2009-12-23 三菱電機株式会社 三次元映像変換記録装置、三次元映像変換記録方法、記録媒体、三次元映像変換装置、及び三次元映像伝送装置
JP2010008535A (ja) * 2008-06-25 2010-01-14 Sharp Corp 映像表示装置
JP2010258723A (ja) * 2009-04-24 2010-11-11 Sony Corp 画像情報処理装置、撮像装置、画像情報処理方法およびプログラム
JP2011124941A (ja) * 2009-12-14 2011-06-23 Mitsubishi Electric Corp 3次元映像生成装置及び3次元映像生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256846A (ja) * 2002-03-05 2003-09-12 Sony Corp 画像処理装置と画像処理方法および画像処理プログラム
JP2009239388A (ja) * 2008-03-26 2009-10-15 Fujifilm Corp 立体動画像処理装置および方法並びにプログラム
WO2009154033A1 (ja) * 2008-06-18 2009-12-23 三菱電機株式会社 三次元映像変換記録装置、三次元映像変換記録方法、記録媒体、三次元映像変換装置、及び三次元映像伝送装置
JP2010008535A (ja) * 2008-06-25 2010-01-14 Sharp Corp 映像表示装置
JP2010258723A (ja) * 2009-04-24 2010-11-11 Sony Corp 画像情報処理装置、撮像装置、画像情報処理方法およびプログラム
JP2011124941A (ja) * 2009-12-14 2011-06-23 Mitsubishi Electric Corp 3次元映像生成装置及び3次元映像生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074092B2 (en) 2015-12-18 2021-07-27 Intel Corporation Virtual machine batch live migration

Also Published As

Publication number Publication date
JP2013026943A (ja) 2013-02-04

Similar Documents

Publication Publication Date Title
US9451242B2 (en) Apparatus for adjusting displayed picture, display apparatus and display method
EP2357841B1 (en) Method and apparatus for processing three-dimensional images
US8019146B2 (en) Method for adjusting disparity in three-dimensional image and three-dimensional imaging device thereof
EP2532166B1 (en) Method, apparatus and computer program for selecting a stereoscopic imaging viewpoint pair
US9007442B2 (en) Stereo image display system, stereo imaging apparatus and stereo display apparatus
EP1328129B1 (en) Apparatus for generating computer generated stereoscopic images
US8798160B2 (en) Method and apparatus for adjusting parallax in three-dimensional video
US20110228051A1 (en) Stereoscopic Viewing Comfort Through Gaze Estimation
WO2011108277A1 (ja) 立体撮像装置および立体撮像方法
US9338426B2 (en) Three-dimensional image processing apparatus, three-dimensional imaging apparatus, and three-dimensional image processing method
WO2012037075A1 (en) Method of presenting three-dimensional content with disparity adjustments
US9693036B2 (en) Imaging apparatus, image processing device, computer-readable medium having stored thereon an imaging apparatus controlling program, and computer-readable medium having stored thereon an image processing program
JP6113411B2 (ja) 画像処理装置
JP2012080294A (ja) 電子機器、映像処理方法、及びプログラム
JP5562122B2 (ja) 画像処理装置及びその制御方法
JP5347987B2 (ja) 映像処理装置
WO2013015217A1 (ja) 立体画像処理装置および立体画像処理方法
JP5323165B2 (ja) 立体画像処理装置および立体画像処理方法
WO2013042392A1 (ja) 立体画像評価装置
JP6685241B2 (ja) 立体視ビデオ生成
JP6490107B2 (ja) 立体視ビデオズーミング
JP6608852B2 (ja) 立体視深度調節及び焦点調節
US20160165207A1 (en) Electronic device, method, and computer program product
JP5501150B2 (ja) 表示装置及びその制御方法
Joblove Development of Tools and Workflow for “Run-and-Gun” Video Production in Stereoscopic 3D

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12817990

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12817990

Country of ref document: EP

Kind code of ref document: A1