WO2012105121A1 - 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法 - Google Patents

立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法 Download PDF

Info

Publication number
WO2012105121A1
WO2012105121A1 PCT/JP2011/077760 JP2011077760W WO2012105121A1 WO 2012105121 A1 WO2012105121 A1 WO 2012105121A1 JP 2011077760 W JP2011077760 W JP 2011077760W WO 2012105121 A1 WO2012105121 A1 WO 2012105121A1
Authority
WO
WIPO (PCT)
Prior art keywords
stereoscopic
maximum
display
stereoscopic video
viewpoint
Prior art date
Application number
PCT/JP2011/077760
Other languages
English (en)
French (fr)
Inventor
敏 中村
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2012555698A priority Critical patent/JP5486697B2/ja
Priority to CN201180066747.1A priority patent/CN103339947B/zh
Publication of WO2012105121A1 publication Critical patent/WO2012105121A1/ja
Priority to US13/954,699 priority patent/US9210394B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to a stereoscopic video playback device, a stereoscopic video playback program and a recording medium thereof, a stereoscopic display device, a stereoscopic imaging device, and a stereoscopic video playback method, and in particular, a stereoscopic image composed of a plurality of viewpoint images is continuously recorded in the time axis direction.
  • the present invention relates to a technique for reproducing a stereoscopic video of a stereoscopic video file that has been used.
  • the stereoscopic imaging device captures a subject from left and right viewpoints using two imaging units arranged with parallax on the left and right sides, acquires a left-eye viewpoint image and a right-eye viewpoint image, respectively, on a recording medium It is recorded.
  • the acquired left and right viewpoint images are read from the recording medium and input to a 3D display capable of three-dimensional (3D) display, and the left eye viewpoint image and the right eye viewpoint image are visually recognized separately by the left and right eyes. By being displayed so that it can be made, it can be recognized as a three-dimensional moving image.
  • the parallax amount of the recorded left and right viewpoint images changes due to changes in the shooting scene, movement of the subject, changes in the zoom magnification, and the like, while 3D displays have various screen sizes. Therefore, when a stereoscopic video is to be reproduced and displayed, there is a case where the parallax amount of the stereoscopic video is not appropriate for the size of the 3D display. In such a case, the amount of popping out or retracting from the screen becomes excessive, causing a problem that it cannot be recognized as a natural three-dimensional moving image.
  • Japanese Patent Laid-Open No. 2004-228561 includes video information that can be viewed stereoscopically, compatible screen size information related to a screen size suitable for playback of stereoscopic video, 3D display screen size information, and distance to a display screen that is suitable for an observer to view during playback. Information on the suitable viewing distance, viewing distance information on the distance from the observer to the display screen of the 3D display, and a shift amount (offset) between the left-eye video and the right-eye video is set based on the information and displayed.
  • a technique for adjusting the stereoscopic effect of an image is disclosed.
  • the stereoscopic video described in Patent Document 1 is a still image or a moving image.
  • the amount of parallax between the left and right viewpoint images changes due to changes in the shooting scene, movement of the subject, changes in zoom magnification, and the like. If the parallax amount of the stereoscopic video is adjusted so that the stereoscopic video has a natural pop-out amount by the technique described in Patent Document 1, it is conceivable to adjust the parallax amount in units of frames of the stereoscopic video.
  • the feature as a stereoscopic moving image in which the stereoscopic effect changes is lost or an unnatural stereoscopic moving image is obtained.
  • the stereoscopic image is visually recognized as an image having a depth than the display surface, but the screen size of the 3D display is large. Then, this parallax also becomes large, and when the parallax exceeds the distance between both eyes of a human, binocular fusion becomes impossible (stereoscopic viewing becomes impossible).
  • Japanese Patent Application Laid-Open No. 2004-228561 describes a method for obtaining a stereoscopic image in which the optimal stereoscopic degree (depth amount) is adjusted according to the display screen size of the 3D display. There is no description to adjust the shift amount with the right-eye image. In addition, since there is no description regarding the maximum disparity amount on the far side (depth side) of the stereoscopic image, the stereoscopic image display device described in Patent Document 1 has a parallax that exceeds the distance between human eyes regardless of the screen size of the 3D display. Therefore, the shift amount between the left eye image and the right eye image cannot be adjusted.
  • An object of the present invention is to provide a stereoscopic video playback device, a stereoscopic video playback program and a recording medium thereof, a stereoscopic display device, a stereoscopic imaging device, and a stereoscopic video playback method capable of playing back a stereoscopic video with an appropriate amount of parallax. .
  • a stereoscopic video playback device includes a stereoscopic video composed of viewpoint images of N (N: an integer of 3 or more) viewpoints continuous in the time axis direction, and the N viewpoints.
  • N an integer of 3 or more
  • Ancillary information including a plurality of maximum display sizes within a predetermined section among the maximum display sizes for each frame that can be binocularly fused when displaying each stereoscopic video frame on a stereoscopic display;
  • a determination means for determining whether the display size is larger than the maximum display size for each of the maximum display sizes in the plurality of sections, and the determination means to be equal to or less than the display size of the stereoscopic display among the maximum display sizes in the plurality of sections.
  • Selection means for selecting two viewpoint images corresponding to the determined maximum display size in the section from the viewpoint images of the N viewpoints, and selection by the selection means when outputting the obtained stereoscopic video to the stereoscopic display A stereoscopic video consisting of the two viewpoint images And a, and output means.
  • every predetermined section corresponding to a plurality of stereoscopic images composed of a combination of N viewpoint images and arbitrary two viewpoint images from a stereoscopic video file and continuous in the time axis direction of each stereoscopic video.
  • the maximum display size in the section corresponding to the, and the display size of the output stereoscopic display, the display size of the acquired stereoscopic display and the maximum display size in each section are compared, and the maximum display in each section is obtained.
  • the stereoscopic video playback device is an arbitrary one of a stereoscopic video in which a stereoscopic image composed of viewpoint images of N (N: integer greater than or equal to 3) viewpoints is continuous in the time axis direction and the viewpoint images of N viewpoints.
  • the predetermined parallax amount corresponding to the plurality of maximum intra-section parallax amounts on the basis of the acquired maximum parallax amount in the plurality of sections, the display size of the acquired stereoscopic display, and a predetermined value indicating the distance between human eyes.
  • a discriminating unit that discriminates whether or not binocular fusion is possible when displaying a plurality of stereoscopic videos in a section on the stereoscopic display for each of the plurality of maximum parallax amounts in the plurality of sections and the predetermined section; Selecting the two viewpoint images corresponding to the maximum intra-section parallax amount determined to be binocular fusion among the plurality of maximum intra-section parallax amounts from the N viewpoint viewpoint images, and the acquired Output means for outputting a stereoscopic video composed of two viewpoint images selected by the selection means when outputting the stereoscopic video to the stereoscopic display.
  • every predetermined section corresponding to a plurality of stereoscopic images composed of a combination of N viewpoint images and arbitrary two viewpoint images from a stereoscopic video file and continuous in the time axis direction of each stereoscopic video.
  • the display size of the output stereoscopic display the display size of the obtained stereoscopic display, the maximum parallax amount in each section, and a predetermined value indicating the human binocular interval
  • binocular fusion is possible. From a set of two or more viewpoint images, a set of two viewpoint images is selected and displayed on a stereoscopic display. Since it is output, it is possible to select and output a stereoscopic video with an appropriate amount of parallax based on the attached information recorded in the stereoscopic video file.
  • the determination unit calculates an allowable parallax amount based on a display size of the stereoscopic display and a predetermined value indicating a human binocular interval, and determines whether or not the maximum parallax amount in the plurality of sections is equal to or less than the allowable parallax amount. Whether or not binocular fusion is possible is determined for each of the plurality of maximum intra-section parallax amounts and for each of the predetermined sections.
  • the determination unit calculates an image shift amount on the stereoscopic display corresponding to the intra-section maximum parallax amount based on the acquired intra-section maximum parallax amount and the display size of the stereoscopic display. It has an image shift amount calculation means for calculating, and determines whether or not binocular fusion is possible based on whether or not the calculated image shift amount exceeds a predetermined value indicating a human binocular interval.
  • the output means selects one viewpoint image from the N viewpoint images when the selection means does not select two viewpoint images that can be binocularly fused,
  • the selected viewpoint image is output to the stereoscopic display.
  • the N viewpoints include a preset reference viewpoint
  • the selection unit selects two viewpoint images including a viewpoint image corresponding to the reference viewpoint when selecting the two viewpoint images. Select with priority.
  • the selection means selects the two viewpoint images having the largest intra-section maximum display size or the largest intra-section parallax amount when selecting the two viewpoint images.
  • the selection means selects the two viewpoint images having the smallest intra-section maximum display size or the smallest intra-section parallax amount when selecting the two viewpoint images.
  • the selection means preferentially selects two viewpoint images including a viewpoint image near the center when selecting the two viewpoint images.
  • the selection unit generates the N viewpoint viewpoint images recorded in the stereoscopic video file from a plurality of viewpoint images corresponding to the actual viewpoint and a plurality of viewpoint images corresponding to the actual viewpoint.
  • the viewpoint images of the two viewpoints including the viewpoint images of the real viewpoint are preferentially selected.
  • the stereoscopic video file is an MPEG file in which a plurality of viewpoint images are sequentially recorded for each GOP composed of a plurality of frames, and the predetermined section of the stereoscopic video is one or two or more predetermined segments. This is a section corresponding to a number of GOPs.
  • the predetermined section of the stereoscopic video is a section divided for each scene.
  • the stereoscopic video playback program according to the present invention causes the stereoscopic video playback device to be realized by a computer.
  • a computer-readable recording medium in which the stereoscopic moving image reproduction program is recorded is also included in the present invention.
  • a stereoscopic display device includes the stereoscopic moving image playback device and the output destination stereoscopic display.
  • the stereoscopic imaging device is characterized by imaging means for acquiring a stereoscopic video in which a stereoscopic image composed of a plurality of viewpoint images is continuous in the time axis direction, and a plurality of viewpoint images for each frame of the acquired stereoscopic video.
  • a parallax amount calculating means for calculating a parallax amount indicating a deviation amount between feature points having the same, and a maximum parallax amount acquisition for acquiring a disparity maximum parallax amount of each feature point for each calculated frame Means for acquiring a maximum intra-section parallax amount that is maximum in the section for each predetermined section of the stereoscopic video among the acquired maximum disparity amount on the distant side, and the stereoscopic Within a section that acquires the maximum display size within a section that can be binocularly fused when the stereoscopic image is displayed on a stereoscopic display for each predetermined section based on the maximum intra-section parallax amount acquired for each predetermined section of the video maximum Display size acquisition means, and a recording means for generating a stereoscopic video file in which the stereoscopic video is recorded, and recording the stereoscopic video file on a recording medium, recording the stereoscopic video in the stereoscopic video file, and A recording means for recording the
  • the stereoscopic imaging apparatus is characterized by imaging means for capturing a stereoscopic video in which a stereoscopic image consisting of a plurality of viewpoint images is continuous in the time axis direction, and a plurality of viewpoint images for each frame of the acquired stereoscopic video.
  • a parallax amount calculating means for calculating a parallax amount indicating a deviation amount between feature points having the same, and a maximum parallax amount acquisition for acquiring a disparity maximum parallax amount of each feature point for each calculated frame Means for acquiring a maximum intra-section parallax amount that is maximum in the section for each predetermined section of the stereoscopic video among the acquired maximum disparity amount on the distant side, and the stereoscopic
  • a recording means for generating a stereoscopic video file in which a video is recorded and recording the stereoscopic video file on a recording medium, wherein the stereoscopic video is recorded in the stereoscopic video file, and the maximum in the section for each predetermined section
  • the stereoscopic video playback apparatus is configured such that a stereoscopic video composed of viewpoint images of N (N: an integer of 3 or more) viewpoints is continuous in the time axis direction, and Corresponding to a plurality of stereoscopic images consisting of a combination of any two viewpoint images of the viewpoint images, and the maximum display size in the interval corresponding to each predetermined interval continuous in the time axis direction of each stereoscopic video, Among the maximum display sizes for each frame that can be binocularly fused when displaying a frame of each stereoscopic video on a stereoscopic display, there is attached information including the maximum display sizes in a plurality of sections that are the maximum in the predetermined section, respectively.
  • the step of obtaining a play size is compared with the obtained display size of the stereoscopic display and the maximum display size in the plurality of sections, and the display size of the stereoscopic display is larger than the maximum display size in the plurality of sections.
  • a determination step for determining whether or not each maximum display size within the plurality of sections, and a maximum within the section determined by the determination step to be equal to or less than the display size of the stereoscopic display among the maximum display sizes within the plurality of sections A selection step of selecting two viewpoint images corresponding to a display size from the viewpoint images of the N viewpoints, and two viewpoint images selected by the selection step when outputting the acquired stereoscopic video to the stereoscopic display 3D video consisting of And step, to run.
  • the stereoscopic video playback apparatus is configured such that a stereoscopic video composed of viewpoint images of N (N: an integer of 3 or more) viewpoints is continuous in the time axis direction, and It corresponds to a plurality of stereoscopic images composed of a combination of any two viewpoint images of the viewpoint images, and is the maximum amount of parallax within the section corresponding to each predetermined section continuous in the time axis direction of each stereoscopic video, Out of the maximum disparity amount on the far side for each frame of each stereoscopic video, additional information including a plurality of maximum intra-section parallax amounts that are respectively maximum within a predetermined interval continuous in the time axis direction of the stereoscopic video is recorded.
  • N an integer of 3 or more
  • Reading the stereoscopic video file obtaining the stereoscopic video and attached information from the stereoscopic video file, obtaining a display size of the output stereoscopic display, and a predetermined size of the stereoscopic video Corresponding to the plurality of maximum intra-section parallax amounts based on the acquired maximum parallax amount in the plurality of sections corresponding to each interval, the acquired display size of the stereoscopic display, and a predetermined value indicating the binocular interval between humans
  • a stereoscopic video file corresponds to a plurality of stereoscopic images composed of a combination of any two viewpoint images among N viewpoint images and N (N: an integer of 3 or more) viewpoint images.
  • N an integer of 3 or more
  • the maximum intra-section display size or the maximum intra-section parallax amount corresponding to each predetermined section continuous in the time axis direction of each stereoscopic video is acquired, and the display size of the output stereoscopic display is acquired and acquired.
  • the appropriate parallax is based on the attached information recorded in the stereoscopic video file. Can selectively output the stereoscopic video.
  • processing for parallax correction of the stereoscopic video is unnecessary, and the burden of image processing can be reduced.
  • a figure showing how to capture two viewpoint images The figure which shows the 1st example which showed the data structure of the 3D moving image file typically Flow chart showing shooting and recording processing The figure which shows an example of the viewpoint image of 2 viewpoints The figure which shows the 2nd example which showed the data structure of 3D moving image file typically The figure which shows the 3rd example which showed the data structure of 3D moving image file typically The figure which shows the 4th example which showed the data structure of 3D moving image file typically A diagram showing how to capture four viewpoint images The figure which showed typically the data structure of the 3D moving image file in which the viewpoint image of 4 viewpoints was recorded Illustration for explaining the virtual viewpoint The figure which shows the front appearance of a stereoscopic imaging device The figure which shows the back external appearance of a stereoscopic imaging device Block diagram showing the internal configuration of the stereoscopic imaging device Flow chart showing a first embodiment of 3D video playback Diagram for explaining the principle of parallax shifting Diagram showing left and right viewpoint images and parallax shift Flow chart showing a second embodiment of 3D video playback
  • FIG. 1 is a diagram showing a state in which two viewpoints (left viewpoint and right viewpoint) are taken from different viewpoints of a subject 100 by two imaging apparatuses 101-2 and 101-3.
  • 2 is a diagram schematically showing a data structure of a 3D moving image file in which a 3D moving image composed of moving images of the left viewpoint and the right viewpoint captured by the imaging devices 101-2 and 101-3 shown in FIG. 1 is recorded. .
  • the 3D video file shown in FIG. 2 is an MPEG file conforming to the MPEG (moving picture picture expert group) format, and in 1 GOP (Group of picture: MPEG compression, the number of video signals as a unit at the time of compression and playback / editing
  • the left-viewpoint viewpoint image and the right-viewpoint viewpoint image are alternately connected and combined into one file in units of frames).
  • a header area is provided at the head of the area where the viewpoint image of each GOP is recorded, and additional information such as an image size, an aspect ratio, and a frame rate is recorded in this header area.
  • additional information such as an image size, an aspect ratio, and a frame rate is recorded in this header area.
  • all or part of the following attached information is further recorded as attached information.
  • GOP maximum display size width, height, unit: mm
  • GOP maximum parallax amount near view: parallax amount (%) with respect to image width
  • GOP maximum parallax amount disant view: parallax amount with respect to image width (%)
  • Convergence angle, baseline length, and imaging unit layout viewpoint number of the device that captured each viewpoint image Shooting and recording processing for recording such a 3D moving image file will be described with reference to the flowchart of FIG.
  • left and right viewpoint images for one frame among a plurality of frames in one GOP corresponding to the left viewpoint and the right viewpoint are acquired (step S11).
  • the left and right viewpoint images for one frame in the 3D moving image obtained by capturing the 3D moving image of the subject 100 by the two imaging devices 101-2 and 101-3 are acquired.
  • the imaging apparatus 101-2 is referred to as viewpoint number 2
  • the imaging apparatus 101-3 is referred to as viewpoint number 3.
  • a plurality of feature points are extracted from the left and right viewpoint images (step S12), and the amount of parallax for each feature point is calculated (step S13).
  • the amount of parallax refers to a difference in distance between corresponding feature points between viewpoint images from the left end of each viewpoint image, and the unit is a pixel.
  • the maximum parallax amount on the near view side and the maximum parallax amount on the far view side are acquired from the parallax amount for each feature point thus calculated (step S14).
  • FIG. 4 is a diagram showing an example of the left and right viewpoint images.
  • FIG. 4A shows the left viewpoint image 201-2
  • FIG. 4B shows the right viewpoint image 201-3. .
  • the maximum parallax amount on the foreground side is 213N, and feature points having this parallax amount (maximum parallax amount position (near view)) are 211N and 212N, respectively.
  • the maximum disparity amount on the distant view side is 213F, and feature points having the disparity amount (maximum disparity amount position (distant view)) are 211F and 212F, respectively. That is, when the stereoscopic image based on the left and right viewpoint images is stereoscopically viewed, the maximum parallax amount position (near view) appears closest and the maximum parallax amount position (distant view) appears closest.
  • the ratio (%) of the maximum parallax amount 213N on the near view side and the maximum parallax amount 213F on the near view side to the image width is the maximum parallax amount (near view) (%) and the maximum parallax amount (far view) (%).
  • step S15 it is determined whether or not the acquisition of the maximum amount of parallax of all the frames in one GOP has been completed. If the acquisition has not been completed (in the case of “NO”), the process returns to step S11. When the processing from S11 to step S14 is executed and completed (“YES”), the process proceeds to step S16.
  • step S16 the maximum parallax amount of all the frames in one GOP is acquired as the GOP maximum parallax amount. Further, the GOP maximum display size is acquired based on the GOP maximum parallax amount.
  • the maximum display size (GOP maximum display size) among the display sizes in which the parallax does not exceed the human binocular interval is obtained from the ratio (%) of the GOP maximum parallax amount (distant view) to the image width.
  • the maximum display width allowed for stereoscopic viewing is 500 mm. That is, if the display has a width of 500 mm or less, the left and right images corresponding to the GOP maximum parallax amount (distant view) are displayed without exceeding the binocular interval of 50 mm, and as a result, the viewer can view stereoscopically.
  • the maximum display height is 281.25 mm.
  • interval according to the target viewer. For example, when only an adult is targeted, a wide value such as 65 mm may be set.
  • the maximum GOP display size allowed for stereoscopic viewing is about 433 mm.
  • the height of the GOP maximum display size is about 244 mm.
  • a table in which the maximum display size corresponding to the maximum amount of parallax is recorded is prepared in advance, and the GOP maximum display size is obtained by referring to this table. May be.
  • the left viewpoint image and the right viewpoint image for 1 GOP are respectively MPEG-compressed, and alternately connected as shown in FIG. 2 and recorded as a 3D moving image file, and the beginning of the area where the viewpoint image of each GOP is recorded
  • the GOP maximum display size, GOP maximum parallax amount (distant view) (%), GOP maximum parallax amount (near view) (%), etc. acquired in step S16 are recorded as attached information in the header area (step S17).
  • the 3D moving image file shown in FIG. 2 can be recorded by performing the above processing on all GOPs of the 3D moving image.
  • the 3D moving image file recorded in this way is read by the stereoscopic moving image playback device when displayed on the 3D display.
  • it is easy to determine whether or not stereoscopic viewing is possible by comparing the GOP maximum display size recorded in the attached information of the 3D video file with the display size of the 3D display to be displayed. Can be determined. If it is determined that stereoscopic viewing is possible, the recorded 3D video may be displayed as it is. If it is determined that stereoscopic viewing is impossible, the corresponding GOP maximum display size and GOP maximum parallax amount are used. The parallax between the left and right viewpoint images in the GOP can be corrected, and the parallax correction processing in the stereoscopic video playback device can be reduced.
  • the GOP maximum display size is determined based only on the far-field GOP maximum parallax amount, but may be determined in consideration of the near-field GOP maximum parallax amount.
  • a display size where the amount of parallax in the foreground is 50 mm or less may be set as the GOP maximum display size. This is because when the amount of parallax on the near view side increases, the viewer feels fatigue when viewing stereoscopically, so it is preferable to set the amount to a predetermined amount or less.
  • the GOP maximum parallax amount and the GOP maximum display size are recorded as attached information in the header area at the head of the GOP from which they are acquired.
  • the present invention is not limited to this, and it may be recorded in the header area at the head of the GOP two GOPs ago (only one GOP before) as shown in FIG.
  • the GOP maximum parallax amount and GOP maximum display size acquired from all GOPs may be recorded together in the header area at the top of the 3D moving image file. According to this, the stereoscopic video playback device that has read the 3D video file can detect in advance whether or not the parallax of the stereoscopic video within 1 GOP should be adjusted, and calculate the parallax amount to be adjusted in advance. Can do.
  • the maximum GOP parallax amount and the GOP maximum display size that are the maximum in one GOP are acquired.
  • the present invention is not limited thereto, and the maximum intra-section parallax amount and the maximum display size within the section may be acquired for each predetermined number of GOPs (sections), and recorded as attached information for the 3D video in the section. Good.
  • -Flag indicating the beginning of the scene-Scene maximum display size (width, height, unit: mm) -Assumed viewing distance (distance between the viewer and the 3D display when viewing a stereoscopic video) (unit: mm) -Scene maximum parallax amount (near view): Parallax amount relative to image width (%) ⁇ Scene maximum parallax amount (distant view): parallax amount with respect to image width (%) ⁇ Convergence angle, baseline length, and imaging unit layout (viewpoint number) of the device that captured each viewpoint image ⁇ Convergence angle, baseline length, and imaging unit layout (viewpoint number) of the device that captured each viewpoint image Further, a flag indicating that zooming in / out has been performed and a flag indicating that camera shake correction has been turned on / off / reset may be recorded as attached information.
  • Scene change can be performed by scene change detection means for detecting a scene change from the acquired 3D video. For example, when the time stamp indicating the recording time is separated by the preceding and following 3D moving image frames, the correlation between the preceding and following 3D moving image frames is obtained, and when there is no correlation, the GOP maximum parallax amount of the adjacent GOP is a predetermined threshold value When the above changes, it can be detected from the case where the camera shake correction state changes (ON ⁇ OFF, OFF ⁇ ON, Reset).
  • the scene change detection method is not limited to the above example, and various methods are conceivable.
  • the scene head flag is a flag indicating the head of each scene in the 3D video file in which the scenes of the 3D video are connected as shown in FIG. 7, and the scene maximum parallax amount is the maximum among the 3D video in the scene.
  • the maximum display size of the scene is the maximum of the display sizes acquired based on the maximum amount of parallax in the scene and capable of binocular fusion when the scene is displayed on the stereoscopic display. The display size.
  • a 3D video file in which scenes of a 3D video are connected is attached with a scene head flag at the head of the scene, a maximum parallax amount in the scene, a maximum scene display size, etc. for each scene.
  • Information is recorded.
  • scene length information of the scene is also recorded in the attached information at the beginning of the scene.
  • the scene length information can be represented by the number of GOPs constituting the scene.
  • the left and right viewpoint images taken from two viewpoints have been described as an example.
  • the number of viewpoints of the 3D moving image according to the present invention is not limited to two viewpoints, and the viewpoint images include three or more viewpoints. There may be.
  • FIG. 8 is a diagram showing a state where four viewpoint images are photographed from different viewpoints with respect to the subject 100 by the four imaging devices 101-1 to 101-4.
  • the viewpoint numbers of the imaging devices 101-1 to 101-4 are sequentially set to 1 to 4.
  • FIG. 9 is a diagram schematically showing the data structure of a 3D moving image file in which four viewpoint images captured by the four imaging devices 101-1 to 101-4 are recorded.
  • This 3D moving image file is an MPEG file similar to the file shown in FIG. 2, and the viewpoint images of four viewpoints are in units of 1 GOP, and the viewpoint images (1) to (4) corresponding to the viewpoint numbers 1 to 4 are displayed. , In order and repeatedly concatenated into one file.
  • the GOP maximum display size, the GOP maximum parallax amount, the assumed viewing distance, and each viewpoint image are captured in the header area at the head of the recording area in which each viewpoint image for each GOP is recorded. Attached information such as the convergence angle, base line length, and imaging unit arrangement (viewpoint number) of the device is recorded.
  • the GOP maximum display size, the GOP maximum parallax amount, and the like recorded at the head of each viewpoint image (1) to (4) are values calculated between the viewpoint image and other viewpoint images. .
  • the GOP maximum display size and the GOP maximum parallax amount for the viewpoint image (1) have the largest parallax amount with reference to the viewpoint image (1) taken from the left-most reference viewpoint as shown in FIG.
  • the GOP maximum parallax amount calculated from the viewpoint image (here, the viewpoint image (4)), the GOP maximum display size acquired from the maximum parallax amount, the assumed viewing distance, and the like are recorded.
  • the convergence angle, the base line length, etc. the convergence angle and the base line length with the apparatus that captured the same viewpoint image (here, the viewpoint image (4)) are recorded.
  • the 3D moving image file in which the viewpoint images of three or more viewpoints are recorded in this way is read by the stereoscopic moving image playback device when displayed on the 3D display.
  • the stereoscopic video playback device is the stereoscopic display possible by comparing the GOP maximum display size for each viewpoint image recorded in the attached information of the 3D video file with the display size of the 3D display to be displayed? It is possible to easily determine whether or not.
  • the recording order of the multi-viewpoint images is not limited to the order shown in FIG. 9, and the recommended images (two viewpoint images) to be displayed on the 3D display may be recorded first.
  • the viewpoint images (2) and (3) are recorded first, followed by the viewpoint image (1 ), (4), and if stereoscopic display with two viewpoint images (1), (4) at both ends is recommended, the viewpoint images (1), (4) are recorded first. Subsequently, viewpoint images (2) and (3) may be recorded.
  • the multi-viewpoint image as in the third embodiment does not need to be an image that is actually actually captured, and may include a virtual viewpoint image corresponding to the virtual viewpoint.
  • two viewpoint images are taken from different viewpoints (viewpoint number 1 and viewpoint number 4) with respect to the subject 100 by the two imaging devices 101-1 and 101-4.
  • viewpoint number 1 and viewpoint number 4 may be different viewpoints, and viewpoint image 2 and viewpoint image 3 with viewpoint number 2 and viewpoint number 3 in a virtual viewpoint that does not actually exist may be generated.
  • viewpoint image 2 and viewpoint image 3 with viewpoint number 2 and viewpoint number 3 in a virtual viewpoint that does not actually exist may be generated.
  • a virtual viewpoint image there are a method of internally dividing each pixel of a plurality of captured images, a method of generating using a parallax map generated from a plurality of captured images and a single captured image, and the like. There is no particular limitation.
  • the viewpoint images of each viewpoint are attached to the first viewpoint image (1) of the multi-viewpoint images.
  • the information indicating whether the viewpoint image is a virtual viewpoint image or a virtual viewpoint image is recorded together (see FIG. 9).
  • the attached information of the first viewpoint image (1) not only when the information of the real viewpoint and the virtual viewpoint is recorded together, but as the attached information of each viewpoint image (1) to (4), the actual viewpoint is individually added.
  • Information indicating whether a viewpoint image or a virtual viewpoint viewpoint image may be recorded.
  • Information indicating whether the viewpoint image is a real viewpoint or a virtual viewpoint can be used when a 3D moving image is displayed as a 2D moving image.
  • FIG. 11A and 11B are views showing the external appearance of the stereoscopic imaging apparatus according to the present invention
  • FIG. 11A is a perspective view of the stereoscopic imaging apparatus viewed from the front side
  • FIG. 11B is a rear view.
  • the stereoscopic imaging device (compound-eye camera) 10 is a digital camera capable of recording and reproducing 2D / 3D still images and 2D / 3D moving images. As shown in FIG. 11, the top surface of a thin rectangular parallelepiped camera body is provided. Are provided with a shutter button 11 and a zoom button 12.
  • a lens barrier 13 having a width substantially equal to the horizontal width of the camera body is disposed on the front surface of the camera body so as to be movable in the vertical direction of the camera body. 13 is moved vertically between a position indicated by a two-dot chain line and a position indicated by a solid line, so that the front surfaces of the pair of left and right photographing optical systems 14-1 and 14-2 can be simultaneously opened and closed. .
  • a zoom lens of a bending optical system is used as the photographing optical systems 14-1 and 14-2.
  • the camera power supply can be turned on / off in conjunction with the opening / closing operation of the lens front surface by the lens barrier 13.
  • a 3D liquid crystal monitor 16 is disposed at the center of the back of the camera body.
  • the liquid crystal monitor 16 can display a plurality of parallax images (right viewpoint image and left viewpoint image) as directional images each having a predetermined directivity by a parallax barrier.
  • the 3D liquid crystal monitor 16 uses a lenticular lens, or can display a right viewpoint image and a left viewpoint image individually by wearing dedicated glasses such as polarized glasses or liquid crystal shutter glasses. Is applicable.
  • the operation switch 18A is a changeover switch for switching between still image shooting and moving image shooting
  • the operation switch 18B is a parallax adjustment switch for adjusting the amount of parallax between the right viewpoint image and the left viewpoint image
  • the operation switch 18C is 2D imaging. This is a changeover switch for switching between 3D imaging.
  • the operation switch 18D is a seesaw key that functions as both a MENU / OK button and a playback button
  • the operation switch 18E is a multifunction cross key
  • the operation switch 18F is a DISP / BACK key.
  • the MENU / OK button is an operation switch having both a function as a menu button for instructing to display a menu on the screen of the liquid crystal monitor 16 and a function as an OK button for instructing confirmation and execution of selection contents. It is.
  • the playback button is a button for switching from the shooting mode to the playback mode.
  • the cross key is an operation switch for inputting instructions in four directions, up, down, left, and right, and assigned with a macro button, a flash button, a self-timer button, and the like. Further, when a menu is selected, the cross key functions as a switch (cursor moving operation means) for selecting an item from the menu screen or instructing selection of various setting items from each menu.
  • the left / right key of the cross key functions as a frame advance (forward / reverse feed) button in the playback mode.
  • the DISP / BACK key is used for switching the display form of the liquid crystal monitor 16, canceling the instruction content on the menu screen, or returning to the previous operation state.
  • 15 is a stereo microphone.
  • FIG. 12 is a block diagram showing an internal configuration of the stereoscopic imaging apparatus 10.
  • the stereoscopic imaging apparatus 10 mainly includes a plurality of imaging units 20-1, 20-2, a central processing unit (CPU) 32, the shutter button 11, the zoom button 12, and various operation switches described above. Including an operation unit 34, a display control unit 36, a liquid crystal monitor 16, a recording control unit 38, a compression / expansion processing unit 42, a digital signal processing unit 44, an AE (Automatic Exposure) detection unit 46, and an AF (Auto Focus): An automatic focus detection unit 48, an AWB (Automatic White Balance) detection unit 50, a VRAM 52, a RAM 54, a ROM 56, an EEPROM 58, and the like. Note that the imaging units 20-1 and 20-2 capture two parallax images, a left-eye image and a right-eye image, that have parallax with each other, but there may be three or more imaging units 20.
  • the imaging units 20-1 and 20-2 capture two parallax images, a left-eye image and a right-eye image, that have par
  • the imaging unit 20-1 that captures an image for the left eye includes an imaging optical system 14-1 (FIG. 14) including a prism (not shown), a focus lens and a zoom lens 21, an optical unit including a diaphragm 22 and a mechanical shutter 23.
  • the imaging unit 20-2 that captures the image for the right eye has the same configuration as the imaging unit 20-1 that captures the image for the left eye, and thus the description of the specific configuration is omitted.
  • the CPU 32 controls the overall operation of the camera according to a predetermined control program based on the input from the operation unit 34. Calculation of parallax amount by feature point extraction, acquisition of maximum parallax amount, calculation of GOP maximum display size, calculation of scene maximum display size, calculation of GOP maximum parallax amount, calculation of scene maximum parallax amount, detection of scene change, parallax shift The CPU 32 also generates a virtual viewpoint image.
  • the ROM 56 stores a control program executed by the CPU 32 and various data necessary for the control, a 3D moving image processing program, a 3D moving image reproduction program, and the like.
  • the EEPROM 58 stores various adjustment results at the time of adjustment before product shipment. For example, pixel defect information of the CCD 24, correction parameters used for image processing, a correspondence table between the maximum amount of parallax and the maximum display size, and the like are stored.
  • the VRAM 52 is a memory for temporarily storing image data for display displayed on the liquid crystal monitor 16, and the RAM 54 includes a calculation work area for the CPU 32 and a temporary storage area for image data.
  • the focus lens and zoom lens 21 included in the photographing optical system are driven by the lens driving unit 28 and moved back and forth along the optical axis.
  • the CPU 32 controls the driving of the lens driving unit 28 to control the position of the focus lens so as to adjust the focus so that the subject is in focus, and in response to a zoom command from the zoom button 12 in the operation unit 34. Control the zoom position of the zoom lens to change the zoom magnification.
  • the diaphragm 22 is configured by an iris diaphragm, for example, and is driven by the diaphragm driving unit 29 to operate.
  • the CPU 32 controls the aperture amount (aperture value) of the aperture 22 via the aperture drive unit 29 and controls the amount of light incident on the CCD 24.
  • the mechanical shutter 23 determines the exposure time in the CCD 24 by opening and closing the optical path, and prevents unwanted light from entering the CCD 24 when the image signal is read from the CCD 24, thereby preventing smear.
  • the CPU 32 outputs a shutter close signal synchronized with the exposure end time corresponding to the shutter speed to the shutter control unit 30 to control the mechanical shutter 23.
  • the CCD 24 is composed of a two-dimensional color CCD solid-state imaging device. A large number of photodiodes are two-dimensionally arranged on the light receiving surface of the CCD 24, and color filters are arranged in a predetermined arrangement on each photodiode.
  • the optical image of the subject imaged on the CCD light receiving surface via the optical unit having the above configuration is converted into a signal charge corresponding to the amount of incident light by the photodiode.
  • the signal charge accumulated in each photodiode is sequentially read out from the CCD 24 as a voltage signal (image signal) corresponding to the signal charge based on a drive pulse given from the CCD control unit 31 according to a command from the CPU 32.
  • the CCD 24 has an electronic shutter function, and the exposure time (shutter speed) is controlled by controlling the charge accumulation time in the photodiode.
  • the electronic shutter controls the charge accumulation start time corresponding to the shutter speed, and the exposure end time (charge accumulation end time) is controlled by closing the mechanical shutter 23.
  • the CCD 24 is used as the image pickup device, but an image pickup device having another configuration such as a CMOS sensor may be used.
  • the analog signals R, G, and B read from the CCD 24 are subjected to correlated double sampling (CDS) and amplification by the analog signal processing unit 25, and then the R, G, and B analog signals are output by the A / D converter 26. Converted to a digital signal.
  • CDS correlated double sampling
  • the image input controller 27 has a built-in line buffer having a predetermined capacity, and temporarily stores R, G, B image signals (CCDRAW data) A / D converted by the A / D converter 26 and then a bus 60. And stored in the RAM 54.
  • the CPU 32 controls the imaging unit 20-2 that captures the right viewpoint image in the same manner as the imaging unit 20-1 that captures the left viewpoint image in the 3D imaging mode.
  • the AE detection unit 46 calculates subject brightness necessary for AE control based on an image signal captured when the shutter button 11 is half-pressed, and outputs a signal indicating the subject brightness (shooting EV value) to the CPU 32.
  • the CPU 32 sets the shutter speed (exposure time), aperture value, and imaging sensitivity in the plurality of imaging units 20-1 and 20-2 according to a predetermined program diagram based on the input imaging EV value.
  • the AF detection unit 48 integrates the absolute value of the high frequency component of the image signal in the AF area captured when the shutter button 11 is half-pressed, and outputs this integrated value (AF evaluation value) to the CPU 32.
  • the CPU 32 moves the focus lens from the closest position to the infinity side, searches for a focus position where the AF evaluation value detected by the AF detection unit 48 is maximum, and moves the focus lens to the focus position. Adjust the focus on the subject (main subject).
  • so-called hill climbing control is performed in which the focus lens is moved so that the AF evaluation value always takes the maximum value.
  • the AWB detection unit 50 automatically obtains the light source type (the color temperature of the object scene) based on the R, G, and B image signals acquired at the time of the main imaging, and R, G, The corresponding white balance gain is read out from the table storing the B white balance gain (white balance correction value).
  • the digital signal processing unit 44 interpolates a spatial shift of color signals such as R, G, and B accompanying a white balance correction circuit, a gradation conversion processing circuit (for example, a gamma correction circuit), and a color filter array of a single-plate CCD.
  • the image processing is performed on the R, G, and B image signals (CCDRAW data) stored in the RAM 54, including a synchronization circuit for aligning the position of each color signal, a contour correction circuit, a luminance / color difference signal generation circuit, and the like. .
  • the R, G, and B CCDRAW data are multiplied by the white balance gain detected by the AWB detection unit 50 in the digital signal processing unit 44 to be subjected to white balance correction, and thereafter, gradation conversion processing (for example, After predetermined processing such as gamma correction is performed, the signal is converted into a YC signal including a luminance signal (Y signal) and a color difference signal (Cr, Cb signal).
  • Y signal a luminance signal
  • Cr, Cb signal color difference signal
  • the YC signal processed by the digital signal processing unit 44 is stored in the RAM 54.
  • the digital signal processing unit 44 cuts out an image of a predetermined cutout area from each of the distortion correction circuit and the left and right viewpoint images for correcting the lens distortion correction of the imaging optical systems of the plurality of imaging units 20-1 and 20-2.
  • the image pickup processing circuit includes an image cutout processing circuit that corrects an optical axis shift of the imaging optical system of the plurality of imaging units 20-1 and 20-2.
  • the compression / decompression processing unit 42 compresses the YC signal stored in the RAM 54 in accordance with a command from the CPU 32 during recording on the memory card 40, and decompresses the compressed compressed data recorded on the memory card 40. To YC signal.
  • the recording control unit 38 converts the compressed data compressed by the compression / decompression processing unit 42 into a predetermined format image file (for example, 3D still image is MP file, 3D moving image is MPEG4, MPEG4-MVC, motion JPEG, H.264, etc.). H.264 moving image file) is recorded on the memory card 40, or the moving image file is read from the memory card 40.
  • a predetermined format image file for example, 3D still image is MP file, 3D moving image is MPEG4, MPEG4-MVC, motion JPEG, H.264, etc.
  • the recording control unit 38 when recording the 3D moving image file according to the present invention, the recording control unit 38, as described in the first to fourth embodiments, attached information such as an image size, an aspect ratio, and a frame rate. Besides, GOP maximum display size, scene maximum display size, assumed viewing distance, GOP maximum parallax amount (near view) (%), GOP maximum parallax amount (far view) (%), scene maximum parallax amount (near view) (%), The scene maximum parallax amount (far view) (%) is recorded in the memory card 40 as attached information.
  • the 3D moving image file in addition to the case of creating and recording the 3D moving image file described in the first to fourth embodiments, it is once recorded on the memory card 40 as a normal 3D moving image file, Thereafter, the 3D moving image file may be read from the memory card 40, the 3D moving image file described in the first to fourth embodiments may be created, and recorded on the memory card 40 again.
  • the liquid crystal monitor 16 is used as an image display unit for displaying captured images, and is used as a GUI (graphical user interface) at various settings.
  • the liquid crystal monitor 16 is used as an electronic viewfinder that displays a live view image (hereinafter referred to as “through image”) for confirming the angle of view in the shooting mode.
  • the display control unit 36 alternately displays the left viewpoint image and the right viewpoint image held in the VRAM 52 pixel by pixel.
  • the left and right images alternately arranged pixel by pixel are visually recognized separately by the left and right eyes of the user observing from a predetermined distance. This enables stereoscopic viewing.
  • the above-described embodiment can be realized by the stereoscopic imaging device 10 configured as described above.
  • the stereoscopic imaging device 10 described here includes two imaging units for capturing images of two left and right viewpoints, but includes three or more imaging units and captures three or more viewpoint images. You may comprise as follows. For example, as shown in FIG. 8, it may be configured to capture four viewpoint images by providing four imaging units such as the four imaging devices 101-1 to 101-4.
  • the output display size of the output 3D display for displaying the 3D moving image is acquired (step S21).
  • This output display size can be obtained from the HDMI terminal of the 3D display.
  • the left-view GOP_L and the right-view GOP_R are read from the 3D video file, and these are held in the cache (step S22), and the left-view GOP_L and the right view are kept until the cached amount reaches a predetermined maximum cache amount.
  • GOP_R is added to the cache (step S23).
  • step S24 it is determined whether or not reading of all left-view GOP_L and right-view GOP_R of the 3D video file has ended (step S24), and reading has not ended.
  • the GOP maximum display size is determined from the attached information of the left-view GOP_L and the right-view GOP_R to be output to the 3D display of the cached left-view GOP_L and right-view GOP_R.
  • Read and temporarily store step S25). Subsequently, a comparison is made between the width of the output display size acquired in step S21 and the width of the GOP maximum display size stored in step S25 (step S26).
  • the left-view GOP_L and the right-view GOP_R may be displayed as they are.
  • the data is output as it is to the 3D display (step S27).
  • the width of the output display size is larger than the width of the GOP maximum display size
  • the GOP_L for the left viewpoint and the GOP_R for the right viewpoint having the GOP maximum display size as attached information are displayed.
  • the amount of parallax at the parallax position exceeds the distance between human eyes, and that portion cannot be stereoscopically viewed. Therefore, it is necessary to correct the amount of parallax between the left and right viewpoint images.
  • the correction of the amount of parallax is performed by shifting the parallax (step S28).
  • FIG. 14 is a diagram for explaining the principle of parallax shifting.
  • FIG. 15A shows a left viewpoint image
  • FIG. 15B shows a right viewpoint image.
  • the viewer's left eye is at coordinates (0, D)
  • the viewer's right eye is at coordinates (XB, D).
  • the subject displayed at the coordinates (XL, 0) of the left viewpoint image and the coordinates (XR, 0) of the right viewpoint image is at the coordinates (XP, YP). It is visually recognized.
  • the amount of parallax can be adjusted by shifting the parallax. Therefore, when the amount of parallax on the distant view side exceeds the human binocular interval, the parallax shift can be performed to fit within the human binocular interval, and appropriate stereoscopic viewing can be achieved.
  • the GOP maximum parallax amount P ′ after the parallax correction is expressed by the following equation [Equation 1].
  • P ′ ⁇ W2 / W1 ⁇ * P To be.
  • the parallax on the 3D display of the 3D video in 1 GOP is within the human binocular interval by shifting the pixels in the direction in which one or both of the left and right viewpoint images approach by the amount of parallax (%) shown in the following equation Can fit.
  • the parallax correction is not limited to the above-described parallax shift, and may be performed by parallax compression.
  • the parallax compression can be performed by generating a virtual viewpoint image having a smaller amount of parallax than the left and right viewpoint images and displaying the generated virtual viewpoint image.
  • Which of the parallax amounts is to be corrected may be determined in advance, or may be configured to be selectable by the user. By adjusting either amount of parallax, at least the disparity on the far side can be reduced.
  • the left-view GOP_L and the right-view GOP_R corrected for parallax in step S28 are output to the 3D display (step S27).
  • the GOP maximum display size recorded as the attached information is read out, and compared with the output display size. If the GOP maximum display size is larger, it is determined that there is no problem in stereoscopic view.
  • the GOP_R is output to the 3D display as it is, and if the output display size is larger, it is determined that there is a region that cannot be stereoscopically viewed, and the parallax correction is performed on all the frames of the left-view GOP_L and the right-view GOP_R
  • the left viewpoint GOP_L and the right viewpoint GOP_R By outputting the left viewpoint GOP_L and the right viewpoint GOP_R to the 3D display, it is possible to always display an appropriate 3D moving image.
  • the above processing is performed by reading the new left-view GOP_L and the right-view GOP_R and adding them to the cache. 3D video can be played.
  • step S24 when reading of all left-view GOP_L and right-view GOP_R of the 3D video is finished (“YES”), the left-view GOP_L and right-view GOP_R in the cache are output to the 3D display ( Step S29) The playback of the 3D moving image is terminated. Note that the processing in steps S25 to S28 is also performed when the left-view GOP_L and the right-view GOP_R in the cache are output to the 3D display.
  • whether or not the stereoscopic video for each GOP displayed on the output 3D display is stereoscopic is determined using the GOP maximum display size recorded in the attached information of the 3D video file.
  • the present invention is not limited to this, and the same operation can be performed using the GOP maximum parallax amount.
  • the allowable amount of parallax is calculated based on the display size of the 3D display at the output destination and a predetermined value (for example, 50 mm) indicating the distance between both eyes of the human.
  • the allowable parallax amount is (human binocular interval) / (display size) (%).
  • the human binocular interval is 50 mm and the display size (width) is 1300 mm
  • the allowable parallax amount is 3.85 ( %)become.
  • whether or not binocular fusion is possible can be determined based on whether or not the GOP maximum parallax amount (%) is equal to or less than the allowable parallax amount.
  • an image shift amount on a 3D display corresponding to the GOP maximum parallax amount is calculated based on the GOP maximum parallax amount and the display size of the output 3D display, and the calculated image shift is calculated. Whether or not binocular fusion is possible may be determined based on whether or not the amount exceeds a predetermined value indicating a human binocular interval.
  • the parallax correction can be performed for each GOP.
  • the present invention is not limited to this, and the maximum display size and the maximum parallax within the predetermined number of GOPs are not limited thereto.
  • the parallax may be corrected based on the amount or the like.
  • FIG. 16 is a flowchart showing a second embodiment of 3D moving image playback processing.
  • the same step number is attached
  • the first embodiment is directed to a 3D video file in which the GOP maximum display size and the GOP maximum parallax amount are recorded as attached information for each GOP, but the second embodiment is as shown in FIG. The difference is that a 3D moving image file in which the maximum scene display size and the maximum scene parallax amount are recorded as attached information is targeted for each scene.
  • step S30 determines whether there is a scene head flag.
  • the scene head flag is detected (“YES”)
  • the maximum scene display size is read from the header at the head of the scene and temporarily stored (step S31). Subsequently, the width of the output display size acquired in step S21 is compared with the width of the maximum scene display size stored in step S31 (step S32).
  • the width of the maximum scene display size is equal to or larger than the width of the output display size, even if a 3D moving image in the scene is displayed, there is no problem with stereoscopic viewing, and thus the image is directly output to the 3D display (step S27).
  • the parallax of the 3D video in the scene is corrected, and the 3D video in the scene is corrected.
  • the parallax on the 3D display is set to fall within the distance between human eyes.
  • the scene maximum parallax amount may be used to determine whether or not the 3D video of the scene is stereoscopically viewable.
  • FIG. 17 is a flowchart showing a third embodiment of 3D moving image playback processing.
  • the same step number is attached
  • the first embodiment targets a 3D moving image file in which the GOP maximum display size and the GOP maximum parallax amount are recorded as attached information for each GOP.
  • the GOP maximum display size and the GOP maximum parallax amount are recorded as attached information for each GOP, and the scene maximum display size and the scene maximum parallax amount are attached to each scene as shown in FIG. This is different in that the target is a 3D moving image file recorded as.
  • step S40 reads and temporarily stores the GOP maximum parallax amount from the cached left viewpoint GOP_L and right viewpoint GOP_R attached information.
  • a step S41 determines whether or not there is a scene head flag. When the scene head flag is detected (“YES”), the scene length, the maximum scene display size, and the maximum scene parallax amount are read from the header at the head of the scene and temporarily stored (steps S42, S43, S45).
  • step S45 it is determined whether or not the scene length stored in step S42 is sufficiently longer than 1 GOP (step S45). If it is determined to be short (in the case of “NO”), the parallax correction is performed for each GOP as in the first embodiment (step S46), and the GOP_L of the left viewpoint and the GOP_R of the right viewpoint subjected to the parallax correction are determined. It outputs to a 3D display (step S47). If the maximum display size of the GOP is equal to or larger than the output display size, the parallax correction is not performed and the data is output to the 3D display as it is.
  • step S45 determines whether the length is long (“YES”)
  • the process returns to step S22, and then passes through the processing in steps S41 and S48 until the predetermined maximum cache amount is reached from the scene head. , Left-view GOP_L and right-view GOP_R are cached.
  • parallax correction is performed on the 3D video in the scene using the parallax correction table shown below (Ste S49).
  • FIG. 18 is a graph showing an example of the parallax correction table.
  • the horizontal axis indicates the GOP maximum parallax amount / scene maximum parallax amount
  • the vertical axis indicates the parallax correction coefficient (0 to 1).
  • the parallax correction coefficient is GOP maximum parallax amount / scene maximum.
  • the parallax amount is set to a value that changes from 1 to X as the parallax amount approaches 0 to 1.
  • the parallax correction coefficient is multiplied for each GOP maximum parallax amount in the scene.
  • the parallax correction is performed so that each GOP maximum parallax amount in the scene becomes the multiplied value (that is, the corrected GOP maximum parallax amount).
  • the parallax is shifted so that the GOP maximum parallax amount P ′ is obtained (that is, the parallax is shifted by the parallax amount expressed by the formula 2), and thereby the parallax on the 3D display of the 3D video in the GOP is changed by the human. It is possible to fit within the distance between both eyes.
  • the parallax correction coefficient is determined.
  • step S49 by performing parallax correction using the parallax correction table, the parallax amount is gradually decreased as the maximum parallax amount of each GOP approaches the maximum parallax amount in the scene (scene maximum parallax amount).
  • the parallax correction is performed to reduce the parallax reduction amount as the distance from the maximum parallax amount in the scene decreases.
  • the left-view GOP_L and the right-view GOP_R corrected for parallax in step S49 are output to the 3D display (step S47).
  • the maximum scene display size is equal to or larger than the output display size (when there is no problem in 3D display)
  • the above-described parallax correction is not performed, and the left viewpoint GOP_L and the right viewpoint GOP_R that are not parallax corrected are output to the 3D display. Is done.
  • parallax correction even if some GOPs in the scene have parallax that causes a problem in 3D display, parallax correction of other GOPs is not uniformly corrected, while suppressing excessive parallax. The stereoscopic effect of the entire scene can be ensured.
  • the parallax shifting process may be performed in consideration of the maximum amount of parallax (near view).
  • the required shift amount is added to the product of the display size (width) of the output 3D display and the maximum parallax amount (near view), and whether or not the added value is equal to or smaller than the binocular interval (for example, 50 mm). Determine whether.
  • the binocular interval for example, 50 mm.
  • the parallax shift is performed, and the viewpoint images of the two viewpoints subjected to the parallax shift are displayed in 3D on the 3D display.
  • the distance is larger than 50 mm, there is a part that cannot be stereoscopically viewed on the far side unless the parallax is shifted, and the near side cannot be stereoscopically viewed properly if the parallax is shifted so that the maximum parallax amount on the far side is appropriate. Therefore, 3D display is not performed and 2D display is performed on the 3D display.
  • the 2D display is performed by outputting one viewpoint image from the viewpoint images recorded in the 3D moving image file to the 3D display.
  • a warning may be displayed to the effect that the 3D video is not displayed because the display size is too large.
  • an appropriate 3D moving image can be displayed.
  • step S51 the display size (width) of a 3D display that displays a 3D moving image is acquired.
  • the acquired horizontal width of the display is 600 mm.
  • GOPs for four viewpoints shown in FIG. 9 are read (step S52).
  • the GOP maximum display size is acquired from each header area of the read GOP in the order of viewpoint numbers (step S53).
  • the GOP maximum display size, the assumed viewing distance, and the GOP maximum parallax amount (distant view) of a GOP for four viewpoints are as shown in Table 1 below.
  • the GOP maximum display size 500 mm of the viewpoint image (1) having the viewpoint number 1 is acquired.
  • step S54 it is determined whether or not the acquired GOP maximum display size is equal to or larger than the display size acquired in step S51 (step S54).
  • the process proceeds to step S56.
  • step S56 it is determined whether or not acquisition of the GOP maximum display size has been completed for all viewpoint images.
  • step S53 the viewpoint number is incremented by 1, and then the GOP maximum display size 1200 mm of the viewpoint image (2) that is the viewpoint number 2 is acquired.
  • step S54 it is determined whether or not the acquired GOP maximum display size is equal to or larger than the display size. Since the GOP maximum display size is 1200 mm and the display size is 600 mm or more this time, the process proceeds to step S55.
  • step S55 the current viewpoint number is acquired. Here, viewpoint number 2 is acquired.
  • step S53 to step S55 is repeated for all viewpoint images.
  • viewpoint number of the viewpoint image whose GOP maximum display size is equal to or larger than the display size is acquired.
  • viewpoint number 2 and viewpoint number 3 are acquired.
  • a viewpoint image of two viewpoints to be output to the 3D display is selected from the viewpoint images of the viewpoint number acquired in step S55 (step S57).
  • the viewpoint image (1) which is the image of the reference viewpoint, or the image of viewpoint number 2 (viewpoint image (2)) or the image of viewpoint number 3 (viewpoint image (3)) is selected. .
  • a viewpoint image including a reference viewpoint image, a viewpoint image with the largest amount of parallax, a viewpoint image with the smallest amount of parallax, a viewpoint image close to the central viewpoint, and the like can be considered.
  • the actual viewpoint image actually taken may be selected with priority over the virtual viewpoint image.
  • This reference may be determined in advance or may be configured so that the viewer can freely set it.
  • the viewpoint images of the two viewpoints selected in step S57 are displayed in 3D on the 3D display (step S58). That is, here, 3D display is performed based on the viewpoint image (1) and the viewpoint image (3).
  • step S59 it is determined whether or not all GOPs have been read from the 3D moving image file (step S59). If not completed (“NO”), the process proceeds to step S52, and the above process is repeated. If completed (“YES”), 3D video playback is terminated.
  • step S55 If there is no viewpoint number acquired in step S55, that is, if the GOP maximum display size of all viewpoint images is smaller than the display size, 2D display is performed.
  • the reference for selecting the viewpoint image for 2D display may be determined as appropriate, but the viewpoint image for the reference viewpoint is preferable as the viewpoint image for the actual viewpoint.
  • the GOP maximum display size recorded as ancillary information of each viewpoint image is read, compared with the display size of the output destination 3D display, and a viewpoint image pair having a larger GOP maximum display size is selected.
  • a viewpoint image pair having a larger GOP maximum display size is selected.
  • processing can also be performed based on the GOP maximum parallax amount recorded in the attached information of each viewpoint image of the 3D moving image file.
  • FIG. 20 is a flowchart when selecting a pair of viewpoint images to be 3D reproduced and displayed based on the GOP maximum parallax amount.
  • symbol is attached
  • the GOP maximum display size is not recorded in the attached information of each viewpoint image of the 3D moving image file to be read, and other attached information is the same as the file shown in Table 1.
  • the horizontal width of the output 3D display is 600 mm.
  • the display size is acquired (step S51), and GOPs for four viewpoints are read from the 3D moving image file shown in FIG. 9 (step S52).
  • two viewpoint images are selected from each header region of the read GOP (step S61). Since the combination of all viewpoint images is finally selected, the selection order may be determined as appropriate.
  • the viewpoint image (1) and the viewpoint image (2) are first selected.
  • the GOP maximum parallax amount (distant view) of the selected two viewpoint images is acquired (step S62).
  • the GOP maximum parallax amount (distant view) recorded in the attached information of each viewpoint image is a parallax amount with respect to the reference viewpoint image. Therefore, when the reference viewpoint image is not included in the selected two viewpoint images, it is necessary to recalculate the GOP maximum parallax amount.
  • the GOP maximum parallax amount (distant view) recorded in the attached information of the viewpoint image (2) is the same. This is the GOP maximum parallax amount (distant view) of these two viewpoints.
  • Step S63 it is determined whether or not the product of the display width acquired in step S51 and the GOP maximum parallax amount (distant view) of the two viewpoint images acquired in step S62 is equal to or less than a human binocular interval of 50 mm.
  • the distance between human eyes is not limited to 50 mm, and a numerical value such as 65 mm may be used.
  • step S65 If this product is larger than 50 mm, the GOP maximum parallax position on the far side cannot be properly stereoscopically viewed, so the combination of the viewpoint images of the two viewpoints is determined to be a combination that is not suitable for stereoscopic viewing. Control goes to step S65.
  • step S64 the viewpoint numbers of the two viewpoint images are acquired. That is, the combination of viewpoint numbers 1 and 2 is acquired here.
  • step S65 it is determined whether or not acquisition of the GOP maximum parallax amount has been completed for all combinations. Here, since all combinations have not been completed yet, the process returns to step S61.
  • two different viewpoint (one set) viewpoint images are selected.
  • two viewpoint images, viewpoint image (2) and viewpoint image (3) are selected.
  • step S62 the GOP maximum parallax amount (distant view) of these two viewpoints is acquired.
  • the maximum parallax amount (distant view) recorded in the auxiliary information of the viewpoint image (2) and the viewpoint image (3) is the maximum parallax amount with respect to the viewpoint image (1) that is the reference viewpoint image. Therefore, the GOP maximum parallax amount at the two viewpoints of the viewpoint image (2) and the viewpoint image (3) needs to be recalculated.
  • step S63 it is determined whether the product of the calculated GOP maximum parallax amount (distant view) of the two viewpoint images and the display width is 50 mm or less.
  • step S64 the viewpoint numbers of the two viewpoint images, that is, the combination of viewpoint numbers 2 and 3 are acquired.
  • step S62 to step S64 is repeated for all the viewpoint image combinations.
  • step S64 only the viewpoint number of the combination of viewpoint images whose product of the GOP maximum parallax amount (distant view) and the display size is 50 mm or less is acquired.
  • viewpoint numbers 1 and 2, 2 and 3, 2 and 4, 3 and 4 are acquired.
  • a viewpoint image of two viewpoints to be output to the 3D display is selected from the combination of viewpoint numbers acquired in step S64 (step S57).
  • a combination having the largest GOP parallax amount, a combination having the smallest GOP parallax amount, a combination including a viewpoint image close to the central viewpoint, and giving priority to the actual viewpoint image may be considered.
  • This reference may be determined in advance or may be configured so that the viewer can freely set it.
  • viewpoint number 2 and viewpoint number 3 which is the combination with the smallest amount of parallax, that is, viewpoint image (2) and viewpoint image (3) is selected.
  • the viewpoint images of the two viewpoints selected in step S57 are displayed in 3D on the 3D display (step S58). That is, here, 3D display is performed based on the viewpoint image (2) and the viewpoint image (3).
  • step S59 it is determined whether or not all GOPs have been read from the 3D moving image file (step S59). If not completed (“NO”), the process proceeds to step S52, and the above process is repeated. If completed (“YES”), 3D video playback is terminated.
  • step S64 If there is no viewpoint number acquired in step S64, that is, if all the combinations do not meet the conditions of step S63, 2D display is performed.
  • the criteria for selecting an image for 2D display may be determined as appropriate.
  • the GOP maximum parallax amount (distant view) recorded as the attached information of each viewpoint image is read, and the product with the display size of the output 3D display is calculated, and the product is smaller than the human binocular interval.
  • the viewpoint image is selected using both information.
  • FIG. 21 is a flowchart showing a case where a viewpoint image is selected based on the GOP maximum display size and the GOP maximum parallax amount (distant view).
  • symbol is attached
  • a viewpoint image capable of 3D display is selected based on the GOP maximum display size (steps S53 to S56).
  • a viewpoint image that can be displayed in 3D is selected based on the GOP maximum parallax amount (distant view) (steps S61 to S65). In this case, it is not necessary to perform processing for the combination with the reference viewpoint image.
  • the two-viewpoint viewpoint image to be output to the 3D display is selected from the combination with the reference viewpoint image acquired in step S55 and the combination of the two viewpoint images acquired in step S64 (step S57).
  • the criteria to be selected may be appropriately determined as before.
  • the viewpoint image of two viewpoints to be displayed is selected based only on the GOP maximum parallax amount on the far side, but may be determined in consideration of the GOP maximum parallax amount on the near side.
  • the GOP maximum parallax amount on the near view side not only the distant view side but also the close view side can appropriately determine a combination of images that can be stereoscopically viewed.
  • a combination in which the amount of parallax in the foreground is equal to or less than a predetermined value may be selected from the combinations of the viewpoint images of the two viewpoints acquired in step S64. This is because, when the amount of parallax on the near view side increases, the viewer feels tired when viewing stereoscopically, so it is preferable to set the value to 50 mm or less.
  • the value can be used. Further, as described with reference to FIG. 10, feature points may be extracted from each viewpoint image and calculated from the maximum parallax amount position on the foreground side.
  • FIG. 22 is a flowchart illustrating image reproduction processing according to the seventh embodiment.
  • the read 3D moving image file is the same as the file shown in Table 1.
  • the horizontal width of the display is assumed to be 1300 mm.
  • the display size of the output 3D display is acquired (step S51).
  • the display size can be acquired from a 3D display connected by an HDMI cable.
  • GOPs for four viewpoints are read from the 3D moving image file shown in FIG. 9 (step S52), and the value of the reference viewpoint number tag is read from each header area of the read GOP (step S71).
  • the reference viewpoint number 1 is read.
  • the GOP maximum display size is acquired from the attached information of the viewpoint image of the reference viewpoint number 1, that is, the viewpoint image (1) (step S72).
  • the value recorded here is the GOP maximum display size in the combination of viewpoints that has the maximum amount of parallax in combination with the viewpoint image (1).
  • the viewpoint image (4) GOP maximum display size in combination is the GOP maximum display size in the combination of viewpoints that has the maximum amount of parallax in combination with the viewpoint image (1).
  • the GOP maximum display size is compared with the display size acquired in step S71 (step S73). If the GOP maximum display size is larger than the display size (in the case of “YES”), there is no problem even if the viewpoint image (1) and the viewpoint image (4) are displayed in 3D as they are. The elephant is displayed in 3D on the 3D display (step S74).
  • step S73 if the comparison result in step S73 is NO, the process proceeds to step S75.
  • Step S75 acquires the viewpoint numbers of all the read viewpoint images. Furthermore, the value of the GOP maximum parallax amount of each viewpoint image is acquired from the attached information of each viewpoint image (step S76). As shown in Table 1, the GOP maximum parallax amount 4% is acquired from the viewpoint image (2), the GOP maximum parallax amount 7% is acquired from the viewpoint image (3), and the GOP maximum parallax amount 10% is acquired from the viewpoint image (4).
  • the allowable parallax amount in the 3D display that performs 3D display is calculated (step S77).
  • the allowable parallax amount is calculated by the following [Equation 3].
  • the display size refers to the horizontal width of the display.
  • the human binocular interval is 50 mm here, other numerical values may be used.
  • Allowable parallax amount [%] 50 mm / display size [mm] ⁇ 100
  • the allowable parallax amount is about 3.85%.
  • step S78 the arrangement of the reference viewpoint is confirmed (step S78). If the reference viewpoint is not near the center of all viewpoints, the viewpoint position near the center is set as a new reference viewpoint (step S79), and the maximum parallax amount of each viewpoint image with respect to the new reference viewpoint is calculated (step S80). .
  • viewpoint number 2 is set as a new reference viewpoint as the viewpoint near the center.
  • the GOP maximum parallax amount of each viewpoint image with respect to the viewpoint number 2 which is the new reference viewpoint is calculated.
  • the absolute value of the difference between the GOP maximum parallax amount described in the attached information of each viewpoint image and the GOP maximum parallax amount described in the attached information of the viewpoint image (2) is a new value. This is the GOP maximum parallax amount at the reference viewpoint. Therefore, the GOP maximum parallax amount of each viewpoint image is as follows.
  • GOP maximum parallax of viewpoint image (1)
  • 6% Note that such processing is performed because viewpoint images arranged closer to the center are more suitable for 3D display.
  • step S80 When the process of step S80 ends, or when it is determined in step S78 that the reference viewpoint is near the center of all viewpoints, the maximum value that is equal to or smaller than the allowable parallax amount among these GOP maximum parallax amounts Is selected (step S81).
  • the allowable parallax amount is 3.85% or less, the viewpoint satisfying this condition is the viewpoint number 3.
  • step S82 when a viewpoint satisfying the condition can be selected (step S82), 3D display is performed using the reference viewpoint image and the selected viewpoint image (step S83). If it cannot be selected (“NO” in step S82), 2D display is performed (step S84).
  • the allowable parallax amount is 2.94%, and a viewpoint having the maximum maximum parallax amount value that is equal to or smaller than the allowable parallax amount cannot be selected. In this case, 2D display is performed.
  • the pair of viewpoint images is selected based on the allowable amount of parallax, it is possible to appropriately select a viewpoint image suitable for stereoscopic viewing.
  • step S85 it is determined whether or not all GOPs have been read from the 3D moving image file. If not completed ("NO"), the process proceeds to step S52, and the above process is repeated. If completed (“YES”), 3D video playback is terminated.
  • step S82 2D display may be performed after performing parallax shifting or parallax compression to adjust to an appropriate amount of parallax, instead of performing 2D display.
  • parallax correction is performed for each GOP.
  • the present invention is not limited to this. For each scene using the maximum scene display size and the maximum scene parallax amount. You may make it correct parallax.
  • the first to seventh embodiments of the 3D moving image reproduction may be realized by the 3D moving image reproduction function of the stereoscopic imaging apparatus 10 shown in FIGS. 11 and 12, or the stereoscopic moving image reproduction without the imaging unit. You may make it implement
  • FIG. 23 is a diagram showing the overall configuration of the stereoscopic video playback device 300 and the 3D display 320. As shown in the figure, the stereoscopic video playback device 300 and the 3D display 320 are separately configured devices, and are communicably connected by a communication cable 310.
  • the 3D display 320 is a parallax barrier type or lenticular type display, and alternately displays the left viewpoint image and the right viewpoint image input from the stereoscopic video playback device 300 to the 3D display 320 for each line.
  • the 3D display 320 may be one that displays the left viewpoint image and the right viewpoint image by alternately switching in time. In this case, the viewer visually recognizes the 3D display 320 using special glasses.
  • FIG. 24 is a block diagram showing an internal configuration of the stereoscopic video playback device 300.
  • the stereoscopic moving image playback apparatus 300 includes a CPU 301, a recording control unit 305, a memory card 306, a display control unit 307, a communication interface 308, and the like.
  • the CPU 301 controls the overall operation of the 3D moving image playback apparatus 300 based on a control program such as a 3D moving image playback program recorded on a computer-readable recording medium such as the ROM 302 ("non-transitory" computer-readable “medium”). .
  • the RAM 303 is used as a calculation work area for the CPU 301.
  • the recording control unit 305 and the display control unit 307 are connected to the CPU 301 via the bus 304.
  • the recording control unit 305 controls data reading / writing of the 3D moving image file with respect to the memory card 306.
  • the memory card 306 is, for example, the same as the memory card 40 of the stereoscopic imaging device 10 shown in FIG. 12, and stores a 3D moving image file including each viewpoint image captured by the stereoscopic imaging device 10 and attached information. .
  • the communication interface 308 is a connector unit to which the communication cable 310 is connected, and the display control unit 307 displays a 3D moving image on the 3D display 320 via these.
  • the communication interface 308 and the communication cable 310 it is conceivable to adopt an HDMI standard.
  • the stereoscopic video playback device 300 can acquire the display size of the 3D display 320 connected via the communication cable 310.
  • the stereoscopic video playback device 300 may be provided with a compound eye imaging unit for capturing each viewpoint image, and the captured viewpoint image may be recorded in the memory card 306.
  • the stereoscopic video playback device 300 and the 3D display 320 may be configured as an integrated device.
  • a stereoscopic video playback program may be installed in a personal computer so that the personal computer functions as the stereoscopic video playback device 300.
  • SYMBOLS 10 Stereoscopic imaging device, 14-1, 14-2 ... Shooting optical system, 16 ... Liquid crystal monitor, 20-1, 20-2 ... Imaging part, 21 ... Focus lens and zoom lens, 24 ... CCD, 25 ... Analog signal Processing unit 32 ... Central processing unit (CPU) 34 ... Operation unit 40 ... Memory card 44 ... Digital signal processing unit 100 ... Subject, 101-1 to 101-4 ... Imaging device 211N, 212N ... Maximum parallax Amount position (near view), 211F, 212F ... Maximum parallax amount position (far view), 213N ... Maximum parallax amount on the near view side, 213F ... Maximum parallax amount on the far view side, 213F ... Maximum parallax amount on the far view side, 300 ... Stereoscopic video playback Device, 320 ... 3D display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 立体動画の出力先の3Dディスプレイのディスプレイサイズを取得するとともに(ステップS51)、立体動画ファイルらN(N:3以上の整数)視点の視点画像と、任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する1GOP毎に対応するGOP最大ディスプレイサイズを取得し、取得された立体ディスプレイのディスプレイサイズと各GOP最大ディスプレイサイズとを比較し、各GOP最大ディスプレイサイズのうちの立体ディスプレイのディスプレイサイズ以下と判別されたGOP最大ディスプレイサイズに対応する1組又は複数組の2視点の視点画像から1組の2視点の視点画像を選択して立体ディスプレイに出力する。

Description

立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法
 本発明は立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法に係り、特に複数の視点画像からなる立体画像が時間軸方向に連続して記録されている立体動画ファイルの立体動画を再生する技術に関する。
 立体撮像装置は、左右に視差を持って並べられた2つの撮像部を使って被写体を左右の視点から撮影し、左目用の視点画像と右目用の視点画像とをそれぞれ取得して記録媒体に記録している。この取得した左右の視点画像が記録媒体から読み出され、3次元(3D)表示が可能な3Dディスプレイに入力され、左目用の視点画像と右目用の視点画像とが左右の目で別々に視認できるように表示されることにより、立体動画として認識できるようになる。
 ところで、記録された左右の視点画像の視差量は、撮影シーンの変化、被写体の移動、ズーム倍率の変化等により変化し、一方、3Dディスプレイには様々な画面のサイズのものがある。したがって、立体動画を再生表示しようとする場合、3Dディスプレイのサイズに対して立体動画の視差量が適切でない場合が存在する。このような場合、画面からの飛び出し量や引っ込み量が過大となり、自然な立体動画として認識できないという問題点が発生する。
 特許文献1には、立体視可能な映像情報とともに、立体映像の再生に適する画面サイズに関する適合画面サイズ情報、3Dディスプレイの表示画面サイズ情報、再生時に観察者が見るのに適する表示画面までの距離に関する適合視距離情報、観察者から3Dディスプレイの表示画面までの距離に関する視距離情報を取得し、これらの情報に基づいて左目映像と右目映像とのずらし量(オフセット)を設定し、表示される映像の立体感を調整する技術が開示されている。
特開2004-180069号公報
 特許文献1に記載の立体映像は、静止画か動画かが明確ではない。立体動画の場合、左右の視点画像の視差量は、撮影シーンの変化、被写体の移動、ズーム倍率の変化等により変化する。仮に特許文献1に記載の技術により立体動画が自然な飛び出し量になるように立体動画の視差量を調整する場合、立体動画のフレーム単位で視差量を調整することが考えられる。しかし、この場合には、立体感が変化する立体動画としての特徴が失われ、又は不自然な立体動画になるという問題がある。
 ところで、3Dディスプレイの表示面において、左目画像に対して右目画像が右方向に視差を有する場合、立体像は表示面よりも奥行きを持った像として視認されるが、3Dディスプレイの画面サイズが大きくなると、この視差も大きくなり、人間の両眼間隔を越える視差になると、両眼融合不能になる(立体視できなくなる)。
 特許文献1には、3Dディスプレイの表示画面サイズに応じて最適な立体度(奥行き量)を調整した立体映像を得る記載があるが、上記のように両眼融合不能にならないように左目映像と右目映像とのずらし量を調整する記載はない。また、立体映像の遠景側(奥行き側)の最大視差量に関する記載もないため、特許文献1に記載の立体映像表示装置は、3Dディスプレイの画面サイズに関わらず人間の両眼間隔を越える視差にならないように、左目映像と右目映像とのずらし量を調整することはできない。
 本発明はこのような事情に鑑みてなされたもので、立体動画ファイルから読み出した立体動画を任意の画面サイズの立体ディスプレイに立体表示させる際に、立体ディスプレイの画面サイズに関わらず両眼融合可能なように適切な視差量の立体動画を再生することができる立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法を提供することを目的とする。
 前記目的を達成するために本発明に係る立体動画再生装置は、N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズであって、各立体動画のフレームを立体ディスプレイに表示させる際に両眼融合可能なフレーム毎の最大ディスプレイサイズのうち、前記所定の区間内でそれぞれ最大となる複数の区間内最大ディスプレイサイズを含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得する第1の取得手段と、出力先の立体ディスプレイのディスプレイサイズを取得する第2の取得手段と、前記取得された前記立体ディスプレイのディスプレイサイズと前記複数の区間内最大ディスプレイサイズとを比較し、前記立体ディスプレイのディスプレイサイズが前記複数の区間内最大ディスプレイサイズよりも大きいか否かを、前記複数の区間内最大ディスプレイサイズ毎に判別する判別手段と、前記判別手段により前記複数の区間内最大ディスプレイサイズのうちの前記立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する2つの視点画像を、前記N視点の視点画像から選択する選択手段と、前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択手段により選択された2つの視点画像からなる立体動画を出力する出力手段と、を備えている。
 この発明によれば、立体動画ファイルからN視点の視点画像と、任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズを取得するとともに、出力先の立体ディスプレイのディスプレイサイズを取得し、取得された立体ディスプレイのディスプレイサイズと各区間内最大ディスプレイサイズとを比較し、各区間内最大ディスプレイサイズのうちの立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する1組又は複数組の2視点の視点画像から1組の2視点の視点画像を選択して立体ディスプレイに出力するようにしたため、立体動画ファイルに記録された付属情報に基づいて適切な視差量の立体動画を選択出力することができる。
 本発明に係る立体動画再生装置は、N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量であって、各立体動画のフレーム毎の遠景側の最大視差量のうち、該立体動画の時間軸方向に連続する所定の区間内でそれぞれ最大となる複数の区間内最大視差量を含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得する第1の取得手段と、出力先の立体ディスプレイのディスプレイサイズを取得する第2の取得手段と、前記立体動画の所定の区間毎に対応して取得した複数の区間内最大視差量と前記取得した立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて、前記複数の区間内最大視差量に対応する前記所定の区間内の複数の立体動画を前記立体ディスプレイに表示する際に両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する判別手段と、前記判別手段により前記複数の区間内最大視差量のうちの両眼融合可能と判別された区間内最大視差量に対応する2つの視点画像を、前記N視点の視点画像から選択する選択手段と、前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択手段により選択された2つの視点画像からなる立体動画を出力する出力手段と、を備えている。
 この発明によれば、立体動画ファイルからN視点の視点画像と、任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量を取得するとともに、出力先の立体ディスプレイのディスプレイサイズを取得し、取得された立体ディスプレイのディスプレイサイズと各区間内最大視差量と人間の両眼間隔を示す所定値とに基づいて、該当区間内の立体動画を立体ディスプレイに表示する際に両眼融合可能1組又は複数組の2視点の視点画像から1組の2視点の視点画像を選択して立体ディスプレイに出力するようにしたため、立体動画ファイルに記録された付属情報に基づいて適切な視差量の立体動画を選択出力することができる。
 前記判別手段は、前記立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて許容視差量を算出し、前記複数の区間内最大視差量が前記許容視差量以下か否かにより両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する。
 この立体動画再生装置において、前記判別手段は、前記取得した区間内最大視差量と前記立体ディスプレイのディスプレイサイズとに基づいて、前記区間内最大視差量に対応する立体ディスプレイ上での画像ずれ量を算出する画像ずれ量算出手段を有し、前記算出された画像ずれ量が人間の両眼間隔を示す所定値を越えるか否かより両眼融合可能か否かを判別する。
 この立体動画再生装置において、前記出力手段は、前記選択手段により両眼融合可能な2つの視点画像が選択されない場合には、前記N視点の視点画像のうちの1つの視点画像を選択し、該選択した視点画像を前記立体ディスプレイに出力する。
 この立体動画再生装置において、前記N視点は予め設定された基準視点を含み、前記選択手段は、前記2つの視点画像を選択する際に前記基準視点に対応する視点画像を含む2つの視点画像を優先して選択する。
 この立体動画再生装置において、前記選択手段は、前記2つの視点画像を選択する際に区間内最大ディスプレイサイズ、又は区間内最大視差量が最も大きくなる2つの視点画像を選択する。
 この立体動画再生装置において、前記選択手段は、前記2つの視点画像を選択する際に区間内最大ディスプレイサイズ、又は区間内最大視差量が最も小さくなる2つの視点画像を選択する。
 この立体動画再生装置において、前記選択手段は、前記2つの視点画像を選択する際に中央近傍の視点画像を含む2つの視点画像を優先して選択する。
 この立体動画再生装置において、前記選択手段は、前記立体動画ファイルに記録された前記N視点の視点画像が、実視点に対応する複数の視点画像と、実視点に対応する複数の視点画像から生成された仮想視点に対応する仮想視点画像とが混在している場合において、前記2つの視点画像を選択する際に前記実視点の視点画像を含む2視点の視点画像を優先して選択する。
 この立体動画再生装置において、前記立体動画ファイルは、複数のフレームからなる1GOP毎に複数の視点画像が順次記録されたMPEGファイルであり、前記立体動画の所定の区間は、1又は2以上の所定数のGOPに対応する区間である。
 この立体動画再生装置において、前記立体動画の所定の区間は、シーン毎に区分されている区間である。
 本発明に係る立体動画再生プログラムは、上記立体動画再生装置を、コンピュータにより実現させる。この立体動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体も本発明に含まれる。
 本発明に係る立体ディスプレイ装置は、上記立体動画再生装置と、前記出力先の立体ディスプレイと、を備えている。
 本発明に係る立体撮像装置は、複数の視点画像からなる立体画像が時間軸方向に連続している立体動画を取得する撮像手段と、前記取得した立体動画のフレーム毎に複数の視点画像から特徴が一致する特徴点間のずれ量を示す視差量を算出する視差量算出手段と、前記算出したフレーム毎の各特徴点の視差量のうちの遠景側の最大視差量を取得する最大視差量取得手段と、前記取得した遠景側の最大視差量のうちの前記立体動画の所定の区間毎に該区間内で最大となる区間内最大視差量を取得する区間内最大視差量取得手段と、前記立体動画の所定の区間毎に取得した区間内最大視差量に基づいて、前記所定の区間毎に前記立体画像を立体ディスプレイに表示させる際に両眼融合可能な区間内最大ディスプレイサイズを取得する区間内最大ディスプレイサイズ取得手段と、前記立体動画が記録される立体動画ファイルを生成し、該立体動画ファイルを記録媒体に記録する記録手段であって、前記立体動画を前記立体動画ファイルに記録するとともに、前記所定の区間毎の区間内最大ディスプレイサイズを付属情報として前記立体動画ファイルに記録する記録手段と、上記立体動画再生装置と、を備え、前記第1の取得手段は、前記記録媒体から立体動画ファイルを読み取る。
 本発明に係る立体撮像装置は、複数の視点画像からなる立体画像が時間軸方向に連続している立体動画を撮影する撮像手段と、前記取得した立体動画のフレーム毎に複数の視点画像から特徴が一致する特徴点間のずれ量を示す視差量を算出する視差量算出手段と、前記算出したフレーム毎の各特徴点の視差量のうちの遠景側の最大視差量を取得する最大視差量取得手段と、前記取得した遠景側の最大視差量のうちの前記立体動画の所定の区間毎に該区間内で最大となる区間内最大視差量を取得する区間内最大視差量取得手段と、前記立体動画が記録される立体動画ファイルを生成し、該立体動画ファイルを記録媒体に記録する記録手段であって、前記立体動画を前記立体動画ファイルに記録するとともに、前記所定の区間毎の区間内最大視差量を付属情報として前記立体動画ファイルに記録する記録手段と、請求項2に記載の立体動画再生装置と、を備え、前記第1の取得手段は、前記記録媒体から立体動画ファイルを読み取る。
 本発明に係る立体動画再生方法は、立体動画再生装置が、N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズであって、各立体動画のフレームを立体ディスプレイに表示させる際に両眼融合可能なフレーム毎の最大ディスプレイサイズのうち、前記所定の区間内でそれぞれ最大となる複数の区間内最大ディスプレイサイズを含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、出力先の立体ディスプレイのディスプレイサイズを取得するステップと、前記取得された前記立体ディスプレイのディスプレイサイズと前記複数の区間内最大ディスプレイサイズとを比較し、前記立体ディスプレイのディスプレイサイズが前記複数の区間内最大ディスプレイサイズよりも大きいか否かを、前記複数の区間内最大ディスプレイサイズ毎に判別する判別ステップと、前記判別ステップにより前記複数の区間内最大ディスプレイサイズのうちの前記立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、を実行する。
 本発明に係る立体動画再生方法は、立体動画再生装置が、N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量であって、各立体動画のフレーム毎の遠景側の最大視差量のうち、該立体動画の時間軸方向に連続する所定の区間内でそれぞれ最大となる複数の区間内最大視差量を含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、出力先の立体ディスプレイのディスプレイサイズを取得するステップと、前記立体動画の所定の区間毎に対応して取得した複数の区間内最大視差量と前記取得した立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて、前記複数の区間内最大視差量に対応する前記所定の区間内の複数の立体動画を前記立体ディスプレイに表示する際に両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する判別ステップと、前記判別ステップにより前記複数の区間内最大視差量のうちの両眼融合可能と判別された区間内最大視差量に対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、を実行する。
 本発明によれば、立体動画ファイルからN視点の視点画像と、N(N:3以上の整数)視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズ又は区間内最大視差量を取得するとともに、出力先の立体ディスプレイのディスプレイサイズを取得し、取得された立体ディスプレイのディスプレイサイズと各区間内最大ディスプレイサイズ又は区間内最大視差量と人間の両眼間隔を示す所定値とに基づいて、両眼融合可能な1組又は複数組の2視点の視点画像から1組の2視点の視点画像を選択して立体ディスプレイに出力するようにしたため、立体動画ファイルに記録された付属情報に基づいて適切な視差量の立体動画を選択出力することができる。また、適切な視差量の立体動画を選択出力するため、立体動画の視差補正のための処理が不要であり、画像処理の負担を軽減することができる。
2視点の視点画像を撮影する様子を示した図 3D動画ファイルのデータ構造を模式的に示した第1の例を示す図 撮影、記録処理を示したフローチャート 2視点の視点画像の一例を示す図 3D動画ファイルのデータ構造を模式的に示した第2の例を示す図 3D動画ファイルのデータ構造を模式的に示した第3の例を示す図 3D動画ファイルのデータ構造を模式的に示した第4の例を示す図 4視点の視点画像を撮影する様子を示した図 4視点の視点画像が記録された3D動画ファイルのデータ構造を模式的に示した図 仮想視点について説明するための図 立体撮像装置の前面外観を示す図 立体撮像装置の背面外観を示す図 立体撮像装置の内部構成を示すブロック図 3D動画再生の第1の実施形態を示すフローチャート 視差ずらしの原理を説明するための図 左右の視点画像と視差ずらしを示す図 3D動画再生の第2の実施形態を示すフローチャート 3D動画再生の第3の実施形態を示すフローチャート 視差補正テーブルの一例を示すグラフ 3D動画再生の第4の実施形態を示すフローチャート 3D動画再生の第5の実施形態を示すフローチャート 3D動画再生の第6の実施形態を示すフローチャート 3D動画再生の第7の実施形態を示すフローチャート 立体動画再生装置と3Dディスプレイの全体構成を示す図 立体動画再生装置の内部構成を示すブロック図
 以下、添付図面にしたがって本発明の好ましい実施の形態について詳説する。
 [3D動画ファイルの第1の実施形態]
 第1の実施形態に係る立体動画ファイル(3D動画ファイル)について説明する。
 図1は、2つの撮像装置101-2、101-3によって、被写体100について異なる視点から2視点(左視点、右視点)の視点画像(動画)を撮影する様子を示した図であり、図2は、図1に示す撮像装置101-2、101-3において撮影された左視点及び右視点の動画からなる3D動画が記録された3D動画ファイルのデータ構造を模式的に示した図である。
 図2に示す3D動画ファイルは、MPEG(moving picture expert group)フォーマットに準拠したMPEGファイルであり、1GOP(Group of picture:MPEG圧縮において、圧縮時及び再生・編集時の単位となる映像信号の数フレームずつの組み合わせ)の単位で、左視点の視点画像と右視点の視点画像とが交互に連結されて1つのファイルにまとめられている。
 各GOPの視点画像が記録される領域の先頭には、ヘッダ領域が設けられており、このヘッダ領域には、画像サイズ、アスペクト比、フレームレート等の付属情報が記録される。また、本実施形態では、付属情報として、更に下記の付属情報の全部又一部が記録される。
 ・GOP最大ディスプレイサイズ(幅、高さ、単位:mm)
 ・想定視距離(立体動画を観察する際の視認者と3Dディスプレイとの距離)(単位:mm)
 ・GOP最大視差量(近景):画像幅に対する視差量(%)
 ・GOP最大視差量(遠景):画像幅に対する視差量(%)
 ・各視点画像を撮影した装置の輻輳角、基線長、撮像部配置(視点番号)
 このような3D動画ファイルを記録するための撮影、記録処理について、図3のフローチャートを用いて説明する。
 まず、左視点及び右視点に対応する1GOP内の複数フレームのうちの1フレーム分の左右の視点画像を取得する(ステップS11)。ここでは、図1に示すように2つの撮像装置101-2、101-3によって被写体100について3D動画撮影された3D動画中の1フレーム分の左右の視点画像を取得する。尚、ここでは撮像装置101-2を視点番号2、撮像装置101-3を視点番号3とする。
 次に、左右の視点画像から複数の特徴点を抽出し(ステップS12)、特徴点毎の視差量を算出する(ステップS13)。ここで、視差量とは、視点画像間で対応する特徴点の、それぞれの視点画像の左端からの距離の差を指し、単位はピクセルである。このように算出した特徴点毎の視差量から、近景側の最大視差量と遠景側の最大視差量を取得する(ステップS14)。
 図4は左右の視点画像の一例を示す図であり、図4の(a)部分は左視点画像201-2を示し、図4の(b)部分は右視点画像201-3を示している。
 図4の例では、近景側の最大視差量は213Nであり、この視差量を持つ特徴点(最大視差量位置(近景))は、それぞれ211N、212Nである。また、遠景側の最大視差量は213Fであり、この視差量を持つ特徴点(最大視差量位置(遠景))は、それぞれ211F、212Fである。即ち、この左右の視点画像に基づく立体画像を立体視した場合には、最大視差量位置(近景)が最も近くに見え、最大視差量位置(遠景)が最も離れて見えることになる。
 これら近景側の最大視差量213N及び遠景側の最大視差量213Fの、画像幅に対する比率(%)が、最大視差量(近景)(%)、最大視差量(遠景)(%)となる。
 続いて、1GOP内の全てのフレームの最大視差量の取得が終了したか否かを判別し(ステップS15)、終了していない場合(「NOの場合」)には、ステップS11に戻り、ステップS11からステップS14の処理を実行させ、終了した場合(「YESの場合」)には、ステップS16に遷移させる。
 ステップS16では、1GOP内の全てのフレームの最大視差量のうち最大のものを、GOP最大視差量として取得する。また、このGOP最大視差量に基づいて、GOP最大ディスプレイサイズを取得する。
 遠景側の視差量が人間の両眼間隔を超えると、画像のその位置は両眼融合不能となり、立体視ができなくなる。したがって、GOP最大視差量(遠景)の画像幅に対する比率(%)から、視差が人間の両眼間隔を超えないディスプレイサイズのうちの最大のディスプレイサイズ(GOP最大ディスプレイサイズ)を取得する。
 例えば、人間の両眼間隔を50mmと仮定し、GOP最大視差量(遠景)の画像幅に対する比率が10%であれば、立体視するのに許容される最大のディスプレイ幅は500mmとなる。即ち、幅500mm以下のディスプレイであれば、GOP最大視差量(遠景)に対応する左右の像が両眼間隔50mmを超えることなく表示され、その結果、視認者は立体視が可能となる。
 ここで、縦横比が16:9のディスプレイを想定する場合には、最大のディスプレイ高さは281.25mmとなる。
 尚、人間の両眼間隔は、対象とする視認者に応じて適宜決めればよい。例えば、成人だけを対象とする場合には、65mm等の幅広の値に設定してもよい。
 例えば、人間の両眼間隔を65mmと仮定し、GOP最大視差量(遠景)の画像幅に対する比率が15%であれば、立体視するのに許容されるGOP最大ディスプレイサイズの幅は約433mmとなる。また、縦横比が16:9の3Dディスプレイを想定する場合には、GOP最大ディスプレイサイズの高さは約244mmとなる。
 また、人間の両眼間隔から算出するのではなく、予め最大視差量に対応する最大ディスプレイサイズが記録されているテーブルを用意しておき、このテーブルを参照することによりGOP最大ディスプレイサイズを取得してもよい。
 次に、1GOP分の左視点画像及び右視点画像をそれぞれMPEG圧縮し、図2に示すように交互に連結して3D動画ファイルとして記録するとともに、各GOPの視点画像が記録される領域の先頭のヘッダ領域に、ステップS16で取得したGOP最大ディスプレイサイズ、GOP最大視差量(遠景)(%)、GOP最大視差量(近景)(%)等を付属情報として記録する(ステップS17)。そして、3D動画の全てのGOPについて上記の処理を行うことで、図2に示す3D動画ファイルを記録することができる。
 このように記録された3D動画ファイルは、3Dディスプレイに表示される際に立体動画再生装置によって読み出される。この際、立体動画再生装置において、3D動画ファイルの付属情報に記録されているGOP最大ディスプレイサイズと、表示しようとしている3Dディスプレイの表示サイズとを比較することにより、立体視可能か否かを容易に判別することができる。立体視可能と判断した場合には、記録されている3D動画をそのまま表示すればよく、また、立体視不能と判別した場合には、そのGOP最大ディスプレイサイズやGOP最大視差量を使用して該当GOP内の左右の視点画像の視差を補正することができ、立体動画再生装置における視差の補正処理を軽減させることができる。
 尚、本実施形態では、遠景側のGOP最大視差量だけに基づいてGOP最大ディスプレイサイズを決定したが、近景側のGOP最大視差量を考慮して決定してもよい。近景側のGOP最大視差量を考慮することにより、遠景側だけでなく、近景側も適切に立体視可能なGOP最大ディスプレイサイズを決定することができるようになる。
 例えば、近景の視差量が50mm以下となるディスプレイサイズをGOP最大ディスプレイサイズとしてもよい。近景側の視差量が大きくなると、視認者は立体視をするのに疲労を感じるため、所定量以下とすることが好ましいからである。
 また、本実施形態では、GOP最大視差量、GOP最大ディスプレイサイズは、これらが取得されたGOPの先頭のヘッダ領域に付属情報として記録するようにした。しかし、これに限らず、図5に示すように2GOP前(1GOP分の時間だけ前)のGOPの先頭のヘッダ領域に記録するようにしてもよい。また、図6に示すように3D動画ファイルの先頭のヘッダ領域に全てのGOPから取得したGOP最大視差量、GOP最大ディスプレイサイズをまとめて記録するようにしてもよい。これによれば、3D動画ファイルを読み出した立体動画再生装置では、1GOP内の立体動画の視差を調整すべきか否かを事前に検知することができ、調整すべき視差量も事前に算出することができる。
 更に、本実施形態では、1GOP内で最大となるGOP最大視差量、GOP最大ディスプレイサイズを取得するようにした。しかし、これに限らず、予め設定した所定数のGOP(区間)毎に区間内最大視差量、区間内最大ディスプレイサイズを取得し、その区間内の3D動画に対する付属情報として記録するようにしてもよい。
 [3D動画ファイルの第2の実施形態]
 第2の実施形態では、図7に示すように3D動画のシーンが変わる場合、そのシーンの先頭の付属情報として、下記の付属情報の全部又は一部を記録する。
 ・シーン先頭を示すフラグ
 ・シーン最大ディスプレイサイズ(幅、高さ、単位:mm)
 ・想定視距離(立体動画を観察する際の視認者と3Dディスプレイとの距離)(単位:mm)
 ・シーン最大視差量(近景):画像幅に対する視差量(%)
 ・シーン最大視差量(遠景):画像幅に対する視差量(%)
 ・各視点画像を撮影した装置の輻輳角、基線長、撮像部配置(視点番号)
 ・各視点画像を撮影した装置の輻輳角、基線長、撮像部配置(視点番号)
 更に、ズームイIN/OUTされたことを示すフラグ、手ブレ補正がON/OFF/Resetされたことを示すフラグを付属情報として記録するようにしてもよい。
 シーンの変化は、取得した3D動画からシーンチェンジを検知するシーンチェンジ検知手段により行うことができる。例えば、録画時刻を示すタイムスタンプの時間が前後の3D動画フレームで離れている場合、前後の3D動画フレームの相関を求め、その相関がない場合、隣接するGOPのGOP最大視差量が所定の閾値以上変化した場合、手ブレ補正状態が変化(ON→OFF、OFF→ON、Reset)した場合等から検知することができる。尚、シーンチェンジの検知方法は上記の例に限定されず、種々の方法が考えられる。
 シーン先頭フラグは、図7に示すように3D動画の各シーンが連結された3D動画ファイルにおける各シーンの先頭を示すフラグであり、シーン最大視差量は、そのシーン内の3D動画のうちで最大になる視差量であり、シーン最大ディスプレイサイズは、そのシーン内のシーン最大視差量に基づいて取得された、該シーンを立体ディスプレイに表示させる際に両眼融合可能なディスプレイサイズのうちの最大のディスプレイサイズである。
 そして、図7に示すように3D動画の各シーンが連結された3D動画ファイルには、シーン毎にそのシーンの先頭にシーン先頭フラグ、シーン中のシーン最大視差量、シーン最大ディスプレイサイズ等の付属情報が記録される。尚、シーン先頭の付属情報には、上記の情報に加え、当該シーンのシーン長情報も記録される。シーン長情報は、当該シーンを構成するGOPの数で表すことができる。
 [3D動画ファイルの第3の実施形態]
 第1の実施形態では、2視点から撮影した左右の視点画像を例に説明したが、本発明に係る3D動画の視点の数は2視点に限らず、3視点以上の多視点の視点画像であってもよい。
 図8は、4つの撮像装置101-1~101-4によって、被写体100について異なる視点から4視点の視点画像を撮影する様子を示した図である。ここでは、撮像装置101-1~101-4の視点番号を順に1~4とする。
 図9は、この4つの撮像装置101-1~101-4によって撮影された4視点の視点画像が記録された3D動画ファイルのデータ構造を模式的に示した図である。この3D動画ファイルは、図2に示したファイルと同様にMPEGファイルであり、4視点の視点画像が1GOPの単位で、視点番号1~4に対応する各視点画像(1)~(4)が、順番にかつ繰り返し連結されて1つのファイルにまとめられている。
 また、1GOP毎の各視点画像が記録される記録領域の先頭のヘッダ領域には、第1の実施形態と同様に、GOP最大ディスプレイサイズ、GOP最大視差量、想定視距離、各視点画像を撮影した装置の輻輳角、基線長、撮像部配置(視点番号)等の付属情報が記録される。
 尚、各視点画像(1)~(4)の先頭に記録されるGOP最大ディスプレイサイズ、GOP最大視差量等は、その視点画像と他の視点画像との間で算出された値が記録される。具体的には、視点画像(1)に対するGOP最大ディスプレイサイズ、GOP最大視差量は、図8に示すように左端の基準視点で撮影された視点画像(1)を基準として、最も視差量が大きい視点画像(ここでは視点画像(4))から算出されたGOP最大視差量、及びこの最大視差量から取得されたGOP最大ディスプレイサイズ、想定視距離等が記録される。輻輳角、基線長等についても、同様の視点画像(ここでは視点画像(4))を撮影した装置との輻輳角、基線長が記録される。
 視点画像(2)の付属情報としては、当該視点画像(2)と基準視点で撮影された視点画像(1)とから算出されたGOP最大ディスプレイサイズ、GOP最大視差量、想定視距離、輻輳角、基線長、視点番号等が記録される。
 視点画像(3)の付属情報としては、当該視点画像(3)と基準視点で撮影された視点画像(1)とから算出されたGOP最大ディスプレイサイズ、GOP最大視差量、想定視距離、輻輳角、基線長、視点番号等が記録される。
 視点画像(4)の付属情報としては、当該視点画像(4)と基準視点で撮影された視点画像(1)とから算出されたGOP最大ディスプレイサイズ、GOP最大視差量、想定視距離、輻輳角、基線長、視点番号等が記録される。
 このように3視点以上の多視点の視点画像が記録された3D動画ファイルは、3Dディスプレイに表示される際に立体動画再生装置によって読み出される。この際、立体動画再生装置において、3D動画ファイルの付属情報に記録されている視点画像毎のGOP最大ディスプレイサイズと、表示しようとしている3Dディスプレイの表示サイズとを比較することにより、立体視可能か否かを容易に判別することができる。
 尚、多視点画像の記録順は、図9に示した順序に限定されるものではなく、3Dディスプレイに表示させる際の推奨画像(2つの視点画像)を先に記録するようにしてもよい。例えば、中央の2視点の視点画像(2)と視点画像(3)による立体表示が推奨されるのであれば、視点画像(2)、(3)を先に記録し、続いて視点画像(1)、(4)を記録し、一方、両端の2視点の視点画像(1)、(4)による立体表示が推奨されるのであれば、視点画像(1)、(4)を先に記録し、続いて視点画像(2)、(3)を記録してもよい。
 [3D動画ファイルの第4の実施形態]
 第3の実施形態のような多視点画像は、全てが実際に撮影された画像である必要はなく、仮想視点に対応した仮想視点画像を含んでいてもよい。
 例えば、図10に示すように、2つの撮像装置101-1、101-4によって、被写体100について異なる視点(視点番号1、視点番号4)から2枚の視点画像を撮影する。
 更に、視点番号1と視点番号4とは異なる視点であって、実際には存在しない仮想視点における視点番号2、視点番号3の視点画像2、視点画像3を生成してもよい。仮想視点画像を生成するには、複数の撮影画像の各画素を内分する方法や、複数の撮影画像から生成された視差マップと、1枚の撮影画像を用いて生成する方法等があるが、特に限定されるものではない。
 仮想視点の視点画像を含む多視点の視点画像が記録された3D動画ファイルには、多視点の視点画像のうちの先頭の視点画像(1)の付属情報として、各視点の視点画像が実視点の視点画像か仮想視点の視点画像かを示す情報をまとめて記録する(図9参照)。尚、先頭の視点画像(1)の付属情報として、実視点、仮想視点の情報をまとめて記録する場合に限らず、各視点画像(1)~(4)の付属情報として、個別に実視点の視点画像か仮想視点の視点画像かを示す情報を記録するようにしてもよい。この実視点の視点画像か仮想視点の視点画像かを示す情報は、3D動画を2D動画として表示する場合に利用することができる。
 [立体撮像装置の外観]
 図11A、図11Bは本発明に係る立体撮像装置の外観を示す図であり、図11Aは立体撮像装置を前面側から見た斜視図であり、図11Bは背面図である。
 この立体撮像装置(複眼カメラ)10は、2D/3Dの静止画、及び2D/3Dの動画の記録再生が可能なデジタルカメラであり、図11に示すように薄型の直方体状のカメラ本体の上面には、シャッタボタン11、ズームボタン12が配設されている。
 図11Aに示すようにカメラ本体の前面には、カメラ本体の左右方向の幅と略一の幅を有するレンズバリア13が、カメラ本体の上下方向に移動自在に配設されており、このレンズバリア13を、二点鎖線で示す位置と実線で示す位置との間で上下方向に移動させることにより、左右一対の撮影光学系14-1,14-2の前面を同時に開閉できるようになっている。尚、撮影光学系14-1,14-2としては、屈曲光学系のズームレンズが使用されている。また、レンズバリア13によるレンズ前面の開閉動作に連動して、カメラ電源をON/OFFさせることができるようになっている。
 図11Bに示すようにカメラ本体の背面には、その中央部に3D用の液晶モニタ16が配設されている。液晶モニタ16は、複数の視差画像(右視点画像、左視点画像)をパララックスバリアによりそれぞれ所定の指向性を持った指向性画像として表示できるものである。尚、3D用の液晶モニタ16としては、レンチキュラレンズを使用するものや、偏光メガネ、液晶シャッタメガネなどの専用メガネをかけることで右視点画像と左視点画像とを個別に見ることができるものなどが適用できる。
 上記液晶モニタ16の左右には、各種の操作スイッチが配設されている。操作スイッチ18Aは、静止画撮影と動画撮影とを切り替える切替えスイッチであり、操作スイッチ18Bは、右視点画像と左視点画像の視差量を調整する視差調整スイッチであり、操作スイッチ18Cは2D撮像と3D撮像とを切り替える切替えスイッチである。また、操作スイッチ18Dは、MENU/OKボタンと再生ボタンとを兼ねたシーソーキーであり、操作スイチ18Eは、マルチファンクションの十字キーであり、操作スイッチ18Fは、DISP/BACKキーである。
 MENU/OKボタンは、液晶モニタ16の画面上にメニューを表示させる指令を行うためのメニューボタンとしての機能と、選択内容の確定及び実行などを指令するOKボタンとしての機能とを兼備した操作スイッチである。再生ボタンは、撮影モードから再生モードに切り替えるボタンである。十字キーは、上下左右の4方向の指示を入力する操作スイッチであり、マクロボタン、フラッシュボタン、セルフタイマーボタン等が割り当てられている。また、十字キーは、メニューが選択されている場合には、そのメニュー画面から項目を選択したり、各メニューから各種設定項目の選択を指示するスイッチ(カーソル移動操作手段)として機能する。また、十字キーの左/右キーは再生モード時のコマ送り(順方向/逆方向送り)ボタンとして機能する。DISP/BACKキーは、液晶モニタ16の表示形態を切り替えたり、メニュー画面上での指示内容の取消し、あるいは1つ前の操作状態に戻らせる時などに使用される。
 尚、図11A上で、15はステレオマイクである。
 [立体撮像装置の内部構成]
 図12は上記立体撮像装置10の内部構成を示すブロック図である。
 図12に示すように、この立体撮像装置10は、主として複数の撮像部20-1,20-2、中央処理装置(CPU)32、前述したシャッタボタン11、ズームボタン12、及び各種の操作スイッチを含む操作部34、表示制御部36、液晶モニタ16、記録制御部38、圧縮/伸張処理部42、デジタル信号処理部44、AE(Automatic Exposure:自動露出)検出部46、AF(Auto Focus:自動焦点)検出部48、AWB(Automatic White Balance:自動ホワイトバランス)検出部50、VRAM52、RAM54、ROM56、及びEEPROM58等から構成されている。尚、撮像部20-1,20-2は、互いに視差を有する左眼用画像と右眼用画像の2枚の視差画像を撮像するが、撮像部20は、3つ以上あってもよい。
 左眼用画像を撮像する撮像部20-1は、プリズム(図示せず)、フォーカスレンズ及びズームレンズ21からなる撮影光学系14-1(図14)、絞り22及びメカシャッタ23からなる光学ユニットと、固体撮像素子(CCD)24と、アナログ信号処理部25と、A/D変換器26と、画像入力コントローラ27と、前記光学ユニットを駆動するレンズ駆動部28、絞り駆動部29及びシャッタ制御部30と、CCD24を制御するCCD制御部31とを備えている。尚、右眼用画像を撮像する撮像部20-2は、前記左眼用画像を撮像する撮像部20-1と同じ構成を有するため、その具体的な構成の説明は省略する。
 CPU32は、操作部34からの入力に基づき所定の制御プログラムにしたがってカメラ全体の動作を統括制御する。特徴点抽出による視差量の算出、最大視差量の取得、GOP最大ディスプレイサイズの算出、シーン最大ディスプレイサイズの算出、GOP最大視差量の算出、シーン最大視差量の算出、シーンチェンジの検知、視差ずらし、仮想視点画像の生成等もCPU32によって行われる。
 尚、ROM56には、CPU32が実行する制御プログラム及び制御に必要な各種データ、3D動画処理プログラムや3D動画再生プログラム等が格納され、EEPROM58には、製品出荷前の調整時の調整結果を示す各種の情報、例えばCCD24の画素欠陥情報、画像処理等に使用する補正パラメータや、最大視差量と最大ディスプレイサイズとの対応テーブル等が記憶されている。
 また、VRAM52は、液晶モニタ16に表示する表示用の画像データを一時記憶するメモリであり、RAM54は、CPU32の演算作業用領域及び画像データの一時記憶領域を含んでいる。
 撮影光学系に含まれるフォーカスレンズ及びズームレンズ21は、レンズ駆動部28により駆動されて光軸に沿って前後に移動する。CPU32は、レンズ駆動部28の駆動を制御することにより、フォーカスレンズの位置を制御して被写体に焦点が合うように焦点調節を行うとともに、操作部34中のズームボタン12からのズーム指令に応じてズームレンズのズーム位置を制御してズーム倍率を変更させる。
 絞り22は、例えば、アイリス絞りで構成されており、絞り駆動部29に駆動されて動作する。CPU32は、絞り駆動部29を介して絞り22の開口量(絞り値)を制御し、CCD24への入射光量を制御する。
 メカシャッタ23は、光路を開閉することによりCCD24での露光時間を決めるとともに、CCD24からの画像信号の読み出し時に不要光がCCD24に入射しないようにしてスミアの発生を防止する。CPU32は、シャッタ速度に対応する露光終了時点に同期したシャッタ閉信号をシャッタ制御部30に出力し、メカシャッタ23を制御する。
 CCD24は、2次元のカラーCCD固体撮像素子により構成されている。CCD24の受光面には、多数のフォトダイオードが2次元的に配列されており、各フォトダイオードには所定の配列でカラーフィルタが配置されている。
 上記構成の光学ユニットを介してCCD受光面上に結像された被写体の光学像は、このフォトダイオードによって入射光量に応じた信号電荷に変換される。各フォトダイオードに蓄積された信号電荷は、CPU32の指令にしたがってCCD制御部31から与えられる駆動パルスに基づいて信号電荷に応じた電圧信号(画像信号)としてCCD24から順次読み出される。CCD24は、電子シャッタ機能を備えており、フォトダイオードへの電荷蓄積時間を制御することにより、露光時間(シャッタ速度)が制御される。尚、電子シャッタによりシャッタ速度に対応する電荷蓄積開始時点が制御され、前記メカシャッタ23を閉じることにより露光終了時点(電荷蓄積終了時点)が制御される。この実施形態では、撮像素子としてCCD24を用いているが、CMOSセンサ等の他の構成の撮像素子を用いることもできる。
 CCD24から読み出されたR、G、Bのアナログ信号は、アナログ信号処理部25により相関二重サンプリング(CDS)や増幅が行われた後、A/D変換器26によりR、G、Bのデジタル信号に変換される。
 画像入力コントローラ27は、所定容量のラインバッファを内蔵しており、A/D変換器26によりA/D変換されたR、G、Bの画像信号(CCDRAWデータ)を一時蓄積したのち、バス60を介してRAM54に格納する。
 CPU32は、3D撮像モード時には左視点画像を撮像する撮像部20-1と同様に右視点画像を撮像する撮像部20-2を制御する。
 AE検出部46は、シャッタボタン11の半押し時に取り込まれる画像信号に基づいてAE制御に必要な被写体輝度を算出し、被写体輝度(撮影EV値)を示す信号をCPU32に出力する。CPU32は、入力する撮影EV値に基づいて所定のプログラム線図にしたがって複数の撮像部20-1,20-2におけるシャッタ速度(露光時間)、絞り値、撮影感度を設定する。
 AF検出部48は、シャッタボタン11の半押し時に取り込まれるAFエリアの画像信号の高周波成分の絶対値を積算し、この積算した値(AF評価値)をCPU32に出力する。CPU32は、フォーカスレンズを至近から無限遠側に移動させ、AF検出部48により検出されるAF評価値が最大となる合焦位置をサーチし、その合焦位置にフォーカスレンズを移動させることにより、被写体(主要被写体)への焦点調節を行う。尚、動画撮影時には、前記AF評価値が常に最大値をとるようにフォーカスレンズを移動させる、いわゆる山登り制御が行われる。
 AWB検出部50は、本撮像時に取得されたR、G、Bの画像信号に基づいて自動的に光源種(被写界の色温度)を求め、予め光源種別に設定されたR、G、Bのホワイトバランスゲイン(ホワイトバランス補正値)を記憶するテーブルから対応するホワイトバランスゲインを読み出す。
 デジタル信号処理部44は、ホワイトバランス補正回路、階調変換処理回路(例えば、ガンマ補正回路)、単板CCDのカラーフィルタ配列に伴うR,G,Bなどの色信号の空間的なズレを補間して各色信号の位置を合わせる同時化回路、輪郭補正回路、輝度・色差信号生成回路等を含み、RAM54に格納されたR、G、Bの画像信号(CCDRAWデータ)に対して画像処理を行う。即ち、R、G、BのCCDRAWデータは、デジタル信号処理部44において、AWB検出部50により検出されたホワイトバランスゲインが乗算されてホワイトバランス補正が行われ、その後、階調変換処理(例えば、ガンマ補正)等の所定の処理が施された後、輝度信号(Y信号)及び色差信号(Cr、Cb信号)からなるYC信号に変換される。デジタル信号処理部44により処理されたYC信号はRAM54に格納される。
 また、デジタル信号処理部44は、複数の撮像部20-1,20-2の撮影光学系のレンズ歪補正を補正するディストーション補正回路、左右視点画像からそれぞれ所定の切り出しエリアの画像を切り出すことにより複数の撮像部20-1,20-2の撮影光学系の光軸ずれを補正する画像切り出し処理回路を含んで構成されている。
 圧縮/伸張処理部42は、メモリカード40への記録時にはCPU32からの指令に従い、RAM54に格納されたYC信号を圧縮処理し、また、メモリカード40に記録された圧縮された圧縮データを伸張処理してYC信号にする。
 記録制御部38は、圧縮/伸張処理部42により圧縮された圧縮データを所定形式の画像ファイル(例えば、3D静止画は、MPファイル、3D動画は、MPEG4、MPEG4-MVC、モーションJPEG、H.264の動画ファイル)にしてメモリカード40に記録し、又はメモリカード40から動画ファイルの読み出しを行う。
 また、記録制御部38は、本発明に係る3D動画ファイルを記録する際には、第1の実施形態から第4の実施形態で説明したように画像サイズ、アスペクト比、フレームレート等の付属情報の他、GOP最大ディスプレイサイズ、シーン最大ディスプレイサイズ、想定視距離、GOP最大視差量(近景)(%)、GOP最大視差量(遠景)(%)、シーン最大視差量(近景)(%)、シーン最大視差量(遠景)(%)を付属情報としてメモリカード40に記録する。
 この場合、3D動画の撮影時に、第1の実施形態から第4の実施形態で説明した3D動画ファイルを作成・記録する場合の他、一旦、通常の3D動画ファイルとしてメモリカード40に記録し、その後、メモリカード40から3D動画ファイルを読み出し、第1の実施形態から第4の実施形態で説明した3D動画ファイルを作成し、再びメモリカード40に記録するようにしてもよい。
 液晶モニタ16は、撮影済み画像を表示するための画像表示部として使用されるとともに、各種設定時にGUI(グラフィカルユーザインターフェース)として使用される。また、液晶モニタ16は、撮影モード時に画角を確認するためのライブビュー画像(以下、「スルー画」という)を表示する電子ビューファインダとして利用される。表示制御部36は、液晶モニタ16に3D動画を表示させる場合には、VRAM52に保持されている左視点画像と右視点画像とを1画素ずつ交互に表示させる。液晶モニタ16に設けられているパララックスバリアにより、所定の距離から観察するユーザの左右の眼には、1画素ずつ交互に配列された左右の画像がそれぞれ別々に視認される。これにより、立体視を可能にしている。
 以上のように構成された立体撮像装置10により、上記実施形態を実現することができる。尚、ここで説明した立体撮像装置10は、左右2視点の画像を撮影するために2つの撮像部を備えているが、3つ以上の撮像部を備えて3点以上の視点画像を撮影するように構成してもよい。例えば、図8に示すように、4つの撮像装置101-1~101-4のように4つの撮像部を備えることによって、4視点の視点画像を撮影するように構成してもよい。
 [3D動画再生の第1の実施形態]
 次に、上記のように記録された3D動画ファイルを読み出して3D動画再生する処理について、図13のフローチャートを用いて説明する。
 最初に、3D動画の表示を行う出力先の3Dディスプレイの出力ディスプレイサイズを取得する(ステップS21)。この出力ディスプレイサイズは、3DディスプレイのHDMI端子から取得することができる。続いて、3D動画ファイルから左視点のGOP_L、右視点のGOP_Rを読み込み、これらをキャッシュに保持し(ステップS22)、キャッシュ済み量が所定の最大キャッシュ量になるまで、左視点のGOP_L、右視点のGOP_Rをキャッシュに追加する(ステップS23)。
 キャッシュ済み量が所定の最大キャッシュ量に達すると、3D動画ファイルの全ての左視点のGOP_L、右視点のGOP_Rの読み出しが終了したか否かを判別し(ステップS24)、読み込みが終了していない場合(「NOの場合」)には、キャッシュした左視点のGOP_L、右視点のGOP_Rのうちの3Dディスプレイに出力しようとする左視点のGOP_L、右視点のGOP_Rの付属情報からGOP最大ディスプレイサイズを読み出して一時保存する(ステップS25)。続いて、ステップS21で取得した出力ディスプレイサイズの幅とステップS25で保存したGOP最大ディスプレイサイズの幅とを比較を比較する(ステップS26)。
 GOP最大ディスプレイサイズの幅が出力ディスプレイサイズの幅以上の場合は、左視点のGOP_L、右視点のGOP_Rをそのまま表示しても立体視に差し支えないため、左視点のGOP_L、右視点のGOP_Rを、そのまま3Dディスプレイに出力する(ステップS27)。
 一方、GOP最大ディスプレイサイズの幅よりも出力ディスプレイサイズの幅の方が大きい場合には、そのGOP最大ディスプレイサイズを付属情報として有する左視点のGOP_L、右視点のGOP_Rを表示すると、遠景側の最大視差位置の視差量が人間の両眼間隔を超えてしまい、その部分が立体視できないことになる。したがって、左右の視点画像の視差量を補正する必要がある。
 視差量の補正は、視差ずらしによって行う(ステップS28)。
 図14は、視差ずらしの原理を説明するための図である。また、図15の(a)部分は左視点画像、図15の(b)部分は右視点画像を示す図である。ここで、座標(0、D)に視認者の左目、座標(XB、D)に視認者の右目があるとする。Z=0上に表示された左右の視点画像において、左視点画像の座標(XL、0)、かつ右視点画像の座標(XR、0)に表示された被写体は、座標(XP、YP)にあるように視認される。
 この状態で、図15(b)に示すように、右視点画像を左方向にXR-XR´だけシフトしたとすると、図10に示すように被写体の右視点画像の座標が(XR´、0)となる結果、被写体は座標(XP´、YP´)にあるように視認される。
 このように、視差ずらしを行うことで、視差量の調整を行うことが可能である。したがって、遠景側の視差量が人間の両眼間隔を超える場合に、視差ずらしを行うことで人間の両眼間隔内に収めることができ、適切に立体視することが可能となる。
 具体的には、出力ディスプレイサイズの幅をW1,GOP最大ディスプレイサイズの幅をW2,GOP最大視差量をPとすると、視差補正後のGOP最大視差量P’が、次式
 [数1]
 P’={W2/W1}*P
になるようにする。したがって、次式に示す視差量(%)だけ、左右視点画像の一方又は両方を接近する方向に画素ずらしすることにより、1GOP内の3D動画の3Dディスプレイ上の視差を人間の両眼間隔内に収めることができる。
 [数2]
 視差量(%)=P-P’
 また、視差の補正は、上記視差ずらしに限らず、視差圧縮により行うようにしてもよい。視差圧縮は、図10を用いて説明したように、左右の視点画像よりも視差量の小さい仮想視点の画像を生成し、生成した仮想視点の画像を表示することにより行うことができる。どちらによって視差量を補正するのかは、予め決めておいてもよいし、ユーザが選択可能に構成してもよい。どちらの視差量調整によっても、少なくとも遠景側の視差を小さくすることができる。
 上記ステップS28により視差補正された左視点のGOP_L、右視点のGOP_Rを3Dディスプレイに出力する(ステップS27)。
 このように、付属情報として記録されているGOP最大ディスプレイサイズを読み出し、出力ディスプレイサイズと比較し、GOP最大ディスプレイサイズの方が大きい場合には立体視に問題がないとして左視点のGOP_L、右視点のGOP_Rをそのまま3Dディスプレイに出力し、出力ディスプレイサイズの方が大きい場合には立体視ができない領域があると判断して左視点のGOP_L、右視点のGOP_Rの全てのフレームについて、視差補正をした左視点のGOP_L、右視点のGOP_Rを3Dディスプレイに出力することで、常に適切な3D動画を表示することが可能となる。
 上記左視点のGOP_L、右視点のGOP_Rの3Dディスプレイへの出力と並行して、新たな左視点のGOP_L、右視点のGOP_Rの読み込み及びキャッシュへの追加を行うことにより、上記処理を行うことにより3D動画を再生することができる。
 ステップS24において、3D動画の全ての左視点のGOP_L、右視点のGOP_Rの読み込みが終了すると(「YESの場合」)、キャッシュ内の左視点のGOP_L、右視点のGOP_Rを3Dディスプレイに出力し(ステップS29)、3D動画の再生を終了させる。尚、キャッシュ内の左視点のGOP_L、右視点のGOP_Rを3Dディスプレイに出力する際にも、ステップS25~S28における処理が行われる。
 この実施形態では、出力先の3Dディスプレイに表示するGOP毎の立体動画が、立体視可能な否かを3D動画ファイルの付属情報に記録されているGOP最大ディスプレイサイズを使用して行うようにしたが、これに限らず、GOP最大視差量を使用しても同様に行うことができる。
 即ち、出力先の3Dディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値(例えば、50mm)とに基づいて許容視差量を算出する。許容視差量は、(人間の両眼間隔)/(ディスプレイサイズ)(%)であり、人間の両眼間隔を50mm、ディスプレイサイズ(幅)が1300mmの場合の許容視差量は、3.85(%)になる。
 そして、GOP最大視差量(%)が、上記許容視差量以下か否かにより両眼融合可能か否かを判別することができる。
 また、他の方法としては、GOP最大視差量と出力先の3Dディスプレイのディスプレイサイズとに基づいてGOP最大視差量に対応する3Dディスプレイ上での画像ずれ量を算出し、この算出された画像ずれ量が人間の両眼間隔を示す所定値を越えるか否かより両眼融合可能か否かを判別するようにしてもよい。
 尚、第1の実施形態では、1GOP毎に視差の補正を実施可能にしたが、これに限らず、予め設定した所定数のGOP毎に、該所定数のGOP内の最大ディスプレイサイズ、最大視差量等に基づいて視差の補正を行うようにしてもよい。
 [3D動画再生の第2の実施形態]
 図16は、3D動画再生処理の第2の実施形態を示すフローチャートである。尚、図13に示した第1の実施形態と共通する部分には同一のステップ番号を付し、その詳細な説明は省略する。
 第1の実施形態は、1GOP毎にGOP最大ディスプレイサイズ、GOP最大視差量が付属情報として記録されている3D動画ファイルを対象にしているが、第2の実施形態は、図7に示すようにシーン毎にシーン最大ディスプレイサイズ、シーン最大視差量が付属情報として記録されている3D動画ファイルを対象にしている点で相違する。
 図16において、ステップS30は、シーン先頭フラグの有無を判別する。シーン先頭フラグが検知されると(「YESの場合」)、そのシーンの先頭のヘッダからシーン最大ディスプレイサイズを読み出して一時保存する(ステップS31)。続いて、ステップS21で取得した出力ディスプレイサイズの幅とステップS31で保存したシーン最大ディスプレイサイズの幅とを比較する(ステップS32)。
 シーン最大ディスプレイサイズの幅が出力ディスプレイサイズの幅以上の場合は、そのシーン内の3D動画を表示しても立体視に差し支えないため、そのまま3Dディスプレイに出力する(ステップS27)。
 一方、シーン最大ディスプレイサイズの幅よりも出力ディスプレイサイズの幅の方が大きい場合(ステップS32で「NOの場合」)には、そのシーンの3D動画の視差を補正し、シーン内の3D動画の3Dディスプレイ上の視差が人間の両眼間隔内に収まるようにする。
 尚、シーン最大ディスプレイサイズの替わりにシーン最大視差量を使用し、そのシーンの3D動画が立体視可能か否かを判別するようにしてもよい。
 [3D動画再生の第3の実施形態]
 図17は、3D動画再生処理の第3の実施形態を示すフローチャートである。尚、図13に示した第1の実施形態と共通する部分には同一のステップ番号を付し、その詳細な説明は省略する。
 第1の実施形態は、1GOP毎にGOP最大ディスプレイサイズ、GOP最大視差量が付属情報として記録されている3D動画ファイルを対象にしている。一方、第3の実施形態は、1GOP毎にGOP最大ディスプレイサイズ、GOP最大視差量が付属情報として記録され、かつ図7に示すようにシーン毎にシーン最大ディスプレイサイズ、シーン最大視差量が付属情報として記録されている3D動画ファイルを対象にしている点で相違する。
 図17において、ステップS40は、キャッシュした左視点のGOP_L、右視点のGOP_Rの付属情報からGOP最大視差量を読み出して一時保存する。ステップS41は、シーン先頭フラグの有無を判別する。シーン先頭フラグが検知されると(「YESの場合」)、そのシーンの先頭のヘッダからシーン長、シーン最大ディスプレイサイズ、シーン最大視差量を読み出して一時保存する(ステップS42、S43、S45)。
 続いて、ステップS42に保存したシーン長が、1GOPよりも十分に長いか否かを判別する(ステップS45)。短いと判別されると(「NOの場合」)、第1の実施形態と同様に1GOP毎に視差補正を行い(ステップS46)、その視差補正を行った左視点のGOP_L、右視点のGOP_Rを3Dディスプレイに出力する(ステップS47)。尚、該当GOPの最大ディスプレイサイズが出力ディスプレイサイズ以上の場合には、視差補正を行わず、そのまま3Dディスプレイに出力する。
 一方、ステップS45において、長いと判別されると(「YESの場合」)、ステップS22に戻り、その後、ステップS41及びステップS48の処理を経由して、シーン先頭から所定の最大キャッシュ量になるまで、左視点のGOP_L、右視点のGOP_Rがキャッシュされる。
 そして、キャッシュ済み量が所定の最大キャッシュ量に達すると(ステップS48で「YESの場合」と判別されると)、以下に示す視差補正テーブルを使用したシーン内の3D動画に対する視差補正を行う(ステップS49)。
 図18は視差補正テーブルの一例を示すグラフである。図18に示すグラフは、横軸がGOP最大視差量/シーン最大視差量を示し、縦軸が視差補正係数(0~1)を示している。
 いま、ステップS21で取得した出力ディスプレイサイズに対する、ステップS43で保存したシーン最大ディスプレイサイズの比(シーン最大ディスプレイサイズ/出力ディスプレイサイズ)をXとすると、視差補正係数は、GOP最大視差量/シーン最大視差量が0から1に近づくにしたがって、1からXに変化する値に設定されている。
 ここで、視差補正係数は、シーン内の各GOP最大視差量に対して乗算される。視差補正は、シーン内の各GOP最大視差量が前記乗算された値(即ち、補正されたGOP最大視差量)になるように行われる。
 例えば、GOP最大視差量/シーン最大視差量=1となるGOP最大視差量を付属情報として有する左視点のGOP_L、右視点のGOP_Rは、前述して[数1]式で示した視差補正後のGOP最大視差量P’になるように視差ずらし(即ち、[数2]式で示した視差量だけ視差ずらし)が行われ、これによりそのGOP内の3D動画の3Dディスプレイ上の視差を人間の両眼間隔内に収めることができるようにしている。
 一方、GOP最大視差量/シーン最大視差量=1よりも小さいGOP最大視差量を有する左視点のGOP_L、右視点のGOP_Rも、そのGOP最大視差量の大きさに応じた視差補正が行われるように視差補正係数が決められている。
 ステップS49では、上記視差補正テーブルを使用して視差補正を行うことにより、各GOPの最大視差量がシーン中の最大視差量(シーン最大視差量)に近づくにしたがって、視差量を徐々に減少させ、一方、シーン中の最大視差量から離れるにしたがって視差の減少量を小さくする(元に近づける)視差補正を行う。
 上記ステップS49で視差補正された左視点のGOP_L、右視点のGOP_Rが3Dディスプレイに出力される(ステップS47)。尚、シーン最大ディスプレイサイズが出力ディスプレイサイズ以上の場合(3D表示上問題がない場合)には、上記の視差補正は行われず、視差補正されない左視点のGOP_L、右視点のGOP_Rが3Dディスプレイに出力される。
 上記の視差補正により、シーン内の一部のGOPに3D表示上問題になる視差があっても他のGOPの視差も一律に視差補正されないようにすることができ、過大な視差を抑制しつつ、シーン全体の立体感を確保することができる。
 尚、上記3D動画再生の第1の実施形態から第3の実施形態において、最大視差量(近景)を考慮して視差ずらし処理を行うようにしてもよい。
 即ち、遠景側の視差量が過大になり、両眼融合不能になる場合、算出した必要ずらし量だけ視差ずらしを行うと、それに伴って近景側の視差量が増加する。そこで、出力先の3Dディスプレイのディスプレイサイズ(幅)と最大視差量(近景)との積に、必要ずらし量を加算し、その加算値が、両眼間隔(例えば、50mm)以下であるか否かを判定する。ここでは、近景の視差量が50mm以下の場合を適切に立体視可能と判断しているが、この50mmの値は、適宜決めればよい。
 そして、50mm以下の場合には、視差ずらしを実施し、視差ずらしを行った2視点の視点画像を3Dディスプレイに3D表示する。一方、50mmより大きい場合には、視差ずらしを行わないと遠景側に立体視できない部分があり、遠景側の最大視差量が適切になるように視差ずらしを行うと近景側が適切に立体視できないことになるので、3D表示は行わず、3Dディスプレイに2D表示を行う。2D表示は、3D動画ファイルに記録されている視点画像のうちから1つの視点画像を3Dディスプレイに出力することにより行う。また、2D表示とともに、ディスプレイサイズが大きすぎるために当該3D動画は3D表示を行わない旨を警告表示してもよい。
 このように、最大視差量(遠景)だけでなく、最大視差量(近景)も考慮して視差量の調整を行うことで、適切な3D動画を表示させることができる。
 [3D動画再生の第4の実施形態]
 次に、図9に示したように3視点以上の視点画像が記録された3D動画ファイルを読み出して再生表示する処理について、図19のフローチャートを用いて説明する。
 図19において、最初に、3D動画の表示を行う3Dディスプレイのディスプレイサイズ(横幅)を取得する(ステップS51)。ここでは、仮に取得したディスプレイの横幅が600mmであったとする。また、図9に示す4視点分のGOPを読み出す(ステップS52)。
 次に、読み出したGOPの各ヘッダ領域から、視点番号順に、GOP最大ディスプレイサイズを取得する(ステップS53)。
 いま、ある4視点分のGOPのGOP最大ディスプレイサイズ、想定視距離、GOP最大視差量(遠景)が、下記の表1に示した通りとする。
Figure JPOXMLDOC01-appb-T000001
 上記表1に示す例では、まず視点番号1である視点画像(1)のGOP最大ディスプレイサイズ500mmを取得する。
 次に、この取得したGOP最大ディスプレイサイズがステップS51で取得したディスプレイサイズ以上であるか否かを判定する(ステップS54)。ここでは、GOP最大ディスプレイサイズが500mmであるのに対し、ディスプレイサイズが600mmであるので、ステップS56に移行する。
 ステップS56では、全視点画像についてGOP最大ディスプレイサイズの取得が終了したか否かを判定する。
 ここでは、まだ全視点画像について終了していないため、ステップS53に戻る。
 ステップS53では、視点番号を1つインクリメントし、次に視点番号2である視点画像(2)のGOP最大ディスプレイサイズ1200mmを取得する。
 次に、ステップS54に移行し、取得したGOP最大ディスプレイサイズがディスプレイサイズ以上であるか否かを判定する。今回は、GOP最大ディスプレイサイズが1200mmであり、ディスプレイサイズ600mm以上であるので、ステップS55に移行する。ステップS55では、現在の視点番号が取得される。ここでは視点番号2が取得される。
 このように、全ての視点画像について、ステップS53からステップS55の処理を繰り返す。この処理により、GOP最大ディスプレイサイズがディスプレイサイズ以上である視点画像の視点番号だけが取得される。ここでは、視点番号2と視点番号3が取得される。
 次に、ステップS55において取得された視点番号の視点画像から、3Dディスプレイに出力する2視点の視点画像を選択する(ステップS57)。ここでは、基準視点の画像である視点画像(1)と、視点番号2の画像(視点画像(2))又は視点番号3の画像(視点画像(3))のいずれかの画像が選択される。
 選択する基準としては、基準視点画像を含む視点画像、最も視差量が大きい視点画像、最も視差量が小さい視点画像、中央の視点に近い視点画像等が考えられる。また、仮想視点の画像よりも実際に撮影された実視点画像を優先して選択してもよい。この基準は、予め決めておいてもよいし、視認者が自由に設定できるように構成してもよい。ここでは、最も視差量が大きい画像を選択するものとし、その結果、視点画像(1)と視点画像(3)が選択される。
 ステップS57において選択された2視点の視点画像を、3Dディスプレイに3D表示させる(ステップS58)。即ち、ここでは、視点画像(1)と視点画像(3)に基づいて3D表示が行われる。
 次に、3D動画ファイルから全てのGOPの読み込みが終了したか否かを判別する(ステップS59)。終了していない場合(「NOの場合」)には、ステップS52に遷移し、上記処理を繰り返し、終了している場合(「YESの場合」)には、3D動画の再生を終了させる。
 尚、ステップS55において取得された視点番号がなかった場合、即ち全ての視点画像のGOP最大ディスプレイサイズがディスプレイサイズよりも小さかった場合には、2D表示を行う。2D表示を行う視点画像の選択の基準についても、適宜決めればよいが、実視点の視点画像で、基準視点の視点画像が好ましい。
 このように、各視点画像の付属情報として記録されているGOP最大ディスプレイサイズを読み出し、出力先の3Dディスプレイのディスプレイサイズと比較し、GOP最大ディスプレイサイズの方が大きい視点画像のペアを選択して表示することで、常に適切な3D動画を表示することが可能となる。
 尚、このような処理は、3D動画ファイルの各視点画像の付属情報に記録されているGOP最大視差量に基づいて行うことも可能である。
 [3D動画再生の第5の実施形態]
 図20は、GOP最大視差量に基づいて3D再生表示する視点画像のペアを選択する場合のフローチャートである。尚、図19に示すフローチャートと共通する部分には同一の符号を付し、その詳細な説明は省略する。また、読み出される3D動画ファイルの各視点画像の付属情報には、GOP最大ディスプレイサイズが記録されていないものとし、その他の付属情報は表1に示すファイルと同様であるものとする。また、出力先の3Dディスプレイの横幅も同様に600mmであるとする。
 図19の場合と同様に、ディスプレイのサイズを取得し(ステップS51)、図9に示す3D動画ファイルから4視点分のGOPを読み出す(ステップS52)。次に、読み出したGOPの各ヘッダ領域から、2視点の(1組の)視点画像を選択する(ステップS61)。最終的に全視点画像の組み合わせを選択するため、選択する順序は、適宜決定すればよい。ここでは、まず視点画像(1)と視点画像(2)を選択したものとする。
 この選択した2視点の画像のGOP最大視差量(遠景)を取得する(ステップS62)。各視点画像の付属情報に記録されているGOP最大視差量(遠景)は、基準視点画像との視差量である。したがって、選択した2視点の視点画像に基準視点画像が含まれていない場合には、GOP最大視差量を再計算する必要がある。
 ここでは、選択された2視点の視点画像のうち、一方が基準視点画像の視点画像(1)であるから、視点画像(2)の付属情報に記録されているGOP最大視差量(遠景)が、この2視点のGOP最大視差量(遠景)となる。
 次に、ステップS51において取得したディスプレイの幅とステップS62において取得した2視点の視点画像のGOP最大視差量(遠景)との積が、人間の両眼間隔50mm以下であるか否かを判定する(ステップS63)。尚、人間の両眼間隔は50mmに限定されるものではなく、例えば65mm等の数値を用いてもよい。
 この積が50mmよりも大きい場合は、遠景側のGOP最大視差位置を適切に立体視することができないため、当該2視点の視点画像の組み合わせは立体視には適さない組み合わせであると判断し、ステップS65へ移行する。
 ここでは、GOP最大視差量(遠景)は4%であり、ディスプレイ幅600mmとの積は24mmとなる。したがって、50mm以下の条件を満足し、ステップS64に移行する。ステップS64では、この2視点の視点画像の視点番号が取得される。即ち、ここでは視点番号1と2の組み合わせが取得される。
 ステップS65では、全組み合わせについてGOP最大視差量の取得が終了したか否かを判定する。ここでは、まだ全組み合わせについて終了していないため、ステップS61に戻る。
 次のステップS61では、異なる2視点の(1組の)視点画像を選択する。ここでは、視点画像(2)と視点画像(3)の2視点の視点画像を選択したものとする。
 ステップS62では、この2視点のGOP最大視差量(遠景)を取得する。前述のように、視点画像(2)、視点画像(3)のそれぞれの付属情報に記録されている最大視差量(遠景)は、基準視点画像である視点画像(1)との最大視差量であるので、視点画像(2)と視点画像(3)との2視点におけるGOP最大視差量は、再計算する必要がある。
 2視点におけるGOP最大視差量は、それぞれの付属情報に記録されているGOP最大視差量(遠景)の差をとることで算出される。したがって、ここでは、7%-4%=3%が、視点画像(2)と視点画像(3)との2視点におけるGOP最大視差量(遠景)となる。
 ステップS63では、この算出した2視点の視点画像のGOP最大視差量(遠景)とディスプレイの幅との積が、50mm以下であるかを判定する。
 ここでは、GOP最大視差量(遠景)は3%であり、ディスプレイ幅600mmとの積は18mmとなる。したがって、50mm以下の条件を満足し、ステップS64に移行する。ステップS64では、この2視点の視点画像の視点番号、即ち視点番号2と3の組み合わせが取得される。
 このように、全ての視点画像の組み合わせについて、ステップS62からステップS64の処理を繰り返す。この処理により、GOP最大視差量(遠景)とディスプレイサイズの積が50mm以下である視点画像の組み合わせの視点番号だけが取得される。ここでは、視点番号1と2、2と3、2と4、3と4の組み合わせが取得される。
 次に、ステップS64において取得された視点番号の組み合わせから、3Dディスプレイに出力する2視点の視点画像を選択する(ステップS57)。
 選択する基準としては、前述したように、最もGOP視差量が大きい組み合わせ、最もGOP視差量が小さい組み合わせ、中央の視点に近い視点画像を含む組み合わせ、実視点画像を優先する等が考えられる。この基準は、予め決めておいてもよいし、視認者が自由に設定できるように構成してもよい。ここでは、最も視差量が小さい組み合わせである視点番号2と視点番号3の組み合わせ、即ち視点画像(2)と視点画像(3)を選択したものとする。
 ステップS57において選択された2視点の視点画像を、3Dディスプレイに3D表示させる(ステップS58)。即ち、ここでは、視点画像(2)と視点画像(3)に基づいて3D表示が行われる。
 次に、3D動画ファイルから全てのGOPの読み込みが終了したか否かを判別する(ステップS59)。終了していない場合(「NOの場合」)には、ステップS52に遷移し、上記処理を繰り返し、終了している場合(「YESの場合」)には、3D動画の再生を終了させる。
 尚、ステップS64において取得された視点番号がなかった場合、即ち全ての組み合わせにおいてステップS63の条件に適合しなかった場合には、2D表示を行う。2D表示を行う画像の選択の基準についても、適宜決めればよい。
 このように、各視点画像の付属情報として記録されているGOP最大視差量(遠景)を読み出し、出力先の3Dディスプレイのディスプレイサイズとの積を算出し、積が人間の両眼間隔よりも小さい視点画像の組み合わせを選択して表示することで、常に適切な3D動画を表示することが可能となる。
 [3D動画再生の第6の実施形態]
 第4の実施形態で説明したように、各視点画像の付属情報に記録されているGOP最大ディスプレイサイズに基づいて表示画像を選択する場合には、基準視点画像との組み合わせでしか画像の選択ができない。これに対し、第5の実施形態で説明したように、各視点画像の付属情報に記録されているGOP最大視差量(遠景)に基づいて視点画像を選択する場合には、全視点画像の組み合わせについて判断することができるが、処理が煩雑となる。
 そこで、第6の実施形態では、付属情報にGOP最大ディスプレイサイズとGOP最大視差量(遠景)との両方が記録されている場合に、両方の情報を用いて視点画像の選択を行う。
 図21は、GOP最大ディスプレイサイズとGOP最大視差量(遠景)に基づいて視点画像を選択する場合を示すフローチャートである。尚、図19、図20に示すフローチャートと共通する部分には同一の符号を付し、その詳細な説明は省略する。
 図21に示すように、まず図19の場合と同様に、GOP最大ディスプレイサイズに基づいて3D表示可能な視点画像を選択する(ステップS53~S56)。
 その後、図20の場合と同様に、GOP最大視差量(遠景)に基づいて、3D表示可能な視点画像を選択する(ステップS61~S65)。尚、このときは、基準視点画像との組み合わせについては処理を行う必要がない。
 その後、ステップS55において取得された基準視点画像との組み合わせ、及びステップS64において取得された2視点の視点画像の組み合わせの中から、3Dディスプレイに出力する2視点の視点画像を選択する(ステップS57)。選択する基準は、これまでと同様に適宜決めればよい。
 以上のように、GOP最大ディスプレイサイズとGOP最大視差量(遠景)とに基づいて表示する2視点の視点画像を選択することで、処理時間を短縮しつつ、全ての組み合わせから選択された適切な視点画像を用いて3D表示を行うことができる。
 尚、ここでは、遠景側のGOP最大視差量だけに基づいて表示を行う2視点の視点画像を選択したが、近景側のGOP最大視差量を考慮して決定してもよい。近景側のGOP最大視差量を考慮することにより、遠景側だけでなく、近景側も適切に立体視可能な画像の組み合わせを決定することができるようになる。
 例えば、ステップS64において取得された2視点の視点画像の組み合わせの中から、近景の視差量が所定値以下である組み合わせを選択するようにしてもよい。近景側の視差量が大きくなると、視認者は立体視をするのに疲労を感じるため、50mm等の値以下とすることが好ましいからである。
 近景側のGOP最大視差量は、3D動画ファイルに記録されている場合にはその値を用いることができる。また、図10を用いて説明したように、各視点画像から特徴点を抽出して、近景側の最大視差量位置から算出してもよい。
 [3D動画再生の第7の実施形態]
 図22は、第7の実施形態の画像再生処理を示すフローチャートである。
 ここでは、読み出される3D動画ファイルは表1に示すファイルと同様であるものとする。尚、ディスプレイの横幅は1300mmであるとする。
 図19の場合と同様に、出力先の3Dディスプレイのディスプレイサイズを取得する(ステップS51)。例えば、HDMIケーブルで接続された3Dディスプレイから、ディスプレイサイズを取得することができる。
 次に、図9に示す3D動画ファイルから4視点分のGOPを読み出し(ステップS52)、読み出したGOPの各ヘッダ領域から、基準視点番号タグの値を読み込む(ステップS71)。本実施形態では、基準視点番号1が読み込まれる。
 次に、基準視点番号1の視点画像、即ち視点画像(1)の付属情報から、GOP最大ディスプレイサイズを取得する(ステップS72)。ここに記録されている値は、前述のように、視点画像(1)との組み合わせで最大の視差量となる視点の組み合わせにおける、GOP最大ディスプレイサイズであり、具体的には視点画像(4)との組み合わせにおけるGOP最大ディスプレイサイズである。
 このGOP最大ディスプレイサイズと、ステップS71において取得したディスプレイサイズを比較する(ステップS73)。GOP最大ディスプレイサイズの方がディスプレイサイズより大きい場合(「YESの場合」)には、視点画像(1)と視点画像(4)をそのまま3D表示しても問題ないので、この2視点の視点画象を3Dディスプレイに3D表示させる(ステップS74)。
 一方、ステップS73における比較結果がNOの場合は、ステップS75へ移行する。
 ステップS75は、読み込んだ全ての視点画像の視点番号を取得する。更に、各視点画像の付属情報から、それぞれの視点画像のGOP最大視差量の値を取得する(ステップS76)。表1に示すように、視点画像(2)からGOP最大視差量4%、視点画像(3)からGOP最大視差量7%、視点画像(4)からGOP最大視差量10%が取得される。
 次に、3D表示を行う3Dディスプレイにおける許容視差量を算出する(ステップS77)。許容視差量は、下記の[数3]式によって算出される。尚、ディスプレイサイズとは、ディスプレイの横幅を指す。また、ここでは人間の両眼間隔を50mmとしているが、その他の数値を用いてもよい。
 [数3]
 許容視差量[%]=50mm÷ディスプレイサイズ[mm]×100
 本実施形態では、ディスプレイサイズは1300mmであるので、許容視差量は約3.85%となる。
 次に、基準視点の配置を確認する(ステップS78)。基準視点が全視点中の中央近傍でない場合は、中央近傍の視点位置を新たな基準視点に設定し(ステップS79)、新たな基準視点に対する各視点画像の最大視差量を算出する(ステップS80)。
 本実施形態では、視点番号は図8のようになっているため、基準視点である視点番号1は、中央近傍ではない。したがって、ここでは中央近傍の視点として視点番号2を新たな基準視点に設定する。
 この新たな基準視点である視点番号2に対する各視点画像のGOP最大視差量を算出する。表1の3D動画ファイルの例では、各視点画像の付属情報に記載されたGOP最大視差量と視点画像(2)の付属情報に記載されたGOP最大視差量の差分の絶対値が、新たな基準視点におけるGOP最大視差量となる。したがって、各視点画像のGOP最大視差量は、以下の通りとなる。
 視点画像(1)のGOP最大視差量=|0%-4%|=4%
 視点画像(2)のGOP最大視差量=|4%-4%|=0%
 視点画像(3)のGOP最大視差量=|7%-4%|=3%
 視点画像(4)のGOP最大視差量=|10%-4%|=6%
 尚、このような処理を行うのは、より中央に近く配置されている視点画像が、3D表示により好適であるためである。
 ステップS80の処理が終了、又はステップS78において基準視点が全視点中の中央近傍であると判断された場合は、これらのGOP最大視差量のうち、許容視差量以下であって、かつ最大の値を持つ視点を選択する(ステップS81)。本実施形態では、許容視差量が3.85%以下であるので、この条件を満たす視点は視点番号3となる。
 このように、条件を満たす視点を選択できた場合は(ステップS82)、基準視点画像と当該選択された視点画像を用いて3D表示を行う(ステップS83)。選択できない場合には(ステップS82で「NOの場合」)、2D表示を行う(ステップS84)。
 例えば、仮に取得したディスプレイサイズが1700mmであれば、許容視差量は2.94%となり、許容視差量以下で最大の最大視差量値を持つ視点を選択することができない。この場合は2D表示を行う。
 このように、許容視差量に基づいて視点画像のペアを選択するようにしたので、適切に立体視に適した視点画像を選択することができる。
 次に、3D動画ファイルから全てのGOPの読み込みが終了したか否かを判別する(ステップS85)。終了していない場合(「NOの場合」)には、ステップS52に遷移し、上記処理を繰り返し、終了している場合(「YESの場合」)には、3D動画の再生を終了させる。
 尚、ステップS82において、選択できないと判別された場合には、2D表示を行うのではなく、視差ずらしや視差圧縮を行って適切な視差量に調整した後に3D表示を行ってもよい。また、3D動画再生の第4から第7の実施形態では、1GOP毎に視差の補正を行うようにしたが、これに限らず、シーン最大ディスプレイサイズ、シーン最大視差量を使用してシーン毎に視差の補正を行うようにしてもよい。
 [立体動画再生装置]
 上記3D動画再生の第1から第7の実施形態は、図11及び図12に示した立体撮像装置10の3D動画再生機能により実現するようにしてもよいし、撮像部を有しない立体動画再生装置により実現するようにしてもよい。
 図23は立体動画再生装置300と3Dディスプレイ320の全体構成を示す図である。同図に示すように、立体動画再生装置300と3Dディスプレイ320とは、別個に構成された装置であり、通信ケーブル310により通信可能に接続されている。
 3Dディスプレイ320は、パララックスバリア方式やレンチキュラー方式のディスプレイであり、立体動画再生装置300から3Dディスプレイ320に入力された左視点画像及び右視点画像を1ライン毎に交互に表示する。
 また、3Dディスプレイ320は、左視点画像及び右視点画像を時間的に交互に切り換えて表示するものでもよい。この場合は、視認者は特殊なメガネを用いて3Dディスプレイ320を視認する。
 図24は、立体動画再生装置300の内部構成を示すブロック図である。同図に示すように、立体動画再生装置300は、CPU301、記録制御部305、メモリカード306、表示制御部307、通信インターフェース308などを備えて構成されている。
 CPU301は、ROM302などのコンピュータ読み取り可能な記録媒体(”non-transitory computer-readable medium”)に記録された立体動画再生プログラム等の制御プログラムに基づいて立体動画再生装置300全体の動作を統括制御する。RAM303は、CPU301の演算作業用領域として使用される。
 記録制御部305、表示制御部307は、バス304を介してCPU301と接続されている。記録制御部305は、メモリカード306に対する3D動画ファイルのデータ読み書きを制御する。メモリカード306は、例えば、図12に示した立体撮像装置10のメモリカード40と同じものであり、立体撮像装置10において撮影された各視点画像と付属情報を含む3D動画ファイルが記録されている。
 通信インターフェース308は、通信ケーブル310が接続されるコネクタ部であり、表示制御部307は、これらを介して3Dディスプレイ320に3D動画を表示させる。通信インターフェース308、通信ケーブル310として、HDMI規格のものを採用することが考えられる。HDMI規格によれば、立体動画再生装置300は、通信ケーブル310を介して接続されている3Dディスプレイ320のディスプレイサイズを取得することができる。
 尚、立体動画再生装置300に、各視点画像を撮影するための複眼の撮像手段を備えさせ、撮影した視点画像をメモリカード306に記録するように構成してもよい。また、立体動画再生装置300と3Dディスプレイ320を一体の装置として構成してもよい。また、パーソナルコンピュータに立体動画再生プログラムをインストールし、該パーソナルコンピュータを立体動画再生装置300として機能させるようにしてもよい。
 更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
 10…立体撮像装置、14-1,14-2…撮影光学系、16…液晶モニタ、20-1,20-2…撮像部、21…フォーカスレンズ及びズームレンズ、24…CCD、25…アナログ信号処理部、32…中央処理装置(CPU)、34…操作部、40…メモリカード、44…デジタル信号処理部、100…被写体、101-1~101-4…撮像装置、211N、212N…最大視差量位置(近景)、211F、212F…最大視差量位置(遠景)、213N…近景側の最大視差量、213F…遠景側の最大視差量、213F…遠景側の最大視差量、300…立体動画再生装置、320…3Dディスプレイ

Claims (20)

  1.  N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズであって、各立体動画のフレームを立体ディスプレイに表示させる際に両眼融合可能なフレーム毎の最大ディスプレイサイズのうち、前記所定の区間内でそれぞれ最大となる複数の区間内最大ディスプレイサイズを含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得する第1の取得手段と、
     出力先の立体ディスプレイのディスプレイサイズを取得する第2の取得手段と、
     前記取得された前記立体ディスプレイのディスプレイサイズと前記複数の区間内最大ディスプレイサイズとを比較し、前記立体ディスプレイのディスプレイサイズが前記複数の区間内最大ディスプレイサイズよりも大きいか否かを、前記複数の区間内最大ディスプレイサイズ毎に判別する判別手段と、
     前記判別手段により前記複数の区間内最大ディスプレイサイズのうちの前記立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する2つの視点画像を、前記N視点の視点画像から選択する選択手段と、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択手段により選択された2つの視点画像からなる立体動画を出力する出力手段と、
     を備えた立体動画再生装置。
  2.  N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量であって、各立体動画のフレーム毎の遠景側の最大視差量のうち、該立体動画の時間軸方向に連続する所定の区間内でそれぞれ最大となる複数の区間内最大視差量を含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得する第1の取得手段と、
     出力先の立体ディスプレイのディスプレイサイズを取得する第2の取得手段と、
     前記立体動画の所定の区間毎に対応して取得した複数の区間内最大視差量と前記取得した立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて、前記複数の区間内最大視差量に対応する前記所定の区間内の複数の立体動画を前記立体ディスプレイに表示する際に両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する判別手段と、
     前記判別手段により前記複数の区間内最大視差量のうちの両眼融合可能と判別された区間内最大視差量に対応する2つの視点画像を、前記N視点の視点画像から選択する選択手段と、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択手段により選択された2つの視点画像からなる立体動画を出力する出力手段と、
     を備えた立体動画再生装置。
  3.  前記判別手段は、前記立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて許容視差量を算出し、前記複数の区間内最大視差量が前記許容視差量以下か否かにより両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する請求項2に記載の立体動画再生装置。
  4.  前記判別手段は、前記取得した区間内最大視差量と前記立体ディスプレイのディスプイサイズとに基づいて、前記区間内最大視差量に対応する立体ディスプレイ上での画像ずれ量を算出する画像ずれ量算出手段を有し、前記算出された画像ずれ量が人間の両眼間隔を示す所定値を越えるか否かより両眼融合可能か否かを判別する請求項2に記載の立体動画再生装置。
  5.  前記出力手段は、前記選択手段により両眼融合可能な2つの視点画像が選択されない場合には、前記N視点の視点画像のうちの1つの視点画像を選択し、該選択した視点画像を前記立体ディスプレイに出力する請求項1から4のいずれか1項に記載の立体動画再生装置。
  6.  前記N視点は予め設定された基準視点を含み、
     前記選択手段は、前記2つの視点画像を選択する際に前記基準視点に対応する視点画像を含む2つの視点画像を優先して選択する請求項1から5のいずれか1項に記載の立体動画再生装置。
  7.  前記選択手段は、前記2つの視点画像を選択する際に区間内最大ディスプレイサイズ、又は区間内最大視差量が最も大きくなる2つの視点画像を選択する請求項1から6のいずれか1項に記載の立体動画再生装置。
  8.  前記選択手段は、前記2つの視点画像を選択する際に区間内最大ディスプレイサイズ、又は区間内最大視差量が最も小さくなる2つの視点画像を選択する請求項1から6のいずれか1項に記載の立体動画再生装置。
  9.  前記選択手段は、前記2つの視点画像を選択する際に中央近傍の視点画像を含む2つの視点画像を優先して選択する請求項1から6のいずれか1項に記載の立体動画再生装置。
  10.  前記選択手段は、前記立体動画ファイルに記録された前記N視点の視点画像が、実視点に対応する複数の視点画像と、実視点に対応する複数の視点画像から生成された仮想視点に対応する仮想視点画像とが混在している場合において、前記2つの視点画像を選択する際に前記実視点の視点画像を含む2視点の視点画像を優先して選択する請求項1から9のいずれか1項に記載の立体動画再生装置。
  11.  前記立体動画ファイルは、複数のフレームからなる1GOP毎に複数の視点画像が順次記録されたMPEGファイルであり、
     前記立体動画の所定の区間は、1又は2以上の所定数のGOPに対応する区間である請求項1から10のいずれか1項に記載の立体動画再生装置。
  12.  前記立体動画の所定の区間は、シーン毎に区分されている区間である請求項1から10のいずれか1項に記載の立体動画再生装置。
  13.  請求項1から12のいずれか1項に記載の立体動画再生装置を、コンピュータにより実現させる立体動画再生プログラム。
  14.  請求項1から12のいずれか1項に記載の立体動画再生装置と、
     前記出力先の立体ディスプレイと、
     を備えた立体ディスプレイ装置。
  15.  複数の視点画像からなる立体画像が時間軸方向に連続している立体動画を取得する撮像手段と、
     前記取得した立体動画のフレーム毎に複数の視点画像から特徴が一致する特徴点間のずれ量を示す視差量を算出する視差量算出手段と、
     前記算出したフレーム毎の各特徴点の視差量のうちの遠景側の最大視差量を取得する最大視差量取得手段と、
     前記取得した遠景側の最大視差量のうちの前記立体動画の所定の区間毎に該区間内で最大となる区間内最大視差量を取得する区間内最大視差量取得手段と、
     前記立体動画の所定の区間毎に取得した区間内最大視差量に基づいて、前記所定の区間毎に前記立体画像を立体ディスプレイに表示させる際に両眼融合可能な区間内最大ディスプレイサイズを取得する区間内最大ディスプレイサイズ取得手段と、
     前記立体動画が記録される立体動画ファイルを生成し、該立体動画ファイルを記録媒体に記録する記録手段であって、前記立体動画を前記立体動画ファイルに記録するとともに、前記所定の区間毎の区間内最大ディスプレイサイズを付属情報として前記立体動画ファイルに記録する記録手段と、
     請求項1に記載の立体動画再生装置と、を備え、
     前記第1の取得手段は、前記記録媒体から立体動画ファイルを読み取る立体撮像装置。
  16.  複数の視点画像からなる立体画像が時間軸方向に連続している立体動画を撮影する撮像手段と、
     前記取得した立体動画のフレーム毎に複数の視点画像から特徴が一致する特徴点間のずれ量を示す視差量を算出する視差量算出手段と、
     前記算出したフレーム毎の各特徴点の視差量のうちの遠景側の最大視差量を取得する最大視差量取得手段と、
     前記取得した遠景側の最大視差量のうちの前記立体動画の所定の区間毎に該区間内で最大となる区間内最大視差量を取得する区間内最大視差量取得手段と、
     前記立体動画が記録される立体動画ファイルを生成し、該立体動画ファイルを記録媒体に記録する記録手段であって、前記立体動画を前記立体動画ファイルに記録するとともに、前記所定の区間毎の区間内最大視差量を付属情報として前記立体動画ファイルに記録する記録手段と、
     請求項2に記載の立体動画再生装置と、を備え、
     前記第1の取得手段は、前記記録媒体から立体動画ファイルを読み取る立体撮像装置。
  17.  立体動画再生装置が、
     N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズであって、各立体動画のフレームを立体ディスプレイに表示させる際に両眼融合可能なフレーム毎の最大ディスプレイサイズのうち、前記所定の区間内でそれぞれ最大となる複数の区間内最大ディスプレイサイズを含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、
     出力先の立体ディスプレイのディスプレイサイズを取得するステップと、
     前記取得された前記立体ディスプレイのディスプレイサイズと前記複数の区間内最大ディスプレイサイズとを比較し、前記立体ディスプレイのディスプレイサイズが前記複数の区間内最大ディスプレイサイズよりも大きいか否かを、前記複数の区間内最大ディスプレイサイズ毎に判別する判別ステップと、
     前記判別ステップにより前記複数の区間内最大ディスプレイサイズのうちの前記立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、
     を実行する立体動画再生方法。
  18.  立体動画再生装置が、
     N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量であって、各立体動画のフレーム毎の遠景側の最大視差量のうち、該立体動画の時間軸方向に連続する所定の区間内でそれぞれ最大となる複数の区間内最大視差量を含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、
     出力先の立体ディスプレイのディスプレイサイズを取得するステップと、
     前記立体動画の所定の区間毎に対応して取得した複数の区間内最大視差量と前記取得した立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて、前記複数の区間内最大視差量に対応する前記所定の区間内の複数の立体動画を前記立体ディスプレイに表示する際に両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する判別ステップと、
     前記判別ステップにより前記複数の区間内最大視差量のうちの両眼融合可能と判別された区間内最大視差量に対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、
     を実行する立体動画再生方法。
  19.  立体動画再生装置が、
     N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大ディスプレイサイズであって、各立体動画のフレームを立体ディスプレイに表示させる際に両眼融合可能なフレーム毎の最大ディスプレイサイズのうち、前記所定の区間内でそれぞれ最大となる複数の区間内最大ディスプレイサイズを含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、
     出力先の立体ディスプレイのディスプレイサイズを取得するステップと、
     前記取得された前記立体ディスプレイのディスプレイサイズと前記複数の区間内最大ディスプレイサイズとを比較し、前記立体ディスプレイのディスプレイサイズが前記複数の区間内最大ディスプレイサイズよりも大きいか否かを、前記複数の区間内最大ディスプレイサイズ毎に判別する判別ステップと、
     前記判別ステップにより前記複数の区間内最大ディスプレイサイズのうちの前記立体ディスプレイのディスプレイサイズ以下と判別された区間内最大ディスプレイサイズに対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、
     を実行する立体動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体。
  20.  立体動画再生装置が、
     N(N:3以上の整数)視点の視点画像からなる立体画像が時間軸方向に連続している立体動画と、前記N視点の視点画像のうちの任意の2つの視点画像の組み合わせからなる複数の立体画像に対応し、かつ各立体動画の時間軸方向に連続する所定の区間毎に対応する区間内最大視差量であって、各立体動画のフレーム毎の遠景側の最大視差量のうち、該立体動画の時間軸方向に連続する所定の区間内でそれぞれ最大となる複数の区間内最大視差量を含む付属情報とが記録された立体動画ファイルを読み取り、該立体動画ファイルから前記立体動画及び付属情報を取得するステップと、
     出力先の立体ディスプレイのディスプレイサイズを取得するステップと、
     前記立体動画の所定の区間毎に対応して取得した複数の区間内最大視差量と前記取得した立体ディスプレイのディスプレイサイズと人間の両眼間隔を示す所定値とに基づいて、前記複数の区間内最大視差量に対応する前記所定の区間内の複数の立体動画を前記立体ディスプレイに表示する際に両眼融合可能か否かを、前記複数の区間内最大視差量毎かつ前記所定の区間毎に判別する判別ステップと、
     前記判別ステップにより前記複数の区間内最大視差量のうちの両眼融合可能と判別された区間内最大視差量に対応する2つの視点画像を、前記N視点の視点画像から選択する選択ステップと、
     前記取得した立体動画を前記立体ディスプレイに出力する際に、前記選択ステップにより選択された2つの視点画像からなる立体動画を出力するステップと、
     を実行する立体動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/077760 2011-02-03 2011-12-01 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法 WO2012105121A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012555698A JP5486697B2 (ja) 2011-02-03 2011-12-01 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法
CN201180066747.1A CN103339947B (zh) 2011-02-03 2011-12-01 3d视频再现装置、3d显示装置、3d成像装置和3d视频再现方法
US13/954,699 US9210394B2 (en) 2011-02-03 2013-07-30 3D video reproduction device, non-transitory computer-readable medium, 3D display device, 3D imaging device, and 3D video reproduction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011022047 2011-02-03
JP2011-022047 2011-02-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/954,699 Continuation US9210394B2 (en) 2011-02-03 2013-07-30 3D video reproduction device, non-transitory computer-readable medium, 3D display device, 3D imaging device, and 3D video reproduction method

Publications (1)

Publication Number Publication Date
WO2012105121A1 true WO2012105121A1 (ja) 2012-08-09

Family

ID=46602353

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/077760 WO2012105121A1 (ja) 2011-02-03 2011-12-01 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法

Country Status (4)

Country Link
US (1) US9210394B2 (ja)
JP (1) JP5486697B2 (ja)
CN (1) CN103339947B (ja)
WO (1) WO2012105121A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171733A1 (ja) * 2018-03-09 2019-09-12 キヤノン株式会社 生成装置、生成方法、及びプログラム
JP2019213036A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 内視鏡プロセッサ、表示設定方法および表示設定プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102860017B (zh) * 2010-04-28 2015-06-10 富士胶片株式会社 立体摄像装置及其制造方法
CN103329549B (zh) 2011-01-25 2016-03-09 富士胶片株式会社 立体视频处理器、立体成像装置和立体视频处理方法
JP2015207802A (ja) * 2014-04-17 2015-11-19 ソニー株式会社 画像処理装置および画像処理方法
KR102250087B1 (ko) * 2016-10-11 2021-05-10 삼성전자주식회사 영상을 처리하는 방법, 디바이스 및 기록매체
JP7218105B2 (ja) * 2018-06-20 2023-02-06 キヤノン株式会社 ファイル生成装置、ファイル生成方法、処理装置、処理方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09121370A (ja) * 1995-08-24 1997-05-06 Matsushita Electric Ind Co Ltd 立体tv装置
JP2008103820A (ja) * 2006-10-17 2008-05-01 Sharp Corp 立体画像処理装置
JP2008172342A (ja) * 2007-01-09 2008-07-24 Fujifilm Corp 立体画像記録装置および立体画像記録方法
JP2010098479A (ja) * 2008-10-15 2010-04-30 Sony Corp 表示装置、表示方法及び表示システム
WO2011136191A1 (ja) * 2010-04-28 2011-11-03 富士フイルム株式会社 立体画像再生装置及び方法、立体撮像装置、立体ディスプレイ装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005607A (en) 1995-06-29 1999-12-21 Matsushita Electric Industrial Co., Ltd. Stereoscopic computer graphics image generating apparatus and stereoscopic TV apparatus
JP3978392B2 (ja) 2002-11-28 2007-09-19 誠次郎 富田 立体映像信号生成回路及び立体映像表示装置
JP2005073049A (ja) * 2003-08-26 2005-03-17 Sharp Corp 立体映像再生装置および立体映像再生方法
JP5563250B2 (ja) * 2009-06-30 2014-07-30 株式会社ジャパンディスプレイ 立体画像表示装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09121370A (ja) * 1995-08-24 1997-05-06 Matsushita Electric Ind Co Ltd 立体tv装置
JP2008103820A (ja) * 2006-10-17 2008-05-01 Sharp Corp 立体画像処理装置
JP2008172342A (ja) * 2007-01-09 2008-07-24 Fujifilm Corp 立体画像記録装置および立体画像記録方法
JP2010098479A (ja) * 2008-10-15 2010-04-30 Sony Corp 表示装置、表示方法及び表示システム
WO2011136191A1 (ja) * 2010-04-28 2011-11-03 富士フイルム株式会社 立体画像再生装置及び方法、立体撮像装置、立体ディスプレイ装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171733A1 (ja) * 2018-03-09 2019-09-12 キヤノン株式会社 生成装置、生成方法、及びプログラム
JP2019159594A (ja) * 2018-03-09 2019-09-19 キヤノン株式会社 生成装置、生成方法、及びプログラム
US11451759B2 (en) 2018-03-09 2022-09-20 Canon Kabushiki Kaisha Generation apparatus, generation method, and storage medium
JP7140517B2 (ja) 2018-03-09 2022-09-21 キヤノン株式会社 生成装置、生成装置が行う生成方法、及びプログラム
JP2022171739A (ja) * 2018-03-09 2022-11-11 キヤノン株式会社 生成装置、生成方法、及びプログラム
JP7459195B2 (ja) 2018-03-09 2024-04-01 キヤノン株式会社 生成装置、生成方法、及びプログラム
US12113950B2 (en) 2018-03-09 2024-10-08 Canon Kabushiki Kaisha Generation apparatus, generation method, and storage medium
JP2019213036A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 内視鏡プロセッサ、表示設定方法および表示設定プログラム
WO2019235492A1 (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 内視鏡プロセッサ、表示設定方法および表示設定プログラム
US11467392B2 (en) 2018-06-04 2022-10-11 Olympus Corporation Endoscope processor, display setting method, computer-readable recording medium, and endoscope system
JP7294776B2 (ja) 2018-06-04 2023-06-20 オリンパス株式会社 内視鏡プロセッサ、表示設定方法、表示設定プログラムおよび内視鏡システム

Also Published As

Publication number Publication date
CN103339947B (zh) 2014-07-30
CN103339947A (zh) 2013-10-02
JPWO2012105121A1 (ja) 2014-07-03
US20130315558A1 (en) 2013-11-28
US9210394B2 (en) 2015-12-08
JP5486697B2 (ja) 2014-05-07

Similar Documents

Publication Publication Date Title
JP5449537B2 (ja) 立体画像再生装置及び方法、立体撮像装置、立体ディスプレイ装置
JP5449536B2 (ja) 立体画像再生装置及び方法、立体撮像装置、立体ディスプレイ装置
JP4897940B2 (ja) 立体撮像装置
JP5166650B2 (ja) 立体撮像装置、画像再生装置及び編集ソフトウエア
JP5486697B2 (ja) 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法
JP5449535B2 (ja) 立体撮像装置及びその制御方法
JPWO2011121840A1 (ja) 立体撮像装置
JP5466773B2 (ja) 立体動画再生装置、立体動画再生プログラムならびにその記録媒体、立体ディスプレイ装置、立体撮像装置及び立体動画再生方法
JP5750457B2 (ja) 立体動画処理装置、立体動画処理プログラム及びその記録媒体、立体撮像装置並びに立体動画処理方法
JP5580486B2 (ja) 画像出力装置、方法およびプログラム
JP5571257B2 (ja) 画像処理装置、方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11857653

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012555698

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11857653

Country of ref document: EP

Kind code of ref document: A1