WO2012132424A1 - 立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム - Google Patents

立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム Download PDF

Info

Publication number
WO2012132424A1
WO2012132424A1 PCT/JP2012/002143 JP2012002143W WO2012132424A1 WO 2012132424 A1 WO2012132424 A1 WO 2012132424A1 JP 2012002143 W JP2012002143 W JP 2012002143W WO 2012132424 A1 WO2012132424 A1 WO 2012132424A1
Authority
WO
WIPO (PCT)
Prior art keywords
reception
depth
pixel group
data
viewpoint video
Prior art date
Application number
PCT/JP2012/002143
Other languages
English (en)
French (fr)
Inventor
山下 健
山地 治
大戸 英隆
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN2012800009908A priority Critical patent/CN102823264A/zh
Priority to US13/576,493 priority patent/US20130070052A1/en
Priority to JP2012542264A priority patent/JPWO2012132424A1/ja
Publication of WO2012132424A1 publication Critical patent/WO2012132424A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention belongs to the technical field of stereoscopic image depth adjustment technology.
  • Stereoscopic image depth adjustment technology is a method for creating a stereoscopic video when it is intended to display and play back a stereoscopic video created on the assumption that it will be displayed on a screen of a certain size. This is a technique for adjusting the parallax in two or more multi-view video data to achieve adaptation to another screen.
  • the depth adjustment includes the prior art described in Patent Documents 1 and 2.
  • the depth adjustment disclosed in Patent Document 1 is to move the depth of an object to the front or retract it to the back by shifting the entire image of the left eye and the right eye in the reverse direction in the horizontal direction. .
  • Patent Document 2 seems to actually increase / decrease the sense of depth because the amount of parallax to be changed for each object present in the stereoscopic video is different by generating a virtual viewpoint. .
  • the virtually generated video of the virtual viewpoint depends on the accuracy of the parallax map.
  • JP 2005-73049 A Japanese Patent Laid-Open No. 2003-209858
  • Kurt Konolige ⁇ Small Vision Systems Hardware and Implementation''Artificial Intelligence Center, SRI International Heiko Hirschm ⁇ uller “Accurate and Ef_cient Stereo Processing by Semi-Global Matching and Mutual Information” Institute of Robotics and Mechatronics Oberpfaffenhofen German Aerospace Center (DLR), June, 2005 Vladimir Kolmogorov ⁇ GRAPH BASED ALGORITHMS FOR SCENERECONSTRUCTION FROM TWO OR MORE VIEWS''the graduate Schoolof Cornell University ⁇ January 2004
  • a device that is a stream supply source and a device that is a display main body are connected to each other to realize inter-device transfer of stereoscopic video.
  • This realizes a viewing style in which stereoscopic video is played back across a plurality of devices.
  • content recorded in a BD recorder can be displayed by moving it to a device equipped with a large home display, a car navigation system, or a portable player, or data can be transferred to another device via wired or wireless communication without moving. Display what you did.
  • the basic idea is to perform depth adjustment on the device that performs the display.
  • depth adjustment is necessary depends on the screen size of the device, and the depth adjustment performance varies from device to device, so if you send an image without adjusting the depth on the fixed premise that depth adjustment is performed on the display side The depth cannot be adjusted appropriately on the display device side, and an inappropriate stereoscopic display may be realized.
  • the display device side can perform appropriate depth adjustment.
  • the stereoscopic reproduction may be realized by insufficient depth adjustment.
  • the cost of the playback device will rise.
  • the technical problem has been presented under the assumption that the device that is the stream supply source and the device that is the display main body are connected, but this assumption has selected familiar themes when explaining the technical problem.
  • the technical problem targeted in the present application is not limited to the case where a device serving as a stream supply source and a device serving as a display main body are connected to each other.
  • This application is intended to solve inconsistencies that occur when video processing devices that perform some processing on two or more viewpoint video data constituting a stereoscopic video are connected to each other and execute inter-device transfer. This is a technical problem to be solved and is a technical barrier that a person skilled in the art always faces when trying to put the above technology into practical use in the field of industrial products in the near future.
  • An object of the present invention is to provide a video processing capable of realizing high-definition stereoscopic video display in the transfer between devices of two or more viewpoint video data even if all devices do not have a high depth adjustment capability. Is to provide a device.
  • An apparatus capable of solving such a problem is A video processing apparatus that transmits and receives two or more viewpoint video data and adjusts the depth of a stereoscopic video composed of two or more viewpoint video data, When performing transmission / reception of two or more viewpoint video data, an interface between devices for connecting to a device on the other side of data transmission / reception, A determination means for determining which device adjusts the depth in the stereoscopic video image by executing a predetermined communication sequence between the device serving as the partner of data transmission / reception and the own device; If it is determined that the depth adjustment is to be performed on the own device side by the communication sequence, it is possible to create two or more viewpoint video data sent from the data transmission / reception partner or two or more viewpoint video data to be sent to the data transmission / reception partner.
  • Processing means for adjusting the depth for the The depth adjustment is A matching pixel group that matches a pixel group that constitutes one viewpoint video data is searched from other viewpoint video data, and a pixel group that constitutes one viewpoint video data, and a pixel group that constitutes another viewpoint video data, Including the process of detecting the parallax between The communication sequence is: A transmission / reception phase in which performance information indicating the search performance of the matching pixel group is transmitted / received between the own device and the other side of data transmission / reception, matching pixel group search performance in the own device, and matching on the other side of data transmission / reception And a comparison phase for comparing with the search performance of the pixel group.
  • the communication sequence is executed to determine the device for which depth adjustment is to be performed. Therefore, a device with low matching pixel search performance performs depth adjustment, and the device on the other side performs depth adjustment. A bad case of displaying the adjustment result is eliminated, and a device having high ability becomes the depth adjustment main body.
  • the device that decides which device will perform depth adjustment and executes transfer of two or more viewpoint video data so the user has already purchased a display device with high depth adjustment There is no need to purchase a playback device with high depth adjustment capability. Since the depth adjustment subject is automatically determined according to the device that is the partner of data transmission / reception, it is possible to select the device so that the depth adjustment of the playback device is high and the depth adjustment of the display device is low In addition, since the display device is selected as having a high capacity, it is possible to select a smart product by selecting and purchasing a low-capacity playback apparatus. Thereby, further spread of the stereoscopic reproduction environment can be achieved.
  • the stream is transferred as it is to the other party of data transmission / reception, so that a device with low adjustment capability is not the main body.
  • the depth adjustment generates a depth image based on the detected parallax, corrects the depth image according to a screen on which two or more viewpoint video data are to be displayed, and performs the correction.
  • a process of obtaining two or more viewpoint videos having corrected parallax by performing depth image-based rendering based on the depth image that has been corrected on one viewpoint picture may be included.
  • Depth adjustment processing can be implemented on the extension of software processing and hardware processing for depth image-based rendering, and the commercialization of video processing devices can be promoted.
  • the parallax amount between the left-eye image and the right-eye image is set so that two or more viewpoint video data are suitable for display on a 50-inch display, it can be displayed on a larger screen or a smaller screen. The left-eye image and the right-eye image can be recreated to fit.
  • FIG. 1 shows one form about the home theater system comprised by two or more video processing apparatuses.
  • the internal configuration of the device shown in FIG. 1 on the stream transmission side (reproduction device 100) is shown.
  • the depth amounts of the television 200 to the mobile terminal 400 shown in FIG. 1 are shown.
  • the projection amount of the stereoscopic video image is shown. It shows how the depth represented by the depth image changes by the matching point search algorithm. Matching point search by block matching, semi-global matching, and graph cut is shown. It is a figure which shows a communication sequence. This is a setting example of performance information in the playback device 100, the television 200, the television 300, and the mobile terminal 400 shown in FIG. An example of response information is shown. An example of response information is shown. The connection variation of an apparatus and the display image at the time of the connection are shown. The connection variation of an apparatus and the display image at the time of the connection are shown. It is a main flowchart in the process sequence of depth apparatus determination.
  • the invention of the video processing apparatus provided with the above problem solving means can be implemented as a player device, a television device, or a portable terminal device, and the invention of the integrated circuit can be implemented as a system LSI incorporated in these devices. it can.
  • the invention of the video processing method can be implemented as a time-series procedure realized by these devices.
  • the invention of the program can be implemented as an executable program recorded in a computer-readable recording medium and installed in these devices.
  • FIG. 1 shows a home theater system including a playback device, a display device, and glasses. As shown in FIG. 2A, the playback device, the display device, and the mobile terminal constitute a home theater system together with glasses and a remote controller, and are used by the user.
  • the reproduction apparatus 100 When the playback apparatus 100 is connected to the large display 200, the medium-sized television 300, or the portable terminal 400, the reproduction apparatus 100 reproduces the content recorded on the optical disc 101, and displays the reproduced video on the large-sized display 200, the medium-sized television 300, or the portable terminal 400 On the display screen.
  • the video output output from the playback device 100 is a video output corresponding to a stereoscopic video (also referred to as 3D video)
  • the display of the large display 200, the medium-sized television 300, or the mobile terminal 400 connected to the playback device 100 A stereoscopic video is output on the screen.
  • the optical disc 101 is a BD-ROM or DVD-Video, and is an example of a recording medium loaded in a playback device.
  • the remote controller 102 receives a user operation and causes the playback device 100, the large display 200, and the medium display 300 to perform an operation corresponding to the user operation.
  • the large display 200 is a large TV with a large screen such as 70 inches and has a stereoscopic image depth adjustment function.
  • the medium-sized display 300 is a TV with a normal screen of 50 inches or the like, and is a device having a stereoscopic image depth adjustment function.
  • the portable terminal 400 is a small display device such as 5 inches, a stereoscopic photographing unit, a writing unit that stores two or more viewpoint video data obtained by photographing in a stereoscopic photo file, and writes it in a recording medium, And a communication unit that transmits and receives two or more viewpoint video data.
  • This portable terminal 400 also has a function of reproducing a stereoscopic video and a function of adjusting a stereoscopic video depth.
  • the devices shown in FIG. 1 (specifically, the playback device 100, the large display 200, the medium-sized television 300, or the display screen of the portable terminal 400) all have a stereoscopic image depth adjustment function, but are connected devices. Accordingly, either one of the devices is configured to perform the stereoscopic video depth adjustment processing.
  • the large display 200 generally has high hardware performance, and the stereoscopic image received from the playback device 100 performs stereoscopic display after adjusting to a depth corresponding to the screen display of the large display 200. Therefore, the large display 200 is caused to perform depth adjustment processing.
  • the mobile terminal 400 often does not have high hardware performance as compared to the large display 200. Therefore, when the depth adjustment processing is performed on the mobile terminal 400, the load on the mobile terminal 400 increases. In some cases, the stereoscopic video display may be hindered. Therefore, the playback apparatus 100 may adjust the depth to correspond to the screen display of the mobile terminal 400 and then output the stereoscopic video display to the mobile terminal 400. It has a simple structure.
  • FIG. 1 shows an internal configuration of the device shown in FIG. 1 that is on the stream transmission side (reproduction device 100).
  • the devices on the stream transmission side are the network interface 1, the disk drive 2a, the local storage 2b, the broadcast receiving unit 3, the demultiplexer 4, the left eye image decoder 5, the right eye image decoder 6, and the left eye plane memory 7.
  • Right eye plane memory 8 adjustment unit 9, depth generator 10, adjustment degree calculation unit 11, depth image memory 12, DIBR unit 13, switches 14a and b, content property storage module 15, display target device property storage module 16, depth
  • the adjustment determination module 17, UO detection module 18, device interface 19, parser 20, communication control unit 21, performance information storage module 22, communication information creation module 23, performance comparison module 24, and response information creation module 25 are configured.
  • FIG. 3 shows an internal configuration of the device shown in FIG. 1, which is a display main body (TV 200, TV 300).
  • This figure is drawn on the basis of FIG. 2, and is different from FIG. 2 in that this base is different in that the network interface 1, the optical disk drive 2a, and the local storage 2b do not exist and a display unit 26 is added.
  • the arrows indicate intermediate paths that indicate what kind of components the image data in the figure passes through.
  • Stream supply source The components classified into the group “stream supply source” are the network interface 1, the optical disk drive 2 a, the local storage 2 b, the broadcast receiving unit 3, and the demultiplexer 4.
  • a right-eye stream and a left-eye stream may be prepared separately, or a right-eye stream and a left-eye stream may be embedded in one stream file.
  • a description will be given by taking as an example a configuration in which a stream for the right eye and a stream for the left eye are embedded in advance in one stream file.
  • the header information of one stream includes information for distributing the left-eye stream and the right-eye stream.
  • the components belonging to the stream supply source will be described.
  • the network interface 1 is a communication interface used for negotiation between devices or transfer of playback target content.
  • a physical device of this network interface for example, wired / wireless LAN (Local Area Network) commonly used in offices and homes around the world, or wireless standard BLUETOOTH (TM), TCP / UDP There are devices that can send and receive packets in units of packets.
  • the disk drive 2a loads / ejects the BD-ROM 100 and executes access to the BD-ROM.
  • the BD-ROM 100 is also a kind of means used for exchanging contents to be reproduced, like the removable media. If another means for exchanging stereoscopic images is installed, the disk drive 2a is not necessarily installed in the apparatus.
  • the local storage 2b is a storage medium inserted from an external slot (not shown), and suitable examples of the recording medium include a secure memory card, a semiconductor memory such as a flash memory, a magnetic recording medium, and the like.
  • the video processing apparatus shown in FIG. 2 has an external slot (not shown) for inserting a removable medium, and an interface (not shown) for accessing the removable medium when the removable medium is inserted into the external slot. Access (read, write) is performed.
  • the broadcast receiving unit 3 obtains a transport stream in broadcasting and outputs it to the demultiplexer 4.
  • the demultiplexer 4 sorts the left-eye video frame and the right-eye video frame from the stream header information obtained via the network interface 1, the optical disk drive 2a, the local storage 2b, and the broadcast receiving unit 3. Demultiplexing is alternately performed on the left-eye video frame and the right-eye video frame, and both are output when both the left-eye video and the right-eye video are completed. Depending on the output format, it is output alternately. Further, due to the hardware configuration, when there are two outputs, the left-eye video and the right-eye video are output separately.
  • Reproduction Unit The components classified into the group “reproduction unit” are the left-eye image decoder 5, the right-eye image decoder 6, the left-eye plane memory 7, and the right-eye plane memory 8. Hereinafter, these components will be described.
  • the left eye image decoder 5 decodes left eye image data.
  • the right eye image decoder 6 decodes the right eye image data.
  • the left-eye image decoder 5 has a path rt1 that receives the stream supply from the demultiplexer 4 and the supply of the compressed left-eye image data from the inter-device interface 19. This is based on the assumption that the input is from a stream source of another device through pass-through.
  • the right-eye image decoder 6 also has a path rt2 that receives a stream supplied from the demultiplexer 4 and a supply of compressed left-eye image data from the inter-device interface 19. This also assumes the case where the input is made through from a stream supply source of another device.
  • the left eye plane memory 7 stores uncompressed left eye image data obtained by decoding of the left eye image decoder 5.
  • the right eye plane memory 8 stores uncompressed right and left eye image data obtained by decoding by the right eye image decoder 6.
  • the depth adjustment is a part that actually processes the depth adjustment of the stereoscopic video.
  • the components classified into the group called the depth adjustment unit are the adjustment unit 9, the depth generator 10, the depth plane memory 11, the DIBR unit 12, the switch 13, the switch 14, the content property storage module 15, and the display target device property storage module. 16, a depth adjustment determination module 17.
  • the adjustment unit 9 includes a depth generator 10, a depth plane memory 11, and a DIBR unit 12, and makes the parallax due to the left eye image and the right eye image appropriate. Prior to the description of the depth generator 10, the depth plane memory 11, and the DIBR unit 12, what kind of processing is depth adjustment will be described.
  • the display position of the object A included in the image for the left eye is different from the position of the object A included in the image for the right eye, the display position is naturally different when displayed on the display.
  • the left-eye image and the right-eye image are alternately displayed at short time intervals, and the left eye image is seen by the left eye of the viewer wearing the shutter glasses, while the right eye is for the right eye.
  • the depths to be adjusted here include those that protrude from the screen and those that retract from the screen.
  • FIG. 4 shows the depth resulting from the jumping and retraction.
  • the human eye tries to adjust the focal position with respect to the object with both eyes.
  • the object A shown in FIG. 4A is focused on the intersection and position of a straight line connecting the object A included in the left eye image and the left eye image and a straight line connecting the right eye and the object A included in the right eye image. Combined.
  • the human brain recognizes as if the object is located at a position deeper than the display, and the human senses as if the object A is located at a position deeper than the display.
  • the amount of protrusion and the amount of retraction with respect to the display change according to the magnitude of this deviation. Whether the subject in the image jumps out or retracts from the display is determined according to the shift direction of the left and right images.
  • the parallax between the left and right images is small, i.e., the amount of shift between the left and right images is small, and the content for small screens such as those shot with an imaging device or mobile terminal
  • the left and right images are manufactured to have a large parallax, that is, a large amount of shift between the left and right images, thereby reducing the degree of eye fatigue on the viewer and making it possible to fully feel the stereoscopic effect. Viewing video and stereoscopic video can be played back.
  • the parallax between the left and right images is small, i.e., the amount of shift between the left and right images is small, and the content for small screens such as those shot with an imaging device or mobile terminal is used.
  • the left and right images are manufactured to have a large parallax, that is, a large amount of shift between the left and right images, thereby reducing the degree of eye fatigue on the viewer and making it possible to fully feel the stereoscopic effect.
  • Visual video and stereoscopic video can be played back.
  • FIG. 5 shows depth adjustment.
  • Each of the plurality of devices shown in FIG. 1 has a different depth because the number of inches on the screen is different.
  • FIG. 5 shows the depth amounts of the television 200 to the portable terminal 400 shown in FIG.
  • the television 300 is a display on which a content creator has a content assumption screen.
  • the content assumption screen indicates a screen that is assumed to reproduce stereoscopic content. In many cases, it is assumed that stereoscopic movie content is played back on a 50-inch display device, so 50-inch is the assumed content screen size.
  • stereoscopic photographs taken with a personal-use 3D camera are supposed to be displayed on a smaller screen, so the smaller screen becomes the content assumed screen size.
  • the position of Z as viewed from the user's face and the position where the image jumps out due to the stereoscopic effect are S.
  • the television 200 is a screen larger than the content assumed screen.
  • the screen is at the position Z (1), and the position at which the video is projected due to the stereoscopic effect is S (1).
  • the parallax on the screen may be determined so as to establish the relationship.
  • the depth amount of the television 300 is expressed as S / Z. Then, S (1) / Z (1) for the television 200 and S (2) / Z (2) for the portable terminal 400. Since the TV 200 and the mobile terminal 400 have different sizes and different depths, in order to make these common among a plurality of devices, the shift amounts Ps (1) and Ps (2) on the screen are adjusted. I have to. The adjustment degree Mrate will be described.
  • the adjustment degree Mrate is for calculating a parallax suitable for the screen to be displayed so that the ratio of Z and S is constant. Therefore, the adjustment degree Mrate needs to be determined by the ratio between the parallax determined using the original size on the content assumption screen and the parallax determined using the original size on the screen (x) to be displayed. That is, the adjustment degree Mrate is a ratio between the shift amount Ps on the content assumption screen and the shift amount Ps (x) on the screen x having an arbitrary size.
  • Fig. 6 shows two conceptual screens in contrast.
  • One of the conceptual screens is a screen defined by the number of vertical pixels and the number of horizontal pixels (w_pix, h_pix).
  • the other is a screen defined by the actual vertical and horizontal dimensions (Width (mm), Height (mm)).
  • Fig. 6 (a) shows the content assumption screen and the display target screen (x) in comparison.
  • the upper side is a content assumption screen, which shows a screen defined by the number of vertical pixels / horizontal pixels and a screen defined by actual vertical / horizontal dimensions superimposed.
  • the lower side is a display target screen (x), which shows a screen defined by the number of vertical pixels / horizontal pixels and a screen defined by the actual vertical / horizontal dimensions superimposed.
  • the adjustment degree Mrate is calculated by the ratio of the shift amount Ps on the content assumption screen and the shift amount Ps (x) on the display target screen (x). Then, the shift amount P (x) required in the display target screen (x) is obtained by multiplying the shift amount P in the content assumption screen by the adjustment degree Mrate.
  • the adjustment degree Mrate is obtained, and the shift amount P (x) suitable for the display target screen (x) can be obtained by multiplying the shift amount P in the screen determined by the number of vertical pixels and the number of horizontal pixels. Parallax can be obtained by doubling the pixel shift amount.
  • FIG. 6B shows how the Width and Height are calculated.
  • the ratio of Width and Height is m: n. If the sum of the square of Width and the square of height is the square of X, width is determined as in the formula using the ⁇ symbol in the figure. .
  • the adjustment degree Mrate (x) for adapting the parallax p based on the number of pixels in the content assumption screen to the display target screen (x) is Ps (x) / Ps It becomes. Therefore, the adjustment degree Mrate is calculated as the actual parallax Ps on the content assumed screen, the parallax P (x) and the ratio Ps (x) / Ps on the screen (x) to be displayed.
  • the adjustment degree Mrate is expressed using width (x) and w_pix (x) in the display target screen (x)
  • the adjustment degree Mrate is expressed as (w_pix (x) / width (x) ⁇ width / w_pix).
  • an image shift amount on a 50 inch display is 6 pixels.
  • the shift amount on a 5-inch display requires 63 pixels. This is the end of the description of the degree of adjustment.
  • the depth generation unit 10 searches the other viewpoint video for a matching pixel group that matches the pixel group that constitutes one viewpoint video, and the pixel group that constitutes the one viewpoint video and the pixels that constitute the other viewpoint video.
  • the parallax between the groups is detected, and map information that is the basis of depth adjustment is created using this parallax.
  • Map information serving as a basis for depth adjustment includes a parallax map and a depth image.
  • the parallax map is map information that arranges how many pixels are shifted in the left and right images, and the depth image is an image that is obtained by arranging how far away from the viewpoint. Since these can be mutually converted by the above-described equation (2), they are regarded as the same.
  • the depth image the depth is expressed by the value of the pixel constituting the image.
  • the depth of the object in the image can be changed by increasing or decreasing the luminance of the pixels in the depth image.
  • FIG. 7 is a diagram schematically showing a parallax map.
  • the parallax map in this figure corresponds to a left-eye image representing a person, and a square frame indicates a rectangular pixel group of the left-eye image.
  • the numerical value in the square frame is a parallax between a pixel group in the right-eye image and a pixel group corresponding to the pixel group in the left-eye image.
  • the parallax between the left eye image and the right eye image is expressed in the range of 1 to 15 pixels, it can be seen that the parallax is reproduced with high accuracy.
  • the depth generator 10 searches for the parallax between the left-eye image and the right-eye image, and then creates a depth image that represents the searched parallax for each pixel region. After that, the degree of adjustment according to the screen size on the display side is multiplied by each parallax to adapt to the screen on the display side. A depth image is obtained by converting the parallax for each pixel in the depth image after the adaptation into depth.
  • FIG. 8 is a diagram showing a specific image applied to the processing content of the depth generator 10. In this figure, the depth generator 10 and related components are extracted and drawn, and the data flow is added. The left eye image stored in the left eye plane memory is shown in the upper left, and the right eye image stored in the right eye plane memory is shown in the upper right.
  • a depth image generator is shown in the middle, and a depth image is shown on the lower side.
  • the depth image of FIG. 8 is schematically drawn, and the outline of the clothes and the face does not appear as a black line in the actual depth image.
  • the actual depth image has a white silhouette on a black background as a whole, and the periphery of the part having a three-dimensional effect is greyish.
  • the diagonal lines in FIG. 8 symbolically indicate the nature of the depth image in which the periphery of the part having the three-dimensional effect is expressed in gray.
  • the adjustment degree calculation unit 11 calculates and holds the adjustment degree from the mathematical formula (w_pix (x) / width (x) ⁇ width / w_pix).
  • the degree of adjustment here is multiplied by the parallax detected in the matching point search, and a new depth image is obtained by multiplying the degree of adjustment by the parallax detected in the matching point search.
  • the depth image memory 12 stores the depth image generated by the depth generator 10.
  • the DIBR unit 13 has a corrected parallax by performing depth image based rendering (DIBR) based on a depth image that has been corrected based on the degree of adjustment on a left-eye image that is one viewpoint video. Get two or more viewpoint videos.
  • FIG. 9 is a diagram showing a specific image applied to the processing content of the DIBR unit 12. The depth image is shown in the upper left, and the left eye image stored in the plane memory is shown in the upper right. DIBR is shown in the middle, and three stereoscopic images are shown below.
  • the lower left corner is a stereoscopic video with a large parallax
  • the lower middle is a stereoscopic video with a moderate parallax
  • the lower right is a stereoscopic video with a small parallax.
  • the stereoscopic content recorded on the optical disc is assumed to be played back at 50 inches, if the display screen is 5 inches, the parallax is set large as described above. If the display screen is 70 inches, the parallax is set small as described above.
  • the depth image in FIG. 9 is also schematically drawn as in FIG. 8, and the outline of clothes and the face does not appear as black lines in the actual depth image.
  • the depth image is a white-colored silhouette on a black background as a whole, and the periphery of the part with a three-dimensional effect is greyish.
  • FIG. 10 shows how the stereoscopic image jumps out when the depth adjustment is performed as shown in FIG.
  • A shows how much a stereoscopic video image with a large parallax is projected from the screen.
  • B shows how much a stereoscopic video image with a moderate parallax is projected from the screen.
  • C shows how much a stereoscopic video set with a small parallax pops out of the screen.
  • the above description is based on the assumption that the depth generator 10 has created a depth image in which the depth of the object is precisely reproduced.
  • the generation of the depth image largely depends on the search accuracy of the matching point, and the quality of the stereoscopic video is influenced by the difference in the search performance.
  • FIG. 11 shows how the depth represented by the depth image is changed by the matching point search algorithm.
  • FIG. 11A shows a depth image obtained from a matching point search with the lowest accuracy.
  • the depth shown in the depth image in FIG. 11A is planar, and is slightly raised compared to the background image.
  • the reason why the depth image is low in accuracy is that the parallax with the matching point in all the regions becomes almost the same value.
  • FIG. 11B is a depth image obtained by matching point search with an intermediate level of accuracy.
  • (b) since the parallax with the matching point is detected to some degree with high accuracy, the depth of the depth image generated by the result of the matching point search is curved.
  • FIG. 11C the depth of the person is faithfully reproduced.
  • the algorithm used for adjustment is block matching, semi-global matching, or graph cut. It also depends on how wide the search range is. Therefore, the search algorithm in each device is described as a property. In the present application, block matching, semi-global matching, and graph cut are assumed as typical search algorithms. Hereinafter, these search algorithms will be described.
  • Block Matching is an algorithm that divides an image of one eye into a plurality of areas, and extracts an area where the difference in pixel value from the divided image of the one eye is minimum from the image of the other eye. More specifically, the same area as the divided area of the image of one eye is set as the image of the other eye (referred to as a matching area). At this time, it is assumed that the vertical position of the divided area of the one-eye image is the same as the vertical position of the area set for the other one-eye image. The difference between the value of the pixel included in the divided region of the image of one eye and the value of the pixel included in the matching region set in the image of the other eye is calculated.
  • FIG. 12A shows matching point search by block matching. Arrows sh1, sh2, and sh3 indicate pixel value comparisons between the region in the right-eye image and the region in the left-eye image. A horizontal arrow sc1 indicates horizontal scanning in the right-eye image. With these contrasts and scans, the best matching region is found.
  • Semi-Global Matching is an algorithm that searches for a matching region in the horizontal direction in consideration of the matching of adjacent regions in a plurality of directions, and maps the distance between the most matching regions (see Non-Patent Document 2). reference).
  • FIG. 12B shows search by semi-global matching.
  • Arrows sh5 and sh6 indicate pixel value comparisons between the region in the right-eye image and the region in the left-eye image.
  • An arrow in the 8 direction indicates a consistency reference for the 8 directions.
  • the horizontal arrow sc2 indicates horizontal scanning in the right eye image. With these contrasts and scans, the best matching region is found.
  • Graph Cut is an algorithm that divides a video for each object and maps the distance between divided areas.
  • FIG. 12C schematically shows a search by graph cut.
  • Obj2, 3, 4 and 5 in the figure, when the person in FIG. 8 is a search target, human body parts such as the body, face, and limbs obtained by image recognition are recognized as objects, and matching point search is performed in units of these objects.
  • Arrows cm1, cm2, cm3, and cm4 indicate the pixel value contrast between the region in the right-eye image and the region in the left-eye image.
  • the image recognition is performed in advance, so that the matching point is searched with high accuracy in the graph cut. This completes the description of the search algorithm.
  • the switch 14a switches input of image data to be written in the left eye plane memory 7.
  • the left-eye plane memory 7 stores uncompressed left-eye image data obtained by decoding by the left-eye image decoder 5.
  • the left-eye plane memory 7 stores uncompressed left-eye image data transferred from another device via the device-to-device interface 19. Thereby, both the uncompressed left-eye image obtained by the decoding of the left-eye image decoder 5 and the uncompressed left-eye image transferred from another device can be targeted for depth adjustment.
  • the route rt3 is a route for storing the left-eye image input by the pass-through from the stream supply source of another device in the left-eye plane memory 7.
  • the switch 14b switches input of image data to be written into the right eye plane memory 8.
  • the right-eye plane memory 8 stores uncompressed right-eye image data obtained by decoding by the right-eye image decoder 6.
  • the right-eye plane memory 8 stores uncompressed right-eye image data transferred from another device via the device-to-device interface 19.
  • the route rt4 is a route for storing, in the right-eye plane memory 8, the right-eye image input through the pass-through from the stream supply source of another device.
  • the content property storage module 15 stores a property of content indicating how large the screen size is assumed for the image data to be stereoscopically viewed.
  • Content properties include, for example, the resolution of the video corresponding to the content, whether the video corresponding to the content is stereoscopic, whether the video corresponding to the content has been subjected to depth adjustment, and depth adjustment.
  • Information such as the degree of encoding, the content encoding format (LR multiple stream / side-by-side / top-bottom), information about whether the content to be played has already been depth-adjusted, and how much depth adjustment has already been performed.
  • Content resolution, content playback assumed screen size, and the like are obtained from, for example, header information of a stream corresponding to the content.
  • the display device property storage module 16 is a control register that stores performance information of a device that is a stereoscopic video display target.
  • Display device properties include the resolution of the display screen of the display device, the size of the display screen of the display device, whether the display device is capable of stereoscopic display, whether the display device has a depth adjustment function, or a depth adjustment function. If so, how the current depth adjustment settings are set by the user, the display format of the display device (frame sequential / side-by-side / top-bottom), information on whether the display device is remote, etc. It is.
  • the device to be displayed is not necessarily its own device.
  • the negotiated remote device becomes a display target device, or an image received from another device is displayed.
  • the display target device property is acquired through, for example, the inter-device interface 19. This acquisition timing is made before accepting a stereoscopic video playback request, such as when a client device is activated or when a client device and a server device are remotely connected.
  • the device that triggers the playback of the stereoscopic video corresponds to the display target device. If the display is not performed on a device that triggers playback of a stereoscopic video, a device that is connected to a device that triggers playback of a stereoscopic video and has a display function corresponds to a display target device. If the device that triggers the playback of stereoscopic video is the display target device, set properties using information stored in advance in storage means (not shown) such as the hard disk or memory of the device itself. When the display target device is remote, the properties acquired from the display target device are stored via the multimedia cable interface in the network interface 1 or the inter-device interface 19.
  • the depth adjustment determination module 17 determines whether or not the depth adjustment is necessary by determining whether or not the screen size to be displayed matches the screen size of the assumed content screen size when reproducing the content.
  • the necessity of providing the depth adjustment determination module 17 in the video processing device will be described. Determining whether or not the depth adjustment is necessary results from the following request.
  • BD-ROM the left-eye image and right-eye image that make up the stereoscopic video image are present in the transport stream in the BD-ROM, so if the left-eye image and right-eye image are decoded, the depth is adjusted by the authoring side.
  • the visual image is played back.
  • the parallax appearing in the left eye image and the right eye image assumes that the left eye image and the right eye image are reproduced on a screen of 50 inches or the like.
  • the pop-out degree becomes transient, and when the screen is small, the pop-out degree becomes unsatisfactory. Therefore, the depth is adjusted so as to be optimum for the display on which the pop-out amount is displayed.
  • the necessity of depth adjustment is determined by direct comparison of screen sizes, but sufficient information cannot be obtained as to what screen size the content to be played is supposed to be played back.
  • the current degree of depth adjustment is used as a judgment material.
  • the numerical range of the parallax for the left-eye image and the right-eye image whose depth is adjusted depends on the size of the assumed content screen size. Therefore, by preparing a parallax reference value and holding it in the device for each of the multiple screen sizes that are assumed to be played back, the device holds in advance the parallax for the left-eye image and right-eye image whose depth has been adjusted.
  • the depth adjustment determination module 17 determines whether content depth adjustment is necessary based on the information stored in the display device property storage module 16 and the information stored in the playback content property storage module 7. Judgment is made.
  • the component classified into the group of user input is the UO detection module 18.
  • the UO detection module 18 is a part that receives a signal corresponding to a command instructed by, for example, a user operating a remote controller or the like. For example, a signal corresponding to an instruction for depth of real-time stereoscopic video by key operation is received from the UO detection module, or a signal corresponding to an instruction for adjustment of device settings (including depth degree adjustment setting) is received. It is possible.
  • the UO detection module 18 When the UO detection module 18 detects a stereoscopic video playback request by a user's remote control operation, the UO detection module 18 transfers a stereoscopic video playback request to a component group corresponding to the playback unit, or is activated. In some cases, a playback of stereoscopic video is transmitted from the application.
  • the playback of the stereoscopic video is requested from the application to be activated
  • a bytecode application such as a Java application is activated from the application activation menu
  • the activated application is stereoscopically activated according to a user operation from the UO detection module 18.
  • the reproduction request for the stereoscopic video includes information on the acquisition location of the content to be reproduced and information on whether the image content is planar or stereoscopic.
  • Inter-device communication The components classified into the group “inter-device communication” will be described.
  • the components classified into the group “communication between devices” are the device interface 19, the parser 20, the communication control unit 21, the performance information storage module 22, the communication information creation module 23, the performance comparison module 24, and the response information creation module 25. It is. Hereinafter, these components will be described.
  • the inter-device interface 19 transfers decoded video and audio through, for example, a multimedia cable, a composite cable, and a component cable compliant with the HDMI standard.
  • HDMI can add various property information in addition to video.
  • the display device property storage module 6 stores the performance information of the device that executes the display process via the multimedia cable interface. .
  • Parser 20 performs parsing of negotiation data between devices, and converts information created by transmission information creation module 9 or response information creation module 12 into data that can be processed by the device.
  • the communication control unit 21 performs communication control in the video processing device.
  • the communication control unit 21 is not meaningful by itself, and exhibits its true value in a communication sequence in which devices having the same configuration are connected to each other to transmit and receive messages and data.
  • FIG. 13A shows a communication sequence performed by the communication control unit 21.
  • the left side shows the sender and the right side shows the receiver side.
  • a time axis common to a plurality of devices is drawn.
  • phase ph1 for determining the necessity of depth adjustment
  • negotiation phase ph2 phase ph3 for determining the subject of depth adjustment using performance information
  • transfer of left-eye image data and right-eye image data constituting stereoscopic content There are two variations of the depth adjustment subject determination phase ph3 and the transfer phase ph4 that are composed of the phase ph4 depending on the performance of the search algorithm.
  • the presence of two sequences (a) to (b) in FIG. 13 indicates the difference between these variations.
  • FIG. (A) shows a case where the ability of the sender is high
  • FIG. (B) shows a case of high search ability of the receiver.
  • FIG. 13A shows a case where the algorithm capability (Algo (dst)) on the receiver side is higher than the algorithm capability (Algo (src)) on the sender side
  • FIG. 13B shows the opposite case. Show.
  • This difference is clear from the content of the determination phase of the depth adjustment subject. That is, in FIG. 13A and FIG. 13B, the inequality relationship between the search application level (Algo (src)) at the sender and the search algorithm level (Algo (dst)) at the receiver is replaced. .
  • This difference also appears in the transfer phase.
  • the parallelograms arranged side by side in the transfer phase represent a set of a left eye image and a right eye image that form a stereoscopic view.
  • FIG. 13 (a) the depth is adjusted on the sender side
  • FIG. 13 (b) the depth is adjusted on the receiver side. This difference occurs because FIG. 13 (a) assumes that the receiver's depth adjustment ability is high, and FIG. 13 (b) assumes that the sender's depth adjustment ability is high. is there.
  • FIG. 13 (a) assumes that the receiver's depth adjustment ability is high
  • FIG. 13 (b) assumes that the sender's depth adjustment ability is high. is there.
  • the performance information storage module 22 stores a property of performance information indicating how much depth adjustment is performed in the device itself. Since the performance information indicates how much depth adjustment is performed in each device, the setting value differs for each device.
  • FIG. 14 is a setting example of performance information in the playback device 100, the television 200, the television 300, and the mobile terminal 400 shown in FIG. In these pieces of performance information, the performance information shown in the figure includes information elements such as a function with / without an adjustment function, a search algorithm, a search range, a transfer rate, a reference destination of content to be played back, and an adjustment capability.
  • information elements of the performance information will be described.
  • a specific example of the setting of what value the information element is set to will be described.
  • Adjustment function presence / absence is a property embedded in the device in advance, and is information for determining whether the device has a depth conversion function. In the example illustrated in FIG. 14, it is illustrated that the depth adjustment function is present in any of the playback device 100, the television 200, the television 300, and the mobile terminal 400.
  • Search algorithm is a property embedded in the device in advance, and is stored as a numerical value associated with the algorithm name of the depth conversion implementation method of the device.
  • the search algorithm of the playback device 100 and the television 300 both employs a graph cut.
  • the television 200 is semi-global matching and the mobile terminal 400 is block matching.
  • a plurality of algorithms are possessed instead of only one. In this case, a plurality of different values are set for the property of the depth adjustment algorithm.
  • Search range is a property embedded in the device in advance, and is a default parameter when, for example, an algorithm set in the search algorithm is applied.
  • the algorithm parameters indicate, for example, a pixel search range in the horizontal direction when obtaining left-eye and right-eye parallax information.
  • the search range of the television 300 is set to 24 pixels, and the search ranges of the playback device 100, the television 300, and the television 200 are all set to 16 pixels.
  • Transfer rate is a value indicating the throughput of the interface connected when connecting to the connection target device.
  • the data transfer capability in the depth adjustment capability property is used to determine whether the transfer of the device on the other side of data transmission / reception is wired via HDMI or wireless via Wifi.
  • the transfer rate may be a property embedded in the device in advance, or the value may be used by measuring the throughput at the time of negotiation.
  • the transfer rate in the playback device 100 of FIG. 14A is set to 53.3 (Mbps)
  • the television 200 and the television 300 are set to 24 (Mbps)
  • the portable terminal 400 is set to (8 Mbps). Is shown.
  • “Reference destination of playback target content” indicates the storage medium of the playback target content and the file path stored.
  • the reference destination of the content to be played in the playback device 100 in FIG. 14A is set to “E: /local/path/01234.mt2s”, and playback in the mobile terminal 400 in FIG. It can be seen that the reference destination of the target content is set to "C: /local/path/01234.mt2s”.
  • Adjustment ability is a benchmark score indicating the performance when the search algorithm and search range are applied to the playback target content. This value is preferably a value that takes into account the data throughput of the storage destination of the content to be played back. For example, since the data stored in the removable medium and the disk drive 2a depends on the medium reading speed of the device, it is desirable to try the depth adjustment once and find the depth adjustment processing capability. When there are a plurality of values indicated by the search algorithm, there is a value of the depth adjustment processing capability corresponding to each search algorithm. In the example of FIG. 14, it can be seen that the adjustment capabilities of the playback device 100, the television 200, and the television 300 are all 85 (Mbps), which is comparable. On the other hand, the mobile terminal 400 has an adjustment capability of 43 (Mbps), which indicates that the adjustment capability is low.
  • the adjustment function “Yes” is set for any device.
  • both the playback device 100 and the television 300 are set to graph cut, the television 200 is set to semi-global matching, and the mobile terminal 400 is set to block matching.
  • the search range only the television 300 is set to 24 pixels. It can be seen that the performance difference of each individual as described above is reflected in the performance information of each device.
  • the communication information creation module 23 reads the performance information of the own device and converts it into a data format suitable for transfer to the counterpart device to create transmission information.
  • the performance comparison module 24 compares the search level in the performance information received from the partner side with the search level in its own device, and determines which device is from the transmission information received from the partner device to be negotiated. This is a module that determines how to adjust depth.
  • the performance comparison module 24 adjusts the depth of either the sender or the receiver by comparing the search algorithm indicated in the performance information transmitted from the sender when the device is connected with the search algorithm indicated in its own performance information. Decide whether to be the subject. The reason why the depth adjustment subject is determined by the height of the search algorithm is that the difference in the search algorithm greatly affects the matching point search accuracy. When the level of the search algorithm of both devices is the same, the level of the search range is determined.
  • the search range of both devices is the same, it is determined by the speed of depth adjustment of both devices.
  • the speed of depth adjustment of both devices As described above, when comparing the search algorithms between two connected devices, if there is no superiority or inferiority, compare the devices with parameters of different dimensions such as wide search range and speed of depth adjustment capability. Yes. This is not a simple comparison of the speed of depth adjustment, but a manifestation of a product concept that determines the subject of depth adjustment with superior quality.
  • the response information creation module 25 creates response information indicating the comparison result and transmits it to the sender.
  • FIG. 15A shows response information transmitted from the television 300 when the playback device 100 and the television 300 are connected
  • FIG. 15B is transmitted from the television 200 when the portable terminal 400 and the television 200 are connected.
  • Response information. 16A shows response information transmitted from the portable terminal 400 when the portable terminal 400 and the playback device 100 are connected
  • FIG. 16B shows the response information transmitted from the television 200 when the television 200 and the playback device 100 are connected. Indicates the response information to be sent.
  • the response information includes information fields such as an adjustment device, a terminal function, an adjustment level, a search algorithm, and a search range.
  • Adjustment device indicates an adjustment result indicating which of the sender and the receiver is the adjustment subject.
  • the receiver side (dst) is shown as the adjustment subject.
  • the adjustment device is set as the receiver because the performance of the receiver is high when the performance information is compared in the connection patterns of FIGS. 15 (a), 15 (b), and 16 (a).
  • the sender (src) side is shown as the adjustment subject.
  • the adjustment device is set as the sender because the performance of the sender is high when the performance information is compared in the connection pattern of FIG.
  • Terminal function indicates whether the depth adjustment is performed automatically or manually. In any of the connection patterns of FIGS. 15A, 15B, 16A, and 16B, this terminal function is set to automatic.
  • Adjustment level indicates which level is set to high, medium or low. In any of the connection patterns shown in FIGS. 15A, 15B, 16A, and 16B, the adjustment level is set to “medium”.
  • “Search algorithm” indicates an algorithm used by the main body of depth adjustment.
  • the algorithm is set to graph cut
  • semi-global matching is set.
  • 16A and 16B that the graph cut is set.
  • “Search range” indicates the search range of matching points by the depth adjustment subject.
  • the response information in the connection patterns of FIGS. 15B, 16A, and 16B indicates that the search range is 16 pixels.
  • the response information in the connection pattern in FIG. 16A indicates that the search range is 24 pixels.
  • the sender-receiver having higher adjustment capability is notified to the other party by the response information.
  • the algorithm is the same, but since the search range is wide for the television 300, the television 300 is determined as the adjustment main knowledge. Therefore, left-eye image data and right-eye image data whose depth has been adjusted are transmitted from the playback apparatus 100 to the television 300. Then, the depth adjustment is performed by the own algorithm on the television 300 side.
  • Screen Adaptation The component classified in the group “screen adaptation” is the output video converter 26. Hereinafter, this component will be described.
  • the output video converter 26 determines in what format the negotiation destination and the stereoscopic video content are to be transmitted based on the information of the response information, and formats the uncompressed left-eye image data and right-eye image data as the determination results Convert to For example, a pattern that has been subjected to depth adjustment and decoded data is converted into a format that can be processed by the negotiation destination device, or the stereoscopic video data that has been decoded is received, depth adjustment is performed, and the pattern is displayed by itself There are various.
  • the response information transmitted from the receiver to the sender has the contents shown in FIGS. 15A and 15B and FIGS.
  • FIG. 17 and FIG. 18 show a plurality of patterns of senders and receivers and stereoscopic display in each pattern.
  • FIG. 17A shows the connection between the television 300 and the playback device 100.
  • the search algorithm is the same, but since the TV 300 is wide in the search range, the TV 300 is determined as the adjustment main knowledge. Therefore, left-eye image data and right-eye image data whose depth has not been adjusted are transmitted from the playback apparatus 100 to the television 300. Then, the depth adjustment is performed by the own algorithm on the television 300 side.
  • FIG. 17B shows the connection between the portable terminal 400 and the television 200.
  • the TV 200 capable of searching for a matching point by semi-global matching becomes the depth adjustment subject.
  • the television 200 is on the receiver side, the left and right images are output to the receiver side without adjustment.
  • the depth adjustment by the semi-global matching of the television 200 is performed, and the projection amount: small-level stereoscopic reproduction is performed.
  • FIG. 18A shows when the portable terminal 400 and the playback device 100 are connected.
  • the playback device 100 capable of searching for a matching point in a graph cut becomes the depth adjustment subject.
  • the portable terminal 400 since the portable terminal 400 is on the sender side, the left and right images are adjusted by the sender and then output to the receiver side. Therefore, the depth adjustment is performed by the graph cut of the reproducing apparatus 100, and the amount of popping out: a large level stereoscopic reproduction is performed.
  • FIG. 18B shows when the playback device 100 and the television 200 are connected.
  • the TV 300 capable of searching for matching points by graph cut becomes the depth adjustment subject.
  • the television 200 is on the receiver side, the left and right images are output to the receiver side without adjustment. In this way, depth adjustment is performed by the graph cut of the television 200, and the projection amount: medium level stereoscopic reproduction is performed.
  • This unique component includes a display unit 25.
  • the display unit 26 receives the left-eye image and the right-eye image that have been depth-adjusted and format-converted by the own device, and provides the screen display. In addition, the left-eye image and the right-eye image that have been depth-adjusted and format-converted by the own device by other devices are received and displayed on the screen.
  • the video processing apparatus can be industrially produced by embodying each component in the video processing apparatus as described above with a hardware integrated element such as an ASIC.
  • a general-purpose computer architecture such as CPU, code ROM, or RAM
  • a program in which the processing procedure of each component as described above is described in computer code is pre-installed in the code ROM.
  • the CPU in the hardware integrated device must execute the processing procedure of this program.
  • a processing procedure required for software implementation when a general-purpose computer system architecture is adopted will be described.
  • FIG. 19 is a main flowchart in the processing procedure for determining the depth device. This flowchart corresponds to the highest-level process, that is, the main routine, and there are flowcharts shown in FIGS. 20 to 24 as lower flowcharts of this flowchart. Hereinafter, a processing procedure in the main routine will be described.
  • the depth adjustment method of the stereoscopic video image may include processing of two or more devices. However, the processing shown in FIG. 7 is the overall processing of the device that triggers the playback of the stereoscopic video image, that is, the client device. Is shown.
  • FIG. 19 is a main flow of the processing procedure of the video processing apparatus.
  • the property of the display device is acquired (step S1)
  • reproduction is started (step S2)
  • the property of the content is acquired (step S3)
  • the process proceeds to the determination step of step S6.
  • step S4 step S1 is skipped and the process is started from step S2.
  • step S5 steps S1 to S3 are skipped and the process is started from step S6.
  • step S6 The determination step of step S6 is determination of whether or not the depth of the content needs to be adjusted. If the depth adjustment is not necessary, steps S7 to S9 are performed.
  • step S7 it is determined whether or not the device is a display device. If it is a display device, a stereoscopic video is displayed (step S8). If it is not a display device, the stereoscopic video content is transmitted to the display device that is the partner of data transmission / reception (step S9).
  • step S6 If it is determined in step S6 that depth adjustment is necessary, the process proceeds to a series of steps S11 to S17.
  • the device is negotiated (step S11), and if successful, the device performance is exchanged (step S12).
  • step S13 it is determined whether the content storage location is the device itself.
  • step S14 the device for depth adjustment is selected. If the storage location is not the own device, in step S17, it waits for reception of stereoscopic video content, and after receiving it, in step S14, the device for depth adjustment is selected.
  • Step S15 is a determination as to whether or not the selected device is its own device. If the own apparatus is the depth adjustment main body, the depth adjustment is executed in step S16, and then the process proceeds to steps S8 to S10. If the own apparatus is a display device, a stereoscopic video is displayed.
  • step S16 is skipped and the process proceeds to steps S8 to S10. If the device is a display device, a stereoscopic video is displayed.
  • FIG. 20 is a flowchart showing a procedure for determining whether or not content depth adjustment is necessary and for device negotiation.
  • FIG. 20A shows a process for determining whether or not the depth adjustment of the content is necessary.
  • the flowchart in this figure is a subroutine, and when the subroutine is terminated, a return value is returned to the calling flowchart. This return value is as shown at the end of the flowchart.
  • Step S21 determines whether or not the automatic depth adjustment function in the display device property is ON.
  • step S22 it is determined whether or not depth adjustment is necessary by determining whether or not the screen size in the display device property matches the stereoscopic display-compatible screen size in the reproduction content property.
  • step S22 the current degree of depth adjustment is taken into account. This can be implemented, for example, by determining whether the parallax detected in the matching point search for the adjusted matching point whose depth has been adjusted is large by comparing with a reference value held in advance by the device. is there. If both step S21 and step S22 are Yes, it returns that depth adjustment is required. If any of step S21 and step S22 is No, it returns that depth adjustment is unnecessary.
  • FIG. 20B is a flowchart showing an example of detailed processing of device negotiation.
  • Step S23 determines whether there is at least one interface capable of bidirectional data transmission / reception.
  • This interface includes the network interface 1 described above.
  • a method using the network interface 1 includes a method of communicating using Bluetooth or HTTP protocol, or a method combining these. It is determined using the information in the display target device property storage module 6 what interface the recipient device supports.
  • Step S24 tries to connect at an interface capable of bidirectional data transmission / reception.
  • the stereoscopic video reproduction engine 15 confirms the connection to the connection target device. For example, when the network interface 1 is used for the negotiation, communication with the device is performed using BlueTooth or HTTP protocol to confirm whether the connection with the target device is successful. When the multimedia cable interface 4 is used for negotiation, it is confirmed whether or not it is physically connected. If both of step S23 and step S24 are Yes, it will transfer to apparatus performance replacement
  • FIG. 21 is a flowchart showing a procedure for exchanging device performance.
  • the sender if performance information is created (step S31), the performance information is transmitted to the receiver (step S32), a response from the receiver is awaited (step S33), and the response information is received.
  • the response information is parsed (step S34).
  • step S41 the reception of performance information is awaited. If the performance information is received, the performance information is parsed (step S42), and the performance information of the own device is extracted (step S43). Is compared with the performance information indicated in the received performance information (step S44), the depth adjustment device is determined according to the comparison result (step S45), and response information for the performance information is created ( In step S46, information is transmitted accordingly (step S47).
  • FIG. 22 is a flowchart illustrating a procedure for selecting a device for depth adjustment. This flowchart includes the determination step group of steps S50 to S53, and the determination result differs depending on which determination step is Yes in these determination step groups.
  • Step S50 is a determination as to whether there is depth adjustment in both the sender and the receiver, and Step S51 is a determination as to whether the depth image generation speed is sufficient in both devices.
  • Step S52 is a determination as to whether the performance of the search algorithm of both devices is the same, and Step S52 is a determination of whether the search range of matching points in both devices is the same.
  • the depth adjustment is performed by the device having the depth adjustment in step S54. If both devices have depth adjustment capability, it is determined in step S51 whether the matching point search processing speed of both devices is sufficient. If the processing speed of one device exceeds a predetermined threshold, in step S55, a device that can perform matching point search at a processing speed that exceeds the threshold is selected.
  • step S52 If the processing speed of matching point search of both devices exceeds the threshold value, the level comparison of the search algorithms is performed in step S52. If the level of the search algorithm in one device is high, a device having an algorithm with a high level is selected in step S56.
  • step S53 If the search algorithms of both devices are at the same level, the search ranges are compared in step S53. If the search range of one device is wide, the device with the wider search range is selected as the depth adjustment subject in step S57.
  • step S58 a device with a high matching search processing speed is selected as the depth adjustment subject.
  • the display-side device is selected as the depth adjustment subject.
  • FIG. 23 is a flowchart showing a processing procedure of depth adjustment processing.
  • the depth adjustment processing is a device that generates a parallax map using parallax calculation processing such as non-patent literature 1, block matching, and graph cut of non-patent literature 2, and performs depth adjustment processing on each pixel of the parallax map. Is multiplied by an adjustment degree (for example, 1/2) held in advance to obtain a new parallax map, and then the pixels of the left-eye image and the right-eye image are shifted in the horizontal direction based on the depth image corresponding to the parallax map.
  • an adjustment degree for example, 1/2
  • step S61 a parallax map is generated according to the depth adjustment algorithm and the depth adjustment parameter in the response information, and in step S62, a new parallax map and a depth image are obtained by multiplying the pixels of the parallax map by the adjustment degree built in the device.
  • step S63 each pixel of the left eye image and the right eye image is shifted in the horizontal direction based on the depth image corresponding to the new parallax map.
  • FIG. 24 is a flowchart showing a processing procedure for creating a parallax map.
  • Step S71 is content determination of the adjustment algorithm in the response information. If the algorithm is block matching, in step S72, the matching region in the other one-eye image is searched in the horizontal direction to obtain the most matching region.
  • step S73 the matching area in the other one-eye image is searched for in consideration of the consistency with the adjacent divided areas in a plurality of directions, and the most matching area is obtained.
  • step S74 the video is divided for each object, the most consistent area is searched for each of the divided areas, and the most consistent area is obtained.
  • step S75 a parallax map is obtained by mapping the difference between the horizontal position of the most aligned area and the horizontal position of the divided area of the one-eye video as the distance of the most aligned area.
  • the stream to be reproduced is limited to only one type of video stream.
  • an internal configuration that takes into consideration other data other than the video stream is adopted.
  • FIG. 25 shows an internal configuration in consideration of data other than the video stream.
  • an image decoder 30, an image memory 31, a shift unit 32, synthesis units 33a and 33b, and an audio decoder 34 are added to the video processing apparatus according to the second embodiment.
  • the image decoder 30 decodes graphic data such as JPG / PNG demultiplexed by the demultiplexer 4 to obtain uncompressed graphics.
  • the image memory 31 stores uncompressed graphics obtained by decoding.
  • the shift unit 32 performs a plane shift with a preset offset to obtain a left eye image and a right eye image.
  • This plane shift is a technique disclosed in Patent Document 1.
  • plane shift since the entire screen is shifted, the depths of all objects in the video change similarly. As a result, the stereoscopic effect of the image is not changed, but the display position of the image that appears stereoscopically is adjusted so that it appears in the nearer position, or adjusted so that it appears in the deeper position. become.
  • the synthesizing unit 33a synthesizes the left eye image output from the left eye image decoder 5 and the left eye image generated by the shift unit 32.
  • the synthesizing unit 33b synthesizes the right eye image output from the right eye image decoder 6 and the right eye image generated by the shift unit 32.
  • the audio decoder 34 decodes the audio frame output from the demultiplexer 4 and outputs uncompressed audio data.
  • a composite image obtained by combining graphics with the left eye image and the right eye image can be subjected to depth adjustment. If this graphics represents a GUI, the depth of the GUI can be made appropriate.
  • the shift unit 32 performs a plane shift with a preset offset. Therefore, in this embodiment, the degree of image pop-up is controlled by increasing or decreasing this offset.
  • the image combined with the image is also increased or decreased according to the screen size of the display device, so that the amount of image and image jump can be made appropriate.
  • the third device performs the depth adjustment. If there is only one candidate for the third device, the device is caused to adjust the depth. On the other hand, if there are a plurality of candidates for the third device, it is desirable to select one of the candidate devices as the depth adjustment subject.
  • the determination of the depth adjustment subject should be determined in consideration of the round trip time.
  • the round trip time includes a time for transferring unadjusted image data to a candidate device, and a time for receiving adjusted image data from a candidate device. The round trip time is determined from the transfer rate. Therefore, by comparing the transfer rates, it is possible to determine which candidate device can obtain the adjusted image data earlier. Therefore, it is desirable to determine which of the candidate devices should be the third device by comparing the transfer rates.
  • stream data including stereoscopic video is captured via the network interface 1, removable media, and the disk drive 2 a, and the captured stream data is transmitted via the multimedia cable interface 4.
  • the negotiation between them will be described by taking the case of performing the negotiation through the network interface as an example, but the negotiation is not limited thereto.
  • connection between devices using the multimedia cable interface 4 is made by, for example, HDMI connection
  • the connection using the network interface is not necessarily required if negotiation is performed using the HDMI extension area. Absent.
  • the large display 400, the medium-sized television 300, or the portable terminal 600 does not necessarily need to include the BD-ROM drive 3.
  • Removable media is a kind of means used for exchanging content to be played back between devices.
  • removable media is used as a means for transmitting stereoscopic video when content for a large display stored on an optical disc is played back on another device equipped with a small remote display. . If another means for exchanging stereoscopic images is installed, the removable medium is not necessarily installed in the apparatus.
  • the network interface 1 does not necessarily need to be mounted.
  • the virtual file system is a function in which a BD-ROM 100, a hard disk, or a removable medium is virtually combined, and it appears as if it is recorded on one recording medium from a request source requesting information.
  • the virtual file system has access destination data information including a file path requested to the virtual file system and data corresponding to the access destination separately from the data related to the stereoscopic video. It holds access destination conversion information related to a file path indicating a location that actually exists.
  • the virtual file system When an access request is made to the virtual file system, the virtual file system refers to the access destination conversion information, converts the access destination into a file path where the requested data is present, and performs access.
  • the request source can remove the data requesting the access request.
  • An access request can be made without being aware of the presence of separate devices such as media and disk drives.
  • a function for adjusting the stereoscopic degree may be provided on the display device side.
  • an apparatus that performs stereoscopic viewing with the need for glasses has been described, but may be applied to autostereoscopic viewing that allows stereoscopic viewing without the need for glasses.
  • the determination of the depth adjustment subject in the first embodiment is merely an example, and the medium-sized television 300 or the mobile terminal 400 has high hardware performance. If the display is not hindered, the depth adjustment processing may be performed by the medium-sized television 300 or the portable terminal 400.
  • the portable terminal extracts the compressed left-eye image data and the compressed right-eye image data from the stereoscopic photograph file and uses them for reproduction.
  • the stereoscopic photo file here is an MPO file.
  • MPO (Multi picture object) files are files that can be shot with Nintendo 3DS and Fujifilm FinePix REAL 3D W1 and W3 cameras, including shooting date, size, compressed left-eye image, and compressed right-eye image. Geographic latitude, longitude, elevation, direction, and slope are included as geographical information about the ground.
  • the compressed left-eye image and the compressed right-eye image are data compressed in JPEG format. Therefore, the mobile terminal 400 obtains a right-eye image and a left-eye image by decompressing JPEG format data.
  • the reading unit reads a stereoscopic interleaved stream file from the recording medium.
  • the reading unit uses the extent start point information in the clip base information in the 3D stream information file and the extent start point information in the clip dependent information to perform the stereoscopic interleaved stream file.
  • the stream file is divided into a main TS and a sub-TS and stored in separate read buffers.
  • This division includes processing of extracting source packets from the stereoscopic interleaved stream file and adding them to the main TS by the number of packets of the source packet number indicated in the extent start point information in the clip dependent information, and clip base
  • the processing is performed by repeating the process of extracting the source packet from the stereoscopic interleaved stream file and adding it to the sub TS for the number of packets of the source packet number indicated in the extent start point information in the information.
  • Each of the left-eye image decoder 5 and the right-eye image decoder 6 includes a coded data buffer and a decoded data buffer, and preloads the view components constituting the dependent-view video stream into the coded data buffer, and then closes the base-view video stream.
  • the left-eye image decoder 5 and the right-eye image decoder 6 perform the subsequent view component and the decode of the base-view video stream that has been compression-encoded based on the correlation with the view component. Decodes the view component of the pendant view video stream. If uncompressed picture data for the view component is obtained by decoding, the picture data is stored in the decoded data buffer, and the picture data is used as a reference picture.
  • the left-eye image decoder 5 and the right-eye image decoder 6 perform motion compensation for the subsequent view component of the base view video stream and the view component of the dependent-view video stream. If uncompressed picture data is obtained for the subsequent view component of the base-view video stream and the view component of the dependent-view video stream by motion compensation, these are stored in the decoded data buffer and used as reference pictures.
  • the above decoding is performed when the decoding start time indicated in the decoding time stamp of each access unit arrives.
  • the service reception unit manages service selection. Specifically, it receives a service change request based on a user instruction from a remote control signal or an instruction from an application, and notifies the reception unit.
  • the receiving unit receives a signal at the frequency of the carrier wave of the transport stream to which the selected service is distributed from the antenna or cable and demodulates it. Then, the demodulated TS is sent to the separation unit.
  • the reception unit includes a tuner unit that performs IQ detection on the received broadcast wave, a demodulation unit that performs QPSK demodulation, VSB demodulation, and QAM demodulation on the broadcast wave subjected to IQ detection, and a transport decoder. .
  • the demultiplexing unit extracts system packets such as PSI from the received transport stream, acquires 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor descriptors from the PMT packet that is one of the extracted system packets, and the display determination unit Notify
  • the display determination unit refers to each of 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor notified from the demultiplexing unit to grasp the stream configuration of the transport stream.
  • the PID of the TS packet to be demultiplexed is notified to the demultiplexing unit.
  • the display determination unit refers to 2D_view_flag of 3D_system_info_descriptor and frame_packing_arrangement_type of 3D_service_info_descriptor to determine whether the left-eye image or the right-eye image is 2D with respect to the display processing unit when the stereoscopic playback method is a frame compatible method. Notify whether it is used for playback or the video stream is a Side-by-Side format.
  • the display determination unit refers to the 3D_playback_type of the 3D_system_info_descriptor extracted from the demultiplexing unit, and determines the playback method of the received transport stream.
  • the 2D_independent_flag of the 3D_system_info_descriptor is referred to and it is determined whether or not the video stream used for 2D playback and the video stream used for 3D playback are shared.
  • the stream configuration is specified with reference to 3D_combi_info_descriptor.
  • the stream structure of the transport stream is 2D / L + R1 + R2
  • the 2D / L + R1 + R2 stream is decoded to obtain a set of left-eye image data and right-eye image data.
  • the 2D / L + R stream is decoded to obtain a set of left-eye image data and right-eye image data.
  • the display determination unit identifies the stream configuration with reference to 3D_combi_info_descriptor.
  • the stream structure of the transport stream is MPEG2 + MVC (Base) + MVC (Dependent)
  • the MPEG2 + MVC (Base) + MVC (Dependent) stream is decoded to obtain a set of left-eye image data and right-eye image data .
  • the MPEG2 + AVC + AVC stream is decoded to obtain a set of left-eye image data and right-eye image data.
  • the 2D_independent_flag of the 3D_system_info_descriptor is referred to and it is determined whether or not the video stream used for 2D playback and the video stream used for 3D playback are shared.
  • the value of 2D_independent_flag is 0, a 2D / SBS stream is decoded to obtain a set of left-eye image data and right-eye image data.
  • 2D + SBS stream is decoded to obtain a set of left eye image data and right eye image data.
  • 3D playback is performed by cropping out the left-eye image and the right-eye image that exist on the left and right.
  • frame_packing_arrangement_type is not a Side-by-Side format, 3D playback is performed by specifying the TopBottom method and cropping out the left-eye image and the right-eye image existing above and below.
  • left-eye image data and right-eye image data can be obtained.
  • the stereoscopic video content subject to depth adjustment is content recorded on any package media such as an optical disk and a semiconductor memory card.
  • the recording medium according to the present embodiment has been described by taking an example of an optical disc (for example, an existing readable optical disc such as a BD-ROM or DVD-ROM) on which necessary data is recorded.
  • an optical disc for example, an existing readable optical disc such as a BD-ROM or DVD-ROM
  • it may be a stereoscopic video content including data necessary for implementing the present invention distributed via broadcasting or a network.
  • a terminal device having a function of writing to an optical disk (for example, the function described on the left may be incorporated in the playback device or may be a device different from the playback device) (for example, BD-
  • the present invention can be implemented even if the content of the recorded optical disc is subject to depth adjustment, and recorded on an existing writable optical disc such as RE or DVD-RAM.
  • the data to be subjected to depth adjustment is, for example, data recorded on a recording medium by using electronic distribution, for example, data corresponding to original content recorded on the recording medium 101 (for example, a video stream, an audio stream, a subtitle) All or part of data, subtitle data, background image, GUI, application, application management table, etc. (for example, update data of data necessary for reproduction), or additional content may be distribution data.
  • data corresponding to original content recorded on the recording medium 101 for example, a video stream, an audio stream, a subtitle
  • All or part of data, subtitle data, background image, GUI, application, application management table, etc. for example, update data of data necessary for reproduction
  • additional content may be distribution data.
  • a mode in which data for depth adjustment is recorded on an SD memory card as a semiconductor memory is recorded on an SD memory card as a semiconductor memory.
  • transmission of distribution data is requested to a distribution server (not shown) that stores the distribution data.
  • the playback device uses identification information for uniquely identifying the inserted SD memory card (for example, an identification number unique to each SD memory card, more specifically, for example, a serial number of the SD memory card). And the read identification information is transmitted to the distribution server together with the distribution request.
  • the identification information for uniquely identifying the SD memory card corresponds to, for example, the volume ID described above.
  • necessary data for example, a video stream, an audio stream, etc.
  • a key for example, a title key
  • the distribution server holds a secret key and is configured so that different public key information can be dynamically generated for each unique identification number of the semiconductor memory card.
  • the distribution server is configured to be able to encrypt the key (title key) necessary for decrypting the encrypted data (that is, configured to generate an encrypted title key). ).
  • the generated public key information includes, for example, information corresponding to the above-described MKB, volume ID, and encrypted title key. If the combination of the identification number unique to the semiconductor memory, the public key body included in the public key information described later, and the device key recorded in advance on the playback device is correct, the encrypted data is, for example, a key necessary for decryption (for example, Based on the device key, MKB, and the identification number unique to the semiconductor memory, a title key obtained by decrypting the encrypted title key) is obtained, and using the obtained key (title key) necessary for decryption, Encrypted data can be decrypted.
  • a key necessary for decryption for example, Based on the device key, MKB, and the identification number unique to the semiconductor memory, a title key obtained by decrypting the encrypted title key
  • the playback device records the received public key information and distribution data in the recording area of the semiconductor memory card inserted in the slot.
  • the received public key information includes, for example, a public key body (for example, the above-mentioned MKB and encrypted title key), signature information, a unique identification number of the semiconductor memory card, and a device list indicating information on devices to be invalidated. Yes.
  • the signature information includes, for example, a hash value of public key information.
  • information on devices that may be illegally reproduced is described. This may be a device that is likely to be played illegally, such as a device key pre-recorded on the playback device, an identification number of the playback device, or an identification number of a decoder included in the playback device, or a component included in the device, or This is information for uniquely identifying a function (program).
  • a check is made as to whether or not the decryption key body can function before decrypting the data encrypted using the public key body.
  • (1) Check whether the identification information unique to the semiconductor memory included in the public key information matches the unique identification number stored in advance in the semiconductor memory card.
  • (2) The public key information calculated in the playback device.
  • (3) Check whether playback device that performs playback is capable of unauthorized playback based on information shown in device list included in public key information (For example, check whether the device key shown in the device list included in the public key information matches the device key stored in advance in the playback device) To do.
  • the identification information unique to the semiconductor memory included in the public key information does not match the unique identification number stored in advance in the semiconductor memory, and is calculated by the playback device. If the hash value of the key information and the hash value included in the signature information do not match or if it is determined that there is a possibility that the playback device that performs playback may be played back illegally, the playback device Control to prevent decryption of encrypted data.
  • the hash value and signature of the public key information calculated in the playback device in which the unique identification information of the semiconductor memory card included in the public key information matches the unique identification number stored in advance in the semiconductor memory card. If it is determined that the hash values included in the information match and the playback device that performs playback is not likely to be played back illegally, the identification number unique to the semiconductor memory, the public key body included in the public key information, And the device key pre-recorded on the playback device is determined to be correct, and is obtained by decrypting the encrypted title key based on the key necessary for decryption (device key, MKB and identification number unique to the semiconductor memory) The encrypted data is decrypted using the title key.
  • the video decoder decrypts the video stream by using the above-described key necessary for decryption (the title key obtained by decrypting the encrypted title key).
  • the audio decoder decodes (decodes) the audio stream using the key necessary for the above-described decryption.
  • the unique identifier of the semiconductor memory card recorded in advance on the semiconductor memory card is stored in a highly confidential recording area.
  • a semiconductor memory card for example, an SD memory card as an example, the serial number of an SD memory card
  • illegal copying can be made easily.
  • a different unique identification number is assigned to each of the plurality of semiconductor memory cards, but if the tampering is performed so that the unique identification numbers are the same, the determination of (1) above is made. This is because it makes no sense, and there is a possibility that illegal copies corresponding to the number of falsifications will be made. Therefore, it is desirable to adopt a configuration in which information such as a unique identification number of a semiconductor memory card is recorded in a highly confidential recording area.
  • a recording area for recording highly confidential data such as a unique identifier of the semiconductor memory card is used as a recording area for storing normal data (the first area).
  • a control circuit for accessing the second recording area Provided in a different recording area (referred to as a second recording area), a control circuit for accessing the second recording area, and a second recording area. Access to the access point is configured so that it can be accessed only through the control circuit.
  • the data recorded in the second recording area is encrypted and recorded
  • the control circuit includes, for example, a circuit for decrypting the encrypted data.
  • the encryption is decrypted and the decrypted data is returned.
  • the control circuit holds information on the storage location of the data recorded in the second recording area, and if there is a data access request, specifies the storage location of the corresponding data, and specifies the specified storage location It may be configured to return the data read from the.
  • An application that operates on a playback device and requests to record on a semiconductor memory card using electronic distribution is used to transmit data recorded in the second recording area to the control circuit via the memory card I / F (eg, semiconductor).
  • the control circuit that has received the request reads the data recorded in the second recording area and returns it to the application operating on the playback device. It is configured to request a distribution server for a required data distribution request together with a unique identification number of the semiconductor memory card, and record the public key information sent from the distribution server and the corresponding distribution data in the first recording area. That's fine.
  • an application that operates on the playback device and requests recording to the semiconductor memory card using electronic distribution is used to record data (for example, in the second recording area) to the control circuit via the memory card I / F.
  • an access request to an identification number unique to a semiconductor memory
  • a check using a digital certificate compliant with the existing X.509 specification may be used.
  • the mechanical part such as the drive part of the recording medium and the external connector is excluded, and the part corresponding to the logic circuit or the storage element, that is, the logic
  • the core part of the circuit may be made into a system LSI.
  • the system LSI is a package in which a bare chip is mounted on a high-density substrate and packaged. By mounting multiple bare chips on a high-density substrate and packaging them, it is called a multichip module that has multiple bare chips with the same external structure as a single LSI. Is also included in the system LSI.
  • system LSIs are classified into QFP (Quad-Flood Array) and PGA (Pin-Grid Array).
  • QFP is a system LSI with pins attached to the four sides of the package.
  • the PGA is a system LSI with many pins attached to the entire bottom surface.
  • pins serve as power supply, ground, and interface with other circuits. Since pins in the system LSI have such an interface role, the system LSI plays the role of the core of the playback device by connecting other circuits to these pins in the system LSI.
  • the program shown in each embodiment can be created as follows. First, a software developer uses a programming language to write a source program that implements each flowchart and functional components. In this description, the software developer describes a source program that embodies each flowchart and functional components using a class structure, a variable, an array variable, and an external function call according to the syntax of the programming language.
  • the described source program is given to the compiler as a file.
  • the compiler translates these source programs to generate an object program.
  • Translator translation consists of processes such as syntax analysis, optimization, resource allocation, and code generation.
  • syntax analysis lexical analysis, syntax analysis, and semantic analysis of the source program are performed, and the source program is converted into an intermediate program.
  • optimization operations such as basic block formation, control flow analysis, and data flow analysis are performed on the intermediate program.
  • resource allocation in order to adapt to the instruction set of the target processor, a variable in the intermediate program is allocated to a register or memory of the processor of the target processor.
  • code generation each intermediate instruction in the intermediate program is converted into a program code to obtain an object program.
  • the object program generated here is composed of one or more program codes that cause a computer to execute each step of the flowcharts shown in the embodiments and individual procedures of functional components.
  • program codes such as a processor native code and JAVA (registered trademark) byte code.
  • JAVA registered trademark
  • a call statement that calls the external function becomes a program code.
  • a program code that realizes one step may belong to different object programs.
  • each step of the flowchart may be realized by combining arithmetic operation instructions, logical operation instructions, branch instructions, and the like.
  • the programmer activates the linker for these.
  • the linker allocates these object programs and related library programs to a memory space, and combines them into one to generate a load module.
  • the load module generated in this manner is premised on reading by a computer, and causes the computer to execute the processing procedures and the functional component processing procedures shown in each flowchart.
  • Such a computer program may be recorded on a non-transitory computer-readable recording medium and provided to the user.
  • DIBR can be realized by a line scan circuit.
  • the line scan circuit is a hardware element that reads a group of pixels (1920 ⁇ 1080) for one screen stored in the frame memory and converts them into 1920-pixel pixels and converts them into digital video signals.
  • Such a line scan circuit can be realized by a line pixel memory that can store pixel data for one row, a filter circuit, and a conversion circuit that performs parallel / serial conversion.
  • DIBR is a process of shifting pixels by converting the luminance of individual pixels of a depth image into parallax.
  • the present invention can be applied to a playback device that reproduces a stereoscopic video or a stereoscopic video gained from a stream, or a display device that displays a stereoscopic video or a stereoscopic video.

Abstract

 映像処理装置は、ホームシアターシステムを構成する複数の機器のうちの1つであり、他の機器と接続された際、奥行き調整判定モジュール17は、立体視映像の再生にあたって2以上の視点映像データの奥行き調整が必要かどうかを判定する。奥行き調整が必要な場合、性能比較モジュール24は、どちらかが奥行き調整を行うかの決定のための通信シーケンスを実行する。通信シーケンスにより奥行き調整を自装置側で行うと判定した場合、自装置で奥行き調整を行い、調整結果である2以上の視点映像データを相手側に送信し、調整を相手側で行うと判定した場合、奥行き調整を行わないまま2以上の視点映像データを相手側に送信する。

Description

立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム
 本発明は、立体視映像の奥行き調整技術の技術分野に属する。
 立体視映像の奥行き調整技術とは、ある大きさの画面での表示を想定して作成された立体視映像を違う大きさの画面に表示して再生しようとする場合、立体視映像を構成する2以上の多視点映像データにおける視差を調整することにより、その別の画面への適合を図るという技術である。奥行き調整には、特許文献1、2に記載された先行技術がある。特許文献1で開示されている奥行き調整とは、左目と右目の映像全体を逆方向に水平方向にシフトすることにより、オブジェクトの奥行きを手前に移動したり、奥に引っ込めたりするというものである。特許文献2で開示されている奥行き調整とは、バーチャル視点を生成することにより、立体映像に存在するオブジェクトごとに変更する視差の量が違うため、実際に奥行き感が増す/低減するように見える。この特許文献2の方法のように視差マップを基に奥行きを変更する場合、仮想的に生成されたバーチャル視点の映像は視差マップの精度に依存する。
特開2005-73049号公報 特開2003-209858号公報
Kurt Konolige「Small Vision Systems: Hardware and Implementation」Artificial Intelligence Center, SRI International Heiko Hirschm¨uller「Accurate and Ef_cient Stereo Processing by Semi-Global Matching and Mutual Information」Institute of Robotics and Mechatronics Oberpfaffenhofen  German Aerospace Center (DLR)、June, 2005 Vladimir Kolmogorov「GRAPH BASED ALGORITHMS FOR SCENERECONSTRUCTION FROM TWO OR MORE VIEWS」the Graduate Schoolof Cornell University、January 2004
 上記技術分野の近年の傾向としては、ストリーム供給源である機器、表示主体である機器が互いに接続し合うことにより立体視映像の機器間転送を実現するという傾向がある。これは、立体視映像を複数の機器にまたがって再生する視聴スタイルを実現するものである。例えば、BDレコーダ内に録画したコンテンツを家庭の大型ディスプレイを備える機器、カーナビ、ポータブルプレーヤに移動させて表示したり、あるいは移動させずとも有線や無線の通信を行って別の機器にデータを転送したものを表示させる。
 機器間転送にあたって、ストリーム供給源となる機器、表示主体となる機器が接続し合う場合、表示を行う装置で立体視映像による奥行きを調整する必要が生じる場合がある。この場合、表示を行う機器側で奥行き調整を行うというのが基本的な考えとなる。
 しかし表示装置には、適切な画面サイズを有していて奥行き調整が不要なものと、奥行き調整が必要なものとが存在する。また、奥行き調整能力が高いもの、低いものという格差も存在する。ストリーム供給源も同様であり、奥行き調整能力が高いもの、低いものという格差が存在する。この奥行き調整技術は、特許文献2で開示されているものが一般的である。この特許文献2の奥行き調整技術では、仮想的に生成されたバーチャル視点の映像は視差マップの精度に依存するため、かかる視差マップをどれだけ高精度に作成するかどうかで、立体視映像の品位が大きく左右される。つまり特許文献2の奥行き調整技術を適用した場合、視差マップをどれだけ高精度に作成することができるかによって立体視の品位が大きく変わってくるから、機器における奥行き調整性能の違いが立体視表示性能の格差として大きく誇張される結果になる。
 奥行き調整が必要かどうかは機器の画面サイズによって異なり、また、奥行き調整性能は機器毎に異なるため、表示側で奥行き調整を行うとの固定的な前提で奥行きを未調整のまま画像を送信すると、表示装置側で奥行きを適切に調整することができず、不適切な立体視表示を実現してしまうことがある。
 しかし、一律にストリーム送信側となる装置側で奥行き調整を行うとなると、データ送受信の相手側が高い奥行き調整能力を有する表示装置である場合、表示装置側で適切な奥行き調整が行えるにも拘らず、不充分な奥行き調整で立体視再生を実現してしまう場合がある。また、接続される装置が全て低い能力であると仮定して再生装置側に高い奥行き調整能力の実装を要求するとなると、再生装置のコスト高騰をまねく。
 以上、ストリーム供給源となる機器、表示主体となる機器が接続し合うとの仮定下で技術的課題を提示したが、この仮定は、上記技術的課題を説明するにあたって、身近な題材を選んだに過ぎず、本願で対象としている技術的課題は、ストリーム供給源となる機器、表示主体となる機器が接続し合うというケースに限定されない。
 立体視映像を構成する2以上の視点映像データに対して何等かの処理を行う映像処理装置が互いに接続して機器間転送を実行する際に発生する不整合解消全般が、本願で解決しようとする技術的課題であり、近い将来において、上記技術を工業製品の分野で実用化しようとする際、当業者が必ず直面する技術的障壁である。
 本発明の目的は、全ての機器が、高い奥行き調整能力を具備していなくても、2以上の視点映像データの機器間転送において高品位の立体視映像の表示を実現することができる映像処理装置を提供することである。
 かかる課題を解決することができる装置は、
 2以上の視点映像データの送受信を行うのと共に、2以上の視点映像データから構成される立体視映像の奥行きを調整する映像処理装置であって、
 2以上の視点映像データの送受信を行う際、データ送受信の相手側となる装置との接続を行う機器間インターフェイスと、
 データ送受信の相手側となる装置と、自装置との間で所定の通信シーケンスを実行することにより、どちらの装置が立体視映像における奥行きを調整するかを決定する決定手段と、
 通信シーケンスにより奥行き調整を自装置側で行うと決定した場合、データ送受信の相手側から送出された2以上の視点映像データ、又は、データ送受信の相手側に送出すべき2以上の視点映像データに対して奥行き調整を施す処理手段とを備え、
  前記奥行き調整は、
 1の視点映像データを構成する画素群とマッチングするマッチング画素群を他の視点映像データから探索して、1の視点映像データを構成する画素群と、他の視点映像データを構成する画素群との間の視差を検出する処理を含み、
 前記通信シーケンスは、
 自装置と、データ送受信の相手側との間で、マッチング画素群の探索性能を示す性能情報の送受信を行う送受信フェーズと、自装置におけるマッチング画素群の探索性能と、データ送受信の相手側におけるマッチング画素群の探索性能との比較を行う比較フェーズとを含む
 ことを特徴とする。
 映像処理装置が他の装置と接続する際、通信シーケンスを実行して奥行き調整を行うべき装置を決定するので、マッチング画素の探索性能が低い機器が奥行き調整を行い、その相手側の機器に奥行き調整結果の表示を行うという悪いケースがなくなり、能力が高い装置が奥行き調整主体になる。
 2つの機器の接続時において、どちらの機器に奥行き調整を行わせるかを決定して2以上の視点映像データの転送を実行するから、ユーザが既に奥行き調整が高い表示装置を購入している場合、高い奥行き調整能力の再生装置を購入にする必要はない。データ送受信の相手側となる装置に応じて、奥行き調整主体が自動的に決定されるから、再生装置を奥行き調整が高いものとし、表示装置を奥行き調整が低いものとするとの装置選択が可能になるし、また、表示装置を高能力のものとして選択したから、低能力の再生装置を選択して購入するという賢い商品選びが可能になる。これにより立体視再生環境の一層の普及を図ることができる。
 奥行き調整を行うと決定した場合、ストリームをそのままデータ送受信の相手側に転送するので、調整能力が低い機器が主体になることはない。
 任意的であるが、前記奥行き調整は、検出された視差に基づいてデプス画像を生成して、2以上の視点映像データが表示されるべき画面に応じてデプス画像の補正を行い、補正が施されたデプス画像をベースにしたデプスイメージベースドレンダリングを、1の視点映像に対して施すことにより、修正された視差を有する2以上の視点映像を得る処理を含んでもよい。デプスイメージベースドレンダリングを行うソフトウェア処理、ハードウェア処理の延長線上で、奥行き調整処理を実装することができ、映像処理装置の製品化を促進することができる。また、たとえ2以上の視点映像データが表示50インチの画面での表示に適合するよう左目画像、右目画像間の視差量が設定されている場合でも、より大きな画面又はより小さな画面での表示に適合するよう左目画像,右目画像を改めて作りなおすことができる。
2以上の映像処理装置によって構成されるホームシアターシステムについての一形態を示す図である。 図1に示した機器のうち、ストリーム送信側(再生装置100)となるものの内部構成を示す。 図1に示した機器のうち、表示主体(テレビ200、テレビ300)となるものの内部構成を示す。 飛出し、引っ込みによる奥行きを示す。 図1に示したテレビ200~携帯端末400のそれぞれの奥行き量を示す。 概念上の2つの画面を対比して示す。 視差マップを模式的に示す図である。 デプス生成器10の処理内容に、具体的な画像を当てはめて示した図である。 DIBR部12の処理内容に、具体的な画像を当てはめて示した図である。 奥行き調整が図9のようになされた場合において、立体視映像の飛出し量がどのようになるかを示す。 マッチングポイント探索アルゴリズムによりデプス画像によって表される奥行きがどのように変化するかを示す。 ブロックマッチング、セミグローバルマッチング、グラフカットによるマッチングポイント探索を示す。 通信シーケンスを示す図である。 図1に示した再生装置100、テレビ200、テレビ300、携帯端末400における性能情報の設定例である。 応答情報の一例を示す。 応答情報の一例を示す。 機器の接続バリエーションと、その接続時の表示映像とを示す。 機器の接続バリエーションと、その接続時の表示映像とを示す。 奥行き機器決定の処理手順におけるメインフローチャートである。 コンテンツ奥行き調整の要否判定、及び、デバイスネゴシエーションの処理手順を示すフローチャートである。 機器性能の交換手順を示すフローチャートである。 奥行き調整を行う機器の選択手順を示すフローチャートである。 奥行き調整処理の処理手順を示すフローチャートである。 視差マップ作成の処理手順を示すフローチャートである。 ビデオストリーム以外の他のデータを考慮した映像処理装置の内部構成を示す。
 上記課題解決手段を具備した映像処理装置の発明は、プレーヤ機器、テレビ機器、携帯端末機器として実施することができ、集積回路の発明は、当該これらの機器に組込まれるシステムLSIとして実施することができる。映像処理方法の発明は、これらの機器で実現される時系列手順として実施することができる。プログラムの発明は、コンピュータ読み取り可能な記録媒体に記録され、これらの機器にインストールされる実行形式プログラムとして実施することができる。図1は、再生装置、表示装置、眼鏡によって構成されるホームシアターシステムを示す。同図(a)に示すように、再生装置、表示装置、携帯端末は、眼鏡、リモコンと共にホームシアターシステムを構成し、ユーザによる使用に供される。
 再生装置100は、大型ディスプレイ200、中型テレビ300、あるいは携帯端末400と接続した際、光ディスク101に記録されたコンテンツの再生を行い、その再生映像を大型ディスプレイ200、中型テレビ300、あるいは携帯端末400の表示画面に表示させる。再生装置100から出力される映像出力が立体視映像(3D映像ともいう)に対応する映像出力である場合には、再生装置100に接続する大型ディスプレイ200、中型テレビ300、あるいは携帯端末400の表示画面には立体視映像が出力される。
 光ディスク101は、BD-ROM、DVD-Videoであり、再生装置に装填する記録媒体の一例である。
 リモコン102は、ユーザ操作を受け付けて、かかるユーザ操作に応じた動作を再生装置100、大型ディスプレイ200、中型ディスプレイ300に行わせる。
 大型ディスプレィ200は、70インチ等の大画面の大型テレビであり、立体映像奥行き調整機能を有する。
 中型ディスプレイ300は、50インチ等の通常画面のテレビであり、立体映像奥行き調整機能を有する機器である。
 携帯端末400は、5インチ等の小型ディスプレイ機器であり、立体視撮影部と、撮影で得られた2以上の視点映像データを立体視写真ファイルに格納して記録媒体に書き込む書込部と、2以上の視点映像データの送受信を行う通信部とを含む。この携帯端末400にも、立体視映像を再生する機能および、立体映像奥行き調整機能が存在する。
 図1に示した機器(具体的には再生装置100、大型ディスプレイ200、中型テレビ300、あるいは携帯端末400の表示画面)は全て立体映像奥行き調整機能を兼ね備えてはいるが、接続している機器に応じて、いずれか一方の機器が立体映像奥行き調整処理を実施するように構成している。
 この図1の例では、大型ディスプレイ200は、一般にハードウェアの性能が高く、再生装置100から受け取った立体視映像について、大型ディスプレイ200の画面表示に対応する奥行きに調整した後に立体視表示を行うといった実装も考えられるので、大型ディスプレイ200に奥行き調整処理を行わせるようにしている。

 一方、携帯端末400は、大型ディスプレイ200に比較して、ハードウェアの性能が高くない場合が多いので、携帯端末400に奥行き調整処理を行わせた場合には携帯端末400にかかる負荷が高くなる場合があり、立体視映像表示に支障をきたすおそれがあるため、再生装置100側において携帯端末400の画面表示に対応する奥行きに調整した上で、携帯端末400に立体視映像表示を出力するような構成としている。
 これらの図1の機器のうち、再生装置100は、ストリーム送信側になるものである。テレビ200、テレビ300は表示主体になりうるものである。携帯端末400は、ストリーム送信側及び表示主体の双方になりえる。図2は、図1に示した機器のうち、ストリーム送信側(再生装置100)となるものの内部構成を示す。図2に示すように、ストリーム送信側となる機器は、ネットワークインターフェイス1、ディスクドライブ2a、ローカルストレージ2b、放送受信部3、デマルチプレクサ4、左目画像デコーダ5、右目画像デコーダ6、左目プレーンメモリ7、右目プレーンメモリ8、調整部9、デプス生成器10、調整度算出部11、デプス画像メモリ12、DIBR部13、スイッチ14a,b、コンテンツプロパティ保存モジュール15、表示対象デバイスプロパティ保存モジュール16、奥行き調整判定モジュール17、UO検知モジュール18、機器インターフェイス19、パーサ20、通信制御部21、性能情報格納モジュール22、通信情報作成モジュール23、性能比較モジュール24、応答情報作成モジュール25から構成される。
 図3は、図1に示した機器のうち、表示主体(テレビ200、テレビ300)となるものの内部構成を示す。本図は、図2をベースとして作図されており、このベースとる図2と比較すると、ネットワークインターフェイス1、光ディスクドライブ2a、ローカルストレージ2bが存在せず、表示部26が追加されている点が異なる。図2、図3の内部構成において矢印は、図の画像データがどのような構成要素を経由するかという途中経路を示す。
 次に、ストリーム送信側となる機器において、特有となる構成要素について説明する。この共通の構成要素を機能的に分類すると、"ストリーム供給源"、"再生部"、"奥行き調整"、"ユーザ入力"、"機器間接続"、"画面適合"という複数の構成グループに分類されることになる。
 1.ストリーム供給源
 「ストリーム供給源」というグループに分類される構成要素とは、ネットワークインターフェイス1、光ディスクドライブ2a、ローカルストレージ2b、放送受信部3、デマルチプレクサ4である。立体映像は動画の場合は右目用ストリーム、左目用ストリームを別々に用意するようにしてもよいし、一つのストリームファイルに右目用ストリーム、左目用ストリームを埋め込んでおいても良い。本実施の形態においては、予め一つのストリームファイルに右目用ストリームと左目用ストリームが埋め込まれている構成を例にして説明を行う。この場合において、一つのストリームのヘッダ情報には左目用のストリームおよび右目用のストリームを振り分けるための情報を含ませておく。以下、ストリーム供給源に属する構成要素について説明する。
 ネットワークインターフェイス1は、機器間のネゴシエーション、または再生対象コンテンツの転送に使われる通信インターフェイスである。本ネットワークインターフェイス1の物理的なデバイスとして、例えば、世界中のオフィスや家庭で一般的に使用されている有線/無線LAN (Local Area Network)、あるいは無線規格のBLUETOOTH(TM)等、TCP・UDPを用いたパケット単位の送受信が可能なデバイス等がある。
 ディスクドライブ2aは、BD-ROM100のローディング/イジェクトを行い、BD-ROMに対するアクセスを実行する。BD-ROM100もリムーバブルメディア同様、再生対象のコンテンツやりとりに使われる一種の手段である。別の立体映像のやりとりの手段が搭載されているならば、ディスクドライブ2aは必ずしも本装置に搭載する必要はない。
 ローカルストレージ2bは外部スロット(図示せず)から挿入される記憶媒体であり、記録媒体の好適な一例としては、セキュアなメモリカード、フラッシュメモリといった半導体メモリ、磁気記録媒体等がある。図2に示す映像処理装置には、リムーバブルメディアを挿入する外部スロット(図示せず)があり、この外部スロットにリムーバブルメディアを挿入するとリムーバブルメディアへアクセスするためのインターフェイス(図示せず)を介してアクセス(読取り、書き込み)が行われる。
 放送受信部3は、放送におけるトランスポートストリームを得てデマルチプレクサ4に出力する。
 デマルチプレクサ4は、ネットワークインターフェイス1、光ディスクドライブ2a、ローカルストレージ2b、放送受信部3を介して得たストリームのヘッダ情報から左目用ビデオフレームと右目用ビデオフレームの振り分けを行う。左目用ビデオフレーム及び右目用ビデオフレームに対する多重分離を交互に行い、左目用の映像と右目用の両方の映像が完了した時点で両方を出力する。出力形式によっては交互に出力する。さらに、ハードウェアの構成上、2つの出力があった場合は左目用と右目用の映像を別々に出力する。
 以上でストリーム供給源に属する構成要素についての説明を終える。
 2.再生部
 「再生部」というグループに分類される構成要素とは、左目画像デコーダ5、右目画像デコーダ6、左目プレーンメモリ7、右目プレーンメモリ8である。以下、これらの構成要素について説明する。
 <左目画像デコーダ5、右目画像デコーダ6>
 左目画像デコーダ5は、左目画像データをデコードする。
 右目画像デコーダ6は、右目画像データをデコードする。
 左目画像デコーダ5は、デマルチプレクサ4からのストリーム供給を受ける他、機器間インターフェイス19から圧縮状態の左目画像データの供給を受ける経路rt1をもつ。これは、他の機器のストリーム供給源からパススルーで入力されてきた場合を想定したものである。同様に右目画像デコーダ6も、デマルチプレクサ4からのストリーム供給を受ける他、機器間インターフェイス19から圧縮状態の左目画像データの供給を受ける経路rt2をもつ。これも、他の機器のストリーム供給源からパススルーで入力されてきた場合を想定したものである。
 <左目プレーンメモリ7>
 左目プレーンメモリ7は、左目画像デコーダ5のデコードにより得られた非圧縮の左目画像データを格納する。
 <右目プレーンメモリ8>
 右目プレーンメモリ8は、右目画像デコーダ6のデコードにより得られた非圧縮の右左目画像データを格納する。
 3.奥行き調整
 奥行き調整は、立体視映像の奥行き調整を実際に処理する部分である。奥行き調整部というグループに分類される構成要素とは、調整部9、デプス生成器10、デプスプレーンメモリ11、DIBR部12、スイッチ13、スイッチ14、コンテンツプロパティ保存モジュール15、表示対象デバイスプロパティ保存モジュール16、奥行き調整判定モジュール17である。以下、奥行き調整を具現する構成要素について説明する。

 <調整部9>
 調整部9は、デプス生成器10、デプスプレーンメモリ11、DIBR部12から構成され、左目画像、右目画像による視差を適切なものにする。デプス生成器10、デプスプレーンメモリ11、DIBR部12の説明に先だち、奥行き調整とはどのような処理であるかを説明する。左目用の画像に含まれる物体Aの表示位置、右目用の画像に含まれる物体Aの位置は異なるので、これをディスプレイに表示したとき表示位置は当然のことがなら異なる。左目用の画像と右目用の画像とを交互に短い時間間隔で切り替えて表示するとともに、シャッター眼鏡を用いて、シャッター眼鏡をかけた視聴者の左目に左目用の画像が見え、右目に右目用の画像が見えるようにするここで調整の対象となる奥行きには、画面から飛出すものと、画面から引っ込むものとがある。図4は、この飛出し、引っ込みによる奥行きを示す。
 人間の目というのは両目で対象物に対する焦点位置を合わせようとする。図4(a)に示す物体Aは左目と左目用の画像に含まれる物体Aとを結ぶ直線と、右目と右目用の画像に含まれる物体Aとを結ぶ直線との交点と位置に焦点が合わされる。結果として、ディスプレイよりも奥の位置に物体が位置するかのように人間の脳は認識し、人間はディスプレイよりも奥の位置に物体Aが位置するかのよう錯覚する。
 このずれ量の大小にしたがってディスプレイに対する飛び出し量、および、引っ込み量が変化する。また、画像内の被写体がディスプレイに対して飛び出すか引っ込むかは左右画像のずれ方向にしたがって決まる。映画のような大画面向けコンテンツの場合は、左右画像の視差が小さい、すなわち、左右画像のずれ量が小さくなるように製作され、撮像装置や携帯端末で撮影されたような小画面向けコンテンツの場合は、左右画像の視差が大きい、すなわち、左右画像のずれ量が大きくなるように製作されることで、視聴者への目の疲労度を軽減し、立体感を十分に感じることができる立体視映像、立体視映像の再生が可能となる。
 図4(a)において、ディスプレイよりも奥にどの程度、引っ込んで見えるのかに関する説明をする。視聴位置からディスプレイまでの距離をZ、視聴位置から物体までの距離をS、両眼の幅(基線長)をIPD、ディスプレイよりも引っ込んで見える物体Aをディスプレイに投影をしたとき、ディプレイに投影をした物体Aと左目用の画像に含まれる物体Aとの距離であって、かつディスプレイの水平方向の距離を左目用画像のシフト量をpとすると、以下の数式(1)のような関係がある。

 P=(IPD/2)×(1-Z/S)・・・・数式(1)

 図4において、ディスプレイまでの距離Z及び飛出し位置までの距離Sとの比率が奥行きを表すことになる。このディスプレイまでの距離Zは、画面の縦幅の大きさの3倍に設定される。
 図4(b)において、ディスプレイよりもどの程度、飛出して見えるのかに関する説明をする。視聴位置からディスプレイまでの距離をZ、視聴位置から物体までの距離をS、両眼の幅(基線長)をIPD、ディスプレイよりも飛び出して見える物体Bをディスプレイに投影をしたとき、ディプレイに投影をした物体Bと左目用の画像に含まれる物体Bとの距離であって、かつディスプレイの水平方向の距離を左目用画像のシフト量をpとすると、以下の数式(2)のような関係がある。

 P=(IPD/2)×(Z/S-1)・・・・数式(2)

 視差は、これら数式(1)、(2)におけるシフト量pに"2"を乗じた値になる。但し、シフトする向きを考慮する場合、極性を考慮する必要がある。映画のような大画面向けコンテンツの場合は、左右画像の視差が小さい、すなわち、左右画像のずれ量が小さくなるように製作され、撮像装置や携帯端末で撮影されたような小画面向けコンテンツの場合は、左右画像の視差が大きい、すなわち、左右画像のずれ量が大きくなるように製作されることで、視聴者への目の疲労度を軽減し、立体感を十分に感じることができる立体視映像、立体視映像の再生が可能としている。
 図5は、奥行き調整を示す。図1に示した複数の機器のそれぞれでは、画面のインチ数が異なるから奥行き量も異なる。図5は、図1に示したテレビ200~携帯端末400のそれぞれの奥行き量を示す。本図では、テレビ200~携帯端末400の外観に、図4に示した奥行き量を規定するパラメータを書き加えている。テレビ300は、コンテンツの制作者が、コンテンツ想定画面を有するディスプレイである。コンテンツ想定画面とは、立体視コンテンツが再生されることを想定していた画面を示す。多くの場合、立体視映画コンテンツは、50インチの表示装置で再生されることを想定しているから、50インチがコンテンツ想定画面サイズになる。一方、パーソナルユースの3Dカメラで撮影された立体視写真は、もっと小さい画面に表示されることを想定したものであるから、その小さい画面がコンテンツ想定画面サイズになる。
 コンテンツ想定画面は、ユーザの顔から見てZの位置、立体視効果により映像が飛出す位置はSとなる。テレビ200はコンテンツ想定画面より大きい画面であり、画面はZ(1)の位置、立体視効果により映像が飛出す位置はS(1)となる。携帯端末400はコンテンツ想定画面より小さい画面であり、画面はZ(2)の位置、立体視効果により映像が飛出す位置はS(2)となる。これらの画面の大小に拘らず、画面の奥行き位置と、飛出し位置との比率を一定にするのなら、Z/S=Z(1)/S(1)=Z(2)/S(2)という関係を成立させるよう画面上の視差を定めればよい。
 ここでテレビ300の奥行き量は、S/Zとして表現されるものとする。そうすると、テレビ200については、S(1)/Z(1),携帯端末400についてはS(2)/Z(2)となる。テレビ200、携帯端末400は、サイズが異なるから奥行き量も異なるが、これらを複数の機器間で共通化するには、画面上のシフト量であるPs(1),Ps(2)を調整せねばならない。調整度Mrateについて説明する。
 調整度Mrateは、上記ZとSとの比率を一定にするように、表示対象の画面に適合した視差を算出するものである。よって調整度Mrateは、コンテンツ想定画面において原寸を用いて定められた視差と、表示対象となる画面(x)において原寸を用いて定められた視差との比率によって定める必要がある。つまり調整度Mrateとは、コンテンツ想定画面におけるシフト量Psと、任意のサイズの画面xとのシフト量Ps(x)との比率である。
 図6は、概念上の2つの画面を対比して示す。概念上の画面のうち1つは、縦画素数・横画素数(w_pix,h_pix)によって定められる画面である。もう1つは、実際の縦横の原寸 (Width(mm),Height(mm))から定められる画面である。
 図6(a)は、コンテンツ想定画面と、表示対象画面(x)とを対比して示す。上側は、コンテンツ想定画面であり、縦画素数・横画素数によって定められる画面と、実際の縦横の原寸から定められる画面とを重ねあせて示す。下側は表示対象画面(x)であり、縦画素数・横画素数によって定められる画面と、実際の縦横の原寸から定められる画面とを重ね合わせて示す。かかる(a)において、調整度Mrateは、コンテンツ想定画面におけるシフト量Psと、表示対象画面(x)におけるシフト量Ps(x)との比率によって算出される。そうすると、表示対象画面(x)において必要となるシフト量P(x)は、コンテンツ想定画面におけるシフト量Pに調整度Mrateを乗じたものになる。このように調整度Mrateを求め、縦画素数・横画素数によって定められる画面におけるシフト量Pに乗じることで表示対象画面(x)に適合したシフト量P(x)をえることができ、この画素シフト量を2倍することで視差を得ることができる。
 図6(b)は、Width,Heightがどのように算出かを示す。Width,Heightの比率はm:nであり、このWidthの2乗と、heightの2乗との和をXの2乗とするとwidthは、図中の√記号を用いた数式のように定められる。図6(c)は、画素数にて規定される視差P(=(IPD/2)×(z/s-1))と、実寸にて規定される視差Ps(={(IPD/2)/(width/w_pix)}×(z/s-1))との違いを対比して示す。
 表示対象画面(x)における視差がPs(x)なら、コンテンツ想定画面における画素数による視差pを表示対象画面(x)に適合させるための調整度Mrate(x)は、Ps(x)/Psとなる。よって調整度Mrateは、コンテンツ想定画面における画面上の実際の視差Psと、表示対象となる画面(x)における視差P(x)と比率Ps(x)/Psとして算出される。
 表示対象画面(x)におけるwidth(x)、w_pix(x)を用いて調整度Mrateを表現すると、調整度Mrateは図6(d)に示すように(w_pix(x)/width(x)・width/w_pix)という数式で表現される。50インチのディスプレイに表示する場合と、5インチのディスプレイで表示する場合とで、シフト量がどれだけ違うかを説明する。一般的に 基線長はIPD=6.5cmである。50センチのディスプレイにおいて、物体を10%だけ飛び出させる場合を考えると、例えば50インチのディスプレイ上での画像のシフト量は6ピクセルで済む。これに対し、5インチのディスプレイ上でのシフト量は63ピクセル必要となる。以上で、調整度についての説明を終える。
 <デプス生成器10>
 デプス生成部10は、1の視点映像を構成する画素群とマッチングするマッチング画素群を他の視点映像から探索して、1の視点映像を構成する画素群と、他の視点映像を構成する画素群との間の視差を検出して、この視差を用いて奥行き調整の基礎となるマップ情報を作成する。奥行き調整の基礎となるマップ情報には、視差マップと、デプス画像とがある。視差マップ とは、左右の画像で何ピクセルずれているかを並べたマップ情報であり、デプス画像とは、視点からどれだけ離れた距離にあるかを並べることで得られる画像である。これらは、上述した数式(2)で相互変換可能なので、同一視される。デプス画像では画像を構成する画素の値で奥行きを表現する。このデプス画像における画素の輝度を明るく、又は、暗くすることにより画像中のオブジェクトの奥行きを変化させることができる。
 図7は、視差マップを模式的に示す図である。本図の視差マップは、人物を表す左目画像に対応するものであり、四角枠はその左目画像の矩形画素群を示す。四角枠中の数値は、右目画像における画素群であって、左目画像における画素群と対応するものとの視差である。本図では、1~15画素の範囲で左目画像-右目画像間の視差が表現されているので、視差が高精度に再現されていることがわかる。デプス生成器10は、左目画像、右目画像間の視差を探索した後、探索された視差を画素領域毎に表したデプス画像を作成する。その後、表示側の画面サイズに応じた調整度を、各視差に乗じて表示側の画面に適合させる。かかる適合後のデプス画像における画素毎の視差を奥行きに変換することでデプス画像が得られる。図8は、デプス生成器10の処理内容に、具体的な画像を当てはめて示した図である。本図では、デプス生成器10と、これに関連する構成要素とを抜き出して描き、データの流れを書き加えている。左上に左目プレーンメモリに格納された左目画像、右上に右目プレーンメモリに格納された右目画像を示す。真ん中にデプス画像生成器を示し、下側にデプス画像を示す。ここで図8のデプス画像は模式的に描かれたものであり、実際のデプス画像には、服や顔の輪郭が黒線で現われることはない。実際のデプス画像は、全体的に黒地に白一色のシルエットで、立体感がある部位の周辺部が灰色を帯びているという内容となる。図8における斜線は、立体感がある部位の周辺が灰色で表現されるというデプス画像の性質を象徴的に示すものである。
 <調整度算出部11>
 調整度算出部11は、(w_pix(x)/width(x)・width/w_pix)の数式から調整度を算出して保持する。ここでの調整度は、マッチングポイント探索で検出された視差に乗じられるものであり、マッチングポイント探索で検出された視差に、かかる調整度を掛け算することで、新しいデプス画像を得る。
 <デプス画像メモリ12>
 デプス画像メモリ12は、デプス生成器10により生成されたデプス画像が格納される。
 <DIBR部13>
 DIBR部13は、調整度に基づく補正が施されたデプス画像をベースにしたデプスイメージベースドレンダリング(DIBR)を、1の視点映像である左目画像に対して施すことにより、修正された視差を有する2以上の視点映像を得る。図9は、DIBR部12の処理内容に、具体的な画像を当てはめて示した図である。左上にデプス画像、右上にプレーンメモリに格納された左目画像を示す。真ん中にDIBRを示し、下側に、3つの立体視映像を示す。下側の左端は、視差が大きく設定された立体視映像、下側の真ん中は、視差が中程度に設定された立体視映像、下側の右端は、視差が小さく設定された立体視映像を示す。光ディスクに記録された立体視コンテンツが、50インチでの再生を前提にしていた場合、表示画面が5インチであれば、上記ように視差が大きく設定されることになる。また、表示画面が70インチであれば、上記のように視差が小さく設定されることになる。図9のデプス画像も、図8と同様、模式的に描かれたものであり、実際のデプス画像には、服や顔の輪郭が黒線で現われることはない。デプス画像は、全体的に黒地に白一色のシルエットで、立体感がある部位の周辺部が灰色を帯びているという内容となる。
 図10は、奥行き調整が図9のようになされた場合において、立体視映像の飛出し量がどのようになるかを示す。(a)は視差が大きく設定された立体視映像がどれだけ画面から飛出すかを示す。(b)は、視差が中程度に設定された立体視映像がどれだけ画面から飛出すかを示す。(c)は、視差が小さく設定された立体視映像がどれだけ画面から飛出すかを示す。
 以上の説明は、デプス生成器10により対象物の奥行きが精巧に再現されたデプス画像が作成されたことを前提にしている。しかしデプス画像の生成は、マッチングポイントの探索精度に頼るところが大きく、その探索性能の違いによって立体視映像の品位は左右されることになる。
 かかるデプス画像を生成するにあたっては、右目領域のうち、左目領域ともっとも整合する領域がどれだけ隔てられて存在するかというマッチングポイント探索が重要になる。かかるマッチングポイント探索の基本原理は重要であるから、上記内部構成とは別途、図11~図12の説明図を準備して、マッチングポイント探索について詳細な解説を行うことにした。これらの説明図を参照しながら詳細な解説を行う。
 以下、マッチングポイント探索がどのようになされるかについて説明する。
 図11は、マッチングポイント探索アルゴリズムによりデプス画像によって表される奥行きがどのように変化するかを示す。図11(a)は、もっとも精度が低いマッチングポイント探索から得られたデプス画像である。この場合、図11(a)のデプス画像に示される奥行きは平面的で、背景画像と比較して多少浮き上がっているという程度のものになる。デプス画像が低精度になった原因は、全ての領域におけるマッチングポイントとの視差がほぼ同じ値になったからである。
 図11(b)は、精度が中間レベルのマッチングポイント探索で得られたデプス画像である。この(b)では、マッチングポイントとの視差が多少、高精度に検出されたため、マッチングポイント探索の結果によって生成されるデプス画像の奥行きは曲面的になっている。これらに対して図11(c)では、人物の奥行きが忠実に再現されることになる。以下、これらのアルゴリズムについて説明する。
 生成されるデプス画像が図11(a)(b)(c)のうち、何れに近いものであるかは、調整に用いるアルゴリズムが、ブロックマッチング、セミグローバルマッチング、グラフカットの何れであるか、また探索範囲がどれだけ広いかによって変わる。よって各機器における探索アルゴリズムがプロパティとして記載されている。本願では代表的な探索アルゴリズムとして、ブロックマッチング、セミグローバルマッチング、グラフカットを想定している。以下、これらの探索アルゴリズムについて説明する。
 a.ブロックマッチング
 ブロックマッチングは、片目の映像を複数の領域に分割し、分割した片目の映像との画素値の差が最小となる領域をもう一方の片目の映像から抽出するアルゴリズムである。より具体的には片目の映像の分割した領域と同じ領域を他方の片目の映像に設定(整合領域と称す)する。このとき、片目の映像の分割した領域の垂直方向の位置と、他方の片目の映像に設定した領域の垂直方向の位置は同じとする。片目の映像の分割した領域に含まれる画素の値と、他方の片目の映像に設定した整合領域に含まれる画素の値の差を計算する。次に整合領域の水平方向の位置を水平方向にずらして、同様に画素の差を計算する。このように、整合領域を水平方向に探索し、差が最小となる整合領域を最整合領域とし、最整合領域の水平方向の位置と、片目の映像の分割した領域の水平方向の位置との差を最整合領域間の距離とし、この最整合領域までの距離を奥行きとしてあらわした視差マップを作成する(非特許文献1を参照)。図12(a)は、ブロックマッチングによるマッチングポイント探索を示す。矢印sh1,sh2,sh3は、右目画像における領域と、左目画像における領域との画素値の対比を示す。水平方向の矢印sc1は、右目画像における水平方向の走査を示す。これらの対比及び走査によって、最整合領域が発見される。
 b.セミグローバルマッチング
 セミグローバルマッチングは、整合領域を隣接する複数方向の領域の整合性を加味して水平方向に探索し、最整合領域間の距離をマップするアルゴリズムである(非特許文献2を参照)。
 図12(b)は、セミグローバルマッチングによる探索を示す。矢印sh5,sh6は、右目画像における領域と、左目画像における領域との画素値の対比を示す。8方向への矢印は、8方向に対する整合性の参照を示す。水平方向の矢印sc2は、右目画像における水平方向の走査を示す。これらの対比及び走査によって、最整合領域が発見される。
 c.グラフカット
 グラフカットは、映像をオブジェクト毎に分割し、分割領域間の距離をマップするアルゴリズムである。
 図12(c)は、グラフカットによる探索を模式的に示すものである。図中のobj2,3,4,5は、図8の人物が探索対象である場合、画像認識で得られる胴体、顔、手足といった人体パーツがオブジェクトとして認識され、このオブジェクト単位でマッチングポイント探索がなされる。矢印cm1,cm2,cm3,cm4は、右目画像における領域と、左目画像における領域との画素値の対比を示す。グラフカットでは、画像認識を先行して行うからグラフカットではマッチングポイントの探索が高精度になされる。以上が探索アルゴリズムについての説明である。
 <スイッチ14a>
 スイッチ14aは、左目プレーンメモリ7に書き込むべき画像データの入力を切り替えるものである。切り替え素子が接点a側に設定されている場合、左目プレーンメモリ7には、左目画像デコーダ5のデコードで得られた非圧縮の左目画像データが格納される。接点b側に設定されている場合、左目プレーンメモリ7には、機器間インターフェイス19を介して他の機器から転送されてきた非圧縮の左目画像データが格納される。これにより、左目画像デコーダ5のデコードで得られた非圧縮の左目画像、及び、他の機器から転送されてきた非圧縮の左目画像の双方を奥行き調整の対象とすることができる。経路rt3は、他の機器のストリーム供給源からパススルーで入力されてきた左目画像を左目プレーンメモリ7に格納するための経路である。
 <スイッチ14b>
 スイッチ14bは、右目プレーンメモリ8に書き込むべき画像データの入力を切り替えるものである。切り替え素子が接点c側に設定されている場合、右目プレーンメモリ8には、右目画像デコーダ6のデコードで得られた非圧縮の右目画像データが格納される。接点d側に設定されている場合、右目プレーンメモリ8には、機器間インターフェイス19を介して他の機器から転送されてきた非圧縮の右目画像データが格納される。これにより、右目画像デコーダ5のデコードで得られた非圧縮の右目画像、及び、他の機器から転送されてきた非圧縮の右目画像の双方を奥行き調整の対象とすることができる。経路rt4は、他の機器のストリーム供給源からパススルーで入力されてきた右目画像を右目プレーンメモリ8に格納するための経路である。
 <コンテンツプロパティ保存モジュール15>
 コンテンツプロパティ保存モジュール15は、立体視の対象となる画像データが、どれだけの大きさの画面サイズを前提にしているかを示すコンテンツのプロパティを格納する。コンテンツプロパティとは、例えばコンテンツに対応する映像の解像度、コンテンツに対応する映像が立体視であるか否か、コンテンツに対応する映像は奥行き調整が施されたものか否かと、奥行き調整が施されている場合はその度合い、コンテンツのエンコードフォーマット(LR多重ストリーム/サイドバイサイド/トップボトム)といった情報、再生対象コンテンツは既にコンテンツは奥行き調整がなされているか否かの情報、どのぐらいの奥行き調整が既に施されているか、コンテンツの解像度、コンテンツの再生想定画面サイズ等がある。これらの情報は例えば、コンテンツに対応するストリームのヘッダ情報から取得したものである。
 <表示デバイスプロパティ保存モジュール16>
 表示デバイスプロパティ保存モジュール16は、立体視映像の表示対象の機器の性能情報を保存する制御レジスタである。表示デバイスのプロパティとは、表示デバイスの表示画面の解像度、表示デバイスの表示画面のサイズ、表示デバイスが立体視表示可能であるか否か、表示デバイスは奥行き調整機能を有するか、奥行き調整機能を有していた場合、現在の奥行き調整の設定はユーザによってどのように設定されているか、表示デバイスの表示フォーマット(フレームシーケンシャル/サイドバイサイド/トップボトム)に加え、表示デバイスがリモートか否かの情報等である。表示対象の機器は必ずしも自身の機器であるとは限らない。例えば、ネゴシエーションを行ったリモートな機器が表示対象の機器になったり、あるいは自身が他の機器から受け取った映像を表示したりするケースももちろんある。表示対象デバイスプロパティの取得は、例えば機器間インターフェイス19を介して行われる。この取得タイミングはクライアントとなる機器の起動時、あるいはクライアントとなる機器とサーバーとなる機器とのリモート接続時等、立体視映像再生要求を受け付ける前までになされる。
 プロパティを取得する表示対象デバイスは、立体視映像の再生のトリガーをかける機器に表示をするのであれば、立体視映像の再生のトリガーをかける機器自身が表示対象デバイスに該当する。また立体視映像の再生のトリガーをかける機器に表示しないのであれば、立体視映像の再生のトリガーをかける機器と接続する機器であって、かつ表示機能を有する機器が表示対象デバイスに該当する。立体視映像の再生のトリガーをかける機器自身が表示対象デバイスである場合、予め自身の機器のハードディスク、メモリなどの記憶手段(図示せず)等に記憶されている情報を用いてプロパティを設定し、表示対象デバイスがリモートであった場合はネットワークインターフェイス1や機器間インターフェイス19におけるマルチメディアケーブルインターフェイスを介して表示対象デバイスから取得したプロパティを保存する。
 <奥行き調整判定モジュール17>
 奥行き調整判定モジュール17は、コンテンツの再生にあたって、その表示対象となる画面サイズが、コンテンツ想定画面サイズの画面サイズと一致するかどうかを判定することにより奥行き調整の要否を判定する。
 奥行き調整判定モジュール17を映像処理装置に設けることが何故必要になったかという必然性について説明する。奥行き調整の要否判定は、以下の要請から生じる。BD-ROMでは、立体視映像を構成する左目画像、右目画像がBD-ROM内におけるトランスポートストリーム内に存在するため、左目画像、右目画像をデコードすれば、オーサリングサイドによって奥行き調整がなされた立体視映像が再生されることになる。ここで、左目画像、右目画像に現れる視差は50インチ等の画面で左目画像,右目画像が再生されることを想定したものである。よって、実際に表示される画面がオーサリングが想定していた画面より大きいと飛出し度合が過渡になるし、画面が小さいと飛出し度合が物足りないものになる。よって飛出し量が表示されているディスプレイにとって最適なものにすべく奥行き調整を行う。
 奥行き調整の要否判定は、画面サイズの直接比較でなされるが、再生すべきコンテンツがどれだけの画面サイズでの再生を想定したものかについては、充分な情報が得られない。この場合、現状の奥行き調整の度合いを判断材料として使用する。具体的にいうと、奥行き調整がなされている左目画像、右目画像についての視差の数値範囲は、コンテンツ想定画面サイズの大きさに依存する。そこで、再生が想定される複数画面サイズのそれぞれについて、視差の基準値を準備して機器に保持させておけば、奥行き調整がなされている左目画像、右目画像についての視差を、機器が予め保持する基準値と比較することにより、その左目画像、右目画像によって構成されるコンテンツが想定している画面サイズがどれだけであるかを判断することができる。そのようにしてコンテンツ想定画面サイズを検出すれば、これを表示デバイスプロパティ保存モジュール16に保存されている表示画面サイズと比較することにより奥行き調整の要否を判断することができる。以上のように、奥行き調整判定モジュール17は、表示デバイスプロパティ保存モジュール16に保存されている情報と、再生コンテンツプロパティ保存モジュール7に保存されている情報を基に、コンテンツの奥行き調整が必要か否かの判定を行う。
 4.ユーザ入力
 ユーザ入力というグループに分類される構成要素とは、UO検知モジュール18である。
 <UO検知モジュール18>
 UO検知モジュール18は、例えばユーザがリモコン等を操作して指示した命令に対応する信号を受信する部分である。UO検知モジュールから例えばキー操作によるリアルタイムな立体視映像の奥行きの指示に対応する信号を受信したり、あるいは機器設定(奥行き度調整設定も含む)の調整の指示に対応する信号を受信したりすることが可能である。
 ユーザのリモコンの操作により、立体視映像の再生要求をUO検知モジュール18が検知した場合、UO検知モジュール18が立体視映像の再生の要求を再生部に該当する構成要素群に転送する、または起動したアプリケーションから立体視映像の再生を伝送する場合等がある。
 起動するアプリケーションから立体視映像の再生が要求されるというケースは、例えば、アプリケーション起動メニューからJavaアプリケーション等のバイトコードアプリケーションを起動され、起動したアプリケーションがUO検知モジュール18からのユーザ操作に応じて立体視映像の再生要求を再生部に該当する構成要素群に伝送する等をケースを意味する。立体視映像の再生要求には再生する対象となるコンテンツの取得場所や、画像コンテンツ平面視/立体視の何れであるかの情報が含まれる。
 5.機器間通信
 "機器間通信"というグループに分類される構成要素について説明する。「機器間通信」というグループに分類される構成要素とは、機器インターフェイス19、パーサ20、通信制御部21、性能情報格納モジュール22、通信情報作成モジュール23、性能比較モジュール24、応答情報作成モジュール25である。以下、これらの構成要素について説明する。
 <機器インターフェイス19>
 機器間インターフェイス19は、例えばHDMI規格に準拠したマルチメディアケーブルや、コンポジットケーブル、コンポーネントケーブルを通じて、デコード済みの映像や音声の転送を行う。特にHDMIは映像に加え、様々なプロパティ情報を付加することも可能である。ネットワークインターフェイス1の代わりに機器間インターフェイス19におけるマルチメディアケーブルインターフェイスを用いる場合には、マルチメディアケーブルインターフェイスを介して、表示デバイスプロパティ保存モジュール6に、表示処理を実行する機器の性能情報が保存される。
 <パーサ20>
 パーサ20は、機器間のネゴシエーションのデータのパージングを行い、また送信情報作成モジュール9または応答情報作成モジュール12が作成した情報を機器が処理できるデータに変換する。
 <通信制御部21>
 通信制御部21は、映像処理装置における通信制御を行う。通信制御部21は単体で意味をもつものではなく、同一の構成をもった機器が互いに接続し合ってメッセージやデータを送受信するという通信シーケンスで真価を発揮する。以下、機器間の通信シーケンスについて説明する。図13(a)は、通信制御部21によってなされる通信シーケンスを示す。
 左側は送り手を、右側は受け手側を示す。縦方向には、複数の機器で共通する時間軸を描いている。本図では、奥行き調整の要否を判定するフェーズph1、ネゴシエーションフェーズph2、性能情報を用いて奥行き調整主体を判定するフェーズph3、立体視コンテンツを構成する左目画像データ、右目画像データの転送を行うフェーズph4から構成される、奥行き調整主体決定フェーズph3、転送フェーズph4については、探索アルゴリズムの性能の違いによって2つのバリエーションが存在する。図13において(a)~(b)の2つのシーケンスが存在するのは、このバリエーションの違いを示す。ここで図(a)は、送り手における能力が高いケース、図(b)は受け手における探索能力が高いケースを示す。
 図13(a)は、受け手側のアルゴリズム能力(Algo(dst))が送り手側のアルゴリズム能力(Algo(src))よりも高性能であるケース、図13(b)はこの逆のケースを示す。この違いは、奥行き調整主体の決定フェーズの内容からも明らかである。つまり図13(a)、図13(b)では、送り手における探索アプリケーションのレベル(Algo(src))と、受け手における探索アルゴリズムのレベル(Algo(dst))との不等号関係が入れ代わっている。またこの違いは、転送フェーズにも現れる。転送フェーズにおいて横並びの平行四辺形は、立体視を構成する左目画像、右目画像の組みを表す。そして左目画像、右目画像のうち、平行四辺形同士の間隔が狭いものは奥行きが未調整のもの、間隔が広いものは調整済みのものを示す。図13(a)では送り手側で奥行き調整がなされており、図13(b)では受け手側で奥行き調整がなされている。このような違いが生じているのは、図13(a)は受け手の奥行き調整能力が高いとの想定、図13(b)は送り手の奥行き調整能力が高いとの想定が存在するからである。以上のように決定フェーズでは、奥行き調整主体を送り手、受け手の何れの能力が高いかによって奥行き調整を送り手で行うか、受け手で行うかを切り替えていることがわかる。以上で通信制御部21についての説明を終える。
 <性能情報格納モジュール22>
 性能情報格納モジュール22は、自装置において、奥行き調整がどれだけであるかという性能情報のプロパティを格納する。性能情報は、各機器において奥行き調整がどれだけであるかを示すものだから、その設定値は、機器毎に異なるものになる。図14は、図1に示した再生装置100、テレビ200、テレビ300、携帯端末400における性能情報の設定例である。これらの性能情報において、本図の性能情報は、調整機能有無き機能、探索アルゴリズム、探索範囲、転送レート、再生対象コンテンツの参照先、調整能力という情報要素によって構成される。以下、性能情報の情報要素について説明する。併せて、上述した情報要素がどのような値に設定されるかという設定の具体例についても説明する。
 『調整機能有無』とは、予め機器に埋め込まれているプロパティであり、機器が奥行き変換機能を有するか否かが判定できる情報である。図14に示す例では、再生装置100、テレビ200、テレビ300、携帯端末400の何れの機器にも奥行き調整機能が存在することが示されている。
 『探索アルゴリズム』とは、予め機器に埋め込まれているプロパティであり、機器が有する奥行き変換の実施方法のアルゴリズム名に対応付けた数値として保有する。図14において、再生装置100、テレビ300の探索アルゴリズムが何れもグラフカットを採用していることがわかる。一方、テレビ200はセミグローバルマッチング、携帯端末400はブロックマッチングであることがわかる。本アルゴリズムは1つのみではなく、複数保有している場合もある。この場合には、奥行き調整アルゴリズムのプロパティには異なる値が複数設定されることになる。
 『探索範囲』は、予め機器に埋め込まれているプロパティであり、例えば探索アルゴリズムにおいて設定されたアルゴリズムを適用した場合におけるデフォルトのパラメータである。アルゴリズムのパラメータは例えば左目と右目の視差情報を得る際に水平方向に探索する範囲をピクセル単位で示したものである。図14に示す例では、テレビ300の探索範囲は24画素、再生装置100、テレビ300、テレビ200の探索範囲は何れも16画素に設定されていることがわかる。
 『転送レート』とは、接続対象の機器との接続時に接続しているインターフェイスのスループットがどの程度であるかを示す値である。奥行き調整能力プロパティにおけるデータ転送能力は、データ送受信の相手側となる機器の転送がHDMIによる有線であるかWifiによる無線であるかの見極めのためになされる。転送レートは予め機器に埋め込まれているプロパティであってもよいし、ネゴシエーション時にスループットを計測しておき、その値を利用してもよい。図14に示す例では、図14(a)の再生装置100における転送レートは53.3(Mbps)、テレビ200、テレビ300については24(Mbps)、携帯端末400については(8Mbps)と設定された例を示している。
 『再生対象コンテンツの参照先』とは再生対象のコンテンツの保存メディア、保存されているファイルパスを示す。図14における例では、図14(a)の再生装置100における再生対象コンテンツの参照先が"E:/local/path/01234.mt2s"と設定されており、(d)の携帯端末400における再生対象コンテンツの参照先が"C:/local/path/01234.mt2s"と設定されていることがわかる。
 『調整能力』とは、探索アルゴリズムと探索範囲を再生対象コンテンツに適用した場合の性能を示すベンチマークスコアである。この値は再生対象のコンテンツの保存先のデータスループットを考慮した値であることが望ましい。例えば、リムーバブルメディアとディスクドライブ2aに保存されたデータでは機器のメディア読み込み速度にも依存してしまうため、一度奥行き調整を試した上で奥行き調整処理能力を見出した方が望ましい。本値は探索アルゴリズムに示される値が複数ある場合、探索アルゴリズム毎に対応する奥行き調整処理能力の値が存在する。図14の一例では、再生装置100、テレビ200、テレビ300の調整能力が何れも85(Mbps)であり、遜色ない能力になっていることがわかる。一方携帯端末400については、調整能力が43(Mbps)であり、調整能力が低くなっていることがわかる。
 以上まとめると、図14においては、何れの機器においても調整機能『有』に設定される。アルゴリズムについては、再生装置100、テレビ300は何れもグラフカット、テレビ200はセミグローバルマッチング、携帯端末400はブロックマッチングに設定される。探索範囲については、テレビ300のみが24画素に設定されている。以上のような各個体の性能差が各機器の性能情報に反映されていることがわかる。
 <通信情報作成モジュール23>
 通信情報作成モジュール23は、自機が送り手になった場合、自機の性能情報を読み出して、これを相手側機器への転送に適合したデータ形式に変換することで送信情報を作成する。
 <性能比較モジュール24>
 性能比較モジュール24は、相手側から受け取った性能情報における探索レベルと、自装置における探索レベルとを比較して、ネゴシエーションの対象となる相手の機器から受信した送信情報とから"どの機器が"、"どのように"、奥行き調整を行うかを判定するモジュールである。性能比較モジュール24は、機器接続時において送り手から送信されてくる性能情報に示される探索アルゴリズムと、自身の性能情報に示される探索アルゴリズムとを比較することにより送り手、受け手の何れを奥行き調整主体とするかを決定する。探索アルゴリズムの高低で奥行き調整主体を定めるのは、探索アルゴリズムの違いがマッチングポイント探索精度を大きく左右するからである。両機器の探索アルゴリズムのレベルが同じである場合、探索範囲の広さで決定する。両機器の探索範囲が同じである場合、両機器の奥行き調整の速さで決定する。以上のように、接続し合う2つの機器で探索アルゴリズムを比較して、優劣がつかない場合、探索範囲の広さ、奥行き調整能力の速さという異なる次元のパラメータで、機器の比較を行っている。これは、奥行き調整の速さを単純比較するというものではなく、品質優位で奥行き調整主体を定めるという製品コンセプトの表れである。
 <応答情報作成モジュール25>
 応答情報作成モジュール25は、性能情報格納モジュール22による比較がなされた際、その比較結果を示す応答情報を作成して送り手に送信する。各機器における性能情報が図14のように設定されているとの仮定下で機器同士の接続がなされた場合、どのような応答情報が送信されるかについて説明する。図15(a)は再生装置100-テレビ300の接続時において、テレビ300から送信される応答情報を示し、図15(b)は携帯端末400-テレビ200の接続時において、テレビ200から送信される応答情報を示す。図16(a)は携帯端末400-再生装置100の接続時において、携帯端末400から送信される応答情報を示し、図16(b)はテレビ200-再生装置100の接続時において、テレビ200から送信される応答情報を示す。これらの図で共通している、応答情報の共通のデータ構造について説明する。応答情報は、調整デバイス、端末機能、調整レベル、探索アルゴリズム、探索範囲といった情報フィールドから構成される。
 「調整デバイス」は、送り手、受け手のうち何れが調整主体になったかという調整結果を示す。図15(a)、図15(b)、図16(a)の接続パターンにおける応答情報では、受け手側(dst)が調整主体として示されている。調整デバイスが受け手に設定されているのは、図15(a)、図15(b)、図16(a)の接続パターンで性能情報を比較した場合、受け手の性能が高かったためである。図16(b)の接続パターンにおける応答情報では、送り手(src)側が調整主体として示されている。調整デバイスが送り手に設定されているのは、図16(b)の接続パターンで性能情報を比較した場合、送り手の性能が高かったためである。
 「端末機能」は、奥行き調整が自動/手動の何れでなされるかを示す。図15(a)、図15(b)、図16(a)、図16(b)の何れの接続パターンにおいても、この端末機能は自動に設定されている。
 「調整レベル」は、飛出し度合を高中低のうち何れのレベルに設定するかを示す。図15(a)、図15(b)、図16(a)、図16(b)の何れの接続パターンにおいても、調整レベルが"中"に設定されている。
 「探索アルゴリズム」は、奥行き調整主体が使用するアルゴリズムを示す。図15(a)では、アルゴリズムがグラフカットに設定され、図15(b)でセミグローバルマッチングに設定されていることがわかる。図16(a)、図16(b)ではグラフカットに設定されていることがわかる。
 「探索範囲」は、奥行き調整主体によるマッチングポイントの探索範囲を示す。図15(b)、図16(a)、図16(b)の接続パターンにおける応答情報では、探索範囲が16画素であると示されている。図16(a)の接続パターンにおける応答情報では、探索範囲が24画素であると示されている。
 以上まとめると、接続パターンのそれぞれにおいて、送り手-受け手のうち、より高い調整能力を有するものが、応答情報によって相手側に通知されていることがわかる。図15(a)によると、アルゴリズムは同一であるが、探索範囲はテレビ300が広いからテレビ300が調整主知として決定されることになる。よって再生装置100からテレビ300へと奥行き調整済みの左目画像データ、右目画像データが送信されることになる。そしてテレビ300側で自身のアルゴリズムによる奥行き調整がなされることになる。
 6.画面適応化
 「画面適応化」というグループに分類される構成要素とは出力映像コンバータ26である。以下、この構成要素について説明する。
 出力映像コンバータ26は、応答情報の情報に基づいてネゴシエーション先と立体視映像コンテンツをどのようなフォーマットで送信するかを判定して、非圧縮の左目画像データ、右目画像データを判定結果であるフォーマットに変換する。例えば、奥行き調整を施してデコード済みのデータをネゴシエーション先の機器が処理できるフォーマットに変換して送信する、またはデコード済みの立体視映像データを受信し、奥行き調整を施して自身が表示する等パターンは様々ある。受け手から送り手に送信される応答情報が図15(a)(b)、図16(a)(b)の内容である場合、出力映像コンバータ13がフォーマット変換を行うことで、テレビ200、テレビ300、携帯端末400の表示内容がどのようになるかを説明する。図17、図18は、送り手-受け手の複数のパターンと、各パターンにおける立体視表示とを示す。
 図17(a)は、テレビ300-再生装置100の接続時を示す。再生装置100-テレビ300では、探索アルゴリズムは同一であるが、探索範囲はテレビ300が広いからテレビ300が調整主知として決定されることになる。よって再生装置100からテレビ300へと奥行き未調整の左目画像データ、右目画像データが送信されることになる。そしてテレビ300側で自身のアルゴリズムによる奥行き調整がなされることになる。
 図17(b)は、携帯端末400-テレビ200の接続時を示す。携帯端末400-テレビ200の接続時では、セミグローバルマッチングでのマッチングポイント探索が可能なテレビ200が奥行き調整主体になる。この場合、テレビ200は受け手側であるから、左右画像は未調整のまま受け手側に出力されることになる。テレビ200のセミグローバルマッチングによる奥行き調整が施されて飛出し量:小レベルの立体視再生がなされる。
 図18(a)は、携帯端末400-再生装置100の接続時を示す。携帯端末400-再生装置100の接続時では、グラフカットでのマッチングポイント探索が可能な再生装置100が奥行き調整主体になる。この場合、携帯端末400は送り手側であるから、左右画像は、送り手で調整された上、受け手側に出力されることになる。よって再生装置100のグラフカットによる奥行き調整が施されて飛出し量:大レベルの立体視再生がなされる。
 図18(b)は、再生装置100-テレビ200の接続時を示す。テレビ200-再生装置100の接続時では、グラフカットでのマッチングポイント探索が可能なテレビ300が奥行き調整主体になる。この場合、テレビ200は受け手側であるから、左右画像は未調整のまま受け手側に出力されることになる。こうすることでテレビ200のグラフカットによる奥行き調整が施されて飛出し量:中レベルの立体視再生がなされる。
 以上で画面適用化グループについての説明を終える。次に、表示装置において、特有となる構成要素について説明する。この特有の構成要素には、表示部25がある。
 <表示部26>
 表示部26は、自機によって奥行き調整及びフォーマット変換がなされた左目画像及び右目画像を受け取り、画面表示に供する。それだけではなく、他の機器によって自機によって奥行き調整及びフォーマット変換がなされた左目画像及び右目画像を受け取り画面表示に供する。
 本実施形態に係る映像処理装置は、上述したような映像処理装置における各構成要素を、ASIC等のハードウェア集積素子で具現化することで工業的に生産することができる。このハードウェア集積素子に、CPU、コードROM、RAMといった汎用的なコンピュータアーキテクチャを採用する場合、上述したような各構成要素の処理手順をコンピュータコードで記述したプログラムをコードROMに予め組みこんておき、ハードウェア集積素子内のCPUに、このプログラムの処理手順を実行させねばならない。汎用的なコンピュータシステムのアーキテクチャを採用する場合、ソフトウェア実装で必要となる処理手順について説明する。
 図19は、奥行き機器決定の処理手順におけるメインフローチャートである。本フローチャートは、最上位の処理、つまり、メインルーチンに該当するものであり、本フローチャートの下位のフローチャートとして、図20~図24のフローチャートが存在する。以下、メインルーチンにおける処理手順について説明する。
 本立体視映像の奥行き調整方法は2つ以上の機器の処理を含む可能性があるが、図7に示される処理は立体視映像の再生のトリガーをかける機器、つまりクライアントとなる機器の全体処理を示している。
 図19は、映像処理装置の処理手順のメインフローである。本フローチャートは表示デバイスのプロパティを取得して(ステップS1)、再生を開始し(ステップS2)、コンテンツのプロパティを取得して(ステップS3)、ステップS6の判定ステップに移行する。再生開始がユーザから要求された場合(ステップS4)、ステップS1をスキップしてステップS2から処理を開始する。ユーザ操作(UO)奥行き調整要求が発生した場合(ステップS5)、ステップS1~ステップS3をスキップしてステップS6から処理を開始する。
 ステップS6の判定ステップは、コンテンツの奥行き調整の要否判定であり、奥行き調整が不要であればステップS7~ステップS9を行う。ステップS7は自装置が表示デバイスかどうかの判定であり、もし表示デバイスであれば立体視映像を表示する(ステップS8)。表示デバイスでなければ立体視映像コンテンツをデータ送受信の相手側となる表示装置に送信する(ステップS9)。
 ステップS6において奥行き調整が必要であると判定されればステップS11~ステップS17の一連の処理に移行する。この一連の処理は、デバイスのネゴシエーションを行い(ステップS11)、成功すればデバイス性能の交換を行って(ステップS12)、ステップS13においてコンテンツの保存場所が自装置であるか否かを判定する。
 もし保存場所が自装置であればステップS14において、奥行き調整を行う機器の選択を実行する。保存場所が自装置でなければステップS17において、立体視映像コンテンツの受信待ちを行い、受信してからステップS14において、奥行き調整を行う機器の選択を実行する。
 ステップS15は、選択された機器が自装置であるか否かの判定である。もし自装置が奥行き調整主体であればステップS16において奥行き調整を実行してからステップS8~ステップS10に移行し、自装置が表示デバイスであれば立体視映像を表示する。
 もし自装置が奥行き調整主体でなければステップS16をスキップしてステップS8~ステップS10に移行し、自装置が表示デバイスであれば立体視映像を表示する。
 図20は、コンテンツ奥行き調整の要否決定、及び、デバイスネゴシエーションの処理手順を示すフローチャートである。図20(a)はコンテンツの奥行き調整が必要か否かを判定する処理を示すものである。本図のフローチャートは、サブルーチン化されたものであり、サブルーチンを終了する際、コールした側のフローチャートに戻り値を返す。この戻り値は、フローチャートの終端に示されている通りである。
 ステップS21は、表示デバイスプロパティにおける自動奥行き調整機能がONであるか否かを判定する。ステップS22は、表示デバイスプロパティにおける画面サイズと、再生コンテンツプロパティにおける立体視対応画面サイズとが一致するかどうかの判定することで奥行き調整の要否を判定する。このステップS22では、現状の奥行き調整の度合いを加味する。これは例えば、奥行き調整がなされている調整済みマッチングポイントについて、マッチングポイント探索で検出された視差が、機器が予め保持する基準値とを比較して大きいかどうかを判断する等の実装も可能である。ステップS21、ステップS22の何れもがYesであれば、奥行き調整が必要であるとしてリターンする。ステップS21、ステップS22の何れかがNoであれば、奥行き調整が不要であるとしてリターンする。
 図20(b)は、デバイスのネゴシエーションの詳細処理の一例を示すフローチャートである。
 ステップS23は、双方向のデータ送受信が可能なインターフェイスが少なくとも1つ存在するか否かを判定する。このインターフェイスとは前述したネットワークインターフェイス1がある。例えばネットワークインターフェイス1を用いた方法としてはBluetoothもしくはHTTPプロトコルを用いて通信する方法、またはこれらを組み合わせた方法等がある。受け手の機器がどのようなインターフェイスに対応しているかは表示対象デバイスプロパティ保存モジュール6の中の情報を用いて判定する。
 ステップS24は、双方向のデータ送受信が可能なインターフェイスにおいて接続を試行する。次に、立体視映像再生エンジン15は、接続対象の機器への接続を確認する。機器への接続は例えば、ネゴシエーションにネットワークインターフェイス1を用いる場合はBlueToothまたはHTTPプロトコルを用いて通信を行い対象機器との接続が成功するかを確認する。ネゴシエーションにマルチメディアケーブルインターフェイス4を用いる場合は物理的に接続されているか否かを確認する。ステップS23、ステップS24の何れもがYesであれば、機器性能の交換に移行し、ステップS23、ステップS24の何れかがNoであれば、奥行き調整の実施に移行する。
 図21は、機器性能の交換手順を示すフローチャートである。送り手の処理手順としては、性能情報を作成し(ステップS31)、性能情報を受け手に送信して(ステップS32)、受け手からの応答待ち状態になり(ステップS33)、応答情報を受信すれば、応答情報のパージングを行う(ステップS34)というものになる。
 受け手の処理手順としては、ステップS41において性能情報の受信待ちとなり、性能情報を受信すれば、性能情報をパージングし(ステップS42)、自機の性能情報を抽出した後(ステップS43)、自機の性能情報と、受信した性能情報に示される性能情報との比較を行い(ステップS44)、比較結果に応じて奥行き調整機器を決定して(ステップS45)、性能情報に対する応答情報を作成し(ステップS46)、応じて情報を送信するというものになる(ステップS47)。
 <奥行き調整を行う機器の選択>
 図22は、奥行き調整を行う機器の選択手順を示すフローチャートである。本フローチャートは、ステップS50~S53の判定ステップ群からなり、これらの判定ステップ群において何れの判定ステップがYesになるかによって、決定結果が異なるものになる。
 ステップS50は、送り手、受け手の双方に奥行き調整が存在するかどうかの判定であり、ステップS51は、両機器におけるデプス画像の生成速度が足りているかどうかの判定である。ステップS52は両機器の探索アルゴリズムの性能が同じかどうかの判定であり、ステップS52は、両機器におけるマッチングポイントの探索範囲が同じかどうかの判定である。送り手、受け手のうち一方しか奥行き調整を有していない場合、ステップS54において、その奥行き調整を有している機器で奥行き調整を行う。双方の機器に奥行き調整能力が存在する場合、ステップS51において、双方の機器のマッチングポイント探索の処理速度が足りているかどうかの判定がなされる。一方の機器における処理速度が所定の閾値を上回る場合、ステップS55において、その閾値を上回る処理速度でマッチングポイント探索を行える機器を選択する。
 双方の機器のマッチングポイント探索の処理速度が閾値を上回る場合、ステップS52において、探索アルゴリズムのレベル比較がなされる。一方の機器における探索アルゴリズムのレベルが高い場合、ステップS56においてレベルが高いアルゴリズムをもつ機器が選択される。
 双方の機器の探索アルゴリズムが同じレベルである場合、ステップS53において探索範囲の比較がなされる。一方の機器における探索範囲が広い場合、ステップS57においてその探索範囲が広い側の機器が奥行き調整主体として選択される。
 双方の機器の探索範囲が同じである場合、ステップS58において、マッチング探索の処理速度が高い機器を奥行き調整主体として選択する。双方の機器のマッチング探索の処理速度が同じである場合、表示側の機器を奥行き調整主体として選択する。
 図23は、奥行き調整処理の処理手順を示すフローチャートである。奥行き調整処理は前述したとおり、非特許文献1やブロックマッチングや非特許文献2のグラフカット等の視差計算処理を用いて視差マップを生成し、その視差マップの各ピクセルに奥行き調整処理を行う機器が予め保持する調整度(例えば1/2)を掛け算し、新しい視差マップを得た後に、その視差マップに対応するデプス画像に基づいて左目画像と右目画像の各ピクセルを水平方向にずらす。
 ステップS61では、応答情報における奥行き調整アルゴリズムと、奥行き調整パラメータとに従い、視差マップを生成し、ステップS62では、視差マップのピクセルに機器組込みの調整度を乗じて新しい視差マップ、デプス画像を得る。ステップS63では、新しい視差マップに対応するデプス画像に基づき、左目画像、右目画像の各ピクセルを水平方向にシフトする。
 図24は、視差マップ作成の処理手順を示すフローチャートである。ステップS71は、応答情報における調整アルゴリズムの内容判定である。アルゴリズムがブロックマッチングであれば、ステップS72において他方の片目映像における整合領域を水平方向に探索して最整合領域を得る。
 アルゴリズムがセミグローバルマッチングであれば、ステップS73において他方の片目映像における整合領域を、隣接する複数方向の分割領域との整合性を加味して探索し、最整合領域を得る。
 アルゴリズムがグラフカットであれば、ステップS74において映像をオブジェクト毎に分割して、分割領域のそれぞれについて、最整合領域を探索し、最整合領域を得る。
 ステップS75では、最整合領域の水平方向の位置と、片目映像の分割した領域の水平方向の位置との差異を最整合領域の距離としてマップすることで視差マップを得る。
 (第2実施形態)
 第1実施形態において再生の対象とすべきストリームは、ビデオストリーム一種のみに限定して説明したが、本実施形態ではビデオストリーム以外の他のデータを考慮した内部構成を採用する。図25は、ビデオストリーム以外の他のデータを考慮した内部構成を示す。本図に示すように、第2実施形態にかかる映像処理装置には、イメージデコーダ30、イメージメモリ31、シフト部32、合成部33a,b、オーディオデコーダ34が追加される。
 イメージデコーダ30は、デマルチプレクサ4によって多重分離されたJPG/PNGなどのグラフィックデータをデコードして非圧縮グラフィクスを得る。
 イメージメモリ31は、デコードにより得られた非圧縮のグラフィクスを格納する。
 シフト部32は、予め設定されたオフセットでプレーンシフトを実行して左目イメージ、右目イメージを得る。このプレーンシフトは、特許文献1で開示されている技術である。プレーンシフトでは、画面全体をシフトするため、映像内の全てのオブジェクトの奥行きが同様に変化する。結果としては映像の立体感が変更するのではなく、立体的に見える映像の表示位置が、より手前の位置に見えるよう調整されるか、または、より奥の位置に見えるように調整されることになる。
 合成部33aは、左目画像デコーダ5から出力される左目画像と、シフト部32が生成した左目イメージとを合成する。
 合成部33bは、右目画像デコーダ6から出力される右目画像と、シフト部32が生成した右目イメージとを合成する。
 オーディオデコーダ34は、デマルチプレク4から出力されたオーディオフレームを復号して、非圧縮形式のオーディオデータを出力する。
 上記構成では、左目画像、右目画像にグラフィクスが合成された合成画像を奥行き調整の対象することができる。このグラフィクスがGUIを表すものなら、GUIの奥行きをも適性なものにすることができる。
 上述したようにシフト部32は、予め設定されたオフセットでプレーンシフトを実行するものである。よって本実施形態では、このオフセットを増減することによりイメージの飛出し度合を制御する。
 以上のように本実施形態によれば、画像に合成されたイメージについても、表示装置の画面サイズに応じた増減を施すから、画像、イメージの飛出し量を適切にすることができる。
 <備考>
 以上、本願の出願時点において、出願人が知り得る最良の実施形態について説明したが、以下に示す技術的トピックについては、更なる改良や変更実施を加えることができる。各実施形態に示した通り実施するか、これらの改良・変更を施すか否かは、何れも任意的であり、実施する者の主観によることは留意されたい。
 (プロパティ取得)
 表示装置におけるプロパティの取得はデバイスネゴシエーション時に行ってもよい。
 (第3の機器による奥行き調整)
 互いに接続し合う2つの機器の何れにも、奥行き調整が存在しない場合、第3の機器に奥行き調整を行わせるのが望ましい。この第3の機器の候補が唯一つ存在するなら、その機器に奥行き調整を行わせる。一方、第3の機器の候補が複数存在するなら、それらの候補機器のうち、何れか1つを奥行き調整主体として選ぶのが望ましい。かかる奥行き調整主体の決定については、往復時間を考慮して決定すべきである。ここでの往復時間とは、未調整の画像データを候補となる機器に転送する時間、候補となる機器から調整済み画像データを受け取る時間から構成される。そして、この往復時間は、転送レートから定められる。よってこの転送レートを比較することでより早く調整済み画像データを入手することができる候補機器がどれであるかを判断することができる。よって、転送レートを比較することで、候補機器のうち、第3の機器となるべきものはどれかを判断することが望ましい。
 (ストリーム供給源のバリエーション)
 立体映像奥行き調整機能を実現するために、ネットワークインターフェイス1、リムーバブルメディア、BD-ROMドライブ3、およびマルチメディアケーブルインターフェイス4を全て備える必要はない。少なくとも2つの機器の接続により、立体視映像の再生および表示が行えること、自身の機器または受け手の機器から立体視映像に関する情報を取得できのであれば、ネットワークインターフェイス1、リムーバブルメディア、BD-ROMドライブ3、マルチメディアケーブルインターフェイス4の全てを一方の機器が必ずしも備える必要はなく、外部から情報を取り込むためのインターフェイスとして、上述のインターフェイスのうちの必要なものみを備える構成であっても構わない。
 本実施の形態においては、立体視映像を含むストリームデータの取り込みはネットワークインターフェイス1、リムーバブルメディア、ディスクドライブ2aを介して取り込み、取り込んだストリームデータの伝送はマルチメディアケーブルインターフェイス4を介して行い、機器間のネゴシエーションはネットワークインターフェイスを介して行うものを例にして説明を行うが、これに限定をされるものではない。
 例えば、マルチメディアケーブルインターフェイス4を用いた機器間の接続が例えばHDMI接続によりなされている場合には、HDMIの拡張領域を用いてネゴシエーションを行うのであれば、ネットワークインターフェイスを用いた接続は必ずしも必要はない。
 また例えば、大型ディスプレイ400、中型テレビ300、あるいは携帯端末600は、BD-ROMドライブ3を必ずしも備える必要はない。
 (リムーバブルメディアのバリエーション)
 リムーバブルメディアは機器間の再生対象のコンテンツやりとりに使われる一種の手段である。想定されるユースケースとして、例えば光ディスクに保存された大型ディスプレイ用のコンテンツをリモートにある小型ディスプレイを搭載した別の機器で再生する際に立体映像の送信手段としてリムーバブルメディアを利用することを想定する。別の立体映像のやりとりの手段が搭載されているならば、リムーバブルメディアは必ずしも本装置に搭載する必要はない。
 (インターフェイスのバリエーション)
 立体映像奥行きのネゴシエーション方法としてマルチメディケーブルインターフェイスを用いる場合は、本ネットワークインターフェイス1は必ずしも搭載される必要はない。
 (仮想ファイルシステムの適用)
 実施形態1では、ストリームデータまたはJPG/PNGなどの立体視映像ファイルをネットワークインターフェイス1、リムーバブルメディア、ディスクドライブ2aを介して取得する構成について説明をしたが、これに限定をされるものではない。例えば、図示しない仮想ファイルシステムを採用する機器(例えば、再生装置200など)においては、仮想ファイルシステムを介してリムーバブルメディアまたは、ディスクドライブ2aからストリームデータまたはJPG/PNGなどの立体視映像ファイルなどの情報を取得することができる。
 仮想ファイルシステムというのはBD-ROM100またはハードディスクまたはリムーバブルメディアを仮想的に組み合わせて、情報を要求する要求元からはあたかも1つの記録媒体に記録されているかのように見える機能である。
 これを実現するためには、例えば仮想ファイルシステムは立体視映像に係るデータとは別に、仮想ファイルシステムに対して要求するファイルパスを含むアクセス先のデータ情報と、このアクセス先に対応するデータが実際に存在する場所を示すファイルパスとに関するアクセス先変換情報を保持している。
 仮想ファイルシステムに対してアクセス要求をすると、仮想ファイルシステムはアクセス先変換情報を参照して、アクセス先をアクセス要求したデータが存在するファイルパスに変換して、アクセスを行わせるものである。
 これにより、例えば、仮想ファイルシステムに対して要求するファイルパスを仮想的に設定した1の記録媒体の中にあるかのようなファイルパスとしてやれば、要求元は、アクセス要求を行うデータがリムーバブルメディア、ディスクドライブ等の別々のデバイスあるのを意識することなくアクセス要求を行うことが可能となる。
 また、立体度調整する機能が表示装置側に備わっていてもよい。更に、本実施形態では、眼鏡を必要として立体視を行う装置について説明したが、眼鏡を必要とせずに立体視可能な裸眼立体視にも適用してもよい。
 (奥行き調整主体のバリエーション)
 実施形態1における奥行き調整主体の決定は単なる一例であり、中型テレビ300、あるいは携帯端末400のハードウェア性能が高く、中型テレビ300、あるいは携帯端末400で奥行き調整処理を行っても、立体視映像の表示に支障をきたさないのであれば、中型テレビ300、あるいは携帯端末400で奥行き調整処理を行っても良い。
 (携帯端末としての実施)
 携帯端末は、立体視写真ファイルから圧縮左目画像データ、圧縮右目画像データを取り出して再生に供する。ここでの立体視写真ファイルにはMPOファイルがある。MPO(Multi picture object)ファイルとは、任天堂株式会社の3DS、富士フィルム FinePix REAL 3D W1およびW3カメラにより撮影可能なファイルであり、撮影日、サイズ、圧縮左目画像、圧縮右目画像を含み、また撮影地に関する地理的情報として地理的緯度、経度、標高、方角、傾斜を含む。圧縮左目画像、圧縮右目画像は、JPEG形式で圧縮されたデータである。よって携帯端末400は、JPEG形式のデータの伸長を行うことで右目画像、左目画像を得る。
 (BD-ROM再生装置としての実施)
 読出部は、記録媒体から立体視インターリーブドストリームファイルを読み出す。読出部は、立体視インターリーブドストリームファイルの読み出しにあたって、3Dストリーム情報ファイルにおけるクリップベース情報内のエクステントスタートポイント情報と、クリップディペンデント情報内のエクステントスタートポイント情報とを用いて、立体視インターリーブドストリームファイルを、メインTSと、サブTSとに分割して、別々のリードバッファに格納するという処理を行う。この分割は、クリップディペンデント情報におけるエクステントスタートポイント情報に示されているソースパケット番号のパケット数だけ、立体視インターリーブドストリームファイルからソースパケットを取り出してメインTSに追加するという処理と、クリップベース情報におけるエクステントスタートポイント情報に示されているソースパケット番号のパケット数だけ、立体視インターリーブドストリームファイルからソースパケットを取り出してサブTSに追加するという処理とを繰り返すことでなされる。
 左目画像デコーダ5及び右目画像デコーダ6は何れも、コーデッドデータバッファ、デコードデータバッファを備え、ディペンデントビュービデオストリームを構成するビューコンポーネントをコーデッドデータバッファにプリロードした上、ベースビュービデオストリーム内のクローズGOPの先頭に位置するデコーダリフレッシュを意図したピクチャタイプ(IDRタイプ)のビューコンポーネントをデコードする。このデコードにあたって、コーデッドデータバッファ、デコードデータバッファを全クリアする。こうしてIDRタイプのビューコンポーネントをデコードした後、左目画像デコーダ5及び右目画像デコーダ6は、このビューコンポーネントとの相関性に基づき圧縮符号化されているベースビュービデオストリームの後続のビューコンポーネント、及び、ディペンデントビュービデオストリームのビューコンポーネントをデコードする。デコードによって当該ビューコンポーネントについての非圧縮のピクチャデータが得られれば、デコードデータバッファに格納し、かかるピクチャデータを参照ピクチャとする。
 この参照ピクチャを用いて、左目画像デコーダ5及び右目画像デコーダ6はベースビュービデオストリームの後続のビューコンポーネント、及び、ディペンデントビュービデオストリームのビューコンポーネントについて、動き補償を行う。動き補償によって、ベースビュービデオストリームの後続のビューコンポーネント、及び、ディペンデントビュービデオストリームのビューコンポーネントについて、非圧縮のピクチャデータが得られれば、これらをデコードデータバッファに格納し参照ピクチャとする。以上のデコードは、個々のアクセスユニットのデコードタイムスタンプに示されているデコード開始時刻が到来時になされる。
 (テレビ放送受信装置としての構成)
 表示装置をテレビ放送受信装置として構成するには、サービス受付部と、受信部と、分離部と、表示判定部とを表示装置に追加する必要がある。
 サービス受付部は、サービス選択を管理する。具体的には、リモコン信号からのユーザの指示やアプリからの指示によるサービスの変更要求を受け取り、受信部に通知する。
 受信部は、選択されたサービスが配信されているトランスポートストリームの搬送波の周波数における信号をアンテナやケーブルから受信し、復調する。そして分離部に復調したTSを送出する。
 受信部は、受信された放送波に対してIQ検波を行うチューナユニットと、IQ検波がなされた放送波に対してQPSK復調、VSB復調、QAM復調を行う復調部と、トランスポートデコーダとを含む。
 多重分離部は、受信したトランスポートストリームから、PSIなどのシステムパケットを抽出し、抽出されたシステムパケットの1つであるPMTパケットから、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorの各ディスクリプタを取得し、表示判定部に通知する。
 表示判定部は、多重分離部から通知される、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorのそれぞれを参照して、トランスポートストリームのストリーム構成を把握する。そして、カレントの表示モードにおいて、多重分離の対象にすべきTSパケットのPIDを多重分離部に通知する。
 また、表示判定部は、立体視再生方式がフレーム互換方式の場合において、3D_system_info_descriptorの2D_view_flagや、3D_service_info_descriptorのframe_packing_arrangement_typeを参照して、表示処理部に対して、左目用画像、右目用画像のどちらを2D再生に用いるか、ビデオストリームが、Side-by-Side方式であるか等を通知する。表示判定部は、多重分離部より抽出された3D_system_info_descriptorの3D_playback_typeを参照し、受信したトランスポートストリームの再生方式を判定する。再生方式がサービス互換方式である場合、3D_system_info_descriptorの2D_independent_flagを参照し、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを判定する。
 2D_independent_flagの値が0の場合、3D_combi_info_descriptorを参照して、ストリーム構成を特定する。トランスポートストリームのストリーム構成が2D/L + R1 + R2である場合、2D/L + R1 + R2のストリームをデコードして左目画像データ、右目画像データの組みを得る。
 トランスポートストリームのストリーム構成が2D/L + Rである場合、2D/L + Rのストリームをデコードして左目画像データ、右目画像データの組みを得る。
 2D_independent_flagの値が1の場合、表示判定部は、3D_combi_info_descriptorを参照して、ストリーム構成を特定する。トランスポートストリームのストリーム構成がMPEG2 + MVC(Base) +MVC(Dependent)である場合、MPEG2 + MVC(Base) +MVC(Dependent)のストリームをデコードして左目画像データ、右目画像データの組みを得る。
 トランスポートストリームのストリーム構成がMPEG2 + AVC + AVCである場合、MPEG2 + AVC + AVCのストリームをデコードして左目画像データ、右目画像データの組みを得る。
 再生方式がフレーム互換方式である場合、3D_system_info_descriptorの2D_independent_flagを参照し、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを判定する。2D_independent_flagの値が0の場合、2D/SBSのストリームをデコードして左目画像データ、右目画像データの組みを得る。
 2D_independent_flagの値が1の場合、2D + SBSのストリームをデコードして左目画像データ、右目画像データの組みを得る。frame_packing_arrangement_typeがSide-by-Side形式である場合、左右に存在する左目用画像、右目用画像をクロップアウトすることで、3D再生を行う。frame_packing_arrangement_typeがSide-by-Side形式でない場合、TopBottom方式と特定し、上下に存在する左目用画像、右目用画像をクロップアウトすることで、3D再生を行う。
 以上の判定で特定されたストリーム構成に従い、ビデオストリームをデコードすることにより、左目画像データ、右目画像データが得られることになる。
 (立体視映像コンテンツの範囲)
 各実施の形態において、奥行き調整の対象となる立体視映像コンテンツは、光ディスク、半導体メモリーカード等、あらゆるパッケージメディアに記録されるコンテンツとなる。本実施の形態の記録媒体は予め必要なデータが記録された光ディスク(例えばBD-ROM、DVD-ROMなどの既存の読み取り可能な光ディスク)を例に説明をしたが、これに限定される必要はなく、例えば、放送またはネットワークを経由して配信された本発明の実施に必要なデータを含んだ立体視映像コンテンツであってもよい。
 光ディスクへ書き込む機能を有する端末装置(例えば左記の機能は再生装置に組み込まれていても良いし、再生装置とは別の装置であってもよい)を利用して書き込み可能な光ディスク(例えばBD-RE、DVD-RAMなどの既存の書き込み可能な光ディスク)に記録し、この記録した光ディスクのコンテンツを奥行き調整の対象にしても本発明の実施は可能である。
 奥行き調整の対象になるデータは、例えば電子配信を利用して、記録媒体に記録されたデータ、例えば記録媒体101に記録されたオリジナルのコンテンツに対応するデータ(例えば、ビデオストリーム、オーディオストリーム、字幕データ、字幕データ、背景画像、GUI、アプリケーション、アプリケーション管理テーブルなど)の全部若しくは一部(例えば再生に必要なデータのアップデートデータ)、または追加コンテンツを配信データであってもよい。
 奥行き調整の対象となるデータを、半導体メモリーとしてSDメモリーカードに記録する形態について説明する。再生装置が備えるスロットに挿入されたSDメモリーカードに配信データを記録する場合、まず配信データを蓄積する配信サーバ(図示せず)へ配信データの送信を要求する。このとき再生装置は挿入したSDメモリーカードを一意に識別するための識別情報(例えば個々のSDメモリーカード固有の識別番号、より具体的には、例えばSDメモリーカードのシリアル番号等)をSDメモリーカードから読み出して、読み出した識別情報を配信要求とともに、配信サーバへ送信する。
 この、SDメモリーカードを一意に識別するための識別情報は例えば上述のボリュームIDに相当する。
 一方、配信サーバでは、配信するデータのうち必要なデータ(例えばビデオストリーム、オーディオストリーム等)が暗号解読に必要な鍵(例えばタイトルキー)を用いて暗号の解除ができるように暗号化がなされてサーバ上に格納されている。
 例えば配信サーバは、秘密鍵を保持しており、半導体メモリーカードの固有の識別番号のそれぞれに対して異なる公開鍵情報が動的に生成できるように構成されている。
 また、配信サーバは、暗号化されたデータの解読に必要な鍵(タイトルキー)自身に対して暗号化ができるように構成されている(つまり暗号化タイトルキーを生成できるように構成されている)。
 生成される公開鍵情報は例えば上述のMKB、ボリュームID及び暗号化タイトルキーに相当する情報を含む。暗号化されたデータは例えば半導体メモリー固有の識別番号、後述する公開鍵情報に含まれる公開鍵本体、および再生装置に予め記録されたデバイスキーの組み合わせが正しければ、暗号解読に必要な鍵(例えばデバイスキー、MKB及び半導体メモリー固有の識別番号を元に、暗号化タイトルキーを復号して得られるタイトルキー)が得られ、この得られた暗号解読に必要な鍵(タイトルキー)を用いて、暗号化されたデータの解読ができるものである。
 次に、再生装置は、受信した公開鍵情報と配信データをスロットに挿入した半導体メモリーカードの記録領域に記録する。
 次に、半導体メモリーカードの記録領域に記録した公開鍵情報と配信データに含まれるデータのうち暗号化したデータを復号して再生する方法の一例について説明をする。 受信した公開鍵情報は例えば公開鍵本体(例えば上述のMKB及び暗号化タイトルキー)、署名情報、半導体メモリーカードの固有の識別番号、および無効にすべきデバイスに関する情報を示すデバイスリストが記録されている。
 署名情報には例えば、公開鍵情報のハッシュ値を含む。デバイスリストには例えば、不正に再生がなされる可能性があるデバイスに関する情報が記載されている。これは例えば再生装置に予め記録されたデバイスキー、再生装置の識別番号、または再生装置が備えるデコーダの識別番号といったように、不正に再生される可能性がある装置、装置に含まれる部品、または機能(プログラム)といったものを一意に特定するための情報である。
 半導体メモリーカードの記録領域に記録した配信データのうち、暗号化されたデータの再生に関し、説明をする。まず、公開鍵本体を利用して暗号化したデータを復号する前に復号鍵本体を機能させてよいかどうかに関するチェックを行う。具体的には、
(1) 公開鍵情報に含まれる半導体メモリー固有の識別情報と半導体メモリーカードに予め記憶されている固有の識別番号とが一致するかどうかのチェック
(2) 再生装置内で算出した公開鍵情報のハッシュ値と署名情報に含まれるハッシュ値が一致するかのチェック
(3) 公開鍵情報に含まれるデバイスリストに示される情報に基づいて、再生を行う再生装置が不正な再生が可能かどうかのチェック(例えば公開鍵情報に含まれるデバイスリストに示されるデバイスキーと、再生装置に予め記憶されたデバイスキーが一致するかどうかのチェック)
 を行なう。これらのチェックを行なう順番どのような順序で行なってもよい。
 上述の(1)~(3)のチェックにおいて、公開鍵情報に含まれる半導体メモリー固有の識別情報と半導体メモリーに予め記憶されている固有の識別番号とが一致しない、再生装置内で算出した公開鍵情報のハッシュ値と署名情報に含まれるハッシュ値が一致しない、または、再生を行う再生装置が不正に再生される可能性があると判断した、のいずれかを満足すれば、再生装置は、暗号化されたデータの解読がなされないように制御する。
 また、公開鍵情報に含まれる半導体メモリーカードの固有の識別情報と半導体メモリーカードに予め記憶されている固有の識別番号とが一致し、かつ再生装置内で算出した公開鍵情報のハッシュ値と署名情報に含まれるハッシュ値が一致し、かつ再生を行う再生装置が不正に再生される可能性がないと判断したのであれば、半導体メモリー固有の識別番号、公開鍵情報に含まれる公開鍵本体、および再生装置に予め記録されたデバイスキーの組み合わせが正しいと判断し、暗号解読に必要な鍵(デバイスキー、MKB及び半導体メモリー固有の識別番号を元に、暗号化タイトルキーを復号して得られるタイトルキー)を用いて、暗号化されたデータの解読を行なう。
 例えば暗号化されたデータがビデオストリーム、オーディオストリームである場合、ビデオデコーダは上述の暗号解読に必要な鍵(暗号化タイトルキーを復号して得られるタイトルキー)を利用してビデオストリームを復号し(デコードし)、オーディオデコーダは、上述の暗号解読に必要な鍵を利用してオーディオストリームを復号する(デコードする)。
 このように構成をすることにより、電子配信時において不正利用される可能性がある再生装置、部品、機能(プログラム)などが分っている場合、これらを識別するための情報をデバイスリストに示して、配信するようにすれば、再生装置側がデバイスリストに示されているものを含むような場合には公開鍵情報(公開鍵本体)を用いた復号を抑止できるようにできるため、半導体メモリー固有の識別番号、公開鍵情報に含まれる公開鍵本体、および再生装置に予め記録されたデバイスキーの組み合わせが、たとえ正しくても、暗号化されたデータの解読がなされないように制御できるため、不正な装置上での配信データの利用を抑止することが可能となる。
 また半導体メモリーカードに予め記録されている半導体メモリーカードの固有の識別子は秘匿性の高い記録領域に格納するような構成を採用するのが望ましい。何故ならば、半導体メモリーカードに予め記録されている固有の識別番号(例えばSDメモリーカードを例にすればSDメモリーカードのシリアル番号等)は改竄がなされると、違法コピーが容易になされてしまう。何故ならば複数の半導体メモリーカードには、それぞれ異なる固有の識別番号が割り当てられているが、この固有の識別番号が同一となるように改竄がなされてしまえば、上述の(1)の判定が意味を成さなくなり、改竄がなされた数に相当する違法コピーがなされてしまう可能性があるからである。従って、半導体メモリーカードの固有の識別番号といった情報は秘匿性が高い記録領域に記録するような構成を採用するのが望ましい。
 このような構成を実現するために、例えば半導体メモリーカードは、半導体メモリーカードの固有の識別子と言った秘匿性の高いデータを記録するための記録領域を通常のデータを格納する記録領域(第1の記録領域と称す)とは別の記録領域(第2の記録領域と称す)に設けること、およびこの第2の記録領域へのアクセスをするための制御回路を設けるとともに、第2の記録領域へのアクセスには制御回路を介してのみアクセスできるような構成とする。
 例えば、第2の記録領域に記録されているデータは暗号化がなされて、記録されており、制御回路は、例えば暗号化されたデータを復号するための回路が組み込まれている。制御回路へ第2の記録領域へのデータのアクセスが合った場合には、暗号を復号し、復号したデータを返すように構成すれば良い。または、制御回路は第2の記録領域に記録されているデータの格納場所の情報を保持しており、データのアクセスの要求があれば、対応するデータの格納場所を特定し、特定した格納場所から読み取ったデータを返すような構成としても良い。
 再生装置上で動作するアプリケーションで、電子配信を利用して半導体メモリーカードに記録する要求するアプリケーションは、メモリーカードI/Fを介して制御回路へ第2の記録領域に記録されたデータ(例えば半導体メモリ固有の識別番号)へのアクセス要求を発行すると、要求を受けた制御回路は第2の記録領域に記録されたデータを読み出して再生装置上で動作するアプリケーションへ返す。この半導体メモリーカードの固有の識別番号とともに必要なデータの配信要求を配信サーバに要求し、配信サーバから送られる公開鍵情報、および対応する配信データを第1の記録領域に記録するように構成すればよい。また再生装置上で動作するアプリケーションで、電子配信を利用して半導体メモリーカードに記録を要求するアプリケーションは、メモリーカードI/Fを介して制御回路へ第2の記録領域に記録されたデータ(例えば半導体メモリ固有の識別番号)へのアクセス要求を発行する前に、アプリケーションの改竄がされていないかを事前にチェックすることが望ましい。改竄のチェックには例えば既存のX.509仕様に準拠したデジタル証明書を利用したチェックなどを利用しても良い。また、半導体メモリーカードの第1の記録領域に記録された配信データへのアクセスは半導体メモリーカードが有する制御回路を介してアクセスする必要は必ずしもない。
  (集積回路の実施形態)
 各実施形態に示した再生装置のハードウェア構成のうち、記録媒体のドライブ部や、外部とのコネクタ等、機構的な部分を排除して、論理回路や記憶素子に該当する部分、つまり、論理回路の中核部分をシステムLSI化してもよい。システムLSIとは、高密度基板上にベアチップを実装し、パッケージングしたものをいう。複数個のベアチップを高密度基板上に実装し、パッケージングすることにより、あたかも1つのLSIのような外形構造を複数個のベアチップに持たせたものはマルチチップモジュールと呼ばれるが、このようなものも、システムLSIに含まれる。
 ここでパッケージの種別に着目するとシステムLSIには、QFP(クッド フラッド アレイ)、PGA(ピン グリッド アレイ)という種別がある。QFPは、パッケージの四側面にピンが取り付けられたシステムLSIである。PGAは、底面全体に、多くのピンが取り付けられたシステムLSIである。
 これらのピンは、電源供給やグランド、他の回路とのインターフェイスとしての役割を担っている。システムLSIにおけるピンには、こうしたインターフェイスの役割が存在するので、システムLSIにおけるこれらのピンに、他の回路を接続することにより、システムLSIは、再生装置の中核としての役割を果たす。
 (プログラムの実施形態)
 各実施形態に示したプログラムは、以下のようにして作ることができる。先ず初めに、ソフトウェア開発者は、プログラミング言語を用いて、各フローチャートや、機能的な構成要素を実現するようなソースプログラムを記述する。この記述にあたって、ソフトウェア開発者は、プログラミング言語の構文に従い、クラス構造体や変数、配列変数、外部関数のコールを用いて、各フローチャートや、機能的な構成要素を具現するソースプログラムを記述する。
 記述されたソースプログラムは、ファイルとしてコンパイラに与えられる。コンパイラは、これらのソースプログラムを翻訳してオブジェクトプログラムを生成する。
 コンパイラによる翻訳は、構文解析、最適化、資源割付、コード生成といった過程からなる。構文解析では、ソースプログラムの字句解析、構文解析および意味解析を行い、ソースプログラムを中間プログラムに変換する。最適化では、中間プログラムに対して、基本ブロック化、制御フロー解析、データフロー解析という作業を行う。資源割付では、ターゲットとなるプロセッサの命令セットへの適合を図るため、中間プログラム中の変数をターゲットとなるプロセッサのプロセッサが有しているレジスタまたはメモリに割り付ける。コード生成では、中間プログラム内の各中間命令を、プログラムコードに変換し、オブジェクトプログラムを得る。
 ここで生成されたオブジェクトプログラムは、各実施形態に示したフローチャートの各ステップや、機能的構成要素の個々の手順を、コンピュータに実行させるような1つ以上のプログラムコードから構成される。ここでプログラムコードは、プロセッサのネィティブコード、JAVA(登録商標)バイトコードというように、様々な種類がある。プログラムコードによる各ステップの実現には、様々な態様がある。外部関数を利用して、各ステップを実現することができる場合、この外部関数をコールするコール文が、プログラムコードになる。また、1つのステップを実現するようなプログラムコードが、別々のオブジェクトプログラムに帰属することもある。命令種が制限されているRISCプロセッサでは、算術演算命令や論理演算命令、分岐命令等を組合せることで、フローチャートの各ステップを実現してもよい。
 オブジェクトプログラムが生成されるとプログラマはこれらに対してリンカを起動する。リンカはこれらのオブジェクトプログラムや、関連するライブラリプログラムをメモリ空間に割り当て、これらを1つに結合して、ロードモジュールを生成する。こうして生成されるロードモジュールは、コンピュータによる読み取りを前提にしたものであり、各フローチャートに示した処理手順や機能的な構成要素の処理手順を、コンピュータに実行させるものである。かかるコンピュータプログラムを非一時的なコンピュータ読取可能な記録媒体に記録してユーザに提供してよい。
 (ラインスキャン回路による実現性)
 またDIBRをラインスキャン回路で実現することができる。ラインスキャン回路とは、フレームメモリに格納された一画面分の画素(1920×1080)の集りを横1920画素ずつ読み出してデジタル映像信号に変換するハードウェア素子である。かかるラインスキャン回路は、1行分の画素データを格納しうるライン画素メモリと、フィルタ回路、パラレル/シリアル変換を行う変換回路によって実現することができる。上述したようにDIBRは、デプス画像の個々の画素の輝度を視差に変換して画素のシフトを行う処理である。ラインメモリに読み出された全周囲画像の一ライン分の画素の座標を、全周囲画像に対するデプス画像における対応するラインの奥行きに応じた画素数だけ横方向に移動すれば、デプス画像における個々の示される奥行きをもたらす他視点からの視点映像を作成することができる。
 本発明は、立体視映像、もしくはストリームから所得した立体視映像を再生する再生装置または立体視映像もしくは立体視映像を表示する表示装置に適用可能である。
     1  ネットワークインターフェイス
        19 機器間インターフェイス
    18  UO検知モジュール
    16  表示対象デバイスプロパティ保存モジュール
    15  コンテンツプロパティ保存モジュール
    17  奥行き調整判定モジュール
    23  通信情報作成モジュール
    20  パーサー
    24  性能比較モジュール
    25  応答情報作成モジュール
   100  映像再生装置
   200  大型テレビ
   300  中型テレビ
   400  携帯端末
 

Claims (11)

  1.  2以上の視点映像データの送受信を行うのと共に、2以上の視点映像データから構成される立体視映像の奥行きを調整する映像処理装置であって、
     2以上の視点映像データの送受信を行う際、データ送受信の相手側となる装置との接続を行う機器間インターフェイスと、
     データ送受信の相手側となる装置と、自装置との間で所定の通信シーケンスを実行することにより、どちらの装置が立体視映像における奥行きを調整するかを決定する決定手段と、
     通信シーケンスにより奥行き調整を自装置側で行うと決定した場合、データ送受信の相手側から送出された2以上の視点映像データ、又は、データ送受信の相手側に送出すべき2以上の視点映像データに対して奥行き調整を施す処理手段とを備え、
      前記奥行き調整は、
     1の視点映像データを構成する画素群とマッチングするマッチング画素群を他の視点映像データから探索して、1の視点映像データを構成する画素群と、他の視点映像データを構成する画素群との間の視差を検出する処理を含み、 
     前記通信シーケンスは、
     自装置と、データ送受信の相手側との間で、マッチング画素群の探索性能を示す性能情報の送受信を行う送受信フェーズと、自装置におけるマッチング画素群の探索性能と、データ送受信の相手側におけるマッチング画素群の探索性能との比較を行う比較フェーズとを含む
     ことを特徴とする映像処理装置。
  2.  前記奥行き調整は、検出された視差に基づいてデプス画像を生成して、2以上の視点映像データが表示されるべき画面に応じてデプス画像の補正を行い、補正が施されたデプス画像をベースにしたデプスイメージベースドレンダリングを、1の視点映像に対して施すことにより、修正された視差を有する2以上の視点映像を得る処理を含む
     ことを特徴とする請求項1記載の映像処理装置。
  3. 個々の機器による奥行き調整におけるマッチング画素群の探索には、複数のレベルがあり、
     第1レベルは、1の視点映像に対して画像認識を行い、視点映像データに対する画像認識で得られたオブジェクトをマッチング画素群とするレベルであり、
     第2レベルは、1つの視点映像データを走査することでマッチング画素群を探索するレベルであり、
     前記性能情報は、データ送受信の相手側となる装置又は自装置によるマッチング画素群探索が、第1レベル、第2レベルの何れであるかを示し、
     前記通信シーケンスにおける決定フェーズは、データ送受信の相手側となる装置と、自装置とでマッチング画素群の探索レベルが同一かどうかを判定して、もし異なるなら、データ送受信の相手側となる装置及び自装置のうち探索レベルが高い側を奥行き調整主体として決定する
     ことを特徴とする請求項1記載の映像処理装置。
  4.  データ送受信の相手側となる装置及び自装置による奥行き調整におけるマッチング画素群の探索は、その探索範囲が異なり、
     性能情報は、データ送受信の相手側となる装置又は自装置によるマッチング画素群探索の探索範囲を画素数を用いて示し、
     前記通信シーケンスにおける決定フェーズは、データ送受信の相手側となる装置と、自装置とでマッチング画素群の探索レベルが同一かであるなら、データ送受信の相手側となる装置及び自装置のうち、探索範囲が広い側のものを奥行き調整主体として決定する
     ことを特徴とする請求項3記載の映像処理装置。
  5.  第2のレベルには、ブロックマッチングによりマッチング画素群の探索を行うものと、セミグローバルマッチングによりマッチング画素群の探索を行うものとがあり、
     前記セミグローバルマッチングによるマッチング画素群の探索は、ブロックマッチングによるマッチング画素群の探索よりもレベルが高い
     ことを特徴とする請求項4記載の映像処理装置。
  6. 前記映像処理装置は、表示装置であり、
     前記データ送受信の相手側となる装置は、立体視撮影部を具備した携帯機器であり、
     前記2以上の視点映像データは、立体視撮影部により得られた左目写真データ、右目写真データである
     ことを特徴とする請求項1記載の映像処理装置。
  7. 前記映像処理装置は、表示装置であり、
     前記データ送受信の相手側となる装置は、記録媒体に記録された立体視映像コンテンツを再生する再生装置であり、
     前記2以上の視点映像データは、再生装置が記録媒体に記録された立体視映像コンテンツを再生することで得られる
     ことを特徴とする請求項1記載の映像処理装置。
  8. 前記映像処理装置は、記録媒体に記録された立体視映像コンテンツを再生する再生装置であり、
     データ送受信の相手側となる装置は、表示装置であり、
     前記2以上の視点映像データは、再生装置が記録媒体に記録された立体視映像コンテンツを再生することで得られる
     ことを特徴とする請求項1記載の映像処理装置。
  9. 2以上の映像処理装置から構成されるシステムであって、
     各映像処理装置は、2以上の視点映像データを送受信すると共に、2以上の視点映像データから構成される立体視映像の奥行きを調整するものであり、
     各映像処理装置は、
     2以上の視点映像データの送受信を行う際、データ送受信の相手側となる装置との接続を行う機器間インターフェイスと、
     データ送受信の相手側となる装置と、自装置との間で所定の通信シーケンスを実行することにより、どちらの装置が立体視映像における奥行きを調整するかを決定する決定手段と、
     通信シーケンスにより奥行き調整を自装置側で行うと決定した場合、データ送受信の相手側から送出された2以上の視点映像データ、又は、データ送受信の相手側に送出すべき2以上の視点映像データに対して奥行き調整を施す処理手段とを備え、
      前記奥行き調整は、
     1の視点映像データを構成する画素群とマッチングするマッチング画素群を他の視点映像データから探索して、1の視点映像データを構成する画素群と、他の視点映像データを構成する画素群との間の視差を検出する処理を含み、 
     前記通信シーケンスは、
     自装置と、データ送受信の相手側との間で、マッチング画素群の探索性能を示す性能情報の送受信を行う送受信フェーズと、自装置におけるマッチング画素群の探索性能と、データ送受信の相手側におけるマッチング画素群の探索性能との比較を行う比較フェーズとを含む
     ことを特徴とするシステム。
  10.  2以上の視点映像データの送受信を行うのと共に、2以上の視点映像データから構成される立体視映像の奥行きを調整する映像処理方法であって、
     2以上の視点映像データの送受信を行う際、データ送受信の相手側となる機器との接続を行う機器間接続ステップと、
     データ送受信の相手側となる機器と、自機器との間で所定の通信シーケンスを実行することにより、どちらの機器が立体視映像における奥行きを調整するかを決定する決定ステップと、
     通信シーケンスにより奥行き調整を自機側で行うと決定した場合、データ送受信の相手側から送出された2以上の視点映像データ、又は、データ送受信の相手側に送出すべき2以上の視点映像データに対して奥行き調整を施す処理ステップとを含み、
      前記奥行き調整は、
     1の視点映像データを構成する画素群とマッチングするマッチング画素群を他の視点映像データから探索して、1の視点映像データを構成する画素群と、他の視点映像データを構成する画素群との間の視差を検出する処理を含み、 
     前記通信シーケンスは、
     自機と、データ送受信の相手側との間で、マッチング画素群の探索性能を示す性能情報の送受信を行う送受信フェーズと、自機におけるマッチング画素群の探索性能と、データ送受信の相手側におけるマッチング画素群の探索性能との比較を行う比較フェーズとを含む
     ことを特徴とする映像処理方法。
  11.  2以上の視点映像データの送受信を行うのと共に、2以上の視点映像データから構成される立体視映像の奥行きを調整する処理を機器内蔵のコンピュータに実行させる映像処理プログラムであって、
     2以上の視点映像データの送受信を行う際、データ送受信の相手側となる機器との接続を行う機器間接続ステップと、
     データ送受信の相手側となる機器と、自機器との間で所定の通信シーケンスを実行することにより、どちらの機器が立体視映像における奥行きを調整するかを決定する決定ステップと、
     通信シーケンスにより奥行き調整を自機側で行うと決定した場合、データ送受信の相手側から送出された2以上の視点映像データ、又は、データ送受信の相手側に送出すべき2以上の視点映像データに対して奥行き調整を施す処理ステップとをコンピュータに実行させ
      前記奥行き調整は、
     1の視点映像データを構成する画素群とマッチングするマッチング画素群を他の視点映像データから探索して、1の視点映像データを構成する画素群と、他の視点映像データを構成する画素群との間の視差を検出する処理を含み、 
     前記通信シーケンスは、
     自機と、データ送受信の相手側との間で、マッチング画素群の探索性能を示す性能情報の送受信を行う送受信フェーズと、自機におけるマッチング画素群の探索性能と、データ送受信の相手側におけるマッチング画素群の探索性能との比較を行う比較フェーズとを含む
     ことを特徴とする映像処理プログラム。
PCT/JP2012/002143 2011-03-31 2012-03-28 立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム WO2012132424A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2012800009908A CN102823264A (zh) 2011-03-31 2012-03-28 能够变更立体视觉影像的进深的影像处理装置、系统、影像处理方法、影像处理程序
US13/576,493 US20130070052A1 (en) 2011-03-31 2012-03-28 Video procesing device, system, video processing method, and video processing program capable of changing depth of stereoscopic video images
JP2012542264A JPWO2012132424A1 (ja) 2011-03-31 2012-03-28 立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011079004 2011-03-31
JP2011-079004 2011-03-31

Publications (1)

Publication Number Publication Date
WO2012132424A1 true WO2012132424A1 (ja) 2012-10-04

Family

ID=46930198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/002143 WO2012132424A1 (ja) 2011-03-31 2012-03-28 立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム

Country Status (4)

Country Link
US (1) US20130070052A1 (ja)
JP (1) JPWO2012132424A1 (ja)
CN (1) CN102823264A (ja)
WO (1) WO2012132424A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150134911A (ko) * 2014-05-23 2015-12-02 삼성전자주식회사 영상 디스플레이 장치 및 영상 디스플레이 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8897546B2 (en) * 2011-09-29 2014-11-25 Texas Instruments Incorporated Semi-global stereo correspondence processing with lossless image decomposition
JP5303692B1 (ja) * 2011-11-28 2013-10-02 パナソニック株式会社 立体画像処理装置及び立体画像処理方法
KR102130123B1 (ko) * 2013-10-31 2020-07-03 삼성전자주식회사 다시점 영상 디스플레이 장치 및 그 제어 방법
TWI610250B (zh) * 2015-06-02 2018-01-01 鈺立微電子股份有限公司 監測系統及其操作方法
CN107995482B (zh) * 2016-10-26 2021-05-14 腾讯科技(深圳)有限公司 视频文件的处理方法和装置
JP7159057B2 (ja) * 2017-02-10 2022-10-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 自由視点映像生成方法及び自由視点映像生成システム
US10810255B2 (en) * 2017-09-14 2020-10-20 Avigilon Corporation Method and system for interfacing with a user to facilitate an image search for a person-of-interest
WO2020087195A1 (zh) * 2018-10-29 2020-05-07 陈台国 一种全像显示系统及形成全像的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004180069A (ja) * 2002-11-28 2004-06-24 Seijiro Tomita 立体映像信号生成回路及び立体映像表示装置
JP2005073049A (ja) * 2003-08-26 2005-03-17 Sharp Corp 立体映像再生装置および立体映像再生方法
JP2010098479A (ja) * 2008-10-15 2010-04-30 Sony Corp 表示装置、表示方法及び表示システム
JP2010206774A (ja) * 2009-02-05 2010-09-16 Fujifilm Corp 3次元画像出力装置及び方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003018619A (ja) * 2001-07-03 2003-01-17 Olympus Optical Co Ltd 立体映像評価装置およびそれを用いた表示装置
WO2004049734A1 (ja) * 2002-11-28 2004-06-10 Seijiro Tomita 立体映像信号生成回路及び立体映像表示装置
CN101272511B (zh) * 2007-03-19 2010-05-26 华为技术有限公司 图像深度信息和图像像素信息的获取方法及装置
US8866971B2 (en) * 2007-12-17 2014-10-21 Ati Technologies Ulc Method, apparatus and machine-readable medium for apportioning video processing between a video source device and a video sink device
JP5469911B2 (ja) * 2009-04-22 2014-04-16 ソニー株式会社 送信装置および立体画像データの送信方法
JP2011035592A (ja) * 2009-07-31 2011-02-17 Nintendo Co Ltd 表示制御プログラムおよび情報処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004180069A (ja) * 2002-11-28 2004-06-24 Seijiro Tomita 立体映像信号生成回路及び立体映像表示装置
JP2005073049A (ja) * 2003-08-26 2005-03-17 Sharp Corp 立体映像再生装置および立体映像再生方法
JP2010098479A (ja) * 2008-10-15 2010-04-30 Sony Corp 表示装置、表示方法及び表示システム
JP2010206774A (ja) * 2009-02-05 2010-09-16 Fujifilm Corp 3次元画像出力装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150134911A (ko) * 2014-05-23 2015-12-02 삼성전자주식회사 영상 디스플레이 장치 및 영상 디스플레이 방법
KR102192986B1 (ko) 2014-05-23 2020-12-18 삼성전자주식회사 영상 디스플레이 장치 및 영상 디스플레이 방법

Also Published As

Publication number Publication date
CN102823264A (zh) 2012-12-12
US20130070052A1 (en) 2013-03-21
JPWO2012132424A1 (ja) 2014-07-24

Similar Documents

Publication Publication Date Title
WO2012132424A1 (ja) 立体視映像の奥行きを変更することができる映像処理装置、システム、映像処理方法、映像処理プログラム
JP6365635B2 (ja) 画像処理装置および画像処理方法
JP5519647B2 (ja) カメラ・パラメータを利用したステレオスコピック映像データ・ストリーム生成方法及びその装置、
KR101863767B1 (ko) 의사-3d 인위적 원근법 및 장치
US8878836B2 (en) Method and apparatus for encoding datastream including additional information on multiview image and method and apparatus for decoding datastream by using the same
WO2012017643A1 (ja) 符号化方法、表示装置、及び復号方法
CN110100435B (zh) 生成装置、识别信息生成方法、再现装置和图像再现方法
WO2012111756A1 (ja) 画像処理装置および画像処理方法
US9235749B2 (en) Image processing device and image processing method
RU2552137C2 (ru) Точки входа для ускоренного 3d-воспроизведения
JP2006352877A (ja) 映像ディスプレイモードの転換方法及び装置
WO2012111757A1 (ja) 画像処理装置および画像処理方法
JPWO2003092304A1 (ja) 画像データ生成装置、画像データ再生装置、および画像データ記録媒体
JP6206559B2 (ja) 復号装置、復号方法、プログラム、および記録媒体
TW201105105A (en) Method and system for transmitting over a video interface and for compositing 3D video and 3D overlays
US20130141534A1 (en) Image processing device and method
JPWO2012128069A1 (ja) 画像処理装置および画像処理方法
RU2767300C2 (ru) Высокоуровневая передача служебных сигналов для видеоданных типа "рыбий глаз"
WO2012111755A1 (ja) 画像処理装置および画像処理方法
WO2012029883A1 (ja) 符号化装置および符号化方法、並びに復号装置および復号方法
JP2012134893A (ja) 受信装置
US20120098944A1 (en) 3-dimensional image display apparatus and image display method thereof
JP2014022947A (ja) 立体視映像伝送装置、立体視映像伝送方法及び立体視映像処理装置
JP2012049932A (ja) 受信装置
JP2004166195A (ja) 画像データ生成装置、画像データ再生装置、画像データ生成方法、画像データ再生方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280000990.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 13576493

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2012542264

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12763294

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12763294

Country of ref document: EP

Kind code of ref document: A1