WO2012063675A1 - 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置 - Google Patents

立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置 Download PDF

Info

Publication number
WO2012063675A1
WO2012063675A1 PCT/JP2011/075134 JP2011075134W WO2012063675A1 WO 2012063675 A1 WO2012063675 A1 WO 2012063675A1 JP 2011075134 W JP2011075134 W JP 2011075134W WO 2012063675 A1 WO2012063675 A1 WO 2012063675A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image data
data
stereoscopic image
depth information
Prior art date
Application number
PCT/JP2011/075134
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN2011800376067A priority Critical patent/CN103053166A/zh
Priority to KR1020127016950A priority patent/KR20130132240A/ko
Priority to US13/519,355 priority patent/US20130215222A1/en
Priority to BR112012016322A priority patent/BR112012016322A2/pt
Priority to EP11840564A priority patent/EP2506580A1/en
Publication of WO2012063675A1 publication Critical patent/WO2012063675A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/025Systems for the transmission of digital non-picture data, e.g. of text during the active part of a television frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Definitions

  • the present invention relates to a stereoscopic image data transmitting apparatus, a stereoscopic image data transmitting method, and a stereoscopic image data receiving apparatus, and more particularly to a stereoscopic image data transmitting apparatus that can satisfactorily display graphics information such as OSD on the receiving side.
  • Patent Document 1 proposes a transmission method using a television broadcast radio wave of stereoscopic image data.
  • stereoscopic image data including left-eye image data and right-eye image data is transmitted, and stereoscopic image display using binocular parallax is performed in the television receiver.
  • FIG. 35 shows the relationship between the display position of the left and right images of an object (object) on the screen and the playback position of the stereoscopic image in stereoscopic image display using binocular parallax.
  • the right and left line of sight intersects in front of the screen surface.
  • the position is in front of the screen surface.
  • DPa represents a horizontal disparity vector (disparity information) related to the object A.
  • the right and left lines of sight intersect on the screen surface.
  • Upper that is, the monitor position.
  • the left image Lc is shifted to the left side and the right image Rc is shifted to the right side, the right and left lines of sight intersect at the back of the screen surface.
  • the playback position is behind the screen.
  • DPc represents a horizontal disparity vector related to the object C.
  • stereoscopic image display it is common for a viewer to recognize the perspective of a stereoscopic image using binocular parallax.
  • Superimposition information to be superimposed on an image for example, graphics information such as OSD (On Screen Display) can be rendered in conjunction with stereoscopic image display not only in two-dimensional space but also in three-dimensional depth. Be expected.
  • OSD On Screen Display
  • stereoscopic image surface a surface of an object (object) in the closest image (hereinafter referred to as “stereoscopic image surface”) in terms of perspective. Otherwise, the viewer may feel a contradiction in perspective.
  • graphics information such as OSD is superimposed on an image, it is expected that parallax adjustment is performed according to the perspective of each object in the image to maintain perspective consistency.
  • An object of the present invention is to maintain perspective consistency with each object in an image in displaying superimposition information in displaying a stereoscopic image, for example, graphics information such as OSD.
  • the concept of this invention is An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image; A depth information output unit that outputs depth information corresponding to the stereoscopic image; A transmission unit for transmitting the image data and the depth information, The depth information includes division information of the image display surface and depth information of each divided area, The transmission unit is in a stereoscopic image data transmission apparatus that transmits a multiplexed data stream including a data stream including the image data, and inserts a descriptor including the depth information into the multiplexed data stream.
  • the image data output unit outputs left-eye image data and right-eye image data constituting a stereoscopic image. Further, the depth information output unit outputs depth information corresponding to the stereoscopic image. Then, the image data and the depth information are transmitted by the transmission unit.
  • This depth information includes division information of the image display surface and depth information of each divided region.
  • the depth information may be image plane information indicating whether or not a stereoscopic image plane (the closest object plane in terms of perspective in the image) is in front of the monitor position.
  • the image plane information may be, for example, code information constituting disparity information (disparity vector) of the left eye image and the right eye image. When the sign of the parallax information is negative, it can be seen that the stereoscopic image plane is in front of the monitor position.
  • the depth information is image plane information indicating whether or not a stereoscopic image plane is in front of the monitor position, or parallax information between the image plane information, the left eye image, and the right eye image. May include flag information indicating the presence of disparity information.
  • the depth information is code information constituting disparity information, or absolute value information constituting this code information and disparity information. In this case, code information of parallax information constitutes image plane information.
  • the parallax information is included, so that on the receiving side, not only whether or not the position of the stereoscopic image plane is in front of the monitor position, but also the position can be grasped in more detail. It becomes possible. Further, since the flag information is inserted, it is possible to selectively transmit only the image plane information or both the screen information and the parallax information as the depth information.
  • the division information may include information indicating the division type and information indicating the number of divisions. As described above, since the division information is composed of two pieces of information, it is possible to specify a larger number of division patterns with a small number of information.
  • the division type includes a division type that divides the image display surface using diagonal lines. Further, for example, the division type includes a division type in which the image display surface is divided using horizontal lines and / or vertical lines.
  • a multiplexed data stream having a data stream including image data is transmitted.
  • a descriptor including depth information is inserted into this multiplexed data stream.
  • the multiplexed data stream includes a program map table as program specific information indicating which program each elementary stream included in the multiplexed data stream belongs to. Are inserted under the program map table.
  • descriptors are sequentially transmitted during the program period, and the depth information can be dynamically changed during the program period.
  • the multiplexed data stream includes an event information table as service information for managing each event, and the descriptor is inserted under this event information table.
  • the descriptor is transmitted at the beginning of the program, and the depth information is fixed during the program period.
  • the depth information corresponding to the stereoscopic image is transmitted together with the left eye image data and the right eye image data constituting the stereoscopic image. Therefore, on the receiving side, by using depth information, parallax adjustment is performed according to the perspective of each object in the image as superimposition information superimposed on the left eye image and the right eye image, for example, graphics information such as OSD. Can be used. Thereby, for example, in the display of graphics information such as OSD, it is possible to maintain perspective consistency with each object in the image.
  • the depth information includes division information of the image display surface and depth information of each divided region, and is included in a descriptor inserted into a multiplexed data stream having a data stream including stereoscopic image data. Included and sent. That is, it is possible to easily transmit the depth information to the receiving side.
  • the transmission unit inserts the descriptor into the multiplexed data stream in correspondence with the start time of each predetermined period of the image data, and in the multiplexed data stream in correspondence with the start time of each period.
  • the inserted descriptor may include depth information in a period after the period.
  • the disparity information used when providing disparity between the left eye superimposition information and the right eye superimposition information in each period is included in the depth information of the period and periods before and after the period.
  • a descriptor that includes a data stream including left-eye image data and right-eye image data constituting a stereoscopic image, and includes depth information including division information on the image display surface and depth information of each divided region corresponding to the stereoscopic image data.
  • a receiver for receiving the multiplexed data stream into which is inserted; Output data of left eye superimposition information corresponding to the left eye image data acquired from the multiplexed data stream and data of right eye superimposition information corresponding to the right eye image data acquired from the multiplexed data stream.
  • a superimposition information data output unit A data superimposing unit that superimposes the data of the left eye superimposition information and the data of the right eye superimposition information on the left eye image data and the right eye image data acquired from the multiplexed data stream;
  • the superimposition information data output unit is in a stereoscopic image data receiving apparatus that gives a parallax between the left eye superimposition information and the right eye superimposition information based on the depth information acquired from the multiplexed data stream.
  • the reception unit receives a multiplexed data stream having a data stream including left eye image data and right eye image data.
  • a descriptor including depth information including division information on the image display surface and depth information of each divided area corresponding to the stereoscopic image data is inserted.
  • this descriptor is inserted under a program map table or an event information table.
  • the superimposition information data output unit outputs left eye superimposition information data corresponding to left eye image data and right eye superimposition information data corresponding to right eye image data. Then, the data superimposing unit superimposes the data of the left eye superimposition information and the data of the right eye superimposition information on the left eye image data and the right eye image data obtained from the multiplexed data stream. Thereby, graphics information such as OSD can be superimposed and displayed on the stereoscopic image.
  • parallax is given between the left eye superimposition information and the right eye superimposition information based on the depth information acquired from the multiplexed data stream. For this reason, in the present invention, it is possible to maintain perspective consistency with each object in the image, for example, in displaying graphics information such as OSD.
  • the superimposition information data output unit adds a parallax between the left eye superimposition information and the right eye superimposition information based on the parallax information included in the depth information
  • a new descriptor is generated in the reception unit. Is received, and when there is an update of the disparity information, the disparity information obtained by the interpolation process is used between the plurality of frames so that the new disparity information is reached over a plurality of frames.
  • the time direction (frame direction) change of the parallax information used for parallax provision can be made smooth, and the parallax to be given to the left-eye and right-eye graphics information changes abruptly, causing the viewer to feel uncomfortable. This can be suppressed.
  • a descriptor is inserted corresponding to the start time of each predetermined period of the image data, and inserted into the multiplexed data stream corresponding to the start time of each period.
  • the included descriptor includes depth information for a period after the period, and the superimposition information data output unit applies parallax between the left eye superimposition information and the right eye superimposition information for each period.
  • the disparity information obtained by the interpolation process using the disparity information included in the depth information of the period and periods before and after the period may be used.
  • the time direction (frame direction) change of the parallax information used for parallax provision can be made smooth, that is, the update curve of the parallax information used for parallax provision can be smoothed, and the left eye and right eye graphics information It is possible to suppress the parallax to be given to the viewer from changing abruptly and causing the viewer to feel uncomfortable.
  • a descriptor that includes a data stream including left-eye image data and right-eye image data constituting a stereoscopic image, and includes depth information including division information on the image display surface and depth information of each divided region corresponding to the stereoscopic image data.
  • a receiver for receiving the multiplexed data stream into which is inserted;
  • a transmission unit that transmits the left-eye image data and the right-eye image data acquired from the multiplexed data stream received by the reception unit and the depth information to an external device via a transmission path;
  • the stereoscopic image data receiving device is provided.
  • the reception unit receives a multiplexed data stream having a data stream including left eye image data and right eye image data.
  • a descriptor including depth information including division information on the image display surface and depth information of each divided area corresponding to the stereoscopic image data is inserted.
  • this descriptor is inserted under a program map table or an event information table.
  • the transmission unit transmits the left-eye image data and right-eye image data acquired from the multiplexed data stream received by the reception unit, and the depth information to the external device via the transmission path.
  • the image data is transmitted to the external device via a transmission path using a differential signal with a plurality of channels, and the depth information is inserted into the blanking period of the image data and transmitted to the external device. Is done.
  • the depth information corresponding to the stereoscopic image is transmitted to the external device via the transmission path together with the left-eye image data and the right-eye image data constituting the stereoscopic image. Therefore, in an image display apparatus such as an external device such as a television receiver, each object in the image is used as superimposition information superimposed on the left eye image and right eye image, for example, graphics information such as OSD, by using depth information.
  • graphics information such as OSD
  • disparity is given to the OSD graphics information of the left eye and the right eye using the disparity information (representative) of the divided region corresponding to the superimposed display position. It is a figure which shows what can be done. It is a figure which shows the structural example (case1) of the multiplexed data stream under which PMT, ie, the descriptor (z-Surface
  • HDMI transmission part HDMI source
  • HDMI receiving part HDMI sink
  • FIG. 1 It is a block diagram which shows the structural example of an HDMI transmission part (HDMI source) and an HDMI receiving part (HDMI sink).
  • HDMI transmission part HDMI source
  • HDMI receiving part HDMI sink
  • FIG. 1 shows the example of a structure of TMDS transmission data (when the image data of horizontal x length is 1920 pixels x 1080 lines is transmitted).
  • FIG. 1 shows the pin arrangement (type A) of the HDMI terminal to which the HDMI cable of the source device and the sink device is connected.
  • FIG. 1 shows a configuration example of a stereoscopic image display system 10 as an embodiment.
  • the stereoscopic image display system 10 includes a broadcasting station 100, a set top box (STB) 200, and a television receiver (TV) 300.
  • STB set top box
  • TV television receiver
  • the set top box 200 and the television receiver 300 are connected via an HDMI (High Definition Multimedia Interface) cable 400.
  • the set top box 200 is provided with an HDMI terminal 202.
  • the television receiver 300 is provided with an HDMI terminal 302.
  • One end of the HDMI cable 400 is connected to the HDMI terminal 202 of the set top box 200, and the other end of the HDMI cable 400 is connected to the HDMI terminal 302 of the television receiver 300.
  • the broadcasting station 100 transmits the bit stream data BSD on a broadcast wave.
  • the broadcast station 100 includes a transmission data generation unit 110 that generates bit stream data BSD.
  • the bit stream data BSD includes image data, audio data, depth information, and the like.
  • the image data (hereinafter referred to as “stereoscopic image data” as appropriate) includes left-eye image data and right-eye image data constituting a stereoscopic image.
  • the audio data is audio data corresponding to this stereoscopic image.
  • the depth information corresponds to the stereoscopic image, and includes division information on the image display surface and depth information on each divided area.
  • FIG. 2 shows a configuration example of the transmission data generation unit 110 that generates transmission data in the broadcast station 100.
  • the transmission data generation unit 110 includes cameras 111L and 111R, a video framing unit 112, a disparity map generation unit 113, a microphone 114, a data extraction unit 115, and changeover switches 116 to 118.
  • the transmission data generation unit 110 includes a video encoder 119, an audio encoder 120, a depth information set creation unit 122, and a multiplexer 126.
  • the camera 111L captures a left eye image and obtains left eye image data for stereoscopic image display.
  • the camera 111R captures the right eye image and obtains right eye image data for stereoscopic image display.
  • the video framing unit 112 processes the left eye image data obtained by the camera 111L and the right eye image data obtained by the camera 111R into stereoscopic image data (3D image data) corresponding to the transmission format.
  • the video framing unit 112 constitutes an image data output unit.
  • the first transmission method is a top-and-bottom method. As shown in FIG. 4A, in the first half of the vertical direction, the data of each line of the left eye image data is transmitted, and the vertical direction In the latter half of the method, the data of each line of the left eye image data is transmitted. In this case, since the lines of the left eye image data and the right eye image data are thinned out to 1 ⁇ 2, the vertical resolution is halved with respect to the original signal.
  • the second transmission method is a side-by-side (Side By Side) method.
  • pixel data of the left eye image data is transmitted, and in the second half in the horizontal direction.
  • the pixel data of the right eye image data is transmitted.
  • the pixel data in the horizontal direction is thinned out to 1/2.
  • the horizontal resolution is halved with respect to the original signal.
  • the third transmission method is a frame sequential method in which left-eye image data and right-eye image data are sequentially switched and transmitted for each frame as shown in FIG.
  • This frame sequential method may be referred to as a full frame method or a backward compatible method.
  • the disparity map generation unit 113 detects disparity information (disparity vector) for each pixel constituting the image based on the left eye image data and the right eye image data, for example, Create a map.
  • the disparity information includes code information and absolute value information. For example, the sign of the disparity information of a pixel perceived before the monitor position is negative, and the sign of the disparity information of a pixel perceived behind the monitor position is positive. In addition, the absolute value of the parallax information increases as the pixel is perceived further away from the monitor position.
  • disparity vector detection An example of disparity vector detection will be described.
  • an example in which the parallax vector of the right eye image with respect to the left eye image is detected will be described.
  • the left eye image is a detected image
  • the right eye image is a reference image.
  • the disparity vectors at the positions (xi, yi) and (xj, yj) are detected.
  • a case where a disparity vector at the position of (xi, yi) is detected will be described as an example.
  • a 4 ⁇ 4, 8 ⁇ 8, or 16 ⁇ 16 pixel block (parallax detection block) Bi is set in the left eye image with the pixel at the position (xi, yi) at the upper left. Then, a pixel block matching the pixel block Bi is searched in the right eye image.
  • a search range centered on the position of (xi, yi) is set in the right eye image, and each pixel in the search range is sequentially set as a pixel of interest, for example, 4 ⁇ 4 similar to the above-described pixel block Bi. 8 ⁇ 8 or 16 ⁇ 16 comparison blocks are sequentially set.
  • the sum of the absolute differences for each corresponding pixel is obtained.
  • the pixel block Bi when the pixel value of the pixel block Bi is L (x, y) and the pixel value of the comparison block is R (x, y), the pixel block Bi, a certain comparison block, The sum of absolute differences between the two is represented by ⁇
  • n pixels are included in the search range set in the right eye image, n total sums S1 to Sn are finally obtained, and the minimum sum Smin is selected. Then, the position of the upper left pixel (xi ′, yi ′) is obtained from the comparison block from which the sum Smin is obtained. Thus, the disparity vector at the position (xi, yi) is detected as (xi′ ⁇ xi, yi′ ⁇ yi).
  • the left eye image has the pixel at the position (xj, yj) at the upper left, for example, 4 ⁇ 4, 8 ⁇ 8, or 16
  • a x16 pixel block Bj is set and detected in the same process.
  • the microphone 114 detects sound corresponding to the images photographed by the cameras 111L and 111R, and obtains sound data.
  • the data extraction unit 115 is used in a state where the data recording medium 115a is detachably mounted.
  • the data recording medium 115a is a disk-shaped recording medium, a semiconductor memory, or the like.
  • audio data and disparity maps are recorded in association with stereo image data including left eye image data and right eye image data.
  • the data extraction unit 115 extracts and outputs stereoscopic image data, audio data, and a disparity map from the data recording medium 115a.
  • the data extraction unit 115 constitutes an image data output unit.
  • the stereoscopic image data recorded on the data recording medium 115 a corresponds to the stereoscopic image data obtained by the video framing unit 112.
  • the audio data recorded on the data recording medium 115 a corresponds to the audio data obtained by the microphone 114.
  • the disparity map recorded on the data recording medium 115a corresponds to a disparity vector generated by the disparity map generation unit 113.
  • the changeover switch 116 selectively extracts the stereoscopic image data obtained by the video framing unit 112 or the stereoscopic image data output from the data extraction unit 115.
  • the changeover switch 116 is connected to the a side in the live mode and takes out the stereoscopic image data obtained by the video framing unit 112, and is connected to the b side in the playback mode and is output from the data extraction unit 115. Extract stereo image data.
  • the changeover switch 117 selectively extracts the disparity map generated by the disparity map generation unit 113 or the disparity map output from the data extraction unit 115.
  • the changeover switch 117 is connected to the a side in the live mode and takes out the disparity map generated by the disparity map generation unit 113, and is connected to the b side in the reproduction mode and the data extraction unit 115.
  • the disparity map output from is taken out.
  • the changeover switch 118 selectively takes out the voice data obtained by the microphone 114 or the voice data output from the data fetch unit 115.
  • the changeover switch 118 is connected to the a side in the live mode and takes out the audio data obtained by the microphone 114, and is connected to the b side in the playback mode, and the audio data output from the data extraction unit 115 is taken out. Take out.
  • the video encoder 119 performs encoding such as MPEG4-AVC, MPEG2, or VC-1 on the stereoscopic image data extracted by the changeover switch 116 to generate a video data stream (video elementary stream).
  • the audio encoder 120 performs encoding such as AC3 or AAC on the audio data extracted by the changeover switch 118 to generate an audio data stream (audio elementary stream).
  • the depth information set creation unit 122 creates a depth information set corresponding to stereoscopic image data of a predetermined program output from the changeover switch 116 based on the disparity map extracted by the changeover switch 117.
  • This depth information set includes division information on the image display surface and depth information on each divided area.
  • This division information includes information indicating a division type and information indicating the number of divisions.
  • the division type includes a division type that divides the image display surface using diagonal lines, and a division type that divides the image display surface using horizontal lines and / or vertical lines.
  • FIG. 7 shows an example of a position map when the image display surface is divided into four in the division type 1 in which the image display surface is divided using diagonal lines.
  • the image display surface is divided into four using diagonal lines, the upper divided area is represented by “0000”, the right divided area is represented by “0001”, and the lower divided area is “ “0010”, and the left divided area is represented by "0011".
  • FIG. 7 shows an example of a position map when the image display surface is divided into 8 in the division type 1 in which the image display surface is divided using diagonal lines.
  • the image display surface is divided into eight using diagonal lines and rectangular sides, and each divided region is represented by “0000” to “0111”.
  • FIG. 10 shows an example of a position map when the image display surface is divided into four in type 2 where the image display surface is equally divided in the horizontal direction and the vertical direction.
  • the image display surface is divided into four by a vertical line and a horizontal line, the upper right divided area is represented by “0000”, the lower right divided area is represented by “0001”, The lower left divided area is represented by “0010”, and the upper left divided area is represented by “0011”.
  • FIG. 10 shows an example of a position map when the image display surface is divided into 9 parts in Type 2 where the image display surface is equally divided in the horizontal direction and the vertical direction.
  • the image display surface is divided into nine by a vertical line and a horizontal line, and each divided area is represented by “0000” to “1000”.
  • FIG. 13 shows an example of a position map when the image display surface is divided into five in the division type 3 in which the image display surface is divided using diagonal lines and rectangular sides.
  • the image display surface is divided into five using diagonal lines and rectangular sides, the upper divided area is represented by “0000”, the right divided area is represented by “0001”, and the lower divided area is represented by “0000”.
  • the divided area is represented by “0010”, the left divided area is represented by “0011”, and the central divided area is represented by “0100”.
  • the division example in FIG. 13 is preferable because the depth information corresponding to the superimposed display position can be transmitted when the OSD graphics information is shifted to the edge portion of the image or superimposed on the central portion of the image. It will be a thing.
  • This depth information includes image plane information.
  • This image plane information is information indicating whether or not a stereoscopic image plane is in front of the monitor position.
  • This stereoscopic image plane means the closest object plane in terms of perspective in the image of the corresponding region.
  • this image plane information is code information constituting disparity information (disparity vector) corresponding to the stereoscopic image plane.
  • the sign information indicates “negative” when the stereoscopic image plane is in front of the monitor position.
  • the depth information may include parallax information in addition to the above-described image plane information.
  • this parallax information for example, among the parallax information (parallax vectors) of each pixel (pixel) constituting the image of the corresponding region, the parallax information of the pixel perceived closest to the perspective is used as a representative. Is done. In this case, when there is “negative” parallax information, the parallax information having the largest absolute value among them is set. In this case, when there is no “negative” parallax information, the parallax information having the smallest absolute value is obtained.
  • the image plane information is the code information constituting the parallax information as described above, it is only necessary to further include the absolute value information constituting the parallax information.
  • the representative of the parallax information in each divided area can be obtained by, for example, comparing the parallax information for each pixel or each block of a predetermined size in the display scan order in the divided area.
  • FIG. 14 shows how to obtain the representative parallax information of each divided area in the divided pattern in which the image display surface is divided into four by diagonal lines as described above. In this case, “Disparity_00”, “Disparity_01”, “Disparity_10”, and “Disparity_11” are obtained as representatives of disparity information in each divided region.
  • the representative of the parallax information of each divided area obtained as described above is used. Is done.
  • the OSD graphics information is superimposed and displayed on the edge portion of the image, the left eye, the disparity information (representative) of the divided region corresponding to the superimposed display position is used, It becomes possible to add parallax to the OSD graphics information of the right eye.
  • flag information indicating the presence of disparity information is inserted for each divided region or common to each divided region.
  • the parallax information is included, so that on the receiving side, not only whether or not the position of the stereoscopic image plane is in front of the monitor position, but also the position can be grasped in more detail. It becomes possible. Further, since the flag information is inserted, it is possible to selectively transmit only the image plane information or both the screen information and the parallax information as the depth information.
  • parallax When superimposing OSD graphics information on an image on the receiving side, parallax must be added to the left and right OSD graphics information when the stereoscopic image plane is in front of the monitor position. In that case, it is necessary to add parallax to the left and right OSD graphics information so that the OSD graphics information is perceived in front of the stereoscopic image plane.
  • the amount of parallax to be added to the left and right OSD graphics information can be arbitrarily set on the receiving side, and therefore it is sufficiently meaningful to transmit only image plane information.
  • the multiplexer 126 multiplexes each data stream from the video encoder 119 and the audio encoder 120 to obtain a multiplexed data stream as bit stream data (transport stream) BSD. Further, the multiplexer 126 inserts the depth information set created by the depth information set creation unit 122 into the bit stream data BSD. Specifically, the multiplexer 126 inserts a descriptor (z-Surface descriptor) including a depth information set at a predetermined position of the PSI information or SI information inserted into the bit stream data BSD. Details of this descriptor will be described later.
  • z-Surface descriptor z-Surface descriptor
  • the operation of the transmission data generation unit 110 shown in FIG. 2 will be briefly described.
  • the camera 111L captures a left eye image.
  • the left eye image data for stereoscopic image display obtained by the camera 111L is supplied to the video framing unit 112.
  • the camera 111R captures a right eye image.
  • Right-eye image data for stereoscopic image display obtained by the camera 111R is supplied to the video framing unit 112.
  • the left-eye image data and the right-eye image data are processed into a state corresponding to the transmission format, and stereoscopic image data is obtained (see FIGS. 4A to 4C).
  • the stereoscopic image data obtained by the video framing unit 112 is supplied to the fixed terminal on the a side of the changeover switch 116.
  • the stereoscopic image data obtained by the data extraction unit 115 is supplied to the fixed terminal on the b side of the changeover switch 116.
  • the changeover switch 116 is connected to the a side, and the stereoscopic image data obtained by the video framing unit 112 is taken out from the changeover switch 116.
  • the selector switch 116 is connected to the b side, and the stereoscopic image data output from the data extracting unit 115 is extracted from the selector switch 116.
  • the stereoscopic image data extracted by the changeover switch 116 is supplied to the video encoder 119.
  • the stereoscopic image data is encoded by MPEG4-AVC, MPEG2, VC-1, or the like, and a video data stream including the encoded video data is generated. This video data stream is supplied to the multiplexer 126.
  • the audio data obtained by the microphone 114 is supplied to the fixed terminal on the a side of the changeover switch 118. Also, the audio data obtained by the data extraction unit 115 is supplied to the fixed terminal on the b side of the changeover switch 118.
  • the changeover switch 118 In the live mode, the changeover switch 118 is connected to the a side, and the audio data obtained by the microphone 114 is extracted from the changeover switch 118.
  • the changeover switch 118 is connected to the b side, and the audio data output from the data extraction unit 115 is taken out from the changeover switch 118.
  • the audio data extracted by the changeover switch 118 is supplied to the audio encoder 120.
  • the audio encoder 120 performs encoding such as MPEG-2Audio AAC or MPEG-4 AAC on the audio data, and generates an audio data stream including the encoded audio data. This audio data stream is supplied to the multiplexer 126.
  • Left eye image data and right eye image data obtained by the cameras 111L and 111R are supplied to the disparity map generation unit 113 through the video framing unit 112.
  • the disparity map generation unit 113 detects a disparity vector for each pixel (pixel) based on the left eye image data and the right eye image data, and generates a disparity map.
  • This disparity map is supplied to the fixed terminal on the a side of the changeover switch 117.
  • the disparity map output from the data extraction unit 115 is supplied to the fixed terminal on the b side of the changeover switch 117.
  • the changeover switch 117 In the live mode, the changeover switch 117 is connected to the a side, and the disparity map generated by the disparity map generation unit 113 is extracted from the changeover switch 117. In the reproduction mode, the changeover switch 117 is connected to the b side, and the disparity map output from the data extraction unit 115 is taken out from this changeover switch 117.
  • the disparity map extracted by the changeover switch 117 is supplied to the depth information set creation unit 122.
  • the depth information set creation unit 122 creates a depth information set corresponding to stereoscopic image data of a predetermined program output from the changeover switch 116 based on the disparity map.
  • This depth information set includes division information of the image display surface and depth information of each divided area. This depth information set is supplied to the multiplexer 126.
  • the data streams from the video encoder 119 and the audio encoder 120 are multiplexed, and a multiplexed data stream as bit stream data (transport stream) BSD is obtained.
  • the depth information set created by the depth information set creation unit 122 is inserted into the bit stream data BSD. That is, in the multiplexer 126, a descriptor (z-Surface descriptor) including a depth information set is inserted at a predetermined position of PSI information or SI information inserted into the bit stream data BSD.
  • a descriptor z-Surface descriptor
  • FIG. 16 to 18 show configuration examples of multiplexed data streams (transport streams).
  • This multiplexed data stream includes PES packets obtained by packetizing each elementary stream.
  • the PES packet “Video PES” of the video elementary stream and the PES packet “AudioPES” of the audio elementary stream are included.
  • the transport stream includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI Program Specific Information
  • This PSI is information describing to which program each elementary stream included in the transport stream belongs.
  • the transport stream includes an EIT (Event Information Table) as SI (Serviced Information) for managing each event.
  • SI Serviced Information
  • the PMT has a program descriptor (ProgramDescriptor) that describes information related to the entire program.
  • the PMT includes an elementary loop having information related to each elementary stream. In this configuration example, there are a video elementary loop and an audio elementary loop.
  • information such as a packet identifier (PID) is arranged for each stream, and a descriptor (descriptor) describing information related to the elementary stream is also arranged, although not shown.
  • PID packet identifier
  • descriptor descriptor
  • the configuration example of the multiplexed data stream shown in FIGS. 16 and 17 is an example in which a descriptor (z-Surface descriptor) including a depth information set is inserted under the PMT. That is, in the configuration example (case 1) of the multiplexed data stream shown in FIG. 16, the descriptor (z-Surface descriptor) is arranged in the program descriptor (ProgramDescriptor) in the PMT. In addition, in the configuration example (case 2) of the multiplexed data stream shown in FIG. 17, a descriptor (z-Surfaceordescriptor) is arranged in the descriptor (descriptor) portion of the video elementary loop (Video ES loop). In addition, the configuration example (case 3) of the multiplexed data stream illustrated in FIG. 18 is an example in which a descriptor (z-Surface descriptor) including a depth information set is inserted under the EIT.
  • the descriptor can be sent at a predetermined timing during the program period. It can be changed dynamically.
  • the depth information a, the depth information b, and the depth information c are dynamically changed in the order during the program period.
  • the depth information update period is, for example, 100 msec or longer than 100 msec.
  • FIG. 20 shows an outline of processing for scene detection and descriptor transmission.
  • the motion vector is detected by comparing all the blocks included in the current frame with the image data of the previous frame. Then, the sum ⁇ (mv ((t ⁇ 1) ⁇ mv (t)) of the difference values of the motion vectors (magnitudes) for each block is used as a correlation value check value between the current frame and the previous frame. Similarly, the sum ⁇ (mv () of difference values of motion vectors (magnitudes) for each block is used as a correlation value check value between the previous frame and the previous two frames. (t-2) -mv (t-1)) is calculated.
  • a descriptor including depth information for each predetermined period can be sent during a program period.
  • a descriptor z-Surface descriptor corresponding to the start time of each period is used.
  • the depth information of the period in the descriptor it is also conceivable to include the depth information of a period after the period, for example, the period after the period, as so-called advance information.
  • FIG. 21 shows the relationship between the transmission timing of each descriptor (z-Surface descriptor) and the depth information included in each descriptor in that case.
  • a descriptor (z-Surface descriptor) transmitted at the start of period A includes depth information b of period B.
  • the descriptor (z-Surface descriptor) transmitted at the start of period B includes depth information c of period C.
  • the descriptor (z-Surface descriptor) transmitted at the start of each period includes the depth information of the subsequent period, for example, the next period, as advance information, so that the time direction changes gently on the receiving side.
  • Accurate parallax information can be obtained. That is, on the receiving side, the disparity information used when providing disparity between the left eye superimposition information and the right eye superimposition information for each period is included in the depth information set for the period and periods before and after the period. Interpolation processing using parallax information can be performed. Accordingly, it is possible to obtain parallax information in which a change in the time direction (in the frame direction) is gentle, that is, the update curve is smooth.
  • a broken line S1 indicates an example of a disparity information curve (Video (disparity curve) in transmitted stereoscopic image data
  • a solid line S2 indicates an example of disparity information (Disparity update) updated corresponding to each period. Is shown.
  • a broken line S3 indicates an example of a disparity information curve (Receiverceivinterpolation curve) obtained by interpolation processing on the receiving side.
  • the following interpolation processing is performed on the receiving side. That is, in the first half of each period, the interpolated parallax information at each time point is obtained by sequentially increasing the mixing ratio of the disparity information of the previous period and the disparity information of the period during the period. Further, in the latter half of each period, the interpolated parallax information at each time point is obtained by sequentially increasing the mixing ratio of the disparity information of the period and the disparity information of the later period in the later period.
  • the descriptor when a descriptor (z-Surface descriptor) including a depth information set is inserted under the EIT, as shown in FIG. 22, the descriptor can be transmitted at the beginning of the program, and the depth information is fixed during the program period.
  • FIG. 23 shows a structural example (Syntax) of a descriptor (z-Surface descriptor).
  • FIG. 24 shows the contents (Semantics) of main information in the structural example shown in FIG.
  • the 8-bit field of “descriptor_tag” indicates the type of descriptor (descriptor), and here indicates that it is a descriptor (z-Surface descriptor).
  • the 8-bit field of “descriptor_length” is 8-bit data indicating the length (size) of the descriptor. This data indicates the number of bytes after “descriptor_length” as the length of the descriptor.
  • the 2-bit field of “display_partition_type” indicates the partition type of the image display surface (see FIGS. 7 to 13).
  • a 4-bit field of “number_of_partition” indicates the number of divisions on the image display surface.
  • the descriptor z-Surface descriptor
  • the 1-bit field “z_depth_negative” indicates image plane information.
  • image plane information as described above, whether or not the stereoscopic image plane (the closest object plane in terms of perspective in the image of the corresponding divided area) is negative (near) with respect to the monitor position.
  • Indicate. “1” indicates that the stereoscopic image plane is negative (near) with respect to the monitor position.
  • “1” indicates that the stereoscopic image plane is the same as the monitor position or is positive (back) with respect to the monitor position.
  • code information constituting disparity information is used as a 1-bit field of “z_depth_negative_”.
  • the disparity information in this case is the disparity information of the most perceived pixel in terms of perspective among the disparity information (disparity vector) of each pixel (pixel) constituting the image of the corresponding region. This is disparity information of pixels constituting the image plane.
  • Disposity_value_flag is 1-bit flag information indicating whether or not disparity information exists in addition to the above-described image plane information.
  • the parallax information in this case is, for example, parallax information of the pixels constituting the above-described stereoscopic image plane. “1” indicates that disparity information exists, and “0” indicates that disparity information does not exist. When this flag information is “1”, an 8-bit field of “absolute_disparity_value” exists. This “absolute_disparity_value” indicates absolute value information constituting disparity information.
  • the absolute value information and the code information as the above-described image plane information constitute disparity information.
  • FIG. 25 shows another structural example (Syntax) of the descriptor (z-Surface descriptor).
  • “disparity_value_flag” is common to each divided region and is arranged outside the for loop.
  • “disparity_value_flag” is “1” indicating the presence of disparity information
  • a 7-bit field of “absolute_disparity_value” exists, and in other cases, 7-bit “reserved” exists.
  • the bit stream data BSD output from the multiplexer 126 includes the stereoscopic image data of the predetermined program having the left eye image data and the right eye image data, and the stereoscopic image data of the predetermined program.
  • a corresponding depth information set is included. Therefore, by using this depth information set on the receiving side, parallax adjustment is performed according to the perspective of each object in the image as superimposition information superimposed on the left eye image and the right eye image, for example, graphics information such as OSD. What was given can be used. Thereby, for example, in the display of graphics information such as OSD, it is possible to maintain perspective consistency with each object in the image.
  • the depth information set includes division information on the image display surface and depth information on each division area, and includes bit stream data including a data stream including stereoscopic image data. (Multiplexed data stream) Transmitted by being included in a descriptor inserted into the BSD. That is, the depth information set can be easily transmitted to the receiving side using the descriptor.
  • the set-top box 200 receives bit stream data (transport stream) BSD transmitted from the broadcast station 100 on broadcast waves.
  • This bit stream data BSD includes stereoscopic image data including left eye image data and right eye image data, audio data, and a depth information set.
  • the set top box 200 has a bit stream processing unit 201.
  • the bit stream processing unit 201 extracts stereoscopic image data, audio data, a depth information set, and the like from the bit stream data.
  • the bit stream processing unit 201 appropriately generates left eye image data and right eye image data on which graphics information such as OSD is superimposed.
  • parallax is given between the left eye graphics information superimposed on the left eye image and the right eye graphics information superimposed on the right eye image.
  • the parallax is provided between the left-eye graphics information and the right-eye graphics, so that the user can recognize graphics information such as OSD superimposed on the stereoscopic image, for example, in front of the image.
  • FIG. 26 shows a configuration example of the set top box 200.
  • the set top box 200 includes a bit stream processing unit 201, an HDMI terminal 202, an antenna terminal 203, a digital tuner 204, a video processing circuit 205, an HDMI transmission unit 206, and an audio processing circuit 207.
  • the set top box 200 includes a CPU 211, a flash ROM 212, a DRAM 213, an internal bus 214, a remote control receiving unit 215, and a remote control transmitter 216.
  • the antenna terminal 203 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown).
  • the digital tuner 204 processes the television broadcast signal input to the antenna terminal 203 and outputs predetermined bit stream data (transport stream) BSD corresponding to the user's selected channel.
  • the bit stream processing unit 201 extracts and outputs stereoscopic image data, audio data, and the like from the bit stream data BSD.
  • the bit stream processing unit 201 appropriately synthesizes display data of graphics information such as OSD with stereoscopic image data.
  • the bit stream processing unit 201 appropriately assigns parallax between the left-eye graphics information superimposed on the left-eye image and the right-eye graphics information superimposed on the right-eye image based on the depth information set.
  • the video processing circuit 205 performs image quality adjustment processing on the stereoscopic image data output from the bit stream processing unit 201 as necessary, and supplies the processed stereoscopic image data to the HDMI transmission unit 206.
  • the audio processing circuit 207 performs a sound quality adjustment process or the like on the audio data output from the bit stream processing unit 201 as necessary, and supplies the processed audio data to the HDMI transmission unit 206.
  • the HDMI transmitting unit 206 transmits, for example, uncompressed image data and audio data from the HDMI terminal 202 by communication conforming to HDMI. In this case, image data and audio data are packed and transmitted from the HDMI transmission unit 206 to the HDMI terminal 202 for transmission via the HDMI TMDS channel.
  • the HDMI transmission unit 206 transmits the depth information set described above to the television receiver 300 through the HDMI interface. Details of the HDMI transmission unit 206 will be described later.
  • the CPU 211 controls the operation of each part of the set top box 200.
  • the flash ROM 212 stores control software and data.
  • the DRAM 213 constitutes a work area for the CPU 211.
  • the CPU 211 develops software and data read from the flash ROM 212 on the DRAM 213 to activate the software, and controls each part of the set top box 200.
  • the remote control receiving unit 215 receives the remote control signal (remote control code) transmitted from the remote control transmitter 216 and supplies it to the CPU 211.
  • the CPU 211 controls each part of the set top box 200 based on the remote control code.
  • the CPU 211, flash ROM 212 and DRAM 213 are connected to the internal bus 214.
  • the bit stream processing unit 201 includes a demultiplexer 220, a video decoder 221, an audio decoder 224, an OSD display data generation unit 226, and a video superimposition unit 228.
  • the demultiplexer 220 extracts video and audio packets from the bit stream data BSD and sends them to each decoder. Further, the demultiplexer 220 extracts the depth information set from the bit stream data BSD, and sends it to the OSD display data generation unit 226 and the HDMI transmission unit 206 described above.
  • the video decoder 221 reconstructs a video elementary stream from the video packet extracted by the demultiplexer 220, performs a decoding process, and obtains stereoscopic image data including left-eye image data and right-eye image data.
  • the audio decoder 224 reconstructs an audio elementary stream from the audio packet extracted by the demultiplexer 220, performs decoding processing, obtains audio data, and outputs the audio data to the outside of the bit stream processing unit 201.
  • the OSD display data generation unit 226 generates left-eye graphics information data corresponding to left-eye image data included in stereoscopic image data and right-eye graphics information data corresponding to right-eye image data included in stereoscopic image data. .
  • the OSD display data generating unit 226 performs the left-eye graphics information and the right-eye graphics information based on the image plane information included in the depth information set extracted by the demultiplexer 220, or the image plane information and the parallax information. In the meantime, parallax is appropriately given.
  • a predetermined parallax determined in advance is applied so that the graphics information is perceived in front of the stereoscopic image plane. Is done. For example, based on the image plane information, when the stereoscopic image plane is located at the same position as the monitor position or behind it, no parallax is given. Further, for example, based on the parallax information, the parallax is given so that the graphics information is perceived in front of the stereoscopic image plane.
  • the depth information of each divided area can be updated during the program period (see FIG. 19).
  • the OSD display data generation unit 226 can dynamically change the parallax to be added to the left-eye and right-eye graphics information by using the depth information updated in this way, for example, parallax information.
  • the OSD display data generation unit 226 repeatedly uses the disparity information included in a certain descriptor (z-Surface descriptor) in each frame until the next time the descriptor (z-Surface descriptor) is transmitted. It is also possible. However, in this case, at the time when the descriptor is transmitted and the disparity information is updated, the disparity to be added to the left-eye and right-eye graphics information may change abruptly, causing the viewer to feel uncomfortable.
  • the OSD display data generation unit 226 immediately uses the disparity information included in the descriptor, as shown in FIG. Do not do. That is, the OSD display data generation unit 226 uses disparity information (shown by a broken line) by interpolation processing between the plurality of frames so as to reach new disparity information over a plurality of frames. With this process, the time direction (frame direction) change of the parallax information used for parallax addition can be made smooth, and the parallax to be given to the left and right eye graphics information changes abruptly, creating a sense of discomfort to the viewer Can be suppressed.
  • disparity information shown by a broken line
  • the above example of interpolation processing shown in FIG. 27 shows a case where the descriptor (z-Surface descriptor) sent corresponding to the start time of each period includes the depth information of the period.
  • An example of interpolation processing will be described in the case where the descriptor (z-SurfaceSdescriptor) sent corresponding to the start time of each period includes depth information of a subsequent period, for example, the next period.
  • FIG. 28 shows an example of interpolation processing in that case.
  • the descriptor (z-Surface descriptor) sent at the start of period A includes depth information b of period B.
  • the descriptor (z-Surface descriptor) sent at the start of period B includes depth information c of period C.
  • the following interpolation processing is performed, and the interpolated disparity information at each time point is obtained. That is, in the first half of each period, the interpolated parallax information at each time point is obtained by sequentially increasing the mixing ratio of the disparity information of the previous period and the disparity information of the period during the period. Further, in the latter half of each period, the interpolated parallax information at each time point is obtained by sequentially increasing the mixing ratio of the disparity information of the period and the disparity information of the later period in the later period.
  • the interpolated disparity information at each time point of the period T_AB from the intermediate time point of the period A to the intermediate time point of the period B is obtained by sequentially changing the mixing ratio of the disparity information of the period A and the disparity information of the period B.
  • the disparity information for period A is sequentially changed from 100% to 0%
  • the disparity information for period B is sequentially changed from 0% to 100%.
  • the interpolated disparity information at each time point of the period T_BC from the intermediate time point of the period B to the intermediate time point of the period C is obtained by sequentially changing the mixing ratio of the disparity information of the period B and the disparity information of the period C. It is done.
  • the disparity information for period B is sequentially changed from 100% to 0%
  • the disparity information for period C is sequentially changed from 0% to 100%.
  • the broken line S1 shows an example of the disparity information curve (Video disparity curve) in the transmitted stereoscopic image data
  • the solid line S2 shows the disparity information (Disparity update) updated corresponding to each period.
  • An example is shown.
  • a broken line S3 indicates an example of a parallax information curve (Receiver interpolation) curve obtained by the interpolation process.
  • the video superimposing unit 228 uses the left eye and left eye graphics information data generated by the OSD display data generating unit 226 for the stereoscopic image data (left eye image data and right eye image data) obtained by the video decoder 221. To obtain stereoscopic image data for display.
  • the video superimposing unit 228 outputs the display stereoscopic image data to the outside of the bit stream processing unit 201.
  • a television broadcast signal input to the antenna terminal 203 is supplied to the digital tuner 204.
  • the digital tuner 204 processes the television broadcast signal and outputs predetermined bit stream data (transport stream) BSD corresponding to the user's selected channel.
  • the bit stream data BSD output from the digital tuner 204 is supplied to the bit stream processing unit 201.
  • stereoscopic image data, audio data, a depth information set, and the like are extracted from the bit stream data BSD.
  • display data of graphics information such as OSD is appropriately combined with the stereoscopic image data.
  • parallax is provided between the left-eye graphics information superimposed on the left-eye image and the right-eye graphics information superimposed on the right-eye image.
  • the stereoscopic image data for display obtained by the bit stream processing unit 201 is supplied to the video processing circuit 205.
  • image quality adjustment processing or the like is performed on the display stereoscopic image data as necessary.
  • the processed stereoscopic image data output from the video processing circuit 205 is supplied to the HDMI transmission unit 206.
  • the audio data obtained by the bit stream processing unit 201 is supplied to the audio processing circuit 207.
  • the sound processing circuit 207 processing such as sound quality adjustment processing is performed on the sound data as necessary.
  • the processed audio data output from the audio processing circuit 207 is supplied to the HDMI transmission unit 206.
  • the stereoscopic image data and audio data supplied to the HDMI transmission unit 206 are transmitted from the HDMI terminal 202 to the HDMI cable 400 via the HDMI TMDS channel.
  • the television receiver 300 receives stereoscopic image data sent from the set top box 200 via the HDMI cable 400.
  • the television receiver 300 includes a 3D signal processing unit 301.
  • the 3D signal processing unit 301 performs processing (decoding processing) corresponding to the transmission method on the stereoscopic image data to generate left-eye image data and right-eye image data.
  • the 3D signal processing unit 301 acquires left-eye image data and right-eye image data that form stereoscopic image data.
  • FIG. 29 illustrates a configuration example of the television receiver 300.
  • the television receiver 300 includes a 3D signal processing unit 301, an HDMI terminal 302, an HDMI receiving unit 303, an antenna terminal 304, a digital tuner 305, and a bit stream processing unit 306.
  • the television receiver 300 also includes an OSD display data generation unit 313, a video superimposition unit 314, a video processing circuit 307, a panel drive circuit 308, a display panel 309, an audio processing circuit 310, and an audio amplification circuit 311. And a speaker 312.
  • the television receiver 300 includes a CPU 321, a flash ROM 322, a DRAM 323, an internal bus 324, a remote control receiving unit 325, and a remote control transmitter 326.
  • the antenna terminal 304 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown).
  • the digital tuner 305 processes the television broadcast signal input to the antenna terminal 304 and outputs predetermined bit stream data (transport stream) corresponding to the user's selected channel.
  • the bit stream processing unit 306 has the same configuration as the bit stream processing unit 201 of the set top box 200 shown in FIG.
  • the bit stream processing unit 306 extracts stereoscopic image data (left eye image data, right eye image data), audio data, a depth information set, and the like from the bit stream data.
  • the HDMI receiving unit 303 receives uncompressed image data and audio data supplied to the HDMI terminal 302 via the HDMI cable 400 by communication conforming to HDMI.
  • the HDMI receiving unit 303 has a version of, for example, HDMI 1.4, and can handle stereoscopic image data. Further, the HDMI receiving unit 303 receives the above-described depth information set from the set top box 200 via the HDMI interface. Details of the HDMI receiving unit 303 will be described later.
  • the 3D signal processing unit 301 performs decoding processing on the stereoscopic image data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306 to generate left eye image data and right eye image data. To do. In this case, the 3D signal processing unit 301 performs a decoding process corresponding to the transmission method format on the stereoscopic image data obtained by the bit stream processing unit 306. Further, the 3D signal processing unit 301 performs a decoding process corresponding to a TMDS transmission data structure described later on the stereoscopic image data received by the HDMI receiving unit 303.
  • the OSD display data generation unit 313 generates left-eye graphics information data corresponding to left-eye image data included in stereoscopic image data and right-eye graphics information data corresponding to right-eye image data included in stereoscopic image data. .
  • This graphics information is superimposition information for OSD display such as menus and program guides.
  • the OSD display data generation unit 313 performs the interval between the left eye graphics information and the right eye graphics information based on the depth information set obtained by the bit stream processing unit 306 or received by the HDMI receiving unit 303. Add parallax.
  • the OSD display data generation unit 313 appropriately performs parallax between the left eye graphics information and the right eye graphics information based on the image plane information included in the depth information set, or the image plane information and the parallax information. Give.
  • a predetermined parallax determined in advance is applied so that the graphics information is perceived in front of the stereoscopic image plane. Is done. For example, based on the image plane information, when the stereoscopic image plane is located at the same position as the monitor position or behind it, no parallax is given. Further, for example, based on the parallax information, the parallax is given so that the graphics information is perceived in front of the stereoscopic image plane.
  • the video superimposing unit 314 performs left eye and left eye graphics information generated by the OSD display data generating unit 313 on the stereoscopic image data (left eye image data and right eye image data) obtained by the 3D signal processing unit 301. Are superimposed on each other to obtain display stereoscopic image data.
  • the video processing circuit 307 generates image data for displaying a stereoscopic image based on the left eye image data and the right eye image data generated by the 3D signal processing unit 301.
  • the video processing circuit 307 performs image quality adjustment processing on the image data as necessary.
  • the panel drive circuit 308 drives the display panel 309 based on the image data output from the video processing circuit 307.
  • the display panel 309 includes, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), or the like.
  • the audio processing circuit 310 performs necessary processing such as D / A conversion on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306.
  • the audio amplifier circuit 311 amplifies the audio signal output from the audio processing circuit 310 and supplies it to the speaker 312.
  • the CPU 321 controls the operation of each unit of the television receiver 300.
  • the flash ROM 322 stores control software and data.
  • the DRAM 323 constitutes a work area for the CPU 321.
  • the CPU 321 develops software and data read from the flash ROM 322 on the DRAM 323 to activate the software, and controls each unit of the television receiver 300.
  • the remote control receiving unit 325 receives the remote control signal (remote control code) transmitted from the remote control transmitter 326 and supplies it to the CPU 321.
  • the CPU 321 controls each part of the television receiver 300 based on the remote control code.
  • the CPU 321, flash ROM 322, and DRAM 323 are connected to the internal bus 324.
  • the HDMI receiving unit 303 receives stereoscopic image data and audio data transmitted from the set top box 200 connected to the HDMI terminal 302 via the HDMI cable 400.
  • the stereoscopic image data received by the HDMI receiving unit 303 is supplied to the 3D signal processing unit 301.
  • the audio data received by the HDMI receiving unit 303 is supplied to the audio processing circuit 310.
  • the TV broadcast signal input to the antenna terminal 304 is supplied to the digital tuner 305.
  • the digital tuner 305 processes the television broadcast signal and outputs predetermined bit stream data (transport stream) corresponding to the user's selected channel.
  • the bit stream data output from the digital tuner 305 is supplied to the bit stream processing unit 306.
  • the bit stream processing unit 306 extracts stereoscopic image data (left eye image data, right eye image data), audio data, depth information set, and the like from the bit stream data.
  • the stereoscopic image data obtained by the bit stream processing unit 306 is supplied to the 3D signal processing unit 301.
  • the audio data obtained by the bit stream processing unit 306 is supplied to the audio processing circuit 310.
  • the 3D signal processing unit 301 performs decoding processing on the stereoscopic image data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306 to generate left eye image data and right eye image data. Is done.
  • the left eye image data and right eye image data are supplied to the video superimposing unit 314.
  • the OSD display data generation unit 313 generates left-eye graphics information data corresponding to left-eye image data included in stereoscopic image data and right-eye graphics information data corresponding to right-eye image data included in stereoscopic image data.
  • the in this case in the OSD display data generation unit 313, based on the depth information set obtained by the bit stream processing unit 306 or received by the HDMI receiving unit 303, between the left eye graphics information and the right eye graphics information. Parallax is added.
  • the stereoscopic image data (left-eye image data, right-eye image data) obtained by the 3D signal processing unit 301.
  • This display stereoscopic image data is supplied to the video processing circuit 307.
  • image data for displaying a stereoscopic image is generated based on the left eye image data and the right eye image data, and image quality adjustment processing is also performed as necessary.
  • Image data obtained by the video processing circuit 307 is supplied to the panel drive circuit 308. Therefore, a stereoscopic image is displayed on the display panel 309.
  • the left eye image based on the left eye image data and the right eye image based on the right eye image data are alternately displayed on the display panel 309 in a time division manner.
  • the viewer can see only the left-eye image with the left eye and the right eye with the right eye by wearing shutter glasses that alternately open the left-eye shutter and the right-eye shutter in synchronization with the display on the display panel 309. Only images can be seen, and stereoscopic images can be perceived.
  • the audio processing circuit 310 necessary processing such as D / A conversion is performed on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306.
  • the audio data is amplified by the audio amplification circuit 311 and then supplied to the speaker 312. Therefore, sound corresponding to the display image on the display panel 309 is output from the speaker 312.
  • FIG. 30 illustrates a configuration example of the HDMI transmission unit (HDMI source) 206 of the set-top box 200 and the HDMI reception unit (HDMI sink) 303 of the television receiver 300 in the stereoscopic image display system 10 of FIG.
  • the HDMI transmission unit 206 transmits, in a plurality of channels, a differential signal corresponding to pixel data of an uncompressed image for one screen in an effective image section (hereinafter, also referred to as an active video section as appropriate) using a plurality of channels.
  • the effective image section is a section obtained by removing the horizontal blanking section and the vertical blanking section from the section from one vertical synchronization signal to the next vertical synchronization signal.
  • the HDMI transmission unit 206 receives at least a plurality of channels of differential signals corresponding to audio data, control data, and other auxiliary data associated with an image in a horizontal blanking interval or a vertical blanking interval. Transmit to the unit 303 in one direction.
  • the transmission channels of the HDMI system including the HDMI transmission unit 206 and the HDMI reception unit 303 include the following transmission channels. That is, three TMDS channels # 0 to ## as transmission channels for serially transmitting pixel data and audio data in one direction in synchronization with the pixel clock from the HDMI transmission unit 206 to the HDMI reception unit 303. There are two. There is also a TMDS clock channel as a transmission channel for transmitting a pixel clock.
  • the HDMI transmission unit 206 includes an HDMI transmitter 81.
  • the transmitter 81 converts, for example, pixel data of an uncompressed image into a corresponding differential signal, and is connected via the HDMI cable 400 with three TMDS channels # 0, # 1, and # 2 that are a plurality of channels. Serial transmission in one direction to the HDMI receiving unit 303.
  • the transmitter 81 converts audio data accompanying uncompressed images, further necessary control data and other auxiliary data, etc. into corresponding differential signals, and converts them into three TMDS channels # 0, # 1, #. 2 serially transmits to the HDMI receiving unit 303 in one direction.
  • the transmitter 81 transmits the pixel clock synchronized with the pixel data transmitted through the three TMDS channels # 0, # 1, and # 2 to the HDMI receiving unit 303 connected via the HDMI cable 400 using the TMDS clock channel. Send.
  • the HDMI receiving unit 303 receives a differential signal corresponding to the pixel data transmitted from the HDMI transmitting unit 206 in one direction through a plurality of channels in the active video section. Further, the HDMI receiving unit 303 receives differential signals corresponding to audio data and control data transmitted in one direction from the HDMI transmitting unit 206 through a plurality of channels in a horizontal blanking interval or a vertical blanking interval. Receive.
  • the HDMI receiving unit 303 has an HDMI receiver 82.
  • This HDMI receiver 82 uses TMDS channels # 0, # 1, and # 2 to transmit a differential signal corresponding to pixel data and a difference corresponding to audio data and control data transmitted from the HDMI transmission unit 206 in one direction. Receive a motion signal. In this case, reception is performed in synchronization with the pixel clock transmitted from the HDMI transmission unit 206 via the TMDS clock channel.
  • the transmission channels of the HDMI system include transmission channels called DDC (Display Data Channel) 83 and CEC line 84 in addition to the above-described TMDS channels # 0 to # 2 and the TMDS clock channel.
  • the DDC 83 includes two signal lines (not shown) included in the HDMI cable 400.
  • the DDC 83 is used by the HDMI transmitting unit 206 to read E-EDID (Enhanced Extended Display Identification Data) from the HDMI receiving unit 303.
  • E-EDID Enhanced Extended Display Identification Data
  • the HDMI receiving unit 303 has an EDID ROM (Read Only Memory) 85 that stores E-EDID, which is performance information related to its performance (Configuration / capability), in addition to the HDMI receiver 81. .
  • E-EDID ROM Read Only Memory
  • the HDMI transmission unit 206 reads the E-EDID from the HDMI reception unit 303 connected via the HDMI cable 400 via the DDC 83.
  • the HDMI transmission unit 206 sends the read E-EDID to the CPU 211.
  • the CPU 211 stores this E-EDID in the flash ROM 212 or the DRAM 213.
  • the CPU 211 can recognize the performance setting of the HDMI receiving unit 303 based on the E-EDID. For example, the CPU 211 recognizes whether or not the television receiver 300 having the HDMI receiving unit 303 can handle stereoscopic image data, and if so, what kind of TMDS transmission data structure can be supported.
  • the CEC line 84 is made up of one signal line (not shown) included in the HDMI cable 400, and is used for bidirectional communication of control data between the HDMI transmission unit 206 and the HDMI reception unit 303.
  • the CEC line 84 constitutes a control data line.
  • the HDMI cable 400 includes a line (HPD line) 86 connected to a pin called HPD (Hot Plug Detect).
  • HPD line 86 is also used as a HEAC-line constituting a bidirectional communication path.
  • the HDMI cable 400 includes a line (power line) 87 used for supplying power from the source device to the sink device.
  • the HDMI cable 400 includes a utility line 88.
  • the utility line 88 is also used as a HEAC + line constituting a bidirectional communication path.
  • FIG. 31 shows an example of the structure of TMDS transmission data.
  • FIG. 31 shows sections of various transmission data when image data of horizontal ⁇ vertical 1920 pixels ⁇ 1080 lines is transmitted in TMDS channels # 0, # 1, and # 2.
  • Video Field In a video field (Video Field) in which transmission data is transmitted through the three TMDS channels # 0, # 1, and # 2 of HDMI, there are three types of sections according to the type of transmission data. These three types of sections are a video data period (Video Data period), a data island period (Data Islandperiod), and a control period (Control period).
  • the video field period is a period from a rising edge (active edge) of a certain vertical synchronizing signal to a rising edge of the next vertical synchronizing signal.
  • This video field period is divided into a horizontal blanking period (horizontal blanking), a vertical blanking period (verticalblanking), and an active video period (Active Video).
  • This active video section is a section obtained by removing the horizontal blanking period and the vertical blanking period from the video field section.
  • the video data section is assigned to the active video section.
  • 1920 pixels (pixels) ⁇ 1080 lines of effective pixel (Active pixel) data constituting uncompressed image data for one screen is transmitted.
  • Data island section and control section are assigned to horizontal blanking period and vertical blanking period.
  • auxiliary data (Auxiliary data) is transmitted. That is, the data island period is assigned to a part of the horizontal blanking period and the vertical blanking period.
  • audio data packets which are data not related to control, of auxiliary data are transmitted.
  • the control section is assigned to other parts of the horizontal blanking period and the vertical blanking period.
  • this control period for example, vertical synchronization signals, horizontal synchronization signals, control packets, and the like, which are data related to control, of auxiliary data are transmitted.
  • FIG. 32 shows an example of the pin arrangement of the HDMI terminal.
  • the pin arrangement shown in FIG. 32 is called type A (type-A).
  • TMDS Data # i + and TMDS Data # i ⁇ which are differential signals of TMDS channel #i, are transmitted by two lines which are differential lines. These two lines consist of pins assigned TMDS Data # i + (pin numbers 1, 4, and 7) and pins assigned TMDS Data # i- (pin numbers 3, 6, and 7). 9 pin).
  • the CEC line 84 through which the CEC signal, which is control data, is transmitted is connected to a pin whose pin number is 13.
  • a line for transmitting an SDA (Serial Data) signal such as E-EDID is connected to a pin having a pin number of 16.
  • a line for transmitting an SCL (Serial Clock) signal, which is a clock signal used for synchronization at the time of transmission / reception of the SDA signal, is connected to a pin having a pin number of 15.
  • the above-described DDC 83 includes a line for transmitting the SDA signal and a line for transmitting the SCL signal.
  • the HPD line (HEAC-line) 86 for the source device to detect the connection of the sink device is connected to a pin having a pin number of 19.
  • the utility line (HEAC + line) 88 is connected to a pin having a pin number of 14.
  • the line 87 for supplying power is connected to a pin having a pin number of 18.
  • HDMI_Video_Format “010”
  • 3D_Metadata_type is defined as unused, for example, “100”, and a depth information set is designated.
  • FIG. 33 shows a packet structure of HDMI “Vendor” Specific “InfoFrame”. Since this HDMI Vendor Specific InfoFrame is defined in CEA-861-D, detailed description is omitted.
  • 3 bits information “HDMI_Video_Format” indicating the type of image data is arranged from the 7th bit to the 5th bit of the 4th byte (PB4).
  • the 3-bit information is “010”.
  • 4-bit information “3D_Structure” indicating the TMDS transmission data structure is arranged from the 7th bit to the 4th bit of the 5th byte (PB5). For example, in the case of the frame packing method, this 4-bit information is “0000”.
  • 3D_Meta_present when “3D_Meta_present” is arranged in the third bit of the fifth byte (PB5) and Vendor Specific InfoFrame extension is specified, this one bit is set to “1”. Further, “3D_Metadata_type” is arranged from the 7th bit to the 5th bit of the 7th byte (PB7). When designating the information of the depth information set, this 3-bit information is unused, for example, “100”. Further, “3D_Metadata_length” is arranged from the 4th byte to the 0th byte of the 7th byte (PB7). This 5-bit information indicates the length of the 3D_Metadata area to be arranged thereafter.
  • 2-bit information of “display_partition_type” is arranged from the seventh bit to the sixth bit of the eighth byte (PB8).
  • 4-bit information “number_of_partition” is arranged from the 3rd bit to the 0th bit of the 8th byte (PB8). Thereafter, the number of pieces of depth information corresponding to the number of divisions of the image display surface indicated by “number_of_partition” is arranged.
  • This depth information includes 1-bit information (image plane information) of “z_depth_negative”, and further includes 8-bit information of “absolute_disparity_value” when “disparity_value_flag” indicates the presence of disparity information.
  • a predetermined program having left-eye image data and right-eye image data from the broadcasting station 100 (transmission data generation unit 201) to the set-top box 200 or the television receiver 300.
  • a depth information set corresponding to the stereoscopic image data is transmitted together with the stereoscopic image data. Therefore, by using this depth information set on the receiving side, parallax adjustment is performed according to the perspective of each object in the image as superimposition information superimposed on the left eye image and the right eye image, for example, graphics information such as OSD. What was given can be used. Thereby, for example, in the display of graphics information such as OSD, it is possible to maintain perspective consistency with each object in the image.
  • the depth information set transmitted from the broadcast station 100 (transmission data generation unit 201) to the set top box 200 or the television receiver 300 includes the division information on the image display surface and each division. It includes the depth information of the region, and is transmitted by being included in a descriptor inserted into bit stream data (multiplexed data stream) BSD having a data stream including stereoscopic image data. That is, the broadcast station 100 can easily transmit the depth information set to the reception side using the descriptor.
  • a set of three-dimensional image data of a predetermined program is sent from the set top box 200 to the television receiver 300 and a corresponding depth information set (division information on the image display surface and the depth of each division area). Information) is transmitted via the HDMI cable 400. Therefore, by using the depth information set in the television receiver 300, the parallax according to the perspective of each object in the image as superimposition information to be superimposed on the left eye image and the right eye image, for example, graphics information such as OSD. An adjusted one can be used. Thereby, for example, in the display of graphics information such as OSD, it is possible to maintain perspective consistency with each object in the image.
  • the stereoscopic image display system 10 includes the broadcasting station 100, the set top box 200, and the television receiver 300.
  • the television receiver 300 includes a bit stream processing unit 306 that functions in the same manner as the bit stream processing unit 201 in the set-top box 200, as shown in FIG. Therefore, as shown in FIG. 34, a stereoscopic image display system 10A including a broadcasting station 100 and a television receiver 300 is also conceivable.
  • a method of using HDMI “Vendor Specific InfoFrame” has been described as a method of transmitting a depth information set from the set top box 200 to the television receiver 300.
  • a method using an active space (Active Space), and transmission through a bidirectional communication path composed of an HPD line 86 (HEAC ⁇ line) and a utility line 88 (HEAC + line) may be considered.
  • the set-top box 200 and the television receiver 300 are connected by an HDMI digital interface.
  • the present invention can be applied even when these are connected by a digital interface similar to the HDMI digital interface (including wireless as well as wired).
  • the example in which the depth information set used in the bit stream processing unit 201 is transmitted from the set top box 200 to the television receiver 300 through the HDMI interface has been described.
  • the technology for transmitting the depth information set through the HDMI interface can be applied to combinations of other source devices and sink devices.
  • the source device may be a disc player such as a BD or a DVD, or a game machine
  • the sink device may be a monitor device or a projector device.
  • the present invention can satisfactorily display superimposition information at the time of stereoscopic image display, for example, graphics information such as OSD, and can be applied to a stereoscopic image display system or the like.

Abstract

【課題】立体画像表示の際の重畳情報、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性の維持を容易に図る。 【解決手段】奥行き情報出力部は、立体画像に対応した奥行き情報を出力する。奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含む。奥行き情報は、例えば、モニタポジションに対して立体画像面が手前にあるか否かを示す画像面情報、さらには、この画像面情報および視差情報である。奥行き情報には、視差情報の存在を示すフラグ情報が挿入される。奥行き情報を、多重化データストリームのPMTやEIT等の配下に挿入されるデスクリプタに含めて送信する。

Description

立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
 この発明は、立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置に関し、特に、受信側において、OSD等のグラフィクス情報の表示を良好に行い得る立体画像データ送信装置等に関する。
 例えば、特許文献1には、立体画像データのテレビ放送電波を用いた伝送方式について提案されている。この場合、左眼用画像データおよび右眼用画像データを含む立体画像データが送信され、テレビ受信機において、両眼視差を利用した立体画像表示が行われる。
 図35は、両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクト(物体)の左右像の表示位置と、その立体像の再生位置との関係を示している。例えば、スクリーン上に図示のように左像Laが右側に右像Raが左側にずれて表示されているオブジェクトAに関しては、左右の視線がスクリーン面より手前で交差するため、その立体像の再生位置はスクリーン面より手前となる。DPaは、オブジェクトAに関する水平方向の視差ベクトル(視差情報)を表している。
 また、例えば、スクリーン上に図示のように左像Lbおよび右像Rbが同一位置に表示されているオブジェクトBに関しては、左右の視線がスクリーン面で交差するため、その立体像の再生位置はスクリーン上、つまりモニタポジションとなる。さらに、例えば、スクリーン上に図示のように左像Lcが左側に右像Rcが右側にずれて表示されているオブジェクトCに関しては、左右の視線がスクリーン面より奥で交差するため、その立体像の再生位置はスクリーン面より奥となる。DPcは、オブジェクトCに関する水平方向の視差ベクトルを表している。
特開2005-6114号公報
 上述したように、立体画像表示において、視聴者は、両眼視差を利用して、立体画像の遠近感を認知することが普通である。画像に重畳される重畳情報、例えばOSD(On Screen Display)等のグラフィクス情報に関しても、2次元空間的のみならず、3次元の奥行き感としても、立体画像表示と連動してレンダリングされることが期待される。
 例えば、立体画像にOSD等のグラフィクス情報を重畳表示(オーバーレイ表示)する場合、遠近感でいうところの最も近い画像内の物体(オブジェクト)の面(以下、「立体画像面」という)よりも手前に表示されないと、視聴者は、遠近感の矛盾を感じる場合がある。つまり、画像にOSD等のグラフィクス情報を重畳表示する場合、画像内の各物体の遠近感に応じて視差調整を施し、遠近感の整合性を維持することが期待される。
 この発明の目的は、立体画像表示の際の重畳情報、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性の維持を図ることにある。
 この発明の概念は、
 立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
 上記立体画像に対応した奥行き情報を出力する奥行き情報出力部と、
 上記画像データおよび上記奥行き情報を送信する送信部とを備え、
 上記奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含み、
 上記送信部は、上記画像データを含むデータストリームを有する多重化データストリームを送信し、該多重化データストリームに、上記奥行き情報を含むデスクリプタを挿入する
 立体画像データ送信装置にある。
 この発明において、画像データ出力部により、立体画像を構成する左眼画像データおよび右眼画像データが出力される。また、奥行き情報出力部により、立体画像に対応した奥行き情報が出力される。そして、送信部により、画像データおよび奥行き情報が送信される。この奥行き情報には、画像表示面の分割情報と、各分割領域の奥行き情報が含まれる。
 例えば、奥行き情報は、モニタポジションに対して立体画像面(画像内の、遠近感でいうところの最も近い物体の面)が手前にあるか否かを示す画像面情報とされてもよい。そして、この画像面情報は、例えば、左眼画像および右眼画像の視差情報(視差ベクトル)を構成する符号情報とされてもよい。視差情報の符号が負の場合、立体画像面がモニタポジションに対して手前にあることが分かる。
 また、例えば、奥行き情報は、モニタポジションに対して立体画像面が手前にあるか否かを示す画像面情報、またはこの画像面情報と左眼画像および右眼画像の視差情報であり、奥行き情報には、視差情報の存在を示すフラグ情報が挿入されてもよい。例えば、奥行き情報は、視差情報を構成する符号情報、またはこの符号情報および視差情報を構成する絶対値情報とされる。この場合、視差情報の符号情報は、画像面情報を構成する。
 奥行き情報として、画像面情報の他に視差情報が含まれることで、受信側において、立体画像面の位置がモニタポジションに対して手前にあるか否かだけでなく、その位置をより詳細に把握可能となる。また、フラグ情報が挿入されていることにより、奥行き情報として、画像面情報のみ、あるいは画面情報および視差情報の双方を、選択的に送信することが可能となる。
 例えば、分割情報は、分割タイプを示す情報と分割数を示す情報とからなっていてもよい。このように分割情報が2つの情報から構成されることにより、少ない情報数でより多くの分割パターンを指定することが可能となる。例えば、分割タイプには、画像表示面を対角線を用いて分割する分割タイプが含まれる。また、例えば、分割タイプには、画像表示面を水平方向線および/または垂直方向線を用いて分割する分割タイプが含まれる。
 送信部では、画像データを含むデータストリームを有する多重化データストリームが送信される。この多重化データストリームに、奥行き情報を含むデスクリプタが挿入される。
 例えば、多重化データストリームには、この多重化データストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを示すプログラム・スペシフィック・インフォメーションとしてのプログラム・マップ・テーブルが含まれており、デスクリプタは、このプログラム・マップ・テーブルの配下に挿入される。この場合、番組期間中にデスクリプタが順次送信され、番組期間中において、奥行き情報がダイナミックに変化可能とされる。
 また、例えば、多重化データストリームには、イベント単位の管理を行うサービス・インフォメーションとしてのイベント・インフォメーション・テーブルが含まれており、デスクリプタは、このイベント・インフォメーション・テーブルの配下に挿入される。この場合、番組の最初にデスクリプタが送信され、番組期間中において、奥行き情報は固定とされる。
 このように、この発明においては、立体画像を構成する左眼画像データおよび右眼画像データと共に、この立体画像に対応した奥行き情報が送信される。そのため、受信側において、奥行き情報を用いることで、左眼画像および右眼画像に重畳される重畳情報、例えばOSD等のグラフィクス情報として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができる。これにより、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 また、この発明においては、奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含むものであって、立体画像データを含むデータストリームを有する多重化データストリームに挿入されるデスクリプタに含まれて送信される。つまり、奥行き情報の受信側への送信を簡単に行うことできる。
 なお、この発明において、例えば、送信部は、デスクリプタを、画像データの所定期間毎の開始時点に対応させて多重化データストリームに挿入し、各期間の開始時点に対応させて多重化データストリームに挿入されるデスクリプタには、当該期間より後の期間の奥行き情報が含まれている、ようにされてもよい。これにより、受信側において、各期間の左眼重畳情報と右眼重畳情報との間に視差を付与する際に使用する視差情報として、当該期間および当該期間の前後の期間の奥行き情報に含まれる視差情報を用いた補間処理により、時間方向(フレーム方向の)変化がなだらかな、つまり更新カーブがスムーズとなる視差情報を得ることが可能となる。
 また、この発明の他の概念は、
 立体画像を構成する左眼画像データおよび右眼画像データを含むデータストリームを有し、画像表示面の分割情報と上記立体画像データに対応した各分割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入された多重化データストリームを受信する受信部と、
 上記多重化データストリームから取得された上記左眼画像データに対応した左眼重畳情報のデータ、および多重化データストリームから取得された上記右眼画像データに対応した右眼重畳情報のデータを出力する重畳情報データ出力部と、
 上記多重化データストリームから取得された上記左眼画像データおよび上記右眼画像データに、上記左眼重畳情報のデータおよび上記右眼重畳情報のデータを重畳するデータ重畳部を備え、
 上記重畳情報データ出力部は、上記多重化データストリームから取得された上記奥行き情報に基づいて、上記左眼重畳情報と上記右眼重畳情報との間に視差を付与する
 立体画像データ受信装置にある。
 この発明において、受信部により、左眼画像データおよび右眼画像データを含むデータストリームを有する多重化データストリームが受信される。この多重化データストリームには、画像表示面の分割情報と立体画像データに対応した各割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入されている。例えば、このデスクリプタは、プログラム・マップ・テーブル、あるいはイベント・インフォメーション・テーブルの配下に挿入されている。
 重畳情報データ出力部により、左眼画像データに対応した左眼重畳情報のデータ、および右眼画像データに対応した右眼重畳情報のデータが出力される。そして、データ重畳部により、多重化データストリームから所得された左眼画像データおよび右眼画像データに、左眼重畳情報のデータおよび右眼重畳情報のデータが重畳される。これにより、立体画像にOSD等のグラフィクス情報を重畳表示できる。
 重畳情報データ出力部では、多重化データストリームから取得された奥行き情報に基づいて、左眼重畳情報と右眼重畳情報との間に視差が付与される。そのため、この発明においては、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 なお、この発明において、例えば、重畳情報データ出力部は、奥行き情報に含まれる視差情報に基づいて左眼重畳情報と右眼重畳情報との間に視差を付与する際、受信部で新たなデスクリプタが受信されて視差情報の更新があるとき、この新たな視差情報に複数フレームをかけて到達するように、この複数フレームの間は補間処理で得られる視差情報を使用する、ようにされてもよい。これにより、視差付与に使用される視差情報の時間方向(フレーム方向の)変化をなだらかにでき、左眼および右眼のグラフィクス情報に付与する視差が急激に変化して視聴者に違和感を発生させることを抑制可能となる。
 また、この発明において、例えば、多重化データストリームには、画像データの所定期間毎の開始時点に対応させてデスクリプタが挿入されており、各期間の開始時点に対応させて多重化データストリームに挿入されているデスクリプタには、当該期間より後の期間の奥行き情報が含まれており、重畳情報データ出力部は、各期間の左眼重畳情報と右眼重畳情報との間に視差を付与する際、当該期間および当該期間の前後の期間の奥行き情報に含まれる視差情報を用いた補間処理で得られる視差情報を使用する、ようにされてもよい。これにより、視差付与に使用される視差情報の時間方向(フレーム方向の)変化をなだらかにでき、つまり視差付与に使用される視差情報の更新カーブをスムーズにでき、左眼および右眼のグラフィクス情報に付与する視差が急激に変化して視聴者に違和感を発生させることを抑制可能となる。
 この発明のさらに他の概念は、
 立体画像を構成する左眼画像データおよび右眼画像データを含むデータストリームを有し、画像表示面の分割情報と上記立体画像データに対応した各分割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入された多重化データストリームを受信する受信部と、
 上記受信部で受信された多重化データストリームから取得された、上記左眼画像データおよび上記右眼画像データと、上記奥行き情報とを、伝送路を介して、外部機器に送信する送信部と
 を備える立体画像データ受信装置にある。
 この発明においては、受信部により、左眼画像データおよび右眼画像データを含むデータストリームを有する多重化データストリームが受信される。この多重化データストリームには、画像表示面の分割情報と立体画像データに対応した各割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入されている。例えば、このデスクリプタは、プログラム・マップ・テーブル、あるいはイベント・インフォメーション・テーブルの配下に挿入されている。
 送信部により、受信部で受信された多重化データストリームから取得された、左眼画像データおよび右眼画像データと、奥行き情報とが、伝送路を介して、外部機器に送信される。例えば、送信部では、画像データが、複数チャネルで、差動信号により、伝送路を介して、外部機器に送信され、奥行き情報が、画像データのブランキング期間に挿入されて、外部機器に送信される。
 このように、この発明においては、立体画像を構成する左眼画像データおよび右眼画像データと共に、この立体画像に対応した奥行き情報が、伝送路を介して、外部機器に送信される。そのため、外部機器、例えばテレビ受信機等の画像表示装置において、奥行き情報を用いることで、左眼画像および右眼画像に重畳される重畳情報、例えばOSD等のグラフィクス情報として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができる。これにより、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 この発明によれば、立体画像表示の際の重畳情報、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性の維持を容易に図ることができる。
この発明の実施の形態としての立体画像表示システムの構成例を示すブロック図である。 放送局における送信データ生成部の構成例を示すブロック図である。 1920×1080pのピクセルフォーマットの画像データを示す図である。 立体画像データ(3D画像データ)の伝送方式である「Top &Bottom」方式、「Side By Side」方式、「FrameSequential」方式を説明するための図である。 左眼画像に対する右眼画像の視差ベクトルを検出する例を説明するための図である。 視差ベクトルをブロックマッチング方式で求めることを説明するための図である。 画像表示面を対角線を用いて分割する分割タイプ1において4分割した場合におけるポジションマップ例を示す図である。 OSDグラフィクス情報を画像の端部分にシフトした形で重畳表示する場合を示す図である。 画像表示面を対角線を用いて分割する分割タイプ1において8分割した場合におけるポジションマップ例を示す図である。 画像表示面を水平方向および垂直方向に等分割するタイプ2において4分割した場合におけるポジションマップ例を示す図である。 OSDグラフィクス情報を画像の角部分にシフトした形で重畳表示する場合を示す図である。 画像表示面を水平方向および垂直方向に等分割するタイプ2において9分割した場合におけるポジションマップ例を示す図である。 画像表示面を対角線および長方形の辺を用いて分割する分割タイプ3において5分割した場合におけるポジションマップ例を示す図である。 画像表示面を対角線により4分割する分割パターンにおける各分割領域の視差情報の代表の求め方を示す図である。 OSDグラフィクス情報を画像の端部分にシフトした形で重畳表示する場合、その重畳表示位置に対応した分割領域の視差情報(代表)を用いて、左眼、右眼のOSDグラフィクス情報に視差を付与できることを示す図である。 PMTの配下、つまりPMT中のプログラム・デスクリプタ(ProgramDescriptor)にデスクリプタ(z-Surface descriptor)が配置される多重化データストリームの構成例(case1)を示す図である。 PMTの配下、つまりビデオ・エレメンタリ・ループ(Video ESloop)のデスクリプタ(descriptor)部分にデスクリプタ(z-Surface descriptor)が配置される多重化データストリームの構成例(case2)を示す図である。 EITの配下にデスクリプタ(z-Surface descriptor)が配置される多重化データストリームの構成例(case3)を示す図である。 デスクリプタ(z-Surface descriptor)をPMTの配下に挿入し、番組期間中にデスクリプタを順次送信して奥行き情報をダイナミックに変化させる場合を示す図である。 シーン検出とデスクリプタ送信の処理概要を説明するためのフローチャートである。 各期間の開始時点で送信されるデスクリプタ(z-Surfacedescriptor)に1つ後の期間の奥行き情報を含ませる場合における各デスクリプタの送信タイミングと、各デスクリプタに含まれる奥行き情報との関係を示す図である。 デスクリプタ(z-Surface descriptor)をEITの配下に挿入し、番組期間中において奥行き情報を固定とする場合を示す図である。 デスクリプタ(z-Surface descriptor)の構造例(Syntax)を示す図である。 デスクリプタ(z-Surface descriptor)の構造例における主要な情報の内容(Semantics)を示す図である。 デスクリプタ(z-Surface descriptor)の他の構造例(Syntax)を示す図である。 セットトップボックスの構成例を示すブロック図である。 OSD表示データ発生部における視差情報の補間処理を説明するための図である。 各期間の開始時点に対応して送られてくるデスクリプタ(z-Surfacedescriptor)に1つ後の期間の奥行き情報が含まれている場合の補間処理例を説明するための図である。 テレビ受信機の構成例を示すブロック図である。 HDMI送信部(HDMIソース)とHDMI受信部(HDMIシンク)の構成例を示すブロック図である。 TMDS伝送データの構造例(横×縦が1920ピクセル×1080ラインの画像データが伝送される場合)を示す図である。 ソース機器およびシンク機器のHDMIケーブルが接続されるHDMI端子のピン配列(タイプA)を示す図である。 奥行き情報セットの送信にHDMI Vendor SpecificInfoFrame を利用する場合における、HDMI Vendor Specific InfoFrame のパケット構造例を示す図である。 立体画像表示システムの他の構成例を示す図である。 両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクトの左右像の表示位置と、その立体像の再生位置との関係を示す図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [立体画像表示システムの構成例]
 図1は、実施の形態としての立体画像表示システム10の構成例を示している。この立体画像表示システム10は、放送局100と、セットトップボックス(STB)200と、テレビ受信機(TV)300を有している。
 セットトップボックス200およびテレビ受信機300は、HDMI(HighDefinition Multimedia Interface)ケーブル400を介して接続されている。セットトップボックス200には、HDMI端子202が設けられている。テレビ受信機300には、HDMI端子302が設けられている。HDMIケーブル400の一端はセットトップボックス200のHDMI端子202に接続され、このHDMIケーブル400の他端はテレビ受信機300のHDMI端子302に接続されている。
 [放送局の説明]
 放送局100は、ビットストリームデータBSDを、放送波に載せて送信する。放送局100は、ビットストリームデータBSDを生成する送信データ生成部110を備えている。このビットストリームデータBSDには、画像データ、音声データ、奥行き情報などが含まれる。ここで、画像データ(以下、適宜、「立体画像データ」という)は、立体画像を構成する左眼画像データおよび右眼画像データを含む。音声データは、この立体画像に対応した音声データである。奥行き情報は、この立体画像に対応したものであり、画像表示面の分割情報と各分割領域の奥行き情報を含んでいる。
 「送信データ生成部の構成例」
 図2は、放送局100において送信データを生成する送信データ生成部110の構成例を示している。この送信データ生成部110は、カメラ111L,111Rと、ビデオフレーミング部112と、ディスパリティ・マップ生成部113と、マイクロホン114と、データ取り出し部115と、切換スイッチ116~118を有している。また、この送信データ生成部110は、ビデオエンコーダ119と、オーディオエンコーダ120と、奥行き情報セット作成部122と、マルチプレクサ126を有している。
 カメラ111Lは、左眼画像を撮影して立体画像表示のための左眼画像データを得る。カメラ111Rは、右眼画像を撮影して立体画像表示のための右眼画像データを得る。ビデオフレーミング部112は、カメラ111Lで得られた左眼画像データおよびカメラ111Rで得られた右眼画像データを、伝送フォーマットに応じた立体画像データ(3D画像データ)に加工処理する。このビデオフレーミング部112は、画像データ出力部を構成している。
 立体画像データの伝送フォーマット例を説明する。ここでは、以下の第1~第3の伝送フォーマットを挙げるが、これら以外の伝送フォーマットであってもよい。また、ここでは、図3に示すように、左眼(L)および右眼(R)の画像データが、それぞれ、決められた解像度、例えば、1920×1080のピクセルフォーマットの画像データである場合を例にとって説明する。
 第1の伝送方式は、トップ・アンド・ボトム(Top & Bottom)方式で、図4(a)に示すように、垂直方向の前半では左眼画像データの各ラインのデータを伝送し、垂直方向の後半では左眼画像データの各ラインのデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データのラインが1/2に間引かれることから原信号に対して垂直解像度は半分となる。
 第2の伝送方式は、サイド・バイ・サイド(Side By Side)方式で、図4(b)に示すように、水平方向の前半では左眼画像データのピクセルデータを伝送し、水平方向の後半では右眼画像データのピクセルデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データは、それぞれ、水平方向のピクセルデータが1/2に間引かれる。原信号に対して、水平解像度は半分となる。
 第3の伝送方式は、フレーム・シーケンシャル(FrameSequential)方式で、図4(c)に示すように、左眼画像データと右眼画像データとをフレーム毎に順次切換えて伝送する方式である。なお、このフレーム・シーケンシャル方式は、フル・フレーム(Full Frame)方式、あるいはバックワード・コンパチブル(BackwardCompatible)方式と称される場合もある。
 図2に戻って、ディスパリティ・マップ生成部113は、左眼画像データおよび右眼画像データに基づき、例えば、画像を構成するピクセル毎の視差情報(視差ベクトル)を検出して、ディスパリティ・マップを作成する。視差情報は、符号情報と絶対値情報とから構成される。例えば、モニタポジションより手前に知覚されるピクセル(画素)の視差情報の符号は負となり、モニタポジションより奥に知覚されるピクセルの視差情報の符号は正となる。また、モニタポジションより遠くに知覚されるピクセルほど、視差情報の絶対値は大きくなる。
 視差ベクトルの検出例について説明する。ここでは、左眼画像に対する右眼画像の視差ベクトルを検出する例について説明する。図5に示すように、左眼画像を検出画像とし、右眼画像を参照画像とする。この例では、(xi,yi)および(xj,yj)の位置における視差ベクトルが検出される。
 (xi,yi)の位置における視差ベクトルを検出する場合を例にとって説明する。この場合、左眼画像に、(xi,yi)の位置の画素を左上とする、例えば4×4、8×8、あるいは16×16の画素ブロック(視差検出ブロック)Biが設定される。そして、右眼画像において、画素ブロックBiとマッチングする画素ブロックが探索される。
 この場合、右眼画像に、(xi,yi)の位置を中心とする探索範囲が設定され、その探索範囲内の各画素を順次注目画素として、上述の画素ブロックBiと同様の例えば4×4、8×8、あるいは16×16の比較ブロックが順次設定されていく。
 画素ブロックBiと順次設定される比較ブロックとの間で、対応する画素毎の差分絶対値の総和が求められる。ここで、図6に示すように、画素ブロックBiの画素値をL(x,y)とし、比較ブロックの画素値をR(x,y)とするとき、画素ブロックBiと、ある比較ブロックとの間における差分絶対値の総和は、Σ|L(x,y)-R(x,y)|で表される。
 右眼画像に設定される探索範囲にn個の画素が含まれているとき、最終的にn個の総和S1~Snが求められ、その中で最小の総和Sminが選択される。そして、この総和Sminが得られた比較ブロックから左上の画素の位置が(xi′,yi′)が得られる。これにより、(xi,yi)の位置における視差ベクトルは、(xi′-xi,yi′-yi)のように検出される。詳細説明は省略するが、(xj,yj)の位置における視差ベクトルについても、左眼画像に、(xj,yj)の位置の画素を左上とする、例えば4×4、8×8、あるいは16×16の画素ブロックBjが設定されて、同様の処理過程で検出される。
 マイクロホン114は、カメラ111L,111Rで撮影された画像に対応した音声を検出して、音声データを得る。
 データ取り出し部115は、データ記録媒体115aを着脱自在に装着した状態で使用される。このデータ記録媒体115aは、ディスク状記録媒体、半導体メモリ等である。このデータ記録媒体115aには、左眼画像データおよび右眼画像データを含む立体画像データと共に、音声データ、ディスパリティ・マップが対応付けて記録されている。データ取り出し部115は、データ記録媒体115aから、立体画像データ、音声データおよびディスパリティ・マップを取り出して出力する。このデータ取り出し部115は、画像データ出力部を構成している。
 ここで、データ記録媒体115aに記録されている立体画像データは、ビデオフレーミング部112で得られる立体画像データに相当するものである。また、データ記録媒体115aに記録されている音声データは、マイクロホン114で得られる音声データに相当するものである。また、データ記録媒体115aに記録されているディスパリティ・マップは、ディスパリティ・マップ生成部113で生成される視差ベクトルに相当するものである。
 切り換えスイッチ116は、ビデオフレーミング部112で得られた立体画像データまたはデータ取り出し部115から出力された立体画像データを選択的に取り出す。この場合、切り換えスイッチ116は、ライブモードでは、a側に接続され、ビデオフレーミング部112で得られた立体画像データを取り出し、再生モードでは、b側に接続され、データ取り出し部115から出力された立体画像データを取り出す。
 切り換えスイッチ117は、ディスパリティ・マップ生成部113で生成されたディスパリティ・マップまたはデータ取り出し部115から出力されたディスパリティ・マップを選択的に取り出す。この場合、切り換えスイッチ117は、ライブモードでは、a側に接続され、ディスパリティ・マップ生成部113で生成されたディスパリティ・マップを取り出し、再生モードでは、b側に接続され、データ取り出し部115から出力されたディスパリティ・マップを取り出す。
 切り換えスイッチ118は、マイクロホン114で得られた音声データまたはデータ取り出し部115から出力された音声データを選択的に取り出す。この場合、切り換えスイッチ118は、ライブモードでは、a側に接続され、マイクロホン114で得られた音声データを取り出し、再生モードでは、b側に接続され、データ取り出し部115から出力された音声データを取り出す。
 ビデオエンコーダ119は、切り換えスイッチ116で取り出された立体画像データに対して、MPEG4-AVC、MPEG2、VC-1等の符号化を施し、ビデオデータストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ120は、切り換えスイッチ118で取り出された音声データに対して、AC3、AAC等の符号化を施し、オーディオデータストリーム(オーディオエレメンタリストリーム)を生成する。
 奥行き情報セット作成部122は、切り換えスイッチ117で取り出されたディスパリティ・マップに基づいて、切り換えスイッチ116から出力される所定番組の立体画像データに対応した奥行き情報セットを作成する。この奥行き情報セットは、画像表示面の分割情報と各分割領域の奥行き情報を含むものとされる。
 画像表示面の分割情報について説明する。この分割情報は、分割タイプを示す情報と、分割数を示す情報とからなる。例えば、分割タイプには、画像表示面を対角線を用いて分割する分割タイプ、画像表示面を水平方向線および/または垂直方向線を用いて分割する分割タイプなどがある。分割タイプおよび分割数が決まることで、画像表示面の分割パターンが一意に決まる。この分割タイプおよび分割数は、ユーザにより設定可能とされている。
 図7は、画像表示面を対角線を用いて分割する分割タイプ1において4分割した場合におけるポジションマップ例を示している。この例では、画像表示面が、対角線を用いて4分割されており、上側の分割領域が「0000」で表され、右側の分割領域が「0001」で表され、下側の分割領域が「0010」で表され、左側の分割領域が「0011」で表されている。
 この図7の分割例は、例えば、図8に示すように、OSDグラフィクス情報を画像の端部分にシフトした形で重畳表示する場合に、その重畳表示位置に対応した奥行き情報を送信できることから好適なものとなる。図9は、画像表示面を対角線を用いて分割する分割タイプ1において8分割した場合におけるポジションマップ例を示している。この例では、画像表示面が、対角線および長方形の辺を用いて8分割されており、各分割領域が「0000」~「0111」で表されている。
 図10は、画像表示面を水平方向および垂直方向に等分割するタイプ2において4分割した場合におけるポジションマップ例を示している。この例では、画像表示面が、垂直方向線および水平方向線で4分割されており、右上側の分割領域が「0000」で表され、右下側の分割領域が「0001」で表され、左下側の分割領域が「0010」で表され、左上側の分割領域が「0011」で表されている。
 この図10の分割例は、例えば、図11に示すように、OSDグラフィクス情報を画像の角部分にシフトした形で重畳表示する場合に、その重畳表示位置に対応した奥行き情報を送信できることから好適なものとなる。図12は、画像表示面を水平方向および垂直方向に等分割するタイプ2において9分割した場合におけるポジションマップ例を示している。この例では、画像表示面が、垂直方向線および水平方向線で9分割されており、各分割領域が「0000」~「1000」で表される。
 図13は、画像表示面を対角線および長方形の辺を用いて分割する分割タイプ3において5分割した場合におけるポジションマップ例を示している。この例では、画像表示面が、対角線および長方形の辺を用いて5分割されており、上側の分割領域が「0000」で表され、右側の分割領域が「0001」で表され、下側の分割領域が「0010」で表され、左側の分割領域が「0011」で表され、中央の分割領域が「0100」で表されている。この図13の分割例は、OSDグラフィクス情報を、画像の端部分にシフトした形で、あるいは画像の中央部分に重畳表示する場合に、その重畳表示位置に対応した奥行き情報を送信できることから好適なものとなる。
 次に、各分割領域の奥行き情報について説明する。この奥行き情報には、画像面情報が含まれる。この画像面情報は、モニタポジションに対して、立体画像面が手前にあるか否かを示す情報である。この立体画像面は、対応する領域の画像内の、遠近感でいうところの最も近い物体の面を意味している。この実施の形態において、この画像面情報は、立体画像面に対応した視差情報(視差ベクトル)を構成する符号情報とされる。この場合、符号情報は、モニタポジションに対して立体画像面が手前にあるときは、「負」を示すものとされる。
 また、この奥行き情報には、上述の画像面情報の他に、視差情報が含まれることもある。この視差情報として、例えば、対応する領域の画像を構成する各ピクセル(画素)の視差情報(視差ベクトル)のうち、遠近感でいうところの最も手前に知覚されるピクセルの視差情報が代表として使用される。この場合、「負」の視差情報があるときは、その中で最も絶対値の大きな視差情報とされる。また、この場合、「負」の視差情報がないときは、最も絶対値の小さな視差情報とされる。このように、視差情報が含まれる場合にあって、上述したように画像面情報が視差情報を構成する符号情報とされるときには、視差情報を構成する絶対値情報をさらに含めるだけで済む。
 各分割領域における視差情報の代表は、例えば、分割領域内において、画素毎、あるいは所定の大きさのブロック毎の視差情報を表示スキャン順に比較していくことで求めることができる。図14は、上述したように、画像表示面を対角線により4分割する分割パターンにおける各分割領域の視差情報の代表の求め方を示している。この場合、各分割領域では、視差情報の代表として、「Disparity_00」、「Disparity_01」、「Disparity_10」、「Disparity_11」が求められる。
 画像表示面を対角線により4分割する分割パターンにおいて、各分割領域の画像面情報だけでなく視差情報をも送信する場合、例えば、上述したように求められた各分割領域の視差情報の代表が使用される。その場合、図15に示すように、OSDグラフィクス情報を画像の端部分にシフトした形で重畳表示する場合、その重畳表示位置に対応した分割領域の視差情報(代表)を用いて、左眼、右眼のOSDグラフィクス情報に視差を付与することが可能となる。
 奥行き情報セットには、分割領域毎に、あるいは各分割領域共通に、視差情報の存在を示すフラグ情報が挿入される。奥行き情報として、画像面情報の他に視差情報が含まれることで、受信側において、立体画像面の位置がモニタポジションに対して手前にあるか否かだけでなく、その位置をより詳細に把握可能となる。また、フラグ情報が挿入されていることにより、奥行き情報として、画像面情報のみ、あるいは画面情報および視差情報の双方を、選択的に送信することが可能となる。
 受信側において画像にOSDグラフィクス情報を重畳する場合、左右のOSDグラフィクス情報に視差を付与しなければならないのは、立体画像面がモニタポジションより手前にある場合である。その場合、左右のOSDグラフィクス情報に視差を付与して、このOSDグラフィクス情報が立体画像面より手前に知覚されるようにする必要がある。ただ、左右のOSDグラフィクス情報にどの程度の視差を付与するかは受信側で任意に設定可能であり、従って、画像面情報のみを送信することにも充分意義がある。
 マルチプレクサ126は、ビデオエンコーダ119およびオーディオエンコーダ120からの各データストリームを多重化し、ビットストリームデータ(トランスポートストリーム)BSDとしての多重化データストリームを得る。また、マルチプレクサ126は、このビットストリームデータBSDに、奥行き情報セット作成部122で作成された奥行き情報セットを挿入する。具体的には、マルチプレクサ126は、ビットストリームデータBSDに挿入されるPSI情報またはSI情報の所定位置に、奥行き情報セットを含むデスクリプタ(z-Surface descriptor)を挿入する。このデスクリプタの詳細については、後述する。
 図2に示す送信データ生成部110の動作を簡単に説明する。カメラ111Lでは、左眼画像が撮影される。このカメラ111Lで得られる立体画像表示のための左眼画像データはビデオフレーミング部112に供給される。また、カメラ111Rでは、右眼画像が撮影される。このカメラ111Rで得られる立体画像表示のための右眼画像データはビデオフレーミング部112に供給される。ビデオフレーミング部112では、左眼画像データおよび右眼画像データが、伝送フォーマットに応じた状態に加工処理されて、立体画像データが得られる(図4(a)~(c)参照)。
 ビデオフレーミング部112で得られた立体画像データは、切り換えスイッチ116のa側の固定端子に供給される。また、データ取り出し部115で得られた立体画像データは、切り換えスイッチ116のb側の固定端子に供給される。ライブモードでは、切り換えスイッチ116はa側に接続され、この切り換えスイッチ116からはビデオフレーミング部112で得られた立体画像データが取り出される。再生モードでは、切り換えスイッチ116はb側に接続され、この切り換えスイッチ116からはデータ取り出し部115から出力された立体画像データが取り出される。
 切り換えスイッチ116で取り出された立体画像データは、ビデオエンコーダ119に供給される。このビデオエンコーダ119では、その立体画像データに対してMPEG4-AVC、MPEG2、VC-1等の符号化が施され、符号化ビデオデータを含むビデオデータストリームが生成される。このビデオデータストリームはマルチプレクサ126に供給される。
 マイクロホン114で得られた音声データは、切り換えスイッチ118のa側の固定端子に供給される。また、データ取り出し部115で得られた音声データは、切り換えスイッチ118のb側の固定端子に供給される。ライブモードでは、切り換えスイッチ118はa側に接続され、この切り換えスイッチ118からはマイクロホン114で得られた音声データが取り出される。再生モードでは、切り換えスイッチ118はb側に接続され、この切り換えスイッチ118からはデータ取り出し部115から出力された音声データが取り出される。
 切り換えスイッチ118で取り出された音声データはオーディオエンコーダ120に供給される。このオーディオエンコーダ120では、音声データに対して、MPEG-2Audio AAC、あるいは、MPEG-4 AAC等の符号化が施され、符号化オーディオデータを含むオーディオデータストリームが生成される。このオーディオデータストリームはマルチプレクサ126に供給される。
 カメラ111L,111Rで得られた左眼画像データ、右眼画像データは、ビデオフレーミング部112を通じて、ディスパリティ・マップ生成部113に供給される。このディスパリティ・マップ生成部113では、左眼画像データおよび右眼画像データに基づき、ピクセル(画素)毎の視差ベクトルが検出され、ディスパリティ・マップが生成される。このディスパリティ・マップは、切換スイッチ117のa側の固定端子に供給される。また、データ取り出し部115から出力されたディスパリティ・マップは、切り換えスイッチ117のb側の固定端子に供給される。
 ライブモードでは、切り換えスイッチ117はa側に接続され、この切り換えスイッチ117からはディスパリティ・マップ生成部113で生成されたディスパリティ・マップが取り出される。再生モードでは、切り換えスイッチ117はb側に接続され、この切り換えスイッチ117からはデータ取り出し部115から出力されたディスパリティ・マップが取り出される。
 切り換えスイッチ117で取り出されたディスパリティ・マップは、奥行き情報セット作成部122に供給される。この奥行き情報セット作成部122では、ディスパリティ・マップに基づいて、切り換えスイッチ116から出力される所定番組の立体画像データに対応した奥行き情報セットが作成される。この奥行き情報セットには、画像表示面の分割情報と各分割領域の奥行き情報が含まれている。この奥行き情報セットは、マルチプレクサ126に供給される。
 マルチプレクサ126では、ビデオエンコーダ119およびオーディオエンコーダ120からの各データストリームが多重化され、ビットストリームデータ(トランスポートストリーム)BSDとしての多重化データストリームが得られる。
 また、このマルチプレクサ126では、このビットストリームデータBSDに、奥行き情報セット作成部122で作成された奥行き情報セットが挿入される。すなわち、このマルチプレクサ126では、ビットストリームデータBSDに挿入されるPSI情報またはSI情報の所定位置に、奥行き情報セットを含むデスクリプタ(z-Surface descriptor)が挿入される。
 [多重化データストリームの構成例]
 図16~図18は、多重化データストリーム(トランスポートストリーム)の構成例を示している。この多重化データストリームには、各エレメンタリストリームをパケット化して得られたPESパケットが含まれている。この構成例では、ビデオエレメンタリストリームのPESパケット「Video PES」、オーディオエレメンタリストリームのPESパケット「AudioPES」が含まれている。
 また、トランスポートストリームには、PSI(Program SpecificInformation)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記載した情報である。また、トランスポートストリームには、イベント単位の管理を行うSI(Serviced Information)としてのEIT(Event InformationTable)が含まれている。このEITには、番組単位のメタデータが記載される。
 PMTには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ(ProgramDescriptor)が存在する。また、このPMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ、オーディオエレメンタリ・ループが存在する。各エレメンタリ・ループには、ストリーム毎に、パケット識別子(PID)等の情報が配置されると共に、図示していないが、そのエレメンタリストリームに関連する情報を記述する記述子(デスクリプタ)も配置される。
 図16、図17に示す多重化データストリームの構成例は、奥行き情報セットを含むデスクリプタ(z-Surface descriptor)を、PMTの配下に挿入する例である。すなわち、図16に示す多重化データストリームの構成例(case1)では、PMT中のプログラム・デスクリプタ(ProgramDescriptor)に、デスクリプタ(z-Surface descriptor)が配置されている。また、図17に示す多重化データストリームの構成例(case2)では、ビデオ・エレメンタリ・ループ(Video ES loop)のデスクリプタ(descriptor)部分に、デスクリプタ(z-Surface descriptor)が配置されている。また、図18に示す多重化データストリームの構成例(case3)は、奥行き情報セットを含むデスクリプタ(z-Surfacedescriptor)を、EITの配下に挿入する例である。
 奥行き情報セットを含むデスクリプタ(z-Surface descriptor)をPMTの配下に挿入する場合、図19に示すように、番組期間中の所定タイミングでデスクリプタを送ることができ、番組期間中において、奥行き情報をダイナミックに変化させることが可能となる。図19に示す例では、番組期間中において、奥行き情報a、奥行き情報b、奥行き情報cの順にダイナミックに変えられている。この奥行き情報の更新期間は、例えば、100msec、あるいは100msecより長い期間とされる。
 デスクリプタを送信するタイミングとしては、例えば、シーン変化点が考えられる。その場合、番組期間中の先頭タイミングでデスクリプタを送信し、その後は、シーン変化点毎にデスクリプタを送信して、奥行き情報の更新が図られる。図20は、シーン検出とデスクリプタ送信の処理概要を示している。
 この場合、現在フレームに含まれる全てのブロックについて、1フレーム前の画像データと比較されて動きベクトルが検出される。そして、現在フレームと1フレーム前のフレームとの間で、相関度の検査値として、ブロック毎の動きベクトル(大きさ)の差分値の総和Σ(mv((t-1)-mv(t))が算出される。同様に、1フレーム前のフレームと2フレーム前のフレームとの間で、相関度の検査値として、ブロック毎の動きベクトル(大きさ)の差分値の総和Σ(mv((t-2)-mv(t-1))が算出される。
 1フレーム前のフレームと2フレーム前のフレームの間の動きベクトルの相関が高く、かつ、現在フレームと1フレーム前のフレームとの間の動きベクトルの相関が小さいとき、シーン変化があったと判断される。つまり、「Σ(mv((t-2)-mv(t-1))<threshold2)」を満たし、かつ「Σ(mv((t-1)-mv(t))<threshold1)を満たさないとき、シーン変化があったと判断される。このようにシーン変化があったと判断されたとき、デスクリプタの送信が行われる。このデスクリプタには、シーン変化後の画像(現在フレームの画像)に対応した奥行き情報が含まれることとなる。なお、シーン検出方法は、上述例に限定されないことは勿論である。
 上述したように、番組期間中において、所定期間毎の奥行き情報を含むデスクリプタを送ることができる、その場合、図19に示すように、各期間の開始時点に対応させてデスクリプタ(z-Surface descriptor)が送信される。この場合、デスクリプタに、当該期間の奥行き情報を含ませることの他に、当該期間より後の期間、例えば1つ後の期間の奥行き情報を、いわゆる先出し情報として含ませることも考えられる。
 図21は、その場合における各デスクリプタ(z-Surface descriptor)の送信タイミングと、各デスクリプタに含まれる奥行き情報との関係を示している。例えば、期間Aの開始時点で送信されるデスクリプタ(z-Surface descriptor)には、期間Bの奥行き情報bが含まれる。また、期間Bの開始時点で送信されるデスクリプタ(z-Surface descriptor)には、期間Cの奥行き情報cが含まれる。以下の各期間の開始時点で送信されるデスクリプタ(z-Surface descriptor)においても同様であり、そのデスクリプタには、次に期間の奥行き情報が含まれる。
 このように各期間の開始時点で送信されるデスクリプタ(z-Surfacedescriptor)に、その後の期間、例えば1つ後の期間の奥行き情報を先出し情報として含ませることで、受信側において時間方向変化がなだらかな視差情報を得ることが可能となる。すなわち、受信側において、各期間の左眼重畳情報と右眼重畳情報との間に視差を付与する際に使用する視差情報として、当該期間および当該期間の前後の期間の奥行き情報セットに含まれる視差情報を用いた補間処理を行うことが可能となる。そして、これにより、時間方向(フレーム方向の)変化がなだらかな、つまり更新カーブがスムーズとなる視差情報を得ることが可能となる。
 なお、図21において、破線S1は送信される立体画像データにおける視差情報カーブ(Video disparity curve)の一例を示し、実線S2は、各期間に対応して更新される視差情報(Disparity update)の一例を示している。また、この図21において、破線S3は、受信側において、補間処理で得られる視差情報カーブ(Receiver interpolation curve)の一例を示している。
 この場合、受信側においては、例えば以下のような補間処理が行われる。すなわち、各期間の前半では、前の期間の視差情報と当該期間の視差情報との混合比率が当該期間の方が順次高くされていくことで、各時点の補間視差情報が得られる。また、各期間の後半では、当該期間の視差情報と後の期間の視差情報との混合比率が後の期間の方が順次高くされていくことで、各時点の補間視差情報が得られる。
 また、奥行き情報セットを含むデスクリプタ(z-Surface descriptor)をEITの配下に挿入する場合、図22に示すように、番組の最初にデスクリプタ送信でき、番組期間中において、奥行き情報は固定となる。
 [デスクリプタ(z-Surface descriptor)の構造例]
 図23は、デスクリプタ(z-Surface descriptor)の構造例(Syntax)を示している。図24は、図23に示す構造例における主要な情報の内容(Semantics)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタ(記述子)のタイプを示し、ここでは、デスクリプタ(z-Surface descriptor)であることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示す8ビットのデータである。このデータは、デスクリプタの長さとして、「descriptor _length」以降のバイト数を示す。
 「display_partition_type」の2ビットフィールドは、画像表示面の分割タイプを示す(図7~図13参照)。「number_of_partition」の4ビットフィールドは、画像表示面の分割数を示す。ここで、“0000”は画像表示面が分割されていないこと、つまり、分割数=1を示す。この場合には、デスクリプタ(z-Surface descriptor)には、画像表示面の全体に対する、単一の奥行き情報が含まれる。画像表示面の分割数分だけ、以降のforループが繰り返される。
 「z_depth_negative 」の1ビットフィールドは、画像面情報を示す。この画像面情報は、上述したように、モニタポジションに対して立体画像面(対応する分割領域の画像内の、遠近感でいうところの最も近い物体の面)が負(手前)にあるか否かを示す。“1”は、立体画像面がモニタポジションに対して負(手前)にあることを示す。“1”は、立体画像面がモニタポジションと同じか、モニタポジションに対して正(奥)にあることを示す。
 なお、この実施の形態においては、上述したように、「z_depth_negative 」の1ビットフィールドとして、視差情報を構成する符号情報が用いられる。この場合の視差情報は、対応する領域の画像を構成する各ピクセル(画素)の視差情報(視差ベクトル)のうち、遠近感でいうところの最も手前に知覚されるピクセルの視差情報であり、立体画像面を構成するピクセルの視差情報である。
 「disparity_value_flag」は、上述の画像面情報の他に、視差情報が存在するか否かを示す1ビットのフラグ情報である。この場合の視差情報は、例えば、上述した立体画像面を構成するピクセルの視差情報である。“1”は視差情報が存在することを示し、“0”は視差情報が存在しないことを示す。このフラグ情報が“1”であるとき、「absolute_disparity_value」の8ビットフィールドが存在する。この「absolute_disparity_value」は、視差情報を構成する絶対値情報を示す。この絶対値情報と上述の画像面情報としての符号情報により、視差情報が構成される。
 図25は、デスクリプタ(z-Surface descriptor)の他の構造例(Syntax)を示している。この構造例において、「disparity_value_flag」は各分割領域で共通とされ、forループの外側に配置されている。forループの中には、「z_depth_negative 」の1ビットフィールドが存在する。また、このforループの中には、「disparity_value_flag」が“1”で視差情報の存在を示すとき「absolute_disparity_value」の7ビットフィールドが存在し、その他のとき7ビットの「reserved」が存在する。
 このように、図25に示すデスクリプタ(z-Surface descriptor)の構造例では、forループ中のバイトアライン(Byte Align)が確保されている。つまり、この図25に示すデスクリプタの構造例では、forループ中に、バイトアライン(Byte Align)を確保するための「bit_stuffing」は不要となる。
 図2に示す送信データ生成部110において、マルチプレクサ126から出力されるビットストリームデータBSDには、左眼画像データおよび右眼画像データを有する所定番組の立体画像データと共に、所定番組の立体画像データに対応した奥行き情報セットが含まれている。そのため、受信側において、この奥行き情報セットを用いることで、左眼画像および右眼画像に重畳される重畳情報、例えばOSD等のグラフィクス情報として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができる。これにより、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 また、図2に示す送信データ生成部110において、奥行き情報セットは、画像表示面の分割情報と各分割領域の奥行き情報を含むものであって、立体画像データを含むデータストリームを有するビットストリームデータ(多重化データストリーム)BSDに挿入されるデスクリプタに含まれて送信される。つまり、奥行き情報セットを、デスクリプタを用いて、受信側に簡単に送信できる。
 [セットトップボックスの説明]
 図1に戻って、セットトップボックス200は、放送局100から放送波にのせて送信されてくるビットストリームデータ(トランスポートストリーム)BSDを受信する。このビットストリームデータBSDには、左眼画像データおよび右眼画像データを含む立体画像データ、音声データ、奥行き情報セットが含まれる。
 セットトップボックス200は、ビットストリーム処理部201を有している。このビットストリーム処理部201は、ビットストリームデータから、立体画像データ、音声データ、奥行き情報セット等を抽出する。このビットストリーム処理部201は、適宜、OSD等のグラフィクス情報が重畳された左眼画像および右眼画像のデータを生成する。この場合、奥行き情報セットに基づいて、左眼画像に重畳する左眼グラフィクス情報と右眼画像に重畳する右眼グラフィクス情報との間には視差が付与される。このように左眼グラフィクス情報と右眼グラフィクスとの間に視差が付与されることで、ユーザは、立体画像に重畳されるOSD等のグラフィクス情報を、例えば、画像の手前に認識可能となる。
 [セットトップボックスの構成例]
 セットトップボックス200の構成例を説明する。図26は、セットトップボックス200の構成例を示している。このセットトップボックス200は、ビットストリーム処理部201と、HDMI端子202と、アンテナ端子203と、デジタルチューナ204と、映像処理回路205と、HDMI送信部206と、音声処理回路207を有している。また、このセットトップボックス200は、CPU211と、フラッシュROM212と、DRAM213と、内部バス214と、リモコン受信部215と、リモコン送信機216を有している。
 アンテナ端子203は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ204は、アンテナ端子203に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)BSDを出力する。
 ビットストリーム処理部201は、上述したように、ビットストリームデータBSDから立体画像データ、音声データ等を抽出して出力する。このビットストリーム処理部201は、立体画像データに対して、適宜、OSD等のグラフィクス情報の表示データを合成する。その際、ビットストリーム処理部201は、奥行き情報セットに基づいて、適宜、左眼画像に重畳する左眼グラフィクス情報と右眼画像に重畳する右眼グラフィクス情報との間に視差を付与する。
 映像処理回路205は、ビットストリーム処理部201から出力される立体画像データに対して必要に応じて画質調整処理などを行い、処理後の立体画像データをHDMI送信部206に供給する。音声処理回路207は、ビットストリーム処理部201から出力された音声データに対して必要に応じて音質調整処理等を行い、処理後の音声データをHDMI送信部206に供給する。
 HDMI送信部206は、HDMIに準拠した通信により、例えば、非圧縮の画像データおよび音声データを、HDMI端子202から送出する。この場合、HDMIのTMDSチャネルで送信するため、画像データおよび音声データはパッキングされ、HDMI送信部206からHDMI端子202に出力される。また、このHDMI送信部206は、上述の奥行き情報セットを、HDMIインタフェースで、テレビ受信機300に送信する。このHDMI送信部206の詳細は後述する。
 CPU211は、セットトップボックス200の各部の動作を制御する。フラッシュROM212は、制御ソフトウェアの格納およびデータの保管を行う。DRAM213は、CPU211のワークエリアを構成する。CPU211は、フラッシュROM212から読み出したソフトウェアやデータをDRAM213上に展開してソフトウェアを起動させ、セットトップボックス200の各部を制御する。
 リモコン受信部215は、リモコン送信機216から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU211に供給する。CPU211は、このリモコンコードに基づいて、セットトップボックス200の各部を制御する。CPU211、フラッシュROM212およびDRAM213は内部バス214に接続されている。
 ビットストリーム処理部201について説明する。このビットストリーム処理部201は、デマルチプレクサ220と、ビデオデコーダ221と、オーディオデコーダ224と、OSD表示データ発生部226と、ビデオ重畳部228を有している。デマルチプレクサ220は、ビットストリームデータBSDから、ビデオ、オーディオのパケットを抽出し、各デコーダに送る。また、デマルチプレクサ220は、ビットストリームデータBSDから、奥行き情報セットを抽出し、OSD表示データ発生部226と、上述したHDMI送信部206に送る。
 ビデオデコーダ221は、デマルチプレクサ220で抽出されたビデオのパケットからビデオのエレメンタリストリームを再構成し、復号化処理を行って、左眼画像データおよび右眼画像データを含む立体画像データを得る。オーディオデコーダ224は、デマルチプレクサ220で抽出されたオーディオのパケットからオーディオのエレメンタリストリームを再構成し、復号化処理を行って、音声データを得て、ビットストリーム処理部201の外部に出力する。
 OSD表示データ発生部226は、立体画像データに含まれる左眼画像データに対応した左眼グラフィクス情報のデータおよび立体画像データに含まれる右眼画像データに対応した右眼グラフィクス情報のデータを発生する。この場合、OSD表示データ発生部226は、デマルチプレクサ220で抽出された奥行き情報セットに含まれる画像面情報、あるいは画像面情報および視差情報に基づいて、左眼グラフィクス情報と右眼グラフィクス情報との間に、適宜、視差を付与する。
 例えば、画像面情報に基づいて、立体画像面がモニタポジションに対して手前に位置する場合には、グラフィクス情報が立体画像面より手前に知覚されるように、予め決められた所定の視差が付与される。また、例えば、画像面情報に基づいて、立体画像面がモニタポジションと同じ位置か、あるいはそれより奥に位置する場合には、視差は付与されない。また、例えば、視差情報に基づいて、グラフィクス情報が立体画像面より手前に知覚されるように視差が付与される。
 ここで、奥行き情報セットを含むデスクリプタ(z-Surface descriptor)がPMTの配下に挿入される場合にあっては、番組期間中において各分割領域の奥行き情報の更新が可能となる(図19参照)。OSD表示データ発生部226は、このように更新される奥行き情報、例えば視差情報を用いることで、左眼および右眼のグラフィクス情報に付与する視差を動的に変化させることができる。
 この場合、OSD表示データ発生部226は、あるデスクリプタ(z-Surfacedescriptor)に含まれる視差情報を次にデスクリプタ(z-Surface descriptor)が送信されてくるまでの各フレームで使用するということを、繰り返すことも可能である。しかし、その場合、デスクリプタが送信されてきて視差情報が更新される時点で、左眼および右眼のグラフィクス情報に付与する視差が急激に変化して視聴者に違和感を発生させるおそれがある。
 そこで、この実施の形態において、OSD表示データ発生部226は、図27に示すように、次のデスクリプタ(z-Surface descriptor)が送られてきた場合、そのデスクリプタに含まれる視差情報を直ちに用いることをしない。つまり、OSD表示データ発生部226は、新たな視差情報に複数フレームをかけて到達するように、この複数フレームの間は補間処理による視差情報(破線図示)を使用する。この処理により、視差付与に使用される視差情報の時間方向(フレーム方向の)変化をなだらかにでき、左眼および右眼のグラフィクス情報に付与する視差が急激に変化して視聴者に違和感を発生させることを抑制できる。
 上述の図27に示す補間処理例は、各期間の開始時点に対応して送られてくるデスクリプタ(z-Surface descriptor)に、当該期間の奥行き情報が含まれている場合を示している。各期間の開始時点に対応して送られてくるデスクリプタ(z-Surface descriptor)に、その後の期間、例えば1つ後の期間の奥行き情報が含まれている場合の補間処理例を説明する。
 図28は、その場合の補間処理例を示している。この場合、期間Aの開始時点で送られてくるデスクリプタ(z-Surface descriptor)には、期間Bの奥行き情報bが含まれている。また、期間Bの開始時点で送られてくるデスクリプタ(z-Surface descriptor)には、期間Cの奥行き情報cが含まれている。以下の各期間の開始時点で送られてくるデスクリプタ(z-Surface descriptor)においても同様であり、そのデスクリプタには、次に期間の奥行き情報が含まれている。
 この場合、以下のような補間処理が行われて、各時点の補間視差情報が得られる。すなわち、各期間の前半では、前の期間の視差情報と当該期間の視差情報との混合比率が当該期間の方が順次高くされていくことで、各時点の補間視差情報が得られる。また、各期間の後半では、当該期間の視差情報と後の期間の視差情報との混合比率が後の期間の方が順次高くされていくことで、各時点の補間視差情報が得られる。
 例えば、期間Aの中間時点から期間Bの中間時点までの期間T_ABの各時点の補間視差情報は、期間Aの視差情報と期間Bの視差情報との混合比率を順次変化させることで得られる。この場合、期間Aの視差情報に関しては100%から0%に順次変化させられ、期間Bの視差情報に関しては0%から100%に順次変化させられる。また、例えば、期間Bの中間時点から期間Cの中間時点までの期間T_BCの各時点の補間視差情報は、期間Bの視差情報と期間Cの視差情報との混合比率を順次変化させることで得られる。この場合、期間Bの視差情報に関しては100%から0%に順次変化させられ、期間Cの視差情報に関しては0%から100%に順次変化させられる。
 なお、図28において、破線S1は送信されてくる立体画像データにおける視差情報カーブ(Video disparity curve)の一例を示し、実線S2は、各期間に対応して更新される視差情報(Disparity update)の一例を示している。また、この図28において、破線S3は、補間処理で得られる視差情報カーブ(Receiver interpolation curve)の一例を示している。
 図28に示すような補間処理が行われることで、時間方向変化がなだらかな、つまり更新カーブがスムーズとなる視差情報を得ることが可能となる。これにより、視差付与に使用される視差情報の時間方向(フレーム方向の)変化をなだらかにでき、左眼および右眼のグラフィクス情報に付与する視差が急激に変化して視聴者に違和感を発生させることを抑制できる。
 ビデオ重畳部228は、ビデオデコーダ221で得られた立体画像データ(左眼画像データ、右眼画像データ)に対し、OSD表示データ発生部226で発生された左眼および左眼のグラフィクス情報のデータを重畳し、表示用立体画像データを得る。そして、このビデオ重畳部228は、表示用立体画像データを、ビットストリーム処理部201の外部に出力する。
 セットトップボックス200の動作を簡単に説明する。アンテナ端子203に入力されたテレビ放送信号はデジタルチューナ204に供給される。このデジタルチューナ204では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)BSDが出力される。
 デジタルチューナ204から出力されるビットストリームデータBSDは、ビットストリーム処理部201に供給される。このビットストリーム処理部201では、ビットストリームデータBSDから立体画像データ、音声データ、奥行き情報セット等が抽出される。ビットストリーム処理部201では、立体画像データに対して、適宜、OSD等のグラフィクス情報の表示データが合成される。
 その際、ビットストリーム処理部201では、奥行き情報セットに基づいて、左眼画像に重畳する左眼グラフィクス情報と右眼画像に重畳する右眼グラフィクス情報との間に視差が付与される。これにより、立体画像に重畳表示されるOSD等のグラフィクス情報に関して、画像内の各物体との間の遠近感の整合性を最適な状態に維持することが可能となる。
 ビットストリーム処理部201で得られた表示用立体画像データは、映像処理回路205に供給される。この映像処理回路205では、表示用立体画像データに対して、必要に応じて画質調整処理等が行われる。この映像処理回路205から出力される処理後の表示用立体画像データは、HDMI送信部206に供給される。
 また、ビットストリーム処理部201で得られた音声データは、音声処理回路207に供給される。この音声処理回路207では、音声データに対して、必要に応じて音質調整処理等の処理が行われる。この音声処理回路207から出力される処理後の音声データは、HDMI送信部206に供給される。そして、HDMI送信部206に供給された立体画像データおよび音声データは、HDMIのTMDSチャネルにより、HDMI端子202からHDMIケーブル400に送出される。
 [テレビ受信機の説明]
 図1に戻って、テレビ受信機300は、セットトップボックス200からHDMIケーブル400を介して送られてくる立体画像データを受信する。このテレビ受信機300は、3D信号処理部301を有している。この3D信号処理部301は、立体画像データに対して、伝送方式に対応した処理(デコード処理)を行って、左眼画像データおよび右眼画像データを生成する。この3D信号処理部301は、立体画像データを構成する左眼画像データおよび右眼画像データを取得する。
 [テレビ受信機の構成例]
 テレビ受信機300の構成例を説明する。図29は、テレビ受信機300の構成例を示している。このテレビ受信機300は、3D信号処理部301と、HDMI端子302と、HDMI受信部303と、アンテナ端子304と、デジタルチューナ305と、ビットストリーム処理部306を有している。
 また、このテレビ受信機300は、OSD表示データ発生部313と、ビデオ重畳部314と、映像処理回路307と、パネル駆動回路308と、表示パネル309と、音声処理回路310と、音声増幅回路311と、スピーカ312を有している。また、このテレビ受信機300は、CPU321と、フラッシュROM322と、DRAM323と、内部バス324と、リモコン受信部325と、リモコン送信機326を有している。
 アンテナ端子304は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ305は、アンテナ端子304に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)を出力する。
 ビットストリーム処理部306は、図26に示すセットトップボックス200のビットストリーム処理部201と同様の構成とされている。このビットストリーム処理部306は、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、奥行き情報セット等を抽出する。
 HDMI受信部303は、HDMIに準拠した通信により、HDMIケーブル400を介してHDMI端子302に供給される非圧縮の画像データおよび音声データを受信する。このHDMI受信部303は、そのバージョンが例えばHDMI1.4とされており、立体画像データの取り扱いが可能な状態にある。また、このHDMI受信部303は、上述の奥行き情報セットを、HDMIインタフェースで、セットトップボックス200から受信する。このHDMI受信部303の詳細は後述する。
 3D信号処理部301は、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた立体画像データに対して、デコード処理を行って、左眼画像データおよび右眼画像データを生成する。この場合、3D信号処理部301は、ビットストリーム処理部306で得られた立体画像データに対しては、その伝送方フォーマットに対応したデコード処理を行う。また、3D信号処理部301は、HDMI受信部303で受信された立体画像データに対しては、後述するTMDS伝送データ構造に対応したデコード処理を行う。
 OSD表示データ発生部313は、立体画像データに含まれる左眼画像データに対応した左眼グラフィクス情報のデータおよび立体画像データに含まれる右眼画像データに対応した右眼グラフィクス情報のデータを発生する。このグラフィクス情報は、メニュー、番組表などのOSD表示のための重畳情報である。
 この場合、OSD表示データ発生部313は、ビットストリーム処理部306で得られた、あるいはHDMI受信部303で受信された奥行き情報セットに基づいて、左眼グラフィクス情報と右眼グラフィクス情報との間に視差を付与する。ここで、OSD表示データ発生部313は、奥行き情報セットに含まれる画像面情報、あるいは画像面情報および視差情報に基づいて、左眼グラフィクス情報と右眼グラフィクス情報との間に、適宜、視差を付与する。
 例えば、画像面情報に基づいて、立体画像面がモニタポジションに対して手前に位置する場合には、グラフィクス情報が立体画像面より手前に知覚されるように、予め決められた所定の視差が付与される。また、例えば、画像面情報に基づいて、立体画像面がモニタポジションと同じ位置か、あるいはそれより奥に位置する場合には、視差は付与されない。また、例えば、視差情報に基づいて、グラフィクス情報が立体画像面より手前に知覚されるように視差が付与される。
 ビデオ重畳部314は、3D信号処理部301で得られた立体画像データ(左眼画像データ、右眼画像データ)に対し、OSD表示データ発生部313で発生された左眼および左眼のグラフィクス情報のデータを重畳し、表示用立体画像データを得る。
 映像処理回路307は、3D信号処理部301で生成された左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データを生成する。また、映像処理回路307は、画像データに対して、必要に応じて、画質調整処理を行う。パネル駆動回路308は、映像処理回路307から出力される画像データに基づいて、表示パネル309を駆動する。表示パネル309は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。
 音声処理回路310は、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理を行う。音声増幅回路311は、音声処理回路310から出力される音声信号を増幅してスピーカ312に供給する。
 CPU321は、テレビ受信機300の各部の動作を制御する。フラッシュROM322は、制御ソフトウェアの格納およびデータの保管を行う。DRAM323は、CPU321のワークエリアを構成する。CPU321は、フラッシュROM322から読み出したソフトウェアやデータをDRAM323上に展開してソフトウェアを起動させ、テレビ受信機300の各部を制御する。
 リモコン受信部325は、リモコン送信機326から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU321に供給する。CPU321は、このリモコンコードに基づいて、テレビ受信機300の各部を制御する。CPU321、フラッシュROM322およびDRAM323は、内部バス324に接続されている。
 図29に示すテレビ受信機300の動作を簡単に説明する。HDMI受信部303では、HDMI端子302にHDMIケーブル400を介して接続されているセットトップボックス200から送信されてくる、立体画像データおよび音声データが受信される。このHDMI受信部303で受信された立体画像データは、3D信号処理部301に供給される。また、このHDMI受信部303で受信された音声データは音声処理回路310に供給される。
 アンテナ端子304に入力されたテレビ放送信号はデジタルチューナ305に供給される。このデジタルチューナ305では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)が出力される。
 デジタルチューナ305から出力されるビットストリームデータは、ビットストリーム処理部306に供給される。このビットストリーム処理部306では、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、奥行き情報セット等が抽出される。ビットストリーム処理部306で得られた立体画像データは、3D信号処理部301に供給される。また、このビットストリーム処理部306で得られた音声データは、音声処理回路310に供給される。
 3D信号処理部301では、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた立体画像データに対してデコード処理が行われて、左眼画像データおよび右眼画像データが生成される。この左眼画像データおよび右眼画像データは、ビデオ重畳部314に供給される。
 OSD表示データ発生部313では、立体画像データに含まれる左眼画像データに対応した左眼グラフィクス情報のデータおよび立体画像データに含まれる右眼画像データに対応した右眼グラフィクス情報のデータが発生される。この場合、OSD表示データ発生部313では、ビットストリーム処理部306で得られた、あるいはHDMI受信部303で受信された奥行き情報セットに基づいて、左眼グラフィクス情報と右眼グラフィクス情報との間に視差が付与される。
 ビデオ重畳部314では、3D信号処理部301で得られた立体画像データ(左眼画像データ、右眼画像データ)に対し、OSD表示データ発生部313で発生された左眼および左眼のグラフィクス情報のデータが重畳し、表示用立体画像データが得られる。この表示用立体画像データは、映像処理回路307に供給される。この映像処理回路307では、左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データが生成され、必要に応じて、画質調整処理も行われる。
 映像処理回路307で得られる画像データはパネル駆動回路308に供給される。そのため、表示パネル309により立体画像が表示される。例えば、表示パネル309に、左眼画像データによる左眼画像および右眼画像データによる右眼画像が交互に時分割的に表示される。視聴者は、表示パネル309の表示に同期して左眼シャッタおよび右眼シャッタが交互に開くシャッタメガネを装着することで、左眼では左眼画像のみを見ることができ、右眼では右眼画像のみを見ることができ、立体画像を知覚できる。
 また、音声処理回路310では、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理が施される。この音声データは、音声増幅回路311で増幅された後に、スピーカ312に供給される。そのため、スピーカ312から表示パネル309の表示画像に対応した音声が出力される。
 [HDMI送信部、HDMI受信部の構成例]
 図30は、図1の立体画像表示システム10における、セットトップボックス200のHDMI送信部(HDMIソース)206と、テレビ受信機300のHDMI受信部(HDMIシンク)303の構成例を示している。
 HDMI送信部206は、有効画像区間(以下、適宜、アクティブビデオ区間ともいう)において、非圧縮の1画面分の画像の画素データに対応する差動信号を、複数のチャネルで、HDMI受信部303に一方向に送信する。ここで、有効画像区間は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間及び垂直帰線区間を除いた区間である。また、HDMI送信部206は、水平帰線区間または垂直帰線区間において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、HDMI受信部303に一方向に送信する。
 HDMI送信部206とHDMI受信部303とからなるHDMIシステムの伝送チャネルには、以下の伝送チャネルがある。すなわち、HDMI送信部206からHDMI受信部303に対して、画素データおよび音声データを、ピクセルクロックに同期して、一方向にシリアル伝送するための伝送チャネルとしての、3つのTMDSチャネル#0乃至#2がある。また、ピクセルクロックを伝送する伝送チャネルとしての、TMDSクロックチャネルがある。
 HDMI送信部206は、HDMIトランスミッタ81を有する。トランスミッタ81は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである3つのTMDSチャネル#0,#1,#2で、HDMIケーブル400を介して接続されているHDMI受信部303に、一方向にシリアル伝送する。
 また、トランスミッタ81は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、3つのTMDSチャネル#0,#1,#2でHDMI受信部303に、一方向にシリアル伝送する。
 さらに、トランスミッタ81は、3つのTMDSチャネル#0,#1,#2で送信する画素データに同期したピクセルクロックを、TMDSクロックチャネルで、HDMIケーブル400を介して接続されているHDMI受信部303に送信する。ここで、1つのTMDSチャネル#i(i=0,1,2)では、ピクセルクロックの1クロックの間に、10ビットの画素データが送信される。
 HDMI受信部303は、アクティブビデオ区間において、複数のチャネルで、HDMI送信部206から一方向に送信されてくる、画素データに対応する差動信号を受信する。また、このHDMI受信部303は、水平帰線区間または垂直帰線区間において、複数のチャネルで、HDMI送信部206から一方向に送信されてくる、音声データや制御データに対応する差動信号を受信する。
 すなわち、HDMI受信部303は、HDMIレシーバ82を有する。このHDMIレシーバ82は、TMDSチャネル#0,#1,#2で、HDMI送信部206から一方向に送信されてくる、画素データに対応する差動信号と、音声データや制御データに対応する差動信号を受信する。この場合、HDMI送信部206からTMDSクロックチャネルで送信されてくるピクセルクロックに同期して受信する。
 HDMIシステムの伝送チャネルには、上述のTMDSチャネル#0乃至#2およびTMDSクロックチャネルの他に、DDC(Display Data Channel)83やCECライン84と呼ばれる伝送チャネルがある。DDC83は、HDMIケーブル400に含まれる図示しない2本の信号線からなる。DDC83は、HDMI送信部206が、HDMI受信部303から、E-EDID(Enhanced Extended Display Identification Data)を読み出すために使用される。
 すなわち、HDMI受信部303は、HDMIレシーバ81の他に、自身の性能(Configuration/capability)に関する性能情報であるE-EDIDを記憶している、EDID ROM(Read Only Memory)85を有している。HDMI送信部206は、例えば、CPU211(図26参照)からの要求に応じて、HDMIケーブル400を介して接続されているHDMI受信部303から、E-EDIDを、DDC83を介して読み出す。
 HDMI送信部206は、読み出したE-EDIDをCPU211に送る。CPU211は、このE-EDIDを、フラッシュROM212あるいはDRAM213に格納する。CPU211は、E-EDIDに基づき、HDMI受信部303の性能の設定を認識できる。例えば、CPU211は、HDMI受信部303を有するテレビ受信機300が立体画像データの取り扱いが可能か否か、可能である場合はさらにいかなるTMDS伝送データ構造に対応可能であるか等を認識する。
 CECライン84は、HDMIケーブル400に含まれる図示しない1本の信号線からなり、HDMI送信部206とHDMI受信部303との間で、制御用のデータの双方向通信を行うために用いられる。このCECライン84は、制御データラインを構成している。
 また、HDMIケーブル400には、HPD(Hot Plug Detect)と呼ばれるピンに接続されるライン(HPDライン)86が含まれている。ソース機器は、当該ライン86を利用して、シンク機器の接続を検出することができる。なお、このHPDライン86は双方向通信路を構成するHEAC-ラインとしても使用される。また、HDMIケーブル400には、ソース機器からシンク機器に電源を供給するために用いられるライン(電源ライン)87が含まれている。さらに、HDMIケーブル400には、ユーティリティライン88が含まれている。このユーティリティライン88は双方向通信路を構成するHEAC+ラインとしても使用される。
 図31は、TMDS伝送データの構造例を示している。この図31は、TMDSチャネル#0,#1,#2において、横×縦が1920ピクセル×1080ラインの画像データが伝送される場合の、各種の伝送データの区間を示している。
 HDMIの3つのTMDSチャネル#0,#1,#2で伝送データが伝送されるビデオフィールド(Video Field)には、伝送データの種類に応じて、3種類の区間が存在する。この3種類の区間は、ビデオデータ区間(Video Data period)、データアイランド区間(Data Islandperiod)、およびコントロール区間(Control period)である。
 ここで、ビデオフィールド区間は、ある垂直同期信号の立ち上がりエッジ(activeedge)から次の垂直同期信号の立ち上がりエッジまでの区間である。このビデオフィールド区間は、水平ブランキング期間(horizontal blanking)、垂直ブランキング期間(verticalblanking)、並びに、アクティブビデオ区間(Active Video)に分けられる。このアクティブビデオ区間は、ビデオフィールド区間から、水平ブランキング期間および垂直ブランキング期間を除いた区間である
 ビデオデータ区間は、アクティブビデオ区間に割り当てられる。このビデオデータ区間では、非圧縮の1画面分の画像データを構成する1920ピクセル(画素)×1080ライン分の有効画素(Active pixel)のデータが伝送される。
 データアイランド区間およびコントロール区間は、水平ブランキング期間および垂直ブランキング期間に割り当てられる。このデータアイランド区間およびコントロール区間では、補助データ(Auxiliary data)が伝送される。すなわち、データアイランド区間は、水平ブランキング期間と垂直ブランキング期間の一部分に割り当てられている。このデータアイランド区間では、補助データのうち、制御に関係しないデータである、例えば、音声データのパケット等が伝送される。
 コントロール区間は、水平ブランキング期間と垂直ブランキング期間の他の部分に割り当てられている。このコントロール区間では、補助データのうちの、制御に関係するデータである、例えば、垂直同期信号および水平同期信号、制御パケット等が伝送される。
 図32は、HDMI端子のピン配列の一例を示している。図32に示すピン配列はタイプA(type-A)と呼ばれている。TMDSチャネル#iの差動信号であるTMDS Data#i+とTMDS Data#i-は差動線である2本のラインにより伝送される。この2本のラインは、TMDS Data#i+が割り当てられているピン(ピン番号が1,4,7のピン)と、TMDS Data#i-が割り当てられているピン(ピン番号が3,6,9のピン)に接続される。
 また、制御用のデータであるCEC信号が伝送されるCECライン84は、ピン番号が13であるピンに接続される。また、E-EDID等のSDA(Serial Data)信号が伝送されるラインは、ピン番号が16であるピンに接続される。SDA信号の送受信時の同期に用いられるクロック信号であるSCL(Serial Clock)信号が伝送されるラインは、ピン番号が15であるピンに接続される。上述のDDC83は、SDA信号が伝送されるラインおよびSCL信号が伝送されるラインにより構成される。
 また、上述したようにソース機器がシンク機器の接続を検出するためのHPDライン(HEAC-ライン)86は、ピン番号が19であるピンに接続される。また、ユーティリティライン(HEAC+ライン)88は、ピン番号が14であるピンに接続される。また、上述したように電源を供給するためのライン87は、ピン番号が18であるピンに接続される。
 [HDMIでの奥行き情報セットの送信方法]
 奥行き情報セットをHDMIインタフェースで送信する方法として、例えば、HDMIVendor Specific InfoFrame を利用する方法が考えられる。この方法では、HDMIVendor Specific InfoFrame paketにおいて、HDMI_Video_Format=“010”かつ3D_Meta_present=1とされて、Vendor SpecificInfoFrame extensionが指定される。その場合、3D_Metadata_typeは、未使用の、例えば、“100”と定義され、奥行き情報セットが指定される。
 図33は、HDMI Vendor Specific InfoFrame のパケット構造を示している。このHDMI Vendor Specific InfoFrameについては、CEA-861-Dに定義されているので、詳細説明は省略する。
 第4バイト(PB4)の第7ビットから第5ビットに、画像データの種類を示す3ビットの情報「HDMI_Video_Format」が配置されている。画像データが3D画像データである場合、この3ビットの情報は「010」とされる。また、このように画像データが3D画像データである場合、第5バイト(PB5)の第7ビットから第4ビットに、TMDS伝送データ構造を示す4ビットの情報「3D_Structure」が配置される。例えば、フレームパッキング方式の場合、この4ビットの情報は、「0000」とされる。
 また、第5バイト(PB5)の第3ビットに、「3D_Meta_present」が配置され、Vendor Specific InfoFrame extensionを指定する場合、この1ビットは「1」とされる。また、第7バイト(PB7)の第7ビットから第5ビットに、「3D_Metadata_type」が配置されている。奥行き情報セットの情報を指定する場合、この3ビットの情報は、未使用の、例えば、“100”とされる。また、第7バイト(PB7)の第4バイトから第0バイトに、「3D_Metadata_length」が配置されている。この5ビットの情報により、以降に配置される3D_Metadata領域の長さが示される。
 また、第8バイト(PB8)の第7ビットから第6ビットに、「display_partition_type」の2ビット情報が配置される。また、第8バイト(PB8)の第3ビットから第0ビットに、「number_of_partition 」の4ビット情報が配置される。そして、以降に、「number_of_partition」が示す画像表示面の分割数に対応した個数の奥行き情報が配置される。この奥行き情報には、「z_depth_negative」の1ビット情報(画像面情報)が含まれ、さらに、「disparity_value_flag」が視差情報の存在を示すとき、「absolute_disparity_value」の8ビット情報が含まれる。
 上述したように、図1に示す画像送受信システム10において、放送局100(送信データ生成部201)からセットトップボックス200やテレビ受信機300に、左眼画像データおよび右眼画像データを有する所定番組の立体画像データと共に、この立体画像データに対応した奥行き情報セットが送信される。そのため、受信側において、この奥行き情報セットを用いることで、左眼画像および右眼画像に重畳される重畳情報、例えばOSD等のグラフィクス情報として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができる。これにより、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 また、図1に示す画像送受信システム10において、放送局100(送信データ生成部201)からセットトップボックス200やテレビ受信機300に送信される奥行き情報セットは、画像表示面の分割情報と各分割領域の奥行き情報を含むものであって、立体画像データを含むデータストリームを有するビットストリームデータ(多重化データストリーム)BSDに挿入されるデスクリプタに含まれて送信される。つまり、放送局100は、奥行き情報セットを、デスクリプタを用いて、受信側に簡単に送信できる。
 また、図1に示す画像送受信システム10において、セットトップボックス200からテレビ受信機300に、所定番組の立体画像データと共に、それに対応した奥行き情報セット(画像表示面の分割情報と各分割領域の奥行き情報を含む)が、HDMIケーブル400を介して送信される。そのため、テレビ受信機300において、奥行き情報セットを用いることで、左眼画像および右眼画像に重畳される重畳情報、例えばOSD等のグラフィクス情報として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができる。これにより、例えばOSD等のグラフィクス情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 <2.変形例>
 なお、上述実施の形態においては、立体画像表示システム10が、放送局100、セットトップボックス200およびテレビ受信機300で構成されているものを示した。しかし、テレビ受信機300は、図29に示すように、セットトップボックス200内のビットストリーム処理部201と同等に機能するビットストリーム処理部306を備えている。したがって、図34に示すように、放送局100およびテレビ受信機300で構成される立体画像表示システム10Aも考えられる。
 また、上述実施の形態においては、セットトップボックス200からテレビ受信機300に奥行き情報セットを送信する方法として、HDMI Vendor Specific InfoFrame を利用する方法を説明した。その他に、アクティブスペース(Active Space)を利用する方法、さらには、HPDライン86(HEAC-ライン)およびユーティリティライン88(HEAC+ライン)で構成される双方向通信路を通じて送信することも考えられる。
 また、上述実施の形態においては、セットトップボックス200と、テレビ受信機300とが、HDMIのデジタルインタフェースで接続されるものを示している。しかし、これらが、HDMIのデジタルインタフェースと同様のデジタルインタフェース(有線の他に無線も含む)で接続される場合においても、この発明を適用できることは勿論である。
 また、上述実施の形態においては、セットトップボックス200からテレビ受信機300に、ビットストリーム処理部201で使用されている奥行き情報セットを、HDMIインタフェースにより送信する例を示した。しかし、このようにHDMIインタフェースを通じて奥行き情報セットを送信する技術に関しては、その他のソース機器およびシンク機器の組み合わせにも応用できることは勿論である。例えば、ソース機器としてはBDやDVD等のディスクプレーヤ、さらにはゲーム機なども考えられ、シンク機器としてはモニタ装置、プロジェクタ装置なども考えられる。
 この発明は、立体画像表示の際の重畳情報、例えばOSD等のグラフィクス情報の表示を良好に行うことができ、立体画像表示システム等に適用できる。
 10,10A・・・立体画像表示システム
 100・・・放送局
 110・・・送信データ生成部
 111L,111R・・・カメラ
 112・・・ビデオフレーミング部
 113・・・ディスパリティ・マップ作成部
 114・・・マイクロホン
 115・・・データ取り出し部
 115a・・・データ記録媒体
 116~118・・・切り換えスイッチ
 119・・・ビデオエンコーダ
 120・・・オーディオエンコーダ
 122・・・奥行き情報セット作成部
 126・・・マルチプレクサ
 200・・・セットトップボックス(STB)
 201・・・ビットストリーム処理部
 202・・・HDMI端子
 203・・・アンテナ端子
 204・・・デジタルチューナ
 205・・・映像処理回路
 206・・・HDMI送信部
 207・・・音声処理回路
 211・・・CPU
 215・・・リモコン受信部
 216・・・リモコン送信機
 220・・・デマルチプレクサ
 221・・・ビデオデコーダ
 224・・・オーディオデコーダ
 226・・・OSD表示データ発生部
 228・・・ビデオ重畳部
 300・・・テレビ受信機(TV)
 301・・・3D信号処理部
 302・・・HDMI端子
 303・・・HDMI受信部
 304・・・アンテナ端子
 305・・・デジタルチューナ
 306・・・ビットストリーム処理部
 307・・・映像処理回路
 308・・・パネル駆動回路
 309・・・表示パネル
 310・・・音声処理回路
 311・・・音声増幅回路
 312・・・スピーカ
 313・・・OSD表示データ発生部
 314・・・ビデオ重畳部
 321・・・CPU
 325・・・リモコン受信部
 326・・・リモコン送信機
 400・・・HDMIケーブル

Claims (18)

  1.  立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
     上記立体画像に対応した奥行き情報を出力する奥行き情報出力部と、
     上記画像データおよび上記奥行き情報を送信する送信部とを備え、
     上記奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含み、
     上記送信部は、上記画像データを含むデータストリームを有する多重化データストリームを送信し、該多重化データストリームに、上記奥行き情報を含むデスクリプタを挿入する
     立体画像データ送信装置。
  2.  上記奥行き情報は、モニタポジションに対して立体画像面が手前にあるか否かを示す画像面情報である
     請求項1に記載の立体画像データ送信装置。
  3.  上記画像面情報は、左眼画像および右眼画像の視差情報を構成する符号情報である
     請求項2に記載の立体画像データ送信装置。
  4.  上記奥行き情報は、モニタポジションに対して立体画像面が手前にあるか否かを示す画面情報、または該画像面情報と左眼画像および右眼画像の視差情報であり、
     上記奥行き情報には、上記視差情報の存在を示すフラグ情報が挿入されている
     請求項1に記載の立体画像データ送信装置。
  5.  上記奥行き情報は、上記視差情報を構成する符号情報、または該符号情報および上記視差情報を構成する絶対値情報である
     請求項4に記載の立体画像データ送信装置。
  6.  上記多重化データストリームには、該多重化データストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを示すプログラム・スペシフィック・インフォメーションとしてのプログラム・マップ・テーブルが含まれており、
     上記デスクリプタは、上記プログラム・マップ・テーブルの配下に挿入されている
     請求項1に記載の立体画像データ送信装置。
  7.  上記多重化データストリームには、イベント単位の管理を行うサービス・インフォメーションとしてのイベント・インフォメーション・テーブルが含まれており、
     上記デスクリプタは、上記イベント・インフォメーション・テーブルの配下に挿入されている
     請求項1に記載の立体画像データ送信装置。
  8.  上記分割情報は、分割タイプを示す情報と分割数を示す情報とからなる
     請求項1に記載の立体画像データ送信装置。
  9.  上記分割タイプには、上記画像表示面を、対角線を用いて分割する分割タイプが含まれる
     請求項8に記載の立体画像データ送信装置。
  10.  上記分割タイプには、上記画像表示面を、水平方向線および/または垂直方向線を用いて分割する分割タイプが含まれる
     請求項8に記載の立体画像データ送信装置。
  11.  上記送信部は、上記デスクリプタを、上記画像データの所定期間毎の開始時点に対応させて上記多重化データストリームに挿入し、
     各期間の開始時点に対応させて上記多重化データストリームに挿入されるデスクリプタには、当該期間より後の期間の奥行き情報が含まれている
     請求項1に記載の立体画像データ送信装置。
  12.   立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力ステップと、
     上記立体画像に対応した奥行き情報を出力する奥行き情報出力ステップと、
     上記画像データおよび上記奥行き情報を送信する送信ステップとを備え、
     上記奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含み、
     上記送信ステップでは、上記画像データを含むデータストリームを有する多重化データストリームを送信し、該多重化データストリームに、上記奥行き情報を含むデスクリプタを挿入する
     立体画像データ送信方法。
  13.  立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
     上記立体画像に対応した奥行き情報を出力する奥行き情報出力部と、
     上記画像データおよび上記奥行き情報を送信する送信部とを備え、
     上記奥行き情報は、画像表示面の分割情報と各分割領域の奥行き情報を含み、
     上記奥行き情報は、モニタポジションに対して立体画像面が手前にあるか否かを示す画像面情報である
     立体画像データ送信装置。
  14.  立体画像を構成する左眼画像データおよび右眼画像データを含むデータストリームを有し、画像表示面の分割情報と上記立体画像に対応した各分割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入された多重化データストリームを受信する受信部と、
     上記多重化データストリームから取得された上記左眼画像データに対応した左眼重畳情報のデータ、および上記多重化データストリームから取得された上記右眼画像データに対応した右眼重畳情報のデータを出力する重畳情報データ出力部と、
     上記多重化データストリームから取得された上記左眼画像データおよび上記右眼画像データに、上記左眼重畳情報のデータおよび上記右眼重畳情報のデータを重畳するデータ重畳部を備え、
     上記重畳情報データ出力部は、上記多重化データストリームから取得された上記奥行き情報に基づいて、上記左眼重畳情報と上記右眼重畳情報との間に視差を付与する
     立体画像データ受信装置。
  15.  上記重畳情報データ出力部は、
     上記奥行き情報に含まれる視差情報に基づいて上記左眼重畳情報と上記右眼重畳情報との間に視差を付与する際、
     上記受信部で新たな上記デスクリプタが受信されて視差情報の更新があるとき、該新たな視差情報に複数フレームをかけて到達するように、該複数フレームの間は補間処理で得られる視差情報を使用する
     請求項14に記載の立体画像データ受信装置。
  16.  上記多重化データストリームには、上記画像データの所定期間毎の開始時点に対応させて上記デスクリプタが挿入されており、
     各期間の開始時点に対応させて上記多重化データストリームに挿入されているデスクリプタには、当該期間より後の期間の奥行き情報が含まれており、
     上記重畳情報データ出力部は、
     各期間の上記左眼重畳情報と上記右眼重畳情報との間に視差を付与する際、
     当該期間および当該期間の前後の期間の上記奥行き情報に含まれる視差情報を用いた補間処理で得られる視差情報を使用する
     請求項14に記載の立体画像データ受信装置。
  17.  立体画像を構成する左眼画像データおよび右眼画像データを含むデータストリームを有し、画像表示面の分割情報と上記立体画像に対応した各分割領域の奥行き情報とからなる奥行き情報を含むデスクリプタが挿入された多重化データストリームを受信する受信部と、
     上記多重化データストリームから取得された、上記左眼画像データおよび上記右眼画像データと、上記奥行き情報とを、伝送路を介して、外部機器に送信する送信部と
     を備える立体画像データ受信装置。
  18.  上記送信部は、上記画像データを、複数チャネルで、差動信号により、上記伝送路を介して、上記外部機器に送信し、
     上記画像データのブランキング期間に上記奥行き情報を挿入することで、該奥行き情報を上記外部機器に送信する
     請求項17に記載の立体画像データ受信装置。
PCT/JP2011/075134 2010-11-08 2011-11-01 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置 WO2012063675A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2011800376067A CN103053166A (zh) 2010-11-08 2011-11-01 立体图像数据发送设备、立体图像数据发送方法和立体图像数据接收设备
KR1020127016950A KR20130132240A (ko) 2010-11-08 2011-11-01 입체 화상 데이터 송신 장치, 입체 화상 데이터 송신 방법 및 입체 화상 데이터 수신 장치
US13/519,355 US20130215222A1 (en) 2010-11-08 2011-11-01 Stereoscopic image data transmission device, stereoscopic image data transmission method, and stereoscopic image data reception device
BR112012016322A BR112012016322A2 (pt) 2010-11-08 2011-11-01 dispositivos de transmissão e recepção de dados de imagem estereoscópica, e, método de transmissão de dados de imagem estereoscópia
EP11840564A EP2506580A1 (en) 2010-11-08 2011-11-01 Stereoscopic image data transmission device, stereoscopic image data transmission method, and stereoscopic image data reception device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010-250326 2010-11-08
JP2010250326 2010-11-08
JP2010-279765 2010-12-15
JP2010279765A JP2012120142A (ja) 2010-11-08 2010-12-15 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置

Publications (1)

Publication Number Publication Date
WO2012063675A1 true WO2012063675A1 (ja) 2012-05-18

Family

ID=46050826

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/075134 WO2012063675A1 (ja) 2010-11-08 2011-11-01 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置

Country Status (8)

Country Link
US (1) US20130215222A1 (ja)
EP (1) EP2506580A1 (ja)
JP (1) JP2012120142A (ja)
KR (1) KR20130132240A (ja)
CN (1) CN103053166A (ja)
AR (1) AR083673A1 (ja)
BR (1) BR112012016322A2 (ja)
WO (1) WO2012063675A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6211929B2 (ja) * 2012-01-18 2017-10-11 パナソニック株式会社 送信装置、映像表示装置、送信方法、映像処理方法、映像処理プログラム及び集積回路
US9626564B2 (en) * 2014-11-17 2017-04-18 Intel Corporation System for enabling eye contact in electronic images
US9723246B2 (en) * 2015-04-16 2017-08-01 Robert Thomas Housing used to produce a holographic image
WO2023102935A1 (zh) * 2021-12-10 2023-06-15 深圳传音控股股份有限公司 图像数据处理方法、智能终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006114A (ja) 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
WO2010092823A1 (ja) * 2009-02-13 2010-08-19 パナソニック株式会社 表示制御装置
WO2010119814A1 (ja) * 2009-04-15 2010-10-21 ソニー株式会社 データ構造、記録媒体、再生装置および再生方法、並びにプログラム
WO2011118215A1 (ja) * 2010-03-24 2011-09-29 パナソニック株式会社 映像処理装置
WO2011155226A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 再生装置、表示装置、および、増幅装置、ならびに、映像システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4339908B2 (ja) * 2007-11-28 2009-10-07 株式会社コナミデジタルエンタテインメント ゲーム装置、画像生成方法、および、プログラム
KR101964993B1 (ko) * 2007-12-18 2019-04-03 코닌클리케 필립스 엔.브이. 디스플레이 인터페이스를 통한 입체 이미지 데이터의 전송
CN100586199C (zh) * 2008-03-30 2010-01-27 深圳华为通信技术有限公司 视差获取方法和装置
JP5338166B2 (ja) * 2008-07-16 2013-11-13 ソニー株式会社 送信装置、立体画像データ送信方法、受信装置および立体画像データ受信方法
WO2010048632A1 (en) * 2008-10-24 2010-04-29 Real D Stereoscopic image format with depth information
WO2010064118A1 (en) * 2008-12-01 2010-06-10 Imax Corporation Methods and systems for presenting three-dimensional motion pictures with content adaptive information
JP4985807B2 (ja) * 2009-04-15 2012-07-25 ソニー株式会社 再生装置および再生方法
CN101873506B (zh) * 2009-04-21 2012-01-25 财团法人工业技术研究院 提供深度信息的影像处理方法及其影像处理系统
KR20110011000A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 3차원 영상 재생을 위한 부가 정보가 삽입된 3차원 영상 데이터스트림 생성 방법 및 그 장치, 3차원 영상 재생을 위한 부가 정보가 삽입된 3차원 영상 데이터스트림 수신 방법 및 그 장치
KR20110053160A (ko) * 2009-11-13 2011-05-19 삼성전자주식회사 비디오 부가 재생 정보의 3차원 깊이감 조절을 위한 멀티미디어 스트림 생성 방법과 그 장치, 및 수신 방법과 그 장치
CN105163105B (zh) * 2010-05-30 2018-03-27 Lg电子株式会社 处理和接收用于3维字幕的数字广播信号的方法和装置
US8823773B2 (en) * 2010-09-01 2014-09-02 Lg Electronics Inc. Method and apparatus for processing and receiving digital broadcast signal for 3-dimensional display

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006114A (ja) 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
WO2010092823A1 (ja) * 2009-02-13 2010-08-19 パナソニック株式会社 表示制御装置
WO2010119814A1 (ja) * 2009-04-15 2010-10-21 ソニー株式会社 データ構造、記録媒体、再生装置および再生方法、並びにプログラム
WO2011118215A1 (ja) * 2010-03-24 2011-09-29 パナソニック株式会社 映像処理装置
WO2011155226A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 再生装置、表示装置、および、増幅装置、ならびに、映像システム

Also Published As

Publication number Publication date
US20130215222A1 (en) 2013-08-22
KR20130132240A (ko) 2013-12-04
CN103053166A (zh) 2013-04-17
JP2012120142A (ja) 2012-06-21
EP2506580A1 (en) 2012-10-03
AR083673A1 (es) 2013-03-13
BR112012016322A2 (pt) 2018-04-03

Similar Documents

Publication Publication Date Title
JP5446913B2 (ja) 立体画像データ送信装置および立体画像データ送信方法
JP5531972B2 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP5402715B2 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
TWI437873B (zh) Three-dimensional image data transmission device, three-dimensional image data transmission method, three-dimensional image data receiving device and three-dimensional image data receiving method
JP5633259B2 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
WO2011001854A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
WO2011001858A1 (ja) 立体画像データ送信装置および立体画像データ受信装置
WO2011001859A1 (ja) 立体画像データ送信装置および立体画像データ受信装置
WO2011001857A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
WO2011001853A1 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
WO2013108531A1 (ja) 受信装置、受信方法および電子機器
JP2011166757A (ja) 送信装置、送信方法および受信装置
WO2013031549A1 (ja) 送信装置、送信方法および受信装置
WO2012057048A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
WO2012060198A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
WO2012063675A1 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
JP2011010255A (ja) 立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP2013176141A (ja) 立体画像データ受信装置および立体画像データ受信方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180037606.7

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 20127016950

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011840564

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11840564

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13519355

Country of ref document: US

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112012016322

Country of ref document: BR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 112012016322

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20120629