WO2012111320A1 - 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム - Google Patents

映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム Download PDF

Info

Publication number
WO2012111320A1
WO2012111320A1 PCT/JP2012/000974 JP2012000974W WO2012111320A1 WO 2012111320 A1 WO2012111320 A1 WO 2012111320A1 JP 2012000974 W JP2012000974 W JP 2012000974W WO 2012111320 A1 WO2012111320 A1 WO 2012111320A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
stream
picture
video stream
view
Prior art date
Application number
PCT/JP2012/000974
Other languages
English (en)
French (fr)
Inventor
泰治 佐々木
洋 矢羽田
智輝 小川
遠間 正真
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CA2823288A priority Critical patent/CA2823288C/en
Priority to US13/978,458 priority patent/US9277217B2/en
Priority to MX2013008311A priority patent/MX2013008311A/es
Priority to JP2012557833A priority patent/JP5906462B2/ja
Priority to BR112013020867A priority patent/BR112013020867A2/pt
Publication of WO2012111320A1 publication Critical patent/WO2012111320A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to video encoding and decoding technology, and more particularly to maintaining playback compatibility.
  • the present invention provides a video encoding apparatus capable of encoding high-definition video so as to suppress an increase in the amount of required data while maintaining playback compatibility with a playback apparatus based on the MPEG-2 standard, and video playback
  • An object is to provide an apparatus.
  • the present invention provides a first encoding means for generating a stream in MPEG-2 format by compressing and encoding a first video obtained by converting an original video to a first quality, MPEG- 4. a second encoding means for generating a base-view video stream and a dependent-view video stream in conformity with the MVC format; and a sending means for transmitting the streams generated by the first and second encoding means.
  • the second encoding means includes a stream composed of pseudo data having the same number of pictures as the stream obtained by compressing and encoding the first video as the base-view video stream, and having a reduced total data amount.
  • the original video is changed to a second quality higher than the first quality.
  • Each picture of the second video image and generates the base view compressed coded stream pictures in the MPEG-2 format stream picture and the same time corresponding to the picture as a reference picture in the video stream.
  • the video encoding apparatus has the above-described configuration, thereby maintaining the reproduction compatibility of the original video of the first quality by the reproduction apparatus based on the MPEG-2 standard, and having a data amount required than before. It is possible to suppress the increase and compress and encode the original video of the second quality higher than the first quality.
  • FIG. 5 is a diagram showing video attributes to be matched and field names for indicating the video attributes when a 2D compatible video stream is an MPEG-2 video and a multi-view video stream is an MPEG-4 MVC codec.
  • FIG. 1 is a diagram illustrating a data creation device according to Embodiment 1.
  • FIG. 3 is a diagram showing a data creation flow of the data creation device according to the first embodiment.
  • FIG. 1 is a diagram illustrating a configuration of a playback device that plays back 3D video according to Embodiment 1.
  • FIG. It is a figure explaining a video decoder and a multi view video decoder.
  • 6 is a diagram illustrating a flow of decoding processing and output processing relating to 3D video of the playback device according to Embodiment 1.
  • FIG. 6 is a diagram for explaining management of an inter-view reference buffer according to the 3D video playback device according to Embodiment 1.
  • FIG. 10 is a diagram for explaining a modification of management of an inter-view reference buffer according to the 3D video playback device according to Embodiment 1.
  • FIG. 6 is a diagram for explaining a buffer sharing method according to the 3D video playback device according to Embodiment 1.
  • FIG. 10 is a diagram for explaining a modification example of the video output portion according to the 3D video playback device according to the first embodiment. 10 is a modification of the method for assigning PTS and DTS related to the 3D video transport stream according to the first embodiment.
  • 6 is a diagram for explaining the relationship between the structure of a transport stream and PMT packets according to Embodiment 1.
  • FIG. It is a figure which shows the structure of 3D information descriptor. It is a figure explaining the reproduction
  • FIG. 10 is a diagram for explaining a problem in realizing high image quality of a video according to the second embodiment. It is a figure explaining the data structure of the transport stream which concerns on Embodiment 2.
  • FIG. 6 is a diagram illustrating a usage pattern according to Embodiment 2.
  • FIG. 10 is a diagram illustrating a relationship between a configuration of a transport stream and PMT packets according to Embodiment 2. It is a figure which shows the structure of the image quality improvement information descriptor. It is a figure explaining a high quality reproduction system. It is a figure which shows an image quality improvement stream descriptor.
  • FIG. 10 is a diagram for explaining a problem in realizing high image quality of a video according to the second embodiment. It is a figure explaining the data structure of the transport stream which concerns on Embodiment 2.
  • FIG. 6 is a diagram illustrating a usage pattern according to Embodiment 2.
  • FIG. 10 is a diagram illustrating a relationship between a configuration of a transport stream and PMT packet
  • FIG. 6 is a diagram illustrating a data creation device according to a second embodiment.
  • FIG. 10 is a diagram illustrating a data creation flow of the data creation device according to the second embodiment.
  • 7 is a diagram showing a high-quality video playback device according to Embodiment 2.
  • FIG. 10 is a diagram illustrating a flow of decoding processing and output processing related to high-quality video performed by the high-quality video playback device according to the second embodiment. It is a figure which shows the relationship between a high quality reproduction
  • FIG. 10 is a diagram for explaining a problem in realizing a high gradation image according to the third embodiment. It is a figure explaining the production method of the extended video stream which implement
  • FIG. 10 is a diagram illustrating a relationship between a configuration of a transport stream and a PMT packet according to Embodiment 3. 10 is a diagram for explaining a usage pattern according to Embodiment 3.
  • FIG. FIG. 10 is a diagram illustrating a data creation device according to a third embodiment.
  • FIG. 10 is a diagram illustrating a data creation flow of the data creation device according to the third embodiment.
  • 6 is a diagram showing a high-gradation video reproducing apparatus according to Embodiment 3.
  • FIG. 10 is a diagram for explaining a flow of decoding processing and output processing relating to high gradation video of the high gradation video reproducing device according to the third embodiment.
  • FIG. 10 is a diagram for explaining a switching method according to a high gradation reproduction method in the reproduction apparatus for high gradation video according to the third embodiment. It is a figure which shows the relationship between a high gradation reproduction system, the reference switch between codecs, and a plane selector. It is a figure explaining the subject in implement
  • FIG. 10 It is a figure explaining the structure of a scalable encoding system. It is a figure explaining the data structure of the transport stream which concerns on Embodiment 4.
  • FIG. 10 is a diagram illustrating a relationship between a configuration of a transport stream and a PMT packet according to a fourth embodiment. It is a figure explaining the scaling method. It is a figure explaining the usage pattern which concerns on Embodiment 4.
  • FIG. 10 illustrates a data creation device according to a fourth embodiment.
  • FIG. 10 is a diagram illustrating a data creation flow of the data creation device according to the fourth embodiment.
  • FIG. 10 is a diagram showing a high-resolution video playback apparatus according to Embodiment 4; FIG.
  • FIG. 10 is a diagram for explaining a flow of decoding processing and output processing related to high-resolution video in a high-resolution video playback device according to Embodiment 4;
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the fourth embodiment.
  • FIG. 10 is a diagram illustrating a configuration of a playback device according to a modification of the fourth embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the fourth embodiment.
  • FIG. 10 is a diagram illustrating a configuration of a playback device according to a modification of the fourth embodiment. It is a figure explaining the structure of a reproduction
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment.
  • FIG. 11 is a diagram showing a configuration of a playback device according to a modification of the first embodiment. It is a figure which shows the outline
  • 10 is a diagram for explaining a data structure according to a modification of the third embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the fourth embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment. It is a figure for demonstrating the reference between views which reduces the memory amount of the reference picture which concerns on high resolution. It is a figure for demonstrating a scaling reference filter. It is a figure which shows the structure of the data creation apparatus which concerns on the modification of Embodiment 1.
  • FIG. 6 is a diagram showing a configuration of a 3D video playback device according to a modification of the first embodiment.
  • FIG. FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment. It is a figure which shows the structure of the data creation apparatus which concerns on the modification of Embodiment 1.
  • FIG. 11 is a diagram showing a configuration of a playback device according to a modification of the first embodiment. It is a figure which shows the structure of the data creation apparatus which concerns on the modification of Embodiment 1. FIG. It is a figure which shows the structure of the data creation apparatus which concerns on the modification of Embodiment 1.
  • FIG. 11 is a diagram showing a configuration of a playback device according to a modification of the first embodiment.
  • FIG. 10 is a diagram for explaining a data structure according to a modification of the first embodiment. 10 is a diagram for explaining a data structure for realizing inter-view reference between different multi-view video streams according to a modification of Embodiment 1.
  • the 2D playback portion of the playback device decodes and plays back the MPEG-2 format stream using the existing decoding method, and the 3D playback portion includes the MPEG-4 MVC compliant base-view video stream and the video stream.
  • the pent-view video stream is decoded and reproduced in a decoding format corresponding to the new encoding.
  • FIG. 21 shows the data structure of the transport stream created by the broadcasting system in the present embodiment.
  • the transport stream is composed of a 2D compatible video stream A and a multi-view video stream B.
  • the latter multi-view video stream B is composed of a base-view video stream B1 and a dependent-view video stream B2.
  • the 2D compatible video stream A is created by compressing and coding the left-eye image
  • the base-view video stream B1 is created by compressing and coding a monochrome image such as black (hereinafter referred to as “black image”).
  • the dependent-view video stream B2 is generated by compressing and encoding the difference between the left-eye image and the right-eye image.
  • the base-view video stream B1 is a compression-encoded black image, it cannot be used as a reference image when generating the dependent-view video stream B2. This point is different from the existing MPEG-4 MVC format, and the reference image is set to a frame image at the same time of the 2D compatible video stream A.
  • both 2D video and 3D video can be transmitted, and the base view video stream B1 compresses and encodes the black image, so the bit rate is extremely low. As a result, both 2D video and 3D video can be transmitted in the range of the existing allocated frequency band.
  • the dependent-view video stream is decoded with reference to the frame image of the base-view video stream.
  • the MPEG-2 compatible stream is decoded. That is, the dependent-view video stream can be decoded using the frame image of the left-eye image as a reference image.
  • a descriptor for instructing the playback side to change the reference destination at the time of decoding from the base view video stream to the MPEG-2 compatible video stream is specified. ing.
  • FIG. 26 is a block diagram of a functional configuration of the data creation device 2601 according to the present embodiment.
  • the data creation device 2601 receives a left-eye image, a right-eye image, and a black image that constitute a 3D video as inputs, and includes a transformer including a 2D-compatible video stream, a base-view video stream, and a dependent-view video stream in a data format described later. Output the port stream.
  • the data creation device 2601 includes a 2D compatible video encoder 2602, a Dec (2D compatible video decoder) 2603, an extended multi-view video encoder 2604, and a multiplexer 2610.
  • the extended multi-view video encoder 2604 includes a base-view video encoder 2605, a 2D compatible video frame memory 2608, and a dependent-view video encoder 2609.
  • the 2D compatible video encoder 2602 receives the left-eye image as an input, compresses and encodes it in the MPEG-2 format, and generates and outputs a 2D compatible video stream.
  • Dec 2603 decodes the compression-encoded picture in the 2D compatible video stream, and outputs a decoded picture obtained as a result and 2D compatible video encoding information 2606.
  • a picture is an image constituting a frame or a field, and is a unit of encoding.
  • the decoded picture is stored in the 2D compatible video frame memory 2608 of the extended multiview video encoder 2604.
  • the 2D compatible video encoding information 2606 is input to the base view video encoder 2605.
  • the 2D compatible video encoding information 2606 includes attribute information (resolution, aspect ratio, frame rate, progressive / interlaced distinction, etc.), picture attribute information (picture type, etc.) of the corresponding picture, GOP of the decoded 2D compatible video stream. (Group of Pictures) structure and configuration including 2D compatible video frame memory management information.
  • the 2D compatible video frame memory management information includes the decoded picture memory address stored in the 2D compatible video frame memory 2608, the display order information (PTS (Presentation Time Stamp) and temporal_reference) of the corresponding picture, and the code order information (code order of the file). Or DTS (Decoding Time Stamp).
  • the extended multi-view video encoder 2604 receives the decoded picture output from the Dec 2603, the 2D-compatible video encoding information, the right-eye image, and the black image, performs compression encoding, and performs the base-view video stream, the dependent Dent-view video stream is output.
  • the base view video encoder 2605 has a function of outputting the data compressed and encoded in accordance with the MPEG-4 MVC format as a base view video stream, and compresses and encodes a black image according to the 2D compatible video encoding information 2606. , A base-view video stream and base-view video encoding information 2607 are output.
  • Base view video encoding information 2607 includes base view video stream attribute information (resolution, aspect ratio, frame rate, progressive or interlaced distinction, etc.), picture attribute information (picture type, etc.) of the corresponding picture, GOP structure, and base
  • the configuration includes view video frame memory management information.
  • the base-view video encoder 2605 sets the attribute information of the base-view video stream to the same value as the video attribute information included in the 2D compatible video encoding information 2606. Furthermore, the base-view video encoder 2605 determines a picture type for compression coding of pictures at the same display time in accordance with picture attribute information (picture type, etc.) and GOP structure included in the 2D compatible video coding information 2606. Thus, the black image is compression encoded. For example, if the picture type indicated by the 2D compatible video encoding information 2606 of the picture at time a is an I picture and the picture is the first picture of the GOP, the base view video encoder 2605 displays a black image indicating the same display time. The video access unit is compressed and encoded so as to be an I picture, and is used as a video access unit at the head of the GOP of the base-view video stream.
  • the base-view video encoder 2605 compresses and encodes a black image indicating the same display time so as to become a B picture. To do. At this time, the DTS and PTS of the base-view video stream are matched with the DTS and PTS of the picture corresponding to the view showing the same time of the 2D compatible video stream, respectively.
  • the base-view video frame memory management information includes a memory address of the frame memory 2608 that stores a decoded picture obtained by decoding a 2D-compatible video stream based on the 2D-compatible video frame memory management information, and the decoded picture
  • This is information obtained by converting and associating a syntax element indicating display order information and code order information into a syntax element conforming to the rules of the compression encoding method of the base-view video stream.
  • the syntax element is an element that defines attribute information necessary for encoding in the MPEG-2 or MPEG-4 MVC format compression encoding system. For example, header information such as macroblock type, motion vector, conversion coefficient, etc. It is an element to show.
  • the dependent-view video encoder 2609 has a function of compressing and encoding in accordance with the MPEG-4 MVC format to generate a dependent-view video stream, and is based on information included in the base-view video encoding information 2607
  • the right-eye image is compressed and encoded, and a dependent-view video stream is output.
  • the dependent-view video encoder 2609 performs compression encoding using the decoded picture in the 2D compatible video frame memory as an inter-view reference.
  • inter-view reference refers to referring to a picture showing a view from different viewpoints.
  • the dependent-view video encoder 2609 determines a reference picture ID for performing inter-view reference based on the base-view video frame memory management information of the base-view video encoding information 2607.
  • the dependent-view video encoder 2609 sets the same value as the value of the attribute information of the base-view video stream included in the base-view video encoding information 2607 as the video attribute information of the dependent-view video stream.
  • the dependent-view video encoder 2609 determines the picture type of the image to be encoded based on the attribute information (for example, picture type) of the picture stored in the base-view video encoding information 2607 and the GOP structure. Then, the right-eye image is compression-encoded. For example, if the picture type indicated by the base-view video encoding information 2607 of the picture at time a is an I picture and the head of the GOP, the dependent-view video encoder 2609 sets the picture type of the picture at the same time a as an anchor picture. Then, the right-eye image is compression-encoded to obtain a video access unit at the head of the dependent GOP.
  • the attribute information for example, picture type
  • the dependent-view video encoder 2609 sets the picture type of the picture at the same time a as an anchor picture. Then, the right-eye image is compression-encoded to obtain a video access unit at the head of the dependent GOP.
  • An anchor picture is a picture that does not refer to a picture temporally prior to the own picture and can be reproduced by jumping from the own picture. If the picture type indicated by the base-view video encoding information 2607 of the picture at time b is a B picture, the dependent-view video encoder 2609 sets the picture type of the picture at the same time b to B picture, and The image is compressed and encoded.
  • the DTS and PTS of the dependent-view video stream are compression-encoded to match the DTS and PTS of the picture corresponding to the view to be displayed at the same time of the base-view video stream.
  • the multiplexer 2610 divides the output 2D compatible video stream, base-view video stream, and dependent-view video stream into PES (Packetized Elementary Stream) packets, divides them in units of TS packets, and multiplexes them as a transport stream Output.
  • PES Packetized Elementary Stream
  • the playback device In order to allow the playback device to identify each video stream from the stream data of the multiplexed transport stream, the 2D compatible video stream, the base view video stream, and the dependent view video stream are: Separate PIDs are set.
  • FIG. 22 shows video attributes to be matched in each compression encoding method in the MPEG-2 format and MPEG-4 MVC format compression encoding, and field names for indicating the video attributes.
  • the resolution, aspect ratio, The frame rate and the value of the video attribute indicating progressive or interlace are configured to be the same between pictures of the respective encoding formats.
  • FIG. 25 shows a GOP configuration of a 2D compatible video stream, a base view video stream, and a dependent view video stream in the present embodiment.
  • the 2D compatible video stream, the base view video stream, and the dependent view video stream are all configured to have the same number of GOPs. That is, when the picture of the 2D compatible video stream is the head of the GOP, the picture of the base view video stream having the same value of the PTS and the picture of the dependent view video stream having the same value of the PTS are respectively the GOP head, Must be at the beginning of the dependent GOP.
  • entry map information indicating where the GOP head picture is on the file may be stored as management information.
  • the entry map information is stored as a separate information file as a management information file.
  • both the base view position and the dependent view position at the same time are entered. Try to register on the map. In this way, the 3D video jump-in reproduction is facilitated by referring to the entry map.
  • FIG. 36 shows the relationship between the structure of the transport stream and the PMT (Program Map Table) packet.
  • a transport stream including a 3D video stream signaling information for performing 3D video decoding processing is included in a system packet such as a PMT packet.
  • the descriptor includes a 3D information descriptor for performing signaling such as the relationship between each video stream and the start / end of 3D video playback of the present system, and a 3D stream descriptor set for each video stream. It is the composition which includes.
  • FIG. 37 shows the structure of the 3D information descriptor.
  • the 3D information descriptor includes a playback method, a left-eye video type, a 2D compatible video PID, a base view video PID, and a dependent view video PID.
  • the playback method is information for signaling the playback method of the playback device.
  • the playback device plays back 2D video of only the 2D compatible video stream.
  • the playback apparatus When the value of the playback method is “1”, it indicates 3D video playback using 2D compatible video and dependent view video (that is, the 3D video playback method described in this embodiment).
  • the playback apparatus performs 3D video playback of the 2D compatible video stream, base-view video stream, and dependent-view video stream by the playback method described in this embodiment. Note that a 3D video playback method in the present embodiment will be described later.
  • the playback device plays back the 3D video of the video stream as a video stream compressed and encoded in the normal MPEG-4 MVC format.
  • the playback device When the value of the playback method is “3”, this indicates that a 2D compatible video stream or a base-view video stream is double-played, and the playback device performs double playback.
  • the doubling reproduction is to output one of the left and right views at a certain time a to both the L and R planes.
  • Playback by this playback method is equivalent to 2D video playback as a user viewing screen, but since the frame rate does not change during 3D video playback, the playback device is connected to a display or the like via HDMI (High-Definition Multimedia Interface) or the like. In this case, re-authentication does not occur and seamless connection playback between the 2D video playback section and the 3D video playback section can be realized.
  • HDMI High-Definition Multimedia Interface
  • the left-eye video type is information indicating which of the multi-view video streams the left-eye image is compression-coded (the other video stream becomes the right-eye image).
  • the value of the reproduction method is “0”, the value of this field has no meaning to refer to.
  • the value of the reproduction method is “1”, it indicates which of the 2D compatible video and the dependent view video is the image for the left eye. That is, when the value of the playback method is “1” and the value of the left-eye video type is “0”, it indicates that the 2D compatible video stream is a video stream corresponding to the left-eye image.
  • the playback method value is “2” or “3”
  • the playback apparatus refers to the value of the left-eye video type to determine which video stream corresponds to the left-eye image. Judgment can be made.
  • the 2D compatible video PID, the base view video PID, and the dependent view video PID indicate the PID of each video stream in the transport stream. With this information, the decoding target stream can be identified.
  • FIG. 39 shows a 3D stream descriptor.
  • the field name of the 3D descriptor includes a base view video type, a reference destination type, and a referenced type.
  • the base view video type indicates which video is compressed and encoded in the base view video stream.
  • the value of the base view video type is “0”, it indicates whether one of the left-eye image or the right-eye image data of the 3D video is compression-encoded, and when it is “1”, A black image is compressed and encoded as a dummy video that is replaced by a 2D compatible video stream and is not output to a plane.
  • the reference destination type indicates the type of the video stream to which the dependent-view video stream is referred to as an inter-view reference.
  • the value of the reference destination type is “0”, it indicates that the picture of the base view video stream is the inter-view reference destination, and when the value is “1”, the picture of the 2D compatible video stream is the inter-view reference destination. It shows that.
  • the case where the value of the reference destination type is “1” indicates that the reference method is based on the 3D video method in the present embodiment.
  • the referenced type indicates whether the corresponding video stream is referenced between views. If the reference is not made, the inter-view reference process can be skipped, so that the load of the decoding process can be reduced. Note that all or part of the information of the 3D information descriptor and the 3D stream descriptor may be inserted as supplementary data of each video stream instead of the PMT packet.
  • FIG. 23 shows an example of the relationship among PTS, DTS, and picture type assigned to each video access unit of the 2D compatible video stream, base-view video stream, and dependent-view video stream in the transport stream.
  • the data creation device 2601 converts the DTS and PTS values of the 2D compatible video stream picture and the dependent view video stream picture generated by compressing and encoding the left-eye image at the same time into the same DTS and PTS values, respectively. Set. Also, the same values as the PTS, DTS, and POC of the picture of the dependent-view video stream are set for the PTS, DTS, and POC of the picture of the base-view video stream to be reproduced at the same time.
  • the picture of the base-view video stream having the same value of PTS, DTS, and POC is referred to.
  • the picture reference ID (ref_idx_l0 or ref_idx_l1) specified from each macroblock of the picture of the dependent-view video stream has the same POC value.
  • a value indicating the base view picture that is held is set.
  • FIG. 27 is a diagram showing a data creation flow of the data creation device 2601. The data creation flow will be described below.
  • the variable N is a variable for storing the frame number of the frame image to be compressed and encoded.
  • step S2701 it is checked whether or not the Nth frame exists in the left-eye image. If it does not exist (step S2701: NO), it is determined that there is no more data to be compressed and encoded, and the process ends.
  • step S2701 the number of images to be compression encoded (hereinafter referred to as “one encoded number”) is determined in one compression encoding flow (steps S2702 to S2706) (step “1 encoded number” hereinafter).
  • the maximum number of video access units (the maximum number of GOPs, for example, 30 frames) set as one GOP is set as one encoded number.
  • the last GOP of the video stream it is assumed that the number of frames to be encoded is less than the maximum number of GOPs depending on the length of the input video stream. In this case, the remaining number of frames is set as one encoded number. To do.
  • the 2D compatible video encoder 2602 generates 2D compatible video streams for one encoded number (step S2703).
  • the 2D compatible video stream is generated by the compression encoding according to the compression encoding method of the 2D compatible video stream from the Nth frame of the left-eye image by one encoded number, and output.
  • the 2D compatible video decoder 2603 performs decoding processing of 2D compatible video streams for one encoded number (step S2704).
  • a decoded picture and 2D compatible video encoding information obtained by decoding the compressed picture for one encoded number from the Nth frame are output.
  • the base view video encoder 2605 generates base view video streams for one encoded number (step S2705). Specifically, based on 2D compatible video encoding information, base view video stream attribute information (resolution, aspect ratio, frame rate, progressive or interlaced distinction, etc.) as base view encoding information 2607, Set picture attribute information (picture type, etc.), GOP (Group of Pictures) structure, and 2D compatible video frame memory management information for each picture. Generate a video stream. Also, the set base-view encoding information 2607 is output.
  • base view video stream attribute information resolution, aspect ratio, frame rate, progressive or interlaced distinction, etc.
  • Set picture attribute information picture type, etc.
  • GOP Group of Pictures
  • the dependent view video encoder 2609 generates a dependent view video stream for one encoded number (step S2706). Specifically, based on the base-view video encoding information output in step S2705, the attribute information of the dependent-view video stream (resolution, aspect ratio, frame rate, progressive or interlaced distinction, etc.), Set picture attribute information (picture type, etc.), GOP (Group of Pictures) structure, and 2D compatible video frame memory management information for each picture.
  • the attribute information of the dependent-view video stream resolution, aspect ratio, frame rate, progressive or interlaced distinction, etc.
  • Set picture attribute information picture type, etc.
  • GOP Group of Pictures
  • the dependent-view video stream encoder 2609 does not refer to the picture of the base-view video stream, but performs the same display in the 2D-compatible video frame memory 2608 when encoding using inter-picture predictive encoding.
  • the dependent-view video stream is compressed and encoded for one encoded number from the Nth frame of the right-eye image using inter-picture predictive encoding while referring to the picture obtained by decoding the 2D compatible video stream indicating the time. Is generated.
  • the multiplexer 2610 converts the 2D compatible video stream, base view video stream, and dependent view video stream into PES packets. Next, the PES packet is divided into TS packets, and a multiplexed transport stream is generated. Thereafter, one encoded number is added to N (step S2707).
  • step S2707 When the process of step S2707 is completed, the process returns to step S2701 and the process is repeated.
  • the number of encoded sheets in one flow can be changed.
  • the value of one encoded sheet in step S2702 may be set to be small. For example, when the number of reordering at the time of video encoding is two, if compression encoding is executed in units of four, it will not be affected by reordering. It is assumed that the number of reordering is a compression encoding method with two pictures and the picture types are I1, P4, B2, B3, P7, B5, and B6 (numbers are in display order). When the number of encoded images is 3, since the picture of P4 cannot be processed, the compression encoding process of B2 and B3 cannot be performed.
  • the number of encoded images is set to 4, the P4 picture can be processed, so that the B2 and B3 compression encoding processes can be performed.
  • the number of encoded sheets may be set to an optimal number according to the characteristics of the image within the maximum number of GOPs for each compression encoding flow.
  • FIG. 28 is a block diagram showing a functional configuration of the playback device 2823.
  • the playback device 2823 includes a PID filter 2801, a 2D compatible video decoder 2821, an extended multi-view video decoder 2822, a first plane 2808, and a second plane 2820.
  • the PID filter 2801 filters the input transport stream.
  • the PID filter 2801 determines the TS packet whose PID value matches the PID value required for reproduction, from the TS packet, to the 2D compatible video decoder 2821 or the extended multi-view video decoder 2822 according to the PID value. Forward.
  • the PID of the 2D compatible video stream is 0x1011
  • the PID of the base-view video stream of the multi-view video stream is 0x1012
  • the PID of the dependent-view video stream of the multi-view video stream is 0x1013
  • the PID value of the TS packet is When the PID value included in the TS packet matches the predetermined PID value, the TS packet is transferred to the corresponding decoder.
  • the first plane 2808 is a plane memory that holds a picture decoded by the 2D compatible video decoder 2821 and output according to the value of the PTS.
  • the second plane 2820 is a plane memory that holds a picture decoded by the extended multi-view video decoder 2822 and output according to the value of the PTS.
  • the 2D compatible video decoder 2821 has basically the same decoding function as the MPEG-2 format decoder which is a compression encoding method of 2D video
  • the extended multi-view video decoder 2822 is a 3D video that realizes inter-view reference.
  • the decoder has basically the same decoding function as the MPEG-4 MVC format decoder, which is a compression encoding method.
  • a general decoder of MPEG-2 format compression encoding system is a video decoder 2901
  • a general decoder of MPEG-4 MVC format compression encoding system is a multi-view video decoder 2902.
  • the video decoder 2901 and the multi-view video decoder 2902 will be described with reference to FIG. Thereafter, different portions between the 2D compatible video decoder 2821 and the video decoder 2901 and different portions between the extended multi-view video decoder 2822 and the multi-view video decoder 2902 will be mainly described.
  • the video decoder 2901 includes TB (Transport Stream Buffer) (1) 2802, MB (Multiplexing Buffer) (1) 2803, EB (Elementary Stream Buffer) (1) 2804, D1 (2D compatible video compression video decoder) 2805. , And O (Re-ordering Buffer) 2806.
  • TB (1) 2802 is a buffer that temporarily accumulates TS packets as they are when TS packets including a video stream are output from the PID filter 2801.
  • MB (1) 2803 is a buffer for temporarily storing PES packets when outputting a video stream from TB (1) 2802 to EB (1) 2804.
  • TB (1) 2802 to MB (1) 2803 When data is transferred from TB (1) 2802 to MB (1) 2803, the TS header and adaptation field of the TS packet are removed.
  • EB (1) 2804 is a buffer for storing pictures (I picture, B picture, P picture) in a compression-encoded state.
  • pictures I picture, B picture, P picture
  • the PES header is removed.
  • D1 (2805) creates a picture of the frame image by decoding each video access unit of the video elementary stream at a predetermined DTS time.
  • the picture decoded in D1 (2805) is output to the plane 2808 or O2806.
  • DTS and PTS are different, such as P picture and I picture, they are output to O2806, and when the values of DTS and PTS are the same as B picture, they are output to plane 2808 as they are.
  • O2806 is a buffer for performing reordering when the values of DTS and PTS of the decoded picture are different, that is, when the decoding order and display order of the pictures are different.
  • D1 (2805) performs decoding processing with reference to the picture data stored in O2806.
  • Switch 2807 switches between outputting an image buffered in O2806 or outputting directly from D1 (2805) when outputting the decoded picture to plane 2808.
  • the multi-view video decoder 2902 includes TB (2) 2809, MB (2) 2810, EB (2) 2811, TB (3) 2812, MB (3) 2813, EB (3) 2814, A decoding switch 2815, an inter-view buffer 2816, a D2 (multiview video compression video decoder) 2817, a DPB (decoded picture buffer) 2818, and an output plane switch 2819 are included.
  • TB (2) 2809, MB (2) 2810, and EB (2) 2811 have the same functions as TB (1) 2802, MB (1) 2803, and EB (1) 2804, respectively, but the data to be buffered Is the base view video stream.
  • TB (3) 2812, MB (3) 2813, and EB (3) 2814 have the same functions as TB (1) 2802, MB (1) 2803, and EB (1) 2804, respectively, but the data to be buffered Is a dependent-view video stream.
  • the switch 2815 extracts the data of the video access unit to which the DTS is assigned according to the value of the DTS from the EB (2) 2811 and the EB (3) 2814, and configures the 3D video access unit. ).
  • D2 (2817) performs a decoding process on the 3D video access unit transferred via the switch 2815, and creates a picture of the frame image.
  • the decoded picture of the base-view video decoded by D2 (2817) is temporarily stored in the Inter-view buffer 2816.
  • D2 (2817) performs a decoding process on the picture of the dependent-view video stream with reference to the decoded picture of the base-view video stream having the same PTS value stored in the Inter-view buffer 2816.
  • the multi-view video decoder 2902 creates a reference picture list for designating a picture for performing inter-view reference based on the picture type and the syntax element of the picture of the base-view video stream and the picture of the dependent-view video stream.
  • D2 transfers the decoded picture of the base view and the decoded picture of the dependent view stored in the inter-view buffer 2816 to the DPB 2818, and outputs it via the output plane switch 2819 according to the value of the PTS.
  • the DPB 2818 is a buffer that temporarily stores decoded pictures.
  • D2 (2817) is used to refer to a picture that has already been decoded when decoding a video access unit such as a P picture or a B picture using the inter picture predictive coding mode.
  • the output plane switch 2819 performs a process of outputting the decoded picture to an appropriate plane. For example, when the base-view video stream indicates the left-eye image and the dependent-view video stream indicates the right-eye image, the base-view video stream picture is set to the left-eye image plane and the dependent-view video The stream picture is output to the right-eye image plane.
  • the 2D compatible video decoder 2821 shown in FIG. 28 not only transfers the picture decoded in D1 (2805) to the O2806 or the switch 2807, but also in the inter-view buffer 2816 of the extended multi-view video decoder 2822 based on the DTS value. Forward.
  • the extended multi-view video decoder 2822 has the same basic structure as that of the multi-view video decoder 2902. Therefore, the description of the common parts of functions will be omitted and the different parts will be described.
  • the extended multi-view video decoder 2822 converts the picture transferred according to the DTS value from the 2D compatible video decoder 2821 to the same value in the PTS and DTS of the base-view video stream that has been decoded previously in the inter-view buffer 2816. Overwrite the area where the decoded picture is stored. Therefore, the extended multi-view decoder 2822 can refer to the decoded picture of the 2D-compatible video stream as if it were the decoded picture of the base-view video stream when decoding the picture of the dependent-view video stream.
  • the address management on the Inter-view buffer 2816 need not be changed from the management of the decoded picture of the conventional base-view video stream.
  • the extended multi-view video decoder 2822 outputs to the second plane 2820 out of the video stored in the DPB 2818, so that only the picture of the dependent-view video stream is output according to the value of the PTS. To control. The pictures of the base view video stream are not output to the plane because they are not related to display.
  • the 2D-compatible video decoder 2821 outputs the picture of the 2D-compatible video stream to the first plane 2808 according to the value of the PTS
  • the extended multi-view video decoder 2822 outputs the dependent view of the multi-view video stream.
  • the picture of the video stream is output to the second plane 2820 according to the value of PTS.
  • FIG. 30 is a diagram illustrating a flow of decoding processing and output processing in 3D video by the playback device 2823.
  • the playback device 2823 determines whether there is a picture in EB (1) 2804 (step S3001). If there is no picture (step S3001: No), it is determined that the transfer of the video stream has ended, and the processing is ended.
  • the playback device 2823 uses the extended multi-view video decoder 2822 to perform base-view video stream decoding processing (step S3002). Specifically, in accordance with the value of DTS, a picture attached to the corresponding DTS is extracted from EB (2), decoded, and stored in Inter-view buffer 2816.
  • the management of pictures in Inter-view buffer 2816 is the same as the management in the conventional MPEG-4 MVC format and will not be described in detail. However, as the management information for creating the reference picture list, the reference destination of PTS and POC and the decoded picture
  • the table information that associates the data address of Inter-view buffer 2816 indicating the internal address is managed internally.
  • the playback device 2823 uses the 2D compatible video decoder 2821 to perform decoding processing of the 2D compatible video stream (step S3003). Specifically, according to the value of DTS, a picture assigned to the corresponding DTS is extracted from EB (1), and decoding processing is performed. At this time, the decoded picture is transferred to O2806 or switch 2807. Further, the decoded picture is also transferred to Inter-view buffer 2816.
  • the extended multi-view video decoder overwrites the transferred picture with the base-view picture to which the same value of DTS and PTS in the Inter-view buffer 2816 is assigned.
  • the picture management of the inter-view buffer 2816 is managed by the memory address of the PTS and the inter-view buffer 2816, for example.
  • the decoded picture is overwritten.
  • management information eg, PTS
  • PTS management information
  • D2 2817
  • D2 can be decoded with reference to the picture obtained by decoding the 2D compatible video stream in the same process as the decoding process of the conventional MPEG-4 MVC dependent view video stream. it can.
  • the extended multi-view video decoder 2822 performs a dependent-view video stream decoding process (step S3004). Specifically, the extended multi-view video decoder 2822 takes out the picture attached to the corresponding DTS from the EB (3) according to the value of the DTS, and stores the picture of the dependent-view video stream in the Inter-view buffer 2816. The decoding process is performed while referring to the picture.
  • the picture referred to at this time is not a picture of the base-view video stream but a picture of the 2D compatible video stream overwritten in step S3003.
  • the playback device 2823 outputs the decoded picture of the 2D-compatible video stream to the first plane 2808 according to the PTS value, and outputs the decoded picture of the dependent-view video stream to the second plane 2820 according to the PTS value (step).
  • D1 decoding process performed by D1 (2805) of the playback apparatus 2823
  • the LSI Large Scale Integration
  • the MPEG-4 MVC format decoding process performed in D2 (2817) is the same as the existing MPEG-4 MVC format process
  • the LSI or software of the existing MPEG-4 MVC format video playback apparatus Can be used.
  • ⁇ Example of usage mode of playback device 2823> Referring to FIG. 5, a 3D digital television 100 that can play back 3D video of a video stream created by the data creation device 2823 and a 2D digital television 300 that can play back only conventional 2D video that does not support playback of 3D video are given as examples. I will explain.
  • the user views 3D video using the 3D digital television 100 and the 3D glasses 200.
  • the 3D digital television 100 can display 2D video and 3D video, and displays video by playing back a stream included in the received broadcast wave. Specifically, a 2D compatible video stream compression-encoded in the MPEG-2 format, a base-view video stream and a dependent-view video stream compression-encoded in accordance with the MPEG-4 MVC format are reproduced.
  • the 3D digital television 100 alternately displays the left-eye image obtained by decoding the 2D-compatible video stream and the right-eye image obtained by decoding the dependent-view video stream.
  • the user can view the image reproduced in this way as a stereoscopic image by wearing the 3D glasses 200 and viewing the image.
  • FIG. 5B shows the time when the left-eye image of the 3D glasses 200 is displayed.
  • the 3D glasses 200 make the liquid crystal shutter corresponding to the left eye transparent and the liquid crystal shutter corresponding to the right eye shielded.
  • (C) in the figure shows when the right eye image is displayed.
  • the liquid crystal shutter corresponding to the right eye is made transparent, and the liquid crystal shutter corresponding to the left eye is shielded from light.
  • the 2D digital television 300 in FIG. 5D corresponds to the playback of 2D video, and 2D video obtained by decoding the 2D compatible video stream among the video streams included in the transport stream created by the data creation device 2601 is displayed. Can be played. ⁇ 1-4. Modification>
  • the embodiments of the data creation device and the playback device according to the present invention have been described above. However, the illustrated data creation device and the playback device can be modified as follows, and the present invention is described in the above embodiment. Of course, the present invention is not limited to the data creation device and the playback device as shown in FIG.
  • the decoded picture of the 2D compatible video stream having the same PTS value is overwritten on the decoded picture of the base-view video stream of Inter-view buffer 2816 in step S3003.
  • the address reference destination may be changed without performing the overwriting process.
  • the decoded picture of the base view is stored in the DPB 2818.
  • the decoded picture of the base view video stream is not referred to, and may not be stored in the DPB 2818. In this way, it is possible to reduce the amount of memory for storing the pictures of the base-view video stream from the DPB 2818.
  • the base-view video stream is generated by including it in the transport stream, and the decoding process of the pictures of the base-view video stream is performed in the decoding process. Processing may be omitted.
  • the extended multi-view video decoder 2822 analyzes header information (eg, POC acquisition, picture type, ViewID, information acquisition with or without reference, etc.) and Inter-view buffer 2816 without decoding pictures of the base-view video stream. An area where one picture can be stored is secured.
  • the extended multi-view video decoder 2822 stores the decoded picture output from the 2D compatible video decoder having the same value as the PTS and DTS obtained by header information analysis in the reserved area.
  • an extended multi-view video decoder can manage an inter-view buffer 2816.
  • a 2D compatible video stream including the above information may be generated.
  • all or part of the syntax element of the base view video stream is recorded in the supplementary data of the 2D compatible video stream. That is, information for managing pictures in the Inter-view buffer buffer 2816 (the POC indicating the display order of the MPEG-4 MVC format, the slice_type indicating the picture type, the nal_ref_idc indicating the reference / non-reference of the picture, the base reference picture list) Ref_pic_list_mvc_modification, View ID of base-view video stream, MMCO command) and the like, which are information for creation, are included in the supplementary data of each picture of the 2D compatible video stream.
  • the base-view video stream may not be multiplexed on the transport stream.
  • the picture of the MPEG-4 MVC dependent view video stream directly refers to the picture of the MPEG-2 video stream.
  • the data format is almost the same as the conventional one, so it is compatible with the encoding device and playback device compatible with the conventional MPEG-4 MVC format.
  • the encoding device and the playback device corresponding to the video stream data of the present embodiment can be realized with good performance and a small improvement.
  • the O2806 and DPB2818 memories are handled as separate areas, but the memory space may be shared as shown in FIG.
  • the overwriting process can be omitted.
  • Inter-view buffer 2816 and DPB 2818 are handled as separate buffers, but these may be the same buffer.
  • the decoded picture of the base-view video stream having the same PTS and the same ViewID in DPB2818 may be replaced with the decoded picture of the 2D compatible video stream.
  • the 2D compatible video stream and the base view video stream are P pictures (P3), but the picture of the dependent view video stream is a B picture (B3). ing.
  • the pictures of the 2D compatible video stream, the base view video stream, and the dependent view video stream are all P pictures, and only the I picture and the P picture are included in all the video streams. Therefore, special reproduction processing with the I picture and P picture selected is facilitated.
  • separate PIDs are set as the PID of each video stream in the multiplexing of the transport stream, but the base view video stream and the dependent view video stream are The same PID may be assigned.
  • the access units of the video streams can be merged and transferred in accordance with the specifications of the compression encoding method of the multi-view video stream.
  • the base-view video stream and the dependent video stream are merged according to the specifications of the compression coding system, and the playback device has a configuration as shown in FIG. 45, and the data transfer line of the extended multi-view video decoder is one. What is necessary is just to comprise.
  • the base view video stream and the dependent view video stream may share header (for example, sequence header, picture header) information of each access unit storing pictures at the same time. That is, when header information is provided only in the base-view video stream and the dependent-view video stream is decoded, the header information necessary for decoding is decoded with reference to the header information of the base-view video stream. Also good. Therefore, addition of header information necessary for decoding can be omitted from the dependent-view video stream.
  • header for example, sequence header, picture header
  • the DTS values of the pictures of the 2D compatible video stream and the dependent view video stream at the same display time are equal to each other.
  • the DTS of the picture of the pendant view video stream and the picture of the base view video stream are also set to the same value.
  • the DTS values of pictures in each video stream at the same display time may not be the same.
  • the DTS value of the 2D compatible video stream may be set to a value that is decoded earlier (for example, one frame before) than the base-view / dependent-view video stream.
  • the inter-view buffer overwrite process and the dependent-view video stream picture decoding process can be performed with a margin. it can.
  • the PTS of the picture of the 2D compatible video stream storing the parallax images at the same display time is the same as the PTS of the picture of the dependent view.
  • the decoding process of the 2D compatible video stream is performed in advance. Therefore, the PTS of the pictures of the 2D compatible video stream at the same display time is set to be ahead of the base-view / dependent-view video stream (for example, one frame before).
  • the PTS of the picture of the 2D compatible video stream is set to one frame before the PTS of the picture of the dependent view video stream.
  • the pictures of the base-view video stream of the Inter-view buffer are exchanged, the pictures of the base-view video stream are exchanged with the pictures of the 2D compatible video stream of the PTS having a value indicating the previous frame.
  • the 2D compatible video decoder 2821 outputs the decoded picture of the 2D compatible video stream to the first plane 2808 in accordance with the PTS value in step S3005.
  • the extended multi-view video decoder 2822 may be configured to output both videos using the output plane switch 2819.
  • the multiplexing method is the transport stream, but the present invention is not limited to this.
  • the MP4 system format can be used as a multiplexing method.
  • the input in FIG. 34 is separated into a 2D compatible video stream, a base-view video stream, and a dependent-view video stream as a file multiplexed by MP4 and decoded.
  • the picture of the dependent-view video stream is decoded while referring to the picture in which the picture of the base-view video stream of Inter-view buffer 2816 is overwritten with the picture of the 2D-compatible video stream.
  • time information in each access unit is specified based on the header information (stts, stsz, etc.) of the MP4 system format.
  • the reference picture of the dependent-view video stream is a decoded picture of the 2D compatible video stream, and normal multi-view video Since it is different from the stream structure, the stream type and stream_id given to the PES packet header may be set to be different from the values in the case of the conventional multi-view video stream.
  • the playback device can determine that the playback method is the 3D video playback method according to the present embodiment by referring to the stream type and stream_id, and can change the playback method.
  • step S3003 When the inter-codec reference switch 2824 is ON as shown in FIG. 40, the data transfer described in step S3003 is performed from the 2D compatible video decoder to the inter-view buffer in the extended multi-view video decoder. In this case, data transfer is not performed.
  • the plane selector 2825 includes a first plane 2808 in which picturer is output from the 2D compatible video decoder, a second plane 2820 in which a picture of the base-view video stream of the extended multi-view video decoder is output, and an extended multi-view video decoder dependent. Which plane is output as 2D video, 3D video left-eye image, or 3D video right-eye image to the third plane 2826 in which the view video stream picture is output select.
  • the playback device 2823b changes the playback mode by switching the output from the inter-codec reference switch 2824 and the plane selector 2825 according to the playback method.
  • the playback device 2823b turns off the inter-codec reference switch 2824. Then, the plane selector 2825 selects the first plane 2808 as 2D video.
  • the playback device 2823b turns on the inter-codec reference switch 2824. Then, the plane selector 2825 selects the first plane 2808 or the second plane 2820 as the left-eye image, and selects the third plane 2826 as the right-eye image.
  • the playback device 2823b turns off the inter-codec reference switch 2824. Then, the plane selector 2825 selects the second plane 2820 as the left-eye image and selects the third plane 2826 as the right-eye image.
  • the playback device 2823b turns off the inter-codec reference switch 2824. Then, the plane selector 2825 selects the first plane 2808 as the left-eye image and selects the first plane 2808 as the right-eye image.
  • the playback system when the playback system generates a transport stream that switches from 3D video playback by 2D compatible video stream and dependent-view video stream to 2D video playback of 2D compatible video stream Considering the delay of the decoding process, as shown in FIG. 42, the same video as the 2D compatible video stream may be compressed and encoded into the dependent-view video stream when the playback method changes. Good.
  • a section in which the same video as the 2D compatible stream is compression-coded into a dependent-view video stream is a 2D transition period shown in the upper part of FIG. In this 2D transition section, since playback is performed as 2D video regardless of which method is used, smooth video transition is achieved for the user.
  • the POC value of the picture of the dependent-view video stream indicating the same time display may be set to the value of temporal_reference indicating the display order included in each picture in MPEG-2 format compression encoding.
  • the POC of the dependent-view video stream indicating the same time display may be included in the user data of each picture of the 2D compatible video stream.
  • the value of temporal_reference can also be set to a unique value, so that the degree of freedom of setting in the compression encoding process increases.
  • a high-quality filter 4301 may be applied to the decoding result of the 2D compatible video stream.
  • the high image quality filter 4301 is a filter that reduces block noise like a deblocking filter defined by MPEG-4 AVC.
  • a flag indicating whether to apply the high image quality filter 4301 is prepared. For example, the high image quality filter 430 is applied when the flag indicates ON, and is not applied when the flag is OFF.
  • This flag can be included in the PMT descriptor and supplementary data of the stream.
  • the playback device applies a filter to the inter-view buffer 2816 in the decoding result before transferring the data.
  • This configuration realizes high quality 2D video for 2D compatible video streams.
  • the dependent-view video stream can be decoded while referring to the picture that has been subjected to the high image quality processing, it is possible to improve the quality of the resulting 3D video.
  • the extended multi-view video stream is configured so that a plurality of dependent-view video streams can be processed, and the PTS is the same in the replacement process with the picture of the 2D compatible video stream in the Inter-view buffer 2816.
  • the base view picture having a value may be replaced.
  • the ViewID to be replaced can be specified in the 2D compatible video stream, and instead of always replacing the picture of the base view, it may be selected and replaced from the pictures of the plurality of views.
  • the 2D compatible video stream is described as MPEG-2 video and the multi-view video stream (base view video stream and dependent view video stream) is described as MPEG-4 MVC video. Needless to say, is not limited to this.
  • this can be dealt with by appropriately changing the configuration in accordance with the characteristics of the codec. For example, when the 2D-compatible video stream is MPEG-4 AVC and the multi-view video stream is “new codec”, the O2806 and the switch 2807 shown in FIG. 34 are connected to the DPB like the playback device shown in FIG. Instead, the management of the pictures in the inter-view reference buffer 2816 may be performed according to the “new codec” configuration.
  • the left-eye picture and right-eye picture are arranged alternately and alternately in the vertical direction in the screen displayed on the display, and the pixels constituting the left-eye picture are passed through the upper lens called a lenticular lens on the display surface. Only the right eye and the pixels that form the picture for the right eye may be imaged only to the right eye, so that the left and right eyes can see a picture with parallax and can be displayed as a 3D image. Further, instead of the lenticular lens, a device having the same function, for example, a liquid crystal element may be used.
  • a vertically polarized filter is installed on the left-eye pixel on the display side
  • a horizontally polarized filter is installed on the right-eye pixel
  • viewers install a vertically polarized filter on the left eye and a horizontally polarized filter on the right eye. You may use the system called the polarization system using the installed polarized glasses.
  • a depth map in which a depth value is given in pixel units to the 2D video is prepared separately. You may make it produce
  • FIG. 4 schematically shows an example of generating a parallax image of a left-eye image and a right-eye image from a 2D video image and a depth map.
  • the depth map has a depth value corresponding to each pixel in the 2D image.
  • the circular object in the 2D image is information indicating that the circular object is nearby in the depth map (the depth value is High) is assigned, and information indicating that the other area is farther from the circular object (depth value is Low).
  • This information may be represented by a bit string for each pixel, or an image image (for example, “black” indicates that the depth is Low and “white” indicates that the depth is High). Also good.
  • the parallax image can be created by adjusting the parallax amount of the 2D video from the depth value of the depth map. In the example of FIG.
  • the parallax amount of the pixel of the circular object is increased when creating the parallax image.
  • the depth value of the region other than the circular object is Low, the parallax amount of the pixels other than the circular object is reduced, and the left-eye image and the right-eye image are created. If the left-eye image and the right-eye image are displayed using a sequential separation method or the like, stereoscopic viewing is possible.
  • one dependent-view video stream is used.
  • the present invention is not limited to this, and a plurality of dependent-view video streams may be used.
  • high-quality 3D video reproduction can be realized, and the bit rate of each dependent-view video stream can be kept low.
  • FIG. 99 is a diagram for explaining a case where two dependent-view video streams are used as an example.
  • the 2D compatible video stream is created by compressing and encoding 2D video (corresponding to the video for the left eye), the base view video stream is created by compressing and encoding the black video, and the dependent view video stream 1 is the video for the left eye.
  • the dependent-view video stream 2 is created by compressing and coding the right-eye video.
  • the left-eye video related to the dependent-view video stream 1 and the right-eye video related to the dependent-view video stream 2 are assumed to have higher image quality than the 2D video related to the 2D-compatible video stream.
  • Each picture of both dependent-view video streams is compression-coded with reference to the decoded picture of the 2D compatible video stream.
  • the amount of data included in the dependent-view video stream 1 corresponds to the difference between the left-eye video with higher image quality than the 2D video included in the 2D compatible video stream and the 2D video included in the 2D compatible video stream. Compared with the case where the high-quality left-eye video is directly compressed and encoded, the data amount can be greatly reduced.
  • the amount of data included in the dependent-view video stream 2 corresponds to the difference between the right-eye video with higher image quality than the 2D video included in the 2D compatible video stream and the 2D video included in the 2D compatible video stream. Compared to the case where the high-quality right-eye video is directly compressed and encoded, the data amount can be greatly reduced.
  • the decoded picture of the base-view video stream is replaced with the decoded picture of the 2D-compatible video stream at the same display time (PTS), and each dependent-view video stream is decoded.
  • FIG. 100 is a diagram showing a configuration of a data creation device 10001 according to this modification.
  • the data creation device 10001 has basically the same configuration as the data creation device 2601 except that it includes two dependent-view video encoders (10009 and 10011). Hereinafter, the difference from the data creation device 2601 will be mainly described.
  • Dependent view 1 video encoder 10009 receives the left-eye original video image, performs compression encoding according to base-view video encoding information 2607, and outputs dependent-view video stream 1.
  • the dependent view 1 video encoder 10009 compresses a decoded picture of a 2D compatible video stream of the same display time (PTS) / DTS stored in the 2D compatible video frame memory 2608 as an inter-view reference image. To do.
  • PTS display time
  • the dependent view 2 video encoder 10011 receives the right-eye original image as input, performs compression encoding according to the base view video encoding information 2607, and outputs the dependent view video stream 2. In this compression encoding, the dependent view 2 video encoder 10011 compresses the decoded picture of the 2D compatible video stream of the same display time (PTS) / DTS stored in the 2D compatible video frame memory 2608 as an inter-view reference image. To do.
  • PTS display time
  • FIG. 101 is a block diagram showing a configuration of a playback apparatus 10123 according to this modification.
  • the playback device 10123 basically has the same configuration as the playback device 2823, the difference will be mainly described below.
  • the playback device 10123 additionally includes TB (4), TB (4), and EB (4), and two dependent-view streams are input to the multi-view video decoder.
  • the picture of the base-view video stream is replaced with the picture of the 2D-compatible video stream at the same display time in the inter-view reference buffer 2816.
  • decoding is performed using the replaced picture as a reference image.
  • the playback device 10123 performs 3D video playback by outputting both decoded videos of the dependent-view video stream as 3D video.
  • the 2D-compatible video stream is generated by encoding progressive video, but the present invention is not limited to this, and may be generated by encoding interlaced video.
  • the 2D compatible video stream is generated by encoding an interlaced video
  • the dependent-view video stream is generated by encoding a progressive video.
  • the dependent-view video stream is configured to compress a picture obtained by enlarging the decoding result of the 2D compatible video stream twice in the vertical direction as a reference image.
  • FIG. 102 is a diagram showing a stream configuration according to the present modification.
  • the 2D compatible video stream is generated by compressing and encoding a full HD frame rate interlaced video (1080i / 60i) composed of a top field picture and a bottom field picture.
  • the base-view video stream of the multi-view video stream is a progressive video (1080 / 60p) with a full HD frame rate of 60 Hz in which monochrome video such as black (hereinafter referred to as “black video”) is encoded at a low bit rate. ) Is compressed and encoded.
  • the dependent-view video stream of the multi-view video stream is generated by compressing and encoding progressive video (1080 / 60p) with the same content as the 2D compatible video stream and full HD and a frame rate of 60 Hz.
  • the decoded picture of the base-view video stream is replaced with the decoded picture of the 2D-compatible video stream at the same display time (PTS) at the timing indicated by the DTS, so that the 2D-compatible video at the same display time.
  • PTS display time
  • Each dependent-view video stream can be decoded with reference to the picture of the stream.
  • interlaced 2D video playback can be performed by playing back a 2D compatible video stream
  • progressive 2D video playback can be performed by playing back a dependent-view video stream.
  • FIG. 103 is a diagram showing a configuration of a data creation device 10301 according to the present modification.
  • the data creation device 10301 basically has the same configuration as the data creation device 2601, but the 2D compatible video encoder 10302, the progressive unit 10311, and the dependent view video encoder 10309 are different.
  • the 2D compatible video encoder 10302 generates a 2D compatible video stream by interlacing and encoding a progressive original image with a frame rate of 60 Hz.
  • the progressive unit 10311 converts the interlaced video obtained by decoding the 2D compatible video stream into a progressive video, and stores the progressive video in the 2D compatible video frame memory 2608.
  • the progressive method there is a method of interpolating scanning lines between vertical scanning lines, but is not limited thereto.
  • the scanning line at the same position of the previous picture may be used as it is.
  • the dependent-view video encoder 10309 generates a dependent-view video stream by compressing and encoding the input progressive video based on the base-view video encoding information.
  • the dependent-view video encoder 10309 views a picture at the same display time as a picture to be encoded in a progressive video among pictures stored in the 2D compatible video frame memory 2608 by the progressive unit 10311. Used as an inter-reference image.
  • FIG. 104 is a diagram showing a configuration of a playback apparatus according to this modification.
  • the playback device 10423 outputs the decoded video of the dependent-view video stream as a progressive video.
  • the playback device 10423 has basically the same configuration as the playback device 2823, except that a progressive unit 10424 is added.
  • the progressive unit 10424 progressively converts the interlaced picture decoded by the 2D compatible video compression video decoder 2805.
  • the progressive processing is performed by the same method as the progressive processing unit of the data creation device. For example, as described above, two scanning lines arranged above and below an interlaced picture are used to interpolate the scanning lines between them.
  • the decoding process is performed using a picture stored in the inter-view reference buffer 2816 as a reference image with a picture having the same display time as the decoding target picture.
  • the progressive method by the progressive unit 10424 of the playback device 10423 is not limited to the above-described method.
  • the pixels between them may not be interpolated from pixels arranged vertically, but may be interpolated from pixels arranged vertically and diagonally.
  • the progressive unit 10311 of the data creation device 10301 has a function of performing progressive processing by a plurality of methods
  • the optimal method is selected to perform progressive processing, and which method is applied is described as a descriptor.
  • This information may be included in the supplementary data of the system packet or video stream.
  • the progressive unit 10424 determines which progressive method has been used based on the descriptor information, and uses the progressive method.
  • the referenced picture is progressively processed with the optimal progressive method to improve the image quality, so that the dependent-view video stream that is compressed using the image with the improved image quality for inter-view reference is also high.
  • the image quality can be improved.
  • interpolation may be performed using not only pictures with the same display time but also pictures with display times arranged in front and back.
  • interpolation is performed using pictures stored in O2806 or DPB2818 in the 2D compatible video decoder.
  • information indicating which frame is used is stored in the progressive method field of the descriptor.
  • inter-view reference is performed between the 2D compatible video stream and the multi-view video stream in the present embodiment, the inter-view reference may be performed between a plurality of multi-view video streams.
  • FIG. 105 is a diagram showing a stream configuration according to this modification.
  • the encoding target is the left-eye original image 10511, the right-eye original image 10512, and the middle original image 10515 with the center of the left eye and right eye as the viewpoint.
  • the multi-view video stream 1 (10501) includes a base-view video stream 10502 and a dependent-view stream 10503.
  • the base-view video stream 10502 is generated by compressing and encoding the left-eye original image 10511
  • the dependent-view stream 10503 is generated by compressing and encoding the right-eye original image 10512.
  • the multi-view video stream 2 (10504) includes a base-view video stream 10505, a dependent-view stream 1 (10506), and a dependent-view stream 2 (10507).
  • the base view video stream 10505 is generated by compressing and encoding a monochrome image 10513 such as black
  • the base view video stream 10506 is generated by compressing and encoding a monochrome image 10514 such as black.
  • the dependent view stream 10507 is generated by encoding the middle original picture 10515.
  • the compression encoding of the middle original picture 10515 is performed by decoding the decoded picture of the base-view video stream 10505 corresponding to the left-eye original picture 10511 and the dependent view stream 1 (10506) corresponding to the right-eye original picture 10512.
  • the decoded picture is used as a reference image.
  • the base-view video stream (10505) and the dependent-view video stream 1 (10506) of the multi-view video stream 2 (10504) at the timing represented by the DTS. are replaced with the decoded pictures of the base-view video stream (10502) of the multi-view video stream 1 (10501) and the dependent-view video stream 1 (10503).
  • the dependent view of the multi-view video stream 2 (10504) is then referenced with reference to the decoded pictures of the base-view video stream (10505) of the multi-view video stream 1 (10501) and the dependent-view video stream 1 (10506).
  • Video stream 2 (10507) is decoded.
  • FIG. 106 is a diagram showing an example of matching information indicating the correspondence between streams.
  • the matching information includes information for specifying the exchange source stream and the exchange destination stream, and information indicating which View ID of the exchange-destination multi-view video corresponds to each View ID of the exchange-destination multi-view video. .
  • the playback device can recognize the correspondence between the exchange source stream and the exchange destination stream by referring to the correspondence relationship between the View IDs of the multi-view video streams indicated by the matching information.
  • the base-view video stream is generated by compressing and encoding a monochrome image such as a black screen.
  • a differential video for improving the image quality of a 2D compatible video stream may be generated by compression encoding.
  • the difference video to improve the quality of the 2D-compatible video stream and referencing the high-definition picture when encoding the dependent-view video stream, the video of the dependent-view video stream is also improved. it can.
  • FIG. 86 is a diagram showing a configuration of a video stream according to the present modification.
  • the 2D compatible video stream is generated by compressing and encoding the original image of the left eye.
  • the multi-view video stream includes a base-view video stream and a dependent-view stream, and the base-view video stream is generated by compressing and encoding the difference between the 2D compatible video and the left-eye original video, and the dependent-view stream Is generated by compression-coding the original image of the right eye.
  • FIG. 89 shows an outline of the difference video creation procedure.
  • a 2D compatible video stream (8903) is generated.
  • a decoded picture (8902) of the 2D compatible video is obtained.
  • a difference value (difference video) between the original picture image 8901 and the decoded picture (8902) of the 2D compatible video is calculated (8913), and a value 128 is added to the calculated difference value (8914).
  • the difference value is simply calculated, it becomes signed information (eg, -128 to +128 in the case of 8-bit color), and an extra bit is required to represent the sign.
  • the difference between the picture of the original picture 8901 and the decoded picture 8902 of the 2D compatible video has a small dynamic range, and it is easy to obtain a large compression effect.
  • FIG. 89 shows an outline of the difference video composition procedure described in the upper part of FIG.
  • a 2D compatible video stream 8903 is decoded to obtain a decoded picture 8902 of the 2D compatible video.
  • the difference video 8904 is obtained by decoding the base-view video stream 8905, and the information returned to the signed state by adding -128 to each picture (8033) is synthesized in units of pixels (8034).
  • the quality of the 2D compatible video stream is improved using the difference video, and the picture of the dependent-view video stream can be improved by using the high-quality picture as a reference.
  • FIG. 87 is a diagram showing the configuration of the data creation device.
  • the data creation device 8701 has the same structure as the data creation device 2601 as a basic structure, but a base view video encoder 8705 and a dependent view video encoder 8709 are different, and a high-quality 2D compatible video frame memory 8711. Has been added.
  • the base-view video encoder 8705 compresses and encodes the base-view video stream in a video codec (for example, MPEG-4 MVC) of the multi-view video stream, and is 2D compatible with the left-eye original image video according to the 2D-compatible video encoding information 2606.
  • a base-view video stream is created by compressing and encoding the difference video with the decoded picture of the video stream.
  • the base-view video encoder 8705 outputs base-view video encoding information 2607, and outputs a composite video of the decoded picture of the 2D-compatible video stream and the difference video to the high-quality 2D-compatible video frame memory 8711.
  • the base view video encoder 8705 first generates a difference video between the left-eye original video and the decoded picture of the 2D compatible video stream.
  • the method for generating the difference video has already been shown in the upper part of FIG.
  • the difference video is compression-encoded by determining the encoding method of the base-view video stream with reference to the 2D compatible video encoding information 2606.
  • the video compression encoding method is the same as that described in the base-view video encoder 2605.
  • the base-view video encoder 8705 outputs the compression-encoded video stream as a base-view video stream, and combines the difference video obtained by decoding the base-view video stream and the video obtained by synthesizing the decoded picture of the 2D compatible video stream.
  • the video is output to a high-quality 2D compatible video frame memory.
  • the synthesizing method is the method described in the lower part of FIG.
  • the dependent-view video encoder 8709 includes a compression encoding function of the dependent-view video stream in the video codec (eg, MPEG-4 MVC) of the multi-view video stream, and the right-eye according to the base-view video encoding information 2607. Compresses the original video and outputs a dependent-view video stream. In this compression processing, the dependent-view video encoder 2609 compresses the decoded picture in the high-quality 2D compatible video frame memory stored in the high-quality 2D compatible video frame memory 8711 using inter-view reference. Encode.
  • the compression encoding method is the same as that described in the dependent view video encoder 2609.
  • FIG. 88 shows the structure of the playback device.
  • the playback device 8823 has the same structure as the playback device 2823 as a basic structure, but a multi-view video decoder 2817 is replaced with a multi-view video decoder 8817, and a synthesis unit 8824 is added.
  • the base-view video encoder 8817 transfers the decoded picture to the synthesis unit 8824 when decoding the base-view video stream.
  • the synthesizing unit 8824 performs a synthesizing process with the decoded picture of the base-view video stream and the decoded picture of the 2D compatible video stream of the same DTS / PTS.
  • the synthesizing method is as described in FIG.
  • the decoded picture of the base-view video stream having the same PTS in the inter-view reference buffer 2816 is replaced with the decoded picture of the 2D-compatible video stream that has been synthesized to improve the image quality.
  • the decoded picture of the 2D-compatible video stream with high image quality is referred to, so that the decoded picture of the dependent-view video stream also has high image quality. Will be converted.
  • the configuration of the data creation device and the playback device may be further simplified as follows.
  • This modified example relates to the dependent-view video stream, and does not refer to the decoded picture of the 2D compatible video stream that has been synthesized with the difference video and improved in quality as in the above modified example (23). Reference the decoded picture of the previous 2D compatible video stream. In this case, as in the modified example (23), although the high quality of the dependent view stream cannot be achieved, the processing becomes easy.
  • FIG. 97 is a diagram showing a configuration of a data creation device according to this modification.
  • the data creation device 9701 has the same structure as the data creation device 2601 as the basic structure, but the base view video encoder 9705 and the dependent view video encoder 9709 are different.
  • the base-view video encoder 9705 has a compression encoding function of the base-view video stream in the video codec (for example, MPEG-4 MVC) of the multi-view video stream, and is 2D compatible with the left-eye original video image according to the 2D-compatible video encoding information.
  • a base-view video stream is created by compressing and encoding the difference video with the decoded picture of the video stream, and the base-view video encoding information and the decoded picture of the 2D-compatible video stream are output.
  • the base-view video encoder 9705 first generates a differential video between the left-eye original video and the decoded picture of the 2D compatible video stream.
  • the difference video generation method is the method shown in the upper part of FIG.
  • the encoding method of the base view video stream is determined based on the 2D compatible video encoding information 2606, and the difference video is compression encoded.
  • the video compression encoding method is the same as that described in the base-view video encoder 2605.
  • the base view video encoder 8705 outputs the compression-encoded video stream as a base view video stream.
  • the dependent-view video encoder 9709 has a compression encoding function of the dependent-view video stream in the video codec (for example, MPEG-4 MVC) of the multi-view video stream, and the right-eye according to the base-view video encoding information 2607 Compresses the original video and outputs a dependent-view video stream.
  • the dependent-view video encoder 9709 performs compression encoding using a decoded picture of 2D compatible video for inter-view reference.
  • the compression encoding method is the same as that described in the dependent view video encoder 2609.
  • FIG. 98 is a diagram showing a configuration of a playback apparatus according to the present modification.
  • the playback device 9823 has the same structure as the playback device 2823 as a basic structure, but a synthesis unit 9824 is added.
  • the combining unit 9824 combines the decoded picture of the base-view video stream output to the second plane 2820 and the decoded picture of the 2D-compatible video stream of the same DTS / PTS output to the first plane 2808 at the PTS timing. And outputs a 2D compatible video with high image quality by this composition processing.
  • the right-eye image is stored in the dependent-view video stream.
  • the present invention is not limited to this, and a depth map image may be stored. With this configuration, 3D video can be reproduced using a depth map.
  • FIG. 92 is a diagram showing a configuration of a video stream according to this modification.
  • the depth map video may be compressed and encoded into the base view video stream.
  • FIG. 93 is a diagram showing a configuration of a video stream when a depth map video is compression-encoded into a base-view video stream according to this modification.
  • the playback apparatus that realizes 3D video playback using depth map video is configured to decode only depth map video, while playback that realizes 3D video playback using left-eye video and right-eye video.
  • the apparatus can be configured to realize the video playback described in the first embodiment, and can support 3D video playback of both playback apparatuses with one data stream.
  • the difference video may be stored in the dependent-view video stream.
  • high-quality 2D video reproduction is performed by decoding each video stream as described in the first embodiment and synthesizing the decoded differential video and the decoded picture of the 2D compatible video stream.
  • Supplementary explanation> ⁇ Description of video compression technology> ⁇ 2D video compression technology> MPEG-2 and MPEG-4 AVC (compression encoding system based on MPEG-4 MVC format), which is a standard for compressing and encoding 2D video used in the data creation device and playback device according to the present embodiment The encoding method will be briefly described.
  • data amount compression encoding is performed using redundancy in the spatial direction and temporal direction of moving images.
  • Inter-picture prediction coding is used as a compression coding method using redundancy.
  • inter-picture predictive coding when a certain picture is coded, a picture that is forward or backward in display time order is used as a reference picture. Then, the amount of motion from the reference picture is detected, and the difference between the picture subjected to motion compensation and the picture to be coded is compression-coded.
  • FIG. 1 shows a reference relationship between pictures in a video stream.
  • picture P3 is compression-encoded with reference to picture I0
  • picture B1 and picture B2 are compression-encoded with reference to picture I0 and picture P3, respectively.
  • a right-eye image (R image) and a left-eye image (L image) are prepared, and only the image corresponding to each eye for the user is displayed for each eye.
  • the stereoscopic display is realized by performing display controlled so as to be reflected on the screen.
  • a moving image composed of right-eye images is called a left-view video
  • a moving image composed of left-eye images is called a right-view video.
  • FIG. 13 is a diagram showing an example of a stereoscopic image display.
  • the example which displayed the image for left eyes of the skeleton of the dinosaur which is a target object, and the image for right eyes of the skeleton of the dinosaur which is a target object is shown. If 3D glasses are used to repeat the light and left eye light transmission and shading, the left and right scenes are overlapped by the afterimage reaction of the eyes in the user's brain, and a stereoscopic image exists on the extension line in the center of the face Then you can recognize.
  • 3D video systems that compress and encode left-view video and right-view video include a frame compatible system and a multi-view encoding system.
  • the frame compatible method is a method of performing compression coding by synthesizing each picture corresponding to an image showing a view at the same time of the left view video and the right view video and then synthesizing them into one picture.
  • each picture corresponding to an image showing a view at the same time of the left-view video and the right-view video is compressed in half in the horizontal direction and then arranged in the left and right to form one picture.
  • a video stream is generated by compressing and encoding a moving image based on a synthesized picture by a 2D video compression encoding method (for example, MPEG-2).
  • the video stream is decoded based on the same compression encoding method as that for generating the video stream.
  • Each decoded picture is divided into left and right images, and each of the divided images is expanded in the horizontal direction twice to obtain corresponding pictures of the left view video and the right view video.
  • L image left-view video picture
  • R image right-view video picture
  • the multi-view encoding method is a method for compressing and encoding the left-view video and the right-view video picture as separate pictures without combining them into one picture.
  • the multi-view encoding method is a method for compressing and encoding the left-view video and the right-view video picture as separate pictures without combining them into one picture.
  • FIG. 2 is a diagram showing an encoding method in the MPEG-4 MVC format, which is a multi-view encoding method.
  • the MPEG-4 MVC format video stream is processed simultaneously with the base-view video stream and the base-view video stream that can be played back by a playback device that plays back the conventional MPEG-4 AVC-format video stream.
  • This is a configuration including a dependent-view video stream that realizes playback.
  • the base-view video stream is compression-encoded using inter-picture predictive coding using only the redundancy with the video of the same viewpoint without referring to the video of another viewpoint. Is done.
  • the dependent-view video stream is compression-encoded by inter-picture predictive encoding using redundancy with video from another viewpoint in addition to inter-picture predictive encoding using reference of the same viewpoint video. .
  • the picture of the dependent-view video stream is compression-coded with reference to a picture showing a view at the same time in the base-view video stream.
  • the picture P0 that is the first P picture of the dependent-view video stream refers to the picture I0 that is the I-picture of the base-view video stream.
  • a picture B1 that is a B picture of the dependent-view video stream refers to a picture Br1 that is a Br picture of the base-view video stream.
  • a picture P3 that is a second P picture of the dependent-view video stream indicates that a picture P3 that is a P-picture of the base-view video stream is referred to.
  • the base-view video stream does not refer to the picture of the dependent-view video stream, it can be decoded and reproduced only by this video stream.
  • the dependent-view video stream since the dependent-view video stream is decoded with reference to the base-view video stream, it cannot be played back alone.
  • the dependent-view stream performs inter-picture prediction encoding using a base-view picture of another viewpoint indicating a view at the same time.
  • the right-eye image and the left-eye image at the same time are similar (highly correlated), and the difference is compressed and encoded, so the dependent-view video stream has more data than the base-view video stream. Can be greatly reduced.
  • MPEG-2 transport stream is a standard for multiplexing and transmitting various streams such as video and audio. It is standardized in ISO / IEC13818-1 and ITU-T recommendation H222.0.
  • FIG. 6 is a diagram showing the structure of a digital stream in the MPEG-2 transport stream format.
  • the transport stream 513 is obtained by multiplexing a video TS (Tranport Stream) packet 503, an audio TS packet 506, a subtitle stream TS packet 509, and the like.
  • the video TS packet 503 stores the main video of the program
  • the audio TS packet 506 stores the main audio portion and sub audio of the program
  • the TS packet 509 of the subtitle stream stores the subtitle information of the program.
  • the video frame sequence 501 is compression encoded using a video encoding method such as MPEG-2, MPEG-4 AVC.
  • the audio frame sequence 504 is compression-encoded by an audio encoding method such as Dolby AC-3, MPEG-2 AAC, MPEG-4 AAC, HE-AAC.
  • Each stream included in the transport stream is identified by a stream identification ID called PID.
  • PID stream identification ID
  • the playback apparatus can extract the stream to be processed.
  • Information on the correspondence between PID and stream is stored in a descriptor of a PMT packet described below.
  • a video stream 501 composed of a plurality of video frames and an audio stream 504 composed of a plurality of audio frames are converted into PES packet sequences 502 and 505, respectively.
  • the PES packet sequences 502 and 505 are converted into TS packets 503 and 506, respectively.
  • the data of the subtitle stream 507 is converted into a PES packet sequence 508 and further converted into a TS packet 509.
  • the MPEG-2 transport stream 513 is configured by multiplexing these TS packets into one stream. The PES packet and TS packet will be described later.
  • the video stream is data having a hierarchical structure as shown in FIG.
  • a video stream is composed of a plurality of GOPs, and by using this as a basic unit of compression encoding processing, editing of a moving image and random access are possible.
  • GOP is composed of one or more video access units.
  • the video access unit is a unit for storing compression-encoded data of a picture, and stores data of one frame in the case of a frame structure and one field in the case of a field structure.
  • Each video access unit includes an AU identification code, a sequence header, a picture header, supplementary data, a compressed picture, padding data, a sequence end code, and a stream end code.
  • each data is stored in units called NAL units.
  • AU identification code is a start code indicating the head of the access unit.
  • the sequence header is a header storing common information in a playback sequence composed of a plurality of video access units, and stores information such as resolution, frame rate, aspect ratio, and bit rate.
  • the picture header is a header that stores information such as the encoding method of the entire picture.
  • Supplementary data is additional information that is not essential for decoding a compressed picture, and stores, for example, closed caption character information or GOP structure information that is displayed on a TV in synchronization with video.
  • Compressed picture data is stored in the compressed picture.
  • -Padding data stores data for formatting. For example, it is used as stuffing data for maintaining a predetermined bit rate.
  • the sequence end code is data indicating the end of the playback sequence.
  • the stream end code is data indicating the end of the bit stream.
  • the data structure of the AU identification code, sequence header, picture header, supplemental data, compressed picture, padding data, sequence end code, and stream end code differs depending on the video encoding method.
  • the AU identification code is an AU delimiter (Access Unit Delimiter)
  • the sequence header is SPS (Sequence Parameter Set)
  • the picture header is PPS (Picture Parameter Set)
  • the compressed picture is a plurality of slices
  • Supplementary data corresponds to SEI (Supplemental Enhancement Information)
  • padding data corresponds to FillerData
  • sequence end code corresponds to End of Sequence
  • stream end code corresponds to End of Stream.
  • the sequence header is sequence_Header, sequence_extension, group_of_picture_header, the picture header is picture_header, the picture_coding_extension, the compressed code is a sequence_decode, and the supplement_data is a sequence_decode.
  • each attribute information is not always necessary.
  • the sequence header is necessary only in the video access unit at the head of the GOP, and can be encoded without being added to other video access units.
  • the picture header can be referred to that of the previous video access unit in the code order, and the picture header can be omitted in its own video access unit.
  • I picture data is stored as a compressed picture, and an AU identification code, a sequence header, a picture header, and a compressed picture are always stored. Supplementary data, padding data, sequence end code, and stream end code are stored as needed.
  • the AU identification code and the compressed picture are always stored in video access units other than the GOP head, and supplementary data, padding data, a sequence end code, and a stream end code are appropriately stored as necessary.
  • FIG. 10 is a diagram showing how a video stream is stored in a PES packet sequence.
  • the 10 shows the video frame sequence of the video stream.
  • the second level shows a PES packet sequence.
  • a plurality of Video Presentation Units in the video stream are divided into each picture, and stored in the payload of the PES packet. .
  • Each PES packet has a PES header, and a PTS that is a picture display time and a DTS that is a picture decoding time are stored in the PES header.
  • FIG. 11 is a diagram showing the data structure of TS packets constituting the transport stream.
  • the TS packet is a 188-byte fixed-length packet composed of a 4-byte TS header, an adaptation field, and a TS payload.
  • the TS header is configured to include transport_priority, PID, adaptation_field_control.
  • the PID is an ID for identifying a stream multiplexed in the transport stream as described above.
  • Transport_priority is information for identifying the type of packet in TS packets having the same PID.
  • Adaptation_field_control is information for controlling the configuration of the adaptation field and the TS payload. There are cases where only one of the adaptation field and the TS payload exists or both, and adaptation_field_control is information indicating the presence / absence thereof.
  • adaptation_field_control value When the adaptation_field_control value is “1”, only the TS payload is present. When the adaptation_field_control value is “2”, only the adaptation field is present. When the adaptation_field_control value is “3”, the payload is “3”. Indicates that both adaptation fields are present.
  • the adaptation field is a storage area for storing information such as PCR (Program Clock Reference) and stuffing data for making the TS packet a fixed length of 188 bytes.
  • PCR Program Clock Reference
  • stuffing data for making the TS packet a fixed length of 188 bytes.
  • a PES packet is divided and stored in the TS payload.
  • TS packets included in the transport stream include packets such as PAT (Program Association Table), PMT, and PCR in addition to packets of each stream such as video, audio, and caption. These packets are called PSI (Program Specific Information).
  • PAT indicates what the PID of the PMT used in the transport stream is, and the PID of the PAT itself is “0”.
  • FIG. 12 is a diagram showing the data structure of the PMT.
  • the PMT includes a PMT header, various descriptors related to the transport stream, and stream information related to each stream such as video / audio / subtitles included in the transport stream.
  • copy control information for instructing permission / non-permission of copying of each stream such as video / audio is recorded.
  • the stream information regarding each stream includes a stream descriptor in which a stream type, a stream PID, and stream attribute information (for example, a frame rate and an aspect ratio) are described in order to identify the compression encoding method of the stream.
  • a stream descriptor in which a stream type, a stream PID, and stream attribute information (for example, a frame rate and an aspect ratio) are described in order to identify the compression encoding method of the stream.
  • the PCR In order to synchronize the arrival time of the TS packet at the decoder and the STC (System Time Clock) which is the time axis of the PTS and DTS, the PCR has an STC time corresponding to the time when the PCR packet is transferred to the decoder. Have information.
  • STC System Time Clock
  • an area to be actually displayed can be designated as a cropping area from among the compression-coded frame areas.
  • the frame_cropping information includes differences between the upper line, the lower line, the left line, and the right line of the cropping area and the upper line, the underline, the left line, and the right line of the compression-coded frame area. Is specified as the crop amount of the top, bottom, left and right.
  • frame_cropping_flag is set to “1”
  • frame_crop_top_offset, frame_crop_left_offset, frame_crop_right, and lower_crop_crop_right crop_crop
  • the vertical and horizontal sizes of the cropping area (display_horizontal_size of sequence_display_extension, display_vertical_size), and the difference between the center of the compression-coded frame area and the center of the cropping area
  • the cropping area is specified using information (frame_center_horizontal_offset, frame_center_vertical_offset of picture_display_extension).
  • an aspect ratio is set as scaling information indicating a scaling method when the cropping area is actually displayed on a television or the like.
  • the playback device uses the aspect ratio information to up-convert the cropping area for display.
  • aspect ratio information (aspect_ratio_idc) is stored in the SPS as the scaling information.
  • the aspect ratio is specified as 4: 3.
  • sequence_header there is attribute information for storing aspect ratio information (aspect_ratio_information) called sequence_header, and the same processing as described above can be realized by appropriately setting the value of this attribute information.
  • FIG. 15 is a diagram showing an example of the internal configuration of a video stream in the MPEG-4 MVC format.
  • the picture of the right-view video stream is compression-coded with reference to the picture at the same display time of the left-view video stream.
  • the pictures P1 and P2 of the right-view video stream refer to the pictures I1 and P2 of the left-view video stream, respectively.
  • the pictures B3, B4, B6, and B7 of the right-view video stream are respectively pictures Br3 and Br4 of the left-view video stream. , Br6, Br7 with reference to compression coding.
  • the second tier in the figure shows the internal structure of the left view video stream.
  • This left-view video stream includes pictures I1, P2, Br3, Br4, P5, Br6, Br7, and P9. These pictures are decoded in the order of time set in the DTS.
  • the first row shows the left eye image displayed on the display or the like.
  • the left-eye image is the second-order decoded picture I1, P2, Br3, Br4, P5, Br6, Br7, P9 in the order of time set in the PTS, that is, I1, Br3, Br4, P2, Br6, Displayed in the order of Br7 and P5.
  • the fourth level shows the internal structure of the right-view video stream.
  • This right-view video stream includes pictures P1, P2, B3, B4, P5, B6, B7, and P8. These pictures are decoded in the order of time set in the DTS.
  • the third row shows a right eye image displayed on a display or the like.
  • the right-eye image has the decoded pictures P1, P2, B3, B4, P5, B6, B7, and P8 in the fourth stage in the order set in the PTS, that is, P1, B3, B4, P2, B6, Displayed in the order of B7 and P5.
  • display of either the left-eye image or the right-eye image in which the same value is assigned to the PTS is delayed by half the interval until the next PTS time.
  • the fifth row shows how the state of the 3D glasses 200 is changed. As shown in the fifth row, the right-eye shutter is closed when viewing the left-eye image, and the left-eye shutter is closed when viewing the right-eye image.
  • FIG. 17 shows the configuration of the video access unit for each picture of the base-view video stream and each picture of the dependent-view video stream. As described above, as shown in the upper part of FIG. 17, in the base-view video stream, each picture is configured as one video access unit.
  • the dependent-view video stream also has one video access unit in the same manner, but the data structure is different from the video access unit of the base-view video stream.
  • the 3D video access unit 1701 is composed of the video access unit of the base-view video stream and the video access unit of the dependent-view video stream having the same PTS value.
  • the playback device performs decoding in units of this 3D video access unit.
  • FIG. 18 shows an example of the relationship between the PTS and the DTS assigned to each video access unit of the base-view video stream and the dependent-view video stream in the video stream.
  • the base-view video stream picture and the dependent-view video stream picture storing the parallax images indicating the same time view are set so that the DTS and the PTS have the same value.
  • the playback device that decodes the pictures of the base-view video stream and the dependent-view video stream can perform decoding and display in units of 3D video access units.
  • FIG. 19 shows the GOP configuration of the base view video stream and the dependent view video stream.
  • the GOP structure of the base view video stream is the same as that of the conventional video stream, and is composed of a plurality of video access units.
  • the dependent view video stream is composed of a plurality of dependent GOPs.
  • the leading picture of the dependent GOP is a picture displayed as a pair with the I picture at the GOP head of the base-view video stream when playing back 3D video, and has the same value as the PTS of the I picture at the GOP head of the base-view video stream This picture is assigned a PTS.
  • FIG. 20 shows the data structure of the video access unit included in the dependent GOP.
  • the dependent GOP head video access unit stores, as a compressed picture, picture data displayed at the same time as the GOP head I picture of the base-view video stream, and a sub AU identification code and sub sequence.
  • a header, a picture header, and a compressed picture are always stored.
  • Supplementary data, padding data, sequence end code, and stream end code are stored as appropriate.
  • the sub AU identification code is a start code indicating the head of the access unit.
  • the sub-sequence header is a header that stores common information in a playback sequence composed of a plurality of video access units, and stores information such as resolution, frame rate, aspect ratio, and bit rate.
  • the frame rate, resolution, and aspect ratio values of the sub-sequence header are the same as the frame rate, resolution, and aspect ratio of the sequence header included in the video access unit at the GOP head of the corresponding base-view video stream.
  • a video access unit other than the head of the GOP always stores a sub AU identification code and a compressed picture. Supplementary data, padding data, sequence end code, and stream end code are stored as appropriate.
  • Second Embodiment> ⁇ 2-1. Overview>
  • inter-view reference is realized between streams in which video is compressed and encoded with different codecs, thereby reducing the multi-view video stream of 3D video while maintaining playback compatibility with conventional 2D video. Configured with bit rate.
  • the conventional 2D video can be improved in quality while maintaining playback compatibility with the conventional 2D video.
  • a high-quality video is transmitted as a multi-view video stream configured at a low bit rate.
  • “high image quality” refers to image quality closer to the original image, for example, image quality with less compression distortion such as block noise that may occur during video compression.
  • an image encoded at a high bit rate is used as an example of an image with high image quality.
  • the image quality depends on the encoding bit rate. The higher the bit rate, the higher the quality of the image that is closer to the original image. When the bit rate is low, the video cannot be compressed or encoded in scenes with intense motion. This is because block noise may be mixed in.
  • FIG. 48 is a diagram for explaining data included in the transport stream according to the present embodiment.
  • the transport stream in the present embodiment is a 2D compatible video stream, a base-view video stream of a multi-view video stream, and a dependent-view video stream, each of which is made into a PES packet, divided into TS packets, and multiplexed. .
  • the 2D compatible video stream is a video stream configured in a format that can be reproduced as 2D video by a 2D video playback device as described with reference to FIG.
  • the 2D compatible video stream is a video stream encoded with an MPEG-2 video codec.
  • the multi-view video stream is a video stream encoded with a codec that realizes inter-view reference, and here, a high-quality original video image is compression-encoded with an MPEG-4 MVC video codec. .
  • a 2D compatible video stream is generated by compressing and encoding an original image of normal quality.
  • black video is generated by compression encoding at a low bit rate according to the MPEG-4 MVC video codec.
  • the dependent-view video stream is generated by compressing and encoding a high-quality original picture.
  • the dependent-view video stream is compressed using inter-view reference.
  • the picture referred to as the inter-view reference is not a picture at the same display time (PTS is the same) of the base-view video stream, but a decoded picture at the same display time (PTS is the same) of the 2D compatible video stream.
  • the dependent-view video stream compresses the difference video between the video obtained by compressing and encoding the original video with higher image quality than the MPEG-2 video codec and the video compressed and encoded according to the MPEG-2 video codec. Is generated.
  • the decoded picture (black image) of the base-view video stream is replaced with the decoded picture (restored image of MPEG-2 video) of the 2D compatible video stream at the same display time, and the replaced picture (MPEG- With reference to (decoded image of two videos), a picture (high-quality image) at the same display time of the dependent-view video stream is decoded.
  • the base-view video stream is a compression-encoded black image
  • the dependent-view video stream is a “decoded picture of a 2D-compatible video stream” and a “picture of high-quality video”. Since only the difference is compressed, an image obtained by improving the image quality of a conventional 2D image can be configured at a low bit rate.
  • FIG. 50 is a diagram for explaining a PMT packet included in the transport stream.
  • signaling information for decoding high-quality video is included in system packets such as PMT packets.
  • the signaling information includes a high-quality information descriptor for performing signaling such as the relationship between video streams and the start and end of high-quality video reproduction, and a high-quality stream descriptor set for each video stream.
  • a high-quality information descriptor for performing signaling such as the relationship between video streams and the start and end of high-quality video reproduction
  • a high-quality stream descriptor set for each video stream for each video stream.
  • the high image quality information descriptor includes a high image quality playback method, a 2D compatible video PID, a base view video PID, and a dependent view video PID.
  • the high-quality playback method is information for signaling the playback method of the high-quality playback device.
  • the high-quality playback method is 0, 2D video playback using 2D-compatible video is shown.
  • the high-quality playback system is 1, high-quality video playback using 2D-compatible video and dependent-view video (that is, the high level described in the present embodiment).
  • 2 indicates high-quality video playback using base-view video stream and dependent-view video
  • 3 indicates high-quality video playback using base-view video. Indicates that
  • the playback device plays back 2D video only of the 2D compatible video stream.
  • the value is 1
  • high-quality video playback is performed on the 2D-compatible video stream, base-view video stream, and dependent-view video stream using the playback method described in this embodiment.
  • the value is 2
  • the 2D compatible video stream and the multi-view video stream constituting the high-quality video are not in a reference relationship because different videos are generated by compression encoding.
  • the base-view video stream and the dependent-view video stream are video streams compressed with a normal multi-view codec. Therefore, the playback device plays back the multi-view video stream with high quality video.
  • the value is 3
  • the playback device plays back the base view video stream with high quality video.
  • FIG. 53 is a diagram illustrating the structure of the high quality stream descriptor.
  • the high image quality stream descriptor includes a base view video type, a reference destination type, and a referenced type.
  • the base view video type indicates what video is encoded in the base view video stream. When the value is 0, it indicates that the video that is the base of the high-quality video is compression-encoded. When the value is 1, an attached video such as a black video is included and replaced with a 2D compatible video stream. This indicates that a dummy video that is not used for output to the video is compressed and encoded.
  • the reference destination type indicates the type of the video stream that the dependent-view video stream is the reference destination of the inter-view reference.
  • a value of 0 indicates that a picture of the base-view video stream is used as an inter-view reference, and a value of 1 indicates that a picture of a 2D compatible video stream is referenced between views.
  • the referenced type indicates whether the corresponding video stream is referenced between views. If it is not referenced, the process of inter-view reference can be skipped, so the implementation can be simplified accordingly.
  • PTS, DTS and GOP> The relationship between the display time (PTS), decoding time (DTS), and picture type assigned to each video access unit of the 2D compatible video stream, base-view video stream, and dependent-view video stream in the transport stream is described in the first embodiment.
  • the 2D compatible video stream, the base view video stream, and the dependent view video stream have the same relationship.
  • the GOP configuration of the 2D compatible video stream, the base view video stream, and the dependent view video stream is the same as the GOP configuration of the 2D compatible video stream, the base view video stream, and the dependent view video stream of the first embodiment. is there.
  • the normal playback device is a device that can play back only a conventional 2D compatible video stream.
  • the normal playback device can play back a stream with a bit rate of up to 10 Mbps.
  • the normal playback device is already on the market, and is supposed to play back a stream distributed by a broadcast wave or the like.
  • the high-quality playback device is a playback device according to the present embodiment, and has a decoding function for a multi-view video stream as well as a 2D compatible video stream. In the case where these two types of playback devices coexist, the transport stream having the configuration described in FIG. 48 is broadcast.
  • the normal playback device decodes the 2D compatible video stream in the transport stream and plays back normal 2D video.
  • the high-quality playback device decodes both the 2D compatible video stream and the multi-view video stream in the transport stream.
  • the high-quality playback device replaces the decoded picture of the base-view video stream with the decoded picture of the 2D compatible video stream at the same display time. Then, the picture of the dependent-view video stream is decoded with reference to the decoded picture of the 2D compatible video stream at the same display time, which is the replaced picture.
  • the picture obtained by decoding the dependent-view video stream is obtained by adding a difference between the picture of the high-definition video and the picture of the 2D-compatible video stream to the picture of the 2D-compatible video stream, that is, the picture of the high-quality video. . Therefore, if a dependent-view video stream is output, it is possible to reproduce high-quality video compared to the decoding result of a 2D compatible video stream.
  • the base-view video stream is referred to for information included in the stream such as PTS, but the picture itself is not referred to, so the compression rate such as video composed of a black image is high.
  • the bit rate can be greatly reduced.
  • FIG. 54 is a diagram showing a configuration of a data creation device 5401 as a video encoding device according to the present embodiment.
  • the data creation device 5401 has basically the same configuration as the data creation device 2601 of the first embodiment shown in FIG. However, since the input data is different, in FIG. 54, the “left-eye original image” in FIG. 26 is replaced with a 2D “original image image”, and the “right-eye original image” is replaced with the same 2D “original image image”. The following description will focus on differences from the data creation device 2601 of the first embodiment.
  • the data creation device 5401 is different from the data creation device 2601 in the configuration of the dependent-view video encoder 5409 in the extended multi-view video encoder 5404.
  • the dependent-view video encoder 5409 encodes a high-definition original picture image as an input instead of one of the videos (left-eye or right-eye original picture video) constituting the 3D video.
  • the dependent-view video encoder 5409 performs the compression process by using the decoded picture in the 2D compatible video frame memory 2608 (the picture obtained by decoding the 2D compatible video stream) for inter-view reference.
  • FIG. 55 is a flowchart showing data creation processing by the data creation device 5401 configured as described above.
  • FIG. 55 The data creation flow shown in FIG. 55 is approximately the same as the data creation flow of the data creation device 2601 described with reference to FIG. 27 in the first embodiment.
  • S2703 and S2706 in FIG. 27 are replaced with S5503 and S5506, respectively.
  • the “left-eye original image” is replaced with a 2D “original image image”
  • the “right-eye original image” is replaced with the same 2D “original image image”.
  • FIG. 56 is a diagram showing the configuration of the playback device 5623 according to the present embodiment.
  • the flowchart shown in FIG. 57 is almost the same as the 3D video decoding and output processing flow by the 3D video playback device 2823 described with reference to FIG. 30 of the first embodiment.
  • the part of S3005 which is an output process is different from FIG. 30, and in FIG. 57, it is replaced with the following S5705.
  • the present embodiment aims to improve the quality of 2D video images, and it is not necessary to output the 2D compatible video stream to the plane. Therefore, only the decoded pictures of the dependent-view video stream are processed at the PTS timing. 1 plane 2808 is output. ⁇ 2-5. Supplementary explanation about effects>
  • the effect in the present embodiment will be supplementarily described with reference to FIG.
  • the normal playback device in the figure is a playback device that can play back only a 2D compatible video stream.
  • the bit rate that can be played back by the normal playback device is up to 10 Mbps.
  • the normal playback device is already in the market and plays back a stream distributed by broadcast waves or the like.
  • the high-quality playback device is a playback device that can play back a high-quality video stream in which a video with a higher quality than the 2D compatible video stream is encoded.
  • the 2D compatible video stream is 10 Mbps
  • the bit rate of the high-quality video stream obtained by compressing the same video with the same codec is 15 Mbps.
  • the lower part of FIG. 47 shows an example in which the multi-view encoding method is used in order to solve the problem shown in the upper part of FIG. 47 and reduce the necessary transfer bandwidth.
  • the 2D compatible video stream in the figure is encoded as a base-view video stream.
  • the extended video stream is a dependent-view video stream, and is compressed and encoded using each picture of the base-view video stream as a reference image.
  • the extended video stream compresses the difference between the original picture and the decoding result of the 2D compatible video stream.
  • the multi-view video stream can realize a high-quality video at a low bit rate as compared with the case where the 2D compatible video stream and the high-quality video stream are combined as shown in the upper part of FIG.
  • the 2D compatible video stream is 10 Mbps
  • the extended video stream is compressed with the 2D compatible video stream as a reference image to 5 Mbps.
  • the high-quality playback device can decode and play back high-quality video by decoding the 2D-compatible video stream constituting the multi-view video stream and decoding the extended video stream while referring to this.
  • both video streams must be compressed by a multi-view video encoding method such as MPEG-4 MVC.
  • the playback device can easily change the playback mode.
  • the lower part of FIG. 58 shows the setting of the inter-codec reference switch and the plane selector for the example of the high image quality reproduction method of FIG.
  • the high-quality playback method is “0”
  • the inter-codec reference switch is turned off in the high-quality playback device, and the plane selector selects the first plane as 2D video.
  • the high-quality playback method is “1”
  • the inter-codec reference switch is turned on, and the plane selector selects the third plane as 2D video.
  • the high-quality playback method is “2”
  • the inter-codec reference switch is turned OFF, and the plane selector selects the third plane as 2D video.
  • inter-view reference is realized between streams in which video is compression-coded with different codecs, thereby reducing the multi-view video stream of 3D video while maintaining playback compatibility with conventional 2D video. Configured with bit rate.
  • inter-view reference is realized between streams in which video is compressed and encoded with different codecs, so that the conventional 2D video can be improved in quality while maintaining compatibility with the conventional 2D video.
  • video with improved color reproducibility high gradation
  • the improvement of color reproducibility means adding more accurate gradation information to color information compressed by a conventional video codec.
  • color information is expressed in 8-bit color. In the case of RGB colors, display of about 16.77 million colors is possible with a total of 24 bits assigned 8 bits (0 to 255 gradations) to each of RGB.
  • the user may determine that the image quality of the video expressed with this color gradation is poor.
  • an image expressed with a 12-bit color gradation is used as an example of the adjusted image.
  • FIG. 61 is a diagram showing an outline of an encoding procedure and a decoding procedure for increasing the gradation.
  • the upper part of FIG. 61 shows an outline of a procedure for generating a 2D compatible video stream and an extended video stream related to encoding.
  • the high gradation video is an original image with a color gradation of 12 bits.
  • the upper 8 bits of the 12-bit original picture are taken out and compressed into a 2D compatible video stream.
  • the 2D compatible video stream is decoded, and a difference value between the video shifted to the upper 4 bits (6101) and the original video of 12 bits is obtained (6102).
  • the difference value is information in a signed 7-bit range (-127 to +128), and is added to this to form a positive number (6103), which is compressed and encoded into an extended video stream.
  • 61 shows the outline of the decoding procedure of the 2D compatible video stream and the extended video stream described above.
  • the 2D compatible video stream is decoded, and the color value of each pixel is shifted up by 4 bits (6104).
  • the extended video stream is decoded and subtracted 128 from the color value of each pixel to convert it into signed information (6104). Then, these images are added (6106) to output a high gradation image.
  • video can be encoded / decoded using a conventional 8-bit encoder / decoder.
  • the extended video stream is a difference video between a 12-bit video and an 8-bit video (correctly, a video obtained by decoding a 2D compatible video stream compressed and encoded with 8-bit video), and is a video with little change. Therefore, compression encoding can be performed with high efficiency.
  • FIG. 62 is a diagram for explaining data included in the transport stream according to the present embodiment.
  • the transport stream in the present embodiment is a 2D compatible video stream, a base-view video stream of a multi-view video stream, and a dependent-view video stream, each of which is made into a PES packet, divided into TS packets, and multiplexed. .
  • the 2D compatible video stream is a video stream configured in a format that can be reproduced as 2D video by a 2D video playback device as described with reference to FIG.
  • the 2D compatible video stream is a video stream encoded with an MPEG-2 video codec.
  • the multi-view video stream is a video stream encoded with a codec that realizes inter-view reference, and here is compressed with the MPEG-4 MVC video codec.
  • the 2D compatible video stream is an original video image that is compression-encoded with 8-bit color gradation according to the MPEG-2 video codec.
  • the base-view video stream is a black video that has been compression-encoded at a low bit rate in accordance with the MPEG-4 MVC video codec.
  • the dependent-view video stream is obtained by compressing and encoding a differential video between a 12-bit original video and a decoded video (8-bit uncompressed video) of a 2D compatible video stream.
  • the difference video is created by the procedure described with reference to FIG.
  • this difference video is referred to as “differential gradation video”.
  • the differential gradation video is compression-encoded according to the MPEG-4 MVC video codec.
  • the dependent-view video stream is compressed using inter-view reference.
  • the picture referred to as the inter-view reference is not a picture of the base view video stream at the same display time (the same PTS) but a decoded picture of a 2D compatible video stream at the same display time (the same PTS).
  • the decoded picture (black image) of the base-view video stream is replaced with the decoded picture (8-bit uncompressed video) of the 2D compatible video stream at the same display time, and the replaced picture (8-bit uncompressed) With reference to (video), a picture (12-bit original video) at the same display time of the dependent-view video stream is decoded.
  • the dependent-view video stream is obtained by compressing and encoding the differential gradation video, so that the bit rate of the stream can be reduced as a whole and the gradation is higher than that of the 2D compatible video stream.
  • Video can be provided.
  • FIG. 63 is a diagram for explaining a PMT packet included in a transport stream.
  • signaling information for decoding high-gradation video is included in a system packet such as a PMT packet.
  • the signaling information includes a high gradation information descriptor for performing signaling such as the relationship between each video stream and the start and end of high gradation video reproduction, and a high gradation stream descriptor set for each video stream.
  • “high image quality” is set to “high image quality” in the description of the high image quality information descriptor and the high image quality stream descriptor already performed with reference to FIGS. 50, 51, and 53. Since this is replaced with “higher gradation”, further explanation is omitted.
  • a field for storing the color gradation size of the high gradation video of the dependent view video stream of the stream to be highly gradation may be added to the gradation enhancement descriptor.
  • the high-resolution playback device refers to the value and performs synthesis processing.
  • the configuration of the part can be changed.
  • the normal playback device is a device that can play back only a 2D compatible video stream.
  • the normal playback device can play back a stream with a bit rate of up to 10 Mbps.
  • the high gradation playback device has a decoding function of not only a 2D compatible video stream but also a multi-view video stream. In the case where these two types of playback devices exist, it is assumed that the transport stream having the configuration described in FIG. 62 is broadcast.
  • the normal playback device decodes the 2D compatible video stream in the transport stream and plays back normal 2D video.
  • the high gradation reproduction device is a reproduction device according to the present embodiment, and decodes both the 2D compatible video stream and the multi-view video stream.
  • the high gradation playback device converts the decoded picture of the base-view video stream into the 2D compatible video stream at the same display time as described in the lower part of FIG. Replace with decoded picture. Then, the picture of the dependent-view video stream is decoded with reference to the decoded picture of the 2D compatible video stream at the same display time, which is the replaced picture.
  • a picture obtained by decoding a dependent-view video stream is a picture obtained by adding a difference between a picture of a high-gradation video and a picture of a 2D-compatible video stream to a picture of a 2D-compatible video stream, that is, a picture of a high-gradation video. . Therefore, if a dependent-view video stream is output, it is possible to reproduce a high-gradation video compared to the decoding result of a 2D compatible video stream.
  • the base-view video stream is referred to for information included in the stream such as PTS, but the picture itself is not referred to, so the compression rate such as video composed of a black image is high.
  • the bit rate can be greatly reduced.
  • FIG. 65 is a diagram showing a configuration of a data creation device 6501 as a video encoding device according to the present embodiment.
  • the data creation device 6501 has basically the same configuration as the data creation device 2601 of the first embodiment shown in FIG. However, since the input data is different, in FIG. 65, the “left-eye original image” in FIG. 26 is replaced with a 2D high-gradation “12-bit original image”, and the “right-eye original image” is the same 2D “12-bit original image”. Has been replaced. The following description will focus on differences from the data creation device 2601 of the first embodiment.
  • the data creation device 6501 differs from the data creation device 2601 in the configuration of the 2D compatible video encoder 6502 and the dependent-view video encoder 6509 in the extended multi-view video encoder 6504.
  • the 2D compatible video encoder 6502 receives the upper 8 bits of the 12-bit original image video as input, and performs compression encoding according to the 2D compatible video codec.
  • the codec is MPEG-2 video
  • it is compression-encoded into the MPEG-2 video stream format and a 2D compatible video stream is output.
  • the dependent-view video encoder 6509 does not input one video (left-eye or right-eye original video) constituting the 3D video, but encodes it using a 12-bit original video as input.
  • the video to be compression-encoded is a difference gradation video between a 12-bit original video and an 8-bit compressed video (decoding result of a 2D compatible video stream stored in the 2D compatible video frame memory 2608).
  • the difference gradation video is created by the procedure described in the upper part of FIG.
  • the dependent-view video encoder 6509 uses the decoded picture in the 2D-compatible video frame memory 2608 (the picture obtained by decoding the 2D-compatible video stream) for inter-view reference and performs the compression process.
  • FIG. 66 is a diagram showing a data creation flow by the data creation device 6501 configured as described above.
  • the data creation flow shown in FIG. 66 is approximately the same as the data creation flow of the data creation device 2601 described with reference to FIG. 27 in the first embodiment.
  • the data creation device 6501 is for increasing the gradation of 2D video.
  • S2703 and S2706 in FIG. 27 are replaced with S6603 and S6606, respectively.
  • the 2D compatible video encoder 6502 generates 2D compatible video streams for one encoded number.
  • the upper 8 bits are compression-encoded according to the codec of the 2D compatible video stream by one encoding number from the Nth frame of the 12-bit original picture image to generate and output a 2D compatible video stream. Then, the process proceeds to S2704.
  • the dependent-view video encoder 6509 generates a dependent-view video stream for one encoded number of sheets. Based on the base-view video encoding information, video attributes, picture structure, etc. are determined, and for reference between views, a 12-bit original picture and an 8-bit compressed picture are used using a picture in the 2D compatible video frame memory 2608.
  • the dependent-gradation video from the (decoding result of the 2D compatible video stream stored in the 2D compatible video frame memory 2608) is compressed and encoded by the number of encoded frames from the Nth frame to generate a dependent-view video stream. To do. Then, the process proceeds to S2707. ⁇ 3-4.
  • FIG. 67 is a diagram showing the configuration of the playback device 6723 according to the present embodiment.
  • the playback device 6723 has basically the same configuration as the 3D video playback device 2823 of the first embodiment shown in FIG. However, since the playback device 6723 aims to increase the gradation of 2D video, in FIG. 67, the plane output from the 2D compatible video decoder and the plane output from the extended multi-view video decoder are combined in FIG. A compositing processing unit 6724 is added.
  • the composition processing unit 6724 performs composition processing of the first plane and the second plane.
  • the synthesis process follows the procedure described in the lower part of FIG. First, the composition processing unit 6724 shifts the color value of each pixel to the upper 4 bits for the picture of the decoded 2D compatible video stream stored in the first plane 2808. Next, the picture of the decoded dependent video stream stored in the second plane 2820 is decoded, and the color value of each pixel is subtracted by 128 to convert it into signed information. Then, these images are added to output a high gradation image. ⁇ 3-4-2. Operation>
  • FIG. 68 is a diagram showing a flow of decoding processing and output processing in high-gradation video playback by the playback device 6723 configured as described above.
  • the playback device 6723 outputs the decoded picture of the 2D-compatible video stream to the first plane 2808 at the PTS timing, and outputs the decoded picture of the dependent-view video stream to the second plane 2820 at the PTS timing. Then, the composition processing unit 6724 performs composition processing, and a high gradation image is output. Since the method of the synthesis process has been described above, the description is omitted. ⁇ 3-5. Supplementary explanation about effects> Hereinafter, the effect in the present embodiment will be supplementarily described with reference to FIG.
  • the normal playback device in the figure is a playback device that can play back only a 2D compatible video stream.
  • the bit rate that can be played back by the normal playback device is up to 10 Mbps.
  • the high gradation reproduction apparatus is a reproduction apparatus capable of decoding and reproducing a video stream in which a video expressed with a higher gradation than the 2D compatible video stream is encoded.
  • the 2D compatible video stream is 10 Mbps
  • the bit rate of the high gradation video stream obtained by compressing the same video with the same codec is 15 Mbps.
  • a 2D compatible video stream and a high gradation It is necessary to multiplex and broadcast both video streams, and a higher transfer bandwidth is required compared to the conventional case where the bit rates of both video streams are added.
  • the lower part of FIG. 60 shows an example in which the multi-view encoding method is used in order to solve the problem shown in the upper part of FIG. 60 and reduce the required transfer bandwidth.
  • the 2D compatible video stream in the figure is 8-bit color video and is encoded as a base-view video stream.
  • the extended video stream is a dependent-view video stream, and is obtained by compressing and encoding a differential video between a 2D compatible video stream and a high-gradation original video (for example, 12-bit color).
  • the dependent-view video stream is compression-coded using each picture of the base-view video stream as a reference image.
  • both video streams must be compressed by a multi-view video encoding method such as MPEG-4 MVC.
  • FIG. 69 is a block diagram showing a configuration of a playback apparatus according to the present modification.
  • the playback device shown in FIG. 69 has the same basic structure as the playback device described in FIG. 67, but an inter-codec reference switch and a plane selector are added, and the composition processing unit controls ON / OFF of the function. A switch function has been added.
  • the inter-codec reference switch When the inter-codec reference switch is ON, the 2D compatible video decoder is connected to the inter-view reference buffer in the extended multi-view video decoder, and the inter-codec reference switch is changed from the 2D compatible video decoder to the inter-view reference buffer in the extended multi-view video decoder. On the other hand, the data transfer described in S3003 is performed. On the other hand, in the case of OFF, the 2D compatible video decoder and the inter-view reference buffer in the extended multi-view video decoder are not connected and data transfer is not performed.
  • the plane selector is a first plane from which a picture is output from the 2D compatible video decoder, a second plane from which a picture of the base-view video stream of the extended multi-view video decoder is output, and a dependent-view video stream of the extended multi-view video decoder. Which plane is to be output to the compositing processing unit is selected for the third plane from which the picture is output.
  • FIG. 70 is a diagram showing signaling in the high gradation reproduction method.
  • the high gradation reproduction apparatus turns off the inter-codec reference switch, selects the first plane for output as 8-bit video by the plane selector, and turns off the function of the synthesis processing unit. .
  • the reproduction apparatus turns on the inter-codec reference switch, the plane selector selects the first plane as an output plane as 8-bit video, and outputs the differential gradation video as the plane.
  • the third plane is selected, and the function of the synthesis processing unit is turned on.
  • the inter-codec reference switch is turned off, and the plane selector selects the second plane as the plane to be output as 8-bit video, and the third plane as the plane to be output as the differential gradation video. Is selected, and the function of the composition processing unit is turned ON.
  • the inter-codec reference switch When the high gradation reproduction method is 3, the inter-codec reference switch is turned off, and the plane selector selects the second plane as a plane to be output as 8-bit video, and turns off the function of the synthesis processing unit. In this way, by switching only the inter-codec reference switch, the plane selector, and the switch of the synthesis processing unit, the playback method in the playback device can be easily changed.
  • a 12-bit video is taken up as a high-gradation video.
  • the present invention is not limited to this, and the high-gradation video may be a video with a higher gradation than a normal gradation. Further, the effective bit amount in the original image with high gradation may be variably set.
  • the effective bit amount may be changed for each scene such that a certain scene has 10 bits and a certain scene has 12 bits.
  • the bit shift amount of the 2D compatible video stream is changed to a variable value, and the bit shift is performed so as to extract the effective gradation for the extended video stream. What is necessary is just to comprise.
  • the 4-bit left shift of 6101 in FIG. 61 is changed to a 2-bit left shift.
  • the 12-bit original image is shifted to the right by 2 bits to form a 10-bit image, and a difference image between the 10-bit images is created (6102).
  • the 4-bit left shift of 6104 is replaced with a 2-bit shift.
  • the extended video stream is shifted 2 bits to the right and added to the decoded picture of the 2D compatible video stream (6106).
  • the addition process 6103 (+128) is changed to (+512)
  • the subtraction process 6105 ( ⁇ 128) is changed to ( ⁇ 512).
  • the base-view video stream is generated by compressing and encoding a monochrome image such as a black screen.
  • a differential video (12 bits) for improving the image quality of a 2D compatible video stream may be generated by compression encoding.
  • the method described with reference to FIG. 89 may be used as the difference video generation method and composition method.
  • FIG. 90 shows the configuration of a video stream according to this modification.
  • the base-view video stream is created by compressing and encoding the difference video between the 8-bit original picture and the 2D compatible video stream in the base-view video encoder.
  • the dependent-view video encoder unit is configured to compress and encode an image using a high-quality 2D video picture generated by synthesizing the differential video with the decoded picture of the 2D compatible video stream as a reference image.
  • the base-view video decoder unit transfers the decoded picture to the 2D-compatible video decoder unit.
  • the picture obtained by decoding the 2D compatible video and the picture decoded by the base view video decoder unit are combined.
  • the dependent-view video decoder section decodes the dependent-view video stream with reference to the picture obtained by the synthesis process.
  • inter-view reference is realized between streams in which video is compressed and encoded with different codecs, thereby reducing the multi-view video stream of 3D video while maintaining playback compatibility with conventional 2D video. Configured with bit rate.
  • the inter-view reference is realized between streams in which the video is compressed and encoded with different codecs, so that the conventional 2D video has reproduction compatibility.
  • the high resolution corresponds to, for example, a case where the 2D video has a resolution of 1920 ⁇ 1080 in full HD and the high resolution video has a resolution of 4K2K (3840 ⁇ 2160).
  • FIG. 72 is a diagram showing an outline of an encoding procedure related to high resolution.
  • the 2D-compatible video stream is decoded D1 (7201), up-converted twice in the vertical and horizontal directions (7202), and stored in the picture reference buffer (7203).
  • the extended video stream is decoded D2 (7204) with reference to the scaled (up-converted) picture stored in the picture reference buffer (7203).
  • the 2D compatible video stream is encoded as a base video.
  • full HD video is compressed and encoded.
  • 4K2K high-resolution video is compression-coded.
  • the extended video stream is compression-encoded using a video obtained by scaling the video of the decoded 2D compatible video stream to a high resolution (video obtained by converting full HD into 4K2K) as a reference picture.
  • the bit rate of the extended video stream can be lowered by using the 2D compatible video stream as a reference picture.
  • FIG. 75 is a diagram for explaining the scaling.
  • the pixel set 7510 is composed of two pixels 7511 to 7514 arranged vertically and horizontally.
  • a pixel set 7501 composed of four pixels is converted to 16 pixels by doubling the height and doubling the width.
  • Method 1 is a method in which each pixel is simply duplicated vertically and horizontally to form 4 pixels.
  • Method 2 is a method of inserting a pixel having an intermediate value of pixel values arranged between front and rear or left and right between the pixels.
  • the pixel 7501 is an intermediate color between the left and right pixels 7511 and 7512
  • the pixel 7502 is an intermediate color between the pixels 7511 and 7513.
  • Method 3 is a method of taking the intermediate color of all pixels diagonally forward, backward, left and right.
  • the pixel 7503 is an intermediate color of the surrounding pixels 7511, 7501, 7512, 7502, 7504, 7513, 7505, and 7514.
  • the playback apparatus performs up-conversion using a scaling method selected from a plurality of scaling methods.
  • ⁇ 4-2. Data format> First, a data structure for encoding a high-resolution video according to the present embodiment will be described.
  • the transport stream according to the present embodiment is a 2D compatible video stream, a base-view video stream and a dependent-view video stream of a multi-view video stream, each of which is made into a PES packet, divided into TS packets, and multiplexed.
  • the 2D compatible video stream is a video stream configured in a format that can be reproduced as 2D video by a 2D video playback device as described with reference to FIG.
  • the 2D compatible video stream is a video stream encoded with an MPEG-2 video codec.
  • the multi-view video stream is a video stream encoded with a codec that realizes inter-view reference, and here is compressed with the MPEG-4 MVC video codec.
  • the 2D compatible video stream is a full HD original image that has been compression-encoded according to the MPEG-2 video codec.
  • the base view video stream is a 4K2K black image that is compression-coded at a low bit rate in accordance with the MPEG-4 MVC video codec.
  • the dependent-view video stream is a high-resolution 4K2K original image that has been compression-encoded according to the MPEG-4 MVC video codec.
  • Dependent view video stream is compressed using inter-view reference.
  • a picture referred to as an inter-view reference is not a picture of a base-view video stream at the same display time (same PTS) but a scaled picture of a decoded picture of a 2D compatible video stream at the same display time (same PTS).
  • the decoded picture (black image) of the base-view video stream is replaced with the decoded picture (full HD) of the 2D compatible video stream at the same display time, and the replaced picture (full HD) is referred to The picture (4K2K) at the same display time of the dependent-view video stream is decoded.
  • the picture of the dependent-view video stream uses the image related to the video obtained by upscaling the “decoded picture of the 2D-compatible video stream” to 4K2K as the reference image. It is possible to provide video with a lower bit rate and higher resolution than a 2D compatible video stream.
  • FIG. 74 is a diagram for explaining a PMT packet included in the transport stream.
  • signaling information for decoding high-resolution video is included in a system packet such as a PMT packet.
  • the signaling information includes a high-resolution information descriptor for performing signaling such as the relationship between each video stream and the start and end of high-resolution video reproduction of this system, and a high-resolution stream descriptor set for each video stream. Is included.
  • the high resolution information descriptor and the high resolution stream descriptor have almost the same configuration as the high quality information descriptor and high quality stream descriptor, respectively.
  • image quality improvement in the description of the image quality improvement information descriptor and the image quality improvement stream descriptor already performed with reference to FIG. 50, FIG. 51 and FIG. Since this is replaced with “higher resolution”, further explanation is omitted.
  • the resolution information descriptor may store resolution information of each stream.
  • a playback device that plays back high-resolution video can determine a decoding method and a scaling method for each stream by referring to the descriptor information.
  • the scaling method may be set in the resolution enhancement information descriptor. Since there are a plurality of scaling methods as shown in FIG. 75, information indicating which scaling method is used is stored in the descriptor. In this way, a playback device that plays back high-resolution video can determine the decoding method and scaling method of each stream with reference to the descriptor information.
  • the normal playback device is a device that can play back only a 2D compatible video stream.
  • the normal playback device can play back a stream with a bit rate of up to 10 Mbps.
  • the normal playback device is already in the market and plays back a stream distributed by a broadcast wave or the like.
  • the high-resolution playback device has a decoding function of not only a 2D compatible video stream but also a multi-view video stream. In the case where these two types of playback devices exist, it is assumed that the transport stream having the configuration described in FIG. 73 is broadcast.
  • the normal playback device decodes and outputs a 2D compatible video stream, and plays back normal 2D video.
  • the high-resolution playback device decodes both the 2D compatible video stream and the multi-view video stream.
  • the high-resolution playback device replaces the decoded picture of the base-view video stream with a scaled picture of the decoded picture of the 2D-compatible video stream at the same display time, and thereby changes the dependent-view video stream at the same display time. Are decoded with reference to the replaced picture.
  • FIG. 77 is a diagram showing a configuration of a data creation device 7701 as a video encoding device according to the present embodiment.
  • the data creation device 7701 has basically the same configuration as the data creation device 2601 of the first embodiment shown in FIG. However, since the input data is different, in FIG. 77, the “left eye original image” in FIG. 26 is replaced with a 2D “high resolution original image image (here, the resolution is 4K2K)”, and the “right eye original image” is the same. It has been replaced with 2D “high resolution original image”. The following description will be focused on differences from the data creation device 2601 of the first embodiment.
  • the data creation device 7701 is different from the data creation device 2601 in the configuration of the 2D compatible video encoder 7702 and the dependent-view video encoder 7709 in the extended multi-view video encoder 7704.
  • the 2D compatible video encoder 7702 compresses and encodes a video (in this case, full HD) obtained by reducing the resolution of the high resolution original image as an input in accordance with a 2D compatible video codec.
  • a 2D compatible video codec is MPEG-2 video
  • it is compression-encoded into the MPEG-2 video stream format and a 2D compatible video stream is output.
  • the dependent-view video encoder 7709 does not input one video (left-eye or right-eye original video) constituting the 3D video, but encodes the high-resolution original video as an input.
  • the dependent-view video encoder 7709 uses the picture obtained by scaling the decoded picture in the 2D-compatible video frame memory 2608 (the picture obtained by decoding the 2D-compatible video stream) for inter-view reference and performs the compression process.
  • FIG. 78 is a diagram showing a data creation flow by the data creation device 7701 configured as described above.
  • the data creation flow shown in FIG. 78 is approximately the same as the data creation flow of the data creation device 2601 described with reference to FIG. 27 in the first embodiment. However, the data creation device 7701 increases the gradation of 2D video. In FIG. 78, S2703 and S2706 in FIG. 27 are replaced with S7803 and S7806.
  • the 2D compatible video encoder 7702 generates 2D compatible video streams for one encoded number. According to the codec of the 2D compatible video stream from the Nth frame of the high-resolution original image video, according to the codec of the 2D compatible video stream, the resolution is reduced (full HD in this case) and compression encoded, and a 2D compatible video stream is generated and output. . Then, the process proceeds to S2704.
  • the dependent-view video encoder 7709 generates a dependent-view video stream for one encoded number. Based on the base-view video encoding information, video attributes, picture structure, and the like are determined, and for reference between views, a picture in the 2D compatible video frame memory 2608 is used, and a full HD video (2D compatible video frame memory 2608 is used. 2D compatible video stream (decoding result of 2D-compatible video stream) stored in the video, and the high-resolution video as a reference image, the high-resolution original video is compressed and encoded by the number of encodes from the Nth frame, and the dependent view Generate a video stream. Then, the process proceeds to S2707. ⁇ 4-4.
  • FIG. 79 is a diagram showing a configuration of a playback device 7923 as a high-resolution playback device that plays back high-resolution video according to the present embodiment.
  • the playback device 7923 has basically the same configuration as the 3D video playback device 2823 of the first embodiment shown in FIG. However, since the playback device 7923 is intended to increase the resolution of 2D video, in FIG. 67 there is no plane output from the 2D compatible video decoder, and a scaler 7924 is added.
  • FIG. 80 is a diagram showing a flow of decoding processing and output processing in high-resolution video playback by the playback device 7923 configured as described above.
  • the playback device 7923 scales the decoded picture of the 2D compatible video stream by the scaler 7924, and outputs the scaled data to the inter-view reference buffer 2816.
  • the playback device 7923 outputs the decoded picture of the dependent-view video stream to the first plane 2809 at the PTS timing. ⁇ 4-5. Supplementary explanation about effects> Hereinafter, the effect in the present embodiment will be supplementarily described with reference to FIG.
  • the normal playback device in the figure is a playback device that can play back only a 2D compatible video stream.
  • the bit rate that can be played back by the normal playback device is up to 10 Mbps.
  • the normal playback device is already in the market and plays back a stream distributed by a broadcast wave or the like.
  • the high-resolution playback device is a playback device that can decode and play back a high-resolution video stream encoded with a higher-resolution video than a 2D compatible video stream.
  • the resolution of the normal video is full HD (1920 ⁇ 1080) and the resolution of the high resolution video is 4K2K (3820 ⁇ 2160).
  • the 2D compatible video stream is 10 Mbps
  • the bit rate of the high-resolution video stream obtained by compressing the same video with the same codec is 20 Mbps.
  • the lower part of FIG. 71 shows an example in which a scalable video coding method is used in order to solve the above-described problems and reduce the required transfer bandwidth.
  • the scalable video coding method is a method of scaling a low-resolution base video to create a reference picture and decoding a high-resolution extended video.
  • both the 2D compatible video stream and the extended video stream must be configured with the same video codec.
  • both video streams must be compressed and encoded by MPEG-4 MVC, which is a modified standard of MPEG-4 AVC and is a scalable video encoding method, for example.
  • the multi-view video encoding method is applied to the video stream for increasing the resolution of the 2D compatible video stream.
  • the scalable video encoding method can also be realized with the same configuration. In this case, if the extended multi-view video decoder of the playback device 7923 is changed to an extended scalable video decoder, the decoding result of the 2D-compatible video stream is replaced with the decoding result of the base-view video stream without scaling. Good.
  • the multi-view video encoding method is applied to the video stream for increasing the resolution of the 2D compatible video stream.
  • the Side-by-Side 3D video is changed to the full HD 3D video. The resolution may be increased.
  • FIG. 81 is a diagram showing a stream configuration in this case.
  • the 2D compatible video stream is obtained by compressing and encoding Side-by-Side 3D video by the encoding method of the 2D compatible video stream.
  • the resolution of Side-by-Side 3D video is, for example, full HD resolution.
  • the base-view video stream constituting the multi-view video stream is obtained by compression-coding black video at a low bit rate in accordance with the multi-view video codec.
  • the dependent-view video stream is a high-resolution 4K1K Side-By-Side video that has been compression-encoded.
  • the dependent-view video stream is compressed using the inter-view reference, but the picture referred to in the inter-view reference is not a picture of the base view video stream at the same display time (the same PTS),
  • a decoded picture after decoding a 2D compatible video stream at the same display time (the same PTS) is a picture that has been up-converted to 4K1K.
  • the video decoder that plays the video stream replaces the decoded picture of the base-view video stream with the scaled picture of the decoded picture of the 2D compatible video stream at the same display time.
  • the picture of the dependent-view video stream at the same display time is decoded with reference to the picture.
  • the dependent-view video stream can be reduced in bit rate by using a video obtained by up-converting “decoded picture of 2D compatible video stream” to 4K1K as a reference image.
  • FIG. 82 is a diagram showing a configuration of a 3D video playback device according to the present modification.
  • This configuration is almost the same as the configuration of the playback apparatus in the present embodiment, but is different in that a 3D output unit 8201 is added.
  • the 3D output unit 8201 cuts out the left-eye video and the right-eye video for the first plane 2809 from which the 4K1K high-resolution Side-by-Side video is output, and outputs the video to a television or the like.
  • a method different from Modification (4) may be employed.
  • FIG. 83 is a diagram showing a configuration of a video stream according to this modification.
  • the 2D compatible video stream is a side-by-side 3D video that has been compression-encoded by the encoding method of the 2D compatible video stream.
  • the resolution of Side-by-Side 3D video is, for example, full HD resolution.
  • the base-view video stream constituting the multi-view video stream is obtained by compression-coding black video at a low bit rate in accordance with the multi-view video codec.
  • the dependent-view video stream is a compression-coded version of a full HD Side-By-Side video.
  • This Side-by-Side video is a differential video for increasing the resolution of a 2D compatible video stream.
  • the Side-by-Side video of the 2D compatible video stream is a video created by extracting pixels of the odd-numbered columns of the left-eye full HD video and the right-eye full HD video
  • the Side-video of the dependent-view video stream The by-Side video is created by extracting even-numbered pixels of the left-eye full HD video and the right-eye full HD video.
  • the dependent-view video stream is compressed using the inter-view reference, but the picture referred to as the inter-view reference is not a picture of the base view video stream at the same display time (the same PTS), This is a picture obtained by scaling a decoded picture after decoding of a 2D compatible video stream at the same display time (same PTS).
  • the video decoder that plays back the video stream replaces the decoded picture of the base-view video stream with the decoded picture of the 2D compatible video stream at the same display time.
  • the picture of the dependent-view video stream at the same display time is decoded with reference to the obtained picture.
  • the dependent-view video stream can be reduced in bit rate by using “decoded picture of 2D compatible video stream” as a reference image.
  • FIG. 84 is a diagram showing a configuration of a 3D video playback device according to the present modification.
  • This configuration is almost the same as the configuration of the playback apparatus in the present embodiment, but is different in that a 3D output unit 8401 is added.
  • the 3D output unit 8401 uses the Side-by-Side video of the 2D compatible video stream stored in the first plane 2809 and the Side-by-Side video of the dependent-view video stream stored in the second plane 2820. Then, a high-resolution full HD 3D image is created and output to a television or the like.
  • (6) In the above modification (4) and modification (5), Side-by-Side 3D video is used.
  • the present invention is not limited to this, and 3D of various frame compatible systems such as the Top & Bottom system and the LineByLine system.
  • the Top & Bottom method is a method in which the right-eye and left-eye images are each compressed in the vertical direction (for example, compressed from 1080 pixels to 540 pixels) and transmitted in a vertically arranged manner.
  • the LineByLine system is a system in which video signals for the right eye and the left eye are alternately arranged every other line. (7)
  • the inter-view reference method of pictures may be changed.
  • the left diagram shows the inter-view reference method described in the present embodiment
  • the right diagram shows the inter-view reference method according to this modification.
  • the 2D compatible video stream or the base video stream is a full HD video
  • the dependent-view video stream that is a high-resolution video is a 4K2K video.
  • a picture obtained by decoding (9503) a 2D-compatible video stream or base-view video stream (9501) into a 4K2K video by scaling (up-conversion) (9505) is used as an inter-view reference frame. It is stored in the buffer (9506), and when the dependent-view video stream of 4K2K video is decoded, the inter-view video is referred to by referring to the 4K2K decoded picture of this buffer.
  • the decoded picture to be decoded (9503) of the 2D compatible video stream or base-view video stream (9501) and stored (9516) in the inter-view reference buffer is Store the full HD resolution without up-conversion.
  • the function of the scaling reference filter (9515) is used, and the 2D-compatible video stream / base-view video stream (9501) of the macro-block unit is used.
  • the decoding process is performed by enlarging the reference area of the decoded picture.
  • FIG. 96 shows a specific procedure of the scaling reference filter.
  • the region of the reference picture is specified from the Syntax element such as a motion vector for each macroblock, and decoding is performed with reference to the region.
  • the reference method is shown as (1) to (3) in FIG.
  • the target area (coordinate position (x, y) and area size (w, h)) of the high-resolution picture referenced by the macroblock is specified.
  • a target region of the virtual high resolution picture is generated using a filter function.
  • An example f (x, y, w, h) of the filter function is shown in a broken line frame in the figure.
  • the filter function f (x, y, w, h) is applied to the method 3 in FIG. 75 for the vertical h / 2 and horizontal w / 2 regions of the picture at the (x / 2, y / 2) coordinate of the real picture.
  • the up-conversion is performed twice in the vertical and horizontal directions, so that the target area of the virtual high-resolution picture can be generated by substituting the values of x, y, w, and h.
  • the macroblock can be decoded by referring to the target area in the virtual high-resolution picture.
  • the base-view video stream is generated by compressing and encoding a monochrome image such as a black screen.
  • a differential video for improving the image quality of a 2D compatible video stream
  • a difference between a 4k2k high-resolution original image and a 4K2K video obtained by up-converting a picture obtained by decoding a full HD 2D compatible video stream may be generated by compression coding.
  • FIG. 91 is a diagram showing a configuration of a video stream according to this modification.
  • the method for generating and synthesizing the difference video has already been described with reference to FIG. 89.
  • the 2D compatible video is calculated before calculating the difference between the original image (4K2K) and the decoded picture (2K1K) of the 2D compatible video.
  • the difference is that the decoded picture (2K1K) is up-converted to 4K2K to generate a differential video.
  • the base-view video encoder In the data creation device, the base-view video encoder generates a base-view video stream by compressing and encoding the differential video between the 4K2K high-resolution original video and the picture obtained by up-converting the decoded picture of the 2D-compatible video stream. Then, the dependent-view video encoder unit “high-definition high-resolution 2D video” obtained by synthesizing “differential video” with “a picture obtained by up-converting a full HD decoded picture of a 2D-compatible video stream into a high-resolution 4K2K picture”. Is compressed as a reference image.
  • the base-view video decoder unit transfers the decoded picture to the 2D-compatible video decoder unit, and the 2D-compatible video decoder unit up-converts the decoded picture of the 2D-compatible video stream and the difference video.
  • the picture is used for decoding the dependent-view video stream.
  • Embodiments 1 to 4 the basic structure of the playback device is the same in that it is composed of a 2D-compatible video stream and a multi-view video decoder. Therefore, one playback device is used in Embodiments 1 to 4. It may be performed while switching the reproduction process.
  • the video streams of Embodiments 1 to 4 may exist separately for each scene in the same transport stream.
  • the data creation device 7701 may record a playback method determination descriptor in supplementary data of the PMT or video stream so that it can identify which scene is the playback method in which embodiment.
  • FIG. 85 is a diagram showing the structure of the playback method discrimination descriptor.
  • the playback method determination descriptor stores a 3D playback flag, a high image quality flag, a high gradation level flag, and a high resolution flag.
  • each flag is TRUE
  • information corresponding to the flag is further stored.
  • the 3D playback flag is TRUE
  • the 3D playback information descriptor is stored in the playback method determination descriptor
  • the image quality improvement flag is TRUE
  • the image quality improvement information descriptor is stored and the gradation enhancement flag is set.
  • TRUE a high gradation information descriptor is stored
  • a high resolution information descriptor is stored.
  • the playback device can select the playback method to be adopted from the playback methods of the above-described embodiments, and can switch the internal state to execute the processing.
  • ⁇ 5. Modification> The embodiments of the data creation device and the playback device according to the present invention have been described above. However, the illustrated data creation device and the playback device can be modified as follows, and the present invention is described in the above embodiment. Of course, the present invention is not limited to the data creation device and the playback device as shown in FIG. (1) Hereinafter, the configuration and effects of a data creation device as a video encoding device and a playback device as a video playback device according to an embodiment of the present invention will be described.
  • a video encoding device includes: a first encoding unit that generates an MPEG-2 stream by compressing and encoding a first video obtained by converting an original video into a first quality; Second encoding means for generating a base-view video stream and a dependent-view video stream in conformity with the MPEG-4 MVC format, and sending means for transmitting the streams generated by the first and second encoding means
  • the second encoding means includes pseudo data having the same number of pictures as the stream obtained by compressing and encoding the first video as the base-view video stream, and having a reduced total data amount. While generating the stream as the dependent-view video stream, the original video is a second quality higher than the first quality.
  • Each picture of the second video image is converted to generate the base view compressed coded stream pictures in the MPEG-2 format stream picture and the same time corresponding to the picture as a reference picture in the video stream.
  • the second encoding means includes, in generating a stream conforming to the MPEG-4 MVC format, including information indicating that the reference image is included in the MPEG-2 format stream. Also good.
  • the playback side when the dependent-view video stream is played back, the playback side can refer to pictures included in the MPEG-2 stream.
  • the second encoding means as the reference image, among the pictures of the MPEG-2 format stream, a value of PTS (Presentation Time Stamp) is an object to be encoded in the second video.
  • PTS Presentation Time Stamp
  • a picture having the same PTS value as a picture of the base-view video stream corresponding to the picture may be selected.
  • the picture to be referred to can be specified from the pictures in the MPEG-2 stream by referring to the PTS on the playback side.
  • first encoding unit and the second encoding unit perform compression encoding of the first video and the second video with the same aspect ratio, and information indicating the aspect ratio in each of the generated streams May be included.
  • the aspect ratio of the first video and the second video can be specified on the playback side.
  • the second encoding means may use a group of pictures that do not change over time as the pseudo data.
  • the second encoding means may use an image group made up of monochrome images as the picture group that does not change with time.
  • the information amount of the base view video stream can be reduced as compared with the conventional art.
  • the second video is a video representing the original video at a higher bit rate than the first video
  • the second encoding means is a compression encoding related to the dependent-view video stream
  • Information corresponding to a difference in bit rate between corresponding pictures may be compression-encoded.
  • the above-mentioned predetermined bit rate can be suppressed while maintaining the reproduction compatibility of the original video of the predetermined bit rate by the reproduction apparatus based on the MPEG-2 standard, while suppressing an increase in the amount of data required than before. It is possible to compress and encode an original video having a higher bit rate.
  • the second video is a video in which the original video is expressed with a higher gray level than the first video, and each of the pictures has gray level information indicating the gray level of each pixel constituting the picture.
  • the second encoding means may compress and encode a difference in gradation information between corresponding pictures as compression encoding related to the dependent-view video stream.
  • the second video is a video representing the original video at a higher resolution than the first video, and the second encoding means converts the reference video into the resolution of the second video.
  • MPEG-2 stream pictures may be used.
  • the first video is a video representing the original video in an interlaced format
  • the second video is a video representing the original video in a progressive format
  • the second encoding means is a top field.
  • the resolution of the picture may be converted to the resolution of the second video.
  • the progressive format original image is compressed and encoded while suppressing the increase in the amount of data required than before, while maintaining the compatibility of the interlace format original image by the reproduction apparatus based on the MPEG-2 standard.
  • the second encoding means as the second video, a video in which the original video is expressed at a higher bit rate than the first video, and a video in which the original video is expressed with a higher gradation than the first video.
  • a descriptor that indicates which video is used in at least one of the base-view video stream and the dependent-view stream. It may be included.
  • the second video is a video in which the original video is expressed at a higher bit rate than the first video, the video in which the original video is expressed with a higher gradation than the first video, and the It is possible to specify which of the images represents the original image at a higher resolution than the first image.
  • a video encoding method includes a first encoding step of generating an MPEG-2 format stream by compressing and encoding a first video obtained by converting an original video to a first quality, A second encoding step for generating a base-view video stream and a dependent-view video stream in conformity with the MPEG-4 MVC format; and a transmission step for transmitting the streams generated by the first and second encoding means.
  • the base view video stream is made up of pseudo data having the same number of pictures as the stream obtained by compressing and encoding the first video and having a reduced total data amount.
  • Each picture of the second video converted to the second quality higher than the quality is compression-coded using the picture of the MPEG-2 stream at the same time as the picture corresponding to the picture in the base-view video stream as a reference image. Generate a stream.
  • a video encoding program is a video encoding program for causing a computer to function as a video encoding device, wherein the computer converts the original video into a first quality.
  • First encoding means for generating an MPEG-2 stream by compressing and encoding
  • second encoding for generating a base-view video stream and a dependent-view video stream in conformity with the MPEG-4 MVC format
  • a sending means for sending the stream generated by the first and second encoding means, and the second encoding means compresses and encodes the first video as the base-view video stream.
  • each picture of the second video obtained by converting the original video to the second quality higher than the first quality is used as the dependent-view video stream in the base-view video stream.
  • a stream is generated by compression-coding a picture of the MPEG-2 stream at the same time as the picture corresponding to the picture as a reference image.
  • the playback device while maintaining the playback compatibility of the original video of the first quality by the playback device based on the MPEG-2 standard, the increase in the amount of data required than before is suppressed, and higher than the first quality.
  • the original video of the second quality can be compression-encoded.
  • a video playback apparatus is a video playback apparatus that acquires, decodes, and plays back a stream transmitted by the above-described video encoding apparatus, and decodes the MPEG-2 format stream.
  • 1 decoding means decoding the base-view video stream, and decoding each picture of the second video in the decoding of the dependent-view stream, the first video at the same time as a picture corresponding to the picture in the base-view video stream
  • a second decoding unit configured to decode the picture decoded by the decoding unit as a reference image; and a reproducing unit configured to reproduce the second video obtained by the second decoding unit.
  • a video playback method is a video playback method for acquiring, decoding, and playing back a stream transmitted by the above-described video coding method, wherein the MPEG-2 format stream is decoded.
  • 1 decoding step decoding the base-view video stream, and decoding each picture of the second video in the decoding of the dependent-view stream, the first video at the same time as a picture corresponding to the picture in the base-view video stream
  • a video playback program is a video playback program for causing a computer to function as a video playback device that acquires, decodes, and plays back a stream transmitted by the above-described video encoding device,
  • a first decoding means for decoding the MPEG-2 format stream; and decoding the base-view video stream, and decoding each picture of a second video into the base-view video in the decoding of the dependent-view stream.
  • a second decoding unit that decodes, as a reference image, a picture decoded by the first decoding unit at the same time as a picture corresponding to the picture in a stream, and reproduces the second video obtained by the second decoding unit It functions as a reproducing means.
  • a part or all of the constituent elements constituting each of the above-described devices may be constituted by one system LSI.
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip. Specifically, a microprocessor, a ROM (Read Only Memory), a RAM (Random Access Memory), etc. It is a computer system comprised including. A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • LSI Integrated Circuit
  • IC Integrated Circuit
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of the circuit cells inside the LSI may be used.
  • Each of the above devices may be a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, and the like.
  • a computer program is stored in the RAM or the hard disk unit.
  • Each device achieves its function by the microprocessor operating according to the computer program.
  • the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
  • the present invention may be a method representing the procedure of each process described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
  • the present invention also provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray Disc). ), Recorded in a semiconductor memory or the like. Further, the present invention may be the computer program or the digital signal recorded on these recording media.
  • the present invention may transmit the computer program or the digital signal via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like. (5) The above embodiment and the above modifications may be combined as appropriate.
  • the video encoding apparatus and the video playback apparatus according to the present invention perform encoding, transmission, and playback of higher quality video while maintaining playback compatibility with a conventional playback apparatus that plays back an MPEG-2 stream. It is suitable as a device constituting the system to be realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 本発明は、MPEG-2規格に基づく再生装置による再生互換性を保ちつつ、必要となる帯域の増加を抑制しながら高品位な映像を符号化できる映像符号化装置、及び映像再生装置を提供する。データ作成装置5401は、通常品位の原映像を圧縮符号化することによりMPEG-2形式のストリームを生成する2D互換ビデオエンコーダ2602と、 ベースビュービデオストリームとして、原画映像をを圧縮符号化して得られるストリームとピクチャ数が同一であって、黒画像から成るストリームを生成するベースビューエンコーダ2605と、ディペンデントビュービデオストリームとして、より高品位な原画映像の各ピクチャを、ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻のMPEG-2形式のストリームのピクチャを参照画像として圧縮符号化するディペンデントビュービデオエンコーダ5409とを含む。

Description

映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
 本発明は、映像の符号化及び復号技術に関し、特に、再生互換性の維持に関する。
 近年、日本、米国等においてデジタルテレビ放送が普及しており、その放送波により伝送される映像等はMPEG-2(Moving Picture Experts Group - 2)規格に基づき圧縮符号化されている。これらデジタルテレビ放送の視聴者の多くは、デジタルテレビ放送以外にも、BD(Blu-Ray Disc)等の記録媒体などを介して、より高画質、高解像度といった高品位な映像(以下、「高品位映像」という。)に接する機会があるため、デジタルテレビ放送によっても高品位映像を視聴したいとの要望が高まっている。高品位映像を高効率に圧縮符号化する符号化方式としては、例えば、MPEG-4 MVC(Moving Picture Experts Group - 4 Multiview Video Coding)と呼ばれるMPEG-4 AVC/H.264の修正規格(非特許文献1参照)があり、この規格に基づく符号化方式により映像等を圧縮符号化して放送すれば上述の要望は満たされる。
 しかしながら、既に市場に普及しているデジタルテレビ放送の再生装置は、MPEG-2規格に基づき圧縮符号化された映像を扱うものであり、MPEG-4 MVC規格に基づき圧縮符号化された映像が放送されたとしても、これを受信して再生することができないという再生互換性の問題が生じる。この再生互換性の問題は、MPEG-2規格により圧縮符号化された通常品質の映像と、MPEG-4規格により圧縮符号化された高品位映像とを多重化して放送することで回避できる。
 しかしながら、上述のように、MPEG-2による通常品質の映像と、MPEG-4による高品位映像との両方を多重化して放送する場合には、それぞれの映像を放送するのに必要な帯域の合計となり、いずれかの映像のみを放送する場合に比べ広範になってしまう。また、放送に限らず、MPEG-2により符号化された映像と、MPEG-4により符号化された高品位映像とを1つの記録媒体等に記録する場合も同様に、両映像を記録するために必要な記録容量は、各映像の記録に必要な記録容量の合計となり、いずれかの映像のみを記録する場合に比べて膨大になってしまう。
 上記問題に鑑み、本発明は、MPEG-2規格に基づく再生装置による再生互換性を保ちつつ、必要とするデータ量の増加を抑えるよう高品位映像を符号化できる映像符号化装置、及び映像再生装置を提供することを目的とする。
 上記課題を解決するために、本発明は、原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化手段と、MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化手段と、前記第1及び前記第2符号化手段により生成されたストリームを送出する送出手段とを備え、前記第2符号化手段は、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する。
 本発明の映像符号化装置は、上述の構成を備えることにより、MPEG-2規格に基づく再生装置による第1の品位の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、第1の品位より高品位な第2の品位の原映像を圧縮符号化することができる。
ビデオストリームのピクチャの参照関係を説明する図である。 MPEG-4 MVC形式による符号化方式を説明する図である。 ベースビューのコーデックと、ディペンデントビューのコーデックが異なる場合のピクチャ参照を示す図である。 2D映像とデプスマップから左目映像と右目映像の視差画像を生成する例を説明する図である。 再生装置の使用行為を説明する図である。 トランスポートストリーム形式のデジタルストリームの構成を示す図である。 ビデオストリームの構造を説明する図である。 クロッピング領域情報とスケーリング情報を説明する図である。 クロッピング領域情報とスケーリング情報の具体的な指定方法を説明する図である。 PESパケットの構成を説明する図である。 トランスポートストリームを構成するTSパケットのデータ構造を説明する図である。 PMTのデータ構造を説明する図である。 立体視画像の表示の一例を示す図である。 Side-by-Side方式を説明する図である。 マルチビュー符号化方式による立体視方式を説明する図である。 ビデオストリームのアクセスユニットの内部構成を説明する図である。 ベースビュービデオストリームの各ピクチャと右目映像ビデオストリームの各ピクチャのビデオアクセスユニットの構成を説明する図である。 ベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるPTSとDTSの関係を説明する図である。 ベースビュービデオストリームとディペンデントビュービデオストリームのGOP構成を示す図である。 ディペンデントGOPに含まれるビデオアクセスユニットの構成を説明する図である。 トランスポートストリームのデータ構造を説明する図である。 2D互換ビデオストリームをMPEG-2ビデオ、マルチビュービデオストリームをMPEG-4 MVCのコーデックとしたときに、一致させるビデオ属性とそのビデオ属性を示すための各フィールド名を示す図である。 トランスポートストリーム中に係る2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるPTS、DTSおよびピクチャタイプの関係の例を示す図である。 2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームにおいて、特殊再生を容易にするための好適なピクチャタイプの関係を説明する図である。 2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームのGOP構成を示す図である。 実施の形態1に係るデータ作成装置を示す図である。 実施の形態1に係るデータ作成装置のデータ作成フローを示す図である。 実施の形態1に係る3D映像を再生する再生装置の構成を示す図である。 ビデオデコーダとマルチビュービデオデコーダを説明する図である。 実施の形態1に係る再生装置の3D映像に係るデコード処理と出力処理のフローを説明する図である。 実施の形態1に係る3D映像の再生装置に係るビュー間参照バッファの管理を説明する図である。 実施の形態1に係る3D映像の再生装置に係るビュー間参照バッファの管理の変形例を説明する図である。 実施の形態1に係る3D映像の再生装置に係るバッファの共用化方法を説明する図である。 実施の形態1に係る3D映像の再生装置に係る映像出力部分の変形例を説明する図である。 実施の形態1に係る3D映像のトランスポートストリームに係るPTSとDTSの付与方法の変形例である。 実施の形態1に係るトランスポートストリームの構成とPMTパケットの関係を説明する図である。 3D情報ディスクリプタの構造を示す図である。 3D情報ディスクリプタの再生方式を説明する図である。 3Dストリームディスクリプタの構造を説明する図である。 本実施の形態に係る3D映像の再生装置において再生方式に従ったスイッチ方法を説明する図である。 再生方式とコーデック間参照スイッチとプレーンセレクタの関係を示す図である。 再生方式の切り替わりをスムーズに遷移するための2D移行区間を説明する図である。 2D互換ビデオストリームのデコード結果に対する高画質フィルタの適用する場合の符号装置を説明する図である。 2D互換ビデオストリームのデコード結果に対する高画質フィルタの適用する場合の再生装置を説明する図である。 ベースビュービデオとディペンデントビュービデオが同一ストリームで転送される場合の本実施の形態に係る3D映像の再生装置の構成を示す図である。 ベースビューをMPEG-4 AVCとした場合の再生装置を示す図である。 実施の形態2に係る映像の高画質化を実現する上での課題を説明する図である。 実施の形態2に係るトランスポートストリームのデータ構造を説明する図である。 実施の形態2に係る使用形態を説明する図である。 実施の形態2に係るトランスポートストリームの構成とPMTパケットの関係を示す図である。 高画質化情報ディスクリプタの構造を示す図である。 高画質再生方式を説明する図である。 高画質化ストリームディスクリプタを示す図である。 実施の形態2に係るデータ作成装置を示す図である。 実施の形態2に係るデータ作成装置のデータ作成フローを示す図である。 実施の形態2に係る高画質映像の再生装置を示す図である。 実施の形態2に係る高画質映像の再生装置の高画質映像に係るデコード処理と出力処理のフローを説明する図である。 高画質再生方式とコーデック間参照スイッチとプレーンセレクタの関係を示す図である。 色階調の精度の高低による映像表示の違いを説明する図である。 実施の形態3に係る高階調映像を実現する上での課題を説明する図である。 高階調度化を実現する拡張ビデオストリームの作成方法、高階調度化を実現する拡張ビデオストリームを使った合成方法を説明する図である。 実施の形態3に係るトランスポートストリームのデータ構造を説明する図である。 実施の形態3に係るトランスポートストリームの構成とPMTパケットの関係を示す図である。 実施の形態3に係る使用形態を説明する図である。 実施の形態3に係るデータ作成装置を示す図である。 実施の形態3に係るデータ作成装置のデータ作成フローを示す図である。 実施の形態3に係る高階調映像の再生装置を示す図である。 実施の形態3に係る高階調映像の再生装置の高階調映像に係るデコード処理と出力処理のフローを説明する図である。 実施の形態3に係る高階調映像の再生装置において高階調再生方式に従ったスイッチ方法を説明する図である。 高階調再生方式とコーデック間参照スイッチとプレーンセレクタの関係を示す図である。 実施の形態4に係る高解像度映像を実現する上での課題を説明する図である。 スケーラブル符号化方式の構成を説明する図である。 実施の形態4に係るトランスポートストリームのデータ構造を説明する図である。 実施の形態4に係るトランスポートストリームの構成とPMTパケットの関係を示す図である。 スケーリング方法を説明する図である。 実施の形態4に係る使用形態を説明する図である。 実施の形態4に係るデータ作成装置を示す図である。 実施の形態4に係るデータ作成装置のデータ作成フローを示す図である。 実施の形態4に係る高解像度映像の再生装置を示す図である。 実施の形態4に係る高解像度映像の再生装置の高解像度映像に係るデコード処理と出力処理のフローを説明する図である。 実施の形態4の変形例に係るデータ構造を説明する図である。 実施の形態4の変形例に係る再生装置の構成を示す図である。 実施の形態4の変形例に係るデータ構造を説明する図である。 実施の形態4の変形例に係る再生装置の構成を示す図である。 再生方式判別ディスクリプタの構造を説明する図である。 実施の形態1の変形例に係るデータ構造を説明する図である。 実施の形態1の変形例に係るデータ作成装置の構成を示す図である。 実施の形態1の変形例に係る再生装置の構成を示す図である。 高画質映像を実現する差分映像の作成、再生手順の概要を示す図である。 実施の形態3の変形例に係るデータ構造を説明するための図である。 実施の形態4の変形例に係るデータ構造を説明するための図である。 実施の形態1の変形例に係るデータ構造を説明するための図である。 実施の形態1の変形例に係るデータ構造を説明するための図である。 実施の形態1の変形例に係るデータ構造を説明するための図である。 高解像度化に係る参照ピクチャのメモリ量を削減するビュー間参照について説明するための図である。 スケーリング参照フィルタについて説明するための図である。 実施の形態1の変形例に係るデータ作成装置の構成を示す図である。 実施の形態1の変形例に係る3D映像の再生装置の構成を示す図である。 実施の形態1の変形例に係るデータ構造を説明するための図である。 実施の形態1の変形例に係るデータ作成装置の構成を示す図である。 実施の形態1の変形例に係る再生装置の構成を示す図である。 実施の形態1の変形例に係るデータ作成装置の構成を示す図である。 実施の形態1の変形例に係るデータ作成装置の構成を示す図である。 実施の形態1の変形例に係る再生装置の構成を示す図である。 実施の形態1の変形例に係るデータ構造を説明するための図である。 実施の形態1の変形例に係る、異なるマルチビュービデオストリーム間でのビュー間参照を実現するためのデータ構造について説明するための図である。
<1.実施の形態1>
 <1-1.概要>
 本発明の一実施の形態に係る放送システムは、2D映像として、既存技術であるMPEG-2形式のストリームを生成し、3D映像として、MPEG-4 MVC形式を拡張した新規形式(本明細書において、この形式をMPEG-4 MVCに準拠という。)のベースビュービデオストリームとディペンデントビュービデオストリームとを生成し、送出する。
 受信側では、再生装置の中の、2D再生部分がMPEG-2形式のストリームを既存の復号方式で復号して再生し、3D再生部分が、MPEG-4 MVCに準拠したベースビュービデオストリームとディペンデントビュービデオストリームを、新規符号化に対応した復号形式で復号して再生する。
 図21は、本実施の形態における放送システムによって作成されたトランスポートストリームのデータ構造を示している。同図に示されるように、トランスポートストリームは、2D互換ビデオストリームAとマルチビュービデオストリームBとからなる。後者のマルチビュービデオストリームBは、ベースビュービデオストリームB1と、ディペンデントビュービデオストリームB2とからなる。前記2D互換ビデオストリームAは、左目用画像を圧縮符号化して作成され、ベースビュービデオストリームB1は、黒などの単色映像(以下、「黒画像」という。)を圧縮符号化して作成される。更に、ディペンデントビュービデオストリームB2は、左目用画像と右目用画像の差分を圧縮符号化して生成される。先に述べたようにベースビュービデオストリームB1は、黒画像を圧縮符号化したものであるので、ディペンデントビュービデオストリームB2を生成する際の参照画像として用いることができない。この点が、既存のMPEG-4 MVC形式と異なっているところであり、参照画像は、2D互換ビデオストリームAの同時刻のフレーム画像に設定されている。
 このようなMPEG-4 MVCに準拠した形式のストリームとすると、2D映像と3D映像の両方を送信できると共に、ベースビュービデオストリームB1が、黒画像を圧縮符号化するので、ビットレートを極端に低くすることができ、結果として既存の割り当てられた周波数帯域の範囲において、2D映像と3D映像の双方を送出できるのである。MPEG-4 MVC形式で圧縮符号化されたストリームの復号処理では、ベースビュービデオストリームのフレーム画像を参照してディペンデントビュービデオストリームを復号するが、本実施の形態では、MPEG-2互換ストリーム、すなわち、左目用画像のフレーム画像を参照画像として、ディペンデントビュービデオストリームを復号できるようにしている。MPEG-4 MVCに準拠した形式では、具体的には、復号の際の参照先を、ベースビュービデオストリームから、MPEG-2互換ビデオストリームに変更することを再生側に指示するディスクリプタ等を規定している。
 以下、本発明の実施の形態に係るデータ作成装置及び再生装置について図面を参照しながら説明する。
<1-2.データ作成装置>
 <1-2-1.構成>
 以下、本発明に係るデータ作成装置の一実施形態について図を参照しながら説明する。
 図26は本実施の形態に係るデータ作成装置2601の機能構成のブロック図である。
 データ作成装置2601は、3D映像を構成する左目用画像と右目用画像、及び黒画像を入力として、後述するデータフォーマットの2D互換ビデオストリーム、ベースビュービデオストリーム、ディペンデントビュービデオストリームからなるトランスポートストリームを出力する。
 データ作成装置2601は、2D互換ビデオエンコーダ2602、Dec(2D互換ビデオデコーダ)2603、拡張マルチビュービデオエンコーダ2604、及びマルチプレクサ2610を備える。
 拡張マルチビュービデオエンコーダ2604は、ベースビュービデオエンコーダ2605、2D互換ビデオフレームメモリ2608、及びディペンデントビュービデオエンコーダ2609を備える。
 2D互換ビデオエンコーダ2602は、左目用画像を入力として、MPEG-2形式で圧縮符号化し、2D互換ビデオストリームを生成して出力する。
 Dec2603は、2D互換ビデオストリーム内の圧縮符号化されたピクチャを復号し、その結果得られる復号ピクチャと、2D互換ビデオ符号化情報2606とを出力する。ここで、ピクチャとは、フレーム又はフィールドを構成する画像であり1つの符号化の単位である。
復号ピクチャは、拡張マルチビュービデオエンコーダ2604の2D互換ビデオフレームメモリ2608に格納される。また、2D互換ビデオ符号化情報2606は、ベースビュービデオエンコーダ2605に入力される。
 2D互換ビデオ符号化情報2606は、復号した2D互換ビデオストリームの、属性情報(解像度、アスペクト比、フレームレート、プログレッシブかインターレースかの区別など)、該当ピクチャのピクチャ属性情報(ピクチャタイプなど)、GOP(Group of Pictures)構造、及び、2D互換ビデオフレームメモリ管理情報の情報を含む構成である。
 2D互換ビデオフレームメモリ管理情報は、2D互換ビデオフレームメモリ2608に格納される復号ピクチャのメモリアドレスと該当ピクチャの表示順情報(PTS(Presentation Time Stamp)やtemporal_reference)と符号順情報(ファイルの符号順やDTS(Decoding Time Stamp))とを関連付した情報である。
 拡張マルチビュービデオエンコーダ2604は、Dec2603から出力される復号ピクチャと、2D互換ビデオ符号化情報と、右目用画像と、黒画像とを入力として、圧縮符号化を行い、ベースビュービデオストリーム、ディペンデントビュービデオストリームを出力する。
 ベースビュービデオエンコーダ2605は、MPEG-4 MVC形式に準拠して圧縮符号化したデータをベースビュービデオストリームとして出力する機能を有し、2D互換ビデオ符号化情報2606に従って、黒画像を圧縮符号化して、ベースビュービデオストリームとベースビュービデオ符号化情報2607とを出力する。
 ベースビュービデオ符号化情報2607は、ベースビュービデオストリームの属性情報(解像度、アスペクト比、フレームレート、プログレッシブかインターレースの区別など)、該当ピクチャのピクチャ属性情報(ピクチャタイプなど)、GOP構造、及びベースビュービデオフレームメモリ管理情報を含む構成である。
 ベースビュービデオエンコーダ2605は、ベースビュービデオ符号化情報2607を出力の際に、ベースビュービデオストリームの属性情報を2D互換ビデオ符号化情報2606に含まれるビデオの属性情報と同じ値にする。さらに、ベースビュービデオエンコーダ2605は、2D互換ビデオ符号化情報2606に含まれるピクチャの属性情報(ピクチャタイプなど)やGOP構造に従って、同一表示時刻のピクチャの圧縮符号化の際のピクチャタイプを決定して、黒画像を圧縮符号化する。例えば、時刻aのピクチャの2D互換ビデオ符号化情報2606で示されるピクチャタイプがIピクチャで、当該ピクチャがGOP先頭のピクチャであれば、ベースビュービデオエンコーダ2605は、同一表示時刻を示す黒画像をIピクチャになるように圧縮符号化し、ベースビュービデオストリームのGOP先頭のビデオアクセスユニットとする。
 また、時刻bのピクチャの2D互換ビデオ符号化情報2606で示されるピクチャタイプがBピクチャの場合は、ベースビュービデオエンコーダ2605は、同一表示時刻を示す黒画像をBピクチャになるように圧縮符号化する。このとき、ベースビュービデオストリームのDTSやPTSを、2D互換ビデオストリームの同時刻を示すビューに対応するピクチャのDTSやPTSにそれぞれ一致させる。
 ベースビュービデオフレームメモリ管理情報は、2D互換ビデオフレームメモリ管理情報を元に、2D互換ビデオストリームを復号して得られた復号ピクチャを格納しているフレームメモリ2608のメモリアドレスと、当該復号ピクチャの表示順情報と符号順情報とを示すsyntax要素をベースビュービデオストリームの圧縮符号化方式の規則に則ったsyntax要素に変換して関連付けした情報である。syntax要素とは、MPEG-2やMPEG-4 MVC形式の圧縮符号化方式における符号化に必要な属性情報を規定した要素で、例えば、マクロブロックタイプ等のヘッダ情報、動きベクトル、変換係数などを示す要素である。
 ディペンデントビュービデオエンコーダ2609は、MPEG-4 MVC形式に準拠して圧縮符号化し、ディペンデントビュービデオストリームを生成する機能を有し、ベースビュービデオ符号化情報2607に含まれる情報を元に、右目用画像を圧縮符号化し、ディペンデントビュービデオストリームを出力する。このとき、ディペンデントビュービデオエンコーダ2609は、ビュー間参照として、2D互換ビデオフレームメモリ内の復号ピクチャを用いて、圧縮符号化を行う。ここで、ビュー間参照とは、異なる視点からのビューを示すピクチャを参照することをいう。
ディペンデントビュービデオエンコーダ2609は、ビュー間参照を実行するための参照ピクチャIDを、ベースビュービデオ符号化情報2607のベースビュービデオフレームメモリ管理情報に基づいて決定する。さらに、ディペンデントビュービデオエンコーダ2609は、ディペンデントビュービデオストリームのビデオの属性情報をベースビュービデオ符号化情報2607に含まれるベースビュービデオストリームの属性情報の値と同じ値を設定する。
 さらに、ディペンデントビュービデオエンコーダ2609は、ベースビュービデオ符号化情報2607に格納されているピクチャの属性情報(例えば、ピクチャタイプ)とGOP構造とに基づいて、符号化対象の画像のピクチャタイプを決定して、右目用画像を圧縮符号化する。例えば、時刻aのピクチャのベースビュービデオ符号化情報2607で示されるピクチャタイプがIピクチャで、GOP先頭であれば、ディペンデントビュービデオエンコーダ2609は、同じ時刻aのピクチャのピクチャタイプをアンカーピクチャにして、右目用画像を圧縮符号化し、ディペンデントGOP先頭のビデオアクセスユニットとする。アンカーピクチャとは、自ピクチャよりも時間的に前のピクチャを参照しないピクチャであり、自ピクチャから飛び込み再生することが可能なピクチャのことである。また、時刻bのピクチャのベースビュービデオ符号化情報2607で示されるピクチャタイプがBピクチャであれば、ディペンデントビュービデオエンコーダ2609は、同じ時刻bのピクチャのピクチャタイプをBピクチャにして、右目用画像を圧縮符号化する。
 このとき、ディペンデントビュービデオストリームのDTSやPTSを、ベースビュービデオストリームの同時刻に表示すべきビューに対応するピクチャのDTSやPTSにそれぞれ一致させて圧縮符号化する。
 マルチプレクサ2610は、出力された2D互換ビデオストリーム、ベースビュービデオストリーム、及びディペンデントビュービデオストリームを、PES(Packetized Elementary Stream)パケット化した後にTSパケット単位で分割し、多重化したトランスポートストリームとして出力する。
 なお、再生装置が、多重化されたトランスポートストリームのストリームデータから、それぞれのビデオストリームを識別できるようにするために、2D互換ビデオストリーム、ベースビュービデオストリーム、及びディペンデントビュービデオストリームは、それぞれ別々のPIDが設定される。
 <1-2-2.データフォーマット>
 次に、データフォーマットについて、図面を参照しながら説明を行う。
 図22に、MPEG-2形式とMPEG-4 MVC形式の圧縮符号化において、各圧縮符号化方式で一致させるビデオ属性と、そのビデオ属性を示すための各フィールド名を示す。
 ディペンデントビュービデオストリームのピクチャの復号の際に、異なる圧縮符号化方式である2D互換ビデオストリームのピクチャを容易に参照できるようにするために、図22に示すビデオストリームの解像度、アスペクト比、フレームレート、及びプログレッシブかインターレースかを示すビデオ属性の値は、それぞれの符号化形式のピクチャ間で同じになるように構成する。
 図25は本実施の形態での2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームのGOP構成を示している。
 このように、2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームのGOPはすべて同じ枚数になるよう構成する。つまり、2D互換ビデオストリームのピクチャがGOP先頭の場合には、PTSが同じ値を持つベースビュービデオストリームのピクチャと、PTSが同じ値を持つディペンデントビュービデオストリームのピクチャも、それぞれGOP先頭、ディペンデントGOPの先頭でなければならない。
 このように構成することで、飛び込み再生時に、2D互換ビデオストリームがIピクチャであれば、その時刻からすべてのビデオストリームの復号が可能であるため、飛び込み再生時の処理が容易となる。
 トランスポートストリームがファイルとして保存されている場合には、GOP先頭のピクチャがファイル上のどこにあるかを示すエントリマップ情報を管理情報として持つことがある。例えばBlu-ray Discのフォーマットでは、そのエントリマップ情報は管理情報ファイルとして別のファイルとして保存される。
 本実施の形態のトランスポートストリームにおいては、2D互換ビデオストリームのGOP先頭のピクチャの位置が、エントリマップに登録される場合には、同時刻のベースビューの位置もディペンデントビューの位置もエントリマップに登録するようにする。このようにすることで、エントリマップを参照することで、3D映像の飛び込み再生が容易になる。
 図36は、トランスポートストリームの構成とPMT(Program Map Table)パケットの関係を示している。3D映像のストリームを含むトランスポートストリームにおいては、PMTパケットなどのシステムパケット中に、3D映像の復号処理を行う上でのシグナリング情報を含める。図36に示すように、ディスクリプタには、各ビデオストリームの関係や本方式の3D映像再生の開始・終了などのシグナリングを行うための3D情報ディスクリプタと、ビデオストリームごとに設定される3Dストリームディスクリプタを含む構成である。
 図37は、3D情報ディスクリプタの構造を示す。
 3D情報ディスクリプタは、再生方式、左目映像タイプ、2D互換ビデオPID、ベースビュービデオPID、及びディペンデントビュービデオPIDから構成される。
 再生方式は、再生装置の再生方法をシグナリングするための情報である。
 図38を用いて、その再生方式を説明する。
 再生方式の値が「0」の場合は、2D互換ビデオによる2D映像再生を示し、この場合には、再生装置は、2D互換ビデオストリームのみを2D映像再生する。
 再生方式の値が「1」の場合は、2D互換ビデオとディペンデントビュービデオによる3D映像再生(つまり、本実施の形態で説明する3D映像再生方式であること)を示す。この場合は、再生装置は、2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームを本実施の形態で説明する再生方法で3D映像再生を行う。なお、本実施の形態における3D映像の再生方法は後述する。
 再生方式の値が「2」の場合は、ベースビュービデオストリームとディペンデントビュービデオによる3D映像の再生であることを示す。つまり、2D互換ビデオストリームと、3D映像を構成するマルチビュービデオストリームはそれぞれ異なる映像を圧縮符号化して生成したものであり、参照関係にないことを示す。この場合は、再生装置は通常のMPEG-4 MVC形式で圧縮符号化したビデオストリームとして、そのビデオストリームを3D映像再生する。
 再生方式の値が「3」の場合は、2D互換ビデオストリーム又はベースビュービデオストリームをダブリング再生することを示し、再生装置はダブリング再生を行う。ダブリング再生とは、ある時刻aの左右のビューのどちらか一方のピクチャをLとRのどちらのプレーンにも出力することである。この再生方法による再生は、ユーザの視聴画面としては2D映像再生と等しいが、3D映像再生時にフレームレートの変更が発生しないので再生装置がHDMI(High-Definition Multimedia Interface)等でディスプレイ等に接続されている場合に再認証が発生せず、2D映像再生区間と3D映像再生区間とのシームレスな接続再生が実現できる利点がある。
 左目映像タイプは、マルチビュービデオストリームの内、どちらのストリームに左目用画像が圧縮符号化されているか(もう一方のビデオストリームが右目用画像となる)を示す情報である。再生方式の値が「0」の場合は、このフィールドの値は参照する意味がない。再生方式の値が「1」の場合は、2D互換ビデオとディペンデントビュービデオの内、どちらが左目用画像であるかを示す。すなわち、再生方式の値が「1」で左目映像タイプの値が「0」の場合には、2D互換ビデオのストリームが左目用画像に対応したビデオストリームであることを示す。再生装置は、再生方式の値が「2」や「3」の場合も同様にして、左目映像タイプの値を参照することによって、どのビデオストリームが左目用画像に対応したビデオストリームであるかを判断することができる。
 2D互換ビデオPID、ベースビュービデオPID、及びディペンデントビュービデオPIDは、トランスポートストリーム内の各ビデオストリームのPIDを示す。この情報により、復号対象のストリームを識別できる。
 図39は、3Dストリームディスクリプタを示す。
 3Dディスクリプタのフィールド名として、ベースビュービデオタイプ、参照先タイプ、被参照タイプがある。
 ベースビュービデオタイプは、ベースビュービデオストリームにどの映像が圧縮符号化されているかを示す。ベースビュービデオタイプの値が「0」の場合は、3D映像の左目用画像もしくは右目用画像を圧縮符号化したデータのどちらかが圧縮符号化されているかを示し、「1」の場合は、2D互換ビデオストリームによって置き換えられプレーンへ出力されないダミー映像として黒画像を圧縮符号化していることを示す。
 参照先タイプは、ディペンデントビュービデオストリームがビュー間参照の参照先のビデオストリームのタイプを示す。参照先タイプの値が「0」の場合は、ベースビュービデオストリームのピクチャをビュー間参照先としていることを示し、「1」の場合は、2D互換ビデオストリームのピクチャをビュー間参照先としていることを示す。つまり、参照先タイプの値が「1」の場合が本実施の形態における3D映像方式による参照方式であることを示す。
 被参照タイプは、該当ビデオストリームがビュー間参照されるか否かを示す。参照されないのであれば、ビュー間参照の処理をスキップすることができるため復号処理の負荷を軽減できる。なお、3D情報ディスクリプタと3Dストリームディスクリプタの情報の全て又は一部は、PMTパケットではなく、各ビデオストリームの補足データ等として挿入されてもよい。
 図23はトランスポートストリーム中における2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるPTS、DTS及びピクチャタイプの関係の例を示している。
 データ作成装置2601は、同時刻の左目画像を圧縮符号化して生成した2D互換ビデオストリームのピクチャとディペンデントビュービデオストリームのピクチャとのDTS及びPTSの値を、それぞれ同じDTS及びPTSの値に設定する。また、同時刻に再生されるべきベースビュービデオストリームのピクチャのPTS、DTS、及びPOCに対しても、ディペンデントビュービデオストリームのピクチャのPTS、DTS、及びPOCとそれぞれ同じ値を設定する。
 ディペンデントビュービデオストリームのピクチャのビュー間参照では、この同じ値のPTS、DTS、POCを持つベースビュービデオストリームのピクチャを参照する。具体的には、ディペンデントビュービデオストリームのピクチャのビュー間参照では、ディペンデントビュービデオストリームのピクチャの各マクロブロックから指定されるピクチャ参照ID(ref_idx_l0もしくはref_idx_l1)は、POCが同じ値を持つベースビューピクチャを示す値が設定される。
 <1-2-3.動作>
 図27はデータ作成装置2601のデータ作成フローを示す図である。以下、そのデータ作成フローを説明する。
 変数Nは、圧縮符号化対象のフレーム画像のフレーム番号を記憶する変数である。
 まず、変数Nを初期化する(N=0)。次に、左目用画像にN番目のフレームが存在するかをチェックする(ステップS2701)。存在しない場合(ステップS2701:No)は、圧縮符号化すべきデータがなくなったと判断して、処理を終了する。
 ステップS2701でYesの場合には、1回の圧縮符号化フロー(ステップS2702~ステップS2706)で、圧縮符号化する画像の枚数(以下、「1符号化枚数」と呼ぶ。)を決定する(ステップS2702)。1つのGOPとして設定するビデオアクセスユニットの最大数(最大GOP枚数、例えば30フレーム)を1符号化枚数と設定する。ビデオストリームの最後のGOPは、入力するビデオストリームの長さによって符号化するフレームの枚数が最大GOP枚数に足りない場合が想定されるので、この場合には残りのフレーム枚数を1符号化枚数とする。
 次に、2D互換ビデオエンコーダ2602は、1符号化枚数分の2D互換ビデオストリームの生成を行う(ステップS2703)。左目用画像のN番目のフレームから1符号化枚数分だけ、2D互換ビデオストリームの圧縮符号化方式に従って、圧縮符号化して、2D互換ビデオストリームを生成して出力する。
 さらに、2D互換ビデオデコーダ2603は、1符号化枚数分の2D互換ビデオストリームの復号処理を行う(ステップS2704)。ステップS2703にて出力された2D互換ビデオストリームに対して、N番目フレームから1符号化枚数分、圧縮ピクチャを復号して得られる復号ピクチャと2D互換ビデオ符号化情報とを出力する。
 ベースビュービデオエンコーダ2605は、1符号化枚数分のベースビュービデオストリームの生成を行う(ステップS2705)。具体的には、2D互換ビデオ符号化情報を元に、ベースビュー符号化情報2607としてベースビュービデオストリームの属性情報(解像度、アスペクト比、フレームレート、プログレッシブかインターレースかの区別など)、GOP内の各ピクチャのピクチャ属性情報(ピクチャタイプなど)、GOP(Group of Pictures)構造、及び、2D互換ビデオフレームメモリ管理情報を設定し、黒画像を、1符号化枚数分、圧縮符号化して、ベースビュービデオストリームを生成する。また、設定したベースビュース符号化情報2607を出力する。
 次に、ディペンデントビュービデオエンコーダ2609は、1符号化枚数分のディペンデントビュービデオストリームの生成を行う(ステップS2706)。具体的には、ステップS2705で出力したベースビュービデオ符号化情報を元に、ディペンデントビュービデオストリームの属性情報(解像度、アスペクト比、フレームレート、プログレッシブかインターレースかの区別など)、GOP内の各ピクチャのピクチャ属性情報(ピクチャタイプなど)、GOP(Group of Pictures)構造、及び、2D互換ビデオフレームメモリ管理情報を設定する。
 さらに、ディペンデントビュービデオストリームエンコーダ2609は、ピクチャ間予測符号化を用いて符号化を行う際に、ベースビュービデオストリームのピクチャを参照するのではなく、2D互換ビデオフレームメモリ2608内の同一表示時刻を示す2D互換ビデオストリームを復号したピクチャを参照しながら、ピクチャ間予測符号化を用いて右目用画像のN番目のフレームから1符号化枚数分、圧縮符号化して、ディペンデントビュービデオストリームを生成する。
 マルチプレクサ2610は、2D互換ビデオストリーム、ベースビュービデオストリーム、及びディペンデントビュービデオストリームを、PESパケット化する。次にPESパケットをTSパケット単位に分割し、多重化したトランスポートストリームを生成する。その後、Nに1符号化枚数を加算する(ステップS2707)。
 ステップS2707の処理が完了したら、ステップS2701に戻って処理を繰り返す。
 なお、1回のフローでの符号化枚数は変更することができる。枚数を少なくしたい場合は、ステップS2702の1符号化枚数の値を小さくなるように設定すればよい。例えば、ビデオ符号化時のリオーダリングの枚数が2枚の場合には、4枚単位で圧縮符号化を実行すれば、リオーダリングの影響を受けない。リオーダリングの枚数が2枚の圧縮符号化方式で、ピクチャタイプがI1、P4、B2、B3、P7、B5、B6(数字は表示順)の場合を想定する。1符号化枚数が3の場合、P4のピクチャが処理できないため、B2、B3の圧縮符号化処理ができない。1符号化枚数を4にすれば、P4のピクチャが処理できるため、B2、B3の圧縮符号化処理ができる。このように、1符号化枚数は、1回の圧縮符号化フローごとに、最大GOP枚数以内で、画像の特性に応じて最適な枚数に設定してもよい。
<1-3.再生装置>
 <1-3-1.構成>
 次に本実施の形態に係る3D映像を再生する再生装置2823の構成について図を参照しながら説明する。
 図28は再生装置2823の機能構成を示すブロック図である。
 再生装置2823は、PIDフィルタ2801、2D互換ビデオデコーダ2821、拡張マルチビュービデオデコーダ2822、第1プレーン2808、及び第2プレーン2820を含む構成である。
 PIDフィルタ2801は、入力されたトランスポートストリームをフィルタリングする。PIDフィルタ2801はTSパケットのうち、TSパケットのPIDの値が、再生に必要とされるPIDの値に一致するものを、PIDの値に従って、2D互換ビデオデコーダ2821又は拡張マルチビュービデオデコーダ2822に転送する。
 どのストリームがどのPIDに対応しているかはPMTパケットのストリーム情報によって判断できる。例えば、2D互換ビデオストリームのPIDが0x1011、マルチビュービデオストリームのベースビュービデオストリームのPIDが0x1012、マルチビュービデオストリームのディペンデントビュービデオストリームのPIDが0x1013とすると、TSパケットのPIDの値を参照し、TSパケットに含まれるPIDの値が予め決められている上記PIDの値と一致する場合に、そのTSパケットをそれぞれ対応するデコーダに転送する。
 第1プレーン2808は、2D互換ビデオデコーダ2821が復号してPTSの値に従って出力したピクチャを保持するプレーンメモリである。
 第2プレーン2820は、拡張マルチビュービデオデコーダ2822が復号してPTSの値に従って出力したピクチャを保持するプレーンメモリである。
 次に2D互換ビデオデコーダ2821と拡張マルチビュービデオデコーダ2822とについて説明する。
 2D互換ビデオデコーダ2821は、2D映像の圧縮符号化方式であるMPEG-2形式のデコーダと基本的には同じ復号機能を有し、拡張マルチビュービデオデコーダ2822は、ビュー間参照を実現する3D映像の圧縮符号化方式であるMPEG-4 MVC形式のデコーダと基本的には同じ復号機能を有する。ここでは、MPEG-2形式の圧縮符号化方式の一般的なデコーダをビデオデコーダ2901、及びMPEG-4 MVC形式の圧縮符号化方式の一般的なデコーダをマルチビュービデオデコーダ2902とする。
 まず、ビデオデコーダ2901及びマルチビュービデオデコーダ2902について図29を用いて説明する。その後で、2D互換ビデオデコーダ2821とビデオデコーダ2901との異なる部分、及び拡張マルチビュービデオデコーダ2822とマルチビュービデオデコーダ2902との異なる部分を重点的に説明する。
 図29に示すように、ビデオデコーダ2901は、TB(TransportStreamBuffer)(1)2802、MB(Multiplexing Buffer)(1)2803、EB(ElementaryStreamBuffer)(1)2804、D1(2D互換ビデオ圧縮映像デコーダ)2805、及びO(Re-ordering Buffer)2806を含む構成である。
 TB(1)2802は、ビデオストリームを含むTSパケットがPIDフィルタ2801から出力された際、TSパケットのまま一旦蓄積されるバッファである。
 MB(1)2803は、TB(1)2802からEB(1)2804にビデオストリームを出力するにあたって、一旦PESパケットを蓄積しておくためのバッファである。TB(1)2802からMB(1)2803にデータが転送される際に、TSパケットのTSヘッダ及びアダプテーションフィールドは取り除かれる。
 EB(1)2804は、圧縮符号化状態にあるピクチャ(Iピクチャ、Bピクチャ、Pピクチャ)が格納されるバッファである。MB(1)2803からEB(1)2804にデータが転送される際にPESヘッダが取り除かれる。
 D1(2805)は、ビデオエレメンタリストリームの個々のビデオアクセスユニットを所定のDTSの時刻で復号することによりフレーム画像のピクチャを作成する。
 D1(2805)で復号されたピクチャはプレーン2808もしくはO2806に出力される。PピクチャやIピクチャのように、DTSとPTSの値が異なる場合には、O2806に出力され、BピクチャのようにDTSとPTSの値が同じ場合には、そのままプレーン2808に出力される。
 O2806は、復号したピクチャのDTSとPTSとの値が異なる場合、すなわち、ピクチャの復号順と表示順が異なる場合にリオーダリングを行うためのバッファである。D1(2805)は、O2806に格納されるピクチャのデータを参照して、復号処理を行う。
 スイッチ2807は、復号されたピクチャをプレーン2808に出力する際に、O2806にバッファリングされた画像を出力するかD1(2805)からの出力を直接出力するかの切り替えを行う。
 次に、マルチビュービデオデコーダ2902について説明する。
 図29に示すように、マルチビュービデオデコーダ2902は、TB(2)2809、MB(2)2810、EB(2)2811、TB(3)2812、MB(3)2813、EB(3)2814、デコードスイッチ2815、Inter-view buffer2816、D2(マルチビュービデオ圧縮映像デコーダ)2817、DPB(Decoded Picture Buffer)2818、及び出力プレーンスイッチ2819とを含む構成である。
 TB(2)2809、MB(2)2810、及びEB(2)2811は、それぞれTB(1)2802、MB(1)2803、及びEB(1)2804と同じ機能を持つが、バッファリングするデータがベースビュービデオストリームである点が異なる。
 TB(3)2812、MB(3)2813、及びEB(3)2814は、それぞれTB(1)2802、MB(1)2803、及びEB(1)2804と同じ機能を持つが、バッファリングするデータがディペンデントビュービデオストリームである点が異なる。
 スイッチ2815は、EB(2)2811とEB(3)2814とからDTSの値に従って、そのDTSが付与されているビデオアクセスユニットのデータを取り出しの、3Dビデオアクセスユニットを構成して、D2(2817)に転送する。
 D2(2817)は、スイッチ2815を介して転送される3Dビデオアクセスユニットに対する復号処理を行い、フレーム画像のピクチャを作成する。
 D2(2817)により復号されたベースビュービデオの復号されたピクチャは、Inter-view buffer2816に一旦格納される。D2(2817)は、ディペンデントビュービデオストリームのピクチャを、Inter-view buffer2816に格納されるPTSが同じ値を持つベースビュービデオストリームの復号ピクチャを参照して、復号処理を行う。
 マルチビュービデオデコーダ2902は、ビュー間参照を行うためのピクチャを指定する参照ピクチャリストを、ベースビュービデオストリームのピクチャとディペンデントビュービデオストリームのピクチャのピクチャタイプやsyntax要素に基づいて作成する。
 D2(2817)は、Inter-view buffer2816に格納されるベースビューの復号ピクチャと、ディペンデントビューの復号ピクチャをDPB2818に転送し、PTSの値に従って、出力プレーンスイッチ2819を介して出力する。
 DPB2818は、復号されたピクチャを一時的に保持しておくバッファである。D2(2817)が、ピクチャ間予測符号化モードを用いてPピクチャやBピクチャなどのビデオアクセスユニットを復号する際に、既に復号されたピクチャを参照するために利用する。
 出力プレーンスイッチ2819は、復号されたピクチャを、適切なプレーンへ出力する処理を行う。例えば、ベースビュービデオストリームが、左目用画像を示し、ディペンデントビュービデオストリームが、右目用画像を示す場合には、ベースビュービデオストリームのピクチャを左目用画像のプレーンに、ディペンデントビュービデオストリームのピクチャを右目用画像のプレーンに出力する。
 次に、2D互換ビデオデコーダ2821と拡張マルチビュービデオデコーダ2822について説明する。
 2D互換ビデオデコーダ2821は、ビデオデコーダ2901と基本的な構造は同じであるため、機能の共通部分については説明を省略して、異なる部分を説明する。
 図28で示す2D互換ビデオデコーダ2821はD1(2805)で復号したピクチャをO2806やスイッチ2807に転送するだけでなく、DTSの値に基づいて、拡張マルチビュービデオデコーダ2822のInter-view buffer2816にも転送する。
 拡張マルチビュービデオデコーダ2822は、マルチビュービデオデコーダ2902と基本的な構造は同じであるため、機能の共通部分については説明を省略して、異なる部分を説明する。
 拡張マルチビュービデオデコーダ2822は、2D互換ビデオデコーダ2821から、DTSの値に従って転送されるピクチャを、Inter-view buffer2816内で、先に復号されているベースビュービデオストリームのPTS及びDTSが同じ値を持つ復号ピクチャが格納される領域に上書きして格納する。このため、拡張マルチビューデコーダ2822は、ディペンデントビュービデオストリームのピクチャを復号する際に、2D互換ビデオストリームの復号ピクチャを、あたかもベースビュービデオストリームの復号ピクチャであるとして参照することができる。Inter-view buffer2816上のアドレス管理は、従来のベースビュービデオストリームの復号ピクチャの管理と変更する必要はない。
 また、拡張マルチビュービデオデコーダ2822は、DPB2818に格納された映像の内、第2プレーン2820への出力は、ディペンデントビュービデオストリームのピクチャのみをPTSの値に従って出力するように出力プレーンスイッチ2819を制御する。ベースビュービデオストリームのピクチャは、表示には関係ないのでプレーンに出力しない。
 このようにして、2D互換ビデオデコーダ2821からは、2D互換ビデオストリームのピクチャがPTSの値に従って第1プレーン2808に出力され、拡張マルチビュービデオデコーダ2822からは、マルチビュービデオストリームのディペンデントビュービデオストリームのピクチャがPTSの値に従って第2プレーン2820に出力される。
 このように構成することによって、異なる映像圧縮符号化方式である2D互換ビデオストリームのピクチャを参照して、マルチビュービデオストリームのディペンデントビュービデオストリームを復号することができる。
 <1-3-2.動作>
 図30は再生装置2823の3D映像における復号処理と出力処理のフローを示す図である。
 再生装置2823は、EB(1)2804にピクチャがあるかどうかを判定する(ステップS3001)。ピクチャがなければ(ステップS3001:No)、ビデオストリームの転送が終了したと判断して、処理を終了する。
 EB(1)にピクチャがある場合(ステップS3002:Yes)、再生装置2823は、拡張マルチビュービデオデコーダ2822を利用して、ベースビュービデオストリームの復号処理を行う(ステップS3002)。具体的には、DTSの値に従って、該当するDTSに付与されたピクチャをEB(2)より取り出し、復号処理を行い、Inter-view buffer2816にデータを格納する。Inter-view buffer2816内のピクチャの管理は、従来のMPEG-4 MVC形式における管理と同じであるので詳細は省略するが、参照ピクチャリストを作るための管理情報としてPTS及びPOCと復号ピクチャの参照先を示すInter-view buffer2816のデータアドレスとを関連付けるテーブル情報を内部に持って管理する。
 次に、再生装置2823は、2D互換ビデオデコーダ2821を利用して、2D互換ビデオストリームの復号処理を行う(ステップS3003)。具体的には、DTSの値に従って、該当するDTSに付与されたピクチャをEB(1)より取り出し、復号処理を行う。このとき、O2806やスイッチ2807に復号したピクチャを転送する。さらに、Inter-view buffer2816にも復号したピクチャを転送する。
 拡張マルチビュービデオデコーダは、転送されたピクチャを、Inter-view buffer2816にある同じ値のDTS及びPTSが付与されているベースビューピクチャに上書きする。
 具体的な上書き処理について図31を用いて説明する。
 図31上段のように、Inter-view buffer2816のピクチャの管理は、例えばPTSとInter-view buffer2816のメモリアドレスで管理されているとする。図31上段は、PTS=100におけるベースビュービデオストリームのピクチャが復号された直後の様子を示しており、PTS=100のベースビューの復号ピクチャは、アドレスBから始まるメモリ領域に格納されていることを示す。
 ここで、ステップS3003の処理が行われると、図31下段のようになり、PTS=100のベースビュービデオピクチャが格納されるメモリ領域のアドレスBに対して、PTSが同じ値の2D互換ビデオストリームの復号ピクチャが上書きされる。このように、バッファ内のピクチャ管理を行うための管理情報(例えば、PTS)は変更する必要なく、ピクチャのデータのみを上書きする。これにより、D2(2817)は、従来のMPEG-4 MVC形式のディペンデントビュービデオストリームの復号処理と同じ処理で、2D互換ビデオストリームを復号して得たピクチャを参照しながら復号することができる。
 次に、拡張マルチビュービデオデコーダ2822は、ディペンデントビュービデオストリームの復号処理を行う(ステップS3004)。具体的には、拡張マルチビュービデオデコーダ2822は、DTSの値に従って、該当するDTSに付与されたピクチャをEB(3)より取り出し、ディペンデントビュービデオストリームのピクチャをInter-view buffer2816に格納されるピクチャを参照しながら復号処理を行う。
 このとき参照するピクチャは、ベースビュービデオストリームのピクチャではなく、ステップS3003にて上書きされた2D互換ビデオストリームのピクチャである。
 再生装置2823は、2D互換ビデオストリームの復号ピクチャをPTSの値に従って、第1プレーン2808に出力し、ディペンデントビュービデオストリームの復号ピクチャをPTSの値に従って、第2プレーン2820に出力する(ステップS3005)
 再生装置2823のD1(2805)で行う復号処理は、既存のMPEG-2形式のビデオストリームの復号処理と同じなので、既存のMPEG-2形式のビデオの再生装置のLSI(Large Scale Integration)やソフトウェアを利用することができる。また、D2(2817)で行うMPEG-4 MVC形式の復号処理についても、既存のMPEG-4 MVC形式の処理と同じであるので、既存のMPEG-4 MVC形式のビデオの再生装置のLSIやソフトウェアを利用できる。
<再生装置2823の使用態様の一例>
 図5を用いて、データ作成装置2823で作成したビデオストリームの3D映像を再生できる3Dデジタルテレビ100と、3D映像の再生をサポートしない従来の2D映像のみを再生できる2Dデジタルテレビ300を例に挙げて説明する。
 図5(a)に示すように、ユーザは、3Dデジタルテレビ100と3D眼鏡200を用いて3D映像を視聴する。
 3Dデジタルテレビ100は、2D映像及び3D映像を表示することができるものであり、受信した放送波に含まれるストリームを再生することで映像を表示する。具体的には、MPEG-2形式で圧縮符号化された2D互換ビデオストリームとMPEG-4 MVC形式に準拠して圧縮符号化されたベースビュービデオストリームとディペンデントビュービデオストリームを再生する。
 3Dデジタルテレビ100は、2D互換ビデオストリームを復号して得た左目用画像とディペンデントビュービデオストリームを復号して得た右目用画像とを交互に表示する。
 ユーザは、このようにして再生された映像を、3D眼鏡200を着用して眺めることで立体映像として視聴することができる。
 図5(b)は、3D眼鏡200の左目用画像の表示時を示す。
 画面上に左目用の画像が表示されている瞬間において、3D眼鏡200は、左目に対応する液晶シャッターを透光にし、右目に対応する液晶シャッターは遮光する。
 同図(c)は、右目用画像の表示時を示す。
 画面上に右目用画像が表示されている瞬間において、先ほどと逆に右目に対応する液晶シャッターを透光にし、左目に対応する液晶シャッターを遮光する。
 図5(d)の2Dデジタルテレビ300は、2D映像の再生に対応し、データ作成装置2601で作成したトランスポートストリームに含まれるビデオストリームのうち2D互換ビデオストリームを復号して得られる2D映像を再生することができる。
<1-4.変形例>
 以上、本発明に係るデータ作成装置及び再生装置の実施の形態を説明したが、例示したデータ作成装置及び再生装置を以下のように変形することも可能であり、本発明が上述の実施の形態で示した通りのデータ作成装置及び再生装置に限らないことは勿論である。
 (1)本実施の形態の再生装置では、ステップS3003にて、Inter-view buffer2816のベースビュービデオストリームの復号ピクチャに対して、PTSの値が同じ2D互換ビデオストリームの復号ピクチャを上書きするとしたが、図32下段のように、上書き処理を行わずにアドレス参照先を変更するようにしてもよい。
 このように処理を行うことによって、上書き処理を省略できるので負荷を軽減できる。
 (2)本実施の形態の再生装置では、ベースビューの復号ピクチャをDPB2818に格納するとしたが、ベースビュービデオストリームの復号ピクチャは参照されないため、DPB2818に格納しないようにしてもよい。このようにすれば、DPB2818からベースビュービデオストリームのピクチャを格納する分のメモリ量を削減することが可能となる。
 (3)本実施の形態では、ベースビュービデオストリームをトランスポートストリームに含めて生成し、復号処理において、ベースビュービデオストリームのピクチャの復号処理を行うとしたが、ベースビュービデオストリームのピクチャの復号処理は省略してもよい。
 拡張マルチビュービデオデコーダ2822は、ベースビュービデオストリームのピクチャの復号をせずに、ヘッダ情報の解析(例えば、POCの取得、ピクチャタイプ、ViewID、参照有り無しの情報取得など)とInter-view buffer2816に1枚分のピクチャが格納できる領域の確保を行う。拡張マルチビュービデオデコーダ2822は、確保した領域に、ヘッダ情報解析で得たPTSやDTSと同じ値を持つ2D互換ビデオデコーダから出力される復号ピクチャを格納する。
 このようにすれば、ピクチャの復号処理をスキップできるので、再生処理全体での処理負荷を軽減できる。
 また、ディペンデントビュービデオストリームのピクチャから、2D互換ビデオストリームのピクチャへのビュー間参照を実現させるため必要な情報、すなわち、拡張マルチビュービデオデコーダがInter-view buffer2816を管理できるようにするための情報を含めた2D互換ビデオストリームを生成するようにしてもよい。
 具体的には、ベースビュービデオストリームのsyntax要素の全てまたは一部を2D互換ビデオストリームの補足データに記録するように構成する。すなわち、Inter-view bufferバッファ2816のピクチャ管理を行うための情報(MPEG-4 MVC形式の表示順を示すPOC、ピクチャタイプを示すslice_type、ピクチャの参照・非参照を示すnal_ref_idc、ベース参照ピクチャリストを作成するための情報であるref_pic_list_mvc_modification、ベースビュービデオストリームのViewID、MMCOコマンド)などを2D互換ビデオストリームの各ピクチャの補足データに含めるようにする。
 このように2D互換ビデオストリームのデータをディペンデントビュービデオストリームから直接参照できるように構成すれば、ベースビュービデオストリームはトランスポートストリーム上に多重化されていなくてもよい。
 この場合、図3で示すように、MPEG-4 MVC形式のディペンデントビュービデオストリームのピクチャはMPEG-2形式のビデオストリームのピクチャを直接参照することになる。
 ただし、MPEG-4 MVC形式のベースビュービデオストリームをトランスポートストリーム上に多重化した場合、データ形式は従来とほぼ同じなので、従来のMPEG-4 MVC形式に対応した符号化装置や再生装置と親和性がよく、少ない改良で本実施の形態のビデオストリームデータに対応した符号化装置や再生装置が実現できる。
 (4)本実施の形態の再生装置では、O2806とDPB2818のメモリは別領域として扱っていたが、図33に示すように、メモリ空間を共用化してもよい。例えば、図33の例では、PTS=100とPTS=200の2D互換ビデオのピクチャは、ステップS3003によって、Inter-view buffer2816のPTSが同じ値のベースビューピクチャに上書きされることになる。このとき、DPB2818にデータを格納する際にDPB2818の管理テーブルの参照先ピクチャのアドレスの設定だけで行い、上書き処理を省略することができる。具体的には、図33の例では、DPB2818のピクチャ管理テーブルにおいては、PTS=100,PTS=200のベースビュー(View_IDが最小値)のピクチャのアドレスは、O2806の管理テーブルのPTS=100、PTS=200に対応した.2D互換ビデオの復号ピクチャのアドレスをそれぞれ示すように設定する。
 このようにすれば、ピクチャを格納するためのメモリ量を削減することができる。
 (5)本実施の形態の再生装置では、Inter-view buffer2816とDPB2818は別のバッファとして扱ったが、これを同じバッファとしてもよい。例えば、DPB2818に統一される場合には、DPB2818内の同一の値のPTSと、同一のViewIDとを持つベースビュービデオストリームの復号ピクチャを2D互換ビデオストリームの復号ピクチャに置き換えればよい。
 (6)本実施の形態における圧縮符号化処理において、2D互換ビデオストリームのピクチャと、同一表示時刻のベースビュービデオストリームのピクチャと、同一表示時刻のディペンデントビュービデオストリームのピクチャにおいて、ひとつでもBピクチャ(Brピクチャを含む)があれば、同一表示時刻の2D互換ビデオストリームのピクチャと、ベースビュービデオストストリームのピクチャと、ディペンデントビュービデオストリームのピクチャとのピクチャタイプをBピクチャ(Brピクチャを含む)にしなければならないという制約を課してもよい。このように構成することによって、IピクチャとPピクチャのみを選択して特殊再生(例えば、飛び込み再生)を行う再生装置において、その特殊再生処理が容易になる。
図24は、特殊再生について説明するための図である。図24上段は、上記の制約が課されていない場合について示している。この場合、表示順で3番目のピクチャにおいて、2D互換ビデオストリームとベースビュービデオストリームは、Pピクチャ(P3)になっているが、ディペンデントビュービデオストリームのピクチャはBピクチャ(B3)となっている。
 これにより、ディペンデントビュービデオストリームの復号を行うために、ディペンデントビュービデオストリームのピクチャBr2を復号する必要があり、また、ベースビュービデオストリームのBr2も復号する必要がある。一方で、図24下段は、上記制約を課した場合について示している。
 この場合には、表示順で3番目のピクチャにおいて、2D互換ビデオストリーム、ベースビュービデオストリーム、ディペンデントビュービデオストリームのピクチャはすべてPピクチャとなり、すべてのビデオストリームにおいて、IピクチャとPピクチャのみを復号すればよいため、IピクチャとPピクチャを選択した特殊再生処理が容易になる。
 (7)本実施の形態のデータ作成装置では、トランスポートストリームの多重化において、各ビデオストリームのPIDとして別々のPIDを設定するとしたが、ベースビュービデオストリームとディペンデントビュービデオストリームとに、同一のPIDを割り当てるようにしてもよい。
 このように構成することで、マルチビュービデオストリームの圧縮符号化方式の仕様に合わせて各ビデオストリームのアクセスユニットをマージして転送することができる。
 この場合、ベースビュービデオストリームとディペンデントビデオストリームのマージは圧縮符号化方式の仕様に合わせて行い、再生装置は図45のような構成で、拡張マルチビュービデオデコーダのデータ転送ラインがひとつになるように構成すればよい。
 また、ベースビュービデオストリームとディペンデントビュービデオストリームとにおいて、同時刻のピクチャを格納した各アクセスユニットのヘッダ(例えば、シーケンスヘッダ、ピクチャヘッダ)情報を共有してもよい。すなわち、ヘッダ情報をベースビュービデオストリームのみに設けて、ディペンデントビュービデオストリームを復号する際には、復号に必要なヘッダ情報をベースビュービデオストリームのヘッダ情報を参照しながら復号するようにしてもよい。従って、ディペンデントビュービデオストリームには、復号に必要なヘッダ情報の付加を省略できる。
 (8)本実施の形態のデータ作成装置において、図23にて説明したように、同一表示時刻の2D互換ビデオストリームとディペンデントビュービデオストリームのピクチャのDTSの値はそれぞれ等しく、さらに、ディペンデントビュービデオストリームのピクチャと、ベースビュービデオストリームとのピクチャのDTSもそれぞれ同じ値とした。しかし、同一表示時刻のそれぞれのビデオストリームにおけるピクチャのDTSの値は、同じでなくてもよい。例えば、図35に示すように2D互換ビデオストリームのDTSの値を、ベースビュー・ディペンデントビュービデオストリームよりも先(例えば、1フレーム分前)に復号される値に設定してもよい。
 このように構成することで、2D互換ビデオストリームの復号を前もって行うことができるため、Inter-view bufferへの上書き処理やディペンデントビュービデオストリームのピクチャ復号処理を、余裕を持って行うことができる。
 なお、図35では、同一表示時刻の視差画像を格納する2D互換ビデオストリームのピクチャのPTSについては、ディペンデントビューのピクチャのPTSと同じとしているが、2D互換ビデオストリームの復号処理を前もって行うために、同一表示時刻の2D互換ビデオストリームのピクチャのPTSを、ベースビュー・ディペンデントビュービデオストリームよりも先(例えば、1フレーム分前)になるように設定している。
 このように2D互換ビデオストリームとマルチビュービデオストリーム間でのPTS値を変える場合、例えば、2D互換ビデオストリームのピクチャのPTSを、ディペンデントビュービデオストリームのピクチャのPTSよりも1フレーム前にする場合には、Inter-view bufferのベースビュービデオストリームのピクチャの入れ換え時に、ベースビュービデオストリームのピクチャに対して、1フレーム前を示す値のPTSの2D互換ビデオストリームのピクチャで入れ換えるようにする。
 なお、実データに付与されるPTSやDTSの設定は、図23に示す時刻設定であっても、2D互換ビデオストリームのピクチャのDTSやPTSが先になるように、内部的に値を修正して復号処理を行ってもよい。
 (9)本実施の形態の再生装置では、ステップS3005にて、2D互換ビデオデコーダ2821が、2D互換ビデオストリームの復号ピクチャを、PTSの値に従って第1プレーン2808に出力するとしたが、図34のように、拡張マルチビュービデオデコーダ2822が、出力プレーンスイッチ2819を使って両方の映像を出力するように構成してもよい。
 このように構成することで、既存のマルチビュービデオストリームを使って3D映像を再生するプレーン出力の仕組みをそのまま利用することができる。
 (10)本実施の形態において、多重化方式をトランスポートストリームとしたが、これに限らない。
 例えば、多重化方式としてMP4のシステムフォーマットを用いることができる。図34の入力をMP4で多重化されたファイルとして、2D互換ビデオストリーム、ベースビュービデオストリーム、ディペンデントビュービデオストリームにそれぞれ分離して復号する。そして、Inter-view buffer2816のベースビュービデオストリームのピクチャを2D互換ビデオストリームのピクチャに上書きしたピクチャを参照しながらディペンデントビュービデオストリームのピクチャを復号する。ただし、MP4システムフォーマットの場合にはPTSがないので、MP4システムフォーマットのヘッダ情報(stts, stszなど)を元に、各アクセスユニットにおける時刻情報を特定する。
 (11)本実施の形態におけるベースビュービデオストリームやディペンデントビュービデオストリームにおいては、ディペンデントビュービデオストリームの参照先のピクチャを、2D互換ビデオストリームの復号ピクチャとしており、通常のマルチビュービデオストリームの構成と異なるため、ストリームタイプやPESパケットヘッダに付与されるstream_idを、従来のマルチビュービデオストリームの場合の値と異なるように設定してもよい。
 このように構成することで、再生装置は、ストリームタイプやstream_idを参照することにより、本実施の形態における3D映像の再生方式であると判断して、再生方法を変更することができる。
 (12)本実施の形態では、図38で説明したディスクリプタに格納される再生方式について説明したが、この再生方式の切り替え方法については、図40のような構成にして実現してもよい。
 図40の再生装置2823bは図28で説明した再生装置2823と基本的な構造は変わらないが、コーデック間参照スイッチ2824、プレーンセレクタ2825、第3プレーン2826が追加されている。
 コーデック間参照スイッチ2824は、図40で示すようにONの場合には、2D互換ビデオデコーダから拡張マルチビュービデオデコーダ内のInter-view bufferに対してステップS3003で説明したデータ転送を行い、OFFの場合には、データ転送を行わない。
 プレーンセレクタ2825は、2D互換ビデオデコーダからピクチャタが出力される第1プレーン2808、拡張マルチビュービデオデコーダのベースビュービデオストリームのピクチャが出力される第2プレーン2820、拡張マルチビュービデオデコーダのディペンデントビュービデオストリームのピクチャが出力される第3プレーン2826に対して、どのプレーンを2D映像として出力するのか、3D映像の左目用画像として出力するのか、または3D映像の右目用画像として出力するのかを選択する。
 再生方式に従って、コーデック間参照スイッチ2824とプレーンセレクタ2825での出力を切り替えることで、再生装置2823bは再生モードを変更する。
 図38の再生方式の例に対して、具体的な再生方法の切り替えについて図41を用いて説明する。
 コーデック間参照スイッチ2824のON、OFFの切り替えとプレーンセレクタ2825でのプレーンの選択例を図41下段に記している。
 再生装置2823bは、再生方式の値が「0」の場合、コーデック間参照スイッチ2824をOFFにする。そして、プレーンセレクタ2825は、2D映像として第1プレーン2808を選択する。
 再生装置2823bは、再生方式の値が「1」の場合、コーデック間参照スイッチ2824をONにする。そして、プレーンセレクタ2825は、左目用画像として第1プレーン2808又は第2プレーン2820を選択し、右目用画像として第3プレーン2826を選択する。
 再生装置2823bは、再生方式の値が「2」の場合、コーデック間参照スイッチ2824をOFFにする。そして、プレーンセレクタ2825は、左目用画像として第2プレーン2820を選択し、右目用画像として第3プレーン2826を選択する。
 再生装置2823bは、再生方式の値が「3」の場合、コーデック間参照スイッチ2824をOFFにする。そして、プレーンセレクタ2825は、左目用画像として第1プレーン2808を選択し、右目用画像として第1プレーン2808を選択する。
 (13)本実施の形態において、再生方式が、2D互換ビデオストリームとディペンデントビュービデオストリームによる3D映像再生から2D互換ビデオストリームの2D映像再生に切り替わるようなトランスポートストリームを生成する場合には、復号処理の遅延を考慮して、図42に示すように、再生方式が変わる時点で、2D互換ビデオストリームと同じ映像をディペンデントビュービデオストリームに圧縮符号化しておくように構成してもよい。2D互換ストリームと同じ映像をディペンデントビュービデオストリームに圧縮符号化する区間を図42上段に示す2D移行期間とする。この2D移行区間においては、どちらの方式で再生しても2D映像として再生されるため、ユーザにとってはスムーズな映像遷移となる。これは、2D映像再生から3D映像再生に切り替わる場合においても2D移行区間を設けてもよい。また、図37のシグナリング情報を示す「再生方式」の値が「0」と、その他の値(「1」、「2」又は「3」)との間で切り替わるそれぞれの場合において、2D移行区間を設けるようにしてもよい。
 (14)MPEG-2形式の圧縮符号化における各ピクチャに含まれる表示順を示すtemporal_referenceの値に、同一時刻表示を示すディペンデントビュービデオストリームのピクチャのPOCの値を設定してもよい。
 このようにすることで、PTSを使わずにビデオES内の値でMPEG-2形式のビデオストリームの圧縮符号化及び復号処理ができる。
 または、2D互換ビデオストリームの各ピクチャのユーザデータに、同時刻表示を示すディペンデントビュービデオストリームのPOCを含めてもよい。
 このようにすることで、temporal_referenceの値を独自の値に設定することもできるため、圧縮符号化処理における設定の自由度が増える。
 (15)本実施の形態において、図43、図44に示すように2D互換ビデオストリームの復号結果に対して、高画質フィルタ4301を適用するようにしてもよい。
 高画質フィルタ4301は、MPEG-4 AVCで規定されているデブロッキングフィルタのようなブロックノイズを軽減するようなものなどである。高画質フィルタ4301を適用するか否かを示すフラグを用意する。そして、例えばフラグがONを示す場合に高画質フィルタ430を適用し、OFFの場合に適用しないとする。
 このフラグは、PMTのディスクリプタやストリームの補足データ等に含めることができる。
 再生装置は、このフラグがONであれば、復号結果において、Inter-view buffer2816に、データを転送する前にフィルタを適用する。
 このように構成することで、2D互換ビデオストリームに対する2D映像の高画質化を実現する。また、高画質化処理されたピクチャを参照しながらディペンデントビュービデオストリームの復号処理を行うことができるので、結果3D映像の高画質化も図れる。なお、高画質フィルタ4301は複数あって、用途に応じて、選択できるようにフラグではなく、そのフィルタのタイプを指定できるようにしてもよい。
 (16)本実施の形態において、ディペンデントビュービデオストリームは1つのケースを説明したが、ディペンデントビュービデオストリームは複数あってもよい。
 この場合には、拡張マルチビュービデオストリームは、複数のディペンデントビュービデオストリームを処理できるように構成して、Inter-view buffer2816における2D互換ビデオストリームのピクチャとの置き換え処理においては、PTSが同じ値を持つベースビューのピクチャに対して置き換えられるようにしてもよい。または、2D互換ビデオストリームで、置き換えるViewIDを指定できるようにして、常にベースビューのピクチャを置き換えるのではなく、複数ビューのピクチャの中から選択して置き換えられるようにしてもよい。
 (17)本実施の形態において、2D互換ビデオストリームをMPEG-2ビデオ、マルチビュービデオストリーム(ベースビュービデオストリームとディペンデントビュービデオストリーム)をMPEG-4 MVCビデオとして説明したが、コーデックの種類はこれに限らないことは言うまでもない。本実施の形態の再生装置、データ符号化装置において、コーデックの特性に合わせて、構成を適宜変更することで対応ができる。例えば、2D互換ビデオストリームをMPEG-4 AVCで、マルチビュービデオストリームが「新コーデック」の場合には、図46で示した再生装置のように、図34で示したO2806とスイッチ2807とをDPBに置き換えて、ビュー間参照バッファ2816内のピクチャの管理は「新コーデック」の構成に従って行えばよい。
 (18)本実施の形態のビデオストリームを用いた3D映像を視聴する方法として、ユーザが液晶シャッターを備えた3D眼鏡を用いる方法を例示したが、3D映像の視聴方法はこれに限られない。
 例えば、ディスプレイに表示する画面中の縦方向に左目用のピクチャと右目用のピクチャを同時に交互に並べ、ディスプレイ表面にレンチキュラーレンズと呼ばれる蒲鉾上のレンズを通して、左目用のピクチャを構成する画素は左目だけに結像し、右目用のピクチャを構成する画素は右目だけに結像するようにすることで、左右の目に視差のあるピクチャを見せ、3D映像としてみせるようにしてもよい。また、レンチキュラーレンズの代わりに、同様の機能を持たせたデバイス、例えば液晶素子を用いてもよい。
 また、ディスプレイ側の左目用の画素には縦偏光のフィルタ、右目用の画素には横偏光のフィルタを設置し、視聴者は、左目用には縦偏光、右目用には横偏光のフィルタを設置した偏光メガネを用いた偏光方式と呼ばれる方式を用いてもよい。
 なお、視差画像を用いた立体視においては、右目用画像と左目用画像を用意する場合に、2D映像に対して画素単位で奥行き値が与えられたデプスマップを別途用意して、2D映像とデプスマップに基づいて左目用画像と右目用画像の視差画像を生成するようにしてもよい。
 図4は2D映像とデプスマップから左目用画像と右目用画像の視差画像を生成する例を模式的に示している。
 デプスマップは2D映像内のそれぞれの画素に対応した奥行き値をもっており、図4の例では、2D映像の円形の物体は、デプスマップでは円形の物体が近くにあることを示す情報(奥行き値がHigh)が割り当てられ、それ以外の領域は円形の物体より遠くにある(奥行き値がLow)ことを示す情報が割り当てられている。この情報は、画素ごとのビット列で表してもよいし、画像イメージ(例えば「黒」を奥行きがLowであることを示し、「白」を奥行きがHighであることを示す画像イメージ)で表してもよい。視差画像は、デプスマップの奥行き値から、2D映像の視差量を調整することによって作成することができる。図4の例では、2D映像内の円形の物体の奥行き値がHighであるため、視差画像を作成するときには、円形の物体の画素の視差量を大きくする。一方、円形物体以外の領域は、奥行き値がLowであるため、円形の物体以外の画素の視差量を小さくして、左目用画像、右目用画像を作成する。この左目用画像と右目用画像を、継時分離方式等を使って表示すれば立体視が可能となる。
 (19)実施の形態1では、ディペンデントビュービデオストリームを1本使用する構成であったが、これに限らず、ディペンデントビュービデオストリームを複数本使用する構成としてもよい。例えば、以下のような構成により、高画質な3D映像再生を実現するとともに、各ディペンデントビュービデオストリームのビットレートを低く抑えることができる。
 図99は、一例としてディペンデントビュービデオストリームを2本使用する場合について説明するための図である。
 2D互換ビデオストリームは、2D映像(左目用映像に相当)を圧縮符号化して作成され、ベースビュービデオストリームは黒色映像を圧縮符号化して作成され、ディペンデントビュービデオストリーム1は左目用映像を圧縮符号化して作成され、ディペンデントビュービデオストリーム2は右目用映像を圧縮符号化して作成される。ディペンデントビュービデオストリーム1に係る左目用映像、及びディペンデントビュービデオストリーム2に係る右目用映像は、2D互換ビデオストリームに係る2D映像よりも高画質なものとする。両ディペンデントビュービデオストリームの各ピクチャは、それぞれ2D互換ビデオストリームの復号されたピクチャを参照して圧縮符号化されている。すなわち、ディペンデントビュービデオストリーム1に含まれるデータ量としては、2D互換ビデオストリームに含められる2D映像よりも高画質な左目用映像と、2D互換ビデオストリームに含められる2D映像との差分に相当するデータ量となり、高画質な左目用映像をそのまま圧縮符号化する場合に比べ、データ量を大幅に削減することができる。ディペンデントビュービデオストリーム2に含まれるデータ量についても同様に、2D互換ビデオストリームに含められる2D映像よりも高画質な右目用映像と、2D互換ビデオストリームに含められる2D映像との差分に相当するデータ量となり、高画質な右目用映像をそのまま圧縮符号化する場合に比べ、データ量を大幅に削減することができる。
 再生装置側では、ベースビュービデオストリームの復号されたピクチャを、同一表示時刻(PTS)の2D互換ビデオストリームの復号ピクチャで置き換え、各ディペンデントビュービデオストリームを復号する。
 以下、本変形例について、より具体的に説明する。
 図100は、本変形例に係るデータ作成装置10001の構成を示す図である。
 データ作成装置10001は、基本的にデータ作成装置2601と同じ構成であるが、ディペンデントビュービデオエンコーダを2つ(10009と10011)備える点が異なる。以下、データ作成装置2601との差分を中心に説明する。
 ディペンデントビュー1ビデオエンコーダ10009は、左目原画映像を入力として、ベースビュービデオ符号化情報2607に従って圧縮符号化を行い、ディペンデントビュービデオストリーム1を出力する。この圧縮符号化において、ディペンデントビュー1ビデオエンコーダ10009は、2D互換ビデオフレームメモリ2608に格納される、同一表示時刻(PTS)/DTSの2D互換ビデオストリームの復号ピクチャをビュー間参照画像として圧縮する。
 ディペンデントビュー2ビデオエンコーダ10011は、右目原画映像を入力として、ベースビュービデオ符号化情報2607に従って圧縮符号化を行い、ディペンデントビュービデオストリーム2を出力する。この圧縮符号化において、ディペンデントビュー2ビデオエンコーダ10011は、2D互換ビデオフレームメモリ2608に格納される、同一表示時刻(PTS)/DTSの2D互換ビデオストリームの復号ピクチャをビュー間参照画像として圧縮する。
 図101は、本変形例に係る再生装置10123の構成を示すブロック図である。
 再生装置10123は、基本的には、再生装置2823と同じ構成であるので、以下、その差分を中心に説明する。再生装置10123は、TB(4)、TB(4)、EB(4)を追加的に備えており、2本のディペンデントビューのストリームがマルチビュービデオデコーダに入力される。各ディペンデントビュービデオストリームの復号処理においては、ビュー間参照バッファ2816内で、ベースビュービデオストリームのピクチャは、同一表示時刻の2D互換ビデオストリームのピクチャに置き換えられる。そして、この置き換え後のピクチャを参照画像として、復号処理を行う。再生装置10123は、ディペンデントビュービデオストリームの両復号映像を3D映像として出力することにより3D映像再生を行う。
 (20)実施の形態1では、2D互換ビデオストリームをプログレッシブ映像を符号化することにより生成していたが、これに限らず、インターレース映像を符号化することにより生成してもよい。
 本変形例では、2D互換ビデオストリームはインターレース映像を符号化することにより生成され、ディペンデントビュービデオストリームはプログレッシブ映像を符号化することにより生成される。ディペンデントビュービデオストリームは、2D互換ビデオストリームの復号結果を縦方向に2倍拡大したピクチャを参照画像として圧縮するよう構成する。
 図102は、本変形例に係るストリームの構成を示す図である。
 2D互換ビデオストリームは、トップフィールドのピクチャとボトムフィールドのピクチャで構成されるフルHDのフレームレート60Hzのインターレースの映像(1080i/60i)を圧縮符号化することにより生成される。マルチビュービデオストリームのベースビュービデオストリームは、黒などの単色映像(以下、「黒映像」という。)が低ビットレートで符号化されているフルHDのフレームレート60Hzのプログレッシブの映像(1080/60p)を圧縮符号化することにより生成される。マルチビュービデオストリームのディペンデントビュービデオストリームは、2D互換ビデオストリームと同じコンテンツの、フルHDであってフレームレート60Hzのプログレッシブの映像(1080/60p)を圧縮符号化することにより生成される。
 再生装置では、ベースビュービデオストリームの復号されたピクチャを、DTSにより示されるタイミングで、同一表示時刻(PTS)の2D互換ビデオストリームの復号されたピクチャに置き換えることによって、同一表示時刻の2D互換ビデオストリームのピクチャを参照して各ディペンデントビュービデオストリームを復号できる。
 以上の構成により、インターレースの2D映像再生については、2D互換ビデオストリームを再生することで行うことができ、プログレッシブの2D映像再生については、ディペンデントビュービデオストリームを再生することで行うことができる。
 図103は、本変形例に係るデータ作成装置10301の構成を示す図である。データ作成装置10301は、基本的にデータ作成装置2601と同じ構成であるが、2D互換ビデオエンコーダ10302、プログレッシブ化部10311、及びディペンデントビュービデオエンコーダ10309が異なっている。
 2D互換ビデオエンコーダ10302は、60Hzのフレームレートのプログレッシブの原画映像をインターレース化して符号化することにより2D互換ビデオストリームを生成する。
 プログレッシブ化部10311は、2D互換ビデオストリームを復号したインターレース映像をプログレッシブ映像に変換し、2D互換ビデオフレームメモリ2608に格納する。プログレッシブ化の方法は、一例として、上下に並ぶ走査線から、その間の走査線を補間する方式があるがこれに限らない。例えば、動きの少ない映像については、前のピクチャの同位置の走査線をそのまま用いることとしてもよい。また、映像における、動きの少ない部分では前のピクチャの同位置の走査線をそのまま用い、動きの大きい部分では上下に並ぶ走査線から、その間の走査線を補間するなど、シーン毎に選択できるようにしても良い。
 ディペンデントビュービデオエンコーダ10309は、入力されるプログレッシブ映像をベースビュービデオ符号化情報に基づき圧縮符号化することによってディペンデントビュービデオストリームを生成する。この圧縮符号化において、ディペンデントビュービデオエンコーダ10309は、プログレッシブ化部10311により2D互換ビデオフレームメモリ2608に格納されたピクチャのうち、プログレッシブ映像における符号化対象のピクチャと同一表示時刻のピクチャをビュー間参照画像として用いる。
 図104は、本変形例に係る再生装置の構成を示す図である。
 再生装置10423は、ディペンデントビュービデオストリームの復号映像をプログレッシブ映像として出力する。再生装置10423は、基本的に再生装置2823と同じ構成であるが、プログレッシブ化部10424が追加されている点が異なる。
 プログレッシブ化部10424は、2D互換ビデオ圧縮映像デコーダ2805が復号したインターレースのピクチャをプログレッシブ化する。プログレッシブ化は、データ作成装置のプログレッシブ化部と同じ方法で行うものとする。例えば、上述のように、インターレースであるピクチャの上下に並ぶ2本の走査線を用いて、その間の走査線を補間する。各ディペンデントビュービデオストリームの復号処理においては、ビュー間参照バッファ2816に記憶されるピクチャのうち、復号対象のピクチャと同一表示時刻のピクチャを参照画像として復号処理を行う。
 なお、再生装置10423のプログレッシブ化部10424によるプログレッシブ化方法は、上述の方法に限るものではない。例えば、走査線の補間を行う場合に、上下に並ぶ走査線に関し、上下に並ぶピクセルからその間のピクセルを補間するのではなく、上下、斜めに並ぶピクセル等から補間するようにしてもよい。
 また、データ作成装置10301のプログレッシブ化部10311が複数の方法によりプログレッシブ化を行う機能を有している場合には、最適な方法を選択してプログレッシブ化を行い、どの方法を適用したかをディスクリプタの情報としてシステムパケットやビデオストリームの補足データなどに含めることとしてもよい。再生装置10423においてプログレッシブ化部10424は、ディスクリプタの情報に基づき、いずれのプログレッシブ化方法が用いられたかを判断して、そのプログレッシブ化方法を用いる。
 これにより、参照されるピクチャが最適なプログレッシブ化方法でプログレッシブ化され高画質化されるため、この高画質化されたピクチャをビュー間参照に用いて圧縮されるディペンデントビュービデオストリームについても高画質化することができる。
 また、同一表示時刻のピクチャだけでなく、表示時刻が前後に並ぶピクチャを用いて補間することとしてもよい。その場合、2D互換ビデオデコーダ内のO2806やDPB2818に格納されるピクチャを用いて補間することとなる。この場合、ディスクリプタのプログレッシブ化方法フィールドには、いずれのフレームを用いるかを示す情報を格納する。
 (21)本実施の形態では、2D互換ビデオストリームとマルチビュービデオストリームとの間でビュー間参照を行っていたが、複数のマルチビュービデオストリーム間でビュー間参照を行うこととしてもよい。
 図105は、本変形例に係るストリーム構成を示す図である。符号化対象は、左目の原画映像10511、右目の原画映像10512、及び左目と右目の中央を視点とする真ん中の原画映像10515である。
 マルチビュービデオストリーム1(10501)は、ベースビュービデオストリーム10502とディペンデントビューストリーム10503とを含む。ベースビュービデオストリーム10502は、左目の原画映像10511が圧縮符号化されることにより生成され、ディペンデントビューストリーム10503は、右目の原画映像10512が圧縮符号化されることにより生成される。
 また、マルチビュービデオストリーム2(10504)は、ベースビュービデオストリーム10505とディペンデントビューストリーム1(10506)とディペンデントビューストリーム2(10507)とを含む。ベースビュービデオストリーム10505は、黒色などの単色映像10513を圧縮符号化することにより生成され、ベースビュービデオストリーム10506は、黒色などの単色映像10514が圧縮符号化されることにより生成される。ディペンデントビューストリーム10507は、真ん中の原画映像10515を符号化することにより生成される。ここで、真ん中の原画映像10515の圧縮符号化は、左目の原画映像10511に対応するベースビュービデオストリーム10505の復号ピクチャと、右目の原画映像10512に対応するディペンデントビューストリーム1(10506)の復号ピクチャとを参照画像として行われる。
 マルチビュービデオストリーム2(10504)の復号の際には、DTSで表されるタイミングで、マルチビュービデオストリーム2(10504)のベースビュービデオストリーム(10505)及びディペンデントビュービデオストリーム1(10506)の復号ピクチャを、マルチビュービデオストリーム1(10501)のベースビュービデオストリーム(10502)及びディペンデントビュービデオストリーム1(10503)の復号ピクチャに置き換える。そして、マルチビュービデオストリーム1(10501)のベースビュービデオストリーム(10505)とディペンデントビュービデオストリーム1(10506)の復号ピクチャを参照して、マルチビュービデオストリーム2(10504)のディペンデントビュービデオストリーム2(10507)を復号する。
 なお、マルチビュービデオストリーム1とマルチビュービデオストリーム2のViewIDが異なってもよいよう構成するには、各マルチビュービデオストリーム間でのViewIDの対応関係を示す情報をシステムパケットや補足データなどに含めておけばよい。
 図106は、ストリーム同士の対応関係を示すマッチング情報の一例を示す図である。マッチング情報は、入れ換え元のストリームと入れ換え先のストリームとを特定する情報、及び、入れ換え元のマルチビュービデオの各ViewIDが入れ換え先のマルチビュービデオのいずれのViewIDに対応するかを示す情報から成る。
 再生装置は、マッチング情報により示されるマルチビュービデオストリーム相互のViewIDの対応関係を参照することにより、入れ換え元のストリームと入れ換え先のストリームとの対応関係を認識することができる。
 (22)本実施の形態においては、図21に示すように、ベースビュービデオストリームを低ビットレートで圧縮するため、黒画面などの単色映像を圧縮符号化することしたが、これはマルチビュービデオストリームのコーデックにおいて、異なるコーデックによるビュー間参照バッファ内のピクチャ入れ換え方法が定義されていないからである。例えば、異なるコーデックによるビュー間参照バッファ内のピクチャ入れ換え方法を定義し、映像の圧縮をスキップすることを指示する情報をSyntax要素に用意してもよい。その場合、置き換え対象となるピクチャが、どのピクチャに置き換えられるかを示す情報(入れ換えるピクチャのPID、PTS、DTS、POCなど)を格納しておいても良い。
 (23)本実施の形態では、ベースビュービデオストリームは、黒画面等の単色映像を圧縮符号化することにより生成したが、これに限らず、2D互換ビデオストリームを高画質化するための差分映像(2D互換ビデオと左目原画映像との差分)を圧縮符号化することにより生成するとしてもよい。差分映像を使って2D互換ビデオストリームを高画質化し、ディペンデントビュービデオストリームの符号化の際に、高画質化したピクチャを参照することで、ディペンデントビュービデオストリームの映像も高画質化できる。
 図86は、本変形例に係るビデオストリームの構成を示す図である。
 2D互換ビデオストリームは、左目の原画映像を圧縮符号化することにより生成される。
 マルチビュービデオストリームは、ベースビュービデオストリームとディペンデントビューストリームとを含み、ベースビュービデオストリームは、2D互換ビデオと左目の原画映像との差分を圧縮符号化して生成され、ディペンデントビューストリームは、右目の原画映像を圧縮符号化して生成される。
 図89上段は、差分映像の作成手順の概略を示す。
 まず、原画映像8901を圧縮符号化することにより(8911)、2D互換ビデオストリーム(8903)を生成する。次に、2D互換ビデオストリーム(8903)を復号(8012)することにより、2D互換ビデオの復号ピクチャ(8902)を得る。そして、原画映像8901と2D互換ビデオの復号ピクチャ(8902)との差分値(差分映像)を算出し(8913)、算出した差分値に値128を加算する(8914)。ここで、単純に差分値を算出すると、符号付き情報(例:8ビットカラーの場合は、-128~+128)となり、符号を表すためのビットが余分に必要となるため、+128することにより正の数にして変換して差分映像化する。ここで、原画映像8901のピクチャと、2D互換ビデオの復号ピクチャ8902との差分は、ダイナミックレンジが小さく、大きい圧縮効果を得やすい。
 図89下段は、図89上段で説明した差分映像の合成手順の概略を示す。
 まず、2D互換ビデオストリーム8903を復号することにより、2D互換ビデオの復号ピクチャ8902を得る。そして、ベースビュービデオストリーム8905を復号することにより差分映像8904を得て、各ピクチャに-128を加算(8033)することにより符号付きに戻した情報をピクセル単位で合成する(8034)。
 このような構成とすることにより、差分映像を使って2D互換ビデオストリームを高画質化し、高画質化したピクチャを参照に用いることでディペンデントビュービデオストリームの映像も高画質化できることになる。
 以下、このデータ構成に係るデータ作成装置と再生装置について説明する。
 図87は、データ作成装置の構成を示す図である。
 データ作成装置8701は、基本構造としては、データ作成装置2601と同じ構成であるが、ベースビュービデオエンコーダ8705およびディペンデントビュービデオエンコーダ8709が異なっており、また、高画質2D互換ビデオフレームメモリ8711が追加されている。
 ベースビュービデオエンコーダ8705は、マルチビュービデオストリームのビデオコーデック(例えば、MPEG-4 MVC)において、ベースビュービデオストリームの圧縮符号化を行い、2D互換ビデオ符号化情報2606に従って、左目原画映像と2D互換ビデオストリームの復号ピクチャとの差分映像を圧縮符号化してベースビュービデオストリームを作成する。また、ベースビュービデオエンコーダ8705は、ベースビュービデオ符号化情報2607を出力し、2D互換ビデオストリームの復号ピクチャと差分映像との合成映像を高画質2D互換ビデオフレームメモリ8711に出力する。
 より具体的には、ベースビュービデオエンコーダ8705は、まず左目原画映像と2D互換ビデオストリームの復号ピクチャとの差分映像を生成する。差分映像の生成方法は、既に図89上段で示している。そして、その差分映像を、2D互換ビデオ符号化情報2606を参照してベースビュービデオストリームの符号化方法を決定し圧縮符号化する。映像の圧縮符号化方法は、ベースビュービデオエンコーダ2605で説明した方法と同じである。ベースビュービデオエンコーダ8705は、圧縮符号化されたビデオストリームをベースビュービデオストリームとして出力し、また、ベースビュービデオストリームを復号した差分映像と、2D互換ビデオストリームの復号ピクチャを合成した映像を合成した映像を、高画質2D互換ビデオフレームメモリに出力する。合成方法は、図89下段で説明した方法である。
 ディペンデントビュービデオエンコーダ8709は、マルチビュービデオストリームのビデオコーデック(例えば、MPEG-4 MVC)において、ディペンデントビュービデオストリームの圧縮符号化機能を備え、ベースビュービデオ符号化情報2607に従って、右目原画映像を圧縮し、ディペンデントビュービデオストリームを出力する。
この圧縮処理においては、ディペンデントビュービデオエンコーダ2609は、高画質2D互換ビデオフレームメモリ8711に格納される高画質化された2D互換ビデオフレームメモリ内の復号ピクチャを、ビュー間参照に使って圧縮符号化する。圧縮符号化方法は、ディペンデントビュービデオエンコーダ2609の説明内容と同じである。
 図88は、再生装置の構成を示す図である。
 再生装置8823は、基本構造としては、再生装置2823と同じ構成であるが、マルチビュービデオデコーダ2817がマルチビュービデオデコーダ8817に置き換わり、合成部8824が追加されている。
 ベースビュービデオエンコーダ8817は、ベースビュービデオストリームを復号するときに、復号したピクチャを合成部8824にも転送する。
 合成部8824は、ベースビュービデオストリームの復号ピクチャと、同一DTS/PTSの2D互換ビデオストリームの復号ピクチャと合成処理を行う。合成処理の方法は、図89で説明した通りである。
 合成して高画質化された2D互換ビデオストリームの復号ピクチャにより、ビュー間参照バッファ2816内の同一PTSを持つベースビュービデオストリームの復号ピクチャは置き換えられる。このように、ディペンデントビュービデオストリームの復号を行う際には、高画質化した2D互換ビデオストリームの復号ピクチャを参照して行われることで、ディペンデントビュービデオストリームの復号ピクチャも高画質化されることになる。
 (24)上述の変形例(23)は、さらに、以下のように、データ作成装置および再生装置の構成を簡略化してもよい。本変形例は、ディペンデントビュービデオストリームに関し、上述の変形例(23)のように差分映像と合成処理されて高画質化した2D互換ビデオストリームの復号ピクチャを参照するのではなく、合成処理前の2D互換ビデオストリームの復号ピクチャを参照する。この場合、変形例(23)のように、ディペンデントビューストリームの高画質化は図れないものの、処理は容易になる。
 図97は、本変形例に係るデータ作成装置の構成を示す図である。
 データ作成装置9701は、基本構造としては、データ作成装置2601と同じ構成であるが、ベースビュービデオエンコーダ9705およびディペンデントビュービデオエンコーダ9709が異なっている。
 ベースビュービデオエンコーダ9705は、マルチビュービデオストリームのビデオコーデック(例えば、MPEG-4 MVC)において、ベースビュービデオストリームの圧縮符号化機能を持ち、2D互換ビデオ符号化情報に従って、左目原画映像と2D互換ビデオストリームの復号ピクチャとの差分映像を圧縮符号化することによりベースビュービデオストリームを作成し、また、ベースビュービデオ符号化情報と、2D互換ビデオストリームの復号ピクチャとを出力する。
 より具体的には、ベースビュービデオエンコーダ9705は、まず左目原画映像と2D互換ビデオストリームの復号ピクチャとの差分映像を生成する。差分映像の生成方法は、図89上段に示した方法である。そして、2D互換ビデオ符号化情報2606を元にベースビュービデオストリームの符号化方法を決定して、その差分映像を圧縮符号化する。映像の圧縮符号化方法は、ベースビュービデオエンコーダ2605で説明した方法と同じである。ベースビュービデオエンコーダ8705は、圧縮符号化されたビデオストリームをベースビュービデオストリームとして出力する。
 ディペンデントビュービデオエンコーダ9709は、マルチビュービデオストリームのビデオコーデック(例えば、MPEG-4 MVC)において、ディペンデントビュービデオストリームの圧縮符号化機能を備え、ベースビュービデオ符号化情報2607に従って、右目原画映像を圧縮し、ディペンデントビュービデオストリームを出力する。この圧縮処理においては、ディペンデントビュービデオエンコーダ9709は、2D互換ビデオの復号ピクチャを、ビュー間参照に使って圧縮符号化を行う。圧縮符号化方法は、ディペンデントビュービデオエンコーダ2609の説明内容と同じである。
 図98は、本変形例に係る再生装置の構成を示す図である。
 再生装置9823は、基本構造としては、再生装置2823と同じ構成であるが、合成部9824が追加されている。
 合成部9824は、PTSタイミングで、第2プレーン2820に出力されるベースビュービデオストリームの復号ピクチャと、第1プレーン2808に出力される同一DTS/PTSの2D互換ビデオストリームの復号ピクチャとの合成処理を行い、この合成処理によって高画質化された2D互換ビデオを出力する。
 (25)実施の形態1では、ディペンデントビュービデオストリームに右目画像を格納することとしていたが、これに限らず、デプスマップ映像を格納することとしてもよい。この構成により、デプスマップを使って3D映像の再生ができる。
 図92は、本変形例に係るビデオストリームの構成を示す図である。
 ディペンデントビュービデオストリームに、デプスマップ映像を格納する。
 また、ベースビュービデオストリームにデプスマップ映像を圧縮符号化することとしてもよい。
 図93は、本変形例に係るベースビュービデオストリームにデプスマップ映像を圧縮符号化する場合のビデオストリームの構成を示す図である。
 これにより、デプスマップ映像を使って3D映像再生を実現する再生装置においては、デプスマップ映像のみをデコードするように構成し、一方で、左目映像と右目映像を使って3D映像再生を実現する再生装置においては、実施の形態1で記した映像再生を実現するように構成でき、両再生装置の3D映像再生を1つのデータストリームでサポートできる。
 (26)なお、実施の形態1の変形例として、図94に示すように、差分映像をディペンデントビュービデオストリームに格納しても良い。このように構成して、本実施の形態1で説明したように各ビデオストリームの復号を行い、復号した差分映像と2D互換ビデオストリームの復号ピクチャを合成処理することで、高画質な2D映像再生を実現することができる。
<1-5.補足説明>
 <映像圧縮技術の説明>
  <2D映像圧縮技術>
 本実施の形態に係るデータ作成装置及び再生装置で使用する2D映像を圧縮符号化する規格であるMPEG-2、及びMPEG-4 AVC(MPEG-4 MVC形式のベースとなる圧縮符号化方式)の符号化方法について簡単に説明する。
 これらの圧縮符号化においては、動画像の空間方向及び時間方向の冗長性を利用してデータ量の圧縮符号化を行う。
 冗長性を利用して圧縮符号化する方法として、ピクチャ間予測符号化が用いられる。ピクチャ間予測符号化では、あるピクチャを符号化する際に、表示時間順で前方または後方にあるピクチャを参照ピクチャとする。そして、その参照ピクチャからの動き量を検出し、動き補償を行ったピクチャと符号化対照のピクチャとの差分を圧縮符号化する。
 図1はビデオストリームのピクチャ間の参照関係を示している。図1では、ピクチャP3はピクチャI0を参照して圧縮符号化され、ピクチャB1とピクチャB2はそれぞれピクチャI0とピクチャP3を参照して圧縮符号化されている。このように時間的な冗長性を利用することで、圧縮率の高い圧縮符号化を実現できる。
  <3D映像圧縮技術>
 次に、視差画像を用いて3D映像としてディスプレイ等で再生する方法、マルチビュー符号化方式であるMPEG-4 MVC形式の圧縮符号化について簡単に説明する。
 視差画像を使った立体視の方式では、右目用画像(R画像)と、左目用画像(L画像)とを各々用意し、ユーザに対してそれぞれの目に対応した画像だけが、それぞれの目に映るように制御した表示を行うことで立体視を実現する。
 右目用画像で構成される動画像をレフトビュービデオといい、左目用画像で構成される動画像をライトビュービデオという。
 図13は、立体視画像の表示の一例を示す図である。対象物たる恐竜の骨格の左目用画像と、対象物たる恐竜の骨格の右目用画像を表示した例を示している。3D眼鏡を用いて、右目及び左目の透光、遮光から繰り返されれば、ユーザの脳内では、目の残像反応により左右のシーンの重合せがなされ、顔の中央の延長線上に立体映像が存在すると認識することができる。
 レフトビュービデオとライトビュービデオを圧縮符号化する3Dの映像方式には、フレーム互換方式とマルチビュー符号化方式がある。
 フレーム互換方式は、レフトビュービデオとライトビュービデオの同時刻のビューを示す画像に対応する各ピクチャをそれぞれ間引きまたは縮小した上で一つのピクチャに合成して、圧縮符号化を行う方式である。一例として、図14に示すような、Side-by-Side方式がある。Side-by-Side方式では、レフトビュービデオとライトビュービデオの同時刻のビューを示す画像に対応する各ピクチャをそれぞれ水平方向に1/2に圧縮した上で、左右に並べることで一つのピクチャに合成する。合成されたピクチャによる動画像を、2D映像の圧縮符号化方式(例えばMPEG-2)によって圧縮符号化することによってビデオストリームを生成する。一方、再生時は、ビデオストリームを、ビデオストリーム生成と同じ圧縮符号化方式に基づいて復号する。復号された各ピクチャは、左右画像に分割されて、分割した画像それぞれを水平方向に2倍に伸長して、レフトビュービデオとライトビュービデオとのそれぞれ対応するピクチャを得る。得たレフトビュービデオのピクチャ(L画像)とライトビュービデオのピクチャ(R画像)を交互に表示することによって、図13に示すような立体視画像を得ることができる。
 これに対してマルチビュー符号化方式は、レフトビュービデオとライトビュービデオのピクチャを1つのピクチャには合成せずに、それぞれ別々のピクチャのまま圧縮符号化する方式である。
 これに対してマルチビュー符号化方式は、レフトビュービデオとライトビュービデオのピクチャを1つのピクチャには合成せずに、それぞれ別々のピクチャのまま圧縮符号化する方式である。
 図2は、マルチビュー符号化方式であるMPEG-4 MVC形式による符号化方式を示す図である。
 MPEG-4 MVC形式のビデオストリームは、従来のMPEG-4 AVC形式のビデオストリームを再生する再生装置において再生可能なベースビュービデオストリームと、ベースビュービデオストリームと同時に処理することで別視点の映像の再生を実現するディペンデントビュービデオストリームを含む構成である。
 ベースビュービデオストリームは、図2のベースビュービデオストリームに示すように、別視点の映像を参照せず同一視点の映像との冗長性のみを利用してピクチャ間予測符号化を用いて圧縮符号化される。
 一方、ディペンデントビュービデオストリームは、同一視点の映像の参照を利用したピクチャ間予測符号化に加えて、別視点の映像との冗長性を利用したピクチャ間予測符号化によって圧縮符号化される。
 ディペンデントビュービデオストリームのピクチャは、ベースビュービデオストリーム内の同時刻のビューを示すピクチャを参照して圧縮符号化される。
 図2の矢印は参照関係を示しており、ディペンデントビュービデオストリームの先頭のPピクチャであるピクチャP0は、ベースビュービデオストリームのIピクチャであるピクチャI0を参照する。ディペンデントビュービデオストリームのBピクチャであるピクチャB1は、ベースビュービデオストリームのBrピクチャであるピクチャBr1を参照する。ディペンデントビュービデオストリームの二つ目のPピクチャであるピクチャP3は、ベースビュービデオストリームのPピクチャであるピクチャP3を参照することを示す。
 ベースビュービデオストリームは、ディペンデントビュービデオストリームのピクチャを参照していないため、このビデオストリームだけで復号し、再生することができる。
 一方、ディペンデントビュービデオストリームは、ベースビュービデオストリームを参照しながら復号するため、このビデオストリーム単独では再生することはできない。ただし、ディペンデントビューストリームは、同一時刻のビューを示す別視点のベースビューのピクチャを用いて、ピクチャ間予測符号化を行う。一般的に同一時刻の右目用画像と左目用画像とは類似性があり(相関性が大きい)、その差分を圧縮符号化するのでディペンデントビュービデオストリームはベースビュービデオストリームに比べてデータ量を大幅に削減できる。
 <ストリームデータの説明>
 デジタルテレビの放送波等での伝送では、MPEG-2トランスポートストリーム形式のデジタルストリームが使われている。
 MPEG-2トランスポートストリームとは、ビデオやオーディオなど様々なストリームを多重化して伝送するための規格である。ISO/IEC13818-1及びITU-T勧告H222.0において標準化されている。
 図6は、MPEG-2トランスポートストリーム形式のデジタルストリームの構成を示す図である。
 本図に示すようにトランスポートストリーム513は、ビデオのTS(Taransport Stream)パケット503、オーディオのTSパケット506、字幕ストリームのTSパケット509などを多重化して得られる。ビデオのTSパケット503は番組の主映像を、オーディオのTSパケット506は番組の主音声部分や副音声を、字幕ストリームのTSパケット509は番組の字幕情報を格納している。
 ビデオフレーム列501は、MPEG-2、MPEG-4 AVCなどの映像の符号化方式を使って圧縮符号化される。オーディオのフレーム列504は、ドルビーAC-3、MPEG-2 AAC、MPEG-4 AAC、HE-AACなどの音声の符号化方式で圧縮符号化される。
 トランスポートストリームに含まれる各ストリームはPIDと呼ばれるストリーム識別IDによって識別される。このPIDのパケットを抽出することで再生装置は、処理対象のストリームを抽出することができる。PIDとストリームの対応関係の情報は、以降で説明するPMTパケットのディスクリプタに格納される。
 トランスポートストリームを生成するために、まず、複数のビデオフレームからなるビデオストリーム501、複数のオーディオフレームからなるオーディオストリーム504を、それぞれPESパケット列502及び505に変換する。次にPESパケット列502及び505を、それぞれTSパケット503及び506に変換する。同様に字幕ストリーム507のデータをそれぞれPESパケット列508に変換し、更にTSパケット509に変換する。MPEG-2トランスポートストリーム513はこれらのTSパケットを1本のストリームに多重化することで構成される。PESパケット、TSパケットについては後述する。
 <ビデオストリームのデータ構成>
 次に、映像を上述の符号化方式で圧縮符号化して得られるビデオストリームのデータ構成について説明する。
 ビデオストリームは、図7に示すような階層構造のデータである。ビデオストリームは、複数のGOPから構成されており、これを圧縮符号化処理の基本単位とすることで動画像の編集やランダムアクセスが可能となる。
 GOPは1つ以上のビデオアクセスユニットにより構成されている。ビデオアクセスユニットは、ピクチャの圧縮符号化データを格納する単位であり、フレーム構造の場合は1フレーム、フィールド構造の場合の1フィールドのデータが格納される。各ビデオアクセスユニットは、AU識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャ、パディングデータ、シーケンス終端コード、及びストリーム終端コードを含む構成である。各データはMPEG-4 AVCの場合は、NALユニットと呼ばれる単位で格納される。
 AU識別コードはアクセスユニットの先頭を示す開始符号である。
 シーケンスヘッダは、複数ビデオアクセスユニットから構成される再生シーケンスでの共通の情報を格納したヘッダであり、解像度、フレームレート、アスペクト比、ビットレートなどの情報が格納される。
 ピクチャヘッダはピクチャ全体の符号化の方式などの情報を格納したヘッダである。
 補足データは圧縮ピクチャの復号には必須ではない付加情報であり、例えば、映像と同期してTVに表示するクローズドキャプションの文字情報やGOP構造情報などが格納される。
 圧縮ピクチャには、圧縮符号化されたピクチャのデータが格納される。
 パディングデータは、形式を整えるためのデータが格納される。例えば、決められたビットレートを保つためのスタッフィングデータとして用いる。
 シーケンス終端コードは、再生シーケンスの終端を示すデータである。
 ストリーム終端コードは、ビットストリームの終端を示すデータである。
 AU識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャ、パディングデータ、シーケンス終端コード、ストリーム終端コードのデータ構成は、ビデオの符号化方式によって異なる。
 MPEG-4 AVCの場合、AU識別コードは、AUデリミタ(Access Unit Delimiter)、シーケンスヘッダはSPS(Sequence Paramter Set)に、ピクチャヘッダはPPS(Picture Parameter Set)に、圧縮ピクチャは複数個のスライス、補足データはSEI(Supplemental Enhancement Information)、パディングデータはFillerData、シーケンス終端コードはEnd of Sequence、ストリーム終端コードはEnd of Streamに対応する。
 そして、MPEG-2形式の場合であれば、シーケンスヘッダはsequence_Header、sequence_extension、group_of_picture_headerに、ピクチャヘッダはpicture_header、picture_coding_extension、圧縮ピクチャは複数個のスライス、補足データはuser_data、シーケンス終端コードはsequence_end_codeに対応する。AU識別コードは存在しないが、それぞれのヘッダのスタートコードを使えば、アクセスユニットの切れ目を判断できる。
 各属性情報のデータは常に必要ではなく、例えば、シーケンスヘッダはGOP先頭のビデオアクセスユニットでのみ必要で、それ以外のビデオアクセスユニットには付加せずに符号化することができる。また、ピクチャヘッダは符号順で前のビデオアクセスユニットのものを参照するようにして、自身のビデオアクセスユニット内にはピクチャヘッダを省略することもできる。
 また、図16に示すようにGOP先頭のビデオアクセスユニットには、圧縮ピクチャとしてIピクチャのデータが格納され、AU識別コード、シーケンスヘッダ、ピクチャヘッダ、圧縮ピクチャが必ず格納される。補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードは必要に応じて適宜格納される。一方、GOP先頭以外のビデオアクセスユニットには、AU識別コード、圧縮ピクチャが必ず格納され、補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードを必要に応じて適宜格納される。
 図10は、PESパケット列に、ビデオストリームがどのように格納されるかを示す図である。
 図10の第1段目はビデオストリームのビデオフレーム列を示す。第2段目は、PESパケット列を示す。
 図10中のyy1,yy2, yy3, yy4に示すように、ビデオストリームにおける複数のVideo Presentation UnitであるIピクチャ、Bピクチャ、Pピクチャは、ピクチャ毎に分割され、PESパケットのペイロードに格納される。
 各PESパケットはPESヘッダを持ち、PESヘッダには、ピクチャの表示時刻であるPTSやピクチャのデコード時刻であるDTSが格納される。
 図11は、トランスポートストリームを構成するTSパケットのデータ構造を示す図である。
 TSパケットは、4ByteのTSヘッダと、アダプテーションフィールドとTSペイロードから構成される188Byte固定長のパケットである。TSヘッダは、transport_priority、PID、adaptaion_field_controlを含む構成である。PIDは前述したとおりトランスポートストリームに多重化されているストリームを識別するためのIDである。
 transport_priorityは、同一PIDのTSパケットの中のパケットの種別を識別するための情報である。
 adaptation_field_controlは、アダプテーションフィールドとTSペイロードの構成を制御するための情報である。アダプテーションフィールドとTSペイロードはどちらかだけが存在する場合と両方が存在する場合があり、adaptation_field_controlはその有無を示す情報である。
 adaptation_field_controlの値が「1」の場合は、TSペイロードのみが存在し、adaptation_field_controlの値が「2」の場合は、アダプテーションフィールドのみが存在し、adaptation_field_controlの値が「3」の場合は、TSペイロードとアダプテーションフィールドの両方が存在することを示す。
 アダプテーションフィールドは、PCR(Program Clock Reference)などの情報の格納や、TSパケットを188バイト固定長にするためのスタッフィングするデータの格納領域である。TSペイロードにはPESパケットが分割されて格納される。
 トランスポートストリームに含まれるTSパケットの種別には、映像・音声・字幕などの各ストリームのパケット以外にもPAT(Program Association Table)、PMT、PCRなどのパケットがある。これらのパケットはPSI(Program Specific Information)と呼ばれる。
 PATはトランスポートストリーム中に利用されるPMTのPIDが何であるかを示し、PAT自身のPIDは「0」である。
 図12はPMTのデータ構造を示す図である。
 PMTは、PMTヘッダ、トランスポートストリームに関する各種ディスクリプタ、及びトランスポートストリーム中に含まれる映像・音声・字幕などの各ストリームに関するストリーム情報とを備える。
 PMTヘッダには、PMTに含まれるデータの長さなどの情報が記録される。
 トランスポートストリームに関するディスクリプタには、例えば、映像・音声などの各ストリームのコピーを許可・不許可を指示するコピーコントロール情報などが記録される。
 各ストリームに関するストリーム情報は、ストリームの圧縮符号化方式などを識別するためストリームタイプ、ストリームのPID、ストリームの属性情報(例えば、フレームレート、アスペクト比)が記載されたストリームディスクリプタを含む構成である。
 PCRは、TSパケットのデコーダへの到着時刻とPTS、DTSの時間軸であるSTC(System Time Clock)との同期を取るために、そのPCRパケットがデコーダに転送される時刻に対応するSTC時間の情報を持つ。
 ところで、MPEG-2形式、MPEG-4 MVC形式の符号化方式では、圧縮符号化されたフレームの領域のうち、実際に表示する領域を変更することができる。
 このため、MPEG-2形式のビデオストリームのピクチャをビュー間参照によって参照しながらMPEG-4 MVC形式のディペンデントビュービデオストリームのピクチャを復号する際には、同時刻のビューにおいてクロッピング範囲やスケーリングが同じ範囲やスケーリングを示す値になるように、属性情報を調整する必要がある。
 クロッピング領域情報とスケーリング情報について図8を参照しながら説明する。
 図8のように、圧縮符号化されたフレーム領域の中から実際に表示する領域を、クロッピング領域として指定することができる。例えば、MPEG-4 AVCの場合には、SPSに格納されるframe_cropping情報を使って指定する。frame_cropping情報は、図9の左方の図ように、クロッピンング領域の上線、下線、左線、右線と、圧縮符号化されたフレーム領域の上線、下線、左線、右線とのそれぞれの差分を、上下左右のクロップ量として指定する。具体的には、クロッピング領域を指定する場合には、frame_cropping_flagに「1」を設定し、frame_crop_top_offset、frame_crop_bottom_offset、frame_crop_left_offset、frame_crop_right_offsetにそれぞれ上、下、左、右のクロップ量を指定する。
 MPEG-2形式の場合には、図9の右図のように、クロッピング領域の縦横のサイズ(sequence_display_extensionのdisplay_horizontal_size, display_vertical_size)と、圧縮符号化されたフレーム領域の中心とクロッピング領域の中心との差分情報(picture_display_extensionのframe_centre_horizontal_offset、frame_centre_vertical_offset)を使ってクロッピング領域を指定する。 また、クロッピング領域を実際にテレビなどに表示する際のスケーリング方法を示すスケーリング情報としてアスペクト比が設定される。再生装置は、アスペクト比の情報を使って、クロッピング領域をアップコンバートして表示を行う。MPEG-4 AVCの場合には、このスケーリング情報として、SPSにアスペクト比の情報(aspect_ratio_idc)が格納される。例えば、1440x1080のクロッピング領域を、1920x1080に拡大して表示するためには、アスペクト比を4:3と指定する。この場合水平方向に4/3倍にアップコンバート(1440x4/3=1920)され、1920x1080のサイズに拡大されて表示される。
 MPEG-2形式の場合にも同様にsequence_headerというアスペクト比の情報(aspect_ratio_information)を格納する属性情報があり、この属性情報の値を適宜設定することによって上記と同様の処理が実現できる。
 <MPEG-4 MVC形式のビデオストリームのデータ構成>
 次に、MPEG-4 MVC形式のビデオストリームについて説明する。
 図15は、MPEG-4 MVC形式のビデオストリームの内部構成の一例を示す図である。
 同図において、ライトビュービデオストリームのピクチャは、レフトビュービデオストリームの同じ表示時刻のピクチャを参照して圧縮符号化されている。ライトビュービデオストリームのピクチャP1、P2は、それぞれレフトビュービデオストリームのピクチャI1、P2を参照し、ライトビュービデオストリームのピクチャB3、B4、B6、B7はそれぞれ、レフトビュービデオストリームのピクチャBr3、Br4、Br6、Br7を参照しながら圧縮符号化されている。
 同図の第2段目は、レフトビュービデオストリームの内部構成を示す。このレフトビュービデオストリームには、ピクチャI1、P2、Br3、Br4、P5、Br6、Br7、P9が含まれている。これらのピクチャは、DTSに設定された時刻順に復号されたピクチャである。
 第1段目は、ディスプレイ等に表示される左目用画像を示す。左目用画像は、第2段目の復号されたピクチャI1、P2、Br3、Br4、P5、Br6、Br7、P9をPTSに設定された時刻順、すなわち、I1、Br3、Br4、P2、Br6、Br7、P5の順に表示される。
 第4段目は、ライトビュービデオストリームの内部構成を示す。このライトビュービデオストリームには、ピクチャP1、P2、B3、B4、P5、B6、B7、P8が含まれている。これらのピクチャは、DTSに設定された時刻順に復号されたピクチャである。
 第3段目は、ディスプレイ等に表示される右目用画像を示す。右目用画像は、第4段目の復号されたピクチャP1、P2、B3、B4、P5、B6、B7、P8をPTSに設定された時刻順、すなわち、P1、B3、B4、P2、B6、B7、P5の順に表示される。ただし、PTSに同じ値が付された左目用画像と右目用画像のうちどちらか一方の表示を、次のPTSの時間までの間隔の半分の時間分だけ遅延させて行う。
 第5段目は、3D眼鏡200の状態をどのように変化させるかを示す。この第5段目に示すように、左目用画像の視聴時は、右目のシャッターを閉じ、右目用画像の視聴時は、左目のシャッターを閉じる。
 次に、ベースビュービデオストリームとディペンデントビュービデオストリームのアクセスユニットの関係について説明する。
 図17はベースビュービデオストリームの各ピクチャとディペンデントビュービデオストリームの各ピクチャのビデオアクセスユニットの構成を示している。前述したとおり、図17上段のように、ベースビュービデオストリームは、各ピクチャが1つのビデオアクセスユニットとして構成される。
 図17下段のように、ディペンデントビュービデオストリームも同様に、各ピクチャが1つのビデオアクセスユニットを構成するが、ベースビュービデオストリームのビデオアクセスユニットとはデータ構造が異なる。
 ベースビュービデオストリームのビデオアクセスユニットと、PTSの値が同じディペンデントビュービデオストリームのビデオアクセスユニットとによって、3Dビデオアクセスユニット1701を構成する。再生装置は、この3Dビデオアクセスユニット単位で復号を行う。
 図18はビデオストリーム中におけるベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるPTSとDTSとの関係の例を示している。
 同時刻のビューを示す視差画像を格納するベースビュービデオストリームのピクチャとディペンデントビュービデオストリームのピクチャとは、DTS及びPTSが同じ値を持つように設定される。
 このように構成することで、ベースビュービデオストリームのピクチャとディペンデントビュービデオストリームのピクチャを復号する再生装置は、3Dビデオアクセスユニット単位で復号して表示を行うことができる。
 図19はベースビュービデオストリームとディペンデントビュービデオストリームのGOP構成を示している。
 ベースビュービデオストリームのGOP構造は、従来のビデオストリームの構成と同じであり、複数のビデオアクセスユニットで構成される。
 また、ディペンデントビュービデオストリームは、複数のディペンデントGOPから構成される。
 ディペンデントGOPの先頭ピクチャは、3D映像を再生する際に、ベースビュービデオストリームのGOP先頭のIピクチャとペアで表示されるピクチャであり、ベースビュービデオストリームのGOP先頭のIピクチャのPTSと同じ値のPTSが付与されたピクチャである。
 図20は、ディペンデントGOPに含まれるビデオアクセスユニットのデータ構成を示す。
 図20に示すようにディペンデントGOP先頭のビデオアクセスユニットは、圧縮ピクチャとして、ベースビュービデオストリームのGOP先頭のIピクチャと同時刻に表示されるピクチャのデータが格納され、サブAU識別コード、サブシーケンスヘッダ、ピクチャヘッダ、圧縮ピクチャが必ず格納される。補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードは適宜格納される。
 サブAU識別コードは、アクセスユニットの先頭を示す開始符号である。
 サブシーケンスヘッダは、複数ビデオアクセスユニットから構成される再生シーケンスでの共通の情報を格納したヘッダであり、解像度、フレームレート、アスペクト比、ビットレートなどの情報が格納される。サブシーケンスヘッダのフレームレート、解像度、アスペクト比の値は、対応するベースビュービデオストリームのGOP先頭のビデオアクセスユニットに含まれるシーケンスヘッダのフレームレート、解像度、アスペクト比と同じである。
 GOP先頭以外のビデオアクセスユニットは、サブAU識別コード、圧縮ピクチャが必ず格納される。補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードは適宜格納される。
<2.実施の形態2>
<2-1.概要>
 実施の形態1では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、3D映像のマルチビュービデオストリームを低ビットレートで構成した。本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、従来の2D映像を高品位化の一例として高画質化した映像を、低ビットレートに構成したマルチビュービデオストリームで送信する。ここで「高画質」とは、より原画映像に近い画質、一例としては、ビデオ圧縮時に発生し得るブロックノイズなどの圧縮ひずみが少ない画質をいう。本実施の形態では、高画質化した映像の一例として、高いビットレートで符号化された映像を用いる。映像に係る画質は、符号化のビットレートに左右され、ビットレートが高いほど原画に近い高画質な映像を符号化でき、ビットレートが低くなると、動きの激しいシーンなどで圧縮、符号化しきれずにブロックノイズが混入する場合があるためである。
 本実施の形態に係るデータ構造、データ作成装置、データ作成方法、再生装置、再生方法の基本構造については、実施の形態1と同じであるので、実施の形態1との差分を中心に説明する。本実施の形態で用いる用語は、特段の説明をした場合を除き、実施の形態1の用語と同じとする。以下、本実施の形態の詳細について、具体的に説明する。
<2-2.使用データ>
 まず、本実施の形態に係る、高画質映像を符号化するためのデータ構造について説明する。
<2-2-1.トランスポートストリーム>
 図48は、本実施の形態に係るトランスポートストリームに含まれるデータについて説明するための図である。
 本実施の形態におけるトランスポートストリームは、2D互換ビデオストリーム、マルチビュービデオストリームのベースビュービデオストリームとディペンデントビュービデオストリームが、それぞれPESパケット化され、TSパケットに分割され、多重化されてなる。
 2D互換ビデオストリームは、図7等を用いて説明したような、2D映像の再生装置が、2D映像として再生できるフォーマットで構成されたビデオストリームである。本実施の形態では、2D互換ビデオストリームは、MPEG-2ビデオのコーデックで符号化されたビデオストリームである。マルチビュービデオストリームは、前述したとおりビュー間参照を実現するコーデックで符号化されたビデオストリームであり、ここではMPEG-4 MVCビデオのコーデックで高画質の原画映像が圧縮符号化されたものである。
 ここで、図48の右側には、各ビデオストリームがどのビデオソースを圧縮符号化されたものかを示している。
 2D互換ビデオストリームは、通常画質の原画映像が圧縮符号化されることにより生成される。
 ベースビュービデオストリームには、黒映像が、MPEG-4 MVCビデオのコーデックに従って低ビットレートで圧縮符号化されることにより生成される。ディペンデントビュービデオストリームには、高画質の原画映像が圧縮符号化されることにより生成される。ここで、ディペンデントビュービデオストリームは、ビュー間参照を使って圧縮される。ビュー間参照として参照されるピクチャは、ベースビュービデオストリームの同一表示時刻(PTSが同じ)のピクチャではなく、2D互換ビデオストリームの同一表示時刻(PTSが同じ)の復号ピクチャである。すなわち、ディペンデントビュービデオストリームは、原画映像がMPEG-2ビデオコーデックよりも高画質に圧縮符号化された映像と、MPEG-2ビデオコーデックに従って圧縮符号化された映像との差分映像を圧縮符号化することにより生成される。デコード側では、ベースビュービデオストリームのデコード済みピクチャ(黒画像)を、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャ(MPEG-2ビデオの復元画像)で置き換えて、置き換え後のピクチャ(MPEG-2ビデオの復号画像)を参照して、ディペンデントビュービデオストリームの同一表示時刻のピクチャ(高画質画像)が復号されることになる。
 上記の構成によれば、ベースビュービデオストリームは、黒画像を圧縮符号化したものとなり、ディペンデントビュービデオストリームは、「2D互換ビデオストリームの復号ピクチャ」と「高画質映像のピクチャ」との差分のみが圧縮されたものとなるので、従来の2D映像を高画質化した映像を、低ビットレートに構成することができる。
 ここで、ディペンデントビュービデオストリームのピクチャが、2D互換ビデオストリームのピクチャを参照するよう構成するために、ビデオストリームについての「解像度」「アスペクト比」「フレームレート」「プログレッシブかインターレースか」などの属性値は、2D互換ビデオストリームとマルチビュービデオストリームとの間で同じになるよう構成する。この属性値については、既に図22を用いて説明済みである。
<2-2-2.PMTパケット>
 図50は、トランスポートストリームに含まれるPMTパケットについて説明するための図である。高画質映像を伝送するためのトランスポートストリームにおいては、PMTパケットなどのシステムパケット中に、高画質映像のデコード処理を行う上でのシグナリング情報が含まれる。シグナリング情報には、各ビデオストリーム相互の関係や高画質映像再生の開始、終了などのシグナリングを行うための高画質情報ディスクリプタと、ビデオストリーム毎に設定される高画質ストリームディスクリプタとが含まれる。
(1)高画質化情報ディスクリプタ
 図51は、高画質化情報ディスクリプタの構造を示す図である。
 高画質化情報ディスクリプタは、高画質再生方式、2D互換ビデオPID、ベースビュービデオPID、及びディペンデントビュービデオPIDを含んで構成される。
 高画質再生方式は、高画質再生装置の再生方式をシグナリングするための情報である。高画質再生方式が0の場合は、2D互換ビデオによる2D映像再生を示し、1の場合は、2D互換ビデオとディペンデントビュービデオによる高画質映像再生(つまり、本実施の形態で説明する高画質映像格納方式であること)を示し、2の場合は、ベースビュービデオストリームとディペンデントビュービデオによる高画質映像再生であることを示し、3の場合は、ベースビュービデオによる高画質映像再生であることを示す。
 以下、再生方式のシグナリングの具体例について、図52を用いて説明する。
 受信した高画質再生方式の値が0の場合、再生装置は、2D互換ビデオストリームのみを2D映像再生する。値が1の場合は、2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームを本実施の形態で説明する再生方式で高画質映像再生を行う。値が2の場合は、2D互換ビデオストリームと、高画質映像を構成するマルチビュービデオストリームとは、異なる映像を圧縮符号化して生成するため参照関係にない。また、ベースビュービデオストリームとディペンデントビュービデオストリームは通常のマルチビューコーデックで圧縮されたビデオストリームである。よって、再生装置は、そのマルチビュービデオストリームを高画質映像再生する。値が3の場合は、再生装置は、ベースビュービデオストリームを高画質映像再生する。
 2D互換ビデオPID、ベースビュービデオPID、ディペンデントビュービデオPIDは、トランスポートビデオストリーム内に格納される各ビデオストリームのPIDを示す。再生装置は、これらの情報を使って、どのPIDのストリームをデコードをするべきかを決定できる。
(2)高画質化ストリームディスクリプタ
 図53は、高画質化ストリームディスクリプタの構造を示す図である。
 高画質化ストリームディスクリプタは、ベースビュービデオタイプ、参照先タイプ、被参照タイプを含んで構成される。
 ベースビュービデオタイプは、ベースビュービデオストリームに何の映像が符号化されているかを示す。値が0の場合は、高画質映像のベースとなる映像が圧縮符号化されていることを示し、値が1の場合は、黒映像などの付属映像が含まれ2D互換ビデオストリームによって置き換えられプレーンへの出力には利用されないダミー映像が圧縮符号化されていることを示す。
 参照先タイプは、ディペンデントビュービデオストリームがビュー間参照の参照先としているビデオストリームのタイプを示す。値が0の場合は、ベースビュービデオストリームのピクチャをビュー間参照としていることを示し、値が1の場合は、2D互換ビデオストリームのピクチャをビュー間参照していることを示す。
 被参照タイプは、該当ビデオストリームがビュー間参照されるか否かを示す。参照されないのであれば、ビュー間参照の処理をスキップすることができるため、その分実装を簡易にできる。
 なお、高画質化情報ディスクリプタと高画質化ストリームディスクリプタの情報の全て又は一部は、PMTパケットではなく、各ビデオストリームの補足データ等に記録してもよい。
<2-2-3.PTS、DTS及びGOP>
 トランスポートストリーム中における2D互換ビデオストリームとベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てる表示時刻(PTS)、デコード時刻(DTS)およびピクチャタイプの関係は、実施の形態1の2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームにおける関係と同じである。
 また、2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームのGOP構成も、実施の形態1の2D互換ビデオストリーム、ベースビュービデオストリームとディペンデントビュービデオストリームにおけるGOP構成と同じである。
 なお、図23~図25を参照して行った説明及びそれに関する補足説明は、本実施の形態にも適用される。
<2-2-4.ストリームの使用形態>
 上述のストリームの使用形態について、図49を用いて説明する。
 図49において、通常再生装置は、従来の2D互換ビデオストリームのみ再生ができる装置である。通常再生装置は、ビットレートが10Mbpsまでのストリームを再生可能とする。通常再生装置は、すでに市場に広まっており、放送波等で配信されるストリームを再生することを想定している。一方、高画質再生装置は、本実施の形態に係る再生装置であり、2D互換ビデオストリームだけでなく、マルチビュービデオストリームの復号機能を備える。これら2種の再生装置が混在する場合において、図48で説明した構成のトランスポートストリームが放送されるものとする。
 通常再生装置は、トランスポートストリーム中の2D互換ビデオストリームを復号して通常の2D映像の再生を行う。一方、高画質再生装置は、トランスポートストリーム中の2D互換ビデオストリームとマルチビュービデオストリームの両方を復号する。高画質再生装置は、このマルチビュービデオストリームにおけるディペンデントビュービデオストリームの復号過程において、ベースビュービデオストリームの復号ピクチャを、同一表示時刻の2D互換ビデオストリームの復号ピクチャで置き換える。そして、置き換え後のピクチャである同一表示時刻の2D互換ビデオストリームの復号ピクチャを参照して、ディペンデントビュービデオストリームのピクチャを復号する。ディペンデントビュービデオストリームを復号したピクチャは、2D互換ビデオストリームのピクチャに、高画質映像のピクチャと2D互換ビデオストリームのピクチャとの差分が加えられたもの、すなわち、高画質映像のピクチャとなる。よって、ディペンデントビュービデオストリームを出力すれば、2D互換ビデオストリームのデコード結果に比べて、高画質な映像を再生することが可能となる。
 ベースビュービデオストリームは、ディペンデントビュービデオストリームの復号の際に、PTSなどストリームに含まれる情報については参照されるが、ピクチャ自体は参照されないので、黒画像で構成する映像など圧縮率の高い映像を圧縮符号化しておくことで、ビットレートは大幅に低減することができる。
 以上のように、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することで、市場に広まっている通常再生装置との再生互換性を崩すことなく、映像の高画質化を実現するための拡張ビデオストリームを低ビットレート(図49の例では5Mbps)で構成し、放送し、また再生装置側で復号し、再生することができる。
<2-3.データ作成装置>
 以下、本実施の形態に係るデータ作成装置について説明する。
<2-3-1.構成>
 図54は、本実施の形態に係る映像符号化装置としてのデータ作成装置5401の構成を示す図である。
 データ作成装置5401は、図26で示した実施の形態1のデータ作成装置2601と基本的に同じ構成を持つ。但し、入力されるデータが異なるため、図54では、図26の「左目原画」が2Dの「原画映像」に置き換わり、「右目原画」が、同じ2Dの「原画映像」に置き換わっている。以降の説明は、実施の形態1のデータ作成装置2601との差分を中心に行う。
 データ作成装置5401は、データ作成装置2601とは、拡張マルチビュービデオエンコーダ5404におけるディペンデントビュービデオエンコーダ5409の構成が異なる。
 ディペンデントビュービデオエンコーダ5409は、3D映像を構成する片方の映像(左目もしくは右目原画映像)ではなく、高品位な原画映像を入力としてエンコードを行う。圧縮符号化処理において、ディペンデントビュービデオエンコーダ5409は、2D互換ビデオフレームメモリ2608内の復号ピクチャ(2D互換ビデオストリームが復号されたピクチャ)をビュー間参照に使って圧縮処理を行っている。
<2-3-2.動作>
 図55は、上述のように構成したデータ作成装置5401によるデータ作成処理を示すフローチャートである。
 図55に示すデータ作成フローは、実施の形態1で図27を用いて説明したデータ作成装置2601のデータ作成フローとおおよそ同じである。ただし、データ作成装置5401が2D映像の高画質化を行うものであることから、図55では、図27のS2703とS2706とが、それぞれS5503とS5506とに置き換えられている。具体的には、図27の説明における、「左目原画」が2Dの「原画映像」に置き換えられ、「右目原画」が同じ2Dの「原画映像」に置き換えられた点が異なる。
<2-4.再生装置>
 次に、本実施の形態に係る高画質映像を再生する、映像再生装置としての再生装置について説明する。
<2-4-1.構成>
 図56は、本実施の形態に係る再生装置5623の構成を示す図である。
 再生装置5623は、図28で示した実施の形態1の3D映像の再生装置2823と基本的に同じ構成を備える。但し、実施の形態1の再生装置2823における左目映像と右目映像から構成される3D映像を出力する必要はないため、再生装置5623では、2D互換ビデオデコーダ2821からはプレーンに対しデータを出力せずに破棄し、出力プレーンとしては第1プレーン2808ひとつを備えている。その他の構成は、再生装置2823と同じである。
<2-4-2.動作>
 図57は、上述のように構成した再生装置5623による復号処理と出力処理を示すフローチャートである。
 図57に示すフローチャートは、実施の形態1の図30を用いて説明した3D映像再生装置2823による3D映像の復号、出力処理フローとおおよそ同じである。但し、図30とは、出力処理であるS3005の部分が異なり、図57では、以下のS5705に置き換わっている。S5705では、本実施の形態は2D映像の高画質化を目的としており、2D互換ビデオストリームのプレーンへの出力は不要であるため、ディペンデントビュービデオストリームの復号ピクチャのみをPTSのタイミングで第1プレーン2808に出力する。
<2-5.効果についての補足説明>
 以下、本実施の形態における効果について図47を用いて補足説明する。
 まず、図47上段について説明する。図中の通常再生装置は、2D互換ビデオストリームのみ再生できる再生装置である。通常再生装置が再生可能なビットレートは10Mbpsまでとする。通常再生装置は、既に市場に広まっており、放送波等で配信されるストリームを再生する。一方、高画質再生装置は、2D互換ビデオストリームよりも高画質な映像が符号化された高画質ビデオストリームを再生できる再生装置である。ここで、図47上段に示す例では、2D互換ビデオストリームが10Mbpsであり、同じコーデックで同じ映像を圧縮した高画質ビデオストリームのビットレートは15Mbpsである。通常再生装置による2D互換ビデオストリームの復号、出力を可能とさせることで互換性を保ちながら、高画質再生装置による高画質ビデオストリームのデコード、出力を可能にするためには、2D互換ビデオストリームと高画質ビデオストリームの両方を多重化して放送する必要があり、両ビデオストリームのビットレートを足し合わせた従来に比べ高い転送帯域が必要となる。図47上段の場合であれば、2D互換ビデオストリームに係る10Mbpsと、高画質ビデオストリームに係る15Mbpsの合計で25Mbpsのビデオストリームを同時に転送する必要が生じる。
 図47下段は、図47上段について示した問題を解消し、必要とする転送帯域を減らすため、マルチビュー符号化方式を使う例を示している。図中の2D互換ビデオストリームは、ベースビュービデオストリームとして符号化されている。また、拡張ビデオストリームは、ディペンデントビュービデオストリームであり、ベースビュービデオストリームの各ピクチャを参照画像として圧縮符号化されている。拡張ビデオストリームは、原画映像と2D互換ビデオストリームの復号結果との差分を圧縮している。これにより、マルチビュービデオストリームは、図47上段のように2D互換ビデオストリームと高画質ビデオストリームとを合わせた場合に比べ、高画質映像を低ビットレートで実現できる。具体的には、図47下段では、2D互換ビデオストリームが10Mbpsである場合に、拡張ビデオストリームは2D互換ビデオストリームを参照画像として圧縮されて5Mbpsとなっている。
 高画質再生装置は、マルチビュービデオストリームを構成する2D互換ビデオストリームを復号し、これを参照しながら拡張ビデオストリームを復号することで、高画質映像を復号、再生できる。
 しかしながら、図47下段のように構成する場合、2D互換ビデオストリームと拡張ビデオストリームとは同一のビデオコーデックで構成しなければならないという制約がある。このため、両ビデオストリームは、例えばMPEG-4 MVCなどのマルチビュービデオ符号化方式で圧縮しなければならなくなる。
 そうすると、市場に広まっている通常再生装置がマルチビュービデオ符号化方式に対応していないことから互換性が損なわれることになるので、結局、図47下段の構成は採用が難しいものとなる。
 一方で、既に説明したように、本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することにより、市場に広まっている通常再生装置における再生互換性を崩すことなく、高画質再生装置により高画質映像の再生を実現している。また、拡張ビデオストリームを低ビットレート化し、ストリームの転送に必要となる帯域を減らしている。
<2-6.本実施の形態に係る変形例>
(1)実施の形態1及び変形例の説明内容は、本実施の形態の構成等に反しない限り、本実施の形態にも適用されることはいうまでもない。
(2)本実施の形態では、図52に示す高画質化情報ディスクリプタ中の高画質再生方式フィールドの記載により、複数の高画質再生方式から1の高画質再生方式を選出する構成について説明した。複数の高画質再生方式を切り替える方法は、既に図40を用いて説明した構成を適用することで実装を容易にできる。
 図51で説明した高画質化情報ディスクリプタ中の高画質再生方式に従って、「コーデック間参照スイッチ」と「プレーンセレクタ」の設定を変えることで、再生装置は容易に再生モードの変更ができる。
 図58下段に、図52の高画質再生方式の例に対するコーデック間参照スイッチとプレーンセレクタの設定を示す。高画質再生方式が「0」の場合には、高画質再生装置において、コーデック間参照スイッチがOFFにし、プレーンセレクタが2D映像として第1プレーンを選択する。高画質再生方式が「1」の場合には、コーデック間参照スイッチがONし、プレーンセレクタが2D映像として第3プレーンを選択する。高画質再生方式が「2」の場合には、コーデック間参照スイッチがOFFし、プレーンセレクタが2D映像として第3プレーンを選択する。高画質再生方式が「3」の場合には、コーデック間参照スイッチがOFFし、プレーンセレクタが2D映像として第2プレーンを選択する。このようにコーデック間参照スイッチとプレーンセレクタのみを切り替えることで、再生装置において高画質再生方式を容易に変更することができる。
<3.実施の形態3>
<3-1.概要>
 実施の形態1では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、3D映像のマルチビュービデオストリームを低ビットレートで構成した。本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、従来の2D映像について高品位化の一例として色再現性の向上(高階調度化)した映像を、低ビットレートに構成したマルチビュービデオストリームで送信する。ここで、色再現性の向上とは、従来のビデオコーデックによって圧縮される色情報に対し、より高精度の階調情報を付加することである。通常のビデオコーデックでは、色情報を8ビットカラーで表現している。RGBカラーの場合、RGBのそれぞれに8ビット(0~255階調)ずつ割り当てた合計24ビットで約1677万色の表示を可能としている。しかし、8ビットの色階調では表現できない色が存在するため、この色階調で表現された映像について、ユーザにより画質が悪いと判断されてしまう場合があるため、本実施の形態では、高階調度化した映像の一例として、12ビットの色階調で表現した映像を用いる。
 例えば、図59に示すように、CG(computer graphics)やアニメなどで用いられるグラディエーションのかかった映像の場合、低い色階調で表現すると、図59上段に示すように、グラディエーション部分で色変化が階段状になってしまう。これを8ビットの色表現ではなく、例えば、12ビットなど階調を高くすれば、図59下段のように、なめらかなグラディエーション表現ができる。以下、上述のように色の階調の精度が高い映像を高階調映像といい、映像の持つ色の情報量を増やして色階調の精度を高めることを高階調度化という。
 本実施の形態におけるデータ構造、データ作成装置、データ作成方法、再生装置、再生方法についての基本構造は、実施の形態1と同じであるので、実施の形態1との差分を中心に説明する。本実施の形態において用いる用語は、特段の説明をした場合を除き、実施の形態1の用語と同じとする。
 以下、高階調度化に係る符号化手順、及び復号手順の概略について説明する。
 図61は、高階調度化に係る符号化手順、及び復号手順の概略を示す図である。
 図61上段は、符号化に係る2D互換ビデオストリーム及び拡張ビデオストリームの生成手順の概略を示す。高階調映像は、一例として12ビットの色階調の原画映像であるとする。まず、12ビットの原画映像の上位8ビットを取り出し、2D互換ビデオストリームに圧縮符号化する。そして2D互換ビデオストリームを復号し、4ビット上位にシフト(6101)させた映像と、12ビットの原画映像との差分値をとる(6102)。差分値は、符号つき7ビットの範囲(-127~+128)の情報となり、これに128加算することで正の数での表現にし(6103)、拡張ビデオストリームに圧縮符号化する。
 図61下段は、上述の2D互換ビデオストリームおよび拡張ビデオストリームの復号手順の概略を示す。
 まず、2D互換ビデオストリームを復号し、各ピクセルの色値を4ビット上位にシフト(6104)する。次に、拡張ビデオストリームを復号し、各ピクセルの色値から128減算して符号付きの情報に変換する(6104)。そして、これらの映像を加算して(6106)、高階調映像を出力する。これにより、従来の8ビットエンコーダ・デコーダを使って、映像の符号化・復号化が可能となる。また、拡張ビデオストリームは、12ビット映像と8ビット映像(正しくは8ビット映像で圧縮符号化された2D互換ビデオストリームを復号化した映像)との差分映像であって、変化の少ない映像となるので、高効率に圧縮符号化できる。また、マルチビュービデオ符号化を用いるので、2D互換ビデオストリームのピクチャの参照も利用できる。以下、本実施の形態の詳細について、具体的に説明する。
<3-2.データフォーマット>
 まず、本実施の形態に係る、高階調映像を符号化するためのデータ構造について説明する。
<3-2-1.トランスポートストリーム>
 図62は、本実施の形態に係るトランスポートストリームに含まれるデータについて説明するための図である。
 本実施の形態におけるトランスポートストリームは、2D互換ビデオストリーム、マルチビュービデオストリームのベースビュービデオストリームとディペンデントビュービデオストリームが、それぞれPESパケット化され、TSパケットに分割され、多重化されてなる。
 2D互換ビデオストリームは、図7等を用いて説明したような、2D映像の再生装置が、2D映像として再生できるフォーマットで構成されたビデオストリームである。本実施の形態では、2D互換ビデオストリームは、MPEG-2ビデオのコーデックで符号化されたビデオストリームである。マルチビュービデオストリームは、前述したとおりビュー間参照を実現するコーデックで符号化されたビデオストリームであり、ここではMPEG-4 MVCビデオのコーデックで圧縮符号化されたものである。
 ここで、図62の右側には、各ビデオストリームがどのビデオソースを圧縮符号化されたものであるかを示している。
 2D互換ビデオストリームは、MPEG-2ビデオのコーデックに従って原画映像が8ビット色階調で圧縮符号化されたものである。
 ベースビュービデオストリームは、黒映像が、MPEG-4 MVCビデオのコーデックに従って低ビットレートで圧縮符号化されたものである。
 ディペンデントビュービデオストリームは、12ビット原画映像と2D互換ビデオストリームの復号映像(8ビット非圧縮映像)との差分映像が圧縮符号化されたものである。差分映像は、図61で説明した手順により作成される。以下、この差分映像を「差分階調映像」という。差分階調映像は、MPEG-4 MVCビデオのコーデックに従って圧縮符号化されている。ここで、ディペンデントビュービデオストリームは、ビュー間参照を使って圧縮される。ビュー間参照として参照されるピクチャは、同一表示時刻(PTSが同じ)のベースビュービデオストリームのピクチャではなく、同一表示時刻(PTSが同じ)の2D互換ビデオストリームの復号ピクチャである。デコード側では、ベースビュービデオストリームのデコード済みピクチャ(黒画像)を、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャ(8ビット非圧縮映像)で置き換えて、置き換え後のピクチャ(8ビット非圧縮映像)を参照して、ディペンデントビュービデオストリームの同一表示時刻のピクチャ(12ビット原画映像)が復号されることになる。
 上記の構成によれば、ディペンデントビュービデオストリームは、差分階調映像が圧縮符号化されたものとなるので全体としてストリームの低ビットレート化ができ、かつ2D互換ビデオストリームよりも高階調な映像を提供することができる。
 ここで、ディペンデントビュービデオストリームのピクチャが、2D互換ビデオストリームのピクチャを参照するよう構成するために、ビデオストリームについての「解像度」「アスペクト比」「フレームレート」「プログレッシブかインターレースか」などの属性値は、2D互換ビデオストリームとマルチビュービデオストリームとの間で同じになるよう構成する。この属性値については、既に図22を用いて説明済みである。
<3-2-2.PMTパケット>
 図63は、トランスポートストリームに含まれるPMTパケットについて説明するための図である。
 高階調映像を伝送するトランスポートストリームにおいては、PMTパケットなどのシステムパケット中に、高階調映像のデコード処理を行う上でのシグナリング情報が含まれている。シグナリング情報には、各ビデオストリームの関係や高階調映像再生の開始、終了などのシグナリングを行うための高階調度化情報ディスクリプタと、ビデオストリーム毎に設定される高階調度化ストリームディスクリプタとが含まれる。
 高階調度化情報ディスクリプタと高階調度化ストリームディスクリプタは、既に図50、図51、及び図53を使って行った高画質化情報ディスクリプタと高画質化ストリームディスクリプタについての説明において「高画質化」を「高階調度化」に置き換えたものになるので、これ以上の説明は省略する。
 なお、高階調度化ディスクリプタには、高階調度化されるストリームのディペンデントビュービデオストリームの高階調の映像の色階調のサイズを格納するフィールドを加えてもよい。ストリーム生成の際、このフィールドに、例えば、10ビットカラー、12ビットカラー、14ビットカラー、16ビットカラーなどの別を設定しておき、高解像度再生装置側で、その値を参照して合成処理部の構成を変えることができる。
 なお、既にしたPTS、DTS及びGOPの説明、図23~図25を参照して行った説明及びそれに関する補足説明は、本実施の形態にも適用される。
<3-2-4.ストリームの使用形態>
 上述のストリームの使用形態について、図64を用いて説明する。
 図64において、通常再生装置は、2D互換ビデオストリームのみ再生ができる装置である。通常再生装置は、ビットレートが10Mbpsまでのストリームを再生可能とする。ここで、通常再生装置は、すでに市場に広まっており、放送波等で配信されるストリームを再生することを想定している。一方、高階調再生装置は、2D互換ビデオストリームだけでなく、マルチビュービデオストリームのデコード機能を備える。これら2種の再生装置が存在する場合において、図62で説明した構成のトランスポートストリームが放送されるものとする。
 通常再生装置は、トランスポートストリーム中の2D互換ビデオストリームをデコードして通常の2D映像の再生を行う。一方、高階調再生装置は、本実施の形態に係る再生装置であり、2D互換ビデオストリームとマルチビュービデオストリームの両方を復号する。高階調再生装置は、このマルチビュービデオストリームにおけるディペンデントビュービデオストリームの復号過程において、図61下段で説明したように、ベースビュービデオストリームの復号ピクチャを、同一表示時刻の2D互換ビデオストリームの復号ピクチャで置き換える。そして、置き換え後のピクチャである同一表示時刻の2D互換ビデオストリームの復号ピクチャを参照して、ディペンデントビュービデオストリームのピクチャを復号する。ディペンデントビュービデオストリームを復号したピクチャは、2D互換ビデオストリームのピクチャに、高階調映像のピクチャと2D互換ビデオストリームのピクチャとの差分が加えられたもの、すなわち、高階調映像のピクチャとなる。よって、ディペンデントビュービデオストリームを出力すれば、2D互換ビデオストリームのデコード結果に比べて、高階調な映像を再生することが可能となる。
 ベースビュービデオストリームは、ディペンデントビュービデオストリームの復号の際に、PTSなどストリームに含まれる情報については参照されるが、ピクチャ自体は参照されないので、黒画像で構成する映像など圧縮率の高い映像を圧縮符号化しておくことで、ビットレートは大幅に低減することができる。
 以上のように、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、市場に広まっている通常再生装置との再生互換性を崩すことなく、映像の高階調度化を実現するための拡張ビデオストリームを低ビットレート(図64の例では5Mbps)で放送し、また再生装置側で復号し、再生することができる。
<3-3.データ作成装置>
 以下、本実施の形態に係るデータ作成装置について説明する。
<3-3-1.構成>
 図65は、本実施の形態に係る映像符号化装置としてのデータ作成装置6501の構成を示す図である。
 データ作成装置6501は、図26で示した実施の形態1のデータ作成装置2601と基本的に同じ構成を持つ。但し、入力されるデータが異なるため、図65では、図26の「左目原画」が2Dの高階調の「12ビット原画映像」に置き換わり、「右目原画」が同じ2Dの「12ビット原画映像」に置き換わっている。以降の説明は、実施の形態1のデータ作成装置2601との差分を中心に行う。
 データ作成装置6501は、データ作成装置2601とは、2D互換ビデオエンコーダ6502と、拡張マルチビュービデオエンコーダ6504におけるディペンデントビュービデオエンコーダ6509の構成が異なる。
 2D互換ビデオエンコーダ6502は、12ビット原画映像の内、上位8ビットを入力として、2D互換ビデオのコーデックにしたがって圧縮符号化する。コーデックがMPEG-2ビデオの場合は、MPEG-2ビデオストリームのフォーマットに圧縮符号化して2D互換ビデオストリームを出力する。
 ディペンデントビュービデオエンコーダ6509は、3D映像を構成する片方の映像(左目もしくは右目原画映像)を入力とするのではなく、12ビット原画映像を入力としてエンコードを行う。ここで、圧縮符号化する映像は、12ビット原画映像と、8ビット圧縮映像(2D互換ビデオフレームメモリ2608に格納される2D互換ビデオストリームの復号結果)との差分階調映像である。差分階調映像は、図61上段で説明した手順で作成する。圧縮処理において、ディペンデントビュービデオエンコーダ6509は、2D互換ビデオフレームメモリ2608内の復号ピクチャ(2D互換ビデオストリームが復号されたピクチャ)を、ビュー間参照に使って圧縮処理を行う。
<3-3-2.動作>
 図66は、上述のように構成したデータ作成装置6501によるデータ作成フローを示す図である。
 図66に示すデータ作成フローは、実施の形態1で図27を用いて説明したデータ作成装置2601のデータ作成フローとおおよそ同じである。ただし、データ作成装置6501は、2D映像の高階調度化を行うものであり、図55では、図27のS2703とS2706とが、それぞれS6603とS6606とに置き換えられている。
 S6603では、2D互換ビデオエンコーダ6502が、1エンコード枚数分の2D互換ビデオストリームを生成する。12ビット原画映像のN番目のフレームから1エンコード枚数分だけ、2D互換ビデオストリームのコーデックに従って、上位8ビットを圧縮符号化して、2D互換ビデオストリームを生成して出力する。そして、S2704に進む。
 S6606では、ディペンデントビュービデオエンコーダ6509が、1エンコード枚数分のディペンデントビュービデオストリームの生成を行う。ベースビュービデオ符号化情報を元に、ビデオ属性やピクチャ構造等を決定して、またビュー間参照には、2D互換ビデオフレームメモリ2608内のピクチャを使って、12ビット原画映像と8ビット圧縮映像(2D互換ビデオフレームメモリ2608に格納される2D互換ビデオストリームの復号結果)との差分階調映像を、N番目のフレームから1エンコード枚数分、圧縮符号化して、ディペンデントビュービデオストリームを生成する。そして、S2707に進む。
<3-4.再生装置>
 次に、本実施の形態に係る高階調映像を再生する、映像再生装置としての再生装置について説明する。
<3-4-1.構成>
 図67は、本実施の形態に係る再生装置6723の構成を示す図である。
 再生装置6723は、図28で示した実施の形態1の3D映像の再生装置2823と基本的に同じ構成を備える。但し、再生装置6723は、2D映像の高階調度化を目的としているため、図67では、図28に、2D互換ビデオデコーダから出力されるプレーンと、拡張マルチビュービデオデコーダから出力されるプレーンを合成する合成処理部6724が追加されている。
 合成処理部6724は、第1プレーンと第2プレーンの合成処理を行う。合成処理は、図61下段に説明した手順に従う。まず、合成処理部6724は、第1プレーン2808に格納される復号された2D互換ビデオストリームのピクチャについて各ピクセルの色値を4ビット上位にシフトする。次に、第2プレーン2820に格納される復号されたディペンデントビデオストリームのピクチャを復号し、各ピクセルの色値を128減算して符号付きの情報に変換する。そして、これらの映像を加算して高階調映像を出力する。
<3-4-2.動作>
 図68は、上述のように構成した再生装置6723による高階調映像再生における復号処理と出力処理のフローを示す図である。
 図68に示すフローチャートは、実施の形態1の図30を用いて説明したフローとおおよそ同じである。但し、出力処理であるS3005がS6805に置き換えられている。
 S6805では、再生装置6723は、2D互換ビデオストリームの復号ピクチャをPTSのタイミングで第1プレーン2808に出力し、ディペンデントビュービデオストリームの復号ピクチャをPTSのタイミングで第2プレーン2820に出力する。そして、合成処理部6724が合成処理を行い、高階調度映像が出力される。合成処理の方法は前述したため省略する。
<3-5.効果についての補足説明>
 以下、本実施の形態における効果について図60を用いて補足説明する。
 まず、図60上段について説明する。図中の通常再生装置は、2D互換ビデオストリームのみを再生できる再生装置である。通常再生装置が再生可能なビットレートは10Mbpsまでとする。ここで、通常再生装置は、既に市場に広まっており、放送波等で配信されるストリームを再生するものとする。一方、高階調再生装置は、2D互換ビデオストリームよりも高階調で表現された映像が符号化されたビデオストリームをデコードし再生できる再生装置である。ここで、図60上段に示す例では、2D互換ビデオストリームが10Mbpsであり、同じコーデックで同じ映像を圧縮した高階調ビデオストリームのビットレートは15Mbpsである。通常再生装置による2D互換ビデオストリームの復号、出力を可能とさせることで互換性を保ちながら、高階調再生装置による高階調ビデオストリームのデコードを可能にするためには、2D互換ビデオストリームと高階調ビデオストリームの両方を多重化して放送する必要があり、両ビデオストリームのビットレートを足し合わせた従来に比べ高い転送帯域が必要となる。図60上段の場合であれば、2D互換ビデオストリームに係る10Mbpsと、高階調ビデオストリームに係る15Mbpsの合計で25Mbpsのビデオストリームを同時に転送する必要が生じる。
 図60下段は、図60上段について示した問題を解消し、必要とする転送帯域を減らすため、マルチビュー符号化方式を使う例を示している。図中の2D互換ビデオストリームは、8ビットカラーの映像であり、ベースビュービデオストリームとして符号化されたものである。また、拡張ビデオストリームは、ディペンデントビュービデオストリームであり、2D互換ビデオストリームと、高階調の原画映像(例えば12ビットカラー)との差分映像が、圧縮符号化されたものである。ディペンデントビュービデオストリームは、ベースビュービデオストリームの各ピクチャを参照画像として圧縮符号化されている。
 しかしながら、図60下段のように構成する場合、2D互換ビデオストリームと拡張ビデオストリームとを同一のビデオコーデックで構成しなければならないという制約がある。このため、両ビデオストリームは、例えばMPEG-4 MVCなどのマルチビュービデオ符号化方式で圧縮しなければならなくなる。
 そうすると、市場に広まっている通常再生装置がマルチビュービデオ符号化方式に対応していないことから互換性が損なわれることになるので、結局、図60下段の構成は採用が難しいものとなる。
 一方で、既に説明したように、本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することにより、市場に広まっている通常再生装置における再生互換性を崩すことなく、高階調再生装置により高階調映像の再生を実現している。また、拡張ビデオストリームを低ビットレート化し、ストリームの転送に必要となる帯域を減らしている。
<3-6.本実施の形態に係る変形例>
(1)実施の形態1及び変形例の説明内容は、本実施の形態の構成等に反しない限り、本実施の形態にも適用されることはいうまでもない。
(2)本実施の形態では、高階調度化ディスクリプタ中の高階調再生方式フィールドの記載により、複数の高階調再生方式から1の高階調再生方式を選出する構成について説明した。複数の高階調再生方式を切り替える方法に関しては、下記のような構成にすることで実装処理が容易になる。
 図69は、本変形例に係る再生装置の構成を示すブロック図である。
 図69に示す再生装置は、図67で説明した再生装置と基本的な構造は変わらないが、コーデック間参照スイッチ、プレーンセレクタが追加され、また合成処理部に、機能のONとOFFを制御するスイッチ機能が追加されている。
 コーデック間参照スイッチは、ONの場合には、2D互換ビデオデコーダと拡張マルチビュービデオデコーダ内のビュー間参照バッファとを接続し、2D互換ビデオデコーダから拡張マルチビュービデオデコーダ内のビュー間参照バッファに対してS3003で説明したデータ転送を行う。一方、OFFの場合には、2D互換ビデオデコーダと拡張マルチビュービデオデコーダ内のビュー間参照バッファとの接続はされず、データ転送を行わない。
 プレーンセレクタは、2D互換ビデオデコーダからピクチャが出力される第1プレーン、拡張マルチビュービデオデコーダのベースビュービデオストリームのピクチャが出力される第2プレーン、拡張マルチビュービデオデコーダのディペンデントビュービデオストリームのピクチャが出力される第3プレーンに対して、どのプレーンを合成処理部に出力するのかを選択する。高階調度化情報ディスクリプタの高階調再生方式に従って、「コーデック間参照スイッチ」と「プレーンセレクタ」の設定を変えることで、再生装置は容易に再生モードの変更ができる。
 図70は、高階調再生方式におけるシグナリングについて示す図である。
 図70の下段には、ストリームとして高階調再生方式、2D互換ビデオストリーム、ベースビュービデオストリーム、ディペンデントビューストリームを受信する場合の、高階調再生装置におけるコーデック間参照スイッチ、プレーンセレクタ、合成処理部のスイッチの設定を示している。
 高階調再生方式が0の場合、高階調再生装置は、コーデック間参照スイッチをOFFし、プレーンセレクタで8ビット映像として出力するための第1プレーンを選択し、合成処理部の機能をOFFにする。
 高階調再生方式が1の場合には、再生装置は、コーデック間参照スイッチをONし、プレーンセレクタでは、8ビット映像として出力するプレーンとして第1プレーンを選択し、差分階調映像として出力するプレーンとして第3プレーンを選択し、合成処理部の機能はONにする。高階調再生方式が2の場合には、コーデック間参照スイッチをOFFし、プレーンセレクタでは、8ビット映像として出力するプレーンとして第2プレーンを選択し、差分階調映像として出力するプレーンとして第3プレーンを選択し、合成処理部の機能をONにする。高階調再生方式が3の場合には、コーデック間参照スイッチをOFFし、プレーンセレクタでは、8ビット映像として出力するプレーンとして第2プレーンを選択し、合成処理部の機能をOFFにする。このようにコーデック間参照スイッチ、プレーンセレクタ、及び合成処理部のスイッチのみを切り替えることで、再生装置における再生方式を容易に変更することができる。
(3)本実施の形態では、高階調映像として12ビット映像を取り上げたが、これに限るものではなく、高階調映像は、通常の階調よりも高階調の映像であればよい。また、高階調の原画映像における有効ビット量は可変に設定できるようにしても良い。例えば、12ビット原画映像において、あるシーンは10ビット、あるシーンは12ビットというようにシーンごとに有効ビット量を変更しても良い。この場合には、図61で説明した合成処理において、2D互換ビデオストリームのビットシフト量を可変値にして、また、拡張ビデオストリームに対しても有効階調分を抽出するようにビットシフトを行うように構成すればよい。
 例えば、12ビット中の10ビットが有効であるならば、図61の6101の4ビット左シフトを2ビット左シフトに変更する。そして、12ビット原画映像を2ビット右シフトすることにより10ビット映像化して、両10ビット映像の差分映像を作成する(6102)。そして、復号側では、6104の4ビット左シフトを2ビットシフトに置き換える。拡張ビデオストリームは、2ビット右シフトして、2D互換ビデオストリームの復号ピクチャと加算する(6106)。なお、図61における加算処理6103(+128)は(+512)に、減算処理6105(-128)は、(-512)に変更することになる。
(4)本実施の形態では、ベースビュービデオストリームを黒画面等の単色映像を圧縮符号化して生成したが、これに限らず、2D互換ビデオストリームを高画質化するための差分映像(12ビット原画映像の上位8ビット原画映像と2D互換ビデオとの差分など)を圧縮符号化して生成してもよい。
 差分映像の生成方法、合成方法は、図89で説明した方法を用いればよい。
 図90は、本変形例に係るビデオストリームの構成を示している。具体的には、データ作成装置側では、ベースビュービデオのエンコーダ部において、8ビット原画映像と2D互換ビデオストリームとの差分映像を圧縮符号化することによりベースビュービデオストリームを作成する。そして、ディペンデントビュービデオのエンコーダ部は、2D互換ビデオストリームの復号ピクチャに差分映像を合成することにより生成した高画質2D映像のピクチャを参照画像として、画像を圧縮符号化するよう構成する。
 再生装置側では、ベースビュービデオのデコーダ部は、復号したピクチャを2D互換ビデオのデコーダ部に転送する。2D互換ビデオのデコーダ部では、2D互換ビデオを復号して得たピクチャと、ベースビュービデオのデコーダ部により復号されたピクチャとの合成処理を行う。ディペンデントビュービデオのデコーダ部は、合成処理により得られたピクチャを参照して、ディペンデントビュービデオストリームを復号する。このように構成することで、実施の形態3で説明した高階調映像の高画質化を実現できる。
<4.実施の形態4>
<4-1.概要>
 実施の形態1では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、3D映像のマルチビュービデオストリームを低ビットレートで構成した。本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、従来の2D映像に再生互換性を持たせながら、2D映像について高品位化の一例としての高解像度化した映像を、低ビットレートに構成したマルチビュービデオストリームで送信する。高解像度化としては、例えば、2D映像がフルHDの1920x1080の解像度で、高解像度化した映像が4K2K(3840x2160)の解像度であるような場合が該当する。
 本実施の形態におけるデータ構造、データ作成装置、データ作成方法、再生装置、再生方法についての基本構造は、実施の形態1と同じであるので、実施の形態1との差分を中心に説明する。本実施の形態において用いる用語は、特段の説明をした場合を除き、実施の形態1の用語と同じとする。
 以下、高解像度化に係る符号化手順、及び復号手順の概略について説明する。
 図72は、高解像度化に係る符号化手順の概略を示す図である。
 2D互換ビデオストリームは、復号D1(7201)された後、縦横2倍(×2)のアップコンバート(7202)が行われ、ピクチャ参照バッファ(7203)に格納される。
 拡張ビデオストリームは、ピクチャ参照バッファ(7203)に格納されるスケーリング(アップコンバート)されたピクチャを参照して復号D2(7204)される。この場合、2D互換ビデオストリームはベース映像として符号化される。2D互換ビデオストリームは、フルHD映像が圧縮符号化されている。拡張ビデオストリームは、4K2Kの高解像度映像が圧縮符号化されている。拡張ビデオストリームは、復号した2D互換ビデオストリームの映像を高解像度にスケーリングした映像(フルHDを4K2K化した映像)を参照ピクチャとして、圧縮符号化されている。以上のように、2D互換ビデオストリームを参照ピクチャとして利用することで拡張ビデオストリームのビットレートを低くできる。
 図75は、スケーリングについて説明するための図である。
 ピクセル集合7510は、ピクセル7511~7514が縦横2つずつ配されて成る。ここでは、4つのピクセルから成るピクセル集合7501を、縦2倍、横2倍して16ピクセル化する。
 方法1は、単純に各ピクセルを縦横2倍に複製し4ピクセル化する方法である。
 方法2は、ピクセル間に、前後もしくは左右に配置されたピクセル値の中間値を持つピクセルを挿入する方法である。例えば、ピクセル7501は、左右のピクセル7511とピクセル7512との中間色となり、ピクセル7502は、ピクセル7511とピクセル7513の中間色となる。
 方法3は、前後左右斜めのすべてのピクセルの中間色を取る方法である。例えば、ピクセル7503は、周りを囲むピクセル7511、7501、7512、7502、7504、7513、7505、7514の中間色となる。
 再生装置は、このように複数あるスケーリング方法から選出したスケーリング方法によりアップコンバートを行う。
<4-2.データフォーマット>
 まず、本実施の形態に係る、高解像度映像を符号化するためのデータ構造について説明する。
<4-2-1.トランスポートストリーム>
 図73は、本実施の形態に係るトランスポートストリームに含まれるデータについて説明するための図である。
 本実施の形態におけるトランスポートストリームは、2D互換ビデオストリーム、マルチビュービデオストリームのベースビュービデオストリームとディペンデントビュービデオストリームがそれぞれPESパケット化され、TSパケットに分割され、多重化されてなる。
 2D互換ビデオストリームは、図7等を用いて説明したような、2D映像の再生装置が、2D映像として再生できるフォーマットで構成されたビデオストリームである。本実施の形態では、2D互換ビデオストリームは、MPEG-2ビデオのコーデックで符号化されたビデオストリームである。マルチビュービデオストリームは、前述したとおりビュー間参照を実現するコーデックで符号化されたビデオストリームであり、ここではMPEG-4 MVCビデオのコーデックで圧縮符号化されたものである。
 ここで、図73の右側には、各ビデオストリームがどのビデオソースを圧縮符号化されたものであるかを示している。
 2D互換ビデオストリームは、フルHDの原画映像がMPEG-2ビデオのコーデックに従って圧縮符号化されたものである。
 ベースビュービデオストリームは、4K2Kの黒映像が、MPEG-4 MVCビデオのコーデックに従って低ビットレートで圧縮符号化されたものである。
 ディペンデントビュービデオストリームは、高解像度4K2Kの原画映像がMPEG-4 MVCビデオのコーデックに従って圧縮符号化されたものである。
 ディペンデントビュービデオストリームは、ビュー間参照を使って圧縮される。ビュー間参照として参照するピクチャは、同一表示時刻(PTSが同じ)のベースビュービデオストリームのピクチャではなく、同一表示時刻(PTSが同じ)の2D互換ビデオストリームの復号ピクチャをスケーリングしたピクチャである。デコード側では、ベースビュービデオストリームのデコード済みピクチャ(黒画像)を、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャ(フルHD)で置き換えて、置き換え後のピクチャ(フルHD)を参照して、ディペンデントビュービデオストリームの同一表示時刻のピクチャ(4K2K)が復号されることになる。
 上記の構成によれば、ディペンデントビュービデオストリームのピクチャが、「2D互換ビデオストリームの復号ピクチャ」を4K2Kにアップスケーリングした映像に係る画像を参照画像として使うことになるので、全体としてストリームを低ビットレート化でき、かつ2D互換ビデオストリームよりも高解像度化した映像を提供することができる。
 ここで、ディペンデントビュービデオストリームのピクチャが、2D互換ビデオストリームのピクチャを参照する構成を実現するために、ビデオストリームについての「アスペクト比」「フレームレート」「プログレッシブかインターレースか」などの属性値は同じになるよう構成する。この属性値については、既に図22を用いて説明済みである。但し、本実施の形態においては、図22の「解像度」のフィールドは除外する。
<4-2-2.PMTパケット>
 図74は、トランスポートストリームに含まれるPMTパケットについて説明するための図である。
 高解像度映像を伝送するトランスポートストリームにおいては、PMTパケットなどのシステムパケット中に、高解像度映像のデコード処理を行う上でのシグナリング情報が含まれている。シグナリング情報には、各ビデオストリームの関係や本方式の高解像度映像再生の開始、終了などのシグナリングを行うための高解像度化情報ディスクリプタと、各ビデオストリーム毎に設定される高解像度化ストリームディスクリプタとが含まれる。
 高解像度化情報ディスクリプタと高解像度化ストリームディスクリプタは、それぞれ高画質化情報ディスクリプタと高画質化ストリームディスクリプタとほぼ同様の構成を有する。
 高画質化情報ディスクリプタと高画質化ストリームディスクリプタは、既に図50、図51、及び図53を使って行った高画質化情報ディスクリプタと高画質化ストリームディスクリプタについての説明において「高画質化」を「高解像度化」に置き換えたものになるので、これ以上の説明は省略する。
 なお、高解像度化情報ディスクリプタには、各ストリームの解像度の情報を格納するようにしても良い。このようにすることで、高解像度映像を再生する再生装置は、ディスクリプタ情報を参照することで、各ストリームのデコード方法やスケーリング方法を決定できる。
 また、高解像度化情報ディスクリプタにおいて、スケーリング方法を設定できるようにしてもよい。スケーリングの方法は図75で示したように複数あるため、どのスケーリング方法を取るかを示す情報をディスクリプタに格納する。このようにすることで、高解像度映像を再生する再生装置は、ディスクリプタ情報を参照し、各ストリームのデコード方法やスケーリング方法を決定できる。
 なお、既にしたPTS、DTS及びGOPの説明、図23~図25を参照して行った説明及びそれに関する補足説明は、本実施の形態にも適用される。
<4-2-4.ストリームの使用形態>
 上述のストリームの使用形態について、図76を用いて説明する。
 図76において、通常再生装置は、2D互換ビデオストリームのみ再生できる装置である。通常再生装置は、ビットレートが10Mbpsまでのストリームを再生可能とする。ここで、通常再生装置は、すでに市場に広まっており、放送波等で配信されるストリームを再生することを想定している。一方、高解像度再生装置は、2D互換ビデオストリームだけでなく、マルチビュービデオストリームのデコード機能を備える。これら2種の再生装置が存在する場合において、図73で説明した構成のトランスポートストリームが放送されるものとする。
 通常再生装置は、2D互換ビデオストリームをデコードして出力を行い、通常の2D映像の再生を行う。一方、高解像度再生装置は、2D互換ビデオストリームとマルチビュービデオストリームの両方をデコードする。この際に、高解像度再生装置は、ベースビュービデオストリームのデコード済みピクチャを、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャをスケーリングしたピクチャで置き換えて、同一表示時刻のディペンデントビュービデオストリームのピクチャを、置き換え後のピクチャを参照して復号する。
 このようにして、ディペンデントビュービデオストリームを復号して高解像度映像を再生することが可能となる。ベースビュービデオストリームには、黒画面などの単色の映像を圧縮符号化しておけば、ビットレートを大幅に低減することができる。
 以上のように、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することによって、市場に広まっている通常再生装置での再生互換性を崩すことなく、映像の高解像度化を実現するための拡張ビデオストリームを低ビットレート(図76の例では10Mbps)で放送し、また再生装置側で復号し、再生することができる。
<4-3.データ作成装置>
 以下、本実施の形態に係るデータ作成装置について説明する。
<4-3-1.構成>
 図77は、本実施の形態に係る映像符号化装置としてのデータ作成装置7701の構成を示す図である。
 データ作成装置7701は、図26で示した実施の形態1のデータ作成装置2601と基本的に同じ構成を持つ。但し、入力されるデータが異なるため、図77では、図26の「左目原画」が2Dの「高解像度原画映像(ここでは、解像度は4K2Kとする。)」に置き換わり、「右目原画」が同じ2Dの「高解像度原画映像」に置き換わっている。以降の説明は、実施の形態1のデータ作成装置2601との差分を中心に説明する。
 データ作成装置7701は、2D互換ビデオエンコーダ7702と、拡張マルチビュービデオエンコーダ7704におけるディペンデントビュービデオエンコーダ7709の構成がデータ作成装置2601の構成と異なる。
 2D互換ビデオエンコーダ7702は、入力としての高解像度原画映像を低解像度化した映像(ここではフルHD化する)を2D互換ビデオのコーデックに従い圧縮符号化する。コーデックがMPEG-2ビデオの場合は、MPEG-2ビデオストリームのフォーマットに圧縮符号化して2D互換ビデオストリームを出力する。
 ディペンデントビュービデオエンコーダ7709は、3D映像を構成する片方の映像(左目もしくは右目原画映像)をインプットするのではなく、高解像度原画映像を入力としてエンコードを行う。圧縮処理において、ディペンデントビュービデオエンコーダ7709は、2D互換ビデオフレームメモリ2608内の復号ピクチャ(2D互換ビデオストリームが復号されたピクチャ)がスケーリングされたピクチャを、ビュー間参照に使って圧縮処理を行う。
<4-3-2.動作>
 図78は、上述のように構成したデータ作成装置7701によるデータ作成フローを示す図である。
 図78に示すデータ作成フローは、実施の形態1で図27を用いて説明した説明したデータ作成装置2601のデータ作成フローとおおよそ同じである。ただし、データ作成装置7701は、2D映像の高階調度化を行うものであり、図78は、図27のS2703とS2706とが、S7803とS7806とに置き換えられている。
 S7803では、2D互換ビデオエンコーダ7702が、1エンコード枚数分の2D互換ビデオストリームの生成を行う。高解像度原画映像のN番目のフレームから1エンコード枚数分だけ、2D互換ビデオストリームのコーデックに従って、低解像化(ここではFullHD化)して圧縮符号化し、2D互換ビデオストリームを生成して出力する。そして、S2704に進む。
 S7806では、ディペンデントビュービデオエンコーダ7709が、1エンコード枚数分のディペンデントビュービデオストリームを生成する。ベースビュービデオ符号化情報を元に、ビデオ属性やピクチャ構造等を決定し、またビュー間参照には、2D互換ビデオフレームメモリ2608内のピクチャを使って、フルHD映像(2D互換ビデオフレームメモリ2608に格納される2D互換ビデオストリームの復号結果)をスケーリングして高解像度化した映像を参照画像として、高解像度原画映像をN番目のフレームから1エンコード枚数分、圧縮符号化して、ディペンデントビュービデオストリームを生成する。そして、S2707に進む。
<4-4.再生装置>
 次に、本実施の形態に係る高解像度映像を再生する、映像再生装置としての再生装置について説明する。
<4-4-1.構成>
 図79は、本実施の形態に係る高解像度映像を再生する高解像度再生装置としての再生装置7923の構成を示す図である。
 再生装置7923は、図28で示した実施の形態1の3D映像の再生装置2823と基本的に同じ構成を持つ。但し、再生装置7923は、2D映像の高解像度化を目的としているため、図67では、2D互換ビデオデコーダから出力されるプレーンが存在せず、また、スケーラ7924が追加されている。
 スケーラ7924は、DTSのタイミングでビュー間参照バッファにあるベースビュービデオストリームのピクチャを2D互換ビデオデコーダがデコードしたピクチャで置き換えるときに、その2D互換ビデオデコーダがデコードしたピクチャを指定されるスケーリング方法でスケーリングする。このように構成することで、ディペンデントビュービデオストリームの復号時には、2D互換ビデオストリームがスケーリングされたピクチャを参照して復号することが可能となる。
<4-4-2.動作>
 図80は、上述のように構成した再生装置7923による高解像度映像再生におけるデコード処理と出力処理のフローを示す図である。
 図80に示すデコード処理と出力処理のフローは、実施の形態1で図30を用いて説明したフローとおおよそ同じであるが、図30のS3003とS3005のそれぞれが、S8003とS8005に置き換えられている。
 S8003では、再生装置7923は、2D互換ビデオストリームの復号ピクチャをスケーラ7924によりスケーリングし、スケーリングされたデータをビュー間参照バッファ2816に出力する。
 S8005では、再生装置7923は、ディペンデントビュービデオストリームの復号ピクチャをPTSのタイミングで第1プレーン2809に出力する。
<4-5.効果についての補足説明>
 以下、本実施の形態における効果について図71を用いて補足説明する。
 まず、図71上段について説明する。図中の通常再生装置は、2D互換ビデオストリームのみを再生できる再生装置である。通常再生装置が再生可能なビットレートは10Mbpsまでとする。ここで、通常再生装置は、既に市場に広まっており、放送波等で配信されるストリームを再生するものとする。
 一方、高解像度再生装置は、2D互換ビデオストリームよりも高解像度の映像が符号化された高解像度ビデオストリームをデコードし再生できる再生装置である。以下、一例として、通常映像の解像度がフルHD(1920x1080)の解像度であり、高解像度映像の解像度が4K2K(3820x2160)の解像度であるとする。図71上段に示す例では、2D互換ビデオストリームが10Mbpsであり、同じコーデックで同じ映像を圧縮した高解像度ビデオストリームのビットレートが20Mbpsである。
 ここで、通常再生装置による2D互換ビデオストリームのデコード・出力を可能とさせることで互換性を保ちながら、高解像度再生装置による高解像度ビデオストリームのデコードを可能にするためには、放送波により、2D互換ビデオストリームと高解像度ビデオストリームの両方を多重化して転送する必要があり、両ビデオストリームのビットレートを足し合わせた従来に比べ高い転送帯域が必要となる。例えば、図71上段の場合であれば、2D互換ビデオストリーム10Mbpsと高解像度ビデオストリーム20Mbpsの合計で30Mbpsのビデオストリームを同時に転送する必要がある。
 図71下段は、上記課題を解消し、必要とする転送帯域を減らすため、スケーラブルビデオ符号化方式を使う例を示している。スケーラブルビデオ符号化方式とは、低解像度のベース映像を、スケーリングして参照ピクチャを作り出し、高解像度の拡張映像を復号する方法である。
 しかしながら、図71下段のように構成する場合、2D互換ビデオストリームと拡張ビデオストリームとを、ともに同一のビデオコーデックで構成しなければならない。このため、両ビデオストリームは、例えばMPEG-4 AVCの修正規格であってスケーラブルビデオ符号化方式であるMPEG-4 MVCなどにより圧縮符号化しなければならなくなる。
 そうすると、市場に広まっている通常再生装置が、スケーラブルビデオ符号化方式に対応していないことから互換性が損なわれることになるので、結局、図71下段の構成は採用が難しいものとなる。
 一方で、既に説明したように、本実施の形態では、異なるコーデックで映像が圧縮符号化されたストリーム間においてビュー間参照を実現することにより、市場に広まっている通常再生装置における再生互換性を崩すことなく、高解像度再生装置により高解像度化された映像の再生を実現している。また、拡張ビデオストリームを低ビットレート化し、ストリームの転送に必要となる帯域を減らしている。
<4-6.本実施の形態に係る変形例>
(1)実施の形態1及び変形例の説明内容は、本実施の形態の構成等に反しない限り、本実施の形態にも適用されることはいうまでもない。
(2)本実施の形態における再生装置の再生方式に応じたスイッチ方法については、図58を用いて説明した実施の形態2のスイッチ方法における「高画質化」を「高解像度化」に置き換えることで適用できる。
(3)本実施の形態においては、2D互換ビデオストリームを高解像度化するビデオストリームに、マルチビュービデオ符号化方式を適用したが、スケーラブルビデオ符号化方式についても同等の構成で実現できる。この場合には、再生装置7923の拡張マルチビュービデオデコーダを、拡張スケーラブルビデオデコーダに変更して、2D互換ビデオストリームのデコード結果をスケーリングせずにベースビュービデオストリームのデコード結果と入れ換える構成にすればよい。
(4)本実施の形態においては、2D互換ビデオストリームを高解像度化するビデオストリームに、マルチビュービデオ符号化方式を適用したが、Side-by-Sideの3D映像をフルHDの3D映像に高解像度化してもよい。
 図81は、この場合のストリームの構成を示す図である。
 2D互換ビデオストリームは、Side-by-Sideの3D映像が、2D互換ビデオストリームの符号化方式により圧縮符号化されたものである。Side-by-Sideの3D映像の解像度は、一例としてフルHDの解像度である。そして、マルチビュービデオストリームを構成するベースビュービデオストリームは、黒映像が、マルチビュービデオのコーデックに従って低ビットレートで圧縮符号化されたものである。ディペンデントビュービデオストリームは、高解像度4K1KのSide-By-Sideの映像が圧縮符号化されたものである。ここで、ディペンデントビュービデオストリームは、ビュー間参照を使って圧縮されるが、ビュー間参照において参照されるピクチャは、同一表示時刻(PTSが同じ)のベースビュービデオストリームのピクチャではなく、同一表示時刻(PTSが同じ)の2D互換ビデオストリームの復号後の復号ピクチャが4K1Kにアップコンバートされたピクチャである。
本実施の形態で説明したとおり、ビデオストリームを再生するビデオデコーダは、ベースビュービデオストリームのデコード済みピクチャを、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャをスケーリングしたピクチャで置き換え、置き換えられたピクチャを参照して同一表示時刻のディペンデントビュービデオストリームのピクチャを復号する。この構成により、ディペンデントビュービデオストリームを、「2D互換ビデオストリームの復号ピクチャ」を4K1Kにアップコンバートした映像を参照画像として使うことによって低ビットレート化することができる。
 図82は、本変形例に係る3D映像の再生装置の構成を示す図である。
 この構成は、本実施の形態における再生装置の構成とほぼ変わらないが、3D出力部8201が付加されている点が異なる。3D出力部8201は、4K1Kの高解像度Side-by-Side映像が出力された第1プレーン2809に対して、左目映像と右目映像を切り出してテレビ等に出力する。
(5)Side-by-Sideの3D映像を、フルHDの3D映像に高解像度化する方式に関し、変形例(4)とは異なる方式を採用してもよい。
 図83は、本変形例に係るビデオストリームの構成を示す図である。
 2D互換ビデオストリームは、Side-by-Sideの3D映像が、2D互換ビデオストリームの符号化方式により圧縮符号化されたものである。Side-by-Sideの3D映像の解像度は、一例としてフルHDの解像度である。そして、マルチビュービデオストリームを構成するベースビュービデオストリームは、黒映像が、マルチビュービデオのコーデックに従って低ビットレートで圧縮符号化されたものである。ディペンデントビュービデオストリームは、同じくフルHDのSide-By-Side映像が圧縮符号化されたものである。このSide-by-Side映像は、2D互換ビデオストリームを高解像度化するための差分映像である。例えば、2D互換ビデオストリームのSide-by-Side映像が、左目フルHD映像と右目フルHD映像の奇数列のピクセルを抽出して作られた映像の場合に、ディペンデントビュービデオストリームのSide-by-Side映像は、左目フルHD映像と右目フルHD映像の偶数列のピクセルを抽出して映像を作成する。
 ここで、ディペンデントビュービデオストリームは、ビュー間参照を使って圧縮されるが、ビュー間参照として参照するピクチャには、同一表示時刻(PTSが同じ)のベースビュービデオストリームのピクチャではなく、同一表示時刻(PTSが同じ)の2D互換ビデオストリームの復号後の復号ピクチャをスケーリングしたピクチャである。
 一方、再生側では、本実施の形態で説明したとおり、ビデオストリームを再生するビデオデコーダは、ベースビュービデオストリームのデコード済みピクチャを、同一表示時刻の2D互換ビデオストリームのデコード済みピクチャで置き換え、置き換えられたピクチャを参照して同一表示時刻のディペンデントビュービデオストリームのピクチャを復号する。この構成により、ディペンデントビュービデオストリームを、「2D互換ビデオストリームの復号ピクチャ」を参照画像として使うことによって低ビットレート化することができる。
 図84は、本変形例に係る3D映像の再生装置の構成を示す図である。この構成は、本実施の形態における再生装置の構成とほぼ変わらないが、3D出力部8401が付加されている点が異なる。3D出力部8401は、第1プレーン2809に記憶される2D互換ビデオストリームのSide-by-Side映像と、第2プレーン2820に記憶されるディペンデントビュービデオストリームのSide-by-Side映像を使って、高解像度のフルHDの3D映像を作り出しててテレビ等に出力する。
(6)上述の変形例(4)及び変形例(5)では、Side-by-Sideの3D映像を用いていたが、これに限らず、Top&Bottom方式、LineByLine方式など様々なフレーム互換方式の3Dフォーマットにも同様に適用可能である。なお、Top&Bottom方式は、右目用、左目用の映像をそれぞれ垂直方向に圧縮し(例えば、1080ピクセルから540ピクセルなどに圧縮する)、上下に並べた形で伝送する方式である。また、LineByLine方式は、右目用、左目用の映像信号を1ラインおきに交互に配置する方式である。
(7)本実施の形態における高解像度化を実現するためのマルチビュー符号化方式もしくはスケーラブル符号化方式において、ピクチャのビュー間参照の方法を変更してもよい。
 図95のうち左側図は、本実施の形態で説明したビュー間参照方法を示し、右側図は、本変形例に係るビュー間参照方法を示す。
 図95の説明において、2D互換ビデオストリームもしくはベースビデオストリームはフルHD映像であり、高解像度映像であるディペンデントビュービデオストリームは4K2K映像であるとする。
 図95左側図の参照方法では、2D互換ビデオストリームもしくはベースビュービデオストリーム(9501)をデコード(9503)した映像を、スケーリング(アップコンバート)(9505)により4K2K映像にしたピクチャを、ビュー間参照フレームバッファに格納し(9506)、4K2K映像のディペンデントビュービデオストリームの復号時には、このバッファの4K2K復号ピクチャを参照することで、ビュー間映像の参照を行う。
 一方、図95右側図の本変形例に係るピクチャ参照方法では、2D互換ビデオストリームもしくはベースビュービデオストリーム(9501)をデコード(9503)してビュー間参照バッファに格納(9516)される復号ピクチャは、アップコンバートせずに、フルHD解像度のまま格納する。そして高解像度4K2Kのディペンデントビュービデオストリーム(9502)の復号を行う場合に、スケーリング参照フィルタ(9515)の機能を使い、マクロブロック単位で、2D互換ビデオストリーム/ベースビュービデオストリーム(9501)の復号ピクチャの参照領域を拡大して、復号処理を行う。
 このようにすることで、ビュー間参照バッファ(9516)に格納するピクチャは2K1Kとなるため、ビュー間参照バッファ(及び後段のDPB)に必要なバッファサイズを削減することができる。
 図96は、スケーリング参照フィルタの具体的な手順を示す。
 ディペンデントビュービデオストリームの復号処理を行う場合には、マクロブロック単位で、動きベクトルなどのSyntax要素から参照ピクチャの領域を特定して、その領域を参照して復号を行う。その参照方法を、図96中に(1)~(3)として示している。まず(1)で、マクロブロックが参照する高解像度ピクチャの対象領域(座標位置(x,y)と領域サイズ(w,h))を特定する。次いで(2)で、仮想高解像度ピクチャの対象領域を、フィルタ関数を使って生成する。フィルタ関数は複数あって、再生装置の能力に応じて選択できるようにしても良い。フィルタ関数の例f(x,y,w,h)を、図中の破線枠内に記している。フィルタ関数f(x,y,w,h)は、実ピクチャの(x/2,y/2)座標のピクチャの縦h/2,横w/2の領域に対して、図75の方法3で、縦横2倍にアップコンバートする、と定義されているので、x,y,w,hの値を代入することで、仮想高解像度ピクチャの対象領域を生成することできる。
 最後に(3)で、仮想高解像度ピクチャにおける対象領域を参照することでマクロブロックの復号ができる。
 図96に示す関数等はあくまで説明のための一例であり、実際の参照方法やフィルタ関数は、各ビデオストリームの符号化方式のルールに従って、構成してよい。
(8)本実施の形態では、ベースビュービデオストリームを黒画面等の単色映像を圧縮符号化して生成していたが、これに限らず、2D互換ビデオストリームを高画質化するための差分映像(4k2k高解像度原画映と、フルHDの2D互換ビデオストリームを復号したピクチャをアップコンバートした4K2K映像との差分)を圧縮符号化して生成してもよい。
 図91は、本変形例に係るビデオストリームの構成を示す図である。
 差分映像の生成方法・合成方法は、図89で既に説明したが、本変形例では、原画映像(4K2K)と2D互換ビデオの復号ピクチャ(2K1K)との差分を算出する前に、2D互換ビデオの復号ピクチャ(2K1K)をアップコンバートして4K2K化して差分映像を生成する点が異なる。
 データ作成装置においては、ベースビュービデオのエンコーダ部において、4K2K高解像度原画映像と、2D互換ビデオストリームとの復号ピクチャをアップコンバートしたピクチャとの差分映像を圧縮符号化して、ベースビュービデオストリームを作成し、ディペンデントビュービデオのエンコーダ部は、「2D互換ビデオストリームのフルHD復号ピクチャを高解像度4K2Kピクチャにアップコンバートしたピクチャ」に、「差分映像」を合成した「高画質高解像度2D映像」を参照画像として圧縮するように構成する。
 再生装置においては、ベースビュービデオのデコーダ部は、復号したピクチャを、2D互換ビデオのデコーダ部に転送して、2D互換ビデオデコーダ部では2D互換ビデオストリームの復号ピクチャをアップコンバートしたピクチャと差分映像の合成処理を行い、そのピクチャを、ディペンデントビュービデオストリームの復号に利用する。
 このようにすることで、実施の形態4で説明した高解像度映像の高画質化を実現できる。
(9)実施の形態1~4において、再生装置の基本構造は、2D互換ビデオストリームとマルチビュービデオデコーダから構成されている点で共通するので、1つの再生装置が、実施の形態1~4の再生処理を切り替えながら行うこととしてもよい。
 このとき、同一のトランスポートストリームの中に、実施の形態1~4のビデオストリームがシーンごと分かれて存在しても良い。そして、データ作成装置7701は、どのシーンがどの実施の形態における再生方式なのかを識別できるようにするため再生方式判別ディスクリプタを、PMTやビデオストリームの補足データ等に記録してもよい。
 図85は、再生方式判別ディスクリプタの構造を示す図である。
 再生方式判別ディスクリプタには、3D再生フラグ、高画質化フラグ、高階調度化フラグ、高解像度化フラグが格納され、各フラグがTRUEの場合、さらに、そのフラグに対応する情報が格納される。例えば、再生方式判別ディスクリプタには、3D再生フラグがTRUEの場合は、3D再生情報ディスクリプタが格納され、高画質化フラグがTRUEの場合は、高画質化情報ディスクリプタが格納され、高階調化フラグがTRUEの場合は高階調度化情報ディスクリプタが格納され、高解像度化フラグがTRUEの場合は高解像度化情報ディスクリプタが格納される。このような情報を用いることにより、再生装置は、上述の各実施の形態の再生方法のうち採用すべきものを選出し、その処理を実行するよう内部状態を切り替えることができる。
<5.変形例>
 以上、本発明に係るデータ作成装置及び再生装置の実施の形態を説明したが、例示したデータ作成装置及び再生装置を以下のように変形することも可能であり、本発明が上述の実施の形態で示した通りのデータ作成装置及び再生装置に限らないことは勿論である。
(1)以下、さらに、本発明の一実施の態様に係る映像符号化装置としてのデータ作成装置、及び映像再生装置としての再生装置の構成及び効果について説明する。
 本発明の一実施態様である映像符号化装置は、原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化手段と、MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化手段と、前記第1及び前記第2符号化手段により生成されたストリームを送出する送出手段とを備え、前記第2符号化手段は、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する。
 また、前記第2符号化手段は、前記MPEG-4 MVC形式に準拠したストリームの生成において、当該ストリームに、前記参照画像が前記MPEG-2形式のストリームに含まれることを示す情報を含めることとしてもよい。
 この構成によれば、再生側において、前記ディペンデントビュービデオストリームを再生する際に、MPEG-2形式のストリームに含まれるピクチャを参照させることができる。
 また、前記第2符号化手段は、前記参照画像として、前記MPEG-2形式のストリームのピクチャのうち、PTS(Presentation Time Stamp)の値が、前記第2映像において符号化の対象となっている当該ピクチャに対応している前記ベースビュービデオストリームのピクチャのPTSの値と同一であるピクチャを選出することとしてもよい。
 この構成によれば、再生側において、PTSを参照することにより、MPEG-2形式のストリーム中のピクチャの中から、参照すべきピクチャを特定することができる。
 また、前記第1符号化手段及び前記第2符号化手段は、前記第1映像及び第2映像の圧縮符号化を同一のアスペクト比で行い、生成する前記各ストリームに、前記アスペクト比を示す情報を含めることとしてもよい。
 この構成によれば、再生側において、第1映像及び第2映像のアスペクト比を特定することができる。
 また、前記第2符号化手段は、前記疑似データとして、経時的変化のないピクチャ群を用いることとしてもよい。
 また、前記第2符号化手段は、前記経時的変化のないピクチャ群として、単色の画像から成る画像群を用いることとしてもよい。
 この構成によれば、ベースビュービデオストリームの情報量を従来よりも低減することができる。
 また、前記第2映像は、前記原映像を前記第1映像よりも高いビットレートで表現した映像であり、前記第2符号化手段は、前記ディペンデントビュービデオストリームに係る圧縮符号化として、対応するピクチャ間のビットレートの差に相当する情報を圧縮符号化することとしてもよい。
 この構成によれば、MPEG-2規格に基づく再生装置による所定のビットレートの原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、前述の所定のビットレートよりも高ビットレートの原映像を圧縮符号化することができる。
 また、前記第2映像は、前記原映像を前記第1映像よりも高階調で表現した映像であり、前記ピクチャそれぞれは、当該ピクチャを構成する各ピクセルの階調を表す階調情報を有し、前記第2符号化手段は、前記ディペンデントビュービデオストリームに係る圧縮符号化として、対応するピクチャ間の階調情報の差分を圧縮符号化することとしてもよい。
 この構成によれば、MPEG-2規格に基づく再生装置による所定の階調表現の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、前述の所定の階調表現よりも高階調で表現した原映像を圧縮符号化することができる。
 また、前記第2映像は、前記原映像を前記第1映像よりも高解像度で表現した映像であり、前記第2符号化手段は、前記参照画像として、前記第2映像の解像度に変換した前記MPEG-2形式のストリームのピクチャを用いることとしてもよい。
 この構成によれば、MPEG-2規格に基づく再生装置による所定の解像度の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、前述の所定の解像度よりも高解像度で表現した原映像を圧縮符号化することができる。
 また、前記第1映像は、前記原映像をインターレース形式で表現した映像であり、前記第2映像は、前記原映像をプログレッシブ形式で表現した映像であり、前記第2符号化手段は、トップフィールド及びボトムフィールドの各ピクチャを前記参照画像として用いる場合に、当該ピクチャの解像度を前記第2映像の解像度に変換して用いることとしてもよい。
 この構成によれば、MPEG-2規格に基づく再生装置によるインターレース形式の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、プログレッシブ形式の原映像を圧縮符号化することができる。
 また、前記第2符号化手段は、前記第2映像として、前記原映像を前記第1映像よりも高いビットレートで表現した映像、前記原映像を前記第1映像よりも高階調で表現した映像及び前記原映像を前記第1映像よりも高解像度で表現した映像のいずれかを用い、いずれの映像を用いたかを示すディスクリプタを、前記ベースビュービデオストリーム及び前記ディペンデントビューストリームの少なくとも一方に含めることとしてもよい。
 この構成によれば、再生側に、第2映像が前記原映像を前記第1映像よりも高いビットレートで表現した映像、前記原映像を前記第1映像よりも高階調で表現した映像及び前記原映像を前記第1映像よりも高解像度で表現した映像のいずれであるかを特定させることができる。
 本発明の一実施態様である映像符号化方法は、原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化ステップと、MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化ステップと、前記第1及び前記第2符号化手段により生成されたストリームを送出する送出ステップとを含み、前記第2符号化ステップにおいて、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する。
 本発明の一実施態様である映像符号化プログラムは、コンピュータを映像符号化装置として機能させるための映像符号化プログラムであって、前記コンピュータを、原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化手段と、MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化手段と、前記第1及び前記第2符号化手段により生成されたストリームを送出する送出手段として機能させ、前記第2符号化手段は、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する。
 この構成によれば、MPEG-2規格に基づく再生装置による第1の品位の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えて、第1の品位より高品位な第2の品位の原映像を圧縮符号化することができる。
 本発明の一実施態様である映像再生装置は、前述の映像符号化装置により送出されるストリームを取得して復号及び再生する映像再生装置であって、前記MPEG-2形式のストリームを復号する第1復号手段と、前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号手段により復号されたピクチャを参照画像として復号する第2復号手段と、前記第2復号手段により得られた前記第2映像を再生する再生手段とを備える。
 本発明の一実施態様である映像再生方法は、前述の映像符号化方法により送出されるストリームを取得して復号及び再生する映像再生方法であって、前記MPEG-2形式のストリームを復号する第1復号ステップと、前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号ステップにより復号されたピクチャを参照画像として復号する第2復号ステップと、前記第2復号ステップにより得られた前記第2映像を再生する再生ステップとを含む。
 本発明の一実施態様である映像再生プログラムは、コンピュータを、前述の映像符号化装置により送出されるストリームを取得して復号及び再生する映像再生装置として機能させるための映像再生プログラムであって、前記コンピュータを、前記MPEG-2形式のストリームを復号する第1復号手段と、前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号手段により復号されたピクチャを参照画像として復号する第2復号手段と、前記第2復号手段により得られた前記第2映像を再生する再生手段として機能させる。
 この構成によれば、MPEG-2規格に基づく再生装置による第1の品位の原映像の再生互換性を保ちつつ、従来よりも必要とするデータ量の増加を抑えた、第1の品位より高品位な第2の品位の原映像を圧縮符号化したストリームから、第2の品位の原画像を復号、再生することができる。
(2)上記の各装置を構成する構成要素の一部又は全部は、1個のシステムLSIから構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory )などを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)やLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 更には、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然その技術を用いて機能ブロックの集積化を行ってもよい。
(3)上記の各装置は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、などから構成されるコンピュータシステムとしてもよい。前記RAM又は前記ハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここで、コンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(4)本発明は、上述の各処理の手順を表した方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD―ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc)、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。
 また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ適宜組み合わせるとしてもよい。
 本発明に係る映像符号化装置及び映像再生装置は、MPEG-2方式のストリームを再生する従来の再生装置での再生互換性を維持しながら、より高品位な映像の符号化、伝送、再生を実現するシステムを構成する機器として好適である。
 2602 2D互換ビデオエンコーダ
 2603 2D互換ビデオデコーダ
 2604 拡張マルチビュービデオエンコーダ
 2605 ベースビュービデオエンコーダ
 2606 2D互換ビデオ符号化情報
 2607 ベースビュービデオ符号化情報
 2608 2D互換ビデオフレームメモリ
 2609 ディペンデントビュービデオエンコーダ
 2610 マルチプレクサ
 2801 PIDフィルタ
 2802 TB(1)
 2803 MB(1)
 2804 EB(1)
 2805 2D互換ビデオ圧縮映像デコーダ
 2806 O(リオーダリングバッファ)
 2807 スイッチ
 2808 第1プレーン
 2809 TB(2)
 2810 MB(2)
 2811 EB(2)
 2812 TB(3)
 2813 MB(3)
 2814 EB(3)
 2815 デコードスイッチ
 2816 ビュー間参照バッファ
 2817 マルチビュービデオ圧縮映像デコーダ
 2818 DPB
 2819 出力プレーンスイッチ
 2820 第2プレーン
 2821 2D互換ビデオデコーダ
 2822 拡張マルチビュービデオデコーダ
 5401 データ作成装置
 5404 拡張マルチビュービデオエンコーダ
 5409 ディペンデントビュービデオエンコーダ
 5623 再生装置

Claims (16)

  1.  原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化手段と、
     MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化手段と、
     前記第1及び前記第2符号化手段により生成されたストリームを送出する送出手段とを備え、
     前記第2符号化手段は、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、
     一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する
     ことを特徴とする映像符号化装置。
  2.  前記第2符号化手段は、前記MPEG-4 MVC形式に準拠したストリームの生成において、当該ストリームに、前記参照画像が前記MPEG-2形式のストリームに含まれることを示す情報を含める
     ことを特徴とする請求項1記載の映像符号化装置。
  3.  前記第2符号化手段は、前記参照画像として、前記MPEG-2形式のストリームのピクチャのうち、PTS(Presentation Time Stamp)の値が、前記第2映像において符号化の対象となっている当該ピクチャに対応している前記ベースビュービデオストリームのピクチャのPTSの値と同一であるピクチャを選出する
     ことを特徴とする請求項2記載の映像符号化装置。
  4.  前記第1符号化手段及び前記第2符号化手段は、前記第1映像及び第2映像の圧縮符号化を同一のアスペクト比で行い、生成する前記各ストリームに、前記アスペクト比を示す情報を含める
     ことを特徴とする請求項2記載の映像符号化装置。
  5.  前記第2符号化手段は、前記疑似データとして、経時的変化のないピクチャ群を用いる
     ことを特徴とする請求項1記載の映像符号化装置。
  6.  前記第2符号化手段は、前記経時的変化のないピクチャ群として、単色の画像から成る画像群を用いる
     ことを特徴とする請求項2記載の映像符号化装置。
  7.  前記第2映像は、前記原映像を前記第1映像よりも高いビットレートで表現した映像であり、
     前記第2符号化手段は、前記ディペンデントビュービデオストリームに係る圧縮符号化として、対応するピクチャ間のビットレートの差に相当する情報を圧縮符号化する
     ことを特徴とする請求項1記載の映像符号化装置。
  8.  前記第2映像は、前記原映像を前記第1映像よりも高階調で表現した映像であり、
     前記ピクチャそれぞれは、当該ピクチャを構成する各ピクセルの階調を表す階調情報を有し、
     前記第2符号化手段は、前記ディペンデントビュービデオストリームに係る圧縮符号化として、対応するピクチャ間の階調情報の差分を圧縮符号化する
     ことを特徴とする請求項1記載の映像符号化装置。
  9.  前記第2映像は、前記原映像を前記第1映像よりも高解像度で表現した映像であり、
     前記第2符号化手段は、前記参照画像として、前記第2映像の解像度に変換した前記MPEG-2形式のストリームのピクチャを用いる
     ことを特徴とする請求項1記載の映像符号化装置。
  10.  前記第1映像は、前記原映像をインターレース形式で表現した映像であり、
     前記第2映像は、前記原映像をプログレッシブ形式で表現した映像であり、
     前記第2符号化手段は、トップフィールド及びボトムフィールドの各ピクチャを前記参照画像として用いる場合に、当該ピクチャの解像度を前記第2映像の解像度に変換して用いる
     ことを特徴とする請求項9記載の映像符号化装置。
  11.  前記第2符号化手段は、前記第2映像として、前記原映像を前記第1映像よりも高いビットレートで表現した映像、前記原映像を前記第1映像よりも高階調で表現した映像及び前記原映像を前記第1映像よりも高解像度で表現した映像のいずれかを用い、いずれの映像を用いたかを示すディスクリプタを、前記ベースビュービデオストリーム及び前記ディペンデントビューストリームの少なくとも一方に含める
     ことを特徴とする請求項1記載の映像符号化装置。
  12.  原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化ステップと、
     MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化ステップと、
     前記第1及び前記第2符号化手段により生成されたストリームを送出する送出ステップとを含み、
     前記第2符号化ステップにおいて、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、
     一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する
     ことを特徴とする映像符号化方法。
  13.  コンピュータを映像符号化装置として機能させるための映像符号化プログラムであって、
     前記コンピュータを、
     原映像を第1の品位に変換した第1映像を圧縮符号化することによりMPEG-2形式のストリームを生成する第1符号化手段と、
     MPEG-4 MVC形式に準拠しベースビュービデオストリームとディペンデントビュービデオストリームとを生成する第2符号化手段と、
     前記第1及び前記第2符号化手段により生成されたストリームを送出する送出手段として機能させ、
     前記第2符号化手段は、前記ベースビュービデオストリームとして、前記第1映像を圧縮符号化して得られるストリームとピクチャ数が同一であって、総データ量を少なくした疑似データから成るストリームを生成し、
     一方、前記ディペンデントビュービデオストリームとして、前記原映像を前記第1の品位より高い第2の品位に変換した第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記MPEG-2形式のストリームのピクチャを参照画像として圧縮符号化したストリームを生成する
     ことを特徴とする映像符号化プログラム。
  14.  請求項1記載の映像符号化装置により送出されるストリームを取得して復号及び再生する映像再生装置であって、
     前記MPEG-2形式のストリームを復号する第1復号手段と、
     前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号手段により復号されたピクチャを参照画像として復号する第2復号手段と、
     前記第2復号手段により得られた前記第2映像を再生する再生手段とを備える
     ことを特徴とする映像再生装置。
  15.  請求項12記載の映像符号化方法により送出されるストリームを取得して復号及び再生する映像再生方法であって、
     前記MPEG-2形式のストリームを復号する第1復号ステップと、
     前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号ステップにより復号されたピクチャを参照画像として復号する第2復号ステップと、
     前記第2復号ステップにより得られた前記第2映像を再生する再生ステップとを含む
     ことを特徴とする映像再生方法。
  16.  コンピュータを、請求項1記載の映像符号化装置により送出されるストリームを取得して復号及び再生する映像再生装置として機能させるための映像再生プログラムであって、
     前記コンピュータを、
     前記MPEG-2形式のストリームを復号する第1復号手段と、
     前記ベースビュービデオストリームを復号し、前記ディペンデントビューストリームの復号において第2映像の各ピクチャを、前記ベースビュービデオストリームにおいて当該ピクチャに対応するピクチャと同時刻の前記第1復号手段により復号されたピクチャを参照画像として復号する第2復号手段と、
     前記第2復号手段により得られた前記第2映像を再生する再生手段として機能させる
     ことを特徴とする映像再生プログラム。
PCT/JP2012/000974 2011-02-16 2012-02-15 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム WO2012111320A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CA2823288A CA2823288C (en) 2011-02-16 2012-02-15 Video encoder, video encoding method, video encoding program, video reproduction device, video reproduction method, and video reproduction program
US13/978,458 US9277217B2 (en) 2011-02-16 2012-02-15 Video coding device for coding videos of a plurality of qualities to generate streams and video playback device for playing back streams
MX2013008311A MX2013008311A (es) 2011-02-16 2012-02-15 Codificador de video, metodo de codificacion de video, programa de codificacion de video, metodo de reproduccion de video y programa de reproduccion de video.
JP2012557833A JP5906462B2 (ja) 2011-02-16 2012-02-15 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
BR112013020867A BR112013020867A2 (pt) 2011-02-16 2012-02-15 codificador de vídeo, método de codificação de vídeo, programa de codificação de vídeo, dispositivo de reprodução de vídeo, método de reprodução de vídeo, e programa de reprodução de vídeo

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161443353P 2011-02-16 2011-02-16
US61/443,353 2011-02-16

Publications (1)

Publication Number Publication Date
WO2012111320A1 true WO2012111320A1 (ja) 2012-08-23

Family

ID=46672264

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/000974 WO2012111320A1 (ja) 2011-02-16 2012-02-15 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム

Country Status (7)

Country Link
US (1) US9277217B2 (ja)
JP (1) JP5906462B2 (ja)
BR (1) BR112013020867A2 (ja)
CA (1) CA2823288C (ja)
MX (1) MX2013008311A (ja)
TW (1) TW201251467A (ja)
WO (1) WO2012111320A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104604242A (zh) * 2012-09-07 2015-05-06 索尼公司 传输设备、传输方法、接收设备和接收方法
CN114394100A (zh) * 2022-01-12 2022-04-26 深圳力维智联技术有限公司 一种无人巡逻车控制系统及无人车

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006044476A2 (en) 2004-10-12 2006-04-27 Robert Vernon Vanman Method of and system for mobile surveillance and event recording
WO2009102477A1 (en) 2008-02-15 2009-08-20 Enforcement Video, Llc System and method for high-resolution storage of images
BR112013017322A2 (pt) * 2011-11-11 2017-03-01 Sony Corp dispositivo e método de transmissão, e, método de recepção
US9066082B2 (en) * 2013-03-15 2015-06-23 International Business Machines Corporation Forensics in multi-channel media content
CN106031180A (zh) * 2014-02-18 2016-10-12 Lg电子株式会社 收发用于全景服务的广播信号的方法和设备
US20150253974A1 (en) 2014-03-07 2015-09-10 Sony Corporation Control of large screen display using wireless portable computer interfacing with display controller
CN113613009B (zh) * 2015-02-27 2024-06-25 索尼公司 发送装置、发送方法、接收装置和接收方法
CN106776663B (zh) * 2015-11-25 2020-11-10 腾讯科技(深圳)有限公司 音频文件的压缩方法和装置
US10341605B1 (en) 2016-04-07 2019-07-02 WatchGuard, Inc. Systems and methods for multiple-resolution storage of media streams
US10769818B2 (en) * 2017-04-09 2020-09-08 Intel Corporation Smart compression/decompression schemes for efficiency and superior results
CN113949930B (zh) * 2020-07-17 2024-03-12 晶晨半导体(上海)股份有限公司 选取参考帧的方法、电子设备和存储介质
US20220311984A1 (en) * 2021-03-26 2022-09-29 Lightspace Technologies, SIA System and method for rendering three-dimensional image content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191394A (ja) * 1996-12-24 1998-07-21 Sharp Corp 多視点画像符号化装置
JPH1185966A (ja) * 1997-07-18 1999-03-30 Sony Corp 画像信号多重化装置および方法、画像信号逆多重化装置および方法、並びに伝送媒体
JP2010512096A (ja) * 2006-12-08 2010-04-15 韓國電子通信研究院 非リアルタイムベースのデジタル実感放送送受信システム及びその方法
JP2011004411A (ja) * 2009-02-19 2011-01-06 Panasonic Corp 半導体集積回路
JP2011019224A (ja) * 2009-07-07 2011-01-27 Korea Electronics Telecommun デジタル放送システムのステレオスコピックビデオ送受信方法およびその装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055012A (en) * 1995-12-29 2000-04-25 Lucent Technologies Inc. Digital multi-view video compression with complexity and compatibility constraints
EP2175666B1 (en) * 1996-12-04 2012-11-14 Panasonic Corporation Optical disk for high resolution and three-dimensional video recording, optical disk reproduction apparatus, and optical disk recording apparatus
CA2265609C (en) 1997-07-18 2005-05-17 Sony Corporation Method and system for multiplexing image signal, method and system for demultiplexing image signal, and transmission medium
US7133449B2 (en) * 2000-09-18 2006-11-07 Broadcom Corporation Apparatus and method for conserving memory in a fine granularity scalability coding system
JP4346868B2 (ja) * 2002-06-17 2009-10-21 株式会社日立製作所 動画符号化装置、及び動画記録再生装置、及び動画再生装置、及び動画符号化方法ならびに動画記録再生方法
US7720999B2 (en) * 2002-11-26 2010-05-18 Qualcomm Incorporated System and method for optimizing multimedia compression using plural encoders
JP2006237656A (ja) * 2003-02-28 2006-09-07 Secom Co Ltd 符号化信号分離・合成装置、差分符号化信号生成装置、差分符号化信号抽出装置、符号化信号分離・合成方法、符号化信号分離・合成プログラム
US7610603B2 (en) * 2004-03-26 2009-10-27 Broadcom Corporation Multistream video communication with staggered access points
US20060271990A1 (en) * 2005-05-18 2006-11-30 Rodriguez Arturo A Higher picture rate HD encoding and transmission with legacy HD backward compatibility
KR101366092B1 (ko) * 2006-10-13 2014-02-21 삼성전자주식회사 다시점 영상의 부호화, 복호화 방법 및 장치
US20090320081A1 (en) * 2008-06-24 2009-12-24 Chui Charles K Providing and Displaying Video at Multiple Resolution and Quality Levels
JP2010041336A (ja) * 2008-08-04 2010-02-18 Toshiba Corp 画像処理装置、および画像処理方法
JP4574748B2 (ja) * 2009-02-19 2010-11-04 パナソニック株式会社 記録媒体、再生装置、記録方法、記録媒体再生システム
JP2010263615A (ja) * 2009-04-08 2010-11-18 Sony Corp 情報処理装置、情報処理方法、再生装置、再生方法
JP2010245970A (ja) * 2009-04-08 2010-10-28 Sony Corp 再生装置、再生方法、およびプログラム
US20110216827A1 (en) * 2010-02-23 2011-09-08 Jiancong Luo Method and apparatus for efficient encoding of multi-view coded video data
KR101362943B1 (ko) * 2010-06-30 2014-02-17 한국전자통신연구원 통신 시스템에서 데이터 송수신 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191394A (ja) * 1996-12-24 1998-07-21 Sharp Corp 多視点画像符号化装置
JPH1185966A (ja) * 1997-07-18 1999-03-30 Sony Corp 画像信号多重化装置および方法、画像信号逆多重化装置および方法、並びに伝送媒体
JP2010512096A (ja) * 2006-12-08 2010-04-15 韓國電子通信研究院 非リアルタイムベースのデジタル実感放送送受信システム及びその方法
JP2011004411A (ja) * 2009-02-19 2011-01-06 Panasonic Corp 半導体集積回路
JP2011019224A (ja) * 2009-07-07 2011-01-27 Korea Electronics Telecommun デジタル放送システムのステレオスコピックビデオ送受信方法およびその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TETSUO NOZAWA ET AL.: "Sekai de Hajimaru 3D Hoso Gyokai Hyojun Meguru Arasoi Gekika", NIKKEI ELECTRONICS, NIKKEI BUSINESS PUBLICATIONS, INC., no. 1028, 19 April 2010 (2010-04-19), pages 55 - 62 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104604242A (zh) * 2012-09-07 2015-05-06 索尼公司 传输设备、传输方法、接收设备和接收方法
CN104604242B (zh) * 2012-09-07 2018-06-05 索尼公司 发送设备、发送方法、接收设备和接收方法
US10432957B2 (en) 2012-09-07 2019-10-01 Saturn Licensing Llc Transmission device, transmitting method, reception device, and receiving method
US10951910B2 (en) 2012-09-07 2021-03-16 Saturn Licensing Llc Transmission device, transmitting method, reception device, and receiving method
US11700388B2 (en) 2012-09-07 2023-07-11 Saturn Licensing Llc Transmission device, transmitting method, reception device, and receiving method
CN114394100A (zh) * 2022-01-12 2022-04-26 深圳力维智联技术有限公司 一种无人巡逻车控制系统及无人车
CN114394100B (zh) * 2022-01-12 2024-04-05 深圳力维智联技术有限公司 一种无人巡逻车控制系统及无人车

Also Published As

Publication number Publication date
US20130287090A1 (en) 2013-10-31
JPWO2012111320A1 (ja) 2014-07-03
US9277217B2 (en) 2016-03-01
CA2823288A1 (en) 2012-08-23
MX2013008311A (es) 2013-09-06
JP5906462B2 (ja) 2016-04-20
TW201251467A (en) 2012-12-16
BR112013020867A2 (pt) 2016-09-27
CA2823288C (en) 2019-05-07

Similar Documents

Publication Publication Date Title
JP5906462B2 (ja) 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
WO2012111325A1 (ja) 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
JP6229962B2 (ja) 符号化装置及び符号化方法
JP4134027B2 (ja) 画像符号化装置、画像復号装置、及び画像記録装置
EP3399755B1 (en) Depth map delivery formats for stereoscopic and auto-stereoscopic displays
KR101812612B1 (ko) 3d 비디오 신호를 생성하는 방법
WO2012057164A1 (ja) 符号化方法、表示装置、復号方法
RU2605368C2 (ru) Способ формирования и восстановления стереоскопически совместимого видеопотока и связанные с ним устройства кодирования и декодирования
US9357200B2 (en) Video processing device and video processing method
WO2012169204A1 (ja) 送信装置、受信装置、送信方法及び受信方法
JP6008292B2 (ja) ビデオストリームの映像のデータ作成装置及び再生装置
JP2011211605A (ja) 画像再生装置、画像再生方法及び画像再生用プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12747400

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2823288

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 13978458

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: MX/A/2013/008311

Country of ref document: MX

ENP Entry into the national phase

Ref document number: 2012557833

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013020867

Country of ref document: BR

122 Ep: pct application non-entry in european phase

Ref document number: 12747400

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 112013020867

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130815