WO2012057164A1 - 符号化方法、表示装置、復号方法 - Google Patents

符号化方法、表示装置、復号方法 Download PDF

Info

Publication number
WO2012057164A1
WO2012057164A1 PCT/JP2011/074586 JP2011074586W WO2012057164A1 WO 2012057164 A1 WO2012057164 A1 WO 2012057164A1 JP 2011074586 W JP2011074586 W JP 2011074586W WO 2012057164 A1 WO2012057164 A1 WO 2012057164A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
stream
playback
video stream
information
Prior art date
Application number
PCT/JP2011/074586
Other languages
English (en)
French (fr)
Inventor
泰治 佐々木
西 孝啓
川口 透
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to KR1020137008616A priority Critical patent/KR20130135244A/ko
Priority to EP11836297.9A priority patent/EP2635033A1/en
Priority to CN2011800512729A priority patent/CN103202023A/zh
Priority to JP2012540892A priority patent/JP5336666B2/ja
Priority to MX2013004068A priority patent/MX2013004068A/es
Publication of WO2012057164A1 publication Critical patent/WO2012057164A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]

Definitions

  • the present invention relates to an encoding method technique, and particularly to an encoding method technique for a transport stream related to 3D video.
  • 3D programs are broadcast by side-by-side video streams that enable 3D playback to be multiplexed into 1TS (one transport stream), and broadcast stations can use 1TS on TV display devices in each household. Made by supplying.
  • the side-by-side method is a method that realizes 3D playback by horizontally arranging a left-eye image necessary for stereoscopic viewing and a right-eye image necessary for stereoscopic viewing and packaging them in one frame area (patent) Reference 1).
  • the conventional 3D display device determines whether or not the input video stream is 3D video. When it is determined that the video stream is 3D video, the picture data of each frame constituting the video stream is always in a side-by-side format. The right eye image and the left eye image are decoded on the assumption that the right eye image is stored in the right half and the left eye image is stored in the left half.
  • 3D TV broadcasting is a 1TS-1VS system (a system that transmits one video stream with one transport stream), and switching between 3D mode and 2D mode is not realized. Therefore, the user can only view the 3D television broadcast as 3D video, and it cannot be said that sufficient consideration is given to the user.
  • 1TS-1VS system a system that transmits one video stream with one transport stream
  • the transport stream storing the video stream for the right eye and the transport stream storing the video stream for the left eye are read from the BD-ROM and provided to the decoder, so that the 2D mode and 3D mode Free mode switching is realized.
  • these two transport streams (2TS) are converted into interleaved files. Recorded on BD-ROM.
  • the transport stream that can be used for one TV program is 1TS
  • the video stream for the right eye and the video stream for the left eye are used by using two TSs. It cannot be transmitted.
  • An object of the present invention is to provide an encoding method capable of realizing free mode switching between 2D mode and 3D mode on the assumption that a transport stream that can be used for one TV program is 1TS. It is.
  • an encoding method includes an encoding step for compressing and encoding an image to generate a video stream, and a multiplexing process for a plurality of video streams generated by the encoding step. And a multiplexing step for obtaining one transport stream, and the plurality of video streams include a 2D video stream constituting a 2D video, and a 3D video is configured by combining the plurality of video streams,
  • the combination of video streams constituting 3D video includes a combination of the 2D video stream and one other video stream, and a combination of two or more other video streams other than the 2D video stream, and the transport stream includes: 3D video that identifies the video streams that make up the 3D video It includes image specifying information.
  • the transport stream is used when the display device is performing 2D playback and switching to 3D playback. By referring to the associated information, it is possible to know which video stream is necessary for 3D playback.
  • the content table is stored when the content table is arranged at the beginning of the transport stream or arranged at predetermined intervals.
  • the 2D video stream, the left-eye video stream constituting the left-eye video, and the video stream constituting the right-eye video each have information indicating a corresponding stream identifier in the transport stream, 2D playback, or In 3D playback, a video stream to be demultiplexed can be specified, and switching of the demultiplexing target between the 2D mode and the 3D mode can be performed at high speed.
  • the content table has a flag indicating whether or not any of the 2D video stream and a plurality of video streams constituting the 3D video matches, so the packet storing the content table is transferred.
  • the camera assignment in the stream descriptor indicates the channel configuration of the camera, the camera environment at the time of shooting can be reproduced during playback.
  • information indicating which of the 2D video stream and the other video stream to use the closed caption subtitle data existing in the video stream is described in the content table.
  • the video stream to be demultiplexed can be specified by referring to the stream information.
  • Video can be played back.
  • the stream identifier of the video stream that is the partner of the combination is described in the stream information corresponding to each video stream in the content table, it is necessary for 3D playback by referring to the stream information The other video stream can be identified.
  • FIG. 38 is a diagram illustrating the structure of 3D_system_info_descriptor in the stream configuration of 2D + L + R. It is a figure which shows the value set to 3D_playback_type
  • Fig. 10 is a diagram illustrating a structure of 3D_service_info_descriptor in a stream configuration of 2D + L + R.
  • Fig. 11 is a diagram illustrating a structure of 3D_combi_info_descriptor in a stream configuration of 2D + L + R.
  • FIG. 3 is a diagram illustrating a transstream configuration (2D + Side-by-Side) that stores Side-by-Side video in addition to 2D video.
  • FIG. 5 is a diagram illustrating a transport stream configuration (2D + R1 + R2) that stores R video videos of multiple viewpoints in addition to video used as L video during 2D playback and 3D playback.
  • FIG. 11 is a diagram illustrating a structure of 3D_system_info_descriptor in a stream configuration of 2D ⁇ ⁇ ⁇ ⁇ + R1 + R2. [Fig. 10] Fig. 10 is a diagram illustrating a structure of 3D_service_info_descriptor in a stream configuration of 2D + R1 + R2. [Fig. 11] Fig. 11 is a diagram illustrating a structure of 3D_combi_info_descriptor in a stream configuration of 2D + R1 + R2.
  • FIG. 10 is a flowchart showing a flow of encoding processing of the data creation device 4000. It is a figure which shows the internal structure of 3D digital television 4200.
  • FIG. 21 is a flowchart illustrating an example of a flow of program reproduction processing by the 3D digital television 4200. It is a flowchart which shows the flow of a process of the stream of 2D (+) + SBS. It is a flowchart which shows the flow of a 2D / SBS stream process. It is a flowchart which shows the flow of a process of the stream of 2D / L custom character + custom character R.
  • 10 is a flowchart showing a flow of processing of a stream of 2D / L + R1 + R2.
  • 10 is a flowchart showing a flow of MPEG2 ⁇ + AVC + AVC stream processing.
  • 10 is a flowchart showing a flow of processing of a stream of MPEG2 + (MVC (Base) + (MVC (Dependent).
  • the right eye and the left eye have a slight difference in appearance between the image seen from the right eye and the image seen from the left eye due to the difference in position. Using this difference, a human can recognize a visible image as a solid.
  • a planar image is made to look like a three-dimensional image using human parallax.
  • the time-separation method is a method in which left-eye video and right-eye video are alternately displayed in the time axis direction, and left and right scenes are superimposed in the brain by an afterimage reaction of the eyes to be recognized as a stereoscopic video.
  • FIG. 24 schematically shows an example of generating parallax images of a left-eye video and a right-eye video from a 2D video and a depth map.
  • the depth map has a depth value corresponding to each pixel in the 2D video.
  • the circular object in the 2D video is assigned information indicating that the depth map has a high depth.
  • the area is assigned information indicating that the depth is low.
  • This information may be stored as a bit string for each pixel, or may be stored as an image (for example, “black” indicates that the depth is low and “white” indicates that the depth is high).
  • the parallax image can be created by adjusting the parallax amount of the 2D video from the depth value of the depth map. In the example of FIG. 24, since the depth value of the circular object in the 2D video is high, when creating a parallax image, the amount of parallax of the pixel of the circular object is increased, and the depth value is low in regions other than the circular object.
  • the left-eye image and the right-eye image are created by reducing the amount of parallax of the pixels of the circular object. If the left-eye image and the right-eye image are displayed using a time separation method or the like, stereoscopic viewing is possible.
  • the playback device in the present embodiment is a device that decodes 2D video or 3D video and transfers the video to the display.
  • a digital television will be described as an example.
  • the digital television includes a playback device 100 that can view 3D video and a 2D digital television 300 that can play back only 2D video that does not support playback of 3D video.
  • FIG. 2 (a) is a diagram showing a form of usage of the playback device. As shown in the figure, the digital television 100 and the 3D glasses 200 are configured and can be used by the user.
  • the playback device 100 can display 2D video and 3D video, and displays video by playing back a stream included in the received broadcast wave.
  • the playback apparatus 100 realizes stereoscopic viewing by wearing 3D glasses 200 by a user.
  • the 3D glasses 200 include a liquid crystal shutter, and allow a user to view a parallax image by the continuous separation method.
  • the parallax image is a set of videos composed of a video that enters the right eye and a video that enters the left eye, and performs stereoscopic viewing so that only pictures corresponding to each eye enter the user's eyes.
  • FIG. 2B shows the display time of the left-eye video.
  • the above-described 3D glasses 200 transmit the liquid crystal shutter corresponding to the left eye and shield the liquid crystal shutter corresponding to the right eye.
  • FIG. 3C shows the time when the right-eye video is displayed.
  • the liquid crystal shutter corresponding to the right eye is made transparent, and the liquid crystal shutter corresponding to the left eye is shielded from light.
  • the left and right pictures are alternately output in the time axis direction in the previous time separation method, whereas the left-eye picture and right-eye picture in the vertical direction in one screen.
  • the picture for the left eye is imaged only on the left eye and the picture for the right eye is only on the right eye through the lens on the eyelid called lenticular lens on the display surface.
  • lenticular lens There is a method in which a picture with parallax can be shown and viewed as 3D by forming images.
  • a device having a similar function for example, a liquid crystal element may be used.
  • the left eye pixel is equipped with a vertically polarized filter
  • the right eye pixel is equipped with a horizontally polarized filter
  • the viewer is provided with polarized glasses with a vertically polarized filter for the left eye and a horizontally polarized filter for the right eye.
  • polarized glasses with a vertically polarized filter for the left eye and a horizontally polarized filter for the right eye.
  • the 2D digital television 300 cannot realize stereoscopic viewing, unlike playback device 100, as shown in FIG. 2 (d).
  • the 2D digital television 300 can display only 2D video, and can reproduce the stream included in the received broadcast wave only as 2D video.
  • the MPEG-2 transport stream is a standard for multiplexing and transmitting various streams such as video and audio. It is standardized in ISO / IEC13818-1 and ITU-T recommendation H222.0.
  • FIG. 6 is a diagram showing the configuration of a digital stream in the MPEG-2 transport stream format.
  • a transport stream is obtained by multiplexing a video stream, an audio stream, a subtitle stream, and the like.
  • the video stream stores the main video of the program
  • the audio stream stores the main audio portion and sub-audio of the program
  • the subtitle stream stores the subtitle information of the program.
  • the video stream is encoded and recorded using a method such as MPEG-2, MPEG-4 AVC.
  • the audio stream is compressed and encoded and recorded by a method such as Dolby AC-3, MPEG-2 AAC, MPEG-4 AAC, HE-AAC.
  • moving picture compression coding such as MPEG-2, MPEG-4 AVC, SMPTE VC-1, etc.
  • data amount is compressed using redundancy in the spatial direction and temporal direction of moving images.
  • inter-picture predictive coding is used as a method of using temporal redundancy.
  • inter-picture predictive coding when a certain picture is coded, a picture that is forward or backward in display time order is used as a reference picture. Then, the amount of motion from the reference picture is detected, and the amount of data is compressed by removing the redundancy in the spatial direction from the difference value between the motion compensated picture and the picture to be coded.
  • a picture that does not have a reference picture and performs intra-picture predictive coding using only a picture to be coded is called an I picture.
  • a picture is a unit of encoding that includes both a frame and a field.
  • a picture that is inter-picture prediction encoded with reference to one already processed picture is called a P picture
  • a picture that is inter-picture predictively encoded with reference to two already processed pictures at the same time is called a B picture.
  • a picture that is referred to by other pictures in the B picture is called a Br picture.
  • a field having a frame structure and a field having a field structure are referred to as a video access unit here.
  • the video stream has a hierarchical structure as shown in FIG.
  • a video stream is composed of a plurality of GOPs (Group of Pictures). By using this as a basic unit for encoding processing, editing and random access of moving images are possible.
  • a GOP is composed of one or more video access units.
  • the video access unit is a unit for storing coded data of a picture, and stores data of one frame in the case of a frame structure and one field in the case of a field structure.
  • Each video access unit includes an AU identification code, a sequence header, a picture header, supplementary data, compressed picture data, padding data, a sequence end code, a stream end code, and the like.
  • Each data is stored in units called NAL units in the case of MPEG-4 AVC.
  • AU identification code is a start code indicating the head of the access unit.
  • the sequence header is a header that stores common information in a playback sequence composed of a plurality of video access units, and stores information such as resolution, frame rate, aspect ratio, and bit rate.
  • the picture header is a header that stores information such as the coding method of the entire picture.
  • the supplemental data is additional information that is not essential for decoding the compressed data, and stores, for example, closed caption character information or GOP structure information that is displayed on the TV in synchronization with the video.
  • the compressed picture data stores compression-encoded picture data.
  • the padding data stores meaningless data for formatting. For example, it is used as stuffing data for maintaining a predetermined bit rate.
  • the sequence end code is data indicating the end of the reproduction sequence.
  • the stream end code is data indicating the end of the bit stream.
  • the configuration of the contents of the AU identification code, sequence header, picture header, supplemental data, compressed picture data, padding data, sequence end code, and stream end code differ depending on the video encoding method.
  • the AU identification code is AU delimiter (Access Unit Delimiter)
  • the sequence header is SPS (Sequence Parameter Set)
  • the picture header is PPS (Picture Parameter Set)
  • compressed picture data Indicates multiple slices
  • supplemental data corresponds to SEI (Supplemental Enhancement Information)
  • padding data corresponds to FillerData
  • sequence end code corresponds to End of Sequence
  • stream end code corresponds to End of Stream.
  • the sequence header corresponds to sequence_Header, sequence_extension, group_of_picture_header, the picture header corresponds to picture_header, picture_coding_extension, the compressed picture data corresponds to a plurality of slices, the supplemental data corresponds to user_data, and the sequence end code corresponds to sequence_end_code.
  • the sequence header may be necessary only in the video access unit at the head of the GOP and may not be present in other video access units.
  • the picture header may refer to that of the previous video access unit, and there is no picture header in its own video access unit.
  • the cropping area information and the scaling information will be described with reference to FIG.
  • the area of the encoded frame and the area actually used for display can be changed.
  • an area to be actually displayed out of the encoded frame area can be designated as a “cropping area”.
  • the frame_cropping information is obtained by dividing the difference between the upper line / underline / left line / right line of the cropping area and the upper line / underline / left line / right line of the encoded frame area. Specify as an amount.
  • frame_cropping_flag is set to 1, and the upper / lower / left / right crop amounts are specified in frame_crop_top_offset // frame_crop_bottom_offset // frame_crop_left_offset // frame_crop_right_offset.
  • the vertical and horizontal sizes of the cropping area (display_horizontal_size of sequence_display_extension, display_vertical_size) and the difference information (frame_centre_horizontal_offset of picture_display_extension, frame_centre_vertical_offset) of the center of the encoded frame area and the center of the cropping area are used.
  • a cropping area can be specified.
  • scaling information indicating a scaling method when the cropping area is actually displayed on a television or the like. This is set as an aspect ratio, for example.
  • the playback device uses the aspect ratio information to up-convert the cropping area for display.
  • aspect ratio information (aspect_ratio_idc) is stored in the SPS as scaling information.
  • the aspect ratio is specified as 4: 3.
  • aspect ratio information (aspect_ratio_information) is stored in sequence_header.
  • Each stream included in the transport stream is identified by a stream identification ID called PID.
  • PID stream identification ID
  • the composite apparatus can extract the target stream.
  • the correspondence between PID and stream is stored in the descriptor of the PMT packet described later.
  • FIG. 6 is a diagram schematically showing how the transport stream is multiplexed.
  • a video stream 501 composed of a plurality of video frames and an audio stream 504 composed of a plurality of audio frames are converted into PES packet sequences 502 and 505, respectively, and converted into TS packets 503 and 506, respectively.
  • the data of the subtitle stream 507 is converted into a PES packet sequence 508 and further converted into a TS packet 509.
  • the MPEG-2 transport stream 513 is configured by multiplexing these TS packets into one stream.
  • FIG. 8 shows in more detail how the video stream is stored in the PES packet sequence.
  • the first level in the figure shows a video frame sequence of the video stream.
  • the second level shows a PES packet sequence.
  • multiple Video Presentation Unit I pictures, B pictures, and P pictures in the video stream are divided for each picture and stored in the payload of the PES packet.
  • Each PES packet has a PES header, and a PTS (Presentation Time-Stamp) that is a picture display time and a DTS (Decoding Time-Stamp) that is a picture decoding time are stored in the PES header.
  • PTS Presentation Time-Stamp
  • DTS Decoding Time-Stamp
  • FIG. 9 shows the data structure of TS packets constituting the transport stream.
  • the TS packet is a 188-byte fixed-length packet composed of a 4-byte TS header, an adaptation field, and a TS payload.
  • the TS header includes transport_priority, PID, adaptation_field_control, and the like.
  • the PID is an ID for identifying a stream multiplexed in the transport stream as described above.
  • the transport_priority is information for identifying the type of packet in TS packets with the same PID.
  • adaptation_field_control is information for controlling the configuration of the adaptation field and the TS payload. There are cases where only one of the adaptation field and the TS payload exists or both, and adaptation_field_control indicates the presence / absence thereof. When adaptation_field_control is 1, only the TS payload exists, when adaptation_field_control is 2, only the adaptation field exists, and when adaptation_field_control is 3, it indicates that both the TS payload and the adaptation field exist.
  • the adaptation field is a storage area for storing information such as PCR and stuffing data to make the TS packet a fixed length of 188 bytes. PTS packets are divided and stored in the TS payload.
  • TS packets included in the transport stream include PAT (Program Association Table), PMT (Program Map Table), PCR (Program Clock Reference), etc. in addition to video, audio, and subtitle streams. These packets are called PSI (Program Specific Information).
  • the PAT indicates what the PMT PID used in the transport stream is, and the PAT of the PAT itself is registered with 0.
  • the PMT has PID of each stream such as video / audio / subtitles included in the transport stream and stream attribute information corresponding to each PID, and has various descriptors related to the transport stream.
  • the descriptor includes copy control information for instructing permission / non-permission of copying of the AV stream.
  • the PCR information on the STC time corresponding to the timing at which the PCR packet is transferred to the decoder have.
  • FIG. 10 is a diagram for explaining the data structure of the PMT in detail.
  • a PMT header describing the length of data included in the PMT is arranged at the head of the PMT. After that, a plurality of descriptors related to the transport stream are arranged.
  • the copy control information described above is described as a descriptor.
  • a plurality of pieces of stream information regarding each stream included in the transport stream are arranged after the descriptor.
  • the stream information is composed of a stream descriptor in which a stream type, a stream PID, and stream attribute information (frame rate, aspect ratio, etc.) are described to identify the compression codec of the stream. *
  • FIG. 3 shows the user's face on the left side, and the right side shows an example when the dinosaur skeleton as the object is viewed from the left eye and the example when the dinosaur skeleton as the object is viewed from the right eye. ing. If it repeats from the translucency and shading of the right eye and the left eye, the left and right scenes are overlapped by the afterimage reaction of the eyes in the user's brain, and it can be recognized that there is a stereoscopic image on the extension line in the center of the face. .
  • an image entering the left eye is referred to as a left eye image (L image), and an image entering the right eye is referred to as a right eye image (R image).
  • L image left eye image
  • R image right eye image
  • a moving image in which each picture is an L image is referred to as a left view video
  • a moving image in which each picture is an R image is referred to as a right view video.
  • the 3D video format that compresses and encodes the left-view video and the right-view video includes a frame compatible method and a service compatible method.
  • the first frame compatible method is a method of performing normal moving image compression coding by thinning out or reducing the corresponding pictures of the left-view video and right-view video and combining them into one picture. .
  • each corresponding picture of the left-view video and the right-view video is compressed in half in the horizontal direction and then combined in one picture by arranging them side by side.
  • a moving image based on the combined picture is streamed by performing normal moving image compression encoding.
  • the stream is decoded into a moving image based on a normal moving image compression encoding method.
  • Each picture of the decoded moving image is divided into left and right images, and each picture corresponding to left-view video and right-view video is obtained by extending the picture in the horizontal direction twice.
  • a stereoscopic image as shown in FIG. 2 can be obtained by alternately displaying the obtained left-view video picture (L image) and right-view video picture (R image).
  • the frame compatible method includes the Top and Bottom method in which left and right images are arranged vertically, and the Line Alternative method in which left and right images are alternately arranged for each line in a picture.
  • FIG. 1 is a diagram for explaining frame packing information.
  • the lower part of FIG. 1 shows a video frame sequence.
  • the section (A) is a section where Side-by-Side video is played back
  • the section (B) is a section where 2D video is played back
  • the section (C) is a section where TopBottom video is played back.
  • An example of frame packing information in such a playback section is shown in the upper part of FIG.
  • the frame packing information includes a frame storage type, a cancel flag, and a repeat flag.
  • the frame storage type indicates the type of method for storing the left and right images for stereoscopic viewing in the frame.
  • the methods such as “Side-by-Side”, “TopBottom”, “Checkerboard”, and “Line-by-line” described above are used. It is information to identify.
  • the Frame_packing_arrangement of MPEG-4 AVC corresponds to the Frame_packing_arrangement_type.
  • the repeat flag indicates the validity period of the frame packing information. If it is 0, it indicates that the frame packing information is valid only for the corresponding frame. If it is 1, the next video sequence comes as the corresponding frame packing information. Or until a frame having frame packing information later than the corresponding frame in the display order comes.
  • MPEG-4 AVC Frame_packing_arrangement corresponds to Frame_packing_arrangement_repetition_period.
  • the cancel flag is a flag for canceling the valid period of the previous frame packing information. When the cancel flag is 1, the previously transmitted frame packing information is canceled, and when it is 0, the corresponding frame packing information is valid.
  • MPEG-4 AVC Frame_packing_arrangement corresponds to Frame_packing_arrangement_cancel_flag.
  • the frame packing information (A) stored at the beginning of the Side-by-Side playback section the frame storage type is Side-by-Side, the repeat flag is 1, and the cancel flag is 0. Since no frame packing information is stored at the head of the Side-by-Side playback section and the repeat flag is 1, the frame sequence of this section has a head at the head of the Side-by-Side playback section.
  • the stored frame packing information (A) is valid.
  • the cancel flag is 1, and the frame storage type and repeat flag are not stored. Since frame packing information is unnecessary in the 2D section, no frame packing information is stored after cancellation at the head.
  • frame packing information (C) is stored in all frames.
  • the frame storage type of the frame packing information (C) is TopBottom, the repeat flag is 0, and the cancel flag is 0. Since the repeat flag is 0, it is necessary to store frame packing information in all frames in order to indicate that all frames are TopBottom.
  • the playback apparatus can realize stereoscopic display processing according to the method by referring to the information.
  • a left-view video stream and a right-view video stream which are video streams obtained by digitizing and compression-coding left-view video and right-view video, are used.
  • the left-view video and the right-view video that are compression-encoded by the inter-picture predictive encoding technique using the correlation characteristic between the viewpoints is particularly called a multi-view encoding system.
  • FIG. 5 is a diagram illustrating an example of an internal configuration of a left-view video stream and a right-view video stream for stereoscopic viewing using a multi-view encoding method.
  • the second row in the figure shows the internal structure of the left-view video stream.
  • This stream includes picture data of picture data I1, P2, Br3, Br4, P5, Br6, Br7, and P9. These picture data are decoded according to Decode Time Stamp (DTS).
  • DTS Decode Time Stamp
  • the first row shows a left eye image.
  • the decoded picture data I1, P2, Br3, Br4, P5, Br6, Br7, and P9 are reproduced in the order of I1, Br3, Br4, P2, Br6, Br7, and P5 in accordance with PTS. Will be played.
  • a picture that does not have a reference picture and performs intra-picture predictive coding using only a picture to be coded is called an I picture.
  • a picture is a unit of encoding that includes both a frame and a field.
  • a picture that is inter-picture prediction encoded with reference to one already processed picture is referred to as a P picture
  • a picture that is inter-picture predictively encoded while simultaneously referring to two already processed pictures is referred to as a B picture.
  • B picture pictures referenced from other pictures are called Br pictures.
  • the fourth row shows the internal structure of the left-view video stream.
  • This left-view video stream includes picture data of P1, P2, B3, B4, P5, B6, B7, and P8. These picture data are decoded according to DTS.
  • the third row shows a right eye image.
  • the right-eye image is reproduced by reproducing the decoded picture data P1, P2, B3, B4, P5, B6, B7, and P8 in the order of P1, B3, B4, P2, B6, B7, and P5 according to PTS. Will be played.
  • the display of one of the left-eye image and right-eye images with the same PTS is displayed for half the PTS interval (hereinafter referred to as “3D display delay”). Just display with a delay.
  • the fifth row shows how the state of the 3D glasses 200 is changed. As shown in the fifth row, the right-eye shutter is closed when the left-eye image is viewed, and the left-eye shutter is closed when the right-eye image is viewed.
  • left-view video stream and right-view video stream are compressed by inter-picture prediction encoding using correlation characteristics between viewpoints in addition to inter-picture prediction encoding using temporal correlation characteristics.
  • Pictures in the right-view video stream are compressed with reference to pictures at the same display time in the left-view video stream.
  • the first P picture of the right-view video stream refers to the I picture of the left-view video stream
  • the B picture of the right-view video stream refers to the Br picture of the left-view video stream
  • two of the right-view video streams The P picture of the eye refers to the P picture of the left view video stream.
  • the left-view video stream and right-view video stream that have been compression-encoded, one that can be decoded alone is called a “base-view video stream”.
  • the left-view video stream and the right-view video stream are compressed and encoded based on the inter-frame correlation characteristics with the individual picture data constituting the base-view video stream, and the base-view video stream is decoded.
  • a video stream that can be decoded is referred to as a “dependent view stream”.
  • the base-view video stream and the dependent-view stream may be stored and transmitted as separate streams, or may be multiplexed into the same stream such as MPEG2-TS.
  • MVC Multiview Video Coding
  • encoding methods for storing frame packing information include a method of arranging only at the beginning of a playback section, such as frame packing information (A) and frame packing information (B), and frame packing ( There are cases where methods of storing in all the frames are mixed as shown in C).
  • frame packing information A
  • frame packing information B
  • frame packing There are cases where methods of storing in all the frames are mixed as shown in C).
  • processing is inefficient in the reproduction and editing apparatus. For example, when performing jump playback from a video frame other than the head of the Side-by-Side playback section (A) in FIG. 1, the frame packing information stored in the Side-By-Side head frame is analyzed. Need to get.
  • the following video format structure is adopted so that the encoding method for storing the frame packing information can be specified in advance and the efficiency of the reproduction process can be improved.
  • the structure of the video format will be described with reference to FIG.
  • the example of FIG. 13 is an example in the case of storing 3D video of a side-by-side frame compatible method.
  • the video stream stored in the transport stream is a video stream compressed by a video encoding method such as MPEG-4 AVC or MPEG-2.
  • the frame packing information is stored in the supplementary data of the video stream.
  • the frame packing information is the information described with reference to FIG.
  • the frame packing information stores a frame storage type, a repeat flag, and a cancel flag.
  • the frame packing information is not stored in the supplementary data of all the video access units, but the repeat flag is set to 1 and stored only at the head of the GOP for other video accesses. It is possible not to store in the unit.
  • the frame packing information descriptor is stored in the PMT packet.
  • the frame packing information descriptor is prepared for each video stream stored in the transport stream, and stores attribute information of the frame packing information included in the supplementary data of the corresponding video stream.
  • the frame packing information descriptor stores “frame storage type”, “frame packing information storage type”, and “start PTS”.
  • the frame storage type has the same meaning as the frame storage type of the frame packing information, and indicates the frame storage method (Side-by-Side method, etc.) of the stereoscopic video of the corresponding video stream. This information matches the frame storage type of the frame packing information included in the supplementary data of the corresponding video stream.
  • the playback device can determine the frame storage method of the stereoscopic video without analyzing the video stream. Thereby, for example, the playback device can determine the 3D display method in advance, so that it is possible to perform processing necessary for 3D display, such as generation processing of OSD for 3D display, before decoding the video stream.
  • the frame packing information storage type indicates a method of inserting frame packing information included in the corresponding video stream.
  • the frame packing information can be stored only in the GOP head by setting the repeat flag to 1 and not stored in other video access units. Conversely, the repeat flag can be set to 0 and stored in all frames.
  • the frame packing information storage type is information for specifying the storage method of the frame packing information. That is, if the frame packing information type is “GOP unit”, the frame is only included in the supplementary data of the video access unit at the head of the GOP. Packing information is stored, and “access unit unit” indicates that frame packing information is stored only in supplementary data of all video access units.
  • the playback apparatus can determine the storage method of the frame packing information without analyzing the video stream, so that the playback and editing processes can be made more efficient. For example, in the case of a playback device that performs jump playback even in a frame other than the GOP head, by referring to the frame packing information storage type, if it indicates “GOP head”, it always plays back from the GOP head only. Can be controlled to start.
  • the frame packing information descriptor may store information indicating whether the attribute changes in GOP units.
  • the frame packing information storage type is “frame unit” and the attribute does not change in the GOP, the same frame packing information can be stored in all frames. Therefore, analysis of frame packing information other than the GOP head included in the video stream can be skipped.
  • the start PTS indicates the time when the corresponding frame packing information descriptor becomes valid. Since the position of the PMT packet is generally not synchronized with the multiplexing position of the video stream, the time when the corresponding frame packing information descriptor is valid cannot be known on the display time of the video stream. Therefore, the playback device can know the time when the frame packing information descriptor becomes valid by referring to the start PTS.
  • the starting PTS may be restricted to indicate the PTS attached to the video, so that the playback device can be clearly instructed to synchronize with the video.
  • the packets may be arranged in the order of multiplexing (code). When there are a plurality of PMT packets including the start PTS, only the top packet may be arranged forward in the multiplexing (code) order.
  • FIG. 14 is a diagram showing an example of the relationship between the frame packing information descriptor and the frame packing information.
  • the lower part of FIG. 14 is a diagram in which video frame sequences are arranged in display order.
  • the section (A) is a section where Side-by-Side video is played back
  • the section (B) is a section where 2D video is played back
  • the section (C) is a section where TopBottom video is played back.
  • An example of the frame packing information in such a playback section is shown in the middle part of FIG. This is the same as the configuration shown in FIG.
  • the upper part of FIG. 14 shows the structure of the frame packing information descriptor in this data structure.
  • the frame packing information descriptor (A) includes information corresponding to the frame packing information in the Side-by-Side playback section (A).
  • Each value of the frame packing information descriptor (A) is set as follows.
  • the frame storage type is “Side-by-Side”, which is the same as the frame storage type of the frame packing information.
  • the frame packing information storage type is “GOP head” because the frame packing information is stored only at the head of the section.
  • the first “video PTS value (in the example, 180000)” in the section (A) is set.
  • the frame packing information descriptor (B) includes information corresponding to the frame packing information in the 2D playback section (B).
  • Each value of the frame packing information descriptor (B) is set as follows.
  • the frame storage type is the same as the frame storage type of the frame packing information and is not set. Alternatively, if the frame storage type “2D” is defined, the value is set.
  • the frame packing information storage type is set to “GOP head” because the frame packing information is stored only at the head of the section. In the start PTS, the first “video PTS value (5580000 in the example)” in the playback section (B) is set.
  • the frame packing information descriptor (C) includes information corresponding to the frame packing information in the TopBottom playback section (C).
  • Each value of the frame packing information descriptor (C) is set as follows.
  • the frame storage type is “TopBottom”, which is the same as the frame storage type of the frame packing information, and the frame packing information storage type is “access unit unit” because the frame packing information is stored in all video access units in the section.
  • the first “video PTS value (10980000 in the example)” in the section (C) is set.
  • the playback device is specifically a plasma television or a liquid crystal television that supports 3D video display, and receives a transport stream for sending a video stream.
  • the television is a 3D system that uses shutter glasses in a continuous separation system.
  • the playback device is connected to the IP network and the playback device, and also decodes and displays the video stream output from these.
  • the playback apparatus includes a tuner 1501, a NIC 1502, a demultiplexing unit 1503, a video decoding unit 1504, a display determination unit 1505, a display processing unit 1506, a display unit 1507, a frame buffer (1) 1510, a frame buffer ( 2) 1511 and switch 1512.
  • the tuner 1501 has a function of receiving a digital broadcast wave transport stream and demodulating the received signal.
  • the NIC 1502 is connected to the IP network and has a function of receiving a transport stream output from the outside.
  • the demultiplexing unit 1503 separates the received transport stream into a video stream and other audio streams, and outputs the video stream to the video decoding unit 1504.
  • the demultiplexing unit extracts a system packet such as PSI from the received transport stream, acquires a “frame packing information descriptor” from the PMT packet, and notifies the display determination unit and the video decoding unit.
  • the demultiplexing unit 1503 can read the transport stream from the recording medium in addition to the input from the tuner 1501 and the NIC 1502.
  • the video decoding unit 1504 When receiving a video stream from the demultiplexing unit 1503, the video decoding unit 1504 has a function of decoding the received stream and extracting “frame packing information” in the video stream.
  • the video decoding unit 1504 decodes video in units of frames.
  • the “frame packing information storage type” of the frame packing information descriptor notified from the demultiplexing unit 1503 is a GOP unit, the extraction of “frame packing information” can be skipped except for the video access unit at the head of the GOP.
  • the video decoding unit 1504 writes the decoded frame into the frame buffer (1) 1508 and outputs “frame packing information” to the display determination unit 1506.
  • Frame buffer (1) 1508 has an area for storing frames decoded by the video decoding unit 1504.
  • the display determination unit 1505 determines a display method based on “frame packing information descriptor” and “frame packing information”.
  • the 3D video storage method is determined according to the frame storage type stored in the “frame packing information descriptor” or “frame packing information”, and the “start PTS” in the “frame packing information descriptor” or the frame packing information is stored.
  • the display processing unit is notified at the timing of the video PTS.
  • the display determination unit 1505 determines the display method in this way, and notifies the display processing unit 1506 of the content.
  • the display processing unit 1506 transforms the decoded frame data stored in the frame buffer (1) according to an instruction from the display determination unit 1505, and writes it to the frame buffer (L) or the frame buffer (R).
  • the display processing unit 1506 crops the HalfHD left-eye image from the left half of the frame and writes it to the frame buffer (L), and the display processing unit 1506 displays the HalfHD right-eye image from the right half of the frame.
  • the frame buffer (R) In the case of the TopBottom method, the display processing unit 1506 crops the HalfHD left-eye image from the upper half of the frame and writes it to the frame buffer (L), and the display processing unit 1506 crops the HalfHD right-eye image from the lower half of the frame.
  • frame buffer (R) In the case of 2D, the video in the frame buffer (1) is written to both the frame buffer (L) and the frame buffer (R).
  • the frame buffer (L) 1510 and the frame buffer (R) 1511 have areas for storing frames output from the display processing unit 1506.
  • the switch 1512 selects the frame images written in the frame buffer (L) 1510 and the frame buffer (R) 1511 and transfers them to the display unit.
  • the frame buffer (L) 1510 and the frame buffer (R) 1511 are alternately selected and displayed according to the frame to be displayed.
  • the display unit 1506 displays the frame transferred from the switch 1512.
  • the display unit 1506 communicates with the 3D glasses.
  • the left eye image is displayed, the left eye side of the 3D glasses is opened, and when the right eye image is displayed, the liquid crystal shutter of the 3D glasses is opened so that the right eye side of the 3D glasses is opened.
  • Control Note that when displaying 2D video, control of 3D glasses is not performed.
  • the frame packing information descriptor may be stored in a “SI (Service Information)” descriptor including program information, a TS packet header, a PES header, or the like.
  • SI Service Information
  • the frame packing information storage type of the frame packing information descriptor includes “GOP unit” and “access unit unit”, but “PES packet unit” indicating that one exists in the PES packet, There may be other types such as “I picture unit” indicating the presence of one, and “attribute switching unit” indicating that one exists every time the value included in the frame packing information is switched.
  • the frame packing information descriptor may include an identifier that indicates whether there is a change in the value of the frame packing information descriptor stored in the previous PMT packet. By referring to this identifier, when there is no change, the analysis processing of the frame packing information descriptor, the notification to the display determination unit, and the processing of the display determination unit can be skipped.
  • a repeat flag may be stored as the frame packing information storage type of the frame packing information descriptor. For example, if the repeat flag of the frame packing information descriptor is 1, the playback device can be determined as a GOP unit, and if the repeat flag of the frame packing information descriptor is 0, the playback unit can be determined.
  • the frame packing information storage type of the frame packing information descriptor may be set for each frame storage type.
  • “GOP unit” may be set for the Side-by-Side method
  • “Frame unit” may be set for the TopBottom method.
  • the frame packing information storage type of the frame packing information descriptor may be set for each ID of the frame packing information.
  • a plurality of pieces of frame packing information can be set with IDs. This ID corresponds to Frame_packing_arrangement_id in the Frame_packing_arrangement SEI of MPEG-4 AVC.
  • a frame packing information storage type may be set for each ID.
  • FIG. 16 shows the relationship between the TS packet sequence and the video frame sequence to be played back.
  • the video frame sequence is a Side-by-Side 3D video playback section up to PTS 5580000, and a 2D video playback section from PTS 5580000.
  • the structure of the frame packing information descriptor included in the PMT packet in the TS packet is described in (1) to (4) above.
  • (1) is a descriptor indicating a Side-by-Side section
  • (2), (3), and (4) are descriptors indicating a 2D section.
  • the video display time is still a section displaying Side-By-Side. Therefore, when the playback device performs display processing with reference to the frame packing information descriptor in the PMT packet at the time when the PMT packet arrives, display switching processing is performed in the time of the gap (A), The gap (A) cannot be correctly played back as 3D video.
  • processing priority is stored in the frame packing information descriptor.
  • This “processing priority” includes “descriptor priority” indicating that the PMT frame packing information descriptor is processed with priority, and “video priority” indicating that the frame packing information stored in the video stream is processed with priority. "Are prepared.
  • the processing priority is “descriptor priority”
  • the playback device performs display switching processing with priority on the frame packing information descriptor included in the PMT.
  • display switching processing is performed in the gap (A).
  • the reproduction transition in this case is indicated by a reproduction transition X in the lower part of the lower part of FIG. In this way, the end of the Side-by-Side playback section cannot be correctly played back by the display switching process, but instead, the 2D playback section can be played back correctly from the beginning.
  • the playback device When the processing priority is “video priority”, the playback device performs display switching processing by giving priority to the frame packing information included in the video. Even if the PMT packet arrives, the display switching process is not performed, and the display switching process is performed from the timing of the display time of the video stream. In this case, the data is correctly reproduced in the gap (A), and the display switching process is performed using the section (B) from the time of transition to the 2D video of PTS 5580000.
  • the reproduction transition in this case is indicated by reproduction transition Y in the lower part of the lower part of FIG. In this way, the top part of the 2D playback section cannot be played back correctly by the display switching process, but the end part of the Side-by-Side playback section can be played back correctly.
  • processing priority is set to “descriptor priority” and priority is given to side-by-side 3D video playback.
  • the processing priority may be set to “video priority”.
  • a meaningless video such as a black video may be stored in a section where the display switching process is performed according to the processing priority.
  • the section is a gap (A) when the processing priority is “descriptor priority”, and is a section (B) when the processing priority is “video priority”. In this way, it is not necessary to generate a section in which the user cannot enjoy the content.
  • display switching start time may be set in the frame packing information descriptor instead of processing priority as shown in FIG. With this configuration, the display processing start time can be more accurately controlled.
  • the left-eye video and the right-eye video are stored in one transport stream as separate video streams as shown in FIG. Either of the above images may be played back, and the 3D video may be played back with both the left eye and the right eye.
  • FIG. 19 is a diagram in which the frames of the video stream of the left eye / right eye video in the configuration of FIG. 18 are arranged in display order.
  • 2D video and 3D video as shown in the upper part of FIG. 19
  • one video frame sequence is redundant data.
  • a 3D playback information descriptor is prepared as shown in FIG. 20 so that the 2D playback section and the 3D playback section of the video stream multiplexed in the transport stream can be discriminated.
  • the 3D playback information descriptor is stored in the PMT packet.
  • a playback method and a start PTS are prepared.
  • the playback method is an identifier indicating whether 2D playback or 3D playback
  • the start PTS is time information for indicating from which frame the corresponding playback section starts.
  • the 3D playback information descriptor (A) indicates that the 3D playback section starts from PTS 180000
  • the 3D playback information descriptor (B) indicates that the 2D playback section starts from PTS 5580000
  • the 3D playback information descriptor (C) indicates PTS 109800000. Indicates that the 3D playback section begins.
  • the 3D playback device can determine where the 3D playback is or 2D playback, so only the left-eye video frame sequence can be decoded and displayed in the 2D video playback section. During this time, it is not necessary to store data in the right-eye video frame sequence, and a large bit rate can be secured for encoding the left-eye video frame sequence.
  • the 3D playback information descriptor may specify the PID of the video to be played back as 2D video.
  • a video stream that is played back as 2D video is hereinafter referred to as a base video stream
  • a video stream that is played back only as 3D video is referred to as an extended video stream.
  • the base video may use a normal stream type
  • the extended video may have a special stream type.
  • the 3D playback information descriptor may be stored in supplementary data or an extension area of the base video stream. In order to prepare for display switching by the playback device in advance, it may be stored not in the video stream of the corresponding 2D playback section (B) but in the 3D playback section (A) in front of it.
  • information indicating that there is no video frame may be stored in the final video frame of the 2D playback section (B) in which no extended video exists. For example, EndOfSequence.
  • the playback device receives this signal during decoding, it knows that there is no extended video and can transition to 2D video playback.
  • 2D video is stored in the base video stream and an extended video stream is also prepared, but it can be realized at a low bit rate such as black video instead of 2D video
  • a video for displaying a message prompting 2D playback may be stored, and a 3D playback information descriptor may be stored in supplementary data or an extended area of the extended video stream.
  • the playback device refers to the 3D playback information descriptor stored in the extended video stream and, when it can be determined that the playback is 2D playback, plays back 2D video using only the base video stream.
  • the playback device cannot process the 3D playback information descriptor, a message prompting the user to perform 2D playback is displayed, so that the user can be prompted to perform 2D video playback processing. Since the bit rate of the extended video in the 2D playback section can be low, the bit rate can be assigned to the base video accordingly.
  • the playback method of the 3D playback information descriptor is 2D
  • duplicate the frame in the corresponding 2D playback section so that it has the same format (frame rate, etc.) as 3D.
  • 2D frames may be doubled for playback.
  • the PMT packet descriptor stores information indicating which video stream is paired with 3D video.
  • the left-eye video has a PID of 0x1011 and the right-eye video has a PID of 0x1015.
  • the PID of the opposite view may be described in the stream descriptor corresponding to the video stream. For example, in the example of FIG.
  • 0x1015 is stored as the PID of the right-eye video stream in the stream descriptor corresponding to the video stream of the left-eye video, and the PID of the left-eye video stream is stored in the stream descriptor corresponding to the video stream of the right-eye video. Is stored as 0x1011.
  • the PIDs of the other party that becomes the pair may be stored in the descriptor added to each video stream.
  • a descriptor for identifying the left and right pairs a hierarchy descriptor defined in the MPEG-2 system standard may be used. In this case, a new hierarchy type may be prepared.
  • the picture type is restricted as shown in the lower part of FIG. 21 in order to improve the efficiency of special playback such as fast-forwarding in 3D playback.
  • the video access unit of the base video stream is an I picture
  • the video access unit of an extended video stream having the same PTS is also configured by an I picture.
  • the video access unit of the base video stream is a P picture
  • the video access unit of the extended video stream having the same PTS is also composed of the P picture.
  • the upper part of FIG. 21 shows a case where the restriction is not applied.
  • the base video access unit is a P picture (P3).
  • the video access unit of the extended video at the same time is a B picture (B3), in this case, the extended video has to be decoded up to the previously existing P picture (P2), which increases the load.
  • B # NStart is a GOP # N head base video TS packet
  • E # NStart is a GOP # N head extension video TS packet
  • B # N + 1 Start is a GOP # N GOP # N TS packet.
  • N + 1 is the first base video TS packet
  • E # NEnd is a GOP # N-terminated extended video TS packet.
  • the TS packet of the GOP # N first base video is configured to come before the GOP # N first extended video TS packet, and the GOP # N + 1 first base video is configured.
  • the TS packet is configured to come after the GOP # N-terminated extended video TS packet. In this way, dive playback and editing can be performed in base video units.
  • the extended video indicates the left-eye or right-eye video, but may be a depth map that visualizes the depth of the 2D video.
  • the 3D playback method may be specified by a descriptor.
  • the data creation apparatus includes a video encoder 2301, a multiplexing processing unit 2302, and a data storage method determination unit 2303.
  • the data storage method determination unit 2303 specifies the data format of the transport stream to be created. For example, in the case of the video format shown in the example of FIG. 14, PTS 180000 to 5580000 are designated as Side-by-Side playback sections, PTS 5580000 to 109800000 are designated as 2D playback sections, and PTS 109800000 and later are designated as TopBottom playback sections.
  • the playback system information, time information, and frame packing information storage type are designated to the video encoder 2301.
  • the video encoder 2301 uses an image image such as an uncompressed bitmap of the left-eye image and an image image such as an uncompressed bitmap of the right-eye image according to a compression method such as MPEG4-AVC or MPEG2, and the data storage method determination unit 2303 Encode as specified.
  • a compression method such as MPEG4-AVC or MPEG2
  • the data storage method determination unit 2303 designates “Side-by-Side 3D video”
  • the full HD left-eye video image and the full HD right-eye video image are down-converted to half HD respectively.
  • compression coding is performed.
  • image data compression encoding of full HD 2D video is performed.
  • the data storage method determination unit 2303 designates “TopBottom 3D video”
  • the full HD left-eye video image and the full HD right-eye video image are down-converted to half HD, respectively.
  • the image is stored in one frame up and down by the side-by-side method, and then compression coding is performed.
  • frame packing information according to each method is stored in the supplemental data.
  • the storage method follows the frame packing information storage type specified from the data storage method determination unit 2303.
  • the compressed video stream is output as a video stream.
  • the multiplexing processing unit 1702 performs multiplexing according to the instruction of the data storage method determination unit 2303 together with the video stream output from the video encoder 2301, audio, subtitles, and the like, and creates and outputs a transport stream.
  • the data storage method determination unit 1703 designates “Side-by-Side 3D video”
  • the data storage method determination unit 1703 performs multiplexing on the transport stream, and in accordance with the video format described in the present embodiment,
  • the “frame packing information descriptor” is stored in and a transport stream is output.
  • Broadcasting of 3D programs is performed by multiplexing a plurality of video streams into one transport stream and supplying the transport stream to a television display device of each household by a broadcasting station.
  • various patterns exist for combinations of video streams stored in the transport stream.
  • the descriptor according to the present embodiment can realize 2D playback, compatible playback of 3D playback, and seamless switching between 2D playback and 3D playback in such various stream configurations.
  • FIG. 25 is a diagram showing a transport stream configuration (2D / L + R) for storing the video of the right eye (R) video in addition to the video used as the left eye (L) video during 2D playback and 3D playback. is there.
  • the transport stream stores a video stream (base video stream) used as video for the left eye during 2D playback and 3D playback, and a video stream for the right eye (extended video stream # 1). ing.
  • the base video stream and the extended video stream each define a unique stream type for the PMT. Also, the base video stream is compressed and encoded by MPEG-2, and the extended video stream is encoded and encoded by AVC.
  • 2D playback is performed using a 2D / L video stream.
  • 3D playback is performed using a 2D / L video stream and an R video stream.
  • a transport stream configuration (2D +) that stores two left-eye (L) videos and two right-eye (R) videos separately from 2D video L + R).
  • FIG. 26 is a diagram showing a stream configuration of a 2D + L + R transport stream.
  • the transport stream includes a 2D video stream (base video stream), a left-eye video stream (extended video stream # 1), and a right-eye video stream (extended video stream # 2). Storing.
  • the base video stream is moving image compression encoded by MPEG-2
  • the extended video stream is moving image compression encoded by AVC.
  • 2D playback is performed using a 2D video stream.
  • 3D playback is performed using a left-eye video stream and a right-eye video stream.
  • the playback device identifies the video streams that make up 2D video and 3D video, enabling 2D playback, compatible playback of 3D playback, and seamless switching between 2D playback and 3D playback. Therefore, in the present embodiment, the descriptor shown below is stored in the transport stream.
  • This descriptor includes 3D_system_info_descriptor that notifies the 3D system, 3D_service_info_descriptor that is supplementary information for realizing 3D playback, and 3D_combi_info_descriptor that indicates the correspondence between video streams used for 2D playback and 3D playback.
  • 3D_system_info_descriptor is stored in a descriptor field (program loop) following the program information length (program_info_length) field in the PMT packet. That is, it is stored in descriptors # 1 to #N in FIG.
  • 3D_system_info_descriptor indicates the 3D system provided by the transport stream. Specifically, any one of 2D playback, 3D playback using a frame compatible system, or 3D playback using a service compatible system is shown. Also, 3D_system_info_descriptor indicates whether or not a video stream used for 2D playback and a video stream used for 3D playback are shared in the case of 3D playback using a frame compatible method or 3D playback using a service compatible method.
  • FIG. 27 shows the structure of 3D_system_info_descriptor.
  • 3D_playback_type is an identifier indicating a playback method provided by the transport stream.
  • FIG. 28 is a diagram illustrating values set in 3D_playback_type. As shown in this figure, when the value is 0, it indicates that 2D playback is provided by this transport stream, and when the value is 01, it indicates that 3D playback by the frame compatible method is provided. A value of 10 indicates that 3D playback by a service compatible method is provided. In the case of 2D + L + R or 2D / L + R stream configuration, a value of 10 is set.
  • the playback device can identify the playback method provided by the transport stream by referring to 3D_playback_type.
  • 2D_independent_flag is an identifier indicating whether a video stream used for 2D playback and a video stream used for 3D playback are shared.
  • a value of 0 indicates that a video stream used for 2D playback and a video stream used for 3D playback are shared.
  • a value of 1 indicates that a video stream used for 2D playback and a video stream used for 3D playback exist independently.
  • a value of 0 is set.
  • a value of 1 is set.
  • the playback device refers to the 2D_independent_flag so that 2D playback is performed in the case of 3D playback by the frame compatibility method or 3D playback by the service compatibility method (when the value set to 3D_playback_type is 01 or 10). It is possible to identify whether the video stream used for the video stream and the video stream used for 3D playback are shared.
  • 2D_view_flag is an identifier indicating which of 3D video streams is used for 2D playback.
  • 2D_view_flag indicates which of the left-eye image and the right-eye image is used for 2D playback.
  • 2D_view_flag indicates which of the base video stream and the extended video stream is used for 2D playback.
  • 3D_service_info_descriptor is stored in a descriptor field (ES loop) following the ES information length (ES_info_length) field in the PMT packet. That is, it is stored in stream descriptors # 1 to #N in FIG.
  • 3D_service_info_descriptor indicates supplementary information for realizing 3D playback. Specifically, it indicates whether the video stream is a left-eye video or a right-eye video. However, 3D_service_info_descriptor is not stored for a video stream used only for 2D playback. This is because the video stream is not used for 3D playback.
  • FIG. 29 shows the structure of 3D_service_info_descriptor.
  • Is_base_video is an identifier indicating whether the video stream is a base video stream or an extended video stream. A value of 1 indicates that the video stream is a base video stream. A value of 0 indicates that the video stream is an extended video stream.
  • Leftview_flag is an identifier indicating whether the video stream is a left-eye video or a right-eye video. A value of 1 indicates that the video stream is a left-eye video. A value of 0 indicates that the video stream is a right-eye video.
  • the playback device can identify whether the video stream is to be output as the left-eye or right-eye viewpoint video when displayed on a television as a 3D video.
  • leftview_flag is provided in both cases where the video stream is a base video stream and an extended video stream.
  • 3D_combi_info_descriptor is stored in a descriptor field (program loop) following the program information length (program_info_length) field in the PMT packet. That is, it is stored in descriptors # 1 to #N in FIG.
  • 3D_combi_info_descriptor indicates the correspondence between video streams used for 2D playback and 3D playback. Specifically, it indicates the PID of the video stream that constitutes the transport stream.
  • FIG. 30 shows the structure of 3D_combi_info_descriptor.
  • 2D_view_PID / tag indicates the PID of the video stream used for 2D playback.
  • Left_view_PID / tag indicates the PID of the video stream of the left-eye video.
  • Light_view_PID / tag indicates the PID of the video stream of the video for the right eye.
  • the playback device can specify a pair of video streams used for 3D playback and a video stream used for 2D playback by referring to these descriptors. Since the packet identifier that should be used for demultiplexing in each of 2D mode / 3D mode is described in one descriptor, the switching of the demultiplexing target between 2D mode and 3D mode can be made faster, Seamless switching between 2D and 3D playback is possible.
  • FIG. 31 is a diagram showing a stream structure of a 2D + Side-by-Side transport stream.
  • the transport stream stores a 2D video stream (base video stream) and a side-by-side video stream (extended video stream # 1).
  • the base video stream is moving image compression encoded by MPEG-2
  • the extended video stream is moving image compression encoded by AVC.
  • the above transport stream includes 3D_system_info_descriptor that notifies the 3D system, 3D_service_info_descriptor that is supplementary information for realizing 3D playback, video stream used for 2D playback and 3D playback 3D_combi_info_descriptor indicating the corresponding relationship is stored.
  • 2D playback is performed using a 2D base video stream in 2D TV or 2D mode of 3D TV.
  • 3D playback is performed using the side-by-side extended video stream # 1.
  • 3D_system_info_descriptor has the same structure as that in the case of the 2D + L + ⁇ R stream configuration shown in FIG.
  • the playback device can identify the playback method provided by the transport stream by referring to this descriptor.
  • FIG. 32 shows the structure of 3D_service_info_descriptor.
  • frame_packing_arrangement_type is provided.
  • “Frame_packing_arrangement_type” is an identifier indicating whether or not the video stream is a Side-by-Side format. A value of 1 indicates that the video stream is a side-by-side format. A value of 0 indicates the TopBottom method.
  • the playback device can identify whether or not the extended video stream is a Side-by-Side format by referring to this identifier, and can perform 3D playback corresponding to the storage mode.
  • frame_packing_arrangement_type in the case of the Side-by-Side method and the case of the TopBottom method has been set, but in addition, the left-eye video is interleaved on the odd lines and the right-eye video is interleaved on the even lines.
  • the value in the checkerboard method in which the arranged line-by-line method and the left and right images are combined and the images are stored alternately in the vertical and horizontal directions like a checkerboard pattern in one frame may be set in frame_packing_arrangement_type.
  • 3D_service_info_descriptor is not stored.
  • FIG. 33 is a diagram showing the structure of 3D_combi_info_descriptor.
  • 2D_view_PID / tag indicates the PID of the video stream used for 2D playback.
  • “Frame_compatible_3D_PID / tag” indicates the PID of a video stream in a frame compatible format.
  • the playback device can specify the frame compatible video stream used for 3D playback and the video stream used for 2D playback by referring to these descriptors. This enables seamless switching between 2D and 3D playback.
  • FIG. 34 is a diagram showing the structure of a 2D + MVC transport stream.
  • the transport stream includes a 2D video stream (base video stream), an MVC base view stream (extended video # 1), and an MVC dependent view stream (extended video # 2). Storing.
  • the base video stream is compressed and encoded with moving picture by MPEG-2
  • the extended video stream # 1 and extended video stream # 2 are compressed and encoded with moving picture by MVC.
  • the above transport stream includes 3D_system_info_descriptor that notifies the 3D system, 3D_service_info_descriptor that is supplementary information for realizing 3D playback, video stream used for 2D playback and 3D playback 3D_combi_info_descriptor indicating the corresponding relationship is stored.
  • a playback device such as a TV refers to these descriptors, and performs 2D playback using a 2D base video stream in the 2D TV or 2D mode of 3D TV.
  • 3D playback is performed using the extended video stream # 1 and the extended video stream # 2 compression-coded by MVC.
  • 3D_system_info_descriptor and 3D_service_info_descriptor have the same structure as that in the case of the 2D + L + R stream configuration shown in FIGS. 27 and 29 and will not be described. Note that 3D_service_info_descriptor is not stored for a video stream used only for 2D playback, as in the case of the stream configuration of 2D + L + R.
  • FIG. 35 shows the structure of 3D_combi_info_descriptor.
  • 2D_view_PID / tag indicates the PID of the video stream used for 2D playback.
  • MVC_base_view_PID / tag indicates the PID of the MVC base view stream.
  • MVC_dept_view_PID / tag indicates the PID of the MVC dependent view stream.
  • the playback device can identify a pair of MVC video streams used for 3D playback and a video stream used for 2D playback. This enables seamless switching between 2D and 3D playback.
  • FIG. 36 is a diagram showing the stream structure of the 2D + R1 + R2 transport stream.
  • the transport stream includes a video stream (base video stream) used as L video during 2D playback and 3D playback, a video stream of first R video (extended video stream # 1), And a video stream of the second R video.
  • the base video stream is video compression encoded by MPEG-2
  • the extended video stream # 1 and the extended video stream # 2 are video compression encoded by AVC.
  • the transport stream stores 3D_system_info_descriptor for notifying the 3D system, 3D_service_info_descriptor which is supplementary information for realizing 3D playback, and 3D_combi_info_descriptor indicating the correspondence between video streams used for 2D playback and 3D playback.
  • a playback device such as a TV refers to these descriptors and performs 2D playback using a base video stream in 2D TV or 2D mode of 3D TV.
  • 3D playback is performed using the base video stream and the extended video stream # 1, or the base video stream and the extended video stream # 2.
  • FIG. 37 shows the structure of 3D_system_info_descriptor.
  • camera_assingment_type is provided instead of 2D_independent_flag.
  • camera_assingment_type is an identifier indicating the camera arrangement type for the video stream stored in the transport stream.
  • a value of 1 indicates that the transport stream is composed of a video stream from the camera viewpoint of the center (C).
  • a value of 2 indicates that the transport stream is composed of left-view (L) and right-view (R) camera-view video streams.
  • a value of 3 indicates that the transport stream is composed of a video stream of the camera viewpoint of the center (C), the left viewpoint (L), and the right viewpoint (R).
  • a value of 4 indicates that the transport stream is composed of video streams of camera viewpoints of the left viewpoint (L), the first right viewpoint (R1), and the second right viewpoint (R2).
  • the playback device can identify the camera assignment of the video stream constituting the transport stream.
  • FIG. 38 is a diagram illustrating the structure of 3D_service_info_descriptor. In the descriptor in the 2D + L + R stream configuration shown in FIG. 31, camera_assingment is newly provided.
  • Camera_assingment is an identifier indicating camera position information such as the left eye, center, and right eye of the video stream.
  • the playback device can identify the camera arrangement corresponding to the video stream by referring to this identifier.
  • FIG. 39 shows the structure of 3D_combi_info_descriptor.
  • 2D_view_PID / tag indicates the PID of the video stream used as the L video during 2D playback and 3D playback.
  • Right1_view_PID / tag indicates the PID of the video stream of the first R video.
  • Light2_view_PID / tag indicates the PID of the video stream of the second R video.
  • the playback device can specify a video stream used as an L video during 2D playback and 3D playback, and a plurality of R viewpoint video streams. This enables seamless switching between 2D and 3D playback.
  • the playback device identifies the stream configuration of the transport stream and can perform seamless switching between 2D playback and 3D playback.
  • An extended video stream that is compression-encoded by a moving image compression encoding technique other than AVC may be stored.
  • the extended video stream may be compression-encoded using H.265, which is a next-generation moving image compression encoding technique.
  • the stream descriptor corresponding to the L and R video streams includes the video stream of the viewpoint that is the other side of the combination in 3D playback. PID may be described.
  • closed caption (Closed Caption) caption data when closed caption (Closed Caption) caption data is included in the base stream and the extended stream, an identifier indicating which data is used in 2D playback or 3D playback may be stored in the PMT of the transport stream.
  • the playback device can identify the closed caption data to be used in 2D playback or 3D playback by referring to this identifier.
  • 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor are stored in the PMT packet, the storage position is not limited to this. It may be stored in any area of the transport stream. For example, it may be stored in supplementary data of each video stream other than the PMT packet.
  • the video stream used for 2D playback and the video stream used for 3D playback are specified by setting the PID of the video stream in 3D_combi_info_descriptor.
  • the present invention is not limited to this.
  • the 3D_combi_info_descriptor only needs to include information that can specify the video stream to be multiplexed.
  • each video stream may be specified by setting a hierarchy descriptor defined in the MPEG-2 system standard. Specifically, by defining a new hierarchy_type in hierarchy_descriptor and specifying a video stream from 3D_combi_info_descriptor using hierarchy_layer_index, each video stream pair used for 3D playback and each video stream used for 2D playback Identify the stream.
  • FIG. 40 is a diagram showing an internal configuration of the data creation device 4000 according to the present embodiment.
  • the data creation device 4000 includes a video encoder 4001, a multiplexing processing unit 4002, a data storage method determination unit 4003, and a user interface unit 4004.
  • the user interface unit 4004 provides the data creator with data input using a keyboard, mouse, other controller, and the like.
  • the data creator uses the user interface unit 4004 to specify the stream configuration pattern and compression encoding method of the transport stream to be created.
  • the data storage method determination unit 4003 determines the stream configuration of the transport stream and the compression encoding method of the video stream according to the user designation by the user interface unit 4004.
  • the video encoder 4001 compresses and encodes a 3D video original image using a compression encoding method such as MPEG-2, AVC, MVC, or H.265, thereby converting the video stream specified by the data storage method determination unit 4003 into a video stream. create.
  • a compression encoding method such as MPEG-2, AVC, MVC, or H.265
  • the multiplexing processing unit 4002 creates 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor descriptors according to the stream structure of the transport stream to be created in accordance with the instruction of the data storage method determination unit 3903. Then, a transport stream is created by multiplexing each descriptor together with a stream such as a video stream, audio, and caption output from the video encoder 4001 in accordance with an instruction from the data storage method determination unit 4003.
  • the created transport stream is recorded on an external recording medium.
  • the data transmission apparatus is described above with respect to the configuration in which data is transmitted via a broadcast or network by an external transmission unit. Next, the operation of this data creation device will be described.
  • FIG. 41 is a flowchart showing the flow of the encoding process of the data creation device 4000.
  • the data storage method determination unit 4003 determines the pattern of the video stream constituting the transport stream (step S4101). Specifically, the stream configuration of the transport stream and the compression encoding method of the video stream stored in the transport stream are determined.
  • the stream configuration patterns shown in FIG. 25, FIG. 26, FIG. 31, FIG. 34, and FIG. 37 can be considered, but the stream configuration (2D / SBS) that stores only the side-by-side video stream, and others
  • the stream configuration may be as follows.
  • the video encoder 4001 compresses and encodes the 3D original image to create a video stream (step S4102). At this time, the video encoder 4001 determines a compression encoding method based on the designation of the stream configuration of the transport stream and the compression encoding method of the video stream stored in the transport stream by the data storage method determination unit 4003, and the 3D Perform compression encoding of the original video.
  • the multiplexing processing unit 4002 stores the video stream in each frame based on the stream configuration of the transport stream specified by the data storage method determination unit 4003 (step S4103).
  • the multiplexing processing unit 4002 creates 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor descriptors and stores them in the PMT of the transport stream (step S4104). At this time, the multiplexing processing unit 4002 creates each descriptor based on the stream configuration of the transport stream designated by the data storage method determining unit 4003.
  • FIG. 42 is a diagram showing an internal configuration of the 3D digital television 4200 according to the present embodiment.
  • the 3D digital television 4200 includes a tuner 4201, a NIC 4202, a user interface unit 4203, a mode storage unit 4204, a demultiplexing unit 4205, a display determination unit 4206, a video decoding unit 4207, a frame buffer (1) 4208.
  • the tuner 4201 has a function of receiving a digital broadcast wave transport stream and demodulating the received signal.
  • the network interface card (NIC) 4202 is connected to the IP network, and has a function of receiving a transport stream input from the outside.
  • the user interface unit 4203 accepts a channel selection operation, a 2D mode / 3D mode selection operation, and the like from the user.
  • the mode storage unit 4204 stores a flag indicating whether the current display mode is the 2D mode or the 3D mode.
  • the demultiplexing unit 4205 has a function of separating the received transport stream into a video stream and other audio streams, graphics streams, and the like, and outputting the video stream to the video decoding unit 4207.
  • the demultiplexing unit 4205 extracts system packets such as PSI from the received transport stream, acquires 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor descriptors from the PMT packet, and notifies the display determining unit 4206 of them.
  • the designation of the TS packet PID to be demuxed in the current display mode is received from the display determination unit 4206.
  • the demultiplexing unit 4205 acquires a video stream by demultiplexing a TS packet of a designated PID.
  • the demultiplexing unit 4205 can read the transport stream from the recording medium in addition to reading the transport stream from the tuner 4201 and the NIC 4202.
  • the display determination unit 4206 refers to each descriptor of 3D_system_info_descriptor, 3D_service_info_descriptor, and 3D_combi_info_descriptor notified from the demultiplexing unit 4205 to grasp the stream configuration of the transport stream.
  • the PID of the TS packet to be demultiplexed is notified to the demultiplexing unit 4205.
  • the display determination unit 4206 refers to the 2D_view_flag of the 3D_system_info_descriptor and the frame_packing_arrangement_type of the 3D_service_info_descriptor to determine whether the left eye image or the right eye image is displayed. Is used for 2D playback, or whether the video stream is a Side-by-Side format.
  • the video decoding unit 4207 Upon receiving the video stream from the demultiplexing unit 4205, the video decoding unit 4207 decodes the received stream. The video decoding unit 4207 writes the decoded frame to the frame buffer (1) 4208.
  • Frame buffer (1) 4108 has an area for storing the frame decoded by the video decoding unit 4207.
  • the display processing unit 4209 executes the cropping control according to the cropping information and the scaling control according to the scaling information when the video stream stored in the frame buffer (1) 4208 is in the Side-by-Side format.
  • the left-eye frame and the right-eye frame obtained by the cropping process are stored in the frame buffer (L) and the frame buffer (R).
  • the display processing unit 4209 converts the video stream into a frame buffer (L) 4210, a frame buffer, (R) Sort to 4212.
  • the frame buffer (L) 4210 and the frame buffer (R) 4212 have areas for storing frames output from the display processing unit 4209.
  • the switch 4211 selects a frame image written in the frame buffer (L) 4210 and the frame buffer (R) 4212 and transfers it to the display unit.
  • the display unit 4213 displays the frame transferred from the switch 4211.
  • the display unit 4213 communicates with the 3D glasses, and when the left eye image is displayed, the left eye side of the 3D glasses is opened, and when the right eye image is displayed, the liquid crystal shutter of the 3D glasses is opened so that the right eye side of the 3D glasses is opened. Control. Note that when displaying 2D video, control of 3D glasses is not performed.
  • FIG. 43 is a flowchart showing an exemplary flow of a program playback process performed by the 3D digital television 4200.
  • the demultiplexing unit 4205 analyzes the PMT of the transport stream and extracts a descriptor (step S4301).
  • the display determination unit 4206 refers to the 3D_playback_type of the 3D_system_info_descriptor extracted by the demultiplexing unit 4205 to determine the playback method of the received transport stream (step S4302).
  • the display determination unit 4206 refers to 2D_independent_flag of 3D_system_info_descriptor, and whether or not the video stream used for 2D playback and the video stream used for 3D playback are shared. Is determined (step S4303).
  • the display determination unit 4206 refers to the 3D_combi_info_descriptor and identifies the stream configuration (step S4304).
  • the 3D digital television 4200 performs the processing of the 2D / L + R1 + R2 stream described later (step S4306).
  • the 3D digital television 4200 performs processing of the 2D / L + R stream described later (step S4307).
  • the display determination unit 4206 refers to the 3D_combi_info_descriptor and identifies the stream configuration (step S4308).
  • the 3D digital television 4200 transmits the MPEG2 + MVC (Base) + MVC (Dependent) stream described later. Processing is performed (step S4311).
  • step S4309 When the stream configuration of the transport stream is MPEG2 + AVC + AVC (step S4309, YES), the 3D digital television 4200 performs MPEG2 + AVC + AVC stream processing described later (step S4312).
  • the display determination unit 4206 refers to 2D_independent_flag of 3D_system_info_descriptor, and whether or not the video stream used for 2D playback and the video stream used for 3D playback are shared. Is determined (step S4313).
  • step S4313 If the value of 2D_independent_flag is 0 (step S4313, NO), the 3D digital television 4200 performs 2D / SBS stream processing (to be described later) (step S4314).
  • step S4313 When the value of 2D_independent_flag is 1 (step S4313, YES), the 3D digital television 4200 performs processing of a 2D + SBS stream to be described later (step S4315).
  • FIG. 44 is a flowchart showing the flow of processing of a 2D + SBS stream.
  • the display determination unit 4206 determines whether the current mode is the 2D mode or the 3D mode with reference to the flag of the mode storage unit 4204 (step S4401).
  • the display determination unit 4206 separates the TS packet indicated by 2D_view_PID / tag of 3D_combi_info_descriptor, and extracts a 2D video stream (step S4402).
  • the 3D digital television 4200 performs 2D playback by decoding the extracted MPEG2 (2D) video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4403).
  • the display determination unit 4206 separates the TS packet indicated by frame_compatible_3D_PID / tag of 3D_combi_info_descriptor and extracts a video stream (step S4404).
  • the display determination unit 4206 refers to the frame_packing_arrangement_type of 3D_service_info_descriptor and determines whether it is stored in the Side-by-Side format (step S4405).
  • the display processing unit 4209 performs 3D playback by cropping out the left-eye image and the right-eye image that exist on the left and right (step S4406).
  • step S4305 When the frame_packing_arrangement_type is not the Side-by-Side format (step S4305, NO), the TopBottom method is specified, and the display processing unit 4209 performs 3D playback by cropping out the left-eye image and the right-eye image existing above and below. This is performed (step S4407).
  • step S4315 This completes the description of the details of the processing of the 2D + BS SBS stream in step S4315. Next, details of the 2D / SBS stream processing in step S4314 will be described.
  • FIG. 45 is a flowchart showing the flow of processing of a 2D / SBS stream.
  • the demultiplexing unit 4205 separates the TS packet indicated by frame_compatible_3D_PID / tag of 3D_combi_info_descriptor, and extracts a 2D / SBS video stream (step S4501).
  • the display determination unit 4206 refers to the flag of the mode storage unit 4204 to determine whether the current mode is the 2D mode or the 3D mode (step S4502).
  • the display determination unit 4206 refers to the 2D_view_flag of 3D_system_info_descriptor_ and determines which of the side-by-side frames is used for 2D playback.
  • step S4503 When 2D_view_flag indicates a left-eye image (step S4503, YES), the display processing unit 4209 performs 2D playback by cropping out the left-eye image region in the side-by-side frame (step S4505). .
  • step S4503 When 2D_view_flag indicates a right-eye image (step S4503, NO), the display processing unit 4209 performs 2D playback by cropping out the region of the right-eye image in the side-by-side frame (step S4504). .
  • the display processing unit 4209 crops out the image area for the right eye in the side-by-side frame (step S4506), and the side-by-side frame. Among them, the area of the image for the left eye is cropped out (step S4507).
  • the 3D digital television 4200 performs 3D reproduction by alternately outputting the cropped left-eye image and right-eye image to the display unit 4213 (step S4508).
  • FIG. 46 is a flowchart showing a processing flow of 2D / L / + R stream. As shown in this figure, the display determination unit 4206 determines whether the current mode is the 2D mode or the 3D mode with reference to the flag of the mode storage unit 4204 (step S4601).
  • the display determination unit 4206 separates the TS packet indicated by Left_view_PID / tag of 3D_combi_info_descriptor and the TS packet indicated by Right_view_PID / tag, and 2D / L video stream, R Are extracted (step S4602).
  • the 3D digital television 4200 performs 3D playback by decoding the extracted 2D / L video stream and R video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4603).
  • the demultiplexing unit 4205 separates the TS packet indicated by 2D_view_PID / tag of 3D_combi_info_descriptor, and extracts a 2D / L video stream (step S4604).
  • the 3D digital television 4200 performs 2D playback by decoding the extracted 2D / L video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4605).
  • FIG. 47 is a flowchart showing a flow of processing of 2D / L + R1 + R2. As shown in this figure, the display determination unit 4206 determines whether the current mode is the 2D mode or the 3D mode with reference to the flag of the mode storage unit 4204 (step S4601).
  • the display determination unit 4206 separates the TS packet indicated by Left_view_PID / tag of 3D_combi_info_descriptor, the TS packet indicated by Right1_view_PID / tag, and the TS packet indicated by Right2_view_PID / tag. Then, the 2D / L video stream, the R1 video stream, and the R2 video stream are extracted (step S4701).
  • the 3D digital television 4200 performs 3D playback by decoding the extracted 2D / L video stream, the R1 video stream, or the R2 video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213. (Step S4702).
  • Steps S4604 and 4605 are the same processing as the processing of the 2D / L + R processing shown in FIG. 46, and will not be described.
  • step S4306 The above is the details of the processing of the 2D / L + R1 + R2 stream in step S4306. Next, details of the MPEG2 + AVC + AVC stream processing in step 4312 will be described.
  • FIG. 48 is a flowchart showing the flow of MPEG2 + AVC + AVC stream processing.
  • the display determination unit 4206 determines whether the current mode is the 2D mode or the 3D mode with reference to the flag of the mode storage unit 4204 (step S4801).
  • the display determination unit 4206 separates the TS packet indicated by 2D_view_PID / tag of 3D_combi_info_descriptor, and extracts an MPEG2 (2D) video stream (step S4802).
  • the 3D digital television 4200 performs 2D playback by decoding the extracted MPEG2 (2D) video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4803).
  • the display determination unit 4206 separates the TS packet indicated by Left_view_PID / tag of 3D_combi_info_descriptor and the TS packet indicated by Right_view_PID / tag, and generates a video stream for the left eye and a video stream for the right eye. Extract (step S4804).
  • the 3D digital television 4200 performs 3D playback by decoding the extracted left-eye video stream and right-eye video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4805).
  • FIG. 49 is a flowchart showing the flow of MPEG2 + MVC (Base) + MVC (Dependent) stream processing.
  • the display determination unit 4206 determines whether the current mode is the 2D mode or the 3D mode with reference to the flag of the mode storage unit 4204 (step S4901).
  • the display determination unit 4206 separates the TS packet indicated by 2D_view_PID / tag of 3D_combi_info_descriptor, and extracts an MPEG2 (2D) video stream (step S4902).
  • the 3D digital television 4200 performs 2D playback by decoding the extracted MPEG2 (2D) video stream by the video decoding unit 4207 and outputting the video signal to the display unit 4213 (step S4903).
  • the display determination unit 4206 separates the TS packet indicated by MVC_base_view_PID / tag of 3D_combi_info_descriptor and the TS packet indicated by MVC_dept_view_PID / tag, and extracts the base view stream and the dependent view stream. (Step S4904).
  • the extracted base view stream and dependent view stream are decoded by the video decoding unit 4207, and the video signal is output to the display unit 4213, whereby the 3D digital television 4200 performs 3D playback (step S4905).
  • the stream structure of the transport stream can be specified by referring to the descriptor multiplexed in the transport stream, so that 2D playback, compatible playback of 3D playback, and 2D Playback and 3D playback can be switched seamlessly.
  • the present invention may be an application execution method disclosed by the processing procedure described in each embodiment. Further, the present invention may be a computer program including program code that causes a computer to operate according to the processing procedure.
  • the present invention can also be implemented as an LSI that controls the image processing apparatus described in each of the above embodiments.
  • Such an LSI can be realized by integrating each functional block. These functional blocks may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI is used, but depending on the degree of integration, it may be called IC, system LSI, super LSI, or ultra LSI.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the encoding method of the present invention it is possible to store a video stream constituting 2D video and a descriptor specifying the video stream constituting 3D video in the transport stream.
  • the stream structure of the transport stream can be specified, so that 2D playback, compatible playback of 3D playback, and seamless switching between 2D playback and 3D playback can be performed. Be beneficial.
  • Playback apparatus 100 Playback apparatus 200 3D glasses 300 2D digital television 501 Video frame sequence 502 Video PES packet 503 Video TS packet 504 Audio frame sequence 505 Audio PES packet 506 Audio TS packet 507 Subtitle stream 508 Subtitle stream PES packet 509 Subtitle stream TS packet 513 Transport stream 1501 Playback device tuner 1502 Playback device NIC 1503 Demultiplexing unit of playback device 1504 Video decoding unit of playback device 1505 Display determination unit of playback device 1506 Display processing unit of playback device 1507 Display unit of playback device 1508 Frame buffer (1) of playback device 1510 Playback device frame buffer (L) 1511 Playback device frame buffer (R) 1512 Playback Device Switch 2301 Video Encoder 2302 Multiplexing Processing Unit 2303 Data Storage Method Determination Unit 4000 Data Creation Device 4001 Video Encoder 4002 Multiplexing Processing Unit 4003 Data Storage Method Determination Unit 4004 User Interface Unit 4004 4200 3D Digital TV 4201 Tuner 4202 NIC 4203 user interface unit 4204

Abstract

 符号化方法は、原画を圧縮符号化することにより得られる、2D映像を構成するビデオストリームおよび、3D映像を構成する複数のビデオストリームを、1本のトランスポートストリーム内に格納する。この際、トランスポートストリームに格納された3D映像を構成するビデオストリームを特定するディスクリプタをPMT(Program Map Table)内に格納する。

Description

符号化方法、表示装置、復号方法
 本発明は、符号化方法技術に関し、特に3D映像に関するトランスポートストリームの符号化方法技術に関する。
 現在、3D番組の放送は、サイドバイサイド方式で3D再生を実現するビデオストリームを1TS(1本のトランスポートストリームのことである)に多重化して、放送局がかかる1TSを各世帯のテレビ表示装置に供給することでなされる。サイドバイサイド方式とは、立体視に必要な左目映像と、立体視に必要な右目映像とを横方向に並べて、1つのフレームの領域内にパッケージングすることで3D再生を実現する方式である(特許文献1参照)。
 従来の3D表示装置は、入力されてくるビデオストリームが3D映像であるか否かの判定を行い、3D映像であると判定すると、ビデオストリームを構成する個々のフレームのピクチャデータは必ずサイドバイサイド方式の画像であり、右半分に右目画像、左半分に左目画像が格納されているとの前提で、右目画像、左目画像の復号を行う。
日本特許第3789794号公報
 従来の3Dテレビ放送は、1TS-1VS方式(1本のトランスポートストリームで1本のビデオストリームを伝送する方式)であり、3Dモード-2Dモード間の切り替えは実現されていない。従ってユーザは、3Dテレビ放送を3D映像としか視聴することができず、ユーザに対して充分な配慮がなされているとはいえない。
 一方、BD-ROM再生装置では、右目用のビデオストリームを格納したトランスポートストリーム、左目用のビデオストリームを格納したトランスポートストリームをBD-ROMから読み出してデコーダに供することで、2Dモード、3Dモードの自由なモード切り替えを実現している。右目用のビデオストリームを格納したトランスポートストリーム、左目用のビデオストリームを格納したトランスポートストリームをまとめて読み出すため、これら2本のトランスポートストリーム(2TS)はインターリーブ形式のファイルに変換された上でBD-ROMに記録されている。しかしながらデジタルテレビ放送のTV番組では、1つのTV番組に使用できるトランスポートストリームは、1TSであるという前提があるので、上記右目用のビデオストリーム、左目用のビデオストリームを2本のTSを用いて伝送することはできない。また、デジタルテレビ放送において、テレビ番組はファイルという単位で伝送される訳ではないから、右目用のビデオストリームを格納したトランスポートストリーム、左目用のビデオストリームを格納したトランスポートストリームをファイルによって対応付けることができず、かかるBD-ROMにおける対応付けを、デジタルテレビ放送にそのまま応用することは不可能である。
 本発明の目的は、1つのTV番組に使用できるトランスポートストリームは、1TSであるという前提下で、2Dモード、3Dモード間の自由なモード切り替えを実現することができる符号化方式を提供することである。
 上記目的を達成するため、本発明にかかる符号化方法は、画像を圧縮符号化してビデオストリームを生成するエンコードステップと、エンコードステップによって生成される複数のビデオストリームに対して多重化処理を施すことで、1つのトランスポートストリームを得る多重化ステップとを有し、前記複数のビデオストリームは、2D映像を構成する2Dビデオストリームを含むとともに、複数のビデオストリームを組み合わせることで3D映像を構成し、3D映像を構成するビデオストリームの組み合わせには、前記2Dビデオストリームと1つの他のビデオストリームの組み合わせと、2Dビデオストリーム以外の2以上の他のビデオストリームの組み合わせがあり、前記トランスポートストリームは、3D映像を構成するビデオストリームを特定する3D映像特定情報を含むことを特徴とする。
 3D再生に必要な組合せが記載されている3D映像特定情報が、1本のトランスポートストリームに存在するから、表示装置が2D再生を実行していて、これを3D再生に切り替える場合、トランスポートストリーム内の関連付け情報を参照することで、3D再生に必要なビデオストリームがどれであるかを知得することができる。
 請求項2によれば、3D映像特定情報がコンテンツテーブルに存在するので、かかるコンテンツテーブルがトランスポートストリームの先頭部に配置されたり、所定の時間置きに配置されている場合、このコンテンツテーブルを格納したパケットをトランスポートストリームから取り出して、3D映像特定情報を参照することにより、多重分離すべきビデオストリームを容易に特定することができ、3D映像を再生することができる。
 請求項3によれば、2Dビデオストリームを特定する2D映像特定情報がトランスポートストリームに存在するから、2D再生に必要なビデオストリームがどれであるかを知得することができ、2D再生、3D再生の互換再生が可能となる。
 請求項4によれば、2Dビデオストリーム、左目映像を構成する左目ビデオストリーム、右目映像を構成するビデオストリームに、それぞれ対応するストリーム識別子を示す情報がトランスポートストリームに存在するから、2D再生、または3D再生において、多重分離すべきビデオストリームを特定することができ、2Dモードと3Dモードとの間での多重分離対象の切り替えを高速にすることができる。
 請求項5によれば、2Dビデオストリームと、3D映像を構成する複数のビデオストリームのいずれかが一致するか否かを示すフラグがコンテンツテーブルに存在するから、このコンテンツテーブルを格納したパケットをトランスポートストリームから取り出して、このフラグを参照することにより、トランスポートストリームのストリーム構成を特定することができる。
 請求項6によれば、フレームへの左目画像、右目画像のパッケージングに様々な格納方式を採用することができるので、サイドバイサイド、トップアンドボトム等、既存の撮影行為で取得可能な様々な3D素材をコンテンツ作成に利用することができる。
 請求項7によれば、ストリームディスクリプタにおけるカメラアサインメントには、カメラのチャネル構成が示されているので、撮影時のカメラ環境を再生時に再現することができる。
 請求項8によれば、2Dビデオストリーム、他のビデオストリームのうち、どちらのビデオストリームに存在するクローズドキャプションの字幕データを用いるかを示す情報がコンテンツテーブルに記述されているので、このコンテンツテーブルを格納したパケットをトランスポートストリームから取り出して参照することにより、2D再生または3D再生で用いるべきクローズドキャプションのデータを識別することができる。
 請求項10によれば、3D映像特定情報を、コンテンツテーブルにおけるストリーム情報内のストリームディスクリプタ内に記述するので、ストリーム情報を参照することで、多重分離すべきビデオストリームを特定することができ、3D映像を再生することができる。
 請求項11によれば、コンテンツテーブルにおける各ビデオストリームに対応するストリーム情報に、組合せの相手側となるビデオストリームのストリーム識別子を記述しているので、ストリーム情報を参照することで、3D再生において必要となるもう一方のビデオストリームを特定することができる。
Side-by-Side方式の映像を配信する場合の課題を説明する図である。 再生装置と2Dデジタルテレビの利用形態を示す図である。 立体視画像の表示の一例を示す図である。 Side-by-Side方式による映像の表示の例を示す図である。 立体視のためのフレームの構成の一例を示す図である。 トランスポートストリームの構成を説明する図である。 ビデオストリームの構造を説明する図である。 PESパケット列に、ビデオストリームどのように格納されるかを更に詳しく示した図である。 TSパケットの構造を説明する図である。 PMTのデータ構造を説明する図である。 ビデオのクロッピング領域情報、スケーリング情報を説明する図である。 ビデオのクロッピング領域情報の具体例を示す図である フレームパッキング情報とフレームパッキング情報ディスクリプタの格納方法を説明する図である。 フレームパッキング情報ディスクリプタとフレームパッキング情報の関係の例を示す図である。 本実施の形態に係る再生装置を説明する図である。 フレームパッキング情報ディスクリプタの「処理優先度」を説明する図である。 フレームパッキング情報ディスクリプタの「表示切替開始PTS」を説明する図である。 左目映像と右目映像を別々のビデオストリームとして、1本のトランスポートストリームに格納する構成を説明する図である。 2本のビデオストリームで構成する場合の符号化ビットレートを確保する上で効率的なデータフォーマットを説明する図である。 3D再生情報ディスクリプタを説明する図である。 2本のビデオストリームで構成する場合の特殊再生に好適な符号化方法を説明する図である。 2本のビデオストリームで構成する場合の特殊再生、編集に好適な多重化方法を説明する図である。 本実施の形態に係るデータ作成装置を説明する図である。 2D映像とデプスマップから左目映像と右目映像の視差画像を生成する例を示す図である。 2D再生および3D再生時の左目用(L)映像として用いられるビデオに加え、右目用(R)映像のビデオを格納するトランスポートストリーム構成(2D/L + R)を示す図である。 2Dのビデオとは別に、左目用(L)のビデオ、および右目用(R)のビデオを2本格納するトランスポートストリームの構成(2D + L + R)を示す図である。 2D + L + Rのストリーム構成における、3D_system_info_descriptorの構造を示す図である。 3D_playback_typeに設定される値を示す図である 2D + L + Rのストリーム構成における、3D_service_info_descriptorの構造を示す図である。 2D + L + Rのストリーム構成における、3D_combi_info_descriptorの構造を示す図である。 2Dのビデオに加えて、Side-by-Side方式のビデオを格納するトランスストリーム構成(2D + Side-by-Side)を示す図である。 2D + Side-by-Side のストリーム構成における、3D_service_info_descriptorの構造を示す図である。 2D + Side-by-Side のストリーム構成における、3D_combi_info_descriptorの構造を示す図である。 2D再生のみに用いられるビデオに加えて、MVCにより圧縮符号化された2本のビデオを格納するトランスポートストリーム構成(2D + MVC)を示す図である。 2D + MVC のストリーム構成における、3D_combi_info_descriptorの構造を示す図である。 2D再生、および3D再生時のL映像として用いられるビデオに加え、複数視点のR映像のビデオを格納するトランスポートストリーム構成(2D + R1 + R2)を示す図である。 2D + R1 + R2のストリーム構成における、3D_system_info_descriptorの構造を示す図である。 2D + R1 + R2のストリーム構成における、3D_service_info_descriptorの構造を示す図である。 2D + R1 + R2のストリーム構成における、3D_combi_info_descriptorの構造を示す図である。 データ作成装置4000の内部構成を示す図である。 データ作成装置4000の符号化処理の流れを示すフローチャートである。 3Dデジタルテレビ4200の内部構成を示す図である。 3Dデジタルテレビ4200による番組の再生処理の流れの一例を示すフローチャートである。 2D + SBSのストリームの処理の流れを示すフローチャートである。 2D/SBSのストリームの処理の流れを示すフローチャートである。 2D/L + Rのストリームの処理の流れを示すフローチャートである。 2D/L + R1 + R2のストリームの処理の流れを示すフローチャートである。 MPEG2 + AVC + AVCのストリームの処理の流れを示すフローチャートである。 MPEG2 + MVC(Base) + MVC(Dependent)のストリームの処理の流れを示すフローチャートである。
 以下本発明の実施の形態について、図面を参照しながら説明する。
 (実施の形態1)
 本実施の形態に係る映像フォーマットと、その映像フォーマットにおけるデータ作成方法、データ作成装置、再生方法、再生装置について説明する。
 先ず始めに、立体視の原理について簡単に述べる。立体視の実現法としては、ホログラフィ技術を用いる方法と、視差画像を用いる方式とがある。
 まず、1つ目のホログラフィ技術の特徴としては、人間が通常物体を認識するのと全く同じように物体を立体として再現することができるが、動画生成に関しては、技術的な理論は確立しているが、ホログラフィ用の動画をリアルタイムで生成する膨大な演算量を伴うコンピューター、及び1mmの間に数千本の線を引けるだけの解像度を持った表示装置が必要であるが、現在の技術での実現は非常に難しく、商用として実用化されている例はほとんどない。
 次に、2つ目の視差画像を用いる方式について説明する。一般に右目と、左目は、その位置の差に起因して、右目から見える像と左目から見える像には見え方に若干の差がある。この差を利用して人間は目に見える像を立体として認識できるのである。視差画像を用いて立体表示をする場合には、人間の視差を利用し平面の画像があたかも立体に見えるようにしている。
 この方式のメリットは、高々右目用と左目用の2つの視点の映像を準備するだけで立体視を実現できることにあり、技術的には、左右のそれぞれの目に対応した絵を、いかにして対応した目にだけ見せることができるかの観点から、継時分離方式を始めとするいくつかの技術が実用化されている。
 継時分離方式とは、左目用映像及び右目用映像を時間軸方向で交互に表示させ、目の残像反応により左右のシーンを脳内で重ね合わさせて、立体映像として認識させる方法である。
 また、視差画像を用いた立体視においては、右目に入る映像と左目に入る映像をそれぞれ用意する方式の他に、2D映像に対して画素単位で奥行き値が与えられたデプスマップを別途用意して、2D映像とデプスマップに基づいて左目映像と右目映像の視差画像をプレーヤやディスプレイで生成する方法がある。図24は2D映像とデプスマップから左目映像と右目映像の視差画像を生成する例を模式的に示している。デプスマップは2D映像内のそれぞれの画素に対応して奥行き値をもっており、図24の例では、2D映像の円形の物体は、デプスマップでは奥行きが高いことを示す情報が割り当てられ、それ以外の領域は奥行きが低いことを示す情報が割り当てられている。この情報は、画素ごとのビット列で格納しても良いし、画像イメージ(例えば「黒」を奥行きが低いことを示し、「白」を奥行きが高いことを示す画像イメージ)として格納しても良い。視差画像は、デプスマップの奥行き値から、2D映像の視差量を調整することによって作成することができる。図24の例では、2D映像内の円形の物体の奥行き値は高いため、視差画像を作成するときには、円形の物体の画素の視差量を大きくし、円形物体以外の領域は、奥行き値が低いため、円形の物体の画素の視差量を小さくして、左目映像、右目映像を作成する。この左目映像と右目映像を、継時分離方式等を使って表示すれば立体視が可能となる。
 以上が立体視の原理についての説明である。
 次に、本実施の形態における再生装置の使用形態について説明する。
 本実施の形態における再生装置は、2D映像もしくは3D映像を復号してディスプレイに映像を転送する装置である。ここでは、例としてデジタルテレビを挙げて説明する。
 デジタルテレビには、図2に示すように3D映像が視聴可能な再生装置100と、3D映像の再生をサポートしない2D映像のみを再生できる2Dデジタルテレビ300がある。
 図2(a)は、再生装置の、使用行為についての形態を示す図である。本図に示すように、デジタルテレビ100と3D眼鏡200とから構成され、ユーザによる使用が可能となる。
 再生装置100は、2D映像及び3D映像を表示することができるものであり、受信した放送波に含まれるストリームを再生することで映像を表示する。
 本実施形態の再生装置100は、3D眼鏡200をユーザが着用することで立体視を実現するものである。3D眼鏡200は、液晶シャッターを備え、継時分離方式による視差画像をユーザに視聴させる。視差画像とは、右目に入る映像と、左目に入る映像とから構成される一組の映像であり、それぞれの目に対応したピクチャだけがユーザの目に入るようにして立体視を行わせる。図2(b)は、左目用映像の表示時を示す。画面上に左目用の映像が表示されている瞬間において、前述の3D眼鏡200は、左目に対応する液晶シャッターを透過にし、右目に対応する液晶シャッターは遮光する。同図(c)は、右目用映像の表示時を示す。画面上に右目用の映像が表示されている瞬間において、先ほどと逆に右目に対応する液晶シャッターを透光にし、左目に対応する液晶シャッターを遮光する。
 また、別の方法の再生装置としては、先ほどの継時分離方式では左右のピクチャーを時間軸方向で交互に出力していたのに対して、一画面中の縦方向に左目用のピクチャーと右目用のピクチャーを同時に交互に並べ、ディスプレイ表面にレンチキュラーレンズと呼ばれる蒲鉾上のレンズを通して、左目用のピクチャーを構成する画素は左目だけに結像し、右目用のピクチャーを構成する画素は右目だけに結像するようにすることで、左右の目に視差のあるピクチャーを見せ、3Dとしてみることができる方式がある。なお、レンチキュラーレンズだけでなく、同様の機能を持たせたデバイス、例えば液晶素子を用いてもよい。また左目用の画素には縦偏光のフィルター、右目用の画素には横偏光のフィルターを設置し、視聴者は、左目用には縦偏光、右目用には横偏光のフィルターを設置した偏光メガネを用いてディスプレイを見ることによって立体視が可能となる偏光方式がある。
 視差画像を用いた立体視のための方法はこの他にも2色分離方式などさまざまな技術が提案されており、本実施の例においては、継時分離方式を例として用いて説明するが、視差画像を用いる限りこの方式に限定するものではない。
 2Dデジタルテレビ300は、図2の(d)に示すように、再生装置100と異なり、立体視を実現できない。2Dデジタルテレビ300は、2D映像のみを表示することができるものであり、受信した放送波に含まれるストリームを2D映像としてのみ再生できる。
 以上が、再生装置の使用形態についての説明である。
 次に、デジタルテレビの放送波等で伝送される一般的なストリームの構造について説明する。
 デジタルテレビの放送波等での伝送では、MPEG-2トランスポートストリーム形式のデジタルストリームが使われている。MPEG-2トランスポートストリームとは、ビデオやオーディオなど様々なストリームを多重化して伝送するための規格である。ISO/IEC13818-1およびITU-T勧告H222.0において標準化されている。
 図6は、MPEG-2トランスポートストリーム形式のデジタルストリームの構成を示す図である。本図に示すようにトランスポートストリームは、ビデオストリーム、オーディオストリーム、字幕ストリームなどを多重化することで得られる。ビデオストリームは番組の主映像を、オーディオストリームは番組の主音声部分や副音声を、字幕ストリームは番組の字幕情報を格納している。ビデオストリームは、MPEG-2、MPEG-4 AVCなどの方式を使って符号化記録される。オーディオストリームは、ドルビーAC-3、MPEG-2 AAC、MPEG-4 AAC、HE-AACなどの方式で圧縮・符号化記録されている。
 ビデオストリームの構成について説明する。MPEG-2、MPEG-4 AVC、SMPTE VC-1などの動画圧縮符号化においては、動画像の空間方向および時間方向の冗長性を利用してデータ量の圧縮を行う。時間方向の冗長性を利用する方法として、ピクチャ間予測符号化が用いられる。ピクチャ間予測符号化では、あるピクチャを符号化する際に、表示時間順で前方または後方にあるピクチャを参照ピクチャとする。そして、その参照ピクチャからの動き量を検出し、動き補償を行ったピクチャと符号化対照のピクチャとの差分値に対して空間方向の冗長度を取り除くことによりデータ量の圧縮を行う。
 ここでは、参照ピクチャを持たずに符号化対象ピクチャのみを用いてピクチャ内予測符号化を行うピクチャをIピクチャと呼ぶ。ピクチャとは、フレームおよびフィールドの両者を包含する1つの符号化の単位である。また、既に処理済の1枚のピクチャを参照してピクチャ間予測符号化するピクチャをPピクチャとよび、既に処理済みの2枚のピクチャを同時に参照してピクチャ間予測符号化するピクチャをBピクチャと呼び、Bピクチャの中で他のピクチャから参照されるピクチャをBrピクチャと呼ぶ。また、フレーム構造の場合のフレーム、フィールド構造のフィールドを、ここではビデオアクセスユニットと呼ぶ。
 また、ビデオストリームは、図7に示すような階層構造を有している。ビデオストリームは、複数のGOP(Group of Pictures)から構成されており、これを符合化処理の基本単位とすることで動画像の編集やランダムアクセスが可能となっている。GOPは1つ以上のビデオアクセスユニットにより構成されている。ビデオアクセスユニットは、ピクチャの符合化データを格納する単位であり、フレーム構造の場合は1フレーム、フィールド構造の場合の1フィールドのデータが格納される。各ビデオアクセスユニットは、AU識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャデータ、パディングデータ、シーケンス終端コード、ストリーム終端コードなどから構成される。各データはMPEG-4 AVCの場合は、NALユニットと呼ばれる単位で格納される。
 AU識別コードはアクセスユニットの先頭を示す開始符号である。シーケンスヘッダは、複数ビデオアクセスユニットから構成される再生シーケンスでの共通の情報を格納したヘッダであり、解像度、フレームレート、アスペクト比、ビットレートなどの情報が格納される。ピクチャヘッダはピクチャ全体の符合化の方式などの情報を格納したヘッダである。補足データは圧縮データの復号に必須ではない付加情報であり、例えば、映像と同期してTVに表示するクローズドキャプションの文字情報やGOP構造情報などが格納される。圧縮ピクチャデータには、圧縮符号化されたピクチャのデータが格納される。パディングデータは、形式を整えるための意味のないデータが格納される。例えば、決められたビットレートを保つためのスタッフィングデータとして用いる。シーケンス終端コードは、再生シーケンスの終端を示すデータである。ストリーム終端コードは、ビットストリームの終端を示すデータである。
 AU識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャデータ、パディングデータ、シーケンス終端コード、ストリーム終端コードの中身の構成は、ビデオの符合化方式によって異なる。
 例えば、MPEG-4 AVCの場合であれば、AU識別コードは、AUデリミタ(Access Unit Delimiter)、シーケンスヘッダはSPS(Sequence Paramter Set)に、ピクチャヘッダはPPS(Picture Parameter Set)に、圧縮ピクチャデータは複数個のスライス、補足データはSEI(Supplemental Enhancement Information)、パディングデータはFillerData、シーケンス終端コードはEnd of Sequence、ストリーム終端コードはEnd of Streamに対応する。
 例えば、MPEG-2の場合であれば、シーケンスヘッダはsequence_Header、sequence_extension、group_of_picture_headerに、ピクチャヘッダはpicture_header、picture_coding_extension、圧縮ピクチャデータは複数個のスライス、補足データはuser_data、シーケンス終端コードはsequence_end_codeに対応する。AU識別コードは存在しないが、それぞれのヘッダのスタートコードを使えば、アクセスユニットの切れ目を判断できる。
 各データは常に必要ではなく、例えば、シーケンスヘッダはGOP先頭のビデオアクセスユニットでのみ必要で、それ以外のビデオアクセスユニットにはなくてもよい、としてもよい。また、符号化方式によっては、ピクチャヘッダは前のビデオアクセスユニットのものを参照して、自身のビデオアクセスユニット内にピクチャヘッダがなくても良い。
 ここで、クロッピング領域情報とスケーリング情報について図11を参照しながら説明する。ビデオ符号化方式によっては、符号化されたフレームの領域と、実際に表示に使う領域を変更することができる。図11のように、符号化されたフレーム領域の中から実際に表示する領域を、「クロッピング領域」として指定することが出来る。例えば、MPEG-4 AVCの場合には、SPSに格納されるframe_cropping情報を使って指定できる。frame_cropping情報は、図12左のように、クロッピンング領域の上線/下線/左線/右線と、符号化されたフレーム領域の上線/下線/左線/右線との差分を、上下左右のクロップ量として指定する。より具体的には、クロッピング領域を指定する場合には、frame_cropping_flagを1に設定し、frame_crop_top_offset / frame_crop_bottom_offset / frame_crop_left_offset / frame_crop_right_offsetに上/下/左/右のクロップ量を指定する。MPEG-2の場合には、クロッピング領域の縦横のサイズ(sequence_display_extensionのdisplay_horizontal_size, display_vertical_size)と、符号化されたフレーム領域の中心とクロッピング領域の中心との差分情報(picture_display_extensionのframe_centre_horizontal_offset, frame_centre_vertical_offset)を使ってクロッピング領域を指定できる。また、ビデオ符号化方式によっては、クロッピング領域を実際にテレビなどに表示する際のスケーリング方法を示すスケーリング情報が存在する。これは、例えばアスペクト比として設定される。再生装置はそのアスペクト比の情報を使って、クロッピング領域をアップコンバートして表示を行う。例えば、MPEG-4 AVCの場合には、スケーリング情報として、SPSにアスペクト比の情報(aspect_ratio_idc)が格納される。MPEG-4 AVCの場合、1440x1080のクロッピング領域を、1920x1080に拡大して表示するためには、アスペクト比は4:3を指定する。この場合水平方向に4/3倍にアップコンバート(1440x4/3=1920)され、1920x1080に拡大されて表示される。MPEG-2の場合にも同様にsequence_headerにアスペクト比の情報(aspect_ratio_information)が格納されている。
 トランスポートストリームに含まれる各ストリームはPIDと呼ばれるストリーム識別IDによって識別される。このPIDのパケットを抽出することで複合装置は、対象のストリームを抽出することが出来る。PIDとストリームの対応は以降で説明するPMTパケットのディスクリプタに格納される。
 図6は、トランスポートストリームがどのように多重化されるかを模式的に示す図である。まず、複数のビデオフレームからなるビデオストリーム501、複数のオーディオフレームからなるオーディオストリーム504を、それぞれPESパケット列502および505に変換し、TSパケット503および506に変換する。同じく字幕ストリーム507のデータをそれぞれPESパケット列508に変換し、更にTSパケット509に変換する。MPEG-2トランスポートストリーム513はこれらのTSパケットを1本のストリームに多重化することで構成される。
 図8は、PESパケット列に、ビデオストリームがどのように格納されるかを更に詳しく示している。本図における第1段目はビデオストリームのビデオフレーム列を示す。第2段目は、PESパケット列を示す。本図の矢印yy1,yy2, yy3, yy4に示すように、ビデオストリームにおける複数のVideo Presentation UnitであるIピクチャ、Bピクチャ、Pピクチャは、ピクチャ毎に分割され、PESパケットのペイロードに格納される。各PESパケットはPESヘッダを持ち、PESヘッダには、ピクチャの表示時刻であるPTS(Presentation Time-Stamp)やピクチャの復号時刻であるDTS(Decoding Time-Stamp)が格納される。
 図9は、トランスポートストリームを構成するTSパケットのデータ構造を示している。TSパケットは、4ByteのTSヘッダと、アダプテーションフィールドとTSペイロードから構成される188Byte固定長のパケットである。TSヘッダは、transport_priority、PID、adaptaion_field_controlなどから構成される。PIDは前述したとおりトランスポートストリームに多重化されているストリームを識別するためのIDである。transport_priorityは、同一PIDのTSパケットの中のパケットの種別を識別するための情報である。adaptation_field_controlは、アダプテーションフィールドとTSペイロードの構成を制御するための情報である。アダプテーションフィールドとTSペイロードはどちらかだけが存在する場合と両方が存在する場合があり、adaptation_field_controlはその有無を示す。adaptation_field_controlが1の場合は、TSペイロードのみが存在し、adaptation_field_controlが2の場合は、アダプテーションフィールドのみが存在し、adaptation_field_controlが3の場合は、TSペイロードとアダプテーションフィールドの両方が存在することを示す。
 アダプテーションフィールドは、PCRなどの情報の格納や、TSパケットを188バイト固定長にするためのスタッフィングするデータの格納領域である。TSペイロードにはPESパケットが分割されて格納される。
 トランスポートストリームに含まれるTSパケットには、映像・音声・字幕などの各ストリーム以外にもPAT(Program Association Table)、PMT(Program Map Table)、PCR(Program Clock Reference)などがある。これらのパケットはPSI(Program Specific Information)と呼ばれる。PATはトランスポートストリーム中に利用されるPMTのPIDが何であるかを示し、PAT自身のPIDは0で登録される。PMTは、トランスポートストリーム中に含まれる映像・音声・字幕などの各ストリームのPIDと各PIDに対応するストリームの属性情報を持ち、またトランスポートストリームに関する各種ディスクリプタを持つ。ディスクリプタにはAVストリームのコピーを許可・不許可を指示するコピーコントロール情報などがある。PCRは、TSパケットのデコーダへの到着時刻とPTS・DTSの時間軸であるSTC(System Time Clock)の同期を取るために、そのPCRパケットがデコーダに転送されるタイミングに対応するSTC時間の情報を持つ。
 図10はPMTのデータ構造を詳しく説明する図である。PMTの先頭には、そのPMTに含まれるデータの長さなどを記したPMTヘッダが配置される。その後ろには、トランスポートストリームに関するディスクリプタが複数配置される。前述したコピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後には、トランスポートストリームに含まれる各ストリームに関するストリーム情報が複数配置される。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのPID、ストリームの属性情報(フレームレート、アスペクト比など)が記載されたストリームディスクリプタから構成される。 
 以上がデジタルテレビの放送波等で伝送される一般的なストリームの構造の説明である。
 次に、立体視に使う視差画像を実現するための一般的な映像フォーマットについて説明する。
 視差画像を使った立体視の方式では、右目に入る映像と、左目に入る映像とを各々用意し、それぞれの目に対応したピクチャだけが入るようにして立体視を行う。図3は、ユーザの顔を左側に描き、右側には、対象物たる恐竜の骨格を左目から見た場合の例と、対象物たる恐竜の骨格を、右目から見た場合の例とを示している。右目及び左目の透光、遮光から繰り返されば、ユーザの脳内では、目の残像反応により左右のシーンの重合せがなされ、顔の中央の延長線上に立体映像が存在すると認識することができる。
 視差画像のうち、左目に入る画像を左目画像(L画像)といい、右目に入る画像を右目画像(R画像)という。そして、各々のピクチャが、L画像になっている動画像をレフトビュービデオといい、各々のピクチャがR画像になっている動画像をライトビュービデオという。
 レフトビュービデオとライトビュービデオを合成して圧縮符号化する3Dの映像方式には、フレーム互換方式とサービス互換方式がある。
 まず1つ目のフレーム互換方式は、レフトビュービデオとライトビュービデオの対応する各ピクチャをそれぞれ間引きまたは縮小した上で一つのピクチャに合成して、通常の動画像圧縮符号化を行う方式である。一例としては、図4に示すような、Side-by-Side方式がある。Side-by-Side方式では、レフトビュービデオとライトビュービデオの対応する各ピクチャをそれぞれ水平方向に1/2に圧縮した上で、左右に並べることで一つのピクチャに合成する。合成されたピクチャによる動画像は、通常の動画像圧縮符号化が行われてストリーム化される。一方再生時は、ストリームを通常の動画像圧縮符号化方式に基づいて動画像に復号化される。復号化された動画像の各ピクチャは、左右画像に分割されて、それぞれ水平方向に2倍に伸長されることによって、レフトビュービデオとライトビュービデオの対応する各ピクチャが得られる。得られたレフトビュービデオのピクチャ(L画像)とライトビュービデオのピクチャ(R画像)を交互に表示することによって、図2に示すような立体視画像を得ることができる。フレーム互換方式にはSide-by-Side方式の他に、左右画像を上下に並べるTop and Bottom方式や、ピクチャ内の1ライン毎に左右画像を交互に配置するLine Alternative方式などがある。
 このような立体視用の左右の映像の格納方式を識別する手段として、ビデオストリームには、フレームパッキング情報が用意されている。フレームパッキング情報は、例えばMPEG-4 AVCでは、Frame_packing_arrangement SEIである。図1は、フレームパッキング情報を説明する図である。図1下段は、ビデオフレーム列を示す。区間(A)はSide-by-Sideの映像が再生される区間であり、区間(B)は2D映像が再生される区間であり、区間(C)はTopBottom映像が再生される区間である。このような再生区間におけるフレームパッキング情報の例を図1の上段に示している。フレームパッキング情報には、フレーム格納タイプ、キャンセルフラグ、リピートフラグがある。フレーム格納タイプは、立体視用の左右の映像をフレーム内に格納する方式のタイプを示し、前述で説明した「Side-by-Side」「TopBottom」「チェッカーボード」「ラインバイライン」といった方式を識別する情報である。MPEG-4 AVCのFrame_packing_arrangementでは、Frame_packing_arrangement_typeに対応する。リピートフラグは、フレームパッキング情報の有効期間を示し、0であればフレームパッキング情報は該当フレームのみに対して有効であることを示し、1であれば該当フレームパッキング情報は、次のビデオシーケンスが来るまでか、ディスプレイ順で該当フレームよりも遅いフレームパッキング情報を持ったフレームがくるまで有効となる。MPEG-4 AVCのFrame_packing_arrangementでは、Frame_packing_arrangement_repetition_periodに対応する。キャンセルフラグは、前回のフレームパッキング情報の有効期間をキャンセルするフラグである。キャンセルフラグが1の場合には、以前に送出されたフレームパッキング情報がキャンセルされ、0の場合には該当のフレームパッキング情報が有効となる。MPEG-4 AVCのFrame_packing_arrangementでは、Frame_packing_arrangement_cancel_flagに対応する。
 Side-by-Side再生区間の先頭に格納されているフレームパッキング情報(A)のフレーム格納タイプはSide-by-Side、リピートフラグは1、キャンセルフラグは0となっている。Side-by-Side再生区間の先頭には、フレームパッキング情報は格納されておらず、また、リピートフラグは1であるため、この区間のフレーム列においては、Side-by-Side再生区間の先頭に格納されているフレームパッキング情報(A)が有効となる。2D再生区間の先頭に格納されているフレームパッキング情報(B)には、キャンセルフラグは1となっており、フレーム格納タイプやリピートフラグは格納されない。2D区間では、フレームパッキング情報は不要であるため、この先頭でキャンセルした後には、フレームパッキング情報は格納されていない。TopBottom再生区間には、フレームパッキング情報(C)が全てのフレームに格納されている。フレームパッキング情報(C)のフレーム格納タイプはTopBottom、リピートフラグは0、キャンセルフラグは0となっている。リピートフラグは0であるため、すべてのフレームがTopBottomであることを示すために、すべてのフレームにフレームパッキング情報を格納する必要がある。
 このようにビデオストリームにフレームパッキング情報を格納することにより、再生装置はその情報を参照することで、方式に従った立体視の表示処理を実現できる。
 次に、2つ目のサービス互換方式について説明する。サービス互換方式では、レフトビュービデオ、ライトビュービデオをデジタル化し、圧縮符号化することにより得られるビデオストリームである、レフトビュービデオストリームとライトビュービデオストリームを用いる。
 サービス互換方式において、レフトビュービデオ、ライトビュービデオを視点間の相関特性を利用したピクチャ間予測符号化技術により圧縮符号化したものを、特にマルチビュー符号化方式と呼ぶ。
 図5は、マルチビュー符号化方式による立体視のためのレフトビュービデオストリーム、ライトビュービデオストリームの内部構成の一例を示す図である。
 本図の第2段目は、レフトビュービデオストリームの内部構成を示す。このストリームには、ピクチャデータI1、P2、Br3、Br4、P5、Br6、Br7、P9というピクチャデータが含まれている。これらのピクチャデータは、Decode Time Stamp(DTS)に従いデコードされる。第1段目は、左目画像を示す。そうしてデコードされたピクチャデータI1、P2、Br3、Br4、P5、Br6、Br7、P9をPTSに従い、I1、Br3、Br4、P2、Br6、Br7、P5の順序で再生することで、左目画像が再生されることになる。本図において、参照ピクチャを持たずに符号化対象ピクチャのみを用いてピクチャ内予測符号化を行うピクチャをIピクチャと呼ぶ。ピクチャとは、フレームおよびフィールドの両者を包含する1つの符号化の単位である。また、既に処理済の1枚のピクチャを参照してピクチャ間予測符号化するピクチャをPピクチャと、既に処理済みの2枚のピクチャを同時に参照してピクチャ間予測符号化するピクチャをBピクチャと、Bピクチャの中で他のピクチャから参照されるピクチャをBrピクチャとそれぞれ呼ばれる。
 第4段目は、レフトビュービデオストリームの内部構成を示す。このレフトビュービデオストリームは、P1、P2、B3、B4、P5、B6、B7、P8というピクチャデータが含まれている。これらのピクチャデータは、DTSに従いデコードされる。第3段目は、右目画像を示す。そうしてデコードされたピクチャデータP1、P2、B3、B4、P5、B6、B7、P8をPTSに従い、P1、B3、B4、P2、B6、B7、P5の順序で再生することで、右目画像が再生されることになる。ただし、継時分離方式の立体視再生では、同じPTSが付された左目画像と右目画像とのペアうち一方の表示を、PTSの間隔の半分の時間(以下、「3D表示ディレイ」という)分だけ遅延して表示する。
 第5段目は、3D眼鏡200の状態をどのように変化させるかを示す。この第5段目に示すように、左目画像の視聴時は、右目のシャッターを閉じ、右目画像の視聴時は、左目のシャッターを閉じていることがわかる。
 これらのレフトビュービデオストリーム、ライトビュービデオストリームは、時間方向の相関特性を利用したピクチャ間予測符号化に加えて、視点間の相関特性を利用したピクチャ間予測符号化によって圧縮されている。ライトビュービデオストリームのピクチャは、レフトビュービデオストリームの同じ表示時刻のピクチャを参照して圧縮されている。
 例えば、ライトビュービデオストリームの先頭Pピクチャは、レフトビュービデオストリームのIピクチャを参照し、ライトビュービデオストリームのBピクチャは、レフトビュービデオストリームのBrピクチャを参照し、ライトビュービデオストリームの二つ目のPピクチャは、レフトビュービデオストリームのPピクチャを参照している。
 そして、圧縮符号化されたレフトビュービデオストリーム及びライトビュービデオストリームのうち、単体で復号化が可能になるものを"ベースビュービデオストリーム"という。また、レフトビュービデオストリーム及びライトビュービデオストリームのうち、ベースビュービデオストリームを構成する個々のピクチャデータとのフレーム間相関特性に基づき圧縮符号化されており、ベースビュービデオストリームが復号された上で復号可能になるビデオストリームを、"ディペンデントビューストリーム"という。なおベースビュービデオストリームとディペンデントビューストリームは、それぞれ別々のストリームとして格納や伝送されてもよいし、例えばMPEG2-TSなどの同一のストリームに多重化されてもよい。
 このように視点間の相関を利用したマルチビュー符号化方式の圧縮方法としては、Multiview Video Coding(MVC)と呼ばれるMPEG-4 AVC/H.264の修正規格がある。ISO/IEC MPEGとITU-T VCEGの共同プロジェクトであるJoint Video Team(JVT)は、2008年7月にMultiview Video Coding(MVC)と呼ばれるMPEG-4 AVC/H.264の修正規格の策定を完了した。MVCは、複数視点の映像をまとめて符号化する規格であり、映像の時間方向の類似性だけでなく視点間の類似性も予測符号化に利用することで、複数視点の独立した圧縮に比べて圧縮効率を向上している。
 以上が立体視に使う視差画像を実現するための一般的な映像フォーマットについての説明である。(3D映像を格納するデータフォーマット)
 次に、本実施の形態に係る3D映像を格納するデータフォーマットについて、図面を参照しながら説明を行う。
 図1で示したように、フレームパッキング情報を格納する符号方法としては、フレームパッキング情報(A)、フレームパッキング情報(B)のように、再生区間の先頭のみに配置する方法や、フレームパッキング(C)のように各フレームすべてに格納する方法が混在するケースがある。このように、異なるフレームパッキング情報を格納する方法が混在すると、再生および編集装置において処理が非効率である。例えば、図1のSide-byーSide再生区間(A)の、先頭以外のビデオフレームから飛び込み再生を行う場合には、Side-By-Side先頭のフレームに格納されるフレームパッキング情報を解析して取得する必要がある。例えば、TopBottom再生区間(C)の再生を行う際には、全フレームにおいてフレームパッキング情報の解析が必要であり、処理負荷がかかる。そこで、本実施の形態では、フレームパッキング情報を格納する符号方法を、再生装置が前もって特定でき、再生処理の効率化ができるように、以下のような映像フォーマット構造をとる。
 図13を参照して映像フォーマットの構造を説明する。図13の例はSide-By-Side方式のフレーム互換方式の3D映像を格納する場合の例である。トランスポートストリームに格納されるビデオストリームは、MPEG-4AVCやMPEG-2など映像符号化方式で圧縮されているビデオストリームである。
 ビデオストリームの補足データには、フレームパッキング情報が格納されている。フレームパッキング情報は、図1を使って説明した情報である。フレームパッキング情報には、フレーム格納タイプ、リピートフラグ、キャンセルフラグが格納される。フレームパッキング情報は、図1を使って説明したように、全てのビデオアクセスユニットの補足データに格納せずに、リピートフラグを1に設定して、GOP先頭のみに格納して、他のビデオアクセスユニットには格納しないようにすることも出来る。
 PMTパケットには、フレームパッキング情報ディスクリプタが格納される。フレームパッキング情報ディスクリプタは、トランスポートストリームに格納されるビデオストリーム毎に用意され、該当のビデオストリームの補足データに含まれるフレームパッキング情報の属性情報を格納する。フレームパッキング情報ディスクリプタには、「フレーム格納タイプ」、「フレームパッキング情報格納タイプ」、「開始PTS」が格納される。
 フレーム格納タイプは、フレームパッキング情報のフレーム格納タイプと同じ意味を持ち、該当ビデオストリームの立体視映像のフレーム格納方式(Side-by-Side方式など)を示す。この情報は、該当ビデオストリームの補足データに含まれるフレームパッキング情報のフレーム格納タイプと一致する。再生装置は、フレーム格納タイプを参照することにより、ビデオストリームを解析せずとも立体映像のフレーム格納方式を判断することができる。これにより、例えば、再生装置は、3D表示方法を前もって判断できることにより、3D表示用のOSDの生成処理など3D表示に必要な処理を前もって、ビデオストリームのデコードの前に行うことが可能となる。
 フレームパッキング情報格納タイプは、該当ビデオストリームに含まれるフレームパッキング情報の挿入方法を示している。図1を使って説明したように、フレームパッキング情報は、リピートフラグを1に設定して、GOP先頭のみに格納して、他のビデオアクセスユニットには格納しないようにすることも出来る。また反対にリピートフラグを0に設定して、すべてのフレームに格納するようにすることも出来る。フレームパッキング情報格納タイプは、このフレームパッキング情報の格納方法を特定するための情報であり、つまり、フレームパッキング情報タイプが、「GOP単位」であればGOP先頭のビデオアクセスユニットの補足データのみにフレームパッキング情報が格納されることを示し、「アクセスユニット単位」であれば全ビデオアクセスユニットの補足データのみにフレームパッキング情報が格納されることを示す。再生装置は、フレームパッキング情報格納タイプを参照することにより、ビデオストリームを解析せずともフレームパッキング情報の格納方法を判別できため、再生および編集処理を効率化できる。例えば、GOP先頭以外のフレームにも飛び込み再生を行う再生装置の場合には、フレームパッキング情報格納タイプを参照することで、それが「GOP先頭」を示す場合には、常にGOP先頭のみから飛び込み再生を開始するように制御できる。
 なお、フレームパッキング情報ディスクリプタには、GOP単位で属性が変化するかどうかを示す情報が格納されていても良い。このような構成にすることで、例えば、フレームパッキング情報格納タイプが「フレーム単位」で、GOP内で属性が変化しないことが示されれば、全フレームで同じフレームパッキング情報が格納されることが明示されるため、ビデオストリームに含まれるGOP先頭以外のフレームパッキング情報の解析をスキップすることができる。
 開始PTSは、該当のフレームパッキング情報ディスクリプタが有効となる時刻を示す。PMTパケットの位置は、ビデオストリームの多重化位置と一般的に同期しないため、該当のフレームパッキング情報ディスクリプタが有効となる時間をビデオストリームの表示時刻上で知ることができない。そこで、この開始PTSを参照することで、フレームパッキング情報ディスクリプタが有効となる時刻を再生装置は知ることができる。開始PTSは、ビデオに付与されるPTSを示すように制限してもよく、そうすることで明確にビデオとの同期を再生装置に指示できる。なお、再生装置がビデオデコードよりも前にフレームパッキング情報ディスクリプタを参照できるように、開始PTSと同じPTSが付与されるビデオアクセスユニットよりも、該当開始PTSを含むフレームパッキング情報ディスクリプタが格納されるPMTパケットは、多重化(符号)順で、前方に配置されるとしてもよい。上記開始PTSを含むPMTパケットが複数存在する場合には、先頭のパケットのみが多重化(符号)順で、前方に配置されるとしてもよい。
 図14は、フレームパッキング情報ディスクリプタとフレームパッキング情報の関係の例を示す図である。図14下段は、ビデオフレーム列を表示順に並べた図である。区間(A)はSide-by-Sideの映像が再生される区間であり、区間(B)は2D映像が再生される区間であり、区間(C)はTopBottom映像が再生される区間である。このような再生区間におけるフレームパッキング情報の例を図14の中段に示している。これは図1で示した構成と同じである。ここで、図14上段は、このデータ構成におけるフレームパッキング情報ディスクリプタの構成を示す。
 フレームパッキング情報ディスクリプタ(A)は、Side-by-Side再生区間(A)におけるフレームパッキング情報に対応する情報を含む。フレームパッキング情報ディスクリプタ(A)の各値は次のように設定される。フレーム格納タイプは、フレームパッキング情報のフレーム格納タイプと同じ「Side-by-Side」、フレームパッキング情報格納タイプはフレームパッキング情報が区間先頭のみに格納されているため「GOP先頭」、開始PTSは再生区間(A)における先頭の「ビデオPTSの値(例では180000)」が設定される。
 フレームパッキング情報ディスクリプタ(B)は、2D再生区間(B)におけるフレームパッキング情報に対応する情報を含む。フレームパッキング情報ディスクリプタ(B)の各値は次のように設定される。フレーム格納タイプは、フレームパッキング情報のフレーム格納タイプと同じであり設定されない。もしくは、「2D」というフレーム格納タイプが定義されるのであれば、その値が設定される。フレームパッキング情報格納タイプはフレームパッキング情報が区間先頭のみに格納されているため「GOP先頭」が設定される。開始PTSは再生区間(B)における先頭の「ビデオPTSの値(例では5580000)」が設定される。
 フレームパッキング情報ディスクリプタ(C)は、TopBottom再生区間(C)におけるフレームパッキング情報に対応する情報を含む。フレームパッキング情報ディスクリプタ(C)の各値は次のように設定される。フレーム格納タイプは、フレームパッキング情報のフレーム格納タイプと同じ「TopBottom」、フレームパッキング情報格納タイプはフレームパッキング情報が区間の全ビデオアクセスユニットに格納されているため「アクセスユニット単位」、開始PTSは再生区間(C)における先頭の「ビデオPTSの値(例では10980000)」が設定される。
 以上が、本実施の形態に係る映像フォーマットの説明である。(3D映像の再生装置)
 次に本実施の携帯に係る3D映像を再生する再生装置の構成について図15を用いて説明する。
 再生装置は、具体的には、3D映像の表示に対応するプラズマテレビや液晶テレビであり、ビデオストリームを送出するトランスポートストリームを受信する。ここでは継時分離方式でシャッタ眼鏡を利用する3D方式のテレビとする。再生装置は、IPネットワーク及び再生装置と接続され、これらから出力されたビデオストリームをも復号して表示する。
 再生装置は、図15に示すように、チューナ1501、NIC1502、多重分離部1503、映像デコード部1504、表示判定部1505、表示処理部1506、表示部1507、フレームバッファ(1)1510、フレームバッファ(2)1511、スイッチ1512から構成される。
 チューナ1501は、デジタル放送波のトランスポートストリームを受信し、受信した信号を復調する機能を有している。
 NIC1502は、IPネットワークと接続されており、外部から出力されたトランスポートストリームを受信する機能を有している。
 多重化分離部1503は、受信したトランスポートストリームを、ビデオストリームと、それ以外の音声ストリームなどに分離し、ビデオストリームを映像デコード部1504へ出力する。また多重分離部は、受信したトランスポートストリームからPSIなどのシステムパケットを抽出し、PMTパケットから、「フレームパッキング情報ディスクリプタ」を取得し、表示判定部や映像デコード部に通知する。多重化分離部1503は、チューナ1501やNIC1502からの入力に加えて、記録媒体からトランスポートストリームを読み出すこともできる。
 映像デコード部1504は、ビデオストリームを多重化分離部1503から受け取ると、受け取ったストリームのデコードを行うとともに、ビデオストリーム中の「フレームパッキング情報」を取り出す機能を有している。この映像デコード部1504により、フレーム単位の映像が復号される。ここで、多重化分離部1503より通知されるフレームパッキング情報ディスクリプタの「フレームパッキング情報格納タイプ」がGOP単位であれば、「フレームパッキング情報」の取り出しをGOP先頭のビデオアクセスユニット以外はスキップできる。
 映像デコード部1504は、復号されたフレームをフレームバッファ(1)1508へ書き込み、「フレームパッキング情報」を表示判定部1506に出力する。
 フレームバッファ(1)1508は、映像デコード部1504でデコードされたフレームを格納するための領域を有する。
 表示判定部1505は、「フレームパッキング情報ディスクリプタ」や「フレームパッキング情報」を元に表示方法を決定する。「フレームパッキング情報ディスクリプタ」や「フレームパッキング情報」に格納されるフレーム格納タイプにしたがって、3D映像の格納方式を判別して、「フレームパッキング情報ディスクリプタ」の「開始PTS」や、フレームパッキング情報が格納されるビデオのPTSのタイミングで、表示処理部に通知する。表示判定部1505は、このように表示方法を決定して、その内容を表示処理部1506に通知する。
 表示処理部1506は、フレームバッファ(1)に格納された復号化されたフレームデータを、表示判定部1505からの指示に従って変形を行い、フレームバッファ(L)やフレームバッファ(R)に書き出す。Side-by-Side方式の場合は、表示処理部1506はフレームの左半分からHalfHDの左目画像をクロップしてフレームバッファ(L)に書き出し、表示処理部1506はフレームの右半分からHalfHDの右目画像をクロップしてフレームバッファ(R)に書き出す。TopBottom方式の場合は、表示処理部1506はフレームの上半分からHalfHDの左目画像をクロップしてフレームバッファ(L)に書き出し、表示処理部1506はフレームの下半分からHalfHDの右目画像をクロップしてフレームバッファ(R)に書き出す。2Dの場合は、フレームバッファ(1)の映像をフレームバッファ(L)とフレームバッファ(R)の両方に書き出す。
 フレームバッファ(L)1510、フレームバッファ(R)1511は、表示処理部1506から出力されるフレームを格納するための領域を有する。
 スイッチ1512は、フレームバッファ(L)1510、フレームバッファ(R)1511に書き出されたフレーム画像を選択して表示部に転送する。表示するフレームに応じてフレームバッファ(L)1510、フレームバッファ(R)1511を交互に選択して表示する。
 表示部は1506は、スイッチ1512から転送されたフレームを表示する。表示部1506は3D眼鏡に通信を行い、左目画像が表示されるときは、3D眼鏡の左目側が開き、右目画像が表示されるときは、3D眼鏡の右目側が開くように3D眼鏡の液晶シャッタを制御する。なお、2D映像を表示する場合には、3D眼鏡の制御は行われない。
 以上が本実施の形態に係る再生装置の説明である。
 なお、フレームパッキング情報ディスクリプタは、PMTパケット以外にも、番組情報などを含めた SI (Service Information) のディスクリプタ、TSパケットヘッダ、PESヘッダなどに格納しても良い。
 なお、フレームパッキング情報ディスクリプタのフレームパッキング情報格納タイプには、「GOP単位」と「アクセスユニット単位」があるとしたが、PESパケットに1つ存在することを示す「PESパケット単位」、Iピクチャに1つ存在することを示す「Iピクチャ単位」、フレームパッキング情報に含まれる値が切り替わる度に1つ存在することを示す「属性切り替わり単位」など他のタイプがあっても良い。
 なお、フレームパッキング情報ディスクリプタには、前のPMTパケットに格納されるフレームパッキング情報ディスクリプタの値と変化があるかどうかが分かる識別子が存在しても良い。この識別子を参照することで、変化がない場合には、フレームパッキング情報ディスクリプタの解析処理や表示判定部への通知および表示判定部の処理をスキップすることが出来る。
 なお、フレームパッキング情報ディスクリプタのフレームパッキング情報格納タイプとして、リピートフラグが格納されていても良い。例えば、フレームパッキング情報ディスクリプタのリピートフラグが1であればGOP単位、フレームパッキング情報ディスクリプタのリピートフラグが0であればアクセスユニット単位と再生装置は判定できる。
 なお、フレームパッキング情報ディスクリプタのフレームパッキング情報格納タイプは、フレーム格納タイプ毎に設定できるようにしてもよい。例えば、Side-by-Side方式の場合は「GOP単位」、TopBottom方式の場合は「フレーム単位」というように設定できても良い。なお、フレームパッキング情報ディスクリプタのフレームパッキング情報格納タイプは、フレームパッキング情報のID毎に設定できても良い。図1の説明では省略したが、フレームパッキング情報は、IDを持って複数設定することが可能である。このIDはMPEG-4 AVCのFrame_packing_arrangement SEIにおけるFrame_packing_arrangement_idに対応する。このID毎に、フレームパッキング情報格納タイプを設定できても良い。このようにすることで、PMTパケットのフレームパッキング情報ディスクリプタを毎回解析しなくても、一度、解析できれば、それを使い続けることが出来る。(3D映像を格納するデータフォーマットの変形例)
 次に、本実施の形態に係る3D映像を格納するデータフォーマットの変形例について図面を参照しながら説明を行う。
 再生装置において、3D映像から2D映像への切り替え、2D映像から3D映像への切り替えなどの表示切替処理には、処理時間を伴うケースがある。例えば、HDMIなどでテレビと接続をしている場合には、2D映像と3D映像間の切り替え時に、HDMIの再認証が発生するケースがある。この場合には、切り替え処理の間には、映像が正しく再生できないという問題が発生する。そこで、以下のケースではその課題をかんがみ、再生装置における切り替え時間を適切に制御することで、コンテンツ製作者の期待通りの再生を実現可能とする。
 図16上段は、TSパケット列と再生するビデオフレーム列との関係を示す図である。ビデオフレーム列は、PTS5580000まではSide-by-Sideの3D映像再生区間であり、PTS5580000からは2D映像再生区間となっている。この場合に、TSパケット内のPMTパケットに含まれるフレームパッキング情報ディスクリプタの構成が上部の(1)から(4)に記載されている。(1)はSide-by-Side区間を示すディスクリプタであり、(2)(3)(4)は2D区間を示すディスクリプタである。ここで、前述したように、多重化されたTSパケットがデコーダに到着する時刻と、ビデオの表示時刻には(A)で示すように時間のギャップが存在する。具体的には、(2)のディスクリプタが2Dであると通知する時刻では、まだビデオ表示時刻においては、Side-By-Sideを表示している区間となる。よって、再生装置が、PMTパケットが到着する時刻において、PMTパケット内のフレームパッキング情報ディスクリプタを参照して、表示処理を行ってしまうと、ギャップ(A)の時間で、表示切替処理が行われ、ギャップ(A)は正しく3D映像として再生できなくなる。
 そこで、図16下段のように、フレームパッキング情報ディスクリプタに「処理優先度」を格納する。この「処理優先度」は、PMTのフレームパッキング情報ディスクリプタを優先して処理することを示す「ディスクリプタ優先」と、ビデオストリームに格納されるフレームパッキング情報を優先して処理することを示す「ビデオ優先」の2種類が用意される。処理優先度が、「ディスクリプタ優先」である場合には、再生装置は、PMTに含まれるフレームパッキング情報ディスクリプタを優先して、表示の切り替え処理を行う。PMTパケットが到着して処理を行うことで、ギャップ(A)の中で表示切替処理を行う。この場合の再生遷移を図16下段下部の再生遷移Xで示している。このようにすることで、Side-by-Sideの再生区間の終端は表示切替処理により正しく再生できないが、その代わりに、2D再生区間は先頭から正しく再生することが出来る。
 処理優先度が、「ビデオ優先」である場合には、再生装置は、ビデオに含まれるフレームパッキング情報を優先して、表示の切り替え処理を行う。PMTパケットが到着しても表示切り替え処理を行わず、ビデオストリームの表示時刻のタイミングから表示切替処理を行う。この場合には、ギャップ(A)においては正しくデータの再生が行われ、PTS5580000の2D映像に遷移した時点から区間(B)を使って表示切り替え処理を行う。この場合の再生遷移を図16下段下部の再生遷移Yで示している。このようにすることで、2D再生区間の先頭部分は表示切替処理により正しく再生できないが、Side-by-Side再生区間の終端部分は正しく再生できる。
 このように処理優先度を設けることによって、再生装置に、コンテンツ製作者の意図を反映させて表示切り替え処理の時刻を制御できる。図16の例においては、コンテンツ製作者の意図において、2D映像の再生を優先させる場合には、処理優先度を「ディスクリプタ優先」に設定し、Side-by-Sideの3D映像の再生を優先させる場合には、処理優先度を「ビデオ優先」に設定すればよい。なお、処理優先度によって表示切替処理が行われる区間には、黒映像など無意味な映像を格納するようにしてもよい。その区間は、図16の例では、処理優先度が「ディスクリプタ優先」の場合のギャップ(A)であり、処理優先度が「ビデオ優先」の場合の(B)区間である。このようにすることで、ユーザがコンテンツを楽しめなくなる区間を発生させずにすむ。
 なお、フレームパッキング情報ディスクリプタには処理優先度ではなく、図17に示すように表示切替開始時刻を設定するようにしてもよい。このように構成することで、より正確に表示処理の開始時間を制御することが出来る。
 以上が、本実施の形態に係る3D映像を格納するデータフォーマットの変形例の説明である。(3D映像を2本のビデオストリームで構成する場合のデータフォーマット)
 次に、本実施の形態に係る3D映像を2本のビデオストリームで構成する場合のデータフォーマットについて図面を参照しながら説明を行う。
 フレーム互換方式の3D映像を例にとって説明したが、図18に示すように左目映像と右目映像を別々のビデオストリームとして、1本のトランスポートストリームに格納するようにして、2D映像は左目、右目のどちらかの映像を再生し、3D映像は左目、右目の両方を再生する、という構成にしてもよい。
 図19は、図18の構成における左目/右目映像のビデオストリームのフレームを表示順に並べた図である。図19上段のように2D映像と3D映像の再生区間が存在するケースにおいて、左右の映像両方に、2D映像を格納すれば、3D映像と2D映像のシームレスな接続を実現できる。しかし、この場合には、片方のビデオフレーム列は冗長なデータとなる。できるだけ高画質な2D映像を実現するには、図19下段のように片方のビデオフレーム列のみに2D映像を格納して、もう一方のビデオフレーム列には映像を格納しないことが好ましい。その方が、2D映像の符号化に多くのビットレートを確保することが出来る。
 そこで、トランスポートストリームに多重化されるビデオストリームの2D再生区間と3D再生区間を判別できるように、図20のように3D再生情報ディスクリプタを用意する。3D再生情報ディスクリプタは、PMTパケットに格納される。3D再生情報ディスクリプタには、再生方式と開始PTSが用意されている。再生方式は、2D再生か、3D再生かを示す識別子であり、開始PTSは、該当再生区間がどのフレームから始まるのかを示すための時刻情報である。3D再生情報ディスクリプタ(A)は、PTS180000から3D再生区間が始まることを示し、3D再生情報ディスクリプタ(B)は、PTS5580000から2D再生区間が始まることを示し、3D再生情報ディスクリプタ(C)は、PTS10980000から3D再生区間が始まることを示す。3D再生装置は、この情報を参照することにより、どこが3D再生なのか、2D再生なのかを判別できるため、2D映像再生区間においては、左目ビデオフレーム列のみをデコードして表示を行うことができ、この間は右目ビデオフレーム列にデータを格納しなくても良くなり、左目ビデオフレーム列の符号化にビットレートを多く確保することが出来る。
 なお、どちらのビデオストリームを2D映像として再生するかを示すために、3D再生情報ディスクリプタには、2D映像として再生を行うビデオのPIDを指定できるようにしても良い。ここで、2D映像として再生を行うビデオストリームをベースビデオストリーム、3D映像としてのみ再生を行うビデオストリームを拡張ビデオストリームと以降呼ぶことにする。PIDで指定するのではなく、ベースビデオは通常のストリームタイプを使い拡張ビデオは特殊なストリームタイプが設定されるとしても良い。
 なお、3D再生情報ディスクリプタは、ベースビデオストリームの補足データや拡張領域に格納されていてもよい。再生装置による表示切替の準備を前もって行うために、該当の2D再生区間(B)のビデオストリームではなく、その前にある3D再生区間(A)に格納されていても良い。
 なお、図20において、拡張ビデオが存在しない2D再生区間(B)の最終ビデオフレームには、ビデオフレームがなくなる旨をシグナリングする情報が格納されていても良い。例えば、EndOfSequenceなどである。再生装置は、デコード時にこの信号を受け取れば、そこで、拡張ビデオがなくなることが分かり、2D映像再生に遷移することが可能となる。
 なお、2D再生区間においては、ベースビデオストリームに2D映像を格納しておき、拡張ビデオストリームも用意しておくが、2D映像ではなく、例えば黒映像など低ビットレートで実現でき、また、ユーザに2D再生を促すメッセージを表示する映像を格納しておくようにしておき、3D再生情報ディスクリプタを拡張ビデオストリームの補足データや拡張領域に格納されているようにしても良い。この場合、再生装置は、拡張ビデオストリームに格納される3D再生情報ディスクリプタを参照して、2D再生であると判別できる場合には、ベースビデオストリームのみを使って2D映像の再生を行う。再生装置が3D再生情報ディスクリプタを処理できない場合には、ユーザに2D再生を促すメッセージが表示されるため、ユーザに2D映像再生処理を促すことが出来る。2D再生区間における拡張ビデオのビットレートは低くてすむため、その分、ベースビデオにビットレートを割り当てることが出来る。
 なお、3D再生情報ディスクリプタがPMTパケットに格納される場合には、該当PMTパケットの再生装置への到着時刻とビデオストリームの表示時刻にギャップがあるため、このギャップにおいては、黒映像のような無意味な映像を格納しても良い。このようにすることで、ユーザがコンテンツを楽しめなくなる区間を発生させずにすむ。
 なお、3D再生情報ディスクリプタの再生方式が2Dの場合には、HDMIの再認証を避けるために、該当の2D再生区間においてはフレームを複製して3Dと同じフォーマット(フレームレートなど)になるように、2Dのフレームをダブリングして再生するようにしても良い。
 なお、図18のような2つのビデオストリームで3D映像を伝送する方式の場合には、PMTパケットのディスクリプタには、どのビデオストリームとペアで3D映像を構成するかを示す情報が格納されている。例えば、図18の例では、左目映像はPIDが0x1011、右目映像はPIDが0x1015であり、この場合には、そのディスクリプタには、左目映像のPID=0x1011で、右目映像のPID=0x1015であるという情報が記載される。もしくは、該当ビデオストリームに対応するストリームディスクリプタに、反対側のビューのPIDが記載されてもよい。例えば、図18の例では、左目映像のビデオストリームに対応するストリームディスクリプタに、右目映像ビデオストリームのPIDとして0x1015が格納され、右目映像のビデオストリームに対応するストリームディスクリプタに、左目映像ビデオストリームのPIDとして0x1011が格納される。なお、左右のペアを識別するディスクリプタとしては、それぞれのビデオストリームに付加されるディスクリプタに、ペアとなる相手側のPIDが格納されても良い。なお、左右のペアを識別するディスクリプタとしては、MPEG-2システム規格に定義されるヒエラルキーディスクリプタを使っても良い。この場合には、新しいヒエラルキータイプを用意しても良い。
 なお、図18のような2つのビデオストリームで3D映像を伝送する方式の場合には、3D再生での早送りなどの特殊再生の効率化のために、ピクチャタイプを図21下段のように制約しても良い。ベースビデオストリームのビデオアクセスユニットがIピクチャであれば、同一PTSを持つ拡張ビデオストリームのビデオアクセスユニットもIピクチャで構成する。ベースビデオストリームのビデオアクセスユニットがPピクチャであれば、同一PTSを持つ拡張ビデオストリームのビデオアクセスユニットもPピクチャで構成する。図21上段はその制約をしていない場合であるが、この場合には、IピクチャとPピクチャを選んで特殊再生を行う再生装置では、ベースビデオのビデオアクセスユニットがPピクチャ(P3)の場合に、同一時刻の拡張ビデオのビデオアクセスユニットはBピクチャ(B3)なので、この場合、拡張ビデオの方は、前に存在するPピクチャ(P2)までデコードしなければならず負荷が大きくなる。図21下段のように制約することで、該当時刻のピクチャのみをデコードすればよいので処理負荷が図21上段に比較して小さくすむ。
 なお、図18のような2つのビデオストリームで3D映像を伝送する方式の場合には、二つのストリームにおけるフレームレート、解像度、アスペクト比などの属性は同じにすると制約しても良い。このように構成することで、片方の属性情報のみを解析すればよいので処理が楽になる。
 なお、図18のような2つのビデオストリームで3D映像を伝送する方式の場合には、図22のように多重化の制約を追加しても良い。この場合、図22において、B#NStartはGOP#N先頭のベースビデオのTSパケットであり、E#NStartは、GOP#N先頭の拡張ビデオのTSパケットであり、B#N+1StartはGOP#N+1先頭のベースビデオのTSパケットであり、E#NEndは、GOP#N終端の拡張ビデオのTSパケットである。この場合、図22上段のような構成の場合には、ベースビデオ単位で飛び込み再生を行うためにB#NStartから飛び込み再生をしようとしても、対応する拡張ビデオのパケットを読み込めない。また、ベースビデオのGOP単位で編集を行う場合にも、ベースビューのGOPの範囲に同一時刻の拡張ビデオが入らない。この場合、再生装置や編集装置は、ベースビデオだけでなく拡張ビデオのGOP構成もチェックする必要があり処理負荷が大きい。そこで、図22下段のように、GOP#N先頭のベースビデオのTSパケットは、GOP#N先頭の拡張ビデオのTSパケットよりも前に来るように構成し、GOP#N+1先頭のベースビデオのTSパケットは、GOP#N終端の拡張ビデオのTSパケットよりも後ろに来るように構成する。このようにすることで、飛び込み再生や編集をベースビデオ単位で行うことが出来る。
 なお、図18の構成では、拡張ビデオは、左目もしくは右目映像を指すとしたが、2D映像の奥行きを映像化したデプスマップでもよい。デプスマップの場合は、3Dの再生方式をディスクリプタで指定できるとしてもよい。(データ作成装置)
 次に本実施の形態に係るデータ作成装置およびデータ作成方法について図23を参照しながら説明を行う。
 データ作成装置は、ビデオエンコーダ2301、多重化処理部2302、データ格納方法決定部2303から構成されている。
 データ格納方法決定部2303は、作成するトランスポートストリームのデータフォーマットを指定する。例えば、図14の例に示す映像フォーマットの場合には、PTS180000から5580000まではSide-by-Side再生区間、PTS5580000から10980000までは2D再生区間、PTS10980000以降まではTopBottom再生区間と指定する。この再生方式の情報と、時刻情報およびフレームパッキング情報格納タイプをビデオエンコーダ2301に指定する。
 ビデオエンコーダ2301は、左目映像の非圧縮のビットマップなどの画像イメージと、右目映像の非圧縮のビットマップなどの画像イメージからMPEG4-AVCやMPEG2などの圧縮方式に従い、データ格納方法決定部2303の指定に従って符合化を行う。データ格納方法決定部2303が、「Side-by-Side方式の3D映像」と指定する場合には、フルHDの左目映像の画像イメージとフルHDの右目映像の画像イメージをそれぞれハーフHDにダウンコンバートして、それぞれのイメージを左右に1フレームにSide-by-Side方式で格納した後、圧縮符合化を行う。データ格納方法決定部2303が、「2D映像」と指定する場合には、フルHDの2D映像の画像イメージ圧縮符合化を行う。データ格納方法決定部2303が、「TopBottom方式の3D映像」と指定する場合には、フルHDの左目映像の画像イメージとフルHDの右目映像の画像イメージをそれぞれハーフHDにダウンコンバートして、それぞれのイメージを上下に1フレームにSide-by-Side方式で格納した後、圧縮符合化を行う。そして、本実施の形態で説明した映像フォーマットに従って、各方式に従ったフレームパッキング情報を補足データに格納する。格納方法は、データ格納方法決定部2303から指定されるフレームパッキング情報格納タイプにしたがう。圧縮した映像ストリームはビデオストリームとして出力される。
 多重化処理部1702は、ビデオエンコーダ2301から出力されたビデオストリームや、オーディオ、字幕などのストリームとともに、データ格納方法決定部2303の指示に従い多重化を行い、トランスポートストリームを作成して出力する。データ格納方法決定部1703が、「Side-by-Side方式の3D映像」と指定する場合には、トランスポートストリームへの多重化を行うとともに、本実施の形態で説明した映像フォーマットに従って、PMTパケットに「フレームパッキング情報ディスクリプタ」を格納して、トランスポートストリームを出力する。
 以上が本実施の形態に係るデータ作成装置およびデータ作成方法である。
 (実施の形態2)
 実施の形態2として、上述のディスクリプタの具体的な形態について説明する。
 3D番組の放送は、複数のビデオストリームを1本のトランスポートストリームに多重化して、放送局がかかるトランスポートストリームを各世帯のテレビ表示装置に供給することでなされる。この際、トランスポートストリームが格納するビデオストリームの組み合わせには、様々なパターンが存在する。本実施の形態にかかるディスクリプタは、かかる様々なストリーム構成において、2D再生、3D再生の互換再生、およびシームレスな2D再生、3D再生の切り替えの実現を可能とするものである。
 図25は、2D再生および3D再生時の左目用(L)映像として用いられるビデオに加え、右目用(R)映像のビデオを格納するトランスポートストリーム構成(2D/L + R)を示す図である。本図に示される例において、トランスポートストリームは、2D再生並びに3D再生時の左目用映像として用いられるビデオストリーム(ベースビデオストリーム)、および右目用のビデオストリーム(拡張ビデオストリーム♯1)を格納している。
 ベースビデオストリーム、拡張ビデオストリームはそれぞれ、PMTに固有のストリームタイプが定義される。また、ベースビデオストリームは、MPEG-2により動画圧縮符号化され、拡張ビデオストリームは、AVCにより動画圧縮符号化されている。
 2Dテレビ、または3Dテレビの2Dモードにおいては、2D/Lのビデオストリームを用いて2D再生を行う。一方、3Dテレビの3Dモードにおいては、2D/Lのビデオストリーム、およびRのビデオストリームを用いて、3D再生を行う。
 上記の2D/L + Rのストリーム構成の他に、2Dのビデオとは別に、左目用(L)のビデオ、および右目用(R)のビデオを2本格納するトランスポートストリームの構成(2D + L + R)がある。
 図26は、2D + L + Rのトランスポートストリームのストリーム構成を示す図である。本図に示される例において、トランスポートストリームは、2Dのビデオストリーム(ベースビデオストリーム)、左目用のビデオストリーム(拡張ビデオストリーム♯1)、および右目用のビデオストリーム(拡張ビデオストリーム♯2)を格納している。ベースビデオストリームは、MPEG-2により動画圧縮符号化され、拡張ビデオストリームは、AVCにより動画圧縮符号化されている。
 2Dテレビ、または3Dテレビの2Dモードにおいては、2Dのビデオストリームを用いて2D再生を行う。一方、3Dテレビの3Dモードにおいては、左目用のビデオストリーム、および右目用のビデオストリームを用いて、3D再生を行う。
 このように、再生装置が受信するトランスポートストリームには、様々なストリーム構成が考えられる。このような状況下において、再生装置が、2D映像、3D映像を構成するビデオストリームを特定し、2D再生、3D再生の互換再生、およびシームレスな2D再生、3D再生の切り替えの実現を可能とするため、本実施の形態では、以下に示すディスクリプタをトランスポートストリームに格納する。
 このディスクリプタには、3D方式を通知する3D_system_info_descriptor、3D再生を実現するための補足情報である3D_service_info_descriptor、2D再生、3D再生に用いるビデオストリームの対応関係を示す3D_combi_info_descriptorがある。
 以下では、上記の3つのディスクリプタの具体的内容について説明する。まず、3D_system_info_descriptorについて説明する。
 3D_system_info_descriptorは、PMTパケット内の番組情報長(program_info_length)フィールドに続く記述子フィールド(プログラムループ)に格納される。すなわち、図10においてディスクリプタ♯1~♯Nに格納される。
 3D_system_info_descriptorは、トランスポートストリームが提供する3D方式を示す。具体的には、2D再生、フレーム互換方式による3D再生、またはサービス互換方式による3D再生のいずれかの再生方式を示す。また、3D_system_info_descriptorは、フレーム互換方式による3D再生、またはサービス互換方式による3D再生の場合において、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを示す。
 図27は、3D_system_info_descriptorの構造を示す図である。
 3D_playback_typeは、トランスポートストリームが提供する再生方式を示す識別子である。図28は、3D_playback_typeに設定される値を示す図である。本図に示されるように、値が0の場合は、本トランスポートストリームにより2D再生が提供されることを示し、値が01の場合は、フレーム互換方式による3D再生が提供されることを示し、値が10の場合は、サービス互換方式による3D再生が提供されることを示す。2D + L + Rや2D/L + Rのストリーム構成の場合は、10の値が設定される。
 このように、再生装置は、3D_playback_typeを参照することで、トランスポートストリームが提供する再生方式を識別することができる。
 2D_independent_flagは、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを示す識別子である。値が0の場合は、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されていることを示す。値が1の場合は、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが独立して存在することを示す。2D/L + Rのストリーム構成の場合は、0の値が設定される。2D + L + Rのストリーム構成の場合は、1の値が設定される。
 このように、再生装置は、2D_independent_flagを参照することで、フレーム互換方式による3D再生、またはサービス互換方式による3D再生の場合(3D_playback_typeに設定される値が01、または10の場合)において、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか識別することができる。
 2D_view_flagは、3Dを構成するビデオストリームのうち、どちらを2D再生に用いるかを示す識別子である。3Dを構成するビデオストリームがフレーム互換方式である場合、2D_view_flagは、左目用画像、右目用画像のどちらを2D再生に用いるかを示す。3Dを構成するビデオストリームがサービス互換方式の場合、2D_view_flagは、ベースビデオストリーム、拡張ビデオストリームのどちらを2D再生に用いるかを示す。
 以上が、3D_system_info_descriptorについての説明である。続いて、3D_service_info_descriptorについて説明する。
 3D_service_info_descriptorは、PMTパケット内のES情報長(ES_info_length)フィールドに続く記述子フィールド(ESループ)に格納される。すなわち、図10においてストリームディスクリプタ♯1~♯Nに格納される。
 3D_service_info_descriptorは、3D再生を実現するための補足情報を示す。具体的には、ビデオストリームが左目用のビデオであるか右目用のビデオであるかを示す。ただし、2D再生にのみ用いられるビデオストリームに対しては、3D_service_info_descriptorを格納しない。3D再生に用いられないビデオストリームだからである。
 図29は、3D_service_info_descriptorの構造を示す図である。
 is_base_videoは、ビデオストリームが、ベースビデオストリームであるか、拡張ビデオストリームであるかを示す識別子である。値が1の場合は、ビデオストリームがベースビデオストリームであることを示す。値が0の場合は、ビデオストリームが拡張ビデオストリームであることを示す。
 leftview_flagは、ビデオストリームが左目映像であるか、右目映像であるかを示す識別子である。値が1の場合は、ビデオストリームが左目映像であることを示す。値が0の場合は、ビデオストリームが右目映像であることを示す。
 再生装置は、このフラグを参照することで、3D映像として、テレビに表示する場合に、ビデオストリームを左目・右目どちらの視点映像として出力するかを識別することができる。なお、leftview_flagは、ビデオストリームがベースビデオストリームである場合、拡張ビデオストリームである場合の両方に設けられる。
 以上が、3D_service_info_descriptorについての説明である。続いて、3D_combi_info_descriptorについて説明する。
 3D_combi_info_descriptorは、PMTパケット内の番組情報長(program_info_length)フィールドに続く記述子フィールド(プログラムループ)に格納される。すなち、図10においてディスクリプタ♯1~♯Nに格納される。
 3D_combi_info_descriptorは、2D再生、3D再生に用いるビデオストリームの対応関係を示す。具体的には、トランスポートストリームを構成するビデオストリームのPIDを示す。
 図30は、3D_combi_info_descriptorの構造を示す図である。
 2D_view_PID/tagは、2D再生に用いられるビデオストリームのPIDを示す。
 Left_view_PID/tagは、左目用映像のビデオストリームのPIDを示す。
 Right_view_PID/tagは、右目用映像のビデオストリームのPIDを示す。
 再生装置は、これらのディスクリプタを参照することにより、3D再生に用いるビデオストリームのペア、および2D再生に用いられるビデオストリームを特定することができる。2Dモード/3Dモードのそれぞれで多重分離に使用すべきパケット識別子が1つのディスクリプタに記載されているから、2Dモードと3Dモードとの間での多重分離対象の切り替えを高速にすることができ、シームレスな2D、3D再生の切り替えが可能になる。
 以上が、2D + L + Rや2D/L + Rのストリーム構成におけるディスクリプタの説明である。
 続いて、2Dのビデオに加えて、Side-by-Side方式のビデオを格納するトランスストリーム構成(2D + Side-by-Side)におけるディスクリプタの内容について説明する。
 図31は、2D + Side-by-Sideのトランスポートストリームのストリームの構成を示す図である。本図に示される例において、トランスポートストリームは、2Dのビデオストリーム(ベースビデオストリーム)、およびSide-by-Side方式のビデオストリーム(拡張ビデオストリーム♯1)を格納している。ベースビデオストリームは、MPEG-2により動画圧縮符号化され、拡張ビデオストリームは、AVCにより動画圧縮符号化されている。
 上記トランスポートストリームには、2D + L + Rのストリーム構成の場合と同様に、3D方式を通知する3D_system_info_descriptor、3D再生を実現するための補足情報である3D_service_info_descriptor、2D再生、3D再生に用いるビデオストリームの対応関係を示す3D_combi_info_descriptorが格納されている。
 これらのディスクリプタを参照し、2Dテレビ、または3Dテレビの2Dモードにおいては、2Dのベースビデオストリームを用いて2D再生を行う。一方、3Dテレビの3Dモードにおいては、Side-by-Side方式の拡張ビデオストリーム♯1を用いて、3D再生を行う。
 3D_system_info_descriptorは、図27に示す2D + L + Rのストリーム構成の場合と同様の構造であり説明を略する。再生装置は、このディスクリプタを参照することで、トランスポートストリームが提供する再生方式を識別することができる。
 図32は、3D_service_info_descriptorの構造を示す図である。図29に示す2D + L + Rのストリーム構成におけるディスクリプタに加えて、frame_packing_arrangement_typeが設けられている。
 frame_packing_arrangement_typeは、ビデオストリームが、Side-by-Side方式であるか否かを示す識別子である。値が1の場合は、ビデオストリームがSide-by-Side方式であることを示す。値が0の場合は、TopBottom方式であることを示す。
 再生装置は、この識別子を参照することにより、拡張ビデオストリームが、Side-by-Side方式であるか否かを識別でき、格納方式に対応した3D再生を行うことができる。
 なお、上記の説明では、Side-by-Side方式の場合と、TopBottom方式の場合におけるframe_packing_arrangement_typeの値を設定したが、他に左目用映像を奇数ラインに、右目用映像を偶数ラインにインターリーブして配置するラインバイライン方式、左右の映像を合成し1フレームの中に市松模様のように上下左右交互に映像を格納するチェッカーボード方式における値をframe_packing_arrangement_typeに設定してもよい。
 なお、2D再生にのみに用いられるビデオストリームは、3D再生に用いられないため、3D_service_info_descriptorを格納しない。
 図33は、3D_combi_info_descriptorの構造を示す図である。
 2D_view_PID/tagは、2D再生に用いられるビデオストリームのPIDを示す。
 Frame_compatible_3D_PID/tagは、フレーム互換方式のビデオストリームのPIDを示す。
 再生装置は、これらのディスクリプタを参照することにより、3D再生に用いるフレーム互換方式のビデオストリーム、および2D再生に用いられるビデオストリームを特定することができる。これにより、シームレスな2D、3D再生の切り替えが可能になる。
 以上が、2D + Side-by-Sideのストリーム構成におけるディスクリプタの説明である。
 続いて、2D再生のみに用いられるビデオに加えて、MVCにより圧縮符号化された2本のビデオ(ベースビュービデオストリーム、ディペンデントビューストリーム)を格納するトランスポートストリーム構成(2D + MVC)におけるディスクリプタの内容について説明する。
 図34は、2D + MVCのトランスポートストリームの構成を示す図である。本図に示される例において、トランスポートストリームは、2Dのビデオストリーム(ベースビデオストリーム)、MVCのベースビューストリーム(拡張ビデオ♯1)、およびMVCのディペンデントビューストリーム(拡張ビデオ♯2)を格納している。ベースビデオストリームは、MPEG-2により動画圧縮符号化され、拡張ビデオストリーム♯1、拡張ビデオストリーム♯2はMVCにより動画圧縮符号化されている。
 上記トランスポートストリームには、2D + L + Rのストリーム構成の場合と同様に、3D方式を通知する3D_system_info_descriptor、3D再生を実現するための補足情報である3D_service_info_descriptor、2D再生、3D再生に用いるビデオストリームの対応関係を示す3D_combi_info_descriptorが格納されている。
 テレビ等の再生装置は、これらのディスクリプタを参照し、2Dテレビ、または3Dテレビの2Dモードにおいては、2Dのベースビデオストリームを用いて2D再生を行う。一方、3Dテレビの3Dモードにおいては、MVCにより圧縮符号化された拡張ビデオストリーム♯1、拡張ビデオストリーム♯2を用いて、3D再生を行う。
 3D_system_info_descriptor、3D_service_info_descriptorは、図27、図29に示す2D + L + Rのストリーム構成の場合と同様の構造であり説明を略する。なお、2D + L + Rのストリーム構成の場合と同様に、2D再生にのみ用いられるビデオストリームに対しては、3D_service_info_descriptorを格納しない。
 図35は、3D_combi_info_descriptorの構造を示す図である。
 2D_view_PID/tagは、2D再生に用いられるビデオストリームのPIDを示す。
 MVC_base_view_PID/tagは、MVCのベースビューストリームのPIDを示す。
 MVC_dept_view_PID/tagは、MVCのディペンデントビューストリームのPIDを示す。
 再生装置は、これらのディスクリプタを参照することにより、3D再生に用いるMVCのビデオストリームのペア、および2D再生に用いられるビデオストリームを特定することができる。これにより、シームレスな2D、3D再生の切り替えが可能になる。
 以上が、2D + MVCのストリーム構成におけるディスクリプタの説明である。
 続いて、2D再生、および3D再生時のL映像として用いられるビデオに加え、複数視点のR映像のビデオを格納するトランスポートストリーム構成(2D + R1 + R2)におけるディスクリプタの内容について説明する。
 図36は、2D + R1 + R2のトランスポートストリームのストリーム構成を示す図である。本図に示される例において、トランスポートストリームは、2D再生、および3D再生時のL映像として用いられるビデオストリーム(ベースビデオストリーム)、第1のR映像のビデオストリーム(拡張ビデオストリーム♯1)、および第2のR映像のビデオストリームを格納している。ベースビデオストリームは、MPEG-2により動画圧縮符号化され、拡張ビデオストリーム♯1、および拡張ビデオストリーム♯2は、AVCにより動画圧縮符号化されている。
 上記トランスポートストリームには、3D方式を通知する3D_system_info_descriptor、3D再生を実現するための補足情報である3D_service_info_descriptor、2D再生、3D再生に用いるビデオストリームの対応関係を示す3D_combi_info_descriptorが格納されている。
 テレビ等の再生装置は、これらのディスクリプタを参照し、2Dテレビ、または3Dテレビの2Dモードにおいては、ベースビデオストリームを用いて2D再生を行う。一方、3Dテレビの3Dモードにおいては、ベースビデオストリームと拡張ビデオストリーム♯1、またはベースビデオストリームと拡張ビデオストリーム♯2を用いて、3D再生を行う。
 図37は、3D_system_info_descriptorの構造を示す図である。図29に示す2D + L + Rのストリーム構成におけるディスクリプタにおいて、2D_independent_flagの代わりに、camera_assingment_typeが設けされている。
 camera_assingment_typeは、トランスポートストリームに格納されるビデオストリームに対するカメラの配置タイプを示す識別子である。値が1の場合は、トランスポートストリームがセンター(C)のカメラ視点のビデオストリームから構成されることを示す。値が2の場合は、トランスポートストリーム
が左視点(L)と右視点(R)のカメラ視点のビデオストリームから構成されることを示す。値が3の場合は、トランスポートストリームがセンター(C)、左視点(L)、および右視点(R)のカメラ視点のビデオストリームから構成されることを示す。値が4の場合は、トランスポートストリームが左視点(L)、第1右視点(R1)、および第2右視点(R2)のカメラ視点のビデオストリームから構成されることを示す。
 再生装置は、この識別子を参照することで、トランスポートストリームを構成するビデオストリームのカメラの割り当てを識別することができる。
 図38は、3D_service_info_descriptorの構造を示す図である。図31に示す2D + L + Rのストリーム構成におけるディスクリプタに
おいて、camera_assingmentが新たに設けられている。
 camera_assingmentは、ビデオストリームの左目、センター、右目といったカメラの位置情報を示す識別子である。
 再生装置は、この識別子を参照することで、ビデオストリームに対応するカメラ配置を識別することができる。
 図39は、3D_combi_info_descriptorの構造を示す図である。
 2D_view_PID/tagは、2D再生、および3D再生時のL映像として用いられるビデオストリームのPIDを示す。
 Right1_view_PID/tagは、第1のR映像のビデオストリームのPIDを示す。
 Right2_view_PID/tagは、第2のR映像のビデオストリームのPIDを示す。
 再生装置は、これらのディスクリプタを参照することにより、2D再生、および3D再生時のL映像として用いられるビデオストリーム、複数のR視点のビデオストリームを特定することができる。これにより、シームレスな2D、3D再生の切り替えが可能となる。
 以上が、2D + R1 + R2のストリーム構成におけるディスクリプタの説明である。
 以上、トランスポートストリームの構成のパターンを説明したが、上述のディスクリプタをトランスポートストリームに格納することにより、トランスポートストリームにおいて様々なストリーム構成が可能となる。再生装置は、ディスクリプタを参照することにより、トランスポートストリームのストリーム構成を特定し、2D再生、3D再生のシームレスな切り替え処理が可能となる。
 なお、上述のトランスポートストリームの構成パターンにおいては、AVCにより圧縮符号化した拡張ビデオストリームを格納する場合を説明したが、これに限られない。AVC以外の動画圧縮符号化技術により圧縮符号化した拡張ビデオストリームを格納してもよい。例えば、次世代の動画圧縮符号化技術であるH.265により、拡張ビデオストリームを圧縮符号化してもよい。
 また、上記では、3D_combi_info_descriptorに、3D映像を構成するビデオストリームを示す情報を格納したが、L及びRのビデオストリームに対応するストリームディスクリプタに、3D再生において組合せの相手側となる視点のビデオストリームのPIDを記載してもよい。
 また、ベースストリームと拡張ストリームにクローズドキャプション(Closed Caption)の字幕データが含まれる場合、2D再生または3D再生でどちらデータを使うかを示す識別子をトランスポートストリームのPMTに格納してもよい。
 再生装置は、この識別子を参照することにより、2D再生または3D再生で用いるべきクローズドキャプションのデータを識別することができる。
 また、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorは、PMTパケット内に格納されるとしたが、格納位置はこれに限られない。トランスポートストリームのいずれかの領域に格納されていればよい。例えば、PMTパケット以外の、各ビデオストリームの補足データ等に格納されてもよい。
 また、上記では、3D_combi_info_descriptorに、ビデオストリームのPIDを設定することにより、2D再生に用いられるビデオストリーム、3D再生に用いられるビデオストリームを特定したが、これに限定されない。3D_combi_info_descriptorには、多重化されるビデオストリームを特定できる情報が含まれていればよい。
 例えば、MPEG-2システム規格に定義されるヒエラルキーディスクリプタを設定することにより、各ビデオストリームを特定してもよい。具体的には、hierarchy_descriptorに新しいhierarchy_typeを定義し、3D_combi_info_descriptorからは、hierarchy_layer_indexを使って、ビデオストリームを指定することにより、3D再生に用いるビデオストリームのペア、および2D再生に用いられるビデオストリームの各ビデオストリームを特定する。
 次に、本実施の形態にかかるトランスポートストリームのデータ作成装置について説明する。
 図40は、本実施の形態にかかるデータ作成装置4000の内部構成を示す図である。本図に示すように、データ作成装置4000は、ビデオエンコーダ4001、多重化処理部4002、データ格納方法決定部4003、ユーザーインターフェイス部4004を含んで構成される。
 ユーザーインターフェイス部4004は、データ作成者に対し、キーボード、マウス、その他のコントローラ等を用いたデータ入力を提供する。データ作成者は、ユーザーインターフェイス部4004を用いて、作成するトランスポートストリームのストリーム構成パターンや圧縮符号化方式を指定する。
 データ格納方法決定部4003は、ユーザーインターフェイス部4004によるユーザ指定に応じて、トランスポートストリームのストリーム構成やビデオストリームの圧縮符号化方式を決定する。
 ビデオエンコーダ4001は、3D映像原画を、MPEG-2、AVC、MVC、H.265などの圧縮符号化方式により、動画圧縮符号化することにより、データ格納方法決定部4003に指定されたビデオストリームを作成する。
 多重化処理部4002は、データ格納方法決定部3903の指示に従い、作成するトランスポートストリームのストリーム構造に応じた、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptor、の各ディスクリプタを作成する。そして、ビデオエンコーダ4001から出力されたビデオストリーム、オーディオ、字幕などのストリームとともに、各ディスクリプタを、データ格納方法決定部4003の指示に従い多重化することにより、トランスポートストリームを作成する。
 作成したトランスポートストリームは、外部の記録媒体に記録する。また、外部の送信部により、放送またはネットワークを経由してデータを送信する
 以上がデータ作成装置の構成についての説明である。続いて、このデータ作成装置の動作について説明する。
 図41は、データ作成装置4000の符号化処理の流れを示すフローチャートである。
 まず、データ格納方法決定部4003は、トランスポートストリームを構成するビデオストリームのパターンを決定する(ステップS4101)。具体的には、トランスポートストリームのストリーム構成、およびトランスポートストリームに格納するビデオストリームの圧縮符号化方式を決定する。ここでは、図25、図26、図31、図34、図37に示したストリーム構成のパターンが考えられるが、Side-by-Sideのビデオストリームのみを格納するストリーム構成(2D/SBS)、その他のストリーム構成であってもよい。
 次に、ビデオエンコーダ4001は、3D原画を圧縮符号化し、ビデオストリームを作成する(ステップS4102)。この際、ビデオエンコーダ4001は、データ格納方法決定部4003による、トランスポートストリームのストリーム構成、およびトランスポートストリームに格納するビデオストリームの圧縮符号化方式の指定に基づき圧縮符号化方式を決定し、3D映像原画の圧縮符号化を行う。
 次に、多重化処理部4002は、データ格納方法決定部4003が指定するトランスポートストリームのストリーム構成に基づき、ビデオストリームを各フレームに格納する(ステップS4103)。
 次に、多重化処理部4002は、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorの各ディスクリプタを作成し、トランスポートストリームのPMT内に格納する(ステップS4104)。この際、多重化処理部4002は、データ格納方法決定部4003の指定するトランスポートストリームのストリーム構成に基づき、各ディスクリプタを作成する。
 以上が、データ作成装置4000の動作について説明である。
 次に、本実施の形態にかかるトランスポートストリームの再生装置である3Dデジタルテレビについて説明する。
 図42は、本実施の形態にかかる3Dデジタルテレビ4200の内部構成を示す図である。本図に示されるように、3Dデジタルテレビ4200は、チューナ4201、NIC4202、ユーザーインターフェイス部4203、モード記憶部4204、多重分離部4205、表示判定部4206、映像デコード部4207、フレームバッファ(1)4208、表示処理部4209、フレームバッファ(L)4110、フレームバッファ(R)4112、スイッチ4111、表示部4113を含んで構成される。
 チューナ4201は、デジタル放送波のトランスポートストリームを受信し、受信した信号を復調する機能を有している。
 ネットワークインターフェイスカード(NIC)4202は、IPネットワークと接続されており、外部から入力されたトランスポートストリームを受信する機能を有している。
 ユーザーインターフェイス部4203は、チャネル選択操作、2Dモード/3Dモードの選択操作などをユーザから受け付ける。
 モード記憶部4204は、カレントの表示モードが、2Dモード、3Dモードの何れであるかを示すフラグを格納している。
 多重分離部4205は、受信したトランスポートストリームを、ビデオストリームと、それ以外の音声ストリーム、グラフィクスストリームなどに分離し、ビデオストリームを映像デコード部4207へ出力する機能を有する。
 また、多重分離部4205は、受信したトランスポートストリームから、PSIなどのシステムパケットを抽出し、PMTパケットから、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorの各ディスクリプタを取得し、表示判定部4206に通知する。
 ビデオストリームのデマックスにおいては、表示判定部4206からカレントの表示モードにおいてデマックスすべきTSパケットのPIDの指定を受け付ける。多重分離部4205は、指定されたPIDのTSパケットを分離することで、ビデオストリームを取得する。
 なお、多重分離部4205は、チューナ4201やNIC4202からトランスポートストリームを読み出すことに加えて、記録媒体からトランスポートストリームを読み出すこともできる。
 表示判定部4206は、多重分離部4205から通知される、3D_system_info_descriptor、3D_service_info_descriptor、3D_combi_info_descriptorの各ディスクリプタを参照して、トランスポートストリームのストリーム構成を把握する。そして、モード記憶部4204が示すカレントの表示モードにおいて、デマックスすべきTSパケットのPIDを多重分離部4205に通知する。
 また、表示判定部4206は、3Dの再生方式がフレーム互換方式の場合において、3D_system_info_descriptorの2D_view_flagや、3D_service_info_descriptorのframe_packing_arrangement_typeを参照して、表示処理部4209に対して、左目用画像、右目用画像のどちらを2D再生に用いるか、ビデオストリームが、Side-by-Side方式であるか等を通知する。
 映像デコード部4207は、ビデオストリームを多重分離部4205から受け取ると、受け取ったストリームのデコードを行う。映像デコード部4207は、復号化されたフレームをフレームバッファ(1)4208へ書き込む。
 フレームバッファ(1)4108は、映像デコード部4207で復号化されたフレームを格納するための領域を有する。
 表示処理部4209は、フレームバッファ(1)4208に格納されるビデオストリームがSide-by-Side形式の場合において、クロッピング情報に従ったクロッピング制御、スケーリング情報に従ったスケーリング制御を実行する。クロッピング処理により得られた左目用フレーム、右目用フレームは、フレームバッファ(L)、フレームバッファ(R)に格納する。
 また、表示処理部4209は、フレームバッファ(1)4208に格納されるビデオストリームが、左目用のビデオストリーム、右目用のビデオストリームの場合においては、ビデオストリームをフレームバッファ(L)4210、フレームバッファ(R)4212に振り分ける。
 フレームバッファ(L)4210、フレームバッファ(R)4212は、表示処理部4209から出力されるフレームを格納するための領域を有する。
 スイッチ4211は、フレームバッファ(L)4210、フレームバッファ(R)4212に書き出されたフレーム画像を選択して表示部に転送する。
 表示部4213は、スイッチ4211から転送されたフレームを表示する。表示部4213は3D眼鏡に通信を行い、左目画像が表示されるときは、3D眼鏡の左目側が開き、右目画像が表示されるときは、3D眼鏡の右目側が開くように3D眼鏡の液晶シャッターを制御する。なお、2D映像を表示する場合には、3D眼鏡の制御は行われない。
 以上が3Dデジタルテレビ4200の構成についての説明である。
 続いて、この3Dデジタルテレビ4200の動作について説明する。図43は、3Dデジタルテレビ4200による番組の再生処理の流れの一例を示すフローチャートである。
 本図に示されるように、多重分離部4205は、トランスポートストリームのPMTを解析し、ディスクリプタを抽出する(ステップS4301)。
 表示判定部4206は、多重分離部4205により抽出された3D_system_info_descriptorの3D_playback_typeを参照し、受信したトランスポートストリームの再生方式を判定する(ステップS4302)。
 再生方式がサービス互換方式である場合(ステップS4302)、表示判定部4206は、3D_system_info_descriptorの2D_independent_flagを参照し、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを判定する(ステップS4303)。
 2D_independent_flagの値が0の場合(ステップS4303、NO)表示判定部4206は、3D_combi_info_descriptorを参照して、ストリーム構成を特定する(ステップS4304)。
 トランスポートストリームのストリーム構成が2D/L + R1 + R2である場合(ステップS4305、YES)、3Dデジタルテレビ4200は、後述する2D/L + R1 + R2のストリームの処理を行う(ステップS4306)。
 トランスポートストリームのストリーム構成が2D/L + Rである場合(ステップS4305、NO)、3Dデジタルテレビ4200は、後述する2D/L + Rのストリームの処理を行う(ステップS4307)。
 2D_independent_flagの値が1の場合(ステップS4303、YES)表示判定部4206は、3D_combi_info_descriptorを参照して、ストリーム構成を特定する(ステップS4308)。
 トランスポートストリームのストリーム構成がMPEG2 + MVC(Base) +MVC(Dependent)である場合(ステップS4310、YES)、3Dデジタルテレビ4200は、後述するMPEG2 + MVC(Base) +MVC(Dependent)のストリームの処理を行う(ステップS4311)。
 トランスポートストリームのストリーム構成がMPEG2 + AVC + AVCである場合(ステップS4309、YES)、3Dデジタルテレビ4200は、後述するMPEG2 + AVC + AVCのストリームの処理を行う(ステップS4312)。
 再生方式がフレーム互換方式である場合(ステップS4302)、表示判定部4206は、3D_system_info_descriptorの2D_independent_flagを参照し、2D再生に用いられるビデオストリームと、3D再生に用いられるビデオストリームが共有されているか否かを判定する(ステップS4313)。
 2D_independent_flagの値が0の場合(ステップS4313、NO)、3Dデジタルテレビ4200は、後述する2D/SBSのストリームの処理を行う(ステップS4314)。
 2D_independent_flagの値が1の場合(ステップS4313、YES)、3Dデジタルテレビ4200は、後述する2D + SBSのストリームの処理を行う(ステップS4315)。
 次に、ステップS4215の2D + SBSのストリームの処理の詳細について説明する。図44は、2D + SBSのストリームの処理の流れを示すフローチャートである。
 本図に示されるように、表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4401)。
 カレントモードが2Dモードである場合(ステップS4401)、表示判定部4206は、3D_combi_info_descriptorの2D_view_PID/tagに示されるTSパケットを分離し、2Dビデオストリームを抽出する(ステップS4402)。
 そして、抽出したMPEG2(2D)ビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は2D再生を行う(ステップS4403)。
 カレントモードが3Dモードである場合(ステップS4401)、表示判定部4206は、3D_combi_info_descriptorのframe_compatible_3D_PID/tagに示されるTSパケットを分離し、ビデオストリームを抽出する(ステップS4404)。
 表示判定部4206は、3D_service_info_descriptorのframe_packing_arrangement_typeを参照し、Side-by-Side形式で格納されているか判定する(ステップS4405)。
 frame_packing_arrangement_typeがSide-by-Side形式である場合(ステップS4405、YES)、表示処理部4209は、左右に存在する左目用画像、右目用画像をクロップアウトすることで、3D再生を行う(ステップS4406)。
 frame_packing_arrangement_typeがSide-by-Side形式でない場合(ステップS4305、NO)、TopBottom方式と特定し、表示処理部4209は、上下に存在する左目用画像、右目用画像をクロップアウトすることで、3D再生を行う(ステップS4407)。
 以上が、ステップS4315の2D + SBSのストリームの処理の詳細についての説明である。続いて、ステップS4314の2D/SBSのストリームの処理の詳細について説明する。
 図45は、2D/SBSのストリームの処理の流れを示すフローチャートである。本図に示されるように、多重分離部4205は、3D_combi_info_descriptorのframe_compatible_3D_PID/tagに示されるTSパケットを分離し、2D/SBSのビデオストリームを抽出する(ステップS4501)。
 表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4502)。
 カレントモードが2Dモードである場合(ステップS4502)、表示判定部4206は、3D_system_info_descriptor_の2D_view_flagを参照し、Side-by-Sideのフレームのうち、どちらを2D再生に用いるか判定する。
 2D_view_flagが左目用画像を示す場合(ステップS4503、YES)、表示処理部4209は、Side-by-Sideのフレームのうち、左目用画像の領域をクロップアウトすることで2D再生を行う(ステップS4505)。
 2D_view_flagが右目用画像を示す場合(ステップS4503、NO)、表示処理部4209は、Side-by-Sideのフレームのうち、右目用画像の領域をクロップアウトすることで2D再生を行う(ステップS4504)。
 カレントモードが3Dモードである場合(ステップS4502)、表示処理部4209は、Side-by-Sideのフレームのうち、右目用画像の領域をクロップアウトし(ステップS4506)、Side-by-Sideのフレームのうち、左目用画像の領域をクロップアウトする(ステップS4507)。
 3Dデジタルテレビ4200は、クロップアウトした左目用画像、右目用画像を交互に表示部4213に出力することで3D再生を行う(ステップS4508)。
 以上が、ステップS4314の2D/SBSのストリームの処理の詳細についての説明である。続いて、ステップ4307の2D/L + Rのストリームの処理の詳細について説明する。
 図46は、2D/L + Rのストリームの処理の流れを示すフローチャートである。本図に示されるように、表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4601)。
 カレントモードが3Dモードである場合(ステップS4601)、表示判定部4206は、3D_combi_info_descriptorのLeft_view_PID/tagに示されるTSパケット、およびRight_view_PID/tagに示されるTSパケットを分離し、2D/Lビデオストリーム、Rのビデオストリームを抽出する(ステップS4602)。
 そして、抽出した2D/Lビデオストリーム、Rのビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は3D再生を行う(ステップS4603)。
 カレントモードが2Dモードである場合(ステップS4601)、多重分離部4205は、3D_combi_info_descriptorの2D_view_PID/tagに示されるTSパケットを分離し、2D/Lビデオストリームを抽出する(ステップS4604)。
 そして、抽出した2D/Lビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は2D再生を行う(ステップS4605)。
 以上が、ステップS4307の2D/L + Rのストリームの処理の詳細についての説明である。続いて、ステップ4306の2D/L + R1 + R2のストリームの処理の詳細について説明する。なお、図46で示した2D/L + Rのストリームの処理における処理と同内容の処理については、同符号を付す。
 図47は、2D/L + R1 + R2のストリームの処理の流れを示すフローチャートである。本図に示されるように、表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4601)。
 カレントモードが3Dモードである場合(ステップS4601)、表示判定部4206は、3D_combi_info_descriptorのLeft_view_PID/tagに示されるTSパケット、Right1_view_PID/tagに示されるTSパケット、およびRight2_view_PID/tagに示されるTSパケットを分離し、2D/Lビデオストリーム、R1のビデオストリーム、R2のビデオストリームを抽出する(ステップS4701)。
 そして、抽出した2D/Lビデオストリームと、R1のビデオストリームまたはR2のビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は3D再生を行う(ステップS4702)。
 ステップS4604、4605については、図46に示す2D/L + Rのストリームの処理における処理と同内容の処理であり、説明を略する。
 以上が、ステップS4306の2D/L + R1 + R2のストリームの処理の詳細についての説明である。続いて、ステップ4312のMPEG2 + AVC + AVCのストリームの処理の詳細について説明する。
 図48は、MPEG2 + AVC + AVCのストリームの処理の流れを示すフローチャートである。本図に示されるように、表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4801)。
 カレントモードが2Dモードの場合、表示判定部4206は、3D_combi_info_descriptorの2D_view_PID/tagに示されるTSパケットを分離し、MPEG2(2D)ビデオストリームを抽出する(ステップS4802)。
 そして、抽出したMPEG2(2D)ビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は2D再生を行う(ステップS4803)。
 カレントモードが3Dモードの場合、表示判定部4206は、3D_combi_info_descriptorのLeft_view_PID/tagに示されるTSパケット、およびRight_view_PID/tagに示されるTSパケットを分離し、左目用のビデオストリーム、右目用のビデオストリームを抽出する(ステップS4804)。
 そして抽出した左目用のビデオストリーム、右目用のビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は3D再生を行う(ステップS4805)。
 以上が、ステップS4312のMPEG2 + AVC + AVCのストリームの処理の詳細についての説明である。続いて、ステップ4311のMPEG2 + MVC(Base) + MVC(Dependent)のストリームの処理の詳細について説明する。
 図49は、MPEG2 + MVC(Base) + MVC(Dependent)のストリームの処理の流れを示すフローチャートである。本図に示されるように、表示判定部4206は、モード記憶部4204のフラグを参照して、カレントモードが2Dモードであるか、3Dモードであるか判定する(ステップS4901)。
 カレントモードが2Dモードの場合、表示判定部4206は、3D_combi_info_descriptorの2D_view_PID/tagに示されるTSパケットを分離し、MPEG2(2D)ビデオストリームを抽出する(ステップS4902)。
 そして、抽出したMPEG2(2D)ビデオストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は2D再生を行う(ステップS4903)。
 カレントモードが3Dモードの場合、表示判定部4206は、3D_combi_info_descriptorのMVC_base_view_PID/tagに示されるTSパケット、およびMVC_dept_view_PID/tagに示されるTSパケットを分離し、ベースビューストリーム、ディペンデントビューストリームを抽出する(ステップS4904)。
 そして抽出したベースビューストリーム、ディペンデントビューストリームを映像デコード部4207でデコードし、ビデオ信号を表示部4213に出力することで、3Dデジタルテレビ4200は3D再生を行う(ステップS4905)。
 以上のように、本実施の形態によれば、トランスポートストリームに多重化されたディスクリプタを参照することにより、トランスポートストリームのストリーム構成を特定できるので、2D再生、3D再生の互換再生、および2D再生、3D再生のシームレスな切り替えを行うことができる。
 (補足)
 なお、上記の実施の形態に基づいて説明してきたが、本発明は上記の実施の形態に限定されないことはもちろんである。以下のような場合も本発明に含まれる。
 (a)本発明は、各実施形態で説明した処理手順が開示するアプリケーション実行方法であるとしてもよい。また、前記処理手順でコンピュータを動作させるプログラムコードを含むコンピュータプログラムであるとしてもよい。
 (b)本発明は、上記各実施の形態に記載の画像処理装置を制御するLSIとしても実施可能である。このようなLSIは、各機能ブロックを集積化することで実現できる。これらの機能ブロックは、個別に1チップ化されても良いし、一部または全てを含むように1チップ化されてもよい。
 ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または、汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロック及び部材の集積化を行ってもよい。このような技術には、バイオ技術の適用等が可能性としてありえる。
 本発明にかかる符号化方法によれば、2D映像を構成するビデオストリーム、および3D映像を構成するビデオストリームを特定するディスクリプタをトランスポートストリームに格納することができる。トランスポートストリームに多重化されたディスクリプタを参照することにより、トランスポートストリームのストリーム構成を特定できるので、2D再生、3D再生の互換再生、および2D再生、3D再生のシームレスな切り替えを行うことができ、有益である。
 100 再生装置
 200 3D眼鏡
 300 2Dデジタルテレビ
 501 ビデオフレーム列
 502 ビデオのPESパケット
 503 ビデオのTSパケット
 504 オーディオフレーム列
 505 オーディオのPESパケット
 506 オーディオのTSパケット
 507 字幕ストリーム
 508 字幕ストリームのPESパケット
 509 字幕ストリームのTSパケット
 513 トランスポートストリーム
 1501 再生装置のチューナ
 1502 再生装置のNIC
 1503 再生装置の多重分離部
 1504 再生装置の映像デコード部
 1505 再生装置の表示判定部
 1506 再生装置の表示処理部
 1507 再生装置の表示部
 1508 再生装置のフレームバッファ(1)
 1510 再生装置のフレームバッファ(L)
 1511 再生装置のフレームバッファ(R)
 1512 再生装置のスイッチ
 2301 ビデオエンコーダ
 2302 多重化処理部
 2303 データ格納方法決定部
 4000 データ作成装置
 4001 ビデオエンコーダ
 4002 多重化処理部
 4003 データ格納方法決定部
 4004 ユーザーインターフェイス部4004
 4200 3Dデジタルテレビ
 4201 チューナ
 4202 NIC
 4203 ユーザーインターフェイス部
 4204 モード記憶部
 4205 多重分離部
 4206 表示判定部
 4207 映像デコード部
 4208 フレームバッファ(1)
 4209 表示処理部4209、
 4210 フレームバッファ(L)
 4211 スイッチ
 4212 フレームバッファ(R)
 4213 表示部

Claims (19)

  1.  符号化方法であって、
     画像を圧縮符号化してビデオストリームを生成するエンコードステップと、
     前記エンコードステップによって生成される複数のビデオストリームに対して多重化処理を施すことで、1つのトランスポートストリームを得る多重化ステップとを有し、
     前記複数のビデオストリームは、2D映像を構成する2Dビデオストリームを含むとともに、複数のビデオストリームを組み合わせることで3D映像を構成し、
     3D映像を構成するビデオストリームの組み合わせには、前記2Dビデオストリームと1つの他のビデオストリームの組み合わせと、2Dビデオストリーム以外の2以上の他のビデオストリームの組み合わせがあり、
     前記トランスポートストリームは、3D映像を構成するビデオストリームを特定する3D映像特定情報を含む
     ことを特徴とする符号化方法。
  2.  前記符号化方法は、コンテンツテーブルを作成するコンテンツテーブル作成ステップを有し、
     前記多重化ステップによる多重化は、
     前記複数のビデオストリームとコンテンツテーブルとを多重化することでなされ、
     前記コンテンツテーブルは、1つ以上のテーブルディスクリプタと、各ビデオストリームに対応するストリーム情報とを含み、
     前記各ストリーム情報は、ストリームタイプと、ストリーム識別子と、ストリームディスクリプタとを含み、
     前記3D映像特定情報は、テーブルディスクリプタ及びストリームディスクリプタの何れかに存在する
     ことを特徴とする請求項1に記載の符号化方法。
  3. 前記3D映像特定情報は、2Dビデオストリームを特定する2D映像特定情報を含むことを特徴とする請求項1に記載の符号化方法。
  4.  2D映像特定情報及び3D映像特定情報によるビデオストリームの特定は、2Dビデオストリーム、左目映像を構成する左目ビデオストリーム、右目映像を構成するビデオストリームに、それぞれ対応するストリーム識別子を記載することでなされる
     ことを特徴とする請求項3に記載の符号化方法。
  5.  前記コンテンツテーブルには2D/3D共用フラグを含み、
     前記2D/3D共用フラグは、2Dビデオストリームと、3D映像を構成する複数のビデオストリームのいずれかが一致するか否かを示すことを特徴とする請求項2に記載の符号化方法。
  6.  前記3D特定情報によって指定される3D映像を構成するビデオストリームが1つの場合、
     前記ビデオストリームは、LRパック映像を構成し、
     前記LRパック映像は、動画像を構成する個々のフレームに、左目画像と、右目画像とを格納した映像であり、
     前記コンテンツテーブルは、LRパック情報を含み、
     LRパック情報は、左目画像及び右目画像が、どのようなパッキング方式でビデオストリームの各フレームに格納されているかを示す
     ことを特徴とする請求項2に記載の符号化方法。
  7.  前記コンテンツテーブルは、カメラのチャネル構成を示すカメラアサインメントを含み、
     前記カメラのチャネル構成には、
     Cチャネル、Lチャネル+Rチャネル、Cチャネル+Lチャネル+Rチャネル、Cチャネル+R1チャネル+R2チャネルがあり
     前記3D特定情報によって特定されるビデオストリームは、前記カメラのチャネル構成のうち、何れかのものに従って撮影されたものであるかを示す
     ことを特徴とする請求項2に記載の符号化方法。
  8.  前記2Dビデオストリーム、他のビデオストリームのそれぞれには、文字表示制御情報が存在しており、
     前記作成ステップは、
     2D再生モード、3D再生モードのそれぞれにおいて、2Dビデオストリーム、他のビデオストリームのうち、どちらのビデオストリームに存在する文字表示制御情報を用いて文字表示を実現すべきかを示す情報をコンテンツテーブルに記述する
     ことを特徴とする請求項2に記載の符号化方法。
  9.  ストリーム情報のストリームディスクリプタは、
     ビデオストリームが左目画像及び右目画像のうち、何れに該当するかを示すフラグを含むことを特徴とする請求項2に記載の符号化方法。
  10.  前記3D映像特定情報を、コンテンツテーブルにおけるストリーム情報内のストリームディスクリプタ内に記述する
     ことを特徴とする請求項2に記載の符号化方法。
  11.  前記作成ステップは、
     前記コンテンツテーブルにおける各ビデオストリームに対応するストリーム情報に、組合せの相手側となるビデオストリームのストリーム識別子を記述することで、組合せの対象となる2以上のビデオストリームを示す
     ことを特徴とする請求項2に記載の符号化方法。
  12.  前記作成ステップは、
     ディスクリプタを作成して、作成されたディスクリプタをビデオストリームの内部に組込む
     ことを特徴とする請求項1に記載の符号化方法。
  13.  表示装置であって、
     装置外部からのトランスポートストリームの入力を受け付ける受付手段と、
     2Dモード及び3Dモードの何れか1つをカレントモードとして記憶する記憶手段と、
     カレントモードが2Dモードである場合、トランスポートストリームに含まれる1つのビデオストリームを用いて2D映像の再生を行う再生手段とを備え、
     トランスポートストリームは3D映像特定情報を備え、
     3D映像特定情報は、3D映像を構成するビデオストリームを特定し、
     カレントモードが3Dモードである場合、トランスポートストリームに含まれる3D映像を構成するビデオストリームを用いて3D映像の再生を行い、
     3D映像の構成するビデオストリームは、前記2Dビデオストリームと1つの他のビデオストリームとの組み合わせからなる場合と、2Dビデオストリーム以外の他のビデオストリームの2以上組み合わせからなる場合とがある
     ことを特徴とする表示装置。
  14.  前記トランスポートストリームは、複数のビデオストリームと、コンテンツテーブルとをトランスポートストリームパケット列に変換することで得られ、
     前記表示装置は、
     トランスポートストリームから所定のトランスポートストリームパケットを分離する多重分離手段を備え、コンテンツテーブルを格納したトランスポートストリームパケットを分離することで、3D映像特定情報の取得を行う
     ことを特徴とする請求項13に記載の表示装置。
  15.  前記3D映像特定情報には、2Dビデオストリームを特定する2D映像特定情報を含み、
     カレントモードが2Dモードである場合、多重分離部は、2D映像特定情報に基づき、2D映像を構成するビデオストリームをトランスポートストリームから分離し、
     カレントモードが3Dモードである場合、多重分離部は、3D映像特定情報に基づき、3D映像を構成するビデオストリームを格納した複数のトランスポートストリームパケットをトランスポートストリームから分離する
     ことを特徴とする請求項14に記載の表示装置。
  16.  2D映像特定情報及び3D映像特定情報によるビデオストリームの特定は、2Dビデオストリーム、左目映像を構成する左目ビデオストリーム、右目映像を構成するビデオストリームに、それぞれ対応するストリーム識別子を記載することでなされる
     ことを特徴とする請求項15に記載の表示装置。
  17.  トランスポートストリームは、2Dビデオストリームと、3D映像を構成する複数のビデオストリームのいずれかが一致するか否かを示す2D/3D共用フラグを含み、
     前記多重分離部は、2D映像を構成するビデオストリームが複数のビデオストリームの何れかと一致しない場合、2Dモード、3Dモードのそれぞれにおいて、多重分離の対象となるビデオストリームを変更し、
     再生手段は、3D映像を構成するビデオストリームが1つである場合、1つのビデオストリームにおける個々のフレームから、左目画像及び右目画像を切り出して、左目画像及び右目画像のそれぞれを表示に供することで3D画像の再生を行い、
     3D映像を構成するビデオストリームが2つ以上である場合、多重分離部によって分離された2以上のビデオストリームをデコードすることで左目画像及び右目画像を得て、左目画像及び右目画像のそれぞれを表示に供することで3D画像の再生を行う
     ことを特徴とする請求項16に記載の表示装置。
  18.  前記3D特定情報によって指定される3D映像を構成するビデオストリームが1つの場合、
     前記ビデオストリームはLRパック映像を構成し、前記LRパック映像は、動画像を構成する個々のフレームに、左目画像と、右目画像とを格納した映像であり、
     前記コンテンツテーブルは、LRパック情報を含み、
     LRパック情報は、左目画像及び右目画像が、どのようなパッキング方式でビデオストリームの各フレームに格納されているかを示し、
     再生手段は、LRパック情報に従って、フレームのうち、左目画像及び右目画像を切り出すべき領域を特定する
     ことを特徴とする請求項17に記載の表示装置。
  19.  復号方法であって、
     トランスポートストリームの入力を受け付ける受付ステップと、
     2Dモード及び3Dモードの何れか1つをカレントモードとして記憶する記憶ステップと、
     カレントモードが2Dモードである場合、トランスポートストリームに含まれる1つのビデオストリームを用いて2D映像の再生を行う再生ステップとを含み、
     トランスポートストリームは3D映像特定情報を備え、
     3D映像特定情報は、3D映像を構成するビデオストリームを特定し、
     カレントモードが3Dモードである場合、トランスポートストリームに含まれる3D映像を構成するビデオストリームを用いて3D映像の再生を行い、
     3D映像の構成するビデオストリームは、前記2Dビデオストリームと1つの他のビデオストリームとの組み合わせからなる場合と、2Dビデオストリーム以外の他のビデオストリームの2以上組み合わせからなる場合とがある
     ことを特徴とする復号方法。
PCT/JP2011/074586 2010-10-25 2011-10-25 符号化方法、表示装置、復号方法 WO2012057164A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020137008616A KR20130135244A (ko) 2010-10-25 2011-10-25 부호화방법, 표시장치, 복호방법
EP11836297.9A EP2635033A1 (en) 2010-10-25 2011-10-25 Encoding method, display device, decoding method
CN2011800512729A CN103202023A (zh) 2010-10-25 2011-10-25 编码方法、显示装置、解码方法
JP2012540892A JP5336666B2 (ja) 2010-10-25 2011-10-25 符号化方法、表示装置、復号方法
MX2013004068A MX2013004068A (es) 2010-10-25 2011-10-25 Metodo de codificacion, dispositivo de visualizacion, metodo de codificacion.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40634710P 2010-10-25 2010-10-25
US61/406,347 2010-10-25

Publications (1)

Publication Number Publication Date
WO2012057164A1 true WO2012057164A1 (ja) 2012-05-03

Family

ID=45993870

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/074586 WO2012057164A1 (ja) 2010-10-25 2011-10-25 符号化方法、表示装置、復号方法

Country Status (8)

Country Link
US (1) US20120106921A1 (ja)
EP (1) EP2635033A1 (ja)
JP (1) JP5336666B2 (ja)
KR (1) KR20130135244A (ja)
CN (1) CN103202023A (ja)
MX (1) MX2013004068A (ja)
TW (1) TW201234833A (ja)
WO (1) WO2012057164A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014042034A1 (ja) * 2012-09-12 2014-03-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2014050447A1 (ja) * 2012-09-27 2014-04-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2016519480A (ja) * 2014-02-21 2016-06-30 エルジー エレクトロニクス インコーポレイティド 3d放送信号を処理する方法及び装置
JP2017509278A (ja) * 2014-02-10 2017-03-30 エルジー エレクトロニクス インコーポレイティド 3d放送サービスのための放送信号の送受信方法及び装置
JP2019103099A (ja) * 2017-12-08 2019-06-24 日本放送協会 映像処理装置及びプログラム
JP2020526116A (ja) * 2017-07-05 2020-08-27 オランジュ 画像をエンコーディング及びデコーディングする方法、エンコーディング及びデコーディング装置、並びに、対応するコンピュータプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2356820B1 (en) 2008-12-02 2017-07-19 LG Electronics Inc. 3d caption display method and 3d display apparatus for implementing the same
US8670070B2 (en) * 2010-07-15 2014-03-11 Broadcom Corporation Method and system for achieving better picture quality in various zoom modes
JP2012100181A (ja) * 2010-11-05 2012-05-24 Hitachi Consumer Electronics Co Ltd 映像出力装置、映像出力方法、受信装置および受信方法
KR20120058702A (ko) 2010-11-27 2012-06-08 전자부품연구원 디지털 방송에서 서비스 호환 방식 전송 방법
KR20120058700A (ko) 2010-11-27 2012-06-08 전자부품연구원 디지털 방송의 전송 모드 제공 및 인지 방법
US9185386B2 (en) * 2011-06-01 2015-11-10 Panasonic Intellectual Property Management Co., Ltd. Video processing device, transmission device, video processing system, video processing method, transmission method, computer program and integrated circuit
JP2013090016A (ja) * 2011-10-13 2013-05-13 Sony Corp 送信装置、送信方法、受信装置および受信方法
JP6192902B2 (ja) * 2011-11-11 2017-09-06 サターン ライセンシング エルエルシーSaturn Licensing LLC 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
EP2597876A1 (en) * 2011-11-24 2013-05-29 Koninklijke Philips Electronics N.V. Interlaced 3D video
US9106894B1 (en) 2012-02-07 2015-08-11 Google Inc. Detection of 3-D videos
US20130243079A1 (en) * 2012-03-19 2013-09-19 Nokia Siemens Networks Oy Storage and processing savings when adapting video bit rate to link speed
US9998734B2 (en) * 2012-04-06 2018-06-12 Sony Corporation Decoding device and decoding method, and encoding device and encoding method
JP5871332B2 (ja) * 2012-05-10 2016-03-01 ソニー株式会社 受信装置、受信方法、送信装置、及び送信方法
US9565452B2 (en) * 2012-09-28 2017-02-07 Qualcomm Incorporated Error resilient decoding unit association
ITTO20120901A1 (it) * 2012-10-15 2014-04-16 Rai Radiotelevisione Italiana Procedimento di codifica e decodifica di un video digitale e relativi dispositivi di codifica e decodifica
US20140165125A1 (en) * 2012-12-11 2014-06-12 Electronics And Telecommunications Research Institute Broadcasting system and broadcasting method of providing multi-picture
US10567804B2 (en) * 2014-01-08 2020-02-18 Qualcomm Incorporated Carriage of HEVC extension bitstreams and buffer model with MPEG-2 systems
WO2015126213A1 (ko) * 2014-02-21 2015-08-27 엘지전자 주식회사 방송 신호 송신 장치 및 방송 신호 수신 장치
US20150253974A1 (en) 2014-03-07 2015-09-10 Sony Corporation Control of large screen display using wireless portable computer interfacing with display controller
WO2018169176A1 (ko) * 2017-03-17 2018-09-20 엘지전자 주식회사 퀄리티 기반 360도 비디오를 송수신하는 방법 및 그 장치
US10594758B2 (en) * 2017-12-15 2020-03-17 Cisco Technology, Inc. Latency reduction by sending audio and metadata ahead of time
KR102007432B1 (ko) * 2018-05-03 2019-08-06 (주)블루어 3차원 콘텐츠 영상 생성 및 제공 시스템
US11743440B2 (en) 2021-04-19 2023-08-29 Apple Inc. Transmission and consumption of multiple image subframes via superframe

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002218502A (ja) * 2001-01-22 2002-08-02 Nippon Television Network Corp 立体映像信号の伝送方法及び、そのシステム
JP3789794B2 (ja) 2001-09-26 2006-06-28 三洋電機株式会社 立体画像処理方法、装置、およびシステム
JP2010130690A (ja) * 2008-11-28 2010-06-10 Korea Electronics Telecommun 多視点映像送受信装置及びその方法
WO2010067810A1 (ja) * 2008-12-09 2010-06-17 ソニー株式会社 画像処理装置および方法
JP2011234336A (ja) * 2010-04-06 2011-11-17 Sony Corp 画像データ送信装置、画像データ送信方法および画像データ受信装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101472332B1 (ko) * 2008-04-15 2014-12-15 삼성전자주식회사 3차원 디지털 컨텐츠의 제공 방법, 수신 방법 및 그 장치
CN101911713B (zh) * 2008-09-30 2014-01-08 松下电器产业株式会社 再现装置、集成电路、再现方法、记录方法、记录介质再现系统
US8704874B2 (en) * 2009-01-08 2014-04-22 Lg Electronics Inc. 3D caption signal transmission method and 3D caption display method
US20120212579A1 (en) * 2009-10-20 2012-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Method and Arrangement for Multi-View Video Compression

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002218502A (ja) * 2001-01-22 2002-08-02 Nippon Television Network Corp 立体映像信号の伝送方法及び、そのシステム
JP3789794B2 (ja) 2001-09-26 2006-06-28 三洋電機株式会社 立体画像処理方法、装置、およびシステム
JP2010130690A (ja) * 2008-11-28 2010-06-10 Korea Electronics Telecommun 多視点映像送受信装置及びその方法
WO2010067810A1 (ja) * 2008-12-09 2010-06-17 ソニー株式会社 画像処理装置および方法
JP2011234336A (ja) * 2010-04-06 2011-11-17 Sony Corp 画像データ送信装置、画像データ送信方法および画像データ受信装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014042034A1 (ja) * 2012-09-12 2014-03-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2014050447A1 (ja) * 2012-09-27 2014-04-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2017509278A (ja) * 2014-02-10 2017-03-30 エルジー エレクトロニクス インコーポレイティド 3d放送サービスのための放送信号の送受信方法及び装置
US9930382B2 (en) 2014-02-10 2018-03-27 Lg Electronics Inc. Method and apparatus for transmitting/receiving broadcast signal for 3-dimensional (3D) broadcast service
JP2016519480A (ja) * 2014-02-21 2016-06-30 エルジー エレクトロニクス インコーポレイティド 3d放送信号を処理する方法及び装置
JP2020526116A (ja) * 2017-07-05 2020-08-27 オランジュ 画像をエンコーディング及びデコーディングする方法、エンコーディング及びデコーディング装置、並びに、対応するコンピュータプログラム
JP7242571B2 (ja) 2017-07-05 2023-03-20 オランジュ 画像をエンコーディング及びデコーディングする方法、エンコーディング及びデコーディング装置、並びに、対応するコンピュータプログラム
JP2019103099A (ja) * 2017-12-08 2019-06-24 日本放送協会 映像処理装置及びプログラム
JP7018752B2 (ja) 2017-12-08 2022-02-14 日本放送協会 映像処理装置及びプログラム

Also Published As

Publication number Publication date
US20120106921A1 (en) 2012-05-03
JPWO2012057164A1 (ja) 2014-05-12
TW201234833A (en) 2012-08-16
EP2635033A1 (en) 2013-09-04
JP5336666B2 (ja) 2013-11-06
CN103202023A (zh) 2013-07-10
KR20130135244A (ko) 2013-12-10
MX2013004068A (es) 2013-05-22

Similar Documents

Publication Publication Date Title
JP5336666B2 (ja) 符号化方法、表示装置、復号方法
JP6229962B2 (ja) 符号化装置及び符号化方法
JP5906462B2 (ja) 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
WO2012111325A1 (ja) 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
US20120050476A1 (en) Video processing device
US20140089962A1 (en) Image playback device, image playback method, image playback program, image transmission device, image transmission method and image transmission program
WO2012169204A1 (ja) 送信装置、受信装置、送信方法及び受信方法
WO2013099289A1 (ja) 再生装置、送信装置、再生方法及び送信方法
US20140002621A1 (en) Video processing device and video processing method
JP6008292B2 (ja) ビデオストリームの映像のデータ作成装置及び再生装置
US8934757B2 (en) Content distribution system, playback device, distribution server, playback method, and distribution method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11836297

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012540892

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20137008616

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011836297

Country of ref document: EP

Ref document number: MX/A/2013/004068

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE