WO2013089024A1 - 送信装置、送信方法、受信装置および受信方法 - Google Patents

送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
WO2013089024A1
WO2013089024A1 PCT/JP2012/081745 JP2012081745W WO2013089024A1 WO 2013089024 A1 WO2013089024 A1 WO 2013089024A1 JP 2012081745 W JP2012081745 W JP 2012081745W WO 2013089024 A1 WO2013089024 A1 WO 2013089024A1
Authority
WO
WIPO (PCT)
Prior art keywords
view
stream
streams
data
decoding
Prior art date
Application number
PCT/JP2012/081745
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP12858236.8A priority Critical patent/EP2658267A4/en
Priority to KR1020137020175A priority patent/KR20140109793A/ko
Priority to BR112013020027A priority patent/BR112013020027A2/pt
Priority to US13/981,514 priority patent/US20140125762A1/en
Priority to CN2012800078147A priority patent/CN103348683A/zh
Publication of WO2013089024A1 publication Critical patent/WO2013089024A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4347Demultiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Definitions

  • the present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and particularly to a transmission device that multiplexes and transmits a stream of each view in a multi-view service.
  • a stereoscopic image display service as a multi-view service.
  • a stereoscopic image display for example, a multi-viewpoint stereoscopic image display that enables stereoscopic viewing with the naked eye (see Patent Document 1), or a stereo stereoscopic image display that requires special glasses such as shutter glasses (see Patent Document 2). )and so on.
  • a multi-view service there are a service for simultaneously displaying a multi-angle view, and a service for providing a view according to a user.
  • a plurality of view streams are multiplexed and transmitted from the transmission side to the reception side.
  • the timing for decoding the stream and the timing for displaying the stream are usually controlled by a time stamp.
  • a multiplexing method that guarantees the decoding order and the reference relationship between views and a multiplexing method that controls the display relationship of each view are desired.
  • the purpose of this technology is to successfully transmit multiple view streams for multi-view services.
  • the concept of this technology is A transmitter that transmits a multiplexed stream in which a plurality of view streams are multiplexed;
  • the transmission apparatus includes a time stamp assigning unit that assigns a decoding time stamp to the plurality of view streams at intervals obtained by subdividing a display cycle.
  • the transmission unit transmits a multiplexed stream in which a plurality of view streams are multiplexed.
  • the time stamp assigning unit assigns decode time stamps to the plurality of view streams at intervals obtained by subdividing the display cycle.
  • the plurality of view streams may be streams of a predetermined number of views selected from a plurality of views for multi-view stereoscopic image display. Further, for example, the plurality of view streams may be streams of two views for displaying stereoscopic images. Also, for example, a plurality of view streams may include a disparity information stream as an additional view stream.
  • the multiplexed stream may have an elementary stream including a plurality of view streams. That is, the multiplexed stream includes one or both of an elementary stream including a plurality of view streams and an elementary stream including a single view stream.
  • an elementary stream including a plurality of view streams for example, information indicating a boundary between views may be arranged between the view streams. In this case, it is possible to instantaneously access the head of each view stream.
  • the decoding time stamps are assigned to the plurality of view streams in the multiplexed stream at intervals obtained by subdividing the display cycle. Therefore, since the decoding order and the reference relationship between views are guaranteed, decoding processing can be smoothly performed on the receiving side without failure.
  • the transmission unit transmits a container of a predetermined format including the multiplexed stream, and assigns information indicating that the decoding time stamp is assigned to the plurality of view streams at intervals obtained by subdividing the display cycle.
  • the information insertion unit may be further included in the container layer.
  • the container may be a transport stream, and the information insertion unit may insert the allocation information under the program map table.
  • the allocation information may include information indicating whether or not the corresponding elementary stream has a plurality of view streams.
  • the receiving side can recognize that the decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle based on the assignment information. As a result, the reception side can quickly move to time stamp management using the decode time stamp assigned to each view stream.
  • a receiving unit that receives a multiplexed stream in which a plurality of view streams are multiplexed;
  • the decoding unit is in a receiving apparatus that sequentially decodes a plurality of view streams based on a decoding time stamp assigned to each view stream.
  • the reception unit receives a multiplexed stream obtained by multiplexing a plurality of view streams. Then, a plurality of view streams in the multiplexed stream are decoded by the decoding unit.
  • decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle. Then, in the decoding unit, the plurality of view streams are sequentially decoded based on the decoding time stamp assigned to each view stream.
  • a plurality of view streams are sequentially decoded based on the decode time stamps assigned to each view stream and divided at intervals of a display cycle. Therefore, the decoding process can be performed smoothly without failure.
  • the reception unit receives a container in a predetermined format including a multiplexed stream, and a decoding time stamp is assigned to the container layer at intervals of subdividing the display cycle into a plurality of view streams.
  • the decoding unit sequentially decodes the plurality of view streams based on the decoding time stamp allocated to each view stream. May be. In this case, based on the allocation information, the time stamp management based on the decoding time stamp allocated to each view stream is promptly shifted.
  • FIG. 1 It is a block diagram which shows the structural example of the image transmission / reception system as embodiment. It is a figure which shows an example of the view stream contained in transport stream TS. It is a figure which shows the case where three view streams of the center (Center), the left end (Left), and the right end (Right) are included in the transport stream TS. It is a figure which shows the case where one parallax data stream is included in transport stream TS as an additional view stream with three view streams of a center (Center), a left end (Left), and a right end (Right). It is a figure which shows the case where two view streams of the left eye (Left) and the right eye (Right) are included in the transport stream TS.
  • FIG. 3 is a block diagram illustrating a configuration example of a transmission data generation unit 110.
  • FIG. 3 is a block diagram illustrating a configuration example of a receiver 200.
  • FIG. It is a block diagram which shows the structural example of 110 A of transmission data generation parts.
  • FIG. 1 shows a configuration example of an image transmission / reception system 10 as an embodiment.
  • the image transmission / reception system 10 includes a broadcasting station 100 and a receiver 200.
  • the broadcasting station 100 transmits a transport stream TS as a container on a broadcast wave.
  • the transport stream TS includes a multiplexed stream obtained by multiplexing a plurality of view streams for the multi-view service.
  • the multi-view service includes a multi-angle view simultaneous display service and a view providing service according to the user in addition to the stereoscopic image display service.
  • an example of the stereoscopic image display service is provided.
  • FIG. 2 shows an example of a view stream included in the transport stream TS.
  • the picture data of each view has a 1920 ⁇ 1080 full HD size.
  • FIG. 2A shows an example of a multi-view stereoscopic image display service that allows stereoscopic viewing with the naked eye.
  • the transport stream TS includes, for example, a view stream (video stream) obtained by encoding image data of a center view, a left end (Left) view, and a right end (Right) view. It is.
  • a reference relationship (dependency relationship) between the view stream at the center, the left end, and the right end.
  • FIG. 2B is also an example of a multi-view stereoscopic image display service that allows stereoscopic viewing with the naked eye.
  • a stream of disparity data (Disparity data) is included in addition to the center (Center), left end (Left), and right end (Right) view streams.
  • This disparity data stream is included as an additional view stream.
  • depth data (Depth data) corresponding to the parallax data may be used.
  • FIG. 2 (c) is an example of a stereo stereoscopic image display that requires wearing special glasses such as shutter glasses.
  • a view stream (video stream) obtained by encoding image data of the left eye (Left) view and the right eye (Right) view is included.
  • Decoding time stamps are allocated to each view stream included in the transport stream TS at intervals obtained by subdividing the display cycle.
  • FIG. 3 shows a case where the transport stream TS includes three view streams of the center (Center), the left end (Left), and the right end (Right).
  • FIG. 3A shows a picture of each view displayed at each display timing.
  • P1-1, P2-1, and P3-1 indicate pictures of each view displayed at a certain timing
  • P1-2, P2-2, and P3-2 indicate each view displayed at the next timing. The picture is shown.
  • the decoding time stamp assigned to the PES packet including the picture data of view 1 for example, Left
  • the picture data of view 2 for example, Right
  • the decoding time stamp DTS (view 2) assigned to the included PES packet is obtained by adding a fixed value offset ((1/3) * F) to DTS (view 1).
  • a decoding time stamp DTS (view 3) assigned to a PES packet including picture data of view 3 for example, Center
  • F represents a picture display cycle.
  • DTS (view (K + 1)) DTS (view K) + (1/3) * F (1)
  • FIG. 4 shows a case where one disparity data stream is included in the transport stream TS as an additional view stream together with the three view streams at the center, the left end, and the right end.
  • FIG. 4A shows a picture of each view displayed at each display timing.
  • P1-1, P2-1, P3-1, and P4-1 indicate pictures of each view displayed at a certain timing
  • P1-2, P2-2, P3-2, and P4-2 indicate the next. The pictures of each view displayed at the timing are shown.
  • the decoding time stamp assigned to the PES packet including the picture data of view 1 for example, Left
  • the picture data of view 2 for example, Right
  • the decoding time stamp DTS (view 2) assigned to the included PES packet is obtained by adding a fixed offset ((1/4) * F) to DTS (view 1).
  • a decoding time stamp DTS (view 3) assigned to a PES packet including picture data of view 3 (for example, Center) has a fixed offset ((1/4) * F) added to DTS (view 2). It will be. Further, the decoding time stamp DTS (Disparity) assigned to the PES packet including the disparity data is obtained by adding a fixed value offset ((1/4) * F) to the DTS (view 3).
  • FIG. 5 shows a case where the transport stream TS includes two view streams of the left eye (Left) and the right eye (Right).
  • FIG. 5A shows a picture of each view displayed at each display timing.
  • P1-1 and P2-1 indicate pictures of each view displayed at a certain timing
  • P1-2 and P2-2 indicate pictures of each view displayed at the next timing.
  • the decoding time stamp assigned to the PES packet including the picture data of view 1 (for example, Left) is DTS (view 1)
  • the picture data of view 2 (for example, Right) is The decoding time stamp DTS (view 2) allocated to the included PES packet is obtained by adding a fixed value offset ((1/2) * F) to DTS (view 1).
  • FIG. 6 shows a picture of each view displayed at each display timing, an arrangement position of the data (PES packet) in the multiplexed stream, and an example of inserting DTS and PTS into the header of each PES packet. ing.
  • the illustrated example shows a case where the transport stream TS includes three view streams of the center (Center), the left end (Left), and the right end (Right).
  • a PCR for transmitting the encoder side clock to the decoder side is added.
  • the PCR data may be transmitted separately from the PES data.
  • data PES packets
  • PES packets are arranged in the order of pictures of P1-1, P2-1, P3-1, P1-2, P2-2, P3-2,.
  • the pictures P1-1, P2-1, and P3-1 are displayed at the same display timing, and the same display time stamp PTS1 is inserted into the header of the PES packet including the data.
  • different time stamps DTS1, DTS2, and DTS3 are inserted for the decode time stamp.
  • allocation information indicating that decoding time stamps are allocated to a plurality of view streams at intervals of subdivided display cycles is inserted into the transport stream TS layer, that is, the container layer.
  • This allocation information is inserted, for example, under a video elementary loop (Video ES loop) of a program map table (PMT: Program Map Table) included in the transport stream TS.
  • PMT Program Map Table
  • the receiving side can recognize that the decoding time stamps are allocated to the plurality of view streams at intervals obtained by subdividing the display cycle based on the allocation information. Details of this allocation information will be described later.
  • the receiver 200 receives the transport stream TS transmitted from the broadcast station 100 on the broadcast wave. Further, the receiver 200 decodes each view stream included in the transport stream TS, sequentially acquires picture data of each view, and displays the stereoscopic image (multi-view stereoscopic image display or stereo stereoscopic image display). Used for.
  • a decoding time stamp is assigned to each view stream at intervals obtained by subdividing the display cycle. Therefore, the receiver 200 sequentially decodes each view stream based on the decode time stamp assigned to each view stream.
  • allocation information is inserted into the layer of the transport stream TS. Based on this assignment information, the receiver 200 can recognize that the decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle. As a result, the receiver 200 can promptly move to time stamp management based on the decode time stamp assigned to each view stream.
  • FIG. 7 shows an example of the decoding timing of the picture data (PES packet) of each view and the display timing of the picture of each view when the multiplexed stream shown in FIG. 6 is received.
  • a decoder clock is set based on this PCR.
  • data In the multiplexed stream, data (PES packets) are arranged in the order of pictures of P1-1, P2-1, P3-1, P1-2, P2-2, P3-2,.
  • the data is sequentially decoded at the timing of the decode time stamps DTS1, DTS2, and DTS3 inserted in the PES head, respectively.
  • the images are simultaneously displayed at the timing of the display time stamp PTS1 in which the PES head is inserted.
  • the multiplexed stream includes one or both of an elementary stream including a plurality of view streams and an elementary stream including a single view stream. That is, the multiplexed stream can have an elementary stream including a plurality of view streams.
  • FIG. 8 shows a circuit example of multiplexing encoding on the transmission side (broadcast station 100).
  • This example is an example of a so-called 1-pid in which two view streams of view 1 and view 2 are included in one elementary stream included in the multiplexed stream.
  • the image data V1 of view 1 is encoded by the encoder 11-1, and the encoded video stream is temporarily stored in a cpb (coded picture buffer) buffer 12.
  • the image data V2 of view 2 is encoded by the encoder 11-2, and the encoded video stream is temporarily stored in the cpb buffer 12.
  • the cpb buffer 12 is an encoding side buffer for defining decoding side buffering for video.
  • the amount of bits generated in the cpb buffer 12 is managed so as not to fail in the decoding side buffer.
  • the two video streams input to the cpb buffer 12 exit from the cpb buffer 12 as one elementary stream. This one elementary stream is temporarily stored in the container buffer 14, and then included in the multiplexed stream by the multiplexer 13 and transmitted.
  • FIG. 9 shows a configuration example of the elementary stream in the case of 1-pid described above.
  • This one elementary stream includes two view streams, view 1 and view 2.
  • each view picture becomes an access unit, and PES packets having the picture data in the payload portion are successively arranged.
  • FIG. 10 shows a circuit example of multiplexing decoding on the receiving side (receiver 200) corresponding to the circuit example of multiplexing encoding of FIG.
  • the multiplexed stream sent from the transmission side is temporarily stored in the container buffer 22, after which one elementary stream is extracted by the demultiplexer 21 and temporarily stored in a cpb (coded (picture buffer) buffer 23.
  • cpb coded (picture buffer) buffer 23.
  • view 1 picture data (access unit) is decoded by the decoder 24-1 at the timing of the corresponding DTS. Then, image data V1 of view 1 is obtained and temporarily stored in a dpb (decodeddepicture buffer) buffer 25-1.
  • the picture data (access unit) of view 2 is decoded by the decoder 24-2 at the timing of the corresponding DTS. Then, image data V2 of view 2 is obtained and temporarily stored in the dpb buffer 25-2.
  • the rendering units 26-1 and 26-2 display the image data V1 and V2 at the PTS timing.
  • FIG. 11 shows a circuit example of multiplexing encoding on the transmission side (broadcast station 100).
  • This example is an example of so-called 2-pid in which view streams of view 1 and view 2 are included in two elementary streams included in a multiplexed stream, respectively.
  • the image data V1 of view 1 is encoded by the encoder 11-1, and the encoded video stream is temporarily stored in a cpb (coded picture buffer) buffer 12-1.
  • the image data V2 of view 2 is encoded by the encoder 11-2, and the encoded video stream is temporarily stored in the cpb buffer 12-2.
  • the cpb buffers 12-1 and 12-2 are encoding side buffers for defining decoding side buffering for video.
  • the amount of bits generated in the cpb buffers 12-1 and 12-2 is managed so as not to fail in the decoding side buffer.
  • the video streams respectively input to the cpb buffers 12-1 and 12-2 are output as one elementary stream from the cpb buffers 12-1 and 12-2. These two elementary streams are temporarily stored in the container buffer 14, and then included in the multiplexed stream and transmitted by the multiplexer 13.
  • FIG. 12 shows a configuration example of two elementary streams in the case of 2-pid described above.
  • the first elementary stream includes a view stream of view 1.
  • the picture of view 1 becomes an access unit, and there is a PES packet having the picture data in the payload portion.
  • the second elementary stream includes the view stream of view 2.
  • the picture of view 2 becomes an access unit, and a PES packet having the picture data in the payload portion exists.
  • a stream type (Stream_type) describes the relationship between two PES packets.
  • FIG. 13 shows a circuit example of multiplexing decoding on the receiving side (receiver 200) corresponding to the circuit example of multiplexing encoding of FIG.
  • the multiplexed stream sent from the transmission side is temporarily stored in the container buffer 22, and then the first and second elementary streams are extracted by the demultiplexer 21, and each of them is cpb (coded picture buffer).
  • the data is temporarily stored in the buffers 23-1 and 23-2.
  • the picture data (access unit) of view 1 included in the elementary stream stored in the cpb buffer 23-1 is decoded by the decoder 24-1 at the timing of the corresponding DTS. Then, image data V1 of view 1 is obtained and temporarily stored in a dpb (decoded picture buffer) buffer 25-1.
  • the picture data (access unit) of view 1 included in the elementary stream stored in the cpb buffer 23-2 is decoded by the decoder 24-2 at the timing of the corresponding DTS. Then, the image data V2 of the view 2 is obtained and temporarily stored in a dpb (decoded picture buffer) buffer 25-3.
  • the renderers 26-1 and 26-2 display the image data V1 and V2 at the PTS timing.
  • FIGS. 14A and 14B show an example of an elementary stream including a plurality of view streams.
  • encoded data of pictures of each view is sequentially arranged.
  • the encoded data of the first picture is composed of “SPS ⁇ Coded Slice”
  • the encoded data of the second and subsequent pictures is comprised of “Subset SPS ⁇ Coded Slice”.
  • this example is an example in which MPEG4-AVC encoding is performed, but other encoding schemes are also applicable.
  • the hexadecimal numbers in the figure indicate “ ⁇ NAL unit type”.
  • FIG. 14B it is conceivable to define and arrange a new “NALunit” indicating an inter-view boundary “View Separation Marker” between encoded data of each picture. Thereby, it is possible to instantaneously access the top data of each view stream.
  • FIG. 14A illustrates an example in which “View Separation Marker” is not arranged between the view streams.
  • FIGS. 15A and 15B show an example in which three view streams are included in one elementary stream.
  • the encoded data of each view picture is shown as a substream.
  • FIG. 15A shows the head access unit at the time of random access
  • FIG. 15B shows the non-head access unit at the time of random access.
  • FIG. 16 shows a structural example (Syntax) of a multiple stream descriptor (multiple_stream_descriptor) as the allocation information.
  • FIG. 17 shows the contents (Semantics) of main information in the structural example shown in FIG.
  • Multiple_stream_tag is 8-bit data indicating the descriptor type, and here indicates that it is a multiple stream descriptor.
  • Multiple_stream_length is 8-bit data indicating the length (size) of the descriptor. This data indicates the number of subsequent bytes as the length of the descriptor.
  • the 4-bit field of “view ordering” takes a value from 1 to 15 with the first view being “1” as a display reference.
  • 1-bit field of “1st_view_left” indicates whether “1” of “view_ordering” is “left” or “right”. “1” indicates that view_ordering (1) is “left”, and in the case of other views, it approaches right in the order of view_ordering. “0” indicates that view_ordering (1) is “right”, and in the case of other views, it approaches the left in the order of view_ordering.
  • FIG. 18 shows a configuration example of the transport stream TS.
  • This configuration example shows a case where the transport stream TS has one elementary stream including a plurality of view streams.
  • a PES packet “videoSPES1” of one elementary stream is included.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PMT Program Map Table
  • PSI Program Specific Information
  • the PMT there is an elementary loop having information related to each elementary stream.
  • video elementary loop Video ES loop
  • information such as a packet identifier (PID) is arranged for each stream, and a descriptor describing information related to the elementary stream is also arranged.
  • PID packet identifier
  • a multiple stream descriptor (multiple_stream_descriptor) is inserted in association with each video stream under the video elementary loop (Video ES loop) of the PMT.
  • FIG. 19 shows another configuration example of the transport stream TS.
  • This configuration example shows a case where the transport stream TS has two elementary streams including one view stream.
  • PES packets “video PES1” and “video PES2” of two elementary streams are included.
  • a multiple stream descriptor (multiple_stream_descriptor) is inserted in association with each elementary stream under the video elementary loop (Video) ES loop) of the PMT.
  • FIG. 20 shows still another configuration example of the transport stream TS.
  • This configuration example shows a case where the transport stream TS has three elementary streams including one view stream.
  • the configuration example of FIG. 20 includes three elementary stream PES packets “video PES1”, “video PES2”, and “video PES3”.
  • a multiple stream descriptor (multiple_stream_descriptor) is inserted in association with each elementary stream under the video elementary loop (Video) ES loop) of the PMT.
  • FIG. 21 illustrates a configuration example of the transmission data generation unit 110.
  • the transmission data generation unit 110 includes N image data output units 111-1 to 111-N, a view selector 112, scalers 113-1, 113-2, and 113-3, and video encoders 114-1 and 114. -2, 114-3, a multiplexer 115, and a container buffer 120.
  • the transmission data generation unit 110 includes a parallax data generation unit 116, a parallax encoder 117, an audio data output unit 118, and an audio encoder 119.
  • Image data output units 111-1 to 111-N output image data of N views (View 1 ... View N) for multi-view stereoscopic image display.
  • the image data output unit includes, for example, a camera that images a subject and outputs image data, or an image data reading unit that reads and outputs image data from a storage (storage medium). Note that the image data of the view that is not transmitted may not actually be present.
  • the view selector 112 selects at least the image data of the left end view and the right end view from the image data of N views (View 1... View N) and an intermediate view (between the left end and the right end). One or more image data are selectively extracted.
  • the view selector 112 extracts the image data VL of the left end view and the image data VR of the right end view, and extracts the image data VC of the center view.
  • the scalers 113-1, 113-2, and 113-3 perform scaling processing on the image data VC, VL, and VR, respectively, and, for example, 1920 * 1080 full HD size image data VC ′, VL ′ and VR ′ are obtained.
  • the image data VC, VL, and VR are 1920 * 1080 full HD size, they are output as they are. If the image data VC, VL, VR is larger than the size of 1920 * 1080, the image data is scaled down and output.
  • the video encoder 114-1 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the image data VC ′ of the central view to obtain encoded video data. Then, the video encoder 114-1 generates a view stream including the encoded data by a stream formatter (not shown) provided in the subsequent stage.
  • MVC MPEG4-AVC
  • MPEG2 MPEG2 video
  • the video encoder 114-2 performs encoding such as MPEG4-AVC (MVC), MPEG2 video, etc. on the image data VL ′ of the left end view to obtain encoded video data. Then, the video encoder 114-2 generates a view stream including the encoded data by a stream formatter (not shown) provided in the subsequent stage.
  • MVC MPEG4-AVC
  • MPEG2 video etc.
  • the video encoder 114-3 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the image data VR ′ of the rightmost view to obtain encoded video data. Then, the video encoder 114-3 generates a view stream including the encoded data by a stream formatter (not shown) provided in the subsequent stage.
  • MVC MPEG4-AVC
  • MPEG2 MPEG2 video
  • the disparity data generation unit 116 generates disparity data (Disparity data) based on the image data of the center, left end, and right end views output from the view selector 112.
  • the disparity data includes, for example, disparity data between the center view and the left end view and disparity data between the center view and the right end view.
  • parallax data is generated in pixel units or block units.
  • the parallax encoder 117 encodes the parallax data generated by the parallax data generation unit 116 to generate a parallax data stream.
  • This disparity data stream includes disparity data in units of pixels or blocks. When the parallax data is in units of pixels, it can be compressed and transmitted in the same manner as the pixel data.
  • the reception side can also perform conversion in units of pixels by performing the above-described conversion processing. Further, when there is no transmission of such a parallax data stream, it is possible on the receiving side to obtain parallax data in units of blocks between the views as described above and further convert them into units of pixels.
  • the audio data output unit 118 outputs audio data corresponding to the image data.
  • the audio data output unit 118 is configured by, for example, a microphone or an audio data reading unit that reads and outputs audio data from a storage medium.
  • the audio encoder 119 performs encoding such as MPEG-2Audio or AAC on the audio data output from the audio data output unit 118 to generate an audio stream.
  • the container buffer 120 temporarily stores each encoded stream.
  • the multiplexer 115 packetizes and multiplexes the streams generated by the video encoders 114-1, 114-2, 114-3, the parallax data encoder 117, and the audio encoder 119, and generates a multiplexed stream.
  • DTS Decoding Time Stamp
  • PTS Presentation Time Time Stamp
  • the multiplexer 115 inserts a multiple stream descriptor (multiple_stream_descriptor) (see FIG. 16) as allocation information into the layer of the transport stream TS.
  • This descriptor has information indicating that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing the display cycle.
  • This descriptor is inserted, for example, under a program map table (PMT: Program Map Table) included in the transport stream TS.
  • PMT Program Map Table
  • Image data of N views (View 1 ... View N) for multi-viewpoint stereoscopic image display output from the N image data output units 111-1 to 111-N is supplied to the view selector 112.
  • the view selector 112 extracts the image data VC of the center view, the image data VL of the left end view, and the image data VR of the right end view from the image data of N views.
  • the image data VC of the central view taken out by the view selector 112 is supplied to the scaler 113-1 and scaled to, for example, a full HD size of 1920 * 1080.
  • the image data VC ′ after the scaling process is supplied to the video encoder 114-1.
  • the image data VC ′ is encoded to obtain encoded video data, and a view stream including the encoded video data is obtained. This view stream is supplied to the container buffer 120 and temporarily stored.
  • the image data VL of the leftmost view extracted by the view selector 112 is supplied to the scaler 113-2, and is scaled to, for example, a full HD size of 1920 * 1080.
  • the image data VL ′ after the scaling process is supplied to the video encoder 114-2.
  • the image data VL ' is encoded to obtain encoded video data, and a view stream including the encoded video data is generated. This view stream is supplied to the container buffer 120 and temporarily stored.
  • the image data VR of the right end view extracted by the view selector 112 is supplied to the scaler 113-3 and is scaled to, for example, a full HD size of 1920 * 1080.
  • the image data VR ′ after the scaling processing is supplied to the video encoder 114-3.
  • the image data VR ′ is encoded to obtain encoded video data, and a view stream including the encoded video data is generated. This view stream is supplied to the container buffer 120 and temporarily stored.
  • the image data of each of the center, left end, and right end views output from the view selector 112 is supplied to the parallax data generation unit 116.
  • the disparity data generation unit 116 generates disparity data (Disparity data) based on the image data of each view.
  • the disparity data includes disparity data between the center view and the left end view, and disparity data between the center view and the right end view.
  • parallax data is generated in pixel units or block units.
  • the parallax data generated by the parallax data generation unit 116 is supplied to the parallax encoder 117.
  • the parallax data is encoded, and a parallax data stream is generated. This disparity data stream is supplied to the container buffer 120 and temporarily stored.
  • the audio data output from the audio data output unit 118 is supplied to the audio encoder 119.
  • the audio encoder 119 performs encoding such as MPEG-2Audio or AAC on the audio data, and generates an audio stream. This audio stream is supplied to the container buffer 120 and temporarily stored.
  • the stream from each encoder stored in the container buffer 120 is packetized and multiplexed to generate a transport stream TS.
  • DTS and PTS are inserted into each PES header for synchronous reproduction on the receiving side.
  • a multiple stream descriptor which is assignment information indicating that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing a display cycle, is inserted under the PMT.
  • FIG. 22 illustrates a configuration example of the receiver 200 corresponding to the transmission data generation unit 110 illustrated in FIG. 21 described above.
  • the receiver 200 includes a container buffer 213, a demultiplexer 214, coded buffers 215-1, 215-2, and 215-3, video decoders 216-1, 216-2, and 216-3, and a decoded buffer 217. -1, 217-2, 217-3 and scalers 218-1, 218-2, 218-3.
  • the receiver 200 includes a view interpolation unit 219 and a pixel interleaver 220.
  • the receiver 200 includes a coded buffer 221, a parallax decoder 222, a parallax buffer 223, and a parallax data conversion unit 224.
  • the receiver 200 also includes a coded buffer 225, an audio decoder 226, and a channel mixing unit 227.
  • the container buffer 213 temporarily stores the transport stream TS received by a digital tuner or the like.
  • This transport stream TS includes at least the image data of the left end view and the right end view among the plurality of views for displaying the multi-viewpoint stereoscopic image, and the central view as an intermediate view located between the left end and the right end.
  • a view stream obtained by encoding view image data is included.
  • This descriptor indicates that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing a display cycle.
  • the demultiplexer 214 extracts video, parallax, and audio streams from the transport stream TS temporarily stored in the container buffer 213. Further, the demultiplexer 214 extracts the above-described multiple stream descriptor from the transport stream TS, and sends it to a control unit (CPU) (not shown).
  • CPU control unit
  • the control unit can recognize that the decode time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle by using this descriptor. As a result, the receiver 200 can promptly move to time stamp management based on the decode time stamp assigned to each view stream.
  • the coded buffers 215-1, 215-2, and 215-3 temporarily store the view streams of the center, left end, and right end views extracted by the demultiplexer 214, respectively.
  • the video decoders 216-1, 216-2, and 216-3 perform decoding processing on the view streams stored in the coded buffers 215-1, 215-2, and 215-3, respectively. Get image data for each view.
  • the demultiplexer 214 described above extracts the DTS and PTS assigned to the view stream (including the disparity data stream) of each view. Extraction of the view stream of each view from the coded buffers 215-1, 215-2, and 215-3 is performed at the timing of the corresponding DTS. Therefore, the decoding process for the view stream of each view is started at the timing of the corresponding DTS.
  • the video decoder 216-1 acquires image data of a center view.
  • the video decoder 216-2 acquires image data of the left end view (left (view).
  • the video decoder 216-3 acquires image data of the right end view (right view).
  • the decoded buffers 217-1, 217-2, and 217-3 temporarily store the image data of each view acquired by the video decoders 216-1, 216-2, and 216-3, respectively.
  • Scalers 218-1, 218-2, and 218-3 are configured so that the output resolution of the image data of each view output from decoded buffers 217-1, 217-2, and 217-3 is a predetermined resolution, respectively. Adjust to.
  • the coded buffer 221 temporarily stores the parallax data stream extracted by the demultiplexer 214.
  • the parallax decoder 222 performs processing opposite to that of the parallax encoder 117 (see FIG. 21) of the transmission data generation unit 110 described above. That is, the parallax decoder 222 performs a decoding process on the parallax data stream stored in the coded buffer 221 to obtain parallax data.
  • the disparity data includes disparity data between the center view and the left end view and disparity data between the center view and the right end view.
  • the parallax data is parallax data in units of pixels or blocks.
  • the parallax buffer 223 temporarily stores the parallax data acquired by the parallax decoder 222.
  • the extraction of the disparity data stream from the coded buffer 221 is performed at the timing of the corresponding DTS extracted by the demultiplexer 214. Therefore, the decoding process for the disparity data stream is started at the timing of the corresponding DTS.
  • the parallax data conversion unit 224 generates parallax data in units of pixels suitable for the size of the scaled image data based on the parallax data stored in the parallax buffer 223. For example, when the generated parallax data is in units of blocks, it is converted into parallax data in units of pixels. In addition, for example, when the generated parallax data is in units of pixels but does not match the size of the scaled image data, the data is appropriately scaled.
  • the view interpolation unit 219 generates a predetermined number of views that have not been transmitted based on the parallax data between the views obtained by the parallax data conversion unit 224 from the image data of the center, left end, and right end views after scaling. Interpolate image data. That is, the view interpolation unit 219 interpolates and outputs the image data of each view positioned between the center view and the left end view. The view interpolation unit 219 interpolates and outputs image data of each view located between the center view and the right end view.
  • the pixel interleaver 220 performs pixel interleaving processing on the image data of N views (View1, View2,..., ViewN) output from the view interpolation unit 219 to generate a three-dimensional image (stereoscopic image). Display image data for viewing with the naked eye is generated.
  • the coded buffer 225 temporarily stores the audio stream extracted by the demultiplexer 214.
  • the audio decoder 226 performs processing opposite to that of the audio encoder 119 (see FIG. 21) of the transmission data generation unit 110 described above. That is, the audio decoder 226 performs a decoding process on the audio stream stored in the coded buffer 225 to obtain decoded audio data.
  • the channel mixing unit 227 generates and outputs audio data of each channel for realizing, for example, 5.1ch surround with respect to the audio data obtained by the audio decoder 226.
  • the transport stream TS received by a digital tuner or the like is temporarily stored in the container buffer 213.
  • the transport stream TS includes, in a plurality of views for multi-viewpoint stereoscopic image display, image data of a left end view and a right end view, and a central view as an intermediate view positioned between the left end and the right end.
  • the view stream obtained by encoding the image data is included.
  • the demultiplexer 214 video, parallax, and audio streams are extracted from the transport stream TS temporarily stored in the container buffer 213. Further, the demultiplexer 214 extracts a multiple stream descriptor as allocation information from the transport stream TS and sends it to the control unit (CPU). The control unit recognizes that the decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle by the descriptor. The control unit can quickly move to time stamp management based on the decode time stamp assigned to each view stream.
  • the view streams of the center, left end, and right end views extracted by the demultiplexer 214 are supplied to the coded buffers 215-1, 215-2, and 215-3, respectively, and temporarily stored. Then, in the video decoders 216-1, 216-2, and 216-3, the decoding processing of the view streams stored in the coded buffers 215-1, 215-2, and 215-3 is performed, respectively. Image data of each view at the left end and the right end is acquired.
  • the image data of each view acquired by the video decoders 216-1, 216-2, and 216-3 are respectively supplied to the decoded buffers 217-1, 217-2, and 217-3 and temporarily stored therein. .
  • the scalers 218-1, 218-2, and 218-3 are configured so that the output resolution of the image data of each view output from the decoded buffers 217-1, 217-2, and 217-3 is a predetermined resolution, respectively. Adjusted.
  • the disparity data stream extracted by the demultiplexer 214 is supplied to the coded buffer 221 and temporarily stored.
  • the parallax decoder 222 the decoding process of the parallax data stream memorize
  • the disparity data includes disparity data between the center view and the left end view and disparity data between the center view and the right end view.
  • the parallax data is parallax data in units of pixels or blocks.
  • the parallax data acquired by the parallax decoder 222 is supplied to the parallax buffer 223 and temporarily stored. Based on the parallax data stored in the parallax buffer 223, the parallax data conversion unit 224 generates parallax data in pixel units that matches the size of the scaled image data. In this case, when the generated parallax data is in units of blocks, it is converted into parallax data in units of pixels. In this case, the generated parallax data is in units of pixels, but is appropriately scaled when it does not match the size of the scaled image data.
  • the view interpolation unit 219 a predetermined number of views that are not transmitted based on the parallax data between the views obtained by the parallax data conversion unit 224 from the image data of the center, left end, and right end views after scaling.
  • Image data is interpolated and synthesized. From the view interpolation unit 219, image data of N views (View1, View2,..., ViewN) for viewing a three-dimensional image (stereoscopic image) with the naked eye is obtained. Note that image data of each view at the center, the left end, and the right end is also included.
  • pixel interleaver 220 pixel interleave processing is performed on image data of N views (View1, View2,..., ViewN) to display a 3D image (stereoscopic image) for viewing with the naked eye.
  • Image data is generated.
  • an image display for viewing the three-dimensional image (stereoscopic image) with the naked eye is performed.
  • the audio stream extracted by the demultiplexer 214 is supplied to the coded buffer 225 and temporarily stored.
  • the audio decoder 226, the audio stream stored in the coded buffer 225 is decoded, and decoded audio data is obtained.
  • the audio data is supplied to the channel mixing unit 227.
  • the channel mixing unit 227 generates audio data for each channel for realizing, for example, 5.1ch surround with respect to the audio data. This audio data is supplied to, for example, a speaker, and audio output is performed in accordance with image display.
  • the above-described transmission data generation unit 110 illustrated in FIG. 21 and the receiver 200 illustrated in FIG. 22 are configuration examples when the transport stream TS includes a disparity data stream obtained by encoding disparity data. A case where a disparity data stream is not included in the transport stream TS is also conceivable.
  • FIG. 23 shows a configuration example of the transmission data generation unit 110A in that case.
  • This transmission data generation unit 110A has a configuration in which the parallax data generation unit 116 and the parallax encoder 117 in the transmission data generation unit 110 illustrated in FIG.
  • the multiplexer 115 packetizes and multiplexes the streams generated by the video encoders 114-1, 114-2, 114-3 and the audio encoder 119, and generates a multiplexed stream.
  • Other configurations of the transmission data generation unit 110A illustrated in FIG. 23 are the same as those of the transmission data generation unit 110 illustrated in FIG.
  • FIG. 24 shows a configuration example of the receiver 200A in that case. 24, parts corresponding to those in FIG. 22 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the receiver 200A includes a parallax data generation unit 228.
  • the parallax data generation unit 228 generates parallax data based on the image data of the center, left end, and right end views that have been subjected to the scaling process.
  • the generation method of the disparity data in this case is the same as the disparity data generation method in the disparity data generation unit 116 in the transmission data generation unit 110 (see FIG. 21) described above.
  • the disparity data generation unit 228 generates and outputs disparity data similar to the disparity data in units of pixels generated by the disparity data conversion unit 224 of the receiver 200 illustrated in FIG.
  • the parallax data generated by the parallax data generation unit 228 is supplied to the view interpolation unit 219.
  • the coded buffer 221, the parallax decoder 222, the parallax buffer 223, and the parallax data conversion unit 224 in the receiver 200 shown in FIG. 22 are omitted.
  • Other configurations of the receiver 200A shown in FIG. 24 are the same as those of the receiver 200 shown in FIG.
  • the transmission data generation units 110 and 110A shown in FIGS. 21 and 23 and the receivers 200 and 200A shown in FIGS. 22 and 24 are used when the transport stream TS includes a view stream for multi-viewpoint stereoscopic image display. It is a structural example. A configuration example when the transport stream TS includes a view stream for displaying a stereoscopic image will be described.
  • FIG. 25 illustrates a configuration example of the transmission data generation unit 110B in that case.
  • the transmission data generation unit 110B includes two image data output units 111-1 and 111-2, scalers 113-1 and 113-2, video encoders 114-1 and 114-2, a multiplexer 115, and a container.
  • a buffer 120 is provided.
  • the transmission data generation unit 110B includes an audio data output unit 118 and an audio encoder 119.
  • Image data output units 111-1 and 111-2 output left eye (View IV 1) image data VL and right eye (View IV 2) image data VR for stereo stereoscopic image display, respectively.
  • the image data output unit includes, for example, a camera that images a subject and outputs image data, or an image data reading unit that reads and outputs image data from a storage (storage medium).
  • the scalers 113-1 and 113-2 perform scaling processing on the image data VL and VR, respectively, to obtain, for example, 1920 * 1080 full HD size image data VL ′ and VR ′.
  • the image data VL and VR are 1920 * 1080 full HD size, they are output as they are. If the image data VL and VR are larger than the size of 1920 * 1080, they are scaled down and output.
  • the video encoder 114-1 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the left eye image data VL 'to obtain encoded video data. Then, the video encoder 114-1 generates a view stream including the encoded data by a stream formatter (not shown) provided in the subsequent stage.
  • MVC MPEG4-AVC
  • MPEG2 MPEG2 video
  • the video encoder 114-2 performs encoding such as MPEG4-AVC (MVC) or MPEG2 video on the right eye image data VR 'to obtain encoded video data. Then, the video encoder 114-2 generates a view stream including the encoded data by a stream formatter (not shown) provided in the subsequent stage.
  • MVC MPEG4-AVC
  • MPEG2 MPEG2 video
  • the audio data output unit 118 outputs audio data corresponding to the image data.
  • the audio data output unit 118 is configured by, for example, a microphone or an audio data reading unit that reads and outputs audio data from a storage medium.
  • the audio encoder 119 performs encoding such as MPEG-2Audio or AAC on the audio data output from the audio data output unit 118 to generate an audio stream.
  • the container buffer 120 temporarily stores each encoded stream.
  • the multiplexer 115 packetizes and multiplexes the streams generated by the video encoders 114-1 and 114-2 and the audio encoder 119, and generates a transport stream TS including the multiplexed stream.
  • DTS Decoding Time Stamp
  • PTS Presentation Time Time Stamp
  • the multiplexer 115 inserts a multiple stream descriptor (multiple_stream_descriptor) (see FIG. 16) as allocation information into the layer of the transport stream TS.
  • This descriptor has information indicating that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing the display cycle.
  • This descriptor is inserted, for example, under a program map table (PMT: Program Map Table) included in the transport stream TS.
  • PMT Program Map Table
  • the left-eye image data VL and right-eye image data VR for stereo stereoscopic image display output from the two image data output units 111-1 and 111-2 are supplied to the scalers 113-1 and 113-2. For example, scaling processing is performed to a full HD size of 1920 * 1080.
  • the image data VL ′ after the scaling processing is supplied to the video encoder 114-1.
  • the image data VL ' is encoded to obtain encoded video data, and a view stream including the encoded video data is generated. This view stream is supplied to the container buffer 120 and temporarily stored.
  • the image data VR ′ after the scaling processing is supplied to the video encoder 114-2.
  • the image data VR ′ is encoded to obtain encoded video data, and a view stream including the encoded video data is generated. This view stream is supplied to the container buffer 120 and temporarily stored.
  • the audio data output from the audio data output unit 118 is supplied to the audio encoder 119.
  • the audio encoder 119 performs encoding such as MPEG-2Audio or AAC on the audio data, and generates an audio stream. This audio stream is supplied to the container buffer 120 and temporarily stored.
  • the stream from each encoder stored in the container buffer 120 is packetized and multiplexed to generate a transport stream TS.
  • DTS and PTS are inserted into each PES header for synchronous reproduction on the receiving side.
  • a multiple stream descriptor which is assignment information indicating that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing a display cycle, is inserted under the PMT.
  • FIG. 26 illustrates a configuration example of the receiver 200B corresponding to the transmission data generation unit 110B illustrated in FIG. 25 described above.
  • the receiver 200B includes a container buffer 213, a demultiplexer 214, coded buffers 215-1 and 215-2, video decoders 216-1 and 216-2, decoded buffers 217-1 and 217-2, Scalers 218-1 and 218-2 and a rendering unit 229 are included.
  • the receiver 200B includes a coded buffer 225, an audio decoder 226, and a channel mixing unit 227.
  • the container buffer 213 temporarily stores the transport stream TS received by a digital tuner or the like.
  • This transport stream TS includes a view stream obtained by encoding left-eye and right-eye image data for stereo stereoscopic image display.
  • This descriptor indicates that decode time stamps are assigned to a plurality of view streams at intervals obtained by subdividing a display cycle.
  • the demultiplexer 214 extracts video and audio streams from the transport stream TS temporarily stored in the container buffer 213. Further, the demultiplexer 214 extracts the above-described multiple stream descriptor from the transport stream TS, and sends it to a control unit (CPU) (not shown).
  • CPU control unit
  • the control unit can recognize that the decode time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle by using this descriptor. As a result, the receiver 200 can promptly move to time stamp management based on the decode time stamp assigned to each view stream.
  • the coded buffers 215-1 and 215-2 temporarily store the view streams of the left and right eye views extracted by the demultiplexer 214, respectively.
  • the video decoders 216-1 and 216-2 perform decoding processing on the view streams stored in the coded buffers 215-1 and 215-2, respectively, and acquire left-eye image data and right-eye image data.
  • the above-described demultiplexer 214 extracts the DTS and PTS assigned to the view stream of each view. Extraction of the view stream of each view from the coded buffers 215-1 and 215-2 is performed at the timing of the corresponding DTS. Therefore, the decoding process for the view stream of each view is started at the timing of the corresponding DTS.
  • the video decoder 216-1 acquires left eye image data
  • the video decoder 216-2 acquires right eye image data.
  • the decoded buffers 217-1 and 217-2 temporarily store the image data of the left eye and the right eye acquired by the video decoders 216-1 and 216-2, respectively.
  • Scalers 218-1 and 218-2 adjust the output resolutions of the left-eye and right-eye image data output from decoded buffers 217-1 and 217-2, respectively, to be predetermined resolutions.
  • the rendering unit 229 performs processing for stereo stereoscopic image display on the left-eye and right-eye image data, and supplies the result to the display.
  • the coded buffer 225 temporarily stores the audio stream extracted by the demultiplexer 214.
  • the audio decoder 226 performs processing opposite to that of the audio encoder 119 (see FIG. 25) of the transmission data generation unit 110B described above. That is, the audio decoder 226 performs a decoding process on the audio stream stored in the coded buffer 225 to obtain decoded audio data.
  • the channel mixing unit 227 generates and outputs audio data of each channel for realizing, for example, 5.1ch surround with respect to the audio data obtained by the audio decoder 226.
  • image data of each view from the decoded buffers 217-1 and 217-2 is read based on the PTS, and transfer synchronization is taken.
  • the transport stream TS received by a digital tuner or the like is temporarily stored in the container buffer 213.
  • This transport stream TS includes a view stream obtained by encoding left-eye image data and right-eye image data for displaying a stereoscopic image.
  • the demultiplexer 214 extracts video and audio streams from the transport stream TS temporarily stored in the container buffer 213. Further, the demultiplexer 214 extracts a multiple stream descriptor as allocation information from the transport stream TS and sends it to the control unit (CPU).
  • the control unit recognizes that the decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle by the descriptor. The control unit can quickly move to time stamp management based on the decode time stamp assigned to each view stream.
  • the view streams of the left-eye and right-eye views extracted by the demultiplexer 214 are supplied to the coded buffers 215-1 and 215-2 and temporarily stored.
  • the decoding processing of the view streams stored in the coded buffers 215-1 and 215-2 is performed, respectively, and the left eye image data and the right eye image data are converted. To be acquired.
  • the left-eye and right-eye image data acquired by the video decoders 216-1 and 216-2 are supplied to the decoded buffers 217-1 and 217-2, respectively, and temporarily stored.
  • Scalers 218-1 and 218-2 adjust the output resolutions of the left-eye and right-eye image data output from decoded buffers 217-1 and 217-2, respectively, to a predetermined resolution.
  • the resolution-adjusted left eye and right eye image data is supplied to the rendering unit 229.
  • processing for displaying a stereo stereoscopic image is performed on the image data of the left eye and the right eye and supplied to the display.
  • image display for displaying a stereo stereoscopic image for example, time-division display of the left eye image and the right eye image is performed.
  • decode time stamps are assigned to a plurality of view streams in a multiplexed stream at intervals obtained by subdividing the display cycle. Therefore, since the decoding order and the reference relationship between views are guaranteed, decoding processing can be smoothly performed on the receiving side without failure.
  • a decoding time stamp is allocated to a plurality of view streams at intervals of subdivided display cycles under a layer of the transport stream TS, for example, a PMT. Allocation information is inserted. Therefore, the receiving side can recognize that the decoding time stamps are assigned to the plurality of view streams at intervals obtained by subdividing the display cycle based on the assignment information. As a result, the reception side can quickly move to time stamp management using the decode time stamp assigned to each view stream.
  • the stereoscopic image display service is focused on as a multi-view service.
  • the present technology is applicable to other multi-view services such as a multi-angle view simultaneous display service and a user. The same can be applied to a view providing service.
  • the image transmission / reception system 10 including the broadcast station 100 and the receiver 200 is shown.
  • the configuration of the image transmission / reception system to which the present technology can be applied is not limited thereto.
  • the receiver 200 may have a configuration of a set top box and a monitor connected via a digital interface such as HDMI (High-Definition Multimedia Interface).
  • the container is a transport stream (MPEG-2 TS)
  • MPEG-2 TS transport stream
  • the present technology can be similarly applied to a system configured to be distributed to receiving terminals using a network such as the Internet.
  • the Internet distribution it is often distributed in a container of MP4 or other formats.
  • containers of various formats such as transport stream (MPEG-2 TS) adopted in the digital broadcasting standard and MP4 used in Internet distribution correspond to the container.
  • this technique can also take the following structures.
  • a transmission unit that transmits a multiplexed stream in which a plurality of view streams are multiplexed;
  • a transmission apparatus comprising: a time stamp assigning unit that assigns a decode time stamp to the plurality of view streams at intervals of subdivided display cycles.
  • the transmission unit transmits a container of a predetermined format including the multiplexed stream,
  • the container is a transport stream
  • the allocation information includes information indicating whether or not the corresponding elementary stream has a plurality of view streams.
  • the plurality of view streams are streams of a predetermined number of views selected from a plurality of views for multi-viewpoint stereoscopic image display.
  • the transmission device according to any one of (1) to (6), wherein the plurality of view streams are streams of two views for displaying a stereoscopic image.
  • the transmission device according to any one of (1) to (8), wherein the plurality of view streams include a disparity information stream as an additional view stream.
  • a receiving unit that receives a multiplexed stream in which a plurality of view streams are multiplexed; A decoding unit for decoding the plurality of view streams in the multiplexed stream, Decode time stamps are assigned to the multiple view streams at intervals that subdivide the display cycle.
  • the decoding device wherein the decoding unit sequentially decodes a plurality of view streams based on a decoding time stamp assigned to each view stream.
  • the receiving unit receives a container of a predetermined format including the multiplexed stream, Allocation information indicating that decoding time stamps are allocated to the plurality of view streams at intervals obtained by subdividing the display cycle is inserted in the container layer.
  • the decoding device wherein the decoding unit sequentially decodes a plurality of view streams based on a decoding time stamp assigned to each view stream when the assignment information exists.
  • a decoding step for decoding the plurality of view streams in the multiplexed stream, Decode time stamps are assigned to the multiple view streams at intervals that subdivide the display cycle.
  • a plurality of view streams are sequentially decoded based on a decoding time stamp assigned to each view stream.
  • a transmission apparatus comprising: a time stamp assigning unit that assigns time stamps to the plurality of view streams in consideration of dependency between streams.
  • the main feature of the present technology is that when N view streams related to simultaneous display are multiplexed and transmitted, the decoding time stamp assigned to each view stream is sequentially (1 / N) * F (F is a display cycle) ) Is added so that the decoding order and the reference relationship between views can be guaranteed (see FIG. 3).
  • DESCRIPTION OF SYMBOLS 10 ... Image transmission / reception system 100 ... Broadcasting station 110, 110A, 110B ... Transmission data generation part 111-1 to 111-N ... Image data output part 112 ... View selector 113-1, 113 -2, 113-3 ... Scaler 114-1, 114-2, 114-3 ... Video encoder 115 ... Multiplexer 116 ... Disparity data generator 117 ... Disparity encoder 118 ... Audio Data output unit 119 ... Audio encoder 120 ... Container buffer 200, 200A, 200B ... Receiver 213 ... Container buffer 214 ... Demultiplexer 215-1, 215-2, 215-3, 221 , 225...

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

 マルチビュー・サービスのための複数のビューストリームの伝送を良好に行う。 送信部により、複数のビューストリームが多重化された多重化ストリームを送信する。この場合、タイムスタンプ割り当て部により、複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てる。例えば、複数のビューストリームは、立体画像表示のためのストリームなどである。多重化ストリーム内の複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられるため、ビュー間のデコード順と参照関係が保証され、受信側においてデコード処理を破綻なくスムーズに行い得るようになる。

Description

送信装置、送信方法、受信装置および受信方法
 本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、マルチビュー・サービスにおいて各ビューのストリームを多重化して伝送する送信装置等に関する。
 従来、マルチビュー・サービスとして、種々のものが提案されている。例えば、マルチビュー・サービスとして、立体画像表示のサービスがある。この立体画像表示には、例えば、裸眼で立体視が可能な多視点立体画像表示(特許文献1参照)、あるいはシャッタメガネなどの特殊なメガネの装着が必要なステレオ立体画像表示(特許文献2参照)などがある。また、マルチビュー・サービスとして、マルチアングルのビューを同時に表示するサービス、さらには、ユーザに応じたビューを提供するサービスなどがある。
特開2011-135458号公報 特開2005-006114号公報
 上述のマルチビュー・サービスのために、送信側から受信側に、複数のビューストリームが多重化されて多重化ストリームを伝送することが行われる。ストリームをデコードするタイミングと表示するタイミングは、通常タイムスタンプで制御される。
 あるサービスにおいて、複数のストリームが供給され、それらが有機的に結合されて表示へ至る際、参照関係にある複数のストリームのデコード、表示のタイミングは、破綻のないようにピクチャ毎に制御されなければならない。また、ライブ配信の場合に、時刻の推移に応じてリアルタイムに多重化を行う際、ある一定の決まりに従って、複数のストリームにタイムスタンプを付して多重化を行う必要がある。
 マルチビュー・サービスにおいて、各ビューが一つのストリームで符号化される場合、ビュー間のデコード順と参照関係を保証する多重化方法、そして各ビューの表示関係を制御する多重化方法が望まれる。
 本技術の目的は、マルチビュー・サービスのための複数のビューストリームの伝送を良好に行うことにある。
 本技術の概念は、
 複数のビューストリームが多重化された多重化ストリームを送信する送信部と、
 上記複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てるタイムスタンプ割り当て部とを備える
 送信装置にある。
 本技術において、送信部により、複数のビューストリームが多重化された多重化ストリームが送信される。この場合、タイムスタンプ割り当て部により、複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプが割り当てられる。
 例えば、複数のビューストリームは、多視点立体画像表示のための複数のビューから選択された所定数のビューのストリームであってもよい。また、例えば、複数のビューストリームは、ステレオ立体画像表示のための2つのビューのストリームであってもよい。また、例えば、複数のビューストリームに、視差情報のストリームが追加のビューストリームとして含まれていてもよい。
 例えば、多重化ストリームは、複数のビューストリームを含むエレメンタリストリームを有していてもよい。すなわち、多重化ストリームは、複数のビューストリームを含むエレメンタリストリームおよび単一のビューストリームを含むエレメンタリストリームのいずれか一方、あるいは双方を含むこととなる。複数のビューストリームを含むエレメンタリストリームにあっては、例えば、各ビューストリームの間にビュー間境界を示す情報が配置されるようにしてもよい。この場合、各ビューストリームの先頭に瞬時にアクセスすることが可能となる。
 このように本技術においては、多重化ストリーム内の複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられる。そのため、ビュー間のデコード順と参照関係が保証されることから、受信側においてデコード処理を破綻なくスムーズに行い得るようになる。
 なお、本技術において、送信部は、多重化ストリームを含む所定フォーマットのコンテナを送信し、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報を、このコンテナのレイヤに挿入する情報挿入部をさらに備える、ようにされてもよい。例えば、コンテナは、トランスポートストリームであり、情報挿入部は、割り当て情報を、プログラム・マップ・テーブルの配下に挿入してもよい。例えば、この割り当て情報には、対応するエレメンタリストリームが、複数のビューストリームを持つか否かを示す情報が含まれていてもよい。
 この場合、受信側では、この割り当て情報に基づいて、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識できる。これにより、受信側では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 また、本技術の他の概念は、
 複数のビューストリームが多重化された多重化ストリームを受信する受信部と、
 上記多重化ストリーム内の上記複数のビューストリームをデコードするデコード部とを備え、
 上記複数のビューストリームには表示周期を細分化した間隔でデコードタイムスタンプが割り当てられており、
 上記デコード部は、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
 受信装置にある。
 本技術において、受信部により、複数のビューストリームが多重化された多重化ストリームが受信される。そして、デコード部により、多重化ストリーム内の複数のビューストリームがデコードされる。ここで、複数のビューストリームには、表示周期を細分化した間隔でデコードタイムスタンプが割り当てられている。そして、デコード部では、複数のビューストリームが、各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードされる。
 このように本技術においては、複数のビューストリームが、各ビューストリームに割り当てられている、表示周期を細分化した間隔のデコードタイムスタンプに基づいて順次デコードされる。そのため、デコード処理を破綻なくスムーズに行うことが可能となる。
 なお、本技術において、例えば、受信部は、多重化ストリームを含む所定フォーマットのコンテナを受信し、コンテナのレイヤには、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入されており、デコード部は、割り当て情報が存在するとき、複数のビューストリームを、各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする、ようにされてもよい。この場合、割り当て情報に基づいて、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移行することとなる。
 本技術によれば、マルチビュー・サービスのための複数のビューストリームの伝送を良好に行うことができる。
実施の形態としての画像送受信システムの構成例を示すブロック図である。 トランスポートストリームTSに含まれるビューストリームの一例を示す図である。 トランスポートストリームTSに中央(Center)、左端(Left)および右端(Right)の3つのビューストリームが含まれる場合を示す図である。 トランスポートストリームTSに中央(Center)、左端(Left)および右端(Right)の3つのビューストリームと共に、1つの視差データストリームが追加のビューストリームとして含まれる場合を示す図である。 トランスポートストリームTSに左眼(Left)および右眼(Right)の2つのビューストリームが含まれる場合を示す図である。 各表示タイミングで表示される各ビューのピクチャと、そのデータ(PESパケット)の多重化ストリーム内における配置位置、さらには、各PESパケットのヘッダへのDTS,PTSの挿入例を示す図である。 多重化ストリームを受信した際の、各ビューのピクチャデータ(PESパケット)のデコードタイミングと、各ビューのピクチャの表示タイミングの一例を示す図である。 送信側(放送局100)における多重化エンコードの回路例を示す図である。 1-pidの場合におけるエレメンタリストリームの構成例を示す図である。 多重化エンコードの回路例に対応した、受信側(受信機200)における多重化デコードの回路例を示す図である。 送信側(放送局100)における多重化エンコードの回路例を示す図である。 2-pidの場合における2つのエレメンタリストリームの構成例を示す図である。 多重化エンコードの回路例に対応した、受信側(受信機200)における多重化デコードの回路例を示す図である。 複数のビューストリームを含むエレメンタリストリームの一例を示す図である。 1つのエレメンタリストリームに3つのビューストリームが含まれる場合の例を示す図である。 割り当て情報としてのマルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)の構造例(Syntax)を示す図である。 マルチプル・ストリーム・デスクリプタの構造例における主要な情報の内容(Semantics)を示す図である。 トランスポートストリームTSの構成例を示す図である。 トランスポートストリームTSの他の構成例を示す図である。 トランスポートストリームTSのさらに他の構成例を示す図である。 送信データ生成部110の構成例を示すブロック図である。 受信機200の構成例を示すブロック図である。 送信データ生成部110Aの構成例を示すブロック図である。 受信機200Aの構成例を示すブロック図である。 送信データ生成部110Bの構成例を示すブロック図である。 受信機200Bの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [画像送受信システム]
 図1は、実施の形態としての画像送受信システム10の構成例を示している。この画像送受信システム10は、放送局100および受信機200により構成されている。放送局100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。
 このトランスポートストリームTSには、マルチビュー・サービスのための複数のビューストリームが多重化された多重化ストリームが含まれる。上述したように、マルチビュー・サービスには、立体画像表示サービスの他に、マルチアングルビューの同時表示サービス、ユーザに応じたビューの提供サービスなどもあるが、ここでは、立体画像表示サービスの例とする。
 図2は、トランスポートストリームTSに含まれるビューストリームの一例を示している。図示の例では、各ビューのピクチャデータは、1920*1080のフルHDのサイズとされている。
 図2(a)は、裸眼で立体視が可能な多視点立体画像表示のサービスにおける例である。この場合、トランスポートストリームTSに、例えば、中央(Center)のビュー、左端(Left)のビューおよび右端(Right)のビューの画像データが符号化されて得られたビューストリーム(ビデオストリーム)が含まれる。この場合、中央(Center)、左端(Left)および右端(Right)のビューストリームの間には参照関係(依存関係)がある。
 図2(b)も、裸眼で立体視が可能な多視点立体画像表示のサービスにおける例である。この場合、中央(Center)、左端(Left)および右端(Right)のビューストリームの他に、視差データ(Disparity data)のストリームが含まれる。この視差データストリームは、追加のビューストリームとして含まれる。この場合、中央(Center)、左端(Left)および右端(Right)のビューストリーム、さらには視差データストリームの間には参照関係(依存関係)がある。なお、視差データの代わりに、この視差データに対応した奥行きデータ(Depth data)であってもよい。
 図2(c)は、シャッタメガネなどの特殊なメガネの装着が必要なステレオ立体画像表示における例である。この場合、左眼(Left)のビューおよび右眼(Right)のビューの画像データが符号化されて得られたビューストリーム(ビデオストリーム)が含まれる。この場合、左眼(Left)および右眼(Right)のビューストリームの間には参照関係(依存関係)がある。
 トランスポートストリームTSに含まれる各ビューストリームには、表示周期を細分化した間隔でデコードタイムスタンプ(DTS:Decoding Time Stamp)が割り当てられる。図3は、トランスポートストリームTSに中央(Center)、左端(Left)および右端(Right)の3つのビューストリームが含まれる場合を示している。図3(a)は、各表示タイミングで表示される各ビューのピクチャを示している。ここで、P1-1,P2-1,P3-1はあるタイミングで表示される各ビューのピクチャを示し、P1-2,P2-2,P3-2はその次のタイミングで表示される各ビューのピクチャを示している。
 図3(b)に示すように、ビュー1(例えば、Left)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプがDTS(view1)であるとき、ビュー2(例えば、Right)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプDTS(view2)は、DTS(view1)に固定値のオフセット((1/3)*F)が付加されたものとなる。同様に、ビュー3(例えば、Center)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプDTS(view3)は、DTS(view2)に固定値のオフセット((1/3)*F)が付加されたものとなる。ここで、Fは、ピクチャの表示周期を表している。
 ここで、一般定式化すると、ビューの総数をN、ビューの順番をK、表示周期をFとするとき、DTS(view (K+1))は、DTS(view K)を用いて、以下の(1)式のように表すことができる。この関係は、後述する図4、図5の例においても同様である。
   DTS(view (K+1)) =DTS(view K) + (1/3)*F   ・・・(1)
 図4は、トランスポートストリームTSに中央(Center)、左端(Left)および右端(Right)の3つのビューストリームと共に、1つの視差データストリームが追加のビューストリームとして含まれる場合を示している。図4(a)は、各表示タイミングで表示される各ビューのピクチャを示している。ここで、P1-1,P2-1,P3-1,P4-1はあるタイミングで表示される各ビューのピクチャを示し、P1-2,P2-2,P3-2,P4-2はその次のタイミングで表示される各ビューのピクチャを示している。
 図4(b)に示すように、ビュー1(例えば、Left)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプがDTS(view1)であるとき、ビュー2(例えば、Right)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプDTS(view2)は、DTS(view1)に固定値のオフセット((1/4)*F)が付加されたものとなる。
 同様に、ビュー3(例えば、Center)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプDTS(view3)は、DTS(view2)に固定値のオフセット((1/4)*F)が付加されたものとなる。さらに、視差データを含むPESパケットに割り当てられるデコードタイムスタンプDTS(Disparity)は、DTS(view3)に固定値のオフセット((1/4)*F)が付加されたものとなる。
 図5は、トランスポートストリームTSに左眼(Left)および右眼(Right)の2つのビューストリームが含まれる場合を示している。図5(a)は、各表示タイミングで表示される各ビューのピクチャを示している。ここで、P1-1,P2-1はあるタイミングで表示される各ビューのピクチャを示し、P1-2,P2-2はその次のタイミングで表示される各ビューのピクチャを示している。
 図5(b)に示すように、ビュー1(例えば、Left)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプがDTS(view1)であるとき、ビュー2(例えば、Right)のピクチャデータを含むPESパケットに割り当てられるデコードタイムスタンプDTS(view2)は、DTS(view1)に固定値のオフセット((1/2)*F)が付加されたものとなる。
 図6は、各表示タイミングで表示される各ビューのピクチャと、そのデータ(PESパケット)の多重化ストリーム内における配置位置、さらには、各PESパケットのヘッダへのDTS,PTSの挿入例を示している。なお、図示の例は、トランスポートストリームTSに中央(Center)、左端(Left)および右端(Right)の3つのビューストリームが含まれる場合を示している。
 最初に、図示のように、エンコーダ側のクロックをデコーダ側に伝えるためのPCRが付される。なお、PCRのデータは、PESのデータとは、別個に送信されることもある。多重化ストリーム内には、P1-1,P2-1,P3-1,P1-2,P2-2,P3-2,・・・のピクチャ順にデータ(PESパケット)配置される。
 この場合、P1-1,P2-1,P3-1のピクチャは同じ表示タイミングで表示されるものであり、それらのデータが含まれるPESパケットのヘッダには同一の表示タイムスタンプPTS1が挿入される。ただし、デコードタイムスタンプに関しては、DTS1,DTS2,DTS3という異なるタイムスタンプが挿入される。詳細説明は省略するが、P1-2,P2-2,P3-2 移行のピクチャに関しても同様である。
 トランスポートストリームTSのレイヤ、つまりコンテナのレイヤに、上述したように、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入される。この割り当て情報は、例えば、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)のビデオエレメンタリ・ループ(Video ES loop)の配下などに挿入される。この割り当て情報により、受信側では、この割り当て情報に基づいて、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識することが可能となる。この割り当て情報の詳細については後述する。
 図1に戻って、受信機200は、放送局100から放送波に載せて送られてくるトランスポートストリームTSを受信する。また、受信機200は、このトランスポートストリームTSに含まれる各ビューストリームをデコードして、各ビューのピクチャデータを順次取得し、立体画像表示(多視点立体画像表示あるいはステレオ立体画像表示)のために用いる。
 上述したように、各ビューストリームには、表示周期を細分化した間隔でデコードタイムスタンプが割り当てられている。そのため、受信機200では、各ビューストリームを、各ビューストリームに割り当てられているデコードタイムスタンプに基づいて、順次デコードする。
 上述したように、トランスポートストリームTSのレイヤに、割り当て情報が挿入される。受信機200では、この割り当て情報に基づいて、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識できる。これにより、受信機200では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 図7は、図6に示す多重化ストリームを受信した際の、各ビューのピクチャデータ(PESパケット)のデコードタイミングと、各ビューのピクチャの表示タイミングの一例を示している。図示のように、PCRが付されている場合には、このPCRに基づいて、デコーダクロックがセットされる。
 多重化ストリーム内には、P1-1,P2-1,P3-1,P1-2,P2-2,P3-2,・・・のピクチャ順にデータ(PESパケット)が配置されている。P1-1,P2-1,P3-1のピクチャに関しては、それぞれ、PESヘッドに挿入されているデコードタイムスタンプDTS1,DTS2,DTS3のタイミングで順にそのデータのデコードが行われる。そして、PESヘッドの挿入されている表示タイムスタンプPTS1のタイミングで同時表示される。詳細説明は省略するが、P1-2,P2-2,P3-2 移行のピクチャに関しても同様である。
 多重化ストリームは、複数のビューストリームを含むエレメンタリストリームおよび単一のビューストリームを含むエレメンタリストリームのいずれか一方、あるいは双方を含むものとされる。つまり、多重化ストリームは、複数のビューストリームを含むエレメンタリストリームを有することができる。
 図8は、送信側(放送局100)における多重化エンコードの回路例を示している。この例は、多重化ストリームが有する1つのエレメンタリストリームに、ビュー1およびビュー2の2つのビューストリームが含まれる、いわゆる1-pidの場合の例である。
 ビュー1の画像データV1はエンコーダ11-1でエンコードされ、符号化後のビデオストリームは、cpb(coded picture buffer)バッファ12に一時的に記憶される。また、ビュー2の画像データV2はエンコーダ11-2でエンコードされ、符号化後のビデオストリームは、cpbバッファ12に一時的に記憶される。
 cpbバッファ12は、ビデオに関してのデコード側のバッファリングを規定するためのエンコード側のバッファである。このcpbバッファ12で発生したビット量が、デコード側のバッファで破綻しないように、管理される。このcpbバッファ12に入力された2つのビデオストリームは、このcpbバッファ12から1つのエレメンタリストリームとして出て行く。この1つのエレメンタリストリームは、コンテナバッファ14に一時的に記憶され、その後に、マルチプレクサ13により多重化ストリームに含まれて送信される。
 図9は、上述の1-pidの場合におけるエレメンタリストリームの構成例を示している。この1つのエレメンタリストリームには、ビュー1およびビュー2の2つのビューストリームが含まれる。この場合、各ビューのピクチャはそれぞれアクセスユニットになり、そのピクチャデータをペイロード部分に持つPESパケットが順次連続したものとなる。この場合、DTS2=DTS1+ (1/2)*Fとすることで、多重化のバッファに入るアクセスユニット(Access Unit)タイミングがエンコーダ側のクロックを止めずに多重化処理を行うことが可能になる。
 図10は、図8の多重化エンコードの回路例に対応した、受信側(受信機200)における多重化デコードの回路例を示している。送信側から送られてきた多重化ストリームは、コンテナバッファ22に一時的に記憶され、その後に、デマルチプレクサ21により1つのエレメンタリストリームが抽出され、cpb(coded picture buffer)バッファ23に一時的に記憶される。
 cpbバッファ23に記憶されている1つのエレメンタリストリームのうち、ビュー1のピクチャデータ(アクセスユニット)は対応するDTSのタイミングによりデコーダ24-1でデコードされる。そして、ビュー1の画像データV1が得られ、一時的にdpb(decoded picture buffer)バッファ25-1に記憶される。
 また、cpbバッファ23に記憶されている1つのエレメンタリストリームのうち、ビュー2のピクチャデータ(アクセスユニット)は対応するDTSのタイミングによりデコーダ24-2でデコードされる。そして、ビュー2の画像データV2が得られ、一時的にdpbバッファ25-2に記憶される。レンダリング部26-1,26-2により、PTSのタイミングで、画像データV1,V2による表示が行われる。
 図11は、送信側(放送局100)における多重化エンコードの回路例を示している。この例は、多重化ストリームが有する2つのエレメンタリストリームに、それぞれ、ビュー1、ビュー2のビューストリームが含まれる、いわゆる2-pidの場合の例である。
 ビュー1の画像データV1はエンコーダ11-1でエンコードされ、符号化後のビデオストリームは、cpb(coded picture buffer)バッファ12-1に一時的に記憶される。また、ビュー2の画像データV2はエンコーダ11-2でエンコードされ、符号化後のビデオストリームは、cpbバッファ12-2に一時的に記憶される。
 cpbバッファ12-1,12-2は、ビデオに関してのデコード側のバッファリングを規定するためのエンコード側のバッファである。このcpbバッファ12-1,12-2で発生したビット量が、デコード側のバッファで破綻しないように、管理される。このcpbバッファ12-1,12-2にそれぞれ入力されたビデオストリームは、このcpbバッファ12-1,12-2からそれぞれ1つのエレメンタリストリームとして出て行く。この2つのエレメンタリストリームは、コンテナバッファ14に一時的に記憶され、その後に、マルチプレクサ13により多重化ストリームに含まれて送信される。
 図12は、上述の2-pidの場合における2つのエレメンタリストリームの構成例を示している。第1のエレメンタリストリームには、ビュー1のビューストリームが含まれる。この場合、ビュー1のピクチャはアクセスユニットになり、そのピクチャデータをペイロード部分に持つPESパケットが存在するものとなる。第2のエレメンタリストリームには、ビュー2のビューストリームが含まれる。この場合、ビュー2のピクチャはアクセスユニットになり、そのピクチャデータをペイロード部分に持つPESパケットが存在するものとなる
 この場合、DTS2=DTS1 + (1/2)*Fとすることで、多重化のバッファに入るアクセスユニット(Access Unit)タイミングがエンコーダ側のクロックを止めずに多重化処理を行うことが可能になる。ストリームタイプ(Stream_type)で、2つのPESパケットの関連が記載される。
 図13は、図11の多重化エンコードの回路例に対応した、受信側(受信機200)における多重化デコードの回路例を示している。送信側から送られてきた多重化ストリームは、コンテナバッファ22に一時的に記憶され、その後に、デマルチプレクサ21により第1、第2のエレメンタリストリームが抽出され、それぞれ、cpb(coded picture buffer)バッファ23-1,23-2に一時的に記憶される。
 cpbバッファ23-1に記憶されているエレメンタリストリームに含まれるビュー1のピクチャデータ(アクセスユニット)は、対応するDTSのタイミングによりデコーダ24-1でデコードされる。そして、ビュー1の画像データV1が得られ、一時的にdpb(decodedpicture buffer)バッファ25-1に記憶される。
 また、cpbバッファ23-2に記憶されているエレメンタリストリームに含まれるビュー1のピクチャデータ(アクセスユニット)は、対応するDTSのタイミングによりデコーダ24-2でデコードされる。そして、ビュー2の画像データV2が得られ、一時的にdpb(decoded picture buffer)バッファ25-3に記憶される。レンダダリング部26-1,26-2により、PTSのタイミングで、画像データV1,V2による表示が行われる。
 図14(a),(b)は、複数のビューストリームを含むエレメンタリストリームの一例を示している。各アクセスユニットに、各ビューのピクチャの符号化データが順次配置される。この場合、最初のピクチャの符号化データは、“SPS ~ Coded Slice”で構成され、2番目以降のピクチャの符号化データは、“Subset SPS ~ Coded Slice”で構成される。なお、この例は、MPEG4-AVCの符号化がされている例であるが、他の符号化方式でも適用可能である。なお、図中の16進数字は「 NAL unit type 」を示している。
 1つのエレメンタリストリームに複数のビューストリームが含まれる場合、各ビューストリームの境界が瞬時に識別可能なことが要求される。そこで、図14(b)に示すように、各ピクチャの符号化データの間に、「View Separation Marker」というビュー間境界を示す新たな“NALunit”を定義して配置することが考えられる。これにより、各ビューストリームの先頭データに瞬時にアクセスすることが可能となる。なお、図14(a)は、各ビューストリームの間に、「View Separation Marker」が配置されていない例を示している。
 図15(a),(b)は、1つのエレメンタリストリームに3つのビューストリームが含まれる場合の例を示している。ここでは、各ビューのピクチャの符号化データをサブストリーム(sub stream)として示している。図15(a)は、ランダムアクセス時の先頭アクセスユニットを示しており、図15(b)は、ランダムアクセス時の非先頭アクセスユニットを示している。
 [割り当て情報の構造と、TS構成]
 上述したように、トランスポートストリームTSのレイヤに、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入される。図16は、この割り当て情報としてのマルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)の構造例(Syntax)を示している。また、図17は、図16に示す構造例における主要な情報の内容(Semantics)を示している。
 「multiple_stream_tag」は、デスクリプタタイプを示す8ビットのデータであり、ここでは、マルチプル・ストリーム・デスクリプタであることを示す。「multiple_stream_length」は、デスクリプタの長さ(サイズ)を示す8ビットのデータである。このデータは、デスクリプタの長さとして、以降のバイト数を示す。
 「multiple_stream_flag」の1ビットフィールドは、該当するストリームが複数のビューのストリームを持つか否かを示す。“1”は、複数のビューストリームがあることを示しし、“0”は、複数のビューストリームがないことを示す。「multiple_stream_flag = 1」のとき、「view ordering」および「1st_view_left」などの情報がさらに存在する。「view ordering」の4ビットフィールドは、表示の基準となる、ビューの最初を“1”とし、1~15までの値をとる。
 「1st_view_left」の1ビットフィールドは、「view_ordering」の“1”が「left」か「right」かを示す。“1”は、view_ordering(1)は「left」であることを示し、他のビューの場合、view_ordering順にrightへ近づく。“0”は、view_ordering(1)は「right」であることを示し、他のビューの場合、view_ordering順にleftに近づく。
 図18は、トランスポートストリームTSの構成例を示している。なお、この構成例では、図面の簡単化のために、オーディオなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSが、複数のビューストリームを含む1つのエレメンタリストリームを有する場合を示している。この図18の構成例では、1つのエレメンタリストリームのPESパケット「video PES1」が含まれている。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ(Video ES loop)が存在する。このエレメンタリ・ループには、ストリーム毎に、パケット識別子(PID)等の情報が配置されると共に、そのエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。
 この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、各ビデオストリームに関連して、マルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)が挿入されている。このデスクリプタで「multiple_stream_flag = 1」とされ、該当するストリームが複数のビューストリームを持つことが示されている。
 図19は、トランスポートストリームTSの他の構成例を示している。なお、この構成例では、図面の簡単化のために、オーディオなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSが、1つのビューストリームを含む2つのエレメンタリストリームを有する場合を示している。この図19の構成例では、2つのエレメンタリストリームのPESパケット「video PES1」、「video PES2」が含まれている。
 また、この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、各エレメンタリストリームに関連して、マルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)が挿入されている。PESパケット「videoPES1」に対応したデスクリプタでは、「multiple_stream_flag = 0」とされ、該当するストリームが複数のビューストリームを持っていないことが示されている。また、このデスククリプタでは、「view_ordering = 1」とされ、表示の基準となるビューであることが示されている。
 また、PESパケット「video PES2」に対応したデスクリプタでは、「multiple_stream_flag= 0」とされ、該当するストリームが複数のビューストリームを持っていないことが示されている。また、このデスククリプタでは、「view_ordering = 2」とされ、表示の基準となるビューに隣接した2番目のビューであることが示されている。
 図20は、トランスポートストリームTSのさらに他の構成例を示している。なお、この構成例では、図面の簡単化のために、オーディオなどに関しては、その図示を省略している。この構成例は、トランスポートストリームTSが、1つのビューストリームを含む3つのエレメンタリストリームを有する場合を示している。この図20の構成例では、3つのエレメンタリストリームのPESパケット「video PES1」、「video PES2」、「video PES3」が含まれている。
 また、この構成例では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、各エレメンタリストリームに関連して、マルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)が挿入されている。PESパケット「video PES1」に対応したデスクリプタでは、「multiple_stream_flag = 0」とされ、該当するストリームが複数のビューストリームを持っていないことが示されている。また、このデスククリプタでは、「view_ordering = 1」とされ、表示の基準となるビューであることが示されている。
 また、PESパケット「video PES2」に対応したデスクリプタでは、「multiple_stream_flag= 0」とされ、該当するストリームが複数のビューストリームを持っていないことが示されている。また、このデスククリプタでは、「view_ordering = 2」とされ、表示の基準となるビューに隣接した2番目のビューであることが示されている。また、PESパケット「video PES3」に対応したデスクリプタでは、「multiple_stream_flag= 0」とされ、該当するストリームが複数のビューストリームを持っていないことが示されている。また、このデスククリプタでは、「view_ordering = 3」とされ、2番目のビューに隣接した3番目のビューであることが示されている。
 [送信データ生成部、受信機の構成例]
 放送局100における送信データ生成部110と、受信機200の構成例について説明する。
 「送信データ生成部の構成例」
 図21は、送信データ生成部110の構成例を示している。この送信データ生成部110は、N個の画像データ出力部111-1~111-Nと、ビューセレクタ112と、スケーラ113-1,113-2,113-3と、ビデオエンコーダ114-1,114-2,114-3と、マルチプレクサ115と、コンテナバッファ120を有している。また、この送信データ生成部110は、視差データ生成部116と、視差エンコーダ117と、音声データ出力部118と、オーディオエンコーダ119を有している。
 画像データ出力部111-1~111-Nは、多視点立体画像表示のためのN個のビュー(View 1・・・View N)の画像データを出力する。この画像データ出力部は、例えば、被写体を撮像して画像データを出力するカメラ、あるいはストレージ(記憶媒体)から画像データを読み出して出力する画像データ読み出し部などにより構成される。なお、伝送されないビューの画像データは、実際にはなくてもよい。
 また、ビューセレクタ112は、N個のビュー(View 1・・・View N)の画像データから、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビュー(1つまたは2つ以上)の画像データを選択的に取り出す。この実施の形態において、ビューセレクタ112は、左端のビューの画像データVLおよび右端のビューの画像データVRを取り出すと共に、中央のビューの画像データVCを取り出す。
 また、スケーラ113-1,113-2,113-3は、それぞれ、画像データVC,VL,VRに対してスケーリング処理を施して、例えば、1920*1080のフルHDのサイズの画像データVC′,VL′,VR′を得る。この場合、画像データVC,VL,VRが1920*1080のフルHDのサイズであるときは、そのまま出力する。また、画像データVC,VL,VRが1920*1080のサイズより大きいときは、スケールダウンして出力する。
 ビデオエンコーダ114-1は、中央のビューの画像データVC′に対して、例えば、MPEG4-AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-1は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データを含むビューストリームを生成する。
 また、ビデオエンコーダ114-2は、左端のビューの画像データVL′に対して、例えば、MPEG4-AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-2は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データを含むビューストリームを生成する。
 さらに、ビデオエンコーダ114-3は、右端のビューの画像データVR′に対して、例えば、MPEG4-AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-3は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データを含むビューストリームを生成する。
 視差データ生成部116は、ビューセレクタ112から出力される中央、左端および右端の各ビューの画像データに基づいて、視差データ(Disparity data)を生成する。この視差データには、例えば、中央のビューおよび左端のビューの間の視差データと、中央のビューおよび右端のビューの間の視差データが含まれている。この場合、画素単位、あるいはブロック(Block)単位で、視差データが生成される。
 視差エンコーダ117は、視差データ生成部116で生成された視差データに符号化を施して視差データストリームを生成する。この視差データストリームには、画素単位、またはブロック単位の視差データが含まれることとなる。視差データが画素単位である場合には、画素データと同様に、圧縮符号化して伝送できる。
 なお、この視差データストリームにブロック単位の視差データが含まれる場合には、受信側で、上述した変換処理を行うことで、画素単位に変換することも可能である。また、このような視差データストリームの送信がない場合、受信側で、上述したように各ビュー間におけるブロック単位の視差データを求め、さらに画素単位に変換することが可能である。
 音声データ出力部118は、画像データに対応した音声データを出力する。この音声データ出力部118は、例えば、マイクロホン、あるいは記憶媒体から音声データを読み出して出力する音声データ読み出し部などにより構成される。オーディオエンコーダ119は、音声データ出力部118から出力される音声データに対して、MPEG-2Audio、AAC等の符号化を施し、オーディオストリームを生成する。
 コンテナバッファ120は、エンコード後の各ストリームを一時的に記憶する。マルチプレクサ115は、ビデオエンコーダ114-1,114-2,114-3、視差データエンコーダ117およびオーディオエンコーダ119で生成された各ストリームをパケット化して多重し、多重化ストリームを生成する。この場合、それぞれのPES(Packetized Elementary Stream)のヘッダには、受信側における同期再生のために、DTS(Decoding Time Stamp)、PTS(Presentation Time Stamp)が挿入される。
 マルチプレクサ115は、トランスポートストリームTSのレイヤに、割り当て情報としてのマルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)(図16参照)を挿入する。このデスクリプタは、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す情報を持っている。このデスクリプタは、例えば、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)の配下などに挿入される。
 図21に示す送信データ生成部110の動作を簡単に説明する。N個の画像データ出力部111-1~111-Nから出力される多視点立体画像表示のためのN個のビュー(View 1・・・View N)の画像データは、ビューセレクタ112に供給される。ビューセレクタ112では、N個のビューの画像データから、中央のビューの画像データVC、左端のビューの画像データVLおよび右端のビューの画像データVRが取り出される。
 ビューセレクタ112で取り出された中央のビューの画像データVCはスケーラ113-1に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVC′は、ビデオエンコーダ114-1に供給される。ビデオエンコーダ114-1では、この画像データVC′に対して符号化が施されて符号化ビデオデータが得られ、この符号化ビデオデータを含むビューストリームが得られる。このビューストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 また、ビューセレクタ112で取り出された左端のビューの画像データVLはスケーラ113-2に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVL′は、ビデオエンコーダ114-2に供給される。ビデオエンコーダ114-2では、この画像データVL′に対して符号化が施されて符号化ビデオデータが得られ、この符号化ビデオデータ含むビューストリームが生成される。このビューストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 さらに、ビューセレクタ112で取り出された右端のビューの画像データVRはスケーラ113-3に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。スケーリング処理後の画像データVR′は、ビデオエンコーダ114-3に供給される。ビデオエンコーダ114-3では、この画像データVR′に対して符号化が施されて符号化ビデオデータが得られ、この符号化ビデオデータを含むビューストリームが生成される。このビューストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 また、ビューセレクタ112から出力される中央、左端および右端の各ビューの画像データは視差データ生成部116に供給される。この視差データ生成部116では、各ビューの画像データに基づいて、視差データ(Disparity data)が生成される。この視差データには、中央のビューおよび左端のビューの間の視差データと、中央のビューおよび右端のビューの間の視差データが含まれる。この場合、画素単位、あるいはブロック(Block)単位で、視差データが生成される。
 視差データ生成部116で生成された視差データは、視差エンコーダ117に供給される。この視差エンコーダ117では、視差データに符号化処理が施されて、視差データストリームが生成される。この視差データストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 また、音声データ出力部118から出力される音声データは、オーディオエンコーダ119に供給される。このオーディオエンコーダ119では、音声データに対して、MPEG-2Audio、AAC等の符号化が施され、オーディオストリームが生成される。このオーディオストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 マルチプレクサ115では、コンテナバッファ120に記憶されている各エンコーダからのストリームがパケット化されて多重され、トランスポートストリームTSが生成される。この場合、それぞれのPESヘッダには、受信側における同期再生のために、DTS、PTSが挿入される。また、マルチプレクサ115では、PMTの配下などに、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報であるマルチプル・ストリーム・デスクリプタが挿入される。
 「受信機の構成例」
 図22は、上述の図21に示す送信データ生成部110に対応した受信機200の構成例を示している。この受信機200は、コンテナバッファ213と、デマルチプレクサ214と、コーデッドバッファ215-1,215-2,215-3と、ビデオデコーダ216-1,216-2,216-3と、デコーデッドバッファ217-1,217-2,217-3と、スケーラ218-1,218-2,218-3を有している。
 また、受信機200は、ビュー補間部219と、ピクセルインターリーバ220を有している。また、受信機200は、コーデッドバッファ221と、視差デコーダ222と、視差バッファ223と、視差データ変換部224を有している。また、受信機200は、コーデッドバッファ225と、オーディオデコーダ226と、チャネルミキシング部227を有している。
 コンテナバッファ213は、デジタルチューナ等で受信されたトランスポートストリームTSを一時的に記憶する。このトランスポートストリームTSには、多視点立体画像表示のための複数のビューのうち、少なくとも左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューとしての中央のビューの画像データとが符号化されて得られたビューストリームが含まれている。
 このトランスポートストリームTSには、上述したように、PMTの配下などに、割り当て情報であるマルチプル・ストリーム・デスクリプタが挿入されている。このデスクリプタは、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す。
 デマルチプレクサ214は、コンテナバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオ、視差およびオーディオの各ストリームを抽出する。また、デマルチプレクサ214は、このトランスポートストリームTSから、上述のマルチプル・ストリーム・デスクリプタを抽出し、図示しない制御部(CPU)に送る。
 制御部は、このデスクリプタにより、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識できる。これにより、受信機200では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 コーデッドバッファ215-1,215-2,215-3は、それぞれ、デマルチプレクサ214で抽出される中央、左端および右端の各ビューのビューストリームを一時的に記憶する。ビデオデコーダ216-1,216-2,216-3は、それぞれ、コーデッドバッファ215-1,215-2,215-3に記憶されているビューストリームにデコード処理を行って、中央、左端および右端の各ビューの画像データを取得する。
 上述のデマルチプレクサ214は、各ビューのビューストリーム(視差データストリームも含む)に割り当てられているDTS,PTSを抽出する。コーデッドバッファ215-1,215-2,215-3からの各ビューのビューストリームの取り出しは、それぞれ、対応するDTSのタイミングで行われる。したがって、各ビューのビューストリームに対するデコード処理は、それぞれ、対応するDTSのタイミングで開始される。
 ここで、ビデオデコーダ216-1は、中央ビュー(center view)の画像データを取得する。また、ビデオデコーダ216-2は、左端ビュー(left view)の画像データを取得する。さらに、ビデオデコーダ216-3は、右端ビュー(right view)の画像データを取得する。
 デコーデッドバッファ217-1,217-2,217-3は、それぞれ、ビデオデコーダ216-1,216-2,216-3で取得された各ビューの画像データを一時的に記憶する。スケーラ218-1,218-2,218-3は、それぞれ、デコーデッドバッファ217-1,217-2,217-3から出力される各ビューの画像データの出力解像度が、所定の解像度となるように調整する。
 コーデッドバッファ221は、デマルチプレクサ214で抽出される視差データストリームを一時的に記憶する。視差デコーダ222は、上述の送信データ生成部110の視差エンコーダ117(図21参照)とは逆の処理を行う。すなわち、視差デコーダ222は、コーデッドバッファ221に記憶されている視差データストリームのデコード処理を行って、視差データを得る。
 この視差データには、中央ビューと左端ビューとの間の視差データと、中央ビューと右端ビューとの間の視差データが含まれている。また、この視差データは、画素単位、あるいはブロック単位の視差データである。視差バッファ223は、視差デコーダ222で取得された視差データを一時的に記憶する。
 ここで、コーデッドバッファ221からの視差データストリームの取り出しは、デマルチプレクサ214で抽出された対応するDTSのタイミングで行われる。したがって、視差データストリームに対するデコード処理は、対応するDTSのタイミングで開始される。
 視差データ変換部224は、視差バッファ223に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データを生成する。例えば、生成された視差データがブロック単位である場合には、画素単位の視差データに変換する。また、例えば、生成された視差データが画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。
 ビュー補間部219は、スケーリング後の中央、左端および右端の各ビューの画像データから、視差データ変換部224で得られた各ビュー間の視差データに基づいて、伝送されてこない所定数のビューの画像データを補間合成する。すなわち、ビュー補間部219は、中央ビューと左端ビューとの間に位置する各ビューの画像データを補間合成して出力する。また、ビュー補間部219は、中央ビューと右端ビューとの間に位置する各ビューの画像データを補間合成して出力する。
 ピクセルインターリーバ220は、ビュー補間部219から出力されるN個のビュー(View1, View2,・・・,ViewN )の画像データに対してピクセルインターリーブ処理を行って、3次元画像(立体画像)の裸眼観賞のための表示用画像データを生成する。
 コーデッドバッファ225は、デマルチプレクサ214で抽出されるオーディオストリームを一時的に記憶する。オーディオデコーダ226は、上述の送信データ生成部110のオーディオエンコーダ119(図21参照)とは逆の処理を行う。すなわち、オーディオデコーダ226は、コーデッドバッファ225に記憶されているオーディオストリームの復号化処理を行って、復号化された音声データを得る。チャネルミキシング部227は、オーディオデコーダ226で得られる音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データを生成して出力する。
 なお、デコーデッドバッファ217-1,217-2,217-3からの各ビューの画像データの読み出しと、視差バッファ223からの視差データの読み出しとは、PTSに基づいて行われ、転送同期が取られる。
 受信機200の動作を簡単に説明する。デジタルチューナ等で受信されたトランスポートストリームTSは、コンテナバッファ213に一時的に記憶される。このトランスポートストリームTSには、多視点立体画像表示のための複数のビューのうち、左端のビューおよび右端のビューの画像データと、左端および右端の間に位置する中間のビューとしての中央のビューの画像データとが符号化されて得られたビューストリームが含まれている。
 デマルチプレクサ214では、コンテナバッファ213に一時的に記憶されたトランスポートストリームTSから、ビデオ、視差およびオーディオの各ストリームが抽出される。また、デマルチプレクサ214では、このトランスポートストリームTSから、割り当て情報としてのマルチプル・ストリーム・デスクリプタが抽出され、制御部(CPU)に送られる。制御部では、このデスクリプタにより、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることが認識される。制御部では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 デマルチプレクサ214で抽出される中央、左端および右端の各ビューのビューストリームは、それぞれ、コーデッドバッファ215-1,215-2,215-3に供給されて一時的に記憶される。そして、ビデオデコーダ216-1,216-2,216-3では、それぞれ、コーデッドバッファ215-1,215-2,215-3に記憶されているビューストリームの復号化処理が行われて、中央、左端および右端の各ビューの画像データが取得される。
 ビデオデコーダ216-1,216-2,216-3で取得された各ビューの画像データは、それぞれ、デコーデッドバッファ217-1,217-2,217-3に供給されて一時的に記憶される。スケーラ218-1,218-2,218-3では、それぞれ、デコーデッドバッファ217-1,217-2,217-3から出力される各ビューの画像データの出力解像度が所定の解像度となるように調整される。
 また、デマルチプレクサ214で抽出される視差データストリームは、コーデッドバッファ221に供給されて一時的に記憶される。視差デコーダ222では、コーデッドバッファ221に記憶されている視差データストリームのデコード処理が行われて、視差データが得られる。この視差データには、中央ビューと左端ビューとの間の視差データと、中央ビューと右端ビューとの間の視差データが含まれている。また、この視差データは、画素単位、あるいはブロック単位の視差データである。
 視差デコーダ222で取得された視差データは、視差バッファ223に供給されて一時的に記憶される。視差データ変換部224は、視差バッファ223に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データが生成される。この場合、生成された視差データがブロック単位である場合には、画素単位の視差データに変換される。また、この場合、生成された視差データが画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。
 ビュー補間部219では、スケーリング後の中央、左端および右端の各ビューの画像データから、視差データ変換部224で得られた各ビュー間の視差データに基づいて、伝送されてこない所定数のビューの画像データが補間合成される。このビュー補間部219からは、3次元画像(立体画像)を裸眼観賞するためのN個のビュー(View1, View2,・・・,ViewN )の画像データが得られる。なお、中央、左端および右端の各ビューの画像データも含まれる。
 ピクセルインターリーバ220では、N個のビュー(View1, View2,・・・,ViewN )の画像データに対してピクセルインターリーブ処理が行われて、3次元画像(立体画像)の裸眼観賞のための表示用画像データが生成される。この表示用画像データがディスプレイに供給されることで、3次元画像(立体画像)の裸眼観賞のための、画像表示が行われる。
 また、デマルチプレクサ214で抽出されるオーディオストリームは、コーデッドバッファ225に供給されて一時的に記憶される。オーディオデコーダ226では、コーデッドバッファ225に記憶されているオーディオスストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部227に供給される。チャネルミキシング部227では、音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。
 [送信データ生成部、受信機の他の構成例]
 上述の図21に示す送信データ生成部110および図22に示す受信機200は、トランスポートストリームTSに視差データが符号化されて得られた視差データストリームが含まれる場合の構成例である。トランスポートストリームTSに視差データストリームが含まれない場合も考えられる。
 図23は、その場合における送信データ生成部110Aの構成例を示している。この図23において、図21と対応する部分には同一符号を付し、その詳細説明は省略する。この送信データ生成部110Aは、図21に示す送信データ生成部110における視差データ生成部116および視差エンコーダ117が除かれた構成となる。この場合、マルチプレクサ115は、ビデオエンコーダ114-1,114-2,114-3およびオーディオエンコーダ119で生成された各ストリームをパケット化して多重し、多重化ストリームを生成する。この図23に示す送信データ生成部110Aにおけるその他の構成は、図21に示す送信データ生成部110の構成と同様とされる。
 また、図24は、その場合における受信機200Aの構成例を示している。この図24において、図22と対応する部分には同一符号を付し、その詳細説明は省略する。この受信機200Aは、視差データ生成部228を有している。この視差データ生成部228は、スケーリング処理された中央、左端および右端の各ビューの画像データに基づいて、視差データを生成する。
 詳細説明は省略するが、この場合における視差データの生成方法は、上述した送信データ生成部110(図21参照)における視差データ生成部116における視差データ生成方法と同様である。なお、この視差データ生成部228は、図22に示す受信機200の視差データ変換部224で生成される画素単位の視差データと同様の視差データを生成して出力する。視差データ生成部228で生成された視差データは、ビュー補間部219に供給される。
 なお、図24に示す受信機200Aにおいては、図22に示す受信機200におけるコーデッドバッファ221、視差デコーダ222、視差バッファ223および視差データ変換部224は、省略される。この図24に示す受信機200Aにおけるその他の構成は、図22に示す受信機200の構成と同様とされる。
 [送信データ生成部、受信機のさらに他の構成例]
 上述の図21、図23に示す送信データ生成部110,110Aおよび図22、図24に示す受信機200,200Aは、トランスポートストリームTSに多視点立体画像表示用のビューストリームが含まれる場合の構成例である。トランスポートストリームTSにステレオ立体画像表示用のビューストリームが含まれる場合の構成例について説明する。
 「送信データ生成部の構成例」
 図25は、その場合における送信データ生成部110Bの構成例を示している。この図25において、図21と対応する部分には同一符号を付して示している。この送信データ生成部110Bは、2個の画像データ出力部111-1,111-2と、スケーラ113-1,113-2と、ビデオエンコーダ114-1,114-2と、マルチプレクサ115と、コンテナバッファ120を有している。また、この送信データ生成部110Bは、音声データ出力部118と、オーディオエンコーダ119を有している。
 画像データ出力部111-1,111-2は、それぞれ、ステレオ立体画像表示のための左眼(View 1)画像データVL、右眼(View 2)画像データVRを出力する。この画像データ出力部は、例えば、被写体を撮像して画像データを出力するカメラ、あるいはストレージ(記憶媒体)から画像データを読み出して出力する画像データ読み出し部などにより構成される。
 また、スケーラ113-1,113-2は、それぞれ、画像データVL,VRに対してスケーリング処理を施して、例えば、1920*1080のフルHDのサイズの画像データVL′,VR′を得る。この場合、画像データVL,VRが1920*1080のフルHDのサイズであるときは、そのまま出力する。また、画像データVL,VRが1920*1080のサイズより大きいときは、スケールダウンして出力する。
 ビデオエンコーダ114-1は、左眼画像データVL′に対して、例えば、MPEG4-AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-1は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データを含むビューストリームを生成する。
 また、ビデオエンコーダ114-2は、右眼画像データVR′に対して、例えば、MPEG4-AVC(MVC)、MPEG2videoなどの符号化を施して、符号化ビデオデータを得る。そして、このビデオエンコーダ114-2は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化データを含むビューストリームを生成する。
 音声データ出力部118は、画像データに対応した音声データを出力する。この音声データ出力部118は、例えば、マイクロホン、あるいは記憶媒体から音声データを読み出して出力する音声データ読み出し部などにより構成される。オーディオエンコーダ119は、音声データ出力部118から出力される音声データに対して、MPEG-2Audio、AAC等の符号化を施し、オーディオストリームを生成する。
 コンテナバッファ120は、エンコード後の各ストリームを一時的に記憶する。マルチプレクサ115は、ビデオエンコーダ114-1,114-2およびオーディオエンコーダ119で生成された各ストリームをパケット化して多重し、多重化ストリームを含むトランスポートストリームTSを生成する。この場合、それぞれのPES(Packetized Elementary Stream)のヘッダには、受信側における同期再生のために、DTS(Decoding Time Stamp)、PTS(Presentation Time Stamp)が挿入される。
 マルチプレクサ115は、トランスポートストリームTSのレイヤに、割り当て情報としてのマルチプル・ストリーム・デスクリプタ(multiple_stream_descriptor)(図16参照)を挿入する。このデスクリプタは、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す情報を持っている。このデスクリプタは、例えば、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)の配下などに挿入される。
 図25に示す送信データ生成部110Bの動作を簡単に説明する。2個の画像データ出力部111-1,111-2から出力される、ステレオ立体画像表示のための左眼画像データVL、右眼画像データVRは、スケーラ113-1,113-2に供給され、例えば、1920*1080のフルHDのサイズにスケーリング処理される。
 スケーリング処理後の画像データVL′は、ビデオエンコーダ114-1に供給される。ビデオエンコーダ114-1では、この画像データVL′に対して符号化が施されて符号化ビデオデータが得られ、この符号化ビデオデータ含むビューストリームが生成される。このビューストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 また、スケーリング処理後の画像データVR′は、ビデオエンコーダ114-2に供給される。ビデオエンコーダ114-2では、この画像データVR′に対して符号化が施されて符号化ビデオデータが得られ、この符号化ビデオデータ含むビューストリームが生成される。このビューストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 また、音声データ出力部118から出力される音声データは、オーディオエンコーダ119に供給される。このオーディオエンコーダ119では、音声データに対して、MPEG-2Audio、AAC等の符号化が施され、オーディオストリームが生成される。このオーディオストリームは、コンテナバッファ120に供給されて、一時的に記憶される。
 マルチプレクサ115では、コンテナバッファ120に記憶されている各エンコーダからのストリームがパケット化されて多重され、トランスポートストリームTSが生成される。この場合、それぞれのPESヘッダには、受信側における同期再生のために、DTS、PTSが挿入される。また、マルチプレクサ115では、PMTの配下などに、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報であるマルチプル・ストリーム・デスクリプタが挿入される。
 「受信機の構成例」
 図26は、上述の図25に示す送信データ生成部110Bに対応した受信機200Bの構成例を示している。この受信機200Bは、コンテナバッファ213と、デマルチプレクサ214と、コーデッドバッファ215-1,215-2と、ビデオデコーダ216-1,216-2と、デコーデッドバッファ217-1,217-2と、スケーラ218-1,218-2と、レンダリング部229を有している。また、この受信機200Bは、コーデッドバッファ225と、オーディオデコーダ226と、チャネルミキシング部227を有している。
 コンテナバッファ213は、デジタルチューナ等で受信されたトランスポートストリームTSを一時的に記憶する。このトランスポートストリームTSには、ステレオ立体画像表示のための左眼、右眼の画像データがそれぞれ符号化されて得られたビューストリームが含まれている。
 このトランスポートストリームTSには、上述したように、PMTの配下などに、割り当て情報であるマルチプル・ストリーム・デスクリプタが挿入されている。このデスクリプタは、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す。
 デマルチプレクサ214は、コンテナバッファ213に一時的に記憶されたトランスポートストリームTSから、ビデオおよびオーディオの各ストリームを抽出する。また、デマルチプレクサ214は、このトランスポートストリームTSから、上述のマルチプル・ストリーム・デスクリプタを抽出し、図示しない制御部(CPU)に送る。
 制御部は、このデスクリプタにより、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識できる。これにより、受信機200では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 コーデッドバッファ215-1,215-2は、それぞれ、デマルチプレクサ214で抽出される左眼、右眼の各ビューのビューストリームを一時的に記憶する。ビデオデコーダ216-1,216-2は、それぞれ、コーデッドバッファ215-1,215-2に記憶されているビューストリームにデコード処理を行って、左眼画像データ、右眼画像データを取得する。
 上述のデマルチプレクサ214は、各ビューのビューストリームに割り当てられているDTS,PTSを抽出する。コーデッドバッファ215-1,215-2からの各ビューのビューストリームの取り出しは、それぞれ、対応するDTSのタイミングで行われる。したがって、各ビューのビューストリームに対するデコード処理は、それぞれ、対応するDTSのタイミングで開始される。ここで、ビデオデコーダ216-1は左眼画像データを取得し、ビデオデコーダ216-2は右眼画像データを取得する。
 デコーデッドバッファ217-1,217-2は、それぞれ、ビデオデコーダ216-1,216-2で取得された左眼、右眼の画像データを一時的に記憶する。スケーラ218-1,218-2は、それぞれ、デコーデッドバッファ217-1,217-2から出力される左眼、右眼の画像データの出力解像度が、所定の解像度となるように調整する。レンダリング部229は、左眼、右眼の画像データに対して、ステレオ立体画像表示のための処理を行って、ディスプレイに供給する。
 コーデッドバッファ225は、デマルチプレクサ214で抽出されるオーディオストリームを一時的に記憶する。オーディオデコーダ226は、上述の送信データ生成部110Bのオーディオエンコーダ119(図25参照)とは逆の処理を行う。すなわち、オーディオデコーダ226は、コーデッドバッファ225に記憶されているオーディオストリームの復号化処理を行って、復号化された音声データを得る。チャネルミキシング部227は、オーディオデコーダ226で得られる音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データを生成して出力する。
 なお、デコーデッドバッファ217-1,217-2からの各ビューの画像データの読み出しは、PTSに基づいて行われ、転送同期が取られる。
 受信機200Bの動作を簡単に説明する。デジタルチューナ等で受信されたトランスポートストリームTSは、コンテナバッファ213に一時的に記憶される。このトランスポートストリームTSには、ステレオ立体画像表示のための左眼画像データと右眼画像データとが符号化されて得られたビューストリームが含まれている。
 デマルチプレクサ214では、コンテナバッファ213に一時的に記憶されたトランスポートストリームTSから、ビデオおよびオーディオの各ストリームが抽出される。また、デマルチプレクサ214では、このトランスポートストリームTSから、割り当て情報としてのマルチプル・ストリーム・デスクリプタが抽出され、制御部(CPU)に送られる。制御部では、このデスクリプタにより、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることが認識される。制御部では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 デマルチプレクサ214で抽出される左眼、右眼の各ビューのビューストリームは、それぞれ、コーデッドバッファ215-1,215-2に供給されて一時的に記憶される。そして、ビデオデコーダ216-1,216-2では、それぞれ、コーデッドバッファ215-1,215-2に記憶されているビューストリームの復号化処理が行われて、左眼画像データおよび右眼画像データが取得される。
 ビデオデコーダ216-1,216-2で取得された左眼、右眼の画像データは、それぞれ、デコーデッドバッファ217-1,217-2に供給されて一時的に記憶される。スケーラ218-1,218-2では、それぞれ、デコーデッドバッファ217-1,217-2から出力される左眼、右眼の画像データの出力解像度が所定の解像度となるように調整される。解像度調整された左眼、右眼の画像データは、レンダリング部229に供給される。そして、このレンダリング部229では、左眼、右眼の画像データに対して、ステレオ立体画像表示のための処理が行われて、ディスプレイに供給される。これにより、ステレオ立体画像表示のための画像表示、例えば、左眼画像および右眼画像の時分割表示などが行われる。
 上述したように、図1に示す画像送受信システム10においては、多重化ストリーム内の複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられる。そのため、ビュー間のデコード順と参照関係が保証されることから、受信側においてデコード処理を破綻なくスムーズに行うことが可能となる。
 また、図1に示す画像送受信システム10においては、トランスポートストリームTSのレイヤ、例えばPMTの配下に、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入される。そのため、受信側では、この割り当て情報に基づいて、複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを認識できる。これにより、受信側では、各ビューストリームに割り当てられているデコードタイムスタンプによるタイムスタンプ管理に速やかに移ることができる。
 <2.変形例>
 なお、上述実施の形態においては、マルチビュー・サービスとして立体画像表示サービスに着目したものであるが、本技術は、その他のマルチビュー・サービス、例えば、マルチアングルビューの同時表示サービス、ユーザに応じたビューの提供サービスなどにも、同様に適用できる。
 また、上述実施の形態においては、放送局100と受信機200からなる画像送受信システム10を示したが、本技術を適用し得る画像送受信システムの構成は、これに限定されるものではない。例えば、受信機200の部分が、例えば、HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。
 また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG-2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。
 また、本技術は、以下のような構成を取ることもできる。
 (1)複数のビューストリームが多重化された多重化ストリームを送信する送信部と、
 上記複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てるタイムスタンプ割り当て部とを備える
  送信装置。
 (2)上記送信部は、上記多重化ストリームを含む所定フォーマットのコンテナを送信し、
 上記複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報を、上記コンテナのレイヤに挿入する情報挿入部をさらに備える
 前記(1)に記載の送信装置。
 (3)上記コンテナは、トランスポートストリームであり、
 上記情報挿入部は、上記割り当て情報を、プログラム・マップ・テーブルの配下に挿入する
 前記(2)に記載の送信装置。
 (4)上記割り当て情報には、対応するエレメンタリストリームが、複数のビューストリームを持つか否かを示す情報が含まれている
 前記(3)に記載の送信装置。
 (5)上記多重化ストリームは、複数のビューストリームを含むエレメンタリストリームを有する
 前記(1)から(4)のいずれかに記載の送信装置。
 (6)各ビューストリームの間にビュー間境界を示す情報が配置される
 前記(5)に記載の送信装置。
 (7)上記複数のビューストリームは、多視点立体画像表示のための複数のビューから選択された所定数のビューのストリームである
 前記(1)から(6)のいずれかに記載の送信装置。
 (8)上記複数のビューストリームは、ステレオ立体画像表示のための2つのビューのストリームである
 前記(1)から(6)のいずれかに記載の送信装置。
 (9)上記複数のビューストリームに、視差情報のストリームが追加のビューストリームとして含まれる
 前記(1)から(8)のいずれかに記載の送信装置。
 (10)複数のビューストリームが多重化された多重化ストリームを送信する送信ステップと、
 上記複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てるタイムスタンプ割り当てステップとを備える
 送信方法。
 (11)複数のビューストリームが多重化された多重化ストリームを受信する受信部と、
 上記多重化ストリーム内の上記複数のビューストリームをデコードするデコード部とを備え、
 上記複数のビューストリームには表示周期を細分化した間隔でデコードタイムスタンプが割り当てられており、
 上記デコード部は、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
 受信装置。
 (12)上記受信部は、上記多重化ストリームを含む所定フォーマットのコンテナを受信し、
 上記コンテナのレイヤには、上記複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入されており、
 上記デコード部は、上記割り当て情報が存在するとき、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
 前記(11)に記載の受信装置。
 (13)複数のビューストリームが多重化された多重化ストリームを受信する受信ステップと、
 上記多重化ストリーム内の上記複数のビューストリームをデコードするデコードステップとを備え、
 上記複数のビューストリームには表示周期を細分化した間隔でデコードタイムスタンプが割り当てられており、
 上記デコードステップでは、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
 受信方法。
 (14)複数のビューストリームが多重化された多重化ストリームを送信する送信部と、
 上記複数のビューストリームに、ストリーム間の依存関係を考慮してタイムスタンプを割り当てるタイムスタンプ割り当て部とを備える
  送信装置。
 本技術の主な特徴は、同時表示に係るN個のビューストリームを多重化して伝送する際に、各ビューストリームに割り当てられるデコードタイムスタンプに、順次(1/N)*F(Fは表示周期)の固定オフセットを付加するようにしたことで、ビュー間のデコード順と参照関係を保証して行い得るようにしたことである(図3参照)。
 10・・・画像送受信システム
 100・・・放送局
 110,110A,110B・・・送信データ生成部
 111-1~111-N・・・画像データ出力部
 112・・・ビューセレクタ
 113-1,113-2,113-3・・・スケーラ
 114-1,114-2,114-3・・・ビデオエンコーダ
 115・・・マルチプレクサ
 116・・・視差データ生成部
 117・・・視差エンコーダ
 118・・・音声データ出力部
 119・・・オーディオエンコーダ
 120・・・コンテナバッファ
 200,200A,200B・・・受信機
 213・・・コンテナバッファ
 214・・・デマルチプレクサ
 215-1,215-2,215-3,221,225・・・コーデッドバッファ
 216-1,216-2,216-3・・・ビデオデコーダ
 217-1,217-2,217-3・・・デコーデッドバッファ
 218-1,218-2,218-3・・・スケーラ
 219・・・ビュー補間部
 220・・・ピクセルインターリーバ
 222・・・視差デコーダ
 223・・・視差バッファ
 224・・・視差データ変換部
 226・・・オーディオデコーダ
 227・・・チャネルミキシング部
 228・・・視差データ生成部
 229・・・レンダリング部

Claims (14)

  1.  複数のビューストリームが多重化された多重化ストリームを送信する送信部と、
     上記複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てるタイムスタンプ割り当て部とを備える
     送信装置。
  2.  上記送信部は、上記多重化ストリームを含む所定フォーマットのコンテナを送信し、
     上記複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報を、上記コンテナのレイヤに挿入する情報挿入部をさらに備える
     請求項1に記載の送信装置。
  3.  上記コンテナは、トランスポートストリームであり、
     上記情報挿入部は、上記割り当て情報を、プログラム・マップ・テーブルの配下に挿入する
     請求項2に記載の送信装置。
  4.  上記割り当て情報には、対応するエレメンタリストリームが、複数のビューストリームを持つか否かを示す情報が含まれている
     請求項3に記載の送信装置。
  5.  上記多重化ストリームは、複数のビューストリームを含むエレメンタリストリームを有する
     請求項1に記載の送信装置。
  6.  各ビューストリームの間にビュー間境界を示す情報が配置される
     請求項5に記載の送信装置。
  7.  上記複数のビューストリームは、多視点立体画像表示のための複数のビューから選択された所定数のビューのストリームである
     請求項1に記載の送信装置。
  8.  上記複数のビューストリームは、ステレオ立体画像表示のための2つのビューのストリームである
     請求項1に記載の送信装置。
  9.  上記複数のビューストリームに、視差情報のストリームが追加のビューストリームとして含まれる
     請求項1に記載の送信装置。
  10.  複数のビューストリームが多重化された多重化ストリームを送信する送信ステップと、
    上記複数のビューストリームに、表示周期を細分化した間隔でデコードタイムスタンプを割り当てるタイムスタンプ割り当てステップとを備える
     送信方法。
  11.  複数のビューストリームが多重化された多重化ストリームを受信する受信部と、
     上記多重化ストリーム内の上記複数のビューストリームをデコードするデコード部とを備え、
     上記複数のビューストリームには表示周期を細分化した間隔でデコードタイムスタンプが割り当てられており、
     上記デコード部は、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
     受信装置。
  12.  上記受信部は、上記多重化ストリームを含む所定フォーマットのコンテナを受信し、
     上記コンテナのレイヤには、上記複数のビューストリームに表示周期を細分化した間隔でデコードタイムスタンプが割り当てられていることを示す割り当て情報が挿入されており、
     上記デコード部は、上記割り当て情報が存在するとき、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
     請求項11に記載の受信装置。
  13.  複数のビューストリームが多重化された多重化ストリームを受信する受信ステップと、
     上記多重化ストリーム内の上記複数のビューストリームをデコードするデコードステップとを備え、
     上記複数のビューストリームには表示周期を細分化した間隔でデコードタイムスタンプが割り当てられており、
     上記デコードステップでは、複数のビューストリームを、上記各ビューストリームに割り当てられているデコードタイムスタンプに基づいて順次デコードする
     受信方法。
  14.  複数のビューストリームが多重化された多重化ストリームを送信する送信部と、
    上記複数のビューストリームに、ストリーム間の依存関係を考慮してタイムスタンプを割り当てるタイムスタンプ割り当て部とを備える
     送信装置。
PCT/JP2012/081745 2011-12-13 2012-12-07 送信装置、送信方法、受信装置および受信方法 WO2013089024A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP12858236.8A EP2658267A4 (en) 2011-12-13 2012-12-07 TRANSMITTING DEVICE, TRANSMITTING METHOD, RECEIVING DEVICE, AND RECEIVING METHOD
KR1020137020175A KR20140109793A (ko) 2011-12-13 2012-12-07 송신 장치, 송신 방법, 수신 장치 및 수신 방법
BR112013020027A BR112013020027A2 (pt) 2011-12-13 2012-12-07 dispositivo e método de transmissão, e, aparelho e método de recepção
US13/981,514 US20140125762A1 (en) 2011-12-13 2012-12-07 Transmission device, transmission method, reception apparatus, and reception method
CN2012800078147A CN103348683A (zh) 2011-12-13 2012-12-07 发送设备、发送方法、接收设备以及接收方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011272821A JP2013126048A (ja) 2011-12-13 2011-12-13 送信装置、送信方法、受信装置および受信方法
JP2011-272821 2011-12-13

Publications (1)

Publication Number Publication Date
WO2013089024A1 true WO2013089024A1 (ja) 2013-06-20

Family

ID=48612476

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/081745 WO2013089024A1 (ja) 2011-12-13 2012-12-07 送信装置、送信方法、受信装置および受信方法

Country Status (7)

Country Link
US (1) US20140125762A1 (ja)
EP (1) EP2658267A4 (ja)
JP (1) JP2013126048A (ja)
KR (1) KR20140109793A (ja)
CN (1) CN103348683A (ja)
BR (1) BR112013020027A2 (ja)
WO (1) WO2013089024A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105556966A (zh) * 2013-09-24 2016-05-04 索尼公司 编码设备、编码方法、发送设备以及接收设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013161442A1 (ja) * 2012-04-24 2015-12-24 ソニー株式会社 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
RU2662222C2 (ru) * 2013-11-01 2018-07-25 Сони Корпорейшн Устройство и способ передачи, устройство и способ приема
US9398330B2 (en) * 2014-08-22 2016-07-19 Sony Corporation Information processing device, information recording medium, information processing method, and program
WO2018011054A1 (en) * 2016-07-15 2018-01-18 Koninklijke Kpn N.V. Streaming virtual reality video
WO2018083211A1 (en) 2016-11-04 2018-05-11 Koninklijke Kpn N.V. Streaming virtual reality video
US11523185B2 (en) 2019-06-19 2022-12-06 Koninklijke Kpn N.V. Rendering video stream in sub-area of visible display area

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010263616A (ja) * 2009-04-08 2010-11-18 Sony Corp 再生装置、再生方法、およびプログラム
JP2010283856A (ja) * 2008-09-17 2010-12-16 Panasonic Corp 記録媒体、再生装置、及び集積回路
JP2011030193A (ja) * 2009-06-29 2011-02-10 Sony Corp 立体画像データ送信装置および立体画像データ受信装置
JP2011234113A (ja) * 2010-04-27 2011-11-17 Sony Corp 送信装置、送信方法、受信装置および受信方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055012A (en) * 1995-12-29 2000-04-25 Lucent Technologies Inc. Digital multi-view video compression with complexity and compatibility constraints
US6157674A (en) * 1996-03-21 2000-12-05 Sony Corporation Audio and video data transmitting apparatus, system, and method thereof
US5886736A (en) * 1996-10-24 1999-03-23 General Instrument Corporation Synchronization of a stereoscopic video sequence
KR100397511B1 (ko) * 2001-11-21 2003-09-13 한국전자통신연구원 양안식/다시점 3차원 동영상 처리 시스템 및 그 방법
US8072487B2 (en) * 2007-04-25 2011-12-06 Fujifilm Corporation Picture processing apparatus, picture recording apparatus, method and program thereof
MY151243A (en) * 2008-09-30 2014-04-30 Panasonic Corp Recording medium, playback device, system lsi, playback method, glasses, and display device for 3d images
KR20100040640A (ko) * 2008-10-10 2010-04-20 엘지전자 주식회사 수신 시스템 및 데이터 처리 방법
US8411746B2 (en) * 2009-06-12 2013-04-02 Qualcomm Incorporated Multiview video coding over MPEG-2 systems
KR101372376B1 (ko) * 2009-07-07 2014-03-14 경희대학교 산학협력단 디지털 방송 시스템의 스테레오스코픽 비디오 수신 방법
WO2013038679A1 (ja) * 2011-09-13 2013-03-21 パナソニック株式会社 符号化装置、復号装置、再生装置、符号化方法、及び復号方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010283856A (ja) * 2008-09-17 2010-12-16 Panasonic Corp 記録媒体、再生装置、及び集積回路
JP2010263616A (ja) * 2009-04-08 2010-11-18 Sony Corp 再生装置、再生方法、およびプログラム
JP2011030193A (ja) * 2009-06-29 2011-02-10 Sony Corp 立体画像データ送信装置および立体画像データ受信装置
JP2011234113A (ja) * 2010-04-27 2011-11-17 Sony Corp 送信装置、送信方法、受信装置および受信方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105556966A (zh) * 2013-09-24 2016-05-04 索尼公司 编码设备、编码方法、发送设备以及接收设备
EP3051819A1 (en) * 2013-09-24 2016-08-03 Sony Corporation Coding device, coding method, transmitting device, and receiving device
EP3051819A4 (en) * 2013-09-24 2017-03-29 Sony Corporation Coding device, coding method, transmitting device, and receiving device
US10531107B2 (en) 2013-09-24 2020-01-07 Sony Corporation Coding apparatus, coding method, transmission apparatus, and reception apparatus
US11272196B2 (en) 2013-09-24 2022-03-08 Sony Corporation Coding apparatus, coding method, transmission apparatus, and reception apparatus
US11758161B2 (en) 2013-09-24 2023-09-12 Sony Corporation Coding apparatus, coding method, transmission apparatus, and reception apparatus

Also Published As

Publication number Publication date
BR112013020027A2 (pt) 2016-10-18
EP2658267A1 (en) 2013-10-30
CN103348683A (zh) 2013-10-09
US20140125762A1 (en) 2014-05-08
KR20140109793A (ko) 2014-09-16
EP2658267A4 (en) 2014-12-10
JP2013126048A (ja) 2013-06-24

Similar Documents

Publication Publication Date Title
KR100397511B1 (ko) 양안식/다시점 3차원 동영상 처리 시스템 및 그 방법
JP6034420B2 (ja) 3次元映像の再生のための付加情報が挿入された3次元映像データストリーム生成方法及びその装置、3次元映像の再生のための付加情報が挿入された3次元映像データストリーム受信方法及びその装置
KR100488804B1 (ko) Mpeg-4 기반의 양안식 3차원 동영상 데이터 처리시스템 및 그 방법
WO2013089024A1 (ja) 送信装置、送信方法、受信装置および受信方法
US9055280B2 (en) Method and apparatus for transmitting digital broadcasting stream using linking information about multi-view video stream, and method and apparatus for receiving the same
JP6192902B2 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
EP2574064A1 (en) Image data transmitting device, image data transmitting method and image data receiving device
KR102181994B1 (ko) 송신 장치, 송신 방법, 수신 장치, 수신 방법 및 수신 표시 방법
MX2012008816A (es) Metodo y aparato para generar flujo de datos para proporcionar servicio multimedia tridimensional, y metodo y aparato para recibir el flujo de datos.
WO2013105401A1 (ja) 送信装置、送信方法、受信装置および受信方法
US8953019B2 (en) Method and apparatus for generating stream and method and apparatus for processing stream
KR20130129212A (ko) 디지털 방송 신호 수신 장치 및 방법
US9270972B2 (en) Method for 3DTV multiplexing and apparatus thereof
WO2013069608A1 (ja) 送信装置、送信方法、受信装置および受信方法
US20140327740A1 (en) Transmission apparatus, transmisson method, receiver and receiving method
WO2013054775A1 (ja) 送信装置、送信方法、受信装置および受信方法
JP5928118B2 (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2012858236

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13981514

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20137020175

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12858236

Country of ref document: EP

Kind code of ref document: A1

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013020027

Country of ref document: BR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 112013020027

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130806