WO2014002914A1 - 送信/受信装置、方法、符号化/復号化装置 - Google Patents

送信/受信装置、方法、符号化/復号化装置 Download PDF

Info

Publication number
WO2014002914A1
WO2014002914A1 PCT/JP2013/067147 JP2013067147W WO2014002914A1 WO 2014002914 A1 WO2014002914 A1 WO 2014002914A1 JP 2013067147 W JP2013067147 W JP 2013067147W WO 2014002914 A1 WO2014002914 A1 WO 2014002914A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
image data
picture
hierarchy
unit
Prior art date
Application number
PCT/JP2013/067147
Other languages
English (en)
French (fr)
Inventor
啓二 湯沢
鈴木 輝彦
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201380032438.1A priority Critical patent/CN104396264B/zh
Priority to IN2408MUN2014 priority patent/IN2014MN02408A/en
Priority to US14/399,282 priority patent/US10250901B2/en
Priority to BR112014032108-6A priority patent/BR112014032108B1/pt
Priority to KR1020147035423A priority patent/KR102161863B1/ko
Priority to JP2014522604A priority patent/JP6576635B2/ja
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP20191575.8A priority patent/EP3758376A1/en
Priority to EP13808997.4A priority patent/EP2869555A4/en
Priority to RU2014151717A priority patent/RU2641470C2/ru
Publication of WO2014002914A1 publication Critical patent/WO2014002914A1/ja
Priority to US16/223,154 priority patent/US10750199B2/en
Priority to US16/939,992 priority patent/US11979594B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers

Definitions

  • the present technology relates to a transmission device, a transmission method, an encoding device, a reception device, a reception method, and a decoding device, and more particularly, to a transmission device that enables a high frame frequency service.
  • the upper limit of the frame frequency that can be played is limited by the capability of the receiver. Therefore, it is necessary for the service side to limit to only a low frame frequency service or to provide a plurality of high and low services at the same time in consideration of the reproduction capability of popular receivers.
  • Receivers are expensive to support high-frame-frequency services, which is an impediment to popularization.
  • high-frame-frequency services which is an impediment to popularization.
  • only low-priced receivers dedicated to low-frame frequency services are prevalent, and if the service side starts high-frame frequency services in the future, it will be impossible to view without new receivers. It becomes an obstruction factor.
  • H. A moving image compression method such as H.264 / AVC (Advanced Video Coding) generally includes the following three types of pictures.
  • the purpose of this technology is to facilitate the realization of high frame frequency services.
  • a layer classification unit that classifies image data of each picture constituting moving image data into a plurality of layers;
  • An image encoding unit that encodes the classified image data of each layer and generates a video stream having the encoded image data of each layer;
  • a transmission unit that transmits a container of a predetermined format including the generated video stream,
  • the image encoding unit is The transmitting apparatus performs encoding so that the referenced picture belongs to the self hierarchy and a hierarchy lower than the self hierarchy.
  • the image data of each picture constituting the moving image data is classified into a plurality of layers by the layer classification unit.
  • the image encoding unit encodes the image data of each layer, and generates a video stream having the encoded image data of each layer. In this case, encoding is performed so that the referenced picture belongs to a self hierarchy and / or a hierarchy lower than the self hierarchy.
  • the transmission unit transmits a container of a predetermined format including the video stream described above.
  • the container may be a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • a video stream having image data of each layer encoded by classifying image data of each picture constituting moving image data into a plurality of layers is transmitted. Therefore, a service corresponding to various frame frequencies can be provided only by transmitting one program or one file, and the operation cost can be reduced.
  • encoded image data of a layer below a predetermined layer can be selectively extracted and decoded, and can be reproduced at a frame frequency suitable for its own reproduction capability, which is effective for promoting the spread of receivers. It becomes.
  • the referenced picture is encoded so as to belong to a self-layer and / or a layer lower than the self-layer, and the receiver does not need to decode a layer higher than a predetermined layer. , You can effectively use your own regenerative ability.
  • the image encoding unit generates a single video stream having the encoded image data of each layer, and belongs to the encoded image data of each layer for each picture.
  • Hierarchy identification information for identifying the hierarchy may be added.
  • the encoded image data of the hierarchy below the predetermined hierarchy can be selectively extracted based on the hierarchy identification information.
  • the hierarchy classification unit except for the lowest hierarchy, has the same number of assigned pictures in each hierarchy as the assigned pictures in all the lower hierarchies, and belongs to all the lower hierarchies.
  • the image data of each picture constituting the moving image data may be classified into a plurality of hierarchies so as to be located at the temporal center of the picture. In this case, since the frame frequency is doubled every time one layer is increased, the reception side can easily recognize the frame frequency in each layer only by using the frame frequency information of the picture in the lowest layer.
  • an information insertion unit that inserts frame frequency information of a picture in the lowest layer and layer number information indicating the number of layers into the container may be further provided.
  • each information may be inserted into a container layer or a video layer.
  • frame frequency information of the picture in the lowest layer and layer number information indicating the number of layers can be easily obtained.
  • the information insertion unit when each information is inserted into the video layer, the information insertion unit further inserts identification information for identifying whether or not each information is inserted into the video layer into the container layer. You may be like. In this case, on the receiving side, without decoding the video stream, whether or not the frame frequency information of the picture of the lowest layer and the number of layers indicating the number of layers are inserted in this video stream. It becomes possible to know.
  • a plurality of video streams having respective encoded image data of each layer may be generated.
  • an identification information insertion unit that inserts stream identification information for identifying the video stream of each layer may be further provided in the container layer.
  • the receiving side based on the stream identification information, it is possible to satisfactorily extract the encoded image data of the hierarchy below the predetermined hierarchy.
  • a receiving unit for receiving a container of a predetermined format including: An image decoding unit that selectively extracts and decodes encoded image data of a layer below a predetermined layer from the video stream included in the received container, and obtains image data of each picture;
  • a receiving apparatus includes: a playback speed adjustment unit that adjusts an image playback speed of the decoded picture data of each picture to a frame frequency of the picture of the predetermined layer.
  • a container of a predetermined format is received by the receiving unit.
  • the image data of each picture constituting the moving image data is classified into a plurality of hierarchies, and the reference picture is encoded so as to belong to the own hierarchy and / or a hierarchy lower than the own hierarchy.
  • the container may be a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • the image decoding unit selectively extracts encoded image data of a layer lower than a predetermined layer from the video stream included in the container and decodes it to obtain image data of each picture. Then, the reproduction speed adjustment unit adjusts the image reproduction speed based on the decoded image data of each picture to the frame frequency of the picture in the predetermined hierarchy.
  • the image decoding unit may further include a control unit that controls a decoding hierarchy in the image decoding unit and controls an image reproduction speed in the reproduction speed adjustment unit.
  • the present technology it is possible to selectively extract and decode the encoded image data of a layer below a predetermined layer, and to reproduce at a frame frequency suitable for its own reproduction capability.
  • the referenced picture is encoded so as to belong to the self-layer and / or a layer lower than the self-layer, and it is not necessary to decode a layer higher than a predetermined layer, and the self-reproduction capability Can be used effectively.
  • a container includes a single video stream having encoded image data of each layer, and the encoded image data of each layer belongs to each picture.
  • Hierarchy identification information for identifying the hierarchy is added, and the image decoding unit selectively extracts encoded image data of a hierarchy lower than a predetermined hierarchy from a single video stream based on the hierarchy identification information. Decoding may be performed. In this case, even when a single video stream having image data of each layer encoded in the container is included, selective extraction of encoded image data of a layer below a predetermined layer is favorably performed. be able to.
  • a container includes a plurality of video streams having encoded image data of a plurality of layers, and the container layer identifies a video stream of each layer.
  • Stream identification information is inserted, and the image encoding unit selectively extracts encoded image data from a video stream of a predetermined hierarchy or lower based on the stream identification information and decodes it.
  • the image encoding unit selectively extracts encoded image data from a video stream of a predetermined hierarchy or lower based on the stream identification information and decodes it. Also good.
  • the container includes a plurality of video streams having respective image data of each layer encoded, selective extraction of encoded image data of a layer below a predetermined layer is favorably performed. be able to.
  • This technology makes it possible to easily realize a high frame frequency service.
  • FIG. 1 shows a configuration example of a TV (Television) transmission / reception system 10 as an embodiment.
  • the TV transmission / reception system 10 includes a TV transmitter 100 and a TV receiver 200.
  • the TV transmitter 100 transmits a transport stream TS as a container on a broadcast wave.
  • image data of each picture constituting moving image data is classified into a plurality of layers, and a single video stream having encoded data of image data of each layer is included.
  • H.264 / AVC is encoded
  • the referenced picture is encoded so as to belong to the own hierarchy and / or a hierarchy lower than the own hierarchy.
  • the number of belonging pictures of each layer is the same as the number of belonging pictures of all the lower layers, and is located in the temporal center of the belonging pictures of all the lower layers, Image data of each picture constituting the moving image data is classified into a plurality of layers.
  • the frame frequency is doubled every time the layer is increased, so that the reception side can easily recognize the frame frequency in each layer only with the frame frequency information of the picture in the lowest layer.
  • Hierarchy identification information for identifying the affiliation hierarchy is added to the encoded image data of each hierarchy for each picture.
  • hierarchical identification information temporary_id
  • NAL unit NAL unit
  • the frame frequency information of the picture in the lowest layer and the number of layers indicating the number of layers are inserted into the transport stream TS. These pieces of information are inserted into the transport layer or the video layer. For example, these pieces of information are inserted into descriptors under the video elementary loop under the program map table (PMT: Program Map Table). Also, for example, these pieces of information are inserted as SEI messages in the “SEIs” portion of the access unit. By inserting the frame frequency information and the number-of-layers information in this way, the receiving side can easily acquire these pieces of information.
  • PMT Program Map Table
  • the TV receiver 200 receives the above-described transport stream TS transmitted from the TV transmitter 100 on a broadcast wave.
  • the TV receiver 200 selectively extracts and encodes encoded image data of a layer below a predetermined layer from the video stream included in the transport stream TS, acquires image data of each picture, and performs image reproduction. .
  • the image reproduction speed of the decoded picture data of each picture is adjusted so as to match the frame frequency of the picture in the predetermined hierarchy.
  • the frame frequency information of the picture of the lowest layer and the layer number information indicating the number of layers are inserted in the transport stream TS.
  • the decoding hierarchy is controlled and the image reproduction speed is controlled based on the information and the decoding capability of the TV receiver 200.
  • FIG. 2 shows a configuration example of the TV transmitter 100.
  • the TV transmitter 100 includes a source moving image data supply unit 101, a decoding device 102, a layer classification unit 103, an image encoding unit 104, an audio encoding unit 105, a multiplexing unit 106, and an additional information generation unit. 107 and a modulation / transmission antenna unit 108.
  • the source moving image data supply unit 101 takes out source moving image data (image data, audio data) stored in a compression format suitable for business use, for example, in an HDD (Hard Disk Drive) or the like, and supplies it to the decoding device 102.
  • the decoding device 102 decodes the source moving image data and outputs uncompressed image data and uncompressed audio data.
  • the hierarchy classification unit 103 classifies the image data of each picture constituting uncompressed image data into a plurality of hierarchies. For example, as shown in the figure, the data is classified into three layers of a first layer, a second layer, and a third layer.
  • the hierarchy classification unit 103 except for the lowest hierarchy, has the same number of assigned pictures in each hierarchy as the assigned pictures in all the lower hierarchies, and the temporal center of the assigned pictures in all the lower hierarchies. Classify them so that they are located in
  • the image encoding unit 104 encodes the classified image data of each layer, and generates a video stream (video elementary stream) having the encoded image data of each layer.
  • the image encoding unit 104 is, for example, H.264. H.264 / AVC or the like is encoded so that the referenced picture belongs to the own hierarchy and / or a hierarchy lower than the own hierarchy.
  • FIG. 3 shows an example of hierarchical classification and image coding.
  • the image data of each picture is classified into three layers from the first layer to the third layer.
  • an I picture Intra picture
  • a P picture Predictive picture
  • An I picture does not refer to other pictures
  • a P picture refers to only an I picture or a P picture. Therefore, the first layer can be decoded using only the first layer picture.
  • a B picture (Bi-directional predictive picture) is arranged at the temporal center position of each picture in the first hierarchy, and they belong to the second hierarchy.
  • the B picture of the second hierarchy is encoded so as to refer only to the pictures belonging to the second hierarchy and / or the synthesis hierarchy of the first hierarchy.
  • the B picture of the second hierarchy refers to only the I picture and P picture of the first hierarchy. Therefore, the second layer can be decoded only by the first and second synthesis layers. In addition, the frame frequency is doubled when the first and second combined layers are decoded as compared with the case where only the first layer is decoded.
  • a B picture is arranged at the temporally central position of each picture in the first and second synthesis layers, and they belong to the third layer.
  • the B picture in the third hierarchy refers to only pictures belonging to the third hierarchy and / or the first and second synthesis layers. Therefore, the third layer can be decoded only by the first to third synthesis layers.
  • the frame frequency is doubled when the first to third synthesis layers are decoded, compared to the case where only the first and second synthesis layers are decoded.
  • broken lines indicate the reference relationship of pictures.
  • the P picture in the first layer refers only to the immediately preceding I picture or P picture.
  • the B picture in the second hierarchy refers to only the I picture or P picture immediately before and after the first hierarchy.
  • the B picture in the third layer refers to only the I picture, P picture, or B picture immediately before and after the first and second synthesis layers.
  • the image encoding unit 104 adds layer identification information for identifying the belonging layer for each picture to the encoded image data of each layer. That is, the image encoding unit 104 arranges the layer identification information (temporal_id) in the header portion of the NAL unit (nal_unit) of each picture.
  • FIG. 4 shows the arrangement position of the hierarchy identification information (temporal_id). That is, the hierarchy identification information (temporal_id) is arranged in, for example, the SVC extension (Header
  • the frame frequency of the first and second synthesis layers is 60 fps
  • the frame frequency of the first to third synthesis layers is 120 fps.
  • the audio encoding unit 105 performs encoding such as MPEG-2 Audio, AAC, etc. on the uncompressed audio data to generate an audio stream (audio elementary stream).
  • the multiplexing unit 106 multiplexes each elementary stream output from the video encoder 132 and the audio encoder 133. Then, the multiplexing unit 106 outputs a transport stream TS as transmission data.
  • the additional information generation unit 107 generates frame frequency information of the picture of the lowest layer and layer number information indicating the number of layers, and sends the generated information to the multiplexing unit 106.
  • the multiplexing unit 106 inserts these pieces of information into the transport layer.
  • the multiplexing unit 106 has a new definition in which frame frequency information and number-of-layers information are described in a descriptor loop immediately below “ES_info_length” of the program map table (PMT), as shown in FIG. FPS descriptors (fps_descriptor) are arranged. This descriptor loop is a place where property information of each elementary stream (elementary_stream) is described.
  • the FPS descriptor is one of the descriptors included in the FPS descriptor.
  • FIG. 6 shows a structural example (Syntax) of the FPS descriptor.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is an FPS descriptor. For example, “0xf0” that is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after, and is “0x02” here.
  • the 8-bit field of “base” represents frame frequency information of a picture in the lowest layer, that is, frame frequency information of the first layer. For example, in the case of 30 fps as shown in FIG. 0x1e ".
  • the 8-bit field of “max” represents the number-of-layers information indicating the number of layers, and for example, when there is up to the third layer as in the example illustrated in FIG. 3, “0x03” indicating 3 is obtained.
  • the additional information generating unit 107 sends these pieces of information to the image encoding unit 104 as shown by broken lines.
  • the image encoding unit 104 converts the FPS info (fps_info) having each information of “base” and “max” into the “SEIs” portion of the access unit as “fps_info SEI message”. "And insert.
  • the multiplexing unit 106 inserts identification information for identifying the presence or absence of the SEI message into the transport layer. For example, the multiplexing unit 106 adds a newly defined FPS exhaust descriptor (fps_exit_descriptor) to a descriptor (descriptor) loop immediately below “ES_info_length” of the program map table (PMT), as shown in FIG. Deploy.
  • fps_exit_descriptor FPS exhaust descriptor
  • descriptor descriptor loop immediately below “ES_info_length” of the program map table (PMT), as shown in FIG. Deploy.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is an FPS exit descriptor. For example, “0xf2” which is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after, and is “0x01” here.
  • the receiving side extracts fps_info and has “temporal_id” to be decoded from the values of “base” and “max” therein. You can know the picture. Based on this, the receiving side (decoding side) decodes the picture of the desired “temporal_id”.
  • the modulation / transmission antenna unit 108 modulates the transport stream TS with a modulation scheme suitable for broadcasting such as QPSK / OFDM. Then, the modulation / transmission antenna unit 108 transmits an RF modulation signal from the transmission antenna.
  • a modulation scheme suitable for broadcasting such as QPSK / OFDM.
  • Source video data (image data, audio data) stored in a compression format suitable for business use is supplied from the source video data supply unit 101 to the decoding device 102.
  • the decoding device 102 the source moving image data is decoded, and uncompressed image data and uncompressed audio data are obtained.
  • the uncompressed image data obtained by the decoding device 102 is supplied to the hierarchy classification unit 103.
  • the layer classification unit 103 the image data of each picture constituting uncompressed image data is classified into a plurality of layers. In this case, except for the lowest layer, the number of belonging pictures of each layer is the same as the number of belonging pictures of all the lower layers, and is located in the temporal center of the belonging pictures of all the lower layers, Classification (see FIG. 3).
  • the image data of each layer classified in this way is supplied to the image encoding unit 104.
  • data is encoded with the classified images of each layer, and a video stream (video elementary stream) having the encoded image data of each layer is generated.
  • a video stream video elementary stream
  • the referenced picture is encoded so as to belong to the own layer and / or a layer lower than the own layer.
  • the image encoding unit 104 adds layer identification information for identifying the affiliation layer for each picture to the encoded image data of each layer. That is, in the image encoding unit 104, the layer identification information (temporal_id) is arranged in the header portion of the NAL unit (nal_unit) of each picture (see FIG. 4).
  • the uncompressed audio data obtained by the decoding device 102 is supplied to the audio encoding unit 105.
  • the audio encoding unit 105 performs encoding such as MPEG-2 Audio, AAC, etc. on the uncompressed audio data to generate an audio stream (audio elementary stream).
  • the video stream generated by the image encoding unit 104 and the audio stream generated by the audio encoding unit 105 are supplied to the multiplexing unit 106.
  • each elementary stream is multiplexed to obtain a transport stream TS as transmission data.
  • frame frequency information of the picture in the lowest layer and layer number information indicating the number of layers are generated and inserted into the transport layer (container layer).
  • an FPS descriptor fps_descriptor
  • ES_info_length of the program map table
  • the frame frequency information and the layer number information may be inserted as SEI messages in the video layer, for example, the “SEIs” portion of the access unit.
  • FPS info (fps_info) having each information is inserted as “fps_info SEI message” in the “SEIs” portion of the access unit (see FIG. 7B).
  • identification information for identifying the presence or absence of the SEI message is inserted into the transport layer (container layer).
  • an FPS exhaust descriptor fps_exit_descriptor
  • PMT program map table
  • the transport stream TS generated by the multiplexing unit 106 is sent to the modulation / transmission antenna unit 108.
  • the transport stream TS is modulated by a modulation scheme suitable for broadcasting such as QPSK / OFDM, and an RF modulated signal is generated.
  • the modulation / transmission antenna unit 108 transmits the RF modulation signal from the transmission antenna.
  • FIG. 8 shows a configuration example of the TV receiver 200.
  • the TV receiver 200 includes a reception antenna / demodulation unit 201, a demultiplexing unit 202, a control unit 203, an image decoding unit 204, a playback speed adjustment unit 205, an image display unit 206, and an audio decoding unit. 207 and an audio output unit 208.
  • the reception antenna / demodulation unit 201 demodulates the RF modulation signal received by the reception antenna, and acquires the transport stream TS.
  • the demultiplexing unit 202 extracts a video stream and an audio stream from the transport stream TS, respectively.
  • image data of each picture constituting moving image data is classified into a plurality of hierarchies, and the referenced picture is encoded so as to belong to a self hierarchy and / or a hierarchy lower than the self hierarchy. I have image data.
  • the demultiplexing unit 202 extracts various information inserted in the transport layer (container layer) of the transport stream TS, and sends it to the control unit 203.
  • the FPS descriptor fps_descriptor
  • the descriptor loop immediately below “ES_info_length” of the program map table (PMT) is also extracted.
  • frame frequency information of a picture in the lowest layer and layer number information indicating the number of layers are described.
  • the descriptor immediately below “ES_info_length” of the program map table (PMT) The FPS exhaust descriptor (fps_exit_descriptor) arranged in the loop may be extracted.
  • the image decoding unit 204 selectively extracts encoded image data of a layer below a predetermined layer from the video stream separated by the demultiplexing unit 202 and decodes it to obtain image data of each picture. At this time, the image decoding unit 204 extracts and decodes encoded image data of a picture in a desired hierarchy based on the hierarchy identification information (temporal_id) arranged in the header portion of the NAL unit of each picture.
  • the reproduction speed adjustment unit 205 adjusts the image reproduction speed based on the decoded image data of each picture so as to match the frame frequency of a picture in a predetermined hierarchy. That is, the playback speed adjustment unit 205 sequentially outputs the decoded image data of each picture in accordance with the frame frequency (frame rate) of a picture in a predetermined hierarchy.
  • the control unit 203 controls the operation of each unit of the TV receiving unit 200.
  • the control unit 203 controls the decoding layer by sending to the image decoding unit 204 decoding layer information specifying a layer below a predetermined layer to be decoded.
  • the control unit 203 controls the image reproduction speed by sending reproduction speed information corresponding to the frame frequency of a picture in a predetermined layer, for example, a synchronization signal, to the reproduction speed adjustment unit 205.
  • the control unit 203 controls the decoding hierarchy in the image decoding unit 204 and controls the image reproduction speed in the reproduction speed adjustment unit 205 based on the frame frequency information and the number of layers information and its own decoding capability. For example, consider a case where the FPS descriptor (fps_descriptor) has the description contents as shown in FIG.
  • the image display unit 206 is configured by a display such as an LCD (Liquid Crystal Display).
  • the image display unit 206 displays an image based on the image data of each picture output from the reproduction speed adjustment unit 205.
  • the audio decoding unit 207 performs decoding on the audio stream separated by the demultiplexing unit 202 to obtain audio data corresponding to the image data obtained by the image decoding unit 204.
  • the audio output unit 208 includes an amplifier, a speaker, and the like. The sound output unit 208 outputs sound based on the sound data output from the sound decoding unit 207.
  • the operation of the TV receiver 200 shown in FIG. 8 will be described.
  • the reception antenna / demodulation unit 201 the RF modulation signal received by the reception antenna is demodulated, and a transport stream TS is acquired.
  • This transport stream TS is supplied to the demultiplexing unit 202.
  • the demultiplexing unit 202 extracts a video stream and an audio stream from the transport stream TS.
  • the video stream is encoded so that the image data of each picture constituting the moving image data is classified into a plurality of hierarchies, and the referenced picture belongs to the own hierarchy and / or a hierarchy lower than the own hierarchy. Have the image data.
  • the demultiplexing unit 202 various information inserted in the transport layer (container layer) of the transport stream TS is extracted and sent to the control unit 203.
  • the FPS descriptor fps_descriptor
  • ES_info_length of the program map table
  • the descriptor immediately below “ES_info_length” of the program map table (PMT) The FPS exhaust descriptor (fps_exit_descriptor) arranged in the loop may be extracted.
  • the control unit 203 determines which layer can be decoded based on the frame frequency information and the number of layers information and its own decoding capability.
  • the control unit 203 controls the decoding hierarchy in the image decoding unit 204 and the image reproduction speed in the reproduction speed adjustment unit 205.
  • the video stream separated by the demultiplexing unit 202 is supplied to the image decoding unit 204.
  • image decoding unit 204 under the control of the control unit 203, encoded image data of a layer below a predetermined layer is selectively extracted from the video stream and decoded, and image data of each picture is sequentially obtained. .
  • the image data of each picture decoded in this way is supplied to the reproduction speed adjustment unit 205.
  • the reproduction speed adjustment unit 205 adjusts the image reproduction speed based on the image data of each picture so as to match the frame frequency of a picture in a predetermined layer under the control of the control unit 203. That is, the reproduction speed adjustment unit 205 sequentially outputs the image data of each picture in accordance with the frame frequency (frame rate) of pictures in a predetermined hierarchy. This image data is supplied to the image display unit 206, and an image based on the image data of each picture below a predetermined hierarchy is displayed.
  • the audio stream separated by the demultiplexing unit 202 is supplied to the audio decoding unit 207.
  • the audio stream is decoded, and audio data corresponding to the image data obtained by the image decoding unit 204 is obtained.
  • This audio data is supplied to the audio output unit 208, and audio corresponding to the display image is output.
  • the flowchart of FIG. 9 shows an example of a transmission processing procedure when an FPS descriptor (fps_descriptor) is placed under the PMT in the TV transmitter 100 shown in FIG.
  • the image encoding unit 104 generates a single video stream having image data of encoded pictures of each layer as described above.
  • the TV transmitter 100 starts transmission processing in step ST1. Then, in step ST2, the TV transmitter 100 decodes the source moving image data to generate uncompressed image data and audio data.
  • step ST3 the TV transmitter 100 classifies the image data of each picture into a plurality of hierarchies.
  • one picture (frame) is divided into two and one is set as the third layer.
  • the other is further divided into two for every other picture (frame), and one is set as the second layer, and the rest is set as the first layer.
  • step ST4 the TV transmitter 100 encodes the image data of each hierarchically classified picture.
  • the first layer is encoded.
  • the second layer is encoded.
  • the third layer is encoded. In this case, it is possible to refer within the first layer to the third layer.
  • the TV transmitter 100 arranges hierarchical identification information (temporal_id) in the header portion of the NAL unit (nal_unit) of each picture.
  • step ST5 the TV transmitter 100 encodes the audio data.
  • step ST6 the TV receiver 100 generates an FPS descriptor (fps_descriptor) and a PMT including the FPS descriptor.
  • step ST7 the TV transmitter 100 multiplexes the encoded image data, audio data, and PMT into the transport stream TS.
  • step ST8 the TV transmitter 100 modulates and transmits the transport stream TS. Thereafter, the TV transmitter 100 ends the process in step ST9.
  • the flowchart of FIG. 10 shows an example of the reception processing procedure when the FPS descriptor (fps_descriptor) is arranged in the descriptor loop immediately below “ES_info_length” of the PMT in the TV receiver 200 shown in FIG.
  • This reception processing procedure corresponds to the transmission processing procedure shown in the flowchart of FIG.
  • the TV receiver 200 starts reception processing in step ST11.
  • the TV receiver 200 receives and demodulates the RF modulation signal (broadcast signal) to obtain a transport stream TS.
  • step ST13 the TV receiver 200 extracts image data, audio data, and PMT from the transport stream TS. Then, in step S14, the TV receiver 200 extracts an FPS descriptor (fps_descriptor) from the PMT and compares it with its own decoding capability to determine a hierarchy to be decoded.
  • FPS descriptor fps_descriptor
  • step ST15 the TV receiver 200 decodes the image data of the picture of the hierarchy determined in step ST14. Then, playback is performed at an appropriate playback speed from the content of the FPS descriptor (fps_descriptor). Then, the TV receiver 200 decodes and reproduces the audio data in step ST16. Thereafter, the TV receiver 200 ends the process in step ST17.
  • FPS descriptor fps_descriptor
  • the flowchart of FIG. 11 shows an example of a transmission processing procedure when the SEI message of FPS info (fps_info) is added in the TV transmitter 100 shown in FIG.
  • the image encoding unit 104 generates a single video stream having the encoded image data of each layer as described above.
  • the TV transmitter 100 starts transmission processing in step ST21.
  • the TV transmitter 100 decodes the source moving image data to generate uncompressed image data and audio data.
  • step ST23 the TV transmitter 100 classifies the image data of each picture into a plurality of hierarchies.
  • one picture (frame) is divided into two and one is set as the third layer.
  • the other is further divided into two for every other picture (frame), and one is set as the second layer, and the rest is set as the first layer.
  • the TV transmitter 100 encodes the image data of each hierarchically classified picture.
  • the first layer is encoded.
  • the second layer is encoded.
  • the third layer is encoded. In this case, it is possible to refer within the first layer to the third layer.
  • the TV transmitter 100 arranges hierarchical identification information (temporal_id) in the header portion of the NAL unit (nal_unit) of each picture.
  • the TV transmitter 100 adds an SEI message of FPS info (fps_info).
  • the TV transmitter 100 encodes the audio data in step ST25. Then, in step ST ⁇ b> 26, the TV receiver 100 generates an FPS exhaust descriptor (fps_exist_descriptor) and a PMT including it.
  • FPS exhaust descriptor fps_exist_descriptor
  • step ST27 the TV transmitter 100 multiplexes the encoded image data, audio data, and PMT into the transport stream TS.
  • step ST28 the TV transmitter 100 modulates and transmits the transport stream TS. Thereafter, the TV transmitter 100 ends the process in step ST29.
  • the flowchart of FIG. 12 shows an example of a reception processing procedure when the SEI message of FPS info (fps_info) is added in the TV receiver 200 shown in FIG.
  • This reception processing procedure corresponds to the transmission processing procedure shown in the flowchart of FIG.
  • the TV receiver 200 starts reception processing in step ST31. Then, in step ST32, the TV receiver 200 receives and demodulates the RF modulation signal (broadcast signal) to obtain a transport stream TS.
  • step ST33 the TV receiver 200 extracts image data, audio data, and PMT from the transport stream TS.
  • the TV receiver 200 extracts the FPS info (fps_info) added as the SEI message in step ST36, compares it with its own decoding capability, and determines the hierarchy to be decoded. decide.
  • step ST37 the TV receiver 200 decodes the image data of the picture of the hierarchy determined in step ST36. Then, playback is performed at an appropriate playback speed from the content of FPS info (fps_info). Then, the TV receiver 200 decodes and reproduces the audio data in step ST38. Thereafter, the TV receiver 200 ends the process in step ST39.
  • a video stream having image data of each layer in which the image data of each picture constituting the moving image data is classified and encoded into a plurality of layers is transmitted. It is what is done. Therefore, on the transmitting side, a service corresponding to various frame frequencies can be provided only by transmitting one program or one file, and the operation cost can be reduced.
  • the receiving side it is possible to selectively extract and decode encoded image data of a layer below a predetermined layer, and to reproduce at a frame frequency suitable for its own reproduction capability, which is effective in promoting the spread of receivers. It becomes.
  • the referenced picture is encoded so as to belong to a self-layer and / or a layer lower than the self-layer, and the receiver does not need to decode a layer higher than a predetermined layer. , You can effectively use your own regenerative ability.
  • the image encoding unit 104 In the TV transmission / reception system 10 shown in FIG. 1, the image encoding unit 104 generates a single video stream having the encoded image data of each layer, and the encoded image data of each layer is For each picture, hierarchy identification information (temporal_id) for identifying the affiliation hierarchy is added. Therefore, on the receiving side, it is possible to selectively extract encoded image data of a hierarchy below a predetermined hierarchy based on the hierarchy identification information.
  • the layer classification unit 103 has the same number of belonging pictures in each layer as the belonging pictures in all lower layers except for the lowest layer, and the lower layers.
  • the image data of each picture constituting the moving image data is classified into a plurality of hierarchies so as to be located at the temporal center of the belonging pictures of all the hierarchies. Therefore, since the frame frequency is doubled every time one layer is increased, the frame frequency in each layer can be easily recognized on the receiving side only by using the frame frequency information of the picture in the lowest layer.
  • frame frequency information of a picture in the lowest layer and layer number information indicating the number of layers are inserted into a container layer (transport layer) or a video layer. is there. Therefore, on the receiving side, the frame frequency information of the picture in the lowest layer and the number of layers information indicating the number of layers can be easily obtained.
  • the image encoding unit 104 has shown an example in which a single video stream having encoded image data of each layer is generated, that is, an example of the same PID. However, it is also conceivable that the image encoding unit 104 generates a plurality of video streams having respective image data of a plurality of layers.
  • each layer is assigned by a different PID.
  • a different PID is assigned to each. Compared to the case where all layers are placed on the same PID as in the above embodiment, there are the following differences.
  • a structure descriptor (structure_descriptor) is arranged in a descriptor loop immediately below “program_info_length” of the PMT.
  • FIG. 14 shows a structure example (Syntax) of the structure descriptor.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is a structure descriptor. For example, “0xf1” which is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after.
  • the 8-bit field of “base” represents the frame frequency information of the picture of the lowest layer, that is, the frame frequency information of the first layer. For example, in the case of 30 fps as shown in FIG. 0x1e ".
  • the 8-bit field of “max” represents the number-of-layers information indicating the number of layers. For example, when there is a third layer as in the example illustrated in FIG.
  • layer_PID PID assigned to each layer.
  • the description order is, for example, the order from the first hierarchy.
  • the PID of the TS packet to be acquired is known from the value of “base” and the PID listed.
  • the SEI message of FPS info (fps_info) shown in FIG. 15B with another PID.
  • the structure descriptor (structure_descriptor) shown in FIG. 15A is arranged in a descriptor loop immediately below “program_info_length”.
  • the receiving side acquires the TS packet of the first layer PID described at the beginning of the for loop of this structure descriptor, and extracts the FPS info (fps_info) that is the SEI message therein.
  • the layer to be decoded is determined from the value of “base”, the PID of the TS packet to be acquired is detected from “layer_PID” of this structure descriptor, and a desired TS packet is acquired and decoded.
  • the flowchart of FIG. 16 shows an example of a transmission processing procedure when the TV transmitter 100 is configured to encode image data of each layer with another PID and arrange an FPS descriptor (structure_descriptor) under the PMT. ing.
  • the TV transmitter 100 starts transmission processing in step ST51.
  • the TV transmitter 100 decodes the source moving image data to generate uncompressed image data and audio data.
  • step ST53 the TV transmitter 100 classifies the image data of each picture into a plurality of hierarchies.
  • one picture (frame) is divided into two and one is set as the third layer.
  • the other is further divided into two for every other picture (frame), and one is set as the second layer, and the rest is set as the first layer.
  • the TV transmitter 100 encodes the image data of each hierarchically classified picture. Encode the first layer. In this case, it is possible to refer only within the first hierarchy. Also, the second layer is encoded. In this case, reference can be made in the first hierarchy and the second hierarchy. Also, the third layer is encoded. In this case, it is possible to refer within the first layer to the third layer.
  • step ST55 the TV transmitter 100 encodes audio data.
  • step ST56 the TV receiver 100 generates a structure descriptor (structure_descriptor) and a PMT including the structure descriptor.
  • step ST57 the TV transmitter 100 multiplexes the encoded image data, audio data, and PMT into the transport stream TS. Then, the TV transmitter 100 multiplexes the image data into different PIDs for each layer.
  • step ST58 the TV transmitter 100 modulates and transmits the transport stream TS. Thereafter, the TV transmitter 100 ends the process in step ST59.
  • the flowchart of FIG. 17 shows the reception processing procedure when the image data of each layer is encoded with another PID and the structure descriptor (structure_descriptor) is arranged under the PMT in the TV receiver 200 shown in FIG. An example is shown.
  • This reception processing procedure corresponds to the transmission processing procedure shown in the flowchart of FIG.
  • the TV receiver 200 starts reception processing in step ST61. Then, in step ST62, the TV receiver 200 receives and demodulates the RF modulation signal (broadcast signal) to obtain a transport stream TS.
  • step ST63 the TV receiver 200 extracts image data, audio data, and PMT from the transport stream TS. Then, in step S64, the TV receiver 200 extracts a structure descriptor (structure_descriptor) from the PMT and compares it with its own decoding capability to determine a hierarchy to be decoded.
  • structure_descriptor a structure descriptor
  • step ST65 the TV receiver 200 decodes the image data of the picture of the hierarchy determined in step ST64 from the TS packet of each PID. Then, playback is performed at an appropriate playback speed from the contents of the structure descriptor (structure_descriptor). Then, the TV receiver 200 decodes and reproduces the audio data in step ST66. Thereafter, the TV receiver 200 ends the process in step ST67.
  • structure_descriptor structure descriptor
  • the flowchart of FIG. 18 shows an example of a transmission processing procedure when the TV transmitter 100 encodes image data of each layer with another PID and adds an SEI message of FPS info (fps_info).
  • the TV transmitter 100 starts transmission processing in step ST71.
  • the TV transmitter 100 decodes the source moving image data to generate uncompressed image data and audio data.
  • step ST73 the TV transmitter 100 classifies the image data of each picture into a plurality of hierarchies.
  • one picture (frame) is divided into two and one is set as the third layer.
  • the other is further divided into two for every other picture (frame), and one is set as the second layer, and the rest is set as the first layer.
  • the TV transmitter 100 encodes the image data of each hierarchically classified picture. Encode the first layer. In this case, it is possible to refer only within the first hierarchy. Also, the second layer is encoded. In this case, reference can be made in the first hierarchy and the second hierarchy. Also, the third layer is encoded. In this case, it is possible to refer within the first layer to the third layer.
  • the TV transmitter 100 adds the SEI message of FPS info (fps_info).
  • the TV transmitter 100 encodes the audio data in step ST75.
  • the TV receiver 100 generates a structure descriptor (structure_descriptor) and a PMT including the structure descriptor.
  • step ST77 the TV transmitter 100 multiplexes the encoded image data, audio data, and PMT into the transport stream TS. Then, the TV transmitter 100 multiplexes the image data into different PIDs for each layer.
  • step ST78 the TV transmitter 100 modulates and transmits the transport stream TS. Thereafter, the TV transmitter 100 ends the process in step ST79.
  • the flowchart of FIG. 19 shows an example of a reception processing procedure when the image data of each layer is encoded with another PID and the SEI message of FPS info (fps_info) is added in the TV receiver 200 shown in FIG. Is shown.
  • This reception processing procedure corresponds to the transmission processing procedure shown in the flowchart of FIG.
  • the TV receiver 200 starts reception processing in step ST81. Then, in step ST82, the TV receiver 200 receives and demodulates the RF modulation signal (broadcast signal) to obtain a transport stream TS.
  • step ST83 the TV receiver 200 extracts image data, audio data, and PMT from the transport stream TS.
  • step S84 the TV receiver 200 extracts a structure descriptor (structure_descriptor) from the PMT.
  • step ST85 the TV receiver 200 determines whether there is a structure descriptor.
  • step ST86 the TV receiver 200 extracts the FPS info (fps_info) added as the SEI message, and compares it with its own decoding capability to determine the hierarchy to be decoded.
  • step ST77 the TV receiver 200 decodes the image data of the picture of the hierarchy determined in step ST76 from the TS packet of each PID. Then, playback is performed at an appropriate playback speed from the content of FPS info (fps_info). Then, in step ST88, the TV receiver 200 decodes and reproduces the audio data. Thereafter, the TV receiver 200 ends the process in step ST89.
  • step ST85 the TV receiver 200 normally decodes and reproduces the image data in step ST90. Then, in step ST88, the TV receiver 200 decodes and reproduces the audio data. Thereafter, the TV receiver 200 ends the process in step ST89.
  • FIG. 20 shows (a) structure description in the same PID (PES) and PMT, (b) structure description in the same PID (PES) and SEI, (c) another PID (PES) and structure description in the PMT, d) Additional PID (PES) and additional information in the four methods described above in the structure description in SEI are shown in comparison.
  • the number of belonging pictures in each layer is the same as the number of belonging pictures in all the lower layers, and the temporal picture of the belonging pictures in all the lower layers
  • An example is shown in which the image data of each picture constituting the moving image data is classified into a plurality of hierarchies so as to be located in the center.
  • the classification method is not limited to this example.
  • the following classification method is also possible.
  • FIG. 21A shows another example of hierarchical classification and image coding.
  • the image data of each picture is classified into two layers, a first layer and a second layer.
  • the I picture and the P picture belong to the first layer.
  • An I picture does not refer to other pictures, and a P picture refers to only an I picture or a P picture. Therefore, the first layer can be decoded using only the first layer picture.
  • two B pictures are arranged at equal intervals in time between the pictures in the first layer, and they belong to the second layer.
  • the B picture of the second layer is encoded so as to refer only to the pictures belonging to the second layer and / or the first layer. Therefore, the second layer can be decoded only by the first and second synthesis layers.
  • the frame frequency is tripled as compared with the case where only the first layer is decoded. Therefore, as illustrated, when the frame frequency of only the first layer is 40 fps, the frame frequency of the first and second synthesis layers is 120 fps.
  • FIG. 21B shows a structure example (Syntax) of an FPS descriptor (fps_descriptor) when hierarchical classification and image coding as shown in FIG. 21A are performed.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is an FPS descriptor. For example, “0xf0” that is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after.
  • the 8-bit field of “base” represents the frame frequency information of the picture of the lowest layer, that is, the frame frequency information of the first layer. In this example, it is “0x28” indicating 40.
  • the 8-bit field of “max” represents layer number information indicating the number of layers, and in this example, is “0x02” indicating 2. In the for loop, all the frame frequencies in the synthesis layer up to each layer after the second layer are described with respect to the frame frequency of the first layer. In this example, “0x03” is set for the second layer, and it is described that the number is 3 times.
  • FIG. 22A also shows another example of hierarchical classification and image encoding.
  • the image data of each picture is classified into two layers, a first layer and a second layer.
  • the I picture and the P picture belong to the first layer.
  • An I picture does not refer to other pictures, and a P picture refers to only an I picture or a P picture. Therefore, the first layer can be decoded using only the first layer picture.
  • the second layer can be decoded only by the first and second synthesis layers.
  • the frame frequency is five times higher when the first and second combined layers are decoded than when only the first layer is decoded. Therefore, as illustrated, when the frame frequency of only the first layer is 24 fps, the frame frequency of the first and second synthesis layers is 120 fps.
  • FIG. 22B shows a structural example (Syntax) of an FPS descriptor (fps_descriptor) when hierarchical classification and image coding as shown in FIG. 22A are performed.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is an FPS descriptor. For example, “0xf0” that is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after.
  • the 8-bit field of “base” represents the frame frequency information of the picture of the lowest layer, that is, the frame frequency information of the first layer. In this example, it is “0x18” indicating 24.
  • the 8-bit field of “max” represents layer number information indicating the number of layers, and in this example, is “0x02” indicating 2. In the for loop, all the frame frequencies in the synthesis layer up to each layer after the second layer are described with respect to the frame frequency of the first layer. In this example, “0x05” is set for the second layer, which is described as 5 times.
  • FIG. 23 (a) also shows another example of hierarchical classification and image coding.
  • the image data of each picture is classified into four layers from the first layer to the fourth layer.
  • the I picture and the P picture belong to the first layer.
  • An I picture does not refer to other pictures, and a P picture refers to only an I picture or a P picture. Therefore, the first layer can be decoded using only the first layer picture.
  • a B picture is arranged at the temporally central position of each picture in the first layer, and they belong to the second layer.
  • the B picture of the second hierarchy is encoded so as to refer only to the pictures belonging to the second hierarchy and / or the synthesis hierarchy of the first hierarchy. Therefore, the second layer can be decoded only by the first and second synthesis layers.
  • the frame frequency is doubled when the first and second combined layers are decoded as compared with the case where only the first layer is decoded. Therefore, as illustrated, when the frame frequency of only the first layer is 12 fps, the frame frequency of the first and second synthesis layers is 24 fps.
  • the B picture in the third hierarchy is encoded so as to refer only to the belonging pictures in the third and / or lower hierarchy. Therefore, the third hierarchy can be decoded only by the first to third synthesis layers. Also, the frame frequency is five times higher when the first to third synthesis layers are decoded than when only the first layer is decoded. In addition, the frame frequency of the first and second synthesis layers is 2.5 times the frame frequency. Therefore, as illustrated, when the frame frequency of only the first layer is 12 fps, the frame frequency of the first to third synthesis layers is 60 fps.
  • the B picture is arranged at the temporally central position between the pictures of the first layer and the third layer, and they belong to the fourth layer. However, since some of them are the same as the pictures in the second layer, they are missing.
  • the B picture in the fourth layer is encoded so as to refer only to the belonging pictures in the fourth and / or third and lower layers. Therefore, the fourth layer can be decoded only by the first to fourth synthesis layers.
  • the frame frequency is 10 times as compared with the case where only the first layer is decoded. Therefore, as illustrated, when the frame frequency of only the first layer is 12 fps, the frame frequency of the first to fourth synthesis layers is 120 fps.
  • the layer identification information for identifying the affiliation layer is added for each picture to the encoded image data of each layer. That is, the layer identification information (temporal_id) is arranged in the header portion of the NAL unit (nal_unit) of each picture.
  • FIG. 23B shows a structural example (Syntax) of an FPS descriptor (fps_descriptor) when hierarchical classification and image coding as shown in FIG. 23A are performed.
  • the 8-bit field of “descriptor_tag” indicates the type of this descriptor, and here indicates that it is an FPS descriptor. For example, “0xf0” that is not currently used is assigned.
  • the 8-bit field of “descriptor_length” indicates the byte length immediately after.
  • the 8-bit field of “base” represents the frame frequency information of the picture of the lowest layer, that is, the frame frequency information of the first layer, and is “0x0C” indicating 12 in this example.
  • the 8-bit field of “max” represents layer number information indicating the number of layers, and in this example, is “0x04” indicating 4.
  • “0x03” is set for the second layer, and it is described that the number is double.
  • “0x05” is set for the third layer, which is described as 5 times.
  • “0x0a” is set for the fourth layer, which is described as 10 times.
  • the TV transmission / reception system 10 including the TV transmitter 100 and the TV receiver 200 has been described.
  • the configuration of the TV transmission / reception system to which the present technology can be applied is not limited thereto.
  • the receiver 200 may have a configuration of a set top box and a monitor connected by a digital interface such as (High-Definition Multimedia Interface (HDMI)).
  • HDMI High-Definition Multimedia Interface
  • the container is a transport stream (MPEG-2 TS)
  • MPEG-2 TS transport stream
  • the present technology can be similarly applied to a system configured to be distributed to receiving terminals using a network such as the Internet.
  • the Internet distribution it is often distributed in a container of MP4 or other formats.
  • containers of various formats such as transport stream (MPEG-2 TS) adopted in the digital broadcasting standard and MP4 used in Internet distribution correspond to the container.
  • this technique can also take the following structures.
  • a layer classification unit that classifies image data of each picture constituting moving image data into a plurality of layers;
  • An image encoding unit that encodes the classified image data of each layer and generates a video stream having the encoded image data of each layer;
  • a transmission unit that transmits a container of a predetermined format including the generated video stream,
  • the image encoding unit is A transmission apparatus that performs encoding so that a referenced picture belongs to a self hierarchy and / or a hierarchy lower than the self hierarchy.
  • the image encoding unit A single video stream having the encoded image data of each layer is generated, The transmission apparatus according to (1), wherein layer identification information for identifying a affiliation layer is added to the encoded image data of each layer for each picture.
  • the hierarchy classification section Except for the lowest layer, the moving picture is such that the number of pictures belonging to each layer is the same as the number of pictures belonging to all the lower layers and is located in the temporal center of the belonging pictures of all the lower layers.
  • the transmission device according to (1) or (2), wherein the image data of each picture constituting the image data is classified into a plurality of hierarchies.
  • the information processing unit according to any one of (1) to (3), further including: an information insertion unit that inserts frame frequency information of a picture in the lowest layer and layer number information indicating the number of the plurality of layers into the container. Transmitter.
  • the information insertion unit The transmission device according to (4), wherein the information is inserted into a container layer or a video layer.
  • the information insertion unit The information described in (5), wherein when the information is inserted into the video layer, identification information for identifying whether or not the information is inserted into the video layer is further inserted into the container layer. Transmitter device. (7) The image encoding unit The transmission device according to (1), wherein a plurality of video streams having the encoded image data of the plurality of layers are generated. (8) The transmission apparatus according to (7), further including an identification information insertion unit that inserts stream identification information for identifying a video stream of each layer into the layer of the container.
  • (10) a layer classification unit that classifies image data of each picture constituting moving image data into a plurality of layers;
  • An image encoding unit that encodes the classified image data of each layer and generates a video stream having the encoded image data of each layer;
  • a transmission unit that transmits a container of a predetermined format including the generated video stream,
  • the image encoding unit is A single video stream having the encoded image data of each layer is generated,
  • a layer classification unit that classifies image data of each picture constituting moving image data into a plurality of layers; An image encoding unit that encodes the classified image data of each layer and generates a video stream having the encoded image data of each layer;
  • the image encoding unit is An encoding device that performs encoding so that a referenced picture belongs to a self hierarchy and / or a hierarchy lower than the self hierarchy.
  • the image encoding unit A single video stream having the encoded image data of each layer is generated, The encoding apparatus according to claim 11, wherein layer identification information for identifying a belonging layer is added to each encoded picture data of each layer for each picture.
  • a receiving unit for receiving a container of a predetermined format including a video stream having; An image decoding unit that selectively extracts and decodes encoded image data of a layer below a predetermined layer from the video stream included in the received container, and obtains image data of each picture;
  • a receiving apparatus comprising: a playback speed adjusting unit that adjusts an image playback speed of the decoded picture data of each picture so as to match a frame frequency of the picture of the predetermined layer.
  • the image processing apparatus further includes a control unit that controls a decoding hierarchy in the image decoding unit based on each piece of information inserted in the container and its own decoding capability, and controls an image reproduction speed in the reproduction speed adjustment unit.
  • the receiving device according to 13).
  • the container includes the single video stream having the encoded image data of each layer, In the encoded image data of each layer, layer identification information for identifying the affiliation layer is added for each picture, The image decoding unit The receiving device according to (13), wherein based on the layer identification information, the encoded image data of a layer below the predetermined layer is selectively extracted from the single video stream and decoded.
  • the container includes a plurality of video streams having the encoded image data of the plurality of layers, In the container layer, stream identification information for identifying a video stream of each layer is inserted,
  • the image encoding unit is The receiving apparatus according to (13), wherein based on the stream identification information, the encoded image data is selectively extracted from a video stream of a layer below the predetermined layer and decoded.
  • An image decoding unit that selectively extracts and encodes encoded image data of a hierarchy below a predetermined hierarchy from a video stream having, and obtains image data of each picture;
  • a decoding apparatus comprising: a reproduction speed adjustment unit that adjusts an image reproduction speed based on image data of each decoded picture to a frame frequency of a picture of the predetermined hierarchy.
  • the main feature of this technique is that the image data of each picture constituting the moving image data is classified into a plurality of hierarchies, and the image data of each hierarchy is classified into a self-hierarchy and / or a hierarchy lower than the self-hierarchy. And a video stream having the encoded image data of each layer is transmitted in a container of a predetermined format, so that a high frame frequency service can be easily realized (FIG. 2). FIG. 3).
  • DESCRIPTION OF SYMBOLS 10 ... TV transmission / reception system 100 ... TV transmitter 101 ... Source image data supply part 102 ... Decoding apparatus 103 ... Hierarchy classification part 104 ... Image encoding part 105 ... Voice code Conversion unit 106 ... Multiplexing unit 107 ... Additional information generation unit 108 ... Modulation / transmission antenna unit 200 ... TV receiver 201 ... Reception antenna / demodulation unit 202 ... Demultiplexing unit 203 ... Control unit 204 ... Image decoding unit 205 ... Playback speed adjustment unit 206 ... Image display unit 207 ... Audio decoding unit 208 ... Audio output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 高フレーム周波数のサービスを容易に実現する。 動画像データを構成する各ピクチャの画像データを複数の階層に分類する。各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する。この符号化された各階層の画像データを持つビデオストリームを含む所定フォーマットのコンテナを送信する。1個の番組または1個のファイルを送信するだけで、多様なフレーム周波数に対応したサービスを提供でき、運営コストの削減が可能となる。受信側では、選択的に、所定階層以下の階層の符号化画像データを取り出して復号化でき、自己の再生能力に適したフレーム周波数で再生が可能となり、受信機の普及促進に効果的となる。

Description

[規則37.2に基づきISAが決定した発明の名称] 送信/受信装置、方法、符号化/復号化装置
 本技術は、送信装置、送信方法、符号化装置、受信装置、受信方法および復号化装置に関し、特に、高フレーム周波数のサービスを可能とする送信装置等に関する。
 圧縮動画を、放送、ネット等でサービスする際、受信機の能力によって再生可能なフレーム周波数の上限が制限される。従って、サービス側は普及している受信機の再生能力を考慮して、低フレーム周波数のサービスのみに制限したり、高低複数のサービスを同時提供したりする必要がある。
 受信機は、高フレーム周波数のサービスに対応するには、高コストとなり、普及の阻害要因となる。初期に低フレーム周波数のサービス専用の安価な受信機のみ普及していて、将来サービス側が高フレーム周波数のサービスを開始する場合、新たな受信機が無いと全く視聴不可能であり、サービスの普及の阻害要因となる。
 H.264/AVC(Advanced Video Coding)(非特許文献1参照)などの動画圧縮方式は、一般的に以下の3種類のピクチャからなる。
     Iピクチャ:自己のみで復号可能
     Pピクチャ:自己と、Iピクチャと他のPピクチャの参照で復号可能
     Bピクチャ:自己と、Iピクチャ、Pピクチャおよび他のBピクチャの参照で復号可能
 この性質を利用して、例えばIピクチャ、Pピクチャのみ再生する等、ある程度のフレーム間引き再生は可能である。しかし、この方法では、きめ細かな間引き再生が困難であり、実用的なサービスとして利用するのは難しい。
ITU-T H.264(06/2011) Advanced video coding for generic audiovisual services
 本技術の目的は、高フレーム周波数のサービスの容易な実現を図ることにある。
 本技術の概念は、
 動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
 上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
 上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
 上記画像符号化部は、
 被参照ピクチャが自己階層および自己階層よりも下位の階層に所属するように符号化する
 送信装置にある。
 本技術において、階層分類部により、動画像データを構成する各ピクチャの画像データが複数の階層に分類される。画像符号化部により、各階層の画像データが符号化され、この符号化された各階層の画像データを持つビデオストリームが生成される。この場合、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化される。
 送信部により、上述のビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
 このように本技術においては、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化された各階層の画像データを持つビデオストリームが送信されるものである。そのため、1個の番組または1個のファイルを送信するだけで、多様なフレーム周波数に対応したサービスを提供でき、運営コストの削減が可能となる。
 また、受信側では、選択的に、所定階層以下の階層の符号化画像データを取り出して復号化でき、自己の再生能力に適したフレーム周波数で再生が可能となり、受信機の普及促進に効果的となる。ここで、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化されており、受信機では、所定階層よりも上位の階層の復号化を行うことが必要なく、自己の再生能力を効果的に使用可能となる。
 なお、本技術において、例えば、画像符号化部は、符号化された各階層の画像データを持つ単一のビデオストリームを生成し、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する、ようにされてもよい。この場合、受信側では、階層識別情報に基づいて、所定階層以下の階層の符号化画像データを選択的に取り出すことを良好に行うことができる。
 また、本技術において、例えば、階層分類部は、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、この下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データを複数の階層に分類する、ようにされてもよい。この場合、階層を1つ上げる毎にフレーム周波数が2倍となるので、受信側では、最下位の階層のピクチャのフレーム周波数情報のみで、各階層におけるフレーム周波数を容易に認識可能となる。
 また、本技術において、コンテナに最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を挿入する情報挿入部をさらに備える、ようにされてもよい。例えば、各情報を、コンテナのレイヤ、あるいはビデオのレイヤに挿入する、ようにされてもよい。この場合、受信側では、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を、容易に取得可能となる。
 また、本技術において、例えば、情報挿入部は、各情報をビデオのレイヤに挿入するとき、コンテナのレイヤに、ビデオのレイヤに各情報の挿入が有るか否かを識別する識別情報をさらに挿入する、ようにされてもよい。この場合、受信側では、ビデオストリームを復号化することなく、このビデオストリームに、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入されているか否かを知ることが可能となる。
 また、本技術において、例えば、符号化された各階層のそれぞれの画像データを持つ複数のビデオストリームを生成する、ようにされてもよい。この場合、例えば、コンテナのレイヤに、各階層のビデオストリームを識別するためのストリーム識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。この場合、受信側では、ストリーム識別情報に基づいて、所定階層以下の階層の符号化画像データの選択的な取り出しを良好に行うことができる。
 また、本技術の他の概念は、
 動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る画像復号化部と、
 上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整する再生速度調整部とを備える
 受信装置にある。
 本技術において、受信部により、所定フォーマットのコンテナが受信される。このコンテナには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームが含まれている。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
 画像復号化部により、コンテナに含まれるビデオストリームから選択的に所定階層以下の階層の符号化画像データが取り出されて復号化され、各ピクチャの画像データが得られる。そして、再生速度調整部により、復号化された各ピクチャの画像データによる画像再生速度が所定階層のピクチャのフレーム周波数に調整される。
 例えば、コンテナには、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入されており、コンテナに挿入されている各情報と自己の復号能力に基づいて、画像復号化部における復号化階層を制御し、再生速度調整部における画像再生速度を制御する制御部をさらに備える、ようにされてもよい。
 このように本技術においては、選択的に、所定階層以下の階層の符号化画像データを取り出して復号化でき、自己の再生能力に適したフレーム周波数で再生が可能となる。また、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化されており、所定階層よりも上位の階層の復号化を行うことが必要なく、自己の再生能力を効果的に使用可能となる。
 なお、本技術において、例えば、コンテナには、符号化された各階層の画像データを持つ単一の上記ビデオストリームが含まれ、符号化された各階層の画像データには、ピクチャ毎に、所属階層を識別するための階層識別情報が付加されており、画像復号化部は、階層識別情報に基づいて、単一のビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化する、ようにされてもよい。この場合、コンテナに符号化された各階層の画像データを持つ単一の上記ビデオストリームが含まれる場合であっても、所定階層以下の階層の符号化画像データの選択的な取り出しを良好に行うことができる。
 また、本技術において、例えば、コンテナには、符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームが含まれ、コンテナのレイヤには、各階層のビデオストリームを識別するためのストリーム識別情報が挿入されており、画像符号化部は、ストリーム識別情報に基づいて、選択的に、所定階層以下の階層のビデオストリームから符号化画像データを取り出して復号化する、ようにされてもよい。この場合、コンテナに符号化された各階層のそれぞれの画像データを持つ複数のビデオストリームが含まれる場合であっても、所定階層以下の階層の符号化画像データの選択的な取り出しを良好に行うことができる。
 本技術によれば、高フレーム周波数のサービスを容易に実現可能となる。
実施の形態としてのTV送受信システムの構成例を示すブロック図である。 TV送受信システムを構成するTV送信機の構成例を示すブロック図である。 階層分類および画像符号化の一例を示す図である。 階層識別情報(temporal_id)の配置位置を説明するための図である。 FPSデスクリプタ(fps_descriptor)の配置位置を説明するための図である。 FPSデスクリプタの構造例(Syntax)を示す図である。 アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入するFPSインフォ(fps_info)の構造例と、PMTの配下に配置されるFPSエグジストデスクリプタ(fps_exit_descriptor)の構造例(Syntax)を示す図である。 TV送受信システムを構成するTV受信機の構成例を示すブロック図である。 同一PIDで、かつPMTの配下にFPSデスクリプタ(fps_descriptor)が配置される場合の送信処理手順の一例を示すフローチャートである。 同一PIDで、かつPMTの配下にFPSデスクリプタ(fps_descriptor)が配置されている場合の受信処理手順の一例を示すフローチャートである。 同一PIDで、かつFPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示すフローチャートである。 同一PIDで、かつFPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示すフローチャートである。 画像符号化において複数の階層のそれぞれの画像データを持つ複数のビデオストリームを生成する場合に各階層を別のPIDにより振り分けることを示す図である。 PMTの配下に配置されるストラクチャデスクリプタ(structure_descriptor)の構造例(Syntax)を示す図である。 画像符号化において複数の階層のそれぞれの画像データを持つ複数のビデオストリームを生成する場合に、FPSインフォ(fps_info)のSEIメッセージを使用する例を示す図である。 別PIDで、かつPMTの配下にFPSデスクリプタ(fps_descriptor)が配置される場合の送信処理手順の一例を示すフローチャートである。 別PIDで、かつPMTの配下にFPSデスクリプタ(fps_descriptor)が配置されている場合の受信処理手順の一例を示すフローチャートである。 別PIDで、かつFPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示すフローチャートである。 別PIDで、かつFPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示すフローチャートである。 (a)同一PID(PES)、かつPMTに構造記述、(b)同一PID(PES)、かつSEIに構造記述、(c)別PID(PES)、かつPMTに構造記述、(d)別PID(PES)、かつSEIに構造記述の4つの方法における付加情報を比較して示す図である。 階層分類および画像符号化の他の例を説明するための図である。 階層分類および画像符号化の他の例を説明するための図である。 階層分類および画像符号化の他の例を説明するための図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [TV送受信システム]
 図1は、実施の形態としてのTV(Television)送受信システム10の構成例を示している。このTV送受信システム10は、TV送信機100と、TV受信機200を有する構成とされている。
 TV送信機100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。このトランスポートストリームTSには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、各階層の画像データの符号化データを持つ単一のビデオストリームが含まれる。この場合、例えば、H.264/AVCなどの符号化が施され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化される。
 この場合、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データが複数の階層に分類される。このような分類では、階層を1つ上げる毎にフレーム周波数が2倍となるので、受信側では、最下位の階層のピクチャのフレーム周波数情報のみで、各階層におけるフレーム周波数を容易に認識可能となる。
 符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。このように階層識別情報が付加されることで、受信側では、所定階層以下の階層の符号化画像データを選択的に取り出すことを良好に行うことができる。
 トランスポートストリームTSに、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入される。これらの情報は、トランスポートレイヤあるいはビデオレイヤに挿入される。例えば、これらの情報は、プログラム・マップ・テーブル(PMT:Program Map Table)の配下のビデオエレメンタリ・ループの配下の記述子に挿入される。また、例えば、これらの情報は、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入される。このようにフレーム周波数情報および階層数情報が挿入されることで、受信側では、これらの情報を容易に取得することが可能となる。
 TV受信機200は、TV送信機100から放送波に載せて送られてくる上述のトランスポートストリームTSを受信する。TV受信機200は、このトランスポートストリームTSに含まれるビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを取得して、画像再生を行う。この場合、復号化された各ピクチャの画像データによる画像再生速度は、所定階層のピクチャのフレーム周波数に合致するように調整される。
 トランスポートストリームTSに、上述したように、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入されている。TV受信機200では、これらの情報と自己の復号能力に基づいて、復号化階層が制御され、また、画像再生速度が制御される。
 [TV送信機の構成例]
 図2は、TV送信機100の構成例を示している。このTV送信機100は、源動画データ供給部101と、復号装置102と、階層分類部103と、画像符号化部104と、音声符号化部105と、多重化部106と、付加情報発生部107と、変調/送信アンテナ部108を有している。
 源動画データ供給部101は、例えばHDD(Hard Disk Drive)等に業務用に適切な圧縮形式で格納されて源動画データ(画像データ、音声データ)を取り出し、復号装置102に供給する。復号装置102は、源動画データを復号し、非圧縮画像データおよび非圧縮音声データを出力する。
 階層分類部103は、非圧縮画像データを構成する各ピクチャの画像データを複数の階層に分類する。例えば、図示のように、第1階層、第2階層、第3階層の3階層に分類する。ここで、階層分類部103は、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、分類する。
 画像符号化部104は、分類された各階層の画像データを符号化し、符号化された各階層の画像データを持つビデオストリーム(ビデオエレメンタリストリーム)を生成する。ここで、画像符号化部104は、例えば、H.264/AVCなどの符号化を行って、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように、符号化する。
 図3は、階層分類および画像符号化の一例を示している。この例は、各ピクチャの画像データを第1階層から第3階層までの3階層に分類する例である。この例において、Iピクチャ(Intra picture)およびPピクチャ(Predictive picture)は第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
 また、第1階層の各ピクチャの時間的中央位置にBピクチャ(Bi-directional predictive picture)が配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の合成階層所属のピクチャしか参照しないように符号化される。
 この例においては、この第2階層のBピクチャは、第1階層のIピクチャおよびPピクチャのみを参照するようにされている。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は2倍となる。
 また、第1、第2の合成階層の各ピクチャの時間的中央位置にBピクチャが配置され、それらは第3階層に所属するようにされる。この第3階層のBピクチャは、第3階層および/または第1、第2の合成階層所属のピクチャのみ参照するようにされている。そのため、第3階層は、第1~第3の合成階層だけで復号可能となる。また、第1、第2の合成階層のみ復号した場合に比べて、第1~第3の合成階層を復号した場合は、フレーム周波数は2倍となる。
 図3において、破線は、ピクチャの参照関係を示している。第1階層のPピクチャは、直前のIピクチャまたはPピクチャのみを参照している。第2階層のBピクチャは、第1階層の直前および直後のIピクチャまたはPピクチャのみを参照している。第3階層のBピクチャは、第1、第2の合成階層の直前および直後のIピクチャ、PピクチャまたはBピクチャのみを参照している。
 画像符号化部104は、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する。すなわち、画像符号化部104は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)を配置する。
 図4は、階層識別情報(temporal_id)の配置位置を表している。すなわち、階層識別情報(temporal_id)は、例えば、NALユニットヘッダのSVC拡張(Header svc extension )に配置される。そして、図3に示すように、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられ、第3階層所属ピクチャには「temporal_id=2」が割り当てられる。
 図3の例において、第1階層のみのフレーム周波数が30fpsのとき、第1、第2の合成階層のフレーム周波数は60fpsとなり、第1~第3の合成階層のフレーム周波数は120fpsとなる。また、図示されていないが、以下同様に第4階層、第5階層と構築することが可能である。
 図2に戻って、音声符号化部105は、非圧縮音声データに対して、MPEG-2 Audio、AAC等の符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。多重化部106は、ビデオエンコーダ132およびオーディオエンコーダ133から出力される各エレメンタリストリームを多重化する。そして、多重化部106は、伝送データとしてのトランスポートストリームTSを出力する。
 付加情報発生部107は、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を発生し、多重化部106に送る。多重化部106は、これらの情報を、トランスポートレイヤに挿入する。例えば、多重化部106は、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、図5に示すように、フレーム周波数情報および階層数情報が記述された、新規定義のFPSデスクリプタ(fps_descriptor)を配置する。このデスクリプタループは、各エレメンタリストリーム(elementary_stream)の性質情報を記述する場所である。FPSデスクリプタは、その中に含まれるデスクリプタの1つとされる。
 図6は、FPSデスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示し、ここでは、“0x02”となる。
 「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、例えば、図3に示す例のように30fpsの場合は、30を示す“0x1e”となる。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、例えば、図3に示す例のように第3階層まである場合は、3を示す“0x03”となる。
 このように、送信側(符号化側)でFPSデスクリプタを追加することで、受信側(復号側)でのフレーム間引き再生が容易となる。すなわち、このFPSデスクリプタの記述内容から、第1階層のみで30fps、第1、第2の合成階層で60fps、第1~第3の合成階層で120fpsであることが解る。例えば、受信側の復号能力が最大60fpsまでだった場合、この情報から第1、第2の合成階層まで復号可能なことが解る。そして、「temporal_id=0」および「temporal_id=1」のピクチャを復号すればよいことが解る。また、復号したピクチャは、60fpsで再生すればよいことが解る。
 なお、フレーム周波数情報および階層数情報を、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入することも考えられる。この場合、付加情報発生部107は、これらの情報を、破線図示するように、画像符号化部104に送る。画像符号化部104は、図7(b)に示すように、「base」および「max」の各情報を持つFPSインフォ(fps_info)を、アクセスユニットの“SEIs”の部分に、「fps_info SEI message」として、挿入する。
 このようにSEIメッセージを利用する場合、多重化部106は、そのSEIメッセージの有無を識別する識別情報を、トランスポートレイヤに挿入する。例えば、多重化部106は、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、図7(a)に示すように、新規定義のFPSエグジストデスクリプタ(fps_exit_descriptor)を配置する。
 「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSエグジストデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf2”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示し、ここでは、“0x01”となる。「fps_exit」の8ビットフィールドは、FPSインフォ(fps_info)が挿入されたSEIメッセージの有無を示す。例えば、「fps_exit = 0」はそのSEIメッセージが無いことを示し、「fps_exit = 1」はそのSEIメッセージがあることを示す。
 このように、送信側(符号化側)でFPSエグジストデスクリプタを追加することで、受信側(復号側)では、フレーム周波数情報および階層数情報を持つFPSインフォ(fps_info)が挿入されたSEIメッセージの有無が解る。受信側(復号側)は、FPSエグジストデスクリプタがSEIメッセージの存在を示す場合、fps_infoを抽出し、その中の「base」と「max」の値から、自分が復号すべき「temporal_id」を持つピクチャを知ることができる。これに基づき、受信側(復号側)は、所望の「temporal_id」のピクチャを復号する。
 図2に戻って、変調/送信アンテナ部108は、トランスポートストリームTSを、QPSK/OFDM等の放送に適した変調方式で変調する。そして、この変調/送信アンテナ部108は、RF変調信号を送信アンテナから送信する。
 図2に示すTV送信機100の動作を説明する。源動画データ供給部101から復号装置102に、業務用に適切な圧縮形式で格納されて源動画データ(画像データ、音声データ)が、供給される。復号装置102では、源動画データが復号され、非圧縮画像データおよび非圧縮音声データが得られる。
 復号装置102で得られた非圧縮画像データは、階層分類部103に供給される。階層分類部103では、非圧縮画像データを構成する各ピクチャの画像データが複数の階層に分類される。この場合、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、分類される(図3参照)。
 このように階層分類された各階層の画像データは画像符号化部104に供給される。画像符号化部104では、分類された各階層の画像でデータが符号化され、符号化された各階層の画像データを持つビデオストリーム(ビデオエレメンタリストリーム)が生成される。この場合、例えば、H.264/AVCなどの符号化が行われ、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように、符号化される。
 この場合、画像符号化部104では、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、画像符号化部104では、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される(図4参照)。
 また、復号装置102で得られた非圧縮音声データは、音声符号化部105に供給される。この音声符号化部105では、非圧縮音声データに対して、MPEG-2 Audio、AAC等の符号化が施され、オーディオストリーム(オーディオエレメンタリストリーム)が生成される。
 画像符号化部104で生成されたビデオストリームと、音声符号化部105で生成されたオーディオストリームは、多重化部106に供給される。多重化部106では、各エレメンタリストリームが多重化され、伝送データとしてのトランスポートストリームTSが得られる。この多重化部106では、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が発生され、トランスポートレイヤ(コンテナのレイヤ)に挿入される。例えば、多重化部106では、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに、フレーム周波数情報および階層数情報が記述されたFPSデスクリプタ(fps_descriptor)が配置される(図5、図6参照)。
 なお、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されることもある。この場合、各情報を持つFPSインフォ(fps_info)が、アクセスユニットの“SEIs”の部分に、「fps_info SEI message」として、挿入される(図7(b)参照)。そして、この場合、そのSEIメッセージの有無を識別する識別情報が、トランスポートレイヤ(コンテナのレイヤ)に挿入する。例えば、多重化部106では、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、FPSエグジストデスクリプタ(fps_exit_descriptor)が配置される(図7(a)参照)。
 多重化部106で生成されたトランスポートストリームTSは、変調/送信アンテナ部108に送られる。この変調/送信アンテナ部108では、トランスポートストリームTSが、QPSK/OFDM等の放送に適した変調方式で変調されて、RF変調信号が生成される。そして、変調/送信アンテナ部108では、このRF変調信号を送信アンテナから送信することが行われる。
 [TV受信機の構成例]
 図8は、TV受信機200の構成例を示している。このTV受信機200は、受信アンテナ/復調部201と、多重分離部202と、制御部203と、画像復号化部204と、再生速度調整部205と、画像表示部206と、音声復号化部207と、音声出力部208を有している。
 受信アンテナ/復調部201は、受信アンテナで受信されたRF変調信号を復調し、トランスポートストリームTSを取得する。多重分離部202は、トランスポートストリームTSから、ビデオストリームおよびオーディオストリームをそれぞれ抽出する。このビデオストリームには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持っている。
 また、この多重分離部202は、トランスポートストリームTSのトランスポートレイヤ(コンテナのレイヤ)に挿入されている種々の情報を抽出して、制御部203に送る。この際、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSデスクリプタ(fps_descriptor)も抽出される。このFPSデスクリプタには、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が記述されている。
 あるいは、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されている場合、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSエグジストデスクリプタ(fps_exit_descriptor)が抽出されることもある。
 画像復号化部204は、多重分離部202で分離されたビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る。この際、画像復号化部204は、各ピクチャのNALユニットのヘッダ部分に配置されている階層識別情報(temporal_id)に基づいて、所望の階層のピクチャの符号化画像データを取り出して復号化する。再生速度調整部205は、復号化された各ピクチャの画像データによる画像再生速度を、所定階層のピクチャのフレーム周波数に合致するように調整する。すなわち、再生速度調整部205は、復号化された各ピクチャの画像データを、所定階層のピクチャのフレーム周波数(フレームレート)に合わせて順次出力する。
 制御部203は、TV受信部200の各部の動作を制御する。制御部203は、画像復号化部204に対しては、復号化対象となる所定階層以下の階層を特定する復号階層情報を送って、復号化階層の制御を行う。また、制御部203は、再生速度調整部205に対しては、所定階層のピクチャのフレーム周波数に対応した再生速度情報、例えば同期信号を送って、画像再生速度の制御を行う。
 制御部203は、フレーム周波数情報および階層数情報と、自己の復号能力に基づいて、画像復号化部204における復号化階層を制御し、再生速度調整部205における画像再生速度を制御する。例えば、FPSデスクリプタ(fps_descriptor)が、図6に示すような記述内容である場合を考える。
 この場合、制御部203は、第1階層のみで30fps、第1、第2の合成階層で60fps、第1~第3の合成階層で120fpsであることが解る。そして、自己の復号能力が最大60fpsまでだった場合、この情報から第1、第2の合成階層まで復号可能なことが解る。そして、「temporal_id=0」および「temporal_id=1のピクチャを復号すればよいことが解る。また、復号したピクチャは、60fpsで再生すればよいことが解る。
 画像表示部206は、LCD(Liquid Crystal Display)等のディスプレイにより構成されている。この画像表示部206は、再生速度調整部205から出力される各ピクチャの画像データによる画像を表示する。音声復号化部207は、多重分離部202で分離されたオーディオストリームに対して復号化を施して、画像復号化部204で得られる画像データに対応した音声データを得る。音声出力部208は、アンプ、スピーカなどにより構成されている。この音声出力部208は、音声復号化部207から出力される音声データによる音声を出力する。
 図8に示すTV受信機200の動作を説明する。受信アンテナ/復調部201では、受信アンテナで受信されたRF変調信号が復調され、トランスポートストリームTSが取得される。このトランスポートストリームTSは、多重分離部202に供給される。この多重分離部202では、トランスポートストリームTSから、ビデオストリームおよびオーディオストリームがそれぞれ抽出される。ここで、ビデオストリームは、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持っている。
 また、多重分離部202では、トランスポートストリームTSのトランスポートレイヤ(コンテナのレイヤ)に挿入されている種々の情報が抽出されて、制御部203に送られる。この際、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSデスクリプタ(fps_descriptor)も抽出される。このFPSデスクリプタには、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が記述されている。
 あるいは、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されている場合、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSエグジストデスクリプタ(fps_exit_descriptor)が抽出されることもある。
 制御部203では、フレーム周波数情報および階層数情報と、自己の復号能力に基づいて、どの階層まで復号可能であるかの判定が行われる。そして、この制御部203により、画像復号化部204における復号化階層が制御され、再生速度調整部205における画像再生速度が制御される。
 多重分離部202で分離されたビデオストリームは画像復号化部204に供給される。この画像復号化部204では、制御部203の制御のもと、ビデオストリームから選択的に所定階層以下の階層の符号化画像データが取り出されて復号化され、各ピクチャの画像データが順次得られる。このように復号化された各ピクチャの画像データは再生速度調整部205に供給される。
 再生速度調整部205では、各ピクチャの画像データによる画像再生速度が、制御部203の制御のもと、所定階層のピクチャのフレーム周波数に合致するように調整される。すなわち、再生速度調整部205からは、各ピクチャの画像データが、所定階層のピクチャのフレーム周波数(フレームレート)に合わせて順次出力される。この画像データは、画像表示部206に供給され、所定階層以下の各ピクチャの画像データによる画像が表示される。
 また、多重分離部202で分離されたオーディオストリームは音声復号化部207に供給される。この音声復号化部207では、オーディオストリームに対して復号化が施されて、画像復号化部204で得られる画像データに対応した音声データが得られる。この音声データは、音声出力部208に供給され、表示画像に対応した音声が出力される。
 図9のフローチャートは、図2に示すTV送信機100において、PMTの配下にFPSデスクリプタ(fps_descriptor)が配置される場合の送信処理手順の一例を示している。なお、図2に示すTV送信機100において、画像符号化部104では、上述したように、符号化された各階層のピクチャの画像データを持つ単一のビデオストリームが生成されるものである。
 まず、TV送信機100は、ステップST1において、送信処理を開始する。そして、TV送信機100は、ステップST2において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
 次に、TV送信機100は、ステップST3において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
 次に、TV送信機100は、ステップST4において、階層分類された各ピクチャの画像データを符号化する。この場合、第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に階層識別情報(temporal_id)を配置する。
 次に、TV送信機100は、ステップST5において、音声データを符号化する。そして、TV受信機100は、ステップST6において、FPSデスクリプタ(fps_descriptor)と、それを含むPMTを生成する。
 次に、TV送信機100は、ステップST7において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、ステップST8において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST9において、処理を終了する。
 図10のフローチャートは、図8に示すTV受信機200において、PMTの“ES_info_length”直下のデスクリプタループにFPSデスクリプタ(fps_descriptor)が配置されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の図9のフローチャートに示した送信処理手順に対応したものである。
 まず、TV受信機200は、ステップST11において、受信処理を開始する。そして、TV受信機200は、ステップST12において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
 次に、TV受信機200は、ステップST13において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。そして、TV受信機200は、ステップS14において、PMTからFPSデスクリプタ(fps_descriptor)を抽出し、自己の復号能力と比較して、復号すべき階層を決定する。
 次に、TV受信機200は、ステップST15において、ステップST14で決定した階層のピクチャの画像データを復号化する。そして、FPSデスクリプタ(fps_descriptor)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST16において、音声データを復号化して再生する。その後、TV受信機200は、ステップST17において、処理を終了する。
 図11のフローチャートは、図2に示すTV送信機100において、FPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示している。なお、図2に示すTV送信機100において、画像符号化部104では、上述したように、符号化された各階層の画像データを持つ単一のビデオストリームが生成されるものである。
 まず、TV送信機100は、ステップST21において、送信処理を開始する。そして、TV送信機100は、ステップST22において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
 次に、TV送信機100は、ステップST23において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
 次に、TV送信機100は、ステップST24において、階層分類された各ピクチャの画像データを符号化する。この場合、第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に階層識別情報(temporal_id)を配置する。また、TV送信機100は、FPSインフォ(fps_info)のSEIメッセージを付加する。
 次に、TV送信機100は、ステップST25において、音声データを符号化する。そして、TV受信機100は、ステップST26において、FPSエグジストデスクリプタ(fps_exist_descriptor)と、それを含むPMTを生成する。
 次に、TV送信機100は、ステップST27において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、ステップST28において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST29において、処理を終了する。
 図12のフローチャートは、図8に示すTV受信機200において、FPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の図11のフローチャートに示した送信処理手順に対応したものである。
 まず、TV受信機200は、ステップST31において、受信処理を開始する。そして、TV受信機200は、ステップST32において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
 次に、TV受信機200は、ステップST33において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。TV受信機200は、ステップS34において、PMTからFPSエグジストデスクリプタ(fps_exit_descriptor)を抽出し、「fps_exit」を見る。そして、TV受信機200は、ステップST35において、「fps_exit = 1」であるか否かを判断する。
 「fps_exit = 1」であるとき、TV受信機200は、ステップST36において、SEIメッセージとして付加されているFPSインフォ(fps_info)を抽出して、自己の復号能力と比較して、復号すべき階層を決定する。TV受信機200は、ステップST37において、ステップST36で決定した階層のピクチャの画像データを復号化する。そして、FPSインフォ(fps_info)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST38において、音声データを復号化して再生する。その後、TV受信機200は、ステップST39において、処理を終了する。
 また、ステップST35で「fps_exit = 0」であるとき、TV受信機200は、ステップST40において、画像データを通常復号して再生する。そして、TV受信機200は、ステップST38において、音声データを復号化して再生する。その後、TV受信機200は、ステップST39において、処理を終了する。
 以上説明したように、図1に示すTV送受信システム10において、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化された各階層の画像データを持つビデオストリームが送信されるものである。そのため、送信側においては、1個の番組または1個のファイルを送信するだけで、多様なフレーム周波数に対応したサービスを提供でき、運営コストの削減が可能となる。
 一方、受信側では、選択的に、所定階層以下の階層の符号化画像データを取り出して復号化でき、自己の再生能力に適したフレーム周波数で再生が可能となり、受信機の普及促進に効果的となる。ここで、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化されており、受信機では、所定階層よりも上位の階層の復号化を行うことが必要なく、自己の再生能力を効果的に使用可能となる。
 また、図1に示すTV送受信システム10において、画像符号化部104は、符号化された各階層の画像データを持つ単一のビデオストリームを生成し、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報(temporal_id)を付加するものである。そのため、受信側では、階層識別情報に基づいて、所定階層以下の階層の符号化画像データを選択的に取り出すことを良好に行うことができる。
 また、図1に示すTV送受信システム10において、階層分類部103は、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、この下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データを複数の階層に分類するものである。そのため、階層を1つ上げる毎にフレーム周波数が2倍となるので、受信側では、最下位の階層のピクチャのフレーム周波数情報のみで、各階層におけるフレーム周波数を容易に認識可能となる。
 また、図1に示すTV送受信システム10において、コンテナのレイヤ(トランスポートレイヤ)あるいはビデオレイヤに最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を挿入するものである。そのため、受信側では、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を、容易に取得可能となる。
 <2.変形例>
 [別PIDの例]
 なお、上述実施の形態においては、画像符号化部104では、符号化された各階層の画像データを持つ単一のビデオストリームが生成される例、つまり同一PIDの例を示した。しかし、画像符号化部104において、複数の階層のそれぞれの画像データを持つ複数のビデオストリームが生成されるようにすることも考えられる。
 この場合、図13に示すように、各階層を別のPIDにより振り分けることになる。ビデオ層の階層化によって分離された各階層のNALユニットをトランスポートストリームパケットに多重化するときに、それぞれ別PIDが割り当てられる。上述の実施の形態のように、同一PIDに全ての階層を乗せる場合と比較して、以下のような違いがある。
 ・「同一PIDの場合」
  (a)受信側(復号側)では、1個のPIDのTSパケットのみ取得する。
  (b)nalヘッダを解析して、「temporal_id」を検出し、必要な「temporal_id」を持つnalユニットのみを復号する。
 ・「別PIDの場合」
  (a)受信側(復号側)では、必要な複数のPIDのTSパケットを取得する。
  (b)取得したPIDのTSパケット内のnalユニット全てを復号する。「temporal_id」は、有っても無くてもよい。
 別PIDの場合は、PMTの“program_info_length”直下のデスクリプタループに、例えば、ストラクチャデスクリプタ(structure_descriptor)が配置される。図14は、ストラクチャデスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、ストラクチャデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf1”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
 「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、例えば、図13に示す例のように30fpsの場合は、30を示す“0x1e”となる。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、例えば、図13に示す例のように第3階層まである場合は、3を示す“0x03”となる。
 forループ内には、各階層に割り当てられたPID(layer_PID)が全て記述される。記述順は、例えば第1階層から順とされる。復号側では、「base」の値と列記されたPIDから、どのPIDのTSパケットを取得すれば良いかがわかる。
 また、別PIDで図15(b)に示すFPSインフォ(fps_info)のSEIメッセージを使用することも考えられる。この場合、図15(a)に示すストラクチャデスクリプタ(structure_descriptor)が、“program_info_length”直下のデスクリプタループに配置される。受信側(復号側)では、このストラクチャデスクリプタのforループの最初に記述されている第1階層のPIDのTSパケットを取得し、その中のSEIメッセージであるFPSインフォ(fps_info)を抽出する。その「base」の値から復号すべき階層を判断し、このストラクチャデスクリプタの「layer_PID」から取得すべきTSパケットのPIDを検出して所望のTSパケットを取得して復号する。
 図16のフローチャートは、TV送信機100が各階層の画像データを別PIDで符号化し、かつPMTの配下にFPSデスクリプタ(structure_descriptor)を配置するように構成された場合の送信処理手順の一例を示している。
 まず、TV送信機100は、ステップST51において、送信処理を開始する。そして、TV送信機100は、ステップST52において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
 次に、TV送信機100は、ステップST53において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
 次に、TV送信機100は、ステップST54において、階層分類された各ピクチャの画像データを符号化する。第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。
 次に、TV送信機100は、ステップST55において、音声データを符号化する。そして、TV受信機100は、ステップST56において、ストラクチャデスクリプタ(structure_descriptor)と、それを含むPMTを生成する。
 次に、TV送信機100は、ステップST57において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、画像データを、階層毎に、別のPIDに多重化する。そして、TV送信機100は、ステップST58において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST59において、処理を終了する。
 図17のフローチャートは、図8に示すTV受信機200において、各階層の画像データが別PIDで符号化され、かつPMTの配下にストラクチャデスクリプタ(structure_descriptor)が配置されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の図16のフローチャートに示した送信処理手順に対応したものである。
 まず、TV受信機200は、ステップST61において、受信処理を開始する。そして、TV受信機200は、ステップST62において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
 次に、TV受信機200は、ステップST63において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。そして、TV受信機200は、ステップS64において、PMTからストラクチャデスクリプタ(structure_descriptor)を抽出し、自己の復号能力と比較して、復号すべき階層を決定する。
 次に、TV受信機200は、ステップST65において、ステップST64で決定した階層のピクチャの画像データを各PIDのTSパケットから復号化する。そして、ストラクチャデスクリプタ(structure_descriptor)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST66において、音声データを復号化して再生する。その後、TV受信機200は、ステップST67において、処理を終了する。
 図18のフローチャートは、TV送信機100が各階層の画像データを別PIDで符号化し、FPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示している。
 まず、TV送信機100は、ステップST71において、送信処理を開始する。そして、TV送信機100は、ステップST72において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
 次に、TV送信機100は、ステップST73において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
 次に、TV送信機100は、ステップST74において、階層分類された各ピクチャの画像データを符号化する。第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、FPSインフォ(fps_info)のSEIメッセージを付加する。
 次に、TV送信機100は、ステップST75において、音声データを符号化する。そして、TV受信機100は、ステップST76において、ストラクチャデスクリプタ(structure_descriptor)と、それを含むPMTを生成する。
 次に、TV送信機100は、ステップST77において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、画像データを、階層毎に、別のPIDに多重化する。そして、TV送信機100は、ステップST78において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST79において、処理を終了する。
 図19のフローチャートは、図8に示すTV受信機200において、各階層の画像データが別PIDで符号化され、かつFPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の図18のフローチャートに示した送信処理手順に対応したものである。
 まず、TV受信機200は、ステップST81において、受信処理を開始する。そして、TV受信機200は、ステップST82において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
 次に、TV受信機200は、ステップST83において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。TV受信機200は、ステップS84において、PMTからストラクチャデスクリプタ(structure_descriptor)を抽出する。そして、TV受信機200は、ステップST85において、ストラクチャデスクリプタが有ったか否かを判断する。
 ストラクチャデスクリプタがあるとき、TV受信機200は、ステップST86において、SEIメッセージとして付加されているFPSインフォ(fps_info)を抽出して、自己の復号能力と比較して、復号すべき階層を決定する。TV受信機200は、ステップST77において、ステップST76で決定した階層のピクチャの画像データを各PIDのTSパケットから復号化する。そして、FPSインフォ(fps_info)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST88において、音声データを復号化して再生する。その後、TV受信機200は、ステップST89において、処理を終了する。
 また、ステップST85でストラクチャデスクリプタがないとき、TV受信機200は、ステップST90において、画像データを通常復号して再生する。そして、TV受信機200は、ステップST88において、音声データを復号化して再生する。その後、TV受信機200は、ステップST89において、処理を終了する。
 図20は、(a)同一PID(PES)、かつPMTに構造記述、(b)同一PID(PES)、かつSEIに構造記述、(c)別PID(PES)、かつPMTに構造記述、(d)別PID(PES)、かつSEIに構造記述の、上述した4つの方法における付加情報を比較して示している。
 [階層分類および画像符号化の他の例]
 また、上述実施の形態においては、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、この下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データを複数の階層に分類する例を示した。しかし、分類の仕方は、この例に限定されるものではない。例えば、以下のような分類の仕方も可能である。
 「他の例1」
 図21(a)は、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層および第2階層の2階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
 また、第1階層の各ピクチャの間に時間的に等間隔に2個のBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の所属ピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は3倍となる。そのため、図示のように、第1階層のみのフレーム周波数が40fpsのとき、第1、第2の合成階層のフレーム周波数は120fpsとなる。
 この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられている。
 図21(b)は、図21(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
 「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、40を示す“0x28”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、2を示す“0x02”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x03”とされ、3倍であることが記述されている。
 「他の例2」
 図22(a)も、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層および第2階層の2階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
 また、第1階層の各ピクチャの間に時間的に等間隔に4個のBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の所属のピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は5倍となる。そのため、図示のように、第1階層のみのフレーム周波数が24fpsのとき、第1、第2の合成階層のフレーム周波数は120fpsとなる。
 この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられている。
 図22(b)は、図22(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
 「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、24を示す“0x18”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、2を示す“0x02”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x05”とされ、5倍であることが記述されている。
 「他の例3」
 図23(a)も、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層から第4階層までの4階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
 また、第1階層の各ピクチャの時間的中央位置にBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の合成階層所属のピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は2倍となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1、第2の合成階層のフレーム周波数は24fpsとなる。
 また、第1階層の各ピクチャの間に時間的に等間隔に4個のBピクチャが配置され、それらは第3階層に所属するようにされる。この第3階層のBピクチャは、第3階層および/または第2階層以下の階層の所属ピクチャしか参照しないように符号化される。そのため、第3階層は、第1から第3の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1から第3の合成階層を復号した場合は、フレーム周波数は5倍となる。また、第1、第2の合成階層のフレーム周波数に対しては、2.5倍のフレーム周波数となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1から第3の合成階層のフレーム周波数は60fpsとなる。
 また、第1階層、第3階層の各ピクチャの間の時間的中央位置にBピクチャが配置され、それらは第4階層に所属するようにされる。ただし、一部は第2階層のピクチャと同じなので、欠けている。この第4階層のBピクチャは、第4階層および/または第3階層以下の階層の所属ピクチャしか参照しないように符号化される。そのため、第4階層は、第1から第4の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1から第4の合成階層を復号した場合は、フレーム周波数は10倍となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1から第4の合成階層のフレーム周波数は120fpsとなる。
 この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられ、第3階層所属ピクチャには「temporal_id=2」が割り当てられ、第4階層所属ピクチャには「temporal_id=3」が割り当てられている。
 図23(b)は、図23(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
 「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、12を示す“0x0C”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、4を示す“0x04”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x03”とされ、2倍であることが記述されている。また、第3階層に関して“0x05”とされ、5倍であることが記述されている。さらに、第4階層に関して“0x0a”とされ、10倍であることが記述されている。
 [その他]
 また、上述実施の形態においては、TV送信機100とTV受信機200からなるTV送受信システム10を示したが、本技術を適用し得るTV送受信システムの構成は、これに限定されるものではない。例えば、受信機200の部分が、例えば、(HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。
 また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG-2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。
 また、本技術は、以下のような構成を取ることもできる。
 (1)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
 上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
 上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
 上記画像符号化部は、
 被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
 送信装置。
 (2)上記画像符号化部は、
 上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
 上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
 前記(1)に記載の送信装置。
 (3)上記階層分類部は、
 最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、上記下位の全ての階層の所属ピクチャの時間的中央に位置するように、上記動画像データを構成する各ピクチャの画像データを複数の階層に分類する
 前記(1)または(2)に記載の送信装置。
 (4)上記コンテナに最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を挿入する情報挿入部をさらに備える
 前記(1)から(3)のいずれかに記載の送信装置。
 (5)上記情報挿入部は、
 上記各情報を、コンテナのレイヤ、あるいはビデオのレイヤに挿入する
 前記(4)に記載の送信装置。
 (6)上記情報挿入部は、
 上記各情報を上記ビデオのレイヤに挿入するとき、上記コンテナのレイヤに、上記ビデオのレイヤに上記各情報の挿入が有るか否かを識別する識別情報をさらに挿入する
 前記(5)に記載の送信装置。
 (7)上記画像符号化部は、
 上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームを生成する
 前記(1)に記載の送信装置。
 (8)上記コンテナのレイヤに、各階層のビデオストリームを識別するためのストリーム識別情報を挿入する識別情報挿入部をさらに備える
  前記(7)に記載の送信装置。
 (9)動画像データを構成する各ピクチャの画像データを複数の階層に分類するステップと、
 上記分類された各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化し、該符号化された各階層の画像データを持つビデオストリームを生成するステップと、
 上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信するステップとを備える
 送信方法。
 (10)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
 上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
 上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
 上記画像符号化部は、
 上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
 上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
 送信装置。
 (11)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
 上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部とを備え、
 上記画像符号化部は、
 被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
 符号化装置。
 (12)上記画像符号化部は、
 上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
 上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
 請求項11に記載の符号化装置。
 (13)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る画像復号化部と、
 上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に合致するように調整する再生速度調整部とを備える
 受信装置。
 (14)上記コンテナには、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報が挿入されており、
 上記コンテナに挿入されている各情報と自己の復号能力に基づいて、上記画像復号化部における復号化階層を制御し、上記再生速度調整部における画像再生速度を制御する制御部をさらに備える
 前記(13)に記載の受信装置。
 (15)上記コンテナには、上記符号化された各階層の画像データを持つ単一の上記ビデオストリームが含まれ、
 上記符号化された各階層の画像データには、ピクチャ毎に、所属階層を識別するための階層識別情報が付加されており、
 上記画像復号化部は、
 上記階層識別情報に基づいて、上記単一のビデオストリームから選択的に上記所定階層以下の階層の符号化画像データを取り出して復号化する
 前記(13)に記載の受信装置。
 (16)上記コンテナには、上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームが含まれ、
 上記コンテナのレイヤには、各階層のビデオストリームを識別するためのストリーム識別情報が挿入されており、
 上記画像符号化部は、
 上記ストリーム識別情報に基づいて、選択的に、上記所定階層以下の階層のビデオストリームから符号化画像データを取り出して復号化する
 前記(13)に記載の受信装置。
 (17)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信するステップと、
 上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得るステップと、
 上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整するステップとを備える
 受信方法。
 (18)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得る画像復号化部と、
 上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整する再生速度調整部とを備える
 復号化装置。
 本技術の主な特徴は、動画像データを構成する各ピクチャの画像データが複数の階層に分類し、各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化し、符号化された各階層の画像データを持つビデオストリームを所定フォーマットのコンテナで送信することで、高フレーム周波数のサービスを容易に実現可能としたことである(図2、図3参照)。
 10・・・TV送受信システム
 100・・・TV送信機
 101・・・源画像データ供給部
 102・・・復号装置
 103・・・階層分類部
 104・・・画像符号化部
 105・・・音声符号化部
 106・・・多重化部
 107・・・付加情報発生部
 108・・・変調/送信アンテナ部
 200・・・TV受信機
 201・・・受信アンテナ/復調部
 202・・・多重分離部
 203・・・制御部
 204・・・画像復号化部
 205・・・再生速度調整部
 206・・・画像表示部
 207・・・音声復号化部
 208・・・音声出力部

Claims (18)

  1.  動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
     上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
     上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
     上記画像符号化部は、
     被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
     送信装置。
  2.  上記画像符号化部は、
     上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
     上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
     請求項1に記載の送信装置。
  3.  上記階層分類部は、
     最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、上記下位の全ての階層の所属ピクチャの時間的中央に位置するように、上記動画像データを構成する各ピクチャの画像データを複数の階層に分類する
     請求項1に記載の送信装置。
  4.  上記コンテナに最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を挿入する情報挿入部をさらに備える
     請求項1に記載の送信装置。
  5.  上記情報挿入部は、
     上記各情報を、コンテナのレイヤ、あるいはビデオのレイヤに挿入する
     請求項4に記載の送信装置。
  6.  上記情報挿入部は、
     上記各情報を上記ビデオのレイヤに挿入するとき、上記コンテナのレイヤに、上記ビデオのレイヤに上記各情報の挿入が有るか否かを識別する識別情報をさらに挿入する
     請求項5に記載の送信装置。
  7.  上記画像符号化部は、
     上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームを生成する
     請求項1に記載の送信装置。
  8.  上記コンテナのレイヤに、各階層のビデオストリームを識別するためのストリーム識別情報を挿入する識別情報挿入部をさらに備える
     請求項7に記載の送信装置。
  9.  動画像データを構成する各ピクチャの画像データを複数の階層に分類するステップと、
     上記分類された各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化し、該符号化された各階層の画像データを持つビデオストリームを生成するステップと、
     上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信するステップとを備える
     送信方法。
  10.  動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
     上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
     上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
     上記画像符号化部は、
     上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
     上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
     送信装置。
  11.  動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
     上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部とを備え、
     上記画像符号化部は、
     被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
     符号化装置。
  12.  上記画像符号化部は、
     上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
     上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
     請求項11に記載の符号化装置。
  13.  動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
     上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る画像復号化部と、
     上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に合致するように調整する再生速度調整部とを備える
     受信装置。
  14.  上記コンテナには、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報が挿入されており、
     上記コンテナに挿入されている各情報と自己の復号能力に基づいて、上記画像復号化部における復号化階層を制御し、上記再生速度調整部における画像再生速度を制御する制御部をさらに備える
     請求項13に記載の受信装置。
  15.  上記コンテナには、上記符号化された各階層の画像データを持つ単一の上記ビデオストリームが含まれ、
     上記符号化された各階層の画像データには、ピクチャ毎に、所属階層を識別するための階層識別情報が付加されており、
     上記画像復号化部は、
     上記階層識別情報に基づいて、上記単一のビデオストリームから選択的に上記所定階層以下の階層の符号化画像データを取り出して復号化する
     請求項13に記載の受信装置。
  16.  上記コンテナには、上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームが含まれ、
     上記コンテナのレイヤには、各階層のビデオストリームを識別するためのストリーム識別情報が挿入されており、
     上記画像符号化部は、
     上記ストリーム識別情報に基づいて、選択的に、上記所定階層以下の階層のビデオストリームから符号化画像データを取り出して復号化する
     請求項13に記載の受信装置。
  17.  動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信するステップと、
     上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得るステップと、
     上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整するステップとを備える
     受信方法。
  18.  動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得る画像復号化部と、
     上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整する再生速度調整部とを備える
     復号化装置。
PCT/JP2013/067147 2012-06-28 2013-06-21 送信/受信装置、方法、符号化/復号化装置 WO2014002914A1 (ja)

Priority Applications (11)

Application Number Priority Date Filing Date Title
IN2408MUN2014 IN2014MN02408A (ja) 2012-06-28 2013-06-21
US14/399,282 US10250901B2 (en) 2012-06-28 2013-06-21 Transmitting/receiving device, method, and coding/decoding device
BR112014032108-6A BR112014032108B1 (pt) 2012-06-28 2013-06-21 Dispositivos transmissor, receptor, de codificação e de decodificação, e, métodos de transmissão e de recepção
KR1020147035423A KR102161863B1 (ko) 2012-06-28 2013-06-21 송신/수신 장치, 방법, 부호화/복호화 장치
JP2014522604A JP6576635B2 (ja) 2012-06-28 2013-06-21 送信装置、送信方法、受信装置および受信方法
CN201380032438.1A CN104396264B (zh) 2012-06-28 2013-06-21 发射/接收设备、方法以及编码/解码设备
EP20191575.8A EP3758376A1 (en) 2012-06-28 2013-06-21 Receiving device and corresponding method
EP13808997.4A EP2869555A4 (en) 2012-06-28 2013-06-21 SENDING / RECEIVING DEVICE, METHOD AND CODING / DECODING DEVICE
RU2014151717A RU2641470C2 (ru) 2012-06-28 2013-06-21 Устройство передачи/приема, способ и устройство кодирования/декодирования
US16/223,154 US10750199B2 (en) 2012-06-28 2018-12-18 Transmitting/receiving device, method, and coding/decoding device
US16/939,992 US11979594B2 (en) 2012-06-28 2020-07-27 Transmitting/receiving device, method, and coding/decoding device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012144979 2012-06-28
JP2012-144979 2012-06-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/399,282 A-371-Of-International US10250901B2 (en) 2012-06-28 2013-06-21 Transmitting/receiving device, method, and coding/decoding device
US16/223,154 Continuation US10750199B2 (en) 2012-06-28 2018-12-18 Transmitting/receiving device, method, and coding/decoding device

Publications (1)

Publication Number Publication Date
WO2014002914A1 true WO2014002914A1 (ja) 2014-01-03

Family

ID=49783066

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/067147 WO2014002914A1 (ja) 2012-06-28 2013-06-21 送信/受信装置、方法、符号化/復号化装置

Country Status (9)

Country Link
US (3) US10250901B2 (ja)
EP (2) EP3758376A1 (ja)
JP (1) JP6576635B2 (ja)
KR (1) KR102161863B1 (ja)
CN (1) CN104396264B (ja)
BR (1) BR112014032108B1 (ja)
IN (1) IN2014MN02408A (ja)
RU (1) RU2641470C2 (ja)
WO (1) WO2014002914A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015133250A1 (ja) * 2014-03-07 2015-09-11 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2015204537A (ja) * 2014-04-14 2015-11-16 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2015177966A1 (ja) * 2014-05-23 2015-11-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化方法及び画像符号化装置
JP2016054548A (ja) * 2013-10-18 2016-04-14 パナソニック株式会社 画像復号方法及び画像復号装置
JP2016529781A (ja) * 2013-07-12 2016-09-23 クゥアルコム・インコーポレイテッドQualcomm Incorporated 高効率ビデオコーディング拡張におけるターゲット出力レイヤの選択
JP2017055438A (ja) * 2016-11-16 2017-03-16 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JPWO2015125719A1 (ja) * 2014-02-21 2017-03-30 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2017228895A (ja) * 2016-06-21 2017-12-28 Necプラットフォームズ株式会社 階層符号化信号間引き装置、制御方法およびプログラム
RU2687956C2 (ru) * 2014-08-07 2019-05-17 Сони Корпорейшн Передающее устройство, способ передачи и приемное устройство
JP2019092202A (ja) * 2014-05-23 2019-06-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像符号化方法及び画像復号装置
JP2020025330A (ja) * 2014-04-25 2020-02-13 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5947269B2 (ja) * 2013-09-24 2016-07-06 ソニー株式会社 符号化装置、符号化方法、送信装置および受信装置
US10284858B2 (en) * 2013-10-15 2019-05-07 Qualcomm Incorporated Support of multi-mode extraction for multi-layer video codecs
GB2553588B (en) 2016-09-13 2020-06-24 Ge Aviat Systems Ltd Multi-semiconductor solid state power controllers and method for managing inductive switching transients thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007520149A (ja) * 2004-01-29 2007-07-19 サムスン エレクトロニクス カンパニー リミテッド エンコーダ部からスケーラビリティを提供するスケーラブルビデオコーディング装置および方法
JP2009510952A (ja) * 2005-09-29 2009-03-12 トムソン リサーチ ファンディング コーポレイション 拘束された可変ビットレート(vbr)ビデオ・エンコードの方法および装置
JP2009540629A (ja) * 2006-03-03 2009-11-19 ヴィドヨ,インコーポレーテッド スケーラブルビデオ通信でエラー耐性、ランダムアクセス、およびレート制御を提供するシステムおよび方法
JP2010507346A (ja) * 2006-10-16 2010-03-04 ヴィドヨ,インコーポレーテッド スケーラブルビデオ符号化においてシグナリング及び時間レベルスイッチングを実施するためのシステム及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200625964A (en) * 2004-07-20 2006-07-16 Qualcomm Inc Method and apparatus for encoder assisted-frame rate up conversion (EA-FRUC) for video compression
US8436889B2 (en) 2005-12-22 2013-05-07 Vidyo, Inc. System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers
KR20070108433A (ko) * 2006-01-09 2007-11-12 한국전자통신연구원 청크 디스크립터를 이용한 svc 파일포맷에서의 비디오데이터 공유방법
US8693538B2 (en) 2006-03-03 2014-04-08 Vidyo, Inc. System and method for providing error resilience, random access and rate control in scalable video communications
RU2395174C1 (ru) 2006-03-30 2010-07-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования/кодирования сигнала видео
EP2041976A4 (en) * 2006-07-12 2012-06-20 Nokia Corp SIGNALING OF SCALABILITY INFORMATION FROM THE INTERESTING REGION IN MEDIA FILES
CA2692484C (en) * 2007-07-02 2013-04-16 Lg Electronics Inc. Digital broadcasting system and data processing method
US8230100B2 (en) * 2007-07-26 2012-07-24 Realnetworks, Inc. Variable fidelity media provision system and method
GB2456572B (en) * 2008-01-18 2012-03-14 Picochip Designs Ltd Femtocell device
KR101580516B1 (ko) * 2008-04-07 2015-12-28 엘지전자 주식회사 방송 신호 수신 방법 및 방송 신호 수신 장치
EP2194717A2 (en) * 2008-12-08 2010-06-09 Electronics and Telecommunications Research Institute Method for generating and processing hierarchical PES packet for digital satellite broadcasting based on SVC video
CN101924944B (zh) * 2009-06-15 2013-06-05 华为技术有限公司 可伸缩视频编码操作点选择方法、信息提供方法及设备
JP5407968B2 (ja) * 2009-06-29 2014-02-05 ソニー株式会社 立体画像データ送信装置および立体画像データ受信装置
KR20120015260A (ko) * 2010-07-20 2012-02-21 한국전자통신연구원 스케일러빌리티 및 뷰 정보를 제공하는 스트리밍 서비스를 위한 방법 및 장치
CN103314591B (zh) * 2011-01-14 2017-02-08 维德约股份有限公司 时间可缩放性的高层句法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007520149A (ja) * 2004-01-29 2007-07-19 サムスン エレクトロニクス カンパニー リミテッド エンコーダ部からスケーラビリティを提供するスケーラブルビデオコーディング装置および方法
JP2009510952A (ja) * 2005-09-29 2009-03-12 トムソン リサーチ ファンディング コーポレイション 拘束された可変ビットレート(vbr)ビデオ・エンコードの方法および装置
JP2009540629A (ja) * 2006-03-03 2009-11-19 ヴィドヨ,インコーポレーテッド スケーラブルビデオ通信でエラー耐性、ランダムアクセス、およびレート制御を提供するシステムおよび方法
JP2010507346A (ja) * 2006-10-16 2010-03-04 ヴィドヨ,インコーポレーテッド スケーラブルビデオ符号化においてシグナリング及び時間レベルスイッチングを実施するためのシステム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2869555A4 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595031B2 (en) 2013-07-12 2020-03-17 Qualcomm Incorporated Selection of target output layers in high efficiency video coding extensions
JP2016529781A (ja) * 2013-07-12 2016-09-23 クゥアルコム・インコーポレイテッドQualcomm Incorporated 高効率ビデオコーディング拡張におけるターゲット出力レイヤの選択
JP5909026B2 (ja) * 2013-10-18 2016-04-26 パナソニック株式会社 画像符号化方法及び画像符号化装置
US11785231B2 (en) 2013-10-18 2023-10-10 Sun Patent Trust Image coding method, image decoding method, image coding apparatus, receiving apparatus, and transmitting apparatus
JP2016054548A (ja) * 2013-10-18 2016-04-14 パナソニック株式会社 画像復号方法及び画像復号装置
JP2018186560A (ja) * 2013-10-18 2018-11-22 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置
JPWO2015056409A1 (ja) * 2013-10-18 2017-03-09 パナソニック株式会社 画像符号化方法及び画像符号化装置
US11778208B2 (en) 2013-10-18 2023-10-03 Sun Patent Trust Image coding method, image decoding method, image coding apparatus, receiving apparatus, and transmitting apparatus
JP2020005275A (ja) * 2013-10-18 2020-01-09 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置
US11647211B2 (en) 2013-10-18 2023-05-09 Sun Patent Trust Image coding method, image decoding method, image coding apparatus, receiving apparatus, and transmitting apparatus
US10674181B2 (en) 2014-02-21 2020-06-02 Sony Corporation Transmission device, transmission method, reception device, and reception method
US10735771B2 (en) 2014-02-21 2020-08-04 Sony Corporation Transmission device, transmission method, reception device, and reception method
US11330303B2 (en) 2014-02-21 2022-05-10 Sony Corporation Transmission device, transmission method, reception device, and reception method
JPWO2015125719A1 (ja) * 2014-02-21 2017-03-30 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
RU2671992C2 (ru) * 2014-03-07 2018-11-08 Сони Корпорейшн Передающее устройство, способ передачи, приемное устройство и способ приема
WO2015133250A1 (ja) * 2014-03-07 2015-09-11 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN110324628B (zh) * 2014-03-07 2023-09-01 索尼公司 发送装置、发送方法、接收装置以及接收方法
US11394984B2 (en) 2014-03-07 2022-07-19 Sony Corporation Transmission device, transmission method, reception device, and reception method
CN106063267B (zh) * 2014-03-07 2019-07-23 索尼公司 发送装置、发送方法、接收装置以及接收方法
CN110324628A (zh) * 2014-03-07 2019-10-11 索尼公司 发送装置、发送方法、接收装置以及接收方法
US10455243B2 (en) 2014-03-07 2019-10-22 Sony Corporation Transmission device, transmission method, reception device, and reception method for a first stream having encoded image data of pictures on a low-level side and a second stream having encoded image data of pictures on a high-level side
US11122280B2 (en) 2014-03-07 2021-09-14 Sony Corporation Transmission device, transmission method, reception device, and reception method using hierarchical encoding to allow decoding based on device capability
US11758160B2 (en) 2014-03-07 2023-09-12 Sony Group Corporation Transmission device, transmission method, reception device, and reception method
CN106063267A (zh) * 2014-03-07 2016-10-26 索尼公司 发送装置、发送方法、接收装置以及接收方法
JP2015171054A (ja) * 2014-03-07 2015-09-28 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10506264B2 (en) 2014-04-14 2019-12-10 Sony Corporation Transmission device, transmission method, reception device, and reception method
JP2015204537A (ja) * 2014-04-14 2015-11-16 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US11800162B2 (en) 2014-04-14 2023-10-24 Sony Corporation Transmission device, transmission method, reception device, and reception method
JP2021177670A (ja) * 2014-04-25 2021-11-11 ソニーグループ株式会社 送信装置および送信方法
US11134254B2 (en) 2014-04-25 2021-09-28 Sony Corporation Transmission apparatus, transmission method, reception apparatus, and reception method
JP2020025330A (ja) * 2014-04-25 2020-02-13 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP7160158B2 (ja) 2014-04-25 2022-10-25 ソニーグループ株式会社 送信装置および送信方法
CN105308972B (zh) * 2014-05-23 2020-03-27 松下电器(美国)知识产权公司 图像编码方法及装置、记录介质、图像解码方法及装置
JP2019092202A (ja) * 2014-05-23 2019-06-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像符号化方法及び画像復号装置
JPWO2015177966A1 (ja) * 2014-05-23 2017-04-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像符号化方法及び画像符号化装置
CN105308972A (zh) * 2014-05-23 2016-02-03 松下电器(美国)知识产权公司 图像编码方法以及图像编码装置
WO2015177966A1 (ja) * 2014-05-23 2015-11-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化方法及び画像符号化装置
EP3910960A1 (en) * 2014-08-07 2021-11-17 Sony Group Corporation Transmission device, transmission method, and reception device
RU2687956C2 (ru) * 2014-08-07 2019-05-17 Сони Корпорейшн Передающее устройство, способ передачи и приемное устройство
JP2017228895A (ja) * 2016-06-21 2017-12-28 Necプラットフォームズ株式会社 階層符号化信号間引き装置、制御方法およびプログラム
JP2017055438A (ja) * 2016-11-16 2017-03-16 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Also Published As

Publication number Publication date
US20190124352A1 (en) 2019-04-25
KR20150035699A (ko) 2015-04-07
EP2869555A1 (en) 2015-05-06
CN104396264A (zh) 2015-03-04
US20150124884A1 (en) 2015-05-07
CN104396264B (zh) 2019-04-02
EP2869555A4 (en) 2016-03-16
US11979594B2 (en) 2024-05-07
BR112014032108B1 (pt) 2022-12-27
IN2014MN02408A (ja) 2015-08-21
BR112014032108A2 (pt) 2017-08-01
JPWO2014002914A1 (ja) 2016-05-30
US10250901B2 (en) 2019-04-02
EP3758376A1 (en) 2020-12-30
RU2014151717A (ru) 2016-07-10
KR102161863B1 (ko) 2020-10-05
US20200359044A1 (en) 2020-11-12
US10750199B2 (en) 2020-08-18
RU2641470C2 (ru) 2018-01-17
JP6576635B2 (ja) 2019-09-18

Similar Documents

Publication Publication Date Title
JP6576635B2 (ja) 送信装置、送信方法、受信装置および受信方法
US20230007316A1 (en) Apparatus for transmitting broadcast signal, apparatus for receiving broadcast signal, method for transmitting broadcast signal and method for receiving broadcast signal
US11659152B2 (en) Reception device, display control method, transmission device, and transmission method for program content type
JP5774652B2 (ja) 送信装置、送信方法、受信装置および受信方法
US10368144B2 (en) Method and device for transmitting and receiving broadcast signal
US20130215240A1 (en) Receiver apparatus and output method
JP5393849B2 (ja) 送受信システムおよび送受信方法
US10616618B2 (en) Broadcast signal transmitting device, broadcast signal receiving device, broadcast signal transmitting method and broadcast signal receiving method
US20130113883A1 (en) Receiving device and output method
JP5957770B2 (ja) 映像処理装置、方法、プログラム、記録媒体及び集積回路
US20120113220A1 (en) Video output device, video output method, reception device and reception method
US20170142453A1 (en) Transmission device, transmission method, reception device, and reception method
US20210195254A1 (en) Device for transmitting broadcast signal, device for receiving broadcast signal, method for transmitting broadcast signal, and method for receiving broadcast signal
JP2018011341A (ja) 送信装置、送信方法、受信装置および受信方法
JP5961717B2 (ja) 受信装置、受信方法、および送受信方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13808997

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14399282

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2014522604

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20147035423

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2014151717

Country of ref document: RU

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2013808997

Country of ref document: EP

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112014032108

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112014032108

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20141219