WO2015008490A1 - 送信方法、受信方法、送信装置及び受信装置 - Google Patents

送信方法、受信方法、送信装置及び受信装置 Download PDF

Info

Publication number
WO2015008490A1
WO2015008490A1 PCT/JP2014/003799 JP2014003799W WO2015008490A1 WO 2015008490 A1 WO2015008490 A1 WO 2015008490A1 JP 2014003799 W JP2014003799 W JP 2014003799W WO 2015008490 A1 WO2015008490 A1 WO 2015008490A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
mpu
video
data
control information
Prior art date
Application number
PCT/JP2014/003799
Other languages
English (en)
French (fr)
Inventor
遠間 正真
賀敬 井口
西 孝啓
加藤 久也
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN201480028426.6A priority Critical patent/CN105393547B/zh
Priority to EP14825951.8A priority patent/EP3024244B1/en
Publication of WO2015008490A1 publication Critical patent/WO2015008490A1/ja
Priority to US14/968,947 priority patent/US10484734B2/en
Priority to US16/597,989 priority patent/US11064243B2/en
Priority to US17/346,442 priority patent/US11770577B2/en
Priority to US18/207,244 priority patent/US20230336810A1/en
Priority to US18/233,925 priority patent/US20230396830A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Definitions

  • the present disclosure relates to a transmission method, a reception method, a transmission method, and a reception device.
  • Non-Patent Document 1 discloses a technique for transmitting encoded media data for each packet in accordance with MMT.
  • MPEG media transport MMT
  • a transmission method includes: a video control information transmission step for transmitting video control information for reproducing video data in units that can be individually reproduced; a video data transmission step for transmitting the video data; Audio for determining the transmission order of audio control information for reproducing audio data in a reproduction section corresponding to the reproduction section of the video data after the video control information, and transmitting the audio control information in the determined transmission order A control information transmission step; and an audio data transmission step of transmitting the audio data.
  • the present disclosure can provide a transmission method or a reception method that can reduce a delay time from when data is received until video and audio are reproduced in the reception device.
  • FIG. 1 is a diagram illustrating a configuration example of an MP4 file.
  • FIG. 2 is a diagram illustrating a configuration example of MMT data.
  • FIG. 3 is a diagram illustrating audio samples that can start decoding in MMT data.
  • FIG. 4 is a diagram showing audio samples that can start decoding in MPEG-2 TS.
  • FIG. 5 is a diagram illustrating a configuration example of transmission data according to the first embodiment.
  • FIG. 6 is a diagram showing the data transmission order according to the first embodiment.
  • FIG. 7 is a block diagram of the transmission apparatus according to the first embodiment.
  • FIG. 8 is a flowchart of the transmission process according to the first embodiment.
  • FIG. 9 is a flowchart of a transmission process according to the first embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of an MP4 file.
  • FIG. 2 is a diagram illustrating a configuration example of MMT data.
  • FIG. 3 is a diagram illustrating audio samples that can start decoding in M
  • FIG. 10 is a diagram illustrating a configuration example of transmission data according to the second embodiment.
  • FIG. 11 is a block diagram of a transmission apparatus according to the second embodiment.
  • FIG. 12 is a flowchart of a transmission process according to the second embodiment.
  • FIG. 13 is a diagram illustrating a configuration example of transmission data according to the third embodiment.
  • FIG. 14 is a diagram illustrating a configuration example of transmission data according to Embodiment 3.
  • FIG. 15 is a block diagram of a transmission apparatus according to the third embodiment.
  • FIG. 16 is a flowchart of a transmission process according to the third embodiment.
  • FIG. 17 is a block diagram of a receiving apparatus according to the fourth embodiment.
  • FIG. 18 is a flowchart of a reception process according to the fourth embodiment.
  • FIG. 19 is a block diagram of a receiving apparatus according to the fifth embodiment.
  • FIG. 20 is a flowchart of a reception process according to the fifth embodiment.
  • FIG. 21 is a flowchart
  • Each segment includes a header portion and a storage portion for encoded data.
  • the receiving device separates an access unit (referred to as a sample in a format based on MP4 such as DASH and MMT) from the encoded data. Further, in order to obtain the PTS (Presentation Time Stamp) and DTS (Decoding Time Stamp) of the access unit, the receiving device needs to analyze the header part.
  • an access unit referred to as a sample in a format based on MP4 such as DASH and MMT
  • PTS Presentation Time Stamp
  • DTS Decoding Time Stamp
  • video and audio are packetized for each access unit, multiplexed into MPEG-2 TS (Transport Stream), and transmitted. Therefore, the receiving apparatus can perform access unit separation and PTS and DTS acquisition in units of packets.
  • the receiving device needs to acquire the header of the segment even during random access. Therefore, when the receiving device starts receiving a signal from the middle of the segment, the receiving device cannot decode the access unit of the segment. For this reason, the receiver can decode from the next segment.
  • the present inventor has found that there is a problem that the delay time until the start of decoding increases in random access.
  • FIG. 1 is a diagram showing an example of data storage in MP4.
  • the MP4 file includes a plurality of MP4 fragments (Fragments).
  • Each MP4 fragment includes a pair of moof and mdat.
  • the mdat includes a plurality of video samples and a plurality of audio samples that are alternately arranged.
  • an MP4 fragment is used as a random access point, and stores samples constituting a video random access unit (RAU: Random Access Unit). Audio can be decoded from an arbitrary sample, but a sample corresponding to a playback section of a random access unit of video is stored.
  • RAU Random Access Unit
  • the playback section of the video random access unit is 1 second from 10 seconds to 11 seconds
  • a sample of 1 second from 10 seconds to 11 seconds is stored as the corresponding audio sample.
  • the playback sections may not exactly match.
  • an audio having a playback end time immediately before the playback end time of the last sample in the video playback section is selected. Up to the sample is selected.
  • FIG. 2 is a diagram illustrating an example of storing data in the MPU in the MMT. As in the case of FIG. 1, the MPU is generated so that the MPU playback sections of video and audio are equal.
  • FIG. 3 is a diagram illustrating a problem in random access when MMT data as illustrated in FIG. 2 is packet-multiplexed into an MMT packet or the like and transmitted.
  • FIG. 3 shows an arrangement (transmission order) of video and audio data stored in an MMT packet and transmitted.
  • RAU starts from video sample V4. That is, the video can be decoded from the video sample V4.
  • Nth MPU # N of audio starts from the audio sample A1
  • MPU # N + 1 starts from the audio sample A10.
  • An audio sample having a PTS immediately after the PTS of the video sample V4 is an audio sample A2.
  • the audio sample A2 and A3 included in the MPU #N cannot be decoded because the header of the audio MPU #N cannot be obtained. Therefore, the audio can be decoded by the receiving apparatus from the audio sample A10 which is the first sample of MPU # N + 1.
  • the receiving apparatus can decode from an audio access unit that starts immediately after a random access point of video. For example, as shown in FIG. 4, when receiving data in the same sequence as in FIG. 3, the receiving apparatus can decode audio from the audio sample A2.
  • MPEG-2 TS Transport Stream
  • the receiving apparatus starts decoding from the video random access point and then starts playing the audio. There was a problem that the delay time until it could be increased.
  • a transmission method includes: a video control information transmission step for transmitting video control information for reproducing video data in units that can be individually reproduced; a video data transmission step for transmitting the video data; Audio for determining the transmission order of audio control information for reproducing audio data in a reproduction section corresponding to the reproduction section of the video data after the video control information, and transmitting the audio control information in the determined transmission order A control information transmission step; and an audio data transmission step of transmitting the audio data.
  • the transmission method transmits the audio control information of the audio data after the video control information of the video data corresponding to the audio data.
  • the receiving apparatus can also start decoding audio at a time at which video decoding can be started during random access. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced. Moreover, since it is not necessary to subdivide the audio segment, overhead can be reduced.
  • the audio data includes a plurality of audio samples that can be individually reproduced
  • the audio control information includes time information indicating a reproduction start time of each of the plurality of audio samples.
  • the playback section of the audio data is substantially equal to the playback section of the video data.
  • the audio data is divided into a plurality of packets each including one of a plurality of audio samples, and each of the plurality of packets includes the plurality of packets. It includes order information indicating the number of the packet.
  • the receiving device can calculate the reproduction start time of each audio sample, and can reproduce the audio sample using the calculated reproduction start time. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced.
  • the video data is one of a plurality of video data obtained by dividing a video signal
  • the audio data is one of a plurality of audio data obtained by dividing an audio signal.
  • the playback time of the audio data is shorter than the playback time of the video data.
  • the delay time until the receiving apparatus starts decoding the audio data is reduced.
  • the plurality of audio data includes a plurality of audio data having reproduction start times substantially equal to the reproduction start times of the plurality of video data.
  • a reception method receives the video control information, the video data, the audio control information, and the audio data transmitted by the transmission method described above.
  • the receiving device can also start decoding audio at a time when video decoding can be started at random access. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced.
  • an audio sample that is reproduced first among the plurality of audio samples A reproduction start time acquisition step of acquiring a start reproduction start time that is a reproduction start time of the plurality of audio samples, a reproduction time acquisition step of acquiring a reproduction time of each of the plurality of audio samples, the start reproduction start time, and the reproduction time. And a determination step of determining the reproduction start time of the audio sample included in the packet to be processed using the order information included in the packet to be processed.
  • the receiving device can calculate the reproduction start time of each audio sample, and can reproduce the audio sample using the calculated reproduction start time. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced.
  • a transmission device includes a video control information transmission unit that transmits video control information for reproducing video data in units that can be individually reproduced, and a video data transmission unit that transmits the video data And a transmission order of audio control information for reproducing audio data in a reproduction section corresponding to the reproduction section of the video data is determined after the video control information, and the audio control information is transmitted in the determined transmission order.
  • An audio control information transmitting unit that transmits the audio data, and an audio data transmitting unit that transmits the audio data.
  • the transmission device transmits the audio control information of the audio data after the video control information of the video data corresponding to the audio data.
  • the receiving apparatus can also start decoding audio at a time at which video decoding can be started during random access. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced. Moreover, since it is not necessary to subdivide the audio segment, overhead can be reduced.
  • a reception device receives the video control information, the video data, the audio control information, and the audio data transmitted by the transmission device.
  • the receiving apparatus can also start decoding audio at a time when video decoding can be started at random access. Therefore, the delay time until the receiving apparatus starts decoding the audio data is reduced.
  • the transmission method according to the present embodiment transmits an MMT packet storing the MPU header of an audio MPU having the same playback section as the MPU of the video after the MMT packet storing the MPU header of the video MPU.
  • FIG. 5 is a diagram showing a configuration of the MPU according to the present embodiment.
  • the MMT data includes a plurality of video MPUs (V_MPU) and a plurality of audio MPUs (A_MPU).
  • Each MPU (video MPU and audio MPU) includes an MPU header and an MPU payload.
  • the MPU header includes MPU metadata (such as ftyp, mmpu, and moov) and FRG metadata (a header in movie fragment units such as moof and mdat).
  • the MPU header includes information indicating at least one of PTS and DTS of each of the plurality of samples included in the MPU metadata.
  • the MPU header of the video MPU is called a video MPU header
  • the MPU payload of the video MPU is called a video MPU payload
  • the MPU header of the audio MPU is called an audio MPU header
  • the MPU payload of the audio MPU is called an audio MPU payload.
  • each of the plurality of audio MPUs corresponds to one of the plurality of video MPUs.
  • the corresponding video MPU and audio MPU are represented as V_MPU # n (n is a natural number) and A_MPU # n.
  • the corresponding audio MPU and video MPU have, for example, the same playback section.
  • the playback sections of both may not exactly match.
  • the playback end time of the last sample in the playback section of the video MPU Up to the audio sample having the immediately preceding playback end time is selected.
  • a playback end time immediately after the playback end time of the last sample of the video MPU playback section from a sample having a PTS immediately after the PTS of the first sample of the playback section of the video MPU. Up to samples with may be selected.
  • the corresponding video MPU and audio MPU have substantially the same playback section.
  • the corresponding video MPU and audio MPU overlap at least partly in the playback section.
  • FIG. 6 is a diagram illustrating an example of the transmission order (multiplexing order) of MTT packets in the present embodiment.
  • the video MPU payload includes a plurality of video samples (access units) V1 to V8.
  • the video MPU is divided into a plurality of MMT packets (hereinafter also referred to as video MMT packets).
  • the plurality of video MMT packets include a packet (V_MPU (n) _H) in which a video MPU header is stored and a plurality of packets (V_MPU (n) _P) in which a plurality of video samples included in the video MPU payload are stored. Including.
  • a plurality of video samples (V1 to V8) are divided and stored in a plurality of packets (V_MPU (n) _P).
  • the audio MPU payload includes a plurality of audio samples (access units) A1 to A10.
  • the audio MPU is divided into a plurality of MMT packets (hereinafter also referred to as audio MMT packets).
  • the plurality of audio MMT packets include a packet (A_MPU (n) _H) in which an audio MPU header is stored and a plurality of packets (A_MPU (n) _P) in which a plurality of audio samples included in the audio MPU payload are stored. Including.
  • a plurality of audio samples (A1 to A10) are divided and stored in a plurality of packets (A_MPU (n) _P).
  • an MMT packet V_MPU () that stores the MPU header of the audio MPU corresponding to the video MPU after the MMT packet V_MPU (n) _H that stores the MPU header of the video MPU.
  • n) Send _H.
  • the code amount of the head access unit (sample in MP4) of the RAU is generally larger than that of the subsequent access unit.
  • the variation in the code amount of the access unit is less than that of video.
  • FIG. 7 is a block diagram of transmitting apparatus 100 according to the present embodiment.
  • the transmission apparatus 100 illustrated in FIG. 7 includes an MPU generation unit 101 and a packet multiplexing unit 102.
  • the packet multiplexing unit 102 includes a video header determination unit 111, an audio header determination unit 112, and a multiplexing unit 113.
  • FIG. 8 is a flowchart of the transmission process (multiplexing process) according to this embodiment.
  • the MPU generation unit 101 generates a plurality of video MPUs and a plurality of audio MPUs by dividing the input video signal and audio signal.
  • the packet multiplexing unit 102 multiplexes the video MPU and the audio MPU.
  • the video header determination unit 111 determines whether the transmission order (VH_LOC) of the MMT packet storing the MPU header of the V_MPU (n) that is the nth video MPU is determined (S101). ).
  • the audio header determination unit 112 is configured so that the MMT packet storing the MPU header of A_MPU (n) that is the nth audio MPU is transmitted after VH__LOC.
  • the transmission order is determined (S102).
  • the multiplexing unit 113 stores the data of the audio MPU and the video MPU in an MMT packet, and generates a transmission stream by multiplexing the packet (S103). At this time, the multiplexing unit 113 transmits the MMT packet storing the audio MPU header according to the transmission order determined in step S102. That is, the multiplexing unit 113 stores the MMT packet that stores the MPU header of A_MPU (n) that is the nth audio MPU more than the MMT packet that stores the MPU header of V_MPU (n) that is the nth video MPU. Send later.
  • the multiplexing unit 113 stores the data of the audio MPU and the video MPU in the MMT packet, and generates a transmission stream by multiplexing the packet (S103). .
  • the transmission apparatus 100 determines the transmission order of the MMT packets in the audio MPU header based on the MMT packet in the video MPU header so that the transmission order comes after the MMT packet.
  • the transmission order of the MMT packets in the video MPU header may be determined so that the transmission order comes before that MMT packet.
  • the multiplexing unit 113 uses the MMT packet storing the MPU header of the nth video MPU V_MPU (n) as the MMT packet storing the MPU header of the nth audio MPU A_MPU (n). May also be sent before.
  • the transmitting apparatus 100 multiplexes and transmits the MPU header and MPU payload included in each MPU into a single stream.
  • the MPU header (or part of information included in the MPU header) is transmitted. ) May be transmitted as a signal different from the stream in which the MPU payload is multiplexed.
  • the transmission apparatus 100 transmits the audio MPU header after the video MPU header corresponding to the audio MPU header in the other signal.
  • the transmitting apparatus 100 may align the playback sections of the audio MPU and the video MPU even when transmitting only the MPU payload without transmitting the MPU header. By doing so, the index numbers of the video MPU and the audio MPU that are reproduced in synchronism are the same.
  • the absolute values of PTS and DTS for each MPU are provided to the receiving apparatus. Therefore, when the index numbers of the video MPU and the audio MPU that are synchronously reproduced are the same, the process of searching for an audio access unit having a PTS corresponding to the PTS of the video access unit to be reproduced in the receiving apparatus The amount of processing can be reduced.
  • transmitting apparatus 100 performs the processing shown in FIG.
  • the transmission device 100 transmits video control information (video MPU header) for reproducing video data (video MPU) in units that can be individually played back (RAU units) (S121).
  • the transmission device 100 transmits the video data (video MPU) in the unit (RAU unit) that can be individually reproduced (S122).
  • the transmission apparatus 100 transmits audio control information (audio MPU header) for reproducing audio data (audio MPU) in a reproduction section corresponding to the reproduction section of the video data after transmitting the video control information. (S123). That is, the transmission apparatus 100 determines the transmission order of audio control information (audio MPU header) for reproducing audio data (audio MPU) in a reproduction section corresponding to the reproduction section of the video data after the video control information. The voice control information is transmitted in the determined transmission order. In other words, the transmission apparatus 100 determines the transmission order of the audio control information so that the transmission order of the audio control information does not precede the video control information, and transmits the audio control information in the determined transmission order. Thereby, the audio control information is always transmitted after the video control information. In other words, the transmission device 100 prohibits the audio control information from being transmitted before the video control information.
  • the transmission device 100 transmits the audio data (S124).
  • the audio data includes a plurality of audio samples that can be individually reproduced.
  • the audio control information includes time information (PTS) indicating the reproduction start time of each of the plurality of audio samples.
  • PTS time information
  • the playback section of audio data is substantially equal to the playback section of video data.
  • the transmitting apparatus 100 when transmitting a segment multiplexed packet, uses an audio segment (MPU) header as a video segment in which the audio segment and the start PTS of the segment match. Send after the header. Accordingly, the receiving apparatus can also start decoding audio at a time when video decoding can be started at random access. Therefore, the delay time from the start of video decoding to the start of audio decoding is reduced. Further, since it is not necessary to subdivide the audio segment, overhead can be reduced.
  • MPU audio segment
  • the transmission device generates a stream in which the reception device can determine the PTS of the audio sample based on information included in the audio sample data.
  • the receiving apparatus can reproduce the audio sample even when the audio MPU header cannot be obtained.
  • the receiving apparatus can start decoding from the audio sample A2 even in the case shown in FIG.
  • FIG. 10 is a diagram showing a configuration of the audio MPU according to the present embodiment.
  • one audio sample (any one of A1 to A8) is stored in each of a plurality of MMT packets (A_MPU (n) _P1 to AMPU (n) _P8) for storing audio samples. That is, a plurality of MMT packets correspond one-to-one with a plurality of audio samples.
  • Each MMT packet includes a header and a payload in which audio sample data is stored.
  • the header includes a fragment SN.
  • the fragment SN is an index number of a unit (fragment) into which the MPU is divided. That is, the fragment SN indicates what number fragment in the MPU the fragment (packet) is. In the present embodiment, since one audio sample is stored in one fragment (packet), this fragment SN indicates the decoding order in the MPU of the audio sample included in the fragment.
  • the MPU header is not included in the MMT packet storing the audio sample.
  • the PTS (Presentation Time Stamp) of the first sample in the audio MPU that starts decoding is separately transmitted to the receiving device by an MMT message or the like.
  • the PTS of the first sample of the MPU transmitted in a certain period after channel selection is indicated in the MMT PA message acquired at the time of channel selection.
  • the sample data includes information indicating the sampling frequency.
  • information indicating the sampling frequency and channel configuration is included in the ADTS header.
  • header information such as ADTS header is deleted from the sample data, and header information is stored in moov stsd Sometimes.
  • information indicating whether the header information is included in the AAC sample data may be stored in the brand of the MP4 file, a separately defined box, or the like.
  • Whether or not the header information is included may be determined in advance in operation regulations such as broadcasting.
  • information indicating whether the header information is included in the sample data may be included in the SI information of the MMT.
  • the multiplexing method is MMT
  • the receiving apparatus can decode and reproduce the audio based on the header information even when the MPU header is not transmitted or the MPU header cannot be acquired.
  • the receiving device needs to acquire the sample playback time in advance. Note that when the header information is not included in the sample data, the receiving apparatus may start decoding from an MPU that can obtain an MPU header without using the following method.
  • the receiving device calculates the PTS of the audio sample using the PTS of the first sample of the MPU, the playback time of one audio sample, and the fragment SN.
  • the receiving apparatus determines the PTS of an arbitrary audio sample using the following (Equation 1).
  • sample (i). pts MPU (n). pts + (num_spl / sampling_rate) * frg_sn (Formula 1)
  • sample (i). pts is the PTS of the i-th sample in the n-th MPU
  • MPU (n) is the PTS of the sample that is the head in the display order in the nth MPU.
  • Num_spl is the number of samples included in the audio frame. Note that the sample in this case is different from the sample in MP4. In the case of MPEG-2 or MPEG-4 AAC (Advanced Audio Coding), the number of samples is 1024 per frame.
  • Sampling_rate is the audio sampling frequency
  • frg_sn is the fragment SN.
  • the receiving device calculates the playback time of one audio sample by dividing the number of samples included in the audio frame by the sampling frequency.
  • the receiving apparatus calculates the PTS of the audio sample by adding the product of the playback time of one audio sample and the fragment SN (index number of the sample in the MPU) to the PTS of the first sample of the MPU.
  • the receiving device may use another method.
  • the receiving apparatus may determine the PTS of the audio sample based on the reproduction time acquired in advance.
  • information indicating the sampling frequency or the playback time of the sample may be transmitted by an MMT message or the like.
  • MMT packets are multiplexed directly or IP packets and then stored and transmitted in TS packets
  • the sampling frequency or sample playback time is set by the MPEG-2 system descriptor or the like.
  • Information to indicate may be transmitted.
  • this method can be applied when the frame rate is known or the frame rate can be obtained separately by an MMT message or the like.
  • sample data includes SPS (Sequence Parameter Set) and PPS (Picture Parameter Decoding). Need to be included. Whether or not SPS and PPS are included in the sample can be identified by the brand name of MP4 or the type of sample entry. Therefore, these pieces of information may be transmitted separately.
  • the receiving apparatus can acquire the PTS of any audio sample in the MPU even when the audio MPU header cannot be received. Accordingly, it is possible to reduce the delay time until the audio is reproduced without limiting the transmission order of the video MPU header and the audio MPU header.
  • FIG. 11 is a block diagram of transmitting apparatus 200 according to the present embodiment.
  • a transmission apparatus 200 illustrated in FIG. 11 includes a video MPU generation unit 201, an audio MPU generation unit 202, an audio packetization unit 203, and a video packetization unit 204.
  • FIG. 12 is a flowchart of transmission processing (multiplexing processing) according to the present embodiment.
  • the video MPU generation unit 201 determines a playback section of V_MPU (n) which is the nth video MPU (S201). Further, the video packetization unit 204 packetizes the determined V_MPU (n) into a plurality of MMT packets. At this time, the video packetization unit 204 generates V_MPU (n) so that the first sample of the V_MPU (n) becomes a random access point. That is, V_MPU (n) is composed of one or more video random access units.
  • the audio MPU generation unit 202 determines the playback section of A_MPU (n), which is the nth audio MPU, so as to coincide with the playback section of V_MPU (n) (S202).
  • the audio packetization unit 203 generates a plurality of MMT packets such that each sample included in the A_MPU (n) determined in step S202 is stored in one MMT packet (S203).
  • the transmitting apparatus 200 multiplexes and transmits the audio MMT packet generated by the audio packetizing unit 203 and the video MMT packet generated by the video packetizing unit 204.
  • the playback sections of V_MPU (n) and A_MPU (n) match, but the playback sections of V_MPU (n) and A_MPU (n) may be different.
  • the receiving apparatus can start decoding from the sample acquired immediately after reception, so that the playback sections of V_MPU (n) and A_MPU (n) do not necessarily match. do not have to.
  • transmitting apparatus 200 stores the segment header and data storage in separate packets when the audio segment is packet-multiplexed and transmitted, and further accesses the data storage Packetize for each unit.
  • the transmitting apparatus 200 stores an index number indicating the decoding order of the access unit in the segment in the header of the packet storing the access unit and transmits the packet.
  • the receiving apparatus can calculate the PTS of the access unit. Therefore, the delay time until the reception apparatus starts decoding is reduced without restricting the segment packet multiplexing operation.
  • the transmission apparatus 200 transmits the audio data (audio MPU) by dividing it into a plurality of packets (MMT packets) each including one of a plurality of audio samples (audio samples).
  • MMT packets a plurality of packets
  • Each of the plurality of packets includes order information (fragment SN) indicating what number of the plurality of packets the packet is.
  • the playback time of the audio MPU is set shorter than the playback time of the video MPU without aligning the playback sections of the video MPU and the audio MPU.
  • the transmission frequency of the audio MPU increases, so that the random accessibility can be improved.
  • RAU in encoded data is the minimum unit of MPU.
  • audio can be decoded from an arbitrary sample (access unit)
  • the number of samples constituting the MPU can be freely set.
  • the playback time of a video RAU is generally about 0.5 seconds to 1 second in consideration of the coding efficiency and random accessibility.
  • the playback time of the video MPU also follows the playback time of the RAU.
  • the MPU playback time can be about 0.1 seconds.
  • the playback time of the audio MPU is set to 0.1 seconds, the playback of audio can be started within 0.1 seconds at the latest after the start of video playback. In this way, by setting the playback time of the audio MPU to be short, the delay time from the start of video playback to the start of audio playback can be shortened.
  • FIG. 13 is a diagram illustrating an example of a video MPU and an audio MPU according to the present embodiment. As shown in FIG. 13, the playback time of each of the plurality of audio MPUs is set shorter than the playback time of each of the plurality of video MPUs.
  • FIG. 14 is a diagram illustrating an example of the video MPU and the audio MPU in this case.
  • the playback section of the audio MPU when the playback section of the audio MPU is set as shown in FIG. 13, there is no audio MPU having the same head PTS as the head PTS of the video MPU (1). Thus, in the example shown in FIG. 13, it is not guaranteed that the head PTS of any audio MPU corresponds to the head PTS of the video MPU.
  • the transmission apparatus can determine the playback time of the audio MPU by acquiring the playback time of the video MPU prior to the start of the MPU generation process.
  • the transmitting device acquires the playback time of each video MPU while acquiring the playback time of each video MPU. MPU playback time is determined.
  • FIG. 15 is a block diagram of transmitting apparatus 300 according to the present embodiment.
  • the transmission apparatus 300 illustrated in FIG. 15 includes a video MPU generation unit 301, a section determination unit 302, a first determination unit 303, a second determination unit 304, a head determination unit 305, and an MPU generation unit 306.
  • FIG. 16 is a flowchart of transmission processing (multiplexing processing) according to the present embodiment.
  • the transmission apparatus 300 selects the first MPU by setting n to 0 (S301).
  • the video MPU generation unit 301 determines the playback section of the first video MPU (V_MPU (0)) based on the video RAU (S302).
  • the video MPU is composed of one or more RAUs.
  • the head determination unit 305 determines the head sample of A_MPU (0) so that the PTSs of the head samples of V_MPU (0) and the head audio MPU (A_MPU (0)) are equal (S303). .
  • the section determination unit 302 determines whether the MPU (A_MPU) of the audio to be processed is the last MPU in the playback section of V_MPU (n) (S304).
  • the first determination unit 303 makes the playback end time of the last sample of A_MPU equal to the playback end time of V_MPU (n), and the playback time of A_MPU is equal to or less than the threshold value. Then, the final sample of A_MPU is determined (S305).
  • the second determination unit 304 determines the final sample of the A_MPU so that the playback time of the A_MPU is equal to or less than the threshold (S306).
  • the threshold value used in steps S305 and S306 is set based on the allowable delay time from the start of playback of the video random access point to the start of playback of the audio.
  • the reproduction time of the MPU is shortened, and the ratio of the MPU header occupying the transmission data is increased.
  • audio has a lower bit rate than video.
  • the MPU playback time is determined based on both the delay time and the MPU header overhead.
  • the number of audio samples that can be stored in one MPU depends on the playback time of one sample.
  • the playback time of one sample depends on the sampling frequency and the like.
  • the MPU generation unit 306 After step S305 or S306, the MPU generation unit 306 generates an audio MPU (n) based on the head sample of the audio MPU determined in step S303 and the final sample of the audio MPU determined in step S305 or S306. To do.
  • the transmitting apparatus 300 increments n by 1 to select the next MPU (S307), and repeats the processes of steps S304 to S307 until the playback sections of all the MPUs are determined (S308).
  • sample immediately after the last sample in the immediately preceding MPU is set as the leading sample in the MPU after the leading MPU.
  • the transmission apparatus 300 may divide the MPU in switching of the sampling frequency or the channel configuration (monaural, stereo, 5.1 channel, etc.). By doing so, the audio encoding condition is constant in the same MPU. As a result, the receiving device only needs to cope with switching of the encoding conditions in units of MPUs during reproduction, so that seamless reproduction at the time of switching can be easily realized. For example, at the time of reproduction, the receiving apparatus can cope with the switching in advance by prefetching the encoding condition (parameter) stored in the header of the next MPU or the first sample.
  • leading PTS of any audio MPU corresponds to the leading PTS of the video MPU, or may not be guaranteed.
  • the transmission apparatus 300 generates a video segment (MPU) so that the head of the video segment (MPU) is a random access point, and generates a playback time of the audio segment to be a predetermined value or less. Further, the transmission apparatus 300 sets the playback time of the audio segment to be shorter than the video segment. As a result, although the overhead related to the audio segment increases, the PTS calculation processing in the receiving apparatus can be made unnecessary. In addition, the delay time until the receiving apparatus starts decoding is reduced.
  • MPU video segment
  • the transmission apparatus 300 sets the playback time of the audio segment to be shorter than the video segment.
  • the video data is one of a plurality of video data obtained by dividing the video signal.
  • Audio data is one of a plurality of audio data obtained by dividing an audio signal. As shown in FIG. 13, the reproduction time of the audio data (audio MPU) is shorter than the reproduction time of the video data (video MPU).
  • the plurality of audio data includes a plurality of audio data having a reproduction start time (PTS) substantially equal to each reproduction start time (PTS) of the plurality of video data (video MPU). May be included.
  • PTS reproduction start time
  • FIG. 17 is a block diagram of receiving apparatus 400 according to the present embodiment. 17 includes a video MPU determination unit 401, an audio MPU determination unit 402, and a sample determination unit 403.
  • FIG. 18 is a flowchart of the reception process according to the present embodiment.
  • the flowchart shown in FIG. 18 shows an operation example when determining an audio sample to start decoding at the time of random access.
  • the video MPU determination unit 401 determines a video MPU (V_MPU) to start reproduction (S401).
  • the header of the MMT packet includes identification information indicating whether the payload includes an MPU header or sample data.
  • the receiving apparatus 400 can also identify whether the data stored in the payload is a video or audio asset based on the packet ID (corresponding to the PID of the TS packet). Accordingly, the video MPU determination unit 401 determines the MPU that first acquired the MPU header as V_MPU after starting reception of a packet having a packet ID corresponding to a video asset in broadcasting or communication.
  • the audio MPU determination unit 402 searches the MPUs that have received the MPU header after the V_MPU to search for an audio MPU having the same first PTS as the PTS (first PTS) of the first sample in the display order in the V_MPU. Then, the audio MPU obtained by the search is determined as the audio MPU (A_MPU) for starting reproduction (S402).
  • the fact that PTSs are the same is not limited to the case where the PTSs are completely coincident with each other, as long as the PTSs are substantially the same as described in the first embodiment.
  • the audio MPU determination unit 402 is separately indicated. Based on the information, an audio MPU having the first PTS of V_MPU can be searched. It should be noted that information indicating the first PTS of the MPU is included in the MPU header, and the audio MPU determination unit 402 may search for an audio MPU having the first PTS of the V_MPU using this information.
  • the sample determination unit 403 determines to start playback from the first sample of A_MPU (S403).
  • step S403 since it is ensured that the playback sections of the video MPU and the audio MPU are aligned, the sample determination unit 403 can determine to start playback from the first sample of A_MPU. On the other hand, when it is not guaranteed that the playback sections of the video MPU and the audio MPU are aligned, the receiving apparatus 400 may perform the following processing.
  • the receiving apparatus 400 acquires the first PTS (V_MPU.pts) of the V_MPU.
  • the receiving apparatus 400 acquires the first PTS of the audio MPU acquired first after V_MPU, and analyzes the MPU header to acquire the playback time of the audio MPU. Then, the receiving apparatus 400 receives V_MPU. It is determined whether an audio sample having the same PTS as pts is included in the audio MPU. Note that the PTSs do not necessarily match, and the receiving apparatus 400 does not have V_MPU. It may be determined whether an audio sample having a PTS immediately before or immediately after pts is included in the audio MPU.
  • the receiving apparatus 400 does not analyze the MPU header and acquires the playback time of the audio MPU from the separately indicated information.
  • V_MPU If it is determined that there is no audio sample having the same PTS as pts, the receiving apparatus 400 acquires the next audio MPU and performs the determination process. And V_MPU. Until it is determined that there is an audio sample having the same PTS as pts, receiving apparatus 400 sequentially repeats the determination process for subsequent audio MPUs.
  • the receiving apparatus 400 may start playback from the first sample of V_MPU for video, and start playback from the MPU immediately after A_MPU for audio.
  • the receiving apparatus 400 starts decoding from the first sample in the decoding order, and starts reproduction (display) from the first sample in the display order.
  • playback starts from A_MPU prior to starting playback of video V_MPU, and for video, V_MPU. Playback may be started from the time of pts.
  • receiving apparatus 400 determines to start decoding from the video segment that first receives the header after starting reception, and starts from the audio segment that matches the first PTS of the video segment to start decoding. Start decryption. Thereby, the receiving apparatus 400 can reduce the delay time until the start of decoding.
  • the receiving apparatus 400 determines to start decoding from a video segment that first receives a header after starting reception.
  • the reception apparatus 400 starts decoding from the audio segment that is received first, and the first PTS is the same as or later than the PTS of the video segment to start decoding. Thereby, the receiving apparatus 400 can reduce the delay time until the start of decoding.
  • receiving apparatus 400 includes video control information (video MPU header), video data (video MPU), and audio control information (audio MPU header) transmitted by transmitting apparatus 100 or 300 according to the first or third embodiment. And audio data (audio MPU) can be received, and video data and audio data can be reproduced.
  • video control information video MPU header
  • video data video MPU
  • audio MPU header audio control information
  • Embodiment 5 a receiving apparatus that receives data transmitted by transmitting apparatus 200 according to Embodiment 2 and reproduces the data will be described.
  • FIG. 19 is a block diagram of receiving apparatus 500 according to the present embodiment.
  • the receiving apparatus 500 illustrated in FIG. 19 includes a start PTS determination unit 501, a determination unit 502, a first PTS calculation unit 503, a second PTS calculation unit 504, and a sample acquisition unit 505.
  • FIG. 20 is a flowchart of the reception process according to the present embodiment.
  • the flowchart shown in FIG. 20 shows an operation example in which an audio sample for starting decoding is acquired and a PTS is determined.
  • the start PTS determination unit 501 determines the PTS (tgt_pts) of the audio sample to start decoding (S501). Also, an audio sample whose PTS is tgt_pts is denoted as tgt_spl. tgt_pts is, for example, the top PTS of the video MPU that starts playback. This is because it is common to use a video random access point as a reference after selecting a broadcast or at the start of reception when acquiring content via a communication network.
  • the determination unit 502 determines whether or not the MPU header of the MPU (mpu_cur) to which tgt_spl belongs can be acquired (S502). For example, the determination unit 502 determines an MPU (mpu_cur) including a sample whose PTS is tgt_pts, based on the first PTS of each MPU acquired separately from an MMT message or the like. Information indicating the head PTS of the MPU may be included in the MPU header, and the determination unit 502 may determine an MPU (mpu_cur) including a sample whose PTS is tgt_pts based on the information. Alternatively, the determination unit 502 may separately download information related to assets constituting the MMT package, and determine an MPU (mpu_cur) including a sample having a PTS of tgt_pts based on the information.
  • the first PTS calculation unit 503 analyzes the MPU header and acquires the index number of tgt_spl in mpu_cur (S503).
  • the PTS of the sample included in the MPU can be determined based on information indicating the DTS and PTS of the sample included in trun in the moof. Since the PTS obtained by analyzing the moof is a difference value from the MPU head PTS, the first PTS calculator 503 adds the MPU head PTS to the obtained PTS to calculate the actual PTS.
  • the first PTS calculation unit 503 determines, as tgt_spl, a sample whose calculated PTS is the same as tgt_pts. When there is no sample having the same PTS as tgt_pts, the first PTS calculator 503 determines the sample immediately before or immediately after the PST is tgt_pts as tgt_spl.
  • the first PTS calculation unit 503 obtains an index number (fragment SN) indicating what number sample in the decoding order tgt_spl is in the MPU.
  • the fragment SN is a serial number from the first sample of the first movie fragment.
  • the second PTS calculator 504 calculates the PTS of the sample based on the above (Equation 1) from the playback time per sample. Then, the index number of tgt_spl in mpu_cur is acquired (S504).
  • the second PTS calculation unit 504 may use those methods. Note that the PTS calculation method has been described in detail in the second embodiment.
  • the sample acquisition unit 505 detects a packet in which the MPU sequence number in the header of the MMT packet matches the sequence number of mpu_cur and the fragment SN is equal to the index number obtained in step S503 or S504. Obtaining and obtaining an audio sample included in the packet for starting reproduction (S505).
  • the receiving apparatus 500 acquires the PTS for the samples included in MPU (n) by the method of step S504, and the samples included after MPU (n + 1). Obtains the PTS by the method of step S503.
  • the receiving apparatus 500 may always acquire the PTS by the method of step S504 without performing the processes of steps S502 and S503.
  • FIG. 21 is a flowchart of the reception process in this case.
  • the receiving apparatus 500 determines an audio sample (tgt_spl) for starting decoding (S511). For example, the receiving apparatus 500 determines the first received audio sample as tgt_spl.
  • the receiving apparatus 500 determines whether or not the MPU header of the MPU (mpu_cur) to which tgt_spl belongs can be acquired (S512). This process is the same as that in step S502.
  • the receiving apparatus 500 analyzes the MPU header and calculates the PTS of tgt_spl (S513).
  • the details of the PTS calculation method are the same as in step S503.
  • the receiving apparatus 500 calculates the PTS of the sample based on the above (Equation 1) from the reproduction time per sample or the like ( S514).
  • Equation 1 The details of the PTS calculation method are the same as in step S504.
  • the receiving apparatus 500 can acquire the PTS of the audio sample even when the audio MPU header cannot be acquired.
  • receiving apparatus 500 acquires data for one access unit from the payload of one packet, and based on the index number, the difference in PTS between the access unit that is the head in the decoding order in the segment and the acquired access unit Is calculated. Furthermore, receiving apparatus 500 determines the PTS of the access unit by separately acquiring the first PTS of the segment. Thus, by calculating the PTS of the access unit in the receiving apparatus 500, the delay time until the start of decoding can be reduced without restricting the packet multiplexing operation of the segment.
  • the receiving apparatus 500 includes video control information (video MPU header), video data (video MPU), audio control information (audio MPU header), and audio data (audio MPU) transmitted by the transmitting apparatus 200 according to the second embodiment. ).
  • the receiving apparatus 500 acquires a start reproduction start time that is a reproduction start time (PTS) of an audio sample to be reproduced first among a plurality of audio samples (audio samples) included in the audio data (audio MPU).
  • PTS reproduction start time
  • the receiving apparatus 500 acquires the playback time of each of the plurality of audio samples. For example, the receiving apparatus 500 acquires the number of samples included in the audio frame and the sampling frequency, and calculates the playback time of each of the plurality of audio samples from the acquired number of samples and sampling frequency.
  • the reception device 500 uses the start reproduction start time, the reproduction time, and the order information (fragment SN) included in the processing target packet to use the audio sample (audio) included in the processing target packet.
  • the reproduction start time (PTS) of the sample is determined.
  • the multiplexing scheme applied in the present disclosure is not limited to MP4, MMT, or DASH, and the present disclosure can be applied to other formats that can segment encoded data such as audio and video. .
  • the transmission device may store the MMT packet in an IP packet or the like and transmit it. Further, in broadcasting, the transmission device may store and transmit the IP packet in a TS packet or a TLV (Time Length Value) packet defined by ARIB (Radio Industry Association).
  • a TS packet or a TLV (Time Length Value) packet defined by ARIB (Radio Industry Association).
  • the receiving apparatus may multiplex segments such as MPU into a packet different from the MMT packet.
  • the present disclosure can be applied to any protocol capable of packet-multiplexing audio and video MPU data into one stream.
  • the transmission apparatus multiplexes audio and video packets so as to satisfy a system decoder model (model such as STD (System Target Decoder) in the MPEG-2 system) at the time of packet multiplexing. May be used. Also, a system decoder model can be defined in the processing of MMT packets.
  • a system decoder model can be defined in the processing of MMT packets.
  • Embodiments 1 to 3 different methods are described individually in Embodiments 1 to 3, but two or more of these methods may be combined.
  • the second embodiment or 3 can reduce the delay time until the audio is reproduced.
  • the present disclosure is not limited to this embodiment.
  • each processing unit included in the transmission device and the reception device according to the above embodiment is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • circuits are not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the transmission device and the reception device include a processing circuit and a storage device (storage) that is electrically connected to the processing circuit (accessible from the control circuit).
  • the processing circuit includes at least one of dedicated hardware and a program execution unit. Further, when the processing circuit includes a program execution unit, the storage device stores a software program executed by the program execution unit. The processing circuit executes the transmission method or the reception method according to the above embodiment using the storage device.
  • the present disclosure may be the above software program or a non-transitory computer readable recording medium on which the above program is recorded. Needless to say, the program can be distributed via a transmission medium such as the Internet.
  • division of functional blocks in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, a single functional block can be divided into a plurality of functions, or some functions can be transferred to other functional blocks. May be.
  • functions of a plurality of functional blocks having similar functions may be processed in parallel or time-division by a single hardware or software.
  • the order in which the steps included in the transmission method or the reception method are executed is for illustration in order to specifically describe the present disclosure, and may be in an order other than the above. Also, some of the above steps may be executed simultaneously (in parallel) with other steps.
  • the present disclosure is not limited to the embodiments. Absent. Unless it deviates from the gist of the present disclosure, one or more of the present disclosure may be applied to various modifications conceived by those skilled in the art in the present embodiment or a configuration constructed by combining components in different embodiments. It may be included within the scope of the embodiments.
  • This disclosure can be applied to an apparatus or device that performs media transport such as video data and audio data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 本開示の一態様に係る送信方法は、個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信ステップと、前記映像データを送信する映像データ送信ステップと、前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信ステップと、前記音声データを送信する音声データ送信ステップとを含む。これにより、受信装置において、データを受信してから、映像及び音声が再生されるまでの遅延時間を低減する。

Description

送信方法、受信方法、送信装置及び受信装置
 本開示は、送信方法、受信方法、送信方法、及び受信装置に関する。
 現在、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)又はMMT(MPEG Media Transport)などのフォーマットにより、オーディオ及びビデオなどの符号化データをセグメント化し、得られたセグメントを分割することでパケット化し、得られたパケットを放送又は通信などで送信することが検討されている。
 例えば、非特許文献1には、MMTに従って、符号化されたメディアデータをパケット毎に送信する技術が開示されている。
Information technology - High efficiency coding and media delivery in heterogeneous environment - Part1:MPEG media transport(MMT)、ISO/IEC DIS 23008-1
 本開示の一態様に係る送信方法は、個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信ステップと、前記映像データを送信する映像データ送信ステップと、前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信ステップと、前記音声データを送信する音声データ送信ステップとを含む。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以上より、本開示は、受信装置において、データを受信してから、映像及び音声が再生されるまでの遅延時間を低減できる送信方法又は受信方法を提供できる。
図1は、MP4ファイルの構成例を示す図である。 図2は、MMTデータの構成例を示す図である。 図3は、MMTデータにおける復号を開始できるオーディオサンプルを示す図である。 図4は、MPEG-2 TSにおける復号を開始できるオーディオサンプルを示す図である。 図5は、実施の形態1に係る送信データの構成例を示す図である。 図6は、実施の形態1に係るデータの送信順を示す図である。 図7は、実施の形態1に係る送信装置のブロック図である。 図8は、実施の形態1に係る送信処理のフローチャートである。 図9は、実施の形態1に係る送信処理のフローチャートである。 図10は、実施の形態2に係る送信データの構成例を示す図である。 図11は、実施の形態2に係る送信装置のブロック図である。 図12は、実施の形態2に係る送信処理のフローチャートである。 図13は、実施の形態3に係る送信データの構成例を示す図である。 図14は、実施の形態3に係る送信データの構成例を示す図である。 図15は、実施の形態3に係る送信装置のブロック図である。 図16は、実施の形態3に係る送信処理のフローチャートである。 図17は、実施の形態4に係る受信装置のブロック図である。 図18は、実施の形態4に係る受信処理のフローチャートである。 図19は、実施の形態5に係る受信装置のブロック図である。 図20は、実施の形態5に係る受信処理のフローチャートである。 図21は、実施の形態5に係る受信処理の別の例のフローチャートである。
 (本開示の基礎となった知見)
 各セグメントは、ヘッダ部と符号化データの格納部とから構成される。受信装置は、符号化データからアクセスユニット(DASH及びMMTなどMP4をベースとするフォーマットにおいては、サンプルと呼ぶ)を分離する。また、受信装置は、アクセスユニットのPTS(Presentation Time Stamp)及びDTS(Decoding Time Stamp)を取得するには、ヘッダ部の解析が必要となる。
 ここで、従来の放送では、ビデオ及びオーディオは、アクセスユニット毎にパケット化され、MPEG-2 TS(Transport Stream)に多重化されて送信されていた。このため、受信装置は、アクセスユニットの分離、並びにPTS及びDTSの取得をパケット単位で行うことができた。
 一方、DASH及びMMTなどのように、セグメントがパケット化されて送信される場合には、受信装置は、ランダムアクセス時にもセグメントのヘッダを取得する必要がある。よって、受信装置が、セグメントの途中から信号の受信を開始した場合には、当該受信装置は、当該セグメントのアクセスユニットを復号できない。このため、受信装置が復号できるのは次のセグメントからである。このように、本発明者は、ランダムアクセスにおいて、復号の開始までの遅延時間が増大するという課題があることを見出した。
 以下、図1~図4を参照して、MMTを構成するMPU(Media Processing Unit)をパケット多重化する従来の方法における、ランダムアクセス時の課題について説明する。
 まず、従来のMP4におけるビデオ及びオーディオデータの格納方法、並びに、MP4をベースとする伝送フォーマットであるMMTにおけるデータ格納例について説明する。
 図1は、MP4におけるデータ格納例を示す図である。図1に示すようにMP4ファイルは、複数のMP4フラグメント(Fragment)を含む。各MP4フラグメントは、一対のmoofとmdatとを含む。mdatは、交互に配置された複数のビデオサンプルと複数のオーディオサンプルとを含む。
 一般的に、MP4フラグメントはランダムアクセスポイントとして用いられ、ビデオのランダムアクセス単位(RAU:Random Access Unitと呼ぶ)を構成するサンプルが格納される。オーディオは、任意のサンプルから復号可能であるが、ビデオのランダムアクセス単位の再生区間に対応するサンプルが格納される。
 例えば、ビデオのランダムアクセス単位の再生区間が、10秒から11秒の1秒間であるとすると、対応するオーディオサンプルとして、10秒から11秒の1秒間のサンプルが格納される。
 ここで、ビデオのフレームレート及びオーディオのサンプリング周波数によっては、両者の再生区間が厳密には一致しないことがある。この場合には、例えば、ビデオの再生区間の先頭サンプルのPTSの直前となるPTSを持つオーディオのサンプルから、ビデオの再生区間の最終サンプルの再生終了時刻の直前となる再生終了時刻を持つオーディオのサンプルまでが選択される。
 図2は、MMTにおけるMPUへのデータの格納例を示す図である。図1の場合と同様に、ビデオとオーディオとのMPUの再生区間が等しくなるようにMPUが生成される。
 ビデオ及びオーディオのサンプルの復号においては、当該サンプルが属するMPUのヘッダ(moofなど)の解析が必要である。
 図3は、図2に示すようなMMTデータをMMTパケットなどにパケット多重化して送信する際のランダムアクセスにおける課題について示す図である。この図3は、MMTパケットに格納されて送信されるビデオ及びオーディオのデータの並び(送信順)を示す。ここでは、ビデオについては、ビデオサンプルV4からRAUが開始する。つまり、ビデオはビデオサンプルV4から復号可能である。
 また、ここでは、オーディオのN番目のMPU#Nは、オーディオサンプルA1から開始し、MPU#N+1は、オーディオサンプルA10から開始する。また、ビデオサンプルV4のPTSの直後となるPTSを持つオーディオサンプルはオーディオサンプルA2である。
 このような場合において、受信装置がビデオサンプルV4から受信を開始する場合、オーディオのMPU#Nのヘッダを取得できていないため、当該MPU#Nに含まれるオーディオサンプルA2及びA3等を復号できない。よって、受信装置でオーディオが復号できるのは、MPU#N+1の先頭サンプルであるオーディオサンプルA10からである。
 一方で、伝送フォーマットとしてMPEG-2 TS(Transport Stream)を用いる従来のTSにおいては、受信装置は、ビデオのランダムアクセスポイントの直後に開始するオーディオのアクセスユニットから復号できた。例えば、図4に示すように、図3と同一の並びでデータを受信した場合に、受信装置は、オーディオをオーディオサンプルA2から復号できる。
 以上のように、ビデオ及びオーディオが多重化されたMMTのストリームが放送又は通信などにより送信される場合には、受信装置が、ビデオのランダムアクセスポイントから復号を開始してからオーディオの再生を開始できるまでの遅延時間が長くなる場合があるという課題があった。
 ここで、ビデオに関しては、RAU単位でしか再生を開始できないという制限が存在する。そのため、ビデオのデータに関しては、映像が表示されるまでに、ある程度の遅延時間が存在するのは致し方ない。一方、オーディオは任意のサンプルから再生できにもかかわらず、上記のようなケースでは、再生を開始するまでに遅延時間が発生する。このように、受信装置が、再生可能なデータを受信しているにもかかわらず、そのデータの制御情報を受信できていないために当該データを再生できないという課題があること本発明者は見出した。
 本開示の一態様に係る送信方法は、個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信ステップと、前記映像データを送信する映像データ送信ステップと、前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信ステップと、前記音声データを送信する音声データ送信ステップとを含む。
 これによれば、当該送信方法は、音声データの音声制御情報を、当該音声データに対応する映像データの映像制御情報より後に送信する。これにより、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。また、音声のセグメントを細分化しなくてもよいため、オーバーヘッドも低減できる。
 例えば、前記音声データは、各々が個別に再生可能な複数の音声サンプルを含み、前記音声制御情報は、前記複数の音声サンプルの各々の再生開始時刻を示す時刻情報を含む。
 例えば、前記音声データの前記再生区間は、前記映像データの前記再生区間に略等しい。
 例えば、前記音声データ送信ステップでは、前記音声データを、各々が複数の音声サンプルの一つを含む複数のパケットに分割して送信し、前記複数のパケットの各々は、当該パケットが、前記複数のパケットの何番目のパケットであるかを示す順番情報を含む。
 これによれば、受信装置は、音声制御情報を受信できない場合であっても、各音声サンプルの再生開始時刻を算出し、算出した再生開始時刻を用いて音声サンプルを再生できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。
 例えば、前記映像データは、映像信号が分割されることにより得られた複数の映像データの一つであり、前記音声データは、音声信号が分割されることにより得られた複数の音声データの一つであり、前記音声データの再生時間は、前記映像データの再生時間より短い。
 これによれば、受信装置が音声データの復号を開始するまでの遅延時間が低減される。
 例えば、前記複数の音声データは、前記複数の映像データの各々の再生開始時刻と略等しい再生開始時刻の複数の音声データを含む。
 また、本開示の一態様に係る受信方法は、前述の送信方法により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する。
 これによれば、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。
 例えば、前述の送信方法により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する受信方法であって、前記複数の音声サンプルのうち最初に再生される音声サンプルの再生開始時刻である先頭再生開始時刻を取得する再生開始時刻取得ステップと、前記複数の音声サンプルの各々の再生時間を取得する再生時間取得ステップと、前記先頭再生開始時刻と、前記再生時間と、処理対象の前記パケットに含まれる前記順番情報とを用いて、当該処理対象の前記パケットに含まれる前記音声サンプルの再生開始時刻を判定する判定ステップとを含む。
 これによれば、受信装置は、音声制御情報を受信できない場合であっても、各音声サンプルの再生開始時刻を算出し、算出した再生開始時刻を用いて音声サンプルを再生できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。
 また、本開示の一態様に係る送信装置は、個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信部と、前記映像データを送信する映像データ送信部と、前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信部と、前記音声データを送信する音声データ送信部とを備える。
 これによれば、当該送信装置は、音声データの音声制御情報を、当該音声データに対応する映像データの映像制御情報より後に送信する。これにより、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。また、音声のセグメントを細分化しなくてもよいため、オーバーヘッドも低減できる。
 また、本開示の一態様に係る受信装置は、前述の送信装置により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する。
 これによれば、当該受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置が音声データの復号を開始するまでの遅延時間が低減される。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 以下、本実施の形態に係る送信方法及び送信装置について説明する。本実施の形態に係る送信方法は、ビデオのMPUのMPUヘッダを格納するMMTパケットよりも後に、当該ビデオのMPUと同一再生区間を持つオーディオのMPUのMPUヘッダを格納するMMTパケットを送信する。
 これにより、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置がオーディオの復号を開始するまでの遅延時間を低減できる。また、オーディオのセグメントが細分化されないため、オーバーヘッドも低減できる。
 まず、本実施の形態に係る送信方法におけるデータ構造を説明する。
 図5は、本実施の形態に係るMPUの構成を示す図である。図5に示すようにMMTデータは、複数のビデオMPU(V_MPU)と、複数のオーディオMPU(A_MPU)とを含む。
 各MPU(ビデオMPU及びオーディオMPU)は、MPUヘッダと、MPUペイロードとを含む。MPUヘッダは、MPUメタデータ(ftyp、mmpu及びmoovなど)と、FRGメタデータ(moof及びmdatなどmovie fragment単位のヘッダ)とを含む。また、MPUヘッダは、MPUメタデータに含まれる複数のサンプル各々のPTS及びDTSの少なくとも一方を示す情報を含む。
 なお、以下では、ビデオMPUのMPUヘッダをビデオMPUヘッダと呼び、ビデオMPUのMPUペイロードをビデオMPUペイロードと呼ぶ。また、オーディオMPUのMPUヘッダをオーディオMPUヘッダと呼び、オーディオMPUのMPUペイロードをオーディオMPUペイロードと呼ぶ。
 例えば、複数のオーディオMPUの各々は、複数のビデオMPUの一つと対応する。図5では、対応するビデオMPUとオーディオMPUとをV_MPU#n(nは自然数)及びA_MPU#nと表している。また、対応するオーディオMPUとビデオMPUとは、例えば、同一の再生区間を有する。
 なお、ビデオのフレームレート又はオーディオのサンプリング周波数によっては、両者の再生区間が厳密には一致しないことがある。このときは、例えば、ビデオMPUに対応するオーディオMPUとして、ビデオMPUの再生区間の先頭サンプルのPTSの直前となるPTSを持つオーディオのサンプルから、ビデオMPUの再生区間の最終サンプルの再生終了時刻の直前となる再生終了時刻を持つオーディオのサンプルまでが選択される。なお、ビデオMPUに対応するオーディオMPUとして、ビデオMPUの再生区間の先頭サンプルのPTSの直後となるPTSを持つサンプルから、ビデオMPUの再生区間の最終サンプルの再生終了時刻の直後となる再生終了時刻を持つサンプルまでが選択されてもよい。
 つまり、対応するビデオMPUとオーディオMPUとは略同一な再生区間を有する。言い換えると、対応するビデオMPUとオーディオMPUとは少なくともと再生区間の一部が重複する。
 図6は、本実施の形態におけるMTTパケットの送信順(多重化順)の一例を示す図である。
 ビデオMPUペイロードは、複数のビデオサンプル(アクセスユニット)V1~V8を含む。ビデオMPUは、複数のMMTパケット(以下、ビデオMMTパケットとも呼ぶ)に分割される。複数のビデオMMTパケットは、ビデオMPUヘッダが格納されるパケット(V_MPU(n)_H)と、ビデオMPUペイロードに含まれる複数のビデオサンプルが格納される複数のパケット(V_MPU(n)_P)とを含む。複数のパケット(V_MPU(n)_P)には、複数のビデオサンプル(V1~V8)が分割されて格納される。
 オーディオMPUペイロードは、複数のオーディオサンプル(アクセスユニット)A1~A10を含む。オーディオMPUは、複数のMMTパケット(以下、オーディオMMTパケットとも呼ぶ)に分割される。複数のオーディオMMTパケットは、オーディオMPUヘッダが格納されるパケット(A_MPU(n)_H)と、オーディオMPUペイロードに含まれる複数のオーディオサンプルが格納される複数のパケット(A_MPU(n)_P)とを含む。複数のパケット(A_MPU(n)_P)には、複数のオーディオサンプル(A1~A10)が分割されて格納される。
 本実施の形態では、図6に示すように、ビデオMPUのMPUヘッダを格納するMMTパケットV_MPU(n)_Hよりも後に、当該ビデオMPUに対応するオーディオMPUのMPUヘッダを格納するMMTパケットV_MPU(n)_Hを送信する。
 これにより、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオも復号を開始できる。よって、受信装置がオーディオの復号を開始するまでの遅延時間を低減できる。また、オーディオのセグメントが細分化されないため、オーバーヘッドも低減できる。
 ここで、ビデオの符号化においては、RAUの先頭のアクセスユニット(MP4におけるサンプル)の符号量が、後続のアクセスユニットと比較して大きくなるのが一般的である。一方で、オーディオについては、アクセスユニットの符号量のバラツキは、ビデオに比べて少ない。このため、特に、オーディオ及びビデオの符号化データを多重化したパケット列を固定レートで送信する場合、ビデオのRAUの先頭アクセスユニットについては、復号時刻までにアクセスユニットの全データが受信できていることを保証するために、早い時刻から送出が開始される。従って、MMTにおいて、MPEG-2 TS(Transport Stream)と同様にSTD(System Target Decoder)のようなシステムデコーダモデルを規定した場合でも、n番目のビデオMPUヘッダを格納したMMTパケットよりも後に、n番目のオーディオMPUのヘッダを格納したMMTパケットを送信し、かつ、システムデコーダモデルを満たすことができる。
 以下、本実施の形態に係る送信装置の構成及びその動作を説明する。
 図7は、本実施の形態に係る送信装置100のブロック図である。図7に示す送信装置100は、MPU生成部101と、パケット多重化部102とを備える。パケット多重化部102は、ビデオヘッダ判定部111と、オーディオヘッダ判定部112と、多重化部113とを備える。
 図8は、本実施の形態に係る送信処理(多重化処理)のフローチャートである。
 MPU生成部101は、入力されたビデオ信号及びオーディオ信号を分割することで、複数のビデオMPU及び複数のオーディオMPUを生成する。
 次に、パケット多重化部102は、ビデオMPU及びオーディオMPUを多重化する。
 具体的には、まず、ビデオヘッダ判定部111は、n番目のビデオMPUであるV_MPU(n)のMPUヘッダを格納するMMTパケットの送信順(VH_LOC)が決定しているかどうかを判定する(S101)。
 VH_LOCが決定している場合(S101でYes)、オーディオヘッダ判定部112は、n番目のオーディオMPUであるA_MPU(n)のMPUヘッダを格納するMMTパケットが、VH__LOCよりも後に送信されるように送信順を決定する(S102)。
 次に、多重化部113は、オーディオMPU及びビデオMPUのデータをMMTパケットに格納し、パケットを多重化することで送信ストリームを生成する(S103)。なお、このとき、多重化部113は、オーディオMPUヘッダが格納されるMMTパケットを、ステップS102で決定された送信順に従い送信する。つまり、多重化部113は、n番目のオーディオMPUであるA_MPU(n)のMPUヘッダを格納するMMTパケットを、n番目のビデオMPUであるV_MPU(n)のMPUヘッダを格納するMMTパケットよりも後に送信する。
 一方、VH_LOCが決定していない場合(S101でNo)、多重化部113は、オーディオMPU及びビデオMPUのデータをMMTパケットに格納し、パケットを多重化することで送信ストリームを生成する(S103)。
 また、上記の一連の処理が、全てのMMTパケットが送信されるまで、繰り返し行われる(S104)。
 なお、ここでは、送信装置100は、ビデオMPUヘッダのMMTパケットを基準として、当該MMTパケットより送信順が後になるようにオーディオMPUヘッダのMMTパケットの送信順を決定しているが、オーディオMPUヘッダのMMTパケットを基準として、当該MMTパケットより送信順が前になるようにビデオMPUヘッダのMMTパケットの送信順を決定してもよい。言い換えると、多重化部113は、n番目のビデオMPUであるV_MPU(n)のMPUヘッダを格納するMMTパケットを、n番目のオーディオMPUであるA_MPU(n)のMPUヘッダを格納するMMTパケットよりも前に送信してもよい。
 なお、上記説明では、送信装置100は、各MPUに含まれるMPUヘッダとMPUペイロードとを単一のストリームに多重化して送信しているが、MPUヘッダ(又はMPUヘッダに含まれる情報の一部)を、MPUペイロードが多重化されたストリームとは別の信号として送信してもよい。この場合においても、送信装置100は、当該別の信号において、オーディオMPUヘッダを、当該オーディオMPUヘッダに対応するビデオMPUヘッダより後に送信する。
 また、送信装置100は、MPUヘッダを送信せずに、MPUペイロードのみを送信する場合も、オーディオMPUとビデオMPUとの再生区間を揃えてもよい。こうすることで、同期して再生されるビデオMPUとオーディオMPUとのインデックス番号が同一となる。MMTの伝送においては、MPU毎のPTS及びDTSの絶対値が受信装置へ提供される。よって、同期再生されるビデオMPUとオーディオMPUのインデックス番号が同一であることにより、受信装置における、再生を開始するビデオのアクセスユニットのPTSに対応するPTSを持つオーディオのアクセスユニットを探索する処理の処理量を削減できる。
 以上のように、本実施の形態に係る送信装置100は、図9に示す処理を行う。
 まず、送信装置100は、個別に再生可能な単位(RAU単位)の映像データ(ビデオMPU)を再生するための映像制御情報(ビデオMPUヘッダ)を送信する(S121)。
 次に、送信装置100は、上記個別に再生可能な単位(RAU単位)の映像データ(ビデオMPU)を送信する(S122)。
 次に、送信装置100は、上記映像データの再生区間に対応する再生区間の音声データ(オーディオMPU)を再生するための音声制御情報(オーディオMPUヘッダ)を、上記映像制御情報を送信した後に送信する(S123)。つまり、送信装置100は、上記映像データの再生区間に対応する再生区間の音声データ(オーディオMPU)を再生するための音声制御情報(オーディオMPUヘッダ)の送信順を上記映像制御情報の後に決定し、決定された送信順で音声制御情報を送信する。言い換えると、送信装置100は、音声制御情報の送信順が上記映像制御情報の前にならないように音声制御情報の送信順を決定し、決定された送信順で音声制御情報を送信する。これにより、音声制御情報は常に映像制御情報の後に送信される。言い換えると、送信装置100は、音声制御情報が映像制御情報より前に送信されることを禁止する。
 次に、送信装置100は、上記音声データを送信する(S124)。
 例えば、上記音声データは、各々が個別に再生可能な複数の音声サンプルを含む。また、音声制御情報は、複数の音声サンプルの各々の再生開始時刻を示す時刻情報(PTS)を含む。また、音声データの再生区間は、映像データの再生区間に略等しい。
 以上より、本実施の形態に係る送信装置100は、セグメントをパケット多重化して送信する際に、オーディオのセグメント(MPU)のヘッダを、当該オーディオのセグメントとセグメントの先頭PTSが一致するビデオのセグメントのヘッダよりも後に送信する。これにより、受信装置は、ランダムアクセス時にビデオの復号を開始できる時刻においてオーディオの復号も開始できる。よって、ビデオの復号の開始からオーディオの復号の開始までの遅延時間が低減される。また、オーディオのセグメントを細分化する必要がないため、オーバーヘッドも低減できる。
 (実施の形態2)
 本実施の形態では、送信装置は、受信装置が、オーディオのサンプルデータに含まれる情報等に基づいてオーディオサンプルのPTSを決定できるストリームを生成する。これにより、受信装置は、オーディオMPUヘッダが取得できない場合でも、オーディオサンプルを再生できる。
 例えば、本実施の形態の方法を用いることで、図3に示すケースにおいても、受信装置は、オーディオサンプルA2から復号を開始できる。
 図10は、本実施の形態に係るオーディオMPUの構成を示す図である。
 図10に示すように、オーディオサンプルを格納する複数のMMTパケット(A_MPU(n)_P1~AMPU(n)_P8)の各々に、1つのオーディオサンプル(A1~A8のいずれか)が格納される。つまり、複数のMMTパケットは、複数のオーディオサンプルと一対一で対応する。
 また、各MMTパケットは、ヘッダと、オーディオサンプルのデータが格納されるペイロードとを含む。当該ヘッダは、フラグメントSNを含む。フラグメントSNは、MPUが分割された単位(フラグメント)のインデックス番号である。つまり、フラグメントSNは、そのフラグメント(パケット)がMPU内において何番目のフラグメントであるかを示す。また、本実施の形態では、1つのフラグメント(パケット)に1つのオーディオサンプルが格納されるので、このフラグメントSNは、当該フラグメントに含まれるオーディオサンプルの、MPU内における復号順を示す。
 なお、オーディオサンプルを格納するMMTパケットには、MPUヘッダは含まれない。
 また、復号を開始するオーディオMPUにおける先頭サンプルのPTS(Presentation Time Stamp)は、MMTメッセージなどにより、別途受信装置へ送信される。
 例えば、放送の選局後に復号を開始する場合には、選局時に取得するMMTのPAメッセージなどにおいて、選局後の一定期間に送信されるMPUの先頭サンプルのPTSが示される。
 また、サンプルデータには、サンプリング周波数を示す情報が含まれる。例えば、MPEG-2及びMPEG-4のAACのADTS(Audio Data Transport Stream)方式においては、ADTSヘッダにサンプリング周波数及びチャネル構成を示す情報が含まれる。
 また、AACのADTS及びLATM(Low-overhead MPEG-4 Audio Transport Multiplex)をMP4に格納する際には、ADTSヘッダなどのヘッダ情報をサンプルデータから削除して、ヘッダ情報をmoovのstsdに格納することがある。この場合には、AACのサンプルデータに、ヘッダ情報が含まれるかどうかを示す情報を、MP4ファイルのブランド、又は、別途定義されたBoxなどに格納してもよいし、AACのサンプルデータに、ヘッダ情報が含まれるかどうかを放送などの運用規定において予め定めてもよい。あるいは、サンプルデータにヘッダ情報が含まれるかどうかを示す情報が、MMTのSI情報などに含まれてもよい。また、多重化方式がMMTである場合に、ストリームのタイプとしてADTS又はLATMを指定することで、ヘッダ情報がサンプルデータに含まれることを示してもよい。ヘッダ情報がサンプルデータに含まれる場合には、受信装置は、MPUヘッダが送信されない、又は、MPUヘッダが取得できない場合でも、ヘッダ情報に基づいてオーディオを復号し、再生できる。
 なお、ヘッダ情報がサンプルデータに含まれない場合には、受信装置は、予めサンプルの再生時間を取得する必要がある。なお、受信装置は、ヘッダ情報がサンプルデータに含まれない場合には、下記手法を用いずに、MPUヘッダが取得できるMPUから復号を開始してもよい。
 受信装置は、MPUの先頭サンプルのPTSと、1つオーディオサンプルの再生時間と、フラグメントSNとを用いて、オーディオサンプルのPTSを算出する。
 具体的には、受信装置は、下記(式1)を用いて、任意のオーディオサンプルのPTSを決定する。
  sample(i).pts=MPU(n).pts+(num_spl/sampling_rate)*frg_sn  ・・・(式1)
 ここで、sample(i).ptsは、n番目のMPUにおけるi番目のサンプルのPTSであり、MPU(n).ptsは、n番目のMPUにおいて表示順で先頭となるサンプルのPTSである。
 num_splは、オーディオフレームに含まれるサンプル数である。なお、この場合のサンプルはMP4におけるサンプルとは異なる。MPEG-2又はMPEG-4のAAC(Advanced Audio Coding)の場合、サンプル数は1フレームあたり1024である。
 sampling_rateは、オーディオのサンプリング周波数であり、frg_snは、フラグメントSNである。
 つまり、受信装置は、オーディオフレームに含まれるサンプル数をサンプリング周波数で除算することで、一つのオーディオサンプルの再生時間を算出する。受信装置は、MPUの先頭サンプルのPTSに、一つのオーディオサンプルの再生時間とフラグメントSN(MPU内のサンプルのインデックス番号)との積を加算することで、オーディオサンプルのPTSを算出する。
 なお、オーディオサンプルの再生時間を、上記以外の方法により取得できる場合には、受信装置は、他の方法を用いてもよい。
 例えば、オーディオのサンプリング周波数が一定であるなど、サンプルの再生時間が一定である場合には、受信装置は、予め取得した再生時間に基づいて、オーディオサンプルのPTSを決定してもよい。
 また、MMTメッセージなどにより、サンプリング周波数、又は、サンプルの再生時間を示す情報が送信されてもよい。また、MMTパケットを、直接、又は、IPパケットに多重化したうえで、TSパケットに格納して送信する場合においては、MPEG-2システムのデスクリプタなどにより、サンプリング周波数、又は、サンプルの再生時間を示す情報が送信されてもよい。
 また、ビデオにおいても、フレームレートが既知である、又は、フレームレートがMMTメッセージなどにより別途取得できる場合には、本方法が適用できる。
 また、MPEG-4 AVC(Advanced Video Coding)、及びMPEG HEVC(High Efficiency Video Coding)などにおいては、サンプルデータに、SPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)などの復号時の初期化情報が含まれる必要がある。SPS及びPPSがサンプル内に含まれるかどうかは、MP4のブランド名又はサンプルエントリのタイプにより識別できるため、これらの情報が別途送信されてもよい。
 以上により、受信装置は、オーディオMPUヘッダを受信できない場合でも、MPU内の任意のオーディオサンプルのPTSを取得できる。これにより、ビデオMPUヘッダとオーディオMPUヘッダとの送信順序に制約を設けることなく、オーディオが再生されるまでの遅延時間を低減できる。
 以下、本実施の形態に係る送信装置の構成及びその動作を説明する。
 図11は、本実施の形態に係る送信装置200のブロック図である。図11に示す送信装置200は、ビデオMPU生成部201と、オーディオMPU生成部202と、オーディオパケット化部203と、ビデオパケット化部204とを備える。
 図12は、本実施の形態に係る送信処理(多重化処理)のフローチャートである。
 まず、ビデオMPU生成部201は、n番目のビデオMPUであるV_MPU(n)の再生区間を決定する(S201)。また、ビデオパケット化部204は、決定されたV_MPU(n)を複数のMMTパケットにパケット化する。このとき、ビデオパケット化部204は、V_MPU(n)を、当該V_MPU(n)の先頭サンプルがランダムアクセスポイントとなるように生成する。つまり、V_MPU(n)は、1つ以上のビデオのランダムアクセス単位から構成される。
 次に、オーディオMPU生成部202は、V_MPU(n)の再生区間と一致するように、n番目のオーディオMPUであるA_MPU(n)の再生区間を決定する(S202)。
 次に、オーディオパケット化部203は、ステップS202で決定されたA_MPU(n)に含まれる各サンプルが、それぞれ1つのMMTパケットに格納されるように複数のMMTパケットを生成する(S203)。
 そして、送信装置200は、オーディオパケット化部203で生成されたオーディオのMMTパケットと、ビデオパケット化部204で生成されたビデオのMMTパケットとを多重化して送信する。
 なお、上記説明では、V_MPU(n)とA_MPU(n)との再生区間が一致しているが、V_MPU(n)とA_MPU(n)との再生区間は異なってもよい。本実施の形態においては、受信装置は、オーディオMPUを途中から受信しても、受信直後に取得したサンプルから復号を開始できるため、V_MPU(n)とA_MPU(n)との再生区間が必ずしも一致する必要はない。
 以上より、本実施の形態に係る送信装置200は、オーディオのセグメントをパケット多重化して送信する際に、セグメントのヘッダ部とデータ格納部とを別パケットに格納し、さらに、データ格納部をアクセスユニット毎にパケット化する。また、送信装置200は、アクセスユニットを格納するパケットのヘッダに、セグメント内における当該アクセスユニットの復号順を示すインデックス番号を格納して送信する。これにより、受信装置は、アクセスユニットのPTSを算出できる。よって、セグメントのパケット多重化動作を制約することなく、受信装置が復号を開始するまでの遅延時間が低減される。
 つまり、送信装置200は、音声データ(オーディオMPU)を、各々が複数の音声サンプル(オーディオサンプル)の一つを含む複数のパケット(MMTパケット)に分割して送信する。また、複数のパケットの各々は、当該パケットが、複数のパケットの何番目のパケットであるかを示す順番情報(フラグメントSN)を含む。
 (実施の形態3)
 本実施の形態では、ビデオMPUとオーディオMPUとの再生区間を揃えることなく、オーディオMPUの再生時間を、ビデオMPUの再生時間より短く設定する。これにより、オーディオのMPUの送信頻度が上がるので、ランダムアクセス性を高めることができる。
 MPU単位でのランダムアクセスを想定すると、ビデオにおいては、符号化データにおけるRAUがMPUの最小単位である。一方、オーディオでは、任意のサンプル(アクセスユニット)から復号可能であるため、MPUを構成するサンプル数は自由に設定できる。
 例えば、ビデオのRAUの再生時間は、符号化効率とランダムアクセス性との兼ね合いから、0.5秒から1秒程度であることが一般的である。また、ビデオMPUの再生時間もRAUの再生時間に従うことになる。
 一方、オーディオの場合は、MPUの再生時間を0.1秒程度とすることも可能である。例えば、オーディオMPUの再生時間を0.1秒に設定すると、ビデオの再生を開始してから、遅くとも0.1秒以内にオーディオの再生を開始できる。このように、オーディオMPUの再生時間を短く設定することで、ビデオの再生を開始してからオーディオの再生を開始できるまでの遅延時間を短縮できる。
 図13は、本実施の形態に係るビデオMPU及びオーディオMPUの一例を示す図である。図13に示すように、複数のオーディオMPUの各々の再生時間は、複数のビデオMPUの各々の再生時間より短く設定される。
 また、ビデオMPUの先頭PTSに対して、いずれかのオーディオMPUの先頭PTSが対応するように、複数のオーディオMPUの再生区間が設定されてもよい。図14は、この場合のビデオMPU及びオーディオMPUの一例を示す図である。
 例えば、図13に示すようにオーディオMPUの再生区間が設定されると、ビデオMPU(1)の先頭PTSと同一の先頭PTSを持つオーディオMPUは存在しない。このように、図13に示す例では、ビデオMPUの先頭PTSに対して、いずれかのオーディオMPUの先頭PTSが対応することが保証されない。
 一方、図14に示すようにオーディオMPUの再生区間が設定されると、各ビデオMPUの先頭PTSと同一の先頭PTSを持つオーディオMPUが必ず存在する。つまり、ビデオMPUの先頭PTSに対して、いずれかのオーディオMPUの先頭PTSが対応することが保証される。
 また、ビデオのRAUの再生時間が一定であれば、送信装置は、MPU生成処理の開始に先立ってビデオのMPUの再生時間を取得することで、オーディオMPUの再生時間を決定できる。一方、ビデオ素材のフレームレートの切替わり又は符号化条件の変更が発生し、ビデオのRAUの再生時間が可変となる場合には、送信装置は、各ビデオMPUの再生時間を取得しながら、オーディオMPUの再生時間を決定する。
 以下、本実施の形態に送信装置の構成及びその動作を説明する。
 図15は、本実施の形態に係る送信装置300のブロック図である。図15に示す送信装置300は、ビデオMPU生成部301と、区間判定部302と、第1決定部303と、第2決定部304と、先頭決定部305と、MPU生成部306とを備える。
 図16は、本実施の形態に係る送信処理(多重化処理)のフローチャートである。
 まず、初期設定として、送信装置300は、nを0に設定することで、最初のMPUを選択する(S301)。
 次に、ビデオMPU生成部301は、ビデオのRAUに基づいて、先頭のビデオMPU(V_MPU(0))の再生区間を決定する(S302)。ここで、ビデオMPUは、1つ以上のRAUから構成される。
 次に、先頭決定部305は、V_MPU(0)と、先頭のオーディオMPU(A_MPU(0))との先頭サンプルのPTSが等しくなるように、A_MPU(0)の先頭サンプルを決定する(S303)。
 次に、区間判定部302は、処理対象のオーディオのMPU(A_MPU)が、V_MPU(n)の再生区間における最終MPUであるかを判定する(S304)。
 A_MPUが最終MPUである場合(S304でYes)、第1決定部303は、A_MPUの最終サンプルの再生終了時刻がV_MPU(n)の再生終了時刻と等しくなり、かつ、A_MPUの再生時間が閾値以下となるように、A_MPUの最終サンプルを決定する(S305)。
 一方、A_MPUが最終MPUでない場合(S304でNo)、第2決定部304は、A_MPUの再生時間が閾値以下となるように、A_MPUの最終サンプルを決定する(S306)。
 ここで、ステップS305及びS306で用いられる閾値は、ビデオのランダムアクセスポイントの再生開始からオーディオが再生開始できるまでの遅延時間がどこまで許容できるかに基づいて設定される。但し、MPUの再生時間が短くなると共に、送信データを占めるMPUヘッダの割合が増加する。特に、オーディオはビデオに比べてビットレートが低い。また、MPUヘッダにおいては、MPUに格納されるサンプル数に依存しない固定部分が大きい。よって、MPUヘッダのオーバーヘッドの低減は重要である。従って、例えば、遅延時間とMPUヘッダのオーバーヘッドとの両方に基づいて、MPUの再生時間が決定される。
 また、1つのMPUに格納できるオーディオのサンプル数は、1つのサンプルの再生時間に依存する。1つのサンプルの再生時間は、サンプリング周波数などに依存する。
 ステップS305又はS306の後、MPU生成部306は、ステップS303で決定されたオーディオMPUの先頭サンプルと、ステップS305又はS306で決定されたオーディオMPUの最終サンプルとに基づき、オーディオMPU(n)を生成する。
 次に、送信装置300は、nを1増加することで、次のMPUを選択し(S307)、全てのMPUの再生区間が決定されるまで、ステップS304~S307の処理を繰り返す(S308)。
 なお、先頭のMPU以降のMPUにおける先頭サンプルとして、直前のMPUにおける最終サンプルの直後のサンプルが設定される。
 また、送信装置300は、サンプリング周波数又はチャネル構成(モノラル、ステレオ、又は5.1チャネルなど)の切替わりにおいて、MPUを分けてもよい。こうすることで、同一MPUにおいてはオーディオの符号化条件が一定となる。これにより、受信装置は、再生時において、MPU単位での符号化条件の切替わりにのみ対応すればよいので、切替わり時点におけるシームレスな再生を容易に実現できる。例えば、受信装置は、再生時において、次のMPUのヘッダ、又は、先頭サンプルに格納される符号化条件(パラメータ)を先読みすることで、切替わりに前もって対応できる。
 また、図13及び図14に示すように、ビデオMPUの先頭PTSに対して、いずれかのオーディオMPUの先頭PTSが対応することが保証されてもよいし、保証されなくてもよい。
 以上より、本実施の形態に係る送信装置300は、ビデオのセグメント(MPU)の先頭がランダムアクセスポイントとなるように生成し、オーディオのセグメントの再生時間が所定値以下となるように生成する。また、送信装置300は、オーディオのセグメントの再生時間を、ビデオのセグメントよりも短く設定する。これにより、オーディオのセグメントに係るオーバーヘッドは増加するものの、受信装置におけるPTS算出処理などを不要にできる。また、受信装置が復号を開始するまでの遅延時間が低減される。
 つまり、映像データ(ビデオMPU)は、映像信号が分割されることにより得られた複数の映像データの一つである。音声データ(オーディオMPU)は、音声信号が分割されることにより得られた複数の音声データの一つである。そして、図13に示すように、音声データ(オーディオMPU)の再生時間は、映像データ(ビデオMPU)の再生時間より短い。
 また、図14に示すように、複数の音声データ(オーディオMPU)は、複数の映像データ(ビデオMPU)の各々の再生開始時刻(PTS)と略等しい再生開始時刻(PTS)の複数の音声データを含んでもよい。
 (実施の形態4)
 本実施の形態では、上記実施の形態1に係る送信装置100により送信されたデータを受信し、当該データを再生する受信装置について説明する。
 図17は、本実施の形態に係る受信装置400のブロック図である。図17に示す受信装置400は、ビデオMPU決定部401と、オーディオMPU決定部402と、サンプル決定部403とを備える。
 図18は、本実施の形態に係る受信処理のフローチャートである。図18に示すフローチャートは、ランダムアクセス時に復号を開始するオーディオサンプルを決定する際の動作例について示す。
 まず、ビデオMPU決定部401は、再生を開始するビデオMPU(V_MPU)を決定する(S401)。例えば、MMTパケットのヘッダには、ペイロードにMPUヘッダとサンプルデータとのどちらが含まれるかを示す識別情報が含まれる。また、パケットのID(TSパケットのPIDに相当)により、受信装置400は、ペイロードに格納されるデータが、ビデオ及びオーディオのアセットのいずれであるかも識別できる。従って、ビデオMPU決定部401は、放送又は通信において、ビデオのアセットに相当するパケットIDを持つパケットの受信を開始した後、最初にMPUヘッダを取得したMPUをV_MPUに決定する。
 次に、オーディオMPU決定部402は、V_MPUよりも後にMPUヘッダを受信したMPUの中から、V_MPUにおける表示順で先頭となるサンプルのPTS(先頭PTS)と同一の先頭PTSを持つオーディオMPUを探索し、探索により得られたオーディオMPUを、再生を開始するオーディオMPU(A_MPU)として決定する(S402)。ここで、PTSが同一であるとは、PTSが完全に一致している場合に限定されず、実施の形態1において説明したように、互いのPTSが略同一であればよい。
 また、オーディオ及びビデオMPUの先頭PTSは、MMTメッセージ、又は、MMTパケットをTSにより多重化する際のMPEG-2システムのデスクリプタなどにより別途示されるため、オーディオMPU決定部402は、これら別途示される情報に基づいて、V_MPUの先頭PTSを持つオーディオMPUを探索できる。なお、MPUの先頭PTSを示す情報が、MPUヘッダに含まれており、オーディオMPU決定部402は、この情報を用いて、V_MPUの先頭PTSを持つオーディオMPUを探索してもよい。
 次に、サンプル決定部403は、A_MPUの先頭サンプルから再生を開始すると決定する(S403)。
 なお、ステップS403においては、ビデオMPUとオーディオMPUとの再生区間が揃っていることが保証されるため、サンプル決定部403は、A_MPUの先頭サンプルから再生を開始すると決定できる。一方で、ビデオMPUとオーディオMPUとの再生区間が揃っていることが保証されない場合には、受信装置400は、以下の処理を行ってもよい。
 まず、受信装置400は、V_MPUの先頭PTS(V_MPU.pts)を取得する。
 次に、受信装置400は、V_MPUよりも後で最初に取得したオーディオMPUの先頭PTSを取得すると共に、MPUヘッダを解析してオーディオMPUの再生時間を取得する。そして、受信装置400は、V_MPU.ptsと同一のPTSを持つオーディオサンプルが当該オーディオMPUに含まれるかどうかを判定する。なお、PTSは必ずしも一致する必要はなく、受信装置400は、V_MPU.ptsの直前、又は、直後のPTSを持つオーディオサンプルがオーディオMPUに含まれるかどうかを判定してもよい。
 また、オーディオMPUの再生時間が、MPUの先頭PTSと同様に別途示される場合には、受信装置400は、MPUヘッダの解析を行わず、別途示される情報からオーディオMPUの再生時間を取得する。
 V_MPU.ptsと同一のPTSを持つオーディオサンプルが存在しないと判定された場合には、受信装置400は、次のオーディオMPUを取得して、上記判定処理を行う。そして、V_MPU.ptsと同一のPTSを持つオーディオサンプルが存在すると判定されるまで、受信装置400は、後続のオーディオMPUに対して、順次判定処理を繰り返す。
 なお、受信装置400は、ビデオについては、V_MPUの先頭サンプルから再生を開始して、オーディオについては、A_MPUの直後のMPUから再生を開始してもよい。ここで、ビデオにおいて復号順と表示順とが異なる場合には、受信装置400は、復号順で先頭のサンプルから復号を開始し、表示順で先頭のサンプルから再生(表示)を開始する。
 また、オーディオについては、ビデオのV_MPUの再生の開始に先立って、A_MPUから再生を開始し、ビデオについては、V_MPU.ptsの時刻から再生を開始してもよい。
 以上より、本実施の形態に係る受信装置400は、受信開始後に最初にヘッダを受信したビデオのセグメントから復号を開始すると決定し、復号開始するビデオのセグメントの先頭PTSと一致するオーディオのセグメントから復号を開始する。これにより、受信装置400は、復号開始までの遅延時間を低減できる。
 また、ここでは、実施の形態1に係る送信装置100により送信された信号を受信する場合について説明したが、同様の方法を実施の形態3に係る送信装置300により送信された信号を受信する場合にも適用できる。
 つまり、受信装置400は、受信開始後に最初にヘッダを受信したビデオのセグメントから復号を開始すると決定する。また、受信装置400は、先頭PTSが、復号を開始するビデオのセグメントのPTSと同一又は後であり、かつ、最初に受信したオーディオのセグメントから復号を開始する。これにより、受信装置400は、復号開始までの遅延時間を低減できる。
 このように、受信装置400は、実施の形態1又は3に係る送信装置100又は300により送信された映像制御情報(ビデオMPUヘッダ)、映像データ(ビデオMPU)、音声制御情報(オーディオMPUヘッダ)及び音声データ(オーディオMPU)を受信し、映像データ及び音声データを再生できる。
 (実施の形態5)
 本実施の形態では、上記実施の形態2に係る送信装置200により送信されたデータを受信し、当該データを再生する受信装置について説明する。
 図19は、本実施の形態に係る受信装置500のブロック図である。図19に示す受信装置500は、開始PTS決定部501と、判定部502と、第1PTS算出部503と、第2PTS算出部504と、サンプル取得部505とを備える。
 図20は、本実施の形態に係る受信処理のフローチャートである。図20に示すフローチャートは、復号を開始するオーディオサンプルを取得して、PTSを決定する動作例を示す。
 まず、開始PTS決定部501は、復号を開始するオーディオサンプルのPTS(tgt_pts)を決定する(S501)。また、PTSがtgt_ptsであるオーディオサンプルをtgt_splと記す。tgt_ptsは、例えば、再生を開始するビデオMPUの先頭PTSである。これは、放送の選局後、又は通信ネットワーク経由でコンテンツを取得する際の受信開始時には、ビデオのランダムアクセスポイントを基準とすることが一般的であるためである。
 次に、判定部502は、tgt_splが属するMPU(mpu_cur)のMPUヘッダを取得できているかどうかを判定する(S502)。例えば、判定部502は、MMTメッセージなどから別途取得した各MPUの先頭PTSに基づいて、PTSがtgt_ptsとなるサンプルが含まれるMPU(mpu_cur)を判定する。なお、MPUの先頭PTSを示す情報が、MPUヘッダに含まれ、判定部502は、当該情報に基づき、PTSがtgt_ptsとなるサンプルが含まれるMPU(mpu_cur)を判定してもよい。または、判定部502は、MMTパッケージを構成するアセットに関する情報を別途ダウンロードし、当該情報に基づき、PTSがtgt_ptsとなるサンプルが含まれるMPU(mpu_cur)を判定してもよい。
 MPU(mpu_cur)のMPUヘッダを取得できている場合(S502でYes)、第1PTS算出部503は、MPUヘッダを解析して、mpu_cur内におけるtgt_splのインデックス番号を取得する(S503)。ここで、MPUに含まれるサンプルのPTSは、moof内のtrunに含まれるサンプルのDTS及びPTSを示す情報に基づいて決定できる。moofの解析により得られるPTSは、MPUの先頭PTSからの差分値であるため、第1PTS算出部503は、得られたPTSに、MPUの先頭PTSを加算して実際のPTSを算出する。そして、第1PTS算出部503は、算出されたPTSがtgt_ptsと同一であるサンプルをtgt_splとして決定する。なお、PTSがtgt_ptsと同一であるサンプルが存在しない場合には、第1PTS算出部503は、PSTがtgt_ptsの直前或いは直後のサンプルをtgt_splとして決定する。
 次に、第1PTS算出部503は、tgt_splがMPU内において復号順で何番目のサンプルであるかを示すインデックス番号(フラグメントSN)を取得する。なお、MPUが複数のmovie fragmentから構成されている場合、フラグメントSNは、先頭のmovie fragmentの先頭サンプルからの通し番号である。
 一方、MPU(mpu_cur)のMPUヘッダを取得できていない場合(S502でNo)、第2PTS算出部504は、1サンプル当たりの再生時間などから、上記(式1)に基づいてサンプルのPTSを算出し、mpu_cur内におけるtgt_splのインデックス番号を取得する(S504)。また、(式1)を用いる方法以外の方法でサンプルのPTSが求められる場合には、第2PTS算出部504は、それらの方法を用いてもよい。なお、PTSの算出方法に関しては、上述した実施の形態2で詳しく説明している。
 ステップS503又はS504の後、サンプル取得部505は、MMTパケットのヘッダにおけるMPUのシーケンス番号がmpu_curのシーケンス番号と一致し、かつ、フラグメントSNがステップS503又はS504で得られたインデックス番号と等しいパケットを取得し、当該パケットに含まれる、再生を開始するオーディオサンプルを取得する(S505)。
 ビデオのランダムアクセスポイントにおいて、対応するオーディオサンプルのMPUヘッダが取得できないケースがある。当該オーディオサンプルが属するMPUをMPU(n)とすると、受信装置500は、MPU(n)に含まれるサンプルについては、ステップS504の方法によりPTSを取得し、MPU(n+1)以降に含まれるサンプルについては、ステップS503の方法でPTSを取得する。
 なお、受信装置500は、ステップS502及びS503の処理を行わず、常にステップS504の方法でPTSを取得してもよい。
 また、ここでは、ステップS501において、ビデオの再生開始時刻に基づき、復号を開始するオーディオサンプルを決定する例を述べたが、受信開始後に最初に取得できるオーディオサンプルから再生を開始する場合にも本実施の形態を適用できる。図21は、この場合の受信処理のフローチャートである。
 まず、受信装置500は、復号を開始するオーディオサンプル(tgt_spl)を決定する(S511)。例えば、受信装置500は、最初に受信したオーディオサンプルを、tgt_splに決定する。
 次に、受信装置500は、tgt_splが属するMPU(mpu_cur)のMPUヘッダを取得できているかどうかを判定する(S512)。なお、この処理は上記ステップS502と同様である。
 MPU(mpu_cur)のMPUヘッダを取得できている場合(S512でYes)、受信装置500は、MPUヘッダを解析して、tgt_splのPTSを算出する(S513)。なお、PTSの算出方法の詳細は、上記ステップS503と同様である。
 一方、MPU(mpu_cur)のMPUヘッダを取得できていない場合(S512でNo)、受信装置500は、1サンプル当たりの再生時間などから、上記(式1)に基づいてサンプルのPTSを算出する(S514)。なお、PTSの算出方法の詳細は、上記ステップS504と同様である。
 以上の処理により、受信装置500は、オーディオのMPUヘッダを取得できない場合でも、オーディオサンプルのPTSを取得できる。
 以上より、受信装置500は、1パケットのペイロードから1アクセスユニット分のデータを取得し、インデックス番号に基づいて、セグメントにおける復号順で先頭となるアクセスユニットと、取得したアクセスユニットとのPTSの差分を算出する。さらに、受信装置500は、セグメントの先頭PTSを別途取得することで、アクセスユニットのPTSを決定する。このように、受信装置500においてアクセスユニットのPTSを算出することで、セグメントのパケット多重化動作を制約せずに、復号の開始までの遅延時間を低減できる。
 つまり、受信装置500は、実施の形態2に係る送信装置200により送信された映像制御情報(ビデオMPUヘッダ)、映像データ(ビデオMPU)、音声制御情報(オーディオMPUヘッダ)及び音声データ(オーディオMPU)を受信する。また、受信装置500は、音声データ(オーディオMPU)に含まれる複数の音声サンプル(オーディオサンプル)のうち最初に再生される音声サンプルの再生開始時刻(PTS)である先頭再生開始時刻を取得する。
 また、受信装置500は、複数の音声サンプルの各々の再生時間を取得する。例えば、受信装置500は、オーディオフレームに含まれるサンプル数と、サンプリング周波数とを取得し、取得したサンプル数及びサンプリング周波数から複数の音声サンプルの各々の再生時間を算出する。
 次に、受信装置500は、上記先頭再生開始時刻と、上記再生時間と、処理対象のパケットに含まれる順番情報(フラグメントSN)とを用いて、当該処理対象のパケットに含まれる音声サンプル(オーディオサンプル)の再生開始時刻(PTS)を判定する。
 (変形例)
 本開示で適用される多重化方式は、MP4、MMT、又は、DASHに限定されるものではなく、オーディオ及びビデオなどの符号化データをセグメント化できる他のフォーマットに対しても本開示を適用できる。
 送信装置は、MMTパケットをIPパケットなどに格納して送信してもよい。さらに、放送においては、送信装置は、IPパケットを、TSパケット、又は、ARIB(電波産業会)で規定したTLV(Time Length Value)パケットなどに格納して送信してもよい。
 また、受信装置は、MPUなどのセグメントを、MMTパケットとは異なるパケットに多重化してもよい。オーディオ及びビデオのMPUデータを1本のストリームにパケット多重化可能な任意のプロトコルに本開示を適用できる。
 また、実施の形態1~3において、送信装置は、パケット多重化時のシステムデコーダモデル(MPEG-2システムにおけるSTD(System Target Decoder)のようなモデル)を満たすようにオーディオ及びビデオのパケットを多重化してもよい。また、MMTパケットの処理においても、システムデコーダモデルが規定できる。
 また、上記説明では、実施の形態1~3において異なる手法を個別に説明したが、これらの手法のうち2以上を組み合わせてもよい。例えば、実施の形態1に係る手法と、実施の形態2又は3に係る手法とを組み合わせることで、通信エラー等により、受信装置においてオーディオのMPUヘッダが取得できない場合には、実施の形態2又は3に係る手法によりオーディオが再生されるまでの遅延時間を低減できる。また、実施の形態2と実施の形態3とを組み合わせることで、PTSをMPUヘッダ以外の情報から算出する処理の発生頻度を低減できる。
 以上、実施の形態に係る送信装置、受信装置、送信方法及び受信方法ついて説明したが、本開示は、この実施の形態に限定されるものではない。
 また、上記実施の形態に係る送信装置及び受信装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
 また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 言い換えると、送信装置及び受信装置は、処理回路(processing circuitry)と、当該処理回路に電気的に接続された(当該制御回路からアクセス可能な)記憶装置(storage)とを備える。処理回路は、専用のハードウェア及びプログラム実行部の少なくとも一方を含む。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。処理回路は、記憶装置を用いて、上記実施の形態に係る送信方法又は受信方法を実行する。
 さらに、本開示は上記ソフトウェアプログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
 また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
 また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
 また、上記の送信方法又は受信方法に含まれるステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 以上、本開示の一つ又は複数の態様に係る送信装置、受信装置、送信方法及び受信方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 本開示は、ビデオデータ及びオーディオデータなどのメディアトランスポートを行う装置又は機器に適用できる。
 100,200,300 送信装置
 101 MPU生成部
 102 パケット多重化部
 111 ビデオヘッダ判定部
 112 オーディオヘッダ判定部
 113 多重化部
 201,301 ビデオMPU生成部
 202 オーディオMPU生成部
 203 オーディオパケット化部
 204 ビデオパケット化部
 302 区間判定部
 303 第1決定部
 304 第2決定部
 305 先頭決定部
 306 MPU生成部
 400,500 受信装置
 401 ビデオMPU決定部
 402 オーディオMPU決定部
 403 サンプル決定部
 501 開始PTS決定部
 502 判定部
 503 第1PTS算出部
 504 第2PTS算出部
 505 サンプル取得部

Claims (10)

  1.  個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信ステップと、
     前記映像データを送信する映像データ送信ステップと、
     前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信ステップと、
     前記音声データを送信する音声データ送信ステップとを含む
     送信方法。
  2.  前記音声データは、各々が個別に再生可能な複数の音声サンプルを含み、
     前記音声制御情報は、前記複数の音声サンプルの各々の再生開始時刻を示す時刻情報を含む
     請求項1記載の送信方法。
  3.  前記音声データの前記再生区間は、前記映像データの前記再生区間に略等しい
     請求項1又は2記載の送信方法。
  4.  前記音声データ送信ステップでは、前記音声データを、各々が前記複数の音声サンプルの一つを含む複数のパケットに分割して送信し、
     前記複数のパケットの各々は、当該パケットが、前記複数のパケットの何番目のパケットであるかを示す順番情報を含む
     請求項2記載の送信方法。
  5.  前記映像データは、映像信号が分割されることにより得られた複数の映像データの一つであり、
     前記音声データは、音声信号が分割されることにより得られた複数の音声データの一つであり、
     前記音声データの再生時間は、前記映像データの再生時間より短い
     請求項1記載の送信方法。
  6.  前記複数の音声データは、前記複数の映像データの各々の再生開始時刻と略等しい再生開始時刻の複数の音声データを含む
     請求項5記載の送信方法。
  7.  請求項1~6のいずれか1項に記載の送信方法により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する
     受信方法。
  8.  請求項4記載の送信方法により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する受信方法であって、
     前記複数の音声サンプルのうち最初に再生される音声サンプルの再生開始時刻である先頭再生開始時刻を取得する再生開始時刻取得ステップと、
     前記複数の音声サンプルの各々の再生時間を取得する再生時間取得ステップと、
     前記先頭再生開始時刻と、前記再生時間と、処理対象の前記パケットに含まれる前記順番情報とを用いて、当該処理対象の前記パケットに含まれる前記音声サンプルの再生開始時刻を判定する判定ステップとを含む
     受信方法。
  9.  個別に再生可能な単位の映像データを再生するための映像制御情報を送信する映像制御情報送信部と、
     前記映像データを送信する映像データ送信部と、
     前記映像データの再生区間に対応する再生区間の音声データを再生するための音声制御情報の送信順を前記映像制御情報の後に決定し、決定された前記送信順で前記音声制御情報を送信する音声制御情報送信部と、
     前記音声データを送信する音声データ送信部とを備える
     送信装置。
  10.  請求項9記載の送信装置により送信された前記映像制御情報、前記映像データ、前記音声制御情報及び前記音声データを受信する
     受信装置。
PCT/JP2014/003799 2013-07-19 2014-07-17 送信方法、受信方法、送信装置及び受信装置 WO2015008490A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201480028426.6A CN105393547B (zh) 2013-07-19 2014-07-17 发送方法、接收方法、发送装置及接收装置
EP14825951.8A EP3024244B1 (en) 2013-07-19 2014-07-17 Transmission method, reception method, transmission device, and reception device
US14/968,947 US10484734B2 (en) 2013-07-19 2015-12-15 Transmitting method, receiving method, transmitting apparatus, and receiving apparatus
US16/597,989 US11064243B2 (en) 2013-07-19 2019-10-10 Transmitting method, receiving method, transmitting apparatus, and receiving apparatus
US17/346,442 US11770577B2 (en) 2013-07-19 2021-06-14 Transmitting method, receiving method, transmitting apparatus, and receiving apparatus
US18/207,244 US20230336810A1 (en) 2013-07-19 2023-06-08 Transmission method, reception method, transmission device, and reception device
US18/233,925 US20230396830A1 (en) 2013-07-19 2023-08-15 Transmitting method, receiving method, transmitting apparatus, and receiving apparatus

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361856139P 2013-07-19 2013-07-19
US61/856,139 2013-07-19
JP2014-138920 2014-07-04
JP2014138920A JP2015023575A (ja) 2013-07-19 2014-07-04 送信方法、受信方法、送信装置及び受信装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/968,947 Continuation US10484734B2 (en) 2013-07-19 2015-12-15 Transmitting method, receiving method, transmitting apparatus, and receiving apparatus

Publications (1)

Publication Number Publication Date
WO2015008490A1 true WO2015008490A1 (ja) 2015-01-22

Family

ID=52487637

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/003799 WO2015008490A1 (ja) 2013-07-19 2014-07-17 送信方法、受信方法、送信装置及び受信装置

Country Status (5)

Country Link
US (5) US10484734B2 (ja)
EP (1) EP3024244B1 (ja)
JP (5) JP2015023575A (ja)
CN (2) CN105393547B (ja)
WO (1) WO2015008490A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171567A1 (zh) * 2017-03-21 2018-09-27 华为技术有限公司 播放媒体流的方法、服务器及终端

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5951893B2 (ja) 2014-03-24 2016-07-13 株式会社東芝 多重化装置、受信装置、多重化方法及び遅延調整方法
US10085051B2 (en) * 2015-02-13 2018-09-25 Samsung Electronics Co., Ltd. Method and apparatus for converting MMTP stream to MPEG-2TS
JP6535273B2 (ja) * 2015-11-20 2019-06-26 日本放送協会 受信装置、セグメント取得方法、及びプログラム
DE102016116555A1 (de) * 2016-09-05 2018-03-08 Nanocosmos Informationstechnologien Gmbh Verfahren zur Übertragung von echtzeitbasierten digitalen Videosignalen in Netzwerken
CN106792145A (zh) * 2017-02-22 2017-05-31 杭州当虹科技有限公司 一种音视频自动叠加字幕的方法和装置
CN109257631B (zh) * 2018-09-30 2021-04-27 武汉斗鱼网络科技有限公司 视频轮播播放方法、装置、计算机设备及存储介质
US11303688B2 (en) * 2019-09-30 2022-04-12 Tencent America LLC Methods and apparatuses for dynamic adaptive streaming over HTTP
CN112153395A (zh) * 2020-09-01 2020-12-29 海信电子科技(深圳)有限公司 流媒体数据播放方法和显示设备
US11758206B1 (en) * 2021-03-12 2023-09-12 Amazon Technologies, Inc. Encoding media content for playback compatibility
KR20230021508A (ko) * 2021-08-05 2023-02-14 삼성전자주식회사 전자 장치 및 전자 장치의 멀티미디어 재생 방법
EP4322536A1 (en) 2021-08-05 2024-02-14 Samsung Electronics Co., Ltd. Electronic device and method for multimedia playback in electronic device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006352306A (ja) * 2005-06-14 2006-12-28 Matsushita Electric Ind Co Ltd コンテンツデータ配信装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1536441A (en) * 1921-01-08 1925-05-05 Trumbull Electric Mfg Co Snap-switch terminal
US7058721B1 (en) * 1995-07-14 2006-06-06 Broadband Royalty Corporation Dynamic quality adjustment based on changing streaming constraints
JPH09205618A (ja) * 1996-01-29 1997-08-05 Mitsubishi Electric Corp 動画像音声伸張再生装置および動画像音声同期制御器
JP2007221826A (ja) * 1997-03-17 2007-08-30 Matsushita Electric Ind Co Ltd 受信端末および受信方法
JP2000078197A (ja) * 1998-09-03 2000-03-14 Toshiba Corp 通信ノード及びパケット転送方法
KR20010073607A (ko) * 2000-01-19 2001-08-01 구자홍 화상통신기기의 데이터 전송 프로토콜
GB0007868D0 (en) * 2000-03-31 2000-05-17 Koninkl Philips Electronics Nv Methods and apparatus for editing digital video recordings and recordings made by such methods
JP4114868B2 (ja) * 2002-06-26 2008-07-09 松下電器産業株式会社 多重化装置および多重化方法
WO2004004334A1 (ja) * 2002-06-26 2004-01-08 Matsushita Electric Industrial Co., Ltd. 多重化装置および逆多重化装置
KR100561414B1 (ko) * 2003-02-24 2006-03-16 삼성전자주식회사 브라우저블 슬라이드 쇼 제공을 위한 데이터 복호 장치,그 복호 방법 및 이를 위한 정보저장매체
US20040255338A1 (en) * 2003-06-13 2004-12-16 Apple Computer, Inc. Interface for sending synchronized audio and video data
KR100782835B1 (ko) * 2005-01-29 2007-12-06 삼성전자주식회사 캡션 정보의 출력시점 및 출력 우선순위를 조절하는 방법및 그 장치
EP2134013A4 (en) 2007-03-26 2011-09-07 Panasonic Corp DIGITAL BROADCAST TRANSMITTING APPARATUS, DIGITAL BROADCAST RECEIVING APPARATUS, AND DIGITAL BROADCASTING TRANSMITTING / RECEIVING SYSTEM
CN101494793B (zh) * 2009-03-03 2011-06-15 北京搜狗科技发展有限公司 流媒体数据的发送、接收方法、装置和系统
JP5428664B2 (ja) * 2009-09-01 2014-02-26 富士通モバイルコミュニケーションズ株式会社 携帯端末および情報処理方法
BRPI1013557A8 (pt) * 2009-09-25 2017-07-11 Panasonic Corp Dispositivo de reprodução, meio de gravação e circuito integrado
CN102196319A (zh) * 2010-03-17 2011-09-21 中兴通讯股份有限公司 一种流媒体直播业务系统及实现方法
CN102665141B (zh) * 2012-05-16 2014-04-09 哈尔滨工业大学深圳研究生院 一种基于rtp封装的avs音视频预同步方法
CN102917276B (zh) * 2012-11-12 2016-02-24 武汉市烽视威科技有限公司 一种应用于流媒体服务的音视频交错封装方法
JP6268066B2 (ja) * 2013-09-20 2018-01-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006352306A (ja) * 2005-06-14 2006-12-28 Matsushita Electric Ind Co Ltd コンテンツデータ配信装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171567A1 (zh) * 2017-03-21 2018-09-27 华为技术有限公司 播放媒体流的方法、服务器及终端
CN108632681A (zh) * 2017-03-21 2018-10-09 华为软件技术有限公司 播放媒体流的方法、服务器及终端

Also Published As

Publication number Publication date
EP3024244B1 (en) 2019-03-13
US11064243B2 (en) 2021-07-13
JP2019176503A (ja) 2019-10-10
CN109905725B (zh) 2021-09-24
JP2015023575A (ja) 2015-02-02
US20230336810A1 (en) 2023-10-19
JP7100175B2 (ja) 2022-07-12
CN109905725A (zh) 2019-06-18
JP2021119697A (ja) 2021-08-12
US11770577B2 (en) 2023-09-26
US20230396830A1 (en) 2023-12-07
US20200045360A1 (en) 2020-02-06
EP3024244A4 (en) 2016-07-27
JP2023115315A (ja) 2023-08-18
US20160100211A1 (en) 2016-04-07
CN105393547A (zh) 2016-03-09
CN105393547B (zh) 2019-01-15
JP2022121617A (ja) 2022-08-19
JP6878503B2 (ja) 2021-05-26
US20210306698A1 (en) 2021-09-30
EP3024244A1 (en) 2016-05-25
US10484734B2 (en) 2019-11-19
JP7307239B2 (ja) 2023-07-11

Similar Documents

Publication Publication Date Title
JP7100175B2 (ja) 送信方法及び送信装置
JP7260687B2 (ja) 送信方法および送信装置
JP6434600B2 (ja) 復号装置、復号方法、および復号用プログラム
JP7200329B2 (ja) 送信方法、受信方法、送信装置及び受信装置
JPWO2016139909A1 (ja) 復号装置、受信機器、送信機器、送受信システム、復号方法、および復号用プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480028426.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14825951

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2014825951

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE