WO2006090852A1 - データ再生装置 - Google Patents

データ再生装置 Download PDF

Info

Publication number
WO2006090852A1
WO2006090852A1 PCT/JP2006/303473 JP2006303473W WO2006090852A1 WO 2006090852 A1 WO2006090852 A1 WO 2006090852A1 JP 2006303473 W JP2006303473 W JP 2006303473W WO 2006090852 A1 WO2006090852 A1 WO 2006090852A1
Authority
WO
WIPO (PCT)
Prior art keywords
sampling frequency
data
frame data
band
frequency
Prior art date
Application number
PCT/JP2006/303473
Other languages
English (en)
French (fr)
Inventor
Tadamasa Toma
Yoshinori Matsui
Shinya Kadono
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/578,781 priority Critical patent/US7970602B2/en
Priority to DE200660021402 priority patent/DE602006021402D1/de
Priority to JP2006521334A priority patent/JP5107574B2/ja
Priority to KR20067019247A priority patent/KR101194902B1/ko
Priority to EP20060714612 priority patent/EP1860649B8/en
Publication of WO2006090852A1 publication Critical patent/WO2006090852A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • the present invention relates to a data reproducing apparatus that separates, decodes and reproduces multiplexed data of an encoded stream such as a moving image or audio.
  • AAC Advanced Audio Coding
  • MPEG Motion Picture Expert Group
  • SBR can reproduce up to twice the bandwidth of basic data, so for example, 16kHz basic data yields 32kHz output data.
  • AAC-plus the coding method with SBR added
  • the AAC-plus decoding unit can decode AAC code data.
  • the AAC decoding unit can also decode only the basic data by skipping the AAC-plus SBR data.
  • MPEG-2 and MPEG-4 are included and handled, and when distinguishing the two, it is described as MPEG-2 AAC, MPEG 4 AAC.
  • FIG. 1 shows an overview of terrestrial digital broadcasting for mopile.
  • MPEG-2 AAC is used in digital terrestrial broadcasting for mopile.
  • Figure 1 shows an overview of terrestrial digital broadcasting for mopile.
  • TS is a packet sequence of a 188-byte fixed-length packet called a TS packet, and the mobile phone or in-vehicle terminal receives this TS packet.
  • TS in addition to audio data and video data, a data unit called a section for storing program information is transmitted. On the receiving side, the program information in the section is analyzed, and then the audio data and video are analyzed. Start receiving TS packets that store data.
  • the section showing program information is called PMT (Program Map Table).
  • FIG. 1 shows the data structure of the ADTS frame.
  • a Information such as the sampling frequency and number of channels of audio data stored in the payload is stored in the header part of the DTS frame, and one frame of data of AAC or AAC-plus is stored in the payload part of the ADTS frame. Is done.
  • the sampling frequency of the ADTS header indicates the sampling frequency of the basic data, so the sampling frequency after band expansion cannot be obtained from the ADTS header.
  • MP4 is a file format standardized by ISO / IEC JTC1 / SC29 / WG 11, and is a 3GPP (Third Generation Partnership), an international standardization organization that aims to standardize third-generation mobile communication systems.
  • TS26.234 Transparent end-to-end packet switched streaming service
  • MPEG-4 AAC is used as the AAC, but MPEG-4 AAC is backward compatible with MPEG-2 AAC, so if it is a terminal that supports MPE G-4 AAC, 2 AAC encoded data can be correctly decoded and played back.
  • MPEG-4 AAC encoded data that does not use MPEG-4 AAC-specific functions can be correctly decoded and played back even by a terminal that supports only MPEG-2 AAC.
  • AU corresponds to one picture of video or one frame of audio.
  • media data is handled in units called samples.
  • One sample corresponds to 1 AU, and each sample is assigned a sample number that increases by 1 in the order of decoding time.
  • header information and media data in units of samples are managed in units of objects called Boxes.
  • Figure 3 (a) shows the Box structure, which consists of the following fields.
  • Box identifier usually expressed as 4 alphabetic characters.
  • the field length is 4 When searching for a Box in an MP4 file, it is determined by checking whether the consecutive 4 bytes of data match the identifier in the type field.
  • Data Stores header information and media data.
  • Fig. 3 (b).
  • An MP4 file consists of ftyp, moov, mdat, or moof, and ftyp is placed at the beginning of the file.
  • ftyp includes information for identifying an MP4 file, and mdat stores media data. Each media data included in mdat is called a track, and each track is identified by a track ID.
  • moov stores header information about samples included in each track of mdat.
  • Boxes are arranged hierarchically, and header information is stored in separate traks for each media track such as audio and video. Boxes are also arranged hierarchically in trak and stored in each box in Sstbl, such as sample size, decoding time, display start time, or information on randomly accessible samples (Fig. 4 (b)). ). Samples that can be accessed randomly are called sync samples, and the list of sample numbers of the sync samples is indicated by stss in stbl. In the above, it is also possible to divide the power track that has stored the header information of all the samples in the track into moov and fragment it, and store the header information in fragment units. The header information for the unit into which the track is divided is indicated by moof, and FIG. 5 shows an example of a fragmented MP4 file. The header information of the sample stored in mdat # 1 is stored in moof # 1.
  • FIG. 6 is a diagram showing a structure example of a conventional MP4 file in which broadcast data is recorded.
  • the received AAC is recorded as MPEG-2 AAC. Therefore, identification information indicating that the audio track recorded in the MP4 file is MPEG-2 AAC is stored in moov. Also, since the encoded data of AAC is different from MPE G-4 AAC, the type of encoded data stored in the MP4 file is 3 It is not GPP standard compliant. Furthermore, in the header of an MP4 file storing MPEG-2 AAC, there is no identification information indicating whether the SBR function is valid, and only the frequency of basic data in AAC-plus is shown.
  • FIG. 7 is a block diagram showing a configuration of a conventional data reproduction apparatus 1000 that reproduces a conventional MP4 file.
  • the data reproduction device 1000 includes a header separation unit 1001, an input frequency acquisition unit 1002, a decoding unit 1003, and an output unit 1004, and separates and decodes audio and video encoded data from the input MP4 file.
  • a header separation unit 1001 an input frequency acquisition unit 1002, a decoding unit 1003, and an output unit 1004, and separates and decodes audio and video encoded data from the input MP4 file.
  • the audio encoding method is not limited to AAC or AAC plus, but may be AC3 or MP3, or a method in which a band extension function is added to these encoding methods.
  • the header separation unit 1001 separates the header of the MP4 file, outputs header information Hdr including at least information indicating the sampling frequency of the audio to the input frequency acquisition unit 1002, and outputs the sample data from which the mdat force is also separated. Output to decryption unit 1003.
  • the frequency of basic data is shown as the sampling frequency.
  • the input frequency acquisition unit 1002 analyzes the header information Hdr, acquires the input frequency FSin, which is the frequency of the basic data, and outputs it to the decoding unit 1003.
  • the decoding unit 1003 decodes the sample data SplDat based on the input frequency FSin, and outputs the decoded frame Fdata that is the decoding result and the output frequency FSo that is the sampling frequency of the decoded frame Fdata to the output unit 1004.
  • the output unit 1004 outputs the decoded frame Fdata according to the output frequency FSo.
  • Patent Document 1 Japanese Patent Laid-Open No. 2003-114845
  • the output unit 1004 includes sample data. Since the output frequency FSo of the decoded frame Fdata is acquired after decoding SplDat, there are the following problems.
  • FIG. 8 is a diagram showing a problem when the MP4 file is played back by the conventional data playback apparatus 1000.
  • the upper part of Fig. 8 shows an example of the structure of the AAC-plus stream stored in the MP4 file.
  • the sampling frequency of the basic data is 24 kHz
  • the SBR function is valid in the interval from 0 to 10 seconds and 20 to 30 seconds
  • the SBR function in the interval from 10 to 20 seconds. Is invalid.
  • the sampling frequency of the decoded frame Fdata which is the decoding result in the decoding unit 1003
  • Up-sampling is performed, and the output frequency is output at 24 kHz from 10 to 20 seconds.
  • the output unit 1004 needs to switch the output frequency FSo. Since it takes a certain amount of time to switch the output frequency FSo, there is a problem if playback is interrupted at the switching part 1100 as a result!
  • the present invention has been made in view of the above circumstances, and even when the effective Z ineffective of the band expanding function is switched in the stream, the effective Z ineffective of the band expanding function is switched off. It is an object of the present invention to provide a data reproducing apparatus capable of realizing reproduction without interruption at alternate positions.
  • a data reproduction apparatus includes frame data in which audio data is encoded and band extension information for extending a reproduction band of a part of the frame data.
  • a data reproduction apparatus for reproducing an encoded stream including the acquisition means for acquiring the basic sampling frequency of the frame data as well as the encoded stream force, and an output sampling frequency when reproducing the frame data as the basic sampling. Determining means for determining a sampling frequency when the reproduction band of the frame data is extended using the band extension information based on a frequency; decoding the frame data at the basic sampling frequency; The frame For frame data, the band extension information is used to extend the reproduction band of the frame data.
  • the basic sampling frequency For frame data other than the part, when the output sampling frequency is different from the basic sampling frequency, the basic sampling frequency And decoding means for up-sampling to the output sampling frequency. This makes it possible to keep the output sampling frequency constant even when the bandwidth expansion function is enabled or disabled in a stream composed of multiple frame data, and the bandwidth expansion function is enabled. z It is possible to achieve uninterrupted playback at invalid switching positions.
  • the determination means may use the output sampling frequency when the basic sampling frequency is equal to or lower than a predetermined value, and the frame data reproduction band is extended using the band extension information.
  • the sampling frequency may be determined.
  • the determination means may use the output sampling frequency and the reproduction band of the frame data using the band extension information only when the basic sampling frequency is a specific value.
  • the sampling frequency may be determined.
  • the acquisition unit acquires identification information indicating that there is a possibility that the frame data having the band extension information and the frame data not having the band extension information are mixed, from the code stream
  • the determining means may determine the output sampling frequency based on the basic sampling frequency and the identification information. This makes it easy to determine the output sampling frequency if, for example, there is no possibility that the part of the first frame data has the corresponding second frame data and the part has the corresponding second frame data. can do.
  • the present invention can only be realized as such a data reproducing device, and can be realized as a data reproducing method including steps characteristic of the data reproducing device. These steps can also be realized as a program that causes a computer to execute. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
  • the bandwidth extension function is provided in the stream. Even when the effect z is disabled, the output sampling frequency can be kept constant, and continuous playback can be realized at the position where the band extension function is enabled and disabled.
  • FIG. 1 is a diagram showing an overview of 1-segment broadcasting service.
  • FIG. 2 is a diagram showing a data structure of a conventional ADTS frame.
  • FIGS. 3 (a) and 3 (b) are diagrams showing the MP4 Box structure.
  • FIGS. 4 (a) and 4 (b) are diagrams showing the hierarchical structure of moov in MP4.
  • FIG. 5 is a diagram showing how to use moof in MP4.
  • FIG. 6 is a diagram showing an example of the structure of a conventional MP4 file in which an AAC stream in broadcast data is recorded.
  • FIG. 7 is a block diagram showing a configuration of a conventional data reproducing apparatus.
  • FIG. 8 is a diagram showing a problem of a conventional data reproduction device.
  • FIG. 9 is a block diagram showing a configuration of a data reproduction device according to Embodiment 1 of the present invention.
  • FIG. 10 is a flowchart showing an outline of operation of the data reproducing apparatus according to Embodiment 1 of the present invention.
  • FIG. 11 is a flowchart showing an operation for determining a sampling frequency of an output frame in the data reproduction apparatus according to Embodiment 1 of the present invention.
  • FIG. 12 is a diagram showing a reproduction example of an MP4 file in the data reproduction apparatus according to Embodiment 1 of the present invention.
  • FIG. 13 is a flowchart showing an operation of determining a sampling frequency of an output frame based on header information other than the sampling frequency in the data reproduction device according to Embodiment 1 of the present invention.
  • FIG. 14 is a diagram showing a structural example of an MP4 file input to the data reproduction device according to the first embodiment of the present invention.
  • FIG. 15 shows the output cuffing based on the sampling frequency of the frame included in the track and the maximum number of channels in the data reproducing apparatus according to the first embodiment of the present invention.
  • 5 is a flowchart showing an operation for determining a sampling frequency and the number of channels of a frame.
  • FIG. 16 is a diagram showing a service example using the data reproducing device according to the first embodiment of the present invention.
  • FIGS. 17 (a) to 17 (c) are explanatory diagrams of a storage medium for storing a program for realizing the data reproduction method in the data reproduction device of each embodiment by a computer system.
  • FIG. 9 is a block diagram showing a configuration of data reproduction device 2000 according to Embodiment 1 of the present invention.
  • the data reproduction device 2000 is a device that separates, decodes and reproduces the MP4 filter AAC—plus sample data including the input AAC—plus track.
  • the header separation unit 1001, the input frequency acquisition unit 2001, An output frequency determination unit 2002, a decoding unit 2003, and an output unit 2004 are provided.
  • the audio encoding method is not limited to AAC or AAC-plus, but may be AC3 or MP3, or a method in which a band extension function is added to these encoding methods, etc. There may be multiple audio tracks. In the following, only the audio track playback process will be described, and the description of the video track playback process will be omitted.
  • the video track encoding method is MPEG-4 AVC, which is used in terrestrial digital broadcasting for mopile, Alternatively, other encoding methods such as MPEG-4 Visual, H.263, VC-1 (encoding method standardized by SMPTE) may be used. Also, for multiplexing methods, AAC or AA For example, ASF (Advanced Systems Format, a format developed by Microsoft), Quick Time (format developed by Apple), or TS can be recorded as long as the format can store code data such as C-plus. May be. When recording with TS, header information that is referred to during TS playback or when transferring the recorded TS to an external device according to a standard such as IEEE1394 may also be recorded. Here, the information referred to at the time of TS playback includes an address position, playback time, etc. of a randomly accessible frame.
  • the input frequency acquisition unit 2001 analyzes the header information Hdr, acquires the input frequency (basic sampling frequency) FSin, which is the frequency of the basic data, and outputs it to the output frequency determination unit 2002.
  • the output frequency determination unit 2002 performs predetermined processing based on the input frequency FSin, determines the output frequency (output sampling frequency) FSout, which is the sampling frequency of the decoded frame Fdata, and outputs it to the decoding unit 2003 and the output unit 2004 To do.
  • the decoding unit 20 03 decodes the sample data SplDat and up-samples the SplDat decoding result as necessary so that the sampling frequency SFSout of the decoded frame Fdata is obtained.
  • the decoding unit 2003 obtains SBR data (bandwidth extension information) and performs the SBR process on the decoding result of the basic data decoded at the input frequency FSin. Extends the sampling frequency to the output frequency FSout.
  • the output unit 2004 outputs the decoded frame Fd ata at the same frequency as the output frequency FSout.
  • the output unit 2004 can acquire the output frequency FSout prior to the input of the decoded frame Fdata.
  • FIG. 10 is a flowchart showing the operation of the data reproduction device 2000.
  • the header separation unit 1001 separates the header part and the payload part from the input MP4 file data, and proceeds to step 1002.
  • the header portion indicates ftyp, moov, moof, etc.
  • the payload portion indicates mdat.
  • the input frequency acquisition unit 2001 analyzes the header and acquires the input frequency FSin.
  • the output frequency determination unit 2002 determines the output frequency FSout based on the input frequency FSin acquired by the input frequency acquisition unit 2001. Subsequently, in Step 1004, it is determined whether or not the input frequency FSin and the output frequency FSout are equal.
  • Step 1008 the process proceeds to Step 1005.
  • step 1005 the decoding unit 2003 determines whether or not the SBR function is valid in the frame to be decoded. If it is valid, the process proceeds to step 1007, and if not valid, the process proceeds to step 1006.
  • step 1006 the decoding unit 2003 decodes the sample data at the input frequency FSin, up-samples the decoding result to the output frequency FSout, and proceeds to step 1009.
  • the process of determining the output frequency FSout in step 1003 may be performed only at the start of reproduction.
  • step 1002 and step 1004 may be performed as necessary.
  • steps 1002 and 1004 need only be performed at the start of track playback.
  • step 1002 and step 1004 are performed in units of frames. May be.
  • the processing for separating the header and payload of the ADTS frame corresponds to step 1001.
  • ATS or AAC-plus data that is TS packetized is played back, when the unit for switching the input frequency FSin is specified by the separately acquired information, it is Step 1002 and step 1004 may be performed.
  • whether the SBR function is valid for the sample may be determined by analyzing the header information Hdr at the input frequency acquisition unit 2011 or the output frequency 2002, and decoding. In Part 2003, the sample data may be analyzed and determined. When obtaining from the header information Hdr, the information of the sample entry in the track where the AAC-plus code data is stored can be used. Also, depending on the brand of MP4 file etc., AAC-plus This information may be used when it is shown whether SBR is valid in the code data.
  • step 1007 decoding section 2003 extends the sampling frequency to output frequency FSout by SBR processing on the decoding result of the basic data decoded at input frequency FSin, and proceeds to step 1009.
  • step 1008 the decoding unit 2003 decodes the sample data with the input frequency FSin, and proceeds to step 1009. Finally, the output result from the decoding unit obtained in step 1009, step 1007, step 1007, and step 1008 is reproduced.
  • step 1004 and step 1008 may be omitted.
  • step 1101 the output frequency determination unit 2002 determines whether or not the input frequency FSin is less than or equal to a predetermined value. If the input frequency FSin is less than or equal to the predetermined value, the process proceeds to step 1102. Proceed to In step 1103, the output frequency determination unit 2002 determines that the output frequency FSout is the same as the input frequency FSin. In step 1102, the output frequency determination unit 2002 determines that the output frequency FSout is twice the input frequency FSin.
  • the double of the input frequency is because the bandwidth is doubled in the bandwidth expansion processing by SBR.
  • the predetermined value in step 1101 is set to 24 kHz.
  • the sampling frequency of AAC is 2
  • the sampling frequency is 24 kHz
  • the output frequency can always be kept at 48 kHz if the output is upsampled to 48 kHz.
  • the basic data sampling frequency is fixed at 24 kHz when the SBR function is enabled.
  • processing may be switched based on whether or not the input frequency is a predetermined value.
  • the output frequency FSout is changed to the input frequency FSin. It may be set to a value different from twice or a predetermined value set in advance.
  • the predetermined value in step 1101 should be a value other than 24 kHz depending on the service.
  • FIG. 12 is a diagram showing a playback state when the same MP4 file as FIG. 8 is played by the data playback device 2000.
  • the lower part of FIG. 12 shows the sampling frequency of the decoded frame Fdata output from the decoding unit 2003 when the MP4 file shown in the upper part of FIG. 12 is played.
  • the input frequency FSin which is the sampling frequency of the basic data
  • the output frequency FS out is set to 48 kHz, which is twice the 24 kHz in step 1103.
  • MP4 is a force adopted by various operational standards. Depending on the operational standard, it is fixed whether SBR can be enabled in the AAC-plus track stored in the MP4 file. In other words, if SBR can be enabled, SBR enabled Z disabled may be switched within the track, but when SBR is disabled, the SBR function is disabled for all frames in the track.
  • FIG. 13 is a flowchart showing an operation example of switching the determination process of the output frequency FSout based on whether or not the SBR can be enabled in all the frames in the track. In step 1201, it is determined whether there is an identifier indicating that there is a possibility of switching between valid and invalid SBR in the track in the MP4 file.
  • step 1101 If an identifier exists, the process proceeds to step 1101 and the identifier is present. If not, go to Step 1103.
  • an identifier used in step 1201 it is possible to use information indicating that a one-segment broadcasting of AAC or AAC-plus track force recorded in the MP4 file is recorded. If it is shown that the data is a 1-segment broadcast, the process proceeds to step 1101.
  • the identification information may be a brand indicated by ftyp, or may be stored in moov or another box existing in moof. For example, SD regulations If it is a case, it is possible to indicate that it is data that records a 1-segment broadcast in the Box because it defines! / A box called sdvp.
  • the brands in ftyp are compat ible-brand.
  • compatible brand shows a list of brands that the MP4 file is compatible with
  • major brand shows the brand most compatible with the MP4 file.
  • notification may be made using information different from the MP4 file.
  • Step 1033 determination processing of the output frequency FSout in Step 1033 may be switched based on an identifier indicating the attribute information of the MP4 file such as a brand.
  • FIG. 14 is a diagram illustrating an example of an MP4 file in which 1-segment broadcast data is recorded. '1 seg, brand is included in compatible-brand of ftyp, and by detecting' 1 seg, brand, it can be determined that MP4 file includes 1 seg broadcasting data. Furthermore, in the MP4 file in Fig. 14, in order to make the track encoding method in the MP4 file conform to the operation standards for 3rd generation such as 3GPP, MPEG-2 AAC data of 1 segment broadcasting is converted to MPEG- 4 Recorded as AAC data.
  • the encoded data itself is determined to be MPEG-2 AAC compliant.
  • the encoding method conforms to the operation standards for third-generation mobile phones, MP4 can also be used on third-generation mobile terminals that can decode data that satisfies the audio and video encoding requirements of the 1-segment broadcasting standard.
  • the file can be played.
  • the encoding conditions include a sampling frequency, the number of channels, and a bit rate for audio, and an image size and a bit rate for video. The following items are required when recording as MPEG-4 AAC data.
  • the information indicating the encoding method of the audio track in moov indicates MPEG-4 AAC. Furthermore, when storing an MPEG-4 AAC track in an MP4 file, it can indicate whether or not there may be a sample with the SBR function enabled in the track. Indicates that there may be samples where the SBR function is valid. Specifically, in the sample entry in stsd, whether SBR data is included in the encoded data of MPEG-4 AAC Set sbrPresentFlag, a flag indicating whether or not, to '1' or '1'.
  • sbrPre sentFlag is '1', it is explicitly indicated that SBR data may be included, and if '1', whether SBR data is included is determined from outside the sign data. It will not be shown explicitly. Therefore, in step 1201, you can proceed to step 1101 if 'lseg, brand exists in compatible-brand! /, And' lse g, brand exists, and sbrPresentFlag is' 1, or You may decide to proceed to Step 1101 only if '—1. Further, if the sbrPresentFlag force is “l” or “1”, the processing may proceed to step 1101. If sbrPresentFlag is' 1, SBR can be operated as being always valid.
  • FIG. 15 is a flowchart showing another example of operation for keeping the sampling frequency of the decoded data Fdata constant.
  • the sampling frequency of the basic data in AAC-plus and the sampling frequency of the sample in AAC were known values indicated by FSin.
  • the sampling frequency of these input sample data is different from the above operation in that the maximum value is shown instead of being known.
  • the frequency of the AAC encoded data is switched between 24 kHz and 48 kHz. Etc.
  • the maximum value FSmax of the sampling frequency and the maximum value CHmax of the number of channels in the samples in the audio track are indicated.
  • the sampling frequency and channel number 1S stored in the audio track sample entry are shown as the maximum sampling frequency FSmax and the maximum channel number CHmax, respectively.
  • step 1301 the audio sample entry is analyzed, the maximum value FSmax of the sampling frequency and the maximum value CHmax of the number of channels are obtained and input to the decoding unit 2003.
  • step 1302 the decoding unit 2003 determines whether or not the maximum sampling frequency FSmax and the sampling frequency FSspl of the samples are different. Proceed to step 1303. If they are the same, proceed to step 1306.
  • the sampling frequency FSspl shall indicate the sampling frequency after band expansion.
  • step 1303 the decoding unit 2003 determines whether or not the maximum channel number CHmax and the sample channel number CHspl are different. If they are different, the process proceeds to step 1304, and if they are the same, the process proceeds to step 1305.
  • step 1304 the sample data is first decoded with the sampling frequency set to FSspl and the number of channels set to CHspl. Then, the decoding result is up-sampled to the maximum value FSmax of the sampling frequency, and the number of channels is converted to the maximum value FSmax of the number of channels and output.
  • the sample data is first decoded with the sampling frequency as FSspl and the number of channels as CHspl. The decoding result is up-sampled to the maximum sampling frequency FSmax, and the channel number is output with the channel number CHspl.
  • step 1306 similarly to step 1303, decoding section 2003 determines whether or not the maximum channel number CHmax and the sample channel number CHspl are different. If it is the same, go to step 1308.
  • step 1307 sample data is first decoded with the sampling frequency set to FSspl and the number of channels set to CHspl. The decoding result is output by converting the number of channels to the maximum value FSmax of the number of channels until the sampling frequency is the sampling frequency FSspl.
  • step 1308 sample data is decoded and output with the sampling frequency set to FSspl and the number of channels set to CHspl. That is, the output frequency FSout, the sampling frequency F S spl, the number of output channels CHout, and the number of sample channels CHspl are the same.
  • the maximum value FSmax of the sampling frequency and the maximum value CHmax of the number of channels may be stored in a place different from the sample entry by providing a special box or the like.
  • the recording medium is not limited to the SD card, and may be other nonvolatile memory or a hard disk.
  • the decoding unit detects the switching of the parameter when decoding the frame, the volume of the frame is decreased and the volume of the subsequent frames is gradually decreased. May be raised.
  • a specific condition such as the switching position of the number of channels
  • reproduction may be performed based on the parameter even at the switching position of the sampling frequency or the like.
  • the commercial part has 2 channels, and the other part may be mono.
  • the content of the main part and the commercial is discontinuous, and the deterioration in playback quality due to parameter switching is audible. This is because there are cases where it can be regarded as inconspicuous.
  • the power is described by taking as an example the case where an MP4 file including an AAC-plus track is input to data reproduction device 2000.
  • the present invention is not limited to this.
  • the input frequency acquisition unit 2001 may acquire the sampling frequency, the number of channels, etc. of the audio data stored in the payload from the header of the ADTS frame as shown in FIG.
  • the sampling frequency of the ADTS header is the sampling frequency of the basic data.
  • the present invention can be similarly applied to the case where the recorded MPEG-2 TS is played after the received MPE G-2 TS is recorded.
  • FIG. 16 is a block diagram showing the overall configuration of a system for realizing a content distribution service by broadcasting and communication.
  • a cellular phone exl05 or a disc recorder exl04 such as a DVD recorder receives a TS packet sequence in which digital encoded media data is multiplexed.
  • the mobile phone exl05 converts the received TS packet sequence to MP4 and then records it on the SD card exl06.
  • the recorded MP4 file can be viewed on a mobile phone exl05, a disk recorder exl04, or a personal computer (not shown) equipped with a data reproducing apparatus according to the present invention.
  • an MP4 file is attached to an e-mail and transmitted from the mobile phone exlO 5 via the radio base station exl07 to another mobile phone exl08 equipped with the data playback device according to the present invention. You can also watch MP4 files.
  • HTTP Hyper Text Transport Protocol
  • TCP Transmission Control Protocol
  • the received TS packet sequence can be converted into MP4 and recorded on an SD card, an optical disc such as a DVD, or a hard disk.
  • the recorded MP4 file may be downloaded to a mobile phone, not shown !, downloaded to a personal computer, or simulated streaming.
  • the broadcast data is also transmitted.
  • MP4 files can be used in the same way as when receiving data.
  • the present invention also relates to the case where data transmitted by a protocol such as RTP (Real-time Transport Protocol) used for streaming delivery on the Internet is recorded in MP4 regardless of TS.
  • RTP Real-time Transport Protocol
  • a data reproducing apparatus can be applied.
  • the program for realizing the data playback method in the data playback device shown in each of the above embodiments is recorded in a storage medium such as a flexible disk, thereby showing in each of the above embodiments. Processing can be easily performed in an independent computer system.
  • FIG. 17 is an explanatory diagram when the data reproducing method in the data reproducing device of each of the above embodiments is implemented by a computer system using a program recorded on a recording medium such as a flexible disk.
  • FIG. 17 (b) shows the frontal appearance, cross-sectional structure, and flexible disk of the flexible disk
  • FIG. 17 (a) shows an example of the physical format of the flexible disk that is the recording medium body.
  • the flexible disk FD is built in the case F, and on the surface of the disk, a plurality of tracks Tr are formed concentrically from the outer periphery toward the inner periphery, and each track has 16 sector Se in the angular direction. It is divided into Therefore, in the flexible disk storing the program, the program is recorded in an area allocated on the flexible disk FD.
  • FIG. 17 (c) shows a configuration for recording and reproducing the program on the flexible disk FD.
  • the program for realizing the data reproduction method in the data reproduction apparatus is recorded on the flexible disk FD
  • the program is written from the computer system Cs via the flexible disk drive.
  • the program is also read out from the flexible disk by the flexible disk drive. Transfer to system.
  • a flexible disk is used as the recording medium.
  • the same can be done using an optical disk.
  • the recording medium is not limited to this, and any recording medium that can record a program, such as an IC card or a ROM cassette, can be similarly implemented.
  • each functional block in the block diagram shown in FIG. 9 is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. (For example, the functional blocks other than the memory may be integrated on one chip.)
  • IC integrated circuit
  • system LSI system LSI
  • super LSI non-linear LSI depending on the difference in the power integration level of LSI.
  • circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • reconfigurable 'processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • the data reproduction device reproduces a stream storing audio data in which attribute information such as the presence or absence of the bandwidth extension function or the sampling frequency or the number of channels is switched in the middle of the stream. Further, since it is possible to realize uninterrupted playback even at the switching position of the attribute information, it is particularly effective for devices such as portable terminals that receive digital broadcasts and powerful navigation systems.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

 ストリーム内において帯域拡張機能の有効/無効が切替わる場合であっても、帯域拡張機能の有効/無効の切替わり位置において途切れのない再生を実現することができるデータ再生装置を提供する。データ再生装置(2000)は、ヘッダ情報Hdrを解析して基本データの周波数である入力周波数FSinを取得する入力周波数取得部(2001)と、入力周波数FSinに基づいて所定の処理を行い、復号フレームFdataのサンプリング周波数である出力周波数FSoutを決定する出力周波数決定部(2002)と、復号処理を行うフレームにおいてSBR機能が有効であれば、サンプルデータを入力周波数FSinで復号し、復号結果に対してSBR処理によりサンプリング周波数を出力周波数FSoutにまで帯域拡張し、SBR機能が有効でなければ、入力周波数FSinでの復号結果を出力周波数FSoutにアップサンプリングする復号部(2003)とを備える。                                                                                 

Description

明 細 書
データ再生装置
技術分野
[0001] 本発明は、動画像、音声などの符号化ストリームの多重化データを分離、復号して 再生するデータ再生装置に関する。
背景技術
[0002] 近年、蓄積メディアや通信ネットワークの大容量化、あるいは伝送技術の進歩にとも ない、動画や音声などの符号化マルチメディアデータを扱う機器や、サービスが普及 してきた。例えば、放送分野においては、従来のアナログ放送に代わり、デジタル符 号化されたメディアデータの放送が開始された。現在のデジタル放送は、固定受信 のみを対象としているが、携帯電話などの移動体向けの放送も予定されている。また 、通信分野においても、第 3世代の携帯電話向けの動画配信サービスが立ち上がる など、固定端末と携帯端末の双方でマルチメディアデータを扱う環境が整ってきて ヽ る。これらの背景を鑑みると、 SD (Secure Digital)カードなどのメモリカード、あるいは DVD- RAM (Digital Versatile Disk- Rewritable)などの光ディスクに、放送や、イン ターネット経由で受信したコンテンツデータを記録し、機器間でコンテンツデータを共 有するといった使用方法の普及が見込まれる。
[0003] ここで、オーディオデータの符号化方式の代表例としては、 MPEG (Moving Pictur e Expert Group)で規格化された AAC (Advanced Audio Coding)規格があり、デジ タル放送、あるいは第三世代の携帯端末における動画サービスなどで幅広く使用さ れている。
[0004] オーディオデータの符号ィヒにおいては、一般に、圧縮率が高くなるほど再生帯域 の上限周波数が低下し、音質が劣化する。これは、高周波数成分の符号化に十分な ビットが割り当てられないためである。そこで、このような高周波数成分の欠落を補う ため、 SBR (Spectral Band Replication)と呼ばれる、擬似的に帯域を拡張して高周 波数成分を生成する技術が開発されている。具体的には、低周波数成分から高周波 数成分を予測するための補助情報をストリーム内に格納することにより、圧縮率を上 げて低ビットレートイ匕した符号ィ匕データにおいても、帯域拡張処理を施すことにより高 音質に再生することができる。ここで、 1フレームのデータに含まれる AACの符号ィ匕 データを基本データと呼ぶことにすると、フレームデータは基本データと SBRデータ とから構成される。一般的に、 SBRにより基本データの 2倍の帯域まで再現すること ができるため、例えば、 16kHzの基本データからは 32kHzの出力データが得られる 。なお、従来の AACに加えて、 SBRを追加した符号化方式は、 AAC— plusと呼ば れる。ここで、 AAC— plusのフレームに SBRデータが含まれないときには、 AACデ ータとして復号する。 AAC—plusは、 AACと互換性があるため、 AAC—plusの復 号部では、 AACの符号ィ匕データを復号することができる。また、 AACの復号部にお いても、 AAC—plusの SBRデータを読み飛ばすことにより、基本データのみを復号 することができる。以下では、 AAC—plusと記述した際には MPEG— 2と MPEG— 4 の両方を包含して扱うこととし、両者を区別する際には MPEG— 2 AAC, MPEG 4 AACのように記述する。
[0005] 上記のように、 AAC—plusは、低ビットレートにおいて特に有効であるため、モバイ ル向けのサービスへの展開が見込まれており、第三世代携帯端末、あるいは、モバ ィル向けの地上デジタル放送などにおいて使用される。なお、モパイル向けの地上 デジタル放送においては、 MPEG— 2 AACが使用される。図 1は、モパイル向けの 地上デジタル放送の概要を示す図である。放送局からは、 MPEG— 2の TS (Transp ort Stream)に多重化されたオーディオデータ、およびビデオデータが送信される。 T Sは、 TSパケットと呼ばれる 188バイト固定長のパケットのパケット列であり、携帯電 話や車載端末などにおいては、この TSパケットを受信する。ここで、 TSにおいては、 オーディオデータ、ビデオデータの他に、番組情報を格納するセクションと呼ばれる データ単位が送信され、受信側では、セクション内の番組情報を解析してから、ォー ディォデータ、ビデオデータを格納した TSパケットの受信を開始する。番組情報を示 すセクションは、 PMT (Program Map Table)と呼ばれる。
[0006] AAC、あるいは AAC— plusの符号化データを TSパケットにより伝送する際には、 符号化データのフレームは、 MPEG— 2の ADTS (Audio Data Transport Stream) フレームに変換して力も伝送される。図 2は、 ADTSフレームのデータ構造を示す。 A DTSフレームのヘッダ部には、ペイロードに格納されるオーディオデータのサンプリ ング周波数、チャネル数などの情報が格納され、 ADTSフレームのペイロード部には 、 AAC、あるいは AAC— plusの 1フレームのデータが格納される。 AAC— plusの場 合、 ADTSヘッダのサンプリング周波数は基本データのサンプリング周波数を示す ため、帯域拡張後のサンプリング周波数を ADTSヘッダから取得することはできな ヽ
[0007] 次に、携帯端末で受信したモパイル向けの地上デジタル放送の記録について説明 する。携帯端末向けのデジタル放送の開始に伴い、放送の記録が見込まれるが、記 録時の多重化フォーマットとしては、第 3世代携帯端末との相互接続性を確保する観 点から、 MP4ファイルフォーマット(以降、 MP4と呼ぶ)の使用が想定される。ここで、 MP4とは、 ISO/IEC JTC1/SC29/WG 11で標準化されたファイルフォーマットであり、 第 3世代の移動体通信システムの規格化を目的とする国際標準化団体である 3GPP (Third Generation Partnership Project)で、無線による動画配信規格として定められ た TS26. 234(Transparent end-to-end packet switched streaming service)におい て採用されている。 3GPP規格では、 AACとして MPEG— 4 AACが使用されるが 、 MPEG— 4 AACは MPEG— 2 AACに対して後方互換性を有するため、 MPE G-4 AACに対応した端末であれば、 MPEG— 2 AACの符号化データを正しく 復号、再生できる。また、 MPEG— 4 AAC固有の機能を使用していない MPEG— 4 AACの符号化データであれば、 MPEG— 2 AACにのみ対応した端末であって も正しく復号、再生することが可能である。
[0008] 以下に、 MP4における AUデータの多重化方法について説明する。ここで、 AUと はビデオの 1ピクチャ、あるいはオーディオの 1フレームに相当する。 MP4では、サン プルと呼ばれる単位でメディアデータを扱い、 1サンプルは 1AUに相当し、各サンプ ルには復号時刻順で 1ずつ増加するサンプル番号が振られる。さらに、サンプル単 位のヘッダ情報やメディアデータは、 Boxと呼ばれるオブジェクト単位で管理される。 図 3 (a)は Boxの構造を示し、以下のフィールドから構成される。
[0009] size: sizeフィールドも含めた Box全体のサイズ
type : Boxの識別子であり、通常はアルファベット 4文字で表される。フィールド長は 4 バイトであり、 MP4ファイル内で Boxを検索する際には、連続する 4バイト分のデータ が typeフィールドの識別子と一致するかどうかを判定することにより行う。
version: βοχのノヽーンヨン番
flags: Box毎に設定されるフラグ情報
データ:ヘッダ情報やメディアデータが格納される。
[0010] なお、 versionと flagsは必須でないため、 Boxによってはこれらのフィールドは存在 しない。以後、 Boxの参照には typeフィールドの識別子を使用することとし、例えば t ype力 S 'moov,である Boxは、 moovと呼ぶ。 MP4ファイルにおける Box構造を図 3 (b )に示す。 MP4ファイルは、 ftyp、 moov, mdat、あるいは moofから構成され、 ftyp がファイルの先頭に配置される。 ftypは、 MP4ファイルを識別するための情報を含み 、 mdatには、メディアデータが格納される。 mdatに含まれる各メディアデータはトラッ クと呼ばれ、各トラックはトラック IDにより識別される。次に、 moovには mdatの各トラ ックに含まれるサンプルについてのヘッダ情報が格納される。 moov内では、図 4 (a) に示すように、 Boxが階層的に配置され、オーディオ、ビデオなどの各メディアトラック にヘッダ情報は、それぞれ別々の trakに格納される。 trak内においても、 Boxが階 層的に配置され、サンプルのサイズゃ復号時刻、表示開始時間、あるいはランダムァ クセス可能なサンプルの情報など力 Sstbl内の各 Boxに格納される(図 4 (b) )。ランダ ムアクセス可能なサンプルはシンクサンプルと呼ばれ、シンクサンプルのサンプル番 号の一覧は、 stbl内の stssにより示される。上記では、トラック内の全サンプルのへッ ダ情報を moovに格納していた力 トラックを分割してフラグメント化し、フラグメント単 位でヘッダ情報を格納することもできる。トラックを分割した単位に対するヘッダ情報 は、 moofにより示され、図 5はフラグメント化した MP4ファイルの例であり、 mdat # 1 に格納されるサンプルのヘッダ情報は、 moof # 1に格納される。
[0011] 図 6は、放送データを記録した従来の MP4ファイルの構造例を示す図である。従来 の MP4ファイルでは、受信した AACを MPEG— 2 AACとして記録する。従って、 moov内には、 MP4ファイルにおいて記録されるオーディオのトラックが、 MPEG— 2 AACであることを示す識別情報が格納される。また、 AACの符号化データが MPE G-4 AACとは異なるため、 MP4ファイル内に格納される符号ィ匕データの種類が 3 GPP規格準拠とはならない。さらに、 MPEG— 2 AACを格納する MP4ファイルの ヘッダにおいては、 SBR機能が有効であるかどうかを示す識別情報は存在せず、 A AC— plusにおける基本データの周波数のみが示される。
[0012] また、 SDなどの運用規格毎に定められた従来のブランドを使用するため、 ftypに 格納されたブランドからは、 MP4ファイルに地上デジタル放送のデータが記録されて V、るかどうかを判別できな 、。
[0013] 図 7は、従来の MP4ファイルを再生する従来のデータ再生装置 1000の構成を示 すブロック図である。データ再生装置 1000は、ヘッダ分離部 1001、入力周波数取 得部 1002、復号部 1003、および出力部 1004を備え、入力された MP4ファイルか らオーディオとビデオの符号化データを分離して、復号し、再生する(例えば、特許 文献 1参照。 ) o以下では、 AAC再生時の動作について説明し、ビデオの再生動作 については説明を省略する。なお、オーディオの符号化方式は AACあるいは AAC plusに限定されるものではなぐ AC3や MP3、あるいはそれら符号化方式に帯域 拡張機能を付加した方式などであってもよ ヽ。
[0014] ヘッダ分離部 1001は、 MP4ファイルのヘッダを分離して、オーディオのサンプルリ ング周波数を示す情報を少なくとも含むヘッダ情報 Hdrを入力周波数取得部 1002 へ出力し、 mdat力も分離したサンプルデータを復号部 1003へ出力する。ここで、 A AC— plusでは、サンプリング周波数として基本データの周波数が示される。入力周 波数取得部 1002は、ヘッダ情報 Hdrを解析して、基本データの周波数である入力 周波数 FSinを取得し、復号部 1003へ出力する。復号部 1003は、入力周波数 FSin に基づ 、てサンプルデータ SplDatを復号し、復号結果である復号フレーム Fdataと 、復号フレーム Fdataのサンプリング周波数である出力周波数 FSoを出力部 1004へ 出力する。出力部 1004は、出力周波数 FSoに従って復号フレーム Fdataを出力す る。
特許文献 1:特開 2003— 114845公報
発明の開示
発明が解決しょうとする課題
[0015] しかしながら、従来のデータ再生装置 1000では、出力部 1004は、サンプルデータ SplDatを復号した後に復号フレーム Fdataの出力周波数 FSoを取得することになる ため、以下の課題がある。
[0016] 図 8は、従来のデータ再生装置 1000で MP4ファイルを再生する際の課題を示す 図である。図 8の上段は、 MP4ファイルに格納された AAC— plusストリームの構造の 一例を示している。この例の場合、基本データのサンプリング周波数は 24kHzであり 、 0秒から 10秒までと 20秒から 30秒までの区間では SBR機能が有効であり、 10秒か ら 20秒までの区間では SBR機能が無効である。このとき、復号部 1003における復 号結果である復号フレーム Fdataのサンプリング周波数は図 8の下段のようになり、 0 秒から 10秒までと 20秒から 30秒までの区間では帯域拡張処理により 48kHzにアツ プサンプリングされ、 10秒から 20秒までの間は入力周波数である 24kHzのまま出力 される。
[0017] このとき、再生時刻が 10秒と 20秒の位置において、それぞれ復号フレーム Fdata のサンプリング周波数が切替わるため、出力部 1004では出力周波数 FSoの切替え 処理が必要となる。出力周波数 FSoの切替えには一定の時間が力かるため、結果と して、切替わり部分 1100にお ヽて再生が途切れると!ヽぅ課題がある。
[0018] そこで、本発明は上記の事情に鑑みてなされたものであり、ストリーム内において帯 域拡張機能の有効 Z無効が切替わる場合であっても、この帯域拡張機能の有効 Z 無効の切替わり位置にぉ 、て途切れのな 、再生を実現することができるデータ再生 装置を提供することを目的とする。
課題を解決するための手段
[0019] 上記目的を達成するため、本発明に係るデータ再生装置は、オーディオデータが 符号ィヒされたフレームデータと前記フレームデータの一部の再生帯域を拡張するた めの帯域拡張情報とを含む符号化ストリームを再生するデータ再生装置であって、 前記符号化ストリーム力も前記フレームデータの基本サンプリング周波数を取得する 取得手段と、前記フレームデータを再生する際の出力サンプリング周波数を、前記基 本サンプリング周波数に基づいて、前記帯域拡張情報を用いて前記フレームデータ の再生帯域が拡張される場合のサンプリング周波数に決定する決定手段と、前記基 本サンプリング周波数で前記フレームデータを復号するとともに、前記一部のフレー ムデータについては、前記帯域拡張情報を用いて前記フレームデータの再生帯域を 拡張し、前記一部以外のフレームデータについては、前記出力サンプリング周波数 が前記基本サンプリング周波数と異なる場合に、前記基本サンプリング周波数から前 記出力サンプリング周波数にアップサンプリングする復号手段とを備えることを特徴と する。これによつて、複数のフレームデータで構成されるストリーム内において帯域拡 張機能の有効 Z無効が切替わる場合であっても、出力サンプリング周波数を一定に することができ、この帯域拡張機能の有効 z無効の切替わり位置において途切れの な ヽ再生を実現することができる。
[0020] また、前記決定手段は、前記基本サンプリング周波数が所定の値以下である場合 に、前記出力サンプリング周波数を、前記帯域拡張情報を用いて前記フレームデー タの再生帯域が拡張される場合のサンプリング周波数に決定してもよい。
[0021] また、前記決定手段は、前記基本サンプリング周波数が特定の値である場合にの み、前記出力サンプリング周波数を、前記帯域拡張情報を用いて前記フレームデー タの再生帯域が拡張される場合のサンプリング周波数に決定してもよい。
[0022] また、前記取得手段は、前記帯域拡張情報を有する前記フレームデータと有さな い前記フレームデータとが混在する可能性があることを示す識別情報を前記符号ィ匕 ストリームから取得し、前記決定手段は、前記基本サンプリング周波数および前記識 別情報に基づいて、前記出力サンプリング周波数を決定してもよい。これによつて、 例えば、第 1のフレームデータの中で対応する第 2のフレームデータを有する部分と 有さな 、部分とが混在する可能性がな 、場合、出力サンプリング周波数を簡単に決 定することができる。
[0023] なお、本発明は、このようなデータ再生装置として実現することができるだけでなぐ このようなデータ再生装置が備える特徴的な手段をステップとするデータ再生方法と して実現したり、それらのステップをコンピュータに実行させるプログラムとして実現し たりすることもできる。そして、そのようなプログラムは、 CD— ROM等の記録媒体ゃィ ンターネット等の伝送媒体を介して配信することができるのは言うまでもない。
発明の効果
[0024] 本発明に係るデータ再生装置によれば、ストリーム内において帯域拡張機能の有 効 z無効が切替わる場合であっても、出力サンプリング周波数を一定にすることがで き、この帯域拡張機能の有効 z無効の切替わり位置において途切れのない再生を 実現することができる。
図面の簡単な説明
[図 1]図 1は、 1セグ放送のサービス概要を示す図である。
[図 2]図 2は、従来の ADTSフレームのデータ構造を示す図である。
[図 3]図 3 (a) (b)は、 MP4の Box構造を示す図である。
[図 4]図 4 (a) (b)は、 MP4における moovの階層構造を示す図である。
[図 5]図 5は、 MP4における moofの使用方法を示す図である。
[図 6]図 6は、放送データ中の AACストリームを記録した従来の MP4ファイルの構造 例を示す図である。
[図 7]図 7は、従来のデータ再生装置の構成を示すブロック図である。
[図 8]図 8は、従来のデータ再生装置の課題を示す図である。
[図 9]図 9は、本発明の実施の形態 1に係るデータ再生装置の構成を示すブロック図 である。
[図 10]図 10は、本発明の実施の形態 1に係るデータ再生装置の動作概要を示すフ ローチャートである。
[図 11]図 11は、本発明の実施の形態 1に係るデータ再生装置において出力フレーム のサンプリング周波数を決定する動作を示すフローチャートである。
[図 12]図 12は、本発明の実施の形態 1に係るデータ再生装置における MP4ファイル の再生例を示す図である。
[図 13]図 13は、本発明の実施の形態 1に係るデータ再生装置において、サンプリン グ周波数以外のヘッダ情報に基づいて出力フレームのサンプリング周波数を決定す る動作を示すフローチャートである。
[図 14]図 14は、本発明の実施の形態 1に係るデータ再生装置に入力される MP4ファ ィルの構造例を示す図である。
[図 15]図 15は、本発明の実施の形態 1に係るデータ再生装置において、トラックに含 まれるフレームのサンプリング周波数およびチャネル数の最大値に基づ 、て、出カフ レームのサンプリング周波数およびチャネル数を決定する動作を示すフローチャート である。
[図 16]図 16は、本発明の実施の形態 1に係るデータ再生装置を使用したサービス例 を示す図である。
[図 17]図 17 (a)〜(c)は、各実施の形態のデータ再生装置におけるデータ再生方法 をコンピュータシステムにより実現するためのプログラムを格納するための記憶媒体 についての説明図である。
符号の説明
[0026] 1001 ヘッダ分離部
2001 入力周波数取得部
2002 出力周波数決定部
2003 復号部
2004 出力部
発明を実施するための最良の形態
[0027] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0028] (実施の形態 1)
[0029] 図 9は、本発明の実施の形態 1に係るデータ再生装置 2000の構成を示すブロック 図である。データ再生装置 2000は、入力された AAC— plusのトラックを含む MP4フ アイルカ AAC— plusのサンプルデータを分離、復号して再生する装置であり、へッ ダ分離部 1001、入力周波数取得部 2001、出力周波数決定部 2002、復号部 2003 、および出力部 2004を備えている。なお、オーディオの符号ィ匕方式は AACあるい は AAC— plusに限定されるものではなぐ AC3や MP3、あるいはそれら符号化方 式に帯域拡張機能を付加した方式などであってもよ 、し、オーディオトラックが複数 あってもよい。以下では、オーディオトラックの再生処理についてのみ説明し、ビデオ トラックの再生処理については説明を省略する力 ビデオトラックの符号ィ匕方式として は、モパイル向けの地上デジタル放送で使用される MPEG— 4 AVC、あるいは、 MPEG -4 Visual, H. 263、 VC— 1 (SMPTEで規格化された符号化方式)など 他の符号化方式であってもよい。また、多重化の方式についても、 AACあるいは AA C— plusなどの符号ィ匕データを格納できるフォーマットであればよぐ例えば、 ASF ( Advanced Systems Format、マイクロソフト社の開発したフォーマット)や Quick Time (アップル社の開発したフォーマット)、あるいは TSのまま記録してもよい。 TS により記録する際には、 TS再生時、あるいは記録した TSを IEEE1394などの規格 に従って外部機器に転送する際に参照するヘッダ情報などを合わせて記録してもよ い。ここで、 TS再生時に参照する情報とは、ランダムアクセス可能なフレームのァドレ ス位置、再生時刻などを含む。
[0030] 従来のデータ再生装置 1000との違いは、 SBRの有効 Z無効の切替わり位置にお V、ても復号フレーム Fdataのサンプリング周波数が一定となるようにサンプルデータ S plDatを復号する点である。以下、従来のデータ再生装置と処理が異なる点につい て主に説明する。
[0031] 入力周波数取得部 2001は、ヘッダ情報 Hdrを解析して、基本データの周波数で ある入力周波数 (基本サンプリング周波数) FSinを取得し、出力周波数決定部 2002 へ出力する。出力周波数決定部 2002は、入力周波数 FSinに基づいて所定の処理 を行い、復号フレーム Fdataのサンプリング周波数である出力周波数(出力サンプリ ング周波数) FSoutを決定し、復号部 2003と出力部 2004とへ出力する。復号部 20 03は、サンプルデータ SplDatを復号し、復号フレーム Fdataのサンプリング周波数 力 SFSoutとなるように、 SplDatの復号結果を必要に応じてアップサンプリングする。 また、復号部 2003は、復号処理を行うフレームにおいて SBR機能が有効であれば、 SBRデータ (帯域拡張情報)を取得し、入力周波数 FSinで復号した基本データの復 号結果に対して SBR処理によりサンプリング周波数を出力周波数 FSoutにまで帯域 拡張を行う。出力部 2004は、出力周波数 FSoutと同一の周波数で復号フレーム Fd ataを出力する。ここで、出力部 2004は、復号フレーム Fdataの入力に先立って、出 力周波数 FSoutを取得できる。
[0032] 図 10は、データ再生装置 2000の動作を示すフローチャートである。まず、ステップ 1001において、ヘッダ分離部 1001は、入力された MP4ファイルのデータからへッ ダ部とペイロード部とを分離して、ステップ 1002に進む。ここで、ヘッダ部とは ftyp、 moov、あるいは moofなどを指し、ペイロード部とは、 mdatを指す。ステップ 1002で は、入力周波数取得部 2001は、ヘッダを解析して入力周波数 FSinを取得する。次 に、ステップ 1003では、出力周波数決定部 2002は、入力周波数取得部 2001によ つて取得された入力周波数 FSinに基づ 、て出力周波数 FSoutを決定する。続、て 、ステップ 1004では、入力周波数 FSinと出力周波数 FSoutが等しいかどうか判定し 、等しければステップ 1008に進み、異なる場合にはステップ 1005に進む。ステップ 1005では、復号部 2003は、復号処理を行うフレームにおいて SBR機能が有効であ るかどうか判定し、有効であればステップ 1007に進み、有効でなければステップ 100 6に進む。ステップ 1006では、復号部 2003は、入力周波数 FSinでサンプルデータ を復号し、復号結果を出力周波数 FSoutにアップサンプリングして、ステップ 1009に 進む。
[0033] ここで、ステップ 1003において出力周波数 FSoutを決定する処理は、再生開始時 にのみ行ってもよい。
[0034] さらに、ステップ 1002とステップ 1004の処理についても、必要に応じて行ってもよ い。例えば、 MP4ではサンプルエントリ単位で入力周波数 FSinを変更できる力 トラ ック内に含まれるサンプルエントリが 1つであれば、トラックにおいて入力周波数 FSin は一定である。従って、ステップ 1002とステップ 1004はトラックの再生開始時におい てのみ行えばよい。一方、 ADTSフレームに格納された AAC— plusのストリームが T Sにより伝送されるなど、 AAC— plusのフレーム毎に入力周波数 FSinが付加される ようなケースでは、ステップ 1002とステップ 1004をフレーム単位で行ってもよい。こ のとき、 ADTSフレームのヘッダとペイロードを分離する処理がステップ 1001に相当 する。また、 TSパケットィ匕された AAC、あるいは、 AAC— plusのデータを再生する 際にも、別途取得した情報により、入力周波数 FSinの切替わり単位が指定される際 には、指定された単位毎にステップ 1002とステップ 1004を行ってもよい。
[0035] なお、サンプルにお 、て SBR機能が有効であるかどうかは、入力周波数取得部 20 01あるいは出力周波数 2002にお 、てヘッダ情報 Hdrを解析し、決定してもよ 、し、 復号部 2003にお 、てサンプルデータを解析して決定してもよ 、。ヘッダ情報 Hdrか ら取得する際には、 AAC— plusの符号ィ匕データが格納されたトラック内のサンプル エントリの情報を使用できる。また、 MP4ファイルのブランドなどにより、 AAC-plus の符号ィ匕データにおいて SBRが有効であるかどうかを示される際には、それらの情 報を使用してもよい。
[0036] ステップ 1007では、復号部 2003は、入力周波数 FSinにおいて復号した基本デ 一タの復号結果に対して SBR処理によりサンプリング周波数を出力周波数 FSoutに まで帯域拡張し、ステップ 1009に進む。ステップ 1008では、復号部 2003は、入力 周波数 FSinでサンプルデータを復号して、ステップ 1009に進む。最後に、ステップ 1009【こお!ヽて、出力咅 2004ίま、ステップ 1006、ステップ 1007、およびステップ 10 08の各ステップにおいて得られた復号部からの出力結果を再生する。
[0037] なお、規格あるいは実際の運用などにおいて基本データの周波数が固定とする際 には、ステップ 1004およびステップ 1008の処理を省略してもよい。
[0038] 次に、図 11を参照して、ステップ 1003における出力周波数 FSoutの決定動作を 説明する。まず、ステップ 1101では、出力周波数決定部 2002は、入力周波数 FSin が所定の値以下であるかどうか判定し、所定の値以下であればステップ 1102に進み 、所定の値を超える場合にはステップ 1103に進む。ステップ 1103では、出力周波 数決定部 2002は、出力周波数 FSoutは入力周波数 FSinと同一であると決定する。 ステップ 1102では、出力周波数決定部 2002は、出力周波数 FSoutを入力周波数 FSinの 2倍にすると決定する。ここで、入力周波数の 2倍というのは、 SBRによる帯域 拡張処理では、帯域が 2倍に拡張されるためである。なお、本実施の形態のデータ 再生装置 2000では、ステップ 1101における前記所定の値を 24kHzに設定する。こ れは以下の理由による。 ARIB (Association of Radio Industries andBusine sses,電波産業界)において規格ィ匕され、 日本で実施されるモパイル向けの地上デ ジタル放送(以下、 1セグ放送と呼ぶ。)においては、 AACのサンプリング周波数は 2 4kHz力 48kHzの 2通りである。従って、サンプリング周波数が 24kHzである場合に 48kHzにアップサンプリングして出力すれば、出力周波数を常に 48kHzに保つこと ができるためである。 1セグ放送では、 SBR機能が有効である場合には、基本データ のサンプリング周波数は 24kHz固定である。
[0039] なお、ステップ 1101では、入力周波数が所定の値であるかどうかに基づいて処理 を切替えてもよい。また、ステップ 1103では、出力周波数 FSoutを入力周波数 FSin の 2倍とは異なる値に設定してもよいし、予め定めた所定の値に設定してもよい。さら に、ステップ 1101における所定の値は、サービスに依存して 24kHz以外の値として ちょい。
[0040] 図 12は、データ再生装置 2000〖こよって、図 8と同一の MP4ファイルを再生する際 の再生状態を示す図である。図 12の下段は、図 12の上段に示す MP4ファイルを再 生する際に復号部 2003から出力される復号フレーム Fdataのサンプリング周波数を 示している。 0秒か 30秒までの全区間に渡って、基本データのサンプリング周波数で ある入力周波数 FSinは 24kHzであるため、ステップ 1103において、出力周波数 FS outが 24kHzの 2倍である 48kHzに設定に設定される。このため、出力周波数 FSo utは 48kHzで一定となることから、図 8の下段に示される従来のデータ再生装置 10 00の再生動作とは異なり、再生時刻が 10秒と 20秒の位置においてもサンプリング周 波数の切替わりは発生せず、途切れのな!、再生が実現できる。
[0041] 以下では、上記で説明したデータ再生装置 2000の動作の応用例について説明す る。
[0042] MP4は、各種の運用規格によって採用されている力 運用規格によっては、 MP4 ファイルに格納される AAC— plusのトラックにおいて、 SBRを有効とできるかどうかを 固定としている。つまり、 SBRを有効とできる場合には、 SBRの有効 Z無効をトラック 内で切替えてもよいが、 SBRが無効である際には、トラック内の全フレームにおいて S BR機能が無効である。図 13は、トラック内の全フレームにおいて SBRを有効とできる 力どうかに基づいて出力周波数 FSoutの決定処理を切替える動作例を示すフロー チャートである。ステップ 1201では、 MP4ファイル内のトラックにおいて SBRの有効 Z無効が切替わる可能性があることを示す識別子が存在するかどうか判定し、識別 子が存在する際にはステップ 1101に進み、識別子が存在しなければステップ 1103 に進む。ステップ 1201で使用する識別子としては、 MP4ファイルに記録された AAC あるいは AAC— plusのトラック力 1セグ放送を記録したものであることを示す情報を 用いることが可能である。 1セグ放送を記録したデータであることが示されればステツ プ 1101に進むことになる。なお、識別情報は、 ftypに示されるブランドであってもよ いし、 moovあるいは moof内に存在する他の Boxに格納してもよい。例えば、 SD規 格であれば sdvpと呼ばれる Boxを独自定義して!/、るため、当該 Boxにお!/、て 1セグ 放送を記録したデータであることを示してもよい。また、 ftyp内のブランドは、 compat ible― brandある ヽは maj or― brandの 、ずれでめつてもよ ヽ。 compatible― brand には、 MP4ファイルが互換性をもつブランドの一覧が示され、 major— brandは、 M P4ファイルと最も互換性が高いブランドを示す。あるいは、 MP4ファイルとは別の情 報により、通知してもよい。
[0043] なお、ブランドなど MP4ファイルの属性情報を示す識別子に基づ 、て、ステップ 10 03における出力周波数 FSoutの決定処理を切替えてもよい。
[0044] 図 14は、 1セグ放送のデータを記録した MP4ファイルの例を示す図である。 ftypの compatible - brandには' 1 seg,ブランドが含まれ、 ' 1 seg,ブランドを検出すること により、 MP4ファイルには 1セグ放送のデータが含まれると判定できる。さらに、図 14 の MP4ファイルでは、 MP4ファイル内のトラックの符号化方式を 3GPPなどの第 3世 代向けの運用規格準拠とするために、 1セグ放送の MPEG— 2 AACのデータを M PEG -4 AACのデータとして記録している。これにより、 AACの符号化方式として MPEG - 2 AACにのみ対応した端末においても、 ftypに' lseg,ブランドが含まれ て 、れば、符号化データ自体は MPEG— 2 AAC準拠であると判定し、再生するこ とができる。また、符号ィ匕方式が第 3世代携帯向けの運用規格に準拠しているため、 1セグ放送規格におけるオーディオとビデオの符号ィ匕条件を満たすデータを復号で きる第 3世代携帯端末においても MP4ファイルが再生できる。ここで、前記符号化条 件とは、オーディオであればサンプリング周波数、チャネル数、ビットレートなど、ビデ ォであれば画像サイズやビットレートなどである。 MPEG -4 AACのデータとして 記録する際に必要となる項目を以下に示す。
[0045] まず、 moov内のオーディオトラックの符号化方式を示す情報において、 MPEG— 4 AACであることを示す。さら〖こ、 MP4ファイルに MPEG— 4 AACのトラックを格 納する際には、トラックにおいて SBR機能が有効であるサンプルが存在する可能性 があるかどうかを示すことができるため、当該フィールドにおいて、 SBR機能が有効 であるサンプルが存在する可能性があることを示す。具体的には、 stsd内のサンプル エントリにおいて、 MPEG -4 AACの符号化データ内に SBRデータが含まれるか どうかを示すフラグである sbrPresentFlagを' 1 'あるいは' 1 'に設定する。 sbrPre sentFlagが ' 1 'であれば、 SBRデータが含まれる可能性があることが明示的に示さ れ、 ' 1 'であれば、 SBRデータが含まれるかどうかは符号ィ匕データの外部からは明 示的には示されないことになる。従って、ステップ 1201においては、 compatible—b randに ' lseg,ブランドが存在すればステップ 1101に進むことにしてもよ!/、し、 ' lse g,ブランドが存在し、かつ sbrPresentFlagが ' 1,あるいは '— 1,である場合にのみ ステップ 1101に進むことにしてもよい。また、 sbrPresentFlag力 ' l 'あるいは' 1 ' であればステップ 1101に進んでもよい。なお、 sbrPresentFlagが' 1,であれば、 SB Rが必ず有効であるとして運用することもできる。
[0046] 図 15は、復号データ Fdataのサンプリング周波数を一定にする他の動作例を示す フローチャートである。上記の動作では、 AAC— plusにおける基本データのサンプリ ング周波数、および AACにおけるサンプルのサンプリング周波数は FSinで示される 既知の値であった。図 15の例では、これら入力サンプルデータのサンプリング周波 数が既知ではなぐ代わりに最大値が示される点において上記動作と異なり、例えば AACの符号化データの周波数が 24kHzと 48kHzの間で切替わるケースなどに対 応できる。
[0047] 以下では、復号データ Fdataにおけるチャネル数についても一定にするとするが、 サンプリング周波数、あるいはチャネル数のどちらか一方についてのみ復号部 2003 の出力を一定にする処理を行ってもよい。
[0048] 入力の MP4ファイルにおいては、オーディオトラック内のサンプルにおけるサンプリ ング周波数の最大値 FSmaxと、チャネル数の最大値 CHmaxが示される。ここでは、 オーディオトラックのサンプルエントリに格納されるサンプリング周波数とチャネル数 1S それぞれサンプリング周波数の最大値 FSmaxとチャネル数の最大値 CHmaxを 示すことにする。
[0049] まず、ステップ 1301では、オーディオのサンプルエントリを解析して、サンプリング 周波数の最大値 FSmaxとチャネル数の最大値 CHmaxを取得し、復号部 2003に入 力する。ステップ 1302では、復号部 2003は、サンプリング周波数の最大値 FSmax とサンプルのサンプリング周波数 FSsplとが異なるかどうかを判定し、異なる場合には ステップ 1303に進み、同一であればステップ 1306に進む。ここで、サンプルにおい て SBR機能が有効である際には、サンプリング周波数 FSsplは、帯域拡張後のサン プリング周波数を示すものとする。ステップ 1303では、復号部 2003は、チャネル数 の最大値 CHmaxとサンプルのチャネル数 CHsplとが異なるかどうかを判定し、異な る場合にはステップ 1304に進み、同一であればステップ 1305に進む。ステップ 130 4では、まず、サンプリング周波数を FSspl、チャネル数を CHsplとしてサンプルデー タを復号する。そして、復号結果をサンプリング周波数の最大値 FSmaxにアップサ ンプリングし、チャネル数をチャネル数の最大値 FSmaxに変換して出力する。ここで 、例えばモノラルをステレオに変換する際には、 2チャネルとも同一のデータ力 構成 されるステレオデータにするなどして、チャネル数を変換する。一方、ステップ 1305 では、まず、サンプリング周波数を FSspl、チャネル数を CHsplとしてサンプルデータ を復号する。そして、復号結果をサンプリング周波数の最大値 FSmaxにアップサン プリングし、チャネル数はチャネル数 CHsplのままで出力する。
[0050] また、ステップ 1306では、ステップ 1303と同様に復号部 2003は、チャネル数の最 大値 CHmaxとサンプルのチャネル数 CHsplとが異なるかどうかを判定し、異なる場 合〖こはステップ 1307〖こ進み、同一であればステップ 1308に進む。ステップ 1307で は、まず、サンプリング周波数を FSspl、チャネル数を CHsplとしてサンプルデータを 復号する。そして、復号結果をサンプリング周波数はサンプリング周波数 FSsplのま まで、チャネル数をチャネル数の最大値 FSmaxに変換して出力する。一方、ステツ プ 1308では、サンプリング周波数を FSspl、チャネル数を CHsplとしてサンプルデー タを復号し、出力する。つまり、出力周波数 FSoutとサンプルのサンプリング周波数 F S spl、出力チャネル数 CHoutとサンプルのチャネル数 CHsplとがそれぞれ同一とな る。
[0051] なお、サンプリング周波数の最大値 FSmaxとチャネル数の最大値 CHmaxは、特 別の Boxを設けるなどして、サンプルエントリとは別の場所に格納してもよい。
[0052] なお、上記では 1セグ放送について述べた力 受信する AACあるいは AAC— plu sの符号ィ匕データは 1セグ放送に限定されるものではなぐさらに、インターネット経由 で受信したデータであってもよい。さらに、放送やインターネット経由で受信したパケ ットデータを再生してから記録する際にも、上記の方法が適用できる。
[0053] また、記録メディアについても、 SDカードに限定されるものではなぐ他の不揮発メ モリやハードディスクなどであってもよ ヽ。
[0054] ここまでは、出力のサンプリング周波数あるいはチャネル数を揃えることにより、これ らパラメータの切替わりに伴う再生の途切れやノイズの発生など再生品質の低下を防 ぐ方法について説明した。以下では、再生品質の低下を防ぐ他の方法について説明 する。
[0055] 第 1に、パラメータの切替わり位置において特殊効果を使うことにより、聴覚上の違 和感を低減できる。例えば、切替わり位置の前では除々に音量を下げていき、切替 わり位置の後では除々に音量を上げていくことにより、パラメータの切替わり位置では 音量が下がり、再生の途切れやノイズが低減できる。本方法では、予め切替わり位置 を特定できる必要がある。ファイル再生時には、例えば、ファイルのヘッダ情報を解析 して予め切替わり位置を特定できる。また、ファイルのヘッダ情報力も切替わり位置を 特定できない場合や、データを受信しながら再生する際などには、所定のフレーム数 のデータを予めバッファリングしながら再生して、ノッファリングされたフレーム内に切 替わり位置が存在するかどうか判定できる。さらに、予め切替わり位置が特定できなく ても、復号部においてフレームを復号する際にパラメータの切替わりを検出した際に は、当該フレームの音量を落とすとともに、以降のフレームについても音量を除々に 上げてもよい。
[0056] 第 2に、チャネル数の切替わり位置など特定の条件においてのみサンプリング周波 数が切替わる際には、サンプリング周波数などの切替わり位置においても当該パラメ ータに基づいて再生してもよい。例えば、放送ではコマーシャルの部分のみ 2チャン ネルとなり、他の部分はモノラルとすることがある力 本編とコマーシャルではコンテン ッの内容が不連続であり、パラメータの切替わりに伴う再生品質の低下が聴覚上目 立たな 、とみなせるケースがあるためである。
[0057] なお、本実施の形態では、データ再生装置 2000に、 AAC— plusのトラックを含む MP4ファイルが入力される場合を例にして説明を行っている力 これに限られるもの ではない。例えば、 1セグ放送の MPEG— 2の TSを受信し、再生する場合にも適用 することが可能である。この場合、入力周波数取得部 2001は、図 2に示すような AD TSフレームのヘッダから、ペイロードに格納されているオーディオデータのサンプリ ング周波数、チャネル数等を取得すればよい。 AAC— plusの場合、 ADTSヘッダの サンプリング周波数は基本データのサンプリング周波数である。また、受信した MPE G— 2の TSを記録した後、記録した MPEG— 2の TSを再生する場合にも同様に適 用することが可能である。
[0058] (実施の形態 2)
[0059] ここで、上記実施の形態 1で示したデータ再生装置を用いたシステムを説明する。
[0060] 図 16は、放送、および通信によるコンテンツ配信サービスを実現するシステムの全 体構成を示すブロック図である。まず、放送データを受信するケースについて述べる 。携帯電話 exl05、あるいは DVDレコーダなどのディスクレコーダ exl04は、デジタ ル化された符号化メディアデータが多重化された TSパケット列を受信する。携帯電 話 exl05では、受信した TSパケット列を、 MP4に変換してから SDカード exl06に記 録する。記録した MP4ファイルは、本発明に係るデータ再生装置を備えた携帯電話 exl05、ディスクレコーダ exl04、あるいは図示しないパーソナルコンピュータなどで 視聴することができる。また、 MP4ファイルを電子メールに添付して、携帯電話 exlO 5から無線基地局 exl07を経由して、本発明に係るデータ再生装置を備えた別の携 帯電話 exl08に送信し、携帯電話 exl08にお 、て MP4ファイルを視聴することもで きる。さらに、電子メール添付ではなぐ HTTP (Hyper Text Transport Protoc ol)および TCP (Transmission Control Protocol)などのプロトコルを使用して、 携帯電話 exl05から携帯電話 exl08にダウンロード、あるいは擬似ストリーミング配 信してちょい。
[0061] ディスクレコーダ exl04においても、受信した TSパケット列を MP4に変換し、 SD力 ード、 DVDなどの光ディスク、あるいはハードディスクに記録することができる。また、 記録した MP4ファイルを、携帯電話や図示しな!、パーソナルコンピュータに対してダ ゥンロード、あるいは擬似ストリーミング配信してもよ ヽ。
[0062] コンテンツサーバ exl02からインターネット経由で配信された TSパケット列を携帯 電話 exl05、あるいはディスクレコーダ exl04において受信する際にも、上記放送デ ータを受信した際と同様に MP4ファイルを使用することができる。
[0063] また、 TSに関わらず、インターネット上のストリーミング配信などで使用される RTP ( Real-time Transport Protocol)などのプロトコルにより送信されたデータを MP 4で記録する際にも、本発明に係るデータ再生装置が適用できる。
[0064] (実施の形態 3)
[0065] 上記各実施の形態で示したデータ再生装置におけるデータ再生方法を実現するた めのプログラムを、フレキシブルディスク等の記憶媒体に記録するようにすることにより 、上記各実施の形態で示した処理を、独立したコンピュータシステムにおいて簡単に 実施することが可能となる。
[0066] 図 17は、上記各実施の形態のデータ再生装置におけるデータ再生方法を、フレキ シブルディスク等の記録媒体に記録されたプログラムを用いて、コンピュータシステム により実施する場合の説明図である。
[0067] 図 17(b)は、フレキシブルディスクの正面力 みた外観、断面構造、及びフレキシブ ルディスクを示し、図 17(a)は、記録媒体本体であるフレキシブルディスクの物理フォ 一マットの例を示している。フレキシブルディスク FDはケース F内に内蔵され、該ディ スクの表面には、同心円状に外周からは内周に向力つて複数のトラック Trが形成さ れ、各トラックは角度方向に 16のセクタ Seに分割されている。従って、上記プログラム を格納したフレキシブルディスクでは、上記フレキシブルディスク FD上に割り当てら れた領域に、上記プログラムが記録されている。
[0068] また、図 17(c)は、フレキシブルディスク FDに上記プログラムの記録再生を行うため の構成を示す。データ再生装置におけるデータ再生方法を実現する上記プログラム をフレキシブルディスク FDに記録する場合は、コンピュータシステム Csから上記プロ グラムをフレキシブルディスクドライブを介して書き込む。また、フレキシブルディスク 内のプログラムにより上記各実施の形態のデータ再生装置におけるデータ再生方法 を実現するデータ再生方法をコンピュータシステム中に構築する場合は、フレキシブ ルディスクドライブによりプログラムをフレキシブルディスク力も読み出し、コンピュータ システムに転送する。
[0069] なお、上記説明では、記録媒体としてフレキシブルディスクを用いて説明を行った 力 光ディスクを用いても同様に行うことができる。また、記録媒体はこれに限らず、 I Cカード、 ROMカセット等、プログラムを記録できるものであれば同様に実施すること ができる。
[0070] また、図 9に示したブロック図の各機能ブロックは典型的には集積回路である LSIと して実現される。これらは個別に 1チップ化されても良いし、一部又は全てを含むよう に 1チップィ匕されても良い。(例えばメモリ以外の機能ブロックが 1チップィ匕されていて も良い。)
[0071] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0072] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセサで 実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Programma ble Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギ ユラブル'プロセッサーを利用しても良い。
[0073] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
産業上の利用可能性
[0074] 本発明に係るデータ再生装置は、途中で帯域拡張機能の有無、あるいはサンプリ ング周波数やチャネル数などの属性情報がストリーム途中で切替わるオーディオデ ータを格納したストリームを再生する際に、属性情報の切替わり位置においても途切 れることのない再生を実現できるため、例えばデジタル放送を受信する携帯端末、力 一ナビ等の機器にぉ 、て特に有効である。

Claims

請求の範囲
[1] オーディオデータが符号ィヒされたフレームデータと前記フレームデータの一部の再 生帯域を拡張するための帯域拡張情報とを含む符号化ストリームを再生するデータ 再生装置であって、
前記符号化ストリーム力 前記フレームデータの基本サンプリング周波数を取得す る取得手段と、
前記フレームデータを再生する際の出力サンプリング周波数を、前記基本サンプリ ング周波数に基づいて、前記帯域拡張情報を用いて前記フレームデータの再生帯 域が拡張される場合のサンプリング周波数に決定する決定手段と、
前記基本サンプリング周波数で前記フレームデータを復号するとともに、前記一部 のフレームデータについては、前記帯域拡張情報を用いて前記フレームデータの再 生帯域を拡張し、前記一部以外のフレームデータについては、前記出力サンプリン グ周波数が前記基本サンプリング周波数と異なる場合に、前記基本サンプリング周 波数力 前記出力サンプリング周波数にアップサンプリングする復号手段と
を備えることを特徴とするデータ再生装置。
[2] 前記決定手段は、前記基本サンプリング周波数が所定の値以下である場合に、前 記出力サンプリング周波数を、前記帯域拡張情報を用いて前記フレームデータの再 生帯域が拡張される場合のサンプリング周波数に決定する
ことを特徴とする請求項 1記載のデータ再生装置。
[3] 前記決定手段は、前記基本サンプリング周波数が特定の値である場合にのみ、前 記出力サンプリング周波数を、前記帯域拡張情報を用いて前記フレームデータの再 生帯域が拡張される場合のサンプリング周波数に決定する
ことを特徴とする請求項 1記載のデータ再生装置。
[4] 前記取得手段は、前記帯域拡張情報を有する前記フレームデータと有さな!/、前記 フレームデータとが混在する可能性があることを示す識別情報を前記符号化ストリー ムから取得し、
前記決定手段は、前記基本サンプリング周波数および前記識別情報に基づ!、て、 前記出力サンプリング周波数を決定する ことを特徴とする請求項 1記載のデータ再生装置。
[5] オーディオデータが符号ィ匕されたフレームデータと前記フレームデータの一部の再 生帯域を拡張するための帯域拡張情報とを含む符号化ストリームを再生するデータ 再生方法であって、
前記符号化ストリーム力 前記フレームデータの基本サンプリング周波数を取得し、 前記フレームデータを再生する際の出力サンプリング周波数を、前記基本サンプリ ング周波数に基づいて、前記帯域拡張情報を用いて前記フレームデータの再生帯 域が拡張される場合のサンプリング周波数に決定し、
前記基本サンプリング周波数で前記フレームデータを復号するとともに、前記一部 のフレームデータについては、前記帯域拡張情報を用いて前記フレームデータの再 生帯域を拡張し、前記一部以外のフレームデータについては、前記出力サンプリン グ周波数が前記基本サンプリング周波数と異なる場合に、前記基本サンプリング周 波数力も前記出力サンプリング周波数にアップサンプリングする
ことを特徴とするデータ再生方法。
[6] オーディオデータが符号ィ匕されたフレームデータと前記フレームデータの一部の再 生帯域を拡張するための帯域拡張情報とを含む符号化ストリームを再生するための プログラムであって、
前記符号化ストリーム力 前記フレームデータの基本サンプリング周波数を取得す る取得ステップと、
前記フレームデータを再生する際の出力サンプリング周波数を、前記基本サンプリ ング周波数に基づいて、前記帯域拡張情報を用いて前記フレームデータの再生帯 域が拡張される場合のサンプリング周波数に決定する決定ステップと、
前記基本サンプリング周波数で前記フレームデータを復号するとともに、前記一部 のフレームデータについては、前記帯域拡張情報を用いて前記フレームデータの再 生帯域を拡張し、前記一部以外のフレームデータについては、前記出力サンプリン グ周波数が前記基本サンプリング周波数と異なる場合に、前記基本サンプリング周 波数力 前記出力サンプリング周波数にアップサンプリングする復号ステップとをコン ピュータに実行させる ことを特徴とするプログラム。
オーディオデータが符号ィヒされたフレームデータと前記フレームデータの一部の再 生帯域を拡張するための帯域拡張情報とを含む符号化ストリームを再生するための 集積回路であって、
前記符号化ストリーム力 前記フレームデータの基本サンプリング周波数を取得す る取得手段と、
前記フレームデータを再生する際の出力サンプリング周波数を、前記基本サンプリ ング周波数に基づいて、前記帯域拡張情報を用いて前記フレームデータの再生帯 域が拡張される場合のサンプリング周波数に決定する決定手段と、
前記基本サンプリング周波数で前記フレームデータを復号するとともに、前記一部 のフレームデータについては、前記帯域拡張情報を用いて前記フレームデータの再 生帯域を拡張し、前記一部以外のフレームデータについては、前記出力サンプリン グ周波数が前記基本サンプリング周波数と異なる場合に、前記基本サンプリング周 波数力 前記出力サンプリング周波数にアップサンプリングする復号手段と
を備えることを特徴とする集積回路。
PCT/JP2006/303473 2005-02-24 2006-02-24 データ再生装置 WO2006090852A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US11/578,781 US7970602B2 (en) 2005-02-24 2006-02-24 Data reproduction device
DE200660021402 DE602006021402D1 (de) 2005-02-24 2006-02-24 Datenwiedergabevorrichtung
JP2006521334A JP5107574B2 (ja) 2005-02-24 2006-02-24 データ再生装置、データ再生方法、プログラム、および集積回路
KR20067019247A KR101194902B1 (ko) 2005-02-24 2006-02-24 데이터 재생장치
EP20060714612 EP1860649B8 (en) 2005-02-24 2006-02-24 Data reproduction device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-049052 2005-02-24
JP2005049052 2005-02-24

Publications (1)

Publication Number Publication Date
WO2006090852A1 true WO2006090852A1 (ja) 2006-08-31

Family

ID=36927485

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/303473 WO2006090852A1 (ja) 2005-02-24 2006-02-24 データ再生装置

Country Status (6)

Country Link
US (1) US7970602B2 (ja)
EP (1) EP1860649B8 (ja)
JP (2) JP5107574B2 (ja)
KR (1) KR101194902B1 (ja)
DE (1) DE602006021402D1 (ja)
WO (1) WO2006090852A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086018A (ja) * 2007-09-27 2009-04-23 Sanyo Electric Co Ltd 音楽再生回路
WO2012160782A1 (ja) * 2011-05-20 2012-11-29 パナソニック株式会社 ビットストリーム送信装置、ビットストリーム送受信システム、ビットストリーム受信装置、ビットストリーム送信方法、ビットストリーム受信方法及びビットストリーム
JP2016029500A (ja) * 2009-10-23 2016-03-03 サムスン エレクトロニクス カンパニー リミテッド 復号化装置及び復号化方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4944484B2 (ja) * 2006-04-20 2012-05-30 キヤノン株式会社 再生装置、再生方法及びプログラム
ES2390181T3 (es) * 2006-06-29 2012-11-07 Lg Electronics Inc. Procedimiento y aparato para procesar una señal de audio
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US8542605B2 (en) * 2009-10-15 2013-09-24 Qualcomm Incorporated System and method for allocating resources in an extended bandwidth wireless network
US9247547B2 (en) * 2009-10-15 2016-01-26 Qualcomm Incorporated Downlink and uplink resource element mapping for carrier extension
JP5714180B2 (ja) 2011-05-19 2015-05-07 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
JP2013229860A (ja) * 2012-03-28 2013-11-07 Panasonic Corp 記録装置および記録システム
US20150066695A1 (en) * 2013-09-03 2015-03-05 Ebay Inc. Cross border trade entity visibility compliance system
US10666549B2 (en) 2015-07-28 2020-05-26 Lg Electronics Inc. Broadcast signal transmission apparatus, broadcast signal reception apparatus, broadcast signal transmission method and broadcast signal reception method
US10021184B2 (en) * 2015-12-31 2018-07-10 Dropbox, Inc. Randomized peer-to-peer synchronization of shared content items

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
JP2003114845A (ja) 2001-10-03 2003-04-18 Hitachi Ltd メディア変換方法およびメディア変換装置
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005222014A (ja) * 2004-01-08 2005-08-18 Matsushita Electric Ind Co Ltd 信号復号化装置及び信号復号化方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2000155596A (ja) * 1998-11-24 2000-06-06 Hitachi Ltd オーディオデータの圧縮・伸長方法および復元装置
JP2000206998A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
JP3913664B2 (ja) * 2001-11-14 2007-05-09 松下電器産業株式会社 符号化装置、復号化装置およびこれらを用いたシステム
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
WO2004013841A1 (en) * 2002-08-01 2004-02-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band repliction
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
KR101200776B1 (ko) * 2003-04-17 2012-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP1634278B1 (en) * 2003-06-17 2011-03-23 Panasonic Corporation Receiving apparatus, sending apparatus and transmission system
JP2005024756A (ja) * 2003-06-30 2005-01-27 Toshiba Corp 復号処理回路および移動端末装置
JP2006050387A (ja) * 2004-08-06 2006-02-16 Matsushita Electric Ind Co Ltd データ再生方法、およびデータ再生装置
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
JP2003114845A (ja) 2001-10-03 2003-04-18 Hitachi Ltd メディア変換方法およびメディア変換装置
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005222014A (ja) * 2004-01-08 2005-08-18 Matsushita Electric Ind Co Ltd 信号復号化装置及び信号復号化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Text of ISO/IEC 14496-3:2001/FPDAM 1, Bandwith Extension", JVT OF ISO/IEC MPEG & ITU VCEG, October 2002 (2002-10-01)
M. WOLTERS: "A closer look into MPEG-4 High Efficiency AAC", PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION, vol. 115, 10 October 2003 (2003-10-10)
See also references of EP1860649A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086018A (ja) * 2007-09-27 2009-04-23 Sanyo Electric Co Ltd 音楽再生回路
JP2016029500A (ja) * 2009-10-23 2016-03-03 サムスン エレクトロニクス カンパニー リミテッド 復号化装置及び復号化方法
WO2012160782A1 (ja) * 2011-05-20 2012-11-29 パナソニック株式会社 ビットストリーム送信装置、ビットストリーム送受信システム、ビットストリーム受信装置、ビットストリーム送信方法、ビットストリーム受信方法及びビットストリーム
CN103620678A (zh) * 2011-05-20 2014-03-05 松下电器产业株式会社 比特流发送装置及方法、比特流收发系统、比特流接收装置及方法、以及比特流
JP5843856B2 (ja) * 2011-05-20 2016-01-13 株式会社ソシオネクスト ビットストリーム送信装置、ビットストリーム送受信システム、ビットストリーム受信装置、ビットストリーム送信方法及びビットストリーム受信方法

Also Published As

Publication number Publication date
KR20070111954A (ko) 2007-11-22
US7970602B2 (en) 2011-06-28
EP1860649B1 (en) 2011-04-20
DE602006021402D1 (de) 2011-06-01
KR101194902B1 (ko) 2012-10-25
JP2012083767A (ja) 2012-04-26
EP1860649A4 (en) 2009-07-15
JP5107574B2 (ja) 2012-12-26
EP1860649A1 (en) 2007-11-28
JPWO2006090852A1 (ja) 2008-07-24
EP1860649B8 (en) 2011-10-05
US20090228283A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
WO2006090852A1 (ja) データ再生装置
US7567584B2 (en) Multiplex scheme conversion apparatus
CN103905841B (zh) 自适应网络带宽的多协议多播放器视频播放方法和系统
JP5119239B2 (ja) デジタル放送受信装置
US8189987B2 (en) Digital multimedia reproducing apparatus and method of providing digital multimedia broadcasting in the digital multimedia reproducing apparatus
KR100838900B1 (ko) 재생 시스템과 재생 방법, 데이터 송신 장치와 데이터 송신 방법, 및 원격 제어 장치와 원격 제어 방법
US7424038B2 (en) Method and apparatus for storing/reproducing transport stream, and digital receiver using the same
CN100379291C (zh) 用于对广播/备用内容编码/解码的装置和方法
CN103620678B (zh) 比特流发送装置及方法、比特流收发系统、比特流接收装置及方法、以及比特流
KR20050052717A (ko) 오디오 원본 보존 트랜스코딩 시스템 및 방법
JP4327873B2 (ja) 放送受信装置、tsパケット再生装置、放送受信方法及びプログラム
EP2093911A2 (en) Receiving system and audio data processing method thereof
JP2006238003A (ja) 逆多重化装置
KR100775169B1 (ko) 디지털 방송 수신기에 저장된 방송 스트림 재생 방법
JP2006050387A (ja) データ再生方法、およびデータ再生装置
JP4735311B2 (ja) 音声処理装置
JP2007074671A (ja) Pid値検出回路、ストリームデータ受信機およびpid値検出方法
KR20050037774A (ko) 디지털 멀티미디어 방송의 컨텐츠 저장과 이용을 위한장치 및 방법
KR100609173B1 (ko) Aac복호화 방법
KR980013417A (ko) 오디오 데이터 전송 방법 및 그 장치
JP4762019B2 (ja) 放送受信装置
KR100767669B1 (ko) 디지털 멀티미디어 방송 수신장치의 오디오 스트림 저장장치 및 방법
JP2008301197A (ja) 再生装置及び再生方法
KR20060107083A (ko) Vod서비스에서 디코딩 에러 발생 시 오디오 신호의동기를 처리하는 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006521334

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 1020067019247

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11578781

Country of ref document: US

Ref document number: 2006714612

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006714612

Country of ref document: EP