WO2010058518A1 - オーディオ再生装置及びオーディオ再生方法 - Google Patents

オーディオ再生装置及びオーディオ再生方法 Download PDF

Info

Publication number
WO2010058518A1
WO2010058518A1 PCT/JP2009/005311 JP2009005311W WO2010058518A1 WO 2010058518 A1 WO2010058518 A1 WO 2010058518A1 JP 2009005311 W JP2009005311 W JP 2009005311W WO 2010058518 A1 WO2010058518 A1 WO 2010058518A1
Authority
WO
WIPO (PCT)
Prior art keywords
basic codec
information
band
stereo
basic
Prior art date
Application number
PCT/JP2009/005311
Other languages
English (en)
French (fr)
Inventor
横山宇志
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to BRPI0921067-9A priority Critical patent/BRPI0921067B1/pt
Priority to EP09827300.6A priority patent/EP2360684B1/en
Publication of WO2010058518A1 publication Critical patent/WO2010058518A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to an audio playback apparatus that decodes and plays back an encoded audio signal.
  • a low-band audio signal and band extension information are input, and spectrum band replication (Spectral Band Replication, hereinafter referred to as SBR) is performed by referring to side information included in the input band extension information and predicting it.
  • SBR Spectrum Band Replication
  • An audio playback device that generates a high-frequency extended audio signal using a technology is known. Since the amount of the side information is very small, the sound quality of the encoded audio signal at a low bit rate can be improved.
  • HQ-SBR High-Quality-SBR
  • LP-SBR low complexity version SBR
  • HQ-SBR performs the whole process of subband analysis, high-frequency generation, and subband synthesis by complex arithmetic. For this reason, it is suitable for high sound quality processing, but has a feature that the amount of calculation is large.
  • LP-SBR uses real number operations instead of HQ-SBR complex number operations, and is improved to suppress the occurrence of aliasing distortion caused by using the real number operations. For this reason, there is a feature that the amount of calculation is greatly reduced and sound quality equivalent to that of HQ-SBR can be realized at a low bit rate. It is known that LP-SBR can be processed with about half the processing amount of HQ-SBR (see Non-Patent Document 1).
  • SBR is known to be used in combination with AAC (Advanced Audio Coding), and its configuration is called HE-AAC (High-Efficiency AAC) profile.
  • AAC Advanced Audio Coding
  • HE-AAC High-Efficiency AAC
  • AAC + LP-SBR can be processed with a processing amount of about 70% of AAC + HQ-SBR (see Non-Patent Document 1).
  • a playback device that generates a stereo audio signal by inputting a monaural audio signal and stereophonic information and stereo-processing the monaural audio signal based on the stereogenic information.
  • This stereo process is known as a parametric stereo process (hereinafter referred to as PS) process, and is used in combination with the SBR process.
  • PS parametric stereo process
  • the PS processing uses a complex QMF (Quadrature Mirror Filter) in common with the SBR processing to realize stereo (see Non-Patent Document 2).
  • PS is known to be used in combination with AAC and SBR, and its configuration is called HE-AACv2 profile, and it is used in combination with HQ-SBR that uses complex QMF to perform PS processing. Is essential (see Non-Patent Document 2 and Non-Patent Document 3). If there is no PS data, it may be processed in combination with either HQ-SBR or LP-SBR.
  • the HE-AAC profile and the HE-AACv2 profile have a concept of level, and there is a feature that the higher the level, the more kinds of signals that can be decoded.
  • the type is the maximum sampling frequency of the input encoded audio signal, the maximum number of channels, or the maximum sampling frequency of the output decoded audio signal (see Non-Patent Document 3).
  • Non-Patent Document 3 in the case of corresponding to the HE-AACv2 profile and when there is PS data, it is essential to process in combination with HQ-SBR. If not, processing may be performed in combination with either HQ-SBR or LP-SBR.
  • HQ-SBR when it is essential to use HQ-SBR, that is, when there is PS data, HQ-SBR is used. In other cases, that is, when there is no PS data, LP-SBR is used to suppress an increase in the amount of calculation.
  • the QMF filter processing in HQ-SBR performs complex number operations
  • the QMF filter processing in LP-SBR performs real number operations. For this reason, since the format of the delay information of both is different, it is difficult to share both of the QMF filter delay information. Thereby, discontinuity of the QMF filter delay information is caused at the time when the SBR is switched, and abnormal noise is generated.
  • FIG. 7A shows an output audio signal for one channel when the SBR processing is switched at times t0 and t2.
  • t0 to t1 and t2 to t3 indicate that abnormal sound is generated because the delay information cannot be used due to the switching of the SBR process (a normal audio signal is shown in FIG. 7B).
  • FIG. 7B shows a normal audio signal.
  • the present invention solves the above-mentioned problem, and even when the input encoded audio signal is multi-channel, the audio reproduction that can avoid the occurrence of abnormal noise without significantly increasing the amount of calculation.
  • An object is to provide an apparatus and an audio reproduction method.
  • an audio playback device of the present invention is an audio playback device that plays back a stream including a basic codec that is an encoded audio signal, and the stream is divided into frames in units of frames. Analyzing the basic codec by analyzing the basic codec separated by the stream separation unit and the stream separation unit separated into the band extension information used for extending the band of the basic codec.
  • a basic codec information analysis unit to generate, a basic codec decoding unit that generates a basic codec decoding signal by decoding the basic codec according to the analysis information generated by the basic codec information analysis unit, and the basic codec decoding unit Generated basic codec decoded signal
  • a first band extension processing unit for executing a first process for extending a frequency band using the band extension information; a frequency band of a basic codec decoded signal generated by the basic codec decoding unit;
  • a second band extension processing unit that executes a second process to be extended with higher accuracy than the first process, and based on the analysis information, the first band extension processing unit and the second band extension processing unit.
  • a switching unit for switching.
  • the stream separation unit includes the basic codec, band extension information used to extend a band of the basic codec, and a stereo extension used to make the basic codec stereo.
  • the audio reproduction apparatus further includes a stereo extension processing unit that converts the basic codec decoded signal whose frequency band is extended by the second band extension processing unit to stereo using the stereo extension information. May be.
  • the basic codec information analysis unit analyzes the basic codec separated by the stream separation unit, so that channel information indicating the number of channels of the basic codec, sampling frequency information indicating the sampling frequency of the basic codec, Analysis information including at least one of the channel information, and the switching unit determines whether the number of channels indicated by the channel information is greater than a predetermined first threshold and a sampling frequency indicated by the sampling frequency information. If at least one of whether or not it is larger than the second threshold is determined and it is determined that at least one is larger, the first band extension processing unit may be selected.
  • the first processing with a small amount of processing is selected instead of low accuracy, so compared with the signal of one channel, It is possible to prevent the amount of processing from significantly increasing.
  • the sampling frequency of the basic codec is large, the first processing with a small processing amount is selected instead of the low accuracy, and similarly, the processing amount is reduced as compared with the case of processing the basic codec with a small sampling frequency. A significant increase can be prevented.
  • the audio playback device further includes a buffer that holds stereo extension information of the first frame, and the stereo extension processing unit is a frame after the first frame, and the stereo extension information is missing.
  • the basic codec decoded signal of the second frame may be made stereo using the stereo extension information held in the buffer.
  • the stereo extension information used for stereoization is held in the buffer, and when the stereo extension information cannot be obtained, the stereo extension information held in the buffer is used. Even if it contains, the said frame can be stereoified correctly.
  • the second band extension processing unit generates a high frequency component signal from the basic codec decoded signal using the band extension information, and the stereo extension processing unit uses the stereo extension information to generate the basic codec decoding.
  • the signal and the high-frequency component signal generated by the second band extension processing unit are respectively made stereo, so that the basic codec decoded signal and the high-frequency component signal of the first channel, the basic codec decoded signal of the second channel and the high-frequency signal are generated.
  • the second band extension processing unit further includes a band synthesis filter for synthesizing the generated high frequency component signal and the basic codec decoded signal, and the stereo extension information is missing,
  • the delay information held in the band synthesis filter of the first channel is used as the band synthesis filter of the second channel. May be carried out band synthesis of the second channel is used as a delay information held.
  • the obtained delay information is used as delay information for other channels, so that the signals of the two channels can be correctly combined.
  • the basic codec is an audio signal encoded based on the AAC system
  • the band extension information is SBR information generated based on the SBR system
  • the stereo extension information is based on the PS system.
  • the first band extension processing unit extends the frequency band of the basic codec decoded signal based on the LP-SBR scheme
  • the second band extension processing unit uses the HQ-SBR.
  • the frequency band of the basic codec decoded signal may be extended based on a scheme.
  • the present invention can be realized not only as an audio playback apparatus, but also as an audio playback method using a processing unit constituting the audio playback apparatus as a step. Moreover, you may implement
  • a communication network such as the Internet.
  • each of the audio playback devices may be configured by a single system LSI (Large Scale Integration).
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip.
  • the system LSI includes a microprocessor, a ROM, a RAM (Random Access Memory), and the like.
  • a computer system configured.
  • the present invention even when the input encoded audio signal is multi-channel, it is possible to avoid the occurrence of abnormal noise without significantly increasing the amount of calculation.
  • FIG. 1 is a block diagram showing an example of the configuration of the audio playback apparatus according to the first embodiment.
  • FIG. 2 is a flowchart showing an example of the operation of the audio reproduction device according to the first embodiment.
  • FIG. 3 is a flowchart illustrating a specific example of the operation of the switching unit according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of an input stream to which stereo extension data is added.
  • FIG. 5 is a diagram illustrating an example of an input stream to which stereo extension data is not added.
  • FIG. 6 is a diagram illustrating an example of an input stream including a frame in which stereo extension data is missing.
  • FIG. 7 is a diagram illustrating an example of a waveform of an output audio signal.
  • FIG. 1 is a block diagram showing an example of the configuration of the audio playback apparatus according to the first embodiment.
  • FIG. 2 is a flowchart showing an example of the operation of the audio reproduction device according to the first embodiment.
  • FIG. 3 is a flowchar
  • FIG. 8 is a block diagram illustrating an example of the configuration of the audio reproduction device according to the second embodiment.
  • FIG. 9 is a flowchart illustrating an example of the operation of the stereo expansion processing unit according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of a waveform of a stereo output audio signal.
  • FIG. 11 is an external view showing an example of an audio playback device equipped with the audio playback device of the present invention.
  • the audio playback apparatus switches between two band extension processes having different characteristics based on the analysis result of the basic codec, regardless of the validity / invalidity of the stereo extension information for converting the monaural audio signal to stereo. It is characterized by that.
  • the two band expansion processes are a process with a large amount of processing but a high precision, that is, a process for outputting an output audio signal with excellent sound quality, and a process with a small amount of processing but a low precision.
  • FIG. 1 is a block diagram showing an example of the configuration of the audio playback device 100 of the present embodiment.
  • the audio reproduction device 100 in FIG. 1 includes a stream separation unit 101, a basic codec analysis unit 102, a basic codec decoding unit 103, a band extension data analysis unit 104, a stereo extension data analysis unit 105, and a first band extension process.
  • the stream separation unit 101 separates the input stream into a basic codec, band extension data, and stereo extension data. If the stereo extension data is not included in the stream, the stream separation unit 101 separates the input stream into the basic codec and the band extension data. Then, the stream separation unit 101 transmits the separated basic codec to the basic codec analysis unit 102, transmits the band extension data to the band extension data analysis unit 104, and transmits the stereo extension data to the stereo extension data analysis unit 105.
  • the stream input to the audio playback device 100 is, for example, a stream having a HE-AACv2 profile configuration.
  • the basic codec is an encoded audio signal, for example, an audio signal encoded based on the AAC system.
  • the band extension data is data used to extend the band of the basic codec, for example, SBR data.
  • the stereo extension data is data used to make a monaural audio signal stereo, and is PS data, for example.
  • the basic codec analysis unit 102 generates basic codec analysis information by analyzing the basic codec transmitted from the stream separation unit 101.
  • the basic codec analysis information includes channel information indicating the number of channels (CH) of the basic codec, sampling frequency information indicating the sampling frequency (FS) of the basic codec, and the like.
  • the basic codec analysis unit 102 transmits the generated basic codec analysis information to the basic codec decoding unit 103.
  • channel information and sampling frequency information are also transmitted to the switching unit 109.
  • the basic codec decoding unit 103 decodes the basic codec using the basic codec analysis information transmitted from the basic codec analysis unit 102, and generates a basic codec decoded signal. Then, basic codec decoding section 103 transmits the generated basic codec decoded signal to switching section 109.
  • the bandwidth extension data analysis unit 104 generates bandwidth extension information by analyzing the bandwidth extension data transmitted from the stream separation unit 101, and transmits the generated bandwidth extension information to the switching unit 109.
  • the band extension information includes, for example, side information used for prediction for reconstructing the high band of the basic codec decoded signal using the SBR technique.
  • the stereo extension data analysis unit 105 generates stereo extension information by analyzing the stereo extension data transmitted from the stream separation unit 101, and transmits the generated stereo extension information to the stereo extension processing unit.
  • the stereo extension information is information used for stereo extension processing (also referred to as stereo processing) for stereo-izing a monaural audio signal using PS technology, for example.
  • the first band extension processing unit 106 outputs the output audio signal by using the band extension information transmitted from the switching unit 109 and extending the frequency band of the basic codec decoded signal. Specifically, a high frequency component is predicted and generated using band extension information, and an output audio signal is output by performing band synthesis on the generated high frequency component signal and the basic codec decoded signal.
  • the first band extension processing unit 106 has an advantage that the processing amount is smaller than that of the second band extension processing unit 107 when processing the same signal.
  • the sound quality of the output audio signal output from the first band extension processing unit 106 is inferior to the sound quality of the output audio signal output from the second band extension processing unit 107.
  • the first band extension processing unit 106 performs band extension processing based on, for example, the LP-SBR method.
  • the second band extension processing unit 107 outputs the output audio signal by using the band extension information transmitted from the switching unit 109 and extending the frequency band of the basic codec decoded signal. Specifically, a high frequency component is predicted and generated using band extension information, and an output audio signal is output by performing band synthesis on the generated high frequency component signal and the basic codec decoded signal.
  • the sound quality of the output audio signal output from the second band extension processing unit 107 is superior to the sound quality of the output audio signal output from the first band extension processing unit 106.
  • the second band extension processing unit 107 has a larger processing amount than the first band extension processing unit 106.
  • the second bandwidth extension processing unit 107 performs bandwidth extension processing based on, for example, the HQ-SBR method.
  • the basic codec decoded signal is an audio signal mainly including a low frequency component.
  • the band extension process performed by the first band extension processing unit 106 and the second band extension processing unit 107 is a process for predicting and generating a high frequency component removed using the band extension information.
  • each of the first band extension processing unit 106 and the second band extension processing unit 107 includes a band synthesis filter, and the basic codec decoded signal generated by the basic codec decoding unit 103 and the basic codec decoded signal are The output audio signal close to the original sound is restored by performing band synthesis with the high-frequency component signal originally restored using the band extension information.
  • the stereo extension processing unit 108 performs stereo processing on the monaural audio signal whose frequency band is extended by the second band extension processing unit 107, using the stereo extension information transmitted from the stereo extension data analysis unit 105. Specifically, by using the stereo extension information, the basic codec decoded signal, which is a monaural audio signal, and the high-frequency component signal generated by the second band extension processing unit 107 are respectively converted into stereo, thereby the Lch basic codec. A decoded signal and a high frequency component signal, and an Rch basic codec decoded signal and a high frequency component signal are generated. For example, the stereo expansion processing unit 108 performs stereo processing based on the PS system. At this time, the stereo expansion processing unit 108 must be used in combination with the second band expansion processing unit 107. That is, the stereo extension processing unit 108 shares the complex QMF with the second band extension processing unit 107.
  • the second band extension processing unit 107 performs band synthesis on the stereo extended Lch signal and Rch signal.
  • the delay information in the band synthesizing process of the second band extension processing unit 107 copies the Lch delay information to the Rch delay information.
  • the Rch band synthesis processing is performed using the Lch delay information copied in the previous frame as the Rch delay information.
  • the Lch delay information is information that is held across the frames in the band synthesis filter in the band synthesis process.
  • the switching unit 109 determines whether to connect to the terminal A or the terminal B based on the number of channels CH transmitted from the basic codec analysis unit 102 and the sampling frequency FS. A specific example of the determination procedure here will be described later with reference to FIG.
  • the switching unit 109 converts the basic codec decoded signal transmitted from the basic codec decoding unit 103 and the band extension information transmitted from the band extension data analysis unit 104 into the first band extension processing unit 106 or the second band according to the determination result.
  • the data is transmitted to the extension processing unit 107.
  • the audio playback device 100 includes the switching unit 109 that selects one of two band expansion processes having different characteristics based on the analysis result of the basic codec.
  • the two band expansion processes are a first process with a small amount of processing but poor sound quality, and a second process with a large amount of processing but excellent sound quality.
  • FIG. 2 is a flowchart showing the operation of the audio playback device 100 of the present embodiment. The following operations are performed in units of frames.
  • the stream separation unit 101 separates the input stream into a basic codec, band extension data, and stereo extension data (S101).
  • the basic codec is transmitted to the basic codec analysis unit 102
  • the band extension data is transmitted to the band extension data analysis unit 104
  • the stereo extension data is transmitted to the stereo extension data analysis unit 105.
  • each separated data is analyzed (S102).
  • the basic codec analysis unit 102 generates basic codec analysis information by analyzing the basic codec.
  • the bandwidth extension data analysis unit 104 generates bandwidth extension information by analyzing the bandwidth extension data.
  • the stereo extension data analysis unit 105 generates stereo extension information by analyzing the stereo extension data. If stereo extension information cannot be generated, such as when stereo extension data is missing, the stereo extension data analysis unit 105 transmits information indicating that there is no stereo extension information to the stereo extension processing unit 108.
  • the basic codec decoding unit 103 decodes the basic codec according to the basic codec analysis information (S103).
  • the basic codec decoded signal generated by the decoding is transmitted to the switching unit 109.
  • the switching unit 109 determines the connection destination of the transmission path of the basic codec decoded signal based on the basic codec analysis information, and switches between the terminal A and the terminal B based on the determination result (S104). For example, referring to channel information included in the basic codec analysis information, the switching unit 109 selects the terminal A when the number of channels CH of the basic codec is larger than a predetermined threshold. Alternatively, with reference to the sampling frequency information included in the basic codec analysis information, when the sampling frequency FS of the basic codec is equal to or higher than a predetermined threshold, the switching unit 109 selects the terminal A. In other cases, the switching unit 109 selects the terminal B.
  • the basic codec decoded signal and the band extension information are transmitted to the first band extension processing unit 106.
  • the first band extension processing unit 106 generates an output audio signal by extending the frequency band of the basic codec decoded signal (S106). Note that the processing by the first band extension processing unit 106 is executed based on the LP-SBR method or the like, which is characterized in that the amount of processing is small but the sound quality of the generated audio signal is inferior.
  • the basic codec decoded signal and the band extension information are transmitted to the second band extension processing unit 107.
  • the second band extension processing unit 107 generates an output audio signal by extending the frequency band of the basic codec decoded signal (S107). Note that the processing by the second band extension processing unit 107 is executed based on the HQ-SBR method or the like, which is characterized in that the sound quality of the generated audio signal is excellent although the processing amount is large.
  • the stereo extension processing unit 108 performs stereo processing on the basic codec decoded signal (monaural audio signal) whose frequency band is extended by the second band extension processing unit 107.
  • the high-frequency component of the basic codec decoded signal can be predicted and restored, and an output audio signal closer to the original sound can be generated.
  • processing is selected based on basic codec analysis information indicating the nature of the basic codec.
  • connection destination determination process S104
  • FIG. 3 is a flowchart showing a specific example of the operation of the switching unit 109 of the present embodiment.
  • the transmission path is connected to the terminal A, and the input band extension information and the basic codec decoded signal are The data is transmitted to the one-band extension processing unit 106 (S202). Further, when the number of channels CH is 1 and the sampling frequency FS is 24 kHz or less (Yes in S201), the transmission path is connected to the terminal B, and the input band extension information and the basic codec decoded signal are The data is transmitted to the second band extension processing unit 107 (S203).
  • FIG. 4 is a diagram illustrating an example of an input stream to which stereo extension data is added.
  • the number of channels CH is 1.
  • FIG. 5 is a diagram illustrating an example of an input stream to which stereo extension data is not added.
  • the first band extension processing unit 106 performs band extension processing on the basic codec decoded signal transmitted from the switching unit 109 using band extension information, and outputs an audio signal.
  • FIG. 6 is a diagram illustrating an example of an input stream including a frame in which stereo extension data is missing.
  • the frames 201 and 203 contain the stereo extension data, whereas the stereo extension data of the frame 202 is missing.
  • the basic codec analysis information generated by analyzing the basic codec included in the frames 201, 202, and 203 does not change. That is, the channel number CH of the basic codec of all the frames 201, 202, and 203 is 1, and the sampling frequency is 24 kHz.
  • the switching unit 109 determines that the condition shown in FIG. 3 is satisfied for each frame (Yes in S201), and connects the transmission path to the terminal B (S203).
  • the second bandwidth extension processing unit 107 performs bandwidth extension processing for each frame.
  • FIG. 7 is a diagram showing an example of the waveform of the output audio signal.
  • the processing is conventionally switched from the HQ-SBR method to the LP-SBR method at time t0, and at time t2, the processing is started from the LP-SBR method.
  • the waveform of the output audio signal when switching to the HQ-SBR system is shown.
  • the delay information cannot be used between the time t0 and t1 and between the time t2 and t3, and thus abnormal noise is generated.
  • the first band extension processing unit 106 and the second band extension processing unit 107 are independent of the presence / absence of stereo extension data in the stream. It is determined which processing unit performs processing. That is, if basic codec analysis information is the same between frames, the basic codec decoded signal of each frame is always band-extended by the same processing unit. Accordingly, since discontinuity of the delay data does not occur, the generation of abnormal noise can be prevented as shown in FIG.
  • the audio playback device includes a buffer that holds stereo extension information. For example, when there is a loss of stereo extension data due to reception of a broadcast or the like, the stereo extension information held in the buffer is used. Perform stereo.
  • FIG. 8 is a block diagram showing the configuration of the audio playback device 300 of the present embodiment.
  • the audio playback device 300 of FIG. 6 is different from the audio playback device 100 of FIG. 1 in that it includes a stereo expansion processing unit 308 instead of the stereo expansion processing unit 108 and further includes a buffer 310.
  • a stereo expansion processing unit 308 instead of the stereo expansion processing unit 108
  • a buffer 310 instead of the stereo expansion processing unit 108
  • it demonstrates centering on a different point and abbreviate
  • the stereo extension processing unit 308 stores the stereo extension information used for the stereo processing in the buffer 310 in addition to the processing of the stereo extension processing unit 108. Specifically, the stereo extension processing unit 308 converts the basic codec decoded signal whose frequency band has been extended by the second band extension processing unit 107 to stereo using the stereo extension information transmitted from the stereo extension data analysis unit 105. To do.
  • the stereo extension information used at this time is stored in the buffer 310. For example, every time new stereo extension information is obtained, the stereo extension processing unit 308 updates the stereo extension information stored in the buffer 310 to the latest one.
  • the stereo extension processing unit 308 reads the stereo extension information from the buffer 310 and uses the read stereo extension information to The basic codec decoded signal (monaural audio signal) is converted into stereo.
  • the buffer 310 stores the stereo extension information transmitted from the stereo extension data analysis unit 105.
  • the buffer 310 may hold not only the latest stereo extension information but also a plurality of stereo extension information.
  • the stereo extension processing unit 308 converts the basic codec decoded signal similar to the basic codec decoded signal to be processed into a stereo signal by referring to the basic codec extension information, for example.
  • the stereo extension information used for processing is used.
  • the audio reproduction device 300 includes the buffer 310 that holds the stereo extension information, and uses the stereo extension information held in the buffer 310 when there is no stereo extension information. Convert the basic codec decoded signal to stereo.
  • the audio playback device 300 decodes the input stream according to the flowcharts shown in FIGS.
  • the stereo expansion processing unit 308 of the present embodiment is executed when the second band expansion processing unit 107 performs band expansion (S107).
  • FIG. 9 is a flowchart showing the operation of the stereo expansion processing unit 308 of the present embodiment.
  • the stereo extension processing unit 308 determines whether or not stereo extension data is added to the stream, that is, whether or not stereo extension information is transmitted from the stereo extension data analysis unit 105 (S301). If the stereo extension information is transmitted (Yes in S301), stereo extension processing is performed using the stereo extension information (S302). Further, the stereo expansion processing unit 308 stores the stereo expansion information used at this time (S303).
  • the stereo extension process is performed when the previous frame is decoded (S304).
  • the stereo extension process is performed using the stereo extension information stored when the previous frame is decoded (S305). If the stereo expansion process is not performed (No in S304), the process ends without doing anything.
  • the stereo extension processing unit 308 of the present embodiment stores the stereo extension information used when decoding the previous frame in the buffer 310, and there is a loss of stereo extension data in the subsequent frames.
  • the basic codec decoded signal is converted to stereo using the stereo extension information stored in the buffer 310.
  • FIG. 10 is a diagram showing an example of the waveform of the stereo output audio signal.
  • the stereo expansion processing unit 308 operates as follows.
  • the stereo extension processing unit 308 Since the stereo extension data exists in the frame 201 (Yes in S301), the stereo extension processing unit 308 performs the stereo extension process (S302), and stores the stereo extension information used at this time (S303).
  • the frame 202 lacking stereo extension data is input. Since the stereo extension processing unit 308 lacks stereo extension data in the frame 202 (No in S301), and further performs a stereo extension process when decoding the frame 201 (Yes in S304), the stereo extension of the frame 201 is not performed. Stereo expansion processing of the frame 202 is performed using the extension information.
  • the frame 203 in which the next stereo extension data exists is input. Since the stereo extension data exists in the frame 203 (Yes in S301), the stereo extension processing of the frame 203 is performed using the stereo extension information extracted from the frame 203 (S302).
  • the continuity of the output sound can be maintained, and the stereo extension is performed even in the frame in which the stereo extension data is lost. It becomes possible.
  • FIG. 11 is an external view showing an example of an audio playback device equipped with the audio playback device of the present invention.
  • a recording medium 401 an audio playback device 402, and an earphone 403 are shown.
  • the recording medium 401 is a recording medium that can record a compressed audio stream.
  • FIG. 11 although described as a medium that can be taken out from a device such as an SD card, it may be realized by an optical disk, an HDD built in the device, or the like.
  • the audio playback device 402 is a compressed audio playback device, and the components inside the device are configured to include at least one of the audio playback devices 100 and 300 described in the first and second embodiments.
  • the earphone 403 is a speaker device that outputs an output audio signal output from the audio playback device 402 to the outside.
  • an earphone attached to the user's ear is illustrated, but a headphone attached to the user's head or a desktop speaker device may be used.
  • the audio playback device 402 By configuring the audio playback device 402 in this way, it is possible to obtain an output audio signal without producing an abnormal sound even for a stream in which stereo extension data is lost in the middle.
  • the present invention is not limited to these embodiments. Unless it deviates from the meaning of this invention, the form which carried out the various deformation
  • the switching unit 109 uses the second band expansion processing unit 107 only when the number of channels is 1 and the sampling frequency is 24 kHz or less, for example, when the number of channels is 2 or less. (Connect to terminal B). In this case, if a stream having a basic codec channel number of 1 or 2 is input, the second band extension processing unit 107 having good sound quality but a large amount of processing is used to perform band extension.
  • the bandwidth extension processing unit 106 when a stream of 3 channels or more is input, the sound quality is deteriorated to reduce the overall processing amount, but the bandwidth extension is performed using the first bandwidth extension processing unit 106 with a small processing amount. Can be performed. As described above, it is possible to obtain a high sound quality output even for multi-channels as long as the processor capacity and memory resources allow.
  • the present invention can be realized not only as an audio playback device and an audio playback method, but also as a program for causing a computer to execute the audio playback method of the present embodiment. Further, it may be realized as a computer-readable recording medium such as a CD-ROM for recording the program. Furthermore, it may be realized as information, data, or a signal indicating the program. These programs, information, data, and signals may be distributed via a communication network such as the Internet.
  • the constituent elements constituting the audio playback device may be configured from a single system LSI.
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip.
  • the system LSI is a computer system including a microprocessor, a ROM, a RAM, and the like. .
  • the present invention has the effects of preventing the amount of processing from increasing remarkably and preventing the generation of abnormal noise, and can be used in an audio playback device or the like.
  • the present invention can be used for an audio playback device having limited processor performance and memory resources such as a portable music player.

Abstract

 マルチチャンネルの場合にも著しく演算量を増加させること無く、異音の発生を回避する。  基本コーデックを含むストリームを復号して再生するオーディオ再生装置(100)であって、ストリームを基本コーデックと帯域拡張データとに分離するストリーム分離部(101)と、基本コーデックを解析する基本コーデック解析部(102)と、基本コーデック解析情報に従って基本コーデックを復号する基本コーデック復号部(103)と、帯域拡張データを解析する帯域拡張データ解析部(104)と、帯域拡張情報を用いて基本コーデック復号信号を拡張する第1帯域拡張処理部(106)と、帯域拡張情報を用いて基本コーデック復号信号を第1帯域拡張処理部(106)より高精度で拡張する第2帯域拡張処理部(107)と、基本コーデック解析情報に基づいて第1帯域拡張処理部(106)と第2帯域拡張処理部(107)とを切り替える切替部(109)とを備える。

Description

オーディオ再生装置及びオーディオ再生方法
 本発明は、符号化されたオーディオ信号を復号し再生するオーディオ再生装置に関するものである。
 従来、低域オーディオ信号と帯域拡張情報とが入力され、入力された帯域拡張情報に含まれるサイド情報を参照しながら予測して高域を再構成するスペクトルバンド複製(Spectral Band Replication、以下ではSBRと呼ぶ)技術を用いて、高域拡張オーディオ信号を生成するオーディオ再生装置が知られている。このサイド情報の情報量はごく少なくて良いため、低いビットレートでの符号化オーディオ信号の音質を向上することができる。
 SBRの処理方法には、高音質版SBR(High-Quality-SBR、以下ではHQ-SBRと呼ぶ)と低演算量版SBR(Low-Power-SBR、以下ではLP-SBRと呼ぶ)との2種類が規定されている。
 HQ-SBRは、サブバンド分析、高域生成、サブバンド合成に渡る全体の処理を複素数演算で行う。このため、高音質化処理に適しているが、演算量が多いという特徴がある。
 LP-SBRは、HQ-SBRの複素数演算に代えて実数演算を用いており、また、その実数演算を用いることにより生じる折り返し歪みの発生を抑制するように改善されたものである。このため、演算量を大幅に削減し、かつ、低ビットレートではHQ-SBRと同等の音質を実現することができるという特徴がある。LP-SBRは、HQ-SBRの約半分の処理量で処理できることが知られている(非特許文献1参照)。
 SBRは、AAC(Advanced Audio Coding)と組み合わせて使用されることが知られており、その構成はHE-AAC(High-Efficiency AAC)プロファイルと呼ばれる。AACと組み合わせた場合、AAC+LP-SBRは、AAC+HQ-SBRの約70%の処理量で処理できることが知られている(非特許文献1参照)。
 また、モノラルオーディオ信号とステレオ化情報とが入力され、モノラルオーディオ信号をステレオ化情報に基づいてステレオ化処理することで、ステレオオーディオ信号を生成する再生装置が知られている。このステレオ化処理はパラメトリック・ステレオ(Parametric Stereo、以下ではPSと呼ぶ)処理として知られ、上記SBR処理と組み合わせて使用される。PS処理は、複素QMF(Quadrature Mirror Filter)をSBR処理と共通に用いて、ステレオ化を実現する(非特許文献2参照)。
 PSは、AACとSBRとの組み合わせで使用されることが知られており、その構成はHE-AACv2プロファイルと呼ばれ、PS処理を行うには複素QMFを用いるHQ-SBRと組み合わせて使用することが必須となる(非特許文献2及び非特許文献3参照)。なお、PSデータがない場合は、HQ-SBR又はLP-SBRのどちらと組み合わせて処理してもよい。
 なお、HE-AACプロファイル及びHE-AACv2プロファイルにはレベルという概念が存在しており、レベルが高くなるほど、復号可能な信号の種類が多くなっていく特徴がある。種類とは、入力符号化オーディオ信号の最大サンプリング周波数、若しくは、最大チャンネル数、又は、出力復号オーディオ信号の最大サンプリング周波数などである(非特許文献3参照)。
羽鳥光俊、「1セグ放送教科書」、インプレス、2005年6月15日 野村俊之、「MPEGオーディオの最新動向と応用」、[online]、琉球大学総合情報処理センター広報 第5号、2008年4月、[平成20年9月17日検索]、インターネット<URL:http://www.cc.u-ryukyu.ac.jp/news/kouhou/No5/2-5.pdf> ISO/IEC 14496-3:2005/FDAM2、「Information technology-Coding of audio-visual objects-Part 3:Audio、AMENDMENT 2:Audio Lossless Coding (ALS)、new audio profiles and BSAC extensions」、2005年8月
 しかしながら、上記従来の符号化オーディオ信号復号手段において、HE-AACv2プロファイルに対応し、かつ、高レベルに対応するには、演算量の多いHQ-SBRを用いることになり、例えば、入力符号化オーディオ信号がマルチチャンネルの場合、著しく演算量(処理量)が増加してしまうという課題を有している。さらに、この課題を、上記従来技術を用いて解決しようとすると、復号により得られたオーディオ信号に異音が発生するという課題を有している。具体的には、以下の通りである。
 非特許文献3によれば、上述したように、HE-AACv2プロファイルに対応する場合で、PSデータがある場合は、HQ-SBRと組み合わせて処理することが必須とされているが、PSデータがない場合は、HQ-SBR又はLP-SBRのどちらと組み合わせて処理してもよいことになっている。
 例えば、上記のような演算量の増加の課題を回避する方法として、非特許文献3の記載内容を考慮し、復号ストリームの状態によってSBR処理を切り替える方法が考えられる。具体的には、HQ-SBRを用いることが必須となる場合、すなわち、PSデータがある場合は、HQ-SBRを用いる。そして、それ以外の場合、すなわち、PSデータがない場合は、演算量の増加を抑えるためにLP-SBRを用いる。
 この場合、正常なPSデータが付加されているストリームの途中でPSデータが欠損していた場合、HQ-SBRからLP-SBRへの処理の切替が生じる。あるいは、PSデータは付加されているが、SBRヘッダが未取得のためSBR処理とステレオ化処理とが実行できない状態からSBRヘッダが取得された場合、LP-SBRからHQ-SBRへの処理の切替が生じる。
 前述の通り、HQ-SBRでのQMFフィルタ処理は複素数演算を行い、LP-SBRでのQMFフィルタ処理は実数演算を行っている。このため、両者の遅延情報の形式は異なるので、両者のQMFフィルタ遅延情報を共用することは困難である。これにより、SBRの切替が生じた時点でQMFフィルタ遅延情報の不連続を引き起こし、異音が発生する。
 図7(a)は、時刻t0、t2でSBR処理が切り替わった場合の1チャンネル分の出力オーディオ信号を表している。t0からt1、t2からt3はSBR処理の切り替わりによって遅延情報が使用できなくなるため異音が発生することを表している(なお、正常なオーディオ信号は図7(b)に示す)。このように、SBRの切替を行うことで演算量の増加を防ごうとすると、SBRの切替時に異音が発生する。
 そこで、本発明は、上記課題を解決するものであり、入力符号化オーディオ信号がマルチチャンネルの場合にも著しく演算量を増加させること無く、かつ、異音の発生を回避することができるオーディオ再生装置及びオーディオ再生方法を提供することを目的とする。
 上記課題を解決するために、本発明のオーディオ再生装置は、符号化されたオーディオ信号である基本コーデックを含むストリームを再生するオーディオ再生装置であって、前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報とに分離するストリーム分離部と、前記ストリーム分離部によって分離された基本コーデックを解析することで、基本コーデックの性質を示す解析情報を生成する基本コーデック情報解析部と、前記基本コーデック情報解析部によって生成された解析情報に従って前記基本コーデックを復号することで、基本コーデック復号信号を生成する基本コーデック復号部と、前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて拡張する第1処理を実行する第1帯域拡張処理部と、前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて前記第1処理より高い精度で拡張する第2処理を実行する第2帯域拡張処理部と、前記解析情報に基づいて、前記第1帯域拡張処理部と前記第2帯域拡張処理部とを切り替える切替部とを備える。
 これにより、処理量の異なる2つの処理の切り替えを、基本コーデックの性質を示す解析情報に基づいて実行することで、より適した処理を選択することができる。よって、例えば、入力符号化オーディオ信号がマルチチャンネルの場合にも著しく演算量(処理量)を増加させることがない。また、解析情報に基づいて処理を切り替えるので、基本コーデックの性質が一定である間は、処理が切り替わることはないので、処理の切り替わり時に生じる恐れのある異音の発生を防ぐことができる。
 また、前記ストリーム分離部は、前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報と、当該基本コーデックをステレオ化するために用いられるステレオ拡張情報とに分離し、前記オーディオ再生装置は、さらに、前記第2帯域拡張処理部によって周波数帯域が拡張された基本コーデック復号信号を、前記ステレオ拡張情報を用いてステレオ化するステレオ拡張処理部を備えてもよい。
 これにより、基本コーデックがモノラルオーディオ信号である場合に、正しくステレオ化することができる。
 また、前記基本コーデック情報解析部は、前記ストリーム分離部によって分離された基本コーデックを解析することで、当該基本コーデックのチャンネル数を示すチャンネル情報と、当該基本コーデックのサンプリング周波数を示すサンプリング周波数情報との少なくとも1つを含む解析情報を生成し、前記切替部は、前記チャンネル情報が示すチャンネル数が予め定められた第1閾値より大きいか否かと、前記サンプリング周波数情報が示すサンプリング周波数が予め定められた第2閾値より大きいか否かとの少なくとも一方を判定し、少なくとも一方が大きいと判定した場合、第1帯域拡張処理部を選択してもよい。
 これにより、基本コーデックのチャンネル数が多い場合、すなわち、基本コーデックがマルチチャンネルである場合は、精度が低い代わりに処理量の少ない第1処理を選択するので、1チャンネルの信号と比較して、処理量を著しく増加してしまうことを防ぐことができる。あるいは、基本コーデックのサンプリング周波数が大きい場合も、精度が低い代わりに処理量の少ない第1処理を選択するので、同様に、サンプリング周波数が小さい基本コーデックを処理する場合と比較して、処理量を著しく増加してしまうことを防ぐことができる。
 また、前記オーディオ再生装置は、さらに、第1フレームのステレオ拡張情報を保持するバッファを備え、前記ステレオ拡張処理部は、前記第1フレームより後のフレームであり、かつ、前記ステレオ拡張情報が欠損している第2フレームの基本コーデック復号信号を、前記バッファに保持されたステレオ拡張情報を用いてステレオ化してもよい。
 これにより、ステレオ化に用いたステレオ拡張情報をバッファに保持し、ステレオ拡張情報が得られない場合に、バッファに保持されたステレオ拡張情報を利用するので、ストリーム中にステレオ拡張データが欠損したフレームを含む場合であっても、当該フレームを正しくステレオ化することができる。
 また、前記第2帯域拡張処理部は、前記基本コーデック復号信号から前記帯域拡張情報を用いて高周波成分信号を生成し、前記ステレオ拡張処理部は、前記ステレオ拡張情報を用いて、前記基本コーデック復号信号と、前記第2帯域拡張処理部によって生成された高周波成分信号とをそれぞれステレオ化することで、第1チャンネルの基本コーデック復号信号と高周波成分信号と、第2チャンネルの基本コーデック復号信号と高周波成分信号とを生成し、前記第2帯域拡張処理部は、さらに、生成した高周波成分信号と前記基本コーデック復号信号とを合成する帯域合成フィルタを備え、前記ステレオ拡張情報が欠損している場合、前記第1チャンネルの帯域合成フィルタに保持される遅延情報を、前記第2チャンネルの帯域合成フィルタに保持される遅延情報として用いて第2チャンネルの帯域合成を行ってもよい。
 これにより、1チャンネル分の遅延情報しか得られていない場合でも、得られている遅延情報を他のチャンネルの遅延情報として利用するので、2つのチャンネルの信号を正しく帯域合成することができる。
 また、前記基本コーデックは、AAC方式に基づいて符号化されたオーディオ信号であり、前記帯域拡張情報は、SBR方式に基づいて生成されたSBR情報であり、前記ステレオ拡張情報は、PS方式に基づいて生成されたPS情報であり、前記第1帯域拡張処理部は、LP-SBR方式に基づいて、前記基本コーデック復号信号の周波数帯域を拡張し、前記第2帯域拡張処理部は、HQ-SBR方式に基づいて、前記基本コーデック復号信号の周波数帯域を拡張してもよい。
 なお、本発明は、オーディオ再生装置として実現できるだけではなく、当該オーディオ再生装置を構成する処理部をステップとするオーディオ再生方法として実現することもできる。また、これらステップをコンピュータに実行させるプログラムとして実現してもよい。さらに、当該プログラムを記録したコンピュータ読み取り可能なCD-ROM(Compact Disc-Read Only Memory)などの記録媒体、並びに、当該プログラムを示す情報、データ又は信号として実現してもよい。そして、それらプログラム、情報、データ及び信号は、インターネットなどの通信ネットワークを介して配信してもよい。
 また、上記の各オーディオ再生装置を構成する構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されていてもよい。なお、システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM及びRAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。
 本発明によれば、入力符号化オーディオ信号がマルチチャンネルの場合にも著しく演算量を増加させること無く、かつ、異音の発生を回避することができる。
図1は、実施の形態1のオーディオ再生装置の構成の一例を示すブロック図である。 図2は、実施の形態1のオーディオ再生装置の動作の一例を示すフローチャートである。 図3は、実施の形態1の切替部の動作の具体例を示すフローチャートである。 図4は、ステレオ拡張データが付加された入力ストリームの一例を示す図である。 図5は、ステレオ拡張データが付加されていない入力ストリームの一例を示す図である。 図6は、ステレオ拡張データが欠損しているフレームを含む入力ストリームの一例を示す図である。 図7は、出力オーディオ信号の波形の一例を示す図である。 図8は、実施の形態2のオーディオ再生装置の構成の一例を示すブロック図である。 図9は、実施の形態2のステレオ拡張処理部の動作の一例を示すフローチャートである。 図10は、ステレオ化された出力オーディオ信号の波形の一例を示す図である。 図11は、本発明のオーディオ再生装置を搭載するオーディオ再生機器の一例を示す外観図である。
 以下、本発明に係るオーディオ再生装置の実施の形態について図面を参照して説明する。
 (実施の形態1)
 本実施の形態のオーディオ再生装置は、モノラルオーディオ信号をステレオ化するためのステレオ拡張情報の有効・無効に関わらず、基本コーデックの解析結果に基づいて互いに異なる特徴を有する2つの帯域拡張処理を切り替えることを特徴とする。2つの帯域拡張処理は、処理量が多いが精度が高い処理、すなわち、音質が優れた出力オーディオ信号を出力する処理と、処理量は少ないが精度が低い処理とである。
 図1は、本実施の形態のオーディオ再生装置100の構成の一例を示すブロック図である。同図のオーディオ再生装置100は、ストリーム分離部101と、基本コーデック解析部102と、基本コーデック復号部103と、帯域拡張データ解析部104と、ステレオ拡張データ解析部105と、第1帯域拡張処理部106と、第2帯域拡張処理部107と、ステレオ拡張処理部108と、切替部109とを備える。
 ストリーム分離部101は、入力されたストリームを基本コーデックと帯域拡張データとステレオ拡張データとに分離する。なお、ストリームにステレオ拡張データが含まれない場合は、ストリーム分離部101は、入力されたストリームを基本コーデックと帯域拡張データとに分離する。そして、ストリーム分離部101は、分離した基本コーデックを基本コーデック解析部102に伝送し、帯域拡張データを帯域拡張データ解析部104に伝送し、ステレオ拡張データをステレオ拡張データ解析部105に伝送する。
 ここで、オーディオ再生装置100に入力されるストリームは、例えば、HE-AACv2プロファイルの構成を有するストリームである。また、基本コーデックは、符号化されたオーディオ信号であり、例えば、AAC方式に基づいて符号化されたオーディオ信号である。帯域拡張データは、基本コーデックの帯域を拡張するために用いられるデータであり、例えば、SBRデータである。ステレオ拡張データは、モノラルオーディオ信号をステレオ化するために用いられるデータであり、例えば、PSデータである。
 基本コーデック解析部102は、ストリーム分離部101から伝送された基本コーデックを解析することで基本コーデック解析情報を生成する。なお、基本コーデック解析情報は、基本コーデックのチャンネル数(CH)を示すチャンネル情報と、基本コーデックのサンプリング周波数(FS)を示すサンプリング周波数情報となどを含む。基本コーデック解析部102は、生成した基本コーデック解析情報を基本コーデック復号部103に伝送する。また、基本コーデック解析情報のうち、チャンネル情報とサンプリング周波数情報とを切替部109にも伝送する。
 基本コーデック復号部103は、基本コーデック解析部102から伝送された基本コーデック解析情報を使用して基本コーデックを復号し、基本コーデック復号信号を生成する。そして、基本コーデック復号部103は、生成した基本コーデック復号信号を切替部109に伝送する。
 帯域拡張データ解析部104は、ストリーム分離部101から伝送された帯域拡張データを解析することで帯域拡張情報を生成し、生成した帯域拡張情報を切替部109に伝送する。帯域拡張情報は、例えば、SBR技術を用いて基本コーデック復号信号の高域を再構成するための予測に用いられるサイド情報などを含む。
 ステレオ拡張データ解析部105は、ストリーム分離部101から伝送されたステレオ拡張データを解析することでステレオ拡張情報を生成し、生成したステレオ拡張情報をステレオ拡張処理部108に伝送する。ステレオ拡張情報は、例えば、PS技術を用いて、モノラルオーディオ信号をステレオ化するためのステレオ拡張処理(ステレオ化処理とも記載)に用いられる情報である。
 第1帯域拡張処理部106は、切替部109から伝送された帯域拡張情報を使用し、基本コーデック復号信号の周波数帯域を拡張することで、出力オーディオ信号を出力する。具体的には、帯域拡張情報を用いて高周波成分を予測して生成し、生成した高周波成分信号と基本コーデック復号信号とを帯域合成することで、出力オーディオ信号を出力する。
 このとき、第1帯域拡張処理部106は、同じ信号を処理する場合、第2帯域拡張処理部107よりも処理量が少ないという利点がある。しかしながら、第1帯域拡張処理部106が出力する出力オーディオ信号の音質は、第2帯域拡張処理部107が出力する出力オーディオ信号の音質よりも劣っている。第1帯域拡張処理部106は、例えば、LP-SBR方式に基づいて帯域拡張処理を行う。
 第2帯域拡張処理部107は、切替部109から伝送された帯域拡張情報を使用し、基本コーデック復号信号の周波数帯域を拡張することで、出力オーディオ信号を出力する。具体的には、帯域拡張情報を用いて高周波成分を予測して生成し、生成した高周波成分信号と基本コーデック復号信号とを帯域合成することで、出力オーディオ信号を出力する。
 このとき、第2帯域拡張処理部107が出力する出力オーディオ信号の音質は、第1帯域拡張処理部106が出力する出力オーディオ信号の音質よりも優れているという利点がある。しかしながら、第2帯域拡張処理部107は、第1帯域拡張処理部106よりも処理量が多くなる。第2帯域拡張処理部107は、例えば、HQ-SBR方式に基づいて帯域拡張処理を行う。
 なお、通常、オーディオ信号を符号化する(すなわち、基本コーデックを生成する)際に、符号量を削減するために高周波成分が除去される。このため、基本コーデック復号信号は、主に低周波成分を含むオーディオ信号である。第1帯域拡張処理部106及び第2帯域拡張処理部107が行う帯域拡張処理は、帯域拡張情報を用いて除去された高周波成分を予測し生成する処理である。
 具体的には、第1帯域拡張処理部106及び第2帯域拡張処理部107はそれぞれ、帯域合成フィルタを備え、基本コーデック復号部103によって生成された基本コーデック復号信号と、当該基本コーデック復号信号を元にして帯域拡張情報を用いて復元した高周波成分信号とを帯域合成することで、原音に近い出力オーディオ信号を復元する。
 ステレオ拡張処理部108は、ステレオ拡張データ解析部105から伝送されたステレオ拡張情報を使用して、第2帯域拡張処理部107によって周波数帯域が拡張されたモノラルオーディオ信号にステレオ化処理を行う。具体的には、ステレオ拡張情報を用いて、モノラルオーディオ信号である基本コーデック復号信号と、第2帯域拡張処理部107によって生成された高周波成分信号とをそれぞれステレオ化することで、Lchの基本コーデック復号信号及び高周波成分信号と、Rchの基本コーデック復号信号及び高周波成分信号とを生成する。ステレオ拡張処理部108は、例えば、PS方式に基づいてステレオ化処理を行う。このとき、ステレオ拡張処理部108は、必ず第2帯域拡張処理部107と組み合わされて使用されなければならない。すなわち、ステレオ拡張処理部108は、複素QMFを第2帯域拡張処理部107と共有する。
 第2帯域拡張処理部107は、ステレオ拡張されたLchの信号とRchの信号とをそれぞれ、帯域合成する。この第2帯域拡張処理部107の帯域合成処理における遅延情報は、入力されたストリームにステレオ拡張データが欠損している場合は、Lchの遅延情報をRchの遅延情報にコピーする。そして、ステレオ拡張データが得られた際に、以前のフレームでコピーしたLchの遅延情報をRchの遅延情報として用いて、Rchの帯域合成処理を行う。なお、Lchの遅延情報は、帯域合成処理において帯域合成フィルタ内にフレームをまたいで保持される情報である。
 切替部109は、基本コーデック解析部102から伝送されるチャンネル数CHとサンプリング周波数FSとによって、端子A、又は、端子Bのどちらに接続するかを判定する。ここでの判定手順の具体例については、図3を用いて後述する。切替部109は、基本コーデック復号部103から伝送される基本コーデック復号信号と、帯域拡張データ解析部104から伝送される帯域拡張情報とを、判定結果に従って第1帯域拡張処理部106又は第2帯域拡張処理部107に伝送する。
 以上の構成に示すように、本実施の形態のオーディオ再生装置100は、基本コーデックの解析結果に基づいて、互いに異なる特徴を有する2つの帯域拡張処理のいずれかを選択する切替部109を備える。2つの帯域拡張処理は、処理量は少ないが音質が劣っている第1処理と、処理量は多いが音質は優れている第2処理とである。
 続いて、本実施の形態のオーディオ再生装置100の動作について説明する。
 図2は、本実施の形態のオーディオ再生装置100の動作を示すフローチャートである。なお、以下の動作は、フレーム単位で行われるものとする。
 まず、ストリーム分離部101が、入力されたストリームを、基本コーデックと帯域拡張データとステレオ拡張データとに分離する(S101)。基本コーデックは基本コーデック解析部102に、帯域拡張データは帯域拡張データ解析部104に、ステレオ拡張データはステレオ拡張データ解析部105にそれぞれ伝送される。
 次に、分離した各データを解析する(S102)。具体的には、基本コーデック解析部102は、基本コーデックを解析することで基本コーデック解析情報を生成する。帯域拡張データ解析部104は、帯域拡張データを解析することで帯域拡張情報を生成する。ステレオ拡張データ解析部105は、ステレオ拡張データを解析することでステレオ拡張情報を生成する。なお、ステレオ拡張データが欠損している場合などステレオ拡張情報を生成できない場合は、ステレオ拡張データ解析部105は、ステレオ拡張情報がないことを示す情報をステレオ拡張処理部108に伝送する。
 次に、基本コーデック復号部103は、基本コーデック解析情報に従って基本コーデックを復号する(S103)。復号により生成された基本コーデック復号信号は、切替部109に伝送される。
 切替部109は、基本コーデック解析情報に基づいて、基本コーデック復号信号の伝送経路の接続先を判定し、判定結果に基づいて端子Aと端子Bとの切替を行う(S104)。例えば、基本コーデック解析情報に含まれるチャンネル情報を参照し、基本コーデックのチャンネル数CHが所定の閾値より大きい場合、切替部109は、端子Aを選択する。あるいは、基本コーデック解析情報に含まれるサンプリング周波数情報を参照し、基本コーデックのサンプリング周波数FSが所定の閾値以上の場合、切替部109は、端子Aを選択する。そして、これら以外の場合、切替部109は、端子Bを選択する。
 端子Aが選択された場合(S105で“A”)、基本コーデック復号信号と帯域拡張情報とは第1帯域拡張処理部106に伝送される。第1帯域拡張処理部106は、基本コーデック復号信号の周波数帯域を拡張することで、出力オーディオ信号を生成する(S106)。なお、第1帯域拡張処理部106による処理は、処理量が少ないが、生成されるオーディオ信号の音質は劣ることを特徴とするようなLP-SBR方式などに基づいて実行される。
 端子Bが選択された場合(S105で“B”)、基本コーデック復号信号と帯域拡張情報とは第2帯域拡張処理部107に伝送される。第2帯域拡張処理部107は、基本コーデック復号信号の周波数帯域を拡張することで、出力オーディオ信号を生成する(S107)。なお、第2帯域拡張処理部107による処理は、処理量は多いが、生成されるオーディオ信号の音質が優れていることを特徴とするようなHQ-SBR方式などに基づいて実行される。
 このとき、ステレオ拡張情報がある場合、ステレオ拡張処理部108は、第2帯域拡張処理部107によって周波数帯域が拡張された基本コーデック復号信号(モノラルオーディオ信号)にステレオ化処理を行う。
 最後に、第1帯域拡張処理部106又は第2帯域拡張処理部107によって生成された出力オーディオ信号を出力する(S108)。
 以上のようにして、基本コーデック復号信号の高周波成分を予測して復元し、より原音に近い出力オーディオ信号を生成することができる。このとき、基本コーデックの性質を示す基本コーデック解析情報に基づいて処理を選択する。これにより、例えば、マルチチャンネル、又は、サンプリング周波数が大きい場合などの処理量が増大する場合に、処理量の少ない第1帯域拡張処理部106を選択することで、処理量の増大を防ぐことができる。
 続いて、接続先の判定処理(S104)の具体例について説明する。
 図3は、本実施の形態の切替部109の動作の具体例を示すフローチャートである。
 まず、入力された基本コーデックのチャンネル数CHとサンプリング周波数FSとが、所定の条件を満たすか否かを判定する(S201)。ここでは、CHが1であり、かつ、FSが24kHz以下であるか否かを判定する。
 チャンネル数CHが2以上であるか、又は、サンプリング周波数FSが24kHzより大きい場合(S201でNo)、伝送経路を端子Aに接続し、入力されている帯域拡張情報と基本コーデック復号信号とを第1帯域拡張処理部106へ伝送する(S202)。また、チャンネル数CHが1であり、かつ、サンプリング周波数FSが24kHz以下である場合(S201でYes)、伝送経路を端子Bに接続し、入力されている帯域拡張情報と基本コーデック復号信号とを第2帯域拡張処理部107へ伝送する(S203)。
 以下では、具体的なストリームの例を挙げながら、本実施の形態のオーディオ再生装置100の動作について説明する。
 図4は、ステレオ拡張データが付加された入力ストリームの一例を示す図である。
 例えば、オーディオ再生装置100に、図4に示すようなストリームが入力された場合、基本コーデック解析部102は、基本コーデックを解析し、チャンネル数CH(=1)とサンプリング周波数情報FS(=24kHz)とを切替部109へ伝送する。切替部109は、図3に示す条件を満たすので(S201でYes)、伝送経路を端子Bへ接続し、基本コーデック復号信号と帯域拡張情報とを第2帯域拡張処理部107へ伝送する(S203)。第2帯域拡張処理部107は、切替部109から伝送された基本コーデック復号信号を、帯域拡張情報を使用して帯域拡張処理する。このとき、併せてステレオ拡張処理部108がステレオ拡張情報を使用してステレオ拡張処理を行い、ステレオ拡張されたオーディオ信号を出力する。
 なお、図4に示すように、ステレオ拡張データが付加されている場合は、チャンネル数CHは1である。ステレオ拡張データは、モノラルオーディオ信号をステレオ化するための情報であり、CH=1は、基本コーデック復号信号がモノラルオーディオ信号であることを示す。
 また、図5は、ステレオ拡張データが付加されていない入力ストリームの一例を示す図である。オーディオ再生装置100に、図5に示すようなストリームが入力された場合、基本コーデック解析部102は、基本コーデックを解析し、チャンネル数CH(=5.1)とサンプリング周波数情報FS(=24kHz)とを切替部109へ伝送する。切替部109は、図3に示す条件を満たさないので(S201でNo)、伝送経路を端子Aへ接続し、基本コーデック復号信号と帯域拡張情報とを第1帯域拡張処理部106へ伝送する(S202)。第1帯域拡張処理部106は、切替部109から伝送された基本コーデック復号信号を、帯域拡張情報を使用して帯域拡張処理を行い、オーディオ信号を出力する。
 次に、ステレオ拡張データが途中のフレームで欠損し、以降のフレームでまた現れるようなストリームをオーディオ再生装置100に入力した場合について説明する。
 図6は、ステレオ拡張データが欠損しているフレームを含む入力ストリームの一例を示す図である。同図に示すように、フレーム201と203とは、ステレオ拡張データが含まれているのに対して、フレーム202のステレオ拡張データは欠損している。これに対して、フレーム201、202、203に含まれる基本コーデックを解析することで生成される基本コーデック解析情報は変化しない。すなわち、全フレーム201、202、203の基本コーデックのチャンネル数CHは1であり、サンプリング周波数は24kHzである。
 このため、切替部109は、フレームごとに図3に示す条件を満たすと判定し(S201でYes)、伝送経路を端子Bへ接続する(S203)。第2帯域拡張処理部107は、各フレームの帯域拡張処理を行う。
 ここで、図7は、出力オーディオ信号の波形の一例を示す図である。図7(a)には、フレーム202でPSデータが欠損したために、従来では、時刻t0で、処理がHQ-SBR方式からLP-SBR方式に切り替わり、時刻t2で、処理がLP-SBR方式からHQ-SBR方式に切り替わった場合の出力オーディオ信号の波形を示す。従来では、このように処理が切り替わるために、時刻t0からt1の間と、時刻t2からt3の間とで、遅延情報が利用できなくなるために、異音が発生している。
 これに対して、上述したように、本実施の形態のオーディオ再生装置100では、ストリーム内のステレオ拡張データの有無とは無関係に、第1帯域拡張処理部106と第2帯域拡張処理部107のいずれの処理部で処理を行うかを決定する。つまり、各フレーム間で基本コーデックの解析情報が同じであれば、常に同じ処理部で各フレームの基本コーデック復号信号を帯域拡張する。したがって、遅延データの不連続は生じないため、図7(b)で示すとおり、異音の発生を防ぐことができる。
 以上のように、本実施の形態のオーディオ再生装置100では、ステレオ拡張データを含むストリーム(すなわち、CH=1のストリーム)に対する帯域拡張処理を第2帯域拡張処理部107が行うため、問題なくステレオ拡張処理を行うことが可能である。また、ステレオ拡張データを含まないマルチチャンネルのストリームに対する帯域拡張処理を第1帯域拡張処理部106が行うことで、処理量(演算量)を削減することが可能となる。
 これにより、例えば、マルチチャンネルのオーディオ信号を再生する際の演算量の増加を抑えつつ、HE-AACv2プロファイルの構成を持つストリームを適切に復号したオーディオ信号を再生することができる。このとき、PSデータが入力されない場合から、PSデータが入力された場合でも、異音発生の無いオーディオ信号を再生することができる。
 (実施の形態2)
 本実施の形態のオーディオ再生装置は、ステレオ拡張情報を保持するバッファを備え、例えば、放送受信などの影響でステレオ拡張データの欠損があった場合に、バッファに保持されたステレオ拡張情報を用いてステレオ化を実行する。
 図8は、本実施の形態のオーディオ再生装置300の構成を示すブロック図である。同図のオーディオ再生装置300は、図1のオーディオ再生装置100と比べて、ステレオ拡張処理部108の代わりにステレオ拡張処理部308を備え、さらに、新たにバッファ310を備える点が異なる。以下では、異なる点を中心に説明し、同じ点は説明を省略する。
 ステレオ拡張処理部308は、ステレオ拡張処理部108の処理に加え、さらに、ステレオ化処理に用いたステレオ拡張情報をバッファ310に格納する。具体的には、ステレオ拡張処理部308は、第2帯域拡張処理部107によって周波数帯域が拡張された基本コーデック復号信号を、ステレオ拡張データ解析部105から伝送されるステレオ拡張情報を用いてステレオ化する。このとき用いたステレオ拡張情報をバッファ310に格納する。例えば、新たなステレオ拡張情報が得られるごとに、ステレオ拡張処理部308は、バッファ310に格納したステレオ拡張情報を最新のものに更新する。
 さらに、ステレオ拡張処理部308は、フレームのステレオ拡張情報が欠損している場合のようにステレオ拡張情報がない場合は、バッファ310からステレオ拡張情報を読み出し、読み出したステレオ拡張情報を用いて当該フレームの基本コーデック復号信号(モノラルオーディオ信号)をステレオ化する。
 バッファ310は、ステレオ拡張データ解析部105から伝送されたステレオ拡張情報を格納する。バッファ310は、最新のステレオ拡張情報を保持するだけでなく、複数のステレオ拡張情報を保持していてもよい。複数のステレオ拡張情報が保持されている場合は、ステレオ拡張処理部308は、例えば、基本コーデック拡張情報などを参照することで、処理対象の基本コーデック復号信号に類似する基本コーデック復号信号のステレオ化処理に用いたステレオ拡張情報を利用する。
 以上の構成に示すように、本実施の形態のオーディオ再生装置300は、ステレオ拡張情報を保持するバッファ310を備え、ステレオ拡張情報がない場合に、バッファ310に保持されたステレオ拡張情報を用いて基本コーデック復号信号をステレオ化する。
 続いて、本実施の形態のオーディオ再生装置300の動作のうち、ステレオ拡張処理部308の動作について説明する。なお、オーディオ再生装置300は、図2及び図3に示すフローチャートに沿って入力されるストリームを復号する。本実施の形態のステレオ拡張処理部308は、第2帯域拡張処理部107が帯域拡張を行うとき(S107)に実行される。
 図9は、本実施の形態のステレオ拡張処理部308の動作を示すフローチャートである。
 まず、ステレオ拡張処理部308は、ストリームにステレオ拡張データが付加されているか否か、すなわち、ステレオ拡張情報がステレオ拡張データ解析部105から伝送されているか否かを判定する(S301)。ステレオ拡張情報が伝送されている場合(S301でYes)、当該ステレオ拡張情報を用いてステレオ拡張処理を行う(S302)。さらに、ステレオ拡張処理部308は、このとき使用したステレオ拡張情報を保存する(S303)。
 ステレオ拡張情報が伝送されていない場合(S301でNo)、以前のフレームを復号する際にステレオ拡張処理を行っているか否かを判定する(S304)。ステレオ拡張処理を行っている場合(S304でYes)、以前のフレームを復号する際に保存されているステレオ拡張情報を使用してステレオ拡張処理を行う(S305)。ステレオ拡張処理を行っていない場合(S304でNo)、何もせずに終了する。
 以上のように、本実施の形態のステレオ拡張処理部308は、以前のフレームを復号する際に用いたステレオ拡張情報をバッファ310に保存し、以降のフレームでステレオ拡張データの欠損があった場合、バッファ310に保存されたステレオ拡張情報を用いて基本コーデック復号信号をステレオ化する。
 以下では、図6に示すストリームが入力された場合の本実施の形態のオーディオ再生装置300の動作について説明する。
 本実施の形態によれば、図6に示すように途中でステレオ拡張データが欠損するようなストリームが入力された場合、全てのフレーム201~203はCH=1かつFS≦24kHzであるので、切替部109は伝送経路を端子Bに接続し、基本コーデック復号信号と帯域拡張情報とは第2帯域拡張処理部107に伝送される。これにより、全てのフレーム201~203に対する帯域拡張処理は、第2帯域拡張処理部107によって行われるため遅延情報の連続性は保たれる。
 ここで、図10は、ステレオ化された出力オーディオ信号の波形の一例を示す図である。従来は、ステレオ拡張データが欠損しているフレームの区間(t4とt5の間の期間)は、ステレオ拡張処理が行われず、図10(a)に示すようにRchが出力されないため、聞き手は違和感を感じる。この違和感を解消し、図10(b)に示すように、Rchを正しく出力するため、ステレオ拡張処理部308は、以下のように動作する。
 フレーム201にはステレオ拡張データが存在するので(S301でYes)、ステレオ拡張処理部308は、ステレオ拡張処理を行い(S302)、このとき用いたステレオ拡張情報を保存する(S303)。
 次に、ステレオ拡張データが欠損したフレーム202が入力される。ステレオ拡張処理部308は、フレーム202にはステレオ拡張データが欠損しており(S301でNo)、さらに、フレーム201の復号時にステレオ拡張処理を行っているため(S304でYes)、フレーム201のステレオ拡張情報を使用して、フレーム202のステレオ拡張処理を行う。
 続いて、次のステレオ拡張データが存在するフレーム203が入力される。フレーム203にはステレオ拡張データが存在するので(S301でYes)、フレーム203から抽出したステレオ拡張情報を使用して、フレーム203のステレオ拡張処理を行う(S302)。
 以上のように、本実施の形態のオーディオ再生装置300では、図10(b)に示すように、出力音の連続性を保つことができ、かつ、ステレオ拡張データが欠損したフレームでもステレオ拡張することが可能となる。
 これにより、例えば、マルチチャンネル再生の際の演算量の増加を抑えつつ、HE-AACv2プロファイルの構成を持つストリームを適切に復号したオーディオ信号を再生することができる。このとき、PSデータが入力されない場合から、PSデータが入力された場合でも、異音発生の無いオーディオ信号を再生することができる。あるいは、PSデータが入力された場合から、PSデータが欠損することによって入力されない場合でも以前に用いたPSデータを用いて、ステレオオーディオ信号として再生することができる。
 なお、図11は、本発明のオーディオ再生装置を搭載するオーディオ再生機器の一例を示す外観図である。同図には、記録メディア401と、オーディオ再生機器402と、イヤホン403とを示す。
 記録メディア401は、圧縮オーディオストリームを記録できる記録メディアである。図11では、SDカードのような機器から取り出せるメディアとして記載しているが、光ディスクや、機器に内蔵されたHDD等で実現してもよい。
 オーディオ再生機器402は、圧縮オーディオ再生機器であり、機器内部の構成要素は実施の形態1及び2に記載したオーディオ再生装置100及び300のうち、少なくとも1つを含むように構成される。
 イヤホン403は、オーディオ再生機器402から出力される出力オーディオ信号を外部に出力するスピーカー装置である。図11では、ユーザの耳に取り付けるイヤホンを図示しているが、ユーザの頭に取り付けるヘッドフォンでもよく、又は、卓上式のスピーカー装置でもよい。
 このようにオーディオ再生機器402を構成することで、ステレオ拡張データが途中で欠損するストリームについても異音を発声させずに出力オーディオ信号を得ることができる。
 以上、本発明のオーディオ再生装置及びオーディオ再生方法について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を当該実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 例えば、切替部109は、判定条件をチャンネル数が1でありかつサンプリング周波数が24kHz以下としているが、これに限らず、例えば、チャンネル数が2以下の場合のみ第2帯域拡張処理部107を使用する(端子Bに接続する)としてもよい。この場合、基本コーデックのチャンネル数が1又は2のストリームが入力されれば、音質が良いが処理量の多い第2帯域拡張処理部107を使用して帯域拡張を行う。
 これに対して、3チャンネル以上のストリームが入力された場合には、全体の処理量削減のために音質の劣化はあるが、処理量の少ない第1帯域拡張処理部106を使用して帯域拡張を行うことが可能となる。このように、プロセッサ能力、及び、メモリリソースが許す限りマルチチャンネルに対しても高音質な出力を得られる構成にすることが可能である。
 なお、本発明は、上述したように、オーディオ再生装置及びオーディオ再生方法として実現できるだけではなく、本実施の形態のオーディオ再生方法をコンピュータに実行させるためのプログラムとして実現してもよい。また、当該プログラムを記録するコンピュータ読み取り可能なCD-ROMなどの記録媒体として実現してもよい。さらに、当該プログラムを示す情報、データ又は信号として実現してもよい。そして、これらプログラム、情報、データ及び信号は、インターネットなどの通信ネットワークを介して配信されてもよい。
 また、本発明は、オーディオ再生装置を構成する構成要素の一部又は全部を、1個のシステムLSIから構成してもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM及びRAMなどを含んで構成されるコンピュータシステムである。
 本発明は、処理量が著しく増加することを防ぎ、かつ、異音の発生を防ぐという効果を奏し、オーディオ再生装置などに利用できる。例えば、携帯型音楽プレーヤーなどのプロセッサ性能及びメモリリソースが限られているオーディオ再生機器などに利用することができる。
100、300 オーディオ再生装置
101 ストリーム分離部
102 基本コーデック解析部
103 基本コーデック復号部
104 帯域拡張データ解析部
105 ステレオ拡張データ解析部
106 第1帯域拡張処理部
107 第2帯域拡張処理部
108、308 ステレオ拡張処理部
109 切替部
201、202、203 フレーム
310 バッファ
401 記録メディア
402 オーディオ再生機器
403 イヤホン

Claims (10)

  1.  符号化されたオーディオ信号である基本コーデックを含むストリームを再生するオーディオ再生装置であって、
     前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報とに分離するストリーム分離部と、
     前記ストリーム分離部によって分離された基本コーデックを解析することで、基本コーデックの性質を示す解析情報を生成する基本コーデック情報解析部と、
     前記基本コーデック情報解析部によって生成された解析情報に従って前記基本コーデックを復号することで、基本コーデック復号信号を生成する基本コーデック復号部と、
     前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて拡張する第1処理を実行する第1帯域拡張処理部と、
     前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて前記第1処理より高い精度で拡張する第2処理を実行する第2帯域拡張処理部と、
     前記解析情報に基づいて、前記第1帯域拡張処理部と前記第2帯域拡張処理部とを切り替える切替部とを備える
     オーディオ再生装置。
  2.  前記ストリーム分離部は、前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報と、当該基本コーデックをステレオ化するために用いられるステレオ拡張情報とに分離し、
     前記オーディオ再生装置は、さらに、
     前記第2帯域拡張処理部によって周波数帯域が拡張された基本コーデック復号信号を、前記ステレオ拡張情報を用いてステレオ化するステレオ拡張処理部を備える
     請求項1記載のオーディオ再生装置。
  3.  前記基本コーデック情報解析部は、前記ストリーム分離部によって分離された基本コーデックを解析することで、当該基本コーデックのチャンネル数を示すチャンネル情報と、当該基本コーデックのサンプリング周波数を示すサンプリング周波数情報との少なくとも1つを含む解析情報を生成し、
     前記切替部は、前記チャンネル情報が示すチャンネル数が予め定められた第1閾値より大きいか否かと、前記サンプリング周波数情報が示すサンプリング周波数が予め定められた第2閾値より大きいか否かとの少なくとも一方を判定し、少なくとも一方が大きいと判定した場合、第1帯域拡張処理部を選択する
     請求項2記載のオーディオ再生装置。
  4.  前記オーディオ再生装置は、さらに、
     第1フレームのステレオ拡張情報を保持するバッファを備え、
     前記ステレオ拡張処理部は、前記第1フレームより後のフレームであり、かつ、前記ステレオ拡張情報が欠損している第2フレームの基本コーデック復号信号を、前記バッファに保持されたステレオ拡張情報を用いてステレオ化する
     請求項2又は3記載のオーディオ再生装置。
  5.  前記第2帯域拡張処理部は、前記基本コーデック復号信号から前記帯域拡張情報を用いて高周波成分信号を生成し、
     前記ステレオ拡張処理部は、前記ステレオ拡張情報を用いて、前記基本コーデック復号信号と、前記第2帯域拡張処理部によって生成された高周波成分信号とをそれぞれステレオ化することで、第1チャンネルの基本コーデック復号信号及び高周波成分信号と、第2チャンネルの基本コーデック復号信号及び高周波成分信号とを生成し、
     前記第2帯域拡張処理部は、さらに、生成した高周波成分信号と前記基本コーデック復号信号とを合成する帯域合成フィルタを備え、前記ステレオ拡張情報が欠損している場合、前記第1チャンネルの帯域合成フィルタに保持される遅延情報を、前記第2チャンネルの帯域合成フィルタに保持される遅延情報として用いて第2チャンネルの帯域合成を行う
     請求項2又は3記載のオーディオ再生装置。
  6.  前記基本コーデックは、AAC(Advanced Audio Coding)方式に基づいて符号化されたオーディオ信号であり、
     前記帯域拡張情報は、SBR(Spectral Band Replication)方式に基づいて生成されたSBR情報であり、
     前記ステレオ拡張情報は、PS(Parametric Stereo)方式に基づいて生成されたPS情報であり、
     前記第1帯域拡張処理部は、LP-SBR(Low Power-SBR)方式に基づいて、前記基本コーデック復号信号の周波数帯域を拡張し、
     前記第2帯域拡張処理部は、HQ-SBR(High Quarity-SBR)方式に基づいて、前記基本コーデック復号信号の周波数帯域を拡張する
     請求項2~5のいずれか1項に記載のオーディオ再生装置。
  7.  請求項1~6のいずれか1項に記載のオーディオ再生装置を備える
     オーディオ再生機器。
  8.  符号化されたオーディオ信号である基本コーデックを含むストリームを再生するオーディオ再生方法であって、
     前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報とに分離するストリーム分離ステップと、
     前記ストリーム分離ステップで分離された基本コーデックを解析することで、基本コーデックの性質を示す解析情報を生成する基本コーデック情報解析ステップと、
     前記基本コーデック情報解析ステップで生成された解析情報に従って前記基本コーデックを復号することで、基本コーデック復号信号を生成する基本コーデック復号ステップと、
     前記解析情報に基づいて、第1処理と、当該第1処理より高い精度で実行する第2処理とを切り替える切替ステップと、
     前記切替ステップで前記第1処理が選択された場合に、前記基本コーデック復号ステップで生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて拡張する第1処理を実行する第1帯域拡張処理ステップと、
     前記切替ステップで前記第2処理が選択された場合に、前記基本コーデック復号ステップで生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて前記第1処理より高い精度で拡張する第2処理を実行する第2帯域拡張処理ステップとを含む
     オーディオ再生方法。
  9.  符号化されたオーディオ信号である基本コーデックを含むストリームを再生する集積回路であって、
     前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報とに分離するストリーム分離部と、
     前記ストリーム分離部によって分離された基本コーデックを解析することで、基本コーデックの性質を示す解析情報を生成する基本コーデック情報解析部と、
     前記基本コーデック情報解析部によって生成された解析情報に従って前記基本コーデックを復号することで、基本コーデック復号信号を生成する基本コーデック復号部と、
     前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて拡張する第1処理を実行する第1帯域拡張処理部と、
     前記基本コーデック復号部によって生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて前記第1処理より高い精度で拡張する第2処理を実行する第2帯域拡張処理部と、
     前記解析情報に基づいて、前記第1帯域拡張処理部と前記第2帯域拡張処理部とを切り替える切替部とを備える
     集積回路。
  10.  符号化されたオーディオ信号である基本コーデックを含むストリームを再生するオーディオ再生方法をコンピュータに実行させるプログラムであって、
     前記ストリームをフレーム単位で、前記基本コーデックと、当該基本コーデックの帯域を拡張するために用いられる帯域拡張情報とに分離するストリーム分離ステップと、
     前記ストリーム分離ステップで分離された基本コーデックを解析することで、基本コーデックの性質を示す解析情報を生成する基本コーデック情報解析ステップと、
     前記基本コーデック情報解析ステップで生成された解析情報に従って前記基本コーデックを復号することで、基本コーデック復号信号を生成する基本コーデック復号ステップと、
     前記解析情報に基づいて、第1処理と、当該第1処理より高い精度で実行する第2処理とを切り替える切替ステップと、
     前記切替ステップで前記第1処理が選択された場合に、前記基本コーデック復号ステップで生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて拡張する第1処理を実行する第1帯域拡張処理ステップと、
     前記切替ステップで前記第2処理が選択された場合に、前記基本コーデック復号ステップで生成された基本コーデック復号信号の周波数帯域を、前記帯域拡張情報を用いて前記第1処理より高い精度で拡張する第2処理を実行する第2帯域拡張処理ステップとを含む
     プログラム。
     
PCT/JP2009/005311 2008-11-21 2009-10-13 オーディオ再生装置及びオーディオ再生方法 WO2010058518A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BRPI0921067-9A BRPI0921067B1 (pt) 2008-11-21 2009-10-13 Dispositivo de reprodução de áudio, aparelho de reprodução de áudio, método de reprodução de áudio, circuito integrado e meio legível por computador
EP09827300.6A EP2360684B1 (en) 2008-11-21 2009-10-13 Audio reproducing device and audio reproducing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-298809 2008-11-21
JP2008298809A JP5629429B2 (ja) 2008-11-21 2008-11-21 オーディオ再生装置及びオーディオ再生方法

Publications (1)

Publication Number Publication Date
WO2010058518A1 true WO2010058518A1 (ja) 2010-05-27

Family

ID=42197962

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/005311 WO2010058518A1 (ja) 2008-11-21 2009-10-13 オーディオ再生装置及びオーディオ再生方法

Country Status (4)

Country Link
EP (2) EP2610867B1 (ja)
JP (1) JP5629429B2 (ja)
BR (1) BRPI0921067B1 (ja)
WO (1) WO2010058518A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657979B2 (en) 2013-01-29 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
WO2022097244A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097241A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097243A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
US11962997B2 (en) 2011-07-01 2024-04-16 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5692255B2 (ja) * 2010-12-03 2015-04-01 ヤマハ株式会社 コンテンツ再生装置およびコンテンツ処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003140696A (ja) * 2001-08-23 2003-05-16 Matsushita Electric Ind Co Ltd 音声処理装置
JP2003256000A (ja) * 2001-12-25 2003-09-10 Matsushita Electric Ind Co Ltd 電話装置
JP2005114813A (ja) * 2003-10-03 2005-04-28 Matsushita Electric Ind Co Ltd オーディオ信号再生装置及び再生方法
JP2006065002A (ja) * 2004-08-26 2006-03-09 Kenwood Corp コンテンツ再生装置及び方法
JP2007538281A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 異なる符号化モデルを用いる音声符号化

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
JP4567412B2 (ja) * 2004-10-25 2010-10-20 アルパイン株式会社 音声再生機および音声再生方法
KR100851972B1 (ko) * 2005-10-12 2008-08-12 삼성전자주식회사 오디오 데이터 및 확장 데이터 부호화/복호화 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003140696A (ja) * 2001-08-23 2003-05-16 Matsushita Electric Ind Co Ltd 音声処理装置
JP2003256000A (ja) * 2001-12-25 2003-09-10 Matsushita Electric Ind Co Ltd 電話装置
JP2005114813A (ja) * 2003-10-03 2005-04-28 Matsushita Electric Ind Co Ltd オーディオ信号再生装置及び再生方法
JP2007538281A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 異なる符号化モデルを用いる音声符号化
JP2006065002A (ja) * 2004-08-26 2006-03-09 Kenwood Corp コンテンツ再生装置及び方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MITSUTOSHI HATORI: "One segment broadcasting textbook", 15 June 2005, IMPRESS
See also references of EP2360684A4
TOSHIYUKI NOMURA: "Latest trends and applications of MPEG audio", April 2008, UNIVERSITY OF THE RYUKYUS COMPUTING AND NETWORKING CENTER PUBLICATION

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11962997B2 (en) 2011-07-01 2024-04-16 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
US10657979B2 (en) 2013-01-29 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
WO2022097244A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097241A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097243A1 (ja) * 2020-11-05 2022-05-12 日本電信電話株式会社 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体

Also Published As

Publication number Publication date
BRPI0921067A2 (pt) 2015-12-15
BRPI0921067B1 (pt) 2020-02-18
EP2610867A1 (en) 2013-07-03
EP2610867B1 (en) 2015-03-11
EP2360684A4 (en) 2012-09-12
JP2010122640A (ja) 2010-06-03
EP2360684B1 (en) 2013-05-29
JP5629429B2 (ja) 2014-11-19
EP2360684A1 (en) 2011-08-24

Similar Documents

Publication Publication Date Title
JP4939933B2 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
JP4418493B2 (ja) パラメトリックマルチチャネル符号化システムにおけるチャネルの周波数ベースの符号化
KR100908081B1 (ko) 인코딩 및 디코딩된 다채널 신호를 생성하는 장치 및 방법
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
JP4685925B2 (ja) 適応残差オーディオ符号化
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
JP6155274B2 (ja) 過剰サンプリングされたsbrを使ったアップサンプリング
JP5629429B2 (ja) オーディオ再生装置及びオーディオ再生方法
JP5173811B2 (ja) オーディオ信号デコーディング方法及びその装置
KR20120082738A (ko) 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
KR100763919B1 (ko) 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
KR100763920B1 (ko) 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
KR100917845B1 (ko) 상호상관을 이용한 다채널 오디오 신호 복호화 장치 및 그방법
JP2009506706A (ja) オーディオ信号デコーディング方法及びその装置
KR20130007439A (ko) 신호 처리 장치, 신호 처리 방법 및 프로그램
JP4809234B2 (ja) オーディオ符号化装置、復号化装置、方法、及びプログラム
KR20050115800A (ko) 확장된 고해상도 오디오 신호 부호화 및 복호화 장치
JP2006337767A (ja) 低演算量パラメトリックマルチチャンネル復号装置および方法
JP5943982B2 (ja) オーディオ再生装置及びオーディオ再生方法
KR101464977B1 (ko) 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
JP2010114803A (ja) 音声処理装置
WO2021139757A1 (zh) 一种音频编解码方法和音频编解码设备
JP2008028574A (ja) オーディオ処理装置、オーディオ処理方法、プログラム、および集積回路
KR20080030848A (ko) 오디오 신호 인코딩 및 디코딩 방법 및 장치
EP2357645A1 (en) Music detecting apparatus and music detecting method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09827300

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009827300

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0921067

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110520