WO2011039919A1 - オーディオデコーダ、オーディオエンコーダ、システム - Google Patents

オーディオデコーダ、オーディオエンコーダ、システム Download PDF

Info

Publication number
WO2011039919A1
WO2011039919A1 PCT/JP2010/004728 JP2010004728W WO2011039919A1 WO 2011039919 A1 WO2011039919 A1 WO 2011039919A1 JP 2010004728 W JP2010004728 W JP 2010004728W WO 2011039919 A1 WO2011039919 A1 WO 2011039919A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
encoder
audio
decoder
encoded
Prior art date
Application number
PCT/JP2010/004728
Other languages
English (en)
French (fr)
Inventor
宮阪修二
西尾孝祐
則松武志
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201080043418.0A priority Critical patent/CN102576534B/zh
Publication of WO2011039919A1 publication Critical patent/WO2011039919A1/ja
Priority to US13/433,063 priority patent/US8688442B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Definitions

  • the present invention relates to an audio encoder and an audio decoder that can obtain high sound quality at a low bit rate.
  • the present invention relates to an audio encoder and an audio decoder that can obtain good sound quality regardless of whether the input signal is a voice signal (human voice) or a non-voice signal (musical sound, natural sound, etc.).
  • a voice signal human voice
  • a non-voice signal musical sound, natural sound, etc.
  • the encoding method used for calls on mobile phones is a so-called CELP (Code-Excited Linear Prediction) codec.
  • the encoding method used decomposes an input signal into a linear prediction coefficient and an excitation signal (a signal that is input to a linear prediction filter using the linear prediction coefficient), and encodes each decomposed data. It is a method to do.
  • an AMR (adaptive multi-rate) method see Non-Patent Document 1) or the like is applicable.
  • the acoustic characteristics of the vocal tract are modeled by a linear prediction coefficient, and the vocal cord vibration is modeled by an excitation signal. For this reason, the speech signal can be efficiently encoded, but a natural sound signal (audio signal) other than the speech signal cannot be efficiently encoded because it does not apply to the model.
  • the encoding method used in digital TV (Television), DVD (Digital Versatile Disc) players, and Blu-ray Disc players is, for example, the AAC (Advanced Audio Coding) method (see Non-Patent Document 2).
  • This method is a method of encoding the frequency spectrum itself of the input signal. For this reason, in this method, good sound quality can be obtained even with natural sound (audio signal) other than the speech signal, but the compression rate as high as the CELP codec cannot be obtained for the speech signal.
  • FIG. 11 is a diagram qualitatively expressing the above.
  • the horizontal axis of the graph in FIG. 11 indicates the bit rate of encoding, and the vertical axis indicates the sound quality.
  • a solid curve (data 73) indicates the relationship between the bit rate and the sound quality in an audio codec (when an audio system is used) such as AAC.
  • the alternate long and short dash line curve (data 74S) shows the relationship between the bit rate and the sound quality when the speech signal is processed by a speech codec such as AMR (when the speech method is used).
  • the curve (data 74A) shows the relationship between the bit rate and sound quality when a signal other than a speech signal is processed by the speech codec.
  • each unit may be understood as, for example, arbitraryarunit (arbitrary unit).
  • the unit of the vertical axis may be a value evaluated by human senses in an experiment.
  • the unit of the horizontal axis may be kbps (kilobitloper second).
  • a range 90 surrounded by a thin vertical broken line in the figure indicates a bit rate range in which an optimum encoder differs depending on an input signal. The point regarding the bit rate will be described in detail later.
  • range 90 when the input signal is a speech signal, the speech codec can achieve better sound quality depending on the type of the input signal (pre-encoding signal) (see data 74S and data 73). In the range 90, conversely, when the input signal is not a speech signal (when the input signal is an audio signal), the audio codec can achieve better sound quality (the data 73 and the data 74A). reference).
  • FIG. 9 shows a schematic encoding process block diagram.
  • a plurality of blocks shown in the block diagram of FIG. 9 includes an input signal classifier 500 that classifies whether a speech codec is appropriate or an audio codec is appropriate when an input signal (pre-encoding signal) is encoded.
  • a high-frequency signal encoder 501 that encodes a high-frequency component of the input signal, an audio signal encoder 502, a speech signal encoder 503, and a bit stream generator 504.
  • the input signal classifier 500 classifies the input signal as a signal suitable for a speech codec or a signal suitable for an audio codec. Then, in the case where each classification is performed, an encoder (audio signal encoder 502 or speech signal encoding) corresponding to the type classified as suitable among the types of speech codec and audio codec. 503).
  • the preceding high-frequency signal encoder 501 performs encoding processing of a band expansion technology (SBR (Spectral Band Replication): ISO / IEC11496-3) standardized by MPEG (Moving Picture Experts Group). This contributes to the expansion of the playback band during decoding.
  • SBR Spectrum Band Replication
  • MPEG Moving Picture Experts Group
  • FIG. 10 shows a block diagram of USAC decoding processing.
  • a plurality of blocks shown in the block diagram of FIG. 10 includes a bit stream separator 600 that separates an input bit stream into encoded signals, an audio signal decoder 601, a speech signal decoder 602, and any of the above.
  • the band expander 603 expands the reproduction band of the signal decoded by the decoder.
  • an input bit stream is separated into encoded signals by a bit stream separator 600. If the encoded signal is classified as an encoded signal of an audio signal, the audio signal decoder 601 processes the encoded signal. If the encoded signal is classified as an encoded signal of a speech signal, speech signal decoding is performed. It is processed by the device 602. As a result, a PCM (Pulse Code Modulation) signal is generated. In any of the above cases, the band expander 603 performs a process for expanding the reproduction band of the decoded signal.
  • PCM Pulse Code Modulation
  • AMR Adaptive Multi-Rate
  • the post-processing step (post-processing step) of the decoding process is performed even though the nature of the signal is analyzed during encoding and it is possible to grasp whether the signal is a speech signal or an audio signal.
  • the signal processor band expander 603 in FIG. 10
  • the signal processor is prevented from performing an optimum process. That is, since the information is not transmitted and the relatively appropriate process using the information is not performed, the process is inappropriate.
  • the present invention has been made in view of such a conventional problem, and is an audio that generates an optimal (more appropriate) decoded signal (processed signal) in accordance with the nature of an input encoded signal.
  • An object is to provide a decoder.
  • the A1 audio decoder of the present application has an appropriate encoding method for encoding the input signal having the property among a plurality of encoding methods according to the property of the input signal.
  • An audio comprising: a signal processor that processes the signal after decoding in a method suitable for the signal; and an information transmitter that transmits information identifying the corresponding decoder from the plurality of decoders to the signal processor It is a decoder.
  • the above information may be information in a known technique, for example.
  • a more appropriate method for example, the method in Japanese Patent No. 3189614. corresponding to the decoder (corresponding decoder) specified by the transmitted information by transmitting the above information. Is processed. As a result, a more appropriate signal (a higher quality second post-processing signal) can be generated as the post-processing signal after processing.
  • the information for identifying the corresponding decoder is simply used (divided), and no other information is required, so that the configuration can be simplified.
  • the audio encoder of A2 of the present application includes a plurality of encoders, a signal classifier that identifies the classification corresponding to the feature as the classification of the input signal according to the feature of the input signal, and the signal classifier Selecting a use encoder corresponding to the classification and the index from the plurality of encoders according to the classification specified by the index and the index specified for the selector.
  • An audio encoder comprising: a selector that causes the used encoder to encode the input signal.
  • the A3 sound signal processing system is a sound signal processing system according to the USAC (Unified Speech and Audio Codec) standard, which includes an A1 audio decoder and an A2 audio encoder (see FIG. 5 and the like).
  • USAC Unified Speech and Audio Codec
  • an audio encoder may be further included in addition to the audio encoder (see FIG. 5 and the like).
  • bit rate indicated by the specified index is outside the above range (see, for example, the range 90)
  • encoding is not performed in the method (speech codec method), and the sound quality is high. (Refer to the sound quality of data 74A and 73 in range 90).
  • the audio encoder is included in the sound signal processing system at a certain point in time and exists together with other parts (such as an audio decoder) in the sound signal processing system. It may not be included in the sound signal processing system because it is taken out from the processing system, and may exist only in the audio encoder independently of other parts (see (A2) above).
  • the encoded signal is a signal according to a certain encoding method (encoded signal in the speech codec), a higher quality method (for example, more accurate)
  • the decoded signal is processed (for example, band expansion).
  • the encoder corresponding to the index the encoder of the speech codec in the range 91a)
  • the encoder of the above-mentioned constant encoding method is selected, and appropriate processing with high quality can be performed more reliably.
  • the A1 audio decoder and the A2 audio decoder can be used for two components of the A3 sound signal processing system.
  • the B1 audio decoder of the present application selects an appropriate encoding method from a plurality of encoding methods according to the nature of the input signal, and decodes the bitstream encoded by the selected encoding method
  • An information transmitter for transmitting information indicating which decoder in the group is used to the signal processor, and the signal processor differs depending on the information from the information transmitter. To process the signal.
  • the decoder group includes a first decoder that decodes a bitstream obtained by encoding a frequency spectrum signal, a linear prediction coefficient, and an excitation signal.
  • a second decoder for decoding the encoded bitstream wherein the signal processor expands a reproduction band of the signals decoded by the decoder group, and the second decoding A reproduction band is expanded on the signal decoded by the detector according to the frequency envelope characteristic calculated based on the linear prediction coefficient.
  • the audio decoder of B3 of the present application is the audio decoder of B1, wherein the decoder group includes a first decoder that decodes a bitstream obtained by encoding a frequency spectrum signal, a linear prediction coefficient, and an excitation signal.
  • a second decoder for decoding the encoded bitstream wherein the signal processor performs a process for enhancing an audio signal and is decoded by the second decoder
  • a process for emphasizing the voice band is performed on the signal.
  • the audio encoder of B4 of the present application includes a plurality of encoders ranked by numbers from 1 to N (N> 1), a signal classifier that classifies an input signal according to characteristics of the input signal, and the plurality A selector for selecting which encoder to use from among the encoders of the encoder, and the selector selects which encoding according to the output of the signal classifier and a pre-specified index. Select whether to use a container.
  • the encoder of rank 1 is an encoder that encodes the frequency spectrum signal of the input signal
  • the encoder of rank N is a linear input signal. It is an encoder that divides a prediction coefficient and an excitation signal and encodes each of them.
  • the encoder of rank 1 is an encoder that encodes the frequency spectrum signal of the input signal
  • the encoder of rank N is a linear encoder for the input signal. It is an encoder that divides into prediction coefficient and excitation signal and encodes each, but the excitation signal is encoded as a time axis signal, and the encoder of rank M (1 ⁇ M ⁇ N) linearizes the input signal
  • the encoder is divided into a prediction coefficient and an excitation signal, and each of them is encoded.
  • the excitation signal is encoded as a frequency axis signal.
  • the B7 audio encoder of the present application is the B4 audio encoder, wherein the index is a bit rate of encoding, and the selector has a lower rank when the bit rate is high than when the bit rate is low. Select encoders frequently.
  • the indicator is a use
  • the selector has a lower rank when the use includes a voice call than when the use is not. Select encoders less frequently.
  • the decoded signal when the decoded signal is processed, it can be processed by an appropriate method. Further, according to the present invention, it is possible to reliably perform encoding by an appropriate encoding method. Thus, according to the present invention, appropriate processing can be surely performed.
  • the signal quality after processing can be improved with a simple configuration. And although the quality of the post-processing signal is improved, it is possible to maintain high sound quality.
  • the B1 audio decoder it is possible to obtain an optimum decode signal corresponding to the nature of the input bit stream.
  • the reproduction band when the input bit stream is a stream obtained by encoding a speech signal, the reproduction band can be expanded by an optimum method.
  • the audio decoder of B3 when the input bit stream is a stream obtained by encoding a speech signal, it is possible to perform an audio band enhancement process by an optimum method.
  • an optimum encoder can be selected according to the nature of the input signal and a predesignated index.
  • an optimum encoder can be selected and high sound quality can be obtained regardless of whether the input signal is a speech signal or an audio signal.
  • an optimum encoder can be selected and high sound quality can be obtained regardless of whether the input signal is a speech signal, an audio signal, or an intermediate signal.
  • an optimum encoder can be selected according to the bit rate, and high sound quality can be obtained.
  • an optimum encoder can be selected according to the application, and high sound quality can be obtained.
  • FIG. 1 is a diagram showing a configuration of an audio decoder according to the first embodiment.
  • FIG. 2 is a diagram showing another configuration of the audio decoder according to the first embodiment.
  • FIG. 3 is a diagram showing the configuration of the audio encoder according to the second embodiment.
  • FIG. 4 is a diagram showing another configuration of the audio encoder according to the second embodiment.
  • FIG. 5 is a diagram showing a sound signal processing system.
  • FIG. 6 is a diagram illustrating an audio encoder.
  • FIG. 7 is a configuration diagram of a communication system to which the present invention is applied.
  • FIG. 8 is an internal configuration diagram of the echo canceller.
  • FIG. 9 is a diagram showing a configuration of an audio decoder in the prior art.
  • FIG. 10 is a diagram showing a configuration of an audio encoder in the prior art.
  • FIG. 11 is a diagram illustrating a tendency of the bit rate and the sound quality in each encoding method.
  • FIG. 12 is a flowchart showing the flow of processing in the embodiment.
  • the audio decoder according to the embodiment has a plurality of signals depending on the nature of the input signal (pre-encoding signal 7P) (for example, the amount of the speech component 7M).
  • pre-encoding signal 7P for example, the amount of the speech component 7M.
  • an encoding method suitable for encoding the input signal of the property is selected (by the audio encoder 3), and is encoded by the selected encoding method (by the audio encoder 3).
  • Audio decoders for decoding the encoded signals (the encoded signal 7T and the input signal 7S (encoded signal 7C)), and the respective decoders (audio signal decoding) 102 and speech signal decoder 103) perform decoding in one of the plurality of encoding schemes, and the decoder Is a corresponding decoder (usage encoder) that performs the decoding of the coded encoding method, a plurality of decoders (usage encoders) that decode the coded signal.
  • a plurality of decoders (a plurality of decoders 102x, S4), and a decoded signal (decoded signal 7A) obtained by decoding the encoded signal by the corresponding decoder, among a plurality of methods.
  • a signal processor (band expander) for processing in a method suitable for the decoded signal decoded by the decoder specified by the information (content information, type signal, information 7I) transmitted to the signal processor 104, S6), and an information transmitter (information transmitter 101, S5) for transmitting information (information 7I) for identifying the corresponding decoder from the plurality of decoders to the signal processor.
  • Audio decoder (audio decoder 1) , 1).
  • an appropriate encoding scheme means that, for example, as will be described in detail later, the data amount and the quality of sound quality of an encoded signal encoded by the encoding scheme are relatively high.
  • the method suitable for the decoded signal decoded by the decoder is, for example, as described in detail later, the processed signal processed by the method is more suitable to a predetermined signal. It is close and accurate.
  • the process in one method is a process for emphasizing a voice band, while the process in another method is a process of outputting input data as it is or a simple sky (do nothing). May be.
  • the audio encoder of the embodiment includes a plurality of encoders (a plurality of encoders 300x, etc., S3) and input signal characteristics (for example, Depending on the amount of the speech component 7M), the classification (classification information S) corresponding to the feature is classified as the classification of the input signal by the signal classifier (signal classifier 302, S1) and the signal classifier. According to the identified classification and the index (index B) designated for the selector, the encoder and the corresponding encoder corresponding to the classification and the index are selected from the plurality of encoders.
  • An audio encoder (audio encoder 3c, audio encoder 3) including a selector (selector 303, S2) that selects the encoder) and causes the selected use encoder to encode the input signal.
  • a sound signal processing system (sound signal processing system 4: S1 to S6 in FIGS. 5 and 12) including the audio decoder and the audio encoder may be constructed.
  • the signal classifier 302 determines whether the pre-encoding signal 7P is suitable for the speech codec or the audio codec (the amount of the speech component is ( Whether or not (more than a threshold) may be specified (see step S1 in FIG. 12).
  • the encoding processing unit (a plurality of encoders 300x) that it is suitable for the speech codec ((2) in FIG. 11)
  • the encoding by the speech codec is converted into the pre-encoding signal 7P. May be.
  • the code B in the speech codec is obtained by the index B (FIG. 3) indicating the bit rate obtained (by the selector 303). If the bit rate in the high sound quality range 91a (FIG. 11) is indicated, the speech codec may be encoded (see S2 and S3).
  • the audio codec may be encoded only when the bit rate of another range (for example, range 90) is indicated by this index (see S2 and S3).
  • the encoded signal 7T (FIG. 3) after the input signal 7S (encoded signal 7C) to the audio decoder is encoded by the audio encoder. But you can.
  • the speech codec is indicated by the information 7I indicating whether the codec in which the input signal is encoded by the decoding processing unit (the plurality of decoders 102x) is the speech codec or the audio codec, the speech codec is indicated. Decoding in the codec may be performed.
  • the audio codec may be decoded (see S4).
  • information 7I described above is information generated by the bit stream separator 100 or the like, for example.
  • band expansion processing may be performed on the signal after decoding by the band expander 104.
  • the information 7I described above is transmitted (transmission line (transmission unit) 7X in FIG. 1), and the transmitted information 7I may be acquired by the band expander 104 (S5). reference).
  • the second expanded signal 7L2 which is more appropriate than the first expanded signal 7L1 (FIG. 1) generated by the first method is used, for example, by using a linear prediction coefficient.
  • This is a generated method (see Patent Document 1: Japanese Patent No. 3189614).
  • the audio encoder 3 indicates that the pre-encoding signal 7P indicates that the audio codec is suitable, the following processing is performed.
  • the speech codec is indicated to be suitable, even if the bit rate indicated by the designated index B is encoded by the speech codec, the range 91a (see data 74A and 73 in the range 91a) has high sound quality. ), The speech codec is encoded, and a more appropriate second processed signal 7L2 is generated in the audio decoder.
  • the bit rate is not within the high range 91a (see the data 74A and 73 in the range 91a) (see the data 74A and 73 in the range 90 etc.). Since the audio codec is used for encoding, high sound quality can be maintained.
  • an audio encoder 3 suitable for being combined with the audio decoder 1 may be constructed. That is, a sound signal processing system 4 including the audio encoder 3 may be constructed together with the audio decoder 1 (see FIG. 5, FIG. 12, etc.).
  • FIG. 1 is a diagram showing a configuration of the audio decoder 1a according to the first embodiment.
  • the audio decoder 1a includes a bit stream separator 100, an information transmitter 101, an audio signal decoder 102, a speech signal decoder 103, and a band expander 104.
  • the bit stream separator 100 separates the encoded signal (encoded signal 7C) included in the bit stream from the input bit stream (input signal 7S) to the audio decoder 1a.
  • the information transmitter 101 extracts a type signal (content information, audio presence / absence information) from the information from the bit stream separator 100.
  • the type signal is a signal indicating whether the encoded signal separated by the bitstream separator 100 is a signal encoded by an audio codec or a signal encoded by a speech codec.
  • the information transmitter 101 extracts this type signal and transmits the extracted type signal (information 7I) to another module (band expander 104 described later).
  • the audio signal decoder 102 decodes the encoded signal when the encoded signal separated by the bit stream separator 100 is a signal encoded by an audio codec. Note that the audio signal decoder 102 decodes the encoded signal when the encoded signal is indicated as an audio codec signal by the above-described type signal.
  • the speech signal decoder 103 decodes the encoded signal when the encoded signal separated by the bit stream separator 100 is a signal encoded by the speech codec. Speech signal decoder 103 decodes the encoded signal when the encoded signal is indicated by the speech codec by the above-described type signal.
  • the band expander 104 expands the reproduction band of the signal (decoded signal 7A) decoded by any one of the decoders.
  • the input bit stream is switched while switching a plurality of encoders (for example, the audio signal encoder 300 and the speech signal encoder 301 in FIG. 3) according to the characteristics of the input signal.
  • a bitstream generated using those encoders That is, the encoded signal included in the input bit stream is the frequency spectrum itself of the input signal, as in the AAC system, when the pre-encoded signal before the encoded signal is an audio signal. Is a signal encoded by.
  • the encoded signal includes an input signal, a linear prediction coefficient and an excitation signal (input of a linear prediction filter using the linear prediction coefficient), as in the AMR method. Signal), and each of them is encoded.
  • bit stream separator 100 separates the encoded signal from the input bit stream.
  • the information transmitter 101 extracts a type signal from the information separated by the bit stream separator 100.
  • the type signal is a signal indicating whether the encoded signal separated by the bitstream separator 100 is a signal encoded by an audio codec or a signal encoded by a speech codec. Then, the information transmitter 101 transmits the extracted type signal to the band expander 104.
  • the encoded signal separated by the bit stream separator 100 is a signal encoded by an audio codec
  • the encoded signal is decoded by the audio signal decoder 102.
  • the audio signal decoder 102 is a decoder compliant with the AAC standard, but is not necessarily limited thereto, and the MP3 system, Any decoder may be used as long as it is a decoder that encodes a frequency spectrum signal as in the AC3 system.
  • the encoded signal separated by the bit stream separator 100 is a signal encoded by the speech codec
  • the encoded signal is decoded by the speech signal decoder 103.
  • the speech codec is the AMR system
  • the speech signal decoder 103 is a decoder conforming to the AMR standard, but is not necessarily limited thereto. That is, as in the G.729 scheme, any decoder may be used as long as it is a decoder that decomposes an input signal into a linear prediction coefficient and an excitation signal and encodes them.
  • the band expander 104 expands the reproduction band of the signal (decoded signal) decoded by any one of the decoders, that is, the use decoder.
  • the use decoder is the audio signal decoder 102 when the encoded signal to be decoded is an audio codec
  • the speech signal decoder 103 when the encoded signal is a speech codec.
  • the band expander 104 changes the method of expanding the reproduction band in accordance with the information (information 7I) from the information transmitter 101.
  • the band expander 104 expands the reproduction band by using a frequency spectrum signal of a low band signal as in the SBR method already standardized by MPEG.
  • a method of copying to a high frequency and shaping the high frequency signal based on predetermined bit stream information may be used (see SBR technology: ISO / IEC 11496-3).
  • the band expander 104 expands the reproduction band by using the above-described SBR method improved as follows. That is, first, a high frequency component is generated by the same method as the SBR method. After this generation, a high-band frequency envelope characteristic is calculated based on the linear prediction coefficient included in the encoded signal. Then, the high frequency characteristic is corrected according to the calculated frequency envelope characteristic. By doing so, the frequency characteristic of the high frequency is accurately shaped to a characteristic closer to the original sound, so that good sound quality can be obtained.
  • a conventionally known method may be used as a method for calculating the high-frequency frequency envelope characteristic based on the linear prediction coefficient.
  • the method described in Patent Document 1 Japanese Patent No. 3189614 may be used.
  • the bit stream separator (bit stream separator 100) that separates the encoded signal from the input bit stream and the encoding from the information from the bit stream separator.
  • An information transmitter that extracts a signal (type signal) indicating whether the signal is an encoded signal encoded by an audio codec or an encoded signal encoded by a speech codec, and transmits the extracted signal to another module
  • the encoded signal separated by the (information transmitter 101) and the bitstream separator is a signal encoded by an audio codec
  • an audio signal decoder audio signal that decodes the encoded signal
  • the encoded signal separated by the decoder 102) and the bitstream separator
  • a speech signal decoder (speech signal decoder 103) that decodes the encoded signal and one of the decoders (utilization decoder)
  • a band expander (band expander 104) that expands the reproduction band of the decoded signal (decoded signal), the band
  • FIG. 2 is a diagram showing an audio decoder 1b (a bit stream separator 200, an audio signal decoder 202, a speech signal decoder 203, an audio band enhancer 204, and an information transmitter 201).
  • an audio decoder 1b a bit stream separator 200, an audio signal decoder 202, a speech signal decoder 203, an audio band enhancer 204, and an information transmitter 201.
  • a process of expanding the frequency band is described as a post-processing step performed by the signal processor (band expander 104) on the decoded signal (decoded signal).
  • the post-processing step (signal processor) is not necessarily limited thereto.
  • the post-processing process may be a voice band enhancement process.
  • a signal to be reproduced includes a heavy bass signal or a high frequency signal, and the frequency characteristics of the speaker to be reproduced are improved (from the heavy bass signal). It has the characteristic that it can reproduce even the high frequency signal).
  • listeners can enjoy rich acoustic signals.
  • voice human voice: speech
  • it becomes easy to hear the sound but conversely, it is not possible to enjoy a rich acoustic signal.
  • the signal (type signal) from the information transmitter 201 indicates that the speech signal is being reproduced, that is, the type signal is
  • the encoded signal indicates that the speech codec is used
  • the following processing is performed.
  • the process to be performed is a process in which the signal processor (voice band enhancer 204) emphasizes the voice signal band.
  • the signal processor voice band enhancer 204 emphasizes the voice signal band.
  • FIG. 2 shows a configuration in such a case. The difference between FIG. 1 and FIG. 2 is that the band expander 104 replaces the voice band enhancer 204.
  • the post-processing step of the decoded signal may be an echo canceller process.
  • FIG. 7 is a diagram showing a configuration when the post-processing step of the decoded signal is an echo canceller.
  • the input bit stream consists of a sound encoded signal (signal 801a) and sound presence / absence information (information 801b) indicating whether or not sound is included in the encoded signal.
  • the sound presence / absence information is a stream in which the bit stream (bit stream 801c, encoded signal) of the frame is encoded by an audio codec or a stream encoded by a speech codec, as in the example described above. It may be information indicating that. Further, the voice presence / absence information may be information indicating a ratio of how much voice is included in the frame. Moreover, the information etc. which show the intensity
  • FIG. 7 shows a communication system including a voice presence / absence information separator 800, a decoder 801, a speaker 802, a microphone 803, an echo canceller 804, a voice presence / absence determiner 805, and an encoder 806.
  • the voice presence / absence information separator 800 extracts voice presence / absence information from the input bit stream.
  • the decoder 801 decodes the input bit stream.
  • the decoder 801 may be a decoder that decodes an input bit stream using the audio presence / absence information, or may be a decoder that decodes an input bit stream without using the audio presence / absence information. .
  • Speaker 802 converts the output signal of the decoder into an audible signal.
  • the microphone 803 collects sound in an acoustic space using the speaker 802 as a sound source.
  • the echo canceller 804 inputs the decoded signal decoded by the decoder 801, the signal collected by the microphone 803, and the sound presence / absence information to the echo canceller 804, and the signal collected by the microphone 803 Then, the echo component of the decoded signal is removed.
  • the sound presence / absence determiner 805 determines whether or not a sound component is included in the output signal of the echo canceller 804.
  • Encoder 806 encodes the output signal of echo canceller 804.
  • the echo canceller 804 generates a pseudo echo signal inside the signal processing device by identifying the transfer function of the space where the echo is generated. Then, the echo canceller 804 removes the echo by subtracting the generated pseudo echo signal from the collected signal (signal including the echo) (for example, the IEICE Transactions A Vol, J79). -A No.6 pp.1138-1146 June 1996 “Subband ES algorithm reflecting the fluctuation characteristics of acoustic echo paths in the frequency band” (see non-patent literature).
  • identification of the transfer function of space is possible when the sound source of the sound collected by the microphone 803 is caused only by the sound generated from the speaker 802. That is, when the sound collected by the microphone 803 includes sound other than the sound from the speaker 802 (in the case of double talk), it is difficult to identify the transfer function of the space. Therefore, in such a case, that is, when other sounds are included in the collected sound, control is performed so as to stop learning for identification. Therefore, in the configuration as shown in FIG. 7, the voice presence / absence information separated by the voice presence / absence information separator 800 is transferred to the echo canceller 804. For this reason, the echo canceller 804 can easily determine the presence or absence of an audio component in the decoded sound. This facilitates detection of the double talk state.
  • FIG. 8 is a diagram showing an echo canceller 900.
  • the echo canceller 804 receives the input signal as in the echo canceller 900 (band divider 901, band divider 902, band-by-band processing unit 903, band combiner 904) shown in FIG.
  • a method of dividing a subband and identifying a transfer function in space for each corresponding subband may be used.
  • a spatial transfer function may be identified with a filter having a different tap length.
  • the control may be performed so that the tap length is changed and the transfer function of the voice band is identified depending on whether or not the voice is included according to the voice presence / absence information. Good.
  • the transfer function may be identified by each band processing unit 903 in FIG.
  • each band processing unit 903 may perform an echo removal filter process.
  • the low-frequency signal may be subjected to echo removal by a filter having a Tap length longer than the Tap length in the high-frequency signal whose frequency is higher than that of the low-frequency signal.
  • the signal in the audio band is Thus, the echo may be removed with a filter having a relatively long Tap length.
  • audio decoder 1a audio decoder 1
  • audio decoder 1a audio decoder 1
  • FIG. 5 is a diagram showing the sound signal processing system 4.
  • the sound signal processing system 4 includes an audio encoder 3 and an audio decoder 1.
  • the audio decoder 1 is an audio decoder 1a.
  • the audio decoder 1 may be the audio decoder 1b or another decoder.
  • Each of the audio decoder 1a and the audio decoder 1b may have a form that is a part of the sound signal processing system 4 as described above, or may have another form.
  • the bit stream separator 100 acquires the encoded signal included in the bit stream from the bit stream input to the audio decoder 1.
  • the obtained encoded signal is a signal obtained by encoding the pre-encoding signal (pre-encoding signal (input signal) input to the audio encoder 3) by the audio encoder 3.
  • the encoded signal is any type of encoded signal among a plurality (N) types of encoded signals.
  • Each type of encoded signal is generated by any one of a plurality of (N) types of encoders (for example, a plurality of encoders 300x in FIG. 3 to be described later). It is the encoded signal encoded by the encoding method by the encoder.
  • Each type of encoded signal has an amount of speech component corresponding to that type.
  • Each type of encoded signal is encoded into a type of encoded signal among a plurality of types of encoded signals when a pre-encoded signal having a corresponding amount of speech component is encoded. It is the most appropriate encoded signal.
  • the linear prediction coefficient and the excitation signal of the pre-encoding signal before the encoded signal is encoded are encoded (represents a linear prediction coefficient or the like).
  • a specific encoded signal that is an encoded signal is included.
  • a pre-encoding signal is calculated by calculating a predetermined calculation formula corresponding to a model of the acoustic characteristics of the human vocal tract for the linear prediction coefficient and the like. It is data.
  • the plurality of decoders 102x include a plurality of (N) decoders (such as the audio signal decoder 102) that decode the respective types of encoded signals.
  • the plurality of decoders 102x decode the encoded signal acquired by the bitstream separator 100 by a decoder (utilization decoder) corresponding to the type of the encoded signal.
  • the audio decoder 1 is a USAC standard audio decoder, which is the latest standard that is currently being standardized.
  • the audio decoder 1 includes a band expander 104.
  • the band expander 104 corrects the high frequency part of the decoded signal decoded by the use decoder (described above) to be close to the high frequency part of the pre-encoded signal (original sound) of the decoded signal. , For the high frequency part of the decoded signal. Accordingly, the band expander 104 expands the reproduction band of the decoded signal.
  • the band expander 104 specifies one of the first method and the second method when expanding the reproduction band as described above, and by the specified method, Magnify.
  • the band expander 104 performs a modification for copying a frequency spectrum corresponding to the frequency spectrum of the low-frequency signal in the decoded signal to the high frequency of the decoded signal.
  • the band is expanded by performing on the part.
  • the band expander 104 performs post-decoding from the encoded signal, the linear prediction coefficient decoded by the speech signal decoder 103 and the like, and the excitation signal by the method of Japanese Patent No. 3189614. Calculate the envelope characteristics of the signal. Then, the band expander 104 performs correction on the high frequency part of the signal after decoding, which is specified by the calculated envelope characteristic and is higher in accuracy than the correction by the first method described above. Then expand the band.
  • high accuracy means that, for example, the expanded signal after expansion is closer to the pre-encoding signal that is the basis of the expanded decoded signal.
  • the processed signal may be processed closer to the signal before decoding.
  • the information transmitter 101 indicates whether, for example, the encoded signal to be decoded from the bit stream separator 100 (selection information acquisition unit) is a specific encoded signal obtained by encoding the linear prediction coefficient and the excitation signal. Acquire content information.
  • the content information is, for example, a part or all of the above-described type signal (information 7I) indicating the type of the encoded signal.
  • the information transmitter 101 transmits the acquired content information to the band expander 104.
  • the encoded signal is not the specific encoded signal
  • the information transmitter 101 acquires the first content information indicating that and transmits the acquired first content information to the band expander 104. This causes the band expander 104 to perform band expansion in the first method.
  • the encoded signal is a specific encoded signal
  • the information transmitter 101 obtains the second content information indicating that, and transmits the second inclusion information, thereby expanding the band in the second method. Let the enlarger 104 perform the operation.
  • the plurality of encoding methods have a case where the amount of the speech component included in the input signal is the first amount ((( The first method suitable for the case of 1) and the second method suitable for the case where the second amount is larger than the first amount (in the case of (2) in FIG. 11).
  • the encoded signal encoded by the method is a signal in which a linear prediction coefficient and an excitation signal are encoded, and the linear prediction coefficient and the excitation signal are the human vocal tract with respect to the linear prediction coefficient and the excitation signal.
  • the calculation formula corresponding to the acoustic characteristic model is calculated by the audio decoder 1 or the like, whereby the input signal is the data to be calculated.
  • the audio decoder has a USAC (Unifie An audio decoder in the standard of Speech and Audio Codec), wherein the linear prediction coefficient specifies an envelope characteristic of the input signal, and the signal processor uses the information transmitted to the signal processor to When a decoder (audio signal decoder 102) corresponding to a method other than the above method (specific encoded signal method) is specified, the decoded signal is determined from the decoded signal. Is processed into a first processed signal close to the input signal, and when the decoder (speech signal decoder 103) corresponding to the second scheme is specified by the information, the first By having an envelope characteristic closer to the envelope characteristic specified by the linear prediction coefficient than the envelope characteristic of one processed signal, the input signal is more than the first processed signal. Nearby, to the second post-processing signals, for processing the input signal.
  • USAC Unifie An audio decoder in the standard of Speech and Audio Codec
  • the signal processor processes the decoded signal into a processed signal different from the decoded signal (enhancement of sound) in the processing of the second method.
  • the post-processing signal in the processing of the first method may be the same as the post-decoding signal (may be a signal that is not subjected to speech enhancement).
  • FIG. 11 was also mentioned in the explanation of the background art. However, this reference is merely for convenience of explanation. That is, the items shown in FIG. 11 are items that have not been noticed before the present invention is made, and are items that have been noticed for the first time when the present invention is made. FIG. 11 explains the problems in the conventional example, which were first noticed when the present invention was implemented.
  • the present invention has been made in view of the problems in the conventional example as shown in FIG. 11, and provides an audio encoder capable of encoding an input signal with an optimum encoding method.
  • the present invention aims to be able to perform processing by an appropriate method when the decoded signal is processed (see the audio decoder 1a and the like). Another object of the present invention is to ensure that encoding can be performed with an appropriate encoding method. In addition, this invention makes it the other objective to acquire the various effect derived from these effects by extension.
  • FIG. 3 is a diagram showing a configuration of the audio encoder 3c according to the second embodiment.
  • the audio encoder 3 c includes an audio signal encoder 300, a speech signal encoder 301, a signal classifier 302, a selector 303, and a bit stream generator 304.
  • the audio signal encoder 300 encodes the frequency spectrum signal of the input signal (pre-encoding signal 7P).
  • Speech signal encoder 301 divides the input signal into linear prediction coefficients and excitation signals, and encodes each of the divided linear prediction coefficients and excitation signals.
  • the signal classifier 302 classifies the input signal according to the characteristics of the input signal. Specifically, the signal classifier 302 may specify a classification (classification information S) indicating the amount of the speech component (component 7M) included in the input signal as the classification of the input signal.
  • a classification classification information S
  • component 7M the amount of the speech component
  • the selector 303 selects which encoder is to be used by the audio encoder 3c from among the plurality of encoders 300x. That is, the selector 303 selects a selected encoder from among the plurality of encoders 300x, and uses the selected selected encoder as a use encoder used for encoding the signal before encoding.
  • the bit stream generator 304 packs each encoded signal (encoded signal 7Q) encoded by the use encoder and packs each encoded signal (bit signal 7T after encoding). ) Is generated.
  • the generated bit stream may be, for example, the bit stream of the input signal 7S (FIG. 1) described above (see FIG. 5).
  • the audio signal encoder 300 is assumed to be a rank 1 encoder.
  • the encoding method is, for example, the AAC method, but is not limited thereto, and may be any method as long as it is a method for encoding the frequency spectrum signal of the input signal.
  • speech signal encoder 301 is a rank-2 encoder.
  • the encoding method is, for example, the AMR method, but is not limited thereto. Any method can be used as long as the input signal is divided into a linear prediction coefficient and an excitation signal, and each is encoded. Good.
  • the signal classifier 302 classifies the input signal according to the characteristics of the input signal. Specifically, the signal classifier 302 classifies whether the input signal is a speech signal or a signal that is not a speech signal. Of course, in the case of a speech signal including a background sound, the signal classifier 302 determines how much a component of the speech signal is included, and the degree (amount) determined to be included is a threshold value. Depending on whether or not it is, it may be classified whether it is closer to a speech signal or not.
  • the signal classifier 302 specifies the variable S (classification information S) as 10 and conversely does not include the speech signal at all. In such a case, the variable S (classification information S) is specified as 0. Further, in the intermediate case, the signal classifier 302 sets a value from 0 to 10 to the variable S in accordance with the degree of including the speech signal.
  • the selector 303 determines which encoder to use from the plurality of encoders according to the value S set in the signal classifier 302 and the separately input index B (utilization code). Select the generator).
  • the index B is an encoding bit rate.
  • the selector 303 selects an encoder with a lower rank (rank 1 in this embodiment). ), That is, the audio signal encoder 300). Then, when the value of S is large (when the degree of the speech signal included in the input signal is large), the selector 303 selects an encoder with a large rank (in the present embodiment, For example, the encoder of rank 2 is selected, that is, the speech signal encoder 301).
  • the selector 303 selects an encoder so that more young encoders are used. That is, for example, when the bit rate is equal to or higher than a predetermined bit rate, the selector 303 selects an encoder having a rank lower than a predetermined rank when the bit rate is equal to or lower than the bit rate.
  • the encoder is used at a frequency (ratio) higher than the frequency (ratio) used.
  • the selection process is as follows.
  • the selector 303 selects to use the audio signal encoder 300 when S is 5 or less, and to use the speech signal encoder 301 when S is greater than 5. .
  • the selector 303 uses the audio signal encoder 300 when S is 7 or less, and uses the speech signal encoder 301 when S is greater than 7, for example, Select the generator.
  • the selector 303 selects so as not to use the speech signal encoder 301 regardless of the value of S. This is because the tendency of the sound quality by each encoder is as shown in FIG.
  • the horizontal axis indicates the bit rate of encoding, and the vertical axis indicates the sound quality.
  • the solid curve shows the relationship between bit rate and sound quality in an audio codec such as AAC.
  • the dashed-dotted curve shows the relationship between bit rate and sound quality when speech signal processing is performed with a speech codec such as AMR. That is, the dashed curve (data 74A) in FIG. 11 shows the relationship between bit rate and sound quality when a signal other than a speech signal is processed by the speech codec.
  • a predetermined value for example, the value at the lower end of the range 91b
  • the audio codec (data 73) can encode a signal with higher sound quality.
  • the selector 303 selects the encoder more appropriately based on the index B inputted separately from the classification information S from the outside.
  • a classification may be specified.
  • the selector 303 specifies a threshold value (for example, 5) corresponding to the index B (for example, 24 kbps) as the threshold value for the plurality of classifications.
  • the selector 303 selects an encoder (audio signal encoder 300) having a relatively low rank. If the classification is greater than the threshold value (S is greater than 5), a relatively high-order encoder (speech signal encoder 301) is selected.
  • the selector 303 specifies the comparison threshold (7). Specify a threshold (infinite) different from. That is, when a bit rate (48 kbps) larger than the contrast bit rate is indicated, the selector 303 selects a threshold value (for example, infinity) larger than the contrast threshold value, and a relatively low-order encoder (audio).
  • the signal encoder 300) is selected with a higher frequency, and the higher-order encoder (speech signal encoder 301) is selected with a lower frequency.
  • the selector 303 selects a threshold (5) smaller than the contrast threshold (7) and is relatively low when a bit rate (eg, 24 kbps) smaller than the contrast bit rate (eg, 32 kbps) is indicated.
  • a rank encoder (audio signal encoder 300) is selected less frequently, and a relatively higher rank encoder (speech signal encoder 301) is selected more frequently.
  • the selector 303 may not specify the threshold value. In other words, in some or all aspects, for example, the following processing may be performed. That is, for example, the selector 303 indicates that the index B indicates a bit rate (for example, a bit rate in the range 91b) larger than a predetermined bit rate (for example, the bit rate in the range 90 in FIG. 11). Regardless of the classification specified by the signal classifier 302, a relatively high-order encoder (speech signal encoder 301) is not selected and relatively low regardless of which classification is specified. A rank encoder (audio signal encoder 300) may be selected.
  • the selector 303 does not depend on the classification specified by the signal classifier 302.
  • a relatively low-order encoder may be selected without selecting a relatively low-order encoder (audio signal encoder 300).
  • the audio signal encoder 300 encodes the input signal.
  • the speech signal encoder 301 when the speech signal encoder 301 is selected by the selector 303, the input signal is encoded by the speech signal encoder 301.
  • bit stream generator 304 packs one or more encoded signals into a bit stream to generate a bit stream.
  • the audio signal encoder (audio signal encoder 300) that encodes the frequency spectrum signal of the input signal (pre-encoding signal 7P) and the input signal are linearly converted.
  • a speech signal encoder (speech signal encoder 301) that encodes each of the prediction coefficients and the excitation signal, and a signal classifier (signal classifier 302) that classifies the input signal according to the characteristics of the input signal. ),
  • a selector (selector 303) for selecting which encoder to use (selection encoder (utilization encoder)) from among the plurality of encoders, and packing the encoded signal
  • a bit stream generator (bit stream generator 304) for generating a bit stream.
  • the selector by selecting an optimal encoder based on the classification result (classification information S) of the signal classifier and a predetermined index B (bit rate), the classification of the input signal, Since the optimum encoder can be selected according to the characteristics of the encoder, a good sound quality can be obtained.
  • the index B may be profile information described below.
  • the index input to the selector 303 is the encoding bit rate, but it may be an index representing the application, for example. That is, the selector 303 does not select encoders with a lower rank when the index indicating the usage indicates a usage including a voice call as compared with the case where the index is not so. Alternatively, do not select at all.
  • FIG. 6 shows a table of profile information (index B) (lower part of FIG. 6).
  • Each of “Voice Call Profile” shown in the first column of the table at the bottom of FIG. 6 is one of the profiles of the USAC standard in which detailed points are added to the USAC standard. is there.
  • One of the plurality of profiles is specified by an index B which is profile information (use information).
  • “Voice Call Profile” is a profile suitable for voice calls such as a mobile phone and a wired phone.
  • AV Com Profile is a profile suitable for videophone communication.
  • Mobile TV Profile is a profile suitable for one-segment television communication, and “TV Profile” is a profile suitable for full-segment television communication.
  • one or more of a plurality of profiles such as “voice call profile” may be a profile that is designated and referred to as a part of the standard by, for example, a standard in communication of a mobile phone. .
  • Each of the third to fifth columns (Audio, A / S (Audio / Speech), Speech) in the table of FIG. 6 is selected by the selector 303 (selector 403) in the profile of each row. Indicates an allowed encoder.
  • the circle in the third column indicates that the audio signal encoder 300 is a permitted encoder, and the circle in the fifth column indicates that the speech signal encoder 301 is a permitted encoder.
  • the low-order encoder In the profile of a high bit rate (for example, 48 kbps (5th row, 2nd column)), the low-order encoder (audio signal encoder 300, 5th row, 3rd column) is the permitted encoder, The higher-order encoder (speech signal encoder 301, fifth row, fifth column) is not the permitted encoder.
  • a low bit rate such as 4 kbps (second row, second column)
  • a low-order encoder (second row, third column) is not an allowed encoder, but a high-order encoder
  • the speech signal encoder 301 (second row and fifth column) is a permission encoder.
  • the permission encoder (speech signal encoder 301, second row, fifth column) at a lower bit rate
  • Both permission encoders (audio signal encoder 300, fifth row, third column) at higher bit rates are permission encoders (third row, third column, fifth column).
  • the selector 303 selects a selected encoder from one or a plurality of permitted encoders for the profile indicated by the acquired index B among the plurality of encoders, An encoder that is not a permitted encoder is not selected.
  • the selector 303 generates rank information X that specifies the rank of the selected selection encoder, and thereby encodes the signal before encoding by the selection encoder specified by the generated rank information X. Make it.
  • the audio encoder 3c (audio encoder 3, FIG. 3, FIG. 5, FIG. 6), for example, is set with the index B acquired by the selector 303, and the profile information setting unit B1 (holding the set index B) ( 6).
  • the index input to the selector 303 may be an index indicating the number of channels of signals to be encoded. That is, the selector 303 selects more encoders having a lower rank when the number of channels is large than when the number is not.
  • the large number of channels of the input signal is considered to be an application for encoding rich content, and therefore it is better not to assume that only the speech signal is strongly included.
  • the index B that identifies the bit rate (second column) in the indicated application may be used by indicating the application (profile type: first column in the table of FIG. 6).
  • FIG. 4 is a diagram showing an audio encoder 3d (audio encoder 3 (FIG. 5)) using three encoders of rank 1 to rank 3 as encoders. 3 and FIG. 4 are different from each other in that a mixed signal encoder 405 is further provided in FIG. 4 and that a selector 403 generates codes from three encoders of rank 1 to rank 3. Is to select a generator. About another component, it may be the same as the element corresponding to the component of FIG. 3, for example.
  • the encoder of rank 1 is the audio signal encoder 400
  • the encoder of rank 2 is the mixed signal encoder 405
  • the encoder of rank 3 is the speech signal encoder. 401.
  • the selector 403 selects an appropriate encoder from the three encoders based on the information (classification information) S from the signal classifier 402 and the index B input separately. To do.
  • selector 403 selects an encoder with a lower rank (in this embodiment, rank is lower). 1 encoder, ie audio signal encoder 400). Further, the selector 403 selects an encoder having a higher rank when the value of S is large (when the input signal includes a speech signal component is large) (in this embodiment). Select the rank 3 encoder, namely the speech signal encoder 401). Further, in the case of an intermediate value, the selector 403 selects the mixed signal encoder 405 (in this embodiment, the encoder of rank 2 is selected).
  • the selector 403 selects so as to use more encoders with lower ranks.
  • the selector 403 uses the audio signal encoder 400 when S is 3 or less, and when S is greater than 3 and 7 or less, mixed signal coding is performed. Using the device 405, if S is greater than 7, a selection is made to use the speech signal encoder 401.
  • the selector 403 uses the audio signal encoder 400 when S is 5 or less. When S is greater than 5 and 9 or less, the selector 403 switches the mixed signal encoder 405. Use, if S is greater than 9, select to use speech signal encoder 401.
  • the selector 403 uses the audio signal encoder 400 when S is 7 or less, and uses the mixed signal encoder 405 when S is greater than 7, and S Regardless of the value of, the speech signal encoder 401 is not used.
  • the selector 403 uses the mixed signal encoder 405 when S is 3 or less, and uses the speech signal encoder 401 when S is greater than 7, Regardless of the value of S, the audio signal encoder 400 is not used.
  • the selector 403 is a rank 3 encoder (speech) when the use of the encoded signal is an application that requires a relatively high sound quality of a certain sound quality or more, such as broadcasting or music distribution.
  • the signal encoder 401) may not be used.
  • the selector 403 may not use the encoder of rank 1 (audio signal encoder 400) when the application is an application including a call.
  • the mixed signal encoder 405 is an encoder that divides an input signal into a linear prediction coefficient and an excitation signal and encodes them. However, the mixed signal encoder 405 encodes the divided excitation signal by encoding the frequency axis signal corresponding to the excitation signal.
  • the fourth column of the table of FIG. 6 indicates whether or not the mixed signal encoder 405 is a permission encoder. Operations may be performed along the contents of the fourth column of the table of FIG. That is, the selector 403 selects, as a selection encoder, a permitted encoder corresponding to the profile indicated by the index B from the above three encoders based on the index B indicating the profile, for example. May be. Then, the selector 403 may cause the pre-encoding signal to be encoded by the selective encoder selected from the three encoders based on the profile.
  • the encoder 1 (audio signal encoder 400) of rank 1 is an encoder that encodes the frequency spectrum signal of the input signal, and the code of rank N (2 ⁇ N).
  • the encoder (speech signal encoder 401) divides the input signal into linear prediction coefficients and excitation signals, encodes each of the divided signals, and encodes the divided excitation signals
  • the encoder of the order M (1 ⁇ M ⁇ N) (mixed signal encoder 405) encodes the axis signal, divides the input signal into linear prediction coefficients and excitation signals, and encodes each of the divided signals.
  • an audio encoder that encodes the frequency axis signal of the excitation signal may be constructed.
  • this embodiment relates to an audio encoder and an audio decoder that can obtain high sound quality at a low bit rate.
  • the problem to be solved is an audio encoder that can obtain good sound quality regardless of whether the input signal is a voice signal (human voice) or a non-voice signal (musical sound, natural sound, etc.). (Audio encoder 3c and the like) and an audio decoder (audio decoder 1a and the like).
  • a decoder group consisting of a plurality of decoders corresponding to the encoding method selected at the time of encoding, a signal processor for processing the output signal of the decoder (utilization encoder), An audio decoder comprising an information transmitter for transmitting information indicating which decoder in the decoder group is used (used encoder) to the signal processor is constructed.
  • the audio encoder 3c includes a plurality of encoders (a plurality of encoders 300x), a signal classifier (signal classifier 302), and a selector (selector 303).
  • the signal classifier specifies the amount of speech component 7M (classification information S) included in the input signal (pre-encoding signal 7P) from a plurality of amounts.
  • the plurality of encoders include a specific encoder (speech signal encoder 301).
  • the specific encoder has a bit rate of the encoded signal obtained by encoding the pre-encoding signal.
  • the first bit rate for example, 24 kbps
  • the second bit rate for example, 32 kbps
  • Each of the encoders encodes the pre-encoding signal into the post-encoding signal when the encoder is a use encoder.
  • the selector indicates the bit rate of the encoded signal indicated by the index (index B) as the first bit rate.
  • the specific encoder speech signal encoder 301
  • the second bit rate is 32 kbps
  • the specific encoder is not selected as the use encoder. That is, in the latter case, another encoder is selected.
  • an appropriate encoder can be reliably selected as the encoder to be used.
  • the specific encoder is selected only when the bit rate is the first bit rate, and in the case of the second bit rate, the other encoder is Selected. This ensures that an appropriate encoder can be selected regardless of the bit rate.
  • this audio encoder (audio encoder 3) is as follows.
  • each of the encoders encodes the input signal into an encoded signal when the encoder is the utilization encoder.
  • the bit rate of the encoded signal is a predetermined specific bit rate (the bit rate in the range 91a)
  • the plurality of encoders are most appropriately input from among the plurality of encoders.
  • a specific encoder speech signal encoder 301 for encoding the signal is included.
  • the most appropriate encoding means that, for example, the data amount and the sound quality evaluation value of the encoded signal are relatively high as described above.
  • the selector includes a case where a bit rate of the encoded signal indicated by the index is the specific bit rate (a bit rate in the range 91a) and a case where the bit rate is not the specific bit rate (a range 90, a range 91b).
  • the encoder (audio signal encoder 502) other than the specific encoder is selected as the use encoder only when the specific bit rate is not satisfied.
  • the plurality of encoders are among the plurality of encoders. It includes a specific encoder (speech signal encoder 301) that most appropriately encodes the input signal.
  • the selector includes a case where a bit rate of the encoded signal indicated by the indicator is the specific bit rate (24 kbps), a case where the bit rate is not the specific bit rate (for example, a case where the bit rate is 32 kbps). Only when it is not the specific bit rate, the encoder (audio signal encoder 300) other than the specific encoder is selected as the use encoder (when S is 6).
  • the specific encoder When the input signal is a specific input signal (an input signal when S is 5 or less), the specific encoder is configured to input the input signal even if the bit rate of the encoded signal is the specific bit rate (24 kbps). It is not the most appropriate in signal coding.
  • the signal classifier specifies that the input signal is the specific input signal (S is 5 or less).
  • the signal classifier specifies the input signal as the specific input signal (S is 5 or less). In this case, the other encoder (audio signal encoder 300) is selected.
  • the specific input signal is the input signal including a speech component by a specific amount (a quantity of S is 5 or less).
  • the signal classifier specifies the amount (S) of the speech component included in the input signal.
  • the selector specifies a threshold value, and when the specified threshold value is equal to or larger than the amount specified by the signal classifier, the other encoder (audio signal encoder 300) is used. If it is selected as an encoder and is less than the specified amount, the specific encoder (speech signal encoder 301) is selected. When the bit rate of the encoded signal is the specific bit rate (24 kbps), the selector specifies a threshold value (5) that is equal to or greater than the specific amount (an amount S is 5 or less).
  • the sound signal processing system 4 includes, for example, an audio encoder 3c (audio encoder 3d) as the audio encoder 3, and an audio decoder 1a (audio decoder 1b) as the audio decoder 1, for example. It may be a system.
  • the audio decoder 1 performs processing by a relatively appropriate method. Then, by the audio encoder 3 selecting an appropriate encoding method more reliably, processing by an appropriate method can be executed reliably.
  • the audio encoder 3c (audio encoder 3d) and the audio decoder 1a (audio decoder 1b) can be used for two components constituting the sound signal processing system 4 and have a close relationship with each other. That is, the sound signal processing system 4, the audio encoder 3, and the audio decoder 1 are technologies connected to each other by this effect, and belong to a single technical range. In other words, it is assumed that the bolt, the nut, and the entire coupler including the bolt and the nut belong to a single technical scope.
  • the sound signal processing system 4 corresponds to the whole coupler
  • the audio encoder 3 corresponds to one of a bolt and a nut
  • the audio decoder 1 corresponds to the other.
  • the following operation may be performed.
  • movement may be performed only in a certain situation.
  • the following operation is also merely an example.
  • the sound signal processing system 4 may be a system in USAC.
  • the audio codec May be decoded (audio signal decoder 102, S4).
  • the speech codec may be used for decoding (speech signal decoder 103, S4).
  • the above-described information 7I is transmitted, and the transmitted information 7I is acquired (by the band expander 104) (S5).
  • the processed signal 7L may be generated by the first method other than the second method (first processed signal 7L1, S6).
  • the speech codec when indicated, it may be generated by the second method (second post-processing signal 7L2, S6).
  • the second method is a method that can not be used when decoding with the audio codec but can be used only when decoding with the speech codec and is generated.
  • the second post-processing signal 7L2 may be a more appropriate signal than the first post-processing signal 7L1 generated by the first method.
  • the envelope characteristic is calculated from the linear prediction coefficient and the excitation signal, and the second processed signal 7L2 specified from the calculated envelope characteristic is expanded in band.
  • a method of generating the processed signal 7L may be used (see Patent Document 1: Japanese Patent No. 3189614).
  • the information 7I that is simply decoded by the indicated codec is also used for processing and only needs to be diverted, so that no other information is required and the processing can be simplified.
  • a storage unit that stores the information 7I until the post-processing signal 7L is generated, and the stored information 7I is used when the post-processing signal 7L is generated. May be.
  • This storage unit may be a part of the information transmitter 101, for example.
  • a transmission line (transmission medium) 7X (FIG. 1) through which the information 7I is transmitted to the band expander 104 and the like through the transmission line 7X may be provided.
  • each functional block such as each functional block in FIG. 1 may be a functional block realized by a computer by executing software, or a function of an arithmetic circuit that does not use software. It may be a functional block.
  • the classification information S indicating whether or not the amount of the speech component 7M included in the pre-encoding signal 7P (FIG. 3) is larger than the threshold (see (1) and (2) in FIG. 11). (FIG. 3) may be generated (signal classifier 302, S1).
  • the speech signal encoder 301 may be selected (selectors 303, S2). ).
  • speech signal encoder 301 when the speech signal encoder 301 is selected, encoding by the speech codec may be performed (speech signal encoder 301, S3).
  • the encoded signal 7T after encoding may be, for example, the encoded signal 7C (input signal 7S, FIG. 1) described above.
  • the generated classification information S indicates not only when the amount of the speech component 7M is greater than the threshold value, but also when it is indicated that it is small ((1) in FIG. 11).
  • the device 301 may be selected (selector 303, S2).
  • bit rate indicated by the index B is a bit rate within the range 91a and a case where the bit rate is not within the range 91a (such as a bit rate within the range 90 or 91b).
  • bit rate indicated by the index B is not within the range 91a (range 90, range 91b)
  • encoding with the speech codec results in low sound quality. (Refer to data 74A and 74S).
  • an index B indicating the bit rate may be acquired (selector 303, S2).
  • the following processing may be performed.
  • the speech signal encoder 301 is selected only when the acquired index B indicates the bit rate within the range 91a (data 74A), and the bit rate outside the range 91a is indicated. (Range 90, range 91b), the audio signal encoder 300 may be selected (selector 303, S2).
  • the index B indicates a bit rate within the range 91a
  • encoding by the speech codec is performed, and an appropriate second processed signal 7L2 can be generated more reliably.
  • the audio codec is encoded and the sound quality can be improved.
  • the process according to the acquired index B is performed. May be.
  • the audio decoder 1 and the audio encoder 3 are provided, and the above-described compatibility can be achieved (FIGS. 5, 12, etc.).
  • Both the audio decoder 1 and the audio encoder 3 can be used as components for achieving this compatibility, and belong to a single technical range.
  • Each of the encoders encodes the input signal into an encoded signal when the encoder is the utilization encoder, and the plurality of encoders include a specific encoder.
  • the specific encoder encodes the input signal most appropriately among the plurality of encoders when the bit rate of the encoded signal is a predetermined specific bit rate, and the selector Is the specific encoding only when the bit rate of the encoded signal indicated by the indicator is not the specific bit rate between the specific bit rate and the specific bit rate.
  • An audio encoder that selects the encoder other than the encoder as the use encoder may be constructed (see the above description).
  • the specific encoder when the input signal is the specific input signal, the specific encoder is configured to encode the input signal even when the bit rate of the encoded signal is the specific bit rate.
  • the signal classifier identifies the input signal as the specific input signal, and the selector determines that the input signal is the specific bit rate, even if the bit rate of the encoded signal is the specific bit rate.
  • another encoder may be selected (see the above description).
  • An audio decoder includes a decoder group including a plurality of decoders corresponding to a plurality of encoding methods selected at the time of encoding, a signal processor for processing an output signal of the decoder, An information transmitter for transmitting to the signal processor information indicating which decoder in the decoder group has been used, and the signal processor responds to information from the information transmitter.
  • the signal is processed by a method selected from a plurality of different methods. For this reason, an optimal decoding signal can be generated according to the nature of the input coded signal (whether it is a speech signal or an audio signal), so that it can be used in a wide range of devices, from portable terminals to large AV equipment such as digital TVs. Can be applied.
  • An audio encoder includes a plurality of encoders ranked by numbers from 1 to N (N> 1), a signal classifier that classifies an input signal according to characteristics of the input signal, A selector that selects which encoder to use from among a plurality of encoders, and the selector selects which code according to the output of the signal classifier and a pre-specified index. Select whether to use a generator. For this reason, by encoding an input signal with an optimal encoding method, a signal from a speech signal to an audio signal can be encoded with high sound quality at a relatively low bit rate. It can be applied to a wide range of equipment, such as large AV equipment.
  • the quality of the processed signal can be improved with a simple configuration.
  • high sound quality can be reliably maintained despite the high quality of the processed signal.
  • Audio decoder 100 200 Bit stream separator 101, 201 Information transmitter 102, 202 Audio signal decoder 102x Decoder 103, 203 Speech signal decoder 104 Band expander 204 Audio band enhancer 300, 400 Audio signal Encoder 301, 401 Speech signal encoder 302, 402 Signal classifier 303, 403 Selector 304, 404 Bit stream generator 500 Input signal classifier 501 High-frequency signal encoder 502 Audio signal encoder 503 Speech signal Encoder 504 Bit stream generator 600 Bit stream separator 601 Audio signal decoder 602 Speech signal decoder 603 Band expander 800 Voice presence / absence information separator 801 Decoder 802 Speaker 80 Microphone 804 echo canceller 805 voice existence decision unit 806 encoder 900 echo canceller 901 and 902 band divider 903 band each processing unit 904 band synthesizer

Abstract

 複数の復号化器(102x)と、符号化信号が対応復号化器により復号化された復号化後信号を、伝送される情報により特定される方法で加工する帯域拡大器(104)と、前記複数の復号化器(102x)の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器(101)とを備えるオーディオデコーダ(1a)が構築される。

Description

オーディオデコーダ、オーディオエンコーダ、システム
 本発明は、低ビットレートで高音質を得られるような、オーディオエンコーダおよびオーディオデコーダに関する。特に、本発明は、入力信号が音声信号(人の声)であっても、非音声信号(楽音、自然音など)であっても、良好な音質が得られるような、オーディオエンコーダおよびオーディオデコーダに関する。
 携帯電話等での通話に用いられる符号化方式は、所謂CELP(Code-Excited Linear Prediction)系のコーデックといわれる方式である。つまり、用いられる符号化方式は、入力信号を、線形予測係数と励振信号(当該線形予測係数を用いた線形予測フィルタの入力となる信号)とに分解し、分解されたそれぞれのデータを符号化する方式である。例えば、AMR(adaptive multi-rate)方式(非特許文献1参照)等がそれにあたる。この方式では、線形予測係数によって、声道の音響特性をモデル化し、励振信号によって、声帯の振動をモデル化している。このため、スピーチ信号は効率的に符号化できるが、スピーチ信号以外の、自然音の信号(オーディオ信号)は、そのモデルに当てはまらないので、効率的に符号化できない。
 一方、デジタルTV(Television)や、DVD(Digital Versatile Disc)プレーヤ、ブルーレイディスクプレーヤで用いられている符号化方式は、例えばAAC(Advanced Audio Coding)方式(非特許文献2参照)のような方式である。この方式は、入力信号の周波数スペクトルそのものを符号化する方式である。このため、この方式では、スピーチ信号以外の自然音(オーディオ信号)でも、良好な音質が得られるが、スピーチ信号に対しては、CELP系のコーデックほどの高圧縮率は得られない。
 図11は、上記のことを定性的に表現した図である。
 図11のグラフの横軸は、符号化のビットレートを示しており、縦軸は、音質を示している。そして、実線の曲線(データ73)は、AACのようなオーディオコーデック(オーディオ用の方式が利用された際)における、ビットレートと音質との関係を示している。一点鎖線の曲線(データ74S)は、AMRのようなスピーチコーデックで、スピーチ信号を処理した際(スピーチ用の方式が利用された際)の、ビットレートと音質との関係を示しており、破線の曲線(データ74A)は、スピーチコーデックにより、スピーチ信号でない信号を処理した際の、ビットレートと音質との関係を示している。なお、図11のグラフの横軸、横軸のそれぞれの単位としては、適切な種々の単位が考えられる。つまり、それぞれの単位は、例えば、arbitrary unit(任意単位)と理解されてもよい。すなわち、具体的には、例えば、縦軸の単位は、実験において、人の感覚で評価された値などでもよい。また、横軸の単位は、kbps(kilobit per second)などでもよい。
 ここで、図中の縦方向の細い破線で囲まれた範囲90が、入力信号によって最適なエンコーダが異なるビットレートの範囲を示している。なお、ビットレートに関する点は、後で詳しく述べられる。
 そして、後で詳しく述べられるUSAC(Unified Speech and Audio Codec)の規格化の作業においては、範囲90のみが着目され、範囲90以外の範囲(範囲91)は、あまり意識されていない。範囲90では、入力信号(符号化前信号)の種類により、入力信号が、スピーチ信号の場合、スピーチコーデックの方が良好な音質を実現できる(データ74S、データ73を参照)。そして、範囲90では、逆に、入力信号が、スピーチ信号でない場合には(入力信号がオーディオ信号である場合には)、オーディオコーデックの方が良好な音質を実現できる(データ73、データ74Aを参照)。
 そのような中、近年、MPEGオーディオ規格化活動の中で、スピーチ信号も、スピーチ以外の自然音(オーディオ信号)も、ともに効率的に符号化できるような符号化規格(Unified Speech and Audio Codec : USAC)の検討が始まっている。
 図9は、その概略のエンコード処理ブロック図を表している。
 図9のブロック図において示される複数のブロックは、入力信号(符号化前信号)を符号化する際に、スピーチコーデックが適しているか、オーディオコーデックが適しているかを分類する入力信号分類器500と、入力信号の高域成分を符号化する高域信号符号化器501と、オーディオ信号符号化器502と、スピーチ信号符号化器503と、ビットストリーム生成器504とである。
 図9に示すように、入力信号は、スピーチコーデックに適している信号か、オーディオコーデックに適している信号かが、入力信号分類器500により分類される。そして、それぞれの分類がされた場合において、スピーチコーデックおよびオーディオコーデックの種類のうちで、適していると分類された方の種類に対応する符号化器(オーディオ信号符号化器502かスピーチ信号符号化器503)で符号化される。なお、その前段の高域信号符号化器501では、MPEG(Moving Picture Experts Group)で規格化された、帯域拡大技術(SBR(Spectral Band Replication)技術:ISO/IEC11496-3)のエンコード処理が行われ、デコード時の再生帯域の拡大に寄与している。
 図10は、USACのデコード処理ブロック図を示している。
 図10のブロック図において示される複数のブロックは、入力のビットストリームを符号化信号に分離するビットストリーム分離器600と、オーディオ信号復号化器601と、スピーチ信号復号化器602と、上記何れかの復号化器で復号された信号の再生帯域を拡大する帯域拡大器603とである。
 図10に示すように、入力のビットストリームは、ビットストリーム分離器600で、符号化信号に分離される。そして、当該符号化信号が、オーディオ信号の符号化信号であると分類されれば、オーディオ信号復号化器601で処理され、スピーチ信号の符号化信号であると分類されれば、スピーチ信号復号化器602で処理される。これにより、PCM(Pulse Code Modulation)信号が生成される。なお、上記何れの場合にも、復号された信号に対しては、帯域拡大器603で、その信号の再生帯域が拡大される処理が行われる。
3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).
 しかしながら、上記のような構成では、エンコード時に、信号の性質を分析し、スピーチ信号なのか、オーディオ信号なのかを把握できているにも関わらず、デコード処理の後処理の工程(後処理工程)を行う信号加工器(図10でいえば帯域拡大器603)に、その情報、つまり把握された情報を伝える手段がない。よって、信号加工器が最適な処理を実施することを妨げている。つまり、当該情報が伝えられず、当該情報を利用した、比較的適切な処理がされないことにより、不適切な処理がされてしまう。
 本発明は、このような、従来の課題に鑑みてなされたものであって、入力の符号化信号の性質に応じて、最適な(より適切な)デコード信号(加工後信号)を生成するオーディオデコーダを提供することを目的とする。
 上記の課題を解決するために、本願のA1のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、それぞれの復号化器が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が、前記符号化信号を復号化する複数の復号化器と、前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダである。
 なお、上記の情報は、例えば、公知の技術における情報などでもよい。
 これにより、上記の情報の伝送がされることにより、伝送される情報により特定される復号化器(対応復号化器)に対応する、より適切な方法(例えば、特許第3189614号公報における方法)での加工がされる。これにより、加工がされた後の加工後信号として、より適切な信号(より高い質の第2の加工後信号)が生成できる。
 しかも、単に、対応復号化器を特定する情報が利用(流用)され、余計な他の情報が必要でなく、簡単な構成にできる。
 これにより、加工後信号の質の高さと、簡単な構成とが両立できる。
 また、本願のA2のオーディオエンコーダは、複数の符号化器と、入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダである。
 そして、A3の音信号処理システムは、A1のオーディオデコーダと、A2のオーディオエンコーダとを備える、USAC(Unified Speech and Audio Codec)の規格における音信号処理システムである(図5等を参照)。
 つまり、音信号処理システムにおいて、上記オーディオエンコーダに加えて、更に、オーディオエンコーダが含まれてもよい(図5等を参照)。
 これにより、選択器に対して指標が指定される。そして、特定される分類により示される、スピーチの成分の量が、比較的少ない量でも(例えば、図11の(1)を参照)、指定される指標(により示されるビットレート(図11のグラフの横軸を参照))が、予め定められた範囲(範囲91aを参照)内である場合には、オーディオエンコーダにおいて、より適切な第2の加工後信号が生成される方式(スピーチコーデックでの方式)での符号化がされて、オーディオデコーダにおいて、第2の加工後信号が生成される。これにより、より多くの場合に、より適切な第2の加工後信号が生成されて、より確実に、より適切な第2の加工後信号が生成できる。
 しかも、指定される指標により示されるビットレートが、上記範囲外(例えば範囲90を参照)である場合には、当該方式(スピーチコーデックの方式)での符号化がされず、音質が、高い音質に維持できる(範囲90での、データ74A、73の音質を参照)。
 これにより、適切な第2の加工後信号が確実に生成できることと共に、高い音質の維持が両立できる。
 なお、上記オーディオエンコーダは、ある時点では、音信号処理システムに含まれて、当該音信号処理システムにおける他の部分(オーディオデコーダ等)と共に存在する一方で、別の時点では、例えば、当該音信号処理システムから取り出されるなどにより、当該音信号処理システムに含まれず、他の部分からは独立して、当該オーディオエンコーダのみで存在してもよい(上記の(A2)を参照)。
 なお、こうして、この音信号処理システムでは、オーディオデコーダにおいて、符号化信号が、一定の符号化方式による信号(スピーチコーデックでの符号化信号)の場合、より質の高い方法で(例えば、より精度よく)、復号化後信号の加工(例えば、帯域拡大)がされる。そして、オーディオエンコーダにおいて、分類が、一定の範囲(例えば、図11の(1)を参照)における分類であっても、指標に対応する符号化器(範囲91aでの、スピーチコーデックの符号化器)が選択されることにより、より多くの場合に、上記一定の符号化方式の符号化器が選択され、より確実に、質の高い適切な加工ができる。
 A1のオーディオデコーダおよびA2のオーディオデコーダは、このような、A3の音信号処理システムの2つの部品に利用可能である。
 また、本願のB1のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式から適切な符号化方式を選択し、該選択された符号化方式で符号化されたビットストリームを復号化するオーディオデコーダであって、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて異なる方法で信号を加工する。
 本願のB2のオーディオデコーダは、B1のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第1の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第2の復号化器とを有し、前記信号加工器は、前記復号化器群で復号化された信号の再生帯域を拡大し、前記第2の復号化器によって復号化された信号に対し、前記線形予測係数に基づいて算出される周波数包絡特性に応じ再生帯域の拡大処理を実施する。
 本願のB3のオーディオデコーダは、B1のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第1の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第2の復号化器とを有し、前記信号加工器は、音声信号を強調するための処理を実施し、前記第2の復号化器によって復号化された信号に対し、音声帯域を強調する処理を実施する。
 本願のB4のオーディオエンコーダは、1からN(N>1)までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。
 本願のB5のオーディオエンコーダは、B4のオーディオエンコーダにおいて、順位1の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Nの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。
 本願のB6のオーディオエンコーダは、B4のオーディオエンコーダにおいて、順位1の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Nの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は時間軸信号として符号化し、順位M(1<M<N)の符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は周波数軸信号として符号化する。
 本願のB7のオーディオエンコーダは、B4のオーディオエンコーダにおいて、前記指標は、符号化のビットレートであり、前記選択器は、ビットレートが高いときは、ビットレートが低いときに比べて、順位の若い符号化器を高い頻度で選択する。
 本願のB8のオーディオエンコーダは、B4のオーディオエンコーダにおいて、前記指標は、用途であり、前記選択器は、用途が音声通話を含む用途である場合には、そうでない場合と比べて、順位の若い符号化器を低い頻度で選択する。
 本発明によれば、復号化後信号に対して加工がされる際に、適切な方法で加工ができる。また、本発明によれば、確実に、適切な符号化方式により符号化ができる。これにより、ひいては、本発明によれば、確実に、適切な加工ができる。
 つまり、簡単な構成で、加工後信号の質が高くできる。そして、確実に、加工後信号の質が高くされるにも関わらず、高い音質が維持できる。
 B1のオーディオデコーダによれば、入力のビットストリームの性質に応じた最適なデコード信号を得ることができることとなる。
 B2のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合、最適な方法で再生帯域の拡大が実施できることとなる。
 B3のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合において、最適な方法で音声帯域の強調処理が実施できることとなる。
 B4のオーディオエンコーダによれば、入力信号の性質と予め指定された指標に応じて最適な符号化器を選択できることとなる。
 B5のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であっても最適な符号化器を選択でき高音質を得られることとなる。
 B6のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその中間的な信号であっても最適な符号化器を選択でき高音質を得られることとなる。
 B7のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもビットレートに応じて最適な符号化器を選択でき高音質を得られることとなる。
 B8のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその用途に応じて最適な符号化器を選択でき高音質を得られることとなる。
図1は、本実施の形態1におけるオーディオデコーダの構成を示す図である。 図2は、本実施の形態1におけるオーディオデコーダのもう一つの構成を示す図である。 図3は、本実施の形態2におけるオーディオエンコーダの構成を示す図である。 図4は、本実施の形態2におけるオーディオエンコーダのもう一つの構成を示す図である。 図5は、音信号処理システムを示す図である。 図6は、オーディオエンコーダを示す図である。 図7は、本発明を応用した通信システムの構成図である。 図8は、エコーキャンセラの内部の構成図である。 図9は、従来の技術におけるオーディオデコーダの構成を示す図である。 図10は、従来の技術におけるオーディオエンコーダの構成を示す図である。 図11は、各符号化方式におけるビットレートと音質の傾向を示す図である。 図12は、実施形態における処理の流れを示すフローチャートである。
 以下、図面が参照されつつ、実施の形態が説明される。
 実施の形態のオーディオデコーダ(図5、図1、図12のS4~S6など)は、入力信号(符号化前信号7P)の性質(例えば、スピーチの成分7Mの量)に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が(オーディオエンコーダ3によって)選択されて、選択された前記符号化方式により(オーディオエンコーダ3によって)符号化された符号化信号(符号化後信号7T、入力信号7S(符号化信号7C))を復号化するオーディオデコーダ(オーディオデコーダ1、オーディオデコーダ1a)であって、それぞれの復号化器(オーディオ信号復号化器102、スピーチ信号復号化器103)が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器(利用符号化器)である場合には、その復号化器(利用符号化器)が前記符号化信号を復号化する複数の復号化器(複数の復号化器102x、S4)と、前記符号化信号が前記対応復号化器により復号化された復号化後信号(復号化後信号7A)を、複数の方法のうちで、当該信号加工器に伝送される情報(含有情報、種類信号、情報7I)により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器(帯域拡大器104、S6)と、前記複数の復号化器の中から、前記対応復号化器を特定する情報(情報7I)を、前記信号加工器に伝送する情報伝送器(情報伝送器101、S5)とを備えるオーディオデコーダ(オーディオデコーダ1a、1)である。
 なお、適切な符号化方式とは、例えば、後で詳しく述べられるように、その符号化方式により符号化された符号化信号のデータ量、音質の品質が比較的高いことなどを意味する。
 また、前記復号化器により復号化された復号化後信号に適する方法とは、例えば、後で詳しく述べられるように、その方法で加工された加工後信号が、予め定められた信号に、より近く、精度が高いことである。
 なお、ある方法における処理は、音声帯域の強調の処理である一方で、別の方法における処理は、入力されるデータを、そのまま出力する処理であったり、単なる空(何もしない)などであってもよい。
 他方、実施の形態のオーディオエンコーダ(図5、図3、図12のS1~S3など)は、複数の符号化器(複数の符号化器300x等、S3)と、入力信号の特徴(例えば、スピーチの成分7Mの量)に応じて、前記特徴に対応する分類(分類情報S)を、前記入力信号の分類と特定する信号分類器(信号分類器302、S1)と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標(指標B)とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器(選択符号化器)を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器(選択器303、S2)とを備えるオーディオエンコーダ(オーディオエンコーダ3c等、オーディオエンコーダ3)である。
 つまり、上記オーディオデコーダと、上記のオーディオエンコーダとを備える音信号処理システム(音信号処理システム4:図5、図12のS1~S6)が構築されてもよい。
 つまり、オーディオエンコーダ3(図5、図3)において、信号分類器302(図3)により、符号化前信号7Pが、スピーチコーデックに適するか、オーディオコーデックに適するか(スピーチの成分の量が(閾値より)多いか否か)が特定されてもよい(図12のステップS1を参照)。
 そして、符号化処理部(複数の符号化器300x)により、スピーチコーデックに適することが特定された場合に(図11の(2))、スピーチコーデックでの符号化が、符号化前信号7Pにされてもよい。
 そして、オーディオコーデックに適することが特定された場合においても(図11の(1))、(選択器303により)取得された、ビットレートを示す指標B(図3)により、スピーチコーデックでの符号化がされても、音質が高い範囲91a(図11)のビットレートが示される場合には、スピーチコーデックの符号化がされてもよい(S2、S3を参照)。
 そして、この指標により、他の範囲(例えば範囲90)のビットレートが示される場合にのみ、オーディオコーデックの符号化がされてもよい(S2、S3を参照))。
 そして、オーディオエンコーダ1(図5、図1)において、当該オーディオデコーダへの入力信号7S(符号化信号7C)が、上記のオーディオエンコーダにより符号化された後の符号化後信号7T(図3)でもよい。
 そして、復号化処理部(複数の復号化器102x)により、当該入力信号が符号化されたコーデックが、スピーチコーデックか、オーディオコーデックかを示す情報7Iにより、スピーチコーデックが示される場合には、スピーチコーデックにおける復号化がされてもよい。
 そして、オーディオコーデックが示される場合には、オーディオコーデックにおける復号化がされてもよい(S4参照)。
 なお、上述の情報7Iは、例えば、ビットストリーム分離器100等により生成される情報などである。
 そして、帯域拡大器104により、復号化がされた後の信号に対して、帯域の拡大の処理がされてもよい。
 そして、この処理がされるのに際して、上述された情報7Iが伝送され(図1の伝送線(伝送部)7X)、伝送される情報7Iが、帯域拡大器104により取得されてもよい(S5参照)。
 そして、取得された情報7Iによりオーディオコーデックが示される場合には、第1の方法での処理がされ、スピーチコーデックが示される場合には、第2の方法での処理がされてもよい(S6参照)。
 そして、第2の方法は、例えば、線形予測係数が用いられるなどにより、第1の方法で生成される第1の拡大後信号7L1(図1)よりも適切な第2の拡大後信号7L2が生成される方法である(特許文献1:特許第3189614号公報等を参照)。
 これにより、より適切な第2の加工後信号7L2が生成できる。しかも、単なる、何れの方式での復号化がされるかを特定する情報7Iが流用され、余計な他の情報が必要にならず、簡単な構成で、この生成ができる。
 しかも、オーディオエンコーダ3において、符号化前信号7Pが、オーディオコーデックが適すると示され場合に、次の処理がされる。
 つまり、オーディオコーデックが適すると示される場合でも、指定された指標Bにより示されるビットレートが、スピーチコーデックでの符号化がされても、音質が高い範囲91a(範囲91aのデータ74A、73を参照)内の場合には、スピーチコーデックの符号化がされて、オーディオデコーダにおいて、より適切な第2の加工後信号7L2が生成される。
 これにより、より多くの場合に、より適切な第2の加工後信号7L2が生成されて、より確実に、適切な第2の加工後信号7L2が生成できる。
 しかも、オーディオコーデックが適すると示される一方で、ビットレートが、音質が高い範囲91a(範囲91aのデータ74A、73を参照)内でない場合には(範囲90等でのデータ74A、73を参照)、オーディオコーデックでの符号化がされて、高い音質が維持できる。
 これにより、より確実に、適切な第2の加工後信号7L2が生成できることと、高い音質が維持されることとが両立できる。
 このように、オーディオデコーダ1と組み合わせられるのに適するオーディオエンコーダ3が構築されてもよい。つまり、オーディオデコーダ1と共に、このオーディオエンコーダ3が含まれる音信号処理システム4が構築されてもよい(図5、図12などを参照)。
 以下、詳しく説明される。
 (実施の形態1)
 まず、本発明の実施の形態1におけるオーディオデコーダについて、図面を参照しながら説明する。
 図1は、本実施の形態1におけるオーディオデコーダ1aの構成を示す図である。
 オーディオデコーダ1aは、図1において示されるように、ビットストリーム分離器100と、情報伝送器101と、オーディオ信号復号化器102と、スピーチ信号復号化器103と、帯域拡大器104とを備える。
 ビットストリーム分離器100は、オーディオデコーダ1aへの入力のビットストリーム(入力信号7S)から、そのビットストリームに含まれる符号化信号(符号化信号7C)を分離する。
 情報伝送器101は、前記ビットストリーム分離器100からの情報から、種類信号(含有情報、音声有無情報)を取り出す。種類信号は、ビットストリーム分離器100によって分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。情報伝送器101は、この種類信号を取り出し、取り出した種類信号(情報7I)を、他のモジュール(後述の帯域拡大器104)に伝送する。
 オーディオ信号復号化器102は、前記ビットストリーム分離器100で分離された符号化信号がオーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化する。なお、オーディオ信号復号化器102は、先述の種類信号により、符号化信号が、オーディオコーデックによる信号と示される場合に、その符号化信号を復号化する。
 スピーチ信号復号化器103は、前記ビットストリーム分離器100で分離された符号化信号が、スピーチコーデックによって符号化された信号である場合、当該符号化信号を復号化する。なお、スピーチ信号復号化器103は、先述の種類信号により、符号化信号が、スピーチコーデックによる信号と示される場合に、その符号化信号を復号化する。
 帯域拡大器104は、前記何れかの復号化器で復号化された信号(復号化後信号7A)の再生帯域を拡大する。
 本実施の形態1では、入力のビットストリームは、複数の符号化器(例えば、図3のオーディオ信号符号化器300およびスピーチ信号符号化器301等)を、入力信号の特徴に応じて切り替えながら、それらの符号化器を用いて生成されたビットストリームである。つまり、入力のビットストリームに含まれる符号化信号は、その符号化信号が符号化される前の符号化前信号がオーディオ信号である場合には、AAC方式のように、入力信号の周波数スペクトルそのものを符号化した信号である。そして、符号化信号は、符号化前信号がスピーチ信号である場合には、AMR方式のように、入力信号を、線形予測係数と励振信号(当該線形予測係数を用いた線形予測フィルタの入力となる信号)とに分解し、それぞれを符号化した信号である。
 以上のように構成されたオーディオデコーダの動作について以下説明する。
 まず、ビットストリーム分離器100によって、入力のビットストリームから、符号化信号を分離する。
 次に、情報伝送器101によって、前記ビットストリーム分離器100で分離された情報から、種類信号を取り出す。種類信号は、先述の通り、ビットストリーム分離器100により分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。そして、情報伝送器101は、取り出した種類信号を帯域拡大器104に伝送する。
 次に、前記ビットストリーム分離器100で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号をオーディオ信号復号化器102で復号化する。
 なお、本実施の形態では、例えばオーディオコーデックは、AAC方式としたので、当該オーディオ信号復号化器102は、AAC規格に準拠した復号化器であるが、必ずしもそれに限定されず、MP3方式や、AC3方式のように、周波数スペクトル信号を符号化する復号化器であればどのような復号化器であってもよい。
 一方、前記ビットストリーム分離器100で分離された符号化信号が、スピーチコーデックによって符号化された信号である場合、当該符号化信号を、スピーチ信号復号化器103で復号化する。
 なお、本実施の形態では、例えばスピーチコーデックは、AMR方式としたので、当該スピーチ信号復号化器103は、AMR規格に準拠した復号化器であるが、必ずしもそれに限定されない。つまり、G.729方式のように、入力信号を、線形予測係数と励振信号とに分解し、それぞれを符号化する復号化器であれば、どのような復号化器であってもよい。
 最後に、帯域拡大器104で、前記何れかの復号化器、つまり、利用復号化器で復号化された信号(復号化後信号)の再生帯域を拡大する。ここで、利用復号化器は、復号化される符号化信号が、オーディオコーデックによる場合、オーディオ信号復号化器102であり、スピーチコーデックによる場合、スピーチ信号復号化器103である。ここで重要なことは、帯域拡大器104は、再生帯域を拡大する方法を、前記情報伝送器101からの情報(情報7I)に応じて変更することである。以下、その点に関して説明する。
 入力の符号化信号が、オーディオコーデックによる信号であった場合、帯域拡大器104が再生帯域を拡大する方法は、MPEGで既に規格化されたSBR方式のように、低域信号の周波数スペクトル信号を高域に複写し、所定のビットストリーム情報に基づいて、当該高域信号を整形する方法でよい(SBR技術:ISO/IEC11496-3参照)。
 一方、入力の符号化信号が、スピーチコーデックによる信号であった場合、帯域拡大器104が再生帯域を拡大する方法は、上記SBR方式を、下記のように改良した方法を用いる。すなわち、まず、上記SBR方式と同様の方法で、高域周波数成分を生成する。そして、この生成をした後、符号化信号に含まれている前記線形予測係数に基づいて、高帯域の周波数包絡特性を算出する。そして、算出された当該周波数包絡特性に応じて、高域の周波数特性を修正する。そうすることによって、高域の周波数特性が、より原音に近い特性に精度よく整形されるので、良好な音質が得られる。
 なお、ここで、線形予測係数に基づいて、高帯域の周波数包絡特性を算出する方法については、具体的には、例えば、従来から知られている方法を用いてもよい。具体的には、例えば、特許文献1:特許第3189614号公報に記載された方法でもよい。
 上記のように、本実施の形態によれば、入力のビットストリームから符号化信号を分離するビットストリーム分離器(ビットストリーム分離器100)と、前記ビットストリーム分離器からの情報から、前記符号化信号が、オーディオコーデックによって符号化された符号化信号か、スピーチコーデックによって符号化された符号化信号かを示す信号(種類信号)を取り出し、取り出した信号を、他のモジュールに伝送する情報伝送器(情報伝送器101)と、前記ビットストリーム分離器で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化するオーディオ信号復号化器(オーディオ信号復号化器102)と、前記ビットストリーム分離器で分離された符号化信号が、スピーチコーデックによって符号化された符号化信号である場合、当該符号化信号を復号化するスピーチ信号復号化器(スピーチ信号復号化器103)と、前記何れかの復号化器(利用復号化器)で復号化された信号(復号化後信号)の再生帯域を拡大する帯域拡大器(帯域拡大器104)とを備え、帯域拡大器が、情報伝送器から伝送される情報(種類信号)に応じて、再生帯域を拡大する処理方法を、その情報に対応する方法に変えることで、高域の周波数特性が、より原音に近い特性に精度よく整形され、よって良好な音質が得られることとなるオーディオデコーダ(オーディオデコーダ1a)が構築される。
 図2は、オーディオデコーダ1b(ビットストリーム分離器200、オーディオ信号復号化器202、スピーチ信号復号化器203、音声帯域強調器204、情報伝送器201)を示す図である。
 なお、本実施の形態では、上述の説明において、復号化信号(復号化後信号)に対して信号加工器(帯域拡大器104)により行われる後処理工程として、周波数帯域を拡大する処理を説明したが、後処理工程(信号加工器)は、必ずしもそれに限らない。例えば、後処理工程の処理は、音声帯域強調処理であってもよい。
 近年のオーディオ再生環境においては、再生する信号(復号化後信号)に、重低音信号や高域信号が含まれており、かつ、再生するスピーカーの周波数特性も改善されている(重低音信号から高域信号まで再生できる特性を有している)。このため、結果的に、リスナーはリッチな音響信号を楽しむことができるようになってきた。その反面、映画コンテンツなどの場合、音声(人の声:セリフ)が、リッチな音響信号の中に埋もれ、逆に聞き取り難い、という課題が生じている。このような場合、音声信号帯域を強調することで(重低音信号や高域信号を抑制することで)、音声は聞き取り易くなるが、逆に、リッチな音響信号を楽しむことができなくなる。
 そのような場合、オーディオデコーダ1bの構成であれば、前記情報伝送器201からの信号(種類信号)が、スピーチ信号を再生している状態であることを示している場合、つまり、種類信号が、符号化信号がスピーチコーデックによることを示す場合に、次の処理が行われる。行われる処理は、音声信号帯域を、信号加工器(音声帯域強調器204)が強調する処理である。この処理が行われることによって、次の問題が解決される。つまり、これによって、コンテンツに音声信号が含まれている場合だけ(例えばセリフが含まれている場合だけ)、当該音声信号を強調することができ、かつ、そうでない場合には、リッチな音響を楽しむこともできる。図2は、そのような場合の構成を示している。図1と図2とが異なる点は、帯域拡大器104が音声帯域強調器204に代わっていることである。
 なお、本実施の形態では、復号化信号の後処理工程は、エコーキャンセラの処理であってもよい。
 図7は、復号化信号の後処理工程がエコーキャンセラである場合の構成を示した図である。
 図7において、入力のビットストリームは、音の符号化信号(信号801a)と、当該符号化信号に、音声が含まれているか否かを示す音声有無情報(情報801b)とから成っている。ここで、音声有無情報は、先に示した例のように、当該フレームのビットストリーム(ビットストリーム801c、符号化信号)がオーディオコーデックで符号化されたストリームか、スピーチコーデックで符号化されたストリームかを示す情報であってもよい。また、音声有無情報は、当該フレームに、音声がどの程度含まれているかの割合を示すような情報などであってもよい。また、音声のピッチ成分の強度を示すような情報などであってもよい。
 図7においては、音声有無情報分離器800と、デコーダ801と、スピーカー802と、マイクロホン803と、エコーキャンセラ804と、音声有無判定器805と、エンコーダ806とを備える通信システムが示される。
 音声有無情報分離器800は、入力のビットストリームから音声有無情報を取り出す。
 デコーダ801は、入力のビットストリームをデコードする。
 ここで、デコーダ801は、前記音声有無情報を用いて、入力のビットストリームをデコードする方式のデコーダでもよいし、前記音声有無情報を用いないで、入力のビットストリームをデコードする方式のデコーダでもよい。
 スピーカー802は、前記デコーダの出力信号を可聴信号に変換する。
 マイクロホン803は、前記スピーカー802を音源とする音響空間の音を収音する。
 エコーキャンセラ804は、前記デコーダ801でデコードされたデコード信号と、前記マイクロホン803で収音された信号と、前記音声有無情報とを当該エコーキャンセラ804に入力し、前記マイクロホン803で収音された信号から、前記デコード信号のエコーの成分を除去する。
 音声有無判定器805は、前記エコーキャンセラ804の出力信号に、音声の成分が含まれているか否かを判定する。
 エンコーダ806は、前記エコーキャンセラ804の出力信号を符号化する。
 上記のような構成で、エコーキャンセラ804を含む通信システムを構成することによって得られる効果について述べる。
 エコーキャンセラ804は、エコーが生成される空間の伝達関数を同定することによって、擬似的にエコー信号を、信号処理装置の内部で生成する。そして、エコーキャンセラ804は、収音された信号(エコーを含む信号)から、当該生成された擬似エコー信号を減算することで、エコーを除去する(例えば、電子情報通信学会論文誌 A Vol, J79-A No.6 pp.1138-1146 1996年6月“周波数帯域における音響エコー経路の変動特性を反映させたサブバンドESアルゴリズム”:非特許文献を参照)。
 ここで、空間の伝達関数の同定は、マイクロホン803によって収音される音の音源が、スピーカー802から発生した音のみに起因する場合に可能である。すなわち、マイクロホン803で収音される音に、スピーカー802からの音以外の他の音が入ってきている場合(ダブルトークの場合)には、空間の伝達関数を同定することが困難である。そこで、そのような場合、つまり、収音される音に、他の音が入ってきている場合には、同定のための学習を中止するように制御する。そこで、図7で示したような構成であれば、音声有無情報分離器800で分離された音声有無情報を、エコーキャンセラ804に転送する。このため、エコーキャンセラ804では、デコード音内の音声の成分の有無が容易に判定できる。これにより、ダブルトーク状態の検出が容易となる。
 図8は、エコーキャンセラ900を示す図である。
 ここでエコーキャンセラ804は、具体的には、例えば、図8に示すエコーキャンセラ900(帯域分割器901、帯域分割器902、バンド毎処理部903、帯域合成器904)のように、入力信号を、サブバンド分割し、対応するサブバンド毎に、空間の伝達関数を同定する方式でもよい。また、各対応するサブバンド毎に、異なるタップ長のフィルタで、空間の伝達関数を同定してもよい。更に、この場合、前記音声有無情報によって、音声が含まれていると判定される場合と、そうでない場合とで、タップ長を変更し、音声帯域の伝達関数を同定するように制御してもよい。なお、図8の、それぞれのバンド毎処理部903により、伝達関数の同定がされてもよい。また、それぞれのバンド毎処理部903により、エコー除去フィルタの処理がされてもよい。なお、低域信号は、周波数が、低域信号の周波数よりも高い高域信号におけるTap長よりも長いTap長のフィルタで、エコー除去されてもよい。また、音声有無情報から、音声信号が含まれると判断される場合には(或いは、音声情報が含まれる割合が(閾値よりも)大きいと判断される場合には)、音声帯域の信号に対して、比較的長いTap長のフィルタで、エコーの除去がされてもよい。
 続けて、次の説明がされる。オーディオデコーダ1a(オーディオデコーダ1)の細部については、具体的には、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。
 図5は、音信号処理システム4を示す図である。
 音信号処理システム4は、オーディオエンコーダ3と、オーディオデコーダ1とを備える。
 オーディオデコーダ1は、オーディオデコーダ1aである。なお、オーディオデコーダ1は、オーディオデコーダ1bであってもよいし、他のデコーダであってもよい。
 なお、オーディオデコーダ1aおよびオーディオデコーダ1bのそれぞれは、このように音信号処理システム4の一部である形態を有してもよいし、他の形態を有してもよい。
 ビットストリーム分離器100(図1)は、オーディオデコーダ1に入力されたビットストリームから、ビットストリームに含まれた符号化信号を取得する。取得される符号化信号は、オーディオエンコーダ3により符号化前信号(オーディオエンコーダ3に入力された符号化前信号(入力信号))が符号化された信号である。
 符号化信号は、複数の(N個の)種類の符号化信号のうちの、何れかの種類の符号化信号である。それぞれの種類の符号化信号は、複数の(N個の)種類の符号化器(例えば、後述される図3の複数の符号化器300x)のうちの、何れかの符号化器により、その符号化器による符号化の方法で符号化された符号化信号である。
 それぞれの種類の符号化信号は、その種類に対応する、スピーチの成分の量を有する。それぞれの種類の符号化信号は、対応する量のスピーチ成分を有する符号化前信号が符号化されるのに際して、複数の種類の符号化信号のうちで、その種類の符号化信号へと符号化されることが最も適切な符号化信号である。
 そして、複数の種類の符号化信号のうちには、その符号化信号が符号化される前の符号化前信号の線形予測係数と励振信号とが符号化された、(線形予測係数等を表す)符号化信号である特定符号化信号が含まれる。線形予測係数および励振信号は、人の声道の音響特性のモデルに対応する予め定められた計算式が、それらの線形予測係数等について計算されることにより、その符号化前信号が算出されるデータである。
 複数の復号化器102x(図1)は、それぞれの種類の符号化信号を復号化する複数の(N個の)復号化器(オーディオ信号復号化器102等)を含む。複数の復号化器102x(図1)は、ビットストリーム分離器100により取得された符号化信号を、その符号化信号の種類に対応する復号化器(利用復号化器)により復号化する。
 すなわち、このオーディオデコーダ1は、現在、規格化が進められつつある最新の規格である、USACの規格のオーディオデコーダである。
 そして、オーディオデコーダ1は、帯域拡大器104を備える。
 帯域拡大器104は、利用復号化器(上述)により復号化された復号化後信号の高域の部分を、その復号化信号の符号化前信号(原音)における高域の部分に近づける修正を、復号化後信号の高域の部分に対して行う。帯域拡大器104は、これにより、復号化後信号の再生帯域を拡大する。
 そして、より具体的には、帯域拡大器104は、このような、再生帯域の拡大をする際に、第1の方法および第2の方法のうちから一方を特定し、特定された方法により、拡大を行う。
 第1の方法では、帯域拡大器104は、復号化後信号における低域信号の周波数スペクトルに対応する周波数スペクトルを、復号化後信号の高域に複写する修正を、復号化後信号の高域の部分に行うことにより、帯域を拡大する。
 第2の方法では、帯域拡大器104は、符号化信号から、スピーチ信号復号化器103等により復号化された線形予測係数および励振信号から、特許第3189614号公報の方法などにより、復号化後信号の包絡特性を算出する。そして、帯域拡大器104は、算出された包絡特性により特定される、上記の第1の方法による修正での精度よりも高い精度での修正を、復号化後信号の高域の部分に行うことで、帯域を拡大する。なお、ここで、精度が高いとは、例えば、拡大後の拡大後信号が、拡大がされた復号化後信号の基となった符号化前信号に対して、より近いことである。
 具体的には、例えば、第2の方法では、第1の方法での加工後の信号(信号7L(信号7L1))の包絡特性よりも、算出された包絡特性に近い包絡特性を有する加工後の信号(信号7L(信号7L2))へと、加工を行うことにより、復号化前信号に対してより近い、加工後の信号へと、加工を行ってもよい。
 情報伝送器101は、例えばビットストリーム分離器100(選択情報取得部)などから、復号化される符号化信号が、線形予測係数および励振信号が符号化された特定符号化信号か否かを示す含有情報を取得する。なお、含有情報は、例えば、符号化信号の種類を示す、先述の種類信号(情報7I)の一部又は全部である。情報伝送器101は、取得された含有情報を、帯域拡大器104に伝送する。情報伝送器101は、符号化信号が、特定符号化信号ではない場合には、そのことを示す第1の含有情報を取得し、取得された第1の含有情報を帯域拡大器104に伝送することにより、第1の方法での、帯域の拡大を、帯域拡大器104に行わせる。他方、情報伝送器101は、符号化信号が、特定符号化信号である場合には、そのことを示す第2の含有情報を取得し、伝送することにより、第2の方法での拡大を帯域拡大器104に行わせる。
 このように、このオーディオデコーダ(オーディオデコーダ1、オーディオデコーダ1a)では、前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第1の量である場合(図11の(1)の場合)に適する第1の方式と、第1の量よりも多い第2の量である場合(図11の(2)の場合)に適する第2の方式とを含み、前記第2の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、当該線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式がオーディオデコーダ1等によって計算されることにより、前記入力信号が算出されるデータであり、当該オーディオデコーダは、USAC(Unified Speech and Audio Codec)の規格におけるオーディオデコーダであり、前記線形予測係数は、前記入力信号の包絡特性を特定し、前記信号加工器は、当該信号加工器に伝送される前記情報により、前記第2の方式(特定符号化信号の方式)以外の他の方式に対応する復号化器(オーディオ信号復号化器102)が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第1の加工後信号へと加工し、前記情報により、前記第2の方式に対応する復号化器(スピーチ信号復号化器103)が特定される場合には、前記第1の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有することにより、前記第1の加工後信号よりも前記入力信号に近い、第2の加工後信号へと、前記入力信号を加工する。
 これにより、包絡特性に基づいた、より適切な方法による加工が、確実にできる。
 なお、信号加工器(音声帯域強調器204)は、第2の方法の加工では、復号化後信号を、当該復号化後信号とは異なる加工後信号へと加工する(音声の強調を行う)一方で、第1の方法の加工における加工後信号は、前記復号化後信号と同一であってもよい(音声の強調がされていない信号であってもよい)。
 (実施の形態2)
 以下、本発明の実施の形態2におけるオーディオエンコーダについて、図面を参照しながら説明する。
 ここで、先述の背景技術の説明で述べられた、図9のような構成では、何れのエンコーダを用いるかは、入力信号分類器500による分類によって決定される。
 しかしながら、図11の範囲91で示したように、仮に、入力信号が、スピーチ信号であると分類されたとしても、符号化のビットレートが、所定の値より大きい場合には(範囲91b)、スピーチ信号符号化器で符号化するよりも、オーディオ信号符号化器で符号化した方が、高音質に符号化可能である。また、符号化前信号(入力信号)が、オーディオ信号と分類されても、ビットレートが、範囲91aの小さいビットレートである場合には、スピーチ用の符号化器により符号化された方が、音質が高い。この事実があるのに、入力信号分類器500の出力(分類の結果)のみで、ビットレートに関わらず、どの符号化方式を用いるかを決定すると、最適な符号化方式が選択されないという問題がある。
 なお、先の背景技術の説明でも、図11に言及された。しかし、この言及は、単なる、説明の便宜上の言及である。つまり、図11で示される事項は、本発明がされる前においては着目されていなかった事項であり、本発明がされるのに際して初めて着目された事項である。図11は、このような、本発明がされるのに際して初めて着目された、従来例における問題点を説明する。
 本発明は、このような、図11で示される、従来例における問題点に鑑みてなされたものであって、最適な符号化方式で、入力信号をエンコードできるようなオーディオエンコーダを提供する。
 つまり、本発明は、復号化された復号化後信号に加工がされるのに際して、適切な方法による加工ができることを目的とする(オーディオデコーダ1a等を参照)。また、本発明は、確実に、適切な符号化方式により符号化ができることを他の目的とする。なお、本発明は、ひいては、これらの効果から派生する種々の効果を得ることを他の目的とする。
 図3は、本実施の形態2におけるオーディオエンコーダ3cの構成を示す図である。
 オーディオエンコーダ3cは、図3において示されるように、オーディオ信号符号化器300と、スピーチ信号符号化器301と、信号分類器302と、選択器303と、ビットストリーム生成器304とを備える。
 オーディオ信号符号化器300は、入力信号(符号化前信号7P)の周波数スペクトル信号を符号化する。
 スピーチ信号符号化器301は、入力信号を線形予測係数と励振信号とに分け、分けられた線形予測係数と励振信号とのそれぞれを符号化する。
 信号分類器302は、入力信号の特徴に応じて、入力信号を分類する。なお、具体的には、信号分類器302は、入力信号の分類として、その入力信号に含まれるスピーチの成分(成分7M)の量を示す分類(分類情報S)を特定してもよい。
 選択器303は、前記複数の符号化器300xの中から、どの符号化器をオーディオエンコーダ3cが用いるかを選択する。つまり、選択器303は、複数の符号化器300xのなかから、選択符号化器を選択し、符号化前信号の符号化に用いられる利用符号化器として、選択された選択符号化器を利用させる。
 ビットストリーム生成器304は、利用符号化器により符号化されたそれぞれの符号化信号(符号化信号7Q)を、パッキングして、それぞれの符号化信号がパッキングされたビットストリーム(符号化後信号7T)を生成する。なお、生成されるビットストリームは、例えば、先述された、入力信号7S(図1)のビットストリームであってもよい(図5参照)。
 本実施の形態2では、オーディオ信号符号化器300を、順位1の符号化器とする。その符号化方式は、例えばAAC方式であるが、それに限られるのではなく、入力信号の周波数スペクトル信号を符号化する方式であればどのような方式であってもよい。また、本実施の形態2では、スピーチ信号符号化器301を、順位2の符号化器とする。その符号化方式は、例えばAMR方式であるが、それに限られるのではなく、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する方式であればどのような方式であってもよい。
 次に、以上のように構成されたオーディオエンコーダ3cの動作について以下説明する。
 まず、前記信号分類器302によって、入力信号の特徴に応じて、入力信号を分類する。具体的には、入力信号がスピーチ信号なのか、スピーチ信号でない信号なのかを、信号分類器302は分類する。なお、もちろん、信号分類器302は、背景音を含むようなスピーチ信号の場合には、スピーチ信号の成分がどの程度含まれるのかを判断し、含まれると判断された程度(量)が、閾値以上か否かに応じて、よりスピーチ信号に近いのか、そうでないのかを分類してもよい。
 例えば、信号分類器302は、入力信号が、完全にスピーチ信号だけを含んでいるような場合には、変数S(分類情報S)を10と特定し、逆にスピーチ信号を全然含んでいないような場合には、変数S(分類情報S)を0と特定する。また、信号分類器302は、その中間的な場合には、スピーチ信号が含まれる度合いに応じて、0から10までの値を変数Sに設定する。
 次に、選択器303によって、前記信号分類器302で設定される値Sと、別途入力される指標Bとによって、前記複数の符号化器の中からどの符号化器を用いるかを(利用符号化器を)選択する。例えば指標Bは、符号化のビットレートである。
 選択器303は、前記Sの値が比較的小さい場合には(入力信号にスピーチ信号が含まれる度合いが小さい場合には)、順位の若い符号化器を選択する(本実施の形態では順位1の符号化器、すなわちオーディオ信号符号化器300を選択する)。そして、選択器303は、前記Sの値が大きい場合には(入力信号にスピーチ信号が含まれる度合いが、大きい場合には)、順位の大きい符号化器を選択する(本実施の形態では、例えば、順位2の符号化器、すなわちスピーチ信号符号化器301を選択する)。
 ただし、選択器303は、指標Bで表される符号化ビットレートが、高いビットレートである場合には、順位の若い符号化器を、より多く用いるように、符号化器を選択する。つまり、選択器303は、例えば、予め定められたビットレート以上のビットレートである場合には、そのビットレート以下のビットレートである場合に、予め定められた順位以下の順位の符号化器を用いる頻度(割合)よりも高い頻度(割合)で、その符号化器を用いる。
 より具体的には、例えば、選択の処理は、次の通りである。
 例えば、選択器303は、Bが24kbpsのときには、Sが5以下の場合に、オーディオ信号符号化器300を用い、Sが5より大きい場合に、スピーチ信号符号化器301を用いるように選択する。一方、選択器303は、例えば、Bが32kbpsのときには、Sが7以下の場合、オーディオ信号符号化器300を用い、Sが7より大きい場合、スピーチ信号符号化器301を用いるように、符号化器を選択する。また、選択器303は、例えばBが48kbpsの場合、Sの値に関わらず、スピーチ信号符号化器301を用いないように選択をする。これは、それぞれの符号化器による音質の傾向が、図11に示すようになっているからである。
 図11の横軸は、符号化のビットレートを示しており、縦軸は、音質を示している。実線の曲線は、AACのようなオーディオコーデックにおける、ビットレートと音質との関係を示している。一点鎖線の曲線は、AMRのようなスピーチコーデックでスピーチ信号処理した際の、ビットレートと音質との関係を示している。つまり、図11における、破線の曲線(データ74A)は、スピーチコーデックで、スピーチ信号でない信号を処理した際の、ビットレートと音質との関係を示している。図11に示すように、ビットレートがある所定の値(例えば、範囲91bの下端の値)より大きい場合には、入力信号がスピーチ信号であっても((2)の場合)、そうでなくても((1)の場合)、オーディオコーデック(データ73)の方が、より高音質に信号を符号化できる。
 このような特徴に鑑みたとき、入力信号が、スピーチ信号かどうかだけ(分類情報Sだけ)を手がかりに、符号化器を選択することは相応しくない。そこで、選択器303で、外部から、分類情報Sとは別途、入力される指標Bによって、符号化器を、より適切に選択するのである。
 すなわち、例えば、信号分類器302は、複数の符号化器300x(図3)に含まれる符号化器の個数よりも多い個数の分類(S=0~10)のうちから、符号化前信号の分類を特定してもよい。そして、選択器303は、それらの複数の分類の閾値として、指標B(例えば、24kbps)に対応する閾値(例えば5)を特定する。そして、選択器303は、信号分類器302により特定された分類(S)が、閾値(5)以下の小さい分類である場合、比較的低い順位の符号化器(オーディオ信号符号化器300)を選択し、閾値より大きい分類である場合(Sが5より大きい場合)、比較的高い順位の符号化器(スピーチ信号符号化器301)を選択する。
 そして、選択器303は、指標Bにより、対比ビットレート(例えば、32kbps)ではないビットレート(例えば、48kbps)が示される場合には、対比ビットレートが示される場合に特定する対比閾値(7)とは異なる閾値(無限大)を特定する。つまり、選択器303は、対比ビットレートよりも大きいビットレート(48kbps)が示される場合、対比閾値よりも大きい閾値(例えば、無限大)を選択して、比較的低い順位の符号化器(オーディオ信号符号化器300)をより高い頻度で選択し、比較的高い順位の符号化器(スピーチ信号符号化器301)を、より低い頻度で選択する。他方、選択器303は、対比ビットレート(例えば、32kbps)よりも小さいビットレート(例えば、24kbps)が示される場合、対比閾値(7)よりも小さい閾値(5)を選択して、比較的低い順位の符号化器(オーディオ信号符号化器300)をより低い頻度で選択し、比較的高い順位の符号化器(スピーチ信号符号化器301)をより高い頻度で選択する。
 また、選択器303は、閾値を特定しなくてもよい。つまり、一部又は全部の局面において、例えば、次の処理がされてもよい。つまり、例えば、選択器303は、指標Bにより、予め定められたビットレート(例えば、図11の範囲90のビットレート)よりも大きなビットレート(例えば、範囲91bのビットレート)が示される場合には、信号分類器302により特定された分類に関わらず、何れの分類が特定された場合にでも、比較的高い順位の符号化器(スピーチ信号符号化器301)は選択せず、比較的低い順位の符号化器(オーディオ信号符号化器300)を選択してもよい。そして、選択器303は、指標Bにより、予め定められたビットレートより小さなビットレート(例えば、範囲91aのビットレート)が示される場合には、信号分類器302により特定された分類に関わらず、比較的低い順位の符号化器(オーディオ信号符号化器300)は選択せず、比較的高い順位の符号化器(スピーチ信号符号化器301)を選択してもよい。
 次に、前記選択器303で、オーディオ信号符号化器300が選択された場合、当該オーディオ信号符号化器300で入力信号を符号化する。
 一方、前記選択器303でスピーチ信号符号化器301が選択された場合には、当該スピーチ信号符号化器301で入力信号を符号化する。
 最後に、ビットストリーム生成器304で、1以上の符号化信号を、ビットストリームへとパッキングして、ビットストリームを生成する。
 上記のように、本実施の形態によれば、入力信号(符号化前信号7P)の周波数スペクトル信号を符号化するオーディオ信号符号化器(オーディオ信号符号化器300)と、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化するスピーチ信号符号化器(スピーチ信号符号化器301)と、入力信号の特徴に応じて、入力信号を分類する信号分類器(信号分類器302)と、前記複数の符号化器の中からどの符号化器を用いるか(選択符号化器(利用符号化器))を選択する選択器(選択器303)と、符号化信号をパッキングしてビットストリームを生成するビットストリーム生成器(ビットストリーム生成器304)とを備える。このため、選択器において、信号分類器の分類結果(分類情報S)と、予め定められた指標B(ビットレート)とによって最適な符号化器を選択することで、入力信号の分類と、それぞれの符号化器の特性とに応じて、最適な符号化器が選択できるので良好な音質が得られる。
 なお、指標Bは、以下に説明されるプロファイル情報でもよい。
 本実施の形態では、前記選択器303に入力される指標を、符号化のビットレートとしたが、例えば、用途を表す指標であってもよい。すなわち、選択器303は、用途を表す指標が、音声通話を含む用途を示す場合には、そうでない場合と比べて、順位の若い符号化器を、あまり選択しないようにする。或いは全く選択しないようにする。
 図6は、プロファイル情報(指標B)の表(図6下段)を示す図である。
 図6下段の表の第1列に示される、「音声通話Profile」などのそれぞれは、USACの規格に対して、詳細な点の規定を加えた、USACの規格のプロファイルのうちの1つである。これらの複数のプロファイルのうちの1つは、プロファイル情報(用途情報)たる指標Bにより特定される。
 例えば、「音声通話Profile」は、携帯電話や、有線電話などの、音声通話に用いるのに適するプロファイルである。また、「AV Com Profile」は、テレビ電話での通信に適するプロファイルである。また、「Mobile TV Profile」は、ワンセグテレビの通信に適するプロファイルであり、「TV Profile」は、フルセグのテレビの通信に適するプロファイルである。
 なお、「音声通話Profile」などの、複数のプロファイルのうちの1つ又は複数は、例えば、携帯電話の通信における規格により、その規格の一部として指定され、参照されるプロファイルであってもよい。
 図6の表の第3列~5列におけるそれぞれの列(Audio、A/S(Audio/Speech)、Speech)は、それぞれの行のプロファイルにおける、選択器303(選択器403)が選択することが許される許可符号化器を示す。第3列の丸印は、オーディオ信号符号化器300が許可符号化器であることを示し、第5列の丸印は、スピーチ信号符号化器301が許可符号化器であることを示す。
 そして、高いビットレート(例えば48kbps(第5行第2列))のプロファイルでは、順位の低い符号化器(オーディオ信号符号化器300、第5行第3列)が許可符号化器であり、順位の高い符号化器(スピーチ信号符号化器301、第5行第5列)が許可符号化器ではない。他方、低いビットレート(4kbps(第2行第2列)など)のプロファイルでは、順位の低い符号化器(第2行第3列)が許可符号化器ではなく、順位の高い符号化器(スピーチ信号符号化器301、第2行第5列)が許可符号化器である。また、中間のビットレート(例えば12kbps(第3行第2列))のプロファイルでは、より低いビットレートのときの許可符号化器(スピーチ信号符号化器301、第2行第5列)と、より高いビットレートのときの許可符号化器(オーディオ信号符号化器300、第5行第3列)との両方がそれぞれ許可符号化器である(第3行第3列、第5列)。
 そして、選択器303は、複数の符号化器のうちで、取得された指標Bにより示されるプロファイルについての、1個又は複数個の許可符号化器のなかから、選択符号化器を選択し、許可符号化器ではない符号化器は選択しない。なお、例えば、選択器303は、選択した選択符号化器の順位を特定する順位情報Xを生成することにより、生成された順位情報Xが特定する選択符号化器により、符号化前信号を符号化させる。
 なお、図6の表の第4列については、後で詳しく説明される。
 なお、オーディオエンコーダ3c(オーディオエンコーダ3、図3、図5、図6)は、例えば、選択器303により取得される指標Bが設定され、設定された指標Bを保持するプロファイル情報設定部B1(図6)を有しても良い。
 これにより、プロファイルに基づいて、簡単かつ的確に、適切な符号化器が選択できる。
 なお、前記選択器303に入力される指標は、符号化する信号のチャネル数を示す指標であってもよい。すなわち、選択器303は、チャネル数が多い場合には、そうでない場合に比べて、順位の若い符号化器を、より多く選択する。入力信号のチャネル数が多いということは、用途としては、リッチコンテンツを符号化する用途であると考えられるので、スピーチ信号のみが強く含まれているということを想定しない方が良いからである。
 なお、こうして、用途(プロファイルの種類:図6の表の第1列)を示すことにより、示される用途におけるビットレート(第2列)を特定する指標Bが用いられてもよい。
 さて、本実施の形態においては、符号化器として、順位1から順位2の2つの符号化器を用いて、その動作を説明したが、もちろんそれに限られない。
 図4は、符号化器として、順位1から順位3の3つの符号化器を用いたオーディオエンコーダ3d(オーディオエンコーダ3(図5))を示す図である。図3と図4の構成要素で、異なることは、図4では混合信号符号化器405をさらに備えていることと、選択器403が、順位1から順位3までの3つの符号化器から符号化器を選択することである。他の構成要素については、例えば、図3の、その構成要素に対応する要素と同じでもよい。ここでは、順位1の符号化器は、オーディオ信号符号化器400であり、順位2の符号化器は、混合信号符号化器405であり、順位3の符号化器は、スピーチ信号符号化器401である。
 このような構成の場合、選択器403では、信号分類器402からの情報(分類情報)Sと、別途入力される指標Bによって、3つの符号化器の中から、適切な符号化器を選択する。
 選択器403は、前記Sの値が小さい場合には(入力信号にスピーチ信号の成分が含まれる度合いが、小さい場合には)、順位の若い符号化器を選択する(本実施の形態では順位1の符号化器、すなわちオーディオ信号符号化器400を選択する)。また、選択器403は、前記Sの値が大きい場合には(入力信号にスピーチ信号の成分が含まれる度合いが、大きい場合には)順位の大きい符号化器を選択する(本実施の形態では順位3の符号化器、すなわちスピーチ信号符号化器401を選択する)。また、選択器403は、中間的な値の場合、混合信号符号化器405を選択する(本実施の形態では、順位2の符号化器を選択する)。
 ただし、選択器403は、指標Bで表される符号化ビットレートが、高い場合には、順位の若い符号化器をより多く用いるように、選択をする。
 具体的には、例えば、選択器403は、Bが24kbpsのときには、Sが3以下の場合に、オーディオ信号符号化器400を用い、Sが3より大きく7以下の場合に、混合信号符号化器405を用い、Sが7より大きい場合に、スピーチ信号符号化器401を用いるように、選択をする。
 そして、例えば、選択器403は、Bが32kbpsのときには、Sが5以下の場合に、オーディオ信号符号化器400を用い、Sが5より大きく9以下の場合に、混合信号符号化器405を用い、Sが9より大きい場合に、スピーチ信号符号化器401を用いるように、選択をする。
 また、例えば、選択器403は、Bが48kbpsのときには、Sが7以下の場合に、オーディオ信号符号化器400を用い、Sが7より大きい場合に、混合信号符号化器405を用い、Sの値に関わらず、スピーチ信号符号化器401を用いないようにする。
 逆に、例えば、選択器403は、Bが12kbpsのときには、Sが3以下の場合に、混合信号符号化器405を用い、Sが7より大きい場合に、スピーチ信号符号化器401を用い、Sの値に関わらず、オーディオ信号符号化器400は用いないようにする。
 また、選択器403は、符号化された符号化信号の用途が、放送や音楽配信など、一定の音質以上の比較的高い音質が求められる用途の場合には、順位3の符号化器(スピーチ信号符号化器401)は用いないようにしてもよい。また、選択器403は、用途が、通話を含む用途の場合には、順位1の符号化器(オーディオ信号符号化器400)は用いないようにしてもよい。
 ここで、混合信号符号化器405は、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。ただし、混合信号符号化器405は、分けられた励振信号については、その励振信号に対応する周波数軸信号を符号化することによって、その励振信号を符号化する。
 なお、図6の表の第4列では、混合信号符号化器405が許可符号化器か否かが示される。図6の表の第4列の内容に沿った動作がされてもよい。つまり、選択器403は、例えば、プロファイルを示す指標Bに基づいて、上記の3つの符号化器のなかから、指標Bにより示されるプロファイルに対応する許可符号化器を、選択符号化器として選択してもよい。そして、選択器403は、こうして、3つの符号化器から、プロファイルに基づいて選択した選択符号化器により、符号化前信号を符号化させてもよい。
 なお、こうして、例えば、順位1の前記符号化器(オーディオ信号符号化器400)は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、順位N(2<N)の前記符号化器(スピーチ信号符号化器401)は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の時間軸信号を符号化し、順位M(1<M<N)の前記符号化器(混合信号符号化器405)は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の周波数軸信号を符号化するオーディオエンコーダが構築されてもよい。
 すなわち、要約すれば、実施の形態により、次の課題が解決される。つまり、この実施の形態は、低ビットレートで高音質を得られるような、オーディオエンコーダおよびオーディオデコーダに関する。そして、解決される課題とは、入力信号が、音声信号(人の声)であっても、非音声信号(楽音、自然音など)であっても、良好な音質が得られるようなオーディオエンコーダ(オーディオエンコーダ3c等)およびオーディオデコーダ(オーディオデコーダ1a等)を提供することである。このために、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器(利用符号化器)の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたか(利用符号化器)を示す情報を前記信号加工器に伝える情報伝送器と、を備えるオーディオデコーダが構築される。
 なお、オーディオエンコーダ3cの、より詳細な点は、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。
 つまり、オーディオエンコーダ3cは、複数の符号化器(複数の符号化器300x)と、信号分類器(信号分類器302)と、選択器(選択器303)とを備える。
 信号分類器は、入力信号(符号化前信号7P)に含まれる、スピーチの成分7Mの量(分類情報S)を、複数の量のなかから特定する。
 前記複数の量のうちの1つは、予め定められた特定量(例えばS=6の量)である。
 複数の符号化器は、特定符号化器(スピーチ信号符号化器301)を含む。特定符号化器は、含まれるスピーチの成分の量が、前記特定量(6)である符号化前信号の符号化において、前記符号化前信号が符号化された前記符号化信号のビットレートが第1のビットレート(例えば、24kbps)である場合には、前記複数の符号化器のうちで最適であり、第2のビットレート(例えば、32kbps)である場合には、最適ではない符号化器である。
 それぞれの前記符号化器は、その符号化器が利用符号化器である場合に、前記符号化前信号を前記符号化後信号へと符号化する。
 選択器は、前記信号分類器により特定された量が、前記特定量(6)の場合において、指標(指標B)により示される、前記符号化後信号のビットレートが、前記第1のビットレート(24kbps)である場合には、前記特定符号化器(スピーチ信号符号化器301)を前記利用符号化器として選択する。そして、前記第2のビットレート(32kbps)である場合には、前記特定符号化器を前記利用符号化器として選択しない。つまり、後者の場合、他の符号化器が選択される。
 これにより、スピーチの成分の量が特定量であるときにおいて、利用符号化器として、確実に、適切な符号化器が選択できる。
 つまり、スピーチの成分の量が特定量でも、ビットレートが、第1のビットレートの場合にのみ、特定符号化器が選択され、第2のビットレートの場合には、他の符号化器が選択される。これにより、ビットレートに関わらず、確実に、適切な符号化器が選択できる。
 換言すれば、例えば、このオーディオエンコーダ(オーディオエンコーダ3)においては、次の通りである。
 つまり、それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合に、前記入力信号を符号化信号へと符号化する。
 前記複数の符号化器は、前記符号化信号のビットレートが、予め定められた特定ビットレート(範囲91aのビットレート)である場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器(スピーチ信号符号化器301)を含む。
 なお、最も適切に符号化するとは、先述のように、例えば、符号化された符号化信号のデータ量および音質の評価値が比較的高いことをいう。
 前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート(範囲91aのビットレート)である場合と、前記特定ビットレートでない場合と(範囲90、範囲91b)のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器(オーディオ信号符号化器502)を、前記利用符号化器として選択する。
 また、具体的には、例えば、次の通りである。
 つまり、前記複数の符号化器は、前記符号化信号のビットレートが、予め定められた特定ビットレート(24kbps)で(かつSが6で)ある場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器(スピーチ信号符号化器301)を含む。
 前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート(24kbps)である場合と、前記特定ビットレートでない場合と(例えば32kbpsである場合と)のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器(オーディオ信号符号化器300)を、(Sが6の場合において)前記利用符号化器として選択する。
 そして、より詳細には、次の通りである。
 前記特定符号化器は、前記入力信号が特定入力信号(Sが5以下の場合の入力信号)である場合には、前記符号化信号のビットレートが前記特定ビットレート(24kbps)でも、前記入力信号の符号化において、最も適切ではない。
 前記信号分類器は、前記入力信号が、前記特定入力信号(Sが5以下)であることを特定する。
 前記選択器は、前記符号化信号のビットレートが、前記特定ビットレート(24kbps)であっても、前記信号分類器により、前記入力信号が前記特定入力信号(Sが5以下)と特定される場合には、他の前記符号化器(オーディオ信号符号化器300)を選択する。
 前記特定入力信号は、特定量(Sが5以下の量)だけ、スピーチの成分を含む前記入力信号である。
 前記信号分類器は、前記入力信号に含まれる、スピーチの成分の量(S)を特定する。
 前記選択器は、閾値を特定し、特定された前記閾値が、前記信号分類器により特定された前記量以上である場合に、他の前記符号化器(オーディオ信号符号化器300)を前記利用符号化器として選択し、特定された前記量未満である場合に、前記特定符号化器(スピーチ信号符号化器301)を選択する。なお、前記選択器は、前記符号化信号のビットレートが、前記特定ビットレート(24kbps)である場合には、前記特定量(Sが5以下の量)以上の閾値(5)を特定する。
 なお、音信号処理システム4は、例えば、オーディオエンコーダ3として、オーディオエンコーダ3c(オーディオエンコーダ3d)を備え、オーディオデコーダ1として、オーディオデコーダ1a(オーディオデコーダ1b)を備える、USACの規格における音信号処理システムでもよい。
 この音信号処理システム4によれば、オーディオデコーダ1において、比較的適切な方法での加工が実行される。そして、オーディオエンコーダ3により、適切な符号化方式が、より確実に選択されることにより、適切な方法での加工が確実に実行できる。
 オーディオエンコーダ3c(オーディオエンコーダ3d)およびオーディオデコーダ1a(オーディオデコーダ1b)は、この音信号処理システム4を構成する2つの部品に利用できて、互いに密接な関係を有する。つまり、音信号処理システム4、オーディオエンコーダ3、オーディオデコーダ1は、この効果により互いに結ばれた技術であり、単一の技術範囲に属する。すなわち、仮に、ボルトと、ナットと、それらボルトおよびナットを含んでなる全体たる結合具とが、単一の技術範囲に属すると仮定する。この音信号処理システム4は、全体である結合具に対応し、オーディオエンコーダ3は、ボルトおよびナットのうちの一方に対応し、オーディオデコーダ1は他方に対応する。
 なお、本発明は、上記の実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記の実施の形態に施した形態、或いは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 今回開示された実施の形態はすべての点で例示であって、制限的な記載ではないと考えられるべきである。本発明の範囲は、上記した説明ではなくて、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 なお、実施の形態における、単なる細部については、単に、公知の技術が適用されただけの形態にされてもよいし、更なる改良発明が加えられた形態などにされてもよい。
 そして、例えば、次の動作がされてもよい。なお、次の動作は、ある局面でのみ行われてもよい。なお、次の動作も、単なる一例である。
 つまり、音信号処理システム4(図5)は、USACにおけるシステムでもよい。
 そして、予め定められた情報7I(図1)により、符号化信号7Cが符号化されたコーデックが、オーディオコーデックと、スピーチコーデックとのうちの、オーディオコーデックであると示される場合に、オーディオコーデックでの復号化がされてもよい(オーディオ信号復号化器102、S4)。
 そして、当該情報7Iにより、スピーチコーデックであると示される場合に、スピーチコーデックでの復号化がされてもよい(スピーチ信号復号化器103、S4)。
 そして、当該情報7Iにより示される方のコーデックでの復号化がされた復号化後信号7Aに対して、帯域の拡大の処理がされ、帯域の拡大がされた加工後信号7Lが生成されてもよい(帯域拡大器104、S6)。
 そして、この生成がされるのに際して、先述された情報7Iが伝送され、伝送される情報7Iが(帯域拡大器104により)取得されることにより(S5)、取得される当該情報7Iにより、オーディオコーデックが示される場合に、第2の方法以外の第1の方法で、加工後信号7Lの生成がされてもよい(第1の加工後信号7L1、S6)。
 そして、スピーチコーデックが示される場合には、第2の方法で、生成がされてもよい(第2の加工後信号7L2、S6)。
 ここで、第2の方法は、オーディオコーデックでの復号化がされる際には利用可能でなく、スピーチコーデックでの復号化がされる際にのみ利用可能な方法であり、かつ、生成される第2の加工後信号7L2が、第1の方法で生成される第1の加工後信号7L1よりも、より適切な信号である方法でもよい。
 つまり、先述のように、例えば、第2の方法は、線形予測係数および励振信号から包絡特性を算出し、算出された包絡特性から特定される第2の加工後信号7L2を、帯域の拡大がされた加工後信号7Lとして生成する方法でもよい(特許文献1:特許第3189614号公報等を参照)。
 これにより、加工がされた加工後信号7Lとして、より適切な第2の加工後信号L2が生成できる。
 しかも、単なる、示されるコーデックでの復号化が行われる情報7Iが、加工に際しても利用され、流用されるだけで足りて、別の情報が必要にならず、処理が簡単にできる。
 このため、適切な加工後信号7Lが生成されることと、処理が簡単なこととが両立できる。
 なお、具体的には、例えば、加工後信号7Lの生成がされる際まで、情報7Iを記憶し、記憶される情報7Iが、加工後信号7Lの生成に際して利用される、記憶部が設けられてもよい。この記憶部は、例えば、情報伝送器101の一部などでもよい。
 なお、情報7Iが、当該伝送線7Xを通じて、帯域拡大器104等に伝送される伝送線(伝送媒体)7X(図1)が設けられてもよい。
 なお、図1の各機能ブロックなどの、それぞれの機能ブロックは、例えば、ソフトウェアが実行されることにより、コンピュータに実現される機能の機能ブロックでもよいし、ソフトウェアを用いない、演算回路による機能の機能ブロックなどでもよい。
 ここで、符号化前信号7P(図3)に含まれる、スピーチの成分7Mの量が、閾値よりも多いか否か(図11の(1)、(2)を参照)を示す分類情報S(図3)が生成されてもよい(信号分類器302、S1)。
 そして、生成される分類情報Sにより、閾値より多いと示される場合に(例えば、図11の(2)の場合に)、スピーチ信号符号化器301が選択されてもよい(選択器303、S2)。
 そして、スピーチ信号符号化器301が選択された場合に、スピーチコーデックでの符号化がされてもよい(スピーチ信号符号化器301、S3)。
 しかしながら、符号化がされた符号化後信号7Tは、例えば、先述された符号化信号7C(入力信号7S、図1)でもよい。
 そして、先述のように、符号化信号7C(図1)のコーデックが、スピーチコーデックである場合に、より適切な第2の加工後信号7L2が生成される。
 そこで、生成される分類情報Sにより、スピーチの成分7Mの量が、閾値よりも多いと示される場合だけでなく、少ないと示される場合においても(図11の(1))、スピーチ信号符号化器301が選択されてもよい(選択器303、S2)。
 これにより、より確実に、適切な第2の加工後信号7L2が生成できる。
 しかしながら、指標Bにより示されるビットレートが、範囲91a内のビットレートである場合と、範囲91a内ではないビットレート(範囲90、範囲91b内のビットレート等)である場合とがある。
 そして、指標Bにより示されるビットレートが、範囲91a内ではない場合には(範囲90、範囲91b)、スピーチコーデックでの符号化がされることにより(データ74A)、音質が、低い音質になってしまう(データ74A、74Sを参照)。
 一方で、指標Bにより示されるビットレートが、範囲91a内である場合には、スピーチコーデックでの符号化がされても(図11のデータ74A)、音質が高い。
 そこで、ビットレートを示す指標Bが取得されてもよい(選択器303、S2)。
 そして、スピーチの成分7Mの量が、閾値よりも少ない場合において(図11の(1))、次の処理がされてもよい。
 つまり、その処理では、取得された指標Bにより、範囲91a内のビットレートが示される場合にのみ、スピーチ信号符号化器301が選択され(データ74A)、範囲91a外のビットレートが示される場合には(範囲90、範囲91b)、オーディオ信号符号化器300が選択されてもよい(選択器303、S2)。
 つまり、これにより、範囲91a内のビットレートが示される場合にのみ、スピーチコーデックでの符号化がされ(スピーチ信号符号化器301、S3)。範囲91a内でないビットレートが示される場合には、オーディオコーデックでの符号化がされてもよい(オーディオ信号符号化器300、S3)。
 これにより、指標Bが、範囲91a内のビットレートを示す場合には、スピーチコーデックでの符号化がされて、より確実に、適切な第2の加工後信号7L2が生成できる。
 しかも、指標Bが、範囲91a内のビットレートを示さない場合には、オーディオコーデックでの符号化がされて、音質が高くできる。
 これにより、より確実に、適切な第2の加工後信号7L2が生成できることと、音質が高いこととが両立できる。
 なお、先述のように、より具体的には、例えば、スピーチの成分7Mの量が、閾値よりも多い場合においても(図11の(2))、取得される指標Bに応じた処理がされてもよい。
 こうして実施形態の音信号処理システム4においては、オーディオデコーダ1と、オーディオエンコーダ3を備え、上述の両立ができる(図5、図12等)。
 オーディオデコーダ1と、オーディオエンコーダ3とは、何れも、この両立のための部品に利用可能であり、単一の技術範囲に属する。
 なお、それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化し、前記複数の符号化器は、特定符号化器を含み、前記特定符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレートである場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化し、前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレートである場合と、前記特定ビットレートでない場合とのうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器を、前記利用符号化器として選択するオーディオエンコーダが構築されてもよい(先述の説明を参照)。
 そして、より具体的には、前記特定符号化器は、前記入力信号が特定入力信号である場合には、前記符号化信号のビットレートが前記特定ビットレートでも、前記入力信号の符号化において、最も適切ではなく、前記信号分類器は、前記入力信号が前記特定入力信号であることを特定し、前記選択器は、前記符号化信号のビットレートが、前記特定ビットレートであっても、前記信号分類器により前記入力信号が前記特定入力信号と特定される場合には、他の前記符号化器を選択してもよい(先述の説明を参照)。
 なお、互いに離れた箇所に記載された、複数の技術事項が、適宜、組み合わせられてもよい。また、上述された、適切な1以上の工程を含んでなる方法が構築されてもよい。また、上述された1以上の機能が実装された集積回路が構築されてもよい。また、それらの機能をコンピュータに実現するためのコンピュータプログラムが構築されてもよい。また、このコンピュータプログラムのデータが有するデータ構造などが構築されてもよい。
 本発明にかかるオーディオデコーダは、符号化時に選択される複数の符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて、互いに異なる複数の方法のうちから選択された方法で、信号を加工する。このため、入力の符号化信号の性質(スピーチ信号か、オーディオ信号かの性質)に応じて、最適なデコード信号を生成できるので、携帯端末から、デジタルテレビなどの大型AV機器まで、幅広い機器に応用できる。
 本発明にかかるオーディオエンコーダは、1からN(N>1)までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて、入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。このため、最適な符号化方式で、入力信号をエンコードすることによって、比較的低いビットレートで、スピーチ信号からオーディオ信号までの信号を、高音質に符号化でき、従って、携帯端末から、デジタルテレビなどの大型AV機器まで、幅広い機器に応用できる。
 そして、より具体的には、簡単な構成で、加工後信号の質が高くできる。しかも、確実に、加工後信号の質が高くされるにも関わらず、高い音質が維持できる。
 1a オーディオデコーダ
 100、200 ビットストリーム分離器
 101、201 情報伝送器
 102、202 オーディオ信号復号化器
 102x 復号化器
 103、203 スピーチ信号復号化器
 104 帯域拡大器
 204 音声帯域強調器
 300、400 オーディオ信号符号化器
 301、401 スピーチ信号符号化器
 302、402 信号分類器
 303、403 選択器
 304、404 ビットストリーム生成器
 500 入力信号分類器
 501 高域信号符号化器
 502 オーディオ信号符号化器
 503 スピーチ信号符号化器
 504 ビットストリーム生成器
 600 ビットストリーム分離器
 601 オーディオ信号復号化器
 602 スピーチ信号復号化器
 603 帯域拡大器
 800 音声有無情報分離器
 801 デコーダ
 802 スピーカー
 803 マイクロホン
 804 エコーキャンセラ
 805 音声有無判定器
 806 エンコーダ
 900 エコーキャンセラ
 901、902 帯域分割器
 903 バンド毎処理部
 904 帯域合成器

Claims (13)

  1.  入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、
     それぞれの復号化器が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が、前記符号化信号を復号化する複数の復号化器と、
     前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、
     前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダ。
  2.  前記複数の復号化器は、
     前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第1の復号化器と、
     前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第2の復号化器とを有し、
     前記信号加工器は、前記対応復号化器により復号化された前記復号化後信号の再生帯域を拡大し、伝送された前記情報により前記第2の復号化器が特定される場合には、前記復号化後信号に対して、前記線形予測係数に基づいて算出される、周波数の包絡特性に応じた、再生帯域の拡大処理を実施する請求項1記載のオーディオデコーダ。
  3.  前記複数の復号化器は、
     前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第1の復号化器と、
     前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第2の復号化器とを有し、
     前記信号加工器は、伝送された前記情報により前記第2の復号化器が特定される場合には、前記復号化後信号に対して、当該復号化後信号における音声帯域の音を強調する処理を実施する請求項1記載のオーディオデコーダ。
  4.  前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第1の量である場合に適する第1の方式と、第1の量よりも多い第2の量である場合に適する第2の方式とを含み、
     前記第2の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、
     前記線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式が計算されることにより、前記入力信号が算出されるデータであり、
     当該オーディオデコーダは、USAC(Unified Speech and Audio Codec)の規格におけるオーディオデコーダであり、
     前記線形予測係数は、前記入力信号の包絡特性を特定し、
     前記信号加工器は、
     当該信号加工器に伝送される前記情報により、前記第2の方式以外の他の方式に対応する復号化器が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第1の加工後信号へと加工し、
     前記情報により、前記第2の方式に対応する復号化器が特定される場合には、前記第1の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有することにより、前記第1の加工後信号よりも前記入力信号に近い、第2の加工後信号へと、前記入力信号を加工する請求項1記載のオーディオデコーダ。
  5.  複数の符号化器と、
     入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
     前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダ。
  6.  前記複数の符号化器のそれぞれは、1からN(N>1)までの順位のうちの1つが付けられた請求項5記載のオーディオエンコーダ。
  7.  順位1の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
     順位N(1<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化する符号化器である請求項6記載のオーディオエンコーダ。
  8.  順位1の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
     順位N(2<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の時間軸信号を符号化し、
     順位M(1<M<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の周波数軸信号を符号化する請求項6記載のオーディオエンコーダ。
  9.  前記指標は、前記利用符号化器により前記入力信号から符号化される符号化信号のビットレートを示し、
     前記選択器は、前記指標により示されるビットレートが第1のビットレートのときには、前記第1のビットレートよりも低い第2のビットレートのときに、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも高い頻度で、当該若い順位の符号化器を選択する請求項6記載のオーディオエンコーダ。
  10.  前記指標は、前記利用符号化器により前記入力信号が符号化された符号化信号の用途を示し、
     前記選択器は、前記指標により示される前記用途が、音声通話を含む用途である場合には、前記音声通話を含まない用途である場合に、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも低い頻度で、当該若い順位の符号化器を選択する請求項6記載のオーディオエンコーダ。
  11.  それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化し、
     前記複数の符号化器は、特定符号化器を含み、
     前記特定符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレートである場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化し、
     前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレートである場合と、前記特定ビットレートでない場合とのうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器を、前記利用符号化器として選択する請求項5記載のオーディオエンコーダ。
  12.  前記特定符号化器は、前記入力信号が特定入力信号である場合には、前記符号化信号のビットレートが前記特定ビットレートでも、前記入力信号の符号化において、最も適切ではなく、
     前記信号分類器は、前記入力信号が前記特定入力信号であることを特定し、
     前記選択器は、前記符号化信号のビットレートが、前記特定ビットレートであっても、前記信号分類器により前記入力信号が前記特定入力信号と特定される場合には、他の前記符号化器を選択する請求項11記載のオーディオエンコーダ。
  13.  オーディオデコーダとオーディオエンコーダとを備える、USAC(Unified Speech and Audio Codec)の規格における音信号処理システムであって、
     前記オーディオデコーダは、請求項1記載のオーディオデコーダであり、
     前記オーディオエンコーダは、
     複数の符号化器と、
     入力信号の特徴に応じて、特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
     前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備える音信号処理システム。
PCT/JP2010/004728 2009-09-30 2010-07-23 オーディオデコーダ、オーディオエンコーダ、システム WO2011039919A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201080043418.0A CN102576534B (zh) 2009-09-30 2010-07-23 音频解码器、音频编码器、系统
US13/433,063 US8688442B2 (en) 2009-09-30 2012-03-28 Audio decoding apparatus, audio coding apparatus, and system comprising the apparatuses

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009228953A JP5519230B2 (ja) 2009-09-30 2009-09-30 オーディオエンコーダ及び音信号処理システム
JP2009-228953 2009-09-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/433,063 Continuation US8688442B2 (en) 2009-09-30 2012-03-28 Audio decoding apparatus, audio coding apparatus, and system comprising the apparatuses

Publications (1)

Publication Number Publication Date
WO2011039919A1 true WO2011039919A1 (ja) 2011-04-07

Family

ID=43825773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/004728 WO2011039919A1 (ja) 2009-09-30 2010-07-23 オーディオデコーダ、オーディオエンコーダ、システム

Country Status (4)

Country Link
US (1) US8688442B2 (ja)
JP (1) JP5519230B2 (ja)
CN (1) CN102576534B (ja)
WO (1) WO2011039919A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724717A (zh) * 2020-05-21 2021-11-30 成都鼎桥通信技术有限公司 车载音频处理系统、方法、车机控制器和车辆

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104011792B (zh) 2011-08-19 2018-08-24 亚历山大·日尔科夫 多结构的、多级信息形式化和结构化方法和相关联的装置
JP5973582B2 (ja) * 2011-10-21 2016-08-23 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
CN113035212A (zh) * 2015-05-20 2021-06-25 瑞典爱立信有限公司 多声道音频信号的编码
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62123843A (ja) * 1985-11-25 1987-06-05 Nippon Telegr & Teleph Corp <Ntt> 通信方式
JPH02123400A (ja) * 1988-11-02 1990-05-10 Nec Corp 高能率音声符号化器
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP2002301066A (ja) * 2001-04-06 2002-10-15 Mitsubishi Electric Corp 遠隔聴診装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
JP2008139623A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> ディジタル電話機、音補正装置、方法、プログラム及びその記録媒体
JP2009527785A (ja) * 2006-02-24 2009-07-30 フランス テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189614B2 (ja) 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62123843A (ja) * 1985-11-25 1987-06-05 Nippon Telegr & Teleph Corp <Ntt> 通信方式
JPH02123400A (ja) * 1988-11-02 1990-05-10 Nec Corp 高能率音声符号化器
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP2002301066A (ja) * 2001-04-06 2002-10-15 Mitsubishi Electric Corp 遠隔聴診装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
JP2009527785A (ja) * 2006-02-24 2009-07-30 フランス テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
JP2008139623A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> ディジタル電話機、音補正装置、方法、プログラム及びその記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724717A (zh) * 2020-05-21 2021-11-30 成都鼎桥通信技术有限公司 车载音频处理系统、方法、车机控制器和车辆
CN113724717B (zh) * 2020-05-21 2023-07-14 成都鼎桥通信技术有限公司 车载音频处理系统、方法、车机控制器和车辆

Also Published As

Publication number Publication date
CN102576534A (zh) 2012-07-11
US8688442B2 (en) 2014-04-01
JP5519230B2 (ja) 2014-06-11
US20120185241A1 (en) 2012-07-19
CN102576534B (zh) 2014-10-08
JP2011075936A (ja) 2011-04-14

Similar Documents

Publication Publication Date Title
WO2011039919A1 (ja) オーディオデコーダ、オーディオエンコーダ、システム
US9741354B2 (en) Bitstream syntax for multi-process audio decoding
JP5934922B2 (ja) 復号装置
TWI523004B (zh) 用以再現音訊信號之裝置及方法、用以產生編碼音訊信號之裝置及方法、與電腦程式
CA2612537C (en) Selectively using multiple entropy models in adaptive coding and decoding
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
US8374883B2 (en) Encoder and decoder using inter channel prediction based on optimally determined signals
JP7019096B2 (ja) 低ビットレート符号化オーディオの増強を制御する方法及び機器
KR101067514B1 (ko) 버퍼 조정을 이용하는 예측 코딩 데이터의 디코딩
US20090325524A1 (en) method and an apparatus for processing an audio signal
KR20090087902A (ko) 인코딩 및 디코딩 장치
JP4761251B2 (ja) 長期予測符号化方法、長期予測復号化方法、これら装置、及びそのプログラム
US8380526B2 (en) Method, device and system for enhancement layer signal encoding and decoding
US9854379B2 (en) Personal audio studio system
JP4905262B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
Li et al. A fully scalable audio coding structure with embedded psychoacoustic model
van Schijndel ARDOR Final Report

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080043418.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10820045

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10820045

Country of ref document: EP

Kind code of ref document: A1