WO2017022151A1 - 音声信号復号装置および音声信号復号方法 - Google Patents

音声信号復号装置および音声信号復号方法 Download PDF

Info

Publication number
WO2017022151A1
WO2017022151A1 PCT/JP2016/002465 JP2016002465W WO2017022151A1 WO 2017022151 A1 WO2017022151 A1 WO 2017022151A1 JP 2016002465 W JP2016002465 W JP 2016002465W WO 2017022151 A1 WO2017022151 A1 WO 2017022151A1
Authority
WO
WIPO (PCT)
Prior art keywords
decoding
signal
ratio
adaptive codebook
fixed codebook
Prior art date
Application number
PCT/JP2016/002465
Other languages
English (en)
French (fr)
Inventor
江原 宏幸
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US15/736,501 priority Critical patent/US10347266B2/en
Publication of WO2017022151A1 publication Critical patent/WO2017022151A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to an audio signal decoding apparatus and an audio signal decoding method for decoding an encoded audio signal.
  • the encryption decryption process is performed on the encrypted encoded signal, a part of the encrypted encoded signal is lost or an error due to noise or transmission failure occurs. In some cases, the encryption cannot be decrypted and the encoded information cannot be decrypted normally. In addition, if there is an error in the information related to the encryption key, an error also occurs in the encoded information after the decryption of the encryption, so that the audio signal to be decoded is significantly impaired. When the encoded information is not normally decoded and the decoded signal has an excessive amplitude, an abnormal sound with a large volume may be generated when the signal is reproduced. In the case where encryption is not performed, the situation described above may occur due to an error being directly mixed into the encoded signal on the transmission line or the like until the encoded signal is decrypted. .
  • an encrypted header is added to an encoded signal at the time of encryption, and the encrypted header is removed at the time of decryption.
  • a mobile device (decryption device) that performs decryption based on information of an encryption algorithm used for included encoding is disclosed.
  • voice code information is divided into encryption target data and non-encryption target data, and the encryption target data is encrypted using an initial vector generated based on the non-encryption target data and a predetermined key.
  • An encryption device that combines and transmits to a decryption device, and a decryption device that separates non-encryption target data at the time of decryption to generate an initial vector, and performs decryption using these together with a predetermined key are disclosed.
  • Patent Document 3 discloses that when the level of a decoded audio signal is higher than a predetermined threshold, the output of the audio signal An audio suppression device that stops the operation is disclosed.
  • the information amount of the encoded signal increases due to the addition of the encryption header. If the information amount of the encrypted header is made small in order to avoid an increase in the information amount, the header length becomes short and the error detection performance becomes low.
  • the present invention provides an audio signal decoding apparatus and an audio signal decoding method capable of avoiding reproduction of a large volume of abnormal sound caused by a signal error without affecting normal reproduction of the decoded signal.
  • the speech signal decoding apparatus includes an adaptive codebook decoding unit, a fixed codebook decoding unit, a ratio calculation unit, a determination unit, and an attenuator.
  • the adaptive codebook decoding unit generates an adaptive codebook decoding component using the adaptive codebook code of the encoded signal encoded by the CELP method.
  • the fixed codebook decoding unit generates a fixed codebook decoding component using the fixed codebook code of the encoded signal.
  • the ratio calculation unit calculates an amplitude ratio or an energy ratio between the adaptive codebook decoding component and the fixed codebook decoding component.
  • the determination unit determines whether the amplitude ratio or energy ratio calculated by the ratio calculation unit exceeds a predetermined threshold value.
  • the attenuator attenuates the excitation signal obtained by adding the adaptive codebook decoding component and the fixed codebook decoding component when the determination unit determines that the amplitude ratio or the energy ratio exceeds a predetermined threshold value.
  • the speech signal decoding method of the present invention includes an adaptive codebook decoding step, a fixed codebook decoding step, a ratio calculation step, a determination step, and an attenuation step.
  • the adaptive codebook decoding step generates an adaptive codebook decoding component using the adaptive codebook component of the encoded signal encoded by the CELP method.
  • the fixed codebook decoding step generates a fixed codebook decoding component using the fixed codebook component of the encoded signal.
  • the ratio calculating step calculates an amplitude ratio or an energy ratio between the adaptive codebook decoding component and the fixed codebook decoding component.
  • the determination step determines whether the amplitude ratio or the energy ratio exceeds a predetermined threshold value.
  • the attenuation step attenuates the excitation signal obtained by adding the adaptive codebook decoding component and the fixed codebook decoding component when it is determined that the amplitude ratio or the energy ratio exceeds a predetermined threshold value.
  • FIG. 1 is a diagram showing an example of a configuration of an audio signal decoding device according to an embodiment of the present invention.
  • FIG. 2A is a diagram illustrating the ACB / FCB amplitude ratio.
  • FIG. 2B is a diagram illustrating the ACB / FCB amplitude ratio.
  • FIG. 3 is a flowchart showing an operation example of the audio signal decoding apparatus.
  • FIG. 4 is a flowchart showing an operation example of the audio signal decoding apparatus.
  • FIG. 1 is a diagram illustrating an example of a configuration of an audio signal decoding device 100 according to an embodiment of the present invention.
  • a speech signal decoding apparatus 100 shown in FIG. 1 decodes an encoded signal encoded by a speech encoding method called CELP (Code-Excited Linear Prediction).
  • CELP Code-Excited Linear Prediction
  • CELP Human voice is generated when the sound generated by vocal cord vibration resonates through the vocal tract including the throat, oral cavity, and nasal cavity.
  • CELP performs patterning by dividing an audio signal into two components, a sound source component due to vocal cord vibration and a component due to sound change due to resonance in the vocal tract (spectrum envelope component), based on the sound generation process.
  • the information amount of the audio signal is compressed. That is, in CELP, at the time of encoding, a pattern similar to each of the two components of the input audio signal is extracted from many patterns prepared in advance in the codebook, and is defined in the extracted pattern.
  • the audio signal is encoded using the code.
  • a decoded signal is obtained by combining two components decoded from the encoded signal.
  • an encoded signal that is an audio signal encoded by a CELP system by an encoding apparatus is converted into an adaptive codebook code, a fixed codebook code, and a gain code by a demultiplexing unit 101. Are separated into linear prediction coefficient codes.
  • the audio signal decoding apparatus 100 decodes the encoded signal in units of frames.
  • the adaptive codebook code is input to the adaptive codebook decoding unit 102, the fixed codebook code is input to the fixed codebook decoding unit 103, the gain code is input to the gain decoding unit 104, and the linear prediction coefficient code is input to the synthesis filter 111.
  • Adaptive codebook decoding section 102 generates an adaptive codebook vector specified by the adaptive codebook code, and outputs the generated adaptive codebook vector to amplifier 105.
  • An adaptive codebook (ACB) is an excitation signal generated in the past, and uses an excitation signal output from an adder 108 described later. Note that the adaptive codebook vector corresponds to the adaptive codebook decoding component of the present invention.
  • Fixed codebook decoding section 103 generates a fixed codebook vector specified by a fixed codebook code, and outputs the generated fixed codebook vector to amplifier 106.
  • the fixed codebook (Fixed Code Book: FCB) generates a plurality of predetermined waveform data.
  • the fixed codebook is a memory that stores a predetermined number of Gaussian noise vectors, or generates a predetermined type of pulse vector by a combination of pulse position and polarity that can be arranged at a predetermined position. Or a memory storing a predetermined number of vectors prepared in advance to represent the characteristic shape of the sound source signal, or a combination thereof.
  • the fixed codebook vector corresponds to the fixed codebook decoding component of the present invention.
  • the gain decoding unit 104 decodes the gain code to generate an adaptive codebook gain and a fixed codebook gain, and outputs the adaptive codebook gain to the amplifier 105 and the fixed codebook gain to the amplifier 106, respectively.
  • the amplifier 105 multiplies the adaptive codebook vector output from the adaptive codebook decoding unit 102 by the adaptive codebook gain output from the gain decoding unit 104, and the adaptive codebook vector resulting from the multiplication is compared with the ratio calculation unit 107 and the adder. It outputs to 108.
  • the amplifier 106 multiplies the fixed codebook vector output from the fixed codebook decoding unit 103 by the fixed codebook gain output from the gain decoding unit 104, and outputs the multiplication result to the ratio calculation unit 107 and the adder 108.
  • Ratio calculation section 107 calculates and calculates the amplitude ratio (ACB / FCB amplitude ratio) between the adaptive codebook vector of the multiplication result output from amplifier 105 and the fixed codebook vector of the multiplication result output from amplifier 106.
  • the obtained ACB / FCB amplitude ratio is output to the determination unit 109.
  • the ratio calculation unit 107 may calculate the energy ratio between the adaptive codebook vector of the multiplication result and the fixed codebook vector of the multiplication result.
  • Adder 108 adds the adaptive codebook vector of the multiplication result output from amplifier 105 and the fixed codebook vector of the multiplication result output from amplifier 106 to generate an excitation signal, and adaptive codebook decoding section 102 And output to the attenuator 110.
  • the determination unit 109 outputs a detection signal (for example, 1) to the attenuator 110 when the ACB / FCB amplitude ratio (or energy ratio, the same applies hereinafter) output from the ratio calculation unit 107 is larger than a predetermined threshold value. To do.
  • the determination unit 109 does not output a detection signal (that is, outputs a non-detection signal (for example, 0)) when the ACB / FCB amplitude ratio is equal to or smaller than a predetermined threshold value.
  • the case where the ACB / FCB amplitude ratio is larger than a predetermined threshold is, for example, a case where a random signal is generated due to an error in an encoded signal, that is, an abnormal decoded signal. That is, determination section 109 determines whether or not the decoded signal of a certain frame is normal by determining whether or not the ACB / FCB amplitude ratio is greater than a predetermined threshold value.
  • FIG. 2A and 2B are diagrams illustrating the ACB / FCB amplitude ratio.
  • FIG. 2A illustrates an ACB / FCB amplitude ratio when an encoded signal of a sweep signal is decoded as an example of a signal having strong periodicity.
  • the ACB / FCB amplitude ratio is approximately 50 or less. This is the same even when a sine wave signal having a fixed frequency is used.
  • the ACB / FCB amplitude ratio that can be generated by decoding encoded information without error is approximately 50 or less.
  • FIG. 2B illustrates an ACB / FCB amplitude ratio when an encoded signal generated with random numbers is decoded.
  • the ACB / FCB amplitude ratio has many values greatly exceeding 50 as shown in FIG. 2B.
  • the case where the ACB / FCB amplitude ratio greatly exceeds 50 is a case where the amplitude of the fixed codebook vector is extremely low compared with the amplitude of the adaptive codebook vector.
  • a case where such an encoding result can be obtained is a case where an input signal to the encoding device is a signal such as a sine wave having extremely strong periodicity.
  • the ACB / FCB amplitude ratio that can be generated by decoding encoded information without error is approximately 50 or less. Therefore, in determination unit 109, when the predetermined threshold value is set to 50 and the ACB / FCB amplitude ratio of a certain encoded signal is 50 or less, which is the threshold value, the encoded signal has no error. Is determined. On the other hand, when the ACB / FCB amplitude ratio of a certain encoded signal exceeds 50 which is a threshold value, determination section 109 determines that the encoded signal has an error.
  • setting the threshold value to 50 is an example, and the present invention is not limited to this.
  • the threshold value may be 64 as a power of 2, for example, when implemented by fixed point arithmetic. Note that the optimum threshold value may differ depending on the CELP codec to which it is applied, and may be set as appropriate.
  • the attenuator 110 attenuates the signal level of the excitation signal output from the adder 108 when the detection signal is output from the determination unit 109, that is, when the decoded signal of the frame is determined to be abnormal. And output to the synthesis filter 111.
  • the amount by which the attenuator 110 attenuates the excitation signal is not limited in the present invention, but may be attenuated to 1/10, for example. Further, the attenuator 110 synthesizes the excitation signal as it is when the detection signal is not output from the determination unit 109 (that is, when the non-detection signal is output), that is, when the decoded signal of the frame is normal. Output to the filter 111.
  • the synthesis filter 111 decodes the linear prediction coefficient from the linear prediction coefficient code output from the demultiplexing unit 101 to generate a linear prediction (LP) filter.
  • the synthesis filter 111 outputs a synthesized signal obtained by driving with the excitation signal output from the attenuator 110 using the LP filter as a synthesis filter, as a decoded speech signal.
  • the audio signal decoding apparatus 100 calculates the ACB / FCB amplitude ratio in each frame of the input encoded signal, and if the amplitude ratio exceeds a predetermined threshold, the frame is not normal. And the signal level of the frame is attenuated. For this reason, it is possible to avoid a situation in which a large volume of abnormal sound occurs due to reproduction of a decoded signal of an abnormal frame.
  • the ACB / FCB amplitude ratio of an abnormal frame does not necessarily exceed a predetermined threshold value.
  • the ACB / FCB amplitude ratio takes a predetermined threshold value of 50 or less even in an abnormal frame.
  • the abnormal frame often continues over several frames.
  • the attenuator 110 adds the detection signal when the detection signal is output from the determination unit 109 in a certain frame, that is, if the frame is not normal, It is preferable to attenuate the decoded signal of a predetermined number of frames.
  • the attenuator 110 can forcibly attenuate the excitation signal of the frame.
  • the number of the predetermined number of frames attenuated by the attenuator 110 is not limited in the present invention.
  • the speech signal decoding apparatus 100 determines that the abnormal frame is not normal as described above. It is not always possible. However, even if there is only one frame of an encoded signal that is not normal, the adaptive codebook gain does not increase abnormally in this frame. It is unlikely that sound will be played. Even when the volume is high, the playback time when playing back as an audio signal is as short as one frame, so it is unlikely to be perceived as a fatal abnormal sound with a loud volume. .
  • the adaptive codebook decoding unit 102 decodes several normal frames after the abnormal frames, the excitation signal of the abnormal frames is used as the adaptive codebook. For this reason, even if the input frame is normal, there is a possibility that the signal subsequent to adaptive codebook decoding section 102 is not normal during several frames after the abnormal frame. In such a case, since there are several consecutive frames that are not normal, there is a high possibility that one of them is a frame in which the adaptive codebook gain is abnormally large, and the determination unit 109 detects the frame without any problem. Can do.
  • the attenuator 110 attenuates the signal level of the excitation signal of the frame that is not normal, even when the influence of the error propagates, the case where the adaptive codebook component becomes abnormally large is detected and the abnormal sound with a large volume is generated. The situation that occurs can be avoided.
  • 3 and 4 are flowcharts showing an example of the operation of the audio signal decoding apparatus 100.
  • the audio signal decoding apparatus 100 clears (sets to 0) the counter cnt and the abnormality detection flag flg [0: nf ⁇ 1] at the start of operation (step S1).
  • the counter cnt is a counter that counts the number of segments in which the ACB / FCB amplitude ratio exceeds a threshold value in the past nf segments.
  • the abnormality detection flag flg [0: nf-1] is a memory that stores a flag indicating whether or not the ACB / FCB amplitude ratio exceeds a threshold in the past nf segment including the current segment. In flg [0: nf ⁇ 1], 1 is stored when the threshold value is exceeded, and 0 is stored otherwise.
  • the segment is a time length (block length) that is a unit for decoding the adaptive codebook.
  • a segment may be replaced with a frame, but if one frame is divided into a plurality of subframes and decoding is performed for each subframe, the segment corresponds to a subframe.
  • the number of segments nf is the number of segments that is a unit for determining whether or not an ACB / FCB amplitude ratio exceeding the threshold exists in the segment, for example, 15.
  • the demultiplexing unit 101 separates the input encoded signal into an adaptive codebook code, a fixed codebook code, a gain code, and a linear prediction coefficient code for each segment (step S2).
  • Adaptive codebook decoding section 102 generates an adaptive codebook vector using the adaptive codebook code.
  • Fixed codebook decoding section 103 generates a fixed codebook vector using the fixed codebook code.
  • the gain decoding unit 104 decodes the gain signal to generate an adaptive codebook gain and a fixed codebook gain (step S3).
  • step S3 the order of processing in adaptive codebook decoding section 102, fixed codebook decoding section 103, and gain decoding section 104 is not limited in the present invention. These processes may be performed simultaneously or may be performed in a predetermined order.
  • the amplifier 105 multiplies the adaptive codebook vector by the adaptive codebook gain, and generates an adaptive codebook vector as a multiplication result. Further, the amplifier 106 multiplies the fixed codebook vector by the fixed codebook gain, and generates a fixed codebook vector as a multiplication result (step S4).
  • the processing order of the amplifiers 105 and 106 is not limited in the present invention. These processes may be performed simultaneously or may be performed in a predetermined order.
  • the ratio calculation unit 107 calculates the amplitude ratio (ACB / FCB amplitude ratio) between the adaptive codebook vector of the multiplication result and the fixed codebook vector of the multiplication result (step S5).
  • the adder 108 adds the adaptive codebook vector of the multiplication result and the fixed codebook vector of the multiplication result to generate an excitation signal (step S6). Note that either step S5 or step S6 may be performed first or simultaneously.
  • the audio signal decoding apparatus 100 decrements the most previous abnormality detection flag flg [nf ⁇ 1] from the counter cnt and shifts the contents of the abnormality detection flag flg [] one by one (step S7). This eliminates the oldest segment from the range of the counter cnt and prepares to include the current segment in the range.
  • the determination unit 109 determines whether or not the ACB / FCB amplitude ratio of the current segment is greater than a predetermined threshold, for example, 50 (step S8). If the ACB / FCB amplitude ratio is greater than the predetermined threshold, the flow proceeds to step S9, otherwise proceeds to step S10.
  • a predetermined threshold for example, 50
  • Step S9 If the determination unit 109 determines that the ACB / FCB amplitude ratio of the current segment is greater than a predetermined threshold, the current segment is abnormal, and thus the current segment abnormality detection flag flg [0] is set to 1 ( Step S9). On the other hand, if the determination unit 109 determines that the ACB / FCB amplitude ratio is less than or equal to a predetermined threshold value, the current segment is not abnormal, so the abnormality detection flag flg [0] of the current segment is set to 0 ( Step S10). Then, the abnormality detection flag flg [0] of the current segment is added to the counter cnt, and the counter cnt is updated to the latest state (step S11).
  • the audio signal decoding device 100 determines whether or not the counter cnt is greater than 0 (step S12). If the counter cnt is greater than 0, the flow proceeds to step S13, and if not (the counter cnt is 0), the flow proceeds to step S14.
  • the attenuator 110 attenuates the excitation signal generated in step S6 by a predetermined multiple, for example, 1/10 (step S13).
  • the synthesis filter 111 generates an LP filter based on the linear prediction coefficient code, and generates a decoded speech signal from the excitation signal using this as a synthesis filter (step S14). As a result, a decoded speech signal in which the signal level of the excitation signal of the abnormal frame is attenuated is output.
  • step S14 a decoded speech signal based on the unattenuated excitation signal is generated. For this reason, the signal level of a normal frame is not attenuated, and a decoded audio signal having a normal volume can be generated.
  • the audio signal decoding device 100 determines whether or not the current segment has reached the end of the encoded signal (step S15). When the current segment reaches the end of the encoded signal, the speech signal decoding apparatus 100 ends the process, assuming that decoding of the encoded signal is completed. Otherwise, the segment is advanced by 1 and the process returns to step S2.
  • speech signal decoding apparatus 100 includes adaptive codebook decoding section 102, fixed codebook decoding section 103, ratio calculation section 107, determination section 109, and attenuator. 110.
  • Adaptive codebook decoding section 102 generates an adaptive codebook vector using the adaptive codebook code of the encoded signal encoded by the CELP method.
  • Fixed codebook decoding section 103 generates a fixed codebook vector using the fixed codebook code of the encoded signal.
  • Ratio calculation section 107 calculates the amplitude ratio or energy ratio between the adaptive codebook vector and the fixed codebook vector.
  • the determination unit 109 determines whether the amplitude ratio or energy ratio calculated by the ratio calculation unit 107 exceeds a predetermined threshold value.
  • the attenuator 110 attenuates the excitation signal obtained by adding the adaptive codebook vector and the fixed codebook vector when the determination unit 109 determines that the amplitude ratio or the energy ratio exceeds a predetermined threshold value.
  • the audio signal decoding apparatus 100 has the above-described configuration, and when the ACB / FCB amplitude ratio or energy ratio in a certain frame exceeds the threshold, the decoded signal of the frame Is not normal, and the excitation signal of the frame is attenuated. For this reason, it is possible to avoid with high accuracy a situation in which a large volume of abnormal sound occurs due to reproduction of a decoded signal of an abnormal frame.
  • the attenuator 110 is used when there is a frame in which the determination unit 109 determines that the amplitude ratio or the energy ratio exceeds a predetermined threshold.
  • the excitation signal of a predetermined number of frames after the frame is attenuated.
  • the ACB / FCB amplitude ratio or energy ratio of a frame after a certain frame is equal to or less than a predetermined value even though abnormal frames are continuous, and normal. Even if it cannot be determined otherwise, the excitation signal of the frame is forcibly attenuated. As a result, it is possible to avoid with high accuracy a situation in which a large volume of abnormal sound is generated due to reproduction of a decoded signal of an abnormal frame.
  • the speech signal decoding apparatus 100 has a configuration in which the excitation signal is attenuated by the attenuator 110 before the synthesis filter 111. Inserting an attenuator after the synthesis filter 111 causes signal discontinuity at the frame boundary. However, by disposing the attenuator 110 before the synthesis filter 111 and driving the synthesis filter 111 with an attenuated signal that causes discontinuity at the frame boundary, a decoded speech signal that maintains continuity between frames can be generated. . That is, according to the audio signal decoding device 100, since the attenuation process is performed in the preceding stage of the synthesis filter 111 as described above, discontinuity between frames does not occur.
  • the present invention is suitable for an audio signal decoding apparatus that decodes an audio signal encoded by the CELP method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声信号復号装置は、適応符号帳復号部(102)と、固定符号帳復号部(103)と、比算出部(107)と、判定部(109)と、減衰器(110)と、を備える。 適応符号帳復号部(102)は、CELP方式で符号化された符号化信号の適応符号帳符号を用いて適応符号帳ベクトルを生成する。固定符号帳復号部(103)は、符号化信号の固定符号帳符号を用いて固定符号帳ベクトルを生成する。比算出部(107)は、適応符号帳ベクトルと固定符号帳ベクトルとの振幅比、あるいはエネルギー比を算出する。判定部(109)は、振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する。減衰器(110)は、振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、適応符号帳ベクトルと固定符号帳ベクトルとを加算した励振信号を減衰させる。

Description

音声信号復号装置および音声信号復号方法
 本発明は、符号化された音声信号を復号する音声信号復号装置および音声信号復号方法に関する。
 従来、音声を符号化することによりデータ圧縮を行う音声符号化の技術は、例えば携帯電話、VoIP(Voice over Internet Protocol)、放送、記録等の様々な分野で使用されており、広く普及している。また、符号化情報を暗号化して通信時の秘匿性を高める場合がある。この場合、種々の音声符号化技術により符号化された符号化信号を取り出すためにまず暗号の復号処理を行う。その後符号化信号から音声信号を復号することで、音声が再生できるようになる。
 暗号化された符号化信号に対して暗号の復号処理がなされるまでの間に、暗号化された符号化信号の一部が失われたり、ノイズや伝送不良による誤りが発生したりすることによって、暗号の復号ができず、符号化情報を正常に復号できない場合がある。また、暗号の鍵に関する情報に誤りがある場合は、暗号の復号後の符号化情報にも誤りが生じてしまうため、復号される音声信号が著しく損なわれたものとなる。そして、符号化情報が正常に復号されなかった場合に、復号信号が過大振幅を有すると、当該信号を再生したとき、大音量の異常音が発生されることがある。なお、暗号化を行わない場合には、符号化信号が復号されるまでの間に、伝送路上等で符号化信号に直接誤りが混入することによって、前述のような状況が発生することがある。
 このような誤りを回避するための技術として、例えば、特許文献1には、暗号化時に、符号化信号に暗号化ヘッダを付加し、復号時に、暗号化ヘッダを除去するとともに、暗号化ヘッダに含まれる符号化に使用した暗号化アルゴリズムの情報に基づいて復号を行う移動機(復号化装置)が開示されている。
 特許文献2には、音声符号情報を暗号対象データと非暗号対象データに分割し、非暗号対象データに基づいて生成した初期ベクトルと所定の鍵とを用いて暗号対象データを暗号化し、これらを結合して復号装置に送信する暗号化装置と、復号時に非暗号対象データを分離して初期ベクトルを生成し、所定の鍵とともにこれらを用いて復号を行う復号装置とが開示されている。
 また、誤りに起因する大音量の異常音の発生を回避するための技術として、例えば特許文献3には、復号した音声信号のレベルが所定のしきい値より高い場合に、当該音声信号の出力を停止する音声抑制装置が開示されている。
特開2007-221807号公報 特開2008-283415号公報 特開平7-58687号公報
 しかしながら、特許文献1に開示された移動機(復号化装置)では、暗号化ヘッダの追加により符号化信号の情報量が増えてしまう。情報量の増大を回避するため暗号化ヘッダの情報量を小さいものとすると、ヘッダ長が短くなり、誤り検出性能が低くなってしまう。
 また、特許文献2に開示された暗号化装置および復号装置では、非暗号対象データは暗号化されないまま暗号化装置から復号装置に送られるので、セキュリティ上の問題がある。
 さらに、特許文献3に開示された音声抑制装置では、単に復号信号のレベルのみを参照して、レベルがしきい値より大きい場合に出力停止しているので、元々の音声信号のレベルが大きい場合にも再生されない恐れがある。
 このようなことから、正常な復号信号の再生に影響を与えずに、信号の誤りに起因する大音量の異常音の再生を回避することができる音声信号復号装置が要望されている。
 本発明は、正常な復号信号の再生に影響を与えずに、信号の誤りに起因する大音量の異常音の再生を回避することができる音声信号復号装置および音声信号復号方法を提供する。
 本発明の音声信号復号装置は、適応符号帳復号部と、固定符号帳復号部と、比算出部と、判定部と、減衰器と、を備える。適応符号帳復号部は、CELP方式で符号化された符号化信号の適応符号帳符号を用いて適応符号帳復号成分を生成する。固定符号帳復号部は、符号化信号の固定符号帳符号を用いて固定符号帳復号成分を生成する。比算出部は、適応符号帳復号成分と固定符号帳復号成分との振幅比、あるいはエネルギー比を算出する。判定部は、比算出部が算出した振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する。減衰器は、判定部により振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、適応符号帳復号成分と固定符号帳復号成分とを加算した励振信号を減衰させる。
 本発明の音声信号復号方法は、適応符号帳復号ステップと、固定符号帳復号ステップと、比算出ステップと、判定ステップと、減衰ステップと、を有する。適応符号帳復号ステップは、CELP方式で符号化された符号化信号の適応符号帳成分を用いて適応符号帳復号成分を生成する。固定符号帳復号ステップは、符号化信号の固定符号帳成分を用いて固定符号帳復号成分を生成する。比算出ステップは、適応符号帳復号成分と固定符号帳復号成分との振幅比、あるいはエネルギー比を算出する。判定ステップは、振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する。減衰ステップは、振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、適応符号帳復号成分と固定符号帳復号成分とを加算した励振信号を減衰させる。
図1は、本発明の実施の形態に係る音声信号復号装置の構成の一例を示す図である。 図2Aは、ACB/FCB振幅比について例示した図である。 図2Bは、ACB/FCB振幅比について例示した図である。 図3は、音声信号復号装置の動作例を示すフローチャートである。 図4は、音声信号復号装置の動作例を示すフローチャートである。
 以下、本発明の実施の形態について詳細に説明する。図1は、本発明の実施の形態に係る音声信号復号装置100の構成の一例を示す図である。図1に示す音声信号復号装置100は、CELP(Code-Excited Linear Prediction:符号励振線形予測)と呼ばれる音声符号化方式で符号化された符号化信号を復号するものである。
 人間の音声は、声帯の振動により発生した音が、のど、口腔、鼻腔等を含む声道により共振することで発生する。CELPは、音声の生成過程に基づいて、音声信号を声帯の振動による音源成分と、声道での共振による音の変化による成分(スペクトル包絡成分)との2つの成分に分けてパターン化を行うことにより音声信号の情報量を圧縮するものである。すなわち、CELPでは、符号化時には、符号帳に予め用意された多くのパターンの中から、入力された音声信号の2つの成分のそれぞれと似たパターンが抽出され、抽出したパターンに定義されている符号を利用して音声信号の符号化が行われる。そして、復号時には、符号化信号から復号された2つの成分が合成されることによって復号信号が得られる。
 図1に示す音声信号復号装置100において、図示しない符号化装置によってCELP方式により符号化された音声信号である符号化信号は、多重分離部101により適応符号帳符号、固定符号帳符号、利得符号、線形予測係数符号に分離される。音声信号復号装置100は、フレーム単位で符号化信号の復号を行う。
 適応符号帳符号は適応符号帳復号部102に、固定符号帳符号は固定符号帳復号部103に、利得符号は利得復号部104に、線形予測係数符号は合成フィルタ111に、それぞれ入力される。
 適応符号帳復号部102は、適応符号帳符号で特定される適応符号帳ベクトルを生成し、生成した適応符号帳ベクトルを増幅器105に出力する。適応符号帳(Adaptive Code Book:ACB)は、過去に生成された励振信号であり、後述する加算器108から出力される励振信号を使用する。なお、適応符号帳ベクトルが本発明の適応符号帳復号成分に対応している。
 固定符号帳復号部103は、固定符号帳符号で指定される固定符号帳ベクトルを生成し、生成した固定符号帳ベクトルを増幅器106に出力する。固定符号帳(Fixed Code Book:FCB)は、予め決められた複数の波形データを生成するものである。具体的には、固定符号帳は、所定数のガウス雑音系列のベクトルを格納したメモリであったり、所定の位置に配置できるパルスの位置と極性の組み合わせにより所定の種類のパルスベクトルを生成するものであったり、音源信号の特徴的な形状を表すために予め用意された所定数のベクトルを格納したメモリであったり、それらの組み合わせであったりする。なお、固定符号帳ベクトルが本発明の固定符号帳復号成分に対応している。
 利得復号部104は、利得符号を復号して適応府符号帳利得と固定符号帳利得を生成し、適応符号帳利得を増幅器105に、固定符号帳利得を増幅器106に、それぞれ出力する。
 増幅器105は、適応符号帳復号部102から出力された適応符号帳ベクトルに利得復号部104から出力された適応符号帳利得を乗算し、乗算結果の適応符号帳ベクトルを比算出部107および加算器108に出力する。
 増幅器106は、固定符号帳復号部103から出力された固定符号帳ベクトルに利得復号部104から出力された固定符号帳利得を乗算し、乗算結果を比算出部107および加算器108に出力する。
 比算出部107は、増幅器105から出力された乗算結果の適応符号帳ベクトルと、増幅器106から出力された乗算結果の固定符号帳ベクトルとの振幅比(ACB/FCB振幅比)を算出し、算出したACB/FCB振幅比を判定部109に出力する。あるいは、比算出部107は、乗算結果の適応符号帳ベクトルと、乗算結果の固定符号帳ベクトルとのエネルギー比を算出するようにしてもよい。
 加算器108は、増幅器105から出力された乗算結果の適応符号帳ベクトルと、増幅器106から出力された乗算結果の固定符号帳ベクトルとを加算して励振信号を生成し、適応符号帳復号部102および減衰器110に出力する。
 判定部109は、比算出部107から出力されたACB/FCB振幅比(あるいはエネルギー比、以下同様)が所定のしきい値より大きい場合に、検出信号(例えば、1)を減衰器110に出力する。判定部109は、ACB/FCB振幅比が所定のしきい値以下の場合は、検出信号を出力しない(すなわち、非検出信号(例えば、0)を出力する)。ここで、ACB/FCB振幅比が所定のしきい値より大きい場合とは、例えば符号化信号の誤りによりランダム信号が生成された場合、すなわち異常な復号信号である場合である。すなわち、判定部109は、ACB/FCB振幅比が所定のしきい値より大きいか否かを判定することにより、あるフレームの復号信号が正常であるか否かを判定している。
 ここで、判定部109による判定の意味について説明する。図2A、図2Bは、ACB/FCB振幅比について例示した図である。図2Aは、周期性が強い信号の例として、スイープ信号の符号化信号を復号した場合のACB/FCB振幅比について例示している。例えば図2Aに示すように、スイープ信号の場合、ACB/FCB振幅比は、おおよそ50以下の値となる。これは固定周波数の正弦波信号を用いた場合でも同様である。換言すれば、誤りのない符号化情報の復号で発生しうるACB/FCB振幅比は、おおよそ50以下の値となる。
 一方、図2Bは、乱数で生成した符号化信号を復号した場合のACB/FCB振幅比について例示している。乱数系列を符号化信号として復号した場合、ACB/FCB振幅比は、図2Bに示すように50を大幅に超える値が多く出現する。ACB/FCB振幅比が50を大幅に超える場合とは、適応符号帳ベクトルの振幅と比較して固定符号帳ベクトルの振幅が極端に低い場合である。なお、このような符号化結果が得られるケースとして考えられるのは、符号化装置への入力信号が周期性の極めて強い正弦波のような信号である場合である。
 上述したように、誤りのない符号化情報の復号で発生しうるACB/FCB振幅比は、おおよそ50以下の値となる。従って、判定部109においては、所定のしきい値を50に設定し、ある符号化信号のACB/FCB振幅比がしきい値である50以下である場合に、その符号化信号は誤りがないと判定する。反対に、判定部109において、ある符号化信号のACB/FCB振幅比がしきい値である50を超える場合には、その符号化信号には誤りがあると判定する。なお、しきい値を50とすることは一例であり、本発明はこれに限定されない。しきい値は、例えば固定小数点演算で実装する場合は,2のべき乗として64としてもよい。なお、適用先のCELPコーデックに応じて最適なしきい値は異なる可能性があるので、適宜設定できるようにしてもよい。
 図1の説明に戻る。減衰器110は、判定部109から検出信号が出力された場合、すなわち当該フレームの復号信号が異常であると判定された場合には、加算器108から出力された励振信号の信号レベルを減衰して合成フィルタ111に出力する。減衰器110が励振信号を減衰させる量については、本発明では限定しないが、例えば1/10まで減衰するようにすればよい。また、減衰器110は、判定部109から検出信号が出力されなかった場合(すなわち、非検出信号が出力された場合)、すなわち当該フレームの復号信号が正常である場合は、励振信号をそのまま合成フィルタ111に出力する。
 合成フィルタ111は、多重分離部101から出力された線形予測係数符号から線形予測係数を復号して線形予測(Linear Prediction:LP)フィルタを生成する。合成フィルタ111は、当該LPフィルタを合成フィルタとして減衰器110から出力された励振信号で駆動して得られる合成信号を、復号音声信号として出力する。
 このように、音声信号復号装置100は、入力された符号化信号の各フレームにおいて、ACB/FCB振幅比を算出し、当該振幅比が所定のしきい値を超える場合には当該フレームを正常でないと判定して当該フレームの信号レベルを減衰させる。このため、正常でないフレームの復号信号が再生されることにより大音量の異常音が発生する事態を回避することができる。
 ただし、正常でないフレームのACB/FCB振幅比は、必ずしも所定のしきい値を超えるとは限らない。図2Bに示すように、正常でないフレームでも、ACB/FCB振幅比が所定のしきい値である50以下の値をとる場合が存在する。しかしながら、例えば伝送不良等による符号化信号の誤りに起因して正常でないフレームが発生した場合には、数フレーム間に亘って正常でないフレームが連続する場合が多い。このような場合には、連続した正常でないフレームのACB/FCB振幅比のいずれかが所定のしきい値を超える可能性が高い。従って、音声信号復号装置100は正常でないフレームの連続した部位を高確率で検出することができるので、正常でないフレームの復号信号が再生されることにより大音量の異常音が発生する事態を高精度で回避することができる。
 このように、正常でないフレームは連続する場合が多いため、減衰器110は、あるフレームにおいて判定部109から検出信号が出力された場合、すなわち当該フレームが正常でない場合、当該フレームに加えて、その後所定数のフレームの復号信号を減衰するようにすることが好ましい。このような処理によって、例えば正常でないフレームが連続しているにもかかわらず、あるフレーム以後のフレームのACB/FCB振幅比が所定の値以下であり、判定部109が正常でないと判定できない場合でも、減衰器110が当該フレームの励振信号を強制的に減衰させることができる。これにより、正常でないフレームの復号信号が再生されることにより大音量の異常音が発生する事態を高精度で回避することができる。なお、減衰器110が減衰する所定数のフレームの数については本発明では限定しない。
 なお、符号化信号において、正常なフレームが連続する中で、正常でないフレームが1つのみ存在する場合には、上記したように、音声信号復号装置100は当該正常でないフレームを正常でないと判定することができるとは限らない。しかしながら、正常ではない符号化信号が1フレームのみ存在したとしても、このフレームでは適応符号帳利得が異常に大きくなっているわけではないので、当該フレームの復号音声信号を再生した時大音量の異常音が再生される可能性は低い。また、大音量になったとしても、音声信号として再生した場合に再生される時間は1フレームと非常に短いため、致命的な大音量の異常音として知覚される事態には成り難いと考えられる。
 ただし、適応符号帳復号部102が正常でないフレームの後の正常な数フレームを復号するとき、正常でないフレームの励振信号が適応符号帳として使用されることになる。このため、入力フレームが正常であったとしても、正常でないフレームの後の数フレーム間は、適応符号帳復号部102の後段の信号が正常でない可能性がある。このような場合には、正常でないフレームが数フレーム連続するため、そのいずれかが適応符号帳利得が異常に大きくなるフレームである可能性が高く、判定部109によってそのフレームを問題なく検出することができる。これにより、減衰器110が正常でないフレームの励振信号の信号レベルを減衰させるので、誤りの影響が伝播する場合においても適応符号帳成分が異常に大きくなる場合を検出して大音量の異常音を発生する事態を回避することができる。
 以下、音声信号復号装置100の動作例について説明する。図3および図4は、音声信号復号装置100の動作例を示すフローチャートである。
 まず、音声信号復号装置100は、動作開始時に、カウンタcntおよび異常検出フラグflg[0:nf-1]をクリアする(0にする)(ステップS1)。カウンタcntは、過去nfセグメントの中でACB/FCB振幅比がしきい値を超えたセグメントの数をカウントするカウンタである。異常検出フラグflg[0:nf-1]は、現在のセグメントを含む過去nfセグメントにおいて、ACB/FCB振幅比がしきい値を超えたか否かを示すフラグを格納するメモリである。flg[0:nf-1]には、しきい値を超えると1、超えないと0が格納される。また、セグメントは、適応符号帳を復号する単位になる時間長(ブロック長)である。セグメントはフレームと置換してもよいが、1フレームが複数のサブフレームに分割されており、サブフレーム毎に復号がなされる場合は、セグメントはサブフレームに相当する。また、セグメント数nfは、しきい値を超えるACB/FCB振幅比がその中に存在するか否かを判定する単位となるセグメント数であり、例えば15である。
 多重分離部101は、入力された符号化信号を、セグメント毎に適応符号帳符号、固定符号帳符号、利得符号、線形予測係数符号に分離する(ステップS2)。適応符号帳復号部102は、適応符号帳符号を用いて適応符号帳ベクトルを生成する。また、固定符号帳復号部103は、固定符号帳符号を用いて固定符号帳ベクトルを生成する。また、利得復号部104は、利得信号を復号して適応府符号帳利得と固定符号帳利得を生成する(ステップS3)。ステップS3において、適応符号帳復号部102、固定符号帳復号部103、および利得復号部104の処理の順番については本発明では限定しない。これらの処理は同時に行われてもよいし、所定の順番で行われてもよい。
 次に、増幅器105は、適応符号帳ベクトルに適応符号帳利得を乗算し、乗算結果の適応符号帳ベクトルを生成する。また、増幅器106は、固定符号帳ベクトルに固定符号帳利得を乗算し、乗算結果の固定符号帳ベクトルを生成する(ステップS4)。ステップS4において、増幅器105および106の処理の順番については本発明では限定しない。これらの処理は同時に行われてもよいし、所定の順番で行われてもよい。
 そして、比算出部107は、乗算結果の適応符号帳ベクトルと、乗算結果の固定符号帳ベクトルとの振幅比(ACB/FCB振幅比)を算出する(ステップS5)。加算器108は、乗算結果の適応符号帳ベクトルと、乗算結果の固定符号帳ベクトルとを加算して励振信号を生成する(ステップS6)。なお、ステップS5とステップS6とは、いずれが先に行われてもよいし、あるいは同時に行われてもよい。
 この時点で、音声信号復号装置100は、カウンタcntから最も過去の異常検出フラグflg[nf-1]を減じるとともに、異常検出フラグflg[]の内容を1つずつシフトする(ステップS7)。これにより、カウンタcntの範囲内から最も古いセグメントを排除し、現セグメントを範囲内に含める準備をする。
 判定部109は、現セグメントのACB/FCB振幅比が所定のしきい値、例えば50より大きいか否かを判定する(ステップS8)。ACB/FCB振幅比が所定のしきい値より大きい場合、フローはステップS9に進み、そうでない場合、ステップS10に進む。
 判定部109により、現セグメントのACB/FCB振幅比が所定のしきい値より大きいと判定された場合、現セグメントは異常であるため、現セグメントの異常検出フラグflg[0]を1にする(ステップS9)。一方、判定部109により、ACB/FCB振幅比が所定のしきい値以下であると判定された場合、現セグメントは異常ではないため、現セグメントの異常検出フラグflg[0]は0とする(ステップS10)。そして、現セグメントの異常検出フラグflg[0]をカウンタcntに加算し、カウンタcntを最新の状態に更新する(ステップS11)。
 そして、音声信号復号装置100は、カウンタcntが0より大きいか否かを判定する(ステップS12)。カウンタcntが0より大きい場合、フローはステップS13に進み、そうでない(カウンタcntが0である)場合、ステップS14に進む。
 カウンタcntが0より大きい場合、現セグメントを含む過去のnfセグメントの中に異常が検出すされたセグメントが少なくとも1つあったことを意味する。このため、減衰器110は、ステップS6において生成された励振信号を所定倍、例えば1/10に減衰する(ステップS13)。そして、合成フィルタ111は、線形予測係数符号に基づいてLPフィルタを生成し、これを合成フィルタとして励振信号から復号音声信号を生成する(ステップS14)。これにより、正常でないフレームの励振信号の信号レベルが減衰された復号音声信号が出力される。
 一方、カウンタcntが0である場合、現セグメントを含む過去のnfセグメントの中には、異常が検出されたセグメントが1つもなかったことを意味する。このため、ステップS14において、減衰されていない励振信号に基づいた復号音声信号が生成される。このため、正常なフレームの信号レベルは減衰されず、正常な音量の復号音声信号を生成することができる。
 そして、音声信号復号装置100は、現セグメントが符号化信号の最後まで到達したか否かの判定を行う(ステップS15)。現セグメントが符号化信号の最後まで到達した場合、符号化信号に対する復号が終了したとして、音声信号復号装置100は処理を終了する。そうでない場合、セグメントを1つ進めてステップS2に戻る。
 以上説明したように、本発明の実施の形態に係る音声信号復号装置100は、適応符号帳復号部102と、固定符号帳復号部103と、比算出部107と、判定部109と、減衰器110と、を有する。適応符号帳復号部102は、CELP方式で符号化された符号化信号の適応符号帳符号を用いて適応符号帳ベクトルを生成する。固定符号帳復号部103は、符号化信号の固定符号帳符号を用いて固定符号帳ベクトルを生成する。比算出部107は、適応符号帳ベクトルと固定符号帳ベクトルとの振幅比、あるいはエネルギー比を算出する。判定部109は、比算出部107が算出した振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する。減衰器110は、判定部109により振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、適応符号帳ベクトルと固定符号帳ベクトルとを加算した励振信号を減衰させる。
 CELPでは、適応符号帳ベクトルと比較して固定符号帳ベクトルの値が極端に低くならないことが実験的に確認されており、あるフレームにおけるACB/FCB振幅比、あるいはエネルギー比が所定のしきい値を超える場合、すなわち、適応符号帳ベクトルの振幅と比較して固定符号帳ベクトルの振幅が極端に低い場合、当該フレームの復号信号が正常な信号ではないことがほぼ確定する。従って、本発明の実施の形態に係る音声信号復号装置100は、上記した構成により、あるフレームにおけるACB/FCB振幅比、あるいはエネルギー比が当該しきい値を超える場合には、当該フレームの復号信号が正常ではないと判定し、当該フレームの励振信号を減衰させる。このため、正常でないフレームの復号信号が再生されることにより大音量の異常音が発生する事態を高精度で回避することができる。
 また、本発明の実施の形態に係る音声信号復号装置100において、減衰器110は、判定部109により振幅比、あるいはエネルギー比が所定のしきい値を超えると判定されたフレームが存在した場合に、当該フレームの後の所定数のフレームの励振信号を減衰させる。このため、音声信号復号装置100によれば、例えば正常でないフレームが連続しているにもかかわらず、あるフレーム以後のフレームのACB/FCB振幅比、あるいはエネルギー比が所定の値以下であり、正常でないと判定できない場合でも、当該フレームの励振信号を強制的に減衰する。これにより、正常でないフレームの復号信号が再生されることにより大音量の異常音が発生する事態を高精度で回避することができる。
 また、本発明の実施の形態に係る音声信号復号装置100において、合成フィルタ111の前段に減衰器110により励振信号を減衰する構成を有する。合成フィルタ111の後段に減衰器を入れると、フレーム境界において信号の不連続性を生じてしまう。しかしながら、合成フィルタ111の前段に減衰器110を配置し、フレーム境界に不連続を生じる減衰後の信号で合成フィルタ111を駆動することにより、フレーム間で連続性を保った復号音声信号を生成できる。つまり、音声信号復号装置100によれば、上記したように合成フィルタ111の前段で減衰処理を行っているため、フレーム間の不連続を生ずることがない。
 本発明は、CELP方式で符号化された音声信号を復号する音声信号復号装置に好適である。
 100 音声信号復号装置
 101 多重分離部
 102 適応符号帳復号部
 103 固定符号帳復号部
 104 利得復号部
 105 増幅器
 106 増幅器
 107 比算出部
 108 加算器
 109 判定部
 110 減衰器
 111 合成フィルタ

Claims (5)

  1.  CELP方式で符号化された符号化信号の適応符号帳符号を用いて適応符号帳復号成分を生成する適応符号帳復号部と、
     前記符号化信号の固定符号帳符号を用いて固定符号帳復号成分を生成する固定符号帳復号部と、
     前記適応符号帳復号成分と前記固定符号帳復号成分との振幅比、あるいはエネルギー比を算出する比算出部と、
     前記比算出部が算出した振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する判定部と、
     前記判定部により前記振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、前記適応符号帳復号成分と前記固定符号帳復号成分とを加算した励振信号を減衰させる減衰器と、
     を有する音声信号復号装置。
  2.  前記符号化信号をフレーム毎に前記適応符号帳符号および前記固定符号帳符号に分離する多重分離部をさらに有する、
     請求項1に記載の音声信号復号装置。
  3.  前記減衰器は、前記判定部により前記振幅比、あるいはエネルギー比が所定のしきい値を超えると判定されたフレームが存在した場合に、当該フレームの後の所定数のフレームの励振信号を減衰させる、
     請求項2に記載の音声信号復号装置。
  4.  前記減衰器により減衰された励振信号を整形して復号音声信号を生成する合成フィルタをさらに有する、
     請求項1に記載の音声信号復号装置。
  5.  CELP方式で符号化された符号化信号の適応符号帳成分を用いて適応符号帳復号成分を生成する適応符号帳復号ステップと、
     前記符号化信号の固定符号帳成分を用いて固定符号帳復号成分を生成する固定符号帳復号ステップと、
     前記適応符号帳復号成分と前記固定符号帳復号成分との振幅比、あるいはエネルギー比を算出する比算出ステップと、
     前記振幅比、あるいはエネルギー比が所定のしきい値を超えるか否かを判定する判定ステップと、
     前記振幅比、あるいはエネルギー比が所定のしきい値を超えると判定された場合に、前記適応符号帳復号成分と前記固定符号帳復号成分とを加算した励振信号を減衰させる減衰ステップと、
     を有する音声信号復号方法。
PCT/JP2016/002465 2015-08-05 2016-05-20 音声信号復号装置および音声信号復号方法 WO2017022151A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/736,501 US10347266B2 (en) 2015-08-05 2016-05-20 Speech signal decoding device and method for decoding speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015155009A JP6516099B2 (ja) 2015-08-05 2015-08-05 音声信号復号装置および音声信号復号方法
JP2015-155009 2015-08-05

Publications (1)

Publication Number Publication Date
WO2017022151A1 true WO2017022151A1 (ja) 2017-02-09

Family

ID=57942676

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/002465 WO2017022151A1 (ja) 2015-08-05 2016-05-20 音声信号復号装置および音声信号復号方法

Country Status (3)

Country Link
US (1) US10347266B2 (ja)
JP (1) JP6516099B2 (ja)
WO (1) WO2017022151A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305398A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声復号化装置
JP2001013998A (ja) * 1999-06-30 2001-01-19 Matsushita Electric Ind Co Ltd 音声復号化装置及び符号誤り補償方法
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
WO2008018464A1 (fr) * 2006-08-08 2008-02-14 Panasonic Corporation dispositif de codage audio et procédé de codage audio

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
JP3418976B2 (ja) 1993-08-20 2003-06-23 ソニー株式会社 音声抑制装置
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
EP1103953B1 (en) * 1999-11-23 2006-08-16 Texas Instruments Incorporated Method for concealing erased speech frames
US6564182B1 (en) * 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
JP2007221807A (ja) 2007-03-12 2007-08-30 Softbank Mobile Corp 復号化装置および電子機器
JP5110956B2 (ja) 2007-05-10 2012-12-26 三菱電機株式会社 暗号化装置及び復号装置
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305398A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声復号化装置
JP2001013998A (ja) * 1999-06-30 2001-01-19 Matsushita Electric Ind Co Ltd 音声復号化装置及び符号誤り補償方法
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
WO2008018464A1 (fr) * 2006-08-08 2008-02-14 Panasonic Corporation dispositif de codage audio et procédé de codage audio

Also Published As

Publication number Publication date
JP6516099B2 (ja) 2019-05-22
US20180182407A1 (en) 2018-06-28
JP2017032906A (ja) 2017-02-09
US10347266B2 (en) 2019-07-09

Similar Documents

Publication Publication Date Title
JP5587405B2 (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
EP2291841B1 (en) Method, apparatus and computer program product for providing improved audio processing
EP2438592B1 (en) Method, apparatus and computer program product for reconstructing an erased speech frame
KR101489364B1 (ko) 데이터 스트림의 인증 방법
JP5442995B2 (ja) マルチチャンネルオーディオ信号のエンコーディング/デコーディングシステム、記録媒体及び方法
EP3924963B1 (en) Decoder and decoding method for lc3 concealment including partial frame loss concealment
WO2015059087A1 (en) Concept for combined dynamic range compression and guided clipping prevention for audio devices
US10818304B2 (en) Phase coherence control for harmonic signals in perceptual audio codecs
JP2007316658A (ja) ステレオ音響信号の処理方法と装置
KR20140005277A (ko) 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
JP2009005146A (ja) データ伝送装置
US8996389B2 (en) Artifact reduction in time compression
US10764782B2 (en) Data processing apparatus, data processing method, and program
TW200721112A (en) Method and apparatus for decoding an audio signal
US20120065984A1 (en) Decoding device and decoding method
US20090070120A1 (en) Audio regeneration method
WO2017022151A1 (ja) 音声信号復号装置および音声信号復号方法
JP2010518442A (ja) エラーフレームのパラメータ更新方法及び装置
US9123329B2 (en) Method and apparatus for generating sideband residual signal
KR20140111480A (ko) 보코더 잡음 억제 방법 및 장치
KR102132326B1 (ko) 통신 시스템에서 오류 은닉 방법 및 장치
WO2013024508A1 (ja) 音声処理装置、再生装置、音声処理方法およびプログラム
JP2002073091A (ja) 復号装置
KR20070003600A (ko) 오디오 신호 인코딩 및 디코딩 방법 및 장치
Wu Techniques for audiovisual data confidentiality, integrity and copyright protection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16832442

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15736501

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16832442

Country of ref document: EP

Kind code of ref document: A1