WO2017094203A1 - 音声信号復号装置及び音声信号復号方法 - Google Patents

音声信号復号装置及び音声信号復号方法 Download PDF

Info

Publication number
WO2017094203A1
WO2017094203A1 PCT/JP2016/002509 JP2016002509W WO2017094203A1 WO 2017094203 A1 WO2017094203 A1 WO 2017094203A1 JP 2016002509 W JP2016002509 W JP 2016002509W WO 2017094203 A1 WO2017094203 A1 WO 2017094203A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
decoder
output signal
decoding
switching
Prior art date
Application number
PCT/JP2016/002509
Other languages
English (en)
French (fr)
Inventor
江原 宏幸
河嶋 拓也
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US15/779,740 priority Critical patent/US10811020B2/en
Publication of WO2017094203A1 publication Critical patent/WO2017094203A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Definitions

  • the present disclosure relates to an audio signal decoding apparatus and an audio signal decoding method used in a dual codec audio transmission system using different codecs.
  • an audio transmission system that switches a codec to be used according to the state of a transmission path.
  • a wideband codec is used when a wideband codec can be used
  • a narrowband codec is used when a wideband codec cannot be used.
  • Patent Document 1 discloses a technique for preventing noise generation due to switching of the encoding means (codec) by switching the encoding means (codec) during the silent period. .
  • One aspect of the present disclosure provides an audio signal decoding device and an audio signal decoding method that can suppress a sense of incongruity in hearing at the time of codec switching.
  • the audio signal decoding device includes a first decoder, a second decoder, a signal switching unit, and a noise adding unit.
  • the first decoder decodes the first encoded data encoded and transmitted by the first encoding method.
  • the second decoder decodes the second encoded data having a narrower band than the first encoded data, encoded and transmitted by the second encoding method.
  • the signal switching unit switches and outputs the output signal of the first decoder and the output signal of the second decoder.
  • the noise adding unit compares the output signal of the second decoder with the output signal of the first decoder when the signal switching unit switches the output signal from the output signal of the first decoder to the output signal of the second decoder. Thus, a noise signal is added to the high frequency band where the signal component is insufficient.
  • the audio signal decoding method includes a first decoding step, a second decoding step, a signal switching step, and a noise adding step.
  • the first decoding step the first encoded data encoded and transmitted by the first encoding method is decoded.
  • the second decoding step the second encoded data having a narrower band than the first encoded data, encoded and transmitted by the second encoding method, is decoded.
  • the signal switching step switches and outputs the first decoded signal obtained in the first decoding step and the second decoded signal obtained in the second decoding step.
  • the noise addition step when the output signal is switched from the first decoded signal to the second decoded signal by the signal switching step, the signal component is insufficient in the second decoded signal compared to the first decoded signal. Noise signal is added to the high frequency band.
  • FIG. 1 is a diagram for explaining the principle of the embodiment.
  • FIG. 2 is a diagram for explaining the generation of abnormal noise caused by the disappearance of the high-frequency signal and the discontinuity of the low-frequency signal.
  • FIG. 3 is a diagram for explaining the elimination of the discontinuity in the low band by the cross-fade process.
  • FIG. 4 is a block diagram illustrating a main configuration of a dual codec audio transmission system to which the audio signal decoding apparatus according to the embodiment is applied.
  • FIG. 5 is a block diagram showing a configuration of another embodiment.
  • FIG. 1 is a diagram illustrating the principle of a decoding method according to an embodiment.
  • FIG. 1 shows the principle when switching from the first codec using the first encoding method to the second codec using the second encoding method.
  • G A codec conforming to 722.1C is used.
  • the second codec a codec conforming to AMR-WB is used.
  • the first codec (G.722.1C) has a wider bandwidth than the second codec (AMR-WB).
  • the second codec When comparing the first codec and the second codec, the second codec lacks high-band signal components.
  • a noise signal N0 that gradually attenuates with time from the time point t2 when switching from the first codec to the second codec is added to the high frequency band where the signal component is insufficient.
  • white noise may be used as the noise signal N0.
  • a crossfade process is performed. Specifically, from the time point t2 when switching from the first codec to the second codec, the output level of the first codec is gradually lowered and the output level of the second codec is gradually raised. .
  • the noise signal N0 when the noise signal N0 is not added, the high frequency band signal disappears after the codec switching time t2, so that an abnormal sound is generated at the switching time t2.
  • the present embodiment it is possible to suppress the generation of abnormal noise caused by the disappearance of such a high-frequency band signal.
  • the noise signal N0 that gradually attenuates with time from the switching time t2 is added to the high frequency band where the signal component disappears due to the switching of the codec. Can be suppressed.
  • FIG. 4 is a block diagram showing the main configuration of a dual codec audio transmission system to which the audio signal decoding apparatus of the present embodiment is applied.
  • the input audio signal is input to the delay circuit 111 and the G.P.
  • a signal adapted to VoIP (bearer 2) is transmitted.
  • the VoLTE (bearer 1) signal is decoded by the AMR-WB decoder 123 to be an AMR-WB decoded signal, and then input to the buffer 125 and the delay detector 131 via the upsampling circuit 124.
  • the signal of VoIP (bearer 2) 72. 2C decoded by the G.722.1C decoder 113. After being converted into a 722.1C decoded signal, it is input to the buffer 114, the delay detector 131, and the energy calculator 134.
  • the delay detection unit 131 includes an AMR-WB decoded signal and a G.
  • the phase difference with the 722.1C decoded signal is detected, and the detection result is output to the buffers 125 and 114.
  • the buffers 125 and 114 are connected to the AMR-WB decoded signal and the G.G. Control is performed so that there is no phase difference with the 722.1C decoded signal.
  • the buffers 125 and 114 include the AMR-WB decoded signal and the G. Phase correction is performed by shifting the phase by delaying at least one of the 722.1C decoded signals. In this way, the AMR-WB decoded signal and G.
  • the 722.1C decoded signal is input to the switching / mixing unit 132.
  • Switching / mixing unit 132 is a G.
  • the output signal is switched according to the presence / absence of signals and signal quality in the 722.1C decoded signal and the AMR-WB decoded signal.
  • the switching / mixing unit 132 has a higher quality than the AMR-WB decoded signal.
  • the G.722.1C decoded signal is transmitted.
  • a 722.1C decoded signal is selected and output.
  • the switching / mixing unit 132 is connected to the G.C.
  • both signals are crossfade and mixed in the frame immediately after the switching.
  • An output signal from the switching / mixing unit 132 is input to the adding unit 133.
  • Energy calculation unit 134 The energy of the 722.1C decoded signal is calculated. In practice, G. Since the energy of the 722.1C decoded signal fluctuates, the energy calculation unit 134 uses the G.72. The long-term energy average value over a plurality of frames of the 722.1C decoded signal is calculated.
  • the energy control unit 136 adjusts the energy of the noise signal input from the noise generation unit 135 according to the calculation result of the energy calculation unit 134 and outputs the adjusted energy to the addition unit 133.
  • the adding unit 133 As a result, in the adding unit 133, as shown in FIG.
  • a noise signal corresponding to the long-term energy average value before switching of the 722.1C decoded signal is added.
  • an energy noise signal proportional to the magnitude of the long-term energy average value may be added.
  • the energy control unit 136 may make the attenuation rate of the noise signal smaller than the attenuation rate of the crossfade. In short, G.
  • G When the output signal is switched from the 722.1C decoded signal to the AMR-WB decoded signal having a narrower band, the G. A noise signal is added to the high frequency band where the signal component is insufficient as compared with the 722.1C decoded signal. Thereby, the audio
  • the G When the output signal is switched from the 722.1C decoded signal to the AMR-WB decoded signal having a narrower band, the G.
  • the 722.1C decoded signal and the AMR-WB decoded signal were crossfade and mixed. Thereby, the sense of incongruity on hearing in the low frequency band can be suppressed.
  • the delay detection unit 131 and the buffers 114 and 125 are used, and the AMR-WB decoded signal and the G. These signals are synchronized by performing phase correction with the 722.1C decoded signal.
  • the configuration for synchronization is not limited to this, and a configuration as shown in FIG. 5 may be used, for example.
  • the adaptive filter 144 is used to achieve synchronization. G.
  • the 722.1C decoded signal is input to the adaptive filter 143 via the low pass filter (LPF) 141.
  • the adaptive filter 143 obtains a filter coefficient such that the error signal input from the difference circuit 142 becomes zero.
  • the adaptive filter 144 uses the filter coefficient obtained by the adaptive filter 143 to perform G.P. Filter the 722.1C decoded signal. As a result, the adaptive filter 144 receives a G.G signal synchronized with the AMR-WB decoded signal. A 722.1C decoded signal is output.
  • the configuration of FIG. 5 applies the principle of an echo filter.
  • G. is used as the first codec.
  • a codec compliant with 722.1C is used and a codec compliant with AMR-WB is used as the second codec has been described, the first codec and the second codec are not limited thereto.
  • the speech signal decoding apparatus and method according to the present disclosure is basically the second codec to second codec transmission in the dual codec audio transmission using the first codec having a wide band and the second codec having a narrower band. This is widely applicable when switching to other codecs.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit.
  • the integrated circuit may control each functional block used in the description of the above embodiment, and may include an input and an output. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the audio signal decoding device employs a configuration including a first decoder, a second decoder, a signal switching unit, and a noise adding unit.
  • the first decoder decodes the first encoded data encoded and transmitted by the first encoding method.
  • the second decoder decodes the second encoded data having a narrower band than the first encoded data, encoded and transmitted by the second encoding method.
  • the signal switching unit switches and outputs the output signal of the first decoder and the output signal of the second decoder.
  • the noise adding unit compares the output signal of the second decoder with the output signal of the first decoder when the signal switching unit switches the output signal from the output signal of the first decoder to the output signal of the second decoder. Thus, a noise signal is added to the high frequency band where the signal component is insufficient.
  • the audio signal decoding device may be configured to further include a mixing unit.
  • the mixing unit crosses the output signals of the first and second decoders in the frame immediately after the switching. Fade and mix.
  • the audio signal decoding device may further include an energy calculating unit.
  • the energy calculation unit calculates an average value of the energy of the output signal of the first decoder over a plurality of frames.
  • the noise adding unit may add a noise signal having an energy corresponding to the average value calculated by the energy calculating unit.
  • the audio signal decoding device may be configured to further include a phase correction unit.
  • the phase correction unit is configured to eliminate at least one of the output signal of the first decoder and the output signal of the second decoder so that the phase difference between the output signal of the first decoder and the output signal of the second decoder is eliminated. Phase correction is performed by shifting the phase.
  • the audio signal decoding method of the present disclosure includes a first decoding step, a second decoding step, a signal switching step, and a noise adding step.
  • the first decoding step the first encoded data encoded and transmitted by the first encoding method is decoded.
  • the second decoding step the second encoded data having a narrower band than the first encoded data encoded and transmitted by the second encoding method is decoded.
  • the signal switching step switches and outputs the first decoded signal obtained in the first decoding step and the second decoded signal obtained in the second decoding step.
  • the noise addition step when the output signal is switched from the first decoded signal to the second decoded signal by the signal switching step, the signal component is insufficient in the second decoded signal compared to the first decoded signal. Noise signal is added to the high frequency band.
  • the audio signal decoding apparatus and audio signal decoding method of the present disclosure are useful as an audio signal decoding apparatus and audio signal decoding method used in a dual codec audio transmission system using different codecs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声信号復号装置は、第1のデコーダ(113)と、第2のデコーダ(123)と、信号切替部(132)と、雑音付加部(133)と、を備える。第1のデコーダ(113)は、第1の符号化方式によって符号化され伝送された第1の符号化データを復号する。第2のデコーダ(123)は、第2の符号化方式によって符号化され伝送された、第1の符号化データよりも帯域の狭い第2の符号化データを復号する。信号切替部(132)は、第1のデコーダ(113)の出力信号と、第2のデコーダ(123)の出力信号とを切り替えて出力する。雑音付加部(133)は、信号切替部(132)が第1のデコーダ(113)の出力信号から第2のデコーダ(123)の出力信号へと出力信号を切り替える場合に、第2のデコーダ(123)の出力信号において第1のデコーダ(113)の出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

Description

音声信号復号装置及び音声信号復号方法
 本開示は、異なるコーデックを用いたデュアルコーデック音声伝送システムに用いられる音声信号復号装置及び音声信号復号方法に関する。
 従来、伝送路の状態などに応じて使用するコーデックを切り替える音声伝送システムがある。このような音声伝送システムにおいては、例えば、広帯域のコーデックを使用できる場合には広帯域のコーデックを使用し、広帯域のコーデックを使用できない場合には狭帯域のコーデックを使用する。
 コーデックを切り替えるにあたっては、切り替え時に生じる雑音等を低減して聴覚上の違和感を抑制する必要がある。その一つの方法として、特許文献1には、符号化手段(コーデック)の切り替えを無音期間において行うことで、符号化手段(コーデック)の切り替えに伴う雑音の発生を防止する技術が開示されている。
特開2002-62897号公報
 ところで、特許文献1のように無音期間でコーデックの切り替えを行おうとすると、無音期間となるまではコーデックの切り替えを行うことができなく、実用上不都合である。
 本開示の一態様は、コーデック切り替え時の聴覚上の違和感を抑制し得る音声信号復号装置及び音声信号復号方法を提供する。
 本開示の一態様に係る音声信号復号装置は、第1のデコーダと、第2のデコーダと、信号切替部と、雑音付加部と、を具備する。第1のデコーダは、第1の符号化方式によって符号化され伝送された第1の符号化データを復号する。第2のデコーダは、第2の符号化方式によって符号化され伝送された、第1の符号化データよりも帯域の狭い第2の符号化データを復号する。信号切替部は、第1のデコーダの出力信号と、第2のデコーダの出力信号とを切り替えて出力する。雑音付加部は、信号切替部が第1のデコーダの出力信号から第2のデコーダの出力信号へと出力信号を切り替える場合に、第2のデコーダの出力信号において第1のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。
 本開示の一態様に係る音声信号復号方法は、第1の復号ステップと、第2の復号ステップと、信号切替ステップと、雑音付加ステップと、を含む。第1の復号ステップは、第1の符号化方式によって符号化され伝送された第1の符号化データを復号する。第2の復号ステップは第2の符号化方式によって符号化され伝送された、第1の符号化データよりも帯域の狭い第2の符号化データを復号する。信号切替ステップは、第1の復号ステップで得られた第1の復号信号と、第2の復号ステップで得られた第2の復号信号とを切り替えて出力する。雑音付加ステップは、信号切替ステップによって第1の復号信号から第2の復号信号へと出力信号を切り替える場合に、第2の復号信号において第1の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様における更なる利点及び効果は、明細書及び図面から明らかにされる。かかる利点及び効果は、いくつかの実施形態並びに明細書及び図面に記載された特徴によってそれぞれ提供されるが、1つ又はそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
図1は、実施の形態の原理の説明に供する図である。 図2は、高域信号の消失、及び、低域信号の不連続に起因する異音発生の説明に供する図である。 図3は、クロスフェード処理による、低域での不連続感の解消の説明に供する図である。 図4は、実施の形態の音声信号復号装置が適用されたデュアルコーデック音声伝送システムの主要構成を示すブロック図である。 図5は、他の実施の形態の構成を示すブロック図である。
 以下、本開示の実施の形態について、図面を参照して詳細に説明する。
 (1)原理
 先ず、本実施の形態の原理について説明する。
 図1は、実施の形態による復号方法の原理を示す図である。図1では、第1の符号化方式を用いた第1のコーデックから、第2の符号化方式を用いた第2のコーデックに切り替える場合の原理を示す。第1のコーデックとして、G.722.1Cに準拠したコーデックが用いられている。第2のコーデックとして、AMR-WBに準拠したコーデックが用いられている。図からも分かるように、第1のコーデック(G.722.1C)は第2のコーデック(AMR-WB)よりも帯域が広い。
 第1のコーデックと第2のコーデックとを比較した場合、第2のコーデックは高域帯域の信号成分が不足している。本実施の形態の復号方法においては、信号成分が不足している高域帯域に、第1のコーデックから第2のコーデックへと切り替えられる時点t2から時間とともに次第に減衰する雑音信号N0を付加する。このようにすることで、第1のコーデックから、第1のコーデックと比較して高域成分が欠落している第2のコーデックに切り替える際の、異音の発生を抑制できる。なお、雑音信号N0としては、例えば白色ノイズを用いればよい。
 加えて、本実施の形態の場合には、クロスフェード処理を行う。具体的には、第1のコーデックから第2のコーデックへと切り替えられる時点t2から、第1のコーデックの出力レベルを徐々に下げるとともに第2のコーデックの出力レベルを徐々に上げるようになっている。
 因みに、図2に示すように、雑音信号N0を付加しない場合には、コーデックの切り替え時点t2以降で高域帯域の信号が消失するので、切り替え時点t2で異音が発生する。本実施の形態の場合には、このような高域帯域の信号の消失に起因する異音の発生を抑制できる。
 また、図3に示すようなクロスフェード処理を行えば、コーデックが切り替わることに伴う低域帯域における聴覚上の不連続感を解消できる。加えて、高域帯域においても切り替え時点t2で第1のコーデックの信号が急に消失するわけではないので異音の発生は抑制される。しかし、帯域感が急速に消失するので、やはり聴覚上の違和感が残ることになる。
 本実施の形態の音声信号復号方法では、コーデックの切り替えによって信号成分が消失する高域帯域に、切り替え時点t2から時間とともに次第に減衰する雑音信号N0を付加するようにしたことにより、聴覚上の違和感を抑制できる。
 (2)構成
 図4は、本実施の形態の音声信号復号装置が適用されたデュアルコーデック音声伝送システムの主要構成を示すブロック図である。
 サンプリング周波数Fs=32kHzの入力音声信号は、ダウンサンプラー121及びAMR-WBエンコーダ/デコーダ122によって符号化されることにより、VoLTE(ベアラ1)に適応した信号とされ伝送される。一方で、入力音声信号は、遅延回路111及びG.722.1Cエンコーダ112によって符号化されることにより、VoIP(ベアラ2)に適応した信号とされ伝送される。
 VoLTE(ベアラ1)の信号は、AMR-WBデコーダ123によってデコードされてAMR-WB復号信号とされた後、アップサンプリング回路124を介してバッファ125及び遅延検出部131に入力される。一方で、VoIP(ベアラ2)の信号は、G.722.1Cデコーダ113によってデコードされてG.722.1C復号信号とされた後、バッファ114、遅延検出部131及びエネルギー算出部134に入力される。
 遅延検出部131は、AMR-WB復号信号とG.722.1C復号信号との位相差を検出し、検出結果をバッファ125、114に出力する。バッファ125、114は、AMR-WB復号信号とG.722.1C復号信号との位相差がなくなるように制御される。具体的には、バッファ125、114は、AMR-WB復号信号とG.722.1C復号信号の少なくともいずれか一方を遅延させることで位相をずらして位相補正を行う。このように補正によって同期されたAMR-WB復号信号及びG.722.1C復号信号は、切替/混合部132に入力される。
 切替/混合部132は、G.722.1C復号信号及びAMR-WB復号信号における信号の有無や信号品質に応じて、出力信号を切り替える。切替/混合部132は、AMR-WB復号信号よりも高品質であるG.722.1C復号信号が存在する場合(つまりG.722.1C復号信号が伝送されている場合)には、G.722.1C復号信号を選択して出力する。これに対して、切替/混合部132は、G.722.1C復号信号が存在しなくなる場合(つまり伝送路の状態によってG.722.1C復号信号の伝送が途切れるような場合)には、図1に示すように、出力信号をG.722.1C復号信号からAMR-WB復号信号に切り替える。
 加えて、切替/混合部132は、図1及び図3に示したように、G.722.1C復号信号からAMR-WB復号信号に出力信号を切り替える場合に、切り替え直後のフレームにおいて、両信号をクロスフェードして混合する。切替/混合部132からの出力信号は加算部133に入力される。
 エネルギー算出部134は、G.722.1C復号信号のエネルギーを算出する。実際には、G.722.1C復号信号のエネルギーは変動するので、エネルギー算出部134はG.722.1C復号信号の複数フレームに亘る長期エネルギー平均値を算出する。
 エネルギー制御部136は、雑音生成部135から入力した雑音信号のエネルギーを、エネルギー算出部134の算出結果に応じて調整して加算部133に出力する。これにより、加算部133では、図1に示したように、G.722.1C復号信号の切り替えによる高域の信号消失部分に、G.722.1C復号信号の切り替え前の長期エネルギー平均値に応じた雑音信号が付加される。例えば長期エネルギー平均値の大きさに比例したエネルギーの雑音信号を付加すればよい。また、エネルギー制御部136によって、雑音信号の減衰率をクロスフェードの減衰率よりも小さくするとよい。要は、切り替えのタイミングでG.722.1C復号信号の高域でのエネルギーが急激に変動しないようなエネルギーの雑音信号を付加すればよい。また、長期エネルギー平均値にマッチングするようなエネルギーの雑音信号を付加することにより、時点t2でAMR-WB復号信号に切り替えた後の数フレーム後に再びG.722.1C復号信号に切り替えた場合の、聴覚上の違和感も低減できるようになる。
 以上説明したように、本実施の形態によれば、G.722.1C復号信号からそれよりも帯域の狭いAMR-WB復号信号へと出力信号を切り替える場合に、AMR-WB復号信号においてG.722.1C復号信号に比して信号成分が不足している高域帯域に雑音信号を付加するようにした。これにより、コーデック切り替え時の聴覚上の違和感を抑制し得る音声信号復号装置を実現できる。
 また、G.722.1C復号信号からそれよりも帯域の狭いAMR-WB復号信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、G.722.1C復号信号及びAMR-WB復号信号をクロスフェードして混合した。これにより、低域帯域での聴覚上の違和感も抑制できるようになる。
 かくして、位相の連続性が聴覚上重要となる低域成分をクロスフェードによって短期間で滑らかにつなげる一方、エネルギー変動が聴覚上重要となる高域成分を雑音信号の付加によって長期的に緩やかに減衰させる。これにより、位相と帯域感の双方の不連続を同時に解消できる。これによって、任意のコーデックをプライマリコーデックとセカンダリコーデックとして組み合わせたデュアルコーデック音声伝送システムを構築することが可能となる。
 なお、上述の実施の形態では、図4に示したように、遅延検出部131とバッファ114、125を用いて、AMR-WB復号信号とG.722.1C復号信号との位相補正を行うことで、これらの信号を同期させたが、同期させるための構成はこれに限らず、例えば図5に示すような構成を用いてもよい。図4との対応部分に同一符号を付して示す図5では、適応フィルタ144を用いて同期を実現する。G.722.1C復号信号がローパスフィルタ(LPF)141を介して適応フィルタ143に入力される。適応フィルタ143は、差分回路142から入力される誤差信号がゼロになるようなフィルタ係数を求める。適応フィルタ144は、適応フィルタ143で求められたフィルタ係数を用いてG.722.1C復号信号をフィルタリングする。これにより、適応フィルタ144からは、AMR-WB復号信号に同期したG.722.1C復号信号が出力される。因みに、図5の構成は、エコーフィルタの原理を応用したものである。
 また、上述の実施の形態では、第1のコーデックとしてG.722.1Cに準拠したコーデックを用い、第2のコーデックとしてAMR-WBに準拠したコーデックを用いた場合について述べたが、第1のコーデック及び第2のコーデックはこれに限らない。本開示の音声信号復号装置及び方法は、要は、帯域の広い第1のコーデックと、それよりも帯域の狭い第2のコーデックとを用いたデュアルコーデック音声伝送において、第1のコーデックから第2のコーデックへと切り替える場合に広く適用可能である。
 上記実施の形態では、本開示の一態様をハードウェアで構成する場合を例にとって説明したが、本開示はハードウェアとの連携においてソフトウェアで実現することも可能である。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。集積回路は、上記実施の形態の説明に用いた各機能ブロックを制御し、入力と出力を備えてもよい。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 上述の実施の形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することの無い範囲で、様々な形で実施することができる。
 本開示の音声信号復号装置は、第1のデコーダと、第2のデコーダと、信号切替部と、雑音付加部と、を具備する構成を採る。第1のデコーダは、第1の符号化方式によって符号化され伝送された第1の符号化データを復号する。第2のデコーダは、第2の符号化方式によって符号化され伝送された、第1の符号化データよりも帯域の狭い第2の符号化データを復号する。信号切替部は、第1のデコーダの出力信号と、第2のデコーダの出力信号とを切り替えて出力する。雑音付加部は、信号切替部が第1のデコーダの出力信号から第2のデコーダの出力信号へと出力信号を切り替える場合に、第2のデコーダの出力信号において第1のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。
 また、本開示の音声信号復号装置において、混合部を、さらに具備する構成を採るようにしてもよい。混合部は、信号切替部が第1のデコーダの出力信号から第2のデコーダの出力信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、第1及び第2のデコーダの出力信号をクロスフェードして混合する。
 また、本開示の音声信号復号装置において、エネルギー算出部を、さらに具備する構成を採るようにしてもよい。エネルギー算出部は、複数フレームに亘る第1のデコーダの出力信号のエネルギーの平均値を算出する。雑音付加部は、エネルギー算出部によって算出された平均値に応じたエネルギーの雑音信号を付加するようにしてもよい。
 また、本開示の音声信号復号装置において、位相補正部を、さらに具備する構成を採るようにしてもよい。位相補正部は、第1のデコーダの出力信号と第2のデコーダの出力信号との位相差がなくなるように、第1のデコーダの出力信号と第2のデコーダの出力信号の少なくともいずれか一方の位相をずらして位相補正を行う。
 本開示の音声信号復号方法は、第1の復号ステップと、第2の復号ステップと、信号切替ステップと、雑音付加ステップと、を含む。第1の復号ステップは、第1の符号化方式によって符号化され伝送された第1の符号化データを復号する。第2の復号ステップは、第2の符号化方式によって符号化され伝送された、第1の符号化データよりも帯域の狭い第2の符号化データを復号する。信号切替ステップは、第1の復号ステップで得られた第1の復号信号と、第2の復号ステップで得られた第2の復号信号とを切り替えて出力する。雑音付加ステップは、信号切替ステップによって第1の復号信号から第2の復号信号へと出力信号を切り替える場合に、第2の復号信号において第1の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する。
 本開示の音声信号復号装置及び音声信号復号方法は、異なるコーデックを用いたデュアルコーデック音声伝送システムに用いられる音声信号復号装置及び音声信号復号方法として有用である。
 113 G.722.1Cデコーダ(第1のデコーダ)
 114,125 バッファ(位相補正部)
 123 AMR-WBデコーダ(第2のデコーダ)
 124 アップサンプリング回路
 131 遅延検出部
 132 切替/混合部(信号切替部/混合部)
 133 加算部(雑音付加部)
 134 エネルギー算出部
 135 雑音生成部
 136 エネルギー制御部
 141 ローパスフィルタ(LPF)
 142 差分回路
 143,144 適応フィルタ

Claims (5)

  1.  第1の符号化方式によって符号化され伝送された第1の符号化データを復号する第1のデコーダと、
     第2の符号化方式によって符号化され伝送された、前記第1の符号化データよりも帯域の狭い第2の符号化データを復号する第2のデコーダと、
     前記第1のデコーダの出力信号と、前記第2のデコーダの出力信号とを切り替えて出力する信号切替部と、
     前記信号切替部が前記第1のデコーダの出力信号から前記第2のデコーダの出力信号へと出力信号を切り替える場合に、前記第2のデコーダの出力信号において前記第1のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する雑音付加部と、
     を具備する音声信号復号装置。
  2.  前記信号切替部が前記第1のデコーダの出力信号から前記第2のデコーダの出力信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、前記第1及び第2のデコーダの出力信号をクロスフェードして混合する混合部を、さらに具備する、
     請求項1に記載の音声信号復号装置。
  3.  複数フレームに亘る前記第1のデコーダの出力信号のエネルギーの平均値を算出するエネルギー算出部を、さらに具備し、
     前記雑音付加部は、前記エネルギー算出部によって算出された前記平均値に応じたエネルギーの雑音信号を付加する、
     請求項1又は請求項2に記載の音声信号復号装置。
  4.  前記第1のデコーダの出力信号と前記第2のデコーダの出力信号との位相差がなくなるように、前記第1のデコーダの出力信号と前記第2のデコーダの出力信号の少なくともいずれか一方の位相をずらして位相補正を行う位相補正部を、さらに具備する、
     請求項1から請求項3のいずれか一項に記載の音声信号復号装置。
  5.  第1の符号化方式によって符号化され伝送された第1の符号化データを復号する第1の復号ステップと、
     第2の符号化方式によって符号化され伝送された、前記第1の符号化データよりも帯域の狭い第2の符号化データを復号する第2の復号ステップと、
     前記第1の復号ステップで得られた第1の復号信号と、前記第2の復号ステップで得られた第2の復号信号とを切り替えて出力する信号切替ステップと、
     前記信号切替ステップによって前記第1の復号信号から前記第2の復号信号へと出力信号を切り替える場合に、前記第2の復号信号において前記第1の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する雑音付加ステップと、
     を含む音声信号復号方法。
PCT/JP2016/002509 2015-12-02 2016-05-24 音声信号復号装置及び音声信号復号方法 WO2017094203A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/779,740 US10811020B2 (en) 2015-12-02 2016-05-24 Voice signal decoding device and voice signal decoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015235970A JP6611042B2 (ja) 2015-12-02 2015-12-02 音声信号復号装置及び音声信号復号方法
JP2015-235970 2015-12-02

Publications (1)

Publication Number Publication Date
WO2017094203A1 true WO2017094203A1 (ja) 2017-06-08

Family

ID=58796807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/002509 WO2017094203A1 (ja) 2015-12-02 2016-05-24 音声信号復号装置及び音声信号復号方法

Country Status (3)

Country Link
US (1) US10811020B2 (ja)
JP (1) JP6611042B2 (ja)
WO (1) WO2017094203A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006049205A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル符号化装置
JP2009042734A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置および符号化方法

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5230038A (en) * 1989-01-27 1993-07-20 Fielder Louis D Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP3351352B2 (ja) * 1998-09-24 2002-11-25 ヤマハ株式会社 映像切換装置
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
JP2002062897A (ja) 2000-08-18 2002-02-28 Matsushita Electric Ind Co Ltd 音声符号化装置と音声復号化装置及び音声符号化方法と音声復号化方法
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
WO2003007480A1 (fr) * 2001-07-13 2003-01-23 Matsushita Electric Industrial Co., Ltd. Dispositif de decodage de signaux audio et dispositif de codage de signaux audio
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
DE10200653B4 (de) * 2002-01-10 2004-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
JPWO2005106848A1 (ja) * 2004-04-30 2007-12-13 松下電器産業株式会社 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
US20080103765A1 (en) * 2006-11-01 2008-05-01 Nokia Corporation Encoder Delay Adjustment
US20090024234A1 (en) * 2007-07-19 2009-01-22 Archibald Fitzgerald J Apparatus and method for coupling two independent audio streams
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CA2730198C (en) * 2008-07-11 2014-09-16 Frederik Nagel Audio signal synthesizer and audio signal encoder
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
JP5785082B2 (ja) * 2009-08-20 2015-09-24 ジーブイビービー ホールディングス エス.エイ.アール.エル. オーディオ・ストリームを合成する装置、方法及びプログラム
US9443534B2 (en) * 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CA2855845A1 (en) * 2011-11-18 2013-05-23 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
ES2568640T3 (es) * 2012-02-23 2016-05-03 Dolby International Ab Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia
US8904453B2 (en) * 2012-06-10 2014-12-02 Apple Inc. Systems and methods for seamlessly switching between media streams
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN104885149B (zh) * 2012-09-24 2017-11-17 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
KR101732059B1 (ko) * 2013-05-15 2017-05-04 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR101757338B1 (ko) * 2013-06-21 2017-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
EP2963648A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
SG11201701197TA (en) * 2014-07-25 2017-03-30 Panasonic Ip Corp America Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
KR102468799B1 (ko) * 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006049205A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル符号化装置
JP2009042734A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置および符号化方法

Also Published As

Publication number Publication date
US20200152214A1 (en) 2020-05-14
US10811020B2 (en) 2020-10-20
JP2017102299A (ja) 2017-06-08
JP6611042B2 (ja) 2019-11-27

Similar Documents

Publication Publication Date Title
RU2585987C2 (ru) Устройство и способ обработки речевого/аудио сигнала
JP4586090B2 (ja) 信号処理方法、処理装置および音声復号器
RU2639663C2 (ru) Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
US9472197B2 (en) Audio signal processing apparatus and audio signal processing method
WO2006075663A1 (ja) 音声切替装置および音声切替方法
KR101427863B1 (ko) 오디오 신호 코딩 방법 및 장치
JP2005520217A (ja) オーディオ復号化装置およびオーディオ復号化方法
JP2007316658A (ja) ステレオ音響信号の処理方法と装置
US20170140774A1 (en) Signal processing device and signal processing method
JP2006222867A (ja) 音響信号処理装置およびその方法
JP2013501246A (ja) トランスコーディングの方法、装置、機器、およびシステム
RU2481650C2 (ru) Ослабление опережающих эхо-сигналов в цифровом звуковом сигнале
JP5232121B2 (ja) 信号処理装置
JP5302190B2 (ja) オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
JP6082703B2 (ja) 音声復号装置及び音声復号方法
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
WO2017094203A1 (ja) 音声信号復号装置及び音声信号復号方法
JP2007109328A (ja) 再生装置
TW201627984A (zh) 語音信號處理裝置及語音信號處理方法
US20180270574A1 (en) Dynamic audio enhancement using an all-pass filter
CN105632504B (zh) Adpcm编解码器及adpcm解码器丢包隐藏的方法
JP2007033507A (ja) 音響再生装置
US8977546B2 (en) Encoding device, decoding device and method for both
JP2007271916A (ja) 音声データ圧縮装置および伸張装置
JP2007251676A (ja) 音声処理装置、その方法、プログラム、及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16870147

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16870147

Country of ref document: EP

Kind code of ref document: A1