JPWO2012046447A1 - 符号化装置、復号装置、符号化方法及び復号方法 - Google Patents

符号化装置、復号装置、符号化方法及び復号方法 Download PDF

Info

Publication number
JPWO2012046447A1
JPWO2012046447A1 JP2012537591A JP2012537591A JPWO2012046447A1 JP WO2012046447 A1 JPWO2012046447 A1 JP WO2012046447A1 JP 2012537591 A JP2012537591 A JP 2012537591A JP 2012537591 A JP2012537591 A JP 2012537591A JP WO2012046447 A1 JPWO2012046447 A1 JP WO2012046447A1
Authority
JP
Japan
Prior art keywords
pitch
time expansion
contraction
encoded
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012537591A
Other languages
English (en)
Inventor
石川 智一
智一 石川
則松 武志
武志 則松
ジョン ハイシャン
ジョン ハイシャン
ザオ ダン
ザオ ダン
セン チョン コック
セン チョン コック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2012046447A1 publication Critical patent/JPWO2012046447A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Abstract

符号化装置(10)であって、入力音声信号のピッチパターンを検出するピッチパターン検出部(101)と、ピッチパターンに基づいて、ピッチノード数を決定し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部(102)と、第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第1エンコーダ(103)と、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくようにピッチを補正する時間伸縮部(104)と、補正されたピッチでの入力音声信号を符号化して符号化音声信号を生成する第2エンコーダ(105)と、符号化時間伸縮パラメータと符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサ(106)とを備える。

Description

本発明は、入力される音声信号を符号化し、または符号化された音声信号を復号する符号化装置、復号装置、符号化方法及び復号方法に関する。
符号化装置は、音声信号を効率的に符号化するよう設計されている。人間の発話の場合、音声信号の基本周波数(ピッチ)が変化することもある。これにより、音声信号のエネルギーがより広い周波数帯域に広がる。そして、ピッチが変化する音声信号を音響信号符号化装置が符号化することは、特に、低ビットレートにおいて効率的ではない。
このため、従来、時間伸縮(Time Warping)技術を用いて、ピッチが変化する影響を補償している(例えば、特許文献1及び非特許文献1参照)。
具体的には、時間伸縮技術を用いて、ピッチの補正(ピッチシフト)を実現する。図1A及び図1Bは、従来のピッチをシフトする手法の一例を示す図である。つまり、図1Aは、ピッチシフト前の音声信号のスペクトルを示す図であり、図1Bはピッチシフト後の音声信号のスペクトルを示す図である。
これらの図に示すように、ピッチが図1Aの200Hzから図1Bの100Hzにシフトされている。このように、次のフレームのピッチを前のフレームのピッチと合わせるようにシフトすることによって、ピッチは一致したものとなる。この場合、音声信号のエネルギーは、図2A〜図2Cに示すように収束する。
図2Aは、従来の音声信号のピッチシフトにおけるピッチシフト前のスイープ信号を示す図である。図2Bは、従来の音声信号のピッチシフトにおけるピッチシフト後のスイープ信号を示す図である。これらの図に示すように、ピッチシフトを行うことで、音声信号のピッチは一定になる。
また、図2Cは、従来の音声信号のピッチシフトにおけるピッチシフト前後のスペクトルを示す図である。ここで、同図のグラフaは、ピッチシフト前のスペクトルを示し、同図のグラフbは、ピッチシフト後のスペクトルを示す。同図に示すように、ピッチシフト後のエネルギーが狭い帯域幅に収まっている。
ここで、ピッチシフトは、たとえば再サンプリング方法を用いて実現される。一致したピッチを維持するため、再サンプリングする割合(以下、再サンプリングレートとする)は、ピッチ変化率に応じて変化する。フレームを符号化する際、ピッチトラッキングアルゴリズムを適用することによって、このフレームのピッチパターンが得られる。
具体的には、ピッチトラッキング用に当該フレームを小さなセクションに分割する。隣接するセクションは重なり合っていてもよい。ピッチトラッキングアルゴリズムとしては、たとえば、自己相関に基づいたピッチトラッキングアルゴリズム(例えば、非特許文献2参照)と、周波数領域に基づいたピッチ検出方法(例えば、非特許文献3参照)とが存在する。
各セクションには、対応するピッチの値がある。図3及び図4は、従来の音声信号のピッチパターンの計算手法を示す図である。図3は、ピッチが時間変化することを示している。また、図4に示すように、1つのピッチの値は、音声信号のセクション1つから算出される。なお、ピッチパターンは、ピッチの値を連結したものである。
ピッチシフトにおいては、再サンプリングレートは、ピッチ変化率に比例している。また、ピッチ変化率を示す情報は、ピッチパターンから抽出される。セントと半音は、このピッチ変化率を測定するのによく用いられる。図5は、セントと半音の尺度を示す図である。セント(cent、同図ではc)は、以下のように隣接するピッチのピッチ比(ピッチ変化率)から算出される。
Figure 2012046447
ピッチ変化率に従って、再サンプリングを音声信号に適用する。一致したピッチを得るために、他のセクションのピッチを基準ピッチまでシフトする。例えば、次のセクションのピッチが前のピッチよりも高ければ、2つのピッチ間のセント差に比例する、より低いレートに再サンプリングレートを設定する。また、次のセクションのピッチが前のピッチよりも低い場合は、再サンプリングレートを高いレートに設定する。
より高いトーンに対し、再生スピードを下げることによりオーディオの再生スピードを調整できる記録再生機を考えると、そのトーンはより低い周波数にシフトされている。これは、ピッチ変化率に比例する信号を再サンプリングするという考えと同じことである。
図6および図7は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。図6に示すように、符号化装置は、入力信号をピッチ比情報を用いて時間伸縮させてから、変換符号化を行う。また、当該ピッチ比情報は、図7に示す逆時間伸縮を行う復号装置で必要となる。
このため、ピッチ比は、符号化装置において符号化される必要がある。先行技術では、これらのピッチ比情報を符号化するのに、小さいピッチ比に対応した固定テーブルが用いられ、また、ピッチ比を符号化するのに用いることのできるビット数は限られている条件下で、時間伸縮(Time Warping)処理により符号化音質向上を目指している。
米国特許出願公開第2008/0004869号明細書
Bernd Edler、"A Time−warpped MDCT Approach To Speech Transform Coding"、AES第126回会議、ミュンヘン、ドイツ、2000年5月 Milan Jelinek、"Wideband Speech Coding Advances in VMR−WB Standard"、IEEE Transactions on Audio、Speech and Language Processing、第15巻第4号、2007年5月 Xuejing Sun、"Pitch Detection and Voice Quality Analysis Using Subharmonic−to−Harmonic Ratio "、IEEE ICASSP、333−336、オーランド、2002年
時間伸縮手法を用いることで、1フレーム内で一致したピッチを得て、符号化効率の向上を実現することができる。この時間伸縮手法は、ある程度までは、ピッチトラッキングの精度に依存する。しかしながら、音声信号の振幅および周期は変化するため、ピッチパターンを精度良く検出するのは困難である。
ピッチパターンの検出精度を向上するために、スムージングや微調整閾値パラメータなど、後処理方式がいくつか導入されているが、これらの方式は特定のデータベースに基づくものである。不正確なピッチパターンに基づいて時間伸縮手法を適用すれば、音質は低下し、時間伸縮情報を送信するためにビットが浪費されることになる。このため、検出したピッチパターンにむやみに従うことがないような時間伸縮手法の設計が必要である。
今のところ、先行技術における時間伸縮手法には、ピッチパターン情報を符号化する効率的な方法がない。先行技術では、小さい変化率のピッチパターンにだけ対応した固定テーブルが用いられている。しかしながら、音声信号のピッチ変化率が大きい場合には、当該固定テーブルでは限界があり、時間伸縮手法での性能が低下する。このように、ピッチが著しく変化する状況では小さい固定テーブルだと不十分であるが、より大きなピッチ変化率に対応した固定テーブルではテーブルサイズが大きくなるため、より多くのビットを使用してピッチ比情報を符号化する必要がある。
これは、特に、低ビットレートの符号化において、代償が大きくなり得る。つまり、時間伸縮情報の送信時に多くのビットを使用することによって符号化効率を向上させることはできるが、音声信号の符号化用のビットがあまり残されず、音質が劣化する原因になる。
ゆえに、時間伸縮手法においてより少ないビット数で効率的に符号化を行うことができれば、確保しておいた多くのビットを音声信号の符号化に使用することができる。これにより、ピッチの変化が大きい音声信号であっても、音質を向上させることができる。
そこで、本発明は、このような問題に鑑みてなされたものであり、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる符号化装置、復号装置、符号化方法及び復号方法を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る符号化装置は、入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第1エンコーダと、生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも1つのピッチを補正する時間伸縮部と、前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第2エンコーダと、前記第1エンコーダが生成した前記符号化時間伸縮パラメータと前記第2エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサとを備える。
これによれば、符号化装置は、検出したピッチパターンに基づいて、ピッチノード数を決定し、当該ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。そして、符号化装置は、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチを補正し、補正したピッチでの入力音声信号を符号化した符号化音声信号と第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータとを多重化したビットストリームを生成する。このように、符号化装置は、検出したピッチパターンに従って、最適なピッチノード数を決定することで、第一時間伸縮パラメータを生成してピッチシフトを行う。このため、ピッチの変化が大きい音声信号であっても、情報量の大きな固定テーブルを必要としないため、多くのビット数を使用することなく符号化を行うことができる。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
また、好ましくは、さらに、前記第1エンコーダが生成した前記符号化時間伸縮パラメータを復号し、前記所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部を備え、前記時間伸縮部は、前記復号部が生成した前記第二時間伸縮パラメータを用いて、前記ピッチを補正する。
これによれば、符号化装置は、生成した符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成し、生成した第二時間伸縮パラメータを用いて、ピッチを補正する。つまり、符号化装置は、ピッチシフトに第一時間伸縮パラメータを用いるのではなく、第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータを復号して生成した第二時間伸縮パラメータを用いて、ピッチシフトを行う。ここで、当該第二時間伸縮パラメータは、復号装置で音声信号が復号される際に使用されるパラメータである。このため、符号化装置は、復号装置で使用されるパラメータと同じパラメータを使用してピッチシフトを行うことで、復号時の時間伸張処理の計算精度を向上させることができる。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。
また、好ましくは、前記入力音声信号は、2つのチャンネルの信号を有し、前記符号化装置は、さらに、前記2つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した前記類似度が所定の値よりも大きいか否かを示すフラグを生成するM/S計算部と、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記2つのチャンネルの信号をダウンミックスして得られる1つの信号を出力し、前記類似度が前記所定の値以下であることを示す場合には、前記2つのチャンネルの信号を出力するダウンミックス部とを備え、前記ピッチパターン検出部は、前記ダウンミックス部が出力した信号のそれぞれについて、ピッチパターンを検出する。
これによれば、符号化装置は、入力音声信号である2つのチャンネルの信号におけるピッチパターンの類似度を算出し、当該類似度が所定の値よりも大きい場合には、2つのチャンネルの信号をダウンミックスして得られる1つの信号を出力し、当該類似度が所定の値以下の場合には、2つのチャンネルの信号を出力する。つまり、符号化装置は、2つのチャンネルの信号のピッチパターンの類似度が高い場合には、1つの信号のピッチパターンに基づいて、2つのチャンネルの信号に共通する1つの第一時間伸縮パラメータを生成する。このように、符号化装置は、2つのチャンネルの信号を符号化するのに、1つの第一時間伸縮パラメータを符号化すればよく、使用するビット数を低減することができる。このため、当該符号化装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
また、好ましくは、さらに、前記第2エンコーダが生成した前記符号化音声信号である第一符号化信号と、他の符号化方式によって前記入力音声信号が符号化された第二符号化信号とを比較する比較部を備え、前記比較部は、前記第一符号化信号を、前記第1エンコーダが生成した前記符号化時間伸縮パラメータを用いて復号し、前記入力音声信号との差分である第一差分を算出し、前記第二符号化信号を復号し、前記入力音声信号との差分である第二差分を算出し、前記第一差分が前記第二差分よりも小さい場合に、前記第一符号化信号を出力し、前記マルチプレクサは、前記比較部が出力した前記第一符号化信号と前記符号化時間伸縮パラメータとを多重化して、前記ビットストリームを生成する。
これによれば、符号化装置は、生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較し、第一符号化信号を復号した信号と入力音声信号との差分が、第二符号化信号を復号した信号と入力音声信号との差分よりも小さい場合に、第一符号化信号を出力する。つまり、符号化装置は、符号化の精度が良かった場合にのみ、生成した符号化音声信号を出力する。これにより、当該符号化装置は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。
また、上記目的を達成するために、本発明の一態様に係る復号装置は、ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第1復号部と、前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第2復号部と、前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部とを備える。
これによれば、復号装置は、ビットストリームから符号化音声信号と符号化時間伸縮パラメータとを分離し、符号化時間伸縮パラメータを復号して、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する。そして、復号装置は、符号化音声信号を復号してピッチが補正された音声信号を生成し、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチを変更することで、音声信号を補正前の音声信号に変換する。このように、復号装置は、符号化時間伸縮パラメータを復号して第二時間伸縮パラメータを生成し、ピッチノード数のピッチをピッチシフト前のピッチに戻すことで、音声信号をピッチシフト前の音声信号に戻す。このため、復号装置は、ピッチの変化が大きい音声信号を復号する場合であっても、情報量の大きな固定テーブルを使用することなく生成された符号化時間伸縮パラメータを復号するために、当該情報量の大きな固定テーブルを必要としない。つまり、復号装置は、多くのビット数を使用することなく復号を行うことができる。これにより、当該復号装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
また、好ましくは、前記音声信号は、2つのチャンネルの信号を有し、前記復号装置は、さらに、前記2つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成するM/Sモード検出部を備え、前記第1復号部は、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記2つのチャンネルの信号に共通する前記第二時間伸縮パラメータを生成し、前記類似度が前記所定の値以下であることを示す場合には、前記2つのチャンネルの信号それぞれについて前記第二時間伸縮パラメータを生成する。
これによれば、復号装置は、音声信号である2つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きい場合には、2つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が所定の値以下である場合には、2つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。つまり、復号装置は、2つのチャンネルの信号のピッチパターンの類似度が高い場合には、1つの第二時間伸縮パラメータを生成する。このように、復号装置は、2つのチャンネルの信号を復号するのに、1つの第二時間伸縮パラメータを用いるだけでよいので、使用するビット数を低減することができる。このため、当該復号装置は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
また、本発明は、このような符号化装置または復号装置として実現することができるだけでなく、当該符号化装置または復号装置に含まれる処理部が行う特徴的な処理をステップとする符号化方法または復号方法としても実現することができる。また、符号化方法または復号方法に含まれる特徴的な処理をコンピュータに実行させるプログラムや集積回路として実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
本発明に係る符号化装置によれば、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
図1Aは、従来のピッチをシフトする手法の一例を示す図である。 図1Bは、従来のピッチをシフトする手法の一例を示す図である。 図2Aは、従来の音声信号のピッチシフトにおけるピッチシフト前のスイープ信号を示す図である。 図2Bは、従来の音声信号のピッチシフトにおけるピッチシフト後のスイープ信号を示す図である。 図2Cは、従来の音声信号のピッチシフトにおけるピッチシフト前後のスペクトルを示す図である。 図3は、従来の音声信号のピッチパターンの計算手法を示す図である。 図4は、従来の音声信号のピッチパターンの計算手法を示す図である。 図5は、セントと半音の尺度を示す図である。 図6は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。 図7は、時間伸縮方式を用いた符号化装置及び復号装置を示す図である。 図8は、本発明の実施の形態1に係る符号化装置の機能的な構成を示すブロック図である。 図9は、本発明の実施の形態1に係る動的時間伸縮部が決定するピッチノード数を説明するための図である。 図10は、本発明の実施の形態1に係る符号化装置が入力音声信号を符号化する処理の一例を示すフローチャートである。 図11は、本発明の実施の形態2に係る符号化装置が行う動的時間伸縮方式を説明するための図である。 図12は、本発明の実施の形態2に係る動的時間伸縮部が生成する第一時間伸縮パラメータを説明するための図である。 図13は、本発明の実施の形態3に係る復号装置の機能的な構成を示すブロック図である。 図14は、本発明の実施の形態3に係る復号装置が符号化音声信号を復号する処理の一例を示すフローチャートである。 図15は、本発明の実施の形態5に係る符号化装置の機能的な構成を示すブロック図である。 図16は、本発明の実施の形態6に係る符号化装置の機能的な構成を示すブロック図である。 図17は、本発明の実施の形態7に係る復号装置の機能的な構成を示すブロック図である。 図18は、本発明の実施の形態8に係る符号化装置の機能的な構成を示すブロック図である。 図19は、本発明の実施の形態9に係る符号化装置の機能的な構成を示すブロック図である。
以下、図面を参照しながら、本発明の実施の形態に係る符号化装置及び復号装置について、説明する。
なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、請求の範囲だけによって限定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。
つまり、以下の実施の形態は、様々な進歩性の原理を説明する単なる例である。ここに記載される内容の変形例は、当業者にとって自明であると理解されよう。
(実施の形態1)
実施の形態1では、動的時間伸縮(Dynamic Time Warping)方式を用いた符号化装置を提案する。
図8は、本発明の実施の形態1に係る符号化装置10の機能的な構成を示すブロック図である。
同図に示すように、符号化装置10は、入力される音声信号である入力音声信号を符号化する装置であり、ピッチパターン検出部101、動的時間伸縮部102、可逆エンコーダ103、時間伸縮部104、変換エンコーダ105及びマルチプレクサ106を備えている。
ピッチパターン検出部101は、入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出する。
つまり、左右のチャンネルの入力音声信号それぞれの1フレームがピッチパターン検出部101に入力される。そして、ピッチパターン検出部101は、左右のチャンネルの入力音声信号のピッチパターンをそれぞれ検出する。ピッチパターン検出アルゴリズムは、先行技術に記載されている。
動的時間伸縮部102は、ピッチパターン検出部101が検出したピッチパターンに基づいて、当該所定期間に検出するピッチの数であるピッチノード数を決定し、決定したピッチノード数と、ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。
具体的には、動的時間伸縮部102は、ピッチパターンに基づいてピッチノード数Mを決定し、図9に示されているように、1フレームをピッチノード数M個の重なり合ったセクションに分割する。図9は、本発明の実施の形態1に係る動的時間伸縮部102が決定するピッチノード数を説明するための図である。ここで、ピッチノード数Mの数値は限定されないが、ピッチパターンを解析して得られるピッチノードの最適数であるのが好ましい。
そして、動的時間伸縮部102は、1フレーム内のピッチノード数M個のセクションから、ピッチノード数M個のピッチを算出する。そして、動的時間伸縮部102は、算出したピッチノード数M個のピッチから、ピッチ変化位置を取得し、ピッチ変化率を算出する。
このように、動的時間伸縮部102は、ピッチパターンを処理してハーモニック構造に基づき、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。
可逆エンコーダ103は、動的時間伸縮部102が生成した第一時間伸縮パラメータを符号化して、符号化時間伸縮パラメータを生成する第1のエンコーダである。
つまり、第一時間伸縮パラメータは、可逆エンコーダ103に送信される。そして、可逆エンコーダ103は、第一時間伸縮パラメータを圧縮し、符号化時間伸縮パラメータを生成する。そして、符号化時間伸縮パラメータは、マルチプレクサ106に送信される。
時間伸縮部104は、動的時間伸縮部102が生成した第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数M個のピッチが所定の基準値に近づくように、ピッチノード数M個のピッチのうち少なくとも1つのピッチを補正する。
つまり、第一時間伸縮パラメータは時間伸縮部104に送信される。時間伸縮部104の処理は、先行技術に記載されている。時間伸縮部104は、第一時間伸縮パラメータに応じて、入力音声信号を再サンプリングする。入力音声信号がステレオ信号の場合、左右の信号は、対応する第一時間伸縮パラメータに応じて、それぞれピッチシフト(時間伸縮)される。
変換エンコーダ105は、時間伸縮部104が補正したピッチでの入力音声信号を符号化して、符号化音声信号を生成する第2のエンコーダである。
つまり、時間伸縮された左右チャンネルの信号は、変換エンコーダ105に送信され、符号化される。そして、符号化音声信号と変換エンコーダ情報とは、マルチプレクサ106に送信される。
マルチプレクサ106は、第1のエンコーダである可逆エンコーダ103が生成した符号化時間伸縮パラメータと、第2のエンコーダである変換エンコーダ105が生成した符号化音声信号と変換エンコーダ情報とを多重化して、ビットストリームを生成する。
なお、ピッチパターン検出部101に入力される入力音声信号は、ステレオ信号である必要はなく、モノラル信号でもマルチ信号でもかまわない。符号化装置10による動的時間伸縮方式は、どのような数のチャンネルにも適用可能である。
次に、符号化装置10が入力音声信号を符号化する処理について、説明する。
図10は、本発明の実施の形態1に係る符号化装置10が入力音声信号を符号化する処理の一例を示すフローチャートである。
同図に示すように、まず、ピッチパターン検出部101は、入力音声信号のピッチパターンを検出する(S102)。
そして、動的時間伸縮部102は、ピッチパターン検出部101が検出したピッチパターンに基づいて、ピッチノード数を決定する(S104)。
そして、動的時間伸縮部102は、当該ピッチパターンに基づいて、決定したピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する(S106)。
次に、可逆エンコーダ103は、動的時間伸縮部102が生成した第一時間伸縮パラメータを符号化して、符号化時間伸縮パラメータを生成する(S108)。
また、時間伸縮部104は、動的時間伸縮部102が生成した第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチノード数のピッチのうち少なくとも1つのピッチを補正する(S110)。
そして、変換エンコーダ105は、時間伸縮部104が補正したピッチでの入力音声信号を符号化して、符号化音声信号を生成する(S112)。
そして、マルチプレクサ106は、可逆エンコーダ103が生成した符号化時間伸縮パラメータと、変換エンコーダ105が生成した符号化音声信号と変換エンコーダ情報とを多重化して、ビットストリームを生成する(S114)。
以上により、符号化装置10が入力音声信号を符号化する処理は、終了する。
上記課題で述べたように、不正確なピッチパターンは、時間伸縮後の音質低下をもたらすことになる。動的時間伸縮方式は、この課題を克服するために提案された。これは、ハーモニック構造も考慮した時間伸縮方式である。つまり、時間伸縮の間、ハーモニクスはピッチシフトとともに修正され、時間伸縮中に信号のハーモニック構造を考慮する必要がある。そして、符号化装置10によるハーモニック時間伸縮方式は、ハーモニック構造の解析に基づいてピッチパターンを修正する。そして、この方式は、時間伸縮中にハーモニック構造を考慮することによって音質を改善する。
このように、実施の形態1では、動的時間伸縮方式でピッチパターンを処理し、動的時間伸縮のためのパラメータを生成する。このパラメータは、ピッチの数と時間伸縮が適用された位置とそれら対応位置の時間伸縮値とを表す。提案した動的時間伸縮方式により、音質は改善される。また、可逆符号化も導入して、さらに、時間伸縮値を符号化するビットを削減する。
以上のように、本実施の形態1に係る符号化装置10によれば、検出したピッチパターンに基づいて、ピッチノード数を決定し、当該ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する。そして、符号化装置10は、第一時間伸縮パラメータから得られる情報を用いて、ピッチノード数のピッチが所定の基準値に近づくように、ピッチを補正し、補正したピッチでの入力音声信号を符号化した符号化音声信号と第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータとを多重化したビットストリームを生成する。このように、符号化装置10は、検出したピッチパターンに従って、最適なピッチノード数を決定することで、第一時間伸縮パラメータを生成してピッチシフトを行う。このため、ピッチの変化が大きい音声信号であっても、情報量の大きな固定テーブルを必要としないため、多くのビット数を使用することなく符号化を行うことができる。これにより、符号化装置10は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
(実施の形態2)
本実施の形態2では、符号化装置10が実行する、ハーモニック構造に応じたピッチパターンを修正する方式を備えた動的時間伸縮方式を説明する。
上記課題で説明したように、ピッチパターンの検出は、音声信号の振幅と周期が変化するため、難しい課題である。時間伸縮用にピッチパターン情報をそのまま用いる場合、ピッチパターンが不正確だと時間伸縮の性能に影響を与える。時間伸縮の間、ピッチシフトに比例して信号のハーモニクスは修正されるので、時間伸縮のハーモニクスへの影響を考慮しなければならない。
本実施の形態2では、動的時間伸縮方式を提案する。ハーモニック構造を解析することによってピッチパターンを修正し、効果的な第一時間伸縮パラメータを生成する。
この動的時間伸縮方式は、3つの部分からなる。第1部は、ハーモニック構造に応じてピッチパターンを修正する。第2部は、時間伸縮前後のハーモニック構造を比較することによって、時間伸縮の性能を評価する。第3部は、第一時間伸縮パラメータの効果的な表現方式を用いる。先行技術で述べられているようなピッチパターン全体を符号化するのではなく、可逆符号化を用いて、時間伸縮が行われている位置情報を符号化し、その対応位置の時間伸縮値を符号化する。
第1部では、ピッチパターンを修正する。実施の形態1によると、フレームをピッチ算出用にM個のセクションに分割する。ピッチパターンは、M個のピッチ値(pitch,pitch,…pitch)から構成される。先行技術では、ピッチを、基準ピッチ近くまでシフトする。時間伸縮後、一致した基準ピッチが得られる。
これに対し、提案した動的時間伸縮方式では、信号のハーモニクスを基準ピッチのハーモニクス近くまでシフトすることができる。一例を図11に示す。図11は、本発明の実施の形態2に係る符号化装置10が行う動的時間伸縮方式を説明するための図である。
同図に示すように、検出されたピッチは、基準ピッチのハーモニクスに近い。つまり、Δf>Δfであるため、検出ピッチを基準ピッチまでシフトする場合には大きな伸縮値を用いる必要があるが、検出ピッチを基準ピッチのハーモニクスまでシフトする場合には小さな伸縮値を用いることができる。
このように、動的時間伸縮方式では、ピッチパターンを修正し、ハーモニック成分をシフトすることができる。修正処理を以下に述べる。
まず、動的時間伸縮方式では、検出ピッチと基準ピッチとの差を比較する。具体的には、基準ピッチをpitchrefとし、セクションiの検出ピッチをpitchとした場合、pitch>pitchrefであれば、検出ピッチpitchは基準ピッチpitchrefに近いのか、それとも、基準ピッチのハーモニクスk×pitchrefに近いのかを調べる。ここで、kは、k>1の整数である。
そして、次の式を満たすkが存在すれば、検出ピッチpitchを基準ハーモニクスk×pitchrefまでシフトする。検出ピッチpitchは、k×pitchrefに修正される。
Figure 2012046447
また、pitch<pitchrefであれば、基準ピッチpitchrefは、検出ピッチpitchに近いのか、それとも、検出ピッチpitchのハーモニクスに近いのかを調べる。次の式を満たすkが存在すれば、検出ピッチpitchのハーモニクスを基準ピッチまでシフトする。ゆえに、検出ピッチpitchはk×pitchに修正される。
Figure 2012046447
第2部では、この修正されたピッチパターンに基づいて、時間伸縮を適用し、時間伸縮前後のハーモニック構造を比較することによって性能を評価する。時間伸縮前後のハーモニック成分の和を、本実施の形態2における性能評価の基準として用いる。
ハーモニクスの算出を以下に示す。
Figure 2012046447
ここで、qは、ハーモニック成分の数である。本実施の形態2では、q=3を推奨する。S()は、信号のスペクトルを示しており、pitchは、ピッチパターンから検出されるピッチpitch,pitch,…pitchである。
時間伸縮後、ハーモニクスの和は以下のようになる。
Figure 2012046447
ここで、S’()は、時間伸縮後の信号のスペクトルを表している。
時間伸縮前、信号はpitch,pitch,…pitchのハーモニクスで構成されている。これらのハーモニック成分間のエネルギー分布を表すために、ハーモニック比HRを定義する。
Figure 2012046447
Figure 2012046447
は、ピッチpitch,pitch,…pitchのハーモニクスの和で構成されている。
時間伸縮後、ハーモニック比HR’は、以下のように算出される。
Figure 2012046447
H’(pitchref)は、時間伸縮後の基準ピッチのハーモニクスの和である。
Figure 2012046447
は、時間伸縮後のピッチpitch,pitch,…pitchのハーモニクスの和で構成されている。
時間伸縮後、エネルギーは基準ピッチに制限されると考えられ、他のピッチのエネルギーは抑制される。ゆえに、HR’>HRと考えられる。HR’>HRであって、時間伸縮をこのフレームに対して適用する場合は、時間伸縮が有効であるとみなされる。
動的時間伸縮の第3部は、効率的な方式を用いて、第一時間伸縮パラメータを生成することである。1フレーム内でのピッチ変化位置は1フレーム内にさほど多くないため、効率的な方式では、ピッチ変化位置とその値Δpとをそれぞれ符号化するよう設計してもよい。
まず、修正されたピッチパターンを正規化する。次に、隣接する修正ピッチの差分を計算する。
Figure 2012046447
先行技術との違いは、動的時間伸縮方式では、
Figure 2012046447
のベクトル全体を符号化しない点である。ベクトルCを用いて、Δp≠1である位置を示す。この位置は、時間伸縮が行われている位置である。Δp≠1である時間伸縮値Δpのみを、可逆エンコーダ103によって符号化する。
Δp=1であれば、C(i)を1に設定し、そうでなければ、C(i)を0に設定する。ベクトルCの各要素は、修正ピッチパターンのセクション1つに対応する。ベクトルCの設定例を図12に示す。図12は、本発明の実施の形態2に係る動的時間伸縮部102が生成する第一時間伸縮パラメータを説明するための図である。
具体的には、動的時間伸縮部102は、ベクトルC(ピッチ変化位置)とΔp≠1である時間伸縮値(ピッチ変化率)Δpとを、以下のステップ1〜3のいずれかに示す方式で符号化する。なお、どの方式を選択するのか示すため、フラグAを生成する。
ステップ1:動的時間伸縮部102は、対象のフレームにピッチ変化位置があるか否かを調べる。N=0であれば、ピッチ変化位置がないことを意味する。ここで、Nは、ピッチ変化位置の数、つまり、Δp≠1のセクション数である。そして、動的時間伸縮部102は、フラグAを0に設定する。この場合、動的時間伸縮部102は、フラグAのみを可逆エンコーダ103に送信する。
ステップ2:動的時間伸縮部102は、対象のフレームに1以上のピッチ変化位置があれば、Δp≠1である時間伸縮値ΔpとベクトルCとを可逆エンコーダ103に送信する必要がある。
Figure 2012046447
であれば、これはピッチ変化位置が多数存在することを意味するが、この状態の場合は、ベクトルCとΔp≠1であるΔpとをそのまま符号化するほうがより効率的である。
この場合、フラグAを1に設定し、Mビットを用いてベクトルCを符号化する。例えば、ベクトルC=00001111の場合、8ビットを用いてこのベクトルCを表す。動的時間伸縮部102は、フラグA、ベクトルCおよびΔp≠1であるΔpを、可逆エンコーダ103に送信する。
ステップ3:N>0かつ以下の式を満たす場合は、ピッチ変化位置が少ないことを意味している。
Figure 2012046447
この場合、ピッチ変化位置をそのまま符号化するほうがより効率的である。このため、フラグAを2に設定し、logMビットを用いてベクトルCで0とマークされた位置を符号化する。log(M/logM)ビットを用いて、N、つまり、ピッチ変化位置数を符号化する。
例えば、ベクトルC=10111111の場合、ピッチ変化位置は2である。位置2を符号化するのに3ビットが用いられる。動的時間伸縮部102は、フラグA、ピッチ変化位置数N、ピッチ変化位置、および、Δp≠1であるΔpを、可逆エンコーダ103に送信する。
Δpを統計的に解析すると、値Δpが生じる確率は均一でなく、可逆符号化を用いてビットレートを残しておくことができる。可逆エンコーダ103は、算術符号化やハフマン符号化などにより、Δp≠1であるピッチ変化率Δpを符号化する。
なお、複雑度を低減するため、動的時間伸縮部102は、最初の2つの方式(ステップ1及び2)を適用するだけでもよい。
先行技術では、ピッチパターンの情報は、圧縮方式を用いることなくそのままデコーダに送信される。ここで、本願発明者らは、鋭意研究の結果、時間伸縮のピッチパターンを統計的に解析すると、時間伸縮は、信号の1フレーム内でピッチが変化する位置数点で行われるだけであることを見出した。
ゆえに、時間伸縮が適用された情報のみを符号化するほうがより効率的である。そして、ピッチ変化が生じる均一ではない確率に応じ、第一時間伸縮パラメータを符号化するために、可逆符号化を用いてビットを確保することができる。
本動的時間伸縮方式は、時間伸縮が適用された位置情報とその対応位置の時間伸縮値で構成されている。このため、先行技術に記載されているような固定テーブルを用いてピッチパターン全体を符号化せずにビットが確保される。本動的時間伸縮方式は、また、時間伸縮値がより大きな範囲であっても対応できる。確保されたビットは入力音声信号の符号化に用いられ、時間伸縮値の範囲が大きいほど音質は改善される。
以上のように、本実施の形態2における動的時間伸縮方式によれば、時間伸縮でハーモニック構造を再構成することができる。エネルギーは基準ピッチとそのハーモニック成分に制限されているため、符号化効率が改善される。また、本方式により、ピッチ検出の精度への依存度は低減され、符号化の性能が改善される。第一時間伸縮パラメータを効率的に符号化する本方式は、ビットレートを削減することによって音質を向上させるので、ピッチ変化率がより大きい符号化信号に対応することができる。
(実施の形態3)
本実施の形態3では、動的時間伸縮方式を備えた復号装置を提案する。図13は、本発明の実施の形態3に係る復号装置20の機能的な構成を示すブロック図である。
同図に示すように、復号装置20は、符号化装置10で符号化された符号化音声信号を復号する装置であり、可逆デコーダ201、動的時間伸縮再構成部202、時間伸縮部203、変換デコーダ204及びデマルチプレクサ205を備えている。
デマルチプレクサ205は、入力されるビットストリームを、符号化時間伸縮パラメータと変換エンコーダ情報と符号化音声信号とに分離する。
ここで、入力されるビットストリームは、符号化装置10のマルチプレクサ106が出力するビットストリームであり、具体的には、ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータと、変換エンコーダ情報とが多重化されたビットストリームである。
可逆デコーダ201及び動的時間伸縮再構成部202は、符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、当該ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、当該ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第1の復号部である。
つまり、デマルチプレクサ205は、符号化時間伸縮パラメータを可逆デコーダ201に送信する。そして、可逆デコーダ201は、符号化時間伸縮パラメータを復号し、復号時間伸縮パラメータを生成する。復号時間伸縮パラメータは、フラグ、時間伸縮が適用される位置情報、および、それに対応する時間伸縮値Δpから構成される。
また、復号時間伸縮パラメータは、動的時間伸縮再構成部202に送信される。動的時間伸縮再構成部202は、復号時間伸縮パラメータから第二時間伸縮パラメータを生成する。
変換デコーダ204は、符号化音声信号を復号し、ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第2の復号部である。
つまり、変換デコーダ204は、変換エンコーダ情報に基づきデマルチプレクサ205から符号化音声信号を受信する。そして、変換デコーダ204は、時間伸縮された符号化音声信号を復号する。
時間伸縮部203は、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、ピッチが補正された音声信号を補正前の音声信号に変換する。
つまり、時間伸縮部203は、第二時間伸縮パラメータを受信し、入力される時間伸縮された左右チャンネルの信号に、時間伸縮を適用する。時間伸縮の処理は、実施の形態1の時間伸縮部104と同様である。なお、第二時間伸縮パラメータに応じて、信号は伸縮されない。
次に、復号装置20が符号化音声信号を復号する処理について、説明する。
図14は、本発明の実施の形態3に係る復号装置20が符号化音声信号を復号する処理の一例を示すフローチャートである。
同図に示すように、まず、デマルチプレクサ205は、入力されるビットストリームから、符号化時間伸縮パラメータと符号化音声信号とを分離する(S202)。
そして、可逆デコーダ201及び動的時間伸縮再構成部202は、符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する(S204)。
また、変換デコーダ204は、符号化音声信号を復号し、ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する(S206)。
そして、時間伸縮部203は、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、ピッチが補正された音声信号を補正前の音声信号に変換する(S208)。
以上により、復号装置20が符号化音声信号を復号する処理は、終了する。
以上のように、本実施の形態3に係る復号装置20によれば、ビットストリームから符号化音声信号と符号化時間伸縮パラメータとを分離し、符号化時間伸縮パラメータを復号して、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する。そして、復号装置20は、符号化音声信号を復号してピッチが補正された音声信号を生成し、第二時間伸縮パラメータを用いて、ピッチノード数のピッチが補正前のピッチに戻るようにピッチを変更することで、音声信号を補正前の音声信号に変換する。このように、復号装置20は、符号化時間伸縮パラメータを復号して第二時間伸縮パラメータを生成し、ピッチノード数のピッチをピッチシフト前のピッチに戻すことで、音声信号をピッチシフト前の音声信号に戻す。このため、復号装置20は、ピッチの変化が大きい音声信号を復号する場合であっても、ピッチ変化率が大きい場合に対応した拡張固定テーブルを用いつつ、拡張固定テーブルのインデックスをHuffman符号などの可逆可変長符号を用いることでインデックスを符号化する際のビット数を削減することで得られた符号化時間伸縮パラメータを復号するため、復号装置20は、多くのビット数を使用することなく復号を行うことができる。これにより、復号装置20は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
(実施の形態4)
本実施の形態4では、ピッチ変化率を符号化する可逆エンコーダおよび復号する可逆デコーダの詳細について説明する。
動的時間伸縮再構成部202が受信する復号時間伸縮パラメータは、フラグ、時間伸縮が適用されている位置情報、および、それに対応する時間伸縮値Δpから構成されている。
まず、動的時間伸縮再構成部202は、当該フラグを確認する。フラグが0であれば、対象フレームに時間伸縮が適用されていないことを意味する。この場合、再構成されたピッチパターンのベクトルを全て1に設定する。
フラグが1であれば、時間伸縮が適用されている位置を示すベクトルCを符号化するためにMビットを使用していることを意味する。1つのビットが1つの位置と一致する。ベクトルC内の1はピッチ変化がないことを表し、一方、ベクトルC内の0はピッチ変化があることを表す。
そして、動的時間伸縮再構成部202は、ベクトルC内に0がいくつあるかをカウントすることによって、ピッチ変化位置の総数Nを把握する。以下において、N個の時間伸縮値Δpはバッファから取得される。Δpは、c(i)=0である時間伸縮値に対応する。時間伸縮値Δpは可逆デコーダによって復号される。この擬似コードは以下の通りである。
For i=0:M
Pitch_ratio[i]=1;
If flag==1
For i=1:M

Read(vector C(i))
If vector C(i)==0

Read(ratio);
Pitch_ratio[i]=ratio;

正規化ピッチパターンは以下のように再構成される。
Figure 2012046447
このピッチパターンは、後の時間伸縮で用いられる。
(実施の形態5)
本実施の形態5では、動的時間伸縮方式を備えた別の符号化装置を提案する。図15は、本発明の実施の形態5に係る符号化装置11の機能的な構成を示すブロック図である。
同図に示すように、符号化装置11は、ピッチパターン検出部301、動的時間伸縮部302、可逆エンコーダ303、時間伸縮部304、変換エンコーダ305、可逆デコーダ306、動的時間伸縮再構成部307及びマルチプレクサ308を備えている。
ここで、図8に示した実施の形態1の符号化装置10と本実施の形態5の符号化装置11との違いは、符号化装置11が可逆デコーダ306および動的時間伸縮再構成部307を有することである。つまり、実施の形態1では、時間伸縮部104の時間伸縮に対して符号化(量子化)前のピッチ情報を用いている。この符号化(量子化)前のピッチ情報は、復号装置20の復号ピッチ情報とは異なる場合がある。
具体的には、動的時間伸縮部102が生成する第一時間伸縮パラメータと、第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータが復号装置20で復号されて生成される第二時間伸縮パラメータとが異なる場合がある。特に、第一時間伸縮パラメータに含まれるピッチ変化率と第二時間伸縮パラメータに含まれるピッチ変化率とが異なる可能性が高い。
このため、符号化の精度を向上させるため、本実施の形態5では、まず第一時間伸縮パラメータを符号化してから可逆デコーダ306で復号し、動的時間伸縮再構成部307で第二時間伸縮パラメータを再構成する。
なお、可逆デコーダ306の機能は、図13に示された可逆デコーダ201と同様である。また、動的時間伸縮再構成部307の機能は、図13に示された動的時間伸縮再構成部202と同様である。
つまり、可逆デコーダ306及び動的時間伸縮再構成部307は、可逆エンコーダ303が生成した符号化時間伸縮パラメータを復号し、所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部である。
そして、時間伸縮部304は、可逆デコーダ306及び動的時間伸縮再構成部307が生成した第二時間伸縮パラメータを用いて、ピッチを補正する。
このように、符号化装置11は、復号装置20と全く同じ時間伸縮パラメータを使用することができる。
なお、本実施の形態5の符号化装置11が備えるピッチパターン検出部301、動的時間伸縮部302、可逆エンコーダ303、時間伸縮部304、変換エンコーダ305及びマルチプレクサ308のそれぞれは、実施の形態1の符号化装置10が備えるピッチパターン検出部101、動的時間伸縮部102、可逆エンコーダ103、時間伸縮部104、変換エンコーダ105及びマルチプレクサ106と同様の機能を有するため、詳細な説明は省略する。
以上のように、本実施の形態5に係る符号化装置11によれば、生成した符号化時間伸縮パラメータを復号し、ピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成し、生成した第二時間伸縮パラメータを用いて、ピッチを補正する。つまり、符号化装置11は、ピッチシフトに第一時間伸縮パラメータを用いるのではなく、第一時間伸縮パラメータを符号化した符号化時間伸縮パラメータを復号して生成した第二時間伸縮パラメータを用いて、ピッチシフトを行う。ここで、当該第二時間伸縮パラメータは、復号装置20で音声信号が復号される際に使用されるパラメータである。このため、符号化装置11は、復号装置で使用されるパラメータと同じパラメータを使用してピッチシフトを行うことで、復号時の時間伸張処理の計算精度を向上させることができる。これにより、符号化装置11は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。
(実施の形態6)
本実施の形態6では、メインおよびサイド(M/S)モードとを組み入れた符号化装置を導入している。図16は、本発明の実施の形態6に係る符号化装置12の機能的な構成を示すブロック図である。
多くのコーデックのうち、M/Sモードはステレオ信号、例えばAACコーデックに対してよく用いられる。このM/Sモードを用いて、周波数領域のサブバンドにより、左右のチャンネルサブバンドの類似性を検出する。左右のチャンネルのサブバンドが似ていれば、M/Sモードが作動し、似ていなければ、M/Sモードは作動しない。
M/Sモードの情報は多くの変換符号化に利用可能であるため、動的時間伸縮方式ではM/Sモードの情報を用いて、ハーモニック時間伸縮の性能を改善することができる。
具体的には、同図に示すように、符号化装置12は、M/S計算部401、ダウンミックス部402、ピッチパターン検出部403、動的時間伸縮部404、可逆エンコーダ405、時間伸縮部406、変換エンコーダ407及びマルチプレクサ408を備えている。
ここで、ピッチパターン検出部403、動的時間伸縮部404、可逆エンコーダ405、時間伸縮部406、変換エンコーダ407及びマルチプレクサ408のそれぞれは、実施の形態1の符号化装置10が備えるピッチパターン検出部101、動的時間伸縮部102、可逆エンコーダ103、時間伸縮部104、変換エンコーダ105及びマルチプレクサ106と同様の機能を有するため、詳細な説明は省略する。
M/S計算部401は、入力音声信号が有する2つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した類似度が所定の値よりも大きいか否かを示すフラグを生成する。
具体的には、左右のチャンネル信号がM/S計算部401に送信される。そして、M/S計算部401は、周波数領域において左右の信号の類似性を算出する。これは、変換符号化におけるM/Sモードでの検出と同じである。そして、M/S計算部401は、1つのフラグを生成する。つまり、M/S計算部401は、ステレオ信号のサブバンド全てに対してM/Sモードが作動すれば、このフラグを1に設定し、そうでなければフラグを0に設定する。
また、ダウンミックス部402は、M/S計算部401が生成したフラグが、当該類似度が当該所定の値よりも大きいことを示す場合には、当該2つのチャンネルの信号をダウンミックスして得られる1つの信号を出力し、当該類似度が当該所定の値以下であることを示す場合には、当該2つのチャンネルの信号を出力する。
具体的には、フラグ=1であれば、ダウンミックス部402において、左右の信号をメイン信号およびサイド信号にダウンミックスする。メイン信号は、ピッチパターン検出部403に送信される。また、フラグ=1でなければ、ダウンミックス部402は、元のステレオ信号をピッチパターン検出部403に送信する。
そして、ピッチパターン検出部403は、ダウンミックス部402が出力した信号のそれぞれについて、ピッチパターンを検出する。
具体的には、ピッチパターン検出部403は、元のステレオ信号か、ステレオ信号のダウンミックス信号かのどちらかを受信する。ピッチパターン検出部403は、ダウンミックス信号を受信した場合、1セットのピッチパターンを検出する。ピッチパターン検出部403は、ダウンミックス信号を受信しなかった場合には、左右の音声信号のピッチパターンをそれぞれ検出する。
このように、本実施の形態6では、動的時間伸縮方式を、ステレオ信号の符号化により適するよう改善することができる。ステレオ信号を符号化する場合、左右のチャンネルで特性が異なることもある。この場合、異なるチャンネルに対して別の第一時間伸縮パラメータを算出する。また、左右のチャンネルの特性が類似していることもある。この場合、両チャンネルに同じ第一時間伸縮パラメータを用いるのが合理的である。つまり、左右のチャンネルの特性が類似している場合は、同じ第一時間伸縮パラメータを用いるのがより効率的である。
以上のように、本実施の形態6に係る符号化装置12によれば、入力音声信号である2つのチャンネルの信号におけるピッチパターンの類似度を算出し、当該類似度が所定の値よりも大きい場合には、2つのチャンネルの信号をダウンミックスして得られる1つの信号を出力し、当該類似度が所定の値以下の場合には、2つのチャンネルの信号を出力する。つまり、符号化装置12は、2つのチャンネルの信号のピッチパターンの類似度が高い場合には、1つの信号のピッチパターンに基づいて、2つのチャンネルの信号に共通する1つの第一時間伸縮パラメータを生成する。このように、符号化装置12は、2つのチャンネルの信号を符号化するのに、1つの第一時間伸縮パラメータを符号化すればよく、使用するビット数を低減することができる。このため、符号化装置12は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
(実施の形態7)
本実施の形態7は、M/Sモードに対応した復号装置を導入する。図17は、本発明の実施の形態7に係る復号装置21の機能的な構成を示すブロック図である。
同図に示すように、復号装置21は、可逆デコーダ501、動的時間伸縮再構成部502、時間伸縮部503、M/Sモード検出部504、変換デコーダ505及びデマルチプレクサ506を備えている。
ここで、復号装置21が備える可逆デコーダ501、動的時間伸縮再構成部502、時間伸縮部503、変換デコーダ505及びデマルチプレクサ506は、実施の形態3における復号装置20が備える可逆デコーダ201、動的時間伸縮再構成部202、時間伸縮部203、変換デコーダ204及びデマルチプレクサ205と同様の機能を有するため、詳細な説明は省略する。
まず、入力ビットストリームがデマルチプレクサ506に送信される。そして、デマルチプレクサ506は、符号化時間伸縮パラメータと変換エンコーダ情報と符号化音声信号とを出力する。
そして、変換デコーダ505は、符号化音声信号を変換エンコーダ情報に従って時間伸縮された信号に復号し、M/Sモード情報を抽出する。そして、変換デコーダ505は、抽出したM/Sモード情報を、M/Sモード検出部504に送信する。
M/Sモード検出部504は、音声信号が有する2つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成する。
具体的には、フレームのサブバンド全てに対してM/Sモードが作動すれば、このM/Sモードが時間伸縮に対しても作動するように、M/Sモード検出部504は、フラグを1に設定する。そうでなければ、M/Sモードはハーモニック時間伸縮再構成では用いられないため、M/Sモード検出部504は、フラグを0に設定する。そして、M/Sモード検出部504は、M/Sモードのフラグを動的時間伸縮再構成部502に送信する。
動的時間伸縮再構成部502は、M/Sモード検出部504が生成したフラグが、当該類似度が当該所定の値よりも大きいことを示す場合には、2つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が当該所定の値以下であることを示す場合には、2つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。
具体的には、動的時間伸縮再構成部502は、当該フラグに従って、可逆デコーダ501によって逆量子化された復号時間伸縮パラメータを第二時間伸縮パラメータに再構成する。
つまり、動的時間伸縮再構成部502は、フラグ=1であれば、1セットの第二時間伸縮パラメータを生成し、フラグが1でなければ、2セットの第二時間伸縮パラメータを生成する。第二時間伸縮パラメータの生成プロセスは、実施の形態2において動的時間伸縮部102が第一時間伸縮パラメータを生成プロセスと同様である。
時間伸縮部503は、フラグ=1であれば、時間伸縮されたステレオ信号に同じ第二時間伸縮パラメータを適用する。また、時間伸縮部503は、フラグが1でなければ、左の時間伸縮信号と右の時間伸縮信号とに異なる第二時間伸縮パラメータを適用する。
以上のように、本実施の形態7に係る復号装置21によれば、音声信号である2つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きい場合には、2つのチャンネルの信号に共通する第二時間伸縮パラメータを生成し、当該類似度が所定の値以下である場合には、2つのチャンネルの信号それぞれについて第二時間伸縮パラメータを生成する。つまり、復号装置21は、2つのチャンネルの信号のピッチパターンの類似度が高い場合には、1つの第二時間伸縮パラメータを生成する。このように、復号装置21は、2つのチャンネルの信号を復号するのに、1つの第二時間伸縮パラメータを用いるだけでよいので、使用するビット数を低減することができる。このため、復号装置21は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる。
(実施の形態8)
本実施の形態8は、実施の形態6を改善して、復号装置における時間伸縮の精度を上げる。改善点は、実施の形態5の改善点と同じである。図18は、本発明の実施の形態8に係る符号化装置13の機能的な構成を示すブロック図である。
同図に示すように、符号化装置13は、M/S計算部601、ダウンミックス部602、ピッチパターン検出部603、動的時間伸縮部604、可逆エンコーダ605、時間伸縮部606、変換エンコーダ607、可逆デコーダ608、動的時間伸縮再構成部609及びマルチプレクサ610を備えている。
ここで、M/S計算部601、ダウンミックス部602、ピッチパターン検出部603、動的時間伸縮部604、可逆エンコーダ605、時間伸縮部606、変換エンコーダ607及びマルチプレクサ610のそれぞれは、実施の形態6の符号化装置12が備えるM/S計算部401、ダウンミックス部402、ピッチパターン検出部403、動的時間伸縮部404、可逆エンコーダ405、時間伸縮部406、変換エンコーダ407及びマルチプレクサ408と同様の機能を有するため、詳細な説明は省略する。
つまり、本実施の形態8では、実施の形態6の構成に、可逆デコーダ608と動的時間伸縮再構成部609とが加えられている。この目的は、実施の形態5と同様に、符号化装置が復号装置と同じ第二時間伸縮パラメータを利用できるようにすることである。
なお、可逆デコーダ608および動的時間伸縮再構成部609は、実施の形態7の復号装置21における可逆デコーダ501および動的時間伸縮再構成部502と同様の機能を有するため、詳細な説明は省略する。
(実施の形態9)
本実施の形態9では、閉ループの動的時間伸縮方式を備えた符号化装置を導入する。図19は、本発明の実施の形態9に係る符号化装置14の機能的な構成を示すブロック図である。
同図に示すように、符号化装置14は、M/S計算部701、ダウンミックス部702、ピッチパターン検出部703、動的時間伸縮部704、可逆エンコーダ705、可逆デコーダ706、動的時間伸縮再構成部707、時間伸縮部708、変換エンコーダ709、比較部710及びマルチプレクサ711を備えている。
なお、実施の形態9の構造は実施の形態8の構造に基づいているが、比較方式が加えられている。つまり、符号化装置14は、実施の形態8の符号化装置13の構成に比較部710を追加した構成となっている。このため、符号化装置14が備える比較部710以外の構成についての詳細な説明は、省略する。
比較部710は、変換エンコーダ709が生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較する。
つまり、比較部710は、符号化音声信号と符号化時間伸縮パラメータとをマルチプレクサ711に送信する前に、符号化音声信号を確認する。具体的には、比較部710は、時間伸縮を復号した後で音質が全体的に改善されているか否かの判断を行う。
具体的には、比較部710は、第一符号化信号を、可逆エンコーダ705が生成した符号化時間伸縮パラメータを用いて復号し、入力音声信号との差分である第一差分を算出する。また、比較部710は、第二符号化信号を復号し、入力音声信号との差分である第二差分を算出する。そして、比較部710は、第一差分が第二差分よりも小さい場合に、第一符号化信号を出力する。
ここで、比較部710は、様々な種類の比較方式によって比較を行うことができる。このうちの1つの例として、復号信号のSNR(Signal−Noise Ratio、SN比)を元の信号と比較するものがある。
まず、比較部710は、時間伸縮された符号化音声信号を変換デコーダによって復号する。例えば、比較部710は、時間伸縮部708のように、復号された音声信号に第二時間伸縮パラメータを用いて時間伸縮を適用する。そして、比較部710は、伸縮されていない音声信号と元の音声信号とを比較することによって、SNRを算出する。
次に、比較部710は、時間伸縮を適用することなく他の符号化音声信号を生成する。そして、比較部710は、この符号化音声信号を同じ変換デコーダにより復号し、この復号された音声信号を元の音声信号と比較することによって、SNRを算出する。
次に、比較部710は、SNRとSNRとを比較して、判断を行う。もしSNR>SNRであれば、比較部710は、時間伸縮を選択し、第一符号化信号と変換エンコーダ情報と符号化時間伸縮パラメータとをマルチプレクサ711に送信する。
そして、マルチプレクサ711は、比較部710が出力した第一符号化信号と変換エンコーダ情報と符号化時間伸縮パラメータとを多重化して、ビットストリームを生成する。
また、SNR≦SNRであれば、時間伸縮は選択されず、比較部710は、第二符号化信号と変換エンコーダ情報とをマルチプレクサ711に送信する。
なお、比較部710は、比較方式の別の方法として、SNRの代わりに、使用するビット数を比較することにしてもよい。
このように、本動的時間伸縮方式では、時間伸縮前後のハーモニック構造を比較することによって、時間伸縮の効果の評価も行い、時間伸縮が対象フレームに適応するかどうかを判断する。これにより、不正確なピッチパターンによってもたらされる誤りを排除することができる。
以上のように、本実施の形態9に係る符号化装置14によれば、生成した符号化音声信号である第一符号化信号と、他の符号化方式によって入力音声信号が符号化された第二符号化信号とを比較し、第一符号化信号を復号した信号と入力音声信号との差分が、第二符号化信号を復号した信号と入力音声信号との差分よりも小さい場合に、第一符号化信号を出力する。つまり、符号化装置14は、符号化の精度が良かった場合にのみ、生成した符号化音声信号を出力する。これにより、符号化装置14は、ピッチの変化が大きい音声信号であっても、精度良く符号化を行うことで、少ないビット数で音質を向上させることができる。
(実施の形態10)
本実施の形態10では、動的時間伸縮方式において、ピッチ情報の長さを可変にする詳細な手法を提案する。
本実施の形態10の符号化装置の構造は、例えば実施の形態5における符号化装置11と同じであることとする。なお、本実施の形態10の符号化装置の構造は、上記の他の実施の形態と同じであることにしてもよい。
本実施の形態10における符号化装置11の動的時間伸縮部302は、検出されたピッチパターンを解析して、ピッチノードの最適数を決定する。ゆえに、ピッチノード数は可変である。ピッチノード数を示すために長さ指示子を用いる。以下の表は、ピッチノード数の長さ指示子を示したものである。
Figure 2012046447
そして、logNビットを用いて、ピッチノード数の長さ指示子を符号化する。ピッチノード数Mは、コーデックのビットレートに応じて、例えば、64kbpsの場合はM=16、24kbpsの場合はM=8または2のように柔軟に対応することができる。また、ピッチノード数Mは、ウィンドウサイズなど、コーデックで生成された他のパラメータによっても、例えば、長ウィンドウフレームの場合はM=8、短ウィンドウフレームの場合はM=4のように変えることができる。
また、ピッチノード数の長さ指示子の一例を、以下の表に示す。
Figure 2012046447
この場合は、2ビットを用いて長さ指示子を符号化する。ピッチ変化位置であるノードが0であれば、時間伸縮は行われず、時間伸縮パラメータはこれ以上符号化されない。また、ピッチ変化位置であるノードがM個あれば、Mビットを用いて、ベクトルCと定義された、各位置に対するピッチ変化ステータスを符号化する。ここで、Mは、16、8および2をとり得る。図12に示したように、1つのビットが1つの位置と一致する。位置iでピッチ変化がなければ、C[i]を1に設定し、ピッチ変化があれば、位置iでピッチ変化が生じたことを示すためにC[i]を0に設定する。
C[i]が0である各ノードでのピッチ変化値Δpを可逆エンコーダ303で符号化する。
そして、可逆エンコーダ303は、ピッチノード数を示す符号化された長さ指示子と、ピッチ変化位置を示すベクトルCと、ピッチ変化率とをマルチプレクサ308に送信する。
このように、本実施の形態10において提案された方式は、ピッチノードの可変長を示す長さ指示子を用いることによって、動的時間伸縮による符号化をさらに最適化する。
つまり、先行技術では、一定数のピッチ値を1フレームから算出する。ここで、本願発明者らの鋭意研究の結果、ピッチ変化は短時間ではあまり起こらないことを見出した。このため、信号特性に応じた適応数のピッチを有するほうがより効率的である。これにより、ビット数をさらに残して音質を改善することができる。
(実施の形態11)
本実施の形態11では、時間伸縮パラメータの可変長を復号する方式を備えた復号装置を提案する。例えば、本実施の形態11の復号装置の例として、図13に示した復号装置20を用いることができる。
本実施の形態11において、時間伸縮ノードの復号長さは可変である。これは、実施の形態10で説明した符号化装置に対応しており、以下に、実施の形態11の復号装置の一例を説明する。
実施の形態11の復号装置20においては、ビットストリームを分離した後、符号化時間伸縮パラメータを可逆デコーダ201に送信する。実施の形態10によると、長さ指示子はlogNビットで符号化される。可逆デコーダ201は、実施の形態10におけるピッチノード数の長さ指示子の表を用いて、ピッチノード数Mを復号する。
ここで、ピッチノード数Mは、コーデックのビットレートに応じて、例えば、64kbpsの場合はM=16、24kbpsの場合はM=8または2のように違っていてもかまわない。また、ピッチノード数Mは、ウィンドウサイズなど、コーデックで生成された他のパラメータによっても、例えば、長ウィンドウフレームの場合はM=8、短ウィンドウフレームの場合はM=4のように変えることができる。
長さ指示子の復号方式の一例を、以下の表に示す。
Figure 2012046447
ピッチ変化位置であるノードが0であれば、時間伸縮は行われず、時間伸縮パラメータはこれ以上復号されない。
ピッチ変化位置であるノードがM個あれば、Mビットのピッチ変化位置ベクトルCを復号する。ここで、Mは、16、8および2をとり得る。1つのビットが1つの位置と一致する。C[i]が1に等しい場合は、位置iでピッチ変化がないことを意味する。C[i]が0に等しい場合は、図12に示しているように、位置iでピッチ変化があることを意味する。
可逆デコーダ201は、ベクトルC[i]が0である位置において、ピッチ変化値Δpを復号する。
この擬似コードは以下のように記述される。
M=Table_Indicator[Reads(indicator)];
For i=0:M
Pitch_ratio[i]=1;
If (M>0)
For i=0:M

Read(vector C(i))
If (vector C(i)==0)

Pitch_ratio[i]=Lossless_dec(Read(ratio index));

そして、正規化ピッチパターンは以下のように再構成される。
Figure 2012046447
このピッチパターンは、時間伸縮された音声信号のピッチをシフトする時間伸縮部203内で利用される。
以上、本発明の実施の形態に係る符号化装置及び復号装置について説明したが、本発明は、この実施の形態に限定されるものではない。つまり、今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
また、本発明は、このような符号化装置または復号装置として実現することができるだけでなく、当該符号化装置または復号装置に含まれる処理部が行う特徴的な処理をステップとする符号化方法または復号方法としても実現することができる。また、符号化方法または復号方法に含まれる特徴的な処理をコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
また、図8、15、16、18もしくは19のブロック図に示された符号化装置、または、図13もしくは17のブロック図に示された復号装置の各機能ブロックは、集積回路であるLSIとして実現されてもよい。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本発明は、ピッチの変化が大きい音声信号であっても、少ないビット数で音質を向上させることができる符号化装置等に適用可能である。
10、11、12、13、14 符号化装置
20、21 復号装置
101、301、403、603、703 ピッチパターン検出部
102、302、404、604、704 動的時間伸縮部
103、303、405、605、705 可逆エンコーダ
104、304、406、606、708 時間伸縮部
105、305、407、607、709 変換エンコーダ
106、308、408、610、711 マルチプレクサ
201、501 可逆デコーダ
202、502 動的時間伸縮再構成部
203、503 時間伸縮部
204、505 変換デコーダ
205、506 デマルチプレクサ
306、608、706 可逆デコーダ
307、609、707 動的時間伸縮再構成部
401、601、701 M/S計算部
402、602、702 ダウンミックス部
504 M/Sモード検出部
710 比較部

Claims (12)

  1. 入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、
    検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、
    生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第1エンコーダと、
    生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも1つのピッチを補正する時間伸縮部と、
    前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第2エンコーダと、
    前記第1エンコーダが生成した前記符号化時間伸縮パラメータと前記第2エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサと
    を備える符号化装置。
  2. さらに、
    前記第1エンコーダが生成した前記符号化時間伸縮パラメータを復号し、前記所定期間のピッチパターンにおけるピッチノード数とピッチ変化位置とピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する復号部を備え、
    前記時間伸縮部は、前記復号部が生成した前記第二時間伸縮パラメータを用いて、前記ピッチを補正する
    請求項1に記載の符号化装置。
  3. 前記入力音声信号は、2つのチャンネルの信号を有し、
    前記符号化装置は、さらに、
    前記2つのチャンネルの信号におけるピッチパターンの類似度を算出し、算出した前記類似度が所定の値よりも大きいか否かを示すフラグを生成するM/S計算部と、
    生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記2つのチャンネルの信号をダウンミックスして得られる1つの信号を出力し、前記類似度が前記所定の値以下であることを示す場合には、前記2つのチャンネルの信号を出力するダウンミックス部とを備え、
    前記ピッチパターン検出部は、前記ダウンミックス部が出力した信号のそれぞれについて、ピッチパターンを検出する
    請求項1または2に記載の符号化装置。
  4. さらに、
    前記第2エンコーダが生成した前記符号化音声信号である第一符号化信号と、他の符号化方式によって前記入力音声信号が符号化された第二符号化信号とを比較する比較部を備え、
    前記比較部は、
    前記第一符号化信号を、前記第1エンコーダが生成した前記符号化時間伸縮パラメータを用いて復号し、前記入力音声信号との差分である第一差分を算出し、
    前記第二符号化信号を復号し、前記入力音声信号との差分である第二差分を算出し、
    前記第一差分が前記第二差分よりも小さい場合に、前記第一符号化信号を出力し、
    前記マルチプレクサは、前記比較部が出力した前記第一符号化信号と前記符号化時間伸縮パラメータとを多重化して、前記ビットストリームを生成する
    請求項1〜3のいずれか1項に記載の符号化装置。
  5. ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、
    前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第1復号部と、
    前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第2復号部と、
    前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部と
    を備える復号装置。
  6. 前記音声信号は、2つのチャンネルの信号を有し、
    前記復号装置は、さらに、
    前記2つのチャンネルの信号におけるピッチパターンの類似度が所定の値よりも大きいか否かを示すフラグを生成するM/Sモード検出部を備え、
    前記第1復号部は、生成された前記フラグが、前記類似度が前記所定の値よりも大きいことを示す場合には、前記2つのチャンネルの信号に共通する前記第二時間伸縮パラメータを生成し、前記類似度が前記所定の値以下であることを示す場合には、前記2つのチャンネルの信号それぞれについて前記第二時間伸縮パラメータを生成する
    請求項5に記載の復号装置。
  7. 入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出ステップと、
    検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮ステップと、
    生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第1符号化ステップと、
    生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも1つのピッチを補正する時間伸縮ステップと、
    前記時間伸縮ステップで補正されたピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第2符号化ステップと、
    前記第1符号化ステップで生成された前記符号化時間伸縮パラメータと前記第2符号化ステップで生成された前記符号化音声信号とを多重化して、ビットストリームを生成する多重化ステップと
    を含む符号化方法。
  8. ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離する分離ステップと、
    前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第1復号ステップと、
    前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第2復号ステップと、
    前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮ステップと
    を含む復号方法。
  9. 請求項7に記載の符号化方法に含まれるステップをコンピュータに実行させるためのプログラム。
  10. 請求項8に記載の復号方法に含まれるステップをコンピュータに実行させるためのプログラム。
  11. 入力音声信号の所定期間におけるピッチの変化を示す情報であるピッチパターンを検出するピッチパターン検出部と、
    検出された前記ピッチパターンに基づいて、前記所定期間に検出するピッチの数であるピッチノード数を決定し、決定した前記ピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第一時間伸縮パラメータを生成する動的時間伸縮部と、
    生成された前記第一時間伸縮パラメータを符号化して符号化時間伸縮パラメータを生成する第1エンコーダと、
    生成された前記第一時間伸縮パラメータから得られる情報を用いて、前記ピッチノード数のピッチが所定の基準値に近づくように、前記ピッチノード数のピッチのうち少なくとも1つのピッチを補正する時間伸縮部と、
    前記時間伸縮部が補正したピッチでの前記入力音声信号を符号化して符号化音声信号を生成する第2エンコーダと、
    前記第1エンコーダが生成した前記符号化時間伸縮パラメータと前記第2エンコーダが生成した前記符号化音声信号とを多重化して、ビットストリームを生成するマルチプレクサと
    を備える集積回路。
  12. ピッチが補正された音声信号が符号化された符号化音声信号と、ピッチを補正するための第一時間伸縮パラメータが符号化された符号化時間伸縮パラメータとが多重化されたビットストリームから、前記符号化音声信号と前記符号化時間伸縮パラメータとを分離するデマルチプレクサと、
    前記符号化時間伸縮パラメータを復号し、所定期間に検出するピッチの数であるピッチノード数と、前記ピッチノード数のピッチにおいてピッチの変化が生じる位置であるピッチ変化位置と、前記ピッチ変化位置におけるピッチの変化の比率であるピッチ変化率とを示す情報を含む第二時間伸縮パラメータを生成する第1復号部と、
    前記符号化音声信号を復号し、前記ピッチノード数のピッチが所定の基準値に近づくようにピッチが補正された音声信号を生成する第2復号部と、
    前記第二時間伸縮パラメータを用いて、前記ピッチノード数のピッチが補正前のピッチに戻るように前記ピッチノード数のピッチのうち少なくとも1つのピッチを変更することで、前記ピッチが補正された音声信号を補正前の音声信号に変換する時間伸縮部と
    を備える集積回路。
JP2012537591A 2010-10-06 2011-10-05 符号化装置、復号装置、符号化方法及び復号方法 Pending JPWO2012046447A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010226681 2010-10-06
JP2010226681 2010-10-06
PCT/JP2011/005615 WO2012046447A1 (ja) 2010-10-06 2011-10-05 符号化装置、復号装置、符号化方法及び復号方法

Publications (1)

Publication Number Publication Date
JPWO2012046447A1 true JPWO2012046447A1 (ja) 2014-02-24

Family

ID=45927452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537591A Pending JPWO2012046447A1 (ja) 2010-10-06 2011-10-05 符号化装置、復号装置、符号化方法及び復号方法

Country Status (6)

Country Link
US (1) US9117461B2 (ja)
EP (1) EP2626856B1 (ja)
JP (1) JPWO2012046447A1 (ja)
KR (1) KR101809298B1 (ja)
CN (1) CN103098130B (ja)
WO (1) WO2012046447A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
JPWO2012046447A1 (ja) * 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
FR2972320B1 (fr) * 2011-03-03 2013-10-18 Ass Pour La Rech Et Le Dev De Methodes Et Processus Ind Armines Codage de donnees sans perte pour communication bidirectionnelle dans une session collaborative d'echange de contenu multimedia
KR20180050947A (ko) * 2016-11-07 2018-05-16 삼성전자주식회사 대표 파형 제공 장치 및 방법
KR101925217B1 (ko) * 2017-06-20 2018-12-04 한국과학기술원 가창 표현 이식 시스템
CN112151045A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
JP2023509201A (ja) 2020-01-13 2023-03-07 ホアウェイ・テクノロジーズ・カンパニー・リミテッド オーディオ符号化及び復号方法、並びにオーディオ符号化及び復号デバイス

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108085A (ja) * 1991-10-19 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
JP2002268694A (ja) * 2001-03-13 2002-09-20 Nippon Hoso Kyokai <Nhk> ステレオ信号の符号化方法及び符号化装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
WO2008072737A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP2008529078A (ja) * 2005-01-27 2008-07-31 シンクロ アーツ リミテッド 音響的特徴の同期化された修正のための方法及び装置
JP2008262140A (ja) * 2007-04-11 2008-10-30 Arex:Kk 音程変換装置及び音程変換方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7825321B2 (en) 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
GB2422755A (en) * 2005-01-27 2006-08-02 Synchro Arts Ltd Audio signal processing
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8296131B2 (en) * 2008-12-30 2012-10-23 Audiocodes Ltd. Method and apparatus of providing a quality measure for an output voice signal generated to reproduce an input voice signal
JPWO2012046447A1 (ja) * 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108085A (ja) * 1991-10-19 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
JP2002268694A (ja) * 2001-03-13 2002-09-20 Nippon Hoso Kyokai <Nhk> ステレオ信号の符号化方法及び符号化装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
JP2008529078A (ja) * 2005-01-27 2008-07-31 シンクロ アーツ リミテッド 音響的特徴の同期化された修正のための方法及び装置
WO2008072737A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP2008262140A (ja) * 2007-04-11 2008-10-30 Arex:Kk 音程変換装置及び音程変換方法

Also Published As

Publication number Publication date
US9117461B2 (en) 2015-08-25
CN103098130B (zh) 2014-11-26
CN103098130A (zh) 2013-05-08
EP2626856A1 (en) 2013-08-14
KR101809298B1 (ko) 2017-12-14
EP2626856A4 (en) 2017-07-19
WO2012046447A1 (ja) 2012-04-12
EP2626856B1 (en) 2020-07-29
KR20130116862A (ko) 2013-10-24
US20130144611A1 (en) 2013-06-06

Similar Documents

Publication Publication Date Title
KR101274827B1 (ko) 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
JP4950210B2 (ja) オーディオ圧縮
JP5485909B2 (ja) オーディオ信号処理方法及び装置
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
TWI415115B (zh) 用以產生帶寬擴展輸出資料之裝置與方法
KR101275892B1 (ko) 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
WO2012046447A1 (ja) 符号化装置、復号装置、符号化方法及び復号方法
JP5530454B2 (ja) オーディオ符号化装置、復号装置、方法、回路およびプログラム
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
JPWO2004010415A1 (ja) オーディオ復号装置と復号方法およびプログラム
KR20130107257A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
KR20070083856A (ko) 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법
WO2011086923A1 (ja) 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
KR100501930B1 (ko) 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
JP2005004119A (ja) 音響信号符号化装置及び音響信号復号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150901